JP2014202777A

JP2014202777A - マスカー音信号の生成装置、生成方法およびプログラム

Info

Publication number: JP2014202777A
Application number: JP2013075882A
Authority: JP
Inventors: 訓史鵜飼; Norifumi Ukai; 高史山川; Takashi Yamakawa; 利晃石橋; Toshiaki Ishibashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2014-10-27

Abstract

【課題】マスキング性能の高いマスカー音信号を生成する手段を提供する。【解決手段】微細構造データ記憶手段１１０は、特定の音声のスペクトル微細構造および位相スペクトルを示す微細構造・位相データセットを複数、予め記憶している。包絡データ生成手段１１２は、マイク１２から順次取得されるターゲット音信号が表すターゲット音のスペクトル包絡を示す包絡データを順次生成する。ソース音信号生成部１１４３は、微細構造データ選択部１１４１により選択された微細構造・位相データセットと、包絡データ選択部１１４２により選択された包絡データとを用いて、ソース音信号を生成する。マスカー音信号生成部１１４４はソース音信号を用いてマスカー音信号を生成し、放音手段１１６はマスカー音信号に従いマスカー音の放音を行なう。【選択図】図３

Description

本発明は、話者により発声された音声の内容が、他人に漏れ聞こえることを防止するための音声マスキングの技術に関する。

公共の場で行われる会話の内容を他人に聞かれたくない場合がある。そのため、公共の場に音を放音することにより、他人が会話の内容を聞き取りにくくする音声マスキング（以下、単に「マスキング」と呼ぶ）と呼ばれる技術がある。本願においては、マスキングする音をマスカー音、マスカー音を表す信号をマスカー音信号、マスキングされる音をターゲット音、ターゲット音を表す信号をターゲット音信号、とそれぞれ呼ぶこととする。また、マスカー音信号の生成において素材として用いる音信号をソース音信号と呼ぶこととする。

例えば、ターゲット音との間に周波数特性の相関性が高い音をマスカー音として用いる場合は、ホワイトノイズのようにターゲット音との間に周波数特性の相関性が低い音をマスカー音として用いる場合と比較して、小さい音圧レベルで同等のマスキング効果が得られることが知られている。従って、人の音声をマスキングするために、人の音声を示す音信号を用いてマスカー音信号の生成を行う技術が提案されている。

例えば、特許文献１には、スペクトル包絡データベースに記憶された複数のスペクトル包絡に係るデータの中から選択したデータと、話者の音声信号から抽出したスペクトル微細構造とを合成してマスカー音のスペクトルを生成する装置が提案されている。

特開２００７−２３３２８４号公報

上述した特許文献１において提案されているマスキングの技術においては、話者の音声（ターゲット音）から抽出したスペクトル微細構造に含まれる音高の変動が、マスカー音の音高の変動に反映されるため、マスカー音の音高の変動を聞き取ることで会話の内容が他人に推測されてしまう場合があった。また、特許文献１において用いられる話者の音声から抽出したスペクトル微細構造は、データ量が多いため、処理に多くの時間と多くのバッファメモリを要する。処理に多くの時間を要すると、話者の音声の特徴に適したマスカー音を動的に素早く生成することは難しい。また、処理に多くのバッファメモリを要すると、コスト高となる。

このような事情に鑑み、本発明は、上述した従来技術の不具合を持たないマスキング性能の高いマスカー音信号を生成する手段を提供することを目的とする。

上述した課題を解決するために本発明は、特定の音のスペクトルの微細構造を表す微細構造データを取得する微細構造データ取得手段と、マスキングされる音であるターゲット音を表すターゲット音信号を取得するターゲット音信号取得手段と、前記ターゲット音信号取得手段により取得されるターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する包絡データ生成手段と、前記微細構造データ取得手段により取得される微
細構造データと前記包絡データ生成手段により生成される包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成するマスカー音信号生成手段とを備えるマスカー音信号の生成装置を提供する。

また、上記のマスカー音信号の生成装置において、前記マスカー音信号生成手段は、前記包絡データ生成手段により生成される母音の包絡データを用いて前記包絡データの生成を行なう構成としてもよい。

また、上記のマスカー音信号の生成装置において、前記マスカー音信号生成手段により生成されたマスカー音信号に従い放音を行う放音手段を備える構成としてもよい。

また、本発明は、特定の音のスペクトルの微細構造を表す微細構造データを取得するステップと、マスキングされる音であるターゲット音を表すターゲット音信号を取得するステップと、前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成するステップと、前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成ステップとを備えるマスカー音信号の生成方法を提供する。

また、本発明は、コンピュータに、特定の音のスペクトルの微細構造を表す微細構造データを取得する処理と、マスキングされる音であるターゲット音を表すターゲット音信号を取得する処理と、前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する処理と、前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成する処理とを実行させるマスカー音信号の生成のためのプログラムを提供する。

本発明にかかるマスカー音信号の生成技術によれば、音信号のスペクトル包絡を示す包絡データと、音信号のスペクトル微細構造を示す微細構造データとを用いて、ソース音信号が生成される。その際、音高の情報を持たずデータ量が少ない包絡データに関してはターゲット音を表すターゲット音信号から生成されるものが用いられ、音高の情報を持ちデータ量が多い微細構造データに関しては例えば予め記憶されている特定の音声のものが用いられる。そのため、スペクトル微細構造に含まれる音高の変化がマスカー音に現れることはなく、マスカー音から会話の内容が推測される危険性が低い。また、話者の音声の特徴に対応するマスカー音の特徴が早く更新されることによってマスキング性能が向上するとともに、処理に要するバッファメモリも少なくて済む。

本発明の一実施形態にかかるマスカー音放音装置が使用される状況を模式的に示した図である。本発明の一実施形態にかかるマスカー音放音装置のハードウェア構成を模式的に示した図である。本発明の一実施形態にかかるマスカー音放音装置の機能構成を模式的に示した図である。本発明の一実施形態にかかるマスカー音放音装置が記憶している微細構造データと位相データの生成手順を例示した図である。本発明の一実施形態にかかるマスカー音放音装置の包絡データ生成手段が包絡データを生成する手順を例示した図である。本発明の一実施形態にかかるマスカー音放音装置の包絡データ生成手段が生成する包絡データが示すスペクトル包絡の例を示した図である。本発明の一実施形態にかかるマスカー音放音装置の微細構造データ選択手段が微細構造・位相データセットを選択する規則を説明するための図である。本発明の一実施形態にかかるマスカー音放音装置のソース音信号生成部がソース音信号を生成する手順を例示した図である。本発明の一実施形態にかかるマスカー音放音装置のマスカー音信号生成手段が生成するマスカー音信号の構成を示した図である。

［実施形態］
図１は、本発明の実施形態にかかるマスカー音放音装置１１が使用される状況を模式的に示した図である。音空間ＳＰは例えば医療機関のロビーであり、受付デスクＤＫを挟んで医療スタッフＡと患者Ｂが会話している。音空間ＳＰには患者Ｂと無関係な来院者Ｃがいる。医療スタッフＡと患者Ｂとの間の会話には秘匿すべき個人情報が含まれる可能性があるため、その会話の内容が来院者Ｃに漏れ聞こえることは望ましくない。そのような漏れ聞こえを防止するために、音空間ＳＰ内にはマスカー音を放音するマスカー音放音装置１１が配置されている。

また、受付デスクＤＫ上には、音空間ＳＰ内の音を収音する収音装置であるマイク１２が配置されている。マイク１２は主に音空間ＳＰ内で話者から発音される音声（図１においては、主に医療スタッフＡと患者Ｂの音声）を収音し、当該音声（ターゲット音）を示すデジタル信号をターゲット音信号として順次生成する。マイク１２は生成したターゲット音信号を無線によりマスカー音放音装置１１に順次送信する。マイク１２から送信されるターゲット音信号は、マスカー音放音装置１１においてマスカー音信号の生成に用いられる。

図２は、マスカー音放音装置１１のハードウェア構成を模式的に示した図である。マスカー音放音装置１１は、各種制御処理を行うＣＰＵ１０１、ＣＰＵ１０１に対する処理を指示するプログラムや後述する微細構造データなどの各種データを予め記憶するＲＯＭ１０２、ＣＰＵ１０１がワーキングエリアとして一時的に各種データ（後述する包絡データなど）を記憶するために用いるＲＡＭ１０３、マイク１２から送信されてくるターゲット音信号を受信するインタフェースである音信号入力Ｉ／Ｆ１０４、ＣＰＵ１０１がデジタル信号として生成するマスカー音信号をアナログ信号に変換するＤ／Ａコンバータ１０５、アナログ信号に変換されたマスカー音信号をスピーカ駆動レベルまで増幅するアンプ１０６、スピーカ駆動レベルまで増幅されたマスカー音信号に従いマスカー音を放音するスピーカ１０７を備えている。

図３は、マスカー音放音装置１１の機能構成を模式的に示した図である。すなわち、図２に示したマスカー音放音装置１１のハードウェア構成は、ＲＯＭ１０２に記憶された本実施形態にかかるプログラムに従うＣＰＵ１０１の制御の下で動作する結果、図３に示す構成部を備える装置として機能する。

マスカー音放音装置１１はその機能構成部として、まず、モデルとなる人の音声のスペクトル微細構造を各々示す複数の微細構造データを同じ音声の位相を示す位相データとともに予め記憶する微細構造データ記憶手段１１０を備えている。

微細構造データ記憶手段１１０に予め記憶されている微細構造データおよび位相データは、マスカー音放音装置１１とは異なる装置であるスペクトル分析装置により、特定の音声を示す音声信号から生成されたデータである。従って、微細構造データ記憶手段１１０に予め記憶されている微細構造データおよび位相データと、ターゲット音（この場合、音空間ＳＰにおける医療スタッフＡと患者Ｂの音声）の微細構造データおよび位相データとの間には、少なくとも音高の変化に関し相関性はない。図４は、スペクトル分析装置が微
細構造データ記憶手段１１０に記憶されている微細構造データと位相データを生成する手順を例示した図である。

スペクトル分析装置は、人の音声を表す時間波形信号である音声信号から順次所定の時間長（例えば、通常の話速の音声における音素の平均的な長さである１００〜２００ｍｓ程度の所定の時間長が望ましいが、それに限られない）で取り出した音声信号Ｄ１の各々に関し、まず、ハニング窓等の所定の窓関数を掛けた音声信号をフーリエ変換し（ステップＳ００１）、短時間スペクトルＤ２を生成する。続いて、スペクトル分析装置は、短時間スペクトルＤ２の絶対値を対数変換し（ステップＳ００２）、対数振幅スペクトルＤ３を生成する。

続いて、スペクトル分析装置は、対数振幅スペクトルＤ３を逆フーリエ変換し（ステップＳ００３）、ケプストラムＤ４を生成する。ケプストラムＤ４の低次成分は対数振幅スペクトルＤ３の包絡であるスペクトル包絡に応じた成分であり、ケプストラムＤ４の高次成分は対数振幅スペクトルＤ３からスペクトル包絡の成分を差し引いた成分であるスペクトル微細構造に応じた成分である。

続いて、スペクトル分析装置は、ケプストラムＤ４の低次成分をカットするリフタリングを行なった後、フーリエ変換を行ない（ステップＳ００４）、スペクトル微細構造を示す微細構造データＦＳを生成する。

また、スペクトル分析装置は、上記のステップＳ００１により生成した短時間スペクトルＤ２の偏角を位相スペクトルとして算出し（ステップＳ１０１）、算出した位相スペクトルを示す位相データＰＨを生成する。

スペクトル分析装置が、音声信号から順次取り出した複数のフレームの各々に関し上記の手順に従い生成した複数の微細構造データＦＳおよび位相データＰＨが、微細構造データ記憶手段１１０に記憶されている微細構造データおよび位相データである。以下、同じ音声信号のフレームから生成された微細構造データＦＳと位相データＰＨの組を、微細構造・位相データセットＦＰと呼ぶ。

図３に戻り、マスカー音放音装置１１の機能構成の説明を続ける。マスカー音放音装置１１は、マイク１２から送信されてくるターゲット音信号を順次取得するターゲット音信号取得手段１１１と、ターゲット音信号取得手段１１１により取得されたターゲット音信号が表す音のスペクトルの包絡を示す包絡データを順次生成する包絡データ生成手段１１２と、包絡データ生成手段１１２により生成された包絡データを順次記憶する包絡データ記憶手段１１３を備えている。

図５は、包絡データ生成手段１１２が包絡データを生成する手順を例示した図である。包絡データ生成手段１１２は、ターゲット音信号取得手段１１１により取得されたターゲット音信号から順次所定の時間長（例えば、通常の話速の音声における音素の平均的な長さである１００〜２００ｍｓ程度の所定の時間長が望ましいが、それに限られない）で取り出したターゲット音信号Ｄ１１の各々に関し、上述したスペクトル分析装置が行なうステップＳ００１〜Ｓ００３と同様の処理を、ステップＳ２０１〜Ｓ２０３として行なう。包絡データ生成手段１１２は、ステップＳ２０１〜Ｓ２０３の処理により、上述したスペクトル分析装置が音声信号Ｄ１に関し生成する短時間スペクトルＤ２、対数振幅スペクトルＤ３およびケプストラムＤ４と同様のデータを、ターゲット音信号Ｄ１１に関し短時間スペクトルＤ１２、対数振幅スペクトルＤ１３およびケプストラムＤ１４として生成する。

包絡データ生成手段１１２が生成するケプストラムＤ１４の低次成分は対数振幅スペクトルＤ１３の包絡であるスペクトル包絡に応じた成分である。従って、包絡データ生成手段１１２は、ケプストラムＤ１４の高次成分をカットするリフタリングを行なった後、フーリエ変換を行ない（ステップＳ２０４）、スペクトル包絡を示す包絡データＤ１５を生成する。

図６は、包絡データ生成手段１１２が生成する包絡データＤ１５が示すスペクトル包絡の例を示した図である。図６（ａ）は「ア」の音声のスペクトル包絡を、図６（ｂ）は「イ」の音声のスペクトル包絡を示している。図６（ａ）（ｂ）の各々に関し、スペクトル包絡がピークを示す点はフォルマントと呼ばれ、周波数が低い方から順に、第１フォルマント（図６におけるＦ１）、第２フォルマント（図６におけるＦ２）、・・・のように呼ばれる。なお、各母音の第１フォルマント、第２フォルマント、・・・の相対的な位置関係は発声者の如何に関わらず概ね定まっている。一方、子音は明確な基本周波数がなく、発音中、安定したフォルマントが現れない。

包絡データ生成手段１１２は、上記のような母音と子音のスペクトル包絡が持つ特性を利用し、ステップＳ２０４において生成した包絡データＤ１５のうち、母音のスペクトル包絡を示す包絡データのみを包絡データＥＶとして選択する（図５、ステップＳ２０５）。具体的には、包絡データ生成手段１１２は母音が示す所定の位置関係のフォルマントを示す包絡データＤ１５を母音のスペクトル包絡を示す包絡データＥＶとして選択する。

包絡データ記憶手段１１３は、上記のように包絡データ生成手段１１２が生成する母音の包絡データＥＶを順次記憶するとともに、記憶している包絡データＥＶが所定数を超えないように、古いものから順に包絡データＥＶを削除する。

再び図３に戻り、マスカー音放音装置１１の機能構成の説明を続ける。マスカー音放音装置１１は、微細構造データ記憶手段１１０に記憶されている微細構造・位相データセットＦＰと、包絡データ記憶手段１１３に記憶されている包絡データＥＶを用いてマスカー音信号を生成するマスカー音信号生成手段１１４を備えている。

マスカー音信号生成手段１１４は、まず、微細構造データ記憶手段１１０に記憶されている複数の微細構造・位相データセットＦＰの中から所定の規則に従い微細構造・位相データセットＦＰを４つずつ順次選択する微細構造データ選択部１１４１（微細構造データ取得手段の一例）を備えている。

図７は、微細構造データ選択部１１４１が微細構造・位相データセットＦＰを選択する規則を説明するための図である。図７に示すように、微細構造データ記憶手段１１０に記憶されている微細構造・位相データセットＦＰの数は４ｎ個（ただし、ｎは所定の自然数）であり、そのそれぞれを微細構造・位相データセットＦＰ（１）〜ＦＰ（４ｎ）とする。

微細構造データ選択部１１４１は、所定時間毎（以下、１４９ｍｓ毎とする）に、微細構造・位相データセットＦＰ（ｋ）、ＦＰ（ｎ＋ｋ）、ＦＰ（２ｎ＋ｋ）、ＦＰ（３ｎ＋ｋ）（ただし、ｋは１≦ｋ≦ｎである自然数）を、ｋを１からｎの範囲内で１ずつ増加させながら（ｋがｎに達した後はｋを１に戻した後、１ずつ増加させながら）、選択する。

再び図３に戻り、マスカー音放音装置１１の機能構成の説明を続ける。マスカー音信号生成手段１１４は、包絡データ記憶手段１１３に記憶されている複数の包絡データＥＶの中からランダムに包絡データＥＶを４つずつ順次選択する包絡データ選択部１１４２を備えている。包絡データ選択部１１４２は、包絡データ記憶手段１１３に記憶されている包
絡データＥＶの中から、所定時間毎（以下、１４９ｍｓ毎とする）に、４つの包絡データＥＶ₁、ＥＶ₂、ＥＶ₃、ＥＶ₄を選択する。

また、マスカー音信号生成手段１１４は、微細構造データ選択部１１４１により選択された微細構造・位相データセットＦＰと包絡データ選択部１１４２により選択された包絡データＥＶと用いて、所定時間長（以下、１７０ｍｓとする）のソース音信号を生成するソース音信号生成部１１４３を備えている。

ソース音信号生成部１１４３は、微細構造データ選択部１１４１により１４９ｍｓ毎に選択される４つの微細構造・位相データセットＦＰと、包絡データ選択部１１４２により１４９ｍｓ毎に選択される４つの包絡データＥＶとを以下のように組み合わせる。
（１）微細構造・位相データセットＦＰ（ｋ）と包絡データＥＶ₁
（２）微細構造・位相データセットＦＰ（ｎ＋ｋ）と包絡データＥＶ₂
（３）微細構造・位相データセットＦＰ（２ｎ＋ｋ）と包絡データＥＶ₃
（４）微細構造・位相データセットＦＰ（３ｎ＋ｋ）と包絡データＥＶ₄

続いて、ソース音信号生成部１１４３は、例えば図８に示す手順に従い、ソース音信号を生成する。まず、ソース音信号生成部１１４３は、上記の４つの組み合わせの各々に関し、微細構造・位相データセットＦＰ（（ｉ−１）ｎ＋ｋ）（ただし、ｉは１≦ｉ≦４の任意の自然数）に含まれる微細構造データＦＳ（（ｉ−１）ｎ＋ｋ）と包絡データＥＶ_iとを加算して対数振幅スペクトルＤ２１を生成する（ステップＳ３０１）。続いて、ソース音信号生成部１１４３は、対数振幅スペクトルＤ２１を指数演算して短時間スペクトルＤ２２を生成し（ステップＳ３０２）、さらに微細構造・位相データセットＦＰ（（ｉ−１）ｎ＋ｋ）に含まれる位相データＰＨ（（ｉ−１）ｎ＋ｋ）と乗算して複素信号Ｄ２３を生成する（ステップＳ３０３）。続いて、ソース音信号生成部１１４３は、複素信号Ｄ２３に逆フーリエ変換を行なって、時間波形信号であるソース音信号を生成する（ステップＳ３０４）。その際、ソース音信号生成部１１４３が生成するソース音信号の時間長は１７０ｍｓである。

以下、ソース音信号生成部１１４３がタイミングｔにおいて生成する４つのソース音信号を各々、ソース音信号ＳＳ₁（ｔ）、ＳＳ₂（ｔ）、ＳＳ₃（ｔ）、ＳＳ₄（ｔ）とする。なお、ソース音信号ＳＳ₁（ｔ）は微細構造・位相データセットＦＰ（ｋ）と包絡データＥＶ₁から生成されたソース音信号、ソース音信号ＳＳ₂（ｔ）は微細構造・位相データセットＦＰ（ｎ＋ｋ）と包絡データＥＶ₂から生成されたソース音信号、ソース音信号ＳＳ₃（ｔ）は微細構造・位相データセットＦＰ（２ｎ＋ｋ）と包絡データＥＶ₃から生成されたソース音信号、ソース音信号ＳＳ₄（ｔ）は微細構造・位相データセットＦＰ（３ｎ＋ｋ）と包絡データＥＶ₄から生成されたソース音信号である。

マスカー音信号生成手段１１４は、ソース音信号生成部１１４３により生成されたソース音信号を用いてマスカー音信号を生成するマスカー音信号生成部１１４４を備えている。マスカー音信号生成部１１４４は、まず、ソース音信号生成部１１４３により１４９ｍｓ毎に生成される４つのソース音信号ＳＳ₁（ｔ）、ＳＳ₂（ｔ）、ＳＳ₃（ｔ）、ＳＳ₄（ｔ）をミキシングした後、ミキシングされたソース音信号にリバース処理を施してマスカー音信号ＭＳ（ｔ）を生成する。本実施形態におけるリバース処理とは、１７０ｍｓのミキシングされたソース音信号を構成するサンプルデータを時間軸方向に逆の順序で並び替える処理である。マスカー音信号生成部１１４４は上記のように生成した１７０ｍｓのマスカー音信号ＭＳ（ｔ）を、過去に生成してマスカー音信号記憶手段１１５に記憶されている約１．５秒のマスカー音信号の時間軸方向の末尾に連結する。

図９は、マスカー音信号生成部１１４４が生成するマスカー音信号が、１４９ｍｓ毎に
順次連結される複数のマスカー音信号により構成されている様子を示した図である。タイミングｔにおいて、マスカー音信号記憶手段１１５は、時間軸方向の末尾から順に、マスカー音信号ＭＳ（ｔ−１）、ＭＳ（ｔ−２）、・・・、ＭＳ（ｔ−１０）を順次、２１ｍｓのオーバーラップ期間を伴い連結した約１．５秒の音信号をマスカー音信号として記憶している。なお、タイミングｔにおいて、放音手段１１６はマスカー音信号記憶手段１１５に記憶されているマスカー音信号のうち、例えばマスカー音信号ＭＳ（ｔ−９）の部分に従いマスカー音の放音を行なっている。

その後、マスカー音信号生成部１１４４は、例えばタイミング（ｔ＋１）において新たにマスカー音信号ＭＳ（ｔ）を生成すると、マスカー音信号記憶手段１１５に記憶されているマスカー音信号の末尾に、新たに生成したマスカー音信号ＭＳ（ｔ）を２１ｍｓのオーバーラップ期間を設けて連結することで、マスカー音信号の更新を行なう。その際、マスカー音信号生成部１１４４は、マスカー音信号のうち既に放音に用いられた部分であるマスカー音信号ＭＳ（ｔ−１０）をマスカー音信号記憶手段１１５から削除する。その結果、タイミング（ｔ＋１）においては、マスカー音信号記憶手段１１５には、時間軸方向の末尾から順に、マスカー音信号ＭＳ（ｔ）、ＭＳ（ｔ−１）、・・・、ＭＳ（ｔ−９）を順次、２１ｍｓのオーバーラップ期間を伴い連結した約１．５秒の音信号がマスカー音信号として記憶されることになる。

再び図３に戻り、マスカー音放音装置１１の機能構成の説明を続ける。マスカー音放音装置１１は、マスカー音信号生成手段１１４により生成されたマスカー音信号を記憶するマスカー音信号記憶手段１１５と、マスカー音信号記憶手段１１５に記憶されているマスカー音信号に従い音空間ＳＰにマスカー音を放音する放音手段１１６を備えている。

放音手段１１６は、上記のようにマスカー音信号記憶手段１１５に記憶され、マスカー音信号生成部１１４４により１４９ｍｓ毎に更新されるマスカー音信号に従い、順次音空間ＳＰに対するマスカー音の放音を行なう。

上記の構成を備えるマスカー音放音装置１１が音空間ＳＰに放音するマスカー音は、マイク１２により順次収音され生成されるターゲット音を示すターゲット音信号から生成された包絡データと、ターゲット音とは異なる音声信号から生成され予め記憶されている微細構造データおよび位相データとを用いて生成された音である。

包絡データが示すスペクトル包絡には、発声者の声道や鼻腔における共振、反共振の特性等が反映されているため、発声者の個人の特徴（声道や鼻腔の形状の個人差）が反映されている。一方、微細構造データが示すスペクトル微細構造には、発声者の個人の特徴ではなく、発声された音声の音高（ピッチ）の変動が反映される。従って、スペクトル包絡はスペクトル微細構造と比較し、発声者の音声の個人の特徴をより強く反映したデータであると言える。

マスカー音放音装置１１が放音するマスカー音は、ターゲット音のスペクトル包絡を用いて生成されているため、ターゲット音の発声者の特徴を備えた音である。そのため、マスカー音放音装置１１から放音されるマスカー音をターゲット音と同時に耳にする聴者にとって、それらの音を分離することは容易ではなく、高いマスキング効果が得られる。

また、マスカー音放音装置１１が放音するマスカー音は、ターゲット音とは異なる音声のスペクトル微細構造を用いて生成されているため、マスカー音の音高の変化には、ターゲット音の音高の変化との関連性はない。従って、マスカー音放音装置１１から放音されるマスカー音の音高の変化によって、聴者がターゲット音の会話の内容を推測することはできない。

また、マスカー音放音装置１１がマスカー音信号を生成するにあたり、ターゲット音信号のスペクトルの微細構造は用いられないため、包絡データよりデータ量が多い微細構造データを用いた処理方式と比較し、本願の処理方式は、ターゲット音の特徴に適したマスカー音を動的に素早く生成できるとともに、データ処理に要するバッファメモリも少なくてよく、低コストでマスカー音信号の生成が可能である。

［変形例］
上述した実施形態は本発明の技術的思想の範囲内において様々に変形可能である。以下にこれらの変形の例を示す。

（１）上述したマスカー音放音装置１１は放音手段１１６を備えるが、マスカー音放音装置１１は放音手段を備えず、マスカー音信号生成手段１１４により生成されたマスカー音信号を外部のスピーカ等の放音装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置１１から出力されるマスカー音信号に従い、外部の放音装置により音空間ＳＰに対するマスカー音の放音が行なわれる。

（２）上述したマスカー音放音装置１１はマスカー音信号生成部１１４４を備えるが、マスカー音放音装置１１はマスカー音信号生成部１１４４を備えず、ソース音信号生成部１１４３により生成されたソース音信号を外部の音信号処理装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置１１から出力されるソース音信号を用いて、外部の音信号処理装置によりマスカー音信号の生成が行なわれる。

（３）上述したマスカー音放音装置１１はソース音信号生成部１１４３を備えるが、マスカー音放音装置１１はソース音信号生成部１１４３を備えず、微細構造データ選択部１１４１により選択された微細構造・位相データセットＦＰと、包絡データ選択部１１４２により選択された包絡データＥＶとにより特定されるソース音信号のスペクトルを示すデータを外部の音信号処理装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置１１から出力されるスペクトルを示すデータを用いて、外部の音信号処理装置によりソース音信号の生成が行なわれる。

（４）上述したマスカー音放音装置１１はマイク１２からターゲット音信号をデジタル信号として取得する構成が採用されているが、マスカー音放音装置１１がマイク１２から取得するターゲット音信号はアナログ信号であってもよい。この場合、マスカー音放音装置１１はターゲット音信号をアナログ信号からデジタル信号に変換するＡ／Ｄコンバータを備えることで、デジタル信号処理によるマスカー音信号の生成を行なうことができる。

（５）上述したマスカー音放音装置１１はマイク１２からターゲット音信号を無線により受信する構成が採用されているが、マスカー音放音装置１１がマイク１２から有線によりターゲット音信号を受信する構成が採用されてもよい。また、マスカー音放音装置１１がマイク１２を内蔵する構成が採用されてもよい。

（６）上述したマスカー音放音装置１１は、マイク１２が収音する音のうち、スピーカ１０７から放音されるマスカー音の成分を除去するキャンセラを備える構成が採用されてもよい。キャンセラを備えることにより、包絡データ生成手段１１２が生成する包絡データは、発声者の音声のスペクトル包絡をより正しく表すものとなる。

（７）上述したマスカー音放音装置１１の微細構造データ選択部１１４１による微細構造・位相データセットＦＰの選択の方法および包絡データ選択部１１４２による包絡データ
ＥＶの選択の方法はあくまで一例であって、包絡データＥＶが生成された順序と異なる順序で選択されれば、他の方法でもよい。例えば、微細構造データ選択部１１４１が微細構造・位相データセットＦＰをランダムに選択してもよいし、包絡データ選択部１１４２が包絡データＥＶを所定の規則に従い選択してもよい。

（８）上述したマスカー音放音装置１１がマイク１２からターゲット音信号を取得するタイミングから、当該ターゲット音信号を用いて生成したマスカー音信号に従い放音を行なうタイミングまでには、音信号処理に要する時間（以下、この時間を「遅延時間ＤＬ」と呼ぶ）の遅れが伴う。従って、音空間ＳＰ内で誰も発声をしていない状態から誰かが発声を開始した場合、遅延時間ＤＬの間は無音を表すターゲット音信号を用いてマスカー音信号が生成されるため、マスカー音放音装置１１から放音されるマスカー音は無音となってしまう。

この無音の間をなくすために、マスカー音放音装置１１が予めターゲット音の周波数特性によらず一定以上のマスキング効果をもたらすマスカー音信号をＲＯＭ１０２等に記憶しておき、例えばターゲット音信号の振幅レベルが所定の閾値以上であり、マスカー音信号の振幅レベルが所定の閾値以下である間は、マスカー音信号生成手段１１４により生成されるマスカー音信号に代えて、予め記憶しておいたマスカー音信号に従いマスカー音の放音を行なう構成が採用されてもよい。

また、音空間ＳＰ内における発声者が変わった場合、上述したマスカー音放音装置１１は、遅延時間ＤＬの間、現在の発声者の音を表すターゲット音信号ではなく、過去の発声者の音を表すターゲット音信号を用いて生成したマスカー音信号に従いマスカー音の放音を行なうため、マスキングの性能がその間、やや低下する可能性がある。

このマスキングの性能の低下の程度を少なくするために、マスカー音放音装置１１が予めターゲット音の周波数特性によらず一定以上のマスキング効果をもたらすマスカー音信号をＲＯＭ１０２等に記憶しておき、音空間ＳＰ内の発話者が変わったことを判定する判定手段を備え、発話者が変わったと判定した後の遅延時間ＤＬの間は、マスカー音信号生成手段１１４により生成されるマスカー音信号に代えて、予め記憶しておいたマスカー音信号に従いマスカー音の放音を行なう構成が採用されてもよい。なお、判定手段が音空間ＳＰ内の発話者が変わったことを判定する条件としては、例えば、ターゲット音信号が表す現在の音声と所定時間前の音声との周波数特性の相関性が閾値以下である、といった条件が考えられる。

（９）上述したマスカー音放音装置１１のマスカー音信号生成部１１４４はマスカー音信号の生成にあたり、ソース音信号生成部１１４３により生成された４つのソース音信号をミキシングする。マスカー音放音装置１１がマスカー音信号の生成のためにミキシングするソース音信号の数は４つに限られず、４つ以外の数のソース音信号がミキシングされてマスカー音信号の生成に用いられる構成が採用されてもよい。また、マスカー音放音装置１１はマスカー音信号の生成にあたり、ソース音信号のミキシングを行なわなくてもよい。

（１０）上述したマスカー音放音装置１１のマスカー音信号生成部１１４４はマスカー音信号の生成にあたり、ソース音信号（ソース音信号生成部１１４３により生成された４つのソース音信号をミキシングして生成したソース音信号）に対しリバース処理を施すが、マスカー音放音装置１１はマスカー音信号の生成にあたり、ソース音信号に対しリバース処理を施さなくてもよい。

（１１）上述したマスカー音放音装置１１が用いる微細構造データおよび位相データの生
成方法は一例であって、マスカー音放音装置１１がマスカー音信号の生成に用いる微細構造データおよび位相データは、既知の如何なる方法によって生成されたスペクトル微細構造および位相スペクトルを示すデータであってもよい。同様に、上述したマスカー音放音装置１１の包絡データ生成手段１１２が行なう包絡データの生成方法は一例であって、包絡データ生成手段１１２が包絡データを生成する方法は、スペクトル包絡を示すデータを生成する既知の如何なる方法であってもよい。例えば、ケプストラムを用いる方法に代えて、線形予測法によりスペクトル微細構造とスペクトル包絡とを分離する方法が採用されてもよい。

（１２）上述したマスカー音放音装置１１は、微細構造・位相データセットＦＰを予めＲＯＭ１０２等に記憶している。マスカー音放音装置１１が微細構造・位相データセットＦＰを取得する方法はこれに限られず、例えばマスカー音放音装置１１がインターネットなどのネットワークや記憶媒体を介して、外部の装置から微細構造・位相データセットＦＰを取得する構成が採用されてもよい。

（１３）上述したマスカー音放音装置１１が行なう処理の順序は、同様の結果が得られる限り変更されてもよい。例えば、マスカー音信号生成部１１４４はマスカー音信号の生成にあたり、４つのソース音信号をミキシングした後にリバース処理する代わりに、４つのソース音信号の各々をリバース処理した後にミキシングしてもよい。

（１４）上述したマスカー音放音装置１１は、マイク１２により収音したターゲット音を表すターゲット音信号の取得と当該取得したターゲット音信号を用いたマスカー音信号の生成の処理を同時並行して行う。これに代えて、例えばマスカー音放音装置１１が、予め生成されている話者の音声を表す音信号を記憶手段もしくは外部の装置から取得して、ターゲット音信号に代えてマスカー音信号の生成に用いる構成としてもよい。例えば、概ね同じ話者が同じ会議室で繰り返し会議を行うような場合、マイク１２から取得するターゲット音信号に代えて過去に当該会議室において収音により生成されたそれらの話者の音声を表す音信号が用いられても、同様の効果が得られる。

（１５）上述した実施形態において、マスカー音放音装置１１は一般的なコンピュータが本実施形態にかかるプログラムに従った処理を実行することにより実現されるものとしたが、これらの装置がいわゆる専用機として実現されてもよい。

（１６）なお、上述した実施形態において説明に用いた具体的な数値はあくまで例示であって、他の数値が採用されてもよい。また、上述した実施形態および変形例は適宜組み合わされてもよい。

１１…マスカー音放音装置、１２…マイク、１０１…ＣＰＵ、１０２…ＲＯＭ、１０３…ＲＡＭ、１０４…音信号入力Ｉ／Ｆ、１０５…Ｄ／Ａコンバータ、１０６…アンプ、１０７…スピーカ、１１０…微細構造データ記憶手段、１１１…ターゲット音信号取得手段、１１２…包絡データ生成手段、１１３…包絡データ記憶手段、１１４…マスカー音信号生成手段、１１５…マスカー音信号記憶手段、１１６…放音手段、１１４１…微細構造データ選択部、１１４２…包絡データ選択部、１１４３…ソース音信号生成部、１１４４…マスカー音信号生成部。

Claims

特定の音のスペクトルの微細構造を表す微細構造データを取得する微細構造データ取得手段と、
マスキングされる音であるターゲット音を表すターゲット音信号を取得するターゲット音信号取得手段と、
前記ターゲット音信号取得手段により取得されるターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する包絡データ生成手段と、
前記微細構造データ取得手段により取得される微細構造データと前記包絡データ生成手段により生成される包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成するマスカー音信号生成手段と
を備えるマスカー音信号の生成装置。
前記マスカー音信号生成手段は、前記包絡データ生成手段により生成される母音の包絡データを用いて前記包絡データの生成を行なう
請求項１に記載のマスカー音信号の生成装置。
前記マスカー音信号生成手段により生成されたマスカー音信号に従い放音を行う放音手段を備える
請求項１または２に記載のマスカー音信号の生成装置。
特定の音のスペクトルの微細構造を表す微細構造データを取得するステップと、
マスキングされる音であるターゲット音を表すターゲット音信号を取得するステップと、
前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成するステップと、
前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成ステップと
を備えるマスカー音信号の生成方法。
コンピュータに、
特定の音のスペクトルの微細構造を表す微細構造データを取得する処理と、
マスキングされる音であるターゲット音を表すターゲット音信号を取得する処理と、
前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する処理と、
前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成する処理と
を実行させるマスカー音信号の生成のためのプログラム。