JP6098654B2

JP6098654B2 - マスキング音データ生成装置およびプログラム

Info

Publication number: JP6098654B2
Application number: JP2015041275A
Authority: JP
Inventors: 高史山川
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-03-10
Filing date: 2015-03-03
Publication date: 2017-03-22
Anticipated expiration: 2035-03-03
Also published as: JP2015187714A; EP2919229A1; US20150256930A1; CN104916291A

Description

本発明は音声マスキングに関する。

音声による情報伝達を阻害するための音（マスキング音）を放音することにより、会話の漏れ聞こえを防止する技術（音声マスキング）がある。

マスキング音の生成に関する文献として、例えば特許文献１〜３がある。特許文献１には、マスキング音及び暗騒音の周波数スペクトルが会話者の音声の周波数スペクトルと同じになるようにマスキング音を周波数フィルタ処理することにより、第三者が不快と感じにくいマスキング音を生成する技術が提案されている。また、特許文献２には、部屋から収音したターゲット音信号の各帯域の包絡線を示す包絡線信号を複数のフレームに区切り、信号の振幅が下限の閾値以上かつ上限の閾値以下のフレームの配列順をランダムに変更して得られる包絡線信号に雑音信号を乗算することにより、喧騒感や不自然さを感じさせないようなマスキング音を生成する技術が提案されている。また、特許文献３には、音声マスキングではないが、スピーカを介した電気有効信号の再生を妨げる車両の走行騒音の影響を低減するための音として、個々の周波数帯域のレベルを車両の瞬時速度に応じて個別に調整した音を生成する技術が提案されている。

特開２００６−２６７１７４号公報特開２０１０−２１７８８３号公報特開平０６−１８６９８６号公報

上述の特許文献１〜３に例示される従来技術においては、マスキング音の生成において、全ての周波数帯域に対し同じ規則に従った処理が行われる。しかしながら、音声の全ての周波数帯域が同等に音声の情報伝達に寄与するわけではない。また、マスキング音の全ての周波数帯域が同等に聴者に不快感や違和感を与えるわけではない。本発明は、情報伝達、または聴者に与える不快感や違和感におけるマスキング音の周波数帯域毎の役割を考慮せずに生成されたマスキング音と比較し、マスキング効率の高いマスキング音、もしくは不快感や違和感の少ないマスキング音を生成する技術を提供することを目的とする。

上記課題を解決するため、本発明に係るマスキング音データ生成装置は、マスキング音データの生成に用いられる音を示すソース音データを取得するソース音データ取得手段と、マスキング対象の話者の音声を示す話者音データを取得する話者音データ取得手段と、前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する帯域レベル特定手段と、前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する帯域レベル設定手段とを備え、前記帯域レベル設定手段は、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域の各々のレベルを、互いに異なる前記所定の規則に従い設定する。

前記帯域レベル設定手段は、前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも２つの周波数帯域の各々のレベルと、前記ソース音データの当該少なくとも２つの周波数帯域の各々の設定前のレベルに対する設定後のレベルの比であるゲインと、の関係が異なる前記所定の規則となるように、前記ソース音データの当該少なくとも２つの周波数帯域のレベルの設定を行う構成としてもよい。

前記帯域レベル設定手段は、前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも２つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる前記所定の規則となるように、前記ソース音データの当該少なくとも２つの周波数帯域のレベルの設定を行う構成としてもよい。

前記マスキング音データ生成装置は、暗騒音を示す暗騒音データを取得する暗騒音データ取得手段を備え、前記帯域レベル特定手段は、前記暗騒音データにおける２以上の周波数帯域の各々のレベルを特定し、前記帯域レベル設定手段は、前記マスキング音データの生成において、前記帯域レベル特定手段が前記暗騒音データに関しレベルを特定した２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記暗騒音データの当該周波数帯域のレベルに基づき所定の規則に従い設定する構成としてもよい。

また、本発明に係るプログラムは、コンピュータに、マスキング音データの生成に用いられる音を示すソース音データを取得する処理と、マスキング対象の話者の音声を示す話者音データを取得する処理と、前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する処理と、前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記レベルを特定する処理において特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する処理とを実行させ、前記２以上の周波数帯域の各々について前記ソース音データの当該周波数帯域のレベルを設定する処理において、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域のレベルを、互いに異なる前記所定の規則に従い設定させる。

また、本発明に係るマスキング音生成システムは、マスキング対象の話者の音声を収音し話者音データを生成し、前記話者音データを出力する収音装置と、マスキング音を示すマスキング音データを生成するマスキング音データ生成装置と、前記マスキング音データ生成装置が生成したマスキング音データをマスキング音として放音する放音装置とを備え、前記マスキング音データ生成装置は、マスキング音データの生成に用いられる音を示すソース音データを取得するソース音データ取得手段と、前記収音装置から出力された前記話者音データを取得する話者音データ取得手段と、前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する帯域レベル特定手段と、前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する帯域レベル設定手段と、前記帯域レベル設定手段が生成したマスキング音データを前記放音装置に出力する出力手段とを備え、前記帯域レベル設定手段は、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域のレベルを、互いに異なる前記所定の規則に従い設定する。

本発明によれば、情報伝達または聴者に与える不快感や違和感におけるマスキング音の周波数帯域毎の役割に応じて、周波数帯域毎に異なる規則に従いレベル調整のされたマスキング音が生成される。その結果、マスキング効率の高いマスキング音、もしくは不快感や違和感の少ないマスキング音が生成される。

実施形態に係るマスキング音生成システムの構成を示したブロック図。実施形態に係るマスキング音データ生成装置が用いるパラメータを例示した図。実施形態に係るマスキング音データ生成装置が用いるパラメータを例示した図。実施形態に係るマスキング音データ生成装置が用いるパラメータを例示した図。第１変形例に係るマスキング音生成システムの構成を示したブロック図。第２変形例に係るマスキング音生成システムの構成を示したブロック図。第３変形例に係るマスキング音生成システムの構成を示したブロック図。第４変形例に係るマスキング音生成システムの構成を示したブロック図。第５変形例に係るマスキング音生成システムの構成を示したブロック図。第６変形例に係るマスキング音生成システムの構成を示したブロック図。第７変形例に係るマスキング音生成システムの構成を示したブロック図。第８変形例に係るマスキング音生成システムの構成を示したブロック図。マスキング音データ生成装置が用いるパラメータを例示した図。マスキング音データ生成装置が用いるパラメータを例示した図。マスキング音データ生成装置が用いるパラメータを例示した図。マスキング音データ生成装置が用いるパラメータを例示した図。マスキング音データ生成装置の動作の概要を示すフローチャート。

［１．実施形態］
以下に本発明の一実施形態に係るマスキング音生成システム１の構成および動作を説明する。図１は、マスキング音生成システム１の構成を示したブロック図である。マスキング音生成システム１は、マスキング音を示す音データ（以下、「マスキング音データ」という）を生成するマスキング音データ生成装置１１と、話者Ａの音声（マスキング対象の音声）を収音し音データ（以下、「話者音データ」という）を生成する収音装置であるマイク１２と、マスキング音データを生成するために素材として用いられる音を示す音データ（以下、「ソース音データ」という）を記憶する記憶装置１３と、聴者Ｂ（話者Ａの音声の内容の伝達を阻害したい対象となる相手）がいる空間に対してマスキング音データ生成装置１１が生成するマスキング音データが示す音をマスキング音として放音する放音装置であるスピーカ１４と、を備えている。

記憶装置１３に記憶されるソース音データは、例えば、低音の声の人と高音の声の人、男性と女性、大人と子ども等のように各々属性の異なる人が、母音および子音を概ね均等に網羅する標準的な日本語の文章を読み上げた音声を示す音データに、音声の無意味化のための処理（例えば、一定長の時間長に分割したブロック内におけるデータを時間軸方向に反転したり、またはブロックの順序を入れ替えたりする処理）を施して生成されたデータである。

マスキング音データ生成装置１１は、マイク１２が生成する話者音データの入力を受ける入力ＩＦ（Interface）１１１と、入力ＩＦ１１１に入力された話者音データをｍ個（ｍ≧２）の周波数帯域に分割し周波数帯域毎の音データ（以下、「帯域話者音データ」という）を生成するバンドパスフィルタ（Bandpass Filter）群であるＢＰＦ１１２−１〜ｍ（以下、これらを総称して「ＢＰＦ１１２」という）と、ＢＰＦ１１２が生成した帯域話者音データの各々のレベルを特定するレベル検知回路（Level Detector）であるＬＤ１１３−１〜ｍ（以下、これらを総称して「ＬＤ１１３」という）と、を備える。ここで、入力ＩＦ１１１は話者音データ取得手段を構成し、ＢＰＦ１１２及びＬＤ１１３は帯域レベル特定手段を構成する。

さらに、マスキング音データ生成装置１１は、記憶装置１３に記憶されているソース音データの入力を受ける入力ＩＦ１１４と、入力ＩＦ１１４に入力されたソース音データを順次読み出して出力する再生部１１５と、再生部１１５が出力したソース音データをｍ個の周波数帯域に分割し周波数帯域毎の音データ（以下、「帯域ソース音データ」という）を生成するバンドパスフィルタ群であるＢＰＦ１１６−１〜ｍ（以下、これらを総称して「ＢＰＦ１１６」という）と、ＬＤ１１３−１〜ｍのうち同じ枝番のＬＤ１１３が特定した帯域話者音データのレベルに基づき、ＢＰＦ１１６−１〜ｍのうち同じ枝番のＢＰＦ１１６が生成した帯域ソース音データのレベルを変更する回路（レベルコントローラ、Level Controller）であるＬＣ１１７−１〜ｍ（以下、これらを総称して「ＬＣ１１７」という）と、を備える。ここで、入力ＩＦ１１４はソース音データ取得手段を構成する。

さらに、マスキング音データ生成装置１１は、ＬＣ１１７によりレベルの変更された帯域ソース音データを加算してマスキング音を示す音データ（以下、「マスキング音データ」という）を生成する加算器１１８と、加算器１１８が生成したマスキング音データをスピーカ１４に出力する出力ＩＦ１１９と、を備える。ここで、加算器１１８は、ＢＰＦ１１６及びＬＣ１１７と共に帯域レベル設定手段を構成する。

2
また、ＢＰＦ１１２、ＬＤ１１３、ＢＰＦ１１６、ＬＣ１１７の各帯域は、それぞれ１対１で対応する。具体的には、ｋを１≦ｋ≦ｍである任意の自然数とするとき、ＬＤ１１３−ｋはＢＰＦ１１２−ｋから帯域話者音データを取得し、当該帯域話者音データのレベルを特定する。また、ＬＣ１１７−ｋはＢＰＦ１１６−ｋから帯域ソース音データを取得し、ＬＤ１１３−ｋが特定した帯域話者音データのレベルに基づき、当該帯域ソース音データのレベルを変更する。

ＬＣ１１７−１〜ｍの各々はメモリを備え、当該メモリはＬＣ１１７−１〜ｍの各々に設定されたレベル変更パラメータを記憶している。ＬＣ１１７−１〜ｍの各々に応じたレベル変更パラメータは、ゲイン特定関数ＧＲ−１〜ｍ（以下、これらを総称して「ゲイン特定関数ＧＲ」という）と時定数ＴＣ−１〜ｍ（以下、これらを総称して「時定数ＴＣ」という）を含んでいる。

ゲイン特定関数ＧＲ−１〜ｍは、ＬＤ１１３−１〜ｍの各々が特定する帯域話者音データのレベル（以下、「参照信号レベル」という）と、ＢＰＦ１１６−１〜ｍの各々が取得する帯域ソース音データのレベルをＬＣ１１７−１〜ｍが変更する場合のゲインの収束値（以下、「目標ゲイン」という）との対応関係を示す関数である。また、時定数ＴＣ−１〜ｍは、ＬＣ１１７−１〜ｍのレベル変更におけるゲインが、ゲイン特定関数ＧＲ−１〜ｍで決定される目標ゲインへ収束するまでの応答の速さを示す数値である。ＬＣ１１７−１〜ｍの各々は、ゲイン特定関数ＧＲが示す参照信号レベルに応じた目標ゲインへ時定数ＴＣが示す応答の速さで収束するように、帯域ソース音データのレベルを各周波数帯域で制御する。なお、望ましいマスキング音データを得るために、ゲイン特定関数ＧＲ−１〜ｍの少なくとも２つが互いに異なっている。また、時定数ＴＣ−１〜ｍに関しても、望ましいマスキング音データを得るために、時定数ＴＣ−１〜ｍの少なくとも２つが互いに異なっている。

図２は、ゲイン特定関数ＧＲの３つの例（（ａ）〜（ｃ））を各々グラフで示したものである。図２中のグラフ（ａ）には目標ゲインに下限が設けられており、参照信号レベルがｌ₂以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。（ｂ）にも目標ゲインに下限が設けられており、参照信号レベルｌ₁以下（ｌ₁＜ｌ₂）において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。（ｃ）には目標ゲインに上限が設けられており、参照信号レベルがｌ₃以上（ｌ₂＜ｌ₃）において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₂（ｇ₁＜ｇ₂）を出力する。

図２中のグラフ（ａ）〜（ｃ）が示す３つのゲイン特定関数ＧＲを比較した場合、参照信号レベルの全ての領域において、同じ参照信号レベルの入力に対し、（ａ）よりも（ｂ）が、また（ｂ）よりも（ｃ）が、同一又はより大きい目標ゲインを出力する。従って、音声マスキングにおいて、伝達を阻害すべき音声の情報の重要度が低い周波数帯域のＬＣ１１７には、例えば、（ａ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定し、伝達を阻害すべき音声の情報の重要度が高い周波数帯域のＬＣ１１７には、例えば、（ｃ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定する。

音声の情報の重要度が高い周波数帯域としては、例えば、マスキングされるべき音声のフォルマントや子音の周波数成分を多く含む周波数帯域が挙げられる。

図３は、ゲイン特定関数ＧＲの他の３つの例（（ａ）〜（ｃ））を各々グラフで示したものである。図３中のグラフ（ａ）〜（ｃ）のいずれにも、目標ゲインに下限および上限が設けられている。すなわち、（ａ）〜（ｃ）のいずれも、参照信号レベルｌ₁以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。また、（ａ）〜（ｃ）のいずれも、参照信号レベルｌ₂以上（ｌ₁＜ｌ₂）において、参照信号レベルの大小に関わらず目標ゲインとして一定値を出力する。ただし、参照信号レベルｌ₂以上（ｌ₁＜ｌ₂）において（ａ）〜（ｃ）の各々が出力する目標ゲインの値は異なっており、（ａ）は一定値ｇ₂を、（ｂ）は一定値ｇ₃を、（ｃ）は一定値ｇ₄を、各々出力する
（ｇ₁＜ｇ₂＜ｇ₃＜ｇ₄）。

図３中のグラフ（ａ）〜（ｃ）が示す３つのゲイン特定関数ＧＲを比較した場合、参照信号レベルｌ₁以上において、同じ参照信号レベルの入力に対し、（ａ）よりも（ｂ）のゲイン特定関数ＧＲが、また（ｂ）よりも（ｃ）のゲイン特定関数ＧＲが、より大きい目標ゲインを出力する。マスキングされるべき音声のレベルが大きい程、当該音声の内容が聴者に漏れ聞こえる危険性も高まるため、情報伝達の阻止の重要度が高まる。従って、これらの３つのゲイン特定関数ＧＲを用いる場合、例えば、重要度の低い周波数帯域のＬＣ１１７には参照信号レベルが大きい領域において小さい目標ゲインを出力する（ａ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定し、重要度の高い周波数帯域のＬＣ１１７には参照信号レベルが大きい領域において大きい目標ゲインを出力する（ｃ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定する。

このように、音声マスキングにおいて、伝達を阻害すべき音声の情報の重要度に応じて、周波数帯域毎に最適なゲイン特定関数ＧＲを設定することにより、マスキング音データ生成装置１１により生成されるマスキング音データのマスキング効果を高めることができる。

なお、マスキング音データ生成装置１１が話者音データをマイク１２から受け取った後、当該話者音データの周波数帯域毎のレベルに応じて生成したマスキング音をスピーカ１４に出力するまでに若干の処理時間がかかる。従って、マスキング音データ生成装置１１が話者音データを取得した時の周波数帯域毎の参照信号レベルと、マスキング音が放音される時のマスキングされる音声の周波数帯域毎のレベルとは、若干異なる。しかしながら、マスキング音データ生成装置１１における処理時間等が十分に短ければ、マスキング音データ生成装置１１が話者音データを取得した時の周波数帯域毎の参照信号レベルは、概ねマスキング音が放音される時のマスキングされる音声の周波数帯域毎のレベルを示すと考えて差し支えない。

また、ゲイン特定関数ＧＲは、図２や図３に例示するもののように線形に変化するものに限られず、例えば図４に例示するもののように、非線形なものであってもよい。
なお、ＬＣ１１７のメモリに記憶されるゲイン特定関数ＧＲを示すデータは、例えば関数式を示すデータや参照信号レベルと目標ゲインとの対応表を示すデータ等のいずれの形式であってもよい。また、ＬＣ１１７は、参照信号レベルの入力に対しゲイン特定関数ＧＲが示す目標ゲインを出力するアナログ回路やデジタル回路として構成されてもよい。

ＬＣ１１７に設定されるもう一つのレベル変更パラメータである時定数ＴＣは、入力される参照信号レベルに応じてゲイン特定関数ＧＲに従い出力される目標ゲインに達するまでの応答の速さである。従って、大きい時定数ＴＣが設定されているＬＣ１１７は、入力される参照信号レベルに対する追従が遅く、参照信号レベルが急速に変化しても、ＬＣ１１７が帯域ソース音データのレベルを変化させる際のゲインは緩慢に変化することになる。一方、小さい時定数ＴＣが設定されているＬＣ１１７は、入力される参照信号レベルに対する追従が速く、参照信号レベルが急速に変化すれば、ＬＣ１１７が帯域ソース音データのレベルを変化させる際のゲインも急速に変化することになる。

例えば、子音の周波数成分を多く含む周波数帯域に関しては、急速にレベルが変化する子音をマスキングするために、マスキング音におけるレベルを参照信号レベルに応じて急速に変化させることがマスキング効果の観点から望ましい。従って、子音の周波数成分を多く含む周波数帯域のＬＣ１１７には小さい時定数ＴＣを設定することで、マスキング音データ生成装置１１により生成されるマスキング音データのマスキング効果を高めることができる。

また、例えば概ね３０〜２００Ｈｚの周波数帯域のレベルが小刻みに変化する音を聴くと、聴者が乗り物酔いに似た違和感や不快感をもつことがある。このため、概ね３０〜２００Ｈｚの周波数帯域に関しては、マスキング音におけるレベルを参照信号レベルの変化に比べ緩慢に変化させることが、聴者の違和感や不快感の低減の観点から望ましい。従って、概ね３０〜２００Ｈｚの周波数帯域のＬＣ１１７には大きい時定数ＴＣを設定することで、マスキング音データ生成装置１１により生成されるマスキング音データが聴者に与える違和感や不快感を低減することができる。

マスキング音生成システム１の動作は以下のとおりである。まず、ＢＰＦ１１２−１〜ｍの各々は、入力ＩＦ１１１を介して、マイク１２から話者Ａの音声を示す話者音データを継続的に受け取る。ＢＰＦ１１２−１〜ｍはマイク１２から受け取った話者音データをフィルタ処理して帯域話者音データを生成し、ＬＤ１１３−１〜ｍに引き渡す。ＬＤ１１３−１〜ｍはＢＰＦ１１２−１〜ｍから受け取った帯域話者音データが示す音のスペクトルラムの包絡線を求め、そのレベルを特定する。ＬＤ１１３−１〜ｍは、特定したレベルを参照信号レベルとしてＬＣ１１７−１〜ｍに引き渡す。

入力ＩＦ１１１、ＢＰＦ１１２およびＬＤ１１３による上記の処理と並行して、再生部１１５は、入力ＩＦ１１４を介して記憶装置１３からソース音データを順次読み出してＢＰＦ１１６−１〜ｍに引き渡す。ＢＰＦ１１６−１〜ｍは受け取ったソース音データをフィルタ処理して帯域ソース音データを生成し、ＬＣ１１７−１〜ｍに引き渡す。

ＬＣ１１７−１〜ｍは、ＬＤ１１３−１〜ｍから順次引き渡される参照信号レベルを受け取り、ＢＰＦ１１６−１〜ｍから順次引き渡される帯域ソース音データを受け取る。ＬＣ１１７−１〜ｍは、受け取った参照信号レベルに応じた目標ゲインをゲイン特定関数ＧＲ−１〜ｍに基づき特定し、時定数ＴＣ−１〜ｍに示される応答速度で特定した目標ゲインに達するように、現在のゲインを決定する。ＬＣ１１７は、決定したゲインとなるように、ＢＰＦ１１６−１〜ｍから受け取った帯域ソース音データのレベルを変更し、レベルを変更した帯域ソース音データを加算器１１８に引き渡す。

加算器１１８は、ＬＣ１１７−１〜ｍの各々から受け取った帯域ソース音データを加算してマスキング音データを生成する。加算器１１８は生成したマスキング音データを、出力ＩＦ１１９を介してスピーカ１４に出力する。スピーカ１４は、マスキング音データ生成装置１１から入力されるマスキング音データに従い、マスキング音を聴者Ｂのいる空間に放音する。その結果、話者Ａの音声の内容の聴者Ｂに対する漏れ聞こえが防止される。

以上のように、マスキング音生成システム１によれば、周波数帯域毎に設定されたゲイン特定関数ＧＲと時定数ＴＣに従い、周波数帯域毎に、話者音データのレベルに応じてレベル調整のされたマスキング音データが生成される。従って、各周波数帯域に対し適切なゲイン特定関数ＧＲと時定数ＴＣを設定することにより、マスキング効果の高いマスキング音や、聴者にとって不快感や違和感の少ないマスキング音が放音される。

［２．変形例］
以下に上述した実施形態の変形例を説明する。なお、以下の説明において、上述したマスキング音生成システム１が備える構成部と共通するものには同じ符号を用いる。また、変形例に係るマスキング音生成システムが上述したマスキング音生成システム１と異なる点を主に説明し、共通する点については適宜その説明を省略する。

［２．１．第１変形例］
図５は、第１変形例に係るマスキング音生成システム２の構成を示したブロック図である。マスキング音生成システム２は、マスキング音生成システム１が備える記憶装置１３に代えて、記憶装置２３を備える。記憶装置２３は、複数の周波数帯域に予め分割されたソース音を示す帯域ソース音データを記憶する。また、マスキング音生成システム２は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置２１を備える。マスキング音データ生成装置２１は、マスキング音データ生成装置１１が備えるＢＰＦ１１６−１〜ｍを備えず、再生部１１５が入力ＩＦ１１４を介して記憶装置２３から読み出す帯域ソース音データを、対応するＬＣ１１７−１〜ｍに直接引き渡す。

以上の構成により、マスキング音生成システム２によれば、マスキング音データ生成装置２１はソース音データを周波数帯域に分割する処理を行う必要がなく、処理負荷が少なくて済む。またマスキング音生成システム１においては、ＢＰＦ１１６により1つのソー
ス音データから帯域分割された複数の帯域ソース音データが用いられるため、複数の帯域ソース音データの元となるソース音データを周波数帯域毎に異ならせることはできない。これに対し、マスキング音生成システム２においては、周波数帯域毎に異なるソース音データから帯域分割された帯域ソース音データを利用することができる。このため、マスキング音生成システム２によれば、周波数帯域毎に最適なソース音データから帯域分割された帯域ソース音データを用いることで、より望ましいマスキング音が放音される。

［２．２．第２変形例］
図６は、第２変形例に係るマスキング音生成システム３の構成を示したブロック図である。マスキング音生成システム３は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置３１を備える。マスキング音データ生成装置３１は、マスキング音データ生成装置１１が備える再生部１１５に代えて、無意味化処理部３１５を備える。無意味化処理部３１５は、入力ＩＦ１１１を介してマイク１２から入力される話者音データに対し、話者音データが有する音声的または言語的な意味を無意味化する処理を施す処理部である。すなわち、マスキング音生成システム３は、予め用意されたソース音データに代えて、マイク１２がリアルタイムに収音する話者Ａの音声を示す話者音データが無意味化されたものを、ソース音データとして利用する。そのため、マスキング音生成システム３は、予め用意されたソース音データを記憶するための記憶装置１３を備えない。

無意味化処理部３１５は、入力ＩＦ１１１を介してマイク１２から話者音データを順次リアルタイムで取得すると、取得した話者音データを一時的にバッファ（一時記憶手段）に記憶するとともに、一定長の時間長のブロックに分割し、分割したブロック内で時間軸方向にデータを反転させた後、例えばランダムに、それらのブロックの順序を入れ替えて、ソース音データを生成する。なお、無意味化処理部３１５が行う無意味化の処理はこれに限られず、既知の様々な無意味化処理が採用され得る。無意味化処理部３１５は生成したソース音データをＢＰＦ１１６−１〜ｍの各々に引き渡す。ここで、ＢＰＦ１１６はソース音データ取得手段を構成する。

一般的に、マスキングされる音声と音響特性の類似度が高いマスキング音程、マスキング効果が高い。従って、マスキング音が無意味化されていれば、マスキング音として、マスキングされる話者の音声と音響特性の類似度が高い同じ話者の音声を基に生成したマスキング音を用いることが好ましい。上記の構成を備えるマスキング音生成システム３は、話者Ａの音声を示す話者音データを基にソース音データを生成し、マスキング音データの生成に用いる。その結果、マスキング音生成システム３によれば、マスキング音生成システム１と比較して、よりマスキング効果の高いマスキング音が放音される。

なお、マスキング音生成システム３においては、リアルタイムに収音された話者Ａの音声がソース音として用いられる。従って、ＬＣ１１７によるレベル調整前の帯域ソース音データのレベルは、マスキングされるべき話者Ａの音声のレベルに連動して変化する。

一般的に、マスキングされるべき音声のレベルが大きい程、マスキングに要するマスキング音のレベルも大きくなる。従って、マスキング音のレベルがマスキングされるべき音声のレベルに連動して変化することは望ましい。しかしながら、参照信号レベルが高い程、ゲイン特定関数ＧＲに従いＬＣ１１７が特定する目標ゲインは大きくなるため、時定数ＴＣが小さいと、ＬＣ１１７は話者Ａの音声のレベルが大きい場合に、既にレベルが大きい帯域ソース音データのレベルを、話者Ａの音声のレベルの増大に応じてさらに増加させることがある。その結果、必要以上に大きな音量のマスキング音データが生成されてしまう場合がある。

このような不都合を回避するため、例えば無意味化処理部３１５における無意味化処理において話者音データに対し、もしくはＢＰＦ１１６による帯域分割が行われた後の帯域ソース音データに対し、レベルを所定値以下に制限するレベル制限部をマスキング音データ生成装置２１に設ける構成としてもよい。

［２．３．第３変形例］
図７は、第３変形例に係るマスキング音生成システム４の構成を示したブロック図である。マスキング音生成システム４は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置４１を備える。マスキング音データ生成装置４１は、重要周波数帯域特定部４０１およびパラメータ設定部４０２を備える。ここで、パラメータ設定部４０２はＢＰＦ１１６、ＬＣ１１７、及び加算器１１８と共に帯域レベル設定手段を構成する。

重要周波数帯域特定部４０１は、入力ＩＦ１１１を介してマイク１２から入力される話者音データを解析し、話者音データが示す話者Ａの音声に対して、音声マスキングを実行するうえで特に重要となる周波数帯域（例えば、第１フォルマントや子音の成分が所定の閾値以上のレベルで含まれる周波数帯域。以下、「重要周波数帯域」という）を所定の時間間隔（例えば、１００〜５００ｍｓ毎）で特定し、特定した重要周波数帯域を識別する重要帯域識別データを順次、パラメータ設定部４０２に引き渡す。

パラメータ設定部４０２は、重要帯域識別データを受け取る毎に、当該重要帯域識別データにより識別される周波数帯域のＬＣ１１７に対して、重要周波数帯域に適するゲイン特定関数ＧＲ（例えば図２中の（ｃ）や図３中の（ｃ）に示されるゲイン特定関数ＧＲ）や時定数ＴＣ（例えば、重要周波数帯域が子音の周波数成分を多く含む場合、小さい時定数ＴＣ）を設定する。また、パラメータ設定部４０２は、それまで重要周波数帯域として特定されていた周波数帯域が重要周波数帯域でなくなった場合、当該周波数帯域に応じたＬＣ１１７に対しては、当該ＬＣ１１７のデフォルトのゲイン特定関数ＧＲや時定数ＴＣを設定する。従って、ＬＣ１１７は、対応する周波数帯域が重要周波数帯域であるか否かに応じて異なるレベル変更パラメータに従い帯域ソース音データのレベルの変更を行うことになる。

以上の構成により、マスキング音生成システム４は、現在の話者の音声における重要周波数帯域を特定し、重要周波数帯域であると特定した周波数帯域に対応するＬＣ１１７に対し、重要周波数帯域に適したレベル変更パラメータを動的に設定する。このため、マスキング音生成システム４によれば、話者によって音声における重要周波数帯域が異なる場合であっても、話者の変化にかかわらずマスキング効果の高いマスキング音が放音される。
なお、重要周波数帯域特定部４０１は、上記のように話者音データを解析してリアルタイムに重要周波数帯域を特定するという方法以外に、次のような方法で重要周波数帯域を特定してもよい。
例えば、重要周波数帯域が予め固定的に決められている場合、重要周波数帯域特定部４０１は、その重要周波数帯域を識別する重要帯域識別データを記憶しておき、パラメータ設定部４０２に引き渡すようにしてもよい。また、パラメータ設定部４０２に、重要周波数帯域を識別する重要帯域識別データを記憶しておいてもよい。この場合、パラメータ設定部４０２が重要周波数帯域特定部４０１の機能を兼ねることになる。
また、重要周波数帯域特定部４０１は、第１フォルマントや子音以外に、話者乃至話者音声の特徴、例えば、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高又は話者音声の音量などの特徴に基づいて重要周波数帯域を特定する。例えば、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量といった話者乃至話者音声の特徴ごとに、重要周波数帯域が予め決められており、重要周波数帯域特定部４０１は、上記の話者乃至話者音声の特徴ごとに、対応する重要周波数帯域を識別する重要帯域識別データを記憶している。そして、マスキング音生成システム４のユーザ（例えば話者）が、話者乃至話者音声の特徴をマスキング音生成システム４に対して入力すると、重要周波数帯域特定部４０１は、入力された上記特徴に対応する重要帯域識別データをパラメータ設定部４０２に引き渡す。また、話者乃至話者音声の特徴の入力に依らず、重要周波数帯域特定部４０１が話者音データを解析して、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量といった話者乃至話者音声の特徴を特定してもよい。

［２．４．第４変形例］
図８は、第４変形例に係るマスキング音生成システム５の構成を示したブロック図である。マスキング音生成システム５は、話者Ａの音声を収音するマイク１２に加え、話者Ａのいる空間（もしくは聴者Ｂのいる空間）の暗騒音を収音し音データ（以下、「暗騒音データ」という）を生成するマイク５２を備えている。

また、マスキング音生成システム５は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置５１を備える。マスキング音データ生成装置５１は、マイク５２が生成する暗騒音データの入力を受ける入力ＩＦ５０１と、入力ＩＦ５０１に入力された暗騒音データをｎ個（ただし、ｎは１を除くｍの約数）の周波数帯域に分割し周波数帯域毎の音データ（以下、「帯域暗騒音データ」という）を生成するバンドパスフィルタ群であるＢＰＦ５０２−１〜ｎ（以下、これらを総称して「ＢＰＦ５０２」という）と、ＢＰＦ５０２が生成した帯域暗騒音データの各々のレベルを特定するレベル検知回路であるＬＤ５０３−１〜ｎ（以下、これらを総称して「ＬＤ５０３」という）と、を備える。ここで、入力ＩＦ５０１は暗騒音データ取得手段を構成し、ＢＰＦ５０２及びＬＤ５０３はＢＰＦ１１２及びＬＤ１１３とともに帯域レベル特定手段を構成する。

さらに、マスキング音データ生成装置５１は、ＬＣ１１７−１〜ｍを隣接する（ｍ／ｎ）個毎にグループ化して得られるｎ個のグループの各々に応じて設けられ、グループ内の（ｍ／ｎ）個のＬＣ１１７によりレベルの変更された帯域ソース音データを加算して出力する加算器５０４−１〜ｎ（以下、これらを総称して「加算器５０４」という）と、加算器５０４−１〜ｎの各々に応じて設けられ、加算器５０４から出力される加算された帯域ソース音データのレベルを、ＬＤ５０３−１〜ｎが特定した帯域暗騒音データのレベルに基づき変更するＬＣ５０５−１〜ｎ（以下、これらを総称して「ＬＣ５０５」という）と、を備える。

さらに、マスキング音データ生成装置５１は、マスキング音データ生成装置１１が備える加算器１１８に代えて、加算器５０４−１〜ｎにより加算された後、ＬＣ５０５−１〜ｎによりレベルの変更されたｎ個の帯域ソース音データを加算してマスキング音データを生成し、出力ＩＦ１１９を介してスピーカ１４に出力する加算器５１８を備えている。ここで、加算器５１８は、ＢＰＦ１１６、ＬＣ１１７、加算器５０４、及びＬＣ５０５と共に帯域レベル設定手段を構成する。

ここで、ＢＰＦ５０２−１〜ｎの各々に応じたｎ個の周波数帯域は、それぞれ、ＢＰＦ１１６−１〜ｍの各々に応じたｍ個の周波数帯域を連続する（ｍ／ｎ）個毎にグループ化して統合したｎ個の周波数帯域に一致する。即ち、例えば、ｍ＝１２であり、ｎ＝４である場合、ＢＰＦ５０２−１の周波数帯域は、ＢＰＦ１１６−１〜３に応じた３個の連続する周波数帯域に一致し、ＢＰＦ５０２−２の周波数帯域は、ＢＰＦ１１６−４〜６に応じた３個の連続する周波数帯域に一致し、ＢＰＦ５０２−３の周波数帯域は、ＢＰＦ１１６−７〜９に応じた３個の連続する周波数帯域に一致し、ＢＰＦ５０２−４の周波数帯域は、ＢＰＦ１１６−１０〜１２に応じた３個の連続する周波数帯域に一致する。

また、ＬＣ５０５−１〜ｎの各々はメモリを備え、当該メモリはＬＣ５０５−１〜ｎの各々に設定されたゲイン特定関数ＧＲと時定数ＴＣをレベル変更パラメータとして記憶している。ＬＣ５０５−１〜ｎの各々は、ＬＤ５０３−１〜ｎのうち同じ枝番のＬＤ５０３により特定されたレベルを参照信号レベルとして受け取り、予め設定されているゲイン特定関数ＧＲが示す参照信号レベルに応じた目標ゲインへと予め設定されている時定数ＴＣが示す応答の速さで収束するように、加算器５０４−１〜ｎのうち同じ枝番の加算器５０４によりミキシングされた帯域ソース音データのレベルを制御する。

以上の構成により、マスキング音生成システム５においては、暗騒音の周波数帯域毎のレベルに応じて、マスキング音データの周波数帯域毎のレベルの調整が行われる。例えば、暗騒音のレベルが大きい周波数帯域に関しては、比較的大きいレベルのマスキング音を放音しても聴者にとって耳障りとなりにくい。従って、マスキング音生成システム５によれば、図２中のグラフ（ｃ）や図３中のグラフ（ｃ）に示されるようなゲイン特定関数ＧＲをＬＣ５０５−１〜ｎに設定することにより、聴者の不快感を増大させることなくマスキング効果の高いマスキング音が放音される。

また、マスキング音生成システム５においては、話者Ａの音声を示す話者音データに応じたソース音データのレベル調整における周波数帯域の数ｍと比べて、暗騒音を示す暗騒音データに応じたソース音データのレベル調整における周波数帯域の数ｎが小さい構成としている。これは、暗騒音はマスキングされる音ではないので、マスキングされる音である話者Ａの音声と比較し、細かい周波数帯域毎の制御は不要であるためである。このように、ｎをｍより小さくすることで、ｎをｍと同じ数とする場合と比較し、ＢＰＦ５０２、ＬＤ５０３およびＬＣ５０５の数を減らすことができ、マスキング音データ生成装置５１の構成をより簡潔にすると共に、処理負荷を小さくすることができる。ただし、マスキング音データ生成装置５１が十分な処理能力を備える場合、ｎとｍと同じ数としてもよい。その場合、加算器５０４は不要となる。

また、ＬＣ５０５に設定される時定数ＴＣは、ＬＣ１１７に設定される時定数ＴＣよりも大きい値が設定される。暗騒音にはマスキングする必要のない衝撃音が含まれることがあり、衝撃音に敏速に追従してレベルの変化するマスキング音を放音することは、不必要に聴者の不快感を増大させ望ましくないためである。特に、高い周波数帯域のＬＣ５０５に、低い周波数帯域のＬＣ５０５よりも大きい値の時定数ＴＣを設定すれば、暗騒音に含まれる衝撃音によるマスキング音に対する影響を小さくすることができ、聴者の不快感が低減され望ましい。マスキング音生成システム５によれば、話者の音声に対しては周波数帯域毎のレベルの追従が敏速であり、暗騒音に対してはその追従が緩慢なマスキング音の放音が行われることになる。

［２．５．第５変形例］
図９は、第５変形例に係るマスキング音生成システム６の構成を示したブロック図である。マスキング音生成システム６は、マスキング音生成システム１が備える記憶装置１３に代えて、異なる２つのソース音データ（第１ソース音データと第２ソース音データ）を記憶する記憶装置６３を備える。記憶装置６３が記憶している第１ソース音データは、記憶装置１３が記憶するソース音データと同様に、音声データに無意味化処理を施した音データである。一方、第２ソース音データは、例えばさざ波の音や鳥のさえずりの音などのような、過度に注意を引かない、不快感のない、自然や環境に存在する音（以下、「環境音」という）を示す音データである。第２ソース音データは、話者の音声をマスキングするためではなく、マスキング音の不快感を低減するために、マスキング音データの生成の際に加算される。

また、マスキング音生成システム６は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置６１を備える。マスキング音データ生成装置６１は、記憶装置６３に記憶されている第１ソース音データの入力を受ける入力ＩＦ１１４に加え、記憶装置６３に記憶されている第２ソース音データの入力を受ける入力ＩＦ６００を備える。また、マスキング音データ生成装置６１は、入力ＩＦ６００に入力された第２ソース音データを順次読み出して出力する再生部６０１を備える。

さらに、マスキング音データ生成装置６１は、再生部６０１が出力した第２ソース音データをｍ個の周波数帯域に分割し周波数帯域毎の音データ（以下、「帯域第２ソース音データ」という）を生成するバンドパスフィルタ群であるＢＰＦ６０２−１〜ｍ（以下、これらを総称して「ＢＰＦ６０２」という）と、ＬＤ１１３−１〜ｍのうち同じ枝番のＬＤ１１３が特定した帯域話者音データのレベルに基づき、ＢＰＦ６０２−１〜ｍのうち同じ枝番のＢＰＦ６０２が生成した帯域第２ソース音データのレベルを変更する回路であるＬＣ６０３−１〜ｍ（以下、これらを総称して「ＬＣ６０３」という）と、を備える。

さらに、マスキング音データ生成装置６１は、ＬＣ６０３によりレベルの変更された帯域第２ソース音データを加算して、マスキング音に加算される環境音を示す環境音データを生成する加算器６０４と、加算器１１８が生成したマスキング音データと加算器６０４が生成した環境音データを加算して不快感の少ないマスキング音を示すマスキング音データを生成し、出力ＩＦ１１９を介してスピーカ１４に出力する加算器６０５と、を備えている。ここで、加算器６０４及び加算器６０５は、ＢＰＦ１１６、ＬＣ１１７、加算器１１８、ＢＰＦ６０２、及びＬＣ６０３と共に帯域レベル設定手段を構成する。

ＬＣ６０３−１〜ｍの各々はメモリを備え、当該メモリはＬＣ６０３−１〜ｍの各々に設定されたゲイン特定関数ＧＲと時定数ＴＣをレベル変更パラメータとして記憶している。ＬＣ６０３−１〜ｍの各々は、ＬＤ１１３−１〜ｍのうち同じ枝番のＬＤ１１３により特定されたレベルを参照信号レベルとして受け取り、予め設定されているゲイン特定関数ＧＲが示す参照信号レベルに応じた目標ゲインへと予め設定されている時定数ＴＣが示す応答の速さで収束するように、ＢＰＦ６０２−１〜ｍのうち同じ枝番のＢＰＦ６０２から引き渡される帯域第２ソース音データのレベルを制御する。

ここで、ＬＣ６０３に設定される時定数ＴＣとしては、ＬＣ１１７に設定される時定数ＴＣよりも大きい値が設定される。環境音は、マスキングされる空間において暗騒音を創り出す役割を果たすので、無意味化された音声をソース音とするマスキング音と比較し、マスキングされる音声のレベルの変化に敏速に追従してレベルを変化させる必要がなく、仮にマスキングされる音声のレベルの変化に敏速に追従して小刻みにレベルが変化すると無意味に聴者の不快感を増大させ望ましくないためである。

以上の構成により、マスキング音生成システム６においては、無意味化された音声と、環境音が加算されたマスキング音が放音される。その際、無意味化された音声と環境音とで互いに異なるパラメータ（時定数ＴＣ）に従い、話者Ａの音声のレベルに応じて周波数帯域毎のレベルの変更が行われる。その結果、マスキング音生成システム６によれば、マスキング効率が高く、聴者にとっての不快感の少ないマスキング音が放音される。

［２．６．第６変形例］
図１０は、第６変形例に係るマスキング音生成システム７の構成を示したブロック図である。マスキング音生成システム７は、概ね上述した第４変形例のマスキング音生成システム５の構成（図８）と第５変形例のマスキング音生成システム６の構成（図９）を組み合わせた構成を備えている。従って、図１０において、マスキング音生成システム５もしくはマスキング音生成システム６の構成部と共通するものには同じ符号を付している。

マスキング音生成システム７は、マスキング音生成システム５と同様に、話者Ａ（もしくは聴者Ｂ）のいる空間の暗騒音を収音するマイク５２を備える。また、マスキング音生成システム７は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置７１を備える。マスキング音データ生成装置７１は、マスキング音データ生成装置５１と同様に、マイク５２から暗騒音データの入力を受ける入力ＩＦ５０１と、入力ＩＦ５０１を介してマイク５２から入力された暗騒音データをｎ個の帯域暗騒音データに分割するＢＰＦ５０２−１〜ｎと、ＢＰＦ５０２−１〜ｎの各々に対応し帯域暗騒音データのレベルを特定するＬＤ５０３−１〜ｎと、を備える。

また、マスキング音生成システム７は、マスキング音生成システム６と同様に、無意味化処理の施された音声を示す第１ソース音データと環境音を示す第２ソース音データを記憶する記憶装置６３を備える。また、マスキング音データ生成装置７１は、マスキング音データ生成装置６１と同様に、記憶装置６３に記憶されている第２ソース音データの入力を受ける入力ＩＦ６００と、第２ソース音データを再生する再生部６０１と、第２ソース音データを複数の帯域第２ソース音データに分割する複数のＢＰＦ６０２と、これらのＢＰＦ６０２の各々に対応し帯域第２ソース音データのレベルを調整する複数のＬＣ６０３と、を備える。ただし、マスキング音データ生成装置７１が備えるＢＰＦ６０２およびＬＣ６０３の数は、マスキング音データ生成装置６１と異なり、ｎ個である。

マスキング音データ生成装置７１のＬＣ６０３−１〜ｎは各々、ＬＤ５０３−１〜ｎのうち枝番の同じＬＤ５０３により特定されたレベル、すなわち、帯域暗騒音データのレベルを参照信号レベルとして受け取り、環境音を示す第２ソース音データの周波数帯域毎のレベル変更を行う。

また、マスキング音データ生成装置７１は、マスキング音データ生成装置６１と同様に、ＬＣ６０３−１〜ｎによりレベルの変更された帯域第２ソース音データを加算して環境音データを生成する加算器６０４と、加算器１１８が生成したマスキング音データと加算器６０４が生成した環境音データを加算して不快感の少ないマスキング音を示すマスキング音データを生成し、出力ＩＦ１１９を介してスピーカ１４に出力する加算器６０５と、を備える。

以上の構成により、マスキング音生成システム７によれば、無意味化された音声と、環境音が加算された不快感の少ないマスキング音が放音される。その際、無意味化された音声は話者Ａの音声のレベルに応じて周波数帯域毎に調整され、環境音は暗騒音のレベルに応じて周波数帯域毎に、話者Ａの音声のレベルに応じた調整とは独立して調整される。その結果、マスキングされる音声に対し、当該音声のレベルに追従してレベルが変化する無意味化された音声が放音されることにより高いマスキング効率が得られると同時に、暗騒音に対し、当該暗騒音のレベルに追従してレベルが変化する環境音が放音されることにより暗騒音と環境音との自然な混合が行われ、聴者にとって不快感の少ない音声マスキングが行われる。

［２．７．第７変形例］
図１１は、第７変形例に係るマスキング音生成システム８の構成を示したブロック図である。マスキング音生成システム８の構成は、マスキング音生成システム７の構成（図１０）と類似しており、概ね上述した第４変形例のマスキング音生成システム５の構成（図８）と第５変形例のマスキング音生成システム６の構成（図９）を組み合わせた構成を備えている。従って、図１１においても図１０と同様に、マスキング音生成システム５もしくはマスキング音生成システム６の構成部と共通するものには同じ符号を付している。

マスキング音生成システム８においては、話者Ａの音声と暗騒音とを加算した音の周波数帯域毎のレベルに応じて、無意味化された音声（第１ソース音データ）と環境音（第２ソース音データ）の各々の周波数帯域毎のレベルが変更され、レベルの変更された無意味化された音声と環境音が加算されて、マスキング音が生成される。ここで、話者Ａの音声と暗騒音とを加算する際のレベル比率が、無意味化された音声のレベル変更のために用いるものと、環境音のレベル変更のために用いるものとで個別に設定されている。

上記の機能を実現するために、マスキング音生成システム８は、マスキング音生成システム７と同様に、暗騒音の収音を行うマイク５２と、第１ソース音データおよび第２ソース音データを記憶する記憶装置６３を備える。また、マスキング音生成システム８は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、マスキング音データ生成装置８１を備える。マスキング音データ生成装置８１は、マスキング音データ生成装置７１と同様に、マイク５２が生成する暗騒音データを処理するための入力ＩＦ５０１と複数のＢＰＦ５０２を備えている。ただし、マスキング音データ生成装置８１が備えるＢＰＦ５０２の数はｍ個である。

マスキング音データ生成装置８１は、ＢＰＦ１１２−１〜ｍが生成した帯域話者音データと、ＢＰＦ５０２−１〜ｍが生成した帯域暗騒音データとを、同じ周波数帯域毎に加算する加算器８０１−１〜ｍおよび加算器８０２−１〜ｍを備えている。すなわち、加算器８０１−１〜ｍの各々は、ＢＰＦ１１２−１〜ｍのうち同じ枝番のＢＰＦ１１２が生成した帯域話者音データと、ＢＰＦ５０２−１〜ｍのうち同じ枝番のＢＰＦ５０２が生成した帯域暗騒音データを加算する。同様に、加算器８０２−１〜ｍもまた、ＢＰＦ１１２−１〜ｍのうち同じ枝番のＢＰＦ１１２が生成した帯域話者音データと、ＢＰＦ５０２−１〜ｍのうち同じ枝番のＢＰＦ５０２が生成した帯域暗騒音データを加算する。加算器８０１−１〜ｍの各々には帯域話者音データと帯域暗騒音データの加算時のレベル比率が個別に設定されている。同様に、加算器８０２−１〜ｍの各々にも帯域話者音データと帯域暗騒音データの加算時のレベル比率が個別に設定されている。

マスキング音データ生成装置８１は、マスキング音データ生成装置１１が備えるＬＤ１１３−１〜ｍに代えて、加算器８０１−１〜ｍが加算して生成した音データのレベルを特定するＬＤ８０３−１〜ｍを備える。ＬＤ８０３−１〜ｍが特定したレベルは、参照信号レベルとしてＬＣ１１７−１〜ｍに引き渡され、第１ソース音データ（無意味化された音声を示す音データ）から分割された帯域ソース音データのレベルの変更に用いられる。

また、マスキング音データ生成装置８１は、加算器８０２−１〜ｍが加算して生成した音データのレベルを特定するＬＤ８０４−１〜ｍを備える。ＬＤ８０４−１〜ｍが特定したレベルは、参照信号レベルとしてＬＣ６０３−１〜ｍに引き渡され、第２ソース音データ（環境音を示す音データ）から分割された帯域第２ソース音データのレベルの変更に用いられる。

ＬＣ１１７−１〜ｍによりレベルの変更された帯域ソース音データは加算器１１８により加算されてマスキング音データとなり、ＬＣ６０３−１〜ｍによりレベルの変更された帯域第２ソース音データは加算器６０４により加算されて環境音データとなる。加算器１１８が生成したマスキング音データと加算器６０４が生成した環境音データは加算器６０５により加算された後、出力ＩＦ１１９を介してスピーカ１４に出力される。

なお、上記の構成のマスキング音データ生成装置８１は、マイク１２により生成された話者音データとマイク５２により生成された暗騒音データの各々を帯域分割した後、それらを周波数帯域毎に加算する。これに代えて、帯域分割する前の話者音データと暗騒音データを加算した後に帯域分割する構成としてもよい。この場合、周波数帯域毎に個別の加算時のレベル比率を設定することはできないが、図１１に示した構成のものと比べ加算器の数を減らすことができ、マスキング音データ生成装置８１の構成をより簡潔にすると共に、処理負荷を小さくすることができる。

以上の構成により、マスキング音生成システム８においては、無意味化された音声と、環境音が加算されたマスキング音が放音される。その際、無意味化された音声のレベルの変更において参照される話者Ａの音声と暗騒音の加算された音における話者Ａの音声と暗騒音のレベル比率は、周波数帯域毎に個別に設定されたレベル比率に従う。従って、これらのレベル比率の設定を調整することにより、マスキング音に含まれる無意味化された音声のレベルが話者Ａの音声のレベルに応じて変化する程度と暗騒音のレベルに応じて変化する程度とのバランスを周波数帯域毎に調整できる。また、環境音のレベルの変更において参照される話者Ａの音声と暗騒音の加算された音における話者Ａの音声と暗騒音のレベル比率もまた、周波数帯域毎に個別に設定されたレベル比率に従う。従って、これらのレベル比率の設定を調整することにより、マスキング音に含まれる環境音のレベルが話者Ａの音声のレベルに応じて変化する程度と暗騒音のレベルに応じて変化する程度のバランスを周波数帯域毎に調整できる。その結果、マスキング音生成システム８によれば、マスキング効率と聴者にとっての不快感の低減という２つの点のバランスが取れたマスキング音の放音が可能となる。

［２．８．第８変形例］
第８変形例においては、コンピュータがプログラムに従う処理を行うことにより、図１に示した構成を備えるマスキング音データ生成装置１１として動作する。図１２は、第８変形例に係るマスキング音生成システム９の構成を示したブロック図である。

マスキング音生成システム９は、マスキング音生成システム１が備えるマスキング音データ生成装置１１に代えて、コンピュータ１０を備えている。コンピュータ１０は、一般的なコンピュータであり、ＢＩＯＳやＯＳおよびアプリケーションプログラム等に従い各種演算を行うとともに他の構成部を制御するＣＰＵ１０１と、上記ＢＩＯＳ、ＯＳ、アプリケーションプログラムやユーザデータ等の各種データを記憶するＲＯＭやＲＡＭあるいはハードディスクやＳＳＤ等を含むメモリ１０２と、外部の装置との間でデータの入出力を行う入出力ＩＦ１０３を備えている。ＣＰＵ１０１、メモリ１０２、入出力ＩＦ１０３は、バス１０９を介して互いに接続されている。入出力ＩＦ１０３には、外部の装置として、マイク１２、記憶装置１３、スピーカ１４、読取装置１５が接続される。

読取装置１５は、本変形例に係るアプリケーションプログラムを記録する記録媒体１６から当該アプリケーションプログラム（以下、単に「アプリケーションプログラム」という）を読み取る装置である。記録媒体１６は、データを、読取装置１５を介してコンピュータ１０により読み取り可能に記録する不揮発性の記録媒体であり、例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フラッシュメモリ等のいずれであってもよい。

ＣＰＵ１０１は、メモリ１０２に記憶されているプログラムに従い、例えば入出力Ｉ／Ｆ１０３に接続されているキーボード等（図示略）を用いたユーザの操作に応じて、読取装置１５に対し、読取装置１５に装填された記録媒体１６からアプリケーションプログラムの読み取りを指示する。この指示に従い読取装置１５により記録媒体１６から読み取られたアプリケーションプログラムは、入出力Ｉ／Ｆ１０３を介してメモリ１０２に引き渡され、記憶される。

その後、ＣＰＵ１０１がメモリ１０２に記憶されているアプリケーションプログラムに従い各種データ処理を行うことにより、コンピュータ１０は、図１に示される構成を備えるマスキング音データ生成装置１１として機能する。すなわち、記録媒体１６に記録され、コンピュータ１０に読み取られて用いられるアプリケーションプログラムは、コンピュータに、マスキング音データ生成装置１１が備える構成部の各々が行う処理を実行させるためのプログラムである。

なお、ＣＰＵ１０１が第１変形例〜第７変形例に応じたアプリケーションプログラムのいずれかに従う処理を行うことにより、コンピュータ１０が図５〜図１１に示されるマスキング音データ生成装置２１〜マスキング音データ生成装置８１のいずれかとして機能する構成としてもよい。また、上記の本変形例の構成においては、ＣＰＵ１０１がアプリケーションプログラムに従う処理を行う際、記録媒体１６からメモリ１０２にコピーされたアプリケーションプログラムをメモリ１０２から読み出す。これに代えて、ＣＰＵ１０１がアプリケーションプログラムに従う処理を行う際、記録媒体１６に記録されているアプリケーションプログラムを読取装置１５を介して読み出す構成としてもよい。また、コンピュータ１０が、読取装置１５を介してアプリケーションプログラムを記録媒体１６から読み出す代わりに、アプリケーションプログラムを記憶する装置からネットワークを介してアプリケーションプログラムを受信してメモリ１０２に記憶し、これを用いる構成としてもよい。

［２．９．その他の変形例］
上述した実施形態もしくは変形例において、さらに以下のような変形を行ってもよい。

（１）実施形態に係るマスキング音データ生成装置１１は、ソース音データを帯域分割して得られるｍ個の帯域ソース音データのレベルを、話者音データを帯域分割して得られるｍ個の帯域話者音データの各々のレベルに応じて設定した後に加算することで、マスキング音データを生成する。マスキング音データ生成装置１１がマスキング音データの生成において用いる帯域ソース音データの数は２以上であればいずれの数であってもよい。また、マスキング音データ生成装置１１がマスキング音データの生成において用いる相異なる２以上の帯域ソース音データの周波数帯域は互いに隙間なく連続している必要はなく、隙間があってもよいし、重複する部分があってもよい。第１変形例〜第７変形例における帯域ソース音データおよび帯域話者音データや、第４変形例、第６変形例または第７変形例における帯域暗騒音データについても同様に、２以上の相異なる周波通帯域の音データであれば、帯域の数や配置は限定されない。

（２）実施形態に係るマスキング音データ生成装置１１および第１変形例〜第４変形例に係るマスキング音データ生成装置２１〜マスキング音データ生成装置５１は、それらが備えるレベルコントローラ（ＬＣ１１７、５０５）に設定されるパラメータ（ゲイン特定関数ＧＲおよび時定数ＴＣ）を様々に変更することにより、異なる特性のマスキング音データを生成する。また、第５変形例〜第７変形例に係るマスキング音データ生成装置６１〜マスキング音データ生成装置８１は、それが備えるレベルコントローラ（ＬＣ１１７、６０３）に設定されるパラメータ（ゲイン特定関数ＧＲおよび時定数ＴＣ）と加算器に設定されるパラメータ（加算におけるレベル比率）を様々に変更することにより、異なる特性のマスキング音データを生成する。

そこで、予めパラメータの組み合わせをテンプレートとして複数準備し、例えば記憶装置１３、記憶装置２３または記憶装置６３に記憶させておき、ユーザがそれらのテンプレートの中から、例えば聴感やマスキング効率等の観点から望ましいと思うテンプレートを選択し、マスキング音データ生成装置１１〜マスキング音データ生成装置８１（以下、これらを総称して「マスキング音データ生成装置」という）がユーザにより選択されたテンプレートに従いパラメータの設定を行って、マスキング音データの生成を行う構成としてもよい。

（３）マイク１２は話者Ａの音声を収音するためのものであるが、話者Ａのいる空間の暗騒音も同時に収音する。従って、例えば話者Ａの近くで大きな物音がした場合、マスキング音データ生成装置が生成するマスキング音データのレベルは、その物音のレベルの影響を受ける。特に小さい時定数ＴＣが設定されている周波数帯域においてはその影響が大きい。音声のレベルを参照信号レベルとしてレベルの変更を行うようにパラメータの設定が行われたレベルコントローラに対し、音声以外の物音等のレベルが参照信号レベルとして入力されると、その結果生成されるマスキング音データは望ましくないマスキング音を示すものとなる可能性がある。そのような不都合を回避するために、例えば入力ＩＦ１１１を介してマイク１２から入力される話者音データ、もしくはＢＰＦ１１２により帯域分割された後の帯域話者音データの各々に対し、当該話者音データもしくは帯域話者音データが示す音に含まれる音声以外の音の成分を低減するように信号処理を施すフィルタ（イコライザ等の周波数特性調整手段）をマスキング音データ生成装置に設けてもよい。

（４）上述した実施形態および変形例の説明においては、マイク１２（およびマイク５２）、記憶装置１３（または記憶装置２３、記憶装置６３）およびスピーカ１４はマスキング音データ生成装置に対し外付けの装置として接続される構成としたが、これらの装置の少なくとも１つがマスキング音データ生成装置に内蔵されてもよい。また、マイク１２（およびマイク５２）、記憶装置１３（または記憶装置２３、記憶装置６３）およびスピーカ１４がマスキング音データ生成装置に接続される形態は有線、無線のいずれであってもよく、また直接接続されてもネットワークを介して接続されてもよい。

（５）上述した実施形態または変形例に係るマスキング音データ生成装置が備える構成部のうち２以上の構成部が統合された１つの構成部として構成されてもよい。例えば、マスキング音データ生成装置１１が備えるＬＤ１１３−１〜ｍとＬＣ１１７−１〜ｍは各々個別の装置として説明したが、ＬＤ１１３−１〜ｍの各々と、ＬＣ１１７−１〜ｍのうちの同じ枝番のＬＣ１１７とが１つの統合された回路として構成されてもよい。また、上述した実施形態または変形例に係るマスキング音データ生成装置が備える１つの構成部が、互いに協働する２以上の構成部の集合体として構成されてもよい。

（６）上述した実施形態または変形例の説明においてマスキング音データ生成装置に内蔵されるものとした構成部の一部を、マスキング音データ生成装置に対し外付けで接続される装置として構成されてもよい。例えば、マスキング音データ生成装置１１が備える再生部１１５は、マスキング音データ生成装置１１に対し外付けの装置として接続されてもよい。

（７）上述した実施形態または変形例に係るマスキング音データ生成装置は、レベルコントローラに対し入力される参照信号レベルとして、帯域話者音データもしくは帯域暗騒音データの包絡線のレベルを用いるものとしたが、参照信号レベルとして、帯域話者音データもしくは帯域暗騒音データのレベルの大小を示す指標であれば、例えば、パワースペクトル平均値等、いずれの指標が用いられてもよい。

（８）上述した実施形態または変形例に係るマスキング音生成システム１〜９が備える構成部の数や、それらが処理するデータの数は任意に変更可能である。例えば、マイク１２やマイク５２の数を２以上に増やして、それらの各々により収音された音に関し同種の処理を個別に行う構成としたり、記憶装置１３が複数のソース音データを、記憶装置２３が複数組の帯域ソース音データを、または記憶装置６３が複数の第１ソース音データおよび複数の第２ソース音データを記憶し、それらのデータに関し同種の処理を個別に行う構成としたりしてもよい。

（９）上述した実施形態または変形例において採用されているデータ処理の順序の一部は、同等もしくは類似の結果を得る他の順序で置き換えられてもよい。例えば、帯域分割を行った後の音データを加算しても、帯域分割を行う前の音データを加算した後に帯域分割をしても、それらにより得られるデータが同等もしくは類似である限り、いずれが採用されてもよい。

（１０）上述した第４変形例、第６変形例および第７変形例において、マイク５２を用いて収音した暗騒音を用いる代わりに、マイク１２により収音された音（主として話者Ａの音声を含む）に含まれる暗騒音を、例えば既知のフィルタ処理により取り出して用いる構成としてもよい。

（１１）マスキング音データ生成装置および記憶装置１３（または記憶装置２３、記憶装置６３）の配置場所は限定されない。例えば、マスキング音データ生成装置は話者Ａのいる空間（もしくは聴者Ｂのいる空間）に配置され、記憶装置１３（または記憶装置２３、記憶装置６３）は、ネットワークを介して、話者Ａのいる空間および聴者Ｂのいる空間から地理的に離れた場所に配置されてもよい。この場合、マスキング音データ生成装置が記憶装置１３に記憶されているソース音データ（または、記憶装置２３に記憶されている帯域ソース音データ、もしくは記憶装置６３に記憶されている第１ソース音データおよび第２ソース音データ）をマスキング音データの生成処理の開始前に、例えばメモリ１０２に全てダウンロードして用いてもよいし、マスキング音データの生成処理の実行と平行して、必要な部分を順次、記憶装置１３（または、記憶装置２３、記憶装置６３）から受信して用いてもよい。

また、例えば、記憶装置１３（または記憶装置２３、記憶装置６３）に加え、マスキング音データ生成装置もまた、ネットワークを介して、話者Ａのいる空間および聴者Ｂのいる空間から地理的に離れた場所に配置されてもよい。この場合、マイク１２が生成する話者音データ（およびマイク５２が生成する暗騒音データ）はネットワークを介してマスキング音データ生成装置に送信され、マスキング音データの生成に用いられる。また、マスキング音データ生成装置により生成されたマスキング音データはネットワークを介してスピーカ１４に送信され、マスキング音の放音に用いられる。

（１２）上述した実施形態または変形例において、レベルコントローラ（ＬＣ１１７、５０５、６０３）の各々には帯域ソース音データ（または帯域第２ソース音データ）のレベルを変更する規則を特定するためのパラメータとして、ゲイン特定関数ＧＲと時定数ＴＣが設定され、レベルコントローラの各々は、レベル検知回路（ＬＤ１１３、５０３、８０３、８０４）により特定された帯域話者音データまたは帯域暗騒音データのレベルに応じてゲイン特定関数ＧＲに従い特定される目標ゲインを、時定数ＴＣが示す応答の速度で達成するように、レベルの変更を行う。レベルコントローラが帯域ソース音データ（または帯域第２ソース音データ）のレベルを変更する規則はこれに限られず、レベル検知回路により特定されたレベルに基づき帯域ソース音データ（または帯域第２ソース音データ）の変更後のレベルを特定する規則であれば、他の様々な規則が採用され得る。

例えば、レベルコントローラの各々には、パラメータとしてゲイン特定関数ＧＲのみを個別に設定し、全てのレベルコントローラが同じ応答の速度で目標ゲインを達成するようにレベルの変更を行う構成としてもよい。また、レベルコントローラの各々には、パラメータとして時定数ＴＣのみを個別に設定し、全てのレベルコントローラが同じゲイン特定関数ＧＲに従い特定される目標ゲインを、個別に設定された時定数ＴＣが示す応答の速度で達成するようにレベルの変更を行う構成としてもよい。

また、レベルコントローラの各々に、ゲイン特定関数ＧＲに代えて、例えば帯域話者音データ（または帯域暗騒音データ）に応じた帯域ソース音データ（または帯域第２ソース音データ）のゲイン（またはレベルの増分等）を示す関数や対応表をパラメータとして設定し、レベルコントローラが、これらの関数や対応表に従い特定されるゲイン（またはレベルの増分等）を時定数ＴＣが示す応答の速度（または全てのレベルコントローラに関し同じ時定数が示す応答の速度）で達成するように、帯域ソース音データ（または帯域第２ソース音データ）のレベルの変更を行う構成としてもよい。

（１３）もちろん、ゲイン特定関数ＧＲは図２〜４の例示に限定されない。念のため、その他のゲイン特定関数ＧＲのバリエーションを図１３〜１６に例示する。
図１３中のグラフ（ａ）〜（ｃ）には目標ゲインに下限及び上限が設けられており、（ａ）〜（ｃ）は、参照信号レベルがｌ₁以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力し、参照信号レベルがｌ₂（ｌ₁＜ｌ₂）以上において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₂を出力する。ただし、参照信号レベルｌ₁〜ｌ₂において、（ａ）の傾き＜（ｂ）の傾き＜（ｃ）の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、（ａ）〜（ｃ）の各々が出力する目標ゲインの値は異なっている。

図１４中のグラフ（ａ）には目標ゲインに下限が設けられており、参照信号レベルがｌ₃以下において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。（ｂ）にも目標ゲインに下限が設けられており、参照信号レベルｌ₂以下（ｌ₂＜ｌ₃）において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。（ｃ）にも目標ゲインに下限が設けられており、参照信号レベルｌ₁以下（ｌ₁＜ｌ₂）において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₁を出力する。また、（ａ）〜（ｃ）には目標ゲインに上限が設けられており、参照信号レベルがｌ₄以上（ｌ₃＜ｌ₄）において、参照信号レベルの大小に関わらず目標ゲインとして一定値ｇ₂を出力する。ただし、参照信号レベルｌ₁〜ｌ₄において、（ａ）の傾き＞（ｂ）の傾き＞（ｃ）の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、（ａ）〜（ｃ）の各々が出力する目標ゲインの値は異なっている。

図１５中のグラフ（ａ）、（ｂ）、（ｃ）には目標ゲインに下限及び上限が設けられており、参照信号レベルがｌ₁以下において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値ｇ₁₁、ｇ₁₂、ｇ₁₃（ｇ₁₁＜ｇ₁₂＜ｇ₁₃）を出力し、参照信号レベルがｌ₂（ｌ₁＜ｌ₂）以上において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値ｇ₂、ｇ₃、ｇ₄（ｇ₁₃＜ｇ₂＜ｇ₃＜ｇ₄）を出力する。参照信号レベルｌ₁〜ｌ₂において、（ａ）、（ｂ）、（ｃ）の参照信号レベルの増分に対する目標ゲインの増分の傾きは同じである。

図１６中のグラフ（ａ）、（ｂ）、（ｃ）には目標ゲインに下限及び上限が設けられており、参照信号レベルがｌ₁以下において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値ｇ₁₁、ｇ₁₂、ｇ₁₃（ｇ₁₁＜ｇ₁₂＜ｇ₁₃）を出力し、参照信号レベルがｌ₂（ｌ₁＜ｌ₂）以上において、参照信号レベルの大小に関わらず目標ゲインとして、それぞれ一定値ｇ₄（ｇ₁₃＜ｇ₄）を出力する。参照信号レベルｌ₁〜ｌ₂において、（ａ）の傾き＞（ｂ）の傾き＞（ｃ）の傾きというように、参照信号レベルの増分に対する目標ゲインの増分の傾きが異なっており、（ａ）〜（ｃ）の各々が出力する目標ゲインの値は異なっている。

また、図２〜４及び図１３〜１６のそれぞれに例示したゲイン特定関数ＧＲの何れかのゲイン特定関数ＧＲを相互に組み合わせてもよいことは当然である。例えば、伝達を阻害すべき音声の情報の重要度が低い周波数帯域のＬＣ１１７には、図２（ａ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定し、伝達を阻害すべき音声の情報の重要度が高い周波数帯域のＬＣ１１７には、図３（ｃ）のゲイン特定関数ＧＲをレベル変更パラメータとして設定する、といった例である。また、マスキング音データ生成装置１１〜８１は、話者乃至話者音声の特徴に応じて、上述したゲイン特定関数ＧＲを適宜選択してもよい。このとき用いる話者乃至話者音声の特徴は、話者の性別・年齢、話者音声の言語、話者音声の話速、話者音声の音高、話者音声の音量など、どのようなものであってもよい。

また、マスキング音データ生成装置１１〜８１は、図２〜４及び図１３〜１６にそれぞれ例示したゲイン特定関数ＧＲのうち共通の特性があるゲイン特定関数ＧＲ（例えば、図２（ａ）〜（ｃ）の場合には、参照信号レベルと目標ゲインとが比例関係にある領域があるという共通の特性がある）から、いずれかのゲイン特定関数ＧＲを選択してレベル変更パラメータとして設定してもよい。また、マスキング音データ生成装置１１〜８１は、共通の特性が少ないゲイン特定関数ＧＲからいずれかのゲイン特定関数ＧＲを選択して（つまり、図２〜４及び図１３〜１６を相互に跨っていずれかのゲイン特定関数ＧＲを）レベル変更パラメータとして設定してもよい。

以上に説明したように、本発明において、帯域レベル設定手段は、２以上の周波数帯域の各々について、ソース音データの当該周波数帯域のレベルを、話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する。ここでいう所定の規則とは、上述したような、様々な特性を持つゲイン特定関数ＧＲのいずれかをレベル変更パラメータとして設定するための規則を含んでいる。

（１４）本発明において、帯域レベル設定手段は、２以上の周波数帯域のうちの少なくとも２つの周波数帯域について、話者音データの当該少なくとも２つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる所定の規則となるように、ソース音データの当該少なくとも２つの周波数帯域のレベルの設定を行う。ここで、「話者音データの当該少なくとも２つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる所定の規則」として、上述した時定数ＴＣ−１〜ｍ（つまりＬＣ１１７−１〜ｍのレベル変更におけるゲインが、ゲイン特定関数ＧＲ−１〜ｍで決定される目標ゲインへ収束するまでの応答の速さを示す数値）を用いていた。

この時定数ＴＣ−１〜ｍに代えて、レベルコントローラ（ＬＣ１１７、５０５、６０３）に話者音データが入力されてから、レベルコントローラ（ＬＣ１１７、５０５、６０３）からソース音データが出力されるまでの遅延時間（ディレイ量）を用いてもよい。例えば、図１において、ＬＣ１１７−１〜ｍの各々は、ＬＣ１１７−１〜ｍの各々に設定されたレベル変更パラメータとして、前述したゲイン特定関数ＧＲ−１〜ｍのほか、遅延時間ＤＬ−１〜ｍをメモリに記憶している。ＬＣ１１７−１〜ｍの各々は、レベルコントローラ（ＬＣ１１７、５０５、６０３）からソース音データが出力されると、各々に設定された遅延時間ＤＬ−１〜ｍが経過したタイミングでソース音データを加算器１１８に出力する。つまり、この遅延時間ＤＬ−１〜ｍは、ゲイン特定関数ＧＲ−１〜ｍで決定される目標ゲインに相当する帯域ソース音データを出力するまでの時間、つまり、入力される参照信号レベルに応じてゲイン特定関数ＧＲに従い出力される目標ゲインに達するまでの応答の速さを意味している。各ＬＣ１１７−１〜ｍに記憶された遅延時間ＤＬ−１〜ｍは、望ましいマスキング音データを得るために、少なくとも２つが互いに異なっている。この遅延時間ＤＬ−１〜ｍは、例えば、日本語の場合は１音韻（一般に50msec〜200msec）の半分程度の時間であり、この遅延時間を話者音データの周波数帯域ごとに最適化すれば、話者音の時間的な抑揚の緩和や平準化が期待できる。このような遅延は、前述した重要周波数帯域に対してのみ行うようにしてもよい。

（１５）マスキング音データ生成装置１１〜８１の動作の概要について、図１７を用い、マスキング音データ生成装置５１の動作を例に挙げて説明する。図１７において、工程Ｓ１〜Ｓ３間の順序は図１７に示した順序に限定されず、任意である。また、これらのうち少なくともいずれか２つの工程が同時に行われてもよい。工程Ｓ１では、マスキング音データ生成装置５１は、マスキング音データの生成に用いられる音を示すソース音データを取得する（ソース音データ取得ステップ）。工程Ｓ２では、マスキング音データ生成装置５１は、マスキング対象の話者の音声を示す話者音データを取得する（話者音データ取得ステップ）。工程Ｓ３では、マスキング音データ生成装置５１は、暗騒音を示す暗騒音データを取得する（暗騒音データ取得ステップ）。工程Ｓ４では、マスキング音データ生成装置５１は、話者音データにおける２以上の周波数帯域の各々のレベルを特定する（帯域レベル特定ステップ）。工程Ｓ５では、マスキング音データ生成装置５１は、２以上の周波数帯域の各々について、ソース音データの当該周波数帯域のレベルを、帯域レベル特定手段が特定した話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する（帯域レベル設定ステップ）。この工程Ｓ５において、マスキング音データ生成装置５１は、ソース音データにおける２以上の周波数帯域のうちの少なくとも２つの周波数帯域の各々のレベルを、互いに異なる所定の規則に従い設定する。
なお、マスキング音データ生成装置５１を除く、マスキング音データ生成装置１１〜４１，６１〜８１の動作の概要は、図１７から工程Ｓ３の暗騒音データ取得ステップを省いた動作となる。
本発明は、上記のような方法によって実現してもよい。

１…マスキング音生成システム、２…マスキング音生成システム、３…マスキング音生成システム、４…マスキング音生成システム、５…マスキング音生成システム、６…マスキング音生成システム、７…マスキング音生成システム、８…マスキング音生成システム、９…マスキング音生成システム、１０…コンピュータ、１１…マスキング音データ生成装置、１２…マイク、１３…記憶装置、１４…スピーカ、１５…読取装置、１６…記録媒体、２１…マスキング音データ生成装置、２３…記憶装置、３１…マスキング音データ生成装置、４１…マスキング音データ生成装置、５１…マスキング音データ生成装置、５２…マイク、６１…マスキング音データ生成装置、６３…記憶装置、７１…マスキング音データ生成装置、８１…マスキング音データ生成装置、１０１…ＣＰＵ、１０２…メモリ、１０３…入出力ＩＦ、１０９…バス、１１１…入力ＩＦ、１１２…ＢＰＦ、１１３…ＬＤ、１１４…入力ＩＦ、１１５…再生部、１１６…ＢＰＦ、１１７…ＬＣ、１１８…加算器、１１９…出力ＩＦ、３１５…無意味化処理部、４０１…重要周波数帯域特定部、４０２…パラメータ設定部、５０１…入力ＩＦ、５０２…ＢＰＦ、５０３…ＬＤ、５０４…加算器、５０５…ＬＣ、５１８…加算器、６００…入力ＩＦ、６０１…再生部、６０２…ＢＰＦ、６０３…ＬＣ、６０４…加算器、６０５…加算器、８０１…加算器、８０２…加算器、８０３…ＬＤ、８０４…ＬＤ

Claims

マスキング音データの生成に用いられる音を示すソース音データを取得するソース音データ取得手段と、
マスキング対象の話者の音声を示す話者音データを取得する話者音データ取得手段と、
前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する帯域レベル特定手段と、
前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する帯域レベル設定手段と
を備え、
前記帯域レベル設定手段は、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域の各々のレベルを、互いに異なる前記所定の規則に従い設定する
マスキング音データ生成装置。
前記帯域レベル設定手段は、前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも２つの周波数帯域の各々のレベルと、前記ソース音データの当該少なくとも２つの周波数帯域の各々の設定前のレベルに対する設定後のレベルの比であるゲインと、の関係が異なる前記所定の規則となるように、前記ソース音データの当該少なくとも２つの周波数帯域のレベルの設定を行う
請求項１に記載のマスキング音データ生成装置。
前記帯域レベル設定手段は、前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域について、前記帯域レベル特定手段が特定した前記話者音データの当該少なくとも２つの周波数帯域の各々のレベルに応じた収束値に達するまでの応答の速さが異なる前記所定の規則となるように、前記ソース音データの当該少なくとも２つの周波数帯域のレベルの設定を行う
請求項１または２に記載のマスキング音データ生成装置。
暗騒音を示す暗騒音データを取得する暗騒音データ取得手段を備え、
前記帯域レベル特定手段は、前記暗騒音データにおける２以上の周波数帯域の各々のレベルを特定し、
前記帯域レベル設定手段は、前記マスキング音データの生成において、前記帯域レベル特定手段が前記暗騒音データに関しレベルを特定した２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記暗騒音データの当該周波数帯域のレベルに基づき所定の規則に従い設定する
請求項１乃至３のいずれか１項に記載のマスキング音データ生成装置。
コンピュータに、
マスキング音データの生成に用いられる音を示すソース音データを取得する処理と、
マスキング対象の話者の音声を示す話者音データを取得する処理と、
前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する処理と、
前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記レベルを特定する処理において特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する処理と
を実行させ、
前記２以上の周波数帯域の各々について前記ソース音データの当該周波数帯域のレベルを設定する処理において、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域のレベルを、互いに異なる前記所定の規則に従い設定させる
ためのプログラム。
マスキング対象の話者の音声を収音し話者音データを生成し、前記話者音データを出力する収音装置と、
マスキング音を示すマスキング音データを生成するマスキング音データ生成装置と、
前記マスキング音データ生成装置が生成したマスキング音データをマスキング音として放音する放音装置と
を備え、
前記マスキング音データ生成装置は、
マスキング音データの生成に用いられる音を示すソース音データを取得するソース音データ取得手段と、
前記収音装置から出力された前記話者音データを取得する話者音データ取得手段と、
前記話者音データにおける２以上の周波数帯域の各々のレベルを特定する帯域レベル特定手段と、
前記２以上の周波数帯域の各々について、前記ソース音データの当該周波数帯域のレベルを、前記帯域レベル特定手段が特定した前記話者音データの当該周波数帯域のレベルに基づき所定の規則に従い設定して、マスキング音を示すマスキング音データを生成する帯域レベル設定手段と、
前記帯域レベル設定手段が生成したマスキング音データを前記放音装置に出力する出力手段と
を備え、
前記帯域レベル設定手段は、前記ソース音データにおける前記２以上の周波数帯域のうちの少なくとも２つの周波数帯域のレベルを、互いに異なる前記所定の規則に従い設定する
マスキング音生成システム。