JP5716558B2

JP5716558B2 - マスキング解析装置，マスカー音選択装置，マスキング装置およびプログラム

Info

Publication number: JP5716558B2
Application number: JP2011132629A
Authority: JP
Inventors: 三樹夫東山; 佳史原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-06-14
Filing date: 2011-06-14
Publication date: 2015-05-13
Anticipated expiration: 2031-06-14
Also published as: JP2013003269A

Description

本発明は、各種のマスカー音を適用したマスキングの効果を評価する技術に関する。

秘匿性の高い会話音等のターゲット音（maskee）にマスカー音（masker）を重畳することでターゲット音の漏洩を妨害するサウンドマスキング技術が従来から提案されている。白色雑音等の各種の雑音のほか、ターゲット音を加工した音声もマスカー音として利用される。例えば特許文献１や特許文献２には、ターゲット音を時間軸上で区分した各区間の時間波形を逆転するとともに各区間の順序を変更することでマスカー音を生成する技術が開示されている。

音声の漏洩を効果的に防止し得るマスカー音の生成や選定のためにはマスキング効果の定量的な評価が重要である。マスキング効果を評価する典型的な方法としては、マスキングされた音声を受聴した被験者がターゲット音を理解できる割合（会話了解度：speech intelligibility）を測定する主観評価が挙げられるが、高精度な評価には非常に手間が掛かるという問題がある。そこで、非特許文献１や非特許文献２の技術では、マスキングの前後の音声の狭帯域包絡線の相関値（以下「狭帯域包絡相関」という）がマスキングの効果の定量的な評価指標として採用される。狭帯域包絡線は、人間の聴覚の臨界帯域に対応する各帯域（例えば１/４オクターブの帯域）での音声波形の包絡線である。

特開２００８−２３３６７１号公報特開２０１０−２１７８８３号公報 Houtgast T et al. "Predicting speech intelligibility in rooms from the Modulation Transfer Function. I. General room acoustics", Acustica, 46: 60-72, 1980 Drullman R. "Temporal envelope and fine structure cues for speech intelligibility", J. Acoust. Soc. Am 97: 585-592, 1995

ところで、サウンドマスキングの作用にはエネルギーマスキングと情報マスキングとがある。エネルギーマスキングは、ターゲット音とは無関係に生成されたマスカー音を比較的に高いエネルギーでターゲット音に重畳することでターゲット音の聴き取りを妨害する作用であり、情報マスキングは、前掲の特許文献１や特許文献２の技術のように、音響特性がターゲット音に類似するマスカー音（攪乱音）をターゲット音に重畳することでターゲット音の聴き取りを妨害する作用である。エネルギーマスキングに有効なマスカー音の典型例は白色雑音であり、情報マスキングに有効なマスカー音の典型例は、ターゲット音の発声者の音声波形を時間軸方向に反転した逆転音声である。

図１１は、マスカー音に対するターゲット音のエネルギー比（以下「Ｔ/Ｍ比」という）を相違させた複数の場合について狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。図１１では、エネルギーマスキングに有効な白色雑音をマスカー音として利用した場合と、情報マスキングに有効な逆転音声をマスカー音として利用した場合とが個別に図示されている。

白色雑音をマスカー音として使用した場合、図１１に線Ｚ1で示す通り、狭帯域包絡相関の変化に対して会話了解度は敏感に変化し、狭帯域包絡相関が大きいほど会話了解度が高いという傾向が顕著に観測される。しかし、逆転音声をマスカー音として使用した場合、図１１に線Ｚ2で示す通り、特に狭帯域包絡相関の０.３から０.８までの範囲内において、狭帯域包絡相関の変化に対して会話了解度が明確に変化しないという傾向が確認される。すなわち、非特許文献１や非特許文献２に開示された狭帯域包絡相関は、エネルギーマスキングの評価指標としては適切であるものの、エネルギーマスキング以外のマスキング（例えば情報マスキング）の評価指標としては必ずしも適切ではない。以上の事情を考慮して、本発明は、情報マスキングを含むマスキングの効果の適切な評価を目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明のマスキング解析装置は、マスカー音によるターゲット音のマスキングを解析する装置であって、音響信号のスペクトルの各ピークに対応する線スペクトル列（例えば線スペクトル列Ｌi[m]）の自己相関数列（例えば自己相関数列Ａi[m]）を、前記ターゲット音を示す第１音響信号（例えば音響信号ｓ1(t)）と、前記ターゲット音および前記マスカー音の混合音を示す第２音響信号（例えば音響信号ｓ2(t)）との各々について時間軸上のフレーム毎に算定する自己相関算定手段（例えば自己相関算定部２２）と、前記第１音響信号および前記第２音響信号の各々について、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列（例えば時系列τi[n]）の相互相関係数値（例えば相互相関係数値ｃi[nx,ny]）を算定し、各相互相関係数値を要素とする帯域間相関行列（例えば帯域間相関行列Ｃi）を生成する相関行列生成手段（例えば相関行列生成部２４）とを具備する。マスカー音によるマスキングの効果が大きいほど、相関行列生成手段が生成する第１音響信号の帯域間相関行列と第２音響信号の帯域間相関行列との相違が増加するという傾向がある。したがって、マスカー音によるマスキングの効果を適切に評価することが可能である。なお、第１音響信号の帯域間相関行列と第２音響信号の帯域間相関行列とに応じた解析結果を出力（例えば利用者に報知）する出力制御手段（例えば後述の表示制御手段）を具備する構成が好適である。

本発明の好適な態様のマスキング解析装置は、相互に交差する第１軸（例えばＸ軸）と第２軸（例えばＹ軸）とを周波数軸として前記帯域間相関行列の各相互相関係数値を表現する相関行列画像（例えば相関行列画像Ｇi）を、前記第１音響信号および前記第２音響信号の各々について表示装置に表示させる表示制御手段（例えば表示制御部２８）を具備する。以上の態様では、第１軸と第２軸とが設定された座標系のもとで帯域間相関行列を表現する相関行列画像が表示されるから、第１音響信号の帯域間相関行列と第２音響信号の帯域間相関行列との相違（マスキングの効果）を利用者が視覚的に把握できるという利点がある。相関行列画像は、例えば、前記第１軸および前記第２軸に沿って行列状に配列する複数の単位領域を含み、前記複数の単位領域の各々は、前記帯域間相関行列の複数の相互相関係数値のうち、前記第１軸上で当該単位領域に対応する帯域と前記第２軸上で当該単位領域に対応する帯域との間における相互相関係数値に応じた態様で表示される。以上の態様では、帯域間相関行列の各相互相関係数値に対応する単位領域がその相互相関係数値に応じた態様（階調や色彩等の視覚的に区別できる性状）で表示されるから、第１音響信号と第２音響信号との間の帯域間相関行列の相違（マスキングの効果）を利用者が直観的かつ即時的に把握できるという利点がある。

本発明の好適な態様において、前記自己相関算定手段は、前記第１音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第２音響信号の各々の自己相関数列とをフレーム毎に算定し、前記相関行列生成手段は、前記第１音響信号の自己相関数列の帯域間相関行列と前記複数の第２音響信号の各々の自己相関数列の帯域間相関行列とを算定し、前記表示制御手段は、前記第１音響信号の帯域間相関行列の相関行列画像と前記複数の第２音響信号の各々の帯域間相関行列の相関行列画像とを前記表示装置に表示させる。以上の態様では、種類や大きさが相違する複数のマスカー音について帯域間相関行列が算定されるから、複数のマスカー音の各々の帯域間相関行列を比較することで、適切なマスカー音を選択することが可能である。

本発明の好適な態様のマスキング解析装置は、第１音響信号の帯域間相関行列と第２音響信号の帯域間相関行列との類似の度合を示す指標値（例えば行列間距離Ｄ）を算定する指標算定手段（例えば指標算定部２６）を具備する。以上の態様では、第１音響信号の帯域間相関行列と第２音響信号の帯域間相関行列との類似の度合を示す指標値がマスキングの解析結果として算定されるから、マスキングの効果を定量的に評価することが可能である。

本発明は、以上の各態様に係るマスキング解析装置を利用して複数種のマスカー音の何れかを選択するマスカー音選択装置としても実現される。本発明のマスカー音選択装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第１音響信号と複数の第２音響信号の各々とについて、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、複数の第２音響信号の各々について当該第２音響信号の帯域間相関行列と第１音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択する選択手段（例えば選択部４０）とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。

また、本発明は、複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置（例えばマスキング装置２００）としても実現される。本発明のマスキング装置は、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音とターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、第１音響信号と複数の第２音響信号の各々とについて、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、複数の第２音響信号の各々について当該第２音響信号の帯域間相関行列と第１音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、指標算定手段が算定した指標値に応じて複数種のマスカー音の何れかを選択して放音装置（例えば放音装置４２）から放音する選択手段（例えば選択部４０）とを具備する。以上の構成でも、本発明のマスキング解析装置と同様の作用および効果が実現される。

以上の各態様に係るマスキング解析装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）で実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、マスカー音によるターゲット音のマスキングを解析するために、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、ターゲット音およびマスカー音の混合音を示す第２音響信号との各々についてフレーム毎に算定する自己相関算定処理と、第１音響信号および第２音響信号の各々について、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明のマスキング解析装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係るマスキング解析装置のブロック図である。加工音声を生成する手順のフローチャートである。自己相関算定部のブロック図である。マスキング解析装置の動作の説明図である。線スペクトル列を生成する動作のフローチャートである。Ｔ/Ｍ比と行列間距離との関係を示すグラフである。表示装置の表示例を示す模式図である。第２実施形態におけるマスキング解析装置のブロック図である。第２実施形態における表示装置の表示例を示す模式図である。第３実施形態に係るマスキング装置のブロック図である。狭帯域包絡相関の計算値と会話了解度の実測値との関係を示すグラフである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係るマスキング解析装置１００のブロック図である。マスキング解析装置１００は、マスカー音ＶMを使用したターゲット音ＶTのマスキングの効果を解析する音響処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と表示装置１６とを含むコンピュータシステムで実現される。表示装置１６は、例えば液晶表示パネルで構成され、演算処理装置１２から指示された画像を表示する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMと演算処理装置１２が使用する各種のデータとを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用され得る。

記憶装置１４には、音響信号ｓ1(t)および音響信号ｓ2(t)が格納される。音響信号ｓ1(t)は、マスキングの対象となるターゲット音ＶTの時間波形を示す信号である。他方、音響信号ｓ2(t)は、音響信号ｓ1(t)が示すターゲット音ＶTにマスカー音ＶMを重畳（加算）した音の時間波形を示す信号（すなわちマスキング後の信号）である。すなわち、音響信号ｓ1(t)はマスキング前の音声に対応する。例えば収音機器を利用して事前に収録された音響信号ｓ1(t)および音響信号ｓ2(t)が記憶装置１４に格納される。なお、収音機器が収音した音声信号を逐次的に（例えば所定の時間長の区間毎に）音響信号ｓ1(t)や音響信号ｓ2(t)として取得して略実時間的に処理することも可能である。

第１実施形態では、周波数領域の広範囲にわたって強度が略均等な白色雑音と、特定の発声者が発声した音声を加工した音声（以下「加工音声」という）とをマスカー音ＶMとして想定する。白色雑音は、エネルギーマスキングの効果が顕著なマスカー音の典型例である。他方、加工音声は、マスキングの効果が顕著な音声である。第１実施形態の加工音声は、例えば図２に例示する手順で生成される。

図２に示すように、特定の発声者の発声音を収録した音声信号が時間軸上で所定長の複数の単位区間に区分される（Ｓ1）。相前後する任意の２個の単位区間は相互に部分的に重複する。そして、各単位区間の音声波形が時間軸方向に逆転されるとともに各単位区間の音量が所定の範囲内の数値に調整され（Ｓ2）、相前後する単位区間同士が部分的に重複した状態で相互に連結（例えばクロスフェード）される（Ｓ3）。更に、連結後の音声信号を複数個に複製するとともに各音声信号に対してシフト処理を実行したうえで相互に加算する（Ｓ4）。シフト処理は、音声信号の複製毎に時間軸上の基準位置を個別に選定し、各音声信号の始点から基準位置までの区間を基準位置から終点までの区間の直後に連結（すなわち音声信号毎に相異なるシフト量で音声信号を時間軸方向にシフト）する処理である。ステップＳ4のシフト処理および加算により生成された音声信号を公知の話速変換処理等により所定の時間長に調整する（Ｓ5）ことで加工音声の音声信号が生成される。

図１の演算処理装置１２は、記憶装置１４に格納されたプログラムＰGMを実行することで、マスカー音ＶMによるマスキングの効果を解析して結果を出力するための複数の機能（自己相関算定部２２，相関行列生成部２４，指標算定部２６，表示制御部２８）を実現する。なお、演算処理装置１２の一部の機能を専用の電子回路（ＤＳＰ）が実現する構成や、演算処理装置１２の各機能を複数の集積回路に分散した構成も採用され得る。

図１の自己相関算定部２２は、所定の時間長のＭ個のフレームの各々について音響信号ｓ1(t)の自己相関数列Ａ1[m]（Ａ1[1]〜Ａ1[M]）と音響信号ｓ2(t)の自己相関数列Ａ2[m]（Ａ2[1]〜Ａ2[M]）とを算定する（ｍ＝１〜Ｍ）。自己相関数列Ａ1[m]は、音響信号ｓ1(t)のうち第ｍ番目のフレームでの調波構造（基音成分と複数の倍音成分との系列）を反映した数値列であり、自己相関数列Ａ2[m]は、音響信号ｓ2(t)のうち第ｍ番目のフレームでの調波構造を反映した数値列である。なお、自己相関算定部２２では、音響信号ｓ1(t)および音響信号ｓ2(t)の各々について同様の処理が実行される。そこで、以下の説明では、音響信号ｓ1(t)および音響信号ｓ2(t)の各々を添字ｉ（ｉ＝１,２）により便宜的に音響信号ｓi(t)と表記して、音響信号ｓ1(t)および音響信号ｓ2(t)の双方に共通する事項を包括的に説明する。

図３は、自己相関算定部２２の詳細なブロック図である。図３に示すように、自己相関算定部２２は、区間設定部３２と周波数分析部３４と相関分析部３６とを含んで構成される。区間設定部３２は、音響信号ｓi(t)に所定の時間窓を乗算することで、音響信号ｓi(t)を、図４に示すように、相異なるフレームに対応するＭ個の区間信号ｑi[m]（ｑi[1]〜ｑi[M]）に区分する。各フレームは、例えば２０ミリ秒から３０ミリ秒程度の時間長に設定されて時間軸上で相互に重複する。なお、音響信号ｓi(t)の例えば基本周波数に応じて各フレームの時間長を可変に制御することも可能である。

図３の周波数分析部３４は、Ｍ個のフレームの各々について区間信号ｑi[m]のスペクトルＱi[m]の各ピークに対応する線スペクトル列Ｌi[m]（Ｌi[1]〜Ｌi[M]）を算定する。線スペクトル列Ｌi[m]は、図３に示すように、区間信号ｑi[m]のスペクトルＱi[m]の振幅値（絶対値）がピークとなるＬN個の周波数Ｆpの各々に配置されて強度が所定値（１）に正規化されたスペクトル線の系列である。

図５は、周波数分析部３４が音響信号ｓi(t)の第ｍ番目のフレーム（区間信号ｑi[m]）について線スペクトル列Ｌi[m]を生成する処理のフローチャートである。各音響信号ｓi(t)のＭ個の区間信号ｑi[1]〜ｑi[M]の各々について図５の処理が実行される。

周波数分析部３４は、１本のスペクトル線を指示する変数ｘを１に初期化し（ＳA1）、変数ｘが所定値ＬNを下回るか否かを判定する（ＳA2）。図５の処理を開始した直後の段階では変数ｘは所定値ＬNを下回る。変数ｘが所定値ＬNを下回る場合、周波数分析部３４は、区間信号ｑi[m]のスペクトル（複素スペクトル）Ｑi[m]を算定する（ＳA3）。スペクトルＱi[m]の算定には、離散フーリエ変換等の公知の周波数分析が任意に採用される。

周波数分析部３４は、ステップＳA3で算定したスペクトルＱi[m]の振幅スペクトル|Ｑi[m]|において振幅値が最大となる１個のピークの周波数Ｆpを特定および記憶し（ＳA4）、ステップＳA3で算定したスペクトルＱi[m]のうちステップＳA4で特定した周波数Ｆp以外の各周波数の強度をゼロに設定したスペクトルＲi[m]を生成する（ＳA5）。そして、周波数分析部３４は、スペクトルＲi[m]を例えば逆フーリエ変換で時間領域の音響信号ｒi[m]に変換し（ＳA6）、変換後の音響信号ｒi[m]を現段階の区間信号ｑi[m]から減算する（ＳA7）。

周波数分析部３４は、変数ｘに１を加算したうえで処理をステップＳA2に移行し（ＳA8）、加算後の変数ｘが依然として所定値ＬNを下回る場合には（ＳA2：YES）、直前のステップＳA7での処理後の区間信号ｑi[m]についてステップＳA3からステップＳA8の処理を反復する。すなわち、区間信号ｑi[m]について特定した周波数Ｆpの総数が所定値ＬNに到達するまで、区間信号ｑi[m]から周波数Ｆpの音響成分を逐次的に除外しながらスペクトルＱi[m]の振幅値のピークの周波数Ｆpを特定する処理が反復される。

周波数Ｆpの総数が所定値ＬNに到達すると（ＳA2：NO）、周波数分析部３４は、周波数軸上に離散的に設定されたＫ個の周波数（周波数帯域）のうちステップＳA4で区間信号ｑi[m]について特定したＬN個の周波数Ｆpの各々に強度１に正規化されたスペクトル線を設定した線スペクトル列Ｌi[m]を生成する（ＳA9）。Ｋ個の周波数のうちＬN個の周波数Ｆp以外の各周波数の強度はゼロに設定される。以上が線スペクトル列Ｌi[m]の算定方法である。なお、線スペクトル列Ｌi[m]の算定については例えばY.Hara, M. Matsumoto, and K. Miyoshi, "Method for estimating pitch independently from power spectrum envelope for speech and music signal", J. Temporal Design in Architecuture and the Environment 9(1) 121-124 (2009)に開示されている。

図３の相関分析部３６は、周波数分析部３４が各音響信号ｓi(t)のフレーム毎に生成した線スペクトル列Ｌi[m]から自己相関数列Ａi[m]を生成する。図４に示す通り、第１に、相関分析部３６は、音響信号ｓi(t)の各フレームの線スペクトル列Ｌi[m]について自己相関数列Ｐi[m]（Ｐi[1]〜Ｐi[M]）を算定する。自己相関数列（自己相関関数）Ｐi[m]は、図４に示すように、周波数軸上のＫ個（例えば１４４０個）の周波数の各々に対応する自己相関値ｐi[k,m]（ｐi[1,m]〜ｐi[K,m]）の系列（Ｋ次ベクトル）である。

第２に、相関分析部３６は、自己相関数列Ｐi[m]から自己相関数列Ａi[m]をフレーム毎に生成する。自己相関数列Ａi[m]は、周波数軸上のＮ個（ＮはＫを下回る自然数）の帯域の各々に対応する自己相関値ａi[n,m]（ａi[1,m]〜ａi[N,m]）の系列（Ｎ次ベクトル）である。具体的には、自己相関数列Ａi[m]のうち第ｎ番目の帯域の自己相関値ａi[n,m]は、自己相関数列Ｐi[m]のうちその帯域内の複数の周波数に対応する自己相関値ｐi[k,m]の代表値（例えば平均値）である。周波数分析部３４が生成する線スペクトル列Ｌi[m]は、区間信号ｑi[m]において振幅値がピークとなる各周波数Ｆpに配置されたスペクトル線で構成されるから、線スペクトル列Ｌi[m]の自己相関数列Ｐi[m]は、音響信号ｓi(t)の各フレームでの調波構造を強調したスペクトルを近似する。したがって、自己相関数列Ａi[m]のＮ個の自己相関値ａi[1,m]〜ａi[N,m]の系列には、音響信号ｓi(t)の基本周波数に相当する間隔でピークが出現する。なお、Ｎ個の帯域の各々は、例えば人間の聴覚の臨界帯域に相当する帯域幅（例えば１/４オクターブ）に設定される。

音響信号ｓ1(t)および音響信号ｓ2(t)の各々についてフレーム毎（区間信号ｑi[m]毎）に以上の処理が実行されることで、図４に示すように、音響信号ｓ1(t)の各フレームに対応するＭ個の自己相関数列Ａ1[1]〜Ａ1[M]を横方向に配列したＮ行Ｍ列の解析行列Ｗ1と、音響信号ｓ2(t)の各フレームに対応するＭ個の自己相関数列Ａ2[1]〜Ａ2[M]を横方向に配列したＮ行Ｍ列の解析行列Ｗ2とが生成される。以上の説明から理解される通り、解析行列Ｗiの第ｎ行に位置するＭ個の自己相関値ａi[n,1]〜ａi[n,M]の系列τi[n]は、周波数軸上の第ｎ番目の帯域に対応する自己相関値ａi[n,m]のＭ個のフレームにわたる時間的な推移に相当する。

図１の相関行列生成部２４は、音響信号ｓ1(t)の解析行列Ｗ1から帯域間相関行列Ｃ1を生成するとともに音響信号ｓ2(t)の解析行列Ｗ2から帯域間相関行列Ｃ2を生成する。各帯域間相関行列Ｃiは、図４に示すように、複数の相互相関係数値ｃi[nx,ny]（ｎx＝１〜Ｎ，ｎy＝１〜Ｎ）を要素とするＮ行Ｎ列の対称行列である。第ｎx行の第ｎy列に位置する１個の相互相関係数値ｃi[nx,ny]は、第ｎx番目の帯域に対応するＭ個の自己相関値ａi[nx,1]〜ａi[nx,M]の時系列τi[nx]と第ｎy番目の帯域に対応するＭ個の自己相関値ａi[ny,1]〜ａi[ny,M]の時系列τi[ny]との類似（相関）の度合を示す変数（例えば時系列τi[nx]と時系列τi[ny]との相互相関係数または共分散）である。すなわち、周波数軸上の任意の２個の帯域間における自己相関値ａi[n,m]の時系列τi[n]（τi[nx]，τi[ny]）の相互相関係数値ｃi[nx,ny]を要素とする行列である。各相互相関係数値ｃi[nx,ny]は、帯域間相関行列Ｃiの対角成分（ｎx＝ｘyとなる要素）が１となるように正規化される。

図１の指標算定部２６は、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との行列間距離Ｄを算定する。具体的には、指標算定部２６は、以下の数式(1)の演算で行列間距離Ｄを算定する。

数式(1)の演算子ｔr( )は、正方行列のトレース（Ｍ個の対角成分の合計）を意味する。数式(1)から理解されるように、行列間距離Ｄは、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2とが一致する場合（ｔr（Ｃ1Ｃ2^-1）＝ｔr（Ｃ2Ｃ1^-1）＝Ｍ）に最小値１となり、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との相違が大きいほど増大する。

図６は、マスカー音ＶMに対するターゲット音ＶTのエネルギー比（Ｔ/Ｍ比）と数式(1)で算定される行列間距離Ｄとの関係を示すグラフである。白色雑音をマスカー音ＶMとして利用した場合と前述の加工音声をマスカー音ＶMとして使用した場合とが図６では併記されている。図６から理解される通り、白色雑音と加工音声とでＴ/Ｍ比を同等に設定した場合でも、加工音声をマスカー音ＶMとした場合の行列間距離Ｄは、白色雑音をマスカー音ＶMとした場合の行列間距離Ｄを上回る。以上の傾向を考慮すると、行列間距離Ｄは、情報マスキングを含むマスキングの効果の定量的な指標として有効であることが理解される。すなわち、行列間距離Ｄが大きい（帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との相違が大きい）ほどマスキングの効果が大きいと評価できる。

図１の表示制御部２８は、相関行列生成部２４および指標算定部２６による処理結果（マスキングの解析結果）を表示装置１６に表示させる。具体的には、表示制御部２８は、図７に例示するように、帯域間相関行列Ｃ1を表現する相関行列画像Ｇ1と帯域間相関行列Ｃ2を表現する相関行列画像Ｇ2とを表示装置１６に表示させる。図７では、加工音声をマスカー音ＶMとして利用した場合が想定されている。相関行列画像Ｇi（Ｇ1，Ｇ2）は、相互に直交するＸ軸とＹ軸とを時間軸として帯域間相関行列Ｃiを表現する。具体的には、相関行列画像Ｇiは、帯域間相関行列Ｃiの各要素に対応する複数（Ｎ²個）の単位領域ＵをＸ軸とＹ軸とに沿ってＮ行Ｎ列の行列状に配列した画像である。相関行列画像ＧiのうちＸ軸上の第ｎx行とＹ軸上の第ｎy列とに対応する１個の単位領域Ｕは、帯域間相関行列Ｃiの第ｎx行第ｎy列の相互相関係数値ｃi[nx,ny]に応じた表示態様（例えば階調および色彩）に設定されることでその相互相関係数値ｃi[nx,ny]を表現する。各相関行列画像Ｇiには、Ｎ個の帯域から選択された任意の２個の帯域間における自己相関値ａi[n,m]の時系列τi[n]の相関（周波数軸方向の変化）が反映される。

表示装置１６に表示された相関行列画像Ｇ1と相関行列画像Ｇ2とを対比することで、利用者は、マスカー音ＶMによるマスキングの効果を視覚的に評価することが可能である。具体的には、図６を参照して説明した通り、相関行列画像Ｇ1と相関行列画像Ｇ2とが相違するほど、マスカー音ＶMによるマスキングの効果が大きいと評価できる。

また、表示制御部２８は、図７に示すように、指標算定部２６が算定した行列間距離Ｄ（図７の例示ではＤ＝７）を表示装置１６に表示させる。利用者は、表示装置１６に表示された行列間距離Ｄからマスキングの効果を評価することが可能である。具体的には、行列間距離Ｄが大きい（帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との相違が大きい）ほど、マスカー音ＶMによるマスキングの効果が大きいと評価できる。

以上に説明した通り、第１実施形態では、音響信号ｓi(t)の帯域間相関行列Ｃiを利用することでマスカー音ＶMによるマスキングの効果を適切に評価できるという利点がある。また、帯域間相関行列Ｃiを表現する相関行列画像Ｇiが表示装置１６に表示されるから、マスキングの効果を利用者が直観的（定性的）かつ即時的に把握できるという利点もある。また、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との行列間距離Ｄも表示装置１６に表示されるから、マスキングの効果を利用者が客観的かつ定量的に評価することが可能である。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態に係るマスキング解析装置１００のブロック図である。図８に示すように、第２実施形態の記憶装置１４は、ターゲット音ＶT（マスキング前の音声）を示す音響信号ｓ1(t)のほか、ターゲット音ＶTとマスカー音ＶMとの混合音（マスキング後の音声）を示す２種類の音響信号ｓ2(t)（ｓ2(t)_A，ｓ2(t)_B）を記憶する。音響信号ｓ2(t)_Aのマスカー音ＶM_Aと音響信号ｓ2(t)_Bのマスカー音ＶM_Bとは種類（生成方法）が相違する。例えば、音響信号ｓ2(t)_Aのマスカー音ＶM_Aは図２の処理で生成された加工音声であり、音響信号ｓ2(t)_Bのマスカー音ＶM_Bは白色雑音である。

第２実施形態の自己相関算定部２２は、音響信号ｓ1(t)と音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Aとの各々について、第１実施形態と同様の方法で自己相関数列Ａi[m]を算定する。相関行列生成部２４は、音響信号ｓ1(t)の帯域間相関行列Ｃ1と音響信号ｓ2(t)_Aの帯域間相関行列Ｃ2_Aと音響信号ｓ2(t)_Bの帯域間相関行列Ｃ2_Bとを第１実施形態と同様の方法で生成する。指標算定部２６は、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2_Aとの間の行列間距離ＤAと、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2_Bとの間の行列間距離ＤBとを算定する。行列間距離ＤAは、マスカー音ＶM_Aを利用した場合のマスキングの効果の評価指標として利用される。同様に、行列間距離ＤBは、マスカー音ＶM_Bを利用した場合のマスキングの効果の評価指標として利用される。

図９は、第２実施形態の表示装置１６による表示画像の模式図である。図９に示すように、第２実施形態の表示制御部２８は、帯域間相関行列Ｃ1の相関行列画像Ｇ1と帯域間相関行列Ｃ2_Aの相関行列画像Ｇ2_Aと帯域間相関行列Ｃ2_Bの相関行列画像Ｇ2_Bとを表示装置１６に表示させる。利用者は、相関行列画像Ｇ2_Aおよび相関行列画像Ｇ2_Bの各々を相関行列画像Ｇ1と対比することで、マスカー音ＶM_Aおよびマスカー音ＶM_Bの各々によるマスキングの効果を視覚的に把握することが可能である。例えば、図９の例示において、音響信号ｓ2(t)_Aに対応する相関行列画像Ｇ2_Aは、音響信号ｓ2(t)_Bの相関行列画像Ｇ2_Bと比較すると、音響信号ｓ1(t)の相関行列画像Ｇ1との相違が大きい。したがって、利用者は、マスカー音ＶM_A（加工音声）がマスカー音ＶM_B（白色雑音）と比較して、情報マスキングを含むマスキングに有効であると視覚的および即時的に判断できる。

また、表示制御部２８は、図９に示すように、指標算定部２６が算定した行列間距離ＤA（図９の例示ではＤA＝７）と行列間距離ＤB（図９の例示ではＤB＝２.５）とを表示装置１６に表示させる。利用者は、表示装置１６に表示された行列間距離ＤAと行列間距離ＤBとを対比することでマスカー音ＶM_Aおよびマスカー音ＶM_Bの各々によるマスキングの効果を評価することが可能である。例えば、図９の例示において、音響信号ｓ2(t)_Aに対応する行列間距離ＤAは音響信号ｓ2(t)_Bの行列間距離ＤBを上回る。したがって、利用者は、マスカー音ＶM_A（加工音声）がマスカー音ＶM_B（白色雑音）と比較してマスキングに有効であると判断できる。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、マスカー音ＶMが相違する複数種の音響信号ｓ2(t)の各々について相関行列画像Ｇ2（Ｇ2_A，Ｇ2_B）および行列間距離Ｄ（ＤA，ＤB）が表示されるから、複数種のマスカー音ＶMの間でマスキングに対する有効性を利用者が容易に比較できるという利点がある。

＜第３実施形態＞
図１０は、本発明の第３実施形態に係るマスキング装置２００のブロック図である。第３実施形態のマスキング装置２００は、生成方法や大きさ（音圧）が相違する複数種のマスカー音ＶM（ＶM_A，ＶM_B）の何れかを選択して放音する装置であり、第２実施形態のマスキング解析装置１００に選択部４０と放音装置４２とを追加した構成である。記憶装置１４は、マスカー音ＶM_Aの音声波形を示すマスカー音信号ｖ(t)_Aとマスカー音ＶM_Bの音声波形を示すマスカー音信号ｖ(t)_Bとを記憶する。

第３実施形態の指標算定部２６は、第２実施形態と同様に、音響信号ｓ1(t)の帯域間相関行列Ｃ1と音響信号ｓ2(t)_Aの帯域間相関行列Ｃ2_Aとの間の行列間距離ＤAと、音響信号ｓ1(t)の帯域間相関行列Ｃ1と音響信号ｓ2(t)_Bの帯域間相関行列Ｃ2_Bとの間の行列間距離ＤBとを算定する。選択部４０は、指標算定部２６が算定した行列間距離Ｄ（ＤA，ＤB）に応じてマスカー音ＶM_Aおよびマスカー音ＶM_Bの何れかを選択する。具体的には、選択部４０は、音響信号ｓ2(t)_Aおよび音響信号ｓ2(t)_Bのうち行列間距離Ｄが大きい音響信号ｓ2(t)に対応するマスカー音ＶM（すなわちマスキングに有効なマスカー音ＶM）を選択する。そして、選択部４０は、行列間距離Ｄに応じて選択したマスカー音ＶMに対応するマスカー音信号ｖ(t)（ｖ(t)_A，ｖ(t)_B）を記憶装置１４から取得して放音装置４２に供給する。放音装置４２（例えばスピーカ装置）は、選択部４０から供給されるマスカー音信号ｖ(t)に応じてマスカー音ＶM（ＶM_A，ＶM_B）を音波として放射する。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、マスキングに有効なマスカー音ＶMが行列間距離Ｄに応じて自動的に選択および放音されるから、ターゲット音ＶTをマスキングしようとする利用者の負担を軽減することが可能である。

なお、第３実施形態では、表示制御部２８および表示装置１６を省略することも可能である。選択部４０が行列間距離Ｄに応じたマスカー音ＶMを選択して例えば表示装置１６の表示により利用者に報知する構成（すなわち、マスカー音ＶMの放音を要件としないマスカー音選択装置）も採用され得る。また、以上の説明では、２種類のマスカー音ＶM（ＶM_A，ＶM_B）の何れかを選択する場合を例示したが、選択候補となるマスカー音ＶMの種類数は任意である。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、帯域間相関行列Ｃiを相関行列画像Ｇiとして表示装置１６に表示させたが、帯域間相関行列Ｃiの利用の方法は画像表示に限定されない。例えば、相関行列生成部２４が生成した帯域間相関行列Ｃiを用紙に印刷する構成や、通信網を介して他の通信端末に送信する構成、あるいは可搬型の記録媒体に格納する構成も採用され得る。

同様に、行列間距離Ｄの利用の方法は利用者に対する表示に限定されない。具体的には、第３実施形態のようにマスカー音ＶMの選択に行列間距離Ｄを適用する構成のほか、行列間距離Ｄを音声で出力する構成や用紙に印刷する構成、あるいは通信網を介して他の通信端末に送信する構成や、可搬型の記録媒体に格納する構成も採用され得る。

（２）帯域間相関行列Ｃ1および帯域間相関行列Ｃ2の類否（相関や距離）を示す指標値は行列間距離Ｄに限定されない。帯域間相関行列Ｃ1および帯域間相関行列Ｃ2の類似の度合と指標算定部２６が算定する指標値の大小との関係は指標値の算定方法に応じて定まる。例えば、数式(1)で定義される行列間距離Ｄを指標値として算定する構成とは逆に、帯域間相関行列Ｃ1と帯域間相関行列Ｃ2との相違が大きいほど減少するように指標値を算定することも可能である。

（３）第２実施形態では２種類の音響信号ｓ2(t)（ｓ2(t)_A，ｓ2(t)_B）を例示したが、３種類以上の音響信号ｓ2(t)を用意した構成でも、各音響信号ｓ2(t)について以上の各形態と同様の処理を実行することで、各音響信号ｓ2(t)のマスカー音ＶMによるマスキングの効果を評価することが可能である。

（４）第２実施形態では、音響信号ｓ2(t)_Aと音響信号ｓ2(t)_Bとでマスカー音ＶMの種類を相違させたが、音響信号ｓ2(t)_Aと音響信号ｓ2(t)_BとでＴ/Ｍ比を相違させた構成も採用される。例えば、同種のマスカー音ＶMを相異なるＴ/Ｍ比でターゲット音ＶTのマスキングに適用して音響信号ｓ2(t)_Aおよび音響信号ｓ2(t)_Bを生成した場合、前述の各形態と同様に各音響信号ｓ2(t)について帯域間相関行列Ｃ2や行列間距離Ｄを算定および評価することで、マスキングの有効化という観点から最適なＴ/Ｍ比を特定することが可能である。すなわち、マスカー音の種類およびＴ/Ｍ比の少なくとも一方が相違する複数の音響信号ｓ2(t)の各々について帯域間相関行列Ｃ2や行列間距離Ｄを算定する構成が好適である。

１００……マスキング解析装置、２００……マスキング装置、１２……演算処理装置、１４……記憶装置、１６……表示装置、２２……自己相関算定部、２４……相関行列生成部、２６……指標算定部、２８……表示制御部、３２……区間設定部、３４……周波数分析部、３６……相関分析部。

Claims

マスカー音によるターゲット音のマスキングを解析する装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第１音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第２音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第１音響信号および前記第２音響信号の各々について、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と
を具備するマスキング解析装置。
相互に交差する第１軸と第２軸とを周波数軸として前記帯域間相関行列の各相互相関係数値を表現する相関行列画像を、前記第１音響信号および前記第２音響信号の各々について表示装置に表示させる表示制御手段
を具備する請求項１のマスキング解析装置。
前記相関行列画像は、前記第１軸および前記第２軸に沿って行列状に配列する複数の単位領域を含み、前記複数の単位領域の各々は、前記帯域間相関行列の複数の相互相関係数値のうち、前記第１軸上で当該単位領域に対応する帯域と前記第２軸上で当該単位領域に対応する帯域との間における相互相関係数値に応じた態様で表示される
請求項２のマスキング解析装置。
前記自己相関算定手段は、前記第１音響信号の自己相関数列と、マスカー音の種類とターゲット音およびマスカー音のエネルギー比との少なくとも一方が相違する複数の第２音響信号の各々の自己相関数列とをフレーム毎に算定し、
前記相関行列生成手段は、前記第１音響信号の自己相関数列の帯域間相関行列と前記複数の第２音響信号の各々の自己相関数列の帯域間相関行列とを算定し、
前記表示制御手段は、前記第１音響信号の帯域間相関行列の相関行列画像と前記複数の第２音響信号の各々の帯域間相関行列の相関行列画像とを前記表示装置に表示させる
請求項２または請求項３のマスキング解析装置。
前記第１音響信号の帯域間相関行列と前記第２音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段
を具備する請求項１から請求項４の何れかのマスキング解析装置。
複数種のマスカー音の何れかを選択するマスカー音選択装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第１音響信号と前記複数の第２音響信号の各々とについて、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、
前記複数の第２音響信号の各々について当該第２音響信号の帯域間相関行列と前記第１音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択する選択手段と
を具備するマスカー音選択装置。
複数種のマスカー音の何れかを利用してターゲット音をマスキングするマスキング装置であって、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第１音響信号と、相異なる種類のマスカー音と前記ターゲット音との混合音を示す複数の第２音響信号の各々とについて、時間軸上のフレーム毎に算定する自己相関算定手段と、
前記第１音響信号と前記複数の第２音響信号の各々とについて、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段と、
前記複数の第２音響信号の各々について当該第２音響信号の帯域間相関行列と前記第１音響信号の帯域間相関行列との類似の度合を示す指標値を算定する指標算定手段と、
前記指標算定手段が算定した指標値に応じて前記複数種のマスカー音の何れかを選択して放音装置から放音する選択手段と
を具備するマスキング装置。
マスカー音によるターゲット音のマスキングを解析するために、コンピュータに、
音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、前記ターゲット音を示す第１音響信号と、前記ターゲット音および前記マスカー音の混合音を示す第２音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定処理と、
前記第１音響信号および前記第２音響信号の各々について、周波数軸上の任意の２個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成処理と
を実行させるプログラム。