JP2004109712A - 話者方向検出装置 - Google Patents
話者方向検出装置 Download PDFInfo
- Publication number
- JP2004109712A JP2004109712A JP2002274177A JP2002274177A JP2004109712A JP 2004109712 A JP2004109712 A JP 2004109712A JP 2002274177 A JP2002274177 A JP 2002274177A JP 2002274177 A JP2002274177 A JP 2002274177A JP 2004109712 A JP2004109712 A JP 2004109712A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- linear prediction
- speaker
- function value
- evaluation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【課題】声道の影響を排除し、また信号の弱い音声についても有音/雑音の判定精度を向上させる。
【解決手段】線形予測回路3,4はマイクロホン1,2からの入力信号に対して線形予測を行い線形予測信号を生成する。減算器A,Bはマイクロホンからの入力信号から線形予測信号を差し引いて残差信号を生成する。評価関数演算回路5は、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、この評価関数値の最大値を検出する。方向検出回路6は、評価関数演算回路5で得た位相差を基にして話者の方向検出を行う。また、ゼロ交差回数検出回路7は、マイクロホンからの入力信号のゼロ交差回数を検出する。有音/雑音判定回路8はゼロ交差回数を基にした有音/雑音判定を行い、雑音と判定された場合は方向検出回路6からの方向検出出力停止し誤動作を防止する。
【選択図】 図1
【解決手段】線形予測回路3,4はマイクロホン1,2からの入力信号に対して線形予測を行い線形予測信号を生成する。減算器A,Bはマイクロホンからの入力信号から線形予測信号を差し引いて残差信号を生成する。評価関数演算回路5は、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、この評価関数値の最大値を検出する。方向検出回路6は、評価関数演算回路5で得た位相差を基にして話者の方向検出を行う。また、ゼロ交差回数検出回路7は、マイクロホンからの入力信号のゼロ交差回数を検出する。有音/雑音判定回路8はゼロ交差回数を基にした有音/雑音判定を行い、雑音と判定された場合は方向検出回路6からの方向検出出力停止し誤動作を防止する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、話者方向検出装置、特に、テレビジョン会議装置のように画像入力用ビデオカメラと音声入力用マイクロホンを有し、設置場所が固定されている装置において、ビデオカメラの撮像角を制御するため、音声信号を用いて装置から見た話者の方向を検出する話者方向検出装置に関する。
【0002】
【従来の技術】
話者方向検出装置の出力信号を用いてビデオカメラの撮像角を制御しようとした場合、話者方向の検出誤りが発生すると、話者以外の方向にビデオカメラが向いてしまうといった問題が起こり、テレビジョン会議装置等の利用者に多大な不都合が生じてしまうという問題があった。
【0003】
そこで、従来のこの種の話者方向検出装置は、音声信号が2つのマイクロホンに到達する距離の差によって生じる到達時間差を相互相関関数の時間差毎の加算値を用いて推定する評価関数手段と、相互相関関数値の加算値の最大値を検出して話者の方向検出を行う検出手段とを有している(例えば、特許文献1参照)。
【0004】
相互相関関数値が最大値となるときの到達時間差は、自己相関関数値を最大とするので、その到達時間差を用いて音波の方向を算出・推定し、その推定結果を話者方向に換算するものである。そして、相互相関関数値をある時間加算(統計処理)した後に最大値検索を実行するため、検索誤りの発生を最小限に抑えることができる。このような構成を採用することにより、話者の音声信号に話者以外の方向から到来する信号が重畳していても話者方向の検出誤りを低減することができる。
【0005】
なお、上述の従来技術では、評価関数の具体例として、自己相関関数及び相互相関関数の関係式とし、更に、その関係式として相互相関関数の二乗を自己相関関数で除算したものを提示している。
【0006】
ところで、話者方向検出装置を小型化する場合、マイクロホンの間隔が特に広くはないので、それぞれのマイクロホンに入力される音声サンプルの波形の関係は、遅延等は存在するもの、同一の音源から出たものであり、ほぼ同じ波形とみなすことができる。よって、2つのマクロホンへの入力の相互相関結果は、1つのマイクロホンへの入力と見なした場合、遅延を含んだ自己相関と近似することができる。
【0007】
自己相関をピッチ検出方法に用いる場合があることは当業界ではよく知られており、また、一般に音声波形には駆動音源情報と声道情報が混在しているため、声道の影響を取り除いてからピッチ検出を行った方が抽出誤りが少なくなることが知られている(例えば、非特許文献1参照)。
【0008】
また、当業界においては、音声スペクトルは、比較的ゆっくり変化するスペクトル包絡と短時間で変化するスペクトル微細構造に分離でき、前者が声道の共振特性に、後者が駆動音源特性に対応していることが良く知られいる。更に、線形予測分析(例えば、非特許文献2参照)後の残差信号は、平たんなスペクトル包絡特性を持ち、駆動音源に基づくスペクトルの微細構造情報のみを持っていることも知られている。
【0009】
また、上述の公報記載の技術では、マイクロホンからの入力信号または、この入力信号から算出される自己相関値をしきい値と比較して、有音/雑音判定を行っているが、これに関連して、音声区間と無音区間を識別するのに、信号波形の単位時間あたりのゼロ交差回数を利用する技術が知られている(例えば、非特許文献3参照)。
【0010】
【特許文献1】
特開2001−236092号公報(第1−6頁、図1−図7)
【非特許文献1】
北脇 信彦他著「音のコミュニケーション工学」コロナ社、1996年8月30日、P.22−23
【非特許文献2】
安居院 猛他著「コンピュータ音声処理」秋葉出版、1988年6月20日、P.43−46
【非特許文献3】
鈴木 久喜著「音声のディジタル信号処理」コロナ出版、昭和58年4月15日、P136−141
【0011】
【発明が解決しようとする課題】
一般に、音声波形には、口の動きで内容が定まる駆動音源情報と、喉越しに発せられる一様な内容の声道情報とが混在しているが、自己相関の精度は声道情報を差し引いた方が増すことになる。しかし、上述した公報記載の技術では、声道情報の除去についての記載が無いので、声道情報を除去した場合に比べて自己相関の精度の精度が低下するという第1の問題点がある。。
【0012】
また、上述の公報記載の技術では、マイクロホンからの入力信号または、この入力信号から算出される自己相関値をしきい値と比較して、有音/雑音判定を行うようになっているが、マイクロホンから比較的離れた話者からの音声は、パワー(音圧)が小さくなり雑音と判定されやすいので、方向検出の感度が鈍くなる傾向にあるという第2の問題点がある。
【0013】
したがって、本発明の第1の目的は、マイクロホンからの入力信号から声道情報の影響を取り除くことにより、誤動作を少なくし安定性を高めた話者方向検出装置を提供することにある。
【0014】
本発明の第2の目的は、マイクロホンからの入力信号の有音/雑音を検出して、周囲雑音の影響を排除することにより、誤動作を少なくし安定性を高めた話者方向検出装置を提供することにある。
【0015】
【課題を解決するための手段】
本発明の話者方向検出装置は、音声信号が2つのマイクロホンに到達する距離の差によって生じる到達時間差を推定する自己相関関数と相互相関関数の関係式を用いた評価関数への入力信号として、マイクロホンからの入力信号についてそれぞれ線形予測を行いマイクロホンからの入力信号から線形予測信号を減算して音声の声道の影響を取り除いた信号を使用することを特徴とするものである。
【0016】
より詳しくは、本発明の話者方向検出装置は、マイクロホンからの入力信号入力信号について線形予測を行い線形予測信号を生成するマイクロホン対応の線形予測回路(図1の3,4)と、入力信号から線形予測信号を差し引き声道の影響を取り除いた残差信号を生成するマイクロホン対応の減算器(図1のA,B)と、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して残差信号に対する評価関数値の最大値を検出する評価関数演算回路(図1の5)と、評価関数値の最大値により得られる入力信号の位相差を基にして話者の方向検出を行う方向検出回路(図1の6)とを有することを特徴とする。
【0017】
話者方向検出の精度は声道の影響を取り除いたほうが向上することが知られている、本発明は、そのためにマイクロホンからの入力信号に対して線形予測を行い、線形予測分析後の残差信号について自己相関関数および相互相関関数を適用して、自己相関関数および相互相関関数で定義される評価関数の評価結果の精度を上げることにより、声道の影響を取り除くこととしたものである。
【0018】
また、本発明の話者方向検出装置は、マイクロホンからの入力信号に対して、短時間平均のゼロ交差の回数を検出することにより有音と雑音を判定し、音声だと判定された場合のみ前記話者方向検出を行い、周囲雑音と判定された場合は方向検出を停止するようにすることもできる。
【0019】
これにより、マイクロホンから比較的離れた話者からの音声であっても正確に検出できるようになる。有音と雑音の判定は、信号のゼロ交差回数は、音声(厳密には有音部分のみ)では相対的に少なく、雑音(厳密には音声の無声音部分も含む。)では相対的に多くなるという音声理論に基づくものである。
【0020】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照しながら説明する。
【0021】
【構成の説明】
図1は本発明の話者方向検出装置の一実施形態を示すブロック図である。この話者方向検出装置は、2つの線形予測回路3,4、2つの減算器A,B、評価関数演算回路5、方向検出回路6、ゼロ交差回数検出回路7および有音/雑音判定回路8で構成されている。
【0022】
音声信号がマイクロホン1に入力し、マイクロホン1からの入力信号1Sが線形予測回路3に入力すると、線形予測回路3は入力信号1Sについて線形予測を行い、線形予測信号3Sを生成する。減算器Aは入力信号1Sから線形予測信号3Sを差し引き、声道の影響を取り除いた残差信号ASを生成する。同様に、マイクロホン2からの入力信号2Sが線形予測回路4に入力すると、線形予測回路4は入力信号2Sについて線形予測を行い、線形予測信号4Sを生成する。減算器Bは入信号2Sから線形予測信号4Sを差し引き、声道の影響を取り除いた残差信号BSを生成する。
【0023】
残差信号AS,BSは評価関数演算回路5に入力する。評価関数演算回路5は、例えば、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、残差信号AS,BSに対する評価関数の最大値を検出し、ここで得た入力信号1Sと入力信号2Sの位相差を基にして、方向検出回路6にて話者の方向検出を行う。
【0024】
また、ゼロ交差回数検出回路7は、入力信号1S,2Sの値が所定時間内にゼロとなるゼロ交差回数を検出する。有音/雑音判定回路8は、ゼロ交差回数情報を基に、ある音源からマイクロフォン1,2に入力された音声信号が、雑音によるものか、発声者によるものかを判定し、雑音と判定された場合は、方向検出回路6の更新を停止し、この時の検出信号方向は雑音源と思われる位置方向を示さないように制御する。
【0025】
図2は、本発明の話者方向検出装置の一実施例を示すブロック図である。この話者方向検出装置は、3つのメモリ14,15,16、4つの線形予測回路17,18,19,20、4つの減算器21,22,23,24、2つの評価関数演算回路29,30および方向検出回路31で構成されている。
【0026】
メモリ14,15,16には、それぞれマイクロホン11,12,13からの入力信号11S,12S,13Sが保持される。マイクロホン11とマイクロホン12は、図3に示すように水平方向に置かれて、話者の水平方向の位置探索に利用するために使用され、マイクロホン12とマイクロホン13は垂直方向に置かれて、話者の垂直方向の位置探索に利用するために使用される。
【0027】
線形予測回路17はメモリ14,線形予測回路18および19はメモリ15,線形予測回路20はメモリ16を介して得たマイクロホン1,2,3からの入力信号11S,12S,13Sを入力して線形予測を行い、線形予測信号17S,18S,19S,20Sを生成する。線形予測回路17〜20は、もっとも簡単な例では、数次のFIR(Finite Impulse Response:有限長インパルスレスポンス)フィルタ等により実現によりできる。減算器21,22,23,24は、線形予測信号17S,18S,19S,20Sをメモリ14,15,15,16を介して得た信号から差し引き、残差信号21S,22S,23S,24Sを生成する。
【0028】
自己相関演算回路25は自己相関関数を用いて残差信号22Sに対する自己相関関数値25Sを算出し、自己相関演算回路26は自己相関関数を用いて残差信号23Sに対する自己相関関数値26Sを算出する。これにより、水平方向の時間差毎の相互相関関数値が算出される。また、相互相関関数回路27は相互相関関数を用いて残差信号21Sおよび22Sに対す相互相関関数値27Sを算出し、相互相関関数回路28は相互相関関数を用いて残差信号23Sおよび24Sに対する相互相関関数値28Sを算出する。これにより、垂直方向の時間差毎の相互相関関数値が算出される。
【0029】
評価関数演算回路29は、自己相関関数値25Sと相互相関関数値27Sを基に評価関数に従って評価関数値29Sを算出して位置検出回路31へ渡す。位置検出回路31は、評価関数値29Sが最大となる遅延位置を決定し、その遅延に該当する方向が水平方向となる。なお、最大値検索は、評価関数値29Sについて所定時間分の加算処理した後に行う。同様に、評価関数回路30は、自己相関関数値26Sと相互相関関数値28Sを基に評価関数に従って評価関数値30Sを算出して位置検出回路31へ渡す。位置検出回路31は、評価関数値30Sが最大となる遅延位置を決定し、その遅延に該当する方向が垂直方向となる。ここでも、最大値検索は、評価関数値30Sについて所定時間分の加算処理した後に行う。
【0030】
評価関数演算回路29,30では、例えば、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、この評価関数で算出した値の最大値を検出し、ここで得た位相差を基にして話者の方向検出を行う。
【0031】
以上の説明において、線形予測回路18と19、減算器22と23、また自己相関演算回路25と26の結果は同じなので、どちらか片方のみの演算を行い、評価関数演算回路29,30への入力としてもよい。
【0032】
図4は、本発明の他の実施例を示すブロック図である。この実施例では、図2に示した実施例に対して、ゼロ交差回数検出回路32および有音/雑音判定回路33が付加されている。図4と図2とで同じ構成要素には、同一の参照番号が付されている。方向検出回路31が水平方向と垂直方向の検出を行うまでは、図2の実施例と同様である。
【0033】
本実施例では、メモリ14〜16に格納されたマイクロホン11〜13からの入力信号14S〜16Sは、ゼロ交差回数検出回路32に入力され、ここで入力信号14S〜16Sの短時間におけるゼロ交差回数を演算する。有音/雑音判定回路33は、この結果を基に有音/雑音判定を行う。そして、雑音区間と判定された場合は、方向検出回路31からの方向出力を停止し、雑音源の影響により誤動作することを防止する。
【0034】
【動作の説明】
次に、図4の実施例の動作につき、図5のフローチャートに沿って説明する。このフローチャートは、水平方向と垂直方向のそれぞれ独立して実行される処理を示している。
【0035】
先ず、評価関数演算回路29,30における、評価結果の加算時間分を検出するカウント値CNTを初期化する(図5のステップS1)。該当マイクロホンから音声データを入力すると(ステップS2)、16kHzサンプリングで32〜40サンプル程度毎に線形予測処理(ステップS3),自己相関演算(ステップS4)、相互相関演算(ステップS5)を行う。
【0036】
これらの線形予測処理(ステップS3),自己相関演算(ステップS4)および相互相関関演算(ステップS5)は、メモリ14〜16に音声データを蓄積してフレーム単位で一気に処理を行うか、もしくはサンプル毎の部分に分割して計算を行うことによっても計算してもよい。図5は後者の場合を示している。この場合は、相関関数演算が終わっているかを判定し(ステップS6)、終了していない場合(ステップS6でNO)は音声データ入力(ステップS2)へ戻る。
【0037】
相関関数演算が終了すると(ステップS6でYES)、残差信号生成までを含む線形予測処理(ステップS3)自己相関演算(ステップS4)および相互相関関演算(ステップS5)によって得られた結果を基に、評価関数値の算出を行う(ステップS7)。この評価関数値は、(相互相関の二乗/自己相関)を評価関数として計算する。
【0038】
次いで、得られた評価関数値を統計的に平均化するため、評価結果をこれまでの結果に加算して蓄積する(ステップS8)。そして、カウント値CNTは評価結果の蓄積時間を計るのに使用しているため、1つだけ増数されて更新される(ステップS9)。更新されたカウント値CNTは、カウント値CNTの確認を予め設定した値MAXと比較される(ステップS10)。設定値:MAXは、200msから1s程度の任意の値とすると良い。
【0039】
比較の結果、カウント値CNTが設定値:MAXに満たない場合は(ステップS10でNO)、音声データ入力(ステップS2)に戻る。設定値:MAX以上になった場合は(ステップS10でYES)、カウント値CNTを0に初期化(ステップS11)した後、評価結果の最大値検索をして、最大となる時の時間差(遅延)を検出する(ステップS12)。最後に、評価関数値の加算結果を初期化しておく(ステップS13)。これによって、次に新しく開始する評価関数値の加算に備える。
【0040】
また、この検出期間中に、マイクロホン11〜13のゼロ交差回数が検出されるので、その結果を基に有音/雑音を判定し(ステップS14)、有音と判定された場合に(ステップS15でYES)のみ、時間差(遅延)から方向を算出する(ステップS16)。有音/雑音の判定(ステップS14,S15)には、マイクロホン11〜13からの全ての入力信号が有音区間と判定された場合のみ有音区間とする方法、または、マイクロホン11〜13からの入力信号のいずれかが有音と判定された場合は有音区間とする方法等がある。
【0041】
以上に説明した話者方向検出方法は、話者方向検出装置を構成するコンピュータにおいてプログラムを実行させることによっても行うことができる。そのプログラムは、コンピュータを制御して、例えば、図5に示したのと同様な処理を行わせる。
【0042】
なお、本発明が上記各実施例に限定されず、本発明の技術思想の範囲内において各実施例は適宜変更され得ることは明らかである。
【0043】
【発明の効果】
以上説明したように、本発明は、線形予測回路を用いて、マイクロホンからの入力信号から声道の影響を取り除くこととしたため、評価関数演算回路により計算される複数マイクロホンからの入力信号の位相差の検出精度を高め、話者方向の検出誤りを低減することができるようになるという第1の効果を有する。
【0044】
また、マイクロホンからの入力信号の短時間のゼロ交差関数検出に基づく有音/雑音判定を行って、周囲雑音の影響を排除することとしたため、話者方向検出装置の誤動作を少なくし安定性を高めることができるようになるという第2の効果を有する。
【図面の簡単な説明】
【図1】本発明の話者方向検出装置の一実施形態を示すブロック図
【図2】本発明の話者方向検出装置の一実施例を示すブロック図
【図3】図2および図4に示した実施例に適用されるマイクロホンの配置図
【図4】本発明の話者方向検出装置の他の実施例を示すブロック図
【図5】図4に示した実施例のフローチャート
【符号の説明】
1,2,11〜13 マイクロホン
14〜16 メモリ
3,4,17〜20 線形予測回路
5,29,30 評価関数演算回路
6,31 方向検出回路
7,32 ゼロ交差回数検出回路
8,33 有音/雑音判定回路
21〜24 減算器
25,26 自己相関演算回路
27,28 相互相関演算回路
【発明の属する技術分野】
本発明は、話者方向検出装置、特に、テレビジョン会議装置のように画像入力用ビデオカメラと音声入力用マイクロホンを有し、設置場所が固定されている装置において、ビデオカメラの撮像角を制御するため、音声信号を用いて装置から見た話者の方向を検出する話者方向検出装置に関する。
【0002】
【従来の技術】
話者方向検出装置の出力信号を用いてビデオカメラの撮像角を制御しようとした場合、話者方向の検出誤りが発生すると、話者以外の方向にビデオカメラが向いてしまうといった問題が起こり、テレビジョン会議装置等の利用者に多大な不都合が生じてしまうという問題があった。
【0003】
そこで、従来のこの種の話者方向検出装置は、音声信号が2つのマイクロホンに到達する距離の差によって生じる到達時間差を相互相関関数の時間差毎の加算値を用いて推定する評価関数手段と、相互相関関数値の加算値の最大値を検出して話者の方向検出を行う検出手段とを有している(例えば、特許文献1参照)。
【0004】
相互相関関数値が最大値となるときの到達時間差は、自己相関関数値を最大とするので、その到達時間差を用いて音波の方向を算出・推定し、その推定結果を話者方向に換算するものである。そして、相互相関関数値をある時間加算(統計処理)した後に最大値検索を実行するため、検索誤りの発生を最小限に抑えることができる。このような構成を採用することにより、話者の音声信号に話者以外の方向から到来する信号が重畳していても話者方向の検出誤りを低減することができる。
【0005】
なお、上述の従来技術では、評価関数の具体例として、自己相関関数及び相互相関関数の関係式とし、更に、その関係式として相互相関関数の二乗を自己相関関数で除算したものを提示している。
【0006】
ところで、話者方向検出装置を小型化する場合、マイクロホンの間隔が特に広くはないので、それぞれのマイクロホンに入力される音声サンプルの波形の関係は、遅延等は存在するもの、同一の音源から出たものであり、ほぼ同じ波形とみなすことができる。よって、2つのマクロホンへの入力の相互相関結果は、1つのマイクロホンへの入力と見なした場合、遅延を含んだ自己相関と近似することができる。
【0007】
自己相関をピッチ検出方法に用いる場合があることは当業界ではよく知られており、また、一般に音声波形には駆動音源情報と声道情報が混在しているため、声道の影響を取り除いてからピッチ検出を行った方が抽出誤りが少なくなることが知られている(例えば、非特許文献1参照)。
【0008】
また、当業界においては、音声スペクトルは、比較的ゆっくり変化するスペクトル包絡と短時間で変化するスペクトル微細構造に分離でき、前者が声道の共振特性に、後者が駆動音源特性に対応していることが良く知られいる。更に、線形予測分析(例えば、非特許文献2参照)後の残差信号は、平たんなスペクトル包絡特性を持ち、駆動音源に基づくスペクトルの微細構造情報のみを持っていることも知られている。
【0009】
また、上述の公報記載の技術では、マイクロホンからの入力信号または、この入力信号から算出される自己相関値をしきい値と比較して、有音/雑音判定を行っているが、これに関連して、音声区間と無音区間を識別するのに、信号波形の単位時間あたりのゼロ交差回数を利用する技術が知られている(例えば、非特許文献3参照)。
【0010】
【特許文献1】
特開2001−236092号公報(第1−6頁、図1−図7)
【非特許文献1】
北脇 信彦他著「音のコミュニケーション工学」コロナ社、1996年8月30日、P.22−23
【非特許文献2】
安居院 猛他著「コンピュータ音声処理」秋葉出版、1988年6月20日、P.43−46
【非特許文献3】
鈴木 久喜著「音声のディジタル信号処理」コロナ出版、昭和58年4月15日、P136−141
【0011】
【発明が解決しようとする課題】
一般に、音声波形には、口の動きで内容が定まる駆動音源情報と、喉越しに発せられる一様な内容の声道情報とが混在しているが、自己相関の精度は声道情報を差し引いた方が増すことになる。しかし、上述した公報記載の技術では、声道情報の除去についての記載が無いので、声道情報を除去した場合に比べて自己相関の精度の精度が低下するという第1の問題点がある。。
【0012】
また、上述の公報記載の技術では、マイクロホンからの入力信号または、この入力信号から算出される自己相関値をしきい値と比較して、有音/雑音判定を行うようになっているが、マイクロホンから比較的離れた話者からの音声は、パワー(音圧)が小さくなり雑音と判定されやすいので、方向検出の感度が鈍くなる傾向にあるという第2の問題点がある。
【0013】
したがって、本発明の第1の目的は、マイクロホンからの入力信号から声道情報の影響を取り除くことにより、誤動作を少なくし安定性を高めた話者方向検出装置を提供することにある。
【0014】
本発明の第2の目的は、マイクロホンからの入力信号の有音/雑音を検出して、周囲雑音の影響を排除することにより、誤動作を少なくし安定性を高めた話者方向検出装置を提供することにある。
【0015】
【課題を解決するための手段】
本発明の話者方向検出装置は、音声信号が2つのマイクロホンに到達する距離の差によって生じる到達時間差を推定する自己相関関数と相互相関関数の関係式を用いた評価関数への入力信号として、マイクロホンからの入力信号についてそれぞれ線形予測を行いマイクロホンからの入力信号から線形予測信号を減算して音声の声道の影響を取り除いた信号を使用することを特徴とするものである。
【0016】
より詳しくは、本発明の話者方向検出装置は、マイクロホンからの入力信号入力信号について線形予測を行い線形予測信号を生成するマイクロホン対応の線形予測回路(図1の3,4)と、入力信号から線形予測信号を差し引き声道の影響を取り除いた残差信号を生成するマイクロホン対応の減算器(図1のA,B)と、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して残差信号に対する評価関数値の最大値を検出する評価関数演算回路(図1の5)と、評価関数値の最大値により得られる入力信号の位相差を基にして話者の方向検出を行う方向検出回路(図1の6)とを有することを特徴とする。
【0017】
話者方向検出の精度は声道の影響を取り除いたほうが向上することが知られている、本発明は、そのためにマイクロホンからの入力信号に対して線形予測を行い、線形予測分析後の残差信号について自己相関関数および相互相関関数を適用して、自己相関関数および相互相関関数で定義される評価関数の評価結果の精度を上げることにより、声道の影響を取り除くこととしたものである。
【0018】
また、本発明の話者方向検出装置は、マイクロホンからの入力信号に対して、短時間平均のゼロ交差の回数を検出することにより有音と雑音を判定し、音声だと判定された場合のみ前記話者方向検出を行い、周囲雑音と判定された場合は方向検出を停止するようにすることもできる。
【0019】
これにより、マイクロホンから比較的離れた話者からの音声であっても正確に検出できるようになる。有音と雑音の判定は、信号のゼロ交差回数は、音声(厳密には有音部分のみ)では相対的に少なく、雑音(厳密には音声の無声音部分も含む。)では相対的に多くなるという音声理論に基づくものである。
【0020】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照しながら説明する。
【0021】
【構成の説明】
図1は本発明の話者方向検出装置の一実施形態を示すブロック図である。この話者方向検出装置は、2つの線形予測回路3,4、2つの減算器A,B、評価関数演算回路5、方向検出回路6、ゼロ交差回数検出回路7および有音/雑音判定回路8で構成されている。
【0022】
音声信号がマイクロホン1に入力し、マイクロホン1からの入力信号1Sが線形予測回路3に入力すると、線形予測回路3は入力信号1Sについて線形予測を行い、線形予測信号3Sを生成する。減算器Aは入力信号1Sから線形予測信号3Sを差し引き、声道の影響を取り除いた残差信号ASを生成する。同様に、マイクロホン2からの入力信号2Sが線形予測回路4に入力すると、線形予測回路4は入力信号2Sについて線形予測を行い、線形予測信号4Sを生成する。減算器Bは入信号2Sから線形予測信号4Sを差し引き、声道の影響を取り除いた残差信号BSを生成する。
【0023】
残差信号AS,BSは評価関数演算回路5に入力する。評価関数演算回路5は、例えば、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、残差信号AS,BSに対する評価関数の最大値を検出し、ここで得た入力信号1Sと入力信号2Sの位相差を基にして、方向検出回路6にて話者の方向検出を行う。
【0024】
また、ゼロ交差回数検出回路7は、入力信号1S,2Sの値が所定時間内にゼロとなるゼロ交差回数を検出する。有音/雑音判定回路8は、ゼロ交差回数情報を基に、ある音源からマイクロフォン1,2に入力された音声信号が、雑音によるものか、発声者によるものかを判定し、雑音と判定された場合は、方向検出回路6の更新を停止し、この時の検出信号方向は雑音源と思われる位置方向を示さないように制御する。
【0025】
図2は、本発明の話者方向検出装置の一実施例を示すブロック図である。この話者方向検出装置は、3つのメモリ14,15,16、4つの線形予測回路17,18,19,20、4つの減算器21,22,23,24、2つの評価関数演算回路29,30および方向検出回路31で構成されている。
【0026】
メモリ14,15,16には、それぞれマイクロホン11,12,13からの入力信号11S,12S,13Sが保持される。マイクロホン11とマイクロホン12は、図3に示すように水平方向に置かれて、話者の水平方向の位置探索に利用するために使用され、マイクロホン12とマイクロホン13は垂直方向に置かれて、話者の垂直方向の位置探索に利用するために使用される。
【0027】
線形予測回路17はメモリ14,線形予測回路18および19はメモリ15,線形予測回路20はメモリ16を介して得たマイクロホン1,2,3からの入力信号11S,12S,13Sを入力して線形予測を行い、線形予測信号17S,18S,19S,20Sを生成する。線形予測回路17〜20は、もっとも簡単な例では、数次のFIR(Finite Impulse Response:有限長インパルスレスポンス)フィルタ等により実現によりできる。減算器21,22,23,24は、線形予測信号17S,18S,19S,20Sをメモリ14,15,15,16を介して得た信号から差し引き、残差信号21S,22S,23S,24Sを生成する。
【0028】
自己相関演算回路25は自己相関関数を用いて残差信号22Sに対する自己相関関数値25Sを算出し、自己相関演算回路26は自己相関関数を用いて残差信号23Sに対する自己相関関数値26Sを算出する。これにより、水平方向の時間差毎の相互相関関数値が算出される。また、相互相関関数回路27は相互相関関数を用いて残差信号21Sおよび22Sに対す相互相関関数値27Sを算出し、相互相関関数回路28は相互相関関数を用いて残差信号23Sおよび24Sに対する相互相関関数値28Sを算出する。これにより、垂直方向の時間差毎の相互相関関数値が算出される。
【0029】
評価関数演算回路29は、自己相関関数値25Sと相互相関関数値27Sを基に評価関数に従って評価関数値29Sを算出して位置検出回路31へ渡す。位置検出回路31は、評価関数値29Sが最大となる遅延位置を決定し、その遅延に該当する方向が水平方向となる。なお、最大値検索は、評価関数値29Sについて所定時間分の加算処理した後に行う。同様に、評価関数回路30は、自己相関関数値26Sと相互相関関数値28Sを基に評価関数に従って評価関数値30Sを算出して位置検出回路31へ渡す。位置検出回路31は、評価関数値30Sが最大となる遅延位置を決定し、その遅延に該当する方向が垂直方向となる。ここでも、最大値検索は、評価関数値30Sについて所定時間分の加算処理した後に行う。
【0030】
評価関数演算回路29,30では、例えば、自己相関関数と相互相関関数の関係式を用いた評価関数を使用して、この評価関数で算出した値の最大値を検出し、ここで得た位相差を基にして話者の方向検出を行う。
【0031】
以上の説明において、線形予測回路18と19、減算器22と23、また自己相関演算回路25と26の結果は同じなので、どちらか片方のみの演算を行い、評価関数演算回路29,30への入力としてもよい。
【0032】
図4は、本発明の他の実施例を示すブロック図である。この実施例では、図2に示した実施例に対して、ゼロ交差回数検出回路32および有音/雑音判定回路33が付加されている。図4と図2とで同じ構成要素には、同一の参照番号が付されている。方向検出回路31が水平方向と垂直方向の検出を行うまでは、図2の実施例と同様である。
【0033】
本実施例では、メモリ14〜16に格納されたマイクロホン11〜13からの入力信号14S〜16Sは、ゼロ交差回数検出回路32に入力され、ここで入力信号14S〜16Sの短時間におけるゼロ交差回数を演算する。有音/雑音判定回路33は、この結果を基に有音/雑音判定を行う。そして、雑音区間と判定された場合は、方向検出回路31からの方向出力を停止し、雑音源の影響により誤動作することを防止する。
【0034】
【動作の説明】
次に、図4の実施例の動作につき、図5のフローチャートに沿って説明する。このフローチャートは、水平方向と垂直方向のそれぞれ独立して実行される処理を示している。
【0035】
先ず、評価関数演算回路29,30における、評価結果の加算時間分を検出するカウント値CNTを初期化する(図5のステップS1)。該当マイクロホンから音声データを入力すると(ステップS2)、16kHzサンプリングで32〜40サンプル程度毎に線形予測処理(ステップS3),自己相関演算(ステップS4)、相互相関演算(ステップS5)を行う。
【0036】
これらの線形予測処理(ステップS3),自己相関演算(ステップS4)および相互相関関演算(ステップS5)は、メモリ14〜16に音声データを蓄積してフレーム単位で一気に処理を行うか、もしくはサンプル毎の部分に分割して計算を行うことによっても計算してもよい。図5は後者の場合を示している。この場合は、相関関数演算が終わっているかを判定し(ステップS6)、終了していない場合(ステップS6でNO)は音声データ入力(ステップS2)へ戻る。
【0037】
相関関数演算が終了すると(ステップS6でYES)、残差信号生成までを含む線形予測処理(ステップS3)自己相関演算(ステップS4)および相互相関関演算(ステップS5)によって得られた結果を基に、評価関数値の算出を行う(ステップS7)。この評価関数値は、(相互相関の二乗/自己相関)を評価関数として計算する。
【0038】
次いで、得られた評価関数値を統計的に平均化するため、評価結果をこれまでの結果に加算して蓄積する(ステップS8)。そして、カウント値CNTは評価結果の蓄積時間を計るのに使用しているため、1つだけ増数されて更新される(ステップS9)。更新されたカウント値CNTは、カウント値CNTの確認を予め設定した値MAXと比較される(ステップS10)。設定値:MAXは、200msから1s程度の任意の値とすると良い。
【0039】
比較の結果、カウント値CNTが設定値:MAXに満たない場合は(ステップS10でNO)、音声データ入力(ステップS2)に戻る。設定値:MAX以上になった場合は(ステップS10でYES)、カウント値CNTを0に初期化(ステップS11)した後、評価結果の最大値検索をして、最大となる時の時間差(遅延)を検出する(ステップS12)。最後に、評価関数値の加算結果を初期化しておく(ステップS13)。これによって、次に新しく開始する評価関数値の加算に備える。
【0040】
また、この検出期間中に、マイクロホン11〜13のゼロ交差回数が検出されるので、その結果を基に有音/雑音を判定し(ステップS14)、有音と判定された場合に(ステップS15でYES)のみ、時間差(遅延)から方向を算出する(ステップS16)。有音/雑音の判定(ステップS14,S15)には、マイクロホン11〜13からの全ての入力信号が有音区間と判定された場合のみ有音区間とする方法、または、マイクロホン11〜13からの入力信号のいずれかが有音と判定された場合は有音区間とする方法等がある。
【0041】
以上に説明した話者方向検出方法は、話者方向検出装置を構成するコンピュータにおいてプログラムを実行させることによっても行うことができる。そのプログラムは、コンピュータを制御して、例えば、図5に示したのと同様な処理を行わせる。
【0042】
なお、本発明が上記各実施例に限定されず、本発明の技術思想の範囲内において各実施例は適宜変更され得ることは明らかである。
【0043】
【発明の効果】
以上説明したように、本発明は、線形予測回路を用いて、マイクロホンからの入力信号から声道の影響を取り除くこととしたため、評価関数演算回路により計算される複数マイクロホンからの入力信号の位相差の検出精度を高め、話者方向の検出誤りを低減することができるようになるという第1の効果を有する。
【0044】
また、マイクロホンからの入力信号の短時間のゼロ交差関数検出に基づく有音/雑音判定を行って、周囲雑音の影響を排除することとしたため、話者方向検出装置の誤動作を少なくし安定性を高めることができるようになるという第2の効果を有する。
【図面の簡単な説明】
【図1】本発明の話者方向検出装置の一実施形態を示すブロック図
【図2】本発明の話者方向検出装置の一実施例を示すブロック図
【図3】図2および図4に示した実施例に適用されるマイクロホンの配置図
【図4】本発明の話者方向検出装置の他の実施例を示すブロック図
【図5】図4に示した実施例のフローチャート
【符号の説明】
1,2,11〜13 マイクロホン
14〜16 メモリ
3,4,17〜20 線形予測回路
5,29,30 評価関数演算回路
6,31 方向検出回路
7,32 ゼロ交差回数検出回路
8,33 有音/雑音判定回路
21〜24 減算器
25,26 自己相関演算回路
27,28 相互相関演算回路
Claims (8)
- 音声信号が2つのマイクロホンに到達する距離の差によって生じる到達時間差を推定する自己相関関数と相互相関関数の関係式を用いた評価関数への入力信号として、前記マイクロホンからの入力信号についてそれぞれ線形予測を行い前記マイクロホンからの入力信号から線形予測信号を減算して音声の声道の影響を取り除いた信号を使用することを特徴とする話者方向検出装置。
- マイクロホンからの入力信号入力信号について線形予測を行い線形予測信号を生成する前記マイクロホン対応の線形予測回路と、
前記入力信号から前記線形予測信号を差し引き声道の影響を取り除いた残差信号を生成する前記マイクロホン対応の減算器と、
自己相関関数と相互相関関数の関係式を用いた評価関数を使用して前記残差信号に対する評価関数値の最大値を検出する評価関数演算回路と、
前記評価関数値の最大値により得られる前記入力信号の位相差を基にして話者の方向検出を行う方向検出回路とを有することを特徴とする話者方向検出装置。 - 水平方向検出用のマイクロホン、垂直方向検出用のマイクロホンそれぞれからの入力信号に対して、前記音声の声道の影響を取り除いた信号を使用することを特徴とする請求項1または2に記載の話者方向検出装置。
- 水平方向に置かれて話者の水平方向の位置探索に利用するために使用される1つのマイクロホンそれぞれからの入力信号が保持される第1メモリと、
垂直方向に置かれて前記話者の垂直方向の位置探索に利用するために使用される1つのマイクロホンそれぞれからの入力信号が保持される第2メモリと、
水平方向の位置探索および垂直方向の位置探索に共用される1つのマイクロホンそれぞれからの入力信号が保持される第3メモリと、
前記第1メモリ,第2メモリ,第3メモリが保持する前記入力信号に対してそれぞれ線形予測を行って線形予測信号を生成する第1線形予測回路,第2線形予測回路,第3線形予測回路と、
前記第1メモリ,第2メモリ,第3メモリが保持する前記入力信号から前記線形予測信号を差し引いて第1残差信号,第2残差信号,第3残差信号を生成する第1減算器,第2減算器,第3減算器と、
前記第3残差信号に対する自己相関関数値を算出する自己相関演算回路と、
相互相関関数を用いて前記第1残差信号および第3残差信号に対す相互相関関数値を算出する第1相互相関関数回路と、
相互相関関数を用いて前記第2残差信号および第3残差信号に対す相互相関関数値を算出する第2相互相関関数回路と、
前記自己相関関数値と前記第1相互相関関数値を基に評価関数に従って第1評価関数値を算出する第1評価関数演算回路と、
前記自己相関関数値と前記第2相互相関関数値を基に評価関数に従って第2評価関数値を算出する第2評価関数演算回路と、
前記第1評価関数値,第2評価関数値がそれぞれ最大となる遅延位置を決定し、話者の水平方向,垂直方向を検出する位置検出回路とから構成されることを特徴とする話者方向検出装置。 - 前記マイクロホンからの入力信号に対して、短時間平均のゼロ交差の回数を検出することにより有音と雑音を判定し、音声だと判定された場合のみ前記話者方向検出を行い、周囲雑音と判定された場合は方向検出を停止することを特徴とする請求項1ないし4のいずれかに記載の話者方向検出装置。
- 前記第1メモリ,前記第2メモリ,前記第3メモリが保持する前記入力信号値が所定時間内にゼロとなるゼロ交差回数を検出するゼロ交差回数検出回路と、
前記ゼロ交差回数情報を基に、音源から前記各マイクロフォンに入力された音声信号が雑音によるものか発声者によるものかを判定し、雑音と判定された場合は前記方向検出回路の更新を停止し、この時の検出信号方向は雑音源と思われる位置方向を示さないように制御する有音/雑音判定回路とを設けたことを特徴とする請求項4に記載の話者方向検出装置。 - 話者の水平方向の位置探索,垂直方向の位置探索,水平方向の位置探索および垂直方向の位置探索に利用するために使用される各マイクロホンそれぞれからの入力信号を保持する手順と、
前記保持された入力信号に対してそれぞれ線形予測を行って線形予測信号を生成する手順と、
前記保持された入力信号から対応する前記線形予測信号を差し引いて残差信号を生成する手順と、
前記残差信号に対する自己相関関数値を算出する手順と、
相互相関関数を用いて前記残差信号に対す相互相関関数値を算出する手順と、
前記自己相関関数値と前記相互相関関数値を基に評価関数に従って評価関数値を算出する手順と、
前記評価関数値がそれぞれ最大となる遅延位置を決定し、話者の水平方向,垂直方向を検出する手順とを有することを特徴とする話者方向検出方法。 - 話者方向検出装置を構成するコンピュータに、
話者の水平方向の位置探索,垂直方向の位置探索,水平方向の位置探索および垂直方向の位置探索に利用するために使用される各マイクロホンそれぞれからの入力信号を保持する機能と、
前記保持された入力信号に対してそれぞれ線形予測を行って線形予測信号を生成する機能と、
前記保持された入力信号から対応する前記線形予測信号を差し引いて残差信号を生成する機能と、
前記残差信号に対する自己相関関数値を算出する機能と、
相互相関関数を用いて前記残差信号に対す相互相関関数値を算出する機能と、
前記自己相関関数値と前記相互相関関数値を基に評価関数に従って評価関数値を算出する機能と、
前記評価関数値がそれぞれ最大となる遅延位置を決定し、話者の水平方向,垂直方向を検出する機能とを実行させることを特徴とする話者方向検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274177A JP2004109712A (ja) | 2002-09-20 | 2002-09-20 | 話者方向検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002274177A JP2004109712A (ja) | 2002-09-20 | 2002-09-20 | 話者方向検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004109712A true JP2004109712A (ja) | 2004-04-08 |
Family
ID=32270725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002274177A Pending JP2004109712A (ja) | 2002-09-20 | 2002-09-20 | 話者方向検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004109712A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005077205A (ja) * | 2003-08-29 | 2005-03-24 | Advanced Telecommunication Research Institute International | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム |
JP2010103617A (ja) * | 2008-10-21 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010124447A (ja) * | 2008-10-21 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | 発話正面・横向き推定装置、方法及びプログラム |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206449A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206393A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2011075326A (ja) * | 2009-09-29 | 2011-04-14 | Oki Electric Industry Co Ltd | 音源方向推定装置及びプログラム |
KR101054071B1 (ko) * | 2008-11-25 | 2011-08-03 | 한국과학기술원 | 음성과 비음성 구간 판별 방법 및 장치 |
JP2016114512A (ja) * | 2014-12-16 | 2016-06-23 | 日本電気株式会社 | 振動発生源推定装置、方法およびプログラム |
-
2002
- 2002-09-20 JP JP2002274177A patent/JP2004109712A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005077205A (ja) * | 2003-08-29 | 2005-03-24 | Advanced Telecommunication Research Institute International | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム |
JP2010103617A (ja) * | 2008-10-21 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010124447A (ja) * | 2008-10-21 | 2010-06-03 | Nippon Telegr & Teleph Corp <Ntt> | 発話正面・横向き推定装置、方法及びプログラム |
KR101054071B1 (ko) * | 2008-11-25 | 2011-08-03 | 한국과학기술원 | 음성과 비음성 구간 판별 방법 및 장치 |
JP2010206392A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206393A (ja) * | 2009-03-02 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2010206449A (ja) * | 2009-03-03 | 2010-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 発話向き推定装置、方法及びプログラム |
JP2011075326A (ja) * | 2009-09-29 | 2011-04-14 | Oki Electric Industry Co Ltd | 音源方向推定装置及びプログラム |
JP2016114512A (ja) * | 2014-12-16 | 2016-06-23 | 日本電気株式会社 | 振動発生源推定装置、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587160B2 (ja) | 信号処理装置および方法 | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
JP3588030B2 (ja) | 音声区間判定装置及び音声区間判定方法 | |
JP2015170988A (ja) | 雑音低減装置 | |
JP2004109712A (ja) | 話者方向検出装置 | |
JP6160519B2 (ja) | 雑音低減装置 | |
JP2005266797A (ja) | 音源信号分離装置及び方法、並びにピッチ検出装置及び方法 | |
US20160365099A1 (en) | Method and system for consonant-vowel ratio modification for improving speech perception | |
CN106024017A (zh) | 语音检测方法及装置 | |
US9245537B2 (en) | Speech enhancement apparatus and method for emphasizing consonant portion to improve articulation of audio signal | |
CN106816157A (zh) | 语音识别方法及装置 | |
JP2007093635A (ja) | 既知雑音除去装置 | |
KR101547344B1 (ko) | 음성복원장치 및 그 방법 | |
EP3404657B1 (en) | Noise suppression apparatus, noise suppression method, and computer program | |
JP2004325127A (ja) | 音源検出方法、音源分離方法、およびこれらを実施する装置 | |
CN113316075B (zh) | 一种啸叫检测方法、装置及电子设备 | |
JP2012149906A (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
JP2010026323A (ja) | 話速検出装置 | |
JP2001222289A (ja) | 音響信号分析方法及び装置並びに音声信号処理方法及び装置 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP2002315089A (ja) | 話者方向検出回路 | |
JP2003271189A (ja) | 話者方向検出回路及びその検出方法 | |
Jeong et al. | A real-time kepstrum approach to speech enhancement and noise cancellation | |
JPS63281200A (ja) | 音声区間検出方式 | |
JP4659556B2 (ja) | 音源方向検出装置 |