JP5180139B2 - 発声検出装置 - Google Patents

発声検出装置 Download PDF

Info

Publication number
JP5180139B2
JP5180139B2 JP2009100710A JP2009100710A JP5180139B2 JP 5180139 B2 JP5180139 B2 JP 5180139B2 JP 2009100710 A JP2009100710 A JP 2009100710A JP 2009100710 A JP2009100710 A JP 2009100710A JP 5180139 B2 JP5180139 B2 JP 5180139B2
Authority
JP
Japan
Prior art keywords
unit
correlation
cross
frame
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009100710A
Other languages
English (en)
Other versions
JP2010250152A (ja
Inventor
和義 福士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2009100710A priority Critical patent/JP5180139B2/ja
Publication of JP2010250152A publication Critical patent/JP2010250152A/ja
Application granted granted Critical
Publication of JP5180139B2 publication Critical patent/JP5180139B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、マイクロホンにて集音した音響信号から所定方向での発声を検出する発声検出装置に関し、特に、2つのマイクロホンからの音響信号の正規化相互相関値を計算し、その計算結果に基づき、発声を検出する発声検出装置に関する。
従来、音源から発せられた音響信号を複数のマイクロホンにて集音、かかる音響信号を処理、マイクロホンごとの音響信号間における正規化相互相関値を計算し、そして当該正規化相互相関値の結果に基づいて所定方向に存在する音源の存在を検出する装置が提案されている。従来使用される相互相関回路の一例として特許文献1がある。従来の相互相関回路では、音源から発せられた音響信号を左右二つのマイクロホンにより集音し、この2つの信号の平均レベルで相互相関関数を正規化することにより、簡単な回路構成で正規化相互相関値の出力を得ている。
特開昭64−1984号公報
しかしながら、上記従来技術は、音響信号の平均レベルにて正規化しているため、発声されていない場合でも、環境ノイズの影響により音源が出力されてしまうことがある。すなわち、入力された音響信号のパワー情報を用いて正規化を行うため、暗騒音の中に偶然位相が揃った雑音が入っていると、入力信号のパワー情報が小さくても高い正規化相互相関値が出てしまい発声がないのに発声があると誤検出してしまう危険性がある。
また、このような、いわゆる暗騒音への対策として、音声等のターゲット音のパワー情報が暗騒音のパワー情報より大きくなることを利用することがある。具体的には、入力された音響信号からのパワー情報が所定以下である場合をターゲット音の信号源が存在しないと判定し、信号源が存在しないのであるから、そもそも音源の検出を行わないことにより、暗騒音による精度低下を防止している。この場合、ターゲット音のパワー情報と暗騒音のパワー情報を切り分けるための閾値設定が重要となる。ターゲット音と暗騒音とのパワー情報が明らかに異なる場合は比較的容易に切り分けることが可能である。しかしながら、パワー情報は、使用するマイクロホンの感度のばらつきや設定されている増幅器の増幅率などに依存して変動する。
このため、従来技術では、マイクロホンの感度や増幅器の増幅率が一定であることが求められ、非常に高価な部品にて構成しなければならない。あるいは、品質が一定の高価な装置を使用できない場合、装置設置後に特定の場所から基準音を発生させ、ターゲット音と騒音とを切り分ける閾値を調整するといったキャリブレーション作業が必要となる。このため、装置の取り扱いを高度に習得した人間が必要となり、設置作業のコストが増大してしまう。
さらに、一般的な環境において、暗騒音レベルは設置場所により異なり、また時間的に変動する上、ターゲット音以外の一時的な騒音も発生するなどのさまざまな要因により、上述のハードウェアの校正が実施されたとしても、ターゲット音との切り分けの閾値設定は容易ではない。
そこで、本発明は、かかる課題を解決するため、マイクロホンや増幅器の品質依存性を少なくしつつ、設置場所でのキャリブレーション作業を不要とし、設置場所の騒音環境への依存性を少なくした所定方向からの発声検出装置の実現を目的とする。
本発明は、2つの集音器にて取得した音響信号を用いて所定方向の発声を検出する発声検出装置であって、2つの集音器による音響信号から所定の低周波数域成分をカットし、当該2つの音響信号ごとの瞬時パワー情報および特定方向瞬時相互相関値をセットとする音声フレームごとのデータセットを計算する瞬時パワー相関計算部と、瞬時パワー相関計算部にて計算したデータセットを音声フレーム毎に記憶する記憶部と、記憶部に記憶されたデータセットから前記特定方向瞬時相互相関値の絶対値が小さい所定数のデータセットの音響フレームを選別するフレーム選別部と、フレーム選別部にて選別されたフレームから人工音付加係数を算出する付加係数計算部と、人工音付加係数を用いて増幅させた前記低周波数域成分の人工信号を前記所定の低周波数域成分がカットされた各音響信号に付加する人工音付加部と、人工音付加部にて人工信号が付加された2つの音響信号について正規化相互相関値を計算する相互相関計算部と、相互相関計算部の出力により発声を検出する発声検出部から構成された発声検出装置を提供する。
本発明の好適な態様は、選択された音響フレームのデータセットを使用して、前記相互相関計算部における所定方向の正規化相互相関値が、ほぼ設定した目標値になるような人工音付加係数を付加係数計算部が算出する。
また、本発明の好適な態様として、人工信号は2つの集音器ごとに逆位相の信号とし、目標値を正規化相互相関値が−1から0までの所定の値とする。
本発明によれば、マイクロホン感度のばらつきや増幅器の増幅率などのハードウェアの品質にばらつきがあったとしても、精度良く所定方向からの発声を検出できる。また、音声信号の入力レンジがA/D変換器のレンジに適切に納まるようにするだけで、特別なキャリブレーション作業が不要となる。さらに、設置場所の騒音環境に依存度の少ない発声検知の閾値設定が可能である。
本発明を適用した発声検出装置1のブロック図である。 金融機関におけるATM利用者を話者として認識するための発声検出装置の配置図である。 フレーム切出部13での処理例を示す図である。 音声区間の音響フレームの処理推移を説明する図である。 音声区間の音響フレーム波形と無音声区間の音響フレーム波形と、それらの正規化相互相関値の関係を説明する図である。 暗騒音フレーム選択部16の機能ブロック図である。 暗騒音フレーム選択部16の処理フローである。
以下、本発明を適用した発声検出装置の好ましい実施形態について、図を参照して説明する。図2は、本実施の形態にかかる発声検出装置を金融機関のCD/ATM3の操作者4の音声だけを抽出する目的に使用したときの設置例を示している。振り込め詐欺では、犯罪者が携帯電話を使用して、被害者に携帯電話にてATM3操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがある。通常の場合、ATM3の操作者4は、ATM3の操作をしながら音声を発声することは稀である。他方、振り込め詐欺の可能性のある操作者は、ATM3の正面にて操作しながら携帯電話によって操作を誘導されるため、携帯電話を使用して電話口の相手と会話することが多く、音声を発することが多い。そこで、振り込め詐欺を防止するための一要素として、先ずATM3の正面からの発声を検出することが重要になる。そこで、本発明にかかる発声検出装置は、ATM3の上部左右両端に設置した2つのマイクロホン2からの音響信号を解析することで、ATM3の正面にて被害者が発声していることを正確に検知するものである。
図2は、金融機関におけるATM3の利用者4の発声を検出するための発声検出装置の配置の例を示した図である。発声検出装置は、本体装置1が壁面に設置され、マイクロホン2がATM3の上部の左右両端に所定距離を離隔させて2つ設置されている。本実施の形態では、マイクロホン2を2つ使用しているが、これに限られるものではなく、3以上を適宜の数を適宜の配置にて使用しても良く、この場合、2つずつのマイクロホンのペアで後述の処理を実行すればよい。
図1は、本発明を適用した発声検出装置のブロック図を示している。発声検出装置は、集音器である2つのマイクロホン2と、増幅器10、A/Dコンバータ11、低域カット処理部12、フレーム切出部13、白色化処理部14、瞬時パワー相関計算部15、暗騒音フレーム選別部16、純音付加係数計算部17、純音付加部18、相互相関計算部19、発声検出部20から構成されている。
マイクロホン2は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。マイクロホン2同士は、所定距離の間隔を空けて設置される。この所定距離は、サンプリング周期や話者との距離などに応じて決定される。また、マイクロホン2は、特別に高品質なものを用意する必要はない。
増幅器10は、マイクロホン2により集音された音声をA/Dコンバータ11が処理できるように増幅するアンプである。この増幅されたアナログ信号である音声を6000Hz以上でサンプリングして離散時間信号(デジタル信号)にA/Dコンバータ11にて変換する。増幅器10、A/Dコンバータ11は、いずれも周知の部品であるので、詳細な説明は省略する。
次に、低域カット処理部12は、音声信号に無関係な低域信号、例えば70Hz以下の周波数成分をカットするディジタルフィルタで構成される。左右の両チャネルで同じ構成にする必要があるが、FIR(Finite
Impulse Response)型、IIR(Infinite Impulse Response)型の制限は無い。さらに、FFT(Fast Fourier
Transform)を利用した周波数軸上での処理であっても良い。
次に、フレーム切出部13は、音響信号を一定周期、固定長のフレームに切り出す。具体的には、例えばフレーム長30ms、シフト長20msにしたハミング(HAMMING)窓を窓関数として音響信号に乗じてフレームを切り出す。なお、窓関数は、ハミング窓に限られるものではなく、ハニング(HANNING)窓などを用いてもよい。
図3を参照して、フレーム切出部13の処理結果を説明する。図3は、音響信号を横軸に時間・縦軸に振幅をとってグラフ化したものである。A/Dコンバータ11および低域カット処理部12にて処理後の音響信号の例を図3上図に示している。そして、かかる音響信号から処理対象のフレームをフレーム切出部13を切り出した結果が、同図の下図に示している。
白色化処理部14は、切り出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関処理部19において、音韻(/あ/、/い/等)の違いによる正規化相互相関値列の形状変動を少なくすることにある。
白色化処理部14の具体的な処理について説明する。白色化処理部14は、フレーム切出部13にて切り出されたフレームの音響信号(図3における下図)からLPCケプストラム係数を算出する。そして、算出したLPCケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。まず、フレーム切出部13にて切り出されたフレームの音響信号に対して、FFT(Fast
Fourier Transform)処理を行う。その後、FFT処理の結果に対してスペクトル包絡にて除算することで、音響信号を白色化する。
図4(a)-(c)は、白色化処理の様子を示している。図4(a)は、入力された音響信号からフレーム切出部13にて切り出されたフレームの周波数スペクトルを示している。図4の横軸は周波数、縦軸はスペクトル強度である。低域側のレベルが低いのは、低域カット処理部12にて低域信号をカットしたためである。この音響信号に対してLPCケプストラム分析を行い、その包絡線(スペクトル包絡)を求める(図4(b)の破線)。この包絡線を基に白色化を施したのが図4(c)である。白色化処理は、これに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない。
さらにオプションとして、白色化処理部14にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜になるような傾斜付けを行ってもよい。これを示したのが図4(d)である。なお、図4(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。 スペクトル強度に右下がりの傾斜を付けることは、後述の相互相関計算部19にて行う処理での正規化相互相関値列におけるパルス幅を広げることに相当する。特に、A/Dコンバータ11でのサンプリング周波数が小さいときに、パルス幅が狭くなりすぎるため、瞬時パワー相関計算部15および相互相関計算部19にて評価しづらくなるので、この傾斜にてパルス幅を調整することが可能になる。図4(e)は、後述する純音付加部18にて人工信号の一種である純音を付加したときの音響信号を示している。
瞬時パワー相関計算部15は、左右のマイクロホン2から入力され増幅器10、低域カット処理部12、フレーム切出部13、白色化処理部14の各処理を経た音響信号から左マイクロホン2からのtフレームにおけるパワー情報であるY11(t)、右マイクロホン2からのtフレームにおけるパワー情報であるY22(t),左右のマイクロホン2の当該音響信号の特定方向瞬時相互相関値であるY12(t)を計算し、これらを暗騒音フレーム選別部16に出力する。ここで、パワー、特定方向瞬時相互相関値の算出方法は、白色化処理部14の2つの出力(周波数領域)をX(k,t)、X(k,t)とするとき、Y11(t)=Σ{X(k,t)・X (k,t)}、Y22(t)=Σ{X(k,t)・X (k,t)}、Y12(t)=Σ{X(k,t)・X (k,t)}となる。ここで、kはFFTの離散周波数、(・)は複素数の共役、Σ{・}は離散周波数kに関する加算を表している。
暗騒音フレーム選別部16では、瞬時パワー相関計算部15にて求めた、過去のY11(t)、Y22(t),Y12(t)の履歴を使って、発声がなされてない音響フレームである暗騒音フレームを選別する。具体的には、音声が発声されていないと判断する指標として、無音声の音響フレームは、特定方向瞬時相互相関値Y12(t)の絶対値が小さいという事実を利用する。無音声の音響フレームでは無秩序な音響信号が左右のマイクロホン2の入力に現れているため、相互相関値が相対的に小さくなるのに対し、有音声の音響フレームでは、例えばATM3の操作者4が発声すると、正面方向からの音声が同位相で両方のマイクロホン2の入力に現れるため、相互相関値が相対的に大きくなる。
図6を参照して、ATM3の正面から発声された音声が含まれていない音響フレームの典型である暗騒音フレームを選択する暗騒音フレーム選別部16を詳細に説明する。図6は、暗騒音フレーム選別部16の機能ブロックを示している。暗騒音フレーム選別部16は、データセット生成手段161、更新手段162、推定手段163、記憶部164から構成されている。
データセット生成手段161は、瞬時パワー相関計算部15にて計算した左マイクロホンからのフレームtにおける音響信号のパワー情報Y11(t)、右マイクロホンからの音響信号のパワー情報Y22(t)及び、左右のマイクロホンからの音響信号の特定方向瞬時相互相関値Y12(t)のセットに加え、有効期間を付けたデータセットを生成する。ここで、有効期間は、設置場所にて生じる突発的な騒音の継続時間より長い時間の有効期間を用いる。本実施の形態では、15秒間継続するような突発的な騒音の影響を排除したい場合に、1秒間に50フレームを分析するので、有効期間を1000(20秒相当)に設定している。この値は、音響信号の分析周期などによって異なるので、適宜定める必要がある。有効期間は長く設定するほど、観測区間が長くなるので、時間的に継続する突発的な騒音の影響を少なくできる。他方、有効期間を短く設定するほど、暗騒音の観測区間が短くなるので、暗騒音レベルの変動へ迅速に追従できる。したがって、有効期間は、マイクロホン2を設置している環境やアプリケーションの目的などによって適宜の値をとることになる。後述するが、暗騒音フレーム選別部16では、データセット生成手段161にて有効期限を設定することにより、ハードウェアや処理コストを増加させる必要がなくなる。
記憶部164は、データセットを記憶するのにハードウェアとして許容された容量を持つメモリであり、データセット生成手段161にて生成されたデータセットが特定方向瞬時相互相関値Y12(t)の絶対値の小さい順に記憶されている。ここで、記憶部164に記憶可能なデータセットの数を第一所定数と呼ぶ。本実施の形態では、第一所定数として、100個のデータセットを記憶可能にしている。データセット100個というのは、2秒分のデータセットに相当している。第一所定数は、ハードウェアとして用意可能な容量であって、少なくとも、推定手段163にて暗騒音区間を統計処理する場合に信頼できるだけの数であることが必要である。例えば、本実施の形態では、有効期間1000(20秒)という観測区間に対し、記憶部164の記憶容量を100個分のデータセット(2秒)で済むことになる。かかる第一所定数分だけの記憶部164を用意すれば、有効期間を適宜の値とすることにより、暗騒音の観測区間を容易に広狭させることが可能となる。これにより、ハードウェアを増加させることなく、観測区間を自由に設定することが可能となる。
更新手段162は、比較手段1621と有効期限確認手段1622を有し、記憶部164に記憶されているデータセットの更新を行う手段である。記憶部164にデータセットを追記憶させるだけの空き領域があれば入力されたデータセットを特定方向瞬時相互相関値Y12(t)の絶対値の小さい順に記憶部164へ記憶させ、空き領域が無ければ比較手段1621での処理を行う。
有効期限確認手段1622は、データセット生成手段161からデータセットが生成される毎に、記憶部164に記憶されているデータセットの有効期間を1減算し、データセットの有効期間が0になると、記憶部164から削除する。すなわち、記憶部164に記録されたデータセットは、有効期間が到来すると必ず削除されるので、古いデータセットが残らなくなる。これにより、有効期間が観測区間を時間軸上にて制限し、適切な観測区間を実現している。本実施の形態では、すべてのデータセットは、記憶部164にデータセットとして記録された後、1000フレーム分の入力があると、つまり20秒程度が経過すると強制的に削除されることとなる。
比較手段1621は、記憶部164にデータセットを追記憶させるだけの空き領域がない場合に、記憶部164に記憶されているデータセットの中で最大の特定方向瞬時相互相関値Y12(t)の絶対値と入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値との大小関係を比較し、入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値の方が大きいと入力されたデータセットを破棄する。他方、入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値の方が小さいと、記憶部164から当該最大の特定方向瞬時相互相関値Y12(t)の絶対値を持つデータセットを削除し、入力されたデータセットを特定方向瞬時相互相関値Y12(t)の絶対値の小さい順に並べた位置に挿入記憶させる。これにより、記憶部164では、特定方向瞬時相互相関値Y12(t)の絶対値の小さい順にソートされた状態にてデータセットが記憶されることになる。本実施の形態では、記憶部164に記憶されているデータセットの中で最大の特定方向瞬時相互相関値Y12(t)の絶対値と比較することで計算負荷を低減しているが、計算負荷に余裕があれば記憶されているデータセットの中での平均値を越えていれば、入力されたデータセットにて更新しても良い。その他、最大の特定方向瞬時相互相関値Y12(t)の絶対値でなくとも、ある程度の性能劣化を許容して、有効期間により所定の重みをつけた特定方向瞬時相互相関値Y12(t)の絶対値のデータセットや2番目3番目の特定方向瞬時相互相関値Y12(t)の絶対値のデータセットとの比較をしても良い。
このように、比較手段1621により、暗騒音区間推定に必要な観測区間中における特定方向瞬時相互相関値Y12(t)の絶対値が小さいデータセットが記憶部164に記憶され、推定に不必要な比較的大きな絶対値をもつ特定方向瞬時相互相関値Y12(t)をデータセットに記憶しないことにより、記憶部164のデータセット数を少なくしても観測区間全体における暗騒音区間を精度よく推定できるのである。
推定手段163は、記憶部164に記憶されている適切なデータセット群を純音付加係数計算部17に対して出力する。具体的には、記憶部164に記憶されているデータセットを特定方向瞬時相互相関値Y12(t)の絶対値の小さい順に第二所定数のデータセットのフレーム群を選別する。例えば、第二所定数は、0.4秒分のデータセットに相当する20個のデータセットを用いる。ここで、第二所定数は、少ないほど計算量が減るので処理コストの低減が図れる反面、暗騒音区間としては不適なデータセットがあった場合に影響が大きくなる。また、第二所定数を多くすると、暗騒音としては不適なデータセットの影響を軽減できる半面、計算量や記憶部164の増加が必要となる。本実施の形態では、平均値の処理対象としてパワー情報の最小のデータセットから小さい順に第二所定数を抽出したデータセットを用いていることにより、計算量を少なくしているが、これに限らず、暗騒音区間を統計処理する場合に信頼性が上がるように、第二所定数や選択するデータセットを適宜決めれば良い。
次に、図7を参照して、暗騒音フレーム選別部16の処理フローを説明する。暗騒音フレーム選別部16は、瞬時パワー相関計算部15からパワーおよび相関情報の入力を受けると処理を開始する。先ず、瞬時パワー相関計算部15からパワーおよび相関情報Y11(t)、Y22(t),Y12(t)の入力があると、データセット生成部161にてY11(t)、Y22(t),Y12(t)と有効期間である1000を対応させたデータセットを生成する(ステップS1)。
次に、更新手段162の有効期限確認手段1622が、記憶部164に記憶されている総てのデータセットにおける有効期間から1減算するとともに、その結果が0となったデータセットを記憶部164から削除する(ステップS2)。
次に、ステップS3では、記憶部164の記憶容量が一杯になっているか判定する。記憶部164の記憶容量が一杯であれば、入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値と記憶部164に記憶されているデータセットの最大の特定方向瞬時相互相関値Y12(t)の絶対値とを比較手段1621にて比較する(ステップS4)。
他方、ステップS3にて、記憶部164の容量に空きがあれば、ステップS7に進む。ステップS4にて、入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値が記憶部164に記憶されているデータセットの最大の特定方向瞬時相互相関値Y12(t)の絶対値より小さいと、ステップS5にて、記憶部164から当該データセットを削除する。そして、入力されたデータセットを特定方向瞬時相互相関値Y12(t)の絶対値の小さい順にソートした位置へ追加する(ステップS7)。また、ステップS4にて、入力されたデータセットの特定方向瞬時相互相関値Y12(t)の絶対値が記憶部164に記憶された最大の特定方向瞬時相互相関値Y12(t)の絶対値と同じか大きいと、入力されたデータセットを破棄する。
そして、ステップS8では、推定手段163にて、記憶部164に記憶されたデータセットを使用して暗騒音フレームを選別し、純音付加係数計算部17に出力する。具体的には、記憶部164に記憶されたソート済みデータセットの先頭から所定数分のデータセットを出力する。
純音付加係数計算部17では、暗騒音フレーム選別部16で選別されたフレーム群から純音付加係数α(t)を数式1の再帰式を複数回実行することにより計算する。
数式1において、φ(0,t,β)は、tフレームにおける純音付加係数βを使用したときの正面方向(0次方向)での正規化相互相関値のことである。また、暗騒音フレーム選別部16にて選択されたフレーム群をΩ(t)と表し、E(Ω(t))[φ(0,t,β)]を、当該フレーム群を使ってのφ(0,t,β)の平均化処理とする。前回算出されたフレームt−1における純音付加係数α(t−1)を使ってβ=α(t−1)とし、βを更新する。ここで、μは更新のステップ幅で10−4〜10−5程度の小さい正数を表し、σは後述する所定方向の正規化相互相関値の目標値を表す。予め定めた回数H回を反復することにより、α(t)=βのようにフレームtにおける純音付加係数を決定する。Hは1ないし数回でよい。
ここでは、一つ前のフレームの純音付加係数を使って所望の正規化相互相関値に漸近するように再帰的に新しい純音付加係数を計算しているが、それ以外でも、最急降下法を使ったニュートン法や適応信号処理のLMS(Least Mean Squares)法の応用などが適用可能である。暗騒音フレーム選別部16からの出力である暗騒音フレーム群の統計的性質が隣接するフレーム間で急激な変化をしないことから、特に速い収束性は必要なく、前述の更新方式で十分実用的である。
ここで、目標値σについて、図5を参照して説明する。図5は、音響信号とその正規化相互相関の結果とを説明する図であり、処理対象の音響信号を示す(a)及び(c)は、横軸に時間・縦軸に振幅をとっている。また、後述する相互相関計算部19での処理結果を示す(b)及び(d)は、横軸に音響信号の到来方向を意味する時間差・縦軸に正規化相互相関値をとっている。なお、(b)及び(d)に記載されている上下方向の点線は、正面方向からの音響の正規化相互相関値を示すためのものである。また、横方向に示している点線は、正規化相互相関値が0である位置を示している。
また、図5(a)は、音声が発声されていない状態の音響信号、つまり暗騒音に人工的な音響である純音を左右の音響信号に対して逆位相にて加えた波形のうちの一方を示している。図からわかるように、加えた純音によるパワーが支配的になっているため、純音の成分が優勢な波形が現れる。なお、図示は省略しているが、他方の音響信号の波形は、加えた純音が逆位相であるので、逆位相の純音が優勢な波形が現れる。このとき、両信号の正規化相互相関値は、図5(b)のように、純音によるパワーが暗騒音によるパワーに比べて大きいため、正規化相互相関値は負の値として現れる。
なお、付加する純音は、音声信号の帯域と被らない信号、例えば40Hzのトーン信号であり、直流であってもよく、70Hz以下での周波数変調をさせた人工音としてもよい。
目標値σは、暗騒音フレームに純音を付加した際に、音響信号が純音によって支配されていると判断できる程度の正規化相互相関値のことである。目標値は、設置環境や検出対象などによって、適宜決められる。具体的には、図5(b)に示すように、音声が発声されていない、暗騒音フレーム選択部16にて選択されたフレーム群Ω(t)について、付加した純音が音響信号にとって支配的になり、ターゲット方向である正面方向での正規化相互相関値が負の値になる値である。本実施の形態では、「−0.5」としている。但し、目標値σを低く設定しすぎると、音声信号が入っていた場合でも、純音付加係数が大きくなることにより純音成分が支配的になり、発声を検出できないようになるので、注意が必要である。反対に、目標値σを高く設定しすぎると、純音付加係数が小さくなり純音による支配が小さくなり、発声に至らない程度の騒音も発声と検出してしまうことがあるので注意が必要である。したがって、目標値σの設定は、検出対象の発声をどの程度に設定するかによって、適宜設定することになる。
図5(c)は、音声が正面から発声された状態の音響信号、つまり話者が発声した場合は、付加した逆位相の純音よりも、同位相で入力される音声信号が優勢になるため、(d)に示すように正規化相互相関値の所定方向の値(正面の場合は0での値)は正の方向に振れる。このように、付加する純音のレベルを適切に与えることにより、暗騒音状態では純音の優位性を高め、正規化相互相関値が負の一定レベルになるように制御することが可能となる。これにより、話者が発声したかどうかを判定する閾値処理が容易になる。換言すれば、マイクロホン2や増幅器10の特性に加えて、設置場所の環境音も含めた形で相互相関値が正規化されたことになる。正面方向からの発声が無い場合は例えば正規化相互相関値が目標値である「−0.5」付近になり、発声検知の閾値を例えば「0.2」とすることで、これを超えた場合に発声があったと判定することができる。
次に、数式1に戻って、φ(0,t,α(t))の計算の効率的な計算方法について述べる。φ(0,t,α(t))は、数式2の正規化クロススペクトルΦ(k,t,α(t))の逆フーリエ変換の0次項にあたる。そのため一般的には、特定のα(t)を使ったときの正規化相互相関値φ(n,t,α(t))の計算には、数式2の上段にあるように、信号のフーリエ変換X1(k,t),
X2(k,t)と、逆フーリエ変換の計算が必要である。しかしながら、両信号のフーリエ変換X1(k,t), X2(k,t)と純音のフーリエ変換であるD(k)には、周波数的に重なりが無いので数式2の2段目の近似式が得られる。
数式2において、Φ(k,t,α(t))は、離散周波数k、フレーム番号t、純音付加係数α(t)での正規化クロススペクトルで、D(k)は純音のフーリエ変換、MはFFT(Fast Fourier Transform)のサイズ、X1(k,t), X2(k,t)は左右の音響信号のフーリエ変換、(・)*は複素共役をそれぞれ示す。前述のように、X1(k,t),
X2(k,t)は低域カット処理部12により低域信号をカットしてあること、およびD(k)が低域成分のみを有することから近似式が高精度に成り立つ。この式を逆フーリエ変換したものの0次項がφ(0,t,α(t))であるが、フーリエ変換の定義式より、分子を周波数kに関して総和したものであるので数式3が得られる。
数式3において、φ(0,t,α(t))は、方向0(正面方向)、フレームt、純音付加係数α(t)での正規化相互相関値である。また、Δは、付加した純音のパワー情報である。Y11(t)、Y22(t)は、それぞれ、フレームtにおける左マイクロホン2からの音響フレームのパワー情報、右マイクロホン2からの音響フレームのパワー情報、Y12(t)は左右マイクロホン2の正面方向瞬時相互相関値である。
ここで着目すべきは、計算に必要な変数はY11(t)、Y22(t),Y12(t)とα(t)、定数は純音のパワーであるΔのみであり、演算には3回の乗算、3回の加減算、1回の平方根演算、1回の除算が必要なだけである。E(Ω(t))[φ(0,t,β)]の演算では、記憶部164に記憶されているデータセットである過去のY11(t)、Y22(t),Y12(t)の3つの実数の履歴だけで計算できる。これに対し、一般的に相互相関の値を計算するには、X1(k,t), X2(k,t)の履歴を保持する必要がある。FFTのサイズを256とすると、1フレームあたり、256個の実数の記憶が必要であるうえ、1フレーム分の相互相関を演算するのに逆FFTの演算が必要である。ちなみに、kは離散周波数、tはフレーム番号、X1(k,t),
X2(k,t)はフレームtにおける左右の音響信号のフーリエ変換をそれぞれ示している。
以上により記憶容量と演算量の違いは明らかである。これは、音響信号と付加する純音がスペクトル的に重ならないことに着目して、相関関数の演算に近似式が成立することを利用しているためである。むろん、記憶容量と演算パワーに余裕がある場合には、FFT結果の履歴をもち、逆フーリエ変換を多用して数式1を更新しても構わないが、演算結果で比較して、近似式を使った低記憶容量・低演算を使った場合と優位な差は無い。
以上のような効率的なメモリ・演算処理を用いて、純音付加係数を決定することにより、過去の長い時間に遡って推定した暗騒音区間から、当該フレームでの適切な純音付加係数をフレームごとに算出することが可能となる。
次に、純音付加部18では、白色化処理部14からの白色化された音響信号と純音付加係数計算部17で求められた純音付加係数α(t)を使って、左右のマイクロホン2からの音響信号に互いに位相が逆相になる純音を、純音付加係数α(t)の大きさで付加する。
相互相関計算部19では、左右のマイクロホン2からの純音付加部18からの出力を受けて、数式2により、正規化クロススペクトルを計算し、これを逆FFTして正規化相互相関値列を算出し、発声検出部20へ出力する。数式2において、Φ(k,t,α(t))は正規化クロススペクトルで、正規化相互相関値列のフーリエ変換に等しい。kは離散周波数、tは分析フレームの番号、MはFFT(Fast
Fourier Transform)のサイズ、X1(k,t), X2(k,t)はフレームtにおける左右の音響信号をのフーリエ変換、(・)*は複素共役をそれぞれ示す。かかるΦ(k,t)に対して、逆フーリエ変換を行うことで、フレームtにおける正規化相互相関値列が得られる。
次に、発声検出部20では、相互相関計算部19にて算出した正規化相互相関値列のピークの高さ、ピークの幅に基づき、指定した方向から発声があったかを判定する。具体的には、正規化相互相関値列の最大値を与えるピークの高さが一定以上で、かつ、その幅が一定以下を満たし、かつ、ピーク位置が所定方向に近く、かつ、前記条件が複数フレームに渡って満たされるときに、音声が発せられたと判断する。
本実施の形態では、相互相関計算部19にて正規化相互相関値列を計算しているが、これに限ることなく精度を犠牲にしてもよければ他の簡便な方法を採用してもよい。すなわち、正規化相互相関値列を算出せずに、数式3にて所定方向の正規化相互相関値を計算してもよい。この場合は、発声検出部20において、算出された正規化相互相関値が発声検出用の閾値を複数フレームに渡って越えていれば音声が発声されたと判断する。
本実施の形態では、特定方向、例えば2本のマイクロホンの正面から発声があったかどうかについて記載したが、白色化処理部14までを共通として、瞬時パワー相関計算部15以降で複数の方向を設定することにより、複数の方向から音声が発せられたかどうかを判定することが可能である。相互相関のインデックスをn0、音速をc、マイク間の距離をd、音源とマイクの中心線との成す角をθ、サンプリング周波数をfs、とすると、
θが音声入斜角度(単位はラジアン)となる。
また、本実施の形態では、ATM3の正面に位置している利用者4が発する音声とそれ以外の音声等を識別したいので、左右のマイクロホン2から等距離にある方向、すなわちθが0ラジアンを示した音声を見つけることになる。例えば、正面からの音声信号が集音された回数をカウンタにてカウントし、所定時間内に所定回数のカウントがあると、正面で会話をしていると判定し、その結果を図示しないランプやブザー等に表示出力する。これにより、携帯電話からの指示を受けて、ATM3の操作をしていることを店舗の人に知らせることができるので、無意識に振り込め詐欺にあっている人への注意喚起に役立つ。本実施の形態では説明していないが、ATM3の正面の発話者からの音声であることだけでなく、その音声信号を認識処理した結果、振込みを誘導されている可能性がある場合に限り、ランプやブザー等に出力しても良い。
本手法の特長をまとめると以下のようになる。予め設定した時間遡った区間で暗騒音区間を推定し、その暗騒音レベルを基に所定方向の正規化相互相関値が適切な目標値を示すように調整されるため、左右のマイクロホン信号が適切なA/Dコンバータのレンジに入ってさえすれば、特別なハードウェアやキャリブレーション作業を不要とし、様々な騒音環境下で閾値設定を変更することなく、特定方向からの話者の発声を高精度に検知することができる。
さらに、その設定した暗騒音推定時間長より短い時間長で継続する突発的な騒音の影響を受けない。つまり、そのような突発性雑音が無くなった直後でも発声検知性能は劣化しない。その上、暗騒音レベルの推定および正規化相互相関値の調整に必要な計算量、記憶容量は、ともに従来法と比較して著しく少ない。
1・・・発声検出装置の本体
10・・・増幅器
11・・・A/Dコンバータ
12・・・低域カット処理部
13・・・フレーム切出部
14・・・白色化処理部
15・・・瞬時パワー相関計算部
16・・・暗騒音フレーム選別部
17・・・純音付加係数計算部
18・・・純音付加部
19・・・相互相関計算部
20・・・発声推定部
2・・・マイクロホン
3・・・ATM
4・・・話者

Claims (3)

  1. 2つの集音器にて取得した音響信号から所定方向の発声を検出する発声検出装置であって、
    前記2つの集音器による音響信号から所定の低周波数域成分をカットし、当該2つの音響信号ごとの瞬時パワー情報および特定方向瞬時相互相関値をセットとするフレームごとのデータセットを計算する瞬時パワー相関計算部と、
    前記瞬時パワー相関計算部にて計算したデータセットをフレーム毎に記憶する記憶部と、
    前記記憶部に記憶されたデータセットから前記特定方向瞬時相互相関値の絶対値が小さい所定数のデータセットのフレームを選別するフレーム選別部と、
    前記フレーム選別部にて選別されたフレームから人工音付加係数を算出する付加係数計算部と、
    前記人工音付加係数を用いて増幅させた相互に逆位相となる前記低周波数域成分の2つの人工信号を生成し、2つの集音器からの前記所定の低周波数域成分がカットされた音響信号にそれぞれ異なる人工信号を付加する人工音付加部と、
    前記人工音付加部にて人工信号が付加された2つの音響信号について正規化相互相関値を計算する相互相関計算部と、
    前記相互相関計算部の出力により発声を検出する発声検出部と、
    を具備することを特徴とした発声検出装置。
  2. 前記付加係数計算部は、選択されたフレームのデータセットを使用して前記相互相関計算部における所定方向の正規化相互相関値がほぼ目標値になるような人工音付加係数を算出する請求項1に記載の発声検出装置。
  3. 記目標値は正規化相互相関値が−1から0までの所定の値である請求項2に記載の発声検出装置。
JP2009100710A 2009-04-17 2009-04-17 発声検出装置 Expired - Fee Related JP5180139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009100710A JP5180139B2 (ja) 2009-04-17 2009-04-17 発声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009100710A JP5180139B2 (ja) 2009-04-17 2009-04-17 発声検出装置

Publications (2)

Publication Number Publication Date
JP2010250152A JP2010250152A (ja) 2010-11-04
JP5180139B2 true JP5180139B2 (ja) 2013-04-10

Family

ID=43312538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009100710A Expired - Fee Related JP5180139B2 (ja) 2009-04-17 2009-04-17 発声検出装置

Country Status (1)

Country Link
JP (1) JP5180139B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9674607B2 (en) 2014-01-28 2017-06-06 Mitsubishi Electric Corporation Sound collecting apparatus, correction method of input signal of sound collecting apparatus, and mobile equipment information system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3588576B2 (ja) * 2000-04-28 2004-11-10 日本電信電話株式会社 収音装置および収音方法
JP2005227512A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム

Also Published As

Publication number Publication date
JP2010250152A (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
EP1208563B1 (en) Noisy acoustic signal enhancement
US9959886B2 (en) Spectral comb voice activity detection
JP4279357B2 (ja) 特に補聴器における雑音を低減する装置および方法
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP5156043B2 (ja) 音声判別装置
EP1973104B1 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
JPH09212196A (ja) 雑音抑圧装置
EP3411876B1 (en) Babble noise suppression
JP2011033717A (ja) 雑音抑圧装置
US8326621B2 (en) Repetitive transient noise removal
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
EP3757993B1 (en) Pre-processing for automatic speech recognition
US20120095753A1 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
JP2005257817A (ja) 雑音除去装置、方法、及びプログラム
JP5180139B2 (ja) 発声検出装置
JP5271734B2 (ja) 話者方向推定装置
CN111508512A (zh) 语音信号中的摩擦音检测
JP5234788B2 (ja) 暗騒音推定装置
JP6439174B2 (ja) 音声強調装置、および音声強調方法
CN111226278B (zh) 低复杂度的浊音语音检测和基音估计
JP5439221B2 (ja) 発声検出装置
Krishnamoorthy et al. Modified spectral subtraction method for enhancement of noisy speech
JP7435948B2 (ja) 収音装置、収音方法及び収音プログラム
Hamid et al. Noise estimation for Speech Enhancement by the Estimated Degree of Noise without Voice Activity Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130110

R150 Certificate of patent or registration of utility model

Ref document number: 5180139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees