JP5271734B2

JP5271734B2 - 話者方向推定装置

Info

Publication number: JP5271734B2
Application number: JP2009020305A
Authority: JP
Inventors: 和義福士; 清人藤井
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2013-08-21
Anticipated expiration: 2029-01-30
Also published as: JP2010175465A

Description

本発明は、複数のマイクロホンにて集音した音声からその音声を発声した話者の存在する方向を推定する話者方向推定装置に関し、特に、複数のマイクロホンからの音声信号の相互相関を計算し、その計算結果に基づき、話者が存在している方向を推定する話者方向推定装置に関する。

従来、音源から発せられた音を複数のマイクロホンにて集音、かかる音声信号を処理、マイクロホンごとの音声信号間における相互相関を計算、そして当該相互相関の結果に基づいて音源の方向を推定する音源推定装置が提案されている。従来の音源方向推定装置に使用される相互相関回路の一例として特許文献１がある。従来の相互相関回路では、音源から発せられた音を左右二つのマイクロホンにより集音し、この２つの信号の平均レベルで相互相関関数を正規化することにより、簡単な回路構成で相互相関出力を得ている。

特開昭６４−１９８４号公報

しかしながら、上記従来技術は、音声信号の平均レベルにて正規化しているため、発話されていない場合でも、環境ノイズの影響により音源方向情報が出力されてしまうことがある。すなわち、入力された音声信号のパワー情報を用いて正規化を行うため、暗騒音の中に偶然位相が揃った雑音が入っていると、入力信号のパワー情報が小さくても高い相関が出てしまう危険性がある。

また、このような暗騒音への対策として、声等のターゲット音のパワー情報は、暗騒音のパワー情報より大きくなることを利用することがある。具体的には、入力された音声信号からパワー情報が所定以下である場合をターゲット音の信号源が存在しないと判定し、信号源が存在しないのであるから、そもそも音源方向の推定を行わないことにより、暗騒音による方向検出の精度低下を防止している。この場合、ターゲット音のパワー情報と暗騒音のパワー情報を切り分けるための閾値設定が重要となる。ターゲット音と暗騒音とのパワー情報が明らかに異なる場合は比較的容易に切り分けることが可能である。しかしながら、パワー情報は、使用するマイクロホンの感度のばらつきや設定されている増幅器の増幅率などに依存して変動する。

このため、従来技術では、マイクロホンの感度や増幅器の増幅率が一定であることが求められ、非常に高価な部品にて構成しなければならない。あるいは、品質が一定の高価な装置を使用できない場合、装置設置後に特定の場所から基準音を発生させ、ターゲット音と騒音とを切り分ける閾値を調整するといったキャリブレーション作業が必要となる。このため、装置の取り扱いを高度に習得した人間が必要となり、設置作業のコストが増大してしまう。

そこで、本発明は、かかる課題を解決するため、マイクロホンや増幅器の品質依存性を少なくしつつ、設置場所でのキャリブレーション作業を不要とした話者方向推定装置の実現を目的とする。

本発明は、複数の集音器から取得した音声信号の話者方向を推定する装置であって、前記集音器ごとに、白色化処理部にて白色化した音声信号の低周波数域成分をカットする低域カット処理部と、前記低域カット処理部にてカットした低周波数域の人工信号を当該音声信号に付加する人工信号付加部と、前記複数の集音器からの前記人工信号が付加された音声信号について相互相関を計算する相互相関計算部と、
前記相互相関計算部の出力により話者方向を推定する話者方向推定部を具備する話者方向推定装置を提供する。

また、好適な態様では、前記集音器ごとに、前記音声信号のパワー情報の時間平均からノイズレベルを推定するノイズレベル推定部を更に設け、前記人工信号付加部は、前記ノイズレベル推定部が推定したノイズレベルが高いと前記人工信号のレベルを高く、前記ノイズレベルが低いと前記人工信号のレベルが低くなるように人工信号のレベルを制御する。

更に、好適な態様としては、前記白色化処理部は、前記白色化した音声信号に対し周波数軸上においてスペクトル強度に右肩下がりの傾斜を更に付ける。

本発明によれば、マイクロホン感度のばらつきや増幅器の増幅率などのハードウエアの品質にばらつきがあったとしても、精度良く話者方向を推定できる。また、音声信号の入力レンジがA/D変換器のレンジに適切に納まるようにするだけで、話者方向もしくは発声区間判定のための閾値設定は変更や特別なキャリブレーション作業を不要としても、精度良く話者方向を推定できる。

本発明を適用した話者方向推定装置１のブロック図である。金融機関におけるＡＴＭ利用者を話者として認識するための話者方向推定装置の配置図である。Ａ／Ｄコンバータ１１にて処理後の音声信号の例を示す図である。音声区間のフレームを白色化処理部１３から人工音付加部１７までの処理を説明する図である。無音区間のフレームを白色化処理部１３から人工音付加部１７までの処理を説明する図である。音声区間のフレーム（a）と無音区間のフレーム(b)を説明する図である。相互相関計算部１８での正規化相関関数を説明する図である。

以下、本発明を適用した話者方向推定装置の好ましい実施形態について、図を参照して説明する。図２は、本実施の形態にかかる話者方向推定装置を金融機関のＣＤ／ＡＴＭの操作者の音声だけを抽出する目的に使用したときの設置例を示している。話者方向推定装置は、振り込め詐欺の被害者の恐れがある人に、注意を喚起することを想定している。振り込め詐欺では、犯罪者が携帯電話を使用して、被害者に携帯電話にてＡＴＭ操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがある。
そこで、ＡＴＭ３の上部左右両端に設置した2つのマイクロホン２からの音声信号を解析することで、ＡＴＭ３の正面にて携帯電話で被害者が発声していることを正確に検知するものである。

図２は、金融機関におけるＡＴＭ３の利用者４を話者として認識するための話者方向推定装置の配置の例を示した図である。話者方向推定装置は、本体装置１が壁面に設置され、マイクロホン２がＡＴＭの上部両端に所定距離を離隔させて２つ設置されている。本実施の形態では、マイクロホン２を２つ使用しているが、これに限られるものではなく、３以上を適宜の数を適宜の配置にて使用しても良い。なお、その設置の数や配置関係に応じて、後述する相互相関処理部１８、話者方向推定部１９のパラメータ等が異なることはいうまでもない。

図１は、本発明を適用した話者方向推定装置のブロック図を示している。話者方向推定装置１は、集音器である２つのマイクロホン２と、増幅器１０、Ａ／Ｄコンバータ１１、フレーム切出部１２、白色処理部１３、低域カット処理部１４、パワー計算部１５、ノイズレベル推定部１６、純音付加部１７、相互相関処理部１８、話者方向推定部１９から構成されている。

マイクロホン２は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。話者方向を検出するために、少なくとも２つ以上が必要である。マイクロホン２同士は、所定距離の間隔を空けて設置される。この所定距離は、サンプリング周期や話者との距離などに応じて決定される。また、マイクロホン２は、特別に高品質なものを用意する必要はない。

増幅器１０は、マイクロホン２により集音された音声をＡ／Ｄコンバータ１１が処理できるように合わせて増幅する。この増幅されたアナログ信号である音声を6000Hz以上でサンプリングして離散時間信号（デジタル信号）にＡ／Ｄコンバータ１１にて変換する。増幅器１０、Ａ／Ｄコンバータ１１は、いずれも周知の部品であるので、詳細な説明は省略する。

次に、フレーム切出部１２は、音声信号を一定周期、固定長のフレームに切り出す。具体的には、例えばフレーム長30ms、シフト長20msにしたハミング（HAMMING）窓を窓関数として音声信号に乗じてフレームを切り出す。なお、窓関数は、ハミング（HAMMING）窓に限られるものではなく、ハニング（HAＮＮING）窓などを用いてもよい。

ここで、図３を参照して、Ａ／Ｄコンバータ１１及びフレーム切出部１２の処理結果を説明する。図３は、音声信号を横軸に時間・縦軸に振幅とってグラフ化したものである。Ａ／Ｄコンバータ１１にて処理後の音声信号の例を図３上図に示している。そして、かかる音声信号から処理対象のフレームをフレーム切出部１２を切り出した結果が、同図の下図に示している。

パワー計算部１５は、フレーム切出部１２にて切り出したフレームの音声信号からパワー情報を計算する。パワー情報の計算は、音声信号の振幅値の2乗加算値をパワー情報としている。なお、本実施の形態では、２乗加算値を使用しているが、これに限ることなく、後述の白色化処理部１３で使用するスペクトル包絡のゲイン項や他の種々知られている算出方法の何れを使用しても良い。

ノイズレベル推定部１６では、過去の複数フレームにおけるパワー情報の時間系列に対して、指数減衰窓を適用し平均化することにより、ノイズレベルを推定する。本実施の形態では、ターゲット音声が存在しないフレームがほとんどであるような環境を前提としたノイズ推定方法である。厳密にノイズレベルを推定する必要がある場合は、ターゲット音声が存在しないとしたフレームでのパワー情報のみを用いて時間平均しても良い。その他、ノイズレベルを推定する方法は、種々存在しているものを適宜選択して用いれば良い。

白色化処理部１３は、切り出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関処理部１８において、音韻（/あ/、/い/等）の違いによる相互相関関数の形状変動を少なくすることにある。

白色化処理部１３の具体的な処理について説明する。白色化処理部１３は、フレーム切出部１２にて切り出されたフレームの音声信号（図３における下図）からLPCケプストラム係数を算出する。そして、算出したLPCケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。フレーム切出部にて切り出されたフレームの音声信号に対して、FFT（Fast
Fourier Transform）処理を行う。その後、FFT（Fast Fourier Transform）処理の結果に対してスペクトル包絡にて除算することで、音声信号を白色化する。

図４(a)-(c)は、白色化処理の様子を示している。図４(a)は、入力された音声信号からフレーム切出部１２にて切り出されたフレームの周波数スペクトルを示している。図４の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線（スペクトル包絡）を求める（図４（ｂ）の破線）。この包絡線を基に白色化を施したのが図４（ｃ）である。白色化処理は、これに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない。

さらにオプションとして、白色化処理部１３にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにしてもよい。これを示したのが図４(d)である。なお、図４(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。スペクトル強度に右下がりの傾斜を付けることは、後述の相互相関処理部１８にて行う処理での相互相関関数におけるパルス幅を広げることに相当する。特に、Ａ／Ｄコンバータ１１でのサンプリング周波数が小さいときに、パルス幅が狭くなりすぎるため、相互相関処理部１８にて評価しづらくなるので、この傾斜にてパルス幅を調整することが可能になる。

次に、低域カット処理部１４では、音声の有効帯域の最低周波数、例えば70Hz以下をカットするようにする（図４(e)）。この処理も時間軸上でも周波数軸上でも可能である。カットした低域成分は音声に無関係のノイズ成分である。

人工信号付加部の一例である純音付加部１７は、前述のノイズレベル推定部１６にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加する（図４(f)）。純音の大きさの決定は、ノイズレベルより優位性が出る程度大きく、ターゲット音声より優位性が出ないレベルとする。例えば、図４（f）の例では、ノイズレベルの１．５倍としている。この処理も時間軸上でも周波数軸上でも可能である。本実施の形態では、人工信号の例として純音を採用しているが、純音に限られることでなく直流成分やその他の信号を付加しても良い。純音や直流成分を採用とすることにより、後述する相互相関関数を算出した際に、人工信号が支配的か否かの判別が容易になる。

なお、純音付加部１７は、左右のマイクロホン２からの信号が相互に逆位相になる純音を付加する。左右のマイクロホン２からの信号に逆位相の純音を付加することにより、後述する相互相関計算部１８において、音声信号に対して付加した純音が支配的になった際に、相互相関値がマイナス側に振れるようになる。

相互相関計算部１８は、左右のマイクロホン２から入力された音声信号に対して、正規化相互相関関数を計算する。
数式１は、正規化相互相関関数をフーリエ変換した結果の一般式である。

数式１において、Φ（ｋ）は、相互相関関数のフーリエ変換結果、ｋは離散周波数、MはFFT（Fast Fourier Transform）のサイズ、X₁(k), X₂(k)は左右の純音付加部１７から入力された周波数軸上での音声信号、(・)^*は複素共役をそれぞれ示す。かかるΦ（ｋ）に対して、逆フーリエ変換を行うことで、相互相関関数が算出できる。相互相関関数は、本実施の態様に限ることなく、公知の方法を採用すれば良い。

次に、図４から図７を参照して、相互相関計算部１８にて算出される相互相関関数が、音声区間と無音声区間でどのようになるかを説明する。図６は、純音付加部１７から出力される音声信号を時間領域にて表示した例を示している。図６（a）は音声区間の例を示し、図６(b)は無音声区間の例をそれぞれ示している。すなわち、図４に示す音声区間に対して処理した結果が図６（a）に示すものとなり、同様に図５に示した無音声区間を処理した結果が図６（ｂ）に示すものである。図４については、前述しているのでここでの説明は省略し、図５について簡単に説明する。

図５(a)は、入力された音声信号からフレーム切出部１２にて切り出されたフレームの周波数スペクトルを示している。図５の横軸は周波数、縦軸はスペクトル強度である。この音声信号に対してLPCケプストラム分析を行い、その包絡線（スペクトル包絡）を求める（図５（ｂ）の破線）。この包絡線を基に白色化を施したのが図５（ｃ）である。白色化処理部１３にて、白色化に引き続き、周波数軸上にてスペクトル強度が右肩下がりの傾斜をするようにした結果を示したのが図５(d)である。なお、図５(d)に破線で示しているのは、スペクトル強度の右肩下がりを理解しやすいように示した補助線である。低域カット処理部１４にて、音声の有効帯域の最低周波数、例えば70Hz以下をカットし（図５(e)）、純音付加部１７にて前述のノイズレベル推定部１６にて推定したノイズレベルを基に算出された大きさの40〜50Hz程度の低域の純音信号を音声信号に付加した結果が図５(f)である。

次に、純音が付加された図４（ｆ）に示す音声区間の音声信号（左右のマイクロホン２）を相互相関計算部１８にて、正規化相互相関関数を計算した結果が、図７（a）である。また、純音が付加された図５（ｆ）に示す無音声区間の音声信号（左右のマイクロホン２）を相互相関計算部１８にて、正規化相互相関関数を計算した結果が、図７（ｂ）である。図７を見れば分かるように、図７（ｂ）に示す無音声区間の場合は、付加した純音が相互相関関数において支配的となり、図７（ａ）に示す音声区間の場合は音声が入力された音声信号が支配的になっている。このように、音声信号を音声区間か無音声区間かを容易に判別できる。

すなわち、人工信号は既知の信号であるため、正規化相互相関関数として現れる波形も既知となる。このため、人工信号が支配的である音声信号は無音区間と判断し、人工信号が支配的でない音声信号は音声区間と判断できる。特に、本実施の形態では、純音付加部１７において、左右のマイクロホン２に付加する純音を逆位相としているため、図７（ｂ）の無音区間での相互相関値がマイナス方向に振れているのに対し、一般に音声区間における相互相関値がプラス方向に振れるものとの判別が容易となる。なお、純音付加部１７にて、同位相の純音を付加した場合であっても、逆位相よりは判別しづらくなるが判別は可能である。

ノイズレベルに適応させた人工信号を付加すると、音声が存在する場合は音声信号の中で音声成分が人工信号より支配的になるが、音声が存在しない場合は音声信号の中で人工信号が音声成分より優位になる。これにより、音声が含まれていない暗騒音のみの場合に方向推定の精度が低下することを防止できる。

また、純音付加部１７にて付加する純音のレベルは、ノイズレベル推定部１６にて推定したノイズレベルに適応的に決定している。このため、マイクロホン２の感度や増幅器１０のゲインなどにばらつきがあったとしても、付加する純音の大きさと音声信号との相対的な関係を一定に保つことができる。このため、相互相関計算部１８にて、正規化相関処理を実行した際にもマイクロホン２の感度等のばらつきによる影響がなくなる。

話者方向推定部１９では、相互相関計算部１８にて算出した正規化相互相関関数のピークの高さ、ピークの幅に基づき、どの方向から発声があったかを判定する。具体的には、相互相関関数の最大値を与えるピークの高さが一定以上で、かつ、その幅として半値幅(ピーク値の半分の高さにおける幅)が一定以下を満たしたときに、音声が発せられたと判断する。また、発声があったと判定された場合は、そのピーク位置から方向を推定する。音速をc、マイク間の距離をd、音源とマイクの中心線との成す角をθ、サンプリング周波数をf_s、相互相関のピークを与えるインデックスをn₀とすると、θが推定角度(単位はラジアン)となる。

本実施の形態では、ＡTM３の正面に位置している利用者４が発する音声とそれ以外の音声等を識別したいので、左右のマイクロホン２から等距離にある方向、すなわちθが０ラジアンを示した音声を見つけることになる。例えば、正面からの音声信号が集音された回数をカウンタにてカウントし、所定時間内に所定回数のカウントがあると、正面で会話をしていると判定し、その結果を図示しないランプやブザー等に表示出力する。これにより、携帯電話からの指示を受けて、ＡＴＭ３の操作をしていることを店舗の人に知らせることができるので、無意識に振り込め詐欺にあっている人への注意喚起に役立つ。本実施の形態では説明していないが、ＡＴＭ３の正面の発話者からの音声であることだけでなく、その音声信号を認識処理した結果、振込みを誘導されている可能性がある場合に限り、ランプやブザー等に出力しても良い。

なお、上記実施形態は簡単のために2チャンネルマイクの例を示したが、3チャンネル以上に拡張することも可能である。3チャンネル構成でマイクをトライアングル上に配置すれば、3つのペアから音源方向を推定できるため、音源の3次元位置(距離も含む)を推定することも可能である。

１・・・話者方向推定装置の本体装置
１０・・・増幅器
１１・・・A/Dコンバータ
１２・・・フレーム切出部
１３・・・白色化処理部
１４・・・低域カット処理部
１５・・・パワー計算部
１６・・・ノイズレベル推定部
１７・・・純音付加部
１８・・・相互相関計算部
１９・・・話者方向推定部
２・・・マイクロホン
３・・・ATM
４・・・話者

Claims

複数の集音器から取得した音声信号の話者方向を推定する装置であって、
前記集音器ごとに、白色化処理部にて白色化した音声信号の低周波数域成分をカットする低域カット処理部と、
前記低域カット処理部にてカットした低周波数域の人工信号を当該音声信号に付加する人工信号付加部と、
前記複数の集音器からの前記人工信号が付加された音声信号について相互相関を計算する相互相関計算部と、
前記相互相関計算部の出力により話者方向を推定する話者方向推定部と、
を具備することを特徴とした話者方向推定装置。
更に、前記集音器ごとに、前記音声信号のパワー情報の時間平均からノイズレベルを推定するノイズレベル推定部を有し、
前記人工信号付加部は、前記ノイズレベル推定部が推定したノイズレベルが高いと前記人工信号のレベルを高く、
前記ノイズレベルが低いと前記人工信号のレベルが低くなるように人工信号のレベルを制御する請求項１に記載の話者方向推定装置。
前記白色化処理部は、前記白色化した音声信号に対し周波数軸上においてスペクトル強度に右肩下がりの傾斜を更に付ける請求項１または請求項２に記載の話者方向推定装置。