JP5439221B2

JP5439221B2 - 発声検出装置

Info

Publication number: JP5439221B2
Application number: JP2010036292A
Authority: JP
Inventors: 和義福士
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2010-02-22
Filing date: 2010-02-22
Publication date: 2014-03-12
Anticipated expiration: 2030-02-22
Also published as: JP2011170266A

Description

本発明は、高ノイズ環境下において音声等の識別対象信号を十分な精度で検出できるか否かを判定することができる識別装置等に関するものである。

従来、高ノイズ環境下においてマイクロホンから入力される音響信号のノイズ成分を抑圧して音声認識を精度よく行うためのノイズ抑圧技術が提案されている。しかし、ノイズ抑圧手段がどんなに高性能になろうとも、ノイズレベルが高くなるにつれて所望のノイズ抑圧性能を得ることができなくなり、それに応じてシステムの性能は劣化し、やがてシステムが正常動作できなくなる臨界点に達する。従って、ノイズ環境下にある検知対象を認識乃至検知するためのシステムにおいては、ノイズに対する最良の抑圧手段を講じるとともに、さらにノイズレベルがその抑圧手段をもってしても対応できない段階に到達した場合には、その事実を適切な形でユーザーに通知する手段を持つことが望ましい。

特許文献１には、車両内等に設置され、運転者の音声指令を音声認識させることにより車両機器をハンズフリーで動作させることを目的として、マイクから入力した音声が所定のノイズレベルを超える場合には音声認識処理を禁止し、かつ音声認識できないことを知らせるようにした車両用音声負荷駆動装置が記載されている。

また、特許文献２には、周波数ごとに閾値を設定し、発話がない場合のノイズ周波数成分がいずれかの周波数で閾値を超えると音声認識を実行しないようにした音声認識装置が記載されている。

特開昭５７−２１２４９５号公報特開２００３−２９７８５号公報

特許文献１に記載の発明によれば、ノイズレベルが所定値以上になると、認識処理を中止してしまうため、ノイズの抑圧性能によっては、認識可能である場合があるにも係わらず異常としてしまう場合があるという問題がある。例えば、音声認識の場合、認識処理は一般に周波数軸上でパラメータを用いて行われる。そのため、時間的に異なる２つのノイズが時間軸について求めたノイズパワーにおいて同一値を示したとしても、両ノイズの周波数的な分布が異なれば、認識処理が可能か否かの判断結果は異なる可能性があり、一概にノイズパワーのみから認識処理を中止することは適切ではない。

特許文献２に記載の発明のように、周波数成分ごとに閾値を設定することも考えられるが、しかし周波数軸上でノイズを評価するにためには、どのようなノイズが認識に影響があるかを事前にシミュレートする必要があり、実際にはそのようなシミュレーションには多くの手間が必要であるため現実的ではない。

本発明は、以上のような課題を解決するためになされたものであり、設置環境ごとのわずらわしい設定をする必要がなく、ノイズ環境の変動に適応して設置環境下で目的とする識別対象を識別できる所期の性能を十分に発揮できるかどうかの判定を容易に行うことができ、発声検出装置、音声認識装置などに適用可能な識別装置を提供することを目的としている。

上記目的を達成するため、本発明に係る発声検出装置は、
音響信号を入力するマイクロホンを備えた入力部と、
低雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
人を検知する人感センサーと、
前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
を含む発声検出装置であって、
前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴としている。

また上記発声検出装置において、
前記入力部は、音響信号を入力する２つのマイクロホンを含み、
前記発声検出部は、前記２つのマイクロホンから入力した前記２つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含むようにすることができる。

さらに本発明の発声検出装置において、
前記発声判定部は、前記２つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有することができる。

また本発明に係る発声検出装置によれば、テストモードにおいて、テスト信号から発声データを検出できないと発声検出部が判定した場合には、発声検出装置が異常状態にあることを環境判定出力部が報知するので、各設置環境に対応した煩わしい設定をすることなく所望の性能が発揮できるか否かを予め判定して知ることができ、ノイズ環境の変動にも容易に適応できるという効果が得られる。また、人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替えることができる。

また本発声検出装置による効果において、入力部の２つのマイクロホンから入力した２つの識別対象信号の相互相関値列を相互相関計算部で計算し、その計算結果の出力を発声判定部が評価することで、指定した方向から発声があったか否かを正確に判定することができる。

さらに本発声検出装置による効果において、発声判定部で２つの識別対象信号に相関があると判定された場合に、２つの識別対象信号のいずれかについて特定の音声の内容が含まれているか否かを判定する音声認識処理を備えることで、特定のワードが検出されるか否かに応じて発声者が存在するか否かを判定することができる。

以上説明したように、本発明に係る識別装置の発明又はこれを発声の検出に特化させた発声検出装置乃至音声認識装置用の発明によれば、設置した環境下で所望の性能を発揮できるかどうかを、当該環境におけるノイズを反映したテスト信号の識別処理結果に基づいて的確に判定できるので、設置環境ごとのわずらわしい設定が不要であり、ノイズ環境の変動にも適応が可能であるという効果が得られる。

第１実施形態の識別装置の構成を示すブロック図である。第２実施形態の発声検出装置の構成を示すブロック図である。第２実施形態の発声検出装置の発声検出部の内部構造を示すブロック図である。第２実施形態の発声検出装置の動作を示す流れ図である。第２実施形態の発声検出装置における２つの音響信号の相互相関値列の算出結果を示す図である。

１．第１実施形態（図１）
（１）識別装置の概要
まず、はじめに本発明及び本発明の第１実施形態に係る識別装置の概要を説明し、続いて同実施形態に係る装置の具体的な構成例について説明する。
本発明は、外部環境内に存在する種々の識別対象や各対象に固有の挙動を、物理量の変動に基づき検出して認識し、以てこれらを分類し若しくはこれらの存在の有無を判定する識別装置乃至認識装置に適用することが可能である。

例えば、本発明は、人間の発する音声の発声内容を分析する音声認識、物体の存在の有無を解析するレーダー／ソナー／センサー技術、人物の行動や移動軌跡を画像上で解析する画像監視技術などに適用することができる。

これらの技術に共通の問題は、外部環境内におけるノイズの存在の有無又はその大小が外部環境内で識別対象をセンシングする際のセンシング原理に関係しており、識別対象をセンシングする際のパフォーマンスが係るノイズによって大きく左右される点にある。例えば、音声認識では音波を扱うため、人の声以外の音波は認識を阻害するノイズと考えることができる。あるいは、ノイズとは、特定の騒音源からの音波や、マイクロホンの出力信号に混入する電気的な雑信号もノイズと考えることができる。その他の技術分野でも同様に識別装置の性能を劣化させるノイズが存在し、一般的な傾向としてノイズレベルが低ければ装置は高い性能を発揮し、ノイズレベルが高くなれば性能が劣化すると言える。

そのため、従来の識別装置の類においては、ノイズの影響を減じる様々な手立てが講じられている。一方、そのノイズ抑圧手段がどんなに高性能になろうとも、ノイズレベルが高くなるにつれてシステムの性能は劣化し、やがてシステムが正常動作できなくなる臨界点に到達するのも事実である。

ゆえに、識別装置を含むシステムにおいては、ノイズに対する最良の抑圧手段を講じ、その抑圧手段をもってしても対応できないノイズレベルに遭遇した際には、それを適切な形で報知する手段を持つのが望ましい形態と言える。

（２）識別装置の構成
本実施形態では、識別システムが動作可能な状態であるか否かを、簡易な方法にて、さらに多くの種類のシステムに適用可能な形態で実現することを目的とする。より具体的には、システムのトータルな性能に応じた動作不能状態を正確に判定する仕組みを提供するものである。

図１は、第１実施形態に係る識別装置１のブロック図である。
システムに入力信号を入力する入力部２は、外部環境内で生起している識別対象としての物理現象（例えば人間が発する発声乃至そのデータ）をとらえるために、当該物理現象を記述する物理量のデータをデジタル信号として収集する手段である。例えばマイクロホン、カメラほか他のセンシングデバイス及び増幅器などから構成される。

記憶部８は、少なくとも識別対象を含むモデル信号を記憶している。本実施形態では、その識別技術を適用しようとしている識別対象に固有のモデル信号群としてクリーン信号群を事前に用意し、これらを記憶部８に格納する。クリーン信号とはノイズが少ない状態で収録した少なくとも識別対象を含む信号であり、かつその識別結果が既知の信号である。条件に応じて複数のクリーン信号を記憶しておくようにしてもよい。

テスト信号合成部６は、入力部２から入力され、後述する切替部３を経て送られた入力信号と、記憶部８から送られたモデル信号としてのクリーン信号とを合成し、本装置の評価に使用するテスト信号を生成する手段である。

切替部３は、入力部から入力された入力信号を識別対象信号として後述する識別部４に送る識別モードと、テスト信号合成部６で生成された前記テスト信号を識別対象信号として後述する識別部４に送るテストモードとを切り替える手段である。切替部３において、テストモードと識別モードの切り替えは、他のセンサが出力する信号や、スイッチ信号、タイマー制御による信号等を用いて行なうことができる。

識別部４は、識別モード又はテストモードにおいて、識別対象信号から識別対象が識別可能か否かを判定する手段である。具体的には、識別モードにおいて、入力部２を経て入力された入力信号の中から識別対象が識別できるか否かを判定し、又はテストモードにおいて、テスト信号合成部６から送られたテスト信号の中から識別対象が識別できるか否かを判定し、それぞれのモードに応じた出力先に判定結果を出力する。

識別装置１の後段にある環境判定出力部７は、識別部４がテストモードにおいてテスト信号から識別対象を識別できず、システムが正常動作する環境にないと判定した場合に、本識別装置１が正常に動作しない異常状態にあることを外部に報知するための手段である。報知手段としては、ディスプレイパネル等の表示手段、スピーカー等の音声報知手段、遠隔地へ情報を送る通信手段等、装置のユーザーに前記異常状態を知らしめるものであればいかなる手段であってもよい。また、識別部４がテストモードにおいてテスト信号から識別対象を識別でき、システムが正常動作する環境にあると判定した場合には、環境判定出力部７は上述したようなＮＧ時の報知動作は行なわないことはもちろんであるが、システムが正常動作可能な環境内にあることを報知するＯＫ時の報知動作を行なうようにしてもよい。

識別装置１の後段にある出力部５は、識別モードにおいて識別部４が識別対象信号から識別対象を識別した場合に、その旨を外部に出力して報知するための手段である。

図１に示す以上の構成において、信号等の流れを示す上側のパスは、上述した識別モードにおいて入力部２からの入力に対して識別を行う識別パスを表している。下側のパスが本実施形態の特徴であるテストパスであり、上述したテストモードにおいて本装置１が正常動作を行なえる外部環境内にあるか否かをテストする際の信号等の流れを示す。なお、上下の両パス中に介在する識別部４は、前述したように識別モード又はテストモードのいずれのモードにおいても、識別対象信号から識別対象が識別可能か否かを判定する点において同一の動作を行うモジュールとして機能することとなる。識別部４は、モードに応じて異なる出力先に識別結果を出力する。即ち、識別部４は、テストモードにおいては環境判定部７に識別結果を出力し、識別モードにおいては出力部５に識別結果を出力するように制御を行なう。

（３）識別装置１の作用
まず切替部３により本装置１のモードがテストモードになっている場合の動作を説明する。
入力部２からの入力があると、記憶部８よりクリーン信号を取り出し、入力信号との合成信号であるテスト信号をテスト信号合成部６で生成する。クリーン信号が複数記憶されている場合は、いずれのクリーン信号を選択するかの選択規則はランダムでもよいし、何らかの状況判断により、現在の状況に近い信号を選ぶなどしてもよい。

テスト信号合成部６において入力信号とクリーン信号からテスト信号を生成する手法は、識別対象とする物理現象が相違し、またこの物理現象を検出するセンサーの原理乃至種類が相違すれば、識別装置１ごとに異なるものとなる。例えば、識別装置１が音声認識装置である場合には、入力信号とクリーン信号の同期加算でテスト信号を生成することができる。すなわちマイクロホンや多くのセンサーでは、入出力に線形性が成り立つので、そのような場合には、テスト信号の生成は同期加算法が使えるのである。しかしながら、識別装置１が画像監視装置のように線形性の前提が成り立たない場合については、後述する実施形態にて述べるように、上述した音声認識装置の場合とは異なる手法を採用する。

識別部４ではテスト信号を処理し、テスト信号を処理することによってテスト信号に含まれている識別対象が識別可能か否かを判定して判定結果を出力する。
例えば本実施形態の識別装置１が音声認識装置である場合には、クリーンな音声信号と実際の環境のノイズを含む信号を合成したものをテスト信号とし、このテスト信号を識別部４で処理し、その識別結果が予め記憶部８に記憶してある正解データと比較して一致しないことが確認されれば、テスト信号から識別対象が正しく認識できなかったものと判断し、本装置１が正常動作しない状態であるとの判定を行なう。また、本実施形態の識別装置１が侵入者を検出する画像監視装置である場合には、人物が充分に識別可能である鮮明な画像をクリーン画像とし、これに実際の環境におけるノイズである例えば、雨、雪など降っている状況の画像を合成してテスト信号とし、このテスト信号を識別部４で処理し、テスト信号から識別対象である人物が検出できるか否かを判断し、検出不可能な状態であれば、本装置１が正常動作しない状態であるとの判定を行なう。

環境判定出力部７では、前述した識別部４の判定結果に基づき、識別装置１が置かれている外部環境が識別装置１にとって正常動作が可能な環境であるか否か、換言すれば識別装置１が本来識別対象としているものを識別可能な状態にあるかどうかについての判定結果を外部に出力する。

以上は本装置１がテストモードにある場合の動作説明であったが、切替部３が作動し、識別部４における信号等の流れが上側のパスに切り替えられた場合、入力部２から入力された入力信号は識別部４で処理され、その判定結果に基づいた報知情報を出力部５が外部に出力する。

２．第２実施形態（図２〜図５）
（１）発声検出装置の概要
次に、前述した第１実施形態に係る識別装置１を、さらに具体的な事例に適用した一例として、人間が発声しているか否かを検出する発声検出装置１１について説明する。
この発声検出装置１１は、具体的には金融機関のＣＤ／ＡＴＭの近傍に設置され、装置の前で利用者が装置を操作しながら携帯電話により会話を行っていることを検出するものであり、近年増加しつつある振込め詐欺が金融機関のＣＤ／ＡＴＭの前で進行していることを検知し、利用者に注意を促す等して被害を未然に防止することを目的としている。

振り込め詐欺では、犯罪者が被害者に携帯電話にてＣＤ／ＡＴＭの操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがあり、振り込め詐欺の被害を受けている可能性のある操作者は、携帯電話を使用して電話口の相手（加害者）と会話しながら、操作をすることが多い。

本発声検出装置１１では、金融機関のＣＤ／ＡＴＭの操作者が会話をしていることを検出するとスピーカ等から警告を発したり、遠隔の監視センタに通信回線を介して通報する。具体的には、ＣＤ／ＡＴＭに設置したマイクロホンからの音響信号を解析することで、ＣＤ／ＡＴＭの前で操作者が発声した音声信号を検知する。

このようなＣＤ／ＡＴＭが設置される環境は、ＣＤ／ＡＴＭの作動音や設置ブース内外の周辺ノイズが大きい。またノイズとして周辺の設置機器が発生する電気的ノイズがマイクロホンの出力信号に混入することや、マイクロホンの機器異常によりマイクロホンの出力信号にノイズが発生することがある。このような環境で精度よく音声を検出できるか否かを把握する必要がある。本発声検出装置１１は、設置環境が発声を検出可能な環境であるか否かを判定し、ノイズの影響により発声が検出不能であるとき、この状況を異常として警告等を行うものである。

（２）発声検出装置１１の構成
図２を用いて、本発声検出装置１１の構成について説明する。図２の発声検出装置１１は、ＣＤ／ＡＴＭの正面で音響信号の入力があり、これに人間の発声による音声が含まれていることを検出すると警報を出力する。

図２に示すように、発声検出装置１１は、第１実施形態の入力部２に相当する２つのマイクロホン２１１と、増幅器２１２と、Ａ／Ｄコンバータ２１３と、切替部３１と、第１実施形態の識別部４に相当する発声検出部４１と、出力部５１と、テスト信号合成部６１と、環境判定出力部７１と、記憶部８１から構成されている。

図２に示すマイクロホン２１１は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。本発声検出装置１１においてはマイクロホン２１１を２つ用いる構成としている。これは後述のように２つのマイクロホンから取得した音響信号の相互相関値列により、マイクロホンに入力される音響信号が有意な信号であるか否かと、いずれの方向からの信号であるかを判定するためである。マイクロホン２１１，２１１同士は、所定距離の間隔を空けて設置される（例えば５０ｃｍ）。この所定距離は、サンプリング周期や話者との想定距離範囲などに応じてＡＴＭの正面の操作者が発声したことを特定できるような値に決定される。尚、２つのマイクロホン２１１，２１１の間隔は、音声の発声方向を精度よく検出するために適当な距離であればよく、前記距離例は一例にすぎず、本実施形態に係る発声検出装置１１に制限を課するものではない。また、２つのマイクロホン２１１，２１１は、ほぼ同程度の感度、特性を持ったものを使用するが、特別に高品質なものを用意する必要はない。

図２に示す増幅器２１２は、マイクロホン２１１により集音された音響信号を増幅するアンプである。この増幅率はＡ／Ｄコンバータ２１３の入力電圧に応じて適宜設定される。Ａ／Ｄコンバータ２１３は増幅されたアナログ信号である音響信号を２チャネル同時に所定サンプリング周波数でサンプリングして離散時間信号（デジタル信号）に変換する。増幅器２１２、Ａ／Ｄコンバータ２１３は、いずれも公知のデバイスであり、市販品を使用することができる。

図２に示す切替部３１は、第１実施形態の切替部３と同様にテストモードと識別モードを切り替える手段である。この切替部３１は、例えばＣＤ／ＡＴＭブース内の天井や壁等に人感センサーを設置し、この人感センサーからの信号の状態によって切り替えるようにしてもよい。すなわち人感センサーからの信号によって人がいないと判断されればテストモードに切り替えるし、人がいると判断されれば識別モードに切り替える。あるいは、１人用のＣＤ／ＡＴＭブースであれば、ドアの開閉を検知してモードを切り替えるようにしてもよい。また前述のように手動のスイッチ、タイマー等によりモードを切り替えるようにしてもよい。

図２に示す発声検出部４１は、識別モード又はテストモードにおいて識別対象信号から人間の発声による音声が検出可能か否か判定する。図２に示すように、識別モードの場合は、マイクロホン２１１から集音された音響信号が発声検出部４１に入力される。またテストモードの場合は、マイクロホン２１１から集音された音響信号が切替部３１を経てテスト信号合成部に送られ、記憶部６１に記憶されているクリーン信号がテスト信号合成部６１に送られ、音響信号にクリーン信号を重畳したテスト信号がテスト信号合成部で生成され、このテスト信号が発声検出部４１に入力される。識別モード、テストモードいずれの場合でも発声検出部４１での処理は同じであり、入力された識別対象信号から識別対象である音声が検出されたか否かが判定される。

図３は上述した発声検出部４１の構成をさらに詳しく図示している。図３に示すように、発声検出部４１は、前処理部４１１と、フレーム切出部４１２と、白色化処理部４１３と、相互相関計算部４１４と、発声判定部４１５から構成される。

図３に示す前処理部４１１は、音声信号の処理に不要な周波数帯域、例えば７０Ｈｚ以下の周波数成分をカットする低域カットフィルタ処理と、信号のダイナミックレンジを圧縮して数値演算精度を高める高域強調処理処理と、ノイズ抑圧処理の各機能を備えている。これらはいずれも必須の処理乃至機能ではない。また、左右一対のマイクロホン２１１，２１１に対応する左右の両チャネルで同じ構成にする必要があるが、低域カットフィルタの機能を実現する構成に関しては、ＦＩＲ(Finite Impulse Response）型、又はＩＩＲ(Infinite Impulse Response）型等に制限する必要は無い。また、ノイズ抑圧処理としてはスペクトルサブトラクション等の既知の手法が適用できる。さらに後述する相互相関計算部４１４の前段に、２つの信号を利用してノイズ抑制を行なう手段を設けるようにしてもよい。

図３に示すフレーム切出部４１２は、音響信号から固定長のフレーム（例えば３０ｍｓとする）を所定のシフト幅（例えば２０ｍｓ）で切り出す。フレームを切り出す際には、ハミング窓を窓関数として音響信号に乗じて切り出す。なお、窓関数は、ハミング窓に限られるものではなく、ハニング窓等を用いてもよい。

図３に示す白色化処理部４１３は、切出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関計算部４１４において、音韻（「あ」、「い」等）の違いによる相互相関値列の形状変動を少なくすることにある。白色化処理部４１３は、フレーム切出部４１２にて切り出されたフレームの音響信号からＬＰＣケプストラム係数を算出する。そして、算出したＬＰＣケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。まず、フレーム切出部４１３にて切り出されたフレームの音響信号に対して、ＦＦＴ（Fast Fourier Transform）処理を行う。その後、ＦＦＴ処理の結果に対してスペクトル包絡にて除算することで、音響信号を白色化する。白色化処理はこれに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない

図３に示す相互相関計算部４１４では、白色化処理部４１３からの出力を受けて、次の数１に示す式（１）により、左右の音響信号同士のクロススペクトルを計算し、これを逆ＦＦＴすることにより相互相関値列を算出し、発声判定部４１５へ出力する。

式１において、Ｙ（ｋ，ｔ）は周波数番号ｋ、フレーム番号ｔでのクロススペクトルで、相互相関値列のフーリエ変換に等しい。Ｘ₁（ｋ，ｔ）は左チャンネルのＦＦＴ結果、Ｘ₂（ｋ，ｔ）は右チャンネルのＦＦＴ結果である。また＊は複素数の共役を表している。かかるＹ（ｋ，ｔ）に対して、逆フーリエ変換を行うことで、フレームｔにおける相互相関値列が得られる。

図３に示す発声判定部４１５では、相互相関計算部４１４にて算出した相互相関値列のピークの高さ、ピークの位置（方向）、ピークの幅、あるいはピークの時間的な連続性を評価し、指定した方向から発声があったか否かを判定する。

無音声の音響フレームでは無秩序な音響信号が左右の各マイクロホン２１１，２１１の各入力に現れているため、音響信号のレベルの大小に係わらず相互相関値が相対的に小さくなるのに対し、有音声の音響フレームでは相互相関値が大きくなる。また、音源の方向に応じて左右マイクロホンの位相差が生じ、その位相差から音源の方向が推定できる。例えばＡＴＭの正面で利用者が発声すると、同位相の音響信号が左右の各マイクロホン２１１，２１１に入力されるため、相互相関値列を求めると、位相差が０の位置に大きなピーク値が得られる。

図５は、２つのマイクロホン２１１，２１１から入力された音響信号の相互相関値列の結果を説明する図であり、横軸に音響信号の到来方向を意味する２つの信号の位相差をとり、縦軸に相互相関値をとっている。横軸が０の位置は正面方向を示している。

図３に示す発声判定部４１５では、相互相関値列の最大値であるピークの高さが予め記憶部８１に記憶された所定値以上で、その幅が所定値以下を満たし、ピーク位置が正面方向に近いという条件が、予め定められた回数のフレームに渡って満たされた場合に、これを発声と判定している。図５の例では正面方向に大きなピークがあり、これが発声者であると推定できる。

次に、図２に示す出力部５１は、発声検出部４１が発声有りと判定した場合に、利用者に警告を出力する手段であり、例えばスピーカ等で構成される。

図２に示すテスト信号合成部６１は、切替部３１がテストモードに切り替えられているときに、マイク２１１から入力される音響信号に記憶部８１に記憶されているクリーン信号を加算したテスト信号を生成する。この合成処理は、記憶されているクリーン信号の信号長（例えば２秒おき）に応じて、マイク２１１から入力される音響信号をバッファリングし、バッファリングされた信号が所定量に達するごとに実行される。

図２に示す環境判定出力部７１には、切替部３１がテストモードに切り替えられているときに、発声検出部４１がテスト信号に対し発声検出処理を行った判定結果が入力される。環境判定出力部７１では、この発声検出部４１の判定結果、すなわち発声検出ができない状態であるか否かの判定に基づき、発声検出ができない場合には異常状態とし、遠隔の監視センタ（不図示）等に異常信号を通報する。また詳細は図示しないが、環境判定出力部７１の構成には、かかる通報のための通信Ｉ／Ｆが含まれる。

ここでテスト信号を用いて発声検出の有無を判定する意義について説明する。
本発声検出装置１１では、２つのマイクロホン２１１，２１１から入力した音響信号の相関の有無から発声の有無を検出している。入力された音響信号がノイズ成分だけの場合は信号レベルの大小に関らず２つのマイクロホン２１１，２１１からの音響信号の相互相関値は小さい。しかし、大きなレベルのノイズ成分に音声が含まれている場合は、相互相関値が小さいとは限らない。従って、装置の設置環境の判定を行う場合、ノイズレベルが大きいから発声検出処理が不可能と判定することは適切ではなく、予め用意したクリーン信号にマイクロホンから入力された雑音を含む音響信号を重畳してテスト信号を生成し、このテスト信号に対する２つの信号の相互相関の有無によって発声検出を行えるか否かを判定し、発声検出処理が可能な環境であるか否かの環境判定を行うことが適切である。

同様に、本実施形態の発声検出装置１１では、入力された音響信号に対し、前述した前処理部４１１におけるノイズ対策のように種々の雑音抑圧処理を適用することができるが、このような雑音抑圧処理がどの程度有効であるかも、テスト信号を用いた環境判定により確認できる。このような雑音抑圧処理は、適宜性能改善のためのバージョンアップがなされるのが通例であり、本実施形態の発声検出装置１１では、その効果を容易に判定できるので設定変更時の煩雑な作業が不要である。

図２に示す記憶部８１は、クリーン信号、発声検知のための閾値、各種プログラムなどを記憶する。クリーン信号は無響室等のノイズがほとんどない低雑音環境下で測定された固定信号長（前述のフレーム長よりも長い信号長、例えば１ｓ）の音声を含む信号である。音声としては固定信号長の中に、例えば「はい」「いいえ」等の発声区間とノイズがほとんどない無音区間を含む。テストモードにおいては、マイクロホン２１１から入力される音響信号とこのクリーン信号が合成されてテスト信号が循環的に生成される。

（３）発声検出装置１１の作用
次に図４のフローチャートを用いて、本発声検出装置１１の動作を説明する。
本発声検出装置１１を作動開始させると、まずＳ０１でテストモードか否かが判定される。このモード判定では、上述のように人感センサ等が人を検知している場合は、人感センサ等からの検知信号を用いて切替部３１を切り替えて本装置１を識別モードに設定する。人感センサ等が人を検知していない場合は、切替部３１により本装置１をテストモードに設定する。

（識別モードに設定されている場合）
Ｓ０１で識別モードであると判定されると（Ｓ０１、ＹＥＳ）、Ｓ０２でマイク２１１から入力される信号に対し、発声検出処理が実行される。

Ｓ０３ではＳ０２での発声検出処理結果に基づき発声の有無の判定が行われる。この発声の有無の判定は、例えばＳ０２で発声検出されると即座に発声有りとしてもよいし、Ｓ０２の発声検出処理の結果を蓄積して複数回連続して発声検出がなされたときに発声ありと判定するようにしてもよい。

Ｓ０４では、Ｓ０３で発声者有り（ＹＥＳ）と判定された場合に、スピーカ等の出力部５１から警告メッセージ（例えば「振込め詐欺にご注意ください」など）を店内に流れるように報知し、Ｓ０２へ戻る。

（テストモードと判定された場合）
Ｓ０２でテストモードと判定された場合（Ｓ０１、ＮＯ）、Ｓ０６でテスト信号の生成処理が行われる。このテスト信号は、マイク２１１から入力された音響信号に、記憶部８１に記憶されたクリーン信号が合成されて生成される。

次にＳ０７で、Ｓ０６で生成したテスト信号を用いて発声検出部４１で発声検出処理が行われる。この発声検出部４１の処理は、Ｓ０２の処理と同じである。

Ｓ０８では、Ｓ０７の発声検出処理の結果より、設置環境がノイズの影響により発声検出処理を十分な精度で行なうことが不可能な異常状態であるかどうかが判定される。この判定処理は、Ｓ０７の発声検出処理により１回でも発声検出できない場合に異常状態としてもよいし、発声検出処理の結果を蓄積し、複数回にわたって発声検出できない場合に異常状態となるようにしてもよい。

Ｓ０９では、Ｓ０８で異常状態と判定された場合（ＹＥＳ）に遠隔の監視センタ等に通信回線を介して異常信号を通報する。

以上、本発明に係る第１実施形態の識別装置１を発声検出に適用した一例である第２実施形態の発声検出装置１１について説明した。上述の例では、２つのマイクロホン２１１，２１１を用いて、２つのマイクロホン２１１，２１１からの音響信号の相互相関関数を求め、正面方向に所定レベル以上の信号が入力された場合に発声者がいると判定したが、マイクロホンから入力される音響信号に対し、音声認識処理を実行し、特定のワードが含まれているか否かに応じて発声者の有無を検出するようにしてもよい。以下に、音声認識処理を含むようにした場合の変更点について説明する。

マイクロホン２１１：上述の例ではマイクロホン２１１を２チャンネルとしたが、音声認識処理を行う場合は１チャンネルでも実行可能である。もちろん２つのマイクロホンを用いて正面方向の音響信号だけ処理するようにしてもよい。

記憶部８１：記憶部８１には、特定のワード（例えば「はい」「ええ」など）のクリーン信号の音声モデルと、当該特定ワードに対応する正解認識データ（テキストもしくはシンボル）が関連づけて記憶される。

発声検出部４１：発声判定部４１５は、２つのマイクロホン２１１から入力された音響信号の相互相関値列により正面方向に相関がありと判定された場合に２つの音響信号のいずれかについて、フレーム切出しされた音響信号に特定のワードが含まれているか否かを照合する照合部を有する。ここで特定ワードとは、例えば「はい」「いいえ」などＣＤ／ＡＴＭの操作指示を受けた場合に、操作者が回答するために単発的に発声する可能性の高い語である。尚、かかる特定ワードは、予め記憶部８１に特定ワードの音声特徴を音声モデルとして記憶している。そして、抽出したフレームにある音声信号の特徴と、記憶部８１に記憶されている特定ワードの音声特徴とを照合し、判定部４１５においてフレームに特定語が含まれているか否かを解析する。

出力部５１：発声検出部４１の出力結果より特定ワードが含まれていると判定された場合に、利用者に警告を出力する。出力部５１は上述の例同様、例えばスピーカ等で構成される。

環境判定出力部７１：環境判定出力部７１には、発声検出部４１の音声認識結果が正しく行われたか否かの結果が入力される。環境判定出力部７１では、過去一定期間における平均的な正解率を計算する。そして、この正解率を閾値判定して、閾値を下回るようであれば、システムが正常動作しない状態と判断して異常出力を行う。

このように本発声検出装置１１では、テストモードにおいてノイズ信号を含む入力信号にクリーン信号を合成したテスト信号に対し、音声認識処理が可能どうかを判定する。この音声認識処理を行うにあたっては、テスト信号に公知の雑音抑圧技術を適用した上で判定することができる。これにより、ノイズレベルが高い環境においても実際に認識処理不能な状態である場合に異常と判定することで、従来のように単にノイズレベルが高い場合に認識不能と判定するようなシステムよりも正確な判定を行うことができる。

尚、上述の例では、振込め詐欺防止を目的として発声検出システムを構築するために音声認識技術を利用した例について説明したが、同一の構成にて他の音声認識システムについても適用できることはいうまでもない。また特定の個人を識別するような音声個人識別装置にも適用可能である。

３．その他の適用例に係る他の実施形態
（異常音検知器に対する適用）
プラントなどで、特定の異常音を検知したいニーズがある。無雑音下でこの異常音を収集し、これに実環境ノイズを合成してテスト信号を生成し、このテスト信号を識別して異常音を正しく検知できるかどうかで、当該環境内で当該装置が正しく作動するか否かを判断できる。

（近赤外センサーなどのパッシブ型センサ）
使用するセンサーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、近赤外センサーで人間を検知したい場合であれば、近赤外線を出す物体を周囲に置かない、もしくはそのような物体をシールドするなどして、人間がセンサーの検知範囲を通過した時の測定信号を収集する。この測定信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。

（レーダー、ソナーに対する適用）
使用するレーダー、ソナーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、レーダーで人間を検知したい場合であれば、無雑音環境内で人間がセンサー監視領域を通過した時の測定信号を収集する。この信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。

（画像センサーに対する適用）
画像による検知を行なう侵入検知センサーにおいて、雨や雪が激しくなった場合、正常に侵入検知ができないことがあり、この判断を正確に行いたいという要求がある。これを実現するために以下の処理を行う。事前に雨や雪の影響のない状態で人が侵入した画像シーケンス（テストシーケンス）を録画する。

リアルタイムで得られた画像から雨・雪の画像情報を抽出し、これをテストシーケンスに合成することで、当該気象条件でのテストシーケンスを生成する。このテストシーケンスに基づいて正しく侵入検知が行なえるか否かを一定の時間繰り返し行い、その正解率で、当該装置が正常動作するかどうかを判断する。

画像システムにおいては、センサーの入出力に線形性が成り立たないので、テスト画像の生成には同期加算法が使えない。そのためテストシーケンスに雨・雪の画像情報を合成するためには、まず背景差分値で一定以上の輝度値を持った領域を雨粒領域とし、この領域での輝度値でテストシーケンスの画像を上書き（置き換え）する手法が採用できる。

以上説明したように、本発明の実施形態に係る識別装置１乃至これを発声の検出に応用した発声検出装置１１によれば、装置が実際の設置環境内で人間の発声による音声等の識別対象を適切に検出できるか否かを、識別対象のみの理想的な信号と当該環境におけるノイズを合成して得たテスト信号を実際に識別した結果から事前に判定できるので、設置環境ごとに装置の検出性能を調整する等の煩雑な設定が不要となり、設置環境におけるノイズレベルの変動に対して適切な対応が可能であるという効果が得られる。

１…識別装置
２…入力部
３，３１…切替部
４…識別部
５，５１…出力部
６，６１…テスト信号合成部
７，７１…環境判定出力部
１１…識別装置としての発声検出装置２１１…入力部が有するマイクロホン
４１…識別部としての発声検出部
４１４…相互相関計算部
４１５…発声判定部

Claims

音響信号を入力するマイクロホンを備えた入力部と、
低雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
人を検知する人感センサーと、
前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
を含む発声検出装置であって、
前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴とする発声検出装置。
前記入力部は、音響信号を入力する２つのマイクロホンを含み、
前記発声検出部は、前記２つのマイクロホンから入力した前記２つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含む請求項１の発声検出装置。
前記発声判定部は、前記２つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有する請求項２の発声検出装置。