JP5439221B2 - 発声検出装置 - Google Patents

発声検出装置 Download PDF

Info

Publication number
JP5439221B2
JP5439221B2 JP2010036292A JP2010036292A JP5439221B2 JP 5439221 B2 JP5439221 B2 JP 5439221B2 JP 2010036292 A JP2010036292 A JP 2010036292A JP 2010036292 A JP2010036292 A JP 2010036292A JP 5439221 B2 JP5439221 B2 JP 5439221B2
Authority
JP
Japan
Prior art keywords
signal
unit
identification
utterance
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010036292A
Other languages
English (en)
Other versions
JP2011170266A (ja
Inventor
和義 福士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2010036292A priority Critical patent/JP5439221B2/ja
Publication of JP2011170266A publication Critical patent/JP2011170266A/ja
Application granted granted Critical
Publication of JP5439221B2 publication Critical patent/JP5439221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、高ノイズ環境下において音声等の識別対象信号を十分な精度で検出できるか否かを判定することができる識別装置等に関するものである。
従来、高ノイズ環境下においてマイクロホンから入力される音響信号のノイズ成分を抑圧して音声認識を精度よく行うためのノイズ抑圧技術が提案されている。しかし、ノイズ抑圧手段がどんなに高性能になろうとも、ノイズレベルが高くなるにつれて所望のノイズ抑圧性能を得ることができなくなり、それに応じてシステムの性能は劣化し、やがてシステムが正常動作できなくなる臨界点に達する。従って、ノイズ環境下にある検知対象を認識乃至検知するためのシステムにおいては、ノイズに対する最良の抑圧手段を講じるとともに、さらにノイズレベルがその抑圧手段をもってしても対応できない段階に到達した場合には、その事実を適切な形でユーザーに通知する手段を持つことが望ましい。
特許文献1には、車両内等に設置され、運転者の音声指令を音声認識させることにより車両機器をハンズフリーで動作させることを目的として、マイクから入力した音声が所定のノイズレベルを超える場合には音声認識処理を禁止し、かつ音声認識できないことを知らせるようにした車両用音声負荷駆動装置が記載されている。
また、特許文献2には、周波数ごとに閾値を設定し、発話がない場合のノイズ周波数成分がいずれかの周波数で閾値を超えると音声認識を実行しないようにした音声認識装置が記載されている。
特開昭57−212495号公報 特開2003−29785号公報
特許文献1に記載の発明によれば、ノイズレベルが所定値以上になると、認識処理を中止してしまうため、ノイズの抑圧性能によっては、認識可能である場合があるにも係わらず異常としてしまう場合があるという問題がある。例えば、音声認識の場合、認識処理は一般に周波数軸上でパラメータを用いて行われる。そのため、時間的に異なる2つのノイズが時間軸について求めたノイズパワーにおいて同一値を示したとしても、両ノイズの周波数的な分布が異なれば、認識処理が可能か否かの判断結果は異なる可能性があり、一概にノイズパワーのみから認識処理を中止することは適切ではない。
特許文献2に記載の発明のように、周波数成分ごとに閾値を設定することも考えられるが、しかし周波数軸上でノイズを評価するにためには、どのようなノイズが認識に影響があるかを事前にシミュレートする必要があり、実際にはそのようなシミュレーションには多くの手間が必要であるため現実的ではない。
本発明は、以上のような課題を解決するためになされたものであり、設置環境ごとのわずらわしい設定をする必要がなく、ノイズ環境の変動に適応して設置環境下で目的とする識別対象を識別できる所期の性能を十分に発揮できるかどうかの判定を容易に行うことができ、発声検出装置、音声認識装置などに適用可能な識別装置を提供することを目的としている。
上記目的を達成するため、本発明に係る発声検出装置は、
音響信号を入力するマイクロホンを備えた入力部と、
雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
人を検知する人感センサーと、
前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
を含む発声検出装置であって、
前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴としている。
また上記発声検出装置において、
前記入力部は、音響信号を入力する2つのマイクロホンを含み、
前記発声検出部は、前記2つのマイクロホンから入力した前記2つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含むようにすることができる。
さらに本発明の発声検出装置において、
前記発声判定部は、前記2つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有することができる。
また本発明に係る発声検出装置によれば、テストモードにおいて、テスト信号から発声データを検出できないと発声検出部が判定した場合には、発声検出装置が異常状態にあることを環境判定出力部が報知するので、各設置環境に対応した煩わしい設定をすることなく所望の性能が発揮できるか否かを予め判定して知ることができ、ノイズ環境の変動にも容易に適応できるという効果が得られる。また、人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替えることができる。
また本発声検出装置による効果において、入力部の2つのマイクロホンから入力した2つの識別対象信号の相互相関値列を相互相関計算部で計算し、その計算結果の出力を発声判定部が評価することで、指定した方向から発声があったか否かを正確に判定することができる。
さらに本発声検出装置による効果において、発声判定部で2つの識別対象信号に相関があると判定された場合に、2つの識別対象信号のいずれかについて特定の音声の内容が含まれているか否かを判定する音声認識処理を備えることで、特定のワードが検出されるか否かに応じて発声者が存在するか否かを判定することができる。
以上説明したように、本発明に係る識別装置の発明又はこれを発声の検出に特化させた発声検出装置乃至音声認識装置用の発明によれば、設置した環境下で所望の性能を発揮できるかどうかを、当該環境におけるノイズを反映したテスト信号の識別処理結果に基づいて的確に判定できるので、設置環境ごとのわずらわしい設定が不要であり、ノイズ環境の変動にも適応が可能であるという効果が得られる。
第1実施形態の識別装置の構成を示すブロック図である。 第2実施形態の発声検出装置の構成を示すブロック図である。 第2実施形態の発声検出装置の発声検出部の内部構造を示すブロック図である。 第2実施形態の発声検出装置の動作を示す流れ図である。 第2実施形態の発声検出装置における2つの音響信号の相互相関値列の算出結果を示す図である。
1.第1実施形態(図1)
(1)識別装置の概要
まず、はじめに本発明及び本発明の第1実施形態に係る識別装置の概要を説明し、続いて同実施形態に係る装置の具体的な構成例について説明する。
本発明は、外部環境内に存在する種々の識別対象や各対象に固有の挙動を、物理量の変動に基づき検出して認識し、以てこれらを分類し若しくはこれらの存在の有無を判定する識別装置乃至認識装置に適用することが可能である。
例えば、本発明は、人間の発する音声の発声内容を分析する音声認識、物体の存在の有無を解析するレーダー/ソナー/センサー技術、人物の行動や移動軌跡を画像上で解析する画像監視技術などに適用することができる。
これらの技術に共通の問題は、外部環境内におけるノイズの存在の有無又はその大小が外部環境内で識別対象をセンシングする際のセンシング原理に関係しており、識別対象をセンシングする際のパフォーマンスが係るノイズによって大きく左右される点にある。例えば、音声認識では音波を扱うため、人の声以外の音波は認識を阻害するノイズと考えることができる。あるいは、ノイズとは、特定の騒音源からの音波や、マイクロホンの出力信号に混入する電気的な雑信号もノイズと考えることができる。その他の技術分野でも同様に識別装置の性能を劣化させるノイズが存在し、一般的な傾向としてノイズレベルが低ければ装置は高い性能を発揮し、ノイズレベルが高くなれば性能が劣化すると言える。
そのため、従来の識別装置の類においては、ノイズの影響を減じる様々な手立てが講じられている。一方、そのノイズ抑圧手段がどんなに高性能になろうとも、ノイズレベルが高くなるにつれてシステムの性能は劣化し、やがてシステムが正常動作できなくなる臨界点に到達するのも事実である。
ゆえに、識別装置を含むシステムにおいては、ノイズに対する最良の抑圧手段を講じ、その抑圧手段をもってしても対応できないノイズレベルに遭遇した際には、それを適切な形で報知する手段を持つのが望ましい形態と言える。
(2)識別装置の構成
本実施形態では、識別システムが動作可能な状態であるか否かを、簡易な方法にて、さらに多くの種類のシステムに適用可能な形態で実現することを目的とする。より具体的には、システムのトータルな性能に応じた動作不能状態を正確に判定する仕組みを提供するものである。
図1は、第1実施形態に係る識別装置1のブロック図である。
システムに入力信号を入力する入力部2は、外部環境内で生起している識別対象としての物理現象(例えば人間が発する発声乃至そのデータ)をとらえるために、当該物理現象を記述する物理量のデータをデジタル信号として収集する手段である。例えばマイクロホン、カメラほか他のセンシングデバイス及び増幅器などから構成される。
記憶部8は、少なくとも識別対象を含むモデル信号を記憶している。本実施形態では、その識別技術を適用しようとしている識別対象に固有のモデル信号群としてクリーン信号群を事前に用意し、これらを記憶部8に格納する。クリーン信号とはノイズが少ない状態で収録した少なくとも識別対象を含む信号であり、かつその識別結果が既知の信号である。条件に応じて複数のクリーン信号を記憶しておくようにしてもよい。
テスト信号合成部6は、入力部2から入力され、後述する切替部3を経て送られた入力信号と、記憶部8から送られたモデル信号としてのクリーン信号とを合成し、本装置の評価に使用するテスト信号を生成する手段である。
切替部3は、入力部から入力された入力信号を識別対象信号として後述する識別部4に送る識別モードと、テスト信号合成部6で生成された前記テスト信号を識別対象信号として後述する識別部4に送るテストモードとを切り替える手段である。切替部3において、テストモードと識別モードの切り替えは、他のセンサが出力する信号や、スイッチ信号、タイマー制御による信号等を用いて行なうことができる。
識別部4は、識別モード又はテストモードにおいて、識別対象信号から識別対象が識別可能か否かを判定する手段である。具体的には、識別モードにおいて、入力部2を経て入力された入力信号の中から識別対象が識別できるか否かを判定し、又はテストモードにおいて、テスト信号合成部6から送られたテスト信号の中から識別対象が識別できるか否かを判定し、それぞれのモードに応じた出力先に判定結果を出力する。
識別装置1の後段にある環境判定出力部7は、識別部4がテストモードにおいてテスト信号から識別対象を識別できず、システムが正常動作する環境にないと判定した場合に、本識別装置1が正常に動作しない異常状態にあることを外部に報知するための手段である。報知手段としては、ディスプレイパネル等の表示手段、スピーカー等の音声報知手段、遠隔地へ情報を送る通信手段等、装置のユーザーに前記異常状態を知らしめるものであればいかなる手段であってもよい。また、識別部4がテストモードにおいてテスト信号から識別対象を識別でき、システムが正常動作する環境にあると判定した場合には、環境判定出力部7は上述したようなNG時の報知動作は行なわないことはもちろんであるが、システムが正常動作可能な環境内にあることを報知するOK時の報知動作を行なうようにしてもよい。
識別装置1の後段にある出力部5は、識別モードにおいて識別部4が識別対象信号から識別対象を識別した場合に、その旨を外部に出力して報知するための手段である。
図1に示す以上の構成において、信号等の流れを示す上側のパスは、上述した識別モードにおいて入力部2からの入力に対して識別を行う識別パスを表している。下側のパスが本実施形態の特徴であるテストパスであり、上述したテストモードにおいて本装置1が正常動作を行なえる外部環境内にあるか否かをテストする際の信号等の流れを示す。なお、上下の両パス中に介在する識別部4は、前述したように識別モード又はテストモードのいずれのモードにおいても、識別対象信号から識別対象が識別可能か否かを判定する点において同一の動作を行うモジュールとして機能することとなる。識別部4は、モードに応じて異なる出力先に識別結果を出力する。即ち、識別部4は、テストモードにおいては環境判定部7に識別結果を出力し、識別モードにおいては出力部5に識別結果を出力するように制御を行なう。
(3)識別装置1の作用
まず切替部3により本装置1のモードがテストモードになっている場合の動作を説明する。
入力部2からの入力があると、記憶部8よりクリーン信号を取り出し、入力信号との合成信号であるテスト信号をテスト信号合成部6で生成する。クリーン信号が複数記憶されている場合は、いずれのクリーン信号を選択するかの選択規則はランダムでもよいし、何らかの状況判断により、現在の状況に近い信号を選ぶなどしてもよい。
テスト信号合成部6において入力信号とクリーン信号からテスト信号を生成する手法は、識別対象とする物理現象が相違し、またこの物理現象を検出するセンサーの原理乃至種類が相違すれば、識別装置1ごとに異なるものとなる。例えば、識別装置1が音声認識装置である場合には、入力信号とクリーン信号の同期加算でテスト信号を生成することができる。すなわちマイクロホンや多くのセンサーでは、入出力に線形性が成り立つので、そのような場合には、テスト信号の生成は同期加算法が使えるのである。しかしながら、識別装置1が画像監視装置のように線形性の前提が成り立たない場合については、後述する実施形態にて述べるように、上述した音声認識装置の場合とは異なる手法を採用する。
識別部4ではテスト信号を処理し、テスト信号を処理することによってテスト信号に含まれている識別対象が識別可能か否かを判定して判定結果を出力する。
例えば本実施形態の識別装置1が音声認識装置である場合には、クリーンな音声信号と実際の環境のノイズを含む信号を合成したものをテスト信号とし、このテスト信号を識別部4で処理し、その識別結果が予め記憶部8に記憶してある正解データと比較して一致しないことが確認されれば、テスト信号から識別対象が正しく認識できなかったものと判断し、本装置1が正常動作しない状態であるとの判定を行なう。また、本実施形態の識別装置1が侵入者を検出する画像監視装置である場合には、人物が充分に識別可能である鮮明な画像をクリーン画像とし、これに実際の環境におけるノイズである例えば、雨、雪など降っている状況の画像を合成してテスト信号とし、このテスト信号を識別部4で処理し、テスト信号から識別対象である人物が検出できるか否かを判断し、検出不可能な状態であれば、本装置1が正常動作しない状態であるとの判定を行なう。
環境判定出力部7では、前述した識別部4の判定結果に基づき、識別装置1が置かれている外部環境が識別装置1にとって正常動作が可能な環境であるか否か、換言すれば識別装置1が本来識別対象としているものを識別可能な状態にあるかどうかについての判定結果を外部に出力する。
以上は本装置1がテストモードにある場合の動作説明であったが、切替部3が作動し、識別部4における信号等の流れが上側のパスに切り替えられた場合、入力部2から入力された入力信号は識別部4で処理され、その判定結果に基づいた報知情報を出力部5が外部に出力する。
2.第2実施形態(図2〜図5)
(1)発声検出装置の概要
次に、前述した第1実施形態に係る識別装置1を、さらに具体的な事例に適用した一例として、人間が発声しているか否かを検出する発声検出装置11について説明する。
この発声検出装置11は、具体的には金融機関のCD/ATMの近傍に設置され、装置の前で利用者が装置を操作しながら携帯電話により会話を行っていることを検出するものであり、近年増加しつつある振込め詐欺が金融機関のCD/ATMの前で進行していることを検知し、利用者に注意を促す等して被害を未然に防止することを目的としている。
振り込め詐欺では、犯罪者が被害者に携帯電話にてCD/ATMの操作を誘導し、被害者のお金を加害者の口座に振り込ませる手口を使うことがあり、振り込め詐欺の被害を受けている可能性のある操作者は、携帯電話を使用して電話口の相手(加害者)と会話しながら、操作をすることが多い。
本発声検出装置11では、金融機関のCD/ATMの操作者が会話をしていることを検出するとスピーカ等から警告を発したり、遠隔の監視センタに通信回線を介して通報する。具体的には、CD/ATMに設置したマイクロホンからの音響信号を解析することで、CD/ATMの前で操作者が発声した音声信号を検知する。
このようなCD/ATMが設置される環境は、CD/ATMの作動音や設置ブース内外の周辺ノイズが大きい。またノイズとして周辺の設置機器が発生する電気的ノイズがマイクロホンの出力信号に混入することや、マイクロホンの機器異常によりマイクロホンの出力信号にノイズが発生することがある。このような環境で精度よく音声を検出できるか否かを把握する必要がある。本発声検出装置11は、設置環境が発声を検出可能な環境であるか否かを判定し、ノイズの影響により発声が検出不能であるとき、この状況を異常として警告等を行うものである。
(2)発声検出装置11の構成
図2を用いて、本発声検出装置11の構成について説明する。図2の発声検出装置11は、CD/ATMの正面で音響信号の入力があり、これに人間の発声による音声が含まれていることを検出すると警報を出力する。
図2に示すように、発声検出装置11は、第1実施形態の入力部2に相当する2つのマイクロホン211と、増幅器212と、A/Dコンバータ213と、切替部31と、第1実施形態の識別部4に相当する発声検出部41と、出力部51と、テスト信号合成部61と、環境判定出力部71と、記憶部81から構成されている。
図2に示すマイクロホン211は、全方向からの音声を集音するのが望ましいため、無指向性のものを使用している。本発声検出装置11においてはマイクロホン211を2つ用いる構成としている。これは後述のように2つのマイクロホンから取得した音響信号の相互相関値列により、マイクロホンに入力される音響信号が有意な信号であるか否かと、いずれの方向からの信号であるかを判定するためである。マイクロホン211,211同士は、所定距離の間隔を空けて設置される(例えば50cm)。この所定距離は、サンプリング周期や話者との想定距離範囲などに応じてATMの正面の操作者が発声したことを特定できるような値に決定される。尚、2つのマイクロホン211,211の間隔は、音声の発声方向を精度よく検出するために適当な距離であればよく、前記距離例は一例にすぎず、本実施形態に係る発声検出装置11に制限を課するものではない。また、2つのマイクロホン211,211は、ほぼ同程度の感度、特性を持ったものを使用するが、特別に高品質なものを用意する必要はない。
図2に示す増幅器212は、マイクロホン211により集音された音響信号を増幅するアンプである。この増幅率はA/Dコンバータ213の入力電圧に応じて適宜設定される。A/Dコンバータ213は増幅されたアナログ信号である音響信号を2チャネル同時に所定サンプリング周波数でサンプリングして離散時間信号(デジタル信号)に変換する。増幅器212、A/Dコンバータ213は、いずれも公知のデバイスであり、市販品を使用することができる。
図2に示す切替部31は、第1実施形態の切替部3と同様にテストモードと識別モードを切り替える手段である。この切替部31は、例えばCD/ATMブース内の天井や壁等に人感センサーを設置し、この人感センサーからの信号の状態によって切り替えるようにしてもよい。すなわち人感センサーからの信号によって人がいないと判断されればテストモードに切り替えるし、人がいると判断されれば識別モードに切り替える。あるいは、1人用のCD/ATMブースであれば、ドアの開閉を検知してモードを切り替えるようにしてもよい。また前述のように手動のスイッチ、タイマー等によりモードを切り替えるようにしてもよい。
図2に示す発声検出部41は、識別モード又はテストモードにおいて識別対象信号から人間の発声による音声が検出可能か否か判定する。図2に示すように、識別モードの場合は、マイクロホン211から集音された音響信号が発声検出部41に入力される。またテストモードの場合は、マイクロホン211から集音された音響信号が切替部31を経てテスト信号合成部に送られ、記憶部61に記憶されているクリーン信号がテスト信号合成部61に送られ、音響信号にクリーン信号を重畳したテスト信号がテスト信号合成部で生成され、このテスト信号が発声検出部41に入力される。識別モード、テストモードいずれの場合でも発声検出部41での処理は同じであり、入力された識別対象信号から識別対象である音声が検出されたか否かが判定される。
図3は上述した発声検出部41の構成をさらに詳しく図示している。図3に示すように、発声検出部41は、前処理部411と、フレーム切出部412と、白色化処理部413と、相互相関計算部414と、発声判定部415から構成される。
図3に示す前処理部411は、音声信号の処理に不要な周波数帯域、例えば70Hz以下の周波数成分をカットする低域カットフィルタ処理と、信号のダイナミックレンジを圧縮して数値演算精度を高める高域強調処理処理と、ノイズ抑圧処理の各機能を備えている。これらはいずれも必須の処理乃至機能ではない。また、左右一対のマイクロホン211,211に対応する左右の両チャネルで同じ構成にする必要があるが、低域カットフィルタの機能を実現する構成に関しては、FIR(Finite Impulse Response)型、又はIIR(Infinite Impulse Response)型等に制限する必要は無い。また、ノイズ抑圧処理としてはスペクトルサブトラクション等の既知の手法が適用できる。さらに後述する相互相関計算部414の前段に、2つの信号を利用してノイズ抑制を行なう手段を設けるようにしてもよい。
図3に示すフレーム切出部412は、音響信号から固定長のフレーム(例えば30msとする)を所定のシフト幅(例えば20ms)で切り出す。フレームを切り出す際には、ハミング窓を窓関数として音響信号に乗じて切り出す。なお、窓関数は、ハミング窓に限られるものではなく、ハニング窓等を用いてもよい。
図3に示す白色化処理部413は、切出されたフレームの周波数特性をフラットにする。このフラットにする処理、すなわち白色化処理の意図は、後述の相互相関計算部414において、音韻(「あ」、「い」等)の違いによる相互相関値列の形状変動を少なくすることにある。白色化処理部413は、フレーム切出部412にて切り出されたフレームの音響信号からLPCケプストラム係数を算出する。そして、算出したLPCケプストラム係数の周波数応答を計算して、スペクトル包絡を求める。まず、フレーム切出部413にて切り出されたフレームの音響信号に対して、FFT(Fast Fourier Transform)処理を行う。その後、FFT処理の結果に対してスペクトル包絡にて除算することで、音響信号を白色化する。白色化処理はこれに限られるものでなく、時間軸上でのフィルタ処理など公知の白色化処理を適用が可能であることは言うまでもない
図3に示す相互相関計算部414では、白色化処理部413からの出力を受けて、次の数1に示す式(1)により、左右の音響信号同士のクロススペクトルを計算し、これを逆FFTすることにより相互相関値列を算出し、発声判定部415へ出力する。
Figure 0005439221
式1において、Y(k,t)は周波数番号k、フレーム番号tでのクロススペクトルで、相互相関値列のフーリエ変換に等しい。X1 (k,t)は左チャンネルのFFT結果、X2 (k,t)は右チャンネルのFFT結果である。また*は複素数の共役を表している。かかるY(k,t)に対して、逆フーリエ変換を行うことで、フレームtにおける相互相関値列が得られる。
図3に示す発声判定部415では、相互相関計算部414にて算出した相互相関値列のピークの高さ、ピークの位置(方向)、ピークの幅、あるいはピークの時間的な連続性を評価し、指定した方向から発声があったか否かを判定する。
無音声の音響フレームでは無秩序な音響信号が左右の各マイクロホン211,211の各入力に現れているため、音響信号のレベルの大小に係わらず相互相関値が相対的に小さくなるのに対し、有音声の音響フレームでは相互相関値が大きくなる。また、音源の方向に応じて左右マイクロホンの位相差が生じ、その位相差から音源の方向が推定できる。例えばATMの正面で利用者が発声すると、同位相の音響信号が左右の各マイクロホン211,211に入力されるため、相互相関値列を求めると、位相差が0の位置に大きなピーク値が得られる。
図5は、2つのマイクロホン211,211から入力された音響信号の相互相関値列の結果を説明する図であり、横軸に音響信号の到来方向を意味する2つの信号の位相差をとり、縦軸に相互相関値をとっている。横軸が0の位置は正面方向を示している。
図3に示す発声判定部415では、相互相関値列の最大値であるピークの高さが予め記憶部81に記憶された所定値以上で、その幅が所定値以下を満たし、ピーク位置が正面方向に近いという条件が、予め定められた回数のフレームに渡って満たされた場合に、これを発声と判定している。図5の例では正面方向に大きなピークがあり、これが発声者であると推定できる。
次に、図2に示す出力部51は、発声検出部41が発声有りと判定した場合に、利用者に警告を出力する手段であり、例えばスピーカ等で構成される。
図2に示すテスト信号合成部61は、切替部31がテストモードに切り替えられているときに、マイク211から入力される音響信号に記憶部81に記憶されているクリーン信号を加算したテスト信号を生成する。この合成処理は、記憶されているクリーン信号の信号長(例えば2秒おき)に応じて、マイク211から入力される音響信号をバッファリングし、バッファリングされた信号が所定量に達するごとに実行される。
図2に示す環境判定出力部71には、切替部31がテストモードに切り替えられているときに、発声検出部41がテスト信号に対し発声検出処理を行った判定結果が入力される。環境判定出力部71では、この発声検出部41の判定結果、すなわち発声検出ができない状態であるか否かの判定に基づき、発声検出ができない場合には異常状態とし、遠隔の監視センタ(不図示)等に異常信号を通報する。また詳細は図示しないが、環境判定出力部71の構成には、かかる通報のための通信I/Fが含まれる。
ここでテスト信号を用いて発声検出の有無を判定する意義について説明する。
本発声検出装置11では、2つのマイクロホン211,211から入力した音響信号の相関の有無から発声の有無を検出している。入力された音響信号がノイズ成分だけの場合は信号レベルの大小に関らず2つのマイクロホン211,211からの音響信号の相互相関値は小さい。しかし、大きなレベルのノイズ成分に音声が含まれている場合は、相互相関値が小さいとは限らない。従って、装置の設置環境の判定を行う場合、ノイズレベルが大きいから発声検出処理が不可能と判定することは適切ではなく、予め用意したクリーン信号にマイクロホンから入力された雑音を含む音響信号を重畳してテスト信号を生成し、このテスト信号に対する2つの信号の相互相関の有無によって発声検出を行えるか否かを判定し、発声検出処理が可能な環境であるか否かの環境判定を行うことが適切である。
同様に、本実施形態の発声検出装置11では、入力された音響信号に対し、前述した前処理部411におけるノイズ対策のように種々の雑音抑圧処理を適用することができるが、このような雑音抑圧処理がどの程度有効であるかも、テスト信号を用いた環境判定により確認できる。このような雑音抑圧処理は、適宜性能改善のためのバージョンアップがなされるのが通例であり、本実施形態の発声検出装置11では、その効果を容易に判定できるので設定変更時の煩雑な作業が不要である。
図2に示す記憶部81は、クリーン信号、発声検知のための閾値、各種プログラムなどを記憶する。クリーン信号は無響室等のノイズがほとんどない低雑音環境下で測定された固定信号長(前述のフレーム長よりも長い信号長、例えば1s)の音声を含む信号である。音声としては固定信号長の中に、例えば「はい」「いいえ」等の発声区間とノイズがほとんどない無音区間を含む。テストモードにおいては、マイクロホン211から入力される音響信号とこのクリーン信号が合成されてテスト信号が循環的に生成される。
(3)発声検出装置11の作用
次に図4のフローチャートを用いて、本発声検出装置11の動作を説明する。
本発声検出装置11を作動開始させると、まずS01でテストモードか否かが判定される。このモード判定では、上述のように人感センサ等が人を検知している場合は、人感センサ等からの検知信号を用いて切替部31を切り替えて本装置1を識別モードに設定する。人感センサ等が人を検知していない場合は、切替部31により本装置1をテストモードに設定する。
(識別モードに設定されている場合)
S01で識別モードであると判定されると(S01、YES)、S02でマイク211から入力される信号に対し、発声検出処理が実行される。
S03ではS02での発声検出処理結果に基づき発声の有無の判定が行われる。この発声の有無の判定は、例えばS02で発声検出されると即座に発声有りとしてもよいし、S02の発声検出処理の結果を蓄積して複数回連続して発声検出がなされたときに発声ありと判定するようにしてもよい。
S04では、S03で発声者有り(YES)と判定された場合に、スピーカ等の出力部51から警告メッセージ(例えば「振込め詐欺にご注意ください」など)を店内に流れるように報知し、S02へ戻る。
(テストモードと判定された場合)
S02でテストモードと判定された場合(S01、NO)、S06でテスト信号の生成処理が行われる。このテスト信号は、マイク211から入力された音響信号に、記憶部81に記憶されたクリーン信号が合成されて生成される。
次にS07で、S06で生成したテスト信号を用いて発声検出部41で発声検出処理が行われる。この発声検出部41の処理は、S02の処理と同じである。
S08では、S07の発声検出処理の結果より、設置環境がノイズの影響により発声検出処理を十分な精度で行なうことが不可能な異常状態であるかどうかが判定される。この判定処理は、S07の発声検出処理により1回でも発声検出できない場合に異常状態としてもよいし、発声検出処理の結果を蓄積し、複数回にわたって発声検出できない場合に異常状態となるようにしてもよい。
S09では、S08で異常状態と判定された場合(YES)に遠隔の監視センタ等に通信回線を介して異常信号を通報する。
以上、本発明に係る第1実施形態の識別装置1を発声検出に適用した一例である第2実施形態の発声検出装置11について説明した。上述の例では、2つのマイクロホン211,211を用いて、2つのマイクロホン211,211からの音響信号の相互相関関数を求め、正面方向に所定レベル以上の信号が入力された場合に発声者がいると判定したが、マイクロホンから入力される音響信号に対し、音声認識処理を実行し、特定のワードが含まれているか否かに応じて発声者の有無を検出するようにしてもよい。以下に、音声認識処理を含むようにした場合の変更点について説明する。
マイクロホン211:上述の例ではマイクロホン211を2チャンネルとしたが、音声認識処理を行う場合は1チャンネルでも実行可能である。もちろん2つのマイクロホンを用いて正面方向の音響信号だけ処理するようにしてもよい。
記憶部81:記憶部81には、特定のワード(例えば「はい」「ええ」など)のクリーン信号の音声モデルと、当該特定ワードに対応する正解認識データ(テキストもしくはシンボル)が関連づけて記憶される。
発声検出部41:発声判定部415は、2つのマイクロホン211から入力された音響信号の相互相関値列により正面方向に相関がありと判定された場合に2つの音響信号のいずれかについて、フレーム切出しされた音響信号に特定のワードが含まれているか否かを照合する照合部を有する。ここで特定ワードとは、例えば「はい」「いいえ」などCD/ATMの操作指示を受けた場合に、操作者が回答するために単発的に発声する可能性の高い語である。尚、かかる特定ワードは、予め記憶部81に特定ワードの音声特徴を音声モデルとして記憶している。そして、抽出したフレームにある音声信号の特徴と、記憶部81に記憶されている特定ワードの音声特徴とを照合し、判定部415においてフレームに特定語が含まれているか否かを解析する。
出力部51:発声検出部41の出力結果より特定ワードが含まれていると判定された場合に、利用者に警告を出力する。出力部51は上述の例同様、例えばスピーカ等で構成される。
環境判定出力部71:環境判定出力部71には、発声検出部41の音声認識結果が正しく行われたか否かの結果が入力される。環境判定出力部71では、過去一定期間における平均的な正解率を計算する。そして、この正解率を閾値判定して、閾値を下回るようであれば、システムが正常動作しない状態と判断して異常出力を行う。
このように本発声検出装置11では、テストモードにおいてノイズ信号を含む入力信号にクリーン信号を合成したテスト信号に対し、音声認識処理が可能どうかを判定する。この音声認識処理を行うにあたっては、テスト信号に公知の雑音抑圧技術を適用した上で判定することができる。これにより、ノイズレベルが高い環境においても実際に認識処理不能な状態である場合に異常と判定することで、従来のように単にノイズレベルが高い場合に認識不能と判定するようなシステムよりも正確な判定を行うことができる。
尚、上述の例では、振込め詐欺防止を目的として発声検出システムを構築するために音声認識技術を利用した例について説明したが、同一の構成にて他の音声認識システムについても適用できることはいうまでもない。また特定の個人を識別するような音声個人識別装置にも適用可能である。
3.その他の適用例に係る他の実施形態
(異常音検知器に対する適用)
プラントなどで、特定の異常音を検知したいニーズがある。無雑音下でこの異常音を収集し、これに実環境ノイズを合成してテスト信号を生成し、このテスト信号を識別して異常音を正しく検知できるかどうかで、当該環境内で当該装置が正しく作動するか否かを判断できる。
(近赤外センサーなどのパッシブ型センサ)
使用するセンサーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、近赤外センサーで人間を検知したい場合であれば、近赤外線を出す物体を周囲に置かない、もしくはそのような物体をシールドするなどして、人間がセンサーの検知範囲を通過した時の測定信号を収集する。この測定信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。
(レーダー、ソナーに対する適用)
使用するレーダー、ソナーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、レーダーで人間を検知したい場合であれば、無雑音環境内で人間がセンサー監視領域を通過した時の測定信号を収集する。この信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。
(画像センサーに対する適用)
画像による検知を行なう侵入検知センサーにおいて、雨や雪が激しくなった場合、正常に侵入検知ができないことがあり、この判断を正確に行いたいという要求がある。これを実現するために以下の処理を行う。事前に雨や雪の影響のない状態で人が侵入した画像シーケンス(テストシーケンス)を録画する。
リアルタイムで得られた画像から雨・雪の画像情報を抽出し、これをテストシーケンスに合成することで、当該気象条件でのテストシーケンスを生成する。このテストシーケンスに基づいて正しく侵入検知が行なえるか否かを一定の時間繰り返し行い、その正解率で、当該装置が正常動作するかどうかを判断する。
画像システムにおいては、センサーの入出力に線形性が成り立たないので、テスト画像の生成には同期加算法が使えない。そのためテストシーケンスに雨・雪の画像情報を合成するためには、まず背景差分値で一定以上の輝度値を持った領域を雨粒領域とし、この領域での輝度値でテストシーケンスの画像を上書き(置き換え)する手法が採用できる。
以上説明したように、本発明の実施形態に係る識別装置1乃至これを発声の検出に応用した発声検出装置11によれば、装置が実際の設置環境内で人間の発声による音声等の識別対象を適切に検出できるか否かを、識別対象のみの理想的な信号と当該環境におけるノイズを合成して得たテスト信号を実際に識別した結果から事前に判定できるので、設置環境ごとに装置の検出性能を調整する等の煩雑な設定が不要となり、設置環境におけるノイズレベルの変動に対して適切な対応が可能であるという効果が得られる。
1…識別装置
2…入力部
3,31…切替部
4…識別部
5,51…出力部
6,61…テスト信号合成部
7,71…環境判定出力部
11…識別装置としての発声検出装置 211…入力部が有するマイクロホン
41…識別部としての発声検出部
414…相互相関計算部
415…発声判定部

Claims (3)

  1. 音響信号を入力するマイクロホンを備えた入力部と、
    低雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
    前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
    入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
    人を検知する人感センサーと、
    前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
    を含む発声検出装置であって、
    前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴とする発声検出装置。
  2. 前記入力部は、音響信号を入力する2つのマイクロホンを含み、
    前記発声検出部は、前記2つのマイクロホンから入力した前記2つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含む請求項の発声検出装置。
  3. 前記発声判定部は、前記2つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有する請求項の発声検出装置。
JP2010036292A 2010-02-22 2010-02-22 発声検出装置 Active JP5439221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010036292A JP5439221B2 (ja) 2010-02-22 2010-02-22 発声検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010036292A JP5439221B2 (ja) 2010-02-22 2010-02-22 発声検出装置

Publications (2)

Publication Number Publication Date
JP2011170266A JP2011170266A (ja) 2011-09-01
JP5439221B2 true JP5439221B2 (ja) 2014-03-12

Family

ID=44684427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010036292A Active JP5439221B2 (ja) 2010-02-22 2010-02-22 発声検出装置

Country Status (1)

Country Link
JP (1) JP5439221B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782891B (zh) * 2019-10-10 2022-02-18 珠海格力电器股份有限公司 一种音频处理方法、装置、计算设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58181099A (ja) * 1982-04-16 1983-10-22 三菱電機株式会社 音声識別装置
JPS62206599A (ja) * 1986-03-07 1987-09-11 株式会社日立製作所 音声入出力装置
JP2000039900A (ja) * 1998-07-24 2000-02-08 Nec Corp 自己診断機能付き音声対話装置
JP3926280B2 (ja) * 2003-03-05 2007-06-06 株式会社アドバンスト・メディア 音声認識システム
JP4413564B2 (ja) * 2003-09-16 2010-02-10 三菱電機株式会社 情報端末および音声認識システム
JP2005227511A (ja) * 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム

Also Published As

Publication number Publication date
JP2011170266A (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
US10622009B1 (en) Methods for detecting double-talk
KR101905234B1 (ko) 풍 잡음 검출을 위한 방법 및 장치
US9959886B2 (en) Spectral comb voice activity detection
US10074384B2 (en) State estimating apparatus, state estimating method, and state estimating computer program
KR20210038871A (ko) 리플레이 공격의 탐지
JP5751110B2 (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US20180137880A1 (en) Phonation Style Detection
US9311930B2 (en) Audio based system and method for in-vehicle context classification
GB2499781A (en) Acoustic information used to determine a user's mouth state which leads to operation of a voice activity detector
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
JP2011033717A (ja) 雑音抑圧装置
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
US12039970B1 (en) System and method for source authentication in voice-controlled automation
Choi et al. Selective background adaptation based abnormal acoustic event recognition for audio surveillance
CN109994129B (zh) 语音处理系统、方法和设备
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
CN105812721A (zh) 一种跟踪监控方法及跟踪监控设备
KR101741418B1 (ko) 연속된 충격음에 대한 음향 특징 추출 및 확률 모델에 기반한 음향 인식 방법
Armani et al. Use of a CSP-based voice activity detector for distant-talking ASR.
KR20130097490A (ko) 음향 정보 기반 상황 인식 장치 및 방법
JP5439221B2 (ja) 発声検出装置
Wu et al. Speaker localization and tracking in the presence of sound interference by exploiting speech harmonicity
Gammal et al. Combating reverberation in speaker verification
JP2021001949A (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
JP5271734B2 (ja) 話者方向推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5439221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250