JP5439221B2 - 発声検出装置 - Google Patents
発声検出装置 Download PDFInfo
- Publication number
- JP5439221B2 JP5439221B2 JP2010036292A JP2010036292A JP5439221B2 JP 5439221 B2 JP5439221 B2 JP 5439221B2 JP 2010036292 A JP2010036292 A JP 2010036292A JP 2010036292 A JP2010036292 A JP 2010036292A JP 5439221 B2 JP5439221 B2 JP 5439221B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- identification
- utterance
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 97
- 238000012360 testing method Methods 0.000 claims description 104
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims 1
- 238000000034 method Methods 0.000 description 41
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 23
- 230000001629 suppression Effects 0.000 description 15
- 238000009434 installation Methods 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000002087 whitening effect Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Description
音響信号を入力するマイクロホンを備えた入力部と、
低雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
人を検知する人感センサーと、
前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
を含む発声検出装置であって、
前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴としている。
前記入力部は、音響信号を入力する2つのマイクロホンを含み、
前記発声検出部は、前記2つのマイクロホンから入力した前記2つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含むようにすることができる。
前記発声判定部は、前記2つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有することができる。
(1)識別装置の概要
まず、はじめに本発明及び本発明の第1実施形態に係る識別装置の概要を説明し、続いて同実施形態に係る装置の具体的な構成例について説明する。
本発明は、外部環境内に存在する種々の識別対象や各対象に固有の挙動を、物理量の変動に基づき検出して認識し、以てこれらを分類し若しくはこれらの存在の有無を判定する識別装置乃至認識装置に適用することが可能である。
本実施形態では、識別システムが動作可能な状態であるか否かを、簡易な方法にて、さらに多くの種類のシステムに適用可能な形態で実現することを目的とする。より具体的には、システムのトータルな性能に応じた動作不能状態を正確に判定する仕組みを提供するものである。
システムに入力信号を入力する入力部2は、外部環境内で生起している識別対象としての物理現象(例えば人間が発する発声乃至そのデータ)をとらえるために、当該物理現象を記述する物理量のデータをデジタル信号として収集する手段である。例えばマイクロホン、カメラほか他のセンシングデバイス及び増幅器などから構成される。
まず切替部3により本装置1のモードがテストモードになっている場合の動作を説明する。
入力部2からの入力があると、記憶部8よりクリーン信号を取り出し、入力信号との合成信号であるテスト信号をテスト信号合成部6で生成する。クリーン信号が複数記憶されている場合は、いずれのクリーン信号を選択するかの選択規則はランダムでもよいし、何らかの状況判断により、現在の状況に近い信号を選ぶなどしてもよい。
例えば本実施形態の識別装置1が音声認識装置である場合には、クリーンな音声信号と実際の環境のノイズを含む信号を合成したものをテスト信号とし、このテスト信号を識別部4で処理し、その識別結果が予め記憶部8に記憶してある正解データと比較して一致しないことが確認されれば、テスト信号から識別対象が正しく認識できなかったものと判断し、本装置1が正常動作しない状態であるとの判定を行なう。また、本実施形態の識別装置1が侵入者を検出する画像監視装置である場合には、人物が充分に識別可能である鮮明な画像をクリーン画像とし、これに実際の環境におけるノイズである例えば、雨、雪など降っている状況の画像を合成してテスト信号とし、このテスト信号を識別部4で処理し、テスト信号から識別対象である人物が検出できるか否かを判断し、検出不可能な状態であれば、本装置1が正常動作しない状態であるとの判定を行なう。
(1)発声検出装置の概要
次に、前述した第1実施形態に係る識別装置1を、さらに具体的な事例に適用した一例として、人間が発声しているか否かを検出する発声検出装置11について説明する。
この発声検出装置11は、具体的には金融機関のCD/ATMの近傍に設置され、装置の前で利用者が装置を操作しながら携帯電話により会話を行っていることを検出するものであり、近年増加しつつある振込め詐欺が金融機関のCD/ATMの前で進行していることを検知し、利用者に注意を促す等して被害を未然に防止することを目的としている。
図2を用いて、本発声検出装置11の構成について説明する。図2の発声検出装置11は、CD/ATMの正面で音響信号の入力があり、これに人間の発声による音声が含まれていることを検出すると警報を出力する。
本発声検出装置11では、2つのマイクロホン211,211から入力した音響信号の相関の有無から発声の有無を検出している。入力された音響信号がノイズ成分だけの場合は信号レベルの大小に関らず2つのマイクロホン211,211からの音響信号の相互相関値は小さい。しかし、大きなレベルのノイズ成分に音声が含まれている場合は、相互相関値が小さいとは限らない。従って、装置の設置環境の判定を行う場合、ノイズレベルが大きいから発声検出処理が不可能と判定することは適切ではなく、予め用意したクリーン信号にマイクロホンから入力された雑音を含む音響信号を重畳してテスト信号を生成し、このテスト信号に対する2つの信号の相互相関の有無によって発声検出を行えるか否かを判定し、発声検出処理が可能な環境であるか否かの環境判定を行うことが適切である。
次に図4のフローチャートを用いて、本発声検出装置11の動作を説明する。
本発声検出装置11を作動開始させると、まずS01でテストモードか否かが判定される。このモード判定では、上述のように人感センサ等が人を検知している場合は、人感センサ等からの検知信号を用いて切替部31を切り替えて本装置1を識別モードに設定する。人感センサ等が人を検知していない場合は、切替部31により本装置1をテストモードに設定する。
S01で識別モードであると判定されると(S01、YES)、S02でマイク211から入力される信号に対し、発声検出処理が実行される。
S02でテストモードと判定された場合(S01、NO)、S06でテスト信号の生成処理が行われる。このテスト信号は、マイク211から入力された音響信号に、記憶部81に記憶されたクリーン信号が合成されて生成される。
(異常音検知器に対する適用)
プラントなどで、特定の異常音を検知したいニーズがある。無雑音下でこの異常音を収集し、これに実環境ノイズを合成してテスト信号を生成し、このテスト信号を識別して異常音を正しく検知できるかどうかで、当該環境内で当該装置が正しく作動するか否かを判断できる。
使用するセンサーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、近赤外センサーで人間を検知したい場合であれば、近赤外線を出す物体を周囲に置かない、もしくはそのような物体をシールドするなどして、人間がセンサーの検知範囲を通過した時の測定信号を収集する。この測定信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。
使用するレーダー、ソナーにとって「ノイズ的に理想に近い状態」で、検知物体の測定信号を収集する。例えば、レーダーで人間を検知したい場合であれば、無雑音環境内で人間がセンサー監視領域を通過した時の測定信号を収集する。この信号に、設置環境での信号を同期加算法により合成してテスト信号とし、このテスト信号を識別して人間を正しく検知できるかどうかを一定時間テストし、その検知率に基づき、当該設置場所において当該装置の正常動作が可能かどうかを判断する。
画像による検知を行なう侵入検知センサーにおいて、雨や雪が激しくなった場合、正常に侵入検知ができないことがあり、この判断を正確に行いたいという要求がある。これを実現するために以下の処理を行う。事前に雨や雪の影響のない状態で人が侵入した画像シーケンス(テストシーケンス)を録画する。
2…入力部
3,31…切替部
4…識別部
5,51…出力部
6,61…テスト信号合成部
7,71…環境判定出力部
11…識別装置としての発声検出装置 211…入力部が有するマイクロホン
41…識別部としての発声検出部
414…相互相関計算部
415…発声判定部
Claims (3)
- 音響信号を入力するマイクロホンを備えた入力部と、
低雑音環境下で測定された音声を含むクリーン信号を記憶する記憶部と、
前記音響信号に前記クリーン信号を合成してテスト信号を生成するテスト信号合成部と、
入力部から入力された音響信号を識別対象信号とする識別モードと、前記テスト信号を識別対象信号とするテストモードとを切り替える切替部と、
人を検知する人感センサーと、
前記識別モード又は前記テストモードにおいて前記識別対象信号から前記音声が検出可能か否か判定する発声検出部と、
を含む発声検出装置であって、
前記切替部は、前記人感センサーからの信号によって人がいないと判断すればテストモードに切り替え、人がいると判断すれば識別モードに切り替え、前記テストモードにおいて前記発声検出部が前記テスト信号から前記音声を検出できないと判定した場合に、前記識別モードにおいて前記発声検出装置が正常に動作しない異常状態にあることを報知する環境判定出力部を有することを特徴とする発声検出装置。 - 前記入力部は、音響信号を入力する2つのマイクロホンを含み、
前記発声検出部は、前記2つのマイクロホンから入力した前記2つの識別対象信号の相互相関値列を計算する相互相関計算部と、前記相互相関計算部の出力より前記音声の検出の有無を判定する発声判定部とを含む請求項1の発声検出装置。 - 前記発声判定部は、前記2つの識別対象信号に相関があると判定した場合に、さらにいずれかの識別対象信号から前記音声の内容が音声認識可能か否かを判定する照合部を有する請求項2の発声検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036292A JP5439221B2 (ja) | 2010-02-22 | 2010-02-22 | 発声検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010036292A JP5439221B2 (ja) | 2010-02-22 | 2010-02-22 | 発声検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170266A JP2011170266A (ja) | 2011-09-01 |
JP5439221B2 true JP5439221B2 (ja) | 2014-03-12 |
Family
ID=44684427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010036292A Active JP5439221B2 (ja) | 2010-02-22 | 2010-02-22 | 発声検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5439221B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782891B (zh) * | 2019-10-10 | 2022-02-18 | 珠海格力电器股份有限公司 | 一种音频处理方法、装置、计算设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58181099A (ja) * | 1982-04-16 | 1983-10-22 | 三菱電機株式会社 | 音声識別装置 |
JPS62206599A (ja) * | 1986-03-07 | 1987-09-11 | 株式会社日立製作所 | 音声入出力装置 |
JP2000039900A (ja) * | 1998-07-24 | 2000-02-08 | Nec Corp | 自己診断機能付き音声対話装置 |
JP3926280B2 (ja) * | 2003-03-05 | 2007-06-06 | 株式会社アドバンスト・メディア | 音声認識システム |
JP4413564B2 (ja) * | 2003-09-16 | 2010-02-10 | 三菱電機株式会社 | 情報端末および音声認識システム |
JP2005227511A (ja) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 対象音検出方法、音信号処理装置、音声認識装置及びプログラム |
-
2010
- 2010-02-22 JP JP2010036292A patent/JP5439221B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011170266A (ja) | 2011-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10622009B1 (en) | Methods for detecting double-talk | |
KR101905234B1 (ko) | 풍 잡음 검출을 위한 방법 및 장치 | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US10074384B2 (en) | State estimating apparatus, state estimating method, and state estimating computer program | |
KR20210038871A (ko) | 리플레이 공격의 탐지 | |
JP5751110B2 (ja) | 残響抑制装置および残響抑制方法並びに残響抑制プログラム | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
US20180137880A1 (en) | Phonation Style Detection | |
GB2499781A (en) | Acoustic information used to determine a user's mouth state which leads to operation of a voice activity detector | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
US12039970B1 (en) | System and method for source authentication in voice-controlled automation | |
Choi et al. | Selective background adaptation based abnormal acoustic event recognition for audio surveillance | |
CN109994129B (zh) | 语音处理系统、方法和设备 | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
CN105812721A (zh) | 一种跟踪监控方法及跟踪监控设备 | |
KR101741418B1 (ko) | 연속된 충격음에 대한 음향 특징 추출 및 확률 모델에 기반한 음향 인식 방법 | |
Armani et al. | Use of a CSP-based voice activity detector for distant-talking ASR. | |
KR20130097490A (ko) | 음향 정보 기반 상황 인식 장치 및 방법 | |
JP5439221B2 (ja) | 発声検出装置 | |
Wu et al. | Speaker localization and tracking in the presence of sound interference by exploiting speech harmonicity | |
Gammal et al. | Combating reverberation in speaker verification | |
JP2021001949A (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120713 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130716 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5439221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |