JP2017097233A - 異常音検出装置、方法及びプログラム - Google Patents

異常音検出装置、方法及びプログラム Download PDF

Info

Publication number
JP2017097233A
JP2017097233A JP2015230863A JP2015230863A JP2017097233A JP 2017097233 A JP2017097233 A JP 2017097233A JP 2015230863 A JP2015230863 A JP 2015230863A JP 2015230863 A JP2015230863 A JP 2015230863A JP 2017097233 A JP2017097233 A JP 2017097233A
Authority
JP
Japan
Prior art keywords
utterance
utterances
abnormal sound
predetermined
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015230863A
Other languages
English (en)
Other versions
JP6546077B2 (ja
Inventor
隆朗 福冨
Takaaki Fukutomi
隆朗 福冨
学 岡本
Manabu Okamoto
学 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015230863A priority Critical patent/JP6546077B2/ja
Publication of JP2017097233A publication Critical patent/JP2017097233A/ja
Application granted granted Critical
Publication of JP6546077B2 publication Critical patent/JP6546077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】従来よりも安定して異常音を検出することができる技術を提供する。
【解決手段】異常音検出装置は、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部1と、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る音声認識部2と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部3と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての算出された特徴量の集合とN個の発話とは異なるM個の発話についての算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部4、を備えている。
【選択図】図1

Description

この発明は、音声信号から異常音を検出する技術に関する。
対話システムを用いた異常音の検出技術が知られている。対話システムは、入力音声を音声認識技術によりテキスト化し、得られたテキストに対して応答を返す。多くのタスクの決まった対話システムでは、入力(認識結果)と予め用意した発話意図コーパスとを照合することで、入力の意図を理解し、適した応答を生成する(例えば、非特許文献1参照。)。
入力音声に異常音が含まれている場合には、音声認識が精度良く動作しなくなるため、対話処理が失敗する可能性が高まる。このため、対話処理失敗をもって異常音が発生していることを推測できる。
入江友紀、外4名、「意図タグつきコーパスを用いた発話意図推定手法」、人工知能学会、言語・音声理解と対話処理研究会 38, 7-12, 2003-07-04
しかしながら、入力音声に異常音が含まれていないときであっても、何らかの原因で音声認識の精度が悪くなる場合がある。音声対話処理結果のみを用いると、この場合にも異常音が発生していると推測する可能性がある。したがって、音声対話処理結果のみを用いると、処理失敗(認識失敗)の原因が異常音であることが特定できず、システム管理者に適切なフィードバックができない可能性がある。
この発明の目的は、従来よりも安定して異常音を検出することができる異常音検出装置、方法及びプログラムを提供することである。
この発明の一態様による異常音検出装置は、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部と、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る音声認識部と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての算出された特徴量の集合とN個の発話とは異なるM個の発話についての算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部と、を備えている。
この発明の一態様による異常音検出装置は、各発話の音声信号について音声認識を行い各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識部と、各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての得られた特徴量の集合とN個の発話とは異なるM個の発話についての得られた特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する異常音判断部と、を備えている。
対話処理結果と特徴量の算出結果とを統合的に用いることにより、従来よりも安定して異常音の検出を行うことができる。
異常音検出装置の例を説明するためのブロック図。 異常音検出方法の例を説明するための流れ図。 対話処理結果の例を示す図。 異常音判断部の処理の例を説明するための流れ図。 異常音判断部の処理の例を説明するための図。 異常音判断部の処理の例を説明するための図。 異常音検出装置の例を説明するためのブロック図。
[異常音検出装置及び方法]
以下、図面を参照して、異常音検出装置及び方法の一実施形態について説明する。
異常音検出学習装置は、図1に示すように、特徴量算出部1、音声認識部2、音声対話処理部3及び異常音判断部4を例えば備えている。異常音検出装置の各部が、以下に説明する各ステップの処理を例えば行うことにより、異常音検出方法が実現される。
<特徴量算出部1>
特徴量算出部1は、入力された各発話の音声信号についての所定の特徴量を算出する(ステップS1)。算出された特徴量は、異常音判断部4に出力される。
例えば、予め音声と非音声のガウス混合分布モデル(GMM)を定義しておく。入力された所定の短時間のフレームごとにモデルに対応した特徴量を抽出し、抽出した特徴量を用いてGMMの尤度計算を行い、音声GMMの尤度及び非音声GMMの尤度を計算する。音声GMMの尤度と非音声GMMの尤度の比から、音声区間の開始・終了を判別する。そして、音声区間全体の音声GMMの累積尤度を特徴量として用いることができる。
xiをフレームiの特徴量とし、Modelspeechを予め定義された音声GMMとし、Modelnoiseを予め定義された非音声GMMとすると、Ps(xi|Modelspeech)をフレームiの音声GMMの尤度とし、Pn(xi|Modelnoise)をフレームiの非音声GMMの尤度とすると、フレームiの音声GMMの尤度と非音声GMMの尤度の比L(xi)は、例えば以下の式のように定義することができる。
Figure 2017097233
L(xi)が所定の閾値θ以上の場合にはフレームiは音声区間と判断することができ、L(xi)が所定の閾値θより小さい場合にはフレームiは非音声区間と判断することができる。
音声判定区間全体の音声GMMの累積尤度は、例えば以下の式により定義される、音声区間と判定されたフレームの音声GMMの平均値である。以下の式において、nspeechは、音声区間と判定されたフレームの個数である。
Figure 2017097233
音声判定区間全体の音声GMMの累積尤度を、例えば以下の式により定義される、入力された発話の音声信号のフレームL(xi)の平均値であってもよい。以下の式において、nallは、入力された発話の音声信号のフレームの個数である。
Figure 2017097233
<音声認識部2>
音声認識部2は、各発話の音声信号について音声認識を行い各発話の音声認識結果を得る(ステップS2)。得られた音声認識結果は、音声対話処理部3に出力される。
音声認識は、既存の技術を用いればよい。
<音声対話処理部3>
音声対話処理部3は、各発話の音声認識結果に所定の発話意図が含まれているか判断する(ステップS3)。
音声対話処理部3は、公知の技術を用いて、音声認識結果に対して発話意図理解を行い、対話システムが想定する発話意図が含まれているか、含まれていないかの情報を出力する。例えば、観光案内のための音声対話システムであれば、音声認識結果から、観光値に関する名所の名前や食事、交通機関等に関するキーワードや表現が検出された場合は音声対話システムが想定する発話意図が含まれていると判断する。発話意図につながるキーワードや表現が含まれていない場合には発話意図が含まれていない、意図が検出できなかった、と判断する。これらの発話意図を理解するためのキーワードや表現の情報は発話意図コーパスとして、音声対話システム構築者が事前に準備しておく。
例えば図3に示すように、出力する音声対話処理結果は、発話意図が含まれている場合は「1」、含まれていない、または見つけられない場合は「0」などの数値で表現してもよい。
<異常音判断部4>
異常音判断部4は、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された特徴量の集合とN個の発話とは異なるM個の発話についての上記算出された特徴量の集合との間に有為差がある場合には、各発話の音声信号に異常音が含まれていると判断する(ステップS4)。
ステップS4の処理は、ステップS41からステップS43の処理から構成される(図4参照)。
異常音判断部4には、特徴量算出部1及び音声対話処理部3からの入力値が蓄積されている。異常音判断部4は、音声対話処理部3の音声対話処理結果が2N個(2N発話)以上蓄積されているか判断する(ステップS41)。音声対話処理結果が2N個以上蓄積されていない場合は、正常時の特徴量が判定できないため、異常音なしとして処理を終了する。ここで、Nの値は、システムが正常に動作していることを確認できる程度の発話数を指定すればよく、20程度でよい。
次に十分な対話処理結果が蓄積された場合には、最新のN個の対話処理結果を用いて、対話処理成功率Pを算出する。算出方法は、たとえば対話処理結果成功(発話意図を捉えられた)時を1、失敗(発話意図を捉えられなかった)時を0とし、P=n/Nとして算出する。ここで、nは最新のN個の対話処理結果のうち、成功したものの数である。異常音判断部4は、算出した対話処理成功確率Pとある閾値Θとを比較する(ステップS42)。算出した対話処理成功確率Pが、ある閾値Θを上回っている場合又は以上の場合は、異常音なしとして処理を終了する。ここで、Θは、音声対話サービスを継続するために必要な成功率であり、通常の対話サービスであれば、0.80程度に設定すると良い。
算出した成功確率PがΘを下回った又は以下の場合、異常音判断部4は、N個の特徴量の集合U_newと、上記N個の集合とは異なるM個(例えば、M≧N)分の特徴量の集合U_oldとの間に有為差がないか検定を行う(ステップS43)。
2つの特徴量集合間に統計的に有為差があると検定された場合に、異常音を検出したとみなし、処理を終了する。有為差の検定方法としては、例えば、Welchのt検定等を用いる方法や前後のデータ系列を別々に自己回帰モデルや多項式回帰モデルなどの時系列モデルを当てはめた場合と前後のデータ系列をすべて当てはめた場合とで誤差を算出し、誤差について統計的な有為性を判定する方法などを用いるとよい。
図5では、N個の特徴量の集合U_newは直近の連続するN個の特徴量の集合であり、M個の特徴量の集合U_newは、N個の特徴量の集合U_newに隣接する連続するM個の特徴量の集合である。しかし、これは一例に過ぎず、N個の特徴量の集合U_newとM個の特徴量の集合U_oldとが異なれば、これらの集合はどのようなものであってもよい。
例えば、図6のように、M個の特徴量の集合U_oldが、N個の特徴量の集合と隣接しない連続するM個の特徴量の集合であってもよい。例えば、M個の特徴量の集合U_oldを、システム起動当初のM個の特徴量の集合とし、以降は最新のN個の特徴量の集合U_newに隣接する連続するM個の特徴量の集合としてもよい。また、N個の特徴量の集合U_newは直近の連続するN個の特徴量の集合でなくてもよい。さらに、例えば蓄積された発話量Kが2Nに満たない場合(N<K<2N)においては、N個の特徴量の集合U_newの一部が、M個の特徴量の集合と共通していてもよい。
[プログラム及び記録媒体]
異常音検出装置における各処理をコンピュータによって実現する場合、異常音検出装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
[変形例]
なお、図7に例示するように、異常音検出装置は、特徴量算出部1を有していなくてもよい。この場合、音声認識部2は、各発話の音声信号について音声認識を行い各発話の音声認識結果及びその音声認識結果の信頼度を得て、異常音判断部4に出力される。言い換えれば、音声認識部2の音声認識処理の過程で生じた信頼度が「特徴量」として、異常音判断部4に出力される。例えば、ある発話についての音声認識処理の過程で生じた信頼度の平均値を、その発話の特徴量とする。異常音判断部4は、この信頼度を特徴量として用いて上記と同様の処理により異常音の判断処理を行う。
異常音検出装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1 特徴量算出部
2 音声認識部
3 音声対話処理部
4 異常音判断部

Claims (5)

  1. 入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出部と、
    上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果を得る音声認識部と、
    上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、
    N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された特徴量の集合と上記N個の発話とは異なるM個の発話についての上記算出された特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断部と、
    を含む異常音検出装置。
  2. 上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識部と、
    上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理部と、
    N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記得られた特徴量の集合と上記N個の発話とは異なるM個の発話についての上記得られた特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断部と、
    を含む異常音検出装置。
  3. 特徴量算出部が、入力された各発話の音声信号についての所定の特徴量を算出する特徴量算出ステップと、
    音声認識部が、上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果を得る音声認識ステップと、
    音声対話処理部が、上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理ステップと、
    異常音判断部が、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記算出された所定の特徴量の集合と上記N個の発話とは異なるM個の発話についての上記算出された所定の特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断ステップと、
    を含む異常音検出方法。
  4. 音声認識部が、上記各発話の音声信号について音声認識を行い上記各発話の音声認識結果及びその音声認識結果の信頼度を得る音声認識ステップと、
    音声対話処理部が、上記各発話の音声認識結果に所定の発話意図が含まれているか判断する音声対話処理ステップと、
    異常音判断部が、N,Mを所定の正の整数として、音声認識結果に所定の発話意図が含まれていると判断された発話の割合が所定の値以下又は未満であり、かつ、N個の発話についての上記得られた特徴量の集合と上記N個の発話とは異なるM個の発話についての上記得られた特徴量の集合との間に有為差がある場合には、上記各発話の音声信号に異常音が含まれていると判断する異常音判断ステップと、
    を含む異常音検出方法。
  5. 請求項1又は2の異常音検出装置の各部としてコンピュータを機能させるためのプログラム。
JP2015230863A 2015-11-26 2015-11-26 異常音検出装置、方法及びプログラム Active JP6546077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015230863A JP6546077B2 (ja) 2015-11-26 2015-11-26 異常音検出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015230863A JP6546077B2 (ja) 2015-11-26 2015-11-26 異常音検出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017097233A true JP2017097233A (ja) 2017-06-01
JP6546077B2 JP6546077B2 (ja) 2019-07-17

Family

ID=58816768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015230863A Active JP6546077B2 (ja) 2015-11-26 2015-11-26 異常音検出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6546077B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7532552B2 (ja) 2020-05-20 2024-08-13 エーアイ スピーチ カンパニー リミテッド 全二重音声インタラクションシステムのテスト方法及び装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265482A (ja) * 1992-03-17 1993-10-15 Matsushita Electric Ind Co Ltd 情報処理装置
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006141679A (ja) * 2004-11-19 2006-06-08 Sony Ericsson Mobilecommunications Japan Inc 介護用端末および介護用通報システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265482A (ja) * 1992-03-17 1993-10-15 Matsushita Electric Ind Co Ltd 情報処理装置
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006141679A (ja) * 2004-11-19 2006-06-08 Sony Ericsson Mobilecommunications Japan Inc 介護用端末および介護用通報システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7532552B2 (ja) 2020-05-20 2024-08-13 エーアイ スピーチ カンパニー リミテッド 全二重音声インタラクションシステムのテスト方法及び装置

Also Published As

Publication number Publication date
JP6546077B2 (ja) 2019-07-17

Similar Documents

Publication Publication Date Title
KR101702829B1 (ko) 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별
US9875739B2 (en) Speaker separation in diarization
Ferrer et al. Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody
US9747890B2 (en) System and method of automated evaluation of transcription quality
US20160111112A1 (en) Speaker change detection device and speaker change detection method
US20140156276A1 (en) Conversation system and a method for recognizing speech
US20090313016A1 (en) System and Method for Detecting Repeated Patterns in Dialog Systems
KR102018331B1 (ko) 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
KR102217917B1 (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
KR20070060581A (ko) 화자적응 방법 및 장치
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
US8725508B2 (en) Method and apparatus for element identification in a signal
US9697825B2 (en) Audio recording triage system
JP6546077B2 (ja) 異常音検出装置、方法及びプログラム
US20230017728A1 (en) Techniques for audio feature detection
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2006039382A (ja) 音声認識装置
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
US11922927B2 (en) Learning data generation device, learning data generation method and non-transitory computer readable recording medium
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
KR20180050809A (ko) 음성 파일 검증 장치 및 방법
WO2016009634A1 (ja) 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体
CN114299962A (zh) 基于音频流的对话角色分离方法、系统、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190620

R150 Certificate of patent or registration of utility model

Ref document number: 6546077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150