JP2010186126A - 入力音声評価装置、入力音声の評価方法および評価プログラム - Google Patents
入力音声評価装置、入力音声の評価方法および評価プログラム Download PDFInfo
- Publication number
- JP2010186126A JP2010186126A JP2009031121A JP2009031121A JP2010186126A JP 2010186126 A JP2010186126 A JP 2010186126A JP 2009031121 A JP2009031121 A JP 2009031121A JP 2009031121 A JP2009031121 A JP 2009031121A JP 2010186126 A JP2010186126 A JP 2010186126A
- Authority
- JP
- Japan
- Prior art keywords
- factor
- misrecognition
- score
- main factor
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力音声評価装置は、誤認識要因検知部と、主要因判定部とを具備する。誤認識要因検知部は、音声認識装置が誤認識するときの誤認識要因を検知する。主要因判定部は、誤認識要因毎に設定されるスコアに基づいて、誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する。
【選択図】図1
Description
図面を参照して、本発明の実施の形態が説明される。図1に、本発明の第1の実施の形態に係る入力音声評価装置の構成が示される。入力音声評価装置10は、音声取得部11と、誤認識要因検知部12と、主要因判定部13と、メッセージ通知部14とを具備する。
(2)音量過小:認識対象とする音声が小さ過ぎることを検知する。
(3)雑音過大:雑音の音量が大き過ぎることを検知する。
(4)SNR不良:SNRが小さ過ぎることを検知する。
(5)話頭切断:認識対象とする音声の話頭部分が切れていることを検知する。
(6)話尾切断:認識対象とする音声の話尾部分が切れていること検知する。
(7)音声区間過長:認識対象とする音声区間が長すぎることを検知する。
(8)音声区間過短:認識対象とする音声区間が短すぎることを検知する。
音声スペクトルのパワーもしくは音声波形の振幅が、予め設定された閾値を越えるか否かを検知する。音声スペクトルのパワーもしくは音声波形の0振幅は瞬時値を用いるだけでなく、一定時間内の平均値を用いても良い。また、音声取得部11がアナログデータをデジタルデータに変換する際に、振幅が大きすぎて16ビットLinear−PCMの振幅値の範囲に収まらないオーバレンジを検知したことなどもここに含まれる。
音声スペクトルのパワーもしくは波形の振幅をある一定時間に渡って平均した平均パワー、平均振幅やある一定時間内の最大値などが、予め設定される閾値を下回るか否かを検知する。ある一定時間に渡って平均や最大値を求める他にも、音声検出を行って音声区間を求めておき、この音声区間における音声スペクトルのパワーや波形の振幅の平均値や最大値を求めても良い。
認識対象以外の音声、いわゆる雑音のスペクトルのパワーもしくは波形の振幅が、予め設定した閾値を越えるか否かを検知する。
認識対象とする音声と雑音とのスペクトルのパワーの比もしくは波形の振幅の比が、予め設定される閾値を下回るか否かを検知する。
ユーザが発声した音声の先頭部分が欠落した状態で入力音声が取得されることがある。例えば、マイクロホンの入力スイッチをオンにすると同時にユーザが発声し始めた場合に、音声の先頭部分が欠けることが多い。特に、マイクロホンや増幅器などのデバイスがアクティブになるまでに時間がかかる場合に著しい。取得された音声の先頭部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することにより、話頭切断を検知することができる。例えば、取得音声の先頭から閾値を越える音声パワーもしくは波形の振幅が検出されたときに話頭切断と判定する。この閾値は、雑音の推定レベルや取得された音声の末尾のレベルを用いて設定されることが好ましい。
ユーザの発声が完了する前にマイクロホンの入力スイッチをオフにする等により、ユーザが発声した音声の末尾部分が欠けて取得されることがある。この話尾切断は、取得された音声の末尾部分のスペクトルパワーもしくは波形の振幅が予め設定された閾値を越えるか否かを判定することによって検知される。例えば、末尾部分の音声スペクトルパワーもしくは波形の振幅が閾値を超えている場合に、話尾切断が検出される。この閾値は、雑音推定レベルを用いて設定されることが好ましい。
検出された音声区間の継続時間が予め設定された最長閾値よりも長いか否かを判定して検知することができる。
検出された音声区間の継続時間が予め設定された最短閾値よりも短いか否かを判定して検知することができる。
誤認識の主要因の判定方法を変えた本発明の第2の実施の形態を説明する。第2の実施の形態では、2次元のスコア表を用いて誤認識の主要因が判定される。
第1および第2の実施の形態では、主要因の判定が音声の入力終了後に行なわれた。第3の実施の形態では、誤認識要因検知部12においてスコアの高い誤認識要因が検知された場合に、入力音声の終了を待たずに誤認識要因がユーザに通知される。この点が第1および第2の実施の形態と異なっている。
11 音声取得部
12 誤認識要因検知部
121〜12N 要因検知部
13 主要因判定部
14 メッセージ通知部
Claims (19)
- 音声認識装置が誤認識するときの誤認識要因を検知する誤認識要因検知部と、
前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定する主要因判定部と
を具備する入力音声評価装置。 - 前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
前記主要因判定部は、
前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた2次元のスコア表を備え、
検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求め、前記累積スコアに基づいて前記主要因と判定する要因を選択する
請求項1に記載の入力音声評価装置。 - 前記評価点は、前記誤認識要因検知部が検知するときの誤り傾向に基づいて設定される
請求項2に記載の入力音声評価装置。 - 前記2次元のスコア表に示されるスコアのうち、非対角成分が0であり、対角成分が0以外の値とする
請求項2または請求項3に記載の入力音声評価装置。 - 前記主要因判定部は、前記主要因候補のうちの第1主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第1主要因候補のスコアを超えないと判定された場合、前記第1主要因候補を主要因と判定する
請求項2から請求項4のいずれかに記載の入力音声評価装置。 - 前記主要因判定部は、前記主要因候補のうちの第2主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第2主要因候補を主要因と判定する
請求項2から請求項4のいずれかに記載の入力音声評価装置。 - 前記所定の閾値は、前記主要因候補毎に設定される
請求項6に記載の入力音声評価装置。 - 前記誤認識要因検知部は、誤認識の要因として、
対象とする入力音声の音量が所定の大音量閾値より大きいこと、
対象とする入力音声の音量が所定の小音量閾値より小さいこと、
対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいこと、
対象とする入力音声と雑音との比(SNR)が所定のSNR閾値より小さいこと、
対象とする入力音声の先頭部分が取り込まれていないこと(話頭切断)、
対象とする入力音声の末尾部分が取り込まれていないこと(話尾切断)、
対象とする入力音声の音声区間が所定の最長区間長より長いこと、
対象とする入力音声の音声区間が所定の最短区間長より短いこと
のうちの少なくとも2つ以上の要因を検知する
請求項1から請求項7のいずれかに記載の入力音声評価装置。 - ユーザの発声する音声を取り込む音声取得部と、
判定された誤認識の前記主要因をユーザに通知するメッセージ通知部と
をさらに具備する
請求項1から請求項8のいずれかに記載の入力音声評価装置。 - 音声認識装置が誤認識するときの誤認識要因を検知するステップと、
前記誤認識要因毎に設定されるスコアに基づいて、前記誤認識要因のうちの主たる誤認識原因と推定される主要因を判定するステップと
を具備する入力音声の評価方法。 - 前記スコアは、前記誤認識要因が前記主要因の代わりに検知されたとした場合の主要因候補に対する評価点を含み、
前記判定するステップは、
前記誤認識要因を一方の軸方向に、前記主要因候補を他方の軸方向に並べた2次元のスコア表に基づいて、検知された前記誤認識要因に設定された前記スコアを前記主要因候補毎に合算して累積スコアを求めるステップと、
前記累積スコアに基づいて前記主要因と判定する要因を選択するステップと
を備える請求項10に記載の入力音声の評価方法。 - 前記誤認識要因が検知されるときの誤り傾向に基づいて、予め前記評価点を設定するステップをさらに具備する
請求項11に記載の入力音声の評価方法。 - 前記評価点を設定するステップは、前記2次元のスコア表に示されるスコアのうち、非対角成分の評価点を0に、対角成分の評価点を0以外の値に設定するステップを備える
請求項11または請求項12に記載の入力音声の評価方法。 - 前記判定するステップは、前記主要因候補のうちの第1主要因候補のスコアが算出されたときに、以降に算出される他の前記主要因候補のスコアが前記第1主要因候補のスコアを超えないと判定された場合、前記第1主要因候補を主要因とするステップを備える
請求項11から請求項13のいずれかに記載の入力音声の評価方法。 - 前記判定するステップは、前記主要因候補のうちの第2主要因候補のスコアが所定の閾値を超えて算出されたとき、前記第2主要因候補を主要因とするステップを備える
請求項11から請求項13のいずれかに記載の入力音声の評価方法。 - 前記所定の閾値を前記主要因候補毎に設定するステップを具備する
請求項15に記載の入力音声の評価方法。 - 前記検知するステップは、
対象とする入力音声の音量が所定の大音量閾値より大きいことを検知して誤認識要因とするステップ、
対象とする入力音声の音量が所定の小音量閾値より小さいことを検知して誤認識要因とするステップ、
対象とする入力音声に含まれる雑音の音量が所定の雑音閾値より大きいことを検知して誤認識要因とするステップ、
対象とする入力音声と雑音との比(SNR)が所定のSNR閾値より小さいことを検知して誤認識要因とするステップ、
対象とする入力音声の先頭部分が取り込まれていないこと(話頭切断)を検知して誤認識要因とするステップ、
対象とする入力音声の末尾部分が取り込まれていないこと(話尾切断)を検知して誤認識要因とするステップ、
対象とする入力音声の音声区間が所定の最長区間長より長いことを検知して誤認識要因とするステップ、
対象とする入力音声の音声区間が所定の最短区間長より短いことを検知して誤認識要因とするステップ
のうちの少なくとも2以上のステップを備える
請求項10から請求項16のいずれかに記載の入力音声の評価方法。 - ユーザが発声した音声を取得するステップと、
判定された誤認識の前記主要因を前記ユーザに通知するステップと
を更に具備する
請求項10から請求項17のいずれかに記載の入力音声の評価方法。 - 請求項10から請求項18のいずれかに記載の入力音声の評価方法をコンピュータに実現させるための評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031121A JP5187584B2 (ja) | 2009-02-13 | 2009-02-13 | 入力音声評価装置、入力音声の評価方法および評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009031121A JP5187584B2 (ja) | 2009-02-13 | 2009-02-13 | 入力音声評価装置、入力音声の評価方法および評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010186126A true JP2010186126A (ja) | 2010-08-26 |
JP5187584B2 JP5187584B2 (ja) | 2013-04-24 |
Family
ID=42766805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009031121A Active JP5187584B2 (ja) | 2009-02-13 | 2009-02-13 | 入力音声評価装置、入力音声の評価方法および評価プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5187584B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017026239A1 (ja) * | 2015-08-10 | 2017-02-16 | クラリオン株式会社 | 音声操作システム、サーバー装置、車載機器および音声操作方法 |
JP2019096365A (ja) * | 2019-03-19 | 2019-06-20 | ヤフー株式会社 | 制御装置、入出力装置、制御方法、および制御プログラム |
CN110419078A (zh) * | 2017-03-14 | 2019-11-05 | 德克萨斯仪器股份有限公司 | 自动语音识别系统的用户记录关键字的质量反馈 |
WO2019230065A1 (ja) | 2018-05-31 | 2019-12-05 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2019234952A1 (ja) * | 2018-06-08 | 2019-12-12 | パナソニックIpマネジメント株式会社 | 音声処理装置および翻訳装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325635A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
JP2006113439A (ja) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
JP2007156076A (ja) * | 2005-12-05 | 2007-06-21 | Kddi Corp | 音声入力評価装置 |
WO2007138741A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム |
-
2009
- 2009-02-13 JP JP2009031121A patent/JP5187584B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325635A (ja) * | 2003-04-23 | 2004-11-18 | Sharp Corp | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
JP2006113439A (ja) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
JP2007156076A (ja) * | 2005-12-05 | 2007-06-21 | Kddi Corp | 音声入力評価装置 |
WO2007138741A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017026239A1 (ja) * | 2015-08-10 | 2017-02-16 | クラリオン株式会社 | 音声操作システム、サーバー装置、車載機器および音声操作方法 |
JP2017037176A (ja) * | 2015-08-10 | 2017-02-16 | クラリオン株式会社 | 音声操作システム、サーバー装置、車載機器および音声操作方法 |
CN107851437A (zh) * | 2015-08-10 | 2018-03-27 | 歌乐株式会社 | 语音操作系统、服务器装置、车载设备和语音操作方法 |
US10540969B2 (en) | 2015-08-10 | 2020-01-21 | Clarion Co., Ltd. | Voice operating system, server device, on-vehicle device, and voice operating method |
CN107851437B (zh) * | 2015-08-10 | 2021-08-10 | 歌乐株式会社 | 语音操作系统、服务器装置、车载设备和语音操作方法 |
CN110419078A (zh) * | 2017-03-14 | 2019-11-05 | 德克萨斯仪器股份有限公司 | 自动语音识别系统的用户记录关键字的质量反馈 |
CN110419078B (zh) * | 2017-03-14 | 2024-01-23 | 德克萨斯仪器股份有限公司 | 用于自动语音识别的系统和方法 |
WO2019230065A1 (ja) | 2018-05-31 | 2019-12-05 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム |
WO2019234952A1 (ja) * | 2018-06-08 | 2019-12-12 | パナソニックIpマネジメント株式会社 | 音声処理装置および翻訳装置 |
JP2019096365A (ja) * | 2019-03-19 | 2019-06-20 | ヤフー株式会社 | 制御装置、入出力装置、制御方法、および制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5187584B2 (ja) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824391B2 (en) | Audio user interface apparatus and method | |
US8892424B2 (en) | Audio analysis terminal and system for emotion estimation of a conversation that discriminates utterance of a user and another person | |
KR100834679B1 (ko) | 음성 인식 오류 통보 장치 및 방법 | |
JP6350536B2 (ja) | 音声検出装置、音声検出方法及びプログラム | |
JP5187584B2 (ja) | 入力音声評価装置、入力音声の評価方法および評価プログラム | |
US20130253924A1 (en) | Speech Conversation Support Apparatus, Method, and Program | |
JP2018156044A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2009192942A (ja) | 音声対話装置及び支援方法 | |
JP2008256802A (ja) | 音声認識装置および音声認識方法 | |
JP4678773B2 (ja) | 音声入力評価装置 | |
JP2007288242A (ja) | オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体 | |
WO2009150894A1 (ja) | 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体 | |
JP6565500B2 (ja) | 発話状態判定装置、発話状態判定方法、及び判定プログラム | |
JP2004341033A (ja) | 音声媒介起動装置およびその方法 | |
JP2011039222A (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
WO2017085815A1 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
US11922927B2 (en) | Learning data generation device, learning data generation method and non-transitory computer readable recording medium | |
JP2011221101A (ja) | コミュニケーション装置 | |
JP6992713B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
US20220215854A1 (en) | Speech sound response device and speech sound response method | |
JP7509255B2 (ja) | 連続発話推定装置、連続発話推定方法、およびプログラム | |
JP7001029B2 (ja) | キーワード検出装置、キーワード検出方法、およびプログラム | |
JP2005107384A (ja) | 音声認識装置および方法、プログラム並びに記録媒体 | |
JPS63278100A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5187584 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |