JP5651567B2 - 音響モデル適応装置、音響モデル適応方法、およびプログラム - Google Patents
音響モデル適応装置、音響モデル適応方法、およびプログラム Download PDFInfo
- Publication number
- JP5651567B2 JP5651567B2 JP2011223745A JP2011223745A JP5651567B2 JP 5651567 B2 JP5651567 B2 JP 5651567B2 JP 2011223745 A JP2011223745 A JP 2011223745A JP 2011223745 A JP2011223745 A JP 2011223745A JP 5651567 B2 JP5651567 B2 JP 5651567B2
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- acoustic model
- speech recognition
- speaker
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
(2)音声認識結果記憶部900から、話者ID≠Xとなっているすべての音声認識結果に含まれる信頼度を取得する(S302)。以下、取得した信頼度の集合をConfListID_notXという。
(3)ConfListID_XとConfListID_notXから、検出条件θに基づいて話者ID=Xを苦手話者の話者IDとして検出するか否かを判断する。検出するか否かの判断方法は、以下のパターンA,Bのいずれを用いてもよい。
(パターンA)ConfListID_notXの平均値m_notXからConfListID_Xの平均値m_Xを減算した値が閾値θ以上であれば検出する。この場合、検出条件θは信頼度の平均の差の閾値である。θの決定方法は、例えば、音声認識結果記憶部900に記憶されているすべての信頼度の標準偏差σを算出し、θ=σとする方法がある。
(パターンB)ConfListID_notXの平均値m_notXとConfListID_Xの平均値m_Xに差があるかないかを検定し、有意水準θ%で「m_Xの方がm_notXより小さい」仮説が支持されれば検出する。検定方法にはt検定を用いる。この場合、検出条件θは検定の有意水準である。例えば、θ=5%と設定すればよい。
(4)検出すると判断された場合、話者ID=Xを苦手話者の話者IDとして出力する(S303)。
[変型例]
図3、図4を参照して、本発明の実施例1の変型例に係る音響モデル適応装置10’の動作を詳細に説明する。図3は本発明の実施例1の変型例に係る音響モデル適応装置10’の構成を示すブロック図である。図4は本発明の実施例1の変型例に係る音響モデル適応装置10’の動作を示すフローチャートである。
[変型例]
図7、図8を参照して、本発明の実施例2の変型例に係る音響モデル適応装置20’の動作を詳細に説明する。図7は本発明の実施例2の変型例に係る音響モデル適応装置20’の構成を示すブロック図である。図8は本発明の実施例2の変型例に係る音響モデル適応装置20’の動作を示すフローチャートである。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
100 音声認識部
200 音声認識結果登録部
300 苦手話者検出部
400 適応用データ選択部
500、510、550 音響モデル適応部
600、610 音響モデル選択部
800 音響モデル記憶部
900 音声認識結果記憶部
Claims (8)
- 音響モデル記憶部に、不特定多数の話者の音声を認識する音声認識に用いる適応前音響モデルが記憶されており、
音声認識部が、入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識ステップと、
音声認識結果登録部が、少なくとも前記音声を発話した話者を特定する話者IDと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、音声認識結果記憶部に記憶する音声認識結果登録ステップと、
苦手話者検出部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する苦手話者検出ステップと、
適応用データ選択部が、前記音声認識結果記憶部から、話者IDが前記苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択ステップと、
音響モデル適応部が、前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応ステップと、
を有することを特徴とする音響モデル適応方法。 - 請求項1に記載の音響モデル適応方法であって、
前記検出条件は、話者IDが当該話者IDである音声認識結果に含まれる信頼度の平均値を、話者IDが当該話者ID以外である音声認識結果に含まれる信頼度の平均値から、減算した値が、予め設定された閾値以上であれば、当該話者IDを苦手話者の話者IDとするものである
ことを特徴とする音響モデル適応方法。 - 請求項1に記載の音響モデル適応方法であって、
前記検出条件は、予め設定された有意水準で、話者IDが当該話者IDである音声認識結果に含まれる信頼度の平均値が、話者IDが当該話者ID以外である音声認識結果に含まれる信頼度の平均値より小さいことが検定により支持されれば、当該話者IDを苦手話者の話者IDとするものである
ことを特徴とする音響モデル適応方法。 - 請求項1から3のいずれかに記載の音響モデル適応方法であって、
音響モデル選択ステップをさらに有し、
前記音響モデル適応ステップは、複数の適応パラメータが予め設定されており、前記適応前音響モデルと前記適応用データから、前記適応パラメータ毎に、複数の適応後音響モデル候補を出力し、
前記音響モデル選択ステップは、音響モデル選択部が、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての信頼度を用いて、適応前信頼度平均値を求め、前記音声認識結果に含まれるすべての音声と前記適応後音響モデル候補を用いて、適応後信頼度平均値を求め、前記適応後信頼度平均値から前記適応前信頼度平均値を減算して信頼度低下幅を求め、前記信頼度低下幅が予め設定した信頼度低下幅閾値未満であれば、前記適応後信頼度平均値に対応する適応後音響モデル候補を適応後音響モデルとして出力する
ことを特徴とする音響モデル適応方法。 - 請求項1から3のいずれかに記載の音響モデル適応方法であって、
前記音響モデル適応ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。 - 請求項4に記載の音響モデル適応方法であって、
前記音響モデル選択ステップは、出力した適応後音響モデルを前記音響モデル記憶部に記憶し、前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、前記音声認識結果に含まれるすべての音声について、前記適応後音響モデルを用いて、音声認識結果テキストと信頼度を出力し、当該音声認識結果テキストと当該信頼度を前記音声認識結果記憶部に記憶し、
前記苦手話者検出ステップと前記適応用データ選択ステップと前記音響モデル適応ステップと音響モデル選択ステップを、所定の条件を満たすまで繰り返し実行する
ことを特徴とする音響モデル適応方法。 - 不特定多数の話者の音声を認識する音声認識に用いる適応前音響モデルを記憶する音響モデル記憶部と、
音声認識結果を記憶する音声認識結果記憶部と、
入力された音声から、前記適応前音響モデルを用いて、少なくとも音声認識結果テキストと信頼度を出力する音声認識部と、
少なくとも前記音声を発話した話者を特定する話者IDと前記音声と前記音声認識結果テキストと前記信頼度からなる音声認識結果を、前記音声認識結果記憶部に記憶する音声認識結果登録部と、
前記音声認識結果記憶部から、前記音声認識結果をすべて読み込み、予め設定された検出条件に基づいて、他の話者よりも音声認識精度が低い苦手話者の話者IDを抽出する苦手話者検出部と、
前記音声認識結果記憶部から、話者IDが前記苦手話者の話者IDであり、かつ、信頼度が予め設定された信頼度閾値以上である音声認識結果を読み込み、少なくとも前記音声と前記音声認識結果テキストからなる適応用データを抽出する適応用データ選択部と、
前記適応前音響モデルと前記適応用データから、予め設定された適応パラメータを用いて、適応後音響モデルを出力する音響モデル適応部と、
を備えることを特徴とする音響モデル適応装置。 - 請求項7に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011223745A JP5651567B2 (ja) | 2011-10-11 | 2011-10-11 | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011223745A JP5651567B2 (ja) | 2011-10-11 | 2011-10-11 | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013083798A JP2013083798A (ja) | 2013-05-09 |
JP5651567B2 true JP5651567B2 (ja) | 2015-01-14 |
Family
ID=48529046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011223745A Active JP5651567B2 (ja) | 2011-10-11 | 2011-10-11 | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5651567B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273818B (zh) * | 2022-09-27 | 2022-12-13 | 小米汽车科技有限公司 | 语音处理方法、处理装置、处理设备、车辆和介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4440502B2 (ja) * | 2001-08-31 | 2010-03-24 | 富士通株式会社 | 話者認証システム及び方法 |
JP3876703B2 (ja) * | 2001-12-12 | 2007-02-07 | 松下電器産業株式会社 | 音声認識のための話者学習装置及び方法 |
JP2006163440A (ja) * | 2006-02-08 | 2006-06-22 | Matsushita Electric Ind Co Ltd | 音声認識方法及び音声認識装置及びその記憶媒体 |
JP5326892B2 (ja) * | 2008-12-26 | 2013-10-30 | 富士通株式会社 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
JP5161183B2 (ja) * | 2009-09-29 | 2013-03-13 | 日本電信電話株式会社 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
JP2012037619A (ja) * | 2010-08-04 | 2012-02-23 | Nec Corp | 話者適応化装置、話者適応化方法および話者適応化用プログラム |
-
2011
- 2011-10-11 JP JP2011223745A patent/JP5651567B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013083798A (ja) | 2013-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7008638B2 (ja) | 音声認識 | |
JP6158348B2 (ja) | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 | |
US20120130716A1 (en) | Speech recognition method for robot | |
WO2016151698A1 (ja) | 対話装置、方法及びプログラム | |
US8977547B2 (en) | Voice recognition system for registration of stable utterances | |
WO2020166322A1 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
JP2007279743A (ja) | 話者認証登録及び確認方法並びに装置 | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
JP2007279742A (ja) | 話者認証確認方法及び装置 | |
KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
JP6576968B2 (ja) | 話し終わり判定装置、話し終わり判定方法およびプログラム | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
CN112259084B (zh) | 语音识别方法、装置和存储介质 | |
JP5651567B2 (ja) | 音響モデル適応装置、音響モデル適応方法、およびプログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP5447382B2 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
US11741989B2 (en) | Non-verbal utterance detection apparatus, non-verbal utterance detection method, and program | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
JP2021135314A (ja) | 学習装置、音声認識装置、学習方法、および、学習プログラム | |
US20210005215A1 (en) | Learning speech data generating apparatus, learning speech data generating method, and program | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140401 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5651567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |