JP2011112963A - 音声認識装置とその方法と、プログラム - Google Patents
音声認識装置とその方法と、プログラム Download PDFInfo
- Publication number
- JP2011112963A JP2011112963A JP2009270640A JP2009270640A JP2011112963A JP 2011112963 A JP2011112963 A JP 2011112963A JP 2009270640 A JP2009270640 A JP 2009270640A JP 2009270640 A JP2009270640 A JP 2009270640A JP 2011112963 A JP2011112963 A JP 2011112963A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- reliability
- model
- speech recognition
- reliability score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】この発明の音声認識装置の事前信頼度スコア計算部が、フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する。音声認識処理部は、音声特徴量系列と信頼度スコアを入力として、音声認識処理を行い音声認識結果と信頼度スコアを出力する。
【選択図】図2
Description
〔この発明の基本的な考え方〕
図1に、音声特徴量と尤度との関係を示す。尤度は、一般的に尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「*−a+*」,「*−i+*」,「*−u+*」のそれぞれの分布を表す。音素モデルは、通常複数の状態から構成され、一つの状態は複数の基底分布からなる混合分布(以下、混合正規分布を含めて混合分布とする)から構成される。ここでは、簡略化のため音素モデルの状態数を1、混合分布数を1として表現している。
例えば音声モデルに用いたGMMは、混合正規分布モデルであり、音声すなわち全ての音素の学習データで学習されたモデルであるため、その分布は音声特徴量に対する尤度の値が比較的になだらかな分布である。それに対して、モノフォンは、各音素の学習データで学習されたモデルであるため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。
このように音声特徴量に対するモノフォンの尤度と、音声モデルの尤度との差を見ることで、収録音声の品質を評価することが出来る。この発明の基本的な考え方は、この点に着目して、モノフォンの最尤状態の出力確率と音声モデルの出力確率との差を事前信頼度として求め、音声ファイル単位の信頼度スコアを得るようにしたものである。
図4に事前信頼度スコア計算部30の機能構成例を示す。事前信頼度スコア計算部30は、モノフォン最尤検出手段32と、ポーズ/音声モデル最尤検出手段33と、事前信頼度算出手段34と、信頼度スコア算出手段35と、を備える。
モノフォン最尤検出手段32は、フレームt毎に入力される音声特徴量系列に対する複数のモノフォンの最尤状態s1の出力確率P(t,s1)を、事前信頼度算出手段34に出力する。ポーズ/音声モデル最尤検出手段33は、その音声特徴量系列に対する音声モデル又はポーズモデルの最尤状態g1の出力確率P(t,g1)を、事前信頼度算出手段34に出力する。
時刻t1では、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第1状態が最尤状態である。時刻t2では、同様にポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第2状態が最尤状態である。時刻t3も、ポーズ以外の複数のモノフォンの何れにも最尤状態が無く、ポーズモデルの第3状態が最尤状態である。このことから、時刻t1〜t3は非音声状態である。この時、モノフォン中の最尤状態と、ポーズモデルと音声モデルの中での最尤状態が一致する(s1=g1)ため、当該時刻における事前信頼度の値は0となる。
時刻t4は、ポーズ以外のモノフォンの中で「*−a+*」の第3状態が最尤状態s1で、且つポーズモデルと音声モデルの中で音声モデルも最尤状態g1であることから音声状態である。そこで、この実施例では、時刻t4のモノフォン「*−a+*」の最尤状態s1の出力確率と、音声モデルの最尤度状態g1の出力確率との差を事前信頼度とする。
また、時刻t19は、ポーズ以外のモノフォンの中で「*−i+*」の第2状態が最尤状態s1で、ポーズモデルと音声モデルの中でポーズモデルの第3状態が最尤状態g1である。この場合、モノフォン「*−i+*」の最尤状態s1の出力確率と、ポーズモデルの最尤状態g1の出力確率との差を事前信頼度とする。なお、図5は、一部の時間しか示していない。音声ファイルの長さは例えば数分(例えば30,000フレーム)程度である。
信頼度スコア算出手段35は、事前信頼度C(t)を音声ファイルの継続時間T(総フレーム数)の間累積して平均した信頼度スコアCを出力する(式(3))。
すなわち、ポーズ/音声モデル最尤検出手段33”は、男性と女性の音声モデル又はポーズモデルの最尤状態の出力確率P男(t,g1)とP女(t,g1)のうち大きい方をP(t,g1)とするものである。そして、モノフォン最尤検出手段32”は、その判定結果を入力としてどちらか一方のモノフォンの最尤状態の出力確率P(t,s1)を求める。この例の場合、全ての種別のモノフォンの出力確率を計算しないので、計算量を削減する効果が期待できる。
図8に示すように式(4)は、所定の範囲の信頼度スコアC(Cmin〜Cmax)に対応するビーム探索幅N(C)(Nmin〜Nmax)を、信頼度スコアCの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアCが小でビーム探索幅N(C)が大であり、Cが大でN(C)が小となる関係である。もちろん、信頼度スコアCとビーム探索幅N(C)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(C)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。
ここで、例えばCmax=μ+σ、Cmin=μ―σとして、Nmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合(例えばC<Cmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。
以上述べたように、この発明の音声認識装置によれば、音声特徴量系列に基づいた事前信頼度を求め、音声ファイル単位でその事前信頼度を平均した信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることが出来る。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かの判断をすることで、例えばS/N比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (7)
- 入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算部と、
上記音声特徴量系列を入力として音声認識処理を行う音声認識処理部と、
を具備する音声認識装置。 - 請求項1に記載した音声認識装置において、
上記信頼度スコアは、二種以上の音響モデルに基づく事前信頼度を、音声ファイル単位で平均した信頼度スコアの最大値であることを特徴とする音声認識装置。 - 請求項1に記載した音声認識装置において、
上記事前信頼度は、上記音声特徴量系列に対する二種類以上の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、上記出力確率が最大の種別の音響モデル中に限定して計算されたモノフォンの出力確率と、上記最大の種別の音響モデル中の音響モデル中の音声モデル又はポーズモデルの最尤状態の出力確率との差、
であることを特徴とする音声認識装置。 - 請求項1乃至3の何れかに記載した音声認識装置において、
上記事前信頼度を入力として、音声認識処理を行う音声ファイルを選択する制御信号を生成して上記音声認識処理部に出力する認識処理制御部を、
更に備えることを特徴とする音声認識装置。 - 請求項1乃至3の何れかに記載した音声認識装置において、
複数の音声ファイルの上記事前信頼度から、事前信頼度の高い順番に上記複数の音声ファイルを並び替える音声ファイル処理部と、
事前信頼度の高い順番で音声認識処理を行うソート音声認識処理部と、
を更に備えることを特徴とする音声認識装置。 - 特徴量分析部が、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析過程と、
事前信頼度スコア計算部が、上記フレーム毎の音声特徴量系列を入力として、モノフォンの最尤状態の出力確率と音声モデル又はポーズモデルの最尤状態の出力確率との差を、当該フレームの事前信頼度とし、その事前信頼度を音声ファイル単位で平均した信頼度スコアを出力する事前信頼度スコア計算過程と、
音声認識処理部が、上記音声特徴量系列を入力として音声認識処理を行う音声認識処理過程と、
を含む音声認識方法。 - 請求項1乃至4の何れかに記載した音声認識装置としてコンピュータを機能させるための装置プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009270640A JP5235849B2 (ja) | 2009-11-27 | 2009-11-27 | 音声認識装置とその方法と、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009270640A JP5235849B2 (ja) | 2009-11-27 | 2009-11-27 | 音声認識装置とその方法と、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011112963A true JP2011112963A (ja) | 2011-06-09 |
JP5235849B2 JP5235849B2 (ja) | 2013-07-10 |
Family
ID=44235317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009270640A Expired - Fee Related JP5235849B2 (ja) | 2009-11-27 | 2009-11-27 | 音声認識装置とその方法と、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5235849B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249688A (ja) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置およびその方法 |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
-
2009
- 2009-11-27 JP JP2009270640A patent/JP5235849B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249688A (ja) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置およびその方法 |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5235849B2 (ja) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100161330A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP5052449B2 (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
US11250860B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP2007156364A (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4852129B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP5235849B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5538350B2 (ja) | 音声認識方法とその装置とプログラム | |
JP5089651B2 (ja) | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
JP4798606B2 (ja) | 音声認識装置、およびプログラム | |
WO2021106047A1 (ja) | 検知装置、その方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110722 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5235849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |