JP4796460B2 - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP4796460B2 JP4796460B2 JP2006239747A JP2006239747A JP4796460B2 JP 4796460 B2 JP4796460 B2 JP 4796460B2 JP 2006239747 A JP2006239747 A JP 2006239747A JP 2006239747 A JP2006239747 A JP 2006239747A JP 4796460 B2 JP4796460 B2 JP 4796460B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- acoustic
- score
- entropy
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
すなわち、このような音声認識方法や音声認識装置では、入力音声に対し、最も高い音響スコア(音響モデル尤度)及び言語スコア(単語接続確率)が得られる単語列を認識結果として出力している。
(音声認識装置(第一実施形態)の構成)
図1は、音声認識装置(第一実施形態)のブロック図である。この図1に示すように、音声認識装置1は、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段(音響特徴量算出手段)3と、音響モデル蓄積手段5と、言語モデル蓄積手段7と、探索繰り返し実行手段9と、エントロピー算出手段11と、信頼度算出手段13と、音響スコア重み付け変更手段15とを備えている。
また、各状態は、探索仮説の候補を指し、ある時刻において、探索仮説の候補の中で不適当な候補が削除された後(枝刈り後)、適当な候補が生き残った状態を指している。
特徴ベクトルは、音響特徴量をベクトルの成分とする共に、当該特徴量の個数を次元数とした、複数次元のベクトルである。
言語モデル蓄積手段7は、単語の接続確率の統計量を用いた言語モデルを蓄積するものであって、一般的なハードディスクやメモリ等によって構成されている。
これより、音声認識装置1によって、音響スコアの重み付けを変更する一連の流れを、数式を交えて説明する。
音声認識装置1は、入力音声が入力されると、特徴ベクトル算出手段3で特徴ベクトルを算出する。続いて、音声認識装置1は、探索繰り返し実行手段9の探索仮説伸張手段9a及び探索仮説評価手段9bによって、探索アルゴリズムを実行し、当該アルゴリズムに従って、探索仮説の候補を伸張して、伸張された探索仮説の候補と特徴ベクトル算出手段3で算出された特徴ベクトルとにより、探索仮説の候補の音響スコアを算出する。ここまでは、一般的な音声認識の手法と同じであり、一般的な音声認識においては、時刻tにおける探索仮説中の状態kの累積スコア(ビタビスコア)αk(t)は次に示す数式(1)から求められる。なお、このαk(t)は、この累積スコアは、言語スコアと音響スコアとの合計のスコアである。
また、第二のエントロピーHt (α)は、探索仮説の累積スコアαk(t)=P(λk|x1,・・・,xt)から算出し、次に示す数式(6)から求められる。
次に、図2に示すフローチャートを参照して、音声認識装置1の動作を説明する(適宜、図1参照)。
まず、音声認識装置1は、入力音声が入力されると、初期仮説(無音モデルをアクティブ)を設定する(ステップS1)。続いて、音声認識装置1は、特徴ベクトル算出手段3によって、入力音声の特徴ベクトル(音響特徴量)を算出する(ステップS2)。
図3は、音声認識装置(第二実施形態)のブロック図である。この図3に示すように、音声認識装置1Aは、入力音声に、背景雑音が重畳されたり、自由発話等が含まれたりした場合であっても、当該入力音声の音声認識を行って、認識精度を維持した認識結果を出力するもので、特徴ベクトル算出手段3と、音響モデル蓄積手段5と、言語モデル蓄積手段7と、探索繰り返し実行手段9と、エントロピー算出手段11Aと、信頼度算出手段13Aと、音響特徴量重み付け変更手段(重み付け変更手段)15Aとを備えている。なお、図1に示した音声認識装置1と同様の構成については、同一の符号を付して、その説明を省略する。
これより、音声認識装置1Aによって、音響特徴量の各次元の重み付けを変更する一連の流れを、数式を交えて説明する。
まず、音声認識装置1Aは、特徴ベクトル算出手段3によって算出した特徴ベクトル、つまり、ある時刻tにおける音響特徴量xtのd次元目の特徴量をxt dとしたとき、探索仮説中のアクティブな各状態{λi∈St}の次元dごとの事後確率p− t(λi,d)を次に示す数式(20)及び数式(21)から求められる。
次に、図4に示すフローチャートを参照して、音声認識装置1Aの動作を説明する(適宜、図3参照)。
まず、音声認識装置1Aは、入力音声が入力されると、初期仮説(無音モデルをアクティブ)を設定する(ステップS11)。続いて、音声認識装置1Aは、特徴ベクトル算出手段3によって、入力音声の特徴ベクトル(音響特徴量)を算出する(ステップS12)。
3 特徴ベクトル算出手段
5 音響モデル蓄積手段
7 言語モデル蓄積手段
9 探索繰り返し実行手段
9a 探索仮説伸張手段
9b 探索仮説評価手段
11、11A エントロピー算出手段
11a クラスタリング手段
13、13A 信頼度算出手段
15 音響スコア重み付け変更手段
15A 音響特徴量重み付け変更手段
Claims (7)
- 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。 - 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、1から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を前記認識結果として出力することを特徴とする音声認識装置。 - 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。 - 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、1から減算することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段と、
を備え、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識装置。 - 入力された入力音声を、予め蓄積した蓄積音声の音響特徴量の出力確率分布を混合正規分布モデルで表現した音響モデルと言語モデルとを用いて音声認識する音声認識装置において、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段と、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段と、
前記探索繰り返し実行手段で算出された音響スコアおよび言語スコアを累積した探索スコアより求められる探索仮説の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態におけるある時刻のエントロピーと、前記時刻から所定時間前のエントロピーとの差分を算出するエントロピー算出手段と、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には各時刻における前記音響特徴量の次元ごとの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段と、
この信頼度算出手段で算出された信頼度に基づいて、前記音響特徴量の次元ごとの重み付けを変更する重み付け変更手段と、
を備え、
前記探索仮説評価手段は、前記重み付け変更手段によって重み付けが変更された音響特徴量と、前記音響モデルとを用いて、前記伸張された探索仮説の候補の音響スコアを算出することを特徴とする音声認識装置。 - 前記エントロピー算出手段は、前記探索仮説における各状態をクラスタリングするクラスタリング手段と、
このクラスタリング手段でクラスタリングしたクラスタの代表点におけるエントロピーを算出するエントロピー代表点算出手段と、
を備えることを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。 - 入力された入力音声を、予め蓄積した音響モデルと言語モデルとを用いて音声認識するために、コンピュータを、
前記入力音声を音声認識する候補となる音素の音素列に対して、前記音素列の各音素を探索する探索経路となる各時刻の探索仮説において、当該探索仮説中の前記音素をモデル化した音素モデルの各状態に対応付けられる入力音声の音響特徴量を算出する音響特徴量算出手段、
前記言語モデルを用いて算出した言語スコアにより前記探索仮説の候補を伸張し、前記音響特徴量および前記音響モデルを用いて、前記伸張された前記探索仮説の候補の音響スコアを算出し、前記言語スコアおよび前記音響スコアの累積が最大となる前記探索仮説を認識結果として出力する探索繰り返し実行手段、
前記音響特徴量算出手段で算出された音響特徴量から求められる探索仮説中の音素モデルの各状態の事後確率と、当該事後確率の自然対数とを乗算した積の総和によって、前記探索仮説の各状態における各時刻のエントロピーを算出するエントロピー算出手段、
このエントロピー算出手段で算出したエントロピーに当該エントロピーの評価する幅を示す定数を乗算し、指数化することで、当該エントロピーが増大した場合には前記音響スコアの重み付けを変更する基準となる信頼度が小さくなるように算出する信頼度算出手段、
この信頼度算出手段で算出された信頼度に基づいて、前記音響スコアの重み付けを変更する音響スコア重み付け変更手段、
として機能させ、
前記探索繰り返し実行手段は、前記言語スコアと、前記音響スコア重み付け変更手段によって重み付けが変更された前記音響スコアとの累積が最大となる前記探索仮説を認識結果として出力することを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006239747A JP4796460B2 (ja) | 2006-09-05 | 2006-09-05 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006239747A JP4796460B2 (ja) | 2006-09-05 | 2006-09-05 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008064815A JP2008064815A (ja) | 2008-03-21 |
JP4796460B2 true JP4796460B2 (ja) | 2011-10-19 |
Family
ID=39287615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006239747A Expired - Fee Related JP4796460B2 (ja) | 2006-09-05 | 2006-09-05 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4796460B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013125203A1 (ja) * | 2012-02-21 | 2013-08-29 | 日本電気株式会社 | 音声認識装置、音声認識方法およびコンピュータプログラム |
JP6026224B2 (ja) * | 2012-10-29 | 2016-11-16 | Kddi株式会社 | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
JP6325770B2 (ja) * | 2013-02-04 | 2018-05-16 | 日本放送協会 | 音声認識誤り修正装置及びそのプログラム |
KR101465316B1 (ko) * | 2013-02-26 | 2014-11-26 | 주식회사 엘지유플러스 | 소리-시각 변환 장치 및 그 제어방법 |
JP6276516B2 (ja) * | 2013-05-08 | 2018-02-07 | 日本放送協会 | 辞書作成装置、及び辞書作成プログラム |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4362054B2 (ja) * | 2003-09-12 | 2009-11-11 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
-
2006
- 2006-09-05 JP JP2006239747A patent/JP4796460B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008064815A (ja) | 2008-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US20080140399A1 (en) | Method and system for high-speed speech recognition | |
EP3309778A1 (en) | Method for real-time keyword spotting for speech analytics | |
KR100915638B1 (ko) | 고속 음성 인식 방법 및 시스템 | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
CN102237082A (zh) | 语音识别系统的自适应方法 | |
JP2000075886A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4796460 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |