JP4729078B2 - 音声認識装置とその方法と、プログラムとその記録媒体 - Google Patents
音声認識装置とその方法と、プログラムとその記録媒体 Download PDFInfo
- Publication number
- JP4729078B2 JP4729078B2 JP2008154933A JP2008154933A JP4729078B2 JP 4729078 B2 JP4729078 B2 JP 4729078B2 JP 2008154933 A JP2008154933 A JP 2008154933A JP 2008154933 A JP2008154933 A JP 2008154933A JP 4729078 B2 JP4729078 B2 JP 4729078B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- likelihood
- speech recognition
- unit
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図7に不特定話者の音声認識結果を用いて教師なし話者適応を行う従来の音声認識装置700の機能構成例を示してその動作を説明する。音声認識装置700は、A/D変換部70と、特徴量算出部71と、言語モデルパラメータメモリ72と、音響モデルパラメータメモリ73と、音声認識部74と、認識結果ラベル付与部75と、音響モデル適応処理部76とを備える。
この状態jが、数個〜十数個程度の確率連鎖によって音素モデルが構築される。図9に3状態で構成される音素モデルの概念図を一例として示す。図9に示す例は、left−to−right型HMM(Hidden Markov Model)と呼ばれるもので、3つの状態j1(第1状態)、j2(第2状態)、j3(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
例えば、最尤推定に基づく音響モデル適応方法は、事後確率γt(j,k)から各混合正規分布の平均ベクトルμjkと共分散行列Ujkを、式(2)と式(3)で求めることで行う。ここで*は転置を意味する。
以上述べたような音響モデル教師なし適応化技術を用いた音声認識装置700は、例えば特許文献1と2に開示されている。また、回帰行列を用いた適応方法については、例えば特許文献3と非特許文献1に示されている。
この発明の音声認識装置100の新しい部分は、ステップS74の音声認識過程と並行してフレーム内統計量蓄積部10と音響モデル更新部11とが動作する点である。フレーム内統計量蓄積部10は、音響特徴量と状態尤度と音響モデルを入力としてフレーム毎に最尤状態の統計量を蓄積して学習する(ステップS10)。音響モデル更新部11は、音響モデルパラメータメモリ73に記録された音響モデルを、フレーム毎に蓄積された最尤状態の統計量を用いて求めた適応音響モデルμjk,adapt,Ujk,adaptに更新する(ステップS11)。学習データ量(蓄積量)が少ない場合は、ステップS11はスキップされる(ステップ10からステップ12への破線)。適応音響モデルμjk,adapt,Ujk,adaptは、例えば回帰行列Wを用いて求めることが可能である。詳しくは後述する。
以上述べたように、この発明の音声認識装置100のフレーム内統計量蓄積部10は、フレーム毎に統計量蓄積動作を行う。音響モデル更新部11が、その統計量から更新する音響モデルμjk,adapt,Ujk,adaptを生成して音響モデルパラメータメモリ73内の音響モデルを更新する。
フレーム内最尤状態探索部101は、尤度計算部741が計算した状態尤度のうち、最も高い状態尤度を持つ状態を最尤状態として求める(ステップS101、図4)。近似事後確率計算部102は、フレーム内最尤状態探索部101が求めた最尤状態j(図8と図9を参照)に属する分布kに対する尤度と、尤度計算部741が計算した状態尤度の総和から式(4)に示す近似事後確率γt´(j,k)を計算する(ステップS102)。
乗じた値であり、分母はフレーム内の状態尤度の総和である。これを図5に模式的に表
す。図5の横軸は時間経過でありフレーム番号で表す。縦軸は、各フレームの状態である。
各状態は図8に示したように混合正規分布からなる。式(4)の分母は、図5に破線で示
すように1フレーム内の全状態の状態尤度の総和である。分子は、図5に●で示すフレー
ム内の最高尤度の状態jの各分布である。
てその状態jを通る尤度を事後確率計算に用いていた。それに対してこの実施例は、全状
態フレーム内最高尤度と、そのフレーム内の状態尤度の総和の比に基づいて事後確率を近
似的に求める点で異なる。
フレーム内最尤状態統計量蓄積部103は、フレーム毎に近似事後確率計算部102が求めた近似事後確率γt´(j,k)と、特徴量算出部71が算出した特徴量otを入力として、適応に必要な統計量を最尤状態jに属する分布kに対応させて蓄積する(ステップS103)。ここで、適応に必要な統計量とは、例えば式(5)、式(6)、式(7)に示すものである。
統計蓄積量判定部104は、フレーム内最尤状態統計量蓄積部103が蓄積した適応に必要な統計量を用いて式(8)に示す統計量の学習データ量の期待値Nexpを計算する。
ここで回帰行列Wを用いた適応音響モデルを求める例について説明する。式(9)に回帰行列Wを用いた分布kの平均ベクトルの適応音響モデルμjk,adaptを示す。
モノフォンのみについて処理を行うことで、更に計算量を削減することができる。実施例1の場合では、前後の音素環境を考慮した環境独立音素(トライフォン)や片側依存音素(バイフォン)を用いるために状態数は、例えば2000状態である。音素数を30とした場合のトライフォンの音素数は30×30×30であり、バイフォンの音素数は2×30×30であるので最終的な音素数は28800個になる。各音素の状態数を3とするとこの音素数に3を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ2000状態に縮退させることができる。処理する状態をモノフォンのみに絞ることで、その2000状態が音素数30×状態数3=90状態になる。したがって、計算量は、およそ90/2000×100=4.5%の計算量で済む。よって処理を高速化できる。
また、フレーム内最尤状態統計量蓄積部103で蓄積する統計量の種類を減らすことで、更に計算量を削減することが可能である。実施例1の説明では、式(5)、式(6)、式(7)に示したように分散に関する統計量も(式(7))計算する例を説明したが、平均値のみの統計量を用いた適応の場合は、式(7)の計算を削減することができるので、更に処理を高速化できる。
その考えを図6に模式的に示す。図6に示す考えに基づく音声認識装置の機能構成は、実施例1,2と同じ構成で実現できる。音声信号は、横方向に音声区間と非音声区間とを繰り返している。音声区間T1における音声認識は、一度も音響モデルが更新されていない状態で行われる。この時の音響モデルをベースライン音響モデルと称する。音声区間T1では、そのベースライン音響モデルを用いた尤度計算が行われ統計量が蓄積される。非音声区間T2において音響モデルが更新されるが、この例では学習データ量が不十分なため非音声区間T2において期待値Nexpが、音響モデルを更新するための学習データ量の閾値Nminよりも小さい(Nexp<Nmin)ため更新されない。よって、引き続き音声区間T3においてもベースライン音響モデルで尤度計算が行われる。
〔シミュレーション結果〕
この発明の音声認識方法の有効性を確認する目的でシミュレーションを行った。シミュ
レーション条件は、サンプリング周波数を16kHz、ウインドウタイプはハミング窓、
フレーム長を20ms、フレームシフトを10msとした。語彙数は59,390個、発話者は女性、録音時間を48.96分とした。
表1に示す。ベースラインとは教師なし適応処理を行わない手法である。実施例1,2は、共に、音響モデル更新後の尤度計算にパワーを用いる音声認識方法である。
この発明の技術思想に基づく音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、上記した実施例は、回帰行列Wを用いて適応音響モデルを求める例を示したが、従来技術で説明したように分布kの個々の正規分布の平均ベクトルや共分散行列を、式(2)と式(3)から求めても良く、回帰行列に基づく方法に限らず、事後確率を用いる適応方法であれば何れも利用することが可能である。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 所定の時間長のフレーム毎に離散値化された音声信号の音響特徴量を算出する特徴量算出部と、
音響モデルを記録した音響モデルパラメータメモリと、
言語モデルを記録した言語モデルパラメータメモリと、
上記音響特徴量に対して上記音響モデル内の状態毎の尤度である状態尤度を計算する尤度計算部を含み、上記状態尤度と上記言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識部と、
上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に最尤状態の統計量を蓄積するフレーム内統計量蓄積部と、
上記音響モデルに含まれる平均ベクトル、または平均ベクトルと共分散行列を、上記フレーム毎に蓄積された最尤状態の統計量から求めたものに更新する音響モデル更新部と、
を具備する音声認識装置。 - 請求項1に記載の音声認識装置において、
上記フレーム内統計量蓄積部は、
上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索部と、
上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算部と、
上記近似事後確率と上記音響特徴量とを入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積部と、
上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定部と、
を備える音声認識装置。 - 請求項1又は2に記載した音声認識装置において、
上記状態尤度の内、モノフォン又は音声GMMに対応する状態尤度のみを選択して上記フレーム内統計量蓄積部に入力する尤度選択部を備えたことを特徴とする音声認識装置。 - 特徴量算出部が、所定の時間長のフレーム毎に離散値化された音声信号の音響特徴量を算出する特徴量算出過程と、
音声認識部内の尤度計算部が、特徴量に対して音響モデルの状態毎の尤度である状態尤度を計算する尤度計算過程と、
音声認識部が、上記状態尤度と言語モデルに基づく言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する音声認識過程と、
フレーム内統計量蓄積部が、上記音響特徴量と上記状態尤度と上記音響モデルとを入力として上記フレーム毎に上記フレーム内の最尤状態の統計量を蓄積するフレーム内統計量蓄積過程と、
音響モデル更新部が、上記音響モデルに含まれる平均ベクトル、または平均ベクトルと共分散行列を、上記フレーム毎に蓄積された最尤状態の統計量から求めたものに更新する音響モデル更新過程と、
を含む音声認識方法。 - 請求項4に記載した音声認識方法において、
上記フレーム内統計量蓄積過程は、
フレーム内最尤状態探索部が、上記状態尤度の最も高い最尤状態を求めるフレーム内最尤状態探索ステップと、
近似事後確率計算部が、上記最尤状態に属する分布に対する尤度と上記状態尤度の総和から近似事後確率を求める近似事後確率計算ステップと、
フレーム内最尤状態統計量蓄積部が、上記近似事後確率と上記音響特徴量を入力として適応に必要な統計量を最尤状態に属する分布に対応させて蓄積して保存するフレーム内最尤状態統計量蓄積ステップと、
統計蓄積量判定部が、上記蓄積された統計量が所定値より大きい場合に上記音響モデルの更新を指示する統計蓄積量判定ステップと、
を含む音声認識方法。 - 請求項4又は5に記載した音声認識方法において、
尤度選択部が、上記状態尤度の内、モノフォン又は音声GMMに対応する状態尤度のみを選択して上記フレーム内統計量蓄積過程に入力する尤度選択ステップを含むことを特徴とする音声認識方法。 - 請求項1乃至3の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
- 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008154933A JP4729078B2 (ja) | 2008-06-13 | 2008-06-13 | 音声認識装置とその方法と、プログラムとその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008154933A JP4729078B2 (ja) | 2008-06-13 | 2008-06-13 | 音声認識装置とその方法と、プログラムとその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009300716A JP2009300716A (ja) | 2009-12-24 |
JP4729078B2 true JP4729078B2 (ja) | 2011-07-20 |
Family
ID=41547685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008154933A Active JP4729078B2 (ja) | 2008-06-13 | 2008-06-13 | 音声認識装置とその方法と、プログラムとその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4729078B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5861649B2 (ja) * | 2011-02-03 | 2016-02-16 | 日本電気株式会社 | モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム |
CN104900230A (zh) * | 2014-03-03 | 2015-09-09 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105609100B (zh) * | 2014-10-31 | 2019-08-20 | 中国科学院声学研究所 | 声学模型训练构造方法、及声学模型和语音识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254496A (ja) * | 1997-03-11 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識方式 |
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
-
2008
- 2008-06-13 JP JP2008154933A patent/JP4729078B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254496A (ja) * | 1997-03-11 | 1998-09-25 | Mitsubishi Electric Corp | 音声認識方式 |
JPH11143486A (ja) * | 1997-11-10 | 1999-05-28 | Fuji Xerox Co Ltd | 話者適応装置および方法 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2009300716A (ja) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10741170B2 (en) | Speech recognition method and apparatus | |
Pellom et al. | Sonic: The university of colorado continuous speech recognizer | |
JP5242724B2 (ja) | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 | |
Guglani et al. | Continuous Punjabi speech recognition model based on Kaldi ASR toolkit | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP2009145499A (ja) | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP2020129099A (ja) | 推定装置、推定方法、及びプログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110405 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4729078 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |