JP4869268B2 - 音響モデル学習装置およびプログラム - Google Patents
音響モデル学習装置およびプログラム Download PDFInfo
- Publication number
- JP4869268B2 JP4869268B2 JP2008053923A JP2008053923A JP4869268B2 JP 4869268 B2 JP4869268 B2 JP 4869268B2 JP 2008053923 A JP2008053923 A JP 2008053923A JP 2008053923 A JP2008053923 A JP 2008053923A JP 4869268 B2 JP4869268 B2 JP 4869268B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- model
- storage unit
- recognition
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 186
- 230000006978 adaptation Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims description 83
- 230000008569 process Effects 0.000 claims description 69
- 230000006870 function Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 description 19
- 238000013500 data storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 241001648319 Toronia toru Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Description
特に、各音素の音響特徴量の統計量を音響モデルとした音声認識に係わり、例えば放送番組の音声と字幕テキストから音響モデルの学習データを効率的に作成する音響モデル学習装置およびそのプログラムに関する。
Long Nguyen,外1名,"Light Supervision in Acoustic Model Training",IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP apos;04),2004年,Volume 1,p.17−21
この構成によれば、音響モデルに基づいて行なわれた音声の認識結果データ(認識仮説)とその音声に対応するテキストデータ(字幕テキストなど)との一致区間から学習データが得られるとともに、得られた学習データを用いて音響モデルを更新する。つまり音響モデルの適応化を行なうことができる。そして、適応化された音響モデルを用いて、再度、認識処理を行なうことにより、より多くの学習データが得られる。このような適応化と学習データ取得を、繰り返すことができ、学習データを多量に得ることが効率的に行なえる。
この構成によれば、認識対象の音声は放送等の番組の音声であり、番組ごとに音響モデルを持ち、番組ごとの認識結果を用いて音響モデルの適応化を行なえる。よって、番組ごとに特有の音響的特徴がある場合に、その特有の特徴に応じた適応化を行なうことができ、認識精度が上がり、より多量の学習モデルを獲得できる。
この構成によれば、認識処理と、認識処理結果を用いた音響モデルの適応化とを、繰り返し行なう場合に、徐々に、言語モデルを用いる重みが相対的に低下する。よって、当初の認識率を高めるために言語モデルの重みを大きめにとった場合にも、音響モデルの適応化の進展に合わせて、言語モデルの重みを減ずることができ、認識精度が上がり、より多量の学習モデルを獲得できる。
この構成によれば、発話モデルを用いて音声区間の中の発話部分の音声区間を切り出す。そして、認識処理の結果得られた学習データを用いて、発話モデルを適応化する。よって、発話部分の音声区間の切り出しと、切り出された音声区間の認識処理と、認識結果に基づく学習データを用いた発話モデルの適応化の処理を繰り返すことができる。よって、音声区間の切り出しの精度が向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
この構成によれば、話者属性別発話モデルを用いて話者又は話者属性を推定する。また、話者又は話者属性ごとの音響モデルを備えており、前記の推定結果に応じた音響モデルを用いた認識処理を行なう。この認識処理の結果得られる学習データを用いて話者属性別発話モデルの適応化を行なう。この処理を繰り返すことにより、話者属性別発話モデルの質が向上し、話者又は話者属性を推定する精度が向上し、即ち、話者又は話者属性ごとの音響モデルに適した音声区間を切り出す精度が向上する。よって、認識精度が上がり、より多量の学習モデルを獲得できる。
この構成によれば、前記の推定結果に対応した学習データを用いて、当該推定結果に対応した音響モデルを適応化する。よって、音響モデルの質がより向上し、認識精度が上がり、より多量の学習モデルを獲得できる。
[第1の実施の形態]
図1は、第1の実施形態による音響モデル学習装置の機能構成を示すブロック図である。図示するように、音響モデル学習装置100は、字幕テキスト記憶部1と、形態素解析処理部2と、重み付け処理部3と、ベースラインコーパス記憶部4と、合成処理部5と、バイアス化言語モデル記憶部6(言語モデル記憶部)と、重み付け処理部7と、番組音声記憶部8と、音響モデル記憶部9と、認識処理部10と、認識仮説記憶部11と、アライメント処理部12と、選択処理部13と、学習データ記憶部14と、音響モデル適応化部15とを含んで構成される。
音響モデル記憶部9は、音素とその音素に対応する音響特徴量とを関連付けた音響モデルのデータを記憶する。音響モデルのデータについては後でも説明する。
これは、実験結果からも得られた適切な重み値である。具体的には、本願発明者らが、NHK(日本放送協会)の実際に番組の音声および字幕テキストを用いて行なった実験では、Wbias<5000の領域において、Wlmの変化による単語誤認識率(WER)の差が小さい。また、Wlm<18の領域において、Wbiasの変化による単語誤認識率の差が小さい。そして、Wbias<5000且つWlm<18の場合に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。そして、Wbiasが1000程度でWlmが16程度のときに、特に、単語誤認識率がそれほど上がらずに、且つ得られる学習データの量が多くなる。
図2は、バイアス化言語モデル記憶部6によって記憶され認識処理部10によって認識処理の際に使用される言語モデルのデータの構成を示す概略図である。
図2(a)は、形態素単体での出現確率を表わすテーブルを示す。このテーブルは、表形式のデータであり、形態素と出現確率の項目(列)を有する。テーブルの行は、形態素の種類ごとに存在する。各形態素と、その形態素の出現確率とが関連付けられてこのテーブルに保持される。
図2(b)は、形態素と形態素の接続確率を表わすテーブルである。このテーブルは、表形式のデータであり、形態素1と形態素2と接続確率の項目(列)を有する。テーブルの行は、形態素1と形態素2の組み合わせごとに存在する。各行は、形態素1が出現したときその形態素1に直ちに続いて形態素2が出現する(接続する)確率である接続確率の情報を表わしている。
図3は、音響モデル記憶部9によって記憶され認識処理部10によって認識処理の際に使用される音響モデルのデータの構成を示す概略図である。図示するように、音響モデルは、音素と、その音素が発話されるときの音響的特徴量とを関連付けて保持するデータである。音響的特徴量としては、例えば、10ミリ秒ごとの間隔でそれぞれ開始する25ミリ秒のフレーム内の周波数パワー分布を基にしたMFCC(メル周波数ケプストラム係数,Mel-Frequency Cepstrum Coefficient)や、PLP(Perceptual Linear Predictive)などを用いる。
図4は、音響モデル学習装置100全体の処理手順を示すフローチャートである。
図示するように、ステップS01において、まず形態素解析処理部2が、字幕テキスト記憶部1から読み出した字幕テキストの形態素解析処理を行なう。形態素解析処理は、既存の技術により可能である。
判定の結果、繰り返し処理を終了しない場合(ステップS08:NO)には、次のステップS09に進む。
判定の結果、繰り返しを終了する場合(ステップS08:YES)には、このフローチャート全体の処理を終了する。このとき、学習データ記憶部14に累積的に書き込まれたデータが、本装置による学習処理の結果として得られた音響モデルである。
次に、本発明の第2の実施形態について説明する。
図6は、同実施形態による音響モデル学習装置101の機能構成を示すブロック図である。図示するように、音響モデル学習装置101は、内部に、音響モデル学習装置(番組A用)101Aと音響モデル学習装置(番組B用)101Bと音響モデル学習装置(番組C用)101Cと音響モデル学習装置(番組D用)101Dとを含んで構成されている。これら音響モデル学習装置101A〜101Dの各々は、それぞれ単一の番組用のものである。
なお、音響モデル学習装置101が内部に備える番組個別用の音響モデル学習装置の数は、4に限定されず、任意の自然数として構成しても良い。
言い換えれば、音響モデル記憶部9は音響モデルを番組ごとに記憶するものであり、認識処理部10は番組の音声を当該番組に対応した音響モデルを用いて音声の認識処理を行なうものであり、選択処理部13は番組ごとに学習データを出力し、音響モデル適応化部15は、当該番組用の音響モデルを更新する。
次に、本発明の第3の実施形態について説明する。上記の実施形態では、認識処理部10による認識処理の際の言語モデルと音響モデルそれぞれの重みに影響する重み値Wlmとして固定的な値を用いていた。本実施形態では、音響モデルの適応度合いに応じて、この重み値Wlmを変化させる。
Wlm(n)=13−0.5n ・・・ (1)
とする。つまり、上の式(1)に従えば、1回目の認識処理に用いる重み値Wlm(1)は12.5であり、2回目の認識処理に用いる重み値Wlm(2)は12.0であり、3回目の認識処理に用いる重み値Wlm(3)は11.5であり、以下同様に、前回の認識処理のときよりも小さい重み値Wlm(n)を用いる。これは、認識処理において、前回の認識処理のときよりも言語モデルによる制約の影響をより小さくすることを意味する。
ステップS40の処理が終わると、ステップS34の処理に戻って新たな重み付け係数Wlmによる言語モデルの重み付けを行い、以下、ステップS35以降の処理に続く。
さらにまた、本実施例の変形例として、重み値Wlmと重み値Wbiasの両方を認識処理の繰り返しに伴って徐々に小さくしていっても、今回認識処理においては前回の認識処理のときよりも言語モデルが相対的に音響モデルよりもより小さい重みで用いられるという同様の作用が得られる。
さらに詳細に述べると、第1の実施形態では、認識精度を高めるため、従来技術による方法よりも強い言語的な制約を用いた認識処理を行なうようにしている。つまり、言語モデルの重み付けの度合いを比較的大きくしている。しかしながら、音響モデルを適応化する処理を繰り返すことにより、比較的小さな言語的な制約で認識精度を確保できるようになる。従って、本実施形態では、繰り返し処理による音響モデルの精度向上に応じて言語的制約を減ずるようにしている。この言語的制約の調整により、字幕と発話の不一致区間の検出制度の向上が可能となる。
次に、本発明の第4の実施形態について説明する。本実施形態では、話者の交代あるいは話者の属性の交代を検出し、話者に依存した音響モデル或いは話者の属性に依存した音響モデルを用いて認識処理を行なう点が特徴的である。
音声区間切り出し部18は、女声発話モデル記憶部16Fから読み出した女声発話モデルと男声発話モデル記憶部16Mから読み出した男声発話モデルとを用いて、番組音声の中の、女声で発話されている部分と、男声で発話されている部分と、発話以外の部分(番組中の、例えば無音部分や、背景雑音のみの部分や、音楽の部分や、効果音の部分など)とを区別する。つまり音声区間切り出し部18は、入力される音声がヒトによる発話であるか否かを検出するとともに、発話である場合にはその話者属性(ここでは、話者の性別)を検知する。つまり、音声区間切り出し部18は、話者属性別発話モデルを用いて音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段としても機能する。そして、音声区間切り出し部18は、女声による音声区間と男声による音声区間とをそれぞれ切り出した形で認識処理部10MFに渡す。
このように、音声区間切り出し部18によって切り出された女声音声区間および男声音声区間それぞれに基づいて、女性用および男性用のそれぞれ専用の学習データが得られる。
また、話者属性(性別)に依存した音響モデルを使用して認識処理を行なうことにより、話者属性非依存の音響モデルを用いた場合に比べ、高い認識精度を得ることができ、より多くの学習データを作成することができる。
また、入力音声の統計量を利用して話者或いは話者属性の推定手段(音声区間切り出し部18)を備えた音声アルゴリズムを併用する場合に、得られた学習データを用いて話者推定用の統計量(女声発話モデルおよび男声発話モデル)を適応化するとともに、話者(或いは話者属性)ごとに音響モデルを設けて(音響モデル記憶部9Fおよび9M)、これらをそれぞれ適応化しているため、さらに、認識精度の向上が図れる。
なお、上述した各実施形態における音響モデル学習装置の機能をコンピュータで実現するようにしても良い。その場合、この音響モデル学習の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
例えば、第1の実施形態の説明において、選択処理部13は字幕テキストと認識仮説が3単語以上連続して一致している区間を選択することを説明したが、「3」に限らず、適宜所定の単語数以上連続して位置している区間を選択するようにしても良い。また、語数を基準とする代わりに、所定の文字数(例えば、5文字)以上連続して一致している区間を選択するようにしても良い。
ここで、本願発明者らが実際に行なった認識実験について説明する。
2004年から2007年に放送されたNHK「きょうの健康」94回分の音声と字幕を用いて、音響モデルの学習データを取得し、MLLRとMAPで音響モデルを適応化して認識実験を行なった。評価音声には、2007年6月25日、27日、28日に放送された3回分を用いた。認識実験に用いた言語モデルは、ニュース番組(200万文)と生活情報番組の書き起こし(67万文)に、100倍の重みをつけた評価番組以外の94回分の放送の字幕テキストを加えて学習した。
なお、今回の実験では番組ごとの言語モデルの適応化は行なっていないが、番組関連情報を用いて適応化することによって、より高い精度の言語モデルが利用できる。
認識実験に用いた認識処理部(デコーダ)は、男女別のモノフォンHMMを用いて音声区間を検出し、男女の自動判定(話者属性推定)を行ないながら認識を行なうものである。ベースラインの音響モデルは、340h(男声)と250h(女声)のニュース番組音声であり、区間検出用(音声区間切り出し用)のモノフォンHMM(3状態32混合分布)(発話モデル)、認識用のトライフォンHMM(4000状態、3状態16混合分布)を男女別に作成した。これらの男女別のモノフォンとトライフォンHMMは、各番組用の適応化音響モデルでの認識結果から選択された学習データによって適応化した。
2 形態素解析(Morphological analysis)処理部
3 重み付け処理部
4 ベースラインコーパス(Baseline corpus)記憶部
5 合成処理部
6 バイアス化言語モデル(Biased LM)記憶部(言語モデル記憶部)
7 重み付け処理部
8 番組音声(Program audio)記憶部
9,9F,9M 音響モデル(AM)記憶部
10,10MF 認識(Recognition)処理部
11,11F,11M 認識仮説記憶部
12,12F,12M アライメント(Alignment)処理部
13,13F,13M 選択(Selection)処理部
14,14F,14M 学習データ(Transcripts)記憶部
15,15F,15M 音響モデル適応化部(Adaptation)
16F 女声発話モデル(Female speech model)記憶部(話者属性別発話モデル記憶手段)
16M 男声発話モデル(Male speech model)記憶部(話者属性別発話モデル記憶手段)
17F,17M 発話モデル適応化部(Adaptation)
18 音声区間切り出し部(話者属性推定手段)
100,101,101A〜101D,102 音響モデル学習装置
Claims (5)
- 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、
前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、
前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部と、
を具備し、
前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、
前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、
前記選択処理部は、前記番組ごとに前記学習データを出力し、
前記音響モデル適応化部は、当該番組用の前記音響モデルを更新する、ものであり、
言語モデルを記憶する言語モデル記憶部をさらに具備し、
前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、
且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とする、
ことを特徴とする音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置において、
前記音声の中の発話部分の特徴量を表わす発話モデルを記憶する発話モデル記憶部と、
前記発話モデル記憶部から読み出した前記発話モデルを用いて前記音声の中の発話部分の音声区間を切り出す音声区間切り出し部と、
前記選択処理部が出力した前記学習データを用いて、前記発話モデル記憶部に記憶される前記発話モデルを更新する発話モデル適応化部と、
をさらに具備し、
前記認識処理部は、前記音声区間切り出し部によって切り出された前記音声区間の音声を認識処理する、
ことを特徴とする音響モデル学習装置。 - 請求項1または2のいずれか一項に記載の音響モデル学習装置において、
話者ごと又は話者属性ごとの統計量を表わす話者属性別発話モデルを記憶する話者属性別発話モデル記憶手段と、
前記話者属性別発話モデル記憶手段から読み出した前記話者属性別発話モデルを用いて前記音声の中の所定音声区間における話者又は話者属性を推定する話者属性推定手段と、
をさらに具備し、
前記音響モデル記憶部は、前記話者ごとまたは前記話者属性ごとに区別して前記音響モデルを記憶するものであり、
前記認識処理部は、前記話者属性推定手段による推定結果に応じて、該当する前記話者用または前記話者属性用の前記音響モデルを前記音響モデル記憶部から読み出し、この読み出された前記音響モデルを用いて前記音声の認識処理を行なうものであり、
さらに、
前記話者属性推定手段による推定結果に対応する前記学習データを用いて、前記話者属性別発話モデル記憶手段に記憶された、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの話者属性別発話モデルを更新する話者属性別発話モデル適応化手段を備える、
ことを特徴とする音響モデル学習装置。 - 請求項3に記載の音響モデル学習装置において、
前記音響モデル適応化部は、前記話者属性推定手段による推定結果に対応する前記学習データを用いて、当該推定結果に対応する前記話者ごとまたは前記話者属性ごとの前記音響モデルを更新するものである、
ことを特徴とする音響モデル学習装置。 - 音素と該音素に対応する音響特徴量とを関連付けた音響モデルを記憶する音響モデル記憶部と、
前記音響モデル記憶部から読み出した前記音響モデルを用いて音声の認識処理を行い、認識結果データを出力する認識処理部と、
前記音声に対応するテキストデータと前記認識処理部が出力した認識結果データとに基づき、これら両データの一致区間を選択し、選択した前記一致区間に含まれる音素と当該音素に対応する音響特徴量との組を学習データとして出力する選択処理部と、 前記選択処理部が出力した前記学習データを用いて、前記音響モデル記憶部に記憶される前記音響モデルを更新する音響モデル適応化部と、
を具備し、
前記音響モデル記憶部は、前記音響モデルを番組ごとに記憶するものであり、
前記認識処理部は、前記番組の音声を、当該番組に対応した前記音響モデルを用いて音声の認識処理を行ない、
前記選択処理部は、前記番組ごとに前記学習データを出力し、
前記音響モデル適応化部は、当該番組用の前記音響モデルを更新する、ものであり、
言語モデルを記憶する言語モデル記憶部をさらに具備し、
前記認識処理部は、前記言語モデル記憶部から読み出した前記言語モデルと前記音響モデル記憶部から読み出した前記音響モデルとを所定の重み比率値で重み付けして用いて、認識処理を行なうものであり、
且つ、前記認識処理部は、音響モデル適応化部によって更新された前記音響モデルを用いて再度認識処理を行なうものであり、このとき使用する前記重み比率値は、前回の認識処理のときよりも前記言語モデルがより小さい重みで用いられる値とする、
ことを特徴とする音響モデル学習装置としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008053923A JP4869268B2 (ja) | 2008-03-04 | 2008-03-04 | 音響モデル学習装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008053923A JP4869268B2 (ja) | 2008-03-04 | 2008-03-04 | 音響モデル学習装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009210829A JP2009210829A (ja) | 2009-09-17 |
JP4869268B2 true JP4869268B2 (ja) | 2012-02-08 |
Family
ID=41184051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008053923A Active JP4869268B2 (ja) | 2008-03-04 | 2008-03-04 | 音響モデル学習装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4869268B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4949310B2 (ja) * | 2008-04-10 | 2012-06-06 | 日本放送協会 | 音響処理装置およびプログラム |
JPWO2014024751A1 (ja) * | 2012-08-10 | 2016-07-25 | エイディシーテクノロジー株式会社 | 音声応答装置 |
KR101981332B1 (ko) * | 2012-12-26 | 2019-05-23 | 주식회사 케이티 | 청취 난이도를 이용하여 학습 데이터를 생성하는 서버 및 방법 |
JP6426971B2 (ja) * | 2014-10-16 | 2018-11-21 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
US20170323644A1 (en) * | 2014-12-11 | 2017-11-09 | Nec Corporation | Speaker identification device and method for registering features of registered speech for identifying speaker |
US10540957B2 (en) | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US9922664B2 (en) | 2016-03-28 | 2018-03-20 | Nuance Communications, Inc. | Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems |
JP6578049B2 (ja) * | 2018-09-18 | 2019-09-18 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
JP7131362B2 (ja) * | 2018-12-20 | 2022-09-06 | トヨタ自動車株式会社 | 制御装置、音声対話装置及びプログラム |
KR102152902B1 (ko) * | 2020-02-11 | 2020-09-07 | 주식회사 엘솔루 | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4779239B2 (ja) * | 2001-06-13 | 2011-09-28 | 日本電気株式会社 | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム |
JP2003099083A (ja) * | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
-
2008
- 2008-03-04 JP JP2008053923A patent/JP4869268B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920432A (zh) * | 2019-03-05 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US11264034B2 (en) | 2019-03-05 | 2022-03-01 | Baidu Online Network Technology (Beijing) Co., Ltd | Voice identification method, device, apparatus, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2009210829A (ja) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
Zhao et al. | Shallow-Fusion End-to-End Contextual Biasing. | |
US11545142B2 (en) | Using context information with end-to-end models for speech recognition | |
US20200120396A1 (en) | Speech recognition for localized content | |
US10917758B1 (en) | Voice-based messaging | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
US7983911B2 (en) | Method, module, device and server for voice recognition | |
EP2356651B1 (en) | Adaptation of automatic speech recognition acoustic models | |
Woodland et al. | The development of the 1996 HTK broadcast news transcription system | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
US20060287867A1 (en) | Method and apparatus for generating a voice tag | |
JP6637332B2 (ja) | 音声言語コーパス生成装置およびそのプログラム | |
Lanchantin et al. | The development of the Cambridge University alignment systems for the Multi-Genre Broadcast challenge | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2013050605A (ja) | 言語モデル切替装置およびそのプログラム | |
GB2451938A (en) | Methods and apparatus for searching of spoken audio data | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4949310B2 (ja) | 音響処理装置およびプログラム | |
US11563708B1 (en) | Message grouping | |
Siohan | CTC Training of Multi-Phone Acoustic Models for Speech Recognition. | |
Kubala et al. | Broadcast news transcription | |
JP2004347732A (ja) | 言語自動識別方法及び装置 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
Ang et al. | Automatic speech recognition for closed-captioning of Filipino news broadcasts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4869268 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |