JPH0627985A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0627985A JPH0627985A JP4179704A JP17970492A JPH0627985A JP H0627985 A JPH0627985 A JP H0627985A JP 4179704 A JP4179704 A JP 4179704A JP 17970492 A JP17970492 A JP 17970492A JP H0627985 A JPH0627985 A JP H0627985A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- statistical language
- likelihood
- speech
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
各学習用テキストデータベースからそれぞれ音節、単語
などの生起順序に関する統計的言語モデル6を予め用意
しておき、発声タスク(発声音声の内容)のサンプルを
用いてこれと類似した統計的言語モデルを選択部5で選
択し、その選択した統計的言語モデル8を用いて、それ
までの認識結果から次に出現されると予測される尤度の
高い複数の候補ユニット(音節や単語)を選出し、これ
ら選出した候補ユニットの標準パターンをメモリ4から
取出し、これら各標準パターンと入力音声との類似度を
求め、これら類似度とその候補ユニットの生起尤度との
和を総合尤度とし、これが最も大きいものを認識結果と
して出力する。
Description
(例えば、Bahl,L.他“A Statistic
al Approach to Continuous
SpeechRecognition”IEEE T
rans.on PAMI(1983))を用いた音声
認識方法に関する。
識方法として、学習用テキストデータベースより、音節
や単語の生起順序に関する統計的言語モデルと、音節や
単語の標準パターン(例えば、隠れマルコフモデル等)
とを予め作成しておき、入力音声に対し、統計的言語モ
デルを用いて、既に認識した直前の複数の音節や単語か
ら、次に生起する確率の高い複数の音節や単語候補を選
出し、これら選出した音節や単語候補のそれぞれについ
てその音節や単語の標準パターンと入力音声とを照合し
て、生起尤度と標準パターンとの類似尤度との総合的尤
度の最も高い音節や単語を認識結果として出力すること
が提案されている。
は統計的言語モデルが、認識タスク(発声内容)に類似
した大規模なものでなければならなかった。例えば、統
計的言語モデルが新聞の社説の大規模なデータベースか
ら作成されたものであれば、社説の内容の発声に対する
認識に有効であるが、例えば電話会議登録などの異なる
タスクに対する認識には有効性が低かった。つまり、異
なるタスクを認識させる場合にはそれに応じた大規模な
テキストデータを作成しなければならなかった。
るタスクのテキストデータベースからそれぞれ生起順序
に関する統計的言語モデル群を予め用意しておき、その
統計的言語モデル群の中から、予め得た少量の発声用テ
キストと類似した統計的言語モデルを自動的に選出し、
この選出したモデルを音声認識用統計的言語モデルに用
いる。このように適応型統計的言語モデルを用いて認識
することで、任意の統計的言語モデルを用いる場合より
認識性能が上昇する。
例えばKullbackのdivergence(坂井
利之他「パターン認識の理論」共立出版(1967))
を用いればよい。具体的には、2つの統計的言語モデル
をA,Bで表し、モデル間の距離をD、モデルの各要素
(例えば、文字の三つ組(例えば、「あいう」等)の出
現する確率、トライグラム)をモデルAに関してPn
(A)、モデルBに関してPn(B)、とすると、 D(A,B)=(Σ(Pn(A)−Pn(B)(logPn(A) −logPn(B))/N で表す。ここで、Σはn=1からNまで、Nは要素数
(例えば、三つ組の種類数)である。Dの値が小さい
程、A,Bは類似している。
1から入力された音声は、特徴抽出部2においてディジ
タル信号に変換され、更にLPCケプストラム分析され
た後、1フレーム(例えば10ミリ秒)ごとに特徴パラ
メータに変換される。この特徴パラメータは例えばLP
Cケプストラム係数である。
特徴パラメータと同一形式で、音節あるいは単語の標準
パターンを作り、標準パターンメモリ4に記憶してお
く。また、統計モデル選択部は5、認識に用いる統計的
言語モデル8を、統計的言語モデル群6の統計的言語モ
デル(M1,M2,…,MI、Iは言語モデルの数)の
中から、認識タスクに関する言語モデル7に最も類似し
ている統計的言語モデル8(Mj)を選択する。新聞の
社説、会議登録、旅行案内など異なるタスク(発声内
容)についての各学習用テキストデータベースからそれ
ぞれの音節や単語の生起順序に関する統計的言語モデル
を予め作成しておき、これらを統計的言語モデル群6と
する。
デル8(Mj)を用いて選出した複数の音節や単語の候
補について、その候補の標準パターンを標準パターンメ
モリ4から読みだし、入力音声のパラメータとの類似度
(尤度)をそれぞれ求める。つまり例えば入力音声のi
番目のユニット(音節や単語)を認識するには、選択し
た統計的言語モデル8からユニットの出現順序に関する
トライグラムを用いて、(i−2)番目と(i−1)番
目との各ユニットの認識結果を基に、i番目に出現され
ると予測される尤度が高い複数のユニットを候補ユニッ
トk1〜knとして選出する(図2)。これら選出され
た各候補ユニットk1〜knに対する標準パターンと入
力音声との尤度(類似度)をそれぞれ求め、その候補ユ
ニットのi番目に出現する尤度と、その標準パターンと
の類似性を示す尤度との和を総合尤度とし、この尤度が
最も高い候補ユニット、例えばk2をi番目の認識結果
として認識結果出力部9へ出力する。
ての標準パターンとの照合と、その総合尤度から認識結
果ユニットを得る操作とを音声区間が終わるまで繰り返
し、最後に、それまで得られた認識結果ユニットを、そ
の順に入力音声の認識結果の系列として出力する。な
お、特徴抽出部2、認識部3、認識結果出力部9、統計
的言語モデルの選択部5はそれぞれ専用、または兼用の
マイクロプロセッサにより処理することができる。
ergenceに限るわけではない。たとえば、ユーク
リッド距離等の距離が算出できるいずれの尺度でもよ
い。また統計的言語モデルや認識標準パターンのユニッ
トは音節や単語だけでなく、音素やかな、漢字などの文
字単位であってもよい。認識手法は隠れマルコフモデル
に限らず、DPマッチングを用いても良い。統計的言語
モデルもトライグラムに限らず、バイグラムやユニグラ
ムの統計量でも良い。
発声タスクと類似した統計的言語モデルを用いるため、
任意の統計的言語モデルを用いる場合よりも高い認識性
能が予期される。会議登録に関する発声タスク279文
節に対して文節認識率による評価を行った。例えば、旅
行案内に関するテキストを統計的言語モデルとして用い
た場合、認識性能は42%であるが、会議登録に関する
テキストを用いた場合には認識性能は64%に上昇し
た。
会議登録に関するキーボード会話の4種の統計的言語モ
デルの中から会議登録に関する電話会議と最も類似した
統計的言語モデルを、この発明方法の中の統計モデル選
択部を用いて選んだ場合、会議登録に関するキーボード
会話が選ばれ、本選択が適切であることが示された。な
お、複数の統計的言語モデルの群を用意しておくことな
く、雑誌記事、論説文、新聞、旅行案内、会議登録など
の各学習用テキストデータベースを用意しておき、発声
タスクのサンプルを用いて、これと類似した学習用テキ
ストデータベースを選択し、その選択した学習用テキス
トデータベースから生起順序に関する統計的言語モデル
を作り、この統計的言語モデルを音声認識に使用しても
よい。しかしこの場合は各種の学習用テキストデータベ
ースを用意しておくために、より多くの記憶容量が必要
であり、かつ発声タスクと学習用テキストデータベース
との類似性を調べるには統計量を用いることになり、統
計的言語モデルとの類似性を調べる方が処理が簡単とな
る。
これより認識結果を出力する説明図。
Claims (1)
- 【請求項1】 入力音声を特徴パラメータの時系列と
し、生起順序に関する統計的言語モデルを用いて、上記
入力音声の特徴パラメータ時系列について、複数の音声
認識候補を選出し、これらの各音声認識候補について、
音声標準パターンと上記入力音声の特徴パラメータ時系
列とをそれぞれ照合して、生起の尤度と類似の尤度との
総合尤度の高い候補を認識結果とする音声認識方法にお
いて、 異なるタスクの学習用テキストデータベースからそれぞ
れ作成された生起順序に関する統計的言語モデル群を予
め用意しておき、 発声するタスクのサンプルを用いて、発声タスク(発声
する音声の内容)と類似した統計的言語モデルを上記統
計的モデル群から選択し、 その選択した統計的言語モデルを、上記複数の音声認識
候補の選出に使用することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17970492A JP3240691B2 (ja) | 1992-07-07 | 1992-07-07 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17970492A JP3240691B2 (ja) | 1992-07-07 | 1992-07-07 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0627985A true JPH0627985A (ja) | 1994-02-04 |
JP3240691B2 JP3240691B2 (ja) | 2001-12-17 |
Family
ID=16070422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17970492A Expired - Lifetime JP3240691B2 (ja) | 1992-07-07 | 1992-07-07 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3240691B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917910B2 (en) | 1999-12-27 | 2005-07-12 | International Business Machines Corporation | Method, apparatus, computer system and storage medium for speech recognition |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8620663B2 (en) | 2008-08-13 | 2013-12-31 | Nec Corporation | Speech synthesis system for generating speech information obtained by converting text into speech |
US8606583B2 (en) | 2008-08-13 | 2013-12-10 | Nec Corporation | Speech synthesis system for generating speech information obtained by converting text into speech |
-
1992
- 1992-07-07 JP JP17970492A patent/JP3240691B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917910B2 (en) | 1999-12-27 | 2005-07-12 | International Business Machines Corporation | Method, apparatus, computer system and storage medium for speech recognition |
Also Published As
Publication number | Publication date |
---|---|
JP3240691B2 (ja) | 2001-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US7174288B2 (en) | Multi-modal entry of ideogrammatic languages | |
JP2991473B2 (ja) | 文字の認識方法及び音素の認識方法 | |
US8185376B2 (en) | Identifying language origin of words | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US6236964B1 (en) | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data | |
US9978364B2 (en) | Pronunciation accuracy in speech recognition | |
US20160336007A1 (en) | Speech search device and speech search method | |
US6502072B2 (en) | Two-tier noise rejection in speech recognition | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP3444108B2 (ja) | 音声認識装置 | |
El Méliani et al. | Accurate keyword spotting using strictly lexical fillers | |
JP3240691B2 (ja) | 音声認識方法 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JPH04291399A (ja) | 音声認識方法 | |
JPH06289894A (ja) | 日本語音声認識方法 | |
JPH0612091A (ja) | 日本語音声認識方法 | |
US20060206301A1 (en) | Determining the reading of a kanji word | |
JP3009709B2 (ja) | 日本語音声認識方法 | |
JP4689497B2 (ja) | 音声認識装置 | |
JPH10254480A (ja) | 音声認識方法 | |
JP3430265B2 (ja) | 日本語音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071019 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081019 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091019 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 11 |