JPH10254480A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH10254480A JPH10254480A JP9059397A JP5939797A JPH10254480A JP H10254480 A JPH10254480 A JP H10254480A JP 9059397 A JP9059397 A JP 9059397A JP 5939797 A JP5939797 A JP 5939797A JP H10254480 A JPH10254480 A JP H10254480A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- search
- stage
- recognition result
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
声認識処理を高速に行う音声認識方法を提供する。 【解決手段】入力音声の音響的な特徴からその認識結果
を判定する音響モデルと、文法的な特徴から認識結果を
判定する言語モデルとを用いて、複数段階の判定・探索
により認識結果を得る連続音声認識方法であって、1段
階目の探索で簡単な音響モデルと簡単な言語モデルを用
いて入力音声に対して高い評価値を与える認識結果の上
位N個の仮説を出力し(ステップS110)、2段階目以降の
探索を行う際に、1段階目の探索で絞り込んだ候補群の
再評価に必要な高度な言語モデルをあらかじめ抽出し
(ステップS140)、2段階目以降の探索で高度な音響モ
デルおよび高度な言語モデルを用いて1段階目の候補を
再評価し、評価値の高い候補を認識結果とする(ステッ
プS150)。
Description
声を認識あるいは理解するための装置に実装して用いる
のに好適な連続音声認識方法に関する。
デル化する手法である隠れマルコフモデル(Hidden Mar
kov Model:HMM)を用いた音声認識システムでは、
一認識対象カテゴリ、つまり音素、音節、単語などの語
彙(あるいは認識対象単位)ごとに、一つ、あるいは複
数のHMMを設定し、学習用音声を用いて学習する。認
識時には、音声認識システムの入力音声がそれらのモデ
ルから観測される確率を計算し、尤度(尤もらしさ)の
最も高い順に認識結果候補としている。HMMは、統計
的なモデルであるから学習用音声中に現れた頻度に従っ
て、ある音響的特徴量とあるカテゴリとを関連づける強
さを内部に確率分布として表現する。
などにより音響的な特徴量が変動しやすく、また発音が
似ているあるいは同じ単語が存在するため、音響的な特
徴パラメータだけから正確な音声認識を行うことが困難
である。そこで、文法的な特徴から認識結果を判定する
ための言語モデルを用い、文脈によってより出現しやす
い単語により重みをおいて評価するなどの言語的な処理
により認識精度を向上する手法が取られる。
モデルから得られる尤度(スコア)に対して簡単な言語
モデル(単語bigram(バイグラム:2連語)など)を用
いてペナルティを加えたものを評価値として、評価値の
高い認識候補(仮説)から順に上位N位までの候補を出
力し、その候補に対して高度(高精度)な言語モデル
(単語trigram(トライグラム:3連語)など)を用い
て再び評価を行うことにより認識結果を出力していた
が、高度な言語モデルは種類数が多いため探索空間が非
常に大きくなり、探索に時間がかかってしまうという問
題があった。したがって、高度な言語モデルをより効率
的に音声認識に用いる方法が必要であった。
いて、高性能な連続音声認識処理を高速に行う音声認識
方法を提供することにある。
め、請求項1記載の発明は、入力音声の音響的な特徴か
らその認識結果を判定する音響モデルと、文法的な特徴
から認識結果を判定する言語モデルとを用いて、複数段
階の判定・探索により認識結果を得る連続音声認識方法
であって、1段階目の探索で簡単な音響モデルと簡単な
言語モデルを用いて入力音声に対して高い評価値を与え
る認識結果の複数の候補を出力し、2段階目以降の探索
で高度な音響モデルおよび高度な言語モデルを用いて1
段階目の候補を再評価し評価値の高い候補を認識結果と
する音声認識処理において、2段階目以降の探索を行う
際に1段階目の探索で絞り込んだ候補群の評価に必要な
高度な言語モデルをあらかじめ抽出しておくことを特徴
としている。
記載の方法の言語モデルの抽出処理において、1段階目
の探索で絞り込んだ候補群に現れる複数の言語モデルを
それぞれ整列しておき、2段階目以降の探索に必要な言
語モデルの抽出処理を高速に行うことを特徴としてい
る。
音響的な特徴からその認識結果を判定する音響モデル
と、文法的な特徴から認識結果を判定する言語モデルと
を用いて、複数段階の判定・探索により認識結果を得る
連続音声認識方法であって、1段階目の探索で第1の言
語モデルを用いて入力音声に対して高い評価値を与える
認識結果の複数の候補を出力し、2段階目以降の探索で
前記第1の言語モデルと異なる第2の言語モデルを用い
て前記1段階目の候補を再評価する音声認識処理におい
て、前記2段階目以降の探索を行う際に前記1段階目の
探索で絞り込んだ前記第1の言語モデルによる候補群の
評価に必要な前記第2の言語モデルをあらかじめ抽出し
ておくことを特徴としている。
度な言語モデルを用いて認識候補の再評価を行う際、言
語モデルの中から再評価に必要なエントリ(見出し語)
だけをあらかじめ抽出しておくことにより、必要なエン
トリを逐次検索する方法に比べ、効率的に検索を行うこ
とが可能であり、それにより高速な音声認識処理が実現
できるという利点がある。複数段階の判定・探索により
認識結果を得る連続音声認識方法では、第1段階の探索
の結果絞り込まれた候補群を評価するのために第2段階
以降の探索で必要とされる高度な言語モデルは、高度な
言語モデルのデータベース全体からみてごく一部であ
り、かつ同じ種類の言語モデルが繰り返し参照される回
数が多くなる。したがって、必要とされる高度な言語モ
デルだけを膨大な高度な言語モデルデータベースからあ
らかじめ抽出しておくことにより、検索の効率を向上さ
せることができる。
の一実施形態について説明する。簡単な言語モデルとし
て単語バイグラム、高度な言語モデルとして単語トライ
グラムをそれぞれ用いた大語彙連続音声認識の場合を例
として本発明の一実施形態を説明する。大語彙連続音声
認識システムは、図1に示すように音響特徴量分析部10
0とデコーダー110からなり、デコーダー110では、音響
モデルのデータベース120と言語モデルのデータベース1
30によって入力音声の特徴量が評価される。2段階の探
索を行う場合のデコーダーは図2のようになる。認識対
象である音声入力は、特徴量分析により音響パラメータ
ベクトルの時系列(音響特徴量)にされ、デコーダー1・
210において簡単な音響モデルのデータベース220と簡単
な言語モデルのデータベー230により尤度が計算され
る。デコーダー1・210は計算された尤度に基づいて上位
N個の仮説を1段階目の探索の結果として出力する。本
実施形態では、デコーダー1・210からデコーダー2・310へ
渡されるものは、(1)探索結果の上位N個の候補群と(2)
候補群の評価に必要な高度な言語モデルエントリを整列
したものである。ただし、(2)に関しては、このように
デコーダー1・210で生成・整列するようにしてもよい
し、デコーダー2・310で生成・整列するようにしてもよ
い。
が、1段階目からの出力を高度な音響モデルのデータベ
ース320と高度な言語モデルのデータベース330を用いて
再び評価する。本実施形態では、簡単な言語モデルのデ
ータベース230は、単語の2つ組の出現確率を大量の学
習用テキストデータから学習した単語バイグラムであ
り、高度な言語モデルのデータベース330は単語3つ組
の確率を学習した単語トライグラムである。高度な音響
モデルのデータベース320としては、例えばパラメータ
数の多いモデルや前後の音素や単語などに基づいて細か
く分類されたモデルを用いたり、あるいは同一のモデル
を用いることができる。第1段階と第2段階で異なる音
響モデルを用いるのは、第1段階の探索を高速に処理す
る必要がある場合である。要求される処理速度の範囲内
ではできるだけ高精度な音響モデルを第1段階から用い
るのが望ましい。この実施形態では、音響モデルのデー
タベース220,320における音響モデルとして、1段階
目、2段階目ともに同じものを用いることとする。
ておき、単語バイグラムおよび単語トライグラムはこの
通し番号によって整列されて単語バイグラム、単語トラ
イグラムデータベースにそれぞれ格納されている。ま
た、1段階目の探索の出力結果の再評価に必要な単語ト
ライグラムも通し番号で整列されて格納される。3つ組
の単語の1番目の単語が同じものについては2番目の単
語に着目して整列し、1、2番目が同じものについては
3番目の単語に着目して整列する。
わち簡単な言語モデルのデータベース230における各言
語モデルの整列形態の一例を示す図である。簡単な言語
モデルを形成する単語語彙の総数をmとし、簡単な言語
モデルの全体数nをm×mとした。この図において、通し
番号1の簡単な言語モデル1は、単語1と単語1からなるバ
イグラムであり、単語1のあとに単語1が出現する確率
(条件付き出現確率:バイグラム確率)はp1である。ま
た、通し番号2の簡単な言語モデル2は、単語1と単語2か
らなるバイグラムであり、単語1のあとに単語2が出現す
る条件付き出現確率はp2である。そして、以降、同様に
単語バイグラムと条件付き出現確率が配列され、例えば
通し番号nの簡単な言語モデルnは、条件付き出現確率が
pnである単語mと単語mからなるバイグラムとなる。この
ように本実施形態では簡単な言語モデルのデータベース
230を、語彙単語にあらかじめ付与した通し番号1〜mに
基づいて、簡単な言語モデルの通し番号1〜nと出現確率
p1〜pnの整列させて構成した。
なわち高度な言語モデルのデータベース330における各
言語モデルの整列形態の一例を示す図である。高度な言
語モデルを形成する単語語彙の総数は、図3に示した簡
単な言語モデルの単語語彙数mと同一とし、高度な言語
モデルの全体数Mをn×mすなわちm3とした。この場合、
通し番号1の高度な言語モデル1は図3に示す簡単な言語
モデル1(単語1と単語1からなるバイグラム)と単語1か
ら構成され、簡単な言語モデル1のあとに単語1が出現す
る条件付き出現確率はP1である。以降、同様に、通し番
号2の高度な言語モデル2は、簡単な言語モデル1と単語2
からなるトライグラムであり、その条件付き出現確率は
P2である。そして、通し番号Mの高度な言語モデルMは、
条件付き出現確率がpMである簡単な言語モデルnと単語m
からなるトライグラムである。このように本実施形態で
は、高度な言語モデルのデータベース330を、語彙単語
にはあらかじめ付与した通し番号1〜mと簡単な言語モデ
ルの通し番号1〜nの両者に基づいて各条件付き出現確率
p1〜pMを整列することによって構成した。
に必要な単語トライグラムの確率値(トライグラム確
率)を高度な言語モデルのデータベース(単語トライグ
ラムデータベース)310から取り出すのだが、それぞれ
のファイルの内容、すなわち1段目の探索結果の候補群
の再評価に必要な単語トライグラムのエントリがソート
されているので、必要な単語トライグラムの1番目と整
合するものを単語トライグラムデータベースの最初から
探索していき、整合するものを見つけて確率値を取り出
したら、必要な単語トライグラムの2番目と整合するも
のを単語トライグラムデータベースの先の探索が終わっ
た点から探しはじめればよい。つまり必要となる単語ト
ライグラムの種類数をN、言語モデルにあるすべての単
語トライグラムの種類数をMとする場合に、最大でM回の
照合を行えばよいことになる。これに対して再評価に必
要な単語トライグラムおよび単語トライグラムデータベ
ースが整列されていない場合には、最大でN*M回の照合
が必要になる。
大語彙連続音声認識システムによる認識処理の流れを示
すフローチャートである。まず、入力音声に対して、図
1に示すような音響特徴量分析部100において、音響的
特徴分析が行われ、音響特徴量として時系列音声パラメ
ータベクトルが出力される(ステップS100)。出力され
た時系列音声パラメータベクトルは、デコーダー1・210
へと入力され、簡単な音響モデルのデータベース220と
簡単な言語モデルのデータベース230とを用いて尤度が
計算され、上位N個の仮説が求められる(ステップS11
0)。ここで上位N個の仮説として、第1候補の文W1W2W
3W4W5、第2候補の文W1W6W3W4W5、第3候補の文W1W2W3W
7W5、…、第N候補の文W8W2W3W4W9が求められたと仮定
する(Wk(k:整数)は単語を表す)。
評価に必要な高度な言語モデルのエントリが求められる
(ステップS120)。上記の例では、必要なトライグラム
として、W1W2W3,W2W3W4,W3W4W5,W1W6W3,W6W3W4,W2
W3W7,W3W7W5,…,W8W2W3,W3W4W9が求められる。求め
られた高度な言語モデルのエントリは、高度な言語モデ
ルのデータベース330の配列に対応するように整列さ
れ、デコーダー1・210から出力される(ステップS13
0)。上記の例では、整列した仮説の評価に必要な高度
な言語モデルのエントリとして、例えば、W1W2W3,W1W6
W3,W2W3W4,W2W3W7,W3W4W5,W3W4W9,W3W7W5,…,W6
W3W4,W8W2W3が出力される。
理として、高度な言語モデルのデータベース330を探索
して、整列された仮説の再評価に必要な複数の高度な言
語モデルのエントリに整合する高度な言語モデルを抽出
する(ステップS140)。そしてデコーダー2・310は、高
度な音響モデル(ここでは簡単な音響モデルと同一)の
データベース320と、ステップS140で抽出した高度な言
語モデルを用いて、上位N個(文)の仮説を再評価し、
評価値の高い候補を認識結果として出力する(ステップ
S150)。
イグラムの種類数Nに依存するため、1文ずつ処理を行
う場合よりも多数の文を一度に処理する場合に本発明の
効果は大きい。また、2段階以降の探索を単語遷移ペナ
ルティなどのパラメータを変えて複数回(複数段階)行
う場合には、あらかじめ抽出してある言語モデルをその
まま用いることができるため、再試行の回数に関わりな
く抽出処理は1度でよく、Q回の再試行に対して逐次処
理の1/Qの抽出処理しか必要としない。
語バイグラムが70002すなわち4900万通り、単語トライ
グラムが70003すなわち343億通りあり得ることになる。
1文あたり平均20単語の文、100文に対してそれぞれ上位
300位までの候補を出力し、単語トライグラムを用いて
再評価する場合に2段階目の探索で必要となる単語トラ
イグラムの種類は約2万3千種類となった。つまり、本発
明の方法によれば照合回数を2万3千分の1とすることが
できることになる。
莫大な種類数をもつ言語モデルデータベースから、入力
音声の再評価に必要な言語モデルエントリの集合をあら
かじめ抽出しておくことにより、大語彙連続音声認識処
理を効率的に行うことができるという利点がある。
示すブロック図である。
ブロック図である。
例を示す図表である。
例を示す図表である。
を示すフローチャートである。
Claims (3)
- 【請求項1】 入力音声の音響的な特徴からその認識結
果を判定する音響モデルと、文法的な特徴から認識結果
を判定する言語モデルとを用いて、複数段階の判定・探
索により認識結果を得る連続音声認識方法であって、1
段階目の探索で簡単な音響モデルと簡単な言語モデルを
用いて入力音声に対して高い評価値を与える認識結果の
複数の候補を出力し、2段階目以降の探索で高度な音響
モデルおよび高度な言語モデルを用いて1段階目の候補
を再評価し評価値の高い候補を認識結果とする音声認識
処理において、 2段階目以降の探索を行う際に1段階目の探索で絞り込
んだ候補群の評価に必要な高度な言語モデルをあらかじ
め抽出しておくことを特徴とする音声認識方法。 - 【請求項2】 請求項1に記載の方法の言語モデルの抽
出処理において、1段階目の探索で絞り込んだ候補群に
現れる複数の言語モデルをそれぞれ整列しておき、2段
階目以降の探索に必要な言語モデルの抽出処理を高速に
行うことを特徴とする請求項1に記載の音声認識方法。 - 【請求項3】 入力音声の音響的な特徴からその認識結
果を判定する音響モデルと、文法的な特徴から認識結果
を判定する言語モデルとを用いて、複数段階の判定・探
索により認識結果を得る連続音声認識方法であって、1
段階目の探索で第1の言語モデルを用いて入力音声に対
して高い評価値を与える認識結果の複数の候補を出力
し、2段階目以降の探索で前記第1の言語モデルと異な
る第2の言語モデルを用いて前記1段階目の候補を再評
価する音声認識処理において、 前記2段階目以降の探索を行う際に前記1段階目の探索
で絞り込んだ前記第1の言語モデルによる候補群の評価
に必要な前記第2の言語モデルをあらかじめ抽出してお
くことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9059397A JPH10254480A (ja) | 1997-03-13 | 1997-03-13 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9059397A JPH10254480A (ja) | 1997-03-13 | 1997-03-13 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10254480A true JPH10254480A (ja) | 1998-09-25 |
Family
ID=13112119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9059397A Pending JPH10254480A (ja) | 1997-03-13 | 1997-03-13 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10254480A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082691A (ja) * | 2000-08-08 | 2002-03-22 | Koninkl Philips Electronics Nv | 発声内に含まれる会社名の自動認識方法 |
WO2003010754A1 (fr) * | 2001-07-23 | 2003-02-06 | Japan Science And Technology Agency | Systeme de recherche a entree vocale |
JPWO2010128560A1 (ja) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
JPWO2013005248A1 (ja) * | 2011-07-05 | 2015-02-23 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
-
1997
- 1997-03-13 JP JP9059397A patent/JPH10254480A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002082691A (ja) * | 2000-08-08 | 2002-03-22 | Koninkl Philips Electronics Nv | 発声内に含まれる会社名の自動認識方法 |
WO2003010754A1 (fr) * | 2001-07-23 | 2003-02-06 | Japan Science And Technology Agency | Systeme de recherche a entree vocale |
JPWO2010128560A1 (ja) * | 2009-05-08 | 2012-11-01 | パイオニア株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
JPWO2013005248A1 (ja) * | 2011-07-05 | 2015-02-23 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5842163A (en) | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
Jelinek | Statistical methods for speech recognition | |
US6397179B2 (en) | Search optimization system and method for continuous speech recognition | |
EP1922653B1 (en) | Word clustering for input data | |
Valtchev et al. | Lattice-based discriminative training for large vocabulary speech recognition | |
WO2015118645A1 (ja) | 音声検索装置および音声検索方法 | |
WO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP2001249684A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN111145729A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
Mangu et al. | Error corrective mechanisms for speech recognition | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Huang et al. | A fast algorithm for large vocabulary keyword spotting application | |
JPH10254480A (ja) | 音声認識方法 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2965529B2 (ja) | 音声認識装置 | |
Whittaker et al. | Vocabulary independent speech recognition using particles | |
JP3494338B2 (ja) | 音声認識方法 | |
JPH08248988A (ja) | 音声認識方法 | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition | |
JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
JP4689497B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Effective date: 20040714 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Effective date: 20040720 Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040730 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20080806 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 4 Free format text: PAYMENT UNTIL: 20080806 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 6 Free format text: PAYMENT UNTIL: 20100806 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100806 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110806 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110806 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 8 Free format text: PAYMENT UNTIL: 20120806 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120806 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Year of fee payment: 9 Free format text: PAYMENT UNTIL: 20130806 |
|
LAPS | Cancellation because of no payment of annual fees |