JP3042455B2 - 連続音声認識方式 - Google Patents

連続音声認識方式

Info

Publication number
JP3042455B2
JP3042455B2 JP9201685A JP20168597A JP3042455B2 JP 3042455 B2 JP3042455 B2 JP 3042455B2 JP 9201685 A JP9201685 A JP 9201685A JP 20168597 A JP20168597 A JP 20168597A JP 3042455 B2 JP3042455 B2 JP 3042455B2
Authority
JP
Japan
Prior art keywords
word
inter
acoustic model
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9201685A
Other languages
English (en)
Other versions
JPH1145097A (ja
Inventor
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9201685A priority Critical patent/JP3042455B2/ja
Publication of JPH1145097A publication Critical patent/JPH1145097A/ja
Application granted granted Critical
Publication of JP3042455B2 publication Critical patent/JP3042455B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は連続音声認識方式に
関し、特に、音素環境依存音響モデルを用いた大語彙連
続音声認識のサーチ方式に関するものである。
【0002】
【従来の技術】従来、大語彙連続音声認識を高速に行う
方法として、まず第一ステップ(forward pa
ss)でフレーム同期のビタビビームサーチを行って各
フレームでアクティブ(ビーム内に残っている)であっ
た単語の終端の情報を保存し、つぎに第二ステップ(b
ackward pass)で、第一ステップで保存し
た単語終端情報を利用して、入力の終端から逆向きにビ
タビビームサーチを行う方法が知られている(“The
Forward−Backward Search
Algorithm”,Proc.ICASSP−9
1, pp.697−700(以下、引用文献1と称
す))。第二ステップでは、各フレームにおいて単語始
端から先行する単語へ仮説を展開する際に、第一ステッ
プで終端がアクティブでなかった単語や、あるいはスコ
アの悪かった単語については探索を行わないようにする
ことにより、大幅に計算量を削減できる。
【0003】一般に、第一ステップでは単語ごとに仮説
を保持するなど精度の粗い探索を行い、第二ステップで
は、たとえばN−best(上位N候補)を求めるため
に連続する2単語の組ごとに仮説を保持するなど、第一
ステップより精度の細かい探索を行う。これにより、最
初から精度の細かい探索を行う場合に比べ、全体の計算
量を大幅に削減することが可能となる。
【0004】一方、一般に音声認識において、音素等を
単位とした音響モデルを用いる場合、前後の音素環境
(コンテキスト)に依存したモデルが有効であることが
知られている。たとえば、前後一つずつの音素に依存し
た音素モデルであるトライフォンモデルは広く使われて
おり、また、前後の一方だけの音素や、前後二つ以上の
音素に依存した音素モデルを用いることもある。連続音
声認識の場合、単語内だけでなく単語境界にも音素環境
依存の音響モデルを用いる方が精度がよいことが知られ
ているが、単語の始終端に用いる音響モデルが前後に接
続する単語に依存するため、環境に依存しない音響モデ
ルを用いる場合に比べ、処理量が大幅に増えてしまう。
この状況を簡略化した例を図7を用いて説明する。
【0005】図7は「ここ」「そこ」「から」「まで」
の4単語が自由な順序でつながる連続音声を認識する場
合で、音響モデルとして後続音素に依存する音素モデル
を用いる例である。たとえば、後続音素が/o/である
音素/k/の音響モデルを“k(o)”などと表してい
る。図中、黒丸は単語終端を表し、前記第一ステップ
で、各フレームごとにアクティブであったものについ
て、その情報を保存する。
【0006】各単語の終端について、後続する単語とし
て4単語の可能性があり、その最初の音素としては/k
/,/s/,/m/の3通りの可能性があるので、各単
語の終端に用いる音響モデルはそれぞれに応じて音素環
境依存モデルを用意する必要がある。したがって、全体
として照合すべき音響モデルの数は24となる。大語彙
の場合は、単語終端における後続音素の種類数が多くな
るため、単語境界での音響モデル数の増大はさらに大き
く、処理量が大幅に増大する。実際にはビームサーチを
行っているため、常にすべてのモデルと照合するわけで
はないが、全体の探索空間が広くなるため精度を確保す
るためにはビーム幅を大きくとらなければならず、結果
的に処理量が増大することになる。
【0007】この問題に対し、単語内には音素環境依存
の音響モデルを用い、単語境界では環境に依存しない音
響モデルを使用する連続音声認識方式が、特開平5−2
24692に開示されている。これにより、単語間での
処理量の増大を抑えることができる。これを前述の4単
語の例に適用すると、図8のようになる。ここで、たと
えば、“o(*)”は後続音素によらない/o/の音響
モデルを表す。全体として照合すべき音響モデルの数は
16に削減される。大語彙の場合は、さらに削減効果は
大きい。
【0008】
【発明が解決しようとする課題】上述した従来の連続音
声認識方式は、精度を向上させるために音素環境依存モ
デルを使用すると、単語境界での処理量が増大するとい
う問題点がある。これに対し、単語内には音素環境依存
の音響モデルを用い、単語境界では環境に依存しない音
響モデルを使用すると、単語境界での処理量の増大を抑
えることができるが、一方で単語境界に用いる音響モデ
ルの精度が低いために、とくに大語彙の連続音声認識で
は性能の低下を生じるおそれがある。
【0009】本発明の目的は、単語境界にも音素環境依
存の音響モデルを用いて精度を確保しつつ、大語彙の場
合でも単語境界での処理量の増大を抑えることのできる
連続音声認識方法を提供することにある。
【0010】
【課題を解決するための手段】本第1の発明の連続音声
認識方式は、音素環境依存音響モデルを用いる連続音声
認識方式において、認識対象語彙中の各単語について前
後の単語に依存せずに決まる音響モデル系列を認識単語
として記述した認識単語辞書と、単語境界において前後
の単語に依存して用いられる音響モデル系列を単語間単
語として記述した単語間単語辞書と、入力音声を分析し
て特徴パラメータの時系列を得る分析部と、前記特徴パ
ラメータの時系列を前記認識単語および前記単語間単語
と照合して該特徴パラメータの時系列の各時刻にて単語
の終端に到達した仮説のスコアと対応する単語を単語終
端情報として出力する第1の照合部と、前記単語終端情
報を参照して再度前記特徴パラメータの時系列を前記認
識単語および前記単語間単語と照合し照合スコアに基づ
いて単語列の候補をシステムで定められた形態で出力す
る第2の照合部を有することを特徴とする。
【0011】また、第2の発明は、第1の発明における
前記第1の照合部が前記各時刻において前記スコアがあ
らかじめ定めた基準を満たさない仮説については照合を
打ち切り、前記単語終端情報として各時刻において少な
くとも単語終端に到達した仮説に対応する認識単語およ
び単語間単語を出力することを特徴とする。
【0012】また、第3の発明は、第1の発明および第
2の発明における前記第1の照合部で各時刻ごとに計算
される局所距離を格納する局所距離格納部を備え、前記
第2の照合部が前記特徴パラメータの時系列に換えて前
記局所距離格納部に格納された局所距離を用いて前記認
識単語および前記単語間単語と照合することを特徴とす
る。
【0013】また、第4の発明は、第1の発明における
前記第2の照合部が前記入力音声の最終時刻から逆向き
に前記特徴パラメータの時系列を前記認識単語および前
記単語間単語と照合することを特徴とする。
【0014】また、第5の発明は、第3の発明における
前記第2の照合部が前記入力音声の最終時刻から逆向き
に前記局所距離を用いて前記認識単語および前記単語間
単語と照合することを特徴とする。
【0015】
【発明の実施の形態】次に、本発明の実施の一形態につ
いて図面を参照して説明する。
【0016】図1は、本発明の実施の一形態を示すブロ
ック図である。
【0017】図1において、入力音声は分析部1で特徴
パラメータの系列に変換され、第1照合部2に入力され
る。第1照合部2では、認識単語辞書4、単語間単語辞
書5および音素環境依存音響モデル3を参照して、引用
文献1(従来技術を参照)におけるforward p
assと同様にフレーム同期ビタビビームサーチにより
特徴パラメータ系列の照合を行う。音響モデルとしては
隠れマルコフモデル(HMM)を用いる。
【0018】認識単語辞書4には、認識対象語彙の各単
語について、その単語を構成する音響モデル系列のうち
先行あるいは後続する単語に依存しない部分、および単
語の表記が記述されている。単語間単語辞書5には、単
語が隣接する場合に、前の単語を構成する音響モデルの
うち後の単語に依存する部分と、後の単語を構成する音
響モデルのうち前の単語に依存する部分を連結した音響
モデル系列が、前後の単語の条件とともに記述されてい
る。照合の際には、認識単語および単語間単語から図2
に示すような単語のネットワークを構成し、これをさら
にHMMの状態の系列に展開する。各単語の始端から照
合を行い、各フレームごとに、認識単語および単語間単
語のうち最終状態がアクティブなものを、そのフレーム
までの累積スコアとともに単語終端情報格納部7に保存
する。また、各フレームごとのHMMの各状態の出力確
率を、局所距離格納部6に保存する。
【0019】第1照合部での照合が終わると、続いて第
2照合部8で、再び認識単語辞書4と単語間単語辞書5
を参照して、引用文献1(従来技術を参照)におけるb
ackward passと同様に入力音声の終端から
逆向きにビタビビームサーチにより照合を行い、最終的
な認識結果を出力する。出力する認識結果は、最も簡単
にはスコアのもっともよい1つの単語列であるが、この
他スコアのよい上位複数の単語列としたり、単語のネッ
トワーク(単語グラフ)としたりすることが出来る。そ
の際、言語モデル格納部9に記述された単語間の接続情
報などを制約として用いる。
【0020】言語モデルとしては、たとえば単語バイグ
ラムモデルを用いることができる。一般には第一照合部
と第二照合部で異なる音響モデルや異なる特徴パラメー
タを用いることもできるが、同じ音響モデルと特徴パラ
メータを用いる場合には、第一照合部で計算し局所距離
格納部6に保存した局所距離の値を用いることができ
る。第二照合部では、アクティブな単語(単語間単語を
含む)の始端に対して先行する単語のうち第一照合部で
終端がアクティブであった単語についてのみ仮説を展開
する。また、第一照合部で終端がアクティブであって
も、その累積スコアと、第二照合部でのその時点までの
累積スコアの値に応じて、見込みの小さい単語について
は仮説を展開しないようにすることもできる。
【0021】以下、認識単語辞書4と単語間単語辞書5
について、従来技術の説明に用いた簡略化した例に基づ
いて、図2を参照して説明する。この例では、音響モデ
ルとして後続の音素に依存する音素モデルを使用してお
り、辞書は「ここ」「そこ」「から」「まで」の4単語
からなる。たとえば、「そこ」は、/s/,/o/,/
k/,/o/の4音素からなり、前の3つの音素に対応
する音響モデルはそれぞれ“s(o)”,“o
(k)”,“k(o)”と決まるが、最後の/o/につ
いては、後続に「から」がくる場合は“o(k)”、
「まで」がくる場合は“o(m)”となるなど、一意に
決まらない。そこで、認識単語辞書では、単語「そこ」
の音響モデル系列として“s(o)”,“o(k)”,
“k(o)”のみを記述し、“o(k)”,“o
(m)”などは可能なすべての種類を用意し、単語間単
語として独立に扱う。単語間単語は、複数の単語の組合
せで共有される。たとえば、“o(k)”,“o
(m)”などは、先行単語が「ここ」など最後の音素が
/o/である単語に共通に用いることができる。また、
“o(k)”は先頭の音素が/k/である単語、“o
(m)”は先頭の音素が/m/である単語にのみ接続し
うる。図中、黒丸は単語終端を表す。
【0022】図2の例に対応した認識単語辞書4および
単語間単語辞書5の構成例を、それぞれ図3、図4に示
す。単語辞書には、認識対象語彙中の各単語に対し、表
記、その単語を構成する音響モデル系列の情報に加え、
始端、終端のカテゴリが格納されている。単語間辞書に
は、先行単語の終端カテゴリと後続単語の始端カテゴリ
の組合せに対し、それらの単語間に用いられる音響モデ
ル系列の情報が記述されている。
【0023】図2では全体として照合すべき音響モデル
の数は21で、図7に示した従来例の場合の24に比べ
削減されている。この例は 4単語からなる簡略化した
例であるため差はそれほど大きくないが、大語彙の場合
には後続音素環境の種類がふえるため、削減効果は大き
い。図8に示した従来例に比べると照合すべき音響モデ
ルの数は増えているが、単語間でも図2の例と同様に音
素環境依存音響モデルを使用しているために、精度の高
い照合が可能となっている。
【0024】音素環境としては、音素そのものでなく、
いくつかの音素を一まとめにした音素クラスを用いるこ
ともできる。また、後続音素にのみ依存する音響モデル
のかわりに、前後の音素に依存する音響モデルを用いる
こともできる。その場合は、認識単語辞書には最初の音
素と最後の音素を除いた音響モデルを記述し、後続音素
に依存する単語終端の音素と先行音素に依存する単語始
端の音素に対応する音響モデルは、お互いに接続しうる
ものを組にして単語間単語辞書に記述しておけばよい。
前後の音素に依存する音響モデルを用いる場合の認識単
語辞書および単語間単語辞書の記述例を、それぞれ図
5,図6に示す。図で、たとえば“(s)o(k)”
は、先行音素が/s/で後続音素が/k/である音素/
o/の音響モデルを表す。
【0025】図2の例では、各単語の音響モデル系列を
独立に扱っているが、一般に大語彙の場合は先頭部分が
共通な単語が多く、全単語の音響モデル系列を先頭を共
通化した木構造の形で表現することも可能である。
【0026】
【発明の効果】以上説明したように、本発明によれば大
語彙連続音声認識を、音素環境依存音響モデルを用いて
高精度に、しかも従来の音素環境依存音響モデルを用い
た場合よりも処理量を削減して行うことができる効果が
ある。
【図面の簡単な説明】
【図1】本発明の実施の一形態を示すブロック図であ
る。
【図2】図1の第1照合部で構成される単語のネットワ
ークの例を示す図である。
【図3】本発明の実施例における、認識単語辞書の例を
示す図である。
【図4】本発明の実施例における、単語間単語辞書の例
を示す図である。
【図5】本発明の実施例における、認識単語辞書の別の
例を示す図である。
【図6】本発明の実施例における、単語間単語辞書の別
の例を示す図である。
【図7】従来例における、単語終端の音響モデルの扱い
示す図である。
【図8】従来例における、別の単語終端の音響モデルの
扱いを示す図である。
【符号の説明】
1 分析部 2 第1照合部 3 音素環境依存音響モデル 4 認識単語辞書 5 単語間単語辞書 6 局所距離格納部 7 単語終端情報格納部 8 第2照合部 9 言語モデル格納部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平8−227298(JP,A) 特開 平5−224692(JP,A) 電子情報通信学会論文誌 Vol.J 71−D No.9,September 1988,「単語遷移ネットワークと音声 セグメントの選択的スコアリングによる 連続単語認識」,p.1640−1649,(昭 和63年9月25日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/08 G10L 15/10 G10L 15/28 JICSTファイル(JOIS) 特許ファイル(PATOLIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 音素環境依存音響モデルを用いる連続音
    声認識方式において、認識対象語彙中の各単語について
    前後の単語に依存せずに決まる音響モデル系列を認識単
    語として記述した認識単語辞書と、単語境界において前
    後の単語に依存して用いられる音響モデル系列を単語間
    単語として記述した単語間単語辞書と、入力音声を分析
    して特徴パラメータの時系列を得る分析部と、前記特徴
    パラメータの時系列を前記認識単語および前記単語間単
    語と照合して該特徴パラメータの時系列の各時刻にて単
    語の終端に到達した仮説のスコアと対応する単語を単語
    終端情報として出力する第1の照合部と、前記単語終端
    情報を参照して再度前記特徴パラメータの時系列を前記
    認識単語および前記単語間単語と照合し照合スコアに基
    づいて単語列の候補をシステムで定められた形態で出力
    する第2の照合部を有することを特徴とする連続音声認
    識方式。
  2. 【請求項2】 前記第1の照合部が前記各時刻において
    前記スコアがあらかじめ定めた基準を満たさない仮説に
    ついては照合を打ち切り、前記単語終端情報として各時
    刻において少なくとも単語終端に到達した仮説に対応す
    る認識単語および単語間単語を出力することを特徴とす
    る請求項1記載の音声認識方式。
  3. 【請求項3】 前記第1の照合部で各時刻ごとに計算さ
    れる局所距離を格納する局所距離格納部を備え、前記第
    2の照合部が前記特徴パラメータの時系列に換えて前記
    局所距離格納部に格納された局所距離を用いて前記認識
    単語および前記単語間単語と照合することを特徴とする
    請求項1及び2記載の音声認識方式。
  4. 【請求項4】 前記第2の照合部が前記入力音声の最終
    時刻から逆向きに前記特徴パラメータの時系列を前記認
    識単語および前記単語間単語と照合することを特徴とす
    る請求項1記載の音声認識方式。
  5. 【請求項5】 前記第2の照合部が前記入力音声の最終
    時刻から逆向きに前記局所距離を用いて前記認識単語お
    よび前記単語間単語と照合することを特徴とする請求項
    3記載の音声認識方式。
JP9201685A 1997-07-28 1997-07-28 連続音声認識方式 Expired - Lifetime JP3042455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9201685A JP3042455B2 (ja) 1997-07-28 1997-07-28 連続音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9201685A JP3042455B2 (ja) 1997-07-28 1997-07-28 連続音声認識方式

Publications (2)

Publication Number Publication Date
JPH1145097A JPH1145097A (ja) 1999-02-16
JP3042455B2 true JP3042455B2 (ja) 2000-05-15

Family

ID=16445213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9201685A Expired - Lifetime JP3042455B2 (ja) 1997-07-28 1997-07-28 連続音声認識方式

Country Status (1)

Country Link
JP (1) JP3042455B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1109152A1 (en) * 1999-12-13 2001-06-20 Sony International (Europe) GmbH Method for speech recognition using semantic and pragmatic informations
JP2002215187A (ja) 2001-01-23 2002-07-31 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
JP4104313B2 (ja) 2001-10-03 2008-06-18 株式会社デンソー 音声認識装置、プログラム及びナビゲーションシステム
JP4732030B2 (ja) 2005-06-30 2011-07-27 キヤノン株式会社 情報処理装置およびその制御方法
ATE457510T1 (de) * 2005-12-08 2010-02-15 Nuance Comm Austria Gmbh Spracherkennungssystem mit riesigem vokabular

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会論文誌 Vol.J71−D No.9,September 1988,「単語遷移ネットワークと音声セグメントの選択的スコアリングによる連続単語認識」,p.1640−1649,(昭和63年9月25日発行)

Also Published As

Publication number Publication date
JPH1145097A (ja) 1999-02-16

Similar Documents

Publication Publication Date Title
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US7240002B2 (en) Speech recognition apparatus
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
US20050149326A1 (en) Speech recognition system and technique
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Aubert One pass cross word decoding for large vocabularies based on a lexical tree search organization
JP2003208195A5 (ja)
JP3042455B2 (ja) 連続音声認識方式
JP2002358097A (ja) 音声認識装置
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3171107B2 (ja) 音声認識装置
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP3914709B2 (ja) 音声認識方法およびシステム
JP3494338B2 (ja) 音声認識方法
JP2938865B1 (ja) 音声認識装置
JP3315565B2 (ja) 音声認識装置
JP3368989B2 (ja) 音声認識方法
JPH1097275A (ja) 大語彙音声認識装置
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2731133B2 (ja) 連続音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000208