JP2003208195A

JP2003208195A - 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Info

Publication number: JP2003208195A
Application number: JP2002007283A
Authority: JP
Inventors: Akira Tsuruta; 彰鶴田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-01-16
Filing date: 2002-01-16
Publication date: 2003-07-25
Also published as: TW200401262A; TWI241555B; WO2003060878A1; US20050075876A1

Abstract

(57)【要約】【課題】単語境界にも音素環境依存音響モデルを用い
て精度を確保しつつ大語彙の連続音声認識時にも処理量
の増大を抑える。【解決手段】音素環境依存音響モデル格納部３には、
先行音素および中心音素が同じトライフォンモデルをま
とめて先行音素の状態と中心音素の状態と後続音素の状
態との状態系列を木構造化した音素状態木を格納してい
る。したがって、前向き照合部２によって、上記音素状
態木,言語モデル格納部５に格納された言語モデルおよ
び単語辞書４を参照して音素仮説を展開する際には、次
に続く単語の先頭音素に関係無く１つの音素仮説を展開
すればよく、単語内および単語境界に関係なく仮説の展
開が容易になる。また、音響分析部１からの特徴パラメ
ータ系列との照合を行う際における照合処理量を大幅に
削減できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音素環境依存音
響モデルを用いて高精度に認識を行う連続音声認識装置
および連続音声認識方法、連続音声認識プログラム、並
びに、連続音声認識プログラムを記録したプログラム記
録媒体に関する。

【０００２】

【従来の技術】一般に、大語彙連続音声認識で用いる認
識単位としては、認識対象語彙の変更や大語彙ヘの拡張
が容易であることから、音節や音素等の単語より小さい
サブワードと呼ばれる認識単位が用いられることが多
い。さらに、調音結合等の影響を考慮するためには、前
後の環境(コンテキスト)に依存したモデルが有効である
ことが知られている。例えば、前後一つずつの音素に依
存したトライフォンモデルと呼ばれる音素モデルが広く
使用されている。

【０００３】また、連続的に発声された音声を認識する
連続音声認識方法の一つとして、語彙中の各単語をサブ
ワードのネットワークや木構造等で記述したサブワード
表記辞書と、単語の接続の制約を記述した文法または統
計的言語モデルの情報とに従って、単語を連結して認識
結果を得る方法がある。

【０００４】これらのサブワードを認識単位とした連続
音声認識技術については、例えば、刊行物「音声認識の
基礎(下)」古井貞煕監訳に詳しく説明されている。

【０００５】上述したごとく、環境に依存したサブワー
ドを用いて連続音声認識を行う場合には、単語内だけで
はなく単語間においても音素環境依存型の音響モデルを
用いた方が、認識精度がよいことが知られている。しか
しながら、単語の始終端に用いる音響モデルは前後に接
続する単語に依存するため、音素環境に依存しない音響
モデルを用いる場合に比べて、処理が複雑になると共に
処理量が大幅に増えてしまう。

【０００６】以下、単語辞書と言語モデルと音素環境依
存音響モデルを参照して、単語履歴毎に木を動的に生成
する方法について、具体的に説明する。

【０００７】例えば、「朝の天気…」という発声に対し
て、「朝(a;s;a)」という単語の最後の音素/ａ/を考える
場合、図３に示す単語辞書の情報から得られる単語「朝
日(a;s;a;h;i)」における３番目の音素/ａ/とその前後に
続く音素とから成るトライフォン“s;a;h”と、図４に
示す言語モデルの情報から得られる単語「の(n;o)」とそ
の前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;n;o)」
における３番目の音素/ａ/とその前後に続く音素とから
成るトライフォン“s;a;n”とについて、仮説を展開す
る必要がある。この例の場合は２つの仮説を展開するだ
けでよいが、より複雑な文法や統計的言語モデルを用い
る場合には、単語の終端で多くの単語につながる可能性
がある。そして、その場合には、それらの先頭の音素に
依存して、例えば図２(b)に示すような先行音素と中心
音素と後続音素からなるトライフォンの状態系列を用い
て、図５(b)に示すように多くの仮説を展開する必要が
ある。

【０００８】この問題に対し、単語内には音素環境依存
の音響モデルを用いる一方、単語境界では環境に依存し
ない音響モデルを使用する連続音声認識方式が、特開平
５‐２２４６９２号公報に開示されている。この連続音
声認識方式によれば、単語間での処理量の増大を抑える
ことができる。また、認識対象語彙中の各単語につい
て、前後の単語に依存せずに決まる音響モデル系列を認
識単語として記述した認識単語辞書と、単語境界におい
て前後の単語に依存して記述した単語間単語辞書とを用
いて照合する連続音声認識方式が、特開平１１‐４５０
９７号公報に開示されている。この連続音声認識方式に
よれば、単語境界に音素環境依存の音響モデルを用いて
も処理量の増大を抑えることができるのである。

【０００９】

【発明が解決しようとする課題】しかしながら、上記従
来の連続音声認識方式においては、以下のような問題が
ある。すなわち、特開平５‐２２４６９２号公報に開示
された連続音声認識方式においては、単語内には音素環
境依存の音響モデルを用い、単語境界では環境に依存し
ない音響モデルを用いている。したがって、単語境界で
の処理量の増大を抑えることはができるが、その一方に
おいて、単語境界に用いる音響モデルの精度が低いため
に、特に大語彙の連続音声認識の場合には認識性能の低
下を招く恐れがある。

【００１０】これに対して、特開平１１‐４５０９７号
公報に開示された連続音声認識方式においては、前後の
単語に依存せずに決まる音響モデル系列を認識単語とし
て記述した認識単語辞書と、単語境界において前後の単
語に依存して記述した単語間単語辞書を用いて照合を行
うようにしている。したがって、単語境界にも音素環境
依存の音響モデルを用いることによって精度を確保しな
がら、大語彙の場合でも単語境界での処理量の増大を抑
えることができるのである。しかしながら、一般に、単
語のスコアや境界はそれ以前の単語の影響を受けるの
で、複数の認識単語が単語間単語を共有すると、図９
(a)に示すように認識単語“k;o;k”及び“s;o;k”と単
語間単語“o”との境界の履歴が考慮されないので、図
９(b)に示すように単語の境界履歴を考慮した場合に比
して、性能の低下を招く恐れがある。また、例えば助詞
の“を(/ｏ/と発声)”等のように、認識単語辞書と単語
間単語辞書とに分割することができない単語についは開
示されてはいない。

【００１１】そこで、この発明の目的は、単語境界にも
音素環境依存音響モデルを用いて精度を確保しつつ、大
語彙の連続音声認識時にも単語境界での処理量の増大を
抑えることができる連続音声認識装置および連続音声認
識方法、連続音声認識プログラム、並びに、連続音声認
識プログラムを記録したプログラム記録媒体を提供する
ことにある。

【００１２】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明は、隣接するサブワードに依存して決定
されるサブワードを認識単位とすると共に,サブワード
環境に依存する環境依存音響モデルを用いて,連続的に
発声された入力音声を認識する連続音声認識装置であっ
て、入力音声を分析して特徴パラメータの時系列を得る
音響分析部と、語彙中の各単語が,サブワードのネット
ワークあるいはサブワードの木構造として格納された単
語辞書と、単語間の接続情報を表す言語モデルが格納さ
れた言語モデル格納部と、上記環境依存音響モデルが,
当該環境依存音響モデルの状態系列のうち,複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木として格納されている環境依存音響モデ
ル格納部と、上記環境依存音響モデルであるサブワード
状態木,上記単語辞書および言語モデルを参照して上記
サブワードの仮説を展開すると共に,上記特徴パラメー
タの時系列と上記展開された仮説との照合を行い,単語
の終端に該当する仮説に関する単語,累積スコア及び始
端開始フレームを含む単語情報を単語ラティスとして出
力する照合部と、上記単語ラティスに対する探索を行っ
て認識結果を生成する探索部を備えたことを特徴として
いる。

【００１３】上記構成によれば、サブワード環境に依存
する環境依存音響モデルを木構造化したサブワード状態
木,単語辞書および言語モデルを参照して、サブワード
の仮説を展開するようにしている。したがって、次に続
く単語の先頭サブワードに関係無く１つの仮説を展開す
ればよく、全仮説における状態の総数を削減することが
できる。すなわち、仮説の展開処理量を大幅に削減で
き、単語内および単語境界に関係なく、仮説の展開が容
易になるのである。さらに、照合部によって、上記音響
分析部からの特徴パラメータ系列と上記展開された仮説
との照合を行う際における照合処理量が大幅に削減され
る。

【００１４】また、１実施例では、上記第１の発明の連
続音声認識装置において、上記環境依存音響モデル格納
部に格納されている環境依存音響モデルは、中心サブワ
ードが前後のサブワードに依存する環境依存音響モデル
のうち、先行サブワードおよび中心サブワードが同じサ
ブワードモデルの状態系列を木構造化したサブワード状
態木である。

【００１５】この実施例によれば、先行サブワードおよ
び中心サブワードが同じサブワードモデルの状態系列を
木構造化したサブワード状態木を用いて、上記仮説を展
開している。したがって、次の仮説を展開する場合に
は、終端仮説における中心サブワードのみに注目して対
応する先行サブワードを有するサブワード状態木を展開
すればよい。つまり、後続サブワードが複数あってもよ
り少ない仮説を展開すればよく、仮説の展開が容易であ
る。

【００１６】また、１実施例では、上記第１の発明の連
続音声認識装置において、上記環境依存音響モデルは、
複数のサブワードモデルで状態を共有している状態共有
モデルである。

【００１７】この実施例によれば、複数のサブワードモ
デルによって状態を共有することによって、木構造化し
た際に共有している状態を一つにまとめることができ、
ノード数を削減することができる。したがって、上記照
合部による照合時における処理量が大幅に削減される。

【００１８】また、１実施例では、上記第１の発明の連
続音声認識装置において、上記照合部は、上記サブワー
ド状態木を参照して仮説を展開する際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すよ
うになっている。

【００１９】この実施例によれば、上記展開された仮説
を構成するサブワード状態木の状態のうち、互いに接続
可能な状態のみにフラグを付けるようにしたので、上記
照合の際にビタビ計算を行う必要がある状態が限定され
て、照合処理量が更に簡単になる。

【００２０】また、１実施例では、上記第１の発明の連
続音声認識装置において、上記照合部は、上記照合を行
う際に、上記特徴パラメータの時系列に基づいて上記展
開された仮説のスコアを算出すると共に、このスコアの
閾値あるいは仮説数を含む基準に従って上記仮説の枝刈
りを行うようになっている。

【００２１】この実施例によれば、上記照合時に仮説の
枝刈りを行うので、単語となる可能性が低い仮説が削除
されて、以後の照合処理量が大幅に削減される。

【００２２】また、第２の発明は、隣接するサブワード
に依存して決定されるサブワードを認識単位とすると共
に,サブワード環境に依存する環境依存音響モデルを用
いて,連続的に発声された入力音声を認識する連続音声
認識方法であって、音響分析部によって,上記入力音声
を分析して特徴パラメータの時系列を得、照合部によっ
て,上記環境依存音響モデルの状態系列を木構造化して
成るサブワード状態木,語彙中の各単語がサブワードの
ネットワークあるいはサブワードの木構造として記述さ
れた上記単語辞書,および,単語間の接続情報を表す言語
モデルを参照して,上記サブワードの仮説を展開すると
共に,上記特徴パラメータの時系列と上記展開された仮
説との照合を行って,単語の終端に該当する仮説に関す
る単語,累積スコアおよび始端開始フレームを含む単語
情報を単語ラティスとして生成し、探索部によって,上
記単語ラティスに対する探索を行って認識結果を生成す
ることを特徴としている。

【００２３】上記構成によれば、上記第１の発明の場合
と同様に、環境依存音響モデルを木構造化したサブワー
ド状態木を参照して仮説を展開するので、次に続く単語
の先頭サブワードに関係無く１つの仮説を展開すればよ
く、単語内および単語境界に関係なく仮説の展開が容易
になるのである。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量が大
幅に削減される。

【００２４】また、第３の発明の連続音声認識プログラ
ムは、コンピュータを、上記第１の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部および探索部として機能させることを特
徴としている。

【００２５】上記構成によれば、上記第１の発明の場合
と同様に、次に続く単語の先頭サブワードに関係無く１
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。

【００２６】また、第４の発明のプログラム記録媒体
は、上記第３の発明の連続音声認識プログラムが記録さ
れたことを特徴としている。

【００２７】上記構成によれば、上記第１の発明の場合
と同様に、次に続く単語の先頭サブワードに関係無く１
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。

【００２８】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図１は、本実施の形態の連続
音声認識装置におけるブロック図である。この連続音声
認識装置は、音響分析部１,前向き照合部２,音素環境依
存音響モデル格納部３,単語辞書４,言語モデル格納部
５,仮説バッファ６,単語ラティス格納部７および後向き
探索部８で構成される。

【００２９】図１において、入力音声は、音響分析部１
によって、特徴パラメータの系列に変換されて前向き照
合部２に出力される。前向き照合部２では、音素環境依
存音響モデル格納部３に格納された音素環境依存音響モ
デル,言語モデル格納部５に格納された言語モデルおよ
び単語辞書４を参照して、仮説バッファ６上に音素仮説
を展開する。そして、上記音素環境依存音響モデルを用
いて、上記展開された音素仮説と特徴パラメータ系列と
の照合をフレーム同期ビタビビームサーチによって行
い、単語ラティスを生成して単語ラティス格納部７に格
納する。

【００３０】上記音素環境依存音響モデルとしては、ト
ライフォンモデルと呼ばれる前後一つずつの音素環境を
考慮した隠れマルコフモデル(ＨＭＭ)を用いている。す
なわち、上記サブワードモデルは音素モデルである。但
し、従来においては図２(b)に示すように中心音素の前
後１つずつの先行音素と後続音素とを考慮したトライフ
ォンモデルを３状態の状態系列(状態番号列)で表現して
いたものを、本実施の形態においては、図２(a)に示す
ように、先行音素と中心音素とが同じトライフォンモデ
ルの状態系列をまとめて木構造(以下、音素状態木とい
う)化している。図２(b)に示すように、複数のトライフ
ォンモデルで状態を共有している状態共有モデルは、状
態系列を木構造化して音素状態木を作成することによっ
て状態数を削減することができ、計算量の削減を行うこ
とができるのである。

【００３１】上記単語辞書４としては、認識対象語彙の
各単語について、その単語の読みを音素系列で表記し、
図３に示すように、上記音素系列を木構造化したものを
用いる。言語モデル格納部５には、例えば、図４に示す
ように、文法によって設定された単語間の接続情報が言
語モデルとして格納されている。尚、本実施の形態にお
いては、単語の読みを表わす音素系列を木構造化したも
のを単語辞書４としているが、ネットワーク化したもの
でも差し支えない。また、言語モデルとして文法モデル
を用いたが、統計的言語モデルを用いても差し支えな
い。

【００３２】上記仮説バッファ６上には、上述したよう
に、上記前向き照合部２によって、音素環境依存音響モ
デル格納部３,単語辞書４および言語モデル格納部５が
参照されて、図５(a)に示すような音素仮説が順次展開
される。後向き探索部８は、言語モデル格納部５に格納
された言語モデルおよび単語辞書４を参照しながら、単
語ラティス格納部７に格納されている単語ラティスを、
例えばＡ＊アルゴリズムを用いて探索することによっ
て、入力音声に対する認識結果を得るようになってい
る。

【００３３】以下、上記前向き照合部２によって、上記
音素環境依存音響モデル格納部３,単語辞書４および言
語モデル格納部５を参照して、仮説バッファ６上に仮説
を展開して単語ラティスを生成する方法について、図６
に示す前向き照合処理動作フローチャートに従って説明
する。

【００３４】ステップＳ1で、先ず照合を始める前に仮
説バッファ６の初期化を行う。そして、無音から各単語
の始端に続く“-;-;＊”なる音素状態木が初期仮説とし
て仮説バッファ６にセットされる。ステップＳ2で、上
記音素環境依存音響モデルが用いられて、処理対象のフ
レームにおける特徴パラメータと仮説バッファ６内にあ
る図７(a)に示すような音素仮説との照合が行われ、各
音素仮説のスコアが計算される。ステップＳ3で、図７
(b)に示すように、上記スコアの閾値あるいは仮説数等
に基づいて、仮説１及び仮説４のように音素仮説の枝刈
りが行われる。こうして、音素仮説の不必要な増大が防
止される。ステップＳ4で、仮説バッファ６内に残って
いる音素仮説のうち単語終端がアクティブなものについ
て、単語,累積スコアおよび始端開始フレーム等の単語
情報が単語ラティス格納部７に保存される。こうして、
単語ラティスが生成されて保存される。ステップＳ5
で、図７(b)に示される仮説５および仮説６のように、
音素環境依存音響モデル格納部３,単語辞書４および言
語モデル格納部５の情報が参照されて、仮説バッファ６
内に残っている音素仮説が伸ばされる。ステップＳ6
で、当該処理対象フレームは最終フレームであるか否か
が判別される。その結果、最終フレームである場合には
前向き照合処理動作を終了する。一方、最終フレームで
ない場合には上記ステップＳ2に戻って、次のフレーム
の処理に移行する。そして、以後、上記ステップＳ2〜
ステップＳ6までが繰り返され、上記ステップＳ6におい
て最終フレームであると判別されると前向き照合処理動
作を終了する。

【００３５】以下、上記前向き照合処理動作の際に、先
行音素および中心音素が同じであるトライフォンモデル
の状態系列が木構造化された音素状態木を用いる場合の
効果について説明する。

【００３６】例えば、「朝の天気…」という発声に対し
て、「朝(a;s;a)」という単語の最後の音素/ａ/を考える
場合に、図３に示す単語辞書４の情報から得られた単語
「朝日（a;s;a;h;i)」における３番目の音素/ａ/とその前
後に続く音素とから成るトライフォン“s;a;h”と、図
４に示す言語モデルの情報から得られた単語「の(n;o)」
とその前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;
n;o)」における３番目の音素/ａ/とその前後に続く音素
とから成るトライフォン“s;a;n”とについて、音素仮
説を展開することが可能である。この場合には２つの音
素仮説を展開するだけでよいが、より複雑な文法や統計
的言語モデルを参照した場合には単語の終端で多くの次
の単語につながる可能性があり、図５(b)に示すよう
に、次の単語の先頭音素に応じて多数の音素仮説を展開
することになる。これに対して、本実施の形態のように
音素状態木の音素仮説を展開する場合には、次の単語の
先頭音素に関係なく図２(a)に示すような音素状態木
“s;a;＊”を、図５(a)に示すように１つ展開するだけ
でよいのである。尚、図５(a)においては、音素状態木
のシンボルとして「木」を模した三角形を当てている。

【００３７】ところで、図５(b)に示すように、個々の
音素について仮説を展開する場合には、次に続く単語の
先頭音素の種類を全２７とした場合、新たに展開される
音素仮説の数は２７となり、全音素仮説における状態の
総数は８１(＝２７×３)となる。

【００３８】これに対して、図５(a)に示すように、上
記音素状態木を用いて音素仮説を展開することによっ
て、新たに展開される音素仮説の数は１となり、状態の
総数は２９(１＋７＋２１)に削減することができる。し
たがって、仮説の展開処理および照合処理の処理量を大
幅に削減できるのである。

【００３９】また、上記言語モデルに文法を用いる場
合、単語辞書４および言語モデルによって後続の音素が
限定されることが多い。そこで、図８に示すように、音
素状態木“s;a;＊”の各状態のうち、単語辞書４に基づ
く音素列“s;a;h”および言語モデルに基づく音素列
“s;a;n”に必要な状態のみにフラグ(図８中においては
楕円印)を付すことによって、照合の全状態数を、音素
状態木“s;a;＊”の総ての状態数２９に比して状態数５
に削減できる。したがって、照合の処理量を更に削減で
きるのである。

【００４０】以上のごとく、本実施の形態においては、
音素環境依存音響モデル格納部３には、先行音素および
中心音素が同じトライフォンモデルの状態系列をまとめ
て木構造化した音素状態木を格納している。その結果、
複数のトライフォンモデルで状態を共有している状態共
有モデルの場合には、木構造化した際に共有されている
状態を一つにまとめることができ、ノード数を削減する
ことができる。したがって、個々の音素について仮説を
展開する場合に上記音素状態木を音素仮説として用いる
ことによって、次に続く単語の先頭音素に関係無く１つ
の音素仮説を展開すればよいことになる。したがって、
次に続く単語の先頭音素の種類を全２７と仮定した場
合、従来は、新たに２７個の音素仮説が展開されるため
に全音素仮説における状態の総数は８１となる。これに
対して、本実施の形態においては、新たに展開される音
素仮説は１個であるために全音素仮説における状態の総
数を２９に削減することができるのである。

【００４１】すなわち、本実施の形態によれば、上記前
向き照合部２によって、音素環境依存音響モデル格納部
３に格納された音素環境依存音響モデル,言語モデル格
納部５に格納された言語モデルおよび単語辞書４を参照
して音素仮説を展開する際における音素仮説の展開処理
量を大幅に削減できる。したがって、単語内および単語
境界に関係なく、仮説の展開が容易になる。また、前向
き照合部２によって、上記音素環境依存音響モデルを用
いて、音響分析部１からの特徴パラメータ系列と上記展
開された音素仮説とのフレーム同期ビタビビームサーチ
による照合を行う際における照合処理量を大幅に削減で
きるのである。

【００４２】また、その際に、上記前向き照合部２は、
上記音素仮説との照合を行う際に、各音素仮説のスコア
を計算し、スコアの閾値あるいは仮説数の閾値に基づい
て音素仮説の枝刈りを行うようにしている。したがっ
て、単語となる可能性が低い音素仮説を削除することが
でき、照合処理量を大幅に削減することができる。さら
に、前向き照合部２は、上記音素仮説を展開する際に、
言語モデル格納部５および単語辞書４を参照して、上記
音素仮説を構成する音素状態木の状態のうち、互いに接
続可能であって上記照合に関係のある状態のみにフラグ
を付けるようにすることができる。したがって、その場
合には、木構造化された状態のうち上記照合に関係のな
い状態に関するビタビ計算を行う必要がなく、照合処理
量を更に削減することができるのである。

【００４３】尚、上述の説明において、上記音素環境依
存音響モデルは、トライフォンモデルと呼ばれる前後１
つずつの音素環境を考慮したＨＭＭを用いたが、隣接す
るサブワードに依存して決定されるサブワードはこれに
限定されるものではない。

【００４４】ところで、上記実施の形態における音響分
析部１,前向き照合部２および後向き探索部８による上
記音響分析手段,照合手段および検索手段としての機能
は、プログラム記録媒体に記録された連続音声認識プロ
グラムによって実現される。上記実施の形態における上
記プログラム記録媒体は、ＲＡＭ(ランダム・アクセス・
メモリ)とは別体に設けられたＲＯＭ(リード・オンリ・メ
モリ)でなるプログラムメディアである。あるいは、外
部補助記憶装置に装着されて読み出されるプログラムメ
ディアであってもよい。尚、何れの場合においても、上
記プログラムメディアから連続音声認識プログラムを読
み出すプログラム読み出し手段は、上記プログラムメデ
ィアに直接アクセスして読み出す構成を有していてもよ
いし、上記ＲＡＭに設けられたプログラム記憶エリア
(図示せず)にダウンロードし、上記プログラム記憶エリ
アにアクセスして読み出す構成を有していてもよい。
尚、上記プログラムメディアからＲＡＭの上記プログラ
ム記憶エリアにダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。

【００４５】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタル多用途ディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【００４６】また、上記実施の形態における連続音声認
識装置は、モデムを備えてインターネットを含む通信ネ
ットワークと接続可能な構成を有する場合には、上記プ
ログラムメディアは、通信ネットワークからのダウンロ
ード等によって流動的にプログラムを坦持する媒体であ
っても差し支えない。尚、その場合における上記通信ネ
ットワークからダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。

【００４７】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【００４８】

【発明の効果】以上より明らかなように、第１の発明の
連続音声認識装置は、照合部で、環境依存音響モデルの
状態系列のうち、複数のサブワードモデルの状態系列を
まとめて木構造化して成るサブワード状態木,単語辞書
および言語モデルを参照してサブワードの仮説を展開す
ると共に、音響分析部からの特徴パラメータの時系列と
上記展開された仮説との照合を行って、単語の終端に該
当する仮説に関する単語,累積スコアおよび始端開始フ
レームを含む単語ラティスを出力するので、次に続く単
語の先頭サブワードに関係無く１つの仮説を展開すれば
よく、全仮説における状態の総数を削減することができ
る。

【００４９】したがって、上記仮説の展開処理量を大幅
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。

【００５０】また、１実施例の連続音声認識装置は、上
記環境依存音響モデルを、先行サブワードおよび中心サ
ブワードが同じサブワードモデルの状態系列を木構造化
したサブワード状態木としたので、次の仮説を展開する
場合には、終端仮説における中心サブワードのみに注目
して対応する先行サブワードを有するサブワード状態木
を展開すればよい。したがって、後続サブワードが複数
あってもより少ない仮説を展開すればよく、仮説の展開
を容易にできる。

【００５１】また、１実施例の連続音声認識装置は、複
数のサブワードモデルで状態を共有している状態共有モ
デルを木構造化したサブワード状態木を環境依存音響モ
デルとしたので、後段のサブワードによって共有される
前段のサブワードの状態を一つにまとめてノード数を削
減することができる。したがって、上記照合時における
処理量を大幅に削減できる。

【００５２】また、１実施例の連続音声認識装置は、上
記照合部を、上記仮説の展開を行う際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すの
で、上記照合の際にビタビ計算を行う必要がある状態を
限定して、照合処理量を更に簡単にできる。

【００５３】また、１実施例の連続音声認識装置は、上
記照合部を、上記照合を行う際に、上記特徴パラメータ
の時系列に基づいて算出された上記仮説のスコアの閾値
あるいは仮説数を含む基準に従って、上記仮説の枝刈り
を行うようにしたので、単語となる可能性が低い仮説を
削除して、以後の照合処理量を大幅に削減できる。

【００５４】また、第２の発明の連続音声認識方法は、
音素環境依存音響モデルの状態系列のうち、複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木,単語辞書および言語モデルを参照して
サブワードの仮説を展開すると共に、特徴パラメータの
時系列と上記展開された仮説との照合を行って、単語の
終端に該当する仮説に関する単語,累積スコアおよび始
端開始フレームを含む単語ラティスを出力するので、上
記第１の発明の場合と同様に、次に続く単語の先頭サブ
ワードに関係無く１つの仮説を展開すればよく、全仮説
における状態の総数を削減することができる。

【００５５】したがって、上記仮説の展開処理量を大幅
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。

【００５６】また、第３の発明の連続音声認識プログラ
ムは、コンピュータを、上記第１の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部及び探索部として機能させるので、上記
第１の発明の場合と同様に、次に続く単語の先頭サブワ
ードに関係無く１つの仮説を展開すればよく、単語内お
よび単語境界に関係なく仮説の展開を容易にできる。さ
らに、特徴パラメータ系列と上記展開された仮説との照
合を行う際における照合処理量を大幅に削減できる。

【００５７】また、第４の発明のプログラム記録媒体
は、上記第３の発明の連続音声認識プログラムが記録さ
れているので、上記第１の発明の場合と同様に、次に続
く単語の先頭サブワードに関係無く１つの仮説を展開す
ればよく、単語内および単語境界に関係なく仮説の展開
を容易にできる。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量を大
幅に削減できる。

【図面の簡単な説明】

【図１】この発明の連続音声認識装置におけるブロッ
ク図である。

【図２】音素環境依存音響モデルの説明図である。

【図３】図１における単語辞書の説明図である。

【図４】言語モデルの説明図である。

【図５】図１における前向き照合部による仮説の展開
の説明図である。

【図６】上記前向き照合部によって実行される前向き
照合処理動作のフローチャートである。

【図７】上記前向き照合部による仮説の照合および仮
説の枝刈りの説明図である。

【図８】音素仮説の音素状態木における必要な状態の
みにフラグを付す場合の説明図である。

【図９】認識単語と単語間単語との境界の履歴が考慮
されない場合と考慮された場合との比較図である。

【符号の説明】

１…音響分析部、２…前向き照合部、３…音素環境依存音響モデル格納部、４…単語辞書、５…言語モデル格納部、６…仮説バッファ、７…単語ラティス格納部、８…後向き探索部。

Claims

【特許請求の範囲】

【請求項１】隣接するサブワードに依存して決定され
るサブワードを認識単位とすると共に、サブワード環境
に依存する環境依存音響モデルを用いて、連続的に発声
された入力音声を認識する連続音声認識装置であって、上記入力音声を分析して特徴パラメータの時系列を得る
音響分析部と、語彙中の各単語が、サブワードのネットワークあるいは
サブワードの木構造として格納された単語辞書と、単語間の接続情報を表す言語モデルが格納された言語モ
デル格納部と、上記環境依存音響モデルが、当該環境依存音響モデルの
状態系列のうち、複数のサブワードモデルの状態系列を
まとめて木構造化して成るサブワード状態木として格納
されている環境依存音響モデル格納部と、上記環境依存音響モデルであるサブワード状態木,単語
辞書および言語モデルを参照して上記サブワードの仮説
を展開すると共に、上記特徴パラメータの時系列と上記
展開された仮説との照合を行い、単語の終端に該当する
仮説に関する単語,累積スコアおよび始端開始フレーム
を含む単語情報を単語ラティスとして出力する照合部
と、上記単語ラティスに対する探索を行って認識結果を生成
する探索部を備えたことを特徴とする連続音声認識装
置。
【請求項２】請求項１に記載の連続音声認識装置にお
いて、上記環境依存音響モデル格納部に格納されている環境依
存音響モデルは、中心サブワードが前後のサブワードに
依存する環境依存音響モデルのうち、先行サブワードお
よび中心サブワードが同じサブワードモデルの状態系列
を木構造化したサブワード状態木であることを特徴とす
る連続音声認識装置。
【請求項３】請求項２に記載の連続音声認識装置にお
いて、上記環境依存音響モデルは、複数のサブワードモデルで
状態を共有している状態共有モデルであることを特徴と
する連続音声認識装置。
【請求項４】請求項１に記載の連続音声認識装置にお
いて、上記照合部は、上記サブワード状態木を参照して仮説を
展開する際に、上記単語辞書および言語モデルから得ら
れる接続可能なサブワード情報を用いて、上記仮説であ
るサブワード状態木を構成する状態のうち、互いに接続
可能な状態にフラグを付すようになっていることを特徴
とする連続音声認識装置。
【請求項５】請求項１に記載の連続音声認識装置にお
いて、上記照合部は、上記照合を行う際に、上記特徴パラメー
タの時系列に基づいて上記展開された仮説のスコアを算
出すると共に、このスコアの閾値あるいは仮説数を含む
基準に従って上記仮説の枝刈りを行うようになっている
ことを特徴とする連続音声認識装置。
【請求項６】隣接するサブワードに依存して決定され
るサブワードを認識単位とすると共に、サブワード環境
に依存する環境依存音響モデルを用いて、連続的に発声
された入力音声を認識する連続音声認識方法であって、音響分析部によって、上記入力音声を分析して特徴パラ
メータの時系列を得、照合部によって、上記環境依存音響モデルの状態系列を
木構造化して成るサブワード状態木、語彙中の各単語が
サブワードのネットワークあるいはサブワードの木構造
として記述された上記単語辞書、および、単語間の接続
情報を表す言語モデルを参照して、上記サブワードの仮
説を展開すると共に、上記特徴パラメータの時系列と上
記展開された仮説との照合を行って、単語の終端に該当
する仮説に関する単語,累積スコアおよび始端開始フレ
ームを含む単語情報を単語ラティスとして生成し、探索部によって、上記単語ラティスに対する探索を行っ
て認識結果を生成することを特徴とする連続音声認識方
法。
【請求項７】コンピュータを、請求項１に記載の音響
分析部,単語辞書,言語モデル格納部,環境依存音響モデ
ル格納部,照合部および探索部として機能させることを
特徴とする連続音声認識プログラム。
【請求項８】請求項７に記載の連続音声認識プログラ
ムが記録されたことを特徴とするコンピュータ読出し可
能なプログラム記録媒体。