JP2003208195A - 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 - Google Patents
連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体Info
- Publication number
- JP2003208195A JP2003208195A JP2002007283A JP2002007283A JP2003208195A JP 2003208195 A JP2003208195 A JP 2003208195A JP 2002007283 A JP2002007283 A JP 2002007283A JP 2002007283 A JP2002007283 A JP 2002007283A JP 2003208195 A JP2003208195 A JP 2003208195A
- Authority
- JP
- Japan
- Prior art keywords
- word
- phoneme
- subword
- hypothesis
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000001419 dependent effect Effects 0.000 claims description 54
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000011112 process operation Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Abstract
て精度を確保しつつ大語彙の連続音声認識時にも処理量
の増大を抑える。 【解決手段】 音素環境依存音響モデル格納部3には、
先行音素および中心音素が同じトライフォンモデルをま
とめて先行音素の状態と中心音素の状態と後続音素の状
態との状態系列を木構造化した音素状態木を格納してい
る。したがって、前向き照合部2によって、上記音素状
態木,言語モデル格納部5に格納された言語モデルおよ
び単語辞書4を参照して音素仮説を展開する際には、次
に続く単語の先頭音素に関係無く1つの音素仮説を展開
すればよく、単語内および単語境界に関係なく仮説の展
開が容易になる。また、音響分析部1からの特徴パラメ
ータ系列との照合を行う際における照合処理量を大幅に
削減できる。
Description
響モデルを用いて高精度に認識を行う連続音声認識装置
および連続音声認識方法、連続音声認識プログラム、並
びに、連続音声認識プログラムを記録したプログラム記
録媒体に関する。
識単位としては、認識対象語彙の変更や大語彙ヘの拡張
が容易であることから、音節や音素等の単語より小さい
サブワードと呼ばれる認識単位が用いられることが多
い。さらに、調音結合等の影響を考慮するためには、前
後の環境(コンテキスト)に依存したモデルが有効である
ことが知られている。例えば、前後一つずつの音素に依
存したトライフォンモデルと呼ばれる音素モデルが広く
使用されている。
連続音声認識方法の一つとして、語彙中の各単語をサブ
ワードのネットワークや木構造等で記述したサブワード
表記辞書と、単語の接続の制約を記述した文法または統
計的言語モデルの情報とに従って、単語を連結して認識
結果を得る方法がある。
音声認識技術については、例えば、刊行物「音声認識の
基礎(下)」古井貞煕監訳に詳しく説明されている。
ドを用いて連続音声認識を行う場合には、単語内だけで
はなく単語間においても音素環境依存型の音響モデルを
用いた方が、認識精度がよいことが知られている。しか
しながら、単語の始終端に用いる音響モデルは前後に接
続する単語に依存するため、音素環境に依存しない音響
モデルを用いる場合に比べて、処理が複雑になると共に
処理量が大幅に増えてしまう。
存音響モデルを参照して、単語履歴毎に木を動的に生成
する方法について、具体的に説明する。
て、「朝(a;s;a)」という単語の最後の音素/a/を考える
場合、図3に示す単語辞書の情報から得られる単語「朝
日(a;s;a;h;i)」における3番目の音素/a/とその前後に
続く音素とから成るトライフォン“s;a;h”と、図4に
示す言語モデルの情報から得られる単語「の(n;o)」とそ
の前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;n;o)」
における3番目の音素/a/とその前後に続く音素とから
成るトライフォン“s;a;n”とについて、仮説を展開す
る必要がある。この例の場合は2つの仮説を展開するだ
けでよいが、より複雑な文法や統計的言語モデルを用い
る場合には、単語の終端で多くの単語につながる可能性
がある。そして、その場合には、それらの先頭の音素に
依存して、例えば図2(b)に示すような先行音素と中心
音素と後続音素からなるトライフォンの状態系列を用い
て、図5(b)に示すように多くの仮説を展開する必要が
ある。
の音響モデルを用いる一方、単語境界では環境に依存し
ない音響モデルを使用する連続音声認識方式が、特開平
5‐224692号公報に開示されている。この連続音
声認識方式によれば、単語間での処理量の増大を抑える
ことができる。また、認識対象語彙中の各単語につい
て、前後の単語に依存せずに決まる音響モデル系列を認
識単語として記述した認識単語辞書と、単語境界におい
て前後の単語に依存して記述した単語間単語辞書とを用
いて照合する連続音声認識方式が、特開平11‐450
97号公報に開示されている。この連続音声認識方式に
よれば、単語境界に音素環境依存の音響モデルを用いて
も処理量の増大を抑えることができるのである。
来の連続音声認識方式においては、以下のような問題が
ある。すなわち、特開平5‐224692号公報に開示
された連続音声認識方式においては、単語内には音素環
境依存の音響モデルを用い、単語境界では環境に依存し
ない音響モデルを用いている。したがって、単語境界で
の処理量の増大を抑えることはができるが、その一方に
おいて、単語境界に用いる音響モデルの精度が低いため
に、特に大語彙の連続音声認識の場合には認識性能の低
下を招く恐れがある。
公報に開示された連続音声認識方式においては、前後の
単語に依存せずに決まる音響モデル系列を認識単語とし
て記述した認識単語辞書と、単語境界において前後の単
語に依存して記述した単語間単語辞書を用いて照合を行
うようにしている。したがって、単語境界にも音素環境
依存の音響モデルを用いることによって精度を確保しな
がら、大語彙の場合でも単語境界での処理量の増大を抑
えることができるのである。しかしながら、一般に、単
語のスコアや境界はそれ以前の単語の影響を受けるの
で、複数の認識単語が単語間単語を共有すると、図9
(a)に示すように認識単語“k;o;k”及び“s;o;k”と単
語間単語“o”との境界の履歴が考慮されないので、図
9(b)に示すように単語の境界履歴を考慮した場合に比
して、性能の低下を招く恐れがある。また、例えば助詞
の“を(/o/と発声)”等のように、認識単語辞書と単語
間単語辞書とに分割することができない単語についは開
示されてはいない。
音素環境依存音響モデルを用いて精度を確保しつつ、大
語彙の連続音声認識時にも単語境界での処理量の増大を
抑えることができる連続音声認識装置および連続音声認
識方法、連続音声認識プログラム、並びに、連続音声認
識プログラムを記録したプログラム記録媒体を提供する
ことにある。
め、第1の発明は、隣接するサブワードに依存して決定
されるサブワードを認識単位とすると共に,サブワード
環境に依存する環境依存音響モデルを用いて,連続的に
発声された入力音声を認識する連続音声認識装置であっ
て、入力音声を分析して特徴パラメータの時系列を得る
音響分析部と、語彙中の各単語が,サブワードのネット
ワークあるいはサブワードの木構造として格納された単
語辞書と、単語間の接続情報を表す言語モデルが格納さ
れた言語モデル格納部と、上記環境依存音響モデルが,
当該環境依存音響モデルの状態系列のうち,複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木として格納されている環境依存音響モデ
ル格納部と、上記環境依存音響モデルであるサブワード
状態木,上記単語辞書および言語モデルを参照して上記
サブワードの仮説を展開すると共に,上記特徴パラメー
タの時系列と上記展開された仮説との照合を行い,単語
の終端に該当する仮説に関する単語,累積スコア及び始
端開始フレームを含む単語情報を単語ラティスとして出
力する照合部と、上記単語ラティスに対する探索を行っ
て認識結果を生成する探索部を備えたことを特徴として
いる。
する環境依存音響モデルを木構造化したサブワード状態
木,単語辞書および言語モデルを参照して、サブワード
の仮説を展開するようにしている。したがって、次に続
く単語の先頭サブワードに関係無く1つの仮説を展開す
ればよく、全仮説における状態の総数を削減することが
できる。すなわち、仮説の展開処理量を大幅に削減で
き、単語内および単語境界に関係なく、仮説の展開が容
易になるのである。さらに、照合部によって、上記音響
分析部からの特徴パラメータ系列と上記展開された仮説
との照合を行う際における照合処理量が大幅に削減され
る。
続音声認識装置において、上記環境依存音響モデル格納
部に格納されている環境依存音響モデルは、中心サブワ
ードが前後のサブワードに依存する環境依存音響モデル
のうち、先行サブワードおよび中心サブワードが同じサ
ブワードモデルの状態系列を木構造化したサブワード状
態木である。
び中心サブワードが同じサブワードモデルの状態系列を
木構造化したサブワード状態木を用いて、上記仮説を展
開している。したがって、次の仮説を展開する場合に
は、終端仮説における中心サブワードのみに注目して対
応する先行サブワードを有するサブワード状態木を展開
すればよい。つまり、後続サブワードが複数あってもよ
り少ない仮説を展開すればよく、仮説の展開が容易であ
る。
続音声認識装置において、上記環境依存音響モデルは、
複数のサブワードモデルで状態を共有している状態共有
モデルである。
デルによって状態を共有することによって、木構造化し
た際に共有している状態を一つにまとめることができ、
ノード数を削減することができる。したがって、上記照
合部による照合時における処理量が大幅に削減される。
続音声認識装置において、上記照合部は、上記サブワー
ド状態木を参照して仮説を展開する際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すよ
うになっている。
を構成するサブワード状態木の状態のうち、互いに接続
可能な状態のみにフラグを付けるようにしたので、上記
照合の際にビタビ計算を行う必要がある状態が限定され
て、照合処理量が更に簡単になる。
続音声認識装置において、上記照合部は、上記照合を行
う際に、上記特徴パラメータの時系列に基づいて上記展
開された仮説のスコアを算出すると共に、このスコアの
閾値あるいは仮説数を含む基準に従って上記仮説の枝刈
りを行うようになっている。
枝刈りを行うので、単語となる可能性が低い仮説が削除
されて、以後の照合処理量が大幅に削減される。
に依存して決定されるサブワードを認識単位とすると共
に,サブワード環境に依存する環境依存音響モデルを用
いて,連続的に発声された入力音声を認識する連続音声
認識方法であって、音響分析部によって,上記入力音声
を分析して特徴パラメータの時系列を得、照合部によっ
て,上記環境依存音響モデルの状態系列を木構造化して
成るサブワード状態木,語彙中の各単語がサブワードの
ネットワークあるいはサブワードの木構造として記述さ
れた上記単語辞書,および,単語間の接続情報を表す言語
モデルを参照して,上記サブワードの仮説を展開すると
共に,上記特徴パラメータの時系列と上記展開された仮
説との照合を行って,単語の終端に該当する仮説に関す
る単語,累積スコアおよび始端開始フレームを含む単語
情報を単語ラティスとして生成し、探索部によって,上
記単語ラティスに対する探索を行って認識結果を生成す
ることを特徴としている。
と同様に、環境依存音響モデルを木構造化したサブワー
ド状態木を参照して仮説を展開するので、次に続く単語
の先頭サブワードに関係無く1つの仮説を展開すればよ
く、単語内および単語境界に関係なく仮説の展開が容易
になるのである。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量が大
幅に削減される。
ムは、コンピュータを、上記第1の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部および探索部として機能させることを特
徴としている。
と同様に、次に続く単語の先頭サブワードに関係無く1
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。
は、上記第3の発明の連続音声認識プログラムが記録さ
れたことを特徴としている。
と同様に、次に続く単語の先頭サブワードに関係無く1
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。
態により詳細に説明する。図1は、本実施の形態の連続
音声認識装置におけるブロック図である。この連続音声
認識装置は、音響分析部1,前向き照合部2,音素環境依
存音響モデル格納部3,単語辞書4,言語モデル格納部
5,仮説バッファ6,単語ラティス格納部7および後向き
探索部8で構成される。
によって、特徴パラメータの系列に変換されて前向き照
合部2に出力される。前向き照合部2では、音素環境依
存音響モデル格納部3に格納された音素環境依存音響モ
デル,言語モデル格納部5に格納された言語モデルおよ
び単語辞書4を参照して、仮説バッファ6上に音素仮説
を展開する。そして、上記音素環境依存音響モデルを用
いて、上記展開された音素仮説と特徴パラメータ系列と
の照合をフレーム同期ビタビビームサーチによって行
い、単語ラティスを生成して単語ラティス格納部7に格
納する。
ライフォンモデルと呼ばれる前後一つずつの音素環境を
考慮した隠れマルコフモデル(HMM)を用いている。す
なわち、上記サブワードモデルは音素モデルである。但
し、従来においては図2(b)に示すように中心音素の前
後1つずつの先行音素と後続音素とを考慮したトライフ
ォンモデルを3状態の状態系列(状態番号列)で表現して
いたものを、本実施の形態においては、図2(a)に示す
ように、先行音素と中心音素とが同じトライフォンモデ
ルの状態系列をまとめて木構造(以下、音素状態木とい
う)化している。図2(b)に示すように、複数のトライフ
ォンモデルで状態を共有している状態共有モデルは、状
態系列を木構造化して音素状態木を作成することによっ
て状態数を削減することができ、計算量の削減を行うこ
とができるのである。
各単語について、その単語の読みを音素系列で表記し、
図3に示すように、上記音素系列を木構造化したものを
用いる。言語モデル格納部5には、例えば、図4に示す
ように、文法によって設定された単語間の接続情報が言
語モデルとして格納されている。尚、本実施の形態にお
いては、単語の読みを表わす音素系列を木構造化したも
のを単語辞書4としているが、ネットワーク化したもの
でも差し支えない。また、言語モデルとして文法モデル
を用いたが、統計的言語モデルを用いても差し支えな
い。
に、上記前向き照合部2によって、音素環境依存音響モ
デル格納部3,単語辞書4および言語モデル格納部5が
参照されて、図5(a)に示すような音素仮説が順次展開
される。後向き探索部8は、言語モデル格納部5に格納
された言語モデルおよび単語辞書4を参照しながら、単
語ラティス格納部7に格納されている単語ラティスを、
例えばA*アルゴリズムを用いて探索することによっ
て、入力音声に対する認識結果を得るようになってい
る。
音素環境依存音響モデル格納部3,単語辞書4および言
語モデル格納部5を参照して、仮説バッファ6上に仮説
を展開して単語ラティスを生成する方法について、図6
に示す前向き照合処理動作フローチャートに従って説明
する。
説バッファ6の初期化を行う。そして、無音から各単語
の始端に続く“-;-;*”なる音素状態木が初期仮説とし
て仮説バッファ6にセットされる。ステップS2で、上
記音素環境依存音響モデルが用いられて、処理対象のフ
レームにおける特徴パラメータと仮説バッファ6内にあ
る図7(a)に示すような音素仮説との照合が行われ、各
音素仮説のスコアが計算される。ステップS3で、図7
(b)に示すように、上記スコアの閾値あるいは仮説数等
に基づいて、仮説1及び仮説4のように音素仮説の枝刈
りが行われる。こうして、音素仮説の不必要な増大が防
止される。ステップS4で、仮説バッファ6内に残って
いる音素仮説のうち単語終端がアクティブなものについ
て、単語,累積スコアおよび始端開始フレーム等の単語
情報が単語ラティス格納部7に保存される。こうして、
単語ラティスが生成されて保存される。ステップS5
で、図7(b)に示される仮説5および仮説6のように、
音素環境依存音響モデル格納部3,単語辞書4および言
語モデル格納部5の情報が参照されて、仮説バッファ6
内に残っている音素仮説が伸ばされる。ステップS6
で、当該処理対象フレームは最終フレームであるか否か
が判別される。その結果、最終フレームである場合には
前向き照合処理動作を終了する。一方、最終フレームで
ない場合には上記ステップS2に戻って、次のフレーム
の処理に移行する。そして、以後、上記ステップS2〜
ステップS6までが繰り返され、上記ステップS6におい
て最終フレームであると判別されると前向き照合処理動
作を終了する。
行音素および中心音素が同じであるトライフォンモデル
の状態系列が木構造化された音素状態木を用いる場合の
効果について説明する。
て、「朝(a;s;a)」という単語の最後の音素/a/を考える
場合に、図3に示す単語辞書4の情報から得られた単語
「朝日(a;s;a;h;i)」における3番目の音素/a/とその前
後に続く音素とから成るトライフォン“s;a;h”と、図
4に示す言語モデルの情報から得られた単語「の(n;o)」
とその前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;
n;o)」における3番目の音素/a/とその前後に続く音素
とから成るトライフォン“s;a;n”とについて、音素仮
説を展開することが可能である。この場合には2つの音
素仮説を展開するだけでよいが、より複雑な文法や統計
的言語モデルを参照した場合には単語の終端で多くの次
の単語につながる可能性があり、図5(b)に示すよう
に、次の単語の先頭音素に応じて多数の音素仮説を展開
することになる。これに対して、本実施の形態のように
音素状態木の音素仮説を展開する場合には、次の単語の
先頭音素に関係なく図2(a)に示すような音素状態木
“s;a;*”を、図5(a)に示すように1つ展開するだけ
でよいのである。尚、図5(a)においては、音素状態木
のシンボルとして「木」を模した三角形を当てている。
音素について仮説を展開する場合には、次に続く単語の
先頭音素の種類を全27とした場合、新たに展開される
音素仮説の数は27となり、全音素仮説における状態の
総数は81(=27×3)となる。
記音素状態木を用いて音素仮説を展開することによっ
て、新たに展開される音素仮説の数は1となり、状態の
総数は29(1+7+21)に削減することができる。し
たがって、仮説の展開処理および照合処理の処理量を大
幅に削減できるのである。
合、単語辞書4および言語モデルによって後続の音素が
限定されることが多い。そこで、図8に示すように、音
素状態木“s;a;*”の各状態のうち、単語辞書4に基づ
く音素列“s;a;h”および言語モデルに基づく音素列
“s;a;n”に必要な状態のみにフラグ(図8中においては
楕円印)を付すことによって、照合の全状態数を、音素
状態木“s;a;*”の総ての状態数29に比して状態数5
に削減できる。したがって、照合の処理量を更に削減で
きるのである。
音素環境依存音響モデル格納部3には、先行音素および
中心音素が同じトライフォンモデルの状態系列をまとめ
て木構造化した音素状態木を格納している。その結果、
複数のトライフォンモデルで状態を共有している状態共
有モデルの場合には、木構造化した際に共有されている
状態を一つにまとめることができ、ノード数を削減する
ことができる。したがって、個々の音素について仮説を
展開する場合に上記音素状態木を音素仮説として用いる
ことによって、次に続く単語の先頭音素に関係無く1つ
の音素仮説を展開すればよいことになる。したがって、
次に続く単語の先頭音素の種類を全27と仮定した場
合、従来は、新たに27個の音素仮説が展開されるため
に全音素仮説における状態の総数は81となる。これに
対して、本実施の形態においては、新たに展開される音
素仮説は1個であるために全音素仮説における状態の総
数を29に削減することができるのである。
向き照合部2によって、音素環境依存音響モデル格納部
3に格納された音素環境依存音響モデル,言語モデル格
納部5に格納された言語モデルおよび単語辞書4を参照
して音素仮説を展開する際における音素仮説の展開処理
量を大幅に削減できる。したがって、単語内および単語
境界に関係なく、仮説の展開が容易になる。また、前向
き照合部2によって、上記音素環境依存音響モデルを用
いて、音響分析部1からの特徴パラメータ系列と上記展
開された音素仮説とのフレーム同期ビタビビームサーチ
による照合を行う際における照合処理量を大幅に削減で
きるのである。
上記音素仮説との照合を行う際に、各音素仮説のスコア
を計算し、スコアの閾値あるいは仮説数の閾値に基づい
て音素仮説の枝刈りを行うようにしている。したがっ
て、単語となる可能性が低い音素仮説を削除することが
でき、照合処理量を大幅に削減することができる。さら
に、前向き照合部2は、上記音素仮説を展開する際に、
言語モデル格納部5および単語辞書4を参照して、上記
音素仮説を構成する音素状態木の状態のうち、互いに接
続可能であって上記照合に関係のある状態のみにフラグ
を付けるようにすることができる。したがって、その場
合には、木構造化された状態のうち上記照合に関係のな
い状態に関するビタビ計算を行う必要がなく、照合処理
量を更に削減することができるのである。
存音響モデルは、トライフォンモデルと呼ばれる前後1
つずつの音素環境を考慮したHMMを用いたが、隣接す
るサブワードに依存して決定されるサブワードはこれに
限定されるものではない。
析部1,前向き照合部2および後向き探索部8による上
記音響分析手段,照合手段および検索手段としての機能
は、プログラム記録媒体に記録された連続音声認識プロ
グラムによって実現される。上記実施の形態における上
記プログラム記録媒体は、RAM(ランダム・アクセス・
メモリ)とは別体に設けられたROM(リード・オンリ・メ
モリ)でなるプログラムメディアである。あるいは、外
部補助記憶装置に装着されて読み出されるプログラムメ
ディアであってもよい。尚、何れの場合においても、上
記プログラムメディアから連続音声認識プログラムを読
み出すプログラム読み出し手段は、上記プログラムメデ
ィアに直接アクセスして読み出す構成を有していてもよ
いし、上記RAMに設けられたプログラム記憶エリア
(図示せず)にダウンロードし、上記プログラム記憶エリ
アにアクセスして読み出す構成を有していてもよい。
尚、上記プログラムメディアからRAMの上記プログラ
ム記憶エリアにダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタル多用途ディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
識装置は、モデムを備えてインターネットを含む通信ネ
ットワークと接続可能な構成を有する場合には、上記プ
ログラムメディアは、通信ネットワークからのダウンロ
ード等によって流動的にプログラムを坦持する媒体であ
っても差し支えない。尚、その場合における上記通信ネ
ットワークからダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
連続音声認識装置は、照合部で、環境依存音響モデルの
状態系列のうち、複数のサブワードモデルの状態系列を
まとめて木構造化して成るサブワード状態木,単語辞書
および言語モデルを参照してサブワードの仮説を展開す
ると共に、音響分析部からの特徴パラメータの時系列と
上記展開された仮説との照合を行って、単語の終端に該
当する仮説に関する単語,累積スコアおよび始端開始フ
レームを含む単語ラティスを出力するので、次に続く単
語の先頭サブワードに関係無く1つの仮説を展開すれば
よく、全仮説における状態の総数を削減することができ
る。
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。
記環境依存音響モデルを、先行サブワードおよび中心サ
ブワードが同じサブワードモデルの状態系列を木構造化
したサブワード状態木としたので、次の仮説を展開する
場合には、終端仮説における中心サブワードのみに注目
して対応する先行サブワードを有するサブワード状態木
を展開すればよい。したがって、後続サブワードが複数
あってもより少ない仮説を展開すればよく、仮説の展開
を容易にできる。
数のサブワードモデルで状態を共有している状態共有モ
デルを木構造化したサブワード状態木を環境依存音響モ
デルとしたので、後段のサブワードによって共有される
前段のサブワードの状態を一つにまとめてノード数を削
減することができる。したがって、上記照合時における
処理量を大幅に削減できる。
記照合部を、上記仮説の展開を行う際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すの
で、上記照合の際にビタビ計算を行う必要がある状態を
限定して、照合処理量を更に簡単にできる。
記照合部を、上記照合を行う際に、上記特徴パラメータ
の時系列に基づいて算出された上記仮説のスコアの閾値
あるいは仮説数を含む基準に従って、上記仮説の枝刈り
を行うようにしたので、単語となる可能性が低い仮説を
削除して、以後の照合処理量を大幅に削減できる。
音素環境依存音響モデルの状態系列のうち、複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木,単語辞書および言語モデルを参照して
サブワードの仮説を展開すると共に、特徴パラメータの
時系列と上記展開された仮説との照合を行って、単語の
終端に該当する仮説に関する単語,累積スコアおよび始
端開始フレームを含む単語ラティスを出力するので、上
記第1の発明の場合と同様に、次に続く単語の先頭サブ
ワードに関係無く1つの仮説を展開すればよく、全仮説
における状態の総数を削減することができる。
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。
ムは、コンピュータを、上記第1の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部及び探索部として機能させるので、上記
第1の発明の場合と同様に、次に続く単語の先頭サブワ
ードに関係無く1つの仮説を展開すればよく、単語内お
よび単語境界に関係なく仮説の展開を容易にできる。さ
らに、特徴パラメータ系列と上記展開された仮説との照
合を行う際における照合処理量を大幅に削減できる。
は、上記第3の発明の連続音声認識プログラムが記録さ
れているので、上記第1の発明の場合と同様に、次に続
く単語の先頭サブワードに関係無く1つの仮説を展開す
ればよく、単語内および単語境界に関係なく仮説の展開
を容易にできる。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量を大
幅に削減できる。
ク図である。
の説明図である。
照合処理動作のフローチャートである。
説の枝刈りの説明図である。
みにフラグを付す場合の説明図である。
されない場合と考慮された場合との比較図である。
Claims (8)
- 【請求項1】 隣接するサブワードに依存して決定され
るサブワードを認識単位とすると共に、サブワード環境
に依存する環境依存音響モデルを用いて、連続的に発声
された入力音声を認識する連続音声認識装置であって、 上記入力音声を分析して特徴パラメータの時系列を得る
音響分析部と、 語彙中の各単語が、サブワードのネットワークあるいは
サブワードの木構造として格納された単語辞書と、 単語間の接続情報を表す言語モデルが格納された言語モ
デル格納部と、 上記環境依存音響モデルが、当該環境依存音響モデルの
状態系列のうち、複数のサブワードモデルの状態系列を
まとめて木構造化して成るサブワード状態木として格納
されている環境依存音響モデル格納部と、 上記環境依存音響モデルであるサブワード状態木,単語
辞書および言語モデルを参照して上記サブワードの仮説
を展開すると共に、上記特徴パラメータの時系列と上記
展開された仮説との照合を行い、単語の終端に該当する
仮説に関する単語,累積スコアおよび始端開始フレーム
を含む単語情報を単語ラティスとして出力する照合部
と、 上記単語ラティスに対する探索を行って認識結果を生成
する探索部を備えたことを特徴とする連続音声認識装
置。 - 【請求項2】 請求項1に記載の連続音声認識装置にお
いて、 上記環境依存音響モデル格納部に格納されている環境依
存音響モデルは、中心サブワードが前後のサブワードに
依存する環境依存音響モデルのうち、先行サブワードお
よび中心サブワードが同じサブワードモデルの状態系列
を木構造化したサブワード状態木であることを特徴とす
る連続音声認識装置。 - 【請求項3】 請求項2に記載の連続音声認識装置にお
いて、 上記環境依存音響モデルは、複数のサブワードモデルで
状態を共有している状態共有モデルであることを特徴と
する連続音声認識装置。 - 【請求項4】 請求項1に記載の連続音声認識装置にお
いて、 上記照合部は、上記サブワード状態木を参照して仮説を
展開する際に、上記単語辞書および言語モデルから得ら
れる接続可能なサブワード情報を用いて、上記仮説であ
るサブワード状態木を構成する状態のうち、互いに接続
可能な状態にフラグを付すようになっていることを特徴
とする連続音声認識装置。 - 【請求項5】 請求項1に記載の連続音声認識装置にお
いて、 上記照合部は、上記照合を行う際に、上記特徴パラメー
タの時系列に基づいて上記展開された仮説のスコアを算
出すると共に、このスコアの閾値あるいは仮説数を含む
基準に従って上記仮説の枝刈りを行うようになっている
ことを特徴とする連続音声認識装置。 - 【請求項6】 隣接するサブワードに依存して決定され
るサブワードを認識単位とすると共に、サブワード環境
に依存する環境依存音響モデルを用いて、連続的に発声
された入力音声を認識する連続音声認識方法であって、 音響分析部によって、上記入力音声を分析して特徴パラ
メータの時系列を得、 照合部によって、上記環境依存音響モデルの状態系列を
木構造化して成るサブワード状態木、語彙中の各単語が
サブワードのネットワークあるいはサブワードの木構造
として記述された上記単語辞書、および、単語間の接続
情報を表す言語モデルを参照して、上記サブワードの仮
説を展開すると共に、上記特徴パラメータの時系列と上
記展開された仮説との照合を行って、単語の終端に該当
する仮説に関する単語,累積スコアおよび始端開始フレ
ームを含む単語情報を単語ラティスとして生成し、 探索部によって、上記単語ラティスに対する探索を行っ
て認識結果を生成することを特徴とする連続音声認識方
法。 - 【請求項7】 コンピュータを、請求項1に記載の音響
分析部,単語辞書,言語モデル格納部,環境依存音響モデ
ル格納部,照合部および探索部として機能させることを
特徴とする連続音声認識プログラム。 - 【請求項8】 請求項7に記載の連続音声認識プログラ
ムが記録されたことを特徴とするコンピュータ読出し可
能なプログラム記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002007283A JP2003208195A (ja) | 2002-01-16 | 2002-01-16 | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
PCT/JP2002/013053 WO2003060878A1 (fr) | 2002-01-16 | 2002-12-13 | Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme |
US10/501,502 US20050075876A1 (en) | 2002-01-16 | 2002-12-13 | Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium |
TW092100771A TWI241555B (en) | 2002-01-16 | 2003-01-15 | Device and method for recognizing consecutive speech, and program recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002007283A JP2003208195A (ja) | 2002-01-16 | 2002-01-16 | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003208195A true JP2003208195A (ja) | 2003-07-25 |
JP2003208195A5 JP2003208195A5 (ja) | 2005-05-26 |
Family
ID=19191314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002007283A Pending JP2003208195A (ja) | 2002-01-16 | 2002-01-16 | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050075876A1 (ja) |
JP (1) | JP2003208195A (ja) |
TW (1) | TWI241555B (ja) |
WO (1) | WO2003060878A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011027910A (ja) * | 2009-07-23 | 2011-02-10 | Kddi Corp | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
US8099280B2 (en) | 2005-06-30 | 2012-01-17 | Canon Kabushiki Kaisha | Speech recognition method and speech recognition apparatus |
WO2013125203A1 (ja) * | 2012-02-21 | 2013-08-29 | 日本電気株式会社 | 音声認識装置、音声認識方法およびコンピュータプログラム |
CN106971743A (zh) * | 2016-01-14 | 2017-07-21 | 广州酷狗计算机科技有限公司 | 用户演唱数据处理方法和装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2857528B1 (fr) * | 2003-07-08 | 2006-01-06 | Telisma | Reconnaissance vocale pour les larges vocabulaires dynamiques |
EP1803116B1 (fr) * | 2004-10-19 | 2009-01-28 | France Télécom | Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant |
WO2006126219A1 (en) * | 2005-05-26 | 2006-11-30 | Fresenius Medical Care Deutschland G.M.B.H. | Liver progenitor cells |
US9465791B2 (en) * | 2007-02-09 | 2016-10-11 | International Business Machines Corporation | Method and apparatus for automatic detection of spelling errors in one or more documents |
US7813920B2 (en) | 2007-06-29 | 2010-10-12 | Microsoft Corporation | Learning to reorder alternates based on a user'S personalized vocabulary |
US8606578B2 (en) * | 2009-06-25 | 2013-12-10 | Intel Corporation | Method and apparatus for improving memory locality for real-time speech recognition |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5233681A (en) * | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
WO1997042626A1 (en) * | 1996-05-03 | 1997-11-13 | British Telecommunications Public Limited Company | Automatic speech recognition |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
US6006186A (en) * | 1997-10-16 | 1999-12-21 | Sony Corporation | Method and apparatus for a parameter sharing speech recognition system |
ATE263997T1 (de) * | 1998-09-29 | 2004-04-15 | Lernout & Hauspie Speechprod | Zwischen-wörter verbindung phonemische modelle |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
-
2002
- 2002-01-16 JP JP2002007283A patent/JP2003208195A/ja active Pending
- 2002-12-13 WO PCT/JP2002/013053 patent/WO2003060878A1/ja active Application Filing
- 2002-12-13 US US10/501,502 patent/US20050075876A1/en not_active Abandoned
-
2003
- 2003-01-15 TW TW092100771A patent/TWI241555B/zh not_active IP Right Cessation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099280B2 (en) | 2005-06-30 | 2012-01-17 | Canon Kabushiki Kaisha | Speech recognition method and speech recognition apparatus |
JP2011027910A (ja) * | 2009-07-23 | 2011-02-10 | Kddi Corp | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
WO2013125203A1 (ja) * | 2012-02-21 | 2013-08-29 | 日本電気株式会社 | 音声認識装置、音声認識方法およびコンピュータプログラム |
CN106971743A (zh) * | 2016-01-14 | 2017-07-21 | 广州酷狗计算机科技有限公司 | 用户演唱数据处理方法和装置 |
CN106971743B (zh) * | 2016-01-14 | 2020-07-24 | 广州酷狗计算机科技有限公司 | 用户演唱数据处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW200401262A (en) | 2004-01-16 |
TWI241555B (en) | 2005-10-11 |
WO2003060878A1 (fr) | 2003-07-24 |
US20050075876A1 (en) | 2005-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US6163768A (en) | Non-interactive enrollment in speech recognition | |
JP4414088B2 (ja) | 音声認識において無音を使用するシステム | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US6167377A (en) | Speech recognition language models | |
US5884259A (en) | Method and apparatus for a time-synchronous tree-based search strategy | |
US20040236577A1 (en) | Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus | |
US20060074662A1 (en) | Three-stage word recognition | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
EP0903730B1 (en) | Search and rescoring method for a speech recognition system | |
JP2003208195A (ja) | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 | |
JP2003208195A5 (ja) | ||
US20170270923A1 (en) | Voice processing device and voice processing method | |
US20070038451A1 (en) | Voice recognition for large dynamic vocabularies | |
JP3171107B2 (ja) | 音声認識装置 | |
JP4732030B2 (ja) | 情報処理装置およびその制御方法 | |
JP3042455B2 (ja) | 連続音声認識方式 | |
JP4054610B2 (ja) | 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 | |
JP3049235B2 (ja) | 複合的な文法ネットワークを用いる音声認識システム | |
Thomae et al. | A One-Stage Decoder for Interpretation of Natural Speech | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JPH0962290A (ja) | 音声認識装置 | |
JP2004219693A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、および、プログラム記録媒体 | |
JP2002006883A (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JP2001042885A (ja) | 音声認識装置およびプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040803 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070523 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |