JP2003208195A - 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 - Google Patents

連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Info

Publication number
JP2003208195A
JP2003208195A JP2002007283A JP2002007283A JP2003208195A JP 2003208195 A JP2003208195 A JP 2003208195A JP 2002007283 A JP2002007283 A JP 2002007283A JP 2002007283 A JP2002007283 A JP 2002007283A JP 2003208195 A JP2003208195 A JP 2003208195A
Authority
JP
Japan
Prior art keywords
word
phoneme
subword
hypothesis
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002007283A
Other languages
English (en)
Other versions
JP2003208195A5 (ja
Inventor
Akira Tsuruta
彰 鶴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002007283A priority Critical patent/JP2003208195A/ja
Priority to PCT/JP2002/013053 priority patent/WO2003060878A1/ja
Priority to US10/501,502 priority patent/US20050075876A1/en
Priority to TW092100771A priority patent/TWI241555B/zh
Publication of JP2003208195A publication Critical patent/JP2003208195A/ja
Publication of JP2003208195A5 publication Critical patent/JP2003208195A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

(57)【要約】 【課題】 単語境界にも音素環境依存音響モデルを用い
て精度を確保しつつ大語彙の連続音声認識時にも処理量
の増大を抑える。 【解決手段】 音素環境依存音響モデル格納部3には、
先行音素および中心音素が同じトライフォンモデルをま
とめて先行音素の状態と中心音素の状態と後続音素の状
態との状態系列を木構造化した音素状態木を格納してい
る。したがって、前向き照合部2によって、上記音素状
態木,言語モデル格納部5に格納された言語モデルおよ
び単語辞書4を参照して音素仮説を展開する際には、次
に続く単語の先頭音素に関係無く1つの音素仮説を展開
すればよく、単語内および単語境界に関係なく仮説の展
開が容易になる。また、音響分析部1からの特徴パラメ
ータ系列との照合を行う際における照合処理量を大幅に
削減できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音素環境依存音
響モデルを用いて高精度に認識を行う連続音声認識装置
および連続音声認識方法、連続音声認識プログラム、並
びに、連続音声認識プログラムを記録したプログラム記
録媒体に関する。
【0002】
【従来の技術】一般に、大語彙連続音声認識で用いる認
識単位としては、認識対象語彙の変更や大語彙ヘの拡張
が容易であることから、音節や音素等の単語より小さい
サブワードと呼ばれる認識単位が用いられることが多
い。さらに、調音結合等の影響を考慮するためには、前
後の環境(コンテキスト)に依存したモデルが有効である
ことが知られている。例えば、前後一つずつの音素に依
存したトライフォンモデルと呼ばれる音素モデルが広く
使用されている。
【0003】また、連続的に発声された音声を認識する
連続音声認識方法の一つとして、語彙中の各単語をサブ
ワードのネットワークや木構造等で記述したサブワード
表記辞書と、単語の接続の制約を記述した文法または統
計的言語モデルの情報とに従って、単語を連結して認識
結果を得る方法がある。
【0004】これらのサブワードを認識単位とした連続
音声認識技術については、例えば、刊行物「音声認識の
基礎(下)」古井貞煕監訳に詳しく説明されている。
【0005】上述したごとく、環境に依存したサブワー
ドを用いて連続音声認識を行う場合には、単語内だけで
はなく単語間においても音素環境依存型の音響モデルを
用いた方が、認識精度がよいことが知られている。しか
しながら、単語の始終端に用いる音響モデルは前後に接
続する単語に依存するため、音素環境に依存しない音響
モデルを用いる場合に比べて、処理が複雑になると共に
処理量が大幅に増えてしまう。
【0006】以下、単語辞書と言語モデルと音素環境依
存音響モデルを参照して、単語履歴毎に木を動的に生成
する方法について、具体的に説明する。
【0007】例えば、「朝の天気…」という発声に対し
て、「朝(a;s;a)」という単語の最後の音素/a/を考える
場合、図3に示す単語辞書の情報から得られる単語「朝
日(a;s;a;h;i)」における3番目の音素/a/とその前後に
続く音素とから成るトライフォン“s;a;h”と、図4に
示す言語モデルの情報から得られる単語「の(n;o)」とそ
の前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;n;o)」
における3番目の音素/a/とその前後に続く音素とから
成るトライフォン“s;a;n”とについて、仮説を展開す
る必要がある。この例の場合は2つの仮説を展開するだ
けでよいが、より複雑な文法や統計的言語モデルを用い
る場合には、単語の終端で多くの単語につながる可能性
がある。そして、その場合には、それらの先頭の音素に
依存して、例えば図2(b)に示すような先行音素と中心
音素と後続音素からなるトライフォンの状態系列を用い
て、図5(b)に示すように多くの仮説を展開する必要が
ある。
【0008】この問題に対し、単語内には音素環境依存
の音響モデルを用いる一方、単語境界では環境に依存し
ない音響モデルを使用する連続音声認識方式が、特開平
5‐224692号公報に開示されている。この連続音
声認識方式によれば、単語間での処理量の増大を抑える
ことができる。また、認識対象語彙中の各単語につい
て、前後の単語に依存せずに決まる音響モデル系列を認
識単語として記述した認識単語辞書と、単語境界におい
て前後の単語に依存して記述した単語間単語辞書とを用
いて照合する連続音声認識方式が、特開平11‐450
97号公報に開示されている。この連続音声認識方式に
よれば、単語境界に音素環境依存の音響モデルを用いて
も処理量の増大を抑えることができるのである。
【0009】
【発明が解決しようとする課題】しかしながら、上記従
来の連続音声認識方式においては、以下のような問題が
ある。すなわち、特開平5‐224692号公報に開示
された連続音声認識方式においては、単語内には音素環
境依存の音響モデルを用い、単語境界では環境に依存し
ない音響モデルを用いている。したがって、単語境界で
の処理量の増大を抑えることはができるが、その一方に
おいて、単語境界に用いる音響モデルの精度が低いため
に、特に大語彙の連続音声認識の場合には認識性能の低
下を招く恐れがある。
【0010】これに対して、特開平11‐45097号
公報に開示された連続音声認識方式においては、前後の
単語に依存せずに決まる音響モデル系列を認識単語とし
て記述した認識単語辞書と、単語境界において前後の単
語に依存して記述した単語間単語辞書を用いて照合を行
うようにしている。したがって、単語境界にも音素環境
依存の音響モデルを用いることによって精度を確保しな
がら、大語彙の場合でも単語境界での処理量の増大を抑
えることができるのである。しかしながら、一般に、単
語のスコアや境界はそれ以前の単語の影響を受けるの
で、複数の認識単語が単語間単語を共有すると、図9
(a)に示すように認識単語“k;o;k”及び“s;o;k”と単
語間単語“o”との境界の履歴が考慮されないので、図
9(b)に示すように単語の境界履歴を考慮した場合に比
して、性能の低下を招く恐れがある。また、例えば助詞
の“を(/o/と発声)”等のように、認識単語辞書と単語
間単語辞書とに分割することができない単語についは開
示されてはいない。
【0011】そこで、この発明の目的は、単語境界にも
音素環境依存音響モデルを用いて精度を確保しつつ、大
語彙の連続音声認識時にも単語境界での処理量の増大を
抑えることができる連続音声認識装置および連続音声認
識方法、連続音声認識プログラム、並びに、連続音声認
識プログラムを記録したプログラム記録媒体を提供する
ことにある。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、隣接するサブワードに依存して決定
されるサブワードを認識単位とすると共に,サブワード
環境に依存する環境依存音響モデルを用いて,連続的に
発声された入力音声を認識する連続音声認識装置であっ
て、入力音声を分析して特徴パラメータの時系列を得る
音響分析部と、語彙中の各単語が,サブワードのネット
ワークあるいはサブワードの木構造として格納された単
語辞書と、単語間の接続情報を表す言語モデルが格納さ
れた言語モデル格納部と、上記環境依存音響モデルが,
当該環境依存音響モデルの状態系列のうち,複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木として格納されている環境依存音響モデ
ル格納部と、上記環境依存音響モデルであるサブワード
状態木,上記単語辞書および言語モデルを参照して上記
サブワードの仮説を展開すると共に,上記特徴パラメー
タの時系列と上記展開された仮説との照合を行い,単語
の終端に該当する仮説に関する単語,累積スコア及び始
端開始フレームを含む単語情報を単語ラティスとして出
力する照合部と、上記単語ラティスに対する探索を行っ
て認識結果を生成する探索部を備えたことを特徴として
いる。
【0013】上記構成によれば、サブワード環境に依存
する環境依存音響モデルを木構造化したサブワード状態
木,単語辞書および言語モデルを参照して、サブワード
の仮説を展開するようにしている。したがって、次に続
く単語の先頭サブワードに関係無く1つの仮説を展開す
ればよく、全仮説における状態の総数を削減することが
できる。すなわち、仮説の展開処理量を大幅に削減で
き、単語内および単語境界に関係なく、仮説の展開が容
易になるのである。さらに、照合部によって、上記音響
分析部からの特徴パラメータ系列と上記展開された仮説
との照合を行う際における照合処理量が大幅に削減され
る。
【0014】また、1実施例では、上記第1の発明の連
続音声認識装置において、上記環境依存音響モデル格納
部に格納されている環境依存音響モデルは、中心サブワ
ードが前後のサブワードに依存する環境依存音響モデル
のうち、先行サブワードおよび中心サブワードが同じサ
ブワードモデルの状態系列を木構造化したサブワード状
態木である。
【0015】この実施例によれば、先行サブワードおよ
び中心サブワードが同じサブワードモデルの状態系列を
木構造化したサブワード状態木を用いて、上記仮説を展
開している。したがって、次の仮説を展開する場合に
は、終端仮説における中心サブワードのみに注目して対
応する先行サブワードを有するサブワード状態木を展開
すればよい。つまり、後続サブワードが複数あってもよ
り少ない仮説を展開すればよく、仮説の展開が容易であ
る。
【0016】また、1実施例では、上記第1の発明の連
続音声認識装置において、上記環境依存音響モデルは、
複数のサブワードモデルで状態を共有している状態共有
モデルである。
【0017】この実施例によれば、複数のサブワードモ
デルによって状態を共有することによって、木構造化し
た際に共有している状態を一つにまとめることができ、
ノード数を削減することができる。したがって、上記照
合部による照合時における処理量が大幅に削減される。
【0018】また、1実施例では、上記第1の発明の連
続音声認識装置において、上記照合部は、上記サブワー
ド状態木を参照して仮説を展開する際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すよ
うになっている。
【0019】この実施例によれば、上記展開された仮説
を構成するサブワード状態木の状態のうち、互いに接続
可能な状態のみにフラグを付けるようにしたので、上記
照合の際にビタビ計算を行う必要がある状態が限定され
て、照合処理量が更に簡単になる。
【0020】また、1実施例では、上記第1の発明の連
続音声認識装置において、上記照合部は、上記照合を行
う際に、上記特徴パラメータの時系列に基づいて上記展
開された仮説のスコアを算出すると共に、このスコアの
閾値あるいは仮説数を含む基準に従って上記仮説の枝刈
りを行うようになっている。
【0021】この実施例によれば、上記照合時に仮説の
枝刈りを行うので、単語となる可能性が低い仮説が削除
されて、以後の照合処理量が大幅に削減される。
【0022】また、第2の発明は、隣接するサブワード
に依存して決定されるサブワードを認識単位とすると共
に,サブワード環境に依存する環境依存音響モデルを用
いて,連続的に発声された入力音声を認識する連続音声
認識方法であって、音響分析部によって,上記入力音声
を分析して特徴パラメータの時系列を得、照合部によっ
て,上記環境依存音響モデルの状態系列を木構造化して
成るサブワード状態木,語彙中の各単語がサブワードの
ネットワークあるいはサブワードの木構造として記述さ
れた上記単語辞書,および,単語間の接続情報を表す言語
モデルを参照して,上記サブワードの仮説を展開すると
共に,上記特徴パラメータの時系列と上記展開された仮
説との照合を行って,単語の終端に該当する仮説に関す
る単語,累積スコアおよび始端開始フレームを含む単語
情報を単語ラティスとして生成し、探索部によって,上
記単語ラティスに対する探索を行って認識結果を生成す
ることを特徴としている。
【0023】上記構成によれば、上記第1の発明の場合
と同様に、環境依存音響モデルを木構造化したサブワー
ド状態木を参照して仮説を展開するので、次に続く単語
の先頭サブワードに関係無く1つの仮説を展開すればよ
く、単語内および単語境界に関係なく仮説の展開が容易
になるのである。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量が大
幅に削減される。
【0024】また、第3の発明の連続音声認識プログラ
ムは、コンピュータを、上記第1の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部および探索部として機能させることを特
徴としている。
【0025】上記構成によれば、上記第1の発明の場合
と同様に、次に続く単語の先頭サブワードに関係無く1
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。
【0026】また、第4の発明のプログラム記録媒体
は、上記第3の発明の連続音声認識プログラムが記録さ
れたことを特徴としている。
【0027】上記構成によれば、上記第1の発明の場合
と同様に、次に続く単語の先頭サブワードに関係無く1
つの仮説を展開すればよく、単語内および単語境界に関
係なく仮説の展開が容易になる。さらに、特徴パラメー
タ系列と上記展開された仮説との照合を行う際における
照合処理量が大幅に削減される。
【0028】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態の連続
音声認識装置におけるブロック図である。この連続音声
認識装置は、音響分析部1,前向き照合部2,音素環境依
存音響モデル格納部3,単語辞書4,言語モデル格納部
5,仮説バッファ6,単語ラティス格納部7および後向き
探索部8で構成される。
【0029】図1において、入力音声は、音響分析部1
によって、特徴パラメータの系列に変換されて前向き照
合部2に出力される。前向き照合部2では、音素環境依
存音響モデル格納部3に格納された音素環境依存音響モ
デル,言語モデル格納部5に格納された言語モデルおよ
び単語辞書4を参照して、仮説バッファ6上に音素仮説
を展開する。そして、上記音素環境依存音響モデルを用
いて、上記展開された音素仮説と特徴パラメータ系列と
の照合をフレーム同期ビタビビームサーチによって行
い、単語ラティスを生成して単語ラティス格納部7に格
納する。
【0030】上記音素環境依存音響モデルとしては、ト
ライフォンモデルと呼ばれる前後一つずつの音素環境を
考慮した隠れマルコフモデル(HMM)を用いている。す
なわち、上記サブワードモデルは音素モデルである。但
し、従来においては図2(b)に示すように中心音素の前
後1つずつの先行音素と後続音素とを考慮したトライフ
ォンモデルを3状態の状態系列(状態番号列)で表現して
いたものを、本実施の形態においては、図2(a)に示す
ように、先行音素と中心音素とが同じトライフォンモデ
ルの状態系列をまとめて木構造(以下、音素状態木とい
う)化している。図2(b)に示すように、複数のトライフ
ォンモデルで状態を共有している状態共有モデルは、状
態系列を木構造化して音素状態木を作成することによっ
て状態数を削減することができ、計算量の削減を行うこ
とができるのである。
【0031】上記単語辞書4としては、認識対象語彙の
各単語について、その単語の読みを音素系列で表記し、
図3に示すように、上記音素系列を木構造化したものを
用いる。言語モデル格納部5には、例えば、図4に示す
ように、文法によって設定された単語間の接続情報が言
語モデルとして格納されている。尚、本実施の形態にお
いては、単語の読みを表わす音素系列を木構造化したも
のを単語辞書4としているが、ネットワーク化したもの
でも差し支えない。また、言語モデルとして文法モデル
を用いたが、統計的言語モデルを用いても差し支えな
い。
【0032】上記仮説バッファ6上には、上述したよう
に、上記前向き照合部2によって、音素環境依存音響モ
デル格納部3,単語辞書4および言語モデル格納部5が
参照されて、図5(a)に示すような音素仮説が順次展開
される。後向き探索部8は、言語モデル格納部5に格納
された言語モデルおよび単語辞書4を参照しながら、単
語ラティス格納部7に格納されている単語ラティスを、
例えばA*アルゴリズムを用いて探索することによっ
て、入力音声に対する認識結果を得るようになってい
る。
【0033】以下、上記前向き照合部2によって、上記
音素環境依存音響モデル格納部3,単語辞書4および言
語モデル格納部5を参照して、仮説バッファ6上に仮説
を展開して単語ラティスを生成する方法について、図6
に示す前向き照合処理動作フローチャートに従って説明
する。
【0034】ステップS1で、先ず照合を始める前に仮
説バッファ6の初期化を行う。そして、無音から各単語
の始端に続く“-;-;*”なる音素状態木が初期仮説とし
て仮説バッファ6にセットされる。ステップS2で、上
記音素環境依存音響モデルが用いられて、処理対象のフ
レームにおける特徴パラメータと仮説バッファ6内にあ
る図7(a)に示すような音素仮説との照合が行われ、各
音素仮説のスコアが計算される。ステップS3で、図7
(b)に示すように、上記スコアの閾値あるいは仮説数等
に基づいて、仮説1及び仮説4のように音素仮説の枝刈
りが行われる。こうして、音素仮説の不必要な増大が防
止される。ステップS4で、仮説バッファ6内に残って
いる音素仮説のうち単語終端がアクティブなものについ
て、単語,累積スコアおよび始端開始フレーム等の単語
情報が単語ラティス格納部7に保存される。こうして、
単語ラティスが生成されて保存される。ステップS5
で、図7(b)に示される仮説5および仮説6のように、
音素環境依存音響モデル格納部3,単語辞書4および言
語モデル格納部5の情報が参照されて、仮説バッファ6
内に残っている音素仮説が伸ばされる。ステップS6
で、当該処理対象フレームは最終フレームであるか否か
が判別される。その結果、最終フレームである場合には
前向き照合処理動作を終了する。一方、最終フレームで
ない場合には上記ステップS2に戻って、次のフレーム
の処理に移行する。そして、以後、上記ステップS2〜
ステップS6までが繰り返され、上記ステップS6におい
て最終フレームであると判別されると前向き照合処理動
作を終了する。
【0035】以下、上記前向き照合処理動作の際に、先
行音素および中心音素が同じであるトライフォンモデル
の状態系列が木構造化された音素状態木を用いる場合の
効果について説明する。
【0036】例えば、「朝の天気…」という発声に対し
て、「朝(a;s;a)」という単語の最後の音素/a/を考える
場合に、図3に示す単語辞書4の情報から得られた単語
「朝日(a;s;a;h;i)」における3番目の音素/a/とその前
後に続く音素とから成るトライフォン“s;a;h”と、図
4に示す言語モデルの情報から得られた単語「の(n;o)」
とその前に続く単語「朝(a;s;a)」との連鎖「朝の(a;s;a;
n;o)」における3番目の音素/a/とその前後に続く音素
とから成るトライフォン“s;a;n”とについて、音素仮
説を展開することが可能である。この場合には2つの音
素仮説を展開するだけでよいが、より複雑な文法や統計
的言語モデルを参照した場合には単語の終端で多くの次
の単語につながる可能性があり、図5(b)に示すよう
に、次の単語の先頭音素に応じて多数の音素仮説を展開
することになる。これに対して、本実施の形態のように
音素状態木の音素仮説を展開する場合には、次の単語の
先頭音素に関係なく図2(a)に示すような音素状態木
“s;a;*”を、図5(a)に示すように1つ展開するだけ
でよいのである。尚、図5(a)においては、音素状態木
のシンボルとして「木」を模した三角形を当てている。
【0037】ところで、図5(b)に示すように、個々の
音素について仮説を展開する場合には、次に続く単語の
先頭音素の種類を全27とした場合、新たに展開される
音素仮説の数は27となり、全音素仮説における状態の
総数は81(=27×3)となる。
【0038】これに対して、図5(a)に示すように、上
記音素状態木を用いて音素仮説を展開することによっ
て、新たに展開される音素仮説の数は1となり、状態の
総数は29(1+7+21)に削減することができる。し
たがって、仮説の展開処理および照合処理の処理量を大
幅に削減できるのである。
【0039】また、上記言語モデルに文法を用いる場
合、単語辞書4および言語モデルによって後続の音素が
限定されることが多い。そこで、図8に示すように、音
素状態木“s;a;*”の各状態のうち、単語辞書4に基づ
く音素列“s;a;h”および言語モデルに基づく音素列
“s;a;n”に必要な状態のみにフラグ(図8中においては
楕円印)を付すことによって、照合の全状態数を、音素
状態木“s;a;*”の総ての状態数29に比して状態数5
に削減できる。したがって、照合の処理量を更に削減で
きるのである。
【0040】以上のごとく、本実施の形態においては、
音素環境依存音響モデル格納部3には、先行音素および
中心音素が同じトライフォンモデルの状態系列をまとめ
て木構造化した音素状態木を格納している。その結果、
複数のトライフォンモデルで状態を共有している状態共
有モデルの場合には、木構造化した際に共有されている
状態を一つにまとめることができ、ノード数を削減する
ことができる。したがって、個々の音素について仮説を
展開する場合に上記音素状態木を音素仮説として用いる
ことによって、次に続く単語の先頭音素に関係無く1つ
の音素仮説を展開すればよいことになる。したがって、
次に続く単語の先頭音素の種類を全27と仮定した場
合、従来は、新たに27個の音素仮説が展開されるため
に全音素仮説における状態の総数は81となる。これに
対して、本実施の形態においては、新たに展開される音
素仮説は1個であるために全音素仮説における状態の総
数を29に削減することができるのである。
【0041】すなわち、本実施の形態によれば、上記前
向き照合部2によって、音素環境依存音響モデル格納部
3に格納された音素環境依存音響モデル,言語モデル格
納部5に格納された言語モデルおよび単語辞書4を参照
して音素仮説を展開する際における音素仮説の展開処理
量を大幅に削減できる。したがって、単語内および単語
境界に関係なく、仮説の展開が容易になる。また、前向
き照合部2によって、上記音素環境依存音響モデルを用
いて、音響分析部1からの特徴パラメータ系列と上記展
開された音素仮説とのフレーム同期ビタビビームサーチ
による照合を行う際における照合処理量を大幅に削減で
きるのである。
【0042】また、その際に、上記前向き照合部2は、
上記音素仮説との照合を行う際に、各音素仮説のスコア
を計算し、スコアの閾値あるいは仮説数の閾値に基づい
て音素仮説の枝刈りを行うようにしている。したがっ
て、単語となる可能性が低い音素仮説を削除することが
でき、照合処理量を大幅に削減することができる。さら
に、前向き照合部2は、上記音素仮説を展開する際に、
言語モデル格納部5および単語辞書4を参照して、上記
音素仮説を構成する音素状態木の状態のうち、互いに接
続可能であって上記照合に関係のある状態のみにフラグ
を付けるようにすることができる。したがって、その場
合には、木構造化された状態のうち上記照合に関係のな
い状態に関するビタビ計算を行う必要がなく、照合処理
量を更に削減することができるのである。
【0043】尚、上述の説明において、上記音素環境依
存音響モデルは、トライフォンモデルと呼ばれる前後1
つずつの音素環境を考慮したHMMを用いたが、隣接す
るサブワードに依存して決定されるサブワードはこれに
限定されるものではない。
【0044】ところで、上記実施の形態における音響分
析部1,前向き照合部2および後向き探索部8による上
記音響分析手段,照合手段および検索手段としての機能
は、プログラム記録媒体に記録された連続音声認識プロ
グラムによって実現される。上記実施の形態における上
記プログラム記録媒体は、RAM(ランダム・アクセス・
メモリ)とは別体に設けられたROM(リード・オンリ・メ
モリ)でなるプログラムメディアである。あるいは、外
部補助記憶装置に装着されて読み出されるプログラムメ
ディアであってもよい。尚、何れの場合においても、上
記プログラムメディアから連続音声認識プログラムを読
み出すプログラム読み出し手段は、上記プログラムメデ
ィアに直接アクセスして読み出す構成を有していてもよ
いし、上記RAMに設けられたプログラム記憶エリア
(図示せず)にダウンロードし、上記プログラム記憶エリ
アにアクセスして読み出す構成を有していてもよい。
尚、上記プログラムメディアからRAMの上記プログラ
ム記憶エリアにダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。
【0045】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタル多用途ディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0046】また、上記実施の形態における連続音声認
識装置は、モデムを備えてインターネットを含む通信ネ
ットワークと接続可能な構成を有する場合には、上記プ
ログラムメディアは、通信ネットワークからのダウンロ
ード等によって流動的にプログラムを坦持する媒体であ
っても差し支えない。尚、その場合における上記通信ネ
ットワークからダウンロードするためのダウンロードプ
ログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。
【0047】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0048】
【発明の効果】以上より明らかなように、第1の発明の
連続音声認識装置は、照合部で、環境依存音響モデルの
状態系列のうち、複数のサブワードモデルの状態系列を
まとめて木構造化して成るサブワード状態木,単語辞書
および言語モデルを参照してサブワードの仮説を展開す
ると共に、音響分析部からの特徴パラメータの時系列と
上記展開された仮説との照合を行って、単語の終端に該
当する仮説に関する単語,累積スコアおよび始端開始フ
レームを含む単語ラティスを出力するので、次に続く単
語の先頭サブワードに関係無く1つの仮説を展開すれば
よく、全仮説における状態の総数を削減することができ
る。
【0049】したがって、上記仮説の展開処理量を大幅
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。
【0050】また、1実施例の連続音声認識装置は、上
記環境依存音響モデルを、先行サブワードおよび中心サ
ブワードが同じサブワードモデルの状態系列を木構造化
したサブワード状態木としたので、次の仮説を展開する
場合には、終端仮説における中心サブワードのみに注目
して対応する先行サブワードを有するサブワード状態木
を展開すればよい。したがって、後続サブワードが複数
あってもより少ない仮説を展開すればよく、仮説の展開
を容易にできる。
【0051】また、1実施例の連続音声認識装置は、複
数のサブワードモデルで状態を共有している状態共有モ
デルを木構造化したサブワード状態木を環境依存音響モ
デルとしたので、後段のサブワードによって共有される
前段のサブワードの状態を一つにまとめてノード数を削
減することができる。したがって、上記照合時における
処理量を大幅に削減できる。
【0052】また、1実施例の連続音声認識装置は、上
記照合部を、上記仮説の展開を行う際に、上記単語辞書
および言語モデルから得られる接続可能なサブワード情
報を用いて、上記仮説であるサブワード状態木を構成す
る状態のうち、互いに接続可能な状態にフラグを付すの
で、上記照合の際にビタビ計算を行う必要がある状態を
限定して、照合処理量を更に簡単にできる。
【0053】また、1実施例の連続音声認識装置は、上
記照合部を、上記照合を行う際に、上記特徴パラメータ
の時系列に基づいて算出された上記仮説のスコアの閾値
あるいは仮説数を含む基準に従って、上記仮説の枝刈り
を行うようにしたので、単語となる可能性が低い仮説を
削除して、以後の照合処理量を大幅に削減できる。
【0054】また、第2の発明の連続音声認識方法は、
音素環境依存音響モデルの状態系列のうち、複数のサブ
ワードモデルの状態系列をまとめて木構造化して成るサ
ブワード状態木,単語辞書および言語モデルを参照して
サブワードの仮説を展開すると共に、特徴パラメータの
時系列と上記展開された仮説との照合を行って、単語の
終端に該当する仮説に関する単語,累積スコアおよび始
端開始フレームを含む単語ラティスを出力するので、上
記第1の発明の場合と同様に、次に続く単語の先頭サブ
ワードに関係無く1つの仮説を展開すればよく、全仮説
における状態の総数を削減することができる。
【0055】したがって、上記仮説の展開処理量を大幅
に削減でき、単語内および単語境界に関係なく、上記仮
説の展開を容易に行うことができる。さらに、上記照合
を行う際における照合処理量を大幅に削減することがで
きる。
【0056】また、第3の発明の連続音声認識プログラ
ムは、コンピュータを、上記第1の発明における音響分
析部,単語辞書,言語モデル格納部,環境依存音響モデル
格納部,照合部及び探索部として機能させるので、上記
第1の発明の場合と同様に、次に続く単語の先頭サブワ
ードに関係無く1つの仮説を展開すればよく、単語内お
よび単語境界に関係なく仮説の展開を容易にできる。さ
らに、特徴パラメータ系列と上記展開された仮説との照
合を行う際における照合処理量を大幅に削減できる。
【0057】また、第4の発明のプログラム記録媒体
は、上記第3の発明の連続音声認識プログラムが記録さ
れているので、上記第1の発明の場合と同様に、次に続
く単語の先頭サブワードに関係無く1つの仮説を展開す
ればよく、単語内および単語境界に関係なく仮説の展開
を容易にできる。さらに、特徴パラメータ系列と上記展
開された仮説との照合を行う際における照合処理量を大
幅に削減できる。
【図面の簡単な説明】
【図1】 この発明の連続音声認識装置におけるブロッ
ク図である。
【図2】 音素環境依存音響モデルの説明図である。
【図3】 図1における単語辞書の説明図である。
【図4】 言語モデルの説明図である。
【図5】 図1における前向き照合部による仮説の展開
の説明図である。
【図6】 上記前向き照合部によって実行される前向き
照合処理動作のフローチャートである。
【図7】 上記前向き照合部による仮説の照合および仮
説の枝刈りの説明図である。
【図8】 音素仮説の音素状態木における必要な状態の
みにフラグを付す場合の説明図である。
【図9】 認識単語と単語間単語との境界の履歴が考慮
されない場合と考慮された場合との比較図である。
【符号の説明】
1…音響分析部、 2…前向き照合部、 3…音素環境依存音響モデル格納部、 4…単語辞書、 5…言語モデル格納部、 6…仮説バッファ、 7…単語ラティス格納部、 8…後向き探索部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 隣接するサブワードに依存して決定され
    るサブワードを認識単位とすると共に、サブワード環境
    に依存する環境依存音響モデルを用いて、連続的に発声
    された入力音声を認識する連続音声認識装置であって、 上記入力音声を分析して特徴パラメータの時系列を得る
    音響分析部と、 語彙中の各単語が、サブワードのネットワークあるいは
    サブワードの木構造として格納された単語辞書と、 単語間の接続情報を表す言語モデルが格納された言語モ
    デル格納部と、 上記環境依存音響モデルが、当該環境依存音響モデルの
    状態系列のうち、複数のサブワードモデルの状態系列を
    まとめて木構造化して成るサブワード状態木として格納
    されている環境依存音響モデル格納部と、 上記環境依存音響モデルであるサブワード状態木,単語
    辞書および言語モデルを参照して上記サブワードの仮説
    を展開すると共に、上記特徴パラメータの時系列と上記
    展開された仮説との照合を行い、単語の終端に該当する
    仮説に関する単語,累積スコアおよび始端開始フレーム
    を含む単語情報を単語ラティスとして出力する照合部
    と、 上記単語ラティスに対する探索を行って認識結果を生成
    する探索部を備えたことを特徴とする連続音声認識装
    置。
  2. 【請求項2】 請求項1に記載の連続音声認識装置にお
    いて、 上記環境依存音響モデル格納部に格納されている環境依
    存音響モデルは、中心サブワードが前後のサブワードに
    依存する環境依存音響モデルのうち、先行サブワードお
    よび中心サブワードが同じサブワードモデルの状態系列
    を木構造化したサブワード状態木であることを特徴とす
    る連続音声認識装置。
  3. 【請求項3】 請求項2に記載の連続音声認識装置にお
    いて、 上記環境依存音響モデルは、複数のサブワードモデルで
    状態を共有している状態共有モデルであることを特徴と
    する連続音声認識装置。
  4. 【請求項4】 請求項1に記載の連続音声認識装置にお
    いて、 上記照合部は、上記サブワード状態木を参照して仮説を
    展開する際に、上記単語辞書および言語モデルから得ら
    れる接続可能なサブワード情報を用いて、上記仮説であ
    るサブワード状態木を構成する状態のうち、互いに接続
    可能な状態にフラグを付すようになっていることを特徴
    とする連続音声認識装置。
  5. 【請求項5】 請求項1に記載の連続音声認識装置にお
    いて、 上記照合部は、上記照合を行う際に、上記特徴パラメー
    タの時系列に基づいて上記展開された仮説のスコアを算
    出すると共に、このスコアの閾値あるいは仮説数を含む
    基準に従って上記仮説の枝刈りを行うようになっている
    ことを特徴とする連続音声認識装置。
  6. 【請求項6】 隣接するサブワードに依存して決定され
    るサブワードを認識単位とすると共に、サブワード環境
    に依存する環境依存音響モデルを用いて、連続的に発声
    された入力音声を認識する連続音声認識方法であって、 音響分析部によって、上記入力音声を分析して特徴パラ
    メータの時系列を得、 照合部によって、上記環境依存音響モデルの状態系列を
    木構造化して成るサブワード状態木、語彙中の各単語が
    サブワードのネットワークあるいはサブワードの木構造
    として記述された上記単語辞書、および、単語間の接続
    情報を表す言語モデルを参照して、上記サブワードの仮
    説を展開すると共に、上記特徴パラメータの時系列と上
    記展開された仮説との照合を行って、単語の終端に該当
    する仮説に関する単語,累積スコアおよび始端開始フレ
    ームを含む単語情報を単語ラティスとして生成し、 探索部によって、上記単語ラティスに対する探索を行っ
    て認識結果を生成することを特徴とする連続音声認識方
    法。
  7. 【請求項7】 コンピュータを、請求項1に記載の音響
    分析部,単語辞書,言語モデル格納部,環境依存音響モデ
    ル格納部,照合部および探索部として機能させることを
    特徴とする連続音声認識プログラム。
  8. 【請求項8】 請求項7に記載の連続音声認識プログラ
    ムが記録されたことを特徴とするコンピュータ読出し可
    能なプログラム記録媒体。
JP2002007283A 2002-01-16 2002-01-16 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 Pending JP2003208195A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002007283A JP2003208195A (ja) 2002-01-16 2002-01-16 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
PCT/JP2002/013053 WO2003060878A1 (fr) 2002-01-16 2002-12-13 Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme
US10/501,502 US20050075876A1 (en) 2002-01-16 2002-12-13 Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium
TW092100771A TWI241555B (en) 2002-01-16 2003-01-15 Device and method for recognizing consecutive speech, and program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002007283A JP2003208195A (ja) 2002-01-16 2002-01-16 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2003208195A true JP2003208195A (ja) 2003-07-25
JP2003208195A5 JP2003208195A5 (ja) 2005-05-26

Family

ID=19191314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002007283A Pending JP2003208195A (ja) 2002-01-16 2002-01-16 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Country Status (4)

Country Link
US (1) US20050075876A1 (ja)
JP (1) JP2003208195A (ja)
TW (1) TWI241555B (ja)
WO (1) WO2003060878A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011027910A (ja) * 2009-07-23 2011-02-10 Kddi Corp パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US8099280B2 (en) 2005-06-30 2012-01-17 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2857528B1 (fr) * 2003-07-08 2006-01-06 Telisma Reconnaissance vocale pour les larges vocabulaires dynamiques
EP1803116B1 (fr) * 2004-10-19 2009-01-28 France Télécom Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
WO2006126219A1 (en) * 2005-05-26 2006-11-30 Fresenius Medical Care Deutschland G.M.B.H. Liver progenitor cells
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US7813920B2 (en) 2007-06-29 2010-10-12 Microsoft Corporation Learning to reorder alternates based on a user'S personalized vocabulary
US8606578B2 (en) * 2009-06-25 2013-12-10 Intel Corporation Method and apparatus for improving memory locality for real-time speech recognition
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US9799327B1 (en) * 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
WO1997042626A1 (en) * 1996-05-03 1997-11-13 British Telecommunications Public Limited Company Automatic speech recognition
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
ATE263997T1 (de) * 1998-09-29 2004-04-15 Lernout & Hauspie Speechprod Zwischen-wörter verbindung phonemische modelle
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099280B2 (en) 2005-06-30 2012-01-17 Canon Kabushiki Kaisha Speech recognition method and speech recognition apparatus
JP2011027910A (ja) * 2009-07-23 2011-02-10 Kddi Corp パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
CN106971743B (zh) * 2016-01-14 2020-07-24 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置

Also Published As

Publication number Publication date
TW200401262A (en) 2004-01-16
TWI241555B (en) 2005-10-11
WO2003060878A1 (fr) 2003-07-24
US20050075876A1 (en) 2005-04-07

Similar Documents

Publication Publication Date Title
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US6163768A (en) Non-interactive enrollment in speech recognition
JP4414088B2 (ja) 音声認識において無音を使用するシステム
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US6167377A (en) Speech recognition language models
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
US20040236577A1 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
US20060074662A1 (en) Three-stage word recognition
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
EP0903730B1 (en) Search and rescoring method for a speech recognition system
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP2003208195A5 (ja)
US20170270923A1 (en) Voice processing device and voice processing method
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
JP3171107B2 (ja) 音声認識装置
JP4732030B2 (ja) 情報処理装置およびその制御方法
JP3042455B2 (ja) 連続音声認識方式
JP4054610B2 (ja) 音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
Thomae et al. A One-Stage Decoder for Interpretation of Natural Speech
JP2731133B2 (ja) 連続音声認識装置
JPH0962290A (ja) 音声認識装置
JP2004219693A (ja) 音声認識装置、音声認識方法、音声認識プログラム、および、プログラム記録媒体
JP2002006883A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2001042885A (ja) 音声認識装置およびプログラム記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080902