JP3494338B2

JP3494338B2 - 音声認識方法

Info

Publication number: JP3494338B2
Application number: JP00483597A
Authority: JP
Inventors: 喜昭野田; 昭一松永; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-01-14
Filing date: 1997-01-14
Publication date: 2004-02-09
Anticipated expiration: 2017-01-14
Also published as: JPH10198392A

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、音声認識におい
て、与えられた文法によって生成可能な数多くの仮説か
ら、入力された音声に最も近い仮説を効率的に見つける
仮説の探索技術の分野に属する。【０００２】【従来の技術】図２に示す音声認識処理において、入力
音声１１は、分析処理部１２により、特徴パラメータの
ベクトルデータ時系列に変換され、探索処理部１３によ
り文法／言語モデル１６の許容する仮説と照合される。
仮説の照合結果の評価値であるスコアは、仮説に対応す
る音響モデル１５と入力音声１１の尤もらしさを示す音
響スコアと仮説の存在する確率に対応した言語スコアか
らなり、最も高いスコアを持つ仮説が認識結果１４とし
て出力される。【０００３】分析処理部１２における信号処理として、
よく用いられるのは、線形予測分析（Linear Predictiv
e Coding，ＬＰＣと呼ばれる）であり、特徴パラメータ
としては、ＬＰＣケプストラム、ＬＰＣデルタケプスト
ラム、メルケプストラム、対数パワーなどがある。【０００４】音響モデル１５としては確率・統計理論に
基づいてモデル化された隠れマルコフモデル法（Hidden
Markov Model ，以後ＨＭＭ法と呼ぶ）が主流である。
このＨＭＭ法の詳細は、例えば、社団法人電子情報通信
学会編、中川聖一著『確率モデルによる音声認識』に開
示されている。【０００５】文法／言語モデル１６は、認識対象とする
文を定義するための単語の連結関係を規定したものであ
り、単語を枝とした単語ネットワークや言語の確率モデ
ル等が用いられる。言語の確率モデルは、単語単体の存
在確率、２つ以上の単語の連結する確率が用いられる。
この言語の確率モデルの詳細は、例えば、社団法人電子
情報通信学会編、中川聖一著『確率モデルによる音声認
識』に開示されている。【０００６】探索処理部１３は、文法で規定された単語
の接続関係を示す単語ネットワーク上の単語系列に対応
した音響モデル１５と特徴パラメータのベクトルデータ
時系列を照合し、音響的な尤もらしさを示す音響スコア
を求める一方、その単語系列に対応した言語モデル１６
から言語スコアを求め、音響スコアと言語スコアからな
る仮説のスコアを時刻毎に求め、スコアの低い仮説を捨
て、スコアの高い仮説を残し、次の時刻では前の時刻で
残された仮説に対し、必要であれば単語の拡張を行い、
再び音響モデル１５、言語モデル１６に基づいて評価を
行う。【０００７】次に、この照合計算の詳細について、図
３を用いて説明する。文法で規定された単語の接続関係
を示す単語ネットワークは、音響モデル１５との照合を
行うために、音響モデル１５の最小構成単位である図３
に示すような状態のネットワークに展開される。２１，
２２，２３は状態を示し、２４，２５，２６は遷移を示
し、３１，３２，３３のそれぞれの箱は１つの仮説を示
している。仮説は１つの状態に０個以上複数配置可能で
ある。１つの仮説の中には、その仮説における過去の単
語系列、仮説のスコアの情報が格納されている。ある時
刻ｔでの状態２２での照合計算の説明において、１つ前
の時刻ｔ−１での仮説が図３のように配置されていたと
する。【０００８】状態２２の遷移元の状態である状態２１，
２２，２３での時刻ｔ−１での仮説は、それぞれ遷移２
４，２５，２６を経て、状態２２に移る。この際、遷移
２４を経た仮説は、時刻ｔでの特徴パラメータのベクト
ルデータに対する遷移２４の音響スコアが加算される。
遷移２５，２６を経た仮説も、それぞれ遷移２５，２６
に対応した音響スコアが加算される。もし、状態２１が
ある１つの単語の最終状態であれば、仮説が遷移２４を
経る際に言語スコアも加算され、仮説の過去の単語系列
情報が更新される。【０００９】状態２２に遷移した仮説のうち、過去の単
語系列が同一の仮説が複数ある場合は、スコアの最大の
仮説のみ残し、また、スコアの低い仮説は棄却する。こ
の時刻ｔの状態２２での計算は、他の全ての状態につい
ても同様に行われ、この計算は、入力音声の全ての時刻
で行われる。なお、時刻０では、過去の単語系列なし、
スコア０の１つ仮説を状態ネットワークの開始状態に配
置する。この照合計算の結果、終了時刻での状態ネット
ワークの終了状態に配置された０以上の複数の仮説が、
認識結果であり、各仮説の過去の単語系列、スコア情報
が、認識候補の単語系列、スコアとなる。【００１０】以上、説明したように従来の方法では計算
量が多く、大きな文法では照合計算に時間がかかるた
め、仮説に格納する過去の単語系列情報は、１つ前の単
語情報のみ格納するという近似手法があり、単語対近似
（Word Pair Approximation ）と呼ばれている。単語対
近似では、ある状態に遷移した仮説のうち、１つ前の単
語が同一の仮説が複数ある場合は、スコアの最大の仮説
のみ残すことに相当する。単語対近似の詳細は、ＩＥＥ
Ｅの国際会議ＩＣＡＳＳＰ’９１のR.Schwartz,S.Austi
n著、"A Comparison of Several Approximate Algorith
ms for FindingMultiple(N-best)Sentence Hypotheses"
に開示されている。【００１１】また、別の近似手法として、単語の先頭音
素環境が同一の複数の仮説のうちスコアの最大の仮説の
み残す近似手法が、電子情報通信学会技術研究報告［音
声］のＳＰ９５−８８、清水徹、山本博史、松永昭一、
匂坂芳典著、“単語グラフを用いた自由発話音声認識”
に開示されている。この近似手法は、ある状態に遷移し
た仮説のうち、１つ前の単語が同一の仮説が複数ある場
合は、スコアの最大の仮説のみ残すことに相当し、単語
対近似手法に比べ近似誤差は大きい。【００１２】【発明が解決しようとする課題】しかしながら、上述し
た単語対近似では、１乃至２音素程度の短い単語の場合
に、単語対近似では近似誤りが大きくなり、単語リスト
の中に音素数の少ない単語が含まれる場合に認識誤りが
生じやすくなるという問題があった。【００１３】本発明は、上記課題に鑑みてなされたもの
で、単語リストの中に音素数の少ない単語が含まれる場
合でも、近似誤りの少ない近似演算処理を含む高速かつ
高精度の音声認識方法を提供することを目的とする。【００１４】【課題を解決するための手段】前述した目的を達成する
ために、本発明のうちで請求項１記載の発明は、認識の
単位である単語と入力音声との近さを示す音響スコアを
求めるための音響モデルと、単語間の接続関係を規定す
る文法あるいは言語モデルとを用いて、上記文法の許容
する入力音声の発声内容に関する１つあるいは複数の仮
説の尤もらしさを、上記音響モデルと言語モデルに基づ
いて、時刻毎にスコアとして評価することで全ての音声
が入力された時点で、最もスコアの高い１つないし複数
の仮説をもって認識結果とする音声認識方法において、
仮説の尤もらしさを時刻毎にスコアとして評価する過程
の中で仮説を同一状態に合流する際に、過去の複数の音
素履歴が同一の仮説はスコアの高い仮説のみを保持し、
過去の複数の音素履歴が異なる仮説は別々に保持するこ
とにより単語仮説の絞り込みを行うことを要旨とする。【００１５】請求項１記載の本発明では、各状態の照
合計算の中で、過去の複数の音素履歴が同一の仮説が複
数個ある場合、最もスコアの高い仮説のみを残す。従っ
て、仮説に格納する情報は、過去の複数の音素履歴、仮
説のスコアとなる。【００１６】【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。【００１７】図１は本発明の一実施の形態に係る状態ネ
ットワークを示す図である。尚、図中、図３で示したも
のと同一のものは同一の記号を付して詳細な説明を省略
した。【００１８】以下、この実施形態を図１を基に説明す
る。従来法である単語対近似では、仮説に格納する情報
は、１つ前の単語と仮説のスコアであるが、それに対
し、本実施の形態では仮説に格納する情報は、過去ｋ
個、例えば４〜６音素程度の規模の音素履歴と仮説のス
コアとなる。例えば、図１における状態２２での照合計
算の例において、状態２１が単語の最終状態の場合、状
態２１にはその単語の音素系列情報を前もって格納して
おく。状態２１から状態２２に遷移する仮説２７には、
遷移２４に対応する音響スコア、言語スコアが加えら
れ、状態２１の音素系列情報から各仮説内の音素履歴情
報を更新する。【００１９】具体的には、状態２１に格納されている音
素系列情報を仮説の音素履歴情報に連結し、過去ｋ個だ
けの音素が保存されるようにする。状態２２に遷移して
きた仮説に対し、仮説に格納している過去ｋ個の音素履
歴情報が同一の仮説が複数ある場合に、スコアの最も高
い仮説のみ残す。【００２０】本実施形態では、音素数の少ない短い単語
の場合でも、単語の範囲を越えて過去ｋ個の音素履歴を
考慮して仮説の選択を行っているため、近似誤りを抑え
ることができる。また、例えば１つ前の単語が「強化す
る」と「消化する」のように単語の語尾が共通の仮説が
複数ある場合でも、それらの仮説を統合して１つにまと
めることができるので、探索効率を高めることができ
る。【００２１】上述してきたように、従来の単語対近似で
は、音素数の少ない短い単語の場合に近似誤りが大きく
なるのに対し、本実施形態では、過去の一定個数の音素
履歴を考慮して仮説の選択を行うため、履歴音素数があ
る程度大きい場合に、短い単語での近似誤りを抑制する
ことができる。また、音素数の多い長い単語について
は、単語対近似以上に近似演算効率を高めることができ
る。【００２２】つまり、認識を行っている文中に含まれる
単語の長さに関係なく、一定の長さの履歴を考慮しなが
ら仮説の選択を行うため、近似精度の局所的な低下や、
探索効率の局所的な低下を抑えることができる。また、
履歴音素数の値を増やすことで、近似精度を高めかつ認
識精度を高めることができ、また履歴音素数の値を減ら
すことで、効率を高めかつ探索処理速度を速めることが
できるので、目的に応じて認識精度と探索処理量のバラ
ンスを自由に設定することができる。【００２３】【発明の効果】以上説明したように、本発明は、過去の
一定個数の音素履歴を考慮して仮説の選択を行うように
したので、短い単語での近似誤りを抑制することができ
るという効果を奏する。

【図面の簡単な説明】【図１】本発明に係る状態ネットワークを示す図であ
る。【図２】音声認識処理の概要を示す図である。【図３】従来の状態ネットワークを示す図である。【符号の説明】１１入力音声１２分析処理部１３探索処理部１４認識結果１５音響モデル１６文法／言語モデル２１，２２，２３状態２４，２５，２６遷移２７，２８，２９仮説

フロントページの続き (56)参考文献特開平８−123479（ＪＰ，Ａ) 特開平８−221090（ＪＰ，Ａ) 清水，山本，政瀧，松永，匂坂，大語い連続音声認識のための単語仮説数削減，電子情報通信学会論文誌Ｄ −ＩＩ，日本，1996年12月25日，Ｖｏｌ．Ｊ79−Ｄ−ＩＩ，Ｎｏ．12，Ｐａｇｅｓ 2117−2124 野田，松永，嵯峨山，単語グラフを用いた大語彙連続音声認識における近似演算手法の検討，電子情報通信学会技術研究報告［音声］，日本，1997年１月17日，Ｖｏｌ．96，Ｎｏ．449，ＳＰ96−102，Ｐａｇｅｓ 53−58 野田，松永，嵯峨山，単語グラフを用いた大語彙連続音声認識における近似演算法，日本音響学会平成９年度春季研究発表会講演論文集，日本，1997年３月17日，２−６−６，Ｐａｇｅｓ 55 −56 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/0 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】【請求項１】認識の単位である単語と入力音声との近
さを示す音響スコアを求めるための音響モデルと、前記
単語間の接続関係を規定する文法あるいは言語モデルと
を用いて、上記文法の許容する入力音声の発声内容に関
する１つあるいは複数の仮説の尤もらしさを、上記音響
モデルと言語モデルに基づいて、時刻毎にスコアとして
評価することで全ての音声が入力された時点で、最もス
コアの高い１つないし複数の仮説をもって認識結果とす
る音声認識方法において、前記仮説の尤もらしさを時刻毎にスコアとして評価する
過程の中で仮説を同一状態に合流する際に、過去の複数
の音素履歴が同一の仮説はスコアの高い仮説のみを保持
し、過去の複数の音素履歴が異なる仮説は別々に保持す
ることにより単語仮説の絞り込みを行うことを特徴とす
る音声認識方法。