JPH05232990A

JPH05232990A - 日本語音声認識方法

Info

Publication number: JPH05232990A
Application number: JP4035270A
Authority: JP
Inventors: Tomokazu Yamada; 智一山田; Shoichi Matsunaga; 昭一松永; Kiyohiro Kano; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1992-02-21
Filing date: 1992-02-21
Publication date: 1993-09-10

Abstract

(57)【要約】【目的】仮名・漢字系列と音韻系列とが正しく対応し
ていない変換候補を削除することにより、入力された音
声から仮名・漢字系列に変換するのに要する変換処理時
間を短縮し、変換性能を向上した日本語音声認識方法を
提供する【構成】隠れマルコフ・モデルおよび統計的言語モデ
ルを使用した日本語音声認識方法において、音声認識候
補の音韻系列がその候補の仮名・漢字系列の読みを表し
ているか否かの調査に仮名・漢字系列についての読みの
辞書６を使用した日本語音声認識方法。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、日本語音声認識方法
に関し、特に、隠れマルコフ・モデルおよび統計的言語
モデルを使用した日本語音声認識方法において、音声認
識候補の音韻系列がその候補の仮名・漢字系列の読みを
表しているか否かの調査に仮名・漢字系列についての読
みの辞書を使用した日本語音声認識方法に関する。

【０００２】

【従来の技術】隠れマルコフ・モデルおよび統計的言語
モデルを使用した従来の日本語音声認識方法において、
音声信号を仮名・漢字系列に変換する方法として、学習
用テキスト・データベースより仮名・漢字の生起順序に
関する統計的言語モデルを、そして学習用音声データベ
ースより隠れマルコフ・モデルの音素標準パターンをそ
れぞれ予め作成しておき、音声信号に対して統計的言語
モデルおよび仮名・漢字文字の読みに対応する音素系列
の情報を使用して、既に認識している直前の複数の音素
から次に生起する確率の高い音素候補を複数選出し、こ
れら選出された複数の音素候補のそれぞれについて、そ
の音素標準パターンと音声信号とを照合して、統計的言
語モデルによる生起尤度と隠れマルコフ・モデルによる
音素標準パターンとの間の類似尤度の和である総合尤度
の最も高い候補の仮名・漢字文字を認識結果として出力
するものが提案されている。

【０００３】

【発明が解決しようとする課題】しかし、音声信号を仮
名・漢字系列に変換する上述の通りの方法は、統計的言
語モデルが仮名・漢字の文字面についての情報のみを取
扱い、音素系列から仮名・漢字文字への変換情報として
仮名・漢字文字の読みに対応する音韻系列の情報が与え
られているにすぎないものであることから、文字の単純
な組合せによる変換候補が生成される。そのために、明
らかに読み誤った変換候補も生成されることとなり（例
えば、「大切」に”ｏ−ｏ−ｋ−ｉ”という音韻系列が
対応したもの）、変換処理時間は長くなると共に変換性
能も低下するに到る。

【０００４】この発明は、仮名・漢字系列と音韻系列と
が正しく対応していない変換候補を削除することによ
り、入力された音声から仮名・漢字系列に変換するのに
要する変換処理時間を短縮し、変換性能を向上した日本
語音声認識方法を提供するものである。

【０００５】

【課題を解決するための手段】音声信号をその特徴パラ
メータの時系列とし、学習用テキスト・データベースよ
り作成された生起順序に関する統計的言語モデルを使用
して音声信号の特徴パラメータの時系列について複数の
音声認識候補を選出し、これら音声認識候補について隠
れマルコフ・モデルの標準パターンと音声信号の特徴パ
ラメータの時系列のそれぞれと照合し、生起の尤度と類
似の尤度の和である総合尤度の高い候補を認識結果とす
る日本語音声認識方法において、学習用テキスト・デー
タベースより作成された仮名・漢字の生起順序に関する
統計的言語モデルを使用し、隠れマルコフ・モデルの標
準パターンとして音節標準パターンおよび漢字の読みに
ついての標準パターンを使用し、音声認識候補の音韻系
列がその候補の仮名・漢字系列の読みを表しているか否
かの調査に仮名・漢字系列についての読みの辞書６を使
用し、否である場合はこれらを逐次削除する、ことを特
徴とする日本語音声認識方法を構成した。

【０００６】

【実施例】この発明の実施例を図１を参照して説明す
る。音声信号入力端子１から入力された音声信号は、特
徴抽出部２においてディジタル信号に変換され、更にＬ
ＰＣケプストラム分析された後、１フレーム（例えば、
１０ミリ秒）毎に特徴パラメータに変換される。ここ
で、特徴パラメータとしては例えばＬＰＣケプストラム
係数が採用される。

【０００７】学習用音声データベースに基づいて、上述
の特徴パラメータ変換の場合と同様にして、隠れマルコ
フ・モデルの音節標準パターンおよび漢字の読みについ
ての音節連鎖標準パターンを作成し、標準パターン・メ
モリ４に記憶しておく。そして、学習用テキスト・デー
タベースに基づいて、これより仮名・漢字の生起順序に
関する統計的言語モデルを作成して、仮名・漢字統計的
言語モデル・メモリ５に記憶しておく。また、仮名・漢
字系列についての読みの情報を辞書メモリ６に記憶して
おく。

【０００８】認識部３においては、仮名・漢字統計的言
語モデルを使用して選出した複数の文字候補について、
これら文字候補の読みを表す標準パターンを標準パター
ン・メモリ４から読みだし、これらと入力された音声の
特徴パラメータとの間の類似尤度をそれぞれ求める。即
ち、図２を参照するに、入力された音声についてｉ番目
の文字を認識するには、仮名・漢字統計的言語モデルか
ら仮名・漢字群の生起順序に関するトライグラムを使用
し、（ｉ−２）番目と（ｉ−１）番目の各文字の認識結
果に基づいて、ｉ番目に出現すると予測される尤度の高
い文字の複数を変換文字候補ｋ₁ーｋ_nとして選出す
る。選出されたこれら変換文字候補ｋ₁ーｋ_nそれぞれ
について、存在する読みに対応した各別の候補が作成さ
れる。例えば、変換文字候補ｋ₂の読みがｙ₁、ｙ₂、
ｙ₃の３通りあれば、変換文字候補ｋ₂との組合せによ
り３通りの候補ｃ_k2y1、ｃ_k2y2、ｃ_k2y3を作成する。

【０００９】そして、これらの変換文字候補のそれぞれ
について、文字の読みについての標準パターンとｉ番目
の入力された音声の尤度を求め、その変換文字候補のｉ
番目に生起する尤度の和を総合尤度とし、この総合尤度
の最も高い文字候補、例えばｃ_k2y3の総合尤度が最も高
ければ文字ｋ₂をｉ番目の認識結果文字として認識結果
出力部７に出力する。この場合、この発明は、トライグ
ラムの一部ないし全体で構成される仮名・漢字系列、例
えばｉ番目および（ｉ−１）番目の２文字により構成さ
れる系列、ｉ番目と（ｉ−１）番目と（ｉ−２）番目の
３文字により構成される系列を検索の対称とし、辞書メ
モリ６中に該当する項目があった場合、その候補の音韻
系列が辞書に示される読みに対応しているか否かを調査
し、否である場合は、これらを逐次削除して、総合尤度
による比較の対象から予め除外する。

【００１０】或る文字が出力されたとき、総合尤度が最
も高かった文字候補が次の文字を出力した段階において
も総合尤度が最も高いとは限らない。そこで、総合尤度
が高い上位Ｂ個（これを、ビーム幅がＢである、と称
す）の候補を残して次の処理操作に移行する。上位をＢ
個に限定した理由は、全ての候補を残すことは必要とさ
れるメモリ量、処理時間の点で困難であるからである。
総合尤度の最も高い文字候補の変更に対応して、認識結
果出力部７へ出力する文字候補も更新する。

【００１１】上述した通りの仮名・漢字候補の選出、こ
れらについての標準パターンとの間の照合、総合尤度か
ら認識結果文字を得る操作を音声区間が終るまで繰り返
し、最後にこれまでに得られた認識結果文字を得られた
順に仮名・漢字系列として出力する。なお、音声信号中
に学習用テキスト・データベースにない漢字があると、
これを認識することができない。この場合、この認識で
きない文字（漢字）を認識結果の仮名・漢字系列中にお
いて空白として出力するようにするか、音素或は仮名の
生起順序に関する統計的言語モデルと隠れマルコフ・モ
デルの音素或は音節標準パターンとを設け、学習用テキ
スト・データ・ベースとされる漢字は音素系列或は仮名
系列として出力するようにしてもよい。特徴抽出部２、
認識部３、認識結果出力部７はそれぞれ兼用、或は専用
のマイクロ・プロセッサにより構成することができる。

【００１２】

【発明の効果】以上の通りであって、この発明は仮名・
漢字の生起順序に関する統計的言語モデルと隠れマルコ
フ・モデルの音節標準パターンと漢字の読みについての
音節連鎖標準パターンとを使用して入力された音声から
直接漢字仮名混じり系列を出力場合において、仮名・漢
字系列についての読みの情報を利用して読み方の誤った
候補を逐次削除することにより、入力された音声から仮
名・漢字系列に変換するのに要する変換処理時間を短縮
し、変換性能を向上することができる。一般に、統計的
言語モデルを作成するに必要とされる学習用テキスト・
データベースは認識対象となるタスクの内容を含んでい
る必要があるが、読みの誤りを調査するに使用される仮
名・漢字系列についての読みの辞書は特にタスクに依存
したものを用意する必要はなく、広く一般に使用されて
いる単語辞書により代替しても充分な変換精度の向上が
認められるので、簡単にこの機能を付加することができ
る。

【００１３】文節単位に発声した２７４文節に対して変
換率による評価実験を実施した。その結果は図３および
図４に示される通りである。ビーム幅が９００である場
合についてみると、隠れマルコフ・モデルの音節標準パ
ターンおよび仮名・漢字統計的言語モデルを使用した従
来の日本語音声認識方法は６９. ５％の文字を正しく変
換した。これに対して、仮名・漢字系列についての読み
の辞書を使用して音声認識候補の音韻系列がその候補の
仮名・漢字系列の読みを表しているか否かの調査をし、
否である場合はこれらを逐次削除するこの発明の日本語
音声認識方法はこれが７７. ７％にも向上した。

【図面の簡単な説明】

【図１】この発明の実施例を説明するブロック図。

【図２】ｉ番目の候補文字からｉ番目の認識結果を得る
過程を説明する図。

【図３】ビーム幅と文節変換率および文字変換率との間
の関係を示す図。

【図４】図３のグラフ。

【符号の説明】

２特徴抽出部３認識部４標準パターン・メモリ５仮名・漢字統計的言語モデル６辞書７認識結果出力部

Claims

【特許請求の範囲】

【請求項１】音声信号をその特徴パラメータの時系列
とし、学習用テキスト・データベースより作成された生
起順序に関する統計的言語モデルを使用して音声信号の
特徴パラメータの時系列について複数の音声認識候補を
選出し、これら音声認識候補について隠れマルコフ・モ
デルの標準パターンと音声信号の特徴パラメータの時系
列のそれぞれと照合し、生起の尤度と類似の尤度の和で
ある総合尤度の高い候補を認識結果とする日本語音声認
識方法において、学習用テキスト・データベースより作成された仮名・漢
字の生起順序に関する統計的言語モデルを使用し、隠れマルコフ・モデルの標準パターンとして音節標準パ
ターンおよび漢字の読みについての標準パターンを使用
し、音声認識候補の音韻系列がその候補の仮名・漢字系列の
読みを表しているか否かの調査に仮名・漢字系列につい
ての読みの辞書を使用し、否である場合はこれらを逐次
削除する、ことを特徴とする日本語音声認識方法。