JP3009709B2

JP3009709B2 - 日本語音声認識方法

Info

Publication number: JP3009709B2
Application number: JP2185749A
Authority: JP
Inventors: 昭一松永; 智一山田; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-07-13
Filing date: 1990-07-13
Publication date: 2000-02-14
Anticipated expiration: 2015-02-14
Also published as: JPH0473694A

Description

【発明の詳細な説明】「産業上の利用分野」この発明は隠れマルコフモデル（例えば中川聖一「確
率モデルによる音声認識」電子情報通信学会編（198
8））と、統計的言語モデル（例えばBahl,L他“A Stati
stical Approach to Continuous Speech Recognition"I
EEE Trans.on PAMI（1983））とを用いた日本語音声認
識方法に関する。

「従来の技術」従来の隠れマルコフモデル及び統計的言語モデルを用
いた音声認識方法として、学習用テキストデータベース
より、音素の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを予め作成して
おき、入力音声に対し、統計的言語モデルを用いて、既
に認識した直前の複数の音素から、次に生起する確率の
高い複数の音素候補を選出し、これら選出した音素候補
のそれぞれについてその音素標準パターンと入力音声と
を照合して、生起尤度と標準パターンとの類似尤度との
統合的尤度の最も高い音素を認識結果として出力するこ
とが提案されている。

しかし、この認識方法は認識結果が、音素単位の系列
として出力されるから、入力音声を日本語文として出力
したい場合は、その認識結果の音素単位の系列を、仮
名、漢字変換する必要がある。つまり入力音声を音素単
位の系列への変換と、その音素系列の仮名・漢字系列へ
の変換との２回の変換を行うため、全体として正しい変
換結果が得られる変換性能が比較的低いものとならざる
を得られない。

「課題を解決するための手段」この発明によれば学習用テキストデータベースから、
仮名及び漢字の生起順序に関する統計的言語モデルと、
隠れマルコフモデルの音節標準パターン及び漢字の読み
に対する音節連鎖標準パターンとを作成しておき、この
仮名、漢字の統計的言語モデルから特定の順序に出現す
ると予測される第１の尤度の高い複数の文字候補を選出
し、これら文字候補のそれぞれについて上記音節標準パ
ターン及び音節連鎖標準パターンから得られる標準パタ
ーンと入力音声の特徴パラメータとの尤度を第２の尤度
として求め、各文字候補について第１の尤度と第２の尤
度との和を綜合尤度とし、その綜合尤度が最も高い文字
候補を上記特定の順序に出現する文字の認識結果文字と
して出力する。

「実施例」第１図は、この発明の実施例を示すブロック図であ
る。入力端子１から入力された音声は、特徴抽出部２に
おいてディジタル信号に変換され、更にLPCケプストラ
ム分析された後、１フレーム（例えば10ミリ秒）ごとに
特徴パラメータに変換される。この特徴パラメータは例
えばLPCケプストラム係数である。

学習用テキストデータベースより、上記特徴パラメー
タと同一形式で、隠れマルコフモデルの音節標準パター
ン及び漢字の読みに対する音節連鎖標準パターンを作
り、標準パターンメモリ４に記憶しておき、また上記学
習用テキストデータベースより、仮名及び漢字の生起順
序に関する仮名・漢字統計的言語モデルを作り、仮名漢
字統計的言語モデルメモリ５に記憶してある。

認識部３では、仮名・漢字統計的言語モデルを用いて
選出した複数の文字候補について、その文字候補の標準
パターンを標準パターンメモリ４から読み出し、入力音
声の特徴パラメータとの類似度（尤度）をそれぞれ求め
る。つまり例えば入力音声のｉ番目の文字を認識するに
は、仮名・漢字統計的言語モデルから仮名・漢字群の出
現順序に関するトライグラムを用いて、（ｉ−２）番目
と（ｉ−１）番目との各文字の認識結果をもとに、ｉ番
目に出現されると予測される尤度が高い文字の複数を候
補文字k₁〜k_nとして選出する（第２図）。これら選出さ
れた各候補文字k₁〜k_nに対する標準パターンとｉ番目に
相当する入力音声の特徴パラメータとの尤度（類似度）
をそれぞれ求め、その候補文字のｉ番目に出現する尤度
と、その標準パターンとの類似性を示す尤度との和を綜
合尤度とし、この綜合尤度が最も高い候補文字、例えば
k₂をｉ番目の認識結果文字として認識結果出力部６へ出
力する。

この仮名・漢字候補の選出と、それらについての標準
パターンとの照合と、その綜合尤度から認識結果文字を
得る操作とを音声区間が終るまで繰返し、最後に、それ
まで得られた認識結果文字を、その順に仮名・漢字系列
として出力する。

なお、入力音声中に、学習用テキストデータベースに
ない漢字があると、これを認識することができない。こ
の場合はその認識できない文字（漢字）を、認識結果の
仮名・漢字系列中に空白として出力するか、あるいは、
音素についての生起順序に関する統計的言語モデルと、
隠れマルコフモデルの音素標準パターンとを設け、前記
データベースにない漢字は、音素系列として出力しても
よい。特徴抽出部２、認識部３、認識結果出力部６はそ
れぞれ専用、または兼用のマイクロプロセッサにより処
理することができる。

「発明の効果」以上述べたようにこの発明によれば仮名・漢字の出現
順序に関する統計的言語モデルと、隠れマルコフモデル
の音節標準パターン及び漢字の読みに対する音節連鎖標
準パターンとを用いているため、連続した入力音声を、
仮名・漢字系列に一挙に変換することができ、２回に分
けて変換する場合よりも高い変換性能が予期される。ま
た、文字の生起の尤度と、統計的手法で得た標準パター
ン、つまり隠れマルコフモデルの標準パターンとの類似
性の尤度とは共に統計的尤度であり、従って例えば両尤
度を単に加算して綜合尤度とすることができ、処理が簡
単である。

文節単位に発生した200文節に対して変換率による評
価を実験した。その結果、従来法により、音節の統計的
言語モデル（音節のトライグラム）を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと70％（正解文字数／総文字数×100）が正し
く変換された。但し、音素の認識性能は86％である。

これに対して、この発明方法を用いると、同じ音素の
認識率でも、仮名・漢字統計的言語モデル（仮名・漢字
群のトライグラム）の効果により、変換性能は82％に向
上した。

【図面の簡単な説明】

第１図はこの発明の実施例を示すブロック図、第２図は
ｉ番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/00 Ｇ０６Ｆ 15/20 ５０３５５０Ａ５１４Ｕ (56)参考文献特開平２−113297（ＪＰ，Ａ) 特開平２−22730（ＪＰ，Ａ) 特開昭63−249199（ＪＰ，Ａ) 特開昭63−155263（ＪＰ，Ａ) 特開昭63−155259（ＪＰ，Ａ) 特開昭62−83797（ＪＰ，Ａ) 特開昭57−120151（ＪＰ，Ａ) 電子情報通信学会技術研究報告Ｖｏｌ．89，Ｎｏ．388，ＳＰ89−110，「ＨＭＭ音韻認識における音節連鎖統計情報の利用」，ｐ．７−12，（1990／１／26) 日本音響学会平成４年春季研究発表会講演論文集▲Ｉ▼，１−Ｐ−９，「読みの情報を付与したかな・漢字連鎖確率による統計的言語モデル」，ｐ．121− 122，（平成４年３月) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．91，Ｎｏ．96，ＳＰ91−26, 「かな・漢字の文字連鎖情報を利用した統計的言語モデル」ｐ．65−72（1991 ／６／21) 電子情報通信学会論文誌，Ｖｏｌ．Ｊ 77−Ａ，Ｎｏ．２，Ｆｅｂｒｕａｒｙ 1994，「音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用」ｐ．198−205（平成６年２月25日発行) 日本音響学会平成３年秋季研究発表会講演論文集▲Ｉ▼，１−５−14，「読みの違いを考慮したかな・漢字文字連鎖確率による統計的言語モデル」，ｐ．27 −28，（平成３年10月) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/27 G10L 3/00 535 G10L 3/00 537 G10L 3/00 551 G06F 3/16 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】特徴パラメータで作られた隠れマルコフモ
デルの音節標準パターン及び漢字の読みに対する音節連
鎖標準パターンが記録された標準パターンメモリと、前記特徴パラメータと同一形式で作られた仮名・漢字の
生起順序に関する統計的言語モデルが記録された仮名漢
字統計的言語モデルメモリとを予め用意し、入力音声をフレーム毎に前記特徴パラメータと同一形式
の特徴パラメータに変換し、前記仮名漢字統計的言語モデルメモリから特定の順序に
出現すると予測される第１の尤度の高い複数の文字候補
を前記仮名・漢字統計的言語モデルから選出し、前記標準パターンメモリから前記各文字候補に対する標
準パターンと入力音声の特徴パラメータとの尤度を第２
の尤度として求め、前記各文字候補について前記第１の尤度と前記第２の尤
度との和を綜合尤度とし、前記綜合尤度が最も高い文字候補を、前記特定の順序に
出現する文字の認識結果文字として出力することを特徴とする日本語音声認識方法。