JPH0473694A

JPH0473694A - 日本語音声認識方法

Info

Publication number: JPH0473694A
Application number: JP2185749A
Authority: JP
Inventors: Shoichi Matsunaga; 昭一松永; Tomokazu Yamada; 智一山田; Kiyohiro Kano; 清宏鹿野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1990-07-13
Filing date: 1990-07-13
Publication date: 1992-03-09
Anticipated expiration: 2015-02-14
Also published as: JP3009709B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は隠れマルコフモデル（例えば中周を−「確率
モデルによる音声認識」電子情報通信学会１（１９８Ｂ
））と、統計的言語モデル（例えばＢａｈｌ　、　Ｌ他
”Ａ　５ｔａｔｉｓｔｉｃａｌ　Ａｐｐｒｏａｃｈ　ｔ
ｏ　Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　ＲｅｃｏＩ
ＸｎｉｔｉｏｎｌｌＩＥＥＥ　Ｔｒａｎｓ、ｏｎＰＡＭ
Ｉ　（１９８３）　）とを用いた日本語音声Ｌ２　ｆｌ
ｉ方法に関する。

「従来の技術」従来の隠れマルコフモデル及び統計的言語モデルを用い
た音声認識方法として、学習用テキストデータベースよ
り、音素の生起順序に関する統訂的言語モデルと、隠れ
マルコフモデルの音素標準パターンとを予め作成してお
き、入力音声に対し、統計的言語モデルを用いて、既に
認識した直前の複数の音素から、次に生起する確率の高
い複数の音素候補を選出し、これら選出した音素候補の
それぞれについてその音素標準パターンと入力音声とを
照合して、生起尤度と標準パターンとの類似尤度との綜
合的尤度の最も高い音素を認識結果として出力すること
が提案されている。

しかし、この認識方法は認識結果が、音素単位の系列と
して出力されるから、入力音声を日本語文として出力し
たい場合は、その認識結果の音素単位の系列を、仮名、
漢字変換する必要がある。

つまり入力音声を音素単位の系列への変換と、その音素
系列の仮名・漢字系列への変換との２回の変換を行うた
め、全体として正しい変換結果が得られる変換性能が比
較的低いものとならざるを得られない。

「課題を解決するための手段」この発明によれば学習用テキストデータベースから、仮
名及び漢字の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音節標準パターン及び漢字の読みに
対する音節連鎖標準パターンとを作成しておき、この仮
名、漢字の統計的言語モデルと、音節標準パターン及び
音節連鎖標準パターンとを用いで、入力音声を一挙に、
仮名、漢字混じり文字系列に変換する。

ｒ実施例」第１回は、この発明の実施例を示すプロ、り回である。

入力端子１から入力された音声は、特徴抽出部２におい
てディジタル信号に変換され、更にＬＰＣケプストラム
分析された後、１フレーム（例えば１０ミリ秒）ごとに
特徴バラメークに変換される。この特徴パラメータは例
えばＬＰＣケプストラム係数である。

学習用テキストデータベースより、上記特徴パラメータ
と同一形式で、隠れマルコフモデルの音節標準パターン
及び漢字の読みに対する音節連鎖標準パターンを作り、
標準パターンメモリ４に記憶しておき、また上記学習用
テキストデータベースより、仮名及び漢字の生起順序に
関する統計的言語モデルを作り、仮名漢字統計的言語モ
デルメモリ５に記憶しである。

認識部３では、仮名・漢字統計的言語モデルを用いて選
出した複数の文字候補について、その文字候補の標準パ
ターンを標準パターンメモリ４から読み出し、入力音声
の特徴パラメータとの類似度（尤度〕をそれぞれ求める
。つまり例えば入力音声のｉ番目の文字を認識するには
、仮名・漢字統計的言語モデルから仮名・漢字群の出現
順序に関するトライグラムを用いて、（ｉ−２）番目と
（＋−１）番目との各文字の認識結果をもとに、１番目
に出現されると予測される光度が高い文字の複数を候補
文字に１〜に、、として選出する（第２図）、これら選
出された各候補文字に１〜ｋ。

に対する標準パターンとｉ番目の人力音声との尤度（類
似度）をそれぞれ求め、その候補文字のｉ番目に出現す
る光度と、その杼準パターンとの類似性を示す尤度との
和を綜合尤度とし、この綜合尤度が最も高い候補文字、
例えばに２をｉ番目の認識結果文字として認識結果出力
部６へ出力する。

この仮名・漢字候補の選出と、それらについての標準パ
ターンとの照合と、その綜合尤度から認識結果文字を得
る操作とを音声区間が終るまで繰返し、最後に、それま
で得られた認識結果文字を、その順に仮名・漢字系列と
して出力する。

なお、入力音声中に、学習用テキストデークヘースにな
い漢字があると、これを認識することができない。この
場合はその認識できない文字（漢字）を、認識結果の仮
名・漢字系列中に空白として出力するか、あるいは、音
素についての生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを設け、前記デ
ータヘースにない漢字は、音素系列として出力してもよ
い、特徴抽出部２、認識部３、認識結果出力部６はそれ
ぞれ専用、または兼用のマイクロプロセッサにより処理
することができる。

「発明の効果Ｊ以上述べたようにこの発明によれば仮名・漢字の出現順
序に関する統計的言語モデルと、Ｉ！りれマルコフモデ
ルの音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンとを用いているため、連続した入力音声を
、仮名・漢字系列に−φに変換することができ、２回に
分けて変換する場合よりも高い変換性能が予期される。

また、文字の生起の尤度と、統計的手法で得た標準パタ
ーン、つまり隠れマルコフモデルの標準パターンとの類
偵性の光度とは共に統計的尤度であり、従って例えば両
尤度を単に加算して綜合尤度とすることができ、処理が
簡単である。

文節単位に発声した２００文節に対して変換率による評
価を実験した。その結果、従来法により、音節の統計的
言語モデル（音節のトライダラム）を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと７０％（正解文字数／総文字数ｘ　］、　０
０　）が正しく変換された。但し、音素の認識性能は８
６％である。

これに対して、この発明方法を用いると、同じ音素の認
識率でも、仮名・漢字統計的言語モデル（仮名・漢字群
のトライダラム）の効果により、変換性能は８２％に向
上した。

【図面の簡単な説明】

第１図はこの発明の実施例を示すブロフク図、第２図は
１番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。

Claims

【特許請求の範囲】

（１）入力音声を特徴パラメータの時系列とし、学習用
テキストデータベースより作成された生起順序に関する
統計的言語モデルを用いて、上記入力音声の特徴パラメ
ータ時系列について、複数の音声認識候補を選出し、こ
れら各音声認識候補について、隠れマルコフモデルの標
準パターンと上記入力音声の特徴パラメータ時系列とを
それぞれ照合して、生起の尤度と類似の尤度との綜合尤
度の高い候補を認識結果とする日本語音声認識方法にお
いて、上記統計的言語モデルとして、上記学習用テキストデー
タベースから作成された、仮名、及び漢字の生起順序に
関する統計的言語モデルを用い、上記標準パターンとし
て、音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンを用いる、ことを特徴とする日本語音声認識方法。