JPH05232987A - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JPH05232987A
JPH05232987A JP4036250A JP3625092A JPH05232987A JP H05232987 A JPH05232987 A JP H05232987A JP 4036250 A JP4036250 A JP 4036250A JP 3625092 A JP3625092 A JP 3625092A JP H05232987 A JPH05232987 A JP H05232987A
Authority
JP
Japan
Prior art keywords
kanji
kana
language model
reading
statistical language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4036250A
Other languages
English (en)
Inventor
Tomokazu Yamada
智一 山田
Shoichi Matsunaga
昭一 松永
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4036250A priority Critical patent/JPH05232987A/ja
Publication of JPH05232987A publication Critical patent/JPH05232987A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 読み方を誤った文字候補を統計的に削除する
ことにより入力された音声を仮名・漢字系列に変換する
のに要する変換処理時間を短縮すると共に変換性能をも
向上せしめた日本語音声認識方法を提供する。 【構成】 仮名・漢字の生起順序に関する統計的言語モ
デルと隠れマルコフ・モデルの音節標準パターンと漢字
の読みについての音節連鎖標準パターンとを使用した日
本語音声認識方法において、読みの情報を予め付与され
た学習用テキスト・データベースを使用して、統計的言
語モデルが仮名・漢字の生起順序に加えて同時に読みの
生起順序をも利用するようにした日本語音声認識方法。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、日本語音声認識方法
に関し、特に、隠れマルコフ・モデルおよび統計的言語
モデルを使用した日本語音声認識方法において、統計的
言語モデルが仮名・漢字の生起順序に加えて同時に読み
の生起順序をも利用するようにした日本語音声認識方法
に関する。
【0002】
【従来の技術】隠れマルコフ・モデルおよび統計的言語
モデルを使用した従来の日本語音声認識方法において、
入力音声を仮名・漢字系列に変換する方法として、学習
用テキスト・データ・ベースより仮名・漢字の生起順序
に関する統計的言語モデルを、そして学習用音声データ
・ベースより隠れマルコフ・モデルの音素標準パターン
をそれぞれ予め作成しておき、入力音声に対して統計的
言語モデルおよび仮名・漢字文字の読みに対応する音素
系列の情報を使用して、既に認識している直前の複数の
音素から次に生起する確率の高い複数の音素候補を選出
し、これら選出された複数の音素候補のそれぞれについ
てその音素標準パターンと入力音声とを照合して、統計
的言語モデルによる生起尤度と隠れマルコフ・モデルに
よる音素標準パターンとの間の類似尤度の総合的尤度の
最も高い候補の仮名・漢字文字を認識結果として出力す
るものが提案されている。
【0003】
【発明が解決しようとする課題】しかし、入力音声を仮
名・漢字系列に変換する上述の通りの方法は、統計的言
語モデルが仮名・漢字の文字面のみを取扱い、音素系列
から仮名・漢字文字への変換情報として仮名・漢字文字
の読みに対応する音韻系列の情報が与えられるのみであ
ることから、文字の単純な組合せによる変換候補が生成
される。そのために、明らかに読み誤った変換候補(例
えば、「大切」に”o-o-k-i ”という音韻系列が対応し
たもの、その他)も生成されることとなり、変換処理時
間は長くなると共に変換性能も低下する。
【0004】この発明は、仮名・漢字系列と音韻系列と
が正しく対応していない変換候補を統計的に削除するこ
とにより入力された音声から仮名・漢字系列に変換する
のに要する変換処理時間を短縮し、変換性能を向上した
日本語音声認識方法を提供するものである。
【0005】
【課題を解決するための手段】入力音声をその特徴パラ
メータの時系列とし、学習用テキスト・データベースよ
り作成された生起順序に関する統計的言語モデルを使用
し、入力音声の特徴パラメータの時系列について複数の
音声認識候補を選出し、これら音声認識候補について隠
れマルコフ・モデルの標準パターンと入力音声の特徴パ
ラメータの時系列のそれぞれと照合して、生起の尤度と
類似の尤度の和である総合尤度の高い候補を認識結果と
する日本語音声認識方法において、学習用テキスト・デ
ータベースとして読みの情報が予め文字単位に付与され
た学習用テキスト・データベースを使用し、統計的言語
モデルとして読みの情報が予め文字単位に付与された学
習用テキスト・データベースから作成された読み情報付
与仮名・漢字の生起順序に関する統計的言語モデルを使
用し、標準パターンとして音節標準パターンおよび漢字
の読みについての音節標準パターンを使用する、日本語
音声認識方法を構成した。
【0006】
【実施例】この発明の実施例を図1を参照して説明す
る。音声信号入力端子1から入力された音声信号は、特
徴抽出部2においてディジタル信号に変換され、更にL
PCケプストラム分析された後、1フレーム(例えば、
10ミリ秒)毎に特徴パラメータに変換される。ここ
で、特徴パラメータとしては例えばLPCケプストラム
係数が採用される。
【0007】次いで、上述の特徴パラメータ変換の場合
と同様にして、学習用音声データ・ベースに基づいて、
隠れマルコフ・モデルの音節標準パターンおよび漢字の
読みについての音節連鎖標準パターンを作成し、標準パ
ターン・メモリ4に記憶しておく。そして、学習用テキ
スト・データベースに基づいて、読みの情報が付与され
た仮名および漢字の生起順序に関する統計的言語モデル
を作成して、仮名・漢字統計的言語モデル・メモリ5に
記憶しておく。
【0008】認識部3においては、仮名・漢字統計的言
語モデルを使用して選出した複数の文字候補について、
これら文字候補に付与された読みを表す標準パターンを
標準パターン・メモリ4から読みだし、これらと入力さ
れた音声信号の特徴パラメータの類似尤度をそれぞれ求
める。即ち、図2を参照するに、入力された音声信号に
ついてi番目の読み情報が付与された文字を認識するに
は、仮名・漢字統計的言語モデルから読み情報付与仮名
・漢字群の生起順序に関するトライグラムを使用し、
(i−2)番目と(i−1)番目の読み情報が付与され
た各文字の認識結果に基づいて、i番目に出現すると予
測される尤度の高い読み情報付与文字の複数を変換文字
候補k1 ないしkn として選出する。ここで、読みの異
なるものは文字が同一であっても異なる文字候補として
取り扱う。例えば変換文字候補k2の読みがy2 、y3
の2通りあれば、変換文字候補k2 との組合せにより2
通りの候補k2 (y2 )、k2 (y3 )が選出されるこ
ともある。
【0009】そして、これらの選出された変換文字候補
のそれぞれについて、その読み情報に対応する標準パタ
ーンとi番目の入力された音声信号の尤度を求め、その
読み情報付与変換文字候補のi番目に生起する尤度との
和を総合尤度とし、この総合尤度の最も高い文字候補、
例えば、k2 (y3 )の総合尤度が最も高ければ文字k
2 をi番目の認識結果文字として認識結果出力部6に出
力する。
【0010】或る文字が出力されたとき、総合尤度が最
も高かった文字候補が次の文字を出力した段階において
も総合尤度が最も高いとは限らない。そこで、総合尤度
が高い上位B個の候補を残して(これを、ビーム幅がB
である、と称す)次の処理操作に移行する。上位をB個
に限定した理由は、全ての候補を残すことは必要とされ
るメモリ量、処理時間の点で困難であるからである。総
合尤度の最も高い文字候補の変更に対応して、認識結果
出力部6へ出力する文字候補も更新する。
【0011】上述した通りの読み情報付与仮名・漢字候
補の選出、これらについての標準パターンとの間の照
合、総合尤度から認識結果文字を得る操作を音声区間が
終るまで繰り返し、最後にこれまでに得られた認識結果
文字を得られた順に仮名・漢字系列として出力する。な
お、入力音声中に学習用テキスト・データベースにない
漢字があると、これを認識することができない。この場
合、この認識できない文字(漢字)を認識結果の仮名・
漢字系列中において空白として出力するようにするか、
音素或は仮名の生起順序に関する統計的言語モデルと隠
れマルコフ・モデルの音素或は音節標準パターンとを設
け、学習用テキスト・データベースにない漢字は音素系
列或は仮名系列として出力するようにしてもよい。特徴
抽出部2、認識部3、認識結果出力部6はそれぞれ専
用、或は兼用のマイクロ・プロセッサにより構成するこ
とができる。
【0012】
【発明の効果】以上の通りであって、この発明は仮名・
漢字の生起順序に関する統計的言語モデルと隠れマルコ
フ・モデルの音節標準パターンと漢字の読みについての
音節連鎖標準パターンとを使用して入力された音声信号
から直接漢字仮名混じり系列を出力場合において、読み
の情報を予め付与された学習用テキスト・データベース
を使用して、統計的言語モデルが仮名・漢字の生起順序
に加えて同時に読みの生起順序をも利用するようにした
ことにより、読み方を誤った文字候補を統計的に削除す
ることができ、その結果入力された音声から仮名・漢字
系列に変換するのに要する変換処理時間は短縮し、変換
性能は向上するに到った。
【0013】文節単位に発声した274文節に対して変
換率による評価実験を実施した。その結果は図3および
図4に示される通りである。ビーム幅が900である場
合についてみると、隠れマルコフ・モデルの音節標準パ
ターンおよび文字面のみを扱った仮名・漢字統計的言語
モデルを使用した従来の日本語音声認識方法は69.5
%の文字を正しく変換した。これに対して、統計的言語
モデルが仮名・漢字の生起順序に加えて同時に読みの生
起順序をも利用するようにしたこの発明の日本語音声認
識方法はこれが78. 5%にも向上した。
【図面の簡単な説明】
【図1】この発明の実施例を説明するブロック図。
【図2】i番目の候補文字からi番目の認識結果を得る
過程を説明する図。
【図3】ビーム幅と文節変換率および文字変換率との間
の関係を示す図。
【図4】図3のグラフ。
【符号の説明】
2 特徴抽出部 3 認識部 4 標準パターン・メモリ 5 仮名・漢字統計的言語モデル 6 認識結果出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力音声をその特徴パラメータの時系列
    とし、学習用テキスト・データベースより作成された生
    起順序に関する統計的言語モデルを使用し、入力音声の
    特徴パラメータの時系列について複数の音声認識候補を
    選出し、これら音声認識候補について隠れマルコフ・モ
    デルの標準パターンと入力音声の特徴パラメータの時系
    列のそれぞれと照合して、生起の尤度と類似の尤度の和
    である総合尤度の高い候補を認識結果とする日本語音声
    認識方法において、 学習用テキスト・データベースとして読みの情報が予め
    文字単位に付与された学習用テキスト・データベースを
    使用し、 統計的言語モデルとして読みの情報が予め文字単位に付
    与された学習用テキスト・データベースから作成された
    読み情報付与仮名・漢字の生起順序に関する統計的言語
    モデルを使用し、 標準パターンとして音節標準パターンおよび漢字の読み
    についての音節標準パターンを使用する、 ことを特徴とする日本語音声認識方法。
JP4036250A 1992-02-24 1992-02-24 日本語音声認識方法 Pending JPH05232987A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4036250A JPH05232987A (ja) 1992-02-24 1992-02-24 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4036250A JPH05232987A (ja) 1992-02-24 1992-02-24 日本語音声認識方法

Publications (1)

Publication Number Publication Date
JPH05232987A true JPH05232987A (ja) 1993-09-10

Family

ID=12464530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4036250A Pending JPH05232987A (ja) 1992-02-24 1992-02-24 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JPH05232987A (ja)

Similar Documents

Publication Publication Date Title
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
US5949961A (en) Word syllabification in speech synthesis system
US7174288B2 (en) Multi-modal entry of ideogrammatic languages
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JPS62235998A (ja) 音節識別方式
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
JPH1097285A (ja) 音声認識装置
JP2820093B2 (ja) 単音節認識装置
JPH05232987A (ja) 日本語音声認識方法
JP3378547B2 (ja) 音声認識方法及び装置
JP2008242059A (ja) 音声認識辞書作成装置および音声認識装置
JP3240691B2 (ja) 音声認識方法
JPH05232990A (ja) 日本語音声認識方法
JP3009709B2 (ja) 日本語音声認識方法
JPH06308994A (ja) 日本語音声認識方法
JPH0612091A (ja) 日本語音声認識方法
JPH04291399A (ja) 音声認識方法
JPS61122781A (ja) 音声ワ−ドプロセツサ
JP3430265B2 (ja) 日本語音声認識方法
JPH06289894A (ja) 日本語音声認識方法
JP2647234B2 (ja) 音声認識装置
JPH05119793A (ja) 音声認識方法及び装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2005534968A (ja) 漢字語の読みの決定
JP2979912B2 (ja) 音声認識装置