JPH05232990A - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JPH05232990A
JPH05232990A JP4035270A JP3527092A JPH05232990A JP H05232990 A JPH05232990 A JP H05232990A JP 4035270 A JP4035270 A JP 4035270A JP 3527092 A JP3527092 A JP 3527092A JP H05232990 A JPH05232990 A JP H05232990A
Authority
JP
Japan
Prior art keywords
kanji
kana
reading
candidate
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4035270A
Other languages
English (en)
Inventor
Tomokazu Yamada
智一 山田
Shoichi Matsunaga
昭一 松永
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4035270A priority Critical patent/JPH05232990A/ja
Publication of JPH05232990A publication Critical patent/JPH05232990A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 仮名・漢字系列と音韻系列とが正しく対応し
ていない変換候補を削除することにより、入力された音
声から仮名・漢字系列に変換するのに要する変換処理時
間を短縮し、変換性能を向上した日本語音声認識方法を
提供する 【構成】 隠れマルコフ・モデルおよび統計的言語モデ
ルを使用した日本語音声認識方法において、音声認識候
補の音韻系列がその候補の仮名・漢字系列の読みを表し
ているか否かの調査に仮名・漢字系列についての読みの
辞書6を使用した日本語音声認識方法。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、日本語音声認識方法
に関し、特に、隠れマルコフ・モデルおよび統計的言語
モデルを使用した日本語音声認識方法において、音声認
識候補の音韻系列がその候補の仮名・漢字系列の読みを
表しているか否かの調査に仮名・漢字系列についての読
みの辞書を使用した日本語音声認識方法に関する。
【0002】
【従来の技術】隠れマルコフ・モデルおよび統計的言語
モデルを使用した従来の日本語音声認識方法において、
音声信号を仮名・漢字系列に変換する方法として、学習
用テキスト・データベースより仮名・漢字の生起順序に
関する統計的言語モデルを、そして学習用音声データベ
ースより隠れマルコフ・モデルの音素標準パターンをそ
れぞれ予め作成しておき、音声信号に対して統計的言語
モデルおよび仮名・漢字文字の読みに対応する音素系列
の情報を使用して、既に認識している直前の複数の音素
から次に生起する確率の高い音素候補を複数選出し、こ
れら選出された複数の音素候補のそれぞれについて、そ
の音素標準パターンと音声信号とを照合して、統計的言
語モデルによる生起尤度と隠れマルコフ・モデルによる
音素標準パターンとの間の類似尤度の和である総合尤度
の最も高い候補の仮名・漢字文字を認識結果として出力
するものが提案されている。
【0003】
【発明が解決しようとする課題】しかし、音声信号を仮
名・漢字系列に変換する上述の通りの方法は、統計的言
語モデルが仮名・漢字の文字面についての情報のみを取
扱い、音素系列から仮名・漢字文字への変換情報として
仮名・漢字文字の読みに対応する音韻系列の情報が与え
られているにすぎないものであることから、文字の単純
な組合せによる変換候補が生成される。そのために、明
らかに読み誤った変換候補も生成されることとなり(例
えば、「大切」に”o−o−k−i”という音韻系列が
対応したもの)、変換処理時間は長くなると共に変換性
能も低下するに到る。
【0004】この発明は、仮名・漢字系列と音韻系列と
が正しく対応していない変換候補を削除することによ
り、入力された音声から仮名・漢字系列に変換するのに
要する変換処理時間を短縮し、変換性能を向上した日本
語音声認識方法を提供するものである。
【0005】
【課題を解決するための手段】音声信号をその特徴パラ
メータの時系列とし、学習用テキスト・データベースよ
り作成された生起順序に関する統計的言語モデルを使用
して音声信号の特徴パラメータの時系列について複数の
音声認識候補を選出し、これら音声認識候補について隠
れマルコフ・モデルの標準パターンと音声信号の特徴パ
ラメータの時系列のそれぞれと照合し、生起の尤度と類
似の尤度の和である総合尤度の高い候補を認識結果とす
る日本語音声認識方法において、学習用テキスト・デー
タベースより作成された仮名・漢字の生起順序に関する
統計的言語モデルを使用し、隠れマルコフ・モデルの標
準パターンとして音節標準パターンおよび漢字の読みに
ついての標準パターンを使用し、音声認識候補の音韻系
列がその候補の仮名・漢字系列の読みを表しているか否
かの調査に仮名・漢字系列についての読みの辞書6を使
用し、否である場合はこれらを逐次削除する、ことを特
徴とする日本語音声認識方法を構成した。
【0006】
【実施例】この発明の実施例を図1を参照して説明す
る。音声信号入力端子1から入力された音声信号は、特
徴抽出部2においてディジタル信号に変換され、更にL
PCケプストラム分析された後、1フレーム(例えば、
10ミリ秒)毎に特徴パラメータに変換される。ここ
で、特徴パラメータとしては例えばLPCケプストラム
係数が採用される。
【0007】学習用音声データベースに基づいて、上述
の特徴パラメータ変換の場合と同様にして、隠れマルコ
フ・モデルの音節標準パターンおよび漢字の読みについ
ての音節連鎖標準パターンを作成し、標準パターン・メ
モリ4に記憶しておく。そして、学習用テキスト・デー
タベースに基づいて、これより仮名・漢字の生起順序に
関する統計的言語モデルを作成して、仮名・漢字統計的
言語モデル・メモリ5に記憶しておく。また、仮名・漢
字系列についての読みの情報を辞書メモリ6に記憶して
おく。
【0008】認識部3においては、仮名・漢字統計的言
語モデルを使用して選出した複数の文字候補について、
これら文字候補の読みを表す標準パターンを標準パター
ン・メモリ4から読みだし、これらと入力された音声の
特徴パラメータとの間の類似尤度をそれぞれ求める。即
ち、図2を参照するに、入力された音声についてi番目
の文字を認識するには、仮名・漢字統計的言語モデルか
ら仮名・漢字群の生起順序に関するトライグラムを使用
し、(i−2)番目と(i−1)番目の各文字の認識結
果に基づいて、i番目に出現すると予測される尤度の高
い文字の複数を変換文字候補k1 ーkn として選出す
る。選出されたこれら変換文字候補k1 ーkn それぞれ
について、存在する読みに対応した各別の候補が作成さ
れる。例えば、変換文字候補k2 の読みがy1 、y2
3 の3通りあれば、変換文字候補k2 との組合せによ
り3通りの候補ck2y1、ck2y2、ck2y3を作成する。
【0009】そして、これらの変換文字候補のそれぞれ
について、文字の読みについての標準パターンとi番目
の入力された音声の尤度を求め、その変換文字候補のi
番目に生起する尤度の和を総合尤度とし、この総合尤度
の最も高い文字候補、例えばck2y3の総合尤度が最も高
ければ文字k2 をi番目の認識結果文字として認識結果
出力部7に出力する。この場合、この発明は、トライグ
ラムの一部ないし全体で構成される仮名・漢字系列、例
えばi番目および(i−1)番目の2文字により構成さ
れる系列、i番目と(i−1)番目と(i−2)番目の
3文字により構成される系列を検索の対称とし、辞書メ
モリ6中に該当する項目があった場合、その候補の音韻
系列が辞書に示される読みに対応しているか否かを調査
し、否である場合は、これらを逐次削除して、総合尤度
による比較の対象から予め除外する。
【0010】或る文字が出力されたとき、総合尤度が最
も高かった文字候補が次の文字を出力した段階において
も総合尤度が最も高いとは限らない。そこで、総合尤度
が高い上位B個(これを、ビーム幅がBである、と称
す)の候補を残して次の処理操作に移行する。上位をB
個に限定した理由は、全ての候補を残すことは必要とさ
れるメモリ量、処理時間の点で困難であるからである。
総合尤度の最も高い文字候補の変更に対応して、認識結
果出力部7へ出力する文字候補も更新する。
【0011】上述した通りの仮名・漢字候補の選出、こ
れらについての標準パターンとの間の照合、総合尤度か
ら認識結果文字を得る操作を音声区間が終るまで繰り返
し、最後にこれまでに得られた認識結果文字を得られた
順に仮名・漢字系列として出力する。なお、音声信号中
に学習用テキスト・データベースにない漢字があると、
これを認識することができない。この場合、この認識で
きない文字(漢字)を認識結果の仮名・漢字系列中にお
いて空白として出力するようにするか、音素或は仮名の
生起順序に関する統計的言語モデルと隠れマルコフ・モ
デルの音素或は音節標準パターンとを設け、学習用テキ
スト・データ・ベースとされる漢字は音素系列或は仮名
系列として出力するようにしてもよい。特徴抽出部2、
認識部3、認識結果出力部7はそれぞれ兼用、或は専用
のマイクロ・プロセッサにより構成することができる。
【0012】
【発明の効果】以上の通りであって、この発明は仮名・
漢字の生起順序に関する統計的言語モデルと隠れマルコ
フ・モデルの音節標準パターンと漢字の読みについての
音節連鎖標準パターンとを使用して入力された音声から
直接漢字仮名混じり系列を出力場合において、仮名・漢
字系列についての読みの情報を利用して読み方の誤った
候補を逐次削除することにより、入力された音声から仮
名・漢字系列に変換するのに要する変換処理時間を短縮
し、変換性能を向上することができる。一般に、統計的
言語モデルを作成するに必要とされる学習用テキスト・
データベースは認識対象となるタスクの内容を含んでい
る必要があるが、読みの誤りを調査するに使用される仮
名・漢字系列についての読みの辞書は特にタスクに依存
したものを用意する必要はなく、広く一般に使用されて
いる単語辞書により代替しても充分な変換精度の向上が
認められるので、簡単にこの機能を付加することができ
る。
【0013】文節単位に発声した274文節に対して変
換率による評価実験を実施した。その結果は図3および
図4に示される通りである。ビーム幅が900である場
合についてみると、隠れマルコフ・モデルの音節標準パ
ターンおよび仮名・漢字統計的言語モデルを使用した従
来の日本語音声認識方法は69. 5%の文字を正しく変
換した。これに対して、仮名・漢字系列についての読み
の辞書を使用して音声認識候補の音韻系列がその候補の
仮名・漢字系列の読みを表しているか否かの調査をし、
否である場合はこれらを逐次削除するこの発明の日本語
音声認識方法はこれが77. 7%にも向上した。
【図面の簡単な説明】
【図1】この発明の実施例を説明するブロック図。
【図2】i番目の候補文字からi番目の認識結果を得る
過程を説明する図。
【図3】ビーム幅と文節変換率および文字変換率との間
の関係を示す図。
【図4】図3のグラフ。
【符号の説明】
2 特徴抽出部 3 認識部 4 標準パターン・メモリ 5 仮名・漢字統計的言語モデル 6 辞書 7 認識結果出力部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音声信号をその特徴パラメータの時系列
    とし、学習用テキスト・データベースより作成された生
    起順序に関する統計的言語モデルを使用して音声信号の
    特徴パラメータの時系列について複数の音声認識候補を
    選出し、これら音声認識候補について隠れマルコフ・モ
    デルの標準パターンと音声信号の特徴パラメータの時系
    列のそれぞれと照合し、生起の尤度と類似の尤度の和で
    ある総合尤度の高い候補を認識結果とする日本語音声認
    識方法において、 学習用テキスト・データベースより作成された仮名・漢
    字の生起順序に関する統計的言語モデルを使用し、 隠れマルコフ・モデルの標準パターンとして音節標準パ
    ターンおよび漢字の読みについての標準パターンを使用
    し、 音声認識候補の音韻系列がその候補の仮名・漢字系列の
    読みを表しているか否かの調査に仮名・漢字系列につい
    ての読みの辞書を使用し、否である場合はこれらを逐次
    削除する、 ことを特徴とする日本語音声認識方法。
JP4035270A 1992-02-21 1992-02-21 日本語音声認識方法 Pending JPH05232990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4035270A JPH05232990A (ja) 1992-02-21 1992-02-21 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4035270A JPH05232990A (ja) 1992-02-21 1992-02-21 日本語音声認識方法

Publications (1)

Publication Number Publication Date
JPH05232990A true JPH05232990A (ja) 1993-09-10

Family

ID=12437104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4035270A Pending JPH05232990A (ja) 1992-02-21 1992-02-21 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JPH05232990A (ja)

Similar Documents

Publication Publication Date Title
US7174288B2 (en) Multi-modal entry of ideogrammatic languages
US5949961A (en) Word syllabification in speech synthesis system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6490563B2 (en) Proofreading with text to speech feedback
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
KR100277694B1 (ko) 음성인식시스템에서의 발음사전 자동생성 방법
US5995934A (en) Method for recognizing alpha-numeric strings in a Chinese speech recognition system
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
JP3444108B2 (ja) 音声認識装置
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
US20050203742A1 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
JP3378547B2 (ja) 音声認識方法及び装置
JPH05232990A (ja) 日本語音声認識方法
JPH09179578A (ja) 単音節認識装置
JP3240691B2 (ja) 音声認識方法
JPH05232987A (ja) 日本語音声認識方法
JPH0612091A (ja) 日本語音声認識方法
JPH0210957B2 (ja)
JPH05119793A (ja) 音声認識方法及び装置
US20060206301A1 (en) Determining the reading of a kanji word
JPH06308994A (ja) 日本語音声認識方法
JPH0473694A (ja) 日本語音声認識方法
JPS61122781A (ja) 音声ワ−ドプロセツサ
JP3430265B2 (ja) 日本語音声認識方法