JP3009709B2 - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JP3009709B2
JP3009709B2 JP2185749A JP18574990A JP3009709B2 JP 3009709 B2 JP3009709 B2 JP 3009709B2 JP 2185749 A JP2185749 A JP 2185749A JP 18574990 A JP18574990 A JP 18574990A JP 3009709 B2 JP3009709 B2 JP 3009709B2
Authority
JP
Japan
Prior art keywords
kanji
likelihood
kana
standard pattern
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2185749A
Other languages
English (en)
Other versions
JPH0473694A (ja
Inventor
昭一 松永
智一 山田
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2185749A priority Critical patent/JP3009709B2/ja
Publication of JPH0473694A publication Critical patent/JPH0473694A/ja
Application granted granted Critical
Publication of JP3009709B2 publication Critical patent/JP3009709B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は隠れマルコフモデル(例えば中川聖一「確
率モデルによる音声認識」電子情報通信学会編(198
8))と、統計的言語モデル(例えばBahl,L他“A Stati
stical Approach to Continuous Speech Recognition"I
EEE Trans.on PAMI(1983))とを用いた日本語音声認
識方法に関する。
「従来の技術」 従来の隠れマルコフモデル及び統計的言語モデルを用
いた音声認識方法として、学習用テキストデータベース
より、音素の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを予め作成して
おき、入力音声に対し、統計的言語モデルを用いて、既
に認識した直前の複数の音素から、次に生起する確率の
高い複数の音素候補を選出し、これら選出した音素候補
のそれぞれについてその音素標準パターンと入力音声と
を照合して、生起尤度と標準パターンとの類似尤度との
統合的尤度の最も高い音素を認識結果として出力するこ
とが提案されている。
しかし、この認識方法は認識結果が、音素単位の系列
として出力されるから、入力音声を日本語文として出力
したい場合は、その認識結果の音素単位の系列を、仮
名、漢字変換する必要がある。つまり入力音声を音素単
位の系列への変換と、その音素系列の仮名・漢字系列へ
の変換との2回の変換を行うため、全体として正しい変
換結果が得られる変換性能が比較的低いものとならざる
を得られない。
「課題を解決するための手段」 この発明によれば学習用テキストデータベースから、
仮名及び漢字の生起順序に関する統計的言語モデルと、
隠れマルコフモデルの音節標準パターン及び漢字の読み
に対する音節連鎖標準パターンとを作成しておき、この
仮名、漢字の統計的言語モデルから特定の順序に出現す
ると予測される第1の尤度の高い複数の文字候補を選出
し、これら文字候補のそれぞれについて上記音節標準パ
ターン及び音節連鎖標準パターンから得られる標準パタ
ーンと入力音声の特徴パラメータとの尤度を第2の尤度
として求め、各文字候補について第1の尤度と第2の尤
度との和を綜合尤度とし、その綜合尤度が最も高い文字
候補を上記特定の順序に出現する文字の認識結果文字と
して出力する。
「実施例」 第1図は、この発明の実施例を示すブロック図であ
る。入力端子1から入力された音声は、特徴抽出部2に
おいてディジタル信号に変換され、更にLPCケプストラ
ム分析された後、1フレーム(例えば10ミリ秒)ごとに
特徴パラメータに変換される。この特徴パラメータは例
えばLPCケプストラム係数である。
学習用テキストデータベースより、上記特徴パラメー
タと同一形式で、隠れマルコフモデルの音節標準パター
ン及び漢字の読みに対する音節連鎖標準パターンを作
り、標準パターンメモリ4に記憶しておき、また上記学
習用テキストデータベースより、仮名及び漢字の生起順
序に関する仮名・漢字統計的言語モデルを作り、仮名漢
字統計的言語モデルメモリ5に記憶してある。
認識部3では、仮名・漢字統計的言語モデルを用いて
選出した複数の文字候補について、その文字候補の標準
パターンを標準パターンメモリ4から読み出し、入力音
声の特徴パラメータとの類似度(尤度)をそれぞれ求め
る。つまり例えば入力音声のi番目の文字を認識するに
は、仮名・漢字統計的言語モデルから仮名・漢字群の出
現順序に関するトライグラムを用いて、(i−2)番目
と(i−1)番目との各文字の認識結果をもとに、i番
目に出現されると予測される尤度が高い文字の複数を候
補文字k1〜knとして選出する(第2図)。これら選出さ
れた各候補文字k1〜knに対する標準パターンとi番目に
相当する入力音声の特徴パラメータとの尤度(類似度)
をそれぞれ求め、その候補文字のi番目に出現する尤度
と、その標準パターンとの類似性を示す尤度との和を綜
合尤度とし、この綜合尤度が最も高い候補文字、例えば
k2をi番目の認識結果文字として認識結果出力部6へ出
力する。
この仮名・漢字候補の選出と、それらについての標準
パターンとの照合と、その綜合尤度から認識結果文字を
得る操作とを音声区間が終るまで繰返し、最後に、それ
まで得られた認識結果文字を、その順に仮名・漢字系列
として出力する。
なお、入力音声中に、学習用テキストデータベースに
ない漢字があると、これを認識することができない。こ
の場合はその認識できない文字(漢字)を、認識結果の
仮名・漢字系列中に空白として出力するか、あるいは、
音素についての生起順序に関する統計的言語モデルと、
隠れマルコフモデルの音素標準パターンとを設け、前記
データベースにない漢字は、音素系列として出力しても
よい。特徴抽出部2、認識部3、認識結果出力部6はそ
れぞれ専用、または兼用のマイクロプロセッサにより処
理することができる。
「発明の効果」 以上述べたようにこの発明によれば仮名・漢字の出現
順序に関する統計的言語モデルと、隠れマルコフモデル
の音節標準パターン及び漢字の読みに対する音節連鎖標
準パターンとを用いているため、連続した入力音声を、
仮名・漢字系列に一挙に変換することができ、2回に分
けて変換する場合よりも高い変換性能が予期される。ま
た、文字の生起の尤度と、統計的手法で得た標準パター
ン、つまり隠れマルコフモデルの標準パターンとの類似
性の尤度とは共に統計的尤度であり、従って例えば両尤
度を単に加算して綜合尤度とすることができ、処理が簡
単である。
文節単位に発生した200文節に対して変換率による評
価を実験した。その結果、従来法により、音節の統計的
言語モデル(音節のトライグラム)を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと70%(正解文字数/総文字数×100)が正し
く変換された。但し、音素の認識性能は86%である。
これに対して、この発明方法を用いると、同じ音素の
認識率でも、仮名・漢字統計的言語モデル(仮名・漢字
群のトライグラム)の効果により、変換性能は82%に向
上した。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロック図、第2図は
i番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/00 G06F 15/20 503 550A 514U (56)参考文献 特開 平2−113297(JP,A) 特開 平2−22730(JP,A) 特開 昭63−249199(JP,A) 特開 昭63−155263(JP,A) 特開 昭63−155259(JP,A) 特開 昭62−83797(JP,A) 特開 昭57−120151(JP,A) 電子情報通信学会技術研究報告 Vo l.89,No.388,SP89−110,「H MM音韻認識における音節連鎖統計情報 の利用」,p.7−12,(1990/1 /26) 日本音響学会平成4年春季研究発表会 講演論文集▲I▼,1−P−9,「読み の情報を付与したかな・漢字連鎖確率に よる統計的言語モデル」,p.121− 122,(平成4年3月) 電子情報通信学会技術研究報告[音声 ]Vol.91,No.96,SP91−26, 「かな・漢字の文字連鎖情報を利用した 統計的言語モデル」p.65−72(1991 /6/21) 電子情報通信学会論文誌,Vol.J 77−A,No.2,February 1994,「音声認識における仮名・漢字文 字連鎖確率に基づく統計的言語モデルの 利用」p.198−205(平成6年2月25日 発行) 日本音響学会平成3年秋季研究発表会 講演論文集▲I▼,1−5−14,「読み の違いを考慮した かな・漢字文字連鎖 確率による統計的言語モデル」,p.27 −28,(平成3年10月) (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 G10L 3/00 535 G10L 3/00 537 G10L 3/00 551 G06F 3/16 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】特徴パラメータで作られた隠れマルコフモ
    デルの音節標準パターン及び漢字の読みに対する音節連
    鎖標準パターンが記録された標準パターンメモリと、 前記特徴パラメータと同一形式で作られた仮名・漢字の
    生起順序に関する統計的言語モデルが記録された仮名漢
    字統計的言語モデルメモリとを予め用意し、 入力音声をフレーム毎に前記特徴パラメータと同一形式
    の特徴パラメータに変換し、 前記仮名漢字統計的言語モデルメモリから特定の順序に
    出現すると予測される第1の尤度の高い複数の文字候補
    を前記仮名・漢字統計的言語モデルから選出し、 前記標準パターンメモリから前記各文字候補に対する標
    準パターンと入力音声の特徴パラメータとの尤度を第2
    の尤度として求め、 前記各文字候補について前記第1の尤度と前記第2の尤
    度との和を綜合尤度とし、 前記綜合尤度が最も高い文字候補を、前記特定の順序に
    出現する文字の認識結果文字として出力する ことを特徴とする日本語音声認識方法。
JP2185749A 1990-07-13 1990-07-13 日本語音声認識方法 Expired - Fee Related JP3009709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2185749A JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2185749A JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Publications (2)

Publication Number Publication Date
JPH0473694A JPH0473694A (ja) 1992-03-09
JP3009709B2 true JP3009709B2 (ja) 2000-02-14

Family

ID=16176194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2185749A Expired - Fee Related JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JP3009709B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1201286C (zh) * 1999-12-23 2005-05-11 英特尔公司 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成3年秋季研究発表会講演論文集▲I▼,1−5−14,「読みの違いを考慮した かな・漢字文字連鎖確率による統計的言語モデル」,p.27−28,(平成3年10月)
日本音響学会平成4年春季研究発表会講演論文集▲I▼,1−P−9,「読みの情報を付与したかな・漢字連鎖確率による統計的言語モデル」,p.121−122,(平成4年3月)
電子情報通信学会技術研究報告 Vol.89,No.388,SP89−110,「HMM音韻認識における音節連鎖統計情報の利用」,p.7−12,(1990/1/26)
電子情報通信学会技術研究報告[音声]Vol.91,No.96,SP91−26,「かな・漢字の文字連鎖情報を利用した統計的言語モデル」p.65−72(1991/6/21)
電子情報通信学会論文誌,Vol.J77−A,No.2,February 1994,「音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用」p.198−205(平成6年2月25日発行)

Also Published As

Publication number Publication date
JPH0473694A (ja) 1992-03-09

Similar Documents

Publication Publication Date Title
US6236964B1 (en) Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
US6260014B1 (en) Specific task composite acoustic models
JP3535292B2 (ja) 音声認識システム
JP3444108B2 (ja) 音声認識装置
JP3009709B2 (ja) 日本語音声認識方法
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3240691B2 (ja) 音声認識方法
JP2938865B1 (ja) 音声認識装置
JP2966002B2 (ja) 音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3430265B2 (ja) 日本語音声認識方法
Nakagawa et al. Spoken language identification by ergodic HMMs and its state sequences
JPH04291399A (ja) 音声認識方法
JP2001188556A (ja) 音声認識方法及び装置
JPH0612091A (ja) 日本語音声認識方法
JPH06289894A (ja) 日本語音声認識方法
JP2757356B2 (ja) 単語音声認識方法および装置
Saychum et al. A great reduction of wer by syllable toneme prediction for thai grapheme to phoneme conversion
JP2901850B2 (ja) 統計的言語モデルを用いた音声認識方法
JP3001334B2 (ja) 認識用言語処理装置
JP3818154B2 (ja) 音声認識方法
Chiang et al. CCLMDS'96: Towards a speaker-independent large-vocabulary Mandarin dictation system
JP2979912B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees