JPH0473694A - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JPH0473694A
JPH0473694A JP2185749A JP18574990A JPH0473694A JP H0473694 A JPH0473694 A JP H0473694A JP 2185749 A JP2185749 A JP 2185749A JP 18574990 A JP18574990 A JP 18574990A JP H0473694 A JPH0473694 A JP H0473694A
Authority
JP
Japan
Prior art keywords
kanji
kana
likelihood
standard pattern
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2185749A
Other languages
English (en)
Other versions
JP3009709B2 (ja
Inventor
Shoichi Matsunaga
昭一 松永
Tomokazu Yamada
智一 山田
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2185749A priority Critical patent/JP3009709B2/ja
Publication of JPH0473694A publication Critical patent/JPH0473694A/ja
Application granted granted Critical
Publication of JP3009709B2 publication Critical patent/JP3009709B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は隠れマルコフモデル(例えば中周を−「確率
モデルによる音声認識」電子情報通信学会1(198B
))と、統計的言語モデル(例えばBahl 、 L他
”A 5tatistical Approach t
o Continuous 5peech RecoI
XnitionllIEEE Trans、onPAM
I (1983) )とを用いた日本語音声L2 fl
i方法に関する。
「従来の技術」 従来の隠れマルコフモデル及び統計的言語モデルを用い
た音声認識方法として、学習用テキストデータベースよ
り、音素の生起順序に関する統訂的言語モデルと、隠れ
マルコフモデルの音素標準パターンとを予め作成してお
き、入力音声に対し、統計的言語モデルを用いて、既に
認識した直前の複数の音素から、次に生起する確率の高
い複数の音素候補を選出し、これら選出した音素候補の
それぞれについてその音素標準パターンと入力音声とを
照合して、生起尤度と標準パターンとの類似尤度との綜
合的尤度の最も高い音素を認識結果として出力すること
が提案されている。
しかし、この認識方法は認識結果が、音素単位の系列と
して出力されるから、入力音声を日本語文として出力し
たい場合は、その認識結果の音素単位の系列を、仮名、
漢字変換する必要がある。
つまり入力音声を音素単位の系列への変換と、その音素
系列の仮名・漢字系列への変換との2回の変換を行うた
め、全体として正しい変換結果が得られる変換性能が比
較的低いものとならざるを得られない。
「課題を解決するための手段」 この発明によれば学習用テキストデータベースから、仮
名及び漢字の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音節標準パターン及び漢字の読みに
対する音節連鎖標準パターンとを作成しておき、この仮
名、漢字の統計的言語モデルと、音節標準パターン及び
音節連鎖標準パターンとを用いで、入力音声を一挙に、
仮名、漢字混じり文字系列に変換する。
r実施例」 第1回は、この発明の実施例を示すプロ、り回である。
入力端子1から入力された音声は、特徴抽出部2におい
てディジタル信号に変換され、更にLPCケプストラム
分析された後、1フレーム(例えば10ミリ秒)ごとに
特徴バラメークに変換される。この特徴パラメータは例
えばLPCケプストラム係数である。
学習用テキストデータベースより、上記特徴パラメータ
と同一形式で、隠れマルコフモデルの音節標準パターン
及び漢字の読みに対する音節連鎖標準パターンを作り、
標準パターンメモリ4に記憶しておき、また上記学習用
テキストデータベースより、仮名及び漢字の生起順序に
関する統計的言語モデルを作り、仮名漢字統計的言語モ
デルメモリ5に記憶しである。
認識部3では、仮名・漢字統計的言語モデルを用いて選
出した複数の文字候補について、その文字候補の標準パ
ターンを標準パターンメモリ4から読み出し、入力音声
の特徴パラメータとの類似度(尤度〕をそれぞれ求める
。つまり例えば入力音声のi番目の文字を認識するには
、仮名・漢字統計的言語モデルから仮名・漢字群の出現
順序に関するトライグラムを用いて、(i−2)番目と
(+−1)番目との各文字の認識結果をもとに、1番目
に出現されると予測される光度が高い文字の複数を候補
文字に1〜に、、として選出する(第2図)、これら選
出された各候補文字に1〜k。
に対する標準パターンとi番目の人力音声との尤度(類
似度)をそれぞれ求め、その候補文字のi番目に出現す
る光度と、その杼準パターンとの類似性を示す尤度との
和を綜合尤度とし、この綜合尤度が最も高い候補文字、
例えばに2をi番目の認識結果文字として認識結果出力
部6へ出力する。
この仮名・漢字候補の選出と、それらについての標準パ
ターンとの照合と、その綜合尤度から認識結果文字を得
る操作とを音声区間が終るまで繰返し、最後に、それま
で得られた認識結果文字を、その順に仮名・漢字系列と
して出力する。
なお、入力音声中に、学習用テキストデークヘースにな
い漢字があると、これを認識することができない。この
場合はその認識できない文字(漢字)を、認識結果の仮
名・漢字系列中に空白として出力するか、あるいは、音
素についての生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを設け、前記デ
ータヘースにない漢字は、音素系列として出力してもよ
い、特徴抽出部2、認識部3、認識結果出力部6はそれ
ぞれ専用、または兼用のマイクロプロセッサにより処理
することができる。
「発明の効果J 以上述べたようにこの発明によれば仮名・漢字の出現順
序に関する統計的言語モデルと、I!りれマルコフモデ
ルの音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンとを用いているため、連続した入力音声を
、仮名・漢字系列に−φに変換することができ、2回に
分けて変換する場合よりも高い変換性能が予期される。
また、文字の生起の尤度と、統計的手法で得た標準パタ
ーン、つまり隠れマルコフモデルの標準パターンとの類
偵性の光度とは共に統計的尤度であり、従って例えば両
尤度を単に加算して綜合尤度とすることができ、処理が
簡単である。
文節単位に発声した200文節に対して変換率による評
価を実験した。その結果、従来法により、音節の統計的
言語モデル(音節のトライダラム)を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと70%(正解文字数/総文字数x ]、 0
0 )が正しく変換された。但し、音素の認識性能は8
6%である。
これに対して、この発明方法を用いると、同じ音素の認
識率でも、仮名・漢字統計的言語モデル(仮名・漢字群
のトライダラム)の効果により、変換性能は82%に向
上した。
【図面の簡単な説明】
第1図はこの発明の実施例を示すブロフク図、第2図は
1番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。

Claims (1)

    【特許請求の範囲】
  1. (1)入力音声を特徴パラメータの時系列とし、学習用
    テキストデータベースより作成された生起順序に関する
    統計的言語モデルを用いて、上記入力音声の特徴パラメ
    ータ時系列について、複数の音声認識候補を選出し、こ
    れら各音声認識候補について、隠れマルコフモデルの標
    準パターンと上記入力音声の特徴パラメータ時系列とを
    それぞれ照合して、生起の尤度と類似の尤度との綜合尤
    度の高い候補を認識結果とする日本語音声認識方法にお
    いて、 上記統計的言語モデルとして、上記学習用テキストデー
    タベースから作成された、仮名、及び漢字の生起順序に
    関する統計的言語モデルを用い、上記標準パターンとし
    て、音節標準パターン及び漢字の読みに対する音節連鎖
    標準パターンを用いる、 ことを特徴とする日本語音声認識方法。
JP2185749A 1990-07-13 1990-07-13 日本語音声認識方法 Expired - Fee Related JP3009709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2185749A JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2185749A JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Publications (2)

Publication Number Publication Date
JPH0473694A true JPH0473694A (ja) 1992-03-09
JP3009709B2 JP3009709B2 (ja) 2000-02-14

Family

ID=16176194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2185749A Expired - Fee Related JP3009709B2 (ja) 1990-07-13 1990-07-13 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JP3009709B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
WO2001048737A3 (en) * 1999-12-23 2002-11-14 Intel Corp Speech recognizer with a lexical tree based n-gram language model

Also Published As

Publication number Publication date
JP3009709B2 (ja) 2000-02-14

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US5949961A (en) Word syllabification in speech synthesis system
EP1668628A1 (en) Method for synthesizing speech
US5764851A (en) Fast speech recognition method for mandarin words
US5745875A (en) Stenographic translation system automatic speech recognition
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP2938865B1 (ja) 音声認識装置
JP3378547B2 (ja) 音声認識方法及び装置
JPH0473694A (ja) 日本語音声認識方法
JP2966002B2 (ja) 音声認識装置
JPH09179578A (ja) 単音節認識装置
JP3240691B2 (ja) 音声認識方法
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR100451919B1 (ko) 영어 발음 기호의 분해 및 합성 방법
JPS6229796B2 (ja)
JP3430265B2 (ja) 日本語音声認識方法
JPH0612091A (ja) 日本語音声認識方法
JPH04291399A (ja) 音声認識方法
JP3818154B2 (ja) 音声認識方法
JP3001334B2 (ja) 認識用言語処理装置
JPH06289894A (ja) 日本語音声認識方法
JPH06308994A (ja) 日本語音声認識方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees