JPH0473694A - 日本語音声認識方法 - Google Patents
日本語音声認識方法Info
- Publication number
- JPH0473694A JPH0473694A JP2185749A JP18574990A JPH0473694A JP H0473694 A JPH0473694 A JP H0473694A JP 2185749 A JP2185749 A JP 2185749A JP 18574990 A JP18574990 A JP 18574990A JP H0473694 A JPH0473694 A JP H0473694A
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- kana
- likelihood
- standard pattern
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 claims abstract description 20
- 240000000220 Panda oleosa Species 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101150107341 RERE gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
「産業上の利用分野」
この発明は隠れマルコフモデル(例えば中周を−「確率
モデルによる音声認識」電子情報通信学会1(198B
))と、統計的言語モデル(例えばBahl 、 L他
”A 5tatistical Approach t
o Continuous 5peech RecoI
XnitionllIEEE Trans、onPAM
I (1983) )とを用いた日本語音声L2 fl
i方法に関する。
モデルによる音声認識」電子情報通信学会1(198B
))と、統計的言語モデル(例えばBahl 、 L他
”A 5tatistical Approach t
o Continuous 5peech RecoI
XnitionllIEEE Trans、onPAM
I (1983) )とを用いた日本語音声L2 fl
i方法に関する。
「従来の技術」
従来の隠れマルコフモデル及び統計的言語モデルを用い
た音声認識方法として、学習用テキストデータベースよ
り、音素の生起順序に関する統訂的言語モデルと、隠れ
マルコフモデルの音素標準パターンとを予め作成してお
き、入力音声に対し、統計的言語モデルを用いて、既に
認識した直前の複数の音素から、次に生起する確率の高
い複数の音素候補を選出し、これら選出した音素候補の
それぞれについてその音素標準パターンと入力音声とを
照合して、生起尤度と標準パターンとの類似尤度との綜
合的尤度の最も高い音素を認識結果として出力すること
が提案されている。
た音声認識方法として、学習用テキストデータベースよ
り、音素の生起順序に関する統訂的言語モデルと、隠れ
マルコフモデルの音素標準パターンとを予め作成してお
き、入力音声に対し、統計的言語モデルを用いて、既に
認識した直前の複数の音素から、次に生起する確率の高
い複数の音素候補を選出し、これら選出した音素候補の
それぞれについてその音素標準パターンと入力音声とを
照合して、生起尤度と標準パターンとの類似尤度との綜
合的尤度の最も高い音素を認識結果として出力すること
が提案されている。
しかし、この認識方法は認識結果が、音素単位の系列と
して出力されるから、入力音声を日本語文として出力し
たい場合は、その認識結果の音素単位の系列を、仮名、
漢字変換する必要がある。
して出力されるから、入力音声を日本語文として出力し
たい場合は、その認識結果の音素単位の系列を、仮名、
漢字変換する必要がある。
つまり入力音声を音素単位の系列への変換と、その音素
系列の仮名・漢字系列への変換との2回の変換を行うた
め、全体として正しい変換結果が得られる変換性能が比
較的低いものとならざるを得られない。
系列の仮名・漢字系列への変換との2回の変換を行うた
め、全体として正しい変換結果が得られる変換性能が比
較的低いものとならざるを得られない。
「課題を解決するための手段」
この発明によれば学習用テキストデータベースから、仮
名及び漢字の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音節標準パターン及び漢字の読みに
対する音節連鎖標準パターンとを作成しておき、この仮
名、漢字の統計的言語モデルと、音節標準パターン及び
音節連鎖標準パターンとを用いで、入力音声を一挙に、
仮名、漢字混じり文字系列に変換する。
名及び漢字の生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音節標準パターン及び漢字の読みに
対する音節連鎖標準パターンとを作成しておき、この仮
名、漢字の統計的言語モデルと、音節標準パターン及び
音節連鎖標準パターンとを用いで、入力音声を一挙に、
仮名、漢字混じり文字系列に変換する。
r実施例」
第1回は、この発明の実施例を示すプロ、り回である。
入力端子1から入力された音声は、特徴抽出部2におい
てディジタル信号に変換され、更にLPCケプストラム
分析された後、1フレーム(例えば10ミリ秒)ごとに
特徴バラメークに変換される。この特徴パラメータは例
えばLPCケプストラム係数である。
てディジタル信号に変換され、更にLPCケプストラム
分析された後、1フレーム(例えば10ミリ秒)ごとに
特徴バラメークに変換される。この特徴パラメータは例
えばLPCケプストラム係数である。
学習用テキストデータベースより、上記特徴パラメータ
と同一形式で、隠れマルコフモデルの音節標準パターン
及び漢字の読みに対する音節連鎖標準パターンを作り、
標準パターンメモリ4に記憶しておき、また上記学習用
テキストデータベースより、仮名及び漢字の生起順序に
関する統計的言語モデルを作り、仮名漢字統計的言語モ
デルメモリ5に記憶しである。
と同一形式で、隠れマルコフモデルの音節標準パターン
及び漢字の読みに対する音節連鎖標準パターンを作り、
標準パターンメモリ4に記憶しておき、また上記学習用
テキストデータベースより、仮名及び漢字の生起順序に
関する統計的言語モデルを作り、仮名漢字統計的言語モ
デルメモリ5に記憶しである。
認識部3では、仮名・漢字統計的言語モデルを用いて選
出した複数の文字候補について、その文字候補の標準パ
ターンを標準パターンメモリ4から読み出し、入力音声
の特徴パラメータとの類似度(尤度〕をそれぞれ求める
。つまり例えば入力音声のi番目の文字を認識するには
、仮名・漢字統計的言語モデルから仮名・漢字群の出現
順序に関するトライグラムを用いて、(i−2)番目と
(+−1)番目との各文字の認識結果をもとに、1番目
に出現されると予測される光度が高い文字の複数を候補
文字に1〜に、、として選出する(第2図)、これら選
出された各候補文字に1〜k。
出した複数の文字候補について、その文字候補の標準パ
ターンを標準パターンメモリ4から読み出し、入力音声
の特徴パラメータとの類似度(尤度〕をそれぞれ求める
。つまり例えば入力音声のi番目の文字を認識するには
、仮名・漢字統計的言語モデルから仮名・漢字群の出現
順序に関するトライグラムを用いて、(i−2)番目と
(+−1)番目との各文字の認識結果をもとに、1番目
に出現されると予測される光度が高い文字の複数を候補
文字に1〜に、、として選出する(第2図)、これら選
出された各候補文字に1〜k。
に対する標準パターンとi番目の人力音声との尤度(類
似度)をそれぞれ求め、その候補文字のi番目に出現す
る光度と、その杼準パターンとの類似性を示す尤度との
和を綜合尤度とし、この綜合尤度が最も高い候補文字、
例えばに2をi番目の認識結果文字として認識結果出力
部6へ出力する。
似度)をそれぞれ求め、その候補文字のi番目に出現す
る光度と、その杼準パターンとの類似性を示す尤度との
和を綜合尤度とし、この綜合尤度が最も高い候補文字、
例えばに2をi番目の認識結果文字として認識結果出力
部6へ出力する。
この仮名・漢字候補の選出と、それらについての標準パ
ターンとの照合と、その綜合尤度から認識結果文字を得
る操作とを音声区間が終るまで繰返し、最後に、それま
で得られた認識結果文字を、その順に仮名・漢字系列と
して出力する。
ターンとの照合と、その綜合尤度から認識結果文字を得
る操作とを音声区間が終るまで繰返し、最後に、それま
で得られた認識結果文字を、その順に仮名・漢字系列と
して出力する。
なお、入力音声中に、学習用テキストデークヘースにな
い漢字があると、これを認識することができない。この
場合はその認識できない文字(漢字)を、認識結果の仮
名・漢字系列中に空白として出力するか、あるいは、音
素についての生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを設け、前記デ
ータヘースにない漢字は、音素系列として出力してもよ
い、特徴抽出部2、認識部3、認識結果出力部6はそれ
ぞれ専用、または兼用のマイクロプロセッサにより処理
することができる。
い漢字があると、これを認識することができない。この
場合はその認識できない文字(漢字)を、認識結果の仮
名・漢字系列中に空白として出力するか、あるいは、音
素についての生起順序に関する統計的言語モデルと、隠
れマルコフモデルの音素標準パターンとを設け、前記デ
ータヘースにない漢字は、音素系列として出力してもよ
い、特徴抽出部2、認識部3、認識結果出力部6はそれ
ぞれ専用、または兼用のマイクロプロセッサにより処理
することができる。
「発明の効果J
以上述べたようにこの発明によれば仮名・漢字の出現順
序に関する統計的言語モデルと、I!りれマルコフモデ
ルの音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンとを用いているため、連続した入力音声を
、仮名・漢字系列に−φに変換することができ、2回に
分けて変換する場合よりも高い変換性能が予期される。
序に関する統計的言語モデルと、I!りれマルコフモデ
ルの音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンとを用いているため、連続した入力音声を
、仮名・漢字系列に−φに変換することができ、2回に
分けて変換する場合よりも高い変換性能が予期される。
また、文字の生起の尤度と、統計的手法で得た標準パタ
ーン、つまり隠れマルコフモデルの標準パターンとの類
偵性の光度とは共に統計的尤度であり、従って例えば両
尤度を単に加算して綜合尤度とすることができ、処理が
簡単である。
ーン、つまり隠れマルコフモデルの標準パターンとの類
偵性の光度とは共に統計的尤度であり、従って例えば両
尤度を単に加算して綜合尤度とすることができ、処理が
簡単である。
文節単位に発声した200文節に対して変換率による評
価を実験した。その結果、従来法により、音節の統計的
言語モデル(音節のトライダラム)を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと70%(正解文字数/総文字数x ]、 0
0 )が正しく変換された。但し、音素の認識性能は8
6%である。
価を実験した。その結果、従来法により、音節の統計的
言語モデル(音節のトライダラム)を用いて音素の認識
を行った後に、音素列の認識結果に対して仮名・漢字変
換を行うと70%(正解文字数/総文字数x ]、 0
0 )が正しく変換された。但し、音素の認識性能は8
6%である。
これに対して、この発明方法を用いると、同じ音素の認
識率でも、仮名・漢字統計的言語モデル(仮名・漢字群
のトライダラム)の効果により、変換性能は82%に向
上した。
識率でも、仮名・漢字統計的言語モデル(仮名・漢字群
のトライダラム)の効果により、変換性能は82%に向
上した。
第1図はこの発明の実施例を示すブロフク図、第2図は
1番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。
1番目の認識のための候補文字を選出し、これより認識
結果を出力する説明図である。
Claims (1)
- (1)入力音声を特徴パラメータの時系列とし、学習用
テキストデータベースより作成された生起順序に関する
統計的言語モデルを用いて、上記入力音声の特徴パラメ
ータ時系列について、複数の音声認識候補を選出し、こ
れら各音声認識候補について、隠れマルコフモデルの標
準パターンと上記入力音声の特徴パラメータ時系列とを
それぞれ照合して、生起の尤度と類似の尤度との綜合尤
度の高い候補を認識結果とする日本語音声認識方法にお
いて、 上記統計的言語モデルとして、上記学習用テキストデー
タベースから作成された、仮名、及び漢字の生起順序に
関する統計的言語モデルを用い、上記標準パターンとし
て、音節標準パターン及び漢字の読みに対する音節連鎖
標準パターンを用いる、 ことを特徴とする日本語音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2185749A JP3009709B2 (ja) | 1990-07-13 | 1990-07-13 | 日本語音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2185749A JP3009709B2 (ja) | 1990-07-13 | 1990-07-13 | 日本語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0473694A true JPH0473694A (ja) | 1992-03-09 |
JP3009709B2 JP3009709B2 (ja) | 2000-02-14 |
Family
ID=16176194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2185749A Expired - Fee Related JP3009709B2 (ja) | 1990-07-13 | 1990-07-13 | 日本語音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3009709B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001048737A2 (en) * | 1999-12-23 | 2001-07-05 | Intel Corporation | Speech recognizer with a lexical tree based n-gram language model |
-
1990
- 1990-07-13 JP JP2185749A patent/JP3009709B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001048737A2 (en) * | 1999-12-23 | 2001-07-05 | Intel Corporation | Speech recognizer with a lexical tree based n-gram language model |
WO2001048737A3 (en) * | 1999-12-23 | 2002-11-14 | Intel Corp | Speech recognizer with a lexical tree based n-gram language model |
Also Published As
Publication number | Publication date |
---|---|
JP3009709B2 (ja) | 2000-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
EP1668628A1 (en) | Method for synthesizing speech | |
US5764851A (en) | Fast speech recognition method for mandarin words | |
US5745875A (en) | Stenographic translation system automatic speech recognition | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JPH0473694A (ja) | 日本語音声認識方法 | |
JP2966002B2 (ja) | 音声認識装置 | |
JPH09179578A (ja) | 単音節認識装置 | |
JP3240691B2 (ja) | 音声認識方法 | |
KR100981540B1 (ko) | 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
KR100451919B1 (ko) | 영어 발음 기호의 분해 및 합성 방법 | |
JPS6229796B2 (ja) | ||
JP3430265B2 (ja) | 日本語音声認識方法 | |
JPH0612091A (ja) | 日本語音声認識方法 | |
JPH04291399A (ja) | 音声認識方法 | |
JP3818154B2 (ja) | 音声認識方法 | |
JP3001334B2 (ja) | 認識用言語処理装置 | |
JPH06289894A (ja) | 日本語音声認識方法 | |
JPH06308994A (ja) | 日本語音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |