JPH04291399A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH04291399A JPH04291399A JP3056992A JP5699291A JPH04291399A JP H04291399 A JPH04291399 A JP H04291399A JP 3056992 A JP3056992 A JP 3056992A JP 5699291 A JP5699291 A JP 5699291A JP H04291399 A JPH04291399 A JP H04291399A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- statistical language
- likelihood
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 14
- 230000006978 adaptation Effects 0.000 description 7
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】この発明は、標準パターン(例え
ば隠れマルコフモデル)(例えば、中川聖一「確率モデ
ルによる音声認識」電子情報通信学会編(1988))
と統計的言語モデル(例えば、Bahl, L.他“
A Statistical Approach
to Continuous Speech
Recognition”IEEE Trans.
on PAMI(1983))と統計モデルの適応
化方法(例えば、松永他「音節連鎖情報のタスク適応化
」情報処理学会講演論文集(1991))を用いた日本
語音声認識方法に関する。
ば隠れマルコフモデル)(例えば、中川聖一「確率モデ
ルによる音声認識」電子情報通信学会編(1988))
と統計的言語モデル(例えば、Bahl, L.他“
A Statistical Approach
to Continuous Speech
Recognition”IEEE Trans.
on PAMI(1983))と統計モデルの適応
化方法(例えば、松永他「音節連鎖情報のタスク適応化
」情報処理学会講演論文集(1991))を用いた日本
語音声認識方法に関する。
【0002】
【従来の技術】従来の隠れマルコフモデルと、統計的言
語モデルとを用いた音声認識方法として、学習用テキス
トデータベースより、音節や単語の生起順序に関する統
計的言語モデルと、隠れマルコフモデルの音節や単語の
標準パタンとを予め作成しておき、入力音声に対し、ま
ず統計的言語モデルを用いて、既に認識した直前の複数
の音節や単語から、次に生起する確率の高い複数の音節
や単語候補を選出し、これら選出した音節や単語候補の
それぞれについてその音節や単語の標準パタンと入力音
声とを照合して、生起尤度と標準パターンとの類似尤度
との和を総合的尤度とし、これが最も高い音節や単語候
補を認識結果として出力することが提案されている。
語モデルとを用いた音声認識方法として、学習用テキス
トデータベースより、音節や単語の生起順序に関する統
計的言語モデルと、隠れマルコフモデルの音節や単語の
標準パタンとを予め作成しておき、入力音声に対し、ま
ず統計的言語モデルを用いて、既に認識した直前の複数
の音節や単語から、次に生起する確率の高い複数の音節
や単語候補を選出し、これら選出した音節や単語候補の
それぞれについてその音節や単語の標準パタンと入力音
声とを照合して、生起尤度と標準パターンとの類似尤度
との和を総合的尤度とし、これが最も高い音節や単語候
補を認識結果として出力することが提案されている。
【0003】しかし、この認識方法は統計的言語モデル
が、認識タスク(発声内容)に類似した大規模なもので
なければならなかった。例えば、統計的言語モデルが新
聞の社説の大規模なデータベースから作成されたもので
あれば、社説の内容の発声に対して有効であるが、例え
ば電話会議登録などの異なる認識タスクに対しては有効
性が低かった。つまり、異なるタスクを認識させる場合
にはそれに応じた大規模なテキストデータを作成しなけ
ればならなかった。
が、認識タスク(発声内容)に類似した大規模なもので
なければならなかった。例えば、統計的言語モデルが新
聞の社説の大規模なデータベースから作成されたもので
あれば、社説の内容の発声に対して有効であるが、例え
ば電話会議登録などの異なる認識タスクに対しては有効
性が低かった。つまり、異なるタスクを認識させる場合
にはそれに応じた大規模なテキストデータを作成しなけ
ればならなかった。
【0004】
【課題を解決するための手段】この発明によれば、予め
与えられた汎用的なテキストデータベースの統計的言語
モデルを、予め得た少量の学習用テキストから得た統計
量に適応化させることにより、適応型統計的言語モデル
を作成する。この、適応型統計的言語モデルを用いて複
数の音声認識候補を選出して認識することにより、従来
技術に対して認識性能を上昇させる。
与えられた汎用的なテキストデータベースの統計的言語
モデルを、予め得た少量の学習用テキストから得た統計
量に適応化させることにより、適応型統計的言語モデル
を作成する。この、適応型統計的言語モデルを用いて複
数の音声認識候補を選出して認識することにより、従来
技術に対して認識性能を上昇させる。
【0005】統計的言語モデルの適応化の手法としては
、例えば削除補間法(F.Jelinek他「Inte
rporated estimation ofM
arkov source parameters
from speechdata」Patter
n Recognition in Pract
ice(1980))を用いる。具体的には、汎用的な
統計的言語モデルをPで表し、学習データの言語モデル
をQで示すと、適応型統計的言語モデルRは R=λ×P+(1−λ)×Q で表す。ここで、λは言語モデルPとQの混合の割合を
示す比率であり、0≦λ≦1の値である。学習データの
言語モデルQは、発声するタスクと類似しているため、
言語モデルQに対して適応型統計的言語モデルRの期待
値が最大となるようにλを定め、PとQとを混合するこ
とで適応化を行う。
、例えば削除補間法(F.Jelinek他「Inte
rporated estimation ofM
arkov source parameters
from speechdata」Patter
n Recognition in Pract
ice(1980))を用いる。具体的には、汎用的な
統計的言語モデルをPで表し、学習データの言語モデル
をQで示すと、適応型統計的言語モデルRは R=λ×P+(1−λ)×Q で表す。ここで、λは言語モデルPとQの混合の割合を
示す比率であり、0≦λ≦1の値である。学習データの
言語モデルQは、発声するタスクと類似しているため、
言語モデルQに対して適応型統計的言語モデルRの期待
値が最大となるようにλを定め、PとQとを混合するこ
とで適応化を行う。
【0006】
【実施例】図1にこの発明の実施例を示す。入力端子1
から入力された音声は、特徴抽出部2においてディジタ
ル信号に変換され、更にLPCケプストラム分析された
後、1フレーム(例えば10ミリ秒)ごとに特徴パラメ
ータに変換される。この特徴パラメータは例えばLPC
ケプストラム係数である。
から入力された音声は、特徴抽出部2においてディジタ
ル信号に変換され、更にLPCケプストラム分析された
後、1フレーム(例えば10ミリ秒)ごとに特徴パラメ
ータに変換される。この特徴パラメータは例えばLPC
ケプストラム係数である。
【0007】予め、学習用音声データベースより、上記
特徴パラメータと同一形式で、音節あるいは単語の標準
パターンを作り、標準パターンメモリ4に記憶しておく
。また、汎用的な統計的言語モデル5は汎用的なテキス
トデータベースより作成された生起順序に関するもので
あり、この言語モデル5は学習用言語モデル6を用いて
、適応型統計的言語モデル7に適応化される。学習用言
語モデル6は発声内容に類似したテキストデータから作
成したモデルである。
特徴パラメータと同一形式で、音節あるいは単語の標準
パターンを作り、標準パターンメモリ4に記憶しておく
。また、汎用的な統計的言語モデル5は汎用的なテキス
トデータベースより作成された生起順序に関するもので
あり、この言語モデル5は学習用言語モデル6を用いて
、適応型統計的言語モデル7に適応化される。学習用言
語モデル6は発声内容に類似したテキストデータから作
成したモデルである。
【0008】音声認識部3では、適応型統計的言語モデ
ル7を用いて選出した複数の音節や単語の候補について
、その候補の標準パターンを標準パターンメモリ4から
読みだし、入力音声のパラメータとの類似度(尤度)を
それぞれ求める。つまり例えば入力音声のi番目のユニ
ット(音節や単語)を認識するには、適応型統計的言語
モデルからユニットの出現順序に関するトライグラムを
用いて、(i−2)番目と(i−1)番目との各ユニッ
トの認識結果を基に、i番目に出現されると予測される
尤度が高い複数のユニットを候補ユニットk1〜knと
して選出する(図2)。これら選出された各候補ユニッ
トk1〜knの標準パターンと入力音声との尤度(類似
度)をそれぞれ求め、その各候補ユニットk1〜knが
i番目に出現する尤度と、その標準パターンとの類似性
を示す尤度との和を各候補ユニットの総合尤度とし、こ
れら総合尤度のうち最も高い候補ユニット、例えばk2
をi番目の認識結果として認識結果出力部8へ出力する
。
ル7を用いて選出した複数の音節や単語の候補について
、その候補の標準パターンを標準パターンメモリ4から
読みだし、入力音声のパラメータとの類似度(尤度)を
それぞれ求める。つまり例えば入力音声のi番目のユニ
ット(音節や単語)を認識するには、適応型統計的言語
モデルからユニットの出現順序に関するトライグラムを
用いて、(i−2)番目と(i−1)番目との各ユニッ
トの認識結果を基に、i番目に出現されると予測される
尤度が高い複数のユニットを候補ユニットk1〜knと
して選出する(図2)。これら選出された各候補ユニッ
トk1〜knの標準パターンと入力音声との尤度(類似
度)をそれぞれ求め、その各候補ユニットk1〜knが
i番目に出現する尤度と、その標準パターンとの類似性
を示す尤度との和を各候補ユニットの総合尤度とし、こ
れら総合尤度のうち最も高い候補ユニット、例えばk2
をi番目の認識結果として認識結果出力部8へ出力する
。
【0009】このユニット候補の選出と、それらについ
ての標準パターンと入力音声との照合と、その総合尤度
から認識結果ユニットを得る操作とを音声区間が終わる
まで繰り返し、最後に、それまで得られた認識結果ユニ
ットを、その順に入力音声の認識結果の系列として出力
する。なお、特徴抽出部2、認識部3、認識結果出力部
8、汎用的な統計的言語モデル5の適応化(適応型統計
的言語モデルの作成)操作はそれぞれ専用、または兼用
のマイクロプロセッサにより処理することができる。
ての標準パターンと入力音声との照合と、その総合尤度
から認識結果ユニットを得る操作とを音声区間が終わる
まで繰り返し、最後に、それまで得られた認識結果ユニ
ットを、その順に入力音声の認識結果の系列として出力
する。なお、特徴抽出部2、認識部3、認識結果出力部
8、汎用的な統計的言語モデル5の適応化(適応型統計
的言語モデルの作成)操作はそれぞれ専用、または兼用
のマイクロプロセッサにより処理することができる。
【0010】
【発明の効果】以上述べたように、この発明によれば、
ユニット(音節や単語)の出現順序に関する適応型の統
計的言語モデルを用いるため、従来の汎用的な言語モデ
ルを用いる場合よりも高い認識性能が予期される。会議
登録に関する発声タスク279文節に対してパープレキ
シティー(perplexity)による評価を行った
。パープレキシティーとは、発声タスクを認識する過程
で言語モデルによって、予測される平均音節数とみなせ
る。そのため、パープレキシティーが低くなると認識率
が向上し、より良い認識方法となる。例えば、雑誌記事
、論説文及び新聞の計115000音節より作成した汎
用的な統計的言語モデルを用いると、タスクのパープレ
キシティーは24.5であった。また、50文節に対す
る文節認識率は38%であった。
ユニット(音節や単語)の出現順序に関する適応型の統
計的言語モデルを用いるため、従来の汎用的な言語モデ
ルを用いる場合よりも高い認識性能が予期される。会議
登録に関する発声タスク279文節に対してパープレキ
シティー(perplexity)による評価を行った
。パープレキシティーとは、発声タスクを認識する過程
で言語モデルによって、予測される平均音節数とみなせ
る。そのため、パープレキシティーが低くなると認識率
が向上し、より良い認識方法となる。例えば、雑誌記事
、論説文及び新聞の計115000音節より作成した汎
用的な統計的言語モデルを用いると、タスクのパープレ
キシティーは24.5であった。また、50文節に対す
る文節認識率は38%であった。
【0011】これに対して、この発明方法を用い、発声
内容に類似した会議登録に関する447音節で適応化し
た適応型統計的言語モデルを用いると、適応化の効果に
よりタスクのパープレキシティーは18.6へ減少した
。また、50文節に対する文節認識率も50%に向上し
た。なお、この発明は上記実施例に限るわけではない。 たとえば、統計的言語モデルや認識標準パターンのユニ
ットは音節や単語だけでなく、音素やかな、漢字などの
文字単位であってもよい。認識手法は隠れマルコフモデ
ルに限らず、DPマッチングを用いても良い。統計的言
語モデルもトライグラムに限らず、バイグラムやユニグ
ラムの統計量でも良い。また、学習テキストを発声内容
に類似したテキストを選んで適応化を行ったが、発声内
容と同じ著者のテキストに対して適応化してもよい。更
に、適応化の方法も削除補間法に限るわけではなく、こ
の発明の主旨を変えずに変更することもできる。
内容に類似した会議登録に関する447音節で適応化し
た適応型統計的言語モデルを用いると、適応化の効果に
よりタスクのパープレキシティーは18.6へ減少した
。また、50文節に対する文節認識率も50%に向上し
た。なお、この発明は上記実施例に限るわけではない。 たとえば、統計的言語モデルや認識標準パターンのユニ
ットは音節や単語だけでなく、音素やかな、漢字などの
文字単位であってもよい。認識手法は隠れマルコフモデ
ルに限らず、DPマッチングを用いても良い。統計的言
語モデルもトライグラムに限らず、バイグラムやユニグ
ラムの統計量でも良い。また、学習テキストを発声内容
に類似したテキストを選んで適応化を行ったが、発声内
容と同じ著者のテキストに対して適応化してもよい。更
に、適応化の方法も削除補間法に限るわけではなく、こ
の発明の主旨を変えずに変更することもできる。
【図面の簡単な説明】
【図1】この発明の実施例を示すブロック図。
【図2】i番目の認識のための候補ユニットを選出し、
これより認識結果を出力する説明図。
これより認識結果を出力する説明図。
Claims (1)
- 【請求項1】 入力音声を特徴パラメータの時系列と
し、生起順序に関する統計的言語モデルを用いて、上記
入力音声の特徴パラメータ時系列について、複数の音声
認識候補を選出し、これら選出した各音声認識候補につ
いて、標準パターンと上記入力音声の特徴パラメータ時
系列とをそれぞれ照合して、生起の尤度と類似の尤度と
の和を総合尤度として、この尤度が最も高い音声認識候
補を認識結果とする音声認識方法において、汎用的なテ
キストデーターベースから作成された、生起順序に関す
る統計的言語モデルを、認識タスク(発声する音声の内
容)に類似した別のテキストデータを用いて適応化した
適応型統計的言語モデルを作成し、この適応型統計的言
語モデルを上記音声認識候補選出のための上記生起順序
に関する統計的言語モデルとして用いることを特徴とす
る音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3056992A JPH04291399A (ja) | 1991-03-20 | 1991-03-20 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3056992A JPH04291399A (ja) | 1991-03-20 | 1991-03-20 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04291399A true JPH04291399A (ja) | 1992-10-15 |
Family
ID=13042991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3056992A Pending JPH04291399A (ja) | 1991-03-20 | 1991-03-20 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04291399A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
JP2002510076A (ja) * | 1998-03-30 | 2002-04-02 | マイクロソフト コーポレイション | 言語モデルに基づく情報検索および音声認識 |
JP2006525552A (ja) * | 2003-04-30 | 2006-11-09 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 音声認識における統計的言語モデリング方法 |
-
1991
- 1991-03-20 JP JP3056992A patent/JPH04291399A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002510076A (ja) * | 1998-03-30 | 2002-04-02 | マイクロソフト コーポレイション | 言語モデルに基づく情報検索および音声認識 |
JP2009238235A (ja) * | 1998-03-30 | 2009-10-15 | Microsoft Corp | 言語モデルに基づく情報検索および音声認識 |
JP4664423B2 (ja) * | 1998-03-30 | 2011-04-06 | マイクロソフト コーポレーション | 適合性のある情報を検索する方法 |
JP2000099087A (ja) * | 1998-09-15 | 2000-04-07 | Koninkl Philips Electronics Nv | 言語音声モデルを適応させる方法及び音声認識システム |
JP2006525552A (ja) * | 2003-04-30 | 2006-11-09 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 音声認識における統計的言語モデリング方法 |
JP4740837B2 (ja) * | 2003-04-30 | 2011-08-03 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | 音声認識における統計的言語モデリング方法、システム及び記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
CN113744722B (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2886121B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JPH04291399A (ja) | 音声認識方法 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3240691B2 (ja) | 音声認識方法 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JPH10232693A (ja) | 音声認識装置 | |
JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
JP3277522B2 (ja) | 音声認識方法 | |
JP2979912B2 (ja) | 音声認識装置 | |
JPH06289894A (ja) | 日本語音声認識方法 | |
JPH10254480A (ja) | 音声認識方法 | |
JP3291073B2 (ja) | 音声認識方式 | |
JPH0612091A (ja) | 日本語音声認識方法 | |
JP3430265B2 (ja) | 日本語音声認識方法 | |
JP2004309654A (ja) | 音声認識装置 | |
JP2005534968A (ja) | 漢字語の読みの決定 |