JP2901850B2 - 統計的言語モデルを用いた音声認識方法 - Google Patents

統計的言語モデルを用いた音声認識方法

Info

Publication number
JP2901850B2
JP2901850B2 JP5247832A JP24783293A JP2901850B2 JP 2901850 B2 JP2901850 B2 JP 2901850B2 JP 5247832 A JP5247832 A JP 5247832A JP 24783293 A JP24783293 A JP 24783293A JP 2901850 B2 JP2901850 B2 JP 2901850B2
Authority
JP
Japan
Prior art keywords
word
speech recognition
words
independent
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5247832A
Other languages
English (en)
Other versions
JPH07104784A (ja
Inventor
亮輔 磯谷
昭一 松永
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP5247832A priority Critical patent/JP2901850B2/ja
Publication of JPH07104784A publication Critical patent/JPH07104784A/ja
Application granted granted Critical
Publication of JP2901850B2 publication Critical patent/JP2901850B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、統計的言語モデルを用
いた音声認識方法に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来か
ら、音声認識のための統計的言語情報として、単語間の
連接関係を利用することが研究されており、単語のbi
gram、trigramなどの連鎖統計モデルを用い
て音声認識することが有効であることが知られている。
【0003】例えば、単語のN−gram(Nは自然数
である。)を用いた音声認識方法(以下、第1の従来例
という。)が、「中川聖一著,“確率モデルによる音声
認識”の“第5章確率的文音声認識アルゴリズム”,電
子情報通信学会,pp.109−121,1988年7
月1日」において開示されており、この第1の従来例で
は、最大N=3までの音声認識方法について説明されて
いる。この単語N−gramモデルは統計的言語モデル
の代表的なものであり、構文規則によるものに比べ、モ
デルの構築、利用が容易であるという利点を有してい
る。しかしながら、Nの値は実用上3程度(trigr
am)であり、単語間の局所的な制約を捕らえることは
できるが、より大局的な単語間の構文的、意味的関係を
制約として表現することはできない。ここで、Nを大き
くすると推定すべきパラメータ数が多くなり、テキスト
データベースからパラメータを推定する際に推定精度が
悪くなり、また音声認識時の計算量及びメモリ量も増大
し、装置規模が大型になるという問題点があった。
【0004】また、上記第1の従来例の文献には、単語
のtrigramモデルの拡張として、英語の場合にお
いて直前の2つの句の自立語まで考慮するモデルも述べ
られている(同文献pp.119−120参照。)が、
当該モデルを日本語の場合に適用した場合に常に自立語
だけ考慮するのでは、構文的な関係は十分には捕らえら
れないという問題点があった。
【0005】さらに、日本語の文章における大局的な制
約を表現するために、自立語のN−gramと付属語の
N−gramとを用いて音声認識する方法(以下、第2
の従来例という。)が、「磯谷亮輔ほか,“自立語と付
属語の連鎖統計モデルを用いた音声認識のための候補選
択”,電子情報通信学会技術報告,SP93−33,p
p.73−78,1993年6月」に開示されている。
この第2の従来例においては、あらかじめ文節境界が既
知であることを前提にして、当該既知の文節境界におい
て付属語−自立語連鎖の局所的制約を併用することによ
り、従来の文節間文法を用いた方法に比較して音声認識
率を向上させることを認識実験によって確認している。
しかしながら、文節境界を予め調べる必要があるため
に、例えば、入力される音声スペクトルに関するベクト
ルのフレームに同期して処理するリアルタイム処理用ア
ルゴリズムである公知のOne Pass DP(Dyna
micProgramming)アルゴリズム(One−stage
DPアルゴリズムともいう;例えば、第1の従来例の文
献のpp.20−26参照。)などに適用することは難
しい。
【0006】本発明の第1の目的は以上の問題点を解決
し、局所的な関係のみならず大局的な関係を十分に捕ら
えて音声認識することができ、しかも文節境界が未知で
あっても音声認識することができる音声認識方法を提供
することにある。また、本発明の第2の目的は、さら
に、音声認識時のパラメータ数を大幅に減少させて、音
声認識装置の記憶容量を大幅に削減することができる音
声認識方法を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る請求項1記
載の統計的言語モデルを用いた音声認識方法は、入力さ
れる発声音声を音声信号に変換して出力するマイクロホ
ンと、上記マイクロホンから出力される音声信号から所
定の特徴パラメータを抽出して出力する特徴抽出手段
と、上記特徴抽出手段から出力される特徴パラメータに
基づいて、所定の統計的言語モデルを参照して、上記発
声音声に含まれる単語列を音声認識する音声認識手段と
を備えた音声認識装置を用いて音声認識するための音声
認識方法において、上記発声音声に含まれる単語列
1,w2,...,wi-1を自立語と付属語とに分類し、i
が2以上の自然数であるときの単語列w1,w2,...,
i-1が順次発声された後に単語wiが発声される確率P
(wi|w1,w2,...,wi-1)が、上記単語wiと、そ
の直前の少なくとも1個の単語と、上記単語列w1
2,...,wi-1内の最後の少なくとも1個の自立語と
最後の少なくとも1個の付属語とによって決定される統
計的言語モデルを参照して、入力された単語列を音声認
識することを特徴とする。
【0008】また、請求項2記載の統計的言語モデルを
用いた音声認識方法は、請求項1記載の統計的言語モデ
ルを用いた音声認識方法において、単語djは上記単語
iと同一の単語であって、単語dj-1は上記単語wi
同一の自立語又は付属語に属する1つの前の単語である
場合であって、上記単語wiとその1つ前の単語wi-1
の一方が自立語に属する単語であって、他方が付属語に
属する単語であるとき、上記確率P(wi|w1
2,...,wi-1)を次の数1で近似する一方、
【数3】 P(wi|w1,w2,...,wi-1)≒P(wi|wi-1)・P(dj|dj-1)/P(dj) 上記単語wiとその1つ前の単語wi-1とがいずれも自立
語に属する単語であるか、又はいずれも付属語に属する
単語であるとき、上記確率P(wi|w1,w2,...,w
i-1)を次の数2で近似する
【数4】 P(wi|w1,w2,...,wi-1)≒P(wi|wi-1) ことを特徴とする。
【0009】
【0010】
【0011】
【実施例】以下、図面を参照して本発明に係る実施例の
統計的言語モデルを用いた音声認識方法について説明す
る。本実施例の統計的言語モデルを用いた音声認識方法
は、単語のbigramによる局所的な単語連鎖統計
と、付属語のbigram及び自立語のbigramに
よる大局的な単語連鎖統計を統一的に扱う言語モデルを
参照して音声認識することを特徴とし、局所的関係と大
局的関係の独立性を仮定することにより、パラメータ数
を大幅に削減することができることを以下に示す。
【0012】まず、付属語のN−gramと、自立語の
N−gramとについて述べる。日本語では、たとえば
「〜から」の後には「〜まで」が比較的多く現れると
か、「〜が〜が」のような連鎖はあまり現れない、とい
った性質が見られる。これは、一種の大局的な構文制約
を表しているとみなせる。そこで、本実施例において
は、助詞などの付属語のみに注目してその連鎖を統計的
にモデル化する。同様に、文中の自立語のみに注目した
場合の連鎖統計も考えることができる。この場合、たと
えば「会議」で始まる文節のあとには「送る」という動
詞より「参加する」「発表する」といった語の方が多く
表れ、逆に「用紙」のあとには「送る」の方が多く表れ
るというような語と語の間の意味的な関係を統計的に表
現することができる。
【0013】次いで、単語のN−gramとの併用につ
いて説明する。一般に用いられているbigram、t
rigramなどの単語N−gramモデルは、慣用句
や、文節内の付属語の連鎖、あるいは名詞と助詞、助詞
と動詞の組み合わせなど、局所的な単語連鎖の制約を表
現することができる。この局所的な制約に、付属語N−
gram、自立語N−gramによる大局的な制約を組
み合わせる。簡単のため、局所的制約、大局的制約と
も、1つ前の単語だけを考慮した統計的言語モデルを考
えることにする。
【0014】音声認識装置に入力された文Sが、順次入
力される複数の単語にてなる単語列w1,w2,...,wn
からなるとする。ここで、部分単語列w1,w2,...,
i(自然数i≧1。)を部分単語列w1 iと表すと、上
記文Sの生起確率P(S)は、次の数5と数6で表され
る。
【0015】
【数5】P(S)=P(w1,w2,...,wn
【数6】
【0016】上記数6における確率P(wi|w1 i-1)
は、単語列w1 i-1が発声された後に単語wiが発声され
る確率であり、以下、同様に、確率P(A|B)は単語
又は単語列Bが発声された後に単語Aが発声される確率
を意味する。また、上記数6における「Π」はi=1か
らnまでの確率P(wi|w1 i-1)の積を意味する。
【0017】一般に、生起確率P(wi|w1 i-1)の値
をあらゆる部分単語列について個別に求めるのは不可能
なので、例えば単語のbigramモデルでは、次の数
7のように近似する。
【数7】P(wi|w1 i-1)≒P(wi|wi-1
【0018】さらに、大局的制約を考慮するため、部分
単語列w1 i-1内の最後の自立語cj-1と、最後の付属語
k-1とを用いて、上記数7を次の数8のように拡張す
る。ここで、自然数j≧2であり、自然数k≧2であ
る。
【数8】 P(wi|w1 i-1)≒P(wi|wi-1,cj-1,pk-1) 上記数8の右辺の確率P(wi|wi-1,cj-1,pk-1
は、単語wi-1と、自立語cj-1と、付属語pk-1とが発
声された後に、単語wiが発声される生起確率であり、
以下、同様に示す。
【0019】また、上記入力された単語列のすべての単
語を、自立語と付属語のいずれかに分類するとすれば、
単語wi-1は自立語cj-1か付属語pk-1のいずれかと同
じなので、次の数9を得る。
【数9】P(wi|wi-1,cj-1,pk-1) =P(wi|wi-1,pk-1),wi-1が自立語のとき =P(wi|wi-1,cj-1),wi-1が付属語のとき
【0020】上記数9に基づく言語モデルは、単語のN
−gramと同様に、マルコフモデルの1種であって、
One Pass DPアルゴリズムなどによる認識処
理に容易に組み込むことができる。以下、上記数9によ
る統計的言語モデルを「併用モデルI」と呼ぶ。
【0021】次いで、音声認識処理におけるパラメータ
数の削減のため、以下の2つの条件のもとで近似を行な
う。 (1)単語wiと単語wi-1の間の相互情報量は、単語w
i-1が自立語のときは付属語pk-1に依存せず、単語w
i-1が付属語のときは自立語cj-1に依存しない。 (2)隣接しない自立語と付属語の出現確率は独立であ
る。 これらの仮定により、上記数9はさらに次の数10のよ
うに書き換えられる。
【0022】
【数10】P(wi|wi-1,cj-1,pk-1) ≒PL(wi|wi-1)・PG(pk|pk-1)/P
G(pk),wi-1が自立語でありかつwiが付属語(=p
k)のとき ≒PL(wi|wi-1)・PG(cj|cj-1)/P
G(cj),wi-1が付属語でありかつwiが自立語(=c
j)のとき ≒PL(wi|wi-1),それ以外のとき
【0023】ここで、PLは局所的な単語連鎖の確率を
表し、PGは付属語又は自立語の連鎖の確率を表す。以
下、上記数10を用いた統計的言語モデルを「併用モデ
ルII」と呼ぶ。ここで、上記数10は、単語列の生起確
率が局所的bigramと大局的bigramの確率の
積で近似できることを示している。パラメータの推定
は、局所的bigramと大局的bigramのそれぞ
れについて行なえばよいことになり、推定すべきパラメ
ータ数は大幅に削減される。従って、総語彙数Nall
うち、自立語の数をNcとし付属語の数をNPとする(こ
こで、Nall=Nc+NPである。)と、各モデルのパラ
メータ数は表1のようになる。
【0024】
【表1】 各モデルのパラメータ数の比較 ──────────────────────────── モデル パラメータ数 ──────────────────────────── 単語bigram N2 all 単語trigram N3 all 併用モデルI 2Ncpall 併用モデルII N2 all+N2 c+N2 p ────────────────────────────
【0025】以下、本実施例の音声認識方法を用いる音
声認識装置を示す図1を参照して、本実施例の統計的言
語モデルを用いた音声認識装置の構成及び動作について
説明する。
【0026】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
One passDP音声認識部(以下、音声認識部と
いう。)3に入力される。音声認識部3に接続される隠
れマルコフモデルメモリ11内の隠れマルコフモデル
(以下、HMMという。)は、複数の状態と、各状態間
の遷移を示す弧から構成され、各弧には状態間の遷移確
率と入力コードに対する出力確率を有している。
【0027】上述した「併用モデルI」又は「併用モデ
ルII」である統計的言語モデルのデータを予め格納する
統計的言語モデルメモリ12は音声認識部3に接続され
る。音声認識部3は、メモリ11内のHMMと統計的言
語モデルメモリ12内の統計的言語モデルを参照して、
入力された特徴パラメータデータについて左から右方向
に、後戻りなしに処理してより高い生起確率の単語列を
音声認識結果データと決定することにより音声認識の処
理を実行して、決定された音声認識結果データ(単語列
データ)を出力する。
【0028】本発明者は、以上説明した本実施例の音声
認識装置を用いてパープレキシティによる評価を行うた
めにシミュレーションを行った。当該シミュレーション
においては、言語モデル学習用テキストデータとして、
本出願人の国際会議に関する対話のテキストデータベー
スを用いた。「えーと」などの語や言い淀みなどの不要
語はあらかじめ除いた。当該テキストデータベースの総
文数は約9,500であり、総単語数は約115,00
0である。助詞、助動詞、及び補助動詞を、付属語とし
て扱い、それ以外を自立語として扱った。ここで、語彙
数は自立語4749語であり、付属語338語であっ
て、合計5087語である。単語連鎖の出現確率の計算
では、文頭及び文末も仮想的な単語として扱った。ま
た、評価用のテキストとしては、学習に用いたのとは別
の国際会議申し込みに関する会話262文(総単語数1
824)を用いた。
【0029】まず、上記学習用テキストデータを用い
て、単語のbigram、単語のtrigram、上記
併用モデルI、上記併用モデルIIの4つのモデルについ
て、言語モデルのパラメータを推定した。そして、推定
精度向上のために、それぞれ削減補間法によりスムージ
ングを行なった。たとえば単語のbigramの場合
は、単語のunigram及び単語のzerogram
の確率値を用いて補間した。そして、上記4つのモデル
について、表1により計算したパラメータ数の比(単語
のbigramを1とする)及び評価用データに対する
パープレキシティの値を求めた。その結果を表2に示
す。
【0030】
【表2】 各モデルのパラメータ数比とパープレキシティ ──────────────────────────── モデル パラメータ数比 パープレキシティ ──────────────────────────── 単語bigram 1.0 52.1 単語trigram 5.1×103 47.6 併用モデルI 6.3×102 48.3 併用モデルII 1.9 49.3 ────────────────────────────
【0031】上記併用モデルIIについては、近似のため
次の数11は必ずしも成立しない。
【0032】
【数11】 ここで、上記数11における「Σ」は、単語wiに関す
る確率P(wi|wi-1,cj-1,pk-1)の和である。
【0033】従って、上記併用モデルIIについては、上
記数10をそのまま用いると正しいパープレキシティが
得られないので、上記数10で求まる値を次の数12で
表される値で正規化して計算した。
【0034】
【数12】
【0035】上記の結果から明らかなように、上記併用
モデルIでは、単語のtrigramより1桁少ないパ
ラメータ数でほぼ同等のパープレキシティが得られた。
また、上記併用モデルIIでは、パープレキシティを大
きく劣化させることなくパラメータ数がさらに大幅に削
減されて単語のbigramの2倍程度に抑えられてお
り、効率的なモデル化が行なわれていることがわかる。
また、音声認識率の性能向上のためには、併用モデルで
局所的制約又は大局的制約に単語のtrigramを用
いるよう拡張することも可能である。
【0036】以上説明したように、従来の単語bigr
amによる局所的な単語連鎖の制約と、自立語あるいは
付属語のみに注目した大局的な単語連鎖の制約を併用す
る統計的言語モデルを用いる音声認識方法を発明した。
さらに、局所的制約と大局的制約の独立性を仮定するこ
とによりパラメータ数の増加を抑えられることを示し
た。さらに、局所的制約及び大局的制約にそれぞれ単語
のbigramを用いた併用モデルを、単語のtrig
ramと比較した結果、パープレキシティを大きく劣化
させることなくパラメータ数が大幅に削減され、効率的
にモデル化できることを確認した。
【0037】従って、本発明に係る本実施例の効果を要
約すると、以下の通りである。 (1)局所的な制約だけでなく、大局的な構文的、意味
的制約も効率的に表現でき、音声認識率を向上させるこ
とができる。 (2)あらかじめ文節の境界がわからなくてもよく、上
記統計的言語モデルはマルコフモデルであるので、On
e Pass DPアルゴリズムなどに容易に組み込む
ことができる。 (3)上述の近似を行うことにより、推定すべきパラメ
ータ数が大幅に削減でき、パラメータ推定の信頼性が向
上し、音声認識時のメモリ量を大幅に削減することがで
きる。
【0038】以上の実施例においては、単語のカテゴリ
は自立語と付属語であるが、本発明はこれに限らず、助
詞と、それ以外の品詞とに区別したカテゴリを用いても
よい。
【0039】以上の「併用モデルI」と「併用モデルI
I」を用いた実施例においては、単語列w1,w2,...,
i-1が順次発声された後に単語wiが発声される確率P
(wi|w1,w2,...,wi-1)が、上記単語wiとその
直前の単語wi-1と、上記単語列w1,w2,...,wi-1
内の単語のカテゴリ毎の直前の単語とによって決定され
る統計的言語モデルを参照して、入力された単語列を音
声認識しているが、本発明はこれに限らず、上記確率P
(wi|w1,w2,...,wi-1)が、上記単語wiとその
直前の予め決められた自然数(N−1)個の単語と、上
記単語列w1,w2,...,wi-1内の単語のカテゴリ毎の
直前の予め決められた自然数(M−1)個ずつの単語と
によって決定される統計的言語モデルを参照して、入力
された単語列を音声認識するように構成してもよい。こ
こで、M及びNはそれぞれ、2以上の自然数である。そ
して、上記実施例において示すように、好ましくは、N
=M=2である。
【0040】
【発明の効果】以上詳述したように本発明によれば、入
力される発声音声を音声信号に変換して出力するマイク
ロホンと、上記マイクロホンから出力される音声信号か
ら所定の特徴パラメータを抽出して出力する特徴抽出手
段と、上記特徴抽出手段から出力される特徴パラメータ
に基づいて、所定の統計的言語モデルを参照して、上記
発声音声に含まれる単語列を音声認識する音声認識手段
とを備えた音声認識装置を用いて音声認識するための音
声認識方法において、上記発声音声に含まれる単語列w
1,w2,...,wi-1を自立語と付属語とに分類し、iが
2以上の自然数であるときの単語列w1,w2,...,w
i-1が順次発声された後に単語wiが発声される確率P
(wi|w1,w2,...,wi-1)が、上記単語wiと、そ
の直前の少なくとも1個の単語と、上記単語列w1
2,...,wi-1内の最後の少なくとも1個の自立語と
最後の少なくとも1個の付属語とによって決定される統
計的言語モデルを参照して、入力された単語列を音声認
識する。従って、本発明は、以下の特有の効果を有す
る。(1)局所的な制約だけでなく、大局的な構文的、
意味的制約も効率的に表現でき、音声認識率を向上させ
ることができる。(2)あらかじめ文節の境界がわから
なくてもよく、上記統計的言語モデルはマルコフモデル
であるので、One Pass DPアルゴリズムなど
に容易に組み込むことができる。
【0041】さらに、上記単語wiとその1つ前の単語
i-1との一方が自立語に属する単語であって、他方が
付属語に属する単語であるとき、上記確率P(wi
1,w2,...,wi-1)を上記数3で近似する一方、上
記単語wiとその1つ前の単語wi-1とがいずれも自立語
に属する単語であるか、又はいずれも付属語に属する単
語であるとき、上記確率P(wi|w1,w2,...,
i-1)を上記数4で近似することにより、推定すべき
パラメータ数が大幅に削減でき、パラメータ推定の信頼
性が向上し、音声認識時のメモリ量を大幅に削減するこ
とができるという利点がある。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である統計的言語モデ
ルを用いた音声認識装置のブロック図である。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…One pass DP音声認識部、 11…隠れマルコフモデル(HMM)メモリ、 12…統計的言語モデルメモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 嵯峨山 茂樹 東京都保谷市中町5丁目5番10号 (56)参考文献 特開 平5−165490(JP,A) 特開 平5−314319(JP,A) 磯谷ら、”自立語と付属語の連鎖統計 モデルを用いた音声認識のための候補選 択”、電子情報通信学会技術研究報告S P93−33,pp73−78 中川、”確率モデルによる音声認識" 第5章”確率的文音声認識アルゴリズ ム”、電子情報通信学会、昭和63年7月 1日発行 山田ら、”文字・品詞の連鎖確率を用 いた統計的言語モデル”、電子情報通信 学会技術報告SP92−119,pp31−36 (58)調査した分野(Int.Cl.6,DB名) G10L 3/0 - 9/18 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される発声音声を音声信号に変換し
    て出力するマイクロホンと、 上記マイクロホンから出力される音声信号から所定の特
    徴パラメータを抽出して出力する特徴抽出手段と、 上記特徴抽出手段から出力される特徴パラメータに基づ
    いて、所定の統計的言語モデルを参照して、上記発声音
    声に含まれる単語列を音声認識する音声認識手段とを備
    えた音声認識装置を用いて音声認識するための音声認識
    方法において、上記発声音声に含まれる単語列w1
    2,...,wi-1を自立語と付属語とに分類し、 iが2以上の自然数であるときの単語列w1
    2,...,wi-1が順次発声された後に単語wiが発声さ
    れる確率P(wi|w1,w2,...,wi-1)が、上記単
    語wiと、その直前の少なくとも1個の単語と、上記単
    語列w1,w2,...,wi-1内の最後の少なくとも1個の
    自立語と最後の少なくとも1個の付属語とによって決定
    される統計的言語モデルを参照して、入力された単語列
    を音声認識することを特徴とする統計的言語モデルを用
    いた音声認識方法。
  2. 【請求項2】 単語djは上記単語wiと同一の単語であ
    って、単語dj-1は上記単語wiと同一の自立語又は付属
    語に属する1つの前の単語である場合であって、 上記単語wiとその1つ前の単語wi-1との一方が自立語
    に属する単語であって、他方が付属語に属する単語であ
    るとき、上記確率P(wi|w1,w2,...,wi-1)を
    次の数1で近似する一方、 【数1】 P(wi|w1,w2,...,wi-1)≒P(wi|wi-1)・P(dj|dj-1)/P(dj) 上記単語wiとその1つ前の単語wi-1とがいずれも自立
    語に属する単語であるか、又はいずれも付属語に属する
    単語であるとき、上記確率P(wi|w1,w2,...,w
    i-1)を次の数2で近似する 【数2】 P(wi|w1,w2,...,wi-1)≒P(wi|wi-1) ことを特徴とする請求項1記載の統計的言語モデルを用
    いた音声認識方法。
JP5247832A 1993-10-04 1993-10-04 統計的言語モデルを用いた音声認識方法 Expired - Lifetime JP2901850B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5247832A JP2901850B2 (ja) 1993-10-04 1993-10-04 統計的言語モデルを用いた音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5247832A JP2901850B2 (ja) 1993-10-04 1993-10-04 統計的言語モデルを用いた音声認識方法

Publications (2)

Publication Number Publication Date
JPH07104784A JPH07104784A (ja) 1995-04-21
JP2901850B2 true JP2901850B2 (ja) 1999-06-07

Family

ID=17169344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5247832A Expired - Lifetime JP2901850B2 (ja) 1993-10-04 1993-10-04 統計的言語モデルを用いた音声認識方法

Country Status (1)

Country Link
JP (1) JP2901850B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319989A (ja) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデル及びその作成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中川、"確率モデルによる音声認識"第5章"確率的文音声認識アルゴリズム"、電子情報通信学会、昭和63年7月1日発行
山田ら、"文字・品詞の連鎖確率を用いた統計的言語モデル"、電子情報通信学会技術報告SP92−119,pp31−36
磯谷ら、"自立語と付属語の連鎖統計モデルを用いた音声認識のための候補選択"、電子情報通信学会技術研究報告SP93−33,pp73−78

Also Published As

Publication number Publication date
JPH07104784A (ja) 1995-04-21

Similar Documents

Publication Publication Date Title
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6983247B2 (en) Augmented-word language model
US7542901B2 (en) Methods and apparatus for generating dialog state conditioned language models
US7890325B2 (en) Subword unit posterior probability for measuring confidence
Jelinek et al. 25 Continuous speech recognition: Statistical methods
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
JP3535292B2 (ja) 音声認識システム
Kadambe et al. Language identification with phonological and lexical models
Rose et al. Integration of utterance verification with statistical language modeling and spoken language understanding
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP2901850B2 (ja) 統計的言語モデルを用いた音声認識方法
JP3059413B2 (ja) 自然言語理解装置及び自然言語理解システム
Kim et al. A keyword spotting approach based on pseudo N-gram language model
Smaïli et al. An hybrid language model for a continuous dictation prototype.
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
JP2965529B2 (ja) 音声認識装置
KITA et al. Spoken sentence recognition based on HMM-LR with hybrid language modeling
Yang et al. A syllable-based Chinese spoken dialogue system for telephone directory services primarily trained with a corpus
JP2975540B2 (ja) 自由発話音声認識装置
JP2731133B2 (ja) 連続音声認識装置
JP2738508B2 (ja) 統計的言語モデル作成装置及び音声認識装置
JP2001013992A (ja) 音声理解装置