JP2938865B1 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2938865B1
JP2938865B1 JP10241416A JP24141698A JP2938865B1 JP 2938865 B1 JP2938865 B1 JP 2938865B1 JP 10241416 A JP10241416 A JP 10241416A JP 24141698 A JP24141698 A JP 24141698A JP 2938865 B1 JP2938865 B1 JP 2938865B1
Authority
JP
Japan
Prior art keywords
word
tree
probability
word dictionary
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10241416A
Other languages
English (en)
Other versions
JP2000075885A (ja
Inventor
マイク・シュスター
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP10241416A priority Critical patent/JP2938865B1/ja
Application granted granted Critical
Publication of JP2938865B1 publication Critical patent/JP2938865B1/ja
Publication of JP2000075885A publication Critical patent/JP2000075885A/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

【要約】 【課題】 従来例に比較して高精度で近似した言語尤度
を用いてより高い認識率でかつ高速で音声認識すること
ができる音声認識装置を提供する。 【解決手段】 単語辞書初期化処理部10は、メモリ学
習用テキストデータに基づいて木構造単語辞書を生成し
て、木構造の各ノードに対して近似言語尤度である先読
み確率を計算して付与する。単語照合部6は、音素照合
部4から入力される単語仮説毎に、メモリ22内の木構
造単語辞書における単語の非終端状態に与える近似言語
尤度である先読み確率を、メモリ23内の統計的言語モ
デルのN−gramの確率データに基づいて計算するこ
とによりメモリ22内の木構造単語辞書を更新して、更
新された木構造単語辞書を用いて、入力される音声信号
を音声認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、木構造単語辞書を
用いて音声認識を行う音声認識装置に関する。
【0002】
【従来の技術】近年、連続音声認識装置において、その
性能を高めるために統計的言語モデルを用いる方法が研
究されている。これは、統計的言語モデルを用いて、次
単語を予測し探索空間を削減することにより、認識率の
向上および計算時間の削減の効果を狙ったものである。
最近盛んに用いられている統計的言語モデルとしてN−
gram(N−gram;ここで、Nは2以上の自然数
である。)がある。これは、大規模なテキストデータを
学習し、直前のN−1個の単語から次の単語への遷移確
率を統計的に与えるものである。複数L個の単語列w1 L
=w1,w2,…,wLの生成確率P(w1 L)は次式で表
される。
【0003】
【数1】
【0004】ここで、wtは単語列w1 Lのうちt番目の
1つの単語を表し、wi jはi番目からj番目の単語列を
表わす。上記数1において、確率P(wt
t+1-N t-1)は、N個の単語からなる単語列wt+1-N t-1
が発声された後に単語wtが発声される確率であり、以
下同様に、確率P(A|B)は単語又は単語列Bが発声
された後に単語Aが発声される確率を意味する。また、
数1における「Π」はt=1からLまでの確率P(wt
|wt+1-N t-1)の積を意味し、以下同様である。
【0005】ところで、近年、上記統計的言語モデルN
−gramを用いて連続音声認識の性能を向上させる手
法が盛んに提案されている(例えば、従来技術文献1
「L.R.Bahl et al.,“A Maxim
um LikelihoodApproach to
Continuous Speech Recogni
tion”,IEEE Transactions o
n PatternAnalysis and Mac
hine Intelligence,pp.179−
190,1983年」及び従来技術文献2「清水ほか,
“単語グラフを用いた自由発話音声認識”,電子情報通
信学会技術報告,SP95−88,pp.49−54,
平成7年」参照。)。
【0006】しかしながら、N−gramはパラメータ
数が多く、それぞれの値を正確に求めるためには、莫大
な量のテキストデータが必要とされる。この問題を解決
する方法として、学習用テキストデータに出現しない単
語遷移に対しても遷移確率を与える平滑化の手法(例え
ば、従来技術文献3「F.Jelinek et a
l.,“Interpolated estimati
on of Markov Source Param
eters from Sparse Data”,P
roceedings of Workshop Pa
ttern Recognition in Prac
tice,pp.381−387,1980年」、従来
技術文献4「S.M.Katz et al.,“Es
timation of Probabilities
from Sparse Data for the
Language model Component
of a Speech Recognizer”,
IEEE Transactions on Acou
stics,Speech,and SignalPr
ocessing,pp.400−401,1987
年」及び従来技術文献5「川端ほか,“二項事後分布に
基づくN−gram統計的言語モデルのBack−of
f平滑化”,電子情報通信学会技術報告、SP95−9
3,pp1−6,平成7年」参照。)や、クラス分類、
可変長N−gram等パラメータの数を減少させる手法
(例えば、従来技術文献6「P.F.Brown et
al.,“Class−Based n−gram
models of natural languag
e”,Computational Linguist
ics,Vol.18,No.4,pp.467−47
9,1992年」、従来技術文献7「T.R.Nies
ler et al.,“A Variable−Le
ngth Category−Based N−gra
m Language Model”,Proceed
ings of ICASSP ’96,Vol.1,
pp.164−167,1996年」及び従来技術文献
8「政瀧ほか,“連続音声認識のための可変長連鎖統計
統計的言語モデル”,電子情報通信学会技術報告,SP
95−73,pp.1−6,平成7年」参照。)等が数
多く提案されている。しかしながら、これらの手法を用
いても、精度の良い統計的言語モデルを構築するために
は、相当量のデータを用いる必要があると考えられる。
【0007】以上の問題点を解決するために、従来技術
文献9「Volker Steinbiss et a
l.,“Improvements in beam
search”, ICLSP 94, Yokoha
ma, Japan, pp.2143−2146」及
び従来技術文献10「Stefan Ortmanns
et al.,“A word graph alg
orithm forlarge vocabular
y continuous speechrecogn
ition”, Computer Speech &
Language, 1997, 11, pp.4
3−72」において、木構造単語辞書を用いた音声認識
方法(以下、従来例という。)が開示されている。この
従来例では、木構造辞書の非終端状態(非終端ノード)
に対する近似言語尤度として、当該ノードが属するすべ
ての単語のunigram確率のうち最大のものを用い
ている。ここで、単語のunigram確率とは、1つ
の単語の出現確率をいう。
【0008】この従来例において用いている統計的言語
モデルによるunigram先読み方法の処理について
説明する。木構造単語辞書内の各ノードのplookahead
を設定する手順は以下の通りである。 (1)木構造単語辞書内の各リーフノードに関して、次
式に示すように、このリーフノードで終了する単語のす
べてのunigram(Wleafnodeと表示される単語セ
ット)確率P(w)の最大値を計算して各リーフノード
における先読み確率plookahead(leafnode)に設定す
る。同音異義語及び複数の発音のため、1つのリーフノ
ードにおいて終了する単語が数個である可能性もある。
【0009】
【数2】plookahead(leafnode)=MAX{P(w)} ここで、w∈Wleafnode
【0010】(2)すべての非リーフノードにおける先
読み確率plookaheadに対して、そこからリーフノード
に枝分かれするすべての子ノードの先読み確率p
lookahead(child-node)の最大値を設定する。
【0011】
【数3】plookahead(non-leafnode)=MAX{p
lookahead(child-node)}
【0012】従来例のunigramの先読み方法は現
時点で展開された単語仮説に依存せず、従って、統計的
手順であって、通常は事前に1度だけ計算されるべきも
のであることに注意する。ここで、従来例の方法による
実施例を以下に示す。この実施例で用いられたunig
ramの統計的言語モデルの一例を次の表に示す。ま
た、上述の処理で得られた木構造単語辞書を図4に示
す。
【0013】
【表1】
【0014】
【発明が解決しようとする課題】しかしながら、従来例
で用いる近似言語尤度は単語のunigram確率に基
づいているために、近似の精度が低く、認識に要する計
算時間の短縮効果が十分でない。従って、計算コストが
高く、また、木構造単語辞書を記憶するメモリの容量が
比較的大きいという問題点があった。
【0015】本発明の目的は以上の問題点を解決し、従
来例に比較して高精度で近似した言語尤度を用いてより
高い認識率でかつ高速で音声認識することができる音声
認識装置を提供することにある。
【0016】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、学習用テキストデータに基づいて
木構造単語辞書を生成して、木構造の各ノードに対して
近似言語尤度である先読み確率を計算して付与し、上記
木構造単語辞書を用いて入力される音声信号を音声認識
する音声認識手段を備えた音声認識装置において、Nが
2以上の自然数である単語のN−gramの確率データ
を含む統計的言語モデルを記憶する記憶手段を備え、上
記音声認識手段は、生成される単語仮説毎に、上記木構
造単語辞書における単語の非終端状態に与える近似言語
尤度である先読み確率を、上記記憶手段に記憶された統
計的言語モデルのN−gramの確率データに基づいて
計算することにより上記木構造単語辞書を更新して、上
記更新された木構造単語辞書を用いて、入力される音声
信号を音声認識することを特徴とする。
【0017】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記音声認識手段
は、学習用テキストデータに基づいて木構造単語辞書を
生成する生成手段と、上記木構造単語辞書において各リ
ーフノードに対して、リーフノードで終了する単語のす
べてのunigramの最大確率を先読み確率として計
算して付与する第1の付与手段と、上記木構造単語辞書
においてすべてのリーフノードでないノードに対してそ
の先読み確率にリーフノードに対して分岐するすべての
子ノードの最大確率を設定して付与することにより上記
木構造単語辞書を別の記憶手段に記憶する第2の付与手
段と、生成される単語仮説毎に、単語仮説の各組に対し
て単語のunigramを除く上記記憶手段に記憶され
た統計的言語モデルにおいて存在するすべてのN−gr
amの入力データの最大のN−gram確率に拡張して
各リーフノードの先読み確率を計算して上記別の記憶手
段に記憶された木構造単語辞書に付与する第3の付与手
段と、上記木構造単語辞書においてリーフノードでない
すべてのノードに対してその先読み確率に、リーフノー
ドに対して分岐するすべての子ノードの最大確率を設定
して付与することにより、上記別の記憶手段に記憶され
た木構造単語辞書を更新する第4の付与手段と、上記更
新された木構造単語辞書と、上記記憶手段に記憶された
統計的言語モデルを用いて、入力された音声信号に対し
て最尤の単語仮説を探索決定して認識結果として出力す
る探索認識手段とを備えたことを特徴とする。
【0018】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0019】図1は、本発明に係る一実施形態である連
続音声認識装置のブロック図である。この実施形態の連
続音声認識装置においては、単語辞書初期化処理部10
は、メモリ学習用テキストデータに基づいて二分木形式
の木構造単語辞書を生成して、木構造の各ノードに対し
て近似言語尤度である先読み確率を計算して付与して木
構造単語辞書メモリ21,22に格納し、Nが2以上の
自然数である単語のN−gramの確率データを含む統
計的言語モデルを記憶する統計的言語モデルメモリ23
が備えられる。ここで、単語照合部6は、音素照合部4
から入力される単語仮説毎に、メモリ22内の木構造単
語辞書における単語の非終端状態に与える近似言語尤度
である先読み確率を、メモリ23内の統計的言語モデル
のN−gramの確率データに基づいて計算することに
より上記メモリ22内の木構造単語辞書を更新して、上
記更新された木構造単語辞書を用いて、入力される音声
信号を音声認識することを特徴としている。
【0020】ところで、音声認識装置における最も可能
性の高い仮説を探索(サーチ)する処理は、認識可能な
すべての単語を包含する単語辞書に基づいて行ってい
る。従来例の音声認識装置においては、通常、木構造単
語辞書(メモリ内に、認識可能な単語が単なる直線的リ
ストではなく木構造として表示されている。)が使用さ
れる。木構造単語辞書が使用される場合は、木構造単語
辞書を用いた探索時に統計的言語モデル確率をできるだ
け早く組み込むために、統計的言語モデルの先読み方法
と呼ばれる手順が使用される。使用頻度の高い手順の1
つはunigramの先読み方法であり、従来例で説明
したものである。一方、本実施形態では、この従来例の
方法を拡張して探索速度を約20%向上させることがで
きるオンデマンドのN−gram先読み方法を用いる。
【0021】まず、統計的言語モデルの先読み方法につ
いて説明する。統計的言語モデルによる先読み方法は、
木構造単語辞書を使用する多くの音声認識装置で使用さ
れている。探索中に木構造単語辞書に入った時点では、
単語の同一性はリーフノード(単語が終了するノードで
あり、単語の終端状態をいう。)に達するまで判らず、
従って木構造単語辞書内での正確な言語モデル確率も不
明である。良好な高速探索性能を得るためには、木構造
単語辞書を通過する間にできるだけ早く言語モデル確率
を組み込む必要がある。木構造辞書を使用する多くの音
声認識システムにおいては、木構造辞書内に言語モデル
確率の推定値を組み込むために、統計的言語モデルの先
読み方法と呼ばれる手順が使用される。統計的言語モデ
ルの先読み確率(plookahead)は、木構造辞書のあら
ゆるノードに帰属している。それらが既に設定済みであ
るものとすれば、それは探索中に以下のように使用され
る。
【0022】(a)ノードに入ると、現在の全体のスコ
アにplookahead(ノード)を加算する。 (b)ノードを離れると、現在の全体のスコアからp
lookahead(ノード)を減算する。
【0023】この方法は、統計的言語モデルの先読み方
法を何も使用しない場合よりも早く弱い言語モデル確率
を有するノードの枝刈り(プルーニング)を促進し、探
索の速度向上をもたらす。辞書における各ノードのp
lookaheadを設定するための方法について説明する。
【0024】本実施形態に係る単語辞書初期化処理部1
0は、学習用テキストメモリ2に記憶された複数の発声
音声文のテキストデータ(コーパス)と、統計的言語モ
デルメモリ23内の単語のunigram確率データと
に基づいて、二分木形式の木構造単語辞書を生成し、従
来例の方法を用いて各ノードに対して先読み確率plo
okaheadを計算して付与することにより、初期値の木構
造単語辞書を生成してメモリ21に記憶した後、メモリ
22にコピーする。そして、次の処理により、音素照合
部4からバッファメモリ5を介して単語照合部6に単語
仮説が入力される毎に(オンデマンド)、メモリ22内
の木構造単語辞書を更新して、メモリ22内の木構造単
語辞書とメモリ23内の統計的言語モデルとを用いて最
尤の単語仮説を探索決定して認識結果として出力する。
【0025】本実施形態に係るオンデマンドのN−gr
am先読み方法は新規の統計的言語モデルの先読み手順
であり、その処理点で展開された仮説の制約を組み込ん
でいる。これにより、従来例のunigramの先読み
方法の手順と比較して実際の言語モデル確率の推定値が
向上し、曳いては枝刈り精度の向上、それ故の高速探索
が導かれる。速度の増加分は約20%である。
【0026】次いで、オンデマンドのN−gram先読
み方法の処理は以下の通りである。 (1)探索開始前に上記のunigramの先読み方法
の手順によってすべてのノードの先読み確率p
lookaheadを初期化する。 (2)各単語セットに関して仮説Hiを計算し、統計的
言語モデルにおいて、unigramの初期化中に既に
設定されたunigramを除く、統計的言語モデルに
おいて存在するすべてのN−gramのデータ(Hi
w)のうちの最大N−gram確率P(w│Hi)に拡
張する。単語wに帰属する関連リーフノード(同音異義
語及び複数の発音のため数個になる可能性がある。)を
識別し、先読み確率plookaheadとして、次式に示すよ
うに、計算された確率及び設定済みのunigramの
先読み確率plookaheadのうちの最大値を設定する。
【0027】
【数4】 plookahead(leafnode)=MAX{P(w|Hi)} ∀Hi及び∀w∈{N−gramに存在する(Hi,w)}
【0028】(3)すべての非リーフノード(すなわ
ち、リーフノードでないノードであって、単語の非終端
状態をいう。)に関して、その先読み確率plookahead
を、次式のように、リーフノードに枝分かれするすべて
の子ノードの先読み確率plookah ead(child-node)の
最大値に設定する。
【0029】
【数5】plookahead(non-leafnode)=MAX{p
lookahead(child-node)}
【0030】この手順は、通常のunigramの先読
み方法の場合のように事前に実行することのできない新
規単語仮説セットが展開される毎に実行しなければなら
ない。この追加的な手順に関わらず、言語モデル確率が
正確であればあるほど枝刈りがより正確となり、全探索
の高速化が導かれる。
【0031】次いで、オンデマンドのN−gram先読
み方法の一例について説明する。ここで、展開すべき仮
説リストに依存して、すべてのN−gram確率が使用
されることに注意する。統計的言語モデルの一例を次の
表に示し、メモリ7内に記憶される展開すべき仮説リス
トの一例を次の表に示す。これらを用いて作成された木
構造単語辞書を図5に示す。なお、次の表における単語
1,w2,w3,w4,…は、例えば音素列で表現された
単語である。
【0032】
【表2】
【0033】
【表3】
【0034】展開すべき仮説リストメモリ7では、単語
照合部6の処理により出てきた単語仮説の履歴を一時的
に記憶する。図5に示すように、木構造単語辞書におい
ては、ルートノードRNからリーフノードLNに向かっ
て二分木形式で木が成長してゆき、各ノードで先読み確
率plookaheadが付与され、単語照合部6による処理に
より単語仮説が入力される毎に上記付与された各ノード
の先読み確率plookah eadが更新されて単語照合され
る。ここで、ルートノードRNからリーフノードLNに
向かう方向が子ノードに向かう方向である。
【0035】図2は、図1の単語辞書初期化処理部10
によって実行される単語辞書初期化処理を示すフローチ
ャートである。なお、統計的言語モデルメモリ23に
は、複数の発声音声文を含むコーパスである学習用テキ
ストデータに基づいて、trigram以上の単語のN
−gramの連接確率データが予め記憶される。
【0036】図2において、ステップS1において、メ
モリ20内の学習用テキストデータと、メモリ23内の
統計的言語モデルのうちのunigramの確率データ
とに基づいて二分木形式の木構造単語辞書を生成する。
次いで、ステップS2において木構造において各リーフ
ノードLNに対して、リーフノードLNで終了する単語
のすべてのunigramの最大確率を先読み確率p
lookahead(leafnode)として計算して付与する。さら
に、ステップS3においてすべてのリーフノードLFで
ないノードに対してその先読み確率plookahead(non-l
eafnode)にリーフノードに対して分岐するすべての子
ノードの最大確率を設定して付与する。最後に、ステッ
プS4において生成された確率付き木構造単語辞書をメ
モリ21に記憶するとともに、メモリ22にコピーして
記憶して、当該単語辞書初期化処理を終了する。
【0037】図3は、図1の単語照合部6によって実行
される単語照合処理を示すフローチャートである。図3
において、まず、ステップS11において単語仮説が入
力されたかが判断され、入力されるまで待機し、入力さ
れる毎に、次のステップS12乃至S14の処理が実行
される。次いで、ステップS12において単語仮説Hi
の各組に対して単語のunigramを含まない統計的
言語モデルにおいて存在するすべてのN−gramの入
力データ(Hi,w)の最大のN−gram確率p(w
│Hi)に拡張して各リーフノードの先読み確率p
lookahead(leafnode)を計算して付与する。さらに、
ステップS13においてリーフノードでないすべてのノ
ードに対してその先読み確率plookahead(non-leafnod
e)に、リーフノードに対して分岐するすべての子ノー
ドの最大確率を設定して付与して、メモリ22内の木構
造単語辞書を更新する。最後に、ステップS14で、更
新されたメモリ22内の木構造単語辞書と、メモリ23
内の統計的言語モデルを用いて最尤の単語仮説を探索決
定して認識結果として出力する。
【0038】次いで、図1に示す連続音声認識装置の構
成及び動作について説明する。図1において、音素照合
部4に接続された音素隠れマルコフモデル(以下、隠れ
マルコフモデルをHMMという。)メモリ11内の音素
HMMは、各状態を含んで表され、各状態はそれぞれ以
下の情報を有する。 (a)状態番号、(b)受理可能なコンテキストクラ
ス、(c)先行状態、及び後続状態のリスト、(d)出
力確率密度分布のパラメータ、及び(e)自己遷移確率
及び後続状態への遷移確率。なお、本実施形態において
用いる音素HMMは、各分布がどの話者に由来するかを
特定する必要があるため、所定の話者混合HMMを変換
して生成する。ここで、出力確率密度関数は34次元の
対角共分散行列をもつ混合ガウス分布である。
【0039】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
音素照合部4は、ワン−パス・ビタビ復号化法を用い
て、バッファメモリ3を介して入力される特徴パラメー
タのデータに基づいて、音素HMM11を用いて音素列
の単語仮説を検出し尤度を計算してバッファメモリ5を
介して単語照合部6に出力する。単語照合部6は、図3
の単語照合処理を実行して、メモリ22内の木構造単語
辞書を更新しかつメモリ23内の統計的言語モデルとメ
モリ7内の展開すべき仮説リストを参照して最尤の単語
仮説を探索決定して認識結果として出力する。
【0040】以上の実施形態において、特徴抽出部2
と、音素照合部4と、単語照合部6と、単語辞書初期化
処理部10とは、例えば、デジタル電子計算機などのコ
ンピュータで構成され、バッファメモリ3,5と、展開
すべき仮説リストメモリ7と、音素HMMメモリ11
と、学習用テキストデータメモリ20、木構造単語辞書
メモリ21,22と、統計的言語モデルメモリ23と
は、例えばハードデイスクメモリなどの記憶装置で構成
される。なお、メモリ23内の統計的言語モデルは、好
ましくは、Nが2以上の自然数であるN−gramの統
計的言語モデルであり、より好ましくは、trigra
mの統計的言語モデルである。
【0041】本発明に係る本実施形態によれば、上述の
オンデマンドのN−gram先読み方法を用いることに
より、従来例に比較してより小さな記憶領域で精度の高
い言語尤度の近似値計算ができ、従来例に比べて、高い
認識率で音声認識することができ、しかも、認識に要す
る計算時間を大幅に短縮させることができる。
【0042】以上の実施形態において、図2の単語辞書
初期化処理を、単語照合部6でも実行し、音素照合部4
からバッファメモリ5を介して単語照合部6に入力され
る毎に、オンデマンドで実行するように構成してもよ
い。
【0043】以上の実施形態においては、二分木形式の
木構造単語辞書を生成しているが,本発明はこれに限ら
ず、複数N分木形式の木構造単語辞書であってもよい。
【0044】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識装置によれば、学習用テキストデータ
に基づいて木構造単語辞書を生成して、木構造の各ノー
ドに対して近似言語尤度である先読み確率を計算して付
与し、上記木構造単語辞書を用いて入力される音声信号
を音声認識する音声認識手段を備えた音声認識装置にお
いて、Nが2以上の自然数である単語のN−gramの
確率データを含む統計的言語モデルを記憶する記憶手段
を備え、上記音声認識手段は、生成される単語仮説毎
に、上記木構造単語辞書における単語の非終端状態に与
える近似言語尤度である先読み確率を、上記記憶手段に
記憶された統計的言語モデルのN−gramの確率デー
タに基づいて計算することにより上記木構造単語辞書を
更新して、上記更新された木構造単語辞書を用いて、入
力される音声信号を音声認識する。従って、従来例に比
較してより小さな記憶領域で精度の高い言語尤度の近似
値計算ができ、従来例に比べて、高い認識率で音声認識
することができ、しかも、認識に要する計算時間を大幅
に短縮させることができる。
【0045】また、請求項2記載の音声認識装置によれ
ば、請求項1記載の音声認識装置において、上記音声認
識手段は、学習用テキストデータに基づいて木構造単語
辞書を生成する生成手段と、上記木構造単語辞書におい
て各リーフノードに対して、リーフノードで終了する単
語のすべてのunigramの最大確率を先読み確率と
して計算して付与する第1の付与手段と、上記木構造単
語辞書においてすべてのリーフノードでないノードに対
してその先読み確率にリーフノードに対して分岐するす
べての子ノードの最大確率を設定して付与することによ
り上記木構造単語辞書を別の記憶手段に記憶する第2の
付与手段と、生成される単語仮説毎に、単語仮説の各組
に対して単語のunigramを除く上記記憶手段に記
憶された統計的言語モデルにおいて存在するすべてのN
−gramの入力データの最大のN−gram確率に拡
張して各リーフノードの先読み確率を計算して上記別の
記憶手段に記憶された木構造単語辞書に付与する第3の
付与手段と、上記木構造単語辞書においてリーフノード
でないすべてのノードに対してその先読み確率に、リー
フノードに対して分岐するすべての子ノードの最大確率
を設定して付与することにより、上記別の記憶手段に記
憶された木構造単語辞書を更新する第4の付与手段と、
上記更新された木構造単語辞書と、上記記憶手段に記憶
された統計的言語モデルを用いて、入力された音声信号
に対して最尤の単語仮説を探索決定して認識結果として
出力する探索認識手段とを備える。従って、従来例に比
較してより小さな記憶領域で精度の高い言語尤度の近似
値計算ができ、従来例に比べて、高い認識率で音声認識
することができ、しかも、認識に要する計算時間を大幅
に短縮させることができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の単語辞書初期化処理部10によって実
行される単語辞書初期化処理を示すフローチャートであ
る。
【図3】 図1の単語照合部6によって実行される単語
照合処理を示すフローチャートである。
【図4】 従来例の木構造単語辞書の木構造構成の一例
を示す構造図である。
【図5】 本実施形態の木構造単語辞書の木構造構成の
一例を示す構造図である。
【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語照合部、 7…展開すべき仮説リストメモリ、 10…単語辞書初期化処理部、 11…音素HMMメモリ、 21,22…木構造単語辞書メモリ、 23…統計的言語モデルメモリ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平10−198395(JP,A) 特開 平9−34486(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 学習用テキストデータに基づいて木構造
    単語辞書を生成して、木構造の各ノードに対して近似言
    語尤度である先読み確率を計算して付与し、上記木構造
    単語辞書を用いて入力される音声信号を音声認識する音
    声認識手段を備えた音声認識装置において、 Nが2以上の自然数である単語のN−gramの確率デ
    ータを含む統計的言語モデルを記憶する記憶手段を備
    え、 上記音声認識手段は、生成される単語仮説毎に、上記木
    構造単語辞書における単語の非終端状態に与える近似言
    語尤度である先読み確率を、上記記憶手段に記憶された
    統計的言語モデルのN−gramの確率データに基づい
    て計算することにより上記木構造単語辞書を更新して、
    上記更新された木構造単語辞書を用いて、入力される音
    声信号を音声認識することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1記載の音声認識装置において、
    上記音声認識手段は、 学習用テキストデータに基づいて木構造単語辞書を生成
    する生成手段と、 上記木構造単語辞書において各リーフノードに対して、
    リーフノードで終了する単語のすべてのunigram
    の最大確率を先読み確率として計算して付与する第1の
    付与手段と、 上記木構造単語辞書においてすべてのリーフノードでな
    いノードに対してその先読み確率にリーフノードに対し
    て分岐するすべての子ノードの最大確率を設定して付与
    することにより上記木構造単語辞書を別の記憶手段に記
    憶する第2の付与手段と、 生成される単語仮説毎に、単語仮説の各組に対して単語
    のunigramを除く上記記憶手段に記憶された統計
    的言語モデルにおいて存在するすべてのN−gramの
    入力データの最大のN−gram確率に拡張して各リー
    フノードの先読み確率を計算して上記別の記憶手段に記
    憶された木構造単語辞書に付与する第3の付与手段と、 上記木構造単語辞書においてリーフノードでないすべて
    のノードに対してその先読み確率に、リーフノードに対
    して分岐するすべての子ノードの最大確率を設定して付
    与することにより、上記別の記憶手段に記憶された木構
    造単語辞書を更新する第4の付与手段と、 上記更新された木構造単語辞書と、上記記憶手段に記憶
    された統計的言語モデルを用いて、入力された音声信号
    に対して最尤の単語仮説を探索決定して認識結果として
    出力する探索認識手段とを備えたことを特徴とする音声
    認識装置。
JP10241416A 1998-08-27 1998-08-27 音声認識装置 Expired - Fee Related JP2938865B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10241416A JP2938865B1 (ja) 1998-08-27 1998-08-27 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10241416A JP2938865B1 (ja) 1998-08-27 1998-08-27 音声認識装置

Publications (2)

Publication Number Publication Date
JP2938865B1 true JP2938865B1 (ja) 1999-08-25
JP2000075885A JP2000075885A (ja) 2000-03-14

Family

ID=17073977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10241416A Expired - Fee Related JP2938865B1 (ja) 1998-08-27 1998-08-27 音声認識装置

Country Status (1)

Country Link
JP (1) JP2938865B1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4600705B2 (ja) * 2000-02-28 2010-12-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP4521631B2 (ja) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
WO2009139230A1 (ja) 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
WO2019079962A1 (en) 2017-10-24 2019-05-02 Beijing Didi Infinity Technology And Development Co., Ltd. VOICE RECOGNIZING SYSTEM AND METHOD HAVING DECOUPLING AWAKENING EXPRESSION

Also Published As

Publication number Publication date
JP2000075885A (ja) 2000-03-14

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
CN109410914B (zh) 一种赣方言语音和方言点识别方法
EP4018437B1 (en) Optimizing a keyword spotting system
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US5764851A (en) Fast speech recognition method for mandarin words
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2938865B1 (ja) 音声認識装置
JP3444108B2 (ja) 音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP2905674B2 (ja) 不特定話者連続音声認識方法
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2008242059A (ja) 音声認識辞書作成装置および音声認識装置
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP4689497B2 (ja) 音声認識装置
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3430265B2 (ja) 日本語音声認識方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees