JP2000259175A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000259175A
JP2000259175A JP11060418A JP6041899A JP2000259175A JP 2000259175 A JP2000259175 A JP 2000259175A JP 11060418 A JP11060418 A JP 11060418A JP 6041899 A JP6041899 A JP 6041899A JP 2000259175 A JP2000259175 A JP 2000259175A
Authority
JP
Japan
Prior art keywords
word
language model
hierarchy
class
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP11060418A
Other languages
English (en)
Inventor
Yuzo Maruta
裕三 丸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11060418A priority Critical patent/JP2000259175A/ja
Publication of JP2000259175A publication Critical patent/JP2000259175A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 コーパスの量が十分でない場合でも、異常な
単語連鎖についてはバイグラム確率として0ないしきわ
めて小さい値を与える言語モデルをもった音声認識装置
を提供する。 【解決手段】 階層構造の統計的言語モデルをもち、先
行単語によって、言語バイグラムを計算するための最適
な階層を決定する言語モデル階層決定手段12、および
連鎖単語のバイグラム確率を最適な階層のクラスの出現
頻度を考慮することによって、奇異な単語連鎖の言語尤
度についてきわめて小さい値を与える言語尤度計算手段
13を備え、異常な単語連鎖についてはバイグラム確率
として0ないし0に近い小さい値を与えることを可能と
して、認識性能・認識処理速度を向上させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識装置に
関し、特に、統計的言語モデルを用いた音声認識装置に
関するものである。
【0002】
【従来の技術】図15は「新聞記事を用いた大語彙連続
音声認識の検討」(電子情報通信学会技術研究報告,V
ol.95,No.430,pp63〜pp68,19
95年12月14日)に開示された、統計的言語モデル
を用いた従来の音声認識装置の概略構成を示すブロック
図である。図において、1は音声取得手段、2は音響分
析手段、3はHMM(隠れマルコフモデル)音韻モデル
記憶手段、4は単語辞書記憶手段、5は音響尤度計算手
段、6は言語モデル記憶手段、 7は言語尤度計算手
段、8は認識結果出力手段、9はコーパスである。
【0003】次に動作について説明する。ここで、図1
2は単語辞書の具体例を示す説明図、図13は単語のH
MMの構造の一例を示す説明図であり、図14は時刻が
進むにつれて認識仮説が展開される状況を示す説明図で
ある。また、図16は図15に示した従来の音声認識装
置の動作の概略を示したフローチャートである。
【0004】図16のフローチャートに示した動作を開
始するに先立って、まず、HMM音韻モデル記憶手段3
が外部記憶装置(図示省略)からHMM音韻モデルのデ
ータを読み込んで記憶する。単語辞書記憶手段4も同様
に、上記外部記憶装置から単語辞書を読み込んで記憶す
る。この単語辞書は図12に示すように、各単語につい
てそれぞれ漢字表記、ひらがな表記、音素表記のデータ
をもっている。
【0005】さらに単語辞書記憶手段4は、各単語の音
素表記からその単語のHMM音響モデルを生成する。図
13はHMM音響モデルの構成例を示したものであり、
図示のように単語はそれぞれ各音素に分解され、各音素
ごとに対応するHMM音韻モデルを当てはめて、それら
を連結することにより、各単語のHMM音響モデルを構
成する。
【0006】次に音声取得手段1は、図16のステップ
ST1において、入力された音声をA/D変換し、デジ
タルデータ化された音声データを記憶する。次に制御手
段(図示省略)は、ステップST2において時刻tを初
期値としてt=0に設定する。次に音声取得手段1は、
ステップST3においてその時刻tの音声データを取り
込み、音響分析手段2はステップST4において、取り
込まれた音声データを音響分析して音響特徴ベクトルを
計算する。次に、音響尤度計算手段5はステップST5
において、音響特徴ベクトル、単語辞書、およびHMM
音韻モデルデータから、各認識仮説の対数音響尤度を計
算して認識仮説を展開する。
【0007】図14は各時刻における認識仮説の展開の
様子を示しており、ここでは、簡略化のために各音素の
HMM状態数は1としている。図において、それぞれの
四角が認識仮説であり、各認識仮説は認識している単語
と現在の音素、対数音響尤度、対数言語尤度、対数総合
尤度を情報として持っている。例えば、認識仮説の認識
単語を「記事」とすると、フレーム(時刻)が進行する
につれて、HMM音響モデルが自己ループして音素が進
行しない認識仮説と、HMM音響モデルが進行して音素
が進行する認識仮説に展開され、認識仮説の数が増えて
ゆくことになる。特に「記事」の終端の音素/i/が終
了すると(図14の太枠の認識仮説)次の認識単語に遷
移するが、「記事」の次には「銀」、「議員」、「議
会」、…とさまざまな単語が遷移し得るため、そのおの
おのに対して独立に認識仮説を割り当てる。
【0008】次に、言語尤度計算手段7はステップST
6において、単語遷移を行った直後の認識仮説につい
て、言語モデル記憶手段6に記憶されている統計的言語
モデルをもとに言語尤度を計算し、その対数値である対
数言語尤度に、重みを付けを行った対数音響尤度を加算
することによって対数総合尤度を計算する。なお、この
言語尤度の詳細については後に説明する。
【0009】次に、図示を省略した制御手段はステップ
ST7において、音声入力が終了したか否かを検出し、
終了していない場合にはステップST8において、時刻
tをt+1にインクリメントして処理をステップST3
に戻し、上記ステップST3からステップST6までの
処理を音声入力が終了するまで繰り返す。ステップST
7にて音声入力の終了が検出されると、認識結果出力手
段8はステップST9において、発声の全区間において
計算が終わった認識仮説について、その対数総合尤度の
大きい順に、認識結果として認識候補(単語列)を出力
する。
【0010】ここで、その言語尤度の計算の詳細につい
て説明する。言語尤度は統計的言語モデルが用いられる
ことが多く、特にNグラムモデルを用いる場合が多い。
Nグラムモデルでは、単語列W=w12 …wn の言語
尤度P(w12 …wn )として、条件付き確率を用い
て、以下に示した式(1)を与える。
【0011】
【数1】
【0012】なお、上記式(1)でN=2のときバイグ
ラム、N=3のときトライグラムという。式(1)にお
いて、w0 やwn+1などには文頭・文末を示す特別な記
号を割り当てることが多い。以下では簡略化のため、N
=2のバイグラムモデルを説明のために用いるが、N>
2の場合でも同様である。なお、バイグラムモデルの場
合、言語尤度は次の式(2)のようになる。
【0013】
【数2】
【0014】ところで、これらの条件付き確率は、一般
にコーパスと呼ばれる大量の文書から計算される。しか
しながら、文字の組み合わせは一般に膨大になるため、
コーパス9で統計上十分である場合は少ない。通常、こ
のことをコーパス9のスパース性という。このような場
合、以下に示す式(3)のようにスムージングをする場
合が多い。
【0015】 P(w|x)=(1−α)・N(x,w)/N(x) (N(x,w)>0の場合) P(w|x)=α・P(w) (N(x,w)=0の場合) ・・・・ (3)
【0016】ここで、上記式(3)において、N(x,
w)はコーパス9内に存在する単語x−wの連鎖の数、
N(x)はコーパス9内に存在する単語xの数、P
(w)は単語wのユニグラム確率、αはスムージングの
ための係数である。なお、αはコーパス9が統計上十分
になるにしたがってα→0に収束する。
【0017】また、コーパス9のスパース性を回避する
ために、品詞バイグラムなどの言語モデルを用いる場合
がある。この場合、単語x,wはそれぞれの品詞C,D
に属するものとすると、次の式(4)が与えられる。た
だし、この式(4)中、単語cは品詞Cに属する単語に
ついて、単語dは品詞Dに属する単語について、そのす
べてをとる。
【0018】 P(w|x)=P(C|x)・P(D|C)・P(w|D) P(D|C)=N(d,c)/N(c) P(w|D)=N(w)/N(d) P(C|x)=1 ・・・・・ (4)
【0019】なお、このような従来の音声認識装置に関
連のある記載がなされている文献としては、この他に
も、例えば、特開平8−254990号公報、特開平9
7535号公報、特開平8−329080号公報などが
ある。
【0020】
【発明が解決しようとする課題】「電子情報通信学会技
術研究報告」に開示された、統計的言語モデルを用いた
従来の音声認識装置は以上のように構成されているの
で、特にコーパス9の量が十分でない場合にはαが無視
できなくなり、結果として、人間が奇異に感じる単語連
鎖でも、バイグラムの確率値は0でない値をとってしま
うことがある。例えば、国会−銀という単語対は、通常
のコーパス9には存在せず、かつ一般には考えにくいの
で、P(“銀”|“国会”)=0であるのが妥当である
が、式(3)に従うと、次の式(5)に示すものとなっ
て、「国会銀」という認識仮説にも言語尤度としてある
値が与えられてしまうため、「国会議員」と発声した場
合でも、発声の曖昧さによっては「国会銀」と誤認識し
てしまう場合があるという課題があった。
【0021】 P(“銀”|“国会”)=α・P(“銀”)>0 ・・・・ (5)
【0022】一方、品詞バイグラムを用いた場合でも、
「銀」、「国会」はともに名詞なので、P(“銀”|
“国会”)は次の式(6)に示すようになり、同様に言
語モデルで小さい言語尤度を与えるのは困難になるとい
う課題があった。
【0023】 P(“銀”|“国会”)=P(“名詞”|“国会”)・P(“名詞”|“名詞 ”)・P(“銀”|“名詞”)>0 ・・・・・ (6)
【0024】この発明は上記のような課題を解決するた
めになされたもので、コーパスの量が十分でない場合で
も、異常な単語連鎖については、バイグラムの確率値と
して0ないしは0に近い小さな値を与える言語モデルを
用いた音声認識装置を得ることを目的とする。
【0025】
【課題を解決するための手段】この発明に係る音声認識
装置は、入力音声をデジタルデータ化した音声データを
所定時刻ごとに音響分析して音響特徴ベクトルを生成
し、この音響特徴ベクトルと、音韻モデル記憶手段の記
憶する音韻モデルおよび単語辞書の記憶する単語辞書と
から認識仮説の音響尤度を計算し、また、言語モデル記
憶手段の記憶する統計的言語モデルを参照して、言語モ
デル階層決定手段の決定した言語モデルの階層から認識
仮説の言語尤度を計算し、それら認識仮説の音響尤度と
言語尤度に基づいて最終的な認識候補を出力するととも
に、その統計的言語モデルに階層構造をもたせ、音声認
識の処理状況に応じて適切な階層の言語モデルを使用す
るようにしたものである。
【0026】この発明に係る音声認識装置は、各先行単
語によって最適な階層の言語モデルを使用するようにし
たものである。
【0027】この発明に係る音声認識装置は、先行単語
と、後続単語が属している適切な階層のクラスにおける
単語−クラス連鎖のコーパスの出現頻度が0である場合
には、その単語バイグラムの確率値を0またはきわめて
小さい正値とするようにしたものである。
【0028】この発明に係る音声認識装置は、先行単語
と、後続単語が属している適切な階層のクラスにおける
単語−クラス連鎖のコーパスの出現頻度が0より大き
く、かつ、コーパス内の単語バイグラムの出現頻度が0
の場合には、その単語バイグラムの確率値を0より大き
い値に設定するようにしたものである。
【0029】この発明に係る音声認識装置は、統計的言
語モデルにおける先行単語に使用する最適な階層とし
て、所属するクラスの単語バイグラムの出現頻度が0で
ない後続単語の数の変化率が最大になる直前の階層を選
択するようにしたものである。
【0030】この発明に係る音声認識装置は、コーパス
以外の外部知識を用いて階層構造をもつクラスの作成を
行うようにしたものである。
【0031】この発明に係る音声認識装置は、外部知識
を用いずに、各階層においてそれぞれクラスタリングを
することによって、階層構造をもつクラスの作成を行う
ようにしたものである
【0032】この発明に係る音声認識装置は、ある階層
についてはコーパス以外の外部知識を用いて、別の階層
については外部知識を用いずにクラスタリングをするこ
とによって、階層構造をもつクラスの作成を行うように
したものである。
【0033】この発明に係る音声認識装置は、クラスタ
リングすべき単語を行列表現してその行と列とを入れ替
えることによって、コーパスの出現頻度が0でない部分
を局在させ、その部分に外接するような部分行列をクラ
スとするようにしたものである。
【0034】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の概略構成を示すブロック図である。図にお
いて、1は入力音声をデジタルデータ化し、それを音声
データとして記憶する音声取得手段であり、2はこの音
声取得手段1において取得された音声データを所定時刻
ごとに音響分析し、音響特徴ベクトルを出力する音響分
析手段である。3は図示を省略した外部記憶装置からH
MM音韻モデルを読み込み、そのHMM音韻モデルを記
憶する音韻モデル記憶手段としてのHMM音韻モデル記
憶手段であり、4は同じく図示を省略した外部記憶装置
から単語辞書を読み込み、その単語辞書を記憶する単語
辞書記憶手段である。5は音響分析手段2より出力され
る音響特徴ベクトルと、HMM音韻モデル記憶手段3に
記憶されているHMM音韻モデル、および単語辞書記憶
手段4に記憶されている単語辞書から、各認識仮説につ
いての音響尤度を計算する音響尤度計算手段である。8
は各認識仮説の音響尤度と言語尤度とに基づいた、最終
的な認識候補を出力する認識結果出力手段である。9は
その言語尤度を計算するための条件付き確率を求める際
に用いられる、大量の文書によるコーパスである。
【0035】なお、これら音声取得手段1、音響分析手
段2、HMM音韻モデル記憶手段3、単語辞書記憶手段
4、音響尤度計算手段5、認識結果出力手段8、コーパ
ス9は、図15に同一符号を付して示した従来の音声認
識装置におけるそれらに相当する部分である。
【0036】10は統計的言語モデルを記憶する言語モ
デル記憶手段としての階層言語モデル記憶手段であり、
コーパス9と後述する階層・クラス定義記憶手段に記憶
されている階層・クラス定義を用いて作成した、階層構
造をもつ統計的言語モデルを記憶している点で、図15
に符号6を付して示した言語モデル記憶手段とは異なっ
ている。なお、この階層言語モデル記憶手段10に記憶
されている統計的言語モデルは、認識処理の状況に応じ
て適切な階層の言語モデルが使用される。11は階層言
語モデル記憶手段10に記憶されている階層構造をもっ
た統計的言語モデルについて、その階層・クラスの定義
を記憶する階層・クラス定義記憶手段である。12は単
語遷移した認識仮説について、その単語連鎖の言語モデ
ルを計算する際の言語モデルの階層を決定する言語モデ
ル階層決定手段である。13は階層言語モデル記憶手段
10に記憶されている統計的言語モデルを参照して、認
識仮説の言語尤度を計算して、その対数値である対数言
語尤度と、音響尤度計算手段5によって計算された音響
尤度の対数値である対数音響尤度より、対数総合尤度を
計算する言語尤度計算手段であり、言語モデル階層決定
手段12によって決定された階層の言語モデルから言語
尤度の計算を行い、対数言語尤度および対数総合尤度を
計算している点で、図15に符号7を付して示した従来
の言語尤度計算手段とは異なっている。
【0037】次に動作について説明する。ここで、図2
はこの実施の形態1における認識処理の概略を示すフロ
ーチャート、図3は階層・クラス定義の一例を示す説明
図、図4は階層構造を有する言語モデルの、先行単語x
と後続単語wの各階層のコーパス9内での出現頻度を示
す説明図であり、図5は言語モデル階層決定手段12の
概略動作を示すフローチャート、図6はそれによって計
算された配列をグラフで示した説明図である。また、図
12は単語辞書の具体例を示した説明図、図13は単語
のHMMの構造の一例を示す説明図であり、図14は時
刻が進むにつれて認識仮説が展開される状況を示す説明
図である。
【0038】まず最初に、図3および図4を参照しなが
ら、この実施の形態1で用いられている階層的な言語モ
デルについて説明する。図3は先験的な知識を用いて単
語を階層化した階層・クラス定義の一例である。この場
合には、単語を5つの階層に分け、最上層は品詞、最下
層は単語として、中間層は「医療−薬品−塗布薬」など
の先験的な知識を用いてそれぞれの上位の階層を分類し
ている。なお、これら各階層には、最上層から最下層に
対して、C4,C3,…,C0のクラスレベルが付与さ
れている。階層・クラス定義記憶手段11はこのような
階層・クラス定義を記憶している。
【0039】次に、この階層・クラス定義記憶手段11
に記憶されている上記階層・クラス定義と、コーパス9
とを参照して、各階層についてのコーパス9内の単語連
鎖の頻度を計数する。図4ではx−w8 の単語連鎖がコ
ーパス9内で5回計数された(N(x,w8 )=5)こ
とを示している。階層言語モデル記憶手段10はこれら
各階層の単語連鎖の頻度を先行単語xごとに計数して記
憶しておく。
【0040】次いで、この実施の形態1による音声認識
装置の認識処理動作を図2のフローチャートにしたがっ
て説明する。この図2のフローチャートに示した処理動
作を開始するに先立って、まず、HMM音韻モデル記憶
手段3が、図示を省略した外部記憶装置からHMM音韻
モデルのデータを読み込み、そのHMM音韻モデルを記
憶する。同様にして、単語辞書記憶手段4は図示を省略
した上記外部記憶装置から単語辞書を読み込み、その単
語辞書を記憶する。ここで、この単語辞書は、例えば、
図12に示すような構成になっており、各単語について
それぞれ漢字表記、ひらがな表記、音素表記のデータを
もっている。さらに、この単語辞書記憶手段4は各単語
の音素表記からその単語のHMM音響モデルを生成す
る。
【0041】図13はこのHMM音響モデルの構成例を
単語「議会」について示したものである。図示のように
単語「議会」はそれぞれ、/g/,/i/,/k/,/
a/,/i/の5つの音素に分解され、各音素ごとに対
応するHMM音韻モデルを当てはめてそれらを連結する
ことにより、当該単語「議会」のHMMの音響モデルを
構成する。なお、他の単語についてもこれと同様にして
HMM音響モデルが構成される。
【0042】その後、音声取得手段1はまず、ステップ
ST10において、入力された音声をA/D変換してデ
ジタルデータ化し、それを音声データとして記憶する。
次に、図示を省略した制御手段が、ステップST11に
おいて時刻tを初期値としてt=0に設定する。次に、
音響分析手段2はステップST12において、音声取得
手段1が取得した時刻t(この場合t=0)における音
声データを取り込み、ステップST13において、その
取り込んだ時刻tの音声データを音響分析して、音響特
徴ベクトルを計算する。
【0043】次に、音響尤度計算手段5はステップST
14において、単語辞書記憶手段4に記憶されている単
語辞書から認識仮説を作成し、音響分析手段2が計算し
た音響特徴ベクトルとHMM音韻モデル記憶手段3に記
憶されているHMM音韻モデルデータから、各認識仮説
の対数音響尤度を計算して認識仮説を展開する。なお、
この対数音響尤度の計算方法は、例えば特公平4−22
276号公報などにも開示されている周知のものである
ため、ここではその説明は割愛する。
【0044】図14には各時刻(フレーム)における認
識仮説の展開の様子が示されている。なお、簡略化のた
めに、ここでは各音素のHMM状態数は1としている。
図において、それぞれの四角が認識仮説を表しており、
各認識仮説は認識している単語と現在の音素、対数音響
尤度、対数言語尤度、対数総合尤度を情報としてもって
いる。例えば、認識仮説の認識単語を「記事」とする
と、フレームがt=0から1,2,…と進行するにつれ
て、HMM音響モデルが自己ループして音素が進行しな
い認識仮説と、HMM音響モデルが進行して音素が進行
する認識仮説に展開され、認識仮説の数が増えてゆくこ
とになる。特に「記事」の終端の音素/i/が終了する
と(図14の太枠の認識仮説)次の認識単語に遷移する
が、「記事」の次には「銀」、「議員」、「議会」、…
とさまざまな単語が遷移し得るため、そのおのおのに対
して独立に認識仮説を割り当てる。なお、ここまでの動
作は従来の音声認識装置の場合と同様である。
【0045】次に、言語モデル階層決定手段12はステ
ップST15において、各認識候補にて単語が遷移する
際に、その単語についての最適な階層を決定する。すな
わち、認識仮説が単語遷移をして、認識候補における先
行単語がxの場合、どの階層の言語モデルを使用するか
を決定する。
【0046】図5のフローチャートにその言語モデル階
層決定手段12による決定手続きの動作を示す。まずス
テップST20において階層iをi=0に設定する。次
にステップST21において配列G(i)をG(i)=
0に初期化する。次にステップST22において単語番
号jをj=0に設定する。次にステップST23におい
て単語wj が属する階層iのクラスCを求める。
【0047】次に、得られた階層iのクラスCについ
て、先行単語xとクラスCに属する単語wの単語連鎖の
コーパス9内の出現頻度N(x,C)を、階層言語モデ
ル記憶手段10に記憶されている統計的言語モデルから
求め、ステップST24においてそれが0であるか否か
の判定を行う。なお、このN(x,C)は次に示した式
(7)によって定義される。
【0048】
【数3】
【0049】判定の結果、N(x,C)≠0であった場
合はステップST25において、配列G(i)、すなわ
ち、所属するクラス頻度が0でない単語の数に1を加え
る。次にステップST26において、各階層iにおける
全単語の終了を検出するまで、ステップST27でjを
インクリメントしながら処理をステップST23に戻
し、さらにステップST28において全階層の終了を検
出するまで、ステップST29でiをインクリメントし
ながら処理をステップST21に戻すことによって、上
記処理を各単語wj および各階層iについて行う。
【0050】以上の処理が終わった段階で配列G(i)
をグラフにしてみると、階層iが上がるにつれてG
(i)は増加するので、例えば図6に示すような右肩上
がりのカーブになる。この例では、階層2から階層3に
移る際に配列G(i)が急増している。これは、階層2
では単語が属しているクラスの頻度が0である場合が多
かったのに対して、階層3では単語が属しているクラス
の頻度が0の場合は減少している(この場合は0になっ
ている)ということであり、したがって階層3ではクラ
スの分割が粗すぎるということを示している。そこでス
テップST30において、G(i+1)−G(i)が最
大となるような階層(この場合には階層2)を最適な階
層と決定する。
【0051】この場合、階層2内のクラスで、N(x,
C)=0であるクラスCは、コーパス9のスパース性に
よってたまたま連鎖が出現していないのではなく、言語
的に出現していないと考えることができる。したがっ
て、先行単語xとこのクラスCに属する単語の連鎖はな
いと考えてよい。
【0052】次に、言語尤度計算手段13は図2のステ
ップST16において、各認識候補にて単語が遷移する
際に、言語モデル階層決定手段12の決定した最適な階
層を用いて、階層言語モデル記憶手段10に記憶されて
いる階層化された統計的言語モデルから言語尤度を計算
し、その対数値である対数言語尤度と、音響尤度計算手
段5の計算した音響尤度の対数値である対数音響尤度か
ら対数総合尤度を計算する。すなわち、単語連鎖x−w
について、選択された最適な階層を用いて、以下の式
(8)のように言語尤度を計算する。なお、この式
(8)において、αは適当なスムージングのための係数
である。
【0053】 P(w|x)=(1−α)・N(x,w)/N(x) N(x,C)>0かつN(x,w)>0の場合 P(w|x)=α・P(w) N(x,C)>0かつN(x,w)=0の場合 P(w|x)=0 N(x,C)=0の場合 ・・・・・ (8)
【0054】次に従来の音声認識装置と同様に、図示を
省略した制御手段はステップST17において、音声入
力が終了したか否かを検出する。その結果、音声入力が
終了していない場合には、ステップST18において、
時刻tをt+1にインクリメントして処理をステップS
T12に戻し、上記ステップST12からステップST
16までの処理を、ステップST17で音声入力の終了
が検出されるまで繰り返す。ステップST17にて音声
入力の終了が検出されると、結果出力手段8はステップ
ST19において、発声の全区間において計算が終わっ
た認識仮説について、その対数総合尤度の大きい順に、
認識結果として、認識候補(単語列)を出力する。
【0055】以上のように、この実施の形態1によれ
ば、言語モデルを階層構造をもつ統計的言語モデルを用
いて、先行単語により最適な階層を決定し、後続単語が
属するクラスの、コーパス9内での計数が0のときには
バイグラム確率を0としているので、従来のバックオフ
法による音声認識装置では実現できなかった、言語的に
つながり得ない奇異な単語連鎖に対して、その対数総合
尤度をきわめて小さくすることができるようになるた
め、認識性能の向上をはかることができるという効果が
得られる。
【0056】また、フレームの途中で不要な認識仮説を
棄却する、いわゆる枝刈り処理を行う場合にも、異常な
単語連鎖をもつ認識仮説は早期に棄却することが可能と
なるため、認識性能を低下させることなく認識処理速度
を向上させることができるという効果が得られる。
【0057】なお、バイグラム確率値を0とおいた場合
のように、計算機上ではその対数値が求められない場合
には、バイグラム確率として0に近いきわめて小さな値
を与えてもよく、上記と同様の効果を奏することはいう
までもない。
【0058】実施の形態2.次に、この発明の別の実施
の形態について説明する。上記実施の形態1による音声
認識装置における階層・クラス定義のような分類は、人
間にとって直感的であるが外部知識が必要となる。この
発明の実施の形態2はその外部知識を不要とし、各階層
のクラスを先見的な知識なしに自動的に作成するもので
ある。
【0059】図7はそのようなこの発明の実施の形態2
による音声認識装置の構成を示すブロック図である。図
において、1は音声取得手段、2は音響分析手段、3は
音韻モデル記憶手段としてのHMM音韻モデル記憶手
段、4は単語辞書記憶手段、5は音響尤度計算手段、8
は認識結果出力手段、9はコーパス、12は言語モデル
階層決定手段、13は言語尤度計算手段であり、これら
は図1に同一符号を付して示した実施の形態1のそれら
に相当する部分である。
【0060】また、14はあらかじめ定義された、統計
的言語モデルの階層数を記憶する階層数定義記憶手段で
あり、15はこの階層数定義記憶手段14が記憶してい
る階層数に基づいて、統計的言語モデルの階層構造を持
つクラスを、コーパス9以外の外部知識を用いることな
く、各階層においてそれぞれクラスタリングするクラス
作成手段である。10は図1に同一符号を付して示した
実施の形態1のそれに相当する、統計的言語モデルを記
憶している言語モデル記憶手段としての階層言語モデル
記憶手段であるが、上記クラス作成手段15にてクラス
タリングされた階層のクラスと、コーパス9とを用いて
作成した統計的言語モデルを記憶している点で、実施の
形態1におけるそれとは異なっている。
【0061】次に動作について説明する。ここで、図8
はこの実施の形態2における、ある階層iでのクラス化
処理の概略動作を示すフローチャートである。また、図
9はある階層iでの要素連鎖の、コーパス9での出現頻
度を行列形式で示した説明図であり、最下層では要素は
単語となり、それ以上の階層では要素はクラスとなる。
さらに、図10はこの図9に示した行列を小行列に分解
した例を示した説明図であり、図11は図9に示した行
列について、その行と列を入れ替える操作を行った後の
状態例を示した説明図である。
【0062】次に、この実施の形態2による音声認識装
置のある階層でのクラス化の処理について説明する。以
降は誤解を避けるために最下層におけるクラス化につい
て説明する。なお、図9において、網掛けを施した部分
はコーパス9の出現頻度が0より大きい数値であること
を示し、白い部分はコーパス9の出現頻度が0であるこ
とを示している。
【0063】階層数定義記憶手段14はクラス言語モデ
ルの階層数(例えば5)のみをあらかじめ定義して記憶
しておく。クラス作成手段15はまず、ステップST4
0において、ある階層での要素(単語)連鎖の出現頻度
を図9のような行列形式で表現する。次にその行列上
で、コーパス9の出現頻度が0でない部分(網掛けを施
した部分)と0である部分(白い部分)とを局在化させ
る処理を行う。0である部分と0でない部分が十分に局
在化すれば、それはコーパス9に表れる連鎖と表れない
連鎖をうまく分離できており、クラス化が適当であると
考えることができる。
【0064】クラス作成手段15はステップST41に
おいて、その具体的な処理のために評価関数Eを導入し
て当該評価関数Eの計算を行う。この評価関数Eとして
は、例えば、以下に示す式(9)を定義する。この式
(9)は行列全体をN*N個の小行列に分割したときの
ものであり、Nはその階層に定義するクラスの数に相当
する。なお、この式(9)中の小行列内要素数とは小行
列が0行列のときのその面積である。
【0065】 E=小行列内要素数/0行列の小行列の個数 ・・・・ (9)
【0066】図10では、行列全体を4*4個の小行列
に分割した場合に、その分割の仕方の一例を示してい
る。ここで、連鎖の前後に同じクラス分けを行う場合に
は、行の分割の仕方と列の分割の仕方は同じでなければ
ならず、したがって行列の対角線上にある小行列は図の
ように正方行列となる。図10の場合、0行列である小
行列は、最上段の右から2つ目にある4*3の小行列た
だ1つであり、E=12となる。なお、この行列のすべ
ての分割の評価関数Eの最大値をEmaxとする。
【0067】次に、ステップST42において任意のi
とj(j≠i)とを選択し、ステップST43において
その行wi と行wj とを入れ替える操作を行い、ステッ
プST44において列vi と列vj とを入れ替える操作
を行う。次にステップST45において、入れ替えた後
の行列に対して評価関数Eの最大値Emax を求め、ステ
ップST46において、その求められたEmax と以前の
max とを比較する。その結果、求められたEmax が以
前のEmax より大きければ、この方が精度のよいクラス
タリングを与える行列表現であると考えて、ステップS
T47でもとの行列を入れ替え操作をした行列に更新
し、Emax も新たに求められたものに更新する。もし求
められたEmax が以前のEmax より小さければ、以前の
方が精度のよいクラスタリングを与える行列表現である
と考えて、ステップST48ではE max を更新せずに行
列をもとに戻す。
【0068】次に、ステップST49において収束条件
に達したか否かの判定を行い、収束条件を満たすまで上
記の操作を繰り返す。なお、収束条件としては、例えば
次のようなものを用いることができる。 (1) 入れ替え操作の処理回数が所定数を超えた場
合。 (2) Emax が所定値を超えた場合。
【0069】以上の処理を各階層について行い、統計的
言語モデルを作成した後、認識処理を行う。なお、認識
処理は実施の形態1の場合と同一なので、ここではその
説明を省略する。
【0070】ここで、評価関数の定義、収束条件の定義
は、この実施の形態2に示したもののみに限定されるも
のでないことはいうまでもない。
【0071】また、この実施の形態2では単語連鎖(バ
イグラム)を2次元行列で説明したが、トライグラムで
は3次元行列、一般のNグラムではN次元行列を用いれ
ば、この実施の形態2をそのまま適用できることはいう
までもない。さらに、この実施の形態2におけるクラス
タリング手法を先験的な知識を用いる実施の形態1にお
けるクラスタリングと組み合わせ、ある階層については
この実施の形態2のクラスタリング手法を、別の階層に
ついては先験的な知識を用いる実施の形態1のクラスタ
リング手法を用いることも可能であることはいうまでも
ない。
【0072】以上のように、この実施の形態2によれ
ば、各階層をクラスタリングする際に先験的な知識がな
くても、スパースなコーパス9についてクラスタリング
することが可能となるという効果が得られる。
【0073】
【発明の効果】以上のように、この発明によれば、音声
データを所定時刻ごとに音響分析した音響特徴ベクト
ル、音韻モデルおよび単語辞書から計算した認識仮説の
音響尤度と、言語モデル階層決定手段の決定した言語モ
デルの階層から統計的言語モデルを参照して計算した認
識仮説の言語尤度に基づいて最終的な認識候補を出力す
るようにし、その統計的言語モデルに階層構造をもた
せ、音声認識の処理状況に応じて適切な階層の言語モデ
ルを使用するように構成したので、コーパスの量が十分
ではない場合でも、言語的につながり得ない異常な単語
連鎖についての言語尤度を小さくすることが可能となる
ため、認識性能および認識処理速度の高い音声認識装置
が得られるという効果がある。
【0074】この発明によれば、各先行単語によって最
適な階層の言語モデルを使用するように構成したので、
異常な単語連鎖に対する言語尤度が小さくなって、認識
性能および認識処理速度の向上を図ることができるとい
う効果がある。
【0075】この発明によれば、先行単語と、後続単語
が属している適切な階層のクラスにおける単語−クラス
連鎖のコーパスの出現頻度が0の場合、その単語バイグ
ラムの確率値を0または0に近い小さな正値とするよう
に構成したので、異常な単語連鎖に対する言語尤度が小
さくなって、認識性能および認識処理速度の向上が図れ
るという効果がある。
【0076】この発明によれば、先行単語と、後続単語
が属している適切な階層のクラスにおける単語−クラス
連鎖のコーパスの出現頻度が0より大きく、かつ、コー
パス内の単語バイグラムの出現頻度が0の場合には、そ
の単語バイグラムの確率値を0より大きい値に設定する
ように構成したので、言語尤度や総合尤度の対数値を確
実に計算できる効果がある。
【0077】この発明によれば、統計的言語モデルにお
ける先行単語に使用する最適な階層として、所属するク
ラスの単語バイグラムの出現頻度が0でない後続単語の
数の変化率が最大になる直前の階層を選択するように構
成したので、容易に最適な階層を決定することが可能に
なるという効果がある。
【0078】この発明によれば、コーパス以外の外部知
識を用いて階層構造をもつクラスの作成を行うように構
成したので、各階層のクラスについて人間にとって直感
的な分類を行うことが可能になるという効果がある。
【0079】この発明によれば、外部知識を用いずに、
各階層においてそれぞれクラスタリングをすることによ
り階層構造をもつクラスを作成するように構成したの
で、各階層のクラスを先験的な知識なしに自動的に作成
することが可能になるとという効果がある。
【0080】この発明によれば、ある一部の階層につい
てはコーパス以外の外部知識を用い、他の階層について
は外部知識を用いずにクラスタリングをすることによ
り、階層構造をもつクラスを作成するように構成したの
で、必要な階層では人間にとって直感的な分類が行え、
他の階層では自動作成が可能になるという効果がある。
【0081】この発明によれば、クラスタリングすべき
単語を行列表現して、行と列の入れ替えによってコーパ
スの出現頻度が0でない部分を局在させ、その部分に外
接するような部分行列をクラスとするように構成したの
で、コーパスに表れる連鎖と表れない連鎖とをうまく分
離することができ、スパースなコーパスについてのクラ
スタリングを容易に行うことが可能になるという効果が
ある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
の構成を示すブロック図である。
【図2】 実施の形態1による音声認識装置の動作を示
すフローチャートである。
【図3】 階層構造をもつ単語辞書の一例を示す説明図
である。
【図4】 階層構造をもつ言語モデルの、先行単語と後
続単語の各階層のコーパス内での出現頻度を示す説明図
である。
【図5】 実施の形態1における言語モデル階層決定手
段の動作を示すフローチャートである。
【図6】 実施の形態1における言語モデル階層決定手
段が計算した配列をグラフで示した説明図である。
【図7】 この発明の実施の形態2による音声認識装置
の構成を示すブロック図である。
【図8】 実施の形態2におけるクラス作成手段の動作
を示すフローチャートである。
【図9】 ある階層における要素連鎖のコーパスでの出
現頻度を行列形式で示した説明図である。
【図10】 図9に示した行列を4*4の小行列に分解
した例を示す説明図である。
【図11】 図9で示した行列について、その行と列を
入れ替える操作を行った後の状態例を示した説明図であ
る。
【図12】 この発明と従来の音声認識装置で用いられ
る単語辞書の具体例を示す説明図である。
【図13】 この発明と従来の音声認識装置における単
語のHMMの構造の一例を示す説明図である。
【図14】 この発明と従来の音声認識装置にて、時刻
が進むにつれて認識仮説が展開される状況を示す説明図
である。
【図15】 従来の音声認識装置の構成を示すブロック
図である。
【図16】 従来の音声認識装置の動作を示すフローチ
ャートである。
【符号の説明】
1 音声取得手段、2 音響分析手段、3 HMM音韻
モデル記憶手段(音韻モデル記憶手段)、4 単語辞書
記憶手段、5 音響尤度計算手段、8 認識結果出力手
段、9 コーパス、10 階層言語モデル記憶手段(言
語モデル記憶手段)、12 言語モデル階層決定手段、
13 言語尤度計算手段。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 コーパスから作成した統計的言語モデル
    を用いて入力音声の音声認識を行う音声認識装置におい
    て、 入力音声をデジタルデータ化し、それを音声データとし
    て記憶する音声取得手段と、 前記音声データを所定時刻ごとに音響分析して音響特徴
    ベクトルを出力する音響分析手段と、 音韻モデルを記憶する音韻モデル記憶手段と、 単語辞書を記憶する単語辞書記憶手段と、 前記音響分析手段より出力された音響特徴ベクトル、前
    記音韻モデル記憶手段に記憶されている音韻モデル、お
    よび前記単語辞書に記憶されている単語辞書から、認識
    仮説の音響尤度を計算する音響尤度計算手段と、 前記統計的言語モデルを記憶する言語モデル記憶手段
    と、 単語遷移した前記認識仮説について、その単語連鎖の言
    語モデルを計算する際の言語モデルの階層を決定する言
    語モデル階層決定手段と、 前記言語モデル記憶手段に記憶されている統計的言語モ
    デルを参照し、前記言語モデル階層決定手段の決定した
    言語モデルの階層から認識仮説の言語尤度を計算する言
    語尤度計算手段と、 前記音響尤度計算手段の計算した認識仮説の音響尤度
    と、前記言語尤度計算手段の計算した認識仮説の言語尤
    度に基づいた、最終的な認識候補を出力する認識結果出
    力手段とを備え、 前記統計的言語モデルは階層構造をもち、音声認識の処
    理状況に応じて適切な階層の言語モデルを使用すること
    を特徴とする音声認識装置。
  2. 【請求項2】 統計的言語モデルは、各先行単語によっ
    て最適な階層の言語モデルを使用することを特徴とする
    請求項1記載の音声認識装置。
  3. 【請求項3】 統計的言語モデルは、先行単語と、後続
    単語が属している適切な階層のクラスにおける単語−ク
    ラス連鎖のコーパスの出現頻度が0の場合には、その単
    語バイグラムの確率値を0または0に近い小さい正値と
    することを特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 統計的言語モデルは、先行単語と、後続
    単語が属している適切な階層のクラスにおける単語−ク
    ラス連鎖のコーパスの出現頻度が0より大きく、かつ、
    コーパス内の単語バイグラムの出現頻度が0である場合
    には、その単語バイグラムの確率値を0より大きい値に
    設定することを特徴とする請求項2記載の音声認識装
    置。
  5. 【請求項5】 統計的言語モデルにおける先行単語に使
    用する最適な階層として、所属するクラスの単語バイグ
    ラムの出現頻度が0でない後続単語の数の変化率が最大
    になる直前の階層を選択することを特徴とする請求項2
    記載の音声認識装置。
  6. 【請求項6】 統計的言語モデルは、階層構造をもつク
    ラスを、コーパス以外の外部知識を用いて作成すること
    を特徴とする請求項1記載の音声認識装置。
  7. 【請求項7】 統計的言語モデルは、階層構造をもつク
    ラスを、外部知識を用いず、各階層においてそれぞれク
    ラスタリングをすることによって作成することを特徴と
    する請求項1記載の音声認識装置。
  8. 【請求項8】 統計的言語モデルは、階層構造をもつク
    ラスを、ある階層については、コーパス以外の外部知識
    を用いて作成し、別の階層については外部知識を用いず
    にクラスタリングをすることによって作成することを特
    徴とする請求項1記載の音声認識装置。
  9. 【請求項9】 統計的言語モデルは、クラスタリングを
    すべき単語を行列表現して、行と列の入れ替えによって
    コーパスの出現頻度が0でない部分を局在させ、その部
    分に外接するような部分行列をクラスとすることを特徴
    とする請求項1記載の音声認識装置。
JP11060418A 1999-03-08 1999-03-08 音声認識装置 Abandoned JP2000259175A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11060418A JP2000259175A (ja) 1999-03-08 1999-03-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11060418A JP2000259175A (ja) 1999-03-08 1999-03-08 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000259175A true JP2000259175A (ja) 2000-09-22

Family

ID=13141645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11060418A Abandoned JP2000259175A (ja) 1999-03-08 1999-03-08 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000259175A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034378A1 (ja) * 2002-10-08 2004-04-22 Matsushita Electric Industrial Co., Ltd. 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8321199B2 (en) 2006-06-22 2012-11-27 Multimodal Technologies, Llc Verification of extracted data
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
CN110111769A (zh) * 2019-04-28 2019-08-09 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034378A1 (ja) * 2002-10-08 2004-04-22 Matsushita Electric Industrial Co., Ltd. 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8321199B2 (en) 2006-06-22 2012-11-27 Multimodal Technologies, Llc Verification of extracted data
US8560314B2 (en) 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
CN110111769A (zh) * 2019-04-28 2019-08-09 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗

Similar Documents

Publication Publication Date Title
CN109410914B (zh) 一种赣方言语音和方言点识别方法
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US5956679A (en) Speech processing apparatus and method using a noise-adaptive PMC model
US6311152B1 (en) System for chinese tokenization and named entity recognition
JP2991473B2 (ja) 文字の認識方法及び音素の認識方法
US8185376B2 (en) Identifying language origin of words
US5878390A (en) Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
EP0755046B1 (en) Speech recogniser using a hierarchically structured dictionary
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
JP2004362584A (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JPH11352994A (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
Roark et al. Corrective language modeling for large vocabulary ASR with the perceptron algorithm
JPH086587A (ja) 動的特徴を使用した音声認識方法及び装置
JP2000259175A (ja) 音声認識装置
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3444108B2 (ja) 音声認識装置
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Manjunath et al. Development and analysis of multilingual phone recognition systems using Indian languages
Renals et al. A comparative study of continuous speech recognition using neural networks and hidden Markov models
JP2000075886A (ja) 統計的言語モデル生成装置及び音声認識装置
Laleye et al. Fuzzy-based algorithm for Fongbe continuous speech segmentation
JP2938865B1 (ja) 音声認識装置
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061121

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20070111