JP2000047690A

JP2000047690A - 音声認識装置における音素計算処理量削減方法

Info

Publication number: JP2000047690A
Application number: JP10213364A
Authority: JP
Inventors: Shintaro Murakami; 伸太郎村上
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1998-07-29
Filing date: 1998-07-29
Publication date: 2000-02-18

Abstract

(57)【要約】【課題】重複するような無駄な計算処理を行わないよ
うにして計算処理量の削減を可能とした。【解決手段】離散単語音声認識システムの辞書テンプ
レートに含まれている先頭音素列が一致する単語を分類
する先頭音素列単語分類工程１により先頭音素列が一致
する単語が分類される。この工程１で分類された単語は
先頭音素列比較工程２で音素認識部から出力される音素
列と比較される。このとき、単語番号が自身より低いも
ののうちで、先頭部分が一致するもののうち、一致部分
が最も長い単語を一致部分最長単語選択工程３で選択す
る。このようにして音素列と辞書テンプレートとのマッ
チング処理を行うことにより計算処理量を低減すること
ができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音素認識部によ
り変換された音素列と辞書内の単語テンプレートの音素
列とのマッチング時の計算処理量の低減を図るようした
音声認識装置における音素計算処理量削減方法に関す
る。

【０００２】

【従来の技術】音声認識装置として図７に示す離散単語
音声認識システムがある。このシステムは図７に示すよ
うに、電話やマイクロフォンなどの音声入力装置１１か
ら音声データが音声入力部１２に入力される。この音声
入力部１２に入力された音声データは、Ａ／Ｄ変換され
た後に、特徴抽出部１３に供給されてスペクトル列等に
変換される。このスペクトル列は、音素認識部１４に入
力されて出力に音素列を得る。

【０００３】この音素列は、マッチング部１５に供給さ
れ、このマッチング部１５で辞書テンプレート１６の単
語テンプレートとの照合が行われ、最も類似する単語又
は単語列を結果としてマッチング部１５から出力され
る。マッチング部１５におけるマッチング方式には、例
えば、ＤＰ（Dynamic Programming）マッチングが使用
される。

【０００４】次に、一般的なＤＰマッチングアルゴリズ
ムについての処理の概要を説明するに、入力音声を音素
認識した結果T={a(0)，a(1)，．．．．a(I-1)}（音素フ
レーム数I）と、辞書単語テンプレートの音素列word={b
(0)，b(1)，．．．．b(N(n-1))}とのＤＰマッチング距
離dist[word]を求める場合、以下のように、マッチング
距離が最小になるようなパスを求めていく（N(n)：辞書
テンプレートwordの長さ（音素フレーム数））。

【０００５】ここでは簡単のため、ＤＰマッチング計算
用パスについて、図８（Ａ）のように設定する。ＤＰマ
ッチング計算用パスに関しては、その他に図８（Ｂ）の
ようなものがある。

【０００６】次に後述するアルゴリズムに使用する変数
の定義を述べる。（イ）g[word][i][n]：入力音素列Tの第iフレーム、辞
書単語テンプレートwordの第nフレームまでのマッチン
グ距離（図９参照）（ロ）d[word][i][n]：Tの第iフレームと、wordの第nフ
レームとの音素間距離（フレーム間距離）、例えば音素
同士が一致するときのスコアを「０」、一致しないとき
のスコアを「１」と設定した場合、入力フレーム第j番
目の音素a(j)と、テンプレートnの第i番目の音素b(i)と
のフレーム間距離は次のように定義される。

【０００７】（ハ）word num：辞書単語数（ニ）word len[word]：辞書単語wordのテンプレート長（ホ）I：入力音素フレーム数以下ＤＰマッチングアルゴリズムについて示す（なお、
このアルゴリズムのフローチャートを図１０に示す） 0<=word<word numについて、−を実行 g[word][0][0]=d[word]s[0][0]、g[word][0][n]=∞
(n>=1) 1<=i<Iについて、−を実行 0<=n<word len[word]について、を実行 g[word][i][n]=min{g[word][i-1][n]、g[word][i-1]
[n-1]，g[word][i-1][n-2]+d[word][i][n] dist[word]=g[word][I-1][word len[word]] dist[word]が最小となるwordを、認識結果とする。

【０００８】

【発明が解決しようとする課題】上述のように、ＤＰマ
ッチングを用いて辞書テンプレート１６と、音素認識部
１４から出力される音素列との照合を行う場合、すべて
の辞書テンプレート１６に対してマッチングを行う必要
がある。そのため、辞書テンプレート１６の単語数の増
加や、平均テンプレート長が長くなれば、それに比例す
る形でマッチング時の計算処理量も増大してしまう問題
がある。特に、認識性能（認識率）を低下させずに、マ
ッチング時の計算処理量を減らすためには、不要な計算
を減らす必要があるが、上述のような処理では対処でき
なかった。

【０００９】この発明は上記の事情に鑑みてなされたも
ので、重複するような無駄な計算処理を行わないように
して計算処理量の削減を可能とした音声認識装置におけ
る音素計算処理量削減方法を提供することを課題とす
る。

【００１０】

【課題を解決するための手段】この発明は、上記の課題
を達成するために、第１発明は、電話やマイクロフォン
などの音声入力装置から音声データが音声入力部に入力
された後、この音声入力部で音声データは、Ａ／Ｄ変換
されて、特徴抽出部に供給され、出力にスペクトル列を
得、このスペクトル列を、音素認識部に入力して出力に
音素列を得、この音素列を、マッチング部で辞書テンプ
レートの単語テンプレートとの照合を行って、最も類似
する単語又は単語列を結果としてマッチング部から出力
するようにした単語音声認識システムにおいて、前記辞
書テンプレートに含まれている先頭音素列が一致する単
語を分類する先頭音素列単語分類工程と、この先頭音素
列単語分類工程で分類された単語を、音素認識部から出
力される音素列と比較する先頭音素列比較工程と、この
比較工程で、先頭部分が一致するもののうち、一致部分
が最も長い単語を選択する一致部分最長単語選択工程と
でマッチング処理を行うようにしたことを特徴とするも
のである。

【００１１】第２発明は、先頭に同じ音素列を含んでい
るものを分類し、その類が同じ類に属すると判定された
単語が既に計算されているときには、その計算結果を次
の単語の計算時に利用するようしたことを特徴とするも
のである。

【００１２】第３発明は、既に計算されている結果を、
最終的なマッチング距離を求めるのに最低限必要な部分
だけ用いたことを特徴とするものである。

【００１３】

【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図１はこの発明の実施の第１形態
を述べるブロック構成図で、図１において、１は、図７
に示す離散単語音声認識システムの辞書テンプレート１
６に含まれている先頭音素列が一致する単語を分類する
ための先頭音素列単語分類工程で、この先頭音素列単語
分類工程１により先頭音素列が一致する単語が分類され
る。この工程１で分類された単語は、先頭音素列比較工
程２で音素認識部１４から出力される音素列と比較され
る。このとき、単語番号が自身より低いもののうちで、
先頭部分が一致するもののうち、一致部分が最も長い単
語を一致部分最長単語選択工程３で選択する。このよう
にして音素列と辞書テンプレート１６とのマッチング処
理を行うことによりマッチング時の計算処理量を低減す
ることができる。

【００１４】次に上記第１形態の作用を述べる。辞書
（単語）テンプレート１６の中には、先頭音素列が一致
している単語群がある。例えば、「えいきゅう(eikyu
u)」と「えいゆう(eiyuu)」の場合、どちらも先頭に
「えい(ei)」が含まれている。この２つの単語を含む辞
書テンプレート１６についてＤＰマッチング処理を行う
場合、図２に示すように、先頭部分「えい(ei)」（図中
斜線部分のマッチング距離）に関しては一致し、同じ計
算を重複して行うことになる。このため、図２の斜線部
分は重複計算となる無駄な計算を行なっていることにな
る。

【００１５】このため、先頭に同じ音素列を含んでいる
ものを分類し、前記一致部分最長単語選択工程３で、先
頭部分が一致するもののうち、一致部分が最も長い単語
を選択することによりマッチング時の計算処理を低減で
きるようになる。

【００１６】図３は上記第１形態における先頭が一致す
るときの単語を分類するアルゴリズムを示すフローチャ
ートであり、以下に示す用語はその変数の定義である。 word num：辞書単語数 word len[word]：単語番号wordの単語テンプレート長 word temp[word][n]：単語番号wordのテンプレート中
の、第n番目の音素 same word[word]：単語番号wordと先頭が一致する単語
の、単語番号 same len[word]：単語番号wordと先頭が一致した単語
の、一致した音素数。

【００１７】図３において、先頭が一致するときの単語
は、次に示すアルゴリズムのように処理される。 0<=word<word numについて、same word[word]=wor
d，same len[word]=0（初期化） i=0 j=i+1 n=0，counter=0 word temp[i][n] ！=word temp[j][n]ならば、へ word temp[i][n]=word temp[j][n]ならば、counter
をインクリメント nをインクリメント n>=word len[i] or n>=word len[j]ならば、以下
を実行、そうでなければへもし、counter>same 1en[j]ならば、same len[j]=co
unter，same word[j]=iとする。

【００１８】（10) jをインクリメント（11) j>=word numならば、（12)を実行、そうでなけれ
ばへ（12) iをインクリメント（13) i>=word num-1ならば終了、そうでなければへ次に、この発明の実施の第２形態であるマッチング時の
計算削減法について述べる。この第２形態は、ＤＰマッ
チング距離dist[word]を求める際に、前記第１形態で、
同じ分類に属すると判定された単語が既にＤＰ計算され
ている場合には、その計算結果を利用すると、マッチン
グ時の計算処理量を削減することができるようにしたも
のである。

【００１９】以下に変数の定義とアルゴリズムを示す。 g[word][i][n]：入力音素列T第iフレーム、wordの第nフ
レームまでのマッチング距離 d[word][i][n]：Tの第iフレームと、wordの第nフレーム
との音素間距離 word num：辞書単語数 word 1en[word]：辞書単語wordのテンプレート長。

【００２０】計算削減処理を施したＤＰマッチングのア
ルゴリズムのフローチャートを図４に、そのアルゴリズ
ムを以下に示す。 0<=word<word numについて、−を実行 same word[word]=wordの場合、以下を実行、そう
でなければ、通常のＤＰを実行 0<=i<Iについて、−を実行 0<=n<same len[word]について、を実行 g[word][i][n]=g[same word[word]][i][n] same len[word]<=n<wordについて、を実行 g[word][i][n]=min{g[word][i-1][n],g[word][i-1]
[n-1]，g[word][i-1][n-2]}+d[word][i][n] dist[word]=g[word][I-1][word 1en[word]] 次に、この発明の実施の第３形態を述べる。上記第２形
態では、計算を省略した部分についても、g[word][i]
[n]の代入処理を行なっている。しかし、ＤＰ計算結果
で必要な値は、最終的には、g[word][I-1][word len-
1］のみであり、極端にいえば、（n<word 1en-1）なる
箇所での、g[word][i][n]の値は不要である。

【００２１】従って、g[word][I-1][word len-1]を求め
るためには、最低限必要な箇所のみについて、代入処理
を行なうことにより、更なる処理量の削減を行なうこと
が出来る。従って、図５に示す斜線部分全てを利用しな
くても図示点線より上の斜線部分だけが分かれば、最終
的なマッチング距離を求めることができる。すなわち、
最終的なマッチング距離を求めるのに、最低限必要な部
分だけにする。

【００２２】以下、図８に示したＤＰマッチング計算用
パスの説明図における２段下のテンプレート音素から遷
移可能なパスについての方法を述べる。

【００２３】図６は、計算削減処理を施した場合のＤＰ
マッチング法のアルゴリズムを示すフローチャートであ
る。 0<=word<word numについて、−を実行 same word[word]=wordの場合、以下を実行、そう
でなければ、通常のＤＰを実行 0<=i<Iについて、−を実行 same len[word]-2<=n<same len[word]について、
を実行 g[word][i][n]=g[same word[word]][i][n] same len[word]<=n<word len[word]について、を
実行 g[word][i][n]=min{g[word][i-1][n],g[word][i-1]
[n-1]，g[word][i-1][n-2]}+d[word][i][n] dist[word]=g[word][I-1][word 1en[word]] 表１に、上記第３形態を使用した場合において、どの程
度計算量が削減されたかを示す。ここでは、ＤＰマッチ
ングアルゴリズムとして、連続単語認識に利用される
「拡張連続ＤＰ」を用いて実験した。ＤＰ計算量・処理
時間が共に約１割削減されていることが分かる。

【００２４】

【表１】

【００２５】なお、実験条件は次のようにした。使用辞書：音素バランス１０１単語＋２単語（無音）、辞書テンプレート平均長：約５０フレーム入力音声：約１.１秒のデータ（音素フレーム数９１）

【００２６】

【発明の効果】以上述べたように、この発明によれば、
同じ先頭音素列を持っ辞書（単語）テンプレートを分類
し、ＤＰ計算結果を共有することにより、重複したマッ
チング計算を省略できる。また、計算を省略することに
より、最終的なマッチング結果を求めるのに必要な箇所
だけを参照するだけで、更に処理量削減が行なえる利点
がある。

【図面の簡単な説明】

【図１】この発明の実施の第１形態を示すブロック構成
図。

【図２】ＤＰマッチング計算時の重複説明図。

【図３】第１形態における先頭が一致するときの単語を
分類するアルゴリズムを示すフローチャート。

【図４】この発明の実施の第２形態を示すＤＰマッチン
グのアルゴリズムを示すフローチャート。

【図５】この発明の実施の第３形態を述べるための説明
図。

【図６】第３形態を示すＤＰマッチングのアルゴリズム
を示すフローチャート。

【図７】離散単語音声認識システムを示す概略構成図。

【図８】ＤＰマッチング計算用パスの説明図。

【図９】入力音素列対テンプレートによるマッチング距
離説明図。

【図１０】ＤＰマッチングアルゴリズムを示すフローチ
ャート。

【符号の説明】

１…先頭音素列単語分類工程２…先頭音素列比較工程３…一致部分最長単語選択工程１１…音声入力装置１２…音声入力部１３…特徴抽出部１４…音素認識部１５…マッチング部１６…辞書テンプレート

Claims

【特許請求の範囲】

【請求項１】電話やマイクロフォンなどの音声入力装
置から音声データが音声入力部に入力された後、この音
声入力部で音声データは、Ａ／Ｄ変換されて、特徴抽出
部に供給され、出力にスペクトル列を得、このスペクト
ル列を、音素認識部に入力して出力に音素列を得、この
音素列を、マッチング部で辞書テンプレートの単語テン
プレートとの照合を行って、最も類似する単語又は単語
列を結果としてマッチング部から出力するようにした単
語音声認識装置において、前記辞書テンプレートに含まれている先頭音素列が一致
する単語を分類する先頭音素列単語分類工程と、この先
頭音素列単語分類工程で分類された単語を、音素認識部
から出力される音素列と比較する先頭音素列比較工程
と、この比較工程で、先頭部分が一致するもののうち、
一致部分が最も長い単語を選択する一致部分最長単語選
択工程とでマッチング処理を行うようにしたことを特徴
とする音声認識装置における音素計算処理量削減方法。
【請求項２】先頭に同じ音素列を含んでいるものを分
類し、その類が同じ類に属すると判定された単語が既に
計算されているときには、その計算結果を次の単語の計
算時に利用するようしたことを特徴とする請求項１記載
の音声認識装置における音素計算処理量削減方法。
【請求項３】既に計算されている結果を、最終的なマ
ッチング距離を求めるのに最低限必要な部分だけ用いた
ことを特徴とする請求項２記載の音声認識装置における
音素計算処理量削減方法。