JP2000047690A - 音声認識装置における音素計算処理量削減方法 - Google Patents

音声認識装置における音素計算処理量削減方法

Info

Publication number
JP2000047690A
JP2000047690A JP10213364A JP21336498A JP2000047690A JP 2000047690 A JP2000047690 A JP 2000047690A JP 10213364 A JP10213364 A JP 10213364A JP 21336498 A JP21336498 A JP 21336498A JP 2000047690 A JP2000047690 A JP 2000047690A
Authority
JP
Japan
Prior art keywords
word
phoneme
matching
words
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10213364A
Other languages
English (en)
Inventor
Shintaro Murakami
伸太郎 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP10213364A priority Critical patent/JP2000047690A/ja
Publication of JP2000047690A publication Critical patent/JP2000047690A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 重複するような無駄な計算処理を行わないよ
うにして計算処理量の削減を可能とした。 【解決手段】 離散単語音声認識システムの辞書テンプ
レートに含まれている先頭音素列が一致する単語を分類
する先頭音素列単語分類工程1により先頭音素列が一致
する単語が分類される。この工程1で分類された単語は
先頭音素列比較工程2で音素認識部から出力される音素
列と比較される。このとき、単語番号が自身より低いも
ののうちで、先頭部分が一致するもののうち、一致部分
が最も長い単語を一致部分最長単語選択工程3で選択す
る。このようにして音素列と辞書テンプレートとのマッ
チング処理を行うことにより計算処理量を低減すること
ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音素認識部によ
り変換された音素列と辞書内の単語テンプレートの音素
列とのマッチング時の計算処理量の低減を図るようした
音声認識装置における音素計算処理量削減方法に関す
る。
【0002】
【従来の技術】音声認識装置として図7に示す離散単語
音声認識システムがある。このシステムは図7に示すよ
うに、電話やマイクロフォンなどの音声入力装置11か
ら音声データが音声入力部12に入力される。この音声
入力部12に入力された音声データは、A/D変換され
た後に、特徴抽出部13に供給されてスペクトル列等に
変換される。このスペクトル列は、音素認識部14に入
力されて出力に音素列を得る。
【0003】この音素列は、マッチング部15に供給さ
れ、このマッチング部15で辞書テンプレート16の単
語テンプレートとの照合が行われ、最も類似する単語又
は単語列を結果としてマッチング部15から出力され
る。マッチング部15におけるマッチング方式には、例
えば、DP(Dynamic Programming)マッチングが使用
される。
【0004】次に、一般的なDPマッチングアルゴリズ
ムについての処理の概要を説明するに、入力音声を音素
認識した結果T={a(0),a(1),....a(I-1)}(音素フ
レーム数I)と、辞書単語テンプレートの音素列word={b
(0),b(1),....b(N(n-1))}とのDPマッチング距
離dist[word]を求める場合、以下のように、マッチング
距離が最小になるようなパスを求めていく(N(n):辞書
テンプレートwordの長さ(音素フレーム数))。
【0005】ここでは簡単のため、DPマッチング計算
用パスについて、図8(A)のように設定する。DPマ
ッチング計算用パスに関しては、その他に図8(B)の
ようなものがある。
【0006】次に後述するアルゴリズムに使用する変数
の定義を述べる。 (イ)g[word][i][n]:入力音素列Tの第iフレーム、辞
書単語テンプレートwordの第nフレームまでのマッチン
グ距離(図9参照) (ロ)d[word][i][n]:Tの第iフレームと、wordの第nフ
レームとの音素間距離(フレーム間距離)、例えば音素
同士が一致するときのスコアを「0」、一致しないとき
のスコアを「1」と設定した場合、入力フレーム第j番
目の音素a(j)と、テンプレートnの第i番目の音素b(i)と
のフレーム間距離は次のように定義される。
【0007】 (ハ)word num:辞書単語数 (ニ)word len[word]:辞書単語wordのテンプレート長 (ホ)I:入力音素フレーム数 以下DPマッチングアルゴリズムについて示す(なお、
このアルゴリズムのフローチャートを図10に示す) 0<=word<word numについて、−を実行 g[word][0][0]=d[word]s[0][0]、g[word][0][n]=∞
(n>=1) 1<=i<Iについて、−を実行 0<=n<word len[word]について、を実行 g[word][i][n]=min{g[word][i-1][n]、g[word][i-1]
[n-1],g[word][i-1][n-2]+d[word][i][n] dist[word]=g[word][I-1][word len[word]] dist[word]が最小となるwordを、認識結果とする。
【0008】
【発明が解決しようとする課題】上述のように、DPマ
ッチングを用いて辞書テンプレート16と、音素認識部
14から出力される音素列との照合を行う場合、すべて
の辞書テンプレート16に対してマッチングを行う必要
がある。そのため、辞書テンプレート16の単語数の増
加や、平均テンプレート長が長くなれば、それに比例す
る形でマッチング時の計算処理量も増大してしまう問題
がある。特に、認識性能(認識率)を低下させずに、マ
ッチング時の計算処理量を減らすためには、不要な計算
を減らす必要があるが、上述のような処理では対処でき
なかった。
【0009】この発明は上記の事情に鑑みてなされたも
ので、重複するような無駄な計算処理を行わないように
して計算処理量の削減を可能とした音声認識装置におけ
る音素計算処理量削減方法を提供することを課題とす
る。
【0010】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、電話やマイクロフォン
などの音声入力装置から音声データが音声入力部に入力
された後、この音声入力部で音声データは、A/D変換
されて、特徴抽出部に供給され、出力にスペクトル列を
得、このスペクトル列を、音素認識部に入力して出力に
音素列を得、この音素列を、マッチング部で辞書テンプ
レートの単語テンプレートとの照合を行って、最も類似
する単語又は単語列を結果としてマッチング部から出力
するようにした単語音声認識システムにおいて、前記辞
書テンプレートに含まれている先頭音素列が一致する単
語を分類する先頭音素列単語分類工程と、この先頭音素
列単語分類工程で分類された単語を、音素認識部から出
力される音素列と比較する先頭音素列比較工程と、この
比較工程で、先頭部分が一致するもののうち、一致部分
が最も長い単語を選択する一致部分最長単語選択工程と
でマッチング処理を行うようにしたことを特徴とするも
のである。
【0011】第2発明は、先頭に同じ音素列を含んでい
るものを分類し、その類が同じ類に属すると判定された
単語が既に計算されているときには、その計算結果を次
の単語の計算時に利用するようしたことを特徴とするも
のである。
【0012】第3発明は、既に計算されている結果を、
最終的なマッチング距離を求めるのに最低限必要な部分
だけ用いたことを特徴とするものである。
【0013】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1はこの発明の実施の第1形態
を述べるブロック構成図で、図1において、1は、図7
に示す離散単語音声認識システムの辞書テンプレート1
6に含まれている先頭音素列が一致する単語を分類する
ための先頭音素列単語分類工程で、この先頭音素列単語
分類工程1により先頭音素列が一致する単語が分類され
る。この工程1で分類された単語は、先頭音素列比較工
程2で音素認識部14から出力される音素列と比較され
る。このとき、単語番号が自身より低いもののうちで、
先頭部分が一致するもののうち、一致部分が最も長い単
語を一致部分最長単語選択工程3で選択する。このよう
にして音素列と辞書テンプレート16とのマッチング処
理を行うことによりマッチング時の計算処理量を低減す
ることができる。
【0014】次に上記第1形態の作用を述べる。辞書
(単語)テンプレート16の中には、先頭音素列が一致
している単語群がある。例えば、「えいきゅう(eikyu
u)」と「えいゆう(eiyuu)」の場合、どちらも先頭に
「えい(ei)」が含まれている。この2つの単語を含む辞
書テンプレート16についてDPマッチング処理を行う
場合、図2に示すように、先頭部分「えい(ei)」(図中
斜線部分のマッチング距離)に関しては一致し、同じ計
算を重複して行うことになる。このため、図2の斜線部
分は重複計算となる無駄な計算を行なっていることにな
る。
【0015】このため、先頭に同じ音素列を含んでいる
ものを分類し、前記一致部分最長単語選択工程3で、先
頭部分が一致するもののうち、一致部分が最も長い単語
を選択することによりマッチング時の計算処理を低減で
きるようになる。
【0016】図3は上記第1形態における先頭が一致す
るときの単語を分類するアルゴリズムを示すフローチャ
ートであり、以下に示す用語はその変数の定義である。 word num:辞書単語数 word len[word]:単語番号wordの単語テンプレート長 word temp[word][n]:単語番号wordのテンプレート中
の、第n番目の音素 same word[word]:単語番号wordと先頭が一致する単語
の、単語番号 same len[word]:単語番号wordと先頭が一致した単語
の、一致した音素数。
【0017】図3において、先頭が一致するときの単語
は、次に示すアルゴリズムのように処理される。 0<=word<word numについて、same word[word]=wor
d,same len[word]=0(初期化) i=0 j=i+1 n=0,counter=0 word temp[i][n] !=word temp[j][n]ならば、へ word temp[i][n]=word temp[j][n]ならば、counter
をインクリメント nをインクリメント n>=word len[i] or n>=word len[j]ならば、以下
を実行、そうでなければへ もし、counter>same 1en[j]ならば、same len[j]=co
unter,same word[j]=iとする。
【0018】(10) jをインクリメント (11) j>=word numならば、(12)を実行、そうでなけれ
ばへ (12) iをインクリメント (13) i>=word num-1ならば終了、そうでなければへ 次に、この発明の実施の第2形態であるマッチング時の
計算削減法について述べる。この第2形態は、DPマッ
チング距離dist[word]を求める際に、前記第1形態で、
同じ分類に属すると判定された単語が既にDP計算され
ている場合には、その計算結果を利用すると、マッチン
グ時の計算処理量を削減することができるようにしたも
のである。
【0019】以下に変数の定義とアルゴリズムを示す。 g[word][i][n]:入力音素列T第iフレーム、wordの第nフ
レームまでのマッチング距離 d[word][i][n]:Tの第iフレームと、wordの第nフレーム
との音素間距離 word num:辞書単語数 word 1en[word]:辞書単語wordのテンプレート長。
【0020】計算削減処理を施したDPマッチングのア
ルゴリズムのフローチャートを図4に、そのアルゴリズ
ムを以下に示す。 0<=word<word numについて、−を実行 same word[word]=wordの場合、以下を実行、そう
でなければ、通常のDPを実行 0<=i<Iについて、−を実行 0<=n<same len[word]について、を実行 g[word][i][n]=g[same word[word]][i][n] same len[word]<=n<wordについて、を実行 g[word][i][n]=min{g[word][i-1][n],g[word][i-1]
[n-1],g[word][i-1][n-2]}+d[word][i][n] dist[word]=g[word][I-1][word 1en[word]] 次に、この発明の実施の第3形態を述べる。上記第2形
態では、計算を省略した部分についても、g[word][i]
[n]の代入処理を行なっている。しかし、DP計算結果
で必要な値は、最終的には、g[word][I-1][word len-
1]のみであり、極端にいえば、(n<word 1en-1)なる
箇所での、g[word][i][n]の値は不要である。
【0021】従って、g[word][I-1][word len-1]を求め
るためには、最低限必要な箇所のみについて、代入処理
を行なうことにより、更なる処理量の削減を行なうこと
が出来る。従って、図5に示す斜線部分全てを利用しな
くても図示点線より上の斜線部分だけが分かれば、最終
的なマッチング距離を求めることができる。すなわち、
最終的なマッチング距離を求めるのに、最低限必要な部
分だけにする。
【0022】以下、図8に示したDPマッチング計算用
パスの説明図における2段下のテンプレート音素から遷
移可能なパスについての方法を述べる。
【0023】図6は、計算削減処理を施した場合のDP
マッチング法のアルゴリズムを示すフローチャートであ
る。 0<=word<word numについて、−を実行 same word[word]=wordの場合、以下を実行、そう
でなければ、通常のDPを実行 0<=i<Iについて、−を実行 same len[word]-2<=n<same len[word]について、
を実行 g[word][i][n]=g[same word[word]][i][n] same len[word]<=n<word len[word]について、を
実行 g[word][i][n]=min{g[word][i-1][n],g[word][i-1]
[n-1],g[word][i-1][n-2]}+d[word][i][n] dist[word]=g[word][I-1][word 1en[word]] 表1に、上記第3形態を使用した場合において、どの程
度計算量が削減されたかを示す。ここでは、DPマッチ
ングアルゴリズムとして、連続単語認識に利用される
「拡張連続DP」を用いて実験した。DP計算量・処理
時間が共に約1割削減されていることが分かる。
【0024】
【表1】
【0025】なお、実験条件は次のようにした。 使用辞書:音素バランス101単語+2単語(無音)、 辞書テンプレート平均長:約50フレーム 入力音声:約1.1秒のデータ(音素フレーム数91)
【0026】
【発明の効果】以上述べたように、この発明によれば、
同じ先頭音素列を持っ辞書(単語)テンプレートを分類
し、DP計算結果を共有することにより、重複したマッ
チング計算を省略できる。また、計算を省略することに
より、最終的なマッチング結果を求めるのに必要な箇所
だけを参照するだけで、更に処理量削減が行なえる利点
がある。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示すブロック構成
図。
【図2】DPマッチング計算時の重複説明図。
【図3】第1形態における先頭が一致するときの単語を
分類するアルゴリズムを示すフローチャート。
【図4】この発明の実施の第2形態を示すDPマッチン
グのアルゴリズムを示すフローチャート。
【図5】この発明の実施の第3形態を述べるための説明
図。
【図6】第3形態を示すDPマッチングのアルゴリズム
を示すフローチャート。
【図7】離散単語音声認識システムを示す概略構成図。
【図8】DPマッチング計算用パスの説明図。
【図9】入力音素列対テンプレートによるマッチング距
離説明図。
【図10】DPマッチングアルゴリズムを示すフローチ
ャート。
【符号の説明】
1…先頭音素列単語分類工程 2…先頭音素列比較工程 3…一致部分最長単語選択工程 11…音声入力装置 12…音声入力部 13…特徴抽出部 14…音素認識部 15…マッチング部 16…辞書テンプレート

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 電話やマイクロフォンなどの音声入力装
    置から音声データが音声入力部に入力された後、この音
    声入力部で音声データは、A/D変換されて、特徴抽出
    部に供給され、出力にスペクトル列を得、このスペクト
    ル列を、音素認識部に入力して出力に音素列を得、この
    音素列を、マッチング部で辞書テンプレートの単語テン
    プレートとの照合を行って、最も類似する単語又は単語
    列を結果としてマッチング部から出力するようにした単
    語音声認識装置において、 前記辞書テンプレートに含まれている先頭音素列が一致
    する単語を分類する先頭音素列単語分類工程と、この先
    頭音素列単語分類工程で分類された単語を、音素認識部
    から出力される音素列と比較する先頭音素列比較工程
    と、この比較工程で、先頭部分が一致するもののうち、
    一致部分が最も長い単語を選択する一致部分最長単語選
    択工程とでマッチング処理を行うようにしたことを特徴
    とする音声認識装置における音素計算処理量削減方法。
  2. 【請求項2】 先頭に同じ音素列を含んでいるものを分
    類し、その類が同じ類に属すると判定された単語が既に
    計算されているときには、その計算結果を次の単語の計
    算時に利用するようしたことを特徴とする請求項1記載
    の音声認識装置における音素計算処理量削減方法。
  3. 【請求項3】 既に計算されている結果を、最終的なマ
    ッチング距離を求めるのに最低限必要な部分だけ用いた
    ことを特徴とする請求項2記載の音声認識装置における
    音素計算処理量削減方法。
JP10213364A 1998-07-29 1998-07-29 音声認識装置における音素計算処理量削減方法 Pending JP2000047690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10213364A JP2000047690A (ja) 1998-07-29 1998-07-29 音声認識装置における音素計算処理量削減方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10213364A JP2000047690A (ja) 1998-07-29 1998-07-29 音声認識装置における音素計算処理量削減方法

Publications (1)

Publication Number Publication Date
JP2000047690A true JP2000047690A (ja) 2000-02-18

Family

ID=16637965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10213364A Pending JP2000047690A (ja) 1998-07-29 1998-07-29 音声認識装置における音素計算処理量削減方法

Country Status (1)

Country Link
JP (1) JP2000047690A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169418A (ja) * 2008-01-16 2009-07-30 Harman Becker Automotive Systems Gmbh フラグメントを使用した大規模なリストにおける音声認識
JP2014066779A (ja) * 2012-09-25 2014-04-17 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169418A (ja) * 2008-01-16 2009-07-30 Harman Becker Automotive Systems Gmbh フラグメントを使用した大規模なリストにおける音声認識
JP2014066779A (ja) * 2012-09-25 2014-04-17 Seiko Epson Corp 音声認識装置及び方法、並びに、半導体集積回路装置

Similar Documents

Publication Publication Date Title
JP2815579B2 (ja) 音声認識における単語候補削減装置
US20040236577A1 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
EP1565906A1 (en) Speech recognition device and method
Boite et al. A new approach towards keyword spotting.
US6230126B1 (en) Word-spotting speech recognition device and system
US20030023434A1 (en) Linear discriminant based sound class similarities with unit value normalization
JP2000047690A (ja) 音声認識装置における音素計算処理量削減方法
JPH09198082A (ja) 音声認識装置
JP2000163089A (ja) 音声認識装置におけるマッチング処理方法
JPH10116093A (ja) 音声認識装置
JP2000267691A (ja) 音声認識システムにおける認識辞書選択方法
JP3518195B2 (ja) 音声認識装置
JPH0822296A (ja) パターン認識方法
JPH06130993A (ja) セグメンテーション及び音素の大分類認識法
JPH05158493A (ja) 音声認識装置
JPH09212190A (ja) 音声認識装置及び文認識装置
JPH103296A (ja) 音声認識システムにおける単語予備選択装置
JP2000056794A (ja) 音声認識システム及び記録媒体
JPH11237893A (ja) 音声認識システムにおける音素認識方法
JPH06175678A (ja) 音声認識装置
JPH11224098A (ja) 単語音声認識システムにおける環境適応装置
KR100339525B1 (ko) 1,2단계중심어인식방법을이용한생활정보안내장치
JP2665543B2 (ja) 音声認識装置
JPH10143190A (ja) 音声認識装置