JP2760096B2

JP2760096B2 - 音声認識方式

Info

Publication number: JP2760096B2
Application number: JP1281873A
Authority: JP
Inventors: 潤亀谷
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1989-10-31
Filing date: 1989-10-31
Publication date: 1998-05-28
Anticipated expiration: 2013-05-28
Also published as: JPH03145167A

Description

【発明の詳細な説明】［産業上の利用分野］本発明はパタン照合型の音声認識方式に関する。

［従来の技術］従来この種の音声認識方式は，第２図に示す様な構成
となっている。第２図において,1はマイクロフォン等の
音声入力部,2は入力される音声信号を無音区間から分離
する始終端検出部,3は音声信号からパタン照合に適した
特徴量を抽出する特徴量計算部,6は標準パタンと抽出し
た特徴量の間でDPマッチング等を実行するパタン照合
部,7は登録された標準パタンを蓄積しておく標準パタン
メモリ部、11はパタン照合の結果より上位の認識処理を
行なう上位認識部である。

［発明が解決しようとする課題］上述した従来の音声認識方式では，パタン照合の際に
用いられる特徴量として，メルケプストラム,LPCケプス
トラム等のケプストラム系の特徴量またはバンドパスフ
ィルタ群の出力などが主に使用されて来た。しかしなが
らこれらの特徴量はすべて音声のスペクトル構造に基づ
く特徴量であり，時間的に定常な過程に対しては音韻の
違いによる差異が明確に出るが，時間的に非定常な過程
に対しては音韻間の差がぼやけてしまうという欠点があ
った。

すなわち，従来の特徴量は，母音の様に時間的に定常
過程と見なせるものについては音韻間の識別が容易であ
るが，子音や子音から母音または母音から子音への過渡
区間等の，時間的に非定常過程と考えなければならない
区間では音韻間の識別が困難となる。この結果,/kizjut
u/（奇術）と/gizjutu/（技術）等の母音系列が似てい
る単語は，子音の違いが明確に表われず，誤認識しやす
い。この様に，従来の特徴量のみを用いた音声認識方式
では，音声の非定常部分がパタン識別の際にあまり寄与
しておらず，ひいては認識率が向上しない一因となって
いた。

本発明は音声の非定常部分がパタン認識に寄与するよ
うな音声認識方式を得ようとするものである。

［課題を解決するための手段］本発明の音声認識方法は、母音・子音を認識単位とし
て選ばない、いわゆる『連続発生による単語・語句』音
声認識方式において、音声の定常部分と過渡部分とに着
目し、パタン照合に使用する特徴量として通常の特徴と
その差分特徴量とを選択してパタン照合を行なうように
したものである。

即ち、本発明によれば、母音・子音を認識単位として
選ばない音声認識方式であって、通常のパラメータであ
る特徴量を計算する手段と、得られたパラメータの差分
を計算する手段と、通常のパラメータでパターン照合を
行なう手段と、差分パラメータでパターン照合を行なう
手段と、通常のパラメータ又は差分パラメータの一方を
選択する手段を持ち、音声の非定常な部分においては、
前記差分パラメータによる線形パターン照合を行ない、
音声の定常な部分においては、前記通常のパラメータに
よる非線形パターン照合を行なうことを特徴とする音声
認識方式が得られる。

［実施例］次に、本発明について図面を参照して説明する。第１
図は本発明の一実施例の構成図である。音声入力部１は
マイクロフォン等を通じて入力される音声信号をディジ
タル化するユニットである。始終端検出部２は入力され
た音声信号の前後にある無音区間から音声区間だけを分
離するユニットである。特徴量計算部３は分離後の音声
信号から通常の特徴量を計算するユニットである。差分
特徴量計算部４は特徴量計算部３で求めた特徴量の差分
を計算するユニットである。特徴量選択部５は差分特徴
量計算部４で求めた差分特徴量の大きさを判定基準にし
て通常の特徴量によるパタン照合か差分特徴量によるパ
タン照合かを選択するユニットである。パタン照合部６
は通常の特徴量によるパタン照合を行なうユニットであ
る。標準パタンメモリ部７は通常の特徴量の時系列で現
わされる標準パタンを格納するユニットである。差分パ
タン照合部８は差分特徴量によるパタン照合を行なうユ
ニットである。差分標準パタンメモリ部９は差分特徴量
の時系列で表わされれる標準パタンを格納するユニット
である。照合結果結合部10はパタン照合部６および差分
パタン照合部８の各ユニットから出力される照合結果を
特徴量選択部５からの選択信号に基づき結合して、連続
したひとつの照合結果の系列に変換するユニットであ
る。上位認識部11は照合結合部10からの出力系列に基づ
き単語レベル、語句レベルの認識を行なうユニットであ
る。

以下にこの実施例の動作を簡単に説明する。まず、話
者の発声した音声信号を含む入力信号は、マイクロフォ
ン等を通じて音声入力部１に入力される。音声入力部１
において、入力信号はアナログ信号からディジタル信号
に変換され、次のユニットに送られる。

始終端検出部２に送られた入力信号は、数十〜数百個
サンプル毎にフレーム単位にまとめられ、フレーム内の
平均パワー、零交差回数等の情報に基づき、無音区間か
音声区間かの判定がフレーム単位で行なわれる。ここで
音声区間と判定された区間が順次特徴量計算部３に送ら
れる。

次の特徴量計算部３において、送られて来た音声フレ
ームデータはフレーム単位でメルケプストラム分析等の
従来の方法で分析され、得られた特徴量は次のユニット
である差分特徴量計算部４と特徴量選択部５に送られ
る。

差分特徴量計算部４は、受け取ったフレーム単位の特
徴量系列をリングバッハァに格納しておき、現在フレー
ムの特徴量と数フレーム前の特徴量を用いて、次式の計
算式より現在フレームにおける差分特徴量を計算する。

この式において，はｋ番めのフレームにおける特徴ベクトル量，はｋ−ｎ番めのフレームにおける特徴ベクトル量，はｋ番めのフレームにおける差分特徴ベクトル量,nは差
分を求める区間長に相当する遅延フレーム数，αは差分
特徴量に対する重み係数である。なお,k＜ｎ＋１に対す
る（ゼロベクトル）と定義する。

差分特徴量計算部４で計算された各フレーム毎の差分
特徴量は特徴量選択部５に送られ、各フレーム毎に選択
しきい値θ差分特徴量の大きさ（ベクトルの場合はベク
トルの絶対値）が比較され差分特徴量の大きさがθより
も越えた区間については、差分特徴量を用いたパタン照
合が選択される。この場合は、差分特徴量計算部４で計
算された差分特徴量がθを越え続けるフレームの間だけ
差分パタン照合部８に送られ、該当フレームにおける特
徴量計算部３で計算された通常の特徴量は、パタン照合
部６には送信されない。また差分特徴量計算部４で計算
された差分特徴量がθ以下の場合は、該当フレームにお
ける差分特徴量は差分パタン照合８に送信されず、代り
に特徴量計算部３で計算された通常の特徴量がパタン照
合部に送られる。

パタン照合部６においては、特徴量選択部５から送ら
れて来る連続したフレームの特徴量系列に対して、標準
パンタメモリ部７に格納されている定常母音標準パタン
と非線形マッチングを行ない，その部分系列に最適に照
合の取れた標準パタンのカテゴリ番号を照合結果結合部
10に送る。

また，差分パタン照合部８においては，特徴量選択部
５から送られてくる連続したフレームの差分特徴量系列
に対して，差分標準パタンメモリ部９に格納されている
非定常区間の標準パタンと線形マッチングを行ない，そ
の部分系列に最適に照合の取れた標準パタンのカテゴリ
番号を照合結果結合部10に送る。差分パタン照合部８に
おいて非線形マッチングではなく線形マッチングを行な
うのは，音声信号の時間軸方向の伸縮は主に母音定常部
で起り子音や過渡区間では置きにくいので，非線形マッ
チングによる無理なマッチングを防止するためである。

パタン照合部６と差分パタン照合部８から送られる部
分系列に対する照合結果は，照合結果結合部10において
ひとつの系列にまとめられる。この別々に照合された部
分系列をひとつに結合するためには，特徴量選択部５か
ら送信されるフレーム番号とどちらの特徴量で照合を取
ったのかに関する情報を用いる。この情報から連続した
フレームの部分系列毎に候補カテゴリ番号を割付けて行
き，最終的にフレーム単位の特徴量系列を候補カテゴリ
番号の系列に変換する。候補カテゴリ番号系列は上位認
識部11に送られ，ここで認識システムのタスクに応じ
て，音節単位あるいは単語単位の認識が行われる。

この認識方式における標準パタンの登録方法は以下の
様にして行なう。まず認識システムのタスクに応じて，
離散単語認識ならば単語単位，文章認識ならば語句単位
で発声した標準音声パタンを音声入力部１に入力する。
標準音声パタンは始終端検出部２で音声区間のみ分離さ
れ，この際必要ならば視察で始終端フレームを同定し，
特徴量計算部３にてフレーム単位に特徴量を算出する。
この特徴量系列から差分特徴量計算部４にて差分特徴量
を計算する。この差分特徴量系列を特徴量選択部５に入
力して，差分特徴量の大きさが規定のθを越える区間の
部分差分特徴量系列を子音・過渡区間に対する標準パタ
ン，またθ以下の区間の部分特徴量系列を定常母音区間
に対する標準パタンとする。特徴量選択部５から照合結
果結合部10に出力されるフレーム番号とどちらの特徴量
を選択したかの情報を基に，始終端検出部２からの出力
を観察でセグメンテーションを行ない，選択された各部
分区間の標準パタンにカテゴリ番号をラベリングしてい
く。このラベリング後の標準パタンを特徴量系列のもの
と差分特徴量系列のものとに分け，それぞれ標準パタン
メモリ部７と差分標準パタンメモリ部９に，カテゴリ番
号情報と共に格納する。

［発明の効果］以上説明したように本発明は，通常の音声認識に使用
される特徴量の差分をパタン照合の際の特徴量として併
用し，差分特徴量がある一定の大きさを越える区間にお
いては差分特徴量を，差分特徴量がある一定の大きさ以
下の区間においては通常の特徴量を照合の基準として用
いる事により，従来の特徴量のみ使用した場合に発生す
る，母音系列の似た単語間の誤認識を減少することがで
きるという効果がある。

また，差分特徴量は音韻の時間的構造を反映するた
め，子音や過渡区間等の時間的変化が聴覚的に寄与する
音韻の識別率を高く望めること，音韻系列の中で定常母
音，子音・音韻過渡区間に相当する部分系列に対して各
標準パタンを作成することにより，音節よりも短かい擬
似音素的な単位で音声認識ができるため，音声による文
章認識や大語彙認識のシステムの下位レベルの認識部と
して利用できるという効果がある。

【図面の簡単な説明】

第１図は本発明の概略構成図，第２図は従来の装置の概
略構成図である。記号の説明:1は音声入力部,2は始終端検出部,3は特徴量
計算部,4は差分特徴量計算部,5は特徴量選択部,6はパタ
ン照合部,7は標準パタンメモリ部,8は差分パタン照合
部,9は差分標準パタンメモリ部,10は照合結果結合部,11
は上位認識部。

フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 571 G10L 5/06

Claims

(57)【特許請求の範囲】

【請求項１】母音・子音を認識単位として選ばない音声
認識方式であって、通常のパラメータである特徴量を計
算する手段と、得られたパラメータの差分を計算する手
段と、通常のパラメータでパターン照合を行なう手段
と、差分パラメータでパターン照合を行なう手段と、通
常のパラメータ又は差分パラメータの一方を選択する手
段を持ち、音声の非定常な部分においては、前記差分パ
ラメータによる線形パターン照合を行ない、音声の定常
な部分においては、前記通常のパラメータによる非線形
パターン照合を行なうことを特徴とする音声認識方式。