JPH02302799A

JPH02302799A - 音声認識方式

Info

Publication number: JPH02302799A
Application number: JP1123612A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-05-17
Filing date: 1989-05-17
Publication date: 1990-12-14
Anticipated expiration: 2014-02-10
Also published as: JP2856429B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、音め認識装置に用いられる音声認識方式に係
り、特に認識対象外音声が入力されたときにリジェクト
する技術を改良した音声認識方式に関する。

（従来の技術）音声による情報の人出力は人間にとって自然性が高く、
マン・マシン・インタフェイスとして優れており、従来
から種々研究されている。

二のようなことを目的とした音声認識方式として、あら
かじめ収集された学習音声パターンに対して平滑処理や
微分処理を泡して作成した標準パターンと、入力された
音声を分析処理して求められる入力音声パターンの平滑
パターンとの間で類似度を＝１′算することにより、入
力された音声を認識するものがある（特願昭６２−２５
２１０８号り照）。

また、このような音声４エにおいて、入力された音声が
認識対象音声であるか否かの判定は、上記標準パターン
と入力音声パターンの平滑パターンとの間で計算した類
似度を用いて行なっていた。

（発明が解決しようとする課題）上記したように、認識対象音声であるか否かの判定は、
標準パターンと入力音声パターンの平滑パターンとの間
で計算した類似度を用いて行なっているため、認識対象
外音声を入力した場合でも上記類似度が高（なり、誤認
識するという問題があった。

ここで、そのことについて第３図を用いて詳細に説明す
る。たとえば学習音声パターンが第３図（ａ）に示すよ
うなパターンで、認識対象外の入力音声パターンの平滑
パターンが第３図（ｂ）に示すようなパターンであった
とすると、これら両パターン間で計算される類似度は第
３図（Ｃ）に示すようになり、高いレベルの類似度が得
られてしまう。このため、誤認識が生じ、認識対象外音
声が入力されても、これをリジェクト（拒否）すること
が不可能であった。

そこで、本発明は、認識対象外音声が入力された場合に
は、これを誤認識せずに高い精度で拒否することが可能
となる音声認識方式を提供することを目的とする。

［発明の構成］（課題を解決するための手段）本発明は、入力された音声を分析処理して求められる入
力音声パターンと、あらかじめ収集された学習音声パタ
ーンに基づいて作成されている標準パターンとの間で類
似度または差異を計算することにより、前記入力された
音声を認識する音声認識方式において、前記学習音声パ
ターンに対して少なくとも平滑処理と微分処理とを施す
複数のフィルタを用いて前記標準パターンを作成し、微
分処理によって得た前記標準パターンの軸と、入力音声
パターンを微分処理して得た微分パターンとの間で類似
度または差異を計算し、認識対象音声であるか否かを判
定することを特徴とする。

（作用）学習音声パターンと入力音声パターンの両方を微分処理
し、音声パターンの特徴をより強調することにより、類
似度の大きさが音声パターンの相違に敏感になるので、
認識対象外音声が入力された場合には、これを誤認識せ
ずに高い精度で拒否することが可能となる。

（実施例）以下、本発明の一実施例について図面を参照して説明す
るｂ第１図は、本発明に係る音声認識方式を適用して構成さ
れる音声認識装置の概略構成図である。

すなわち、図示しない音声入力部から入力された音白を
電気信号に変換して取込み、バンド・バス・フ、イルタ
などからなる音響分析部１にて音響分析し、音声区間検
出部２にてその単語音声区間を検出する。音声区間検出
された入力音声パターンから、標本点抽出部３にて上記
音声区間を時間方向に等分分割した所定点数の標本点を
抽出し、（特徴ベクトルの数×標本点数）で示される標
本パターンを求める。このようにして求めた標本パター
ンは、認識対象とするカテゴリごとに所定数ずつ収集し
て音声パターン蓄積部４に格納される。

そして、標準パターン６の作成は、音声パターン蓄積部
４に蓄積された標本パターンに対して、少なくとも平滑
処理および微分処理を実行する複数のフィルタ、たとえ
ば複数の直交化時間フィルタからなる直交化時間フィル
タ部５によって行なう。

なお、ここでは、音声パターン蓄積部４に収集される学
習ＴＨＡパターンとしては、たとえばｊ　　（−１，２
，〜１６）で示される１６点の音響分析された特徴ベク
トルからなり、その音声区間をｋ　（−０，１，２，〜
１７）として１７等分する１８個の標本点に亙って採取
したデータ系列として与えられるものとして説明する。

さて、直交化時間フィルタ部５は、カテゴリｉについて
３個ずつ収集されたｍ番目の学習音声パターンをａ。（
ｊ、ｋ）としたとき、次のようにして標準パターン６を
作成している。

（１）　　まず、カテゴリｉの学習音声パターンａｌｌ
（ｊ、ｋ）から、その平均パターンＡ（ｊ、ｋ）を［ｊ　−１，２，〜ｔｅ、ｋ　−０，１，２，〜１７］
として求める。

（２）シかる後、上述した如くして求めた平均パターン
Ａ（ｊ、ｋ）を用いて、ｂｌ　　（ｊ、ｋ）＝Ａ（ｊ、に−１）＋２＊Ａ（ｊ、
ｋ）＋ＡＵ、に＋１）・・・（２）［ｊ　＝　１．２．〜１Ｂ、　　ｋ−１，２，〜１８］
なる演算にて標準パターンの第１軸ｂ１　＜ｊ、ｋ）を
求め、これを標準パターン６に登録する。この標準パタ
ーンｂｌ　　（ｊ、ｋ）は、平均パターンＡ（ｊ、ｋ）
を時間軸方向に平滑化したものとして求められ、標準パ
ターン６の基準となる第１軸のデータとして登録される
。

（３）シかる後、上記Ｖｒｔ均パ均一ターンｊ、ｋ）を
用い、ｂ２　　（ｊ、　　ｋ）　−−Ａ　（ｊ、　　ｋ−１）
　＋Ａ　（ｊ、　　ｋ＋１　）　　　　　・　（３）［
ｊ　−１，２，〜１Ｂ、ｋ　−１，２，〜１Ｂ］なる演
算にて標準パターンの第２幀ｂ２（ｊ、ｋ）を求め、こ
れを正規化した後、標準パターン６に登録する。この標
準パターンｂ２　　（ｊ、ｋ）は、平均パターンＡ（ｊ
、ｋ）を時間軸方向に微分したものとして求められる。

以上の（１）〜（３）の処理を各カテゴリごとに繰返し
実行することによって、標準パターン６が作成される。

なお、この直交化時間フィルタ部５による処理手順を次
のように代えても、はぼ同等な標準ノ＜ターン６を作成
することができる。すなわち、（１）収集された学習音
声パターンａｍ　（ｊ、ｋ）からｂｌ　（ｊ、　ｋ）＋ａｍ（ｊ、　ｋ＋１　）　ｌ　　　　　　　　　　　
　　　・・・（４）［ｊ　　−１，２，〜１Ｂ、　　ｋ
−１，２，〜１６］としてＩＳパターンの第１軸ｂｌ　
　（ｊ、ｋ）を求め、これを標準パターン６に登録する
。

（２）　　続いて学習音声パターンａｌ（ｊ、ｋ）からｂ２　　（ｊ、　　ｋ）［ｊ　＝　１．２．〜１Ｂ、　　ｋ−１，２，〜１６］
として標準パターンの第２軸ｂ２　　（ｊ、ｋ）を求め
、これを標準パターン６に登録する。

このような処理（１）、　（２）をカテゴリの数たけ繰
返し実行する。すなわち、前述したように−は・１４均
パターンＡ　（ｊ、ｋ）を計算することなしに、収集さ
れた所定の学習ぎ声パターンａＩ、Ｉ　（ｊ、ｋ）から
時間軸方向に平滑化した標準パターンの第１軸ｂｌ　　
（ｊ、ｋ）と、時間軸方向に微分した標準パターンの第
２！ｔｌｂ２　　（ｊ、ｋ）をそれぞれ直接的に計算す
るようにしてもよい。

ところで、上述した説明では、標準パターン６として２
軸までを求める例について示したか、更に２次微分を行
なうなどして標準パターンの３輔以降を作成するように
してもよい。この場合には、学習音声パターンとして前
述した１８点ではなく、たとえば２０点以上の標本点を
抽出したちのを用いるようにすればよい。この場合には
、たとえばｂＬ　　　（ｊ、　　　ｋ）　　＝Ａ　　（
ｊ、　　　ｋ−２）　　＋４＊Ａ　　（ｊ、　　　ｋ　
−１）　　−）６＊Ａ　（ｊ、ｋ）＋４＊Ａ　（ｊ、に
＋１　）　＋Ａ　（ｊ、に＋２　）・・・（６）［ｊ　−１，２，〜ＩＣ，ｋ−１，２，〜１Ｂ］として
標準パターンの第１軸ｂｌ　　（ｊ、ｋ）を求め、またｂ２　（ｊ、　ｋ）　＝−Ａ　（ｊ、　ｋ　−２）　−
２＊Ａ　（ｊ、　ｋ　−１）＋２＊Ａ　（ｊ、に＋１　
）＋Ａ　（ｊ、に＋２　）・・・（７）［ｊ　−１，２，〜１Ｇ、　　ｋ−１，２，〜１６］と
して標僧パターンの第２軸ｂ２　　（ｊ、ｋ）を求める
ようにすればよい。そして、２次微分した標４　パター
ンの第３軸ｂ３　　（ｊ、ｋ）についてはｂ３　（ｊ、
　ｋ）　＝−Ａ　（ｊ、　ｋ−２）　−２＊Ａ　（ｊ、
　ｋ　−１）　＋３＊Ａ　（Ｊ、　ｋ）　　２＊Ａ　（
ｊ、　ｋ＋１　）　　Ａ　（Ｊ、　ｋ＋２　）・・・（
８）［ｊ　＝　１．２．〜１Ｂ、　　ｋ　−１，２，〜１Ｂ
］として求めるようにすればよい。

次に、音声認識時の類似度演算について説明する。認識
用類似度演算部７は、上述した如く作成された標準パタ
ーン６の全ての軸と、入力音声Ｖの標本パターンＷを平
滑パターン作成部８においてＸ　（ｊ、　ｋ）　＝Ｗ（ｊ、　ｋ−１）　＋２＊Ｗ（
ｊ、　ｋ）　＋Ｗ（Ｌ　　ｋ＋ｌ　）・・・（９）［）　　−１，２，〜１Ｂ、　　ｋ−１，２，〜１６］
として平滑処理した平滑パターンＸとの間でとして、カ
テゴリｌの標準パターンｂ　Ｉ、ｒとの間の類似度を計
算するもので、この類似度にしたか。

って判定部９で入力音声Ｖを認識する。

なお、カテゴリｉの標準パターンｂ１．ｒは、あらかじ
め正規化されたものであり、Ｋｌはカテゴリｉの標準パ
ターンの個数（軸数）を示している。

また、（・）は内積、１１１１はノルムを示す。

次に、入力音声が認識対象単語であるか否かを判定する
方法について説明する。たとえば、前記認識処理におい
て、入力音声Ｖ１．：対する認識結果がカテゴリＩであ
った場合について説明する。リジェクト用類似度演算部
１０は、前述した如く作成されたカテゴリＩの標準パタ
ーン６の第２軸と、入力音声Ｖの標本パターンＷを微分
パターン作成部】１においてＹ　（ｊ、　ｋ）　−−Ｗ　（ｊ、　ｋ−１）　＋Ｗ　
（ｊ、　ｋ＋ｌ　）　　・・・（１１）［ｊ　−１，２
，〜１８．　　ｋ−１，２，〜１Ｂ］として微分処理し
た微分パターンＹとの間でとして、カテゴリｌの標準パ
ターン６の第２軸ｂ１．２との間の類似度を計算するも
ので、この類似度値にしたがって判定部９で入力音声■
が認識対象：１を語であるか否かを判定する。この類似
度値による判定で、入力音声Ｖが認識対象外単語である
と判定された場合には、前記認識処理で得た認識結果の
カテゴリＩは拒否され、必要に応じて再発声の要求など
が行なわれる。

このようにして、入力音声の標本パターンの微分パター
ンと、４工処理によって得た認識結果のカテゴリの標準
パターン６の第２軸との間で求めた類似度によってリジ
ェクト処理を行なう本方式によれば、入力音声を微分処
理することによって、上記リジェクト用類似度値が入力
音声の差異に敏感に応答するようになり、入力音声をそ
のまま類似度演算に用いたり、平滑処理してから類似度
演算に用いて得たりジエクト用類似度演算直によるリジ
ェクト処理よりも高い精度で、認識対象外単語を拒否す
ることか可能となり、実用的効果が多大である。

ここで、そのことについて第３図を用いて詳細に説明す
る。前述した例と同様に、たとえば学習音声パターンか
第３図（ａ）に示すようなパターンで、認識対象外の入
力音声パターンの平滑パターンが第３図（ｂ）に示すよ
うなパターンであったとすると、これら両バ・ターンの
微分パターンはそれぞれ第３図（ｄ）（ｅ）となり、こ
れら両微分パターン間で計算される類似度は第３図（ｆ
）に示すようになり、はぼ零の類似度となる。したがっ
て、従来のような誤認識は生じない。

このように、学習音声パターンと入力音声パターンの両
方を微分処理し、音声パターンの特徴をより強調するこ
とにより、類似度の大きさが音声パターンの相違に敏感
に応答するようになる。したかって、認識対象外音声が
入力されても、これを誤認識せずに高い精度で拒否する
ことができるものである。

第２図は、本発明の性能を調べるために行なった実験の
結果をグラフに示したものである。認識対象単語は人名
２０単語とし、各単語それぞれ３回発声して標準パター
ンを作成し、認識時には、認識対象単語２０単語と認識
対象外単語２０単語の合せて４０単語をそれぞれ２回発
声して認識実験を行なった。話者は、男性７名と女性１
名の合せて８名である。第２図のグラフは、リジェクト
判定に用いる類似度の閾値を変動させたときの認識率を
横軸にとり、拒否率を縦軸にとったものである。ここで
、認識率、拒否率は以下のように定義する。

第２図のグラフにおいて、実線は本発明の実験結果を示
し、破線は前記（ｌＯ）式で示した類似度Ｓｔをそのま
まりジエクト処理に使用した場合の実験結果を示してい
る。

第２図のグラフに示されるように、たとえば９４．０％
の認識率を実現した場合に、従来の方式では約５９６の
拒占率しか得られないのに対して、本発明によれば約３
５％の拒否率が得られ、大幅にリジェクト性能が向上す
ることが明らかとなった。

以上の実験データから、入力音声の微分パターンをリジ
ェクト処理の類似度演算に用いることによって高いリジ
ェクト性能が得られることがわかる。故に、本方式は音
声認識性能の向上を図る上で多大な効果を奏すると言え
る。

なお、本発明は前述した実施例に限定されるものではな
い。たとえば、４エ処理とりジエクト処理の両方に直交
化時間フィルタにより作成した標準パターンを用いたが
、認識処理にはいわゆるＤＰマツチング法などの他の方
式を用いて、リジェクト処理のみに学習音声パターンを
微分処理した標準パターンを用いてもよい。

また、微分処理フィルタの係数としては幾つかのバリエ
ーションが考えられるが、要は学習音声パターンを微分
処理した標準パターンと入力音声パターンを微分処理し
た微分パターンとの間で類似度または差異を求めてリジ
ェクト処理を行なうものであり、種々変形して実施する
ことができる。

さらに、学習音声パターンの次元数なども特に限定され
るものでもなく、本発明はその要旨を逸脱しない範囲で
種々変形して実施可能である。

［発明の効果］以上説明したように本発明によれば、学習音声パターン
と入力音声パターンの両方を微分処理し、音声パターン
の特徴をより強調することにより、類似度の大きさが音
声パターンの相違に敏感になるので、認識対象外音声が
入力された場合には、これを誤認識せずに高い精度で拒
否することが可能となる音声認識方式を提はできる。

【図面の簡単な説明】

第１図は本発明に係る音声認識方式を適用して構成され
る音声認識装置の概略構成図、第２図は本発明の性能を
調べるために行なった実験の結果を示すグラフ、第３図
は認識対象外音声が入力されたときのりジエクト処理を
説明するための図である。１・・・音響分用部、２・・・音声区間検出部、３・・
・標本点抽出部、４・・・音声パターン蓄積部、５・・
・直交化時間フィルタ部、６・・・標準パターン、７・
・・認識用類似度演算部、８・・・平滑パターン作成部
、９・・・判定部、１０・・・リジェクト用類似度演算
部、１１・・・微分パターン作成部。

Claims

【特許請求の範囲】

（１）入力された音声を分析処理して求められる入力音
声パターンと、あらかじめ収集された学習音声パターン
に基づいて作成されている標準パターンとの間で類似度
または差異を計算することにより、前記入力された音声
を認識する音声認識方式において、前記学習音声パターンに対して少なくとも平滑処理と微
分処理とを施す複数のフィルタを用いて前記標準パター
ンを作成し、微分処理によって得た前記標準パターンの
軸と、入力音声パターンを微分処理して得た微分パター
ンとの間で類似度または差異を計算し、認識対象音声で
あるか否かを判定することを特徴とする音声認識方式。
（２）入力された音声を分析処理して求められる入力音
声パターンと、あらかじめ収集された学習音声パターン
に基づいて作成されている第１標準パターンとの間で類
似度または差異を計算することにより、前記入力された
音声を認識する音声認識方式において、前記学習音声パターンに対して微分処理を施して第２標
準パターンを作成し、この作成した第２標準パターンと
入力音声パターンを微分処理して得た微分パターンとの
間で類似度または差異を計算し、認識対象音声であるか
否かを判定することを特徴とする音声認識方式。