JPH02302799A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH02302799A
JPH02302799A JP1123612A JP12361289A JPH02302799A JP H02302799 A JPH02302799 A JP H02302799A JP 1123612 A JP1123612 A JP 1123612A JP 12361289 A JP12361289 A JP 12361289A JP H02302799 A JPH02302799 A JP H02302799A
Authority
JP
Japan
Prior art keywords
pattern
speech
voice
input
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1123612A
Other languages
English (en)
Other versions
JP2856429B2 (ja
Inventor
Yasuyuki Masai
康之 正井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1123612A priority Critical patent/JP2856429B2/ja
Publication of JPH02302799A publication Critical patent/JPH02302799A/ja
Application granted granted Critical
Publication of JP2856429B2 publication Critical patent/JP2856429B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、音め認識装置に用いられる音声認識方式に係
り、特に認識対象外音声が入力されたときにリジェクト
する技術を改良した音声認識方式に関する。
(従来の技術) 音声による情報の人出力は人間にとって自然性が高く、
マン・マシン・インタフェイスとして優れており、従来
から種々研究されている。
二のようなことを目的とした音声認識方式として、あら
かじめ収集された学習音声パターンに対して平滑処理や
微分処理を泡して作成した標準パターンと、入力された
音声を分析処理して求められる入力音声パターンの平滑
パターンとの間で類似度を=1′算することにより、入
力された音声を認識するものがある(特願昭62−25
2108号り照)。
また、このような音声4エにおいて、入力された音声が
認識対象音声であるか否かの判定は、上記標準パターン
と入力音声パターンの平滑パターンとの間で計算した類
似度を用いて行なっていた。
(発明が解決しようとする課題) 上記したように、認識対象音声であるか否かの判定は、
標準パターンと入力音声パターンの平滑パターンとの間
で計算した類似度を用いて行なっているため、認識対象
外音声を入力した場合でも上記類似度が高(なり、誤認
識するという問題があった。
ここで、そのことについて第3図を用いて詳細に説明す
る。たとえば学習音声パターンが第3図(a)に示すよ
うなパターンで、認識対象外の入力音声パターンの平滑
パターンが第3図(b)に示すようなパターンであった
とすると、これら両パターン間で計算される類似度は第
3図(C)に示すようになり、高いレベルの類似度が得
られてしまう。このため、誤認識が生じ、認識対象外音
声が入力されても、これをリジェクト(拒否)すること
が不可能であった。
そこで、本発明は、認識対象外音声が入力された場合に
は、これを誤認識せずに高い精度で拒否することが可能
となる音声認識方式を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、入力された音声を分析処理して求められる入
力音声パターンと、あらかじめ収集された学習音声パタ
ーンに基づいて作成されている標準パターンとの間で類
似度または差異を計算することにより、前記入力された
音声を認識する音声認識方式において、前記学習音声パ
ターンに対して少なくとも平滑処理と微分処理とを施す
複数のフィルタを用いて前記標準パターンを作成し、微
分処理によって得た前記標準パターンの軸と、入力音声
パターンを微分処理して得た微分パターンとの間で類似
度または差異を計算し、認識対象音声であるか否かを判
定することを特徴とする。
(作用) 学習音声パターンと入力音声パターンの両方を微分処理
し、音声パターンの特徴をより強調することにより、類
似度の大きさが音声パターンの相違に敏感になるので、
認識対象外音声が入力された場合には、これを誤認識せ
ずに高い精度で拒否することが可能となる。
(実施例) 以下、本発明の一実施例について図面を参照して説明す
るb 第1図は、本発明に係る音声認識方式を適用して構成さ
れる音声認識装置の概略構成図である。
すなわち、図示しない音声入力部から入力された音白を
電気信号に変換して取込み、バンド・バス・フ、イルタ
などからなる音響分析部1にて音響分析し、音声区間検
出部2にてその単語音声区間を検出する。音声区間検出
された入力音声パターンから、標本点抽出部3にて上記
音声区間を時間方向に等分分割した所定点数の標本点を
抽出し、(特徴ベクトルの数×標本点数)で示される標
本パターンを求める。このようにして求めた標本パター
ンは、認識対象とするカテゴリごとに所定数ずつ収集し
て音声パターン蓄積部4に格納される。
そして、標準パターン6の作成は、音声パターン蓄積部
4に蓄積された標本パターンに対して、少なくとも平滑
処理および微分処理を実行する複数のフィルタ、たとえ
ば複数の直交化時間フィルタからなる直交化時間フィル
タ部5によって行なう。
なお、ここでは、音声パターン蓄積部4に収集される学
習THAパターンとしては、たとえばj  (−1,2
,〜16)で示される16点の音響分析された特徴ベク
トルからなり、その音声区間をk (−0,1,2,〜
17)として17等分する18個の標本点に亙って採取
したデータ系列として与えられるものとして説明する。
さて、直交化時間フィルタ部5は、カテゴリiについて
3個ずつ収集されたm番目の学習音声パターンをa。(
j、k)としたとき、次のようにして標準パターン6を
作成している。
(1)  まず、カテゴリiの学習音声パターンall
(j、k)から、その平均パターンA(j、k)を [j −1,2,〜te、k −0,1,2,〜17]
として求める。
(2)シかる後、上述した如くして求めた平均パターン
A(j、k)を用いて、 bl  (j、k)=A(j、に−1)+2*A(j、
k)+AU、に+1)・・・(2) [j = 1.2.〜1B、  k−1,2,〜18]
なる演算にて標準パターンの第1軸b1 <j、k)を
求め、これを標準パターン6に登録する。この標準パタ
ーンbl  (j、k)は、平均パターンA(j、k)
を時間軸方向に平滑化したものとして求められ、標準パ
ターン6の基準となる第1軸のデータとして登録される
(3)シかる後、上記Vrt均パ均一ターンj、k)を
用い、 b2  (j、  k) −−A (j、  k−1)
 +A (j、  k+1 )     ・ (3)[
j −1,2,〜1B、k −1,2,〜1B]なる演
算にて標準パターンの第2幀b2(j、k)を求め、こ
れを正規化した後、標準パターン6に登録する。この標
準パターンb2  (j、k)は、平均パターンA(j
、k)を時間軸方向に微分したものとして求められる。
以上の(1)〜(3)の処理を各カテゴリごとに繰返し
実行することによって、標準パターン6が作成される。
なお、この直交化時間フィルタ部5による処理手順を次
のように代えても、はぼ同等な標準ノ<ターン6を作成
することができる。すなわち、(1)収集された学習音
声パターンam (j、k)から bl (j、 k) +am(j、 k+1 ) l           
   ・・・(4)[j  −1,2,〜1B、  k
−1,2,〜16]としてISパターンの第1軸bl 
 (j、k)を求め、これを標準パターン6に登録する
(2)  続いて学習音声パターンal(j、k)から b2  (j、  k) [j = 1.2.〜1B、  k−1,2,〜16]
として標準パターンの第2軸b2  (j、k)を求め
、これを標準パターン6に登録する。
このような処理(1)、 (2)をカテゴリの数たけ繰
返し実行する。すなわち、前述したように−は・14均
パターンA (j、k)を計算することなしに、収集さ
れた所定の学習ぎ声パターンaI、I (j、k)から
時間軸方向に平滑化した標準パターンの第1軸bl  
(j、k)と、時間軸方向に微分した標準パターンの第
2!tlb2  (j、k)をそれぞれ直接的に計算す
るようにしてもよい。
ところで、上述した説明では、標準パターン6として2
軸までを求める例について示したか、更に2次微分を行
なうなどして標準パターンの3輔以降を作成するように
してもよい。この場合には、学習音声パターンとして前
述した18点ではなく、たとえば20点以上の標本点を
抽出したちのを用いるようにすればよい。この場合には
、たとえばbL   (j、   k)  =A  (
j、   k−2)  +4*A  (j、   k 
−1)  −)6*A (j、k)+4*A (j、に
+1 ) +A (j、に+2 )・・・(6) [j −1,2,〜IC,k−1,2,〜1B]として
標準パターンの第1軸bl  (j、k)を求め、また b2 (j、 k) =−A (j、 k −2) −
2*A (j、 k −1)+2*A (j、に+1 
)+A (j、に+2 )・・・(7) [j −1,2,〜1G、  k−1,2,〜16]と
して標僧パターンの第2軸b2  (j、k)を求める
ようにすればよい。そして、2次微分した標4 パター
ンの第3軸b3  (j、k)についてはb3 (j、
 k) =−A (j、 k−2) −2*A (j、
 k −1) +3*A (J、 k)  2*A (
j、 k+1 )  A (J、 k+2 )・・・(
8) [j = 1.2.〜1B、  k −1,2,〜1B
]として求めるようにすればよい。
次に、音声認識時の類似度演算について説明する。認識
用類似度演算部7は、上述した如く作成された標準パタ
ーン6の全ての軸と、入力音声Vの標本パターンWを平
滑パターン作成部8において X (j、 k) =W(j、 k−1) +2*W(
j、 k) +W(L  k+l )・・・(9) [)  −1,2,〜1B、  k−1,2,〜16]
として平滑処理した平滑パターンXとの間でとして、カ
テゴリlの標準パターンb I、rとの間の類似度を計
算するもので、この類似度にしたか。
って判定部9で入力音声Vを認識する。
なお、カテゴリiの標準パターンb1.rは、あらかじ
め正規化されたものであり、Klはカテゴリiの標準パ
ターンの個数(軸数)を示している。
また、(・)は内積、1111はノルムを示す。
次に、入力音声が認識対象単語であるか否かを判定する
方法について説明する。たとえば、前記認識処理におい
て、入力音声V1.:対する認識結果がカテゴリIであ
った場合について説明する。リジェクト用類似度演算部
10は、前述した如く作成されたカテゴリIの標準パタ
ーン6の第2軸と、入力音声Vの標本パターンWを微分
パターン作成部】1において Y (j、 k) −−W (j、 k−1) +W 
(j、 k+l )  ・・・(11)[j −1,2
,〜18.  k−1,2,〜1B]として微分処理し
た微分パターンYとの間でとして、カテゴリlの標準パ
ターン6の第2軸b1.2との間の類似度を計算するも
ので、この類似度値にしたがって判定部9で入力音声■
が認識対象:1を語であるか否かを判定する。この類似
度値による判定で、入力音声Vが認識対象外単語である
と判定された場合には、前記認識処理で得た認識結果の
カテゴリIは拒否され、必要に応じて再発声の要求など
が行なわれる。
このようにして、入力音声の標本パターンの微分パター
ンと、4工処理によって得た認識結果のカテゴリの標準
パターン6の第2軸との間で求めた類似度によってリジ
ェクト処理を行なう本方式によれば、入力音声を微分処
理することによって、上記リジェクト用類似度値が入力
音声の差異に敏感に応答するようになり、入力音声をそ
のまま類似度演算に用いたり、平滑処理してから類似度
演算に用いて得たりジエクト用類似度演算直によるリジ
ェクト処理よりも高い精度で、認識対象外単語を拒否す
ることか可能となり、実用的効果が多大である。
ここで、そのことについて第3図を用いて詳細に説明す
る。前述した例と同様に、たとえば学習音声パターンか
第3図(a)に示すようなパターンで、認識対象外の入
力音声パターンの平滑パターンが第3図(b)に示すよ
うなパターンであったとすると、これら両バ・ターンの
微分パターンはそれぞれ第3図(d)(e)となり、こ
れら両微分パターン間で計算される類似度は第3図(f
)に示すようになり、はぼ零の類似度となる。したがっ
て、従来のような誤認識は生じない。
このように、学習音声パターンと入力音声パターンの両
方を微分処理し、音声パターンの特徴をより強調するこ
とにより、類似度の大きさが音声パターンの相違に敏感
に応答するようになる。したかって、認識対象外音声が
入力されても、これを誤認識せずに高い精度で拒否する
ことができるものである。
第2図は、本発明の性能を調べるために行なった実験の
結果をグラフに示したものである。認識対象単語は人名
20単語とし、各単語それぞれ3回発声して標準パター
ンを作成し、認識時には、認識対象単語20単語と認識
対象外単語20単語の合せて40単語をそれぞれ2回発
声して認識実験を行なった。話者は、男性7名と女性1
名の合せて8名である。第2図のグラフは、リジェクト
判定に用いる類似度の閾値を変動させたときの認識率を
横軸にとり、拒否率を縦軸にとったものである。ここで
、認識率、拒否率は以下のように定義する。
第2図のグラフにおいて、実線は本発明の実験結果を示
し、破線は前記(lO)式で示した類似度Stをそのま
まりジエクト処理に使用した場合の実験結果を示してい
る。
第2図のグラフに示されるように、たとえば94.0%
の認識率を実現した場合に、従来の方式では約596の
拒占率しか得られないのに対して、本発明によれば約3
5%の拒否率が得られ、大幅にリジェクト性能が向上す
ることが明らかとなった。
以上の実験データから、入力音声の微分パターンをリジ
ェクト処理の類似度演算に用いることによって高いリジ
ェクト性能が得られることがわかる。故に、本方式は音
声認識性能の向上を図る上で多大な効果を奏すると言え
る。
なお、本発明は前述した実施例に限定されるものではな
い。たとえば、4エ処理とりジエクト処理の両方に直交
化時間フィルタにより作成した標準パターンを用いたが
、認識処理にはいわゆるDPマツチング法などの他の方
式を用いて、リジェクト処理のみに学習音声パターンを
微分処理した標準パターンを用いてもよい。
また、微分処理フィルタの係数としては幾つかのバリエ
ーションが考えられるが、要は学習音声パターンを微分
処理した標準パターンと入力音声パターンを微分処理し
た微分パターンとの間で類似度または差異を求めてリジ
ェクト処理を行なうものであり、種々変形して実施する
ことができる。
さらに、学習音声パターンの次元数なども特に限定され
るものでもなく、本発明はその要旨を逸脱しない範囲で
種々変形して実施可能である。
[発明の効果] 以上説明したように本発明によれば、学習音声パターン
と入力音声パターンの両方を微分処理し、音声パターン
の特徴をより強調することにより、類似度の大きさが音
声パターンの相違に敏感になるので、認識対象外音声が
入力された場合には、これを誤認識せずに高い精度で拒
否することが可能となる音声認識方式を提はできる。
【図面の簡単な説明】
第1図は本発明に係る音声認識方式を適用して構成され
る音声認識装置の概略構成図、第2図は本発明の性能を
調べるために行なった実験の結果を示すグラフ、第3図
は認識対象外音声が入力されたときのりジエクト処理を
説明するための図である。 1・・・音響分用部、2・・・音声区間検出部、3・・
・標本点抽出部、4・・・音声パターン蓄積部、5・・
・直交化時間フィルタ部、6・・・標準パターン、7・
・・認識用類似度演算部、8・・・平滑パターン作成部
、9・・・判定部、10・・・リジェクト用類似度演算
部、11・・・微分パターン作成部。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された音声を分析処理して求められる入力音
    声パターンと、あらかじめ収集された学習音声パターン
    に基づいて作成されている標準パターンとの間で類似度
    または差異を計算することにより、前記入力された音声
    を認識する音声認識方式において、 前記学習音声パターンに対して少なくとも平滑処理と微
    分処理とを施す複数のフィルタを用いて前記標準パター
    ンを作成し、微分処理によって得た前記標準パターンの
    軸と、入力音声パターンを微分処理して得た微分パター
    ンとの間で類似度または差異を計算し、認識対象音声で
    あるか否かを判定することを特徴とする音声認識方式。
  2. (2)入力された音声を分析処理して求められる入力音
    声パターンと、あらかじめ収集された学習音声パターン
    に基づいて作成されている第1標準パターンとの間で類
    似度または差異を計算することにより、前記入力された
    音声を認識する音声認識方式において、 前記学習音声パターンに対して微分処理を施して第2標
    準パターンを作成し、この作成した第2標準パターンと
    入力音声パターンを微分処理して得た微分パターンとの
    間で類似度または差異を計算し、認識対象音声であるか
    否かを判定することを特徴とする音声認識方式。
JP1123612A 1989-05-17 1989-05-17 音声認識方式 Expired - Lifetime JP2856429B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1123612A JP2856429B2 (ja) 1989-05-17 1989-05-17 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1123612A JP2856429B2 (ja) 1989-05-17 1989-05-17 音声認識方式

Publications (2)

Publication Number Publication Date
JPH02302799A true JPH02302799A (ja) 1990-12-14
JP2856429B2 JP2856429B2 (ja) 1999-02-10

Family

ID=14864910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1123612A Expired - Lifetime JP2856429B2 (ja) 1989-05-17 1989-05-17 音声認識方式

Country Status (1)

Country Link
JP (1) JP2856429B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3015477B2 (ja) 1991-02-20 2000-03-06 株式会社東芝 音声認識方法
WO2019073558A1 (ja) * 2017-10-11 2019-04-18 三菱電機株式会社 空調用コントローラ

Also Published As

Publication number Publication date
JP2856429B2 (ja) 1999-02-10

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPH02238495A (ja) 時系列信号認識装置
JPH0352640B2 (ja)
US20050033573A1 (en) Voice registration method and system, and voice recognition method and system based on voice registration method and system
US5963904A (en) Phoneme dividing method using multilevel neural network
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
EP0240329A2 (en) Noise compensation in speech recognition
EP0430615B1 (en) Speech recognition system
JP3163109B2 (ja) 多方向同時収音式音声認識方法
JPH02302799A (ja) 音声認識方式
JPH04324499A (ja) 音声認識装置
Dhole et al. An Overview of Speaker Recognition: Conceptual Framework and CNN based Identification Technique
JPS6193499A (ja) 音声パタ−ン照合方式
JPS63213899A (ja) 話者照合方式
JP2658104B2 (ja) 音声認識装置
JP2602271B2 (ja) 連続音声中の子音識別方式
JPS58190999A (ja) 音声認識装置
JP2744622B2 (ja) 破裂子音識別方式
Kassim et al. Text-Dependent Speaker Verification System Using Neural Network
JPS6336678B2 (ja)
Haniu et al. A study on a speech recognition method based on the selective sound segregation in noisy environment
JPH0316038B2 (ja)
JPH0451840B2 (ja)
JPS6328315B2 (ja)