JP2001034291A

JP2001034291A - 音声認識装置

Info

Publication number: JP2001034291A
Application number: JP11206326A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-07-21
Filing date: 1999-07-21
Publication date: 2001-02-09

Abstract

(57)【要約】【課題】周囲雑音が大きい環境下で音声認識処理
を行い、その認識結果かが認識誤りでないか判定するリ
ジェクト判定を適切に行うためには、周囲雑音の変化に
応じてリジェクト閾値も適切に更新する必要がある。【解決手段】音声パタンと標準パタンの類似度を示す
照合距離を登録されている標準パタンごとに算出し、音
声パタンとの類似度が高い標準パタンを第一の認識結
果、前記音声パタンとの類似度が２番目に高い標準パタ
ンを第二の認識結果として決定する照合部５と、この照
合部にて決定された前記第一の認識結果と前記第二の認
識結果の照合距離差を、ＳＮ比に依存して音声信号入力
ごとに更新されるリジェクト閾値と比較して、リジェク
ト判定を行うリジェクト判定部７を設けた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声で入力され
た単語を認識するとともに、認識結果が誤りであると判
定した場合には、認識結果の出力を停止するリジェクト
機能を設けた音声認識装置に関する。

【０００２】

【従来の技術】音声認識装置は、音声認識処理を行ない
認識結果の候補を決定した後、認識結果の候補が認識誤
りであるか否かを判定する手段を有する。前記認識結果
の候補を誤りであると判定した場合に認識結果の出力を
停止する処理をリジェクトといい、精度の高い音声認識
処理を行ううえで重要な技術である。音声認識装置は、
入力された音声信号に所定の処理を施して生成したパラ
メータの値を所定の閾値と比較することにより、認識結
果の候補が認識誤りか判定する処理を行う。このように
ある認識結果の候補が認識誤りであるか判定する処理を
リジェクト判定という。リジェクト判定に用いられるパ
ラメータは、認識対象たる音声パタンと標準パタンの類
似度を示すとともに、周囲雑音等の外部状況によって影
響を受ける変数である。また、リジェクト閾値は、音声
パタンと標準パタンの類似度の許容範囲を意味する変数
である。

【０００３】認識誤りを検出する精度を高めるには、適
切に設定されたパラメータとリジェクト閾値を用いて、
リジェクト判定処理を行う必要がある。そこで、従来か
らリジェクト判定用のパラメータと閾値を適切に設定す
る方法について検討されている。例えば、図７は、特開
平１−３３５９９号公報に開示されている音声認識装置
の構成を示すブロック図である。

【０００４】図７において、１は音声信号入力部、２は
入力音声信号のＡ／Ｄ変換を行い音声信号波形のディジ
タル値の時系列を出力するＡ／Ｄ変換部、３は音響分析
を行い入力音声信号の特徴ベクトルの時系列を出力する
分析部、４は入力音声信号の音声区間を検出して得た音
声区間の特徴ベクトルの時系列と、音声区間の平均パワ
ー及び雑音区間の平均パワーを出力する音声区間検出
部、５は音声区間の特徴ベクトルの時系列と標準パタン
とのパタンマッチングを行い、特徴ベクトルの時系列と
標準パタンとの照合距離を出力する照合部である。

【０００５】６は認識対象とする単語の標準パタンと、
その単語番号を格納する標準パタン記憶部、１５は前回
の入力音声から求められたＳＮ比(Signal to Noise Rat
io)と、今回の入力音声から求められたＳＮ比の変化量
を算出するＳＮ比変化量算出部、１６は認識結果候補を
リジェクト判定する判定部である。標準パタンは、認識
対象とする全ての単語のＬＰＣ（Linear Predictive Co
de）ケプストラムの時系列の形で、標準パタン記憶部６
にあらかじめ記憶されている。また、照合部５は、ＤＰ
（Dynamic Programming）マッチングを用いて、入力さ
れた音声信号と標準パタンの照合を行う。

【０００６】次に、従来の音声認識装置が単語音声の認
識を行う動作について説明する。発声者が音声信号入力
部１から音声を入力すると、Ａ／Ｄ変換部２は、入力さ
れた音声信号をＡ／Ｄ変換して、音声信号の音声波形を
ディジタル値であるＳ(ｔ),t=1,2,3,...の時系列に変換
する。分析部３は、Ａ／Ｄ変換部２より出力されたディ
ジタル値の時系列Ｓ(ｔ)を一定時間ごとにフレームと呼
ぶ短い時間区間に分割して音響分析を行い、各フレーム
ごとに特徴ベクトルＸ(ｉ), (i=1,2,3,...,)の時系列と
パワーＰ(ｉ)の時系列とに変換する。この特徴ベクトル
Ｘ(t)はＬＰＣ(線形予測)分析によって得られるＬＰＣ
ケプストラムである。信号のパワーＰ(ｉ)は（１）式に
よって計算する。

【０００７】

【数１】

【０００８】（１）式に示されるＮは１フレームに含ま
れる音声波形のディジタル値の数である。また、Ｓｉ
(t), t=1,2,3,...,Ｎはフレームｉに含まれる音声波形
のディジタル値である。

【０００９】音声区間検出部４は、特徴ベクトルＸ
(ｉ)、とパワーＰ(ｉ)の時系列を入力として、各フレー
ムごとに音声区間であるか雑音区間であるかをパワーの
時系列を用いて判定する。そして、雑音区間を除外した
音声区間の特徴ベクトルの時系列を照合部５に出力す
る。また、音声区間検出部４は(２)、(３)式によって、
音声区間の平均パワーＰ_Sと雑音区間の平均パワーＰ_Nを
求め、ＳＮ比変化量算出部１５に出力する。

【００１０】

【数２】

【００１１】

【数３】

【００１２】（２）式に示されるＫ_sは音声区間検出部
４によって音声区間であると判定されたフレームの数で
あり、（３）式に示されるＫ_nは雑音区間であると判定
されたフレームの数である。ＳＮ比変化量算出部１５
は、音声区間の平均パワーＰ_Sと雑音区間の平均パワー
Ｐ_Nを入力として、(４)式によって音声区間のパワーＰ_S
と雑音区間のパワーＰ_Nの比の対数であるＳＮ比（ＳＮ
Ｒ）を求める。このＳＮＲを用いて（５）式にて、１回
前に入力された音声のＳＮ比であるＳＮＲpとの差をと
り、ＳＮ比変化量（ΔＳＮＲ）を求める。

【００１３】

【数４】

【００１４】

【数５】

【００１５】（４）式、（５）式に示すＳＮＲは現在の
入力音声のＳＮ比、（５）式に示すＳＮＲpは１回前に
入力された音声のＳＮ比である。

【００１６】標準パタン記憶部６より読み出した各単語
の単語番号と標準パタンを用いて、照合部５は、音声区
間の特徴ベクトルの時系列と標準パタンの照合を行な
い、特徴ベクトルの時系列と各標準パタンの照合距離を
求める。照合方法はＤＰマッチングが用いられる。そし
て、各標準パタンについて求められた照合距離から、照
合部５は特徴ベクトルの時系列との照合距離が最小の標
準パタンを選択する。最も照合距離の小さな標準パタン
は認識結果候補の第１位として決定され、該当する標準
パタンの単語番号Ｎと前記照合距離値Ｄが判定部１６に
出力される。判定部１６は、ＳＮ比変化量算出部１５よ
り出力されたΔＳＮＲを用いて、リジェクト判定のため
のリジェクト閾値Ｔを(６)式によって演算する。

【００１７】

【数６】

【００１８】（６）式に示すＴ_pは１回前に入力された
音声に対するリジェクト閾値、Ｃ₁とＣ ₂はともに０でな
い定数、Ｒ₀とＲ₁は経験的に定められた固定閾値であ
る。なお、Ｃ₁とＣ₂は経験的に値が決められた定数であ
り、Ｒ₀とＲ₁は、Ｒ₀＜Ｒ₁の関係を満たすものである。
前回の音声認識時に用いられたリジェクト閾値が設定さ
れていない場合、経験的に定められた固定閾値Ｔ₀がリ
ジェクト閾値Ｔに代えて用いられる。

【００１９】判定部１６は、照合部５より出力された照
合距離Ｄと、（６）式によって求められたリジェクト閾
値Ｔを比較する。照合距離Ｄとリジェクト閾値Ｔを比較
した結果がＤ＞Ｔであれば、判定部１６は、照合部５に
おいて決定された認識結果候補の第１位をリジェクトす
ることに決定し、リジェクトを意味する記号であるΦを
出力する。一方、照合距離Ｄとリジェクト閾値Ｔを比較
した結果がＤ≦Ｔであれば、認識結果候補の第１位の標
準パタンを示す単語番号Ｎを認識結果として出力する。

【００２０】

【発明が解決しようとする課題】周囲雑音が大きい環境
下では雑音成分が入力音声信号に混入する。入力音声信
号に含まれる雑音成分が多くなると、入力音声信号を識
別するための特徴部分が雑音成分により平均化される。
雑音が混入していない音声パタンと比べて、雑音が混入
した音声パタンと標準パタンの照合距離は大きくなる
（類似度が小さくなる）。つまり、周囲雑音が大きい環
境で、適切なリジェクト判定を行うためには、照合距離
の変化に応じてリジェクト閾値も適切に更新する必要が
ある。従来の音声認識装置は、上記の問題を解決するた
め、入力音声信号のＳＮ比の変化量ΔＳＮＲをもとに音
声入力ごとにリジェクト閾値Ｔを更新していた。

【００２１】ＳＮ比の変化量をもとにリジェクト閾値を
更新するためには、「前回の」ＳＮ比及びリジェクト閾
値を用いる必要がある。「前回の」ＳＮ比及びリジェク
ト閾値が設定されていない場合、リジェクト閾値として
経験的に定めた固定閾値Ｔ₀が設定される。しかしなが
ら、適切なリジェクト閾値が設定されるまでには、数回
の音声入力を要するという問題があった。また、同じ単
語を発音していても、発声方法の揺らぎによって照合距
離が変動するという問題もあった。

【００２２】本発明は上記課題を解決するためになされ
たものであり、最初の１回目の音声入力から適切なリジ
ェクト閾値を得て、精度の高い音声認識処理が可能な音
声認識装置を提供することを第一の目的とする。また、
本発明は、発声方法の揺らぎに関わらず、発声された単
語を正しく認識し、間違えて認識された単語は適切にリ
ジェクトをする音声認識装置を提供することを第二の目
的とする。

【００２３】

【課題を解決するための手段】この発明にかかる音声認
識装置は、入力された音声信号より得られた音声区間の
特徴ベクトルの時系列である音声パタンとあらかじめ登
録された単語より得られた音声区間の特徴ベクトルの時
系列である標準パタンを比較照合し、この標準パタンご
とに算出された前記音声パタンとの類似度を示す照合距
離より、前記音声パタンとの類似度が最も高い標準パタ
ンを第一の認識結果、２番目に高い標準パタンを第二の
認識結果として決定する照合部と、この照合部において
決定された第一の認識結果と第二の認識結果の照合距離
差と、前記音声信号に含まれる音声区間と雑音区間の信
号の強さの割合であるＳＮ比に応じて更新されるリジェ
クト閾値を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定部を設けたもので
ある。

【００２４】また、この発明にかかる音声認識装置は、
所定の２つの単語を要素とする単語対ごとに、前記要素
間の照合距離差に応じて演算された単語対別リジェクト
閾値に依存してリジェクト閾値を決定するものである。

【００２５】また、この発明にかかる音声認識装置は、
認識結果を音声出力するために登録されている音声出力
用信号を用いて標準パタンを修正するものである。

【００２６】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／
Ｄ変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより、前記音声区間の
信号の強さと前記雑音区間の信号の強さの割合であるＳ
Ｎ比を算出するＳＮ比算出部と、前記音声区間検出部に
て検出された音声区間の特徴ベクトルの時系列である音
声パタンとあらかじめ登録された単語の音声区間の特徴
ベクトルの時系列である標準パタンとの比較照合を行
い、この標準パタンごとに算出された前記音声パタンと
の類似度を示す照合距離より、前記音声パタンとの類似
度が最も高い標準パタンを第一の認識結果、前記音声パ
タンとの類似度が２番目に高い標準パタンを第二の認識
結果として決定する照合部と、この照合部において決定
された前記第一の認識結果と前記第二の認識結果の照合
距離差と、前記ＳＮ比算出部にて算出されたＳＮ比に応
じて音声信号入力ごとに更新されるリジェクト閾値を比
較することにより、前記第一の認識結果が誤りでないか
判定するリジェクト判定を行い、誤りであれば前記第一
の認識結果の出力を中止するリジェクトを行い、誤りで
なければ前記第一の認識結果を出力するリジェクト判定
部と、前記リジェクト判定部から出力された第一の認識
結果に応じて出力信号を生成する出力信号生成部を設け
たものである。

【００２７】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／
Ｄ変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるＳＮ
比を算出するＳＮ比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、前記音
声区間検出部にて検出された音声区間の特徴ベクトルの
時系列である音声パタンと前記標準パタン記憶部から読
み出した標準パタンとの比較照合を行い、この標準パタ
ンごとに算出された前記音声パタンとの類似度を示す照
合距離より、前記音声パタンとの類似度が最も高い標準
パタンを第一の認識結果、２番目に高い標準パタンを第
二の認識結果として決定する照合部と、標準パタンとし
てあらかじめ登録された単語のうち所定の単語とその他
の単語が要素として組み合わされた単語対、およびこの
単語対に含まれる前記要素間の照合距離に依存して決定
された単語対別リジェクト閾値を記憶する閾値記憶部
と、前記照合部にて決定された前記第一の認識結果と前
記第二の認識結果を要素として含む単語対の単語対別リ
ジェクト閾値を前記閾値記憶部から読み出し、この単語
対別リジェクト閾値と前記ＳＮ比算出部において算出さ
れたＳＮ比を用いてリジェクト閾値を演算し、このリジ
ェクト閾値と前記第一の認識結果と第二の認識結果の照
合距離差を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定を行い、誤りであ
れば前記第一の認識結果の出力を中止するリジェクトを
行い、誤りでなければ前記第一の認識結果を出力する単
語対別リジェクト判定部と、この単語対別リジェクト判
定部にて決定された認識結果に応じて、前記音声出力用
信号記憶部から音声出力用信号を読み出して出力信号を
生成する出力信号生成部を設けたものである。

【００２８】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／
Ｄ変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるＳＮ
比を算出するＳＮ比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、この音
声出力用信号記憶部から読み出した音声出力用信号を用
いて、前記標準パタン記憶部に登録されている標準パタ
ンを修正し、前記標準パタン記憶部に書き込む標準パタ
ン修正部と、前記音声区間検出部にて検出された音声区
間の特徴ベクトルの時系列である音声パタンと前記標準
パタン記憶部から読み出した標準パタンとの比較照合を
行い、この標準パタンごとに算出された前記音声パタン
との類似度を示す照合距離より、前記音声パタンとの類
似度が最も高い標準パタンを第一の認識結果、２番目に
高い標準パタンを第二の認識結果として決定する照合部
と、前記標準パタン記憶部に登録された単語のうち所定
の単語とその他の単語が要素として組み合わされた単語
対、およびこの単語対に含まれる前記要素間の照合距離
に依存して決定された単語対別リジェクト閾値を記憶す
る閾値記憶部と、前記照合部にて決定された前記第一の
認識結果と前記第二の認識結果を要素として含む単語対
の単語対別リジェクト閾値を前記閾値記憶部から読み出
し、この単語対別リジェクト閾値と前記ＳＮ比算出部に
おいて算出されたＳＮ比を用いてリジェクト閾値を演算
し、このリジェクト閾値と前記第一の認識結果と第二の
認識結果の照合距離差を比較することにより、前記第一
の認識結果が誤りでないか判定するリジェクト判定を行
い、誤りであれば前記第一の認識結果の出力を中止する
リジェクトを行い、誤りでなければ前記第一の認識結果
を出力する単語対別リジェクト判定部と、この単語対別
リジェクト判定部にて決定された認識結果に応じて、前
記音声出力用信号記憶部から音声出力用信号を読み出し
て出力信号を生成する出力信号生成部を設けたものであ
る。

【００２９】

【発明の実施の形態】実施の形態１．図１は、この発明
の実施の形態１にかかる音声認識装置の構成を示すブロ
ック図である。図１において図７と同一の符号は同一又
は相当部分を示すので説明は省略する。７はリジェクト
判定部、８はＳＮ比算出部、１３は出力信号生成部であ
る。次に動作について説明する。ＳＮ比算出部８は、音
声区間検出部４より出力された音声区間の平均パワーＰ
_Sと雑音区間の平均パワーＰ_Nから、（７）式を用いて音
声区間のパワーＰ_Sと雑音区間のパワーＰ_Nの比の対数で
あるＳＮ比（ＳＮＲ）を求め、リジェクト判定部７に出
力する。なお、（７）式は従来技術にて説明した（４）
式と同じ式である。

【００３０】

【数７】

【００３１】照合部５は、音声区間検出部４より出力さ
れた音声区間の特徴ベクトルの時系列と、標準パタン記
憶部６から読み出した標準パタンを用いて、入力された
音声信号と標準パタンを照合する処理をする。具体的に
は、照合部５は、特徴ベクトルの時系列と各標準パタン
を照合して両者の照合距離を求める処理と、各標準パタ
ンの照合距離を比較して照合距離が最小の標準パタン及
び２番目に小さい標準パタンを選択する処理を行う。以
上の処理結果をふまえて、照合部５は、最も照合距離の
小さな標準パタンを認識結果候補の第１位、２番目に小
さい標準パタンは認識結果候補の第２位として決定し、
第１位の単語番号Ｎと照合距離値Ｄ、及び認識結果候補
の第２位の照合距離値Ｄ₂をリジェクト判定部７に出力
する。リジェクト判定部７は、ＳＮ比算出部８より出力
されたＳＮＲを用いて、リジェクト判定のためのリジェ
クト閾値Ｔ₂を(８)式によって決定する。

【００３２】

【数８】

【００３３】（８）式に示すａ、ｂは、ａ＞０、ｂ＞０
を満たす経験的に定められた定数である。（８）式によ
って計算されたリジェクト閾値Ｔ₂を図２に示す。ａ＞
０と設定することにより、入力音声のＳＮＲが低いほど
リジェクト閾値Ｔ₂も小さくなることを図２のグラフは
示している。

【００３４】ここで、低ＳＮ比の信号に対してリジェク
ト閾値を小さくする必要性について説明する。周囲雑音
が大きくなるとＳＮ比が低下する。ＳＮ比が低下した信
号は雑音成分によりその特徴部分が平均化されており、
低ＳＮ比信号から生成された音声パタンと標準パタンと
の照合距離は大きくなる（類似度が低くなる）。また、
特徴部分が平均化された音声パタンから認識結果となる
標準パタンを特定するのは困難である。なぜなら、標準
パタン間の照合距離の差が小さく、認識結果候補の１
位、２位の照合距離差も微差となるためである。従っ
て、低ＳＮ比の信号をリジェクト判定するときには、Ｓ
Ｎ比に応じて低めに更新されたリジェクト閾値を用いる
必要がある。なお、リジェクト判定部７は、リジェクト
判定のためのリジェクト閾値Ｔ₂を（８）式の代わりに
（９）式を用いて求めてもよい。

【００３５】

【数９】

【００３６】ここで（９）式に示すａ、ｂは、ａ＞０、
ｂ＞０を満たす経験的に定められた定数である。またＳ
ＮＲ₁とＳＮＲ₂は、ＳＮＲ₁＜ＳＮＲ₂を満たす経験的に
定められた定数である。またＳＮＲは、ＳＮ比算出部８
によって計算される入力音声のＳＮ比である。このリジ
ェクト閾値を図３に示す。図３に示すリジェクト閾値は
上限と下限が設けられている。このように、リジェクト
閾値に上限と下限を設定することにより、音声パタンと
標準パタンの類似度の「許容範囲」であるリジェクト閾
値を適正に設定することが可能となり、認識誤りを判定
する精度が改善される。リジェクト判定部７は、照合部
５より出力された認識結果候補の第２位の照合距離値Ｄ
₂と認識結果候補の第１位の照合距離値Ｄより、（１
０）式を用いて両者の照合距離差ΔＤを計算する。

【００３７】

【数１０】

【００３８】そして、（１０）式を用いて計算した照合
距離差ΔＤと、（８）式ないし（９）式を用いて計算し
たリジェクト閾値Ｔ₂を比較する。照合距離差ΔＤとリ
ジェクト閾値Ｔ₂を比較した結果がΔＤ＜Ｔ₂であれば、
リジェクト判定部７は認識結果をリジェクトすることに
決定し、リジェクトを意味する記号であるΦを出力す
る。一方、照合距離差ΔＤとリジェクト閾値Ｔ₂を比較
した結果が、以下の条件を満たせば、認識結果候補の第
１位の標準パタンを示す単語番号Ｎを出力信号生成部１
３に出力する。

【００３９】

【数１１】

【００４０】出力信号生成部１３の行う処理内容は、認
識結果をどのように出力するかで異なる。例えば、認識
結果を表示手段を用いて表示させることが考えられる。
また、認識結果を音声で出力してもよい。さらに、有
線、無線などの通信手段を用いて認識結果を遠隔地に伝
送し、そこで出力させることも考えられる。つまり、認
識結果を表示するか、音声出力するか、通信手段を介し
て伝送するかで出力信号を生成する方法は異なる。出力
信号生成部１３は、音声認識装置の用途と認識結果を出
力する形態に応じて適切なものを選択すればよい。

【００４１】以上説明したように、従来の音声認識装置
は、音声認識時に入力された音声信号のＳＮ比と１回前
に入力された音声のＳＮ比から求められたＳＮ比の変化
量よりリジェクト閾値を計算していた。これに対して、
実施の形態１にかかる音声認識装置は、音声認識時に入
力された音声信号のＳＮ比からリジェクト閾値を計算す
る。従って、最初の音声認識処理から適切なリジェクト
閾値が設定され、精度の高い音声認識処理を行うことが
できる。また、このリジェクト閾値は、周囲雑音が混入
して、ＳＮ比が低下するのに伴い低めに設定される。従
って、周囲雑音が多い環境で音声認識処理を行った場合
でも、精度の高いリジェクト判定が可能となり、認識誤
りが出力されることを防止することができる。

【００４２】また、従来の音声認識装置は、認識結果の
第１位の照合距離をパラメータとして用いていた。これ
に対して、実施の形態１にかかる音声認識装置は、認識
結果の第１位と第２位の照合距離の差をパラメータとし
て用いる。認識結果の第２位の照合距離値Ｄ₂と認識結
果の第１位の照合距離値Ｄとの差であるΔＤをパラメー
タとして用いることにより、音声認識の精度は発声方法
の揺らぎに影響されない。なぜなら、発声方法の揺らぎ
による照合距離値は認識結果候補の第２位の照合距離値
Ｄ₂と認識結果候補の第１位の照合距離値Ｄの両方に同
様に影響するので、その差分であるΔＤでは距離値の変
動が相殺されるからである。

【００４３】実施の形態２．図４は、実施の形態２にか
かる音声認識装置の構成を示すブロック図である。図４
において、図１の符号と同一のものは同一又は相当部分
を示すので説明は省略する。９は、単語対別リジェクト
閾値を決定する閾値決定部、１０は、単語対別リジェク
ト閾値を記憶する閾値記憶部、１１は、単語対別リジェ
クト閾値とＳＮ比に依存して決定されたリジェクト閾値
を用いてリジェクト判定を行う単語別リジェクト判定
部、１２は認識結果を音声出力する音声出力用信号を記
憶したトークバック用音声記憶部である。そして、切替
スイッチＡがＡ／Ｄ変換部２と分析部３の間に、切替ス
イッチＢが音声区間検出部４と照合部５の間に、切替ス
イッチＣが照合部５と単語別リジェクト判定部１１の間
に設けられている。

【００４４】以下、実施の形態２にかかる音声認識装置
の動作について、標準パタンの登録及び単語対別リジェ
クト閾値の作成、入力音声の認識処理にわけて説明す
る。標準パタンの登録及び単語対別リジェクト閾値の作
成を行うため、１回目の発声を行う前に、切替スイッチ
ＡはＡ１に、切替スイッチＢはＢ１に設定しておく。１
回目の発声は、入力音声信号を標準パタン記憶部６に書
き込むため行うものである。切替スイッチＡをＡ１に切
り替えておくことにより、Ａ／Ｄ変換部２でデジタル変
換された音声信号は分析部３に入力される。また、切替
スイッチＢをＢ１に切り替えておくことにより、音声区
間検出部４で検出された音声区間の特徴ベクトルの時系
列が標準パタン記憶部６に書き込まれる。

【００４５】現時点でｎ−１個の単語の標準パタンが既
に登録されており、今回、新たに単語番号ｎ番の単語
「東京」の標準パタンを登録するものとする。音声信号
入力部１に「東京」と１回目の発声を行うと、Ａ／Ｄ変
換部２は、入力された音声信号の音声波形をディジタル
値の時系列Ｓ_n1(t)、ｔ＝１,２,３,...,Ｔ_n1に変換す
る。このディジタル値の時系列は切替スイッチＡを経由
して分析部３に出力される。なお、ディジタル値の時系
列Ｓ_n1(t)の添字ｎ₁は単語番号ｎの１回目の発声である
ことを意味するものとする。またＴ_n1は、ディジタル値
の時系列Ｓ_n1(ｔ)のサンプル数である。

【００４６】分析部３と音声区間検出部４の動作につい
ては、従来技術にて説明したので省略する。音声区間検
出部４から出力された音声区間の特徴ベクトルの時系列
Ｘ_n1(ｉ), (i=1,2,3,...,I_n1)は切替スイッチＢを経由
して標準パタン記憶部６に書き込まれる。標準パタン記
憶部６は、書き込まれた特徴ベクトルの時系列Ｘ_n1(ｉ)
を単語番号ｎの標準パタンＲｎ＝Ｘ_n1（ｉ），(i=1,2,
3,...,I_n1)として記憶する。ここでＸ_n1，，Ｉ_n1の添字
ｎ₁は単語番号ｎ番の１回目の発声であることを意味す
るものとする。

【００４７】次に、２回目の発声を行う前に、切替スイ
ッチＡはＡ２に、切替スイッチＢはＢ２に、切替スイッ
チＣはＣ１に設定しておく。２回目の発声は、入力音声
信号をトークバック用音声記憶部１２に書き込むために
行うものである。切替スイッチＡをＡ２に切り替えてお
くことにより、Ａ／Ｄ変換部２でデジタル変換された音
声信号はトークバック用音声記憶部１２に書き込まれ
る。また、切替スイッチＢをＢ２に切り替えておくこと
により、音声区間検出部４で検出された音声区間の特徴
ベクトルの時系列が照合部５に書き込まれる。また、切
替スイッチＣをＣ１に切り替えておくことにより、照合
部５にて各標準パタンごとに求められた照合距離値が閾
値決定部９に入力される。

【００４８】音声信号入力部１に「東京」と２回目の発
声を行うと、Ａ／Ｄ変換部２は、入力された音声信号の
音声波形をディジタル値の時系列Ｓ_n2(t),ｔ＝１,２,
３,...,Ｔ_n2に変換する。ここで添字ｎ₂は単語番号ｎの
２回目の発声であることを意味するものとする。またＴ
_n2は、ディジタル値の時系列Ｓ_n2(ｔ)のサンプル数であ
る。このディジタル値の時系列は切替スイッチＡを経由
してトークバック用音声記憶部１２に書き込まれて記憶
される。トークバック用音声記憶部１２には、過去に登
録された単語番号１番からｎ番までの全ての音声信号波
形のディジタル値Ｓ_q2(t), q=1,2,3,...n, t=1,2,
3,...,T_q2が記憶されている。

【００４９】トークバック用音声記憶部１２は、前記単
語番号ｎ番、すなわち「東京」を意味する音声信号波形
のディジタル値Ｓ_n2(t), t=1,2,3,...,T_n2を分析部３に
出力する。分析部３と音声区間検出部４は１回目の発声
時と同じ動作をする。音声区間検出部４から出力された
音声区間の特徴ベクトルの時系列Ｘ_n2(ｉ), (ｉ＝１,
２,３,...,Ｉ_n2)は、Ｂ２に接続された切替スイッチＢ
を経由して照合部５に入力される。

【００５０】照合部５は、標準パタン記憶部６に記憶さ
れている全ての単語の標準パタンＲ _p,p=1,2,3,...,n,を
順次読み出す。そして、ＤＰマッチングによって、音声
区間の特徴ベクトルの時系列Ｘ_n2と標準パタンＲ_pとの
照合を行ない、照合距離Ｄ_p,n, (p=1,2,3,...,n)を求め
る。ここで添字ｐ，ｎは単語番号ｐの標準パタンＲ_pと
単語番号ｎのトークバック用音声の特徴ベクトルの時系
列であるＸ_n2(ｉ)との照合距離であることを意味する。
照合距離Ｄ_p,nは、Ｃ１に接続された切替スイッチＣを
経由して閾値決定部９に入力される。以上の処理を具体
的に説明すると、トークバック用音声記憶部１２から出
力された「東京」という単語と、標準パタン記憶部６に
記憶されていた全ての標準パタン（「大阪」「京都」
「名古屋」が登録されているものとする）が要素として
組み合わされて単語対（（東京大阪）、（東京京
都）、（東京名古屋））が形成され、各単語対に含ま
れる要素間の照合距離が求められたことになる。閾値決
定部９は単語対ごとに求められた照合距離Ｄ_pn(p=1,2,
3,...,n)に基づいて、(1２)式によって単語対ｐ,ｎ, (p
=1,2,3,...,n)ごとに単語対別リジェクト閾値Ｔ_pnを算
出する。

【００５１】

【数１２】

【００５２】ここで、ｃはｃ＞０を満たす経験的に決め
られた定数である。ＭＡＸ(,)は(,)内の最大値をとる演
算である。（１２）式は、認識結果の第１位が単語番号
ｎ、第２位が単語番号ｐであった場合に、単語対ｐ、ｎ
の類似度に応じて単語対別リジェクト閾値を変化させる
ことを意味する。すなわち単語対ｐとｎの標準パタンが
類似している場合にはＤ_p _、 _n−Ｄ_n _、 _nが小さい値となるた
め、単語対別リジェクト閾値Ｔ_p _、 _nも小さい値となり、
逆に単語番号ｐとｎの標準パタンが類似していない場合
にはＤ_p _、 _n−Ｄ_n _、 _nが大きい値となるため、単語対別リジ
ェクト閾値Ｔ_p _、 _nも大きな値となる。閾値決定部９にて
算出された単語対別リジェクト閾値Ｔ_p _、 _nは、閾値記憶
部１０に書き込まれて単語対ごとに記憶される。

【００５３】ｎ＝１、すなわち一番最初の単語の標準パ
タンを登録する場合には、以上で標準パタン及び単語対
別リジェクト閾値の登録処理は終了する。標準パタン登
録する単語が他にある場合（ｎ＞１）には、以下の処理
を行う。

【００５４】切替スイッチＢはＢ２に、切替スイッチＣ
はＣ１に設定しておく。切替スイッチＢをＢ２に切り替
えておくことにより、音声区間検出部４で検出された音
声区間の特徴ベクトルの時系列が照合部５に書き込まれ
る。また、切替スイッチＣをＣ１に切り替えておくこと
により、照合部５にて各標準パタンごとに求められた照
合距離値が閾値決定部９に入力される。トークバック用
音声記憶部１２は、以前に登録済の単語番号１番からｎ
−１番までの全ての音声信号波形のディジタル値Ｓ
_q2（ｔ），q=1,2,3,...n-1, t=1,2,3,...,T_q2を順次、
分析部３に出力する。音声区間検出部４から出力された
音声区間の特徴ベクトルの時系列Ｘ_q2(ｉ),(i=1,2,
3,...,I_q2)は、Ｂ₂に接続された切替スイッチＢを経由
して照合部５に入力される。

【００５５】照合部５は、標準パタン記憶部６に記憶さ
れている単語番号ｎ、すなわち今回登録しようとする
「東京」の標準パタンＲ_nを取り出し、例えばＤＰマッ
チングによって、順次、音声区間の特徴ベクトルの時系
列であるＸ_q2, (q=1,2,3,...,n-1)との照合を行ない、
照合距離Ｄ_n,q, (q=1,2,3,...,n-1)を求める。ここで添
字ｎ，ｑは単語番号ｎの標準パタンＲ_nと単語番号ｑの
トークバック用音声の特徴ベクトルの時系列Ｘ_q2(ｉ)と
の照合距離であることを意味する。照合距離Ｄ_n, _q, (q=
1,2,3,...,n-1)は、Ｃ１に接続された切替スイッチＣを
経由して閾値決定部９に入力される。閾値決定部９は照
合距離Ｄ_n,q，(q=1,2,3,...,n-1)に基づいて、（１３）
式によって単語番号対ｎ,ｑ, (p=1,2,3,...,n)ごとに単
語対別リジェクト閾値Ｔ_n,qを算出する。閾値決定部９
にて決定された単語対別リジェクト閾値Ｔ_n,qは、閾値
記憶部１０に書き込まれて単語対ごとに記憶される。

【００５６】

【数１３】

【００５７】以上で標準パタン及び単語対別リジェクト
閾値の登録処理が終了する。なお上記の（１２）式、お
よび（１３）式で算出される単語対別リジェクト閾値Ｔ
_p,qは、図５における斜線で囲んだ部分を示す。単語番
号１からｎ−１番までを登録する過程で他の部分は算出
済なので、結局全ての単語の組ｐ，ｑ, (ｐ≠ｑ,ｐ＝
１,２,３,..,ｎ,ｑ＝１,２,３,...,ｎ)に対して単語対
別リジェクト閾値Ｔ_p,qが算出されていることになる。

【００５８】次に、実施の形態２にかかる音声認識装置
が入力音声の認識を行う動作について説明する。音声認
識を行う場合、切替スイッチＡはＡ１に、切替スイッチ
ＢはＢ２に、切替スイッチＣはＣ２に設定される。音声
信号入力部１から入力された音声信号は、Ａ／Ｄ変換部
２、分析部３、音声区間検出部４において、実施の形態
１で説明したのと同様の処理がなされる。音声区間検出
部４は、音声区間の特徴ベクトルの時系列を、Ｂ２と接
続された切替スイッチＢを経由して照合部５に出力し、
音声区間の平均パワーＰ_Sと雑音区間の平均パワーＰ_Nを
ＳＮ比算出部８に出力する。

【００５９】ＳＮ比算出部８は、音声区間の平均パワー
Ｐ_Sと雑音区間の平均パワーＰ_NからＳＮ比（ＳＮＲ）を
算出して単語別リジェクト判定部１１に出力する。照合
部５は、標準パタン記憶部６から認識対象とする各単語
の単語番号と標準パタンを取り出し、音声区間の特徴ベ
クトルの時系列との照合を行ない、各標準パタンごとに
照合距離を求める。照合方法は、実施の形態１と同様Ｄ
Ｐマッチングを用いる。照合距離値が最小の標準パタン
を認識結果候補の第１位、照合距離値が２番目に小さい
標準パタンを認識結果候補の第２位として決定する。

【００６０】照合部５は、認識結果候補の第１位の単語
番号Ｎと照合距離値Ｄ、および認識結果候補の第２位の
単語番号Ｎ₂と照合距離値Ｄ₂を標準パタン記憶部６より
読み出して、Ｃ２と接続された切替スイッチＣより単語
別リジェクト判定部１１に出力する。単語別リジェクト
判定部１１は、照合部５より入力された認識結果候補の
１位と２位の単語番号Ｎ,Ｎ₂を要素として含む単語対を
選択し、この単語対から単語番号Ｎ,Ｎ₂の照合距離に基
づいて求められた単語対別リジェクト閾値Ｔ_N, _N2を読み
出す。この単語対別リジェクト閾値とＳＮ比算出部１７
にて算出されたＳＮ比よりリジェクト判定のためのリジ
ェクト閾値Ｔ₃を（１４）式を用いて算出する。

【００６１】

【数１４】

【００６２】ここでａ₂はａ₂＞０を満たす経験的に定め
られた定数である。ａ₂＞０と設定することにより、実
施の形態１と同様、入力音声のＳＮＲが低ければ、閾値
も小さく設定される。

【００６３】単語対別リジェクト判定部１１は、（１
０）式から計算された認識結果候補２位の照合距離値Ｄ
₂と認識結果候補１位の照合距離値Ｄとの差ΔＤと、
（１４）式を用いて計算したリジェクト閾値Ｔ₃を比較
する。そしてΔＤ＜Ｔ₃であれば、認識結果をリジェク
トすることに決定し、リジェクトを意味する記号Φを認
識結果として出力する。一方、ΔＤ＞Ｔ₃であれば、照
合部５からの入力である単語番号Ｎを認識結果として決
定する。そして、トークバック用音声記憶部１２から、
単語番号Ｎの音声信号波形のディジタル値Ｓ_N2(ｔ),t=
1,2,3,...,Ｔ_N2を読み出し、出力信号生成部１３に出力
する。出力信号生成部１３は、単語別リジェクト判定部
１１より出力された単語番号Ｎの音声信号波形のディジ
タル値Ｓ_N2(ｔ)を用いて、認識結果出力用の音声信号を
生成して出力する。なお、認識結果がリジェクトを意味
する記号Φであれば何も出力しない。

【００６４】以上説明したように、本発明は、認識結果
の第１位と第２位の単語対Ｎ，Ｎ₂より決定された単語
対別リジェクト閾値と入力音声のＳＮ比よりリジェクト
閾値Ｔ₃を決定するので、より詳細なリジェクト判定が
可能となる。また標準パタン登録及びリジェクト閾値決
定用に２回入力される発声を用いて、(a)トークバック
用音声の登録と、(b)単語対別リジェクト閾値の作成が
効率よく行うことができる。

【００６５】実施の形態３．実施の形態２にかかる音声
認識装置では、所定の単語を２回発声することにより、
つまり、１回目の発声で登録された標準パタンと２回目
の発声で登録されたトークバック用音声から単語対別リ
ジェクト閾値を求める処理をしていた。実施の形態３に
かかる音声認識装置では、２回目の発声で登録されたト
ークバック用音声を用いて、１回目の発声で登録された
標準パタンを補正するものである。以下、図６を参照し
ながら説明する。

【００６６】図６は、この発明の実施の形態３にかかる
音声認識装置の構成を示すブロック図である。図６にお
いて、図４の符号と同一のものは同一又は相当部分を示
すので説明は省略する。１４は標準パタン修正部であ
る。そして、切替スイッチＢが音声区間検出部４と標準
パタン修正部１４の間に設けられている。この切替スイ
ッチＢは、Ｂ１に接続することにより、音声区間検出部
４より出力された信号を標準パタン修正部１４に書き込
む経路を形成し、Ｂ２に接続することにより、音声区間
検出部４より出力された信号を照合部５に書き込む経路
を形成するものである。

【００６７】次に動作について説明する。実施の形態３
にかかる音声認識装置は、単語対ｐ,ｑ, (p=1,2,3,...,
n, q=1,2,3,...,n)ごとに単語対別リジェクト閾値Ｔ_p,q
を求めるまでは、実施の形態２にかかる音声認識装置と
同様の処理を行う。次に、トークバック用音声記憶部１
２は再度、単語番号ｎ番のトークバック用音声信号を分
析部３に出力する。音声区間検出部４は、Ｂ１に接続さ
れた切替スイッチＢを介して、音声区間の特徴ベクトル
の時系列Ｘ_n2(ｉ)を標準パタン修正部１４に出力する。

【００６８】音声区間検出部４より入力された音声区間
の特徴ベクトルの時系列Ｘ_n2(ｉ)の単語番号ｎより、標
準パタン修正部１４は、標準パタン記憶部６から単語番
号ｎの標準パタンＲ_nを読み出す。標準パタンＲ_nも特徴
ベクトルの時系列Ｘ_n1(ｉ)で記憶されている。次に、標
準パタン修正部１４は、標準パタン記憶部６から読み出
された単語番号ｎの標準パタンＲ_n＝Ｙ_n(ｉ), (i=1,2,
3,...,I_n)を、（１５）〜（１８）式を用いて修正す
る。ここで、Ｉ_nはＲ_nの時間方向の長さであり、（１
５）式に示すように１回目の発声の特徴ベクトルの時系
列Ｘ_n1(ｉ)の長さＩ_n1と２回目の発声の特徴ベクトルの
時系列Ｘ_n2(i)の長さＩ_n2との平均である。

【００６９】

【数１５】

【００７０】式中の[.]は四捨五入して整数値にする演
算である。またＹ_n(ｉ), (i=1,2,3,...,I_n)は、（１
５）〜（１８）式に示すように、１回目の発声の特徴ベ
クトルの時系列Ｘ_n1(ｉ), (i=1,2,3,...,I_n1)と２回目
の発声の特徴ベクトルの時系列Ｘ_n ₂(ｉ), (i=1,2,
3,...,I_n2)をそれぞれ長さＩ_nになるように線形に伸縮
した後の各時刻での特徴ベクトルの平均である。

【００７１】

【数１６】

【００７２】

【数１７】

【００７３】

【数１８】

【００７４】このように修正したＲ_n＝Ｙ_n(ｉ), (i=1,
2,3,...,I_n)を単語番号ｎ番の標準パタンとして標準パ
タン記憶部６に転送して記憶する。

【００７５】このように実施の形態３にかかる音声認識
装置は、１回目の発声により登録された標準パタンを、
２回目の発声により登録されたトークバック用音声信号
を用いて修正する処理を行うので、標準パタンの精度が
高くなる。またリジェクト閾値Ｔ_p,qの決定時には、２
回目の発声との平均をとる前の１回目の発声の特徴ベク
トルの時系列Ｘ_n1(ｉ), (i=1,2,3,...,I_n1)を標準パタ
ンとして用いるので、２回目の発声の特徴ベクトルの時
系列Ｘ_n2(ｉ), (i=1,2,3,...,I_n2)は未知データとみな
すことができ、正確なリジェクト閾値Ｔ_p,qを決定する
ことができる。

【００７６】

【発明の効果】本発明にかかる音声認識装置は、音声認
識時に入力された音声信号のＳＮ比からリジェクト閾値
を計算するので、最初の音声認識処理から適切なリジェ
クト閾値が設定され、精度の高い音声認識処理を行うこ
とができる。また、最も類似度の高い第一の認識結果と
次に類似度が高い第二の認識結果の照合距離差を、リジ
ェクト閾値と比較してリジェクト判定を行うので、発声
方法の揺らぎ等が生じても精度の高い音声認識処理を行
うことが可能である。

【００７７】また、本発明にかかる音声認識装置は、標
準パタンに登録された単語のうち、所定の単語と他の単
語を要素とする単語対と、要素間の照合距離に依存して
決定された単語対別リジェクト閾値を記憶させておき、
第一の認識結果及び第二の認識結果を要素として含む単
語対の単語対別リジェクト閾値とＳＮ比を用いてリジェ
クト閾値を計算するので、第一の認識結果と第二の認識
結果の類似度の違いによってリジェクト閾値を変化させ
ることが可能になり、音声認識処理の精度が高められる
という効果がある。

【００７８】また、本発明にかかる音声認識装置は、２
回目の発音で登録されたトークバック用音声信号を用い
て、１回目の発音で登録された標準パタンを修正するの
で、１回目の発音と２回目の発音がサンプルとして反映
された標準パタンを用いて音声認識処理をすることが可
能になり、音声認識処理の精度が高められるという効果
がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１にかかる音声認識装
置の構成を示すブロック図である。

【図２】リジェクト閾値と音声信号のＳＮ比の関係を
説明するグラフを示す図である。

【図３】リジェクト閾値と音声信号のＳＮ比の関係を
説明するグラフを示す図である。

【図４】この発明の実施の形態２にかかる音声認識装
置の構成を示すブロック図である。

【図５】単語対別リジェクト閾値の領域を説明する説
明図である。

【図６】この発明の実施の形態３にかかる音声認識装
置の構成を示すブロック図である。

【図７】従来の音声認識装置の構成を示すブロック図
である。

【符号の説明】

１音声信号入力部、２Ａ／Ｄ変換部、３分析部、
４音声区間検出部、５照合部、６標準パタン記憶
部、７リジェクト判定部、８ＳＮ比算出部、９閾
値決定部、１０閾値記憶部、１１単語対別リジェク
ト判定部、１２トークバック用音声記憶部、１３出
力信号生成部、１４標準パタン修正部、１５ＳＮ比
変化量算出部、１６判定部

Claims

【特許請求の範囲】

【請求項１】入力された音声信号より得られた音声区
間の特徴ベクトルの時系列である音声パタンとあらかじ
め登録された単語より得られた音声区間の特徴ベクトル
の時系列である標準パタンを比較照合し、この標準パタ
ンごとに算出された前記音声パタンとの類似度を示す照
合距離より、前記音声パタンとの類似度が最も高い標準
パタンを第一の認識結果、２番目に高い標準パタンを第
二の認識結果として決定する照合部と、この照合部にお
いて決定された第一の認識結果と第二の認識結果の照合
距離差と、前記音声信号に含まれる音声区間と雑音区間
の信号の強さの割合であるＳＮ比に応じて更新されるリ
ジェクト閾値を比較することにより、前記第一の認識結
果が誤りでないか判定するリジェクト判定部を設けたこ
とを特徴とする音声認識装置。
【請求項２】リジェクト閾値は、所定の２つの単語を
要素とする単語対ごとに、前記要素間の照合距離差に応
じて演算された単語対別リジェクト閾値に依存して決定
されることを特徴とする請求項１に記載の音声認識装
置。
【請求項３】標準パタンは、認識結果を音声出力する
ために登録されている音声出力用信号を用いて修正され
ることを特徴とする請求項１に記載の音声認識装置。
【請求項４】音声認識させる音声信号を入力する音声
信号入力部と、この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／Ｄ変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより、前記音声区間の信号の強さと前記雑
音区間の信号の強さの割合であるＳＮ比を算出するＳＮ
比算出部と、前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンとあらかじめ登録された
単語の音声区間の特徴ベクトルの時系列である標準パタ
ンとの比較照合を行い、この標準パタンごとに算出され
た前記音声パタンとの類似度を示す照合距離より、前記
音声パタンとの類似度が最も高い標準パタンを第一の認
識結果、前記音声パタンとの類似度が２番目に高い標準
パタンを第二の認識結果として決定する照合部と、この照合部において決定された前記第一の認識結果と前
記第二の認識結果の照合距離差と、前記ＳＮ比算出部に
て算出されたＳＮ比に応じて音声信号入力ごとに更新さ
れるリジェクト閾値を比較することにより、前記第一の
認識結果が誤りでないか判定するリジェクト判定を行
い、誤りであれば前記第一の認識結果の出力を中止する
リジェクトを行い、誤りでなければ前記第一の認識結果
を出力するリジェクト判定部と、前記リジェクト判定部から出力された第一の認識結果に
応じて出力信号を生成する出力信号生成部を設けたこと
を特徴とする音声認識装置。
【請求項５】音声認識させる音声信号を入力する音声
信号入力部と、この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／Ｄ変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより前記音声区間の信号の強さと前記雑音
区間の信号の強さの割合であるＳＮ比を算出するＳＮ比
算出部と、認識対象となる単語の音声区間の特徴ベクトルの時系列
があらかじめ登録されている標準パタン記憶部と、認識結果を音声出力する音声出力用信号を記憶する音声
出力用信号機億部と、前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンと前記標準パタン記憶部
から読み出した標準パタンとの比較照合を行い、この標
準パタンごとに算出された前記音声パタンとの類似度を
示す照合距離より、前記音声パタンとの類似度が最も高
い標準パタンを第一の認識結果、２番目に高い標準パタ
ンを第二の認識結果として決定する照合部と、標準パタンとしてあらかじめ登録された単語のうち所定
の単語とその他の単語が要素として組み合わされた単語
対、およびこの単語対に含まれる前記要素間の照合距離
に依存して決定された単語対別リジェクト閾値を記憶す
る閾値記憶部と、前記照合部にて決定された前記第一の認識結果と前記第
二の認識結果を要素として含む単語対の単語対別リジェ
クト閾値を前記閾値記憶部から読み出し、この単語対別
リジェクト閾値と前記ＳＮ比算出部において算出された
ＳＮ比を用いてリジェクト閾値を演算し、このリジェク
ト閾値と前記第一の認識結果と第二の認識結果の照合距
離差を比較することにより、前記第一の認識結果が誤り
でないか判定するリジェクト判定を行い、誤りであれば
前記第一の認識結果の出力を中止するリジェクトを行
い、誤りでなければ前記第一の認識結果を出力する単語
対別リジェクト判定部と、この単語対別リジェクト判定部にて決定された認識結果
に応じて、前記音声出力用信号記憶部から音声出力用信
号を読み出して出力信号を生成する出力信号生成部を設
けたことを特徴とする音声認識装置。
【請求項６】音声認識させる音声信号を入力する音声
信号入力部と、この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するＡ／Ｄ変換部と、このＡ／Ｄ変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより前記音声区間の信号の強さと前記雑音
区間の信号の強さの割合であるＳＮ比を算出するＳＮ比
算出部と、認識対象となる単語の音声区間の特徴ベクトルの時系列
があらかじめ登録されている標準パタン記憶部と、認識結果を音声出力する音声出力用信号を記憶する音声
出力用信号機億部と、この音声出力用信号記憶部から読み出した音声出力用信
号を用いて、前記標準パタン記憶部に登録されている標
準パタンを修正し、前記標準パタン記憶部に書き込む標
準パタン修正部と、前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンと前記標準パタン記憶部
から読み出した標準パタンとの比較照合を行い、この標
準パタンごとに算出された前記音声パタンとの類似度を
示す照合距離より、前記音声パタンとの類似度が最も高
い標準パタンを第一の認識結果、２番目に高い標準パタ
ンを第二の認識結果として決定する照合部と、前記標準パタン記憶部に登録された単語のうち所定の単
語とその他の単語が要素として組み合わされた単語対、
およびこの単語対に含まれる前記要素間の照合距離に依
存して決定された単語対別リジェクト閾値を記憶する閾
値記憶部と、前記照合部にて決定された前記第一の認識結果と前記第
二の認識結果を要素として含む単語対の単語対別リジェ
クト閾値を前記閾値記憶部から読み出し、この単語対別
リジェクト閾値と前記ＳＮ比算出部において算出された
ＳＮ比を用いてリジェクト閾値を演算し、このリジェク
ト閾値と前記第一の認識結果と第二の認識結果の照合距
離差を比較することにより、前記第一の認識結果が誤り
でないか判定するリジェクト判定を行い、誤りであれば
前記第一の認識結果の出力を中止するリジェクトを行
い、誤りでなければ前記第一の認識結果を出力する単語
対別リジェクト判定部と、この単語対別リジェクト判定部にて決定された認識結果
に応じて、前記音声出力用信号記憶部から音声出力用信
号を読み出して出力信号を生成する出力信号生成部を設
けたことを特徴とする音声認識装置。