JP2808906B2

JP2808906B2 - 音声認識装置

Info

Publication number: JP2808906B2
Application number: JP3060786A
Authority: JP
Inventors: 聡塚田; 隆夫渡辺
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1991-02-07
Filing date: 1991-02-07
Publication date: 1998-10-08
Anticipated expiration: 2013-10-08
Also published as: EP0498419A2; CA2060733C; CA2060733A1; EP0498419B1; DE69216648D1; EP0498419A3; JPH04255900A; US5432886A; DE69216648T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置において、
認識対象語以外の発声をリジェクトしたり、未知語を検
出する方法の改良に関するものである。

【０００２】

【従来の技術】従来、音声認識では、東海大学出版会刊
行の「ディジタル音声処理」（以下、文献１と称す）の
１４９−１７７ページに述べられているように、入力さ
れた未知音声とあらかじめ登録された標準パターンを各
々、比較照合して、最大の類似度を与えるカテゴリを選
択することによって認識を行う。ここで、類似度として
は、特徴ベクトル間距離に基づくものや特徴ベクトル出
現確率に基づくものなどが用いられる。このようにして
求められた類似度を用いて、標準パターンに登録されて
いない未知の語が入力された時に、それを未知単語と判
定することができる。例えば、電子情報通信学会技術研
究報告、Ｖｏｌ．８９，Ｎｏ．９１，１９８９年６月，
１−８ページに掲載の「高騒音下における自動券売機用
不特定話者単語音声認識装置の開発」（以下、文献２と
称す）に述べられているように、得られた類似度があら
かじめ定められた閾値より小さい場合未知単語であると
判定しリジェクトする方法がある。

【０００３】

【発明が解決しようとする課題】このようにして求めた
類似度の大きさは、話者や発声環境によって大きく変化
する。このため、話者や発声環境が異なる場合に、未知
語の検出精度を高くするためには、話者ごと、発声環境
ごとに異った閾値を設定する必要があった。しかし、こ
のような方法は非常な労力を必要とするという問題点が
ある。

【０００４】本発明の目的は、話者や発声環境が異なっ
た場合でも、類似度を同一の尺度で比較できるように類
似度を補正することにより、安定した未知語の検出を可
能にした音声認識装置を提供することにある。

【０００５】

【課題を解決するための手段】第１の発明の音声認識装
置は、入力された音声信号を特徴ベクトル時系列に変換
する特徴分析部と、前記特徴ベクトル時系列とあらかじ
め登録された標準パターンと比較照合し、最大の類似度
を与える標準パターンを認識結果として求める比較照合
部と、認識単位の標準パターンを保持する単位標準パタ
ーン記憶部と、前記認識単位の標準パターンをあらかじ
め定められた順序で結合した標準パターンと前記特徴ベ
クトル時系列との類似度の最大値を求める参照類似度計
算部と、前記比較照合部によって求められた類似度を前
記参照類似度計算部によって求められた類似度によって
補正した補正類似度を求める類似度補正部とを有するこ
とを特徴とする。

【０００６】第２の発明の音声認識装置は、入力された
音声信号を特徴ベクトル時系列に変換する特徴分析部
と、前記特徴ベクトル時系列とあらかじめ登録された標
準パターンと比較照合し、最大の類似度を与える標準パ
ターンを認識結果として求める比較照合部と、前記標準
パターンを構成する特徴ベクトルと前記入力された音声
信号の特徴ベクトルとのベクトル間類似度を求めるベク
トル間類似度計算部と、前記ベクトル間類似度の最大値
を入力された音声信号の全フレームに対して累積した値
を参照類似度として求めるベクトル間類似度累積部と、
前記比較照合部によって求められた類似度を前記参照類
似度によって補正した補正類似度を求める類似度補正部
とを有することを特徴とする。

【０００７】第３の発明の音声認識装置は、前記類似度
補正部により得られた補正類似度を継続時間長で正規化
した正規化類似度を求める正規化部を有することを特徴
とする。

【０００８】第４の発明の音声認識装置は、前記類似度
補正部により得られた補正類似度があらかじめ定められ
た閾値より小さい場合にリジェクト信号を出力するリジ
ェクト部を有することを特徴とする。

【０００９】第５の発明の音声認識装置は、前記正規化
部により得られた正規化類似度があらかじめ定められた
閾値より小さい場合にリジェクト信号を出力するリジェ
クト部を有することを特徴とする。

【００１０】第６の発明の音声認識装置は、前記補正類
似度があらかじめ定められた閾値より小さい場合に前記
参照類似度計算部で求められた最大の類似度を与える認
識単位の結合列を認識結果として出力する認識結果決定
部を有することを特徴とする。

【００１１】第７の発明の音声認識装置は、前記正規化
補正類似度があらかじめ定められた閾値より小さい場合
に前記参照類似度計算部で求められた最大の類似度を与
える認識単位の結合列を認識結果として出力する認識結
果決定部を有することを特徴とする。

【００１２】第８の発明の音声認識装置は、入力された
音声信号を特徴ベクトル時系列に変換する特徴分析部
と、第１の認識単位の標準パターンを記憶する第１の単
位標準パターン記憶部と、前記特徴ベクトル時系列と前
記第１の認識単位の標準パターンをあらかじめ定められ
た順序で結合した標準パターンと比較照合し、最大の類
似度を与える第１の単位パターンの結合列を求める比較
照合部と、前記第１の単位パターンの結合列の各々の単
位パターンについての類似度を単位類似度として求める
単位類似度計算部と、第２の認識単位の標準パターンを
記憶する第２の単位標準パターン記憶部と、前記特徴ベ
クトル時系列と前記第２の認識単位の標準パターンをあ
らかじめ定められた順序で結合した標準パターンと比較
照合し、最大の類似度を参照類似度として求める参照類
似度計算部と、前記単位類似度の各々に対し前記参照類
似度から対応する区間の類似度を求め、前記単位類似度
を補正した補正単位類似度を求める単位類似度補正部
と、前記補正単位類似度があらかじめ定められた閾値よ
り小さい場合にその単位に対応する区間を未知語である
とする未知語判定部を有することを特徴とする。

【００１３】第９の発明の音声認識装置は、前記補正単
位類似度があらかじめ定められた閾値より小さい区間に
対して、前記参照類似度計算部で求められた最大の類似
度を与える第２の認識単位の結合列の中で前記区間に対
応する区間を用いて置き換えたものを認識結果として出
力する認識結果決定部を有することを特徴とする。

【００１４】第１０の発明の音声認識装置は、入力され
た音声信号を特徴ベクトル時系列に変換する特徴分析部
と、第１の認識単位の標準パターンを記憶する第１の単
位標準パターン記憶部と、前記特徴ベクトル時系列と前
記第１の認識単位の標準パターンをあらかじめ定められ
た順序で結合した標準パターンと比較照合し、最大の類
似度を与える第１の単位パターンの結合列を求める比較
照合部と、前記第１の単位パターンの結合列の各々の単
位パターンについての類似度を単位類似度として求める
単位類似度計算部と、前記認識単位パターンを構成する
特徴ベクトルと前記入力された音声信号の特徴ベクトル
とのベクトル間類似度を求めるベクトル間類似度計算部
と、前記ベクトル間類似度の最大値を入力された音声信
号の全フレームに対して累積した値を参照類似度として
求めるベクトル間類似度累積部と、前記単位類似度の各
々に対し前記参照類似度から対応する区間の類似度を求
め、前記単位類似度を補正した補正単位類似度を求める
単位類似度補正部と、前記補正単位類似度があらかじめ
定められた閾値より小さい場合にその単位に対応する区
間を未知語であるとする未知語判定部を有することを特
徴とする。

【００１５】第１１の発明の音声認識装置は、前記補正
単位類似度を対応する区間の継続時間長で正規化して正
規化補正単位類似度を求める単位類似度補正部と、前記
補正単位類似度があらかじめ定められた閾値より小さい
場合にその単位に対応する区間を未知語であるとする未
知語判定部を有することを特徴とする。

【００１６】第１２の発明の音声認識装置は、前記正規
化補正単位類似度があらかじめ定められた閾値より小さ
い区間に対して、前記参照類似度計算部で求められた最
大の類似度を与える第２の認識単位の結合列の中で前記
区間に対応する区間を用いて置き換えたものを認識結果
として出力する認識結果決定部を有することを特徴とす
る。

【００１７】

【作用】本発明においては、入力音声の特徴ベクトル時
系列に対して、あらかじめ登録された標準パターンとの
類似度を求めると共に、単語辞書の制約をなくし、言語
による拘束を弱めた場合の類似度を参照類似度として求
め、先の類似度を参照類似度を用いて補正するようにし
たものである。

【００１８】第１の発明による音声認識装置において
は、まず入力された音声信号を特徴分析部によって特徴
ベクトル時系列に変換する。ここでの分析には、文献１
の３２−９８ページに示されているメルケプストラムに
よる方法やＬＰＣ分析による方法などを用いることがで
きる。

【００１９】次に、比較照合部において、特徴分析部で
得られた特徴ベクトル時系列とあらかじめ登録しておい
た複数の標準パターンとの類似度が計算され、最大の類
似度を与える標準パターンが認識結果として求められ
る。単語パターンとの比較照合の方法としては文献１の
１５４−１６５ページに示されているように、標準パタ
ーンとして特徴ベクトル時系列を保持し特徴ベクトル間
距離に基づいて類似度を計算し動的計画法に基づいて比
較照合する方法や、Ｓ．Ｅ．レビンソン（Ｓ．Ｅ．Ｌｅ
ｖｉｎｓｏｎ）や、Ｌ．Ｒ．ラビナー（Ｌ．Ｒ．Ｒａｂ
ｉｎｅｒ）、およびＭ．Ｍ．ソンディ（Ｍ．Ｍ．Ｓｏｎ
ｄｈｉ）らの、ベルシステムテクニカルジャーナル（Ｔ
ｈｅＢｅｌｌＳｙｓｔｅｍＴｅｃｈｎｉｃａｌ
Ｊｏｕｒｎａｌ）、Ｖｏｌ．６２，Ｎｏ．４，１９８３
年４月，１０３５−１０７４ページに掲載の論文「アン
イントロダクションツージアプリケーション
オブザセオリーオブプロバブリスティックファ
ンクションズオブアマルコフプロセスツーオ
ートマチックスピーチレコグニション（ＡｎＩｎｔ
ｒｏｄｕｃｔｉｏｎｔｏｔｈｅＡｐｐｌｉｃａｔ
ｉｏｎｏｆｔｈｅＴｈｅｏｒｙｏｆＰｒｏｂａ
ｂｌｉｓｔｉｃＦｕｎｃｔｉｏｎｓｏｆａＭａｒ
ｃｏｖＰｒｏｃｅｓｓｔｏＡｕｔｏｍａｔｉｃ
ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）」（以下、文
献３と称す）に述べられているような隠れマルコフモデ
ル（以下、ＨＭＭと呼ぶ）に基づいて比較照合する方法
などがある。

【００２０】あらかじめ登録しておく標準パターンの単
位としては、単語や単語あるいはその他の単位のパター
ンをあらかじめ定めておいた順序によって結合したパタ
ーンなどを用いることができる。単位パターンをあらか
じめ定めておいた順序によって結合したパターンとの比
較照合の方法としては、電子情報通信学会論文誌、Ｖｏ
ｌ．Ｊ７１−Ｄ，Ｎｏ．９，１６５０−１６５９ページ
に掲載の「フレーム同期化、ビームサーチ、ベクトル量
子化の統合によるＤＰマッチングの高速化」（以下、文
献４と称す）に示されているようなフレーム同期ＤＰマ
ッチングによる連続音声認識や、電子情報通信学会刊行
の「確率モデルによる音声認識」（以下、文献５と称
す）の４０−５０ページに示されているようなＨＭＭに
よる連続音声認識アルゴリズムを用いることができる。

【００２１】これと並行して、単位標準パターン記憶部
に記憶されている単位標準パターンをある定められた順
序で結合した複数の標準パターンと入力音声の特徴ベク
トル時系列と比較照合して、参照類似度として求める。
比較照合の方法としては比較照合部と同様の方法を用い
ることができる。また、ここでの単位標準パターンとし
ては、文献１の５ページに示されているような音節や音
素あるいは単語などを用いることができる。

【００２２】次に、類似度補正部において、類似度を参
照類似度を用いて補正し、補正類似度が計算される。こ
こでの補正方法としては、類似度と参照類似度の差や類
似度と参照類似度の比を求める方法などを用いることが
できる。

【００２３】入力音声に現れる話者や環境の影響は、類
似度を求める場合にも、参照類似度を求める場合にも、
どちらにも同様に現れるので、このようにして求めた補
正類似度においては、話者や環境の影響が相殺されてい
る。このことにより、第１の発明による音声認識装置に
おいては、話者や環境の違いによる類似度の大きさの違
いを抑えることができる。

【００２４】第２の発明の音声認識装置においては、ベ
クトル間類似度計算部で、標準パターンを構成する特徴
ベクトルと入力された音声信号の特徴ベクトルとのベク
トル間類似度を計算する。ベクトル間類似度を求める方
法としては、文献１の１５４−１６１ページに述べられ
ているようなベクトル間距離に基づく方法やベクトル出
現確率による方法を用いることができる。次に、ベクト
ル間類似度累積部でベクトル間類似度の最大値を入力さ
れた音声信号の全フレームに対して累積した値を求め、
参照類似度とする。第２の発明においても、第１の発明
と同様に、話者や環境の違いによる類似度の大きさの違
いを抑えることができる。

【００２５】しかし、類似度の大きさは、入力音声の継
続時間長によっても大きさの違いが生じることがあり、
上記の発明によっても類似度の大きさの違いが生じるこ
とがある。そこで、第３の発明においては、補正類似度
を入力音声の継続時間長で正規化する正規化部を備える
ことにより、類似度の大きさの違いを抑えることができ
る。

【００２６】第４の発明は、リジェクト部で補正類似度
があらかじめ定められた閾値より小さい場合にリジェク
ト信号を発生する。ここで、補正類似度は話者や環境の
違いによる類似度の大きさの違いが補正されており、一
定の閾値を用いてリジェクトすることができる。

【００２７】第５の発明は、リジェクト部で正規化補正
類似度があらかじめ定められた閾値より小さい場合にリ
ジェクト信号を発生する。ここで、正規化補正類似度は
話者や環境の違いによる類似度の大きさの違いが補正さ
れており、一定の閾値を用いてリジェクトすることがで
きる。

【００２８】第６の発明では、認識結果決定部で、補正
類似度があらかじめ定められた閾値より小さい場合に、
参照類似度計算部で求めた最大の類似度を与える単位パ
ターンの結合列を、認識結果として出力する。

【００２９】第７の発明では、認識結果決定部で、正規
化補正類似度があらかじめ定められた閾値より小さい場
合に、参照類似度計算部で求めた類似度を与える単位パ
ターンの結合列を、認識結果として出力する。

【００３０】第８の発明においては、まず入力された音
声信号を特徴分析部によって特徴ベクトル時系列に変換
する。次に、比較照合部において、特徴分析部で得られ
た特徴ベクトル時系列と第１の単位標準パターン記憶部
に記憶しておいた複数の単位標準パターンをあらかじめ
定められた順序で結合した標準パターンと比較照合し、
最も類似度の大きい単位パターンの結合列と類似度を求
める。

【００３１】次に、単位類似度計算部において、求めら
れた第１の単位パターンの結合列の単位パターンごとに
単位類似度を計算する。

【００３２】これと並行して、第２の単位標準パターン
記憶部に記憶されている単位標準パターンをある定めら
れた順序で結合した複数の標準パターンと入力音声の特
徴ベクトル時系列と比較照合して、参照類似度として求
める。

【００３３】次に、単位類似度補正部において、第１の
単位パターンに対応する区間の参照類似度を求め、単位
類似度を対応する区間の参照類似度で補正し、単位補正
類似度を計算する。

【００３４】続いて、未知語判定部で、各々の単位補正
類似度について、あらかじめ定められた閾値よりも小さ
い場合には、その単位パターンに対応する区間は未知語
であるという情報を出力する。

【００３５】第９の発明では、認識結果決定部で、単位
補正類似度があらかじめ定められた閾値より小さい場合
に、その単位パターンについて、対応する区間を、参照
類似度計算部で求めた最大の類似度を与える第２の単位
パターンの結合列の対応する区間で置き換えたものを、
認識結果として出力する。

【００３６】第１０の発明では、ベクトル間類似度計算
部で、単位標準パターンを構成する特徴ベクトルと入力
された音声信号の特徴ベクトルとのベクトル間類似度を
計算する。次に、ベクトル間類似度累積部でベクトル間
類似度の最大値を入力された音声信号の全フレームに対
して累積した値を求め、参照類似度とする。

【００３７】第１１の発明では、正規化部において、単
位補正類似度を単位パターンの対応する区間に継続時間
長によって単位類似度正規化を行い、正規化単位補正類
似度を求める。

【００３８】未知語判定部では、正規化単位補正類似度
があらかじめ定められた閾値より小さい場合に、その単
位パターンに対応する区間は未知語であるという情報を
出力する。

【００３９】第１２の発明では、認識結果決定部で、正
規化単位補正類似度があらかじめ定められた閾値より小
さい場合に、その単位パターンについて、対応する区間
を、参照類似度計算部で求めた最大の類似度を与える第
２の単位パターンの結合列の対応する区間で置き換えた
ものを、認識結果として出力する。

【００４０】

【実施例】本発明の実施例について図面を参照して説明
する。

【００４１】図１は本発明の一実施例を示す図である。

【００４２】この音声認識装置は、特徴計算部１，比較
照合部２，単位標準パターン記憶部３，参照類似度計算
部４，類似度補正部５，正規化部６，リジェクト部７，
認識結果決定部８を備えている。

【００４３】特徴計算部１では入力された音声信号Ｉの
特徴分析を行い、特徴ベクトル時系列Ｖに変換するもの
である。

【００４４】比較照合部２は、特徴ベクトル時系列Ｖ
と、あらかじめ登録しておいた標準パターンの各々とを
比較照合し、最大の類似度Ｓを求め、その時の標準パタ
ーンを認識結果とするものである。

【００４５】単位標準パターン記憶部３は、単位標準パ
ターンを記憶しておくものである。

【００４６】参照類似度計算部４は、単位標準パターン
記憶部３に登録しておいた単位標準パターンをあらかじ
め決めておいた順序で結合した標準パターンと、特徴ベ
クトル時系列Ｖとを比較照合し、各々の標準パターンに
ついて類似度を計算し、最大の類似度を参照類似度Ｒと
して求めるものである。

【００４７】類似度補正部５は、類似度Ｓを参照類似度
Ｒを用いて補正し、補正類似度Ｃを求めるものである。

【００４８】正規化部６は、補正類似度Ｃを継続時間長
で正規化し、正規化類似度Ｎを求めるものである。

【００４９】リジェクト部７は、補正類似度Ｃあるいは
正規化類似度Ｎがあらかじめ定めておいた閾値より小さ
かった時に、リジェクト信号Ｊを出力するものである。

【００５０】認識結果決定部８は、補正類似度Ｃあるい
は正規化類似度Ｎが、あらかじめ定めておいた閾値より
小さかった時に、参照類似度計算部４で最大の類似度を
与える単位標準パターンの結合列を認識結果Ａとして出
力するものである。

【００５１】次に、図１の実施例の動作について説明す
る。

【００５２】入力された音声信号Ｉは特徴計算部１に入
力され、特徴分析によって特徴ベクトル時系列Ｖに変換
される。ここでの分析は、例えば、文献１の１５５ペー
ジで示されているようなメルケプストラムによる方法を
用いることができる。

【００５３】特徴ベクトル時系列Ｖは、比較照合部２へ
入力され、あらかじめ登録しておいた複数の標準パター
ンとの類似度が計算され、最大の類似度Ｓと最大の類似
度を与える標準パターンが求められる。ここで類似度の
計算方法としては文献１，文献４に示されているような
ＤＰマッチングに基づく方法や、文献３，文献５に示さ
れているようなＨＭＭに基づく方法を用いることができ
る。

【００５４】また、特徴ベクトル時系列Ｖは、参照類似
度計算部４に入力され単位標準パターン記憶部３に記憶
されている単位標準パターンをある定められた順序で結
合した複数の標準パターンと比較照合され、参照類似度
Ｒが出力される。ここでの単位標準パターンとしては、
文献１の５ページに示されているような音節を用いるこ
とができる。

【００５５】次に、類似度Ｓと参照類似度Ｒは類似度補
正部５に入力され、類似度Ｓを参照類似度Ｒを用いて補
正された補正類似度Ｃが出力される。ここでの補正方法
としては、ＳとＲの差をとる方法を用いることができ
る。

【００５６】このようにして、第１の発明によって、話
者や環境に影響されない補正された類似度を得ることが
できる。

【００５７】第３の発明によれば、補正類似度Ｃは正規
化部６によって継続時間長で正規化され、正規化類似度
Ｎが求められる。

【００５８】第４の発明によれば、リジェクト部７によ
って、補正類似度Ｃがあらかじめ定めておいた閾値より
小さい場合には、リジェクト信号Ｊが出力される。

【００５９】第５の発明によれば、リジェクト部７の入
力として、補正類似度Ｃの代わりに図１に破線で示され
ている正規化類似度Ｎを用い、正規化類似度Ｎがあらか
じめ定めておいた閾値より小さい場合には、リジェクト
信号Ｊが出力される。

【００６０】第６の発明によれば、認識結果決定部８に
よって、補正類似度Ｃがあらかじめ定めておいた閾値よ
り小さかった時に、参照類似度計算部４で最大の類似度
を与える単位標準パターンの結合列を認識結果Ａとして
出力するものである。

【００６１】第７の発明によれば、認識結果決定部８に
入力として、補正類似度Ｃの代わりに図１に破線で示さ
れている正規化類似度Ｎを用い、正規化類似度Ｎがあら
かじめ定めておいた閾値より小さかった時に、参照類似
度計算部４で最大の類似度を与える単位標準パターンの
結合列を認識結果Ａとして出力するものである。

【００６２】図２は、本発明の一実施例を示す図であ
る。

【００６３】この音声認識装置は、特徴計算部１０，比
較照合部１１，ベクトル間類似度計算部１２，ベクトル
間類似度累積部１３，類似度補正部１４，正規化部１
５，リジェクト部１６を備えている。

【００６４】特徴計算部１０では入力された音声信号Ｉ
の特徴分析を行い、特徴ベクトル時系列Ｖに変換するも
のである。

【００６５】比較照合部１１は、特徴ベクトル時系列Ｖ
と、あらかじめ登録しておいた標準パターンの各々とを
比較照合し、最大の類似度Ｓを求め、その時の標準パタ
ーンを認識結果とするものである。

【００６６】ベクトル間類似度計算部１２は、特徴ベク
トル時系列Ｖの１フレームの特徴ベクトルと比較照合部
であらかじめ登録しておいた標準パターンを構成する特
徴ベクトルとのベクトル間類似度Ｄを求めるものであ
る。

【００６７】ベクトル間類似度累積部１３は、ベクトル
間類似度Ｕの１フレームについての最大値を全フレーム
について累積し、参照類似度Ｒとして求めるものであ
る。

【００６８】類似度補正部１４は、類似度Ｓを参照類似
度Ｒを用いて補正し、補正類似度Ｃを求めるものであ
る。

【００６９】正規化部１５は、補正類似度Ｃを継続時間
長で正規化し、正規化類似度Ｎを求めるものである。

【００７０】リジェクト部１６は、補正類似度Ｃあるい
は正規化類似度Ｎが、あらかじめ定めておいた閾値より
小さかった時に、リジェクト信号Ｊを出力するものであ
る。

【００７１】次に、図２の実施例の動作について説明す
る。

【００７２】入力された音声信号Ｉは特徴計算部１０に
入力され、特徴分析によって特徴ベクトル時系列Ｖに変
換される。

【００７３】特徴ベクトル時系列Ｖは、比較照合部１１
へ入力され、あらかじめ登録しておいた複数の標準パタ
ーンとの類似度が計算され、最大の類似度Ｓと最大の類
似度を与える標準パターンが求められる。

【００７４】また、特徴ベクトル時系列Ｖは、ベクトル
間類似度計算部１３に入力され、１フレームの特徴ベク
トルと比較照合部であらかじめ登録しておいた標準パタ
ーンを構成する全ての特徴ベクトルとのベクトル間類似
度Ｄが求められ出力される。

【００７５】ベクトル間類似度Ｕはベクトル間類似度累
積部１３に入力され、１フレームについての最大値を全
フレームについて累積したものが参照類似度Ｒとして出
力する。

【００７６】次に、類似度Ｓと参照類似度Ｒは類似度補
正部１４に入力され、類似度Ｓを参照類似度Ｒを用いて
補正された補正類似度Ｃが出力される。

【００７７】このようにして、第２の発明によって、話
者や環境に影響されない補正された類似度を得ることが
できる。

【００７８】第３の発明によれば、補正類似度Ｃは正規
化部１５によって継続時間長で正規化され、正規化類似
度Ｎが求められる。

【００７９】第４の発明によれば、リジェクト部７によ
って、補正類似度Ｃがあらかじめ決めておいた閾値より
小さい場合には、リジェクト信号Ｊが出力される。

【００８０】第５の発明によれば、リジェクト部７の入
力として、補正類似度Ｃの代わりに図２に破線で示され
ている正規化類似度Ｎを用い、正規化類似度Ｎがあらか
じめ定めておいた閾値より小さい場合には、リジェクト
信号Ｊが出力される。

【００８１】図３は、本発明の一実施例を示す図であ
る。

【００８２】この音声認識装置は、特徴計算部２０，第
１の単位標準パターン記憶部２１，比較照合部２２，単
位類似度計算部２３，第２の単位標準パターン記憶部２
４，参照類似度計算部２５，単位類似度補正部２６，単
位類似度正規化部２７，未知語判定部２８，認識結果決
定部２９を備えている。

【００８３】特徴計算部２０では入力された音声信号Ｉ
の特徴分析を行い、特徴ベクトル時系列Ｖに変換するも
のである。

【００８４】第１の単位標準パターン記憶部２１は、認
識対象の単位標準パターンを記憶しておくものである。

【００８５】比較照合部２２は、特徴ベクトル時系列Ｖ
と、第１の単位標準パターン記憶部２１に記憶しておい
た第１の単位標準パターンをあらかじめ決めておいた順
序に従って結合した標準パターンの各々とを比較照合
し、最も類似度の大きい単位パターンの結合列Ｓを出力
するものである。

【００８６】単位類似度計算部２３は、第１の単位標準
パターンの結合列Ｓを構成する各々の単位標準パターン
についてその対応する区間の類似度を求め、各々単位類
似度Ｕとして出力するものである。

【００８７】第２の単位標準パターン記憶部２４は、参
照用の標準パターンの単位標準パターンを記憶しておく
ものである。

【００８８】参照類似度計算部２５は、特徴ベクトル時
系列Ｖと第２の単位標準パターン記憶部に記憶しておい
た第２の単位標準パターンをあらかじめ決めておいた順
序に従って結合した標準パターンの各々とを比較照合
し、最大の類似度を求め、参照類似度Ｒとして出力する
ものである。

【００８９】単位類似度補正部２６は、単位類似度Ｕに
ついて、参照類似度Ｒから対応する区間の類似度を求め
て、この類似度によって単位類似度Ｕを補正し、補正単
位類似度Ｃとするものである。

【００９０】単位類似度正規化部２７は、補正単位類似
度Ｃを対応する単位標準パターンの継続時間長で正規化
し、正規化単位類似度Ｎを求めるものである。

【００９１】未知語判定部２８は、補正単位類似度Ｃあ
るいは正規化単位類似度Ｎが、あらかじめ定めておいた
閾値より小さかった時に、対応する区間が未知語である
とした認識結果Ｊを出力するものである。

【００９２】認識結果決定部２９は、補正単位類似度Ｃ
あるいは正規化単位類似度Ｎが、あらかじめ定めておい
た閾値より小さかった時に、参照類似度計算部で最大の
類似度を与える第２の単位標準パターンの結合列の対応
する区間で置き換えて認識結果Ａとして出力するもので
ある。

【００９３】次に、図３の実施例の動作について説明す
る。

【００９４】入力された音声信号Ｉは特徴計算部２０に
入力され、特徴分析によって特徴ベクトル時系列Ｖに変
換される。

【００９５】特徴ベクトル時系列Ｖは、比較照合部２２
へ入力され、第１の単位標準パターン記憶部２１に記憶
しておいた単位パターンをあらかじめ定めておいた順序
に従って結合した標準パターンの各々と比較照合され、
最も類似度の大きい単位パターンの結合列Ｓが出力され
る。

【００９６】次に、単位類似度計算部２３において、第
１の単位標準パターンの結合列Ｓを構成する各々の単位
標準パターンについてその対応する区間の類似度を求
め、各々単位類似度Ｕを求める。

【００９７】また、特徴ベクトル時系列Ｖは、参照類似
度計算部２５へ入力され、第２の単位標準パターン記憶
部２４に記憶しておいた単位パターンをあらかじめ定め
ておいた順序に従って結合した標準パターンの各々と比
較照合され、最も大きい類似度が参照類似度Ｒとして出
力される。

【００９８】単位類似度Ｕと参照類似度Ｒは単位類似度
補正部２６に入力され、単位類似度Ｕを参照類似度Ｒを
用いて補正した補正単位類似度Ｃが出力される。

【００９９】次に、未知語判定部２８において、補正単
位類似度Ｃがあらかじめ定めておいた閾値より小さかっ
た時に、対応する区間が未知語であるとした認識結果Ｊ
を出力する。

【０１００】第９の発明によれば、認識結果決定部２９
において、補正単位類似度Ｃがあらかじめ定めておいた
閾値より小さかった時に、参照類似度計算部で最大の類
似度を与える第２の単位標準パターンの結合列の対応す
る区間で置き換えて認識結果Ａとして出力する。

【０１０１】第１１の発明によれば、補正単位類似度Ｃ
は単位類似度正規化部２７によって継続時間長で正規化
され、正規化単位類似度Ｎが求められる。

【０１０２】次に、未知語判定部２８において、補正単
位類似度Ｃの代わりに、図３に破線で示されている正規
化単位類似度Ｎが入力され、正規化単位類似度Ｎがあら
かじめ定めておいた閾値より小さかった時に、対応する
区間が未知語であるとした認識結果Ｊを出力する。

【０１０３】第１２の発明によれば、認識結果決定部２
９の入力として、補正単位類似度Ｃの代わりに、図３に
破線で示されている正規化単位類似度Ｎが入力され、正
規化単位類似度Ｎがあらかじめ定めておいた閾値より小
さかった時に、参照類似度計算部で最大の類似度を与え
る第２の単位標準パターンの結合列の対応する区間で置
き換えて認識結果Ａとして出力する。

【０１０４】図４は、本発明の一実施例を示す図であ
る。

【０１０５】この音声認識装置は、特徴計算部３０，第
１の単位標準パターン記憶部３１，比較照合部３２，単
位類似度計算部３３，ベクトル間類似度計算部３４，ベ
クトル間類似度累積部３５，単位類似度補正部３６，単
位類似度正規化部３７，未知語判定部３８を備えてい
る。

【０１０６】特徴計算部３０では入力された音声信号Ｉ
の特徴分析を行い、特徴ベクトル時系列Ｖに変換するも
のである。

【０１０７】第１の単位標準パターン記憶部３１は、認
識対象の単位標準パターンを記憶しておくものである。

【０１０８】比較照合部３２は、特徴ベクトル時系列Ｖ
と、第１の単位標準パターン記憶部に記憶しておいた第
１の単位標準パターンをあらかじめ決めておいた順序に
従って結合した標準パターンの各々とを比較照合し、最
も類似度の大きい単位パターンの結合列Ｓを出力するも
のである。

【０１０９】単位類似度計算部３３は、第１の単位標準
パターンの結合列Ｓを構成する各々の単位標準パターン
についてその対応する区間の類似度を求め、各々単位類
似度Ｕとして出力するものである。

【０１１０】ベクトル間類似度計算部３４は、特徴ベク
トル時系列Ｖの１フレームの特徴ベクトルと比較照合部
であらかじめ登録しておいた標準パターンを構成する特
徴ベクトルとのベクトル間類似度Ｄを求めるものであ
る。

【０１１１】ベクトル間類似度累積部３５は、ベクトル
間類似度Ｕの１フレームについての最大値を全フレーム
について累積し、参照類似度Ｒとして求めるものであ
る。

【０１１２】単位類似度補正部３６は、単位類似度Ｕに
ついて、参照類似度Ｒから対応する区間の類似度を求め
て、この類似度によって単位類似度Ｕを補正し、補正単
位類似度Ｃとするものである。

【０１１３】単位類似度正規化部３７は、単位補正類似
度Ｃを対応する単位標準パターンの継続時間長で正規化
し、正規化単位類似度Ｎを求めるものである。

【０１１４】未知語判定部３８は、補正単位類似度Ｃあ
るいは正規化単位類似度Ｎが、あらかじめ定めておいた
閾値より小さかった時に、対応する区間が未知語である
とした認識結果Ｊを出力するものである。

【０１１５】認識結果決定部３９は、補正単位類似度Ｃ
あるいは正規化単位類似度Ｎが、あらかじめ定めておい
た閾値より小さかった時に、参照類似度計算部で最大の
類似度を与える第２の単位標準パターンの結合列の対応
する区間で置き換えて認識結果Ａとして出力するもので
ある。

【０１１６】次に、図４の実施例の動作について説明す
る。

【０１１７】入力された音声信号Ｉは特徴計算部３０に
入力され、特徴分析によって特徴ベクトル時系列Ｖに変
換される。

【０１１８】特徴ベクトル時系列Ｖは、比較照合部３２
へ入力され、第１の単位標準パターン記憶部３１に記憶
しておいた単位パターンをあらかじめ定めておいた順序
に従って結合した標準パターンの各々と比較照合され、
最も類似度の大きい単位パターンの結合列Ｓが出力され
る。

【０１１９】次に、単位類似度計算部３３において、第
１の単位標準パターンの結合列Ｓを構成する各々の単位
標準パターンについてその対応する区間の類似度を求
め、各々単位類似度Ｕを求める。

【０１２０】また、特徴ベクトル時系列Ｖは、ベクトル
間類似度計算部３４に入力され、１フレームの特徴ベク
トルと第１の単位標準パターンを構成する全ての特徴ベ
クトルとのベクトル間類似度Ｄが求められ出力される。

【０１２１】ベクトル間類似度Ｕはベクトル間類似度累
積部３５に入力され、１フレームについての最大値を全
フレームについて累積したものが参照類似度Ｒとして出
力する。

【０１２２】単位類似度Ｕと参照類似度Ｒは単位類似度
補正部３６に入力され、単位類似度Ｕを参照類似度Ｒを
用いて補正した補正単位類似度Ｃが出力される。

【０１２３】次に、未知語判定部３８において、補正単
位類似度Ｃがあらかじめ定めておいた閾値より小さかっ
た時に、対応する区間が未知語であるとした認識結果Ｊ
を出力する。

【０１２４】第１１の発明によれば、補正類似度Ｃは単
位類似度正規化部３７によって継続時間長で正規化さ
れ、正規化類似度Ｎが求められる。

【０１２５】次に、未知語判定部３８において、補正単
位類似度Ｃの代わりに、図４に破線で示されている正規
化単位類似度Ｎが入力され、正規化単位類似度Ｎがあら
かじめ定めておいた閾値より小さかった時に、対応する
区間が未知語であるとした認識結果Ｊを出力する。

【０１２６】

【発明の効果】以上説明したように本発明によれば、入
力音声の特徴ベクトル時系列と登録した標準パターンと
の類似度を入力音声と参照用の標準パターンとの参照類
似度を用いて補正することにより、話者や発声環境が異
なった場合でも同一の尺度で類似度を比較でき、安定し
たリジェクトや未知語検出を実現することができる。

【図面の簡単な説明】

【図１】本発明の一実施例のブロック図である。

【図２】本発明の一実施例のブロック図である。

【図３】本発明の一実施例のブロック図である。

【図４】本発明の一実施例のブロック図である。

【符号の説明】

１特徴分析部２比較照合部３単位標準パターン記憶部４参照類似度計算部５類似度補正部６正規化部７リジェクト部８認識結果決定部１０特徴分析部１１比較照合部１２ベクトル間類似度計算部１３ベクトル間類似度累積部１４類似度補正部１５正規化部１６リジェクト部２０特徴分析部２１第１の単位標準パターン記憶部２２比較照合部２３単位類似度計算部２４第２の単位標準パターン記憶部２５参照類似度計算部２６単位類似度補正部２７単位類似度正規化部２８未知語判定部２９認識結果決定部３０特徴分析部３１第１の単位標準パターン記憶部３２比較照合部３３単位類似度計算部３４ベクトル間類似度計算部３５ベクトル間類似度累積部３６単位類似度補正部３７単位類似度正規化部３８未知語判定部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 571 G10L 3/00 531 G10L 3/00 561

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声信号を特徴ベクトル時系列
に変換する特徴分析部と、前記特徴ベクトル時系列とあ
らかじめ登録された標準パターンと比較照合し、最大の
類似度を与える標準パターンを認識結果として求める比
較照合部と、認識単位の標準パターンを保持する単位標
準パターン記憶部と、前記認識単位の標準パターンをあ
らかじめ定められた順序で結合した標準パターンと前記
特徴ベクトル時系列との類似度の最大値を求める参照類
似度計算部と、前記比較照合部によって求められた類似
度を前記参照類似度計算部によって求められた類似度に
よって補正した補正類似度を求める類似度補正部とを有
する音声認識装置。
【請求項２】入力された音声信号を特徴ベクトル時系列
に変換する特徴分析部と、前記特徴ベクトル時系列とあ
らかじめ登録された標準パターンと比較照合し、最大の
類似度を与える標準パターンを認識結果として求める比
較照合部と、前記標準パターンを構成する特徴ベクトル
と前記入力された音声信号の特徴ベクトルとのベクトル
間類似度を求めるベクトル間類似度計算部と、前記ベク
トル間類似度の最大値を入力された音声信号の全フレー
ムに対して累積した値を参照類似度として求めるベクト
ル間類似度累積部と、前記比較照合部によって求められ
た類似度を前記参照類似度によって補正した補正類似度
を求める類似度補正部とを有する音声認識装置。
【請求項３】前記類似度補正部により得られた補正類似
度を継続時間長で正規化した正規化類似度を求める正規
化部を有する請求項１または２記載の音声認識装置。
【請求項４】前記類似度補正部により得られた補正類似
度があらかじめ定められた閾値より小さい場合にリジェ
クト信号を出力するリジェクト部を有する請求項１また
は２記載の音声認識装置。
【請求項５】前記正規化部により得られた正規化類似度
があらかじめ定められた閾値より小さい場合にリジェク
ト信号を出力するリジェクト部を有する請求項３記載の
音声認識装置。
【請求項６】前記補正類似度があらかじめ定められた閾
値より小さい場合に前記参照類似度計算部で求められた
最大の類似度を与える認識単位の結合列を認識結果とし
て出力する認識結果決定部を有する請求項１記載の音声
認識装置。
【請求項７】前記正規化補正類似度があらかじめ定めら
れた閾値より小さい場合に前記参照類似度計算部で求め
られた最大の類似度を与える認識単位の結合列を認識結
果として出力する認識結果決定部を有する請求項３記載
の音声認識装置。
【請求項８】入力された音声信号を特徴ベクトル時系列
に変換する特徴分析部と、第１の認識単位の標準パター
ンを記憶する第１の単位標準パターン記憶部と、前記特
徴ベクトル時系列と前記第１の認識単位の標準パターン
をあらかじめ定められた順序で結合した標準パターンと
比較照合し、最大の類似度を与える第１の単位パターン
の結合列を求める比較照合部と、前記第１の単位パター
ンの結合列の各々の単位パターンについての類似度を単
位類似度として求める単位類似度計算部と、第２の認識
単位の標準パターンを記憶する第２の単位標準パターン
記憶部と、前記特徴ベクトル時系列と前記第２の認識単
位の標準パターンをあらかじめ定められた順序で結合し
た標準パターンと比較照合し、最大の類似度を参照類似
度として求める参照類似度計算部と、前記単位類似度の
各々に対し前記参照類似度から対応する区間の類似度を
求め、前記単位類似度を補正した補正単位類似度を求め
る単位類似度補正部と、前記補正単位類似度があらかじ
め定められた閾値より小さい場合にその単位に対応する
区間を未知語であるとする未知語判定部を有する音声認
識装置。
【請求項９】前記補正単位類似度があらかじめ定められ
た閾値より小さい区間に対して、前記参照類似度計算部
で求められた最大の類似度を与える第２の認識単位の結
合列の中で前記区間に対応する区間を用いて置き換えた
ものを認識結果として出力する認識結果決定部を有する
請求項８記載の音声認識装置。
【請求項１０】入力された音声信号を特徴ベクトル時系
列に変換する特徴分析部と、第１の認識単位の標準パタ
ーンを記憶する第１の単位標準パターン記憶部と、前記
特徴ベクトル時系列と前記第１の認識単位の標準パター
ンをあらかじめ定められた順序で結合した標準パターン
と比較照合し、最大の類似度を与える第１の単位パター
ンの結合列を求める比較照合部と、前記第１の単位パタ
ーンの結合列の各々の単位パターンについての類似度を
単位類似度として求める単位類似度計算部と、前記認識
単位パターンを構成する特徴ベクトルと前記入力された
音声信号の特徴ベクトルとのベクトル間類似度を求める
ベクトル間類似度計算部と、前記ベクトル間類似度の最
大値を入力された音声信号の全フレームに対して累積し
た値を参照類似度として求めるベクトル間類似度累積部
と、前記単位類似度の各々に対し前記参照類似度から対
応する区間の類似度を求め、前記単位類似度を補正した
補正単位類似度を求める単位類似度補正部と、前記補正
単位類似度があらかじめ定められた閾値より小さい場合
にその単位に対応する区間を未知語であるとする未知語
判定部を有する音声認識装置。
【請求項１１】前記補正単位類似度を対応する区間の継
続時間長で正規化して正規化補正単位類似度を求める単
位類似度補正部と、前記補正単位類似度があらかじめ定
められた閾値より小さい場合にその単位に対応する区間
を未知語であるとする未知語判定部を有する請求項８ま
たは１０記載の音声認識装置。
【請求項１２】前記正規化補正単位類似度があらかじめ
定められた閾値より小さい区間に対して、前記参照類似
度計算部で求められた最大の類似度を与える第２の認識
単位の結合列の中で前記区間に対応する区間を用いて置
き換えたものを認識結果として出力する認識結果決定部
を有する請求項１１記載の音声認識装置。