JP2001034291A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2001034291A JP2001034291A JP11206326A JP20632699A JP2001034291A JP 2001034291 A JP2001034291 A JP 2001034291A JP 11206326 A JP11206326 A JP 11206326A JP 20632699 A JP20632699 A JP 20632699A JP 2001034291 A JP2001034291 A JP 2001034291A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition result
- unit
- section
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 周囲雑音が大きい環境下で音声認識処理
を行い、その認識結果かが認識誤りでないか判定するリ
ジェクト判定を適切に行うためには、周囲雑音の変化に
応じてリジェクト閾値も適切に更新する必要がある。 【解決手段】 音声パタンと標準パタンの類似度を示す
照合距離を登録されている標準パタンごとに算出し、音
声パタンとの類似度が高い標準パタンを第一の認識結
果、前記音声パタンとの類似度が2番目に高い標準パタ
ンを第二の認識結果として決定する照合部5と、この照
合部にて決定された前記第一の認識結果と前記第二の認
識結果の照合距離差を、SN比に依存して音声信号入力
ごとに更新されるリジェクト閾値と比較して、リジェク
ト判定を行うリジェクト判定部7を設けた。
を行い、その認識結果かが認識誤りでないか判定するリ
ジェクト判定を適切に行うためには、周囲雑音の変化に
応じてリジェクト閾値も適切に更新する必要がある。 【解決手段】 音声パタンと標準パタンの類似度を示す
照合距離を登録されている標準パタンごとに算出し、音
声パタンとの類似度が高い標準パタンを第一の認識結
果、前記音声パタンとの類似度が2番目に高い標準パタ
ンを第二の認識結果として決定する照合部5と、この照
合部にて決定された前記第一の認識結果と前記第二の認
識結果の照合距離差を、SN比に依存して音声信号入力
ごとに更新されるリジェクト閾値と比較して、リジェク
ト判定を行うリジェクト判定部7を設けた。
Description
【0001】
【発明の属する技術分野】この発明は、音声で入力され
た単語を認識するとともに、認識結果が誤りであると判
定した場合には、認識結果の出力を停止するリジェクト
機能を設けた音声認識装置に関する。
た単語を認識するとともに、認識結果が誤りであると判
定した場合には、認識結果の出力を停止するリジェクト
機能を設けた音声認識装置に関する。
【0002】
【従来の技術】音声認識装置は、音声認識処理を行ない
認識結果の候補を決定した後、認識結果の候補が認識誤
りであるか否かを判定する手段を有する。前記認識結果
の候補を誤りであると判定した場合に認識結果の出力を
停止する処理をリジェクトといい、精度の高い音声認識
処理を行ううえで重要な技術である。音声認識装置は、
入力された音声信号に所定の処理を施して生成したパラ
メータの値を所定の閾値と比較することにより、認識結
果の候補が認識誤りか判定する処理を行う。このように
ある認識結果の候補が認識誤りであるか判定する処理を
リジェクト判定という。リジェクト判定に用いられるパ
ラメータは、認識対象たる音声パタンと標準パタンの類
似度を示すとともに、周囲雑音等の外部状況によって影
響を受ける変数である。また、リジェクト閾値は、音声
パタンと標準パタンの類似度の許容範囲を意味する変数
である。
認識結果の候補を決定した後、認識結果の候補が認識誤
りであるか否かを判定する手段を有する。前記認識結果
の候補を誤りであると判定した場合に認識結果の出力を
停止する処理をリジェクトといい、精度の高い音声認識
処理を行ううえで重要な技術である。音声認識装置は、
入力された音声信号に所定の処理を施して生成したパラ
メータの値を所定の閾値と比較することにより、認識結
果の候補が認識誤りか判定する処理を行う。このように
ある認識結果の候補が認識誤りであるか判定する処理を
リジェクト判定という。リジェクト判定に用いられるパ
ラメータは、認識対象たる音声パタンと標準パタンの類
似度を示すとともに、周囲雑音等の外部状況によって影
響を受ける変数である。また、リジェクト閾値は、音声
パタンと標準パタンの類似度の許容範囲を意味する変数
である。
【0003】認識誤りを検出する精度を高めるには、適
切に設定されたパラメータとリジェクト閾値を用いて、
リジェクト判定処理を行う必要がある。そこで、従来か
らリジェクト判定用のパラメータと閾値を適切に設定す
る方法について検討されている。例えば、図7は、特開
平1−33599号公報に開示されている音声認識装置
の構成を示すブロック図である。
切に設定されたパラメータとリジェクト閾値を用いて、
リジェクト判定処理を行う必要がある。そこで、従来か
らリジェクト判定用のパラメータと閾値を適切に設定す
る方法について検討されている。例えば、図7は、特開
平1−33599号公報に開示されている音声認識装置
の構成を示すブロック図である。
【0004】図7において、1は音声信号入力部、2は
入力音声信号のA/D変換を行い音声信号波形のディジ
タル値の時系列を出力するA/D変換部、3は音響分析
を行い入力音声信号の特徴ベクトルの時系列を出力する
分析部、4は入力音声信号の音声区間を検出して得た音
声区間の特徴ベクトルの時系列と、音声区間の平均パワ
ー及び雑音区間の平均パワーを出力する音声区間検出
部、5は音声区間の特徴ベクトルの時系列と標準パタン
とのパタンマッチングを行い、特徴ベクトルの時系列と
標準パタンとの照合距離を出力する照合部である。
入力音声信号のA/D変換を行い音声信号波形のディジ
タル値の時系列を出力するA/D変換部、3は音響分析
を行い入力音声信号の特徴ベクトルの時系列を出力する
分析部、4は入力音声信号の音声区間を検出して得た音
声区間の特徴ベクトルの時系列と、音声区間の平均パワ
ー及び雑音区間の平均パワーを出力する音声区間検出
部、5は音声区間の特徴ベクトルの時系列と標準パタン
とのパタンマッチングを行い、特徴ベクトルの時系列と
標準パタンとの照合距離を出力する照合部である。
【0005】6は認識対象とする単語の標準パタンと、
その単語番号を格納する標準パタン記憶部、15は前回
の入力音声から求められたSN比(Signal to Noise Rat
io)と、今回の入力音声から求められたSN比の変化量
を算出するSN比変化量算出部、16は認識結果候補を
リジェクト判定する判定部である。標準パタンは、認識
対象とする全ての単語のLPC(Linear Predictive Co
de)ケプストラムの時系列の形で、標準パタン記憶部6
にあらかじめ記憶されている。また、照合部5は、DP
(Dynamic Programming)マッチングを用いて、入力さ
れた音声信号と標準パタンの照合を行う。
その単語番号を格納する標準パタン記憶部、15は前回
の入力音声から求められたSN比(Signal to Noise Rat
io)と、今回の入力音声から求められたSN比の変化量
を算出するSN比変化量算出部、16は認識結果候補を
リジェクト判定する判定部である。標準パタンは、認識
対象とする全ての単語のLPC(Linear Predictive Co
de)ケプストラムの時系列の形で、標準パタン記憶部6
にあらかじめ記憶されている。また、照合部5は、DP
(Dynamic Programming)マッチングを用いて、入力さ
れた音声信号と標準パタンの照合を行う。
【0006】次に、従来の音声認識装置が単語音声の認
識を行う動作について説明する。発声者が音声信号入力
部1から音声を入力すると、A/D変換部2は、入力さ
れた音声信号をA/D変換して、音声信号の音声波形を
ディジタル値であるS(t),t=1,2,3,...の時系列に変換
する。分析部3は、A/D変換部2より出力されたディ
ジタル値の時系列S(t)を一定時間ごとにフレームと呼
ぶ短い時間区間に分割して音響分析を行い、各フレーム
ごとに特徴ベクトルX(i), (i=1,2,3,...,)の時系列と
パワーP(i)の時系列とに変換する。この特徴ベクトル
X(t)はLPC(線形予測)分析によって得られるLPC
ケプストラムである。信号のパワーP(i)は(1)式に
よって計算する。
識を行う動作について説明する。発声者が音声信号入力
部1から音声を入力すると、A/D変換部2は、入力さ
れた音声信号をA/D変換して、音声信号の音声波形を
ディジタル値であるS(t),t=1,2,3,...の時系列に変換
する。分析部3は、A/D変換部2より出力されたディ
ジタル値の時系列S(t)を一定時間ごとにフレームと呼
ぶ短い時間区間に分割して音響分析を行い、各フレーム
ごとに特徴ベクトルX(i), (i=1,2,3,...,)の時系列と
パワーP(i)の時系列とに変換する。この特徴ベクトル
X(t)はLPC(線形予測)分析によって得られるLPC
ケプストラムである。信号のパワーP(i)は(1)式に
よって計算する。
【0007】
【数1】
【0008】(1)式に示されるNは1フレームに含ま
れる音声波形のディジタル値の数である。また、Si
(t), t=1,2,3,...,Nはフレームiに含まれる音声波形
のディジタル値である。
れる音声波形のディジタル値の数である。また、Si
(t), t=1,2,3,...,Nはフレームiに含まれる音声波形
のディジタル値である。
【0009】音声区間検出部4は、特徴ベクトルX
(i)、とパワーP(i)の時系列を入力として、各フレー
ムごとに音声区間であるか雑音区間であるかをパワーの
時系列を用いて判定する。そして、雑音区間を除外した
音声区間の特徴ベクトルの時系列を照合部5に出力す
る。また、音声区間検出部4は(2)、(3)式によって、
音声区間の平均パワーPSと雑音区間の平均パワーPNを
求め、SN比変化量算出部15に出力する。
(i)、とパワーP(i)の時系列を入力として、各フレー
ムごとに音声区間であるか雑音区間であるかをパワーの
時系列を用いて判定する。そして、雑音区間を除外した
音声区間の特徴ベクトルの時系列を照合部5に出力す
る。また、音声区間検出部4は(2)、(3)式によって、
音声区間の平均パワーPSと雑音区間の平均パワーPNを
求め、SN比変化量算出部15に出力する。
【0010】
【数2】
【0011】
【数3】
【0012】(2)式に示されるKsは音声区間検出部
4によって音声区間であると判定されたフレームの数で
あり、(3)式に示されるKnは雑音区間であると判定
されたフレームの数である。SN比変化量算出部15
は、音声区間の平均パワーPSと雑音区間の平均パワー
PNを入力として、(4)式によって音声区間のパワーPS
と雑音区間のパワーPNの比の対数であるSN比(SN
R)を求める。このSNRを用いて(5)式にて、1回
前に入力された音声のSN比であるSNRpとの差をと
り、SN比変化量(ΔSNR)を求める。
4によって音声区間であると判定されたフレームの数で
あり、(3)式に示されるKnは雑音区間であると判定
されたフレームの数である。SN比変化量算出部15
は、音声区間の平均パワーPSと雑音区間の平均パワー
PNを入力として、(4)式によって音声区間のパワーPS
と雑音区間のパワーPNの比の対数であるSN比(SN
R)を求める。このSNRを用いて(5)式にて、1回
前に入力された音声のSN比であるSNRpとの差をと
り、SN比変化量(ΔSNR)を求める。
【0013】
【数4】
【0014】
【数5】
【0015】(4)式、(5)式に示すSNRは現在の
入力音声のSN比、(5)式に示すSNRpは1回前に
入力された音声のSN比である。
入力音声のSN比、(5)式に示すSNRpは1回前に
入力された音声のSN比である。
【0016】標準パタン記憶部6より読み出した各単語
の単語番号と標準パタンを用いて、照合部5は、音声区
間の特徴ベクトルの時系列と標準パタンの照合を行な
い、特徴ベクトルの時系列と各標準パタンの照合距離を
求める。照合方法はDPマッチングが用いられる。そし
て、各標準パタンについて求められた照合距離から、照
合部5は特徴ベクトルの時系列との照合距離が最小の標
準パタンを選択する。最も照合距離の小さな標準パタン
は認識結果候補の第1位として決定され、該当する標準
パタンの単語番号Nと前記照合距離値Dが判定部16に
出力される。判定部16は、SN比変化量算出部15よ
り出力されたΔSNRを用いて、リジェクト判定のため
のリジェクト閾値Tを(6)式によって演算する。
の単語番号と標準パタンを用いて、照合部5は、音声区
間の特徴ベクトルの時系列と標準パタンの照合を行な
い、特徴ベクトルの時系列と各標準パタンの照合距離を
求める。照合方法はDPマッチングが用いられる。そし
て、各標準パタンについて求められた照合距離から、照
合部5は特徴ベクトルの時系列との照合距離が最小の標
準パタンを選択する。最も照合距離の小さな標準パタン
は認識結果候補の第1位として決定され、該当する標準
パタンの単語番号Nと前記照合距離値Dが判定部16に
出力される。判定部16は、SN比変化量算出部15よ
り出力されたΔSNRを用いて、リジェクト判定のため
のリジェクト閾値Tを(6)式によって演算する。
【0017】
【数6】
【0018】(6)式に示すTpは1回前に入力された
音声に対するリジェクト閾値、C1とC 2はともに0でな
い定数、R0とR1は経験的に定められた固定閾値であ
る。なお、C1とC2は経験的に値が決められた定数であ
り、R0とR1は、R0<R1の関係を満たすものである。
前回の音声認識時に用いられたリジェクト閾値が設定さ
れていない場合、経験的に定められた固定閾値T0がリ
ジェクト閾値Tに代えて用いられる。
音声に対するリジェクト閾値、C1とC 2はともに0でな
い定数、R0とR1は経験的に定められた固定閾値であ
る。なお、C1とC2は経験的に値が決められた定数であ
り、R0とR1は、R0<R1の関係を満たすものである。
前回の音声認識時に用いられたリジェクト閾値が設定さ
れていない場合、経験的に定められた固定閾値T0がリ
ジェクト閾値Tに代えて用いられる。
【0019】判定部16は、照合部5より出力された照
合距離Dと、(6)式によって求められたリジェクト閾
値Tを比較する。照合距離Dとリジェクト閾値Tを比較
した結果がD>Tであれば、判定部16は、照合部5に
おいて決定された認識結果候補の第1位をリジェクトす
ることに決定し、リジェクトを意味する記号であるΦを
出力する。一方、照合距離Dとリジェクト閾値Tを比較
した結果がD≦Tであれば、認識結果候補の第1位の標
準パタンを示す単語番号Nを認識結果として出力する。
合距離Dと、(6)式によって求められたリジェクト閾
値Tを比較する。照合距離Dとリジェクト閾値Tを比較
した結果がD>Tであれば、判定部16は、照合部5に
おいて決定された認識結果候補の第1位をリジェクトす
ることに決定し、リジェクトを意味する記号であるΦを
出力する。一方、照合距離Dとリジェクト閾値Tを比較
した結果がD≦Tであれば、認識結果候補の第1位の標
準パタンを示す単語番号Nを認識結果として出力する。
【0020】
【発明が解決しようとする課題】周囲雑音が大きい環境
下では雑音成分が入力音声信号に混入する。入力音声信
号に含まれる雑音成分が多くなると、入力音声信号を識
別するための特徴部分が雑音成分により平均化される。
雑音が混入していない音声パタンと比べて、雑音が混入
した音声パタンと標準パタンの照合距離は大きくなる
(類似度が小さくなる)。つまり、周囲雑音が大きい環
境で、適切なリジェクト判定を行うためには、照合距離
の変化に応じてリジェクト閾値も適切に更新する必要が
ある。従来の音声認識装置は、上記の問題を解決するた
め、入力音声信号のSN比の変化量ΔSNRをもとに音
声入力ごとにリジェクト閾値Tを更新していた。
下では雑音成分が入力音声信号に混入する。入力音声信
号に含まれる雑音成分が多くなると、入力音声信号を識
別するための特徴部分が雑音成分により平均化される。
雑音が混入していない音声パタンと比べて、雑音が混入
した音声パタンと標準パタンの照合距離は大きくなる
(類似度が小さくなる)。つまり、周囲雑音が大きい環
境で、適切なリジェクト判定を行うためには、照合距離
の変化に応じてリジェクト閾値も適切に更新する必要が
ある。従来の音声認識装置は、上記の問題を解決するた
め、入力音声信号のSN比の変化量ΔSNRをもとに音
声入力ごとにリジェクト閾値Tを更新していた。
【0021】SN比の変化量をもとにリジェクト閾値を
更新するためには、「前回の」SN比及びリジェクト閾
値を用いる必要がある。「前回の」SN比及びリジェク
ト閾値が設定されていない場合、リジェクト閾値として
経験的に定めた固定閾値T0が設定される。しかしなが
ら、適切なリジェクト閾値が設定されるまでには、数回
の音声入力を要するという問題があった。また、同じ単
語を発音していても、発声方法の揺らぎによって照合距
離が変動するという問題もあった。
更新するためには、「前回の」SN比及びリジェクト閾
値を用いる必要がある。「前回の」SN比及びリジェク
ト閾値が設定されていない場合、リジェクト閾値として
経験的に定めた固定閾値T0が設定される。しかしなが
ら、適切なリジェクト閾値が設定されるまでには、数回
の音声入力を要するという問題があった。また、同じ単
語を発音していても、発声方法の揺らぎによって照合距
離が変動するという問題もあった。
【0022】本発明は上記課題を解決するためになされ
たものであり、最初の1回目の音声入力から適切なリジ
ェクト閾値を得て、精度の高い音声認識処理が可能な音
声認識装置を提供することを第一の目的とする。また、
本発明は、発声方法の揺らぎに関わらず、発声された単
語を正しく認識し、間違えて認識された単語は適切にリ
ジェクトをする音声認識装置を提供することを第二の目
的とする。
たものであり、最初の1回目の音声入力から適切なリジ
ェクト閾値を得て、精度の高い音声認識処理が可能な音
声認識装置を提供することを第一の目的とする。また、
本発明は、発声方法の揺らぎに関わらず、発声された単
語を正しく認識し、間違えて認識された単語は適切にリ
ジェクトをする音声認識装置を提供することを第二の目
的とする。
【0023】
【課題を解決するための手段】この発明にかかる音声認
識装置は、入力された音声信号より得られた音声区間の
特徴ベクトルの時系列である音声パタンとあらかじめ登
録された単語より得られた音声区間の特徴ベクトルの時
系列である標準パタンを比較照合し、この標準パタンご
とに算出された前記音声パタンとの類似度を示す照合距
離より、前記音声パタンとの類似度が最も高い標準パタ
ンを第一の認識結果、2番目に高い標準パタンを第二の
認識結果として決定する照合部と、この照合部において
決定された第一の認識結果と第二の認識結果の照合距離
差と、前記音声信号に含まれる音声区間と雑音区間の信
号の強さの割合であるSN比に応じて更新されるリジェ
クト閾値を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定部を設けたもので
ある。
識装置は、入力された音声信号より得られた音声区間の
特徴ベクトルの時系列である音声パタンとあらかじめ登
録された単語より得られた音声区間の特徴ベクトルの時
系列である標準パタンを比較照合し、この標準パタンご
とに算出された前記音声パタンとの類似度を示す照合距
離より、前記音声パタンとの類似度が最も高い標準パタ
ンを第一の認識結果、2番目に高い標準パタンを第二の
認識結果として決定する照合部と、この照合部において
決定された第一の認識結果と第二の認識結果の照合距離
差と、前記音声信号に含まれる音声区間と雑音区間の信
号の強さの割合であるSN比に応じて更新されるリジェ
クト閾値を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定部を設けたもので
ある。
【0024】また、この発明にかかる音声認識装置は、
所定の2つの単語を要素とする単語対ごとに、前記要素
間の照合距離差に応じて演算された単語対別リジェクト
閾値に依存してリジェクト閾値を決定するものである。
所定の2つの単語を要素とする単語対ごとに、前記要素
間の照合距離差に応じて演算された単語対別リジェクト
閾値に依存してリジェクト閾値を決定するものである。
【0025】また、この発明にかかる音声認識装置は、
認識結果を音声出力するために登録されている音声出力
用信号を用いて標準パタンを修正するものである。
認識結果を音声出力するために登録されている音声出力
用信号を用いて標準パタンを修正するものである。
【0026】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより、前記音声区間の
信号の強さと前記雑音区間の信号の強さの割合であるS
N比を算出するSN比算出部と、前記音声区間検出部に
て検出された音声区間の特徴ベクトルの時系列である音
声パタンとあらかじめ登録された単語の音声区間の特徴
ベクトルの時系列である標準パタンとの比較照合を行
い、この標準パタンごとに算出された前記音声パタンと
の類似度を示す照合距離より、前記音声パタンとの類似
度が最も高い標準パタンを第一の認識結果、前記音声パ
タンとの類似度が2番目に高い標準パタンを第二の認識
結果として決定する照合部と、この照合部において決定
された前記第一の認識結果と前記第二の認識結果の照合
距離差と、前記SN比算出部にて算出されたSN比に応
じて音声信号入力ごとに更新されるリジェクト閾値を比
較することにより、前記第一の認識結果が誤りでないか
判定するリジェクト判定を行い、誤りであれば前記第一
の認識結果の出力を中止するリジェクトを行い、誤りで
なければ前記第一の認識結果を出力するリジェクト判定
部と、前記リジェクト判定部から出力された第一の認識
結果に応じて出力信号を生成する出力信号生成部を設け
たものである。
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより、前記音声区間の
信号の強さと前記雑音区間の信号の強さの割合であるS
N比を算出するSN比算出部と、前記音声区間検出部に
て検出された音声区間の特徴ベクトルの時系列である音
声パタンとあらかじめ登録された単語の音声区間の特徴
ベクトルの時系列である標準パタンとの比較照合を行
い、この標準パタンごとに算出された前記音声パタンと
の類似度を示す照合距離より、前記音声パタンとの類似
度が最も高い標準パタンを第一の認識結果、前記音声パ
タンとの類似度が2番目に高い標準パタンを第二の認識
結果として決定する照合部と、この照合部において決定
された前記第一の認識結果と前記第二の認識結果の照合
距離差と、前記SN比算出部にて算出されたSN比に応
じて音声信号入力ごとに更新されるリジェクト閾値を比
較することにより、前記第一の認識結果が誤りでないか
判定するリジェクト判定を行い、誤りであれば前記第一
の認識結果の出力を中止するリジェクトを行い、誤りで
なければ前記第一の認識結果を出力するリジェクト判定
部と、前記リジェクト判定部から出力された第一の認識
結果に応じて出力信号を生成する出力信号生成部を設け
たものである。
【0027】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるSN
比を算出するSN比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、前記音
声区間検出部にて検出された音声区間の特徴ベクトルの
時系列である音声パタンと前記標準パタン記憶部から読
み出した標準パタンとの比較照合を行い、この標準パタ
ンごとに算出された前記音声パタンとの類似度を示す照
合距離より、前記音声パタンとの類似度が最も高い標準
パタンを第一の認識結果、2番目に高い標準パタンを第
二の認識結果として決定する照合部と、標準パタンとし
てあらかじめ登録された単語のうち所定の単語とその他
の単語が要素として組み合わされた単語対、およびこの
単語対に含まれる前記要素間の照合距離に依存して決定
された単語対別リジェクト閾値を記憶する閾値記憶部
と、前記照合部にて決定された前記第一の認識結果と前
記第二の認識結果を要素として含む単語対の単語対別リ
ジェクト閾値を前記閾値記憶部から読み出し、この単語
対別リジェクト閾値と前記SN比算出部において算出さ
れたSN比を用いてリジェクト閾値を演算し、このリジ
ェクト閾値と前記第一の認識結果と第二の認識結果の照
合距離差を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定を行い、誤りであ
れば前記第一の認識結果の出力を中止するリジェクトを
行い、誤りでなければ前記第一の認識結果を出力する単
語対別リジェクト判定部と、この単語対別リジェクト判
定部にて決定された認識結果に応じて、前記音声出力用
信号記憶部から音声出力用信号を読み出して出力信号を
生成する出力信号生成部を設けたものである。
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるSN
比を算出するSN比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、前記音
声区間検出部にて検出された音声区間の特徴ベクトルの
時系列である音声パタンと前記標準パタン記憶部から読
み出した標準パタンとの比較照合を行い、この標準パタ
ンごとに算出された前記音声パタンとの類似度を示す照
合距離より、前記音声パタンとの類似度が最も高い標準
パタンを第一の認識結果、2番目に高い標準パタンを第
二の認識結果として決定する照合部と、標準パタンとし
てあらかじめ登録された単語のうち所定の単語とその他
の単語が要素として組み合わされた単語対、およびこの
単語対に含まれる前記要素間の照合距離に依存して決定
された単語対別リジェクト閾値を記憶する閾値記憶部
と、前記照合部にて決定された前記第一の認識結果と前
記第二の認識結果を要素として含む単語対の単語対別リ
ジェクト閾値を前記閾値記憶部から読み出し、この単語
対別リジェクト閾値と前記SN比算出部において算出さ
れたSN比を用いてリジェクト閾値を演算し、このリジ
ェクト閾値と前記第一の認識結果と第二の認識結果の照
合距離差を比較することにより、前記第一の認識結果が
誤りでないか判定するリジェクト判定を行い、誤りであ
れば前記第一の認識結果の出力を中止するリジェクトを
行い、誤りでなければ前記第一の認識結果を出力する単
語対別リジェクト判定部と、この単語対別リジェクト判
定部にて決定された認識結果に応じて、前記音声出力用
信号記憶部から音声出力用信号を読み出して出力信号を
生成する出力信号生成部を設けたものである。
【0028】また、この発明にかかる音声認識装置は、
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるSN
比を算出するSN比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、この音
声出力用信号記憶部から読み出した音声出力用信号を用
いて、前記標準パタン記憶部に登録されている標準パタ
ンを修正し、前記標準パタン記憶部に書き込む標準パタ
ン修正部と、前記音声区間検出部にて検出された音声区
間の特徴ベクトルの時系列である音声パタンと前記標準
パタン記憶部から読み出した標準パタンとの比較照合を
行い、この標準パタンごとに算出された前記音声パタン
との類似度を示す照合距離より、前記音声パタンとの類
似度が最も高い標準パタンを第一の認識結果、2番目に
高い標準パタンを第二の認識結果として決定する照合部
と、前記標準パタン記憶部に登録された単語のうち所定
の単語とその他の単語が要素として組み合わされた単語
対、およびこの単語対に含まれる前記要素間の照合距離
に依存して決定された単語対別リジェクト閾値を記憶す
る閾値記憶部と、前記照合部にて決定された前記第一の
認識結果と前記第二の認識結果を要素として含む単語対
の単語対別リジェクト閾値を前記閾値記憶部から読み出
し、この単語対別リジェクト閾値と前記SN比算出部に
おいて算出されたSN比を用いてリジェクト閾値を演算
し、このリジェクト閾値と前記第一の認識結果と第二の
認識結果の照合距離差を比較することにより、前記第一
の認識結果が誤りでないか判定するリジェクト判定を行
い、誤りであれば前記第一の認識結果の出力を中止する
リジェクトを行い、誤りでなければ前記第一の認識結果
を出力する単語対別リジェクト判定部と、この単語対別
リジェクト判定部にて決定された認識結果に応じて、前
記音声出力用信号記憶部から音声出力用信号を読み出し
て出力信号を生成する出力信号生成部を設けたものであ
る。
音声認識させる音声信号を入力する音声信号入力部と、
この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、このA/
D変換部から出力されたディジタル値の時系列を用いて
音響分析を行い、特徴ベクトルの時系列を出力する分析
部と、この分析部から出力された特徴ベクトルの時系列
より音声区間と雑音区間を分離して音声区間を検出する
とともに、音声区間と雑音区間の平均パワーを出力する
音声区間検出部と、この音声区間検出部から出力された
音声区間と雑音区間の平均パワーより前記音声区間の信
号の強さと前記雑音区間の信号の強さの割合であるSN
比を算出するSN比算出部と、認識対象となる単語の音
声区間の特徴ベクトルの時系列があらかじめ登録されて
いる標準パタン記憶部と、認識結果を音声出力する音声
出力用信号を記憶する音声出力用信号機億部と、この音
声出力用信号記憶部から読み出した音声出力用信号を用
いて、前記標準パタン記憶部に登録されている標準パタ
ンを修正し、前記標準パタン記憶部に書き込む標準パタ
ン修正部と、前記音声区間検出部にて検出された音声区
間の特徴ベクトルの時系列である音声パタンと前記標準
パタン記憶部から読み出した標準パタンとの比較照合を
行い、この標準パタンごとに算出された前記音声パタン
との類似度を示す照合距離より、前記音声パタンとの類
似度が最も高い標準パタンを第一の認識結果、2番目に
高い標準パタンを第二の認識結果として決定する照合部
と、前記標準パタン記憶部に登録された単語のうち所定
の単語とその他の単語が要素として組み合わされた単語
対、およびこの単語対に含まれる前記要素間の照合距離
に依存して決定された単語対別リジェクト閾値を記憶す
る閾値記憶部と、前記照合部にて決定された前記第一の
認識結果と前記第二の認識結果を要素として含む単語対
の単語対別リジェクト閾値を前記閾値記憶部から読み出
し、この単語対別リジェクト閾値と前記SN比算出部に
おいて算出されたSN比を用いてリジェクト閾値を演算
し、このリジェクト閾値と前記第一の認識結果と第二の
認識結果の照合距離差を比較することにより、前記第一
の認識結果が誤りでないか判定するリジェクト判定を行
い、誤りであれば前記第一の認識結果の出力を中止する
リジェクトを行い、誤りでなければ前記第一の認識結果
を出力する単語対別リジェクト判定部と、この単語対別
リジェクト判定部にて決定された認識結果に応じて、前
記音声出力用信号記憶部から音声出力用信号を読み出し
て出力信号を生成する出力信号生成部を設けたものであ
る。
【0029】
【発明の実施の形態】実施の形態1.図1は、この発明
の実施の形態1にかかる音声認識装置の構成を示すブロ
ック図である。図1において図7と同一の符号は同一又
は相当部分を示すので説明は省略する。7はリジェクト
判定部、8はSN比算出部、13は出力信号生成部であ
る。次に動作について説明する。SN比算出部8は、音
声区間検出部4より出力された音声区間の平均パワーP
Sと雑音区間の平均パワーPNから、(7)式を用いて音
声区間のパワーPSと雑音区間のパワーPNの比の対数で
あるSN比(SNR)を求め、リジェクト判定部7に出
力する。なお、(7)式は従来技術にて説明した(4)
式と同じ式である。
の実施の形態1にかかる音声認識装置の構成を示すブロ
ック図である。図1において図7と同一の符号は同一又
は相当部分を示すので説明は省略する。7はリジェクト
判定部、8はSN比算出部、13は出力信号生成部であ
る。次に動作について説明する。SN比算出部8は、音
声区間検出部4より出力された音声区間の平均パワーP
Sと雑音区間の平均パワーPNから、(7)式を用いて音
声区間のパワーPSと雑音区間のパワーPNの比の対数で
あるSN比(SNR)を求め、リジェクト判定部7に出
力する。なお、(7)式は従来技術にて説明した(4)
式と同じ式である。
【0030】
【数7】
【0031】照合部5は、音声区間検出部4より出力さ
れた音声区間の特徴ベクトルの時系列と、標準パタン記
憶部6から読み出した標準パタンを用いて、入力された
音声信号と標準パタンを照合する処理をする。具体的に
は、照合部5は、特徴ベクトルの時系列と各標準パタン
を照合して両者の照合距離を求める処理と、各標準パタ
ンの照合距離を比較して照合距離が最小の標準パタン及
び2番目に小さい標準パタンを選択する処理を行う。以
上の処理結果をふまえて、照合部5は、最も照合距離の
小さな標準パタンを認識結果候補の第1位、2番目に小
さい標準パタンは認識結果候補の第2位として決定し、
第1位の単語番号Nと照合距離値D、及び認識結果候補
の第2位の照合距離値D2をリジェクト判定部7に出力
する。リジェクト判定部7は、SN比算出部8より出力
されたSNRを用いて、リジェクト判定のためのリジェ
クト閾値T2を(8)式によって決定する。
れた音声区間の特徴ベクトルの時系列と、標準パタン記
憶部6から読み出した標準パタンを用いて、入力された
音声信号と標準パタンを照合する処理をする。具体的に
は、照合部5は、特徴ベクトルの時系列と各標準パタン
を照合して両者の照合距離を求める処理と、各標準パタ
ンの照合距離を比較して照合距離が最小の標準パタン及
び2番目に小さい標準パタンを選択する処理を行う。以
上の処理結果をふまえて、照合部5は、最も照合距離の
小さな標準パタンを認識結果候補の第1位、2番目に小
さい標準パタンは認識結果候補の第2位として決定し、
第1位の単語番号Nと照合距離値D、及び認識結果候補
の第2位の照合距離値D2をリジェクト判定部7に出力
する。リジェクト判定部7は、SN比算出部8より出力
されたSNRを用いて、リジェクト判定のためのリジェ
クト閾値T2を(8)式によって決定する。
【0032】
【数8】
【0033】(8)式に示すa、bは、a>0、b>0
を満たす経験的に定められた定数である。(8)式によ
って計算されたリジェクト閾値T2を図2に示す。a>
0と設定することにより、入力音声のSNRが低いほど
リジェクト閾値T2も小さくなることを図2のグラフは
示している。
を満たす経験的に定められた定数である。(8)式によ
って計算されたリジェクト閾値T2を図2に示す。a>
0と設定することにより、入力音声のSNRが低いほど
リジェクト閾値T2も小さくなることを図2のグラフは
示している。
【0034】ここで、低SN比の信号に対してリジェク
ト閾値を小さくする必要性について説明する。周囲雑音
が大きくなるとSN比が低下する。SN比が低下した信
号は雑音成分によりその特徴部分が平均化されており、
低SN比信号から生成された音声パタンと標準パタンと
の照合距離は大きくなる(類似度が低くなる)。また、
特徴部分が平均化された音声パタンから認識結果となる
標準パタンを特定するのは困難である。なぜなら、標準
パタン間の照合距離の差が小さく、認識結果候補の1
位、2位の照合距離差も微差となるためである。従っ
て、低SN比の信号をリジェクト判定するときには、S
N比に応じて低めに更新されたリジェクト閾値を用いる
必要がある。なお、リジェクト判定部7は、リジェクト
判定のためのリジェクト閾値T2を(8)式の代わりに
(9)式を用いて求めてもよい。
ト閾値を小さくする必要性について説明する。周囲雑音
が大きくなるとSN比が低下する。SN比が低下した信
号は雑音成分によりその特徴部分が平均化されており、
低SN比信号から生成された音声パタンと標準パタンと
の照合距離は大きくなる(類似度が低くなる)。また、
特徴部分が平均化された音声パタンから認識結果となる
標準パタンを特定するのは困難である。なぜなら、標準
パタン間の照合距離の差が小さく、認識結果候補の1
位、2位の照合距離差も微差となるためである。従っ
て、低SN比の信号をリジェクト判定するときには、S
N比に応じて低めに更新されたリジェクト閾値を用いる
必要がある。なお、リジェクト判定部7は、リジェクト
判定のためのリジェクト閾値T2を(8)式の代わりに
(9)式を用いて求めてもよい。
【0035】
【数9】
【0036】ここで(9)式に示すa、bは、a>0、
b>0を満たす経験的に定められた定数である。またS
NR1とSNR2は、SNR1<SNR2を満たす経験的に
定められた定数である。またSNRは、SN比算出部8
によって計算される入力音声のSN比である。このリジ
ェクト閾値を図3に示す。図3に示すリジェクト閾値は
上限と下限が設けられている。このように、リジェクト
閾値に上限と下限を設定することにより、音声パタンと
標準パタンの類似度の「許容範囲」であるリジェクト閾
値を適正に設定することが可能となり、認識誤りを判定
する精度が改善される。リジェクト判定部7は、照合部
5より出力された認識結果候補の第2位の照合距離値D
2と認識結果候補の第1位の照合距離値Dより、(1
0)式を用いて両者の照合距離差ΔDを計算する。
b>0を満たす経験的に定められた定数である。またS
NR1とSNR2は、SNR1<SNR2を満たす経験的に
定められた定数である。またSNRは、SN比算出部8
によって計算される入力音声のSN比である。このリジ
ェクト閾値を図3に示す。図3に示すリジェクト閾値は
上限と下限が設けられている。このように、リジェクト
閾値に上限と下限を設定することにより、音声パタンと
標準パタンの類似度の「許容範囲」であるリジェクト閾
値を適正に設定することが可能となり、認識誤りを判定
する精度が改善される。リジェクト判定部7は、照合部
5より出力された認識結果候補の第2位の照合距離値D
2と認識結果候補の第1位の照合距離値Dより、(1
0)式を用いて両者の照合距離差ΔDを計算する。
【0037】
【数10】
【0038】そして、(10)式を用いて計算した照合
距離差ΔDと、(8)式ないし(9)式を用いて計算し
たリジェクト閾値T2を比較する。照合距離差ΔDとリ
ジェクト閾値T2を比較した結果がΔD<T2であれば、
リジェクト判定部7は認識結果をリジェクトすることに
決定し、リジェクトを意味する記号であるΦを出力す
る。一方、照合距離差ΔDとリジェクト閾値T2を比較
した結果が、以下の条件を満たせば、認識結果候補の第
1位の標準パタンを示す単語番号Nを出力信号生成部1
3に出力する。
距離差ΔDと、(8)式ないし(9)式を用いて計算し
たリジェクト閾値T2を比較する。照合距離差ΔDとリ
ジェクト閾値T2を比較した結果がΔD<T2であれば、
リジェクト判定部7は認識結果をリジェクトすることに
決定し、リジェクトを意味する記号であるΦを出力す
る。一方、照合距離差ΔDとリジェクト閾値T2を比較
した結果が、以下の条件を満たせば、認識結果候補の第
1位の標準パタンを示す単語番号Nを出力信号生成部1
3に出力する。
【0039】
【数11】
【0040】出力信号生成部13の行う処理内容は、認
識結果をどのように出力するかで異なる。例えば、認識
結果を表示手段を用いて表示させることが考えられる。
また、認識結果を音声で出力してもよい。さらに、有
線、無線などの通信手段を用いて認識結果を遠隔地に伝
送し、そこで出力させることも考えられる。つまり、認
識結果を表示するか、音声出力するか、通信手段を介し
て伝送するかで出力信号を生成する方法は異なる。出力
信号生成部13は、音声認識装置の用途と認識結果を出
力する形態に応じて適切なものを選択すればよい。
識結果をどのように出力するかで異なる。例えば、認識
結果を表示手段を用いて表示させることが考えられる。
また、認識結果を音声で出力してもよい。さらに、有
線、無線などの通信手段を用いて認識結果を遠隔地に伝
送し、そこで出力させることも考えられる。つまり、認
識結果を表示するか、音声出力するか、通信手段を介し
て伝送するかで出力信号を生成する方法は異なる。出力
信号生成部13は、音声認識装置の用途と認識結果を出
力する形態に応じて適切なものを選択すればよい。
【0041】以上説明したように、従来の音声認識装置
は、音声認識時に入力された音声信号のSN比と1回前
に入力された音声のSN比から求められたSN比の変化
量よりリジェクト閾値を計算していた。これに対して、
実施の形態1にかかる音声認識装置は、音声認識時に入
力された音声信号のSN比からリジェクト閾値を計算す
る。従って、最初の音声認識処理から適切なリジェクト
閾値が設定され、精度の高い音声認識処理を行うことが
できる。また、このリジェクト閾値は、周囲雑音が混入
して、SN比が低下するのに伴い低めに設定される。従
って、周囲雑音が多い環境で音声認識処理を行った場合
でも、精度の高いリジェクト判定が可能となり、認識誤
りが出力されることを防止することができる。
は、音声認識時に入力された音声信号のSN比と1回前
に入力された音声のSN比から求められたSN比の変化
量よりリジェクト閾値を計算していた。これに対して、
実施の形態1にかかる音声認識装置は、音声認識時に入
力された音声信号のSN比からリジェクト閾値を計算す
る。従って、最初の音声認識処理から適切なリジェクト
閾値が設定され、精度の高い音声認識処理を行うことが
できる。また、このリジェクト閾値は、周囲雑音が混入
して、SN比が低下するのに伴い低めに設定される。従
って、周囲雑音が多い環境で音声認識処理を行った場合
でも、精度の高いリジェクト判定が可能となり、認識誤
りが出力されることを防止することができる。
【0042】また、従来の音声認識装置は、認識結果の
第1位の照合距離をパラメータとして用いていた。これ
に対して、実施の形態1にかかる音声認識装置は、認識
結果の第1位と第2位の照合距離の差をパラメータとし
て用いる。認識結果の第2位の照合距離値D2と認識結
果の第1位の照合距離値Dとの差であるΔDをパラメー
タとして用いることにより、音声認識の精度は発声方法
の揺らぎに影響されない。なぜなら、発声方法の揺らぎ
による照合距離値は認識結果候補の第2位の照合距離値
D2と認識結果候補の第1位の照合距離値Dの両方に同
様に影響するので、その差分であるΔDでは距離値の変
動が相殺されるからである。
第1位の照合距離をパラメータとして用いていた。これ
に対して、実施の形態1にかかる音声認識装置は、認識
結果の第1位と第2位の照合距離の差をパラメータとし
て用いる。認識結果の第2位の照合距離値D2と認識結
果の第1位の照合距離値Dとの差であるΔDをパラメー
タとして用いることにより、音声認識の精度は発声方法
の揺らぎに影響されない。なぜなら、発声方法の揺らぎ
による照合距離値は認識結果候補の第2位の照合距離値
D2と認識結果候補の第1位の照合距離値Dの両方に同
様に影響するので、その差分であるΔDでは距離値の変
動が相殺されるからである。
【0043】実施の形態2.図4は、実施の形態2にか
かる音声認識装置の構成を示すブロック図である。図4
において、図1の符号と同一のものは同一又は相当部分
を示すので説明は省略する。9は、単語対別リジェクト
閾値を決定する閾値決定部、10は、単語対別リジェク
ト閾値を記憶する閾値記憶部、11は、単語対別リジェ
クト閾値とSN比に依存して決定されたリジェクト閾値
を用いてリジェクト判定を行う単語別リジェクト判定
部、12は認識結果を音声出力する音声出力用信号を記
憶したトークバック用音声記憶部である。そして、切替
スイッチAがA/D変換部2と分析部3の間に、切替ス
イッチBが音声区間検出部4と照合部5の間に、切替ス
イッチCが照合部5と単語別リジェクト判定部11の間
に設けられている。
かる音声認識装置の構成を示すブロック図である。図4
において、図1の符号と同一のものは同一又は相当部分
を示すので説明は省略する。9は、単語対別リジェクト
閾値を決定する閾値決定部、10は、単語対別リジェク
ト閾値を記憶する閾値記憶部、11は、単語対別リジェ
クト閾値とSN比に依存して決定されたリジェクト閾値
を用いてリジェクト判定を行う単語別リジェクト判定
部、12は認識結果を音声出力する音声出力用信号を記
憶したトークバック用音声記憶部である。そして、切替
スイッチAがA/D変換部2と分析部3の間に、切替ス
イッチBが音声区間検出部4と照合部5の間に、切替ス
イッチCが照合部5と単語別リジェクト判定部11の間
に設けられている。
【0044】以下、実施の形態2にかかる音声認識装置
の動作について、標準パタンの登録及び単語対別リジェ
クト閾値の作成、入力音声の認識処理にわけて説明す
る。標準パタンの登録及び単語対別リジェクト閾値の作
成を行うため、1回目の発声を行う前に、切替スイッチ
AはA1に、切替スイッチBはB1に設定しておく。1
回目の発声は、入力音声信号を標準パタン記憶部6に書
き込むため行うものである。切替スイッチAをA1に切
り替えておくことにより、A/D変換部2でデジタル変
換された音声信号は分析部3に入力される。また、切替
スイッチBをB1に切り替えておくことにより、音声区
間検出部4で検出された音声区間の特徴ベクトルの時系
列が標準パタン記憶部6に書き込まれる。
の動作について、標準パタンの登録及び単語対別リジェ
クト閾値の作成、入力音声の認識処理にわけて説明す
る。標準パタンの登録及び単語対別リジェクト閾値の作
成を行うため、1回目の発声を行う前に、切替スイッチ
AはA1に、切替スイッチBはB1に設定しておく。1
回目の発声は、入力音声信号を標準パタン記憶部6に書
き込むため行うものである。切替スイッチAをA1に切
り替えておくことにより、A/D変換部2でデジタル変
換された音声信号は分析部3に入力される。また、切替
スイッチBをB1に切り替えておくことにより、音声区
間検出部4で検出された音声区間の特徴ベクトルの時系
列が標準パタン記憶部6に書き込まれる。
【0045】現時点でn−1個の単語の標準パタンが既
に登録されており、今回、新たに単語番号n番の単語
「東京」の標準パタンを登録するものとする。音声信号
入力部1に「東京」と1回目の発声を行うと、A/D変
換部2は、入力された音声信号の音声波形をディジタル
値の時系列Sn1(t)、t=1,2,3,...,Tn1に変換す
る。このディジタル値の時系列は切替スイッチAを経由
して分析部3に出力される。なお、ディジタル値の時系
列Sn1(t)の添字n1は単語番号nの1回目の発声である
ことを意味するものとする。またTn1は、ディジタル値
の時系列Sn1(t)のサンプル数である。
に登録されており、今回、新たに単語番号n番の単語
「東京」の標準パタンを登録するものとする。音声信号
入力部1に「東京」と1回目の発声を行うと、A/D変
換部2は、入力された音声信号の音声波形をディジタル
値の時系列Sn1(t)、t=1,2,3,...,Tn1に変換す
る。このディジタル値の時系列は切替スイッチAを経由
して分析部3に出力される。なお、ディジタル値の時系
列Sn1(t)の添字n1は単語番号nの1回目の発声である
ことを意味するものとする。またTn1は、ディジタル値
の時系列Sn1(t)のサンプル数である。
【0046】分析部3と音声区間検出部4の動作につい
ては、従来技術にて説明したので省略する。音声区間検
出部4から出力された音声区間の特徴ベクトルの時系列
Xn1(i), (i=1,2,3,...,In1)は切替スイッチBを経由
して標準パタン記憶部6に書き込まれる。標準パタン記
憶部6は、書き込まれた特徴ベクトルの時系列Xn1(i)
を単語番号nの標準パタンRn=Xn1(i),(i=1,2,
3,...,In1)として記憶する。ここでXn1,,In1の添字
n1は単語番号n番の1回目の発声であることを意味す
るものとする。
ては、従来技術にて説明したので省略する。音声区間検
出部4から出力された音声区間の特徴ベクトルの時系列
Xn1(i), (i=1,2,3,...,In1)は切替スイッチBを経由
して標準パタン記憶部6に書き込まれる。標準パタン記
憶部6は、書き込まれた特徴ベクトルの時系列Xn1(i)
を単語番号nの標準パタンRn=Xn1(i),(i=1,2,
3,...,In1)として記憶する。ここでXn1,,In1の添字
n1は単語番号n番の1回目の発声であることを意味す
るものとする。
【0047】次に、2回目の発声を行う前に、切替スイ
ッチAはA2に、切替スイッチBはB2に、切替スイッ
チCはC1に設定しておく。2回目の発声は、入力音声
信号をトークバック用音声記憶部12に書き込むために
行うものである。切替スイッチAをA2に切り替えてお
くことにより、A/D変換部2でデジタル変換された音
声信号はトークバック用音声記憶部12に書き込まれ
る。また、切替スイッチBをB2に切り替えておくこと
により、音声区間検出部4で検出された音声区間の特徴
ベクトルの時系列が照合部5に書き込まれる。また、切
替スイッチCをC1に切り替えておくことにより、照合
部5にて各標準パタンごとに求められた照合距離値が閾
値決定部9に入力される。
ッチAはA2に、切替スイッチBはB2に、切替スイッ
チCはC1に設定しておく。2回目の発声は、入力音声
信号をトークバック用音声記憶部12に書き込むために
行うものである。切替スイッチAをA2に切り替えてお
くことにより、A/D変換部2でデジタル変換された音
声信号はトークバック用音声記憶部12に書き込まれ
る。また、切替スイッチBをB2に切り替えておくこと
により、音声区間検出部4で検出された音声区間の特徴
ベクトルの時系列が照合部5に書き込まれる。また、切
替スイッチCをC1に切り替えておくことにより、照合
部5にて各標準パタンごとに求められた照合距離値が閾
値決定部9に入力される。
【0048】音声信号入力部1に「東京」と2回目の発
声を行うと、A/D変換部2は、入力された音声信号の
音声波形をディジタル値の時系列Sn2(t),t=1,2,
3,...,Tn2に変換する。ここで添字n2は単語番号nの
2回目の発声であることを意味するものとする。またT
n2は、ディジタル値の時系列Sn2(t)のサンプル数であ
る。このディジタル値の時系列は切替スイッチAを経由
してトークバック用音声記憶部12に書き込まれて記憶
される。トークバック用音声記憶部12には、過去に登
録された単語番号1番からn番までの全ての音声信号波
形のディジタル値Sq2(t), q=1,2,3,...n, t=1,2,
3,...,Tq2が記憶されている。
声を行うと、A/D変換部2は、入力された音声信号の
音声波形をディジタル値の時系列Sn2(t),t=1,2,
3,...,Tn2に変換する。ここで添字n2は単語番号nの
2回目の発声であることを意味するものとする。またT
n2は、ディジタル値の時系列Sn2(t)のサンプル数であ
る。このディジタル値の時系列は切替スイッチAを経由
してトークバック用音声記憶部12に書き込まれて記憶
される。トークバック用音声記憶部12には、過去に登
録された単語番号1番からn番までの全ての音声信号波
形のディジタル値Sq2(t), q=1,2,3,...n, t=1,2,
3,...,Tq2が記憶されている。
【0049】トークバック用音声記憶部12は、前記単
語番号n番、すなわち「東京」を意味する音声信号波形
のディジタル値Sn2(t), t=1,2,3,...,Tn2を分析部3に
出力する。分析部3と音声区間検出部4は1回目の発声
時と同じ動作をする。音声区間検出部4から出力された
音声区間の特徴ベクトルの時系列Xn2(i), (i=1,
2,3,...,In2)は、B2に接続された切替スイッチB
を経由して照合部5に入力される。
語番号n番、すなわち「東京」を意味する音声信号波形
のディジタル値Sn2(t), t=1,2,3,...,Tn2を分析部3に
出力する。分析部3と音声区間検出部4は1回目の発声
時と同じ動作をする。音声区間検出部4から出力された
音声区間の特徴ベクトルの時系列Xn2(i), (i=1,
2,3,...,In2)は、B2に接続された切替スイッチB
を経由して照合部5に入力される。
【0050】照合部5は、標準パタン記憶部6に記憶さ
れている全ての単語の標準パタンR p,p=1,2,3,...,n,を
順次読み出す。そして、DPマッチングによって、音声
区間の特徴ベクトルの時系列Xn2と標準パタンRpとの
照合を行ない、照合距離Dp,n, (p=1,2,3,...,n)を求め
る。ここで添字p,nは単語番号pの標準パタンRpと
単語番号nのトークバック用音声の特徴ベクトルの時系
列であるXn2(i)との照合距離であることを意味する。
照合距離Dp,nは、C1に接続された切替スイッチCを
経由して閾値決定部9に入力される。以上の処理を具体
的に説明すると、トークバック用音声記憶部12から出
力された「東京」という単語と、標準パタン記憶部6に
記憶されていた全ての標準パタン(「大阪」「京都」
「名古屋」が登録されているものとする)が要素として
組み合わされて単語対((東京 大阪)、(東京 京
都)、(東京 名古屋))が形成され、各単語対に含ま
れる要素間の照合距離が求められたことになる。閾値決
定部9は単語対ごとに求められた照合距離Dpn(p=1,2,
3,...,n)に基づいて、(12)式によって単語対p,n, (p
=1,2,3,...,n)ごとに単語対別リジェクト閾値Tpnを算
出する。
れている全ての単語の標準パタンR p,p=1,2,3,...,n,を
順次読み出す。そして、DPマッチングによって、音声
区間の特徴ベクトルの時系列Xn2と標準パタンRpとの
照合を行ない、照合距離Dp,n, (p=1,2,3,...,n)を求め
る。ここで添字p,nは単語番号pの標準パタンRpと
単語番号nのトークバック用音声の特徴ベクトルの時系
列であるXn2(i)との照合距離であることを意味する。
照合距離Dp,nは、C1に接続された切替スイッチCを
経由して閾値決定部9に入力される。以上の処理を具体
的に説明すると、トークバック用音声記憶部12から出
力された「東京」という単語と、標準パタン記憶部6に
記憶されていた全ての標準パタン(「大阪」「京都」
「名古屋」が登録されているものとする)が要素として
組み合わされて単語対((東京 大阪)、(東京 京
都)、(東京 名古屋))が形成され、各単語対に含ま
れる要素間の照合距離が求められたことになる。閾値決
定部9は単語対ごとに求められた照合距離Dpn(p=1,2,
3,...,n)に基づいて、(12)式によって単語対p,n, (p
=1,2,3,...,n)ごとに単語対別リジェクト閾値Tpnを算
出する。
【0051】
【数12】
【0052】ここで、cはc>0を満たす経験的に決め
られた定数である。MAX(,)は(,)内の最大値をとる演
算である。(12)式は、認識結果の第1位が単語番号
n、第2位が単語番号pであった場合に、単語対p、n
の類似度に応じて単語対別リジェクト閾値を変化させる
ことを意味する。すなわち単語対pとnの標準パタンが
類似している場合にはDp 、 n−Dn 、 nが小さい値となるた
め、単語対別リジェクト閾値Tp 、 nも小さい値となり、
逆に単語番号pとnの標準パタンが類似していない場合
にはDp 、 n−Dn 、 nが大きい値となるため、単語対別リジ
ェクト閾値Tp 、 nも大きな値となる。閾値決定部9にて
算出された単語対別リジェクト閾値Tp 、 nは、閾値記憶
部10に書き込まれて単語対ごとに記憶される。
られた定数である。MAX(,)は(,)内の最大値をとる演
算である。(12)式は、認識結果の第1位が単語番号
n、第2位が単語番号pであった場合に、単語対p、n
の類似度に応じて単語対別リジェクト閾値を変化させる
ことを意味する。すなわち単語対pとnの標準パタンが
類似している場合にはDp 、 n−Dn 、 nが小さい値となるた
め、単語対別リジェクト閾値Tp 、 nも小さい値となり、
逆に単語番号pとnの標準パタンが類似していない場合
にはDp 、 n−Dn 、 nが大きい値となるため、単語対別リジ
ェクト閾値Tp 、 nも大きな値となる。閾値決定部9にて
算出された単語対別リジェクト閾値Tp 、 nは、閾値記憶
部10に書き込まれて単語対ごとに記憶される。
【0053】n=1、すなわち一番最初の単語の標準パ
タンを登録する場合には、以上で標準パタン及び単語対
別リジェクト閾値の登録処理は終了する。標準パタン登
録する単語が他にある場合(n>1)には、以下の処理
を行う。
タンを登録する場合には、以上で標準パタン及び単語対
別リジェクト閾値の登録処理は終了する。標準パタン登
録する単語が他にある場合(n>1)には、以下の処理
を行う。
【0054】切替スイッチBはB2に、切替スイッチC
はC1に設定しておく。切替スイッチBをB2に切り替
えておくことにより、音声区間検出部4で検出された音
声区間の特徴ベクトルの時系列が照合部5に書き込まれ
る。また、切替スイッチCをC1に切り替えておくこと
により、照合部5にて各標準パタンごとに求められた照
合距離値が閾値決定部9に入力される。トークバック用
音声記憶部12は、以前に登録済の単語番号1番からn
−1番までの全ての音声信号波形のディジタル値S
q2(t),q=1,2,3,...n-1, t=1,2,3,...,Tq2を順次、
分析部3に出力する。音声区間検出部4から出力された
音声区間の特徴ベクトルの時系列Xq2(i),(i=1,2,
3,...,Iq2)は、B2に接続された切替スイッチBを経由
して照合部5に入力される。
はC1に設定しておく。切替スイッチBをB2に切り替
えておくことにより、音声区間検出部4で検出された音
声区間の特徴ベクトルの時系列が照合部5に書き込まれ
る。また、切替スイッチCをC1に切り替えておくこと
により、照合部5にて各標準パタンごとに求められた照
合距離値が閾値決定部9に入力される。トークバック用
音声記憶部12は、以前に登録済の単語番号1番からn
−1番までの全ての音声信号波形のディジタル値S
q2(t),q=1,2,3,...n-1, t=1,2,3,...,Tq2を順次、
分析部3に出力する。音声区間検出部4から出力された
音声区間の特徴ベクトルの時系列Xq2(i),(i=1,2,
3,...,Iq2)は、B2に接続された切替スイッチBを経由
して照合部5に入力される。
【0055】照合部5は、標準パタン記憶部6に記憶さ
れている単語番号n、すなわち今回登録しようとする
「東京」の標準パタンRnを取り出し、例えばDPマッ
チングによって、順次、音声区間の特徴ベクトルの時系
列であるXq2, (q=1,2,3,...,n-1)との照合を行ない、
照合距離Dn,q, (q=1,2,3,...,n-1)を求める。ここで添
字n,qは単語番号nの標準パタンRnと単語番号qの
トークバック用音声の特徴ベクトルの時系列Xq2(i)と
の照合距離であることを意味する。照合距離Dn, q, (q=
1,2,3,...,n-1)は、C1に接続された切替スイッチCを
経由して閾値決定部9に入力される。閾値決定部9は照
合距離Dn,q,(q=1,2,3,...,n-1)に基づいて、(13)
式によって単語番号対n,q, (p=1,2,3,...,n)ごとに単
語対別リジェクト閾値Tn,qを算出する。閾値決定部9
にて決定された単語対別リジェクト閾値Tn,qは、閾値
記憶部10に書き込まれて単語対ごとに記憶される。
れている単語番号n、すなわち今回登録しようとする
「東京」の標準パタンRnを取り出し、例えばDPマッ
チングによって、順次、音声区間の特徴ベクトルの時系
列であるXq2, (q=1,2,3,...,n-1)との照合を行ない、
照合距離Dn,q, (q=1,2,3,...,n-1)を求める。ここで添
字n,qは単語番号nの標準パタンRnと単語番号qの
トークバック用音声の特徴ベクトルの時系列Xq2(i)と
の照合距離であることを意味する。照合距離Dn, q, (q=
1,2,3,...,n-1)は、C1に接続された切替スイッチCを
経由して閾値決定部9に入力される。閾値決定部9は照
合距離Dn,q,(q=1,2,3,...,n-1)に基づいて、(13)
式によって単語番号対n,q, (p=1,2,3,...,n)ごとに単
語対別リジェクト閾値Tn,qを算出する。閾値決定部9
にて決定された単語対別リジェクト閾値Tn,qは、閾値
記憶部10に書き込まれて単語対ごとに記憶される。
【0056】
【数13】
【0057】以上で標準パタン及び単語対別リジェクト
閾値の登録処理が終了する。なお上記の(12)式、お
よび(13)式で算出される単語対別リジェクト閾値T
p,qは、図5における斜線で囲んだ部分を示す。単語番
号1からn−1番までを登録する過程で他の部分は算出
済なので、結局全ての単語の組p,q, (p≠q,p=
1,2,3,..,n,q=1,2,3,...,n)に対して単語対
別リジェクト閾値Tp,qが算出されていることになる。
閾値の登録処理が終了する。なお上記の(12)式、お
よび(13)式で算出される単語対別リジェクト閾値T
p,qは、図5における斜線で囲んだ部分を示す。単語番
号1からn−1番までを登録する過程で他の部分は算出
済なので、結局全ての単語の組p,q, (p≠q,p=
1,2,3,..,n,q=1,2,3,...,n)に対して単語対
別リジェクト閾値Tp,qが算出されていることになる。
【0058】次に、実施の形態2にかかる音声認識装置
が入力音声の認識を行う動作について説明する。音声認
識を行う場合、切替スイッチAはA1に、切替スイッチ
BはB2に、切替スイッチCはC2に設定される。音声
信号入力部1から入力された音声信号は、A/D変換部
2、分析部3、音声区間検出部4において、実施の形態
1で説明したのと同様の処理がなされる。音声区間検出
部4は、音声区間の特徴ベクトルの時系列を、B2と接
続された切替スイッチBを経由して照合部5に出力し、
音声区間の平均パワーPSと雑音区間の平均パワーPNを
SN比算出部8に出力する。
が入力音声の認識を行う動作について説明する。音声認
識を行う場合、切替スイッチAはA1に、切替スイッチ
BはB2に、切替スイッチCはC2に設定される。音声
信号入力部1から入力された音声信号は、A/D変換部
2、分析部3、音声区間検出部4において、実施の形態
1で説明したのと同様の処理がなされる。音声区間検出
部4は、音声区間の特徴ベクトルの時系列を、B2と接
続された切替スイッチBを経由して照合部5に出力し、
音声区間の平均パワーPSと雑音区間の平均パワーPNを
SN比算出部8に出力する。
【0059】SN比算出部8は、音声区間の平均パワー
PSと雑音区間の平均パワーPNからSN比(SNR)を
算出して単語別リジェクト判定部11に出力する。照合
部5は、標準パタン記憶部6から認識対象とする各単語
の単語番号と標準パタンを取り出し、音声区間の特徴ベ
クトルの時系列との照合を行ない、各標準パタンごとに
照合距離を求める。照合方法は、実施の形態1と同様D
Pマッチングを用いる。照合距離値が最小の標準パタン
を認識結果候補の第1位、照合距離値が2番目に小さい
標準パタンを認識結果候補の第2位として決定する。
PSと雑音区間の平均パワーPNからSN比(SNR)を
算出して単語別リジェクト判定部11に出力する。照合
部5は、標準パタン記憶部6から認識対象とする各単語
の単語番号と標準パタンを取り出し、音声区間の特徴ベ
クトルの時系列との照合を行ない、各標準パタンごとに
照合距離を求める。照合方法は、実施の形態1と同様D
Pマッチングを用いる。照合距離値が最小の標準パタン
を認識結果候補の第1位、照合距離値が2番目に小さい
標準パタンを認識結果候補の第2位として決定する。
【0060】照合部5は、認識結果候補の第1位の単語
番号Nと照合距離値D、および認識結果候補の第2位の
単語番号N2と照合距離値D2を標準パタン記憶部6より
読み出して、C2と接続された切替スイッチCより単語
別リジェクト判定部11に出力する。単語別リジェクト
判定部11は、照合部5より入力された認識結果候補の
1位と2位の単語番号N,N2を要素として含む単語対を
選択し、この単語対から単語番号N,N2の照合距離に基
づいて求められた単語対別リジェクト閾値TN, N2を読み
出す。この単語対別リジェクト閾値とSN比算出部17
にて算出されたSN比よりリジェクト判定のためのリジ
ェクト閾値T3を(14)式を用いて算出する。
番号Nと照合距離値D、および認識結果候補の第2位の
単語番号N2と照合距離値D2を標準パタン記憶部6より
読み出して、C2と接続された切替スイッチCより単語
別リジェクト判定部11に出力する。単語別リジェクト
判定部11は、照合部5より入力された認識結果候補の
1位と2位の単語番号N,N2を要素として含む単語対を
選択し、この単語対から単語番号N,N2の照合距離に基
づいて求められた単語対別リジェクト閾値TN, N2を読み
出す。この単語対別リジェクト閾値とSN比算出部17
にて算出されたSN比よりリジェクト判定のためのリジ
ェクト閾値T3を(14)式を用いて算出する。
【0061】
【数14】
【0062】ここでa2はa2>0を満たす経験的に定め
られた定数である。a2>0と設定することにより、実
施の形態1と同様、入力音声のSNRが低ければ、閾値
も小さく設定される。
られた定数である。a2>0と設定することにより、実
施の形態1と同様、入力音声のSNRが低ければ、閾値
も小さく設定される。
【0063】単語対別リジェクト判定部11は、(1
0)式から計算された認識結果候補2位の照合距離値D
2と認識結果候補1位の照合距離値Dとの差ΔDと、
(14)式を用いて計算したリジェクト閾値T3を比較
する。そしてΔD<T3であれば、認識結果をリジェク
トすることに決定し、リジェクトを意味する記号Φを認
識結果として出力する。一方、ΔD>T3であれば、照
合部5からの入力である単語番号Nを認識結果として決
定する。そして、トークバック用音声記憶部12から、
単語番号Nの音声信号波形のディジタル値SN2(t),t=
1,2,3,...,TN2を読み出し、出力信号生成部13に出力
する。出力信号生成部13は、単語別リジェクト判定部
11より出力された単語番号Nの音声信号波形のディジ
タル値SN2(t)を用いて、認識結果出力用の音声信号を
生成して出力する。なお、認識結果がリジェクトを意味
する記号Φであれば何も出力しない。
0)式から計算された認識結果候補2位の照合距離値D
2と認識結果候補1位の照合距離値Dとの差ΔDと、
(14)式を用いて計算したリジェクト閾値T3を比較
する。そしてΔD<T3であれば、認識結果をリジェク
トすることに決定し、リジェクトを意味する記号Φを認
識結果として出力する。一方、ΔD>T3であれば、照
合部5からの入力である単語番号Nを認識結果として決
定する。そして、トークバック用音声記憶部12から、
単語番号Nの音声信号波形のディジタル値SN2(t),t=
1,2,3,...,TN2を読み出し、出力信号生成部13に出力
する。出力信号生成部13は、単語別リジェクト判定部
11より出力された単語番号Nの音声信号波形のディジ
タル値SN2(t)を用いて、認識結果出力用の音声信号を
生成して出力する。なお、認識結果がリジェクトを意味
する記号Φであれば何も出力しない。
【0064】以上説明したように、本発明は、認識結果
の第1位と第2位の単語対N,N2より決定された単語
対別リジェクト閾値と入力音声のSN比よりリジェクト
閾値T3を決定するので、より詳細なリジェクト判定が
可能となる。また標準パタン登録及びリジェクト閾値決
定用に2回入力される発声を用いて、(a)トークバック
用音声の登録と、(b)単語対別リジェクト閾値の作成が
効率よく行うことができる。
の第1位と第2位の単語対N,N2より決定された単語
対別リジェクト閾値と入力音声のSN比よりリジェクト
閾値T3を決定するので、より詳細なリジェクト判定が
可能となる。また標準パタン登録及びリジェクト閾値決
定用に2回入力される発声を用いて、(a)トークバック
用音声の登録と、(b)単語対別リジェクト閾値の作成が
効率よく行うことができる。
【0065】実施の形態3.実施の形態2にかかる音声
認識装置では、所定の単語を2回発声することにより、
つまり、1回目の発声で登録された標準パタンと2回目
の発声で登録されたトークバック用音声から単語対別リ
ジェクト閾値を求める処理をしていた。実施の形態3に
かかる音声認識装置では、2回目の発声で登録されたト
ークバック用音声を用いて、1回目の発声で登録された
標準パタンを補正するものである。以下、図6を参照し
ながら説明する。
認識装置では、所定の単語を2回発声することにより、
つまり、1回目の発声で登録された標準パタンと2回目
の発声で登録されたトークバック用音声から単語対別リ
ジェクト閾値を求める処理をしていた。実施の形態3に
かかる音声認識装置では、2回目の発声で登録されたト
ークバック用音声を用いて、1回目の発声で登録された
標準パタンを補正するものである。以下、図6を参照し
ながら説明する。
【0066】図6は、この発明の実施の形態3にかかる
音声認識装置の構成を示すブロック図である。図6にお
いて、図4の符号と同一のものは同一又は相当部分を示
すので説明は省略する。14は標準パタン修正部であ
る。そして、切替スイッチBが音声区間検出部4と標準
パタン修正部14の間に設けられている。この切替スイ
ッチBは、B1に接続することにより、音声区間検出部
4より出力された信号を標準パタン修正部14に書き込
む経路を形成し、B2に接続することにより、音声区間
検出部4より出力された信号を照合部5に書き込む経路
を形成するものである。
音声認識装置の構成を示すブロック図である。図6にお
いて、図4の符号と同一のものは同一又は相当部分を示
すので説明は省略する。14は標準パタン修正部であ
る。そして、切替スイッチBが音声区間検出部4と標準
パタン修正部14の間に設けられている。この切替スイ
ッチBは、B1に接続することにより、音声区間検出部
4より出力された信号を標準パタン修正部14に書き込
む経路を形成し、B2に接続することにより、音声区間
検出部4より出力された信号を照合部5に書き込む経路
を形成するものである。
【0067】次に動作について説明する。実施の形態3
にかかる音声認識装置は、単語対p,q, (p=1,2,3,...,
n, q=1,2,3,...,n)ごとに単語対別リジェクト閾値Tp,q
を求めるまでは、実施の形態2にかかる音声認識装置と
同様の処理を行う。次に、トークバック用音声記憶部1
2は再度、単語番号n番のトークバック用音声信号を分
析部3に出力する。音声区間検出部4は、B1に接続さ
れた切替スイッチBを介して、音声区間の特徴ベクトル
の時系列Xn2(i)を標準パタン修正部14に出力する。
にかかる音声認識装置は、単語対p,q, (p=1,2,3,...,
n, q=1,2,3,...,n)ごとに単語対別リジェクト閾値Tp,q
を求めるまでは、実施の形態2にかかる音声認識装置と
同様の処理を行う。次に、トークバック用音声記憶部1
2は再度、単語番号n番のトークバック用音声信号を分
析部3に出力する。音声区間検出部4は、B1に接続さ
れた切替スイッチBを介して、音声区間の特徴ベクトル
の時系列Xn2(i)を標準パタン修正部14に出力する。
【0068】音声区間検出部4より入力された音声区間
の特徴ベクトルの時系列Xn2(i)の単語番号nより、標
準パタン修正部14は、標準パタン記憶部6から単語番
号nの標準パタンRnを読み出す。標準パタンRnも特徴
ベクトルの時系列Xn1(i)で記憶されている。次に、標
準パタン修正部14は、標準パタン記憶部6から読み出
された単語番号nの標準パタンRn=Yn(i), (i=1,2,
3,...,In)を、(15)〜(18)式を用いて修正す
る。ここで、InはRnの時間方向の長さであり、(1
5)式に示すように1回目の発声の特徴ベクトルの時系
列Xn1(i)の長さIn1と2回目の発声の特徴ベクトルの
時系列Xn2(i)の長さIn2との平均である。
の特徴ベクトルの時系列Xn2(i)の単語番号nより、標
準パタン修正部14は、標準パタン記憶部6から単語番
号nの標準パタンRnを読み出す。標準パタンRnも特徴
ベクトルの時系列Xn1(i)で記憶されている。次に、標
準パタン修正部14は、標準パタン記憶部6から読み出
された単語番号nの標準パタンRn=Yn(i), (i=1,2,
3,...,In)を、(15)〜(18)式を用いて修正す
る。ここで、InはRnの時間方向の長さであり、(1
5)式に示すように1回目の発声の特徴ベクトルの時系
列Xn1(i)の長さIn1と2回目の発声の特徴ベクトルの
時系列Xn2(i)の長さIn2との平均である。
【0069】
【数15】
【0070】式中の[.]は四捨五入して整数値にする演
算である。またYn(i), (i=1,2,3,...,In)は、(1
5)〜(18)式に示すように、1回目の発声の特徴ベ
クトルの時系列Xn1(i), (i=1,2,3,...,In1)と2回目
の発声の特徴ベクトルの時系列Xn 2(i), (i=1,2,
3,...,In2)をそれぞれ長さInになるように線形に伸縮
した後の各時刻での特徴ベクトルの平均である。
算である。またYn(i), (i=1,2,3,...,In)は、(1
5)〜(18)式に示すように、1回目の発声の特徴ベ
クトルの時系列Xn1(i), (i=1,2,3,...,In1)と2回目
の発声の特徴ベクトルの時系列Xn 2(i), (i=1,2,
3,...,In2)をそれぞれ長さInになるように線形に伸縮
した後の各時刻での特徴ベクトルの平均である。
【0071】
【数16】
【0072】
【数17】
【0073】
【数18】
【0074】このように修正したRn=Yn(i), (i=1,
2,3,...,In)を単語番号n番の標準パタンとして標準パ
タン記憶部6に転送して記憶する。
2,3,...,In)を単語番号n番の標準パタンとして標準パ
タン記憶部6に転送して記憶する。
【0075】このように実施の形態3にかかる音声認識
装置は、1回目の発声により登録された標準パタンを、
2回目の発声により登録されたトークバック用音声信号
を用いて修正する処理を行うので、標準パタンの精度が
高くなる。またリジェクト閾値Tp,qの決定時には、2
回目の発声との平均をとる前の1回目の発声の特徴ベク
トルの時系列Xn1(i), (i=1,2,3,...,In1)を標準パタ
ンとして用いるので、2回目の発声の特徴ベクトルの時
系列Xn2(i), (i=1,2,3,...,In2)は未知データとみな
すことができ、正確なリジェクト閾値Tp,qを決定する
ことができる。
装置は、1回目の発声により登録された標準パタンを、
2回目の発声により登録されたトークバック用音声信号
を用いて修正する処理を行うので、標準パタンの精度が
高くなる。またリジェクト閾値Tp,qの決定時には、2
回目の発声との平均をとる前の1回目の発声の特徴ベク
トルの時系列Xn1(i), (i=1,2,3,...,In1)を標準パタ
ンとして用いるので、2回目の発声の特徴ベクトルの時
系列Xn2(i), (i=1,2,3,...,In2)は未知データとみな
すことができ、正確なリジェクト閾値Tp,qを決定する
ことができる。
【0076】
【発明の効果】本発明にかかる音声認識装置は、音声認
識時に入力された音声信号のSN比からリジェクト閾値
を計算するので、最初の音声認識処理から適切なリジェ
クト閾値が設定され、精度の高い音声認識処理を行うこ
とができる。また、最も類似度の高い第一の認識結果と
次に類似度が高い第二の認識結果の照合距離差を、リジ
ェクト閾値と比較してリジェクト判定を行うので、発声
方法の揺らぎ等が生じても精度の高い音声認識処理を行
うことが可能である。
識時に入力された音声信号のSN比からリジェクト閾値
を計算するので、最初の音声認識処理から適切なリジェ
クト閾値が設定され、精度の高い音声認識処理を行うこ
とができる。また、最も類似度の高い第一の認識結果と
次に類似度が高い第二の認識結果の照合距離差を、リジ
ェクト閾値と比較してリジェクト判定を行うので、発声
方法の揺らぎ等が生じても精度の高い音声認識処理を行
うことが可能である。
【0077】また、本発明にかかる音声認識装置は、標
準パタンに登録された単語のうち、所定の単語と他の単
語を要素とする単語対と、要素間の照合距離に依存して
決定された単語対別リジェクト閾値を記憶させておき、
第一の認識結果及び第二の認識結果を要素として含む単
語対の単語対別リジェクト閾値とSN比を用いてリジェ
クト閾値を計算するので、第一の認識結果と第二の認識
結果の類似度の違いによってリジェクト閾値を変化させ
ることが可能になり、音声認識処理の精度が高められる
という効果がある。
準パタンに登録された単語のうち、所定の単語と他の単
語を要素とする単語対と、要素間の照合距離に依存して
決定された単語対別リジェクト閾値を記憶させておき、
第一の認識結果及び第二の認識結果を要素として含む単
語対の単語対別リジェクト閾値とSN比を用いてリジェ
クト閾値を計算するので、第一の認識結果と第二の認識
結果の類似度の違いによってリジェクト閾値を変化させ
ることが可能になり、音声認識処理の精度が高められる
という効果がある。
【0078】また、本発明にかかる音声認識装置は、2
回目の発音で登録されたトークバック用音声信号を用い
て、1回目の発音で登録された標準パタンを修正するの
で、1回目の発音と2回目の発音がサンプルとして反映
された標準パタンを用いて音声認識処理をすることが可
能になり、音声認識処理の精度が高められるという効果
がある。
回目の発音で登録されたトークバック用音声信号を用い
て、1回目の発音で登録された標準パタンを修正するの
で、1回目の発音と2回目の発音がサンプルとして反映
された標準パタンを用いて音声認識処理をすることが可
能になり、音声認識処理の精度が高められるという効果
がある。
【図1】 この発明の実施の形態1にかかる音声認識装
置の構成を示すブロック図である。
置の構成を示すブロック図である。
【図2】 リジェクト閾値と音声信号のSN比の関係を
説明するグラフを示す図である。
説明するグラフを示す図である。
【図3】 リジェクト閾値と音声信号のSN比の関係を
説明するグラフを示す図である。
説明するグラフを示す図である。
【図4】 この発明の実施の形態2にかかる音声認識装
置の構成を示すブロック図である。
置の構成を示すブロック図である。
【図5】 単語対別リジェクト閾値の領域を説明する説
明図である。
明図である。
【図6】 この発明の実施の形態3にかかる音声認識装
置の構成を示すブロック図である。
置の構成を示すブロック図である。
【図7】 従来の音声認識装置の構成を示すブロック図
である。
である。
1 音声信号入力部、2 A/D変換部、3 分析部、
4 音声区間検出部、5 照合部、6 標準パタン記憶
部、7 リジェクト判定部、8 SN比算出部、9 閾
値決定部、10 閾値記憶部、11 単語対別リジェク
ト判定部、12 トークバック用音声記憶部、13 出
力信号生成部、14 標準パタン修正部、15 SN比
変化量算出部、16 判定部
4 音声区間検出部、5 照合部、6 標準パタン記憶
部、7 リジェクト判定部、8 SN比算出部、9 閾
値決定部、10 閾値記憶部、11 単語対別リジェク
ト判定部、12 トークバック用音声記憶部、13 出
力信号生成部、14 標準パタン修正部、15 SN比
変化量算出部、16 判定部
Claims (6)
- 【請求項1】 入力された音声信号より得られた音声区
間の特徴ベクトルの時系列である音声パタンとあらかじ
め登録された単語より得られた音声区間の特徴ベクトル
の時系列である標準パタンを比較照合し、この標準パタ
ンごとに算出された前記音声パタンとの類似度を示す照
合距離より、前記音声パタンとの類似度が最も高い標準
パタンを第一の認識結果、2番目に高い標準パタンを第
二の認識結果として決定する照合部と、この照合部にお
いて決定された第一の認識結果と第二の認識結果の照合
距離差と、前記音声信号に含まれる音声区間と雑音区間
の信号の強さの割合であるSN比に応じて更新されるリ
ジェクト閾値を比較することにより、前記第一の認識結
果が誤りでないか判定するリジェクト判定部を設けたこ
とを特徴とする音声認識装置。 - 【請求項2】 リジェクト閾値は、所定の2つの単語を
要素とする単語対ごとに、前記要素間の照合距離差に応
じて演算された単語対別リジェクト閾値に依存して決定
されることを特徴とする請求項1に記載の音声認識装
置。 - 【請求項3】 標準パタンは、認識結果を音声出力する
ために登録されている音声出力用信号を用いて修正され
ることを特徴とする請求項1に記載の音声認識装置。 - 【請求項4】 音声認識させる音声信号を入力する音声
信号入力部と、 この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、 このA/D変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、 この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、 この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより、前記音声区間の信号の強さと前記雑
音区間の信号の強さの割合であるSN比を算出するSN
比算出部と、 前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンとあらかじめ登録された
単語の音声区間の特徴ベクトルの時系列である標準パタ
ンとの比較照合を行い、この標準パタンごとに算出され
た前記音声パタンとの類似度を示す照合距離より、前記
音声パタンとの類似度が最も高い標準パタンを第一の認
識結果、前記音声パタンとの類似度が2番目に高い標準
パタンを第二の認識結果として決定する照合部と、 この照合部において決定された前記第一の認識結果と前
記第二の認識結果の照合距離差と、前記SN比算出部に
て算出されたSN比に応じて音声信号入力ごとに更新さ
れるリジェクト閾値を比較することにより、前記第一の
認識結果が誤りでないか判定するリジェクト判定を行
い、誤りであれば前記第一の認識結果の出力を中止する
リジェクトを行い、誤りでなければ前記第一の認識結果
を出力するリジェクト判定部と、 前記リジェクト判定部から出力された第一の認識結果に
応じて出力信号を生成する出力信号生成部を設けたこと
を特徴とする音声認識装置。 - 【請求項5】 音声認識させる音声信号を入力する音声
信号入力部と、 この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、 このA/D変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、 この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、 この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより前記音声区間の信号の強さと前記雑音
区間の信号の強さの割合であるSN比を算出するSN比
算出部と、 認識対象となる単語の音声区間の特徴ベクトルの時系列
があらかじめ登録されている標準パタン記憶部と、 認識結果を音声出力する音声出力用信号を記憶する音声
出力用信号機億部と、 前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンと前記標準パタン記憶部
から読み出した標準パタンとの比較照合を行い、この標
準パタンごとに算出された前記音声パタンとの類似度を
示す照合距離より、前記音声パタンとの類似度が最も高
い標準パタンを第一の認識結果、2番目に高い標準パタ
ンを第二の認識結果として決定する照合部と、 標準パタンとしてあらかじめ登録された単語のうち所定
の単語とその他の単語が要素として組み合わされた単語
対、およびこの単語対に含まれる前記要素間の照合距離
に依存して決定された単語対別リジェクト閾値を記憶す
る閾値記憶部と、 前記照合部にて決定された前記第一の認識結果と前記第
二の認識結果を要素として含む単語対の単語対別リジェ
クト閾値を前記閾値記憶部から読み出し、この単語対別
リジェクト閾値と前記SN比算出部において算出された
SN比を用いてリジェクト閾値を演算し、このリジェク
ト閾値と前記第一の認識結果と第二の認識結果の照合距
離差を比較することにより、前記第一の認識結果が誤り
でないか判定するリジェクト判定を行い、誤りであれば
前記第一の認識結果の出力を中止するリジェクトを行
い、誤りでなければ前記第一の認識結果を出力する単語
対別リジェクト判定部と、 この単語対別リジェクト判定部にて決定された認識結果
に応じて、前記音声出力用信号記憶部から音声出力用信
号を読み出して出力信号を生成する出力信号生成部を設
けたことを特徴とする音声認識装置。 - 【請求項6】 音声認識させる音声信号を入力する音声
信号入力部と、 この音声信号入力部から出力された前記音声信号をディ
ジタル値の時系列に変換するA/D変換部と、 このA/D変換部から出力されたディジタル値の時系列
を用いて音響分析を行い、特徴ベクトルの時系列を出力
する分析部と、 この分析部から出力された特徴ベクトルの時系列より音
声区間と雑音区間を分離して音声区間を検出するととも
に、音声区間と雑音区間の平均パワーを出力する音声区
間検出部と、 この音声区間検出部から出力された音声区間と雑音区間
の平均パワーより前記音声区間の信号の強さと前記雑音
区間の信号の強さの割合であるSN比を算出するSN比
算出部と、 認識対象となる単語の音声区間の特徴ベクトルの時系列
があらかじめ登録されている標準パタン記憶部と、 認識結果を音声出力する音声出力用信号を記憶する音声
出力用信号機億部と、 この音声出力用信号記憶部から読み出した音声出力用信
号を用いて、前記標準パタン記憶部に登録されている標
準パタンを修正し、前記標準パタン記憶部に書き込む標
準パタン修正部と、 前記音声区間検出部にて検出された音声区間の特徴ベク
トルの時系列である音声パタンと前記標準パタン記憶部
から読み出した標準パタンとの比較照合を行い、この標
準パタンごとに算出された前記音声パタンとの類似度を
示す照合距離より、前記音声パタンとの類似度が最も高
い標準パタンを第一の認識結果、2番目に高い標準パタ
ンを第二の認識結果として決定する照合部と、 前記標準パタン記憶部に登録された単語のうち所定の単
語とその他の単語が要素として組み合わされた単語対、
およびこの単語対に含まれる前記要素間の照合距離に依
存して決定された単語対別リジェクト閾値を記憶する閾
値記憶部と、 前記照合部にて決定された前記第一の認識結果と前記第
二の認識結果を要素として含む単語対の単語対別リジェ
クト閾値を前記閾値記憶部から読み出し、この単語対別
リジェクト閾値と前記SN比算出部において算出された
SN比を用いてリジェクト閾値を演算し、このリジェク
ト閾値と前記第一の認識結果と第二の認識結果の照合距
離差を比較することにより、前記第一の認識結果が誤り
でないか判定するリジェクト判定を行い、誤りであれば
前記第一の認識結果の出力を中止するリジェクトを行
い、誤りでなければ前記第一の認識結果を出力する単語
対別リジェクト判定部と、 この単語対別リジェクト判定部にて決定された認識結果
に応じて、前記音声出力用信号記憶部から音声出力用信
号を読み出して出力信号を生成する出力信号生成部を設
けたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11206326A JP2001034291A (ja) | 1999-07-21 | 1999-07-21 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11206326A JP2001034291A (ja) | 1999-07-21 | 1999-07-21 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001034291A true JP2001034291A (ja) | 2001-02-09 |
Family
ID=16521455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11206326A Pending JP2001034291A (ja) | 1999-07-21 | 1999-07-21 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001034291A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366176A (ja) * | 2001-06-12 | 2002-12-20 | Sony Corp | 情報抽出装置及び方法、並びに情報検索装置及び方法 |
JP2005300958A (ja) * | 2004-04-13 | 2005-10-27 | Mitsubishi Electric Corp | 話者照合装置 |
US8478601B2 (en) | 2009-02-03 | 2013-07-02 | Denso Corporation | Voice recognition apparatus, method for recognizing voice, and navigation apparatus having the same |
-
1999
- 1999-07-21 JP JP11206326A patent/JP2001034291A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002366176A (ja) * | 2001-06-12 | 2002-12-20 | Sony Corp | 情報抽出装置及び方法、並びに情報検索装置及び方法 |
JP4734771B2 (ja) * | 2001-06-12 | 2011-07-27 | ソニー株式会社 | 情報抽出装置及び方法 |
JP2005300958A (ja) * | 2004-04-13 | 2005-10-27 | Mitsubishi Electric Corp | 話者照合装置 |
US8478601B2 (en) | 2009-02-03 | 2013-07-02 | Denso Corporation | Voice recognition apparatus, method for recognizing voice, and navigation apparatus having the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US5732394A (en) | Method and apparatus for word speech recognition by pattern matching | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP4882899B2 (ja) | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム | |
JP2000181482A (ja) | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JPH0713594A (ja) | 音声合成において音声の質を評価するための方法 | |
JPH04255900A (ja) | 音声認識装置 | |
JP2001034291A (ja) | 音声認識装置 | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
KR100609521B1 (ko) | 음성 인식 시스템의 발화 검증 방법 | |
JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
JP3039634B2 (ja) | 音声認識装置 | |
JPH11202895A (ja) | 音声認識システムと方法およびそのプログラムを記録した記録媒体 | |
JP2010044239A (ja) | 音声認識装置およびプログラム | |
KR20090068856A (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
JP2975772B2 (ja) | 音声認識装置 | |
JP2001013988A (ja) | 音声認識方法及び装置 | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
Kitaoka et al. | Detection and recognition of correction utterances on misrecognition of spoken dialog system | |
JPH0772899A (ja) | 音声認識装置 | |
JPH11184496A (ja) | 音声認識装置及び音声認識方法 | |
JPH08171398A (ja) | データ認識装置、辞書作成装置及び学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040624 |