JP2780676B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP2780676B2
JP2780676B2 JP7180734A JP18073495A JP2780676B2 JP 2780676 B2 JP2780676 B2 JP 2780676B2 JP 7180734 A JP7180734 A JP 7180734A JP 18073495 A JP18073495 A JP 18073495A JP 2780676 B2 JP2780676 B2 JP 2780676B2
Authority
JP
Japan
Prior art keywords
pattern
input
environment
standard pattern
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7180734A
Other languages
English (en)
Other versions
JPH096394A (ja
Inventor
博士 平山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7180734A priority Critical patent/JP2780676B2/ja
Priority to DE69614937T priority patent/DE69614937T2/de
Priority to EP96110008A priority patent/EP0750292B1/en
Priority to US08/669,239 priority patent/US5854999A/en
Publication of JPH096394A publication Critical patent/JPH096394A/ja
Application granted granted Critical
Publication of JP2780676B2 publication Critical patent/JP2780676B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置及び音声
認識方法に関し、特に音声が発声された発声環境の違い
を補正する音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】この種の従来の一般的な音声認識は、標
準となる音声に基づいて作成された認識対象の特徴をあ
らわす標準パターンと、入力された音声に基づいて作成
された入力音声の特徴をあらわす入力パターンとの距離
を求め、この距離が最小となるような認識対象を認識結
果として出力することによって行われる。その際、標準
パターンの作成に使用された音声と入力音声の、それぞ
れが発声された時の背景雑音の状態やマイクロホンの特
性等の発声環境が異なることにより、音声の認識性能が
低下することが知られている。
【0003】発声環境の相違による認識性能の低下の問
題を解決するために、従来においては、例えば、本出願
人により先願された特願平5−331478号の明細書
に記載されているような音声認識装置が提案されてい
る。この音声認識装置は、背景雑音のように発声者の音
声と同時に混入しスペクトル上で加法的に作用する付加
雑音と、マイクロフォンや電話回線の伝達特性等のよう
にスペクトルそのものを歪ませスペクトル上で乗法的に
作用する歪みの大きさとを推定し、これらの付加雑音と
歪みを補正するための補正値を求め、求められた補正値
によって標準パターンの作成に使用された音声と、入力
音声との発声環境の違いを適合化させるものである。
【0004】従来における音声認識装置の構成は、例え
ば図5に示すようなものである。図5では、入力された
音声は分析部91で分析され、音声の特徴をあらわす特
徴ベクトルの時系列パターンである入力パターンVに変
換される。予備マッチング部92は、時間軸を正規化し
て時間軸正規化後の距離を求める手法を用いて、入力パ
ターンVと標準パターン記憶部93に保持されている標
準パターンWとの時間軸正規化後の距離を計算し、時間
軸正規化後の距離が最小となる認識対象を選択し、選択
された認識対象の標準パターンWと入力パターンVと
の、時間軸正規化の際に行った特徴ベクトルの時系列の
対応づけTを得る。また、補正値計算部94は、入力パ
ターンVと、標準パターンWと、入力パターンVと標準
パターンWの特徴ベクトルの時系列の対応付けTに基づ
いて、スペクトル上で加法的に作用する付加雑音とスペ
クトル上で乗法的に作用する歪みを補正するための補正
値を求める。さらに、パターン補正部95では、全ての
認識対象の標準パターンWを前記補正値により補正す
る。そして、マッチング部96では、入力パターンVと
補正された標準パターンWaとの時間軸正規化後の距離
を求め、時間軸正規化後の距離が最小となる認識対象を
選択し、最終的な認識結果として出力する。
【0005】以下、付加雑音及び歪みの補正値の求めか
た及び補正方法を数式を用いて説明する。
【0006】入力パターンの付加雑音をBv、歪みをA
v、時刻tでの特徴ベクトルをスペクトルであらわした
ものをV(t)、真の入力パターンのスペクトルをVo
(t)とすると、これらは次式(1)及び(2)によっ
て関係付けられる。
【0007】 V(t)=Av・Vo(t)+Bv (tが音声区間の場合) …(1)
【0008】 V(t)=Bv (tが雑音区間の場合) …(2)
【0009】なお、上式(1)において、記号「・」は
ベクトルの成分毎の乗算を意味する(以下の数式におい
ても同様とする)。
【0010】同様にして、標準パターンの付加雑音をB
w、歪みをAw、時刻tでの特徴ベクトルをスペクトル
であらわしたものをW(t)、真の標準パターンのスペ
クトルをWo(t)とすると、これらは次式(3)及び
(4)によって関係付けられる。
【0011】 W(t)=Aw・Wo(t)+Bw (tが音声区間の場合) …(3)
【0012】 W(t)=Bw (tが雑音区間の場合) …(4)
【0013】一方、付加雑音及び歪みを入力音声の発声
環境に適合するように補正した標準パターンWa(t)
は次式(5)及び(6)で表される。
【0014】 Wa(t)=Av・Wo(t)+Bv(tが音声区間の場合) …(5)
【0015】 Wa(t)=Bv (tが雑音区間の場合) …(6)
【0016】上式(3)を用いて上式(5)のWo
(t)を消去すると次式(7)が得られる。
【0017】
【数1】
【0018】なお、上式(7)において、記号「/」は
ベクトルの成分毎の除算を意味する(以下の数式におい
ても同様とする)。
【0019】入力パターンのスペクトル成分毎の音声区
間の平均をSv、雑音区間の平均をNv、標準パターン
のスペクトル成分毎の音声区間の平均をSw、雑音区間
の平均をNwでそれぞれ表し、真の入力パターンのスペ
クトル成分毎の平均が真の標準パターンのスペクトル成
分毎の平均と等しいという近似を行うと、上式(1)な
いし(6)より、補正値である歪み比ベクトルAv/A
w、入力パターンの付加雑音Bv、標準パターンの付加
雑音Bwが、次式(8)ないし(10)によって求めら
れる。
【0020】 Av/Aw=(Sv−Nv)/(Sw−Nw) …(8)
【0021】 Bv=Nv …(9)
【0022】 Bw=Nw …(10)
【0023】上式(8)ないし(10)によって求めら
れた補正値を用いて、上式(6)及び(7)の処理を行
うことにより、入力パターンと標準パターンとの発声環
境の違いを補正することができる。
【0024】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識装置では、マッチングを2回行っており、
特に2回目のマッチングは発声終了後に実行しなければ
ならないことから、発声終了から認識結果が出力される
までの時間(以下、「認識時間」という)が長くなると
いう問題があった。
【0025】また、上記特願平5−331478号の明
細書には、認識時間を短縮するために、補正した標準パ
ターンを次回のために保持し、次回は標準パターンの補
正を行わず、分析部91が最終的なマッチングに用いる
特徴ベクトルを求め、マッチング部96において予め保
持しておいた標準パターンとのマッチングを行うという
手法が記載されているが、この記載された手法を用いた
としても、発声環境が時間的に変化した場合には、やは
り認識性能が低下してしまうという問題があった。
【0026】本発明は、上記の問題点に鑑みてなされた
ものであり、発声環境が時間的に変化した場合でも発声
環境の相違を補正することによって変化に素早く適合
し、かつ平均的な認識時間の短縮も可能とする音声認識
装置及び音声認識方法を提供することを目的とする。
【0027】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、入力音声の特徴をあらわす入力パターン
と予め保持されている標準パターンとを比較し1次的な
対応付けを行う1次マッチング手段と、前記標準パター
ン及び/又は前記入力パターンを発声環境に適合するよ
う補正するパターン補正手段と、このパターン補正手段
によって補正された後の標準パターン及び/又は入力パ
ターンを用いて、再度入力パターンと標準パターンとを
比較し2次的な対応付けを行う2次マッチング手段と、
前記入力音声の発声環境の変化を検出する環境変化検出
手段と、この環境変化検出手段によって検出された前記
発声環境の変化の度合いに応じて前記2次マッチング手
段を作動させるか否かを制御する制御手段と、を備えた
音声認識装置を提供する。
【0028】また、本発明は、入力音声を分析して、こ
の入力音声の特徴をあらわす入力パターンを求める分析
手段と、予め標準となる音声に基づいて作成された認識
対象の特徴をあらわす標準パターンを保持する標準パタ
ーン記憶手段と、前記分析手段によって求められた前記
入力パターンと前記標準パターン記憶手段に保持された
前記標準パターンとの距離を求め、この距離が最小とな
る認識対象を1次的に求める1次マッチング手段と、前
記標準パターン及び/又は前記入力パターンを発声環境
に適合させるための補正値を求める補正値計算手段と、
この補正値計算手段によって求められた前記補正値に基
づいて前記標準パターン及び/又は前記入力パターンを
発声環境に適合するよう補正するパターン補正手段と、
このパターン補正手段によって補正された後の標準パタ
ーン及び/又は入力パターンを用いて、再度入力パター
ンと標準パターンとの距離を求め、この距離が最小とな
る認識対象を2次的に求める2次マッチング手段と、前
記補正値計算手段によって求められた前記補正値に基づ
いて前記入力音声の発声環境の変化の大きさをあらわす
環境変化指数を求める環境変化検出手段と、この環境変
化検出手段によって求められた前記環境変化指数に基づ
いて前記2次マッチング手段を作動させるか否かを制御
する制御手段と、を備えた音声認識装置を提供する。
【0029】本発明の音声認識装置においては、好まし
くは、前記制御手段が、前記環境変化指数が所定のしき
い値よりも大きい場合には前記2次マッチング手段を作
動させ、前記環境変化指数が所定のしきい値よりも小さ
い場合には前記2次マッチング手段を作動させないよう
制御するものであるとよい。
【0030】また、本発明の音声認識装置においては、
前記制御手段が、前記所定のしきい値よりも大きな値を
持つ第2のしきい値を有し、前記環境変化指数がこの第
2のしきい値よりも大きい場合には前記2次マッチング
手段を作動させないよう制御するものであるとなおよ
い。
【0031】さらに、本発明は、入力された音声の特徴
をあらわす入力パターンと予め保持されている標準パタ
ーンとを比較して音声認識を行う音声認識方法であっ
て、前記入力された音声の発声環境の変化の大きさを求
め、この変化の大きさが所定のしきい値よりも大きい場
合には、前記入力パターン及び/又は前記標準パターン
を発声環境に適合させるよう補正した上で再度前記入力
パターンと前記標準パターンとのマッチングを行い、こ
の変化の大きさが前記所定のしきい値よりも小さい場合
には、当該補正を行わずに前記入力パターンと前記標準
パターンとのマッチングを行う音声認識方法を提供す
る。
【0032】さらにまた、本発明は、入力された音声の
特徴をあらわす入力パターンと予め保持されている標準
パターンとを比較して音声認識を行う音声認識方法であ
って、前記入力された音声の発声環境の変化の大きさを
求め、この変化の大きさが第1のしきい値よりも大きく
かつ第2のしきい値よりも小さい場合には、前記入力パ
ターン及び/又は前記標準パターンを発声環境に適合さ
せるよう補正した上で再度前記入力パターンと前記標準
パターンとのマッチングを行い、この変化の大きさが前
記第1のしきい値よりも小さい場合又は前記第2のしき
い値よりも大きい場合には、当該補正を行わずに前記入
力パターンと前記標準パターンとのマッチングを行う音
声認識方法を提供する。
【0033】
【作用】本発明の音声認識装置によれば、入力音声の発
声環境の変化の度合いを検出し、この度合いが大きい場
合には、前回の発声環境からの変化が大きいと判断し
て、標準パターン及び/又は入力パターンを発声環境に
適合するように補正した上で入力パターンと標準パター
ンとを比較し対応付ける2次マッチングを行って最終的
な認識結果を出力するが、変化の度合いが小さい場合に
は、このような2次マッチングを行わず、前回以前の発
声時に補正された標準パターンと今回入力された入力音
声の入力パターンとの1次マッチングによって得られた
認識結果を最終的な認識結果として出力するため、毎回
2次マッチングを行う必要がなく、平均的な認識時間を
短縮できるとともに、発声環境が時間的に変化した場合
でも有効な発声環境の補正を行うことができる。
【0034】また、本発明の音声認識装置によれば、発
声環境の変化の度合いを表す環境変化指数を、標準パタ
ーン及び/又は入力パターンを発声環境に適合させるた
めの補正値から求めるようにしているため、2次的なマ
ッチングを採用する従来の音声認識装置に対して大幅な
変更を加えることなく、上記と同様の作用効果を奏する
ことができる。
【0035】なお、このような環境変化指数による環境
変化の度合いの判断は、この環境変化指数が所定のしき
い値を超えているか否かによって行えばよく、さらに所
定のしきい値を越えている場合に一律に2次マッチング
を行うのではなく、この所定のしきい値よりも大きな第
2のしきい値を用意し、環境変化指数がこの第2のしき
い値を越えている場合には2次マッチングを行わないよ
うにすることにより、入力された音が非定常な雑音や認
識対象以外の音声であった場合に有効に対処することが
できる。
【0036】
【実施例】以下、添付図面を参照して本発明の実施例を
詳細に説明する。
【0037】図1は、本発明の一実施例に係る音声認識
装置の構成を示すブロック図である。図1を参照して説
明すると、この音声認識装置は、入力された音声を分析
して入力音声の特徴をあらわす入力パターンVを求める
分析部10と、標準となる音声に基づいて作成された認
識対象の特徴をあらわす標準パターンWを保持する標準
パターン記憶部30と、入力パターンVと標準パターン
Wとの距離を求め、求められた距離が最小となる認識対
象を求める1次マッチング部20と、標準パターンWを
発声環境に適合するように補正するための補正値を求め
る補正値計算部40と、補正値計算部40によって求め
られた補正値に基づいて標準パターンWを発声環境に適
合するように補正するパターン補正部50と、入力パタ
ーンVとパターン補正部50によって補正された標準パ
ターンWaとの距離を求め、求められた距離が最小とな
る認識対象を求める2次マッチング部60と、補正値計
算部40によって求められた補正値から環境変化の大き
さをあらわす環境変化指数を求める環境変化検出部70
と、環境変化検出部70によって求められた環境変化指
数に基づいて2次マッチング部60を作動するか否かを
制御する2次マッチング制御部80と、を有している。
【0038】分析部10では、入力された音声を分析し
て、入力音声の特徴をあらわす特徴ベクトルの時系列パ
ターンである入力パターンVを求める。入力パターンV
を求める分析手法としては、スペクトル包絡と微細構造
がケフレンシー領域において近似的に分離されることを
特徴とするケプストラム分析の一種であるメルケプスト
ラム分析を用いる。この手法についての詳細は、例え
ば、文献(古井著、「デジタル音声処理」、東海大学出
版会、1985年刊)に記載されており、手法としては
よく知られているため、ここでの説明は省略する。
【0039】なお、分析手法としては、メルケプストラ
ム分析以外にもスペクトル分析、線形予測分析等の各種
の公知の手法を用いることができる。
【0040】1次マッチング部20では、入力パターン
Vと標準パターン記憶部30に保持されている標準とな
る音声に基づいて作成された認識対象の特徴をあらわす
標準パターンWとの時間軸正規化後の距離を計算し、計
算された時間軸正規化後の距離が最小となる認識対象を
求めて、1次マッチング部20における認識結果とす
る。また、同時に、認識対象の標準パターンWと入力パ
ターンVとの、時間軸の正規化の際に行った特徴ベクト
ルの時系列の対応づけTを得る。
【0041】なお、1次マッチング部20における時間
軸正規化後の距離の計算並びに入力パターンVと標準パ
ターンWとの対応付けには、DPマッチングを用いる。
DPマッチングは、入力音声と標準パターンとを動的計
画法(DP:Dynamic Programming)を用いて対応付け
るものであり、上記文献にもその内容が記載されてい
る。
【0042】なお、入力パターンVと標準パターンWと
を比較する手法としては、DPマッチング以外にも、隠
れマルコフモデル(HMM: Hidden Markov Model)法
のような手法を用いることもできる。この手法は、文献
(中川著、「確率モデルによる音声認識」、電子情報通
信学会、1988)に示されおり、各単語あるいは各音
素毎に、小数の状態からなる推移図(マルコフモデル)
を構成し、入力音声がいずれのモデルによって生成され
た可能性が最も大きいかを調べて認識する手法である。
【0043】補正値計算部40では、入力パターンV
と、標準パターンWと、入力パターンVと標準パターン
Wの特徴ベクトルの時系列の対応づけTとに基づいて、
入力パターンVのスペクトルの音声区間の平均Sv及び
雑音区間の平均Nv、標準パターンWのスペクトルの音
声区間の平均Sw及び雑音区間の平均Nwを計算し、上
式(8)ないし(10)の処理を行って、補正値Av/
Aw、Bv、Bwを求める。
【0044】なお、入力パターンV及び標準パターンW
のスペクトルの平均は各スペクトルの成分毎に総加平均
又は相乗平均を求めることによって得られる。
【0045】パターン補正部50では、補正値Av/A
w、Bv、Bwに基づいて標準パターンWを上式(6)
及び(7)の処理により入力音声の発声環境に適合する
ように補正し、補正された標準パターンを標準パターン
Waとして、標準パターン記憶部30に格納する。
【0046】2次マッチング部60では、入力パターン
Vと補正がなされた標準パターンWaを比較して認識結
果を得る。なお、2次マッチング部60では、認識結果
を得る方法として、1次マッチング部20で用いられる
方法と同じ方法を用いる。
【0047】環境変化検出部70では、補正値Av/A
w、Bv、Bwに基づいて、次式(11)ないし(1
4)の処理を行って、環境変化の大きさをあらわす環境
変化指数Dを求める。
【0048】環境変化指数Dの求めかたの一例を以下に
説明する。本実施例では、上式(8)ないし(10)に
示された補正値Av/Aw、Bv、Bwに基づいて環境
変化指数Dを求める。
【0049】まず、音声の大きさによる入力パターンと
標準パターンの歪みの比への影響を除くため、ノルムが
1となるように歪み比ベクトルAv/Awを正規化した
正規化歪み比ベクトルCを次式(11)より求める。
【0050】 C=(Av/Aw)/‖Av/Aw‖ …(11)
【0051】なお、記号「‖A‖」はAのノルムを意味
する。
【0052】従って、発声環境が前回の発声時から変化
していなければ正規化歪み比ベクトルCはベクトルの各
成分が等しくベクトルのノルムが1の単位ベクトルUと
等しくなる。正規化歪み比ベクトルCと単位ベクトルU
との距離を歪みの変化Daとし、次式(12)より求め
る。なお、発声環境が変化していなければ歪みの変化D
aは0となる。
【0053】 Da=‖C−U‖ …(12)
【0054】一方、入力パターンの付加雑音Bvと標準
パターンの付加雑音Bwとの距離を付加雑音の変化Db
とし、次式(13)より求める。
【0055】 Db=‖Bv−Bw‖ …(13)
【0056】そして、次式(14)に示すように、歪み
の変化Da、付加雑音の変化Dbにそれぞれ重み係数
α、1−αを乗じたものの加算値を環境変化指数Dとす
る。ここで、重み係数αは、歪みの変化Daと付加雑音
の変化Dbの大きさが異なることを正規化するための係
数である。
【0057】 D=αDa+(1−α)Db [0<α<1] …(14)
【0058】上式(14)から明らかなように、発声環
境の変化が少ない場合には、環境変化指数Dは小さな正
の値となり、発声環境が大きく変化した場合には環境変
化指数Dは大きな正の値となる。
【0059】なお、以上に示した環境変化指数Dはあく
までも一例に過ぎず、上式(14)以外にも様々な形で
環境変化指数を定義することができる。例えば、歪みの
変化Da、付加雑音の変化Dbを単独に用いたり、正規
化歪み比ベクトルCにコサイン変換を施し、ベクトルの
成分を減らしたものを新たに正規化歪み比ベクトルCと
して、上式(12)ないし(14)に従って計算したも
のを環境変化指数として用いてもよい。
【0060】2次マッチング制御部80では、上式(1
4)により求められた環境変化指数Dに基づいて、2次
マッチング部60による処理を行うか否かを制御する。
より詳細には、環境変化指数Dが制御の判定基準となる
しきい値thより小さい場合は、環境変化が小さいと判
断し、2次マッチング処理は行わず、1次マッチング部
20で得られた認識結果を最終的な認識結果とする。一
方、環境変化指数Dが制御の判定基準となるしきい値t
hより大きい場合は、環境変化が大きいと判断し、2次
マッチング処理を行った結果得られた認識結果を最終的
な認識結果とする。
【0061】なお、環境変化の大きさを判断するにあた
っては、しきい値thより値の大きなしきい値th2を
用意し、環境変化指数Dがth2より大きい場合には、
入力された音が非定常な雑音や認識対象以外の音声であ
ったものと判断し、認識結果の信頼性が低いとして認識
結果を拒絶したことを出力するとともに、パターン補正
を行わないようすることもできる。
【0062】このように環境変化指数Dと第2の所定の
しきい値th2との大小関係を判定することにより、一
時的な環境変化によって次回の音声認識に影響を与えな
いようにすることができ、また現在の発声環境が音声認
識に適していない状態にあることを発声者に知らせるこ
とができるため、音声認識の安定性を高め、より高性能
な音声認識を行うことができる。
【0063】以下、図1に示した本実施例に係る音声認
識装置の動作について図1及び図2を参照して説明す
る。図2は、本実施例に係る音声認識装置の動作を説明
するためのフローチャートである。
【0064】図1及び図2を参照して説明する。まず、
入力音声の発声が開始されると、分析部10が入力音声
の分析処理を行い、特徴ベクトルの時系列パターンであ
る入力パターンVを求める。そして、分析部10による
処理と並行して、1次マッチング部20による処理、す
なわち分析された入力パターンVと標準パターン記憶部
30に保持された標準パターンWとの1回目のマッチン
グ(1次マッチング)が行われ、1次マッチング処理の
結果として、入力パターンVと標準パターンWとの時系
列の対応づけTが得られる(ステップS201)。
【0065】続いて、補正値計算部40による処理、す
なわち分析部10によって分析された入力パターンV、
標準パターン記憶部30に保持された標準パターンW、
1次マッチング部20によって得られた時系列の対応づ
けTに基づいて補正値Av/Aw、Bv、Bwを求める
処理が行われる(ステップS202)。
【0066】そして、補正値計算部40によって補正値
が求められた後、環境変化検出部70が上式(14)等
に従って環境変化指数Dを求める(ステップS20
3)。
【0067】ここで、環境変化検出部70によって求め
られた環境変化指数Dに基づいて、2次マッチング制御
部80が以下のような判定を行い、その後の動作を制御
する。
【0068】まず、環境変化指数Dが、第1のしきい値
thよりも大きく(ステップS204で「YES」の場
合)、かつ第2のしきい値th2(第1のしきい値th
よりも大きな値)よりも小さい(ステップS205で
「YES」の場合)場合には、パターン補正部50によ
ってステップS202の処理で求められた補正値Av/
Aw、Bv、Bwに基づいて標準パターンWが発声環境
に適合するように補正される(ステップS206)。な
お、補正された標準パターンWaは標準パターン記憶部
30に保持される。
【0069】パターン補正部50によってステップS2
05がなされた後、2次マッチング部60が、分析され
た入力パターンVと標準パターン記憶部30に保持され
た標準パターンWaとの2回目のマッチング(2次マッ
チング)処理を行い(ステップS207)、ステップS
207の2次マッチング処理によって得られた認識結果
を最終的な音声認識結果として出力し(ステップS20
8)、処理を終了する。
【0070】これに対し、ステップS204における判
断結果が「NO」の場合には、上述したステップS20
6ないしステップS208を行わず、ステップS201
の1次マッチング処理によって求められた認識結果を最
終的な音声認識結果として出力する(ステップS20
9)。また、ステップS205における判断結果が「N
O」の場合には、認識結果を拒絶する(ステップS21
1)。
【0071】なお、2次マッチング処理を行わない場合
であっても、認識結果の出力(ステップS209)後
に、ステップS202によって求められた補正値に基づ
いて標準パターンを補正する(ステップS210)。こ
のようにすれば、次回の発声時に、補正された標準パタ
ーンWを用いて効果的な1次マッチングを行うことがで
きる。ただし、認識結果を拒絶した場合(ステップS2
11)には、標準パターンの補正を行わない。
【0072】本実施例に係る音声認識装置においては、
図2に示す動作を行うことにより、環境変化指数Dが小
さい場合には2次マッチング処理を行わないようにし
て、認識時間を短縮した上で、次回の音声認識の際の認
識性能を高めることができる。
【0073】以下、本実施例に係る音声認識装置におけ
る処理のタイミング及び認識時間について、図5に示し
た従来の音声認識装置における処理のタイミング及び認
識時間と比較して、より詳細に説明する。
【0074】まず、図5に示した従来の音声認識装置に
おける処理のタイミング及び認識時間について説明す
る。図6は図5に示した従来の音声認識装置における処
理のタイミング及び認識時間を説明するための図であ
る。
【0075】図5及び図6を参照して説明する。まず、
入力音声の発声が開始されると、分析部91での処理で
ある分析処理と予備マッチング部92での処理である予
備マッチング処理とが並行して行われる。発声が終了し
た時点で予備マッチング処理による認識結果と特徴ベク
トルの時系列の対応づけTが得られる。予備マッチング
処理が終了すると補正値計算部94での処理である補正
値計算処理が行われ、補正値が求められる。補正値が求
められるとパターン補正部95での処理であるパターン
補正処理が行われ、標準パターンWが補正される。標準
パターンWが補正されると、マッチング部96での処理
であるマッチング処理が行われ、認識結果が得られる。
従って、図5に示した従来の音声認識装置における認識
時間は、図6に示すように、(補正値計算時間)+(パ
ターン補正処理時間)+(マッチング処理時間)とな
る。
【0076】次に、本実施例に係る音声認識装置におけ
る処理のタイミングと認識時間について説明する。
【0077】図3は、図1に示した本実施例に係る音声
認識装置において、発声環境の変化が大きく、2次マッ
チング部60の処理を行う場合の処理のタイミング及び
認識時間を説明するための図である。
【0078】図1及び図3を参照して説明する。入力音
声の発声が開始されると分析部10における処理である
分析処理(従来の分析処理と同じ)と1次マッチング部
20での処理である1次マッチング処理(従来の予備マ
ッチング処理と同じ)が並行して行われる。発声が終了
した時点で1次マッチング処理による認識結果と特徴ベ
クトルの時系列の対応づけTが得られる。1次マッチン
グ処理が終了すると補正値計算部40での処理である補
正値計算処理(従来の補正値計算処理と同じ)が行わ
れ、補正値が得られる。補正値が得られると環境変化検
出部70での処理である環境変化検出処理が行われ、環
境変化指数Dが求められる。環境変化指数Dが求められ
ると2次マッチング制御部80での処理である2次マッ
チング実施判定が行われる。2次マッチング実施判定
後、パターン補正部50での処理であるパターン補正処
理(従来のパターン補正処理と同じ)が行われる。ここ
で、標準パターンWが補正されると、2次マッチング部
80での処理である2次マッチング処理が行われ、最終
的な認識結果が得られる。従って、本実施例において、
発声環境の変化が大きく、2次マッチング部60の処理
を行う場合の認識時間は、図3に示すように(補正値計
算時間)+(環境変化検出処理時間)+(2次マッチン
グ実施判定時間)+(パターン補正処理時間)+(2次
マッチング処理時間)となる。
【0079】一方、図4は、図1に示した本実施例に係
る音声認識装置において、発声環境の変化が小さく、2
次マッチング部60の処理を行わない場合の処理のタイ
ミング及び認識時間を説明するための図である。
【0080】図1及び図4を参照して説明すると、発声
環境の変化が小さく、2次マッチング部60の処理を行
わない場合も、2次マッチング制御部80によって行わ
れる2次マッチング実施判定までは、上述した2次マッ
チング処理が行われる場合と同様の処理が行われる。た
だし、2次マッチング実施判定の終了後は、1次マッチ
ング部20での処理である1次マッチング処理で得られ
た認識結果を最終的な認識結果として出力する。そし
て、認識結果の出力後に、パターン補正部50による処
理であるパターン補正処理が行われる。パターン補正処
理の終了時点が全ての処理の終了時点であるが、認識結
果はパターン補正処理が行われる前に得られる。従っ
て、本実施例において、発声環境の変化が小さく、2次
マッチング部60の処理を行わない場合の認識時間は、
図4に示すように(補正値計算時間)+(環境変化検出
処理時間)+(2次マッチング実施判定時間)となる。
【0081】以上のことから、従来及び本実施例におけ
る認識時間を具体的な数字を用いて説明すると、発声時
間が1秒のとき、2次マッチング処理に0.8秒、補正
値計算処理に0.01秒、環境変化検出処理に0.00
1秒、2次マッチング実施判定に0.0001秒、パタ
ーン補正処理に0.19秒かかる音声認識装置であれ
ば、2次マッチング処理が従来のマッチング処理の時間
と等しいとした場合の従来の認識時間は、1秒(=0.
01+0.19+0.8)である。
【0082】一方、本実施例において2次マッチング処
理を行う場合の認識時間は、1.0011秒(=0.0
1+0.001+0.0001+0.19+0.8)で
ある。また、本実施例において2次マッチング処理を行
わない場合の認識時間は、0.0111秒(=0.01
+0.001+0.0001)である。
【0083】ここで、10回の発声に対して1回の割合
で環境が大きく変化する場合を考えると、本実施例で
は、平均認識時間が、0.11秒=(1.0011秒×
(1/10)+0.0111×(9/10))となり、
従来の1.0011秒より約0.89秒の短縮が達成さ
れる。
【0084】このように、本実施例によれば、発声環境
の変化の度合いを環境変化検出部70によって求めた環
境変化指数Dの大きさによって把握し、環境変化指数D
があるしきい値thを越えた場合にのみ2次マッチング
部60によって2次マッチングが行われるよう2次マッ
チング制御部80の作動を制御するので、発声環境が時
間的に変化した場合でも有効な発声環境の補正を行うこ
とができるとともに、認識時間を格段に短縮することが
できるという顕著な効果が得られる。
【0085】以上において、本発明の音声認識装置及び
音声認識方法の一実施例を示したが、上記実施態様以外
にも種々の変形態様が考えられる。
【0086】まず、上記実施例では、パターン補正部5
0によって補正する対象を標準パターンとしているが、
この補正は入力パターンに対して行ってもよく、また標
準パターン及び入力パターンの両方に対して行うように
してもよい。
【0087】例えば、入力パターンに対して補正を行う
場合には、上式(1)ないし(4)を用いて、付加雑音
及び歪みを発声環境に適合するように補正した入力パタ
ーンVa(t)について上式(6)及び(7)と同様の
関係式を導き、上式(8)ないし(10)によって求め
られる補正値を用いて標準パターンの場合と同様に補正
を行えばよい。
【0088】また、上記実施例におけるパターン補正部
50では、標準パターン記憶部30に保持されている標
準パターンを補正の対象としたが、基準標準パターン記
憶部を新たに設け、内容がかわることのない基準の標準
パターンを格納しておき、基準の標準パターンを補正の
対象とすることもできる。ただし、基準の標準パターン
を補正する態様を採用する場合には、環境変化指数Dを
求める方法の変更が必要となる。具体的には、前回の補
正で用いられた歪み比ベクトルである前回使用歪み比ベ
クトルと前回の補正で用いられた入力パターンの付加雑
音である前回使用付加雑音を記憶しておき、今回の歪み
比ベクトルAv/Awを前回使用歪み比ベクトルで除算
したものを新たに歪み比ベクトルAv/Awとし、前回
使用付加雑音を新たに標準パターンの付加雑音Bwとし
て、上式(11)ないし(14)を用いて環境変化指数
Dを求めるようにする必要がある。
【0089】なお、上記実施例では、1次マッチング部
20と2次マッチング部60というマッチング処理のた
めの2つのブロックを有するものとして説明したが、1
つのブロックで1次マッチング部20と2次マッチング
部60の両方の機能を果たすようにして、回路構成等を
簡素化してもよい。
【0090】以上、本発明を上記実施例に即して説明し
たが、本発明は上記態様にのみ限定されず、本発明の原
理に準ずる各種態様を含むことは勿論である。
【0091】
【発明の効果】以上説明したように、本発明の音声認識
装置によれば、発声環境が時間的に変化した場合でも発
声環境の相違を補正することによって高性能な音声認識
を行うことができるとともに、従来の音声認識装置に比
べて平均的な認識時間を格段に短縮することができると
いう顕著な効果を奏することができる。
【0092】また、本発明の音声認識方法によっても、
発声環境の相違を適切に補正しつつ、認識時間を短縮す
るという上記と同様の効果を奏することができる。
【0093】さらに、請求項2ないし請求項4及び請求
項6に記載された発明によっても、上記効果をより好適
に奏することができ、特に請求項4及び請求項6に記載
された発明によれば、一時的な環境変化によって次回の
音声認識に影響を与えないようにするため、音声認識の
安定性を高め、より高性能な音声認識を行うことができ
るという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声認識装置の構成を
示すブロック図である。
【図2】本発明の一実施例に係る音声認識装置の動作を
説明するためのフローチャートである。
【図3】本発明の一実施例に係る音声認識装置において
2次マッチング部60の処理を行う場合の処理のタイミ
ング及び認識時間を説明するための図である。
【図4】本発明の一実施例に係る音声認識装置において
2次マッチング部60の処理を行わない場合の処理のタ
イミング及び認識時間を説明するための図である。
【図5】従来の音声認識装置の構成を示すブロック図で
ある。
【図6】従来の音声認識装置における処理のタイミング
及び認識時間を説明するための図である。
【符号の説明】
10、91 分析部 20 1次マッチング部 30、93 標準パターン記憶部 40、94 補正値計算部 50、95 パターン補正部 60 2次マッチング部 70 環境変化検出部 80 2次マッチング制御部 92 予備マッチング部 96 マッチング部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 5/06 G10L 3/00 521 G10L 3/00 571 G10L 3/02 301 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声の特徴をあらわす入力パターンと
    予め保持されている標準パターンとを比較し1次的な対
    応付けを行う1次マッチング手段と、 前記標準パターン及び/又は前記入力パターンを発声環
    境に適合するよう補正するパターン補正手段と、 該パターン補正手段によって補正された後の標準パター
    ン及び/又は入力パターンを用いて、再度入力パターン
    と標準パターンとを比較し2次的な対応付けを行う2次
    マッチング手段と、 前記入力音声の発声環境の変化を検出する環境変化検出
    手段と、 該環境変化検出手段によって検出された前記発声環境の
    変化の度合いに応じて前記2次マッチング手段を作動さ
    せるか否かを制御する制御手段と、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】入力音声を分析して、該入力音声の特徴を
    あらわす入力パターンを求める分析手段と、 予め標準となる音声に基づいて作成された認識対象の特
    徴をあらわす標準パターンを保持する標準パターン記憶
    手段と、 前記分析手段によって求められた前記入力パターンと前
    記標準パターン記憶手段に保持された前記標準パターン
    との距離を求め、該距離が最小となる認識対象を1次的
    に求める1次マッチング手段と、 前記標準パターン及び/又は前記入力パターンを発声環
    境に適合させるための補正値を求める補正値計算手段
    と、 該補正値計算手段によって求められた前記補正値に基づ
    いて前記標準パターン及び/又は前記入力パターンを発
    声環境に適合するよう補正するパターン補正手段と、 該パターン補正手段によって補正された後の標準パター
    ン及び/又は入力パターンを用いて、再度入力パターン
    と標準パターンとの距離を求め、該距離が最小となる認
    識対象を2次的に求める2次マッチング手段と、 前記補正値計算手段によって求められた前記補正値に基
    づいて前記入力音声の発声環境の変化の大きさをあらわ
    す環境変化指数を求める環境変化検出手段と、 該環境変化検出手段によって求められた前記環境変化指
    数に基づいて前記2次マッチング手段を作動させるか否
    かを制御する制御手段と、 を備えたことを特徴とする音声認識装置。
  3. 【請求項3】前記制御手段が、前記環境変化指数が所定
    のしきい値よりも大きい場合には前記2次マッチング手
    段を作動させ、該環境変化指数が所定のしきい値よりも
    小さい場合には前記2次マッチング手段を作動させない
    よう制御することを特徴とする請求項2記載の音声認識
    装置。
  4. 【請求項4】前記制御手段が、前記所定のしきい値とと
    もに該所定のしきい値よりも大きな値を持つ第2のしき
    い値を有し、前記環境変化指数が該第2のしきい値より
    も大きい場合には前記2次マッチング手段を作動させな
    いよう制御することを特徴とする請求項3記載の音声認
    識装置。
  5. 【請求項5】入力された音声の特徴をあらわす入力パタ
    ーンと予め保持されている標準パターンとを比較して音
    声認識を行う音声認識方法であって、 前記入力された音声の発声環境の変化の大きさを求め、
    該変化の大きさが所定のしきい値よりも大きい場合に
    は、前記入力パターン及び/又は前記標準パターンを発
    声環境に適合させるよう補正した上で再度前記入力パタ
    ーンと前記標準パターンとのマッチングを行い、該変化
    の大きさが前記所定のしきい値よりも小さい場合には、
    当該補正を行わずに前記入力パターンと前記標準パター
    ンとのマッチングを行うことを特徴とする音声認識方
    法。
  6. 【請求項6】入力された音声の特徴をあらわす入力パタ
    ーンと予め保持されている標準パターンとを比較して音
    声認識を行う音声認識方法であって、 前記入力された音声の発声環境の変化の大きさを求め、
    該変化の大きさが第1のしきい値よりも大きくかつ第2
    のしきい値よりも小さい場合には、前記入力パターン及
    び/又は前記標準パターンを発声環境に適合させるよう
    補正した上で再度前記入力パターンと前記標準パターン
    とのマッチングを行い、該変化の大きさが前記第1のし
    きい値よりも小さい場合又は前記第2のしきい値よりも
    大きい場合には、当該補正を行わずに前記入力パターン
    と前記標準パターンとのマッチングを行うことを特徴と
    する音声認識方法。
JP7180734A 1995-06-23 1995-06-23 音声認識装置及び音声認識方法 Expired - Fee Related JP2780676B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP7180734A JP2780676B2 (ja) 1995-06-23 1995-06-23 音声認識装置及び音声認識方法
DE69614937T DE69614937T2 (de) 1995-06-23 1996-06-20 Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP96110008A EP0750292B1 (en) 1995-06-23 1996-06-20 Speech recognition method and speech recognition system with reduced recognition time in consideration of environmental variation
US08/669,239 US5854999A (en) 1995-06-23 1996-06-24 Method and system for speech recognition with compensation for variations in the speech environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7180734A JP2780676B2 (ja) 1995-06-23 1995-06-23 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JPH096394A JPH096394A (ja) 1997-01-10
JP2780676B2 true JP2780676B2 (ja) 1998-07-30

Family

ID=16088382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7180734A Expired - Fee Related JP2780676B2 (ja) 1995-06-23 1995-06-23 音声認識装置及び音声認識方法

Country Status (4)

Country Link
US (1) US5854999A (ja)
EP (1) EP0750292B1 (ja)
JP (1) JP2780676B2 (ja)
DE (1) DE69614937T2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856832A1 (fr) * 1997-02-03 1998-08-05 Koninklijke Philips Electronics N.V. Procédé de reconnaissance vocale de mots et dispositif dans lequel ledit procédé est mis en application
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6941266B1 (en) * 2000-11-15 2005-09-06 At&T Corp. Method and system for predicting problematic dialog situations in a task classification system
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
US9462230B1 (en) * 2014-03-31 2016-10-04 Amazon Technologies Catch-up video buffering
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置

Also Published As

Publication number Publication date
US5854999A (en) 1998-12-29
DE69614937D1 (de) 2001-10-11
DE69614937T2 (de) 2002-04-04
EP0750292A2 (en) 1996-12-27
JPH096394A (ja) 1997-01-10
EP0750292B1 (en) 2001-09-05
EP0750292A3 (en) 1998-04-08

Similar Documents

Publication Publication Date Title
JP2780676B2 (ja) 音声認識装置及び音声認識方法
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
US6611801B2 (en) Gain and noise matching for speech recognition
JP2002502993A (ja) ノイズ補償されたスピーチ認識システムおよび方法
JP2000507714A (ja) 言語処理
JPH07191689A (ja) 音声認識装置
JP6030135B2 (ja) 音声認識システムにおいて、誤った肯定を低減すること
JP2004325897A (ja) 音声認識装置及び音声認識方法
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP3611223B2 (ja) 音声認識装置及び方法
JP3535292B2 (ja) 音声認識システム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3354252B2 (ja) 音声認識装置
JPH06289891A (ja) 音声認識装置
JPH07121197A (ja) 学習式音声認識方法
JPS60114900A (ja) 有音・無音判定法
JPH0792989A (ja) 音声認識方法
JPH06214596A (ja) 音声認識装置および話者適応化方法
US7155387B2 (en) Noise spectrum subtraction method and system
JPH11327593A (ja) 音声認識システム
JP4603727B2 (ja) 音響信号分析方法及び装置
JP3868798B2 (ja) 音声認識装置
JPH1185200A (ja) 音声認識のための音響分析方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980414

LAPS Cancellation because of no payment of annual fees