JP2002366192A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置

Info

Publication number
JP2002366192A
JP2002366192A JP2001174148A JP2001174148A JP2002366192A JP 2002366192 A JP2002366192 A JP 2002366192A JP 2001174148 A JP2001174148 A JP 2001174148A JP 2001174148 A JP2001174148 A JP 2001174148A JP 2002366192 A JP2002366192 A JP 2002366192A
Authority
JP
Japan
Prior art keywords
snr
speech
input
voice
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001174148A
Other languages
English (en)
Other versions
JP4858663B2 (ja
Inventor
Keizaburo Takagi
啓三郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001174148A priority Critical patent/JP4858663B2/ja
Priority to US10/163,710 priority patent/US7216075B2/en
Publication of JP2002366192A publication Critical patent/JP2002366192A/ja
Application granted granted Critical
Publication of JP4858663B2 publication Critical patent/JP4858663B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

(57)【要約】 【課題】距離計算量を増やすことなく、またいわゆる
“合わせすぎ”を発生させずに、高性能の音声認識を実
施する。 【解決手段】複数のカテゴリに対する統計的な特徴量を
保持する音声標準パタンであって、標準話者音声に対し
て異なる複数のSNR(音声対雑音比)で既知の雑音を
重畳した複数の音声の特徴抽出結果を用い、特徴量分布
がSNRごとに異なる情報を持つように構成したSNR
多重化標準パタンを用いる。入力音声に対してSNR多
重化標準パタン作成時と同様の特徴抽出を行なって特徴
ベクトル列を計算する特徴抽出部12と、SNR多重化
標準パタンの異なる複数のSNRに対する分布から、入
力音声のSNRとなるような新たな分布を線形補間によ
って求めるパタン変換部14と、特徴ベクトル列と新た
な分布とを用いて非線型伸縮マッチング処理を行うマッ
チング部15と、を設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法及び
音声認識装置に関し、特に入力音声と標準パタンとのS
NR(信号対雑音比)条件を一致させることにより、雑
音下の音声認識性能を向上させる技術に関する。
【0002】
【従来の技術】従来、音声認識の耐雑音性能を向上させ
ることを目的として、種々の方法が提案されている。特
に本発明と関係する技術として、雑音重畳学習という技
術が従来より知られている。これは、認識時の雑音環境
の音響特性がある程度既知であり事前に雑音を収集する
ことが可能であるという前提に基づき、その収集した雑
音を予め標準話者音声に重畳し、その重畳音声を用いて
標準パタンを作成することにより、学習環境と認識環境
の雑音条件を一致させることができて、雑音下の音声認
識性能を向上させることを可能とするものである。
【0003】しかし、実用的な見地からは、この雑音重
畳学習には問題点が存在する。たとえ雑音環境が事前に
分かったとしても、一般に、話者の声の大きさ、マイク
ロホンと話者の口との距離、装置のボリュームゲイン、
騒音の大きさなどがその都度変化し、音声信号と雑音信
号の相対的な大きさの比である音声対雑音比(SNR)
が一定ではない。従来よりSNRと音声認識率との相関
は極めて大であることが知られており、SNR条件が大
きく異なればこの雑音重畳学習は全く効果がないことも
明らかである。
【0004】これに対して、事前に雑音が収集できたと
してもSNR条件は事前に決定できないという前提に基
づき、認識時にSNR決定を行い、そのSNR条件に適
合した標準パタンをその場で合成することにより、この
問題点に対処する技術が存在する。たとえば、本発明者
による日本国特許第3039623号明細書「音声認識
装置」(以下引用文献[1]と称す)には、その実施の
一形態の例として、多重化標準パタンの両端点特徴ベク
トルとして、0dBと40dBのSNRにおける重畳音
声を保持する例が記載されている。この例では、マッチ
ング時に、入力音声と標準パタンとで構成される2次元
の各格子点上で独立に最適(尤度最大もしくは距離最
小)になるように求めたベクトルとの距離を用いること
で、入力音声が0〜40dBの間のどの範囲のSNRで
あっても、標準パタンベクトルをそれに適合させること
ができ、結果として高い音声認識性能を得ることができ
る。
【0005】
【発明が解決しようとする課題】しかしながら、引用文
献[1]に述べるような方法を用いた場合、音声認識時
の各格子点で入力音声と両端点の特徴ベクトルとからな
る3点間の距離計算を行わなくてはならず、演算量的に
従来の通常の方法の3倍(効率的に行ったとしても2
倍)の距離計算量が必要となり、音声認識装置として高
価なものが必要である。
【0006】また、引用文献[1]の方法では、各格子
点上で独立の最適化を行うため、多重化標準パタンの可
動範囲が大き過ぎ、誤ったマッチングを引き起こすこと
(いわゆる“合わせすぎ”)が起こり得るという問題点
がある。例えば、母音に比べ相対的にパワーの小さな子
音は雑音に埋もれやすく、SNRが悪くなればなるほ
ど、ほとんど雑音と同一の特徴を示すようになる。した
がってSNRが高い場合には「はかた」と聞き取れるよ
うな音声が、高騒音下では先頭母音の“h”が雑音に埋
もれてしまい、「あかた」のように変形してしまう場合
が存在する。さらに極端な場合には母音部分のみが残
り、「あああ」と区別がつかなくなる可能性すらある。
認識対象語彙に「はかた」や「あかた」や「はあた」な
ど母音系列が同一の音声が多数含まれている場合には、
この方式では合わせすぎが発生し、それらの間での識別
が困難となり、ひいて音声認識の性能低下を招くという
問題点が存在する。
【0007】そこで本発明の第一の目的は、上述した距
離計算量の増大という問題点に対処し、SNRを事前に
測定することによって、距離計算時には従来の距離計算
と同様に入力音声と標準パタンとの間の距離計算を1回
行う程度の少ない演算量で音声認識を実現できる、音声
認識方法及び装置を提供することである。
【0008】また、本発明の第二の目的は、SNRを発
声全体あるいは発声の一部に対して固定して使用するこ
とで、従来起こっていたようないわゆる“合わせすぎ”
を回避し、より高性能な音声認識方法及び装置を提供す
ることにある。
【0009】
【課題を解決するための手段】本発明では、標準話者音
声に対して音声認識のための特徴抽出を行なって得られ
る抽出結果を用いて複数のカテゴリに対する統計的な特
徴量を保持する音声標準パタンであって、標準話者音声
に対して異なる複数のSNRで既知の雑音を重畳した複
数の音声の特徴抽出結果を用い、特徴量分布がSNRご
とに異なる情報を持つように構成したSNR多重化標準
パタンを用いる。
【0010】そして本発明の音声認識方法は、音声認識
のために入力された入力音声に対して、SNR多重化標
準パタンを作成した時と同様の条件で特徴抽出を行な
い、入力音声の特徴ベクトル列を計算し、SNR多重化
標準パタンの異なる複数のSNRに対する分布から、入
力音声のSNRとなるような新たな分布を線形補間によ
って求め、特徴ベクトル列と新たな分布とに基づいて非
線型伸縮マッチング処理を行い、認識結果を出力する。
【0011】また本発明による第1の音声認識装置は、
SNR多重化標準パタンを格納するSNR多重化標準パ
タン格納部(11)と、音声認識のために入力された入
力音声に対してSNR多重化標準パタンを作成した時と
同様の条件で特徴抽出を行ない、入力音声の特徴ベクト
ル列を計算する特徴抽出部(12)と、入力音声のSN
Rを計算して入力SNRとして出力する入力SNR計算
部(13)と、入力SNRを用い、SNR多重化標準パ
タンの異なる複数のSNRに対する分布から、当該入力
SNRとなるような新たな分布を線形補間によって求め
るパタン変換部(14)と、特徴ベクトル列と新たな分
布とを用いて音声認識のための非線型伸縮マッチング処
理を行い、認識結果を出力するマッチング部(15)
と、を有する。
【0012】本発明の第2の音声認識装置は、SNR多
重化標準パタンを格納するSNR多重化標準パタン格納
部(21)と、音声認識のために入力された入力音声に
対してSNR多重化標準パタンを作成した時と同様の条
件で特徴抽出を行ない、入力音声の特徴ベクトル列を計
算する特徴抽出部(22)と、SNR多重化標準パタン
の異なる複数のSNRに対する分布と特徴ベクトル列と
から、入力音声に対して最も尤度が高くなるという基準
でSNRを求める予備マッチング部(23)と、予備マ
ッチング部(23)によって求められたSNRを用い、
SNR多重化標準パタンの異なる複数のSNRに対する
分布から、当該求められたSNRとなるような新たな分
布を線形補間によって求めるパタン変換部(24)と、
特徴ベクトル列と新たな分布とを用いて音声認識のため
の非線型伸縮マッチング処理を行い、認識結果を出力す
るマッチング部(25)と、を有する。
【0013】本発明の第3の音声認識装置は、SNR多
重化標準パタンを格納するSNR多重化標準パタン格納
部(31)と、音声認識のために入力された入力音声に
対してSNR多重化標準パタンを作成した時と同様の条
件で特徴抽出を行ない、入力音声の特徴ベクトル列を計
算する特徴抽出部(32)と、SNR多重化標準パタン
の異なる複数のSNRに対する分布と特徴ベクトル列の
一部分とを用いて正解候補のパスを求め、当該パスに沿
って尤度最大となるという基準でSNRを求める部分マ
ッチング部(33)と、部分マッチング部によって求め
られたSNRを用い、SNR多重化標準パタンの異なる
複数のSNRに対する分布から、当該求められたSNR
となるような新たな分布を線形補間によって求めるパタ
ン変換部(34)と、部分マッチング部(33)が計算
した音声認識のための途中結果と特徴ベクトル列と新た
な分布とを用いて音声認識のための非線型伸縮マッチン
グ処理を行い、認識結果を出力するマッチング部(3
5)と、を有する。
【0014】まず、本発明の基本原理を説明する。
【0015】一般的な入力信号は、リニアスペクトル領
域で純粋な雑音のない音声信号に雑音信号が足された形
で表現されるため、音声認識が事前に予測可能なノイズ
環境下で利用される場合、その雑音信号を予め収録して
おき、標準話者音声に重畳することで、認識環境と学習
環境の雑音条件を一致させ、音声認識率を向上させるこ
とが可能である。これがいわゆる雑音重畳学習と呼ばれ
るものである。ただしこの際、予め雑音信号のスペクト
ル形状が明らかとなっていても、マイクロホンと話者の
口との距離、話者の声の大きさ、装置のボリュームゲイ
ンなど、一定でないことが予想され、認識時のノイズと
音声の相対的な大小関係(SNR;音声対雑音比)は不
明である。このようなことから、雑音重畳学習において
は、SNRを規定するような未知パラメータを考慮する
必要がある。
【0016】いま、雑音のない環境で発声した標準話者
音声に雑音を重畳して雑音環境下の標準パタンを作成す
ることを考える。雑音環境で観測される音声信号のスペ
クトルをYlとし、その信号が純粋な音声信号のスペク
トル信号Slと雑音信号のスペクトルNlと雑音のゲイン
αlとで合成されるモデルを考えると、これらの関係は
以下のように表現できる。
【0017】Yl=Sl+αll (1) なおここでは、音声と雑音信号の相対的な大きさである
SNRを考慮する代わりにノイズにのみ付与されたゲイ
ンαlを考慮することにしたが、このように取扱っても
一般性は失われない。
【0018】現在知られている音声認識装置の大半は対
数スペクトルあるいはそれを線型変換した特徴量(例え
ばケプストラム)を認識のパラメータとして使用するた
め、上記式(1)の対数変換を考える。なお、ケプストラ
ムと対数スペクトルの関係は単なる線型変換であるた
め、これらは区別なく扱うことができるが、ここでは簡
単のため対数スペクトルに対して論じる。
【0019】 Y=log(Yl) =log(Sl+αll)=log{exp(S)+exp(αN)} ≡f(α,N) (2) ここで、S=log(Sl),α=log(αl),N=lo
g(Nl)である。すなわち、対数スペクトル上のノイズ
とゲインが分かればその状態での観測信号を計算するこ
とができることになるが、実はこれはそう簡単ではな
い。なぜなら、この変換には対数及び指数変換の2つの
超越関数が含まれており、これを全ての標準パタンに対
して行うためには多くの計算資源を必要するためであ
る。本発明では、上記式(2)の関係を用いる代わりに、
これをテーラー(Taylor)展開の1次までの項で近似した
ものを考える。すなわち、ある基準となるノイズスペク
トルN 0が、基準となるゲインα0で重畳された標準パタ
ンが事前に用意されおり、それとは異なる雑音重畳信号
が入力された場合の標準パタンは、以下のように表され
る。
【0020】
【数1】
【0021】いま、入力の雑音環境がノイズの性質自体
には変化がないことを前提としていることを考えると、
右辺第3項は無視できるため、結局以下のようになる。
【0022】
【数2】
【0023】ここで、f0,f1は、それぞれ、SN
0,SNR1の標準パタンの特徴ベクトル分布であり、
SNRuは未知入力に対して測定したSNRである。以
上のように、入力音声に対してSNRが求められれば、
少なくとも2種類のSNR既知の標準パタンを用いて任
意のSNRの標準パタンが合成可能である。
【0024】以下、後述する本発明の第1の実施形態の
音声認識装置を示す図1を用いて、本発明の音声認識装
置の基本的な原理を説明する。
【0025】SNR多重化標準パタン格納部11は、標
準話者音声に対してSNRが既知の少なくとも2種類の
雑音重畳音声(上式のf0,f1)を用意して、これらを
SNR別の統計量として保持しておく。すなわち、従来
の標準パタンは1つの平均ベクトルないしはその分散を
含めて1つの空間の点を表していたものを、ここではS
NR付きで少なくとも2つの点で表現している。
【0026】特徴抽出部12は、入力音声の波形を音声
認識のための特徴ベクトル列に変換する。この特徴ベク
トルは、一定周期ごとの短時間分析結果(多次元ベクト
ル)を時間方向に結合したものとして表現されたもので
あり、入力音声信号を特徴ベクトル列に変換する方法と
してこれまでに種々の方法が確立されている。例えば、
スペクトル分析、フィルタバンク、ケプストラム、パワ
ーといったものを元に、これらの時間方向の1次あるい
は2次微分といったものと組み合わせて特徴ベクトルを
構成している。
【0027】入力SNR計算部13は、入力音声からそ
の信号対雑音比(SNR)を計算する。SNRは一般
に、音声信号のエネルギーの平均値Psと雑音信号のエ
ネルギーの平均値Pnとを用いて以下のように表され
る。
【0028】 SNR=10 log(Ps)−10 log(Pn) (4) 入力SNR計算部13は、内部にSNRを計算するため
の音声区間検出部を含んでいる。音声区間を検出する方
法としては、従来より種々のものが提案されている。本
発明は、それらのうちどのようなものを用いても良く、
それらを詳細に述べることは本発明と直接関係ないので
ここでは触れない。
【0029】パタン変換部14は、SNR多重化標準パ
タン11と入力SNR計算部13で求めたSNRとを用
いて上記式(3)の計算を行い、線型変換により新しい標
準パタンを合成する。マッチング部15は、この新しく
合成された標準パタンの各分布を用いて音声認識のため
の非線型伸縮マッチングを行う。たとえば、標準パタン
として隠れマルコフモデル(HMM;Hidden Markov Mo
del)と呼ばれる方法を用いた場合、これに対する効率
的な計算方法として、ビタビ(Viterbi)アルゴリズムが
良く知られている。
【0030】以上から明らかなように本発明によれば、
少なくとも2種類のSNRに対する情報を保持したSN
R多重化標準パタンと入力音声のSNRとを用いること
で、近似的な線形変換により、任意のSNRの標準パタ
ンを容易に合成することが可能であり、これによって高
性能な音声認識を可能にする。
【0031】
【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。
【0032】図1は本発明の第1の実施の形態の音声認
識装置の構成を示すブロック図である。
【0033】この音声認識装置は、SNR多重化標準パ
タンを格納するSNR多重化標準パタン格納部11と、
音声認識のために入力された入力音声に対してSNR多
重化標準パタンを作成した時と同様の条件で特徴抽出を
行ない、その入力音声の特徴ベクトル列を計算する特徴
抽出部12と、入力音声のSNRを計算する入力SNR
計算部13と、入力SNR計算部13が計算した入力S
NRを用い、SNR多重化標準パタンの少なくとも2種
類のSNRに対する分布から、その入力SNRとなるよ
うな新たな分布を線形補間によって求めるパタン変換部
14と、特徴抽出部13が出力した入力音声の特徴ベク
トル列とパタン変換部14が出力した分布とを用いて音
声認識のための非線型伸縮マッチング処理を行い、認識
結果を出力するマッチング部15と、を備えている。こ
こでSNR多重化標準パタンとは、標準話者音声に対し
て音声認識のための特徴抽出を行ないその抽出結果を用
いて複数のカテゴリに対する統計的な特徴量を保持する
音声標準パタンであって、(雑音を含まない)標準話者
音声に対して少なくとも2種類の異なるSNRで既知の
雑音を重畳し、このようにして雑音が重畳したそれぞれ
の音声の特徴抽出結果を用いて得られたものである。し
たがって、SNR多重化標準パタンは、少なくとも2種
類の適用したSNRごとに異なる特徴量分布の情報を保
持している。
【0034】マッチング部15としては、通常の音声認
識に使用される、標準パタンと入力音声との間の時間軸
に関する非線形伸縮を行い両者の間で最も尤度の高いも
のを正解候補(認識結果)として出力するものが使用さ
れる。
【0035】次に、図1に示す音声認識装置の動作を説
明する。
【0036】SNR多重化標準パタン格納部11に格納
されるSNR多重化標準パタンは、雑音の重畳されてい
ない標準話者音声に対して少なくとも2種類のSNRで
雑音重畳音声を作成しておき、その音声に対し特徴ベク
トルの計算を行うことによって得られる。この特徴ベク
トルは、一定周期ごとの短時間分析結果(多次元ベクト
ル)を時間方向に結合したものとして表現されている。
特徴ベクトルの算出方法としては、これまでに種々の方
法が確立されている。例えば、スペクトル分析、フィル
タバンク、ケプストラム、パワーといったものを元に、
これらの時間方向の1次あるいは2次微分といったもの
と組み合わせることによって、特徴ベクトルを構成する
ことができる。ここで例示した以外の特徴ベクトルであ
っても、一般に音声認識に使用可能なものであれば、ど
のようなものを用いてもよい。この少なくとも2種類の
SNRの標準話者音声に対し、音声認識のための多重化
標準パタンを構成する。このような構成を実現する手段
としては、隠れマルコフモデル(HMM)と呼ばれる方
法や、あるいはDPマッチングによる方法が知られてい
る。
【0037】音声認識の対象となる入力音声は、特徴抽
出部12と入力SNR計算部13の両方に与えられる。
特徴抽出部12は、上述したSNR多重化標準パタンを
作成した時と同様の特徴抽出手法を行うことにより、入
力音声の特徴ベクトル計算を行い、得られた特徴ベクト
ルをマッチング部15に出力する。一方、入力SNR計
算部13は、認識対象の音声に対してSNRの計算を行
う。SNRは、例えば入力音声における音声区間と雑音
区間が決定されている場合には、以下のような方法で計
算できる。すなわち入力音声をx(t)、雑音区間の集合
をTn、音声区間の集合をTsとすると、
【0038】
【数3】
【0039】で計算される。雑音区間、音声区間の同定
方法としては、これまでに種々の方法が開示されてお
り、ここではそれらについての詳細な説明を行わない
が、これらの区間が同定できるものであれば、どのよう
な方法も利用可能である。最も簡単には、音声区間と雑
音区間の間の短時間パワーのしきい値を予め用意してお
き、このしきい値を下回った場合には雑音区間、上回っ
た場合には音声区間であると判定する方法が利用でき
る。計算されたSNRは、パタン変換部14に出力され
る。
【0040】次に、パタン変換部14は、入力SNR計
算部13が計算したSNRを用いて、SNR多重化標準
パタンを目的のSNRに変換する。変換された分布を新
たな分布と呼ぶ。この変換は上述の式(3)を用いて行
う。すなわち、標準パタン中のある分布に関し、SNR
別に2つの特徴ベクトルf0,f1と、それぞれに対応す
るSNR0,SNR1が用意されているとき、目的のSN
uにおける特徴ベクトルは、式(3)の計算によって求め
ることが可能である。得られた新たな分布は、マッチン
グ部15に与えられる。
【0041】マッチング部15は、入力音声の特徴ベク
トル列が特徴抽出部12から入力し、新しく合成された
標準パタンの各分布(新たな分布)がパタン変換部14
から入力すると、新たな分布を用いて特徴ベクトル列の
音声認識のための非線型伸縮マッチング処理を行い、尤
度の最も高いものを認識結果として出力する。このよう
な尤度の計算方法としては、例えばHMMにおけるビタ
ビアルゴリズムや、特徴ベクトルパタン列におけるDP
(動的計画法)マッチングなどが良く知られている。
【0042】以上の処理により、入力音声に対する認識
結果が出力され、音声認識が行われたことになる。
【0043】図1に示す音声認識装置では、入力SNR
計算を行なう際に用いる音声と最終的にマッチングを行
う入力音声とが同一とされているが、実用上はこのよう
な構成の場合、やや処理の遅延が発生して好ましくない
場合がある。その理由は、音声認識においてはしばし
ば、入力が完了した音声の一部分から順次処理を進めて
行く、いわゆるフレーム同期と呼ばれる処理方法を行う
場合が多いのに対し、音声のSNRはいったん発声が終
了しない限り決定ができないためである。入力SNR計
算を行なう際の音声とマッチングを行なう入力音声とが
同一であると、発声が終了してから処理を行うことにな
るが、その場合には、フレーム同期処理が困難になる。
【0044】これに対しては次の2つの回避方法が考え
られる。まず、音声の一部分からSNRを推定する方法
を用いることである。これは、例えば発声の前に存在す
る雑音部分と発声の先頭の一部分の音声が入力された時
点でSNRを推定する方式である。またもう一つの方法
として、前回の認識時のSNRを利用する、いわゆる1
発声遅れのSNR推定方法を行うことも可能である。音
声認識の利用場面においては利用者が数回の発声を行う
場合があり、このような場合には、初回の発声に対して
は予め保存していた初期値を用いたり、または図1に示
す音声認識装置のように初回のみは認識結果通知の遅延
を許容し、2回目以降の発声に対しては、その直前の発
声で計算したSNRを用いるなどの処理を行うことで、
実用的な実施方法となる。この場合も、過去の数回の発
声との間でSNRの平均値をとったりしてあまり大きな
変化が起こらないようにする工夫ももちろん可能であ
る。
【0045】次に、本発明の第2の実施形態の音声認識
装置について説明する。図2は、第2の実施形態の音声
認識装置の構成を示すブロック図である。
【0046】図2に示す音声認識装置は、SNR多重化
標準パタンを格納するSNR多重化標準パタン格納部2
1と、音声認識のために入力された入力音声に対してS
NR多重化標準パタンを作成した時と同様の条件で特徴
抽出を行ない、その入力音声の特徴ベクトル列を計算す
る特徴抽出部22と、SNR多重化標準パタン21の少
なくとも2種類のSNRに対する分布と特徴抽出部22
が出力した入力音声の特徴ベクトル列とから、入力発声
に対して最も尤度が高くなるという基準でSNRを求め
る予備マッチング部23と、予備マッチング部23によ
って求められたSNRを用い、SNR多重化標準パタン
の少なくとも2種類のSNRに対する分布から、求めら
れたSNRとなるような新たな分布を線形補間によって
求めるパタン変換部24と、特徴抽出部23が出力した
入力音声の特徴ベクトル列とパタン変換部24が出力し
た分布とを用いて音声認識のための非線型伸縮マッチン
グ処理を行い、認識結果を出力するマッチング部25
と、を備えている。
【0047】ここでSNR多重化標準パタンは第1の実
施形態の場合と同じものであり、また、SNR多重化標
準パタン格納部21、特徴抽出部22及びマッチング部
25は、それぞれ図1のSNR多重化標準パタン格納部
11、特徴抽出部12及びマッチング部15と同一の構
成及び機能のものである。パタン変換部24は、図1に
示すパタン変換部14が入力SNR計算部13から入力
音声のSNRを与えられるのに対し、予備マッチング部
23から入力音声のSNRが与えられる点で、図1のパ
タン変換部14と相違している。
【0048】この音声認識装置では、予備マッチング部
23は、音声認識のマッチング方式を用い、まずSNR
を決定する。マッチングアルゴリズム自体としては、従
来のDPマッチングやビタビアルゴリズムを用いる。適
当なSNRの初期値を事前に決めておき、このSNRに
おける正解候補パスを求め、そのパスに対する最適なS
NRを計算し直す操作を行う。図3は、例えばHMMで
構成された標準パタンに対して正解候補パスが求められ
た状態を示す。すなわち入力音声の時間軸tに対して対
応づけられた標準パタンの分布が一意に決定されている
状態である。入力音声の特徴ベクトルの時系列をY
ij(iは次元を表す添字)、それに対応づけられた標準
パタンのSNRが異なる2つの分布を
【0049】
【外1】
【0050】分散をδ2 ijとし、SNRに相当する未知
パラメータαを用いると、出力される距離(尤度の逆の
意)は以下のように表される。
【0051】
【数4】
【0052】上記はαに関する2次式なので、この距離
値を最小にするようなαは簡単に求めることが出来る。
微分して0とおけば、
【0053】
【数5】
【0054】である。なお、αは初期値として過去の音
声に対するαを平均化したものを用いるような工夫を行
うこともできる。パタン変換部24はこのSNRに相当
する値αを用いてHMMにおける分布を決定する。すな
わち、変換後の分布
【0055】
【外2】
【0056】は、αとSNRについて多重化された例え
ば2つの分布
【0057】
【外3】
【0058】を用い、
【0059】
【数6】
【0060】で計算される。
【0061】その他の点では、図2に示す音声認識装置
の動作は図1に示す音声認識装置の動作と同一である。
【0062】次に、本発明の第3の実施形態の音声認識
装置について説明する。図4は、第3の実施形態の音声
認識装置の構成を示すブロック図である。
【0063】図4に示す音声認識装置は、SNR多重化
標準パタンを格納するSNR多重化標準パタン格納部3
1と、音声認識のために入力された入力音声に対してS
NR多重化標準パタンを作成した時と同様の条件で特徴
抽出を行ない、その入力音声の特徴ベクトル列を計算す
る特徴抽出部32と、SNR多重化標準パタンの少なく
とも2種類のSNRに対する分布と特徴抽出部32が出
力した入力音声の特徴ベクトル列の一部分とを用いて正
解候補のパスを求め、当該パスに添って尤度最大となる
という基準でSNRを求める部分マッチング部33と、
部分マッチング部33によって求められたSNRを用
い、SNR多重化標準パタンの少なくとも2種類のSN
Rに対する分布から、求められたSNRとなるような新
たな分布を線形補間によって求めるパタン変換部34
と、部分マッチング部33が計算した音声認識のための
途中結果(サーチ情報)と特徴抽出部23が出力した入
力音声の特徴ベクトル列とパタン変換部24が出力した
分布とを用いて音声認識のための非線型伸縮マッチング
処理を行い、認識結果を出力するマッチング部35と、
を備えている。
【0064】ここでSNR多重化標準パタンは第1及び
第2の実施形態の場合と同じものであり、また、SNR
多重化標準パタン格納部31及び特徴抽出部32は、そ
れぞれ図1のSNR多重化標準パタン11及び特徴抽出
部12と同一の構成及び機能のものである。パタン変換
部34は、図2に示すパタン変換部24が予備マッチン
グ部23からSNRを与えられるのに対し、部分マッチ
ング部33からSNRが与えられる点で、図2のパタン
変換部24と相違している。
【0065】部分マッチング部33は、図5に示す通
り、入力音声の時刻t=t’における始端からの部分最
適パスを求め、このパスに添ったSNRに相当する値α
を上述の式(7)を用いて計算する。パタン変換部34
は、第1の及び第2の実施形態のパタン変換部14,2
4と同一の動作を行い、例えば式(8)にしたがって標準
パタンの分布を変換する。マッチング部35は、時刻t
=t’における部分最適パスを新しく変換された標準パ
タンを用いて再度計算し直し、この時刻におけるマッチ
ングを行う。なお、音声の終端(t=T)に至る最適パ
スが求まった時点でこのマッチング操作は終了し、認識
結果を出力する。
【0066】
【発明の効果】以上説明したように本発明は、SNRを
事前に決定することで従来の音声認識装置が有していた
ような多くの演算量を必要とせず、音声認識装置の低コ
スト化が可能となり、また、発声全体あるいは発声の一
部分を用いてSNRを求めることで、従来の装置が有し
ていたいわゆる合わせすぎの問題点が回避され、より高
性能な音声認識を実現できる、という効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声認識装置の構
成を示すブロック図である。
【図2】本発明の第2の実施の形態の音声認識装置の構
成を示すブロック図である。
【図3】予備マッチング部の動作を示す図である。
【図4】本発明の第3の実施の形態の音声認識装置の構
成を示すブロック図である。
【図5】部分マッチング部の動作を示す図である。
【符号の説明】
11,21,31 SNR多重化標準パタン格納部 12,22,32 特徴抽出部 13 入力SNR計算部 23 予備マッチング部 33 部分マッチング部 14,24,34 パタン変換部 15,25,35 マッチング部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 標準話者音声に対して音声認識のための
    特徴抽出を行なって得られる抽出結果を用いて複数のカ
    テゴリに対する統計的な特徴量を保持する音声標準パタ
    ンであって、前記標準話者音声に対して異なる複数のS
    NR(音声対雑音比)で既知の雑音を重畳した複数の音
    声の特徴抽出結果を用い、前記特徴量分布がSNRごと
    に異なる情報を持つように構成したSNR多重化標準パ
    タンを用い、 音声認識のために入力された入力音声に対して、前記S
    NR多重化標準パタンを作成した時と同様の条件で特徴
    抽出を行ない、入力音声の特徴ベクトル列を計算し、 前記SNR多重化標準パタンの異なる複数のSNRに対
    する分布から、前記入力音声のSNRとなるような新た
    な分布を線形補間によって求め、 前記特徴ベクトル列と前記新たな分布とに基づいて非線
    型伸縮マッチング処理を行い、認識結果を出力する、 音声認識方法。
  2. 【請求項2】 2種類のSNRの既知の雑音を利用して
    構成された前記SNR多重化標準パタンを用いる請求項
    1に記載の音声認識方法。
  3. 【請求項3】 標準話者音声に対して音声認識のための
    特徴抽出を行なって得られる抽出結果を用いて複数のカ
    テゴリに対する統計的な特徴量を保持する音声標準パタ
    ンであって、前記標準話者音声に対して異なる複数のS
    NR(音声対雑音比)で既知の雑音を重畳した複数の音
    声の特徴抽出結果を用い、前記特徴量分布がSNRごと
    に異なる情報を持つように構成したSNR多重化標準パ
    タンを格納するSNR多重化標準パタン格納部と、 音声認識のために入力された入力音声に対して前記SN
    R多重化標準パタンを作成した時と同様の条件で特徴抽
    出を行ない、入力音声の特徴ベクトル列を計算する特徴
    抽出部と、 前記入力音声のSNRを計算して入力SNRとして出力
    する入力SNR計算部と、 前記入力SNRを用い、前記SNR多重化標準パタンの
    異なる複数のSNRに対する分布から、当該入力SNR
    となるような新たな分布を線形補間によって求めるパタ
    ン変換部と、 前記特徴ベクトル列と前記新たな分布とを用いて音声認
    識のための非線型伸縮マッチング処理を行い、認識結果
    を出力するマッチング部と、 を有する音声認識装置。
  4. 【請求項4】 標準話者音声に対して音声認識のための
    特徴抽出を行なって得られる抽出結果を用いて複数のカ
    テゴリに対する統計的な特徴量を保持する音声標準パタ
    ンであって、前記標準話者音声に対して異なる複数のS
    NR(音声対雑音比)で既知の雑音を重畳した複数の音
    声の特徴抽出結果を用い、前記特徴量分布がSNRごと
    に異なる情報を持つように構成したSNR多重化標準パ
    タンを格納するSNR多重化標準パタン格納部と、 音声認識のために入力された入力音声に対して前記SN
    R多重化標準パタンを作成した時と同様の条件で特徴抽
    出を行ない、入力音声の特徴ベクトル列を計算する特徴
    抽出部と、 前記SNR多重化標準パタンの異なる複数のSNRに対
    する分布と前記特徴ベクトル列とから、前記入力音声に
    対して最も尤度が高くなるという基準でSNRを求める
    予備マッチング部と、 前記予備マッチング部によって求められたSNRを用
    い、前記SNR多重化標準パタンの異なる複数のSNR
    に対する分布から、当該求められたSNRとなるような
    新たな分布を線形補間によって求めるパタン変換部と、 前記特徴ベクトル列と前記新たな分布とを用いて音声認
    識のための非線型伸縮マッチング処理を行い、認識結果
    を出力するマッチング部と、 を有する音声認識装置。
  5. 【請求項5】 標準話者音声に対して音声認識のための
    特徴抽出を行なって得られる抽出結果を用いて複数のカ
    テゴリに対する統計的な特徴量を保持する音声標準パタ
    ンであって、前記標準話者音声に対して異なる複数のS
    NR(音声対雑音比)で既知の雑音を重畳した複数の音
    声の特徴抽出結果を用い、前記特徴量分布がSNRごと
    に異なる情報を持つように構成したSNR多重化標準パ
    タンを格納するSNR多重化標準パタン格納部と、 音声認識のために入力された入力音声に対して前記SN
    R多重化標準パタンを作成した時と同様の条件で特徴抽
    出を行ない、入力音声の特徴ベクトル列を計算する特徴
    抽出部と、 前記SNR多重化標準パタンの異なる複数のSNRに対
    する分布と前記特徴ベクトル列の一部分とを用いて正解
    候補のパスを求め、当該パスに沿って尤度最大となると
    いう基準でSNRを求める部分マッチング部と、 前記部分マッチング部によって求められたSNRを用
    い、前記SNR多重化標準パタンの異なる複数のSNR
    に対する分布から、当該求められたSNRとなるような
    新たな分布を線形補間によって求めるパタン変換部と、 前記部分マッチング部が計算した音声認識のための途中
    結果と前記特徴ベクトル列と前記新たな分布とを用いて
    音声認識のための非線型伸縮マッチング処理を行い、認
    識結果を出力するマッチング部と、 を有する音声認識装置。
  6. 【請求項6】 前記SNR多重化標準パタンは2種類の
    SNRの既知の雑音を利用して構成されたものである請
    求項3乃至5のいずれか1項に記載の音声認識装置。
JP2001174148A 2001-06-08 2001-06-08 音声認識方法及び音声認識装置 Expired - Fee Related JP4858663B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001174148A JP4858663B2 (ja) 2001-06-08 2001-06-08 音声認識方法及び音声認識装置
US10/163,710 US7216075B2 (en) 2001-06-08 2002-06-06 Speech recognition method and apparatus with noise adaptive standard pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001174148A JP4858663B2 (ja) 2001-06-08 2001-06-08 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2002366192A true JP2002366192A (ja) 2002-12-20
JP4858663B2 JP4858663B2 (ja) 2012-01-18

Family

ID=19015478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001174148A Expired - Fee Related JP4858663B2 (ja) 2001-06-08 2001-06-08 音声認識方法及び音声認識装置

Country Status (2)

Country Link
US (1) US7216075B2 (ja)
JP (1) JP4858663B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム
JP2016194628A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100754384B1 (ko) * 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别系统
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US8447954B2 (en) * 2009-09-04 2013-05-21 International Business Machines Corporation Parallel pipelined vector reduction in a data processing system
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59137999A (ja) * 1983-01-27 1984-08-08 松下電器産業株式会社 音声認識装置
JPH03110599A (ja) * 1989-09-26 1991-05-10 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04264596A (ja) * 1991-02-20 1992-09-21 N T T Data Tsushin Kk 雑音下音声認識方法
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5885499A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 連続音声認識装置
JP3008799B2 (ja) * 1995-01-26 2000-02-14 日本電気株式会社 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JPH09198079A (ja) 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置
JP3039623B2 (ja) * 1996-10-28 2000-05-08 日本電気株式会社 音声認識装置
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59137999A (ja) * 1983-01-27 1984-08-08 松下電器産業株式会社 音声認識装置
JPH03110599A (ja) * 1989-09-26 1991-05-10 Matsushita Electric Ind Co Ltd 音声認識方法
JPH04264596A (ja) * 1991-02-20 1992-09-21 N T T Data Tsushin Kk 雑音下音声認識方法
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030551A1 (ja) * 2004-09-15 2006-03-23 The University Of Tokyo 多項式近似に基づく雑音下音声認識のためのモデル適応法
JP2011022555A (ja) * 2009-07-15 2011-02-03 Toshiba Corp 音声認識システム、方法及びプログラム
JP2016194628A (ja) * 2015-04-01 2016-11-17 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム

Also Published As

Publication number Publication date
US7216075B2 (en) 2007-05-08
US20020198709A1 (en) 2002-12-26
JP4858663B2 (ja) 2012-01-18

Similar Documents

Publication Publication Date Title
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
US20060165202A1 (en) Signal processor for robust pattern recognition
JPH0990974A (ja) 信号処理方法
JPH075892A (ja) 音声認識方法
GB2347775A (en) Method of extracting features in a voice recognition system
WO2010035892A1 (en) Speech recognition method
JP2017067879A (ja) 音声処理装置及び音声処理方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP4696418B2 (ja) 情報検出装置及び方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3039623B2 (ja) 音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
Lipeika Optimization of formant feature based speech recognition
JP2007508577A (ja) 音声認識システムの環境的不整合への適応方法
JP4603727B2 (ja) 音響信号分析方法及び装置
JP2019028301A (ja) 音響信号処理装置、方法及びプログラム
JPH0246960B2 (ja)

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041207

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees