JPH09160585A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JPH09160585A
JPH09160585A JP7316747A JP31674795A JPH09160585A JP H09160585 A JPH09160585 A JP H09160585A JP 7316747 A JP7316747 A JP 7316747A JP 31674795 A JP31674795 A JP 31674795A JP H09160585 A JPH09160585 A JP H09160585A
Authority
JP
Japan
Prior art keywords
voice
unit
recognition
feature amount
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7316747A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP7316747A priority Critical patent/JPH09160585A/ja
Publication of JPH09160585A publication Critical patent/JPH09160585A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 様々な雑音環境下において生じる音声認識装
置の認識性能の劣化を防止(低減)する。 【解決手段】 有音声部/無音声部判定部11では、入
力された音声信号に基づいて、その音声の特徴量として
のシンボルが、有音声部または無音声部のうちのいずれ
のものであるかが判定され、その判定結果が特徴量変換
部12に供給される。特徴量変換部12では、音声の特
徴量であるシンボル系列のうち、有音声部/無音声部判
定部11において無音声部であると判定されたフレーム
におけるシンボルが、所定のシンボルに変換(置換)さ
れる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関する。特に、異なる雑音環境下にお
いて、良好な音声認識結果を得ることができるようにす
る音声認識装置および音声認識方法に関する。
【0002】
【従来の技術】入力された音声に対して、与えられた辞
書の中から、その音声に対応する音素や単語などを選択
する音声認識手法としては、従来より、例えば、DP
(Dynamic Programming)マッチングなどに代表される
パターンマッチングによる方法や、HMM(Hidden Mar
kov Model)などに代表される確率的な方法が知られて
いる。
【0003】DPマッチングでは、音声認識の対象とな
る単語に対応した標準パターンをあらかじめ作成してお
き、入力された音声を音響分析して得られる特徴量と、
標準パターンとを、時間軸の対応とりながらマッチング
させ(音声の特徴量と、標準パターンそれぞれとの距離
を計算し)、例えば、音声の特徴量と最も類似する標準
パターンに対応する単語が、音声の認識結果とされる。
【0004】また、HMMでは、幾つかの状態を有する
マルコフモデルについて、音声認識の対象となる単語に
対応して、状態が遷移する確率(状態遷移確率)と、そ
の状態遷移の際に出力されるシンボルの確率(シンボル
出力確率)とを求めることで、確率モデルをあらかじめ
作成しておき、入力された音声を音響分析して得られる
特徴量に対応したシンボル系列が、各モデルから観測
(生起)される確率(生起確率)を求め、例えば、最も
生起確率の高いモデルに対応する単語が、音声の認識結
果とされる。
【0005】以上のように、音声認識においては、音声
認識の対象となっている単語(認識対象単語)と入力音
声とのマッチングをとるために距離計算を行ったり、ま
た、認識対象単語に対応する確率モデルを用いて生起確
率を計算したりすることによって、入力音声の、認識対
象単語それぞれに対するスコアを求め、そのスコアが最
も高い認識対象単語を、音声の認識結果として選択する
ようになされている。
【0006】ここで、スコアが高いというのは、距離に
ついては、その値が小さい(距離が短い)ことを意味
し、生起確率については、その値が大きい(生起確率が
大きい)ことを意味する。
【0007】以上は、孤立単語音声認識の場合である
が、連続音声認識においても、上述のような距離計算や
確率計算が行われ、その結果得られるスコアが最も高く
なる単語の並びが、音声認識結果として出力される。但
し、連続音声認識の場合は、例えば文法や、単語の意味
的な接続関係などを考慮して、単語の並びが制限される
場合がある。
【0008】図7は、孤立単語音声認識を行う、従来の
音声認識装置の一例の構成を示している。入力部1は、
入力された音声を電気信号としての音声信号に変換する
マイク、その音声信号を増幅するアンプ、増幅されたア
ナログの音声信号をディジタルの音声信号にA/D変換
するA/D変換器などで構成される。音響分析部2は、
入力部1より出力される音声信号を音響分析し、これに
より、その音声信号の特徴量を抽出して出力するように
なされている。
【0009】パラメータ記憶部3には、音響分析部2に
おいて学習用の音声から抽出された特徴量に基づいて、
あらかじめ学習により求められた、音声の認識に用いる
認識用パラメータ(認識対象の単語などに対応するパラ
メータ)が記憶されている。
【0010】認識部5は、音響分析部2から出力される
音声の特徴量に対する、パラメータ記憶部3に記憶され
ている認識用パラメータそれぞれのスコアを、所定の音
声認識アルゴリズムにしたがって算出し、そのスコアに
基づいて、入力部1に入力された音声の認識結果を出力
するようになされている。
【0011】ここで、音声認識アルゴリズムとしては、
上述したDPマッチングやHMM、さらには、例えばニ
ューラルネットワークを利用したものなどが、比較的多
く用いられる。
【0012】認識部5において、DPマッチングにより
音声認識を行う場合においては、学習時に、学習用の音
声から抽出された特徴量に基づいて、テンプレートと呼
ばれる標準パターンが認識用パラメータとして求めら
れ、パラメータ記憶部3に記憶される。そして、認識時
には、音響分析部2から出力される音声の特徴量と、パ
ラメータ記憶部3に記憶されているテンプレートそれぞ
れとの距離がスコアとして計算され、そのスコアの高い
もの、あるいはそのスコアの高い上位幾つか、即ち、そ
の距離が最も短いもの、あるいはその距離の短い上位幾
つかが、音声認識結果とされる。なお、DPマッチング
では、発話速度の変動を吸収するため、即ち、テンプレ
ートと、音声の特徴量との間で、同じ音素どうしが対応
し、両者の間の歪みが最小化するように、時間軸正規化
(DTW(Dynamic Time Warping))が行われる。
【0013】また、認識部5において、HMMにより音
声認識を行う場合においては、学習時に、学習用の音声
から抽出された特徴量に基づいて、確率モデルを規定す
る状態遷移確率およびシンボル出力確率が、認識用パラ
メータとして求められ、パラメータ記憶部3に記憶され
る。そして、認識時には、パラメータ記憶部3に記憶さ
れている確率モデル(HMM)それぞれから、音響分析
部2より出力される音声の特徴量に対応したシンボル系
列が観測される生起確率が、スコアとして求められ、そ
のスコアの高いもの、あるいはそのスコアの高い上位幾
つか、即ち、その生起確率が最も高いもの、あるいはそ
の生起確率の高い上位幾つかが、音声認識結果とされ
る。
【0014】さらに、認識部5において、ニューラルネ
ットワークを利用して音声認識を行う場合においては、
学習時に、学習用の音声から抽出された特徴量に基づい
て、人間の脳の構造を模倣するネットワークモデルにつ
いてのパスの重み係数が、認識用パラメータとして求め
られ、パラメータ記憶部3に記憶される。そして、認識
時には、パラメータ記憶部3に記憶されているパスの重
み係数によって規定されるニューラルネットワークに、
音響分析部2から出力される音声の特徴量を入力して得
られる出力値に基づいて、音声認識結果が決定される。
る。
【0015】出力部6は、モニタや、スピーカなどで構
成され、認識部5が出力する音声の認識結果を、モニタ
に表示したり、スピーカから出力するようになされてい
る。あるいは、また、出力部6は、認識部5の音声認識
結果に基づいて、図示せぬ装置を制御するようになされ
ている。
【0016】以上のように構成される音声認識装置で
は、入力部1に音声が入力されると、その音声は、電気
信号としての音声信号に変換され、さらに、必要に応じ
て増幅される。そして、入力部1では、その音声信号
が、例えば12kHzなどのクロックにしたがってサン
プリングされ(A/D変換され)、これにより、ディジ
タルの音声信号とされた後、音響分析部2に出力され
る。
【0017】音響分析部2では、入力部1からの音声信
号が音響分析され、その特徴量が抽出される。即ち、音
響分析部2では、例えば、音声信号のパワーやエネル
ギ、ゼロ交差数、ピッチ周波数などが抽出される。ある
いは、また、音声信号を、例えば線形予測分析すること
で、線形予測係数が求められ、さらに、その線形予測係
数に基づいて、ケプストラム係数などが求められる。ま
た、音声信号を、例えばFFT(Fast Fourier Transfo
rm)や、ウェーブレット(Wavelet)変換したり、複数
のBPF(Band Pass Filter)でなるフィルタバンクで
フィルタリングすることによって周波数分析することで
周波数帯域分割を行い、各帯域ごとのエネルギやパワー
が求められる。
【0018】音響分析部2においては、上述のような音
声の特徴量の抽出が、所定の微小間隔のフレームごと
に、そのフレームを、一部が隣接するフレームとオーバ
ラップするようにシフトしながら時系列に行われる。そ
して、音響分析部2で求められた音声の特徴量は、認識
部5に出力される。
【0019】なお、音響分析部2では、上述の音声の特
徴量のいずれか1つだけ求めるようにすることもできる
し、複数を求めるようにすることもできる。
【0020】さらに、音響分析部2には、以上のように
して求めた、あるフレームの音声の特徴量と、他のフレ
ームの特徴量との差分を求めさせ、これも元の特徴量と
あわせて出力させるようにすることができる。また、音
響分析部2には、上述のような音声の特徴量を、KL
(Karhunen-Loeve)変換させたり、あるいはニューラル
ネットワークを用いて適当な写像を施させることなどに
より、分離度のより大きな特徴量に変換させ、これを音
声の特徴量として出力させるようにすることもできる。
さらに、音響分析部2において、例えば各周波数帯域ご
とのエネルギなどを要素とするベクトルが、音声の特徴
量として求められる場合には、そのベクトルをベクトル
量子化するなどして圧縮し、これを出力するようにする
こともできる。
【0021】認識部5では、上述したように音声の特徴
量に対する、パラメータ記憶部3に記憶された認識用パ
ラメータのスコアが計算される。そして、そのスコアに
対応して、音声認識結果が求められ、出力部6に出力さ
れる。出力部6では、認識部5からの音声認識結果が、
例えばモニタに文字で表示され、また、スピーカから音
声で出力される。あるいは、その音声認識結果に基づい
て、所定の装置の制御が行われる。
【0022】なお、連続音声認識を行う場合には、パラ
メータ記憶部3に認識用パラメータの他、音声認識の対
象としている言語の文法や、単語の意味的な接続関係を
記述した規則も記憶させておくようにし、認識部5にお
いて、その規則に基づいて、単語の並びを制限しながら
音声認識結果が決定される。
【0023】
【発明が解決しようとする課題】ところで、以上のよう
な音声認識装置は、雑音(背景雑音)のない所で使用さ
れることはほとんどなく、通常は、雑音(背景雑音)の
ある環境下で使用される。従って、例えば防音室などで
得られた、背景雑音のない学習用の音声を用いて学習を
行い、その結果得られる認識用パラメータをパラメータ
記憶部3に記憶させたのでは、実際に音声認識装置が使
用される環境下において、背景雑音を含む音声の認識率
が低下することになる。
【0024】そこで、ある背景雑音のある環境下におい
て得られた学習用の音声を用いて学習を行い、これによ
り、音声の認識率の低下を防止する方法がある。しかし
ながら、背景雑音は、常に一定のものではなく、環境に
よって変化するため、学習用の音声に含まれる雑音と異
なる背景雑音がある環境下では、音声認識装置の認識性
能が劣化するのを防止することは困難であった。
【0025】即ち、音声認識アルゴリズムとして、例え
ばDPマッチングを採用した場合において、ある環境下
で発話された音声を用いて標準パターンを作成してお
き、その音声と同一の音声を、その環境と異なる背景雑
音の環境下で音声認識装置に入力したときには、その入
力された音声の特徴量は、標準パターンとは異なったも
のとなり、正確に認識されないことがあった。
【0026】また、例えばHMMを採用したした場合に
おいても、学習時と異なる雑音環境下で認識を行うとき
には、学習時における場合と同一の話者が、同一の音声
を発したとしても、大きく異なるシンボル系列が得られ
ることがあり、やはり、正確な音声の認識がなされない
課題があった。
【0027】本発明は、このような状況に鑑みてなされ
たものであり、様々な雑音環境下において生じる音声認
識装置の認識性能の劣化を防止(低減)し、これによ
り、良好な音声認識結果を得ることができるようにする
ものである。
【0028】
【課題を解決するための手段】請求項1に記載の音声認
識装置は、音声が有音声部のものであるか、または無音
声部のものであるかを判定する判定手段と、無音声部の
音声についての特徴量を、所定の特徴量に置き換える置
換手段とを備えることを特徴とする。
【0029】請求項10に記載の音声認識方法は、音声
が有音声部のものであるか、または無音声部のものであ
るかを判定し、無音声部の音声についての特徴量を、所
定の特徴量に置き換え、その置き換えの結果を用いて、
スコアを算出することを特徴とする。
【0030】請求項1に記載の音声認識装置において
は、判定手段は、音声が有音声部のものであるか、また
は無音声部のものであるかを判定し、置換手段は、無音
声部の音声についての特徴量を、所定の特徴量に置き換
えるようになされている。
【0031】請求項10に記載の音声認識方法において
は、音声が有音声部のものであるか、または無音声部の
ものであるかを判定し、無音声部の音声についての特徴
量を、所定の特徴量に置き換え、その置き換えの結果を
用いて、スコアを算出するようになされている。
【0032】
【発明の実施の形態】以下に、本発明の実施例を説明す
るが、その前に、特許請求の範囲に記載の発明の各手段
と以下の実施例との対応関係を明らかにするために、各
手段の後の括弧内に、対応する実施例(但し、一例)を
付加して、本発明の特徴を記述すると、次のようにな
る。
【0033】即ち、請求項1に記載の音声認識装置は、
入力された音声を音響分析し、その音声の特徴量を抽出
する抽出手段(例えば、図1に示す音響分析部2など)
と、音声の認識に用いる認識用パラメータを記憶してい
る記憶手段(例えば、図1に示すパラメータ記憶部3な
ど)と、特徴量に対する、認識用パラメータそれぞれの
スコアを算出し、そのスコアに基づいて、音声を認識す
る認識手段(例えば、図1に示す認識部5など)とを有
する音声認識装置であって、音声が有音声部のものであ
るか、または無音声部のものであるかを判定する判定手
段(例えば、図2に示す有音声部/無音声部判定部11
など)と、無音声部の音声についての特徴量を、所定の
特徴量に置き換える置換手段(例えば、図2に示す特徴
量変換部12など)とを備えることを特徴とする。
【0034】請求項7に記載の音声認識装置は、無音声
部の音声に基づいて、所定の基準スペクトルを更新する
更新手段(例えば、図3に示す背景雑音更新部24な
ど)をさらに備えることを特徴とする。
【0035】請求項10に記載の音声認識方法は、入力
された音声を音響分析し、その音声の特徴量を抽出する
抽出手段(例えば、図1に示す音響分析部2など)と、
音声の認識に用いる認識用パラメータを記憶している記
憶手段(例えば、図1に示すパラメータ記憶部3など)
と、特徴量に対する、認識用パラメータそれぞれのスコ
アを算出し、そのスコアに基づいて、音声を認識する認
識手段(例えば、図1に示す認識部5など)とを有する
音声認識装置の音声認識方法であって、音声が有音声部
のものであるか、または無音声部のものであるかを判定
し、無音声部の音声についての特徴量を、所定の特徴量
に置き換え、その置き換えの結果を用いて、スコアを算
出することを特徴とする。
【0036】なお、勿論この記載は、各手段を上記した
ものに限定することを意味するものではない。
【0037】図1は、本発明を適用した音声認識装置の
一実施例の構成を示している。なお、図中、図7におけ
る場合と対応する部分については、同一の符号を付して
あり、以下では、その説明は、適宜省略する。即ち、こ
の音声認識装置は、音響分析部2と認識部5との間に、
環境適応処理部4が設けられている他は、図7の音声認
識装置と同様に構成されている。
【0038】環境適応処理部4は、入力部1が出力する
音声信号に基づいて、音声が有音声部のものであるか、
または無音声部のものであるかを判定し、音響分析部2
が出力する音声の特徴量のうち、無音声部の音声につい
ての特徴量を、所定の特徴量に置き換えるようになされ
ている。
【0039】即ち、入力部1から出力される音声信号の
うち、例えば背景雑音のパワーより充分大きなパワーを
有する部分などは、背景雑音の影響をそれほど受けるこ
とがなく、従って、このような部分については、背景雑
音が変化しても、ほぼ同一の特徴量を得ることができ
る。一方、例えば背景雑音のパワーより充分大きなパワ
ーを有しない部分などは、背景雑音の影響を受け易く、
従って、背景雑音が異なれば、その特徴量も異なるもの
となる。特に、パワーがゼロの部分(音声区間でない部
分や、破裂音における無音の部分)については、背景雑
音の変化が、そのまま、音響分析部2で求められる特徴
量の変化として現れる。このような部分の特徴量の変化
が、認識部3において算出されるスコア(例えば、HM
Mにおける生起確率や、DPマッチングにおけるテンプ
レートとの距離など)に大きな影響を与え、これにより
認識性能が劣化する。
【0040】そこで、環境適応処理部4では、音声(真
の音声の他、雑音も含むもの)が、真の音声についての
特徴量を抽出可能な部分である有音声部のものである
か、または真の音声についての特徴量の抽出が困難な部
分である無音声部のものであるかが判定され、音響分析
部2が出力する音声の特徴量のうち、無音声部について
の特徴量が、異なる背景雑音の環境下において同一の音
声認識結果が得られるような特徴量に置換され、その置
換後の特徴量が認識部5に出力されるようになされてい
る。
【0041】具体的には、環境適応処理部4において
は、無音声部についての特徴量は、例えば学習時に用い
た学習用の音声の無音声部から得られる特徴量や、無音
声部に対する認識用パラメータのスコアがすべて同一に
なるような特徴量などに置き換えられるようになされて
いる。
【0042】次に、その動作について説明する。なお、
ここでは、認識部5において、例えばHMMにより音声
認識が行われるものとする。従って、パラメータ記憶部
3には、確率モデルを規定する遷移確率とシンボル出力
確率とが、あらかじめ学習により求められて記憶されて
いるものとする。
【0043】入力部1に音声が入力されると、その音声
は、前述したように、ディジタル信号の音声信号とさ
れ、音響分析部2および環境適応処理部4に出力され
る。音響分析部2では、入力部1からの音声信号が、例
えば周波数分析されることによって、各周波数帯域ごと
のパワーを要素とするベクトル(特徴ベクトル)とさ
れ、さらに、この特徴ベクトルが、あらかじめ生成され
たコードブックに基づいてベクトル量子化されること
で、シンボルとされる。音響分析部2においては、以上
のような処理がフレーム単位で行われ、これにより、シ
ンボルが時系列に環境適応処理部4に出力される。
【0044】環境適応処理部4は、例えば図2に示すよ
うに有音声部/無音声部判定部11と特徴量変換部12
とで構成されている。有音声部/無音声部判定部11で
は、入力部1からの音声信号に基づいて、音響分析部2
が出力する音声の特徴量としてのシンボルが、有音声部
または無音声部のうちのいずれのものであるかが判定さ
れ、その判定結果が特徴量変換部12に供給される。特
徴量変換部12では、音響分析部2が出力するシンボル
系列のうち、有音声部/無音声部判定部11において無
音声部であると判定されたフレームにおけるシンボル
が、所定のシンボルに変換される。
【0045】即ち、例えば、学習時において学習用の音
声から得られるシンボルのうち、学習用の音声の無音声
部についてのシンボル(従って、学習用の音声が発話さ
れた環境における背景雑音から得られるシンボル)(そ
のようなシンボルは、通常、複数個存在するので、その
場合には、例えばその出現頻度が最も高いシンボル)を
あらかじめ求めておき、そのシンボルに、有音声部/無
音声部判定部11において無音声部であると判定された
フレームにおけるシンボルが、特徴量変換部12におい
て置き換えられる。
【0046】あるいは、また、音響分析部2におけるベ
クトル量子化の結果得られるシンボル以外に、特別なシ
ンボルを決めておくとともに、そのシンボルのシンボル
出力確率を、すべての確率モデルについて同一にしてお
き、そのシンボルに、有音声部/無音声部判定部11に
おいて無音声部であると判定されたフレームにおけるシ
ンボルが、特徴量変換部12において置き換えられる。
【0047】特徴量変換部12において置き換えのなさ
れたシンボル系列は認識部5に出力され、認識部5で
は、スコアとして、そのシンボル系列についての生起確
率が、例えば前向きパスアルゴリズムやビタビ(Viterb
i)アルゴリズムなどにしたがって計算される。そし
て、そのスコアに基づいて、入力部1に入力された音声
の認識結果が決定され、出力部6を介して出力される。
【0048】なお、例えば、音響分析部2において、入
力部1に入力された音声の各周波数帯域ごとのパワーを
要素とするベクトル(特徴ベクトル)を求め、これを特
徴量として、認識部5において、例えばDPマッチング
により音声認識を行う場合には、学習時において学習用
の音声から得られる特徴ベクトルのうち、学習用の音声
の無音声部についての特徴ベクトル(従って、学習用の
音声が発話された環境における背景雑音から得られる特
徴ベクトル)(そのような特徴ベクトルは、通常、複数
種類存在するので、その場合には、例えばその平均値
(平均ベクトル)など)をあらかじめ求めておき、その
特徴ベクトルに、有音声部/無音声部判定部11におい
て無音声部であると判定されたフレームにおける特徴ベ
クトルを置き換えるようにすれば良い。
【0049】あるいは、また、パラメータ記憶部2に記
憶されているテンプレートすべてから等距離にある特徴
ベクトルを求めておき、その特徴ベクトルに、有音声部
/無音声部判定部11において無音声部であると判定さ
れたフレームにおける特徴ベクトルを置き換えるように
することもできる。
【0050】以上のように、無音声部についての特徴量
を置換することで、背景雑音によってスコアは影響を受
けなくなり(スコアに対する背景雑音の影響力が低減さ
れ)、その結果、異なる背景雑音の下で、同一の音声認
識結果が得られるようになる。即ち、音声認識装置の認
識性能の低下を防止(低減)することができる。
【0051】なお、上述の場合においては、環境適応処
理部4において、無音声部についての特徴量を、所定の
特徴量に置き換えて、認識部5に出力するようにした
が、その他、例えば環境適応処理部4においては、音声
の特徴量とともに、それが、無音声部または有音声部の
うちのいずれのものであるかの判定結果を、認識部5に
出力するようにし、認識部5において、無音声部である
と判定された部分については、シンボル出力確率が、す
べての確率モデルにおいて等確率であるとみなして、あ
るいは、テンプレートそれぞれとの距離が、すべて等距
離であるとみなして、スコアの計算を行うようにするこ
とも可能である。この場合、環境適応処理部4では、無
音声部についての特徴量が、いわば仮想的に所定の特徴
量に置き換えられ、認識部5に出力されるということが
できる。
【0052】次に、図3は、図2の有音声部/無音声部
判定部11の構成例を示している。周波数分析部21
は、入力部1からの音声信号を周波数分析し、そのスペ
クトルを表す、例えば各周波数帯域ごとのパワー(エネ
ルギ)を要素とするベクトル(以下、適宜、入力スペク
トルという)を、判定部22および背景雑音更新部24
に出力するようになされている。
【0053】判定部22は、背景雑音記憶部23に記憶
されている、背景雑音を周波数分析することにより得ら
れる、例えば各周波数帯域ごとのパワー(エネルギ)を
要素とするベクトルの平均値(以下、適宜、雑音スペク
トルという)(所定の基準スペクトル)と、周波数分析
部21からの入力スペクトルとの距離を求め、その距離
と、所定の閾値とを比較するようになされている。さら
に、判定部22は、その比較結果に基づいて、入力部1
からの音声信号が、有音声部または無音声部のうちのい
ずれのものであるかを判定し、その判定結果を、特徴量
変換部12および背景雑音更新部24に出力するように
なされている。
【0054】背景雑音記憶部23には、後述するように
して求められた現在の環境における背景雑音についての
雑音スペクトルが記憶される。背景雑音更新部24は、
判定部22から、入力部1に入力された音声が、無音声
部のものであるという判定結果を受信した場合、そのと
き周波数分析部21から供給される入力スペクトルに基
づいて、背景雑音記憶部23に記憶されている雑音スペ
クトルを更新するようになされている。これにより、背
景雑音記憶部23には、常時、現在の環境における背景
雑音についての雑音スペクトルが記憶されるようになさ
れている。
【0055】次に、周波数分析部21および判定部22
の動作について、図4のフローチャートを参照して説明
する。まず最初に、ステップS1において、入力部1か
らの音声信号が、周波数分析部21によってフレーム単
位で周波数分析され、これにより、入力スペクトルが求
められる。
【0056】ここで、周波数分析部21では、例えばフ
ィルタバンクを用いて音声信号がフィルタリングされた
り、あるいは、また、音声信号をFFTすることによっ
てその振幅特性を計算することにより、各周波数帯域ご
とのパワー(エネルギ)が求められる。入力スペクトル
は、この各周波数帯域ごとのパワーを要素とするベクト
ルであるから、例えば、いま、周波数分析部21におい
て、N個の周波数帯域のパワーが求められるとすると、
時刻tにおいては、次式で表されるN次元のベクトルが
入力スペクトルXtとして求められる。
【0057】 Xt=[x1,t,x2,t,・・・,xN,tT ・・・(1) 但し、xi,tは、時刻tにおける音声信号の第i周波数
帯域のパワーを表す。従って、xi,tについては、式 xi,t≧0 ・・・(2) が成立する。また、式(1)において、上付きのTは、
転置を表す。
【0058】なお、図1の音響分析部1において、音声
の特徴量として、入力部1が出力する信号の各周波数帯
域ごとのパワーが求められる場合には、それを、入力ス
ペクトルとして用いることができる。この場合、有音声
部/無音声部判定部11には、周波数分析部21を設け
る必要がなくなり、装置の簡素化を図ることができる。
【0059】ステップS1で算出された入力スペクトル
tは、判定部22および背景雑音更新部24に出力さ
れる。判定部22では、周波数分析部21から入力スペ
クトルXtを受信すると、ステップS2において、その
入力スペクトルXtと、背景雑音記憶部33に記憶され
ている雑音スペクトルとの距離εが算出される。
【0060】ここで、雑音スペクトルをベクトルVを、
式(1)の入力スペクトルXtと同様に、次式で表す。 V=[v1,v2,・・・,vNT ・・・(3) 但し、viは、背景雑音の第i周波数帯域のパワーを表
す。
【0061】この場合、ステップS2においては、入力
スペクトルXtと雑音スペクトルVとの距離εが、例え
ば式(4)や式(5)にしたがって算出される。
【0062】
【数1】 ・・・(4)
【数2】 ・・・(5)
【0063】そして、ステップS3に進み、入力スペク
トルXtと雑音スペクトルVとの距離εが、所定の閾値
1より大きいか否か(所定の閾値r1以上か否か)が、
判定部22によって判定される。ステップS3におい
て、入力スペクトルXtと雑音スペクトルVとの距離ε
が、所定の閾値r1より大きいと判定された場合、即
ち、式 ε>r1 ・・・(6) を満たす場合、ステップS4に進み、入力部1に入力さ
れた音声が、有音声部のものである旨が、判定部22よ
り出力され、処理を終了する。また、ステップS3にお
いて、入力スペクトルXtと雑音スペクトルVとの距離
εが、所定の閾値r1より大きくないと判定された場
合、ステップS5に進み、入力部1に入力された音声
が、無音声部のものである旨が、判定部22より出力さ
れ、処理を終了する。
【0064】背景雑音は、前述したように、環境が異な
れば変化するが、ある短い時間(例えば、フレームに相
当する時間など)に着目すれば、その周波数特性は、そ
れほど大きく変動しない場合が多い。従って、入力部1
から出力される信号が、背景雑音のみを含む場合、ある
いは、背景雑音でそのほとんどが占められるものである
場合、即ち、無音声部の信号である場合、その信号から
得られる入力スペクトルXtと、背景雑音記憶部23に
記憶されている周波数スペクトルVとは、それほど異な
るものにはならない。これに対し、入力部1から出力さ
れる信号が、無音声部の信号から、真の音声でそのほと
んどが占められるもの、即ち、有音声部の信号に変化し
た場合、その信号の周波数特性は大きく変動する。即
ち、その信号から得られる入力スペクトルXtと、背景
雑音記憶部23に記憶されている周波数スペクトルVと
は、大きく異なるものとなる。
【0065】判定部22では、この点に着目し、上述し
たように、入力スペクトルXtと雑音スペクトルVとの
距離εが所定の閾値r1より大きいか否かで、入力部1
から出力される信号が、有音声部または無音声部のうち
のいずれの信号であるが判定される。
【0066】なお、入力スペクトルXtと雑音スペクト
ルVとの距離εとしては、上述した式(4)や(5)に
したがって求められるものの他、例えば分散を考慮した
マハラノビス(Mahalanobis)距離などを用いるように
することも可能である。
【0067】また、閾値r1は、例えば実験などによっ
て求めるようにすることができる。さらに、この閾値r
1は固定値とすることもできるし、また、必要に応じて
変化させるようにすることもできる。閾値r1を可変と
する場合は、例えば次のようにして変化させることがで
きる。
【0068】即ち、例えば、背景雑音記憶部23に記憶
されている雑音スペクトルVの大きさ|V|を求め、こ
の|V|にしたがって、閾値r1を変化させるようにす
ることができる。また、例えば、背景雑音記憶部23に
記憶されている雑音スペクトルVを、後述するようにし
て更新する際に、その共分散行列Σを求めるようにし、
その行列式|Σ|や、トレースtr(Σ)にしたがっ
て、閾値r1を変化させるようにすることなどもでき
る。
【0069】ある変数xにしたがって、閾値r1を変化
させる方法としては、例えば次式にしたがって、閾値r
1を、変数xに比例させる方法などがある。
【0070】 r1=ax+b ・・・(7) 但し、a,bは所定の定数であり、例えば実験などによ
り求めるようにすることができる。
【0071】なお、式(7)などにしたがって、閾値r
1を変化させる場合には、その上限値rmaxと下限値r
minとを設定しておき、その範囲内で変化させるように
するのが望ましい。ここで、閾値r1を、上限値rmax
下限値rminを設定して、式(7)にしたがって変化さ
せる場合の、変数xと閾値r1との関係を、図5に示
す。
【0072】また、閾値r1は、1つの変数xにしたが
って変化させるのではなく、例えば雑音スペクトルV
と、その共分散行列Σなどの2以上の変数にしたがって
変化させるようにすることも可能である。この場合、所
定の関数をf()と表すとすると、閾値r1は、次式に
したがって変更されることになる。 r1=f(V,Σ) ・・・(8)
【0073】さらに、上述の場合においては、有音声部
/無音声部判定部11を、図3に示したように構成し、
入力スペクトルXtと雑音スペクトルVとの距離εに基
づいて、有音声部と無音声部とを識別するようにした
が、この有音声部と無音声部との識別は、例えば、次の
ようにして、有音声部/無音声部判定部11に行わせる
ようにすることも可能である。
【0074】即ち、例えば、有音声部または無音声部そ
れぞれのエネルギ(パワー)が大きいまたは小さいこと
に着目し、入力部1から出力された信号のエネルギ(パ
ワー)を求め、そのエネルギに基づいて、有音声部と無
音声部との識別を行うようにすることができる。具体的
には、入力部1から出力された信号のエネルギeを、例
えば式(9)にしたがって求め、そのエネルギeが式
(10)を満たすかどうかで、有音声部と無音声部との
識別を行うようにする。
【0075】
【数3】 ・・・(9)
【0076】 e>r2 ・・・(10) 但し、r2は、実験などによって求められる所定の閾値
である。
【0077】そして、エネルギeが式(10)を満たす
場合、または満たさない場合、入力部1から出力された
信号は、それぞれ有音声部または無音声部の信号と判定
(識別)するようにする。
【0078】なお、閾値r2は、閾値r1における場合と
同様に、例えば雑音スペクトルの大きさや共分散などに
したがって変化させるようにすることが可能である。ま
た、入力部1から出力された信号のエネルギeは、式
(9)にしたがって、その周波数特性から求める他、そ
の信号の振幅値(入力部1におけるA/D変換の結果得
られる音声信号のサンプル値そのもの)から求めるよう
にすることもできる。
【0079】さらに、有音声部と無音声部との識別は、
その他、例えば、次のようにして、有音声部/無音声部
判定部11に行わせるようにすることもできる。即ち、
入力部1から出力される信号の符号が反転する回数(正
から負になる回数および負から正になる回数)、つまり
ゼロ交差数を、所定の単位時間ごとにカウントし、その
単位時間あたりのゼロ交差数であるゼロ交差速度zを求
め、このゼロ交差速度zが式(11)を満たすかどうか
で、有音声部と無音声部との識別を行うようにする。
【0080】 z>r3 ・・・(11) 但し、r3は、実験などによって求められる所定の閾値
である。
【0081】この場合、ゼロ交差速度zが、式(11)
を満たすとき、または満たさないとき、例えば入力部1
から出力された信号は、それぞれ有音声部または無音声
部の信号と判定(識別)するようにする。
【0082】また、有音声部と無音声部との識別は、以
上の方法を複数組み合わせて行ったり、さらに、その他
の方法を用いて行うことも可能である。
【0083】次に、図6のフローチャートを参照して、
図3の背景雑音更新部24の動作について説明する。背
景雑音更新部24では、まず最初に、ステップS11に
おいて、入力部1から出力された信号が、有音声部また
は無音声部のうちのいずれの信号であるかが、判定部2
2の判定結果に基づいて判定される。ステップS11に
おいて、入力部1から出力された信号が、無音声部の信
号であると判定された場合、ステップS12に進み、背
景雑音記憶部23に記憶されている雑音スペクトルVが
更新される。
【0084】即ち、ステップS12では、背景雑音記憶
部23に記憶されている雑音スペクトルVが、入力部1
から出力された無音声部の信号が周波数分析部21で周
波数分析されることにより得られる入力スペクトルXt
を用い、例えば次式にしたがって更新される。
【0085】 V=α1V+β1t ・・・(12) 但し、α1,β1は、所定の重み係数であり、式 α1+β1=1.0 ・・・(13) を満たすように(例えばα1=0.95,β1=0.05
などのように)、あらかじめ設定されている。
【0086】なお、背景雑音記憶部23に記憶されてい
る雑音スペクトルVを大きく変化させたくない場合に
は、α1を大きな値に設定し、また、背景雑音記憶部2
3に記憶された雑音スペクトルVを、現在の環境に、よ
り迅速に追従させたい場合には、β1を大きな値に設定
すれば良い。背景雑音記憶部23に記憶された雑音スペ
クトルVを、現在の環境に、即座に対応させるには、極
端には、α1=0,β1=1とすれば良いが、このように
すると、判定部22において、有音声部が、無音声部と
誤って認識された場合には、その有音声部から得られる
入力スペクトルが、現在の環境下における背景雑音の雑
音スペクトルとされることとなり、好ましくない。従っ
て、β1はあまり大きな値にしない方が望ましい(α1
あまり小さな値としない方が望ましい)。
【0087】また、図4で説明した閾値r1を、上述し
たように、雑音スペクトルVの共分散行列Σを用いて変
化させる場合には、ステップS12では、雑音スペクト
ルVの更新後、その共分散行列Σも、入力部1から出力
された無音声部の信号が周波数分析部21で周波数分析
されることにより得られる入力スペクトルXtを用い、
例えば次式にしたがって更新される。
【0088】 Σ=α2Σ+β2(V−Xt)(V−XtT ・・・(14) 但し、α2,β2は、所定の重み係数であり、式 α2+β2=1.0 ・・・(15) を満たすように、あらかじめ設定されている。
【0089】なお、以上においては、入力部1から出力
された信号が、無音声部の信号であると判定されたとき
に、その無音声部の信号が周波数分析部21で周波数分
析されることにより得られる入力スペクトルXtのみを
用いて、雑音スペクトルVやその共分散行列Σを更新す
るようにしたが、雑音スペクトルVやその共分散行列Σ
の更新は、その他、例えば、入力部1から出力された信
号が、無音声部の信号であると判定されたときに得られ
る無音声部の信号の入力スペクトルを、最新のものから
M個だけ記憶しておくようにし、そのM個の入力スペク
トルを用いて行うようにすることなども可能である。即
ち、例えば、そのM個の入力スペクトルの平均値を、雑
音スペクトルVの更新値とすることなどが可能である。
【0090】ここで、雑音スペクトルVの更新は、判定
部22の判定結果に基づいて行われる。また、判定部2
2における有音声部か、または無音声部かの判定は、雑
音スペクトルVを用いて行われる。従って、時刻tにお
ける判定部22の判定は、時刻t−1までに更新された
雑音スペクトルVを用いて行われることになる。なお、
背景雑音記憶部23には、初期値として、例えば学習時
における背景雑音の周波数分析結果を記憶させておくよ
うにする。
【0091】ステップS12の処理後は、入力部1から
出力された信号が、有音声部の信号であると連続して判
定された回数をカウントする変数dが、例えば0にリセ
ットされ、ステップS11に戻る。
【0092】一方、ステップS11において、入力部1
から出力された信号が、有音声部の信号であると判定さ
れた場合、ステップS14に進み、変数dが1だけイン
クリメントされ、ステップS15に進む。ステップS1
5では、変数dが、所定値dmaxより大きいか否かが判
定され、大きくないと判定された場合、ステップS11
に戻る。従って、入力部1から出力された信号が無音声
部の信号、即ち、背景雑音である場合だけ、その背景雑
音を用いて、背景雑音記憶部23の記憶値が更新され
る。
【0093】また、ステップS15において、変数d
が、所定値dmaxより大きいと判定された場合、即ち、
入力部1から出力された信号が、有音声部の信号である
と、所定の時間(所定値dmaxに対応する時間)連続し
て判定された場合、ステップS12に進み、上述したよ
うに、背景雑音記憶部23に記憶されている雑音スペク
トルV、および必要に応じてその共分散行列Σが更新さ
れる。
【0094】このように、入力部1から出力された信号
が、有音声部の信号であると、所定の時間連続して判定
された場合に、背景雑音記憶部23に記憶されている雑
音スペクトルVや共分散行列Σの更新を行うのは次のよ
うな理由による。
【0095】即ち、実際の音声が入力されていないのに
も拘らず、例えば、装置を使用する環境が、比較的雑音
の少ない環境から、雑音の多い環境に急に変化した場合
には、判定部22において、雑音が有音声部と誤って判
定される可能性があり、この場合、背景雑音記憶部23
に記憶されている雑音スペクトルVの更新が行われない
ため、その後も、雑音が有音声部と誤って判定され続け
ることになる。
【0096】そこで、このような環境の急激な変化があ
った場合に、雑音スペクトルVの更新がされない状態が
続くことを防止するために、入力部1から出力された信
号が、有音声部の信号であると、所定の時間連続して判
定された場合には、いわば強制的に、背景雑音記憶部2
3に記憶されている雑音スペクトルVが更新されるよう
になされている。
【0097】なお、無音声部を挿入することなく行うこ
とのできる発話の最長時間は、例えば統計をとることな
どによって推定することができるから、上述の所定の時
間は、そのような最長時間以上に設定するようにすれば
良い。
【0098】以上、本発明を適用した音声認識装置につ
いて説明したが、このような音声認識装置は、例えばカ
ーナビゲーションその他の装置の制御を、キーボードな
どの操作に代えて音声によって行う場合に用いたり、ま
た、ロボットその他のインタラクティブなシステムとユ
ーザとの間のインターフェイスなどとして用いることが
可能である。
【0099】なお、本実施例では、入力部1から出力さ
れた信号が無音声部の信号と判定された場合には、常に
その無音声部についての特徴量を置換するようにした
が、装置の使用環境が、学習時における環境と同一の場
合や似ている場合には、入力部1から出力された信号が
無音声部の信号と判定されたときでも、その無音声部に
ついての特徴量の置換を行わず、そのまま認識に用いる
ようにすることが可能である。これは、学習時における
背景雑音のスペクトルを保持しておき、このスペクトル
が、無音声部と判定された信号のスペクトルと同一また
は類似の場合には、その特徴量を置換しないようにする
ことで行うことができる。
【0100】また、本実施例においては、有音声部また
は無音声部のいずれであるかを判定する場合と、音声の
認識を行う場合とで、同一の特徴量(本実施例では、上
述したように、周波数帯域分割された各帯域のエネルギ
を要素とするベクトル)を用いるようにしたが、有音声
部または無音声部のいずれであるかの判定と、音声の認
識とを行う場合では、異なる特徴量を用いることが可能
である。
【0101】さらに、本実施例では、HMMによる音声
認識を行う場合、シンボル出力確率に着目して、無音声
部のシンボルと置き換えるシンボルのシンボル出力確率
を、すべての確率モデルで同一になるようにしたが、シ
ンボル出力確率だけでなく、状態遷移確率についても、
何らかの処理を施すようにすることが可能である。
【0102】また、本発明は、孤立単語音声認識装置の
他、連続音声認識装置などにも適用可能である。
【0103】
【発明の効果】請求項1に記載の音声認識装置および請
求項10に記載の音声認識方法によれば、音声が有音声
部のものであるか、または無音声部のものであるかが判
定され、無音声部の音声についての特徴量が、所定の特
徴量に置き換えらえる。そして、その置き換えの結果を
用いて、スコアが算出される。従って、学習時における
雑音環境と異なる雑音環境下において、良好な音声認識
結果を得ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施例の構
成を示すブロック図である。
【図2】図1の環境適応処理部4の構成例を示すブロッ
ク図である。
【図3】図2の有音声部/無音声部判定部11の構成例
を示すブロック図である。
【図4】図3の周波数分析部21および判定部22の動
作を説明するためのフローチャートである。
【図5】変数xと閾値r1との関係を示す図である。
【図6】図3の背景雑音更新部24の動作を説明するた
めのフローチャートである。
【図7】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【符号の説明】
1 入力部 2 音響分析部 3 パラメータ記憶部 4 環境適応処理部 5 認識部 6 出力部 11 有音声部/無音声部判定部 12 特徴量変換部 21 周波数分析部 22 判定部 23 背景雑音記憶部 24 背景雑音更新部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を音響分析し、その音声
    の特徴量を抽出する抽出手段と、 前記音声の認識に用いる認識用パラメータを記憶してい
    る記憶手段と、 前記特徴量に対する、前記認識用パラメータそれぞれの
    スコアを算出し、そのスコアに基づいて、前記音声を認
    識する認識手段とを有する音声認識装置であって、 前記音声が有音声部のものであるか、または無音声部の
    ものであるかを判定する判定手段と、 前記無音声部の音声についての前記特徴量を、所定の特
    徴量に置き換える置換手段とを備えることを特徴とする
    音声認識装置。
  2. 【請求項2】 前記置換手段は、前記無音声部の音声に
    ついての前記特徴量を、前記記憶手段に記憶されている
    前記認識用パラメータを求めるときに用いた音声の無音
    声部から得られる特徴量に置き換えることを特徴とする
    請求項1に記載の音声認識装置。
  3. 【請求項3】 前記置換手段は、前記無音声部の音声に
    ついての前記特徴量を、その無音声部に対する、前記認
    識用パラメータの前記スコアすべてが同一になるような
    特徴量に置き換えることを特徴とする請求項1に記載の
    音声認識装置。
  4. 【請求項4】 前記判定手段は、 前記音声のエネルギまたはパワーを求め、 そのエネルギまたはパワーに基づいて、前記音声が有音
    声部のものであるか、または無音声部のものであるかを
    判定することを特徴とする請求項1に記載の音声認識装
    置。
  5. 【請求項5】 前記判定手段は、 単位時間あたりの前記音声のゼロ交差数であるゼロ交差
    速度を求め、 そのゼロ交差速度に基づいて、前記音声が有音声部のも
    のであるか、または無音声部のものであるかを判定する
    ことを特徴とする請求項1に記載の音声認識装置。
  6. 【請求項6】 前記判定手段は、 前記音声を周波数分析し、 その結果得られる前記音声のスペクトルと、所定の基準
    スペクトルとの距離を求め、 その距離を、所定の閾値と比較し、 その比較結果に基づいて、前記音声が有音声部のもので
    あるか、または無音声部のものであるかを判定すること
    を特徴とする請求項1に記載の音声認識装置。
  7. 【請求項7】 前記無音声部の音声に基づいて、前記所
    定の基準スペクトルを更新する更新手段をさらに備える
    ことを特徴とする請求項6に記載の音声認識装置。
  8. 【請求項8】 前記判定手段は、前記更新手段により更
    新された前記所定の基準スペクトルに基づいて、前記所
    定の閾値を変更することを特徴とする請求項7に記載の
    音声認識装置。
  9. 【請求項9】 前記更新手段は、前記判定手段により前
    記音声が有音声部のものであると、所定の時間以上連続
    して判定された場合、前記所定の基準スペクトルを更新
    することを特徴とする請求項7に記載の音声認識装置。
  10. 【請求項10】 入力された音声を音響分析し、その音
    声の特徴量を抽出する抽出手段と、 前記音声の認識に用いる認識用パラメータを記憶してい
    る記憶手段と、 前記特徴量に対する、前記認識用パラメータそれぞれの
    スコアを算出し、そのスコアに基づいて、前記音声を認
    識する認識手段とを有する音声認識装置の音声認識方法
    であって、 前記音声が有音声部のものであるか、または無音声部の
    ものであるかを判定し、 前記無音声部の音声についての前記特徴量を、所定の特
    徴量に置き換え、 その置き換えの結果を用いて、前記スコアを算出するこ
    とを特徴とする音声認識方法。
JP7316747A 1995-12-05 1995-12-05 音声認識装置および音声認識方法 Pending JPH09160585A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7316747A JPH09160585A (ja) 1995-12-05 1995-12-05 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7316747A JPH09160585A (ja) 1995-12-05 1995-12-05 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JPH09160585A true JPH09160585A (ja) 1997-06-20

Family

ID=18080468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7316747A Pending JPH09160585A (ja) 1995-12-05 1995-12-05 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JPH09160585A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100770895B1 (ko) * 2006-03-18 2007-10-26 삼성전자주식회사 음성 신호 분리 시스템 및 그 방법
US7809555B2 (en) 2006-03-18 2010-10-05 Samsung Electronics Co., Ltd Speech signal classification system and method
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
US6950796B2 (en) Speech recognition by dynamical noise model adaptation
EP1355296B1 (en) Keyword detection in a speech signal
US6553342B1 (en) Tone based speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US4991216A (en) Method for speech recognition
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
EP1376537B1 (en) Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP3493849B2 (ja) 音声認識装置
JPH09160585A (ja) 音声認識装置および音声認識方法
Trivedi A survey on English digit speech recognition using HMM
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR100322731B1 (ko) 음성인식방법및이에적합한음성패턴의시간정규화방법
Khalifa et al. Statistical modeling for speech recognition
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JP2658426B2 (ja) 音声認識方法
JP3357752B2 (ja) パターンマッチング装置
MY et al. Vowel recognition using first formant feature
JP2003295887A (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031210