JP2002099296A - 音声認識装置および音声認識方法、並びに、プログラム記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに、プログラム記録媒体

Info

Publication number
JP2002099296A
JP2002099296A JP2000287163A JP2000287163A JP2002099296A JP 2002099296 A JP2002099296 A JP 2002099296A JP 2000287163 A JP2000287163 A JP 2000287163A JP 2000287163 A JP2000287163 A JP 2000287163A JP 2002099296 A JP2002099296 A JP 2002099296A
Authority
JP
Japan
Prior art keywords
noise
input
speech
comb
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000287163A
Other languages
English (en)
Inventor
Koichi Yamaguchi
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000287163A priority Critical patent/JP2002099296A/ja
Publication of JP2002099296A publication Critical patent/JP2002099296A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力音声に櫛形雑音が重畳されていても高い
認識率を維持する。 【解決手段】 雑音判定部3は、入力音声信号中におけ
る櫛形雑音の有無を判定して判定結果を雑音除去部2に
出力する。雑音除去部2は、判定結果に応じて、入力音
声信号に櫛形雑音が重畳されている場合には、入力音声
信号をノッチフィルタ群に通して重畳されている櫛形雑
音を除去する。こうして、各音韻のスペクトルが雑音の
スペクトルの方向にシフトすることを無くして、高い認
識率を維持する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力音声に定常
的な電気的雑音または機械的雑音が重畳されていても高
い認識率を維持できる音声認識装置および音声認識方
法、並びに、音声認識処理プログラムを記録したプログ
ラム記録媒体に関する。
【0002】
【従来の技術】音声認識装置おいては、クリーンな環境
では高い認識率を得ることができるのであるが、実使用
時においては認識率が劣化してしまうことが多々生ず
る。上記実使用時における認識率の劣化の主要因の一つ
は雑音であり、雑音に対する対策が重要な課題となって
いる。これまでに多くの雑音対策の研究がなされてきて
おり、SS(スペクトルサブトラクション)やHMM合成
(PMC:Parallel ModelCombination)および騒音重畳
学習等がある。
【0003】一方、隠れマルコフモデル(Hidden Markov
Model:以下、HMMと言う)を用いた音声認識方法の
開発が近年盛んに行われている。このHMMは、大量の
音声データから得られる音声の統計的特徴を確率的にモ
デル化したものであり、このHMMを用いた音声認識方
法の詳細は、中川聖一著「確率モデルによる音声認識」
(電子情報通信学会)に詳しい。不特定話者音声認識装置
の場合には、上述のような雑音対策手法はこのHMMと
組み合わせて用いられることが多い。また、特定話者音
声認識装置の場合は、主としてSSと組み合わせて用い
られる。
【0004】ところで、ノートパソコンにおいては、内
蔵マイクが液晶表示画面およびその駆動回路と近い距離
に位置しているため、液晶表示画面のリフレッシュに由
来するスペクトル上の鋭いピークを持つ雑音(櫛形雑音)
が多数発生する。その結果、この櫛形雑音が一種の重畳
雑音となって認識率の劣化を招く。これに対して、外部
マイク(または外付けマイク)は櫛形雑音の影響を受け難
い。したがって、異なる入力系統に対して雑音対策が可
能なようにしておく必要がある。このように、異なる入
力系統に対する音声認識方法として、以下のようなもの
が提案されている。
【0005】先ず、上記内蔵マイク用に最適化された認
識エンジンと上記外部マイク用に最適化された認識エン
ジンとを用意しておき、内蔵マイクからの入力と外部マ
イクからの入力との入力系統に応じて認識エンジンを切
り換える方法がある。こうすれば、最良の認識性能を得
ることができる。
【0006】また、特開平10‐63293号公報にお
いては、電話回線の違いに由来する周波数特性の差を補
償すべく、周波数特性の異なる複数組の音響モデルを用
意しておく。そして、回線接続情報等から何れの電話回
線を経由したかを検知して、経由した回線特性に対応し
た組の音響モデルに切り換え、当該音響モデルを用いて
認識処理を行うのである。こうすることによって、回線
の状況に影響を受けることなく高い認識性能を維持でき
るとしている。
【0007】また、特開2000‐75889号公報に
おいては、騒音の種類やレベルの異なる複数組の音響モ
デルを用意し、各々の組の音響モデルを独立して用いて
音声認識処理を行なう。そして、総ての音響モデルに対
して最も大きいスコアを出力した単語を認識結果とする
ようにしている。種々の騒音に対応した複数組の音響モ
デルを独立して用いて認識処理させることによって、騒
音環境が様々に変化してもそれに追従して、常に良好な
認識性能を得ることができるとしている。
【0008】また、特開平6‐130990号公報はマ
イクが複数ある場合の例であり、複数のマイクからの出
力された音声信号のパワーを用いて何れのマイクから入
力されたのかを判定する。そして、判定された入力系統
に応じて認識対象語彙を選択する。その際に、照合方式
は変えないようにしている。
【0009】
【発明が解決しようとする課題】しかしながら、上記従
来の音声認識時の雑音対策手法および異なる入力系統に
対する音声認識方法には、以下のような問題がある。
【0010】先ず、上記SSやPMCおよび騒音重畳学
習等の雑音対策手法においては、騒音(つまり、環境雑
音)への対策が主であり、比較的なだらかな周波数特性
を対象としているため周波数分解能が粗い。したがっ
て、ノートパソコンの内蔵マイクに多発する櫛形雑音の
ように、周波数軸上に鋭いピークを持つ雑音に対しては
うまく対処ことができない。すなわち、従来の雑音対策
の研究では、装置自体が発生する電気的雑音や機械的雑
音の対策に関しては検討されていないのである。
【0011】一般に、雑音が重畳すると各音韻のスペク
トルが雑音のスペクトルの方向にシフトするので各音韻
間の距離が小さくなる。その結果、単語間の距離も小さ
くなり認識率の低下を招く。したがって、音響モデルに
騒音を重畳させる上記PMCや騒音重畳学習の場合に
は、クリーンな環境の場合と同一の認識性能が得られる
わけではない。雑音のみを除去できる場合は、PMCや
騒音重畳学習のように音響モデルや標準パターン側で対
処するよりも前処理で雑音を除去した方が認識性能の観
点からは有効なのである。さらに、音声区間の切り出し
には通常パワーがよく用いられる。したがって、雑音が
重畳すると全区間においてパワーが引き上げられるの
で、音声区間の切り出し精度にも悪影響を及ぼす可能性
もある。
【0012】また、上記内蔵マイク用に最適化された認
識エンジンと外部マイク用に最適化された認識エンジン
とを用意する音声認識方法においては、入力系統の区別
が可能であれば高い認識性能を得ることはできる。とこ
ろが、通常のノートパソコンでは、入力系統の区別をシ
ステム側では判断できないのである。つまり、入力系統
の切り換えとアプリケーションプログラムあるいは認識
エンジンの切り換えとが連動していないのである。した
がって、ユーザが現在の入力系統を教えてやらねばなら
ず、煩わしく使い勝手が悪いと言う問題がある。そこ
で、入力系統に係らず何れか一方の認識エンジンのみを
使用すると、内蔵マイクを使用する場合と外部マイクを
使用する場合とで認識性能に差が生じてしまうことにな
る。
【0013】また、特開平10‐63293号公報にお
いては、何れの電話回線を経由したかを検知するために
回線接続情報を取得する必要があり、音響モデルの切り
換えは自動的には行われない。また、電話回線に由来す
るスペクトル上のピークのある雑音への対策としてノッ
チフィルタの適用について触れてはいるが、電話回線の
雑音に特化したものである。また、具体的な実装方法に
ついては言及されてはいない。
【0014】また、特開2000‐75889号公報に
おいては、用意された複数組の音響モデルに対する切り
換えは行なわず、総ての音響モデルによって並行処理を
行うようにしている。その際に、尤度演算や照合等の音
声認識処理は従来通り行なわれるので、上記音響モデル
の組数に比例して、尤度計算量や尤度演算結果を格納す
るメモリ領域が増加すると言う問題もある。尚、複数組
の音響モデルのバリエーションは、騒音のみに限定され
ている。
【0015】また、特開平6‐130990号公報にお
いては、マイク、つまり入力系統を複数有してはいる
が、総ての入力系統から同時に入力されるので、ノート
パソコンの内蔵マイクと外部マイクとの場合とは事情が
異なる。また、判定された入力系統に応じて認識対象語
彙を切り換えるのではあるが、照合方式は切り換えない
ので入力系統によって雑音が異なる場合における認識率
の低下は避けられない。また、総てのマイクから同時に
出力される音声信号に基づいて音声が入力されたマイク
を判定する際にパワーのみを用いている。したがって、
総てのマイクが所定の位置に固定されている場合には有
効であるが、2つのマイクが至近距離にある場合にはパ
ワーのみでは容易に判定することができない。例えば、
そのうちの一方のマイクがヘッドセットマイクや手持ち
マイクである場合には、話者の口の位置によっては他方
のマイクと同等の距離になってしまうことがある。
【0016】そこで、この発明の目的は、入力音声に鋭
いピークを持つ定常的な電気的雑音または機械的雑音が
重畳されている場合でも高い認識率を維持できる使い勝
手のよい音声認識装置および音声認識方法、並びに、音
声認識処理プログラムを記録したプログラム記録媒体を
提供することにある。
【0017】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、音声入力手段から入力される定常的
な櫛形雑音が重畳された音声を含む入力音声を音声認識
手段によって認識する音声認識装置において、上記櫛形
雑音のピーク周波数と阻止周波数が一致するノッチフィ
ルタ群を有して、このノッチフィルタ群によって上記櫛
形雑音を除去した後の音声信号を上記音声認識手段に送
出する前処理手段を備えたことを特徴としている。
【0018】上記構成によれば、前処理手段のノッチフ
ィルタ群によって櫛形雑音が除去された後の音声信号が
音声認識手段に送出される。したがって、入力音声信号
に重畳されているスペクトル上に多数の鋭いピークを持
つ電気的雑音や機械的雑音が除去されて、各音韻のスペ
クトルが雑音のスペクトル方向にシフトすることが無く
なる。こうして、高い認識率が維持される。
【0019】また、上記第1の発明の音声認識装置は、
上記櫛形雑音のピークの周波数および強度を検出すると
共に,検出結果を上記前処理手段に送出する雑音検出手
段を備えると共に、上記前処理手段を,上記雑音検出手
段からの検出結果に基づいて,上記ノッチフィルタ群の
うち用いるノッチフィルタの個数と伝達関数の係数とを
制御するノッチフィルタ制御手段を有するように成すこ
とが望ましい。
【0020】上記構成によれば、雑音検出手段によって
検出された上記櫛形雑音のピークの周波数及び強度に応
じて、上記前処理手段のノッチフィルタ制御手段によっ
て、用いるノッチフィルタの個数と伝達関数の係数とが
制御されるので、入力音声に重畳されている櫛形雑音の
除去に最適なノッチフィルタが用いられて、上記櫛形雑
音が的確に除去される。したがって、搭載されている機
器における櫛形雑音の出現特性に固体差が生じても高い
認識率が維持される。
【0021】また、上記第1の発明の音声認識装置は、
上記音声入力手段を,上記櫛形雑音が重畳された音声が
入力される第1入力手段と,上記櫛形雑音が重畳されな
い音声が入力される第2入力手段とを含むように成し、
上記第1入力手段からの櫛形雑音が重畳されている入力
音声であるか上記第2入力手段からの櫛形雑音が重畳さ
れていない入力音声であるかを判定する雑音有無判定手
段と、上記音声認識手段によって用いられる音響モデル
および言語モデルであって,上記第1入力手段からの音
声信号用の第1音響モデルおよび第1言語モデルと,上
記第2入力手段からの音声信号用の第2音響モデルおよ
び第2言語モデルと、上記雑音有無判定手段からの判定
結果に基づいて,上記第1入力手段からの入力音声の場
合には上記第1音響モデルを切換選択する一方,上記第
2入力手段からの入力音声の場合には上記第2音響モデ
ルを切換選択して,上記音声認識手段に接続する第1切
換手段と、上記雑音有無判定手段からの判定結果に基づ
いて,上記第1入力手段からの入力音声の場合には上記
第1言語モデルを切換選択する一方,上記第2入力手段
からの入力音声の場合には上記第2言語モデルを切換選
択して,上記音声認識手段に接続する第2切換手段を備
えると共に、上記前処理手段は,上記雑音有無判定手段
の判定結果に基づいて,上記第2入力手段からの入力音
声の場合には,上記ノッチフィルタ群を通さないように
なっていることが望ましい。
【0022】上記構成によれば、第1入力手段から櫛形
雑音が重畳された音声が入力されても、的確に上記櫛形
雑音が除去され、上記音声認識手段によって、最適な音
響モデルおよび言語モデルを用いて、入力音声が高認識
率で認識される。
【0023】ノートパソコンの内蔵マイクからの音声に
は、液晶表示画面のリフレッシュに由来する電気的雑音
やモータの回転に由来する機械的雑音等の櫛形雑音が重
畳される。これに対して、ヘッドセットマイク等の外部
マイクからの音声には櫛形雑音は重畳され難い。ところ
が、上記構成によれば、内蔵マイクおよび外部マイクの
何れのマイクが使用されても、高い認識率が維持される
のである。
【0024】また、上記第1の発明の音声認識装置は、
上記音声入力手段を,上記櫛形雑音が重畳された音声が
入力される第1入力手段と,上記櫛形雑音が重畳されな
い音声が入力される第2入力手段とを含むように成し、
上記音声認識手段によって用いられる音響モデルおよび
言語モデルであって,上記第1入力手段からの音声信号
用の第1音響モデルおよび第1言語モデルと,上記第2
入力手段からの音声信号用の第2音響モデルおよび第2
言語モデルと、上記雑音検出手段からの検出結果に基づ
いて,上記第1入力手段からの入力音声の場合には上記
第1音響モデを切換選択する一方,上記第2入力手段か
らの入力音声の場合には上記第2音響モデルを切換選択
して,上記音声認識手段に接続する第1切換手段と、上
記雑音検出手段からの検出結果に基づいて,上記第1入
力手段からの入力音声の場合には上記第1言語モデルを
切換選択する一方,上記第2入力手段からの入力音声の
場合には上記第2言語モデルを切換選択して,上記音声
認識手段に接続する第2切換手段を備えると共に、上記
前処理手段は,上記雑音検出手段の検出結果に基づいて,
入力音声信号に上記櫛形雑音が重畳されていない場合に
は,上記ノッチフィルタ群を通さないようになっている
ことが望ましい。
【0025】上記構成によれば、第1入力手段から櫛形
雑音が重畳された音声が入力されても、的確に上記櫛形
雑音が除去され、上記音声認識手段によって、最適な音
響モデルおよび言語モデルを用いて、高認識率で認識さ
れる。したがって、ノートパソコンにおける内蔵マイク
および外部マイクの何れのマイクが使用されても、高い
認識率が維持される。さらに、上記ノートパソコンにお
ける上記櫛形雑音の出現特性に固体差が生じても、高い
認識率が維持されるのである。
【0026】また、上記第1の発明の音声認識装置は、
上記音声認識手段を、上記音響モデルおよび言語モデル
に換えて音声の特徴ベクトルの時系列でなる標準パター
ンを用いるように成すことも可能である。
【0027】上記構成によれば、上記音声認識手段が特
定話者音声認識手段であっても、上記第1入力手段から
入力された音声信号に重畳された上記櫛形雑音が除去さ
れ、上記音声認識手段によって、最適な標準パターンが
用いられて高認識率で入力音声が認識される。
【0028】また、第2の発明は、定常的な櫛形雑音が
重畳された音声を含む入力音声を認識する音声認識方法
において、音声認識処理に先立って、上記櫛形雑音のピ
ーク周波数と阻止周波数が一致するノッチフィルタ群に
よって、入力音声信号に重畳された上記櫛形雑音を除去
する前処理を行うことを特徴としている。
【0029】上記構成によれば、音声認識処理に先立つ
前処理において、ノッチフィルタ群によって櫛形雑音が
除去される。したがって、入力音声信号に重畳されてい
るスペクトル上に多数の鋭いピークを持つ電気的雑音や
機械的雑音が除去されて、各音韻のスペクトルが雑音の
スペクトル方向にシフトすることが無くなる。こうし
て、高い認識率が維持される。
【0030】また、第3の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明前処理手段および
音声認識手段として機能させる音声認識処理プログラム
が記録されていることを特徴としている。
【0031】上記構成によれば、上記第1の発明の場合
と同様に、入力音声信号に重畳されているスペクトル上
に多数の鋭いピークを持つ電気的雑音および機械的雑音
が除去されて、各音韻のスペクトルが雑音のスペクトル
方向にシフトすることが無くなる。こうして、高い認識
率が維持される。
【0032】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態の入力系統が
1系統の音声認識装置におけるブロック図である。尚、
本実施の形態においては、本音声認識装置はノートパソ
コンに搭載されているものとして説明する。
【0033】マイク等でなる音声入力部1から入力され
た音声信号は、雑音除去部2および雑音判定部3に送出
される。そして、雑音除去部2に入力された音声信号
は、内蔵するノッチフィルタ群を通過した後に音響分析
部4に入力される。ここで、ノッチフィルタ群は、音声
信号におけるピークの周波数や強度に応じて予め設計さ
れている。尚、上記ノッチフィルタは、バンドエリミネ
ーションフィルタ(帯域阻止フィルタ;BEF)とも呼ば
れ、例えば、武部幹著「ディジタルフィルタの設計」(東
海大学出版会)におけるp.105に記載されているように、
IIR(不定期間インパルス応答)フィルタで設計する場
合には、以下の伝達関数で表される。 ここで、θは除去対象の周波数であり、rはノッチの急
峻さを表す係数(0.8〜1.0程度に設定)である。
【0034】上記θは、本音声認識装置が搭載される機
種毎に雑音を予め測定しておくことによって設定され
る。除去対象のピークが複数存在している場合には、θ
の異なる複数個のノッチフィルタを接続することでノッ
チフィルタ群を構成する。例えば、あるノートパソコン
の内蔵マイクの場合、60Hzと120Hzに極めて鋭い
ピークを持つ雑音を発生するとする。これら60Hzと
120Hzの雑音レベルは30dB以上に達する。60H
zと120Hzを除去するノッチフィルタ群でこれらのピ
ークを除去すると、S/N比が約5dB改善されることが
実験により確認されている。
【0035】上述の雑音例は、液晶表示画面のリフレッ
シュに由来する電気的雑音と考えられる。これ以外にも
ハードディスク装置のモータの回転に由来する機械的雑
音も鋭いピークを持つことがある。本実施の形態におい
て除去対象とするのは、帯域幅が数Hz以下の鋭いピー
クを持つ雑音である。これは、広帯域の雑音を除去する
と音声のスペクトルを変形してしまうという弊害を生じ
るためであり、広帯域雑音は除去の対象外とするのであ
る。
【0036】雑音判定部3は、例えば、後に図3によっ
て詳述するようにして櫛形雑音の有無を判定し、判定結
果を雑音除去部2に出力する。そして、雑音除去部2に
よって、入力音声信号に櫛形雑音が重畳されている場合
には上記ノッチフィルタ群を通す一方、櫛形雑音が重畳
されていない場合には上記ノッチフィルタ群を通さない
ようにする。こうして、入力音声に重畳されている櫛形
雑音を除去するのである。
【0037】ところで、ノートパソコンによっては櫛形
雑音の出現特性に固体差が生じる場合がある。その場合
には、雑音除去部2に、上記ノッチフィルタ群の各ノッ
チフィルタにおける伝達関数の係数θ,rの値を上記設
定係数を中心として前後にスライドさせるノッチフィル
タ制御手段(図示せず)を設ける。そして、雑音判定部3
において、後で述べるFFT(高速フーリエ変換)を用い
て音声信号中の櫛形雑音のピーク周波数および強度を測
定し、測定結果を雑音除去部2に出力する。そして、上
記ノッチフィルタ制御手段によって、上記櫛形雑音の特
性に応じて上記ノッチフィルタの個数および各ノッチフ
ィルタの伝達関数における係数θ,rの値を制御するの
である。こうすることによって、ノートパソコンにおけ
る櫛形雑音の出現特性に固体差が生じる場合でも対処で
きるのである。
【0038】通常は、音響分析部4の前に音声区間検出
部を設けるのであるが、音声区間検出部を設けない音声
認識装置も考えられるので本実施の形態では省略してい
る。尚、音声区間検出部を設ける場合には、雑音除去部
2の後であって、音響分析部4の前に設置する。こうす
ることによって、音響分析部4に入力される音声信号
は、上記ノッチフィルタ群によって櫛形雑音が除去され
ているので音声信号の純粋なパワーを観測でき、音声区
間の切り出し精度の改善を図ることができるのである。
【0039】上記音響分析部4は、入力されたディジタ
ル波形を短い時間間隔(フレーム)毎に周波数分析し、例
えば、MFCC(メルスケールFFT(高速フーリエ変
換)ケプストラム係数)やLPC(線形予測分析)メルケプ
ストラム等のスペクトルを表す音響パラメータのベクト
ル系列に変換する。尤度(音韻類似度)演算部5は、入力
音声の音響パラメータベクトルに対して、音響モデル格
納部6に格納された音響モデル(本実施の形態ではHM
Mを採用)を作用させて各音韻の状態毎に尤度を算出す
る。
【0040】上記音響モデル格納部6に格納される音響
モデルは、雑音除去部2と同じ仕様のノッチフィルタ群
で櫛形雑音を除去した後の学習用音声データを、入力系
統の特性に応じて補正した後学習を行うことによって作
成される。照合部7は、尤度演算部5からの尤度(音韻
類似度)系列に対して、辞書格納部8に登録された総て
の言語モデル(単語)との照合を行ない、各単語のスコア
を算出する。そして、上位のスコアを呈する単語を認識
候補(認識結果)として出力部9から出力する。
【0041】上述のように、本実施の形態においては、
上記音響分析部4の前段に、雑音除去部2と雑音判定部
3とを配置している。さらに、雑音除去部2に、音声信
号におけるピークの周波数や強度に応じて、伝達関数の
係数θ,rが異なる複数個のノッチフィルタを接続した
ノッチフィルタ群を設けている。そして、雑音判定部3
によって、音声信号中の櫛形雑音の有無を判定し、判定
結果を雑音除去部2に出力するようにしている。こうす
ることによって、雑音除去部2は、櫛形雑音が重畳され
ている場合には入力信号を上記ノッチフィルタ群を通し
て除去することができるのである。
【0042】したがって、入力音声信号に重畳されてい
るスペクトル上に多数の鋭いピークを持つ電気的雑音及
び機械的雑音を除去することができ、各音韻のスペクト
ルが雑音のスペクトルの方向にシフトすることを無くす
ことができる。したがって、高い認識率が維持すること
ができるのである。
【0043】すなわち、本実施の形態によれば、ノート
パソコンにおいて、ヘッドセットマイク等の外部マイク
をユーザが装着しなくても、内蔵マイクのみで音声認識
を行うことができる。したがって、外部マイクの装着等
の煩わしさを解消して、使い勝手を向上できるのであ
る。上述のような櫛形雑音の発生を、基板設計等のハー
ドウェア面で抑制対策を施すのが通常であるが、機構上
やコスト上の理由から十分除去し切れない場合があり得
る。本実施の形態によれば、そのような除去し切れない
場合にも対処でき、機構のコンパクト化やコストアップ
抑制のメリットがある。
【0044】また、上記実施の形態においては、上記雑
音除去部2に、上記ノッチフィルタ群の各ノッチフィル
タにおける伝達関数の係数θ,rの値を制御するノッチ
フィルタ制御手段を設けると共に、雑音判定部3を、音
声信号中の櫛形雑音の特性を測定して測定結果を雑音除
去部2に出力するようにすることも可能である。こうす
ることによって、雑音除去部2のノッチフィルタ制御手
段によって、櫛形雑音の特性に応じて上記ノッチフィル
タの個数および各ノッチフィルタの伝達関数における係
数θ,rを制御することができ、ノートパソコンの櫛形
雑音の出現特性に対応して、上記ノッチフィルタ群によ
って櫛形雑音を除去できるのである。
【0045】<第2実施の形態>図2は、本実施の形態
の入力系統がn系統の音声認識装置におけるブロック図
である。尚、本実施の形態においても、本音声認識装置
はノートパソコンに搭載されているものとして説明す
る。
【0046】本音声認識装置は、上記第1実施の形態に
おける音声認識装置に比して、入力系統,音響モデル及
び言語モデルの夫々を複数組有している点が異なる。図
2における音響分析部14,尤度演算部15,照合部17
および出力部19は、図1における音響分析部4,尤度
演算部5,照合部7および出力部9と同様に機能する。
【0047】音声入力部11は、マイク等でなるn個の
第1音声入力部11a,第2音声入力部11b,…,第n音
声入力部11nで構成されている。そして、上記各音声
入力部11a〜11nは切換スイッチ20によって、雑音
除去部12に切換接続されるようになっている。切換ス
イッチ20の制御に応じて、音声入力部11a〜11nの
うち、何れか1つから入力されたアナログ音声信号は、
雑音除去部12および雑音判定部13に送出される。そ
して、雑音判定部13で、音声信号にどのような櫛形雑
音が重畳されているかに基づいて入力系統を判定する。
本音声認識装置を搭載しているのはノートパソコンであ
るから、櫛形雑音が重畳されていれば内蔵マイクからの
音声信号であり、重畳されていなければ外部マイクから
の音声信号であると判定される。
【0048】ここで、n>2の場合には、入力系統毎に
櫛形雑音の特性が異なるので、櫛形雑音の特性に応じて
入力系統を判定すればよい。そして、雑音除去部12
は、櫛形雑音の特性に応じて設計されたノッチフィルタ
群をn組有しており、入力されたアナログ音声信号をデ
ィジタル音声信号に変換し、何れかの組のノッチフィル
タ群を通過させた後、音響分析部14に送出する。その
場合、上記ノッチフィルタ群は、雑音判定部13におい
て判定された入力系統の特性(ピークの周波数や強度)に
応じた組が選択される。
【0049】図3は、n=2である場合に上記雑音判定
部13によって行われる内蔵マイク/外部マイク判定処
理動作のフローチャートである。以下、図3に従って、
雑音判定部13による内蔵マイク/外部マイク判定処理
について説明する。雑音判定部13に音声信号が入力さ
れると内蔵マイク/外部マイク判定処理動作がスタート
する。
【0050】ステップS1で、入力音声信号から語頭直
前の無音区間(すなわち騒音区間)が抽出される。ステッ
プS2で、抽出された無音区間のパワーが求められてワ
ークエリア等に格納される。ステップS3で、上記抽出
された無音区間の音声データが櫛形雑音除去用のノッチ
フィルタ群に通されて、櫛形雑音が除去される。ステッ
プS4で、上記ステップS3において櫛形雑音が除去され
た音声データのパワーと上記ステップS2において格納
されたパワーとの差Dが求められる。ステップS5で、
上記パワー差Dが閾値T以上であるか否かが判別され
る。その結果、閾値T以上であれば櫛形雑音が重畳され
ているとしてステップS6に進み、そうでなければステ
ップS7に進む。ステップS6で、入力系統は「内蔵マイ
ク」であるとの判定結果が雑音除去部12に出力され
る。そうした後、内蔵マイク/外部マイク判定処理動作
を終了する。ステップS7で、入力系統は「外部マイク」
であるとの判定結果が雑音除去部12に出力される。そ
うした後、内蔵マイク/外部マイク判定処理動作を終了
する。
【0051】さらに、本実施の形態における雑音判定部
13は、上述のような入力系統の判定処理結果に応じた
切換情報を、第1切換部21および第2切換部22に出
力するようになっている。
【0052】別の内蔵マイク/外部マイク判定方法とし
て上記FFTを用いる方法もある。すなわち、上述のよ
うに抽出された無音区間の音声データにFFTを実行し
てスペクトルを求める。そして、そのスペクトルにおけ
る櫛形雑音除去用のノッチフィルタ群で設定したノッチ
周波数にピークがあるか否かを判定する。その場合、櫛
形雑音はピークの帯域が非常に狭いので高い分解能を必
要とする。例えば、サンプリング周波数が12kHzであ
れば8192点以上のFFTを実行する。したがって、
この判定方法は、正確ではあるが計算量が多くなる。
尚、上記第1実施の形態で述べたように、ピーク周波数
が未知の場合に、雑音除去部2のノッチフィルタ群にお
ける上記係数θ,rを設定する際には、この判定方法を
用いるのである。また、上記液晶表示画面のリフレッシ
ュ回路等に起因する電気的雑音の場合には、ピーク周波
数は60Hz間隔で出現することが多い。そこで、内蔵
マイク/外部マイク判定アルゴリズムに、上記等間隔性
を利用してもよい。
【0053】上記音響分析部14は、入力されたディジ
タル波形を短い時間間隔(フレーム)毎に周波数分析し
て、スペクトルを表す音響パラメータのベクトル系列に
変換する。音響モデル格納部16は、第1音響モデル格
納部16a,第2音響モデル格納部16b,…,第n音響モ
デル格納部16nのn個の音響モデル格納部で構成さ
れ、夫々の音響モデル格納部には、第1HMM,第2H
MM,…,第nHMMのn組のHMMが格納されている。
そして、各音響モデルは、雑音除去部12と同じ仕様の
n組のノッチフィルタ群の何れかの組で櫛形雑音を除去
した学習用音声データを、入力系統の特性に応じて補正
した後学習を行うことによって作成される。
【0054】上記尤度演算部15は、入力音声の音響パ
ラメータベクトルに対し、各音響モデル格納部16a〜
16nに格納された各HMMのうち、雑音判定部13か
らの切換情報にしたがって第1切換部21によって切換
選択されたHMMを作用させて各音韻の状態毎に尤度を
算出する。辞書格納部18は、第1辞書格納部18a,第
2辞書格納部18b,…,第n辞書格納部18nのn個の辞
書格納部で構成され、夫々の辞書格納部には、第1言語
モデル,第2言語モデル,…,第n言語モデルのn組の言
語モデルが格納されている。尚、この場合の各言語モデ
ルとしては、例えば、上記ノートパソコンの場合には、
内蔵マイク用の「コマンドの実行」を想定した小語彙離散
単語認識用の言語モデルおよび外部マイク用の「口述」を
想定した大語彙連続音声認識用の言語モデル等が考えら
れる。
【0055】照合部17は、上記尤度演算部15からの
尤度(音韻類似度)系列に対して、各辞書格納部18a〜
18nのうち、雑音判定部13からの切換情報にしたが
って第2切換部22によって切換選択された辞書格納部
に登録された総ての言語モデル(単語)との照合を行な
い、各単語のスコアを算出する。そして、上位のスコア
を呈する単語を認識候補(認識結果)として出力部19か
ら出力するのである。
【0056】ここで、本実施の形態における照合部17
は、用いる言語モデルの仕様に応じて、照合アルゴリズ
ムを、連続音声用の照合アルゴリズムか離散単語用の照
合アルゴリズムかを変えられるものとする。こうするこ
とによって、ノートパソコンにおいて、入力系統が内蔵
マイクの場合は、「コマンドの実行」を想定した小語彙離
散単語認識用のHMMおよび言語モデルを切換部21,
22によって選択すると共に、照合部17の照合アルゴ
リズムを上記離散単語用の照合アルゴリズムに設定でき
る。また、入力系統がヘッドセットマイクのような外部
マイクの場合には、「口述」を想定した大語彙連続音声認
識用のHMMおよび言語モデルを切換部21,22によ
って選択すると共に、照合部17の照合アルゴリズムを
上記連続音声用の照合アルゴリズムに設定できる。
【0057】上述のように、本実施の形態においては、
n個の音声入力部11a〜11nで構成された音声入力部
11を有しており、各音声入力部11a〜11nは切換ス
イッチ20によって、雑音除去部12および雑音判定部
13に切換接続するようにしている。また、雑音判定部
13によって、音声信号中の櫛形雑音の特性に応じて入
力系統を判定して、判定結果を雑音除去部12に出力す
る。さらに、入力系統の判定処理結果に応じた切換情報
を第1切換部21および第2切換部22に出力するよう
にしている。
【0058】音響モデル格納部16は、第1音響モデル
格納部16a〜第n音響モデル格納部16nのn個の音響
モデル格納部で構成され、夫々の音響モデル格納部に
は、雑音除去部14と同じ仕様のn組のノッチフィルタ
群の何れかの組で櫛形雑音を除去した学習用音声データ
を、入力系統の特性に応じて補正して作成されたn組の
HMMが格納されている。そして、尤度演算部15は、
第1切換部21によって切換選択されたHMMを用いて
各音韻の状態毎に尤度を算出する。
【0059】同様に、辞書格納部18は、第1辞書格納
部18a〜第n辞書格納部18nのn個の辞書格納部で構
成され、夫々の辞書格納部には上記言語モデルが格納さ
れている。そして、照合部17は、第2切換部22によ
って切換選択された言語モデル(単語)との照合を行な
い、各単語のスコアを算出するようにしている。
【0060】したがって、上記雑音判定部13による入
力系統の判定結果に従って、雑音除去部12によって入
力系統に応じたノッチフィルタ群を通過させて櫛形雑音
を除去できる。それと共に、第1切換部21および第2
切換部22で切換選択された上記入力系統に応じたHM
Mを用いた尤度演算と言語モデルを用いた照合とを行う
ことができる。こうすることによって、ノートパソコン
において、入力系統が内蔵マイクである場合には、コマ
ンドの実行を想定した小語彙離散単語認識用のHMMお
よび言語モデルを切換部21,22によって選択する一
方、入力系統がヘッドセットマイクのような外部マイク
の場合には、口述を想定した大語彙連続音声認識用のH
MMおよび言語モデルを選択することができる。したが
って、高い認識率を得ることができる。
【0061】また、本実施の形態においては、上述のよ
うに、上記雑音判定部13によって上記櫛形雑音の特性
を自動動的に判定して入力系統を判定するようにしてい
る。したがって、例えばノートパソコン等のようにマイ
ク入力が外部マイクと内蔵マイクとの2系統が存在する
場合には、内蔵マイクと外部マイクの接続状況を検出す
るための接続状況検出回路を新たに設置しなくても済
み、ハードウェア的なコストアップを抑えることができ
る。さらに、雑音判定部13による入力系統の自動判定
機能を利用して、入力系統に応じたタスクの切り換えも
自動的にできるため、様々な用途展開が可能になると共
に、その際におけるタスクの切り換えに対するユーザの
負担も軽減できる。尚、上述のようにマイク入力の接続
状況検出回路が不要であるということは、現在普及して
いる既存のハードウェアをそのまま使えるといメリット
があり、例えばノートパソコン用のソフトとして適用範
囲が広いと言える。
【0062】通常、入力系統が複数存在しても、A/D
変換器に入力されて分析・処理されるの音声信号は一つ
の入力系統からのものである。本実施の形態もそれに則
って述べられている。しかしながら、装置によっては複
数の入力音声信号を独立並行して入力し、分析・処理で
きる場合がある。そのような場合には、雑音除去部12
を入力系統毎に設けることによって、本実施の形態を適
用することができる。
【0063】尚、上記第1実施の形態においては、上記
音響モデルおよび言語モデルを各1組ずつ有している場
合について説明しているが、上記第2実施の形態の場合
のように、上記音響モデルおよび言語モデルの夫々を複
数組用意して切り換え使用すれば、更に認識率を向上さ
せることができる。
【0064】また、上記第2実施の形態における雑音除
去部12は、雑音判定部13によって判定された入力系
統に応じたノッチフィルタ群を通過させて櫛形雑音を除
去する機能を有しているが、さらに、上記第1実施の形
態の場合と同様に、各ノッチフィルタの伝達関数におけ
る係数θ,rを制御するノッチフィルタ制御手段を持た
せても構わない。
【0065】また、上記各実施の形態においては、上記
音響モデルとしてHMMを用いた不特定話者音声認識の
場合を例に説明したが、特定話者音声認識の場合にも適
用可能であり、効果が期待できる。すなわち、一般にど
のような音声認識装置の場合でも、雑音が重畳するとそ
の分だけ単語間の距離が小さくなって認識率の低下を招
くからである。また、雑音の重畳は音声区間の切り出し
精度にも悪影響を齎すことになる。
【0066】尚、上記特定話者音声認識装置の場合に
は、上述した不特定話者音声認識装置における音響モデ
ルと言語モデルとの代わりにユーザの声で登録した標準
パターンを用いることになる。そして、上記尤度演算部
5,15と照合部7,17とをまとめて上記標準パターン
との照合部とする。その際に、音響分析部4,14以前
の構成は、本実施の形態における不特定話者音声認識装
置の場合と同じである。上記標準パターンは通常入力系
統毎に登録することになる。または、何れか一つの入力
系統から登録し、他の入力系統からの入力時はその特性
の差を補正するフィルタを作用させることで、登録を一
つの入力系統のみで済ますこともできる。
【0067】ところで、上記各実施の形態における上記
雑音除去部,雑音判定部,音響分析部,尤度演算部および
照合部としての機能は、プログラム記録媒体に記録され
た音声認識処理プログラムによって実現される。上記実
施の形態における上記プログラム記録媒体は、ROM
(リード・オンリ・メモリ)でなるプログラムメディアであ
る。あるいは、外部補助記憶装置に装着されて読み出さ
れるプログラムメディアであってもよい。尚、何れの場
合においても、上記プログラムメディアから音声認識処
理プログラムを読み出すプログラム読み出し手段は、上
記プログラムメディアに直接アクセスして読み出す構成
を有していてもよいし、RAM(ランダム・アクセス・メ
モリ)に設けられたプログラム記憶エリア(図示せず)に
ダウンロードして、上記プログラム記憶エリアにアクセ
スして読み出す構成を有していてもよい。尚、上記プロ
グラムメディアからRAMの上記プログラム記憶エリア
にダウンロードするためのダウンロードプログラムは、
予め本体装置に格納されているものとする。
【0068】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0069】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有していれば、上記プログ
ラムメディアは、通信ネットワークからのダウンロード
等によって流動的にプログラムを坦持する媒体であって
も差し支えない。尚、その場合における上記通信ネット
ワークからダウンロードするためのダウンロードプログ
ラムは、予め本体装置に格納されているものとする。あ
るいは、別の記録媒体からインストールされるものとす
る。
【0070】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0071】
【発明の効果】以上より明らかなように、請求項1に係
る発明の音声認識装置は、前処理手段によって、音声入
力手段から入力される音声に重畳された櫛形雑音のピー
ク周波数と阻止周波数が一致するノッチフィルタ群を用
いて上記櫛形雑音を除去し、この櫛形雑音を除去した後
の音声信号を音声認識手段に送出するので、入力音声信
号に重畳されているスペクトル上に多数の鋭いピークを
持つ電気的雑音および機械的雑音を除去できる。したが
って、各音韻のスペクトルが雑音のスペクトル方向にシ
フトすることが無くなり、高い認識率を維持することが
できる。
【0072】すなわち、この発明によれば、液晶表示画
面のリフレッシュに由来する電気的雑音およびモータの
回転に由来する機械的雑音等の櫛形雑音が重畳される内
蔵マイクと、櫛形雑音が重畳されないヘッドセットマイ
ク等の外部マイクとを有するノートパソコンの場合、外
部マイクをユーザが装着しなくても、内蔵マイクのみで
音声認識を行うことができる。したがって、外部マイク
の装着等の煩わしさを解消して、使い勝手を向上でき
る。
【0073】また、上記第1の発明の音声認識装置は、
雑音検出手段によって、上記櫛形雑音のピークの周波数
および強度を検出して検出結果を上記前処理手段に送出
し、上記前処理手段のノッチフィルタ制御手段によっ
て、用いるノッチフィルタの個数と伝達関数の係数とを
上記検出結果に基づいて制御するように成せば、入力音
声に重畳された櫛形雑音を最適なノッチフィルタを用い
て的確に除去できる。したがって、搭載されている機器
における櫛形雑音の出現特性に固体差が生じても高い認
識率を維持できる。
【0074】また、上記第1の発明の音声認識装置は、
上記音声入力手段を、上記櫛形雑音が重畳された音声が
入力される第1入力手段と、上記櫛形雑音が重畳されな
い音声が入力される第2入力手段とを含むように成し、
雑音有無判定手段によって櫛形雑音が重畳された音声が
入力されたと判定されると、上記前処理手段のノッチフ
ィルタ群によって上記櫛形雑音を除去し、第1切換手段
によって上記第1入力手段からの音声信号用の第1音響
モデルを切換選択し、第2切換手段によって上記第1入
力手段からの音声信号用の第1言語モデルを切換選択し
て音声認識手段に接続すれば、上記第1入力手段から櫛
形雑音が重畳された音声が入力された場合には、的確に
上記櫛形雑音を除去し、上記音声認識手段によって、最
適な音響モデルおよび言語モデルを用いて高い認識率で
認識できる。
【0075】したがって、ノートパソコンにおける櫛形
雑音が重畳される内蔵マイクおよび櫛形雑音が重畳され
ない外部マイクの何れのマイクが使用されても、高い認
識率を維持することができる。その際に、上記ノッチフ
ィルタ群の使用/否使用,音響モデルおよび言語モデルの
切り換えは自動的に行われる。したがって、使い勝手を
向上できる。
【0076】また、上記第1の発明の音声認識装置は、
上記音声入力手段を、上記櫛形雑音が重畳された音声が
入力される第1入力手段と、上記櫛形雑音が重畳されな
い音声が入力される第2入力手段とを含むように成し、
上記雑音検出手段によって、入力音声に上記櫛形雑音が
重畳されていると判定されると、上記前処理手段によっ
て上記入力音声に重畳された櫛形雑音の除去に最適なノ
ッチフィルタを用いて上記櫛形雑音を除去し、第1切換
手段によって上記第1入力手段からの音声信号用の第1
音響モデルを切換選択し、第2切換手段によって上記第
1入力手段からの音声信号用の第1言語モデルを切換選
択して音声認識手段に接続すれば、上記第1入力手段か
ら櫛形雑音が重畳された音声が入力された場合には、的
確に上記櫛形雑音を除去し、上記音声認識手段によっ
て、最適な音響モデルおよび言語モデルを用いて高い認
識率で認識できる。
【0077】したがって、ノートパソコンにおける内蔵
マイクおよび外部マイクの何れのマイクが使用されて
も、高い認識率を維持できる。さらに、上記ノートパソ
コンにおける上記櫛形雑音の出現特性に固体差が生じて
も、高い認識率を維持できる。その際に、上記ノッチフ
ィルタ群の使用/否使用,音響モデルおよび言語モデルの
切り換えは自動的に行われる。したがって、使い勝手を
向上できる。
【0078】また、上記第1の発明の音声認識装置は、
上記音声認識手段を、上記音響モデルおよび言語モデル
に変えて標準パターンを用いるように成せば、上記音声
認識手段が特定話者音声認識手段であっても、上記第1
入力手段から入力された音声信号に重畳された上記櫛形
雑音を除去し、上記音声認識手段によって、最適な標準
パターンを用いて、高認識率で入力音声を認識できる。
【0079】また、第2の発明の音声認識方法は、音声
認識処理に先立って、上記櫛形雑音のピーク周波数と阻
止周波数が一致するノッチフィルタ群によって、入力音
声信号に重畳された上記櫛形雑音を除去する前処理を行
うので、入力音声信号に重畳されているスペクトル上に
多数の鋭いピークを持つ電気的雑音および機械的雑音が
除去されて、各音韻のスペクトルが雑音のスペクトル方
向にシフトすることが無くなる。こうして、高い認識率
を維持することができる。
【0080】また、第3の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明におけるにおける
前処理手段および音声認識手段として機能させる音声認
識処理プログラムが記録されているので、上記第1の発
明の場合と同様に、入力音声信号に重畳されているスペ
クトル上に多数の鋭いピークを持つ電気的雑音および機
械的雑音が除去されて、各音韻のスペクトルが雑音のス
ペクトル方向にシフトすることが無くなる。したがっ
て、高い認識率を維持することができる。
【図面の簡単な説明】
【図1】 この発明の音声認識装置におけるブロック図
である。
【図2】 図とは異なる音声認識装置におけるブロック
図である。
【図3】 図2における雑音判定部による内蔵マイク/
外部マイク判定処理動作のフローチャートである。
【符号の説明】
1,11…音声入力部、 2,12…雑音除去部、 3,13…雑音判定部、 4,14…音響分析部、 5,15…尤度演算部、 6,16…音響モデル格納部、 7,17…照合部、 8,18…辞書格納部、 9,19…出力部、 11a…第1音声入力部、 11b…第2音声入力部、 11n…第n音声入力部、 16a…第1音響モデル格納部、 16b…第2音響モデル格納部、 16n…第n音響モデル格納部、 18a…第1辞書格納部、 18b…第2辞書格納部、 18n…第n辞書格納部、 20…切換スイッチ、 21…第1切換部、 22…第2切換部。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声入力手段から入力される定常的な櫛
    形雑音が重畳された音声を含む入力音声を、音声認識手
    段によって認識する音声認識装置において、 上記櫛形雑音のピーク周波数と阻止周波数が一致するノ
    ッチフィルタ群を有して、このノッチフィルタ群によっ
    て上記櫛形雑音を除去した後の音声信号を上記音声認識
    手段に送出する前処理手段を備えたことを特徴とする音
    声認識装置。
  2. 【請求項2】 請求項lに記載の音声認識装置におい
    て、 上記櫛形雑音のピークの周波数および強度を検出すると
    共に、検出結果を上記前処理手段に送出する雑音検出手
    段を備えると共に、 上記前処理手段は、上記雑音検出手段からの検出結果に
    基づいて、上記ノッチフィルタ群のうち用いるノッチフ
    ィルタの個数と伝達関数の係数とを制御するノッチフィ
    ルタ制御手段を有していることを特徴とする音声認識装
    置。
  3. 【請求項3】 請求項1に記載の音声認識装置におい
    て、 上記音声入力手段は、上記櫛形雑音が重畳された音声が
    入力される第1入力手段と、上記櫛形雑音が重畳されな
    い音声が入力される第2入力手段とを含み、 上記第1入力手段からの櫛形雑音が重畳されている音声
    であるか上記第2入力手段からの櫛形雑音が重畳されて
    いない音声であるかを判定する雑音有無判定手段と、 上記音声認識手段によって用いられる音響モデルおよび
    言語モデルであって、上記第1入力手段からの音声信号
    用の第1音響モデルおよび第1言語モデルと、上記第2
    入力手段からの音声信号用の第2音響モデルおよび第2
    言語モデルと、 上記雑音有無判定手段からの判定結果に基づいて、上記
    第1入力手段からの入力音声の場合には上記第1音響モ
    デを切換選択する一方、上記第2入力手段からの入力音
    声の場合には上記第2音響モデルを切換選択して、上記
    音声認識手段に接続する第1切換手段と、 上記雑音有無判定手段からの判定結果に基づいて、上記
    第1入力手段からの入力音声の場合には上記第1言語モ
    デルを切換選択する一方、上記第2入力手段からの入力
    音声の場合には上記第2言語モデルを切換選択して、上
    記音声認識手段に接続する第2切換手段を備えると共
    に、 上記前処理手段は、上記雑音有無判定手段の判定結果に
    基づいて、上記第2入力手段からの入力音声の場合に
    は、上記ノッチフィルタ群を通さないようになっている
    ことを特徴とする音声認識装置。
  4. 【請求項4】 請求項2に記載の音声認識装置におい
    て、 上記音声入力手段は、上記櫛形雑音が重畳された音声が
    入力される第1入力手段と、上記櫛形雑音が重畳されな
    い音声が入力される第2入力手段とを含み、 上記音声認識手段によって用いられる音響モデルおよび
    言語モデルであって、上記第1入力手段からの音声信号
    用の第1音響モデルおよび第1言語モデルと、上記第2
    入力手段からの音声信号用の第2音響モデルおよび第2
    言語モデルと、 上記雑音検出手段からの検出結果に基づいて、上記第1
    入力手段からの入力音声の場合には上記第1音響モデル
    を切換選択する一方、上記第2入力手段からの入力音声
    の場合には上記第2音響モデルを切換選択して、上記音
    声認識手段に接続する第1切換手段と、 上記雑音検出手段からの検出結果に基づいて、上記第1
    入力手段からの入力音声の場合には上記第1言語モデル
    を切換選択する一方、上記第2入力手段からの入力音声
    の場合には上記第2言語モデルを切換選択して、上記音
    声認識手段に接続する第2切換手段を備えると共に、 上記前処理手段は、上記雑音検出手段の検出結果に基づ
    いて、入力音声信号に上記櫛形雑音が重畳されていない
    場合には、上記ノッチフィルタ群を通さないようになっ
    ていることを特徴とする音声認識装置。
  5. 【請求項5】 請求項3あるいは請求項4に記載の音声
    認識装置において、 上記音声認識手段は、上記音響モデルおよび言語モデル
    に換えて、音声の特徴ベクトルの時系列でなる標準パタ
    ーンを用いることを特徴とする音声認識装置。
  6. 【請求項6】 定常的な櫛形雑音が重畳された音声を含
    む入力音声を認識する音声認識方法において、 音声認識処理に先立って、上記櫛形雑音のピーク周波数
    と阻止周波数が一致するノッチフィルタ群によって、入
    力音声信号に重畳された上記櫛形雑音を除去する前処理
    を行うことを特徴とする音声認識方法。
  7. 【請求項7】 コンピュータを、 請求項1における上記前処理手段および音声認識手段と
    して機能させる音声認識処理プログラムが記録されたこ
    とを特徴とするコンピュータ読出し可能なプログラム記
    録媒体。
JP2000287163A 2000-09-21 2000-09-21 音声認識装置および音声認識方法、並びに、プログラム記録媒体 Pending JP2002099296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000287163A JP2002099296A (ja) 2000-09-21 2000-09-21 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000287163A JP2002099296A (ja) 2000-09-21 2000-09-21 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2002099296A true JP2002099296A (ja) 2002-04-05

Family

ID=18770962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000287163A Pending JP2002099296A (ja) 2000-09-21 2000-09-21 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2002099296A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
JP2012163788A (ja) * 2011-02-07 2012-08-30 Jvc Kenwood Corp ノイズ除去装置およびノイズ除去方法
WO2018203391A1 (ja) * 2017-05-02 2018-11-08 ヤマハ株式会社 ノイズ低減装置と、それを用いた音声会議システム機器、及びノイズ低減装置の制御方法
WO2023286775A1 (ja) * 2021-07-13 2023-01-19 株式会社ニコン 音声認識装置、音声認識方法、音声認識プログラム、撮像装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP4655572B2 (ja) * 2004-03-25 2011-03-23 日本電気株式会社 信号処理方法および信号処理装置、ならびに、ロボット
JP2008165125A (ja) * 2007-01-05 2008-07-17 Kenwood Corp 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム
JP2012163788A (ja) * 2011-02-07 2012-08-30 Jvc Kenwood Corp ノイズ除去装置およびノイズ除去方法
WO2018203391A1 (ja) * 2017-05-02 2018-11-08 ヤマハ株式会社 ノイズ低減装置と、それを用いた音声会議システム機器、及びノイズ低減装置の制御方法
WO2023286775A1 (ja) * 2021-07-13 2023-01-19 株式会社ニコン 音声認識装置、音声認識方法、音声認識プログラム、撮像装置

Similar Documents

Publication Publication Date Title
EP0911805B1 (en) Speech recognition method and speech recognition apparatus
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
US8798991B2 (en) Non-speech section detecting method and non-speech section detecting device
EP1355296B1 (en) Keyword detection in a speech signal
JPS62231997A (ja) 音声認識システム及びその方法
WO2007045723A1 (en) A method and a device for speech recognition
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3493033B2 (ja) 音声認識用回路装置
US5220610A (en) Speech signal processing apparatus for extracting a speech signal from a noisy speech signal
JPH08221092A (ja) スペクトルサブトラクションを用いた雑音除去システム
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH1063289A (ja) 音声認識装置および方法、情報記憶媒体
JP2002099296A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2005070367A (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラムおよび音声認識プログラム、記録媒体、並びに電子機器
JP2008250236A (ja) 音声認識装置および音声認識方法
JP2000172291A (ja) 音声認識装置
JP3106543B2 (ja) 音声信号処理装置
JP3493849B2 (ja) 音声認識装置
JP4325044B2 (ja) 音声認識システム
Cerisara et al. α-Jacobian environmental adaptation
JPH11327593A (ja) 音声認識システム
JP3444198B2 (ja) 雑音抑圧装置及び該装置を用いた音声認識システム
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Matassoni et al. Some results on the development of a hands-free speech recognizer for carenvironment