JP3434215B2

JP3434215B2 - 収音装置，音声認識装置，これらの方法、及びプログラム記録媒体

Info

Publication number: JP3434215B2
Application number: JP23256598A
Authority: JP
Inventors: 智大高野; 弘行松井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-02-20
Filing date: 1998-08-19
Publication date: 2003-08-04
Anticipated expiration: 2018-08-19
Also published as: JPH11305792A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、周囲騒音が混在
した音源信号に対し、周囲騒音成分を抑圧し、目的信号
を抽出する収音装置、その収音機能を有し、高い認識率
を得る音声認識装置、これらの方法、およびプログラム
記録媒体に関するものである。

【０００２】

【従来の技術】騒音下で、ＳＮ比よく目的信号を抽出す
る従来技術として、騒音が重畳した目的信号の振幅スペ
クトルから騒音信号（推定値）の振幅スペクトルを差し
引くスペクトルサブトラクション法がある。（例えば、
“Ｓ．Ｆ．Ｂｏｌｌ，‘Ｓｕｐｐｒｅｓｓｉｏｎｏｆ
ａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈ
ｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏ
ｎ’，ＩＥＥＥＴｒａｎｓ．，ＡＳＳＰ，Ｖｏｌ．２
７，Ｎｏ．２，ｐ１１３−１２０，（１９７９）”）図２０は、従来技術の一例を説明する流れ図である。ま
ず、気導マイクロホン（音響信号を空気を媒体として受
音する）の出力信号Ｌをスペクトルに変換する（Ｓ０
１）。つぎに、気導マイクロホンの出力信号Ｌの振幅ス
ペクトルから推定された騒音の振幅スペクトルを差し引
くことで騒音の除去されたスペクトルＳ（ω_i）を求め
る（Ｓ０２）。そして、スペクトルＳ（ω_i）を気導マ
イクロホンの出力信号Ｌの位相スペクトルを用いて時間
波形に変換して、騒音が抑圧された目的信号を得る（Ｓ
０３）。

【０００３】上記の処理で騒音スペクトルを推定する方
法として、例えば、騒音収音用のマイクロホンを設置
して騒音スペクトルを求める方法、目的音源の無音区
間から得た騒音スペクトルを用いる方法、が利用されて
いる。しかし、これらの騒音推定方法には騒音スペクト
ル推定誤差を引き起こす以下のような問題点が含まれて
いる。

【０００４】

【発明が解決しようとする課題】の方法では目的信号
収音用マイクロホンと騒音収音用マイクロホンが配され
た位置が離れすぎていると、２つのマイクロホンに収音
される騒音スペクトル特性に違いが生じてしまう。ま
た、２つのマイクロホンの構成された位置が近すぎると
騒音収音用マイクロホンに目的信号の寄与が含まれてし
まう。すなわち、の方法では正確な騒音スペクトルを
推定するための２つのマイクロホン構成が取りにくいと
いう問題点がある。

【０００５】の方法では、目的音源の有音区間におい
て騒音のスペクトル特性が変化した際に生じる騒音スペ
クトルの推定誤差は免れない。特に、交通騒音など非定
常性の強い騒音下では、騒音抑圧処理の良好な動作を期
待することはできない。このように、現状のスペクトル
サブトラクション法では正確な騒音スペクトルの推定が
困難であるのが現状である。

【０００６】騒音下で音声認識を行う場合、周囲騒音に
よる音声信号の変形に対処する手段として、音声の入力
段で騒音除去処理を行うことが有効である。（例えば、
“飛田，菅村、“音声認識における周囲騒音の影響”、
音響学会誌、Ｖｏｌ．５１、Ｎｏ４、ｐ３３１−３３
５、（１９９５）”）しかしながら、現状の騒音抑圧処理では前述のようにあ
らゆる環境で適用できる手法は確立されていない。

【０００７】また、音声認識を行うためには、まず発声
区間の検出を行う必要がある。しかしながら、騒音下に
おいては、発声区間を正しく検出するのは困難である。
前述のスペクトルサブトラクション法等で騒音除去を行
った信号より、区間検出を行う方法が考えられるが、そ
のためには現状の問題点である、正確な騒音スペクトル
の推定を実現しなければならない。

【０００８】この発明の目的は、従来手法のように正確
な騒音信号の推定を必要とせず、かつ非定常な騒音に対
しても適用が可能な新しい騒音抑圧処理機能を有する収
音装置及び前記騒音抑圧処理機能と騒音下における正し
い発声区間検出機能を有する音声認識装置を提供するこ
とにある。

【０００９】

【課題を解決するための手段】この発明の第１形態は、
目的信号の音源に近い位置に設置された第１マイクロホ
ンと、前記位置より目的信号の音源から離れた位置に設
置された第２マイクロホンとが設けられ、これら第１，
第２マイクロホンの各々の出力信号は、それぞれ第１，
第２スペクトル変換手段により、振幅スペクトルと位相
スペクトルに変換され、これら第１，第２スペクトル変
換手段から出力される、各周波数成分ごとの振幅スペク
トルについて、レベル差がレベル差算出手段で計算され
る。この各周波数成分ごとのレベル差と、予め設定され
たしきい値とが音源周波数成分選択手段により比較さ
れ、前記レベル差がしきい値よりも大きい周波数成分は
目的信号が、音源周波数成分選択手段により支配的な周
波数成分と判定され、第１スペクトル変換手段の出力振
幅スペクトルから、前記目的信号が支配的と判定された
周波数成分が音源周波数成分抽出手段により抽出され
る。この抽出された目的信号が支配的な周波数成分の振
幅スペクトルは、前記第１スペクトル変換手段により算
出された位相スペクトルを用いて時間波形に時間波形変
換手段により変換される。

【００１０】この発明の第２形態は、第１形態の収音装
置において、前記音源周波数成分選択手段で目的信号が
支配的と判定されなかった周波数成分の第１スペクトル
変換手段の振幅スペクトルに対して予め設定された重み
係数（１より小）が騒音周波数成分抑圧手段で乗算さ
れ、その乗算出力は、前記第１スペクトル変換手段で算
出された対応周波数成分の位相スペクトルを用いて時間
波形に前記時間波形変換手段で変換される。

【００１１】この発明の第３形態は第１又は第２形態の
収音装置において、前記音源周波数成分抽出手段におい
て目的信号が支配的と判定された周波数成分の振幅スペ
クトルの大きさと、予め設定された無音区間判定しきい
値とが音源無音区間判定手段で比較され、前記振幅スペ
クトルが前記無音区間判定しきい値よりも小さいとき目
的信号の音源が無音状態であると判定され、目的信号の
音源が無音状態と判定された場合において、しきい値算
出手段で、前記音源周波数成分選択手段に用いるしきい
値が前記レベル差算出手段より出力されるレベル差以上
となるように算出更新される。

【００１２】この発明の第４形態は第２又は第３形態の
収音装置において、前記騒音周波数成分抑圧手段におい
て目的信号が支配的と判定されなかった周波数成分に乗
ずる重み係数が、前記レベル差算出手段による各周波数
成分のレベル差と前記音源周波数成分選択手段のしきい
値の大小関係を比較して重み係数算出手段で算出され
る。

【００１３】この発明の第５形態は第３又は第４形態の
収音装置において、前記音源無音区間判定手段により目
的信号の音源が無音状態と判定された場合において、音
源無音区間減衰手段により前記音源周波数成分抽出手段
と前記騒音周波数成分抑圧手段の出力または、前記時間
波形変換手段の出力が減衰される。この発明の第６形態
は第１乃至第４形態の何れかを前提として、目的信号の
音源の発声状態が発声検出手段により検出され、その検
出結果より目的信号の音源が発声状態か無発声状態かの
いずれかであるかが発声状態判定手段で判定される。こ
の発声状態判定手段は第３形態の音源無音区間判定手段
を用いてもよく、これとは独立に設けてもよい。前記時
間波形に変換された信号は音声蓄積手段に蓄積され、そ
の蓄積された信号を利用して音声認識処理手段により音
声認識され、音声認識制御手段により、発声状態判定手
段の判定結果を利用して、発声区間の音声データのみが
音声認識処理手段に入力制御され、その認識処理された
認識結果が出力制御される。

【００１４】この発明の第７形態は第１乃至第６形態の
何れかにおいて、前記目的信号の音源に近い位置に設置
された第１マイクロホンと前記目的信号の音源から離れ
た位置に設置された第２マイクロホンのうち、前者のマ
イクロホンが後者のマイクロホンに比べて使用状態にお
いて使用者の口元に近い位置になるようにハンドセッ
ト、ヘッドセット、イヤーマイクセットなどに組み込ま
れている。

【００１５】「作用」第１形態においては、目的信号の
音源に近い位置と、前記位置より目的信号の音源から離
れた位置に設置されたマイクロホンの振幅スペクトルの
レベル差によって目的信号が支配的な周波数成分である
か否かの判定が行われる。この発明の装置構成では、目
的信号について、その音源と各々のマイクロホンの位置
関係はほとんど変化せずそれらの距離も短いため、２つ
のマイクロホンの間で安定したレベル差が生じる。一
方、騒音については、その音源とマイクロホンの間の距
離は、目的信号の音源とマイクロホンの間の距離に比べ
て長くなると考えてよい。このため、目的信号によって
生じる２つのマイクロホンの出力レベル差は、騒音によ
って生じる２つのマイクロホンの出力のレベル差よりも
常に大きくなると考えられる。この発明では、上記のよ
うに２つのマイクロホンに生じるレベル差が目的信号と
騒音とで異なる点に着目して目的信号が支配的な周波数
成分の抽出処理を行う。このような周波数成分抽出処理
によれば、正確な騒音スペクトルの推定を必要としない
騒音抑圧処理が可能になる。

【００１６】第２形態においては、第１形態において目
的信号が支配的と判定されなかった周波数成分に対して
予め設定された重み係数を乗ずることにより、対応する
周波数成分が減衰される。この騒音周波数成分抑圧処理
によって、目的信号が支配的と判定されなかった周波数
成分に重畳している目的信号の成分が欠落してしまうこ
とによる処理信号の音質劣化を防ぎ、音質を向上させ
る。

【００１７】第３形態においては、第１又は第２形態に
おいて目的音源が無音状態であることが判定されると、
設定しきい値が算出され、音源周波数成分選択手段にお
いて目的信号が支配的な周波数成分の判定精度が向上
し、音質が向上する。第４形態においては、第２、第３
形態において目的信号が支配的でない周波数成分の減衰
量が騒音の重畳度に応じて制御され、音質が向上する。

【００１８】第５形態においては第３又は第４形態にお
いて目的信号の音源が無音状態と判定された場合におい
て、前記音源周波数成分抽出手段と前記騒音周波数成分
抑圧手段の出力または、時間波形変換手段の出力が減衰
され騒音抑圧効果が向上する。第６形態においては、第
１形態と同様に上記のように２つのマイクロホンに生じ
るレベル差が目的信号と騒音とで異なる点に着目して目
的信号が支配的な周波数成分の抽出処理を行うため、正
確な騒音スペクトルの推定を必要としない騒音抑圧処理
が可能になり、その結果ＳＮ比を改善した音声信号によ
る音声認識処理が可能となる。

【００１９】また、発声区間検出には、例えば、骨導マ
イクロホンの出力外耳道マイクロホンの出力、あるいは
カメラによる口元映像の分析結果を用いる。骨導音ある
いは外耳道音は、高周波数成分の減衰のため音質が充分
でないが、耐騒音性に優れているため、それらの出力信
号は騒音の影響による変形が小さいと考えられる。図２
１は、騒音下（ピンクノイズ）９０ｄＢＡの実験室環境
下で発声したときの気導音と骨導音の時間波形を比較し
たものである。この図より、骨導マイクロホンは、気導
マイクロホンと比較して発声／無発声区間が明確になっ
ていることが確認できる。この骨導マイクロホンあるい
は外耳道マイクロホンの出力信号を使うことによって騒
音下において精度の高い発声区間検出が可能となる。ま
た、テレビ電話などカメラの映像を利用するシステムで
は、話者の口元の映像情報を利用することによって周囲
騒音に依存しない発声区間検出が可能となる。

【００２０】第２形態を前提とする場合はその騒音周波
数成分抑圧処理によって、目的信号が支配的と判定され
なかった周波数成分に重畳している目的信号の成分が欠
落してしまうことによる処理信号の音質劣化を防ぎ、音
声認識精度を向上させる。第３形態を前提とする場合は
その無発声区間しきい値算出手段によって、音源周波数
成分選択部において目的信号が支配的な周波数成分の判
定精度を向上させ、音質劣化を防ぐことによって音声認
識精度を向上させる。

【００２１】第４形態を前提とする場合はその重み係数
算出手段によって、目的信号が支配的でない周波数成分
の減衰量を騒音の重畳度に応じて制御し、音質劣化を防
ぐことによって音声認識精度を向上させる。第７形態で
は目的信号の音源に近い位置に設置されたマイクロホン
と目的信号の音源から離れた位置に設置されたマイクロ
ホンのうち、前者のマイクロホンが後者のマイクロホン
に比べて口元に近い位置になるようにハンドセット、ヘ
ッドセット、イヤーマイクセットを組み込むことによっ
て、各々の送受話器において送話信号の耐騒音性能を向
上させ、また音声コマンド等を利用する際の音声認識精
度を向上させることが可能となる。

【００２２】

【発明の実施の形態】「実施例１」図１はこの発明の第
１形態の実施例を示すブロック図である。マイクロホン
１は近接音源用であって、マイクロホン２（遠隔音源
用）よりも目的信号の音源に近い位置に配置されてあ
る。マイクロホン１，２の出力は目的信号の音源からの
音に対してレベル差が大であるが、騒音の音源はマイク
ロホン１，２から十分遠くにあって、騒音によるマイク
ロホン１，２の出力のレベル差はゼロ乃至わずかであ
る。

【００２３】図７はこの発明の第１形態の実施例の処理
手順を示す流れ図である。まず、マイクロホン１，２に
騒音が重畳した目的信号が各々取り込まれ、それをディ
ジタル信号として読み込む（Ｓ０２）。読み込まれたマ
イクロホン１，２の信号を以下では、Ｌ，Ｒとする。ス
ペクトル変換部３，４では、取り込んだ信号Ｌ，Ｒをス
ペクトルＬ（ω_i）、Ｒ（ω_i）に変換する（Ｓ０
３）。この変換は、例えば離散的フーリエ変換によって
実行される。

【００２４】レベル差算出部５では、Ｌ（ω_i）、Ｒ
（ω_i）の各周波数成分について、以下の式で与えられ
るレベル差ΔＬＲ（ω_i）を計算する（Ｓ０４）。 ΔＬＲ（ω_i）＝２０ｌｏｇ１０（｜Ｌ（ω_i）｜／｜
Ｒ（ω_i）｜）上式中のω_iは周波数（ｉ＝１，２，…，ｎ）、｜Ｌ
（ω_i）｜、｜Ｒ（ω_i）｜は、各々Ｌ，Ｒ信号の振幅
スペクトル成分を表わす。

【００２５】音声周波数成分選択部６では、各周波数成
分についてΔＬＲ（ω_i）と予め設定されたしきい値Ｔ
ｈ（ω_i）の大小関係より、目的信号が支配的な周波数
の選択を行う。目的信号が支配的な周波数か否かの判定
条件は例えば以下の式によって決定される（Ｓ０５）。 ΔＬＲ（ω_i）＞Ｔｈ（ω_i） → 目的信号が支配的 ΔＬＲ（ω_i）≦Ｔｈ（ω_i） → 目的信号が支配的
でない音源周波数成分抽出部７では、Ｌ（ω_i）から、音源周
波数成分選択部６で選択した周波数について、目的信号
が支配的な周波数成分のみを抽出する（Ｓ０６）。

【００２６】最後に、（Ｓ０６）の出力を時間波形変換
部８において信号Ｌの位相スペクトルΦ（ω_i）を用い
て時間波形に変換し、時間波形信号を出力する（Ｓ０
７）。しきい値Ｔｈ（ω_i）はマイクロホン１，２と目
的信号音源（例えばマイクロホン１，２の使用者の口）
との相対関係から、実験的に決めることができる。「実施例２」第１形態では、目的信号が支配的な周波数
成分と判定されなかったものについては完全に除去す
る。しかし、音声と騒音の周波数成分が互いに重なって
いるような成分についても完全に除去してしまうと音質
の歪みの原因となり好ましくない。第２形態は、音声と
騒音の重畳した周波数成分において上記の「騒音成分の
抽出しすぎ」の問題を改善することによって、処理後の
音質を向上させるものである。

【００２７】図２は第２形態の実施例を示すブロック図
である。図２においてスペクトル変換部３と音源周波数
成分選択部６の各出力側に騒音周波数成分抑圧部９を接
続したことを除けば、図１と同じ動作である。以下で、
第２形態の実施例を示す図８の流れ図を用いて騒音周波
数成分抑圧部９における処理について説明する。騒音周
波数成分抑圧部９では、音源周波数成分選択部６におい
て目的信号が支配的でないと判定された周波数成分、す
なわち、 ΔＬＲ（ω_i）≦Ｔｈ（ω_i）を満たす、スペクトル変換部３の出力中の周波数成分Ｌ
（ω_i）について、外部より設定された重み係数ｗ（ω
_i）を乗じた値を騒音抑圧処理後のスペクトル成分Ｓ
（ω_i）とする（Ｓ０７）。

【００２８】Ｓ（ω_i）＝ｗ（ω_i）×Ｌ（ω_i）ｗ（ω_i）の値は、騒音抑圧量を重視したい帯域で小さ
な値（ｗ（ω_i）≒０）に設定し、音質を重視したい帯
域では大きな値（ｗ（ω_i）≒１）に設定すればよい。
目的信号が支配的と判定された周波数成分は第１形態の
実施例の場合と同様に音源周波数成分抽出部７で処理さ
れ、抽出された周波数成分はＳ（ω_i）とされる（Ｓ０
６）。

【００２９】Ｓ（ω_i）＝Ｌ（ω_i）騒音周波数成分抑圧部９と音源周波数成分抽出部７の出
力Ｓ（ω_i）は、時間波形合成部８において逆フーリエ
変換し、時間波形信号を出力する（Ｓ０８）。「実施例３」第１、第２形態では、音源周波数成分選択
部６において、ある周波数成分が目的信号が支配的であ
るか否かを判定するしきい値Ｔｈ（ω_i）を外部より設
定している。第３形態は、目的音源が無音状態であると
きの周囲騒音に生じているマイクロホン１，２間の各周
波数成分におけるレベル差を利用して、しきい値Ｔｈ
（ω_i）を算出し、修正することにより音源周波数成分
選択部６において目的信号が支配的であるか否かの判定
精度を向上させ、音質を向上させるものである。

【００３０】図３は第３形態の実施例を示すブロック図
である。図３において、音源周波数成分抽出部７の出力
側に音源無音区間判定部１０を接続し、その音源無音区
間判定部１０の出力側に音源無音区間しきい値算出部１
１を接続したことを除けば、図２と同じ動作である。以
下で、第３形態の実施例を示す図９の流れ図を用いて音
源無音区間判定部１０、および音源無音区間しきい値算
出部１１における処理について説明する。

【００３１】音源無音区間判定部１０では、音源周波数
成分抽出部７からまず第一に目的信号が支配的な振幅ス
ペクトルの和Ｐを求め（Ｓ０８）、Ｐと外部より設定し
たしきい値ＰＴｈとの大小関係より目的信号の音源の無
音状態を検出する（Ｓ０９）。Ｐ＞ＰＴｈ → 目的信号の音源が有音状態Ｐ≦ＰＴｈ → 目的信号の音源が無音状態音源無音区間判定部１０において、目的信号の音源が無
音状態と判定された場合には、音源無音区間しきい値算
出部１１においてしきい値Ｔｈ（ω_i）を算出する。例
えば、新しいしきい値を以下の式により算出する（Ｓ１
０，Ｓ１１）。Ｔｈ（ω_i）＝ΔＬＲ（ω_i）（ΔＬ
Ｒ（ω_i）＞Ｔｈ（ω_i）のときのみ）つまり、マイク
ロホン１，２の出力の周波数成分は、騒音に対しては本
来は互いにほぼ等しくΔＬＲ（ω_i）はゼロであるが、
反射などの関係である周波数成分については、ΔＬＲ
（ω_i）が比較的大となる。この音源無音区間でのΔＬ
Ｒ（ω_i）は、目的信号が存在する場合も、その騒音周
波数成分が存在し、この成分ではしきい値が高められ、
騒音が有効に除去される。なお必要に応じてＴｈ
（ω_i）がある程度以上大きくなるとリセットし、一時
的に騒音のΔＬＲ（ω_i）が大きくなったことがいつま
でも影響しないようにすることができる。

【００３２】「実施例４」第２形態および第３形態で
は、騒音周波数成分抑圧部９において目的信号が支配的
でない周波数成分に乗じる重み係数ｗ（ω_i）を外部よ
り設定している。第４形態は、レベル差算出部５により
算出された各周波数成分のレベル差ΔＬＲ（ω_i）とし
きい値Ｔｈ（ω_i）を利用して、重み係数ｗ（ω_i）を
算出することにより、騒音周波数成分抑圧部９において
各周波数成分の減衰量を騒音成分の重畳度に応じて制御
し、音質を向上させるものである。

【００３３】図４は第４形態の実施例を示すブロック図
である。レベル差算出部５及び音源周波数成分選択部６
の各出力側に重み係数算出部１２を接続したことを除け
ば、図３と同じ動作である。以下で、第４形態の実施例
を示す図１０の流れ図を用いて重み係数算出部１２にお
ける処理について説明する。重み係数算出部１２では、
音源周波数成分選択部６において目的信号が支配的でな
いと判定された周波数成分に対して乗じる重み係数ｗ
（ω_i）を例えば次式で算出する（Ｓ０７）。

【００３４】ｗ（ω_i）＝（ΔＬＲ（ω_i）／Ｔｈ（ω_i））^npw ｎｐｗの値としては騒音抑圧効果を高めたい場合に大き
な値とすればよい。この式で求められたｗ（ω_i）は、
騒音の重畳度が大きいときにはΔＬＲ（ω _i）は騒音ス
ペクトルのレベル差に支配されるため小さな値をとり、
騒音の重畳度が小さいときにはΔＬＲ（ω_i）は目的信
号のスペクトルのレベル差に支配されるため大きな値を
とる。なお、上式でｗ（ω_i）を計算した値が負となっ
た場合には、騒音が支配的な周波数成分と見なして、そ
の値を小さな値、例えば０とする。

【００３５】「実施例５」第５形態は、第３形態または
第４形態において音源無音区間検出部１０により目的信
号の音源が無音状態と判定された場合に、音源周波数成
分抽出部と騒音周波数成分抽出部の出力または、時間波
形変換部の出力を減衰させ、騒音抑圧効果を向上させる
ものである。

【００３６】図５は第５形態の実施例を示すブロック図
である。図５において、音源周波数成分抽出部７及び騒
音周波数成分抑圧部９と時間波形変換部８との間に音源
無音区間減衰部１３を挿入したことを除けば、図４と同
じ動作である。以下で、第５形態の発明の実施例を示す
図１１の流れ図を用いて音源無音区間減衰部１３におけ
る処理について説明する。

【００３７】音源無音区間減衰部１３では、音源無音区
間判定部１０において目的信号の音源が無音状態と判定
された場合には（Ｓ１０）、音源周波数成分抽出部７と
騒音周波数成分抑圧部９の出力Ｓ（ω_i）を全帯域にわ
たり減衰させる（Ｓ１３）。なお、音源無音区間減衰部
１３の処理は、時間波形変換部８の出力信号に対して行
ってもよく、その効果は（Ｓ１３）の処理による効果と
同等である。

【００３８】「実験例１」第４形態を適用した実験例を
以下に示す。目的信号は音声、騒音信号は駅のホームで
の周囲騒音を用い、マイクロホン１とマイクロホン２の
入力信号は、図１２に示すように計算機上で作成した。
つまり目的信号（音声）はマイクロホン２にはマイクロ
ホン１よりも６ｄＢ低下して入力されるが、騒音はマイ
クロホン１，２に同レベルで入力される。Ｓ／Ｎ比は目
的信号の平均電力と騒音信号の平均電力の比で定義し、
マイクロホン１におけるその値を−９ｄＢとした。信号
のスペクトル分解における周波数分解能は２２Ｈｚ、分
析フレームは４６ｍｓ、分析フレームの更新周期は２３
ｍｓとした。

【００３９】図１３は、マイクロホン１の処理前の目的
信号Ａ，騒音信号Ｂ，騒音信号＋目的信号Ｃ、そして処
理後の信号Ｄである。この図から、処理後の信号が処理
前の目的信号をよく復元していることが確認できる。「実施例６」図１４に第６形態の実施例を示し、図１と
対応する部分に同一符号を付けてある。この実施例では
発声検出部１４の出力が発声状態判定部１５へ供給さ
れ、発声状態判定部１５の出力は音声認識制御部１６に
入力される。時間波形変換部８の出力は音声蓄積部１７
に蓄積され、その蓄積された信号が音声認識処理部１８
で音声認識処理され、その認識結果は音声認識制御部１
６を介して出力される。

【００４０】図１５に第６形態の実施例の処理手順を示
す。この処理においてステップＳ０１〜Ｓ０６は図７の
処理と同一である。ステップＳ０５においてΔＬＲ（ω
_i）≦Ｔｈ（ω_i）である目的信号は支配的でない周波
数成分については騒音が支配的な周波数成分とみなして
小さな値ｅｐｓに変更する（Ｓ０７）。ｅｐｓの値は例
えば０としてステップＳ０８で時間波形に変換すること
は図７と同様である。

【００４１】発声検出部１４では、骨導あるいは外耳道
マイクロホン、またはカメラを接続して動作させること
が可能である。図１５には、骨導あるいは外耳道マイク
ロホンを接続して、発声状態判定部１５で目的信号の音
源の発声／無発声状態を判定する方法を示している。ま
ず第一に骨導あるいは外耳道マイクロホンの出力信号の
パワーＰＢを求める（Ｓ０９）。次に、ＰＢと外部より
設定されたしきい値ＰＴＨＢとの大小関係より目的信号
の音源の発声／無発声状態を判定する（Ｓ１０）。

【００４２】ＰＢ＞ＰＴＨＢ → 目的信号の音源が発声状態ＰＢ ≦ ＰＴＨＢ → 目的信号の音源が無発声状態なお、発声検出部１４にカメラを利用した場合には、例
えば口元の映像信号の変動を監視して発声状態判定を行
えばよい。音声認識制御部１６では、音声蓄積部１７
から音声認識処理部１８への音声データ入力、音声認
識結果の出力、の２つの制御を行う。の制御について
は、以下の−１、−２に示す二つの方法が考えられ
る。

【００４３】−１：発声区間に相当する時間波形変換
部８のデータのみを音声蓄積部１７に蓄積させ、音声認
識処理部１８に音声蓄積部１７のデータの全てを入力さ
せる方法 −２：音声蓄積部１７に時間波形変換部８のデータを
全て蓄積させ、その中から発声区間に相当するデータを
音声認識処理部１８に入力させる方法この実施例では
−１の制御方法の具体例を示す。

【００４４】音声認識制御部１６では、発声が始まった
瞬間、即ち、発声状態判定部１５において前処理フレー
ムが無発声状態と判定され、かつ現在のフレームが発声
状態と判定された瞬間に（Ｓ１０，Ｓ１１）音声蓄積部
１７のデータ入力端子をオンにする。この瞬間から、音
声蓄積部１７に時間波形変換部８の出力信号の蓄積が開
始される（Ｓ１２）。この蓄積は、発声状態判定部１５
において発声状態と判定されている間行われ、発声状態
から無発声状態に遷移した瞬間（発声状態判定部１５に
おいて、前処理フレームが発声状態と判定され、かつ現
在のフレームが無発声状態と判定された瞬間（Ｓ１
３））に終了する（Ｓ１４）。

【００４５】音声蓄積部１７での音声データ蓄積が終了
となったとき（Ｓ１４）、音声認識処理部１８では音声
蓄積部１７で蓄積されたデータが入力され、音声認識制
御部１６の命令を受けて音声認識処理が行われる（Ｓ１
５）。音声認識結果は音声認識制御部１６を介して外部
に出力される（前記の制御に相当する）。音声蓄積部
１７に蓄積された音声データについては音声認識処理部
１８に出力した直後にクリアーされる（Ｓ１６）。

【００４６】なお、使用する音声認識アルゴリズムが音
声のスペクトル情報のみを用い、音声の時間波形を必要
としない場合には、記憶装置等で蓄積される処理音声デ
ータは、（Ｓ０８）の時間波形出力でなく、処理された
スペクトル（Ｓ０６）と（Ｓ０７）としてもよい。その
場合、（Ｓ０８）の時間波形変換処理は不要となる。「実施例７」実施例２に実施例６の構成１４〜１８を付
加し、音声と騒音の重畳した周波数成分において上記の
「騒音成分の抽出しすぎ」の問題を改善することによっ
て、処理後の音質を向上させ、音声認識精度を向上させ
るものである。図２に図１４の構成１４〜１８が付加さ
れ、図８中のＳ０８の次に図１５のステップＳ０９〜Ｓ
１８が付加されたものとなる。

【００４７】「実施例８」実施例３に実施例６の構成１
４〜１８を付加して、目的信号の音源が無音状態（無発
声区間）であるときの周囲騒音に生じているマイクロホ
ン１，２間の各周波数成分におけるレベル差を利用し
て、しきい値Ｔｈ（ω_i）を算出し、修正することによ
り音源周波数成分選択部６において目的信号が支配的で
あるか否かの判定精度を向上させ、音質劣化を防ぐこと
によって、音声認識精度を向上させるものである。この
場合は図１６に示すように図３に対し図１４中の構成１
４〜１８を付加し、かつ図３中の音源無音区間判定部１
０を省略して発声状態判定部１５の出力を無発声（音源
無音）区間しきい値算出部１１へ入力する。この実施例
の処理の流れは図１７に示すように図１５に対し、発声
状態判定部１５において、目的信号の音源が無音状態と
判定された場合には（Ｓ２０）、無発声区間しきい値算
出部１１においてしきい値Ｔｈ（ω_i）を算出する。例
えば、新しいしきい値を以下の式により算出し（Ｓ１
７，Ｓ１８）、ステップＳ０２に戻る。Ｔｈ（ω_i）＝
ΔＬＲ（ω_i）（ΔＬＲ（ω_i）＞Ｔｈ（ω_i）のと
きのみ）発声検出部１４と発声状態判定部１５を省略
し、代りに音源無音区間判定部１０を用いてもよい。

【００４８】「実施例９」この実施例は、レベル差算出
部５により算出された各周波数成分のレベル差ΔＬＲ
（ω_i）としきい値Ｔｈ（ω_i）を利用して、重み係数
ｗ（ω_i）を算出することにより、騒音周波数成分抑圧
部９において各周波数成分の減衰量を騒音成分の重畳度
に応じて制御し、音質劣化を防ぐことによって音声認識
精度を向上させるものである。図１６の構成に対し、図
４中の重み係数算出部１２が付加され、これに応じて処
理の流れは図１０中のステップＳ０７が図１７に対し加
わる。

【００４９】「実験例２」実施例６を適用した実験例を
以下に示す。発声区間検出部１４の入力信号として骨導
マイクロホンの出力を用いた。図１８Ａに示す収音条
件、つまり騒音源から１５０ｃｍ離れ、第１、第２マイ
クロホン１，２の間隔が１０ｃｍであり、かつ図１８Ｂ
に実験条件を示す。

【００５０】図１９は、マイクロホン１の出力（処理
前）、実施例６の騒音抑圧処理を行った出力（処理後）
の音声認識率を求めた結果である。この図から、高騒音
下において、処理後の信号が処理前の信号よりも音声認
識率を改善していることがわかる。図６に第７形態の実
施例を示す。図６Ａはハンドセット２１にマイクロホン
１とマイクロホン２を取付けた場合である。ハンドセッ
ト２１の使用状態においてマイクロホン１はその使用者
の口２２、つまり目的信号の音源近くに位置され、マイ
クロホン２はハンドセット２１の受話器部分、つまり耳
２３の近くに位置するようにされている。

【００５１】図６Ｂはヘッドセット２５にマイクロホン
１，２を取付けた場合でヘッドセット２５を使用者の頭
部２６に装着した使用状態で、その耳２３に対接される
受話器２７の部分にマイクロホン２が取付けられ、この
受話器２７の部分から、支持アーム２８が延長され、支
持アーム２８の遊端部が口２２の近くに位置し、ここに
マイクロホン１が取付けられる。

【００５２】図６Ｃはイヤーマイクセット３１に取付け
た場合で、イヤーマイクセット３１が耳２３の部分に取
付けられた状態で、アーム３２が口２２側に延長され、
これにマイクロホン１が取付けられ、このアーム３２と
反対にアーム３３が延長され、これにマイクロホン２が
取付けられる。

【００５３】

【発明の効果】以上、説明したように、第１形態の発明
によれば、目的信号の音源に近い位置に設置されたマイ
クロホンと、前記位置より目的信号の音源から離れた位
置に設置されたマイクロホンと、各々の出力信号を振幅
スペクトルと位相スペクトルに変換し、その各周波数成
分ごとの振幅スペクトルについて、レベル差を計算し、
この各周波数成分ごとのレベル差と、予め設定されたし
きい値とを比較し、前記レベル差がしきい値よりも大き
い周波数成分を目的信号が支配的な周波数成分と判定
し、これら周波数成分を前記目的信号の音源に近い位置
に設置されたマイクロホンの出力信号の振幅スペクトル
から抽出し、これら抽出された目的信号が支配的な周波
数成分の振幅スペクトルを前記目的信号の音源に近いマ
イクロホンの前記スペクトル変換の際に算出された位相
スペクトルを用いて時間波形に変換することにより、正
確な騒音スペクトル成分を推定することなく騒音抑圧処
理が可能である。したがって、非定常騒音など騒音スペ
クトルの推定が難しい場合でも目的信号の抽出が可能な
収音装置が得られる。

【００５４】第２形態の発明によれば、第１形態の収音
装置において、前記目的信号が支配的と判定されなかっ
た周波数成分に対して予め設定された重み係数を乗じて
騒音周波数成分を抑圧し、この抑圧された成分も、前記
時間波形変換においては、前記目的信号の音源に近いマ
イクロホンにより算出される位相スペクトルを用いて時
間波形に変換することにより、目的信号として抽出され
なかった周波数帯域に存在していた目的信号の周波数成
分が欠落することによる音質劣化を改善することが可能
な収音装置が得られる。

【００５５】第３形態の発明によれば、第１形態または
第２形態の収音装置において、前記音源周波数成分抽出
において目的信号が支配的と判定された周波数成分の振
幅スペクトルの大きさと、予め設定された無音区間判定
しきい値とを比較し、前記振幅スペクトルが前記無音区
間判定しきい値よりも小さいとき目的信号の音源が無音
状態であると判定し、無音状態と判定された場合には、
前記音源周波数成分選択に用いるしきい値を、前記レベ
ル差以上となるように更新するので、音源周波数成分選
択において目的信号が支配的な周波数成分抽出精度が向
上し、処理後の信号の品質向上が可能な収音装置が得ら
れる。

【００５６】第４形態の発明では、第２形態または第３
形態の収音装置において、前記騒音周波数成分抑圧にお
いて目的信号が支配的と判定されなかった周波数成分に
乗ずる重み係数を、前記各周波数成分のレベル差と前記
音源周波数成分選択時のしきい値との大小関係を比較し
て算出しているので、騒音周波数成分抑圧において、各
周波数成分の減衰量を騒音の重畳度に応じて決定するこ
とが可能な収音装置が得られる。

【００５７】第５形態の発明では、第３形態または第４
形態の収音装置において、目的信号の音源が無音状態と
判定された場合において、前記音源周波数成分抽出出力
と前記騒音周波数成分抑圧の出力または、前記時間波形
変換手段の出力を減衰させているので、目的信号の音源
が無音状態のときは信号が減衰され、これにより騒音が
抑圧され、さらに騒音の少ない収音装置が得られる。

【００５８】第６形態の発明では、第１乃至第４形態の
何れか１つとほぼ同様の構成を含み、更に音声蓄積手
段、音声認識処理手段を有し、前記発声状態判定手段の
出力結果を利用して、発声区間の音声データのみを前記
音声認識処理手段に入力し、及び前記音声認識処理手段
で処理された認識結果を出力するようにしているので、
正確な騒音スペクトル成分を推定することなく騒音抑圧
処理が可能である。したがって、非定常騒音など騒音ス
ペクトルの推定が難しい場合でも目的信号の抽出が可能
であり、音声認識精度を向上させた音声認識装置が得ら
れる。また、発声区間検出には、例えば骨導あるいは外
耳道マイクロホン、またはカメラを利用することによ
り、周囲騒音の影響をほとんど受けないか、あるいは全
く受けない発声区間検出が可能となり、それによってさ
らに音声認識精度を向上させた音声認識装置が得られ
る。

【００５９】第７形態の発明は、第１乃至第６形態の収
音装置又は音声認識装置において、前記目的信号の音源
に近い位置に設置されたマイクロホンと前記目的信号の
音源から離れた位置に設置されたマイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
時に口元に近い位置になるようにハンドセット、ヘッド
セット、イヤーマイクセットに組み込まれているので、
従来のハンドセット、ヘッドセット、イヤーマイクセッ
トにおいて送話信号の耐騒音性能を向上させることが可
能となり、また各々の送受話器において音声コマンド等
を利用する際の音声認識精度を向上させることが可能と
なる。従来、耐騒音性に優れた送話信号を得るイヤーマ
イクセットとして骨導マイクロホンとレシーバを一体化
したものがある。しかし骨導マイクロホンによって収音
された音声は周波数成分が低周波成分に偏っており、高
周波成分が少ないため、音質が悪い。また骨導マイクロ
ホンとレシーバとの音響結合の問題もある。しかしこの
第７形態の発明では、気導音をベースとした収音であ
り、レシーバとマイクロホン間の距離も確保できるた
め、上記の問題を持たないイヤーマイクセットの提供が
可能となる。

【００６０】なお、以上の説明で使用したマイクロホン
は、無指向性マイクロホンに限定されるものではなく、
例えば、マイクロホン１は、目的信号の音源の方向に指
向性を有するマイクロホンを使用し、マイクロホン２
は、目的信号の音源と反対の方向に指向性を有するマイ
クロホンを使用してもよい。この場合、目的信号の音源
方向のみに鋭い指向性を有する超指向性マイクロホンと
して利用できる。

【００６１】この発明における収音装置は、騒音抑圧が
必要な各種収音装置のほか、通話を目的とした電話装置
や、音声認識の入力装置にも利用できる。また図１乃至
図５、図１４、図１６は機能構成を示すものであって、
マイクロプロセッサを主体とする手段により各機能を構
成させることもでき、つまりコンピュータによりプログ
ラムを読出し、解読実行させることによって機能させる
こともできる。

【図面の簡単な説明】

【図１】請求項１の発明の実施例の機能的構成を示すブ
ロック図。

【図２】請求項２の発明の実施例の機能的構成を示すブ
ロック図。

【図３】請求項３の発明の実施例の機能的構成を示すブ
ロック図。

【図４】請求項４の発明の実施例の機能的構成を示すブ
ロック図。

【図５】請求項５の発明の実施例の機能的構成を示すブ
ロック図。

【図６】この発明の第７形態の概略構成例を示す図。

【図７】請求項１の発明の実施例の動作手順を示す流れ
図。

【図８】請求項２の発明の実施例の動作手順を示す流れ
図。

【図９】請求項３の発明の実施例の動作手順を示す流れ
図。

【図１０】請求項４の発明の実施例の動作手順を示す流
れ図。

【図１１】請求項５の発明の実施例の動作手順を示す流
れ図。

【図１２】請求項４の発明を適用したシミュレーション
実験例における信号と騒音の印加例を示す図。

【図１３】請求項４の発明を用いた実験例における処理
前の目的信号、騒音信号、騒音＋目的信号、及び処理後
の信号のそれぞれを示す図。

【図１４】請求項２３の発明の実施例の機能的構成を示
すブロック図。

【図１５】図１４の実施例の動作手順を示す流れ図。

【図１６】請求項２０の発明の実施例の機能的構成を示
すブロック図。

【図１７】図１６の実施例の動作手順を示す流れ図。

【図１８】Ａは請求項２３の発明を適用したシュミレー
ション実験例における騒音と信号の印加例を示す図、Ｂ
はその実験条件を示す図。

【図１９】図１８の実験結果を示す図。

【図２０】従来の技術を説明する流れ図。

【図２１】騒音（ピンクノイズ）９０ｄＢＡの実験室環
境下で発声した気導音と骨導音の時間波形の比較例を示
す図。

フロントページの続き (56)参考文献特開平９−212196（ＪＰ，Ａ) 特開昭59−68800（ＪＰ，Ａ) 特開昭56−46300（ＪＰ，Ａ) 特開平４−16900（ＪＰ，Ａ) 特開平４−184400（ＪＰ，Ａ) 特開平11−249693（ＪＰ，Ａ) 特開平11−259090（ＪＰ，Ａ) 特許2863214（ＪＰ，Ｂ２) 特許3355598（ＪＰ，Ｂ２) 高野，青木，岡本，松井，発声音声の音場分布差を利用した騒音抑圧処理，電子情報通信学会1998年総合大会講演論文集情報・システム１，日本，1998年３月27日，Ｄ−14−16，Ｐａｇｅ 227 高野，青木，岡本，中台，松井，音声の音場分布差を利用した騒音抑圧処理の音声認識への適用について，電子情報通信学会1998年基礎・境界ソサイエティ大会講演論文集，日本，1998年９月29 日，ＳＡ−６−１，Ｐａｇｅ 241 青木，青木，チャネル間情報を利用した２音源分離手法の実環境における検討，日本音響学会平成９年春季研究発表会講演論文集Ｉ，日本，1997年３月17 日，２−３−５，Ｐａｇｅｓ 513−514 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/00 - 21/02

Claims

(57)【特許請求の範囲】

【請求項１】目的信号の音源に近い位置に設置された
第１マイクロホンと、前記位置より前記目的信号の音源から離れた位置に設置
された第２マイクロホンと、前記第１，第２マイクロホンの各々の出力信号を振幅ス
ペクトルと位相スペクトルに変換する第１，第２スペク
トル変換手段と、前記第１，第２スペクトル変換手段から出力される、各
対応する周波数成分ごとの振幅スペクトルのレベル差を
計算するレベル差算出手段と、前記レベル差算出手段より出力される各周波数成分ごと
のレベル差と、予め設定されたしきい値とを比較し、前
記レベル差がしきい値よりも大きい周波数成分を目的信
号が支配的な周波数成分と判定する音源周波数成分選択
手段と、前記第１マイクロホンの出力信号の振幅スペクトルか
ら、前記判定にもとづき前記目的信号が支配的と判定さ
れた周波数成分を抽出する音源周波数成分抽出手段と、前記音源周波数成分抽出手段より抽出された振幅スペク
トルを、前記第１スペクトル変換手段により算出される
位相スペクトルを用いて時間波形に変換する時間波形変
換手段を有することを特徴とする収音装置。
【請求項２】請求項１記載の収音装置において、前記音源周波数成分選択手段において目的信号が支配的
と判定されなかった周波数成分の前記第１スペクトル変
換手段の出力周波数成分に対して予め設定された重み係
数を乗ずる騒音周波数成分抑圧手段を具備し、前記時間波形変換手段においては、前記音源周波数成分
抽出手段および前記騒音周波数成分抑圧手段により処理
された周波数成分を、前記スペクトル変換手段で算出さ
れる対応周波数の位相スペクトルを用いて時間波形に変
換することを特徴とする収音装置。
【請求項３】請求項１または請求項２記載の収音装置
において、前記音源周波数成分抽出手段の出力振幅スペクトルの大
きさと、予め設定された無音区間判定しきい値とを比較
し、前記振幅スペクトルが前記無音区間判定しきい値よ
りも小さいとき目的信号の音源が無音状態であると判定
する音源無音区間判定手段と、前記音源無音区間判定手段により目的信号の音源が無音
状態と判定された場合において、前記音源周波数成分選
択手段に用いるしきい値を、前記レベル差算出手段より
出力されるレベル差以上に更新するしきい値算出手段を
具備することを特徴とする収音装置。
【請求項４】請求項２または請求項３記載の収音装置
において、前記騒音周波数成分抑圧手段において目的信号が支配的
と判定されなかった周波数成分に乗ずる重み係数を、前
記レベル差算出手段よりの各周波数成分のレベル差と前
記音源周波数成分選択手段のしきい値の大小関係を比較
して算出する重み係数算出手段を具備することを特徴と
する収音装置。
【請求項５】請求項３または請求項４記載の収音装置
において、前記音源無音区間判定手段により目的信号の音源が無音
状態と判定された場合において、前記音源周波数成分抽
出手段と前記騒音周波数成分抑圧手段の出力または、前
記時間波形変換手段の出力を減衰させる音源無音区間減
衰手段を具備することを特徴とする収音装置。
【請求項６】請求項１，請求項２，請求項３，請求項
４、または請求項５記載の収音装置において、前記第１マイクロホンと前記第２マイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
状態において、その使用者の口元に近い位置になるよう
にハンドセット、ヘッドセット、イヤーマイクセットな
どに組み込まれていることを特徴とする収音装置。
【請求項７】目的信号の音源に近い位置に第１マイク
ロホンを設置し、前記位置より前記目的信号の音源から離れた位置に第２
マイクロホンを設置し、前記第１，第２マイクロホンの各々の出力信号を第１、
第２振幅スペクトルと第１、第２位相スペクトルにそれ
ぞれ変換し、前記第１，第２振幅スペクトルのレベル差を、各対応す
る周波数成分ごとに計算し、前記計算された各周波数成分ごとのレベル差と、予め設
定されたしきい値とを比較し、前記レベル差がしきい値
よりも大きい周波数成分を目的信号が支配的な周波数成
分と判定し、その判定にもとづき前記第１振幅スペクトルから前記判
定にもとづき、前記目的信号が支配的と判定された周波
数成分を抽出し、前記抽出された周波数成分を、前記第１位相スペクトル
を用いて時間波形に変換することを特徴とする収音方
法。
【請求項８】請求項７記載の収音方法において、前記しきい値との比較において目的信号が支配的と判定
されなかった周波数成分の前記第１振幅スペクトルに対
して予め設定された重み係数を乗じ、前記時間波形変換時に、前記重み係数が乗じられた周波
数成分に対しても対応周波数の第１位相スペクトルを用
いて時間波形に変換することを特徴とする収音方法。
【請求項９】請求項７または請求項８記載の収音方法
において、前記目的信号が支配的と判定された周波数成分の第１振
幅スペクトルの大きさと、予め設定された無音区間判定
しきい値とを比較し、前記第１振幅スペクトルが前記無
音区間判定しきい値よりも小さいとき目的信号の音源が
無音状態であると判定し、目的信号の音源が無音状態と判定された場合において、
前記目的信号が支配的な周波数成分か否かの判定に用い
るしきい値を、前記レベル差以上に更新することを特徴
とする収音方法。
【請求項１０】請求項８または請求項９記載の収音方
法において、前記目的信号が支配的と判定されなかった周波数成分に
乗ずる重み係数を、前記各周波数成分のレベル差と、前
記レベル差と比較するしきい値の大小関係とを比較して
算出することを特徴とする収音方法。
【請求項１１】請求項９または請求項１０記載の収音
方法において、前記目的信号の音源が無音状態と判定された場合におい
て、前記目的信号が支配的と判定されて抽出された周波
数成分と、前記重み係数が乗じられた目的信号が支配的
と判定されなかった周波数成分、または、前記時間波形
変換された信号を減衰させることを特徴とする収音方
法。
【請求項１２】請求項７，請求項８，請求項９，請求
項１０、または請求項１１記載の収音方法において、前記第１マイクロホンと前記第２マイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
状態において、その使用者の口元に近い位置になるよう
にハンドセット、ヘッドセット、イヤーマイクセットな
どに組み込むことを特徴とする収音方法。
【請求項１３】目的信号の音源に近い位置に設置され
た第１マイクロホンと前記位置より前記目的信号の音源
から離れた位置に設置された第２マイクロホンとの各々
の出力信号をそれぞれ第１、第２振幅スペクトルと第
１、第２位相スペクトルに変換する処理と、前記第１，第２振幅スペクトルのレベル差を各対応する
周波数成分ごとに計算する処理と、前記計算されたレベル差を各周波数成分ごとに、予め設
定されたしきい値とを比較し、前記レベル差がしきい値
よりも大きい周波数成分を目的信号が支配的な周波数成
分と判定する第１判定処理と、前記第１振幅スペクトルから、前記第１判定処理にもと
づき前記目的信号が支配的と判定された周波数成分を抽
出する処理と、前記抽出された第１振幅スペクトルを、前記第１位相ス
ペクトルを用いて時間波形に変換する時間波形変換処理
とを収音装置のコンピュータに実行させるプログラムを
記録した記録媒体。
【請求項１４】請求項１３記載の記録媒体において、前記第１判定処理において目的信号が支配的と判定され
なかった周波数成分の前記第１振幅スペクトルに対して
予め設定された重み係数を乗ずる騒音抑圧処理と、前記時間波形変換処理においては、前記重み係数が乗じ
られた周波数成分に対しても対応周波数の第１位相スペ
クトルを用いて時間波形に変換することを前記コンピュ
ータに行わせるプログラムを前記プログラムが有するこ
とを特徴とする記録媒体。
【請求項１５】請求項１３または請求項１４記載の記
録媒体において、前記目的信号が支配的と判定された周波数成分の第１振
幅スペクトルの大きさと、予め設定された無音区間判定
しきい値とを比較し、前記第１振幅スペクトルが前記無
音区間判定しきい値よりも小さいとき目的信号の音源が
無音状態であると判定する第２判定処理と、前記第２判定処理により目的信号の音源が無音状態と判
定された場合において、前記第１判定処理に用いるしき
い値を、前記レベル差以上に更新する処理とを前記コン
ピュータに行わせるプログラムを前記プログラムが有す
ることを特徴とする記録媒体。
【請求項１６】請求項１４または請求項１５記載の記
録媒体において、前記騒音抑圧処理で乗ずる重み係数を、前記各周波数成
分のレベル差と前記第１判定処理で用いるしきい値の大
小関係を比較して算出する処理と前記コンピュータに行
わせるプログラムを前記プログラムが含むことを特徴と
する記録媒体。
【請求項１７】請求項１５または請求項１６記載の記
録媒体において、前記第２判定処理により目的信号の音源が無音状態と判
定された場合に、前記目的信号が支配的と判定されて抽
出された周波数成分と前記騒音抑圧処理の出力または、
前記時間波形変換処理の出力を減衰させる処理を前記コ
ンピュータに行わせるプログラムを前記プログラムが有
することを特徴とする記録媒体。
【請求項１８】目的信号（音声信号）の音源に近い位
置に設置された第１マイクロホンと、前記位置より目的信号の音源から離れた位置に設置され
た第２マイクロホンと、前記第１，第２マイクロホンの各々の出力信号を第１、
第２振幅スペクトルと第１、第２位相スペクトルに変換
する第１，第２スペクトル変換手段と、前記第１，第２スペクトル変換手段から出力される、各
対応周波数成分ごとの第１、第２振幅スペクトルのレベ
ル差を計算するレベル差算出手段と、前記レベル差算出手段より出力される各周波数成分ごと
のレベル差と、予め設定されたしきい値とを比較し、前
記レベル差がしきい値よりも大きい周波数成分を目的信
号が支配的な周波数成分と判定する音源周波数成分選択
手段と、前記第１マイクロホンの出力信号の第１振幅スペクトル
から、前記判定にもとづき前記目的信号が支配的と判定
された周波数成分を抽出する音源周波数成分抽出手段
と、前記音源周波数成分抽出手段により抽出された第１振幅
スペクトルを前記第１位相スペクトルを用いて時間波形
に変換する時間波形変換手段と、前記目的信号の音源が発声状態か無発声状態かのいずれ
かを判定する発声状態判定手段と、前記時間波形変換手段の出力を蓄積する音声蓄積手段
と、前記音声蓄積手段の出力を利用して音声認識を行う音声
認識処理手段と、前記発声状態判定手段の出力結果を利用して、発声区間
の音声データのみを前記音声認識処理手段に入力する制
御、及び前記音声認識処理手段で処理された認識結果を
出力する制御を行う音声認識制御手段とを有することを
特徴とする音声認識装置。
【請求項１９】請求項１８記載の音声認識装置におい
て、前記音源周波数成分選択手段において目的信号が支配的
と判定されなかった周波数成分に対して予め設定された
重み係数を乗ずる騒音周波数成分抑圧手段を具備し、前記時間波形変換手段においては、前記音源周波数成分
抽出手段および前記騒音周波数成分抑圧手段により処理
された周波数成分を前記第１位相スペクトルを用いて時
間波形に変換することを特徴とする音声認識装置。
【請求項２０】請求項１８または請求項１９記載の音
声認識装置において、前記発声状態検出手段により目的信号の音源が無音状態
と判定された場合において、前記レベル差算出手段より
出力されるレベル差以上となるように、前記音源周波数
成分選択手段に用いるしきい値を算出し更新するしきい
値算出手段を具備することを特徴とする音声認識装置。
【請求項２１】請求項１９または請求項２０記載の音
声認識装置において、前記騒音周波数成分抑圧手段において目的信号が支配的
と判定されなかった周波数成分に乗ずる重み係数を、前
記レベル差算出手段よりの各周波数成分のレベル差と前
記音源周波数成分選択手段のしきい値の大小関係を比較
して算出する重み係数算出手段を具備することを特徴と
する音声認識装置。
【請求項２２】請求項１８、１９、２０、または２１
記載の音声認識装置において、前記第１マイクロホンと前記第２マイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
状態で、その使用者の口元に近い位置になるようにハン
ドセット、ヘッドセット、イヤーマイクセットに組み込
まれたことを特徴とする音声認識装置。
【請求項２３】請求項１８乃至２２の何れかの音声認
識装置において、前記発声状態判定手段は、目的信号の音源の発声状態を
検出する発声検出手段を備え、その発声検出手段の出力
結果により、前記目的信号の音源が発声状態か無発声状
態かのいずれかを判定することを特徴とする音声認識装
置。
【請求項２４】請求項１８乃至２２の何れかの音声認
識装置において、前記発声状態判定手段は、前記音源周波数成分抽出手段
の出力振幅スペクトルの大きさと、予め設定された無音
区間判定しきい値とを比較し、前記振幅スペクトルが前
記無音区間判定しきい値よりも小さいとき前記目的信号
の音源が無発声状態であると判定する手段であることを
特徴とする音声認識装置。
【請求項２５】目的信号（音声信号）の音源に近い位
置に第１マイクロホンを設置し、前記位置より目的信号の音源から離れた位置に第２マイ
クロホンを設置し、前記第１，第２マイクロホンの各々の出力信号を第１、
第２振幅スペクトルと第１、第２位相スペクトルにそれ
ぞれ変換し、前記第１，第２振幅スペクトルのレベル差を、各対応す
る周波数成分ごとに計算し、前記計算された各周波数成分ごとのレベル差と、予め設
定されたしきい値とを比較し、前記レベル差がしきい値
よりも大きい周波数成分を目的信号が支配的な周波数成
分と第１判定手段で判定し、前記第１振幅スペクトルから、前記第１判定手段の判定
により、目的信号が支配的と判定された周波数成分を抽
出し、前記目的信号が支配的な周波数成分の第１振幅スベクト
ルを前記第１位相スペクトルを用いて時間波形に時間波
形変換手段により変換し、前記目的信号の音源が発声状態か無発声状態かのいずれ
かを判定し、前記時間波形変換手段の出力を音声蓄積手段に蓄積し、前記音声蓄積手段の出力を利用して音声認識を音声認識
処理手段で行い、前記発声状態の音声データのみを前記音声認識処理手段
に入力し、及び前記音声認識処理手段で処理された認識
結果を出力することを特徴とする音声認識方法。
【請求項２６】請求項２５記載の音声認識方法におい
て、前記しきい値との比較において目的信号が支配的と判定
されなかった周波数成分の第１振幅スペクトルに対して
予め設定された重み係数を乗じ、前記時間波形変換手段において、前記重み係数が乗じら
れた周波数成分に対しても、対応周波数の前記第１位相
スペクトルを用いて時間波形に変換することを特徴とす
る音声認識方法。
【請求項２７】請求項２５または請求項２６記載の音
声認識方法において、前記目的信号の音源が無音状態と判定された場合におい
て、前記レベル差以上となるように、前記第１判定手段
に用いるしきい値を更新することを特徴とする音声認識
方法。
【請求項２８】請求項２６または請求項２７記載の音
声認識方法において、前記目的信号が支配的と判定されなかった周波数成分に
乗ずる重み係数を、各周波数成分のレベル差と、前記第
１判定手段のしきい値の大小関係を比較して算出するこ
とを特徴とする音声認識方法。
【請求項２９】請求項２５、２６、２７、または２８
記載の音声認識方法において、前記第１マイクロホンと前記第２マイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
状態で使用者の口元に近い位置になるようにハンドセッ
ト、ヘッドセット、イヤーマイクセットに組み込んで用
いることを特徴とする音声認識方法。
【請求項３０】請求項２５乃至２９の何れかに記載の
音声認識方法において、前記発声状態判定は、目的信号の音源の発声状態を検出
する発声検出手段を設け、その発声検出手段の出力結果
により、前記目的信号の音源が発声状態か無発声状態か
のいずれかを判定することを特徴とする音声認識方法。
【請求項３１】請求項２５乃至２９の何れかに記載の
音声認識方法において、前記発声状態判定は、前記第１判定手段の判定にもとづ
き抽出された目的信号が支配的と判定された第１振幅ス
ペクトルの大きさと、予め設定された無音区間判定しき
い値とを比較し、前記第１振幅スペクトルが前記無音区
間判定しきい値よりも小さいとき前記目的信号の音源が
無発声状態であると判定することを特徴とする音声認識
方法。
【請求項３２】目的信号（音声信号）の音源に近い位
置に設置された第１マイクロホンと、前記位置より目的
信号の音源から離れた位置に設置された第２マイクロホ
ンの各々の出力信号を第１，第２振幅スペクトルと第
１、第２位相スペクトルにそれぞれ変換する処理と、各周波数ごとに前記第１，第２振幅スペクトルのレベル
差を計算し、前記計算されたレベル差と、予め設定されたしきい値と
を比較し、前記レベル差がしきい値よりも大きい周波数
成分を目的信号が支配的な周波数成分と判定する第１判
定処理と、前記第１振幅スペクトルから、前記第１判定処理にもと
づき、目的信号が支配的と判定された周波数成分を抽出
する処理と、前記抽出された周波数成分の第１振幅スペクトルを、対
応周波数の前記第１位相スペクトルを用いて時間波形に
変換する時間波形変換処理と、目的信号の音源が発声状態か無発声状態かのいずれかを
判定する第２判定処理と、前記時間波形変換処理の出力を音声蓄積手段に蓄積する
処理と、前記音声蓄積手段の出力を利用して音声認識処理手段に
より音声認識を行う処理と、前記第２判定処理の結果を利用して、発声区間の音声デ
ータのみを前記音声認識処理手段に入力し、及び前記音
声認識処理手段で処理された認識結果を出力する処理と
をコンピュータにより実行させるプログラムを記録した
記録媒体。
【請求項３３】請求項３２記載の記録媒体において、前記第１判定処理において目的信号が支配的と判定され
なかった周波数成分に対して予め設定された重み係数を
乗ずる処理と、前記時間波形変換処理においては、前記重み係数が乗じ
られた周波数成分に対しても、対応周波数の前記第１位
相スペクトルを用いて時間波形に変換することを前記コ
ンピュータに実行させるプログラムを前記プログラムが
有することを特徴とする記録媒体。
【請求項３４】請求項３２または請求項３３記載の記
録媒体において、前記第２判定処理により目的信号の音源が無音状態と判
定された場合において、前記レベル差以上となるよう
に、前記第１判定処理に用いるしきい値を算出し更新す
る処理を前記コンピュータに実行させるプログラムを前
記プログラムが有することを特徴とする記録媒体。
【請求項３５】請求項３３または請求項３４記載の記
録媒体において、前記目的信号が支配的と判定されなかった周波数成分に
乗ずる重み係数を、前記レベル差と前記第１判定処理の
しきい値の大小関係を比較して算出する処理を前記コン
ピュータに実行させるプログラムを前記プログラムが有
することを特徴とする記録媒体。
【請求項３６】請求項３２乃至３５の何れかに記載の
記録媒体において、前記第２判定処理は、目的信号の音源の発声状態を検出
する発声検出手段の出力結果により、前記目的信号の音
源が発声状態か無発声状態かのいずれかを判定すること
を特徴とする記録媒体。
【請求項３７】請求項３２乃至３５の何れかに記載の
記録媒体において、前記第２判定処理は、前記第１判定処理の判定にもとづ
き抽出された目的信号が支配的と判定された第１振幅ス
ペクトルの大きさと、予め設定された無音区間判定しき
い値とを比較し、前記第１振幅スペクトルが前記無音区
間判定しきい値よりも小さいとき前記目的信号の音源が
無発声状態であると判定することを特徴とする記録媒
体。