JP3434215B2 - 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 - Google Patents

収音装置,音声認識装置,これらの方法、及びプログラム記録媒体

Info

Publication number
JP3434215B2
JP3434215B2 JP23256598A JP23256598A JP3434215B2 JP 3434215 B2 JP3434215 B2 JP 3434215B2 JP 23256598 A JP23256598 A JP 23256598A JP 23256598 A JP23256598 A JP 23256598A JP 3434215 B2 JP3434215 B2 JP 3434215B2
Authority
JP
Japan
Prior art keywords
frequency component
target signal
sound source
microphone
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23256598A
Other languages
English (en)
Other versions
JPH11305792A (ja
Inventor
智大 高野
弘行 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23256598A priority Critical patent/JP3434215B2/ja
Publication of JPH11305792A publication Critical patent/JPH11305792A/ja
Application granted granted Critical
Publication of JP3434215B2 publication Critical patent/JP3434215B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、周囲騒音が混在
した音源信号に対し、周囲騒音成分を抑圧し、目的信号
を抽出する収音装置、その収音機能を有し、高い認識率
を得る音声認識装置、これらの方法、およびプログラム
記録媒体に関するものである。
【0002】
【従来の技術】騒音下で、SN比よく目的信号を抽出す
る従来技術として、騒音が重畳した目的信号の振幅スペ
クトルから騒音信号(推定値)の振幅スペクトルを差し
引くスペクトルサブトラクション法がある。(例えば、
“S.F.Boll,‘Suppression of
acoustic noise in speech
using spectral subtractio
n’,IEEE Trans.,ASSP,Vol.2
7,No.2,p113−120,(1979)”) 図20は、従来技術の一例を説明する流れ図である。ま
ず、気導マイクロホン(音響信号を空気を媒体として受
音する)の出力信号Lをスペクトルに変換する(S0
1)。つぎに、気導マイクロホンの出力信号Lの振幅ス
ペクトルから推定された騒音の振幅スペクトルを差し引
くことで騒音の除去されたスペクトルS(ωi )を求め
る(S02)。そして、スペクトルS(ωi )を気導マ
イクロホンの出力信号Lの位相スペクトルを用いて時間
波形に変換して、騒音が抑圧された目的信号を得る(S
03)。
【0003】上記の処理で騒音スペクトルを推定する方
法として、例えば、騒音収音用のマイクロホンを設置
して騒音スペクトルを求める方法、目的音源の無音区
間から得た騒音スペクトルを用いる方法、が利用されて
いる。しかし、これらの騒音推定方法には騒音スペクト
ル推定誤差を引き起こす以下のような問題点が含まれて
いる。
【0004】
【発明が解決しようとする課題】の方法では目的信号
収音用マイクロホンと騒音収音用マイクロホンが配され
た位置が離れすぎていると、2つのマイクロホンに収音
される騒音スペクトル特性に違いが生じてしまう。ま
た、2つのマイクロホンの構成された位置が近すぎると
騒音収音用マイクロホンに目的信号の寄与が含まれてし
まう。すなわち、の方法では正確な騒音スペクトルを
推定するための2つのマイクロホン構成が取りにくいと
いう問題点がある。
【0005】の方法では、目的音源の有音区間におい
て騒音のスペクトル特性が変化した際に生じる騒音スペ
クトルの推定誤差は免れない。特に、交通騒音など非定
常性の強い騒音下では、騒音抑圧処理の良好な動作を期
待することはできない。このように、現状のスペクトル
サブトラクション法では正確な騒音スペクトルの推定が
困難であるのが現状である。
【0006】騒音下で音声認識を行う場合、周囲騒音に
よる音声信号の変形に対処する手段として、音声の入力
段で騒音除去処理を行うことが有効である。(例えば、
“飛田,菅村、“音声認識における周囲騒音の影響”、
音響学会誌、Vol.51、No4、p331−33
5、(1995)”) しかしながら、現状の騒音抑圧処理では前述のようにあ
らゆる環境で適用できる手法は確立されていない。
【0007】また、音声認識を行うためには、まず発声
区間の検出を行う必要がある。しかしながら、騒音下に
おいては、発声区間を正しく検出するのは困難である。
前述のスペクトルサブトラクション法等で騒音除去を行
った信号より、区間検出を行う方法が考えられるが、そ
のためには現状の問題点である、正確な騒音スペクトル
の推定を実現しなければならない。
【0008】この発明の目的は、従来手法のように正確
な騒音信号の推定を必要とせず、かつ非定常な騒音に対
しても適用が可能な新しい騒音抑圧処理機能を有する収
音装置及び前記騒音抑圧処理機能と騒音下における正し
い発声区間検出機能を有する音声認識装置を提供するこ
とにある。
【0009】
【課題を解決するための手段】この発明の第1形態は、
目的信号の音源に近い位置に設置された第1マイクロホ
ンと、前記位置より目的信号の音源から離れた位置に設
置された第2マイクロホンとが設けられ、これら第1,
第2マイクロホンの各々の出力信号は、それぞれ第1,
第2スペクトル変換手段により、振幅スペクトルと位相
スペクトルに変換され、これら第1,第2スペクトル変
換手段から出力される、各周波数成分ごとの振幅スペク
トルについて、レベル差がレベル差算出手段で計算され
る。この各周波数成分ごとのレベル差と、予め設定され
たしきい値とが音源周波数成分選択手段により比較さ
れ、前記レベル差がしきい値よりも大きい周波数成分は
目的信号が、音源周波数成分選択手段により支配的な周
波数成分と判定され、第1スペクトル変換手段の出力振
幅スペクトルから、前記目的信号が支配的と判定された
周波数成分が音源周波数成分抽出手段により抽出され
る。この抽出された目的信号が支配的な周波数成分の振
幅スペクトルは、前記第1スペクトル変換手段により算
出された位相スペクトルを用いて時間波形に時間波形変
換手段により変換される。
【0010】この発明の第2形態は、第1形態の収音装
置において、前記音源周波数成分選択手段で目的信号が
支配的と判定されなかった周波数成分の第1スペクトル
変換手段の振幅スペクトルに対して予め設定された重み
係数(1より小)が騒音周波数成分抑圧手段で乗算さ
れ、その乗算出力は、前記第1スペクトル変換手段で算
出された対応周波数成分の位相スペクトルを用いて時間
波形に前記時間波形変換手段で変換される。
【0011】この発明の第3形態は第1又は第2形態の
収音装置において、前記音源周波数成分抽出手段におい
て目的信号が支配的と判定された周波数成分の振幅スペ
クトルの大きさと、予め設定された無音区間判定しきい
値とが音源無音区間判定手段で比較され、前記振幅スペ
クトルが前記無音区間判定しきい値よりも小さいとき目
的信号の音源が無音状態であると判定され、目的信号の
音源が無音状態と判定された場合において、しきい値算
出手段で、前記音源周波数成分選択手段に用いるしきい
値が前記レベル差算出手段より出力されるレベル差以上
となるように算出更新される。
【0012】この発明の第4形態は第2又は第3形態の
収音装置において、前記騒音周波数成分抑圧手段におい
て目的信号が支配的と判定されなかった周波数成分に乗
ずる重み係数が、前記レベル差算出手段による各周波数
成分のレベル差と前記音源周波数成分選択手段のしきい
値の大小関係を比較して重み係数算出手段で算出され
る。
【0013】この発明の第5形態は第3又は第4形態の
収音装置において、前記音源無音区間判定手段により目
的信号の音源が無音状態と判定された場合において、音
源無音区間減衰手段により前記音源周波数成分抽出手段
と前記騒音周波数成分抑圧手段の出力または、前記時間
波形変換手段の出力が減衰される。この発明の第6形態
は第1乃至第4形態の何れかを前提として、目的信号の
音源の発声状態が発声検出手段により検出され、その検
出結果より目的信号の音源が発声状態か無発声状態かの
いずれかであるかが発声状態判定手段で判定される。こ
の発声状態判定手段は第3形態の音源無音区間判定手段
を用いてもよく、これとは独立に設けてもよい。前記時
間波形に変換された信号は音声蓄積手段に蓄積され、そ
の蓄積された信号を利用して音声認識処理手段により音
声認識され、音声認識制御手段により、発声状態判定手
段の判定結果を利用して、発声区間の音声データのみが
音声認識処理手段に入力制御され、その認識処理された
認識結果が出力制御される。
【0014】この発明の第7形態は第1乃至第6形態の
何れかにおいて、前記目的信号の音源に近い位置に設置
された第1マイクロホンと前記目的信号の音源から離れ
た位置に設置された第2マイクロホンのうち、前者のマ
イクロホンが後者のマイクロホンに比べて使用状態にお
いて使用者の口元に近い位置になるようにハンドセッ
ト、ヘッドセット、イヤーマイクセットなどに組み込ま
れている。
【0015】「作用」第1形態においては、目的信号の
音源に近い位置と、前記位置より目的信号の音源から離
れた位置に設置されたマイクロホンの振幅スペクトルの
レベル差によって目的信号が支配的な周波数成分である
か否かの判定が行われる。この発明の装置構成では、目
的信号について、その音源と各々のマイクロホンの位置
関係はほとんど変化せずそれらの距離も短いため、2つ
のマイクロホンの間で安定したレベル差が生じる。一
方、騒音については、その音源とマイクロホンの間の距
離は、目的信号の音源とマイクロホンの間の距離に比べ
て長くなると考えてよい。このため、目的信号によって
生じる2つのマイクロホンの出力レベル差は、騒音によ
って生じる2つのマイクロホンの出力のレベル差よりも
常に大きくなると考えられる。この発明では、上記のよ
うに2つのマイクロホンに生じるレベル差が目的信号と
騒音とで異なる点に着目して目的信号が支配的な周波数
成分の抽出処理を行う。このような周波数成分抽出処理
によれば、正確な騒音スペクトルの推定を必要としない
騒音抑圧処理が可能になる。
【0016】第2形態においては、第1形態において目
的信号が支配的と判定されなかった周波数成分に対して
予め設定された重み係数を乗ずることにより、対応する
周波数成分が減衰される。この騒音周波数成分抑圧処理
によって、目的信号が支配的と判定されなかった周波数
成分に重畳している目的信号の成分が欠落してしまうこ
とによる処理信号の音質劣化を防ぎ、音質を向上させ
る。
【0017】第3形態においては、第1又は第2形態に
おいて目的音源が無音状態であることが判定されると、
設定しきい値が算出され、音源周波数成分選択手段にお
いて目的信号が支配的な周波数成分の判定精度が向上
し、音質が向上する。第4形態においては、第2、第3
形態において目的信号が支配的でない周波数成分の減衰
量が騒音の重畳度に応じて制御され、音質が向上する。
【0018】第5形態においては第3又は第4形態にお
いて目的信号の音源が無音状態と判定された場合におい
て、前記音源周波数成分抽出手段と前記騒音周波数成分
抑圧手段の出力または、時間波形変換手段の出力が減衰
され騒音抑圧効果が向上する。第6形態においては、第
1形態と同様に上記のように2つのマイクロホンに生じ
るレベル差が目的信号と騒音とで異なる点に着目して目
的信号が支配的な周波数成分の抽出処理を行うため、正
確な騒音スペクトルの推定を必要としない騒音抑圧処理
が可能になり、その結果SN比を改善した音声信号によ
る音声認識処理が可能となる。
【0019】また、発声区間検出には、例えば、骨導マ
イクロホンの出力外耳道マイクロホンの出力、あるいは
カメラによる口元映像の分析結果を用いる。骨導音ある
いは外耳道音は、高周波数成分の減衰のため音質が充分
でないが、耐騒音性に優れているため、それらの出力信
号は騒音の影響による変形が小さいと考えられる。図2
1は、騒音下(ピンクノイズ)90dBAの実験室環境
下で発声したときの気導音と骨導音の時間波形を比較し
たものである。この図より、骨導マイクロホンは、気導
マイクロホンと比較して発声/無発声区間が明確になっ
ていることが確認できる。この骨導マイクロホンあるい
は外耳道マイクロホンの出力信号を使うことによって騒
音下において精度の高い発声区間検出が可能となる。ま
た、テレビ電話などカメラの映像を利用するシステムで
は、話者の口元の映像情報を利用することによって周囲
騒音に依存しない発声区間検出が可能となる。
【0020】第2形態を前提とする場合はその騒音周波
数成分抑圧処理によって、目的信号が支配的と判定され
なかった周波数成分に重畳している目的信号の成分が欠
落してしまうことによる処理信号の音質劣化を防ぎ、音
声認識精度を向上させる。第3形態を前提とする場合は
その無発声区間しきい値算出手段によって、音源周波数
成分選択部において目的信号が支配的な周波数成分の判
定精度を向上させ、音質劣化を防ぐことによって音声認
識精度を向上させる。
【0021】第4形態を前提とする場合はその重み係数
算出手段によって、目的信号が支配的でない周波数成分
の減衰量を騒音の重畳度に応じて制御し、音質劣化を防
ぐことによって音声認識精度を向上させる。第7形態で
は目的信号の音源に近い位置に設置されたマイクロホン
と目的信号の音源から離れた位置に設置されたマイクロ
ホンのうち、前者のマイクロホンが後者のマイクロホン
に比べて口元に近い位置になるようにハンドセット、ヘ
ッドセット、イヤーマイクセットを組み込むことによっ
て、各々の送受話器において送話信号の耐騒音性能を向
上させ、また音声コマンド等を利用する際の音声認識精
度を向上させることが可能となる。
【0022】
【発明の実施の形態】「実施例1」図1はこの発明の第
1形態の実施例を示すブロック図である。マイクロホン
1は近接音源用であって、マイクロホン2(遠隔音源
用)よりも目的信号の音源に近い位置に配置されてあ
る。マイクロホン1,2の出力は目的信号の音源からの
音に対してレベル差が大であるが、騒音の音源はマイク
ロホン1,2から十分遠くにあって、騒音によるマイク
ロホン1,2の出力のレベル差はゼロ乃至わずかであ
る。
【0023】図7はこの発明の第1形態の実施例の処理
手順を示す流れ図である。まず、マイクロホン1,2に
騒音が重畳した目的信号が各々取り込まれ、それをディ
ジタル信号として読み込む(S02)。読み込まれたマ
イクロホン1,2の信号を以下では、L,Rとする。ス
ペクトル変換部3,4では、取り込んだ信号L,Rをス
ペクトルL(ωi )、R(ωi )に変換する(S0
3)。この変換は、例えば離散的フーリエ変換によって
実行される。
【0024】レベル差算出部5では、L(ωi )、R
(ωi )の各周波数成分について、以下の式で与えられ
るレベル差ΔLR(ωi )を計算する(S04)。 ΔLR(ωi )=20log10(|L(ωi )|/|
R(ωi )|) 上式中のωi は周波数(i=1,2,…,n)、|L
(ωi )|、|R(ωi )|は、各々L,R信号の振幅
スペクトル成分を表わす。
【0025】音声周波数成分選択部6では、各周波数成
分についてΔLR(ωi )と予め設定されたしきい値T
h(ωi )の大小関係より、目的信号が支配的な周波数
の選択を行う。目的信号が支配的な周波数か否かの判定
条件は例えば以下の式によって決定される(S05)。 ΔLR(ωi )>Th(ωi ) → 目的信号が支配的 ΔLR(ωi )≦Th(ωi ) → 目的信号が支配的
でない 音源周波数成分抽出部7では、L(ωi )から、音源周
波数成分選択部6で選択した周波数について、目的信号
が支配的な周波数成分のみを抽出する(S06)。
【0026】最後に、(S06)の出力を時間波形変換
部8において信号Lの位相スペクトルΦ(ωi )を用い
て時間波形に変換し、時間波形信号を出力する(S0
7)。しきい値Th(ωi )はマイクロホン1,2と目
的信号音源(例えばマイクロホン1,2の使用者の口)
との相対関係から、実験的に決めることができる。 「実施例2」第1形態では、目的信号が支配的な周波数
成分と判定されなかったものについては完全に除去す
る。しかし、音声と騒音の周波数成分が互いに重なって
いるような成分についても完全に除去してしまうと音質
の歪みの原因となり好ましくない。第2形態は、音声と
騒音の重畳した周波数成分において上記の「騒音成分の
抽出しすぎ」の問題を改善することによって、処理後の
音質を向上させるものである。
【0027】図2は第2形態の実施例を示すブロック図
である。図2においてスペクトル変換部3と音源周波数
成分選択部6の各出力側に騒音周波数成分抑圧部9を接
続したことを除けば、図1と同じ動作である。以下で、
第2形態の実施例を示す図8の流れ図を用いて騒音周波
数成分抑圧部9における処理について説明する。騒音周
波数成分抑圧部9では、音源周波数成分選択部6におい
て目的信号が支配的でないと判定された周波数成分、す
なわち、 ΔLR(ωi )≦Th(ωi ) を満たす、スペクトル変換部3の出力中の周波数成分L
(ωi )について、外部より設定された重み係数w(ω
i )を乗じた値を騒音抑圧処理後のスペクトル成分S
(ωi )とする(S07)。
【0028】S(ωi )=w(ωi )×L(ωi ) w(ωi )の値は、騒音抑圧量を重視したい帯域で小さ
な値(w(ωi )≒0)に設定し、音質を重視したい帯
域では大きな値(w(ωi )≒1)に設定すればよい。
目的信号が支配的と判定された周波数成分は第1形態の
実施例の場合と同様に音源周波数成分抽出部7で処理さ
れ、抽出された周波数成分はS(ωi )とされる(S0
6)。
【0029】S(ωi )=L(ωi ) 騒音周波数成分抑圧部9と音源周波数成分抽出部7の出
力S(ωi )は、時間波形合成部8において逆フーリエ
変換し、時間波形信号を出力する(S08)。 「実施例3」第1、第2形態では、音源周波数成分選択
部6において、ある周波数成分が目的信号が支配的であ
るか否かを判定するしきい値Th(ωi )を外部より設
定している。第3形態は、目的音源が無音状態であると
きの周囲騒音に生じているマイクロホン1,2間の各周
波数成分におけるレベル差を利用して、しきい値Th
(ωi )を算出し、修正することにより音源周波数成分
選択部6において目的信号が支配的であるか否かの判定
精度を向上させ、音質を向上させるものである。
【0030】図3は第3形態の実施例を示すブロック図
である。図3において、音源周波数成分抽出部7の出力
側に音源無音区間判定部10を接続し、その音源無音区
間判定部10の出力側に音源無音区間しきい値算出部1
1を接続したことを除けば、図2と同じ動作である。以
下で、第3形態の実施例を示す図9の流れ図を用いて音
源無音区間判定部10、および音源無音区間しきい値算
出部11における処理について説明する。
【0031】音源無音区間判定部10では、音源周波数
成分抽出部7からまず第一に目的信号が支配的な振幅ス
ペクトルの和Pを求め(S08)、Pと外部より設定し
たしきい値PThとの大小関係より目的信号の音源の無
音状態を検出する(S09)。 P>PTh → 目的信号の音源が有音状態 P≦PTh → 目的信号の音源が無音状態 音源無音区間判定部10において、目的信号の音源が無
音状態と判定された場合には、音源無音区間しきい値算
出部11においてしきい値Th(ωi )を算出する。例
えば、新しいしきい値を以下の式により算出する(S1
0,S11)。Th(ωi )=ΔLR(ωi ) (ΔL
R(ωi )>Th(ωi )のときのみ)つまり、マイク
ロホン1,2の出力の周波数成分は、騒音に対しては本
来は互いにほぼ等しくΔLR(ωi )はゼロであるが、
反射などの関係である周波数成分については、ΔLR
(ωi )が比較的大となる。この音源無音区間でのΔL
R(ωi )は、目的信号が存在する場合も、その騒音周
波数成分が存在し、この成分ではしきい値が高められ、
騒音が有効に除去される。なお必要に応じてTh
(ωi )がある程度以上大きくなるとリセットし、一時
的に騒音のΔLR(ωi )が大きくなったことがいつま
でも影響しないようにすることができる。
【0032】「実施例4」第2形態および第3形態で
は、騒音周波数成分抑圧部9において目的信号が支配的
でない周波数成分に乗じる重み係数w(ωi )を外部よ
り設定している。第4形態は、レベル差算出部5により
算出された各周波数成分のレベル差ΔLR(ωi )とし
きい値Th(ωi )を利用して、重み係数w(ωi )を
算出することにより、騒音周波数成分抑圧部9において
各周波数成分の減衰量を騒音成分の重畳度に応じて制御
し、音質を向上させるものである。
【0033】図4は第4形態の実施例を示すブロック図
である。レベル差算出部5及び音源周波数成分選択部6
の各出力側に重み係数算出部12を接続したことを除け
ば、図3と同じ動作である。以下で、第4形態の実施例
を示す図10の流れ図を用いて重み係数算出部12にお
ける処理について説明する。重み係数算出部12では、
音源周波数成分選択部6において目的信号が支配的でな
いと判定された周波数成分に対して乗じる重み係数w
(ωi )を例えば次式で算出する(S07)。
【0034】 w(ωi )=(ΔLR(ωi )/Th(ωi ))npw npwの値としては騒音抑圧効果を高めたい場合に大き
な値とすればよい。この式で求められたw(ωi )は、
騒音の重畳度が大きいときにはΔLR(ω i )は騒音ス
ペクトルのレベル差に支配されるため小さな値をとり、
騒音の重畳度が小さいときにはΔLR(ωi )は目的信
号のスペクトルのレベル差に支配されるため大きな値を
とる。なお、上式でw(ωi )を計算した値が負となっ
た場合には、騒音が支配的な周波数成分と見なして、そ
の値を小さな値、例えば0とする。
【0035】「実施例5」第5形態は、第3形態または
第4形態において音源無音区間検出部10により目的信
号の音源が無音状態と判定された場合に、音源周波数成
分抽出部と騒音周波数成分抽出部の出力または、時間波
形変換部の出力を減衰させ、騒音抑圧効果を向上させる
ものである。
【0036】図5は第5形態の実施例を示すブロック図
である。図5において、音源周波数成分抽出部7及び騒
音周波数成分抑圧部9と時間波形変換部8との間に音源
無音区間減衰部13を挿入したことを除けば、図4と同
じ動作である。以下で、第5形態の発明の実施例を示す
図11の流れ図を用いて音源無音区間減衰部13におけ
る処理について説明する。
【0037】音源無音区間減衰部13では、音源無音区
間判定部10において目的信号の音源が無音状態と判定
された場合には(S10)、音源周波数成分抽出部7と
騒音周波数成分抑圧部9の出力S(ωi )を全帯域にわ
たり減衰させる(S13)。なお、音源無音区間減衰部
13の処理は、時間波形変換部8の出力信号に対して行
ってもよく、その効果は(S13)の処理による効果と
同等である。
【0038】「実験例1」第4形態を適用した実験例を
以下に示す。目的信号は音声、騒音信号は駅のホームで
の周囲騒音を用い、マイクロホン1とマイクロホン2の
入力信号は、図12に示すように計算機上で作成した。
つまり目的信号(音声)はマイクロホン2にはマイクロ
ホン1よりも6dB低下して入力されるが、騒音はマイ
クロホン1,2に同レベルで入力される。S/N比は目
的信号の平均電力と騒音信号の平均電力の比で定義し、
マイクロホン1におけるその値を−9dBとした。信号
のスペクトル分解における周波数分解能は22Hz、分
析フレームは46ms、分析フレームの更新周期は23
msとした。
【0039】図13は、マイクロホン1の処理前の目的
信号A,騒音信号B,騒音信号+目的信号C、そして処
理後の信号Dである。この図から、処理後の信号が処理
前の目的信号をよく復元していることが確認できる。 「実施例6」図14に第6形態の実施例を示し、図1と
対応する部分に同一符号を付けてある。この実施例では
発声検出部14の出力が発声状態判定部15へ供給さ
れ、発声状態判定部15の出力は音声認識制御部16に
入力される。時間波形変換部8の出力は音声蓄積部17
に蓄積され、その蓄積された信号が音声認識処理部18
で音声認識処理され、その認識結果は音声認識制御部1
6を介して出力される。
【0040】図15に第6形態の実施例の処理手順を示
す。この処理においてステップS01〜S06は図7の
処理と同一である。ステップS05においてΔLR(ω
i )≦Th(ωi )である目的信号は支配的でない周波
数成分については騒音が支配的な周波数成分とみなして
小さな値epsに変更する(S07)。epsの値は例
えば0としてステップS08で時間波形に変換すること
は図7と同様である。
【0041】発声検出部14では、骨導あるいは外耳道
マイクロホン、またはカメラを接続して動作させること
が可能である。図15には、骨導あるいは外耳道マイク
ロホンを接続して、発声状態判定部15で目的信号の音
源の発声/無発声状態を判定する方法を示している。ま
ず第一に骨導あるいは外耳道マイクロホンの出力信号の
パワーPBを求める(S09)。次に、PBと外部より
設定されたしきい値PTHBとの大小関係より目的信号
の音源の発声/無発声状態を判定する(S10)。
【0042】 PB > PTHB → 目的信号の音源が発声状態 PB ≦ PTHB → 目的信号の音源が無発声状態 なお、発声検出部14にカメラを利用した場合には、例
えば口元の映像信号の変動を監視して発声状態判定を行
えばよい。音声認識制御部16では、音声蓄積部17
から音声認識処理部18への音声データ入力、音声認
識結果の出力、の2つの制御を行う。の制御について
は、以下の−1、−2に示す二つの方法が考えられ
る。
【0043】−1:発声区間に相当する時間波形変換
部8のデータのみを音声蓄積部17に蓄積させ、音声認
識処理部18に音声蓄積部17のデータの全てを入力さ
せる方法 −2:音声蓄積部17に時間波形変換部8のデータを
全て蓄積させ、その中から発声区間に相当するデータを
音声認識処理部18に入力させる方法この実施例では
−1の制御方法の具体例を示す。
【0044】音声認識制御部16では、発声が始まった
瞬間、即ち、発声状態判定部15において前処理フレー
ムが無発声状態と判定され、かつ現在のフレームが発声
状態と判定された瞬間に(S10,S11)音声蓄積部
17のデータ入力端子をオンにする。この瞬間から、音
声蓄積部17に時間波形変換部8の出力信号の蓄積が開
始される(S12)。この蓄積は、発声状態判定部15
において発声状態と判定されている間行われ、発声状態
から無発声状態に遷移した瞬間(発声状態判定部15に
おいて、前処理フレームが発声状態と判定され、かつ現
在のフレームが無発声状態と判定された瞬間(S1
3))に終了する(S14)。
【0045】音声蓄積部17での音声データ蓄積が終了
となったとき(S14)、音声認識処理部18では音声
蓄積部17で蓄積されたデータが入力され、音声認識制
御部16の命令を受けて音声認識処理が行われる(S1
5)。音声認識結果は音声認識制御部16を介して外部
に出力される(前記の制御に相当する)。音声蓄積部
17に蓄積された音声データについては音声認識処理部
18に出力した直後にクリアーされる(S16)。
【0046】なお、使用する音声認識アルゴリズムが音
声のスペクトル情報のみを用い、音声の時間波形を必要
としない場合には、記憶装置等で蓄積される処理音声デ
ータは、(S08)の時間波形出力でなく、処理された
スペクトル(S06)と(S07)としてもよい。その
場合、(S08)の時間波形変換処理は不要となる。 「実施例7」実施例2に実施例6の構成14〜18を付
加し、音声と騒音の重畳した周波数成分において上記の
「騒音成分の抽出しすぎ」の問題を改善することによっ
て、処理後の音質を向上させ、音声認識精度を向上させ
るものである。図2に図14の構成14〜18が付加さ
れ、図8中のS08の次に図15のステップS09〜S
18が付加されたものとなる。
【0047】「実施例8」実施例3に実施例6の構成1
4〜18を付加して、目的信号の音源が無音状態(無発
声区間)であるときの周囲騒音に生じているマイクロホ
ン1,2間の各周波数成分におけるレベル差を利用し
て、しきい値Th(ωi )を算出し、修正することによ
り音源周波数成分選択部6において目的信号が支配的で
あるか否かの判定精度を向上させ、音質劣化を防ぐこと
によって、音声認識精度を向上させるものである。この
場合は図16に示すように図3に対し図14中の構成1
4〜18を付加し、かつ図3中の音源無音区間判定部1
0を省略して発声状態判定部15の出力を無発声(音源
無音)区間しきい値算出部11へ入力する。この実施例
の処理の流れは図17に示すように図15に対し、発声
状態判定部15において、目的信号の音源が無音状態と
判定された場合には(S20)、無発声区間しきい値算
出部11においてしきい値Th(ωi )を算出する。例
えば、新しいしきい値を以下の式により算出し(S1
7,S18)、ステップS02に戻る。Th(ωi )=
ΔLR(ωi ) (ΔLR(ωi )>Th(ωi )のと
きのみ)発声検出部14と発声状態判定部15を省略
し、代りに音源無音区間判定部10を用いてもよい。
【0048】「実施例9」この実施例は、レベル差算出
部5により算出された各周波数成分のレベル差ΔLR
(ωi )としきい値Th(ωi )を利用して、重み係数
w(ωi )を算出することにより、騒音周波数成分抑圧
部9において各周波数成分の減衰量を騒音成分の重畳度
に応じて制御し、音質劣化を防ぐことによって音声認識
精度を向上させるものである。図16の構成に対し、図
4中の重み係数算出部12が付加され、これに応じて処
理の流れは図10中のステップS07が図17に対し加
わる。
【0049】「実験例2」実施例6を適用した実験例を
以下に示す。発声区間検出部14の入力信号として骨導
マイクロホンの出力を用いた。図18Aに示す収音条
件、つまり騒音源から150cm離れ、第1、第2マイ
クロホン1,2の間隔が10cmであり、かつ図18B
に実験条件を示す。
【0050】図19は、マイクロホン1の出力(処理
前)、実施例6の騒音抑圧処理を行った出力(処理後)
の音声認識率を求めた結果である。この図から、高騒音
下において、処理後の信号が処理前の信号よりも音声認
識率を改善していることがわかる。図6に第7形態の実
施例を示す。図6Aはハンドセット21にマイクロホン
1とマイクロホン2を取付けた場合である。ハンドセッ
ト21の使用状態においてマイクロホン1はその使用者
の口22、つまり目的信号の音源近くに位置され、マイ
クロホン2はハンドセット21の受話器部分、つまり耳
23の近くに位置するようにされている。
【0051】図6Bはヘッドセット25にマイクロホン
1,2を取付けた場合でヘッドセット25を使用者の頭
部26に装着した使用状態で、その耳23に対接される
受話器27の部分にマイクロホン2が取付けられ、この
受話器27の部分から、支持アーム28が延長され、支
持アーム28の遊端部が口22の近くに位置し、ここに
マイクロホン1が取付けられる。
【0052】図6Cはイヤーマイクセット31に取付け
た場合で、イヤーマイクセット31が耳23の部分に取
付けられた状態で、アーム32が口22側に延長され、
これにマイクロホン1が取付けられ、このアーム32と
反対にアーム33が延長され、これにマイクロホン2が
取付けられる。
【0053】
【発明の効果】以上、説明したように、第1形態の発明
によれば、目的信号の音源に近い位置に設置されたマイ
クロホンと、前記位置より目的信号の音源から離れた位
置に設置されたマイクロホンと、各々の出力信号を振幅
スペクトルと位相スペクトルに変換し、その各周波数成
分ごとの振幅スペクトルについて、レベル差を計算し、
この各周波数成分ごとのレベル差と、予め設定されたし
きい値とを比較し、前記レベル差がしきい値よりも大き
い周波数成分を目的信号が支配的な周波数成分と判定
し、これら周波数成分を前記目的信号の音源に近い位置
に設置されたマイクロホンの出力信号の振幅スペクトル
から抽出し、これら抽出された目的信号が支配的な周波
数成分の振幅スペクトルを前記目的信号の音源に近いマ
イクロホンの前記スペクトル変換の際に算出された位相
スペクトルを用いて時間波形に変換することにより、正
確な騒音スペクトル成分を推定することなく騒音抑圧処
理が可能である。したがって、非定常騒音など騒音スペ
クトルの推定が難しい場合でも目的信号の抽出が可能な
収音装置が得られる。
【0054】第2形態の発明によれば、第1形態の収音
装置において、前記目的信号が支配的と判定されなかっ
た周波数成分に対して予め設定された重み係数を乗じて
騒音周波数成分を抑圧し、この抑圧された成分も、前記
時間波形変換においては、前記目的信号の音源に近いマ
イクロホンにより算出される位相スペクトルを用いて時
間波形に変換することにより、目的信号として抽出され
なかった周波数帯域に存在していた目的信号の周波数成
分が欠落することによる音質劣化を改善することが可能
な収音装置が得られる。
【0055】第3形態の発明によれば、第1形態または
第2形態の収音装置において、前記音源周波数成分抽出
において目的信号が支配的と判定された周波数成分の振
幅スペクトルの大きさと、予め設定された無音区間判定
しきい値とを比較し、前記振幅スペクトルが前記無音区
間判定しきい値よりも小さいとき目的信号の音源が無音
状態であると判定し、無音状態と判定された場合には、
前記音源周波数成分選択に用いるしきい値を、前記レベ
ル差以上となるように更新するので、音源周波数成分選
択において目的信号が支配的な周波数成分抽出精度が向
上し、処理後の信号の品質向上が可能な収音装置が得ら
れる。
【0056】第4形態の発明では、第2形態または第3
形態の収音装置において、前記騒音周波数成分抑圧にお
いて目的信号が支配的と判定されなかった周波数成分に
乗ずる重み係数を、前記各周波数成分のレベル差と前記
音源周波数成分選択時のしきい値との大小関係を比較し
て算出しているので、騒音周波数成分抑圧において、各
周波数成分の減衰量を騒音の重畳度に応じて決定するこ
とが可能な収音装置が得られる。
【0057】第5形態の発明では、第3形態または第4
形態の収音装置において、目的信号の音源が無音状態と
判定された場合において、前記音源周波数成分抽出出力
と前記騒音周波数成分抑圧の出力または、前記時間波形
変換手段の出力を減衰させているので、目的信号の音源
が無音状態のときは信号が減衰され、これにより騒音が
抑圧され、さらに騒音の少ない収音装置が得られる。
【0058】第6形態の発明では、第1乃至第4形態の
何れか1つとほぼ同様の構成を含み、更に音声蓄積手
段、音声認識処理手段を有し、前記発声状態判定手段の
出力結果を利用して、発声区間の音声データのみを前記
音声認識処理手段に入力し、及び前記音声認識処理手段
で処理された認識結果を出力するようにしているので、
正確な騒音スペクトル成分を推定することなく騒音抑圧
処理が可能である。したがって、非定常騒音など騒音ス
ペクトルの推定が難しい場合でも目的信号の抽出が可能
であり、音声認識精度を向上させた音声認識装置が得ら
れる。また、発声区間検出には、例えば骨導あるいは外
耳道マイクロホン、またはカメラを利用することによ
り、周囲騒音の影響をほとんど受けないか、あるいは全
く受けない発声区間検出が可能となり、それによってさ
らに音声認識精度を向上させた音声認識装置が得られ
る。
【0059】第7形態の発明は、第1乃至第6形態の収
音装置又は音声認識装置において、前記目的信号の音源
に近い位置に設置されたマイクロホンと前記目的信号の
音源から離れた位置に設置されたマイクロホンのうち、
前者のマイクロホンが後者のマイクロホンに比べて使用
時に口元に近い位置になるようにハンドセット、ヘッド
セット、イヤーマイクセットに組み込まれているので、
従来のハンドセット、ヘッドセット、イヤーマイクセッ
トにおいて送話信号の耐騒音性能を向上させることが可
能となり、また各々の送受話器において音声コマンド等
を利用する際の音声認識精度を向上させることが可能と
なる。従来、耐騒音性に優れた送話信号を得るイヤーマ
イクセットとして骨導マイクロホンとレシーバを一体化
したものがある。しかし骨導マイクロホンによって収音
された音声は周波数成分が低周波成分に偏っており、高
周波成分が少ないため、音質が悪い。また骨導マイクロ
ホンとレシーバとの音響結合の問題もある。しかしこの
第7形態の発明では、気導音をベースとした収音であ
り、レシーバとマイクロホン間の距離も確保できるた
め、上記の問題を持たないイヤーマイクセットの提供が
可能となる。
【0060】なお、以上の説明で使用したマイクロホン
は、無指向性マイクロホンに限定されるものではなく、
例えば、マイクロホン1は、目的信号の音源の方向に指
向性を有するマイクロホンを使用し、マイクロホン2
は、目的信号の音源と反対の方向に指向性を有するマイ
クロホンを使用してもよい。この場合、目的信号の音源
方向のみに鋭い指向性を有する超指向性マイクロホンと
して利用できる。
【0061】この発明における収音装置は、騒音抑圧が
必要な各種収音装置のほか、通話を目的とした電話装置
や、音声認識の入力装置にも利用できる。また図1乃至
図5、図14、図16は機能構成を示すものであって、
マイクロプロセッサを主体とする手段により各機能を構
成させることもでき、つまりコンピュータによりプログ
ラムを読出し、解読実行させることによって機能させる
こともできる。
【図面の簡単な説明】
【図1】請求項1の発明の実施例の機能的構成を示すブ
ロック図。
【図2】請求項2の発明の実施例の機能的構成を示すブ
ロック図。
【図3】請求項3の発明の実施例の機能的構成を示すブ
ロック図。
【図4】請求項4の発明の実施例の機能的構成を示すブ
ロック図。
【図5】請求項5の発明の実施例の機能的構成を示すブ
ロック図。
【図6】この発明の第7形態の概略構成例を示す図。
【図7】請求項1の発明の実施例の動作手順を示す流れ
図。
【図8】請求項2の発明の実施例の動作手順を示す流れ
図。
【図9】請求項3の発明の実施例の動作手順を示す流れ
図。
【図10】請求項4の発明の実施例の動作手順を示す流
れ図。
【図11】請求項5の発明の実施例の動作手順を示す流
れ図。
【図12】請求項4の発明を適用したシミュレーション
実験例における信号と騒音の印加例を示す図。
【図13】請求項4の発明を用いた実験例における処理
前の目的信号、騒音信号、騒音+目的信号、及び処理後
の信号のそれぞれを示す図。
【図14】請求項23の発明の実施例の機能的構成を示
すブロック図。
【図15】図14の実施例の動作手順を示す流れ図。
【図16】請求項20の発明の実施例の機能的構成を示
すブロック図。
【図17】図16の実施例の動作手順を示す流れ図。
【図18】Aは請求項23の発明を適用したシュミレー
ション実験例における騒音と信号の印加例を示す図、B
はその実験条件を示す図。
【図19】図18の実験結果を示す図。
【図20】従来の技術を説明する流れ図。
【図21】騒音(ピンクノイズ)90dBAの実験室環
境下で発声した気導音と骨導音の時間波形の比較例を示
す図。
フロントページの続き (56)参考文献 特開 平9−212196(JP,A) 特開 昭59−68800(JP,A) 特開 昭56−46300(JP,A) 特開 平4−16900(JP,A) 特開 平4−184400(JP,A) 特開 平11−249693(JP,A) 特開 平11−259090(JP,A) 特許2863214(JP,B2) 特許3355598(JP,B2) 高野,青木,岡本,松井,発声音声の 音場分布差を利用した騒音抑圧処理,電 子情報通信学会1998年総合大会講演論文 集 情報・システム1,日本,1998年 3月27日,D−14−16,Page 227 高野,青木,岡本,中台,松井,音声 の音場分布差を利用した騒音抑圧処理の 音声認識への適用について,電子情報通 信学会1998年基礎・境界ソサイエティ大 会講演論文集,日本,1998年 9月29 日,SA−6−1,Page 241 青木,青木,チャネル間情報を利用し た2音源分離手法の実環境における検 討,日本音響学会平成9年春季研究発表 会講演論文集I,日本,1997年 3月17 日,2−3−5,Pages 513−514 (58)調査した分野(Int.Cl.7,DB名) G10L 21/00 - 21/02

Claims (37)

    (57)【特許請求の範囲】
  1. 【請求項1】 目的信号の音源に近い位置に設置された
    第1マイクロホンと、 前記位置より前記目的信号の音源から離れた位置に設置
    された第2マイクロホンと、 前記第1,第2マイクロホンの各々の出力信号を振幅ス
    ペクトルと位相スペクトルに変換する第1,第2スペク
    トル変換手段と、 前記第1,第2スペクトル変換手段から出力される、各
    対応する周波数成分ごとの振幅スペクトルのレベル差を
    計算するレベル差算出手段と、 前記レベル差算出手段より出力される各周波数成分ごと
    のレベル差と、予め設定されたしきい値とを比較し、前
    記レベル差がしきい値よりも大きい周波数成分を目的信
    号が支配的な周波数成分と判定する音源周波数成分選択
    手段と、 前記第1マイクロホンの出力信号の振幅スペクトルか
    ら、前記判定にもとづき前記目的信号が支配的と判定さ
    れた周波数成分を抽出する音源周波数成分抽出手段と、 前記音源周波数成分抽出手段より抽出された振幅スペク
    トルを、前記第1スペクトル変換手段により算出される
    位相スペクトルを用いて時間波形に変換する時間波形変
    換手段を有することを特徴とする収音装置。
  2. 【請求項2】 請求項1記載の収音装置において、 前記音源周波数成分選択手段において目的信号が支配的
    と判定されなかった周波数成分の前記第1スペクトル変
    換手段の出力周波数成分に対して予め設定された重み係
    数を乗ずる騒音周波数成分抑圧手段を具備し、 前記時間波形変換手段においては、前記音源周波数成分
    抽出手段および前記騒音周波数成分抑圧手段により処理
    された周波数成分を、前記スペクトル変換手段で算出さ
    れる対応周波数の位相スペクトルを用いて時間波形に変
    換することを特徴とする収音装置。
  3. 【請求項3】 請求項1または請求項2記載の収音装置
    において、 前記音源周波数成分抽出手段の出力振幅スペクトルの大
    きさと、予め設定された無音区間判定しきい値とを比較
    し、前記振幅スペクトルが前記無音区間判定しきい値よ
    りも小さいとき目的信号の音源が無音状態であると判定
    する音源無音区間判定手段と、 前記音源無音区間判定手段により目的信号の音源が無音
    状態と判定された場合において、前記音源周波数成分選
    択手段に用いるしきい値を、前記レベル差算出手段より
    出力されるレベル差以上に更新するしきい値算出手段を
    具備することを特徴とする収音装置。
  4. 【請求項4】 請求項2または請求項3記載の収音装置
    において、 前記騒音周波数成分抑圧手段において目的信号が支配的
    と判定されなかった周波数成分に乗ずる重み係数を、前
    記レベル差算出手段よりの各周波数成分のレベル差と前
    記音源周波数成分選択手段のしきい値の大小関係を比較
    して算出する重み係数算出手段を具備することを特徴と
    する収音装置。
  5. 【請求項5】 請求項3または請求項4記載の収音装置
    において、 前記音源無音区間判定手段により目的信号の音源が無音
    状態と判定された場合において、前記音源周波数成分抽
    出手段と前記騒音周波数成分抑圧手段の出力または、前
    記時間波形変換手段の出力を減衰させる音源無音区間減
    衰手段を具備することを特徴とする収音装置。
  6. 【請求項6】 請求項1,請求項2,請求項3,請求項
    4、または請求項5記載の収音装置において、 前記第1マイクロホンと前記第2マイクロホンのうち、
    前者のマイクロホンが後者のマイクロホンに比べて使用
    状態において、その使用者の口元に近い位置になるよう
    にハンドセット、ヘッドセット、イヤーマイクセットな
    どに組み込まれていることを特徴とする収音装置。
  7. 【請求項7】 目的信号の音源に近い位置に第1マイク
    ロホンを設置し、 前記位置より前記目的信号の音源から離れた位置に第2
    マイクロホンを設置し、 前記第1,第2マイクロホンの各々の出力信号を第1、
    第2振幅スペクトルと第1、第2位相スペクトルにそれ
    ぞれ変換し、 前記第1,第2振幅スペクトルのレベル差を、各対応す
    る周波数成分ごとに計算し、 前記計算された各周波数成分ごとのレベル差と、予め設
    定されたしきい値とを比較し、前記レベル差がしきい値
    よりも大きい周波数成分を目的信号が支配的な周波数成
    分と判定し、 その判定にもとづき前記第1振幅スペクトルから前記判
    定にもとづき、前記目的信号が支配的と判定された周波
    数成分を抽出し、 前記抽出された周波数成分を、前記第1位相スペクトル
    を用いて時間波形に変換することを特徴とする収音方
    法。
  8. 【請求項8】 請求項7記載の収音方法において、 前記しきい値との比較において目的信号が支配的と判定
    されなかった周波数成分の前記第1振幅スペクトルに対
    して予め設定された重み係数を乗じ、 前記時間波形変換時に、前記重み係数が乗じられた周波
    数成分に対しても対応周波数の第1位相スペクトルを用
    いて時間波形に変換することを特徴とする収音方法。
  9. 【請求項9】 請求項7または請求項8記載の収音方法
    において、 前記目的信号が支配的と判定された周波数成分の第1振
    幅スペクトルの大きさと、予め設定された無音区間判定
    しきい値とを比較し、前記第1振幅スペクトルが前記無
    音区間判定しきい値よりも小さいとき目的信号の音源が
    無音状態であると判定し、 目的信号の音源が無音状態と判定された場合において、
    前記目的信号が支配的な周波数成分か否かの判定に用い
    るしきい値を、前記レベル差以上に更新することを特徴
    とする収音方法。
  10. 【請求項10】 請求項8または請求項9記載の収音方
    法において、 前記目的信号が支配的と判定されなかった周波数成分に
    乗ずる重み係数を、前記各周波数成分のレベル差と、前
    記レベル差と比較するしきい値の大小関係とを比較して
    算出することを特徴とする収音方法。
  11. 【請求項11】 請求項9または請求項10記載の収音
    方法において、 前記目的信号の音源が無音状態と判定された場合におい
    て、前記目的信号が支配的と判定されて抽出された周波
    数成分と、前記重み係数が乗じられた目的信号が支配的
    と判定されなかった周波数成分、または、前記時間波形
    変換された信号を減衰させることを特徴とする収音方
    法。
  12. 【請求項12】 請求項7,請求項8,請求項9,請求
    項10、または請求項11記載の収音方法において、 前記第1マイクロホンと前記第2マイクロホンのうち、
    前者のマイクロホンが後者のマイクロホンに比べて使用
    状態において、その使用者の口元に近い位置になるよう
    にハンドセット、ヘッドセット、イヤーマイクセットな
    どに組み込むことを特徴とする収音方法。
  13. 【請求項13】 目的信号の音源に近い位置に設置され
    た第1マイクロホンと前記位置より前記目的信号の音源
    から離れた位置に設置された第2マイクロホンとの各々
    の出力信号をそれぞれ第1、第2振幅スペクトルと第
    1、第2位相スペクトルに変換する処理と、 前記第1,第2振幅スペクトルのレベル差を各対応する
    周波数成分ごとに計算する処理と、 前記計算されたレベル差を各周波数成分ごとに、予め設
    定されたしきい値とを比較し、前記レベル差がしきい値
    よりも大きい周波数成分を目的信号が支配的な周波数成
    分と判定する第1判定処理と、 前記第1振幅スペクトルから、前記第1判定処理にもと
    づき前記目的信号が支配的と判定された周波数成分を抽
    出する処理と、 前記抽出された第1振幅スペクトルを、前記第1位相ス
    ペクトルを用いて時間波形に変換する時間波形変換処理
    とを収音装置のコンピュータに実行させるプログラムを
    記録した記録媒体。
  14. 【請求項14】 請求項13記載の記録媒体において、 前記第1判定処理において目的信号が支配的と判定され
    なかった周波数成分の前記第1振幅スペクトルに対して
    予め設定された重み係数を乗ずる騒音抑圧処理と、 前記時間波形変換処理においては、前記重み係数が乗じ
    られた周波数成分に対しても対応周波数の第1位相スペ
    クトルを用いて時間波形に変換することを前記コンピュ
    ータに行わせるプログラムを前記プログラムが有するこ
    とを特徴とする記録媒体。
  15. 【請求項15】 請求項13または請求項14記載の記
    録媒体において、 前記目的信号が支配的と判定された周波数成分の第1振
    幅スペクトルの大きさと、予め設定された無音区間判定
    しきい値とを比較し、前記第1振幅スペクトルが前記無
    音区間判定しきい値よりも小さいとき目的信号の音源が
    無音状態であると判定する第2判定処理と、 前記第2判定処理により目的信号の音源が無音状態と判
    定された場合において、前記第1判定処理に用いるしき
    い値を、前記レベル差以上に更新する処理とを前記コン
    ピュータに行わせるプログラムを前記プログラムが有す
    ることを特徴とする記録媒体。
  16. 【請求項16】 請求項14または請求項15記載の記
    録媒体において、 前記騒音抑圧処理で乗ずる重み係数を、前記各周波数成
    分のレベル差と前記第1判定処理で用いるしきい値の大
    小関係を比較して算出する処理と前記コンピュータに行
    わせるプログラムを前記プログラムが含むことを特徴と
    する記録媒体。
  17. 【請求項17】 請求項15または請求項16記載の記
    録媒体において、 前記第2判定処理により目的信号の音源が無音状態と判
    定された場合に、前記目的信号が支配的と判定されて抽
    出された周波数成分と前記騒音抑圧処理の出力または、
    前記時間波形変換処理の出力を減衰させる処理を前記コ
    ンピュータに行わせるプログラムを前記プログラムが有
    することを特徴とする記録媒体。
  18. 【請求項18】 目的信号(音声信号)の音源に近い位
    置に設置された第1マイクロホンと、 前記位置より目的信号の音源から離れた位置に設置され
    た第2マイクロホンと、 前記第1,第2マイクロホンの各々の出力信号を第1、
    第2振幅スペクトルと第1、第2位相スペクトルに変換
    する第1,第2スペクトル変換手段と、 前記第1,第2スペクトル変換手段から出力される、各
    対応周波数成分ごとの第1、第2振幅スペクトルのレベ
    ル差を計算するレベル差算出手段と、 前記レベル差算出手段より出力される各周波数成分ごと
    のレベル差と、予め設定されたしきい値とを比較し、前
    記レベル差がしきい値よりも大きい周波数成分を目的信
    号が支配的な周波数成分と判定する音源周波数成分選択
    手段と、 前記第1マイクロホンの出力信号の第1振幅スペクトル
    から、前記判定にもとづき前記目的信号が支配的と判定
    された周波数成分を抽出する音源周波数成分抽出手段
    と、 前記音源周波数成分抽出手段により抽出された第1振幅
    スペクトルを前記第1位相スペクトルを用いて時間波形
    に変換する時間波形変換手段と、 前記目的信号の音源が発声状態か無発声状態かのいずれ
    かを判定する発声状態判定手段と、 前記時間波形変換手段の出力を蓄積する音声蓄積手段
    と、 前記音声蓄積手段の出力を利用して音声認識を行う音声
    認識処理手段と、 前記発声状態判定手段の出力結果を利用して、発声区間
    の音声データのみを前記音声認識処理手段に入力する制
    御、及び前記音声認識処理手段で処理された認識結果を
    出力する制御を行う音声認識制御手段とを有することを
    特徴とする音声認識装置。
  19. 【請求項19】 請求項18記載の音声認識装置におい
    て、 前記音源周波数成分選択手段において目的信号が支配的
    と判定されなかった周波数成分に対して予め設定された
    重み係数を乗ずる騒音周波数成分抑圧手段を具備し、 前記時間波形変換手段においては、前記音源周波数成分
    抽出手段および前記騒音周波数成分抑圧手段により処理
    された周波数成分を前記第1位相スペクトルを用いて時
    間波形に変換することを特徴とする音声認識装置。
  20. 【請求項20】 請求項18または請求項19記載の音
    声認識装置において、 前記発声状態検出手段により目的信号の音源が無音状態
    と判定された場合において、前記レベル差算出手段より
    出力されるレベル差以上となるように、前記音源周波数
    成分選択手段に用いるしきい値を算出し更新するしきい
    値算出手段を具備することを特徴とする音声認識装置。
  21. 【請求項21】 請求項19または請求項20記載の音
    声認識装置において、 前記騒音周波数成分抑圧手段において目的信号が支配的
    と判定されなかった周波数成分に乗ずる重み係数を、前
    記レベル差算出手段よりの各周波数成分のレベル差と前
    記音源周波数成分選択手段のしきい値の大小関係を比較
    して算出する重み係数算出手段を具備することを特徴と
    する音声認識装置。
  22. 【請求項22】 請求項18、19、20、または21
    記載の音声認識装置において、 前記第1マイクロホンと前記第2マイクロホンのうち、
    前者のマイクロホンが後者のマイクロホンに比べて使用
    状態で、その使用者の口元に近い位置になるようにハン
    ドセット、ヘッドセット、イヤーマイクセットに組み込
    まれたことを特徴とする音声認識装置。
  23. 【請求項23】 請求項18乃至22の何れかの音声認
    識装置において、 前記発声状態判定手段は、目的信号の音源の発声状態を
    検出する発声検出手段を備え、その発声検出手段の出力
    結果により、前記目的信号の音源が発声状態か無発声状
    態かのいずれかを判定することを特徴とする音声認識装
    置。
  24. 【請求項24】 請求項18乃至22の何れかの音声認
    識装置において、 前記発声状態判定手段は、前記音源周波数成分抽出手段
    の出力振幅スペクトルの大きさと、予め設定された無音
    区間判定しきい値とを比較し、前記振幅スペクトルが前
    記無音区間判定しきい値よりも小さいとき前記目的信号
    の音源が無発声状態であると判定する手段であることを
    特徴とする音声認識装置。
  25. 【請求項25】 目的信号(音声信号)の音源に近い位
    置に第1マイクロホンを設置し、 前記位置より目的信号の音源から離れた位置に第2マイ
    クロホンを設置し、 前記第1,第2マイクロホンの各々の出力信号を第1、
    第2振幅スペクトルと第1、第2位相スペクトルにそれ
    ぞれ変換し、 前記第1,第2振幅スペクトルのレベル差を、各対応す
    る周波数成分ごとに計算し、 前記計算された各周波数成分ごとのレベル差と、予め設
    定されたしきい値とを比較し、前記レベル差がしきい値
    よりも大きい周波数成分を目的信号が支配的な周波数成
    分と第1判定手段で判定し、 前記第1振幅スペクトルから、前記第1判定手段の判定
    により、目的信号が支配的と判定された周波数成分を抽
    出し、 前記目的信号が支配的な周波数成分の第1振幅スベクト
    ルを前記第1位相スペクトルを用いて時間波形に時間波
    形変換手段により変換し、 前記目的信号の音源が発声状態か無発声状態かのいずれ
    かを判定し、 前記時間波形変換手段の出力を音声蓄積手段に蓄積し、 前記音声蓄積手段の出力を利用して音声認識を音声認識
    処理手段で行い、 前記発声状態の音声データのみを前記音声認識処理手段
    に入力し、及び前記音声認識処理手段で処理された認識
    結果を出力することを特徴とする音声認識方法。
  26. 【請求項26】 請求項25記載の音声認識方法におい
    て、 前記しきい値との比較において目的信号が支配的と判定
    されなかった周波数成分の第1振幅スペクトルに対して
    予め設定された重み係数を乗じ、 前記時間波形変換手段において、前記重み係数が乗じら
    れた周波数成分に対しても、対応周波数の前記第1位相
    スペクトルを用いて時間波形に変換することを特徴とす
    る音声認識方法。
  27. 【請求項27】 請求項25または請求項26記載の音
    声認識方法において、 前記目的信号の音源が無音状態と判定された場合におい
    て、前記レベル差以上となるように、前記第1判定手段
    に用いるしきい値を更新することを特徴とする音声認識
    方法。
  28. 【請求項28】 請求項26または請求項27記載の音
    声認識方法において、 前記目的信号が支配的と判定されなかった周波数成分に
    乗ずる重み係数を、各周波数成分のレベル差と、前記第
    1判定手段のしきい値の大小関係を比較して算出するこ
    とを特徴とする音声認識方法。
  29. 【請求項29】 請求項25、26、27、または28
    記載の音声認識方法において、 前記第1マイクロホンと前記第2マイクロホンのうち、
    前者のマイクロホンが後者のマイクロホンに比べて使用
    状態で使用者の口元に近い位置になるようにハンドセッ
    ト、ヘッドセット、イヤーマイクセットに組み込んで用
    いることを特徴とする音声認識方法。
  30. 【請求項30】 請求項25乃至29の何れかに記載の
    音声認識方法において、 前記発声状態判定は、目的信号の音源の発声状態を検出
    する発声検出手段を設け、その発声検出手段の出力結果
    により、前記目的信号の音源が発声状態か無発声状態か
    のいずれかを判定することを特徴とする音声認識方法。
  31. 【請求項31】 請求項25乃至29の何れかに記載の
    音声認識方法において、 前記発声状態判定は、前記第1判定手段の判定にもとづ
    き抽出された目的信号が支配的と判定された第1振幅ス
    ペクトルの大きさと、予め設定された無音区間判定しき
    い値とを比較し、前記第1振幅スペクトルが前記無音区
    間判定しきい値よりも小さいとき前記目的信号の音源が
    無発声状態であると判定することを特徴とする音声認識
    方法。
  32. 【請求項32】 目的信号(音声信号)の音源に近い位
    置に設置された第1マイクロホンと、前記位置より目的
    信号の音源から離れた位置に設置された第2マイクロホ
    ンの各々の出力信号を第1,第2振幅スペクトルと第
    1、第2位相スペクトルにそれぞれ変換する処理と、 各周波数ごとに前記第1,第2振幅スペクトルのレベル
    差を計算し、 前記計算されたレベル差と、予め設定されたしきい値と
    を比較し、前記レベル差がしきい値よりも大きい周波数
    成分を目的信号が支配的な周波数成分と判定する第1判
    定処理と、 前記第1振幅スペクトルから、前記第1判定処理にもと
    づき、目的信号が支配的と判定された周波数成分を抽出
    する処理と、 前記抽出された周波数成分の第1振幅スペクトルを、対
    応周波数の前記第1位相スペクトルを用いて時間波形に
    変換する時間波形変換処理と、 目的信号の音源が発声状態か無発声状態かのいずれかを
    判定する第2判定処理と、 前記時間波形変換処理の出力を音声蓄積手段に蓄積する
    処理と、 前記音声蓄積手段の出力を利用して音声認識処理手段に
    より音声認識を行う処理と、 前記第2判定処理の結果を利用して、発声区間の音声デ
    ータのみを前記音声認識処理手段に入力し、及び前記音
    声認識処理手段で処理された認識結果を出力する処理と
    をコンピュータにより実行させるプログラムを記録した
    記録媒体。
  33. 【請求項33】 請求項32記載の記録媒体において、 前記第1判定処理において目的信号が支配的と判定され
    なかった周波数成分に対して予め設定された重み係数を
    乗ずる処理と、 前記時間波形変換処理においては、前記重み係数が乗じ
    られた周波数成分に対しても、対応周波数の前記第1位
    相スペクトルを用いて時間波形に変換することを前記コ
    ンピュータに実行させるプログラムを前記プログラムが
    有することを特徴とする記録媒体。
  34. 【請求項34】 請求項32または請求項33記載の記
    録媒体において、 前記第2判定処理により目的信号の音源が無音状態と判
    定された場合において、前記レベル差以上となるよう
    に、前記第1判定処理に用いるしきい値を算出し更新す
    る処理を前記コンピュータに実行させるプログラムを前
    記プログラムが有することを特徴とする記録媒体。
  35. 【請求項35】 請求項33または請求項34記載の記
    録媒体において、 前記目的信号が支配的と判定されなかった周波数成分に
    乗ずる重み係数を、前記レベル差と前記第1判定処理の
    しきい値の大小関係を比較して算出する処理を前記コン
    ピュータに実行させるプログラムを前記プログラムが有
    することを特徴とする記録媒体。
  36. 【請求項36】 請求項32乃至35の何れかに記載の
    記録媒体において、 前記第2判定処理は、目的信号の音源の発声状態を検出
    する発声検出手段の出力結果により、前記目的信号の音
    源が発声状態か無発声状態かのいずれかを判定すること
    を特徴とする記録媒体。
  37. 【請求項37】 請求項32乃至35の何れかに記載の
    記録媒体において、 前記第2判定処理は、前記第1判定処理の判定にもとづ
    き抽出された目的信号が支配的と判定された第1振幅ス
    ペクトルの大きさと、予め設定された無音区間判定しき
    い値とを比較し、前記第1振幅スペクトルが前記無音区
    間判定しきい値よりも小さいとき前記目的信号の音源が
    無発声状態であると判定することを特徴とする記録媒
    体。
JP23256598A 1998-02-20 1998-08-19 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 Expired - Fee Related JP3434215B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23256598A JP3434215B2 (ja) 1998-02-20 1998-08-19 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP10-39206 1998-02-20
JP3920698 1998-02-20
JP23256598A JP3434215B2 (ja) 1998-02-20 1998-08-19 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体

Publications (2)

Publication Number Publication Date
JPH11305792A JPH11305792A (ja) 1999-11-05
JP3434215B2 true JP3434215B2 (ja) 2003-08-04

Family

ID=26378530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23256598A Expired - Fee Related JP3434215B2 (ja) 1998-02-20 1998-08-19 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3434215B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216177A (ja) * 2002-01-18 2003-07-30 Altia Co Ltd 車両用音声認識装置
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP5060465B2 (ja) * 2008-06-19 2012-10-31 日本電信電話株式会社 収音装置、収音方法、収音プログラム、記録媒体
JP5113096B2 (ja) * 2009-01-21 2013-01-09 Kddi株式会社 音源分離方法、装置およびプログラム
JP5107956B2 (ja) * 2009-03-31 2012-12-26 Kddi株式会社 雑音抑圧方法、装置およびプログラム
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
KR101768264B1 (ko) 2010-12-29 2017-08-14 텔레폰악티에볼라겟엘엠에릭슨(펍) 노이즈 억제 방법 및 노이즈 억제 방법을 적용하기 위한 노이즈 억제기
JP5721445B2 (ja) * 2011-01-07 2015-05-20 三菱電機株式会社 音声認識装置および音声認識方法
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR102223653B1 (ko) * 2015-07-10 2021-03-05 한국전자통신연구원 음성 신호 처리 장치 및 방법, 그리고 단말
JP6191747B2 (ja) * 2016-08-16 2017-09-06 富士ゼロックス株式会社 音声解析装置および音声解析システム
WO2019159253A1 (en) * 2018-02-14 2019-08-22 Nec Corporation Speech processing apparatus, method, and program
CN110033773B (zh) * 2018-12-13 2021-09-14 蔚来(安徽)控股有限公司 用于车辆的语音识别方法、装置、系统、设备以及车辆

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2863214B2 (ja) 1989-10-05 1999-03-03 株式会社リコー 雑音除去装置及び該装置を用いた音声認識装置
JP3355598B2 (ja) 1996-09-18 2002-12-09 日本電信電話株式会社 音源分離方法、装置及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2863214B2 (ja) 1989-10-05 1999-03-03 株式会社リコー 雑音除去装置及び該装置を用いた音声認識装置
JP3355598B2 (ja) 1996-09-18 2002-12-09 日本電信電話株式会社 音源分離方法、装置及び記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
青木,青木,チャネル間情報を利用した2音源分離手法の実環境における検討,日本音響学会平成9年春季研究発表会講演論文集I,日本,1997年 3月17日,2−3−5,Pages 513−514
高野,青木,岡本,中台,松井,音声の音場分布差を利用した騒音抑圧処理の音声認識への適用について,電子情報通信学会1998年基礎・境界ソサイエティ大会講演論文集,日本,1998年 9月29日,SA−6−1,Page 241
高野,青木,岡本,松井,発声音声の音場分布差を利用した騒音抑圧処理,電子情報通信学会1998年総合大会講演論文集 情報・システム1,日本,1998年 3月27日,D−14−16,Page 227

Also Published As

Publication number Publication date
JPH11305792A (ja) 1999-11-05

Similar Documents

Publication Publication Date Title
Acero et al. Robust speech recognition by normalization of the acoustic space.
JP3484757B2 (ja) 音声信号の雑音低減方法及び雑音区間検出方法
US5757937A (en) Acoustic noise suppressor
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
JP4767166B2 (ja) ハウリング抑圧装置、プログラム、集積回路、およびハウリング抑圧方法
JP4842583B2 (ja) 多感覚音声強調のための方法および装置
JP5573517B2 (ja) 雑音除去装置および雑音除去方法
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP3434215B2 (ja) 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体
US8180635B2 (en) Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition
WO2005024789A1 (ja) 音響処理システム、音響処理装置、音響処理方法、音響処理プログラム及び記憶媒体
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
EP0807305A1 (en) Spectral subtraction noise suppression method
WO2008121436A1 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP3435686B2 (ja) 収音装置
JP2005257817A (ja) 雑音除去装置、方法、及びプログラム
US11817115B2 (en) Enhanced de-esser for in-car communication systems
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
JPH11265199A (ja) 送話器
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
WO2019169272A1 (en) Enhanced barge-in detector
JPH09311696A (ja) 自動利得調整装置
JP6439174B2 (ja) 音声強調装置、および音声強調方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120530

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130530

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees