JP2003140686A - 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置 - Google Patents

音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置

Info

Publication number
JP2003140686A
JP2003140686A JP2001333930A JP2001333930A JP2003140686A JP 2003140686 A JP2003140686 A JP 2003140686A JP 2001333930 A JP2001333930 A JP 2001333930A JP 2001333930 A JP2001333930 A JP 2001333930A JP 2003140686 A JP2003140686 A JP 2003140686A
Authority
JP
Japan
Prior art keywords
voice
power spectrum
optimum
sum
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001333930A
Other languages
English (en)
Inventor
Kazuya Takeda
一哉 武田
Fumitada Itakura
文忠 板倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya Industrial Science Research Institute
Original Assignee
Nagoya Industrial Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya Industrial Science Research Institute filed Critical Nagoya Industrial Science Research Institute
Priority to JP2001333930A priority Critical patent/JP2003140686A/ja
Publication of JP2003140686A publication Critical patent/JP2003140686A/ja
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

(57)【要約】 【課題】 音源の位置に関係なく、音声信号の雑音を抑
制できる音声入力の雑音抑制方法を提供する。 【解決手段】 所定空間内の複数地点に設けた複数のマ
イクにより音声入力を音声信号に変換して出力し、パワ
スペクトル分析部11によりパワスペクトルを演算し、
パワスペクトル和演算部13により仮重み係数を掛けた
仮重み付パワスペクトルの和を演算する。音声発声者か
ら発声された音声を口元に設けたマイクによる参照音声
信号について参照パワスペクトルを演算し、仮重み付パ
ワスペクトルの和と参照パワスペクトルとの差の二乗で
ある誤差を誤差演算部15により演算し、最適重み係数
演算部17により重回帰分析法を用いて誤差を最小にす
るように最適重み係数を求め、重み係数記憶部19に記
憶する。パワスペクトル演算部で得られたパワスペクト
ルに、重み係数記憶部に記憶された対応する最適重み係
数を掛けて最適重み付パワスペクトルの和を演算する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発声者の口元にマ
イクを設置するのが困難な自動車の車内等の所定空間内
に設置された情報機器等に対して、所定空間内に設けた
マイクを通して発声者からの音声を変換して入力する際
に、音声信号の雑音を抑制するための音声入力の雑音抑
制方法、雑音抑制制御プログラム、記録媒体及び音声信
号入力装置に関する。
【0002】
【従来の技術】近年、カーナビゲーションなどの車載情
報機器の操作において、音声認識システムの応用である
音声対話システムを用いた入力方法が注目されている。
音声対話システムを用いた入力方法は、運転者が、画面
やボタンを操作する必要がなく、そのためハンドルから
手を離す必要がないため、従来の手動操作による入力方
法に比べて操作性の面で格段に改善されると共に交通安
全の面でも非常に優れている。音声対話システムの入力
用のマイクは、運転者の口元に配置するのが理想である
が、実際には運転者の運転操作や乗降の邪魔にならない
ように、車室の内壁やシートのヘッドレスト等にマイク
が配置されている。しかし、運転者の口元から離れた位
置にあるマイクは車内にある種々の背景雑音を拾いやす
いので、音声対話システムの音声認識性能を低下させる
という問題があり、従って音声対話システムを用いた入
力方法を採用するには、この問題を解決する必要があ
る。
【0003】従来、この種の音声入力の雑音抑制方法と
しては、複数のマイクを使って入力した複数の音声信号
に対して、波形レベルで重みを掛けて音声入力を改善す
る方法がある。しかし、この方法によれば、マイクに対
して音源の方向が一定である必要があるため、音源であ
る運転者の位置が変化する車両内での適用は困難であ
る。また、複数のマイクを使って、音声信号の位相を利
用して、雑音を抑える方法もある。しかし、この方法に
よれば、特に高い周波数(500Hz以上)の信号に適
用する場合、音源の位置を数cmの範囲に固定しないと
雑音低減効果が著しく減少するため、音源である運転者
の位置が変化する車両内での適用は困難である。
【0004】本発明は、上記した問題を解決しようとす
るもので、車内等の所定空間内に設置された情報機器等
に対して、所定空間内の複数地点に設けたマイクにより
音源(音声発声者)からの音声を入力する際に、音源の
位置に関係なく、音声信号の雑音を抑制することができ
る音声入力の雑音抑制方法、雑音抑制制御プログラム、
記録媒体及び雑音抑制方法を用いた音声信号入力装置を
提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に上記請求項1の発明の構成上の特徴は、所定空間内の
複数地点に設けた複数のマイクにより、音声発声者から
の音声を含む音声入力を複数の音声信号に変換して出力
し、複数の音声信号についてパワスペクトル演算手段に
より複数のパワスペクトルを演算し、複数のパワスペク
トルに対して重み付パワスペクトル和演算手段により仮
の重み係数を掛けた複数の仮重み付パワスペクトルを演
算すると共に仮重み付パワスペクトルの和を演算し、音
声発声者から発声された音声を音声発声者の口元に設け
た接話マイクにより変換した参照音声信号についてパワ
スペクトル演算手段により参照パワスペクトルを演算
し、仮重み付パワスペクトルの和と参照パワスペクトル
との差の二乗である誤差を誤差演算手段により演算し、
誤差演算手段により演算された誤差に基づいて最適重み
係数演算手段により重回帰分析法を用いて誤差を最小に
する仮重み係数の最適値である最適重み係数を求めて、
予め最適重み係数のデータを最適重み係数記憶手段に記
憶しておき、複数のマイクにより変換された複数の音声
信号に基づいてパワスペクトル演算手段により得られた
複数のパワスペクトルに対して、重み付パワスペクトル
和演算手段により最適重み係数記憶手段に記憶された対
応する最適重み係数を読み出すと共に最適重み係数を複
数のパワスペクトルに掛けあわせて複数の最適重み付パ
ワスペクトルを演算し、さらに最適重み付パワスペクト
ルの和を用いて音声出力信号を形成することにある。
【0006】上記のように構成した請求項1の発明にお
いては、所定空間内の複数地点に設けた複数のマイクに
より、音声発声者からの音声を含む音声入力を複数の音
声信号に変換して出力し、この音声信号についてパワス
ペクトル演算手段により複数のパワスペクトルが演算さ
れる。このパワスペクトルに対して、重み付パワスペク
トル和演算手段によりそれぞれ仮の重み係数を掛けた複
数の仮重み付パワスペクトルが演算され、さらに仮重み
付パワスペクトルの和が求められる。一方、音声発声者
から発声された音声を音声発声者の口元に設けた接話マ
イクにより変換した参照音声信号についてパワスペクト
ル演算手段により参照パワスペクトルが演算される。さ
らに、誤差演算手段により仮重み付パワスペクトルの和
と参照パワスペクトルとの差の二乗である誤差が演算さ
れる。この誤差に基づいて最適重み係数演算手段により
重回帰分析法を用いて誤差を最小にする仮重み係数の最
適値である最適重み係数が求められ、この最適重み係数
データが予め最適重み係数記憶手段に記憶される。そし
て、複数のマイクにより変換された複数の音声信号に基
づいてパワスペクトル演算手段により得られた複数のパ
ワスペクトルに対して、重み付パワスペクトル和演算手
段によって最適重み係数記憶手段に記憶された対応する
最適重み係数が読み出され、この最適重み係数をパワス
ペクトルに掛けることにより複数の最適重み付パワスペ
クトルが求められる。さらに、重み付パワスペクトル和
演算手段により、最適重み付パワスペクトルの和を用い
て音声出力信号が形成される。これにより、音声信号成
分における音声発声者の音声以外の背景雑音を抑制する
ことができる。
【0007】また、上記請求項2の発明の構成上の特徴
は、前記請求項1に記載の音声入力の雑音抑制方法にお
いて、最適重み係数データを、マイク毎に求め、マイク
を通した音声信号に対してマイクに対応する最適重み係
数を適用するようにしたことにある。これにより、音声
信号成分における音声発声者の音声以外の背景雑音をさ
らに効果的に抑制することができる。
【0008】また、上記請求項3の発明の構成上の特徴
は、前記請求項1に記載の音声入力の雑音抑制方法にお
いて、最適重み係数データを、マイク毎及び音声信号の
周波数バンド毎に求め、マイクを通した音声信号に対し
てマイク及び周波数バンドに対応する最適重み係数を適
用するようにしたことにある。これにより、音声信号成
分における音声発声者の音声以外の背景雑音を一層効果
的に抑制することができる。
【0009】また、上記請求項4の発明の構成上の特徴
は、前記請求項1から3の何れか1項に記載の音声入力
の雑音抑制方法をコンピュータに実行させるための雑音
抑制制御プログラムである。この雑音抑制制御プログラ
ムを、パワスペクトル演算手段、重み付パワスペクトル
和演算手段、誤差演算手段、最適重み係数演算手段によ
って実行させることにより、音声入力の雑音抑制を達成
することができる。
【0010】また、請求項5の発明の構成上の特徴は、
前記請求項4に記載の雑音抑制制御プログラムを記録し
たコンピュータ読み取り可能な記録媒体である。この記
録媒体を、パワスペクトル演算手段、重み付パワスペク
トル和演算手段、誤差演算手段、最適重み係数演算手段
に適用することにより、記録媒体に記録された雑音抑制
制御プログラムが実行され、それにより音声入力の雑音
抑制を達成することができる。
【0011】また、上記請求項6の発明の構成上の特徴
は、所定空間内の複数地点に設けられて、音声発声者か
らの音声を含めた音声入力を複数の音声信号に変換して
出力する複数のマイクと、マイクから出力された複数の
音声信号について複数のパワスペクトルを演算するパワ
スペクトル演算手段と、パワスペクトル演算手段により
得られた複数のパワスペクトルについて重み係数を掛け
た複数の重み付パワスペクトルを演算すると共に重み付
パワスペクトルの和を演算する重み付パワスペクトル和
演算手段と、重み付パワスペクトル和演算手段によりパ
ワスペクトルに仮の重み係数を掛けて仮重み付パワスペ
クトルとし、さらにその和を演算することによって得ら
れた仮重み付パワスペクトルの和と、音声発声者から発
声された音声を音声発声者の口元に設けた接話マイクに
より変換した参照音声信号についてパワスペクトル演算
手段により演算した参照パワスペクトルとの差の二乗で
ある誤差を演算する誤差演算手段と、誤差演算手段から
の誤差に基づいて重回帰分析法により誤差を最小にする
仮重み係数の最適値である最適重み係数を求める最適重
み係数演算手段と、最適重み係数演算手段により求めら
れた最適重み係数データを予め記憶しておく最適重み係
数記憶手段とを備えており、複数のマイクにより変換さ
れた複数の音声信号に基づいて、パワスペクトル演算手
段により得られた複数のパワスペクトルに対して、重み
付パワスペクトル和演算手段により記憶手段に記憶され
た対応する最適重み係数を読み出すと共に最適重み係数
を複数のパワスペクトルに掛けあわせて複数の最適重み
付パワスペクトルを演算し、さらに複数の最適重み付パ
ワスペクトルの和を用いて音声出力信号を形成すること
にある。
【0012】上記のように構成した請求項6の発明にお
いては、所定空間内の複数地点に設けたマイクから出力
された複数の音声信号に基づいてパワスペクトル演算手
段が複数のパワスペクトルを演算する。このパワスペク
トルに基づいて、重み付パワスペクトル和演算手段が、
それぞれ仮の重み係数を掛けた複数の仮重み付パワスペ
クトルを演算し、さらにその和を演算する。一方、パワ
スペクトル演算手段は、音声発声者により発声された音
声を音声発声者の口元に設けた接話マイクにより変換し
た参照音声信号について参照パワスペクトルを演算す
る。さらに、誤差演算手段が、仮重み付パワスペクトル
の和から参照パワスペクトルを引いた差の二乗である誤
差を演算する。この誤差に基づいて、最適重み係数演算
手段が重回帰分析法により誤差を最小にするように仮重
み係数についての最適値である最適重み係数を求めて、
この最適重み係数データを予め最適重み係数記憶手段に
記憶させておく。
【0013】最適重み係数データが最適重み係数記憶手
段に記憶された状態で、複数のマイクにより変換された
音声信号に基づいて、パワスペクトル演算手段によって
複数のパワスペクトルが演算される。この複数のパワス
ペクトルに対して、重み付パワスペクトル和演算手段
は、最適重み係数記憶手段に記憶された対応する最適重
み係数を読み出して、この最適重み係数をパワスペクト
ルに掛けることにより複数の最適重み付パワスペクトル
を求め、さらにこれら最適重み付パワスペクトルの和を
演算する。これにより、信号成分において雑音成分が抑
制された音声出力信号を出力することができる。
【0014】また、上記請求項7の発明の構成上の特徴
は、前記請求項6に記載の音声信号入力装置において、
最適重み係数演算手段において、最適重み係数データを
マイク毎に求め、マイクを通した音声信号に対して、マ
イクに対応する最適重み係数を適用するようにしたこと
にある。これにより、音声信号成分における雑音をさら
に効果的に抑制することができる。
【0015】また、上記請求項8の発明の構成上の特徴
は、前記請求項6に記載の音声信号入力装置において、
最適重み係数演算手段において、最適重み係数データ
を、マイク毎及び音声信号の周波数バンド毎に求め、マ
イクを通した音声信号に対して、マイク及び周波数バン
ドに対応する最適重み係数を適用するようにしたことを
特徴とすることにある。これにより、音声信号成分にお
ける雑音を一層効果的に抑制することができる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は、一実施形態である音声信号入力装
置の概略構成を示すブロック図である。音声信号入力装
置は、パワスペクトル分析部(パワスペクトル演算手
段)11と、重み付パワスペクトル和演算部(重み付パ
ワスペクトル和演算手段)13と、誤差演算部(誤差演
算手段)15と、最適重み係数演算部(最適重み係数演
算手段)17と、最適重み係数記憶部(最適重み係数記
憶手段)19とを備えている。また、各部11,13,
15,17は、それぞれ所定のプログラムにしたがって
制御を行う制御手段と、プログラムを記録する記録手段
を備えている。さらには、プログラムの記録されている
各種のプログラム媒体からプログラムを読み取るための
ドライブやインターネットへの接続ポイントを備えてい
る。
【0017】パワスペクトル分析部11は、音声信号の
音声ファイルをフレームに分割するフレーム分割部と、
各フレームに対して高速フーリエ変換を行うFFT部
と、高速フーリエ変換された信号を二乗することにより
パワスペクトルを形成するパワスペクトル形成部とを備
えている。パワスペクトル分析部11の入力端子には、
受音マイクM1〜Mn及び参照用マイクMxの入力信号
線が接続されており、各入力線にはそれぞれアナログ音
声入力信号をデジタル変換して入力信号s(t),s
(t),…,s(t)及び参照信号x(t)を出力
するAD変換器12が接続されている。
【0018】パワスペクトル分析部11の出力端子に
は、パワスペクトル信号S(ω),S(ω),…S
(ω)及び参照パワスペクトル信号X(ω)を出力す
るための出力信号線が接続されており、各出力信号線に
はそれぞれパワスペクトル信号を対数変換する対数変換
部14が接続されている。また、パワスペクトル信号S
(ω),S(ω),…S(ω)を出力するための
出力信号線は、重み付パワスペクトル和演算部13に接
続されており、この出力信号線には、対数変換部14と
重み付パワスペクトル和演算部13間の接続状態及び非
接続状態を切り替える切替スイッチ16aが接続されて
いる。一方、参照パワスペクトル信号X(ω)を出力す
るための出力信号線は、誤差演算部15に接続されてい
る。
【0019】重み付パワスペクトル和演算部13は、最
適重み係数記憶部19に記憶された最適重み係数w
選択してパワスペクトル信号S(ω),S(ω),
…,S(ω)を掛け合わせて重み付パワスペクトルw
(ω)(i=1〜n)を演算し、さらに各重み付
パワスペクトルの和Σw(ω)を演算する。重み
付パワスペクトル和演算部13の出力側に接続された信
号線には、切替スイッチ16bが接続されている。切替
スイッチ16bは、この信号線を音声出力信号出力線側
(後述する信号重ね合せ部22側)と誤差演算部15側
のいずれか一方へ切り替えて接続させる。
【0020】誤差演算部15は、参照パワスペクトル信
号X(ω)と各重み付パワスペクトルの和Σw
(ω)との差{X(ω)−Σw(ω)}を演算
し、さらにこの差の二乗である誤差{X(ω)−Σw
(ω)}の演算を行うものである。なお、この誤
差演算部15による誤差{X(ω)−Σw
(ω)} の演算については、予め最適重み係数w
を求める際にのみ、切替スイッチ16bを誤差演算部側
に切り替えることにより行われるものであり、最適重み
係数wを求めた後は、通常は用いられない。
【0021】最適重み係数演算部17は、誤差演算部1
5からの誤差{X(ω)−Σw (ω)}入力を
受けて、重回帰分析により最適重み係数wを演算し、
最適重み係数wデータを最適重み係数記憶部19に記
憶させるものである。以下に、重回帰分析法により最適
重み係数wを演算する手順について説明する。まず、
演算に用いる符号の説明を下記表1に示す。
【0022】
【表1】
【0023】表1において、MFB(メルフィルタバン
ク)は、フーリエ変換した振幅を表し、パワスペクトル
とほぼ同一の概念である。また、接話マイクロフォン
(接話マイク)とは、音声発声者の口元に近接して配置
されたマイクであり、ディスタントマイクロフォンとは
車内において音声発声者から離れた位置に設けた遠隔マ
イクである。
【0024】低域のMFBチャンネルのチャンネル番号
r=1,2,3を除いて、r=4〜24において以下の
演算処理が行なわれる。車体の複数箇所に設置されたデ
ィスタントマイクロフォンの音声の重み付けしたMFB
出力の和を、接話マイクロフォンに近似した予測音声の
MFB出力として下記数1のように表す。
【0025】
【数1】
【0026】ディスタントマイクロフォンの音声の重み
は、下記数2を満たす必要がある。
【0027】
【数2】
【0028】なお、数2において、arg min
{ }は、{ }内に最小値を与えるようなwである
ことを意味するものである。数2から、下記数3により
重みwを求める。
【0029】
【数3】
【0030】数3を計算すると下記数4になり、さらに
数4をまとめると下記数5のようになる。
【0031】
【数4】
【0032】
【数5】
【0033】数5を整理すると、下記数6のようにな
る。
【0034】
【数6】
【0035】数6を、下記数7に示す相関係数Rij
で置き換えると、下記数8に示す行列式になる。さ
らに、数8を変形することにより、重みwを求めるた
めの行列式である下記数9が得られる。
【0036】
【数7】
【0037】
【数8】
【0038】
【数9】
【0039】上記マイク1のAD変換器12の出力側に
は、音声信号s(t)から位相を求める位相演算部2
1が接続されている。位相演算部21からの出力線と、
切替スイッチ16bにより切り替えられた上記音声出力
信号出力線とは、信号重合せ部22に接続され、信号重
ね合せ部22の出力側には、逆フーリエ変換部23が接
続されている。
【0040】つぎに、この演算装置の動作について説明
する。まず、最適重み係数wを求めるため、切替スイ
ッチ16bを図1に示す点線側に切り替えることによっ
て重み付パワスペクトル和演算部13と誤差計算部15
とが接続される。各マイクM1〜Mn及び接話マイクM
xからの音声発声者の発声を含む音声入力信号をデジタ
ル変換した入力信号s(t),s(t),…s
(t)及び参照信号x(t)信号が、パワスペクトル
分析部11において、複数のパワスペクトル信号S
(ω),S(ω),…S(ω)及び参照パワスペ
クトル信号X(ω)に形成される。パワスペクトル信号
(ω),S(ω),…S(ω)は、対数変換部
14で変換された後、重み付パワスペクトル和演算部1
3において、変数である仮重み係数wが掛け合されて
複数の仮重み付パワスペクトルw(ω)にされ、
さらに各仮重み付パワスペクトルの和Σw(ω)
が演算される。また、参照パワスペクトル信号X(ω)
は、対数変換部14で変換された後、誤差演算部15に
入力される。
【0041】誤差演算部15は、各仮重み付パワスペク
トルの和Σw(ω)と参照パワスペクトル信号X
(ω)との差{X(ω)−Σw(ω)}を演算
し、さらに差の二乗である誤差{X(ω)−Σw
(ω)}の演算を行う。最適重み係数演算部17は、
誤差演算部15からの誤差{X(ω)−Σw
(ω)}を受けて、重回帰分析法により仮重み係数
の最適値である最適重み係数wを(便宜上、仮重
み係数と同一符号を用いる)を演算し、この最適重み係
数データを最適重み係数記憶部19に記憶させる。
【0042】つぎに、実際の音声出力信号を求めるた
め、切替スイッチ16bの接続が出力信号線側(図示実
線側)に切り替えられる。つづいて、各マイクM1〜M
nからの入力信号s(t),s(t),…,s
(t)が上記処理過程を経て、重み付パワスペクトル
和演算部13に入力される。重み付パワスペクトル和演
算部13においては、最適重み係数記憶部19に記憶さ
れた入力信号に対応した最適重み係数wが読み出さ
れ、最適重み係数wとパワスペクトル信号S
(ω),S(ω),…S(ω)が掛け合されて複
数の重み付パワスペクトルw (ω)に形成され
る。さらに各重み付パワスペクトルの和Σw
(ω)が演算され、音声出力信号が形成される。この
音声出力信号と位相演算部21からの位相が、信号重ね
合せ部22において合成され、さらに逆フーリエ変換部
23において逆フーリエ変換が施されて、通常のアナロ
グ音声出力信号が情報機器に入力される。なお、情報機
器等が音声信号のパワスペクトルを必要とする場合は、
逆フーリエ変換を施さずに、重み付パワスペクトル和演
算部13から出力される最適重み付パワスペクトル和を
音声出力信号として直接情報機器に入力してもよい。
【0043】以上に説明したように、本実施形態によれ
ば、所定空間内の複数地点に設けた複数のマイクM1〜
Mnにより音声入力を音声信号に変換し、パワスペクト
ル分析部11においてパワスペクトルを演算し、パワス
ペクトルについて重み付パワスペクトル和演算部13に
おいて最適重み係数記憶部19に記憶された最適重み係
数wを掛けた重み付パワスペクトルの和が演算され、
これを用いて音声出力信号が形成される。すなわち、本
実施形態においては、音声信号をパワースペクトルに変
換し、さらに最適重み係数を掛けて重み付パワスペクト
ルの和を音声出力信号としており、また最適重み係数w
については、重回帰分析法を用いて誤差を最小にする
ように重み係数が求められている。そのため、音声入力
の位相や、音声発声者の位置に影響されることなく、雑
音が抑制された適正な音声出力信号を得ることができ、
車内の情報機器に対して、雑音に影響されない音声出力
信号を入力することができる。
【0044】つぎに、上記演算装置による具体的な実施
例について説明する。実験用の車内において、図2に示
すように、助手席側のフロントガラス近傍、及び運転
席側のフロントガラス近傍、助手席側の天井及び運
転席側の天井、助手席側及び運転席側間の後方天井
の5ヶ所に遠隔マイク(ディスタントマイク)を設置
し、音声を収録した。なお、場所は、運転者の口元位
置であり、接話用マイクが設けられた。実験に使用する
音声は、音素バランス文を読み上げたものであり、その
内訳は、アイドリング中の音声として、4207ファイ
ル4207文105人分であり、運転中の音声として、
6333ファイル約2000文110人分である。音声
ファイルは、前後200ms(3200ポイント)だけ
無発声区間を取っており、その区間を雑音区間、それ以
外の区間を信号区間として、下記数10により、信号対
雑音比SDR(以下、SDRと記す)を求めた。なお、
数10において、1番目の式が個々の遠隔マイクの音声
の品質を示し、2番目の式が個々の遠隔マイクのスペク
トルを重回帰して求めた音声の品質を示すものである。
【0045】
【数10】
【0046】この実験では、以下の3種類の重みを用い
る。 (1)重みW1:1発話毎に、遠隔マイクの音声と接話
マイクの音声を用いて求めた重みである。1発話毎にそ
の発話で求めた重みを用いる。 (2)重みW2:重みW1の全ての重みの平均をとった
ものである。全ての発話にこの重みを用いる。 (3)重みW3:重みW1の中から話者1人につき1つ
の重みを抜き出し、それらの平均をとったものである。
全ての発話にこの重みを用いる。
【0047】これら3種類の重みを用いて、3種類の接
話マイクの予測音声を作成する。この3種類の予測音声
と、5種類の遠隔マイクの音声について、実際の接話マ
イクの音声との、ひずみの分布について調べた。その結
果であるSDRの平均と分散について下記表2、3に示
すと共に、図3及び図4に、SDRと頻度との関係を表
すグラフを示す。なお、図及び表において、RBW1〜
RBW3は3種類の予測音声に対するデータであり、M
ic03〜07は、5種類の遠隔マイクの音声に対する
データである。
【0048】
【表2】
【0049】
【表3】
【0050】表2,3及び図3,4から明らかなよう
に、W1の重みを使った接話マイクの予測音声のSDR
の平均及び分散の値は、5つの遠隔マイクの音声のSD
Rの平均及び分散の値に比べて、アイドリング中及び運
転中共に、平均で5〜7dB高く、また分散で2〜2.
5dB低い優れた結果となっている。その結果、複数の
遠隔マイクからの音声をパワスペクトルに変換し、重回
帰分析により処理して得た最適重み係数を掛けて、重み
付パワスペクトルの和として出力する本発明の有効性が
確認された。
【0051】また、W1の重みを使った接話マイクの予
測音声のSDRの値と、W2,W3の重みを使った接話
マイクの予測音声のSDRの値との違いはわずかであ
る。これにより、重みは一定値であっても、SDRを改
善する効果がある。また、重みを求めるための音声のサ
ンプル数すなわちマイクの数についても、5個より少な
くすることが可能である。
【0052】なお、上記音声信号入力装置については、
図1に示すように、パワスペクトル分析部11、重み付
パワスペクトル和演算部13に加えて、最適重み係数を
演算するための誤差演算部15及び最適重み係数演算部
17を備えているが、最適重み係数の演算後は、最適重
み係数データは最適重み係数記憶部19に記録されるた
め、誤差演算部15及び最適重み係数演算部17は不要
となる。したがって、量産車両に搭載される音声信号入
力装置としては、図5に示すように、パワスペクトル分
析部11、重み付パワスペクトル和演算部13及び最適
重み係数データを格納した最適重み係数記憶部19を備
えた簡易な装置であればよい。これにより、安価な音声
信号入力装置を大量に供給することができる。また、一
旦、最適重み係数データを演算しておけば、これを多数
のハードディスク,CDROM,CD等のコンピュータ
読み取り可能な記録媒体に複製することは容易に行わ
れ、最適重み係数記憶部19にこれら記録媒体を適用す
ることができる。
【0053】なお、上記演算装置については、パワスペ
クトル分析部11、重み付パワスペクトル和演算部1
3、誤差演算部15及び最適重み係数演算部17は、そ
れぞれ記録手段に記録された所定のプログラムにしたが
って制御を行う制御手段を備えているが、これに代え
て、各部11〜15全体を制御する制御手段と、雑音抑
制制御プログラムを記憶した記憶手段を設けてもよい。
また、本発明の態様として、記憶手段に記録された雑音
抑制制御プログラム自体、及びこの制御プログラムを記
録したハードディスク,CDROM,CD等のコンピュ
ータ読み取り可能な記録媒体も対象となり、発明の実施
の促進に効果がある。
【0054】
【発明の効果】本発明によれば、所定空間内の複数地点
に設けた複数のマイクによる音声入力信号と、音声発声
者の口元で発声された音声を接話マイクにより変換した
参照音声信号とをパワスペクトルに変換し、両パワスペ
クトルに基づいて重回帰分析法を用いて誤差を最小にす
るように最適重み係数を求めている。この最適重み係数
を複数の音声信号から求めたパワスペクトルに掛けて最
適重み付パワスペクトルを形成し、さらに最適重み付パ
ワスペクトルの和を用いて音声出力信号を形成すること
により、音声信号成分における音声発声者の音声以外の
背景雑音を抑制することができる。その結果、この雑音
が抑制された音声出力信号を情報機器等に入力すること
により、音声認識性能を低下させることなく情報機器を
操作することができる。
【図面の簡単な説明】
【図1】本発明の音声信号入力装置の概略構成を示すブ
ロック図である。
【図2】実験用の車体内のマイク設置位置を説明する説
明図である。
【図3】アイドリング中の音声を対象とした、マイク3
〜7からの音声、及び重みW1〜W3としたときの予測
音声についてのSDRと頻度との関係を示すグラフであ
る。
【図4】運転中の音声を対象とした、マイク3〜7から
の音声、及び重みW1〜W3としたときの予測音声につ
いてのSDRと頻度との関係を示すグラフである。
【図5】量産車両等に適用される簡易な構成の音声信号
入力装置の概略構成を示すブロック図である。
【符号の説明】
11…パワスペクトル分析部、13…重み付パワスペク
トル和演算部、15…誤差演算部、17…最適重み係数
演算部、19…最適重み係数記憶部。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D015 DD02 EE05 5J064 AA01 BA16 BB07 BC03 BC06 BC18 BC26 5K052 AA01 AA11 BB35 DD01 EE40 FF32 GG48

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 所定空間内の複数地点に設けた複数のマ
    イクにより、音声発声者からの音声を含む音声入力を複
    数の音声信号に変換して出力し、該複数の音声信号につ
    いてパワスペクトル演算手段により複数のパワスペクト
    ルを演算し、 該複数のパワスペクトルに対して重み付パワスペクトル
    和演算手段により仮の重み係数を掛けた複数の仮重み付
    パワスペクトルを演算すると共に該仮重み付パワスペク
    トルの和を演算し、 音声発声者から発声された音声を該音声発声者の口元に
    設けた接話マイクにより変換した参照音声信号について
    前記パワスペクトル演算手段により参照パワスペクトル
    を演算し、 前記仮重み付パワスペクトルの和と前記参照パワスペク
    トルとの差の二乗である誤差を誤差演算手段により演算
    し、 該誤差演算手段により演算された該誤差に基づいて最適
    重み係数演算手段により重回帰分析法を用いて該該差を
    最小にする前記仮重み係数の最適値である最適重み係数
    を求めて、予め該最適重み係数のデータを最適重み係数
    記憶手段に記憶しておき、 前記複数のマイクにより変換された複数の音声信号に基
    づいて前記パワスペクトル演算手段により得られた複数
    のパワスペクトルに対して、前記重み付パワスペクトル
    和演算手段により前記最適重み係数記憶手段に記憶され
    た対応する最適重み係数を読み出すと共に該最適重み係
    数を該複数のパワスペクトルに掛けあわせて複数の最適
    重み付パワスペクトルを演算し、さらに該最適重み付パ
    ワスペクトルの和を用いて音声出力信号を形成すること
    を特徴とする音声入力の雑音抑制方法。
  2. 【請求項2】 前記最適重み係数データを、前記マイク
    毎に求め、該マイクを通した音声信号に対して該マイク
    に対応する最適重み係数を適用するようにしたことを特
    徴とする前記請求項1に記載の音声入力の雑音抑制方
    法。
  3. 【請求項3】 前記最適重み係数データを、前記マイク
    毎及び音声信号の周波数バンド毎に求め、該マイクを通
    した音声信号に対して該マイク及び周波数バンドに対応
    する最適重み係数を適用するようにしたことを特徴とす
    る前記請求項1に記載の音声入力の雑音抑制方法。
  4. 【請求項4】前記請求項1から3の何れか1項に記載の
    音声入力の雑音抑制方法をコンピュータに実行させるた
    めの雑音抑制制御プログラム。
  5. 【請求項5】前記請求項4に記載の雑音抑制制御プログ
    ラムを記録したコンピュータ読み取り可能な記録媒体。
  6. 【請求項6】 所定空間内の複数地点に設けられて、音
    声発声者からの音声を含めた音声入力を複数の音声信号
    に変換して出力する複数のマイクと、 該マイクから出力された複数の音声信号について複数の
    パワスペクトルを演算するパワスペクトル演算手段と、 該パワスペクトル演算手段により得られた複数のパワス
    ペクトルについて重み係数を掛けた複数の重み付パワス
    ペクトルを演算すると共に該重み付パワスペクトルの和
    を演算する重み付パワスペクトル和演算手段と、 該重み付パワスペクトル和演算手段により前記パワスペ
    クトルに仮の重み係数を掛けて仮重み付パワスペクトル
    とし、さらにその和を演算することによって得られた仮
    重み付パワスペクトルの和と、音声発声者から発声され
    た音声を該音声発声者の口元に設けた接話マイクにより
    変換した参照音声信号について前記パワスペクトル演算
    手段により演算した参照パワスペクトルとの差の二乗で
    ある誤差を演算する誤差演算手段と、 該誤差演算手段からの前記誤差に基づいて重回帰分析法
    により該誤差を最小にする前記仮重み係数の最適値であ
    る最適重み係数を求める最適重み係数演算手段と、 該最適重み係数演算手段により求められた該最適重み係
    数データを予め記憶しておく最適重み係数記憶手段とを
    備えており、 前記複数のマイクにより変換された複数の音声信号に基
    づいて、前記パワスペクトル演算手段により得られた複
    数のパワスペクトルに対して、前記重み付パワスペクト
    ル和演算手段により前記記憶手段に記憶された対応する
    最適重み係数を読み出すと共に該最適重み係数を該複数
    のパワスペクトルに掛けあわせて複数の最適重み付パワ
    スペクトルを演算し、さらに該複数の最適重み付パワス
    ペクトルの和を用いて音声出力信号を形成することを特
    徴とする音声信号入力装置。
  7. 【請求項7】 前記最適重み係数演算手段において、前
    記最適重み係数データを前記マイク毎に求め、該マイク
    を通した音声信号に対して、該マイクに対応する最適重
    み係数を適用するようにしたことを特徴とする前記請求
    項6に記載の音声信号入力装置。
  8. 【請求項8】 前記最適重み係数演算手段において、前
    記最適重み係数データを、前記マイク毎及び音声信号の
    周波数バンド毎に求め、該マイクを通した音声信号に対
    して、該マイク及び周波数バンドに対応する最適重み係
    数を適用するようにしたことを特徴とする前記請求項6
    に記載の音声信号入力装置。
JP2001333930A 2001-10-31 2001-10-31 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置 Pending JP2003140686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333930A JP2003140686A (ja) 2001-10-31 2001-10-31 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333930A JP2003140686A (ja) 2001-10-31 2001-10-31 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置

Publications (1)

Publication Number Publication Date
JP2003140686A true JP2003140686A (ja) 2003-05-16

Family

ID=19149133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333930A Pending JP2003140686A (ja) 2001-10-31 2001-10-31 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置

Country Status (1)

Country Link
JP (1) JP2003140686A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1581026A1 (en) * 2004-03-17 2005-09-28 Harman Becker Automotive Systems GmbH Method for detecting and reducing noise from a microphone array
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
CN112634910A (zh) * 2021-01-05 2021-04-09 三星电子(中国)研发中心 声纹识别方法、装置、设备以及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1581026A1 (en) * 2004-03-17 2005-09-28 Harman Becker Automotive Systems GmbH Method for detecting and reducing noise from a microphone array
JP2005269649A (ja) * 2004-03-17 2005-09-29 Harman Becker Automotive Systems Gmbh マイクロフォンアレイを介してノイズを検知し、かつ、減少させる方法
CN1670823B (zh) * 2004-03-17 2010-06-16 纽昂斯通讯公司 通过麦克风阵列检测和降低噪声的方法
US7881480B2 (en) 2004-03-17 2011-02-01 Nuance Communications, Inc. System for detecting and reducing noise via a microphone array
US8483406B2 (en) 2004-03-17 2013-07-09 Nuance Communications, Inc. System for detecting and reducing noise via a microphone array
US9197975B2 (en) 2004-03-17 2015-11-24 Nuance Communications, Inc. System for detecting and reducing noise via a microphone array
JP2007010897A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音響信号処理方法、装置及びプログラム
US7995767B2 (en) 2005-06-29 2011-08-09 Kabushiki Kaisha Toshiba Sound signal processing method and apparatus
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
CN112634910A (zh) * 2021-01-05 2021-04-09 三星电子(中国)研发中心 声纹识别方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US7698133B2 (en) Noise reduction device
US8019454B2 (en) Audio processing system
US8705753B2 (en) System for processing sound signals in a vehicle multimedia system
EP1718103B1 (en) Compensation of reverberation and feedback
EP2056295B1 (en) Speech signal processing
CN109389990B (zh) 加强语音的方法、系统、车辆和介质
JP2001056693A (ja) 騒音低減装置
JP6635394B1 (ja) 音声処理装置および音声処理方法
WO2015086895A1 (en) Spatial audio processing apparatus
JPWO2018163328A1 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2002051392A (ja) 車内会話補助装置
CN111391771B (zh) 噪音处理的方法、装置及系统
US20060184361A1 (en) Method and apparatus for reducing an interference noise signal fraction in a microphone signal
JP2008070878A (ja) 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム
JP2000231399A (ja) 騒音低減装置
JP2003140686A (ja) 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置
JP2000148200A (ja) 音声入力装置
JP2008070877A (ja) 音声信号前処理装置、音声信号処理装置、音声信号前処理方法、及び音声信号前処理用のプログラム
JP2000322074A (ja) 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク
JP3822397B2 (ja) 音声入出力方式
JP4765394B2 (ja) 音声対話装置
JP2009015209A (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
JP2012199801A (ja) 会話支援装置及び方法
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
JP3210509B2 (ja) 車載用オーディオ装置