JP2008275881A - 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム - Google Patents

雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム Download PDF

Info

Publication number
JP2008275881A
JP2008275881A JP2007119194A JP2007119194A JP2008275881A JP 2008275881 A JP2008275881 A JP 2008275881A JP 2007119194 A JP2007119194 A JP 2007119194A JP 2007119194 A JP2007119194 A JP 2007119194A JP 2008275881 A JP2008275881 A JP 2008275881A
Authority
JP
Japan
Prior art keywords
power spectrum
input
voice
gain adjustment
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007119194A
Other languages
English (en)
Other versions
JP5156260B2 (ja
Inventor
Takashi Fukuda
隆 福田
Osamu Ichikawa
治 市川
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2007119194A priority Critical patent/JP5156260B2/ja
Priority to US12/105,621 priority patent/US8712770B2/en
Publication of JP2008275881A publication Critical patent/JP2008275881A/ja
Application granted granted Critical
Publication of JP5156260B2 publication Critical patent/JP5156260B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 一般的な音声認識装置は、雑音や目的話者以外が発声する妨害音声によって著しく性能が低下する。大規模なマイクロフォンアレイや雑音の参照信号を必要とすることなく、雑音環境下で目的話者の音声のみを抽出する。
【解決手段】 マイクロホン等から得られる2チャンネルの入力音声についての処理として、スペクトラム・サブトラクション (SS:Spectrum Subtraction)処理とフロアリング(Flooring)処理との間で利得調整を行うことだけによって、実用的な音声認識性能を実現する。利得調整としては、CSP (Cross-power Spectrum Phase:クロス・パワー・スペクトラム・フェーズ) 係数という2チャンネル信号間の相互相関関係を利用できる。オーディオ背景音などが存在する車の室内環境において、カーナビゲーションシステムにおける音声コマンドの認識率を向上させ、ドライバーなど発話者のユーザビリティを向上させる。
【選択図】図3

Description

本発明は、音声認識技術、特に目的話者の音声を認識するにあたっての前処理の技術に関するものであり、より具体的には、雑音のある環境下で雑音を除去して目的音を抽出するための技術に関する。
近年、ユーザビリティの向上を目指し、雑音のある環境下において目的音を抽出する音声処理が必要とされる場面が多くなってきている。
その代表的な例として、音声認識を介した車載のカーナビゲーションシステムの操作がある。ドライバーが、マイクロホンの存在をそれほど意識することなく、運転席に座ったままでドライバーの肉声として発するコマンド等を通じてハンズフリーで操作を指示できれば、ドライバーが前方から視線を外すことなく運転に集中することができるため、ドライバーの安全に資することができる。
音声認識の利用形態は、発話区間検出(VAD: Voice Activity Detection)という観点から (1) Push to Talk 方式、(2) Push to Activate 方式、(3) Always Listening 方式という3種類の方式に分けることができる。このうち、カーナビゲーションシステムでは、性能とユーザビリティとのバランスから(2) Push to Activate 方式が広く採用されている。(2) Push to Activate 方式は、まずトークスイッチを押して発話の開始をシステムに知らせてから、音声コマンドを発声する方法である。発話の終了はシステムの側で自動的に検出する。
現状での音声認識を搭載した一般的なカーナビゲーションシステムでは、認識性能と発話区間(発話終端)検出性能を維持するため、トークスイッチを押すことで演奏中のオーディオがストップし、音声認識のための静かな室内環境を作り出すようになっている。この際、助手席などに座っている同乗者も一旦は会話をやめて、物音を立てないように静かに我慢している必要がある。ドライバーや同乗者にとっては、音声認識のためにせっかくの音楽が止まってしまったり、我慢して静かに待ち構えていなければならないことは不快であってユーザビリティの観点から好ましいものであるとは言えず、車室内の音響環境を変えない状態でも実用に耐え得るような、ミューティング(Muting)を必要としない(3) Always Listening 方式に相当するような音声認識が要望されている。
車内でミューティング(Muting)を行うことなく音声認識を利用しようとすると、まず考えられる取り組みとして、エコーキャンセラによって演奏中のオーディオ音声を除去する取り組みがある。しかし、このような取り組みは、大負荷の信号処理を必要とし、専用のハードウェアや参照入力の配線群も必要となってくるなど、車載機器メーカまたは自動車メーカの負担が大きかった。
一方、ドライバーを目的話者に設定して、ドライバーが発話するコマンドを目的音声としてカーナビゲーションシステムに認識させようとする場合、助手席や後部席に座っている同乗者の声による誤動作を防ぐことが可能な、独立成分分析(ICA)や適応型ビームフォーマといった方法が提案されている。しかし、実用的に十分な性能を得ようとすると、多大な計算資源を必要としたり、雑音源の数をあらかじめ指定する(マイクロホンの数は雑音源より多くする)必要がある。
これらに対して、CSP (Cross-power Spectrum Phase:クロス・パワー・スペクトラム・フェーズ) 係数という2チャンネル信号の相互相関関係を利用して音声スペクトルの利得調整を行う方法は、処理計算量が少なく、期待しない方向からの音声を効率的に除去できることから、有望な方法として期待されている。しかし、その他の雑音除去技術との併用が十分に検討されてこなかったこともあって、CSPを利用した従来法では、車内での実環境においては、実用的に十分な認識性能が引き出せるには至っていない。
例えば、以下の非特許文献1においては雑音処理技術とFlooing処理との関係について言及しておらず、非特許文献2においても利得調整については提案されていない。非特許文献3、非特許文献4は、ハンズフリー音声認識やCSP法の背景技術として列挙するものである。
「相関係数に基づいた音声検出と音声強調に関する検討」永田仁史,藤岡豊太,安倍正人(岩手大学工学部情報システム工学科),電子情報通信学会技術研究報告,音声研究会,SP2002-165,pp.25-31 (2003-01) 「Weighted CSP 法と零交差検出法に基づくハンズフリー発話区間検出の検討」田中貴雅,傳田遊亀,中山雅人,西浦敬信(立命館大),日本音響学会講演論文集,1-2-13,pp25-26 (2006-09) 「マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識 − 対話型テレビのフロントエンドシステムの構築 −」藤本 雅清 有木 康雄(龍谷大学大学院 理工学研究科)、第4回DSPS教育者会議,pp.55-58 (2002-08) 「帯域分割型CSP法に基づく話者位置推定法の検討」傳田 遊亀 西浦 敬信 河原 英紀 入野 俊夫(和歌山大学大学院 システム工学研究科 立命館大学 情報理工学部), 電子情報通信学会技術研究報告,音声研究会,NLC2004-69,pp.79-84 SP2004-109 (2004-12)
エコーキャンセラのような特別なハードウェアや配線群を必要としない環境で、低コストで実用的な音声認識性能を実現することが望まれる。
本発明によれば、前記2つの入力音声に基いた利得調整という処理手順を、代表的な雑音除去手法であるSpectrum Subtraction (SS)処理とFlooring処理とを組み合わせた処理手順に結び付けている。具体的には、SS処理とFlooring処理との間で利得調整を行う。このことによって、ハードウェアとして少なくとも2つの音声入力器が提供されればそれ以上必要なく、ソフトウェアの処理として低コストに実用的な音声認識性能を実現することができる。
もとより、従来からCSP係数を利用する利得調整の手法は「処理計算量が少なくて済む」というメリットを持っていることが手伝って、以下の(1)〜(3)のことが可能となる。
(1)実用的な性能を保ちながら、ソフトウェア処理によって実装可能な車載オーディオや同乗者等による妨害音声を除去する装置(雑音除去装置)が実現できる。
(2)ソフトウェア処理で指向性を形成することが可能となり、たとえば、認識部との関係でのライブラリとしてのプログラムとして、すなわち目的音声を抽出する前処理のプログラムとして、それ自体を独立して提供することが可能となる。全体として、音声認識プログラム、音声認識システムが構築される。
(3)ハードウェアとしては、少なくとも2つの音声入力器(代表的には、マイクロホン)が提供されれば足りることになる。例えば、カーナビゲーションシステムのハードウェアとして既に1つの音声入力器(マイクロホン)が利用可能になっていれば、ハードウェアとしてはさらにもう一つの音声入力器(マイクロホン)を追加するだけで足りることになり、専用のハードウェアを開発しないで済むために、開発コストを大幅に節減することができる。
図1は、本発明が適用される音声認識システムの構成図である。音声認識システム10の主たる構成としては、前処理部100と認識部200とに分けることができ、それぞれの部は、前処理としての機能と、実際に音声認識をする機能とを果たすように、図示のように結合されている。マイクロホン1およびマイクロホン2から到来する入力音声は、各々、高速フーリエ変換(FFT)によって周波数領域に変換され、前処理部100でSSによる雑音除去とCSP係数による利得調整が行われ、その処理された結果が認識部200に入力される。認識部200において音声認識用の特徴量が抽出されて、参照パターンとの間でのパターンマッチングを通じて、最終的には音声認識結果が出力される。本発明が適用されるのは、前処理部100である。
本発明の効果は、最終的に認識部200を通してから得られる音声認識結果によって評価される。しかし、前処理部100の存在だけをもってしても、雑音のある環境下で雑音を除去するという目的、見方を変えると、目的音を抽出するという目的は達成できている。よって、前処理部100の存在だけをもってしても、これらの目的を達成できる特長があるので、包括的な意味で音声認識システム10を構成していると言うことができ、音声認識方法を実現していると言うことができる。
図2は、従来法と本発明との処理手順を比較する処理フロー図である。従来法のフローにおいては,(CSP係数による)利得調整の結果をそのまま認識部200に入力する。一方で、本発明においては、代表的な雑音除去手法であるSS(Spectrum Subtraction:スペクトラム・サブトラクション)処理の後、(CSP係数による)利得調整を行って、最後にフロアリング(Flooring)処理をするという処理手順を採用してから、認識部200に入力する。
本発明の重要なポイントは、図2に示すように,SS処理 → (CSP係数による)利得調整 → Flooring処理という処理手順である。本来、Flooring処理はSS処理で減算しすぎたスペクトルを補うための処理として位置付けられており、SS処理 → Flooring処理というペアの流れで処理されるのが一般的である。しかし、本発明においては SS処理とFlooring処理との間において(CSP係数による)利得調整を行うということが非常に重要なポイントとなっている。そもそも、従来技術においては、その他の雑音除去技術との関係を深く検討した例はない。
図3は、本発明の詳細な処理手順の処理フロー図である。例えば、CSP係数算出110というブロック表現は、本発明の方法においては処理ブロックの単位であり、本発明のシステムにおいてはそれぞれが接続されていて機能を実現する部(セクション)であり、本発明のプログラムにおいては方法をシステム(コンピュータシステム、ナビゲーションシステム)に実行されるコードまたは命令等の単位として体現され得る。
まず、2つの音声入力器であるマイクロホン1およびマイクロホン2を通じて2チャンネルの信号として得られる入力音声は、各々、高速フーリエ変換(FFT:Fast Fourier Transform)によって処理され、周波数領域に変換される。
次に、処理された入力音声は、遅延和アレイ処理120で強調することで目的話者の方向に対して指向性を形成することもできる。
遅延和アレイ処理120では、θ方向から到来する信号を少なくとも2つのマイクロホンで受音して、それぞれを同相化して加算することにより、θ方向から到来する信号を強調するものである。よって、θ方向以外から到来する信号は、同相化されないために強調されない。よって、θ方向に感度が高く、それ以外の方向に感度が低いという指向性を形成することができる。
遅延和アレイ処理120の代わりにも、適応型アレイ処理で雑音や残響の方向に対して死角を形成することもできる。さらには、その他のアレイ処理によって代替してもかまわない。また、これらのアレイ処理を省略して、すなわち素通りさせて、2つの音声入力器で得られる音声のうち、どちらか片方の信号そのままを利用することもできる。
次に、次式に示すSS(スペクトルサブトラクション)処理140に進んで雑音をさらに取り除く。
Figure 2008275881
この数式1で、Xω(T)はSS処理前のパワースペクトル,Yω(T) はSS処理後のパワースペクトルすなわち減算後パワースペクトル,Uωは雑音のパワースペクトルである。このUωについては、雑音区間すなわち目的話者の非発話区間で推定されるものであって、事前に推定して固定的に使ってもよいし、入力音声と同時に逐次推定(更新)してもよいし、もしくは、一定時間間隔で推定(更新)してもよい。
すなわち、2つの入力信号の両方についてアレイ処理で統合された信号、もしくは2つの入力信号の何れか一方であるXω(T)は、雑音推定130に入力され、雑音のパワースペクトルUωが推定される。αは任意の減算定数であり、1に近い値(例えば、0.90など)が選択されることが多いであろうが、任意の値をとることができる。
その後、次式で求まるCSP係数を用いて利得調整(音声強調)150をする。CSP係数の算出については、CSP係数算出110を通じて並行して計算を進めておくことができる。かかる利得調整は、目的話者の発話区間検出の処理をしていることにも相当している。
Figure 2008275881
この数式2で、φ(i,T) は1番目と2番目の音声入力器(マイクロホン)に入力された音声から求めたCSP係数、iは音声の到来方向(DOA: Direction Of Arrival)であって、角度指標である。tは離散時間である。s1 (t)と s2 (t)はそれぞれ時刻tに受音した1番目と2番目との音声入力器(マイクロホン)の信号である。かかるCSP係数の算出では、2チャンネル信号間の位相情報を使用することで、信号のスペクトル特性に依存しない正確な到来方向の推定ができる。
利得調整(音声強調)は次式のとおりである.SS処理後の減算スペクトルYω(T) にCSP係数を掛けることで行う。
Figure 2008275881
この数式3で、Dω(T)は利得調整後のパワースペクトルである。目的話者が発話していないときはCSP係数が小さくなるので、到来方向以外からの音声のパワースペクトルはこの処理により抑圧されることになる。この式が示すように「利得調整」を行うことができれば、本発明の技術的思想は、何もCSP係数を利用したものだけに限定されるものではないことが理解できる。
図4は、車の室内における空間的位置関係を示す上面図である。
iが示す音声の到来方向(角度指標)については、車の室内空間においては、ドライバー、同乗者(助手席、後部席)の各位置はほぼ決まっており、ドライバーを目的話者とすると、ドライバーとしての定位置である運転席からコマンド等を発話する場合が普通である。従って、システム上では数式2、3に示す目的話者の音声到来方向 iを固定した上で、CSP係数による利得調整を行う。すなわち、目的話者と音声入力器(マイクロホン)との位置関係から、音声到来方向については目的話者の発話方向に狙いをつけるべく、あらかじめ話者位置を考慮した室内空間デザインとして最適化できる。マイクロホンの種類(指向性マイクロホン、無指向性マイクロホン)を問わず、目的話者の方向に指向性を形成することができる。
かかる空間的位置関係は、以下の数式4または数式5に従って、リアルタイムに話者位置を推定することもできる。
Figure 2008275881
Figure 2008275881
これら数式4または数式5で、τは1番目と2番目の音声入力器(マイクロホン)への音声の到来時間差、kは離散時間、cは音速、dは1番目の音声入力器(マイクロホン)と2番目の音声入力器(マイクロホン)との間の距離、Fsはサンプリング周波数、θは音声の到来方向とマイクロホンペアがなす角度、である。
すなわち、マイクロホンと目的話者(より詳細には、人体の発声器官として関わってくる、目的話者の 口、鼻、声帯など)との空間的位置関係において、予め固定的に指向性を形成しておくことが可能である。空間中の少なくとも2つの異なる箇所に設置された音声入力器(1,2)であるマイクロホンペアによって2つの入力音声が得られればよく、2次元的に指向性を形成してあれば実用上は十分であるため、図4における紙面の奥行き方向の影響についての説明は省略する。
車のユーザビリティに柔軟性をもたせるべく、例えば、ドライバーが自分の体型にあわせて座席を倒したり起こしたりする座席位置調整との関係で、車の室内空間におけるマイクロホンとの間の相対的な位置関係がずれてしまうことに対応して、当業者であれば適宜ソフトウエア的に事後調整を行っていくことも可能であろう。
そして最後にフロアリング(Flooring)処理160を行う。Flooring処理とは、以下の数式に従った操作のことを指す。
Figure 2008275881
この数式6で、Zω(T)はFlooring処理後の認識用パワースペクトル、Uωは雑音のパワースペクトルであって、Uωとしては、数式1で用いるものと同様のものを利用できるが、他の方法で推定した異なったものを利用してもよい。数式6が示すように、Uωは条件判断のためだけに用いられることもある。フロアリング係数(Flooring係数)βは任意の値を持つ定数であり、0(ゼロ)に近い値(例えば、0.10など)が選択されることが多いであろうが、任意の値をとることができる。
助手席妨害話者に対する頑健性について
車内の室内空間でのカーナビゲーションシステムの使用を想定して、本発明について、音声コマンドの音声認識についての単語誤り率を測定する実験を行った。実験条件は、表1の通りである。
Figure 2008275881
図5は、目的話者、妨害話者、2つの音声入力器(マイクロホン)との空間的位置関係および実験条件を示す模式図である。実験条件とその認識結果(単語誤り率)は表2に示す。
ここで、Case1は目的話者(ドライバー)のみが発話している場合、Case2は目的話者の発話終了と同時に妨害話者(助手席の同乗者)が発話する場合、Case3は目的話者と妨害話者が同時に発話する場合である。目的話者は連続する数字(15408・・・)を発話し、妨害話者からは日常会話(例えば、「今日は暑いね」など)を発話する。
Case2やCase3は妨害話者の発話の影響で発話終端検出が難しい場合であって、助手席側マイクロホンのみ、運転席側マイクロホンのみ、というように単独のマイクロホンのみを使う場合には、認識性能が極端に悪くなってしまうことがわかる。表2の結果が示しているように、助手席側マイクロホンと運転席側マイクロホンとを利用する本発明による性能改善の効果は極めて大きい。
Figure 2008275881
DVD 5.1chオーディオに対する頑健性について
停車中(アイドリング状態で、エアコンをオンにした状態)の車内において、DVD 5.1chオーディオが背景音として流れている状態を想定して、4名の話者によりカーナビゲーションシステムを操作するための50種類の音声コマンドを発話収録し、音声認識させる実験を行った。実験結果(コマンド認識率)を表3に示す。表中の「SSのみ」という項目は、2つのマイクロホンによる発話区間処理および利得調整は行わずに、従来のスペクトルサブトラクション(SS)法により雑音除去処理を行った場合のコマンド認識率の結果である。ここでも本発明の実用的に高い効果を伺うことができる。
Figure 2008275881
処理する手順の比較について
本発明では、SS処理 → CSPによる利得調整 → Flooring処理の順で処理を行うことが重要なポイントであることを説明した。ここでは、処理順番の違いによる性能の差を比較するため、表4のように、SS処理 → Flooring処理 → CSPによる利得調整、および CSPによる利得調整→ SS処理 → Flooring処理としたときの実験を行った。表4に実験結果(コマンド認識率)を示す。表からわかるように、SS処理 → CSPによる利得調整 → Flooring処理の順で処理したときに飛びぬけて高い性能を示し、この順番に処理するという手順が重要であることがわかる。
Figure 2008275881
このような処理手順が飛びぬけて高い性能を示す理由として、図6の(a)(b)(c)(d)で示すような模式図による説明が考えられる。何れも雑音区間(目的話者の非発話区間)の例を示すものであって、(a)は、スペクトルサブトラクション(SS)を行う前のパワースペクトルXω(T)を示す模式図である。(b)は、スペクトルサブトラクション(SS)を行った減算後パワースペクトルYω(T)を示す模式図である。SS処理によって雑音が減少している。(c)はCSP係数による利得調整後のパワースペクトルDω(T)を示す模式図である。CSP係数による利得調整によって、さらに雑音が減少している。(d)は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図である。でこぼこしていた雑音のスペクトルが、なだらかなものになる。
CSPとFlooringの効果は、雑音区間(目的話者の非発話区間)に現れる。雑音区間のスペクトルが、SS処理により平らになり、ところどころ飛び出ている山が、CSP係数をかけることによってさらにつぶされ、さらに、Flooringをかけることによって谷が埋められ、平滑化された(比喩としては、雪をかぶったような)なだらかなスペクトル包絡になる。結果として、雑音を目的話者の音声として間違うことがなくなる。Push to Activate 方式 や Always Listening 方式では、目的話者が発話していないのに、周囲の雑音を目的話者の音声と間違えて誤った認識を起こしてしまうことが問題となっているが、SS処理→(CSP係数による)利得調整 → Flooring処理という処理手順で処理すると、その誤りが軽減されるというのが原理として考えられる。
本発明はカーナビゲーションシステムでの使用を想定して説明してきたが、本発明の方法およびその方法を実行するモジュール化されたソフトウェアとして、他のコンピュータシステムなど、種々のタイプのプロセッサにより実施することが可能である。
例えば、オブジェクト、手順または機能として組織することができ、コンピュータ命令の1つまたは複数の物理ブロックまたは論理ブロックを含むことができる。モジュール化されて実行可能なものは、必ずしも物理的に一緒に位置させる必要はなく、各モジュールの機能を達成することができるのであれば、いくつかの異なる格納位置に分散させておくこともできる。
さらには、ネットワークを通じて供給するなどといった態様で、存在させることもできるため、その応用として、例えばアップデート版を簡易に供給することもできる。もちろん、モジュールはハードウェア回路として実装させることもできる。
本発明が適用される音声認識システムの構成図である。 従来法と本発明との処理手順を比較する処理フロー図である。 本発明の詳細な処理手順の処理フロー図である。 車の室内における空間的位置関係を示す上面図である。 目的話者、妨害話者、2つの音声入力器(マイクロホン)との空間的位置関係および実験条件を示す模式図である。 何れも雑音区間(目的話者の非発話区間)の例を示すものであって、(a)は、スペクトルサブトラクション(SS)を行う前のパワースペクトルXω(T)を示す模式図である。(b)は、スペクトルサブトラクション(SS)を行った減算後パワースペクトルYω(T)を示す模式図である。(c)はCSP係数による利得調整後のパワースペクトルDω(T)を示す模式図である。(d)は、Flooring処理を行った後の認識用パワースペクトルZω(T)を示す模式図である。
符号の説明
10 音声認識システム
100 前処理部
110 CSP係数算出
CSP係数算出部
120 遅延和アレイ処理
遅延和アレイ処理部
130 雑音推定
雑音推定部
140 SS(スペクトルサブトラクション)処理
SS処理部
150 利得調整(音声強調)
利得調整部
160 Flooring処理
Flooring処理部
200 認識部

Claims (15)

  1. 空間中の少なくとも2つの異なる箇所に設置された音声入力器(1,2)によって得られる2つの入力音声から、目的音声を抽出する方法であって、
    前記2つの入力音声の何れか一方またはそれらの両方に基いて(Xω(T))推定される雑音のパワースペクトル(Uω)と任意の減算定数(α)とを用いた、SS(スペクトラム・サブトラクション)処理を適用して、減算後パワースペクトル(Yω(T))を得るステップと、
    得られたこの減算後パワースペクトルについて、前記2つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル(Dω(T))を得るステップと、
    得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数(β)を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル(Zω(T))を得るステップとを有する、
    方法。
  2. 前記利得調整は、前記2つの入力音声の相互相関関係を利用したCSP(クロス・パワー・スペクトラム・フェーズ)係数を用いた利得調整である
    請求項1記載の方法。
  3. 前記減算後パワースペクトルを得るステップの前に、さらに、
    目的話者からの音声を強調するために、前記2つの入力音声に基いて、アレイ処理をするステップを有する
    請求項1記載の方法。
  4. 前記アレイ処理が、前記2つの入力音声を用いた遅延和アレイ処理である、
    請求項3記載の方法。
  5. 前記アレイ処理が、前記2つの入力音声を用いた適応型アレイ処理である、
    請求項3記載の方法。
  6. 前記空間が車室内であって、前記音声入力器によって得られる2つの入力音声には、車室内における雑音としてオーディオ音声、及び/または、妨害話者による発話を含む、
    請求項1記載の方法。
  7. 前記音声入力器が、無指向性マイクロホンである、
    請求項2記載の方法。
  8. 前記音声入力器が、指向性マイクロホンである、
    請求項2記載の方法。
  9. 空間中の2つの異なる箇所に設置された音声入力器は、目的話者との位置関係から、車内において指向性が形成されている
    請求項1記載の方法。
  10. 請求項1記載の方法を目的音声を抽出する前処理の方法として用いて、
    得られた認識用パワースペクトルを入力にして音声認識結果を出力する、
    音声認識方法。
  11. 空間中の少なくとも2つの異なる箇所に設置された音声入力器(1,2)によって得られる2つの入力音声から、目的音声を認識するにあたっての前処理を行う前処理部(100)であって、
    前記音声入力器(1,2)に接続され、前記2つの入力音声の何れか一方またはそれらの両方に基いて(Xω(T))推定される雑音のパワースペクトル(Uω)と任意の減算定数(α)とを用いた、SS(スペクトラム・サブトラクション)処理を適用して、減算後パワースペクトル(Yω(T))を得る、SS処理部(140)と、
    前記SS処理部(140)に接続され、得られたこの減算後パワースペクトルについて、前記2つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル(Dω(T))を得る、利得調整部(150)と、
    前記利得調整部(150)に接続され、得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数(β)を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル(Zω(T))を得る、Flooring処理部(160)とを有する、
    前処理部(100)。
  12. 請求項11記載の前処理部と、
    当該前処理部に結合された認識部(200)とを有し、
    認識用パワースペクトルを入力して音声認識を行って音声認識結果を出力する、
    音声認識システム(10)。
  13. 空間中の少なくとも2つの異なる箇所に設置された音声入力器によって得られる2つの入力音声から、目的音声を抽出するために、以下の各ステップをコンピュータシステムに実行させるプログラムであって、
    前記2つの入力音声の何れか一方またはそれらの両方に基いて(Xω(T))推定される雑音のパワースペクトル(Uω)と任意の減算定数(α)とを用いた、SS(スペクトラム・サブトラクション)処理を適用して、減算後パワースペクトル(Yω(T))を得るステップと、
    得られたこの減算後パワースペクトルについて、前記2つの入力音声に基いた利得調整を適用して、利得調整後のパワースペクトル(Dω(T))を得るステップと、
    得られたこの利得調整後のパワースペクトルについて、任意のフロアリング係数(β)を用いたフロアリング(Flooring)処理を適用して、認識用パワースペクトル(Zω(T))を得るステップとを有する、
    プログラム。
  14. 前記利得調整は、前記2つの入力音声の相互相関関係を利用したCSP(クロス・パワー・スペクトラム・フェーズ)係数を用いた利得調整である
    請求項13記載のプログラム。
  15. 請求項13記載のプログラムを目的音声を抽出する前処理のプログラムとして用いて、コンピュータシステムに、
    得られた認識用パワースペクトルを入力にして音声認識結果を出力させる、
    音声認識プログラム。
JP2007119194A 2007-04-27 2007-04-27 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム Expired - Fee Related JP5156260B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007119194A JP5156260B2 (ja) 2007-04-27 2007-04-27 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US12/105,621 US8712770B2 (en) 2007-04-27 2008-04-18 Method, preprocessor, speech recognition system, and program product for extracting target speech by removing noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007119194A JP5156260B2 (ja) 2007-04-27 2007-04-27 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2008275881A true JP2008275881A (ja) 2008-11-13
JP5156260B2 JP5156260B2 (ja) 2013-03-06

Family

ID=39888053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007119194A Expired - Fee Related JP5156260B2 (ja) 2007-04-27 2007-04-27 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム

Country Status (2)

Country Link
US (1) US8712770B2 (ja)
JP (1) JP5156260B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2011113044A (ja) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
JP2011259195A (ja) * 2010-06-09 2011-12-22 Yamaha Corp 音響処理装置
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2013533685A (ja) * 2010-07-15 2013-08-22 ヴェーデクス・アクティーセルスカプ 補聴器システムにおける信号処理方法および補聴器システム
JP2015127768A (ja) * 2013-12-27 2015-07-09 富士ゼロックス株式会社 信号解析装置、信号解析システムおよびプログラム
US9264797B2 (en) 2012-12-21 2016-02-16 Panasonic Intellectual Property Management Co., Ltd. Directional microphone device, acoustic signal processing method, and program
US9530406B2 (en) 2013-11-25 2016-12-27 Hyundai Motor Company Apparatus and method for recognizing voice
JP2017054015A (ja) * 2015-09-10 2017-03-16 新日本無線株式会社 目的音抽出装置及び目的音抽出方法
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
JP5594133B2 (ja) * 2010-12-28 2014-09-24 ソニー株式会社 音声信号処理装置、音声信号処理方法及びプログラム
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
ES2970727T3 (es) * 2013-02-19 2024-05-30 Univ California Métodos para decodificar el habla desde el cerebro y sistemas para llevarlos a la práctica
US10102850B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Direction based end-pointing for speech recognition
KR102282366B1 (ko) 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9691413B2 (en) 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US9479627B1 (en) * 2015-12-29 2016-10-25 Gn Audio A/S Desktop speakerphone
US9640197B1 (en) 2016-03-22 2017-05-02 International Business Machines Corporation Extraction of target speeches
JP6391895B2 (ja) * 2016-05-20 2018-09-19 三菱電機株式会社 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法
JP6904361B2 (ja) * 2016-09-23 2021-07-14 ソニーグループ株式会社 情報処理装置、及び情報処理方法
US20180190282A1 (en) * 2016-12-30 2018-07-05 Qualcomm Incorporated In-vehicle voice command control
CN110033773B (zh) * 2018-12-13 2021-09-14 蔚来(安徽)控股有限公司 用于车辆的语音识别方法、装置、系统、设备以及车辆
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
US11190155B2 (en) * 2019-09-03 2021-11-30 Toyota Motor North America, Inc. Learning auxiliary feature preferences and controlling the auxiliary devices based thereon
US11259127B2 (en) * 2020-03-20 2022-02-22 Oticon A/S Hearing device adapted to provide an estimate of a user's own voice

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7218741B2 (en) * 2002-06-05 2007-05-15 Siemens Medical Solutions Usa, Inc System and method for adaptive multi-sensor arrays
CN100477705C (zh) * 2002-07-01 2009-04-08 皇家飞利浦电子股份有限公司 音频增强系统、配有该系统的系统、失真信号增强方法
US7039199B2 (en) * 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
EP1850640B1 (en) * 2006-04-25 2009-06-17 Harman/Becker Automotive Systems GmbH Vehicle communication system
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134287A (ja) * 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2006349723A (ja) * 2005-06-13 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200001041001; 水町 光徳 Mitsunori MIZUMACHI: 'マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法 Noise Reduction by Paired-Micropho' 電子情報通信学会論文誌 (J82-A) 第4号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS,INF 第J82-A巻, 19990425, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *
JPN6012002603; 水町 光徳 Mitsunori MIZUMACHI: 'マイクロホン対を用いたスペクトルサブトラクションによる雑音除去法 Noise Reduction by Paired-Micropho' 電子情報通信学会論文誌 (J82-A) 第4号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS,INF 第J82-A巻, 19990425, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010026361A (ja) * 2008-07-23 2010-02-04 Internatl Business Mach Corp <Ibm> 音声収集方法、システム及びプログラム
JP2011113044A (ja) * 2009-11-30 2011-06-09 Internatl Business Mach Corp <Ibm> 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
US8762137B2 (en) 2009-11-30 2014-06-24 International Business Machines Corporation Target voice extraction method, apparatus and program product
JP2011259195A (ja) * 2010-06-09 2011-12-22 Yamaha Corp 音響処理装置
JP2013533685A (ja) * 2010-07-15 2013-08-22 ヴェーデクス・アクティーセルスカプ 補聴器システムにおける信号処理方法および補聴器システム
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
US9264797B2 (en) 2012-12-21 2016-02-16 Panasonic Intellectual Property Management Co., Ltd. Directional microphone device, acoustic signal processing method, and program
US9530406B2 (en) 2013-11-25 2016-12-27 Hyundai Motor Company Apparatus and method for recognizing voice
JP2015127768A (ja) * 2013-12-27 2015-07-09 富士ゼロックス株式会社 信号解析装置、信号解析システムおよびプログラム
JP2017054015A (ja) * 2015-09-10 2017-03-16 新日本無線株式会社 目的音抽出装置及び目的音抽出方法
JP2019008274A (ja) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

Also Published As

Publication number Publication date
US20080270131A1 (en) 2008-10-30
JP5156260B2 (ja) 2013-03-06
US8712770B2 (en) 2014-04-29

Similar Documents

Publication Publication Date Title
JP5156260B2 (ja) 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
JP6644197B2 (ja) 雑音除去装置および雑音除去方法
CN108275159B (zh) 语音界面和声乐娱乐系统
JP3910898B2 (ja) 指向性設定装置、指向性設定方法及び指向性設定プログラム
US8577678B2 (en) Speech recognition system and speech recognizing method
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
US11089404B2 (en) Sound processing apparatus and sound processing method
EP3441969A1 (en) Synthetic speech for in vehicle communication
WO2015086895A1 (en) Spatial audio processing apparatus
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
Yamamoto et al. Making a robot recognize three simultaneous sentences in real-time
EP3847645B1 (en) Determining a room response of a desired source in a reverberant environment
JP2022544065A (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
Kim et al. Hybrid probabilistic adaptation mode controller for generalized sidelobe cancellers applied to multi-microphone speech enhancement
JP2010161735A (ja) 音再生装置および音再生方法
Gul et al. Preserving the beamforming effect for spatial cue-based pseudo-binaural dereverberation of a single source
Even et al. Blind signal extraction based joint suppression of diffuse background noise and late reverberation
JP2001337694A (ja) 音源位置推定方法、音声認識方法および音声強調方法
Takada et al. Sound source separation using null-beamforming and spectral subtraction for mobile devices
KR20200129219A (ko) 음성인식 장치 및 음성인식 장치의 동작방법
Meutzner et al. Binaural signal processing for enhanced speech recognition robustness in complex listening environments
Wang et al. Speech recognition using blind source separation and dereverberation method for mixed sound of speech and music
CN112530452B (zh) 一种后置滤波补偿方法、装置和系统
Ichikawa et al. Effective speech suppression using a two-channel microphone array for privacy protection in face-to-face sales monitoring
Aprilyanti et al. Optimized joint noise suppression and dereverberation based on blind signal extraction for hands-free speech recognition system

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121023

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5156260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees