JP4225430B2 - 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム - Google Patents

音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム Download PDF

Info

Publication number
JP4225430B2
JP4225430B2 JP2007529641A JP2007529641A JP4225430B2 JP 4225430 B2 JP4225430 B2 JP 4225430B2 JP 2007529641 A JP2007529641 A JP 2007529641A JP 2007529641 A JP2007529641 A JP 2007529641A JP 4225430 B2 JP4225430 B2 JP 4225430B2
Authority
JP
Japan
Prior art keywords
sound source
microphones
sound
microphone
beamformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007529641A
Other languages
English (en)
Other versions
JPWO2007018293A1 (ja
Inventor
克昌 長濱
信也 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Application granted granted Critical
Publication of JP4225430B2 publication Critical patent/JP4225430B2/ja
Publication of JPWO2007018293A1 publication Critical patent/JPWO2007018293A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラムに関する。
種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。これらの音源分離の手法として独立主成分分析法などを使用する方法もあるが、演算量、音源数の変動などの問題があり実用化されていない。
上記の問題を解決するために、車内の複数のマイクを取り付け特定方向からの音声のみを収録する方法が各種提案されているが、自動車内に多数のマイクを取り付けるためのスペースを確保することは困難であり、加えてコスト的な問題から特性の揃ったマイクを使用することも難しい。このため、出来るだけ少数で特性バラつきがあるマイクを使用して動作をする方式が望まれている。
一般に複数のマイクロホンを使用する場合、低コストなマイクロホンほどその感度特性のバラつきが大きく約±3dB程度各周波数特性にバラつきがあると言われている。これらの特性のバラつきがマイクロホンアレイ技術の中でも遅延和アレイなどの加算型アレイ処理ではマイクロホンアレイ性能が設計通りの特性が実現できないだけであるが、適応アレイなどのいわゆる減算型アレイでは一つのマイクを使用する場合より特に1kHZ以下程度の低域において性能を悪化させる場合がある。
マイクロホンアレイ技術にとってセンサとしてのマイクロホンの特性のバラつきは大きな問題であり、これらの対策として、特許文献1〜5などに複数のマイク素子の感度を揃える方法が提案されている。
従来、少数のマイクロホン数で大きな効果が得られる適応ビームフォーマ処理技術を利用したマイクロホンアレイに関しては、例えば非特許文献1や、非特許文献2に述べられているように、一般化サイドローブキャンセラ(GSC)、フロスト型ビームフォーマおよび参照信号法など、種々の方法が知られている。
適応ビームフォーマ処理は、基本的には雑音源の方向に死角を有する指向性ビームを形成したフィルタにより雑音を抑圧する処理であり、その中でも特に一般化サイドローブキャンセラは、比較的性能が良いことで知られている。しかし、GSCでは、設定された目的音源の方向とずれた方向から目的信号が到来した際に、目的信号がキャンセルされて劣化するという問題点がある。これに対し、特許文献6、7において、これを周波数領域で動作させることで計算量を削減すると共に、周波数領域のフィルタ係数から話者方向と特定雑音方向とを逐次検知し、目的音と目的音以外の雑音とをある程度分離し、スペクトルサブトラクションと併用することで到来方向不明な雑音や拡散性の雑音を低減する方法が開示されている。
[特許文献1]特開平5−131866号公報
[特許文献2]特開2002−99297号公報
[特許文献3]特開2003−153372号公報
[特許文献4]特開2004−343700号公報
[特許文献5]特開2004−289762号公報
[特許文献6]特開2001−100800号公報
[特許文献7]特開2000−47699号公報
[非特許文献1]電子情報通信学会編「音響システムとデジタル処理」
[非特許文献2]HAykin著、“ADAptive Filter Theory(PrentiCe HAll)”
[発明が解決しようとする課題]
この特許文献6、7に記載されているような適応ビームフォーマとスペクトルサブトラクションを組み合わせた技術において、マイクロホンの素子感度のバラつきが存在する場合、適応フィルタ部の入力信号として目的音を抑圧した参照信号を作成する必要があるが、目的音を十分に抑圧することが出来ず、適応フィルタ部の参照信号と目的信号双方に目的音が含まれるため、適応フィルタ処理を施した結果目的音が歪み音質が劣化する。同様の現象は、初期反射の大きな閉空間でも参照信号中に目的音信号が漏れてしまい発生する。
これを解決するために、マイクロホンの素子感度補正をするために製品組み立て時にバラつきを測定し補正データを作成して使用時に補正を行ったり、使用時に特定方向からの基準信号を利用してマイクロホンの素子感度の個体差、周囲温度や部品の経年変化による逐次変化を測定し補正する方法があるが、製造コストの増加や、基準信号をいつ再生させるか、あるいは収録した信号が本当に基準信号のみかどうかをどうやって判断するかなどの問題がある。
また適応フィルタの動作に着目すると、一般的に適応フィルタで参照信号と目標信号が高い相関性を持つ場合、適応フィルタの推定動作が上手く行えず推定精度を著しく劣化させてしまう。一例を挙げると、目的音と雑音の双方が音声信号の場合などである。
同様の問題はエコーキャンセラでも発生し、遠端信号から近端信号に混入したエコーを推定する適応フィルタにおいて、遠端、近端とも同時に2人の人が発話をした場合、いわゆるダブルトーク状態が発生しエコーキャンセラの動作が著しく劣化する。このため、ダブルトーク状態を如何に正確に検出し、適応フィルタのパラメータ推定を停止させたり推定速度も遅くしたりするかが重要な性能維持の条件となっている。
したがって、本適応フィルタ動作においても、目的音と特定雑音が双方とも音声である場合、双方とも発話している状態を検出する必要があると同時に、双方とも発話している頻度が高いほど適応フィルタ推定を停止させる頻度があがり、結果として適応フィルタの雑音除去性能が劣化すると言う問題がある。
また、自動車の走行雑音など大きな拡散性雑音などが発生する状況においては拡散性雑音の影響で適応フィルタの推定精度が劣化するため、結果として、適応フィルタの推定したフィルタパラメータを使用した話者方向、特定雑音方向の到来方向推定精度が劣化し、システム全体の性能が劣化すると言う問題がある。
また、上記の特許文献6、7に記載された方式では、自動車向けなどに低コストのマイクを使用して雑音成分抑圧装置を構成しようとした場合、車内音源の初期反射が大きい、拡散性の雑音成分が大きい、使用するマイク素子のバラつきが大きい(±3db程度)、運転者と同乗者とが同時に発話し相関性の強い目的音と特定雑音とが同時に存在するなどの場合に、適応フィルタ部が所望の動作をせず、全体として所望の動作を実現できない。
本発明は上記問題点に鑑みてなされたものであり、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することを可能とする音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラムを提供することを目的とする。
[課題を解決するための手段]
上記課題を解決するために、請求項1に記載の発明は、互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、該混合音から目的音源からの音源信号を分離する音源分離装置において、前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、かつ、前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して前記おおまかな方向と対称な方向から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段とを備えることを特徴とする音源分離装置を提供する。
この発明によれば、音源分離装置は、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。
請求項2に記載の発明は、請求項1に記載の音源分離装置において、前記ビームフォーマ手段は、互いに離して配置された3つのマイクロホンのうち、何れか2つのマイクロホンの組合せ及び他の2つのマイクロホンの組合せ各々について、前記第1のビームフォーマ処理及び前記第2のビームフォーマ処理を行うことを特徴とする。
この発明によれば、3つのマイクロホンのうち、2つのマイクロホンを結ぶ直線の垂線を境界とした各領域に存在する目的音源からの音源信号を抽出することができる。
請求項3に記載の発明は、請求項1又は2に記載の音源分離装置において、前記2つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して遅延を与え、前記遅延に対応した角度だけ仮想的に前記垂線回転させることにより目的音源方向を仮想的に補正する指向性制御手段をさらに備えることを特徴とする。
この発明によれば、遅延を与えることで指向特性を最適な状態に補正することができ、音源の分離性能を向上させることができる。
請求項4に記載の発明は、請求項3に記載の音源分離装置において、前記2つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して第1の遅延を与え、当該第1の遅延に応じた角度だけ仮想的に前記垂線を回転させることにより目的音源の方向を仮想的に補正する第1の指向性制御手段と、前記一方のマイクロホンまたは他方のマイクロホンのいずれか一方からの出力信号に対して第2の遅延を与え、前記2つのマイクロホンを結ぶ直線の垂線に対して前記回転とは反対方向に前記第2の遅延に応じた角度だけ前記垂線を回転させることにより目的音源の方向を仮想的に補正する第2の指向性制御手段と、をさらに備えることを特徴とする。
この発明によれば、仮想的に3つのマイクロホンからの出力信号を生成することができるため、2つのマイクロホンのみを用いて、2つのマイクロホンを結ぶ直線の垂線方向から到来する音源信号を分離抽出することが可能となる。
請求項5に記載の発明は、請求項3又は4に記載の音源分離装置において、前記音源信号が到来する方向を推定する到来方向推定手段をさらに備え、前記指向性制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、2つの音源の位置が仮想的に2つのマイクロホンを結ぶ直線の垂線に対して対称となるように、該マイクロホンからの出力信号に対して遅延を与えることを特徴とする。
この発明によれば、音源の高い分離性能が得られるように遅延操作を行うことが可能となる。
請求項6に記載の発明は、請求項1から5の何れか1項に記載の音源分離装置において、前記目的音スペクトル抽出手段により抽出されたパワースペクトル情報に対して、スペクトルサブトラクション処理を行うスペクトルサブトラクション手段をさらに備えたことを特徴とする。
この発明によれば、スペクトルサブトラクション処理を行うことにより到来方向不明の定常雑音や拡散性の雑音などを除去することが可能となる。
請求項7に記載の発明は、請求項1から6の何れか1項に記載の音源分離装置において、前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う定常雑音低減手段をさらに備えることを特徴とする。
この発明によれば、ミュージカルノイズのような聴感上不快な雑音の発生を低減することが可能となる。
請求項8に記載の発明は、請求項1から7の何れか1項に記載の音源分離装置により分離された音源信号の音声認識を行う音声認識手段を備えた音声認識装置を提供する。
この発明によれば、精度よく分離された音源信号に基づいて、精度のよい音声認識を行うことができる。
請求項9に記載の発明は、請求項8に記載の音声認識装置において、車両の運転席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト及び助手席側から発せられる語彙の候補の一覧である助手席側認識語彙リストを記憶する認識語彙リスト記憶手段をさらに備え、前記音声認識手段は、前記認識語彙リスト記憶手段に記憶されている運転席側認識語彙リスト及び助手席側認識語彙リストに基づいて、前記音源分離装置により分離された音源信号の音声認識処理を行うことを特徴とする。
この発明によれば、音声認識装置は、認識語彙リスト記憶手段に記憶されている助手席側認識語彙リスト及び運転席側認識語彙リストに基づき音声認識処理を行うため、運転席、助手席別に語彙リストの中から最適な語彙を選択することができ、精度よく音声認識を行うことが可能となる。
請求項10に記載の発明は、請求項8又は9に記載の音声認識装置において、現在の車両の状態を管理する状態遷移手段と、車両の状態に応じた助手席側及び運転席側における有効な語彙リストを記憶する有効語彙リスト記憶手段と、前記状態遷移手段で管理されている現在の車両の状態と、前記有効語彙リスト記憶手段に記憶されている語彙リストとに基づいて、前記音声認識手段により認識された語彙が有効か否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに備えることを特徴とする。
この発明によれば、現在の車両の状態と有効語彙リストとに基づいて、認識された語彙が有効か否かを判断し、判断結果に応じて制御を行うことができるため、車両内の搭乗者にとって快適な制御を行うことができる。また、有効語彙リストや制御内容を自由に設計することができるため、音声認識を使用したアプリケーション設計に自由度を与えることができる。
請求項11に記載の発明は、請求項1から7の何れか1項に記載の音源分離装置を備えた携帯電話機を提供する。
この発明によれば、携帯電話機を中規模の会議室などで集音マイクとして利用することが可能である。
請求項12に記載の発明は、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、前記マイクロホン対を構成する2つのマイクロホンからの出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第1のビームフォ−マ処理及び第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップとを備えることを特徴とする音源分離方法を提供する。
請求項13に記載の発明は、コンピュータに、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得された出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第1のビームフォ−マ処理及び第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップとを実行させるためのプログラムを提供する。
[発明の効果]
本発明によれば、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第1のビームフォーマ処理及び第2のビームフォーマ処理を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させ、前記第1のビームフォ−マ処理及び前記第2のビームフォ−マ処理により得られた音源信号各々についてのパワースペクトル情報同士の差分を求め、所定の値を超えた当該差分値を目的音源のスペクトル情報として出力することで、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。
本発明の第1実施形態に係る音源分離システムの基本的構成を示す図である。 同実施形態に係るマイクの種類の一例を示す図である。 同実施形態に係るビームフォーマ部の構成を示す図である。 同実施形態に係るパワー計算部の構成を示す図である。 同実施形態に係る目的音スペクトル抽出部の構成を示す図である。 同実施形態に係る死角制御型ビームフォーマを説明するための図である。 同実施形態に係る死角制御型ビームフォーマを説明するための図である。 同実施形態に係る差分結果の指向特性の一例を示す図である。 同実施形態に係るマイクの素子感度差を変動させた場合の共役ビームフォーマの指向特性を示す図である。 同実施形態に係るマイクの素子感度差を変動させた場合のビームフォーマ単体の指向特性を示す図である。 同実施形態に係る音源分離装置の360度の指向特性を求めたグラフを示す図である。 同実施形態に係る音源分離装置の指向特性を利用した2話者個別録音の実施例を示す図である。 同実施形態に係る音源分離装置の指向特性を利用した簡易ハンズフリー装置及び音声認識装置用マイクの実施例を示す図である。 同実施形態に係る評価実験におけるマイク取り付け箇所を示す図である。 同実施形態に係る評価実験の条件を示す図である。 同実施形態に係る評価実験結果を示す図である。 第2実施形態に係る音源分離システムの構成を示す図である。 同実施形態に係るビームフォーマの構成を示す図である。 第3実施形態に係る音源分離システムの構成を示す図である。 同実施形態に係る他の音源分離システムの構成を示す図である。 同実施形態に係る目的音スペクトル抽出部の構成を示す図である。 第4実施形態に係る音源分離システムの構成を示す図である。 第5実施形態に係る音源分離システムの構成を示す図である。 同実施形態に係る指向性制御の例を示す図である。 同実施形態に係る指向性制御部の構成を示す図である。 第6実施形態に係る音源分離システムの構成を示す図である。 第7実施形態に係る音源分離システムの構成を示す図である。 同実施形態に係る分離される音源の位置を説明するための図である。 同実施形態に係る単一指向性マイクの設置例を示す図である。 同実施形態に係る目的音抽出部の構成の一例を示す図である。 同実施形態に係る目的音抽出部の構成の一例を示す図である。 同実施形態に係る目的音抽出部の構成の一例を示す図である。 同実施形態に係る音源分離装置を利用したパソコンへの音声入力の例を示す図である。 第8実施形態に係る目的音範囲と雑音範囲とを説明するための図である。 同実施形態に係る遅延操作を説明するための図である。 同実施形態に係る指向性制御手段の構成例を示す図である。 同実施形態に係る音源分離装置システムの構成例を示す図である。 同実施形態に係る目的音抽出部における処理方式の一例を示す図である。 同実施形態に係る目的音抽出部における処理方式の一例を示す図である。 第9実施形態に係る車載機器制御用音声認識システムの構成を示す図である。 第10実施形態に係る携帯電話機を示す図である。 第11実施形態に係る音源分離システムにおけるマイク配列を示す図である。 第12実施形態に係る音源分離システムが適用される環境を示す図である。 同実施形態に係る音源分離システムが適用される発話音の入力状況を示す図である。 同実施形態に係るガイダンス音声削除部の構成を示す図である。 同実施形態に係る目的音声抽出部の構成を示す図である。 同実施形態に係るガイダンス音声削除部の他の構成を示す図である。 同実施形態に係るガイダンス音声削除部の他の構成における目的音声抽出部の構成を示す図である。 同実施形態に係る音源分離システムが適用される他の環境を示す図である。 同実施形態に係る音源分離システムが適用される発話音の他の入力状況を示す図である。 同実施形態に係る音源分離システムの他の構成を示す図である。
以下、図面を参照して、本発明に係る実施の形態について説明する。
[第1実施形態]
図1は、本発明の第1実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、2つのマイクロホン(以下「マイク」という)10、11と、音源分離装置1とで構成されている。この音源分離装置1は、図示せぬ、全体を制御し演算処理を実行するCPUと、ROM、RAM、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、図1に示す機能ブロックが実現される。
2つのマイク10、11は無指向性のマイクであり、平面上に互いに数cm程度離して設置されている。なお、マイク10、11は無指向性であることが基本であるが、図2に示すような単一指向性マイクも使用可能である。マイク10、11は2つの音源R1、R2から発せられた信号を受信する。このとき、これら2つの音源R1、R2は、2つのマイク10、11を結ぶ直線に対して引かれた垂線を境界として分割された2つの領域(以下「垂線の左右」という)にそれぞれ位置するものとするが、必ずしも垂線に対し左右対称の位置に存在する必要はない。
このマイク10、11で得た2つの音源信号を、スペクトル分析部20、21においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部3においてこれらの周波数分析された信号を2つのマイク10、11を結ぶ直線に対して引かれた垂線の左右に対称に死角を形成したビームフォーマ30、31でフィルタリングを行い、パワー計算部40、41においてそのフィルタ出力のパワーを計算し、目的音スペクトル抽出部50、51においてそれぞれの差分を計算した結果に対しある一定値以上の値を出力しそれ以下をゼロとする処理を行う。これらの処理は、通常の特定雑音に関して死角を形成する処理とは異なり、ビームフォーマ部3をいくつかの条件の下で形成し上記の処理を実施することで、従来問題であったマイクの素子感度のバラつきに起因するマイクロホンアレイの特性の劣化の問題を解決すると同時に、上記垂線を中心として左右からの音を分離する指向特性を幅広い周波数帯域に対して実現することが可能となる。以下、各機能ブロックについて詳細に説明する。
[ビームフォーマ部]
まず、図3を参照して、ビームフォーマ部3の構成を説明する。図3では、スペクトル分析部20、スペクトル分析部21で周波数成分毎に分解された信号x1(ω)、x2(ω)を入力として、乗算器100a、100b、100c、100dにて、フィルタの重み係数w1(ω)、w2(ω)、w1 *(ω)、w2 *(ω)(*は複素共役の関係にあることを示す)と乗算をそれぞれ行い、加算器100e、100fにて2つの乗算結果を加算し、その出力としてフィルタリング処理結果ds1(ω)、ds2(ω)を出力する。このように、ビームフォーマ部3は、複素共役フィルタ係数を使用することにより、マイク10、11間を結ぶ直線の垂線を中心として対称な位置に死角を形成している。
[パワー計算部]
次に、図4を参照して、パワー計算部40、41について説明する。パワー計算部40、41は、ビームフォーマ30、ビームフォーマ31からの出力ds1(ω)、ds2(ω)を、以下の計算式により、パワー計算部40、パワー計算部41にてパワースペクトル情報ps1(ω)、ps2(ω)に変換する。
ps1(ω)=[Re(ds1(ω))]2+[Im(ds1(ω))]2
ps2(ω)=[Re(ds2(ω))]2+[Im(ds2(ω))]2
[目的音スペクトル抽出部]
次に、図5を参照して、目的音スペクトル抽出部50、51に関して説明すると、パワー計算部40、41の出力ps1(ω)、ps2(ω)は、目的音スペクトル抽出部50、51の2つの入力として使用される。目的音スペクトル抽出部50、51は、2つのビームフォーマ30、31出力のパワースペクトル情報を入力として、出力として左右の目的音をそれぞれ出力するが、内部的には差分計算部500、510と係数変換部501、511で構成される。
差分計算部500は、減算器500aにてビームフォーマ30のパワースペクトル情報からビームフォーマ31のパワースペクトル情報の減算を行い、同様に、差分計算部510は、減算器510aにてビームフォーマ31のパワースペクトル情報からビームフォーマ30のパワースペクトル情報の減算を行い、その結果をそれぞれ、係数変換部501、係数変換部511へ入力する。係数変換部501、係数変換部511は、それぞれ左右の音を分離するためのブロックであり、それぞれ、値が特定のしきい値以上の値を、目的とする方向からの信号としてスペクトル情報を出力する。ここで、しきい値の値は一般的には“0”であるが、使用環境に応じて最適値を実測より求め別々に設定しても良い。
[動作]
次に、図1を参照して、音源分離装置システム全体の動作を説明する。
まず、2つの無指向性あるいは指向性のマイク10、11を互いに数cm程度離して設置し、2つの音源から発せられた信号をマイク10、マイク11で受信する。このとき、各マイク10、11で受信された2つの音源信号が重畳された信号は、スペクトル分析部20、スペクトル分析部21で周波数分析が行われる。ここでは、一般的には高速フーリエ変換などの手法が用いられるが、フィルタバンクなどの周波数分析手法でも良い。周波数分析処理は10msec程度の固定周期毎に行われる。
周波数分析された2つの信号は、マイク10、11を結ぶ直線への垂線に対して対称に死角が形成されたビームフォーマ30、ビームフォーマ31にてフィルタリングされ、特定方向からの信号が減衰させられる。しかし、ここでは特定の音源到来方向を正確に推測し、正確に推測された音源方向に死角を向けることを目的とはしていない。この2チャンネルの入力を使用したフィルタリングは各周波数成分毎に行われ、ビームフォーマ30、ビームフォーマ31の出力はパワー計算部40、パワー計算部41にてスペクトルパワー情報に変換されると同時に、ビームフォーマ30、ビームフォーマ31の出力から位相抽出部60、位相抽出部61にて位相情報Φ1、Φ2が抽出される。次に、パワー計算部40、パワー計算部41にてスペクトルパワー情報に変換されたビームフォーマ30、ビームフォーマ31の出力は、目的音スペクトル抽出部50、目的音スペクトル抽出部51に送られ、目的音スペクトル抽出部50にて右方向(0〜90°)から来た音源信号のパワースペクトル情報が抽出され、目的音スペクトル抽出部51にて左方向(−90°〜0)から来た音源信号のパワースペクトル情報が抽出される。
目的音スペクトル抽出部51から抽出されたパワースペクトル情報を音声認識処理の前処理として使用する場合は、当該パワースペクトル情報は図示していない音響パラメータ解析部に送られ、音響分析処理が行われる。一方、抽出した音源信号のパワースペクトル情報を時間信号に戻す必要がある場合は、位相抽出部60、位相抽出部61で抽出した位相情報と目的音スペクトル抽出部50、目的音スペクトル抽出部51で抽出したスペクトル情報とを時間波形変換部70、時間波形変換部71に入力し時間信号情報に戻す処理を行う。
[死角制御型ビームフォーマの設計例]
次に、ビームフォーマ部3中のビームフォーマ30、ビームフォーマ31において、2つのマイク10、11を結ぶ直線の垂線に対して対称な位置に死角を形成することで、指向特性(指向性)がマイク素子の感度の影響を受けないことについて証明する。
2つのマイク素子を使用する場合において、図6に示すように、目的方位θ1に対するゲインを1とし、他方向θ2に1つの死角(ゲイン0)を形成する死角制御型ビームフォーマの設計例を以下に示す。
死角制御型ビームフォーマの出力信号をS(f)=[s1(f)、s2(f)]’、観測信号をX(f)=[x1(f)、x2(f)]’としたとき、ある周波数fにおける死角制御型ビームフォーマの重み係数ベクトルW(f、θ1、θ2)=[w1(f)、w2(f)]’は以下の計算で求めることが出来る(ただし、’ は転置操作を示す)。
Figure 0004225430
一方、図7に示すように、目的方向、死角方向を2つのマイク10、11を結ぶ直線の垂線を中心として、図6に示す位置とは線対称な位置に設定するとき、重み係数ベクトルW(f、−θ1、−θ2)=[w1(f)、w2(f)]’は以下の計算で求めることが出来る。
Figure 0004225430
このとき、
Figure 0004225430
と計算され、両者の関係は、
Figure 0004225430
となり、各重み係数は複素共役の関係にある。
次に、パワー計算部40、41、目的音スペクトル抽出部50、51において指向特性の導出を行う。指向特性の計算のため、重みベクトルW、及び、方位ベクトルVを以下の式で定義する。
Figure 0004225430
すると、パワー計算部40の出力ps1(ω)、パワー計算部41の出力ps2(ω)の指向特性は以下のように表現することが出来る。
Figure 0004225430
ただし、*は共役操作、Hは共役転置操作を表す。これより、目的音スペクトル抽出部50内の差分操作部500の出力dr1(ω)は以下のように求めることが出来る。
Figure 0004225430
ここで、マイクの素子感度のバラつきを表現するパラメータとしてαを導入し、一方のマイクの素子感度が一方のマイクの素子感度のα倍であると仮定する。このときに、片方のマイク出力がα倍であるということと、片方のチャンネルに掛ける重みがα倍であることとは等価であるので、マイク素子感度のバラつきを考慮し、w2=αworg2とすると、
Figure 0004225430
となり、マイク素子感度が変化しても指向特性は変化しない。
このとき音源がマイクに対して十分離れている場合、すなわち平面波の場合は、方位ベクトルは、
Figure 0004225430
と表現されるので、結局、
Figure 0004225430
となる。ただし、上記に述べた手法は球面波の場合も同様の性質が維持される。
図8は、死角を前記垂線から±45°方向に形成する際に、ビームフォーマ30、31のゲインを維持する拘束条件を垂線に対称な位置(±45°)に指定して設計した場合の差分結果の指向特性例である。図8から分かるように、0°方向を境界として、右方向(マイク10、11から音源R1、R2の方向を見た場合の右方向、以下同様)(0〜90°)から来た音源信号は正の値をとり、左方向(−90°〜0)から来た音源信号は負の値をとる。これにより、各周波数成分において左右どちらの方向から到来したのかを判断することが出来る。
[指向特性の実験結果]
以上述べてきたように、ビームフォーマ30、ビームフォーマ31の乗算器で使用する重み係数をそれぞれ複素共役の関係として上記の処理を行うことで、マイクの素子感度によりアレイマイクの指向特性が影響を受けないことを示すために、マイクの素子感度差αを0db、+6db、−6dbと変動させて指向特性の計算を行った例を図9に示す。同図にはマイク10、11を結ぶ直線への垂線に対して対称な方向の指向特性が示されていないが、当該指向特性は図9に示した特性と対称な特性を持つ。図9を見て分かるように、ゲインの変動がある場合、アレイマイクの出力レベルの変動は発生するが、指向特性は変動を受けない。これにより、安価なマイクを使用しマイクの素子感度にばらつきがある場合でも安定した指向特性を実現することが可能となる。また、図中に示した指向特性は死角を±45°方向に作成したものであるが、同図から分かるように指向特性に幅があるため、死角を実際の目的音源に対して正確に作成する必要はない。また、マイクの素子感度差αを0db、+6db、−6dbと変動させた場合のビームフォーマ単体の指向特性を図10に示すが、同図よりマイクの素子感度が6db異なると特定の方向に死角を形成するというビームフォーマに望まれている所望の動作を殆ど行えないことがわかる。一方、本発明の特徴として最も注目すべき点として、図10に示すような指向特性が発生するような指向特性の劣化したビームフォーマを使用しても、結果として得られる指向特性はマイクの素子感度が均一な場合と同一であることである。
特定方向にビームフォーマで鋭い死角を形成する手法は少数のマイクでも理論上実現可能であるため、測定した信号はSN比を上げるために使用されたり、適応フィルタとして頻繁に使用される一般化サイドローブキャンセラの参照信号生成部であるブロッキングマトリックス部分に使用されるが、上述したマイクの素子感度差により設計どおりの性能で死角を生成することが出来ず、量産を目的とした場合、実環境で所定の性能が実現出来ない大きな要因の一つになっている。
このような音源分離装置1を用いて、360度の指向特性を求めた例を図11に示す。同図から分かるように、音源分離装置1は180°毎の指向特性を持ち、2つの指向特性がその境界において重なることなく分離されている。しかも、その指向特性がマイクの素子感度の影響を受けないことを更なる特徴としている。リニアアレイの場合、±90°以上では0〜±90°までの特性と対称となる指向特性となる。このように、指向特性は、2つのマイクを結ぶ線に垂直に引いた線を境界として2つのゾーンに分割することが可能となる。
この特性を利用した実施例を、図12及び図13に示す。図12は音声メモ装置への応用である。従来、会議や打ち合わせの際に会議のメモの目的で音声メモ装置が使用されてきた。このような使用例の場合、周りの騒音や2人の音声が同時に録音されているため、録音された内容が聞き取りにくい場合がある。この様な場合、2つのマイク10、11をそれぞれ2人の発話者の方に向け、音源分離装置1でそれぞれ片方の会話の内容を強調して録音することで後日の聞き取りを容易にする。このように音源分離装置1を利用することによって、対向する2名の音声を分離し収集することが可能となり、会議の議事録用音声メモとして利用することや、会議議事録で2名の会話を個別に同時音声認識することが可能となる。
図13は、簡易ハンズフリー装置、及び、音声認識装置用マイクへの応用例を示す図である。近年、パーソナルコンピュータ(以下「パソコン」という)を使用してネット会議などが行われるようになって来ているが、自宅などでパソコンを使用してネット会議を行う場合、パソコン内部にエコーキャンセラ機能がないためヘッドセットマイクなどを利用しスピーカ音声からマイクへのエコーの回り込み量を小さくするなどの対策が行われているが、ヘッドセットマイクのように身体の一部に器具を密着させることがなかなか受け入れられていない。この対策として、パソコン内部にエコーキャンセラ機能をソフトウェアとして実装したり、パソコン外部にエコーキャンセラ機能を内蔵したハンズフリー装置を接続することも可能である。パソコン内部にエコーキャンセラ機能を実装する場合、スピーカへの再生音声とマイクからの入力音声との同期をとる必要があるが、再生音声と入力音声間の遅延が大きく、また、パソコン機種ごとに遅延の大きさが異なるなど実装上の問題がある。また、外部にエコーキャンセラ機能を内蔵したハンズフリー装置を接続する場合、コストがかかる。
一方、本実施例では、マイク10、11をスピーカと発話者との間に置く必要があるが、スピーカ再生信号との同期をとる必要もない。2つのマイク10、11を用意し、マイク10、11からの信号をパソコンに取り込み、パソコンに記憶されているソフトウェアに基づいて音源分離を実行することが出来るため、実装が容易である。
また、住宅内で音声認識を行う状況で一番頻繁に発生するであろう環境として、テレビその他被制御機器に向かって音声コマンドを使用することが考えられる。この場合、テレビその他被制御機器のスピーカは被制御機器側から発話者側に向かって設置してあり、スピーカから音声が流れていたりさまざまなガイダンスが流れている状況で、発話者は音声でマイク装置に制御コマンドを入力したい場合がある。この場合、何らかの手段でスピーカの音声がマイク装置に回り込む量を減衰させる必要があるが、音源分離装置1を使用することで容易に被制御機器からの音声と発話者からの音声を分離することができ、音声認識性能が向上する。
[評価実験結果]
次に、評価実験結果について説明する。従来、自動車内での機器制御その他の目的で音声認識が使用されている。従来においては、エアコンの送風音、ロードノイズ、エンジン音などの雑音を低減する技術は確立されているが、音声などの影響を受けない音声認識技術は確立されていない。これらのことを踏まえ、以下の点を実現可能とする音声認識技術を提供することが重要となる。(1)運転席に居る運転者が発した音声、及び、助手席に居る助手席者が発した音声(以下「運転席と助手席の音声」という)の分離、(2)ヘッドポジションの移動を許容可能、(3)広いビーム幅と分離性能の両立、(4)少数マイクでの機能提供、(5)音声認識使用時、運転者又は助手席者に黙っていることを課さない
音源分離装置1の有効性を示すために、車内において2人の発話者に同時発話させ、2つのマイクで収録して音源分離装置で音源分離を行い、音声認識実験を行った。この音源分離装置は、2つの音源の分離を目的に開発されたものであり、自動車内の利用方法としては、例えば運転席と助手席の音声を分離することが可能となる。このためのマイクの設置箇所としては、図14に示すように、取り付け箇所L1または取り付け箇所L2のように自動車内中央部が適している。また、取り付け箇所L2に設置した場合には、ルームミラー400が運転者の方を向くため、マイク取り付け時に、マイクの取り付け方向が大体正面になるように設置してもよいし、後述する指向性制御機能を持たせてもよい。音源分離装置1では本来ビーム幅を広く取ってあるので正確な位置あわせは必要としない。また、取り付け箇所L2に設置する場合には、背面からの反射を抑えるためにマイクモジュールを工夫したり指向性マイクを利用することが有効な場合がある。
評価実験の条件を図15に、音源分離後の音声認識実験結果を図16に示す。図16(a)に示すように、車内での2話者発話時(車内同時発話)においては、1チャンネルマイクのみを使用した従来法1における未処理時には29%(停車時)、27%(60km/h走行時)であったが、本音源分離手法を適応することにより、78%(停車時)、78%(60km/h走行時)と改善された。また、図16(b)に示すように、助手席側の音声を運転席側の音声と誤って音声認識結果を出してしまった、あるいは運転席側の音声を助手席側の音声と誤って音声認識結果を出してしまった割合を評価すると、従来の1チャンネルマイクのみ使用時(車内1人発話)では、全発話の93%(リジェクション性能7%)について何らかの音声認識結果が出力されてしまったが、本手法を適応した場合は、何らかの音声認識結果が出力されたのは0%(リジェクション率100%)であった。 また、2マイクを使用した従来例として“雑音成分抑圧処理装置および雑音成分抑圧処理方法(特許第3484112 号)”を従来法2として停止状態での性能比較を行った。従来法2は目的音、雑音到来方向を推定しながら適応ビームフォーミング処理を行い目的音および雑音を強調し、目的音が強調された信号から雑音が強調された信号を周波数領域でスペクトルサブトラクションする方式であるが、到来方向推定エラーの影響を省くため目的音、雑音とも到来方向を既知(固定方向から到来するもの)とし、適応ビームフォーマ部の最適値を求めた後に、目的音(発話者1)、雑音(発話者2)を同時に再生し目的音声を抽出する処理をおこなった。(図16(a)参照のこと)
[第2実施形態]
次に、第2実施形態について説明する。図17には、第2実施形態に係る音源分離システムの構成を示す。上述した第1実施形態においては、マイク10、11からの入力を、まずスペクトル分析部20、スペクトル分析部21にて周波数成分に変換したが、本実施形態においては、まず時間領域にてビームフォーマ80及びビームフォーマ81にて死角を生成して特定の到来方向からの信号を減衰させた信号を生成し、その後、スペクトル分析部20及びスペクトル分析部21にて周波数成分に変換している。なお、図17では、図1と同一の機能を持つものには同一の番号がつけてある。ビームフォーマ80、ビームフォーマ81の構成は図18に示すようなFIRフィルタなどの形式で構成されたフィルタ処理を実行することで実現される。このとき、FIRフィルタの係数は、図3で示した周波数領域での複素共役の関係にある重み係数を、時間領域のフィルタ係数に変換することで求めることができる。
[第3実施形態]
次に、第3実施形態について説明する。図19及び図20は、第3実施形態に係る音源分離システムの構成を示す図である。上述したように、図1及び図17に示す目的音スペクトル抽出部50、目的音スペクトル抽出部51は、図5で示した構成にて実現されており、実験により求めた最適なしきい値を使用して音源分離処理を行う構成となっている。一方、図8に示したように、目的音スペクトル抽出部50、51中の差分計算部500、510の出力であるdri(ω)(i=1、2)は正面0°を中心として点対称な関係になっていることが分かる。これより、目的音スペクトル抽出部50、51中の係数変換部501、511においてしきい値を“0”とすると差分計算部500、510の符号のみを見ておくことで、正の時に右方向(0〜90°)から来た音源信号のパワースペクトル情報として抽出され、負のときに左方向(−90°〜0)から来た音源信号のパワースペクトル情報として抽出される。このため、図1及び図17で示した全体構成は、図19及び図20に示すように簡略化することが可能となる。図19及び図20中の目的音スペクトル抽出部90は、図21に示す構成で実現される。
図21において、パワー計算部40、パワー計算部41にて計算されたビームフォーマ30、ビームフォーマ31のパワースペクトル情報は、目的音スペクトル抽出部90内部の差分計算部900に入力される。そして、減算器900aにて減算処理が行われ、係数変換部910、係数変換部920においてそれぞれ目的とする方向からの音源信号のみが抽出される。具体的には、係数変換部910は、右方向(0〜90°)からの音源抽出を行うためのブロックであり、入力が正の場合は、そのスペクトル情報は右方向(0〜90°)から来たものとして出力し、負の場合は目的方向外から到来した音源のスペクトル情報として出力しない。一方、係数変換部920は、左方向(−90°〜0)からの音源抽出を行うためのブロックであり、入力が負の場合は、そのスペクトル情報は左方向(−90°〜0)から来たものとして出力し、正の場合は目的方向外から到来した音源のスペクトル情報として出力しない。以上の動作により、2つのマイク10、11を結ぶ直線の垂線を中心として左右の方向から到来する音源信号を分離することが可能となる。
なお、図19に示す音源分離システムと図20に示す音源分離システムとは、ビームフォーマ処理を周波数領域で行うか時間領域で行うかの違いが構成として異なっている。図19ではビームフォーマ処理を周波数領域で行っており、図20では時間領域で行っている。
[第4実施形態]
次に、第4実施形態について説明する。図22は、第4実施形態に係る音源分離システムの構成を示す図である。同図に示すスペクトルサブトラクション部100、101が、目的音スペクトル抽出部50、目的音スペクトル抽出部51で抽出した各目的音に重畳している到来方向不明の定常雑音や拡散性の雑音などを除去するためのスペクトルサブトラクション処理を行う。このような構成は、会議室中の空調やプロジェクタなどのファンの音などが存在する環境における使用でも有効であるが、自動車内での使用時に特に有効である。自動車内において運転者と助手席に同乗者とが搭乗している場合など、例えば運転席と助手席の音声は、前述の方式を使用することで別々に取り出すことが可能である。しかし、エアコンの送風音、ロードノイズ、風きり音など、到来方向が不明なものや拡散性の雑音は前述の方法では除去することが出来ない。これらの雑音の影響は、処理の後段にスペクトルサブトラクション処理を入れることで除去することが可能である。スペクトルサブトラクション処理は、1つのマイクの入力信号を使用して発話区間検出を行い、無発話区間で雑音スペクトルを推定し、発話区間でその前に推定した雑音成分をスケーリングして減算するタイプと、雑音が優位に収録された信号と音声が優位に収録された信号を用いて、音声が優位に収録された信号から雑音が優位に収録された信号のスペクトルをスケーリングして差分するタイプとがある。音声認識の場合、1マイク方式を基本にした処理で十分なことが多いが、本実施形態においてもこれを採用しており、本実施形態に係る音源分離システムは、第1実施形態に係る音源分離システムに対して、発話区間検出部110とスペクトルサブトラクション部100、101をあらたに追加することで対応している。
図22において、音源R1、音源R2は目的音であり、音源R3が到来方向不明の定常雑音や拡散性の雑音を表している。これらの雑音の多くは明確な指向性を持たないものが多い。このような雑音の場合、目的音スペクトル抽出部の出力において、弱い指向性をもつものはその方向の音源を抽出する目的音スペクトル抽出部に多く現れ、まったく指向性を持たないものや道路の継ぎ目を踏んだ衝撃音などは左右の抽出されたスペクトルに交互に検出されることが多いが、これらの雑音をスペクトルサブトラクション部100、101で除去可能である。なお、スペクトルサブトラクションとしては、発話区間検出の不要な連続型スペクトルサブトラクションを使用してもよい。
[第5実施形態]
次に、第5実施形態について説明する。図23には、第5実施形態に係る音源分離システムの構成を示す。本実施形態においては、分離したい2つの目的音源R1、R2が2つのマイク10、11を結ぶ直線への垂線に対して対称といえる位置から大きく外れている場合の対策が示されている。本実施形態では、この対策のために2つの目的音源R1、R2のおおまかな位置を検出するための到来方向推定部120と、到来方向推定部120が推定した2つの目的音源R1、R2のおおよその音源到来方向情報を使用し、指向性制御部140において分離したい2つの目的音源R1、R2が仮想的に出来るだけ2つのマイク10、11を結ぶ直線への垂線に対して対称となるように、片方のマイク入力に遅延操作を与える。
図24には、2つの音源R1、音源R2がマイク10、マイク11を結ぶ直線の垂線に対してθτだけ回転した直線に対して左右対称となる状況を示している。このような場合、片方のマイクで取得した信号に一定遅延量τdを与えることで、θτだけ回転したことと等価な状況を実現可能である。また、あらかじめいくつかの2つの音源について、2つのマイクを結ぶ直線の垂線に対する位置関係から、2音源を分離するのに最適なビームフォーマ30、31のフィルタパラメータを用意しておき、到来方向推定部120からのおおまかな2つの音源の到来方向情報を元に現在の状況の2つの音源を分離するのに最適と思われるビームフォーマのフィルタパラメータをビームフォーマ制御にて選択して、選択したビームフォーマのフィルタパラメータをビームフォーマ30、ビームフォーマ31に設定するようにしてもよい。
図25に指向性制御部140の構成例を示す。図25(a)に示す構成例は、周波数領域で各周波数成分毎に片方のマイクで取得した信号に一定遅延量τdを与える時の例を示している。図25(a)に示す構成例の場合、x1(ω)に対して乗算器100aにてe-jωτとの乗算を行うことで遅延操作を実現している。また、時間領域でビームフォーマを行いたい場合は、図25(b)に示すようなFIRフィルタの形式の遅延器100bによりフィルタリング処理を行えばよい。
なお、片方のマイク入力に遅延を与えるのではなく、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現しても良い。つまり、片方のマイクで取得した信号に遅延量τdを与えるのではなく、片方のマイクで取得した信号に遅延量τd/2、もう片方のマイクで取得した信号に遅延量−τd/2を与えることで、全体の遅延差がτdになるようにしてもよい。
[第6実施形態]
次に、第6実施形態について説明する。図26は、第6実施形態に係る音源分離システムの構成を示す図である。本実施形態に係る音源分離システムは聴感を重視するための構成となっており、自動車内でのハンズフリー通話などへの応用を考慮している。自動車内において運転者と助手席の同乗者とが搭乗している場合などは、例えば運転席と助手席の音声は前述の方式を使用することで別々に取り出すことが可能であるが、エアコンの送風音、ロードノイズ、風きり音など到来方向が不明なものや拡散性の雑音は前述の方法では除去することが出来ない。これらの場合、第4実施形態で述べた様に、処理の後段にスペクトルサブトラクション処理を入れることでこれらの雑音の影響を除去することが可能であり、音声認識などの聴感上の音質を問題としない用途には最適であるが、ハンズフリー通話装置用のマイクなどに使用した場合に、聴感上ミュージカルノイズと呼ばれる雑音の消し残りが問題になることがある。本発明においては、2つのマイク10、11を結ぶ直線への垂線を中心にして左右の音を分離するため、拡散性の雑音などその音の指向性が絶えず変動するような雑音の場合、左右の分離結果に不規則に振り分けられてしまい音質を劣化させる場合がある。
このため、本実施形態では、本発明に係る音源分離方式がマイクゲインの時間変化に影響を受けないことを利用して、通常アレイマイク処理の後段に使用するポストフィルタ処理をビームフォーマ処理の前段に入れて、拡散性雑音、定常雑音などを低減し、音源分離後のミュージカルノイズの発生を防いでいる。
[第7実施形態]
次に、第7実施形態について説明する。図27は、第7実施形態に係る音源分離システムの構成を示す図である。この音源分離システムは、3つのマイク10、11、12を使用して3音源を分離する構成を示している。同図において、マイク10とマイク12、マイク10とマイク12を使用して、それぞれ2つのマイクを結ぶ直線への垂線を中心として左右の音源信号を分離し、2組のマイクの組を使用して分離された音源信号合計4つを使用して、目的音抽出部160にてマイク10、マイク11の正面方向近辺から到来する音源R3を最終的に分離する。
図28を使用して本構成で分離される音源の説明を行うと、図28に示すように2つのマイクを結ぶ直線への垂線aと垂線bを中心として、垂線の左右から到来する音源を分離することが可能となる。図28においては、ゾーンA、B、Cの各領域に音源が存在すると仮定すると、垂線aを使用して、ゾーンAとゾーンB、Cの領域から到来する音源信号を分離することができ、垂線bを使用して、ゾーンA、BとゾーンCから到来する音源の分離をすることができる。図27において、これらの分離を行うブロックが分離部b0と分離部b1である。分離部b0は、3つの音源が重畳した信号から、ゾーンAの領域からの音源信号S(ω)と、ゾーンB、Cの領域からの音源信号SBmix(ω)、SCmix(ω)が混合した信号とを分離可能であり、分離部b1は同様に、ゾーンA、Bの領域からの音源信号SAmix(ω)、SBmix(ω)が混合した信号と、ゾーンCの領域からの音源信号S(ω)とを分離可能で、この段階で、S(ω)とS(ω)が分離出来ている。この様にして得られた4つの信号からパワースペクトル領域で目的音抽出部160にて所定の操作を行うことで、S(ω)を求めることが出来る。ただし、ここで、SAmix(ω)、SBmix(ω)、SCmix(ω)は他信号と混合された時の各信号を表す。
上記では、ゾーンDに音源情報が無いかあるいはあってもレベル的に小さいことが前提であるが、もしゾーンDに音源がある場合には、3つのマイク10、11、12に指向性マイクを使用することでゾーンDからの音源信号の混入を大幅に軽減することが可能である。
図29には単一指向性マイクの設置例を示すが、一般的にこのように指向性マイクを使用するとアレイマイクのビームフォーマ部において各マイク間の指向性のバラツキなどで設計時の性能が出ないことが起こるが、本方式でもともとマイクの素子感度バラつきに影響を受けないのと同様、指向特性のバラツキにも影響を受けない一定の性能を実現可能できる。
図30〜32を参照して、目的音抽出部160における処理方式について詳細に説明する。図30に示す処理方式は、2チャンネルのスペクトルサブトラクション処理と同様の処理方式である。つまり、片方のチャンネル信号としても目的音と妨害音とのパワースペクトルの和が求まっており、もう片方のチャンネル信号としても妨害音のパワースペクトルが求まっているため、これらを減算器100aで減算することにより目的音S(ω)を求めることが出来る。
図31に示す処理方式は、目的音に妨害音が重畳されたものを2つ求めることが可能なため、加算器101bにてこれらを加算することで目的音のパワースペクトル情報を2倍の大きさとし、一方、加算器101aにて妨害音同士を加算することで妨害音のパワースペクトルを求め、これに乗算器101cで一定ファクタ(O.E.F 1〜2)を掛けて、減算器101dで加算器101bの出力から差分を計算することにより、目的音を抽出するものである。なお、減算器101dの出力の段階で原音信号より音量が大きいのでレベル調整部101eでレベル調整を行う。
図32に示す処理方式は、図31に示す加算器101a、101bの代わりに最小値計算102a、102bを使用するものである。尚、図31では、O.E.Fは1.0より大きい方が音質が良い場合が多いが、図32ではO.E.Fは1.0前後が良い。なお、図32では最小値計算を行ったが、最小値計算の代わりに最大値計算でも良い。
また、分離したい目的音源の位置が本手法で最適な分離性能が得られる位置より大きく外れている場合があるが、第5実施形態で説明したように、マイクから出力される入力信号に遅延を与え音源の到来方向を仮想的に変えることで、出来るだけ最適な分離性能が得られるように操作することが可能である。
図33には、本実施形態に係る音源分離システムの使用例を示す。パソコンへの音声入力の用途において、3つのマイク10、11、12を使用して、小さい実装面積で、パソコン正面からの音声を、指向性を持たせて取得する例を示す。
[第8実施形態]
次に、第8実施形態について説明する。上述した実施形態においては、
(1)2つのマイクを使用してマイク間を結ぶ直線を中心として、左右からの音を分離する実施形態(2)3つのマイクを使用して正面からの音とその左右からの音を分離する実施形態 について説明したが、図34に示すように、2つのマイク10、11を使用して2つのマイク10、11を結ぶ直線の正面方向からの音を分離抽出したい場合がある。
この場合、指向性制御手段により2つのマイク10、11のうち片方マイクのからの出力信号に図35(b)に示すように遅延を与え、仮想的に3チャンネル目のマイク位置を作成することで、仮想的に図35(a)に示す3マイク入力を実現することが可能である。図36には、図35で示した遅延操作を行う指向性制御手段の構成例を示す。図中においてDi(i=1、2、3、4)は遅延素子を表すが、実際の遅延操作は時間領域で遅延操作を行っても良いし、スペクトル分析後に周波数領域で遅延操作を行っても良い。
図37には、本実施形態に係る音源分離装置システムの構成例を示す。指向性制御手段141、142は、スペクトル分析部20、21と、遅延処理を行う遅延素子とで構成されている。処理順としては、スペクトル分析処理を行ってから遅延処理を行ってもよいし(図中のType1)、遅延処理を行ってからスペクトル分析処理を行ってもよい(図中のType2)。指向性制御手段141、142の出力信号は、本手法NBF以降のブロックにおいてビームフォーマ30、31、パワー計算部40、41等での処理が行われ、処理後の信号が目的音抽出部52に入力される。
図38及び図39には、目的音抽出部52における処理方式の一例を示す。図38は、θ1とθ2とがマイク11、12を結ぶ直線の垂線に対して対称な角度である場合の処理方式の一例を示し、図39は、θ1とθ2とが前記垂線に対して対象な角度でない場合の処理方式の一例を示す。
[第9実施形態]
次に、第9実施形態について説明する。図40は、第9実施形態に係る車載機器制御用音声認識システムの構成を示す図である。本実施形態においては、自動車等の車両に設けられた車載機器制御用音声認識システムに本発明に係る音源分離装置1を応用した例を示している。本応用例では、運転席と助手席の音声を2つのマイク10、11で取得し、音源分離装置1で運転席と助手席の音声を分離し、分離した運転席と助手席の音声をそれぞれ発話区間検出、音声認識処理、音声認識結果と自動車走行状態やその他運転状態によって有効な認識結果のみを使用して、機器の制御、システムの応答などを行うことで、車載機器制御用音声認識システムの信頼性の向上と車載機器制御用音声認識システムの応答の自由性の拡張などを提供するものである。
車載機器制御用音声認識システムは、本システムに特徴的なデータとして、記憶装置に助手席側認識語彙リスト190、運転席側認識語彙リスト191、助手席側有効語彙リスト210、及び、運転席側有効語彙リスト211を記憶している。運転席側認識語彙リスト191は運転席側から発せられる語彙の候補の一覧であり、助手席側認識語彙リスト190は助手席側から発せられる語彙の候補の一覧である。運転席側有効語彙リスト211は、車両の状態(自動車走行状態やその他運転状態)に応じた運転席側における有効な語彙リストである。助手席側有効語彙リスト210は、車両の状態に応じた助手席側における有効な語彙リストである。ここで、「有効」とは、語彙(音声コマンド)に応じた制御命令を出力することが許されている状態をいう。
本システムの動作を図40を用いて説明すると、運転者および助手席の同乗者が発話した音声は2つのマイク10、11で収音され、音源分離装置1で運転席と助手席との音声に分離されたのち、それぞれ運転者用、助手席の同乗者用に用意された発話区間検出部170、171、音声認識部180、181に入力される。このとき、本発明に係る音源分離装置1の出力において2人の音声は精度よく分離されているために、助手席側発話区間検出部170、運転席側発話区間検出部171で両者の発話区間を精度よく分離出来ると同時に、助手席側音声認識部180、運転席側音声認識部181に相手の音声を抑圧した情報を与えることが可能で、相手の発話に影響を受けない音声認識処理を精度良く行うことが出来る。
本応用例では、各音声認識部180、181にそれぞれ専用にシステムの状態に関係なくどのような語彙を認識すべきかを指示するための助手席側認識語彙リスト190、運転席側認識語彙リスト191が提供されており、各音声認識部180、181はこの語彙リストに従って音声認識処理を行い、音声認識結果を制御部・状態遷移部200に出力する。
制御部・状態遷移部200が備える状態遷移部201は、音声認識結果及び現在の状態に基づいて次の状態に遷移できるようになっている。制御部・状態遷移部200が備える制御部202では、状態遷移部201から得られる現在の状態と、音声認識部180、181からの音声認識結果とに基づいて、助手席側、運転席側それぞれに用意された助手席側有効語彙リスト210、運転席側有効語彙リスト211に基づいて、どの音声コマンドに応答(制御命令を出力)して良いかを調べる。同図に示す有効語彙リスト210、211においては、状態と音声コマンドの組合せに対して“○”が対応付けられている場合に、音声コマンドに応答可能なことを示している。例えば、運転席側においては、状態が“運転中”の場合に応答が許されている音声コマンドは“もっと”、“ライトつけて”、“すずしく”であり、また、“エアコン操作”、“CD”、“MD”は禁止されている。
そして、許されている音声コマンドのみに応答し、エアコンを操作したりライトをつけたりする制御を行うことで、車両の搭乗者は車内において快適に過ごすことができる。また、車載機器制御用音声認識システムの信頼性を上げることができると同時に、音声認識を使用したアプリケーション作成に仕様設計の自由度をより多く提供することが可能となる。
以上の使用例によれば、運転席と助手席の同乗者とから同時に発話された音声を同時に認識することが可能になったり、どちらか1人が発話した場合でもそれが運転席側からの発話なのか助手席側からの発話なのかを確実に検出して認識することが可能となるため、同乗者の行動を制限せず、発話者とその発話者の音声コマンドに対する応答を個別に設計することが出来るようになる。
[第10実施形態]
次に、第10実施形態について説明する。図41には、本実施形態に係る携帯電話機300を示している。携帯電話機300には、マイク10、11及び図示せぬ音源分離装置が搭載されている。この携帯電話機300は、通常はテレビ電話用であるが、モードを切り替えて集音マイクとしても使用可能である。図41(a)はマイク10、11がテレビ電話用マイクとして動作している時の様子を示す図であり、図41(b)はマイク10、11が集音マイクとして動作している時の様子を示す図である。中規模の会議室などで、発表者がマイクを使うほど大規模な会議室でもなく、しかし、部屋が広く小さな声だと発表者の声が聞き取り難い場面で使用することができる。
以上説明したように、最小2本のマイクを互いに離して設置し、2本のマイクを結ぶ直線の垂線を中心として左右対称な角度に時間領域あるいは周波数領域にてビームフォーマにより死角を形成し、時間領域で死角を作成した場合には周波数領域に変換し、双方のビームフォーマのパワースペクトルの差分を計算し、得られた結果の係数変換を行うことで、左右の死角を中心として幅を持たせた指向特性を形成し、音源分離を行うことが可能となる。このように、マイクの素子感度に指向特性が影響を受けないという性質を実現することができ、マイクの素子感度のバラつきに影響を受けず、音源到来方向の想定方向とのずれや大きな初期反射に関しても適度に広い指向特性によりカバーし、安定した2つの音源の分離特性を実現することが可能となる。
[第11実施形態] 次に、第11実施形態について説明する。図42には抽出したい目的音がゾーンA(例えば運転席のゾーン)に存在し、それ以外の場所(ゾーンB,ゾーンC,ゾーンD)に妨害音が存在する状況下において、ゾーンAの目的音を抽出する例が示してある。本手法を使用したアレイマイク2001(例えば車室内で前方に配置(例えばルームミラーに設定))を使用した場合、ゾーンA/C(例えば運転席及びその後部座席のゾーン)とゾーンB/D(例えば助手席及びその後部座席のゾーン)に存在する音を分離することは可能であるがゾーンA(例えば運転席のゾーン)とゾーンC(例えばその後部座席のゾーン)とに存在する音を分離することは出来ない。しかし、本手法を使用したアレイマイク2002を同図に記載されるようにゾーンA/BとゾーンC/Dの境界の位置に配置することでゾーンA/BとゾーンC/Dに存在する音を分離することが可能となるためゾーンAの音のみを抽出することが可能となる。
具体的には、ゾーンA,B,C,Dに居る発話者A,B,C,Dが同時に発話した場合、まずゾーンA/BとゾーンC/Dの境界に配置したアレイマイク2002を使用することでゾーンA/Bからの音とゾーンC/Dからの音を分離することが可能となる。次にアレイマイク2001によりゾーンA/Cからの音とゾーンB/Dからの音を分離することが出来る。最後にアレイマイク2001を使用して求めたゾーンA/Cからの音とアレイマイク2002を使用して求めたゾーンA/Bからの音を各周波数領域で比較し双方に共通にある周波数成分をゾーンAからの音として分離することが可能となる。同様な処理により、各ゾーンB,C,Dからの音も個別に求めることが可能である。
[第12実施形態] 次に、第12実施形態について説明する。図43は、自動車などの環境下において音声認識により機器操作を行う状況を想定している。図44は、そのときの機器操作のガイダンス音声と発話者の音声との関係を示す。
この様な場合、スピーカ15から発話者Aの発話のタイミングを促す目的で“目的地をどうぞ”などのガイダンス音が流れた後、機械音たとえば“ピッ”などの様な音が流れ、その後に発話者Aは音声コマンドを発声する。しかし、ユーザが音声コマンドによる機器操作に慣れてくるにつれ、図44に示すように、ガイダンス音声中に発話者Aが発話を始めてしまう状況が発生するようになり、これが音声認識性能を下げる要因になっている。
この様な状況への対策として、一般的にはエコーキャンセラを使用しマイク10からの収録音に混在するガイダンス音声を適応的に推定し取り除くことで対応している。また別の対応策として、図45〜図48に示すように、周波数分析後のマイク10への1入力信号に関して、スペクトルサブトラクションを行ったり(図45、図46)、各周波数成分毎にガイダンス音声、発話者Aの音声のどちらが多く含まれるかを推定し発話者Aの音声のみが多く含まれる周波数成分のみを発話者Aの音声として取り出すことが行われている(図47、図48)。
ここで、図45、図47において、フィルタ部1001は、スピーカ15からマイク10までの音響的な反射パスを模擬したフィルタであり、予め求めておいたスピーカ15からマイク10までのインパルス応答を使用しても良いし、適応フィルタ処理により動的に求めておいても良い。
図45における、ゲイン操作部1002は、スペクトルサブトラクションを行う際に使用するオーバーサブトラクションファクタを決定する部分であり、スピーカ15の音量に応じて1〜10程度のゲインのなかから選択され使用する。
また、図45における、目的音声抽出部1003は、ゲイン操作部1002及びスペクトル分析部21の出力に基づいて、図46に示すような処理を行い、処理結果の信号を、時間波形変換部1004に出力する。
図47における、閾値計算部1011は、ガイダンス音声の平均エネルギーを元に閾値thを決定する。
また、図47における、目的音声抽出部1012は、閾値計算部1011及びスペクトル分析部21の出力に基づいて、図48に示すような処理を行い、処理結果の信号を、時間波形変換部1004に出力する。なお、図48に示すthminは、同図に示すXFar(ω)が有効な入力であると判断するための閾値となる。
また、時間波形変換部1004は、第1の実施形態における時間波形変換部70、71と同様な処理を行う。
しかし、従来方においては図43のように、発話者Aのみが発話する状況においては上述のような構成により対応可能であるが、図49に示すように発話者A(例えば運転席の乗員)のみならず発話者B(例えば助手席の乗員)がいる場合に、図50に示すように、発話者Aのみならず発話者Bも何らかの発話をする場合が起こりえるが、この様な状況には対応することが出来ない。
このような状況に対し、図51に示すように本手法と図45または図47で示したガイダンス音声削除部1021、1022とを組み合わせることで対応が可能となる。
具体的には、図51においてガイダンス音声は車内のスピーカ15から再生され、同時に発話者A,発話者Bとも発話している状況下において、マイク10およびマイク11には、ガイダンス音声、発話者Aの発話音声、発話者Bの発話音声が重畳されて入力されている。このとき、ガイダンス音声削除部1021およびガイダンス音声削除部1022では図45または図47に示した方法により、ガイダンス音声を除去し、結果として発話者Aの音声と発話者Bの音声の両者の音声が重畳された信号を結果として出力する。また、ここでは後処理として使用する本手法への入力時の計算の無駄を省くために、時間波形には戻さず、周波数成分のまま本手法(図1)へ入力する。後段の本手法においても入力として周波数成分情報が入力されるためスペクトル分析部の処理を省き、ビームフォーマ部へ直接入力を行い、本手法を適用し処理を行うことにより出力結果として、発話者Aの音声と発話者Bの音声を個別に得ることが可能となり、音声認識装置の信頼性、性能の向上とアプリケーションの自由度を大幅に拡大することが出来る。
また、上述した各種機能の組合せやマイクからの信号の遅延操作により、正面方向に狭い指向特性を実現したり、特定方向からの音源信号のみを検出することが可能となる。
加えて、マイク間隔を広げなくとも低域まで高い分離性能を確保できるため、実装スペースを削減することが可能であり、携帯機器などへの使用も可能となる。
なお、上述した実施形態においては、音源分離システムの各機能ブロックをプログラムで実現するとして説明したが、回路等を用いることによりハードウェアで実現することも可能である。
産業上の利用の可能性
音声認識装置、カーナビゲーション、集音装置、録音装置、音声コマンドによる機器の制御等、音源を精度よく分離する必要のあるあらゆる産業に利用可能である。

Claims (13)

  1. 互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、該混合音から目的音源からの音源信号を分離する音源分離装置において、
    前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、
    かつ、
    前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して前記おおまかな方向と対称な方向から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、
    前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、
    前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段と
    を備えることを特徴とする音源分離装置。
  2. 前記ビームフォーマ手段は、
    互いに離して配置された3つのマイクロホンのうち、何れか2つのマイクロホンの組合せ及び他の2つのマイクロホンの組合せ各々について、前記第1のビームフォーマ処理及び前記第2のビームフォーマ処理を行うことを特徴とする
    請求項1に記載の音源分離装置。
  3. 前記2つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して遅延を与え、前記遅延に対応した角度だけ仮想的に前記垂線回転させることにより目的音源方向を仮想的に補正する指向性制御手段をさらに備えることを特徴とする
    請求項1又は2に記載の音源分離装置。
  4. 前記2つのマイクロホンのうちの一方のマイクロホンからの出力信号に対して第1の遅延を与え、当該第1の遅延に応じた角度だけ仮想的に前記垂線を回転させることにより目的音源の方向を仮想的に補正する第1の指向性制御手段と、
    前記一方のマイクロホンまたは他方のマイクロホンのいずれか一方からの出力信号に対して第2の遅延を与え、前記2つのマイクロホンを結ぶ直線の垂線に対して前記回転とは反対方向に前記第2の遅延に応じた角度だけ前記垂線を回転させることにより目的音源の方向を仮想的に補正する第2の指向性制御手段と、をさらに備えることを特徴とする
    請求項3に記載の音源分離装置。
  5. 前記音源信号が到来する方向を推定する到来方向推定手段をさらに備え、
    前記指向性制御手段は、
    前記到来方向推定手段により推定された到来方向に基づいて、2つの音源の位置が仮想的に2つのマイクロホンを結ぶ直線の垂線に対して対称となるように、該マイクロホンからの出力信号に対して遅延を与えることを特徴とする
    請求項3又は4に記載の音源分離装置。
  6. 前記目的音スペクトル抽出手段により抽出されたパワースペクトル情報に対して、スペクトルサブトラクション処理を行うスペクトルサブトラクション手段をさらに備えたことを特徴とする
    請求項1から5の何れか1項に記載の音源分離装置。
  7. 前記ビームフォーマ手段による処理を行う前に、雑音を低減する処理を行う定常雑音低減手段をさらに備えることを特徴とする
    請求項1から6の何れか1項に記載の音源分離装置。
  8. 請求項1から7の何れか1項に記載の音源分離装置により分離された音源信号の音声認識を行う音声認識手段を備えた音声認識装置。
  9. 車両の運転席側から発せられる語彙の候補の一覧である運転席側認識語彙リスト及び助手席側から発せられる語彙の候補の一覧である助手席側認識語彙リストを記憶する認識語彙リスト記憶手段をさらに備え、
    前記音声認識手段は、
    前記認識語彙リスト記憶手段に記憶されている運転席側認識語彙リスト及び助手席側認識語彙リストに基づいて、前記音源分離装置により分離された音源信号の音声認識処理を行うことを特徴とする
    請求項8に記載の音声認識装置。
  10. 現在の車両の状態を管理する状態遷移手段と、
    車両の状態に応じた助手席側及び運転席側における有効な語彙リストを記憶する有効語彙リスト記憶手段と、
    前記状態遷移手段で管理されている現在の車両の状態と、前記有効語彙リスト記憶手段に記憶されている語彙リストとに基づいて、前記音声認識手段により認識された語彙が有効か否かを判断し、該判断結果に応じて制御を行う制御手段とをさらに備えることを特徴とする
    請求項8又は9に記載の音声認識装置。
  11. 請求項1から7の何れか1項に記載の音源分離装置を備えた携帯電話機。
  12. 互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、
    前記マイクロホン対を構成する2つのマイクロホンからの出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第1のビームフォ−マ処理及び第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
    前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、
    前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと
    を備えることを特徴とする音源分離方法。
  13. コンピュータに、
    互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、
    前記出力信号取得ステップにおいて取得された出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ直線の垂線に対して対称であり、スペクトル情報を得ようとする目的音源のおおまかな方向及び前記おおまかな方向と対称な方向から到来する音源信号を各々減衰させるための第1のビームフォ−マ処理及び第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
    前記ビームフォ−マ処理ステップにおいて得られた音源信号各々についてパワースペクトル情報を算出するパワー計算ステップと、
    前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め所定の値を超えた当該差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと
    を実行させるためのプログラム。
JP2007529641A 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム Expired - Fee Related JP4225430B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005233195 2005-08-11
JP2005233195 2005-08-11
PCT/JP2006/315953 WO2007018293A1 (ja) 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP4225430B2 true JP4225430B2 (ja) 2009-02-18
JPWO2007018293A1 JPWO2007018293A1 (ja) 2009-02-19

Family

ID=37727469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007529641A Expired - Fee Related JP4225430B2 (ja) 2005-08-11 2006-08-11 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム

Country Status (6)

Country Link
US (1) US8112272B2 (ja)
EP (1) EP1923866B1 (ja)
JP (1) JP4225430B2 (ja)
KR (1) KR100959983B1 (ja)
CN (1) CN101238511B (ja)
WO (1) WO2007018293A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011007861A (ja) * 2009-06-23 2011-01-13 Fujitsu Ltd 信号処理装置、信号処理方法、および信号処理プログラム
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
WO2012026126A1 (ja) 2010-08-25 2012-03-01 旭化成株式会社 音源分離装置、音源分離方法、及び、プログラム
US9530406B2 (en) 2013-11-25 2016-12-27 Hyundai Motor Company Apparatus and method for recognizing voice

Families Citing this family (196)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1805918B1 (en) 2004-09-27 2019-02-20 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
JP4873913B2 (ja) * 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US8706482B2 (en) * 2006-05-11 2014-04-22 Nth Data Processing L.L.C. Voice coder with multiple-microphone system and strategic microphone placement to deter obstruction for a digital communication device
US9135797B2 (en) 2006-12-28 2015-09-15 International Business Machines Corporation Audio detection using distributed mobile computing
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP5034595B2 (ja) * 2007-03-27 2012-09-26 ソニー株式会社 音響再生装置および音響再生方法
JP4519900B2 (ja) * 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US20080267423A1 (en) * 2007-04-26 2008-10-30 Kabushiki Kaisha Kobe Seiko Sho Object sound extraction apparatus and object sound extraction method
JP2008288785A (ja) * 2007-05-16 2008-11-27 Yamaha Corp テレビ会議装置
JP4867804B2 (ja) * 2007-06-12 2012-02-01 ヤマハ株式会社 音声認識装置及び会議システム
JP4493690B2 (ja) * 2007-11-30 2010-06-30 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
DE102008004674A1 (de) * 2007-12-17 2009-06-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalaufnahme mit variabler Richtcharakteristik
US8144896B2 (en) * 2008-02-22 2012-03-27 Microsoft Corporation Speech separation with microphone arrays
KR101470528B1 (ko) * 2008-06-09 2014-12-15 삼성전자주식회사 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
JP5339501B2 (ja) * 2008-07-23 2013-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声収集方法、システム及びプログラム
JP5270259B2 (ja) * 2008-08-27 2013-08-21 村田機械株式会社 音声認識装置
US8073634B2 (en) * 2008-09-22 2011-12-06 University Of Ottawa Method to extract target signals of a known type from raw data containing an unknown number of target signals, interference, and noise
US8401178B2 (en) * 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
JP4816711B2 (ja) * 2008-11-04 2011-11-16 ソニー株式会社 通話音声処理装置および通話音声処理方法
US20120020489A1 (en) * 2009-01-06 2012-01-26 Tomohiro Narita Noise canceller and noise cancellation program
JP5376635B2 (ja) * 2009-01-07 2013-12-25 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
JP2010193323A (ja) * 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム
JP5289128B2 (ja) * 2009-03-25 2013-09-11 株式会社東芝 信号処理方法、装置及びプログラム
JP5240026B2 (ja) * 2009-04-09 2013-07-17 ヤマハ株式会社 マイクロホンアレイにおけるマイクロホンの感度を補正する装置、この装置を含んだマイクロホンアレイシステム、およびプログラム
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US8340943B2 (en) * 2009-08-28 2012-12-25 Electronics And Telecommunications Research Institute Method and system for separating musical sound source
KR101253610B1 (ko) 2009-09-28 2013-04-11 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
KR101612704B1 (ko) * 2009-10-30 2016-04-18 삼성전자 주식회사 다중음원 위치 추적장치 및 그 방법
EP2339574B1 (en) 2009-11-20 2013-03-13 Nxp B.V. Speech detector
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP5170465B2 (ja) * 2009-12-11 2013-03-27 沖電気工業株式会社 音源分離装置、方法及びプログラム
JP4986248B2 (ja) * 2009-12-11 2012-07-25 沖電気工業株式会社 音源分離装置、方法及びプログラム
KR101670313B1 (ko) 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
TR201808448T4 (tr) * 2010-02-23 2018-07-23 Koninklijke Philips Nv Ses kaynağı lokalizasyonu
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8712069B1 (en) * 2010-04-19 2014-04-29 Audience, Inc. Selection of system parameters based on non-acoustic sensor information
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9203489B2 (en) 2010-05-05 2015-12-01 Google Technology Holdings LLC Method and precoder information feedback in multi-antenna wireless communication systems
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8433076B2 (en) * 2010-07-26 2013-04-30 Motorola Mobility Llc Electronic apparatus for generating beamformed audio signals with steerable nulls
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US9772815B1 (en) 2013-11-14 2017-09-26 Knowles Electronics, Llc Personalized operation of a mobile device using acoustic and non-acoustic information
US20120066162A1 (en) * 2010-09-09 2012-03-15 Texas Instruments Incorporated System and Method for Training an Adaptive Filter in an Alternate Domain with Constraints
KR20120031854A (ko) * 2010-09-27 2012-04-04 한국전자통신연구원 시간 및 주파수 특징을 이용하는 음악 음원 분리 장치 및 방법
KR101103794B1 (ko) * 2010-10-29 2012-01-06 주식회사 마이티웍스 멀티 빔 음향시스템
JP5857403B2 (ja) 2010-12-17 2016-02-10 富士通株式会社 音声処理装置および音声処理プログラム
WO2012086834A1 (ja) * 2010-12-21 2012-06-28 日本電信電話株式会社 音声強調方法、装置、プログラム、記録媒体
WO2012096074A1 (ja) * 2011-01-13 2012-07-19 日本電気株式会社 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム
CN102595281B (zh) * 2011-01-14 2016-04-13 通用汽车环球科技运作有限责任公司 统一标准的麦克风预处理系统和方法
US9357307B2 (en) 2011-02-10 2016-05-31 Dolby Laboratories Licensing Corporation Multi-channel wind noise suppression system and method
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
WO2012145709A2 (en) * 2011-04-20 2012-10-26 Aurenta Inc. A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation
US9794678B2 (en) 2011-05-13 2017-10-17 Plantronics, Inc. Psycho-acoustic noise suppression
GB2491366A (en) * 2011-05-31 2012-12-05 Nokia Corp A configurable microphone or loudspeaker apparatus
JP6179081B2 (ja) * 2011-09-15 2017-08-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
US9459276B2 (en) 2012-01-06 2016-10-04 Sensor Platforms, Inc. System and method for device self-calibration
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US20130211828A1 (en) * 2012-02-13 2013-08-15 General Motors Llc Speech processing responsive to active noise control microphones
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
US8935164B2 (en) * 2012-05-02 2015-01-13 Gentex Corporation Non-spatial speech detection system and method of using same
EP2874411A4 (en) * 2012-07-13 2016-03-16 Sony Corp INFORMATION PROCESSING SYSTEM AND STORAGE MEDIUM
US9131295B2 (en) 2012-08-07 2015-09-08 Microsoft Technology Licensing, Llc Multi-microphone audio source separation based on combined statistical angle distributions
US9269146B2 (en) 2012-08-23 2016-02-23 Microsoft Technology Licensing, Llc Target object angle determination using multiple cameras
US9078057B2 (en) * 2012-11-01 2015-07-07 Csr Technology Inc. Adaptive microphone beamforming
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US9251804B2 (en) 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
WO2014081401A1 (en) * 2012-11-22 2014-05-30 Gedik, Osman Serdar A system for measuring and evaluating preterm feeding maturation based on sucking and swallowing patterns
US9726498B2 (en) 2012-11-29 2017-08-08 Sensor Platforms, Inc. Combining monitoring sensor measurements and system signals to determine device context
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
US9591508B2 (en) 2012-12-20 2017-03-07 Google Technology Holdings LLC Methods and apparatus for transmitting data between different peer-to-peer communication groups
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US9460732B2 (en) 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US10049658B2 (en) * 2013-03-07 2018-08-14 Nuance Communications, Inc. Method for training an automatic speech recognition system
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9813808B1 (en) 2013-03-14 2017-11-07 Amazon Technologies, Inc. Adaptive directional audio enhancement and selection
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
US20140270241A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc Method, apparatus, and manufacture for two-microphone array speech enhancement for an automotive environment
US9197930B2 (en) * 2013-03-15 2015-11-24 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover in an audience monitoring system
US9788119B2 (en) 2013-03-20 2017-10-10 Nokia Technologies Oy Spatial audio apparatus
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9640179B1 (en) * 2013-06-27 2017-05-02 Amazon Technologies, Inc. Tailoring beamforming techniques to environments
US9386542B2 (en) 2013-09-19 2016-07-05 Google Technology Holdings, LLC Method and apparatus for estimating transmit power of a wireless device
US9420368B2 (en) 2013-09-24 2016-08-16 Analog Devices, Inc. Time-frequency directional processing of audio signals
CN105580074B (zh) * 2013-09-24 2019-10-18 美国亚德诺半导体公司 信号处理系统和方法
JP6197534B2 (ja) * 2013-09-26 2017-09-20 沖電気工業株式会社 音源分離装置、音源分離方法、及び音源分離プログラム
WO2015065362A1 (en) * 2013-10-30 2015-05-07 Nuance Communications, Inc Methods and apparatus for selective microphone signal combining
US9532138B1 (en) * 2013-11-05 2016-12-27 Cirrus Logic, Inc. Systems and methods for suppressing audio noise in a communication system
US9431013B2 (en) * 2013-11-07 2016-08-30 Continental Automotive Systems, Inc. Co-talker nulling for automatic speech recognition systems
US9497528B2 (en) * 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
US9781106B1 (en) 2013-11-20 2017-10-03 Knowles Electronics, Llc Method for modeling user possession of mobile device for user authentication framework
US9549290B2 (en) 2013-12-19 2017-01-17 Google Technology Holdings LLC Method and apparatus for determining direction information for a wireless device
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
US20170178664A1 (en) * 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US9491007B2 (en) 2014-04-28 2016-11-08 Google Technology Holdings LLC Apparatus and method for antenna matching
US9478847B2 (en) 2014-06-02 2016-10-25 Google Technology Holdings LLC Antenna system and method of assembly for a wearable electronic device
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
US10242690B2 (en) * 2014-12-12 2019-03-26 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
CN107112012B (zh) 2015-01-07 2020-11-20 美商楼氏电子有限公司 用于音频处理的方法和系统及计算机可读存储介质
EP3264792A4 (en) * 2015-02-16 2018-04-11 Panasonic Intellectual Property Management Co., Ltd. Vehicle-mounted sound processing device
US10991362B2 (en) * 2015-03-18 2021-04-27 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US11694707B2 (en) 2015-03-18 2023-07-04 Industry-University Cooperation Foundation Sogang University Online target-speech extraction method based on auxiliary function for robust automatic speech recognition
US10657958B2 (en) * 2015-03-18 2020-05-19 Sogang University Research Foundation Online target-speech extraction method for robust automatic speech recognition
KR102367660B1 (ko) * 2015-03-19 2022-02-24 인텔 코포레이션 마이크로폰 어레이 스피치 향상 기법
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
JP6648377B2 (ja) * 2015-09-28 2020-02-14 本田技研工業株式会社 音声処理装置及び音声処理方法
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105590633A (zh) * 2015-11-16 2016-05-18 福建省百利亨信息科技有限公司 一种用于歌曲评分的曲谱生成方法和设备
JP2017102085A (ja) * 2015-12-04 2017-06-08 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US9747920B2 (en) * 2015-12-17 2017-08-29 Amazon Technologies, Inc. Adaptive beamforming to create reference channels
US9773495B2 (en) 2016-01-25 2017-09-26 Ford Global Technologies, Llc System and method for personalized sound isolation in vehicle audio zones
WO2018016044A1 (ja) * 2016-07-21 2018-01-25 三菱電機株式会社 雑音除去装置、エコーキャンセリング装置、異音検出装置および雑音除去方法
JP6729186B2 (ja) 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
EP3566462B1 (en) * 2017-01-03 2020-08-19 Koninklijke Philips N.V. Audio capture using beamforming
JP7041156B6 (ja) * 2017-01-03 2022-05-31 コーニンクレッカ フィリップス エヌ ヴェ ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
EP3574659A1 (en) 2017-01-27 2019-12-04 Shure Acquisition Holdings, Inc. Array microphone module and system
US10085087B2 (en) * 2017-02-17 2018-09-25 Oki Electric Industry Co., Ltd. Sound pick-up device, program, and method
US10803857B2 (en) * 2017-03-10 2020-10-13 James Jordan Rosenberg System and method for relative enhancement of vocal utterances in an acoustically cluttered environment
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107248413A (zh) * 2017-03-19 2017-10-13 临境声学科技江苏有限公司 基于差分波束形成的隐声方法
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US10535360B1 (en) * 2017-05-25 2020-01-14 Tp Lab, Inc. Phone stand using a plurality of directional speakers
JP6639747B2 (ja) * 2017-08-10 2020-02-05 三菱電機株式会社 雑音除去装置および雑音除去方法
CN107301869B (zh) * 2017-08-17 2021-01-29 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN111052766B (zh) * 2017-09-07 2021-07-27 三菱电机株式会社 噪音去除装置及噪音去除方法
EP3692704B1 (en) * 2017-10-03 2023-09-06 Bose Corporation Spatial double-talk detector
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
KR102469753B1 (ko) * 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
CN108711434A (zh) * 2018-04-04 2018-10-26 北京小米移动软件有限公司 车辆降噪方法及装置
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108932949A (zh) * 2018-09-05 2018-12-04 科大讯飞股份有限公司 一种参考信号获取方法及装置
DE112019004662T5 (de) * 2018-09-18 2021-06-17 Tactual Labs Co. Biometrische frequenz
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11109133B2 (en) 2018-09-21 2021-08-31 Shure Acquisition Holdings, Inc. Array microphone module and system
TWI719385B (zh) * 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
WO2020150598A1 (en) * 2019-01-18 2020-07-23 University Of Washington Systems, apparatuses. and methods for acoustic motion tracking
JP7252779B2 (ja) * 2019-02-21 2023-04-05 日清紡マイクロデバイス株式会社 雑音除去装置、雑音除去方法およびプログラム
US11741529B2 (en) 2019-02-26 2023-08-29 Xenial, Inc. System for eatery ordering with mobile interface and point-of-sale terminal
US11049509B2 (en) 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
JP6822505B2 (ja) * 2019-03-20 2021-01-27 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841421A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN111755021B (zh) * 2019-04-01 2023-09-01 北京京东尚科信息技术有限公司 基于二元麦克风阵列的语音增强方法和装置
TWI715027B (zh) * 2019-05-07 2021-01-01 宏碁股份有限公司 揚聲器調整方法與使用此方法的電子裝置
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
EP3973716A1 (en) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
EP3783609A4 (en) * 2019-06-14 2021-09-15 Shenzhen Goodix Technology Co., Ltd. DIFFERENTIAL BEAM FORMATION METHOD AND MODULE, SIGNAL PROCESSING METHOD AND APPARATUS, AND CHIP
CN112216303B (zh) * 2019-07-11 2024-07-23 北京声智科技有限公司 一种语音处理方法、装置及电子设备
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
CN112449236B (zh) * 2019-08-28 2023-03-24 海信视像科技股份有限公司 一种音量调节的方法及显示装置
KR102305850B1 (ko) 2019-08-30 2021-09-28 엘지전자 주식회사 차량 내에서 인공 지능 기반의 음성 분리 방법 및 장치
CN110631691B (zh) * 2019-09-09 2021-06-11 国网湖南省电力有限公司 一种电力设备噪声分离效果验证方法、系统、分离设备及介质
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
CN110827849B (zh) * 2019-11-11 2022-07-26 广州国音智能科技有限公司 数据建库的人声分离方法、装置、终端及可读存储介质
EP3823315B1 (en) * 2019-11-18 2024-01-10 Panasonic Intellectual Property Corporation of America Sound pickup device, sound pickup method, and sound pickup program
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11410671B2 (en) * 2020-02-21 2022-08-09 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing meihod
US11790900B2 (en) 2020-04-06 2023-10-17 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2022025908A (ja) 2020-07-30 2022-02-10 ヤマハ株式会社 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN112634931B (zh) * 2020-12-22 2024-05-14 北京声智科技有限公司 语音增强方法及装置
WO2022165007A1 (en) 2021-01-28 2022-08-04 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
US11438695B1 (en) * 2021-03-17 2022-09-06 GM Global Technology Operations LLC Beamforming techniques for acoustic interference cancellation
CN114724574B (zh) * 2022-02-21 2024-07-05 大连理工大学 一种期望声源方向可调的双麦克风降噪方法
US11804207B1 (en) 2022-04-28 2023-10-31 Ford Global Technologies, Llc Motor vehicle workspace with enhanced privacy
US20240036654A1 (en) * 2022-07-28 2024-02-01 Dell Products L.P. Information handling system keyboard microphone array for audio capture and quality presentation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05131866A (ja) 1991-11-13 1993-05-28 Omron Corp 車両用ヘツドアツプデイスプレイ
US6420975B1 (en) * 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
JP4163294B2 (ja) 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2002099297A (ja) 2000-09-22 2002-04-05 Tokai Rika Co Ltd マイクロフォン装置
JP2003153372A (ja) 2001-11-14 2003-05-23 Matsushita Electric Ind Co Ltd マイクロホン装置
KR20040035150A (ko) * 2002-10-18 2004-04-29 현대모비스 주식회사 차량용 음성인식 장치의 작동방법
JP4286637B2 (ja) 2002-11-18 2009-07-01 パナソニック株式会社 マイクロホン装置および再生装置
US7577262B2 (en) 2002-11-18 2009-08-18 Panasonic Corporation Microphone device and audio player
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
JP4675888B2 (ja) * 2004-06-16 2011-04-27 パナソニック株式会社 ハウリング検出装置およびその方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011007861A (ja) * 2009-06-23 2011-01-13 Fujitsu Ltd 信号処理装置、信号処理方法、および信号処理プログラム
US8638952B2 (en) 2009-06-23 2014-01-28 Fujitsu Limited Signal processing apparatus and signal processing method
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
WO2012026126A1 (ja) 2010-08-25 2012-03-01 旭化成株式会社 音源分離装置、音源分離方法、及び、プログラム
US9530406B2 (en) 2013-11-25 2016-12-27 Hyundai Motor Company Apparatus and method for recognizing voice

Also Published As

Publication number Publication date
KR100959983B1 (ko) 2010-05-27
WO2007018293A1 (ja) 2007-02-15
US20090055170A1 (en) 2009-02-26
JPWO2007018293A1 (ja) 2009-02-19
EP1923866B1 (en) 2014-01-01
EP1923866A4 (en) 2010-01-06
EP1923866A1 (en) 2008-05-21
KR20080009211A (ko) 2008-01-25
US8112272B2 (en) 2012-02-07
CN101238511B (zh) 2011-09-07
CN101238511A (zh) 2008-08-06

Similar Documents

Publication Publication Date Title
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
EP1879180B1 (en) Reduction of background noise in hands-free systems
EP1718103B1 (en) Compensation of reverberation and feedback
US8370140B2 (en) Method of filtering non-steady lateral noise for a multi-microphone audio device, in particular a “hands-free” telephone device for a motor vehicle
EP1855457B1 (en) Multi channel echo compensation using a decorrelation stage
JP4286637B2 (ja) マイクロホン装置および再生装置
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
US9002027B2 (en) Space-time noise reduction system for use in a vehicle and method of forming same
US11089404B2 (en) Sound processing apparatus and sound processing method
US20170229137A1 (en) Audio processing apparatus, audio processing method, and program
Schmidt et al. Signal processing for in-car communication systems
US8712769B2 (en) Apparatus and method for noise removal by spectral smoothing
US6563925B1 (en) Method and apparatus for space-time echo cancellation
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
Saremi Spatial audio signal processing for speech telecommunication inside vehicles
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones
CN111863017B (zh) 一种基于双麦克风阵列的车内定向拾音方法及相关装置
Qi Real-time adaptive noise cancellation for automatic speech recognition in a car environment: a thesis presented in partial fulfillment of the requirements for the degree of Doctor of Philosophy in Computer Engineering at Massey University, School of Engineering and Advanced Technology, Auckland, New Zealand

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4225430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131205

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees