JP2011027825A - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP2011027825A
JP2011027825A JP2009171054A JP2009171054A JP2011027825A JP 2011027825 A JP2011027825 A JP 2011027825A JP 2009171054 A JP2009171054 A JP 2009171054A JP 2009171054 A JP2009171054 A JP 2009171054A JP 2011027825 A JP2011027825 A JP 2011027825A
Authority
JP
Japan
Prior art keywords
sound source
signal
sound
unit
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009171054A
Other languages
English (en)
Other versions
JP5375400B2 (ja
Inventor
Toshiyuki Sekiya
俊之 関矢
Mototsugu Abe
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009171054A priority Critical patent/JP5375400B2/ja
Priority to US12/835,976 priority patent/US9418678B2/en
Priority to CN2010102340090A priority patent/CN101964192B/zh
Publication of JP2011027825A publication Critical patent/JP2011027825A/ja
Application granted granted Critical
Publication of JP5375400B2 publication Critical patent/JP5375400B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】混合信号から独立性の高い音源を含む信号を効率的に除去する。
【解決手段】音声処理装置100は、複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力する非線形処理部102と、非線形処理部により出力された複数の音声信号から特定の音源を含む音声信号と、複数の音源を含む観測信号とを選択する信号選択部104と、信号選択部により選択された観測信号から、信号選択部により選択された特定の音源を含む音声信号を分離する音声分離部106と、を備える。
【選択図】図7

Description

本発明は、音声処理装置、音声処理方法およびプログラムに関し、特に、独立成分分析(ICA)を利用した音源分離および雑音除去に関する音声処理装置、音声処理方法およびプログラムに関する。
最近では、複数の音源からの音声が含まれる混合音声のうち、1つ以上の音源からの信号をICA(Independent Component Analisis)法に基づくBBS(Blinde Source Separation)方式を用いて分離する技術が存在する。例えば、ICAを利用した音源分離で除去しきれなかった残留雑音の低減を実現するために、ICAを利用した音源分離の後に、非線形処理を利用する技術が開示されている(例えば特許文献1)。
しかし、ICA処理の後に非線形処理を行う場合には、前段のICAによる分離が良好に動作することが前提となる。したがって、ICAによる分離処理において、ある程度の音源分離が実現できていない場合には、後段に非線形処理を施しても十分な性能向上を望むことは出来ないという問題があった。
そこで、ICAを利用した音源分離の前段に非線形処理を行う技術が開示されている(例えば、特許文献2)。特許文献2によれば、信号源の数Nとセンサの数MがN>Mの関係にある場合でも、混合信号を高い品質で分離することが可能となる。ICAを利用した音源分離において、精度よく各信号を抽出するためには、M≧Nである必要がある。そこで、特許文献2では、N個の音源は同時に存在しないと仮定して、バイナリマスキングなどによりN個の音源が混じった観測信号からV個(V≦M)の音源のみを含む時間−周波数成分を抽出している。そして、その限定された時間−周波数成分に対して、ICAなどを適用して各音源を抽出することが可能となる。
特開2006−154314号公報 特許第3949150号明細書
しかし、上記特許文献2では、2≦V≦Mの条件を作り出して、個々の音源をそれぞれ抽出することが可能となるが、混合信号から1個の音源からのみの信号を除去したい場合でも、個々の音源を抽出した後に必要な信号を混合しなければならないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、混合信号から特定の音源を含む信号を効率的に除去することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力する非線形処理部と、非線形処理部により出力された複数の音声信号から特定の音源を含む音声信号と、複数の音源を含む観測信号とを選択する信号選択部と、信号選択部により選択された観測信号から、信号選択部により選択された特定の音源を含む音声信号を分離する音声分離部と、を備える、音声処理装置が提供される。
また、複数の音源から発生して複数のセンサにより観測された複数の観測信号を周波数領域の信号値に変換する周波数領域変換部を備え、非線形処理部は、周波数領域変換部により変換された観測信号値に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力してもよい。
また、複数のセンサにより観測される複数の音源には、独立性の高い特定の音源が含まれており、非線形処理部は、独立性の高い特定の音源の音声成分を示す音声信号を出力し、信号選択部は、非線形処理部により出力された特定の音源の音声成分を示す音声信号と、複数の観測信号のうち、特定の音源および特定の音源以外の音源を含む観測信号とを選択し、音声分離部は、信号選択部により選択された観測信号から、特定の音源の音声成分を除去してもよい。
また、非線形処理部は、第1の音源が発生している領域に存在する音声成分を示す音声信号を出力し、信号選択部は、非線形処理部により出力された第1の音源が発生している領域に存在する音声成分を示す音声信号と、複数の観測信号のうち、第1の音源および第1の音源以外の音源が発生している領域に位置するセンサにより観測される第2の音源を含む観測信号とを選択し、音声分離部は、信号選択部により選択された第2の音源を含む観測信号から、第1の音源の音声成分を除去してもよい。
また、非線形処理部は、複数のセンサ間の位相差を時間−周波数成分毎に算出する位相算出手段と、位相算出手段により算出された複数のセンサ間の位相差に基づいて、各時間−周波数成分が起因している領域を判定する判定手段と、判定手段による判定結果に基づいて、センサにより観測される周波数成分に所定の重み付けを行う演算手段と、を備えてもよい。
また、位相算出手段は、センサ間の遅延を利用してセンサ間の位相を算出してもよい。
また、複数の観測信号は、複数のセンサの個数分観測され、信号選択部は、非線形処理部により出力された複数の音声信号から、1つの観測信号と合計して複数のセンサの個数分となる個数分の音声信号を選択してもよい。
また、非線形処理部は、独立性の高い特定の音源を含む3つの音源から発生して3つのセンサにより観測される3つの観測信号に非線形処理を施すことにより、独立性の高い特定の音源の音声成分を示す第1の音声信号と、3つの音源の音声成分のいずれも含まない第2の音声信号とを出力し、信号選択部は、非線形処理部により出力された第1の音声信号と第2の音声信号と、特定の音源と特定の音源以外の音源を含む観測信号とを選択し、音声分離部は、信号選択部により選択された観測信号から、第1の音源の音声成分を除去してもよい。
また、非線形処理部は、独立性の高い特定の音源を含む3つの音源から発生して2つのセンサにより観測される2つの観測信号に非線形処理を施すことにより、独立性の高い特定の音源の音声成分を示す音声信号を出力し、信号選択部は、非線形処理部により出力された音声信号と、特定の音源と特定の音源以外の音源を含む観測信号とを選択し、音声分離部は、信号選択部により選択された観測信号から、第1の音源の音声成分を除去してもよい。
また、上記課題を解決するために、本発明の別の観点によれば、複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力するステップと、非線形処理により出力された複数の音声信号から特定の音源を含む音声信号と、複数の音源を含む観測信号とを選択するステップと、選択された観測信号から、信号選択部により選択された特定の音源を含む音声信号を分離するステップと、を含む、音声処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータをして、複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力する非線形処理部と、非線形処理部により出力された複数の音声信号から特定の音源を含む音声信号と、複数の音源を含む観測信号とを選択する信号選択部と、信号選択部により選択された観測信号から、信号選択部により選択された特定の音源を含む音声信号を分離する音声分離部と、を備える、音声処理装置として機能させるための、プログラムが提供される。
以上説明したように本発明によれば、混合信号から独立性の高い音源を含む信号を効率的に除去することができる。
ICAを利用した音源分離処理について説明する説明図である。 ICAを利用した音源分離処理について説明する説明図である。 ICAを利用した音源分離処理について説明する説明図である。 本実施形態にかかる音源分離部の利用について説明する説明図である。 ICAを利用した音源分離の前段に非線形処理を行う技術について説明する説明図である。 本発明にかかる音声処理装置の概要について説明する説明図である。 本発明の一実施形態にかかる音声処理装置の機能構成を示すブロック図である。 同実施形態にかかる音声処理方法を示すフローチャートである。 第1の実施例にかかる音声処理装置の構成を示すブロック図である。 同実施形例にかかるマイクロホンと音源の位置関係を説明する説明図である。 同実施形例にかかる音声処理方法を示すフローチャートである。 同実施形例にかかる非線形処理の詳細について説明する説明図である。 同実施形例にかかる非線形処理の詳細について説明する説明図である。 同実施形例にかかる非線形処理の詳細について説明する説明図である。 同実施形例にかかる非線形処理の詳細について説明する説明図である。 同実施形例にかかる非線形処理の詳細について説明する説明図である。 第2の実施例にかかるマイクロホンと音源の位置関係を説明する説明図である。 同実施形例にかかる音声処理方法を示すフローチャートである。 本発明の応用例を説明する説明図である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、以下に示す順序に従って、当該「発明を実施するための最良の形態」を説明する。
〔1〕本実施形態の目的
〔2〕音声処理装置の機能構成
〔3〕音声処理装置の動作
〔4〕実施例
〔4−1〕第1の実施例
〔4−2〕第2の実施例
〔1〕本実施形態の目的
まず、本発明の実施形態の目的について説明する。最近では、複数の音源からの音声が含まれる混合音声のうち、1つ以上の音源からの信号をICA(Independent Component Analisis)法に基づくBBS(Blinde Source Separation)方式を用いて分離する技術が存在する。図1および図2は、ICAを利用した音源分離処理について説明する説明図である。例えば、図1に示したように、それぞれ独立な音源であるピアノの音である音源1および人の声である音源2が、マイクロホンM_1およびマイクロホンM_2により混合されて観測される。そして、音声処理装置に備わるICAを利用した音源分離部10により、混合された信号を、信号の統計的独立性や音源からマイクロホンまでの経路に基づいて分離する。これにより、互いに独立な信号である元音源11および元音源12が復元される。
次に、マイクロホン毎に観測される音源数が異なる場合について説明する。例えば、図2に示したように、音源1はマイクロホンM_1およびマイクロホンM_2で観測され、音源2は、マイクロホンM_2でのみ観測されるとする。この場合も、独立な信号が、少なくとも一つ以上のマイクロホンで観測されるため、元音源11および元音源12を復元することができる。具体的にはICAを利用した音源分離部10は、マイクロホンM_1により観測された情報を利用して、マイクロホンM_2から音源1の成分を引く処理が行われる。
また、図3に示したように、マイクロホンM_1およびマイクロホンM_2にそれぞれ独立な音源のみが観測される場合には、信号を分離することなく、各独立音源を得ることができる。すなわち、マイクロホンM_1で音源1のみが観測され、マイクロホンM_2で音源2のみが観測された場合には、信号を分離することなく元音源11および元音源12を復元する。これは、ICAを利用した音源分離部10が、独立性の高い信号を出力するように動作するためである。
このように、観測信号自体の独立性が高い場合には、ICAを利用した音源分離部10は、観測信号をそのまま出力する傾向があることがわかる。このことから、音源分離部10に入力される信号のうち、所定の信号を選択することにより、音源分離部10の動作を制御することが可能となる。
次に、図4を参照して、本実施形態にかかる音源分離部10の利用について説明する。図4は、本実施形態にかかる音源分離部の利用について説明する説明図である。図4に示したように、マイクロホンM_1では、音源1、2および3に対して音源1のみが観測されるとする。またマイクロホンM_2では音源1〜3が観測される。マイクロホンM_2により観測される3つの音源は、もともと独立した音源であるが、音源数よりもマイクロホン数が少ないため、ICAを利用した音源分離部10では音源2と音源3を分離するための条件が足りず分離できない。すなわち、音源2および音源3は、ひとつのチャネルのみでしか観測されていないため、音源2および音源3の独立性を評価することができない。これは、ICAを利用した音源分離部10では、複数の観測信号を利用し、分離信号の独立性を高めることにより音源分離を実現しているためである。
一方、音源1は、マイクロホンM_1でも観測されているため、音源1をマイクロホンM_2から抑圧することが可能となる。なお、この場合、音源1は、音源2および3に比べて大きい音であるなど支配的な音源であることが望ましい。したがって、音源分離部10では、音源2および音源3をペアとして、マイクロホンM_2から音源1の成分を除去するように動作する。本実施形態では、複数の信号のうち、独立性の高い信号はそのまま出力され、それ以外の信号から独立性の高い信号が除去されて出力されるという音源分離部10の特性を利用する。
また、上記したICAを利用した音源分離で除去しきれなかった残留雑音の低減を実現するために、ICAを利用した音源分離の後に、非線形処理を利用する技術が開示されている。しかし、ICA処理の後に非線形処理を行う場合には、前段のICAによる分離が良好に動作することが前提となる。したがって、ICAによる分離処理において、ある程度の音源分離が実現できていない場合には、後段に非線形処理を施しても十分な性能向上を望むことは出来ないという問題があった。
そこで、ICAを利用した音源分離の前段に非線形処理を行う技術が開示されている。当該技術によれば、音源の数Nとセンサの数MがN>Mの関係にある場合でも、混合信号を高い品質で分離することが可能となる。ICAを利用した音源分離において、精度よく各信号を抽出するためには、M≧Nである必要がある。そこで、特許文献2では、N個の音源は同時に存在しないと仮定して、バイナリマスキングなどによりN個の音源が混じった観測信号からV個(V≦M)の音源のみを含む時間−周波数成分を抽出している。そして、その限定された時間−周波数成分に対して、ICAなどを適用して各音源を抽出することが可能となる。
図5は、ICAを利用した音源分離の前段に非線形処理を行う技術について説明する説明図である。図5では、音源数(N)が3つでマイクロホン数(M)が2つの場合、精度よく分離するために、観測信号に非線形処理としてバイナリマスク処理などを適用する。限定信号処理部22で行われるバイナリマスク処理では、N個の音源を含む信号からV(≦M)個の音源のみを含む成分を抽出する。これにより、マイクロホン数に対して、音源数が等しいか少ない状況を作ることができる。
図5に示したように、限定信号作成部22において、マイクロホンM_1およびマイクロホンM_2により観測された観測信号の時間周波数成分から、音源1および音源2のみを含む時間−周波数成分と、音源2および音源3のみを含む時間−周波数成分を取り出す。そして、音源数=マイク数が成立した時間−周波数成分に対して、ICAを利用した音源分離を行う。これにより、音源分離部24aからは、音源1が復元された音源25aおよび音源2が復元された音源25bが分離される。また、音源分離部24bからは、音源2が復元された音源25cおよび音源3が復元された音源25dが分離される。
しかし、上記技術では、2≦V≦Mの条件を作り出して、個々の音源をそれぞれ抽出することが可能となるが、混合信号から1個の音源からのみの信号を除去したい場合でも、個々の音源を抽出した後に必要な信号を混合しなければならないという問題があった。 そこで、上記のような事情を一着眼点として、本実施形態にかかる音声処理装置100が創作されるに至った。本実施形態にかかる音声処理装置100によれば、混合信号から独立性の高い音源を含む信号を効率的に除去することが可能となる。
ここで、図6を参照して、本発明にかかる音声処理装置100の概要について説明する。 図6は、本発明と図5に示した技術との差異を説明する説明図である。以下では、N個の音源(N=4(S1、S2、S3、S4))をM個(M=2)のマイクロホンで観測した場合、音源S1、S2、S3を含む信号を得る場合について説明する。
図6に示したように、図5に示した音声処理装置20では、限定信号作成部22により、マイク数と同数の音源を含む混合音声を抽出して、音源分離部24aおよび音源分離部24bにより各音源の分離信号が出力される。そして、音源S1、S2、S3を含む信号を得るためには、各音源に分離された信号のうち、音源S1、S2、S3を加算することにより音源S4のみを含まない信号を得ることができる。
一方、本発明にかかる音声処理装置100では、非線形処理部102により簡易的に音源S4を抽出して、音源S4のみを含む信号と観測信号S1〜S4とを音源分離部に入力する。選択された入力信号を入力された音源分離部106は、S4とS1〜S4を2つの独立した音源と認識して、S1〜S4を含む観測信号からS4を削除した信号(S1+S2+S3)を出力する。
このように、音声処理装置20では、S1〜S3を含む音声信号を取得するためには、2回の音源分離処理を行った上で、さらに必要な音声信号を混合する処理を行う必要がある。しかし、本発明では、非線形処理により1個の独立性の高い信号S4を得ることにより、1回の音源分離処理でS1〜S3を含む所望の音声信号を得ることが可能となる。
〔2〕音声処理装置の機能構成
次に、図7を参照して、本実施形態にかかる音声処理装置100の機能構成について説明する。図7に示したように、音声処理装置100は、非線形処理部102と、信号選択部104と、音源分離部106と、制御部108を備える。上記非線形処理部102、信号選択部104、音源分離部106、制御部108は、コンピュータにより構成され、その動作は、コンピュータに備わるROM(Read Only Memory)に記憶されたプログラムをもとに、CPUで実行される。
非線形処理部102は、制御部108による指示のもと、複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する複数の音声信号を出力する機能を有する。本実施形態では、複数のセンサは、例えばマイクロホンなどを例示できる。また、以下では、マイクロホンの個数Mは2個以上であるとする。非線形処理部102は、M個のマイクロホンで観測された観測信号に非線形処理を施して、Mp個の音声信号を出力する。
非線形処理部102では、複数のセンサにより観測された観測信号において、複数の音源が存在する場合に、同時に同じ時間−周波数成分を持つことはまれであるという仮定をおくことにより、特定の信号を抽出することができる。本実施形態では、複数のセンサにより観測される複数の音源には、独立性の高い特定の音源が含まれているものとする。この場合、非線形処理部102は、非線形処理により、独立性の高い特定の音源のみを含む音声信号を出力することが可能となる。非線形処理部102による非線形処理については、第1の実施例の説明において詳細に説明する。非線形処理部102は、出力した音声信号を信号選択部104に提供する。
信号選択部104は、制御部108により指示のもと、非線形処理部102により出力された音声信号から特定の音源を含む音声信号と、マイクロホンにより観測された複数の音源を含む観測信号とを選択する機能を有する。上記したように、非線形処理部102により独立性の高い特定の音源の音声成分を示す音声信号が提供されると、信号選択部104は、非線形処理部102により出力された特定の音源の音声成分を示す音声信号と、マイクロホンにより観測された複数の観測信号のうち、特定の音源および特定の音源以外の音源を含む観測信号とを選択する。信号選択部104により信号選択処理については、後で詳細に説明する。信号選択部104は、選択した音声信号と観測信号とを音源分離部106に提供する。
音源分離部106は、信号選択部104により選択された観測信号から、信号選択部104により選択された特定の音源を含む音声信号を分離する機能を有する。音源分離部106は、ICAを利用して出力信号の独立性が高まるように音源分離処理を行う。したがって、独立性の高い特定の音源の音声成分を示す音声信号と、特定の音源および特定の音源以外の音源を含む観測信号が音源分離部106に入力された場合には、特定の音源および特定の音源以外の音源を含む観測信号から、特定の音源の音声成分を分離する処理が行われる。ICAを利用した音源分離処理においては、音源分離部にL個の入力信号が入力されると、入力信号と同数のL個の独立性の高い出力信号が出力される。
〔3〕音声処理装置の動作
以上、音声処理装置100の機能構成について説明した。次に、図8を参照して、音声処理装置100の動作について説明する。図8は、音声処理装置100における音声処理方法を示すフローチャートである。図8に示したように、まず、非線形処理部102は、M個のマイクロホンで観測された信号を利用して、非線形処理を施し、Mp個の音声信号を出力する(S102)。信号選択部104は、M個のマイクロホンで観測されたM個の観測信号と、非線形処理部102により出力されたMp個の音声信号から、音源分離部106に入力するL個の信号を選択する(S104)。
そして、音源分離部106は、音源分離部106から出力される出力信号の独立性が高まるように音源分離処理を行う(S106)。そして、音源分離部106は、L個の独立な信号を出力する(S108)。以上、音声処理装置100の動作について説明した。
〔4〕実施例
次に、音声処理装置100を利用した実施例について説明する。以下では音源の個数をN、マイクロホンの個数をMとして説明する。第1の実施例では、音源の個数とマイクロホンの個数が同数(N=M)の場合について説明する。具体的に、音源の個数とマイクロホンの個数が3つの場合について説明する。また、第2の実施例では、音源の個数がマイクロホンの個数より多い場合(N>M)について説明する。具体的に、音源の個数が3つ、マイクロホンの個数が2つの場合について説明する。
〔4−1〕第1の実施例
まず、図9を参照して、第1の実施例にかかる音声処理装置100aの構成について説明する。音声処理装置100aの基本的な構成は、上記した音声処理装置100と同様であるため。音声処理装置100aでは、音声処理装置100のさらに詳細な構成を示している。図9に示したように、音声処理装置100aは、周波数領域変換部101と、非線形処理部102と、信号選択部104と、音源分離部106と、制御部108と、時間領域変換部110などを備える。
周波数領域変換部101は、複数の音源から発生して複数のマイクロホンにより観測された複数の観測信号を周波数領域の信号値に変換する機能を有する。周波数領域変換部101は、変換した観測信号値を非線形処理部102に提供する。また、時間領域変換部110は、音源分離部106により出力された出力信号に対して、短時間逆フーリエ変換等の時間領域変換を行って、時間波形を出力する機能を有する。
また、第1の実施例では、3つのマイクロホン(M1〜M3)と3つの音源(S1〜S3)は、図10に示した位置関係にあるとして説明する。第1の実施例においては、音源S3は、他の音源S1やS2よりも大きい音であるなど支配的な音源である。また、音源がマイクに対して指向性がある場合も、他の音源より支配的な音源としてマイクロホンにより観測される。指向性があるとは、例えば、音源がスピーカであった場合には、スピーカの正面がマイクに向いている場合であり、人の話声である場合には、人がマイクに向かって話している場合である。音声処理装置100aでは、音源S1〜S3を含む音声信号から、特定の音源である音源S3の音声信号を除去することを目的としている。
次に、図11を参照して、音声処理装置100aにおける音声処理方法について説明する。まず、周波数領域変換部101は、マイクロホンにより観測された観測信号を短時間フーリエ変換することにより、以下の時間−周波数系列を得る(S202)。
Figure 2011027825
次に、ステップS202において取得した時間−周波数系列の各時間−周波数成分の位相差を算出したか否かを判定する(S204)。ステップS204において、各時間−周波数成分の位相差を算出していないと判定された場合には、ステップS206の処理を行う。ステップS204において各時間−周波数成分の位相差を算出したと判定された場合には、処理を終了する。
ステップS204において各時間−周波数成分の位相差を算出していないと判定された場合には、ステップS202において取得した時間−周波数成分に対して以下の位相差を算出する。
Figure 2011027825
マイクロホン対の位相差については、後で詳述する。次に、マイクロホン対の位相差が以下の条件式1を満たすか否か判定する(S208)。
Figure 2011027825
ステップS208において、マイクロホン対の位相差が条件式1を満たしていると判定された場合には、マイクロホン1で観測される音源S3の時間−周波数成分を以下の数式により取得する(S212)。
Figure 2011027825
ここで、マイクロホンiで観測される音源jだけを含む時間−周波数成分を以下の数式により表記する。
Figure 2011027825
本実施形例では、図10に示したような音源とマイクの位置関係となっており、音源S3は独立性の高い音源である。このため、ステップS212においては、マイクロホン1で観測される観測信号に非線形処理を施すことにより、音源S3のみの時間−周波数成分(音声信号))を得ることができる。一方、ステップS208において、マイクロホン対の位相差が条件式1を満たしていないと判定された場合には、マイクロホン対の位相差が以下の条件式2を満たすか否か判定する(S210)。
Figure 2011027825
ステップS210において、マイクロホン対の位相差が条件式2を満たしていると判定された場合には、マイクロホン3で観測される、音源S1、S2、S3などの主たる音源を含まない残響成分などのみを含む時間−周波数成分を以下の数式により取得する(S220)。
Figure 2011027825
ここで、主たる音源を含まない時間−周波数成分を以下の数式により表記する。
Figure 2011027825
ステップS220においては、マイクロホン3で観測される観測信号に非線形処理を施すことにより、主たる音源を含まない残響成分の時間−周波数成分(音声信号)を得ることができる。そして、音源分離部106は、以下の成分に対して分離処理を行う(S214)。
Figure 2011027825
上記した非線形処理により、マイクロホン1で観測される音源S3だけを含む音声信号と、主たる音源を含まない音声信号を得る。そこで、信号選択部104は、非線形処理部102により出力されたマイクロホン1で観測される音源S3だけを含む音声信号と、主たる音源を含まない音声信号と、マイクロホン2で観測される観測信号との3つの信号を選択して、音源分離部106に入力する。そして、音源分離部106は、音源S3を含まない以下の時間−周波数成分を出力する(S216)。
Figure 2011027825
そして、時間領域変換部110は、音源S3を含まない上記の時間−周波数成分を短時間逆フーリエ変換して、音源3のみを含まない時間波形を得る(S218)。
上記したように、マイクロホン1で観測される音源S3だけを含む音声信号と、主たる音源を含まない音声信号と、マイクロホン2で観測される観測信号との3つの信号が入力された音源分離部106は、ICAを利用して出力信号の独立性が高まるように音源分離処理を行う。したがって、独立性の高い音源S3だけを含む音声信号はそのまま出力される。また、マイクロホン2で観測される観測信号からは音源S3が除去されて出力される。そして、主たる音源を含まない音声信号もそのまま出力されることとなる。このように、非線形処理により独立性の高い音源を含む音声信号を簡易的に分離させておくことにより、独立性の高い音源のみを含まない音声信号を効率的に得ることが可能となる。
次に、図12〜図16を参照して、非線形処理部102における非線形処理の詳細について説明する。図12に示したように、非線形処理部102は、マイク間位相算出手段120、判定手段122、演算手段124、重み算出手段126などを備える。非線形処理部102のマイク間位相算出手段120には、上記した周波数領域変換部101により出力されたマイクロホンにより観測された観測信号のフーリエ変換系列(周波数成分)が入力される。
本実施例においては、入力信号を短時間フーリエ変換した信号を非線形処理の対象とし、周波数成分毎の観測信号について非線形処理が行われるものとする。非線形処理部102における非線形処理では、観測信号において複数の音源が存在する場合に、同時に同じ時間−周波数成分を有することは稀であることを前提としている。そして、周波数成分毎に所定の条件を満たすか否かにより時間−周波数成分に重み付けして信号の抽出を行っている。例えば、所定の条件を満たす時間−周波数成分に対して1の重みを乗じる。また、所定の条件を満たさない時間−周波数成分に対して0に近い重みを乗じる。すなわち、時間−周波数成分毎に、どちらの音源に寄与するかを1または0で判定する。
非線形処理部102は、マイクロホン間の位相差を算出して、算出した位相差から各時間−周波数成分が制御部108から提供される条件を満たすか否か判定する。そして、判定結果に応じて重み付けを行っている。次に、図13を参照して、マイク間位相算出手段120の詳細について説明する。マイク間位相算出手段120は、マイクロホン間の遅延を利用してマイクロホン間の位相を算出する。
マイクロホン間隔に対して十分離れた位置から到来する信号について考える。一般に、図13に示した間隔d離れたマイクロホンで遠方のθ方向から来る信号を受信した場合、以下の遅延時間が生じる。
Figure 2011027825
ここで、τ12は、マイクロホンM_1を基準としたときに、マイクロホンM_2との間に生じる到達遅延時間であり、マイクロホンM_1によりはやく到達する場合に正の値を有する。遅延時間の符合は、到来方向θに依存する。
各時間−周波数成分について考えると、マイクロホン間の周波数成分の比は、マイクロホン間の遅延を利用して、周波数成分毎に以下の式で算出することができる。
Figure 2011027825
ここで、XMi(ω)は、マイクロホンM_i(i=1,2)で観測された信号に対して、周波数変換を行った成分である。実際には、短時間フーリエ変換を行い、その周波数インデックスωの値となる。
次に、判定手段122の詳細について説明する。判定手段122は、マイク間位相算出手段120により提供された値から、各時間−周波数成分が条件を満たしているか否かを判断する。時間−周波数成分毎に、複素数Z(ω)の位相つまり、マイク間位相差は以下の式により算出することができる。
Figure 2011027825
Pの符号は、遅延時間に依存する。つまり、Pの符号はθのみに依存することとなる。よって、0<θ<180から到来する信号(sinθ>0)については、P符号は負となる。一方、−180<θ<0から到来する信号(sinθ)については、P符号は正となる。 したがって、制御部108から、0<θ<180から到来する信号の条件を満たす成分を抽出するように通知された場合、Pの符号が正であれば条件を満たしていることとなる。
上記判定手段122による判定処理を、図14を参照して説明する。図14は、判定手段122による判定処理について説明する説明図である。上記したように、周波数領域変換部101により観測信号が周波数変換されて、マイクロホン間の位相差が算出される。そして、算出されたマイクロホン間の位相差の符号に基づいて各時間−周波数成分がどの領域に起因したものであるのかを判定することができる。例えば、図14に示したように、マイクロホンM_1とマイクロホンM_2との位相差の符号が負であった場合には、時間−周波数成分が領域Aに起因したものであることがわかる。また、マイクロホンM_1とマイクロホンM_2の位相差の符号が正であった場合には、時間−周波数成分が領域Bに起因したものであることがわかる。
次に、演算手段124の詳細について説明する。演算手段124は、判定手段122による判定結果に基づいて、マイクロホンM_1で観測される周波数成分に以下のように重みをつける。この重み付けにより、領域Aに起因する音源スペクトルを抽出することができる。
Figure 2011027825
同様に、領域Bから到来する音源スペクトルは、以下のように抽出することができる。
Figure 2011027825
なお、
Figure 2011027825
は、マイクロホンM_iで観測される領域Xから到来する音源スペクトルの推定値を示す。また、αは0もしくは、0に近い小さい正の値である。
次に、マイクロホンM1〜M3と音源S1〜S3が図10に示した位置関係である場合の位相差について説明する。図15は、第1の実施例における各マイクロホン対に生じる位相差を説明する説明図である。各マイクロホン対に生じる位相差は、以下の数式により定義される。
Figure 2011027825
図15に示すように、位相差の符号を比較することにより、その周波数成分がどの領域から到来しているのかを判定することが可能となる。例えば、マイクロホンM_1とM_2に着目した場合(説明図51)には、位相差P12(ω)が負の場合には、周波数成分が領域A1から到来しているものであると判定することができる。また、位相差P12(ω)が正の場合には、周波数成分が領域B1から到来しているものであると判定することができる。
同様に、マイクロホンM_2とM_3に着目した場合(説明図52)には、位相差P23(ω)が負の場合には、周波数成分が領域A2から到来しているものであると判定することができる。また、位相差P23(ω)が正の場合には、周波数成分が領域B2から到来しているものであると判定することができる。また、マイクロホンM_3とM_1に着目した場合(説明図53)には、位相差P31(ω)が負の場合には、周波数成分が領域A3から到来しているものであると判定することができる。また、位相差P31(ω)が正の場合には、周波数成分が領域B3から到来しているものであると判定することができる。さらに、以下の条件を設けることにより、演算手段124では、以下のような処理を行うことにより、図16に示した説明図55の領域Aに存在する成分を抽出する。
Figure 2011027825
同様に、以下の条件を設けることにより、図16に示した説明図56の領域Bに存在する成分を抽出する。
Figure 2011027825
すなわち、領域Aの周波数成分を抽出することにより、領域Aから到来する音源S3の音声信号を得ることができる。また、領域Bの周波数成分を抽出することにより、音源S1〜S3の独立性に関与しない音声信号を抽出することができる。ここで、領域Bから到来する音源は、各音源の直接音を含まず、弱い残響などを含む成分である。
次に、第1の実施例における信号選択部104の処理の詳細について説明する。信号選択部104は、N_in個の入力に対して、どのように音源分離を行うかに応じて、制御部108から通知される制御情報に基づいて、N_out(≦N_in)の出力信号を選択する。信号選択部104には、周波数領域変換部101により提供される観測信号のフーリエ変換系列(周波数成分)および非線形処理部102により提供される時間−周波数系列が入力される。信号選択部104は、制御部108による指示のもと、必要な信号を選択して、音源分離部106に提供する。
第1の実施例では、制御部108による制御のもと、図10に示した音源S3だけを含まない信号を得ることを目的としている。したがって、信号選択部104は、音源分離部106に入力されるべき信号を選択する必要がある。音源分離部106に入力されるべき信号は、少なくとも、音源S3のみを含む信号と、すべての音源S1〜S3を含む信号である。また、第1の実施例では、音源分離部106に3つの音源が入力されるため、信号選択部104は、さらに、音源S1〜S3のいずれも含まない信号を選択する必要がある。
信号選択部104に入力される信号は、各マイクロホン(3個)において観測された信号と、非線形処理部102により出力された各領域からそれぞれ到来する信号である。信号選択部104は、非線形処理部102により出力された信号のうち、音源S3のみが存在する領域(図16の領域A)から到来する信号と、音源S1〜S3のいずれも存在しない領域(図16の領域B)から到来する信号とを選択する。さらに、マイクロホンにより観測された音源S1〜S3の混合音声を含む信号を選択する。
信号選択部104により選択された上記3つの信号が、音源分離部106に入力される。そして、音源分離部106により、領域Aから到来する信号(音源S3のみの成分)と、領域Bから到来する信号(音源S1〜S3のいずれも含まない成分)と、領域Aと領域Bから到来する成分を含まない信号(音源3を含まない信号)が出力される。これにより、目的としている領域Aに存在する音源S3を含まない信号を得る。
〔4−2〕第2の実施例
次に、図17および図18を参照して、音源の個数がマイクロホンの個数より多い場合(N>M)について説明する。具体的には、音源の個数Nが3つ、マイクロホンの個数Mが2つの場合である。第2の実施例においても、第1の実施例と同様の音声処理装置100aにより音声処理が行われる。図17は、2つのマイクロホン(M2、M3)と3つの音源(S1〜S3)の位置関係を示した説明図である。第2の実施例においては、第1の実施例と同様に、3つの音源のうち、音源S3が独立性の高い特定の音源であるとする。すなわち、音源S3は、他の音源S1やS2よりも大きい音であるなど支配的な音源である。第2の実施例においても、音源S1〜S3を含む音声信号から、特定の音源である音源S3の音声信号を除去することを目的とする。
次に図18を参照して、第2の実施例における音声処理方法について説明する。まず、周波数領域変換部101は、マイクロホンにより観測された観測信号を短時間フーリエ変換することにより、以下の時間−周波数系列を得る(S302)。
Figure 2011027825
次に、ステップS302において取得した時間−周波数系列の各時間−周波数成分の位相差を算出したか否かを判定する(S304)。ステップS304において、各時間−周波数成分の位相差を算出していないと判定された場合には、ステップS306の処理を行う。ステップS304において各時間−周波数成分の位相差を算出したと判定された場合には、処理を終了する。ステップS304において各時間−周波数成分の位相差を算出していないと判定された場合には、ステップS302において取得した時間−周波数成分に対して以下の位相差を算出する。
Figure 2011027825
次に、マイクロホン対の位相差が以下の条件式3を満たすか否か判定する(S308)。
Figure 2011027825
ステップS308において、マイクロホン対の位相差が条件式3を満たしていると判定された場合には、マイクロホン2で観測される音源S3の時間−周波数成分を以下の数式により取得する(S310)。
Figure 2011027825
ここで、マイクロホンiで観測される音源jだけを含む時間−周波数成分を以下の数式により表記する。
Figure 2011027825
本実施例では、図17に示したような音源とマイクの位置関係となっており、音源S3は独立性の高い音源である。このため、ステップS310においては、マイクロホン2で観測される観測信号に非線形処理を施すことにより、音源S3のみの時間−周波数成分(音声信号))を得ることができる。そして、音源分離部106は、以下の成分に対して分離処理を行う(S312)。
Figure 2011027825
上記した非線形処理により、マイクロホン2で観測される音源S3だけを含む音声信号を得る。そこで、信号選択部104は、非線形処理部102により出力されたマイクロホン_M2で観測される音源S3だけを含む音声信号と、マイクロホン_M3で観測される観測信号との2つの信号を選択して、音源分離部106に入力する。そして、音源分離部106は、音源S3を含まない以下の時間−周波数成分を出力する(S314)。
Figure 2011027825
そして、時間領域変換部110は、音源S3を含まない上記の時間−周波数成分を短時間逆フーリエ変換して、音源3のみを含まない時間波形を得る(S316)。
上記したように、マイクロホン2で観測される音源S3だけを含む音声信号と、マイクロホン3で観測される観測信号との2つの信号が入力された音源分離部106は、ICAを利用して出力信号の独立性が高まるように音源分離処理を行う。したがって、独立性の高い音源S3だけを含む音声信号はそのまま出力される。また、マイクロホン3で観測される観測信号からは音源S3が除去されて出力される。このように、非線形処理により独立性の高い音源を含む音声信号を簡易的に分離させておくことにより、独立性の高い音源のみを含まない音声信号を効率的に得ることが可能となる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、点音源に近似できる音源について音声処理を行ったが、拡散雑音下においても本発明にかかる音声処理装置100を利用することができる。例えば、拡散雑音下において、例えば、スペクトルサブトラクションのような非線形処理をあらかじめおこなって雑音を低減する。そして、雑音を低減した信号に対して、ICAを利用した音源分離処理を行うことにより、ICAの分離性能を向上することが可能となる。
また、図19に示したように、エコーキャンセラーとして本発明の音声処理装置100を利用してもよい。例えば、エコーキャンセラーとして音声処理装置100を利用する場合には、あらかじめ除去したい音源が既知である場合である。この場合、除去すべき音源を抽出して音源分離部106に入力することにより、ICAの分離性能を向上することが可能となる。
例えば、本明細書の音声処理装置100の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。すなわち、音声処理装置100の処理における各ステップは、異なる処理であっても並列的に実行されてもよい。また、音声処理装置100に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した音声処理装置100の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
100、100a 音声処理装置
101 周波数領域変換部
102 非線形処理部
104 信号選択部
106 音源分離部
108 制御部
110 時間領域変換部
120 マイク間位相算出手段
122 判定手段
124 演算手段
126 重み算出手段

Claims (11)

  1. 複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力する非線形処理部と、
    前記非線形処理部により出力された複数の音声信号から特定の音源を含む音声信号と、前記複数の音源を含む前記観測信号とを選択する信号選択部と、
    前記信号選択部により選択された前記観測信号から、前記信号選択部により選択された前記特定の音源を含む音声信号を分離する音声分離部と、
    を備える、音声処理装置。
  2. 複数の音源から発生して複数のセンサにより観測された複数の観測信号を周波数領域の信号値に変換する周波数領域変換部を備え、
    前記非線形処理部は、前記周波数領域変換部により変換された観測信号値に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力することを特徴とする、請求項1に記載の音声処理装置。
  3. 前記複数のセンサにより観測される複数の音源には、独立性の高い特定の音源が含まれており、
    前記非線形処理部は、前記独立性の高い特定の音源の音声成分を示す音声信号を出力し、
    前記信号選択部は、前記非線形処理部により出力された前記特定の音源の音声成分を示す音声信号と、前記複数の観測信号のうち、前記特定の音源および前記特定の音源以外の音源を含む観測信号とを選択し、
    前記音声分離部は、前記信号選択部により選択された前記観測信号から、前記特定の音源の音声成分を除去する、請求項1に記載の音声処理装置。
  4. 前記非線形処理部は、前記第1の音源が発生している領域に存在する音声成分を示す音声信号を出力し、
    前記信号選択部は、前記非線形処理部により出力された前記第1の音源が発生している領域に存在する音声成分を示す音声信号と、前記複数の観測信号のうち、前記第1の音源および前記第1の音源以外の音源が発生している領域に位置するセンサにより観測される第2の音源を含む観測信号とを選択し、
    前記音声分離部は、前記信号選択部により選択された前記第2の音源を含む観測信号から、前記第1の音源の音声成分を除去する、請求項1に記載の音声処理装置。
  5. 前記非線形処理部は、
    前記複数のセンサ間の位相差を時間−周波数成分毎に算出する位相算出手段と、
    前記位相算出手段により算出された前記複数のセンサ間の位相差に基づいて、各時間−周波数成分が起因している領域を判定する判定手段と、
    前記判定手段による判定結果に基づいて、前記センサにより観測される周波数成分に所定の重み付けを行う演算手段と、
    を備える、請求項1に記載の音声処理装置。
  6. 前記位相算出手段は、センサ間の遅延を利用してセンサ間の位相を算出する、請求項5に記載の音声処理装置。
  7. 前記複数の観測信号は、前記複数のセンサの個数分観測され、
    前記信号選択部は、前記非線形処理部により出力された複数の音声信号から、1つの観測信号と合計して前記複数のセンサの個数分となる個数分の前記音声信号を選択する、請求項1に記載の音声処理装置。
  8. 前記非線形処理部は、独立性の高い特定の音源を含む3つの音源から発生して3つのセンサにより観測される3つの観測信号に非線形処理を施すことにより、前記独立性の高い特定の音源の音声成分を示す第1の音声信号と、前記3つの音源の音声成分のいずれも含まない第2の音声信号とを出力し、
    前記信号選択部は、前記非線形処理部により出力された前記第1の音声信号と前記第2の音声信号と、前記特定の音源と前記特定の音源以外の音源を含む前記観測信号とを選択し、
    前記音声分離部は、前記信号選択部により選択された前記観測信号から、前記第1の音源の音声成分を除去する、請求項1に記載の音声処理装置。
  9. 前記非線形処理部は、独立性の高い特定の音源を含む3つの音源から発生して2つのセンサにより観測される2つの観測信号に非線形処理を施すことにより、前記独立性の高い特定の音源の音声成分を示す音声信号を出力し、
    前記信号選択部は、前記非線形処理部により出力された前記音声信号と、前記特定の音源と前記特定の音源以外の音源を含む観測信号とを選択し、
    前記音声分離部は、前記信号選択部により選択された前記観測信号から、前記第1の音源の音声成分を除去する、請求項1に記載の音声処理装置。
  10. 複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力するステップと、
    前記非線形処理により出力された複数の音声信号から特定の音源を含む音声信号と、前記複数の音源を含む前記観測信号とを選択するステップと、
    前記選択された前記観測信号から、前記信号選択部により選択された前記特定の音源を含む音声信号を分離するステップと、
    を含む、音声処理方法。
  11. コンピュータをして、
    複数の音源から発生して複数のセンサにより観測された複数の観測信号に非線形処理を施すことにより、所定の領域に存在する音源を含む複数の音声信号を出力する非線形処理部と、
    前記非線形処理部により出力された複数の音声信号から特定の音源を含む音声信号と、前記複数の音源を含む前記観測信号とを選択する信号選択部と、
    前記信号選択部により選択された前記観測信号から、前記信号選択部により選択された前記特定の音源を含む音声信号を分離する音声分離部と、
    を備える、音声処理装置として機能させるための、プログラム。
JP2009171054A 2009-07-22 2009-07-22 音声処理装置、音声処理方法およびプログラム Expired - Fee Related JP5375400B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009171054A JP5375400B2 (ja) 2009-07-22 2009-07-22 音声処理装置、音声処理方法およびプログラム
US12/835,976 US9418678B2 (en) 2009-07-22 2010-07-14 Sound processing device, sound processing method, and program
CN2010102340090A CN101964192B (zh) 2009-07-22 2010-07-15 声音处理设备和声音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009171054A JP5375400B2 (ja) 2009-07-22 2009-07-22 音声処理装置、音声処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011027825A true JP2011027825A (ja) 2011-02-10
JP5375400B2 JP5375400B2 (ja) 2013-12-25

Family

ID=43498056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009171054A Expired - Fee Related JP5375400B2 (ja) 2009-07-22 2009-07-22 音声処理装置、音声処理方法およびプログラム

Country Status (3)

Country Link
US (1) US9418678B2 (ja)
JP (1) JP5375400B2 (ja)
CN (1) CN101964192B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092529A (ja) * 2014-10-31 2016-05-23 パナソニックIpマネジメント株式会社 音声伝達システム及び音声伝達方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
CN103165137B (zh) * 2011-12-19 2015-05-06 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US10388297B2 (en) 2014-09-10 2019-08-20 Harman International Industries, Incorporated Techniques for generating multiple listening environments via auditory devices
CN105848062B (zh) * 2015-01-12 2018-01-05 芋头科技(杭州)有限公司 多声道的数字麦克风
WO2016152511A1 (ja) * 2015-03-23 2016-09-29 ソニー株式会社 音源分離装置および方法、並びにプログラム
WO2017056288A1 (ja) * 2015-10-01 2017-04-06 三菱電機株式会社 音響信号処理装置、音響処理方法、監視装置および監視方法
JP6472823B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および属性付与装置
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
CN107564539B (zh) * 2017-08-29 2021-12-28 苏州奇梦者网络科技有限公司 面向麦克风阵列的声学回声消除方法及装置
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
CN108198570B (zh) * 2018-02-02 2020-10-23 北京云知声信息技术有限公司 审讯时语音分离的方法及装置
CN110097872B (zh) * 2019-04-30 2021-07-30 维沃移动通信有限公司 一种音频处理方法及电子设备
CN110992977B (zh) * 2019-12-03 2021-06-22 北京声智科技有限公司 一种目标声源的提取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP2004069772A (ja) * 2002-08-01 2004-03-04 Denso Corp 雑音除去装置、及び、音声認識装置、並びに音声通信装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007096418A (ja) * 2005-09-27 2007-04-12 Chubu Electric Power Co Inc 複数音源の分離方法
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
WO1998058450A1 (en) * 1997-06-18 1998-12-23 Clarity, L.L.C. Methods and apparatus for blind signal separation
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
CN100392723C (zh) * 2002-12-11 2008-06-04 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP4675177B2 (ja) * 2005-07-26 2011-04-20 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP2007156300A (ja) * 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
EP2115743A1 (en) * 2007-02-26 2009-11-11 QUALCOMM Incorporated Systems, methods, and apparatus for signal separation
JP4897519B2 (ja) * 2007-03-05 2012-03-14 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
US20080267423A1 (en) * 2007-04-26 2008-10-30 Kabushiki Kaisha Kobe Seiko Sho Object sound extraction apparatus and object sound extraction method
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
JP5195652B2 (ja) * 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
KR101280253B1 (ko) * 2008-12-22 2013-07-05 한국전자통신연구원 음원 분리 방법 및 그 장치
US8694306B1 (en) * 2012-05-04 2014-04-08 Kaonyx Labs LLC Systems and methods for source signal separation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP2004069772A (ja) * 2002-08-01 2004-03-04 Denso Corp 雑音除去装置、及び、音声認識装置、並びに音声通信装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006154314A (ja) * 2004-11-29 2006-06-15 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2007096418A (ja) * 2005-09-27 2007-04-12 Chubu Electric Power Co Inc 複数音源の分離方法
JP2008252587A (ja) * 2007-03-30 2008-10-16 Mega Chips Corp 信号処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200301446007; 猿渡洋: '"音声・音響信号を対象としたブラインド音源分離"' 電子情報通信学会技術研究報告 Vol.101,No.669, 200202, pp.59-66 *
CSNG200600845125; 荒木章子他: '"時間周波数マスキングとICAの併用による音源数>マスク数の場合のブラインド音源分離"' 日本音響学会2003年秋季研究発表会講演論文集-I- , 200309, pp.587-588 *
JPN6013014516; 荒木章子他: '"時間周波数マスキングとICAの併用による音源数>マスク数の場合のブラインド音源分離"' 日本音響学会2003年秋季研究発表会講演論文集-I- , 200309, pp.587-588 *
JPN6013014518; 猿渡洋: '"音声・音響信号を対象としたブラインド音源分離"' 電子情報通信学会技術研究報告 Vol.101,No.669, 200202, pp.59-66 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016092529A (ja) * 2014-10-31 2016-05-23 パナソニックIpマネジメント株式会社 音声伝達システム及び音声伝達方法

Also Published As

Publication number Publication date
JP5375400B2 (ja) 2013-12-25
US9418678B2 (en) 2016-08-16
CN101964192B (zh) 2013-03-27
US20110022361A1 (en) 2011-01-27
CN101964192A (zh) 2011-02-02

Similar Documents

Publication Publication Date Title
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
JP6279181B2 (ja) 音響信号強調装置
TWI738532B (zh) 具多麥克風之語音增強裝置及方法
JP2007183306A (ja) 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
EP2191467A1 (en) Speech enhancement
JP6349112B2 (ja) サウンドマスキング装置、方法及びプログラム
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN104205212A (zh) 听觉场景中的讲话者冲突
JPWO2009020001A1 (ja) 音声ミキシング装置およびその雑音抑圧方法、ならびにプログラム
WO2012105386A1 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2017037830A1 (ja) 音声認識装置および音声認識処理方法
JP2009134102A (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP5971646B2 (ja) 多チャネル信号処理装置、方法、及びプログラム
JP2005258158A (ja) ノイズ除去装置
JP2010026323A (ja) 話速検出装置
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP2010239424A (ja) 雑音抑圧方法、装置およびプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP6524463B2 (ja) 自動ミキシング装置およびプログラム
JP5113096B2 (ja) 音源分離方法、装置およびプログラム
EP3513573B1 (en) A method, apparatus and computer program for processing audio signals
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
JP2006323134A (ja) 信号抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130909

R151 Written notification of patent or utility model registration

Ref document number: 5375400

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees