JP4594629B2

JP4594629B2 - 音源分離方法およびそのシステム

Info

Publication number: JP4594629B2
Application number: JP2004043719A
Authority: JP
Inventors: 哲則小林
Original assignee: Waseda University
Current assignee: Waseda University
Priority date: 2004-02-19
Filing date: 2004-02-19
Publication date: 2010-12-08
Anticipated expiration: 2024-02-19
Also published as: JP2005234246A

Description

本発明は、目的音と雑音とを分離する音源分離方法およびそのシステムに係り、例えば、ロボット頭部の左右両側の側面に設置したマイクロホンによるハンズフリー音声認識を行う場合等に利用できる。

通常の音声認識では、口元で発話した音声を接話型マイクロホンにより収録し、認識処理を行う。しかし、ロボットとの対話、カーナビゲーションシステム等の車載機器についての音声による操作、会議の議事録作成等、接話型マイクロホンの利用をユーザに課すことが不自然となる用途も多い。このような用途においては、システム側に設置したマイクロホンにより音声を収録し、認識処理することが望まれる。

この問題に対し、各マイクロホンと音源との位置関係の相違によって生じる、各マイクロホンに到達する音圧の差を利用して音を分離する、ＳＡＦＩＡと呼ばれる手法が提案されている（特許文献１参照）。このＳＡＦＩＡと呼ばれる手法は、複数の固定マイクロホンの出力信号を狭帯域スペクトル分析し、周波数帯域毎に最も大きなパワーを与えたマイクロホンにその周波数帯域の音を割り当てる帯域選択（Band Selection）による音の分離技術である（後述する図３参照）。

特許第３３５５５９８号掲載公報（段落［０００６］、［０００７］、図１、要約）

しかしながら、前述したＳＡＦＩＡでは、２つの音が重なった状況において、よく両者を分離することができるが、音源が３つ以上となると、理論的には分離可能とされているものの、分離性能は極端に劣化する。従って、複数の雑音源が存在する状況下で、これらの複数の雑音から目的音を精度よく分離することは困難である。

本発明の目的は、複数の雑音から目的音を精度よく分離することができる音源分離方法およびそのシステムを提供するところにある。

本発明は、目的音と雑音とを分離する音源分離方法であって、目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に遮音体を配置し、この遮音体の第１空間側に設けられた第１受音装置により、目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第１空間側主方向およびこの第１空間側主方向よりも目的音の到来方向に対して大きな角度をなす第１空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行い、これと並行して、遮音体の第２空間側に設けられた第２受音装置により、目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第２空間側主方向およびこの第２空間側主方向よりも目的音の到来方向に対して大きな角度をなす第２空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行った後、第１階層処理として、第２受音装置で第２空間側主方向に指向性を向けて得られたスペクトルと第１受音装置で第１空間側副方向に指向性を向けて得られたスペクトルとを用いて、第１空間側の雑音とそれ以外の音とを分離する第１空間側雑音分離処理を行うとともに、第１受音装置で第１空間側主方向に指向性を向けて得られたスペクトルと第２受音装置で第２空間側副方向に指向性を向けて得られたスペクトルとを用いて、第２空間側の雑音とそれ以外の音とを分離する第２空間側雑音分離処理を行い、続いて、第２階層処理として、第１階層処理としての第１空間側雑音分離処理で分離された第１空間側の雑音のスペクトルと第２空間側雑音分離処理で分離された第２空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第１の目的音分離処理、および／または第１階層処理手段としての第２空間側雑音分離処理で分離された第２空間側の雑音のスペクトルと第１空間側雑音分離処理で分離された第１空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第２の目的音分離処理を行うことを特徴とするものである。

ここで、「２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う」ことには、異なる方向に向けられた２つの指向性マイクロホン（いわゆる固定マイクロホンであるが、遮音体に対して固定設置されているもの、および首振り可能に設置されているもののいずれも含む。）で受音した各信号について、それぞれ周波数解析を行うことの他、例えば、マイクロホンアレー装置を構成する複数の無指向性または指向性マイクロホンの各出力信号を用いて２つの指向性を形成する指向特性制御を行うとともにこれらの指向特性制御を行って得られた各信号について周波数解析を行うこと等が含まれる。

なお、後者のマイクロホンアレーによる指向特性制御の技術は、公知の技術であり、例えば、遅延和アレー（Delayed Sum Array、またはBeam-Forming）による指向特性制御に関する技術、あるいはＤＣＭＰ（Directionally Constrained Minimization of Power）アダプティブアレーによる指向特性制御に関する技術等がある。

また、「指向性を形成」することには、遮音体の存在を利用して指向性を形成することが含まれ、例えば、「第１空間側副方向」および／または「第２空間側副方向」の「指向性を形成」することには、マイクロホン自体には無指向性マイクロホンを用いるが、遮音体を配置して遮音体を挟んで反対の空間側からの音を受音しにくい状態にする一方、その無指向性マイクロホンが設置された空間側からの音を受音し易い状態にすることにより、その無指向性マイクロホンが設置された空間側に向けられた指向性を形成することが含まれる。

そして、「２方向に指向性を形成して受音する」という意味は、受音以降に階層的に行われる音源分離処理で有効に活用される受音信号を得るために形成される指向性が２方向であることを意味する。従って、例えば、３つ以上の指向性マイクロホンを設置し、そのうちの２つの指向性マイクロホンの出力信号を選択的に用いて以降の階層的な音源分離処理を行う場合、あるいは３つ以上の指向性マイクロホンの出力信号を全て用いるものの、実質的に２つの指向性マイクロホンの出力信号しか有効に機能していない場合には、結局、有効な指向性マイクロホンは、２つであることから、本発明に含まれるものである。また、マイクロホンアレー装置により３方向以上に向けた指向特性制御を行う場合も同様であり、３方向以上に向けた指向特性制御を行って得られた出力信号のうちの２つの出力信号を選択的に用いて以降の階層的な音源分離処理を行う場合等は、本発明に含まれるものである。

また、「第１空間側副方向」および／または「第２空間側副方向」は、必ずしも固定された方向である必要はなく、例えば、雑音の方向が既知である場合には、雑音に向けて指向性を形成してもよい。つまり、第１空間側副方向および／または第２空間側副方向を、雑音の到来方向と一致または略一致する方向としてもよい。

さらに、「目的音の到来方向に対して小さな角度をなす」とは、目的音の到来方向に対して第１空間側主方向が第１空間側副方向よりも相対的に小さな角度をなすこと、および目的音の到来方向に対して第２空間側主方向が第２空間側副方向よりも相対的に小さな角度をなすことを意味する。同様に、「目的音の到来方向に対して大きな角度をなす」とは、目的音の到来方向に対して第１空間側副方向が第１空間側主方向よりも相対的に大きな角度をなすこと、および目的音の到来方向に対して第２空間側副方向が第２空間側主方向よりも相対的に大きな角度をなすことを意味する。

そして、「第１空間側主方向」および「第２空間側主方向」は、目的音の分離精度向上の観点から、目的音の到来方向に一致または略一致する方向とすることが好ましく、また、一致または略一致する方向としない場合であっても、これらの方向は、各階層で並行して（対になって）行われる処理で同等な分離効果を得るという観点から、遮音体を挟んで面対称な方向とすることが好ましい。

また、「第１空間側副方向」と「第２空間側副方向」とは、必ずしも遮音体を挟んで面対称な方向とする必要はないが、各階層で並行して（対になって）行われる処理で同等な分離効果を得るという観点からは、遮音体を挟んで面対称な方向とすることが好ましい。

このような本発明の音源分離方法においては、遮音体を挟む状態で、第１受音装置および第２受音装置を設置し、これらの第１および第２受音装置のそれぞれにおいて、２方向に指向性を形成して受音する。このため、遮音体の存在および４つの指向性の形成により、４方向に指向性を向けて得られる各スペクトルは、目的音のスペクトルと第１空間側の雑音のスペクトルと第２空間側の雑音のスペクトルとについて異なる状態で優劣が付けられた混成スペクトルとなる。

すなわち、第１空間側主方向に指向性を向けて得られるスペクトルは、目的音のスペクトルと第１空間側の雑音のスペクトルとが優位であるのに対し、第２空間側の雑音のスペクトルが劣勢である。第１空間側副方向に指向性を向けて得られるスペクトルは、第１空間側の雑音のスペクトルが優位であるのに対し、目的音のスペクトルと第２空間側の雑音のスペクトルとが劣勢である。また、第２空間側主方向に指向性を向けて得られるスペクトルは、目的音のスペクトルと第２空間側の雑音のスペクトルとが優位であるのに対し、第１空間側の雑音のスペクトルが劣勢である。第２空間側副方向に指向性を向けて得られるスペクトルは、第２空間側の雑音のスペクトルが優位であるのに対し、目的音のスペクトルと第１空間側の雑音のスペクトルとが劣勢である。

従って、これらの４方向に指向性を向けて得られた４つのスペクトルを用いて、第１階層処理および第２階層処理を行うことにより、目的音に対し、第１空間側および第２空間側に雑音が存在する状況下においても、目的音を精度よく分離することが可能となり、これにより前記目的が達成される。

また、前述した音源分離方法において、第２階層処理として、第１および第２の目的音分離処理の双方を行い、その後、第３階層処理として、第２階層処理としての第１の目的音分離処理で分離された目的音のスペクトルと第２の目的音分離処理で分離された目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを目的音のスペクトルとして帰属させることによりスペクトル統合処理を行うことが望ましい。

ここで、「加算する」ことには、加算して得られた信号値に比例係数を乗じる場合（例えば、加算して１／２を乗じる場合等）も含まれる。

このように第３階層処理としてスペクトル統合処理を行うようにした場合には、第２階層処理としての第１または第２の目的音分離処理で得られる目的音に比べ、より一層分離精度の高い目的音が得られる。

すなわち、得られた２つの信号を加算する方法（以下、アディション：Additionという。）については、加算することにより、目的音のみを強調することが可能となる。

また、得られたスペクトルに対し、周波数帯域毎に、劣勢な方のパワーを目的音のスペクトルとして帰属させる方法（以下、ミニマイゼーション：Minimizationという。）については、第２階層処理までで得られた目的音のスペクトルには、第２階層処理でも除去しきれない残差雑音が含まれるため、第１空間側および第２空間側の雑音の影響が残っている可能性がある。このため、第２階層処理までで得られる目的音のスペクトルは、本来、目的音に含まれるスペクトルよりも大きな値で観測される可能性が高い。従って、周波数帯域毎に、パワーの小さい方を、分離して得られる目的音に帰属させることで、第１空間側および第２空間側の雑音の影響を除くことが可能となる。

なお、後述する実験結果（図６参照）に示す如く、加算するスペクトル統合処理（Addition）よりも、劣勢な方のパワーを目的音のスペクトルとして帰属させるスペクトル統合処理（Minimization）の方が、より高い分離精度を得られるという点で好ましい。

さらに、前述した音源分離方法において、第１階層処理としての第１空間側雑音分離処理および第２空間側雑音分離処理は、２つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理とすることができる。

このように第１階層処理として帯域選択を行うようにした場合（いわゆるＳＡＦＩＡの技術を利用して音源分離を行う場合）には、比較的簡易な処理で効果的な分離を行うことが可能となる。

そして、前述した音源分離方法において、第２階層処理としての第１の目的音分離処理は、第１階層処理としての第２空間側雑音分離処理で分離された第２空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第１空間側雑音分離処理で分離された第１空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、第２階層処理としての第２の目的音分離処理は、第１階層処理としての第１空間側雑音分離処理で分離された第１空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第２空間側雑音分離処理で分離された第２空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であることが望ましい。

このように第２階層処理としてスペクトラル・サブトラクション（ＳＳ：Spectral Subtraction）を行うようにした場合には、高い精度での目的音の分離が実現される。

また、前述した音源分離方法において、第２階層処理としての第１および第２の目的音分離処理は、２つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理としてもよい。

このように第２階層処理として帯域選択を行うようにした場合（いわゆるＳＡＦＩＡの技術を利用して音源分離を行う場合）でも、高い精度での目的音の分離が実現される。但し、後述する実験結果（図６参照）に示す如く、第２階層処理としてスペクトラル・サブトラクションを行った場合の方が、高い分離精度が得られるという点で好ましい。

さらに、以上に述べた音源分離方法において、第１空間側主方向および第１空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを用いて第１受音装置を構成し、第２空間側主方向および第２空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを用いて第２受音装置を構成することが望ましい。

このように４つの指向性マイクロホンを用いて受音するようにした場合は、簡易な構成で高い精度の音源分離を実現できるので、設備コストの低減が図られる。

そして、以上に述べた音源分離方法において、第１空間側主方向および第２空間側主方向は、目的音の到来方向と一致または略一致する方向であり、第１空間側副方向および第２空間側副方向は、目的音の到来方向と直交または略直交する方向であることが望ましい。

このように４方向を目的音の到来方向と一致または略一致する方向、並びに直交または略直交する方向にして受音した場合には、雑音の方向が不明なときでも、効果的に受音および音源分離を行うことが可能となる。

また、以上に述べた本発明の音源分離方法を実現するシステムとして、以下のような本発明の音源分離システムが挙げられる。

すなわち、本発明は、目的音と雑音とを分離する音源分離システムであって、目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に配置される遮音体と、この遮音体の第１空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第１空間側主方向およびこの第１空間側主方向よりも目的音の到来方向に対して大きな角度をなす第１空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第１受音装置と、遮音体の第２空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第２空間側主方向およびこの第２空間側主方向よりも目的音の到来方向に対して大きな角度をなす第２空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第２受音装置と、第２受音装置で第２空間側主方向に指向性を向けて得られたスペクトルと第１受音装置で第１空間側副方向に指向性を向けて得られたスペクトルとを用いて、第１空間側の雑音とそれ以外の音とを分離する第１空間側雑音分離処理を行うとともに、第１受音装置で第１空間側主方向に指向性を向けて得られたスペクトルと第２受音装置で第２空間側副方向に指向性を向けて得られたスペクトルとを用いて、第２空間側の雑音とそれ以外の音とを分離する第２空間側雑音分離処理を行う第１階層処理手段と、この第１階層処理手段による第１空間側雑音分離処理で分離された第１空間側の雑音のスペクトルと第２空間側雑音分離処理で分離された第２空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第１の目的音分離処理、および／または第１階層処理手段による第２空間側雑音分離処理で分離された第２空間側の雑音のスペクトルと第１空間側雑音分離処理で分離された第１空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第２の目的音分離処理を行う第２階層処理手段とを備えたことを特徴とするものである。

このような本発明の音源分離システムにおいては、前述した本発明の音源分離方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。

また、前述した音源分離システムにおいて、第２階層処理手段は、第１および第２の目的音分離処理の双方を行う構成とされ、第２階層処理手段による第１の目的音分離処理で分離された目的音のスペクトルと第２の目的音分離処理で分離された目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う第３階層処理手段を備えた構成とすることが望ましい。

さらに、前述した音源分離システムにおいて、第１階層処理手段による第１空間側雑音分離処理および第２空間側雑音分離処理は、２つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理とすることができる。

そして、前述した音源分離システムにおいて、第２階層処理手段による第１の目的音分離処理は、第１階層処理手段による第２空間側雑音分離処理で分離された第２空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第１空間側雑音分離処理で分離された第１空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、第２階層処理手段による第２の目的音分離処理は、第１階層処理手段による第１空間側雑音分離処理で分離された第１空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第２空間側雑音分離処理で分離された第２空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であることが望ましい。

また、前述した音源分離システムにおいて、第２階層処理手段による第１および第２の目的音分離処理は、２つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理としてもよい。

さらに、以上に述べた音源分離システムにおいて、第１受音装置は、第１空間側主方向および第１空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを含んで構成され、第２受音装置は、第２空間側主方向および第２空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを含んで構成されていることが望ましい。

そして、以上に述べた音源分離システムにおいて、第１空間側主方向および第２空間側主方向は、目的音の到来方向と一致または略一致する方向であり、第１空間側副方向および第２空間側副方向は、目的音の到来方向と直交または略直交する方向であることが望ましい。

また、本発明は、目的音と雑音とを分離する音源分離システムであって、目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に配置される遮音体と、この遮音体の第１空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第１空間側主方向およびこの第１空間側主方向よりも目的音の到来方向に対して大きな角度をなす第１空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第１受音装置と、遮音体の第２空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第２空間側主方向およびこの第２空間側主方向よりも目的音の到来方向に対して大きな角度をなす第２空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第２受音装置とを備えたことを特徴とするものである。

なお、上記のような遮音体と第１受音装置と第２受音装置とを備えた音源分離システムを構成する場合において、前述した第１階層処理と第２階層処理とをまとめて同時に実現する処理を行うようにしてもよい。

以上に述べたように本発明によれば、遮音体を挟む状態で、第１受音装置および第２受音装置を設置し、これらの第１および第２受音装置のそれぞれにおいて、２方向に指向性を形成して受音するので、４方向に指向性を向けて得られる各スペクトルは、目的音のスペクトルと第１空間側の雑音のスペクトルと第２空間側の雑音のスペクトルとについて異なる状態で優劣が付けられた混成スペクトルとなるため、これらの４つのスペクトルを用いて階層的な音源分離処理を行うことにより、複数の雑音から目的音を精度よく分離することができるという効果がある。

以下に本発明の一実施形態について図面を参照して説明する。図１には、本実施形態の音源分離システム１０の全体構成が示されている。図２には、音源分離システム１０の一部の詳細構成が示されている。図３は、音源分離システム１０による第１階層処理で行われる帯域選択の処理（ＳＡＦＩＡ）の説明図である。

図１および図２において、音源分離システム１０は、目的音と雑音とを分離する処理を行うシステムであり、目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に配置される遮音体であるロボット頭部２０と、第１空間側に設けられた第１受音装置３０と、第２空間側に設けられた第２受音装置４０と、これらの第１受音装置３０および第２受音装置４０による受音信号を用いて階層的に音源分離処理を行う第１階層処理手段５０、第２階層処理手段６０、および第３階層処理手段７０とを備えている。

ここで、本発明における遮音体は、遮音機能を有する物体であれば、形状、大きさ、用途等は問わないが、本実施形態では、一例としてロボット頭部２０であるものとして説明を行う。従って、本実施形態では、第１空間は、ロボット頭部２０の右側空間であり、第２空間は、ロボット頭部２０の左側空間である。また、本実施形態では、目的音は、ロボット頭部２０の前方（真正面）の方向にある音源Ｓ_Cから発せられる音（以下、目的音も、その音源Ｓ_Cと符号を区別することなく、目的音Ｓ_Cで示す。）であり、第１空間側の雑音は、右側空間側の音源Ｓ_Rから発せられる音（以下、第１空間側の雑音も、その音源Ｓ_Rと符号を区別することなく、雑音Ｓ_Rで示す。）であり、第２空間側の雑音は、左側空間側の音源Ｓ_Lから発せられる音（以下、第２空間側の雑音も、その音源Ｓ_Lと符号を区別することなく、雑音Ｓ_Lで示す。）である。

第１受音装置３０は、図２に示すように、目的音Ｓ_Cの到来方向に一致または略一致する方向（本発明における第１空間側主方向）に向けられた指向性マイクロホン３１（右側：Rightに設けられて前方：Frontに向けられているという意味で、図中でＲＦ−Ｍｉｃと記載されている。）と、目的音Ｓ_Cの到来方向に直交または略直交する方向（本発明における第１空間側副方向）に向けられた指向性マイクロホン３２（右側：Rightに設けられて右方：Rightに向けられているという意味で、図中でＲＲ−Ｍｉｃと記載されている。）と、これらの指向性マイクロホン３１，３２の各出力信号の周波数解析を行う周波数解析手段３３，３４とを備えている。

第２受音装置４０は、図２に示すように、目的音Ｓ_Cの到来方向に一致または略一致する方向（本発明における第２空間側主方向）に向けられた指向性マイクロホン４１（左側：Leftに設けられて前方：Frontに向けられているという意味で、図中でＬＦ−Ｍｉｃと記載されている。）と、目的音Ｓ_Cの到来方向に直交または略直交する方向（本発明における第２空間側副方向）に向けられた指向性マイクロホン４２（左側：Leftに設けられて左方：Leftに向けられているという意味で、図中でＬＬ−Ｍｉｃと記載されている。）と、これらの指向性マイクロホン４１，４２の各出力信号の周波数解析を行う周波数解析手段４３，４４とを備えている。

各周波数解析手段３３，３４，４３，４４により行う周波数解析には、例えば、高速フーリエ変換（ＦＦＴ：First Fourier Transform）や一般化調和解析（ＧＨＡ：Generalized Harmonic Analysis）等を採用することができる。なお、これらの周波数解析手段３３，３４，４３，４４は、説明の便宜上、４つに分けて記載されているが、実際には、一台のコンピュータ（アナライザを含む。）あるいは一つの中央演算処理装置（ＣＰＵ）で実現することができる。また、第１受音装置３０の周波数解析手段３３，３４と第２受音装置４０の周波数解析手段４３，４４とは、図示の如く第１空間側と第２空間側とに分けて設けられている必要はなく、あくまでも受音部である指向性マイクロホン３１，３２と指向性マイクロホン４１，４２とが第１空間側と第２空間側とに分けて設けられていればよい。

第１階層処理手段５０は、第２空間側主方向に向けた指向性マイクロホン（ＬＦ−Ｍｉｃ）４１の出力信号から得られたスペクトルと、第１空間側副方向に向けた指向性マイクロホン（ＲＲ−Ｍｉｃ）３２の出力信号から得られたスペクトルとを用いて、すなわちＬＦ−ＲＲ間において、第１空間側の雑音Ｓ_Rとそれ以外の音（Ｓ_C，Ｓ_L）とを分離する第１空間側雑音分離処理５１を行うとともに、第１空間側主方向に向けた指向性マイクロホン（ＲＦ−Ｍｉｃ）３１の出力信号から得られたスペクトルと、第２空間側副方向に向けた指向性マイクロホン（ＬＬ−Ｍｉｃ）４２の出力信号から得られたスペクトルとを用いて、すなわちＲＦ−ＬＬ間において、第２空間側の雑音Ｓ_Lとそれ以外の音（Ｓ_C，Ｓ_R）とを分離する第２空間側雑音分離処理５２を行うものである。

この第１階層処理手段５０による第１空間側雑音分離処理５１および第２空間側雑音分離処理５２は、本実施形態では、一例として、２つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理（ＳＡＦＩＡ）であるものとする（図３参照）。

第２階層処理手段６０は、第１階層処理手段５０による第１空間側雑音分離処理５１で分離された第１空間側の雑音Ｓ_Rのスペクトルと、第１階層処理手段５０による第２空間側雑音分離処理５２で分離された第２空間側の雑音Ｓ_L以外の音（Ｓ_C，Ｓ_R）のスペクトルとを用いて、すなわちＲＲ−ＲＦ間において、目的音Ｓ_Cを分離する第１の目的音分離処理６１を行うとともに、第１階層処理手段５０による第２空間側雑音分離処理５２で分離された第２空間側の雑音Ｓ_Lのスペクトルと、第１階層処理手段５０による第１空間側雑音分離処理５１で分離された第１空間側の雑音Ｓ_R以外の音（Ｓ_C，Ｓ_L）のスペクトルとを用いて、すなわちＬＬ−ＬＦ間において、目的音Ｓ_Cを分離する第２の目的音分離処理６２を行うものである。

この第２階層処理手段６０による第１の目的音分離処理６１は、本実施形態では、一例として、第１階層処理手段５０による第２空間側雑音分離処理５２で分離された第２空間側の雑音Ｓ_L以外の音（Ｓ_C，Ｓ_R）のスペクトルの各周波数帯域のパワーから、第１階層処理手段５０による第１空間側雑音分離処理５１で分離された第１空間側の雑音Ｓ_Rのスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であるものとする。また、同様に、第２階層処理手段６０による第２の目的音分離処理６２は、第１階層処理手段５０による第１空間側雑音分離処理５１で分離された第１空間側の雑音Ｓ_R以外の音（Ｓ_C，Ｓ_L）のスペクトルの各周波数帯域のパワーから、第１階層処理手段５０による第２空間側雑音分離処理５２で分離された第２空間側の雑音Ｓ_Lのスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であるものとする。

第３階層処理手段７０は、第２階層処理手段６０による第１の目的音分離処理６１で分離された目的音Ｓ_Cのスペクトルと、第２階層処理手段６０による第２の目的音分離処理６２で分離された目的音Ｓ_Cのスペクトルとを用いて、スペクトル統合処理７１を行うものである。この第３階層処理手段７０によるスペクトル統合処理７１は、本実施形態では、一例として、周波数帯域毎に各パワーの大小を比較し、劣勢な方のパワーを、処理後に得られる目的音Ｓ_Cのスペクトルとして帰属させる処理であるものとする。

そして、第１受音装置３０の周波数解析手段３３，３４、第２受音装置４０の周波数解析手段４３，４４、第１階層処理手段５０、第２階層処理手段６０、および第３階層処理手段７０は、コンピュータ（アナライザを含む。）の内部に設けられたＣＰＵ、およびこのＣＰＵの動作手順を規定する一つまたは複数のプログラムにより実現される。なお、これらの各手段３３，３４，４３，４４，５０，６０，７０は、一つのコンピュータにより実現してもよく、それぞれ別々のコンピュータにより実現してもよく、あるいは、例えば、第１受音装置３０の周波数解析手段３３，３４および第２受音装置４０の周波数解析手段４３，４４を一つのコンピュータで実現し、その他の第１階層処理手段５０、第２階層処理手段６０、および第３階層処理手段７０を別のコンピュータで実現する等、各手段３３，３４，４３，４４，５０，６０，７０を適宜に組み合わせて複数台のコンピュータで実現してもよい。

このような本実施形態においては、以下のようにして音源分離システム１０を用いて目的音Ｓ_Cと雑音Ｓ_R，Ｓ_Lとの分離を行う。

先ず、第１受音装置３０の指向性マイクロホン（ＲＦ−Ｍｉｃ）３１および指向性マイクロホン（ＲＲ−Ｍｉｃ）３２と、第２受音装置４０の指向性マイクロホン（ＬＦ−Ｍｉｃ）４１および指向性マイクロホン（ＬＬ−Ｍｉｃ）４２とにより、目的音Ｓ_Cおよび雑音Ｓ_R，Ｓ_Lの混合音を受音した後、これらの指向性マイクロホン３１，３２，４１，４２の各受音信号について各周波数解析手段３３，３４，４３，４４により周波数解析を行って各受音信号のスペクトルを求める。

この際、指向性マイクロホン（ＲＦ−Ｍｉｃ）３１の受音信号から得られるスペクトルは、目的音Ｓ_Cのスペクトルと第１空間側の雑音Ｓ_Rのスペクトルとが優位であるのに対し、第２空間側の雑音Ｓ_Lのスペクトルが劣勢である。このように、Ｓ_Lのスペクトルが、Ｓ_C，Ｓ_Rのスペクトルに対して劣勢に含まれる状態を、劣勢なスペクトルに上付の添字Ｓを付することにより、（Ｓ_C，Ｓ_R，Ｓ_L ^S）と表記するものとする。

また、指向性マイクロホン（ＲＲ−Ｍｉｃ）３２の受音信号から得られるスペクトルは、第１空間側の雑音Ｓ_Rのスペクトルが優位であるのに対し、目的音Ｓ_Cのスペクトルと第２空間側の雑音Ｓ_Lのスペクトルとが劣勢であるから、（Ｓ_C ^S，Ｓ_R，Ｓ_L ^S）と表記できる。

さらに、指向性マイクロホン（ＬＦ−Ｍｉｃ）４１の受音信号から得られるスペクトルは、目的音Ｓ_Cのスペクトルと第２空間側の雑音Ｓ_Lのスペクトルとが優位であるのに対し、第１空間側の雑音Ｓ_Rのスペクトルが劣勢であるから、（Ｓ_C，Ｓ_R ^S，Ｓ_L）と表記できる。

そして、指向性マイクロホン（ＬＬ−Ｍｉｃ）４２の受音信号から得られるスペクトルは、第２空間側の雑音Ｓ_Lのスペクトルが優位であるのに対し、目的音Ｓ_Cのスペクトルと第１空間側の雑音Ｓ_Rのスペクトルとが劣勢であるから、（Ｓ_C ^S，Ｓ_R ^S，Ｓ_L）と表記できる。

次に、第１階層処理手段５０により、第１階層処理として帯域選択（ＳＡＦＩＡ）による第１空間側雑音分離処理５１および第２空間側雑音分離処理５２を行う。この際の第１空間側雑音分離処理５１の内容を、図３を参照して説明する。なお、第２空間側雑音分離処理５２の内容も同様である。

図３において、第２空間側主方向に向けた指向性マイクロホン（ＬＦ−Ｍｉｃ）４１の出力信号から得られたスペクトルのうち、周波数帯域ｆ₁のパワー（振幅値）をα₁とし、周波数帯域ｆ₂のパワーをα₂とする。一方、第１空間側副方向に向けた指向性マイクロホン（ＲＲ−Ｍｉｃ）３２の出力信号から得られたスペクトルのうち、周波数帯域ｆ₁のパワーをβ₁とし、周波数帯域ｆ₂のパワーをβ₂とする。

このとき、周波数帯域ｆ₁のパワーα₁と、同じ周波数帯域ｆ₁のパワーβ₁との大小を比較する。ここで、図示の如く、α₁＞β₁であったとすれば、大きい方のパワーα₁を選択し、このパワーα₁を指向性マイクロホン（ＬＦ−Ｍｉｃ）４１に帰属させる。すなわち、指向性マイクロホン（ＬＦ−Ｍｉｃ）４１の受音信号から得られるスペクトルは、（Ｓ_C，Ｓ_R ^S，Ｓ_L）であるから、大きい方のパワーα₁を、劣勢なＳ_Rのスペクトルの除かれた（Ｓ_C，Ｓ_L）のスペクトルとして帰属させる。なお、小さい方のパワーβ₁は、処理に用いられることなく、すなわち分離後のスペクトルに帰属させることなく捨てられる。

また、周波数帯域ｆ₂のパワーα₂と、同じ周波数帯域ｆ₂のパワーβ₂との大小を比較する。ここで、図示の如く、β₂＞α₂であったとすれば、大きい方のパワーβ₂を選択し、このパワーβ₂を指向性マイクロホン（ＲＲ−Ｍｉｃ）３２に帰属させる。すなわち、指向性マイクロホン（ＲＲ−Ｍｉｃ）３２の受音信号から得られるスペクトルは、（Ｓ_C ^S，Ｓ_R，Ｓ_L ^S）であるから、大きい方のパワーβ₂を、劣勢なＳ_C，Ｓ_Lのスペクトルの除かれたＳ_Rのスペクトルとして帰属させる。なお、小さい方のパワーα₂は、処理に用いられることなく、すなわち分離後のスペクトルに帰属させることなく捨てられる。

続いて、第２階層処理手段６０により、第２階層処理としてスペクトラル・サブトラクション（ＳＳ）による第１および第２の目的音分離処理６１，６２を行う。この際の第１の目的音分離処理６１では、周波数帯域毎に、第１階層処理手段５０による第２空間側雑音分離処理５２で分離された第２空間側の雑音Ｓ_L以外の音（Ｓ_C，Ｓ_R）のスペクトルのパワーγから、第１階層処理手段５０による第１空間側雑音分離処理５１で分離された第１空間側の雑音Ｓ_Rのスペクトルのパワーδに比例係数Ｋを乗じた値（Ｋ×δ）を減じる。すなわち、γ−Ｋ×δの算出値が、分離後に得られる目的音Ｓ_Cのスペクトルの各周波数帯域のパワーとなる。これにより、（Ｓ_C，Ｓ_R）のスペクトルから、Ｓ_Rのスペクトルが除去される形で、目的音Ｓ_Cが分離される。なお、（Ｓ_C，Ｓ_R）のスペクトルのパワーγの方が、Ｓ_Rのスペクトルのパワーδに比例係数Ｋを乗じた値（Ｋ×δ）よりも小さくなる周波数帯域においては、例えば、一定のルールで定められた最小値（各周波数帯域につき一定の値でもよく、（Ｓ_C，Ｓ_R）のスペクトルの周波数帯域毎の各パワーの値に比例する値等でもよい。）を算出値としてもよく、あるいはゼロ（通常、ゼロは不自然であるが、本実施形態では、第１階層処理でＳＡＦＩＡによる帯域選択を行うことを考慮すると、ゼロでも不自然はない。）としてもよい。

また、第２の目的音分離処理６２の場合も同様であり、（Ｓ_C，Ｓ_L）のスペクトルから、Ｓ_Lのスペクトルが除去される形で、目的音Ｓ_Cが分離される。

その後、第３階層処理手段７０により、ミニマイゼーション（Minimization）によるスペクトル統合処理７１を行う。この際、周波数帯域毎に、第２階層処理手段６０による第１の目的音分離処理６１で分離された目的音Ｓ_Cのスペクトルのパワーと、第２階層処理手段６０による第２の目的音分離処理６２で分離された目的音Ｓ_Cのスペクトルのパワーとの大小を比較し、劣勢な方のパワーを、処理後に得られる目的音Ｓ_Cのスペクトルとして帰属させる。以上により、目的音Ｓ_Cと第１空間側および第２空間側の雑音Ｓ_R，Ｓ_Lとを精度よく分離することができる。

このような本実施形態によれば、次のような効果がある。すなわち、遮音体であるロボット頭部２０を挟む状態で、４系統の指向性マイクロホン３１，３２，４１，４２を設けたので、遮音体の存在および４つの指向性の形成により、各指向性マイクロホン３１，３２，４１，４２の受音信号から得られる各スペクトルを、目的音Ｓ_Cのスペクトルと第１空間側の雑音Ｓ_Rのスペクトルと第２空間側の雑音Ｓ_Lのスペクトルとについて、それぞれ異なる状態で優劣が付けられた混成スペクトル（Ｓ_C，Ｓ_R，Ｓ_L ^S）、（Ｓ_C ^S，Ｓ_R，Ｓ_L ^S）、（Ｓ_C，Ｓ_R ^S，Ｓ_L）、（Ｓ_C ^S，Ｓ_R ^S，Ｓ_L）とすることができる。

従って、これらの４つの指向性マイクロホン３１，３２，４１，４２の受音信号から得られた４つのスペクトルを用いて、第１階層処理手段５０および第２階層処理手段６０により階層的な音源分離処理を行うことにより、目的音Ｓ_Cに対し、第１空間側および第２空間側に雑音Ｓ_R，Ｓ_Lが存在する状況下においても、目的音Ｓ_Cを精度よく分離することができる。

換言すれば、ロボット頭部２０が障壁として働くことにより生じる音圧の大小関係を利用することで、厳密な伝達特性の推定を必要としない、より環境に左右されない音源分離を実現できる。

また、音源分離システム１０は、第３階層処理手段７０により、第３階層処理として、ミニマイゼーション（Minimization）によるスペクトル統合処理７１を行うので、第２階層処理手段６０による第１または第２の目的音分離処理６１，６２で得られる目的音Ｓ_Cに比べ、より一層分離精度の高い目的音Ｓ_Cを得ることができる。

さらに、音源分離システム１０は、第１階層処理手段５０により、第１階層処理として、帯域選択（ＳＡＦＩＡ）による第１空間側雑音分離処理５１および第２空間側雑音分離処理５２を行うので、比較的簡易な処理で効果的な分離を行うことができる。

そして、音源分離システム１０は、第２階層処理手段６０により、第２階層処理として、スペクトラル・サブトラクション（ＳＳ）による第１および第２の目的音分離処理６１，６２を行うので、高い精度での目的音Ｓ_Cの分離を実現できる。

また、第１受音装置３０および第２受音装置４０は、４つの指向性マイクロホン３１，３２，４１，４２を用いて構成されているので、簡易な構成で高い精度の音源分離を実現でき、設備コストの低減を図ることができる。

そして、４つの指向性マイクロホン３１，３２，４１，４２は、目的音Ｓ_Cの到来方向と一致または略一致する方向、並びに直交または略直交する方向に向けて設けられているので、雑音Ｓ_R，Ｓ_Lの方向が不明な場合でも、効果的に受音および音源分離を行うことができる。

なお、本発明の効果を確かめるために、以下のような比較実験を行った。

＜収録条件＞
３話者の同時発話音声の収録を行った。標本化周波数３２ｋHz、１６ｂｉｔ量子化で収録を行った。発話者の代わりに音源として、３個のスピーカＳ_C，Ｓ_R，Ｓ_Lを図４に示す位置に設置した。遮音体であるロボット頭部２０（但し、この実験では、ロボット頭部の外殻のみ。）から各スピーカＳ_C，Ｓ_R，Ｓ_Lまでの距離ｄは、いずれもd＝１００ｃｍであり、雑音源としてのスピーカＳ_R，Ｓ_Lは、ロボット頭部２０の正面方向（目的音源としてのスピーカＳ_Cの方向）に対してθ＝６０度をなす方向に配置した。また、指向性マイクロホンとして、オーディオ・テクニカ（Audiotechnica）ＡＴＭ１５ａを使用し、合計４個の指向性マイクロホンを図４の太矢印に示す方向に配置した。

目的音声Ｓ_Cには、日本音響学会の新聞読み上げ音声コーパス（ＡＳＪ−ＪＮＡＳ）の男性話者から２０人、計１００文を選択した。妨害音声（雑音）Ｓ_R，Ｓ_Lには、同様にＪＮＡＳから認識対象外の男性話者の音声を用いた。各スピーカＳ_C，Ｓ_R，Ｓ_Lから再生する音声は、それぞれの発話長が略等しく、目的音声と妨害音声との発話エネルギが等しくなるように音量を調整した。評価セットとしては、目的音声は全て同じで、妨害音声が異なるものを２セット用意した。

＜認識条件＞
図５に示す（Ａ）〜（Ｈ）の８種類の音声データの処理方法に対する認識性能を評価する。なお、（Ａ）は、目的音源Ｓ_Cに向けられた１つの指向性マイクロホンにより受音し、以降の階層的な分離処理を行わなかった場合である。処理する際のフレーム長、ＦＦＴサイズは、２０４８ポイントとし、フレームシフトは、５１２ポイントとした。分析窓には、ハニング窓を用いた。そして、処理した音声に対して２万語彙の連続音声認識を行う。認識の際に用いた音響特徴量を以下に示す。

（特徴量算出パラメータ）
（１）プリエンファシス：１−０．９７ｚ^-1
（２）フレーム長：２５ｍｓ
（３）フレーム周期：１０ｍｓ
（４）周波数分析：１２チャンネル等メル間隔フィルタバンク
（５）特徴量（２５次元）：ＭＦＣＣ＋ΔＭＦＣＣ＋Δｐｏｗｅｒ

また、音響モデルには、ＡＳＪ−ＪＮＡＳの男性話者約１００人の音声約２万文を用いて学習した。言語モデルは、ＣＳＲＣ提供の語彙数２万語のｔｒｉｇｒａｍを使用し、認識器には、本願出願人により開発されたデコーダを用いた。

＜実験結果＞
図６には、３話者の認識結果が示されている。棒グラフの縦軸は、総発話数Ｔから、置換エラー数Ｓ、挿入エラー数Ｉ、および脱落エラー数Ｄを引いた値｛Ｔ−（Ｓ＋Ｉ＋Ｄ）｝を、総発話数Ｔで除して得られる単語認識精度である。

図６によれば、第１階層処理として、ＳＡＦＩＡを行っただけの場合（Ｂ）には、単語認識精度は０．７％となり、これだけでは音源分離ができていないことがわかる。

これに加え、第２階層処理を行うと、（Ｂ）に対し、ＳＡＦＩＡを行った場合（Ｃ）、スペクトラル・サブトラクション（ＳＳ）を行った場合（Ｆ）で、エラー削減がみられた。これにより、階層的な処理が有効であることがわかる。また、（Ｃ）と（Ｆ）とを比べると、第２階層処理は、ＳＡＦＩＡよりもスペクトラル・サブトラクション（ＳＳ）が有効であることがわかる。

第３階層処理としてスペクトル統合処理を行うことで、さらに認識性能を向上させることができた。（Ｄ）と（Ｅ）、（Ｇ）と（Ｈ）を比べると、第３階層処理は、アディション（Addition）よりもミニマイゼーション（Minimization）が有効であることがわかる。アディション（Addition）は、目的音声Ｓ_Cを強調する効果が高いが、妨害音声Ｓ_R，Ｓ_Lを除去する効果は乏しい。これに対し、ミニマイゼーション（Minimization）は、信頼度の高いスペクトルを選択するので、妨害音声Ｓ_R，Ｓ_Lの除去に効果があるといえる。ＳＡＦＩＡ、スペクトラル・サブトラクション（ＳＳ）、ミニマイゼーション（Minimization）という順番で階層的な処理を行った場合（Ｈ）には、最高で認識精度は、６８．９％となった。

従って、４系統の指向性マイクロホンを設置し、遮音体であるロボット頭部２０の構造を活かした階層的な音源分離処理を行うことで、認識精度の向上を図ることができることがわかり、実環境下での３話者の同時発話音声認識実験では、ＳＡＦＩＡ、スペクトラル・サブトラクション（ＳＳ）、ミニマイゼーション（Minimization）という順番で、３階層の分離処理を施すことにより、遠隔マイクに比べて７２％のエラーを削減することに成功した。以上により、本発明の効果が顕著に示された。

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。

すなわち、前記実施形態では、４系統の指向性マイクロホン３１，３２，４１，４２を用いて、本発明における第１空間側主方向、第１空間側副方向、第２空間側主方向、第２空間側副方向に向けた指向性が形成されていたが、このような４方向の指向性の形成は、複数の無指向性または指向性マイクロホンにより構成されるマイクロホンアレー装置を用いて実現してもよく、あるいは第１空間側副方向および第２空間側副方向に向けた指向性の形成については、指向性マイクロホンにより実現するのではなく、遮音体であるロボット頭部２０の存在を利用して無指向性マイクロホンにより実現してもよい。従って、後者の場合には、第１空間側主方向および第２空間側主方向に向けた指向性の形成については、前記実施形態の如く指向性マイクロホンにより実現し、一方、第１空間側副方向および第２空間側副方向に向けた指向性の形成については、無指向性マイクロホン（無指向性マイクロホンと遮音体との組合せ）により実現することができる。

また、前記実施形態では、第１階層処理手段５０は、第１階層処理として、帯域選択（ＳＡＦＩＡ）を行う構成とされていたが、本発明における第１階層処理は、ＳＡＦＩＡに限定されるものではなく、要するに、第１空間側の雑音Ｓ_Rとそれ以外の音（Ｓ_C，Ｓ_L）とを分離でき、かつ、第２空間側の雑音Ｓ_Lとそれ以外の音（Ｓ_C，Ｓ_R）とを分離することができる処理であればよい。

さらに、前記実施形態では、第２階層処理手段６０は、第２階層処理として、スペクトラル・サブトラクション（ＳＳ）を行う構成とされていたが、本発明における第２階層処理は、ＳＳに限定されるものではなく、例えば、帯域選択（ＳＡＦＩＡ）でもよい。但し、前述した図６の実験結果に示す如く、分離精度向上の観点からは、ＳＡＦＩＡよりもＳＳとすることが好ましい。なお、第２階層処理として帯域選択（ＳＡＦＩＡ）を行う場合には、第１空間側の雑音Ｓ_Rのスペクトルと、第２空間側の雑音Ｓ_L以外の音（Ｓ_C，Ｓ_R）のスペクトルとを用いて、すなわちＲＲ−ＲＦ間において、ＳＡＦＩＡを行い、（Ｓ_C，Ｓ_R）のスペクトルのパワーの方が、Ｓ_Rのスペクトルのパワーよりも大きいときに、その大きい方のパワーを、分離して得られるＳ_Cのスペクトルとして帰属させるとともに、第２空間側の雑音Ｓ_Lのスペクトルと、第１空間側の雑音Ｓ_R以外の音（Ｓ_C，Ｓ_L）のスペクトルとを用いて、すなわちＬＬ−ＬＦ間において、ＳＡＦＩＡを行い、（Ｓ_C，Ｓ_L）のスペクトルのパワーの方が、Ｓ_Lのスペクトルのパワーよりも大きいときに、その大きい方のパワーを、分離して得られるＳ_Cのスペクトルとして帰属させる。

そして、前記実施形態では、音源分離システム１０は、第３階層処理手段７０により第３階層処理としてスペクトル統合処理７１を行う構成とされていたが、第３階層処理は省略してもよい。但し、前述した図６の実験結果に示す如く、目的音Ｓ_Cの分離精度向上の観点からは、第３階層処理を行うことが好ましい。

以上のように、本発明の音源分離方法およびそのシステムは、例えば、ロボット頭部の左右両側の側面に設置したマイクロホンによるハンズフリー音声認識を行う場合等に用いるのに適している。

本発明の一実施形態の音源分離システムの全体構成図。前記実施形態の音源分離システムの一部の詳細構成図。前記実施形態の音源分離システムによる第１階層処理で行われる帯域選択の処理（ＳＡＦＩＡ）の説明図。実験時の収録環境を示す図。実験を行った８種類の音声データの処理方法（Ａ）〜（Ｈ）の内容を示す図。実験結果を示す図。

符号の説明

１０音源分離システム
２０遮音体であるロボット頭部
３０第１受音装置
３１，３２，４１，４２指向性マイクロホン
４０第２受音装置
５０第１階層処理手段
５１第１空間側雑音分離処理
５２第２空間側雑音分離処理
６０第２階層処理手段
６１第１の目的音分離処理
６２第２の目的音分離処理
７０第３階層処理手段
７１スペクトル統合処理
Ｓ_C 目的音
Ｓ_R 第１空間側の雑音
Ｓ_L 第２空間側の雑音

Claims

目的音と雑音とを分離する音源分離方法であって、
前記目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に遮音体を配置し、
この遮音体の前記第１空間側に設けられた第１受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第１空間側主方向およびこの第１空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第１空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行い、
これと並行して、前記遮音体の前記第２空間側に設けられた第２受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第２空間側主方向およびこの第２空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第２空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行った後、
第１階層処理として、前記第２受音装置で前記第２空間側主方向に指向性を向けて得られたスペクトルと前記第１受音装置で前記第１空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第１空間側の前記雑音とそれ以外の音とを分離する第１空間側雑音分離処理を行うとともに、前記第１受音装置で前記第１空間側主方向に指向性を向けて得られたスペクトルと前記第２受音装置で前記第２空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第２空間側の前記雑音とそれ以外の音とを分離する第２空間側雑音分離処理を行い、
続いて、第２階層処理として、前記第１階層処理としての前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音のスペクトルと前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第１の目的音分離処理、および／または前記第１階層処理手段としての前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音のスペクトルと前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第２の目的音分離処理を行う
ことを特徴とする音源分離方法。
請求項１に記載の音源分離方法において、
前記第２階層処理として、前記第１および前記第２の目的音分離処理の双方を行い、
その後、第３階層処理として、前記第２階層処理としての前記第１の目的音分離処理で分離された前記目的音のスペクトルと前記第２の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う
ことを特徴とする音源分離方法。
請求項１または２に記載の音源分離方法において、
前記第１階層処理としての前記第１空間側雑音分離処理および前記第２空間側雑音分離処理は、２つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。
請求項１〜３のいずれかに記載の音源分離方法において、
前記第２階層処理としての前記第１の目的音分離処理は、前記第１階層処理としての前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
前記第２階層処理としての前記第２の目的音分離処理は、前記第１階層処理としての前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
ことを特徴とする音源分離方法。
請求項１〜３のいずれかに記載の音源分離方法において、
前記第２階層処理としての前記第１および前記第２の目的音分離処理は、２つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。
請求項１〜５のいずれかに記載の音源分離方法において、
前記第１空間側主方向および前記第１空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを用いて前記第１受音装置を構成し、
前記第２空間側主方向および前記第２空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを用いて前記第２受音装置を構成する
ことを特徴とする音源分離方法。
請求項１〜６のいずれかに記載の音源分離方法において、
前記第１空間側主方向および前記第２空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
前記第１空間側副方向および前記第２空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
ことを特徴とする音源分離方法。
目的音と雑音とを分離する音源分離システムであって、
前記目的音の到来方向を含む面で仕切られた第１空間と第２空間との境界位置に配置される遮音体と、
この遮音体の前記第１空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第１空間側主方向およびこの第１空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第１空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第１受音装置と、
前記遮音体の前記第２空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第２空間側主方向およびこの第２空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第２空間側副方向の２方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第２受音装置と、
前記第２受音装置で前記第２空間側主方向に指向性を向けて得られたスペクトルと前記第１受音装置で前記第１空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第１空間側の前記雑音とそれ以外の音とを分離する第１空間側雑音分離処理を行うとともに、前記第１受音装置で前記第１空間側主方向に指向性を向けて得られたスペクトルと前記第２受音装置で前記第２空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第２空間側の前記雑音とそれ以外の音とを分離する第２空間側雑音分離処理を行う第１階層処理手段と、
この第１階層処理手段による前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音のスペクトルと前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第１の目的音分離処理、および／または前記第１階層処理手段による前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音のスペクトルと前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第２の目的音分離処理を行う第２階層処理手段と
を備えたことを特徴とする音源分離システム。
請求項８に記載の音源分離システムにおいて、
前記第２階層処理手段は、前記第１および前記第２の目的音分離処理の双方を行う構成とされ、
前記第２階層処理手段による前記第１の目的音分離処理で分離された前記目的音のスペクトルと前記第２の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う第３階層処理手段を備えた
ことを特徴とする音源分離システム。
請求項８または９に記載の音源分離システムにおいて、
前記第１階層処理手段による前記第１空間側雑音分離処理および前記第２空間側雑音分離処理は、２つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。
請求項８〜１０のいずれかに記載の音源分離システムにおいて、
前記第２階層処理手段による前記第１の目的音分離処理は、前記第１階層処理手段による前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
前記第２階層処理手段による前記第２の目的音分離処理は、前記第１階層処理手段による前記第１空間側雑音分離処理で分離された前記第１空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第２空間側雑音分離処理で分離された前記第２空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
ことを特徴とする音源分離システム。
請求項８〜１０のいずれかに記載の音源分離システムにおいて、
前記第２階層処理手段による前記第１および前記第２の目的音分離処理は、２つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。
請求項８〜１２のいずれかに記載の音源分離システムにおいて、
前記第１受音装置は、
前記第１空間側主方向および前記第１空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを含んで構成され、
前記第２受音装置は、
前記第２空間側主方向および前記第２空間側副方向にそれぞれ指向性を向けて配置された２つの指向性マイクロホンを含んで構成されている
ことを特徴とする音源分離システム。
請求項８〜１３のいずれかに記載の音源分離システムにおいて、
前記第１空間側主方向および前記第２空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
前記第１空間側副方向および前記第２空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
ことを特徴とする音源分離システム。