JP4594629B2 - 音源分離方法およびそのシステム - Google Patents

音源分離方法およびそのシステム Download PDF

Info

Publication number
JP4594629B2
JP4594629B2 JP2004043719A JP2004043719A JP4594629B2 JP 4594629 B2 JP4594629 B2 JP 4594629B2 JP 2004043719 A JP2004043719 A JP 2004043719A JP 2004043719 A JP2004043719 A JP 2004043719A JP 4594629 B2 JP4594629 B2 JP 4594629B2
Authority
JP
Japan
Prior art keywords
sound
space side
noise
spectrum
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004043719A
Other languages
English (en)
Other versions
JP2005234246A (ja
Inventor
哲則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Original Assignee
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University filed Critical Waseda University
Priority to JP2004043719A priority Critical patent/JP4594629B2/ja
Publication of JP2005234246A publication Critical patent/JP2005234246A/ja
Application granted granted Critical
Publication of JP4594629B2 publication Critical patent/JP4594629B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、目的音と雑音とを分離する音源分離方法およびそのシステムに係り、例えば、ロボット頭部の左右両側の側面に設置したマイクロホンによるハンズフリー音声認識を行う場合等に利用できる。
通常の音声認識では、口元で発話した音声を接話型マイクロホンにより収録し、認識処理を行う。しかし、ロボットとの対話、カーナビゲーションシステム等の車載機器についての音声による操作、会議の議事録作成等、接話型マイクロホンの利用をユーザに課すことが不自然となる用途も多い。このような用途においては、システム側に設置したマイクロホンにより音声を収録し、認識処理することが望まれる。
この問題に対し、各マイクロホンと音源との位置関係の相違によって生じる、各マイクロホンに到達する音圧の差を利用して音を分離する、SAFIAと呼ばれる手法が提案されている(特許文献1参照)。このSAFIAと呼ばれる手法は、複数の固定マイクロホンの出力信号を狭帯域スペクトル分析し、周波数帯域毎に最も大きなパワーを与えたマイクロホンにその周波数帯域の音を割り当てる帯域選択(Band Selection)による音の分離技術である(後述する図3参照)。
特許第3355598号掲載公報(段落[0006]、[0007]、図1、要約)
しかしながら、前述したSAFIAでは、2つの音が重なった状況において、よく両者を分離することができるが、音源が3つ以上となると、理論的には分離可能とされているものの、分離性能は極端に劣化する。従って、複数の雑音源が存在する状況下で、これらの複数の雑音から目的音を精度よく分離することは困難である。
本発明の目的は、複数の雑音から目的音を精度よく分離することができる音源分離方法およびそのシステムを提供するところにある。
本発明は、目的音と雑音とを分離する音源分離方法であって、目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に遮音体を配置し、この遮音体の第1空間側に設けられた第1受音装置により、目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行い、これと並行して、遮音体の第2空間側に設けられた第2受音装置により、目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行った後、第1階層処理として、第2受音装置で第2空間側主方向に指向性を向けて得られたスペクトルと第1受音装置で第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、第1空間側の雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、第1受音装置で第1空間側主方向に指向性を向けて得られたスペクトルと第2受音装置で第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、第2空間側の雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行い、続いて、第2階層処理として、第1階層処理としての第1空間側雑音分離処理で分離された第1空間側の雑音のスペクトルと第2空間側雑音分離処理で分離された第2空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第1の目的音分離処理、および/または第1階層処理手段としての第2空間側雑音分離処理で分離された第2空間側の雑音のスペクトルと第1空間側雑音分離処理で分離された第1空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第2の目的音分離処理を行うことを特徴とするものである。
ここで、「2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う」ことには、異なる方向に向けられた2つの指向性マイクロホン(いわゆる固定マイクロホンであるが、遮音体に対して固定設置されているもの、および首振り可能に設置されているもののいずれも含む。)で受音した各信号について、それぞれ周波数解析を行うことの他、例えば、マイクロホンアレー装置を構成する複数の無指向性または指向性マイクロホンの各出力信号を用いて2つの指向性を形成する指向特性制御を行うとともにこれらの指向特性制御を行って得られた各信号について周波数解析を行うこと等が含まれる。
なお、後者のマイクロホンアレーによる指向特性制御の技術は、公知の技術であり、例えば、遅延和アレー(Delayed Sum Array、またはBeam-Forming)による指向特性制御に関する技術、あるいはDCMP(Directionally Constrained Minimization of Power)アダプティブアレーによる指向特性制御に関する技術等がある。
また、「指向性を形成」することには、遮音体の存在を利用して指向性を形成することが含まれ、例えば、「第1空間側副方向」および/または「第2空間側副方向」の「指向性を形成」することには、マイクロホン自体には無指向性マイクロホンを用いるが、遮音体を配置して遮音体を挟んで反対の空間側からの音を受音しにくい状態にする一方、その無指向性マイクロホンが設置された空間側からの音を受音し易い状態にすることにより、その無指向性マイクロホンが設置された空間側に向けられた指向性を形成することが含まれる。
そして、「2方向に指向性を形成して受音する」という意味は、受音以降に階層的に行われる音源分離処理で有効に活用される受音信号を得るために形成される指向性が2方向であることを意味する。従って、例えば、3つ以上の指向性マイクロホンを設置し、そのうちの2つの指向性マイクロホンの出力信号を選択的に用いて以降の階層的な音源分離処理を行う場合、あるいは3つ以上の指向性マイクロホンの出力信号を全て用いるものの、実質的に2つの指向性マイクロホンの出力信号しか有効に機能していない場合には、結局、有効な指向性マイクロホンは、2つであることから、本発明に含まれるものである。また、マイクロホンアレー装置により3方向以上に向けた指向特性制御を行う場合も同様であり、3方向以上に向けた指向特性制御を行って得られた出力信号のうちの2つの出力信号を選択的に用いて以降の階層的な音源分離処理を行う場合等は、本発明に含まれるものである。
また、「第1空間側副方向」および/または「第2空間側副方向」は、必ずしも固定された方向である必要はなく、例えば、雑音の方向が既知である場合には、雑音に向けて指向性を形成してもよい。つまり、第1空間側副方向および/または第2空間側副方向を、雑音の到来方向と一致または略一致する方向としてもよい。
さらに、「目的音の到来方向に対して小さな角度をなす」とは、目的音の到来方向に対して第1空間側主方向が第1空間側副方向よりも相対的に小さな角度をなすこと、および目的音の到来方向に対して第2空間側主方向が第2空間側副方向よりも相対的に小さな角度をなすことを意味する。同様に、「目的音の到来方向に対して大きな角度をなす」とは、目的音の到来方向に対して第1空間側副方向が第1空間側主方向よりも相対的に大きな角度をなすこと、および目的音の到来方向に対して第2空間側副方向が第2空間側主方向よりも相対的に大きな角度をなすことを意味する。
そして、「第1空間側主方向」および「第2空間側主方向」は、目的音の分離精度向上の観点から、目的音の到来方向に一致または略一致する方向とすることが好ましく、また、一致または略一致する方向としない場合であっても、これらの方向は、各階層で並行して(対になって)行われる処理で同等な分離効果を得るという観点から、遮音体を挟んで面対称な方向とすることが好ましい。
また、「第1空間側副方向」と「第2空間側副方向」とは、必ずしも遮音体を挟んで面対称な方向とする必要はないが、各階層で並行して(対になって)行われる処理で同等な分離効果を得るという観点からは、遮音体を挟んで面対称な方向とすることが好ましい。
このような本発明の音源分離方法においては、遮音体を挟む状態で、第1受音装置および第2受音装置を設置し、これらの第1および第2受音装置のそれぞれにおいて、2方向に指向性を形成して受音する。このため、遮音体の存在および4つの指向性の形成により、4方向に指向性を向けて得られる各スペクトルは、目的音のスペクトルと第1空間側の雑音のスペクトルと第2空間側の雑音のスペクトルとについて異なる状態で優劣が付けられた混成スペクトルとなる。
すなわち、第1空間側主方向に指向性を向けて得られるスペクトルは、目的音のスペクトルと第1空間側の雑音のスペクトルとが優位であるのに対し、第2空間側の雑音のスペクトルが劣勢である。第1空間側副方向に指向性を向けて得られるスペクトルは、第1空間側の雑音のスペクトルが優位であるのに対し、目的音のスペクトルと第2空間側の雑音のスペクトルとが劣勢である。また、第2空間側主方向に指向性を向けて得られるスペクトルは、目的音のスペクトルと第2空間側の雑音のスペクトルとが優位であるのに対し、第1空間側の雑音のスペクトルが劣勢である。第2空間側副方向に指向性を向けて得られるスペクトルは、第2空間側の雑音のスペクトルが優位であるのに対し、目的音のスペクトルと第1空間側の雑音のスペクトルとが劣勢である。
従って、これらの4方向に指向性を向けて得られた4つのスペクトルを用いて、第1階層処理および第2階層処理を行うことにより、目的音に対し、第1空間側および第2空間側に雑音が存在する状況下においても、目的音を精度よく分離することが可能となり、これにより前記目的が達成される。
また、前述した音源分離方法において、第2階層処理として、第1および第2の目的音分離処理の双方を行い、その後、第3階層処理として、第2階層処理としての第1の目的音分離処理で分離された目的音のスペクトルと第2の目的音分離処理で分離された目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを目的音のスペクトルとして帰属させることによりスペクトル統合処理を行うことが望ましい。
ここで、「加算する」ことには、加算して得られた信号値に比例係数を乗じる場合(例えば、加算して1/2を乗じる場合等)も含まれる。
このように第3階層処理としてスペクトル統合処理を行うようにした場合には、第2階層処理としての第1または第2の目的音分離処理で得られる目的音に比べ、より一層分離精度の高い目的音が得られる。
すなわち、得られた2つの信号を加算する方法(以下、アディション:Additionという。)については、加算することにより、目的音のみを強調することが可能となる。
また、得られたスペクトルに対し、周波数帯域毎に、劣勢な方のパワーを目的音のスペクトルとして帰属させる方法(以下、ミニマイゼーション:Minimizationという。)については、第2階層処理までで得られた目的音のスペクトルには、第2階層処理でも除去しきれない残差雑音が含まれるため、第1空間側および第2空間側の雑音の影響が残っている可能性がある。このため、第2階層処理までで得られる目的音のスペクトルは、本来、目的音に含まれるスペクトルよりも大きな値で観測される可能性が高い。従って、周波数帯域毎に、パワーの小さい方を、分離して得られる目的音に帰属させることで、第1空間側および第2空間側の雑音の影響を除くことが可能となる。
なお、後述する実験結果(図6参照)に示す如く、加算するスペクトル統合処理(Addition)よりも、劣勢な方のパワーを目的音のスペクトルとして帰属させるスペクトル統合処理(Minimization)の方が、より高い分離精度を得られるという点で好ましい。
さらに、前述した音源分離方法において、第1階層処理としての第1空間側雑音分離処理および第2空間側雑音分離処理は、2つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理とすることができる。
このように第1階層処理として帯域選択を行うようにした場合(いわゆるSAFIAの技術を利用して音源分離を行う場合)には、比較的簡易な処理で効果的な分離を行うことが可能となる。
そして、前述した音源分離方法において、第2階層処理としての第1の目的音分離処理は、第1階層処理としての第2空間側雑音分離処理で分離された第2空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第1空間側雑音分離処理で分離された第1空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、第2階層処理としての第2の目的音分離処理は、第1階層処理としての第1空間側雑音分離処理で分離された第1空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第2空間側雑音分離処理で分離された第2空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であることが望ましい。
このように第2階層処理としてスペクトラル・サブトラクション(SS:Spectral Subtraction)を行うようにした場合には、高い精度での目的音の分離が実現される。
また、前述した音源分離方法において、第2階層処理としての第1および第2の目的音分離処理は、2つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理としてもよい。
このように第2階層処理として帯域選択を行うようにした場合(いわゆるSAFIAの技術を利用して音源分離を行う場合)でも、高い精度での目的音の分離が実現される。但し、後述する実験結果(図6参照)に示す如く、第2階層処理としてスペクトラル・サブトラクションを行った場合の方が、高い分離精度が得られるという点で好ましい。
さらに、以上に述べた音源分離方法において、第1空間側主方向および第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて第1受音装置を構成し、第2空間側主方向および第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて第2受音装置を構成することが望ましい。
このように4つの指向性マイクロホンを用いて受音するようにした場合は、簡易な構成で高い精度の音源分離を実現できるので、設備コストの低減が図られる。
そして、以上に述べた音源分離方法において、第1空間側主方向および第2空間側主方向は、目的音の到来方向と一致または略一致する方向であり、第1空間側副方向および第2空間側副方向は、目的音の到来方向と直交または略直交する方向であることが望ましい。
このように4方向を目的音の到来方向と一致または略一致する方向、並びに直交または略直交する方向にして受音した場合には、雑音の方向が不明なときでも、効果的に受音および音源分離を行うことが可能となる。
また、以上に述べた本発明の音源分離方法を実現するシステムとして、以下のような本発明の音源分離システムが挙げられる。
すなわち、本発明は、目的音と雑音とを分離する音源分離システムであって、目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に配置される遮音体と、この遮音体の第1空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第1受音装置と、遮音体の第2空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第2受音装置と、第2受音装置で第2空間側主方向に指向性を向けて得られたスペクトルと第1受音装置で第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、第1空間側の雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、第1受音装置で第1空間側主方向に指向性を向けて得られたスペクトルと第2受音装置で第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、第2空間側の雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行う第1階層処理手段と、この第1階層処理手段による第1空間側雑音分離処理で分離された第1空間側の雑音のスペクトルと第2空間側雑音分離処理で分離された第2空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第1の目的音分離処理、および/または第1階層処理手段による第2空間側雑音分離処理で分離された第2空間側の雑音のスペクトルと第1空間側雑音分離処理で分離された第1空間側の雑音以外の音のスペクトルとを用いて目的音を分離する第2の目的音分離処理を行う第2階層処理手段とを備えたことを特徴とするものである。
このような本発明の音源分離システムにおいては、前述した本発明の音源分離方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。
また、前述した音源分離システムにおいて、第2階層処理手段は、第1および第2の目的音分離処理の双方を行う構成とされ、第2階層処理手段による第1の目的音分離処理で分離された目的音のスペクトルと第2の目的音分離処理で分離された目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う第3階層処理手段を備えた構成とすることが望ましい。
さらに、前述した音源分離システムにおいて、第1階層処理手段による第1空間側雑音分離処理および第2空間側雑音分離処理は、2つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理とすることができる。
そして、前述した音源分離システムにおいて、第2階層処理手段による第1の目的音分離処理は、第1階層処理手段による第2空間側雑音分離処理で分離された第2空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第1空間側雑音分離処理で分離された第1空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、第2階層処理手段による第2の目的音分離処理は、第1階層処理手段による第1空間側雑音分離処理で分離された第1空間側の雑音以外の音のスペクトルの各周波数帯域のパワーから、第2空間側雑音分離処理で分離された第2空間側の雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であることが望ましい。
また、前述した音源分離システムにおいて、第2階層処理手段による第1および第2の目的音分離処理は、2つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理としてもよい。
さらに、以上に述べた音源分離システムにおいて、第1受音装置は、第1空間側主方向および第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成され、第2受音装置は、第2空間側主方向および第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成されていることが望ましい。
そして、以上に述べた音源分離システムにおいて、第1空間側主方向および第2空間側主方向は、目的音の到来方向と一致または略一致する方向であり、第1空間側副方向および第2空間側副方向は、目的音の到来方向と直交または略直交する方向であることが望ましい。
また、本発明は、目的音と雑音とを分離する音源分離システムであって、目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に配置される遮音体と、この遮音体の第1空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第1受音装置と、遮音体の第2空間側に設けられて目的音の到来方向に一致するか若しくは目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第2受音装置とを備えたことを特徴とするものである。
なお、上記のような遮音体と第1受音装置と第2受音装置とを備えた音源分離システムを構成する場合において、前述した第1階層処理と第2階層処理とをまとめて同時に実現する処理を行うようにしてもよい。
以上に述べたように本発明によれば、遮音体を挟む状態で、第1受音装置および第2受音装置を設置し、これらの第1および第2受音装置のそれぞれにおいて、2方向に指向性を形成して受音するので、4方向に指向性を向けて得られる各スペクトルは、目的音のスペクトルと第1空間側の雑音のスペクトルと第2空間側の雑音のスペクトルとについて異なる状態で優劣が付けられた混成スペクトルとなるため、これらの4つのスペクトルを用いて階層的な音源分離処理を行うことにより、複数の雑音から目的音を精度よく分離することができるという効果がある。
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態の音源分離システム10の全体構成が示されている。図2には、音源分離システム10の一部の詳細構成が示されている。図3は、音源分離システム10による第1階層処理で行われる帯域選択の処理(SAFIA)の説明図である。
図1および図2において、音源分離システム10は、目的音と雑音とを分離する処理を行うシステムであり、目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に配置される遮音体であるロボット頭部20と、第1空間側に設けられた第1受音装置30と、第2空間側に設けられた第2受音装置40と、これらの第1受音装置30および第2受音装置40による受音信号を用いて階層的に音源分離処理を行う第1階層処理手段50、第2階層処理手段60、および第3階層処理手段70とを備えている。
ここで、本発明における遮音体は、遮音機能を有する物体であれば、形状、大きさ、用途等は問わないが、本実施形態では、一例としてロボット頭部20であるものとして説明を行う。従って、本実施形態では、第1空間は、ロボット頭部20の右側空間であり、第2空間は、ロボット頭部20の左側空間である。また、本実施形態では、目的音は、ロボット頭部20の前方(真正面)の方向にある音源SCから発せられる音(以下、目的音も、その音源SCと符号を区別することなく、目的音SCで示す。)であり、第1空間側の雑音は、右側空間側の音源SRから発せられる音(以下、第1空間側の雑音も、その音源SRと符号を区別することなく、雑音SRで示す。)であり、第2空間側の雑音は、左側空間側の音源SLから発せられる音(以下、第2空間側の雑音も、その音源SLと符号を区別することなく、雑音SLで示す。)である。
第1受音装置30は、図2に示すように、目的音SCの到来方向に一致または略一致する方向(本発明における第1空間側主方向)に向けられた指向性マイクロホン31(右側:Rightに設けられて前方:Frontに向けられているという意味で、図中でRF−Micと記載されている。)と、目的音SCの到来方向に直交または略直交する方向(本発明における第1空間側副方向)に向けられた指向性マイクロホン32(右側:Rightに設けられて右方:Rightに向けられているという意味で、図中でRR−Micと記載されている。)と、これらの指向性マイクロホン31,32の各出力信号の周波数解析を行う周波数解析手段33,34とを備えている。
第2受音装置40は、図2に示すように、目的音SCの到来方向に一致または略一致する方向(本発明における第2空間側主方向)に向けられた指向性マイクロホン41(左側:Leftに設けられて前方:Frontに向けられているという意味で、図中でLF−Micと記載されている。)と、目的音SCの到来方向に直交または略直交する方向(本発明における第2空間側副方向)に向けられた指向性マイクロホン42(左側:Leftに設けられて左方:Leftに向けられているという意味で、図中でLL−Micと記載されている。)と、これらの指向性マイクロホン41,42の各出力信号の周波数解析を行う周波数解析手段43,44とを備えている。
各周波数解析手段33,34,43,44により行う周波数解析には、例えば、高速フーリエ変換(FFT:First Fourier Transform)や一般化調和解析(GHA:Generalized Harmonic Analysis)等を採用することができる。なお、これらの周波数解析手段33,34,43,44は、説明の便宜上、4つに分けて記載されているが、実際には、一台のコンピュータ(アナライザを含む。)あるいは一つの中央演算処理装置(CPU)で実現することができる。また、第1受音装置30の周波数解析手段33,34と第2受音装置40の周波数解析手段43,44とは、図示の如く第1空間側と第2空間側とに分けて設けられている必要はなく、あくまでも受音部である指向性マイクロホン31,32と指向性マイクロホン41,42とが第1空間側と第2空間側とに分けて設けられていればよい。
第1階層処理手段50は、第2空間側主方向に向けた指向性マイクロホン(LF−Mic)41の出力信号から得られたスペクトルと、第1空間側副方向に向けた指向性マイクロホン(RR−Mic)32の出力信号から得られたスペクトルとを用いて、すなわちLF−RR間において、第1空間側の雑音SRとそれ以外の音(SC,SL)とを分離する第1空間側雑音分離処理51を行うとともに、第1空間側主方向に向けた指向性マイクロホン(RF−Mic)31の出力信号から得られたスペクトルと、第2空間側副方向に向けた指向性マイクロホン(LL−Mic)42の出力信号から得られたスペクトルとを用いて、すなわちRF−LL間において、第2空間側の雑音SLとそれ以外の音(SC,SR)とを分離する第2空間側雑音分離処理52を行うものである。
この第1階層処理手段50による第1空間側雑音分離処理51および第2空間側雑音分離処理52は、本実施形態では、一例として、2つのスペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理(SAFIA)であるものとする(図3参照)。
第2階層処理手段60は、第1階層処理手段50による第1空間側雑音分離処理51で分離された第1空間側の雑音SRのスペクトルと、第1階層処理手段50による第2空間側雑音分離処理52で分離された第2空間側の雑音SL以外の音(SC,SR)のスペクトルとを用いて、すなわちRR−RF間において、目的音SCを分離する第1の目的音分離処理61を行うとともに、第1階層処理手段50による第2空間側雑音分離処理52で分離された第2空間側の雑音SLのスペクトルと、第1階層処理手段50による第1空間側雑音分離処理51で分離された第1空間側の雑音SR以外の音(SC,SL)のスペクトルとを用いて、すなわちLL−LF間において、目的音SCを分離する第2の目的音分離処理62を行うものである。
この第2階層処理手段60による第1の目的音分離処理61は、本実施形態では、一例として、第1階層処理手段50による第2空間側雑音分離処理52で分離された第2空間側の雑音SL以外の音(SC,SR)のスペクトルの各周波数帯域のパワーから、第1階層処理手段50による第1空間側雑音分離処理51で分離された第1空間側の雑音SRのスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であるものとする。また、同様に、第2階層処理手段60による第2の目的音分離処理62は、第1階層処理手段50による第1空間側雑音分離処理51で分離された第1空間側の雑音SR以外の音(SC,SL)のスペクトルの各周波数帯域のパワーから、第1階層処理手段50による第2空間側雑音分離処理52で分離された第2空間側の雑音SLのスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であるものとする。
第3階層処理手段70は、第2階層処理手段60による第1の目的音分離処理61で分離された目的音SCのスペクトルと、第2階層処理手段60による第2の目的音分離処理62で分離された目的音SCのスペクトルとを用いて、スペクトル統合処理71を行うものである。この第3階層処理手段70によるスペクトル統合処理71は、本実施形態では、一例として、周波数帯域毎に各パワーの大小を比較し、劣勢な方のパワーを、処理後に得られる目的音SCのスペクトルとして帰属させる処理であるものとする。
そして、第1受音装置30の周波数解析手段33,34、第2受音装置40の周波数解析手段43,44、第1階層処理手段50、第2階層処理手段60、および第3階層処理手段70は、コンピュータ(アナライザを含む。)の内部に設けられたCPU、およびこのCPUの動作手順を規定する一つまたは複数のプログラムにより実現される。なお、これらの各手段33,34,43,44,50,60,70は、一つのコンピュータにより実現してもよく、それぞれ別々のコンピュータにより実現してもよく、あるいは、例えば、第1受音装置30の周波数解析手段33,34および第2受音装置40の周波数解析手段43,44を一つのコンピュータで実現し、その他の第1階層処理手段50、第2階層処理手段60、および第3階層処理手段70を別のコンピュータで実現する等、各手段33,34,43,44,50,60,70を適宜に組み合わせて複数台のコンピュータで実現してもよい。
このような本実施形態においては、以下のようにして音源分離システム10を用いて目的音SCと雑音SR,SLとの分離を行う。
先ず、第1受音装置30の指向性マイクロホン(RF−Mic)31および指向性マイクロホン(RR−Mic)32と、第2受音装置40の指向性マイクロホン(LF−Mic)41および指向性マイクロホン(LL−Mic)42とにより、目的音SCおよび雑音SR,SLの混合音を受音した後、これらの指向性マイクロホン31,32,41,42の各受音信号について各周波数解析手段33,34,43,44により周波数解析を行って各受音信号のスペクトルを求める。
この際、指向性マイクロホン(RF−Mic)31の受音信号から得られるスペクトルは、目的音SCのスペクトルと第1空間側の雑音SRのスペクトルとが優位であるのに対し、第2空間側の雑音SLのスペクトルが劣勢である。このように、SLのスペクトルが、SC,SRのスペクトルに対して劣勢に含まれる状態を、劣勢なスペクトルに上付の添字Sを付することにより、(SC,SR,SL S)と表記するものとする。
また、指向性マイクロホン(RR−Mic)32の受音信号から得られるスペクトルは、第1空間側の雑音SRのスペクトルが優位であるのに対し、目的音SCのスペクトルと第2空間側の雑音SLのスペクトルとが劣勢であるから、(SC S,SR,SL S)と表記できる。
さらに、指向性マイクロホン(LF−Mic)41の受音信号から得られるスペクトルは、目的音SCのスペクトルと第2空間側の雑音SLのスペクトルとが優位であるのに対し、第1空間側の雑音SRのスペクトルが劣勢であるから、(SC,SR S,SL)と表記できる。
そして、指向性マイクロホン(LL−Mic)42の受音信号から得られるスペクトルは、第2空間側の雑音SLのスペクトルが優位であるのに対し、目的音SCのスペクトルと第1空間側の雑音SRのスペクトルとが劣勢であるから、(SC S,SR S,SL)と表記できる。
次に、第1階層処理手段50により、第1階層処理として帯域選択(SAFIA)による第1空間側雑音分離処理51および第2空間側雑音分離処理52を行う。この際の第1空間側雑音分離処理51の内容を、図3を参照して説明する。なお、第2空間側雑音分離処理52の内容も同様である。
図3において、第2空間側主方向に向けた指向性マイクロホン(LF−Mic)41の出力信号から得られたスペクトルのうち、周波数帯域f1のパワー(振幅値)をα1とし、周波数帯域f2のパワーをα2とする。一方、第1空間側副方向に向けた指向性マイクロホン(RR−Mic)32の出力信号から得られたスペクトルのうち、周波数帯域f1のパワーをβ1とし、周波数帯域f2のパワーをβ2とする。
このとき、周波数帯域f1のパワーα1と、同じ周波数帯域f1のパワーβ1との大小を比較する。ここで、図示の如く、α1>β1であったとすれば、大きい方のパワーα1を選択し、このパワーα1を指向性マイクロホン(LF−Mic)41に帰属させる。すなわち、指向性マイクロホン(LF−Mic)41の受音信号から得られるスペクトルは、(SC,SR S,SL)であるから、大きい方のパワーα1を、劣勢なSRのスペクトルの除かれた(SC,SL)のスペクトルとして帰属させる。なお、小さい方のパワーβ1は、処理に用いられることなく、すなわち分離後のスペクトルに帰属させることなく捨てられる。
また、周波数帯域f2のパワーα2と、同じ周波数帯域f2のパワーβ2との大小を比較する。ここで、図示の如く、β2>α2であったとすれば、大きい方のパワーβ2を選択し、このパワーβ2を指向性マイクロホン(RR−Mic)32に帰属させる。すなわち、指向性マイクロホン(RR−Mic)32の受音信号から得られるスペクトルは、(SC S,SR,SL S)であるから、大きい方のパワーβ2を、劣勢なSC,SLのスペクトルの除かれたSRのスペクトルとして帰属させる。なお、小さい方のパワーα2は、処理に用いられることなく、すなわち分離後のスペクトルに帰属させることなく捨てられる。
続いて、第2階層処理手段60により、第2階層処理としてスペクトラル・サブトラクション(SS)による第1および第2の目的音分離処理61,62を行う。この際の第1の目的音分離処理61では、周波数帯域毎に、第1階層処理手段50による第2空間側雑音分離処理52で分離された第2空間側の雑音SL以外の音(SC,SR)のスペクトルのパワーγから、第1階層処理手段50による第1空間側雑音分離処理51で分離された第1空間側の雑音SRのスペクトルのパワーδに比例係数Kを乗じた値(K×δ)を減じる。すなわち、γ−K×δの算出値が、分離後に得られる目的音SCのスペクトルの各周波数帯域のパワーとなる。これにより、(SC,SR)のスペクトルから、SRのスペクトルが除去される形で、目的音SCが分離される。なお、(SC,SR)のスペクトルのパワーγの方が、SRのスペクトルのパワーδに比例係数Kを乗じた値(K×δ)よりも小さくなる周波数帯域においては、例えば、一定のルールで定められた最小値(各周波数帯域につき一定の値でもよく、(SC,SR)のスペクトルの周波数帯域毎の各パワーの値に比例する値等でもよい。)を算出値としてもよく、あるいはゼロ(通常、ゼロは不自然であるが、本実施形態では、第1階層処理でSAFIAによる帯域選択を行うことを考慮すると、ゼロでも不自然はない。)としてもよい。
また、第2の目的音分離処理62の場合も同様であり、(SC,SL)のスペクトルから、SLのスペクトルが除去される形で、目的音SCが分離される。
その後、第3階層処理手段70により、ミニマイゼーション(Minimization)によるスペクトル統合処理71を行う。この際、周波数帯域毎に、第2階層処理手段60による第1の目的音分離処理61で分離された目的音SCのスペクトルのパワーと、第2階層処理手段60による第2の目的音分離処理62で分離された目的音SCのスペクトルのパワーとの大小を比較し、劣勢な方のパワーを、処理後に得られる目的音SCのスペクトルとして帰属させる。以上により、目的音SCと第1空間側および第2空間側の雑音SR,SLとを精度よく分離することができる。
このような本実施形態によれば、次のような効果がある。すなわち、遮音体であるロボット頭部20を挟む状態で、4系統の指向性マイクロホン31,32,41,42を設けたので、遮音体の存在および4つの指向性の形成により、各指向性マイクロホン31,32,41,42の受音信号から得られる各スペクトルを、目的音SCのスペクトルと第1空間側の雑音SRのスペクトルと第2空間側の雑音SLのスペクトルとについて、それぞれ異なる状態で優劣が付けられた混成スペクトル(SC,SR,SL S)、(SC S,SR,SL S)、(SC,SR S,SL)、(SC S,SR S,SL)とすることができる。
従って、これらの4つの指向性マイクロホン31,32,41,42の受音信号から得られた4つのスペクトルを用いて、第1階層処理手段50および第2階層処理手段60により階層的な音源分離処理を行うことにより、目的音SCに対し、第1空間側および第2空間側に雑音SR,SLが存在する状況下においても、目的音SCを精度よく分離することができる。
換言すれば、ロボット頭部20が障壁として働くことにより生じる音圧の大小関係を利用することで、厳密な伝達特性の推定を必要としない、より環境に左右されない音源分離を実現できる。
また、音源分離システム10は、第3階層処理手段70により、第3階層処理として、ミニマイゼーション(Minimization)によるスペクトル統合処理71を行うので、第2階層処理手段60による第1または第2の目的音分離処理61,62で得られる目的音SCに比べ、より一層分離精度の高い目的音SCを得ることができる。
さらに、音源分離システム10は、第1階層処理手段50により、第1階層処理として、帯域選択(SAFIA)による第1空間側雑音分離処理51および第2空間側雑音分離処理52を行うので、比較的簡易な処理で効果的な分離を行うことができる。
そして、音源分離システム10は、第2階層処理手段60により、第2階層処理として、スペクトラル・サブトラクション(SS)による第1および第2の目的音分離処理61,62を行うので、高い精度での目的音SCの分離を実現できる。
また、第1受音装置30および第2受音装置40は、4つの指向性マイクロホン31,32,41,42を用いて構成されているので、簡易な構成で高い精度の音源分離を実現でき、設備コストの低減を図ることができる。
そして、4つの指向性マイクロホン31,32,41,42は、目的音SCの到来方向と一致または略一致する方向、並びに直交または略直交する方向に向けて設けられているので、雑音SR,SLの方向が不明な場合でも、効果的に受音および音源分離を行うことができる。
なお、本発明の効果を確かめるために、以下のような比較実験を行った。
<収録条件>
3話者の同時発話音声の収録を行った。標本化周波数32kHz、16bit量子化で収録を行った。発話者の代わりに音源として、3個のスピーカSC,SR,SLを図4に示す位置に設置した。遮音体であるロボット頭部20(但し、この実験では、ロボット頭部の外殻のみ。)から各スピーカSC,SR,SLまでの距離dは、いずれもd=100cmであり、雑音源としてのスピーカSR,SLは、ロボット頭部20の正面方向(目的音源としてのスピーカSCの方向)に対してθ=60度をなす方向に配置した。また、指向性マイクロホンとして、オーディオ・テクニカ(Audiotechnica)ATM15aを使用し、合計4個の指向性マイクロホンを図4の太矢印に示す方向に配置した。
目的音声SCには、日本音響学会の新聞読み上げ音声コーパス(ASJ−JNAS)の男性話者から20人、計100文を選択した。妨害音声(雑音)SR,SLには、同様にJNASから認識対象外の男性話者の音声を用いた。各スピーカSC,SR,SLから再生する音声は、それぞれの発話長が略等しく、目的音声と妨害音声との発話エネルギが等しくなるように音量を調整した。評価セットとしては、目的音声は全て同じで、妨害音声が異なるものを2セット用意した。
<認識条件>
図5に示す(A)〜(H)の8種類の音声データの処理方法に対する認識性能を評価する。なお、(A)は、目的音源SCに向けられた1つの指向性マイクロホンにより受音し、以降の階層的な分離処理を行わなかった場合である。処理する際のフレーム長、FFTサイズは、2048ポイントとし、フレームシフトは、512ポイントとした。分析窓には、ハニング窓を用いた。そして、処理した音声に対して2万語彙の連続音声認識を行う。認識の際に用いた音響特徴量を以下に示す。
(特徴量算出パラメータ)
(1)プリエンファシス:1−0.97z-1
(2)フレーム長:25ms
(3)フレーム周期:10ms
(4)周波数分析:12チャンネル等メル間隔フィルタバンク
(5)特徴量(25次元):MFCC+ΔMFCC+Δpower
また、音響モデルには、ASJ−JNASの男性話者約100人の音声約2万文を用いて学習した。言語モデルは、CSRC提供の語彙数2万語のtrigramを使用し、認識器には、本願出願人により開発されたデコーダを用いた。
<実験結果>
図6には、3話者の認識結果が示されている。棒グラフの縦軸は、総発話数Tから、置換エラー数S、挿入エラー数I、および脱落エラー数Dを引いた値{T−(S+I+D)}を、総発話数Tで除して得られる単語認識精度である。
図6によれば、第1階層処理として、SAFIAを行っただけの場合(B)には、単語認識精度は0.7%となり、これだけでは音源分離ができていないことがわかる。
これに加え、第2階層処理を行うと、(B)に対し、SAFIAを行った場合(C)、スペクトラル・サブトラクション(SS)を行った場合(F)で、エラー削減がみられた。これにより、階層的な処理が有効であることがわかる。また、(C)と(F)とを比べると、第2階層処理は、SAFIAよりもスペクトラル・サブトラクション(SS)が有効であることがわかる。
第3階層処理としてスペクトル統合処理を行うことで、さらに認識性能を向上させることができた。(D)と(E)、(G)と(H)を比べると、第3階層処理は、アディション(Addition)よりもミニマイゼーション(Minimization)が有効であることがわかる。アディション(Addition)は、目的音声SCを強調する効果が高いが、妨害音声SR,SLを除去する効果は乏しい。これに対し、ミニマイゼーション(Minimization)は、信頼度の高いスペクトルを選択するので、妨害音声SR,SLの除去に効果があるといえる。SAFIA、スペクトラル・サブトラクション(SS)、ミニマイゼーション(Minimization)という順番で階層的な処理を行った場合(H)には、最高で認識精度は、68.9%となった。
従って、4系統の指向性マイクロホンを設置し、遮音体であるロボット頭部20の構造を活かした階層的な音源分離処理を行うことで、認識精度の向上を図ることができることがわかり、実環境下での3話者の同時発話音声認識実験では、SAFIA、スペクトラル・サブトラクション(SS)、ミニマイゼーション(Minimization)という順番で、3階層の分離処理を施すことにより、遠隔マイクに比べて72%のエラーを削減することに成功した。以上により、本発明の効果が顕著に示された。
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
すなわち、前記実施形態では、4系統の指向性マイクロホン31,32,41,42を用いて、本発明における第1空間側主方向、第1空間側副方向、第2空間側主方向、第2空間側副方向に向けた指向性が形成されていたが、このような4方向の指向性の形成は、複数の無指向性または指向性マイクロホンにより構成されるマイクロホンアレー装置を用いて実現してもよく、あるいは第1空間側副方向および第2空間側副方向に向けた指向性の形成については、指向性マイクロホンにより実現するのではなく、遮音体であるロボット頭部20の存在を利用して無指向性マイクロホンにより実現してもよい。従って、後者の場合には、第1空間側主方向および第2空間側主方向に向けた指向性の形成については、前記実施形態の如く指向性マイクロホンにより実現し、一方、第1空間側副方向および第2空間側副方向に向けた指向性の形成については、無指向性マイクロホン(無指向性マイクロホンと遮音体との組合せ)により実現することができる。
また、前記実施形態では、第1階層処理手段50は、第1階層処理として、帯域選択(SAFIA)を行う構成とされていたが、本発明における第1階層処理は、SAFIAに限定されるものではなく、要するに、第1空間側の雑音SRとそれ以外の音(SC,SL)とを分離でき、かつ、第2空間側の雑音SLとそれ以外の音(SC,SR)とを分離することができる処理であればよい。
さらに、前記実施形態では、第2階層処理手段60は、第2階層処理として、スペクトラル・サブトラクション(SS)を行う構成とされていたが、本発明における第2階層処理は、SSに限定されるものではなく、例えば、帯域選択(SAFIA)でもよい。但し、前述した図6の実験結果に示す如く、分離精度向上の観点からは、SAFIAよりもSSとすることが好ましい。なお、第2階層処理として帯域選択(SAFIA)を行う場合には、第1空間側の雑音SRのスペクトルと、第2空間側の雑音SL以外の音(SC,SR)のスペクトルとを用いて、すなわちRR−RF間において、SAFIAを行い、(SC,SR)のスペクトルのパワーの方が、SRのスペクトルのパワーよりも大きいときに、その大きい方のパワーを、分離して得られるSCのスペクトルとして帰属させるとともに、第2空間側の雑音SLのスペクトルと、第1空間側の雑音SR以外の音(SC,SL)のスペクトルとを用いて、すなわちLL−LF間において、SAFIAを行い、(SC,SL)のスペクトルのパワーの方が、SLのスペクトルのパワーよりも大きいときに、その大きい方のパワーを、分離して得られるSCのスペクトルとして帰属させる。
そして、前記実施形態では、音源分離システム10は、第3階層処理手段70により第3階層処理としてスペクトル統合処理71を行う構成とされていたが、第3階層処理は省略してもよい。但し、前述した図6の実験結果に示す如く、目的音SCの分離精度向上の観点からは、第3階層処理を行うことが好ましい。
以上のように、本発明の音源分離方法およびそのシステムは、例えば、ロボット頭部の左右両側の側面に設置したマイクロホンによるハンズフリー音声認識を行う場合等に用いるのに適している。
本発明の一実施形態の音源分離システムの全体構成図。 前記実施形態の音源分離システムの一部の詳細構成図。 前記実施形態の音源分離システムによる第1階層処理で行われる帯域選択の処理(SAFIA)の説明図。 実験時の収録環境を示す図。 実験を行った8種類の音声データの処理方法(A)〜(H)の内容を示す図。 実験結果を示す図。
符号の説明
10 音源分離システム
20 遮音体であるロボット頭部
30 第1受音装置
31,32,41,42 指向性マイクロホン
40 第2受音装置
50 第1階層処理手段
51 第1空間側雑音分離処理
52 第2空間側雑音分離処理
60 第2階層処理手段
61 第1の目的音分離処理
62 第2の目的音分離処理
70 第3階層処理手段
71 スペクトル統合処理
C 目的音
R 第1空間側の雑音
L 第2空間側の雑音

Claims (14)

  1. 目的音と雑音とを分離する音源分離方法であって、
    前記目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に遮音体を配置し、
    この遮音体の前記第1空間側に設けられた第1受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行い、
    これと並行して、前記遮音体の前記第2空間側に設けられた第2受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行った後、
    第1階層処理として、前記第2受音装置で前記第2空間側主方向に指向性を向けて得られたスペクトルと前記第1受音装置で前記第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第1空間側の前記雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、前記第1受音装置で前記第1空間側主方向に指向性を向けて得られたスペクトルと前記第2受音装置で前記第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第2空間側の前記雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行い、
    続いて、第2階層処理として、前記第1階層処理としての前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルと前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第1の目的音分離処理、および/または前記第1階層処理手段としての前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルと前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第2の目的音分離処理を行う
    ことを特徴とする音源分離方法。
  2. 請求項1に記載の音源分離方法において、
    前記第2階層処理として、前記第1および前記第2の目的音分離処理の双方を行い、
    その後、第3階層処理として、前記第2階層処理としての前記第1の目的音分離処理で分離された前記目的音のスペクトルと前記第2の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う
    ことを特徴とする音源分離方法。
  3. 請求項1または2に記載の音源分離方法において、
    前記第1階層処理としての前記第1空間側雑音分離処理および前記第2空間側雑音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。
  4. 請求項1〜3のいずれかに記載の音源分離方法において、
    前記第2階層処理としての前記第1の目的音分離処理は、前記第1階層処理としての前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
    前記第2階層処理としての前記第2の目的音分離処理は、前記第1階層処理としての前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
    ことを特徴とする音源分離方法。
  5. 請求項1〜3のいずれかに記載の音源分離方法において、
    前記第2階層処理としての前記第1および前記第2の目的音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。
  6. 請求項1〜5のいずれかに記載の音源分離方法において、
    前記第1空間側主方向および前記第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて前記第1受音装置を構成し、
    前記第2空間側主方向および前記第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて前記第2受音装置を構成する
    ことを特徴とする音源分離方法。
  7. 請求項1〜6のいずれかに記載の音源分離方法において、
    前記第1空間側主方向および前記第2空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
    前記第1空間側副方向および前記第2空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
    ことを特徴とする音源分離方法。
  8. 目的音と雑音とを分離する音源分離システムであって、
    前記目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に配置される遮音体と、
    この遮音体の前記第1空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第1受音装置と、
    前記遮音体の前記第2空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第2受音装置と、
    前記第2受音装置で前記第2空間側主方向に指向性を向けて得られたスペクトルと前記第1受音装置で前記第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第1空間側の前記雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、前記第1受音装置で前記第1空間側主方向に指向性を向けて得られたスペクトルと前記第2受音装置で前記第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第2空間側の前記雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行う第1階層処理手段と、
    この第1階層処理手段による前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルと前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第1の目的音分離処理、および/または前記第1階層処理手段による前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルと前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第2の目的音分離処理を行う第2階層処理手段と
    を備えたことを特徴とする音源分離システム。
  9. 請求項8に記載の音源分離システムにおいて、
    前記第2階層処理手段は、前記第1および前記第2の目的音分離処理の双方を行う構成とされ、
    前記第2階層処理手段による前記第1の目的音分離処理で分離された前記目的音のスペクトルと前記第2の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う第3階層処理手段を備えた
    ことを特徴とする音源分離システム。
  10. 請求項8または9に記載の音源分離システムにおいて、
    前記第1階層処理手段による前記第1空間側雑音分離処理および前記第2空間側雑音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。
  11. 請求項8〜10のいずれかに記載の音源分離システムにおいて、
    前記第2階層処理手段による前記第1の目的音分離処理は、前記第1階層処理手段による前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
    前記第2階層処理手段による前記第2の目的音分離処理は、前記第1階層処理手段による前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
    ことを特徴とする音源分離システム。
  12. 請求項8〜10のいずれかに記載の音源分離システムにおいて、
    前記第2階層処理手段による前記第1および前記第2の目的音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。
  13. 請求項8〜12のいずれかに記載の音源分離システムにおいて、
    前記第1受音装置は、
    前記第1空間側主方向および前記第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成され、
    前記第2受音装置は、
    前記第2空間側主方向および前記第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成されている
    ことを特徴とする音源分離システム。
  14. 請求項8〜13のいずれかに記載の音源分離システムにおいて、
    前記第1空間側主方向および前記第2空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
    前記第1空間側副方向および前記第2空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
    ことを特徴とする音源分離システム。
JP2004043719A 2004-02-19 2004-02-19 音源分離方法およびそのシステム Expired - Fee Related JP4594629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004043719A JP4594629B2 (ja) 2004-02-19 2004-02-19 音源分離方法およびそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004043719A JP4594629B2 (ja) 2004-02-19 2004-02-19 音源分離方法およびそのシステム

Publications (2)

Publication Number Publication Date
JP2005234246A JP2005234246A (ja) 2005-09-02
JP4594629B2 true JP4594629B2 (ja) 2010-12-08

Family

ID=35017259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004043719A Expired - Fee Related JP4594629B2 (ja) 2004-02-19 2004-02-19 音源分離方法およびそのシステム

Country Status (1)

Country Link
JP (1) JP4594629B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135143B2 (en) 2005-11-15 2012-03-13 Yamaha Corporation Remote conference apparatus and sound emitting/collecting apparatus
JP4473829B2 (ja) * 2006-02-28 2010-06-02 日本電信電話株式会社 収音装置、プログラム及びこれを記録した記録媒体
JP5238163B2 (ja) * 2007-01-15 2013-07-17 クラリオン株式会社 音源分離ユーザインタフェース装置
JP4519900B2 (ja) * 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4886616B2 (ja) * 2007-06-25 2012-02-29 日本電信電話株式会社 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体
JP5034734B2 (ja) * 2007-07-13 2012-09-26 ヤマハ株式会社 音処理装置およびプログラム
WO2013042201A1 (ja) * 2011-09-20 2013-03-28 トヨタ自動車株式会社 音源検出装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322074A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322074A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク
JP2001215990A (ja) * 2000-01-31 2001-08-10 Japan Science & Technology Corp ロボット聴覚装置

Also Published As

Publication number Publication date
JP2005234246A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
Delcroix et al. Strategies for distant speech recognitionin reverberant environments
EP3387648B1 (en) Localization algorithm for sound sources with known statistics
JP5156260B2 (ja) 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
CN112424863B (zh) 语音感知音频系统及方法
Bagchi et al. Combining spectral feature mapping and multi-channel model-based source separation for noise-robust automatic speech recognition
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
JP2023159381A (ja) 音声認識オーディオシステムおよび方法
JP2008122927A (ja) モータ雑音下におけるロボット用音声認識方法
Alam et al. Use of multiple front-ends and i-vector-based speaker adaptation for robust speech recognition
Bashirpour et al. Robust emotional speech recognition based on binaural model and emotional auditory mask in noisy environments
JP6253226B2 (ja) 音源分離装置
JP4594629B2 (ja) 音源分離方法およびそのシステム
Yamamoto et al. Making a robot recognize three simultaneous sentences in real-time
Okuno et al. Robot audition: Missing feature theory approach and active audition
Yamamoto et al. Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech
Xiong et al. Channel selection using neural network posterior probability for speech recognition with distributed microphone arrays in everyday environments
Kim et al. Sound source separation using phase difference and reliable mask selection selection
Kundegorski et al. Two-Microphone dereverberation for automatic speech recognition of Polish
Liu et al. Robust speech enhancement techniques for ASR in non-stationary noise and dynamic environments.
Kim et al. Sound source separation using phase difference and reliable mask selection
Takiguchi et al. Single-channel talker localization based on discrimination of acoustic transfer functions
Sawada et al. Improvement of speech recognition performance for spoken-oriented robot dialog system using end-fire array
Yamamoto et al. Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees