JP2005077731A - 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム - Google Patents

音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム Download PDF

Info

Publication number
JP2005077731A
JP2005077731A JP2003307811A JP2003307811A JP2005077731A JP 2005077731 A JP2005077731 A JP 2005077731A JP 2003307811 A JP2003307811 A JP 2003307811A JP 2003307811 A JP2003307811 A JP 2003307811A JP 2005077731 A JP2005077731 A JP 2005077731A
Authority
JP
Japan
Prior art keywords
sound
separation
processing
sound source
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003307811A
Other languages
English (en)
Other versions
JP4457221B2 (ja
Inventor
Tetsunori Kobayashi
哲則 小林
Toshiyuki Sekiya
俊之 関矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Original Assignee
Waseda University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University filed Critical Waseda University
Priority to JP2003307811A priority Critical patent/JP4457221B2/ja
Publication of JP2005077731A publication Critical patent/JP2005077731A/ja
Application granted granted Critical
Publication of JP4457221B2 publication Critical patent/JP4457221B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】 様々な音源配置に対して高精度な音源分離を行うことができる音源分離方法およびそのシステム、並びに音声認識率を向上させることができる音声認識方法およびそのシステムを提供すること。
【解決手段】 各第一次分離手段Fjにより、マイクロフォンアレー装置21の各マイクロフォンMiの出力信号を用いて複数の異なる指向特性制御を行って各音A,Bを選択的に強調または抑圧するとともに周波数解析を行うことにより、各音に向けられた複数の第一次分離処理を行った後、第二次分離手段22により、複数の第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて周波数帯域毎に第一次分離処理よりも分離精度を高めるための第二次分離処理を行って目的音を分離する。
【選択図】 図1

Description

本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離する音源分離方法およびそのシステム、並びに複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法およびそのシステムに係り、例えば、遠隔発話を行う複数の話者による混合音声から任意の話者の音声を分離する場合、あるいは遠隔発話を行う話者の音声とその他の音との混合音から話者の音声を分離する場合等に利用できる。
通常の音声認識では、口元で発話した音声を接話型マイクロフォンにより収録し、認識処理を行う。しかし、ロボットとの対話、カーナビゲーションシステム等の車載機器についての音声による操作、会議の議事録作成等、接話型マイクロフォンの利用をユーザに課すことが不自然となる用途も多い。このような用途においては、システム側に設置したマイクロフォンにより音声を収録し、認識処理することが望まれる。
しかし、発話者から離れた場所に設置したマイクロフォンにより音声認識を行う場合、SN比が悪化し、音声認識の精度は極度に劣化する。このため、マイクロフォンアレーにより指向特性を制御する等して、所望の音声だけを選択的に収録する試みがなされているが、このような指向特性の制御だけでは、所望の音声を背景雑音から分離して取り出すことは困難であった。
なお、マイクロフォンアレーによる指向特性制御の技術自体は、公知の技術であり、例えば、遅延和アレー(DSA:Delayed Sum Array、または以下ではBF:Beam-Formingと呼ぶことがある。)による指向特性制御に関する技術(非特許文献1参照)、あるいはDCMP(Directionally Constrained Minimization of Power)アダプティブアレーによる指向特性制御に関する技術(非特許文献2参照)等がある。
一方、遠隔発話による音声を分離する技術として、複数の固定マイクロフォンの出力信号を狭帯域スペクトル分析し、周波数帯域毎に最も大きな振幅を与えたマイクロフォンにその周波数帯域の音を割り当てる技術(SAFIAと称されている。)もある(特許文献1参照)。この帯域選択(BS:Band Selection)による音声の分離技術では、所望の音声を得るために、所望の音声を発する音源に最も近いマイクロフォンを選び、そのマイクロフォンに割り当てられた周波数帯域の音を使って音声を合成する。
特許第3355598号掲載公報(段落[0006]、[0007]、図1、要約) 大賀寿郎、山崎芳男、金田豊著、"音響システムとディジタル処理"、初版、社団法人電子情報通信学会、1995年3月25日、p.181−186 菊間信良著、"アレーアンテナによる適応信号処理"、初版、株式会社科学技術出版、1998年11月25日、p.87−114
ところで、帯域選択(BS)による音声分離を行う場合には、各音源からの音声が適切に強調された各周波数特性を算出し、これらの各周波数特性における同一の周波数帯域の振幅値同士の大小比較を適切に行えるようにしなければならない。なお、本願明細書において、上記のように「周波数特性」について「各音源からの音声が適切に「強調」された」というときは、各音源からの音声の特性を反映した周波数特性を算出するという意味であり、対象音源以外の音源からの音声を「抑圧」することも含むものとする。
しかしながら、前述した特許文献1に記載された技術(SAFIA)では、2つの固定マイクロフォンの出力信号に基づき帯域選択による音源分離を行うので、指向性マイクロフォンの指向性の範囲外に音源が存在する場合や、音源が非常に接近して存在する場合においては、各マイクロフォンの出力信号を狭帯域スペクトル分析して得られる各周波数特性に差違が殆ど生じなくなり、帯域選択が困難になるという問題がある。
本発明の目的は、様々な音源配置に対して高精度な音源分離を行うことができる音源分離方法およびそのシステム、並びに音声認識率を向上させることができる音声認識方法およびそのシステムを提供するところにある。
本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離する音源分離方法であって、マイクロフォンアレー装置を構成する複数のマイクロフォンにより混合音をそれぞれ入力し、各マイクロフォンの出力信号を用いて複数の異なる指向特性制御を行って各音を選択的に強調または抑圧するとともに周波数解析を行うことにより、各音に向けられた複数の第一次分離処理を行った後、これらの複数の第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて周波数帯域毎に第一次分離処理よりも分離精度を高めるための第二次分離処理を行って目的音を分離することを特徴とするものである。
ここで、「音」とは、主として人間の音声であるが、その他に、例えば、音楽(楽器音)、動物の鳴き声、雷鳴・さざ波の音・川のせせらぎの音等の自然界の音、ブザー音・警報音・クラクション・警笛等の各種の効果音、雑踏の音、自動車の走行音・飛行機の離陸音・工作機械の稼働音等の各種の機械音などが含まれる。また、「目的音」も同様であり、主として人間の音声であるが、その他の種類の音を目的音としてもよく、音源の方向が定まるものであれば目的音とすることができる。さらに、「混合音」は、同一種類の音の混合音である必要はなく、例えば、人間の音声とその他の種類の音との混合音であってもよい。以下の発明においても同様である。
また、「各音に向けられた複数の第一次分離処理」とは、各分離対象音を強調するか、または各分離対象音以外の音を抑圧する指向特性制御を行うことにより、各分離対象音を分離する処理をいう。
さらに、「強調」とは、例えば、遅延和アレー(BF)による指向特性制御(非特許文献1参照)等により実現され、「抑圧」とは、例えば、DCMPアダプティブアレーによる指向特性制御(非特許文献2参照)等により実現される。
そして、「各周波数特性のうち同一の周波数帯域についての各振幅値を用いて」とは、少なくとも各振幅値を用いて第二次分離処理を行えばよい趣旨であり、各振幅値のみならず各位相値を用いて第二次分離処理を行う場合も含まれる。
このような本発明の音源分離方法においては、第一次分離処理として、マイクロフォンアレーを用いて音源の位置情報を利用して指向特性制御を行うので、どのような音源配置であっても、各音源からの音声が適切に強調された各周波数特性を算出することが可能となる。
そして、第一次分離処理で得られた各周波数特性(周波数帯域毎の各振幅値、あるいは周波数帯域毎の各振幅値および各位相値)を用いて、周波数帯域毎に第二次分離処理を行うので、第一次分離処理よりも分離精度の高い分離処理が実現される。この際、第一次分離処理で得られる各周波数特性は、各音源からの音声が適切に強調された周波数特性であるから、第二次分離処理を効果的かつ的確に行うことが可能となるので、第二次分離処理を行うこと自体の意義を高めることができるようになる。
従って、これらの第一次分離処理および第二次分離処理を行うことにより、様々な音源配置に対して高精度な音源分離を行うことが可能となり、これらにより前記目的が達成される。
また、前述した音源分離方法において、第二次分離処理を行う際には、第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値の大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で最も大きい振幅値のみを選択し、この最も大きい振幅値を第二次分離処理結果としてこの振幅値に対応する第一次分離処理が向けられている音に帰属させる帯域選択を行うようにしてもよい。
このように第二次分離処理として帯域選択による音源分離を行うようにした場合には、第一次分離処理で得られる各周波数特性が、マイクロフォンアレーを用いて指向特性制御を行って得られる周波数特性であり、従って、どのような音源配置であっても、各音源からの音声が適切に強調された周波数特性であることから、第二次分離処理として行う帯域選択を効果的かつ的確に行うことが可能となる。つまり、各周波数特性における同一の周波数帯域の振幅値同士の大小比較を適切に行うことが可能となる。このため、前述した特許文献1に記載された技術(SAFIA)のように固定マイクロフォンで得られる各周波数特性を用いて帯域選択を行う場合に比べ、帯域選択の性能を向上させることができ、精度よく目的音を分離することが可能となる。
さらに、前述した音源分離方法において、第二次分離処理を行う際には、第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する各音の寄与割合とを用いて、第二次分離処理結果としての各音の振幅値を周波数帯域毎に算出してもよく、この際、寄与割合は、第一次分離処理で用いる周波数帯域毎の指向特性で周波数帯域毎に定める。
このように第二次分離処理として指向特性で定まる寄与割合に基づき音源分離を行うようにした場合には、マイクロフォンアレーを用いて指向特性制御を行って得られた第一次分離処理結果に対し、さらに寄与割合を考慮して分離対象の音声成分と他の音声成分とを分けることが可能となるので、より一層高精度な音源分離を実現できるようになる。
そして、前述した音源分離方法において、第二次分離処理を行う際には、フレーム長よりも長時間のデータに基づく第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する各音の寄与割合とを用いて、各音のうち目的音以外の雑音についての振幅値を周波数帯域毎に算出するノイズ推定を行い、この際、寄与割合は、第一次分離処理で用いる周波数帯域毎の指向特性で周波数帯域毎に定め、その後、1フレームのデータに基づく目的音に向けられた第一次分離処理結果として得られた周波数特性の振幅値から、ノイズ推定により算出された雑音についての振幅値またはその比例値を減じる処理を周波数帯域毎に行うことにより、ノイズを除去するようにしてもよい。
ここで、「フレーム長よりも長時間のデータに基づく」とは、複数のフレームの各データを平均化する場合、連続する一つの長時間データに基づく場合のいずれも含まれる。但し、後者の場合には、周波数解析時のサンプル数が多くなり、周波数帯域の幅が変動してしまうので、前者のように複数のフレームの各データを平均化することが好ましい。
このようにフレーム長よりも長時間のデータに基づきノイズを推定し、除去するようにした場合には、マイクロフォンアレーを用いて指向特性制御を行って得られる第一次分離処理結果に対し、これに含まれるノイズ分を除去することができるので、音源分離精度を、より一層高めることが可能となる。
そして、ノイズ除去を行う際には、フレーム長よりも長時間のデータに基づき雑音についての振幅値を求めるので、目的音と雑音との相関値を小さくし、安定した状態で雑音についての振幅値を求めることができ、精度の良いノイズ除去を行うことが可能となる。つまり、短時間のデータに基づく第一次分離処理結果のみでは、目的音と雑音との相関が大きいので、誤差が大きくなると考えられる。そこで、長時間のデータを観測し、平均化処理を行うことで相関値を小さくすることにより、誤差を小さくして安定した状態で、除去すべきノイズ分を推定することが可能となる。
また、以上に述べた音源分離方法において、第一次分離処理として行う周波数解析には、例えば、高速フーリエ変換(FFT:First Fourier Transform)や一般化調和解析(GHA:Generalized Harmonic Analysis)等を採用することができるが、窓関数の影響を受けずに、より正確な周波数特性を算出する、あるいは、より細かい周波数成分まで解析するという観点からは、一般化調和解析(GHA)であることが望ましい。
さらに、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、サンプル用音声データについて本発明の音源分離方法による分離処理を行ってスペクトル変形を生じた変形音声データを得た後、この変形音声データと標準音響モデルとを用いて適応処理を行うことにより分離音声用音響モデルを生成しておき、本発明の音源分離方法による分離処理を行った後、分離された目的音について、予め用意された分離音声用音響モデルを用いて音声認識処理を行うことを特徴とするものである。
ここで、「適応処理」には、例えば、代表的なものとして、MLLR(Maximum Likelihood linear regression)による適応処理等がある。
このように適応処理を行って得られた分離音声用音響モデルを用いて音声認識処理を行うようにした場合には、本発明の音源分離方法を実施して周波数領域での分離処理を行うことにより生じたスペクトル変形を、分離音声用音響モデルで吸収することが可能となるので、認識性能の向上が図られる。
そして、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、サンプル用音声データについて本発明の音源分離方法による分離処理を行ってスペクトル変形を生じた変形音声データを得た後、この変形音声データを用いて学習処理を行うことにより分離音声用音響モデルを生成しておき、本発明の音源分離方法による分離処理を行った後、分離された目的音について、予め用意された分離音声用音響モデルを用いて音声認識処理を行うことを特徴とするものである。
このように学習処理を行って得られた分離音声用音響モデルを用いて音声認識処理を行うようにした場合には、本発明の音源分離方法を実施して周波数領域での分離処理を行うことにより生じたスペクトル変形を、分離音声用音響モデルで吸収することが可能となるので、認識性能の向上が図られる。
また、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、本発明の音源分離方法による分離処理を行った後、音声認識処理を行う前に、分離された目的音に対して雑音を付与することを特徴とするものである。
このように音声認識処理を行う前に雑音を付与するようにした場合には、本発明の音源分離方法による分離処理を行って得られた目的音の波形を、実際の滑らかな波形に近づけることが可能となるので、認識性能の向上が図られる。
また、以上に述べた本発明の音源分離方法および音声認識方法を実現するシステムとして、以下のような本発明の音源分離システムおよび音声認識システムが挙げられる。
すなわち、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離する音源分離システムであって、混合音をそれぞれ入力する複数のマイクロフォンを並べて構成されたマイクロフォンアレー装置と、このマイクロフォンアレー装置の各マイクロフォンの出力信号を用いてそれぞれ異なる指向特性制御を行って各音を選択的に強調または抑圧するとともに周波数解析を行うことにより各音に向けられた第一次分離処理を行う複数の第一次分離手段と、これらの複数の第一次分離手段による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて周波数帯域毎に第一次分離処理よりも分離精度を高めるための第二次分離処理を行って目的音を分離する第二次分離手段とを備えたことを特徴とするものである。
このような本発明の音源分離システムにおいては、前述した本発明の音源分離方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。
また、前述した音源分離システムにおいて、第二次分離手段は、第一次分離手段による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値の大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で最も大きい振幅値のみを選択し、この最も大きい振幅値を第二次分離処理結果としてこの振幅値に対応する第一次分離手段により行われる第一次分離処理が向けられている音に帰属させる帯域選択を行う構成としてもよい。
さらに、前述した音源分離システムにおいて、第二次分離手段は、第一次分離手段による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する各音の寄与割合とを用いて、第二次分離処理結果としての各音の振幅値を周波数帯域毎に算出する構成としてもよく、この場合には、寄与割合は、第一次分離手段により形成された周波数帯域毎の指向特性で周波数帯域毎に定まる構成とする。
そして、前述した音源分離システムにおいて、第二次分離手段は、第一次分離手段によるフレーム長よりも長時間のデータに基づく処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する各音の寄与割合とを用いて、各音のうち目的音以外の雑音についての振幅値を周波数帯域毎に算出するノイズ推定手段と、目的音に向けられた第一次分離処理を行う第一次分離手段による1フレームのデータに基づく処理結果として得られた周波数特性の振幅値から、ノイズ推定手段により算出された雑音についての振幅値またはその比例値を減じる処理を周波数帯域毎に行うことによりノイズを除去するノイズ除去手段とを備えた構成としてもよく、この場合には、寄与割合は、第一次分離手段により形成された周波数帯域毎の指向特性で周波数帯域毎に定まる構成とする。
また、以上に述べた音源分離システムにおいて、第一次分離手段による周波数解析には、例えば、高速フーリエ変換(FFT)や一般化調和解析(GHA)等を採用することができるが、窓関数の影響を受けずに、より正確な周波数特性を算出する、あるいは、より細かい周波数成分まで解析するという観点からは、一般化調和解析(GHA)であることが望ましい。
さらに、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、本発明の音源分離システムと、サンプル用音声データについて本発明の音声分離システムによる分離処理を行って得られるスペクトル変形を生じた変形音声データと標準音響モデルとを用いて適応処理を行って得られた分離音声用音響モデルを記憶する分離音声用音響モデル記憶手段と、本発明の音源分離システムにより分離された目的音について分離音声用音響モデル記憶手段に記憶されたデータを用いて音声認識処理を行う音声認識処理手段とを備えたことを特徴とするものである。
そして、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、本発明の音源分離システムと、サンプル用音声データについて本発明の音源分離システムによる分離処理を行って得られるスペクトル変形を生じた変形音声データを用いて学習処理を行って得られた分離音声用音響モデルを記憶する分離音声用音響モデル記憶手段と、音源分離システムにより分離された目的音について分離音声用音響モデル記憶手段に記憶されたデータを用いて音声認識処理を行う音声認識処理手段とを備えたことを特徴とするものである。
また、本発明は、複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、本発明の音源分離システムと、この音源分離システムにより分離された目的音に対して音声認識処理を行う前に雑音を付与する雑音付与手段と、この雑音付与手段により雑音を付与された目的音について音声認識処理を行う音声認識処理手段とを備えたことを特徴とするものである。
以上に述べた本発明の音声認識システムにおいては、前述した本発明の音声認識方法で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。
以上に述べたように本発明によれば、第一次分離処理として、マイクロフォンアレーを用いて複数の異なる指向特性制御を行うので、どのような音源配置であっても、各音源からの音声が適切に強調された各周波数特性を算出することができ、さらに、第二次分離処理として、第一次分離処理で得られた適切な各周波数特性を用いて、周波数帯域毎に第一次分離処理よりも分離精度の高い分離処理を行うので、様々な音源配置に対して高精度な音源分離を行うことができるうえ、音声認識を行う場合には、音源分離精度の向上に伴って認識率を向上させることができるという効果がある。
以下に本発明の各実施形態について図面を参照して説明する。
[第1実施形態]
図1には、本発明の第1実施形態の音声認識システム10の全体構成が示されている。図2には、音声認識システム10の各第一次分離手段Fjにより形成される指向特性が例示されている。図3は、音声認識システム10の第二次分離手段22により行われる帯域選択の説明図である。
図1において、音声認識システム10は、音源分離システム20と、合成処理手段30と、雑音付与手段31と、雑音記憶手段32と、分離音声用周波数解析手段33と、音声認識処理手段34と、分離音声用音響モデル記憶手段35と、認識結果表示処理手段36と、表示装置37とを備えて構成されている。
音源分離システム20は、マイクロフォンアレー装置21と、複数の第一次分離手段Fj(j=1〜J)と、第二次分離手段22とを備えて構成されている。
マイクロフォンアレー装置21は、複数のマイクロフォンMi(i=1〜I)を並べて構成されている。各マイクロフォンMiは、例えば、無指向性コンデンサマイクロフォンであり、等間隔直線状に配置されている。マイクロフォンの個数(素子数)は、例えば8個(I=8)等であるが、この個数に限定されるものではない。そして、このマイクロフォンアレー装置21の各マイクロフォンMi(i=1〜I)のそれぞれが、各音源SA,SB,…から発せられた各音A,B,…の混合音を入力するようになっている。なお、本第1実施形態を含めて本願明細書における各実施形態では、各音A,B,…を、複数の発話者による各音声A,B,…として説明を行うが、本発明における音源分離の対象となる目的音、あるいは雑音は、音声に限定されるものではない。
各第一次分離手段Fj(j=1〜J)は、混合音から各音を第一次分離するフィルタの機能を果たすものであり、それぞれ指向特性制御手段Dj(j=1〜J)と、周波数解析手段Wj(j=1〜J)とにより構成されている。なお、指向特性制御手段Djと周波数解析手段Wjとは、説明の便宜上、分けて記載しているが、実際の演算処理は同時に行ってもよい。
各指向特性制御手段Dj(j=1〜J)は、それぞれマイクロフォンアレー装置21の各マイクロフォンMi(i=1〜I)の出力信号を用い、それぞれ異なる指向特性制御を行って各音源SA,SB,…から発せられた各音A,B,…を選択的に強調または抑圧する処理を行うものである。換言すれば、任意の一つの指向特性制御手段Djは、複数のマイクロフォンMi(i=1〜I)の出力信号を用い、各周波数帯域毎に一つの指向特性を形成する。そして、形成される指向特性は、全て異なるものであり、結局、各周波数帯域毎に指向特性制御手段Dj(つまり、第一次分離手段Fj)の個数Jと同数の指向特性が形成される。図2の例では、4つの第一次分離手段F1〜F4により、各周波数帯域毎に4つの異なる指向特性が形成されている。なお、図2は、ある一つの周波数帯域の指向特性のみを示している。
各指向特性制御手段Djにより行われるアレー信号処理は、具体的には、例えば、遅延和アレー(BF)による指向特性制御、あるいはDCMPアダプティブアレーによる指向特性制御等である。
遅延和アレー(BF)は、マイクロフォンアレー装置21で受音した信号の位相差を相殺するように各受音信号に対して位相を制御することにより目的音の強調を行う手法である。この遅延和アレー(BF)の原理等については、前述した非特許文献1に詳述されているので、ここでは詳しい説明を省略する。
DCMPアダプティブアレーは、目的音の到来方向が既知の場合に適用できるアレーシステムである。DCMPアレーにおける指向特性の最適化は、拘束条件を用いて目的音の入力を一定のゲインに保ったままアレー出力電力を最小化することにより達成される。結果として目的音成分を抑圧することなく、他の信号成分を抑圧するヌルステアリングとして機能し、高性能な音源分離が可能になる。このDCMPアダプティブアレーの原理等については、前述した非特許文献2に詳述されているので、ここでは詳しい説明を省略する。
図2には、一例として、4つの第一次分離手段F1〜F4の指向特性制御手段D1〜D4により形成された、ある周波数帯域についての4つの異なる指向特性が示されている。但し、指向特性制御手段Djの個数(形成する指向特性の個数)は、4つに限定されるものではなく、第二次分離手段22による処理内容に応じて適宜定めればよい。図2において、実線は、音声Aに向けた遅延和アレー(BF)による指向特性であり、点線は、音声Bに向けた遅延和アレー(BF)による指向特性であり、一点鎖線は、音声Aに向けた(音声Bを消す)DCMPアレーによる指向特性であり、二点鎖線は、音声Bに向けた(音声Aを消す)DCMPアレーによる指向特性である。図2の横軸は、マイクロフォンアレー装置21の設置方向に対する相対的な方向(角度)であり、マイクロフォンアレー装置21の正面方向が0度となっている。θA,θBは、各音源SA,SBから発せられた音声A,Bの到来方向である。図2の縦軸は、振幅である。そして、このような4つの指向特性が周波数帯域毎に形成されることになる。
なお、本第1実施形態では、後述するように、帯域選択(BS)による音源分離を行うので、例えば、分離対象となる音源が2つの音源SA,SBである場合には、Aに向けた指向特性とBに向けた指向特性との2つの指向特性、分離対象となる音源が3つの音源SA,SB,Scである場合には、Aに向けた指向特性とBに向けた指向特性とCに向けた指向特性との3つの指向特性(つまり、対になった一組の指向特性)を形成すれば足りるが、後述する第2、第3実施形態での説明でも流用できるように、図2には、対になった指向特性(A,Bに向けた指向特性)が二組形成されている。
各周波数解析手段Wj(j=1〜J)は、各指向特性制御手段Dj(j=1〜J)により指向特性制御を行った信号について周波数解析を行うものである。周波数解析としては、具体的には、例えば、高速フーリエ変換(FFT)や一般化調和解析(GHA)等を採用することができる。
但し、周波数解析に高速フーリエ変換(FFT)を用いると、窓関数の影響で本来あるべきラインスペクトルが観測されず、正確な周波数特性を算出することができなくなる。このため、帯域選択において選択誤りが生じ、音源分離性能が劣化する可能性がある。一方、周波数解析に一般化調和解析(GHA)を用いると、一般化調和解析(GHA)では窓関数を用いることなく解析を行うことができるため、窓関数の影響を受けずに正確な周波数特性を算出することが可能となる。さらに、高速フーリエ変換(FFT)よりも細かい周波数成分まで解析することができるため、より精密な帯域選択による音源分離が可能となる。従って、以上のような観点からは、一般化調和解析(GHA)を用いることが望ましい。
第二次分離手段22は、複数の第一次分離手段Fj(j=1〜J)による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて、周波数帯域毎に第一次分離処理よりも分離精度を高めるための第二次分離処理を行って目的音を分離する処理を行うものである。本第1実施形態では、第二次分離手段22は、帯域選択(BS)による音源分離を行うものとする。
帯域選択(BS)による音源分離は、次のような処理を行う。先ず、複数の第一次分離手段Fj(j=1〜J)による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値の大小の比較を周波数帯域毎に行う。次に、それぞれの周波数帯域において、最も大きい振幅値のみを選択し、この最も大きい振幅値を、第二次分離処理結果として、この振幅値に対応する(この振幅値を算出した)第一次分離手段Fj(F1〜FJのうちのいずれか一つ)により行われる第一次分離処理が向けられている音に帰属させる。
なお、「最も大きい振幅値」とは、対になる一組の指向特性制御を行う各第一次分離手段Fjにより算出された各周波数特性における振幅値のうちで、最も大きい振幅値を意味し、例えば、分離対象となる音源が2つの音源SA,SBである場合には、Aに向けた指向特性制御を行う第一次分離手段Fjにより算出された周波数特性における振幅値と、Bに向けた指向特性制御を行う第一次分離手段Fjにより算出された周波数特性における振幅値とのうち、大きい方の振幅値という意味である。従って、対にならない指向特性制御(例えば、いずれもAに向けた指向特性制御である場合)を行う各第一次分離手段Fjにより算出された各周波数特性における振幅値同士を比較することを意味するものではない。帯域選択(BS)による音源分離を行う場合には、そもそも、対にならない指向特性は形成しないと考えてもよい。
合成処理手段30は、第二次分離手段22により分離して得られた周波数領域の目的音声(推定音声)を時間領域の音声波形に変換する合成処理を行うものである。この合成処理は、各フレーム単位で周波数解析手段Wjにより行われた解析の逆変換を行った後、各フレームの逆変換後のデータを繋いで連続波形を形成する処理である。この際、各フレーム単位では、例えば、周波数解析手段Wjにより高速フーリエ変換(FFT)が行われた場合には、高速フーリエ逆変換(IFFT:Inverse First Fourier Transform)を行い、周波数解析手段Wjにより一般化調和解析(GHA)が行われた場合には、その逆変換を行う。
雑音付与手段31は、合成処理手段30による合成処理後の時間領域の目的音声(推定音声)に対し、雑音記憶手段32に記憶された雑音を付与する処理を行うものである。なお、付与する雑音は、雑音付与手段31による処理の都度に生成してもよい。また、雑音の付与は、本実施形態では、時間領域で行われているが、周波数領域で行ってもよい。
雑音記憶手段32は、雑音付与手段31で付与する雑音データを記憶するものである。雑音データは、本実施形態では、時間領域のデータとして用意されているが、周波数領域のデータとして用意してもよい。また、雑音としては、例えば、略フラットな周波数特性を有するもの等を採用することができる。
なお、合成処理手段30や雑音付与手段31による処理後の目的音声(推定音声)は、時間領域の音声波形データであり、実際に聞くことができるので、スピーカやイヤホンにより推定音声を確認できる構成としてもよい。
分離音声用周波数解析手段33は、分離された目的音声(推定音声)について音声認識処理を行えるようにするため、時間領域の音声波形データを周波数領域のデータに変換する処理を行うものである。
音声認識処理手段34は、第二次分離手段22により分離して得られた目的音声(本実施形態の場合には、雑音付与手段31により雑音を付与した音声)について分離音声用音響モデル記憶手段35に記憶されたデータを用いて音声認識処理を行うものである。
分離音声用音響モデル記憶手段35は、音声認識処理手段34による処理で用いられる分離音声用音響モデルを記憶するものである。この分離音声用音響モデルとしては、適応処理を行って得られた分離音声用音響モデル、あるいは学習処理を行って得られた分離音声用音響モデルを用意しておくことができる。
適応処理を行って得られる分離音声用音響モデルとは、サンプル用音声データについて音声分離システム20による分離処理を行って得られるスペクトル変形を生じた変形音声データと、標準音響モデルとを用いて、適応処理を行って得られるものである。図7には、適応処理を行って分離音声用音響モデルを作成する際のフローチャートが示されている。
図7において、先ず、発話内容既知の少量のサンプル用音声データ50を実際の発声により収集する(ステップS1)。この際、サンプル用音声データ50は、数人から、1人につき数文ずつ収集する。
次に、収集したサンプル用音声データ50について音声分離システム20による分離処理を行い、スペクトル変形を生じて歪んだ状態となった少量の変形音声データ51を生成する(ステップS2)。
続いて、変形音声データ51と標準音響モデル52とを用いて適応処理を行い、分離音声用音響モデル53を生成する(ステップS3)。この適応処理には、例えばMLLR等の音声認識用の標準的な適応アルゴリズムを用いることができる。
そして、適応処理を行って得られた分離音声用音響モデル53を、分離音声用音響モデル記憶手段35(図1参照)に登録して記憶させておく(ステップS4)。
学習処理を行って得られる分離音声用音響モデルとは、サンプル用音声データについて音源分離システム20による分離処理を行って得られるスペクトル変形を生じた変形音声データを用いて、学習処理を行って得られるものである。図8には、学習処理を行って分離音声用音響モデルを作成する際のフローチャートが示されている。
図8において、先ず、音源位置およびその音源で発声する文を仮定し、計算機により、どのような音がマイクロフォンアレー装置21に入力されるかを計算するというシミュレーションを、乱数を用いて様々な組合せで行うことにより、大量のサンプル用音声データ60を自動生成する(ステップS11)。
次に、自動生成したサンプル用音声データ60について音声分離システム20による分離処理を行い、スペクトル変形を生じて歪んだ状態となった大量の変形音声データ61を生成する(ステップS12)。
続いて、変形音声データ61を用いて学習処理を行い、分離音声用音響モデル62を生成する(ステップS13)。
そして、学習処理を行って得られた分離音声用音響モデル62を、分離音声用音響モデル記憶手段35(図1参照)に登録して記憶させておく(ステップS14)。
認識結果表示処理手段36は、音声認識処理手段34による認識処理結果を表示装置37に表示する処理を行うものである。この認識結果の表示は、例えば、認識された単語を文字で表示することにより行われる。
表示装置37は、音声認識結果を含む各種の情報を画面表示するものであり、例えば、液晶ディスプレイ、CRTディスプレイ、有機ELディスプレイ、ECLディスプレイ、プラズマディスプレイ、プロジェクタおよびスクリーン、あるいはこれらの組合せ等を採用することができる。
そして、以上に述べた音声認識システム10の構成要素のうち、マイクロフォンアレー装置21以外の構成要素は、例えば、一台または複数台のコンピュータ等により実現することができる。
より具体的には、音源分離システム20の各第一次分離手段Fj(j=1〜J)および第二次分離手段22と、合成処理手段30と、雑音付与手段31と、分離音声用周波数解析手段33と、音声認識処理手段34と、認識結果表示処理手段36とは、これらを構成するコンピュータ本体(パーソナル・コンピュータのみならず、その上位機種のものも含む。)の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する一つまたは複数のプログラムにより実現することができる。
なお、例えば、音源分離システム20の各第一次分離手段Fj(j=1〜J)は、ソフトウェアによる処理ではなく、専用回路を設けてハードウェアによる処理で実現してもよい。
また、雑音記憶手段32および分離音声用音響モデル記憶手段35は、例えばハードディスク等により好適に実現されるが、記憶容量やアクセス速度等に問題が生じない範囲であれば、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)を利用した読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)、デジタル・バーサタイル・ディスク(DVD)を利用した読出し専用メモリ(DVD−ROM)、DVDを利用したランダム・アクセス・メモリ(DVD−RAM)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、あるいはこれらの組合せ等を採用することができる。
このような第1実施形態においては、以下のようにして音声認識システム10により音源分離および音声認識が行われる。
ここでは、説明を簡単にするため、分離対象となる音源は、2つの音源SA,SBであるものとする。また、音源分離は、帯域選択(BS)により行うものとする。
先ず、図1に示すように、2つの音源SA,SBから発せられた音声A,Bは、それぞれマイクロフォンアレー装置21の各マイクロフォンMi(i=1〜I)に到達し、各マイクロフォンMiにより入力される。
次に、各第一次分離手段Fjのそれぞれが、各マイクロフォンMi(i=1〜I)の出力を受け取る。そして、各第一次分離手段Fjは、各指向特性制御手段Djにより、音声Aに向けた指向特性制御と、音声Bに向けた指向特性制御とを行う。ここでは、図2に示すように、指向特性制御手段D1により音声Aに向けた遅延和アレー(BF)による指向特性制御を行い、指向特性制御手段D2により音声Bに向けた遅延和アレー(BF)による指向特性制御を行うものとする。
なお、図2に示すように、音声Aに向けた(音声Bを消す)DCMPアレーによる指向特性制御と、音声Bに向けた(音声Aを消す)DCMPアレーによる指向特性制御とを行い、帯域選択による音源分離を行ってもよい。
続いて、指向特性制御手段D1により音声Aを強調した音声データについて、周波数解析手段W1により周波数解析を行い、指向特性制御手段D2により音声Bを強調した音声データについて、周波数解析手段W2により周波数解析を行う。なお、実際の演算処理では、指向特性制御と周波数解析とは同時に処理してもよい。
その後、第二次分離手段22により、各第一次分離手段F1,F2による第一次分離処理(指向特性制御および周波数解析)で得られた各周波数特性のうち同一の周波数帯域の各振幅値(パワー)を用いて、帯域選択(BS)による第二次分離処理を行う。
図3に示すように、第一次分離手段F1による音声Aに向けた第一次分離処理結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をα1とし、周波数帯域f2の振幅値(パワー)をα2とする。また、第一次分離手段F2による音声Bに向けた第一次分離処理結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をβ1とし、周波数帯域f2の振幅値(パワー)をβ2とする。
このとき、周波数帯域f1については、振幅値α1と振幅値β1との大小を比較し、振幅値α1の方が振幅値β1よりも大きい場合には、大きい方の振幅値α1を選択し、この振幅値α1を第二次分離処理結果として音声A(この振幅値α1を算出した第一次分離手段F1により行われる第一次分離処理が向けられている音声)に帰属させる。なお、小さい方の振幅値β1は、目的音の分離処理に用いられることなく捨てられる。従って、周波数帯域f1については、振幅値α1の音声Aへの帰属度が1であり、振幅値β1の音声Bへの帰属度が0である。
同様に、周波数帯域f2については、振幅値α2と振幅値β2との大小を比較し、振幅値β2の方が振幅値α2よりも大きい場合には、大きい方の振幅値β2を選択し、この振幅値β2を第二次分離処理結果として音声B(この振幅値β2を算出した第一次分離手段F2により行われる第一次分離処理が向けられている音声)に帰属させる。なお、小さい方の振幅値α2は、目的音の分離処理に用いられることなく捨てられる。従って、周波数帯域f2については、振幅値α2の音声Aへの帰属度が0であり、振幅値β2の音声Bへの帰属度が1である。他の周波数帯域についても同様である。
そして、このように帯域選択を行って定めた帰属度に基づき、目的音声A,Bを推定する。すなわち、目的音声Aを推定するときには、音声Aへの帰属度が1になった周波数帯域の振幅値(α1等)のみを集め、一方、目的音声Bを推定するときには、音声Bへの帰属度が1になった周波数帯域の振幅値(β2等)のみを集め、それぞれ推定音声を作成する。
それから、合成処理手段30により、分離された目的音声(推定音声)を合成して時間領域の音声波形データとし、雑音付与手段31により、雑音記憶手段32に記憶された雑音を付与し、さらに、分離音声用周波数解析手段33により、周波数解析を行って時間領域の音声波形データを周波数領域のデータに変換する。
続いて、音声認識処理手段34により、目的音声(推定音声)の周波数領域のデータについて、分離音声用音響モデル記憶手段35に記憶された分離音声用音響モデルを用いて音声認識処理を行う。
そして、認識結果表示処理手段36により、音声認識処理手段34による認識結果を、表示装置37の画面上に適宜表示する。以上で、一連の音源分離および音声認識の処理を終了する。
このような第1実施形態によれば、次のような効果がある。すなわち、第一次分離手段Fjにより、マイクロフォンアレーを用いて音源の位置情報を利用して指向特性制御を行うので、どのような音源配置であっても、各音源からの音声が適切に強調された各周波数特性を算出することができる。
従って、第二次分離手段22による帯域選択を効果的かつ的確に行うことができる。つまり、各周波数特性における同一の周波数帯域の振幅値同士の大小比較を適切に行うことができる。このため、前述した特許文献1に記載された技術(SAFIA)のように固定マイクロフォンで得られる各周波数特性を用いて帯域選択を行う場合に比べ、帯域選択の性能を向上させることができ、精度よく目的音を分離することができる。
また、音声認識処理手段34により、適応処理または学習処理を行って得られた分離音声用音響モデルを用いて音声認識処理を行うので、音源分離システム20による音源分離処理で生じたスペクトル変形を、分離音声用音響モデルで吸収することができる。このため、音声認識性能の向上を図ることができる。詳述すると、音声認識システムは、スペクトル変形を含んだ音声に対し、標準的な音響モデルを学習した音声のスペクトル特性との間のミスマッチにより認識性能が劣化する。遅延和アレー(BF)やDCMPアレーで第一次分離処理を行い、第二次分離処理で帯域選択(BS)を行った音声は、人間の聴覚上は違和感なく聞こえるが、周波数領域での分離処理によりスペクトル変形が生じてしまい、音声認識を行った場合に充分な認識性能が得られない。そこで、音声認識処理手段34により、適応処理または学習処理を行って得られた分離音声用音響モデルを用いて音声認識処理を行うことにより、この問題を解消することができる。
さらに、雑音付与手段31により、音声認識処理を行う前に、分離された目的音声(推定音声)に対して雑音を付与するので、音源分離システム20による音源分離処理を行って得られた目的音声の波形を、実際の滑らかな波形に近づけることができる。このため、音声認識性能の向上を図ることができる。
[第2実施形態]
図4は、本発明の第2実施形態で行われる第二次分離処理、すなわち寄与割合を用いて最小二乗法により音源分離を行う処理の説明図である。
本第2実施形態では、第二次分離手段の処理内容が、帯域選択による音源分離ではなく、寄与割合を用いた最小二乗法による音源分離である点を除き、前記第1実施形態のシステム構成や処理内容と同様であるため、第二次分離手段以外の構成要素については、同一符号を付して詳しい説明は省略し、以下には異なる部分のみを説明するものとする。なお、第二次分離手段については、前記第1実施形態と処理内容が異なるが、説明の便宜上、前記第1実施形態と同じ符号を用いて第二次分離手段22(図1参照)として説明を行うものとする。
本第2実施形態では、図2に示した4つの第一次分離手段F1〜F4の指向特性制御手段D1〜D4により形成された4つの異なる指向特性を用いて第二次分離手段22による処理を行うものとする。
図4に示すように、第一次分離手段F1による音声Aに向けた第一次分離処理(遅延和アレー(BF)による指向特性制御)の結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をα1(f1)とする。また、この第一次分離手段F1による第一次分離処理で用いた周波数帯域f1の指向特性において、音源SAからの音声Aの到来方向の角度θAの振幅値(ゲイン)をg1(θA;f1)とし、音源SBからの音声Bの到来方向の角度θBの振幅値(ゲイン)をg1(θB;f1)とする。
同様に、第一次分離手段F2による音声Bに向けた第一次分離処理(遅延和アレー(BF)による指向特性制御)の結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をα2(f1)とする。また、この第一次分離手段F2による第一次分離処理で用いた周波数帯域f1の指向特性において、音源SAからの音声Aの到来方向の角度θAの振幅値(ゲイン)をg2(θA;f1)とし、音源SBからの音声Bの到来方向の角度θBの振幅値(ゲイン)をg2(θB;f1)とする。
同様に、第一次分離手段F3による音声Aに向けた第一次分離処理(DCMPアレーによる指向特性制御)の結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をα3(f1)とする。また、この第一次分離手段F3による第一次分離処理で用いた周波数帯域f1の指向特性において、音源SAからの音声Aの到来方向の角度θAの振幅値(ゲイン)をg3(θA;f1)とし、音源SBからの音声Bの到来方向の角度θBの振幅値(ゲイン)をg3(θB;f1)とする。
同様に、第一次分離手段F4による音声Bに向けた第一次分離処理(DCMPアレーによる指向特性制御)の結果として得られた周波数特性において、周波数帯域f1の振幅値(パワー)をα4(f1)とする。また、この第一次分離手段F4による第一次分離処理で用いた周波数帯域f1の指向特性において、音源SAからの音声Aの到来方向の角度θAの振幅値(ゲイン)をg4(θA;f1)とし、音源SBからの音声Bの到来方向の角度θBの振幅値(ゲイン)をg4(θB;f1)とする。
このとき、音声Aの周波数帯域f1の振幅値(パワー)の推定値をxA(f1)とし、音声Bの周波数帯域f1の振幅値(パワー)の推定値をxB(f1)とすると、次の式(1)〜式(4)が成立する。
α1(f1)=g1(θA;f1)*xA(f1)+g1(θB;f1)*xB(f1)+ε1
・・・・・・・(1)
α2(f1)=g2(θA;f1)*xA(f1)+g2(θB;f1)*xB(f1)+ε2
・・・・・・・(2)
α3(f1)=g3(θA;f1)*xA(f1)+g3(θB;f1)*xB(f1)+ε3
・・・・・・・(3)
α4(f1)=g4(θA;f1)*xA(f1)+g4(θB;f1)*xB(f1)+ε4
・・・・・・・(4)
ここで、ε1,ε2,ε3,ε4は、誤差であり、例えば、気温の変化による音速の相違、仮定した音源位置の誤差等に起因し、指向特性そのものが正確ではないことにより生じる誤差である。
また、縦ベクトルα、4行2列の行列G、縦ベクトルX、縦ベクトルεを、次のように置くと、前記式(1)〜式(4)は、次の式(5)のように表すことができる。
Figure 2005077731
α=GX+ε ・・・・・・・・・・・・・・・・・・・・・・・・・・(5)
この際、Xは、最小二乗法により、誤差の二乗和εTε=ε1 2+ε2 2+ε3 2+ε4 2を最小化する解として、次の式(6)により与えられる。
X=(GTG)-1Tα ・・・・・・・・・・・・・・・・・・・・・・(6)
これにより、周波数帯域f1における各音声A,Bの振幅値(パワー)の推定値xA(f1),xB(f1)が求まる。
なお、誤差を考慮せずに、2つの式による連立方程式を解き、Xを求めてもよい。つまり、前記式(1)においてε1=0とし、前記式(2)においてε2=0とし、これらの2つの式により、Xを求めてもよい。この場合には、必要となる式の数、すなわち第一次分離手段Fjの個数は、分離対象となる音源の個数と同数でよい。
このような第2実施形態によれば、次のような効果がある。すなわち、前記第1実施形態で得られる効果と同様な効果を得ることができることに加え、第二次分離手段22により、指向特性で定まる寄与割合に基づき音源分離を行うので、マイクロフォンアレーを用いて指向特性制御を行って得られた第一次分離処理結果に対し、さらに寄与割合を考慮して、この第一次分離処理結果に含まれる分離対象の音声成分と他の音声成分とを分けることができる。このため、より一層高精度な音源分離を実現できる。
[第3実施形態]
図5は、本発明の第3実施形態で行われる第二次分離処理で必要となるデータの取得方法の説明図である。図6は、第3実施形態で行われる第二次分離処理、すなわちフレーム長よりも長時間のデータに基づくノイズ推定およびノイズ除去を行う処理の説明図である。
本第3実施形態では、第二次分離手段の処理内容が、帯域選択による音源分離ではなく、フレーム長よりも長時間のデータに基づくノイズ推定およびノイズ除去を行う音源分離である点を除き、前記第1実施形態のシステム構成や処理内容と同様であるため、第二次分離手段以外の構成要素については、同一符号を付して詳しい説明は省略し、以下には異なる部分のみを説明するものとする。なお、第二次分離手段については、前記第1実施形態と処理内容が異なるが、説明の便宜上、前記第1実施形態と同じ符号を用いて第二次分離手段22として説明を行うものとする。
図6において、本第3実施形態では、第二次分離手段22は、ノイズ推定手段22Aと、ノイズ除去手段22Bとを備えて構成されている。
ノイズ推定手段22Aは、前記第2実施形態の第二次分離処理と同様に、寄与割合を用いて最小二乗法により音源分離を行うことにより、ノイズを推定する。但し、このノイズ推定の際には、前記第2実施形態の場合とは異なり、フレーム長Lよりも長時間Kのデータに基づき、寄与割合を用いて最小二乗法によりノイズ推定のための音源分離(除去すべきノイズ成分を推定するための分離処理)を行う。図5において、マイクロフォンアレー装置21で入力される混合音声波形に対し、通常の音源分離を行う際に、フレーム長L(例えば、32ミリ秒)、シフト量Q(例えば、8ミリ秒)でデータを採取していくものとすると、ノイズ推定のための音源分離を行う際には、フレーム長Lよりも長時間K(例えば、100ミリ秒)のデータを用いる。なお、本第3実施形態では、ノイズ推定に用いるフレーム長Lよりも長時間Kのデータとして、シフトされていく連続する複数のフレーム(例えば9フレーム程度)のデータを採用し、これらのデータを平均化する処理を行う。
具体的には、ノイズ推定手段22Aは、第一次分離手段F1〜F4によるフレーム長Lよりも長時間Kのデータに基づく処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する各音声A,Bの寄与割合とを用いて、各音声A,Bのうち目的音以外の雑音についての振幅値を、周波数帯域毎に算出する処理を行うものである。従って、前記第2実施形態の式(1)〜式(4)に相当する式、つまり式(5)に相当する式を立て、最小二乗法により誤差を最小化する解として、式(6)に相当する式により、雑音についての振幅値が与えられる。この際、寄与割合は、前記第2実施形態の場合と同様に、第一次分離手段F1〜F4により形成された周波数帯域毎の指向特性で周波数帯域毎に定まる。なお、式(6)に相当する式により、雑音についての振幅値が与えられる際には、同時に目的音声の振幅値(但し、フレーム長Lよりも長時間Kのデータに基づく処理結果として得られる振幅値)も与えられるが、これは本第3実施形態の第二次分離処理には使用しない。しかし、この使用しない振幅値は、目的音声が変われば、雑音についての振幅値として使用されることになる。各音声A,Bのうち、いずれが雑音かは、いずれを目的音声とするかにより定まるからである。
なお、ノイズ推定手段22Aによるノイズ推定は、前記第2実施形態の説明で述べたように、誤差を考慮せずに、2つの式による連立方程式を解くことによっても行うことができる。
ノイズ除去手段22Bは、目的音声に向けられた第一次分離処理を行う第一次分離手段Fj(F1〜F4のいずれか)による1フレームのデータに基づく処理結果として得られた周波数特性の振幅値から、ノイズ推定手段22Aにより算出された雑音についての振幅値またはその比例値を減じる処理を周波数帯域毎に行うことにより、ノイズを除去するものである。なお、「雑音についての振幅値またはその比例値を減じる」という意味は、求めた雑音についての振幅値そのものを減じてもよく、あるいは、そのまま減じるのではなく、振幅値に比例係数を乗じた値を減じてもよいという意味である。
このような第3実施形態によれば、次のような効果がある。すなわち、前記第1実施形態で得られる効果と同様な効果を得ることができることに加え、ノイズ除去手段22Bによりノイズ除去を行うので、マイクロフォンアレーを用いて指向特性制御を行って得られた第一次分離処理結果に対し、これに含まれるノイズ分を除去することができ、音源分離精度を、より一層高めることができる。
また、ノイズ除去手段22Bによるノイズ除去を行う際には、ノイズ推定手段22Aにより、フレーム長Lよりも長時間Kのデータに基づき雑音についての振幅値を求めるので、目的音と雑音との相関値を小さくし、安定した状態で雑音についての振幅値を求めることができ、精度の良いノイズ除去を行うことができる。つまり、短時間のデータに基づく第一次分離処理結果のみでは、目的音と雑音との相関が大きいので、前記式(1)〜式(4)における誤差εが大きくなると考えられる。そこで、長時間のデータを観測し、平均化処理を行うことで相関値を小さくすることにより、誤差εを小さくして安定した状態で、除去すべきノイズ分を推定することが可能となる。
[変形の形態]
なお、本発明は前記各実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
すなわち、前記各実施形態では、音源分離システム20により分離して得られた周波数領域の目的音声(推定音声)のデータを、合成処理手段30により時間領域のデータに変換していたが、このような時間領域のデータへの変換を行わず、周波数領域の目的音声(推定音声)のデータのままで、音声認識処理手段34による処理を行う構成としてもよい。
また、前記各実施形態では、音声認識処理手段34による処理を行う前に、雑音付与手段31により雑音を付与していたが、この雑音付与は省略してもよい。但し、音声認識精度の向上の観点から、雑音付与手段31による処理を行うことが好ましい。
さらに、前記各実施形態では、音声認識処理手段34による処理の際に、適応処理や学習処理を行って得られた分離音声用音響モデルを用いていたが、このような分離音声用音響モデルを用いずに、音声認識処理を行う構成としてもよい。但し、音声認識精度の向上の観点から、分離音声用音響モデルを用いて認識処理を行うことが好ましい。
なお、本発明の効果を確かめるため、次のような比較実験を行った。
<実験条件>
(音源配置)
先ず、音声認識実験を行うために音声データの収録を行った。発話者の代わりに音源として2個のスピーカを用いて、それぞれ角度θ(θ=45度、70度)だけ間隔を空けて配置した。この際、音源SA(認識対象音源)をマイクロフォンアレー装置21の正面(θ=0度)に固定し、音源SB(雑音音源)をθ=45度、70度の位置に移動させるとともに、2個のスピーカをマイクロフォンアレー装置21の中心位置から放射方向に100cm、150cmだけ離れた位置に配置し、合計4通りの条件で音声データの収録を行った。
(音声データ)
音声データには、日本音響学会の新聞記事読み上げ音声コーパス(ASJ−JNAS)の男性話者(学習対象話者以外の男性話者)から20人計100文を選択した。
(音量およびフレーム数)
収録では、2個のスピーカから異なる文章を同時に再生し、マイクロフォンアレー装置21で受音した。この際、音声の音量、フレーム数ともに、目的音:妨害音=略1:1になるように調整し(SN比=0dB)、2話者の同時発話音声を作り出した。
(マイクロフォンアレー装置21の仕様)
(1)アレー形状:等間隔直線状
(2)素子配置:素子数8、素子間隔3cm
(3)素子:無指向性コンデンサマイク
(4)標本/量子化:32kHz、16ビット
(フレーム長)
1024サンプル(32ms)、ハニング窓
(位置ベクトル)
65536点TSPにて測定、インパルス長1024サンプル
<参考例、従来の処理法を適用した比較例、本発明の処理法を適用した実施例>
(参考例1)単一話者の音声を接話型マイクで受音した場合
(参考例2)単一話者の音声を遠隔マイクで受音した場合
(参考例3)複数話者の音声を遠隔マイクで受音した場合
(比較例1)複数話者の音声をDCMPアダプティブアレーで処理した場合
(比較例2)複数話者の音声を遅延和アレー(BF)で処理した場合
(実施例1)複数話者の音声について、指向特性の異なる2つのDCMPアダプティブアレーによる各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った場合
(実施例2)複数話者の音声について、指向特性の異なる2つのDCMPアダプティブアレーによる各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った後、MLLRによる適応処理を行って得られた分離音声用音響モデル53(図7参照)を用いて音声認識を行った場合
(実施例3)複数話者の音声について、指向特性の異なる2つのDCMPアダプティブアレーによる各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った後、学習処理(MTSS:Model Training using Segregated Speech)を行って得られた分離音声用音響モデル62(図8参照)を用いて音声認識を行った場合
(実施例4)複数話者の音声について、指向特性の異なる2つの遅延和アレー(BF)による各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った場合
(実施例5)複数話者の音声について、指向特性の異なる2つの遅延和アレー(BF)による各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った後、MLLRによる適応処理を行って得られた分離音声用音響モデル53(図7参照)を用いて音声認識を行った場合
(実施例6)複数話者の音声について、指向特性の異なる2つの遅延和アレー(BF)による各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った後、学習処理(MTSS)を行って得られた分離音声用音響モデル62(図8参照)を用いて音声認識を行った場合
(実施例7)複数話者の音声について、指向特性の異なる2つの遅延和アレー(BF)による指向特性制御および一般化調和解析(GHA)による周波数解析で各第一次分離処理を行い、さらに帯域選択(BS)による第二次分離処理を行った場合
(実施例8)複数話者の音声について、指向特性の異なる2つのDCMPアダプティブアレーによる各第一次分離処理を行い、さらにノイズ推定手段22Aおよびノイズ除去手段22B(図6参照)による第二次分離処理を行った場合
(実施例9)複数話者の音声について、指向特性の異なる2つのDCMPアダプティブアレーによる各第一次分離処理を行い、さらにノイズ推定手段22Aおよびノイズ除去手段22B(図6参照)による第二次分離処理を行った後、MLLRによる適応処理を行って得られた分離音声用音響モデル53(図7参照)を用いて音声認識を行った場合
以上において、MLLRの適応データには、前述した<実験条件>の(音声データ)において記載した認識対象の20名以外の男性話者による音素バランス文を選択した。評価データの収録と同じ収録条件のもとで、2個のスピーカから同時に異なる音素バランス文を再生し、マイクロフォンアレー装置21で受音し、各手法で分離を行うことにより適応データを作成した。
また、音響モデルの学習(MTSS)を行うにあたっては、ASJ−JNASの男性話者130人程度の音声を使用した。先ず、予め収録しておいたインパルス応答をドライソースに畳み込むことで空間に複数の音源がある状態を作り出した。次に、各音源に対して遅延和アレー(BF)、DCMPアレーを施すことで音源の選択的な強調または抑圧を行い、各音源からの音声が適切に強調された周波数特性を算出し、帯域選択(BS)により分離することで各手法毎に学習データを作成し、音響モデルの学習を行った。また、ここでは、話者や音源位置に左右されずに各分離手法の特性(スペクトル変形)のみを学習するために、話者や音源位置はランダムに選択して学習データを作成した。
さらに、その他の手法の認識には、ASJ−JNASの男性話者100人程度のクリーン音声から学習を行った音響モデルを用いた。なお、音響モデルは共に、triphone2000状態、混合数16とし、言語モデルは、CSRC提供の語彙数2万語のtrigramを使用し、認識器には、本願出願人が開発したデコーダを用いた。また、以下に、本実験で用いた音声特徴量とその分析条件を示す。
(特徴量算出パラメータ)
(1)プリエンファシス:0.97
(2)フレーム長:25ms
(3)フレーム周期:10ms
(4)周波数分析:等メル間隔フィルタバンク
(5)特徴量(25次元):MFCC+ΔMFCC+Δpower
<実験結果>
Figure 2005077731
表1には、音声認識実験結果が示されている。表1によれば、接話型マイク(参考例1)における認識率は、94%以上であった。しかし、遠隔マイクで受音した場合(参考例2)には、残響や環境音の影響のため、認識率は80%台に低下してしまう。さらに、2話者の同時発話音声となると、何も処理を施さない場合(参考例3)には、認識率は0%に近い値となってしまい、音声認識は機能していないことがわかる。
先ず、DCMPアダプティブアレーをベースとした処理の結果に注目すると、DCMPアダプティブアレーのみでの処理(比較例1)では、認識率は41%程度と充分な性能が得られていない。これに対し、帯域選択を加えたDCMP+BSの処理(実施例1)の結果を見ると、認識率に改善が見られ、DCMPアダプティブアレーのみでの処理(比較例1)に比べ、約47%のエラー削減率が得られた。この結果から、各音声を適切に強調した周波数特性による帯域選択が音源分離に非常に有効であることがわかり、これにより本発明の効果が顕著に示された。
さらに、分離処理によって生じるスペクトル変形に対し、MLLRによる音響モデルの適応を行う手法(実施例2)、音響モデルの学習(MTSS)を行う手法(実施例3)では、DCMP+BSの処理(実施例1)に比べ、MLLR適応(実施例2)では約17%、MTSS(実施例3)では約32%のエラー削減率が得られ、分離音声を用いて音響モデルを学習することが認識率の向上に有効であることが確認でき、本発明の効果が示されている。
そして、遅延和アレー(BF)をベースとした処理の結果(比較例2、実施例4〜6)に注目しても、上述したDCMPアダプティブアレーをベースとした処理の結果(比較例1、実施例1〜3)と同様なことが言えるため、本発明の効果を確認することができる。
次に、アレー信号処理としてDCMPアレーを用いた手法(比較例1、実施例1〜3)の結果と、遅延和アレー(BF)を用いた手法(比較例2、実施例4〜6)の結果との差違に注目する。アレー信号処理のみの手法(比較例1、比較例2)同士を比較すると、DCMPアレーの方が分離性能が良く、認識率も高くなっていることがわかる。この結果から、特定の方向から強い音声が到来するような場合には、遅延和アレー(BF)のように一方の音源を強調する手法より、DCMPアレーのように妨害音声に対してヌルを向ける手法の方が有効なことが確認できる。
また、DCMPアレー、遅延和アレー(BF)を施し、各音声が適切に強調された周波数特性を算出し、帯域選択(BS)を用いる手法(実施例1、実施例4)同士を比較すると、遅延和アレー(BF)を施した手法は、帯域選択(BS)と併用することで著しく性能が改善され、両者は略同じ認識性能となった。
さらに、MLLR適応を行った手法(実施例2、実施例5)同士、音響モデルの学習(MTSS)を行った手法(実施例3、実施例6)同士を比較しても、略同じ認識性能であり、帯域選択(BS)の前処理として、DCMPアレーを用いることと、遅延和アレー(BF)を用いることの差は無いことがわかる。これは換言すれば、DCMPアレー、遅延和アレー(BF)ともに、各音源の特性を反映した周波数特性を形成できているということになる。
続いて、周波数解析にFFTを用いた手法(実施例4)の結果と、GHAを用いた手法(実施例7)の結果とに注目すると、若干ではあるがGHAを用いることにより音源分離性能が向上することが確認でき、本発明の効果が示されている。
最後に、ノイズ推定手段22Aおよびノイズ除去手段22B(図6参照)による処理を行う手法(実施例8)に注目する。帯域選択(BS)を行う手法(実施例1)と比較すると、ノイズ推定およびノイズ除去を行う手法(実施例8)の方が、認識率が高く、音源分離性能が優れていることがわかる。また、MLLR適応を行った場合(実施例9)には、さらに認識率を高めることができることがわかる。
以上のように、本発明の音源分離方法およびそのシステム、並びに音声認識方法およびそのシステムは、例えば、遠隔発話を行う複数の話者による混合音声から任意の話者の音声を分離する場合、あるいは遠隔発話を行う話者の音声とその他の音との混合音から話者の音声を分離する場合等に利用でき、より具体的には、例えば、ロボットとの対話、カーナビゲーションシステム等の車載機器についての音声による操作、会議の議事録作成等に用いるのに適している。
本発明の第1実施形態の音声認識システムの全体構成図。 第1実施形態の音声認識システムの各第一次分離手段により形成される指向特性の例示図。 第1実施形態の音声認識システムの第二次分離手段により行われる帯域選択の説明図。 本発明の第2実施形態で行われる第二次分離処理、すなわち寄与割合を用いて最小二乗法により音源分離を行う処理の説明図。 本発明の第3実施形態で行われる第二次分離処理で必要となるデータの取得方法の説明図。 第3実施形態で行われる第二次分離処理、すなわちフレーム長よりも長時間のデータに基づくノイズ推定およびノイズ除去を行う処理の説明図。 適応処理を行って分離音声用音響モデルを作成する際のフローチャートの図。 学習処理を行って分離音声用音響モデルを作成する際のフローチャートの図。
符号の説明
10 音声認識システム
20 音源分離システム
21 マイクロフォンアレー装置
22 第二次分離手段
22A ノイズ推定手段
22B ノイズ除去手段
31 雑音付与手段
34 音声認識処理手段
35 分離音声用音響モデル記憶手段
50,60 サンプル用音声データ
51,61 変形音声データ
52 標準音響モデル
53,62 分離音声用音響モデル
A,SB 音源
A,B 音声
i(M1〜MI) マイクロフォン
j(F1〜FJ) 第一次分離手段
j(D1〜DJ) 第一次分離手段を構成する指向特性制御手段
j(W1〜WJ) 第一次分離手段を構成する周波数解析手段

Claims (16)

  1. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離する音源分離方法であって、
    マイクロフォンアレー装置を構成する複数のマイクロフォンにより前記混合音をそれぞれ入力し、
    前記各マイクロフォンの出力信号を用いて複数の異なる指向特性制御を行って前記各音を選択的に強調または抑圧するとともに周波数解析を行うことにより、前記各音に向けられた複数の第一次分離処理を行った後、
    これらの複数の第一次分離処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて周波数帯域毎に前記第一次分離処理よりも分離精度を高めるための第二次分離処理を行って前記目的音を分離する
    ことを特徴とする音源分離方法。
  2. 請求項1に記載の音源分離方法において、
    前記第二次分離処理を行う際には、前記第一次分離処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値の大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で最も大きい振幅値のみを選択し、この最も大きい振幅値を前記第二次分離処理結果としてこの振幅値に対応する前記第一次分離処理が向けられている前記音に帰属させる帯域選択を行う
    ことを特徴とする音源分離方法。
  3. 請求項1に記載の音源分離方法において、
    前記第二次分離処理を行う際には、前記第一次分離処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する前記各音の寄与割合とを用いて、前記第二次分離処理結果としての前記各音の振幅値を周波数帯域毎に算出し、
    この際、前記寄与割合は、前記第一次分離処理で用いる周波数帯域毎の前記指向特性で周波数帯域毎に定めることを特徴とする音源分離方法。
  4. 請求項1に記載の音源分離方法において、
    前記第二次分離処理を行う際には、
    フレーム長よりも長時間のデータに基づく前記第一次分離処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する前記各音の寄与割合とを用いて、前記各音のうち前記目的音以外の雑音についての振幅値を周波数帯域毎に算出するノイズ推定を行い、
    この際、前記寄与割合は、前記第一次分離処理で用いる周波数帯域毎の前記指向特性で周波数帯域毎に定め、
    その後、1フレームのデータに基づく前記目的音に向けられた前記第一次分離処理結果として得られた周波数特性の振幅値から、前記ノイズ推定により算出された前記雑音についての振幅値またはその比例値を減じる処理を周波数帯域毎に行うことにより、ノイズを除去する
    ことを特徴とする音源分離方法。
  5. 請求項1〜4のいずれかに記載の音源分離方法において、
    前記第一次分離処理として行う周波数解析は、一般化調和解析であることを特徴とする音源分離方法。
  6. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、
    サンプル用音声データについて請求項1〜5のいずれかに記載の音源分離方法による分離処理を行ってスペクトル変形を生じた変形音声データを得た後、この変形音声データと標準音響モデルとを用いて適応処理を行うことにより分離音声用音響モデルを生成しておき、
    前記音源分離方法による分離処理を行った後、
    分離された前記目的音について、予め用意された前記分離音声用音響モデルを用いて音声認識処理を行う
    ことを特徴とする音声認識方法。
  7. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、
    サンプル用音声データについて請求項1〜5のいずれかに記載の音源分離方法による分離処理を行ってスペクトル変形を生じた変形音声データを得た後、この変形音声データを用いて学習処理を行うことにより分離音声用音響モデルを生成しておき、
    前記音源分離方法による分離処理を行った後、
    分離された前記目的音について、予め用意された前記分離音声用音響モデルを用いて音声認識処理を行う
    ことを特徴とする音声認識方法。
  8. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識方法であって、
    請求項1〜5のいずれかに記載の音源分離方法による分離処理を行った後、
    前記音声認識処理を行う前に、分離された前記目的音に対して雑音を付与することを特徴とする音声認識方法。
  9. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離する音源分離システムであって、
    前記混合音をそれぞれ入力する複数のマイクロフォンを並べて構成されたマイクロフォンアレー装置と、
    このマイクロフォンアレー装置の前記各マイクロフォンの出力信号を用いてそれぞれ異なる指向特性制御を行って前記各音を選択的に強調または抑圧するとともに周波数解析を行うことにより前記各音に向けられた第一次分離処理を行う複数の第一次分離手段と、
    これらの複数の第一次分離手段による処理結果として得られた各周波数特性のうち同一の周波数帯域についての各振幅値を用いて周波数帯域毎に前記第一次分離処理よりも分離精度を高めるための第二次分離処理を行って前記目的音を分離する第二次分離手段と
    を備えたことを特徴とする音源分離システム。
  10. 請求項9に記載の音源分離システムにおいて、
    前記第二次分離手段は、前記第一次分離手段による処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値の大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で最も大きい振幅値のみを選択し、この最も大きい振幅値を前記第二次分離処理結果としてこの振幅値に対応する前記第一次分離手段により行われる前記第一次分離処理が向けられている前記音に帰属させる帯域選択を行う構成とされている
    ことを特徴とする音源分離システム。
  11. 請求項9に記載の音源分離システムにおいて、
    前記第二次分離手段は、前記第一次分離手段による処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する前記各音の寄与割合とを用いて、前記第二次分離処理結果としての前記各音の振幅値を周波数帯域毎に算出する構成とされ、
    前記寄与割合は、前記第一次分離手段により形成された周波数帯域毎の前記指向特性で周波数帯域毎に定まることを特徴とする音源分離システム。
  12. 請求項9に記載の音源分離システムにおいて、
    前記第二次分離手段は、
    前記第一次分離手段によるフレーム長よりも長時間のデータに基づく処理結果として得られた前記各周波数特性のうち同一の周波数帯域についての各振幅値と、これらの各振幅値に対する前記各音の寄与割合とを用いて、前記各音のうち前記目的音以外の雑音についての振幅値を周波数帯域毎に算出するノイズ推定手段と、
    前記目的音に向けられた前記第一次分離処理を行う前記第一次分離手段による1フレームのデータに基づく処理結果として得られた周波数特性の振幅値から、前記ノイズ推定手段により算出された前記雑音についての振幅値またはその比例値を減じる処理を周波数帯域毎に行うことによりノイズを除去するノイズ除去手段とを備え、
    前記寄与割合は、前記第一次分離手段により形成された周波数帯域毎の前記指向特性で周波数帯域毎に定まることを特徴とする音源分離システム。
  13. 請求項9〜12のいずれかに記載の音源分離システムにおいて、
    前記第一次分離手段による周波数解析は、一般化調和解析であることを特徴とする音源分離システム。
  14. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、
    請求項9〜13のいずれかに記載の音源分離システムと、
    サンプル用音声データについて前記音声分離システムによる分離処理を行って得られるスペクトル変形を生じた変形音声データと標準音響モデルとを用いて適応処理を行って得られた分離音声用音響モデルを記憶する分離音声用音響モデル記憶手段と、
    前記音源分離システムにより分離された前記目的音について前記分離音声用音響モデル記憶手段に記憶されたデータを用いて音声認識処理を行う音声認識処理手段と
    を備えたことを特徴とする音声認識システム。
  15. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、
    請求項9〜13のいずれかに記載の音源分離システムと、
    サンプル用音声データについて前記音源分離システムによる分離処理を行って得られるスペクトル変形を生じた変形音声データを用いて学習処理を行って得られた分離音声用音響モデルを記憶する分離音声用音響モデル記憶手段と、
    前記音源分離システムにより分離された前記目的音について前記分離音声用音響モデル記憶手段に記憶されたデータを用いて音声認識処理を行う音声認識処理手段と
    を備えたことを特徴とする音声認識システム。
  16. 複数の音源から発せられた各音が混合された混合音から少なくとも一つの目的音を分離して音声認識を行う音声認識システムであって、
    請求項9〜13のいずれかに記載の音源分離システムと、
    この音源分離システムにより分離された前記目的音に対して前記音声認識処理を行う前に雑音を付与する雑音付与手段と、
    この雑音付与手段により前記雑音を付与された前記目的音について前記音声認識処理を行う音声認識処理手段と
    を備えたことを特徴とする音声認識システム。
JP2003307811A 2003-08-29 2003-08-29 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム Expired - Fee Related JP4457221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003307811A JP4457221B2 (ja) 2003-08-29 2003-08-29 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003307811A JP4457221B2 (ja) 2003-08-29 2003-08-29 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム

Publications (2)

Publication Number Publication Date
JP2005077731A true JP2005077731A (ja) 2005-03-24
JP4457221B2 JP4457221B2 (ja) 2010-04-28

Family

ID=34410487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003307811A Expired - Fee Related JP4457221B2 (ja) 2003-08-29 2003-08-29 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム

Country Status (1)

Country Link
JP (1) JP4457221B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123721A1 (ja) * 2005-05-17 2006-11-23 Yamaha Corporation 雑音抑圧方法およびその装置
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP2008241991A (ja) * 2007-03-27 2008-10-09 Megachips System Solutions Inc 監視システム
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2009506363A (ja) * 2005-08-26 2009-02-12 ステップ・コミュニケーションズ・コーポレーション センサアレイにおけるデバイスおよび/または信号のミスマッチに適応するための方法および装置
JP2010011433A (ja) * 2008-05-30 2010-01-14 Nittobo Acoustic Engineering Co Ltd 音源分離及び表示方法並びにシステム
JP2010197296A (ja) * 2009-02-26 2010-09-09 Nec Corp アレイ型センサの校正システム、方法及びプログラム
US8014230B2 (en) 2006-04-20 2011-09-06 Nec Corporation Adaptive array control device, method and program, and adaptive array processing device, method and program using the same
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
US8174935B2 (en) 2006-04-20 2012-05-08 Nec Corporation Adaptive array control device, method and program, and adaptive array processing device, method and program using the same
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
US8891780B2 (en) 2010-05-19 2014-11-18 Fujitsu Limited Microphone array device
US9704487B2 (en) 2015-08-20 2017-07-11 Hyundai Motor Company Speech recognition solution based on comparison of multiple different speech inputs
EP3288030A1 (en) 2016-08-24 2018-02-28 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
JP2019007139A (ja) * 2017-06-20 2019-01-17 コベルコ建機株式会社 建設機械遠隔操作システム
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium
CN113409813A (zh) * 2021-05-26 2021-09-17 北京捷通华声科技股份有限公司 语音分离方法及装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160732B2 (en) 2005-05-17 2012-04-17 Yamaha Corporation Noise suppressing method and noise suppressing apparatus
WO2006123721A1 (ja) * 2005-05-17 2006-11-23 Yamaha Corporation 雑音抑圧方法およびその装置
JP4958303B2 (ja) * 2005-05-17 2012-06-20 ヤマハ株式会社 雑音抑圧方法およびその装置
JP2009506363A (ja) * 2005-08-26 2009-02-12 ステップ・コミュニケーションズ・コーポレーション センサアレイにおけるデバイスおよび/または信号のミスマッチに適応するための方法および装置
JP2007212704A (ja) * 2006-02-09 2007-08-23 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
US8014230B2 (en) 2006-04-20 2011-09-06 Nec Corporation Adaptive array control device, method and program, and adaptive array processing device, method and program using the same
US8174935B2 (en) 2006-04-20 2012-05-08 Nec Corporation Adaptive array control device, method and program, and adaptive array processing device, method and program using the same
JP2008241991A (ja) * 2007-03-27 2008-10-09 Megachips System Solutions Inc 監視システム
JP2008295010A (ja) * 2007-04-26 2008-12-04 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP4519900B2 (ja) * 2007-04-26 2010-08-04 株式会社神戸製鋼所 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
JP2010011433A (ja) * 2008-05-30 2010-01-14 Nittobo Acoustic Engineering Co Ltd 音源分離及び表示方法並びにシステム
JP2010197296A (ja) * 2009-02-26 2010-09-09 Nec Corp アレイ型センサの校正システム、方法及びプログラム
US8891780B2 (en) 2010-05-19 2014-11-18 Fujitsu Limited Microphone array device
US10140969B2 (en) 2010-05-19 2018-11-27 Fujitsu Limited Microphone array device
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
WO2013145578A1 (ja) * 2012-03-30 2013-10-03 日本電気株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9704487B2 (en) 2015-08-20 2017-07-11 Hyundai Motor Company Speech recognition solution based on comparison of multiple different speech inputs
EP3288030A1 (en) 2016-08-24 2018-02-28 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
US10014838B2 (en) 2016-08-24 2018-07-03 Fujitsu Limited Gain adjustment apparatus and gain adjustment method
US10276182B2 (en) 2016-08-30 2019-04-30 Fujitsu Limited Sound processing device and non-transitory computer-readable storage medium
JP2019007139A (ja) * 2017-06-20 2019-01-17 コベルコ建機株式会社 建設機械遠隔操作システム
CN113409813A (zh) * 2021-05-26 2021-09-17 北京捷通华声科技股份有限公司 语音分离方法及装置

Also Published As

Publication number Publication date
JP4457221B2 (ja) 2010-04-28

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP4455614B2 (ja) 音響信号処理方法及び装置
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP4896449B2 (ja) 音響信号処理方法、装置及びプログラム
Chen et al. Cracking the cocktail party problem by multi-beam deep attractor network
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
Stern et al. Signal processing for robust speech recognition
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
JP2015019124A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
Wisdom et al. Enhancement and recognition of reverberant and noisy speech by extending its coherence
Zhang et al. Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
Tu et al. LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
JP4594629B2 (ja) 音源分離方法およびそのシステム
Liu et al. Robust speech enhancement techniques for ASR in non-stationary noise and dynamic environments.
JP2004191968A (ja) 信号ソースを分離するための方法及び装置
Haeb‐Umbach et al. Reverberant speech recognition
Takiguchi et al. Single-channel talker localization based on discrimination of acoustic transfer functions
Meutzner et al. Binaural signal processing for enhanced speech recognition robustness in complex listening environments
Yamamoto et al. Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees