JP5936070B2

JP5936070B2 - 音声処理装置及びその制御方法とその制御プログラム、該音声処理装置を備えた車両、情報処理装置及び情報処理システム

Info

Publication number: JP5936070B2
Application number: JP2012552642A
Authority: JP
Inventors: 隆行荒川; 昭彦杉山
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-01-13
Filing date: 2011-12-03
Publication date: 2016-06-15
Anticipated expiration: 2031-12-03
Also published as: WO2012096073A1; JPWO2012096073A1; US20130282370A1

Description

本発明は、所望音声と雑音とが混在する混在音から擬似音声を取得する技術に関する。

上記技術分野において、特許文献１には、車両において車内音声に対する車外からの雑音を抑圧する技術が開示されている。特許文献１では、車内音声を拾うマイクの出力信号と、車外雑音を拾うマイクの出力信号とに基づいて、適応フィルタを使って車外雑音を抑圧する。

特開平２−２４６５９９号公報

しかしながら、上記特許文献１の技術は、各マイクに入力する所望音声と雑音との内で主でない入力を遮音するよう構成されている。そのため、音声を拾うマイクに入力する所望音声が弱い場合には復元した擬似音声も弱くなってしまう。一方、雑音を拾うマイクにより拾う雑音が弱ければ、抑圧する雑音の推定精度が落ちるので復元した擬似音声も不安定になってしまう。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る音声処理装置は、
所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備え、
前記第２マイクが前記雑音を集音する方向に前記第２集音部を移動可能とする第２可動部と、
前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記雑音抑圧回路が用いる第２パラメータに従って前記第２可動部の移動を制御して前記第２集音部の向きを変更する第２移動制御手段と、
をさらに備える。

上記目的を達成するため、本発明に係る装置は、
上記音声処理装置を備えた車両であって、
前記第１マイク及び前記第１集音部は、車内の乗員が発声する所望音声が前記第１集音部によって前記第１マイクに集音される位置に配置され、
前記第２マイク及び前記第２集音部は、車内の雑音源から発生する雑音が前記第２集音部によって前記第２マイクに集音される位置に配置されている。

上記目的を達成するため、本発明に係る装置は、
上記音声処理装置を備えた情報処理装置であって、
前記第１マイク及び前記第１集音部は、前記情報処理装置の操作者が発声する所望音声が前記第２第１集音部によって前記第１マイクに集音される位置に配置され、
前記第２マイク及び前記第２集音部は、前記操作者と同じ音空間にある雑音源から発生する雑音が前記第１集音部によって前記第２マイクに集音される位置に配置されている。

上記目的を達成するため、本発明に係るシステムは、
上記音声処理装置を備えた情報処理システムであって、
前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
前記音声認識装置が認識した所望音声に従って情報を処理する情報処理装置と、
を備える。

上記目的を達成するため、本発明に係る方法は、
所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備える音声処理装置の制御方法であって、
前記雑音抑圧回路のパラメータを取得するステップと、
前記雑音抑圧回路のパラメータに従って、前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記第２集音部の方向を決定するステップと、
前記第２集音部の方向を制御するステップと、
を含む。

上記目的を達成するため、本発明に係るプログラムは、
所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備える音声処理装置の制御プログラムであって、
前記雑音抑圧回路のパラメータを取得するステップと、
前記雑音抑圧回路のパラメータに従って、前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記第２集音部の方向を決定するステップと、
前記第２集音部の方向を制御するステップと、
をコンピュータに実行させる。

本発明によれば、所望音声と雑音とが混在する同じ音空間において、所望音声と雑音をそれぞれ集音して雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置を備えた情報処理システムの構成を示すブロック図である。本発明の第２実施形態に係る固定した集音部を含むマイクセットの一例を示す図である。本発明の第２実施形態に係る固定した集音部を含むマイクセットの他例を示す図である。本発明の第２実施形態に係る二次曲面の集音部による集音を説明する図である。本発明の第２実施形態に係る擬似曲面の集音部による集音を説明する図である。本発明の第２実施形態に係る雑音抑圧回路の構成を示す図である。本発明の第３実施形態に係る音声処理装置を備えた情報処理システムの構成を示すブロック図である。本発明の第３実施形態に係る移動する第２集音部を含むマイクセットの一例を示す図である。本発明の第３実施形態に係移動する第２集音部を含むマイクセットの他例を示す図である。本発明の第３実施形態に係る音声処理装置のハードウエア構成を示すブロック図である。本発明の第３実施形態に係る集音部位置制御パラメータＤＢの構成を示す図である。本発明の第３実施形態に係る音声処理手順を示すフローチャートである。本発明の第３実施形態に係る第２集音部の調整手順の第１例を示すフローチャートである。本発明の第３実施形態に係る第２集音部の調整手順の第２例を示すフローチャートである。本発明の第３実施形態に係る第２集音部の調整手順の第３例を示すフローチャートである。本発明の第４実施形態に係る音声処理装置を備えた情報処理システムの構成を示すブロック図である。本発明の第４実施形態に係る音声処理手順を示すフローチャートである。本発明の第５実施形態に係る音声処理装置を備えた情報処理システムである車両システムの構成を示すブロック図である。本発明の第６実施形態に係る音声処理装置を備えた情報処理システムである車両システムの構成を示すブロック図である。本発明の第７実施形態に係る音声処理装置を備えた情報処理システムであるパーソナルコンピュータの構成を示すブロック図である。本発明の第８実施形態に係る音声処理装置を備えた情報処理システムであるパーソナルコンピュータの構成を示すブロック図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。図１に示すように、音声処理装置１００は、第１マイク１０１と、第２マイク１０３と、第１集音部１１１と、第２集音部１１２と、雑音抑圧回路１０６と、を含む。第１マイク１０１は、所望音声と雑音とが混在した第１混在音１０８を入力して第１混在信号１０２を出力する。第２マイク１０３は、第１マイク１０１と同じ音空間１１０に開放され、所望音声と雑音とが第１混在音１０８とは異なる割合で混在した第２混在音１０９を入力して第２混在信号１０４を出力する。第１集音部１１１は、第１混在音１０８を第１マイク１０１に対して集音する凹面１１１ａを備えている。第２集音部１１２は、第２混在音１０９を第２マイク１０３に対して集音する凹面１１２ａを備え、第１集音部１１１とは異なる向きに配置されている。雑音抑圧回路１０６は、第１混在信号１０２と第２混在信号１０４とに基づいて推定雑音信号を抑圧し、擬似音声信号１０７を出力する。

本実施形態によれば、所望音声と雑音とが混在する同じ音空間において、所望音声と雑音をそれぞれ集音して雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

［第２実施形態］
第２実施形態においては、第１マイク、第２マイク、第１集音部、第２集音部が一体に固定されたマイクセットを有している。音声源や雑音源の位置を考慮して、このマイクセットを所望の位置に配置することによって、簡単な構成で、所望音声と雑音とが混在する同じ音空間において、所望音声と雑音をそれぞれ集音して雑音を正確に推定して所望音声に近い擬似音声を復元することができる。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図２は、本実施形態に係る音声処理装置２２０を備えた情報処理システム２００の構成を示すブロック図である。なお、図２において、音声処理装置２２０は、第１マイク、第２マイク、第１集音部、第２集音部が一体に固定されたマイクセット２３０と、雑音抑圧回路２０６とを含む。また、情報処理システム２００は、音声処理装置２２０と、さらに、音声認識装置２０８と、情報処理装置２０９とを含む。

マイクセット２３０における第１マイクは、第１集音部で集音された所望音声と回り込み雑音とが混在した第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路２０６に伝達する。一方、マイクセット２３０における第２マイクには、第２集音部で集音された雑音と回り込み音声とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイクは、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号２０４に変換し、雑音抑圧回路２０６に伝達する。

雑音抑圧回路２０６は、伝達された第１混在信号２０２と第２混在信号２０４とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、情報処理装置２０９においては認識された音声により情報が処理される。情報処理装置２０９は、例えば、音声によるメッセージに従った処理を行なっても、音声入力自身を情報として処理してもよい。

このように、同じ音空間内で発生した所望音声と雑音とが混在した混在音は、第１集音部の凹部で所望音声が集音された第１マイクと、第２集音部の凹部で雑音が集音された第２マイクとで、異なる混在割合により入力される。そして、第１マイクからの第１混在信号と、第２マイクからの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声に基づき情報処理装置２０９で情報処理される。

なお、第１及び第２混在信号２０２、２０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路２０６は、マイクセット２３０に取り付けられてもよい。その場合には、擬似音声信号がマイクセットから出力されることになる。また、本実施形態では、音声認識により説明するが、これに限定されず発声する音声の正確な復元は、他の処理においても有用である。例えば、電話への適用や、車両や機器の操作への適用も可能である。

《本実施形態に係る固定した集音部を含むマイクセットの構成》
本実施形態において、第１及び第２集音部は所定位置に予め固定的に配置される。以下、マイクセットの２つの構成例について説明するが、これに限定されない。

（固定した集音部を含むマイクセットの一例）
図３Ａは、本実施形態に係る固定した集音部を含むマイクセット２３０の一例２３０−１を示す図である。

マイクセット２３０−１は、第１マイク３０１と、第２マイク３０３と、第１マイク３０１と第２マイク３０３とが両側に配置されたマイク支持部材３０５とを含む。マイク支持部材３０５において、第１マイク３０１と第２マイク３０３とが配置される音反射面３０５ａ及び３０５ｂは、二次曲面あるいは二次曲面を近似した擬似曲面からなる凹面を形成している。そして、第１マイク３０１と第２マイク３０３とは、二次曲面あるいは二次曲面を近似した擬似曲面の焦点位置に配置される。図３Ａのように、マイク支持部材３０５の音反射面３０５ａと３０５ｂとは対称的に形成され、第１マイク３０１と第２マイク３０３とはマイク支持部材３０５の両側に対照的に配置される。すなわち、第１マイク３０１がマイク支持部材３０５の一方の面に取り付けられ、第２マイクがマイク支持部材３０５の他方の面に取り付けられている。そして、第１マイク３０１と第２マイク３０３とからは、それぞれ第１混在信号２０２と第２混在信号２０４とが雑音抑圧回路２０６に出力される。

図３Ａにおいて、所望音声を発声する音声源３１０からの音声の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３０５ａに向かう音声３１１は、音反射面３０５ａで反射されて第１マイク３０１に集音される。従って、音反射面３０５ａは、第１集音部として機能する。第１マイク３０１には、雑音を発生する雑音源３２０からの雑音３２２も回り込んで、集音された音声３１１と雑音３２２とが混在した第１混在音が入力される。一方、雑音源３２０からの雑音の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３０５ｂに向かう雑音３２１は、音反射面３０５ｂで反射されて第２マイク３０３に集音される。従って、音反射面３０５ｂは、第２集音部として機能する。第２マイク３０３には、音声源３１０からの音声３１２も回り込んで、集音された雑音３２１と音声３１２とが混在した第２混在音が入力される。

なお、マイク支持部材３０５は、音の伝達を遮る遮音体であるのが望ましい。

（固定した集音部を含むマイクセットの他例）
図３Ｂは、本実施形態に係る固定した集音部を含むマイクセット２３０の他例２３０−２を示す図である。

マイクセット２３０−２は、第１マイク３０１と、第２マイク３０３と、第１マイク３０１と第２マイク３０３とが両側に配置されたマイク支持部材３５５とを含む。マイク支持部材３５５において、第１マイク３０１と第２マイク３０３とが配置される音反射面３５５ａ及び３５５ｂは、二次曲面あるいは二次曲面を近似した擬似曲面からなる凹面を形成している。そして、第１マイク３０１と第２マイク３０３とは、二次曲面あるいは二次曲面を近似した擬似曲面の焦点位置に配置される。図３Ｂのように、マイク支持部材３５５の音反射面３５５ａと３５５ｂとは、曲面の軸がそれぞれ音声源と雑音源とに向くように、角度を持って形成される。第１マイク３０１と第２マイク３０３とからは、それぞれ第１混在信号２０２と第２混在信号２０４とが雑音抑圧回路２０６に出力される。

図３Ｂにおいて、所望音声を発声する音声源３１０からの音声の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３５５ａに向かう音声３１１は、音反射面３５５ａで反射されて第１マイク３０１に集音される。従って、音反射面３５５ａは、第１集音部として機能する。第１マイク３０１には、雑音を発生する雑音源３２０からの雑音３２２も回り込んで、集音された音声３１１と雑音３２２とが混在した第１混在音が入力される。一方、雑音源３２０からの雑音の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３５５ｂに向かう雑音３２１は、音反射面３５５ｂで反射されて第２マイク３０３に集音される。従って、音反射面３５５ｂは、第２集音部として機能する。第２マイク３０３には、音声源３１０からの音声３１２も回り込んで、集音された雑音３２１と音声３１２とが混在した第２混在音が入力される。

なお、マイク支持部材３５５は、音の伝達を遮る遮音体であるのが望ましい。遮音体としては、質量が大きく、密度が高い物質が望ましい。このような物質は、振動するのにより多くのエネルギーを必要とするため、音の貫通を防ぐことができる。また、遮音体の表面は硬い材質が望ましいが、遮音体の内部は柔らかい材質が望ましい。硬い材質は音を反射しやすいため、硬い材質を遮音体の表面に使うことで直接マイクに入る音に加えて遮音体で反射した音も集音できる。柔らかい材質は音を吸収しやすいため、柔らかい材質を遮音体の内面に使うことで不要な音の貫通を防ぐことができる。また、第１マイク側の表面の素材と第２マイク側の表面の素材とは、構造が連続せずに分かれていた方が良い。構造が連続していると表面の素材を伝わって音が伝搬して遮音体を貫通してしまうため、三層構造になっていて、両表面の硬い材質の素材間に柔らかい材質の素材が挟まれていることが望ましい。

《本実施形態に係る集音部による集音の説明》
以下、図３Ａ及び図３Ｂの二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３０５ａ、３０５ｂ、３５５ａ、３５５ｂが、その焦点位置に集音することを、二次曲面については図４Ａを使って、二次曲面を近似した擬似曲面については図４Ｂを使って説明する。

（二次曲面の集音部による集音）
図４Ａは、本実施形態に係る集音部となる二次曲面４０５ａを有するマイク支持部材４０５による集音を説明する図である。

図４Ａにおいて、４０６及び４０８で示す線分は、二次曲面４０５ａの接線である。線分４０６及び４０８に対し、それぞれ二次曲面４０５ａのとの接点で垂直に交わる法線４０７及び４０９に対して、音源４１０からの音４１１は同じ角度θ１及びθ２で反射する。そして、音４１１は、二次曲面４０５ａの焦点に位置するマイク４０１に集音される。

（擬似曲面の集音部による集音）
図４Ｂは、本実施形態に係る集音部となる擬似曲面４５５ａを有するマイク支持部材４５５による集音を説明する図である。擬似曲面４５５ａとは、二次曲面の接線方向に延びる平面の集合体である。

図４Ｂにおいて、４５６及び４５８で示す線分は、擬似曲面４５５ａの表面である。線分４５６及び４５８に対して垂直に交わる法線４５７及び４５９に対して、音源４１０からの音４１１は同じ角度θ１及びθ２で反射する。そして、音４１１は、擬似曲面４５５ａの焦点に位置するマイク４０１に集音される。

《雑音抑圧回路の構成》
図５は、本実施形態に係る雑音抑圧回路２０６の構成を示す図である。

雑音抑圧回路２０６は、第１混在信号２０２に混在すると推定される推定雑音信号Ｙ１を、第１混在信号２０２から減算する減算器５０１を有する。また、第２混在信号２０４に混在すると推定される推定音声信号Ｙ２を、第２混在信号２０４から減算する減算器５０３を有する。また、推定雑音信号Ｙ１を減算器５０３の出力信号である擬似雑音信号Ｅ２から生成する推定雑音信号生成部である適応フィルタＮＦ５０２を有する。また、推定音声信号Ｙ２を減算器５０３の出力信号である擬似音声信号Ｅ１（２０７）から生成する推定音声信号生成部である適応フィルタＸＦ５０４を有する。適応フィルタＸＦ５０４の具体例は国際公開第２００５／０２４７８７号公報に記載されている。対象とする音声が回り込んで第２マイク２０３に入力され、第２混在信号２０４に音声信号が混在する場合でも、適応フィルタＸＦ５０４は回り込んだ音声の音声信号を減算器５０１において第１混在信号２０２から誤って除去するのを防ぐことができる。

かかる構成により、減算器５０１は、第１マイク２０１から伝達された第１混在信号２０２から推定雑音信号Ｙ１を減算して、擬似音声信号Ｅ１（２０７）を出力する。

ここで、推定雑音信号Ｙ１は、擬似雑音信号Ｅ２を擬似音声信号Ｅ１（２０７）に基づき変化するパラメータを使って適応フィルタＮＦ５０２によって生成される。擬似雑音信号Ｅ２は、信号線により第２マイク２０３から伝達された第２混在信号２０４から、減算器５０３で推定音声信号Ｙ２を減算した信号である。

この推定音声信号Ｙ２は、擬似音声信号Ｅ１（２０７）を推定音声信号Ｙ２に基づき変化するパラメータを使って適応フィルタＸＦ５０４によって生成される。

なお、雑音抑圧回路２０６は、アナログ回路であっても、デジタル回路であっても、その混在回路であってもよい。雑音抑圧回路２０６がアナログ回路であれば、擬似音声信号Ｅ１（２０７）はデジタル制御に使用される場合にはＡ／Ｄ変換器でデジタル信号に変換される。一方、雑音抑圧回路２０６がデジタル回路であれば、マイクからの信号は雑音抑圧回路２０６に入る前にＡ／Ｄ変換器でデジタル信号に変換される。また、アナログ回路とデジタル回路とが混在する場合には、たとえば、減算器５０１や５０３をアナログ回路で構成し、適応フィルタＮＦ５０２や適応フィルタＸＦ５０４をデジタル回路により制御されるアナログ回路で構成することが考えられる。また、図５の雑音抑圧回路２０６は本実施形態に好適な回路例の１つであり、第１混在信号から推定雑音信号を減算して擬似音声信号を出力する既存の回路が使用可能であり、本実施形態の２つのマイクと集音部の特徴ある構造により雑音抑圧が可能になる。たとえば、図５の適応フィルタＸＦ５０４は、拡散した音声をフィルタするために一定レベルを出力する回路への代替も可能である。また、減算器５０１及び／又は５０３は、推定雑音信号Ｙ１や推定音声信号Ｙ２を第１混在信号２０２や第２混在信号２０４にそれぞれ積算する係数で表わすことで積算器に代替することも可能である。

［第３実施形態］
第２実施形態においては、マイクセットにおいて第１マイク及び第２マイクがマイク支持部材に予め決められた方向に固定されている例を説明した。第３実施形態においては、マイク支持部材が移動することにより第２集音部の向きが変更可能である例、あるいは第２集音部の向き自身が移動可能である例について説明する。第２集音部は雑音の入力が大きくなるように移動する。本実施形態によれば、第２マイクがより大きな雑音を入力することで、雑音抑圧回路において抑圧される雑音の正確さ、出力される擬似音声の正確さを高めることができる。なお、第２実施形態と共通の構成や処理の説明は省略する。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図６は、本実施形態に係る音声処理装置６２０を備えた情報処理システム６００の構成を示すブロック図である。なお、図６において、音声処理装置６２０は、第１マイク、第２マイク、第１集音部、第２集音部、第２集音部を可動とする可動部とが一体に固定されたマイクセット６３０と、雑音抑圧回路６０６と、集音制御部６４０とを含む。また、情報処理システム６００は、音声処理装置６２０と、さらに、音声認識装置２０８と、情報処理装置２０９とを含む。

マイクセット６３０における第１マイクは、第１集音部で集音された所望音声と回り込み雑音とが混在した第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路６０６に伝達する。一方、マイクセット６３０における第２マイクには、第２集音部で集音された雑音と回り込み音声とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイクは、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号２０４に変換し、雑音抑圧回路６０６に伝達する。また、本実施形態においては、マイクセット６３０の第２集音部は、集音制御部６４０からの制御信号６４１により、第２集音部が雑音の入力が大きくなるように移動する。

雑音抑圧回路６０６は、伝達された第１混在信号２０２と第２混在信号２０４とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、情報処理装置２０９においては認識された音声により情報が処理される。情報処理装置２０９は、例えば、音声によるメッセージに従った処理を行なっても、音声入力自身を情報として処理してもよい。

集音制御部６４０は、擬似音声信号２０７や雑音抑圧回路６０６のパラメータ６０７により、マイクセット６３０における第２集音部の集音方向を変更する制御信号６４１を出力する。

このように、同じ音空間内で発生した所望音声と雑音とが混在した混在音に対して、第１集音部で所望音声が集音された第１マイクと、第２集音部で雑音が集音された第２マイクとで、異なる混在割合で入力される。そして、第１マイクからの第１混在信号と、第２マイクからの第２混在信号とに基づいて、雑音抑圧回路６０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声に基づき情報処理装置２０９で情報処理される。

なお、第１及び第２混在信号２０２、２０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路６０６や集音制御部６４０は、マイクセット６３０に取り付けられてもよい。その場合には、擬似音声信号がマイクセットから出力されることになる。また、本実施形態では、音声認識により説明するが、これに限定されず発声する音声の正確な復元は、他の処理においても有用である。例えば、電話への適用や、車両や機器の操作への適用も可能である。

《本実施形態に係る固定した集音部を含むマイクセットの構成》
本実施形態においては、第２集音部が雑音を集音するように移動する。以下、マイクセットについて２つの構成例を説明するが、これに限定されない。

（移動する集音部を含むマイクセットの一例）
図７は、本実施形態に係る移動する第２集音部となる音反射面７５２ａを含むマイクセット６３０の一例６３０−１を示す図である。なお、第２集音部を移動させる可動部については図示されていない。例えば、ステップモータなどが配置されて、第２集音部の向きが自動調整される。

マイクセット６３０−１は、第１マイク３０１と、第２マイク３０３と、第１マイク３０１が配置された第１マイク支持部材７５１と、第２マイク３０３が配置された第２マイク支持部材７５２とを含む。第１マイク支持部材７５１及び第１マイク支持部材７５２において、第１マイク３０１と第２マイク３０３とが配置される音反射面７５１ａ及び７５２ａは、二次曲面あるいは二次曲面を近似した擬似曲面からなる凹面を形成している。そして、第１マイク３０１と第２マイク３０３とは、二次曲面あるいは二次曲面を近似した擬似曲面の焦点位置に配置される。図７のように、第１マイク支持部材７５１は所望音声を集音できるような予め決められた向きに配置されるが、第２マイク支持部材７５２は雑音を集音できるような向きに軸７５３を中心に矢印７５４の方向に回転可能に設置される。第１マイク３０１と第２マイク３０３とからは、それぞれ第１混在信号２０２と第２混在信号２０４とが雑音抑圧回路２０６に出力される。

図７において、所望音声を発声する音声源３１０からの音声の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面７５１ａに向かう音声３１１は、音反射面７５１ａで反射されて第１マイク３０１に集音される。従って、音反射面７５１ａは、第１集音部として機能する。第１マイク３０１には、雑音を発生する雑音源３２０からの雑音３２２も回り込んで、集音された音声３１１と雑音３２２とが混在した第１混在音が入力される。一方、雑音源３２０からの雑音の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面７５２ａに向かう雑音３２１は、音反射面７５２ａで反射されて第２マイク３０３に集音される。従って、音反射面７５２ａは、第２集音部として機能する。第２マイク３０３には、音声源３１０からの音声３１２も回り込んで、集音された雑音３２１と音声３１２とが混在した第２混在音が入力される。

なお、図示しないが、第２集音部となる音反射面７５２ａの軸７５３を中心とした回転は、集音制御部６４０からの制御信号６４１によって、ステップモータなどで行なわれるが、これに限定されない。また、図７においては、軸７５３を中心の一次元の回転を示したが、二次元の回転であっても三次元の回転であってもよい。また、第１及びマイク支持部材７５１,７５２は音の伝達を遮る遮音体であるのが望ましく、第１集音部及び第２集音部をそれぞれ第１マイク及び第２マイクと挟む位置に配置される。

（移動する集音部を含むマイクセットの他例）
図８は、本実施形態に係る移動する第２集音部である集音体８０５を含むマイクセット６３０の他例６３０−２を示す図である。なお、第２集音部を移動させる可動部については図示されていない。例えば、ステップモータなどが配置されて、第２集音部の向きが自動調整される。

マイクセット６３０−２は、第１マイク３０１と、第２マイク３０３と、第１マイク３０１が配置された第１集音部となる音反射面３０５ａを有するマイク支持部材３０５と、第２マイク３０３への雑音の集音のため移動可能な第２集音部である集音体８０５とを含む。マイク支持部材７５１において、第１マイク３０１が配置される音反射面３０５ａは、二次曲面あるいは二次曲面を近似した擬似曲面からなる凹面を形成している。そして、第１マイク３０１は、二次曲面あるいは二次曲面を近似した擬似曲面の焦点位置に配置される。一方、第２集音部である集音体８０５は、第２マイク３０３と共に、マイク支持部材３０５の曲面（３０５ｂ）と回転可能に接触している。かかる回転可能な接触は、例えば磁石により可能であるが、これに限らない。第２集音部である集音体８０５の音反射面８０５ａは、二次曲面あるいは二次曲面を近似した擬似曲面を形成している。そして、第２マイク３０３は、二次曲面あるいは二次曲面を近似した擬似曲面の焦点位置に配置される。第１マイク３０１と第２マイク３０３とからは、それぞれ第１混在信号２０２と第２混在信号２０４とが雑音抑圧回路２０６に出力される。

図８において、所望音声を発声する音声源３１０からの音声の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面３０５ａに向かう音声３１１は、音反射面３０５ａで反射されて第１マイク３０１に集音される。従って、音反射面３０５ａは第１集音部として機能する。第１マイク３０１には、雑音を発生する雑音源３２０からの雑音３２２も回り込んで、集音された音声３１１と雑音３２２とが混在した第１混在音が入力される。一方、雑音源３２０からの雑音の内、二次曲面あるいは二次曲面を近似した擬似曲面である音反射面８０５ａに向かう雑音３２１は、音反射面８０５ａで反射されて第２マイク３０３に集音される。従って、音反射面８０５ａは、第２集音部として機能する。第２マイク３０３には、音声源３１０からの音声３１２も回り込んで、集音された雑音３２１と音声３１２とが混在した第２混在音が入力される。

なお、図示しないが、第２集音部となる音反射面８０５ａの回転は、集音制御部６４０からの制御信号６４１によって行なわれる。また、図８においては、一次元の回転を示したが、二次元の回転であっても三次元の回転であってもよい。また、マイク支持部材３０５は、音の伝達を遮る遮音体であるのが望ましい。

《本実施形態に係る音声処理装置のハードウエア構成》
図９は、本実施形態に係る音声処理装置のハードウエア構成を示すブロック図である。なお、図９には、次の第４実施形態で使用されるデータも図示されている。また、図９には、音声処理装置６２０に接続する音声認識装置２０８と情報処理装置２０９とを図示する。

図９において、ＣＰＵ９１０は演算制御用のプロセッサであり、プログラムを実行することで音声処理装置６２０の制御部を実現する。ＲＯＭ９２０は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部９３０は、音声処理装置６２０と、音声認識装置２０８及び情報処理装置２０９間の情報交換を行なう。かかる通信は有線であっても無線であっても良い。なお、図９では、雑音抑圧回路２０６を独自の機能構成部として図示したが、雑音抑圧回路２０６の処理の一部あるいは全部をＣＰＵ９１０による処理で実現してもよい。

ＲＡＭ９４０は、ＣＰＵ９１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ９４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。各領域には、雑音抑圧回路２０６からの出力である擬似音声信号２０７のデジタルデータ９４１と、音声信号の強さや音声と雑音との比などからマイクへの音声入力を評価した評価結果９４２とが記憶される。また、評価結果９４２から決定された第１集音部位置制御パラメータ９４３と、評価結果９４２から決定された第２集音部位置制御パラメータ９４４とが記憶される。

ストレージ９５０は、データベースや各種のパラメータ、ＣＰＵ９１０が実行するプログラムを、不揮発に記憶する大容量記憶装置である。ストレージ９５０には、本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。データの記憶部としては、評価結果９４２から第１集音部位置制御パラメータ９４３や第２集音部位置制御パラメータ９４４を決定するために使用される集音部位置制御パラメータＤＢ９５１が格納される（図１０参照）。また、集音部位置制御パラメータＤＢ９５１を使用せずに、評価結果９４２から第１集音部位置制御パラメータ９４３や第２集音部位置制御パラメータ９４４を随時決定するための演算式などの集音部位置制御アルゴリズム９５２が格納される。また、本実施形態では、プログラムとして、集音を制御するための集音制御プログラム９５３を格納する。また、集音部の位置を制御する集音部位置制御モジュール９５４を格納する。

入力インタフェース９６０は、ＣＰＵ９１０による制御に必要な制御信号及びデータを入力するインタフェースである。本実施形態では、雑音抑圧回路２０６からの出力である擬似音声信号２０７と、適応フィルタＮＦ５０２や適応フィルタＸＦ５０４のパラメータ、あるいは推定雑音信号Ｙ１などのパラメータ９６１とを入力する。パラメータ９６１は、集音部の位置の制御に使用される。出力インタフェース９７０は、ＣＰＵ９１０による制御の基に機器に対して制御信号及びデータを出力するインタフェースである。本実施形態では、第１集音部位置制御部９７１に第１集音部位置制御パラメータ９４３を出力する、あるいは、第２集音部位置制御部９７２に第２集音部位置制御パラメータ９４４を出力する。第１集音部位置制御部９７１や第２集音部位置制御部９７２がモータを有するならば、第１集音部位置制御パラメータ９４３や第２集音部位置制御パラメータ９４４としては、回転方向と回転角度とが含まれる。

なお、図９には、本実施形態に必須なデータやプログラムのみが示されており、ＯＳなどの汎用のデータやプログラムは図示されていない。また、図９のＣＰＵ９１０が、音声認識装置２０８や情報処理装置２０９の制御を兼用しても構わない。

（集音部位置制御パラメータＤＢの構成）
図１０は、本実施形態に係る集音部位置制御パラメータＤＢ９５１の構成を示す図である。

集音部位置制御パラメータＤＢ９５１は、雑音抑圧回路２０６から取得した擬似音声信号１００１、推定雑音信号１００２、擬似雑音信号１００３、推定音声信号１００４、適応フィルタＮＦのパラメータ１００５、適応フィルタＸＦのパラメータ１００６の少なくとも１つを条件として含む。かかる条件に対応付けて、第１集音部位置制御パラメータ１００７、第２集音部位置制御パラメータ１００８が記憶されている。なお、第１集音部位置制御パラメータ１００７、第２集音部位置制御パラメータ１００８は、一次元の方向移動であれば１方向の変更角度、二次元の方向移動であれば２方向の変更角度、三次元の方向移動であれば３方向の変更角度を記憶する。

《本実施形態に係る音声処理装置の動作手順》
図１１は、本実施形態に係る音声処理手順を示すフローチャートである。図１１のフローチャートは、図９のＣＰＵ９１０がＲＡＭ９４０を使用して実行し、図６の集音制御部６４０を実現する。

まず、ステップＳ１１０１において、第２集音部の調整をするタイミングであるか否かを判断する。第２集音部の調整をするタイミングでなければ、処理を終了する。なお、第２集音部の調整をするタイミングは、例えば、初期化時、音声認識装置の音声認識が不良になった時、あるいは、雑音抑圧回路中の擬似雑音信号Ｅ２や適応フィルタＮＦのパラメータから雑音入力が小さくなったと判断された時などが考えられる。

第２集音部の調整をするタイミングであれば、ステップＳ１１０３において、第２集音部の位置調整を行なう。第２集音部の位置調整が終了すると、ステップＳ１１０５において、通信制御部９３０を介して音声認識装置２０８及び／又は情報処理装置２０９に対して、音声入力の準備完了又は開始を通知する。

ステップＳ１１０３における第２集音部の位置調整には種々の方法があり、以下、図１２Ａ〜図１２Ｃに３つの例を示す。

（第２集音部の調整手順の第１例）
図１２Ａは、本実施形態に係る第２集音部の調整手順の第１例を示すフローチャートである。図１２Ａの例では、雑音抑圧回路からの出力信号やパラメータに基づいて、第２マイクへの雑音入力を大きくするための第２集音部の調整を行なう。

まず、ステップＳ１２１１において、雑音抑圧回路から第２マイクの雑音対音声比や、適応フィルタＮＦのパラメータを取得する。ステップＳ１３１１において取得したデータから、ステップＳ１２１３において、第２マイクへの雑音入力が充分であるかを判定する。第２マイクへの雑音入力が充分であれば、処理を終了してリターンする。

第２マイクへの雑音入力が充分でなければ、ステップＳ１２１５において、取得したデータから第２集音部の移動方向を決定する。次に、ステップＳ１２１７において、第２集音部の移動モータを１ステップ駆動して、ステップＳ１２１１に戻って第２マイクへの雑音入力が充分になるまで処理を繰り返す。

（第２集音部の調整手順の第２例）
図１２Ｂは、本実施形態に係る第２集音部の調整手順の第２例を示すフローチャートである。図１２Ｂの例では、第２マイクを上下左右の方向に少しずつ動かしてより雑音の音量が大きくなる方向に向けることにより、第２マイクへの雑音入力を大きくするための第２集音部の調整を行なう。

まず、ステップＳ１２２１において、雑音抑圧回路から擬似雑音信号Ｅ２を取得する。ステップＳ１２２３においては、取得した擬似雑音信号Ｅ２を第２集音部の位置（角度）に対応付けて記憶する。ステップＳ１２２５において、擬似雑音信号Ｅ２が上下左右の隣の方向における値よりも大きく、最大値となる位置であるかを判断する。最大値となる位置であれば、処理を終了してリターンする。最大値となる位置でなければ、ステップＳ１２２７において、第２集音部の移動モータを１ステップ駆動して、ステップＳ１２２１に戻り、擬似雑音信号Ｅ２が最大となる位置（方向）に第２集音部が配置されるまで処理を繰り返す。

（第２集音部の調整手順の第３例）
図１２Ｃは、本実施形態に係る第２集音部の調整手順の第３例を示すフローチャートである。図１２Ｃの例では、音声が発声されていない状態で２つのマイクを用いて雑音源の方向を決定することにより、第２マイクへの雑音入力を大きくするための第２集音部の調整を行なう。

まず、ステップＳ１２３１において、擬似音声信号Ｅ１がほぼゼロであるかを判断する。擬似音声信号Ｅ１がほぼゼロになると音声が無く雑音のみであると推定し、ステップＳ１３３３に進む。ステップＳ１３３３において、第１マイクと第２マイクへの雑音の到達差である時間遅延から雑音源の方向を推測する。そして、ステップＳ１３３５において、第２集音部を推測された雑音源方向に向けて、リターンする。

［第４実施形態］
第３実施形態においては、第２集音部の位置を調整可能として、変化する雑音源に対応して第２マイクへの雑音の入力を大きくした。第４実施形態においては、第１集音部の位置も変更可能とすることにより、所望音声の入力を大きくする調整を行なう。本実施形態によれば、所望音声を発しする音声源の位置の変化にも対応して所望音声の入力を大きくし、より正確な擬似音声を復元する。なお、第２及び第３実施形態と共通の構成や処理は説明を省略する。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図１３は、本実施形態に係る音声処理装置１３２０を備えた情報処理システム１３００の構成を示すブロック図である。

なお、図１３において、音声処理装置１３２０は、第１マイク、第２マイク、第１集音部、第２集音部が一体に固定されたマイクセット１３３０と、雑音抑圧回路１３０６と、集音制御部１３４０とを含む。また、情報処理システム１３００は、音声処理装置１３２０と、さらに、音声認識装置２０８と、情報処理装置２０９とを含む。なお、第４実施形態における第３実施形態との相違は、マイクセット１３３０の第１集音部を音声源に向きを変更可能な点である。以下、その相違点を説明するがその構成及び動作は第３実施形態の第２集音部と類似であり、詳細な説明は省略する。

本実施形態においては、マイクセット１３３０の第２集音部は、集音制御部１３４０からの制御信号６４１により、第２集音部が雑音の入力が大きくなるように移動する。さらに、マイクセット１３３０の第１集音部は、集音制御部１３４０からの制御信号１３４１により、第１集音部が所望音声の入力が大きくなるように移動する。

集音制御部１３４０は、擬似音声信号２０７や雑音抑圧回路１３０６のパラメータ１３０７により、マイクセット１３３０における第１集音部の音声集音方向を変更する制御信号１３４１と、第２集音部の雑音集音方向を変更する制御信号６４１を出力する。

このように、同じ音空間内で発生した所望音声と雑音とが混在した混在音に対して、第１集音部で所望音声が集音された第１マイクと、第２集音部で雑音が集音された第２マイクとで、異なる混在割合で入力される。そして、第１マイクからの第１混在信号と、第２マイクからの第２混在信号とに基づいて、雑音抑圧回路１３０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声に基づき情報処理装置２０９で情報処理される。

なお、第１及び第２混在信号２０２、２０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路１３０６や集音制御部１３４０は、マイクセット１３３０に取り付けられてもよい。その場合には、擬似音声信号がマイクセットから出力されることになる。また、本実施形態では、音声認識により説明するが、これに限定されず発声する音声の正確な復元は、他の処理においても有用である。例えば、電話への適用や、車両や機器の操作への適用も可能である。

《本実施形態に係る音声処理装置の動作手順》
図１４は、本実施形態に係る音声処理手順を示すフローチャートである。図１４のフローチャートは、図９のＣＰＵ９１０がＲＡＭ９４０を使用して実行し、図１３の集音制御部１３４０を実現する。

まず、ステップＳ１４０１において、第１集音部及び／又は第２集音部の調整をするタイミングであるか否かを判断する。調整をするタイミングでなければ、処理を終了する。なお、第１集音部及び／又は第２集音部の調整をするタイミングは、例えば、初期化時や、音声認識装置の音声認識が不良になった時が考えられる。あるいは、雑音抑圧回路中の擬似雑音信号Ｅ２や適応フィルタＮＦのパラメータから雑音入力が小さくなった時や、擬似音声信号Ｅ１や適応フィルタＸＦのパラメータから音声入力が小さくなったと判断された時などが考えられる。

第１集音部及び／又は第２集音部の調整をするタイミングであれば、ステップＳ１４０３において、第１集音部及び／又は第２集音部の位置調整を行なう。かかる第１集音部及び／又は第２集音部の位置調整には種々の方法があるが、その数例については図１２Ａ〜図１２Ｃに従って前述したので、ここでの説明は省略する。

第１集音部及び／又は第２集音部の位置調整が終了すると、ステップＳ１４０５において、通信制御部９３０を介して音声認識装置２０８及び／又は情報処理装置２０９に対して、音声入力の準備完了又は開始を通知する。

［第５実施形態］
第２及び第４実施形態では、音声処理装置を備えた情報処理システムの汎用の構成及び動作を説明した。第５乃至第８実施形態では、上記音声処理装置を備えた情報処理システムを具体的な情報処理システムに適用した場合の数例を説明する。

第５実施形態は、上記音声処理装置を備えた情報処理システムとして車両システムを想定した場合であって、図３Ｂで示した第１マイクと第２マイクの方向に角度の違いがあるマイクセット２３０−２を使用した実施形態である。本実施形態によれば、車両を運転中のカーナビゲーション装置への乗員の音声指示を、車内の雑音、例えは空調機が発生する雑音などを抑圧して、正確に伝えることが可能となる。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図１５は、本実施形態に係る音声処理装置を備えた情報処理システムである車両システム１５００の構成を示すブロック図である。なお、図１５において、音声処理装置は、第１マイク３０１と、第２マイク３０３と、両側に第１マイク３０１に音声を集音する第１集音部となる音反射面３５５ａと第２マイク３０３に雑音を集音する第２集音部となる音反射面３５５ｂとを有するマイク支持部材３５５と、雑音抑圧回路２０６とを含む。なお、マイク支持部材３５５は遮音体であるのが望ましい。また、車両システム１５００は、音声処理装置と、さらに、音声認識装置２０８と、情報処理装置であるカーナビゲーション装置１５０９とを含む。なお、第１マイク３０１と、第２マイク３０３と、遮音体であるマイク支持部材３５５とは、一体の音声入力ユニットであるマイクセットとして提供されてよい。

図１５において、音空間１５１０は車両内の空間である。図１５の音空間１５１０は、その一部をフロントガラス１５３０と天井１５４０とにより画定されている。以下、空調機などからの雑音が混在する音空間１５１０内で、乗員１５２０がカーナビゲーション装置１５０９を音声により操作する場合を例に、本実施形態の構成と動作を説明する。なお、空調機はダッシュボード１５１６内にあるものとする。しかし、雑音源は空調機に限らず、他の位置に配置された他の機器であっても構わない。また、乗員１５２０の音声はカーナビゲーション装置１５０９の操作に限定されるものではない。

本実施形態の音声処理装置において、第１マイク３０１、第２マイク３０３及び遮音体であるマイク支持部材３５５は、車内前方の天井部分に配置されている。マイク支持部材３５５は、天井１５４０から車内に突起した部分が第１マイク３０１と雑音源とを結ぶ線分と交差して、雑音源から第１マイク３０１への直接の空気伝播雑音の混在を遮っている。また、マイク支持部材３５５は、雑音源から第１マイク３０１へのフロントガラス１５３０と天井１５４０とを伝わる固体伝搬雑音の混在を遮っている。なお、マイク支持部材３５５の突起部は、サンバイザーを兼用してもよい。この場合には、直射日光が当たらない場合は透明材質で、直射日光が当たると不透明となって日光を遮るものが、特に好ましい。

第１マイク３０１には、乗員１５２０が発声し第１集音部である音反射面３５５ａにより集音された空気伝播音声１５１１と回り込み空気伝播雑音１５２２とが混在した第１混在音が入力される。第１マイク３０１は、かかる第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路２０６に伝達する。一方、第２マイク３０３には、第２集音部となる音反射面３５５ｂにより集音された空気伝播雑音１５２１と回り込み空気伝播音声１５１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク３０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号２０４に変換し、雑音抑圧回路２０６に伝達する。

雑音抑圧回路２０６は、伝達された第１混在信号２０２と第２混在信号２０４とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、カーナビゲーション装置１５０９においては乗員１５２０による音声での操作として処理される。

このように、所望音声と車内雑音とが混在した車両内の音空間１５１０において、乗員１５２０が発声したカーナビゲーション装置１５０９への操作を示す音声が、第１集音部である音反射面３５５ａ及び第１マイク３０１と、第２集音部となる音反射面３５５ｂ及び第２マイク３０３とで異なる混在割合の混在音として入力される。そして、第１マイク３０１からの第１混在信号と、第２マイク３０３からの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声によりカーナビゲーション装置１５０９が操作される。

なお、第１及び第２混在信号２０２、２０４を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路２０６は、マイク支持部材３５５に取り付けられてもよい。その場合には、擬似音声信号が信号線で雑音抑圧回路２０６から音声認識装置２０８に送信されることになる。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員１５２０の発声する音声の正確な復元は、他の処理においても有用である。例えば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。

［第６実施形態］
第６実施形態は、上記音声処理装置を備えた情報処理システムとして車両システムを想定した場合であって、雑音を集音する第２集音部の向きを調整可能とした図８において、マイク支持部材を分離したマイクセットを使用した実施形態である。本実施形態によれば、車両を運転中のカーナビゲーション装置への乗員の音声指示を、車内の多数の雑音源が発声する雑音を抑圧して、正確に伝えることが可能となる。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図１６は、本実施形態に係る音声処理装置を備えた情報処理システムである車両システム１６００の構成を示すブロック図である。なお、図１６において、音声処理装置は、第１マイク３０１と、第２マイク３０３と、第１マイク３０１に音声を集音する第１集音部である音反射面７５１ａを有する第１マイク支持部材７５１と、第２マイク３０３に音声を集音する可動の第２集音部である集音体８０５を有する第２マイク支持部材１６５２と、雑音抑圧回路２０６と、集音制御部６４０とを含む。第１マイク支持部材７５１は遮音体であるのが望ましい。また、車両システム１６００は、音声処理装置と、さらに、音声認識装置２０８と、情報処理装置であるカーナビゲーション装置１５０９とを含む。なお、第１マイク３０１と、第２マイク３０３と、第１マイク支持部材３５５、第２マイク支持部材１６５２、第２集音部である集音体８０５とは、音声入力ユニットであるマイクセットとして提供されてよい。

以下、図１６の本実施形態の第５実施形態との相違点である、第２マイク３０３の配置位置と、第２集音部である集音体８０５の向きの制御とを説明し、その他の説明は省略する。

本実施形態の音声処理装置において、第１マイク３０１及び遮音体である第１マイク支持部材７５１は、車内前方の天井部分に配置されている。第１マイク支持部材７５１の第１集音部である音反射面７５１ａは、乗員１５２０が発声した音声を集音して第１マイク３０３に入力する。また、第１マイク支持部材７５１は、天井１５４０から車内に突起した部分が第１マイク３０１と雑音源（特にダッシュボードの空調機など）とを結ぶ線分と交差して、雑音源から第１マイク３０１への直接の空気伝播雑音の混在を遮っている。また、第１マイク支持部材７５１は、雑音源から第１マイク３０１へのフロントガラス１５３０と天井１５４０とを伝わる固体伝搬雑音の混在を遮っている。なお、第１マイク支持部材７５１の突起部は、サンバイザーを兼用してもよい。この場合には、直射日光が当たらない場合は透明材質で、直射日光が当たると不透明となって日光を遮るものが、特に好ましい。

第２マイク及び第２集音部である集音体８０５は、車内の複数の雑音源からの雑音をより多く集めることが可能な天井中央の第２マイク支持部材１６５２に、向きが移動可能となるよう設置されている。第２マイク及び第２集音部である集音体８０５は、集音制御部６４０からの制御信号６４１により車内の複数の雑音源からの雑音をより多く集めるように、その向きが不図示の移動制御部（例えば、モータ）により移動制御される。

第１マイク３０１には、乗員１５２０が発声し第１集音部である音反射面７５１ａにより集音された空気伝播音声１６１１と回り込み空気伝播雑音１６２２とが混在した第１混在音が入力される。第１マイク３０１は、かかる第１混在音を、音声信号と雑音信号とが混在した第１混在信号２０２に変換し、雑音抑圧回路６０６に伝達する。一方、第２マイク３０３には、第２集音部である集音体８０５により集音された複数の雑音源からの空気伝播雑音１６２１と回り込み空気伝播音声１６１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク３０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号２０４に変換し、雑音抑圧回路２０６に伝達する。

雑音抑圧回路６０６は、伝達された第１混在信号２０２と第２混在信号２０４とに基づいて、擬似音声信号２０７と集音制御部６４０が使用するパラメータ６０７とを出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、カーナビゲーション装置１５０９においては乗員１５２０による音声での操作として処理される。

集音制御部６４０は、雑音抑圧回路６０６からの擬似音声信号２０７とパラメータ６０７とに基づいて、第２マイク３０３及び第２集音部である集音体８０５の向きを制御する制御信号６４１を出力する。

このように、所望音声と車内雑音とが混在した車両内の音空間１５１０において、乗員１５２０が発声したカーナビゲーション装置１５０９への操作を示す音声が、第１集音部である音反射面７５１ａ及び第１マイク３０１と、車内雑音をより多く集めるように向きが調整された第２集音部である集音体８０５及び第２マイク３０３とで異なる混在割合の混在音として入力される。そして、第１マイク３０１からの第１混在信号と、第２マイク３０３からの第２混在信号とに基づいて、雑音抑圧回路６０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声によりカーナビゲーション装置１５０９が操作される。

なお、雑音抑圧回路６０６や集音制御部６４０は、第１マイク支持部材７５１または第２マイク支持部材１６５２に取り付けられてもよい。その場合には、擬似音声信号が信号線で雑音抑圧回路６０６から音声認識装置２０８に送信されることになる。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員１５２０の発声する音声の正確な復元は、他の処理においても有用である。例えば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。

［第７実施形態］
第７実施形態は、上記音声処理装置を備えた情報処理システムとしてパーソナルコンピュータ（以下、ＰＣと略す）、特にノート型ＰＣを想定した場合であって、図３Ｂで示した第１マイクと第２マイクとがマイク支持部材の両側に設置されたマイクセット２３０−１を使用した実施形態である。本実施形態によれば、ノート型ＰＣへの操作者の音声指示を、室内の雑音、例えは空調機などの機器や他人の発声した音声などの雑音を抑圧して、正確にノート型ＰＣへ伝えることが可能となる。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図１７は、本実施形態に係る音声処理装置を備えた情報処理システムであるノート型パーソナルコンピュータ（以下、ノート型ＰＣ１７００）の構成を示すブロック図である。なお、図１７には、ノート型ＰＣの本来の機能などについては説明を省略し、本実施形態の特徴である第１マイク３０１及び第２マイク３０３への集音に関連する構成を説明する。

図１７において、ノート型ＰＣ１７００は、表示画面を有するディスプレイ部１７３０とキーボードを含むキーボード部１７４０を備える。本実施形態において、マイクセット２３０−１を構成する第１マイク３０１、第２マイク３０３、第１集音部である音反射面３０５ａと第２集音部となる音反射面３０５ｂとを両側に持つマイク支持部材３０５は、ディスプレイ部１７３０に配置されている。すなわち、第１マイク３０１及び第１集音部となる音反射面はディスプレイ部１７３０の操作者側に配置され、第２マイク３０３及び第２集音部となる音反射面３０５ｂはディスプレイ部１７３０の操作者とは反対側に配置されている。

第１マイク３０１には、操作者１７２０が発声し第１集音部である音反射面３０５ａにより集音された音声１７１１と回り込み空気伝播雑音１７１４とが混在した第１混在音が入力される。第１マイク３０１は、かかる第１混在音を、音声信号と雑音信号とが混在した第１混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。一方、第２マイク３０３には、第２集音部となる音反射面３０５ｂにより集音された空気伝播雑音１７１３と回り込み音声１７１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク３０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。

雑音抑圧回路２０６は、第１マイク３０１及び第２マイク３０３からそれぞれ伝達された第１混在信号と第２混在信号とに基づいて、擬似音声信号２０７を出力する。擬似音声信号２０７は、音声認識装置２０８で認識されて、ノート型ＰＣ１７００において操作者１７２０による音声での操作あるいはデータの音声入力として処理される。

このように、所望音声と室内雑音とが混在した音空間において、操作者１７２０が発声したノート型ＰＣ１７００への音声が、第１集音部である音反射面３０５ａ及び第１マイク３０１と、第２集音部となる音反射面３０５ｂ及び第２マイク３０３とで異なる混在割合の混在音として入力される。そして、第１マイク３０１からの第１混在信号と、第２マイク３０３からの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声がノート型ＰＣ１７００で処理される。

［第８実施形態］
第７実施形態は、第１集音部や第２集音部はマイク支持部材に固定された構成であった。第８実施形態は、雑音を集音する第２集音部の向きを調整可能とした図８と類似の構成で、逆に音声を集音する第１集音部の向きを調整可能とし、且つ、マイク支持部材を分離したマイクセットを使用した実施形態である。本実施形態によれば、ノート型ＰＣへの操作者の音声指示を、より大きな集音された音声を入力し、且つ、室内の雑音、例えは空調機などの機器や他人の発声した音声などの雑音を抑圧して、正確にノート型ＰＣへ伝えることが可能となる。

《本実施形態に係る音声処理装置を備えた情報処理システムの構成》
図１８は、本実施形態に係る音声処理装置を備えた情報処理システムであるパーソナルコンピュータ（ノート型ＰＣ１８００）の構成を示すブロック図である。なお、図１８には、ノート型ＰＣの本来の機能などについては説明を省略し、本実施形態の特徴である第１マイク３０１及び第２マイク３０３への集音に関連する構成を説明する。

図１８において、ノート型ＰＣ１８００は、表示画面を有するディスプレイ部１８３０とキーボードを含むキーボード部１８４０を備える。本実施形態において、マイクセットを構成する第１マイク３０１と、第１集音部である集音体８０５と、第１マイク支持部材１８５１とは、ディスプレイ部１８３０に配置される。一方、第２マイク３０３と、第２集音部である音反射面１８５２ａを持つ第２マイク支持部材１８５２とは、キーボード部１８４０に配置されている。すなわち、第１マイク３０１及び第１集音部である集音体８０５はキーボード部１８４０のキーボード面に配置され、第２マイク３０３及び第２集音部となる音反射面１８５２ａは、ディスプレイ部１８３０の操作者とは反対側に配置されている。そして、第１マイク３０１と第１集音部である集音体８０５とは、例えば、ディスプレイ部１８３０とキーボード部１８４０との成す角度から操作者の位置を判定して、その向きを移動する。

第１マイク３０１には、操作者１８２０が発声し操作者１８２０を向いた第１集音部である集音体８０５により集音された音声１８１１と回り込み空気伝播雑音１８１４とが混在した第１混在音が入力される。第１マイク３０１は、かかる第１混在音を、音声信号と雑音信号とが混在した第１混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。一方、第２マイク３０３には、第２集音部となる音反射面１８５２ａにより集音された空気伝播雑音１８１３と回り込み音声１８１２とが第１混在音と異なる割合で混在した第２混在音が入力される。第２マイク３０３は、かかる第２混在音を、音声信号と雑音信号とが第１混在信号と異なる割合で混在した第２混在信号に変換し、不図示の雑音抑圧回路２０６に伝達する。

このように、所望音声と室内雑音とが混在した音空間において、操作者１８２０が発声したノート型ＰＣ１８００への音声が、第１集音部である集音体８０５及び第１マイク３０１と、第２集音部となる音反射面１８５２ａ及び第２マイク３０３とで異なる混在割合の混在音として入力される。そして、第１マイク３０１からの第１混在信号と、第２マイク３０３からの第２混在信号とに基づいて、雑音抑圧回路２０６で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置２０８において認識される。認識された音声がノート型ＰＣ１７００で処理される。

［他の実施形態］
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システム或いは装置に直接或いは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、或いはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

この出願は、２０１１年１月１３日に出願された日本国特許出願特願２０１１−００５３１６号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備え、
前記第２マイクが前記雑音を集音する方向に前記第２集音部を移動可能とする第２可動部と、
前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記雑音抑圧回路が用いる第２パラメータに従って前記第２可動部の移動を制御して前記第２集音部の向きを変更する第２移動制御手段と、
をさらに備える音声処理装置。
前記第２移動制御手段は、方向を変えながら前記第２混在音に混在する前記雑音を示す情報を取得し、前記雑音が最大となる方向への前記第２集音部の移動を制御する請求項１に記載の音声処理装置。
前記第２移動制御手段は、前記所望音声の無い条件で、前記第１マイクが入力した第１混在音における雑音と前記第２マイクが入力した第２混在音における雑音との間の、時間遅延に基づいて雑音源の位置を推測し、推測した前記雑音源の方向への前記第２集音部の移動を制御する請求項１に記載の音声処理装置。
前記第１集音部及び前記第２集音部の凹面は、それぞれ、前記第１マイク及び前記第２マイクの位置が焦点となる二次曲面の音反射面である請求項１乃至３のいずれか１項に記載の音声処理装置。
前記第１集音部及び前記第２集音部の凹面は、それぞれ、前記第１マイク及び前記第２マイクの位置が焦点となる二次曲面を近似した擬似曲面の音反射面である請求項１乃至３のいずれか１項に記載の音声処理装置。
前記擬似曲面は、前記二次曲面の接線方向に延びる平面の集合体である請求項５に記載の音声処理装置。
前記第１マイクが前記所望音声を集音するマイクであり、前記第２マイクが前記雑音を集音するマイクであって、
前記第２集音部の二次曲面または擬似曲面が集音する、曲面の軸に垂直な範囲は、前記第１集音部の二次曲面または擬似曲面が集音する、曲面の軸に垂直な範囲よりも広い請求項１乃至６のいずれか１項に記載の音声処理装置。
前記第１マイクが前記所望音声を集音する方向に前記第１集音部を移動可能とする第１可動部をさらに備える請求項１乃至７のいずれか１項に記載の音声処理装置。
前記第１マイクに入力される前記第１混在音において前記所望音声の割合がより多くなるように、前記第１可動部の移動を制御する第１移動制御手段をさらに備える請求項８に記載の音声処理装置。
前記第１移動制御手段は、前記第１集音部の向きを変更する請求項９に記載の音声処理装置。
前記第１移動制御手段は、前記雑音抑圧回路が用いる第１パラメータに従って前記第１可動部の移動を制御する請求項９または１０に記載の音声処理装置。
前記第１マイクと第２マイクとの間に配置された遮音体をさらに備える請求項１乃至１１のいずれか１項に記載の音声処理装置。
前記第１マイク及び前記第１集音部が前記遮音体の一方の面に取り付けられ、前記第２マイク及び前記第２集音部が前記遮音体の他方の面に取り付けられて、前記第１マイク、前記第２マイク、前記第１集音部、前記第２集音部及び前記遮音体を一体の音声入力ユニットとして備える請求項１２に記載の音声処理装置。
前記第１集音部を前記第１マイクと挟む位置に取り付けられた第１遮音体と、前記第２集音部を前記第２マイクと挟む位置に取り付けられた第２遮音体とをさらに備える請求項１乃至１１のいずれか１項に記載の音声処理装置。
前記雑音抑圧回路は、
前記第１混在信号に混在すると推定される前記推定雑音信号を、前記第１混在信号から減算する第１減算手段と、
前記第２混在信号に混在すると推定される推定音声信号を、前記第２混在信号から減算する第２減算手段と、
前記推定雑音信号を前記第２減算手段の出力信号から生成する推定雑音信号生成手段と、
前記推定音声信号を前記第１減算手段の出力信号から生成する推定音声信号生成手段と、
を有し、
前記擬似音声信号は、前記第１減算手段の出力信号である請求項１乃至１４のいずれか１項に記載の音声処理装置。
請求項１乃至１５のいずれか１項に記載の音声処理装置を備えた車両であって、
前記第１マイク及び前記第１集音部は、車内の乗員が発声する所望音声が前記第１集音部によって前記第１マイクに集音される位置に配置され、
前記第２マイク及び前記第２集音部は、車内の雑音源から発生する雑音が前記第２集音部によって前記第２マイクに集音される位置に配置されている車両。
請求項１乃至１５のいずれか１項に記載の音声処理装置を備えた情報処理装置であって、
前記第１マイク及び前記第１集音部は、前記情報処理装置の操作者が発声する所望音声が前記第１集音部によって前記第１マイクに集音される位置に配置され、
前記第２マイク及び前記第２集音部は、前記操作者と同じ音空間にある雑音源から発生する雑音が前記第２集音部によって前記第２マイクに集音される位置に配置されている情報処理装置。
前記情報処理装置は、ノート型パーソナルコンピュータであって、
前記第１マイク及び前記第１集音部は、ディスプレイの操作者側の面またはキーボード面に配置され、前記第２マイク及び前記第２集音部は、前記ディスプレイの操作者とは反対側の面に配置されている請求項１７に記載の情報処理装置。
請求項１乃至１５のいずれか１項に記載の音声処理装置を備えた情報処理システムであって、
前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
前記音声認識装置が認識した所望音声に従って情報を処理する情報処理装置と、
を備える情報処理システム。
所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備える音声処理装置の制御方法であって、
前記雑音抑圧回路のパラメータを取得するステップと、
前記雑音抑圧回路のパラメータに従って、前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記第２集音部の方向を決定するステップと、
前記第２集音部の方向を制御するステップと、
を含む音声処理装置の制御方法。
所望音声と雑音とが混在した第１混在音を入力して第１混在信号を出力する第１マイクと、
前記第１マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第１混在音とは異なる割合で混在した第２混在音を入力して第２混在信号を出力する第２マイクと、
前記第１混在音を前記第１マイクに対して集音する凹面を備えた第１集音部と、
前記第２混在音を前記第２マイクに対して集音する凹面を備え、前記第１集音部とは異なる向きに配置された第２集音部と、
前記第１混在信号と前記第２混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
を備える音声処理装置の制御プログラムであって、
前記雑音抑圧回路のパラメータを取得するステップと、
前記雑音抑圧回路のパラメータに従って、前記第２マイクに入力される前記第２混在音において前記雑音の割合がより多くなるように、前記第２集音部の方向を決定するステップと、
前記第２集音部の方向を制御するステップと、
をコンピュータに実行させる制御プログラム。