JP2011182062A

JP2011182062A - 収音装置、収音方法およびプログラム

Info

Publication number: JP2011182062A
Application number: JP2010042263A
Authority: JP
Inventors: Nobuyuki Kihara; 信之木原; Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-02-26
Filing date: 2010-02-26
Publication date: 2011-09-15

Abstract

【課題】目的音源からの音声を高品質な状態で収音可能な、収音装置、収音方法およびプログラムを提供する。
【解決手段】アレイマイク１４の指向を目的音源Ｓｏに向けて、非目的音源Ｓｎから目的音源の方向へ反射して回り込む、非目的音源からの反射成分ｒｎを収音するとともに、指向を非目的音源に向けて、非目的音源からの直接音ｄｎを収音し、反射成分ｒｎに相当する信号と直接音ｄｎに相当する信号から非目的音源からの音声の反射率Ｒ（＝ｒｎ／ｄｎ）を帯域毎に算出して学習する。そして、指向を目的音源に向けて、目的音源からの直接音ｄｏ´と非目的音源からの反射成分ｒｎ´からなる処理対象音（ｄｏ´＋ｒｎ´）を収音するとともに、指向を非目的音源に向けて、非目的音源からの直接音ｄｎ´を収音し、直接音ｄｎ´に相当する信号に反射率Ｒを帯域毎に乗じて、非目的音源からの反射成分ｒｎ´を推定し、処理対象音に相当する信号から帯域毎に減算する。
【選択図】図２

Description

本発明は、収音装置、収音方法およびプログラムに関する。

マイクロホンを用いて目的音源からの音声を収音する場合、目的音源以外の音源（非目的音源）からの音声の収音を抑圧するために、一般に、アレイマイクを用いた音声処理が行われる。アレイマイクを用いた音声処理としては、目的音源の方向に固定的な指向性を形成する遅延和法、３マイク積分法等の固定方式が挙げられる。

しかし、固定方式では、目的音源の方向に固定的な指向性を形成するので、安定的な指向性が得られる反面、非目的音源からの音声の抑圧性能が低く、抑圧性能を高めるためにマイクロホンの数、大きさを確保しなければならない。また、目的音源とは異なる方向に位置する非目的音源から目的音源の方向へ反射して回り込む、非目的音源からの反射成分を抑圧することができない。このため、目的音源からの音声を高品質な状態で収音することができない場合がある。

そこで、本発明は、目的音源からの音声を高品質な状態で収音可能な、収音装置、収音方法およびプログラムを提供しようとするものである。

本発明のある観点によれば、指向性を変更可能なアレイマイクと、アレイマイクによる収音処理を制御する制御部と、アレイマイクにより収音された音声を処理する音声処理部とを備える収音装置が提供される。

上記収音装置において、制御部は、アレイマイクの指向を目的音源に向けて、目的音源とは異なる方向に位置する非目的音源から目的音源の方向へ反射して回り込む、非目的音源からの反射成分を収音するとともに、アレイマイクの指向を非目的音源に向けて、非目的音源からの直接音を収音するようにアレイマイクを制御し、音声処理部は、非目的音源からの反射成分に相当する信号と非目的音源からの直接音に相当する信号の比率からなる、非目的音源からの音声の反射率を帯域毎に算出して学習し、制御部は、アレイマイクの指向を目的音源に向けて、目的音源からの直接音と非目的音源からの反射成分を処理対象音として同時に収音するとともに、アレイマイクの指向を非目的音源に向けて、非目的音源からの直接音を収音するようにアレイマイクを制御し、音声処理部は、非目的音源からの直接音に相当する信号に非目的音源からの音声の反射率を帯域毎に乗じて、処理対象音に相当する信号から帯域毎に減算する。

かかる構成によれば、非目的音源からの反射成分に相当する信号と非目的音源からの直接音に相当する信号の比率からなる、非目的音源からの音声の反射率が帯域毎に算出されて学習される。そして、非目的音源からの直接音に相当する信号に、非目的音源からの音声の反射率を帯域毎に乗じることで、目的音源の方向へ反射して回り込む非目的音源からの反射成分に相当する信号が推定される。これは、非目的音源の位置やアレイマイクの指向性が変化しなければ、非目的音源からの音声の反射率が帯域毎に一定となるためである。さらに、推定された反射成分に相当する信号を処理対象音に相当する信号から帯域毎に減算することで、非目的音源からの反射成分が除去され、目的音源からの音声を高品質な状態で収音することができる。

非目的音源が複数の音源からなる場合に、上記収音装置において、音声処理部は、複数の音源について、各非目的音源からの音声の反射率を算出して学習し、各非目的音源からの直接音に相当する信号に各非目的音源からの音声の反射率を乗じて、処理対象音に相当する信号から減算してもよい。

目的音源および非目的音源が複数の音源からなり、複数の音源のうち１の音源が目的音源となり、他の音源が非目的音源となる場合に、上記収音装置において、音声処理部は、想定される目的音源と非目的音源の組合せについて、各非目的音源からの音声の反射率を算出して学習し、特定の音源からの直接音により目的音源が特定されると、特定の音源を目的音源として算出された反射率を用いて、各非目的音源からの直接音に相当する信号に各非目的音源からの音声の反射率を乗じて、処理対象音に相当する信号から減算してもよい。

また、本発明の別の観点によれば、アレイマイクの指向を目的音源に向けて、目的音源とは異なる方向に位置する非目的音源から目的音源の方向へ反射して回り込む、非目的音源からの反射成分を収音するとともに、アレイマイクの指向を非目的音源に向けて、非目的音源からの直接音を収音するステップと、非目的音源からの反射成分に相当する信号と非目的音源からの直接音に相当する信号の比率からなる、非目的音源からの音声の反射率を帯域毎に算出して学習するステップと、アレイマイクの指向を目的音源に向けて、目的音源からの直接音と非目的音源からの反射成分を処理対象音として収音するとともに、アレイマイクの指向を非目的音源に向けて、非目的音源からの直接音を収音するステップと、非目的音源からの直接音に相当する信号に非目的音源からの音声の反射率を帯域毎に乗じて、処理対象音に相当する信号から帯域毎に減算するステップとを含む収音方法が提供される。

また、本発明の別の観点によれば、上記収音方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段を介して提供されてもよい。

以上説明したように本発明によれば、目的音源からの音声を高品質な状態で収音可能な、収音装置、収音方法およびプログラムを提供することができる。

本発明の実施形態に係る収音装置の主要な機能構成を示すブロック図である。収音装置の動作手順を示すフロー図である。収音装置の動作を模式的に示す図である。反射成分の除去原理を模式的に示す図である。音声通信システムへの収音装置の適用例を模式的に示す図である。第１の変形例に係る収音装置の動作を模式的に示す図である。第２の変形例に係る収音装置の動作を模式的に示す図（１／２）である。第２の変形例に係る収音装置の動作を模式的に示す図（２／２）である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

［１．収音装置１０の構成］
まず、図１を参照しながら、本発明の実施形態に係る収音装置１０の構成について説明する。図１には、収音装置１０の主要な機能構成が示されている。

図１に示すように、収音装置１０は、アレイモジュール１１、音声処理部１２、および制御部１３からなる。アレイモジュール１１は、複数のマイクからなるアレイマイク１４と、アレイ処理部１５を有する。音声処理部１２は、反射率学習部１６、反射成分推定部１７、および反射成分除去部１８を有する。

アレイモジュール１１は、アレイマイク１４により収音された音声に相当する信号に、必要に応じてアレイ処理を施し、音声処理部１２に供給する。アレイモジュール１１では、音声信号にアレイ処理を施すことで、アレイマイク１４の指向性が変更される。アレイ処理部１５の処理は、例えば、目的音源Ｓｏまたは目的音源Ｓｏとは異なる方向に位置する非目的音源Ｓｎに向けられるように、制御部１３により制御される。なお、目的音源Ｓｏおよび非目的音源Ｓｎは、物体として特定されてもよく、領域として特定されてもよい。

音声処理部１２は、目的音源Ｓｏの方向へ反射して回り込む非目的音源Ｓｎからの反射成分ｒｎ´を除去する。反射率学習部１６は、非目的音源Ｓｎからの反射成分ｒｎに相当する信号と非目的音源Ｓｎからの直接音ｄｎに相当する信号の比率からなる、非目的音源Ｓｎからの音声の反射率Ｒを帯域毎に算出して学習する。反射成分推定部１７は、非目的音源Ｓｎからの直接音ｄｎ´に相当する信号に、非目的音源Ｓｎからの音声の反射率Ｒを帯域毎に乗じて、非目的音源Ｓｎからの反射成分ｒｎ´を推定する。

ここで、非目的音源Ｓｎの位置やアレイマイク１４の指向性が変化しなければ、非目的音源Ｓｎからの音声の反射率Ｒが帯域毎に一定となる。このため、非目的音源Ｓｎからの直接音ｄｎ´に相当する信号に、非目的音源Ｓｎからの音声の反射率Ｒを乗じることで、非目的音源Ｓｎからの反射成分ｒｎ´を推定することができる。

反射成分除去部１８は、目的音源Ｓｏからの直接音ｄｏ´と非目的音源Ｓｎからの反射成分ｒｎ´からなる処理対象音（ｄｏ´＋ｒｎ´）に相当する信号から、非目的音源Ｓｎからの反射成分ｒｎ´に相当する信号を除去する。音声処理部１２では、反射成分ｒｎ´を除去された処理対象音（ｄｏ´）に相当する信号が不図示の記録装置、出力装置等に出力される。

制御部１３は、アレイモジュール１１および音声処理部１２を制御する。特に、制御部１３は、アレイ処理部１５によるアレイ処理、反射率学習部１６による反射率Ｒの学習処理を制御する。

なお、上記機能構成のうち少なくとも一部については、収音装置１０上で動作するソフトウェア（プログラム）により実現されてもよく、ハードウェアにより実現されてもよい。また、ソフトウェアにより実現される場合には、プログラムが収音装置１０上に予め格納されてもよく、外部から供給されてもよい。

［２．収音装置１０の動作］
つぎに、図２〜図４を参照しながら、本発明の実施形態に係る収音装置１０の動作について説明する。図２には、収音装置１０の動作手順が示され、図３には、収音装置１０の動作が示され、図４には、反射成分ｒｎ´の除去原理が示されている。

図２に示すように、まず、制御部１３は、音声信号にアレイ処理を施さないように、アレイ処理部１５を制御する。この場合、アレイマイク１４の指向性が形成されないので、音声処理部１２には、目的音源Ｓｏおよび非目的音源Ｓｎからの音声を含む周辺音声に相当する信号が供給される（ステップＳ１１）。

制御部１３は、図３の状態ＳＴ１１に示すように、アレイマイク１４の指向を目的音源Ｓｏに向けて（指向Ｄｏ）、非目的音源Ｓｎからの反射成分ｒｎを収音するように、アレイ処理部１５を制御する（Ｓ１２）。制御部１３は、ほぼ同時に、アレイマイク１４の指向を非目的音源Ｓｎに向けて（指向Ｄｎ）、非目的音源Ｓｎからの直接音ｄｎを収音するように、アレイ処理部１５を制御する（Ｓ１２）。

ここで、非目的音源Ｓｎからの反射成分ｒｎとは、非目的音源Ｓｎから発生した音声のうち、目的音源Ｓｏの方向へ反射して回り込み、指向Ｄｏ時のアレイマイク１４により収音される成分を意味する。非目的音源Ｓｎからの直接音ｄｎとは、非目的音源Ｓｎから発生した音声のうち、指向Ｄｎ時のアレイマイク１４に直接収音される成分を意味する。

音声処理部１２では、反射成分ｒｎに相当する信号（反射成分信号）および直接音ｄｎに相当する信号（直接音信号）が反射率学習部１６に供給され、非目的音源Ｓｎからの音声の反射率Ｒが帯域（スペクトル成分）毎に算出される（Ｓ１３）。つまり反射率Ｒは、図４に示すように、直接音ｄｎに対する反射成分ｒｎのパワー比（ｒｎ／ｄｎ）として帯域毎に算出される。反射率学習部１６では、反射率Ｒの算出値が学習されて、学習結果が反射成分推定部１７に供給される。なお、反射率Ｒの学習とは、反射率Ｒの算出値を蓄積し、その妥当性等を評価することを意味している。

ここで、反射率Ｒは、指向Ｄｏ時の反射成分ｒｎの収音結果と、指向Ｄｎ時の直接音ｄｎの収音結果の比率として算出されるべき指標である。よって、指向Ｄｏ時または指向Ｄｎ時に、目的音源Ｓｏからの直接音ｄｏが収音されると、算出値が変動してしまい、反射率Ｒを適切に学習することができなくなる。このため、反射率Ｒの学習は、算出値が安定している場合に限定して行われ、または算出値の標準偏差に基づいて行われることが好ましい。また、反射率Ｒは、隣接する帯域間である程度の相関性を有しているので、隣接する帯域間で反射率Ｒの算出値にバラツキが認められた場合には、学習の対象としないことが好ましい。

制御部１３は、図３の状態ＳＴ１２に示すように、アレイマイク１４の指向を目的音源Ｓｏに向けて（指向Ｄｏ）、目的音源Ｓｏからの直接音ｄｏ´と、目的音源Ｓｏの方向へ反射して回り込む非目的音源Ｓｎからの反射成分ｒｎ´からなる処理対象音（ｄｏ´＋ｒｎ´）を収音するように、アレイ処理部１５を制御する（Ｓ１４）。制御部１３は、ほぼ同時に、アレイマイク１４の指向を非目的音源Ｓｎに向けて（指向Ｄｎ）、非目的音源Ｓｎからの直接音ｄｎ´を収音するように、アレイ処理部１５を制御する（Ｓ１４）。なお、非目的音源Ｓｎからの直接音ｄｎ´は、他の音源から音声が発生していないタイミングで収音される。

これにより、処理対象音（ｄｏ´＋ｒｎ´）に相当する信号（処理対象音信号）と、非目的音源Ｓｎからの直接音ｄｎ´に相当する信号（直接音信号）について、瞬時スペクトルが各々に検出される。

音声処理部１２では、処理対象音信号が反射成分除去部１８に供給されるとともに、非目的音源Ｓｎからの直接音信号が反射成分推定部１７に供給される。反射成分推定部１７では、非目的音源Ｓｎからの直接音信号に反射率Ｒを帯域毎に乗算して反射成分信号が推定され、推定結果が反射成分除去部１８に供給される（Ｓ１５）。反射成分除去部１８では、処理対象音信号から反射成分信号の推定結果を帯域毎に減算して、処理対象音（ｄｏ´＋ｒｎ´）から反射成分ｒｎ´が除去される（Ｓ１６）。そして、目的音源Ｓｏからの直接音ｄｏ´に相当する信号が出力される（Ｓ１７）。

つまり、目的音源Ｓｏからの直接音ｄｏ´に相当する信号は、図４に示すように、非目的音源Ｓｎからの直接音ｄｎに相当する信号に反射率Ｒを乗算して反射成分ｒｎ´に相当する信号を推定し、処理対象音（ｄｏ´＋ｒｎ´）に相当する信号から減算して算出される。なお、反射成分ｒｎ´の除去処理では、収音処理が終了するまで、ステップＳ１２〜Ｓ１７の処理が繰返される（Ｓ１８）。

［３．音声通信システムへの適用例］
図５には、音声通信システムへの収音装置１０の適用例が示されている。

音声通信システムは、ネットワークＮＷを介して接続された通信装置Ｔ０、Ｔ１により構成される。通信装置Ｔ０、Ｔ１は、マイクＭ０およびスピーカＳ０、マイクＭ１およびスピーカＳ１を各々に有している。音声通信システムのユーザＵ０は、マイクＭ０に音声を入力し、スピーカＳ０から出力される他のユーザＵ１の音声を聴取する。

ここで、ユーザＵ０（目的音源Ｓｏ）は、他のユーザＵ１の音声がスピーカＳ０（非目的音源Ｓｎ）から出力されている状態で、音声をマイクＭ０に入力する場合がある。この場合、エコーキャンセラのためにスピーカＳ０の出力信号を利用できなければ、ユーザＵ０の音声を高品質な状態で収音できなくなる。このような場合にマイクＭ０として、前述した収音装置１０を適用することができる。

音声通信システムでは、第１に、指向ＤｏでユーザＵ０の方向へ反射して回り込むスピーカＳ０からの反射成分ｒｎが収音されるとともに、指向ＤｎでスピーカＳ０からの直接音ｄｎが収音される。そして、スピーカＳ０からの音声の反射率Ｒが学習される。第２に、指向ＤｏでユーザＵ０からの直接音ｄｏ´とスピーカＳ０からの反射成分ｒｎ´が処理対象音（ｄｏ´＋ｒｎ´）として同時に収音されるとともに、指向ＤｎでスピーカＳ０からの直接音ｄｎ´が収音される。そして、スピーカＳ０からの直接音ｄｎ´に相当する信号をスピーカＳ０からの音声の反射率Ｒを乗じて、スピーカＳ０からの反射成分ｒｎ´が推定され、処理対象音（ｄｏ´＋ｒｎ´）に相当する信号から減算される。

これにより、ユーザＵ０の方向へ反射して回り込むスピーカＳ０からの反射成分ｒｎ´を抑圧することで、ユーザＵ０からの音声（直接音ｄｏ´）を高品質な状態で収音することができる。

［４．第１の変形例］
図６には、第１の変形例に係る収音装置１０の動作が示されている。第１の変形例では、非目的音源Ｓｎが複数の対象からなる。なお、図６では、ｎ＝２、つまり非目的音源Ｓｎ１、Ｓｎ２が２つの対象からなる場合が示されているが、非目的音源Ｓｎは、３つ以上の対象からなってもよい。

収音装置１０では、１つの対象が目的音源Ｓｏとなり、目的音源Ｓｏと異なる方向に位置し、かつ互いに異なる方向に位置するｎ個の対象が非目的音源Ｓｎ１、…、Ｓｎｎとなる。ここで、目的音源Ｓｏは、予め特定されている。

収音装置１０では、第１に、状態ＳＴ２１に示すように、指向Ｄｏで目的音源Ｓｏの方向へ反射して回り込む非目的音源Ｓｎ１、Ｓｎ２からの反射成分ｒｎ１、ｒｎ２が各々に収音されるとともに、指向Ｄｎ１、Ｄｎ２で非目的音源Ｓｎ１、Ｓｎ２からの直接音ｄｎ１、ｄｎ２が各々に収音される。そして、非目的音源Ｓｎ１、Ｓｎ２からの音声の反射率Ｒ１、Ｒ２が学習される。なお、非目的音源Ｓｎ１、Ｓｎ２からの音声の反射率Ｒ１、Ｒ２は、他の音源から音声が発生していないタイミングで算出された反射率Ｒを用いて学習される。

第２に、状態ＳＴ２２に示すように、指向Ｄｏで目的音源Ｓｏからの直接音ｄｏ´と非目的音源Ｓｎ１、Ｓｎ２からの反射成分ｒｎ１´、ｒｎ２´が処理対象音（ｄｏ´＋ｒｎ１´＋ｒｎ２´）として同時に収音されるとともに、指向Ｄｎ１、Ｄｎ２で非目的音源Ｓｎ１、Ｓｎ２からの直接音ｄｏ１´、ｄｏ２´が各々に収音される。なお、非目的音源Ｓｎ１、Ｓｎ２からの直接音ｄｏ１´、ｄｏ２´は、他の音源から音声が発生していないタイミングで各々に収音される。例えば、非目的音源Ｓｎ１からの直接音ｄｏ１´は、非目的音源Ｓｎ１からのみ音声が発生しているタイミングで収音される。

そして、非目的音源Ｓｎ１、Ｓｎ２からの直接音ｄｏ１´、ｄｏ２´に相当する信号を非目的音源Ｓｎ１、Ｓｎ２からの音声の反射率Ｒ１、Ｒ２に乗じて、非目的音源Ｓｎ１、Ｓｎ２からの反射成分ｒｎ１´、ｒｎ２´が各々に推定され、処理対象音（ｄｏ´＋ｒｎ１´＋ｒｎ２´）に相当する信号から減算される。

これにより、目的音源Ｓｏの方向へ反射して回り込む、複数の非目的音源Ｓｎ１、Ｓｎ２からの反射成分ｒｎ１´、ｒｎ２´を抑圧することで、目的音源Ｓｏからの音声（直接音ｄｏ´）を高品質な状態で収音することができる。

また、収音装置１０では、各非目的音源Ｓｎ１、Ｓｎ２からの直接音ｄｏ１´、ｄｏ２´の発生の有無が検知されてもよい。これにより、直接音ｄｏ１´または直接音ｄｏ２´を発生させた非目的音源Ｓｎ１または非目的音源Ｓｎ２が目的音源Ｓｏとなるように、目的音源Ｓｏを変更することができる。

第１の変形例に係る収音装置１０は、例えば、目的音源Ｓｏに相当する監視対象を映像および音声にて監視する監視システム、または目的音源Ｓｏに相当する特定対象の映像および音声を記録する映像音声記録システムに適用することができる。

［５．第２の変形例］
図７Ａ、７Ｂには、第２の変形例に係る収音装置１０の動作が示されている。第２の変形例では、目的音源Ｓｏが不特定の対象からなる。なお、図７Ａ、７Ｂでは、ｎ＝３、つまり目的音源Ｓｏが１つの対象からなり、非目的音源Ｓｎ１、Ｓｎ２が残り２つの対象からなる場合が示されていが、非目的音源Ｓｎは、３つ以上の対象からなってもよい。

収音装置１０では、相異なる方向に位置する第１〜第ｎの対象Ｓ１、…、Ｓｎのうち、任意の１つの対象が目的音源Ｓｏとなり、残りの対象が非目的音源Ｓｎ１、…、Ｓｎｎ−１となる。ここで、目的音源Ｓｏは、予め特定されていない。

収音装置１０では、第１に、状態ＳＴ３１に示すように、指向Ｄ１で対象Ｓ１を目的音源Ｓｏと想定して、対象Ｓ１の方向へ反射して回り込む他の対象Ｓ２、Ｓ３からの反射成分ｒ２１、ｒ３１が各々に収音されるとともに、他の対象Ｓ２、Ｓ３からの直接音ｄ２、ｄ３が各々に収音される。そして、他の対象Ｓ２、Ｓ３からの音声の反射率Ｒ２１、Ｒ３１が各々に学習される。なお、反射成分ｒｉｊおよび反射率Ｒｉｊは、対象ｊの方向へ反射して回り込む他の対象ｉからの反射成分ｒおよび反射率Ｒを各々に意味している。

同様に、状態ＳＴ３２、ＳＴ３３に示すように、指向Ｄ２、Ｄ３で他の対象Ｓ２、Ｓ３を目的音源Ｓｏと想定して、目的音源Ｓｏ以外の対象からの音声の反射率Ｒ１２、Ｒ３２、Ｒ１３、Ｒ２３が各々に学習される。なお、対象Ｓ１〜Ｓ３からの音声の反射率Ｒは、他の音源から音声が発生していないタイミングで算出された反射率Ｒを用いて学習される。よって、目的音源Ｓｏと非目的音源Ｓｎのｎ×（ｎ−１）個の組合せについて、非目的音源Ｓｎからの音声の反射率Ｒが算出されて学習される。

第２に、各対象Ｓ１〜Ｓ３からの直接音ｄ１´〜ｄ３´の発生の有無が検知される。そして、例えば、直接音ｄ´のパワー比が最大となる対象、または直接音ｄ´を連続して発生している対象を目的音源Ｓｏとして特定される。以下では、対象Ｓ１が目的音源Ｓｏとして特定された場合を想定して説明する。

第３に、状態ＳＴ３４に示すように、指向Ｄ１で目的音源Ｓｏとして特定された対象Ｓ１からの直接音ｄ１´と他の対象Ｓ２、Ｓ３からの反射成分ｒ２１´、ｒ３１´が処理対象音（ｄ１´＋ｒ２１´＋ｒ３１´）として同時に収音されるとともに、指向Ｄ２、Ｄ３で各対象Ｓ２、Ｓ３からの直接音ｄ２´、ｄ３´が各々に収音される。なお、対象Ｓ２、Ｓ３からの直接音ｄ２´、ｄ３´は、他の音源から音声が発生していないタイミングで収音される。例えば、対象Ｓ２からの直接音ｄ２´は、対象Ｓ２からのみ音声が発生しているタイミングで収音される。

そして、対象Ｓ２、Ｓ３からの直接音ｄ２´、ｄ３´に相当する信号に対象Ｓ２、Ｓ３からの音声の反射率Ｒ２１、Ｒ３１を乗じて、対象Ｓ２、Ｓ３からの反射成分ｒｎ２１´、ｒｎ３１´が各々に推定され、処理対象音（ｄ１´＋ｒ２１´＋ｒ３１´）に相当する信号から減算される。

これにより、任意に変更する目的音源Ｓｏの方向へ反射して回り込む、複数の非目的音源Ｓｎ１、Ｓｎ２からの反射成分ｒｎ１ｏ´、…、ｒｎ２ｏ´を抑圧することで、目的音源Ｓｏからの音声（直接音ｄｏ´）を高品質な状態で収音することができる。

なお、上記変形例では、目的音源Ｓｏが任意に変更するので、目的音源Ｓｏと非目的音源Ｓｎのｎ×（ｎ−１）個の組合せについて、非目的音源Ｓｎからの音声の反射率Ｒを予め算出して学習している。よって、対象の数が多くなると、処理リソースに対する負荷が大きくなることが想定される。このため、例えば、各対象からの直接音の発生履歴に基づき、各対象が目的音源となる確率を算出するようにしてもよい。この場合、目的音源となる確率の高い対象については、確率の低い対象に比べて学習頻度を高くすることで、反射率Ｒを効率的に学習することができる。

［６．まとめ］
以上説明したように、本発明の実施形態に係る収音装置１０によれば、非目的音源Ｓｎからの反射成分ｒｎに相当する信号と非目的音源Ｓｎからの直接音ｄｎに相当する信号の比率（ｒｎ／ｄｎ）からなる、非目的音源Ｓｎからの音声の反射率Ｒが帯域毎に算出されて学習される。そして、非目的音源Ｓｎからの直接音ｄｎ´に相当する信号に、非目的音源Ｓｎからの音声の反射率Ｒを帯域毎に乗じることで、目的音源Ｓｏの方向へ反射して回り込む非目的音源Ｓｎからの反射成分ｒｎ´に相当する信号が推定される。さらに、目的音源Ｓｏからの直接音ｄｏ´を含む処理対象音（ｄｏ´＋ｒｎ´）に相当する信号から、推定された反射成分ｒｎ´に相当する信号を帯域毎に減算することで、非目的音源Ｓｎからの反射成分ｒｎ´が除去され、目的音源Ｓｏからの音声（直接音ｄｏ´）を高品質な状態で収音することができる。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

１０収音装置
１１アレイモジュール
１２音声処理部
１３制御部
１４アレイマイク
１５アレイ処理部
１６反射率学習部
１７反射成分推定部
１８反射成分除去部
Ｓｏ目的音源
Ｓｎ、Ｓｎ１、Ｓｎ２非目的音源
Ｄｏ、Ｄｎ、Ｄｎ１、Ｄｎ２、Ｄ１、Ｄ２、Ｄ３アレイマイクの指向
ｒｎ、ｒｎ´、ｒｎ１´、ｒｎ２´ 非目的音源からの反射成分
ｄｏ´ 目的音源からの直接音
ｄｎ、ｄｎ１、ｄｎ２、ｄｎ´、ｄｎ１´、ｄｎ２´ 非目的音源からの直接音
Ｓ１、Ｓ２、Ｓ３音源
ｒ２１、ｒ３１、ｒ１２、ｒ３２、ｒ１３、ｒ２３、ｒ２１´、ｒ３１´ 音源からの反射成分
ｄ１、ｄ２、ｄ３、ｄ１´、ｄ２´、ｄ３´ 音源からの直接音

Claims

指向性を変更可能なアレイマイクと、
前記アレイマイクによる収音処理を制御する制御部と、
前記アレイマイクにより収音された音声を処理する音声処理部と
を備え、
前記制御部は、前記アレイマイクの指向を目的音源に向けて、前記目的音源とは異なる方向に位置する非目的音源から前記目的音源の方向へ反射して回り込む、前記非目的音源からの反射成分を収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するように前記アレイマイクを制御し、
前記音声処理部は、前記非目的音源からの反射成分に相当する信号と前記非目的音源からの直接音に相当する信号の比率からなる、前記非目的音源からの音声の反射率を帯域毎に算出して学習し、
前記制御部は、前記アレイマイクの指向を前記目的音源に向けて、前記目的音源からの直接音と前記非目的音源からの反射成分を処理対象音として同時に収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するように前記アレイマイクを制御し、
前記音声処理部は、前記非目的音源からの直接音に相当する信号に前記非目的音源からの音声の反射率を帯域毎に乗じて、前記処理対象音に相当する信号から帯域毎に減算する、収音装置。
前記非目的音源が複数の音源からなる場合において、
前記音声処理部は、前記複数の音源について、前記各非目的音源からの音声の反射率を算出して学習し、前記各非目的音源からの直接音に相当する信号に前記各非目的音源からの音声の反射率を乗じて、前記処理対象音に相当する信号から減算する、請求項１に記載の収音装置。
前記目的音源および前記非目的音源が複数の音源からなり、前記複数の音源のうち１の音源が前記目的音源となり、他の音源が前記非目的音源となる場合において、
前記音声処理部は、想定される目的音源と非目的音源の組合せについて、前記各非目的音源からの音声の反射率を算出して学習し、前記特定の音源からの直接音により前記目的音源が特定されると、前記特定の音源を前記目的音源として算出された反射率を用いて、前記各非目的音源からの直接音に相当する信号に前記各非目的音源からの音声の反射率を乗じて、前記処理対象音に相当する信号から減算する、請求項１に記載の収音装置。
アレイマイクの指向を目的音源に向けて、前記目的音源とは異なる方向に位置する非目的音源から前記目的音源の方向へ反射して回り込む、前記非目的音源からの反射成分を収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するステップと、
前記非目的音源からの反射成分に相当する信号と前記非目的音源からの直接音に相当する信号の比率からなる、前記非目的音源からの音声の反射率を帯域毎に算出して学習するステップと、
前記アレイマイクの指向を前記目的音源に向けて、前記目的音源からの直接音と前記非目的音源からの反射成分を処理対象音として収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するステップと、
前記非目的音源からの直接音に相当する信号に前記非目的音源からの音声の反射率を帯域毎に乗じて、前記処理対象音に相当する信号から帯域毎に減算するステップと
を含む収音方法。
アレイマイクの指向を目的音源に向けて、前記目的音源とは異なる方向に位置する非目的音源から前記目的音源の方向へ反射して回り込む、前記非目的音源からの反射成分を収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するステップと、
前記非目的音源からの反射成分に相当する信号と前記非目的音源からの直接音に相当する信号の比率からなる、前記非目的音源からの音声の反射率を帯域毎に算出して学習するステップと、
前記アレイマイクの指向を前記目的音源に向けて、前記目的音源からの直接音と前記非目的音源からの反射成分を処理対象音として収音するとともに、前記アレイマイクの指向を前記非目的音源に向けて、前記非目的音源からの直接音を収音するステップと、
前記非目的音源からの直接音に相当する信号に前記非目的音源からの音声の反射率を帯域毎に乗じて、前記処理対象音に相当する信号から帯域毎に減算するステップと
を含む収音方法をコンピュータに実行させるためのプログラム。