JP2011071702A

JP2011071702A - 収音処理装置、収音処理方法、及びプログラム

Info

Publication number: JP2011071702A
Application number: JP2009220467A
Authority: JP
Inventors: Chikako Matsumoto; 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-09-25
Filing date: 2009-09-25
Publication date: 2011-04-07
Anticipated expiration: 2029-09-25
Also published as: JP5564873B2

Abstract

【課題】複数の発音体による同時の発音を明瞭に収音する。
【解決手段】収音処理部３０は、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイ２で収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する。発音体情報取得部１０は、マイクアレイ２の収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。収音指向性範囲設定部２０は、マイクアレイ２から発音体に向ける収音指向性の向きを、発音体情報取得部１０が取得した発音体についての配置の情報に基づき発音体の各々について設定する。更に、発音体に向ける収音指向性の鋭さについても、発音体情報取得部１０が取得した発音体についての数の情報に基づき発音体の各々について設定する。収音処理部３０は、収音指向性範囲設定部２０が設定した向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。
【選択図】図１

Description

本明細書で議論される実施態様は、音声信号処理技術に関する。

話者による発声を明瞭に収音する技術として、話者の発声を収音するマイクロフォン（以下、「マイク」と記すこともある）による収音指向性を制御する技術が幾つか知られている。

そのような技術に、単一収音指向性マイクの指向性のビーム幅に等しい画角を有するカメラを用意し、その指向性と画角とを一致させるようにマイクとカメラとを一体化させた、カメラ会議用のカメラ一体化マイクで使用されるものがある。このカメラ一体化マイクでは、カメラでの撮像画像から発話者の顔の像の検出が行われる。そして、検出された顔の像が当該撮像画像の中心に位置するようにカメラを向ける制御が行われて、マイクの収音指向性（以下、単に「指向性」を記すこともある）の中心がその発話者に向けられる。このカメラ一体化マイクにおいて、撮像画像から検出された顔の像の数に応じて、マイクの指向性の向きを制御するという技術が知られている。この第一の技術は、その数が奇数の場合にはマイクに最も近い話者にマイクの指向性を向け、その数が偶数の場合にはマイクに最も近い話者と二番目に近い話者との間にマイクの指向性を向けるようして、会議での発話者の声を的確に捉えるというものである。

また、このような技術の別のひとつに、撮像画像に含まれる人物の像の当該撮像画像上での大きさに基づいてマイクの指向性の鋭さを制御するという技術がある。この第二の技術では、撮像画像上において人物の像が大きい場合には、その撮像意図が人物を重視していると判断し、その人物の発声を明瞭に収音するべくマイクの指向性を鋭くするように制御する。その一方で、撮像画像上において人物の像が小さい場合には、その撮像意図がその人物を含む周囲の環境全体であると判断し、その人物の発声の収音と共に周囲の環境音の収音にも配慮するべくマイクの指向性を鈍くするように制御する。

この他に、本明細書で議論される実施態様に関連する技術として、複数の方向に存在する音源からの音声を収音した音声信号のうち、所定の方向の音源が発する音声を強調して周囲の雑音を抑制する第三の技術が知られている。この技術では、複数の方向に存在する音源からの音声を複数のマイク（マイクアレイ）で収音し、各マイクから出力される時間軸上の音声信号を、例えばフーリエ変換することで、周波数軸上の音声信号に各々変換する。この周波数軸上の各音声信号について、同一周波数での位相差を各周波数について算出し、その位相差に基づいて、所定の方向に音源が存在する確率を各周波数について特定する。そして、この確率に基づき、当該所定の方向の音源以外の音源に基づく音声信号成分を抑制する抑制関数を求め、得られた抑制関数を周波数軸上の音声信号に乗算する。その後、この乗算結果を、例えば逆フーリエ変換して、時間軸上の信号に復元すると、所定の方向に音源に基づく音声信号が得られるというものである。

特開２００９−４９７３４号公報特開２００９−６５５８７号公報特開２００７−３１８５２８号公報

マイクの収音範囲内に複数の話者が在る場合において、前述した第一の技術のようにしてマイクの指向性の向きを制御しても、発話者がマイクに最も近い者ではない場合には、発話者の声を的確に捉えることができない場合がある。また、前述した第二の技術では、複数の人物の同時発声の明瞭な収音は難しい。

本発明は上述した問題に鑑みてなされたものであり、その解決しようとする課題は、複数の発音体による同時の発音を明瞭に収音することである。

本明細書で後述する収音装置のひとつには、収音処理手段と、取得手段と、収音指向性範囲設定手段とを有するというものがある。このうち、収音処理手段は、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する。また、取得手段は、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。そして、収音指向性範囲設定手段は、マイクアレイから発音体に向ける収音指向性の向きを、取得手段が取得した発音体についての配置の情報に基づき発音体の各々について設定する。加えて、この収音指向性範囲設定手段は、発音体に向ける収音指向性の鋭さを、取得手段が取得した発音体についての数の情報に基づき発音体の各々について設定する。これらを有する収音装置において、前述した収音処理手段は、収音指向性範囲設定手段が設定した向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。

また、本明細書で後述する収音方法のひとつは、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成するものである。

この方法では、まず、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。次に、マイクアレイから発音体に向ける収音指向性の向きを、取得された発音体についての配置の情報に基づき発音体の各々について設定する。更に、これと共に、発音体の各々に向ける収音指向性の鋭さを、取得された発音体についての数の情報に基づき発音体の各々について設定する。そして、次に、設定された向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。

また、本明細書で後述するプログラムのひとつは、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムである。このプログラムは、コンピュータに実行させることによって、取得処理と、収音指向性範囲設定処理と、収音処理と、をコンピュータに行わせる。ここで、収音処理は、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する処理である。また、収音指向性範囲設定処理は、マイクアレイから該発音体に向ける収音指向性の向きを、取得処理で取得された発音体についての配置の情報に基づき発音体の各々について設定する処理である。加えて、この収音指向性範囲設定処理は、発音体に向ける収音指向性の鋭さを、取得処理により取得された発音体についての数の情報に基づき発音体の各々について設定する処理も含む。そして、収音処理は、収音指向性範囲設定処理により設定された向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する処理である。

本明細書で後述する収音装置は、複数の発音体による同時の発音を明瞭に収音することができる。

収音システムの構成の第一の例である。収音信号の２つのマイク間での位相差範囲の周波数特性例である。顔の位置検出システムが撮影画像から取得するデータ例である。収音指向性の鋭さの設定の説明図（その１）である。収音指向性の鋭さの設定の説明図（その２）である。収音指向性の鋭さの設定の説明図（その３）である。出力音声の音源から除外する発音体の抽出の説明図（その１）である。出力音声の音源から除外する発音体の抽出の説明図（その２）である。収音システムの構成の第二の例である。収音装置として動作させるコンピュータの構成である。コンピュータにより実行される制御処理の処理内容を図解したフローチャートである。

まず図１について説明する。図１には、収音システムの構成の第一の例が図解されている。この収音システムは、収音装置１、マイクアレイ２、カメラ３、及び顔の位置検出システム４を有している。

収音装置１は、マイクアレイ２での収音信号に対して信号処理を施し、その収音指向性の制御がされている出力音を出力する。
マイクアレイ２は、複数のマイクロフォンを例えば水平方向に一列に並べて構成されている。なお、マイクアレイ２を構成している各マイクロフォン間の相対位置は固定されている。

収音装置１は、発音体情報取得部１０、収音指向性範囲設定部２０、収音処理部３０、及び除外発音体抽出部４０を備えている。
発音体情報取得部１０は、マイクアレイ２の収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。なお、発音体としては、音を発するものであれば、例えば犬や猫などの動物でもよく、更には、スピーカを備えた放音装置や、あるいは、発音を本来の目的としてしない、騒音として動作音を発する機械などであってもよい。但し、図１の収音システムでは、マイクアレイ２の収音範囲内に存在する発音体として、発声を行う人間を想定しており、発音体情報取得部１０は、マイクアレイ２の収音範囲内に存在する人間の数及び配置の情報の入力を顔の位置検出システム４から取得する。

収音指向性範囲設定部２０は、マイクアレイ２から発音体に向ける収音指向性の向きを、発音体情報取得部１０が取得した発音体（本実施形態では人間）についての配置の情報に基づき、当該発音体（人間）の各々について設定する。収音指向性範囲設定部２０は、更に、マイクアレイ２から発音体（人間）に向ける収音指向性の鋭さを、発音体情報取得部１０が取得した当該発音体（人間）についての数の情報に基づき、当該発音体（人間）の各々について設定する。この収音指向性範囲設定部２０により行われる、収音指向性の向き及び鋭さの設定の手法については後述する。

収音処理部３０は、マイクアレイ２を構成している各々のマイクで収音した複数の収音信号に基づいて、収音指向性範囲設定部２０が設定した向き及び鋭さに収音指向性を制御した出力音（出力音声）の信号を生成する。本実施形態では、収音処理部３０は、この収音指向性の制御を、前述した特許文献３により開示されている公知の手法を用い、以下のように行う。

収音処理部３０は、指向性受音処理部３１と出力音声信号生成部３２とを有している。
指向性受音処理部３１は、まず、マイクアレイ２で収音した上記の複数の収音信号の各々をアナログ−デジタル変換して、時間領域の収音信号データとする。次に、この収音信号データに対し、例えば高速フーリエ変換のような時間−周波数変換を施すことで、各収音信号の周波数スペクトルデータを求める。

次に、指向性受音処理部３１は、収音信号のうちのひとつの周波数スペクトルデータを基準としたときの、その他の各収音信号の周波数スペクトルデータとの間でのスペクトルの位相差を、各スペクトル周波数について算出する処理を行う。

次に、指向性受音処理部３１は、収音指向性範囲設定部２０が設定した向き及び鋭さの収音指向性を得るために収音信号の周波数スペクトルに与える重み付け値を求める。そして、前述した基準の収音信号の周波数スペクトルに対し、この重み付け値をスペクトル周波数毎に乗算して重み付けを与える処理を行う。このスペクトル周波数毎の重み付け値は、例えば以下のようにして求める。

まず、指向性受音処理部３１は、収音指向性範囲設定部２０が設定した収音指向性の向き及び鋭さの情報から、当該収音指向性の範囲内から到来した音がマイクアレイ２で収音されたときに生じ得る収音信号のマイク間での位相差範囲の周波数特性を求める。

ここで図２について説明する。図２は、収音信号の２つのマイク間での位相差範囲の周波数特性例であり、鋭さを±θ_defのビーム幅とする収音指向性の範囲内から到来した音が２つのマイクで収音されたときに生じ得る収音信号のマイク間での位相差範囲の周波数特性を示したものである。なお、図２において、横軸は音源から発する音の周波数であり、縦軸はこの音を収音したときの２つのマイク間での位相差である。なお、この周波数特性で示される周波数と位相差との関係は、２つのマイクの配置位置の中点を中心としたときの音源の方向角をパラメータとして幾何学的に算出することができる。

この周波数特性を求めるために、例えば、収音指向性の鋭さと収音信号のマイク間での位相差範囲の周波数特性との関係が示されているテーブルを、当該収音指向性の向き毎に予めデータベース化して指向性受音処理部３１に格納しておくようにすることもできる。この場合には、指向性受音処理部３１は、このデータベースを参照し、収音指向性範囲設定部２０が設定した情報に対応付けられているものをテーブルから読み出すことで、収音信号の位相差範囲の周波数特性を求めるようにする。

次に、収音信号の周波数スペクトルに対して与える、各スペクトルの位相差に基づいた重み付け値を、当該スペクトルの周波数毎に設定する。各スペクトルに与えられるこの重み付け値は以下のようにして求める。

まず、先に求めた収音信号の位相差範囲の周波数特性を参照し、当該重み付けを与えるスペクトルの周波数においての当該位相差範囲をその周波数特性から求める。
次に、各スペクトル周波数について先に求めた位相差と、その位相差範囲との関係に基づき、重み付け値を設定する。例えば、位相差がその位相差範囲内であってその範囲の中心から所定値以内の近さであるスペクトルについては、この重み付け値を「１．０」に設定し、位相差がその位相差範囲外のスペクトルについては、この重み付け係数を「０．０」に設定する。また、位相差がその位相差範囲内であるがその範囲の中心から上記所定値以上に離れたものについては、「１．０」から「０．０」の範囲でその中心からの距離に応じた例えば一次補間を行い、範囲の境界で上述の設定値と連続するように重み付け値を設定する。

各スペクトルに与えられる重み付け値は、以上のようにして求められる。なお、この重み付け値は、特許文献３において「抑制関数」と称されているものに相当する。
なお、位相差及び位相差範囲と上述した重み付け設定値との関係が予め示されているテーブルをスペクトル周波数毎に予めデータベース化して指向性受音処理部３１に格納しておくようにしてもよい。この場合には、指向性受音処理部３１は、このデータベースを参照して、各スペクトルにおける位相差及び位相差範囲に対応付けられている重み付け値をテーブルから読み出して設定する。

本実施形態では、先に求めていた位相差の数だけ以上のようにして得られる重み付け値について、スペクトル周波数毎に加算平均を求めることで、基準とした収音信号の周波数スペクトルに対して与えられるスペクトル周波数毎の重み付け値を求める。

出力音声信号生成部３２は、指向性受音処理部３１により上述した重み付けが与えられた収音信号の周波数スペクトルに対し、指向性受音処理部３１での変換に対する逆変換（例えば高速フーリエ逆変換）を施して時間領域の音声信号データに変換して出力する。この音声信号データが、マイクアレイ２で収音した複数の収音信号に基づき生成された、収音指向性範囲設定部２０が設定した向き及び鋭さに収音指向性が制御された出力音声の信号である。
収音処理部３０は以上のように構成されている。

除外発音体抽出部４０は、発音体情報取得部１０が取得した発音体（本実施形態においては人間）の配置の情報に基づいて、収音処理部３０が生成する出力音声の音源から除外する発音体（人間）を抽出する。収音指向性範囲設定部２０は、除外発音体抽出部４０がこの抽出を行った場合には、マイクアレイ２から発音体（人間）に向ける収音指向性の向き及び鋭さを、当該発音体（人間）のうち除外発音体抽出部４０により抽出されたもの以外の各々について設定する。この除外発音体抽出部４０による、除外される発音体の抽出の手法については後述する。
収音装置１は以上の構成要素を備えている。

カメラ３は、マイクアレイ２の収音範囲内の画像の固定倍率での撮影を、所定の時間間隔で繰り返し行う。なお、本実施形態では、カメラ３はマイクアレイ２とほぼ同一の位置に配置されているものとする。

顔の位置検出システム４（以下、単に「検出システム４」と称することとする）は、カメラ３により撮影された画像に対して画像処理を施すことによって、マイクアレイ２の収音範囲内に存在する発音体（本実施形態においては人間）の数及び配置の情報を得る。この情報は収音装置１に入力されて、発音体情報取得部１０により取得される。

ここで、この検出システム４による画像処理について説明する。
検出システム４は、まず、カメラ３での撮影画像から、人間の顔の像の検出処理を行う。この顔検出の手法には周知の技術を用いる。本実施形態では、画像から切り出した部分領域の画像と、予め用意しておいた顔パターンのデータベースから読み出した顔パターン画像の各々とを照合して両者の相関度を算出する処理を行う。この相関度は、例えば、顔の輪郭、目・鼻・口の相対位置、顔の色彩などに基づき総合的に算出する。そして、この相関度が所定値よりも高いものが存在した場合には、その部分領域を、人間の顔の像の検出結果とする。この処理を、部分領域の位置及び大きさを変えながら撮影画像の全体に亘って行うことで、撮影画像に含まれる顔の像の数と、各顔の像の撮影画像における位置及び大きさを検出する。このうちの撮影画像に含まれる顔の像の数の検出結果は、マイクアレイ２の収音範囲を撮影した画像から得られた、マイクアレイ２の収音範囲内に存在する発音体の数の情報として、検出システム４から出力される。

次に、検出システム４は、撮影画像から検出された部分領域（すなわち顔の像）の撮影画像上の位置に基づいて、その部分領域に表されている顔へのマイクアレイ２からの方向角を求める処理を行う。この方向角を求めるために、例えば、部分領域の位置と方向角との関係を実測して作成したテーブルを検出システム４に予め格納しておくようにすることができる。この場合には、検出システム４は、このテーブルを参照し、部分領域の位置に対応付けられている方向角をテーブルから読み出すことで、マイクアレイ２から顔への方向角を求めるようにする。

次に、検出システム４は、撮影画像から検出された部分領域（すなわち顔の像）の大きさに基づいて、その部分領域に表されている顔までのマイクアレイ２からの距離を求める処理を行う。この距離を求めるために、例えば、部分領域の大きさと距離との関係を実測して作成したテーブルを検出システム４に予め格納しておくようにすることができる。この場合には、検出システム４は、このテーブルを参照し、部分領域の大きさに対応付けられている距離をテーブルから読み出すことで、マイクアレイ２から顔までの距離を求めるようにする。

次に、検出システム４は、撮影画像から検出された顔の像に表されている目・鼻・口の位置関係に基づいて、その顔の向きを求める処理を行う。この処理では、例えば、その顔の像に含まれている両目・鼻・口の位置に基づき、鼻の位置と口の位置とを通る直線からの、右目の位置までの距離と左目の位置までの距離とをまず求める。そして、この２つの距離の比に基づき、その顔の向きを示す角度を求める。この角度を求めるために、例えば、上述の距離の比と上述の角度との関係を実測して作成したテーブルを検出システム４に予め格納しておくようにすることができる。この場合には、検出システム４は、このテーブルを参照し、撮影画像に基づき求められた上述の距離の比に対応付けられている距離をテーブルから読み出すことで、その顔の向きを示す角度を求めるようにする。

検出システム４が以上のようにして撮影画像から取得するデータを図３に示す。
この図３では、カメラ３の撮影範囲内（すなわちマイクアレイ２の収音範囲内）に人間が二人（人Ａ及び人Ｂ）在る場合を示している。ここで、検出システム４は、以上の処理により、図３に示されている人Ａの方向角θ_A、距離ｄ_A、及び顔の角度θ2_Aと、人Ｂの方向角θ_B、距離ｄ_B、及び顔の角度θ2_Bとを求める。

なお、検出システム４が、人Ａの方向角θ_A及び距離ｄ_Aと人Ｂの方向角θ_B及び距離ｄ_Bとを求める代わりに、人Ａ及び人Ｂそれぞれの配置位置を示す二次元座標値（Ｘ_A，Ｙ_A）及び（Ｘ_B，Ｙ_B）を撮影画像から求めるようにしてもよい。

検出システム４は、マイクアレイ２の収音範囲を撮影した画像から以上のようにして得られた、撮影画像に顔の像が含まれている各人についての方向角θ、距離ｄ、及び顔の角度θ2 の各データを、当該収音範囲内に存在する発音体の配置の情報として出力する。

検出システム４は、以上のようにして、マイクアレイ２の収音範囲内に存在する発音体の数及び配置の情報を、カメラ３が当該収音範囲内の画像を撮像する度に当該画像から取得して収音装置１に出力する。検出システム４から出力された情報は、収音装置１の発音体情報取得部１０が取得する。
図１の収音システムは、以上の構成要素を有している。

次に、収音装置１の収音指向性範囲設定部２０により行われる、収音指向性の向き及び鋭さの設定の手法について説明する。

収音指向性範囲設定部２０には、マイクアレイ２の収音範囲内に存在する人の数と収音指向性の鋭さを示す角度との関係が設定されている角度テーブルが予め格納されている。本実施形態では、この角度テーブルの設定によって、その収音範囲内に存在する人が一人の場合に収音指向性の鋭さの最大値（最も鈍い値）θ_MAX（例えば９０°）が関係付けられており、二人の場合に規定値θ_def（例えば３０°）が関係付けられているものとする。

収音指向性範囲設定部２０は、まず、マイクアレイ２の収音範囲内に存在する発音体（人間）の数及び配置の情報として、上述の人数の情報と、各人についての方向角θ、距離ｄ、及び顔の角度θ2 の各データとを、発音体情報取得部１０から取得する処理を行う。なお、ここでは、除外発音体抽出部４０の動作は考慮しないものとする。

次に、収音指向性範囲設定部２０は、このうちの人数の情報に基づき、各人に向ける収音指向性の鋭さの設定処理を行う。この設定処理を、図４を用いて説明する。
マイクアレイ２の収音範囲内に存在する人間が一人のみの場合には、収音指向性範囲設定部２０は、この設定処理の実行により、収音指向性の鋭さを、その人への向きを中心とする±θ_MAXの角度に設定する。図４の（１）の例では、方向角θ_Aが０°に位置する人Ａに対し、収音指向性範囲設定部２０は、±θ_MAXの角度に収音指向性の鋭さを設定する。

一方、その収音範囲内に存在する人間が二人以上の場合、収音指向性範囲設定部２０は、この設定処理の実行により、収音指向性の鋭さを、その人への向きを中心とする±θ_defの角度に設定する。図４（２）の例では、方向角θ_A（＜０）に位置する人Ａと、方向角θ_B（＞０）に位置する人Ｂとに対し、収音指向性範囲設定部２０は、それぞれ、その方向角を中心として±θ_defの角度に収音指向性の鋭さを設定する。

収音指向性範囲設定部２０は、このようにして、マイクアレイ２の収音範囲内に存在する発音体についての数の情報に基づき、各発音体に向ける収音指向性の鋭さの設定を行う。収音処理部３０は、収音指向性範囲設定部２０が設定した鋭さに収音指向性を制御した出力音声の信号を生成するので、このような設定を収音指向性範囲設定部２０が行うことで、複数の発音体による同時の発音を明瞭に収音することが収音装置１で可能になる。

なお、この設定処理により、収音指向性範囲設定部２０が、発音体（人間）の各々に向ける収音指向性の鋭さを、更に、発音体情報取得部１０が検出システム４から取得した発音体（人間）についての配置の情報にも基づき、設定するようにしてもよい。

例えば、マイクアレイ２の収音範囲内に存在する人Ａと人Ｂとの配置間隔が、図５の（１）に示すように、図４の（２）の場合よりも離れており、収音指向性の範囲の一部が、マイクアレイ２の収音可能範囲を超えてしまう場合がある。すなわち、
θ_A−θ_def＜−θ_MAX
θ_B＋θ_def＞θ_MAX
の場合である。（マイクアレイ２から人Ａまでの距離とマイクアレイ２から人Ｂまでの距離とは同一とする。）このような場合には、収音指向性範囲設定部２０は、設定処理の実行により、人Ａ及び人Ｂそれぞれについての収音指向性の角度範囲を示す方位角α及びβを、下記の数式で示される範囲内に設定する。
−θ_MAX＜ α ＜θ_A＋θ_def
θ_B−θ_def＜ β ＜θ_MAX

一方、マイクアレイ２の収音範囲内に存在する人Ａと人Ｂとの配置間隔が、図５の（２）に示すように、図４の（２）の場合よりも近く、両者の収音指向性の範囲の一部が重なってしまう場合がある。（マイクアレイ２から人Ａまでの距離とマイクアレイ２から人Ｂまでの距離とは同一とする。）すなわち、
−θ_A＋θ_B＜２θ_def
の場合である。このような場合には、収音指向性範囲設定部２０は、設定処理の実行により、人Ａ及び人Ｂそれぞれについての収音指向性の角度範囲α及びβを、下記の数式で示される範囲内とする。
θ_A−θ_def＜ α ＜（−θ_A＋θ_B）／２
（−θ_A＋θ_B）／２＜ β ＜θ_B＋θ_def

以上のようにして、収音指向性範囲設定部２０が、各発音体に向ける収音指向性の鋭さを、マイクアレイ２の収音範囲内に存在する発音体同士の配置間隔の情報にも基づいて設定するようにしてもよい。

更に、この設定処理により、収音指向性範囲設定部２０が、各発音体に向ける収音指向性の鋭さを、発音体とマイクアレイ２との距離の情報にも基づき、以下のようにして設定するようにしてもよい。

収音指向性範囲設定部２０には、マイクアレイ２の収音範囲内に存在する人とマイクアレイ２との距離の基準値ｄ_defが予め格納されている。ここで、人とマイクアレイ２との距離が、この基準距離ｄ_defに一致する場合には、収音指向性範囲設定部２０は、前述した角度テーブルに設定されている収音指向性の鋭さを示す角度の値を、その人に向ける収音指向性の鋭さとしてそのまま設定する。

一方、図６の例において、マイクアレイ２との距離が基準距離ｄ_defよりも短い距離ｄ_Aである人Ａについての収音指向性については、収音指向性範囲設定部２０は、その人Ａへの方位角θ_Aを中心とする±θ_def×（ｄ_A／ｄ_def）の角度の範囲に狭く設定する。

また、図６の例において、マイクアレイ２との距離が基準距離ｄ_defよりも長い距離ｄ_Bである人Ｂについての収音指向性については、収音指向性範囲設定部２０は、その人Ｂへの方位角θ_Bを中心とする±θ_def×（ｄ_B／ｄ_def）の角度の範囲に広く設定する。

なお、収音指向性範囲設定部２０が、このように、マイクアレイ２との距離が短いほど収音指向性を狭く設定するのは、この距離が短い場合には、良好な収音が可能であるので、目的の音以外の雑音を抑制することを意図しているためである。その一方で、この距離が長いほど収音指向性を広く設定するのは、この距離が長いと、収音周波数帯域によっては音の伝搬による減衰が大きくなるために、収音量を少しでも稼ぐためである。

なお、本実施形態に係る収音システムは、収音可能距離の顕著な長距離化を指向するものではないので、収音可能距離を伸ばすために収音指向性を狭くする制御は行わない。
収音指向性範囲設定部２０による収音指向性の向き及び鋭さの設定は、以上のようにして行われる。

次に、除外発音体抽出部４０により行われる、収音処理部３０が生成する出力音声の音源から除外される発音体の抽出の手法について説明する。
除外発音体抽出部４０は、まず、マイクアレイ２の収音範囲内に存在する発音体（人間）の配置の情報として、図３を用いて説明した各人についての方向角θ、距離ｄ、及び顔の角度θ2 の各データとを、発音体情報取得部１０から取得する処理を行う。

次に、除外発音体抽出部４０は、これらの配置の情報に基づき、収音処理部３０が生成する出力音声の音源から除外する発音体（人間）を抽出する抽出処理を行う。この抽出処理について説明する。

まず図７について説明する。図７は、カメラ３の撮影範囲内（すなわちマイクアレイ２の収音範囲内）に在る二人（人Ａ及び人Ｂ）のうち、人Ｂが移動している状態を表現している。

この図７の例の場合には、カメラ３が撮影を行う度に発音体情報取得部１０が検出システム４から取得する配置の情報のうちの人Ｂについての情報は、その値が変化する。除外発音体抽出部４０は、この値の変化量、より具体的には、人Ｂについての方向角θ_B及び距離ｄ_Bから求まる、各画像の撮影時における人Ｂの配置位置の変化量（すなわち移動距離）を算出する。そして、この変化量が、予め定めておいた閾値を上回った場合には、人Ｂによる発声の明瞭な収音は困難であると判断し、出力音声の音源から除外する発音体として、人Ｂを抽出する。

以上のように、除外発音体抽出部４０は、図７の例の場合には、発音体情報取得部１０が取得した発音体の配置の情報の変化量に基づき、出力音声の信号の音源から除外する発音体を抽出する。

次に図８について説明する。図８は、カメラ３の撮影範囲内（すなわちマイクアレイ２の収音範囲内）に在る二人（人Ａ及び人Ｂ）のうち、人Ｂの顔がカメラ３（すなわちマイクアレイ２）に対して横を向いている状態を表現している。

この図８の例の場合には、人Ｂについての顔の角度θ2_Bに注目する。そして、この値が、予め定めておいた、カメラ３（すなわちマイクアレイ２）を向いているといえる閾値範囲外であった場合には、人Ｂによる発声の明瞭な収音は困難であると判断し、出力音声の音源から除外する発音体として、人Ｂを抽出する。

以上のように、除外発音体抽出部４０は、図８の例の場合には、発音体情報取得部１０が取得した発音体である人間の配置の情報のうちの当該人間の顔の向きの情報に基づいて、出力音声の信号の音源から除外する発音体を抽出する。

除外発音体抽出部４０は、以上のようにして抽出した発音体の情報を収音指向性範囲設定部２０に通知する。収音指向性範囲設定部２０は、マイクアレイ２から発音体に向ける収音指向性の向き及び鋭さを、当該発音体のうち除外発音体抽出部４０により抽出されたもの以外のものについての数若しくは配置の情報に基づき設定する。

なお、除外発音体抽出部４０は、出力音声の信号の音源から除外する発音体を抽出する手法として、この他のものを用いることもできる。
例えば、検出システム４が、撮影画像より検出した人の顔の像における口の動きの有無の情報を出力する場合には、収音指向性範囲設定部２０は、前述の収音指向性の向き及び鋭さを、この口の動きの有無の情報に基づき設定するようにすることができる。

例えば、検出システム４が、撮影画像より検出した顔の像から口（唇）の輪郭形状を抽出する処理を、カメラ３が時間を隔てて撮影した各撮影画像に対して行い、続いて、この形状の変化量を算出する処理を行う。そして、この変化量が、予め定めておいた閾値を上回った場合には、この口は動きが有ると判断し、当該閾値に満たない場合には、この口は動きが無いと判断する。検出システム４は、このようにして撮影画像より検出される各人の口の動きの判断結果情報を収音装置１に出力する。検出システム４から出力されたこの情報は、収音装置１の発音体情報取得部１０が取得する。

除外発音体抽出部４０は、発音体情報取得部１０が取得したこの判断結果情報に基づき、口は動きが無いと判断されている人を、発声をしていない人とみなし、出力音声の信号の音源から除外する発音体として抽出する。収音指向性範囲設定部２０は、マイクアレイ２から発音体に向ける収音指向性の向き及び鋭さを、当該発音体のうち除外発音体抽出部４０により抽出されたもの以外のものについての数若しくは配置の情報に基づき設定する。

このように、除外発音体抽出部４０が、発音体情報取得部１０が取得した人間の口の動きの有無の情報に基づいて、収音処理部３０が生成する出力音声の信号の音源から除外する発音体を抽出するようにしてもよい。

なお、上述した各人の口の動きの判断処理を、検出システム４に代わって除外発音体抽出部４０が行うように構成することもできる。
図１のように構成されている収音システムは、各構成要素が以上のように動作することで、複数の発音体による同時の発音の明瞭な収音が可能になる。

次に図９について説明する。図９には、収音システムの構成の第二の例が図解されている。なお、図９において、図１に図解した第一の例と同一の動作を行う構成要素には、同一の符号を付しており、それらについては詳細な説明を省略する。

この収音システムの第二の例は、図１に図解した第一の例と同様に、収音装置１、マイクアレイ２、カメラ３、及び顔の位置検出システム４を有している。但し、この第二の例では、収音装置１における収音処理部３０が、発音検出部３３を、指向性受音処理部３１と出力音声信号生成部３２との間に備えている点において、第一の例と相違している。

発音検出部３３は、マイクアレイ２の収音範囲内に存在する発音体の各々による発音の有無を検出し、その検出結果を出力音声信号生成部３２に通知する。出力音声信号生成部３２は、マイクアレイ２の収音範囲内に存在する発音体のうち、発音検出部３３により発音が検出されたもののみを音源とする出力音声の信号を生成する。

発音検出部３３について更に説明する。発音検出部３３は、発音体の各々による発音の有無の検出を、出力音声における所定の周波数帯の振幅レベルに基づいて行う。
前述したように、指向性受音処理部３１は、収音指向性範囲設定部２０が設定した向き及び鋭さの収音指向性を得るための重み付けが与えられた収音信号の周波数スペクトルを出力し、出力音声信号生成部３２は、これを時間領域の音声信号データに変換する。従って、指向性受音処理部３１が出力する周波数スペクトルは、出力音声信号生成部３２から出力される出力音声の信号の周波数スペクトルである。

発音検出部３３は、この出力音声の信号の周波数スペクトルのうち、所定の周波数帯に含まれるスペクトルのレベルを加算し、その合計値を、出力音声における所定の周波数帯の振幅レベルとして求める。そして、この振幅レベルが、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。

なお、振幅レベルを求める周波数帯は、本実施形態においては、人間による発声音の周波数帯（３００〜３４００Ｈｚ付近）とする。この代わりに、人間による発声音の周波数スペクトルにおける第一フォルマント（formant）の周波数帯（３００〜１０００Ｈｚ付近）としてもよい。

また、発音検出部３３が、発音体の各々による発音の有無の検出を、出力音声における所定の周波数帯の振幅レベルに基づいて行う代わりに、以下のようにして行うこともできる。

例えば、発音検出部３３が、この周波数スペクトルから所定値以上であるスペクトルを抽出し、抽出されたスペクトルを加算してその合計値を求める。そして、この合計値が、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。発音検出部３３による発音体の各々による発音の有無の検出を、こうして行うようにすることもできる。

あるいは、発音検出部３３が、この周波数スペクトルにおけるスペクトルの最大値を求める。そして、この最大値が、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。発音検出部３３による発音体の各々による発音の有無の検出を、こうして行うようにすることもできる。

発音検出部３３は、以上のようにして判定した、発音体による発音の有無の判定結果を出力音声信号生成部３２に通知する。出力音声信号生成部３２は、発音検出部３３から通知された判定結果に基づき、発音体による発音が有ると判定されているときの出力音声の信号を出力し、発音体による発音が無いと判定されているときの出力音声の信号の出力を中止する。

なお、発音検出部３３は、出力音声の信号の出力を中止する代わりに、無音としてもよい。また、突然の無音部分の発生による違和感を軽減するために、無音とする代わりに、所定レベルの白色雑音を出力するようにしてもよいし、この収音システムが定常的に発生させている定常雑音を出力するようにしてもよい。
図９のように構成されている収音システムは、以上のように動作する。

なお、図１及び図９の各々に図解した収音システムにおける収音装置１の動作、すなわち、マイクアレイ２で収音した複数の収音信号に基づいて収音指向性を制御した出力音声の信号の生成動作を、コンピュータに行わせることもできる。

まず図１０について説明する。図１０には、収音装置１の動作を行わせるコンピュータ５０の構成が図解されている。
このコンピュータ５０は、ＭＰＵ５１、ＲＯＭ５２、ＲＡＭ５３、ハードディスク装置５４、入力装置５５、表示装置５６、インタフェース装置５７、及び記録媒体駆動装置５８を備えている。なお、これらの構成要素はバス５９を介して接続されており、ＭＰＵ５１の管理の下で各種のデータを相互に授受することができる。

ＭＰＵ（Micro Processing Unit）５１は、このコンピュータ５０全体の動作を制御する演算処理装置である。
ＲＯＭ（Read Only Memory）５２は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。ＭＰＵ５１は、この基本制御プログラムをコンピュータ５０の起動時に読み出して実行することにより、このコンピュータ５０の各構成要素の動作制御が可能になる。

ＲＡＭ（Random Access Memory）５３は、ＭＰＵ５１が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

ハードディスク装置５４は、ＭＰＵ５１によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。ＭＰＵ５１は、ハードディスク装置５４に記憶されている所定の制御プログラムを読み出して実行することにより、後述する制御処理を行えるようになる。なお、本実施形態では、収音指向性の向き（方向角）毎に、収音指向性の鋭さ（角度値）と収音信号のマイク間での位相差範囲の周波数特性との関係が示されているテーブルのデータベースが予めハードディスク装置５４に格納されているものとする。また、位相差及び位相差範囲と、前述した重み付け設定値との関係が示されている、スペクトル周波数毎のテーブルのデータベースも予めハードディスク装置５４に格納されているものとする。

入力装置５５は、例えばキーボード装置やマウス装置であり、コンピュータ５０の使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＭＰＵ５１に送付する。

表示装置５６は例えば液晶ディスプレイであり、ＭＰＵ５１から送付される表示データに応じて各種のテキストや画像を表示する。
インタフェース装置５７は、このコンピュータ５０に接続される各種機器との間での各種データの授受の管理を行う。より具体的には、検出システム４から送られてくるデータの受信、マイクアレイ２を構成しているマイクの各々から出力される収音信号のアナログ−デジタル変換と変換後の収音信号データの一時的なバッファリング、出力音声データの後続機器への送信などを行う。

記録媒体駆動装置５８は、可搬型記録媒体６０に記録されている各種の制御プログラムやデータの読み出しを行う装置である。ＭＰＵ５１は、可搬型記録媒体６０に記録されている所定の制御プログラムを、記録媒体駆動装置５８を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体６０としては、例えばＣＤ−ＲＯＭ（Compact Disc Read Only Memory）やＤＶＤ−ＲＯＭ（Digital Versatile Disc Read Only Memory）などがある。

このようなコンピュータ５０を収音装置１として動作させるには、まず、後述する制御処理の処理内容をＭＰＵ５１に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置５４若しくは可搬型記録媒体６０に予め格納しておく。そして、ＭＰＵ５１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、ＭＰＵ５１が、発音体情報取得部１０、収音指向性範囲設定部２０、収音処理部３０、及び除外発音体抽出部４０として機能し、このコンピュータ５０による収音装置１の機能の提供が可能になる。

次に図１１について説明する。図１１は、図１０のコンピュータ５０におけるＭＰＵ５１により行われる制御処理の処理内容を図解したフローチャートである。
図１１において、この制御処理の実行が開始されると、まず、Ｓ１０１では、マイクアレイ２の収音範囲内の発音体の数と収音指向性の鋭さを示す角度との関係を定義する角度テーブルと、収音指向性の鋭さの最大値及び基準距離との初期設定処理が行われる。この処理では、上述した角度テーブルと、収音指向性の鋭さの最大値θ_MAXと、その発音体とマイクアレイ２との距離の基準値ｄ_defとを入力装置５５から取得してハードディスク装置５４に格納する処理が行われる。なお、この処理は、収音指向性範囲設定部２０としての動作のための処理である。

次に、Ｓ１０２では、検出システム４が出力する、マイクアレイ２の収音範囲内に存在する発音体の数及び配置の情報を表しているデータを、インタフェース装置５７が受信していたか否かを判定する処理が行われる。ＭＰＵ５１は、ここで、このデータを受信していたと判定したとき（判定結果がＹｅｓのとき）にはＳ１０３に処理を進める。一方、このデータを受信してないとき（判定結果がＮｏのとき）には、ＭＰＵ５１は、この図１１の制御処理を終了する。

次に、Ｓ１０３では、発音体情報取得処理が行われる。この処理は、インタフェース装置５７が受信した、マイクアレイ２の収音範囲内に存在する発音体の数及び配置の情報を表している検出システム４からのデータをインタフェース装置５７から取得して、ＲＡＭ５３の所定領域に格納する処理である。この処理は、発音体情報取得部１０としての動作のための処理である。なお、発音体である人間の口の動きの有無の情報を表しているデータを検出システム４が出力している場合には、ＭＰＵ５１は、このデータも、ＲＡＭ５３の所定領域に格納する処理を行う。

次に、Ｓ１０４では、除外発音体抽出処理が行われる。この処理は、発音体情報取得部１０が取得した発音体の配置の情報に基づいて、収音処理部３０が生成する出力音声の音源から除外する発音体を抽出する処理である。なお、この処理は、除外発音体抽出部４０としての動作のための処理である。

この処理では、まず、ＲＡＭ５３の所定領域に格納されている発音体の数及び配置の情報を読み出す処理を行う。そして、次に、読み出した情報に基づき、発音体の配置位置の変化量の算出処理、あるいは、発音体である各人の顔の向きの取得処理を行う。そして、変化量が所定の閾値を上回っているか否かの判定処理、あるいは、顔の向きが所定の閾値範囲外であるか否かの判定処理を行う。なお、発音体の配置位置の変化量は、直近に実行されたＳ１０３の処理でＲＡＭ５３に格納された配置の情報と、それよりも過去に実行されたＳ１０３の処理でＲＡＭ５３に格納された配置の情報とから算出する。

また、発音体である人間の口の動きの有無の情報がＲＡＭ５３の所定領域に格納されている場合には、この情報を読み出して、人間の口の動きの有無の判定処理を行う。
ここで、変化量の算出結果が所定の閾値を上回っていた場合、顔の向きが所定の閾値範囲外であった場合、あるいは、人間の口の動きが無かった場合には、そのような場合に該当した発音体を、出力音声の信号の音源から除外するものとして抽出する処理を行う。

次に、Ｓ１０５では、対象発音体決定処理が行われる。この処理は、収音指向性範囲設定部２０としての動作のための処理である。この処理では、直近のＳ１０３の処理によりＲＡＭ５３の所定領域に格納した発音体の各種情報を、Ｓ１０４の処理により得られた発音体の除外の情報に基づいて更新する処理である。この更新処理では、発音体の各種情報のうち、発音体の数については、この数からＳ１０４の処理により抽出された発音体の数を減算する処理が行われる。なお、この減算結果である対象発音体の数は、更に変数ｎに代入される。また、発音体の配置位置や口の動きの有無の情報については、Ｓ１０４の処理により抽出された発音体についてのものが削除される。この更新処理後である対象発音体の各種情報は、ＲＡＭ５３の別の所定領域に格納される。

次に、Ｓ１０６では、音声データの読み込み処理が行われる。この処理も、収音指向性範囲設定部２０としての動作のための処理である。この処理は、インタフェース装置５７で一時的にバッファリングされている、マイクアレイ２を構成しているマイクの各々から出力される収音信号データを読み出してＲＡＭ５３の所定領域に一括して格納する処理である。

次に、Ｓ１０７では、変数ｎの現在の値が正の値であるか否かを判定する処理が行われる。ここで、ＭＰＵ５１は、変数ｎの値が正の値であると判定したとき（判定結果がＹＥＳのとき）にはＳ１０８に処理を進める。一方、ＭＰＵ５１は、変数ｎの値が正の値ではないと判定したとき（判定結果がＮＯのとき）には、Ｓ１０２へと処理を戻し、インタフェース装置５７でバッファリングされている次の収音信号データに関する処理を改めて実行する。

以降のＳ１０８からＳ１１３にかけての処理は、マイクアレイ２の収音範囲内に存在する発音体からＳ１０４の処理により抽出されたものを除いた各発音体（対象発音体）における、第ｎ番目の対象発音体に関して実行される処理である。

まず、Ｓ１０８では、収音指向性範囲設定処理が行われる。この処理も、収音指向性範囲設定部２０としての動作のための処理である。この処理は、第ｎ番目の対象発音体に向ける収音指向性の鋭さを対象発音体の数に基づき設定すると共に、当該収音指向性の向きを、第ｎ番目の対象発音体についての配置の情報に基づき設定する処理である。

この処理では、まず、対象発音体の数の情報と、第ｎ番目の対象発音体（人間）についての方向角θ及び距離ｄのデータとを、ＲＡＭ５３から取得する処理が行われる。次に、Ｓ１０１の処理で取得した角度テーブルを参照し、対象発音体の数に対応付けられている角度値を取得する処理が行われる。この角度値と方向角θとが、収音指向性の鋭さ及び向きをそれぞれ表している。

なお、このとき、第ｎ番目の対象発音体に向ける収音指向性の鋭さを、前述したようにして、発音体（人間）についての配置の情報にも基づいて設定する処理を更に行うようにしてもよい。

この場合には、まず、第ｎ番目の対象発音体に隣接する対象発音体についての方向角のデータを、ＲＡＭ５３から取得する処理が行われる。そして、得られた方向角のデータとＳ１０１の処理で取得していた収音指向性の鋭さの最大値θ_MAXとを利用し、図５を用いて説明したようにして、第ｎ番目の対象発音体に向ける収音指向性の鋭さを設定する処理が行われる。

更に、図６を用いて説明したようにして、第ｎ番目の対象発音体に向ける収音指向性の鋭さを設定する処理を行うようにしてもよい。この場合には、まず、第ｎ番目の対象発音体に隣接する対象発音体についての距離のデータを、ＲＡＭ５３から取得する処理が行割れる。次に、得られた距離のデータとＳ１０１の処理で取得していた基準距離ｄ_defとを利用し、図６を用いて説明したようにして、収音指向性の鋭さを設定する処理が行われる。

なお、Ｓ１０８の収音指向性範囲設定処理により設定された収音指向性の鋭さ及び向きをそれぞれ表す角度値及び方向角は、ＲＡＭ５３の所定領域に格納される。

次に、Ｓ１０９では、指向性受音処理が行われる。この処理は、収音処理部３０における収音指向性受音処理部３１としての動作のための処理である。
この処理では、まず、Ｓ１０６の処理によりＲＡＭ５３に格納しておいたマイク毎の収音信号データを読み出し、その各々について時間−周波数変換（例えばフーリエ変換）を施して、各収音信号の周波数スペクトルデータを求める処理が行われる。次に、収音信号のうちのひとつの周波数スペクトルデータを基準としたときの、その他の各収音信号の周波数スペクトルデータとの間でのスペクトルの位相差を、各スペクトル周波数について算出する処理が行われる。

次に、Ｓ１０８の処理によりＲＡＭ５３に格納された角度値及び方向角を読み出す処理が行われる。次に、ハードディスク装置５４内のデータベースを参照し、読み出した方向角についてのテーブルから、読み出した角度値に対応付けられている、収音信号のマイク間での位相差範囲の周波数特性を読み出す処理が行われる。そして、各収音信号の周波数スペクトルデータにおける各スペクトル周波数における位相差範囲を、このテーブルから取得する処理が行われる。

次に、ハードディスク装置５４内のデータベースを参照し、各スペクトル周波数についてのテーブルから、各スペクトルにおける位相差及び位相差範囲に対応付けられている重み付け値を取得する処理が行われる。そして、基準の収音信号の周波数スペクトルに対し、この重み付け値をスペクトル周波数毎に乗算して重み付けを与える処理が行われる。

以降に続くＳ１１０、Ｓ１１１、及びＳ１１３の処理は、図９の収音処理部３０における発音検出部３３としての動作のための処理である。従って、図１の収音装置１をコンピュータ５０で実現する場合には、Ｓ１１０、Ｓ１１１、及びＳ１１３の処理は実行不要であり、Ｓ１０９に続いて、後述するＳ１１２の処理を実行させて、その後に後述のＳ１１４の処理を実行するようにすればよい。

まず、Ｓ１１０では、発音検出用レベル取得処理が行われる。この処理では、Ｓ１０９の指向性受音処理により重み付けが与えられた周波数スペクトルのうち、前述した所定の周波数帯に含まれるスペクトルのレベルを加算し、その合計値を、出力音声における所定の周波数帯の振幅レベルとして求める処理が行われる。このようにして求められた振幅レベルが、発音検出用レベルとして扱われる。

次に、Ｓ１１１では、Ｓ１１０の処理により得られた発音検出用レベルが、閾値である所定値を上回っているか否かを判定する処理が行われる。ＭＰＵ５１は、ここで、発音検出用レベルが所定値を上回っていると判定したとき（判定結果がＹｅｓのとき）にはＳ１１２に処理を進め、一方、発音検出用レベルが所定値を上回っていないと判定したとき（判定結果がＮｏのとき）にはＳ１１３に処理を進める。

なお、このＳ１１０及びＳ１１１の処理において、発音体の各々による発音の有無の検出を、上述したようにして求めた発音検出用レベルに基づいて行う代わりに、以下のようにして行うこともできる。

例えば、Ｓ１１０において、ＭＰＵ５１が、重み付けが与えられた周波数スペクトルから所定値以上であるスペクトルを抽出し、抽出されたスペクトルを加算してその合計値を求める処理を行う。そして、続くＳ１１１において、この合計値が、所定の閾値を上回ったか否かの判定処理をＭＰＵ５１が行う。ここで、上回っていたと判定した場合には発音体による発音が有るとの判定を下してＳ１１２に処理を進め、上回らなかったと判定した場合には発音体による発音が無いとの判定を下してＳ１１３に処理を進める。

あるいは、Ｓ１１０において、ＭＰＵ５１が、重み付けが与えられた周波数スペクトルにおけるスペクトルの最大値を求める処理を行う。そして、続くＳ１１１において、この最大値が、所定の閾値を上回ったか否かの判定処理をＭＰＵ５１が行う。ここで、上回っていたと判定した場合には発音体による発音が有るとの判定を下してＳ１１２に処理を進め、上回らなかったと判定した場合には発音体による発音が無いとの判定を下してＳ１１３に処理を進める。

Ｓ１１０及びＳ１１１の処理を以上のように行うようにしても、発音体の各々による発音の有無の検出を行うことができる。
Ｓ１１２では、出力音声生成処理が行われる。この処理は、出力音声信号生成部３２としての動作のための処理である。この処理では、Ｓ１０９の指向性受音処理により重み付けが与えられた収音信号の周波数スペクトルに対し、指向性受音処理で行われた変換に対する逆変換（例えば高速フーリエ逆変換）を施して時間領域の音声信号データに変換して出力する処理が行われる。ＭＰＵ５１は、このＳ１１２の処理を終えたときには、Ｓ１１４に処理を進める。

一方、Ｓ１１３では、非音声処理が行われる。この処理は、出力音声の信号の出力を中止する処理である。なお、この出力音声の信号の出力を中止する処理の代わりに、無音データを出力する処理をＭＰＵ５１が行うようにしてもよい。また、この代わりに、所定レベルの白色雑音データを出力する処理をＭＰＵ５１が行うようにしてもよいし、この収音システムが定常的に発生させている定常雑音に相当するデータを出力する処理をＭＰＵ５１が行うようにしてもよい。

次に、Ｓ１１４では、変数ｎの値をデクリメントする処理、すなわち、変数ｎの現在の値から１を減算し、その減算結果の値を改めて変数ｎに代入する処理が行われ、その後はＳ１０７へ処理を戻し、変数ｎの新たな値に基づいた処理が改めて実行される。

以上の制御処理をＭＰＵ５１に行わせることにより、図１０のコンピュータ５０が収音装置１として機能することが可能になる。
なお、本発明は、これまでに説明した実施の形態に限定されるものではなく、実施段階では、その要旨を変更しない範囲で種々変形したり組み合わせたりすることが可能である。

例えば、上述した実施形態では、カメラ３はマイクアレイ２とほぼ同一の位置に配置されているものとしていたが、カメラ３とマイクアレイ２とを離れた位置に配置することも可能である。なお、このように配置をする場合には、例えば、カメラ３とマイクアレイ２との位置関係を変換する変換テーブルを収音装置１の発音体情報取得部１０に用意しておく。そして、カメラ３での撮影画像から位置検出システム４が検出した位置、角度、距離の配置情報を、発音体情報取得部１０が、この変換テーブルを参照して、マイクアレイ２の位置での配置情報に変換するようにすればよい。

なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音処理手段と、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得手段と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得手段が取得した該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定手段と、
を有し、
該収音処理手段は、該収音指向性範囲設定手段が設定した向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音装置。
（付記２）
該取得手段が取得する該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報は、該マイクアレイの収音範囲を撮影した画像から得られたものであること特徴とする付記１に記載の収音装置。
（付記３）
該収音指向性範囲設定手段は、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づくと共に、更に、該取得手段が取得した該発音体についての配置の情報にも基づき、該発音体の各々について設定することを特徴とする付記１又は２に記載の収音装置。
（付記４）
該収音指向性範囲設定手段が該発音体に向ける該収音指向性の鋭さを設定する基礎とする該発音体についての配置の情報は、該マイクアレイの収音範囲内に存在する発音体同士の配置間隔の情報であることを特徴とする付記３に記載の収音装置。
（付記５）
該収音指向性範囲設定手段が該発音体に向ける該収音指向性の鋭さを設定する基礎とする該発音体についての配置の情報は、該発音体と該マイクアレイとの距離の情報であることを特徴とする付記３に記載の収音装置。
（付記６）
該収音指向性範囲設定手段は、該発音体と該マイクアレイとの距離が長い場合と比較して、該距離が短い場合に収音指向性の鋭さをより狭い角度に設定することを特徴とする付記５に記載の収音装置。
（付記７）
該取得手段が取得した該発音体の配置の情報に基づいて、該収音処理手段が生成する出力音の音源から除外する発音体を抽出する除外発音体抽出手段を更に有し、
該収音指向性範囲設定手段は、該収音指向性の向き及び鋭さを、該発音体のうち該除外発音体抽出手段により抽出されたもの以外のものについての情報に基づき設定する、
こと特徴とする付記１から６のうちのいずれか一項に記載の収音装置。
（付記８）
該除外発音体抽出手段は、該取得手段が取得した該発音体の配置の情報の変化量に基づき、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記７に記載の収音装置。
（付記９）
該発音体は人間であり、
該除外発音体抽出手段は、該取得手段が取得した該人間の配置の情報のうちの該人間の顔の向きの情報に基づいて、該収音処理手段が生成する出力音声の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記７に記載の収音装置。
（付記１０）
該発音体は人間であり、
該除外発音体抽出手段は、該取得手段が取得した該人間の口の動きの有無の情報に基づいて、該収音処理手段が生成する出力音声の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記７に記載の収音装置。
（付記１１）
該マイクアレイの収音範囲内に存在する発音体による発音の有無を検出する発音検出手段を更に有し、
該収音処理手段は、該発音検出手段により発音が検出されているときの該出力音の信号を出力する、
ことを特徴とする付記１から１０のうちのいずれか一項に記載の収音装置。
（付記１２）
該発音検出手段は、該出力音における所定の周波数帯の振幅レベルに基づいて、該発音体による発音の有無を検出することを特徴とする付記１１に記載の収音装置。
（付記１３）
該発音体は人間であり、
該所定の周波数帯が、人間の第一フォルマントの周波数帯に設定されている、
ことを特徴とする付記１２に記載の収音装置。
（付記１４）
該収音処理手段は、該マイクアレイで収音した収音信号の周波数スペクトルに対し、該収音指向性範囲設定手段が設定した向き及び鋭さの該収音指向性を得るための重み付けをスペクトル毎に与え、該重み付けが与えられた周波数スペクトルを時間軸情報に変換することによって、該出力音の信号を生成し、
該発音検出手段は、該重み付けが与えられた周波数スペクトルにおいてスペクトルが所定値以上であるものについての該スペクトルの加算合計値に基づいて、該発音体による発音の有無を検出する、
ことを特徴とする付記１１に記載の収音装置。
（付記１５）
該収音処理手段は、該マイクアレイで収音した収音信号の周波数スペクトルに対し、該収音指向性範囲設定手段が設定した向き及び鋭さの該収音指向性を得るための重み付けをスペクトル毎に与え、該重み付けが与えられた周波数スペクトルを時間領域の音声信号に変換することによって、該出力音の信号を生成し、
該発音検出手段は、該重み付けが与えられた周波数スペクトルにけるスペクトルの最大値に基づいて、該発音体による発音の有無を検出する、
ことを特徴とする付記１１に記載の収音装置。
（付記１６）
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音方法であって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得し、
該マイクアレイから該発音体に向ける該収音指向性の向きを、取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、取得された該発音体についての数の情報に基づき該発音体の各々について設定し、
設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音方法。
（付記１７）
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムであって、該コンピュータに実行させることによって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得処理と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得処理で取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得処理により取得された該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定処理と、
該収音指向性範囲設定処理により設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する収音処理と、
を該コンピュータに行わせるためのプログラム。

１収音装置
２マイクアレイ
３カメラ
４顔の位置検出システム
１０発音体情報取得部
２０収音指向性範囲設定部
３０収音処理部
３１指向性受音処理部
３２出力音声信号生成部
３３発音検出部
４０除外発音体抽出部
５０コンピュータ
５１ＭＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４ハードディスク装置
５５入力装置
５６表示装置
５７インタフェース装置
５８記録媒体駆動装置
５９バス
６０可搬型記録媒体

Claims

相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音処理手段と、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得手段と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得手段が取得した該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定手段と、
を有し、
該収音処理手段は、該収音指向性範囲設定手段が設定した向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音装置。
該取得手段が取得した該発音体の配置の情報に基づいて、該収音処理手段が生成する出力音の音源から除外する発音体を抽出する除外発音体抽出手段を更に有し、
該収音指向性範囲設定手段は、該収音指向性の向き及び鋭さを、該発音体のうち該除外発音体抽出手段により抽出されたもの以外のものについての情報に基づき設定する、
こと特徴とする請求項１に記載の収音装置。
該除外発音体抽出手段は、該取得手段が取得した該発音体の配置の情報の変化量に基づき、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
ことを特徴とする請求項２に記載の収音装置。
該発音体は人間であり、
該除外発音体抽出手段は、該取得手段が取得した該人間の配置の情報のうちの該人間の顔の向きの情報に基づいて、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
ことを特徴とする請求項２に記載の収音装置。
該マイクアレイの収音範囲内に存在する発音体による発音の有無を検出する発音検出手段を更に有し、
該収音処理手段は、該発音検出手段により発音が検出されているときの該出力音の信号を出力する、
ことを特徴とする請求項１から４のうちのいずれか一項に記載の収音装置。
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音方法であって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得し、
該マイクアレイから該発音体に向ける該収音指向性の向きを、取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、取得された該発音体についての数の情報に基づき該発音体の各々について設定し、
設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音方法。
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムであって、該コンピュータに実行させることによって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得処理と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得処理で取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得処理により取得された該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定処理と、
該収音指向性範囲設定処理により設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する収音処理と、
を該コンピュータに行わせるためのプログラム。