JP2011071702A - 収音処理装置、収音処理方法、及びプログラム - Google Patents

収音処理装置、収音処理方法、及びプログラム Download PDF

Info

Publication number
JP2011071702A
JP2011071702A JP2009220467A JP2009220467A JP2011071702A JP 2011071702 A JP2011071702 A JP 2011071702A JP 2009220467 A JP2009220467 A JP 2009220467A JP 2009220467 A JP2009220467 A JP 2009220467A JP 2011071702 A JP2011071702 A JP 2011071702A
Authority
JP
Japan
Prior art keywords
sound
sound collection
directivity
information
sounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009220467A
Other languages
English (en)
Other versions
JP5564873B2 (ja
Inventor
Chikako Matsumoto
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009220467A priority Critical patent/JP5564873B2/ja
Publication of JP2011071702A publication Critical patent/JP2011071702A/ja
Application granted granted Critical
Publication of JP5564873B2 publication Critical patent/JP5564873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】複数の発音体による同時の発音を明瞭に収音する。
【解決手段】収音処理部30は、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイ2で収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する。発音体情報取得部10は、マイクアレイ2の収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。収音指向性範囲設定部20は、マイクアレイ2から発音体に向ける収音指向性の向きを、発音体情報取得部10が取得した発音体についての配置の情報に基づき発音体の各々について設定する。更に、発音体に向ける収音指向性の鋭さについても、発音体情報取得部10が取得した発音体についての数の情報に基づき発音体の各々について設定する。収音処理部30は、収音指向性範囲設定部20が設定した向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。
【選択図】図1

Description

本明細書で議論される実施態様は、音声信号処理技術に関する。
話者による発声を明瞭に収音する技術として、話者の発声を収音するマイクロフォン(以下、「マイク」と記すこともある)による収音指向性を制御する技術が幾つか知られている。
そのような技術に、単一収音指向性マイクの指向性のビーム幅に等しい画角を有するカメラを用意し、その指向性と画角とを一致させるようにマイクとカメラとを一体化させた、カメラ会議用のカメラ一体化マイクで使用されるものがある。このカメラ一体化マイクでは、カメラでの撮像画像から発話者の顔の像の検出が行われる。そして、検出された顔の像が当該撮像画像の中心に位置するようにカメラを向ける制御が行われて、マイクの収音指向性(以下、単に「指向性」を記すこともある)の中心がその発話者に向けられる。このカメラ一体化マイクにおいて、撮像画像から検出された顔の像の数に応じて、マイクの指向性の向きを制御するという技術が知られている。この第一の技術は、その数が奇数の場合にはマイクに最も近い話者にマイクの指向性を向け、その数が偶数の場合にはマイクに最も近い話者と二番目に近い話者との間にマイクの指向性を向けるようして、会議での発話者の声を的確に捉えるというものである。
また、このような技術の別のひとつに、撮像画像に含まれる人物の像の当該撮像画像上での大きさに基づいてマイクの指向性の鋭さを制御するという技術がある。この第二の技術では、撮像画像上において人物の像が大きい場合には、その撮像意図が人物を重視していると判断し、その人物の発声を明瞭に収音するべくマイクの指向性を鋭くするように制御する。その一方で、撮像画像上において人物の像が小さい場合には、その撮像意図がその人物を含む周囲の環境全体であると判断し、その人物の発声の収音と共に周囲の環境音の収音にも配慮するべくマイクの指向性を鈍くするように制御する。
この他に、本明細書で議論される実施態様に関連する技術として、複数の方向に存在する音源からの音声を収音した音声信号のうち、所定の方向の音源が発する音声を強調して周囲の雑音を抑制する第三の技術が知られている。この技術では、複数の方向に存在する音源からの音声を複数のマイク(マイクアレイ)で収音し、各マイクから出力される時間軸上の音声信号を、例えばフーリエ変換することで、周波数軸上の音声信号に各々変換する。この周波数軸上の各音声信号について、同一周波数での位相差を各周波数について算出し、その位相差に基づいて、所定の方向に音源が存在する確率を各周波数について特定する。そして、この確率に基づき、当該所定の方向の音源以外の音源に基づく音声信号成分を抑制する抑制関数を求め、得られた抑制関数を周波数軸上の音声信号に乗算する。その後、この乗算結果を、例えば逆フーリエ変換して、時間軸上の信号に復元すると、所定の方向に音源に基づく音声信号が得られるというものである。
特開2009−49734号公報 特開2009−65587号公報 特開2007−318528号公報
マイクの収音範囲内に複数の話者が在る場合において、前述した第一の技術のようにしてマイクの指向性の向きを制御しても、発話者がマイクに最も近い者ではない場合には、発話者の声を的確に捉えることができない場合がある。また、前述した第二の技術では、複数の人物の同時発声の明瞭な収音は難しい。
本発明は上述した問題に鑑みてなされたものであり、その解決しようとする課題は、複数の発音体による同時の発音を明瞭に収音することである。
本明細書で後述する収音装置のひとつには、収音処理手段と、取得手段と、収音指向性範囲設定手段とを有するというものがある。このうち、収音処理手段は、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する。また、取得手段は、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。そして、収音指向性範囲設定手段は、マイクアレイから発音体に向ける収音指向性の向きを、取得手段が取得した発音体についての配置の情報に基づき発音体の各々について設定する。加えて、この収音指向性範囲設定手段は、発音体に向ける収音指向性の鋭さを、取得手段が取得した発音体についての数の情報に基づき発音体の各々について設定する。これらを有する収音装置において、前述した収音処理手段は、収音指向性範囲設定手段が設定した向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。
また、本明細書で後述する収音方法のひとつは、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成するものである。
この方法では、まず、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。次に、マイクアレイから発音体に向ける収音指向性の向きを、取得された発音体についての配置の情報に基づき発音体の各々について設定する。更に、これと共に、発音体の各々に向ける収音指向性の鋭さを、取得された発音体についての数の情報に基づき発音体の各々について設定する。そして、次に、設定された向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する。
また、本明細書で後述するプログラムのひとつは、相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムである。このプログラムは、コンピュータに実行させることによって、取得処理と、収音指向性範囲設定処理と、収音処理と、をコンピュータに行わせる。ここで、収音処理は、マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する処理である。また、収音指向性範囲設定処理は、マイクアレイから該発音体に向ける収音指向性の向きを、取得処理で取得された発音体についての配置の情報に基づき発音体の各々について設定する処理である。加えて、この収音指向性範囲設定処理は、発音体に向ける収音指向性の鋭さを、取得処理により取得された発音体についての数の情報に基づき発音体の各々について設定する処理も含む。そして、収音処理は、収音指向性範囲設定処理により設定された向き及び鋭さに収音指向性を制御した出力音の信号を生成して出力する処理である。
本明細書で後述する収音装置は、複数の発音体による同時の発音を明瞭に収音することができる。
収音システムの構成の第一の例である。 収音信号の2つのマイク間での位相差範囲の周波数特性例である。 顔の位置検出システムが撮影画像から取得するデータ例である。 収音指向性の鋭さの設定の説明図(その1)である。 収音指向性の鋭さの設定の説明図(その2)である。 収音指向性の鋭さの設定の説明図(その3)である。 出力音声の音源から除外する発音体の抽出の説明図(その1)である。 出力音声の音源から除外する発音体の抽出の説明図(その2)である。 収音システムの構成の第二の例である。 収音装置として動作させるコンピュータの構成である。 コンピュータにより実行される制御処理の処理内容を図解したフローチャートである。
まず図1について説明する。図1には、収音システムの構成の第一の例が図解されている。この収音システムは、収音装置1、マイクアレイ2、カメラ3、及び顔の位置検出システム4を有している。
収音装置1は、マイクアレイ2での収音信号に対して信号処理を施し、その収音指向性の制御がされている出力音を出力する。
マイクアレイ2は、複数のマイクロフォンを例えば水平方向に一列に並べて構成されている。なお、マイクアレイ2を構成している各マイクロフォン間の相対位置は固定されている。
収音装置1は、発音体情報取得部10、収音指向性範囲設定部20、収音処理部30、及び除外発音体抽出部40を備えている。
発音体情報取得部10は、マイクアレイ2の収音範囲内に存在する発音体の数及び配置の情報の入力を取得する。なお、発音体としては、音を発するものであれば、例えば犬や猫などの動物でもよく、更には、スピーカを備えた放音装置や、あるいは、発音を本来の目的としてしない、騒音として動作音を発する機械などであってもよい。但し、図1の収音システムでは、マイクアレイ2の収音範囲内に存在する発音体として、発声を行う人間を想定しており、発音体情報取得部10は、マイクアレイ2の収音範囲内に存在する人間の数及び配置の情報の入力を顔の位置検出システム4から取得する。
収音指向性範囲設定部20は、マイクアレイ2から発音体に向ける収音指向性の向きを、発音体情報取得部10が取得した発音体(本実施形態では人間)についての配置の情報に基づき、当該発音体(人間)の各々について設定する。収音指向性範囲設定部20は、更に、マイクアレイ2から発音体(人間)に向ける収音指向性の鋭さを、発音体情報取得部10が取得した当該発音体(人間)についての数の情報に基づき、当該発音体(人間)の各々について設定する。この収音指向性範囲設定部20により行われる、収音指向性の向き及び鋭さの設定の手法については後述する。
収音処理部30は、マイクアレイ2を構成している各々のマイクで収音した複数の収音信号に基づいて、収音指向性範囲設定部20が設定した向き及び鋭さに収音指向性を制御した出力音(出力音声)の信号を生成する。本実施形態では、収音処理部30は、この収音指向性の制御を、前述した特許文献3により開示されている公知の手法を用い、以下のように行う。
収音処理部30は、指向性受音処理部31と出力音声信号生成部32とを有している。
指向性受音処理部31は、まず、マイクアレイ2で収音した上記の複数の収音信号の各々をアナログ−デジタル変換して、時間領域の収音信号データとする。次に、この収音信号データに対し、例えば高速フーリエ変換のような時間−周波数変換を施すことで、各収音信号の周波数スペクトルデータを求める。
次に、指向性受音処理部31は、収音信号のうちのひとつの周波数スペクトルデータを基準としたときの、その他の各収音信号の周波数スペクトルデータとの間でのスペクトルの位相差を、各スペクトル周波数について算出する処理を行う。
次に、指向性受音処理部31は、収音指向性範囲設定部20が設定した向き及び鋭さの収音指向性を得るために収音信号の周波数スペクトルに与える重み付け値を求める。そして、前述した基準の収音信号の周波数スペクトルに対し、この重み付け値をスペクトル周波数毎に乗算して重み付けを与える処理を行う。このスペクトル周波数毎の重み付け値は、例えば以下のようにして求める。
まず、指向性受音処理部31は、収音指向性範囲設定部20が設定した収音指向性の向き及び鋭さの情報から、当該収音指向性の範囲内から到来した音がマイクアレイ2で収音されたときに生じ得る収音信号のマイク間での位相差範囲の周波数特性を求める。
ここで図2について説明する。図2は、収音信号の2つのマイク間での位相差範囲の周波数特性例であり、鋭さを±θdef のビーム幅とする収音指向性の範囲内から到来した音が2つのマイクで収音されたときに生じ得る収音信号のマイク間での位相差範囲の周波数特性を示したものである。なお、図2において、横軸は音源から発する音の周波数であり、縦軸はこの音を収音したときの2つのマイク間での位相差である。なお、この周波数特性で示される周波数と位相差との関係は、2つのマイクの配置位置の中点を中心としたときの音源の方向角をパラメータとして幾何学的に算出することができる。
この周波数特性を求めるために、例えば、収音指向性の鋭さと収音信号のマイク間での位相差範囲の周波数特性との関係が示されているテーブルを、当該収音指向性の向き毎に予めデータベース化して指向性受音処理部31に格納しておくようにすることもできる。この場合には、指向性受音処理部31は、このデータベースを参照し、収音指向性範囲設定部20が設定した情報に対応付けられているものをテーブルから読み出すことで、収音信号の位相差範囲の周波数特性を求めるようにする。
次に、収音信号の周波数スペクトルに対して与える、各スペクトルの位相差に基づいた重み付け値を、当該スペクトルの周波数毎に設定する。各スペクトルに与えられるこの重み付け値は以下のようにして求める。
まず、先に求めた収音信号の位相差範囲の周波数特性を参照し、当該重み付けを与えるスペクトルの周波数においての当該位相差範囲をその周波数特性から求める。
次に、各スペクトル周波数について先に求めた位相差と、その位相差範囲との関係に基づき、重み付け値を設定する。例えば、位相差がその位相差範囲内であってその範囲の中心から所定値以内の近さであるスペクトルについては、この重み付け値を「1.0」に設定し、位相差がその位相差範囲外のスペクトルについては、この重み付け係数を「0.0」に設定する。また、位相差がその位相差範囲内であるがその範囲の中心から上記所定値以上に離れたものについては、「1.0」から「0.0」の範囲でその中心からの距離に応じた例えば一次補間を行い、範囲の境界で上述の設定値と連続するように重み付け値を設定する。
各スペクトルに与えられる重み付け値は、以上のようにして求められる。なお、この重み付け値は、特許文献3において「抑制関数」と称されているものに相当する。
なお、位相差及び位相差範囲と上述した重み付け設定値との関係が予め示されているテーブルをスペクトル周波数毎に予めデータベース化して指向性受音処理部31に格納しておくようにしてもよい。この場合には、指向性受音処理部31は、このデータベースを参照して、各スペクトルにおける位相差及び位相差範囲に対応付けられている重み付け値をテーブルから読み出して設定する。
本実施形態では、先に求めていた位相差の数だけ以上のようにして得られる重み付け値について、スペクトル周波数毎に加算平均を求めることで、基準とした収音信号の周波数スペクトルに対して与えられるスペクトル周波数毎の重み付け値を求める。
出力音声信号生成部32は、指向性受音処理部31により上述した重み付けが与えられた収音信号の周波数スペクトルに対し、指向性受音処理部31での変換に対する逆変換(例えば高速フーリエ逆変換)を施して時間領域の音声信号データに変換して出力する。この音声信号データが、マイクアレイ2で収音した複数の収音信号に基づき生成された、収音指向性範囲設定部20が設定した向き及び鋭さに収音指向性が制御された出力音声の信号である。
収音処理部30は以上のように構成されている。
除外発音体抽出部40は、発音体情報取得部10が取得した発音体(本実施形態においては人間)の配置の情報に基づいて、収音処理部30が生成する出力音声の音源から除外する発音体(人間)を抽出する。収音指向性範囲設定部20は、除外発音体抽出部40がこの抽出を行った場合には、マイクアレイ2から発音体(人間)に向ける収音指向性の向き及び鋭さを、当該発音体(人間)のうち除外発音体抽出部40により抽出されたもの以外の各々について設定する。この除外発音体抽出部40による、除外される発音体の抽出の手法については後述する。
収音装置1は以上の構成要素を備えている。
カメラ3は、マイクアレイ2の収音範囲内の画像の固定倍率での撮影を、所定の時間間隔で繰り返し行う。なお、本実施形態では、カメラ3はマイクアレイ2とほぼ同一の位置に配置されているものとする。
顔の位置検出システム4(以下、単に「検出システム4」と称することとする)は、カメラ3により撮影された画像に対して画像処理を施すことによって、マイクアレイ2の収音範囲内に存在する発音体(本実施形態においては人間)の数及び配置の情報を得る。この情報は収音装置1に入力されて、発音体情報取得部10により取得される。
ここで、この検出システム4による画像処理について説明する。
検出システム4は、まず、カメラ3での撮影画像から、人間の顔の像の検出処理を行う。この顔検出の手法には周知の技術を用いる。本実施形態では、画像から切り出した部分領域の画像と、予め用意しておいた顔パターンのデータベースから読み出した顔パターン画像の各々とを照合して両者の相関度を算出する処理を行う。この相関度は、例えば、顔の輪郭、目・鼻・口の相対位置、顔の色彩などに基づき総合的に算出する。そして、この相関度が所定値よりも高いものが存在した場合には、その部分領域を、人間の顔の像の検出結果とする。この処理を、部分領域の位置及び大きさを変えながら撮影画像の全体に亘って行うことで、撮影画像に含まれる顔の像の数と、各顔の像の撮影画像における位置及び大きさを検出する。このうちの撮影画像に含まれる顔の像の数の検出結果は、マイクアレイ2の収音範囲を撮影した画像から得られた、マイクアレイ2の収音範囲内に存在する発音体の数の情報として、検出システム4から出力される。
次に、検出システム4は、撮影画像から検出された部分領域(すなわち顔の像)の撮影画像上の位置に基づいて、その部分領域に表されている顔へのマイクアレイ2からの方向角を求める処理を行う。この方向角を求めるために、例えば、部分領域の位置と方向角との関係を実測して作成したテーブルを検出システム4に予め格納しておくようにすることができる。この場合には、検出システム4は、このテーブルを参照し、部分領域の位置に対応付けられている方向角をテーブルから読み出すことで、マイクアレイ2から顔への方向角を求めるようにする。
次に、検出システム4は、撮影画像から検出された部分領域(すなわち顔の像)の大きさに基づいて、その部分領域に表されている顔までのマイクアレイ2からの距離を求める処理を行う。この距離を求めるために、例えば、部分領域の大きさと距離との関係を実測して作成したテーブルを検出システム4に予め格納しておくようにすることができる。この場合には、検出システム4は、このテーブルを参照し、部分領域の大きさに対応付けられている距離をテーブルから読み出すことで、マイクアレイ2から顔までの距離を求めるようにする。
次に、検出システム4は、撮影画像から検出された顔の像に表されている目・鼻・口の位置関係に基づいて、その顔の向きを求める処理を行う。この処理では、例えば、その顔の像に含まれている両目・鼻・口の位置に基づき、鼻の位置と口の位置とを通る直線からの、右目の位置までの距離と左目の位置までの距離とをまず求める。そして、この2つの距離の比に基づき、その顔の向きを示す角度を求める。この角度を求めるために、例えば、上述の距離の比と上述の角度との関係を実測して作成したテーブルを検出システム4に予め格納しておくようにすることができる。この場合には、検出システム4は、このテーブルを参照し、撮影画像に基づき求められた上述の距離の比に対応付けられている距離をテーブルから読み出すことで、その顔の向きを示す角度を求めるようにする。
検出システム4が以上のようにして撮影画像から取得するデータを図3に示す。
この図3では、カメラ3の撮影範囲内(すなわちマイクアレイ2の収音範囲内)に人間が二人(人A及び人B)在る場合を示している。ここで、検出システム4は、以上の処理により、図3に示されている人Aの方向角θA 、距離dA 、及び顔の角度θ2Aと、人Bの方向角θB 、距離dB 、及び顔の角度θ2Bとを求める。
なお、検出システム4が、人Aの方向角θA 及び距離dA と人Bの方向角θB 及び距離dB とを求める代わりに、人A及び人Bそれぞれの配置位置を示す二次元座標値(XA ,YA )及び(XB ,YB )を撮影画像から求めるようにしてもよい。
検出システム4は、マイクアレイ2の収音範囲を撮影した画像から以上のようにして得られた、撮影画像に顔の像が含まれている各人についての方向角θ、距離d、及び顔の角度θ2 の各データを、当該収音範囲内に存在する発音体の配置の情報として出力する。
検出システム4は、以上のようにして、マイクアレイ2の収音範囲内に存在する発音体の数及び配置の情報を、カメラ3が当該収音範囲内の画像を撮像する度に当該画像から取得して収音装置1に出力する。検出システム4から出力された情報は、収音装置1の発音体情報取得部10が取得する。
図1の収音システムは、以上の構成要素を有している。
次に、収音装置1の収音指向性範囲設定部20により行われる、収音指向性の向き及び鋭さの設定の手法について説明する。
収音指向性範囲設定部20には、マイクアレイ2の収音範囲内に存在する人の数と収音指向性の鋭さを示す角度との関係が設定されている角度テーブルが予め格納されている。本実施形態では、この角度テーブルの設定によって、その収音範囲内に存在する人が一人の場合に収音指向性の鋭さの最大値(最も鈍い値)θMAX (例えば90°)が関係付けられており、二人の場合に規定値θdef (例えば30°)が関係付けられているものとする。
収音指向性範囲設定部20は、まず、マイクアレイ2の収音範囲内に存在する発音体(人間)の数及び配置の情報として、上述の人数の情報と、各人についての方向角θ、距離d、及び顔の角度θ2 の各データとを、発音体情報取得部10から取得する処理を行う。なお、ここでは、除外発音体抽出部40の動作は考慮しないものとする。
次に、収音指向性範囲設定部20は、このうちの人数の情報に基づき、各人に向ける収音指向性の鋭さの設定処理を行う。この設定処理を、図4を用いて説明する。
マイクアレイ2の収音範囲内に存在する人間が一人のみの場合には、収音指向性範囲設定部20は、この設定処理の実行により、収音指向性の鋭さを、その人への向きを中心とする±θMAX の角度に設定する。図4の(1)の例では、方向角θA が0°に位置する人Aに対し、収音指向性範囲設定部20は、±θMAX の角度に収音指向性の鋭さを設定する。
一方、その収音範囲内に存在する人間が二人以上の場合、収音指向性範囲設定部20は、この設定処理の実行により、収音指向性の鋭さを、その人への向きを中心とする±θdef の角度に設定する。図4(2)の例では、方向角θA (<0)に位置する人Aと、方向角θB (>0)に位置する人Bとに対し、収音指向性範囲設定部20は、それぞれ、その方向角を中心として±θdefの角度に収音指向性の鋭さを設定する。
収音指向性範囲設定部20は、このようにして、マイクアレイ2の収音範囲内に存在する発音体についての数の情報に基づき、各発音体に向ける収音指向性の鋭さの設定を行う。収音処理部30は、収音指向性範囲設定部20が設定した鋭さに収音指向性を制御した出力音声の信号を生成するので、このような設定を収音指向性範囲設定部20が行うことで、複数の発音体による同時の発音を明瞭に収音することが収音装置1で可能になる。
なお、この設定処理により、収音指向性範囲設定部20が、発音体(人間)の各々に向ける収音指向性の鋭さを、更に、発音体情報取得部10が検出システム4から取得した発音体(人間)についての配置の情報にも基づき、設定するようにしてもよい。
例えば、マイクアレイ2の収音範囲内に存在する人Aと人Bとの配置間隔が、図5の(1)に示すように、図4の(2)の場合よりも離れており、収音指向性の範囲の一部が、マイクアレイ2の収音可能範囲を超えてしまう場合がある。すなわち、
θA −θdef <−θMAX
θB +θdef >θMAX
の場合である。(マイクアレイ2から人Aまでの距離とマイクアレイ2から人Bまでの距離とは同一とする。)このような場合には、収音指向性範囲設定部20は、設定処理の実行により、人A及び人Bそれぞれについての収音指向性の角度範囲を示す方位角α及びβを、下記の数式で示される範囲内に設定する。
−θMAX < α <θA +θdef
θB −θdef < β <θMAX
一方、マイクアレイ2の収音範囲内に存在する人Aと人Bとの配置間隔が、図5の(2)に示すように、図4の(2)の場合よりも近く、両者の収音指向性の範囲の一部が重なってしまう場合がある。(マイクアレイ2から人Aまでの距離とマイクアレイ2から人Bまでの距離とは同一とする。)すなわち、
−θA +θB <2θdef
の場合である。このような場合には、収音指向性範囲設定部20は、設定処理の実行により、人A及び人Bそれぞれについての収音指向性の角度範囲α及びβを、下記の数式で示される範囲内とする。
θA −θdef < α <(−θA +θB )/2
(−θA +θB )/2< β <θB +θdef
以上のようにして、収音指向性範囲設定部20が、各発音体に向ける収音指向性の鋭さを、マイクアレイ2の収音範囲内に存在する発音体同士の配置間隔の情報にも基づいて設定するようにしてもよい。
更に、この設定処理により、収音指向性範囲設定部20が、各発音体に向ける収音指向性の鋭さを、発音体とマイクアレイ2との距離の情報にも基づき、以下のようにして設定するようにしてもよい。
収音指向性範囲設定部20には、マイクアレイ2の収音範囲内に存在する人とマイクアレイ2との距離の基準値ddef が予め格納されている。ここで、人とマイクアレイ2との距離が、この基準距離ddef に一致する場合には、収音指向性範囲設定部20は、前述した角度テーブルに設定されている収音指向性の鋭さを示す角度の値を、その人に向ける収音指向性の鋭さとしてそのまま設定する。
一方、図6の例において、マイクアレイ2との距離が基準距離ddef よりも短い距離dA である人Aについての収音指向性については、収音指向性範囲設定部20は、その人Aへの方位角θA を中心とする±θdef ×(dA /ddef )の角度の範囲に狭く設定する。
また、図6の例において、マイクアレイ2との距離が基準距離ddef よりも長い距離dB である人Bについての収音指向性については、収音指向性範囲設定部20は、その人Bへの方位角θB を中心とする±θdef ×(dB /ddef )の角度の範囲に広く設定する。
なお、収音指向性範囲設定部20が、このように、マイクアレイ2との距離が短いほど収音指向性を狭く設定するのは、この距離が短い場合には、良好な収音が可能であるので、目的の音以外の雑音を抑制することを意図しているためである。その一方で、この距離が長いほど収音指向性を広く設定するのは、この距離が長いと、収音周波数帯域によっては音の伝搬による減衰が大きくなるために、収音量を少しでも稼ぐためである。
なお、本実施形態に係る収音システムは、収音可能距離の顕著な長距離化を指向するものではないので、収音可能距離を伸ばすために収音指向性を狭くする制御は行わない。
収音指向性範囲設定部20による収音指向性の向き及び鋭さの設定は、以上のようにして行われる。
次に、除外発音体抽出部40により行われる、収音処理部30が生成する出力音声の音源から除外される発音体の抽出の手法について説明する。
除外発音体抽出部40は、まず、マイクアレイ2の収音範囲内に存在する発音体(人間)の配置の情報として、図3を用いて説明した各人についての方向角θ、距離d、及び顔の角度θ2 の各データとを、発音体情報取得部10から取得する処理を行う。
次に、除外発音体抽出部40は、これらの配置の情報に基づき、収音処理部30が生成する出力音声の音源から除外する発音体(人間)を抽出する抽出処理を行う。この抽出処理について説明する。
まず図7について説明する。図7は、カメラ3の撮影範囲内(すなわちマイクアレイ2の収音範囲内)に在る二人(人A及び人B)のうち、人Bが移動している状態を表現している。
この図7の例の場合には、カメラ3が撮影を行う度に発音体情報取得部10が検出システム4から取得する配置の情報のうちの人Bについての情報は、その値が変化する。除外発音体抽出部40は、この値の変化量、より具体的には、人Bについての方向角θB 及び距離dB から求まる、各画像の撮影時における人Bの配置位置の変化量(すなわち移動距離)を算出する。そして、この変化量が、予め定めておいた閾値を上回った場合には、人Bによる発声の明瞭な収音は困難であると判断し、出力音声の音源から除外する発音体として、人Bを抽出する。
以上のように、除外発音体抽出部40は、図7の例の場合には、発音体情報取得部10が取得した発音体の配置の情報の変化量に基づき、出力音声の信号の音源から除外する発音体を抽出する。
次に図8について説明する。図8は、カメラ3の撮影範囲内(すなわちマイクアレイ2の収音範囲内)に在る二人(人A及び人B)のうち、人Bの顔がカメラ3(すなわちマイクアレイ2)に対して横を向いている状態を表現している。
この図8の例の場合には、人Bについての顔の角度θ2Bに注目する。そして、この値が、予め定めておいた、カメラ3(すなわちマイクアレイ2)を向いているといえる閾値範囲外であった場合には、人Bによる発声の明瞭な収音は困難であると判断し、出力音声の音源から除外する発音体として、人Bを抽出する。
以上のように、除外発音体抽出部40は、図8の例の場合には、発音体情報取得部10が取得した発音体である人間の配置の情報のうちの当該人間の顔の向きの情報に基づいて、出力音声の信号の音源から除外する発音体を抽出する。
除外発音体抽出部40は、以上のようにして抽出した発音体の情報を収音指向性範囲設定部20に通知する。収音指向性範囲設定部20は、マイクアレイ2から発音体に向ける収音指向性の向き及び鋭さを、当該発音体のうち除外発音体抽出部40により抽出されたもの以外のものについての数若しくは配置の情報に基づき設定する。
なお、除外発音体抽出部40は、出力音声の信号の音源から除外する発音体を抽出する手法として、この他のものを用いることもできる。
例えば、検出システム4が、撮影画像より検出した人の顔の像における口の動きの有無の情報を出力する場合には、収音指向性範囲設定部20は、前述の収音指向性の向き及び鋭さを、この口の動きの有無の情報に基づき設定するようにすることができる。
例えば、検出システム4が、撮影画像より検出した顔の像から口(唇)の輪郭形状を抽出する処理を、カメラ3が時間を隔てて撮影した各撮影画像に対して行い、続いて、この形状の変化量を算出する処理を行う。そして、この変化量が、予め定めておいた閾値を上回った場合には、この口は動きが有ると判断し、当該閾値に満たない場合には、この口は動きが無いと判断する。検出システム4は、このようにして撮影画像より検出される各人の口の動きの判断結果情報を収音装置1に出力する。検出システム4から出力されたこの情報は、収音装置1の発音体情報取得部10が取得する。
除外発音体抽出部40は、発音体情報取得部10が取得したこの判断結果情報に基づき、口は動きが無いと判断されている人を、発声をしていない人とみなし、出力音声の信号の音源から除外する発音体として抽出する。収音指向性範囲設定部20は、マイクアレイ2から発音体に向ける収音指向性の向き及び鋭さを、当該発音体のうち除外発音体抽出部40により抽出されたもの以外のものについての数若しくは配置の情報に基づき設定する。
このように、除外発音体抽出部40が、発音体情報取得部10が取得した人間の口の動きの有無の情報に基づいて、収音処理部30が生成する出力音声の信号の音源から除外する発音体を抽出するようにしてもよい。
なお、上述した各人の口の動きの判断処理を、検出システム4に代わって除外発音体抽出部40が行うように構成することもできる。
図1のように構成されている収音システムは、各構成要素が以上のように動作することで、複数の発音体による同時の発音の明瞭な収音が可能になる。
次に図9について説明する。図9には、収音システムの構成の第二の例が図解されている。なお、図9において、図1に図解した第一の例と同一の動作を行う構成要素には、同一の符号を付しており、それらについては詳細な説明を省略する。
この収音システムの第二の例は、図1に図解した第一の例と同様に、収音装置1、マイクアレイ2、カメラ3、及び顔の位置検出システム4を有している。但し、この第二の例では、収音装置1における収音処理部30が、発音検出部33を、指向性受音処理部31と出力音声信号生成部32との間に備えている点において、第一の例と相違している。
発音検出部33は、マイクアレイ2の収音範囲内に存在する発音体の各々による発音の有無を検出し、その検出結果を出力音声信号生成部32に通知する。出力音声信号生成部32は、マイクアレイ2の収音範囲内に存在する発音体のうち、発音検出部33により発音が検出されたもののみを音源とする出力音声の信号を生成する。
発音検出部33について更に説明する。発音検出部33は、発音体の各々による発音の有無の検出を、出力音声における所定の周波数帯の振幅レベルに基づいて行う。
前述したように、指向性受音処理部31は、収音指向性範囲設定部20が設定した向き及び鋭さの収音指向性を得るための重み付けが与えられた収音信号の周波数スペクトルを出力し、出力音声信号生成部32は、これを時間領域の音声信号データに変換する。従って、指向性受音処理部31が出力する周波数スペクトルは、出力音声信号生成部32から出力される出力音声の信号の周波数スペクトルである。
発音検出部33は、この出力音声の信号の周波数スペクトルのうち、所定の周波数帯に含まれるスペクトルのレベルを加算し、その合計値を、出力音声における所定の周波数帯の振幅レベルとして求める。そして、この振幅レベルが、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。
なお、振幅レベルを求める周波数帯は、本実施形態においては、人間による発声音の周波数帯(300〜3400Hz付近)とする。この代わりに、人間による発声音の周波数スペクトルにおける第一フォルマント(formant)の周波数帯(300〜1000Hz付近)としてもよい。
また、発音検出部33が、発音体の各々による発音の有無の検出を、出力音声における所定の周波数帯の振幅レベルに基づいて行う代わりに、以下のようにして行うこともできる。
例えば、発音検出部33が、この周波数スペクトルから所定値以上であるスペクトルを抽出し、抽出されたスペクトルを加算してその合計値を求める。そして、この合計値が、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。発音検出部33による発音体の各々による発音の有無の検出を、こうして行うようにすることもできる。
あるいは、発音検出部33が、この周波数スペクトルにおけるスペクトルの最大値を求める。そして、この最大値が、所定の閾値を上回ったか否かの判定を行い、上回っていた場合には発音体による発音が有るとの判定を下し、上回らなかった場合には発音体による発音が無いとの判定を下す。発音検出部33による発音体の各々による発音の有無の検出を、こうして行うようにすることもできる。
発音検出部33は、以上のようにして判定した、発音体による発音の有無の判定結果を出力音声信号生成部32に通知する。出力音声信号生成部32は、発音検出部33から通知された判定結果に基づき、発音体による発音が有ると判定されているときの出力音声の信号を出力し、発音体による発音が無いと判定されているときの出力音声の信号の出力を中止する。
なお、発音検出部33は、出力音声の信号の出力を中止する代わりに、無音としてもよい。また、突然の無音部分の発生による違和感を軽減するために、無音とする代わりに、所定レベルの白色雑音を出力するようにしてもよいし、この収音システムが定常的に発生させている定常雑音を出力するようにしてもよい。
図9のように構成されている収音システムは、以上のように動作する。
なお、図1及び図9の各々に図解した収音システムにおける収音装置1の動作、すなわち、マイクアレイ2で収音した複数の収音信号に基づいて収音指向性を制御した出力音声の信号の生成動作を、コンピュータに行わせることもできる。
まず図10について説明する。図10には、収音装置1の動作を行わせるコンピュータ50の構成が図解されている。
このコンピュータ50は、MPU51、ROM52、RAM53、ハードディスク装置54、入力装置55、表示装置56、インタフェース装置57、及び記録媒体駆動装置58を備えている。なお、これらの構成要素はバス59を介して接続されており、MPU51の管理の下で各種のデータを相互に授受することができる。
MPU(Micro Processing Unit)51は、このコンピュータ50全体の動作を制御する演算処理装置である。
ROM(Read Only Memory)52は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。MPU51は、この基本制御プログラムをコンピュータ50の起動時に読み出して実行することにより、このコンピュータ50の各構成要素の動作制御が可能になる。
RAM(Random Access Memory)53は、MPU51が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ハードディスク装置54は、MPU51によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。MPU51は、ハードディスク装置54に記憶されている所定の制御プログラムを読み出して実行することにより、後述する制御処理を行えるようになる。なお、本実施形態では、収音指向性の向き(方向角)毎に、収音指向性の鋭さ(角度値)と収音信号のマイク間での位相差範囲の周波数特性との関係が示されているテーブルのデータベースが予めハードディスク装置54に格納されているものとする。また、位相差及び位相差範囲と、前述した重み付け設定値との関係が示されている、スペクトル周波数毎のテーブルのデータベースも予めハードディスク装置54に格納されているものとする。
入力装置55は、例えばキーボード装置やマウス装置であり、コンピュータ50の使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をMPU51に送付する。
表示装置56は例えば液晶ディスプレイであり、MPU51から送付される表示データに応じて各種のテキストや画像を表示する。
インタフェース装置57は、このコンピュータ50に接続される各種機器との間での各種データの授受の管理を行う。より具体的には、検出システム4から送られてくるデータの受信、マイクアレイ2を構成しているマイクの各々から出力される収音信号のアナログ−デジタル変換と変換後の収音信号データの一時的なバッファリング、出力音声データの後続機器への送信などを行う。
記録媒体駆動装置58は、可搬型記録媒体60に記録されている各種の制御プログラムやデータの読み出しを行う装置である。MPU51は、可搬型記録媒体60に記録されている所定の制御プログラムを、記録媒体駆動装置58を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体60としては、例えばCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)などがある。
このようなコンピュータ50を収音装置1として動作させるには、まず、後述する制御処理の処理内容をMPU51に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置54若しくは可搬型記録媒体60に予め格納しておく。そして、MPU51に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、MPU51が、発音体情報取得部10、収音指向性範囲設定部20、収音処理部30、及び除外発音体抽出部40として機能し、このコンピュータ50による収音装置1の機能の提供が可能になる。
次に図11について説明する。図11は、図10のコンピュータ50におけるMPU51により行われる制御処理の処理内容を図解したフローチャートである。
図11において、この制御処理の実行が開始されると、まず、S101では、マイクアレイ2の収音範囲内の発音体の数と収音指向性の鋭さを示す角度との関係を定義する角度テーブルと、収音指向性の鋭さの最大値及び基準距離との初期設定処理が行われる。この処理では、上述した角度テーブルと、収音指向性の鋭さの最大値θMAX と、その発音体とマイクアレイ2との距離の基準値ddef とを入力装置55から取得してハードディスク装置54に格納する処理が行われる。なお、この処理は、収音指向性範囲設定部20としての動作のための処理である。
次に、S102では、検出システム4が出力する、マイクアレイ2の収音範囲内に存在する発音体の数及び配置の情報を表しているデータを、インタフェース装置57が受信していたか否かを判定する処理が行われる。MPU51は、ここで、このデータを受信していたと判定したとき(判定結果がYesのとき)にはS103に処理を進める。一方、このデータを受信してないとき(判定結果がNoのとき)には、MPU51は、この図11の制御処理を終了する。
次に、S103では、発音体情報取得処理が行われる。この処理は、インタフェース装置57が受信した、マイクアレイ2の収音範囲内に存在する発音体の数及び配置の情報を表している検出システム4からのデータをインタフェース装置57から取得して、RAM53の所定領域に格納する処理である。この処理は、発音体情報取得部10としての動作のための処理である。なお、発音体である人間の口の動きの有無の情報を表しているデータを検出システム4が出力している場合には、MPU51は、このデータも、RAM53の所定領域に格納する処理を行う。
次に、S104では、除外発音体抽出処理が行われる。この処理は、発音体情報取得部10が取得した発音体の配置の情報に基づいて、収音処理部30が生成する出力音声の音源から除外する発音体を抽出する処理である。なお、この処理は、除外発音体抽出部40としての動作のための処理である。
この処理では、まず、RAM53の所定領域に格納されている発音体の数及び配置の情報を読み出す処理を行う。そして、次に、読み出した情報に基づき、発音体の配置位置の変化量の算出処理、あるいは、発音体である各人の顔の向きの取得処理を行う。そして、変化量が所定の閾値を上回っているか否かの判定処理、あるいは、顔の向きが所定の閾値範囲外であるか否かの判定処理を行う。なお、発音体の配置位置の変化量は、直近に実行されたS103の処理でRAM53に格納された配置の情報と、それよりも過去に実行されたS103の処理でRAM53に格納された配置の情報とから算出する。
また、発音体である人間の口の動きの有無の情報がRAM53の所定領域に格納されている場合には、この情報を読み出して、人間の口の動きの有無の判定処理を行う。
ここで、変化量の算出結果が所定の閾値を上回っていた場合、顔の向きが所定の閾値範囲外であった場合、あるいは、人間の口の動きが無かった場合には、そのような場合に該当した発音体を、出力音声の信号の音源から除外するものとして抽出する処理を行う。
次に、S105では、対象発音体決定処理が行われる。この処理は、収音指向性範囲設定部20としての動作のための処理である。この処理では、直近のS103の処理によりRAM53の所定領域に格納した発音体の各種情報を、S104の処理により得られた発音体の除外の情報に基づいて更新する処理である。この更新処理では、発音体の各種情報のうち、発音体の数については、この数からS104の処理により抽出された発音体の数を減算する処理が行われる。なお、この減算結果である対象発音体の数は、更に変数nに代入される。また、発音体の配置位置や口の動きの有無の情報については、S104の処理により抽出された発音体についてのものが削除される。この更新処理後である対象発音体の各種情報は、RAM53の別の所定領域に格納される。
次に、S106では、音声データの読み込み処理が行われる。この処理も、収音指向性範囲設定部20としての動作のための処理である。この処理は、インタフェース装置57で一時的にバッファリングされている、マイクアレイ2を構成しているマイクの各々から出力される収音信号データを読み出してRAM53の所定領域に一括して格納する処理である。
次に、S107では、変数nの現在の値が正の値であるか否かを判定する処理が行われる。ここで、MPU51は、変数nの値が正の値であると判定したとき(判定結果がYESのとき)にはS108に処理を進める。一方、MPU51は、変数nの値が正の値ではないと判定したとき(判定結果がNOのとき)には、S102へと処理を戻し、インタフェース装置57でバッファリングされている次の収音信号データに関する処理を改めて実行する。
以降のS108からS113にかけての処理は、マイクアレイ2の収音範囲内に存在する発音体からS104の処理により抽出されたものを除いた各発音体(対象発音体)における、第n番目の対象発音体に関して実行される処理である。
まず、S108では、収音指向性範囲設定処理が行われる。この処理も、収音指向性範囲設定部20としての動作のための処理である。この処理は、第n番目の対象発音体に向ける収音指向性の鋭さを対象発音体の数に基づき設定すると共に、当該収音指向性の向きを、第n番目の対象発音体についての配置の情報に基づき設定する処理である。
この処理では、まず、対象発音体の数の情報と、第n番目の対象発音体(人間)についての方向角θ及び距離dのデータとを、RAM53から取得する処理が行われる。次に、S101の処理で取得した角度テーブルを参照し、対象発音体の数に対応付けられている角度値を取得する処理が行われる。この角度値と方向角θとが、収音指向性の鋭さ及び向きをそれぞれ表している。
なお、このとき、第n番目の対象発音体に向ける収音指向性の鋭さを、前述したようにして、発音体(人間)についての配置の情報にも基づいて設定する処理を更に行うようにしてもよい。
この場合には、まず、第n番目の対象発音体に隣接する対象発音体についての方向角のデータを、RAM53から取得する処理が行われる。そして、得られた方向角のデータとS101の処理で取得していた収音指向性の鋭さの最大値θMAX とを利用し、図5を用いて説明したようにして、第n番目の対象発音体に向ける収音指向性の鋭さを設定する処理が行われる。
更に、図6を用いて説明したようにして、第n番目の対象発音体に向ける収音指向性の鋭さを設定する処理を行うようにしてもよい。この場合には、まず、第n番目の対象発音体に隣接する対象発音体についての距離のデータを、RAM53から取得する処理が行割れる。次に、得られた距離のデータとS101の処理で取得していた基準距離ddef とを利用し、図6を用いて説明したようにして、収音指向性の鋭さを設定する処理が行われる。
なお、S108の収音指向性範囲設定処理により設定された収音指向性の鋭さ及び向きをそれぞれ表す角度値及び方向角は、RAM53の所定領域に格納される。
次に、S109では、指向性受音処理が行われる。この処理は、収音処理部30における収音指向性受音処理部31としての動作のための処理である。
この処理では、まず、S106の処理によりRAM53に格納しておいたマイク毎の収音信号データを読み出し、その各々について時間−周波数変換(例えばフーリエ変換)を施して、各収音信号の周波数スペクトルデータを求める処理が行われる。次に、収音信号のうちのひとつの周波数スペクトルデータを基準としたときの、その他の各収音信号の周波数スペクトルデータとの間でのスペクトルの位相差を、各スペクトル周波数について算出する処理が行われる。
次に、S108の処理によりRAM53に格納された角度値及び方向角を読み出す処理が行われる。次に、ハードディスク装置54内のデータベースを参照し、読み出した方向角についてのテーブルから、読み出した角度値に対応付けられている、収音信号のマイク間での位相差範囲の周波数特性を読み出す処理が行われる。そして、各収音信号の周波数スペクトルデータにおける各スペクトル周波数における位相差範囲を、このテーブルから取得する処理が行われる。
次に、ハードディスク装置54内のデータベースを参照し、各スペクトル周波数についてのテーブルから、各スペクトルにおける位相差及び位相差範囲に対応付けられている重み付け値を取得する処理が行われる。そして、基準の収音信号の周波数スペクトルに対し、この重み付け値をスペクトル周波数毎に乗算して重み付けを与える処理が行われる。
以降に続くS110、S111、及びS113の処理は、図9の収音処理部30における発音検出部33としての動作のための処理である。従って、図1の収音装置1をコンピュータ50で実現する場合には、S110、S111、及びS113の処理は実行不要であり、S109に続いて、後述するS112の処理を実行させて、その後に後述のS114の処理を実行するようにすればよい。
まず、S110では、発音検出用レベル取得処理が行われる。この処理では、S109の指向性受音処理により重み付けが与えられた周波数スペクトルのうち、前述した所定の周波数帯に含まれるスペクトルのレベルを加算し、その合計値を、出力音声における所定の周波数帯の振幅レベルとして求める処理が行われる。このようにして求められた振幅レベルが、発音検出用レベルとして扱われる。
次に、S111では、S110の処理により得られた発音検出用レベルが、閾値である所定値を上回っているか否かを判定する処理が行われる。MPU51は、ここで、発音検出用レベルが所定値を上回っていると判定したとき(判定結果がYesのとき)にはS112に処理を進め、一方、発音検出用レベルが所定値を上回っていないと判定したとき(判定結果がNoのとき)にはS113に処理を進める。
なお、このS110及びS111の処理において、発音体の各々による発音の有無の検出を、上述したようにして求めた発音検出用レベルに基づいて行う代わりに、以下のようにして行うこともできる。
例えば、S110において、MPU51が、重み付けが与えられた周波数スペクトルから所定値以上であるスペクトルを抽出し、抽出されたスペクトルを加算してその合計値を求める処理を行う。そして、続くS111において、この合計値が、所定の閾値を上回ったか否かの判定処理をMPU51が行う。ここで、上回っていたと判定した場合には発音体による発音が有るとの判定を下してS112に処理を進め、上回らなかったと判定した場合には発音体による発音が無いとの判定を下してS113に処理を進める。
あるいは、S110において、MPU51が、重み付けが与えられた周波数スペクトルにおけるスペクトルの最大値を求める処理を行う。そして、続くS111において、この最大値が、所定の閾値を上回ったか否かの判定処理をMPU51が行う。ここで、上回っていたと判定した場合には発音体による発音が有るとの判定を下してS112に処理を進め、上回らなかったと判定した場合には発音体による発音が無いとの判定を下してS113に処理を進める。
S110及びS111の処理を以上のように行うようにしても、発音体の各々による発音の有無の検出を行うことができる。
S112では、出力音声生成処理が行われる。この処理は、出力音声信号生成部32としての動作のための処理である。この処理では、S109の指向性受音処理により重み付けが与えられた収音信号の周波数スペクトルに対し、指向性受音処理で行われた変換に対する逆変換(例えば高速フーリエ逆変換)を施して時間領域の音声信号データに変換して出力する処理が行われる。MPU51は、このS112の処理を終えたときには、S114に処理を進める。
一方、S113では、非音声処理が行われる。この処理は、出力音声の信号の出力を中止する処理である。なお、この出力音声の信号の出力を中止する処理の代わりに、無音データを出力する処理をMPU51が行うようにしてもよい。また、この代わりに、所定レベルの白色雑音データを出力する処理をMPU51が行うようにしてもよいし、この収音システムが定常的に発生させている定常雑音に相当するデータを出力する処理をMPU51が行うようにしてもよい。
次に、S114では、変数nの値をデクリメントする処理、すなわち、変数nの現在の値から1を減算し、その減算結果の値を改めて変数nに代入する処理が行われ、その後はS107へ処理を戻し、変数nの新たな値に基づいた処理が改めて実行される。
以上の制御処理をMPU51に行わせることにより、図10のコンピュータ50が収音装置1として機能することが可能になる。
なお、本発明は、これまでに説明した実施の形態に限定されるものではなく、実施段階では、その要旨を変更しない範囲で種々変形したり組み合わせたりすることが可能である。
例えば、上述した実施形態では、カメラ3はマイクアレイ2とほぼ同一の位置に配置されているものとしていたが、カメラ3とマイクアレイ2とを離れた位置に配置することも可能である。なお、このように配置をする場合には、例えば、カメラ3とマイクアレイ2との位置関係を変換する変換テーブルを収音装置1の発音体情報取得部10に用意しておく。そして、カメラ3での撮影画像から位置検出システム4が検出した位置、角度、距離の配置情報を、発音体情報取得部10が、この変換テーブルを参照して、マイクアレイ2の位置での配置情報に変換するようにすればよい。
なお、以上までに説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音処理手段と、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得手段と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得手段が取得した該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定手段と、
を有し、
該収音処理手段は、該収音指向性範囲設定手段が設定した向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音装置。
(付記2)
該取得手段が取得する該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報は、該マイクアレイの収音範囲を撮影した画像から得られたものであること特徴とする付記1に記載の収音装置。
(付記3)
該収音指向性範囲設定手段は、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づくと共に、更に、該取得手段が取得した該発音体についての配置の情報にも基づき、該発音体の各々について設定することを特徴とする付記1又は2に記載の収音装置。
(付記4)
該収音指向性範囲設定手段が該発音体に向ける該収音指向性の鋭さを設定する基礎とする該発音体についての配置の情報は、該マイクアレイの収音範囲内に存在する発音体同士の配置間隔の情報であることを特徴とする付記3に記載の収音装置。
(付記5)
該収音指向性範囲設定手段が該発音体に向ける該収音指向性の鋭さを設定する基礎とする該発音体についての配置の情報は、該発音体と該マイクアレイとの距離の情報であることを特徴とする付記3に記載の収音装置。
(付記6)
該収音指向性範囲設定手段は、該発音体と該マイクアレイとの距離が長い場合と比較して、該距離が短い場合に収音指向性の鋭さをより狭い角度に設定することを特徴とする付記5に記載の収音装置。
(付記7)
該取得手段が取得した該発音体の配置の情報に基づいて、該収音処理手段が生成する出力音の音源から除外する発音体を抽出する除外発音体抽出手段を更に有し、
該収音指向性範囲設定手段は、該収音指向性の向き及び鋭さを、該発音体のうち該除外発音体抽出手段により抽出されたもの以外のものについての情報に基づき設定する、
こと特徴とする付記1から6のうちのいずれか一項に記載の収音装置。
(付記8)
該除外発音体抽出手段は、該取得手段が取得した該発音体の配置の情報の変化量に基づき、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記7に記載の収音装置。
(付記9)
該発音体は人間であり、
該除外発音体抽出手段は、該取得手段が取得した該人間の配置の情報のうちの該人間の顔の向きの情報に基づいて、該収音処理手段が生成する出力音声の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記7に記載の収音装置。
(付記10)
該発音体は人間であり、
該除外発音体抽出手段は、該取得手段が取得した該人間の口の動きの有無の情報に基づいて、該収音処理手段が生成する出力音声の信号の音源から除外する発音体を抽出する、
ことを特徴とする付記7に記載の収音装置。
(付記11)
該マイクアレイの収音範囲内に存在する発音体による発音の有無を検出する発音検出手段を更に有し、
該収音処理手段は、該発音検出手段により発音が検出されているときの該出力音の信号を出力する、
ことを特徴とする付記1から10のうちのいずれか一項に記載の収音装置。
(付記12)
該発音検出手段は、該出力音における所定の周波数帯の振幅レベルに基づいて、該発音体による発音の有無を検出することを特徴とする付記11に記載の収音装置。
(付記13)
該発音体は人間であり、
該所定の周波数帯が、人間の第一フォルマントの周波数帯に設定されている、
ことを特徴とする付記12に記載の収音装置。
(付記14)
該収音処理手段は、該マイクアレイで収音した収音信号の周波数スペクトルに対し、該収音指向性範囲設定手段が設定した向き及び鋭さの該収音指向性を得るための重み付けをスペクトル毎に与え、該重み付けが与えられた周波数スペクトルを時間軸情報に変換することによって、該出力音の信号を生成し、
該発音検出手段は、該重み付けが与えられた周波数スペクトルにおいてスペクトルが所定値以上であるものについての該スペクトルの加算合計値に基づいて、該発音体による発音の有無を検出する、
ことを特徴とする付記11に記載の収音装置。
(付記15)
該収音処理手段は、該マイクアレイで収音した収音信号の周波数スペクトルに対し、該収音指向性範囲設定手段が設定した向き及び鋭さの該収音指向性を得るための重み付けをスペクトル毎に与え、該重み付けが与えられた周波数スペクトルを時間領域の音声信号に変換することによって、該出力音の信号を生成し、
該発音検出手段は、該重み付けが与えられた周波数スペクトルにけるスペクトルの最大値に基づいて、該発音体による発音の有無を検出する、
ことを特徴とする付記11に記載の収音装置。
(付記16)
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音方法であって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得し、
該マイクアレイから該発音体に向ける該収音指向性の向きを、取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、取得された該発音体についての数の情報に基づき該発音体の各々について設定し、
設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
ことを特徴とする収音方法。
(付記17)
相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムであって、該コンピュータに実行させることによって、
該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得処理と、
該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得処理で取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得処理により取得された該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定処理と、
該収音指向性範囲設定処理により設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する収音処理と、
を該コンピュータに行わせるためのプログラム。
1 収音装置
2 マイクアレイ
3 カメラ
4 顔の位置検出システム
10 発音体情報取得部
20 収音指向性範囲設定部
30 収音処理部
31 指向性受音処理部
32 出力音声信号生成部
33 発音検出部
40 除外発音体抽出部
50 コンピュータ
51 MPU
52 ROM
53 RAM
54 ハードディスク装置
55 入力装置
56 表示装置
57 インタフェース装置
58 記録媒体駆動装置
59 バス
60 可搬型記録媒体

Claims (7)

  1. 相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音処理手段と、
    該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得手段と、
    該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得手段が取得した該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得手段が取得した該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定手段と、
    を有し、
    該収音処理手段は、該収音指向性範囲設定手段が設定した向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
    ことを特徴とする収音装置。
  2. 該取得手段が取得した該発音体の配置の情報に基づいて、該収音処理手段が生成する出力音の音源から除外する発音体を抽出する除外発音体抽出手段を更に有し、
    該収音指向性範囲設定手段は、該収音指向性の向き及び鋭さを、該発音体のうち該除外発音体抽出手段により抽出されたもの以外のものについての情報に基づき設定する、
    こと特徴とする請求項1に記載の収音装置。
  3. 該除外発音体抽出手段は、該取得手段が取得した該発音体の配置の情報の変化量に基づき、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
    ことを特徴とする請求項2に記載の収音装置。
  4. 該発音体は人間であり、
    該除外発音体抽出手段は、該取得手段が取得した該人間の配置の情報のうちの該人間の顔の向きの情報に基づいて、該収音処理手段が生成する出力音の信号の音源から除外する発音体を抽出する、
    ことを特徴とする請求項2に記載の収音装置。
  5. 該マイクアレイの収音範囲内に存在する発音体による発音の有無を検出する発音検出手段を更に有し、
    該収音処理手段は、該発音検出手段により発音が検出されているときの該出力音の信号を出力する、
    ことを特徴とする請求項1から4のうちのいずれか一項に記載の収音装置。
  6. 相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号を生成する収音方法であって、
    該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得し、
    該マイクアレイから該発音体に向ける該収音指向性の向きを、取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、取得された該発音体についての数の情報に基づき該発音体の各々について設定し、
    設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する、
    ことを特徴とする収音方法。
  7. 相対位置が固定されている複数のマイクロフォンを備えたマイクアレイで収音した複数の収音信号に基づいて収音指向性を制御した出力音の信号の生成をコンピュータに行わせるためのプログラムであって、該コンピュータに実行させることによって、
    該マイクアレイの収音範囲内に存在する発音体の数及び配置の情報の入力を取得する取得処理と、
    該マイクアレイから該発音体に向ける該収音指向性の向きを、該取得処理で取得された該発音体についての配置の情報に基づき該発音体の各々について設定すると共に、該発音体に向ける該収音指向性の鋭さを、該取得処理により取得された該発音体についての数の情報に基づき該発音体の各々について設定する収音指向性範囲設定処理と、
    該収音指向性範囲設定処理により設定された向き及び鋭さに該収音指向性を制御した出力音の信号を生成して出力する収音処理と、
    を該コンピュータに行わせるためのプログラム。
JP2009220467A 2009-09-25 2009-09-25 収音処理装置、収音処理方法、及びプログラム Active JP5564873B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009220467A JP5564873B2 (ja) 2009-09-25 2009-09-25 収音処理装置、収音処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009220467A JP5564873B2 (ja) 2009-09-25 2009-09-25 収音処理装置、収音処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2011071702A true JP2011071702A (ja) 2011-04-07
JP5564873B2 JP5564873B2 (ja) 2014-08-06

Family

ID=44016551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009220467A Active JP5564873B2 (ja) 2009-09-25 2009-09-25 収音処理装置、収音処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5564873B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2013179585A (ja) * 2012-02-01 2013-09-09 Nikon Corp 音処理装置および音処理プログラム
WO2014132533A1 (ja) * 2013-03-01 2014-09-04 シャープ株式会社 音声入力装置およびその音声入力装置を備えた画像表示装置
JP2014175996A (ja) * 2013-03-12 2014-09-22 Oki Electric Ind Co Ltd パラメータ推定装置、パラメータ推定プログラム、機器決定システム及び機器決定プログラム
JP2014207589A (ja) * 2013-04-15 2014-10-30 シャープ株式会社 音声入力装置、および画像表示装置
JP2015100125A (ja) * 2012-12-27 2015-05-28 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
JP2016181789A (ja) * 2015-03-24 2016-10-13 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP2017126906A (ja) * 2016-01-14 2017-07-20 株式会社リコー 音声処理装置、音声処理方法及び音声処理プログラム
JP2017521902A (ja) * 2014-05-26 2017-08-03 シャーマン, ウラディミールSHERMAN, Vladimir 取得した音響信号のための回路デバイスシステム及び関連するコンピュータで実行可能なコード
JP2020053920A (ja) * 2018-09-28 2020-04-02 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
CN112860065A (zh) * 2021-02-05 2021-05-28 Oppo广东移动通信有限公司 拾音控制方法、拾音控制装置、存储介质及电子设备
CN113767432A (zh) * 2020-06-29 2021-12-07 深圳市大疆创新科技有限公司 音频处理方法、音频处理装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0564290A (ja) * 1991-09-04 1993-03-12 Matsushita Electric Ind Co Ltd 収音装置
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0564290A (ja) * 1991-09-04 1993-03-12 Matsushita Electric Ind Co Ltd 収音装置
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2013179585A (ja) * 2012-02-01 2013-09-09 Nikon Corp 音処理装置および音処理プログラム
JP2015100125A (ja) * 2012-12-27 2015-05-28 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
JP2015122756A (ja) * 2012-12-27 2015-07-02 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
WO2014132533A1 (ja) * 2013-03-01 2014-09-04 シャープ株式会社 音声入力装置およびその音声入力装置を備えた画像表示装置
JPWO2014132533A1 (ja) * 2013-03-01 2017-02-02 シャープ株式会社 音声入力装置およびその音声入力装置を備えた画像表示装置
JP2014175996A (ja) * 2013-03-12 2014-09-22 Oki Electric Ind Co Ltd パラメータ推定装置、パラメータ推定プログラム、機器決定システム及び機器決定プログラム
JP2014207589A (ja) * 2013-04-15 2014-10-30 シャープ株式会社 音声入力装置、および画像表示装置
JP2017521902A (ja) * 2014-05-26 2017-08-03 シャーマン, ウラディミールSHERMAN, Vladimir 取得した音響信号のための回路デバイスシステム及び関連するコンピュータで実行可能なコード
JP2016021650A (ja) * 2014-07-14 2016-02-04 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
JP2016181789A (ja) * 2015-03-24 2016-10-13 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP2017126906A (ja) * 2016-01-14 2017-07-20 株式会社リコー 音声処理装置、音声処理方法及び音声処理プログラム
JP2020053920A (ja) * 2018-09-28 2020-04-02 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
JP7158976B2 (ja) 2018-09-28 2022-10-24 沖電気工業株式会社 収音装置、収音プログラム及び収音方法
CN113767432A (zh) * 2020-06-29 2021-12-07 深圳市大疆创新科技有限公司 音频处理方法、音频处理装置、电子设备
CN112860065A (zh) * 2021-02-05 2021-05-28 Oppo广东移动通信有限公司 拾音控制方法、拾音控制装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP5564873B2 (ja) 2014-08-06

Similar Documents

Publication Publication Date Title
JP5564873B2 (ja) 収音処理装置、収音処理方法、及びプログラム
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
JP6526083B2 (ja) 源信号分離のためのシステム及び方法
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
JP4376902B2 (ja) 音声入力システム
JP4191518B2 (ja) 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
US11190900B2 (en) Spatial audio array processing system and method
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
Gao et al. Echowhisper: Exploring an acoustic-based silent speech interface for smartphone users
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
GB2529509A (en) Adaptive beam forming devices, methods, and systems
KR20130116299A (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
JP2007221300A (ja) ロボット及びロボットの制御方法
CN111935573B (zh) 音频增强方法、装置、存储介质及可穿戴设备
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP6540730B2 (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
CN111078185A (zh) 录制声音的方法及设备
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
JP2011061461A (ja) 撮像装置、指向性制御方法及びそのプログラム
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
JP2005303574A (ja) 音声認識ヘッドセット

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140310

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140602

R150 Certificate of patent or registration of utility model

Ref document number: 5564873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150