JP7370014B2

JP7370014B2 - 収音装置、収音方法、及びプログラム

Info

Publication number: JP7370014B2
Application number: JP2020525268A
Authority: JP
Inventors: 良文廣瀬; 祐介足立
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2018-06-12
Filing date: 2019-03-19
Publication date: 2023-10-27
Anticipated expiration: 2039-03-19
Also published as: JPWO2019239667A1; US11375309B2; WO2019239667A1; US20210120333A1

Description

本開示は、目的音を収音する収音装置、収音方法、及びプログラムに関する。

特許文献１は、複数のマイクロホンから得られた収音信号に対し、ノイズ低減化処理を施す信号処理装置を開示している。この信号処理装置は、カメラの撮像データに基づいて話者を検出し、複数のスピーカに対する話者の相対方向を特定している。また、この信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。信号処理装置は、話者の相対方向とノイズ源の方向とが一致するときに、ノイズ低減化処理を行っている。これにより、外乱信号を効率的に低減している。

特開２０１２－２１６９９８号公報

本開示は、目的音の収音の精度を向上させる収音装置、収音方法、及びプログラムを提供する。

本開示の一態様の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第１の入力部と、マイクアレイから出力される音響信号を入力する第２の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータを記憶する記憶部と、画像データを第１のデータと照合する第１の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

本開示の収音装置、収音方法、及びプログラムによれば、カメラから得られる画像データを雑音源又は目的音源を示す物体の画像の特徴量と照合することによって、音を抑圧する方向を決定するため、雑音を精度良く抑圧することができる。これにより、目的音の収音の精度が向上する。

第１実施形態の収音装置の構成を示すブロック図第１実施形態の制御部の機能と記憶部内のデータの一例を示すブロック図収音環境の一例を模式的に示す図目的音源からの音を強調し且つ雑音源からの音を抑圧する例を示す図第１～第３の実施形態の収音方法を示すフローチャート水平角における収音方向を説明するための図垂直角における収音方向を説明するための図判定領域を説明するための図第１～第３の実施形態の雑音源方向の推定の全体動作を示すフローチャート第１実施形態の非目的物の検出を示すフローチャート第１実施形態の雑音の検出を示すフローチャート雑音検出部の動作の一例を説明するための図第１実施形態の雑音源方向の決定を示すフローチャート第１～第３の実施形態の目的音源方向の推定の全体動作を示すフローチャート目的物の検出を説明するための図音源の検出を説明するための図第１～第３の実施形態の目的音源方向の決定を示すフローチャートビームフォーム部によるビームフォーム処理を説明するための図第２実施形態における雑音源方向の決定を示すフローチャート第３実施形態の制御部の機能と記憶部内のデータの一例を示すブロック図第３実施形態の非目的物の検出を示すフローチャート第３実施形態の雑音の検出を示すフローチャート

（本開示の基礎となった知見）
特許文献１の信号処理装置は、収音信号の振幅スペクトルに含まれたノイズレベルからノイズ源の方向を特定している。しかし、ノイズレベルだけではノイズ源の方向を精度良く特定することは難しい。本開示の収音装置は、カメラから取得した画像データとマイクアレイから取得した音響信号の少なくともいずれか一方を、雑音源又は目的音源の特徴量を示すデータと照合することによって、雑音源の方向を特定する。これにより、精度良く雑音源の方向を特定して、特定した方向から到来する雑音を信号処理によって抑圧することができる。雑音を精度良く抑圧することによって、目的音の収音の精度が向上する。

（第１実施形態）
以下、実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。

１．収音装置の構成
図１は、本開示の収音装置の構成を示している。収音装置１は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０を備える。収音装置１は、例えば、会議中の人の音声を収音する。本実施形態において、収音装置１は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、入出力インタフェース部５０、及びバス６０が一体化された専用の収音機である。

カメラ１０は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、又はＮＭＯＳイメージセンサなどのイメージセンサを備える。カメラ１０は、映像信号である画像データを生成して、出力する。

マイクアレイ２０は、複数のマイクロホンを備える。マイクアレイ２０は、音波を受信して、電気信号である音響信号に変換して出力する。

制御部３０は、カメラ１０から得られた画像データと、マイクアレイ２０から得られた音響信号に基づいて、目的音源方向と雑音源方向を推定する。目的音源方向は、目的音を発する目的音源が存在する方向である。雑音源方向は、雑音を発する雑音源が存在する方向である。制御部３０は、目的音源方向から到来する音を強調し且つ雑音源方向から到来する音を抑圧するような信号処理を行うことによって、マイクアレイ２０が出力した音響信号から目的音を取り出す。制御部３０は、半導体素子などで実現可能である。制御部３０は、例えば、マイコン、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、又はＡＳＩＣで構成することができる。

記憶部４０は、雑音源の特徴量を示す雑音源データを格納する。カメラ１０から得られた画像データ及びマイクアレイ２０から得られた音響信号が記憶部４０に格納されてもよい。記憶部４０は、例えば、ハードディスク（ＨＤＤ）、ＳＳＤ、ＲＡＭ、ＤＲＡＭ、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。

入出力インタフェース部５０は、所定の通信規格に準拠して外部機器との通信を行う回路を含む。所定の通信規格は、例えば、ＬＡＮ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ、及びＨＤＭＩ（登録商標）を含む。

バス６０は、カメラ１０、マイクアレイ２０、制御部３０、記憶部４０、及び入出力インタフェース部５０を電気的に接続する信号線である。

制御部３０が画像データをカメラ１０から取得又は記憶部４０から取り出すときは、制御部３０が画像データの入力部に相当する。制御部３０が音響信号をマイクアレイ２０から取得又は記憶部４０から取り出すときは、制御部３０が音響信号の入力部に相当する。

図２は、制御部３０の機能と記憶部４０に格納されるデータとを示している。制御部３０の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。

制御部３０は、目的音源方向推定部３１、雑音源方向推定部３２、及びビームフォーム部３３を含む。

目的音源方向推定部３１は、目的音源方向を推定する。目的音源方向推定部３１は、目的物検出部３１ａ、音源検出部３１ｂ、及び目的音源方向決定部３１ｃを含む。

目的物検出部３１ａは、カメラ１０によって生成された画像データｖから目的物を検出する。目的物は、目的音源となる物体である。目的物検出部３１ａは、例えば、人の顔を目的物として検出する。具体的には、目的物検出部３１ａは、動画１フレーム分又は静止画１枚分に相当する画像データｖ内の複数の判定領域ｒ（θ_ｔ，φ_ｔ）内のそれぞれの画像が目的物である確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）を算出する。判定領域ｒ（θ_ｔ，φ_ｔ）については後述する。

音源検出部３１ｂは、マイクアレイ２０から得られる音響信号ｓから音源を検出する。具体的には、音源検出部３１ｂは、収音装置１に対する水平角θ_ｔ及び垂直角φ_ｔによって特定される方向に音源が存在する確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）を算出する。

目的音源方向決定部３１ｃは、目的物である確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）と音源が存在する確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）とに基づいて、目的音源方向を決定する。目的音源方向は、例えば、収音装置１に対する水平角θ_ｔ及び垂直角φ_ｔで示される。

雑音源方向推定部３２は、雑音源方向を推定する。雑音源方向推定部３２は、非目的物検出部３２ａ、雑音検出部３２ｂ、及び雑音源方向決定部３２ｃを含む。

非目的物検出部３２ａは、カメラ１０によって生成された画像データｖから非目的物を検出する。具体的には、非目的物検出部３２ａは、動画１フレーム分又は静止画１枚分に相当する画像データｖ内の複数の判定領域ｒ（θ_ｎ，φ_ｎ）内のそれぞれの画像が非目的物であるか否かを判定する。非目的物は、雑音源となる物体である。例えば、収音装置１が会議室で使用される場合、非目的物は会議室のドア及び会議室内にあるプロジェクタ等である。例えば、収音装置１が屋外で使用される場合、非目的物は救急車などの音を発する移動物体である。

雑音検出部３２ｂは、マイクアレイ２０が出力した音響信号ｓから雑音を検出する。本明細書において、雑音を非目的音とも称する。具体的には、雑音検出部３２ｂは、水平角θ_ｎ及び垂直角φ_ｎによって特定される方向から到来する音が雑音か否かを判定する。雑音は、例えば、ドアの開閉時の音、プロジェクタのファンの音、及び救急車のサイレン音である。

雑音源方向決定部３２ｃは、非目的物検出部３２ａの判定結果と雑音検出部３２ｂの判定結果に基づいて、雑音源方向を決定する。例えば、非目的物検出部３２ａが非目的物を検出し、且つ雑音検出部３２ｂが雑音を検出したときに、検出した位置又は方向に基づいて雑音源方向を決定する。雑音源方向は、例えば、収音装置１に対する水平角θ_ｎ及び垂直角φ_ｎで示される。

ビームフォーム部３３は、マイクアレイ２０が出力した音響信号ｓに対して、目的音源方向から到来する音を強調し、雑音源方向から到来する音を抑圧するような信号処理を行って、音響信号ｓから目的音を取り出す。これにより、雑音が低減された、クリアな音声を収音できる。

記憶部４０には、雑音源の特徴量を示す雑音源データ４１が格納されている。雑音源データ４１に含まれる雑音源は１つであってもよいし、複数であってもよい。例えば、雑音源データ４１は、車、ドア、及びプロジェクタを雑音源として含んでもよい。雑音源データ４１は、非目的物データ４１ａと、非目的音データである雑音データ４１ｂとを含む。

非目的物データ４１ａは、雑音源となる非目的物の画像特徴量を含む。非目的物データ４１ａは、例えば、非目的物の画像特徴量を含むデータベースである。画像特徴量は、例えば、ｗａｖｅｌｅｔ特徴量、Ｈａａｒ－ｌｉｋｅ特徴量、ＨＯＧ（Histograms of Oriented Gradients）特徴量、ＥＯＨ（Edge of Oriented Histograms）特徴量、Ｅｄｇｅｌｅｔ特徴量、ＪｏｉｎｔＨａａｒ－ｌｉｋｅ特徴量、ＪｏｉｎｔＨＯＧ特徴量、スパース特徴量、Ｓｈａｐｅｌｅｔ特徴量、及び共起確率特徴量のうちのいずれか１つ以上である。非目的物検出部３２ａは、例えば、画像データｖから抽出した特徴量を非目的物データ４１ａと照合することによって、非目的物を検出する。

雑音データ４１ｂは、雑音源が出力する雑音の音響特徴量を含む。雑音データ４１ｂは、例えば、雑音の音響特徴量を含むデータベースである。音響特徴量は、例えば、ＭＦＣＣ（Mel-Frequency Cepstral Coefficient）及びｉ－ｖｅｃｔｏｒのうちのいずれか１つ以上である。雑音検出部３２ｂは、例えば、音響信号ｓから抽出した特徴量を雑音データ４１ｂと照合することによって、雑音を検出する。

２．収音装置の動作
２．１信号処理の概要
図３は、収音装置１が、周囲にある目的音源が発する目的音と雑音源が発する雑音を収音する例を模式的に示している。図４は、目的音を強調し且つ雑音を抑圧する信号処理の一例を示している。図４の横軸は、目的音及び雑音が到来する方向、すなわち収音装置１に対する目的音源及び雑音源の角度を示す。図４の縦軸は、音響信号のゲインを示す。図３に示すように、収音装置１の周囲に雑音源があると、マイクアレイ２０は雑音を含む音響信号を出力する。よって、本実施形態の収音装置１は、図４に示すように、雑音源方向に対して、ビームフォーム処理により死角を形成する。すなわち、収音装置１は、音響信号に対して雑音を抑圧するような信号処理を行う。これにより、精度良く目的音を収音することができる。収音装置１は、さらに、音響信号に対して目的音源方向から到来する音を強調するような信号処理を行う。これにより、より精度良く目的音を収音することができる。

２．２収音装置の全体動作
図５は、制御部３０による収音動作を示している。

雑音源方向推定部３２は、雑音源方向を推定する（Ｓ１）。目的音源方向推定部３１は、目的音源方向を推定する（Ｓ２）。ビームフォーム部３３は、推定された雑音源方向及び目的音源方向に基づいて、ビームフォーム処理を行う（Ｓ３）。具体的には、ビームフォーム部３３は、マイクアレイ２０が出力した音響信号に対して、雑音源方向から到来する音を抑圧し、目的音源方向から到来する音を強調するように信号処理を行う。ステップ１に示す雑音源方向の推定と、ステップＳ２に示す目的音源方向の推定の順序は、逆であってもよい。

図６Ａは、水平角θにおける収音の例を模式的に示している。図６Ｂは、垂直角φにおける収音の例を模式的に示している。図６Ｃは、判定領域ｒ（θ，φ）の一例を示している。カメラ１０が生成する画像データｖ内の各領域の座標系の位置は、カメラ１０の画角に応じて、収音装置１に対する水平角θ及び垂直角φに対応付けられる。カメラ１０が生成する画像データｖは、カメラ１０の水平画角及び垂直画角に応じた複数の判定領域ｒ（θ，φ）に分割されうる。なお、カメラ１０の種類に応じて、画像データｖは、円周状に分割されてもよいし、格子状に分割されてもよい。本実施形態では、ステップＳ１において判定領域ｒ（θ，φ）に対応する方向が雑音源方向か否かを判定し、ステップＳ２において判定領域ｒ（θ，φ）に対応する方向が目的音源方向か否かを判定する。本明細書において、雑音源方向を推定するとき（Ｓ１）の判定領域をｒ（θ_ｎ，φ_ｎ）と記載し、目的音源方向を推定するとき（Ｓ２）の判定領域をｒ（θ_ｔ，φ_ｔ）と記載する。判定領域ｒ（θ_ｎ，φ_ｎ），ｒ（θ_ｔ，φ_ｔ）の大きさ又は形状は、同一であってもよいし、異なってもよい。

２．３雑音源方向の推定
図７から図１１を参照して、雑音源方向の推定について説明する。図７は、雑音源方向の推定（Ｓ１）の詳細を示している。図７において、ステップＳ１１に示す非目的物の検出と、ステップＳ１２に示す雑音の検出の順序は、逆であってもよい。

非目的物検出部３２ａは、カメラ１０によって生成された画像データｖから非目的物を検出する（Ｓ１１）。具体的には、非目的物検出部３２ａは、画像データｖにおいて、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像が非目的物か否かを判定する。雑音検出部３２ｂは、マイクアレイ２０から出力された音響信号ｓから雑音を検出する（Ｓ１２）。具体的には、雑音検出部３２ｂは、音響信号ｓから、水平角θ_ｎ及び垂直角φ_ｎの方向から到来する音が雑音か否かを判定する。雑音源方向決定部３２ｃは、非目的物と雑音の検出結果に基づいて、雑音源方向（θ_ｎ，φ_ｎ）を決定する（Ｓ１３）。

図８は、非目的物の検出（Ｓ１１）の一例を示している。非目的物検出部３２ａは、カメラ１０が生成した画像データｖを取得する（Ｓ１１１）。非目的物検出部３２ａは、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像特徴量を抽出する（Ｓ１１２）。抽出する画像特徴量は、非目的物データ４１ａが示す画像特徴量に対応する。例えば、抽出する画像特徴量は、ｗａｖｅｌｅｔ特徴量、Ｈａａｒ－ｌｉｋｅ特徴量、ＨＯＧ特徴量、ＥＯＨ特徴量、Ｅｄｇｅｌｅｔ特徴量、ＪｏｉｎｔＨａａｒ－ｌｉｋｅ特徴量、ＪｏｉｎｔＨＯＧ特徴量、スパース特徴量、Ｓｈａｐｅｌｅｔ特徴量、及び共起確率特徴量のうちのいずれか１つ以上である。画像特徴量はこれらに限定するものではなく、画像データから物体を特定するための特徴量であればよい。

非目的物検出部３２ａは、抽出した画像特徴量を非目的物データ４１ａと照合して、非目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）を算出する（Ｓ１１３）。類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）は、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像が非目的物である確率、すなわち、非目的物らしさを示す確度である。非目的物の検出方法は、任意である。例えば、非目的物検出部３２ａは、抽出した画像特徴量と非目的物データ４１ａとのテンプレートマッチングによって類似度を算出する。

非目的物検出部３２ａは、類似度が所定値以上か否かを判定する（Ｓ１１４）。類似度が所定値以上であれば、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像が非目的物であると判定する（Ｓ１１５）。類似度が所定値よりも低ければ、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像が非目的物ではないと判定する（Ｓ１１６）。

非目的物検出部３２ａは、画像データｖ内の全判定領域ｒ（θ_ｎ，φ_ｎ）における判定が完了したか否かを判断する（Ｓ１１７）。判定していない判定領域ｒ（θ_ｎ，φ_ｎ）があれば、ステップＳ１１２に戻る。全判定領域ｒ（θ_ｎ，φ_ｎ）についての判定が完了すれば、図８に示す処理を終了する。

図９は、雑音の検出（Ｓ１２）の一例を示している。雑音検出部３２ｂは、判定領域ｒ（θ_ｎ，φ_ｎ）の方向に指向性を形成して、音響信号ｓから判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音を抽出する（Ｓ１２１）。雑音検出部３２ｂは、抽出した音から音響特徴量を抽出する（Ｓ１２２）。抽出する音響特徴量は、雑音データ４１ｂが示す音響特徴量に対応する。例えば、抽出する音響特徴量は、ＭＦＣＣ及びｉ－ｖｅｃｔｏｒのうちのいずれか１つ以上である。音響特徴量はこれらに限定するものではなく、音響データから物体を特定するための特徴量であればよい。

雑音検出部３２ｂは、抽出した音響特徴量を雑音データ４１ｂと照合して、雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）を算出する（Ｓ１２３）。類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）は、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音が雑音である確率、すなわち、雑音らしさを示す確度である。雑音の検出方法は、任意である。例えば、雑音検出部３２ｂは、抽出した音響特徴量と雑音データ４１ｂとのテンプレートマッチングによって類似度を算出する。

雑音検出部３２ｂは、類似度が所定値以上か否かを判定する（Ｓ１２４）。類似度が所定値以上であれば、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音が雑音であると判定する（Ｓ１２５）。類似度が所定値よりも低ければ、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音は雑音ではないと判定する（Ｓ１２６）。

雑音検出部３２ｂは、全判定領域ｒ（θ_ｎ，φ_ｎ）における判定が完了したか否かを判断する（Ｓ１２７）。判定していない判定領域ｒ（θ_ｎ，φ_ｎ）があれば、ステップＳ１２１に戻る。全判定領域ｒ（θ_ｎ，φ_ｎ）についての判定が完了すれば、図９に示す処理を終了する。

図１０は、ステップＳ１２１における指向性の形成の一例を示している。図１０では、マイクアレイ２０が２つのマイクロホン２０ｉ，２０ｊを含む例を示している。マイクロホン２０ｉ，２０ｊにおけるθ方向から到来する音波の受信のタイミングは、マイクロホン２０ｉ，２０ｊ間の間隔ｄに応じて異なる。具体的には、マイクロホン２０ｊにおいては、距離ｄｓｉｎθに応じた分の伝搬遅延が発生する。すなわち、マイクロホン２０ｉ，２０ｊから出力される音響信号において位相差が生じる。

雑音検出部３２ｂは、距離ｄｓｉｎθに相当する遅延量によってマイクロホン２０ｉの出力を遅延させてから、加算器３２１によりマイクロホン２０ｉ，２０ｊから出力される音響信号を加算する。加算器３２１の入力において、θ方向から到来する信号の位相は一致するため、加算器３２１の出力において、θ方向から到来した信号は強調される。一方、θ以外の方向から到来した信号は、互いに位相が一致しないため、θから到来した信号ほど強調されることはない。よって、例えば、加算器３２１の出力を用いることによって、θ方向に指向性が形成される。

図１０の例では、水平角θにおける方向について例示しているが、垂直角φにおける方向についても同様に、指向性を形成することができる。

図１１は、雑音源方向の決定（Ｓ１３）の一例を示している。雑音源方向決定部３２ｃは、非目的物検出部３２ａと雑音検出部３２ｂとからそれぞれ判定領域ｒ（θ_ｎ，φ_ｎ）における判定結果を取得する（Ｓ１３１）。雑音源方向決定部３２ｃは、判定領域ｒ（θ_ｎ，φ_ｎ）における判定結果が、非目的物であり且つ雑音であることを示しているか否かを判断する（Ｓ１３２）。判定結果が非目的物であり且つ雑音であれば、雑音源方向決定部３２ｃは、その判定領域ｒ（θ_ｎ，φ_ｎ）の方向に雑音源があると判断して、判定領域ｒ（θ_ｎ，φ_ｎ）から雑音源方向である水平角θ_ｎ，垂直角φ_ｎを特定する（Ｓ１３３）。

雑音源方向決定部３２ｃは、全判定領域ｒ（θ_ｎ，φ_ｎ）における判定が完了したか否かを判断する（Ｓ１３４）。判定していない判定領域ｒ（θ_ｎ，φ_ｎ）があれば、ステップＳ１３１に戻る。全判定領域ｒ（θ_ｎ，φ_ｎ）についての判定が完了すれば、図１１に示す処理を終了する。

２．４目的音源方向の推定
図１２から図１５を参照して、目的音源方向の推定について説明する。図１２は、目的音源方向の推定（Ｓ２）の詳細を示している。図１２において、ステップＳ２１における目的物の検出とステップＳ２２における音源の検出の順序は、逆であってもよい。

目的物検出部３１ａは、カメラ１０によって生成された画像データｖに基づいて、目的物を検出する（Ｓ２１）。具体的には、目的物検出部３１ａは、画像データｖ内において判定領域ｒ（θ_ｔ，φ_ｔ）内の画像が目的物である確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）を算出する。目的物の検出方法は、任意である。一例として、目的物の検出は、各判定領域ｒ（θ_ｔ，φ_ｔ）が目的物である顔の特徴と一致しているか否かを判定することによって行う（「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照）。

音源検出部３１ｂは、マイクアレイ２０から出力された音響信号ｓに基づいて、音源を検出する（Ｓ２２）。具体的には、音源検出部３１ｂは、水平角θ_ｔ及び垂直角φ_ｔで特定される方向に音源が存在する確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）を算出する。音源の検出方法は、任意である。例えば、音源の検出は、ＣＳＰ（Cross-Power Spectrum Phase Analysis）法又はＭＵＳＩＣ（Multiple Signal Classification）法を使用して行うことができる。

目的音源方向決定部３１ｃは、画像データｖから算出した目的物である確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）と音響信号ｓから算出した音源である確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）とに基づいて、目的音源方向（θ_ｔ，φ_ｔ）を決定する（Ｓ２３）。

ステップＳ２１における顔の識別方法の一例について説明する。図１３は、顔の識別方法の一例を示している。目的物検出部３１ａは、例えば、弱識別器３１０（１）～３１０（Ｎ）を備える。弱識別器３１０（１）～３１０（Ｎ）を特に区別しないときは、Ｎ個の弱識別器３１０とも称する。弱識別器３１０（１）～３１０（Ｎ）は、それぞれ、顔の特徴を示す情報を有する。顔の特徴を示す情報は、Ｎ個の弱識別器３１０のそれぞれにおいて、異なる。目的物検出部３１ａは、領域ｒ（θ_ｔ，φ_ｔ）が顔であると判定した回数Ｃ（ｒ（θ_ｔ，φ_ｔ））を計算する。具体的には、目的物検出部３１ａは、最初に、一つ目の弱識別器３１０（１）によって、領域ｒ（θ_ｔ，φ_ｔ）が顔であるか否かを判定する。弱識別器３１０（１）が、領域ｒ（θ_ｔ，φ_ｔ）は顔でないと判定した場合、「Ｃ（ｒ（θ_ｔ，φ_ｔ））＝０」となる。一つ目の弱識別器３１０（１）が、領域ｒ（θ_ｔ，φ_ｔ）は顔であると判定した場合は、二つ目の弱識別器３１０（２）が、一つ目の弱識別器３１０（１）とは異なる顔の特徴の情報を用いて、領域ｒ（θ_ｔ，φ_ｔ）が顔であるか否かを判定する。二つ目の弱識別器３１０（２）が、領域ｒ（θ_ｔ，φ_ｔ）が顔であると判定した場合、三つ目の弱識別器３１０（３）が、領域ｒ（θ_ｔ，φ_ｔ）が顔であるか否かを判定する。このように、動画１フレーム分又は静止画１枚分に相当する画像データｖに対して、領域ｒ（θ_ｔ，φ_ｔ）毎に、Ｎ個の弱識別器３１０を用いて顔であるか否かを判定する。例えば、Ｎ個の弱識別器３１０の全てが領域ｒ（θ_ｔ，φ_ｔ）は顔であると判定した場合、顔であると判定された回数は「Ｃ（ｒ（θ_ｔ，φ_ｔ））＝Ｎ」となる。

顔を検出するときの領域ｒ（θ_ｔ，φ_ｔ）の大きさは、一定であってもよいし、可変であってもよい。例えば、顔を検出するときの領域ｒ（θ_ｔ，φ_ｔ）の大きさは、動画の１フレーム分又は静止画１枚分の画像データｖ毎に変わってもよい。

目的物検出部３１ａは、画像データｖ内の領域ｒ（θ_ｔ，φ_ｔ）の全てについて、顔であるか否かの判定を行うと、下記式（１）によって、画像データｖ内において水平角θ_ｔ及び垂直角φ_ｔで特定される位置の画像が顔である確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）を算出する。

ステップＳ２２における音源の検出方法の一例であるＣＳＰ法について説明する。図１４は、音波がマイクアレイ２０のマイクロホン２０ｉ及び２０ｊに到来する状態を模式的に示している。マイクロホン２０ｉ及び２０ｊ間の距離ｄに応じて、音波がマイクロホン２０ｉ及び２０ｊに到来するときに時間差τが生じる。

音源検出部３１ｂは、水平角θ_ｔにおいて、音源が存在する確率Ｐ（θ_ｔ｜ｓ）を、ＣＳＰ係数を用いた下記式（２）により算出する。

ここで、ＣＳＰ係数は、下記式（３）によって求めることができる（電子情報通信学会論文誌Ｄ－ＩＩＶｏｌ．Ｊ８３－Ｄ－ＩＩＮｏ．８ｐｐ．１７１３－１７２１、「マイクロホンアレーを用いたＣＳＰ法に基づく複数音源位置推定」を参照）。式（３）において、ｎは時間、Ｓ_ｉ（ｎ）はマイクロホン２０ｉで受音した音響信号、Ｓ_ｊ（ｎ）はマイクロホン２０ｊで受音した音響信号を示している。式（３）において、ＤＦＴは、離散フーリエ変換を示す。また、＊は共役複素数を示す。

時間差τは、音速ｃ、マイクロホン２０ｉ，２０ｊ間の距離ｄ、及びサンプリング周波数Ｆ_ｓを用いて、下記式（４）によって表せる。

よって、下記式（５）に示すように、式（２）のＣＳＰ係数を式（５）によって時間軸から方向軸に変換することによって、水平角θ_ｔにおいて音源が存在する確率Ｐ（θ_ｔ｜ｓ）を算出できる。

垂直角φ_ｔにおける音源が存在する確率Ｐ（φ_ｔ｜ｓ）は、水平角θ_ｔにおける確率Ｐ（θ_ｔ｜ｓ）と同様に、ＣＳＰ係数と時間差τによって算出できる。また、確率Ｐ（θ_ｔ｜ｓ）及び確率Ｐ（φ_ｔ｜ｓ）に基づいて、確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）を算出できる。

図１５は、目的音源方向の決定（Ｓ２３）の詳細を示している。目的音源方向決定部３１ｃは、判定領域ｒ（θ_ｔ，φ_ｔ）毎に、目的音源である確率Ｐ（θ_ｔ，φ_ｔ）を算出する（Ｓ２３１）。例えば、目的音源方向決定部３１ｃは、目的物の確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）とその重みＷｖ、及び音源の確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）とその重みＷｓを用いて、目的音源である人物がいる確率Ｐ（θ_ｔ，φ_ｔ）を下記式（６）によって算出する。

それから、目的音源方向決定部３１ｃは、下記式（７）により、確率Ｐ（θ_ｔ，φ_ｔ）が最大となる水平角θ_ｔ及び垂直角φ_ｔを目的音源方向として決定する（Ｓ２３２）。

式（６）に示す、目的物の確率Ｐ（θ_ｔ，φ_ｔ｜ｖ）に対する重みＷｖは、例えば、目的物が画像データｖに含まれている確からしさを示す画像確度ＣＭｖに基づいて決定されてもよい。具体的には、例えば、目的音源方向決定部３１ｃは、画像データｖに基づいて、画像確度ＣＭｖを設定する。例えば、目的音源方向決定部３１ｃは、画像データｖの平均輝度Ｙａｖｅを推奨輝度（Ｙｍｉｎ＿ｂａｓｅ～Ｙｍａｘ＿ｂａｓｅ）と比較する。推奨輝度は、最小推奨輝度（Ｙｍｉｎ＿ｂａｓｅ）から最大推奨輝度（Ｙｍａｘ＿ｂａｓｅ）までの範囲を有する。推奨輝度を示す情報は、予め記憶部４０に格納されている。平均輝度Ｙａｖｅが最小推奨輝度よりも低ければ、目的音源方向決定部３１ｃは、画像確度ＣＭｖを「ＣＭｖ＝Ｙａｖｅ／Ｙｍｉｎ＿ｂａｓｅ」に設定する。平均輝度Ｙａｖｅが最大推奨輝度よりも高ければ、目的音源方向決定部３１ｃは、画像確度ＣＭｖを「ＣＭｖ＝Ｙｍａｘ＿ｂａｓｅ／Ｙａｖｅ」に設定する。平均輝度Ｙａｖｅが推奨輝度の範囲内であれば、目的音源方向決定部３１ｃは、画像確度ＣＭｖを「ＣＭｖ＝１」に設定する。平均輝度Ｙａｖｅが最小推奨輝度Ｙｍｉｎ＿ｂａｓｅよりも低かったり、最大推奨輝度Ｙｍａｘ＿ｂａｓｅよりも高かったりすれば、目的物である顔を誤検出する場合がある。よって、平均輝度Ｙａｖｅが推奨輝度の範囲内のときは画像確度ＣＭｖを最大値「１」に設定し、平均輝度Ｙａｖｅが推奨輝度より高い、或いは、低いほど画像確度ＣＭｖを低くする。目的音源方向決定部３１ｃは、例えば、単調増加関数によって、画像確度ＣＭｖに応じた重みＷｖを決定する。

式（６）に示す、音源の確率Ｐ（θ_ｔ，φ_ｔ｜ｓ）に対する重みＷｓは、例えば、音声が音響信号ｓに含まれている確からしさを示す音響確度ＣＭｓに基づいて決定されてもよい。具体的には、目的音源方向決定部３１ｃは、人の音声ＧＭＭ（Gausian Mixture Model）と非音声ＧＭＭを用いて、音響確度ＣＭｓを算出する。音声ＧＭＭと非音声ＧＭＭは、予め学習して生成されたものである。音声ＧＭＭと非音声ＧＭＭを示す情報は記憶部４０に格納されている。目的音源方向決定部３１ｃは、まず、音響信号ｓにおける音声ＧＭＭによる尤度Ｌｖを算出する。次に、目的音源方向決定部３１ｃは、音響信号ｓにおける非音声ＧＭＭによる尤度Ｌｎを算出する。それから、目的音源方向決定部３１ｃは、音響確度ＣＭｓを「ＣＭｓ＝Ｌｖ／Ｌｎ」に設定する。目的音源方向決定部３１ｃは、例えば、単調増加関数によって、音響確度ＣＭｓに応じた重みＷｓを決定する。

２．５ビームフォーム処理
雑音源方向（θ_ｎ，φ_ｎ）と目的音源方向（θ_ｔ，φ_ｔ）が決定された後のビームフォーム部３３によるビームフォーム処理（Ｓ３）について説明する。ビームフォーム処理の方法は任意である。一例として、ビームフォーム部３３は、一般化サイドローブキャンセラ（ＧＳＣ）を利用する（電子情報通信学会技術研究報告、Ｎｏ．ＤＳＰ２００１－１０８、ＩＣＤ２００１－１１３、ＩＥ２００１－９２、ｐｐ．６１－６８、Ｏｃｔｏｂｅｒ，２００１．「一般化サイドローブキャンセラを用いた２チャンネルマイクロホンアレーにおける適応話者追尾アルゴリズムの提案」を参照）。図１６は、一般化サイドローブキャンセラ（ＧＳＣ）を利用したビームフォーム部３３の機能的構成を示している。

ビームフォーム部３３は、遅延素子３３ａ，３３ｂ、ビームステアリング部３３ｃ、ヌルステアリング部３３ｄ、及び減算器３３ｅを含む。

遅延素子３３ａは、目的音源方向（θ_ｔ，φ_ｔ）に応じた遅延量Ｚ^Ｄｔに基づいて、目的音に関する到来時間差を補正する。具体的には、遅延素子３３ａは、マイクロホン２０ｊに入力された入力信号ｕ２（ｎ）について、マイクロホン２０ｉに入力された入力信号ｕ１（ｎ）との到来時間差を補正する。

ビームステアリング部３３ｃは、入力信号ｕ１（ｎ）と補正後の入力信号ｕ２（ｎ）の和に基づいて出力信号ｄ（ｎ）を生成する。ビームステアリング部３３ｃの入力において、目的音源方向（θ_ｔ，φ_ｔ）から到来する信号成分の位相は一致するため、出力信号ｄ（ｎ）において目的音源方向（θ_ｔ，φ_ｔ）から到来する信号成分は強調されている。

遅延素子３３ｂは、雑音源方向（θ_ｎ，φ_ｎ）に応じた遅延量Ｚ^Ｄｎに基づいて、雑音に関する到来時間差を補正する。具体的には、遅延素子３３ｂは、マイクロホン２０ｊに入力された入力信号ｕ２（ｎ）について、マイクロホン２０ｉに入力された入力信号ｕ１（ｎ）との到来時間差を補正する。

ヌルステアリング部３３ｄは、適応フィルタ（ＡＤＦ）３３ｆを含む。ヌルステアリング部３３ｄは、入力信号ｕ１（ｎ）と補正後の入力信号ｕ２（ｎ）の和を適応フィルタ３３ｆの入力信号ｘ（ｎ）とし、入力信号ｘ（ｎ）に適応フィルタ３３ｆの係数を乗算することによって出力信号ｙ（ｎ）を生成する。適応フィルタ３３ｆの係数は、ビームステアリング部３３ｃの出力信号ｄ（ｎ）と、ヌルステアリング部３３ｄの出力信号ｙ（ｎ）の平均二乗誤差、すなわち、減算器３３ｅの出力信号ｅ（ｎ）の二乗平均が最小になるように更新される。

減算器３３ｅは、ビームステアリング部３３ｃの出力信号ｄ（ｎ）からヌルステアリング部３３ｄの出力信号ｙ（ｎ）を減算して出力信号ｅ（ｎ）を生成する。ヌルステアリング部３３ｄの入力において、雑音源方向（θ_ｎ，φ_ｎ）から到来する信号成分の位相は一致するため、減算器３３ｅが出力する出力信号ｅ（ｎ）において雑音源方向（θ_ｎ，φ_ｎ）から到来する信号成分が抑圧される。

ビームフォーム部３３は、減算器３３ｅの出力信号ｅ（ｎ）を出力する。ビームフォーム部３３の出力信号ｅ（ｎ）は、目的音が強調され且つ雑音が抑圧された信号となる。

本実施の形態では、ビームステアリング部３３ｃおよびヌルステアリング部３３ｄを用いて目的音を強調し、且つ雑音を抑圧する処理を実施する例を示したが、処理はこれに限るものではなく、目的音を強調し、且つ雑音を抑圧する処理であれば良い。

３．効果及び補足
本実施形態の収音装置１は、入力部と、記憶部４０と、制御部３０とを備える。カメラ１０及びマイクアレイ２０を内蔵する収音装置１における入力部は、制御部３０である。入力部は、マイクアレイ２０から出力される音響信号とカメラ１０によって生成された画像データを入力する。記憶部４０は、雑音源となる非目的物の画像特徴量を示す非目的物データ４１ａと、雑音源が出力する雑音の音響特徴量を示す雑音データ４１ｂを記憶する。制御部３０は、画像データを非目的物データ４１ａと照合する第１の照合（Ｓ１１３）と、音響信号を雑音データ４１ｂと照合する第２の照合（Ｓ１２３）を行うことによって、雑音源の方向を特定する（Ｓ１３３）。制御部３０は、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う（Ｓ３）。

このように、カメラ１０から得られる画像データを非目的物データ４１ａと照合し、マイクアレイ２０から得られる音響信号を雑音データ４１ｂと照合するため、精度良く雑音源の方向を特定することができる。これにより、雑音を精度良く抑圧することができるため、目的音の収音の精度が向上する。

（第２実施形態）
本実施形態では、判定領域ｒ（θ_ｎ，φ_ｎ）の方向に雑音源があるか否かの判定が第１実施形態と異なる。第１実施形態では、非目的物検出部３２ａは、類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）を所定値と比較して、判定領域ｒ（θ_ｎ，φ_ｎ）内の画像が非目的物か否かを判定した。雑音検出部３２ｂは、類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）を所定値と比較して、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音が雑音か否かを判定した。雑音源方向決定部３２ｃは、非目的物であり且つ雑音である場合に、判定領域ｒ（θ_ｎ，φ_ｎ）の方向に雑音源があると判断した。

本実施形態では、非目的物検出部３２ａは、目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）を出力する。すなわち、図８に示すステップＳ１１４～１１６を実行しない。雑音検出部３２ｂは、雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）を出力する。すなわち、図９に示すステップＳ１２４～１２６を実行しない。雑音源方向決定部３２ｃが、目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）と雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）に基づいて、判定領域ｒ（θ_ｎ，φ_ｎ）の方向に雑音源があるか否かを判定する。

図１７は、第２実施形態における雑音源方向の決定（Ｓ１３）の一例を示している。雑音源方向決定部３２ｃは、非目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）と雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）の積を算出する（Ｓ１３０１）。非目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）と雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）は、それぞれ雑音源が判定領域ｒ（θ_ｎ，φ_ｎ）内に存在する確度に相当する。雑音源方向決定部３２ｃは、算出した積の値が所定値以上か否かを判断する（Ｓ１３０２）。積が所定値以上であれば、雑音源方向決定部３２ｃは、判定領域（θ_ｎ，φ_ｎ）の方向に雑音源があると判断して、判定領域（θ_ｎ，φ_ｎ）に対応する水平角θ_ｎ及び垂直角φ_ｎを雑音源方向として特定する（Ｓ１３０３）。

図１７では、非目的物との類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）と雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）の積を算出したが、これに限るものではない。例えば、類似度Ｐ（θ_ｎ，φ_ｎ｜ｖ）と雑音との類似度Ｐ（θ_ｎ，φ_ｎ｜ｓ）との和（式（８））や、重みつきの積（式（９）や、重みつきの和（式（１０））により判定しても良い。

Ｐ（θ_ｎ，φ_ｎ｜ｖ）＋Ｐ（θ_ｎ，φ_ｎ｜ｓ）・・・（８）

Ｐ（θ_ｎ，φ_ｎ｜ｖ）^Ｗｖ×Ｐ（θ_ｎ，φ_ｎ｜ｓ）^Ｗｓ・・・（９）

Ｐ（θ_ｎ，φ_ｎ｜ｖ）^Ｗｖ＋Ｐ（θ_ｎ，φ_ｎ｜ｓ）^Ｗｓ・・・（１０）

雑音源方向決定部３２ｃは、全判定領域ｒ（θ_ｎ，φ_ｎ）における判定が完了したか否かを判断する（Ｓ１３０４）。判定していない判定領域ｒ（θ_ｎ，φ_ｎ）があれば、ステップＳ１３０１に戻る。全判定領域ｒ（θ_ｎ，φ_ｎ）についての判定が完了すれば、図１１７に示す処理を終了する。

本実施形態によれば、第１実施形態と同様に、雑音源方向を精度良く特定できる。

（第３実施形態）
本実施形態は、照合するデータが第１実施形態と異なる。第１実施形態では、記憶部４０には、雑音源の特徴量を示す雑音源データ４１が格納され、雑音源方向推定部３２は雑音源データ４１を用いて、雑音源方向を推定した。本実施形態では、記憶部４０には、目的音源の特徴量を示す目的音源データが格納され、雑音源方向推定部３２は目的音源データを用いて、雑音源方向を推定する。

図１８は、第３実施形態における制御部３０の機能と記憶部４０に格納されるデータとを示している。記憶部４０には、目的音源データ４２が格納される。目的音源データ４２は、目的物データ４２ａと目的音データ４２ｂとを含む。目的物データ４２ａは、目的音源となる目的物の画像特徴量を含む。目的物データ４２ａは、例えば、目的物の画像特徴量を含むデータベースである。画像特徴量は、例えば、ｗａｖｅｌｅｔ特徴量、Ｈａａｒ－ｌｉｋｅ特徴量、ＨＯＧ特徴量、ＥＯＨ特徴量、Ｅｄｇｅｌｅｔ特徴量、ＪｏｉｎｔＨａａｒ－ｌｉｋｅ特徴量、ＪｏｉｎｔＨＯＧ特徴量、スパース特徴量、Ｓｈａｐｅｌｅｔ特徴量、及び共起確率特徴量のうちのいずれか１つ以上である。目的音データ４２ｂは、目的音源が出力する目的音の音響特徴量を含む。目的音データ４２ｂは、例えば、目的音の音響特徴量を含むデータベースである。目的音の音響特徴量は、例えば、ＭＦＣＣ及びｉ－ｖｅｃｔｏｒのうちの１つ以上である。

図１９は、本実施形態における非目的物の検出（Ｓ１１）の一例を示している。図１９のステップＳ１１０１，Ｓ１１０２，Ｓ１１０７は、図８のステップＳ１１１，Ｓ１１２，Ｓ１１７とそれぞれ同一である。本実施形態では、非目的物検出部３２ａは、抽出した画像特徴量を目的物データ４２ａと照合して、目的物との類似度を算出する（Ｓ１１０３）。非目的物検出部３２ａは、類似度が所定値以下か否かを判断する（Ｓ１１０４）。非目的物検出部３２ａは、類似度が所定値以下であれば目的物ではない、すなわち非目的物であると判定する（Ｓ１１０５）。非目的物検出部３２ａは、類似度が所定値よりも大きければ、目的物である、すなわち非目的物ではないと判定する（Ｓ１１０６）。

図２０は、本実施形態における雑音の検出（Ｓ１２）の一例を示している。図２０のステップＳ１２０１，Ｓ１２０２，Ｓ１２０７は、図９のステップＳ１２１，Ｓ１２２，Ｓ１２７とそれぞれ同一である。本実施形態では、雑音検出部３２ｂは、抽出した音響特徴量を目的音データ４２ｂと照合して、目的音との類似度を算出する（Ｓ１２０３）。雑音検出部３２ｂは、類似度が所定値以下か否かを判断する（Ｓ１２０４）。類似度が所定値以下であれば、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音が目的音ではない、すなわち雑音であると判定する（Ｓ１２０５）。類似度が所定値よりも大きければ、判定領域ｒ（θ_ｎ，φ_ｎ）の方向から到来する音は目的音である、すなわち雑音ではないと判定する（Ｓ１２０６）。

本実施形態において、目的音源方向を特定するために目的音源データ４２を使用してもよい。例えば、目的物検出部３１ａは、画像データｖを目的物データ４２ａと照合して、目的物を検出してもよい。音源検出部３１ｂは、音響信号ｓを目的音データ４２ｂと照合して目的音を検出してもよい。この場合、目的音源方向推定部３１と雑音源方向推定部３２は、一つに統合されてもよい。

（他の実施形態）
以上のように、本出願において開示する技術の例示として、第１～第３実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。

第１実施形態では、図１１のステップＳ１３２において、雑音源方向決定部３２ｃは、判定領域ｒ（θ_ｎ，φ_ｎ）における判定結果が非目的物であり且つ雑音であることを示しているか否かを判断した。さらに、雑音源方向決定部３２ｃは、非目的物と雑音から特定される雑音源が同一か否かを判定してもよい。例えば、画像データから特定される非目的物がドアであり、且つ音響信号から特定される雑音がドアの開閉時の音であるか否かを判定してもよい。判定領域ｒ（θ_ｎ，φ_ｎ）内においてドアの画像とドアの音が検出されたときに、判定領域ｒ（θ_ｎ，φ_ｎ）の方向に雑音源であるドアがあると判断してもよい。

第１実施形態では、図１１のステップＳ１３２において、雑音源方向決定部３２ｃは、判定領域ｒ（θ_ｎ，φ_ｎ）内において非目的物及び雑音を検出したときに、判定領域ｒ（θ_ｎ，φ_ｎ）に対応する水平角θ_ｎ及び垂直角φ_ｎを雑音源方向に決定した。しかし、雑音源方向決定部３２ｃは、判定領域ｒ（θ_ｎ，φ_ｎ）内において、非目的物と雑音のいずれか一方しか検出できないときであっても、その判定領域ｒ（θ_ｎ，φ_ｎ）に対応する水平角θ_ｎ及び垂直角φ_ｎを雑音源方向に決定してもよい。

非目的物検出部３２ａが非目的物の検出に基づいて雑音源方向を特定し、且つ雑音検出部３２ｂが雑音の検出に基づいて雑音源方向を特定してもよい。この場合、雑音源方向決定部３２ｃは、非目的物検出部３２ａが特定した雑音源方向と、雑音検出部３２ｂが特定した雑音源方向とが一致するか否かに基づいて、ビームフォーム部３３による雑音の抑圧をするか否かを決定してもよい。雑音源方向決定部３２ｃは、非目的物検出部３２ａと雑音検出部３２ｂのいずれか一方において雑音源方向を特定できたときに、ビームフォーム部３３による雑音の抑圧を行ってもよい。

上記実施形態では、収音装置１は、非目的物検出部３２ａと、雑音検出部３２ｂの両方を備えたが、いずれか一方のみを備えてもよい。すなわち、画像データのみから雑音源方向を特定してもよいし、音響信号のみから雑音源方向を特定してもよい。この場合、雑音源方向決定部３２ｃはなくてもよい。

上記実施形態では、テンプレートマッチングによる照合について説明した。これに代えて、機械学習による照合を行ってもよい。例えば、非目的物検出部３２ａは、ＰＣＡ（Principal Component Analysis）、ニューラルネットワーク、線形判別分析（ＬＤＡ）、サポートベクタマシン（ＳＶＭ）、ＡｄａＢｏｏｓｔ、及びＲｅａｌＡｄａＢｏｏｓｔなどを使用してもよい。この場合、非目的物データ４１ａは、非目的物の画像特徴量を学習したモデルであってもよい。同様に、目的物データ４２ａは、目的物の画像特徴量を学習したモデルであってもよい。非目的物検出部３２ａは、例えば、非目的物の画像特徴量を学習したモデルを使用して、図８のステップＳ１１１～Ｓ１１７に対応する処理の全部又は一部を行ってもよい。雑音検出部３２ｂは、例えば、ＰＣＡ、ニューラルネットワーク、線形判別分析、サポートベクタマシン、ＡｄａＢｏｏｓｔ、及びＲｅａｌＡｄａＢｏｏｓｔなどを使用してもよい。この場合、雑音データ４１ｂは雑音の音響特徴量を学習したモデルであってもよい。同様に、目的音データ４２ｂは、目的音の音響特徴量を学習したモデルであってもよい。雑音検出部３２ｂは、例えば、雑音の音響特徴量を学習したモデルを使用して、図９のステップＳ１２１～Ｓ１２７に対応する処理の全部又は一部を行ってもよい。

目的音か雑音かの判定において、音源分離技術を使用してもよい。例えば、目的音源方向決定部３１ｃは、音響信号を音源分離技術によって音声と非音声に分離し、音声と非音声のパワー比に基づいて、目的音か雑音かを判定してもよい。音源分離技術として、例えば、ブラインド音源分離（ＢＳＳ）を用いてもよい。

上記実施形態では、ビームフォーム部３３が適応フィルタ３３ｆを含む例について説明したが、ビームフォーム部３３は図１０の雑音検出部３２ｂが示す構成を備えてもよい。この場合、減算器３２２の出力により、死角を形成することができる。

上記実施形態では、マイクアレイ２０が２つのマイクロホン２０ｉ及び２０ｊを含む例について説明したが、マイクアレイ２０は２つ以上のマイクロホンを含んでもよい。

雑音源方向は、１方向に限らず、複数方向であってもよい。目的音方向の強調及び雑音源方向の抑圧は、上記実施形態に限定されず、任意の方法で行われうる。

上記実施形態では、雑音源方向として、水平角θ_ｎ及び垂直角φ_ｎをそれぞれ決定する場合について説明したが、水平角θ_ｎ及び垂直角φ_ｎの少なくともいずれか一方のみで、雑音源方向を特定できる場合は、水平角θ_ｎ及び垂直角φ_ｎの少なくともいずれか一方を決定するだけであってもよい。目的音源方向についても同様に、水平角θ_ｔ及び垂直角φ_ｔの少なくともいずれか一方を決定するだけであってもよい。

収音装置１は、カメラ１０とマイクアレイ２０のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置１は、外付けのカメラ１０又はマイクアレイ２０と電気的に接続される。例えば、収音装置１は、カメラ１０を備えたスマートフォンなどの電子機器であって、マイクアレイ２０を備えた外部機器と電気的及び機械的に接続されてもよい。入出力インタフェース部５０が収音装置１に外付けされたカメラ１０から画像データを入力するときは、入出力インタフェース部５０が画像データの入力部に相当する。入出力インタフェース部５０が収音装置１に外付けされたマイクアレイ２０から音響信号を入力するときは、入出力インタフェース部５０が音響信号の入力部に相当する。

上記実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、目的物は、人の顔に限らず、人として認識できる部分であればよい。例えば、目的物は、人の身体又は唇であってもよい。

上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音又は動物の鳴き声であってもよい。

（実施形態の概要）
（１）本開示の収音装置は、雑音を抑圧して収音する収音装置であって、カメラによって生成された画像データを入力する第１の入力部と、マイクアレイから出力される音響信号を入力する第２の入力部と、雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータを記憶する記憶部と、画像データを第１のデータと照合する第１の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行う制御部と、を備える。

画像データを、雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータと照合することによって雑音源の方向を特定しているため、雑音源の方向を精度良く特定することができる。精度良く特定された雑音源の方向から到来する雑音を抑圧するため、目的音の収音の精度が向上する。

（２）（１）の収音装置において、記憶部は、物体から出力される音の特徴量を示す第２のデータを記憶し、制御部は、第１の照合と、音響信号を第２のデータと照合する第２の照合とを行うことによって、雑音源の方向を特定してもよい。

さらに、音響信号を、物体から出力される音の特徴量を示す第２のデータと照合することによって雑音源の方向を特定しているため、雑音源の方向を精度良く特定することができる。精度良く特定された雑音源の方向から到来する雑音を抑圧するため、目的音の収音の精度が向上する。

（３）（１）の収音装置において、第１のデータは、雑音源となる物体の画像の特徴量を示し、制御部は、第１の照合を行い、画像データから物体と類似する物体を検出したときに、検出した物体の方向を雑音源の方向として特定してもよい。

これにより、雑音源が雑音を出力する前に予め死角を形成することができる。よって、例えば、雑音源から発生する突発音を抑圧して目的音を収音することができる。

（４）（１）の収音装置において、第１のデータは、目的音源となる物体の画像の特徴量を示し、制御部は、第１の照合を行い、画像データから物体と類似していない物体を検出したときに、検出した物体の方向を雑音源の方向として特定してもよい。

これにより、雑音源が雑音を出力する前に予め死角を形成することができる。

（５）（３）又は（４）の収音装置において、制御部は、第１の照合において、画像データを複数の判定領域に分割し、各判定領域内の画像を第１のデータと照合して、検出した物体を含む判定領域の画像データ内における位置に基づいて雑音源の方向を特定してもよい。

（６）（２）の収音装置において、第２のデータは、雑音源から出力される雑音の特徴量を示し、制御部は、第２の照合を行い、音響信号から雑音と類似する音を検出したときに、検出した音が到来する方向を雑音源の方向として特定してもよい。

雑音の特徴量と照合することによって、精度良く雑音源の方向を特定することができる。

（７）（２）の収音装置において、第２のデータは、目的音源から出力される目的音の特徴量を示し、制御部は、第２の照合を行い、音響信号から目的音と類似していない音を検出したときに、検出した音が到来する方向を雑音源の方向として特定してもよい。

（８）（６）又は（７）の収音装置において、制御部は、第２の照合において、複数の判定方向の各々に指向性を向けて音響信号を収音し、収音した音響信号を第２のデータと照合して、音を検出した判定方向を雑音源の方向として特定してもよい。

（９）（２）の収音装置において、第１の照合と第２の照合のいずれか一方において雑音源の方向を特定できたときに、雑音源の方向から到来する音を抑圧してもよい。

（１０）（２）の収音装置において、第１の照合と第２の照合の両方において雑音源の方向を特定できたときに、雑音源の方向から到来する音を抑圧してもよい。

（１１）（２）の収音装置において、第１の照合によって雑音源が存在する第１の確度を算出し、且つ、第２の照合によって雑音源が存在する第２の確度を算出し、第１の確度と第２の確度に基づいて算出される算出値が所定の閾値以上のときに、雑音源の方向から到来する音を抑圧してもよい。

（１２）（１１）の収音装置において、算出値は、第１の確度と第２の確度の積、和、重み付き積、および、重み付き和のいずれかであるとしてもよい。

（１３）（１）から（１２）のいずれかの収音装置において、制御部は、画像データと音響信号とに基づいて、目的音源が存在する目的音源方向を決定して、目的音源方向から到来する音を強調するような信号処理を音響信号に対して行ってもよい。

（１４）（１）の収音装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。

（１５）本開示の収音方法は、演算部により雑音を抑圧して収音する収音方法であって、カメラによって生成された画像データを入力するステップと、マイクアレイから出力される音響信号を入力するステップと、雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータを取得するステップと、画像データを第１のデータと照合する第１の照合を行うことによって、雑音源の方向を特定し、特定した雑音源の方向から到来する音を抑圧するような信号処理を音響信号に対して行うステップと、を含む。

本開示の全請求項に記載の収音装置及び収音方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。

本開示の収音装置は、例えば、会話中の人の音声を収音する装置として、有用である。

１収音装置
１０カメラ
２０マイクアレイ
３０制御部
３１目的音源方向推定部
３１ａ目的物検出部
３１ｂ音源検出部
３１ｃ目的音源方向決定部
３２雑音源方向推定部
３２ａ非目的物検出部
３２ｂ雑音検出部
３２ｃ雑音源方向決定部
３３ビームフォーム部
４０記憶部
５０入出力インタフェース部
６０バス

Claims

雑音を抑圧して収音する収音装置であって、
カメラによって生成された画像データを入力する第１の入力部と、
マイクアレイから出力される音響信号を入力する第２の入力部と、
雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータと、前記物体から出力される音の特徴量を示す第２のデータとを記憶する記憶部と、
前記画像データを前記第１のデータと照合する第１の照合と前記音響信号を前記第２のデータと照合する第２の照合とを行い、前記第１の照合の結果と前記第２の照合の結果とに基づいて、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行う制御部と、
を備える、収音装置。
前記制御部は、前記第１の照合の結果と前記第２の照合の結果とに基づいて、前記目的音源の方向を特定し、特定した前記目的音源の方向から到来する音を強調するような信号処理を前記音響信号に対して行う、
請求項１に記載の収音装置。
前記第１のデータは、前記雑音源となる物体の画像の特徴量を示し、
前記制御部は、前記第１の照合を行い、前記画像データから前記物体と類似する物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項１に記載の収音装置。
前記第１のデータは、前記目的音源となる物体の画像の特徴量を示し、
前記制御部は、前記第１の照合を行い、前記画像データから前記物体と類似していない物体を検出したときに、検出した前記物体の方向を前記雑音源の方向として特定する、
請求項１に記載の収音装置。
前記制御部は、前記第１の照合において、前記画像データを複数の判定領域に分割し、各判定領域内の画像を前記第１のデータと照合して、検出した前記物体を含む判定領域の前記画像データ内における位置に基づいて前記雑音源の方向を特定する、
請求項３又は請求項４に記載の収音装置。
前記第２のデータは、前記雑音源から出力される雑音の特徴量を示し、
前記制御部は、前記第２の照合を行い、前記音響信号から前記雑音と類似する音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項２に記載の収音装置。
前記第２のデータは、前記目的音源から出力される目的音の特徴量を示し、
前記制御部は、前記第２の照合を行い、前記音響信号から前記目的音と類似していない音を検出したときに、検出した前記音が到来する方向を前記雑音源の方向として特定する、
請求項２に記載の収音装置。
前記制御部は、前記第２の照合において、複数の判定方向の各々に指向性を向けて前記音響信号を収音し、収音した前記音響信号を前記第２のデータと照合して、前記音を検出した判定方向を前記雑音源の方向として特定する、
請求項６又は請求項７に記載の収音装置。
前記第１の照合と前記第２の照合のいずれか一方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項２に記載の収音装置。
前記第１の照合と前記第２の照合の両方において前記雑音源の方向を特定できたときに、前記雑音源の方向から到来する音を抑圧する、
請求項２に記載の収音装置。
前記第１の照合によって前記雑音源が存在する第１の確度を算出し、且つ、前記第２の照合によって前記雑音源が存在する第２の確度を算出し、前記第１の確度と前記第２の確度に基づいて算出される算出値が所定の閾値以上のときに、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧する、
請求項２に記載の収音装置。
前記制御部は、前記画像データを複数の判定領域に分割し、各判定領域に対して前記算出値を算出し、前記算出値が所定の閾値以上である判定領域に対応する角度を雑音源方向として特定する、
請求項１１に記載の収音装置。
前記算出値は、前記第１の確度と前記第２の確度の積、和、重み付き積、および、重み付き和のいずれかである、
請求項１１に記載の収音装置。
前記制御部は、前記画像データと前記音響信号とに基づいて、前記目的音源が存在する目的音源方向を決定して、前記目的音源方向から到来する音を強調するような信号処理を前記音響信号に対して行う、
請求項１から請求項１３のいずれかに記載の収音装置。
前記カメラ及び前記マイクアレイのうちの少なくとも一方を備える、
請求項１に記載の収音装置。
演算部により雑音を抑圧して収音する収音方法であって、
カメラによって生成された画像データを入力するステップと、
マイクアレイから出力される音響信号を入力するステップと、
雑音源又は目的音源を示す物体の画像の特徴量を示す第１のデータと、前記物体から出力される音の特徴量を示す第２のデータとを取得するステップと、
前記画像データを前記第１のデータと照合する第１の照合と前記音響信号を前記第２のデータと照合する第２の照合とを行い、前記第１の照合の結果と前記第２の照合の結果とに基づいて、前記雑音源の方向を特定し、特定した前記雑音源の方向から到来する音を抑圧するような信号処理を前記音響信号に対して行うステップと、
を含む、収音方法。
コンピュータに請求項１６に記載の収音方法を実行させるためのプログラム。