JP2020003724A

JP2020003724A - 集音装置、集音装置の制御方法

Info

Publication number: JP2020003724A
Application number: JP2018125290A
Authority: JP
Inventors: 智彦黒木; Tomohiko Kuroki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-09
Anticipated expiration: 2038-06-29
Also published as: JP7079160B2; US20200007979A1; US10812898B2

Abstract

【課題】集音した音から目的音をより高精度に取得するための技術を提供すること。【解決手段】周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する。撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する。周囲から集音した音を、集音方向の音と、ノイズ方向の音と、に分離し、ノイズ方向の音を用いて集音方向の音に対するノイズキャンセルを行う。【選択図】図１

Description

本発明は、集音技術に関するものである。

カーナビゲーションシステムやスマートスピーカなどにおいて音声認識機能は必須の機能となっている。音声認識における認識率の向上のため、複数のマイクを搭載したマイクアレイを用いて指定方向の音源を分離し、目的の音を取得するビームフォーミング技術がある。しかし、ビームフォーミング技術は、全体的に環境音が騒がしい環境下では目的音を精度よく抽出することが出来ないといった課題がある。

従来技術では、環境音をノイズ音として取得し、スペクトラルサブトラクション法などを用いて、分離した目的音からノイズ音をキャンセルすることで、目的音を精度よく抽出している。特許文献１には、目的方向とは逆方向の音をビームフォーミングで取得し、目的方向の音からキャンセルすることで目的音を精度よく抽出する方法が開示されている。

特開２０１６−４６７６９号公報

しかしながら、上述の従来技術では、キャンセル対象のノイズ音に目的音に近しい音が入った場合、目的音までキャンセルされてしまうため、抽出精度がかえって低くなってしまう場合がある。たとえば、指定方向の人の会話音声を取得する際に、逆方向にも会話を行っている人がいると、キャンセルするノイズ音に人の声が入ってしまうため、指定方向の人の会話音声もキャンセルされてしまい、抽出精度が下がってしまう。また、ノイズ源が逆方向にいない場合は、キャンセル処理の効果を十分に発揮できないといった課題がある。本発明では、集音した音から目的音をより高精度に取得するための技術を提供する。

本発明の一様態は、周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第１の決定手段と、前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第２の決定手段と、周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段とを備えることを特徴とする。

本発明の構成によれば、集音した音から目的音をより高精度に取得することができる。

音声認識システムの機能構成例を示すブロック図。音声認識システムＡ１０００の動作のフローチャート。集音方向及びノイズ方向の決定方法の一例を示す図。音声認識システムの機能構成例を示すブロック図。音声認識システムＢ１０００の動作のフローチャート。コンピュータ装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施形態の１つである。

［第１の実施形態］
先ず、本実施形態に係る音声認識システムの機能構成例について、図１のブロック図を用いて説明する。本実施形態に係る音声認識システムＡ１０００は、人が発話した音声から発話内容を認識し、該認識の結果を表示するシステムである。

図１に示す如く、本実施形態に係る音声認識システムＡ１０００は、情報入力装置Ａ１００１、画像入力装置Ａ１００２、アレイマイクＡ１００３、集音装置Ａ１００４、音声認識装置Ａ１００５、モニタ装置Ａ１００６、を有する。集音装置Ａ１００４と音声認識装置Ａ１００５との間はオーディオインターフェースを介して接続されており、集音装置Ａ１００４とモニタ装置Ａ１００６との間はビデオインターフェースを介して接続されている。しかし、装置間の接続形態は特定の接続形態に限らない。

先ず、情報入力装置Ａ１００１について説明する。情報入力装置Ａ１００１は、ユーザが操作することで集音対象（収音対象）に係る情報（集音対象情報）を入力可能な装置であり、マウス、キーボード、タッチパネル画面、スマートフォン、タブレット端末装置等の機器が適用可能である。本実施形態では、集音対象情報には、集音対象の位置（集音対象位置）が含まれている。情報入力装置Ａ１００１は、ユーザにより入力された集音対象情報を集音装置Ａ１００４に対して出力する。

次に、画像入力装置Ａ１００２について説明する。画像入力装置Ａ１００２は、自身の周囲の画像を撮像可能な装置である。画像入力装置Ａ１００２は、周囲のパノラマ画像を撮像する撮像装置であっても良いし、それぞれ異なる方向を撮像することで周囲の撮像画像を得る複数台の撮像装置であっても良い。画像入力装置Ａ１００２は、自身の周囲を撮像した撮像画像を集音装置Ａ１００４に対して出力する。

次に、アレイマイクＡ１００３について説明する。アレイマイクＡ１００３は、自身の周囲の音を複数のマイクで集音して複数チャネルの音声情報を同時生成する装置であり、該複数チャネルの音声情報を集音装置Ａ１００４に対して出力する。

次に、集音装置Ａ１００４について説明する。集音装置Ａ１００４は、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末装置などのコンピュータ装置である。制御部Ａ１０９９は、集音装置Ａ１００４の動作制御を行う。

情報入力部Ａ１００７は、情報入力装置Ａ１００１から出力された集音対象情報を取得し、該取得した集音対象情報を後段の判断部Ａ１０１０に対して出力する。画像入力部Ａ１００８は、画像入力装置Ａ１００２から出力された撮像画像を取得し、該取得した撮像画像を後段の人体検出部Ａ１００９に対して出力する。音声入力部Ａ１０１１は、アレイマイクＡ１００３から出力された複数チャネルの音声情報を取得し、該取得した複数チャネルの音声情報を後段の音源分離部Ａ１０１２に対して出力する。

人体検出部Ａ１００９は、画像入力部Ａ１００８から出力された撮像画像から人体を検出する。画像から人体を検出するための技術にはテンプレートマッチング法等の様々な技術があり、本実施形態では如何なる技術を用いて画像からの人体検出を行っても良い。そして人体検出部Ａ１００９は、画像入力部Ａ１００８から出力された撮像画像はモニタ装置Ａ１００６に対して出力し、該撮像画像から検出した人体の検出結果は後段の判断部Ａ１０１０に対して出力する。本実施形態では、人体の検出結果には、撮像画像から検出した該人体の画像領域（人体領域）を規定する人体領域情報（例えば該人体領域の左上隅及び右上隅の画像座標）が含まれている。

判断部Ａ１０１０は、情報入力部Ａ１００７からの集音対象情報に含まれている集音対象の位置と、人体検出部Ａ１００９からの人体の検出結果に含まれている人体領域情報が規定する人体領域と、を取得して、集音方向とノイズ方向とを決定する。判断部Ａ１０１０は、アレイマイクＡ１００３から「集音対象情報に含まれている集音対象の位置」への方向に人体がある場合には、該人体への方向を集音方向とする。また判断部Ａ１０１０は、アレイマイクＡ１００３から人体のない方向をノイズ方向とする。

判断部Ａ１０１０による集音方向及びノイズ方向の決定方法について、図３を例に取り、より詳細に説明する。人体Ｂ００２，Ｂ００３，Ｂ００４は撮像画像から検出された人体である。

先ず、集音方向の決定方法について説明する。判断部Ａ１０１０は、アレイマイクＡ１００３から「集音対象情報に含まれている集音対象の位置」への方向Ｂ００５を求め、該方向Ｂ００５に人体が存在するか否かを判断し、存在する場合には、該人体への方向を集音方向とする。図３では、アレイマイクＡ１００３から方向Ｂ００５に人体Ｂ００２が存在するので、アレイマイクＡ１００３から該人体Ｂ００２への方向を集音方向とする。

方向Ｂ００５に人体が存在するか否かは、例えば、撮像画像において方向Ｂ００５に対応する画像座標を求め、該撮像画像における人体領域のうち該画像座標を含む人体領域が存在するか否かを判断する。アレイマイクＡ１００３からの方向と撮像画像において該方向に対応する画像座標との間の対応関係は既知であるものとする。図３の場合は、撮像画像から人体Ｂ００２，Ｂ００３，Ｂ００４が検出されている。然るにこの場合は、人体Ｂ００２，Ｂ００３，Ｂ００４のそれぞれの人体領域のうち、撮像画像において方向Ｂ００５に対応する画像座標を内部に含む人体領域が存在するか否かを判断することになる。この判断の結果、方向Ｂ００５に対応する画像座標を含む人体領域が存在する場合には「方向Ｂ００５に人体が存在する」と判断する。一方、方向Ｂ００５に対応する画像座標を含む人体領域が存在しない場合には「方向Ｂ００５には人体は存在しない」と判断する。

次に、ノイズ方向の決定方法について説明する。判断部Ａ１０１０は、人体の配置間隔を求める。図３の例では、人体Ｂ００２と人体Ｂ００３との間の配置間隔Ｂ００７は１２０°、人体Ｂ００３と人体Ｂ００４との間の配置間隔Ｂ００８は６０°、人体Ｂ００４と人体Ｂ００２との間の配置間隔Ｂ００９は１８０°となっている。例えば、撮像画像がパノラマ画像（撮像画像の水平方向が方位方向に対応している）の場合、パノラマ画像の水平方向の画素数をＷ、パノラマ画像における水平方向の人体Ａ（人体領域）と人体Ｂ（人体領域）との間の距離（画素数）をｗとする。このとき、人体Ａと人体Ｂとの間の配置間隔は１８０×ｗ／Ｗ（°）として求めることができる。なお、配置間隔は角度で表すことに限らない。そして判断部Ａ１０１０は、配置間隔Ｂ００７，Ｂ００８，Ｂ００９のうち最も広い配置間隔を特定し、該特定した配置間隔の中央方向をノイズ方向とする。図３の場合、配置間隔Ｂ００７＝１２０°，配置間隔Ｂ００８＝６０°，配置間隔Ｂ００９＝１８０°であるから、最も広い配置間隔Ｂ００９の中央方向Ｂ００６をノイズ方向とする。そして判断部Ａ１０１０は、上記のようにして決定した集音方向と、ノイズ方向と、を音源分離部Ａ１０１２に対して出力する。

音源分離部Ａ１０１２は、音声入力部Ａ１０１１から出力された複数チャネルの音声情報から集音方向の音源とノイズ方向の音源とを分離するビームフォーミング処理を行うことで、集音方向の音である目的音とノイズ方向の音であるノイズ音とを得る。そして音源分離部Ａ１０１２は、目的音とノイズ音とを後段のキャンセル部Ａ１０１３に対して出力する。

キャンセル部Ａ１０１３は、目的音からスペクトラルサブトラクション法を用いてノイズ音をキャンセルするべく、目的音に対してスペクトラルサブトラクション法を用いてノイズ音をキャンセルすることでノイズキャンセル処理を実現する。そしてキャンセル部Ａ１０１３は、ノイズキャンセル処理を行った目的音を音声認識装置Ａ１００５に対して出力する。

次に、音声認識装置Ａ１００５について説明する。音声認識装置Ａ１００５は、キャンセル部Ａ１０１３から出力された「ノイズキャンセル処理を行った目的音」に基づいて音声認識を行い、該音声認識の結果をモニタ装置Ａ１００６に対して出力する。

次に、モニタ装置Ａ１００６について説明する。モニタ装置Ａ１００６は、液晶画面、タッチパネル画面、プロジェクタ装置などの表示装置であり、人体検出部Ａ１００９から出力された撮像画像と、音声認識装置Ａ１００５から出力された音声認識の結果と、を表示する。撮像画像及び音声認識の結果の表示形態については特定の表示形態に限らず、撮像画像上に音声認識の結果を重畳させて表示しても良いし、それぞれ別個の表示領域に表示しても良い。

上記の音声認識システムＡ１０００の動作について、図２のフローチャートに従って説明する。なお、図２の各ステップにおける処理の詳細については上記の通りであるため、ここでは簡単に説明する。音声認識システムＡ１０００は、ユーザ操作によって起動されると音声認識処理を開始し、図２のフローチャートに従った処理を行う。

ステップＳ１では、画像入力部Ａ１００８は、画像入力装置Ａ１００２から出力された撮像画像を取得する。ステップＳ２では、人体検出部Ａ１００９は、画像入力部Ａ１００８から出力された撮像画像から人体を検出する。

ステップＳ３では、情報入力部Ａ１００７は、情報入力装置Ａ１００１から集音対象情報を取得したか否かを判断し、取得していない場合には処理はステップＳ１１に進み、取得した場合には、処理はステップＳ４に進む。

ステップＳ４では、人体検出部Ａ１００９は、撮像画像中に複数の人体が存在したか否か、つまり、ステップＳ２において撮像画像から複数の人体を検出したか否かを判断する。この判断の結果、撮像画像中に複数の人体が存在した（ステップＳ２において撮像画像から複数の人体を検出した）場合には、処理はステップＳ５に進む。一方、撮像画像中に複数の人体が存在しなかった（ステップＳ２において撮像画像から複数の人体を検出しなかった）場合には、処理はステップＳ１１に進む。

ステップＳ５では、判断部Ａ１０１０は、情報入力部Ａ１００７が取得した集音対象情報に含まれている集音対象の位置と、人体検出部Ａ１００９による人体の検出結果に含まれている人体領域と、に基づいて、集音方向を決定する。ステップＳ６では、判断部Ａ１０１０は、人体検出部Ａ１００９による人体の検出結果に含まれている人体領域間の配置間隔に基づいて、ノイズ方向を決定する。

ステップＳ７では、音声入力部Ａ１０１１は、アレイマイクＡ１００３から出力された複数チャネルの音声情報を取得する。ステップＳ８では、音源分離部Ａ１０１２は、複数チャネルの音声情報から集音方向の音源とノイズ方向の音源とを分離するビームフォーミング処理を行うことで、集音方向の音である目的音とノイズ方向の音であるノイズ音とを得る。

ステップＳ９では、キャンセル部Ａ１０１３は、目的音に対してスペクトラルサブトラクション法を用いてノイズ音をキャンセルすることで、ノイズキャンセル処理を実現する。ステップＳ１０では、音声認識装置Ａ１００５は、ステップＳ９でノイズキャンセル処理を行った目的音に基づいて音声認識を行う。ステップＳ１１では、モニタ装置Ａ１００６は、ステップＳ１で取得した撮像画像と、ステップＳ１０における音声認識の結果と、を表示する。

ステップＳ１２では、制御部Ａ１０９９は、音声認識システムＡ１０００の不図示のＯｎ／Ｏｆｆスイッチがユーザにより操作されて音声認識システムＡ１０００の停止操作が行われた等、音声認識システムＡ１０００の停止条件が満たされたか否かを判断する。この判断の結果、停止条件が満たされた場合には、図２のフローチャートに従った処理は終了し、停止条件が満たされていない場合には、処理はステップＳ１に進む。

このように、本実施形態では、周囲を撮像した撮像画像から人体がない方向を判断し、その方向の音をノイズ源として目的音からキャンセルすることで精度よく目的音を抽出することができる。

＜変形例＞
第１の実施形態では、撮像画像や音声認識の結果を表示したが、撮像画像や音声認識の結果の出力形態は特定の出力形態に限らない。例えば、撮像画像や音声認識の結果をネットワークを介して外部の装置に対して送信しても良いし、音声認識システムＡ１０００の内部メモリ若しくは外部メモリに撮像画像や音声認識の結果を格納するようにしても良い。

また、図２では、情報入力装置Ａ１００１、画像入力装置Ａ１００２、アレイマイクＡ１００３、集音装置Ａ１００４、音声認識装置Ａ１００５、モニタ装置Ａ１００６、をそれぞれ別個の装置として説明した。しかし、これらの装置の２つ以上を１つの装置にまとめても良い。また、これらの装置のそれぞれの機能を２つ以上の装置に分散させても良い。

また、音源分離部Ａ１０１２による集音方向の音とノイズ方向の音とに分離するための技術については、上記のビームフォーミング処理に限らないし、ノイズキャンセル技術についても、スペクトラルサブトラクション法に限らない。

［第２の実施形態］
以下では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。本実施形態に係る音声認識システムの機能構成例について、図４のブロック図を用いて説明する。

本実施形態に係る音声認識システムＢ１０００は、上記の集音装置Ａ１００４の代わりに集音装置Ｂ１００４を有している。また、集音装置Ｂ１００４は、上記の集音装置Ａ１００４において制御部Ａ１０９９、人体検出部Ａ１００９、判断部Ａ１０１０をそれぞれ、制御部Ｂ１０９９、検出部Ｂ１００９、判断部Ｂ１０１０に置き換えたものである。

検出部Ｂ１００９は、画像入力部Ａ１００８から出力された撮像画像から第１の実施形態と同様に人体を検出する。更に検出部Ｂ１００９は、画像入力部Ａ１００８から出力された撮像画像から、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクト（テレビ、スピーカ、動物、車体、扇風機等）をノイズオブジェクトとして検出する。撮像画像からのノイズオブジェクトの検出方法については人体の検出方法と同様の方法を用いるものとするが、人体とノイズオブジェクトとで検出方法を変えても良い。また、ノイズオブジェクトの種別に応じて異なる検出方法を採用しても良い。

そして検出部Ｂ１００９は、画像入力部Ａ１００８から出力された撮像画像についてはモニタ装置Ａ１００６に対して出力し、人体の検出結果及びノイズオブジェクトの検出結果については後段の判断部Ｂ１０１０に対して出力する。本実施形態では、人体の検出結果には、撮像画像から検出した該人体の画像領域（人体領域）を規定する人体領域情報（例えば該人体領域の左上隅及び右上隅の画像座標）が含まれている。また、ノイズオブジェクトの検出結果には、撮像画像から検出した該ノイズオブジェクトの画像領域（ノイズオブジェクト領域）を規定するノイズオブジェクト領域情報（例えば該ノイズオブジェクト領域の左上隅及び右上隅の画像座標）が含まれている。

判断部Ｂ１０１０は、集音方向及びノイズ方向を決定するのであるが、集音方向については第１の実施形態と同様にして決定する。ノイズ方向については以下のようにして決定する。つまり判断部Ｂ１０１０は、撮像画像からノイズオブジェクトが検出されている場合、該撮像画像中における該ノイズオブジェクトのノイズオブジェクト領域の位置に対応する方向をノイズ方向とする。「ノイズオブジェクト領域の位置」は、例えば、ノイズオブジェクト領域の中心位置やノイズオブジェクト領域の四隅の何れかの位置である。一方、判断部Ｂ１０１０は、撮像画像からノイズオブジェクトが検出されなかった場合には、集音方向と逆方向をノイズ方向とする。

本実施形態に係る音声認識システムＢ１０００の動作について、図５のフローチャートに従って説明する。なお、図５において、図２に示した処理ステップと同じ処理ステップには同じステップ番号を付しており、該処理ステップに係る説明は省略する。

ステップＳ１０２では、検出部Ｂ１００９は、ステップＳ１において取得した撮像画像から人体及びノイズオブジェクトを検出する。ステップＳ１０６では、検出部Ｂ１００９は、撮像画像からノイズオブジェクトを検出したか否かを判断する。この判断の結果、撮像画像からノイズオブジェクトを検出した場合には、処理はステップＳ１０８に進み、撮像画像からノイズオブジェクトを検出しなかった場合には、処理はステップＳ１０７に進む。

ステップＳ１０７では、判断部Ｂ１０１０は、集音方向と逆方向をノイズ方向とする。一方、ステップＳ１０８では、判断部Ｂ１０１０は、撮像画像中におけるノイズオブジェクト領域の位置に対応する方向をノイズ方向とする。

このように、本実施形態では、撮像画像からノイズ源の方向を判断し、その方向の音をノイズ源として目的音からキャンセルすることで精度よく目的音を抽出することができる。

＜変形例＞
図４では、情報入力装置Ａ１００１、画像入力装置Ａ１００２、アレイマイクＡ１００３、集音装置Ｂ１００４、音声認識装置Ａ１００５、モニタ装置Ａ１００６、をそれぞれ別個の装置として説明した。しかし、これらの装置の２つ以上を１つの装置にまとめても良い。また、これらの装置のそれぞれの機能を２つ以上の装置に分散させても良い。

［第３の実施形態］
第１の実施形態に係る集音装置Ａ１００４に、撮像画像から人の唇の動きを検出して発話しているかどうかを検出する検出部を加え、該撮像画像において発話している人がいない位置に対応する方向をノイズ方向としても良い
また、第２の実施形態に係る集音装置Ｂ１００４に、撮像画像からオブジェクトの動きを検出して音を発しているかを推定する推定部を加えても良い。そして、音を発しているオブジェクトが存在する場合には、撮像画像において該オブジェクトの位置に対応する方向、音を発しているオブジェクトが存在しない場合には集音方向と逆方向、をノイズ方向としても良い。また、第１〜３の実施形態において「人体」は、検出するオブジェクトの一例に過ぎず、他の種類のオブジェクトを対象とするようにしても構わない。

［第４の実施形態］
集音装置Ａ１００４が有するものとして図１に示した各機能部、集音装置Ｂ１００４が有するものとして図４に示した各機能部、はハードウェアで実装しても構わないし、ソフトウェア（コンピュータプログラム）で実装しても構わない。後者の場合、このコンピュータプログラムを実行可能なコンピュータ装置は上記の集音装置Ａ１００４や集音装置Ｂ１００４に適用可能である。上記の集音装置Ａ１００４や集音装置Ｂ１００４に適用可能なコンピュータ装置のハードウェア構成例について、図６のブロック図を用いて説明する。

ＣＰＵ６０１は、ＲＡＭ６０２やＲＯＭ６０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ６０１は、コンピュータ装置全体の動作制御を行うと共に、上記の集音装置Ａ１００４や集音装置Ｂ１００４が行うものとして上述した各処理を実行若しくは制御する。

ＲＡＭ６０２は、ＲＯＭ６０３や外部記憶装置６０４からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）６０５を介して外部から受信したデータ、を格納するためのエリアを有する。さらにＲＡＭ６０２は、ＣＰＵ６０１が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ６０２は、各種のエリアを適宜提供することができる。ＲＯＭ６０３には、コンピュータ装置の設定データや起動プログラムなど、書換不要の情報が格納されている。

外部記憶装置６０４は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置６０４には、ＯＳ（オペレーティングシステム）や、上記の集音装置Ａ１００４や集音装置Ｂ１００４が行うものとして上述した各処理をＣＰＵ６０１に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。

外部記憶装置６０４に保存されているコンピュータプログラムには、図１に示した集音装置Ａ１００４の各機能部の機能や図４に示した集音装置Ｂ１００４の各機能部の機能をＣＰＵ６０１に実現させるためのコンピュータプログラムが含まれている。また、外部記憶装置６０４に保存されているデータには、上記の説明において既知の情報として上記の集音装置Ａ１００４や集音装置Ｂ１００４が取り扱った情報が含まれている。

外部記憶装置６０４に保存されているコンピュータプログラムやデータはＣＰＵ６０１による制御に従って適宜ＲＡＭ６０２にロードされ、ＣＰＵ６０１による処理対象となる。

Ｉ／Ｆ６０５は、外部の機器との間のデータ通信を行うための複数種類のインターフェースを有する。Ｉ／Ｆ６０５には、例えば、上記の情報入力装置Ａ１００１、画像入力部Ａ１００８、アレイマイクＡ１００３、音声認識装置Ａ１００５、モニタ装置Ａ１００６が接続される。

ＣＰＵ６０１、ＲＡＭ６０２、ＲＯＭ６０３、外部記憶装置６０４、Ｉ／Ｆ６０５は何れもバス６０６に接続されている。なお、図６に示した構成は上記の集音装置Ａ１００４や集音装置Ｂ１００４に適用可能なコンピュータ装置のハードウェア構成の一例に過ぎず、適宜変更／変形が可能である。

また、図６に示した構成は、情報入力装置Ａ１００１、画像入力装置Ａ１００２、音声認識装置Ａ１００５にも適用可能である。その場合、適用する装置によっては図６の構成に適宜デバイスを追加したり削除したりしても良い。例えば、図６のコンピュータ装置を情報入力装置Ａ１００１に適用する場合には、ユーザが集音対象情報等を入力するために操作する操作部（キーボード、マウス、タッチパネル画面など）をコンピュータ装置に新たに設ける必要がある。

また、音声認識装置Ａ１００５についてはソフトウェアとして実装しても構わない。この場合、このソフトウェアは外部記憶装置６０４に保存され、ＣＰＵ６０１が実行することになる。

なお、上記の各実施形態や各変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、上記の各実施形態や各変形例の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

Ａ１００７：情報入力部Ａ１００８：画像入力部Ａ１００９：人体検出部Ａ１０１０：判断部Ａ１０１１：音声入力部Ａ１０１２：音源分離部Ａ１０１３：キャンセル部

Claims

周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第１の決定手段と、
前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第２の決定手段と、
周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル手段と
を備えることを特徴とする集音装置。
前記第１の決定手段は、前記集音対象位置への方向に対応する前記撮像画像中の位置と前記撮像画像中のオブジェクトの領域とに基づいて前記集音方向を決定することを特徴とする請求項１に記載の集音装置。
前記第２の決定手段は、前記撮像画像中のオブジェクトの配置間隔のうち最も広い配置間隔に対応する方向を前記ノイズ方向として決定することを特徴とする請求項１または２に記載の集音装置。
前記第２の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトの前記撮像画像中の領域に対応する方向を前記ノイズ方向として決定することを特徴とする請求項１または２に記載の集音装置。
前記第２の決定手段は、ノイズ源となりうるオブジェクトとして予め指定されているオブジェクトが前記撮像画像から検出されなかった場合には、前記集音方向とは逆方向を前記ノイズ方向として決定することを特徴とする請求項４に記載の集音装置。
前記第２の決定手段は、前記オブジェクトである人の唇の動きを前記撮像画像から検出して発話しているかどうかを検出し、前記撮像画像において発話している人がいない位置に対応する方向をノイズ方向として決定することを特徴とする請求項１または２に記載の集音装置。
前記第２の決定手段は、前記撮像画像からオブジェクトの動きを検出して音を発しているかを推定し、前記撮像画像において音を発しているオブジェクトの位置に対応する方向をノイズ方向として決定することを特徴とする請求項１または２に記載の集音装置。
前記集音装置は更に、前記ノイズキャンセル手段によりノイズキャンセルを行った音に基づいて音声認識を行う音声認識手段を備えることを特徴とする請求項１乃至７の何れか１項に記載の集音装置。
前記集音装置は更に、前記撮像画像と、前記音声認識の結果と、を出力する出力手段を備えることを特徴とする請求項８に記載の集音装置。
集音装置の制御方法であって、
前記集音装置の第１の決定手段が、周囲を撮像した撮像画像中のオブジェクトの領域と、集音対象の位置として入力された集音対象位置と、に基づいて集音方向を決定する第１の決定工程と、
前記集音装置の第２の決定手段が、前記撮像画像におけるオブジェクトの配置に基づいて、ノイズ方向を決定する第２の決定工程と、
前記集音装置のノイズキャンセル手段が、周囲から集音した音を、前記集音方向の音と、前記ノイズ方向の音と、に分離し、前記ノイズ方向の音を用いて前記集音方向の音に対するノイズキャンセルを行うノイズキャンセル工程と
を備えることを特徴とする集音装置の制御方法。
コンピュータを、請求項１乃至９の何れか１項に記載の集音装置の各手段として機能させるためのコンピュータプログラム。