JP2017108240A

JP2017108240A - 情報処理装置、及び情報処理方法

Info

Publication number: JP2017108240A
Application number: JP2015239366A
Authority: JP
Inventors: 巧今井; Ko Imai; 保孝若林; Yasutaka Wakabayashi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2017-06-15

Abstract

【課題】様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出すること。【解決手段】情報処理装置は、周囲の映像を取得する撮像部と、撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも３つ以上の収音部と、収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、音源方向検出部によって検出された音源の方向と、収音部から得られた音声情報とを元に発話を検出する発話判定部と、発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、を備える。【選択図】図２

Description

本発明は、情報処理装置、及び情報処理方法に関する。

近年、遠隔地と会話をするために音声に加えて映像を送信することができるテレビ会議システムが広く利用されている。例えば、テレビ会議では、狭角のレンズとステレオマイクからなるカメラマイク装置が利用されているが、狭角レンズゆえに、参加者が複数名の場合に一部の参加者が画面から見切れる、あるいは全体を映すためにカメラを引いたために画面上の参加者が小さくなる、といったことが起こる。そのため、このようなテレビ会議において、相手先では、こちらの参加者の様子が分かりにくいという問題があった。そこで、こちらで現在話をしている人が誰であるかを、相手先で容易に認識できるようにしたいという要求がある。また、現在話をしている人の音声だけを聞き取りやすくした音声を、相手先へ送りたいという要求がある。

これら要求に対し、特許文献１には、魚眼あるいは超広角レンズを用いて参加者全員を含む広い範囲を常に撮像し、マイクアレイを用いて収音された音声信号を解析することで主要な音声の到来方向を推定し、主要な音声の到来方向の映像を切り出して表示するとともに、マイクアレイの指向性を制御して主要な音声の到来方向の利得を他の方向よりも相対的に高めることで、現在の主要な話者の映像と音声を取得して相手先へ送信するテレビ会議装置が開示されている。

また、特許文献２では、マイクアレイを用いた音声処理に際し、マイクと参加者との距離あるいは参加者の声の大きさの違いによってマイクで収音される音量レベルに差が生じることから、事前学習によってマイクに対する方向毎に、基準となる音量レベルのしきい値を設定しておくことで、どの参加者に対しても適切に発話の有無を判断して利得制御をすることができるようになり、距離が遠いあるいは声が小さな参加者の音声であっても聞き取りやすく調整する方法が開示されている。

特開２０１０−８１６４４号公報特開２０１１−７７６４９号公報

しかしながら従来のテレビ会議装置には次のような問題があった。例えば、特許文献１においては、マイクから離れた位置にいる参加者や声の小さな参加者は、マイクから近い位置から生じる雑音といった阻害要素によって音源として検出されにくく、それゆえに正しく発話者を特定して発話者の映像と音声を得ることができない場合があった。

また、例えば、特許文献２においては、あらかじめ事前学習を行うという時間と手間がかかることに加えて、会議中に席を移動したり、途中参加する参加者がいた場合には対応できないといった問題がある。また、特許文献２では事前学習を行わずに複数のマイクアレイを用いて、常時音源の方向と距離を推定する方法についても開示されているが、この場合、事前学習は不要になるものの、距離精度を高めるには位置関係が既知である２組以上のマイクアレイを用い、さらにマイクアレイ間距離を広くとる必要があるため、筐体のサイズがマイクアレイの数倍まで大きくなることを避けられないという問題がある。あるいは、特許文献２では、いずれの方向についても、その方向からの最初の音声が発せられるまでは音量レベルのしきい値が未定義となるため、全ての方向すなわち全ての参加者に対して、最初の音声については適切な利得制御を行うことが出来なかった。

本発明は上記の点に鑑みてなされたものであり、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出する情報処理装置、及び情報処理方法を提供することを目的とする。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、周囲の映像を取得する撮像部と、前記撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも３つ以上の収音部と、前記収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、前記音源方向検出部によって検出された音源の方向と、前記収音部から得られた音声情報とを元に発話を検出する発話判定部と、前記発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、を備える情報処理装置である。

また、本発明の一態様は、上記情報処理装置において、前記情報処理装置は、前記撮像部によって得られた映像上の人を検出する人検出部と、前記人検出部により検出された人までの距離を推定する距離推定部と、をさらに備え、前記しきい値設定部は、前記検出された人の方位に対して、前記検出された人までの距離に応じたしきい値を設定する。

また、本発明の一態様は、上記情報処理装置において、前記しきい値設定部は、前記撮像部の光学系の光軸を中心とした方位と前記距離推定部で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備え、前記距離パターン選択部により選択された距離パターンに基づいて、前記人検出部が人を検出しなかった方位に対して、前記音量レベルのしきい値を設定する。

また、本発明の一態様は、上記情報処理装置において、映像から特徴量を抽出する特徴抽出部と、前記特徴抽出部が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの前記情報処理装置の設置環境の変更有無を検知する特徴比較部と、をさらに備え、前記しきい値設定部は、前記特徴比較部が、前回から前記設置環境に変更が無いと検知した場合には、前回推定された距離に基づいてしきい値を設定する。

また、本発明の一態様は、周囲の映像を撮像部により取得する撮像手順と、前記撮像部の光軸に略垂直な平面に配置された少なくとも３つ以上の収音部により音声情報を取得する収音手順と、前記収音手順から得られた音声情報を元に音源の方向を検出する音源方向検出手順と、前記音源方向検出手順によって検出された音源の方向と、前記収音手順によって得られた音声情報とを元に発話を検出する発話判定手順と、前記発話判定手順で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定手順と、を有する情報処理方法である。

本発明によれば、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出することができる。

第一の実施形態に係る情報処理装置を含むシステム構成図。第一の実施形態に係る情報処理装置の内部ブロック図。第一の実施形態に係る撮像部および収音部の外観図。第一の実施形態に係る設置環境の外観図および撮影映像例を示す図。第一の実施形態に係る処理の全体フローの一例を示すフローチャート。第一の実施形態に係る初期設定処理の一例を示すフローチャート。第一の実施形態に係る魚眼モデルと透視投影モデルの関係の説明図。第一の実施形態に係る方位と音量しきい値レベルとの関係を示す図。第一の実施形態に係る通常動作処理の一例を示すフローチャート。第一の実施形態に係る情報処理装置１Ａの構成の変形例を示す図。第二の実施形態に係る情報処理装置の内部ブロック図。第二の実施形態に係る処理の全体フローの一例を示すフローチャート。第二の実施形態に係る初期設定処理の一例を示すフローチャート。第二の実施形態に係る設置環境と撮影像、エッジ検出結果の例。第二の実施形態に係るエッジ検出結果の例。第三の実施形態に係る情報処理装置の内部ブロック図。第三の実施形態に係る処理の全体フローの一例を示すフローチャート。第三の実施形態に係る初期設定処理の一例を示すフローチャート。第三の実施形態に係る顔領域マスクの具体例を示す図。第三の実施形態に係る通常動作処理の一例を示すフローチャート。

以下、図面を参照して、本発明の実施形態について説明する。
［第一の実施形態］
まず、本発明の第一の実施形態について説明する。
図１は、本実施形態に係る情報処理装置を含むテレビ会議システムの構成例を示すシステム構成図である。図示するシステム例では、情報処理装置１Ａおよび情報処理装置１Ｂと、通信網２と、表示装置３Ａおよび表示装置３Ｂと、スピーカー４Ａおよびスピーカー４Ｂとを備える。

図２は本実施形態に係る情報処理装置１Ａの概略構成の一例を示す内部ブロック図である。情報処理装置１Ａは、撮像部１０と、顔検出部１１と、距離推定部１２と、しきい値設定部１３と、記憶部１４と、収音部１５と、音源方向検出部１６と、発話判定部１７と、映像抽出部１８と、利得制御部１９と、映像／音声合成部２０と、通信制御部２１と、表示再生部２２と、映像バス２３と、音声バス２４と、を備える。なお、情報処理装置１Ｂは、テレビ会議の相手先に設置されており、情報処理装置１Ａと同様の構成を備える。

撮像部１０は、撮像部１０の周囲の映像を撮影可能な光学系を有し、撮影した周囲の映像を取得する。図３は、本実施形態に係る撮像部１０及び収音部１５の一例を示す外観図である。図３（ａ）は、情報処理装置１Ａの外観の斜視図である。図３（ｂ）は、情報処理装置１Ａの外観の上面図である。例えば、撮像部１０は、視野角が１８０度に近い魚眼レンズを含む光学系と、イメージセンサ（不図示）とから構成され、光軸が鉛直上方となる向きで情報処理装置１Ａの中心に配置されている。なお、不図示のイメージセンサは、情報処理装置１Ａの筐体内部に配置される。

また、収音部１５は、音声を取得するマイクである。例えば、収音部１５は、無指向性のマイクであって、撮像部１０の光軸中心からの距離が略同一で、かつ等間隔に３つ以上配置されることが望ましい。するとそれぞれのマイクは光軸に略垂直な同一平面上に存在するとみなすことができる。ここでは、図３（ｂ）に示すように、収音部１５は、４つのマイク（１５Ａ〜１５Ｄ）で構成される場合を例として説明する。

図４は、情報処理装置１Ａの設置環境と撮影される映像の一例を示す図である。図４（ａ）は、情報処理装置１Ａの設置環境の一例を示している。図示する例では、情報処理装置１Ａが設置された円形の机２５の周囲に、４人の参加者（２６Ａ、２６Ｂ、２６Ｃ、２６Ｄ）がいる。図４（ｂ）は、図４（ａ）に示す設置環境で撮影される映像例を示している。撮像部１０が魚眼レンズを備えていることで、撮像部１０の周囲３６０度（全周囲）に渡り、撮像部１０が設置された高さよりも上方の映像を取得することができる。図示する撮像部１０が取得する映像には、４人の参加者（２６Ａ、２６Ｂ、２６Ｃ、２６Ｄ）の全員が撮影されている。

なお、撮像部１０は、魚眼レンズに代えて、双曲面ミラーとレンズを用いた構成としても、同様に周囲３６０度の映像を取得することが可能である。また、撮像部１０が撮影する範囲は、撮像部１０の周囲３６０度（全周囲）に限られるものではない。例えば、情報処理装置１Ａの設置環境によっては、テレビ会議の参加者が撮像部１０の全周囲に亘って存在せず、特定の方向の範囲にしか存在しない場合もある。このような場合、撮像部１０は、撮像部１０の周囲３６０度よりも狭い範囲を撮影対象としてもよく、少なくとも当該撮影対象の存在する範囲を撮影可能な光学系を備えればよい。

また、情報処理装置１Ａの筐体内部にはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と呼ばれる中央処理装置や、専用ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの半導体部品、記憶部１４に相当するハードディスクやフラッシュメモリ、あるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）といった記憶媒体などを含み、図２に示す顔検出部１１、距離推定部１２、しきい値設定部１３、収音部１５、音源方向検出部１６、発話判定部１７、映像抽出部１８、利得制御部１９、映像／音声合成部２０、通信制御部２１、および表示再生部２２の機能を実現する。

顔検出部１１は、撮像部１０によって得られた映像上の人を検出する人検出部の一例であって、撮像部１０によって得られた映像から顔を検出する。顔検出処理としては、一般的に用いられている手法が利用可能である。例えば、目や鼻や口といった顔の特徴的な濃淡の輝度差を検出するＨａａｒ−ｌｉｋｅ特徴量を計算し、Ａｄａｂｏｏｓｔによる識別器で処理することで撮影映像上に顔を検出する方法がよく知られている。例えば、顔検出部１１は、映像から人の顔を検出し、検出された顔の位置と大きさ（サイズ）を距離推定部１２へ渡す。

距離推定部１２は、顔検出部１１により検出された顔までの距離を推定する。例えば、距離推定部１２は、顔検出部１１により検出された顔の位置と大きさに基づいて、検出された人（顔）との距離を推定する。例えば、距離推定部１２は、顔検出部１１により検出された顔の位置と顔の大きさを用いて、撮像部１０の光軸中心から、検出された顔までの距離を推定する。

しきい値設定部１３は、発話判定部１７が発話を検出する際の判定に用いる音量レベルのしきい値（以下、「音声しきい値レベル」ともいう）を、撮像部１０の光学系の光軸を中心とした方位毎に設定する。例えば、しきい値設定部１３は、顔検出部１１により検出された顔の方位に対して、距離推定部１２によって推定された距離に応じた音声しきい値レベルを設定する。具体的には、しきい値設定部１３は、撮像部１０のレンズ（光学系）の光軸を中心とした方位角に対して、距離推定部１２によって推定された距離に応じた、音声しきい値レベルを設定し、方位角に対する音声しきい値レベルの関係を記憶部１４に保存する。なお、以降では人や音源の方向に関して、撮像部１０のレンズの光軸に対する方位角のことを単に「方位」と呼ぶことがある。

なお、しきい値設定部１３は、撮像部１０の光学系の光軸を中心とした方位と距離推定部１２で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部を備えた構成としてもよい。この場合、しきい値設定部１３は、距離パターン選択部により選択された距離パターンに基づいて、顔検出部１１が顔（人）を検出しなかった方位に対して、音声しきい値レベルを設定する。

音源方向検出部１６は、収音部１５から得られた音声情報に基づいて、音源の方向を検出する。例えば、音源方向検出部１６は、複数の収音部１５（例えば、無指向性マイク）から得られた音声信号を解析して、撮像部１０の光軸に対する音源の到来方向を推定する。

発話判定部１７は、音源方向検出部１６によって検出された音源の方向と、収音部１５から得られた音声情報とを元に発話を検出する。例えば、発話判定部１７は、しきい値設定部１３により設定された方位ごとの音声しきい値レベルと、収音部１５から得られた音声情報（音声信号の音量レベル）とを比較することにより、参加者の発話（発言）の有無を判定する。例えば、発話判定部１７は、収音部１５から得られた音声信号の音量レベルの平均（以下、「平均音量レベル」ともいう）が、音量しきい値レベルを超えた場合には発話ありと判定し、超えなかった場合には発話なしと判定する。

なお、前述したように、音声しきい値レベルは、距離推定部１２によって推定された距離、すなわち撮像部１０の光軸中心から人（顔）までの距離に応じて設定された値である。従って、発話判定部１７は、顔検出部１１によって検出された人の位置と、収音部１５から得られた音声情報とに基づいて発話を検出する。

映像抽出部１８は、撮像部１０が取得した映像から、発話者の方向の映像を切り出す。例えば、映像抽出部１８は、発話判定部１７が発話ありと判定した発話者の方位を切り出しの中心となる方位とし、発話者の方位の音量しきい値レベルに対応する顔のサイズを切り出しサイズとして、発話者の方向の映像を切り出す。また、映像抽出部１８は、切り出した映像を所定の解像度の出力用の映像サイズへリサイズする。

利得制御部１９は、発話が検出された方向の音声が適切な音量レベルになるように利得調整を行う。

映像／音声合成部２０は、映像抽出部１８が切り出してリサイズした映像と、利得制御部１９が利得調整を行った音声とを合成し、テレビ会議の相手先へ送信するためのデータストリームを生成する。また、映像／音声合成部２０は、テレビ会議の相手先から送られてきた映像と音声に、映像抽出部１８が切り出した話者の映像を合成して、表示用の映像と音声を生成する。

通信制御部２１は、インターネット回線や携帯回線網などの通信網２を用いて、ステップＳ３０８で生成したデータストリームを相手先の情報処理装置１Ｂへ送信する。また、通信制御部２１は、相手先の情報処理装置１Ｂから同様に送信されるデータストリームを受信し、受信したデータストリームを映像／音声合成部２０へ渡す。

表示再生部２２は、映像／音声合成部２０が生成した表示用の映像を表示装置３Ａ（図１参照）へ出力するとともに、音声をスピーカー４Ａ（図１参照）へ出力する。

映像バス２３は、撮像部１０が取得した映像（映像信号）を、顔検出部１１および映像抽出部１８などに送る。音声バス２４は、収音部１５が取得した音声（音声信号）を、発話判定部１７および利得制御部１９などに送る。

（処理の動作）
次に、本実施形態に係るテレビ会議システムにおいて情報処理装置１Ａが実行する処理の動作について説明する。図５は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。情報処理装置１Ａは、起動時に一度だけ初期設定処理を実行する（ステップＳ１）。その後、情報処理装置１Ａは、終了指示の有無を判定し（ステップＳ２）、終了指示がない限り（ステップＳ２：ＮＯ）、通常動作処理を繰り返し実行する（ステップＳ３）。そして、情報処理装置１Ａは、終了指示があった場合（ステップＳ２：ＹＥＳ）、処理を終了する。以下、初期設定処理（ステップＳ１）と通常動作処理（ステップＳ３）とについて詳しく説明する。

（初期値設定処理）
図６を参照して、初期設定処理（図５のステップＳ１）の動作について詳しく説明する。図６は、本実施形態に係る初期設定処理の手順の一例を示すフローチャートである。
まず、撮像部１０は、撮像部１０の周囲を撮影し、撮影した映像を取得する（ステップＳ１０１）。次に、顔検出部１１は、撮像部１０が撮影した映像から人の顔を検出し、顔が検出された場合（ステップＳ１０５：ＹＥＳ）、検出された顔の位置と大きさ（サイズ）を距離推定部１２へ渡す。また、顔検出部１１は、顔が検出されなかった場合には（ステップＳ１０５：ＮＯ）、再びステップＳ１０１へ処理を戻し、次の映像を取得する。

距離推定部１２は、顔検出部１１で得られた顔の位置と顔のサイズを用いて、撮像部１０の光軸中心から検出された顔までの距離を推定する（ステップＳ１１０）。なお、以降では撮像部１０の光軸中心から各人物の顔までの距離のことを単に「距離」と呼ぶことがある。

ここで、撮像部１０が魚眼レンズを備えている場合には、一般的なレンズの射影方式である透視投影とは異なる射影方式となっているため、使用した魚眼レンズの射影方式と、顔が検出された位置とに基づいて、顔のサイズを補正する必要がある。広角レンズを使用した場合、得られる映像は透視投影に従うとみなせるので、被写体の大きさは距離に反比例した大きさで映る。そのため、実測あるいはレンズの焦点距離であるｆ値やイメージセンサのイメージャーサイズ等のカメラの内部パラメータを用いて、検出された顔の元の大きさを推定することができる。顔のサイズの個人差を無視し、標準的なサイズの顔を持つ人物がレンズに対して正対して映っていると仮定すれば、映像上の顔のサイズと、顔までの距離とは反比例の関係となるため、映像上の顔のサイズから、顔までの距離を一意に求めることができる。

なお、顔のサイズとしては、より詳細には例えば両目の間の長さや、両目をつないだ直線と口の中心までの長さを利用することができる。一般的に、顔検出において、目や口は、顔の輪郭に比べてその位置を正しく検出しやすいため、顔の横幅や縦幅を用いるよりも正しく顔のサイズを検出できる可能性が高くなる。一方、魚眼レンズを用いた場合は、透視投影とは異なる射影方式に従うため、利用した魚眼レンズの射影方式およびレンズパラメータを考慮した上で、顔までの距離を求める必要がある。通常のレンズは平面を透視投影面へ投影するのに対して、魚眼レンズでは仮想球面へ投影された周囲映像を魚眼投影面へ投影し直したものとしてモデル化できる。また、魚眼レンズの射影方式には、等距離射影や立体射影と呼ばれるようないくつかの種類が存在する。

図７は、本実施形態に係る魚眼モデルと透視投影モデルの関係を説明する説明図である。例えば、図１９（ａ）に示すような正射影であればレンズの光軸中心からの角度である天頂角β［ｒａｄｉａｎ］と像高ｒと焦点距離ｆとの間には、以下の「式１」で表される関係があるので、魚眼映像上の座標から求められる像高ｒから、天頂角βを求めることができる。
ｒ（β）＝ｆ×ｓｉｎβ・・・「式１」

さらに図１９（ｂ）に示すように、レンズの光軸と並行で人物の方向で球面と接する平面へと再度投影を行うことで、透視投影像が得られる。透視投影では、像高ｙと焦点距離ｇと天頂角α［ｒａｄｉａｎ］とには、以下の「式２」で表される関係がある。
ｙ（α）＝ｇ×ｔａｎα・・・「式２」

ここでα＝π／２−βとなるので、魚眼映像上の座標から透視投影での垂直座標が求められる。水平座標についても同様に求めることができるため、魚眼映像上の座標から透視投影像での顔の部位の座標が得られることになる。透視投影像からは容易に顔のサイズが求められるので、先と同様に顔のサイズを標準的なサイズであると仮定することで、顔までの距離を求めることができる。また、あらかじめ魚眼映像を透視投影へ変換した映像を作り、変換した透視投影映像に対して顔検出が行われてもよい。

図６に戻り、しきい値設定部１３は、距離推定部１２で検出された全ての顔に対する、撮像部１０の光軸に対する方位と推定された距離をグラフ化し、顔検出された点を補間して曲線のグラフを生成する。これにより、図７（ｂ）のように顔検出部１１で検出されなかった方位を含む３６０度に対して距離の推定値が与えられる（ステップＳ１１１）。

なお、しきい値設定部１３は、距離パターン選択部を含んでいてもよい。距離パターン選択部には、方位に対する距離の関係を表す距離パターンがあらかじめ複数設定されており、距離推定部１２が推定した方位と距離との関係を、距離パターンと比較して一致度を判定し、最も合致する距離パターンを選択する。例えば、顔検出により得られた方位と距離を表す点群に対して、プリセットされた曲線パターンで表される距離パターンと距離方向の絶対誤差を求め、絶対誤差の平均値が最も小さい距離パターンを選択することで、顔検出部１１で顔（人）が検出されなかった方位を含む３６０度に対して、方位と距離の関係を表す曲線のグラフを得る。

続いて、しきい値設定部１３は、推定した方位と距離との関係から、方位と音量しきい値レベルとの関係を求める。音量しきい値レベルとは、あらかじめ定められた一定の音量の音源が、ある距離だけマイクから離れた距離に置かれた際に得られる音量レベルを指すものとする。点音源が自由空間に置かれた場合、点音源からのエネルギーは距離の二乗で減衰することから、音量しきい値レベルもまた、点音源からの距離の二乗で減衰するとみなすことができる。したがって、距離と音量の関係は単純な反比例となるため、あらかじめ既知の音量の音源を複数の距離に置いた場合の音量レベルを調べることで、距離と音量しきい値レベルとの関係が得られる。

図８は、収音部１５（以下、「マイク」ともいう）および参加者の配置と、方位と音量しきい値レベルとの関係を示す図である。図８−１（ａ）は、図４に示すように円形の机２５の周りに参加者がおり、かつマイクが机２５の中心にある場合の位置関係を示す例である。図中の黒点が撮像部１０の位置を、×印が参加者を示しており、縦軸、横軸の数値は撮像部１０との距離を示し、１マスが１０ｃｍである。図８−１（ｂ）は、このときの方位角に対するマイクからの距離を表したグラフであり、横軸が方位（ｄｅｇｒｅｅ）、縦軸は距離であり図８−１のグラフにおける距離に対応する。参加者のすべては、撮像部１０から等距離の位置にいるため距離は一定である。

前述した通り、マイクで取得される音量レベルは距離の二乗で減衰すると考えられるが、距離が一定なので音量レベルも方位に依らず一定となるので、方位に対する音量しきい値レベルとの関係は図８−１（ｃ）示すようなグラフとなる。この場合は方位に依らずマイクからの距離は同じであるから、方位に対する音量しきい値レベルも常に同じ値となる。なお図８−１（ｃ）の縦軸は、音量レベルであるが、相対値となっており、方位ごとの距離に応じて音量レベルがどのように変化するかを表している。実際に音量しきい値レベルを設定する際には、情報処理装置１Ａで使用するマイクの感度などの諸条件に応じて適宜、定数倍して利用されることになる。

図８−２は円形の机２５の周りに参加者がいる点は図８−１と同じであるが、マイクの位置が中心から外れた位置にある場合の例である。この場合の方位に対するマイクから参加者までの距離は、図８−２（ｂ）に示すような距離となり、音量レベルは距離の二乗に反比例するので方位に対する音量しきい値レベルの関係は図８−２（ｃ）に示すようなグラフとなる。

同様に図８−３（ａ）のように楕円形の机の中心から外れた位置にマイクを置いた場合における、方位に対する距離の関係を図８−３（ｂ）に、方位に対する音量しきい値レベルの関係を図８−３（ｃ）に示す。机の形状によって変化の緩急の差はあるものの、机が円又は楕円の場合は、方位に対する距離の関係は大まかには山が一つ谷が一つの緩やかな波形となり、方位に対する音量しきい値レベルの関係もまた凹凸が反転した同様の山が一つ谷が一つの緩やかな波形となる。そのため、顔検出された点を通る波形を求めることで、方位に対する距離および音量しきい値レベルについて、ある程度の推定が可能である。

会議などに使われる机は四角形の場合もあるが、机の角の位置に参加者が座ることは少なく、実際の参加者の位置は楕円で近似できることが多い。そのため同様に顔検出された参加者の方位と距離を元に、山が一つと谷が一つの波形を求めることで、方位に対する音量しきい値レベルを求めることができる。これはつまり、顔検出がなされなかった方位に対しても、参加者がいる場合に予想される距離を推定していることになり、会議中に途中参加者が出る場合や、顔検出で検出されない人がいた場合に参加者が位置する可能性の高い距離を求められるという効果がある。また、音量しきい値レベルは距離の二乗に反比例するため、あらかじめある一つの距離における音量しきい値レベルを調べておくことにより、相対的に全ての距離について音量しきい値レベルを求めることが可能である。したがって、しきい値設定部１３は、顔検出時点で人がいなかった方位を含めた０〜３６０度の全方位に渡って、妥当である可能性の高い音量しきい値レベルを求めることができる。
そして、しきい値設定部１３は、各方位に対して距離に応じて求めた音声しきい値レベルを記憶部１４に記録する（ステップＳ１１２）。

なお、ここで設定された音量しきい値レベルは初期設定値であり、状況によって更新されることになる。また、しきい値設定部１３は、求めた方位と音量しきい値レベルとの関係を記憶部１４へ記録する（ステップＳ１１３）。これにより、初期設定処理が終了する。

なお、しきい値設定部１３が、距離パターン選択部を含む場合に用いる距離パターンの例は、図８−１（ｂ）〜図８−３（ｂ）がそれにあたる。先の説明と同様に、想定される一般的な机とカメラとの配置関係から、距離を計算することで候補となる距離パターンをあらかじめ求めておくことができる。

（通常動作処理）
次に、図９を参照して、通常動作処理（図５のステップＳ３）の動作について詳しく説明する。図９は、本実施形態に係る通常動作処理の手順の一例を示すフローチャートである。
撮像部１０は、映像を取得する。また、収音部１５は、音声を取得する（ステップＳ３０１）。前述したように、撮像部１０は視野角が１８０度近い魚眼レンズとイメージセンサから構成され、収音部１５は３つ以上の無指向性マイクから構成されている。例えば、ここで使用されるマイクは、個体差の少ないシリコンマイクである。

音源方向検出部１６は、複数の指向性マイクから得られた音声信号を解析して、撮像部１０の光軸に対する音源の到来方向を推定する（ステップＳ３０３）。音源の到来方向の推定、すなわち音源定位の方法としては、遅延時間推定法により、二つのマイクで収音した音声信号の到来時間とマイク間距離とから、三角測量原理で音声の到来方向を求めることができる。ただしマイクが二つの場合、二つのマイクを結ぶ直線を軸とした軸方向の回転に対しては区別がつかない。例えば図３のマイク１５Ａとマイク１５Ｂを用いて音源定位を行った場合、マイク１５Ａとマイク１５Ｂとを結ぶ直線に対して、撮像部１０の側から音がしているのか、撮像部１０の反対側から音がしているのか、あるいは上方から音がしているのかという区別がつかない。しかし、この音源定位を異なるマイクの組に対して行った結果を統合することで、水平３６０度に渡って音源方向を推定することが可能である。

なお、本実施形態ではマイク１５Ａ〜マイク１５Ｄが撮像部１０の光軸と略垂直な同一平面上に設置されているため、水平方向の冗長性が高く、組み合わせるマイクの対を変えることによって得られる複数の推定結果を統合することで、雑音に強い信頼性の高い結果を得ることが可能である。なお、マイクを全て撮像部１０の光軸と略垂直な同一平面上に配置するのではなく、一部のマイクを異なる位置へ移動する、あるいは新たにマイクを追加し、それぞれのマイクの組の音源定位結果を三次元的に統合することで、垂直方向について音源方向を推定することも可能である。

次に、発話判定部１７は、記憶部１４へ保存された方位ごとの音量しきい値レベルと、収音部１５から得られた音声信号の平均音量レベルとを比較することにより、参加者の発話（発言）の有無を判定する（ステップＳ３０４）。平均音量レベルが音量しきい値レベルを超えないことにより参加者の発話が無いと判定された場合（ステップＳ３０４：ＮＯ）、発話判定部１７は、ステップＳ３０１の処理に戻し、発話の有無の判定を繰り返し実行する。

一方、平均音量レベルが音量しきい値レベルを超えたことにより参加者の発話があると判定された場合（ステップＳ３０４：ＹＥＳ）、発話判定部１７は、発話者の方位を示す情報を映像抽出部１８へ送り、平均音量レベルを示す情報を利得制御部１９へ送る。

また、参加者の発話があると判定された場合、発話判定部１７は、平均音量レベルが音量しきい値レベルよりも一定値以上大きいか否かを判定する（ステップＳ３０５）。この一定値とは、音量しきい値レベルの適切さを判定するために予め設定された値であり、任意に設定することができる。

平均音量レベルが音量しきい値レベルよりも一定値以上大きいと判定された場合（ステップＳ３０５：ＹＥＳ）、発話判定部１７は、音量しきい値レベルがこの参加者に対しては適切ではなかったと判断し、その旨をしきい値設定部１３へ通知する。そして、しきい値設定部１３は、音量しきい値レベルをより大きな値へと更新する（ステップＳ３０６）。なお、更新する際の値の変化量としては、判定に用いた一定値に応じて一つの値があらかじめ設定されていてもよいし、平均音量レベルと音量しきい値レベルとの差に応じて複数の値があらかじめ設定されていてもよい。

これにより、初期設定処理で初期値として設定された音量しきい値レベルは、より適切な値へと補正される。なお、ステップＳ３０５〜Ｓ３０６の処理により音量しきい値レベルが適切に調整されることを考慮して、図６に示す初期設定処理のステップＳ１０６での音量しきい値レベルの設定の際に、しきい値設定部１３は、やや小さ目なしきい値を設定しておいてもよい。

一方、平均音量レベルが音量しきい値レベルよりも一定値以上大きくないと判定された場合（ステップＳ３０５：ＮＯ）、上記音量しきい値レベルの更新の必要が無いため、ステップＳ３０６の処理は実行されない。

次に、映像抽出部１８は、撮像部１０が取得した映像から、発話者の方向の映像を切り出す（ステップＳ３０７）。切り出しの中心となる方位は、発話判定部１７から送られた発話者の方位に基づく方位である。また、切り出しサイズは記憶部１４に記録された発話者の方位の音量しきい値レベルに対応する顔のサイズに基づくサイズである。映像抽出部１８は、切り出した映像を所定の解像度の出力映像サイズへリサイズする。これにより、顔検出された顔サイズが小さい場合には拡大率が大きくなり、顔検出された顔サイズが小さい場合には拡大率が小さくなるため、顔検出されたサイズに応じた適切な倍率で顔映像を切り出すことができる。

なお、撮像部１０が魚眼レンズを利用して撮影する場合は、撮影された映像の中心が上、撮影された映像の中心から外側へ向かう向きが下となっており、方位に応じて回転した映像となっている。そのため、映像抽出部１８は、切り出しとともに回転を行うことが望ましい。例えば、映像の中心を原点にとった二次元の極座標系で、方位角をθ、θの０度方向を映像の３時方向、およびθの正方向を反時計回りとすると、θ＝θ_ｆの方位の顔映像に必要な回転角は時計回りにθ_ｆ＋９０度となる。

なお、話者が検出されなくなった場合には、映像抽出部１８は、最後に検出された話者がいた方向の映像を切り出し続けてもよい。また、一定時間以上話者がいない状態が続いた場合には、映像抽出部１８は、参加者全員を一覧できる表示になるように切り出し範囲を切り替えたり、映像のフレーム間の差分を監視して、時間的な変化量が最も大きな方向の映像を切り出したりしてもよい。これにより、情報処理装置１Ａは、次に発言する可能性の高い人物の映像を表示できる。

利得制御部１９は、発話が検出された方向の音声が適切な音量レベルになるように利得調整を行う（ステップＳ３０８）。音量レベルの差は、マイクからの距離だけでなく、個人差も影響する。すなわち、声の大きな人や小さな人、大きな声を出した場合や小さな声を出した場合という差である。これらの差を補うために、利得制御部１９は、発話中の平均音量レベルを取得し、平均音量レベルをあらかじめ設定された適切な音量レベルになるような利得調整を行うことで、声量の個人差や、そのときの声の大きさによる音量レベルのバラつきがある場合でも、適切な音量へと補正できる。なお、利得制御部１９は、ビームフォーミングのような指向性制御技術によって、発話判定部１７で判定された発話者の方位からの音声の利得だけを高め、他の方位の利得を下げて発話者だけの音声を聞き取りやすくしてもよい。これにより、テレビ会議おいて、話者の声量の違いや話者の位置に依らず、一定の音量レベルに近い音声を相手側へ送ることができる。

次に、映像／音声合成部２０は、映像抽出部１８が切り出してリサイズした映像と、利得制御部１９が利得調整を行った音声とを合成し、テレビ会議の相手先へ送信するためのデータストリームを生成する。また、映像／音声合成部２０は、相手先の情報処理装置１Ｂから通信制御部２１が受信したデータストリームの映像と音声に、映像抽出部１８が切り出した話者の映像を合成して、表示用の映像と音声を生成する（ステップＳ３０９）。

通信制御部２１は、インターネット回線や携帯回線網などの通信網２を用いて、ステップＳ３０８で生成したデータストリームを相手先の情報処理装置１Ｂへ送信する。また、表示再生部２２は、映像／音声合成部２０が生成した表示用の映像を表示装置３Ａへ出力するとともに、音声をスピーカー４Ａへ出力する（ステップＳ３１０）。これにより、表示装置３Ａでは相手先の話者の映像と音声、ならびに情報処理装置１Ａが置かれた側の話者の映像としてどのような映像が送られているかを確認することができる。

以上説明したように、本実施形態に係る情報処理装置１Ａは、周囲の映像を取得する撮像部１０と、撮像部１０の光軸に略垂直な平面に配置され音声を取得する、少なくとも３つ以上の収音部１５とを備えている。また、情報処理装置１Ａは、さらに音源方向検出部１６と、発話判定部１７と、しきい値設定部１３とを備えている。音源方向検出部１６は、収音部１５から得られた音声情報を元に音源の方向を検出する。発話判定部１７は、音源方向検出部１６によって検出された音源の方向と、収音部１５から得られた音声情報とを元に発話を検出する。そして、しきい値設定部１３は、発話判定部１７で発話を検出する際の判定に用いる音量レベルのしきい値を、撮像部１０の光学系の光軸を中心とした方位毎に設定する。

また、情報処理装置１Ａは、顔検出部１１（人検出部の一例）と、距離推定部１２とをさらに備えてもよい。顔検出部１１は、撮像部１０によって得られた映像上の顔（人の検出部分の一例）を検出する。距離推定部１２は、顔検出部１１により検出された顔（人）までの距離を推定する。そして、しきい値設定部１３は、検出された人の方位に対して、検出された人までの距離に応じたしきい値を設定する。

また、しきい値設定部１３は、撮像部１０の光学系の光軸を中心とした方位と距離推定部１２で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備えてもよい。この場合、しきい値設定部１３は、この距離パターン選択部により選択された距離パターンに基づいて、顔検出部１１が顔（人）を検出しなかった方位に対して、音量レベルのしきい値を設定する。

これにより、本実施形態に係る情報処理装置１Ａは、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出することができる。例えば、情報処理装置１Ａは、事前学習が不要で、距離の異なる参加者に対しても発話を正しく検出することができ、発話が検知された方向からの音声が適切な音量になるように利得制御を行って、テレビ会議の相手先へ送信することが可能となる。具体的には、情報処理装置１Ａは、例えば顔検出された顔の大きさから推定した、方位ごとの参加者までの距離に応じて発話の有無を判定するしきい値を設定するため、参加者からマイク（収音部１５）までの距離が離れていてマイクで収音される音量レベルが低い場合でも正しく発話を検出することができる。また、情報処理装置１Ａは、顔検出されなかった方位に対しても顔検出された方位と顔のサイズに応じた音量しきい値レベルを設定するため、テレビ会議の途中から参加した参加者や、マスクをしているなどの理由で顔検出に失敗する参加者がいた場合でも適切に発話を検出することができる。また、情報処理装置１Ａは、発話者の平均音量レベルが発話者の方向の音量しきい値レベルを大きく超えている場合には、音量しきい値レベルを平均音量レベルに応じた値へ更新するため、検出された顔のサイズから推定された音量しきい値レベルが最適な値でない場合でもより適した値に更新することができ、発話の検出が失敗しにくくなる。また、情報処理装置１Ａは、顔検出された顔の大きさに応じて話者映像の切り出しサイズを設定するため、参加者が情報処理装置１Ａからの距離に依らず適切な大きさで表示される映像をテレビ会議の相手先へ送信することができる。

また、撮像部１０の光軸中心からの距離が略同一で、かつ等間隔な位置にマイクが最低３つ配置されるため、撮影映像から特定の方位の人までの距離を求めることができ、マイク間距離を狭くしても距離の推定精度が低下することがないため、装置のサイズを小さく抑えることができる。

なお、本実施形態では図３に示すように収音部１５のマイクが４つある例を示したが、マイクの数は４つに限定されるものではない。図１０は、マイクが３つ以外の例を示す図である。例えば、図１０に示すように、情報処理装置１Ａが収音部１５のマイクの数は、３つ（図１０（ａ）のマイク（１５Ａ〜１５Ｂ））、あるいは６つ（図１０（ｂ）のマイク（１５Ａ〜１５Ｆ））などのように、任意の数とすることができる。

また、情報処理装置１Ａの形状についても、円形でも他の形状であっても良く、本実施形態で示した形状の例に限定されるものではない。

また、本実施形態では射影方式が正射影の魚眼レンズの場合を説明したが、等距離射影や立体射影あるいは等立体角射影といった異なる射影方式の魚眼レンズを用いてもよく、その場合は魚眼レンズに応じた射影方式を代わりに利用することで、本発明を適用可能である。

また、本実施形態では、顔の大きさとして、両目の間の長さや、両目をつないだ直線と口の中心までの長さを用いたが、顔検出によって得られる顔の特徴的な部位である特徴点のうち、上記以外の組み合わせにおける特徴点間の距離、あるいは複数の特徴点からなる領域の面積を用いて顔の大きさを求めてもよい。

また、顔検出および音源定位で求められる方向を、撮像部１０の光軸に対する方位としたが、収音部１５を構成する複数のマイクの中心や、情報処理装置１Ａの中心を基準として方位を求めてもよい。しかしながら撮像部１０の光軸と、収音部１５の構成するマイクの中心と、情報処理装置１Ａの中心はすべて揃っていることが望ましい。なぜなら、撮像部１０の光軸と、収音部１５の構成するマイクの中心が一致していれば、映像系の方位と音声系の方位の整合性が取りやすくなり、また、収音部１５の構成するマイクの中心と、情報処理装置１Ａの中心が一致していれば、対称性により、個々のマイクの指向性に違いが生じにくく、したがって方向による音源定位の分解能や精度に差が出にくいためである。

［第二の実施形態］
次に、本発明の第二の実施形態について説明する。なお、本実施形態においては、第一の実施形態と同様の構成部分については同一の符号を付し、その説明を省略する。まず図１１を参照して、本実施形態における情報処理装置１Ａの構成について説明する。

図１１は、本実施形態における情報処理装置１Ａの概略構成の一例を示す内部ブロック図である。第一の実施形態との違いは、特徴抽出部２７および特徴比較部２８が追加された点である。特徴抽出部２７は、撮像部１０が取得した映像を映像バス２３を介して取得し、取得した映像から特徴量を抽出する。また、特徴抽出部２７は、抽出した特徴量を特徴比較部２８に渡すとともに記憶部１４に記録する。

特徴比較部２８は、特徴抽出部２７が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの情報処理装置１Ａの設置環境の変更有無を検知する。また、特徴比較部２８は、情報処理装置１Ａの設置環境の変更有無についての検知結果を顔検出部１１に渡す。そして、しきい値設定部１３は、特徴比較部２８が、前回から設置環境に変更が無いと検知した場合には、前回推定された距離に基づいて音量しきい値レベルを設定する。

図１２は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。本実施形態に係る処理の全体フローは、図５に示す第一の実施形態の全体フローとほぼ同様であるが、ステップＳ１’の初期設定処理の内容の一部が図５のステップＳ１の初期設定処理と異なる。以下、図１３を参照して、本実施形態に係る初期設定処理の動作について詳しく説明する。

図１３は、本実施形態に係る初期設定処理（図１２のステップＳ１’）の一例を示すフローチャートである。本実施形態に係る初期設定処理は、図６に示す第一の実施形態の初期設定処理に対して、ステップＳ１０２およびステップＳ１０３の処理が追加されている点が異なる。

特徴抽出部２７は、撮像部１０によって撮像された映像に対して、時間的な変化の少ない領域のエッジ情報を、映像の特徴量として抽出する（ステップＳ１０２）。時間的な変化が少ないかどうかは、次のように判断される。例えば、映像中の各画素値のフレーム間の差分を取り、差分があらかじめ設定された値よりも大きい画素の数を集計し、この画素の合計値が所定の値より少ない場合には時間的な変化が少ない領域と判断される。エッジ情報の抽出には、平滑化フィルタと一次微分フィルタを用いることができ、キャニー法などの一般的な手法を利用できる。

図１４は、本実施形態に係る実施形態に係る設置環境と撮影像、エッジ検出結果の例をであって、時間的な変化の少ない領域のエッジ抽出の一例を説明する説明図である。ここでは、撮像部１０の光学系に円周魚眼のレンズを用いた例であり、イメージサークル全体が撮像部１０が撮影する映像に含まれている。図１４の１（ａ）は、前回（過去のある時点）の情報処理装置１Ａの設置環境を示しており、情報処理装置１Ａが設置された円形の机２５の周囲に３人の参加者（２６Ａ、２６Ｂ、２６Ｃ）がいることを示している。一方、図１４の２（ａ）は、今回（図１（ａ）に示す前回の時点より後のある時点）の情報処理装置１Ａの設置環境を示しており、情報処理装置１Ａが設置された円形の机２５の周囲の参加者が２人（２６Ａ、２６Ｂ）になっていることを示している。

図１４の１（ｂ）は、図１４の１（ａ）に示す前回の設置環境で撮像部１０により撮影された映像を示している。この図１４の１（ｂ）において、円形の映像領域のうち円周に沿った符号２５が示す部分は円形の机２５の端の部分であり、魚眼レンズが１８０度以上の画角を持ち、真横よりさらに広い範囲を撮影できるために映り込んでいる。また、この映像には、３人の参加者（２６Ａ、２６Ｂ、２６Ｃ）が撮影されている。

図１４−１（ｃ）は、図１４の１（ｂ）に示す映像から抽出されたエッジ情報を示している。この図１４−１（ｃ）では、時間的な変化のあった参加者２６Ａ〜２６Ｃのいる領域を除いた時間的な変化の少ない領域（ハッチングで表した領域）が特徴比較の対象となる特徴比較領域３１であり、この特徴比較領域３１内における机２５のエッジ部分（３１Ａ、３１Ｂ、３１Ｃ）だけがエッジ情報として抽出されている。また、図１４−２（ｃ）は、図１４の２（ｂ）に示す映像から抽出されたエッジ情報を示している。この図１４−２（ｃ）では、図１４−１（ｃ）と同様に机２５のエッジ部分だけが抽出されているが、参加者の人数と配置が異なっているため、抽出されるエッジの部分が異なっている。この図１４−２（ｃ）では、時間的な変化のあった参加者２６Ａ、２６Ｂのいる領域を除いた時間的な変化の少ない領域（ハッチングで表した領域）が特徴比較領域３２であり、この特徴比較領域３２内における机２５のエッジ部分（３２Ａ、３２Ｂ）だけがエッジ情報として抽出されている。

図１３に戻り、特徴比較部２８は、今回の映像から特徴抽出部２７が抽出したエッジ情報を、記憶部１４に保存された前回終了時のエッジ情報と比較する（ステップＳ１０３）。例えば、特徴比較部２８は、エッジ情報の差分として、特徴抽出部２７により今回の映像で時間的な変化が少ないと判定された特徴比較領域と、前回終了時の映像で時間的な変化が少ないと判定された特徴比較領域との共通領域に対して、座標ごとにエッジ情報の有無が一致するか否かを判定する。そして、特徴比較部２８は、一致していれば０、不一致であれば１の値を累積し、累積した値を共通領域のピクセル数で割った値を特徴量として用いて、特徴が一致するか否かを判定する。つまり、比較判定を行った全共通領域のエッジ情報が一致する場合には特徴量が１、全てのエッジ情報が一致しない場合には特徴量が０となる。例えば、全領域の７０％が一致する場合に特徴が一致すると判定するのであれば、特徴比較部２８は、特徴量が０．７以上であれば一致、０．７未満であれば不一致と判定する。
このようにすることで、部屋の机や天井など、不動な特徴物のエッジ情報を比較することになり、前回と同一の部屋の同じ位置に情報処理装置１Ａが設置されていた場合は、エッジ情報の差分は極めて小さくなり、前回と同じ設置環境で会議が行われているものと判断できる。

ステップＳ１０３において、前回の設置環境と異なると判断された場合（ステップＳ１０３：ＮＯ）、情報処理装置１Ａは、第一の実施形態と同様に、ステップＳ１０５、Ｓ１１０〜Ｓ１１３の処理により、方位ごとの音量しきい値レベルの初期値を設定する。さらに情報処理装置１Ａは、記憶部１４へ方位ごとの音量しきい値レベルの初期値を記録するのに加えて、今回の特徴、すなわちエッジ情報と動きの少ない領域の情報を記録し、次回の起動時に参照できるようにする（ステップＳ１１３）。

一方、ステップＳ１０３において、特徴比較部２８がエッジ情報が前回終了時と一致すると判断した場合（ステップＳ１０３：ＹＥＳ）、情報処理装置１Ａは、記憶部１４に記録されている前回終了時のしきい値情報を更新せずに初期設定フローを終了する。この場合、記憶部１４は前回終了時の設定を保持した状態から内容が更新されていないため、前回使用時の方位ごとの音量しきい値レベルが、今回の音量しきい値レベルの初期値として利用される。

図１５は、前回終了時と今回のエッジ情報の比較を説明する説明図である。図１５−１（ｃ）は、図１４−１（ｃ）の特徴比較領域３１を示している。また、図１５−２（ｃ）は、図１４−２（ｃ）の特徴比較領域３２を示している。図１５−１（ｄ）は、図１５−１（ｃ）の特徴比較領域３１と図１５−２（ｃ）の特徴比較領域３２との共通領域３３と、共通領域３３内における前回終了時のエッジ情報（机２５のエッジ部分（３３Ａ、３３Ｂ、３３Ｃ、３３Ｄ））とを示している。また、図１５−２（ｄ）は、図１５−２（ｃ）の特徴比較領域３２と図１５−１（ｃ）の特徴比較領域３１との共通領域３４（共通領域３３と同等の領域）と、共通領域３４内における今回のエッジ情報（机２５のエッジ部分（３４Ａ、３４Ｂ、３４Ｃ、３４Ｄ））とを示している。図１５−１（ｄ）と図１５−２（ｄ）とを比較するとほぼ同じようにエッジが抽出されていることから、この場合は前回の設置環境と今回の設置環境とが同じ条件であると判定され、ステップＳ１’の初期設定処理において、ステップＳ１０５、Ｓ１１０〜Ｓ１１３はスキップされ、前回終了時の音量しきい値レベルが初期値として使われる。

以上説明したように、本実施形態に係る情報処理装置１Ａは、初期設定処理（ステップＳ１’）において時間変化の少ない領域のエッジ情報を、記憶部１４に保存されている前回終了時のエッジ情報と比較することによって、前回の設置環境と同じであるかを判定し、前回と同じ設置環境であると判定した場合は、前回終了時の音量しきい値レベルを利用することとした。これにより、情報処理装置１Ａは、顔検出される参加者が少なく、正しい方位としきい値音量レベルとの関係を正確に推定するのが難しいような場合であっても、前回のテレビ会議で利用したより精度の高い音量しきい値レベルを初期値として設定できる。

なお、ここでは映像周辺の時間的変化の少ない領域を使用したが、映像の中央付近にエッジ情報がある時は、中央部を優先して使用するようにしても良い。本実施形態のように、机上に鉛直上向きに超広角カメラを設置する場合、中央付近に動体が映る可能性は少なく、安定して判定する事が可能となる。また、エッジ情報だけでなく色情報等を合わせて使用して、精度を向上させても良い。

［第三の実施形態］
次に、本発明の第三の実施形態について説明する。なお、第三の実施形態においては、第一および第二の実施形態と同様の構成部分については同一の符号を付し、その説明を省略する。まず図１６を参照して、本実施形態における情報処理装置１Ａの構成について説明する。

図１６は、本実施形態に係る情報処理装置１Ａの概略構成の一例を示す内部ブロック図である。本実施形態に係る情報処理装置１Ａは、第一の実施形態の情報処理装置１Ａに対して、マスク設定部２９と、映像差分算出部３０と、再顔検出判断部３７とが追加された点が異なる。

図１７は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。本実施形態に係る処理の全体フローは、図５に示す第一の実施形態の全体フローに対して、ステップＳ１”の初期設定処理の内容の一部と、ステップＳ３”の通常動作処理の内容の一部とが、図５のステップＳ１の初期設定処理と、ステップＳ３との通常動作処理の内容とそれぞれ異なる。また、本実施形態に係る処理の全体フローは、ステップＳ４の処理が追加されている点が、図５に示す第一の実施形態の全体フローと異なる。

まず図１８を参照して、本実施形態に係る初期設定処理（図１７のステップＳ１”）の動作について詳しく説明する。図１８は、本実施形態に係る初期設定処理の一例を示すフローチャートである。本実施形態に係る初期設定処理は、図６に示す第一の実施形態の初期設定処理に対して、顔検出を行うステップＳ１０３処理の後に、顔領域マスクを設定するステップＳ１０６の処理が追加されている点が異なる。

マスク設定部２９は、顔検出部１１により検出された顔がある方位に対しては「１」、顔が検出されなかった方位に対しては「０」となるマスク（以下、「顔領域マスク」とも称する）を設定する（ステップＳ１０６）。そして、しきい値設定部１３は、記憶部１４へ音量しきい値レベルを設定するステップＳ１１３の処理において、ステップＳ１０６で設定した顔領域マスクの設定も記憶部１４へ記録する。

図１９は、顔領域マスクの具体例を示す図である。図１９（ａ）は、図１４−１（ａ）に示す設置環境での撮影映像の例である。ここで３人の参加者の顔が検出されたとすると、参加者が位置する可能性がある領域は、図１９（ｂ）の符号３６Ａ、３６Ｂ、３６Ｃの領域のように与えられる。この参加者が位置する可能性がある領域が、図１９（ａ）の参加者の映像領域より大きくなっているのは、人は自然にしていてもある程度の動きが生じるためである。そして図１９（ｂ）の中心（符号Ｐ）を原点とする二次元の極座標表示を行った際の方位角に対して、符号３６Ａ、３６Ｂ、３６Ｃの領域と重なる場合には顔が存在する可能性のある方位であるので「１」となり、符号３６Ａ、３６Ｂ、３６Ｃの領域と重ならない方位の場合には「０」となるため、最終的な方位に対する顔領域マスクの値を表したグラフは図１９（ｃ）に示すようになる。図１９（ｃ）において、水平軸は方位角（単位は度）であり、垂直軸は顔領域マスクの値（「１」または「０」）である。

次に、図２０を参照して、通常動作処理（図１７のステップＳ３”）の動作について詳しく説明する。図２０は、本実施形態に係る通常動作処理の一例を示すフローチャートである。本実施形態に係る通常動作処理は、図９に示す第一の実施形態の通常動作処理に対して、ステップＳ３０１の後にステップＳ３０２が追加されている点と、ステップＳ３０４の後にＳ３１２〜Ｓ３１４の処理が追加されている点とが異なる。

ステップＳ３０２において、映像差分算出部３０は、前フレームの映像とのフレーム間の映像の差分を求めて、フレーム間の映像の差分（時間的な変化）があらかじめ設定された値よりも大きな領域の方位を検出する。なお、映像差分算出部３０は、フレーム間の映像の差分（時間的な変化）があらかじめ設定された値よりも大きな領域の方位がない場合には、当該方位がないことを検出結果とする。映像差分算出部３０は、検出結果を記憶部１４に記録する。

また、ステップＳ３０４において、参加者の発話があると判定された場合（ステップＳ３０４：ＹＥＳ）、再顔検出判断部３７は、発話があると判定された方位の顔領域マスクの値を参照し、顔領域内であるか否かを判定する（ステップＳ３１２）。再顔検出判断部３７は、顔領域マスクの値が「１」であれば顔領域内であると判定し（ステップＳ３１２：ＹＥＳ）、発話の有無の判定結果をそのまま用いることとして、ステップＳ３０５の処理に進む。これにより初期設定処理において顔が検出されなかったが音量しきい値レベルを超えるような大きな音がする方向、すなわち何かしらの雑音源がある可能性がある方向からの音声を誤って発話であると誤検出することを防ぐことができる。

ただし、たまたま顔が撮像部１０の方向を向いていないことがありうる。また、途中から参加したために初期設定処理のときには顔が検出されなかったが現在は参加者が存在するという方位がありうる。そのため、再顔検出判断部３７は、顔領域マスクの値が「０」であって顔領域内ではないと判定した場合（ステップＳ３１２：ＮＯ）、発話があると判定された方位が、ステップＳ３０２で検出された時間的な変化が大きな方位の中に含まれているか否かを判定する（ステップＳ３１３）。すなわち、ステップＳ３１３において、再顔検出判断部３７は、定位方向（発話があると判定された方位）のフレーム間の映像の差分（時間的な変化）が、あらかじめ設定された値（しきい値）よりも大きいか否かを判定する。

定位方向（発話があると判定された方位）のフレーム間の映像の差分（時間的な変化）が、あらかじめ設定された値（しきい値）以下であると判定された場合（ステップＳ３１３：ＮＯ）、再顔検出判断部３７は、ステップＳ３０４で発話があると判定された方位に話者が存在する可能性がないと判定し、ステップＳ３０１に処理を戻す。

一方、定位方向（発話があると判定された方位）のフレーム間の映像の差分（時間的な変化）が、あらかじめ設定された値（しきい値）よりも大きいと判定された場合（ステップＳ３１３：ＹＥＳ）、再顔検出判断部３７は、その方位に話者が存在する可能性があるため、顔検出を再度行うフラグを立て（再検出フラグオン）、通常動作処理を終了する（ステップＳ３１４）。

なお、図１７のステップＳ４では、情報処理装置１Ａは、上述の再検出フラグを参照して、顔の再検出が必要か否かを判定する。再検出フラグオフの場合には（ステップＳ４：ＮＯ）、情報処理装置１Ａは、ステップＳ２に処理を戻し、終了指示がない限り（ステップＳ２：ＮＯ）、通常動作処理を繰り返し実行する（ステップＳ３”）。一方、再検出フラグオンの場合には（ステップＳ４：ＹＥＳ）、情報処理装置１Ａは、ステップＳ１”の初期設定処理を再度実行する。これにより、情報処理装置１Ａは、初回の初期設定フロー時では検出されなかった方位の参加者を発話者として検出できるようになる。また、情報処理装置１Ａは、テレビ会議の途中で退出するなどして参加者がいなくなった方向を発話者検出の対象から除外することができ、誤検出の可能性を抑えることができる。

以上説明したように、本実施形態に係る情報処理装置１Ａは、初期設定処理によって顔検出された方位であるか否かを表す顔領域マスクを参照することにより、雑音源があるために顔検出されないが大きな音がしているという状況下で、誤った発話検出と映像切り出し条件の変更が行われることを防ぐことができる。また、情報処理装置１Ａは、映像のフレーム間の差分を監視して、必要に応じて初期設定処理を再度実行するようにしたため、参加者が途中で増減した場合や、初回の顔検出では顔検出に失敗した場合であっても、再度の顔検出によって現在の参加者の位置を正しく再認識し、誤った発話検出と映像切り出し条件の変更が行われることを防ぐことができる。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。例えば、上述の第１〜第３の実施形態において説明した各構成は、任意に組み合わせることができる。また第３の実施形態において、図１９（ｂ）の顔領域の二次元座標を、方位という一次元座標に落とし込んだ上でマスク値を設定したが、二次元座標のままマスク値を設定してもよい。

なお、上述した実施形態における情報処理装置１Ａの少なくとも一部の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報処理装置１Ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

また、上述した実施形態における情報処理装置１Ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。また、情報処理装置１Ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１Ａ情報処理装置
１Ｂ情報処理装置
２通信網
３Ａ表示装置
３Ｂ表示装置
４Ａスピーカー
４Ｂスピーカー
１０撮像部
１１顔検出部
１２距離推定部
１３しきい値設定部
１４記憶部
１５収音部
１５Ａマイク
１５Ｂマイク
１５Ｃマイク
１５Ｄマイク
１６音源方向検出部
１７発話判定部
１８映像抽出部
１９利得制御部
２０映像／音声合成部
２１通信制御部
２２表示再生部
２３映像バス
２４音声バス
２５机
２６Ａ参加者
２６Ｂ参加者
２６Ｃ参加者
２６Ｄ参加者
２７特徴抽出部
２８特徴比較部
２９マスク設定部
３０映像差分算出部
３７再顔検出判断部

Claims

周囲の映像を取得する撮像部と、
前記撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも３つ以上の収音部と、
前記収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、
前記音源方向検出部によって検出された音源の方向と、前記収音部から得られた音声情報とを元に発話を検出する発話判定部と、
前記発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、
を備える情報処理装置。
前記情報処理装置は、
前記撮像部によって得られた映像上の人を検出する人検出部と、
前記人検出部により検出された人までの距離を推定する距離推定部と、
をさらに備え、
前記しきい値設定部は、
前記検出された人の方位に対して、前記検出された人までの距離に応じたしきい値を設定する、
請求項１に記載の情報処理装置。
前記しきい値設定部は、
前記撮像部の光学系の光軸を中心とした方位と前記距離推定部で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備え、
前記距離パターン選択部により選択された距離パターンに基づいて、前記人検出部が人を検出しなかった方位に対して、前記音量レベルのしきい値を設定する、
請求項２に記載の情報処理装置。
映像から特徴量を抽出する特徴抽出部と、
前記特徴抽出部が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの前記情報処理装置の設置環境の変更有無を検知する特徴比較部と、
をさらに備え、
前記しきい値設定部は、
前記特徴比較部が、前回から前記設置環境に変更が無いと検知した場合には、前回推定された距離に基づいてしきい値を設定する、
請求項１から請求項３のいずれか一項に記載の情報処理装置。
周囲の映像を撮像部により取得する撮像手順と、
前記撮像部の光軸に略垂直な平面に配置された少なくとも３つ以上の収音部により音声情報を取得する収音手順と、
前記収音手順から得られた音声情報を元に音源の方向を検出する音源方向検出手順と、
前記音源方向検出手順によって検出された音源の方向と、前記収音手順によって得られた音声情報とを元に発話を検出する発話判定手順と、
前記発話判定手順で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定手順と、
を有する情報処理方法。