JP2017108240A - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
JP2017108240A
JP2017108240A JP2015239366A JP2015239366A JP2017108240A JP 2017108240 A JP2017108240 A JP 2017108240A JP 2015239366 A JP2015239366 A JP 2015239366A JP 2015239366 A JP2015239366 A JP 2015239366A JP 2017108240 A JP2017108240 A JP 2017108240A
Authority
JP
Japan
Prior art keywords
unit
distance
information processing
video
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015239366A
Other languages
English (en)
Inventor
巧 今井
Ko Imai
巧 今井
保孝 若林
Yasutaka Wakabayashi
保孝 若林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015239366A priority Critical patent/JP2017108240A/ja
Publication of JP2017108240A publication Critical patent/JP2017108240A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出すること。【解決手段】情報処理装置は、周囲の映像を取得する撮像部と、撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも3つ以上の収音部と、収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、音源方向検出部によって検出された音源の方向と、収音部から得られた音声情報とを元に発話を検出する発話判定部と、発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、を備える。【選択図】図2

Description

本発明は、情報処理装置、及び情報処理方法に関する。
近年、遠隔地と会話をするために音声に加えて映像を送信することができるテレビ会議システムが広く利用されている。例えば、テレビ会議では、狭角のレンズとステレオマイクからなるカメラマイク装置が利用されているが、狭角レンズゆえに、参加者が複数名の場合に一部の参加者が画面から見切れる、あるいは全体を映すためにカメラを引いたために画面上の参加者が小さくなる、といったことが起こる。そのため、このようなテレビ会議において、相手先では、こちらの参加者の様子が分かりにくいという問題があった。そこで、こちらで現在話をしている人が誰であるかを、相手先で容易に認識できるようにしたいという要求がある。また、現在話をしている人の音声だけを聞き取りやすくした音声を、相手先へ送りたいという要求がある。
これら要求に対し、特許文献1には、魚眼あるいは超広角レンズを用いて参加者全員を含む広い範囲を常に撮像し、マイクアレイを用いて収音された音声信号を解析することで主要な音声の到来方向を推定し、主要な音声の到来方向の映像を切り出して表示するとともに、マイクアレイの指向性を制御して主要な音声の到来方向の利得を他の方向よりも相対的に高めることで、現在の主要な話者の映像と音声を取得して相手先へ送信するテレビ会議装置が開示されている。
また、特許文献2では、マイクアレイを用いた音声処理に際し、マイクと参加者との距離あるいは参加者の声の大きさの違いによってマイクで収音される音量レベルに差が生じることから、事前学習によってマイクに対する方向毎に、基準となる音量レベルのしきい値を設定しておくことで、どの参加者に対しても適切に発話の有無を判断して利得制御をすることができるようになり、距離が遠いあるいは声が小さな参加者の音声であっても聞き取りやすく調整する方法が開示されている。
特開2010−81644号公報 特開2011−77649号公報
しかしながら従来のテレビ会議装置には次のような問題があった。例えば、特許文献1においては、マイクから離れた位置にいる参加者や声の小さな参加者は、マイクから近い位置から生じる雑音といった阻害要素によって音源として検出されにくく、それゆえに正しく発話者を特定して発話者の映像と音声を得ることができない場合があった。
また、例えば、特許文献2においては、あらかじめ事前学習を行うという時間と手間がかかることに加えて、会議中に席を移動したり、途中参加する参加者がいた場合には対応できないといった問題がある。また、特許文献2では事前学習を行わずに複数のマイクアレイを用いて、常時音源の方向と距離を推定する方法についても開示されているが、この場合、事前学習は不要になるものの、距離精度を高めるには位置関係が既知である2組以上のマイクアレイを用い、さらにマイクアレイ間距離を広くとる必要があるため、筐体のサイズがマイクアレイの数倍まで大きくなることを避けられないという問題がある。あるいは、特許文献2では、いずれの方向についても、その方向からの最初の音声が発せられるまでは音量レベルのしきい値が未定義となるため、全ての方向すなわち全ての参加者に対して、最初の音声については適切な利得制御を行うことが出来なかった。
本発明は上記の点に鑑みてなされたものであり、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出する情報処理装置、及び情報処理方法を提供することを目的とする。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、周囲の映像を取得する撮像部と、前記撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも3つ以上の収音部と、前記収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、前記音源方向検出部によって検出された音源の方向と、前記収音部から得られた音声情報とを元に発話を検出する発話判定部と、前記発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、を備える情報処理装置である。
また、本発明の一態様は、上記情報処理装置において、前記情報処理装置は、前記撮像部によって得られた映像上の人を検出する人検出部と、前記人検出部により検出された人までの距離を推定する距離推定部と、をさらに備え、前記しきい値設定部は、前記検出された人の方位に対して、前記検出された人までの距離に応じたしきい値を設定する。
また、本発明の一態様は、上記情報処理装置において、前記しきい値設定部は、前記撮像部の光学系の光軸を中心とした方位と前記距離推定部で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備え、前記距離パターン選択部により選択された距離パターンに基づいて、前記人検出部が人を検出しなかった方位に対して、前記音量レベルのしきい値を設定する。
また、本発明の一態様は、上記情報処理装置において、映像から特徴量を抽出する特徴抽出部と、前記特徴抽出部が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの前記情報処理装置の設置環境の変更有無を検知する特徴比較部と、をさらに備え、前記しきい値設定部は、前記特徴比較部が、前回から前記設置環境に変更が無いと検知した場合には、前回推定された距離に基づいてしきい値を設定する。
また、本発明の一態様は、周囲の映像を撮像部により取得する撮像手順と、前記撮像部の光軸に略垂直な平面に配置された少なくとも3つ以上の収音部により音声情報を取得する収音手順と、前記収音手順から得られた音声情報を元に音源の方向を検出する音源方向検出手順と、前記音源方向検出手順によって検出された音源の方向と、前記収音手順によって得られた音声情報とを元に発話を検出する発話判定手順と、前記発話判定手順で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定手順と、を有する情報処理方法である。
本発明によれば、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出することができる。
第一の実施形態に係る情報処理装置を含むシステム構成図。 第一の実施形態に係る情報処理装置の内部ブロック図。 第一の実施形態に係る撮像部および収音部の外観図。 第一の実施形態に係る設置環境の外観図および撮影映像例を示す図。 第一の実施形態に係る処理の全体フローの一例を示すフローチャート。 第一の実施形態に係る初期設定処理の一例を示すフローチャート。 第一の実施形態に係る魚眼モデルと透視投影モデルの関係の説明図。 第一の実施形態に係る方位と音量しきい値レベルとの関係を示す図。 第一の実施形態に係る通常動作処理の一例を示すフローチャート。 第一の実施形態に係る情報処理装置1Aの構成の変形例を示す図。 第二の実施形態に係る情報処理装置の内部ブロック図。 第二の実施形態に係る処理の全体フローの一例を示すフローチャート。 第二の実施形態に係る初期設定処理の一例を示すフローチャート。 第二の実施形態に係る設置環境と撮影像、エッジ検出結果の例。 第二の実施形態に係るエッジ検出結果の例。 第三の実施形態に係る情報処理装置の内部ブロック図。 第三の実施形態に係る処理の全体フローの一例を示すフローチャート。 第三の実施形態に係る初期設定処理の一例を示すフローチャート。 第三の実施形態に係る顔領域マスクの具体例を示す図。 第三の実施形態に係る通常動作処理の一例を示すフローチャート。
以下、図面を参照して、本発明の実施形態について説明する。
[第一の実施形態]
まず、本発明の第一の実施形態について説明する。
図1は、本実施形態に係る情報処理装置を含むテレビ会議システムの構成例を示すシステム構成図である。図示するシステム例では、情報処理装置1Aおよび情報処理装置1Bと、通信網2と、表示装置3Aおよび表示装置3Bと、スピーカー4Aおよびスピーカー4Bとを備える。
図2は本実施形態に係る情報処理装置1Aの概略構成の一例を示す内部ブロック図である。情報処理装置1Aは、撮像部10と、顔検出部11と、距離推定部12と、しきい値設定部13と、記憶部14と、収音部15と、音源方向検出部16と、発話判定部17と、映像抽出部18と、利得制御部19と、映像/音声合成部20と、通信制御部21と、表示再生部22と、映像バス23と、音声バス24と、を備える。なお、情報処理装置1Bは、テレビ会議の相手先に設置されており、情報処理装置1Aと同様の構成を備える。
撮像部10は、撮像部10の周囲の映像を撮影可能な光学系を有し、撮影した周囲の映像を取得する。図3は、本実施形態に係る撮像部10及び収音部15の一例を示す外観図である。図3(a)は、情報処理装置1Aの外観の斜視図である。図3(b)は、情報処理装置1Aの外観の上面図である。例えば、撮像部10は、視野角が180度に近い魚眼レンズを含む光学系と、イメージセンサ(不図示)とから構成され、光軸が鉛直上方となる向きで情報処理装置1Aの中心に配置されている。なお、不図示のイメージセンサは、情報処理装置1Aの筐体内部に配置される。
また、収音部15は、音声を取得するマイクである。例えば、収音部15は、無指向性のマイクであって、撮像部10の光軸中心からの距離が略同一で、かつ等間隔に3つ以上配置されることが望ましい。するとそれぞれのマイクは光軸に略垂直な同一平面上に存在するとみなすことができる。ここでは、図3(b)に示すように、収音部15は、4つのマイク(15A〜15D)で構成される場合を例として説明する。
図4は、情報処理装置1Aの設置環境と撮影される映像の一例を示す図である。図4(a)は、情報処理装置1Aの設置環境の一例を示している。図示する例では、情報処理装置1Aが設置された円形の机25の周囲に、4人の参加者(26A、26B、26C、26D)がいる。図4(b)は、図4(a)に示す設置環境で撮影される映像例を示している。撮像部10が魚眼レンズを備えていることで、撮像部10の周囲360度(全周囲)に渡り、撮像部10が設置された高さよりも上方の映像を取得することができる。図示する撮像部10が取得する映像には、4人の参加者(26A、26B、26C、26D)の全員が撮影されている。
なお、撮像部10は、魚眼レンズに代えて、双曲面ミラーとレンズを用いた構成としても、同様に周囲360度の映像を取得することが可能である。また、撮像部10が撮影する範囲は、撮像部10の周囲360度(全周囲)に限られるものではない。例えば、情報処理装置1Aの設置環境によっては、テレビ会議の参加者が撮像部10の全周囲に亘って存在せず、特定の方向の範囲にしか存在しない場合もある。このような場合、撮像部10は、撮像部10の周囲360度よりも狭い範囲を撮影対象としてもよく、少なくとも当該撮影対象の存在する範囲を撮影可能な光学系を備えればよい。
また、情報処理装置1Aの筐体内部にはCPU(Central Processing Unit)と呼ばれる中央処理装置や、専用IC(Integrated Circuit)などの半導体部品、記憶部14に相当するハードディスクやフラッシュメモリ、あるいはDRAM(Dynamic Random Access Memory)といった記憶媒体などを含み、図2に示す顔検出部11、距離推定部12、しきい値設定部13、収音部15、音源方向検出部16、発話判定部17、映像抽出部18、利得制御部19、映像/音声合成部20、通信制御部21、および表示再生部22の機能を実現する。
顔検出部11は、撮像部10によって得られた映像上の人を検出する人検出部の一例であって、撮像部10によって得られた映像から顔を検出する。顔検出処理としては、一般的に用いられている手法が利用可能である。例えば、目や鼻や口といった顔の特徴的な濃淡の輝度差を検出するHaar−like特徴量を計算し、Adaboostによる識別器で処理することで撮影映像上に顔を検出する方法がよく知られている。例えば、顔検出部11は、映像から人の顔を検出し、検出された顔の位置と大きさ(サイズ)を距離推定部12へ渡す。
距離推定部12は、顔検出部11により検出された顔までの距離を推定する。例えば、距離推定部12は、顔検出部11により検出された顔の位置と大きさに基づいて、検出された人(顔)との距離を推定する。例えば、距離推定部12は、顔検出部11により検出された顔の位置と顔の大きさを用いて、撮像部10の光軸中心から、検出された顔までの距離を推定する。
しきい値設定部13は、発話判定部17が発話を検出する際の判定に用いる音量レベルのしきい値(以下、「音声しきい値レベル」ともいう)を、撮像部10の光学系の光軸を中心とした方位毎に設定する。例えば、しきい値設定部13は、顔検出部11により検出された顔の方位に対して、距離推定部12によって推定された距離に応じた音声しきい値レベルを設定する。具体的には、しきい値設定部13は、撮像部10のレンズ(光学系)の光軸を中心とした方位角に対して、距離推定部12によって推定された距離に応じた、音声しきい値レベルを設定し、方位角に対する音声しきい値レベルの関係を記憶部14に保存する。なお、以降では人や音源の方向に関して、撮像部10のレンズの光軸に対する方位角のことを単に「方位」と呼ぶことがある。
なお、しきい値設定部13は、撮像部10の光学系の光軸を中心とした方位と距離推定部12で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部を備えた構成としてもよい。この場合、しきい値設定部13は、距離パターン選択部により選択された距離パターンに基づいて、顔検出部11が顔(人)を検出しなかった方位に対して、音声しきい値レベルを設定する。
音源方向検出部16は、収音部15から得られた音声情報に基づいて、音源の方向を検出する。例えば、音源方向検出部16は、複数の収音部15(例えば、無指向性マイク)から得られた音声信号を解析して、撮像部10の光軸に対する音源の到来方向を推定する。
発話判定部17は、音源方向検出部16によって検出された音源の方向と、収音部15から得られた音声情報とを元に発話を検出する。例えば、発話判定部17は、しきい値設定部13により設定された方位ごとの音声しきい値レベルと、収音部15から得られた音声情報(音声信号の音量レベル)とを比較することにより、参加者の発話(発言)の有無を判定する。例えば、発話判定部17は、収音部15から得られた音声信号の音量レベルの平均(以下、「平均音量レベル」ともいう)が、音量しきい値レベルを超えた場合には発話ありと判定し、超えなかった場合には発話なしと判定する。
なお、前述したように、音声しきい値レベルは、距離推定部12によって推定された距離、すなわち撮像部10の光軸中心から人(顔)までの距離に応じて設定された値である。従って、発話判定部17は、顔検出部11によって検出された人の位置と、収音部15から得られた音声情報とに基づいて発話を検出する。
映像抽出部18は、撮像部10が取得した映像から、発話者の方向の映像を切り出す。例えば、映像抽出部18は、発話判定部17が発話ありと判定した発話者の方位を切り出しの中心となる方位とし、発話者の方位の音量しきい値レベルに対応する顔のサイズを切り出しサイズとして、発話者の方向の映像を切り出す。また、映像抽出部18は、切り出した映像を所定の解像度の出力用の映像サイズへリサイズする。
利得制御部19は、発話が検出された方向の音声が適切な音量レベルになるように利得調整を行う。
映像/音声合成部20は、映像抽出部18が切り出してリサイズした映像と、利得制御部19が利得調整を行った音声とを合成し、テレビ会議の相手先へ送信するためのデータストリームを生成する。また、映像/音声合成部20は、テレビ会議の相手先から送られてきた映像と音声に、映像抽出部18が切り出した話者の映像を合成して、表示用の映像と音声を生成する。
通信制御部21は、インターネット回線や携帯回線網などの通信網2を用いて、ステップS308で生成したデータストリームを相手先の情報処理装置1Bへ送信する。また、通信制御部21は、相手先の情報処理装置1Bから同様に送信されるデータストリームを受信し、受信したデータストリームを映像/音声合成部20へ渡す。
表示再生部22は、映像/音声合成部20が生成した表示用の映像を表示装置3A(図1参照)へ出力するとともに、音声をスピーカー4A(図1参照)へ出力する。
映像バス23は、撮像部10が取得した映像(映像信号)を、顔検出部11および映像抽出部18などに送る。音声バス24は、収音部15が取得した音声(音声信号)を、発話判定部17および利得制御部19などに送る。
(処理の動作)
次に、本実施形態に係るテレビ会議システムにおいて情報処理装置1Aが実行する処理の動作について説明する。図5は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。情報処理装置1Aは、起動時に一度だけ初期設定処理を実行する(ステップS1)。その後、情報処理装置1Aは、終了指示の有無を判定し(ステップS2)、終了指示がない限り(ステップS2:NO)、通常動作処理を繰り返し実行する(ステップS3)。そして、情報処理装置1Aは、終了指示があった場合(ステップS2:YES)、処理を終了する。以下、初期設定処理(ステップS1)と通常動作処理(ステップS3)とについて詳しく説明する。
(初期値設定処理)
図6を参照して、初期設定処理(図5のステップS1)の動作について詳しく説明する。図6は、本実施形態に係る初期設定処理の手順の一例を示すフローチャートである。
まず、撮像部10は、撮像部10の周囲を撮影し、撮影した映像を取得する(ステップS101)。次に、顔検出部11は、撮像部10が撮影した映像から人の顔を検出し、顔が検出された場合(ステップS105:YES)、検出された顔の位置と大きさ(サイズ)を距離推定部12へ渡す。また、顔検出部11は、顔が検出されなかった場合には(ステップS105:NO)、再びステップS101へ処理を戻し、次の映像を取得する。
距離推定部12は、顔検出部11で得られた顔の位置と顔のサイズを用いて、撮像部10の光軸中心から検出された顔までの距離を推定する(ステップS110)。なお、以降では撮像部10の光軸中心から各人物の顔までの距離のことを単に「距離」と呼ぶことがある。
ここで、撮像部10が魚眼レンズを備えている場合には、一般的なレンズの射影方式である透視投影とは異なる射影方式となっているため、使用した魚眼レンズの射影方式と、顔が検出された位置とに基づいて、顔のサイズを補正する必要がある。広角レンズを使用した場合、得られる映像は透視投影に従うとみなせるので、被写体の大きさは距離に反比例した大きさで映る。そのため、実測あるいはレンズの焦点距離であるf値やイメージセンサのイメージャーサイズ等のカメラの内部パラメータを用いて、検出された顔の元の大きさを推定することができる。顔のサイズの個人差を無視し、標準的なサイズの顔を持つ人物がレンズに対して正対して映っていると仮定すれば、映像上の顔のサイズと、顔までの距離とは反比例の関係となるため、映像上の顔のサイズから、顔までの距離を一意に求めることができる。
なお、顔のサイズとしては、より詳細には例えば両目の間の長さや、両目をつないだ直線と口の中心までの長さを利用することができる。一般的に、顔検出において、目や口は、顔の輪郭に比べてその位置を正しく検出しやすいため、顔の横幅や縦幅を用いるよりも正しく顔のサイズを検出できる可能性が高くなる。一方、魚眼レンズを用いた場合は、透視投影とは異なる射影方式に従うため、利用した魚眼レンズの射影方式およびレンズパラメータを考慮した上で、顔までの距離を求める必要がある。通常のレンズは平面を透視投影面へ投影するのに対して、魚眼レンズでは仮想球面へ投影された周囲映像を魚眼投影面へ投影し直したものとしてモデル化できる。また、魚眼レンズの射影方式には、等距離射影や立体射影と呼ばれるようないくつかの種類が存在する。
図7は、本実施形態に係る魚眼モデルと透視投影モデルの関係を説明する説明図である。例えば、図19(a)に示すような正射影であればレンズの光軸中心からの角度である天頂角β[radian]と像高rと焦点距離fとの間には、以下の「式1」で表される関係があるので、魚眼映像上の座標から求められる像高rから、天頂角βを求めることができる。
r(β)=f×sinβ・・・「式1」
さらに図19(b)に示すように、レンズの光軸と並行で人物の方向で球面と接する平面へと再度投影を行うことで、透視投影像が得られる。透視投影では、像高yと焦点距離gと天頂角α[radian]とには、以下の「式2」で表される関係がある。
y(α)=g×tanα・・・「式2」
ここでα=π/2−βとなるので、魚眼映像上の座標から透視投影での垂直座標が求められる。水平座標についても同様に求めることができるため、魚眼映像上の座標から透視投影像での顔の部位の座標が得られることになる。透視投影像からは容易に顔のサイズが求められるので、先と同様に顔のサイズを標準的なサイズであると仮定することで、顔までの距離を求めることができる。また、あらかじめ魚眼映像を透視投影へ変換した映像を作り、変換した透視投影映像に対して顔検出が行われてもよい。
図6に戻り、しきい値設定部13は、距離推定部12で検出された全ての顔に対する、撮像部10の光軸に対する方位と推定された距離をグラフ化し、顔検出された点を補間して曲線のグラフを生成する。これにより、図7(b)のように顔検出部11で検出されなかった方位を含む360度に対して距離の推定値が与えられる(ステップS111)。
なお、しきい値設定部13は、距離パターン選択部を含んでいてもよい。距離パターン選択部には、方位に対する距離の関係を表す距離パターンがあらかじめ複数設定されており、距離推定部12が推定した方位と距離との関係を、距離パターンと比較して一致度を判定し、最も合致する距離パターンを選択する。例えば、顔検出により得られた方位と距離を表す点群に対して、プリセットされた曲線パターンで表される距離パターンと距離方向の絶対誤差を求め、絶対誤差の平均値が最も小さい距離パターンを選択することで、顔検出部11で顔(人)が検出されなかった方位を含む360度に対して、方位と距離の関係を表す曲線のグラフを得る。
続いて、しきい値設定部13は、推定した方位と距離との関係から、方位と音量しきい値レベルとの関係を求める。音量しきい値レベルとは、あらかじめ定められた一定の音量の音源が、ある距離だけマイクから離れた距離に置かれた際に得られる音量レベルを指すものとする。点音源が自由空間に置かれた場合、点音源からのエネルギーは距離の二乗で減衰することから、音量しきい値レベルもまた、点音源からの距離の二乗で減衰するとみなすことができる。したがって、距離と音量の関係は単純な反比例となるため、あらかじめ既知の音量の音源を複数の距離に置いた場合の音量レベルを調べることで、距離と音量しきい値レベルとの関係が得られる。
図8は、収音部15(以下、「マイク」ともいう)および参加者の配置と、方位と音量しきい値レベルとの関係を示す図である。図8−1(a)は、図4に示すように円形の机25の周りに参加者がおり、かつマイクが机25の中心にある場合の位置関係を示す例である。図中の黒点が撮像部10の位置を、×印が参加者を示しており、縦軸、横軸の数値は撮像部10との距離を示し、1マスが10cmである。図8−1(b)は、このときの方位角に対するマイクからの距離を表したグラフであり、横軸が方位(degree)、縦軸は距離であり図8−1のグラフにおける距離に対応する。参加者のすべては、撮像部10から等距離の位置にいるため距離は一定である。
前述した通り、マイクで取得される音量レベルは距離の二乗で減衰すると考えられるが、距離が一定なので音量レベルも方位に依らず一定となるので、方位に対する音量しきい値レベルとの関係は図8−1(c)示すようなグラフとなる。この場合は方位に依らずマイクからの距離は同じであるから、方位に対する音量しきい値レベルも常に同じ値となる。なお図8−1(c)の縦軸は、音量レベルであるが、相対値となっており、方位ごとの距離に応じて音量レベルがどのように変化するかを表している。実際に音量しきい値レベルを設定する際には、情報処理装置1Aで使用するマイクの感度などの諸条件に応じて適宜、定数倍して利用されることになる。
図8−2は円形の机25の周りに参加者がいる点は図8−1と同じであるが、マイクの位置が中心から外れた位置にある場合の例である。この場合の方位に対するマイクから参加者までの距離は、図8−2(b)に示すような距離となり、音量レベルは距離の二乗に反比例するので方位に対する音量しきい値レベルの関係は図8−2(c)に示すようなグラフとなる。
同様に図8−3(a)のように楕円形の机の中心から外れた位置にマイクを置いた場合における、方位に対する距離の関係を図8−3(b)に、方位に対する音量しきい値レベルの関係を図8−3(c)に示す。机の形状によって変化の緩急の差はあるものの、机が円又は楕円の場合は、方位に対する距離の関係は大まかには山が一つ谷が一つの緩やかな波形となり、方位に対する音量しきい値レベルの関係もまた凹凸が反転した同様の山が一つ谷が一つの緩やかな波形となる。そのため、顔検出された点を通る波形を求めることで、方位に対する距離および音量しきい値レベルについて、ある程度の推定が可能である。
会議などに使われる机は四角形の場合もあるが、机の角の位置に参加者が座ることは少なく、実際の参加者の位置は楕円で近似できることが多い。そのため同様に顔検出された参加者の方位と距離を元に、山が一つと谷が一つの波形を求めることで、方位に対する音量しきい値レベルを求めることができる。これはつまり、顔検出がなされなかった方位に対しても、参加者がいる場合に予想される距離を推定していることになり、会議中に途中参加者が出る場合や、顔検出で検出されない人がいた場合に参加者が位置する可能性の高い距離を求められるという効果がある。また、音量しきい値レベルは距離の二乗に反比例するため、あらかじめある一つの距離における音量しきい値レベルを調べておくことにより、相対的に全ての距離について音量しきい値レベルを求めることが可能である。したがって、しきい値設定部13は、顔検出時点で人がいなかった方位を含めた0〜360度の全方位に渡って、妥当である可能性の高い音量しきい値レベルを求めることができる。
そして、しきい値設定部13は、各方位に対して距離に応じて求めた音声しきい値レベルを記憶部14に記録する(ステップS112)。
なお、ここで設定された音量しきい値レベルは初期設定値であり、状況によって更新されることになる。また、しきい値設定部13は、求めた方位と音量しきい値レベルとの関係を記憶部14へ記録する(ステップS113)。これにより、初期設定処理が終了する。
なお、しきい値設定部13が、距離パターン選択部を含む場合に用いる距離パターンの例は、図8−1(b)〜図8−3(b)がそれにあたる。先の説明と同様に、想定される一般的な机とカメラとの配置関係から、距離を計算することで候補となる距離パターンをあらかじめ求めておくことができる。
(通常動作処理)
次に、図9を参照して、通常動作処理(図5のステップS3)の動作について詳しく説明する。図9は、本実施形態に係る通常動作処理の手順の一例を示すフローチャートである。
撮像部10は、映像を取得する。また、収音部15は、音声を取得する(ステップS301)。前述したように、撮像部10は視野角が180度近い魚眼レンズとイメージセンサから構成され、収音部15は3つ以上の無指向性マイクから構成されている。例えば、ここで使用されるマイクは、個体差の少ないシリコンマイクである。
音源方向検出部16は、複数の指向性マイクから得られた音声信号を解析して、撮像部10の光軸に対する音源の到来方向を推定する(ステップS303)。音源の到来方向の推定、すなわち音源定位の方法としては、遅延時間推定法により、二つのマイクで収音した音声信号の到来時間とマイク間距離とから、三角測量原理で音声の到来方向を求めることができる。ただしマイクが二つの場合、二つのマイクを結ぶ直線を軸とした軸方向の回転に対しては区別がつかない。例えば図3のマイク15Aとマイク15Bを用いて音源定位を行った場合、マイク15Aとマイク15Bとを結ぶ直線に対して、撮像部10の側から音がしているのか、撮像部10の反対側から音がしているのか、あるいは上方から音がしているのかという区別がつかない。しかし、この音源定位を異なるマイクの組に対して行った結果を統合することで、水平360度に渡って音源方向を推定することが可能である。
なお、本実施形態ではマイク15A〜マイク15Dが撮像部10の光軸と略垂直な同一平面上に設置されているため、水平方向の冗長性が高く、組み合わせるマイクの対を変えることによって得られる複数の推定結果を統合することで、雑音に強い信頼性の高い結果を得ることが可能である。なお、マイクを全て撮像部10の光軸と略垂直な同一平面上に配置するのではなく、一部のマイクを異なる位置へ移動する、あるいは新たにマイクを追加し、それぞれのマイクの組の音源定位結果を三次元的に統合することで、垂直方向について音源方向を推定することも可能である。
次に、発話判定部17は、記憶部14へ保存された方位ごとの音量しきい値レベルと、収音部15から得られた音声信号の平均音量レベルとを比較することにより、参加者の発話(発言)の有無を判定する(ステップS304)。平均音量レベルが音量しきい値レベルを超えないことにより参加者の発話が無いと判定された場合(ステップS304:NO)、発話判定部17は、ステップS301の処理に戻し、発話の有無の判定を繰り返し実行する。
一方、平均音量レベルが音量しきい値レベルを超えたことにより参加者の発話があると判定された場合(ステップS304:YES)、発話判定部17は、発話者の方位を示す情報を映像抽出部18へ送り、平均音量レベルを示す情報を利得制御部19へ送る。
また、参加者の発話があると判定された場合、発話判定部17は、平均音量レベルが音量しきい値レベルよりも一定値以上大きいか否かを判定する(ステップS305)。この一定値とは、音量しきい値レベルの適切さを判定するために予め設定された値であり、任意に設定することができる。
平均音量レベルが音量しきい値レベルよりも一定値以上大きいと判定された場合(ステップS305:YES)、発話判定部17は、音量しきい値レベルがこの参加者に対しては適切ではなかったと判断し、その旨をしきい値設定部13へ通知する。そして、しきい値設定部13は、音量しきい値レベルをより大きな値へと更新する(ステップS306)。なお、更新する際の値の変化量としては、判定に用いた一定値に応じて一つの値があらかじめ設定されていてもよいし、平均音量レベルと音量しきい値レベルとの差に応じて複数の値があらかじめ設定されていてもよい。
これにより、初期設定処理で初期値として設定された音量しきい値レベルは、より適切な値へと補正される。なお、ステップS305〜S306の処理により音量しきい値レベルが適切に調整されることを考慮して、図6に示す初期設定処理のステップS106での音量しきい値レベルの設定の際に、しきい値設定部13は、やや小さ目なしきい値を設定しておいてもよい。
一方、平均音量レベルが音量しきい値レベルよりも一定値以上大きくないと判定された場合(ステップS305:NO)、上記音量しきい値レベルの更新の必要が無いため、ステップS306の処理は実行されない。
次に、映像抽出部18は、撮像部10が取得した映像から、発話者の方向の映像を切り出す(ステップS307)。切り出しの中心となる方位は、発話判定部17から送られた発話者の方位に基づく方位である。また、切り出しサイズは記憶部14に記録された発話者の方位の音量しきい値レベルに対応する顔のサイズに基づくサイズである。映像抽出部18は、切り出した映像を所定の解像度の出力映像サイズへリサイズする。これにより、顔検出された顔サイズが小さい場合には拡大率が大きくなり、顔検出された顔サイズが小さい場合には拡大率が小さくなるため、顔検出されたサイズに応じた適切な倍率で顔映像を切り出すことができる。
なお、撮像部10が魚眼レンズを利用して撮影する場合は、撮影された映像の中心が上、撮影された映像の中心から外側へ向かう向きが下となっており、方位に応じて回転した映像となっている。そのため、映像抽出部18は、切り出しとともに回転を行うことが望ましい。例えば、映像の中心を原点にとった二次元の極座標系で、方位角をθ、θの0度方向を映像の3時方向、およびθの正方向を反時計回りとすると、θ=θの方位の顔映像に必要な回転角は時計回りにθ+90度となる。
なお、話者が検出されなくなった場合には、映像抽出部18は、最後に検出された話者がいた方向の映像を切り出し続けてもよい。また、一定時間以上話者がいない状態が続いた場合には、映像抽出部18は、参加者全員を一覧できる表示になるように切り出し範囲を切り替えたり、映像のフレーム間の差分を監視して、時間的な変化量が最も大きな方向の映像を切り出したりしてもよい。これにより、情報処理装置1Aは、次に発言する可能性の高い人物の映像を表示できる。
利得制御部19は、発話が検出された方向の音声が適切な音量レベルになるように利得調整を行う(ステップS308)。音量レベルの差は、マイクからの距離だけでなく、個人差も影響する。すなわち、声の大きな人や小さな人、大きな声を出した場合や小さな声を出した場合という差である。これらの差を補うために、利得制御部19は、発話中の平均音量レベルを取得し、平均音量レベルをあらかじめ設定された適切な音量レベルになるような利得調整を行うことで、声量の個人差や、そのときの声の大きさによる音量レベルのバラつきがある場合でも、適切な音量へと補正できる。なお、利得制御部19は、ビームフォーミングのような指向性制御技術によって、発話判定部17で判定された発話者の方位からの音声の利得だけを高め、他の方位の利得を下げて発話者だけの音声を聞き取りやすくしてもよい。これにより、テレビ会議おいて、話者の声量の違いや話者の位置に依らず、一定の音量レベルに近い音声を相手側へ送ることができる。
次に、映像/音声合成部20は、映像抽出部18が切り出してリサイズした映像と、利得制御部19が利得調整を行った音声とを合成し、テレビ会議の相手先へ送信するためのデータストリームを生成する。また、映像/音声合成部20は、相手先の情報処理装置1Bから通信制御部21が受信したデータストリームの映像と音声に、映像抽出部18が切り出した話者の映像を合成して、表示用の映像と音声を生成する(ステップS309)。
通信制御部21は、インターネット回線や携帯回線網などの通信網2を用いて、ステップS308で生成したデータストリームを相手先の情報処理装置1Bへ送信する。また、表示再生部22は、映像/音声合成部20が生成した表示用の映像を表示装置3Aへ出力するとともに、音声をスピーカー4Aへ出力する(ステップS310)。これにより、表示装置3Aでは相手先の話者の映像と音声、ならびに情報処理装置1Aが置かれた側の話者の映像としてどのような映像が送られているかを確認することができる。
以上説明したように、本実施形態に係る情報処理装置1Aは、周囲の映像を取得する撮像部10と、撮像部10の光軸に略垂直な平面に配置され音声を取得する、少なくとも3つ以上の収音部15とを備えている。また、情報処理装置1Aは、さらに音源方向検出部16と、発話判定部17と、しきい値設定部13とを備えている。音源方向検出部16は、収音部15から得られた音声情報を元に音源の方向を検出する。発話判定部17は、音源方向検出部16によって検出された音源の方向と、収音部15から得られた音声情報とを元に発話を検出する。そして、しきい値設定部13は、発話判定部17で発話を検出する際の判定に用いる音量レベルのしきい値を、撮像部10の光学系の光軸を中心とした方位毎に設定する。
また、情報処理装置1Aは、顔検出部11(人検出部の一例)と、距離推定部12とをさらに備えてもよい。顔検出部11は、撮像部10によって得られた映像上の顔(人の検出部分の一例)を検出する。距離推定部12は、顔検出部11により検出された顔(人)までの距離を推定する。そして、しきい値設定部13は、検出された人の方位に対して、検出された人までの距離に応じたしきい値を設定する。
また、しきい値設定部13は、撮像部10の光学系の光軸を中心とした方位と距離推定部12で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備えてもよい。この場合、しきい値設定部13は、この距離パターン選択部により選択された距離パターンに基づいて、顔検出部11が顔(人)を検出しなかった方位に対して、音量レベルのしきい値を設定する。
これにより、本実施形態に係る情報処理装置1Aは、様々な参加状況の参加者がいる中で、主たる発話者を適切且つ容易に検出することができる。例えば、情報処理装置1Aは、事前学習が不要で、距離の異なる参加者に対しても発話を正しく検出することができ、発話が検知された方向からの音声が適切な音量になるように利得制御を行って、テレビ会議の相手先へ送信することが可能となる。具体的には、情報処理装置1Aは、例えば顔検出された顔の大きさから推定した、方位ごとの参加者までの距離に応じて発話の有無を判定するしきい値を設定するため、参加者からマイク(収音部15)までの距離が離れていてマイクで収音される音量レベルが低い場合でも正しく発話を検出することができる。また、情報処理装置1Aは、顔検出されなかった方位に対しても顔検出された方位と顔のサイズに応じた音量しきい値レベルを設定するため、テレビ会議の途中から参加した参加者や、マスクをしているなどの理由で顔検出に失敗する参加者がいた場合でも適切に発話を検出することができる。また、情報処理装置1Aは、発話者の平均音量レベルが発話者の方向の音量しきい値レベルを大きく超えている場合には、音量しきい値レベルを平均音量レベルに応じた値へ更新するため、検出された顔のサイズから推定された音量しきい値レベルが最適な値でない場合でもより適した値に更新することができ、発話の検出が失敗しにくくなる。また、情報処理装置1Aは、顔検出された顔の大きさに応じて話者映像の切り出しサイズを設定するため、参加者が情報処理装置1Aからの距離に依らず適切な大きさで表示される映像をテレビ会議の相手先へ送信することができる。
また、撮像部10の光軸中心からの距離が略同一で、かつ等間隔な位置にマイクが最低3つ配置されるため、撮影映像から特定の方位の人までの距離を求めることができ、マイク間距離を狭くしても距離の推定精度が低下することがないため、装置のサイズを小さく抑えることができる。
なお、本実施形態では図3に示すように収音部15のマイクが4つある例を示したが、マイクの数は4つに限定されるものではない。図10は、マイクが3つ以外の例を示す図である。例えば、図10に示すように、情報処理装置1Aが収音部15のマイクの数は、3つ(図10(a)のマイク(15A〜15B))、あるいは6つ(図10(b)のマイク(15A〜15F))などのように、任意の数とすることができる。
また、情報処理装置1Aの形状についても、円形でも他の形状であっても良く、本実施形態で示した形状の例に限定されるものではない。
また、本実施形態では射影方式が正射影の魚眼レンズの場合を説明したが、等距離射影や立体射影あるいは等立体角射影といった異なる射影方式の魚眼レンズを用いてもよく、その場合は魚眼レンズに応じた射影方式を代わりに利用することで、本発明を適用可能である。
また、本実施形態では、顔の大きさとして、両目の間の長さや、両目をつないだ直線と口の中心までの長さを用いたが、顔検出によって得られる顔の特徴的な部位である特徴点のうち、上記以外の組み合わせにおける特徴点間の距離、あるいは複数の特徴点からなる領域の面積を用いて顔の大きさを求めてもよい。
また、顔検出および音源定位で求められる方向を、撮像部10の光軸に対する方位としたが、収音部15を構成する複数のマイクの中心や、情報処理装置1Aの中心を基準として方位を求めてもよい。しかしながら撮像部10の光軸と、収音部15の構成するマイクの中心と、情報処理装置1Aの中心はすべて揃っていることが望ましい。なぜなら、撮像部10の光軸と、収音部15の構成するマイクの中心が一致していれば、映像系の方位と音声系の方位の整合性が取りやすくなり、また、収音部15の構成するマイクの中心と、情報処理装置1Aの中心が一致していれば、対称性により、個々のマイクの指向性に違いが生じにくく、したがって方向による音源定位の分解能や精度に差が出にくいためである。
[第二の実施形態]
次に、本発明の第二の実施形態について説明する。なお、本実施形態においては、第一の実施形態と同様の構成部分については同一の符号を付し、その説明を省略する。まず図11を参照して、本実施形態における情報処理装置1Aの構成について説明する。
図11は、本実施形態における情報処理装置1Aの概略構成の一例を示す内部ブロック図である。第一の実施形態との違いは、特徴抽出部27および特徴比較部28が追加された点である。特徴抽出部27は、撮像部10が取得した映像を映像バス23を介して取得し、取得した映像から特徴量を抽出する。また、特徴抽出部27は、抽出した特徴量を特徴比較部28に渡すとともに記憶部14に記録する。
特徴比較部28は、特徴抽出部27が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの情報処理装置1Aの設置環境の変更有無を検知する。また、特徴比較部28は、情報処理装置1Aの設置環境の変更有無についての検知結果を顔検出部11に渡す。そして、しきい値設定部13は、特徴比較部28が、前回から設置環境に変更が無いと検知した場合には、前回推定された距離に基づいて音量しきい値レベルを設定する。
図12は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。本実施形態に係る処理の全体フローは、図5に示す第一の実施形態の全体フローとほぼ同様であるが、ステップS1’の初期設定処理の内容の一部が図5のステップS1の初期設定処理と異なる。以下、図13を参照して、本実施形態に係る初期設定処理の動作について詳しく説明する。
図13は、本実施形態に係る初期設定処理(図12のステップS1’)の一例を示すフローチャートである。本実施形態に係る初期設定処理は、図6に示す第一の実施形態の初期設定処理に対して、ステップS102およびステップS103の処理が追加されている点が異なる。
特徴抽出部27は、撮像部10によって撮像された映像に対して、時間的な変化の少ない領域のエッジ情報を、映像の特徴量として抽出する(ステップS102)。時間的な変化が少ないかどうかは、次のように判断される。例えば、映像中の各画素値のフレーム間の差分を取り、差分があらかじめ設定された値よりも大きい画素の数を集計し、この画素の合計値が所定の値より少ない場合には時間的な変化が少ない領域と判断される。エッジ情報の抽出には、平滑化フィルタと一次微分フィルタを用いることができ、キャニー法などの一般的な手法を利用できる。
図14は、本実施形態に係る実施形態に係る設置環境と撮影像、エッジ検出結果の例をであって、時間的な変化の少ない領域のエッジ抽出の一例を説明する説明図である。ここでは、撮像部10の光学系に円周魚眼のレンズを用いた例であり、イメージサークル全体が撮像部10が撮影する映像に含まれている。図14の1(a)は、前回(過去のある時点)の情報処理装置1Aの設置環境を示しており、情報処理装置1Aが設置された円形の机25の周囲に3人の参加者(26A、26B、26C)がいることを示している。一方、図14の2(a)は、今回(図1(a)に示す前回の時点より後のある時点)の情報処理装置1Aの設置環境を示しており、情報処理装置1Aが設置された円形の机25の周囲の参加者が2人(26A、26B)になっていることを示している。
図14の1(b)は、図14の1(a)に示す前回の設置環境で撮像部10により撮影された映像を示している。この図14の1(b)において、円形の映像領域のうち円周に沿った符号25が示す部分は円形の机25の端の部分であり、魚眼レンズが180度以上の画角を持ち、真横よりさらに広い範囲を撮影できるために映り込んでいる。また、この映像には、3人の参加者(26A、26B、26C)が撮影されている。
図14−1(c)は、図14の1(b)に示す映像から抽出されたエッジ情報を示している。この図14−1(c)では、時間的な変化のあった参加者26A〜26Cのいる領域を除いた時間的な変化の少ない領域(ハッチングで表した領域)が特徴比較の対象となる特徴比較領域31であり、この特徴比較領域31内における机25のエッジ部分(31A、31B、31C)だけがエッジ情報として抽出されている。また、図14−2(c)は、図14の2(b)に示す映像から抽出されたエッジ情報を示している。この図14−2(c)では、図14−1(c)と同様に机25のエッジ部分だけが抽出されているが、参加者の人数と配置が異なっているため、抽出されるエッジの部分が異なっている。この図14−2(c)では、時間的な変化のあった参加者26A、26Bのいる領域を除いた時間的な変化の少ない領域(ハッチングで表した領域)が特徴比較領域32であり、この特徴比較領域32内における机25のエッジ部分(32A、32B)だけがエッジ情報として抽出されている。
図13に戻り、特徴比較部28は、今回の映像から特徴抽出部27が抽出したエッジ情報を、記憶部14に保存された前回終了時のエッジ情報と比較する(ステップS103)。例えば、特徴比較部28は、エッジ情報の差分として、特徴抽出部27により今回の映像で時間的な変化が少ないと判定された特徴比較領域と、前回終了時の映像で時間的な変化が少ないと判定された特徴比較領域との共通領域に対して、座標ごとにエッジ情報の有無が一致するか否かを判定する。そして、特徴比較部28は、一致していれば0、不一致であれば1の値を累積し、累積した値を共通領域のピクセル数で割った値を特徴量として用いて、特徴が一致するか否かを判定する。つまり、比較判定を行った全共通領域のエッジ情報が一致する場合には特徴量が1、全てのエッジ情報が一致しない場合には特徴量が0となる。例えば、全領域の70%が一致する場合に特徴が一致すると判定するのであれば、特徴比較部28は、特徴量が0.7以上であれば一致、0.7未満であれば不一致と判定する。
このようにすることで、部屋の机や天井など、不動な特徴物のエッジ情報を比較することになり、前回と同一の部屋の同じ位置に情報処理装置1Aが設置されていた場合は、エッジ情報の差分は極めて小さくなり、前回と同じ設置環境で会議が行われているものと判断できる。
ステップS103において、前回の設置環境と異なると判断された場合(ステップS103:NO)、情報処理装置1Aは、第一の実施形態と同様に、ステップS105、S110〜S113の処理により、方位ごとの音量しきい値レベルの初期値を設定する。さらに情報処理装置1Aは、記憶部14へ方位ごとの音量しきい値レベルの初期値を記録するのに加えて、今回の特徴、すなわちエッジ情報と動きの少ない領域の情報を記録し、次回の起動時に参照できるようにする(ステップS113)。
一方、ステップS103において、特徴比較部28がエッジ情報が前回終了時と一致すると判断した場合(ステップS103:YES)、情報処理装置1Aは、記憶部14に記録されている前回終了時のしきい値情報を更新せずに初期設定フローを終了する。この場合、記憶部14は前回終了時の設定を保持した状態から内容が更新されていないため、前回使用時の方位ごとの音量しきい値レベルが、今回の音量しきい値レベルの初期値として利用される。
図15は、前回終了時と今回のエッジ情報の比較を説明する説明図である。図15−1(c)は、図14−1(c)の特徴比較領域31を示している。また、図15−2(c)は、図14−2(c)の特徴比較領域32を示している。図15−1(d)は、図15−1(c)の特徴比較領域31と図15−2(c)の特徴比較領域32との共通領域33と、共通領域33内における前回終了時のエッジ情報(机25のエッジ部分(33A、33B、33C、33D))とを示している。また、図15−2(d)は、図15−2(c)の特徴比較領域32と図15−1(c)の特徴比較領域31との共通領域34(共通領域33と同等の領域)と、共通領域34内における今回のエッジ情報(机25のエッジ部分(34A、34B、34C、34D))とを示している。図15−1(d)と図15−2(d)とを比較するとほぼ同じようにエッジが抽出されていることから、この場合は前回の設置環境と今回の設置環境とが同じ条件であると判定され、ステップS1’の初期設定処理において、ステップS105、S110〜S113はスキップされ、前回終了時の音量しきい値レベルが初期値として使われる。
以上説明したように、本実施形態に係る情報処理装置1Aは、初期設定処理(ステップS1’)において時間変化の少ない領域のエッジ情報を、記憶部14に保存されている前回終了時のエッジ情報と比較することによって、前回の設置環境と同じであるかを判定し、前回と同じ設置環境であると判定した場合は、前回終了時の音量しきい値レベルを利用することとした。これにより、情報処理装置1Aは、顔検出される参加者が少なく、正しい方位としきい値音量レベルとの関係を正確に推定するのが難しいような場合であっても、前回のテレビ会議で利用したより精度の高い音量しきい値レベルを初期値として設定できる。
なお、ここでは映像周辺の時間的変化の少ない領域を使用したが、映像の中央付近にエッジ情報がある時は、中央部を優先して使用するようにしても良い。本実施形態のように、机上に鉛直上向きに超広角カメラを設置する場合、中央付近に動体が映る可能性は少なく、安定して判定する事が可能となる。また、エッジ情報だけでなく色情報等を合わせて使用して、精度を向上させても良い。
[第三の実施形態]
次に、本発明の第三の実施形態について説明する。なお、第三の実施形態においては、第一および第二の実施形態と同様の構成部分については同一の符号を付し、その説明を省略する。まず図16を参照して、本実施形態における情報処理装置1Aの構成について説明する。
図16は、本実施形態に係る情報処理装置1Aの概略構成の一例を示す内部ブロック図である。本実施形態に係る情報処理装置1Aは、第一の実施形態の情報処理装置1Aに対して、マスク設定部29と、映像差分算出部30と、再顔検出判断部37とが追加された点が異なる。
図17は、本実施形態に係る処理の全体フローの一例を示すフローチャートである。本実施形態に係る処理の全体フローは、図5に示す第一の実施形態の全体フローに対して、ステップS1”の初期設定処理の内容の一部と、ステップS3”の通常動作処理の内容の一部とが、図5のステップS1の初期設定処理と、ステップS3との通常動作処理の内容とそれぞれ異なる。また、本実施形態に係る処理の全体フローは、ステップS4の処理が追加されている点が、図5に示す第一の実施形態の全体フローと異なる。
まず図18を参照して、本実施形態に係る初期設定処理(図17のステップS1”)の動作について詳しく説明する。図18は、本実施形態に係る初期設定処理の一例を示すフローチャートである。本実施形態に係る初期設定処理は、図6に示す第一の実施形態の初期設定処理に対して、顔検出を行うステップS103処理の後に、顔領域マスクを設定するステップS106の処理が追加されている点が異なる。
マスク設定部29は、顔検出部11により検出された顔がある方位に対しては「1」、顔が検出されなかった方位に対しては「0」となるマスク(以下、「顔領域マスク」とも称する)を設定する(ステップS106)。そして、しきい値設定部13は、記憶部14へ音量しきい値レベルを設定するステップS113の処理において、ステップS106で設定した顔領域マスクの設定も記憶部14へ記録する。
図19は、顔領域マスクの具体例を示す図である。図19(a)は、図14−1(a)に示す設置環境での撮影映像の例である。ここで3人の参加者の顔が検出されたとすると、参加者が位置する可能性がある領域は、図19(b)の符号36A、36B、36Cの領域のように与えられる。この参加者が位置する可能性がある領域が、図19(a)の参加者の映像領域より大きくなっているのは、人は自然にしていてもある程度の動きが生じるためである。そして図19(b)の中心(符号P)を原点とする二次元の極座標表示を行った際の方位角に対して、符号36A、36B、36Cの領域と重なる場合には顔が存在する可能性のある方位であるので「1」となり、符号36A、36B、36Cの領域と重ならない方位の場合には「0」となるため、最終的な方位に対する顔領域マスクの値を表したグラフは図19(c)に示すようになる。図19(c)において、水平軸は方位角(単位は度)であり、垂直軸は顔領域マスクの値(「1」または「0」)である。
次に、図20を参照して、通常動作処理(図17のステップS3”)の動作について詳しく説明する。図20は、本実施形態に係る通常動作処理の一例を示すフローチャートである。本実施形態に係る通常動作処理は、図9に示す第一の実施形態の通常動作処理に対して、ステップS301の後にステップS302が追加されている点と、ステップS304の後にS312〜S314の処理が追加されている点とが異なる。
ステップS302において、映像差分算出部30は、前フレームの映像とのフレーム間の映像の差分を求めて、フレーム間の映像の差分(時間的な変化)があらかじめ設定された値よりも大きな領域の方位を検出する。なお、映像差分算出部30は、フレーム間の映像の差分(時間的な変化)があらかじめ設定された値よりも大きな領域の方位がない場合には、当該方位がないことを検出結果とする。映像差分算出部30は、検出結果を記憶部14に記録する。
また、ステップS304において、参加者の発話があると判定された場合(ステップS304:YES)、再顔検出判断部37は、発話があると判定された方位の顔領域マスクの値を参照し、顔領域内であるか否かを判定する(ステップS312)。再顔検出判断部37は、顔領域マスクの値が「1」であれば顔領域内であると判定し(ステップS312:YES)、発話の有無の判定結果をそのまま用いることとして、ステップS305の処理に進む。これにより初期設定処理において顔が検出されなかったが音量しきい値レベルを超えるような大きな音がする方向、すなわち何かしらの雑音源がある可能性がある方向からの音声を誤って発話であると誤検出することを防ぐことができる。
ただし、たまたま顔が撮像部10の方向を向いていないことがありうる。また、途中から参加したために初期設定処理のときには顔が検出されなかったが現在は参加者が存在するという方位がありうる。そのため、再顔検出判断部37は、顔領域マスクの値が「0」であって顔領域内ではないと判定した場合(ステップS312:NO)、発話があると判定された方位が、ステップS302で検出された時間的な変化が大きな方位の中に含まれているか否かを判定する(ステップS313)。すなわち、ステップS313において、再顔検出判断部37は、定位方向(発話があると判定された方位)のフレーム間の映像の差分(時間的な変化)が、あらかじめ設定された値(しきい値)よりも大きいか否かを判定する。
定位方向(発話があると判定された方位)のフレーム間の映像の差分(時間的な変化)が、あらかじめ設定された値(しきい値)以下であると判定された場合(ステップS313:NO)、再顔検出判断部37は、ステップS304で発話があると判定された方位に話者が存在する可能性がないと判定し、ステップS301に処理を戻す。
一方、定位方向(発話があると判定された方位)のフレーム間の映像の差分(時間的な変化)が、あらかじめ設定された値(しきい値)よりも大きいと判定された場合(ステップS313:YES)、再顔検出判断部37は、その方位に話者が存在する可能性があるため、顔検出を再度行うフラグを立て(再検出フラグオン)、通常動作処理を終了する(ステップS314)。
なお、図17のステップS4では、情報処理装置1Aは、上述の再検出フラグを参照して、顔の再検出が必要か否かを判定する。再検出フラグオフの場合には(ステップS4:NO)、情報処理装置1Aは、ステップS2に処理を戻し、終了指示がない限り(ステップS2:NO)、通常動作処理を繰り返し実行する(ステップS3”)。一方、再検出フラグオンの場合には(ステップS4:YES)、情報処理装置1Aは、ステップS1”の初期設定処理を再度実行する。これにより、情報処理装置1Aは、初回の初期設定フロー時では検出されなかった方位の参加者を発話者として検出できるようになる。また、情報処理装置1Aは、テレビ会議の途中で退出するなどして参加者がいなくなった方向を発話者検出の対象から除外することができ、誤検出の可能性を抑えることができる。
以上説明したように、本実施形態に係る情報処理装置1Aは、初期設定処理によって顔検出された方位であるか否かを表す顔領域マスクを参照することにより、雑音源があるために顔検出されないが大きな音がしているという状況下で、誤った発話検出と映像切り出し条件の変更が行われることを防ぐことができる。また、情報処理装置1Aは、映像のフレーム間の差分を監視して、必要に応じて初期設定処理を再度実行するようにしたため、参加者が途中で増減した場合や、初回の顔検出では顔検出に失敗した場合であっても、再度の顔検出によって現在の参加者の位置を正しく再認識し、誤った発話検出と映像切り出し条件の変更が行われることを防ぐことができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。例えば、上述の第1〜第3の実施形態において説明した各構成は、任意に組み合わせることができる。また第3の実施形態において、図19(b)の顔領域の二次元座標を、方位という一次元座標に落とし込んだ上でマスク値を設定したが、二次元座標のままマスク値を設定してもよい。
なお、上述した実施形態における情報処理装置1Aの少なくとも一部の機能をコンピュータで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報処理装置1Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における情報処理装置1Aの一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。また、情報処理装置1Aの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1A 情報処理装置
1B 情報処理装置
2 通信網
3A 表示装置
3B 表示装置
4A スピーカー
4B スピーカー
10 撮像部
11 顔検出部
12 距離推定部
13 しきい値設定部
14 記憶部
15 収音部
15A マイク
15B マイク
15C マイク
15D マイク
16 音源方向検出部
17 発話判定部
18 映像抽出部
19 利得制御部
20 映像/音声合成部
21 通信制御部
22 表示再生部
23 映像バス
24 音声バス
25 机
26A 参加者
26B 参加者
26C 参加者
26D 参加者
27 特徴抽出部
28 特徴比較部
29 マスク設定部
30 映像差分算出部
37 再顔検出判断部

Claims (5)

  1. 周囲の映像を取得する撮像部と、
    前記撮像部の光軸に略垂直な平面に配置され音声を取得する、少なくとも3つ以上の収音部と、
    前記収音部から得られた音声情報を元に音源の方向を検出する音源方向検出部と、
    前記音源方向検出部によって検出された音源の方向と、前記収音部から得られた音声情報とを元に発話を検出する発話判定部と、
    前記発話判定部で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定部と、
    を備える情報処理装置。
  2. 前記情報処理装置は、
    前記撮像部によって得られた映像上の人を検出する人検出部と、
    前記人検出部により検出された人までの距離を推定する距離推定部と、
    をさらに備え、
    前記しきい値設定部は、
    前記検出された人の方位に対して、前記検出された人までの距離に応じたしきい値を設定する、
    請求項1に記載の情報処理装置。
  3. 前記しきい値設定部は、
    前記撮像部の光学系の光軸を中心とした方位と前記距離推定部で推定された距離との関係を、あらかじめ設定された方位に対する距離の関係を表す距離パターンと比較し、最も合致する距離パターンを選択する距離パターン選択部をさらに備え、
    前記距離パターン選択部により選択された距離パターンに基づいて、前記人検出部が人を検出しなかった方位に対して、前記音量レベルのしきい値を設定する、
    請求項2に記載の情報処理装置。
  4. 映像から特徴量を抽出する特徴抽出部と、
    前記特徴抽出部が抽出した特徴に基づいて、今回における特徴と前回における特徴とを比較し、前回からの前記情報処理装置の設置環境の変更有無を検知する特徴比較部と、
    をさらに備え、
    前記しきい値設定部は、
    前記特徴比較部が、前回から前記設置環境に変更が無いと検知した場合には、前回推定された距離に基づいてしきい値を設定する、
    請求項1から請求項3のいずれか一項に記載の情報処理装置。
  5. 周囲の映像を撮像部により取得する撮像手順と、
    前記撮像部の光軸に略垂直な平面に配置された少なくとも3つ以上の収音部により音声情報を取得する収音手順と、
    前記収音手順から得られた音声情報を元に音源の方向を検出する音源方向検出手順と、
    前記音源方向検出手順によって検出された音源の方向と、前記収音手順によって得られた音声情報とを元に発話を検出する発話判定手順と、
    前記発話判定手順で発話を検出する際の判定に用いる音量レベルのしきい値を、前記撮像部の光学系の光軸を中心とした方位毎に設定するしきい値設定手順と、
    を有する情報処理方法。
JP2015239366A 2015-12-08 2015-12-08 情報処理装置、及び情報処理方法 Pending JP2017108240A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015239366A JP2017108240A (ja) 2015-12-08 2015-12-08 情報処理装置、及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015239366A JP2017108240A (ja) 2015-12-08 2015-12-08 情報処理装置、及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2017108240A true JP2017108240A (ja) 2017-06-15

Family

ID=59060203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015239366A Pending JP2017108240A (ja) 2015-12-08 2015-12-08 情報処理装置、及び情報処理方法

Country Status (1)

Country Link
JP (1) JP2017108240A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置
CN113228615A (zh) * 2018-12-28 2021-08-06 索尼集团公司 信息处理装置、信息处理方法和信息处理程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2006018818A (ja) * 2004-06-04 2006-01-19 Canon Inc 状況モニタリング装置及び状況モニタリングシステム
JP2011077649A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 収音装置、利得制御方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005274707A (ja) * 2004-03-23 2005-10-06 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
JP2006018818A (ja) * 2004-06-04 2006-01-19 Canon Inc 状況モニタリング装置及び状況モニタリングシステム
JP2011077649A (ja) * 2009-09-29 2011-04-14 Oki Electric Industry Co Ltd 収音装置、利得制御方法、およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113228615A (zh) * 2018-12-28 2021-08-06 索尼集团公司 信息处理装置、信息处理方法和信息处理程序
CN113228615B (zh) * 2018-12-28 2023-11-07 索尼集团公司 信息处理装置、信息处理方法和计算机可读记录介质
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置

Similar Documents

Publication Publication Date Title
CN110634189B (zh) 用于在沉浸式混合现实体验期间用户警报的系统和方法
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
WO2016183791A1 (zh) 一种语音信号处理方法及装置
US20220070371A1 (en) Merging webcam signals from multiple cameras
CN108900787B (zh) 图像显示方法、装置、系统及设备、可读存储介质
WO2014034556A1 (ja) 画像処理装置及び画像表示装置
JPH11331827A (ja) テレビカメラ装置
KR20170066258A (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
TWI714318B (zh) 人臉辨識方法及裝置
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
CN112423191B (zh) 一种视频通话设备和音频增益方法
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP2011217202A (ja) 画像取得装置
CN114520888A (zh) 影像撷取系统
WO2015198964A1 (ja) 音声入出力機能付き撮像装置およびテレビ会議システム
JP4934158B2 (ja) 映像音声処理装置、映像音声処理方法、映像音声処理プログラム
JP2011097447A (ja) コミュニケーションシステム
WO2009119288A1 (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP2017108240A (ja) 情報処理装置、及び情報処理方法
CN112839165A (zh) 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质
CN113676622A (zh) 视频处理方法、摄像装置、视频会议系统及存储介质
JP4373645B2 (ja) 映像配信システム、プログラム及び記録媒体
WO2022078291A1 (zh) 拾音方法和拾音装置
JP2019103011A (ja) 変換装置、変換方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200107