JP7276158B2

JP7276158B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7276158B2
Application number: JP2019564747A
Authority: JP
Inventors: 宣浩綱島
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-01-12
Filing date: 2019-01-10
Publication date: 2023-05-18
Anticipated expiration: 2039-01-10
Also published as: JPWO2019139101A1; EP3739573A4; EP3739573B1; EP3739573A1; US11837233B2; US20200335105A1; CN111542876A; WO2019139101A1

Description

本技術は、情報処理装置、情報処理方法およびプログラムに関し、詳しくは、複数の参加者により構成される会話（ディスカッション、会議、グループワーク、アクティブラーンニングなど）の状況を把握するための情報処理装置等に関する。

会話において、その会話の状況を把握することは非常に重要である。例えば、特許文献１には、会話の参加者の発話時間を記録して表示する技術が提案されている。また、例えば、特許文献２には、複数の参加者が装着した名札型のセンサによって得られる音声データなどから会話の状況を把握して相関図を呈示する技術が提案されている。これらの技術は、音声と加速度センサによるうなずきなどの動きはとれるが不十分であった。

特開平４－３２３６８９号公報特開２０１３－０５８２２１号公報

本技術の目的は、会話の状況把握をより詳細に行い得るようにすることにある。

本技術の概念は、
音声信号から会話の複数の参加者の発言を検出する音声処理部と、
画像信号から上記会話の複数の参加者の状態を検出する画像処理部と、
上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する判定部を備える
情報処理装置にある。

本技術において、音声処理部により、音声信号から会話の複数の参加者の発言が検出される。また、画像信号から会話の複数の参加者の状態が検出される。そして、判定部により、複数の参加者の発言と複数の参加者の状態に基づいて会話の状態が判定される。

例えば、会話の状態は、会話の参加者間の会話による関係性である、ようにされてもよい。また、例えば、会話の状態は、少なくとも、発言内容、発言回数または発言時間のいずれかを含む、ようにされてもよい。また、例えば、会話の状態は、会話の成立である、ようにされてもよい。この場合、例えば、参加者が会話の相手を見て話しをしているとき、会話が成立したと判定する、ようにされてもよい。

例えば、画像処理部は、参加者の状態として見ている方向を検出する、ようにされてもよい。そして、この場合、例えば、画像処理部は、参加者の顔の向きまたは視線方向から見ている方向を検出する、ようにされてもよい。

例えば、判定部は、第１の参加者の発言の後に第２の参加者の発言があり、かつ第２の参加者の見ている方向が第１の参加者の方向であるとき、第１の参加者と第２の参加者との間の会話があると判定する、ようにされてもよい。

このように本技術においては、音声信号から検出された会話の複数の参加者の発言と画像信号から検出された会話の複数の参加者の状態に基づいて会話の状態を判定するものである。そのため、参加者の発言だけで会話の状態を判定するものに比べて、会話の状態を精度よく判定することが可能となる。

なお、本技術において、例えば、会話に使用されている空間の平面マップ画像を生成する画像生成部をさらに備え、この平面マップ画像には、会話に参加しているそれぞれの参加者を示す参加者表示が存在し、この平面マップ画像には、検出された会話に基づいて、対応する２つの参加者表示をつなぐ会話線が存在する、ようにされてもよい。これにより、例えば、誰と誰が会話をしたかを視覚的に容易に認識可能となる。

例えば、画像処理部は、画像信号を処理して会話に参加しているそれぞれの参加者の位置をさらに検出し、画像生成部は、平面マップ画像におけるそれぞれの参加者を示す参加者表示の位置を、この検出されたそれぞれの参加者の位置に応じて変更する、ようにされてもよい。これにより、会話に参加しているそれぞれの参加者がどの位置にいるかを視覚的に容易に認識可能となる。

また、例えば、画像生成部は、平面マップ画像におけるそれぞれの参加者を示す参加者表示の位置を、それぞれの参加者の会話数に応じて変更する、ようにされてもよい。この場合、例えば、画像生成部は、それぞれの参加者を示す参加者表示の位置を、会話数が多いほど平面マップ画像の中央寄りに配置する、ようにされてもよい。これにより、誰の会話数が多いかを視覚的に容易に認識可能となる。また、この場合、例えば、画像生成部は、２参加者の参加者表示の間隔を、この２参加者間の会話数が多いほど近くする、ようにされてもよい。これにより、誰と誰との間の会話の数が多いかを視覚的に容易に認識可能となる。

例えば、参加者表示は、対応する参加者の発言数に応じたサイズとされる、ようにされてもよい。また、例えば、参加者表示には、対応する参加者の発言数を示す文字が添えられる、ようにされてもよい。これにより、それぞれの参加者の発言数の多少を視覚的に容易に認識可能となる。

例えば、会話線は、対応する参加者間の会話数に応じた太さとされる、ようにされてもよい。また、例えば、会話線には、対応する参加者間の会話数を示す文字が添えられる、ようにされてもよい。これにより各２参加者間の会話数の多少を視覚的に容易に認識可能となる。

例えば、画像生成部で生成された平面マップ画像を表示する表示部をさらに備える、ようにされてもよい。これにより、表示部にて平面マップ画像を確認することが可能となる。また、例えば、画像生成部で生成された平面マップ画像を保持するサーバをさらに備える、ようにされてもよい。これにより、サーバから過去の平面マップ画像を再生して確認することが可能となる。また、例えば、画像生成部で生成された平面マップ画像をモバイル端末に送信する通信部をさらに備える、ようにされてもよい。これにより、モバイル端末において、平面マップ画像を確認することが可能となる。

本技術によれば、会話の状況把握をより詳細に行い得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施の形態としての情報処理装置の構成例を示すブロック図である。第２の実施の形態としての情報処理装置の構成例を示すブロック図である。会話が行われる部屋の平面マップの一例を示す図である。会話が行われる部屋の平面マップの他の一例を示す図である。画像生成部で生成される平面マップ画像の一例を示す図である。画像生成部で生成される平面マップ画像の他の一例を示す図である。画像生成部で生成される平面マップ画像の他の一例を示す図である。画像生成部で生成される平面マップ画像の他の一例を示す図である。画像生成部で生成される平面マップ画像の他の一例を示す図である。情報処理装置の処理の流れを説明するための図である。大きな部屋（会場）で複数のグループに分かれて会話を行う場合における平面マップ画像の一例を示す図である。別の部屋に居る参加者が一つの会話に参加する場合における平面マップ画像の一例を示す図である。参加者表示、発言数、会話数以外の情報を平面マップやマップ外の領域に表示する場合における平面マップ画像の一例を示す図である。各参加者の会話数に応じて各参加者を示す参加者表示の位置を決定する例を説明するための図である。発言時間で各参加者の参加者表示のサイズを変化させた場合を説明するための図である。参加者の発言や会話の状況に応じて評価を行いその評価値を表示することを説明するための図である。各参加者の評価ランクを表示することを説明するための図である。モニタあるいはモバイル端末における画面表示例を示す図である。モニタあるいはモバイル端末における画面表示例を示す図である。モニタあるいはモバイル端末における画面表示例を示す図である。モニタあるいはモバイル端末における画面表示例を示す図である。モニタあるいはモバイル端末における画面表示例を示す図である。モニタあるいはモバイル端末における画面表示例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態
２．第２の実施の形態
３．変形例

＜１．第１の実施の形態＞
［情報処理装置］
図１は、第１の実施の形態としての情報処理装置１００の構成例を示している。この情報処理装置１００は、音声処理部１０１と、画像処理部１０２と、判定部１０３を有している。

音声処理部１０１には、会話（ディスカッション、会議、グループワーク、アクティブラーンニングなど）に参加している各参加者の音声がマイクで検出されてなる音声信号が供給される。この場合、参加者にそれぞれ取り付けられたマイクを用いて音声検出がなされてもよく、あるいは複数のマイクで構成されるマイクアレーを用いて音声検出がなされてもよい。

音声処理部１０１は、音声信号から会話に参加している複数の参加者の発言を検出する。この場合、例えば、参加者毎に音声信号から音量を計測し、閾値以上の状態が一定時間以上継続した場合には発言であると判定する。閾値以上の状態が一定時間に満たない場合には、同意、否定、あいづち等に係る発声であるとして、発言とは判定しない。

画像処理部１０２には、会話に参加している参加者の画像がカメラで撮られてなる画像信号が供給される。この場合、３６０度カメラのように全周囲を撮像できるカメラを全参加者の中央に配置してそれぞれの参加者を撮像してもよく、あるいは全周囲をカバーするように複数台のカメラを配置してそれぞれの参加者を撮像してもよい。

画像処理部１０２は、画像信号から会話に参加している複数の参加者の状態を検出する。このように検出される参加者の状態は、当該参加者の発言が会話の状態および存在を判定するために必要とする状態である。例えば、参加者の状態には、当該参加者が見ている方向が含まれる。画像処理部１０２は、参加者の見ている方向を検出するために、画像処理によって、当該参加者の顔の向きを検出するか、あるいは当該参加者の視線方向を検出する。

判定部１０３は、音声処理部１０１で検出された複数の参加者の発言と、画像処理部１０２で検出された複数の参加者の状態に基づいて、会話の状態および存在を判定する。例えば、会話の状態は、会話の参加者間の会話による関係性である。また、例えば、会話の状態は、少なくとも、発言内容、発言回数または発言時間のいずれかを含む。また、例えば、会話の状態は、会話の成立である。例えば、判定部は、参加者が会話の相手を見て話をしているとき、会話が成立したと判定する。

また、例えば、判定部は、第１の参加者が発言した後に、あるいはその発言が終わる直前に、第２の参加者の発言があり、かつ第２の参加者の見ている方向が第１の参加者の方向であるとき、第１の参加者と第２の参加者との間の会話があると判定する。なお、第２の参加者の見ている方向が第１の参加者の方向でないときであっても、会話があると判定するようにされてもよい。例えば、第１の参加者が発言した後に、第２の参加者が発声するとき、あるいは第１の参加者が発言した後に、第２の参加者の顔が上下に動く（あいづち）」のときなどでも会話があると判定することが可能である。

図１に示す情報処理装置１０の動作を簡単に説明する。会話に参加している各参加者の音声がマイクで検出されてなる音声信号が音声処理部１０１に供給される。この音声処理部１０１では、音声信号が処理されて、会話に参加している各参加者の発言が検出される。また、会話に参加しているそれぞれの参加者の画像がカメラで撮られてなる画像信号が画像処理部１０２に供給される。この画像処理部１０２では、画像信号が処理されて、会話に参加しているそれぞれの参加者の状態、例えば見ている方向が検出される。

音声処理部１０１で検出された会話に参加している各参加者の発言と、画像処理部１０２で検出された会話に参加している各参加者の状態が、判定部１０３に供給される。判定部１０３では、それぞれの参加者の発言とそれぞれの参加者の状態に基づいて、会話の状態及び存在が判定され、判定情報が得られる。

このように図１に示す情報処理装置１００においては、会話に参加しているそれぞれの参加者の発言と画像処理で検出された状態に基づいて会話の状態及び存在が判定される。そのため、参加者の発言だけで会話の状態及び存在を判定するものに比べて、会話の状態及び存在を精度よく判定できる。

＜２．第２の実施の形態＞
［情報処理装置］
図２は、第２の実施の形態としての情報処理装置２００の構成例を示している。この情報処理装置２００は、Ｎ個（Ｎは整数）のカメラ２０１-1～２０１-Nと、Ｍ個（Ｍは整数）のマイク２０２-1～２０２-Mと、画像音声制御システム２０３と、モニタ２０４と、サーバ２０５と、モバイル端末２０６を有している。

カメラ２０１-1～２０１-Nは、会話に参加している参加者の画像を撮るためのものである。カメラ２０１-1～２０１-Nは、会話に参加している参加者、特に顔を撮像するように設置される。この場合、３６０°カメラのように全周囲を撮像できるカメラが参加者の中央に設置されてもよく、また、全周囲を撮像できるように複数台のカメラが設置されてもよい。

図３は、会話が行われる部屋の平面マップの一例を示している。この例において、「Ａ」～「Ｄ」が付された丸表示は会話に参加している参加者を示す参加者表示を示しており、各参加者は部屋の中央に置かれているテーブルの回りにいる。この例においては、全周囲を撮像できる３６０°カメラが机の上に設置されている。この場合、平面マップ内におけるカメラの向きと位置が一定状態となるように調整される。なお、この例においては、部屋にテーブルが１つあって、その周囲に４名の参加者がいる状態を示しているが、テーブルの数や形状、参加者の人数などは任意である。

図４は、会話が行われる部屋の平面マップの他の一例を示している。この例において、「Ａ」～「Ｄ」が付された丸表示は会話の参加者表示を示しており、各参加者は部屋の中央に置かれている机の回りにいる。この例においては、全周囲を撮像できる３６０°カメラであるカメラ１が机の上に設置されていると共に、部屋の周辺に存在するホワイトボードを撮るようにカメラ２が設置されている。このカメラ２では、ホワイトボードを撮像でき、またホワイトボードに書き込みをした参加者が書き込み内容をホワイトボードの前で説明する際に、当該参加者の顔を撮像することもできる。この場合、カメラ１およびカメラ２を設置する際に、平面マップにおけるカメラの位置と向きが調整される。

図２に戻って、マイク２０２-1～２０２-Mは、会話に参加している各参加者の音声を検出するためのものである。この場合、マイク２０２-1～２０２-Mは、参加者のそれぞれに取り付けられたマイクであってもよく、あるいは各参加者の音声を検出するマイクアレーを構成する複数のマイクであってもよい。

画像音声制御システム２０３は、カメラ２０１-1～２０１-Nで得られた画像信号やマイク２０２-1～２０２-Mで得られた音声信号を処理して、会話が行われる部屋の平面マップ画像を生成する。画像音声制御システム２０３は、生成された平面マップ画像をモニタ２０４に供給し、モニタ２０４に平面マップ画像を表示する。

また、画像音声制御システム２０３は、生成された平面マップ画像を、ユーザの操作に応じて、モニタ２０４に代わって、あるいはモニタ２０４と共に、モバイル端末２０６に供給し、モバイル端末２０６に平面マップ画像を表示する。また、画像音声制御システム２０３は、生成された平面マップ画像をサーバ２０５に供給して記録し、また、ユーザの操作に応じて、サーバ２０５から平面マップ画像を再生してモニタ２０４やモバイル端末２０６に供給し、再生された平面マップ画像を表示する。

画像音声制御システム２０３は、制御部２３１と、ユーザ操作部２３２と、音声処理部２３３と、画像処理部２３４と、判定部２３５と、画像生成部２３６と、通信部２３７を有している。制御部２３１は、画像音声制御システム２０３の各部の動作を制御する。ユーザ操作２３２は、ユーザが種々の操作を行うためのキー、ボタン、タッチパネル、リモコンなどである。

画像処理部２３４には、事前準備の段階で各参加者の顔が登録され得る。ここで、各参加者にマイクを取り付けることで各参加者の音声を検出する場合、登録される各参加者の顔とそれぞれの参加者に取り付けられるマイクの番号とを関連付けておいてもよい。これにより、各参加者に関連付けされた音声検出が可能となる。

各参加者の顔画像を登録する際には、それぞれの参加者の顔をカメラで撮像することが行われる。このとき、参加者の顔の大きさとカメラから当該参加者までの距離を関連付けて計測しておく。これにより、カメラで撮像された参加者の顔の大きさに基づいて、カメラから参加者までの距離を推定することが可能となる。

なお、上述の方法でカメラから参加者までの距離の推定が困難である場合、あるいは距離の推定が必要ない場合には、カメラから参加者までの距離を固定として取り扱うことも考えられる。また、カメラから参加者までの距離を、２台以上のカメラを使ってステレオカメラを構成することで計測することも考えられる。この技術は、例えば、“特開昭６２－０８０７６８号公報”に記載されているが、これ以外の方法でも良いことは勿論である。

画像処理部２３４は、画像信号（撮像画像）に対して顔検知処理を行って、各参加者の顔の位置と状態、例えば見ている方向を決定する。見ている方向は、顔の向きあるいは視線方向を決定することで決定される。顔の位置や視線を決定する技術は、例えば、“特開２０１２－２２６６６５号公報”に記載されているが、これ以外の方法でも良いことは勿論である。この場合、画像処理部２３４は、顔検知処理で検知された顔と予め登録している顔との比較をすることで個人照合を行って、検知されたそれぞれの顔がいずれの参加者の顔であるかを特定する。

また、画像処理部２３４は、所定の参加者の平面マップ上における位置（方向、距離）を、撮像画角内における参加者の顔の位置と大きさに基づいて決定する。この場合、撮像画角内における参加者の顔の位置から、平面マップ上におけるカメラから見た参加者の方向を決定できる。また、上述したように、登録時に参加者の顔の大きさとカメラから参加者までの距離が関連付けて計測されているので、この登録時の顔の大きさと現在の顔の大きさの比率でカメラから参加者までの距離を決定できる。

なお、上述ではカメラの撮像画像に対して顔検知処理を行って各参加者の顔の位置などを決定しているが、参加者が必ずしもカメラの方を向いているわけではない。例えば、会話中にホワイトボードに板書したりして、カメラの撮像画像に参加者の顔が存在しない場合がある。参加者の顔が検知できなかった場合は、最後に顔を検知した場所を参加者の位置（顔位置）として固定する。あるいは、この場合、例えば、物体追跡技術を使って、顔が見えなくなった場所から物体追尾を行い、平面マップ上の顔の参加者の位置（顔位置）を更新してもよい。この物体追跡技術は、例えば、“特開平６－１６９４５８号公報”に記載されているが、これ以外の方法でも良いことは勿論である。

音声処理部２３３は、それぞれの参加者に対応した音声信号を処理して、会話に参加しているそれぞれの参加者の発言を検出する。ここで、それぞれの参加者に取り付けられたマイクで音声検出を行う場合、音声処理部２３３は、各検出音声がどの参加者のものであるかを容易に把握できる。これにより、音声と参加者とのマッチングが行われる。

一方、音声をマイクアレーで検出する場合、音声処理部２３３は、各検出音声がどの参加者のものであるかを以下のようにして把握できる。すなわち、マイクアレーは、例えば、全周囲を撮像できる３６０°カメラと同じ位置、あるいはその周辺に設置され、音声を検出すると同時に、その音声が発せられている方向も検出する。そのため、音声処理部２３３は、上述したように画像処理部２３４で検出されるそれぞれの参加者の顔の位置情報を参照して、マイクアレーで検出される音声がどの参加者のものであるかを把握する。これにより、音声と参加者とのマッチングが行われる。なお、マイクアレーによる音声方向検出の技術は、例えば、“特開平９－２５１２９９号公報”に記載されているが、これ以外の方法でも良いことは勿論である。

音声処理部２３３は、それぞれの参加者に対応した音声信号を処理して、会話に参加しているそれぞれの参加者の発言を検出する。この場合、例えば、参加者毎に音声信号から音量を計測し、閾値以上の状態が一定時間以上継続した場合には発言であると判定する。閾値以上の状態が一定時間に満たない場合には、同意、否定、あいづち等に係る発声であるとして、発言とは判定しない。

判定部２３５は、音声処理部２３３で得られたそれぞれの参加者の発言と、画像処理部２３４で得られたそれぞれの参加者の状態に基づいて、会話を検出する。この場合、例えば、第１の参加者が発言した後に、あるいはその発言が終わる直前に、第２の参加者の発言があり、かつ第２の参加者の見ている方向が第１の参加者の方向であるとき、第１の参加者と第２の参加者との間の会話があると判定する。

画像生成部２３６は、会話に使用されている部屋などの空間の平面マップ画像を生成する。この場合、画像生成部２３６は、この平面マップ画像に、画像処理部２３４で検出された会話に参加しているそれぞれの参加者を示す参加者表示を含める。そして、画像生成部２３６は、この参加者表示の位置を、画像処理部２３４で決定された当該参加者の位置（顔位置）に応じてダイナミックに変更する。また、画像生成部２３６は、この平面マップ画像に、判定部２３５の会話判定情報に基づいて、対応する２つの参加者表示をつなぐ会話線を含める。

図５は、画像生成部２３６で生成される平面マップ画像の一例を示している。この例において、「Ａ」～「Ｄ」が付された丸表示は会話に参加している参加者を示す参加者表示を示している。なお、参加者表示の表示形式は、図示のような記号の他に、名前でもよく、登録している顔でもよく、色でもよく、それらの複数の組み合わせであってもよい。また、表示形式は固定であってもよく、あるいはユーザに設定したり、切り替えたりしてもよい。

また、この例における「Ａ」～「Ｄ」の参加者表示は、「Ａ」～「Ｄ」の参加者の現在位置を示している。また、この例では、「Ｂ」と「Ｃ」の参加者表示を結ぶ会話線が存在し、「Ｂ」と「Ｃ」の参加者間に会話が存在したことが示されている。なお、会話線の表示位置は、対応する参加者表示の位置が移動する場合には、それに伴って移動する。このように平面マップ画像に表示される会話線は、会話が検出されてから一定時間表示した後に削除されてもよい。

図６は、画像生成部２３６で生成される平面マップ画像の他の一例を示している。この例においても、「Ａ」～「Ｄ」が付された丸表示は会話に参加している参加者を示す参加者表示を示している。この例では、「Ｂ」と「Ｃ」、「Ａ」と「Ｂ」、「Ａ」と「Ｄ」のそれぞれの参加者表示を結ぶ会話線が存在し、それぞれの参加者間に会話が存在したことが示されている。

この場合、会話数が累積されており、それぞれの会話線に会話数を示す文字が添えられている。ここで、参加者間の会話数のカウントは、上述したようにその参加者間に会話が存在すると判定される毎にインクリメントされていく。この例においては、「Ｂ」と「Ｃ」の参加者間の会話が５回であり、「Ａ」と「Ｂ」の参加者間の会話が１回あり、「Ａ」と「Ｂ」の参加者間の会話が２回であることが示されている。この会話数の累積については、会話開始からの全ての数でもよく、あるいは過去一定の時間内、例えば過去５分間の間に行われた会話の数を累積してもよい。

なお、会話線に会話数を示す文字を添える代わりに、図７に示すように、会話線の太さを会話数に応じたものとして間接的に会話数を示すようにされてもよい。また、会話線に会話数を示す文字を添えることと、会話線の太さを会話数に応じたものとすることとを、併用することも考えられる。

図８は、画像生成部２３６で生成される平面マップ画像の他の一例を示している。この例においては、図６に示す例に対して、さらに、各参加者に対応した参加者表示に発言数を示す文字が添えられている。この例においては、参加者「Ａ」の発言数が３回であり、参加者「Ｂ」の発言数が６回であり、参加者「Ｃ」の発言数が５回であり、参加者「Ｄ」の発言数が２回であることが示されている。

なお、参加者表示に発言数を示す文字を添える代わりに、図９に示すように、参加者表示の大きさ（サイズ）を発言数に応じたものとして間接的に発言数を示すようにされてもよい。また、参加者表示に発言数を示す文字を添えることと、参加者表示の大きさを発言数に応じたものとすることとを、併用することも考えられる。また、参加者表示に発言数ではなく発言時間を示す文字を沿えることも考えられる。

図２に戻って、画像生成部２３６は、生成された平面マップ画像を、モニタ２０４に供給し、モニタ２０４に平面マップ画像を表示させる。また、画像生成部２３６は、生成された平面マップ画像を、サーバ２０５に供給して、保持させる。また、画像生成部２３６は、生成された平面マップ画像を、ユーザの操作に応じて、モニタ２０４に代わって、あるいはモニタ２０４と共に、通信部２３７を通じてモバイル端末２０６に供給し、モバイル端末２０６に平面マップ画像を表示させる。また、画像生成部２３６は、ユーザの操作に応じて、サーバ２０５から平面マップ画像を再生してモニタ２０４やモバイル端末２０６に供給し、再生された平面マップ画像を表示させる。なお、サーバ２０５からの平面マップ画像の再生を、モバイル端末２０６から通信部２３７を介して指示することも考えられる。

図２に示す情報処理装置２００の処理の流れを説明する。まず、図１０（ａ）に示すように、事前準備として、カメラ２０１-1～２０１-Nが、会話に参加している全ての人、特に顔が撮像されるように設置される。例えば、３６０°カメラのように全周囲を撮像できるカメラが参加者の中央に設置されるか、あるいは全周囲を撮像できるように複数台のカメラが設置される。この場合、平面マップ内におけるカメラの向きと位置が一定状態となるように調整される。

また、事前準備として、マイク２０２-1～２０２-Mが設置される。例えば、会話に参加している全ての人にマイクが取り付けられるか、あるいはマイクアレーが参加者の中央に設置される。ここで、会話に参加している全ての人にマイクが取り付けられる場合には、マイクと参加者との関連付けがされる。また、事前準備として、各参加者の顔がカメラで撮られて登録される。この場合、参加者とカメラの距離が一定の状態で撮像され、顔と共にその大きさも計測されて保持される。なお、この場合の距離の情報も一緒に保持されてもよい。また、この場合、参加者の登録が初めてのときは新規登録となるが、既に登録された参加者があるときは、残りの参加者を追加登録することで足りる。

事前準備が終わると、会話に伴って、図１０（ｂ）に示すメイン処理が繰り返えし行われる。ステップＳＴ１において、カメラ２０１-1～２０１-Nを用いて、会話に参加している各参加者を含む撮像画像を得る。そして、ステップＳＴ２において、画像処理部２３４で、撮像画像信号を処理して、各参加者の顔の位置と状態、例えば見ている方向（顔の向きや視線）を決定する。

また、ステップＳＴ３において、マイク２０２-1～２０２-Mを用いて、会話に参加している各参加者の音声を検出する。次に、ステップＳＴ４において、音声処理部２３３で、音声信号を処理して、会話に参加しているそれぞれの参加者の発言を検出する。

そして、ステップＳＴ５において、判定部２３５で、音声処理部２３３で得られた、参加者の全部または一部の発言と、画像処理部２３４で得られた参加者の全部または一部の状態に基づいて、会話を検出する。この場合、例えば、第１の参加者が発言した後に、あるいはその発言が終わる直前に、第２の参加者の発言があり、かつ第２の参加者の見ている方向が第１の参加者の方向であるとき、第１の参加者と第２の参加者との間の会話があると判定する。また、例えば、第１の参加者が発言した後に、第２の参加者が発声するとき、あるいは第１の参加者が発言した後に、第２の参加者の顔が上下に動く（あいづち）」のとき、第１の参加者と第２の参加者との間の会話があると判定する。

次に、ステップＳＴ６において、画像生成部２３６で、会話に使用されている部屋などの空間の平面マップ画像を生成する。この場合、平面マップ画像に、画像処理部２３４で検出された会話に参加しているそれぞれの参加者を示す参加者表示が含められ、この参加者表示の位置は、画像処理部２３４で決定された当該参加者の位置（顔位置）に応じてダイナミックに変更される。また、この場合、平面マップ画像には、判定部２３５の会話判定情報に基づいて対応する２つの参加者表示をつなぐ会話線が含められる他、各参加者の発言数や２参加者間の会話数などの表示も含められる。

次に、ステップＳＴ７において、画像生成部２３６で、作成された平面マップ画像を出力する。この場合、平面マップ画像をモニタ２０４に供給して、モニタ２０４に平面画像を表示させる。また、この場合、平面マップ画像をサーバ２０５に供給して、サーバ２０５に順次生成される平面マップ画像を蓄積保持させる。さらに、この場合、平面マップ画像を、通信部２３７を通じてモバイル端末２０６に送信し、このモバイル端末２０６に平面マップ画像を表示させる。

上述したように図２に示す情報処理装置２００において、判定部２３５では、会話に参加しているそれぞれの参加者の発言と画像処理で検出された状態に基づいて会話の状態及び存在を判定するものである。そのため、参加者の発言だけで会話の状態及び存在を判定するものに比べて、会話の状態及び存在を精度よく判定することが可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で生成される平面マップ画像には、会話に参加しているそれぞれの参加者を示す参加者表示が存在し、この平面マップ画像には、検出された会話に基づいて、対応する２つの参加者表示をつなぐ会話線が存在するものである。そのため、誰と誰が会話をしたかを視覚的に容易に認識可能となる。

また、図２に示す情報処理装置２００において、画像処理部２３４は、画像信号を処理して会話に参加しているそれぞれの参加者の位置をさらに検出し、画像生成部２３６は、平面マップ画像におけるそれぞれの参加者を示す参加者表示の位置を、この検出されたそれぞれの参加者の位置に応じて変更するものである。そのため、会話に参加しているそれぞれの参加者がどの位置にいるかを視覚的に容易に認識可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で生成される平面マップ画像に存在する参加者表示は、対応する参加者の発言数に応じたサイズとされ、あるいは当該参加者表示には、対応する参加者の発言数を示す文字が添えられるものである。そのため、それぞれの参加者の発言数の多少を視覚的に容易に認識可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で生成される平面マップ画像に存在する会話線は、対応する参加者間の会話数に応じた太さとされ、あるいは当該会話線には、対応する参加者間の会話数を示す文字が添えられるものである。そのため、各２参加者間の会話数の多少を視覚的に容易に認識可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で生成された平面マップ画像は表示部としてのモニタ２０４に供給され、このモニタ２０４に平面マップ画像が表示されるものである。そのため、会話の例えばファシリテーターは発言や会話に関する種々の情報を持つ平面マップ画像をモニタ２０４で確認可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で生成された平面マップ画像はサーバ２０５に供給されて保持されるものである。そのため、このサーバ２０５から過去の平面マップ画像を再生して例えばモニタ２０４に供給して表示させることができ、過去の平面マップ画像を容易に確認することが可能となる。

また、図２に示す情報処理装置２００において、画像生成部２３６で平面マップ画像またはサーバ２０５から読み出された過去の平面マップ画像は必要に応じて通信部２３７を通じてモバイル端末２０６に供給され、このモバイル端末２０６に現在または過去の平面マップ画像が表示されるものである。そのため、会話の例えばファシリテーターは発言や会話に関する種々の情報を持つ平面マップ画像をモバイル端末２０６で確認可能となる。

＜３．変形例＞
なお、上述実施の形態においては、予め参加者の顔を登録して、画像から検出した顔と登録している顔を比較することで個人照合を行っている。しかしながら、これでは登録していない人が参加した場合に適切な表示をすることができない。そこで、個人照合に失敗した場合は、その顔を新たに参加者として登録することも考えられる。

この場合、新規参加者に関しては顔の大きさと距離の関係が登録されていないので、ステレオカメラなどの距離を計測できる手段を用いていない場合は、正確な距離は分からない。そこで、新規参加者のカメラからの距離は固定にするか、平均的な顔の大きさを用いて簡易的にカメラまでの距離を算出するようにされる。

また、上述実施の形態においては、会話を1つのグループで行っている例を示したが、大きな部屋（会場）で複数のグループに分かれて会話を行う場合もある。このような場合に、参加者がグループ間で入れ替わることがある。その場合、図１１に示すように、カメラをグループ毎に配置しておき、あるグループのカメラに映っている顔をそのグループの参加者とする。なお、この図１１の例では、グループ１は「Ａ」～「Ｄ」の４人の参加者で構成され、グループ２は「Ｅ」～「Ｈ」の４人の参加者で構成され、グループ３は「Ｉ」～「Ｋ」の３人の参加者で構成されている。

そして、グループごとに参加者の位置や発言数、会話数を表示する。グループのメンバーが入れ替わったかどうかの判定は、ある参加者が別のグループを撮像するためのカメラに顔が映った瞬間に入れ替えてもよいし、入れ替わった後、予め設定してある時間を経過した後に入れ替えてもよい。この場合は、最初にカメラに顔が映った時間も記録しておき、予め設定してある時間を経過した後に入れ替わったと判断して、会話数などを表示する。

また、上述した実施の形態においては、１つの部屋（空間）内で行われる会話について述べた。しかし、テレビ会議や電話会議、ウェブ会議などによって、別の部屋に居る参加者が一つの会話に参加する場合もある。このような場合、図１２のように参加者が存在する複数の空間の平面マップを全て用意し、すべての参加者の位置を表示する。この図１２に示す例では、部屋１には「Ａ」～「Ｄ」の４人の参加者が存在し、部屋２には「Ｆ」～「Ｇ」の２人の参加者が存在する。

同じ空間内の参加者同士の会話に関しては上述した同様に会話線を表示するが、別の空間に居る参加者同士の会話に関する会話線については、平面マップ間を跨いで表示する。なお、図１２の例は２部屋の例を示しているが、３部屋以上の場合も同様である。なお、別の部屋にいる参加者同士の会話の成立は互いにモニタを見ているか否かで判定することが可能である。

また、上述実施の形態においては、会話への参加者の位置や発言数、会話数を平面マップに表示していたが、図１３に示すように参加者表示、発言数、会話数以外の情報を平面マップやマップ外の領域に表示してもよい。例えば、図示のように、取得した音声から音声認識によって発言内容を文章化して表示するようにされてもよい。この場合、発言内容は、キーワードのみを抽出して表示すること、あるいは発言内容の全文を表示すること等が考えられる。

また、上述実施の形態においては、会話の参加者のカメラ画像で観測された平面マップ上の位置に参加者を表示していた。しかし、図１４（ａ），（ｂ）に示すように、各参加者の会話数に応じて各参加者を示す参加者表示の位置を決定してもよい。例えば、全体の会話数が多い人ほど画面の中央寄りに配置し、全体の会話数が少ない人ほど画面の外側に配置する。また、２参加者間の会話数が多い場合は近くに配置し、２参加者間の会話数が少ない場合は遠くに配置する。

配置の方法としては、例えば、磁気力におけるクーロンの法則の式を用いる。クーロン力Fは、以下の数式（１）で示される。ここで、ｋは比例定数、ｍ１、ｍ２は物体１、２のそれぞれの磁気量、ｒは２物体間の距離である。
F = km1m2/r² ・・・（１）

まず、平面マップの中央に仮想物体0を磁気量ｍ０として配置し、４名の参加者がいる場合は物体１～４にそれぞれ、会話数に比例した磁気量ｍ１～ｍ４を与える。会話数が多いほど磁気量は増える。ｍ０とｍ１～ｍ４は数式（１）で計算されるクーロン力で互いに引きつけ合う。一方、ｍ１～ｍ４はそれぞれで反発しあうが、お互いに会話数が多いほど反発し合う力は弱くなるので、ｍ１´＝１/ｍ１のように、会話数に応じた磁気量を逆数にする。ｍ１の代わりにｍ１´を数式（１）に代入することで、計算されるクーロン力は会話数に反比例した力で互いに反発し合う。

ｍ０に対する引きつけ合う力で、すべての参加者の位置は中央に寄ろうとする。一方、会話数に反比例した力でお互いに反発しあうことによって、離れようとする。引きつけ合う力と反発しあう力の均衡が保たれる状態で、参加者の位置は停止し、決定される。会話数が変わると参加者の平面マップ上での表示位置も変わる。

これにより、参加者表示の位置は会話数が多いほど平面マップ画の中央寄りに配置されることから、誰の会話数が多いかを視覚的に容易に認識可能となる。また、２参加者間の会話数が多いほど当該２参加者の参加者表示が近づけられることから、誰と誰の会話の数が多いかを視覚的に容易に認識可能となる。例えば、図１４（ａ）は「Ａ」の参加者の会話数が少なく、残りの３名の会話数が多い状態を示しており、これからその状態であることを視覚的に容易に認識できる。また、図１４（ｂ）は、「Ａ」の参加者の会話数が多く、会話のハブ的な役割をしている状態を示しており、これからその状態であることを視覚的に容易に認識できる。

なお、このように各参加者の会話数に応じて各参加者を示す参加者表示の位置を決定する場合にあっても、会話線に会話数を示す文字を添えること、あるいは会話線の太さを会話数に応じたものとすることができ、また、各参加者表示にそれぞれの参加者の発言数を示す文字を添えること、あるいは各参加者表示のサイズをそれぞれの参加者の発言数や発言時間に応じたサイズにすることができる（図６～図９参照）。

例えば、図１５（ａ），（ｂ）は、図１４（ｂ）に対して発言時間で各参加者の参加者表示のサイズを変化させた場合を示している。図１５(ａ)の場合、「Ａ」の参加者の発言時間が長く、例えば独演会の様にひたすら発言している様子が確認できる。また、図１５（ｂ）の場合、「Ａ」の参加者は、会話は数多くしているが発言時間はそれほど長くない、すなわち、その会話グループの司会者やファシリテーター的な役割をしている様子が確認できる。

このように、各参加者を示す参加者表示を会話数に応じた位置に配置することで、会話の状態を客観的に把握できる。カメラで観測された位置に基づいた平面マップや会話数に応じた位置に基づいた平面マップなど、複数の平面マップの表示方法をファシリテーターなどの閲覧者が切り替え可能としてもよい。

また、上述していないが、参加者の発言や会話の状況に応じて、評価を行いその評価値を表示する手段について説明する。例えば、図１６に示すように、会話グループごとに、その会話の評価ランクが表示される。図１６では、評価ランクを上からＡ，Ｂ，Ｃの３段階で表示している。例えば、右上に表示されているグループでは、“総合評価Ａ”と評価されている。

このように、グループ毎に評価ランクが表示されると、ファシリテーターにとってどのグループの会話を補助すればよいか分かりやすくなる。さらには、図１７に示すように各参加者の評価ランクを表示すれば、どの参加者が会話に参加できていないかが分かる。

グループ毎の評価は、例えば、発言数や会話数で評価する。例えば、以下の数式（２）を用いて、各グループの評価値Ｅｔを求める。ここで、Ｎgsは発言数、Ｎgcは会話数、αg、βgは係数である。数式（２）で計算された評価値を予め定めてある閾値で処理することで、評価ランクが求められる。なお、評価ランクに変換せずに、評価値をそのまま表示してもよい。
Et = αg・Ngs + βg・Ngc ・・・（２）

また、各参加者の評価値Ｅｍも、同じように、以下の数式（３）を用いて、発言数と会話数で求められる。ここで、Ｎmsは発言数、Ｎmcは会話数、αm、βmは係数である。数式（３）で計算された評価値を予め定めてある閾値で処理することで、評価ランクが求められる。なお、評価ランクに変換せずに、評価値をそのまま表示してもよい。
Em = αm・Nms + βm・Nmc ・・・（３）

また、グループの評価値については、一部の人だけで盛り上がっていては評価が低いので、各参加者の評価値を評価に加えてもよい。例えば、以下の数式（４）に、基づいて、各グループの評価値Ｅｔ´を求める。ここで、ｍｉｎ(Em)はその会話グループに参加しているすべての参加者の最低評価値を表し、γgは係数である。これによって、評価値の低い参加者が居ると、グループ全体の評価は下がる。
Et’ = αg・Ngs + βg・Ngc + γg・min(Em) ・・・（４）

なお、数式（２）～（４）においては発言数を用いたが、この発言数を発言時間に替えてもよいし、双方を使用してもよい。

なお、上述では、会話に参加している参加者や、会話グループの評価を行う例を示したが、それと共に、あるいはそれとは別個に、会話の結論に影響を与えた内容を評価することも考えられる。

また、上述では、モニタ２０４やモバイル端末２０６に会話に参加している参加者や会話グループの評価値を表示する例を示したが、先生が複数の生徒の会話グループを監視する場合、先生向けあるいは生徒向けに以下のような情報を提示することが考えられる。

先生向けに提示する情報としては、先生に介入を提案するための情報が考えられる。この場合、各グループがどういう状態にあるかが可視化される。また、この場合、各グループのうち、最も可視化が必要なグループが解かるように優先順位が付けられる。例えば、全然発言しない生徒がいるグループの優先順位は高くされる。先生は、この優先順位の高いグループの状態を優先して可視化しで、そのグループがどのような状態にあるかを知ることができる。

また、先生向けに提示する情報としては、各生徒あるいは各グループの自動的に付けられた点数あるいは成績の情報が考えられる。この点数あるいは成績は、例えば、累積あるいは瞬間のものが先生の操作に応じて適宜表示される。

また、生徒向けに提示する情報としては、生徒をアシストする情報が考えられる。例えば、次の会話に参加させるために、これまでの会話のサマリが表示される。また、生徒向けに提示する情報としては、生徒に警告するための情報が考えられる。例えば、発言回数や、全体の流れに寄与する発言の量が表示される。

また、上述実施の形態においては、発言や会話などの情報を会話の状況を図るための情報として利用する例を示したが、同意、否定、あいづち等に係る発声の情報も会話の状況を図るための情報として利用することも考えられる。例えば、同意、否定、あいづち等に係る発生数もカウントしておき、平面マップ画像に、会話数や発言数とともに、その発声数も表示するようにされてもよい。

また、上述実施の形態においては、マイクとカメラが別体である例を示したが、これらが一体となっていることも考えられる。例えば、３６０度カメラにマイクが一体になっている例、あるいは、全周囲をカバーする複数台のカメラのそれぞれにマイクが一体になっている例などが考えらえる

また、上述実施の形態においては、画像信号を処理して検出する参加者の状態として見ている方向を示したが、検出される参加者の状態はこれに限定されない。例えば、参加者の状態として、参加者の顔の表情（喜び、怒り、哀しみ、楽しみ、驚きなど）、ジェスチャー（指、手、腕の動き）、顔の動き（上下方向のうなずき（同意、あいづち）、左右方向の首振り（否定））、生体情報（体温変化や脈拍変化）などを検出するようにされてもよい。また、会話中に発言がなくても、例えば沢山うなずいている人は会話に積極的に参加している可能性が高く、そういった情報をカウントして、会話数や発言数とともに、表示するようにされてもよい。

また、上述実施の形態においては、音声信号から会話の参加者の発言を検出し、画像信号から会話の参加者の状態を検出する例を示したが、画像信号から参加者の発言と参加者の状態の双方を検出することも考えられる。

また、図１８～図２３は、モニタ２０４あるいはモバイル端末２０６における画面表示例を示している。図１８の画面表示例には、ポッド（会話グループ）Ａ～Ｄにおける会話の状態が示されている。各ポッドの表示に対応して、ＰＯＤＡ～ＰＯＤＤのポッド識別子が表示されている。また、各ポッド表示において、矢印Ｐ１で示すように、参加者が顔を含む画像で示されている。

また、各ポッド表示において、矢印Ｐ２で示す領域には、議論のタイムラインが表示されている。この場合、誰の発言であるかがわかるように、それぞれの発言の先頭に矢印Ｐ３で示すようにサムネール画像が配置され、さらには矢印Ｐ４で示すように名前文字も配置されている。なお、サムネール画像と名前文字のいずれか一方であってもよい。この議論のタイムラインが表示されている領域の表示は、発言があるごとに新規の発言が最新位置に表示されるように自動的に更新されていくが、ユーザは、画面上でスクロール操作をすることで、過去の発言を確認することが可能とされる。

図１９の画面表示例には、図１８の表示例と同様に、ポッド（会話グループ）Ａ～Ｄにおける会話の状態が示されている。各ポッドの表示に対応して、ＰＯＤＡ～ＰＯＤＤのポッド識別子が表示されている。また、各ポッド表示において、矢印Ｐ１で示すように、参加者が顔を含む画像で示されている。また、各ポッド表示において、矢印Ｐ２で示す領域には、議論のタイムラインが表示されている。

この例では、さらに、矢印Ｐ１で示す参加者表示において、各参加者の画像の色が発言数に応じてダイナミックに変化していくものである。例えば、発言数が多い参加者は黄色とし、発言数が中ぐらいの参加者は赤色とし、発言数が少ない参加者は緑色とするなどである。なお、図示の例では、色の違いを画像に重畳した模様の違いで表している。勿論、各参加者の画像に重畳する模様を発言数に応じてダイナミックに変化させていってもよい。また、発言数だけでなく、同意、うなずきの発声の数や、会話の数を、同様に色や模様で表現することもできる。これにより、各ポッドにおける参加者それぞれの発言数等を例えばユーザである先生は視覚的に容易に確認でき、議論の行き詰まりを感じたポッドに介入し易くなる。

図２０の画面表示例には、図１８の表示例と同様に、ポッド（会話グループ）Ａ～Ｄにおける会話の状態が示されている。各ポッドの表示に対応して、ＰＯＤＡ～ＰＯＤＤのポッド識別子が表示されている。また、各ポッド表示において、矢印Ｐ２で示す領域には、議論のタイムラインが表示されている。また、この例では、矢印Ｐ１で示す領域は、顔画像等による参加者表示のために使用する状態の他に、ポッド内の共有画面にも切り替え可能とされる。図示の例においては、ポッドＡ，Ｂは、共有画面に切り替えられている。例えば、ユーザである先生はこのような画面切り替えを操作して、各ポッドで如何なる資料あるいは記述に基づいて議論がなされているかを知ることができる。

なお、各ポッド表示において、矢印Ｐ２で示す領域に表示される会話参加者の発言はサーバ２０５に蓄積され、例えば、授業の終了時に、タイムラインが各生徒のモバイル端末２０６に議事録的に送られてくる。生徒がタイムライン中の発言をタップすると、その発言の時間から収録映像（カメラ画像）を見返すことも可能とされる。この場合、カメラ画像の時間軸に対して各発言の時刻が関連付けされて保持されていることになる。

図２１の画面表示例には、４名の参加者による会話の状態が示されている。矢印Ｑ１で示す領域に、参加者が顔を含む画像で示されている。また、矢印Ｑ２で示す領域に、議論のタイムラインが表示されている。この場合、誰の発言であるかがわかるように、それぞれの発言の先頭に矢印Ｑ４で示すように名前文字が配置されている。名前文字の代わりにサムネール画像であってもよい。また、矢印Ｑ３で示す領域に、議論で使用されているスライドや板書が表示されている。なお、図示の例では、４名の参加者のうち、矢印Ｑ１で示す領域の右上に表示された画像に対応した参加者は、この時点では板書のために後ろ向きとなっていることから、顔画像をとらえることができず、人物追尾がなされて画像がクロッピングされている。なお、各参加者の画像を囲む枠色と各発言の先頭の名前の文字部分の色とを同一色として参加者と発言とを対応づけることも考えられる。図示の例では、枠色の代わりに線種を変えて示している。

図２２の画像表示例には、４名の参加者による会話の状態が示されている。４名の参加者は、顔画像が矩形枠の４つの角に表示されている。この場合、それぞれの参加者に対応した円が表示され、これらの円は対角線上を移動するようになされている。なお、参加者と円との対応をわかりやすくするために、円とそれに対応する参加者の画像の枠の色とを同一色とすることが行われる。図示の例では、枠色の代わりに線種を変えて示している。各参加者の円は発言数が多いほど大きくなり、また、会話数が多いほどその中心の矩形枠中心からの距離が短くなる。図示の例においては、右上の画像で表示される参加者は、発言数が多く、かつ会話数も多く、左上の画像で表示される参加者は、発言数が少なく、かつ会話数も少ないことがわかる。

図２３の画像表示例には、４名の参加者による会話の状態が示されている。４名の参加者を示す顔画像が表示されている。この場合、発言数が多い参加者の顔画像ほど大きく表示される。また、参加者間を結ぶ会話線が表示されており、会話数が多いほど太く表示される。図示の例においては、左上の画像で示される参加者は、発言数が多く、特に右下の画像で示される参加者との間の会話数が多いことがわかる。また、右上の画像で示される参加者は、発言数が中くらいであるが、特に右下の画像で示される参加者との間の会話数が多く、左下の画像で示される参加者との間の会話はないことがわかる。

また、本技術は、以下のような構成を取ることもできる。
（１）音声信号から会話の複数の参加者の発言を検出する音声処理部と、
画像信号から上記会話の複数の参加者の状態を検出する画像処理部と、
上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する判定部を備える
情報処理装置。
（２）上記会話の状態は、上記会話の参加者間の会話による関係性である
前記（１）に記載の情報処理装置。
（３）上記会話の状態は、少なくとも、発言内容、発言回数または発言時間のいずれかを含む
前記（１）に記載の情報処理装置。
（４）上記会話の状態は、会話の成立である
前記（１）に記載の情報処理装置。
（５）上記判定部は、上記参加者が会話の相手を見て話をしているとき、上記会話が成立したと判定する
前記（４）に記載の情報処理装置。
（６）上記画像処理部は、上記参加者の状態として、見ている方向を検出する
前記（１）から（５）のいずれか記載の情報処理装置。
（７）上記画像処理部は、上記参加者の顔の向きまたは視線方向から該参加者の見ている方向を検出する
前記（６）に記載の情報処理装置。
（８）上記判定部は、第１の参加者の発言の後に第２の参加者の発言があり、かつ上記第２の参加者の見ている方向が上記第１の参加者の方向であるとき、上記第１の参加者と上記第２の参加者との間の会話があると判定する
前記（６）または（７）に記載の情報処理装置。
（９）上記音声処理部は、上記音声信号から音量を計測し、閾値以上の状態が一定時間以上継続した場合には発言であると判定する
前記（１）から（８）のいずれかに記載の情報処理装置。
（１０）上記音声処理部は、閾値以上の状態が一定時間に満たない場合には、同意、否定またはあいづちに係る発声であると判定する
前記（９）に記載お情報処理装置。

（１１）上記会話に使用されている空間の平面マップ画像を生成する画像生成部をさらに備え、
上記平面マップ画像には、上記会話に参加しているそれぞれの参加者を示す参加者表示が存在し、
上記平面マップ画像には、上記検出された会話に基づいて、対応する２つの参加者表示をつなぐ会話線が存在する
前記（１）から（１０）のいずれかに記載の情報処理装置。
（１２）上記画像処理部は、上記画像信号を処理して上記会話に参加しているそれぞれの参加者の位置をさらに検出し、
上記画像生成部は、上記平面マップ画像における上記それぞれの参加者を示す参加者表示の位置を、上記検出されたそれぞれの参加者の位置に応じて変更する
前記（１１）に記載の情報処理装置。
（１３）上記画像生成部は、上記平面マップ画像における上記それぞれの参加者を示す参加者表示の位置を、上記それぞれの参加者の会話数に応じて変更する
前記（１１）に記載の情報処理装置。
（１４）上記画像生成部は、上記それぞれの参加者を示す参加者表示の位置を、会話数が多いほど上記平面マップ画像の中央寄りに配置する
前記（１３）に記載の情報処理装置。
（１５）上記画像生成部は、２参加者の参加者表示の間隔を、該２参加者間の会話数が多いほど近くする
前記（１３）または（１４）に記載の情報処理装置。
（１６）上記参加者表示は、対応する参加者の発言数に応じたサイズとされる
前記（１１）から（１５）のいずれかに記載の情報処理装置。
（１７）上記参加者表示には、対応する参加者の発言数を示す文字が添えられる
前記（１１）から（１６）のいずれかに記載の情報処理装置。
（１８）上記会話線は、対応する参加者間の会話数に応じた太さとされる
前記（１１）から（１７）のいずれかに記載の情報処理装置。
（１９）上記会話線には、対応する参加者間の会話数を示す文字が添えられる
前記（１１）から（１８）のいずれかに記載の情報処理装置。
（２０）上記画像生成部で生成された平面マップ画像を表示する表示部をさらに備える
前記（１１）から（１９）のいずれかに記載の情報処理装置。
（２１）上記画像生成部で生成された平面マップ画像を保持するサーバをさらに備える
前記（１１）から（２０）のいずれかに記載の情報処理装置。
（２２）上記画像生成部で生成された平面マップ画像をモバイル端末に送信する通信部をさらに備える
前記（１１）から（２１）のいずれかに記載の情報処理装置。
（２３）音声処理部が、音声信号から会話の複数の参加者の発言を検出する音声処理ステップと、
画像処理部が、画像信号から上記会話の複数の参加者の状態を検出する画像処理ステップと、
会話検出部が、上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する検出ステップを有する
情報処理方法。
（２４）コンピュータを、
音声信号から会話の複数の参加者の発言を検出する音声処理手段と、
画像信号から上記会話の複数の参加者の状態を検出する画像処理手段と、
上記複数の参加者の発言と上記複数の参加者の状態を判定する判定手段として機能させる
プログラム。

１００・・・情報処理装置
１０１・・・音声処理部
１０２・・・画像処理部
１０３・・・判定部
２００・・・情報処理装置
２０１-1～２０１-N・・・カメラ
２０２-1～２０２-M・・・マイク
２０３・・・画像音声制御システム
２０４・・・モニタ
２０５・・・サーバ
２０６・・・モバイル端末
２３１・・・制御部
２３２・・・ユーザ操作部
２３３・・・音声処理部
２３４・・・画像処理部
２３５・・・判定部
２３６・・・画像生成部
２３７・・・通信部

Claims

音声信号から会話の複数の参加者の発言を検出する音声処理部と、
画像信号から上記会話の複数の参加者の状態を検出する画像処理部と、
上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する判定部を備え、
上記画像処理部は、上記参加者の状態として、見ている方向を検出し、
上記判定部は、第１の参加者が発言した後に、あるいは該発言が終わる直前に第２の参加者の発言があり、かつ上記第２の参加者の見ている方向が上記第１の参加者の方向であるとき、上記第１の参加者と上記第２の参加者との間の会話があると判定する
情報処理装置。
上記画像処理部は、上記参加者の顔の向きまたは視線方向から該参加者の見ている方向を検出する
請求項１に記載の情報処理装置。
上記音声処理部は、上記音声信号から音量を計測し、閾値以上の状態が一定時間以上継続した場合には発言であると判定する
請求項１に記載の情報処理装置。
上記音声処理部は、閾値以上の状態が一定時間に満たない場合には、同意、否定またはあいづちに係る発声であると判定する
請求項３に記載の情報処理装置。
上記会話に使用されている空間の平面マップ画像を生成する画像生成部をさらに備え、
上記平面マップ画像には、上記会話に参加しているそれぞれの参加者を示す参加者表示が存在し、
上記平面マップ画像には、上記判定部によってあると判定された会話に基づいて、対応する２つの参加者表示をつなぐ会話線が存在する
請求項１に記載の情報処理装置。
上記画像処理部は、上記画像信号を処理して上記会話に参加しているそれぞれの参加者の位置をさらに検出し、
上記画像生成部は、上記平面マップ画像における上記それぞれの参加者を示す参加者表示の位置を、上記検出されたそれぞれの参加者の位置に応じて変更する
請求項５に記載の情報処理装置。
上記画像生成部は、上記平面マップ画像における上記それぞれの参加者を示す参加者表示の位置を、上記それぞれの参加者の会話数に応じて変更する
請求項５に記載の情報処理装置。
上記画像生成部は、上記それぞれの参加者を示す参加者表示の位置を、会話数が多いほど上記平面マップ画像の中央寄りに配置する
請求項７に記載の情報処理装置。
上記画像生成部は、２参加者の参加者表示の間隔を、該２参加者間の会話数が多いほど近くする
請求項７に記載の情報処理装置。
上記参加者表示は、対応する参加者の発言数に応じたサイズとされる
請求項５に記載の情報処理装置。
上記参加者表示には、対応する参加者の発言数を示す文字が添えられる
請求項５に記載の情報処理装置。
上記会話線は、対応する参加者間の会話数に応じた太さとされる
請求項５に記載の情報処理装置。
上記会話線には、対応する参加者間の会話数を示す文字が添えられる
請求項５に記載の情報処理装置。
上記画像生成部で生成された平面マップ画像を表示する表示部をさらに備える
請求項５に記載の情報処理装置。
上記画像生成部で生成された平面マップ画像を保持するサーバをさらに備える
請求項５に記載の情報処理装置。
上記画像生成部で生成された平面マップ画像をモバイル端末に送信する通信部をさらに備える
請求項５に記載の情報処理装置。
音声処理部が、音声信号から会話の複数の参加者の発言を検出する音声処理ステップと、
画像処理部が、画像信号から上記会話の複数の参加者の状態を検出する画像処理ステップと、
判定部が、上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する判定ステップを有し、
上記画像処理ステップでは、上記参加者の状態として、見ている方向を検出し、
上記判定ステップでは、第１の参加者が発言した後に、あるいは該発言が終わる直前に第２の参加者の発言があり、かつ上記第２の参加者の見ている方向が上記第１の参加者の方向であるとき、上記第１の参加者と上記第２の参加者との間の会話があると判定する
情報処理方法。
コンピュータを、
音声信号から会話の複数の参加者の発言を検出する音声処理手段と、
画像信号から上記会話の複数の参加者の状態を検出する画像処理手段と、
上記複数の参加者の発言と上記複数の参加者の状態に基づいて会話の状態を判定する判定手段として機能させ、
上記画像処理手段は、上記参加者の状態として、見ている方向を検出し、
上記判定手段は、第１の参加者が発言した後に、あるいは該発言が終わる直前に第２の参加者の発言があり、かつ上記第２の参加者の見ている方向が上記第１の参加者の方向であるとき、上記第１の参加者と上記第２の参加者との間の会話があると判定する
プログラム。