JP6191333B2

JP6191333B2 - 情報処理装置、通信システムおよびプログラム

Info

Publication number: JP6191333B2
Application number: JP2013174578A
Authority: JP
Inventors: 渉畠中
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2017-09-06
Anticipated expiration: 2033-08-26
Also published as: JP2015043507A

Description

本発明は、撮像手段と複数の音入力手段とを備え、複数の音入力手段に入力された音声情報に基づいて音源方向を検知し、その音源方向へ撮像方向を変更して撮像を行い、得られた画像情報をその音声情報とともに出力する情報処理装置、２以上の情報処理装置を含む通信システム、およびその処理を情報処理装置に実行させるためのプログラムに関する。

地理的に離れた拠点間で、画像および音声によってコミュニケーションを取るための通信システムの１つとして、テレビ会議システムが利用されている。このテレビ会議システムには、一台のカメラで複数人の会議参加者を撮影するようなシステムが存在している。このようなシステムでは、カメラを左右に回転させることにより、会話している参加者にカメラが向くように制御している。

このようなシステムの１つとして、会話している参加者をその音声方向から検知し、その方向にカメラを向け、その参加者の顔を検知して表示させるシステムが知られている（例えば、特許文献１参照）。このシステムでは、会話している参加者の顔画像を、その音声に合わせて確実に伝達するべく、カメラが回転している間、音声を検出した参加者の顔画像を表示させ、口元の形を変えた画像を合成することにより音声に合わせて口を動かしている。

しかしながら、このような処理は、他拠点との間の自然なコミュニケーションを取るための画像処理であり、同じ拠点内で行われている会話については考慮されていない。すなわち、同じ拠点内で複数の参加者が会話していても、そのとき会話している一人の参加者の顔画像を表示させ、口を音声に合わせて動かすのみである。これでは、他拠点の参加者は、その顔画像が表示されている参加者が誰と会話しているのか分からないという問題があった。

また、同じ拠点にいる参加者同士が交互に会話をしていると、カメラが左右に振れ続けるため、振れるたびに顔画像が切り替わり、それを見ている他拠点の参加者は、会議に集中することができないという問題もあった。

そこで、同じ拠点内で誰と会話しているかが分かり、また、会議に集中することができるように、会話の当事者に応じた画像を表示させ、会議の臨場感を高めることができる装置等の提供が望まれている。

本発明は、上記課題に鑑み、撮像手段と複数の音入力手段とを備える情報処理装置であって、撮像手段の撮像方向を制御する撮像方向制御手段と、撮像方向制御手段により撮像方向を変更し、撮像手段により撮像された同じ拠点にいる１以上のユーザの画像を記録する画像記録手段と、複数の音入力手段に入力された同じ拠点にいるユーザの音声に基づき、音源方向を検知する音源方向検知手段と、音源方向検知手段により検知された音源方向へ撮像方向制御手段によって撮像方向を変更し、撮像手段により撮像されたユーザの画像に基づき、当該ユーザの顔の向きを判断する顔方向判断手段と、顔方向判断手段により判断された顔の向きと同じ方向を、音源方向検知手段が音源方向として検知したかどうかに応じて、ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断する会話者判断手段と、会話者判断手段により他拠点との会話と判断された場合、撮像手段により撮像された画像に対して画像処理を行い、同じ拠点にいる他のユーザとの会話と判断された場合、撮像手段により撮像されたユーザと他のユーザとを含む画像、または撮像手段により撮像されたユーザの画像もしくは画像記録手段に記録されたユーザの画像と画像記録手段に記録された他のユーザの画像とに対して画像処理を行う画像処理手段と、画像処理手段により画像処理して得られた画像を他拠点へ送信し、ユーザの画像を、またはユーザの画像と他のユーザの画像とを並べて表示させる通信制御手段とを含む、情報処理装置が提供される。

本発明によれば、会話の当事者に応じた画像を表示させ、会議の臨場感を高めることが可能となる。

本実施形態の通信システムの構成例を示した図。図１に示す通信システムに用いられる情報処理装置のハードウェア構成図。図１に示す通信システムに用いられる情報処理装置の機能ブロック図。情報処理装置により実行される処理の流れを示したフローチャート。情報処理装置が備える顔方向判断部および画像処理部により実行される処理の詳細な流れを示したフローチャート。任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像の一例を示した図。任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像の別の例を示した図。任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像のさらに別の例を示した図。

図１は、本実施形態の通信システムの構成例を示した図である。通信システムは、この構成に限定されるものではないが、地理的に離れた各拠点に配置される２以上の情報処理装置１０、１１がネットワーク１２に接続された構成とされる。地理的に離れた拠点としては、東京本社と北海道事業所、東京本社とニューヨーク支店等を例示することができる。

情報処理装置１０、１１は、それぞれ有線または無線によりネットワーク１２に接続することができ、無線により接続する場合、アクセスポイントと呼ばれる基地局を介してネットワーク１２に接続することができる。ここでは、２つの情報処理装置１０、１１のみが示されているが、３以上の情報処理装置がネットワーク１２に接続されたものであってもよい。また、ネットワーク１２は、有線ネットワーク、無線ネットワークのいずれであってもよく、ＷＡＮ(Wide Area Network)やインターネット等を利用することができる。

情報処理装置１０、１１は、同じハードウェア構成とされ、同じ機能を有するものとされる。ハードウェア構成および機能の詳細については後述する。任意の拠点に配置される情報処理装置１０は、撮像機能を有し、その拠点にいる会議の参加者である１以上のユーザを撮像して得られた画像を、他拠点に配置される情報処理装置１１へ送信し、その画像を表示させる。実際には、撮像して得られる画像データまたは画像情報を送信し、画像データまたは画像情報に基づき画像を表示させるが、説明を容易にするために、本願では「画像」という用語を使用する。

また、情報処理装置１０は、音入出力機能を有し、そのユーザが発した声等の入力を受け付け、それを音声等として上記の画像とともに情報処理装置１１へ送信する。この音声も、実際には音声データまたは音声情報であるが、説明を容易にするために、本願では「音声」という用語を使用する。図１では、情報処理装置１０が備えるカメラにより撮像を行い、複数のマイクにより音の入力を受け付ける。

情報処理装置１０は、情報処理装置１１が撮像して得られた画像および入力された音声を、当該情報処理装置１１から受信し、画像を表示し、音声を出力する。図１では、情報処理装置１０の表示装置が備えるスピーカから音声を出力し、表示装置のディスプレイ上に画像を表示する。

情報処理装置１０は、音を発生させている物体、すなわち音源がある方向（音源方向）を検知し、その音源方向へ撮像方向を変更し、撮像を行うことができるように構成されている。また、情報処理装置１０は、撮像方向を変更して撮像された１以上のユーザの画像を記録し、任意のユーザの画像を送信してそのユーザの画像を表示させることができるように構成されている。このため、情報処理装置１０は、会話しているユーザを撮像するために撮像方向を変更している間、記憶されているそのユーザの画像情報を読み出し、送信して、情報処理装置１１にそのユーザの画像を表示させることができる。

情報処理装置１０は、そのユーザの画像内の顔画像と口元の形を変えた画像とを合成した画像を生成し、送信することができるように構成されている。このため、情報処理装置１０は、その画像を送信し、情報処理装置１１に音声に合わせて口が動く擬似画像を表示させることができる。この擬似画像を表示させることにより、実際に喋っているように見せることができる。

また、情報処理装置１０は、撮像されたユーザの顔の向きを判断し、その顔の向きと同じ方向を、音源方向として検知したかどうかに応じて、同じ拠点にいる他のユーザと会話しているか、他拠点にいるユーザと会話しているかを判断するように構成されている。また、情報処理装置１０、１１は、同じ拠点にいる他のユーザと会話している場合、その二人のユーザの画像を並べて表示させるための画像を生成し、それを送信するように構成されている。このため、他拠点にいるユーザは、その二人のユーザが会話していることを知ることができる。

同じ拠点にいる二人のユーザが会話を行う場合、撮像方向がそのつど変更になるが、撮像方向を変更している間、上記の二人のユーザの画像を並べて表示させるための画像を生成し、送信している。このため、画像に振れが生じることはなく、それを見ている他拠点にいるユーザは、会議に集中することが可能となる。

上記のような処理や機能を実現するためのハードウェア構成を、図２に例示する。情報処理装置１０、１１は同じ構成であるため、情報処理装置１０についてのみ説明する。情報処理装置１０は、撮像機能および音入出力機能を実現するために、カメラ２０といった撮像手段と、マイクアレイ２１といった複数の音入力手段と、スピーカ２２といった音出力手段とを備える。

カメラ２０は、入力する光を集束させるレンズと、レンズにより集束された光を電気信号に変換する撮像素子とを含み、静止画、または連続して撮像を行い、得られた静止画を時系列に並べて動画とし、その動画を出力する。カメラ２０は、静止画または動画を設定するためのモード設定ボタン等を備え、その設定に応じていずれかの画像を出力する。カメラ２０としては、例えば、デジタルカメラやビデオカメラを挙げることができる。

このカメラ２０は、例えば、このカメラ２０を支持する支持部を備え、支持部を中心として左右の方向に回転可能とされる。回転する角度は、会議に参加している複数のユーザの各々に向けて撮像可能な角度であれば、１２０度、１８０度や３６０度等、いかなる角度であってもよい。この構成に限られるものではなく、カメラ２０は、ターンテーブルに載置され、ターンテーブルを回転させることにより左右の方向に回転させることも可能である。

マイクアレイ２１は、複数のマイクロフォンから構成され、複数のマイクロフォンが筐体内に水平方向に一列に配列したものを使用してもよいし、各マイクロフォンが自在に配置できるようになっていて、各マイクロフォンを水平方向に一列に並べて使用してもよい。また、一列ではなく、各ユーザの前に各マイクロフォンを１つずつ配置して使用することもできる。会話をしているユーザをより正確に検知するためには、各ユーザの前に各マイクロフォンを配置して使用することが望ましい。

マイクアレイ２１に使用されるマイクロフォンは、磁石、コイル、振動板を含み、振動板が音波を受けて振動し、振動板の振動を、磁石に近隣して配置されるコイルが受け、コイル内の磁束を変化させることにより起電力が発生し、それを音信号として出力する。

スピーカ２２は、他拠点から送信されてきた音情報を再生して出力する。スピーカ２２も、マイクロフォンと同様、磁石、コイル、振動板を含むものとすることができる。この場合、スピーカ２２は、入力された音声信号により、磁石に近隣して配置されるコイル内の磁束が変化し、それによってコイルが振動し、振動板が振動して、その振動板に接する空気が振動して音波を発生させることにより音を出力する。

情報処理装置１０は、そのほか、表示装置２３およびコントローラ２４を含んで構成される。表示装置２３は、情報処理装置１０へ送られてきた画像を表示する。通信システムにおいては、他拠点において会話しているユーザの画像が送られてくるので、そのユーザの画像として、そのユーザの顔の静止画または動画を表示する。表示装置２３としては、ディスプレイを用いることができ、スクリーンおよびプロジェクタを用いることもできる。

コントローラ２４は、ＣＰＵ２５と、ＲＯＭ２６と、ＲＡＭ２７と、ＨＤＤ２８と、ネットワーク１２に接続するためのネットワークＩ／Ｆ２９とを含んで構成される。

ＲＯＭ２６は、情報処理装置１０の起動時に実行されるＢＩＯＳ(Basic Input／Output System)等のプログラムを記憶する。ＲＡＭ２７は、ＣＰＵ２５が作業を行うために必要とされる記憶領域を提供する。ＨＤＤ２８は、アプリケーションやＯＳ等のプログラム、それらに関連するデータ等を記憶する。ここでは、ＨＤＤ２８を使用しているが、ＳＳＤ(Solid State Drive)等のその他の記憶装置を用いてもよい。

このプログラムは、ネットワーク１２を介して、または図示しない記録媒体を介して提供され、ＨＤＤ２８に格納される。情報処理装置１０は、この記録媒体を接続可能にするために外部記憶装置Ｉ／Ｆを備えることができる。記録媒体としては、ＣＤ−ＲＯＭ、ＤＶＤ、ＳＤカード等を挙げることができ、外部記憶装置Ｉ／Ｆとしては、これらを読み書き可能にするＣＤドライブ、ＤＶＤドライブ、ＳＤカードスロット等を挙げることができる。

ＣＰＵ２５は、情報処理装置１０内の各手段を制御し、データの演算や加工を行う。各手段としては、上記の撮像手段、音入力手段、音出力手段、ＨＤＤ２８等の記憶手段等である。ＣＰＵ２５は、カメラ２０やマイクアレイ２１等からデータを受け取り、また、ＨＤＤ２８等からデータを読み出し、演算や加工を行い、それをネットワーク１２上や表示装置２３へ出力し、また、ＨＤＤ２８等に記憶させる処理を実行する。

情報処理装置１０は、電源が投入されると、ＲＯＭ２６からＢＩＯＳを取り出して実行し、カメラ２０、マイクアレイ２１、スピーカ２２、表示装置２３、ＨＤＤ２８等が使用できることをチェックする。そして、情報処理装置１０は、ＨＤＤ２８からＯＳをＲＡＭ２７に読み出し、実行することにより起動する。その後、情報処理装置１０は、ＯＳによる制御の下、アプリケーション等のプログラムを実行し、所望の処理を実現する。

図３を参照して、情報処理装置１０が備える機能について詳細に説明する。情報処理装置１１は、情報処理装置１０と同様の機能を備えるため、ここでは説明を省略する。なお、図３には、説明を分かりやすくするため、撮像手段としてのカメラ２０、音入力手段としてのマイクアレイ２１も図示されている。

情報処理装置１０は、機能部として、撮像方向制御部３０、画像記録部３１、音源方向検知部３２、顔方向判断部３３、会話者判断部３４、画像処理部３５、通信制御部３６を含んで構成される。情報処理装置１０は、上記機能部のみであってもよいが、そのほか、音声入力部３７、人物判断部３８を含むことができる。これらの機能部は、ＨＤＤ２８やネットワークＩ／Ｆ２９のほか、ＣＰＵ２５がＨＤＤ２８からプログラムを読み出し実行することにより実現される。

撮像方向制御部３０は、カメラ２０のレンズの向きを変えることにより撮像方向を制御する。カメラ２０のレンズの向きは、カメラ２０を支持する支持部を中心として左右の方向に回転させることにより変えることができる。また、ターンテーブル上にカメラ２０を載置した構成の場合、撮像方向制御部３０は、ターンテーブルをいずれかの方向に回転させることにより撮像方向を変えることができる。また、撮像方向制御部３０は、音源方向検知部３２により検知された音源方向の情報や、人物判断部３８の判断結果を受けて、いずれの方向に回転させるか、どの程度回転させるか等の撮像方向の制御を行う。

人物判断部３８は、情報処理装置１０が動作を開始したタイミングや、予め設定されたタイミングにおいて、カメラ２０により撮像された画像に人物が含まれるか否かを判断する。人物が含まれるか否かは、公知の顔認識アルゴリズムを使用して判断することができる。顔認識アルゴリズムでは、目、鼻、口、あご等の顔のパーツの相対位置、大きさ、形等の特徴を抽出し、また、肌色を検出することにより、顔認識を行う。ここでは、顔認識アルゴリズムを使用して人物の有無を判断しているが、人物の有無を判断することができれば、その他の方法を採用することもできる。

画像記録部３１は、ＨＤＤ２８等により実現され、人物判断部３８により人物が含まれることを判断し、撮像方向制御部３０がその判断結果から決定した撮像方向にカメラ２０の向きを変更し、カメラ２０により撮像して得られた人物であるユーザの画像を記録する。画像記録部３１は、このようにして得られたその拠点にいるユーザ全員の画像を記録する。記録する画像は、静止画の画像である。画像記録部３１は、各ユーザの画像を記録する際、各ユーザの位置情報と関連付けて記録される。

ユーザの位置情報は、例えば、カメラ２０が正面を向いたときの角度を、基準の０度とし、左右の方向へ回転させたときの角度の情報とすることができる。なお、角度には誤差が生じるので、左右に５°程度の誤差範囲を設けることが望ましい。また、ユーザの位置情報は、角度に限らず、東西南北のような方位を用いてもよい。このため、情報処理装置１０は、角度を測定するためのセンサ、ロータリエンコーダ、方位磁針等を備えることができる。

音声入力部３７は、マイクアレイ２１から入力された音が、情報処理装置１０が配置されている拠点にいるユーザからの音声入力であるか否かを検知し、音声入力を検知した場合、その音声を音源方向検知部３２へ送る。入力される音には、雑音も含まれるが、一般に音声の方が、音量が大きいことから音量により音声入力かどうかを検知することができる。これは一例であるので、音声を検知する方法としては、これまでに知られたいかなる方法でも使用することができる。

音源方向検知部３２は、音声入力部３７からの音声情報から音源方向を検知する。マイクアレイ２１は、複数のマイクロフォンから構成され、各マイクロフォンは異なる位置に配置されるため、入力される音声は、各マイクフォンによって時間差が生じる。最先に音声が入力されたマイクロフォンは、音源に最も近いことを示すため、どのマイクロフォンに最先に音声が入力されたかを判断することにより、その音源方向を検知することができる。音源方向検知部３２は、検知した音源方向を、音源方向の情報として撮像方向制御部３０へ入力する。なお、音源方向は、上記ユーザの位置情報と同様の情報とすることができる。

顔方向判断部３３は、音源方向検知部３２により検知された音源方向に向けて撮像方向制御部３０が撮像方向を変更し、その方向に向けられたカメラ２０により撮像されたユーザの画像に基づき、そのユーザの顔の向きを判断する。顔方向判断部３３は、例えば、画像記録部３１に記録されたそのユーザの画像が正面を向いた顔であるので、その顔の向きを基準とし、撮像された画像の顔の角度を推定することにより顔の向きを判断することができる。

顔方向判断部３３は、この角度も誤差が生じるので、例えば左右に５°程度の誤差範囲を設けることが望ましい。また、顔方向判断部３３は、角度に限らず、東西南北のような方位により顔の向きを判断してもよい。

会話者判断部３４は、顔方向判断部３３により判断された顔の向きと同じ方向を、音源方向検知部３２が音源方向として検知したかどうかに応じて、いずれの会話であるかを判断する。会話者判断部３４は、顔の向きと同じ方向を音源方向として検知した場合、そのユーザと同じ拠点にいる他のユーザとの会話と判断する。また、会話者判断部３４は、顔の向きと同じ方向を音源方向として検知しない場合、他拠点との会話と判断する。

会話者判断部３４は、同じ拠点にいる他のユーザとの会話と判断した場合、当該他のユーザが複数人であるか否かを、マイクアレイ２１に入力された音声に基づき判断する。すなわち、複数人の音声が入力されていれば、複数人と判断し、特定のユーザの音声のみが入力されていれば、そのユーザ一人と判断することができる。これらの情報は、画像処理部３５が画像処理を行う際に利用される。

このとき会話を行っている他のユーザは、音源方向検知部３２により音源方向として検知され、得られたその音源方向の情報からその位置が特定される。

画像処理部３５は、カメラ２０により撮像された画像あるいは画像記録部３１に記録された画像に対して画像処理を行い、他拠点にて表示させるための画像を生成する。例えば、カメラ２０を回転させている間に他拠点で表示させる画像を、画像記録部３１に記録されたそのユーザの画像に口元の形を変えた画像を合成することにより生成する。

また、カメラ２０により撮像された画像から２以上のユーザの顔画像等を切り抜き、並べる処理や、画像記録部３１に記録された２以上のユーザの画像の、表示する位置や大きさを変更する処理等を行うことにより生成する。このような合成する処理、切り抜き、並べる処理、表示する位置や大きさを変更する処理等については、従来から知られているいかなる方法を採用して実施することができ、ここではその詳細な方法について省略する。

会話者判断部３４により他のユーザが一人と判断された場合、カメラ２０により撮像された画像にユーザと当該他のユーザの二人が含まれているとき、画像処理部３５は、その画像からその二人のユーザの顔画像あるいは顔を含む所定領域を切り出す処理を行う。カメラ２０が回転し、振れたとしても、小さな振れであり、他拠点にいるユーザが会議に集中できなくなるような振れではないためである。

画像処理部３５は、切り抜いた顔画像あるいは所定領域の画像を並べて表示するための画像を生成する。このときの画像は、動画であるため、動画における顔や所定領域を並べて表示するための画像が生成される。所定領域としては、例えば、顔を含む最小の矩形の領域とすることができる。また、並べ方としては、上下あるいは左右に並べることができる。一般に、表示画面は、横長であるため、左右に並べることが望ましい。

一方、他のユーザが含まれていない場合は、カメラ２０が大きく振れることになるため、画像記録部３１に記録されたユーザの画像と他のユーザの画像とを用い、それらを並べて表示するための画像を生成する。画像記録部３１に記録される画像は、静止画であるため、その静止画を並べた画像が生成される。このとき、単に並べただけではなく、口元の形を変えた画像を合成した画像が生成される。

他のユーザが複数人と判断された場合に、一定時間内に音声の入力があり、カメラ２０により撮像された画像にユーザと他の複数のユーザ全員が含まれているとき、画像処理部３５は、その画像からユーザ全員の顔画像あるいは顔を含む所定領域を切り出す。画像処理部３５は、各ユーザにつき切り出す処理を行う。そして、画像処理部３５は、切り抜いた顔画像あるいは所定領域の画像を並べて表示するための画像を生成する。この場合、複数の画像を並べて表示することになるため、表示画面上の上下左右に並ぶように縮小（ズームアウト）して配置した画像を生成することができる。

他の複数のユーザが含まれていない場合は、画像記録部３１に記録されたユーザの画像と他の複数のユーザ全員の画像とを用い、それらユーザの画像を並べて表示するための画像を生成する。画像記録部３１に記録される画像は、静止画であるため、その静止画を並べて表示するための画像情報が生成される。この場合も、生成される画像は、口元の形を変えた画像を合成した画像とされる。

一定時間内に音声の入力がない場合は、他のユーザと会話していないものとみなし、カメラ２０により撮像されたユーザの画像を拡大（ズームアップ）して表示するための画像を生成する。ここではズームアップして表示するための画像を生成しているが、ズームアップしなくてもよいし、顔画像のみを切り抜いて表示してもよい。また、顔を含む所定領域を切り抜いて表示してもよい。

通信制御部３６は、画像処理部３５により画像処理して得られた画像を、マイクアレイ２１に入力された音声とともに他拠点へ送信し、また、他拠点から画像および音声を受信するための通信制御を行う。このように会話の当事者に応じた画像を表示させることができるため、他拠点にいるユーザが、誰に向かって会話をしているかが分かり、また、他拠点にいるユーザも、会議に集中することができ、さらには、会議の臨場感を高めることができる。

図４に示すフローチャートを参照して、情報処理装置１０が行う処理について詳細に説明する。情報処理装置１０は、情報処理装置１０が配置される拠点において、電源が投入され、プログラムが読み出されて実行されることにより、ステップ４００から処理を開始する。ここでは自動的にプログラムが読み出されて実行されるようになっているが、自動的に実行されない場合、そのプログラムが起動された段階でこの処理を開始することができる。

ステップ４０５では、その拠点にいる会議の参加者であるユーザ全員をカメラ２０により撮像する。このとき、撮像方向制御部３０によりカメラ２０の向きを変え、ユーザ全員の顔を撮像する。そして、撮像して得られた顔画像において口元を検出する。後の処理において、口元の形を変えた画像と合成し、実際に話しているように見せる処理を行うためである。

ステップ４１０では、全員の顔が撮像された後、実際に会議が始まり、マイクアレイ２１が音の入力を受け付ける。音には、音声のほか、エアコンや外を走る車等の雑音がある。ステップ４１５では、実際に会話が開始され、音声入力部３７が、ユーザからの音声入力であるか否かを検知する。そして、音声入力を検知した場合、その音声を音源方向検知部３２へ送る。

ステップ４２０では、音源方向検知部３２が、音声入力部３７からの音声に基づき音源方向を検知する。音源方向検知部３２は、検知した音源方向の情報を、撮像方向制御部３０へ入力する。ステップ４２５では、撮像方向制御部３０は、入力された音源方向の情報から、撮像方向の変更が必要かどうかを判断する。必要と判断した場合、ステップ４３０へ進み、必要でないと判断した場合、ステップ４５５へ進む。

ステップ４３０では、撮像方向制御部３０が、音源方向の情報に基づき撮像方向を変更する。そして、画像記録部３１から音源方向のユーザの画像を読み出す。画像処理部３５は、読み出した画像と口元の形を変えた画像とを合成し、その合成した画像を生成する。その合成した画像を送信して表示させる。

ステップ４３５では、カメラ２０の向きが、音源方向になったかどうかを判断する。この判断は、カメラ２０の向きが、音源方向になるまで繰り返される。音源方向になった場合、ステップ４４０へ進み、顔方向判断部３３が、会話をしているユーザの顔の向きを判断する。すなわち、カメラ２０の方向に向いているか、それ以外の方向に向いているかを判断し、それ以外の方向である場合、どのユーザの方向に向いているかを判断する。

ステップ４４５では、ステップ４４０での判断結果から、同じ拠点での会話であるかどうかを判断する。上記のそれ以外の方向に向いているという判断結果である場合、同じ拠点での会話と判断する。カメラ２０の方向に向いているという判断結果である場合、他拠点との会話と判断する。同じ拠点での会話と判断した場合、ステップ４５０へ進み、他拠点との会話と判断した場合、ステップ４５５へ進む。

ステップ４５０では、カメラ２０により撮像された画像内のユーザと会話している他のユーザの顔画像を切り抜き、切り抜いた２つの顔画像を並べて表示させるための画像を生成し、その画像を送信する。一方、ステップ４５５では、カメラ２０に向いているユーザをズームアップした画像を生成し、その画像を送信する。これらの送信が終了したところで、ステップ４６０へ進み、この処理を終了する。

次に、ステップ４４０〜ステップ４５５にて顔方向判断部３３および画像処理部３５が行う処理について、図５に示すフローチャートを参照して詳細に説明する。顔方向判断部３３は、上記のステップ４３５でカメラ２０の向きが音源方向になったときに、ステップ５００からこの処理を開始する。ステップ５０５では、会話しているユーザの顔の向きを判断する。顔の向きは、上記に例示した方法により判断することができる。

ステップ５１０では、ステップ５０５にて判断した顔の向きに基づき、その方向に他のユーザがいるかどうかを判断する。例えば、画像記録部３１に記録された画像に関連付けられた位置情報を用いて、その方向に他のユーザがいるかどうかを判断することができる。他のユーザがいると判断した場合、ステップ５１５にて同じ拠点で会話していると判断し、ステップ５２０にてその方向にいる他のユーザが複数人かどうかを判断する。複数人であると判断した場合、ステップ５２５へ進み、一人であると判断した場合、直接ステップ５３０へ進む。

ステップ５２５では、一定期間内、すなわち予め設定された期間内に他のユーザの音声を検知したかどうかを判断する。検知した場合、ステップ５３０へ進み、検知しなかった場合、ステップ５６０へ進む。ステップ５３０では、カメラ２０で撮像する撮像範囲内に他のユーザが存在するかどうかを判断する。すなわち、会話しているユーザと他のユーザが存在するかどうかを判断する。

他のユーザが存在すると判断した場合、ステップ５３５へ進み、画像処理部３５が、カメラ２０により撮像された画像内からユーザおよび他のユーザの顔画像を切り抜き、それらを並べて表示するための画像を生成する。そして、ステップ５６５へ進み、この処理を終了する。

ステップ５３０において他のユーザが存在しないと判断した場合、ステップ５４０へ進み、画像処理部３５は、画像記録部３１から会話をしているユーザおよび他のユーザの画像を取得する。ステップ５４５では、取得したユーザの顔画像と口元の形の画像とを合成し、合成したユーザの顔画像を並べて表示するための画像を生成する。そして、ステップ５６０へ進み、この処理を終了する。

ステップ５１０でその方向に他のユーザがいないと判断した場合、ステップ５５０へ進み、他拠点にいるユーザと会話をしていると判断する。そして、ステップ５５５で、表示すべきユーザは、他のユーザがいないので、当該ユーザのみであり、カメラ２０により撮像された当該ユーザの画像を処理し、ズームアップした画像を生成する。ステップ５６０で、この処理を終了する。

実際に情報処理装置１０は、任意の拠点である本社あるいは事業所内のある会議室の所定位置に配置される。図６（ａ）では、会議室に置かれたテーブル４０上の縁部にカメラ２０を中央とし、その左右にマイクアレイ２１を配置した構成とされている。テーブル４０を挟んで左右およびカメラ２０の正面に３人のユーザＡ、Ｂ、Ｃが会議に参加している。

カメラ２０のレンズは、正面にいるユーザＢの方を向いている。このため、カメラ２０により撮像して得られた画像は、図６（ｂ）のような画像となる。すなわち、正面にユーザＢ、その左右にユーザＡ、Ｃがテーブル４０を挟んで座っている画像となる。

この画像を他拠点に配置された情報処理装置１１へ送信し、表示させた場合の画像は、図６（ｃ）のような画像となる。この画像は、図６（ｂ）と同様、正面にユーザＢ、その左右にユーザＡ、Ｃがテーブル４０を挟んで座っている画像である。

ユーザＣが会話を開始すると、音源方向検知部３２によりそのユーザＣの方向を音源方向として検知するため、カメラ２０の向きがその方向に変更される。このときの様子を、図７に例示する。図７（ａ）に示すように、カメラ２０の向きが、ユーザＣがいる方向に変更される。

カメラ２０により撮像して得られた画像は、ユーザＣを中心とした画像となるため、図７（ｂ）のような画像となる。この画像は、ユーザＢ、Ｃのみを含み、ユーザＡは含まれない。また、図７に示す実施形態では、ユーザＣが正面を向き、他拠点にいるユーザと会話しているため、他拠点に配置された情報処理装置１１へ送信し、表示させた場合、そのユーザＣをズームアップした画像が送信され、そのズームアップした画像が表示される。このため、その画像は、図７（ｃ）に示すようなユーザＣをズームアップした画像となる。このように、会話の当事者を特定し、それを画像として表示することで、臨場感を高めることができる。

図７では他拠点との間で会話を行っている場合の様子を例示したが、同じ拠点で会話を行っている場合の様子を、図８を参照して説明する。ユーザＡがユーザＣと会話しているものとする。

カメラ２０の向きは、図８（ａ）に示すように、現在会話をしているユーザＡに向けられる。このときに撮像して得られた画像が、図８（ｂ）に示すような画像である。図８に示す実施形態では、ユーザＡが正面を向いておらず、同じ拠点にいるユーザＣがいる方向を向き、ユーザＣと会話を行っている。このため、他拠点に配置された情報処理装置１１では、図８（ｃ）に示すようなユーザＡ、Ｃの画像を並べた画像が表示される。これらの画像は、カメラ２０により撮像して得られたユーザＡの動画と、画像記録部３１に記録されたユーザＣの画像を並べて表示した画像で、ユーザＣの画像は口元の形の画像が合成されるので、口元が音声に合わせて動く。この場合も、会話の当事者を特定し、それを画像として表示することで、臨場感を高めることができる。

ユーザＡ、Ｃが一定時間内の短い会話をやりとりしている場合、ユーザＡについては動画を、ユーザＣについては、静止画に口元の形の画像を合成したものを表示し続けることができる。ユーザＣが会話を開始し、その会話が上記一定時間より長い場合、カメラ２０がユーザＣの方を向き、撮像を開始する。カメラ２０が移動している間は、ユーザＡについても、画像記録部３１に記録された静止画の画像に口元の形の画像が合成されたものを表示させることができる。そして、カメラ２０がユーザＣの方を向き、撮像を開始すると、ユーザＣの画像を静止画から動画へ切り替え、ユーザＡについては画像記録部３１に記録された静止画の画像に口元の形の画像が合成されたものを表示させる。再びユーザＡが会話を開始し、その会話が長い場合は、再びカメラ２０の向きが変えられるので、ユーザＣの画像を静止画に、ユーザＡの画像を動画に戻すことができる。

これまで本発明の情報処理装置および通信システム、プログラムにより実行される処理について図面に示した実施形態を参照しながら詳細に説明してきたが、本発明は、上述した実施形態に限定されるものではない。したがって、他の実施形態や、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。よって、本発明では、情報処理装置や通信システムにより実行される方法や、プログラムが記録された記録媒体も提供することができるものである。

１０、１１…情報処理装置、１２…ネットワーク、２０…カメラ、２１…マイクアレイ、２２…スピーカ、２３…表示装置、２４…コントローラ、２５…ＣＰＵ、２６…ＲＯＭ、２７…ＲＡＭ、２８…ＨＤＤ、２９…ネットワークＩ／Ｆ、３０…撮像方向制御部、３１…画像記録部、３２…音源方向検知部、３３…顔方向判断部、３４…会話者判断部、３５…画像処理部、３６…通信制御部、３７…音声入力部、３８…人物判断部、４０…テーブル

特開平５−１２２６８９号公報

Claims

撮像手段と複数の音入力手段とを備える情報処理装置であって、
前記撮像手段の撮像方向を制御する撮像方向制御手段と、
前記撮像方向制御手段により撮像方向を変更し、前記撮像手段により撮像された同じ拠点にいる１以上のユーザの画像を記録する画像記録手段と、
前記複数の音入力手段に入力された前記同じ拠点にいるユーザの音声に基づき、音源方向を検知する音源方向検知手段と、
前記音源方向検知手段により検知された音源方向へ前記撮像方向制御手段によって前記撮像方向を変更し、前記撮像手段により撮像された前記ユーザの画像に基づき、当該ユーザの顔の向きを判断する顔方向判断手段と、
前記顔方向判断手段により判断された顔の向きと同じ方向を、前記音源方向検知手段が音源方向として検知したかどうかに応じて、前記ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断する会話者判断手段と、
前記会話者判断手段により他拠点との会話と判断された場合、前記撮像手段により撮像された画像に対して画像処理を行い、前記同じ拠点にいる他のユーザとの会話と判断された場合、前記撮像手段により撮像された前記ユーザと前記他のユーザとを含む画像、または前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とに対して画像処理を行う画像処理手段と、
前記画像処理手段により画像処理して得られた画像を前記他拠点へ送信し、前記ユーザの画像を、または前記ユーザの画像と前記他のユーザの画像とを並べて表示させる通信制御手段とを含む、情報処理装置。
前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
前記会話者判断手段により前記他のユーザが一人と判断された場合に、前記撮像手段により撮像された画像に前記ユーザと前記他のユーザとが含まれるとき、前記画像処理手段が前記ユーザの顔を含む所定領域と前記他のユーザの顔を含む所定領域とを切り抜き、切り抜いた２つの所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記ユーザのみが含まれるとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像を並べて表示するための画像を生成する、請求項１に記載の情報処理装置。
前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
前記会話者判断手段により前記他のユーザが複数人と判断された場合に、前記複数の音入力手段に対して一定時間内に音声の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記画像処理手段が前記ユーザの顔を含む所定領域と前記他の複数のユーザの各顔を含む各所定領域を切り抜き、切り抜いた全ての所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項１に記載の情報処理装置。
前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
前記会話者判断手段により前記他のユーザが複数人と判断された場合に、前記複数の音入力手段に対して一定時間内に音声の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記画像処理手段が前記ユーザの顔画像と前記他の複数のユーザの各顔画像を切り抜き、切り抜いた全ての顔画像を並べて表示した画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像とを並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項１に記載の情報処理装置。
前記画像記録手段に記録された前記１以上のユーザの画像は、当該１以上のユーザの静止画であり、検知された音源方向へ前記撮像方向を変更し、前記撮像手段により撮像された画像は、動画である、請求項１〜４のいずれか１項に記載の情報処理装置。
地理的に離れた２以上の拠点の各々に配置される、請求項１〜５のいずれか１項に記載の２以上の情報処理装置がネットワークに接続された、通信システム。
撮像手段と複数の音入力手段とを備える情報処理装置に実行させるためのプログラムであって、
前記撮像手段の撮像方向を変更し、前記撮像手段により撮像された同じ拠点にいる１以上のユーザの画像を画像記録手段に記録するステップと、
前記複数の音入力手段に入力された前記同じ拠点にいるユーザの音声に基づき、音源方向を検知するステップと、
検知された音源方向へ前記撮像方向を変更し、前記撮像手段により撮像された前記ユーザの画像に基づき、当該ユーザの顔の向きを判断するステップと、
判断された顔の向きと同じ方向を、前記音源方向として検知したかどうかに応じて、前記ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断するステップと、
前記他拠点との会話と判断された場合、前記撮像手段により撮像された画像に対して画像処理を行い、前記同じ拠点にいる他のユーザとの会話と判断された場合、前記撮像手段により撮像された前記ユーザと前記他のユーザとを含む画像、または前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とに対して画像処理を行うステップと、
画像処理して得られた画像を前記他拠点へ送信し、前記ユーザの画像を、または前記ユーザの画像と前記他のユーザの画像とを並べて表示させるステップとを前記情報処理装置に実行させる、プログラム。
前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
前記他のユーザが一人と判断された場合、前記画像処理を行うステップでは、前記撮像手段により撮像された画像に前記ユーザと前記他のユーザとが含まれるとき、前記ユーザの顔を含む所定領域と前記他のユーザの顔を含む所定領域とを切り抜き、切り抜いた２つの所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記ユーザのみが含まれるとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とを並べて表示するための画像を生成する、請求項７に記載のプログラム。
前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
前記他のユーザが複数人と判断された場合、前記画像処理を行うステップでは、前記複数の音入力手段に対して一定時間内に音声情報の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記ユーザの顔を含む所定領域と前記他の複数のユーザの各顔を含む各所定領域を切り抜き、切り抜いた全ての所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項７に記載のプログラム。
前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
前記他のユーザが複数人と判断された場合、前記画像処理を行うステップでは、前記複数の音入力手段に対して一定時間内に音声情報の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記ユーザの顔画像と前記他の複数のユーザの各顔画像を切り抜き、切り抜いた全ての顔画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項７に記載のプログラム。