JP6191333B2 - 情報処理装置、通信システムおよびプログラム - Google Patents

情報処理装置、通信システムおよびプログラム Download PDF

Info

Publication number
JP6191333B2
JP6191333B2 JP2013174578A JP2013174578A JP6191333B2 JP 6191333 B2 JP6191333 B2 JP 6191333B2 JP 2013174578 A JP2013174578 A JP 2013174578A JP 2013174578 A JP2013174578 A JP 2013174578A JP 6191333 B2 JP6191333 B2 JP 6191333B2
Authority
JP
Japan
Prior art keywords
image
user
users
imaging
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013174578A
Other languages
English (en)
Other versions
JP2015043507A (ja
Inventor
渉 畠中
渉 畠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2013174578A priority Critical patent/JP6191333B2/ja
Publication of JP2015043507A publication Critical patent/JP2015043507A/ja
Application granted granted Critical
Publication of JP6191333B2 publication Critical patent/JP6191333B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、撮像手段と複数の音入力手段とを備え、複数の音入力手段に入力された音声情報に基づいて音源方向を検知し、その音源方向へ撮像方向を変更して撮像を行い、得られた画像情報をその音声情報とともに出力する情報処理装置、2以上の情報処理装置を含む通信システム、およびその処理を情報処理装置に実行させるためのプログラムに関する。
地理的に離れた拠点間で、画像および音声によってコミュニケーションを取るための通信システムの1つとして、テレビ会議システムが利用されている。このテレビ会議システムには、一台のカメラで複数人の会議参加者を撮影するようなシステムが存在している。このようなシステムでは、カメラを左右に回転させることにより、会話している参加者にカメラが向くように制御している。
このようなシステムの1つとして、会話している参加者をその音声方向から検知し、その方向にカメラを向け、その参加者の顔を検知して表示させるシステムが知られている(例えば、特許文献1参照)。このシステムでは、会話している参加者の顔画像を、その音声に合わせて確実に伝達するべく、カメラが回転している間、音声を検出した参加者の顔画像を表示させ、口元の形を変えた画像を合成することにより音声に合わせて口を動かしている。
しかしながら、このような処理は、他拠点との間の自然なコミュニケーションを取るための画像処理であり、同じ拠点内で行われている会話については考慮されていない。すなわち、同じ拠点内で複数の参加者が会話していても、そのとき会話している一人の参加者の顔画像を表示させ、口を音声に合わせて動かすのみである。これでは、他拠点の参加者は、その顔画像が表示されている参加者が誰と会話しているのか分からないという問題があった。
また、同じ拠点にいる参加者同士が交互に会話をしていると、カメラが左右に振れ続けるため、振れるたびに顔画像が切り替わり、それを見ている他拠点の参加者は、会議に集中することができないという問題もあった。
そこで、同じ拠点内で誰と会話しているかが分かり、また、会議に集中することができるように、会話の当事者に応じた画像を表示させ、会議の臨場感を高めることができる装置等の提供が望まれている。
本発明は、上記課題に鑑み、撮像手段と複数の音入力手段とを備える情報処理装置であって、撮像手段の撮像方向を制御する撮像方向制御手段と、撮像方向制御手段により撮像方向を変更し、撮像手段により撮像された同じ拠点にいる1以上のユーザの画像を記録する画像記録手段と、複数の音入力手段に入力された同じ拠点にいるユーザの音声に基づき、音源方向を検知する音源方向検知手段と、音源方向検知手段により検知された音源方向へ撮像方向制御手段によって撮像方向を変更し、撮像手段により撮像されたユーザの画像に基づき、当該ユーザの顔の向きを判断する顔方向判断手段と、顔方向判断手段により判断された顔の向きと同じ方向を、音源方向検知手段が音源方向として検知したかどうかに応じて、ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断する会話者判断手段と、会話者判断手段により他拠点との会話と判断された場合、撮像手段により撮像された画像に対して画像処理を行い、同じ拠点にいる他のユーザとの会話と判断された場合、撮像手段により撮像されたユーザと他のユーザとを含む画像、または撮像手段により撮像されたユーザの画像もしくは画像記録手段に記録されたユーザの画像と画像記録手段に記録された他のユーザの画像とに対して画像処理を行う画像処理手段と、画像処理手段により画像処理して得られた画像を他拠点へ送信し、ユーザの画像を、またはユーザの画像と他のユーザの画像とを並べて表示させる通信制御手段とを含む、情報処理装置が提供される。
本発明によれば、会話の当事者に応じた画像を表示させ、会議の臨場感を高めることが可能となる。
本実施形態の通信システムの構成例を示した図。 図1に示す通信システムに用いられる情報処理装置のハードウェア構成図。 図1に示す通信システムに用いられる情報処理装置の機能ブロック図。 情報処理装置により実行される処理の流れを示したフローチャート。 情報処理装置が備える顔方向判断部および画像処理部により実行される処理の詳細な流れを示したフローチャート。 任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像の一例を示した図。 任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像の別の例を示した図。 任意の拠点に配置された情報処理装置が備えるカメラの向きと、そのカメラにより撮像されたユーザの画像および他拠点にて表示されるユーザの画像のさらに別の例を示した図。
図1は、本実施形態の通信システムの構成例を示した図である。通信システムは、この構成に限定されるものではないが、地理的に離れた各拠点に配置される2以上の情報処理装置10、11がネットワーク12に接続された構成とされる。地理的に離れた拠点としては、東京本社と北海道事業所、東京本社とニューヨーク支店等を例示することができる。
情報処理装置10、11は、それぞれ有線または無線によりネットワーク12に接続することができ、無線により接続する場合、アクセスポイントと呼ばれる基地局を介してネットワーク12に接続することができる。ここでは、2つの情報処理装置10、11のみが示されているが、3以上の情報処理装置がネットワーク12に接続されたものであってもよい。また、ネットワーク12は、有線ネットワーク、無線ネットワークのいずれであってもよく、WAN(Wide Area Network)やインターネット等を利用することができる。
情報処理装置10、11は、同じハードウェア構成とされ、同じ機能を有するものとされる。ハードウェア構成および機能の詳細については後述する。任意の拠点に配置される情報処理装置10は、撮像機能を有し、その拠点にいる会議の参加者である1以上のユーザを撮像して得られた画像を、他拠点に配置される情報処理装置11へ送信し、その画像を表示させる。実際には、撮像して得られる画像データまたは画像情報を送信し、画像データまたは画像情報に基づき画像を表示させるが、説明を容易にするために、本願では「画像」という用語を使用する。
また、情報処理装置10は、音入出力機能を有し、そのユーザが発した声等の入力を受け付け、それを音声等として上記の画像とともに情報処理装置11へ送信する。この音声も、実際には音声データまたは音声情報であるが、説明を容易にするために、本願では「音声」という用語を使用する。図1では、情報処理装置10が備えるカメラにより撮像を行い、複数のマイクにより音の入力を受け付ける。
情報処理装置10は、情報処理装置11が撮像して得られた画像および入力された音声を、当該情報処理装置11から受信し、画像を表示し、音声を出力する。図1では、情報処理装置10の表示装置が備えるスピーカから音声を出力し、表示装置のディスプレイ上に画像を表示する。
情報処理装置10は、音を発生させている物体、すなわち音源がある方向(音源方向)を検知し、その音源方向へ撮像方向を変更し、撮像を行うことができるように構成されている。また、情報処理装置10は、撮像方向を変更して撮像された1以上のユーザの画像を記録し、任意のユーザの画像を送信してそのユーザの画像を表示させることができるように構成されている。このため、情報処理装置10は、会話しているユーザを撮像するために撮像方向を変更している間、記憶されているそのユーザの画像情報を読み出し、送信して、情報処理装置11にそのユーザの画像を表示させることができる。
情報処理装置10は、そのユーザの画像内の顔画像と口元の形を変えた画像とを合成した画像を生成し、送信することができるように構成されている。このため、情報処理装置10は、その画像を送信し、情報処理装置11に音声に合わせて口が動く擬似画像を表示させることができる。この擬似画像を表示させることにより、実際に喋っているように見せることができる。
また、情報処理装置10は、撮像されたユーザの顔の向きを判断し、その顔の向きと同じ方向を、音源方向として検知したかどうかに応じて、同じ拠点にいる他のユーザと会話しているか、他拠点にいるユーザと会話しているかを判断するように構成されている。また、情報処理装置10、11は、同じ拠点にいる他のユーザと会話している場合、その二人のユーザの画像を並べて表示させるための画像を生成し、それを送信するように構成されている。このため、他拠点にいるユーザは、その二人のユーザが会話していることを知ることができる。
同じ拠点にいる二人のユーザが会話を行う場合、撮像方向がそのつど変更になるが、撮像方向を変更している間、上記の二人のユーザの画像を並べて表示させるための画像を生成し、送信している。このため、画像に振れが生じることはなく、それを見ている他拠点にいるユーザは、会議に集中することが可能となる。
上記のような処理や機能を実現するためのハードウェア構成を、図2に例示する。情報処理装置10、11は同じ構成であるため、情報処理装置10についてのみ説明する。情報処理装置10は、撮像機能および音入出力機能を実現するために、カメラ20といった撮像手段と、マイクアレイ21といった複数の音入力手段と、スピーカ22といった音出力手段とを備える。
カメラ20は、入力する光を集束させるレンズと、レンズにより集束された光を電気信号に変換する撮像素子とを含み、静止画、または連続して撮像を行い、得られた静止画を時系列に並べて動画とし、その動画を出力する。カメラ20は、静止画または動画を設定するためのモード設定ボタン等を備え、その設定に応じていずれかの画像を出力する。カメラ20としては、例えば、デジタルカメラやビデオカメラを挙げることができる。
このカメラ20は、例えば、このカメラ20を支持する支持部を備え、支持部を中心として左右の方向に回転可能とされる。回転する角度は、会議に参加している複数のユーザの各々に向けて撮像可能な角度であれば、120度、180度や360度等、いかなる角度であってもよい。この構成に限られるものではなく、カメラ20は、ターンテーブルに載置され、ターンテーブルを回転させることにより左右の方向に回転させることも可能である。
マイクアレイ21は、複数のマイクロフォンから構成され、複数のマイクロフォンが筐体内に水平方向に一列に配列したものを使用してもよいし、各マイクロフォンが自在に配置できるようになっていて、各マイクロフォンを水平方向に一列に並べて使用してもよい。また、一列ではなく、各ユーザの前に各マイクロフォンを1つずつ配置して使用することもできる。会話をしているユーザをより正確に検知するためには、各ユーザの前に各マイクロフォンを配置して使用することが望ましい。
マイクアレイ21に使用されるマイクロフォンは、磁石、コイル、振動板を含み、振動板が音波を受けて振動し、振動板の振動を、磁石に近隣して配置されるコイルが受け、コイル内の磁束を変化させることにより起電力が発生し、それを音信号として出力する。
スピーカ22は、他拠点から送信されてきた音情報を再生して出力する。スピーカ22も、マイクロフォンと同様、磁石、コイル、振動板を含むものとすることができる。この場合、スピーカ22は、入力された音声信号により、磁石に近隣して配置されるコイル内の磁束が変化し、それによってコイルが振動し、振動板が振動して、その振動板に接する空気が振動して音波を発生させることにより音を出力する。
情報処理装置10は、そのほか、表示装置23およびコントローラ24を含んで構成される。表示装置23は、情報処理装置10へ送られてきた画像を表示する。通信システムにおいては、他拠点において会話しているユーザの画像が送られてくるので、そのユーザの画像として、そのユーザの顔の静止画または動画を表示する。表示装置23としては、ディスプレイを用いることができ、スクリーンおよびプロジェクタを用いることもできる。
コントローラ24は、CPU25と、ROM26と、RAM27と、HDD28と、ネットワーク12に接続するためのネットワークI/F29とを含んで構成される。
ROM26は、情報処理装置10の起動時に実行されるBIOS(Basic Input/Output System)等のプログラムを記憶する。RAM27は、CPU25が作業を行うために必要とされる記憶領域を提供する。HDD28は、アプリケーションやOS等のプログラム、それらに関連するデータ等を記憶する。ここでは、HDD28を使用しているが、SSD(Solid State Drive)等のその他の記憶装置を用いてもよい。
このプログラムは、ネットワーク12を介して、または図示しない記録媒体を介して提供され、HDD28に格納される。情報処理装置10は、この記録媒体を接続可能にするために外部記憶装置I/Fを備えることができる。記録媒体としては、CD−ROM、DVD、SDカード等を挙げることができ、外部記憶装置I/Fとしては、これらを読み書き可能にするCDドライブ、DVDドライブ、SDカードスロット等を挙げることができる。
CPU25は、情報処理装置10内の各手段を制御し、データの演算や加工を行う。各手段としては、上記の撮像手段、音入力手段、音出力手段、HDD28等の記憶手段等である。CPU25は、カメラ20やマイクアレイ21等からデータを受け取り、また、HDD28等からデータを読み出し、演算や加工を行い、それをネットワーク12上や表示装置23へ出力し、また、HDD28等に記憶させる処理を実行する。
情報処理装置10は、電源が投入されると、ROM26からBIOSを取り出して実行し、カメラ20、マイクアレイ21、スピーカ22、表示装置23、HDD28等が使用できることをチェックする。そして、情報処理装置10は、HDD28からOSをRAM27に読み出し、実行することにより起動する。その後、情報処理装置10は、OSによる制御の下、アプリケーション等のプログラムを実行し、所望の処理を実現する。
図3を参照して、情報処理装置10が備える機能について詳細に説明する。情報処理装置11は、情報処理装置10と同様の機能を備えるため、ここでは説明を省略する。なお、図3には、説明を分かりやすくするため、撮像手段としてのカメラ20、音入力手段としてのマイクアレイ21も図示されている。
情報処理装置10は、機能部として、撮像方向制御部30、画像記録部31、音源方向検知部32、顔方向判断部33、会話者判断部34、画像処理部35、通信制御部36を含んで構成される。情報処理装置10は、上記機能部のみであってもよいが、そのほか、音声入力部37、人物判断部38を含むことができる。これらの機能部は、HDD28やネットワークI/F29のほか、CPU25がHDD28からプログラムを読み出し実行することにより実現される。
撮像方向制御部30は、カメラ20のレンズの向きを変えることにより撮像方向を制御する。カメラ20のレンズの向きは、カメラ20を支持する支持部を中心として左右の方向に回転させることにより変えることができる。また、ターンテーブル上にカメラ20を載置した構成の場合、撮像方向制御部30は、ターンテーブルをいずれかの方向に回転させることにより撮像方向を変えることができる。また、撮像方向制御部30は、音源方向検知部32により検知された音源方向の情報や、人物判断部38の判断結果を受けて、いずれの方向に回転させるか、どの程度回転させるか等の撮像方向の制御を行う。
人物判断部38は、情報処理装置10が動作を開始したタイミングや、予め設定されたタイミングにおいて、カメラ20により撮像された画像に人物が含まれるか否かを判断する。人物が含まれるか否かは、公知の顔認識アルゴリズムを使用して判断することができる。顔認識アルゴリズムでは、目、鼻、口、あご等の顔のパーツの相対位置、大きさ、形等の特徴を抽出し、また、肌色を検出することにより、顔認識を行う。ここでは、顔認識アルゴリズムを使用して人物の有無を判断しているが、人物の有無を判断することができれば、その他の方法を採用することもできる。
画像記録部31は、HDD28等により実現され、人物判断部38により人物が含まれることを判断し、撮像方向制御部30がその判断結果から決定した撮像方向にカメラ20の向きを変更し、カメラ20により撮像して得られた人物であるユーザの画像を記録する。画像記録部31は、このようにして得られたその拠点にいるユーザ全員の画像を記録する。記録する画像は、静止画の画像である。画像記録部31は、各ユーザの画像を記録する際、各ユーザの位置情報と関連付けて記録される。
ユーザの位置情報は、例えば、カメラ20が正面を向いたときの角度を、基準の0度とし、左右の方向へ回転させたときの角度の情報とすることができる。なお、角度には誤差が生じるので、左右に5°程度の誤差範囲を設けることが望ましい。また、ユーザの位置情報は、角度に限らず、東西南北のような方位を用いてもよい。このため、情報処理装置10は、角度を測定するためのセンサ、ロータリエンコーダ、方位磁針等を備えることができる。
音声入力部37は、マイクアレイ21から入力された音が、情報処理装置10が配置されている拠点にいるユーザからの音声入力であるか否かを検知し、音声入力を検知した場合、その音声を音源方向検知部32へ送る。入力される音には、雑音も含まれるが、一般に音声の方が、音量が大きいことから音量により音声入力かどうかを検知することができる。これは一例であるので、音声を検知する方法としては、これまでに知られたいかなる方法でも使用することができる。
音源方向検知部32は、音声入力部37からの音声情報から音源方向を検知する。マイクアレイ21は、複数のマイクロフォンから構成され、各マイクロフォンは異なる位置に配置されるため、入力される音声は、各マイクフォンによって時間差が生じる。最先に音声が入力されたマイクロフォンは、音源に最も近いことを示すため、どのマイクロフォンに最先に音声が入力されたかを判断することにより、その音源方向を検知することができる。音源方向検知部32は、検知した音源方向を、音源方向の情報として撮像方向制御部30へ入力する。なお、音源方向は、上記ユーザの位置情報と同様の情報とすることができる。
顔方向判断部33は、音源方向検知部32により検知された音源方向に向けて撮像方向制御部30が撮像方向を変更し、その方向に向けられたカメラ20により撮像されたユーザの画像に基づき、そのユーザの顔の向きを判断する。顔方向判断部33は、例えば、画像記録部31に記録されたそのユーザの画像が正面を向いた顔であるので、その顔の向きを基準とし、撮像された画像の顔の角度を推定することにより顔の向きを判断することができる。
顔方向判断部33は、この角度も誤差が生じるので、例えば左右に5°程度の誤差範囲を設けることが望ましい。また、顔方向判断部33は、角度に限らず、東西南北のような方位により顔の向きを判断してもよい。
会話者判断部34は、顔方向判断部33により判断された顔の向きと同じ方向を、音源方向検知部32が音源方向として検知したかどうかに応じて、いずれの会話であるかを判断する。会話者判断部34は、顔の向きと同じ方向を音源方向として検知した場合、そのユーザと同じ拠点にいる他のユーザとの会話と判断する。また、会話者判断部34は、顔の向きと同じ方向を音源方向として検知しない場合、他拠点との会話と判断する。
会話者判断部34は、同じ拠点にいる他のユーザとの会話と判断した場合、当該他のユーザが複数人であるか否かを、マイクアレイ21に入力された音声に基づき判断する。すなわち、複数人の音声が入力されていれば、複数人と判断し、特定のユーザの音声のみが入力されていれば、そのユーザ一人と判断することができる。これらの情報は、画像処理部35が画像処理を行う際に利用される。
このとき会話を行っている他のユーザは、音源方向検知部32により音源方向として検知され、得られたその音源方向の情報からその位置が特定される。
画像処理部35は、カメラ20により撮像された画像あるいは画像記録部31に記録された画像に対して画像処理を行い、他拠点にて表示させるための画像を生成する。例えば、カメラ20を回転させている間に他拠点で表示させる画像を、画像記録部31に記録されたそのユーザの画像に口元の形を変えた画像を合成することにより生成する。
また、カメラ20により撮像された画像から2以上のユーザの顔画像等を切り抜き、並べる処理や、画像記録部31に記録された2以上のユーザの画像の、表示する位置や大きさを変更する処理等を行うことにより生成する。このような合成する処理、切り抜き、並べる処理、表示する位置や大きさを変更する処理等については、従来から知られているいかなる方法を採用して実施することができ、ここではその詳細な方法について省略する。
会話者判断部34により他のユーザが一人と判断された場合、カメラ20により撮像された画像にユーザと当該他のユーザの二人が含まれているとき、画像処理部35は、その画像からその二人のユーザの顔画像あるいは顔を含む所定領域を切り出す処理を行う。カメラ20が回転し、振れたとしても、小さな振れであり、他拠点にいるユーザが会議に集中できなくなるような振れではないためである。
画像処理部35は、切り抜いた顔画像あるいは所定領域の画像を並べて表示するための画像を生成する。このときの画像は、動画であるため、動画における顔や所定領域を並べて表示するための画像が生成される。所定領域としては、例えば、顔を含む最小の矩形の領域とすることができる。また、並べ方としては、上下あるいは左右に並べることができる。一般に、表示画面は、横長であるため、左右に並べることが望ましい。
一方、他のユーザが含まれていない場合は、カメラ20が大きく振れることになるため、画像記録部31に記録されたユーザの画像と他のユーザの画像とを用い、それらを並べて表示するための画像を生成する。画像記録部31に記録される画像は、静止画であるため、その静止画を並べた画像が生成される。このとき、単に並べただけではなく、口元の形を変えた画像を合成した画像が生成される。
他のユーザが複数人と判断された場合に、一定時間内に音声の入力があり、カメラ20により撮像された画像にユーザと他の複数のユーザ全員が含まれているとき、画像処理部35は、その画像からユーザ全員の顔画像あるいは顔を含む所定領域を切り出す。画像処理部35は、各ユーザにつき切り出す処理を行う。そして、画像処理部35は、切り抜いた顔画像あるいは所定領域の画像を並べて表示するための画像を生成する。この場合、複数の画像を並べて表示することになるため、表示画面上の上下左右に並ぶように縮小(ズームアウト)して配置した画像を生成することができる。
他の複数のユーザが含まれていない場合は、画像記録部31に記録されたユーザの画像と他の複数のユーザ全員の画像とを用い、それらユーザの画像を並べて表示するための画像を生成する。画像記録部31に記録される画像は、静止画であるため、その静止画を並べて表示するための画像情報が生成される。この場合も、生成される画像は、口元の形を変えた画像を合成した画像とされる。
一定時間内に音声の入力がない場合は、他のユーザと会話していないものとみなし、カメラ20により撮像されたユーザの画像を拡大(ズームアップ)して表示するための画像を生成する。ここではズームアップして表示するための画像を生成しているが、ズームアップしなくてもよいし、顔画像のみを切り抜いて表示してもよい。また、顔を含む所定領域を切り抜いて表示してもよい。
通信制御部36は、画像処理部35により画像処理して得られた画像を、マイクアレイ21に入力された音声とともに他拠点へ送信し、また、他拠点から画像および音声を受信するための通信制御を行う。このように会話の当事者に応じた画像を表示させることができるため、他拠点にいるユーザが、誰に向かって会話をしているかが分かり、また、他拠点にいるユーザも、会議に集中することができ、さらには、会議の臨場感を高めることができる。
図4に示すフローチャートを参照して、情報処理装置10が行う処理について詳細に説明する。情報処理装置10は、情報処理装置10が配置される拠点において、電源が投入され、プログラムが読み出されて実行されることにより、ステップ400から処理を開始する。ここでは自動的にプログラムが読み出されて実行されるようになっているが、自動的に実行されない場合、そのプログラムが起動された段階でこの処理を開始することができる。
ステップ405では、その拠点にいる会議の参加者であるユーザ全員をカメラ20により撮像する。このとき、撮像方向制御部30によりカメラ20の向きを変え、ユーザ全員の顔を撮像する。そして、撮像して得られた顔画像において口元を検出する。後の処理において、口元の形を変えた画像と合成し、実際に話しているように見せる処理を行うためである。
ステップ410では、全員の顔が撮像された後、実際に会議が始まり、マイクアレイ21が音の入力を受け付ける。音には、音声のほか、エアコンや外を走る車等の雑音がある。ステップ415では、実際に会話が開始され、音声入力部37が、ユーザからの音声入力であるか否かを検知する。そして、音声入力を検知した場合、その音声を音源方向検知部32へ送る。
ステップ420では、音源方向検知部32が、音声入力部37からの音声に基づき音源方向を検知する。音源方向検知部32は、検知した音源方向の情報を、撮像方向制御部30へ入力する。ステップ425では、撮像方向制御部30は、入力された音源方向の情報から、撮像方向の変更が必要かどうかを判断する。必要と判断した場合、ステップ430へ進み、必要でないと判断した場合、ステップ455へ進む。
ステップ430では、撮像方向制御部30が、音源方向の情報に基づき撮像方向を変更する。そして、画像記録部31から音源方向のユーザの画像を読み出す。画像処理部35は、読み出した画像と口元の形を変えた画像とを合成し、その合成した画像を生成する。その合成した画像を送信して表示させる。
ステップ435では、カメラ20の向きが、音源方向になったかどうかを判断する。この判断は、カメラ20の向きが、音源方向になるまで繰り返される。音源方向になった場合、ステップ440へ進み、顔方向判断部33が、会話をしているユーザの顔の向きを判断する。すなわち、カメラ20の方向に向いているか、それ以外の方向に向いているかを判断し、それ以外の方向である場合、どのユーザの方向に向いているかを判断する。
ステップ445では、ステップ440での判断結果から、同じ拠点での会話であるかどうかを判断する。上記のそれ以外の方向に向いているという判断結果である場合、同じ拠点での会話と判断する。カメラ20の方向に向いているという判断結果である場合、他拠点との会話と判断する。同じ拠点での会話と判断した場合、ステップ450へ進み、他拠点との会話と判断した場合、ステップ455へ進む。
ステップ450では、カメラ20により撮像された画像内のユーザと会話している他のユーザの顔画像を切り抜き、切り抜いた2つの顔画像を並べて表示させるための画像を生成し、その画像を送信する。一方、ステップ455では、カメラ20に向いているユーザをズームアップした画像を生成し、その画像を送信する。これらの送信が終了したところで、ステップ460へ進み、この処理を終了する。
次に、ステップ440〜ステップ455にて顔方向判断部33および画像処理部35が行う処理について、図5に示すフローチャートを参照して詳細に説明する。顔方向判断部33は、上記のステップ435でカメラ20の向きが音源方向になったときに、ステップ500からこの処理を開始する。ステップ505では、会話しているユーザの顔の向きを判断する。顔の向きは、上記に例示した方法により判断することができる。
ステップ510では、ステップ505にて判断した顔の向きに基づき、その方向に他のユーザがいるかどうかを判断する。例えば、画像記録部31に記録された画像に関連付けられた位置情報を用いて、その方向に他のユーザがいるかどうかを判断することができる。他のユーザがいると判断した場合、ステップ515にて同じ拠点で会話していると判断し、ステップ520にてその方向にいる他のユーザが複数人かどうかを判断する。複数人であると判断した場合、ステップ525へ進み、一人であると判断した場合、直接ステップ530へ進む。
ステップ525では、一定期間内、すなわち予め設定された期間内に他のユーザの音声を検知したかどうかを判断する。検知した場合、ステップ530へ進み、検知しなかった場合、ステップ560へ進む。ステップ530では、カメラ20で撮像する撮像範囲内に他のユーザが存在するかどうかを判断する。すなわち、会話しているユーザと他のユーザが存在するかどうかを判断する。
他のユーザが存在すると判断した場合、ステップ535へ進み、画像処理部35が、カメラ20により撮像された画像内からユーザおよび他のユーザの顔画像を切り抜き、それらを並べて表示するための画像を生成する。そして、ステップ565へ進み、この処理を終了する。
ステップ530において他のユーザが存在しないと判断した場合、ステップ540へ進み、画像処理部35は、画像記録部31から会話をしているユーザおよび他のユーザの画像を取得する。ステップ545では、取得したユーザの顔画像と口元の形の画像とを合成し、合成したユーザの顔画像を並べて表示するための画像を生成する。そして、ステップ560へ進み、この処理を終了する。
ステップ510でその方向に他のユーザがいないと判断した場合、ステップ550へ進み、他拠点にいるユーザと会話をしていると判断する。そして、ステップ555で、表示すべきユーザは、他のユーザがいないので、当該ユーザのみであり、カメラ20により撮像された当該ユーザの画像を処理し、ズームアップした画像を生成する。ステップ560で、この処理を終了する。
実際に情報処理装置10は、任意の拠点である本社あるいは事業所内のある会議室の所定位置に配置される。図6(a)では、会議室に置かれたテーブル40上の縁部にカメラ20を中央とし、その左右にマイクアレイ21を配置した構成とされている。テーブル40を挟んで左右およびカメラ20の正面に3人のユーザA、B、Cが会議に参加している。
カメラ20のレンズは、正面にいるユーザBの方を向いている。このため、カメラ20により撮像して得られた画像は、図6(b)のような画像となる。すなわち、正面にユーザB、その左右にユーザA、Cがテーブル40を挟んで座っている画像となる。
この画像を他拠点に配置された情報処理装置11へ送信し、表示させた場合の画像は、図6(c)のような画像となる。この画像は、図6(b)と同様、正面にユーザB、その左右にユーザA、Cがテーブル40を挟んで座っている画像である。
ユーザCが会話を開始すると、音源方向検知部32によりそのユーザCの方向を音源方向として検知するため、カメラ20の向きがその方向に変更される。このときの様子を、図7に例示する。図7(a)に示すように、カメラ20の向きが、ユーザCがいる方向に変更される。
カメラ20により撮像して得られた画像は、ユーザCを中心とした画像となるため、図7(b)のような画像となる。この画像は、ユーザB、Cのみを含み、ユーザAは含まれない。また、図7に示す実施形態では、ユーザCが正面を向き、他拠点にいるユーザと会話しているため、他拠点に配置された情報処理装置11へ送信し、表示させた場合、そのユーザCをズームアップした画像が送信され、そのズームアップした画像が表示される。このため、その画像は、図7(c)に示すようなユーザCをズームアップした画像となる。このように、会話の当事者を特定し、それを画像として表示することで、臨場感を高めることができる。
図7では他拠点との間で会話を行っている場合の様子を例示したが、同じ拠点で会話を行っている場合の様子を、図8を参照して説明する。ユーザAがユーザCと会話しているものとする。
カメラ20の向きは、図8(a)に示すように、現在会話をしているユーザAに向けられる。このときに撮像して得られた画像が、図8(b)に示すような画像である。図8に示す実施形態では、ユーザAが正面を向いておらず、同じ拠点にいるユーザCがいる方向を向き、ユーザCと会話を行っている。このため、他拠点に配置された情報処理装置11では、図8(c)に示すようなユーザA、Cの画像を並べた画像が表示される。これらの画像は、カメラ20により撮像して得られたユーザAの動画と、画像記録部31に記録されたユーザCの画像を並べて表示した画像で、ユーザCの画像は口元の形の画像が合成されるので、口元が音声に合わせて動く。この場合も、会話の当事者を特定し、それを画像として表示することで、臨場感を高めることができる。
ユーザA、Cが一定時間内の短い会話をやりとりしている場合、ユーザAについては動画を、ユーザCについては、静止画に口元の形の画像を合成したものを表示し続けることができる。ユーザCが会話を開始し、その会話が上記一定時間より長い場合、カメラ20がユーザCの方を向き、撮像を開始する。カメラ20が移動している間は、ユーザAについても、画像記録部31に記録された静止画の画像に口元の形の画像が合成されたものを表示させることができる。そして、カメラ20がユーザCの方を向き、撮像を開始すると、ユーザCの画像を静止画から動画へ切り替え、ユーザAについては画像記録部31に記録された静止画の画像に口元の形の画像が合成されたものを表示させる。再びユーザAが会話を開始し、その会話が長い場合は、再びカメラ20の向きが変えられるので、ユーザCの画像を静止画に、ユーザAの画像を動画に戻すことができる。
これまで本発明の情報処理装置および通信システム、プログラムにより実行される処理について図面に示した実施形態を参照しながら詳細に説明してきたが、本発明は、上述した実施形態に限定されるものではない。したがって、他の実施形態や、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。よって、本発明では、情報処理装置や通信システムにより実行される方法や、プログラムが記録された記録媒体も提供することができるものである。
10、11…情報処理装置、12…ネットワーク、20…カメラ、21…マイクアレイ、22…スピーカ、23…表示装置、24…コントローラ、25…CPU、26…ROM、27…RAM、28…HDD、29…ネットワークI/F、30…撮像方向制御部、31…画像記録部、32…音源方向検知部、33…顔方向判断部、34…会話者判断部、35…画像処理部、36…通信制御部、37…音声入力部、38…人物判断部、40…テーブル
特開平5−122689号公報

Claims (10)

  1. 撮像手段と複数の音入力手段とを備える情報処理装置であって、
    前記撮像手段の撮像方向を制御する撮像方向制御手段と、
    前記撮像方向制御手段により撮像方向を変更し、前記撮像手段により撮像された同じ拠点にいる1以上のユーザの画像を記録する画像記録手段と、
    前記複数の音入力手段に入力された前記同じ拠点にいるユーザの音声に基づき、音源方向を検知する音源方向検知手段と、
    前記音源方向検知手段により検知された音源方向へ前記撮像方向制御手段によって前記撮像方向を変更し、前記撮像手段により撮像された前記ユーザの画像に基づき、当該ユーザの顔の向きを判断する顔方向判断手段と、
    前記顔方向判断手段により判断された顔の向きと同じ方向を、前記音源方向検知手段が音源方向として検知したかどうかに応じて、前記ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断する会話者判断手段と、
    前記会話者判断手段により他拠点との会話と判断された場合、前記撮像手段により撮像された画像に対して画像処理を行い、前記同じ拠点にいる他のユーザとの会話と判断された場合、前記撮像手段により撮像された前記ユーザと前記他のユーザとを含む画像、または前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とに対して画像処理を行う画像処理手段と、
    前記画像処理手段により画像処理して得られた画像を前記他拠点へ送信し、前記ユーザの画像を、または前記ユーザの画像と前記他のユーザの画像とを並べて表示させる通信制御手段とを含む、情報処理装置。
  2. 前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
    前記会話者判断手段により前記他のユーザが一人と判断された場合に、前記撮像手段により撮像された画像に前記ユーザと前記他のユーザとが含まれるとき、前記画像処理手段が前記ユーザの顔を含む所定領域と前記他のユーザの顔を含む所定領域とを切り抜き、切り抜いた2つの所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記ユーザのみが含まれるとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像を並べて表示するための画像を生成する、請求項1に記載の情報処理装置。
  3. 前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
    前記会話者判断手段により前記他のユーザが複数人と判断された場合に、前記複数の音入力手段に対して一定時間内に音声の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記画像処理手段が前記ユーザの顔を含む所定領域と前記他の複数のユーザの各顔を含む各所定領域を切り抜き、切り抜いた全ての所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項1に記載の情報処理装置。
  4. 前記会話者判断手段は、前記同じ拠点にいる他のユーザとの会話と判断した場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断し、
    前記会話者判断手段により前記他のユーザが複数人と判断された場合に、前記複数の音入力手段に対して一定時間内に音声の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記画像処理手段が前記ユーザの顔画像と前記他の複数のユーザの各顔画像を切り抜き、切り抜いた全ての顔画像を並べて表示した画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像とを並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項1に記載の情報処理装置。
  5. 前記画像記録手段に記録された前記1以上のユーザの画像は、当該1以上のユーザの静止画であり、検知された音源方向へ前記撮像方向を変更し、前記撮像手段により撮像された画像は、動画である、請求項1〜4のいずれか1項に記載の情報処理装置。
  6. 地理的に離れた2以上の拠点の各々に配置される、請求項1〜5のいずれか1項に記載の2以上の情報処理装置がネットワークに接続された、通信システム。
  7. 撮像手段と複数の音入力手段とを備える情報処理装置に実行させるためのプログラムであって、
    前記撮像手段の撮像方向を変更し、前記撮像手段により撮像された同じ拠点にいる1以上のユーザの画像を画像記録手段に記録するステップと、
    前記複数の音入力手段に入力された前記同じ拠点にいるユーザの音声に基づき、音源方向を検知するステップと、
    検知された音源方向へ前記撮像方向を変更し、前記撮像手段により撮像された前記ユーザの画像に基づき、当該ユーザの顔の向きを判断するステップと、
    判断された顔の向きと同じ方向を、前記音源方向として検知したかどうかに応じて、前記ユーザと同じ拠点にいる他のユーザとの会話か、他拠点との会話かを判断するステップと、
    前記他拠点との会話と判断された場合、前記撮像手段により撮像された画像に対して画像処理を行い、前記同じ拠点にいる他のユーザとの会話と判断された場合、前記撮像手段により撮像された前記ユーザと前記他のユーザとを含む画像、または前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とに対して画像処理を行うステップと、
    画像処理して得られた画像を前記他拠点へ送信し、前記ユーザの画像を、または前記ユーザの画像と前記他のユーザの画像とを並べて表示させるステップとを前記情報処理装置に実行させる、プログラム。
  8. 前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
    前記他のユーザが一人と判断された場合、前記画像処理を行うステップでは、前記撮像手段により撮像された画像に前記ユーザと前記他のユーザとが含まれるとき、前記ユーザの顔を含む所定領域と前記他のユーザの顔を含む所定領域とを切り抜き、切り抜いた2つの所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記ユーザのみが含まれるとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他のユーザの画像とを並べて表示するための画像を生成する、請求項7に記載のプログラム。
  9. 前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
    前記他のユーザが複数人と判断された場合、前記画像処理を行うステップでは、前記複数の音入力手段に対して一定時間内に音声情報の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記ユーザの顔を含む所定領域と前記他の複数のユーザの各顔を含む各所定領域を切り抜き、切り抜いた全ての所定領域の画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項7に記載のプログラム。
  10. 前記同じ拠点にいる他のユーザとの会話と判断された場合、前記他のユーザが複数人であるか否かを、前記複数の音入力手段に入力された音声に基づき判断するステップをさらに含み、
    前記他のユーザが複数人と判断された場合、前記画像処理を行うステップでは、前記複数の音入力手段に対して一定時間内に音声情報の入力があり、前記撮像手段により撮像された画像に前記ユーザと他の複数のユーザ全員が含まれるとき、前記ユーザの顔画像と前記他の複数のユーザの各顔画像を切り抜き、切り抜いた全ての顔画像を並べて表示するための画像を生成し、前記撮像手段により撮像された画像に前記他の複数のユーザの少なくとも一人が含まれないとき、前記撮像手段により撮像された前記ユーザの画像もしくは前記画像記録手段に記録された前記ユーザの画像と前記画像記録手段に記録された前記他の複数のユーザ全員の画像を並べて表示するための画像を生成し、前記一定時間内に音声の入力がないとき、前記撮像手段により撮像された前記ユーザの画像を拡大して表示するための画像を生成する、請求項7に記載のプログラム。
JP2013174578A 2013-08-26 2013-08-26 情報処理装置、通信システムおよびプログラム Expired - Fee Related JP6191333B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013174578A JP6191333B2 (ja) 2013-08-26 2013-08-26 情報処理装置、通信システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013174578A JP6191333B2 (ja) 2013-08-26 2013-08-26 情報処理装置、通信システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2015043507A JP2015043507A (ja) 2015-03-05
JP6191333B2 true JP6191333B2 (ja) 2017-09-06

Family

ID=52696852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013174578A Expired - Fee Related JP6191333B2 (ja) 2013-08-26 2013-08-26 情報処理装置、通信システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP6191333B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6435701B2 (ja) * 2014-08-11 2018-12-12 沖電気工業株式会社 制御装置
JP6708154B2 (ja) 2017-03-28 2020-06-10 カシオ計算機株式会社 対象物検出装置、対象物検出方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05122689A (ja) * 1991-10-25 1993-05-18 Seiko Epson Corp テレビ会議システム
JPH08163522A (ja) * 1994-11-30 1996-06-21 Canon Inc テレビ会議システムおよび端末装置
JPH1066044A (ja) * 1996-08-13 1998-03-06 Fujitsu Ltd テレビ会議システム
JP4310916B2 (ja) * 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
JP2011066467A (ja) * 2009-09-15 2011-03-31 Brother Industries Ltd テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
JP2012034119A (ja) * 2010-07-29 2012-02-16 Brother Ind Ltd 端末装置および処理方法

Also Published As

Publication number Publication date
JP2015043507A (ja) 2015-03-05

Similar Documents

Publication Publication Date Title
US9860486B2 (en) Communication apparatus, communication method, and communication system
US10848889B2 (en) Intelligent audio rendering for video recording
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
CN104580992A (zh) 一种控制方法及移动终端
CN107005677B (zh) 调节视频会议空间一致性方法、系统、设备、装置及介质
US10079996B2 (en) Communication system, communication device, and communication method
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
JP2009111833A (ja) 情報提示装置
CN111163280B (zh) 非对称性视频会议系统及其方法
JP6191333B2 (ja) 情報処理装置、通信システムおよびプログラム
JP2013150202A (ja) 送受信システム及び送受信方法、受信装置及び受信方法
JP2009177480A (ja) 撮影装置
CN107087208B (zh) 一种全景视频播放方法、系统及存储装置
JP4953137B2 (ja) 全周映像のための表示技術
JP4585380B2 (ja) 次発言者検出方法、装置、およびプログラム
US11368611B2 (en) Control method for camera device, camera device, camera system, and storage medium
TWI753741B (zh) 聲源追蹤系統及其方法
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
JP2004248125A (ja) 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
JP2005277845A (ja) 撮影制御装置
JP2009065490A (ja) テレビ会議装置
JP2020115609A (ja) 音声録音装置及びその制御方法、並びにプログラム
EP2575362A1 (en) Multimodal mobile video telephony
JP2000244885A (ja) 画像撮影装置、画像撮影方法、記憶媒体、テレビ会議システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170724

R151 Written notification of patent or utility model registration

Ref document number: 6191333

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees