JP7306765B2 - Communication device, communication program and storage medium - Google Patents
Communication device, communication program and storage medium Download PDFInfo
- Publication number
- JP7306765B2 JP7306765B2 JP2022528302A JP2022528302A JP7306765B2 JP 7306765 B2 JP7306765 B2 JP 7306765B2 JP 2022528302 A JP2022528302 A JP 2022528302A JP 2022528302 A JP2022528302 A JP 2022528302A JP 7306765 B2 JP7306765 B2 JP 7306765B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- participant
- face
- participants
- conference room
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Description
本発明は、他の地点にいる参加者を画面に表示させてビデオ会議や会話を行うためのコミュニケーション装置等に関する。 The present invention relates to a communication device or the like for displaying participants at other locations on a screen for video conferences or conversations.
この種のコミュニケーション装置としては、複数の端末装置をネットワークで接続し、端末装置に設置した撮像装置からの参加者の映像を各端末装置の表示画面に表示させて会議を行うビデオ会議装置がある。従来のビデオ会議装置は、例えば特許文献1の図1に示すように端末装置の表示画面に複数の参加者の正面顔を格子状に整列させて表示していた。 As a communication device of this type, there is a video conference device in which a plurality of terminal devices are connected via a network, and video conferences are held by displaying images of participants from imaging devices installed in the terminal devices on the display screens of each terminal device. . As shown in FIG. 1 of Japanese Unexamined Patent Application Publication No. 2002-100000, for example, a conventional video conference apparatus displays the front faces of a plurality of participants in a grid pattern on the display screen of the terminal device.
しかしながら、特許文献1のように単に正面顔を列挙して表示する装置では、実際の会議室や会場にいるように顔を動かして見たいところだけ見たりすることもできないので、その場にいるような臨場感をなかなか得られない。また例えば特許文献2に示すように複数の撮像装置を用いれば横顔を撮像して表示させることはできる。ところが、特許文献1や特許文献2のような技術では専ら対話相手を推定して視線を一致させることを目的としているため、例えば顔を動かして相手の横顔をのぞき込んだり、プレゼンテーションを見ながら隣の人に話しかけたり、他の参加者を見渡したりするように必ずしも視線を一致させなくてよい動きまでは想定されていない。したがって、実際の会議室や会場にいるような臨場感までは伝わりにくい。
However, with a device that simply enumerates and displays front faces like in
このような事情を考慮して、本発明は、自分の顔の動きに応じて見え方やその周囲の見え方を変えることで、まるでその場にいるような臨場感を得られるコミュニケーション装置等を提供することを目的とする。 In consideration of such circumstances, the present invention provides a communication device or the like that can give a sense of realism as if one is actually there by changing the appearance of one's own face and the appearance of the surroundings according to the movement of one's face. intended to provide
上記課題を解決するために、本発明の装置は、複数の参加者の映像を端末装置に表示させるコミュニケーション装置であって、複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得する取得部と、取得部で取得された顔の映像から少なくとも参加者の一人の顔の動きを検知する動き検知部と、動き検知部で検知された参加者の顔の動きに応じて他の参加者の顔の向きの映像を選定する映像選定部と、映像選定部で選定された映像から少なくとも他の参加者の顔の映像を端末装置に表示させるための映像を生成する映像生成部と、を備える。本態様のコミュニケーション装置によれば、自分の顔の動きに応じて他の参加者の見え方を変えることができるので、まるでその場にいるような臨場感を得られる。 In order to solve the above problems, the device of the present invention is a communication device for displaying images of a plurality of participants on a terminal device, wherein the plurality of images including images of faces facing different directions for each of the plurality of participants. a motion detection unit that detects the facial movement of at least one of the participants from the facial video acquired by the acquisition unit; An image selection unit that selects an image of another participant's face orientation, and an image generation that generates an image for displaying at least an image of the other participant's face on a terminal device from the image selected by the image selection unit. and According to the communication device of this aspect, it is possible to change the appearance of other participants in accordance with the movement of one's own face, thereby providing a sense of realism as if one were there.
本発明の好適な態様において、複数の参加者を配置する仮想会議室と、仮想会議室における複数の参加者の位置と、を記憶する仮想会議室記憶部を備え、映像生成部は、仮想会議室における参加者の位置に応じてその参加者を表示する位置を特定した映像を生成する。本態様によれば、仮想会議室の参加者の位置に応じてその参加者を表示する位置が特定されるので、他の参加者の位置がまるで実際の会議室の位置にいるような見え方でビデオ会議や会話を行うことができる。 In a preferred aspect of the present invention, a virtual conference room for arranging a plurality of participants and a virtual conference room storage unit for storing the positions of the plurality of participants in the virtual conference room are provided. A position-specific image is generated to display the participant according to the position of the participant in the room. According to this aspect, since the position where the participant is displayed is specified according to the position of the participant in the virtual conference room, the position of the other participants looks as if they were in the actual conference room. You can have video conferences and conversations with
本発明の好適な態様において、映像選定部は、仮想会議室における参加者の位置に応じた顔の向きの映像を選定する。本態様によれば、例えば自分の横にいる参加者は横顔の映像を表示できるようになるので、他の参加者の見え方がまるで実際の会議室にいるような見え方でビデオ会議や会話を行うことができる。 In a preferred aspect of the present invention, the image selection unit selects images of face orientations according to the positions of the participants in the virtual conference room. According to this aspect, for example, a participant next to him/herself can display a side view image, so that the appearance of other participants can be seen as if they were in an actual conference room. It can be performed.
本発明の好適な態様において、映像選定部は、動き検知部で検知された参加者の顔の動きに応じて仮想会議室の表示範囲を選定し、映像生成部は、複数の参加者のうち表示範囲に含まれる参加者を端末装置に表示させるための映像を生成する。本態様によれば、自分の顔を動かすことにより、仮想会議室のうち見たい範囲を表示させることができる。例えばテーブルの右側にいる参加者だけを見たい場合には顔を右に動かせば、自分の右側の参加者だけが見えるようにできる。また実際の会議室でその参加者の近くに行って会話するように、会話する参加者の方に顔を動かせばその参加者だけを表示させその参加者とだけ会話をすることもできる。これにより、まるで実際の会議室で会話をしているような臨場感を得られる。 In a preferred aspect of the present invention, the video selection unit selects the display range of the virtual conference room according to the facial movements of the participants detected by the motion detection unit, and the video generation unit selects the A video is generated for displaying the participants included in the display range on the terminal device. According to this aspect, by moving one's face, it is possible to display a desired range of the virtual conference room. For example, if you want to see only the participants on the right side of the table, you can move your face to the right so that only the participants on your right can be seen. It is also possible to display only the participant by moving the face toward the participant to have a conversation, just like going near the participant and having a conversation in an actual conference room. This gives a sense of realism as if you were having a conversation in an actual conference room.
本発明の好適な態様において、動き検知部は、取得部で取得された顔の映像から少なくとも参加者の一人の顔の向きが正面、右向き、左向きのいずれかであるかを検知し、映像選定部は、動き検知部で検知された参加者の顔の向きが正面の場合は、仮想会議室の表示範囲にその参加者の右側と左側に位置する他の参加者の映像を含まないようにし、動き検知部で検知された参加者の顔の向きが右向きの場合は、仮想会議室の表示範囲にその参加者の右側に位置する他の参加者の映像を含むようにし、動き検知部で検知された参加者の顔の向きが左向きの場合は、その参加者の左側に位置する他の参加者の映像を含むようにする。本態様によれば、自分の右側の参加者と会話する場合は右を向き、自分の左側の参加者と会話する場合は左を向けばよいので、まるで会議室で隣の参加者と会話する場合のような臨場感を得られる。また自分の右側に複数の参加者がいればそれを見たいときには右を向けばよく、自分の左側に複数の参加者がいればそれを見たいときには左を向けばよいので、まるで実際の会議室で顔の向きを変えた場合のような臨場感を得られる。 In a preferred aspect of the present invention, the motion detection unit detects whether the face orientation of at least one of the participants is front, right, or left from the face image acquired by the acquisition unit, and selects the image. When the face direction of a participant detected by the motion detection unit is facing the front, the display area of the virtual conference room should not include the images of other participants located to the right and left of that participant. , if a participant's face is facing right as detected by the motion detection unit, the display area of the virtual conference room will include the video of the other participant located to the right of the participant, and the motion detection unit will If the face of the detected participant faces left, the image of the other participant positioned to the left of the participant is included. According to this aspect, when conversing with the participant on the right side of oneself, it is necessary to turn to the right, and when conversing with the participant on the left side of oneself, it is sufficient to turn to the left, so it is as if talking with the next participant in the conference room. You can get a sense of reality like a case. Also, if there are multiple participants on your right side, you can turn to the right when you want to see them, and if you want to see multiple participants on your left side, you can turn to the left when you want to see them. You can get a sense of realism as if you changed the direction of your face in a room.
本発明の好適な態様において、仮想会議室での参加者の位置が変わると、映像選定部は、その変わった位置に応じた顔の向きの映像を選定し、映像生成部は、その変わった位置に応じてその参加者を表示する位置を特定した映像を生成する。本態様によれば、仮想会議室において席を移動することでも、実際の会議室と同じような見え方をビデオ会議や会話でも実現できるので、臨場感を高めることができる。 In a preferred aspect of the present invention, when the position of the participant in the virtual conference room changes, the image selection unit selects an image of the face direction corresponding to the changed position, and the image generation unit A position-specified video is generated that displays the participant according to the position. According to this aspect, by moving the seats in the virtual conference room, it is possible to achieve the same appearance as in the actual conference room in the video conference or conversation, thereby enhancing the sense of realism.
本発明の好適な態様において、動き検知部で検知された参加者の顔の動きに応じて他の参加者の音声を選定する音声選定部と、音声選定部で選定された音声に基づいて他の参加者の音声を端末装置から出力させるための音声を生成する音声生成部とを備える。本態様によれば、映像に合わせて音声についても参加者の顔の動きに応じた音声を選定できる。例えば顔の動きに応じて映像が表示される参加者のみの音声を選定して出力させることができる。 In a preferred embodiment of the present invention, a voice selection unit that selects voices of other participants according to facial movements of participants detected by the motion detection unit; and a voice generator for generating voices for outputting the voices of the participants from the terminal device. According to this aspect, it is possible to select a sound according to the movement of the face of the participant in accordance with the video. For example, it is possible to select and output only the voice of the participant whose video is displayed according to the movement of the face.
本発明の好適な態様において、取得部は、複数の参加者のそれぞれについて異なる向きの顔の映像と異なる向きの周囲の映像を取得し、映像選定部は、動き検知部で検知された参加者の顔の動きに応じて他の参加者の顔の向きの映像と周囲の映像を選定し、映像生成部は、映像選定部で選定された映像から少なくとも他の参加者の顔の映像と周囲の映像を端末装置に表示させるための映像を生成する。本態様によれば、異なる向きの顔の映像と異なる向きの周囲の映像から、参加者の顔の動きに応じて他の参加者の顔の向きの映像と周囲の映像を選定するので、顔を動かせばその顔の動きに連動して周囲の映像も動いて表示される。これにより、顔を動かすだけで見えない部分も見えるように周囲の映像を動かすことができるので、まるでその場にいるような臨場感を体験できる。 In a preferred aspect of the present invention, the acquisition unit acquires images of faces facing different directions and surrounding images facing different directions for each of a plurality of participants, and the image selection unit obtains images of the participants detected by the motion detection unit. The image generation unit selects at least the image of the other participant's face and the image of the surroundings from the images selected by the image selection unit. A video for displaying the video on the terminal device is generated. According to this aspect, the image of the other participant's face direction and the surrounding image are selected according to the movement of the face of the participant from the images of the face of the different direction and the surrounding images of the different direction. If you move the , the surrounding image will move and be displayed in conjunction with the movement of the face. This makes it possible to move the surrounding image so that invisible parts can be seen just by moving the face, so you can experience a realistic feeling as if you were there.
本発明の好適な態様において、動き検知部は、参加者の顔の動きとして顔の移動と顔の向きを検知し、映像選定部は、顔の移動に応じて周囲の映像を選定し、顔の向きに応じて周囲の映像の表示範囲を選定し、映像生成部は、映像選定部で選定された表示範囲で周囲の映像を端末装置に表示させるための映像を生成する。本態様によれば、参加者の顔の移動に応じて周囲の映像を選定し、顔の向きに応じて周囲の映像の表示範囲を選定するので、顔を動かせばその顔の動きに連動して周囲の映像の表示範囲も変えられる。これにより、顔を動かすだけで見えない部分も見えるように周囲の映像の表示範囲を変えることができるので、まるでその場にいるような臨場感を体験できる。 In a preferred embodiment of the present invention, the motion detection unit detects movement and direction of the face as the movement of the face of the participant, and the image selection unit selects surrounding images according to the movement of the face, and detects the movement of the face. The display range of the surrounding image is selected according to the orientation of the image, and the image generation unit generates an image for displaying the surrounding image on the terminal device in the display range selected by the image selection unit. According to this aspect, the surrounding image is selected according to the movement of the face of the participant, and the display range of the surrounding image is selected according to the orientation of the face. You can also change the display range of the surrounding image by pressing With this, you can change the display range of the surrounding image so that you can see the invisible part just by moving your face, so you can experience the realism as if you were there.
本発明の好適な態様において、複数の参加者を配置する仮想会議室と、仮想会議室における複数の参加者の位置と周囲の映像の位置と、を記憶する仮想会議室記憶部を備え、映像選定部は、参加者の顔の動きに応じて選定した周囲の映像の向きに合わせて参加者の表示位置を変える。本態様によれば、参加者の顔の動きに応じて選定した周囲の映像の向きに合わせて参加者の表示位置を変えることで、その表示位置から周囲の映像を見ているように表示できるので、まるでその場にいるような臨場感のある体験が可能となる。 In a preferred aspect of the present invention, a virtual conference room for arranging a plurality of participants and a virtual conference room storage unit for storing the positions of the plurality of participants in the virtual conference room and the positions of surrounding images, The selection unit changes the display position of the participant according to the direction of the surrounding image selected according to the movement of the participant's face. According to this aspect, by changing the display position of the participant in accordance with the orientation of the surrounding image selected according to the movement of the participant's face, it is possible to display the surrounding image as if it were being viewed from that display position. Therefore, it is possible to have a realistic experience as if you were there.
本発明の好適な態様において、本発明の記憶媒体は、コミュニケーション装置が行うビデオ処理をコンピュータに実行させるコミュニケーションプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、ビデオ処理は、複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得するステップと、取得された顔の映像から少なくとも参加者の一人の顔の動きを検知するステップと、検知された参加者の顔の動きに応じて他の参加者の顔の向きの映像を選定するステップと、選定された映像から少なくとも他の参加者の顔の映像を端末装置に表示させるための映像を生成するステップと、を含む。本態様の記憶媒体のプログラムをコンピュータで読み取って実行させることでビデオ処理を実行でき、コンピュータをコミュニケーション装置として機能させることができる。 In a preferred aspect of the present invention, the storage medium of the present invention is a computer-readable storage medium storing a communication program that causes a computer to execute video processing performed by a communication device, the video processing being performed by a plurality of participants. obtaining a plurality of videos, each including videos of faces in different orientations; detecting facial movements of at least one of the participants from the obtained facial videos; and detecting facial movements of the participants. and generating an image for displaying at least the image of the other participant's face from the selected image on the terminal device. . Video processing can be executed by reading and executing the program stored in the storage medium of this embodiment, and the computer can function as a communication device.
上記課題を解決するために、本発明のプログラムは、コミュニケーション装置が行うビデオ処理をコンピュータに実行させるコミュニケーションプログラムであって、ビデオ処理は、複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得するステップと、取得された顔の映像から少なくとも参加者の一人の顔の動きを検知するステップと、検知された参加者の顔の動きに応じて他の参加者の顔の向きの映像を選定するステップと、選定された映像から少なくとも他の参加者の顔の映像を端末装置に表示させるための映像を生成するステップと、を含む。本態様のプログラムを実行することでビデオ処理を実行でき、コンピュータをコミュニケーション装置として機能させることができる。 In order to solve the above problems, a program of the present invention is a communication program that causes a computer to execute video processing performed by a communication device, wherein the video processing includes images of faces facing different directions for each of a plurality of participants. acquiring a plurality of images; detecting facial movements of at least one of the participants from the acquired facial images; It includes the steps of selecting an orientation image, and generating from the selected image an image for displaying at least an image of the other participant's face on the terminal device. By executing the program of this aspect, video processing can be executed, and the computer can function as a communication device.
本発明によれば、自分の顔の動きに応じて他の参加者の見え方やその周囲の見え方を変えることで、まるでその場にいるような臨場感でビデオ会議や会話を行うことができる。 According to the present invention, by changing the appearance of other participants and the appearance of the surroundings according to the movement of one's face, it is possible to have a video conference or conversation with a sense of realism as if one were there. can.
<第1実施形態>
以下、本発明の第1実施形態について図面を参照しながら説明する。第1実施形態では本発明のコミュニケーション装置の例示としてのビデオ会議装置10を備えるビデオ会議システム100(コミュニケーションシステム)を例に挙げる。図1は、第1実施形態に係るビデオ会議システム100の構成を示す図である。図1のビデオ会議システム100は、ビデオ会議装置10と端末装置20とを備える。<First embodiment>
A first embodiment of the present invention will be described below with reference to the drawings. In the first embodiment, a video conference system 100 (communication system) including a
ビデオ会議システム100は、複数の参加者を端末装置20の画面に表示させてビデオ会議(Web会議、テレビ会議)を行うものである。本実施形態のビデオ会議装置10は、自分の顔の動きに応じて(自分の顔の動きに連動して)、他の参加者の見え方を変えて画面に表示する。自分の顔の動き(顔の移動や顔の向きなど)に連動して他の参加者の見え方が変わるので、まるでその場にいるような臨場感のある会議ができる。
The
第1実施形態のビデオ会議装置10は、端末装置20をクライアントとするサーバコンピュータで構成する場合を例示する。ビデオ会議装置10は、複数台で分散処理するように構成してもよく、また1台のサーバ装置に設けられた複数の仮想マシンによって構成してもよい。また、ビデオ会議装置10は、パーソナルコンピュータで構成してもよく、クラウドサーバで構成してもよい。ビデオ会議装置10と端末装置20とはインターネットなどのネットワークNを介して互いに通信可能に構成されている。
The
端末装置20は、ユーザによって利用される情報処理装置である。端末装置20は、例えばスマートフォン、タブレット、PDA(Personal Digital Assistant)などの携帯端末や、デスクトップ型パーソナルコンピュータ、ノート型パーソナルコンピュータなどである。ネットワークNには2つの端末装置20が接続される場合を例示しているが、3つ以上の端末装置20が接続されていてもよい。各端末装置20はそれぞれ別々の地点で参加者に使用されるが、同じ地点で他の参加者が使用するものを含んでいてもよい。
The
図2は、図1のビデオ会議装置10(コミュニケーション装置)と端末装置20の具体的構成例を示すブロック図である。図2に示すようにビデオ会議装置10は、通信部11と制御部12と記憶部14とを備える。通信部11と制御部12と記憶部14とは、それぞれバスライン10Lに接続され、相互に情報(データ)のやり取りが可能である。
FIG. 2 is a block diagram showing a specific configuration example of the video conference device 10 (communication device) and the
通信部11は、ネットワークNと有線又は無線で接続され、端末装置20との間で情報(データ)の送受信を行う。通信部11は、インターネットやイントラネットの通信インターフェースとして機能し、例えばTCP/IPを用いた通信などが可能である。
The
制御部12は、ビデオ会議装置10全体を統括的に制御する。制御部12は、MPU(Micro Processing Unit)などの集積回路で構成される。制御部12は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)を備える。制御部12は、必要なプログラムをROMにロードし、RAMを作業領域としてそのプログラムを実行することで、各種の処理(ビデオ会議処理など)を行う。
The
記憶部14は、制御部12で実行される各種プログラムやこれらのプログラムによって使用されるデータなどを記憶するコンピュータ読み取り可能な記憶媒体である。記憶部14は、ハードディスク、光ディスク、磁気ディスクなどの記憶装置で構成される。記憶部14の構成はこれらに限られず、記憶部14をRAMやフラッシュメモリなどの半導体メモリなどで構成してもよい。例えば記憶部14をSSD(Solid State Drive)で構成することもできる。
The
記憶部14は、プログラム記憶部15、データ記憶部16、仮想会議室記憶部18などを備える。プログラム記憶部15は、制御部12で実行される各種プログラムを記憶する。制御部12は、プログラム記憶部15から必要なプログラムを読み出して各種の処理を実行する。
The
データ記憶部16には、例えばユーザ情報161などが記憶される。ユーザ情報161には、予め登録されているユーザID、会社名、氏名などが含まれる。なお、ユーザ情報161はこれに限られない。
The
仮想会議室記憶部18には、予め設定される仮想会議室の構成や仮想会議室での参加者の位置情報などが記憶される。具体的には仮想会議室記憶部18には、仮想会議室構成情報181、参加者情報182、仮想会議室表示情報183などが記憶される。その他、仮想会議室記憶部18には、仮想会議室で表示する会議室構成要素として例えばテーブル183c、ホワイトボード183dなどの画像データが記憶される。このホワイトボード183dには、プレゼンテーション用の画像や動画も表示できる。なお、本明細書において仮想会議室は仮想会話室としてもよい。
The virtual conference room storage unit 18 stores the preset configuration of the virtual conference room, the position information of the participants in the virtual conference room, and the like. Specifically, the virtual conference room storage unit 18 stores virtual conference
仮想会議室構成情報181には、各端末装置20に表示する参加者の映像を配置するための仮想会議室の構成情報であり、例えば図3に示すようなデータテーブルからなる。具体的には仮想会議室の種類、収容人数、テーブル183cの有無、ホワイトボード183dの有無、参加者を表示できる縦列数や横列数などである。本実施形態では、参加者の収容人数や参加者を配置する列数、テーブル183cの表示の有無などが異なる複数の仮想会議室の構成情報が記憶される。
The virtual conference
図3では、小会議室R1、中会議室R2、大会議室R3、対面会議室R4などを例示している。小会議室R1、中会議室R2、大会議室R3は収容人数が異なり、対面会議室R4と他の会議室とでは参加者の見え方が異なる。例えば小会議室R1、中会議室R2、大会議室R3では、後述する図6に示すようにテーブル183bに周りに自分と他の参加者の映像が枠にはめ込まれて表示される。テーブル183bを表示しないようにすることもできる。2人の対面会議室R4では、テーブル183bも自分も表示されず、相手の映像だけが表示される。なお、仮想会議室は図示したものに限らない。また仮想会議室は予め設定されているものだけでなく、仮想会議室の種類、収容人数、テーブル183cの有無、ホワイトボード183dの有無、参加者を表示できる縦列数や横列数などをユーザが変更したり設定したりできるようにしてもよい。
FIG. 3 illustrates a small conference room R1, a medium conference room R2, a large conference room R3, a face-to-face conference room R4, and the like. The capacity of the small conference room R1, the medium conference room R2, and the large conference room R3 are different, and the appearance of the participants differs between the face-to-face conference room R4 and the other conference rooms. For example, in the small conference room R1, the middle conference room R2, and the large conference room R3, the images of the participant and the other participants are displayed in a frame around the table 183b as shown in FIG. 6, which will be described later. It is also possible not to display the table 183b. In the two-person meeting room R4, neither the table 183b nor the user himself is displayed, and only the image of the other party is displayed. Note that the virtual conference room is not limited to the illustrated one. In addition, the user can change not only the preset virtual conference room, but also the type of virtual conference room, the number of people that can be accommodated, the presence or absence of a table 183c, the presence or absence of a
参加者情報182には、会議に参加する参加者の情報が記憶され、例えば図4に示すようなデータテーブルで構成される。具体的には参加者情報182としては、参加者が参加する会議室ID、ユーザID、地点、入室の有無、退室の有無、仮想会議室上の参加者の位置(横列y01、縦列t01など)、参加者の顔の動き、映像データの数、音声データの種類などの情報が挙げられる。映像データや音声データは端末装置20から受信するデータであり、映像データの数は例えば正面、右側、左側、下側であれば4つである。端末装置20から受信する音声データの種類はステレオ音声である。参加者情報182は上述したものに限られず、例えばIPアドレス、スクリーンショット画像などを記憶してもよい。
The
仮想会議室表示情報183は、各参加者が入室する仮想会議室の表示情報である。例えば図5に示すように仮想会議室表示情報183には、各参加者を配置する列や各参加者の位置(参加者の映像をはめ込む枠の位置)、テーブル183cやホワイトボード183dなどの会議要素の位置、仮想会議室の表示範囲183bなどが含まれる。仮想会議室表示情報183は、図3の仮想会議室構成情報181の仮想会議室の種類毎に設けられる。どの仮想会議室を利用するかは、ホストとなる参加者が予め設定できるようになっている。
The virtual conference
図5は、図3の小会議室R1の仮想会議室を参加者A、Bの2人が利用する場合を例示する。図5に示すように外枠183aが仮想会議室全体を示す。その内側の太枠が表示範囲183bを示す。図3の小会議室R1は収容人数が2人、テーブルあり、横列数2つ、縦列数2つである。図5では、中央にテーブル183cを配置する。テーブル183cの下側の列が横列y01、テーブル183cの上側の列が横列y02に相当する。テーブル183cの左側の列が縦列t01に相当し、テーブル183cの右側の列が縦列t02に相当する。なお、図5に示すテーブル183c、ホワイトボード183d、縦列、横列などの位置は予め設定されているものを利用してもよく、ホストとなる参加者が位置を変えて利用するようにしてもよい。
FIG. 5 illustrates a case where two participants A and B use the virtual conference room of the small conference room R1 in FIG. As shown in FIG. 5, an
図5の横列y01に配置されるA枠、横列y02に配置されるB枠には各参加者の映像をはめ込むことができる。例えば後述する図6は、小会議室R1を利用してA枠には参加者Aの映像がはめ込まれ、B枠に参加者Bの映像がはめ込まれる場合を例示する。なお、端末装置20の表示には、仮想会議室を平面で表示するか、立体で表示するかを予め選択可能である。平面表示が選択された場合は図5の表示範囲183bがそのまま表示画面252に表示され、立体表示が選択された場合は図6のようにテーブル183cなどが立体的に表示される。図5では参加者が配置される列とテーブル183cを含めた範囲が表示範囲183bとなる。図5ではホワイトボード183dは表示範囲183bに含まれていないため、表示されない。もし表示する場合には、最初から又は会議中にホワイトボード183dも含むように表示範囲183bを調整することができる。
A video of each participant can be inserted into the A frame arranged in the horizontal row y01 and the B frame arranged in the horizontal row y02 in FIG. For example, FIG. 6, which will be described later, exemplifies a case where the image of participant A is fitted in the A frame and the image of participant B is fitted in the B frame using the small conference room R1. It should be noted that it is possible to select in advance whether the virtual conference room should be displayed two-dimensionally or three-dimensionally for display on the
図2の制御部12は、取得部121、動き検知部122、映像選定部123、映像生成部124、音声選定部125、音声生成部126、出力部127を備える。これら制御部12の各構成要素は、物理的な回路で構成してもよく、CPUが実行可能なプログラムで構成してもよい。制御部12の構成は、図2に示す構成に限られない。
The
取得部121は、通信部11を介して端末装置20毎に撮像装置24で撮像された参加者の複数の映像データと音声データを受信する。具体的には取得部121は各参加者の異なる向き(例えば正面、右側、左側、上側、下側など)の顔の映像を含む映像データとステレオの音声データ(左側音声、右側音声)を受信する。取得部121はどの撮像装置24で撮像された映像かは問わないが、正面の顔の映像の他に、もし自分を見る相手がその場にいたら相手が顔を動かしたときに見えるべき自分の顔の映像(右側、左側、上側、下側のいずれかなど)も入力される。例えば顔を左右に動かして他の参加者の映像を変える場合には、顔の右側からの映像(右顔映像)と左側からの映像(左顔映像)が入力される。
The
動き検知部122は、取得部121で取得された映像データから参加者の顔の動きを検知する。動き検知部122は、参加者の顔の動きがあるか否かも検知する。ここでの「顔の動き」としては、顔の移動(顔の位置の変化)と顔の回転(顔の向きの変化)が挙げられる。動き検知部122は、例えば横方向(左右方向)、縦方向(上下方向)、前後方向などの顔の移動(顔の位置の変化)を検知できる。その他、動き検知部122は、右向き、左向き、上向き、下向きなどの顔の回転(顔の向きの変化)も検知できるようにしてもよい。第1実施形態の動き検知部122は、顔の動きありを検知した場合は、横方向(右方向、左方向)と縦方向(上方向、下方向)のどの方向に顔が移動したかも検知する。
The
動き検知部122は、顔の正面の映像から顔の動きを検知してもよく、他の向きの映像(右向きの顔の映像や左向きの顔の映像)から顔の動きを検知してもよい。例えば顔の正面の映像から顔の部分を認識し、顔の向き(鼻の向きでもよい)をベクトル化して、そのベクトルの位置の変化から顔の移動(顔の位置の変化)を検知し、そのベクトルの角度の変化から顔の回転(顔の向きの変化)を検知してもよい。この場合、例えば撮像装置24の映像からの顔の動きをAI(人工知能)などで機械学習させた学習済モデルや既存の学習済モデルを用いて、撮像装置24の映像から顔の動きを検知するようにしてもよい。顔の動きの検知は上記の方法に限られず、顔の映像から検知できるものであれば、どのような方法で検知してもよい。
The
映像選定部123は、参加者毎に取得部121で取得した異なる向きの顔の映像から、動き検知部122で検知された顔の動きに応じて、端末装置20に表示する他の参加者の映像を選定する。例えば実際の会議では対面する相手がいる場合、自分の顔を左に動かせば、相手の顔の右側が見えるはずである。そこで、例えば動き検知部122が参加者の左方向への顔の移動(左移動)を検知した場合、映像選定部123はその参加者の対面位置に表示する他の参加者の映像として、取得部121で取得された異なる向きの顔の映像(正面、右側、左側、上側、下側など)から顔の右側の映像を選定する。映像生成部124は映像選定部123で選定した各参加者の顔の映像を、仮想会議室の所定の位置(顔映像枠の位置)にはめ込んで、テーブルなどの画像と合成した出力映像を生成する。これにより、実際の会議で自分が顔を動かしたときと同じように他の参加者の映像を見ることができる。
The
音声選定部125は、動き検知部122で検知された参加者の顔の動きに応じて他の参加者の音声を選定する。例えば実際の会議では左側にいる参加者に顔を動かして話しかける場合は左側の方が強く聞こえるはずである。そこで、例えば動き検知部122が参加者の左への顔の動きを検知した場合には、その参加者の左側に表示する他の参加者の音声として、取得部121で取得されたステレオの音声データのうち左側音声を選定する。音声生成部126は左右の音声や全体の音量を調整した出力音声を生成する。上記のように動き検知部122が参加者の左への顔の動きを検知した場合は、その参加者の左側に表示する他の参加者の音声については、左側音声の音量を右側音声よりも大きめにした出力音声を生成する。
The
出力部127は、映像生成部124で生成された出力映像と音声生成部126で生成された出力音声とを動画データ(ビデオデータ)として通信部11に出力する。なお、制御部12は、動き検知部122検知された顔の動きなどを図4の参加者情報182に記憶し更新する。映像選定部123や音声選定部125は、参加者情報182の顔の動きに基づいて映像や音声を選定するようにしてもよい。
The
出力部127からの出力映像及び出力音声は動画データとして通信部11を介して端末装置20に送信される。端末装置20は、受信した出力映像を表示装置25の表示画面252に表示し、出力音声をスピーカ27から出力する。なお、出力映像と出力音声はWebの動画データであってもよい。この場合、ビデオ会議装置10は、出力映像と出力音声を動画データとしてWebに表示させて、端末装置20はそのWebから動画データを受信してブラウザに表示する。
The output video and output audio from the
次に、端末装置20の構成例について図2を参照しながら説明する。図2に示す端末装置20は、通信部21、制御部22、記憶部23、撮像装置24,表示装置25、マイク26、スピーカ27、入力装置28を備える。これらはそれぞれバスライン20Lに接続され、相互に情報(データ)のやり取りが可能である。
Next, a configuration example of the
通信部21は、ネットワークNと有線又は無線で接続され、ビデオ会議装置10との間で情報(データ)の送受信を行う。通信部21は、インターネットやイントラネットの通信インターフェースとして機能し、例えばTCP/IPを用いた通信などが可能である。
The
制御部22は、端末装置20全体を統括的に制御する。制御部22は、MPU(Micro Processing Unit)などの集積回路で構成される。制御部22は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)を備える。制御部22は、必要なプログラムをROMにロードし、RAMを作業領域としてそのプログラムを実行することで、各種の処理を行う。
The
記憶部23は、制御部22で実行される各種プログラムやこれらのプログラムによって使用されるデータを記憶する記憶媒体の例示である。記憶部23は、ハードディスク、光ディスク、磁気ディスクなどの記憶装置で構成される。記憶部23の構成はこれらに限られず、記憶部23をRAMやフラッシュメモリなどの半導体メモリで構成してもよい。例えば記憶部23をSSD(Solid State Drive)で構成することもできる。
The
撮像装置24は、参加者の顔を異なる方向から撮影する複数のカメラである。撮像装置24は、2つでも3つでもよく、4つ以上でもよい。本実施形態の撮像装置24は、端末装置20の左右に2つ、上下に2つの合計4つで構成した場合を例示する。詳細は後述する。撮像装置24は、端末装置20に内蔵されるカメラでもよく、外付けのカメラでもよい。またCCD(Charge Coupled Device)カメラ、Webカメラ、IoTカメラなど映像を出力できるものであればどのようなカメラであってもよい。
The
表示装置25は、液晶ディスプレイや有機ELディスプレイなどであり、制御部22からの指示に従って各種情報を表示する。制御部22は、ビデオ会議装置10から通信部21を介して受信した動画データを表示装置25の表示画面252に表示させる。
The
マイク26は、参加者の音声を取り込むステレオマイクである。マイク26は端末装置20に内蔵されるマイクでもよく、外付けのマイクでもよい。スピーカ27は、ステレオスピーカであり、制御部22からの指示に従って各種の音声や音楽を出力する。スピーカ27は端末装置20に内蔵されるスピーカでもよく、外付けのスピーカでもよい。
A
入力装置28は、キーボードやマウスなどであり、ユーザからの操作入力を受け付けて操作内容に対応した制御信号を制御部22へ送信する。入力装置28は表示装置25に設けられたタッチパネルであってもよい。本発明ではマウスやキーボードを使わなくても、顔の動きにより表示画面252の他の参加者の見え方を変えられる。
The
図6は、参加者が2人の場合のビデオ会議システム100の概略構成を示す図である。図6のビデオ会議システム100は、ビデオ会議装置10を構成するサーバに、参加者Aの端末装置20Aと参加者Bの端末装置20BとがネットワークNで接続されて構成される。端末装置20A、20Bは同様の構成であるため、同様の機能を有する要素は同様の符号を付して説明する。
FIG. 6 is a diagram showing a schematic configuration of the
図6の端末装置20A、20Bは、本体20aと表示装置25を一体にしたパーソナルコンピュータである。表示装置25の前面下方には中央にマイク26、左右にスピーカ27が設けられている。表示装置25の背面には本体20aが設けられている。本体20aには、通信部21、制御部22、記憶部23などが内蔵されている。表示装置25の外周には4つの撮像装置24a、24b、24c、24dが設けられている。4つの撮像装置24a、24b、24c、24dはそれぞれ異なる向きの顔の映像を含む映像を取得するためのものであり、本体20aに接続されて通信部21から映像を送信できるようになっている。なお、4つの撮像装置24a、24b、24c、24dはそれぞれ向きが異なるため、顔だけでなく背景も異なって見える。そのため、どの映像が選定されて表示されるかによって背景も変わるので、より臨場感を高めることができる。
なお、撮像装置24(24a、24b、24c、24d)は必ずしも表示装置25に設置されていなくてもよく、異なる向きの顔の映像を含む映像データを取得できれば壁や机などどのような場所に設置されていてもよい。また撮像装置24は必ずしも端末装置20A、20Bに電気的に接続されていなくてもよい。撮像装置24は、異なる向きの顔の映像を含む映像データがネットワークNを介してビデオ会議装置10に送信される構成であれば、CCDカメラ、Webカメラ、IoTカメラなど、どのような撮像装置24を用いてもよい。また、撮像装置24の数も4つに限られない。
Note that the imaging devices 24 (24a, 24b, 24c, and 24d) do not necessarily have to be installed in the
ここで撮像装置24a、24b、24c、24dの設置位置と映像例を図7乃至図9を参照しながら説明する。図7は図6の端末装置20Bの正面から見た図であり撮像装置の位置を示す図である。図8は図7の端末装置20Bを上から見た図であり撮像装置24からの映像例を示す図である。図9は図7の端末装置20Bを左から見た図であり撮像装置24からの映像例を示す図である。端末装置20Aも同様の構成であるため、ここでは端末装置20Bを代表して説明する。
Here, installation positions of the
図7に示すように撮像装置24aは表示装置25の右側面に配置される右側撮像装置(第1撮像装置)であり、図8に示すように参加者Aの顔の右側を撮像する。撮像装置24aは表示装置25の縦方向に沿った回転軸244aを中心に左右に回動自在に支持部242aに支持される。撮像装置24aを左右に回動することで顔の右側の撮像角度を調整できる。図7に示すように撮像装置24bは表示装置25の左側面に配置される左側撮像装置(第2撮像装置)であり、図8に示すように参加者Aの顔の左側を映像する。撮像装置24bは表示装置25の縦方向に沿った回転軸244bを中心に左右に回動自在に支持部242bに支持される。撮像装置24bを左右に回動することで顔の左側の撮像角度を調整できる。
As shown in FIG. 7, the
図7に示すように撮像装置24cは表示装置25の上側面に配置される中央撮像装置(第3撮像装置)であり、図8及び図9に示すように参加者Aの顔の正面を映像する。撮像装置24cは表示装置25の横方向に沿った回転軸244cを中心に上下に回動自在に支持部242cに支持される。撮像装置24cを上下に回動することで顔の正面の撮像角度を調整できる。ここでは撮像装置24cで顔の正面を撮像する場合を例示するが、撮像装置24cの撮像角度を変えて顔の上側を撮像するようにしてもよい。図7に示すように撮像装置24dは表示装置25の下側面に配置される下側撮像装置(第4撮像装置)であり、図9に示すように参加者Aの顔の下側を映像する。撮像装置24dは表示装置25の横方向に沿った回転軸244dを中心に上下に回動自在に支持部242dに支持される。撮像装置24dを上下に回動することで顔の下側の撮像角度を調整できる。
As shown in FIG. 7, the
ところで、ビデオ会議装置10などのコミュニケーション装置は、端末装置20に設置した撮像装置24からの参加者の映像を各端末装置20の表示装置25の表示画面252に表示させて会議や会話を行うことができるようになっている。この場合、例えば端末装置20の表示装置25の表示画面252に複数の参加者の正面顔を格子状に整列させて表示することもできる。
By the way, a communication device such as the
しかしながら、単に正面顔を列挙して表示するだけでは、実際の会議室や会場にいるように顔を動かして見たいところだけ見たりすることもできないので、その場にいるような臨場感をなかなか得られない。また複数の撮像装置を用いれば横顔を撮像して表示させることはできる。ところが、単に対話相手を推定して視線を一致させるだけでは、顔を動かして相手の横顔をのぞき込んだり、プレゼンテーションを見ながら隣の人に話しかけたり、他の参加者を見渡したりする動きには対応できない。したがって、実際の会議室や会場にいるような臨場感までは伝わりにくい。 However, by simply listing and displaying the front face, it is not possible to move the face and see only the part you want to see as if you were in the actual meeting room or venue, so it is difficult to create a realistic feeling as if you were there. I can't get it. Also, by using a plurality of imaging devices, it is possible to image and display a side face. However, simply estimating the conversation partner and matching their gaze does not support movements such as moving the face to look into the other person's profile, talking to the person next to them while watching a presentation, or looking over other participants. Can not. Therefore, it is difficult to convey the presence of being in an actual conference room or venue.
さらにVR(Virtual Reality)会議によれば見たいところが見えるので臨場感を得ることも可能と考えられる。ところが、VR会議ではヘッドマウントディスプレイ(VRゴーグルなど)が必要になり、これを装着しながら会議をするのは煩わしい。また大量の通信データが必要になるので、すべての参加者に高スペックの端末装置20や通信環境がないと、音声が途切れたり画面がフリーズしたりしてスムーズに会議や会話を行えないという問題もある。
In addition, VR (Virtual Reality) conferences allow the viewer to see what they want to see, so it is possible to obtain a sense of realism. However, a VR conference requires a head-mounted display (such as VR goggles), and it is troublesome to hold a conference while wearing this. In addition, since a large amount of communication data is required, if all participants do not have a high-
本実施形態のビデオ会議装置10によれば、自分の顔の動きに応じて他の参加者の見え方を変えることができるようにすることで、VRを使わなくてもまるでその場にいるような臨場感を得ることができる。
According to the
以下、このようなビデオ会議装置10が行うビデオ会議処理について図面を参照しながら説明する。図10はビデオ会議処理の具体例を示すフローチャートである。図10のビデオ会議処理は、制御部12(取得部121、動き検知部122、映像選定部123、映像生成部124、音声選定部125、音声生成部126、出力部127など)によってプログラム記憶部15から必要なプログラムが読み出されて実行される。
Video conference processing performed by the
このビデオ会議処理によって、ビデオ会議装置10にネットワークで接続された複数の参加者の各端末装置20でWeb会議を行う場合を例示する。ビデオ会議装置10は、各参加者の端末装置20から、予め設定された仮想会議室への入室要求を受信することにより、Web会議を行うことができるようになる。
A case will be exemplified where a Web conference is held by the
以下では、図6に示す2人の参加者でビデオ会議や会話を行う場合を例に挙げながらビデオ会議処理について説明する。図12は顔の動きなし検知した場合の作用説明図であり、図13は顔の動きありを検知した場合の作用説明図である。図6では仮想会議室としてテーブル183cと自分を表示する小会議室R1(図3参照)の場合を例示したが、図12及び図13ではテーブル183cと自分を表示せず、相手のみを表示する対面会議室R4(図3参照)の場合を例示する。図12及び図13の参加者Aの表示画面252には参加者Bのみが表示され、参加者Bの表示画面252には参加者Aのみが表示される。なお、テーブル183cやホワイトボード183dなどの表示は会議中に切り替えることもできる。
In the following, the video conference processing will be described by exemplifying the case where two participants hold a video conference or have a conversation as shown in FIG. 12A and 12B are diagrams for explaining the action when no face movement is detected, and FIGS. 13A and 13B are diagrams for explaining the action when the presence of face movement is detected. FIG. 6 illustrates the case of a small conference room R1 (see FIG. 3) that displays the table 183c and himself as a virtual conference room, but in FIGS. The case of the meeting room R4 (see FIG. 3) is exemplified. Only the participant B is displayed on the
先ず制御部12は、図10のステップS110にて端末装置20から入室要求を受信したか否かを判断し、入力要求を受信したと判断するとステップS120にて入室処理を行う。具体的にはユーザからのビデオ会議システム100へのログインと、仮想会議室への入室要求を受け付ける。ビデオ会議装置10のサーバ上に設けられた仮想会議室に入室することにより既に入室している他の端末装置20との間で双方向のWeb会議を行うことができるようになる。ここでの仮想会議室は、ホストとなる参加者により予め図3の中から選ばれた会議室である。
First, the
仮想会議室への入室を受け付けると、制御部12はユーザを参加者として登録し、図4に示す参加者情報を記憶し、ステップS130にて映像及び音声の取得を開始してステップS140のビデオ処理を実行する。ビデオ処理では、参加者の顔の動きを検知し、顔の動きに応じて他の参加者の撮像装置からの映像と音声を選定して動画データを生成する。ビデオ処理の詳細は後述する。
Upon accepting entry into the virtual conference room, the
続いて、ステップS150にて制御部12は端末装置20から退室要求を受信したか否かを判断する。退室要求を受信しない間は、ステップS130及びステップSS140の処理を繰り返す。制御部12は、端末装置20から退室要求を受信したと判断すると、ステップS160にてその退室要求のあった端末装置20からの映像と音声の取得を終了しその参加者をログアウトする。他の端末装置20については、ステップS130及びステップS140の処理を続行する。そしてすべての端末装置20から退室要求があって映像と音声の取得を終了すると、一連のビデオ会議処理を終了する。
Subsequently, in step S<b>150 , the
次に、図10のステップS140のビデオ処理について図11を参照しながら詳細に説明する。図11は図10に示すビデオ処理の具体例を示すフローチャートである。このビデオ処理は、本発明のコミュニケーションプログラムの例示である。本実施形態のビデオ処理は、先ず図11に示すステップS142にて制御部12は取得部121にて取得した複数の映像のうち少なくとも1つの映像から参加者の顔の動きを検知する。
Next, the video processing of step S140 in FIG. 10 will be described in detail with reference to FIG. FIG. 11 is a flow chart showing a specific example of the video processing shown in FIG. This video processing is exemplary of the communication program of the present invention. In the video processing of the present embodiment, first, in step S142 shown in FIG. 11, the
具体的には取得部121が撮像装置24による参加者A、Bのそれぞれの端末装置20A、20Bからすべての撮像装置24a、24b、24c、24dからの4つの映像(異なる向きの顔の映像)を参加者A、B毎に取得する。参加者A、B毎に、取得した4つの映像のうち少なくとも1つの映像から動き検知部122が参加者A、Bの顔の動きを検知する。例えば撮像装置24cによる正面の顔の映像から顔の動きを検知する。
Specifically, the acquiring
本実施形態の動き検知部122が検知する顔の動きは、視線の動きや顔の向きではなく、横方向(右方向や左方向)又は縦方向(上方向や下方向)などの顔の移動である。例えば図13は、動き検知部122が参加者Aの顔の動きあり(左方向への顔の移動)を検知した場合であり、参加者Bについては顔の動きなしを検知した場合である。
The movement of the face detected by the
制御部12は、ステップS142にて顔の動きが検知されると、ステップS144にて顔の動きに応じて他の参加者の4つの映像から1つの映像と音声を選定し、ステップS146にて選定した映像と音声から出力映像と出力音声を生成し、ステップS148にて出力映像と出力音声を動画データとして出力する。
When the movement of the face is detected in step S142, the
なお、動き検知部122は、顔の動いた距離が所定の距離以上のときに顔の動きありを検知し、顔が動いたとしても顔の動いた距離が所定の距離よりも小さい場合は顔の動きなしを検知するようにしてもよい。これによれば、顔が多少動いただけでは映像が変わらないようにできる。顔の動きを検知するための所定の距離を調整することで、顔の微妙な動きによって映像の変化が頻繁になり過ぎないように調整したり、意図して顔を動かしたときだけ映像が変化するように調整したりできる。
Note that the
具体的には図12に示すように顔の動きが検知されていない間は、ステップS144にて参加者A、Bはともに撮像装置24cからの顔の正面の映像(撮像装置24cの映像)が映像選定部123により選定され、参加者A、Bはともにマイク26から左右の音声が音声選定部125により選定される。ステップS146にて映像生成部124は選定された映像から出力映像を生成し、音声生成部126は選定された音声から出力音声を生成する。ステップS148にて出力部127は生成された出力映像と出力音声を画像データとして出力する。
Specifically, as shown in FIG. 12, while the movement of the face is not detected, in step S144, both the participants A and B receive an image of the front of the face from the
こうして、参加者Aの表示画面252には、参加者Bの顔の正面の映像(撮像装置24cの映像)が表示され、左右の音声がそのまま出力される。参加者Bの表示画面252には、参加者Aの顔の正面の映像(撮像装置24cの映像)が表示され、左右の音声がそのまま出力される。
In this way, on the
そして会議中に図12に示すような参加者Aの左方向へ顔の動きがあると、ステップS144にて参加者Aの左方向への顔の動きが検知され、ステップS146にて他の参加者Bについては顔の右側の映像(撮像装置24aの映像)が映像選定部123により選定され、マイク26から右の音声が音声選定部125により選定される。ステップS146にて映像生成部124は選定された映像から顔の右側の出力映像を生成する。音声生成部126は参加者Aの端末装置20Aに出力する参加者Bからの音声は、選定された音声から右の方が左よりも強くなる出力音声を生成する。このとき、図13に示すように参加者Bからは参加者Aが右に動いたように見えるので、参加者Bの端末装置20Bに出力する参加者Aからの音声は右の方が左より強くなるような出力音声を生成する。ステップS148にて出力部127は生成された出力映像と出力音声を画像データとして出力する。
12 during the conference, the movement of the face of participant A to the left is detected in step S144, and the movement of the face of participant A to the left is detected in step S146. For the person B, the image on the right side of the face (image of the
こうして、参加者Aの表示画面252には、参加者Bの顔の右側の映像(撮像装置24aの映像)が表示され、右の方が左よりも強い音声が出力される。参加者Bの端末装置20Bの表示画面252には、参加者Aの顔の正面の映像(撮像装置24cの映像)が表示され、左右の音声がそのまま出力される。そして、参加者Aの右方向へ顔の動きを検知すると、参加者Aの表示画面252には、参加者Bの顔の左側の映像(撮像装置24bの映像)が表示され、右の方が左よりも強い音声が出力される。これに対して、参加者Bの表示画面252には、参加者Aの顔の正面の映像(撮像装置24cの映像)が右にずれて表示され、右の方が左よりも強い音声が出力される。
In this way, on the
このような本実施形態によれば、例えば参加者Aの顔の動きに応じて他の参加者Bの映像を、参加者Aが動いた方の撮像装置の映像に切り替えることにより、実際の会議室でまるでその方向に動いたときのように参加者Bの横顔が見える。このように、自分の顔の動きに応じて他の参加者の見え方を変えることができるので、まるでその場にいるような臨場感を得ることができる。また顔の動きや撮像装置24の角度によっては、視線も合わせることもできるので、会話もしやすくなる。
According to this embodiment, for example, the image of the other participant B is switched to the image of the image pickup device in which the participant A moves according to the movement of the face of the participant A, thereby realizing the actual conference. Participant B's profile can be seen in the room as if it were moving in that direction. In this way, it is possible to change the appearance of other participants in accordance with the movement of one's own face, so that one can feel as if one is actually there. In addition, depending on the movement of the face and the angle of the
<第2実施形態>
本発明の第2実施形態について説明する。以下に例示する各形態において実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。第1実施形態では、表示画面252に対する「顔の動き」に応じて他の参加者の映像を切り替える場合を例示したが、第2実施形態では、仮想会議室での「顔の位置」に応じて他の参加者の映像を切り替える場合や、「顔の動き」に応じて仮想会議室の表示範囲183bを変える場合を例示する。なお、第2実施形態のビデオ会議装置10の構成は、第1実施形態と同様のためその詳細な説明を省略する。<Second embodiment>
A second embodiment of the present invention will be described. Constituent elements having substantially the same functional configuration in each form illustrated below are denoted by the same reference numerals, thereby omitting redundant description. In the first embodiment, the case of switching the video of the other participant according to the "movement of the face" on the
図14は、第2実施形態のビデオ会議システム100の概略構成を示す図であり、参加者4人の場合である。図14のビデオ会議システム100は、ビデオ会議装置10を構成するサーバに、参加者Aの端末装置20Aと参加者Bの端末装置20Bと参加者Cの端末装置20Cと参加者Dの端末装置20DとがネットワークNで接続されて構成される。端末装置20A、20B、20C、20Dはいずれも図6と同様の構成であるため、詳細な説明を省略する。
FIG. 14 is a diagram showing a schematic configuration of the
図15は、第2実施形態の仮想会議室表示情報183の具体例を示す図であり、図3の中会議室R2の仮想会議室を利用する場合の例示である。図15のA枠~D枠には各参加者の映像をはめ込むことができる。図14の構成では横列y01に配置されるA枠には参加者Aの映像がはめ込まれ、横列02に配置されるB枠に参加者Bの映像がはめ込まれ、縦列t01に配置されるC枠には参加者Cの映像がはめ込まれ、縦列t02に配置されるD枠に参加者Dの映像がはめ込まれる。図14では、図15の表示範囲183bを立体表示した場合である。図5では参加者A~Dが配置される列とテーブル183cを含めた範囲が表示範囲183bとなる。図15でも図5と同様にホワイトボード183dは表示範囲183bに含まれていないため、表示されない。
FIG. 15 is a diagram showing a specific example of the virtual conference
図15の仮想会議室での各参加者A~Dの位置に応じて、各参加者A~Dの表示画面252に表示される位置と顔の向きが異なる。具体的には各参加者の表示画面252には、実際の会議室の場合とほぼ同様の顔の位置と顔の向きで表示される。図16は参加者Aの表示画面252での見え方と他の参加者の撮像装置との関係を示す図である。図17は参加者Bの表示画面252での見え方と他の参加者の撮像装置との関係を示す図である。
Depending on the positions of the participants A to D in the virtual conference room of FIG. 15, the positions and face orientations displayed on the
各参加者A~Dの位置については、図15の仮想会議室において自分をテーブル183cの手前に配置したときに奥側、右側、左側に見える位置と同じ位置に他の参加者が配置される。例えば図16に示すように参加者Aの表示画面252では、テーブル183cに対して自分(参加者A)は手前に、参加者Bは奥側に、参加者Cは左側に、参加者Dは右側にそれぞれ表示される。他方、図17に示すように参加者Bの表示画面252では、テーブル183cに対して参加者B(自分)は手前に、参加者Aは奥側に、参加者Dは左側に、参加者Cは右側にそれぞれ表示される。
Regarding the positions of the participants A to D, the other participants are arranged in the same positions as those seen on the back side, right side, and left side when the participant is placed in front of the table 183c in the virtual conference room of FIG. . For example, as shown in FIG. 16, on the
各参加者A~Dの顔の向きについては、図15の仮想会議室において自分をテーブル183cの手前に配置したときに奥側、右側、左側から見える顔の向きと同じになるように他の参加者の顔の向きの映像を表示する。例えば図16に示すように参加者Aの表示画面252では、参加者A(自分)と参加者Bについては撮像装置24cからの顔の正面の映像が表示され、参加者Cについては撮像装置24aからの顔の右側の映像が表示され、参加者Dについては撮像装置24bからの顔の左側の映像が表示される。他方、図17に示すように参加者Bの表示画面252では、参加者B(自分)と参加者Aについては撮像装置24cからの顔の正面の映像が表示されるのに対して、参加者Cについては撮像装置24bからの顔の左側の映像が表示され、参加者Dについては撮像装置24aからの顔の右側の映像が表示される。
The face directions of the participants A to D were set to be the same as the face directions seen from the back, right, and left sides of the virtual conference room shown in FIG. Display the image of the face orientation of the participant. For example, as shown in FIG. 16, on the
このように図16と図17とでは参加者C、Dの位置と顔の向きが左右逆になっていることが分かる。このように第2実施形態によれば、仮想会議室において自分が手前にいると仮定した場合の他の参加者A~Dの位置と顔の向きに合うように撮像装置の映像を切り替えて各参加者A~Dの表示画面252に表示する。これにより、各参加者A~Dの表示画面252には実際の会議室の場合と同様の位置と向きで表示することができる。したがって、まるでその会議室にいるかのような臨場感でWeb会議を行うことができる。 16 and 17, it can be seen that the positions and face directions of participants C and D are left-to-right reversed. As described above, according to the second embodiment, the video of the imaging device is switched so that the positions and face directions of the other participants A to D when it is assumed that the participant is in front in the virtual conference room are switched. It is displayed on the display screens 252 of the participants AD. As a result, the display screens 252 of the participants A to D can be displayed in the same position and orientation as in the actual conference room. Therefore, it is possible to hold a Web conference as if you were in the conference room.
図18は、第2実施形態のビデオ処理の具体例を示すフローチャートであり、図10に示すビデオ処理の変形例である。図18のビデオ処理では参加者の顔の動き(顔の移動)に応じて表示範囲183bを変えことができる。図19は第2実施形態における顔の動きを検知した場合の作用説明図であり、図20はそのときの仮想会議室表示情報183の具体例を示す図である。
FIG. 18 is a flowchart showing a specific example of video processing according to the second embodiment, which is a modification of the video processing shown in FIG. In the video processing of FIG. 18, the
第2実施形態のビデオ処理は、先ず図18に示すステップS242にて制御部12は、取得部121で取得した映像から少なくとも一人の参加者の顔の動きを検知する。具体的には動き検知部122が、取得部121で参加者毎に取得された4つの映像のうち少なくとも1つの映像(例えば正面の顔の映像)からその参加者の顔の動きを検知する。なお、ステップS242については図11のステップS142と同様なので詳細な説明を省略する。制御部12は、ステップS242にて顔の動きが検知されると、ステップS244にて顔の動きに応じて他の参加者の映像と音声を選定する。
In the video processing of the second embodiment, first, at step S242 shown in FIG. Specifically, the
第2実施形態のステップS244では、映像については顔の動きに応じて表示範囲183bが映像選定部123により選定される。例えば図19に示すように参加者Aが左に顔を動かした場合、図20に示すように顔の動きと同じ向き(左側)にずらした表示範囲183b’が映像選定部123により選定される。もし参加者Aが右に顔を動かした場合は右にずらした表示範囲(図示しない)が選定される。また参加者Aが上に顔を動かした場合は上にずらした表示範囲(図示しない)が選定され、参加者Aが下に顔を動かした場合は下にずらした表示範囲(図示しない)が選定される。音声については、表示範囲183b’に含まれる参加者B、Cの音声が音声選定部125で選定され、表示範囲183b’に含まれない参加者Dの音声は音声選定部125で選定されない。
In step S244 of the second embodiment, the
制御部12はステップS246にて、選定した表示範囲183bで映像と音声から出力映像と出力音声を生成し、ステップS248にて出力映像と出力音声を動画データとして出力する。これにより、図19に示すように参加者Aの顔の動きに応じて表示画面252には図20の表示範囲183b’が反映されて表示される。
In step S246, the
図20では顔の動きを検知する前の表示範囲183bを点線で示す。表示範囲183b’は表示範囲183bと比較して参加者A~Cが右側に寄って含まれている。しかも表示範囲183bには参加者Dが含まれるのに対して、表示範囲183b’には参加者Dが含まれない。これにより参加者Aは顔を動かすことで表示画面252に特定の参加者Dを見えなくさせることができる。しかも表示範囲183b’に含まれない参加者Dの音声は音声選定部125で選定されないので、参加者Aの端末装置20では聞こえなくなる。
In FIG. 20, the
このように第2実施形態では、表示画面252に対する顔の動きに応じて表示範囲183bを変えることができる。これにより、顔を動かすことで話したい参加者とだけ会話することもできる。なお、図19及び図20では、表示画面252に対して左に顔を動かすことで表示範囲183bを左にずらす場合を例示したが、これに限られず、表示画面252に対して左右(水平方向)や上下(垂直方向)に動かすことで表示範囲183bも左右や上下にずらすことができる。具体的には、右に顔を動かすことで表示範囲183bを右にずらすことができる。さらに上に顔を動かすことで表示範囲183bを上にずらすこともできる。下に顔を動かすことで表示範囲183bを下にずらすこともできる。
Thus, in the second embodiment, the
また、顔が動く距離に応じて表示範囲183bのずらし量を変えることができる。例えば顔を大きく動かすほど表示範囲183bのずらし量を大きくする。これにより、表示範囲183bを参加者の視野と捉えれば、参加者は顔の動きに応じた見え方ができるので、まるで実際の会議室にいるような臨場感を得ることができる。
Also, the shift amount of the
このような第2実施形態によれば、仮想会議室における参加者の位置に応じてその参加者を表示する位置を特定した映像が生成されるので、他の参加者の位置がまるで実際の会議室の位置にいるような見え方でビデオ会議や会話を行うことができる。また、仮想会議室における参加者の位置に応じてその参加者の映像を選定するので、例えば自分の横にいる参加者は横顔の映像を表示できるようになる。これにより、他の参加者の見え方がまるで実際の会議室にいるような見え方でビデオ会議や会話を行うことができる。 According to the second embodiment as described above, since a video is generated that identifies the position where the participant is displayed according to the position of the participant in the virtual conference room, the positions of the other participants can be displayed as if they were in the actual conference. You can conduct video conferences and conversations as if you were in the room. In addition, since the video of the participant is selected according to the position of the participant in the virtual conference room, for example, the video of the side face of the participant next to the participant can be displayed. This makes it possible to conduct video conferences and conversations as if other participants were in the actual conference room.
また、第2実施形態では、参加者の顔の動きに応じて仮想会議室の表示範囲183bを選定し、複数の参加者のうち表示範囲183bに含まれる参加者を端末装置20に表示させるための映像を生成できる。これによれば、自分の顔を動かすことにより、仮想会議室のうち見たい範囲を表示させることができる。例えばテーブル183cの右側にいる参加者だけを見たい場合には顔を右に動かせば右側の参加者だけが見えるようにできる。また実際の会議室でその参加者の近くに行って会話するように、会話する参加者の方に顔を動かせばその参加者だけを表示させその参加者とだけ会話をすることもできる。このように、まるで実際の会議室で会話をしているような臨場感を得られる。
In addition, in the second embodiment, the
<第3実施形態>
本発明の第3実施形態について説明する。第1実施形態及び第2実施形態の動き検知部122では「顔の動き」として「顔の移動」(表示画面252に対する横方向や縦方向の動き)を検知する場合を例示したが、これに限られない。第3実施形態の動き検知部122では、「顔の動き」として「顔の向き」を検知し、顔の向きに応じて仮想会議室上の参加者の見え方を変える場合を例示する。なお、第3実施形態のビデオ会議装置10の構成は、第1実施形態と同様のためその詳細な説明を省略する。第3実施形態のビデオ会議システム100は、第2実施形態と同様に参加者4人の場合(図14)を例に挙げて説明する。<Third Embodiment>
A third embodiment of the present invention will be described. The
図21は第3実施形態のビデオ処理の具体例を示すフローチャートであり、図11に示すビデオ処理の他の変形例である。第3実施形態のビデオ処理は、先ず図21に示すステップS342にて制御部12は取得した映像から参加者の顔の向きを検知する。制御部12は、ステップS342にて顔の向きが検知されると、ステップS344にて顔の向きに応じて他の参加者の映像と音声を選定する。制御部12はステップS346にて選定した表示範囲183bで映像と音声から出力映像と出力音声を生成し、ステップS348にて出力映像と出力音声を動画データとして出力する。
FIG. 21 is a flowchart showing a specific example of video processing according to the third embodiment, which is another modified example of the video processing shown in FIG. In the video processing of the third embodiment, first, in step S342 shown in FIG. 21, the
このような図21のビデオ処理では参加者の顔の動き(顔の向き)に応じて表示範囲183bを変えることで、仮想会議室表示情報183での「同列」の参加者の見え方を変えることができる。以下、図22乃至図27を参照しながら具体的に説明する。図22は第3実施形態における仮想会議室表示情報183の具体例を示す図である。図23は図22の仮想会議室表示情報183による参加者Aからの見え方を示す図である。図24は顔の向きが正面から左に動いた場合の仮想会議室表示情報183を示す図であり、図25は図24の仮想会議室表示情報183による参加者Aからの見え方を示す図である。図26は顔の向きが正面から右に動いた場合の仮想会議室表示情報183を示す図であり、図27は図26の仮想会議室表示情報183による参加者Aからの見え方を示す図である。
In such a video processing of FIG. 21, by changing the
図22によれば、参加者Cと参加者Dは参加者Aと同列(横列y01)であり、参加者Aの左側に参加者Cが配置され、参加者Aの右側に参加者Dが配置されている。第3実施形態では、顔の向きを変えたときだけ同列の参加者を表示することができる。すなわち、図22に示すように参加者Aの顔の向きが正面を向いているときには、図22の表示範囲183bとなり、同列の参加者C、Dは表示されず音声も出ない。図25に示すように動き検知部122が参加者Aの左向きへの顔の向きを検知すると、図24の仮想会議室表示情報183により同列の左側の参加者Cのみが表示され、参加者Cの音声が出力される。他方、図27に示すように動き検知部122が参加者Aの右向きへの顔の向きを検知すると、図26の表示範囲183bにより同列の右側の参加者Dのみが表示され、参加者Dの音声が出力される。
According to FIG. 22, participants C and D are in the same row as participant A (row y01), participant C is arranged to the left of participant A, and participant D is arranged to the right of participant A. It is In the third embodiment, participants in the same row can be displayed only when the direction of the face is changed. That is, when participant A faces forward as shown in FIG. 22, the
このように第3実施形態では、参加者Aが正面を向いているとき、顔の動きが検知されなければ、参加者C,Dは表示されず、参加者Bのみとの会話が可能である。これに対して、参加者Aが左を向くと参加者Cと会話できるようになり、参加者Aが右を向くと参加者Dと会話できるようになる。これにより、実施の会議室において必要なときだけ同列の参加者に話しかける場合をWeb会議上で実現できる。 As described above, in the third embodiment, when participant A is facing the front and no facial movement is detected, participants C and D are not displayed and only participant B can have a conversation. . On the other hand, when the participant A turns left, he/she can talk with the participant C, and when the participant A turns right, he or she can talk with the participant D. This makes it possible to talk to participants in the same row only when necessary in the actual conference room on the Web conference.
例えば実際の会議室では、自社の参加者と他社の参加者で交渉会議を行う場合、テーブルを挟んで手前側の列に自社の参加者が並び、テーブルの奥側の列に他社の参加者が並ぶことがある。この場合、他社の参加者との交渉をしている間は、自社の参加者と話をする必要がない。自社の参加者は必要なときだけ話しかけたいことがある。第3実施形態では、このようなシチュエーションも実現できる。すなわち、顔の向きを変えることで自社の参加者を表示させて会話することができるようになる。このように、第3実施形態においてもまるで実際の会議室のような臨場感を体験できる。 For example, in an actual conference room, if participants from your company and participants from other companies hold a negotiation meeting, the participants from your company line up in the front row across the table, and the participants from other companies line up in the back row of the table. may line up. In this case, there is no need to talk to the participants of the company while negotiating with the participants of other companies. Your company's participants may want to speak only when necessary. Such a situation can also be realized in the third embodiment. That is, by changing the orientation of the face, the participants of the company can be displayed and the conversation can be conducted. In this way, even in the third embodiment, it is possible to experience a sense of realism as if one were in an actual conference room.
以上のように第3実施形態によれば、動き検知部122は、取得部121にて取得された4つの映像のうち少なくとも1つの映像から参加者の顔の向きが正面、右向き、左向きのいずれかであるかを検知できる。映像選定部123は、検知された顔の向きが正面の場合は、右側と左側に位置する参加者の映像を含まない仮想会議室の表示範囲183bを選定し、検知された顔の向きが右向きの場合は、右側に位置する参加者の映像を含む仮想会議室の表示範囲183bを選定し、検知された顔の向きが左向きの場合は、左側に位置する参加者の映像を含む仮想会議室の表示範囲183bを選定することができる。
As described above, according to the third embodiment, the
これにより、右側の参加者と会話する場合は右側を向き、左側の参加者と会話する場合は左側を向けばよいので、まるで会議室で隣の参加者と会話する場合のような臨場感を得ることができる。また自分の右側に複数の参加者がいればそれを見たいときには右を向けばよく、自分の左側に複数の参加者がいればそれを見たいときには左を向けばよいので、まるで実際の会議室で顔の向きを変えた場合のような臨場感を得られる。なお、第3実施形態では、参加者A(自分)の左側と右側に参加者が一人ずつの場合を例示したが、これに限られない。例えば自分の左側と右側に参加者が複数の場合にも適用できる。この場合、右側を向けば自分の右側にいるすべての参加者が見えるようになり、左側を向けば自分の左側にいるすべての参加者が見えるようになる。 This allows you to turn to the right when talking to the participant on the right, and turn to the left when talking to the participant on the left, so you can feel as if you were talking to the participants next to you in a conference room. Obtainable. Also, if there are multiple participants on your right side, you can turn to the right when you want to see them, and if you want to see multiple participants on your left side, you can turn to the left when you want to see them. You can get a sense of realism as if you changed the direction of your face in a room. In addition, in the third embodiment, the case where there are one participant on the left side and one on the right side of the participant A (himself) has been exemplified, but the present invention is not limited to this. For example, it can also be applied when there are multiple participants on the left and right sides of oneself. In this case, looking to the right will allow you to see all participants to your right, and looking to your left will allow you to see all participants to your left.
<第1実施形態乃至第3実施形態の変形例>
(1)第1実施形態乃至第3実施形態では、仮想会議室表示情報183において参加者の位置(席)が予め設定される場合を例示したが、これに限られない。会議中に仮想会議室表示情報183の参加者の位置(席)を変えられるようにしてもよい。例えば図28は第1変形例に係る仮想会議室表示情報183の具体例を示す図であり、図15の縦列t02の参加者Dを横列y02に位置(席)を移動した場合である。図29は参加者Dの席移動後の参加者Aからの見え方を示す図である。図30は参加者Dの席移動前の参加者Dからの見え方を示す図であり、図31は参加者Dの席移動後の参加者Dからの見え方を示す図である。<Modified Examples of First to Third Embodiments>
(1) In the first to third embodiments, the positions (seats) of the participants are set in advance in the virtual conference
図29に示すように参加者Dの席の移動は参加者Aから見れば、テーブル183cの右側から奥側の参加者Cの隣に移って見えるので、移動したことが一目で分かる。参加者Dから見れば席移動前は図30に示すようにテーブル183cの奥側に参加者Cが見えたのに対して、席を移動することで図31に示すようにテーブル183cの奥側には参加者Aが見えるようになる。このような第1変形例によれば、仮想会議室表示情報183において席を移動することでも、実際の会議室と同じような見え方をビデオ会議でも実現できるので、臨場感を高めることができる。
As shown in FIG. 29, when the seat of participant D is moved, the seat of participant A appears to move from the right side of the table 183c to the side of participant C on the back side, so that the movement can be understood at a glance. From the perspective of participant D, before the seat change, participant C could be seen on the far side of table 183c as shown in FIG. becomes visible to participant A. According to such a first modification, by moving the seats in the virtual conference
(2)上記第1実施形態では参加者2人の場合、第2実施形態及び第3実施形態では参加者4人の場合を例示したが、これに限られない。多数の参加者を表示して会議を行う場合であってもよい。例えば図32は第2変形例に係る仮想会議室表示情報183の具体例を示す図であり、図3の大会議室R3の表示範囲(参加者16人の場合)を例示する。図33は図32の仮想会議室表示情報183による参加者A1からの見え方を示す図である。図32では、横列y01に参加者3人(A2、A1、A3)、横列y02に参加者4人(B1、B2、B3、B4)、縦列t01に参加者4人(C1、C2、C3、C4)、縦列t02に参加者4人(D1、D2、D3、D4)、プレゼンターとしての参加者1人(A4)が配置されている。図33に示すように参加者A1の表示画面252には、図32の仮想会議室表示情報183の配置の通り、実際の会議室のようにテーブル183cの手前には参加者3人(A2、A1、A3)の正面顔の映像が並び、テーブル183cの奥側には参加者4人(B1、B2、B3、B4)の正面顔の映像が並んで見える。またテーブル183cの左側には参加者4人(C1、C2、C3、C4)の右顔の映像が並び、テーブル183cの右側には参加者4人(D1、D2、D3、D4)の左顔の映像が並んで見える。さらに表示画面252の右上にはプレゼンターとしての参加者A4の映像が見えるので、この参加者A4がプレゼンテーションを行っていることが一目でわかる。なお、図32及び図33に示すようにホワイトボード183dはテーブル183c上に表示してもよい。この場合、ホワイトボード183dの向きは、どの参加者からも同じように見えるように調整可能である。
(2) In the first embodiment, the case of two participants, and in the second and third embodiments, the case of four participants is illustrated, but the present invention is not limited to this. It may be a case of holding a conference by displaying a large number of participants. For example, FIG. 32 is a diagram showing a specific example of the virtual conference
図32ではプレゼンターの列p01(発言領域の列の例示)を他の横列y01、y02や縦列t01、t02とは別に設けている。このような発言領域に参加者を表示する列p01を設け、この列p01に参加者が移動して発言することで、誰が発言しているかが分かりやすくなる。図32では参加者A4がプレゼンターであり、参加者A4は横列y01からプレゼンターの列p01に席を移動した場合を例示している。図32ではプレゼンターの列p01(発言領域の列)は1人分であるが、2人分以上あってもよい。2人以上でプレゼンテーションを行う場合もあるからである。このように、参加者が多数であっても、プレゼンターの列p01(発言領域の列)に移動してプレゼンテーションや発言を行うことで、誰がプレゼンテーションを行っているのか、誰が発言しているのかなどが一目で分かり、実際の会議室で参加者の前に出てプレゼンテーションをしたり発言したりする場合に近い見え方にすることができるので、より臨場感を高めることができる。 In FIG. 32, a column p01 of presenters (an example of a column of speech areas) is provided separately from other rows y01 and y02 and columns t01 and t02. By providing a column p01 for displaying the participants in such a comment area and having the participants move to this column p01 to speak, it becomes easy to understand who is speaking. FIG. 32 illustrates a case where participant A4 is the presenter, and participant A4 has moved from the horizontal row y01 to the presenter row p01. In FIG. 32, the column p01 of presenters (speech area column) is for one person, but it may be for two or more presenters. This is because there are cases where two or more people make a presentation. In this way, even if there are a large number of participants, by moving to the presenter column p01 (speech area column) and giving a presentation or making a statement, it is possible to see who is giving the presentation, who is speaking, etc. can be seen at a glance, and the appearance can be similar to that of presenting or speaking in front of participants in an actual conference room, so the presence can be enhanced.
<第4実施形態>
本発明の第4実施形態について説明する。第1実施形態乃至第3実施形態とその変形例では、撮像装置24から参加者の異なる向きの顔の映像を取得することで、参加者の顔の動きに応じて他の参加者の「顔の映像」を変えられる場合を例示した。第4実施形態では、撮像装置24として全方位(360度)カメラを用いて異なる向きの全方位映像を取得することで、参加者の顔の動きに応じて他の参加者の「周囲の映像」も変えられる場合を例示する。ここでの「周囲の映像」としては、参加者の背景映像だけでなく、前方映像、右側映像、左側映像などの映像も含まれる。第4実施形態では、そのような周囲の映像の見え方も参加者の顔の動きに応じて変えられることで、より臨場感のある体験が可能となる。<Fourth Embodiment>
A fourth embodiment of the present invention will be described. In the first to third embodiments and their modifications, images of the faces of the participants facing different directions are acquired from the
従来は、例えばビデオ会議で商品開発会議などを行う場合、テーブルに置かれた試作品の映像を別の方向から見たいとき、その場にいる参加者にカメラに映るようにその試作品を動かしてもらったり、カメラの方を動かしてもらったりしないと見ることができなかった。ところが、見たい方向に試作品を向けてもらったり、見たい方向にカメラを動かしてもらったりすることは意外と難しい。従来のビデオ会議では、映像を見ている参加者がその場にいる他の参加者に、そこではなくてもっと右とか、もっと左とか伝えても上手く伝わらず、なかなか見たい映像が見られないというもどかしさがあった。 In the past, for example, when a product development meeting was held by video conference, when the video of the prototype placed on the table was to be viewed from a different direction, the participants moved the prototype so that it could be seen by the camera. I couldn't see it unless I had someone hold me or move the camera. However, it is surprisingly difficult to have the prototype pointed in the direction you want to see, or to have the camera move in the direction you want to see. In conventional video conferencing, even if the participant who is watching the video tells the other participants to move to the right or left instead of there, it is difficult to see the video they want to see. There was frustration.
この点、第4実施形態によれば、その場にいる参加者に試作品やカメラを動かしてもらわなくても、映像を見ている参加者が見たい方向に顔を動かすだけで、試作品の映像を含む周囲の映像を見たい方向に切り替えることができ、その周囲の映像を動かしたりすることもできる。これによれば、商品開発会議だけでなく、建設現場で建設物の映像を見ながら現場監督と遠隔で会話したい場合、ショールームで商品を見ながら店員と会話したい場合など、様々な場面で利用できる。しかも、映像を見ている参加者が見たい方向に顔を動かすだけで、建設物の映像や商品の映像を含む周囲の映像の見え方を変えられるので、まるでその場にいるような臨場感でコミュニケーションを円滑に行うことができる。 In this respect, according to the fourth embodiment, even if the participants on the spot do not move the prototype or the camera, the participant who is watching the video simply moves his/her face in the desired viewing direction. You can switch to the direction you want to see the surrounding images including the image of , and you can also move the surrounding images. According to this, it can be used not only in product development meetings, but also in various situations such as when you want to talk remotely with a site supervisor while watching a video of a building at a construction site, or when you want to talk to a clerk while looking at a product in a showroom. . What's more, by simply moving the face of the participant watching the video in the direction they want to see, the appearance of the surrounding video, including the video of the building and the video of the product, can be changed, giving a sense of realism as if they were there. communication can be carried out smoothly.
このような第4実施形態のコミュニケーションシステム100について図34及び図35を参照しながら詳細に説明する。図34は、第4実施形態のコミュニケーションシステム101の概略構成を示す図である。図35は、図34の端末装置20Bを正面から見た概略図であり、撮像装置の設置位置の具体例を示す図である。図34のコミュニケーションシステム101は、コミュニケーション装置11を構成するサーバに、参加者Aの端末装置20Aと参加者Bの端末装置20BとがネットワークNで接続されて構成される。端末装置20A、20Bは図6とほぼ同様の構成であるため、同様の機能を有する要素は同様の符号を付して説明する。
The
図34は、撮像装置24の前方の参加者A、Bの顔の映像だけでなく、撮像装置24の後方にある構造物30の映像まで端末装置20A、20Bに表示させる場合の例示である。第1実施形態乃至第3実施形態の撮像装置24は、端末装置20を見ている参加者の方に向いている内側カメラなので、その撮像装置24の後方にあるものまでは撮影できない。そこで、図34では、撮像装置24に全方位カメラを適用することで、参加者の顔の映像だけでなく、構造体Tの映像も含む周囲の映像も端末装置20A、20Bで見られるようにしたものである。以下、このような撮像装置24について具体的に説明する。
FIG. 34 is an example in which not only images of the faces of participants A and B in front of the
図34の端末装置20A、20Bにはそれぞれ、全方位カメラで構成される撮像装置24(撮像装置24e、24f、24g)が設けられている。撮像装置24e、24f、24gは、後述する図41などに示すような参加者の異なる向きの顔の映像と異なる向きの周囲の映像を含む全方位映像を撮像する。ここでの「周囲の映像」は参加者の顔の映像を含む水平360度の全方位映像であり、例えば参加者の背景の映像、正面の映像、右側の映像、左側の映像なども含まれる。
The
撮像装置24(24e、24f、24g)は必ずしも表示装置25に設置されていなくてもよく、異なる向きの顔の映像と異なる向きの周囲の映像を含む映像データを取得できれば壁や机などどのような場所に設置されていてもよい。また撮像装置24は必ずしも端末装置20A、20Bに電気的に接続されていなくてもよい。撮像装置24は、異なる向きの顔の映像と異なる向きの周囲の映像を含む映像データがネットワークNを介してコミュニケーション装置11に送信される構成であれば、どのような構成であってもよい。
The imaging devices 24 (24e, 24f, and 24g) do not necessarily have to be installed in the
なお、撮像装置24は、必ずしも全方位(360度)の映像を撮像できるカメラでなくてもよい。例えば所定の角度以上の映像を撮像できる広角カメラでもよい。撮像装置24は2つの広角カメラを内側カメラと外側カメラに組み合わせて全方位映像を撮像できるようにした構成でもよく、スマートフォンなどの内側カメラと外側カメラを撮像装置24として用いてもよい。第4実施形態では、例えば図36に示すように外側カメラ246と内側カメラ247とで全方位映像を撮像できる撮像装置24を例示している。これによれば、内側カメラ247から参加者の顔の映像や背景の映像を取得でき、外側カメラ246から参加者の前方の映像を取得できる。また、撮像装置24は、1つの魚眼レンズや凸面鏡を備えるカメラであってもよい。撮像装置24の向きも図示したものに限られない。参加者の顔の映像と周囲の映像を撮像できれば、レンズを上向きに設定しても、下向きに設置してもよい。例えば全方位レンズをマウントした撮像装置であれば、レンズが上向きになるように配置してもよい。また、図34の撮像装置24の数も3つに限られない。
It should be noted that the
ここで撮像装置24e、24f、24gの設置位置と映像例を図35及び図36を参照しながら説明する。図35は、図34の端末装置を正面から見た概略図であり、撮像装置の設置位置の具体例を示す図である。図36は、図34の端末装置20Bを上から見た図であり、各撮像装置24e、24f、24gからの周囲映像の具体例を示す図である。端末装置20Aも同様の構成であるため、ここでは端末装置20Bを代表して説明する。
Here, installation positions of the
図35に示すように撮像装置24e、24f、24gは表示装置25の上部に並べて配置される。図36に示すように撮像装置24gは表示装置25の上部中央に配置される中央撮像装置(第3撮像装置)である。撮像装置24gは後述の図41(a)のような水平360度の全方位映像41gを撮像できる。全方位映像41gには、図8に示すような参加者Bの顔の正面の映像と、図36に示すような構造物30の正面の映像40gとが含まれる。
As shown in FIG. 35, the
図36に示すように撮像装置24eは、表示装置25の上部に撮像装置24gよりも右寄りに離間して配置される右側撮像装置(第1撮像装置)である。撮像装置24eは後述する図45(a)に示すような水平360度の全方位映像41eを撮像できる。全方位映像41eには、図8に示すような参加者Bの顔の右側の映像と、図36に示すような構造物30の正面右寄りからの映像40eとが含まれる。
As shown in FIG. 36, the
図36に示すように撮像装置24fは、表示装置25の上部に撮像装置24gよりも左寄りに離間して配置される左側撮像装置(第2撮像装置)である。撮像装置24fは後述する図43(a)に示すような水平360度の全方位映像41fを撮像できる。全方位映像41fには、図8に示すような参加者Bの顔の左側の映像と、図36に示すような構造物30の正面左寄りからの映像40fとが含まれる。このように、撮像装置24e、24f、24gによれば、向きの異なる周囲の映像(正面、右寄り、左寄りなど)を撮像できる。
As shown in FIG. 36, the
図36に示すように構造物30は、例えば基板31上に複数の物体32、34、36、38を配置してなる。物体32は直方体、物体34は四角錐、物体36は六角柱、物体38は四角柱である。物体32と物体34は基板31の略正面中央に配置され、物体34は物体32の後ろ側に配置されている。物体32を正面に見て、正面右側(向かって右側)に物体36が配置され、正面左側(向かって左側)に物体38が配置されている。
As shown in FIG. 36, the
ところで、図36の正面の映像40gによれば、物体34は物体32に隠れて先端の三角形の部分しか見えないことが分かる。これでは、物体34の形状も分からない。正面の映像40gだけを見れば、物体34は三角板状で物体32の上に配置されているようにも見える。
By the way, according to the
これに対して、正面右寄りにずれた位置からの映像40eでは物体34の右側まで見えるようになり、正面左寄りにずれた位置からの映像40fでは物体34の左側まで見えるようになる。これによれば、物体34は物体32とは別体で後ろに配置されていること、三角板状ではなく、角錐であることも分かる。このように、本実施形態によれば、正面とは異なる向きの映像を含む全方位映像から、正面右寄りの映像や正面左寄りの映像も取得できるので、正面の映像だけからでは分からなかったことも分かるようになる。
On the other hand, the right side of the
図34の映像40e、40f、40gはそれぞれ、撮像装置24e、24f、24gの全方位映像から構造物30を含む表示範囲の映像を切り出して展開した展開映像である。第4実施形態では、全方位映像から切り出す表示範囲を参加者の「顔の動き」に応じて変えることができるところに大きな特徴がある。
以下、このような第4実施形態に係るコミュニケーションシステム101の構成について図37乃至図40を参照しながら説明する。図37は、第4実施形態のコミュニケーションシステム101のブロック図であり、コミュニケーション装置11と端末装置20の具体的構成例を示す。図37の端末装置20の構成は図2とほぼ同様であるため、その詳細な説明を省略する。図37のコミュニケーション装置11の構成は図2のビデオ会議装置10と同様の構成については同様の符号を付して詳細な説明を省略する。
The configuration of the
図37のコミュニケーション装置11は、映像選定部123A、映像生成部124A、音選定部125A、音生成部126Aを備える。映像選定部123Aは、顔映像選定部123aと周囲映像選定部123bを備える。顔映像選定部123aは、動き検知部122で検知された参加者の「顔の動き」に応じて他の参加者の「顔の映像」を選定する。周囲映像選定部123bは、動き検知部122で検知された参加者の「顔の動き」に応じて「周囲の映像」を選定する。
The
映像生成部124Aは、顔映像生成部124aと周囲映像生成部124bを備える。顔映像生成部124aは、顔映像選定部123aで選定された顔の映像から端末装置20に表示する参加者の映像を生成する。周囲映像生成部124bは、周囲映像選定部123bで選定された周囲の映像から端末装置20に表示する周囲の映像を生成する。このように、映像選定部123Aと映像生成部124Aは「顔の映像」の選定と生成だけでなく、「周囲の映像」の選定と生成もできる。
The
音選定部125Aは、音声選定部125aと周囲音選定部125bとを備える。音声選定部125aは、動き検知部122で検知された参加者の「顔の動き」に応じて他の参加者の音声を選定する。周囲音生成部126bは、動き検知部122で検知された参加者の「顔の動き」に応じて周囲の音を選定する。
The sound selection section 125A includes a
音生成部126Aは、音声生成部126aと周囲音生成部126bを備える。音声生成部126aは、音声選定部125aで選定された音声から端末装置20で出力する音声を生成する。周囲音生成部126bは、周囲音選定部125bで選定された周囲の音から端末装置20で出力する周囲の音を生成する。このように、音選定部125Aと音生成部126Aは「音声」の選定と生成だけでなく、「周囲の音」の選定と生成もできる。なお、この場合、取得部121は、別々のマイク26から音声と周囲の音を取得してもよく、また1つのマイク26の入力音から音声と周囲の音を切り離して取得するようにしてもよい。また、周囲音選定部125bと周囲音生成部126bは必ずしも設けなくてもよい。その場合、端末装置20から音声だけを出力してもよく、周囲の音が入ったままの音声を端末装置20から出力してもよい。
The
図38のデータテーブルは、参加者の映像と周囲の映像とを仮想会議室を利用して端末装置20に表示させるための仮想会議室構成情報181であり、図3に対応する。図38の仮想会議室構成情報181が図3と異なるのは、テーブルやボードの代わりに顔映像、周囲映像の項目を入れたことである。なお、図38の項目は図示したものに限られず、テーブルやボードの項目を入れるようにしてもよい。図38によれば、例えば小会議室R1では、参加者の顔映像あり、周囲映像ありなので、顔映像と周囲映像を含む表示範囲を設定する。図39のデータテーブルは、参加者情報182であり、図4に対応する。本実施形で受信する映像データは、撮像装置24e、24f、24gからの3つの全方位映像である。
The data table in FIG. 38 is virtual conference
図40の仮想会議室表示情報183は、各参加者が入室する仮想会議室の表示情報である。例えば図40の仮想会議室表示情報183には、各参加者を配置する列や各参加者の位置(参加者の映像をはめ込む顔映像枠の位置)の他、周囲の映像をはめ込む周囲映像枠r01の位置、仮想会議室の表示範囲183bなどが含まれる。仮想会議室表示情報183は、図38の仮想会議室構成情報181の仮想会議室の種類毎に設けられる。どの仮想会議室を利用するかは、ホストとなる参加者が予め設定できるようになっている。
The virtual conference
図40は、図38の小会議室R1の仮想会議室を参加者A、Bの2人が利用する場合を例示する。図40に示すように外枠183aが仮想会議室全体を示す。その内側の太枠が表示範囲183bを示す。図38の小会議室R1は収容人数が2人、顔映像あり、周囲映像あり、横列数1つである。図40では、ほぼ全面に周囲映像枠r01を配置し、その下辺りに参加者Aの顔映像枠yAと参加者Bの顔映像枠yBを含む横列y01を配置する。なお、仮想会議室表示情報183の構成は図示したものに限られない。
FIG. 40 illustrates a case where two participants A and B use the virtual conference room of the small conference room R1 in FIG. As shown in FIG. 40, an
第4実施形態のコミュニケーション装置11も図10と同様のビデオ会議処理を行う。図10のステップS140のビデオ処理について、図11を参照しながら説明する。図11は図10に示すビデオ処理の具体例を示すフローチャートである。このビデオ処理は、本発明のコミュニケーションプログラムの例示である。第4実施形態のビデオ処理でも、ステップS142~ステップS148まで同様の処理が行われる。第4実施形態のビデオ処理が第1実施形態と異なるのは、ステップS144とステップS146にて検知した参加者の顔の動きに応じて、他の参加者の顔の映像と音声を選定するだけでなく、周囲の映像と周囲の音も選定して出力映像と出力音声を生成する点である。
The
以下、第4実施形態の図11のビデオ処理を図41乃至図46の具体例を挙げながら詳細に説明する。ここでは、参加者A、Bの顔の映像と参加者Bの前方にある構造物30の映像を端末装置20A、20Bで共有して表示させる場合を例示する。図41乃至図46は、参加者Aの顔の動きに応じて参加者Bの映像と構造物30の映像が変わる様子を説明するための図である。図41及び図42は参加者Aの顔の動きなしを検知した場合であり、図43及び図44は参加者Aが左方向への顔の移動を検知した場合であり、図45及び図46は参加者Aが右方向への顔の移動を検知した場合である。図41(a)、図43(a)、図45(a)は参加者Bの端末装置20Bからの全方位映像である。図41(b)、図43(b)、図45(b)は全方位映像から生成した出力映像である。図42は、参加者Aが正面から顔を動かさずに見える表示画像を示す図である。図44は、参加者Aが顔を左に動かして見える表示画像を示す図である。図46は、参加者Aが顔を右に動かして見える表示画像を示す図である。
The video processing of FIG. 11 of the fourth embodiment will be described in detail below with specific examples of FIGS. 41 to 46. FIG. Here, a case is exemplified in which the images of the faces of participants A and B and the image of the
本実施形態のビデオ処理は、先ず図11に示すステップS142にて制御部12は取得部121にて取得した複数の映像のうち少なくとも1つの映像から参加者の顔の動きを検知する。具体的には取得部121が撮像装置24による参加者A、Bのそれぞれの端末装置20A、20Bからすべての撮像装置24e、24f、24gからの3つの全方位映像(異なる向きの周囲の映像)を参加者A、B毎に取得する。
In the video processing of the present embodiment, first, in step S142 shown in FIG. 11, the
例えば参加者Bの撮像装置24gからは図41(a)に示すような構造物30の正面映像と参加者Bの正面顔映像を含む全方位映像を取得する。参加者Bの撮像装置24fからは図43(a)に示すような構造物30の正面左寄り映像と参加者Bの左顔映像を含む全方位映像を取得する。参加者Bの撮像装置24eからは図45(a)に示すような構造物30の正面右寄り映像と参加者Bの右顔映像を含む全方位映像を取得する。参加者Aの撮像装置24e、24f、24gからも顔の映像と周囲の映像を含む全方位映像を取得する。
For example, from the
参加者A、B毎に、取得した3つの全方位映像のうち少なくとも1つから参加者の顔映像を認識し、その顔の映像から動き検知部122が参加者A、Bの顔の動きを検知する。例えば図41(a)の全方位映像に含まれる参加者Bの顔の映像から顔の動きを検知する。この場合、顔の動きの検知には、必ずしも全方位映像を利用しなくてもよく、その参加者の顔の映像を展開した映像を利用してもよい。
For each of the participants A and B, the facial image of the participant is recognized from at least one of the three omnidirectional images acquired, and the
本実施形態の動き検知部122が検知する顔の動きは、右方向や左方向への顔の移動と、左向きや右向きなど顔の向きの変化である。制御部12は、ステップS142にて顔の動きが検知されると、ステップS144にて顔の動きに応じて他の参加者の3つの全方位映像から1つの映像と音声を選定し、ステップS146にて選定した全方位映像と音声から出力映像と出力音声を生成し、ステップS148にて出力映像と出力音声を動画データとして出力する。
The movement of the face detected by the
具体的には動き検知部122が図42に示すように参加者Aの顔の動きなしを検知した場合、映像選定部123Aが図41(a)に示す参加者Bの撮像装置24gからの全方位映像41gを選定する。具体的には顔の映像については、顔映像選定部123aが図41(a)に示す全方位映像41gから参加者Bの顔映像の表示範囲42gを選定し、顔映像生成部124aが表示範囲42gを切り出して図41(b)に示すように参加者Bの顔映像を展開する。周囲の映像については、周囲映像選定部123bが図41(a)に示す全方位映像41gから構造物30の映像を含む周囲映像の表示範囲43gを選定し、周囲映像生成部124bがその表示範囲43gを切り出して図41(b)に示すように構造物30の映像を含む周囲映像を矩形に展開する。参加者Aの顔映像も同様に参加者Aの撮像装置24gからの全方位映像41gから切り出されて矩形に展開される。
Specifically, when the
映像生成部124Aは、図40の仮想会議室表示情報183に基づいて、上述のように展開された参加者Aの顔映像と参加者Bの顔映像と構造物30の映像を含む周囲映像とから出力映像を生成する。具体的には映像生成部124Aは、構造物30の映像を含む周囲映像を図40の周囲映像枠r01にはめ込み、参加者Aの顔映像を横列y01の参加者Aの顔映像枠にはめ込み、参加者Bの顔映像を横列y01の参加者Bの顔映像枠にはめ込む。こうして、映像生成部124Aは、図41(a)の全方位映像41gから図41(b)の出力映像を生成する。参加者A、Bの音声と周囲音はともに音声選定部125aと周囲音選定部125bでマイク26から左右の音声と周囲音が選定され、音声生成部126aと周囲音生成部126bは選定された音声と周囲音から出力音声を生成する。出力部127は、図41(b)の出力映像と出力音声を画像データとして出力する。
Based on the virtual conference
すると、図42に示すように参加者Aの表示画面252には、参加者Bの顔の正面の映像と構造物30の正面の映像が表示され、左右の音声がそのまま出力される。参加者Bの表示画面252にも同様の映像が表示される。このように第4実施形態では、参加者の顔の映像だけでなく、その周囲の映像も表示させることができる。これにより、参加者は、周囲の映像を見ながら会話をすることができる。
Then, as shown in FIG. 42, the front image of the participant B's face and the front image of the
ところが、図42の構造物30の正面の映像では、物体34が物体32に隠れて見えない。そこで、図44に示すように参加者Aが左に顔を動かすと、その顔の動きが動き検知部122で検知され、上記と同様の処理で図43(a)の全方位映像41fから参加者Bの顔映像と周囲映像の表示範囲43fが選定され矩形に展開されて、図43(b)の出力画像と出力音声が生成され、画像データとして出力される。そうすると、図44に示すように参加者Aの表示画面252には、構造物30の正面左寄りの映像が表示される。これにより、正面の映像では物体32に隠れて見えなかった物体34が見えるようになる。すなわち、顔を左に動かせば正面左寄りから構造物30の映像が見えるので、まるでその場にいるような臨場感のある体験が可能となる。
However, in the image of the front of the
この場合、参加者Aの左への顔の動きに連動して、図43(b)に示すように参加者Aの表示位置を左に動かすようにしてもよい。これにより、例えば図44のように参加者Aが正面左寄りから構造物30を見ているような映像にできる。また図43(b)に示すように参加者Bは顔の左側の映像になるので、まるで参加者Aの方を向いて会話しているように見える。このように参加者の顔の動きに応じて選定した周囲の映像の向きに合わせてその参加者の表示位置を変えることで、その表示位置から周囲の映像を見ているように表示できる。これにより、まるでその場にいるような臨場感のある体験が可能となる。
In this case, the display position of participant A may be moved leftward as shown in FIG. As a result, for example, as shown in FIG. 44, it is possible to create an image in which the participant A looks at the
これに対して、図46に示すように参加者Aが右に顔を動かすと、その顔の動きが動き検知部122で検知され、上記と同様の処理で図45(a)の全方位映像41eから参加者Bの顔映像と周囲映像の表示範囲43eが選定され矩形に展開されて、図45(b)の出力画像と出力音声が生成され、画像データとして出力される。そうすると、図46に示すように参加者Aの表示画面252には、構造物30の正面右寄りの映像が表示される。これによっても、正面の映像では物体32に隠れて見えなかった物体34が見えるようになる。すなわち、顔を右に動かせば正面右寄りから構造物30の映像が見えるので、まるでその場にいるような臨場感のある体験が可能となる。
On the other hand, when the participant A moves his face to the right as shown in FIG. 46, the movement of the face is detected by the
この場合、参加者Aの右への顔の動きに連動して、図45(b)に示すように参加者Aの表示位置を右に配置するようにしてもよい。これにより、例えば図46のように参加者Aが正面右寄りから構造物30を見ているような映像にできる。また図45(b)に示すように参加者Bは顔の右側の映像になるので、まるで参加者Aの方を向いて会話しているように見える。このように参加者の顔の動きに応じて選定した周囲の映像の向きに合わせてその参加者の表示位置を変えることで、その表示位置から周囲の映像を見ているように表示できる。これにより、まるでその場にいるような臨場感のある体験が可能となる。
In this case, the display position of participant A may be arranged to the right as shown in FIG. As a result, for example, as shown in FIG. 46, it is possible to create an image in which the participant A looks at the
ところで、図42に示す構造物30の正面の映像では、物体38が一部しか見えないので、どのような形状かよく分からない。そこで、物体38は正面右寄りにあるので、図45に示すように参加者Aは顔を移動させずに左に顔を向ける。すると、その顔の動きが動き検知部122で検知され、上記と同様の処理で図47(a)の全方位映像41gから図47(b)の出力画像と出力音声が生成され、画像データとして出力される。このとき、参加者Aの顔の向きに応じて図47(a)の表示範囲43gが左に動く。そうすると、図48に示すように参加者Aの表示画面252には、構造物30の全体が左に移動した映像が表示される。これにより、正面の映像では一部しか見えなった物体38の全体が見えるようになる。すなわち、顔を左に向けば構造物30の左側の映像が見えるようになるので、まるでその場にいるような臨場感のある体験が可能となる。
By the way, in the image of the front of the
また、図42に示す構造物30の正面の映像では、物体36が一部しか見えないので、どのような形状かよく分からない。そこで、物体36は正面右寄りにあるので、図50に示すように参加者Aは顔を移動させずに右に顔を向ける。すると、その顔の動きが動き検知部122で検知され、上記と同様の処理で図49(a)の全方位映像41gから図49(b)の出力画像と出力音声が生成され、画像データとして出力される。このとき、参加者Aの顔の向きに応じて図49(a)の表示範囲43gが右に動く。そうすると、図50に示すように参加者Aの表示画面252には、構造物30の全体が右に移動した映像が表示される。これにより、正面の映像では一部しか見えなった物体36の全体が見えるようになる。すなわち、顔を右に向けば構造物30の右側の映像が見えるようになるので、まるでその場にいるような臨場感のある体験が可能となる。
Also, in the image of the front of the
<その他の変形例>
本発明は、上述した各実施形態に限定されず、例えば以降に説明する各種の応用・変形が可能である。また、これらの変形の態様および上述した各実施形態及びその変形例は、任意に選択された一または複数を適宜組み合わせることも可能である。また当業者であれば、請求の範囲に記載された範疇内において、各種の別の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。<Other Modifications>
The present invention is not limited to the above-described embodiments, and various applications and modifications described below are possible. Moreover, it is also possible to appropriately combine one or a plurality of arbitrarily selected aspects of these modifications, each of the above-described embodiments, and modifications thereof. In addition, it is obvious that a person skilled in the art can conceive various other modifications or modifications within the scope described in the claims, and these naturally belong to the technical scope of the present invention. understood as a thing.
(1)上記第1実施形態乃至第4実施形態とその変形例において、取得部121で取得した撮像装置24からの映像(顔映像や周囲映像を含む)や、音声(周囲音は、記憶部14に記憶しておくことができる。取得部121から取得する撮像装置24からの映像は、リアルタイムで取得する場合に限られず、上記記憶部14に記憶しておいた映像を取得するようにしてもよい。これによれば、例えば当日ビデオ会議に出席できなくなった参加者が記憶部14に記憶しておいた映像や音声などを利用して、当日と同じ顔映像と周囲映像でビデオ会議を体験できる。この場合もリアルタイム映像の場合と同様に、参加者の顔の動きに応じて顔の映像や周囲の映像を変えることができるので、見たい時間にまるでその場にいるような体験が可能となる。
(1) In the first to fourth embodiments and their modifications, images (including facial images and surrounding images) from the
(2)上記第1実施形態乃至第4実施形態とその変形例では、動き検知部122が参加者の顔の動きとして、左右方向や上下方向の顔の動きを検知する場合を例示したが、前後方向の顔の動きも検知できるようにしてもよい。例えば顔のベクトルの位置と撮像装置24との距離の変化に基づいて前後方向の顔の動きを検知してもよい。これによれば、例えば参加者が端末装置20の表示画面25に近づいて、動き検知部122が前方向の顔の動きを検知すると。顔の映像や周囲の映像を拡大するようにすることもできるようになる。例えば周囲の映像に映ってる物体に小さくて読めない文字があるときに、表示画面25に顔を近づければ映像が拡大され、その文字が大きく見えて読めるようになる。逆に表示画面25から顔を遠ざければ、表示画面25の映像が縮小されるようにしてもよい。例えば映像が大きくて物体の一部しか見えない場合に、表示画面25から顔を遠ざければ映像が縮小され、その物体の全体が見えるようになる。これにより、まるで実物を見ているかのような臨場感を体験できる。
(2) In the first to fourth embodiments and their modifications, the
(3)上記第1実施形態乃至第3実施形態とその変形例では、内容を分かりやすくするため、顔の映像のみを表示した図面を用いて説明したが、これに限られない。例えば第4実施形態のように顔だけでなく上半身も含めた映像であってもよい。ビデオ会議装置10が上半身と顔を含む映像を受信する場合には、その映像から顔の部分を認識して顔の動きを検知するようにしてもよい。例えばAI(人工知能)などで機械学習させた学習済モデルや既存の学習済モデルを用いて、映像から顔の部分の認識や顔の動きを検知する。
(3) In the above-described first to third embodiments and their modified examples, drawings showing only face images are used for the purpose of making the contents easier to understand, but the present invention is not limited to this. For example, the image may include not only the face but also the upper half of the body as in the fourth embodiment. When the
(4)上記実施形態及び上記変形例では、本発明のコミュニケーション装置をビデオ会議装置10に適用した場合を例示したが、これに限られない。例えばWeb会議装置、テレビ会議装置、テレビ電話装置、オンライン会議装置、テレビ通話装置、ビデオ通話装置など様々なコミュニケーション装置に適用可能である。また、本発明の用途についても会議用に限られず、展示会会場、介護施設、病院施設、実家などと自宅の間や、介護施設同士、病院同士などにおける会話や対話など、様々なシチュエーションでのコミュニケーションに利用できる。
(4) In the above embodiment and modification, the case where the communication device of the present invention is applied to the
100…ビデオ会議システム(コミュニケーションシステム)、10…ビデオ会議装置(コミュニケーション装置)、11…通信部、12…制御部、121…取得部、122…検知部、123(123A)…映像選定部、123a…顔映像選定部、123b…周囲映像選定部、124(124A)…映像生成部、124a…顔映生成定部、124b…周囲映像生成部、125A…音選定部、125(125a)…音声選定部、125b…周囲音選定部、126A…音生成部、126(126a)…音声生成部、126b…周囲音生成部、127…出力部、14…記憶部、15…プログラム記憶部、16…データ記憶部、161…ユーザ情報、18…仮想会議室記憶部、181…仮想会議室構成情報、182…参加者情報、183…仮想会議室表示情報、183a…外枠、183b…表示範囲、183c…テーブル、183d…ホワイトボード、20(20A、20B、20C、20D)…端末装置、20a…本体、20L…バスライン、21…通信部、22…制御部、23…記憶部、24(24a、24b、24c、24d)…撮像装置、24a、24e…第1撮像装置(右側撮像装置)、24b、24f…第2撮像装置(左側撮像装置)、24c、24g…第3撮像装置(中央撮像装置)、24d…第4撮像装置(下側撮像装置)、242a、242b、242c、242d…支持部、244a、244b、244c、244d…回転軸、246…外側カメラ、247…内側カメラ、25…表示装置、252…表示画面、26…マイク、27…スピーカ、28…入力装置、40e、40f、40g…映像、41e、41f、41g…全方位映像、42e、42f、42g…顔映像の表示範囲、43e、43f、43g…周囲映像の表示範囲、t01…縦列、t02…縦列、y01…横列、y02…横列、A~D…参加者、N…ネットワーク、R1…小会議室、R2…中会議室、R3…大会議室、R4…対面会議室。
DESCRIPTION OF
Claims (10)
前記複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得する取得部と、
前記取得部で取得された前記顔の映像から少なくとも前記参加者の一人の顔の動きを検知する動き検知部と、
前記動き検知部で検知された前記参加者の顔の動きに応じて他の参加者の顔の向きの映像を選定する映像選定部と、
前記映像選定部で選定された映像から少なくとも前記他の参加者の顔の映像を前記端末装置に表示させるための映像を生成する映像生成部と、
前記複数の参加者を配置する仮想会議室と、前記仮想会議室における前記複数の参加者の位置とを記憶する仮想会議室記憶部と、を備え、
前記映像選定部は、前記動き検知部で検知された前記参加者の顔の動きに応じて前記仮想会議室の表示範囲を選定し、
前記映像生成部は、前記仮想会議室における前記参加者の位置に応じてその参加者を表示する位置を特定した映像と、前記複数の参加者のうち前記表示範囲に含まれる前記参加者を前記端末装置に表示させるための映像と、を生成する
コミュニケーション装置。 A communication device for displaying images of a plurality of participants on a terminal device,
an acquisition unit that acquires a plurality of images including images of faces facing different directions for each of the plurality of participants;
a motion detection unit that detects movement of the face of at least one of the participants from the face image acquired by the acquisition unit;
an image selection unit that selects an image of the face direction of another participant according to the movement of the participant's face detected by the movement detection unit;
an image generation unit configured to generate an image for displaying at least an image of the other participant's face on the terminal device from the images selected by the image selection unit;
A virtual conference room for arranging the plurality of participants and a virtual conference room storage unit for storing the positions of the plurality of participants in the virtual conference room,
The image selection unit selects the display range of the virtual conference room according to the movement of the participant's face detected by the movement detection unit,
The image generation unit generates an image specifying a position to display the participant according to the position of the participant in the virtual conference room, and the participant included in the display range among the plurality of participants. generate images to be displayed on the terminal device, and
communication device.
請求項1に記載のコミュニケーション装置。 2. The communication device according to claim 1 , wherein the image selection unit selects an image of a face orientation according to the position of the participant in the virtual conference room.
前記映像選定部は、前記動き検知部で検知された前記参加者の顔の向きが正面の場合は、前記仮想会議室の表示範囲にその参加者の右側と左側に位置する前記他の参加者の映像を含まないようにし、前記動き検知部で検知された前記参加者の顔の向きが右向きの場合は、前記仮想会議室の表示範囲にその参加者の右側に位置する前記他の参加者の映像を含むようにし、前記動き検知部で検知された前記参加者の顔の向きが左向きの場合は、その参加者の左側に位置する前記他の参加者の映像を含むようにする
請求項2に記載のコミュニケーション装置。 The motion detection unit detects whether the face orientation of at least one of the participants is front, right, or left from the face image acquired by the acquisition unit,
When the face of the participant detected by the motion detection unit faces the front, the video selection unit selects the other participants located on the right and left sides of the participant in the display range of the virtual conference room. , and if the face direction of the participant detected by the motion detection unit is facing right, the other participant located on the right side of the participant in the display range of the virtual conference room and when the participant's face direction detected by the motion detection unit is facing left, the video of the other participant positioned to the left of the participant is included. 3. The communication device according to 2 .
前記映像選定部は、その変わった位置に応じた前記顔の向きの映像を選定し、
前記映像生成部は、その変わった位置に応じてその参加者を表示する位置を特定した映像を生成する
請求項1から請求項3の何れかに記載のコミュニケーション装置。 When the participant's position in the virtual meeting room changes,
The image selection unit selects an image of the face orientation corresponding to the changed position,
4. The communication device according to any one of claims 1 to 3 , wherein the image generating unit generates an image specifying a position where the participant is to be displayed according to the changed position.
前記音声選定部で選定された音声に基づいて前記他の参加者の音声を前記端末装置から出力させるための音声を生成する音声生成部と、を備える
請求項1から請求項4の何れかに記載のコミュニケーション装置。 a voice selection unit that selects the voice of the other participant according to the face movement of the participant detected by the motion detection unit;
5. Any one of claims 1 to 4 , further comprising a voice generation unit that generates a voice for outputting the voice of the other participant from the terminal device based on the voice selected by the voice selection unit. Communication device as described.
前記映像選定部は、前記動き検知部で検知された前記参加者の顔の動きに応じて前記他の参加者の前記顔の向きの映像と前記周囲の映像を選定し、
前記映像生成部は、前記映像選定部で選定された映像から少なくとも前記他の参加者の前記顔の映像と前記周囲の映像を前記端末装置に表示させるための映像を生成する
請求項1から請求項5の何れかに記載のコミュニケーション装置。 The acquisition unit acquires a face image in a different orientation and a peripheral image in a different orientation for each of the plurality of participants,
The image selection unit selects the image of the face direction of the other participant and the surrounding image according to the movement of the face of the participant detected by the movement detection unit,
The image generation unit generates an image for displaying at least the image of the face of the other participant and the image of the surroundings on the terminal device from the image selected by the image selection unit. Item 6. The communication device according to any one of items 5 .
前記映像選定部は、前記顔の移動に応じて前記周囲の映像を選定し、前記顔の向きに応じて前記周囲の映像の表示範囲を選定し、
前記映像生成部は、前記映像選定部で選定された表示範囲で前記周囲の映像を前記端末装置に表示させるための映像を生成する
請求項6に記載のコミュニケーション装置。 The movement detection unit detects movement and orientation of the face as the movement of the face of the participant,
The image selection unit selects the surrounding image according to the movement of the face, selects a display range of the surrounding image according to the orientation of the face,
7. The communication device according to claim 6 , wherein the image generating section generates an image for displaying the surrounding image on the terminal device in the display range selected by the image selecting section.
前記仮想会議室における前記複数の参加者の位置と前記周囲の映像の位置と、
を記憶する仮想会議室記憶部を備え、
前記映像選定部は、前記参加者の顔の動きに応じて選定した前記周囲の映像の向きに合わせて前記参加者の表示位置を変える
請求項7に記載のコミュニケーション装置。 a virtual conference room for arranging the plurality of participants;
the positions of the plurality of participants and the positions of the surrounding images in the virtual conference room;
Equipped with a virtual conference room storage unit that stores
8. The communication device according to claim 7 , wherein the image selection unit changes the display position of the participant according to the orientation of the surrounding image selected according to the movement of the face of the participant.
前記コミュニケーション装置は、
複数の参加者を配置する仮想会議室と、前記仮想会議室における前記複数の参加者の位置とを記憶する仮想会議室記憶部を備え、
前記ビデオ処理は、
複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得するステップと、
取得された前記顔の映像から少なくとも前記参加者の一人の顔の動きを検知するステップと、
検知された前記参加者の顔の動きに応じて、他の参加者の顔の向きの映像と、前記仮想会議室の表示範囲と、を選定するステップと、
選定された映像から少なくとも前記他の参加者の顔の映像を端末装置に表示させるための映像を生成するステップと、を含み、
前記端末装置に表示させるための映像は、前記仮想会議室における前記参加者の位置に応じてその参加者を表示する位置を特定した映像と、前記複数の参加者のうち前記表示範囲に含まれる前記参加者を前記端末装置に表示させるための映像と、を含む
を含む記憶媒体。 A computer-readable storage medium storing a communication program that causes a computer to execute video processing performed by a communication device,
The communication device is
A virtual conference room for arranging a plurality of participants and a virtual conference room storage unit for storing the positions of the plurality of participants in the virtual conference room,
The video processing includes:
obtaining a plurality of videos, including videos of different face orientations for each of a plurality of participants;
detecting movement of the face of at least one of the participants from the captured video of the face;
selecting an image of the facial direction of another participant and a display range of the virtual conference room according to the detected facial movement of the participant;
generating an image for displaying at least the image of the other participant's face on the terminal device from the selected image;
The image to be displayed on the terminal device includes the image specifying the position of the participant to be displayed according to the position of the participant in the virtual conference room, and the display range of the plurality of participants. and a video for displaying the participant on the terminal device.
A storage medium containing
前記コミュニケーション装置は、
複数の参加者を配置する仮想会議室と、前記仮想会議室における前記複数の参加者の位置と、を記憶する仮想会議室記憶部を備え、
前記ビデオ処理は、
複数の参加者のそれぞれについて異なる向きの顔の映像を含む複数の映像を取得するステップと、
取得された前記顔の映像から少なくとも前記参加者の一人の顔の動きを検知するステップと、
検知された前記参加者の顔の動きに応じて、他の参加者の顔の向きの映像と、前記仮想会議室の表示範囲と、を選定するステップと、
選定された映像から少なくとも前記他の参加者の顔の映像を端末装置に表示させるための映像を生成するステップと、を含み、
前記端末装置に表示させるための映像は、前記仮想会議室における前記参加者の位置に応じてその参加者を表示する位置を特定した映像と、前記複数の参加者のうち前記表示範囲に含まれる前記参加者を前記端末装置に表示させるための映像と、を含む
コミュニケーションプログラム。 A communication program that causes a computer to execute video processing performed by a communication device,
The communication device is
A virtual conference room storage unit that stores a virtual conference room in which a plurality of participants are arranged and the positions of the plurality of participants in the virtual conference room,
The video processing includes:
obtaining a plurality of videos, including videos of different face orientations for each of a plurality of participants;
detecting movement of the face of at least one of the participants from the captured video of the face;
selecting an image of the facial direction of another participant and a display range of the virtual conference room according to the detected facial movement of the participant;
generating an image for displaying at least the image of the other participant's face on the terminal device from the selected image;
The image to be displayed on the terminal device includes the image specifying the position of the participant to be displayed according to the position of the participant in the virtual conference room, and the display range of the plurality of participants. and a video for displaying the participant on the terminal device.
communication program.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021005996 | 2021-01-18 | ||
JP2021005996 | 2021-01-18 | ||
PCT/JP2022/001637 WO2022154128A1 (en) | 2021-01-18 | 2022-01-18 | Communication device, communication program, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022154128A1 JPWO2022154128A1 (en) | 2022-07-21 |
JP7306765B2 true JP7306765B2 (en) | 2023-07-11 |
Family
ID=82448208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022528302A Active JP7306765B2 (en) | 2021-01-18 | 2022-01-18 | Communication device, communication program and storage medium |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7306765B2 (en) |
WO (1) | WO2022154128A1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000165831A (en) | 1998-11-30 | 2000-06-16 | Nec Corp | Multi-point video conference system |
JP2016192686A (en) | 2015-03-31 | 2016-11-10 | 大和ハウス工業株式会社 | Video display system and video display method |
JP2018050156A (en) | 2016-09-21 | 2018-03-29 | セイコーエプソン株式会社 | Two-way communication device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11177949A (en) * | 1997-12-10 | 1999-07-02 | Sony Corp | Communication equipment and system |
-
2022
- 2022-01-18 WO PCT/JP2022/001637 patent/WO2022154128A1/en active Application Filing
- 2022-01-18 JP JP2022528302A patent/JP7306765B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000165831A (en) | 1998-11-30 | 2000-06-16 | Nec Corp | Multi-point video conference system |
JP2016192686A (en) | 2015-03-31 | 2016-11-10 | 大和ハウス工業株式会社 | Video display system and video display method |
JP2018050156A (en) | 2016-09-21 | 2018-03-29 | セイコーエプソン株式会社 | Two-way communication device |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022154128A1 (en) | 2022-07-21 |
WO2022154128A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vertegaal et al. | Gaze-2: conveying eye contact in group video conferencing using eye-controlled camera direction | |
WO2020203999A1 (en) | Communication assistance system, communication assistance method, and image control program | |
US7092001B2 (en) | Video conferencing system with physical cues | |
US20140009562A1 (en) | Multi-device capture and spatial browsing of conferences | |
CN110583013B (en) | Telepresence system | |
US20230128659A1 (en) | Three-Dimensional Modeling Inside a Virtual Video Conferencing Environment with a Navigable Avatar, and Applications Thereof | |
JP2003506973A (en) | Communications system | |
US11184362B1 (en) | Securing private audio in a virtual conference, and applications thereof | |
KR102580110B1 (en) | Web-based video conferencing virtual environment with navigable avatars and its applications | |
US11743430B2 (en) | Providing awareness of who can hear audio in a virtual conference, and applications thereof | |
Regenbrecht et al. | Mutual gaze support in videoconferencing reviewed | |
US20240087236A1 (en) | Navigating a virtual camera to a video avatar in a three-dimensional virtual environment, and applications thereof | |
JP7306765B2 (en) | Communication device, communication program and storage medium | |
CN117806457A (en) | Presentation in a multi-user communication session | |
US11928774B2 (en) | Multi-screen presentation in a virtual videoconferencing environment | |
JPH09107534A (en) | Video conference equipment and video conference system | |
US11748939B1 (en) | Selecting a point to navigate video avatars in a three-dimensional environment | |
US11776227B1 (en) | Avatar background alteration | |
US11741652B1 (en) | Volumetric avatar rendering | |
EP4054181A1 (en) | Virtual space sharing system, virtual space sharing method, and virtual space sharing program | |
US20240031531A1 (en) | Two-dimensional view of a presentation in a three-dimensional videoconferencing environment | |
Billinghurst et al. | Collaboration with wearable computers | |
JP2003333561A (en) | Monitor screen displaying method, terminal, and video conference system | |
US20240007593A1 (en) | Session transfer in a virtual videoconferencing environment | |
US10469803B2 (en) | System and method for producing three-dimensional images from a live video production that appear to project forward of or vertically above an electronic display |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7306765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |