JP2005328484A - Video conference system, information processing apparatus, information processing method and program - Google Patents
Video conference system, information processing apparatus, information processing method and program Download PDFInfo
- Publication number
- JP2005328484A JP2005328484A JP2004146930A JP2004146930A JP2005328484A JP 2005328484 A JP2005328484 A JP 2005328484A JP 2004146930 A JP2004146930 A JP 2004146930A JP 2004146930 A JP2004146930 A JP 2004146930A JP 2005328484 A JP2005328484 A JP 2005328484A
- Authority
- JP
- Japan
- Prior art keywords
- video
- user
- document
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、テレビ会議システム、情報処理装置及び情報処理方法並びにプログラムに関し、例えば遠隔地にいる複数の相手ユーザとテレビ会議を行う場合に適用して好適なものである。 The present invention relates to a video conference system, an information processing apparatus, an information processing method, and a program, and is suitable for application to a video conference with, for example, a plurality of remote users at remote locations.
従来、複数の地点に設置されたテレビ会議端末をISDN(Integrated Services Digital Network)等の公衆回線や専用線を介して接続し、映像データ及び音声データ等の情報を相互に送受信することによって、遠隔地にいる複数の相手ユーザとの会議を行い得るようになされたテレビ会議システムがある。 Conventionally, video conferencing terminals installed at a plurality of points are connected via public lines such as ISDN (Integrated Services Digital Network) or dedicated lines, and information such as video data and audio data is transmitted and received mutually. There is a video conference system that can perform a conference with a plurality of other users on the ground.
このようなテレビ会議システムにおいては、テレビ会議先の複数の相手ユーザの映像がディスプレイに表示されるが、その相手ユーザの発言の様子やそのときの表情を認識することができれば、よりコミュニケーション性の高い会議を行うことができるものと考えられる。 In such a video conference system, images of a plurality of other users at the video conference destination are displayed on the display. However, if the other user's remarks and facial expressions at that time can be recognized, more communicability can be achieved. It is considered that a high meeting can be held.
しかしながらこのようなテレビ会議システムにおいて、複数のユーザが一堂に会してテレビ会議を行う場合には、誰が発言しているか認識し難いという問題がある。そこでかかる問題を解決するために、音声の方向等に基づいて発言者を検出し、ディスプレイに表示される発言したユーザの映像の頭上にカーソルを付加することによって、当該発言したユーザを識別する方法が提案されている(例えば特許文献1参照)。
ところで、近年テレビ会議システムにおいては、複数の地点に設置されたパーソナルコンピュータを、例えばウインドウズXP(Windows(登録商標) XP)のリモートデスクトップ機能やVNC(Virtual Network Computing)等のリモートアクセスシステム等を用いて、インターネット回線等のネットワークを介して接続することによって、パーソナルコンピュータを用いたマルチウインドウ・マルチディスプレイ環境におけるテレビ会議を行い得るようになされている。 By the way, in recent video conference systems, a personal computer installed at a plurality of points is used, for example, a remote desktop function of Windows XP (Windows (registered trademark) XP) or a remote access system such as VNC (Virtual Network Computing). By connecting via a network such as the Internet line, a video conference in a multi-window / multi-display environment using a personal computer can be performed.
このとき、テレビ会議先の相手ユーザとフリーディスカッションを行う場合には、相手ユーザの映像を発言の様子やそのときの表情等を容易に認識し得るように拡大させて表示させる一方、テレビ会議先の相手ユーザがドキュメントの内容の説明を行う場合には、ドキュメントの該当部分を拡大させて表示させるようにすれば、コミュニケーション性が高く、臨場感あふれるテレビ会議が行えると考えられる。 At this time, when a free discussion is performed with the other party user of the video conference destination, the video of the other party user is enlarged and displayed so that the state of the utterance and the facial expression at that time can be easily recognized. When the other user explains the contents of the document, it is considered that if the corresponding part of the document is enlarged and displayed, a teleconference with high communication and high presence can be performed.
しかしながらこのような場合には、ユーザに相手ユーザの映像及びドキュメントの映像の拡大や縮小等の操作をさせる等の煩雑な操作が必要となるため、そちらに意識が集中して本来の会議に意識を集中させることができなくなり、また操作の煩雑さから、状況に応じて相手ユーザの映像及びドキュメントの映像の拡大や縮小等の操作自体を行わなくなることによって、臨場感に乏しく、コミュニケーション性が欠如するという問題がある。 However, in such a case, it is necessary to perform complicated operations such as enlarging or reducing the other user's video and document video, so that the user's consciousness concentrates on the original meeting. Due to the inconvenience of operation and the operation of enlargement / reduction of the other user's image and document image depending on the situation, the presence of reality is lacking and communication is lacking There is a problem of doing.
本発明は以上の点を考慮してなされたもので、コミュニケーション性が高く、臨場感あふれるテレビ会議システム、情報処理装置及び情報処理方法並びにプログラムを提案するものである。 The present invention has been made in consideration of the above points, and proposes a video conference system, an information processing apparatus, an information processing method, and a program having high communication performance and full of realism.
かかる課題を解決するために本発明においては、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置とからなるテレビ会議システムにおいて、端末装置は、ユーザを撮影する撮影手段と、ユーザの音声を集音する集音手段と、ドキュメントについての所定のドキュメント操作を行うためのドキュメント操作手段と、撮影手段から出力される映像データ及び集音手段から出力される音声データをネットワークを介して情報処理装置に送信する送信手段と、情報処理装置からネットワークを介して送信される合成映像データに基づく映像を表示する表示手段とを設け、情報処理装置は、端末装置からネットワークを介して送信される映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する映像合成手段と、ドキュメント操作手段を用いたドキュメント操作及び又は上記音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させるように合成映像手段を制御する制御手段と、映像合成手段により生成された合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する送信手段とを設けるようにした。 In order to solve such a problem, in the present invention, in a video conference system comprising one or more terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network, The terminal device includes a photographing unit for photographing the user, a sound collecting unit for collecting the user's voice, a document operation unit for performing a predetermined document operation on the document, video data output from the photographing unit, and video data collection. A transmission unit configured to transmit audio data output from the sound unit to the information processing device via the network; and a display unit configured to display a video based on the composite video data transmitted from the information processing device via the network. The processing device includes the user's video based on the video data transmitted from the terminal device via the network and the necessary data. Based on the presence or absence of a user's speech detected based on the document operation using the document operation means and / or the audio data And / or control means for controlling the synthesized video means so as to enlarge or reduce the corresponding user's video, and synthesized video data composed of synthesized video data generated by the video synthesizing means to the terminal device via the network. A transmission means for transmitting is provided.
これにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができる。 As a result, the document image and the user video of the user who performed the operation are mainly captured when the document is operated, and the user video of the user who performed the speech is main when the user speaks without causing the user to perform an extra operation. Can be captured.
またかかる課題を解決するために本発明においては、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置において、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する映像合成手段と、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させるように合成映像合成手段を制御する制御手段と、映像合成手段により生成された合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する送信手段とを設けるようにした。 In order to solve such a problem, in the present invention, in one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network, a network is connected from the terminal device. Video synthesizing means for synthesizing the user's video based on the photographed user's video data transmitted via the network and a required document image, and a predetermined document for the document transmitted via the network from the terminal device The image of the document in the synthesized video and / or the corresponding video of the user is enlarged or reduced based on the presence or absence of the user's speech detected based on the user's document operation and / or the voice data of the collected user's voice Control means for controlling the video composition means and composition generated by the video composition means The synthetic image data composed of video data of the image, and to provide a transmission means for transmitting to the terminal device via the network.
これにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができる。 As a result, the document image and the user video of the user who performed the operation are mainly captured when the document is operated, and the user video of the user who performed the speech is main when the user speaks without causing the user to perform an extra operation. Can be captured.
さらにかかる課題を解決するために本発明においては、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して上記端末装置と接続される情報処理装置における情報処理方法において、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させる第2のステップと、合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する第3のステップとを設けるようにした。 Further, in order to solve such a problem, in the present invention, in an information processing method in one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network, A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured video data of the user transmitted from the terminal device via the network; and transmitting from the terminal device via the network The document image in the synthesized video and / or the corresponding user video is enlarged based on the presence or absence of the user's speech detected based on the predetermined document operation and / or the voice data of the collected user's voice Or a second step to reduce and composition composed of composite video data Image data, and to provide a third step of transmitting to the terminal device via the network.
これにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像その操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時にはその当該発言を行ったユーザのユーザ映像をメインに捉えさせることができる。 As a result, the user image of the user who operated the document image is mainly captured at the time of the document operation without causing the user to perform an extra operation, while the user image of the user who performed the statement is the main image when the user speaks. Can be captured.
さらにかかる課題を解決するために本発明においては、プログラムにおいてそれぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置に対して、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させる第2のステップと、合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する第3のステップとを実行させるようにした。 Furthermore, in order to solve such a problem, in the present invention, a terminal is provided for one or a plurality of terminal devices installed at different points in a program and an information processing device connected to the terminal device via a predetermined network. A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured video data of the user transmitted from the device via the network, and transmitted from the terminal device via the network The document image in the synthesized video and / or the corresponding user video is enlarged or reduced based on the presence or absence of the user's speech detected based on the predetermined document operation and / or the voice data of the collected user's voice. The second step of reduction and the composite video data composed of the video data of the composite video The data were so as to execute a third step of transmitting to the terminal device via the network.
これにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像その操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時にはその当該発言を行ったユーザのユーザ映像をメインに捉えさせることができる。 As a result, the user image of the user who operated the document image is mainly captured at the time of the document operation without causing the user to perform an extra operation, while the user image of the user who performed the statement is the main image when the user speaks. Can be captured.
以上のように本発明によれば、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置とからなるテレビ会議システムにおいて、端末装置は、ユーザを撮影する撮影手段と、ユーザの音声を集音する集音手段と、ドキュメントについての所定のドキュメント操作を行うためのドキュメント操作手段と、撮影手段から出力される映像データ及び集音手段から出力される音声データをネットワークを介して情報処理装置に送信する送信手段と、情報処理装置からネットワークを介して送信される合成映像データに基づく映像を表示する表示手段とを設け、情報処理装置は、端末装置からネットワークを介して送信される映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する映像合成手段と、ドキュメント操作手段を用いたドキュメント操作及び又は上記音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させるように合成映像手段を制御する制御手段と、映像合成手段により生成された合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する送信手段とを設けるようにしたことにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現できる。 As described above, according to the present invention, in a video conference system including one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network, the terminal device A photographing means for photographing the user, a sound collecting means for collecting the user's voice, a document operating means for performing a predetermined document operation on the document, video data output from the photographing means, and a sound collecting means An information processing apparatus comprising: transmission means for transmitting audio data output from the information processing apparatus via the network; and display means for displaying video based on the composite video data transmitted from the information processing apparatus via the network. The user's video based on the video data transmitted from the terminal device via the network and the necessary document The image of the document in the synthesized video and / or the correspondence based on the presence or absence of the user's speech detected based on the document operation using the document operation unit and the above-described audio data Transmitting the control means for controlling the composite video means so as to enlarge or reduce the user's video, and the composite video data composed of the video data of the composite video generated by the video composite means to the terminal device via the network By providing the means, the user can mainly capture the document image and the user video of the user who performed the operation during the document operation without causing the user to perform an extra operation. Can capture the user image of the user, and thus Myunikeshon resistance is high, it is possible to realize a immersive video conferencing system.
また以上のように本発明によれば、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置において、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する映像合成手段と、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させるように合成映像合成手段を制御する制御手段と、映像合成手段により生成された合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する送信手段とを設けるようにしたことにより、ユーザ余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれる情報処理装置を実現できる。 Further, as described above, according to the present invention, in one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network, from the terminal device via the network A video synthesizing unit that generates a synthesized video by synthesizing a user's video and a necessary document image based on the captured user's video data to be transmitted, and a predetermined document for the document transmitted from the terminal device via the network Based on the presence or absence of the user's speech detected based on the voice data of the user's voice that has been operated and / or collected, synthesized video synthesis so as to enlarge or reduce the document image and / or the corresponding user video in the synthesized video Control means for controlling the means, and video data of the composite video generated by the video composition means By providing a transmission means for transmitting the composite video data to the terminal device via the network, the document image and the user video of the user who performed the operation at the time of the document operation are performed without causing an extra user operation. The user image of the user who made the utterance can be captured mainly when the user utters, thus realizing a highly communicative and realistic information processing apparatus.
さらに以上のように本発明によれば、それぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して上記端末装置と接続される情報処理装置における情報処理方法において、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させる第2のステップと、合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する第3のステップとを設けるようにしたことにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれる情報処理方法を実現できる。 Furthermore, as described above, according to the present invention, in the information processing method in one or a plurality of terminal devices installed at different points and the information processing device connected to the terminal device via a predetermined network, the terminal device A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured user's video data transmitted via the network from the terminal device, and transmitted from the terminal device via the network Enlarge or reduce a document image and / or a corresponding user video in the synthesized video based on a predetermined document operation on the document and / or presence or absence of a user's speech detected based on voice data of the collected user's voice The second step of generating the synthesized video data comprising the synthesized video data, The third step of transmitting to the terminal device via the network is provided, so that the document image and the user image of the user who has performed the operation are mainly displayed during the document operation without causing the user to perform an extra operation. On the other hand, when the user speaks, the user's video of the user who made the speech can be captured mainly, thus realizing an information processing method that is highly communicative and full of realism.
さらに以上のように本発明によれば、プログラムにおいてそれぞれ異なる地点に設置される1又は複数の端末装置と、所定のネットワークを介して端末装置と接続される情報処理装置に対して、端末装置からネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、端末装置からネットワークを介して送信されるドキュメントについての所定のドキュメント操作及び又は集音されたユーザの音声の音声データに基づき検出されるユーザの発言の有無に基づいて、合成映像におけるドキュメントの画像及び又は対応するユーザの映像を拡大又は縮小させる第2のステップと、合成映像の映像データでなる合成映像データを、ネットワークを介して端末装置に送信する第3のステップとを実行させるようにしたことにより、ユーザに余分な操作をさせることなく、ドキュメント操作時にはドキュメント画像及びその操作を行ったユーザのユーザ映像をメインに捉えさせる一方、ユーザの発言時には当該発言を行ったユーザのユーザ映像をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれるプログラムを実現できる。 Further, as described above, according to the present invention, one or a plurality of terminal devices installed at different points in the program and an information processing device connected to the terminal device via a predetermined network are transmitted from the terminal device. A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured user's video data transmitted via the network, and a document transmitted from the terminal device via the network The document image and / or the corresponding user video in the synthesized video is enlarged or reduced based on the presence or absence of the user's speech detected based on the predetermined document operation and / or the voice data of the collected user's voice In the second step, the synthesized video data composed of the synthesized video data is transferred to the network. The third step of transmitting to the terminal device via the network is executed, so that the document image and the user video of the user who performed the operation at the time of the document operation can be displayed without causing the user to perform an extra operation. On the other hand, when the user speaks, the user's video of the user who made the speech can be captured mainly, and thus a program with high communication and full of realism can be realized.
以下図面について、本発明の一実施の形態を詳述する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(1)本実施の形態によるテレビ会議システムの構成
図1において、1は全体として本実施の形態によるテレビ会議システムを示し、それぞれ異なる地点に設置された複数のテレビ会議端末2(2A、2B)と、テレビ会議サーバ3とが例えばインターネット回線等のネットワークNTを介して相互に接続されることにより構成される。
(1) Configuration of Video Conference System According to the Present Embodiment In FIG. 1,
この場合、各テレビ会議端末2には、図2に示すように、それぞれ例えばCCD(Charge Coupled Device)からなるカメラ部4と、マイクロホン5と、マウス等からなるポインティングデバイス6とが設けられている。
In this case, as shown in FIG. 2, each
そしてカメラ部4は、そのテレビ会議端末2を使用するユーザ7(7A、7B)を撮像し、かくして得られた映像信号S1を映像処理部8に送出する。また映像処理部8は、供給される映像信号S1に対して例えばアナログ/ディジタル変換処理等の所定の信号処理を施し、得られた映像データD1を映像圧縮部9に送出する。さらに映像圧縮部9は、供給される映像データD1に対して、例えば国際電気通信連合ITU(International Telecommunication Union)によって標準化されたH.323等の所定規格に従った所定の圧縮方式で圧縮処理を施し、得られた圧縮映像データD2をパケタイズ部10に送出する。
The
またマイクロホン5は、ユーザ7の発言時の音声を集音し、得られた音声信号S2を入力音声処理部11に送出する。また入力音声処理部11は、供給される音声信号S2に対して例えばアナログ/ディジタル変換処理等の所定の信号処理を施し、得られた音声データD3を音声圧縮部12に送出する。さらに音声圧縮部12は、供給される音声データD3に対して上述と同様のH.323等の所定の規格に準拠した圧縮方式の圧縮処理を施し、得られた圧縮音声データD4をパケタイズ部10に送出する。
In addition, the
さらにポインティングデバイス6は、ユーザ操作の内容を表す操作情報信号S3を状況判断部13に送出する一方、状況判断部13は、この操作情報信号S3に基づき判断される、現在のカーソルの位置等の状況判断情報を状況判断データD5としてパケタイズ部10に送出する。
Further, the
パケタイズ部10は、映像圧縮部9から供給される圧縮映像データD2、音声圧縮部12から供給される圧縮音声データD4及び状況判断部13から供給される操作データD5を所定フォーマットでパケット化し、得られたパケットデータD6をネットワーク制御部14に送出する。
The
そしてネットワーク制御部14は、供給されるパケットデータD6に対して中間周波数変調等の所定の変調処理を施し、かくして得られた送信信号S4をネットワークNTを介してテレビ会議サーバ3に送信する。
Then, the
テレビ会議サーバ3においては、図3に示すような構成を有し、各テレビ会議端末2からそれぞれ送信される送信信号S4をネットワーク制御部16において受信する。そしてネットワーク制御部16は、これら各テレビ会議端末2からの送信信号S4に対して検波処理等の所定の復調処理をそれぞれ施し、得られたパケットデータD7をデパケタイズ部16に送出する。
The
デパケタイズ部16は、供給されるパケットデータD7からパケットに含まれる圧縮映像データD8、圧縮音声データD9及び操作データD10を抽出し、圧縮映像データD8を映像伸張部17に送出すると共に、圧縮音声データD9を音声伸張部18に送出し、状況判断データD10を状況判断制御部19に送出する。
The
そして映像伸張部17は、供給される圧縮映像データD8に対して対応する復号化方式による伸張処理を施し、得られたベースバンドの映像データD11を映像合成部20に送出する。
The
このときテレビ会議サーバ3には、テレビ会議端末2と同様に、CCDカメラ等でなるカメラ部21と、マイクロホン22と、マウス等からなるポインティングデバイス23とが設けられている。
At this time, similarly to the
そしてカメラ部21は、このテレビ会議サーバ3を使用するユーザ7(7C)を撮像することにより得られた映像信号S5を映像処理部25に送出する。また映像処理部25は、供給される映像信号S5に対して例えばアナログ/ディジタル変換処理等の所定の信号処理を施し、得られた映像データD12を映像合成部20に送出する。
Then, the
またポインティングデバイス23は、ユーザ操作の内容を表す操作情報信号S6を状況判断制御部19に送出する。そして状況判断制御部19は、この操作情報信号S6と、各テレビ会議端末2から送信される状況判断データD10とに基づいて、各テレビ会議端末2及びテレビ会議サーバ3にそれぞれ対応させて、そのテレビ会議端末2又はテレビ会議サーバ3の各ポインティングデバイス6及び23の操作に応動して移動する各カーソルの画像データ(以下、これをカーソル画像データと呼ぶ)D13を生成し、これを映像合成部20に送出する。
The
さらにテレビ会議サーバ3には、予めテレビ会議端末2から送信され又は当該テレビ会議サーバ3のユーザ7Cにより入力されたドキュメントの画像データが格納されたドキュメント格納部26が設けられている。そして状況判断制御部19は、当該テレビ会議サーバ3のポインティングデバイス23から供給される操作情報信号S6及び各テレビ会議端末2から送信される状況判断データD10に基づいて、ドキュメント格納部26に格納されたドキュメントの表示命令が与えられたときには、ドキュメント格納部26を制御してそのドキュメントのデータを読み出させる。そしてこのドキュメントのドキュメントデータD14が映像合成部20に与えられる。
Further, the
映像合成部20は、状況判断制御部19の制御のもとに、これら映像伸張部17から供給される各テレビ会議端末2からの映像データD11に基づく各ユーザ映像27(27A、27B)と、映像処理部26から供給される映像データD12に基づくユーザ映像27(27C)と、状況判断制御部19から供給されるカーソル画像データD13に基づくカーソル画像29(29A〜29C)と、ドキュメント格納部26から供給されるドキュメントデータD14に基づくドキュメント画像31とを合成した例えば図4に示すような合成映像32を生成し、その映像データでなる合成映像データD15を表示処理部33及び映像圧縮部34に送出する。
Under the control of the situation
そして表示処理部33は、この合成映像データD15に対してディジタル/アナログ変換処理等の所定の信号処理を施し、得られた映像信号S7を例えばCRT(Cathode-Ray Tube)等でなるディスプレイ35に送出する。これによりこの映像信号S7に基づく上述のような合成画像32がディスプレイ35に表示される。
Then, the
また映像圧縮部34は、映像合成部20から供給される合成映像データD15に対して所定の圧縮処理を施し、得られた圧縮合成映像データD16をパケタイズ部36に送出する。
In addition, the
一方、音声伸張部18は、デパケタイズ部16から供給される圧縮音声データD9に対して対応する復号化方式での復号化処理を施し、得られたベースバンドの音声データD17を音声合成部37に送出する。
On the other hand, the voice decompression unit 18 performs a decoding process using a corresponding decoding method on the compressed voice data D9 supplied from the
このとき音声合成部36には、このテレビ会議サーバ3のマイクロホン22から出力された音声信号S8を、音声処理部38においてアナログ/ディジタル変換等の所定の信号処理を施すことにより得られたベースバンドの音声データD18が与えられる。
At this time, the
かくして音声合成部37は、これら音声伸張部18から供給される各テレビ会議端末2(2A及び2B)からの音声データD17に基づく各音声と、音声処理部38から供給される音声データD18に基づく音声とを合成した合成音声を生成し、その音声データでなる合成音声データD19を出力音声処理部39及び音声圧縮部40に送出する。
Thus, the
そして出力音声処理部39は、この合成音声データD19に対してディジタル/アナログ変換処理等の所定の信号処理を施し、得られた音声信号S9をスピーカ41に出力する。これによりこの音声信号S9に基づく上述のような合成音声がスピーカ41から出力される。
The output
また音声圧縮部40は、音声合成部37から供給される合成音声データD19に対して所定の圧縮処理を施し、得られた圧縮合成音声データD20をパケタイズ部36に送出する。
The
パケタイズ部36は、映像圧縮部34から供給される圧縮合成映像データD16及び音声圧縮部40から供給される圧縮合成音声データD20を所定フォーマットでパケット化し、得られたパケットデータD21をネットワーク制御部15に送出する。
The packetizing
そしてネットワーク制御部15は、供給されるパケットデータD21に対して中間周波数変調等の所定の変調処理を施し、かくして得られた送信信号S10をネットワークNTを介して各テレビ会議端末2にそれぞれ送信する。
Then, the
各テレビ会議端末2においては、テレビ会議サーバ3から送信される送信信号S10をネットワーク制御部14において受信する。そしてネットワーク制御部14は、このテレビ会議サーバ3からの送信信号S10に対して検波処理等の所定の復調処理をそれぞれ施し、得られたパケットデータD22をデパケタイズ部42に送出する。
In each
デパケタイズ部42は、供給されるパケットデータD22からパケットに含まれる圧縮合成映像データD23及び圧縮合成音声データD24を抽出し、圧縮合成映像データD23を映像伸張部43に送出すると共に、圧縮合成音声データD24を音声伸張部44に送出する。
The
そして映像伸張部43は、供給される圧縮合成映像データD23に対して対応する復号化方式での伸張処理を施し、得られたベースバンドの合成映像データD25を表示処理部45に送出する。また表示処理部45は、この合成映像データD25に対してディジタル/アナログ変換処理等の所定の信号処理を施し、得られた映像信号S11をCRT等でなるディスプレイ46送出する。これによりこの映像信号S11に基づく上述の合成画像32(図4)がディスプレイ46に表示される。
Then, the
さらに音声伸張部44は、供給される圧縮合成音声データD24に対して対応する復号化方式での伸張処理を施し、得られたベースバンドの合成映像データD26を出力音声処理部47に送出する。また出力音声処理部47は、この合成音声データD26に対してディジタル/アナログ変換処理等の所定の信号処理を施し、得られた音声信号S12をスピーカ48に送出する。これによりこの音声信号S12に基づく上述の合成音声がスピーカ48から出力される。
Further, the
このようにしてこのテレビ会議システム1においては、各テレビ会議端末2のカメラ部4及びテレビ会議サーバ3のカメラ部21によってそれぞれ撮像された各ユーザ7の各ユーザ映像27、カーソル画像29及びドキュメント画像31を合成してなる合成映像32を各テレビ会議端末2の各ディスプレイ46及びテレビ会議サーバ3のディスプレイ35にそれぞれ表示させると共に、各テレビ会議端末2の各マイクロホン5及びテレビ会議サーバ3のマイクロホン22によってそれぞれ集音された各ユーザ7の音声を合成してなる合成音声を各テレビ会議端末2の各スピーカ48及びテレビ会議サーバ3のスピーカ41からそれぞれ出力させることができるようになされている。
Thus, in this
(2)テレビ会議システム1に搭載された各種機能
次に、このテレビ会議システム1に搭載された各種機能について説明する。
(2) Various functions installed in the
(2−1)ドキュメント操作時等の表示制御機能
このテレビ会議システム1には、各テレビ会議端末2又はテレビ会議サーバ3の各ポインティングデバイス6又は23の操作に応じて、そのとき各ディスプレイ35及び46に表示されている合成映像32内のドキュメント画像31の表示位置及び又はその大きさや、各ユーザ7の各ユーザ映像27の表示位置及び又はその大きさを変化させるドキュメント操作時等の表示制御機能が搭載されている。
(2-1) Display Control Function During Document Operation, etc. In this
実際上、テレビ会議サーバ3の状況判断制御部19は、かかるドキュメント操作時等の表示制御機能を実現するための手段として、図5に示すように、そのとき表示されているドキュメント及び現在そのドキュメントを操作しているユーザ7を管理するための付加情報テーブル49を有している。
Actually, as shown in FIG. 5, the situation
そして状況判断制御部19は、テレビ会議サーバ3のポインティングデバイス23から供給される操作入力信号S6と、各テレビ会議端末2からそれぞれ送信される状況判断データD10とに基づいて、いずれかのテレビ会議端末2又はテレビ会議サーバ3のポインティングデバイス6又は23が操作されて、ドキュメント格納部26に格納されたドキュメントデータD14に基づくドキュメント画像31を表示し、若しくは現在表示しているドキュメント画像31を他のドキュメント画像31に変更し、又は現在表示しているドキュメント画像31の次ページを表示等すべき旨の命令が入力されたことを認識すると、そのドキュメントデータD14のファイル名を付加情報テーブル49の表示ドキュメント管理欄49Aに格納すると共に、その操作を行ったユーザ7が使用しているテレビ会議端末2又はテレビ会議サーバ3のID(以下、これを端末・サーバIDと呼ぶ)を付加情報テーブル49のドキュメント操作ユーザ管理欄49Bに格納する。
The situation
また状況判断制御部19は、この付加情報テーブル49に基づいてドキュメント格納部26を制御することにより、当該ドキュメント格納部26に格納されている指定されたドキュメントデータD14を読み出させて、これを映像合成部20に送出させる。
Further, the situation
さらに状況判断制御部19は、これと併せて付加情報テーブル49に基づいて映像合成部20を制御することにより、図6に示すように、ドキュメント格納部26から供給されるドキュメントデータD14に基づくドキュメント画像31を画面の中央部に拡大表示させると共に、その操作が行われたテレビ会議端末2又はテレビ会議サーバ3から送信される映像データD11又はD12に基づくユーザ7のユーザ映像27を画面左下に拡大表示し、かつ他のテレビ会議端末2又はテレビ会議サーバ3から送信される映像データD11又はD12に基づくユーザ7のユーザ映像27が画面右側に拡大していない、うなずき等が認識できる程度の所定の大きさで表示されてなる合成映像32の合成映像データD15を生成させる。
Further, the situation
そして映像合成部20は、このように生成した合成映像データD15を表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの図6のような合成映像32がテレビ会議サーバ3のディスプレイ35及び各テレビ会議端末2のディスプレイ46にそれぞれ表示されることとなる。
Then, the
一方、状況判断制御部19は、このように合成映像32内にドキュメント画像31を表示させたときは、当該テレビ会議サーバ3のポインティングデバイス23から供給される操作入力信号S6と、各テレビ会議端末2から送信される状況判断データD10とに基づいて、テレビ会議サーバ3のポインティングデバイス23及び各テレビ会議端末2のポインティングデバイス6とそれぞれ対応付けられた各カーソル画像29の位置を監視する。
On the other hand, when the situation
そして状況判断制御部19は、それまでカーソル操作が行われていたテレビ会議端末2又はテレビ会議サーバ3と異なるテレビ会議端末2又はテレビ会議サーバ3と対応付けられた各カーソル画像29がドキュメント上で1〜2秒以上移動するようなカーソル操作が行われたときには、付加情報管理テーブル49のドキュメント操作ユーザ欄49Bに格納されている端末・サーバIDを、その新たなテレビ会議端末2又はテレビ会議サーバ3の端末・サーバIDに書き換える。
The situation
また状況判断制御部19は、この後この付加情報テーブル49に基づいて映像合成部20を制御することにより、図7に示すように、それまでカーソル操作が行われていたテレビ会議端末2からの映像データD11又は当該テレビ会議サーバ3の映像処理部25からの映像データD12に基づくユーザ映像27と、新たにカーソル操作が行われたテレビ会議端末2からの映像データD11又は当該テレビ会議サーバ3の映像処理部25からの映像データD12に基づくユーザ映像27とを入れ換えた合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの図6のようなもとの合成映像32に対して、図7に示すような合成映像32がテレビ会議サーバ3のディスプレイ35及び各テレビ会議端末2のディスプレイ46にそれぞれ表示される。
Further, the situation
他方、状況判断制御部19は、このように映像合成部20を制御して合成映像32内にドキュメント画像31を表示させたときには、テレビ会議サーバ3のポインティングデバイス23から供給される操作入力信号S6と、各テレビ会議端末2から送信される状況判断データD10とに基づいて、ユーザ7がそのドキュメント画像31上でカーソル操作を行っている時間を監視する。
On the other hand, when the situation
そして状況判断制御部19は、かかるカーソル操作を同一のユーザ7が継続して行っているときには、所定時間(例えば1〜2分程度)ごとに映像合成部20を制御することにより、当該所定時間ごとにドキュメント画像31を段階的に順次拡大させた図8のような合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりユーザ7のカーソル操作に応じて一定時間ごとにドキュメント画像31が順次段階的に拡大するような合成映像32がテレビ会議サーバ3のディスプレイ35及び各テレビ会議端末2のディスプレイ46にそれぞれ表示される。
Then, when the
これに対して状況判断制御部19は、かかるカーソル操作をいずれのユーザ7も行っていないときには、所定時間(例えば1〜2分程度)ごとに映像合成部20を制御することにより、当該所定時間ごとにドキュメント画像31を段階的に順次縮小させた合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりテレビ会議端末2又はテレビ会議サーバ3のいずれにおいてもユーザ7のカーソル操作がないときには、一定時間ごとにドキュメント画像31が順次段階的に縮小し、最終的には図9に示すように、合成映像32の左端にドキュメント画像30が縮小されて配置された合成映像32がテレビ会議サーバ3のディスプレイ35及び各テレビ会議端末2のディスプレイ46にそれぞれ表示される。
On the other hand, when no
このようにして、このテレビ会議システム1では、ユーザ7のドキュメント操作に応じてドキュメント画像30及びユーザ7のユーザ映像27を拡大又は縮小するように表示し得るようになされ、これによりユーザ7に余分な操作をさせることなく、ドキュメント操作時等にはドキュメント画像31及びその操作を行ったユーザ7のユーザ映像27をメインに捉えさせ得るようになされている。
In this manner, in the
(2−2)音声検出等に基づく表示及び音量制御機能
一方、このテレビ会議システム1には、ユーザ7の発言の有無に応じて、そのときテレビ会議サーバ3のディスプレイ35及び各テレビ会議端末2のディスプレイ46に表示されている合成映像32内の各ユーザ7のユーザ映像27の表示位置及びその大きさや、各テレビ会議端末2及びテレビ会議サーバ3のスピーカ41及び48から出力される各ユーザ7の発言音量を変化させる表示及び音量制御機能が搭載されている。
(2-2) Display and Volume Control Function Based on Voice Detection etc. On the other hand, in this
実際上、このテレビ会議システム1の場合、テレビ会議端末2においては、入力音声処理部11から出力される音声信号S2が状況判断部13に与えられる。
Actually, in the case of this
そして状況判断部13は、供給される音声信号S2に基づいて、その信号レベルからユーザ7が発言したか否かを常時監視し、ユーザ7が発言したことを検出したときには、これを上述の状況判断データD5としてパケタイズ部10に送出する。かくしてこの状況判断データD5は、この後上述のようにネットワークNTを介してテレビ会議サーバ3に送信され、その後状況判断制御部19に与えられる。
And the
このとき状況判断制御部19は、入力音声処理部38から出力された音声信号S8を入力し、この音声信号S8に基づいて当該テレビ会議サーバ3のユーザ24が発言したか否かを常時監視するようになされている。
At this time, the situation
そして状況判断制御部19は、この監視結果と、各テレビ会議端末2から送信される状況判断データD10とに基づいて、いずれかのユーザ7が発言しているかを判断し、そのとき例えば1〜2秒以上継続して発言しているユーザ7を検出したときには、図5に示すように、対応するテレビ会議端末2又はテレビ会議サーバ3の端末・サーバIDを付加情報管理テーブル49の発言ユーザ格納欄49Cに格納する。
Then, the situation
また状況判断制御部19は、この後この付加情報管理テーブル49に基づいて映像合成部20を制御することにより、各テレビ会議端末2及びテレビ会議サーバ3からの映像データD11及びD12に基づくユーザ映像27を拡大又は縮小表示させる一方、これと併せて音声合成部37を制御することにより、各テレビ会議端末2及びテレビ会議サーバ3からの音声データD17及びD18に基づくユーザ7の発言音声の音量を上げ又は下げさせる。
In addition, the situation
例えば、状況判断制御部19は、そのとき図6に示すように、ドキュメント画像31が画面中央部に拡大表示され、あるユーザ7のユーザ映像27がその左側に拡大表示された合成映像32が映像合成部20において生成されている場合において、他のユーザ7が発言した場合には、図7に示すように、それまで拡大表示されていたユーザ7と、その発言したユーザ7との表示位置及び大きさを入れ換えた図7に示すような合成映像32の合成映像データD15を映像合成部20に生成させる。かくしてこの合成映像データD15に基づくかかる合成画像32が各テレビ会議端末2及びテレビ会議サーバ3のディスプレイ35及び46に表示される。
For example, as shown in FIG. 6, the situation
また状況判断制御部19は、この後テレビ会議サーバ3の入力音声処理部38からの音声信号S2と、各テレビ会議端末2からの状況判断データD10とを常時監視し、その後もそのユーザ7が継続して発言していると判断したときには、所定時間(例えば1〜2分程度)ごとに映像合成部20及び音声合成部37を制御する。
In addition, the situation
かくしてこのとき映像合成部20は、状況判断制御部19の制御のもとに、そのとき拡大表示しているユーザ7のユーザ映像27を当該所定時間ごとにさらに段階的に順次拡大させ、かつこれと同期して他のユーザ7のユーザ映像27を当該所定時間ごとに段階的に順次縮小させた図10に示すような合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの合成映像データD15に基づく合成映像32が各テレビ会議端末2及びテレビ会議サーバ3の各ディスプレイ35及び46にそれぞれ表示される。
Thus, at this time, under the control of the situation
またこのとき音声合成部37は、状況判断制御部19の制御のもとに、そのとき拡大表示されているユーザ7の音声の音量を当該所定時間ごとに段階的に順次上げ、かつこれと同期して他のユーザ7の音声の音量を当該所定時間ごとに段階的に順次下げた合成音声の合成音声データD19を生成し、これを出力音声処理部39及び音声圧縮部40にそれぞれ送出する。これによりこの合成音声データD19に基づく合成音声が各テレビ会議端末2及びテレビ会議サーバ3の各スピーカ41及び48からそれぞれ出力される。
At this time, under the control of the situation
さらに例えば状況判断制御部19は、図9に示すように、合成映像32において、ドキュメント画像31が画面左端に縮小表示されていると共に、その右側に各ユーザ7のユーザ映像27が均等な大きさで表示されている場合において、あるユーザ7が継続して発言し続けた場合には、所定時間(例えば1〜2分程度)ごとに映像合成部20及び音声合成部37を制御する。
Further, for example, as shown in FIG. 9, the situation
かくしてこのとき映像合成部20は、状況判断制御部19の制御のもとに、そのユーザ7のユーザ映像27を当該所定時間ごとに段階的に順次拡大させ、かつこれと同期して他のユーザ7のユーザ映像27を当該所定時間ごとに段階的に順次縮小させた合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの合成映像データD15に基づく図11に示すような合成画像32が各テレビ会議端末2及びテレビ会議サーバ3のディスプレイ35及び46に表示される。
Thus, at this time, the
またこのとき音声合成部37は、状況判断制御部19の制御のもとに、そのユーザ7の音声の音量を当該所定時間ごとに段階的に順次上げ、かつこれと同期して他のユーザ7の音声の音量を当該所定時間ごとに段階的に順次下げた合成音声の合成音声データD19を生成し、これを出力音声処理部39及び音声圧縮部40にそれぞれ送出する。これによりこの合成音声データD19に基づく合成音声が各テレビ会議端末2及びテレビ会議サーバ3の各スピーカ41及び48からそれぞれ出力される。
At this time, the
これに対して状況判断制御部19は、テレビ会議サーバ3の入力音声処理部11から与えられる音声信号S8と、各テレビ会議端末2から送信される状況判断情報D10とに基づいて、いずれのユーザ7も発言していないことを検出したときには、所定時間(例えば1〜2分程度)ごとに映像合成部20及び音声合成部37を制御する。
On the other hand, the situation
かくしてこのとき映像合成部20は、状況判断制御部19の制御のもとに、例えば図10や図11の状態から図9又は図12のように各ユーザ7のユーザ映像27が均等な所定の大きさとなるまで、そのとき拡大表示されていたユーザ7のユーザ映像27を当該所定時間ごとに段階的に順次縮小し、かつこれと同期してその他のユーザ7のユーザ映像27を当該所定時間ごとに段階的に順次拡大するような合成映像32の合成映像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの合成映像データD15に基づいて、上述のように各ユーザ映像27の大きさが均等な大きさとなるまで、段階的に縮小又は拡大してゆく合成映像32が各テレビ会議端末2及びテレビ会議サーバ3の各ディスプレイ35及び46にそれぞれ表示される。
Thus, at this time, under the control of the situation
またこのとき音声合成部37は、状況判断制御部19の制御のもとに、各ユーザ7の音声の音量が均等な所定の大きさとなるまで、そのとき音量が上げられていたユーザ7の音声の音量を当該所定時間ごとに段階的に順次下げ、かつこれと同期して他のユーザ7の音声の音量を当該所定時間ごとに段階的に順次上げるような合成音声の合成音声データD19を順次生成し、これを出力音声処理部39及び音声圧縮部40にそれぞれ送出する。かくしてこの合成音声データD19に基づいて、上述のように各ユーザ7の音声の音量が、段階的に均等な大きさとなるまで、下がり又は上がってゆく合成音声が各テレビ会議端末2又はテレビ会議サーバ3の各スピーカ41及び48からそれぞれ出力されることとなる。
At this time, the
このようにして、このテレビ会議システム1では、ユーザ7の発言の有無に応じてユーザ7のユーザ映像27を拡大又は縮小するように表示し得るようになされ、これによりユーザに余分な操作をさせることなく、ユーザ7のユーザ映像27をメインに捉えさせ得るようになされている。
In this manner, in the
(2−3)発言支援機能
他方、このテレビ会議システム1には、ユーザ操作に応じて図13に示すような支援マーク画像50や図14に示すようなテキスト画像51を合成映像32上に表示するようにして、そのユーザ7及び24の発言を支援する発言支援機能が搭載されている。
(2-3) Speech Support Function On the other hand, in this
実際上、このテレビ会議システム1の場合、各テレビ会議端末2には、「発言」又は「分かった」等の発言内容にそれぞれ対応付けられた複数の専用スイッチからなる専用スイッチ群53が設けられている。
In practice, in the case of this
そしてユーザ7がこれら専用スイッチ群53のなかの所望する発言内容と対応付けられた専用スイッチを押圧操作すると、これに応じた押圧操作信号S13が状況判断部13及び発言画像生成部54に出力される。
When the
また各テレビ会議端末2には、キーボード55が設けられており、ユーザ7が所定操作を行って「その原因は○○だよ」等の文字列を入力すると、キーボード操作があったことを表すキーボード操作信号S14が状況判断部13に出力され、このとき入力されたテキストのテキストデータD27が発言画像生成部54に出力される。
Each
状況判断部13は、専用スイッチ群53から押圧操作信号S13が与えられ又はキーボード55からキーボード操作信号S14が与えられると、これに応じた状況判断データD5をパケタイズ部10に送出する。かくしてこの状況判断データD5が、この後上述のようにネットワークNTを介してテレビ会議サーバ3に送信され、その後このテレビ会議サーバ3の状況判断制御部19に与えられる。
When the pressing operation signal S13 is given from the
また発言画像生成部54は、専用スイッチ群53から押圧操作信号S13が与えられ又はキーボード55からテキストデータD27が与えられると、その押圧操作信号S13に応じた例えば図13に示すような支援マーク画像50又はテキストデータD27に基づく例えば図14に示すようなテキスト画像51を生成し、その支援マーク画像50又はテキスト画像51(以下、これらをまとめて発言画像と呼ぶ)の画像データ(以下、これを発言画像データと呼ぶ)D28を映像圧縮部9に送出する。
Further, when the pressing operation signal S13 is given from the
かくしてこの発言画像データD28は、この後映像データD1の場合と同様に、映像圧縮部9及びパケタイズ部10において所定の圧縮処理及びパケット化処理が施されてネットワークNTを介してテレビ会議サーバ3に送信され、その後デパケタイズ部16及び映像伸張部17を順次介して映像合成部20に与えられる。
Thus, the speech image data D28 is subjected to predetermined compression processing and packetization processing in the video compression section 9 and the
このときテレビ会議サーバ3には、テレビ会議端末2と同様の複数の専用スイッチからなる専用スイッチ群56が設けられており、ユーザ7がこれら専用スイッチ群56のなかの所望する発言内容と対応付けられた専用スイッチを押圧操作すると、これに応じた押圧操作信号S15が状況判断制御部19及び発言画像生成部57に与えられる。
At this time, the
またテレビ会議サーバ3には、キーボード58も設けられており、ユーザ7が所定操作を行って「その原因は○○だよ」等の文字列を入力すると、キーボード操作があったことを意味するキーボード操作信号S16が状況判断部に出力され、このとき入力されたテキストのテキストデータD29が発言画像生成部57に出力される。
The
そして発言画像生成部57は、専用スイッチ群56から押圧操作信号S15が与えられ又はキーボード58からテキストデータD29が与えられると、その押圧操作信号S15に応じた例えば図13のような支援マーク画像50又はテキストデータD29に基づく例えば図14のようなテキスト画像51を生成し、その支援マーク画像50又はテキスト画像51でなる発言画像の画像データ(発言画像データ)D30を映像合成部20に送出する。
When the pressing operation signal S15 is given from the
このとき状況判断制御部19は、当該テレビ会議サーバ3の専用スイッチ群56又はキーボード58から供給される押圧操作信号S15又はキーボード操作信号S16と、各テレビ会議端末2から送信される状況判断データD10とを常時監視しており、これら押圧操作信号S15、キーボード操作信号S16又は状況判断データD10に基づいて、いずれかのテレビ会議端末2又はテレビ会議サーバ3において専用スイッチ群53又は56内のいずれかの専用スイッチが押圧操作され、又はキーボード55又は58を介して合成映像32上に表示すべき文字列が入力されたことを認識すると、これに応じた制御信号D31を映像合成部20に送出する。
At this time, the situation
かくしてこのとき映像合成部20は、この制御信号D31に基づいて、ドキュメント格納部26からのドキュメントデータD14に基づくドキュメント画像31と、当該テレビ会議サーバ3の映像処理部25から供給される映像データD12に基づく映像28と、各テレビ会議端末2から送信される映像データD11に基づくユーザ7のユーザ映像27とを合成してなる合成映像32上に、さらに対応するテレビ会議端末2から送信され又は当該テレビ会議サーバ3の発言画像生成部54又は57から供給される発言画像データD28又はD30に基づく発言画像(支援マーク画像50又はテキスト画像51)を対応する位置に重畳して合成してなる合成画像32の合成画像データD15を生成し、これを表示処理部33及び映像圧縮部34にそれぞれ送出する。これによりこの合成映像データD15に基づいて、図13又は図14のような発言画像(支援マーク画像50又はテキスト画像51)がその操作を行ったユーザ7の近傍に表示されてなる合成画像32が各テレビ会議端末2及びテレビ会議サーバ3の各ディスプレイ35及び46にそれぞれ表示される。
Thus, at this time, the
このようにして、このテレビ会議システム1では、そのとき発言しているユーザの当該発言を妨げることなく、事前にかつさりげなく自己の発言意思や所望する発言内容を他のユーザに伝えることができるようになされている。
In this manner, in the
(2−4)テレビ会議中の照明機能
さらにこのテレビ会議システム1では、図15に示すように、テレビ会議中に参加しているユーザ7の周囲の床面等を照明することにより、当該テレビ会議中であることを周囲の人に認識させる照明機能が各テレビ会議端末2及びテレビ会議サーバ3に搭載されている。
(2-4) Illumination Function During Video Conference Further, in this
実際上、このテレビ会議システム1の場合、図2及び図3からも明らかなように、テレビ会議サーバ3及び各テレビ会議端末2には、それぞれユーザ7の周囲の床面等を照明するための光源59及び60が設けられている。
In practice, in the case of this
そしてテレビ会議サーバ3の状況判断制御部19は、ユーザ操作に応じて例えばSIP(Session Initiation Protocol)制御によって対応する各テレビ会議端末2と通信可能な状態に接続すると、光源59に対して駆動電圧の供給を開始することによって図15(A)のように当該光源59を点灯させる一方、その後ユーザ操作に応じてすべてのテレビ会議端末2との接続を切断すると、かかる光源59への駆動電圧の供給を停止することによって図15(B)のように当該光源59を消灯させるようになされている。
Then, when the situation
また各テレビ会議端末2の状況判断部13も同様に、ユーザ操作に応じてテレビ会議サーバ3と通信可能な状態に接続すると、光源60に対して駆動電圧の供給を開始することによって図15(A)のように当該光源60を点灯させる一方、その後ユーザ操作に応じてテレビ会議サーバ3との接続を切断すると、かかる光源60への駆動電圧の供給を停止することによって図15(B)のように当該光源60を消灯させるようになされている。
Similarly, when the
このようにして、このテレビ会議システム1では、自己の作業をしているのか、又はテレビ会議中であるのかを明確に区別して、テレビ会議中であることを容易に周囲に認識させることによって、テレビ会議中に周囲の人から話しかけられるのを未然かつ有効に防止し、かくしてテレビ会議を中断させることなく円滑に進行し得るようになされている。
In this way, in this
(3)状況判断制御部19の具体的処理内容
(3−1)ドキュメント操作時等の表示制御処理手順
ここで、上述のようなテレビ会議サーバ3の状況判断制御部19によるドキュメント操作時等の表示制御は、予め状況判断制御部19に与えられた制御プログラムに基づき、図16に示すドキュメント操作時等の表示制御処理手順RT1に従って行われる。
(3) Specific processing contents of the situation judgment control unit 19 (3-1) Display control processing procedure at the time of document operation Here, at the time of document operation by the situation
すなわち状況判断制御部19は、対応する各テレビ会議端末2と通信可能な状態に接続すると、ドキュメント操作時等の表示制御処理手順RT1をステップSP0において開始し、続くステップSP1において、ドキュメント操作されたか否かを判断する。そして状況判断制御部19は、このステップSP1においてユーザ7にドキュメント操作されるのを待ちながら、ドキュメント操作された場合のみステップSP2に進み、ドキュメント画像31が表示されているか否かを判断する。
In other words, when the situation
そして状況判断制御部19は、このステップSP2において否定結果を得るとステップSP3に進んで、ドキュメント画像31を拡大表示させ、ドキュメント画像31の横にドキュメント操作を行ったユーザ7のユーザ映像27を拡大表示させ、これに対して肯定結果を得るとステップSP4に進んで、ドキュメント画像31を変更して表示させ、ドキュメント画像31の横にドキュメント操作を行ったユーザ7のユーザ映像27を入れ換えて表示させる。
If the result of the determination in step SP2 is negative, the situation
また状況判断制御部19は、この後ステップSP5に進んで、所定の時間内にカーソル操作されたか否かを判断する。そして状況判断制御部19は、このステップSP5において肯定結果を得るとステップSP7に進み、これに対して肯定結果を得るとステップSP8に進んで、ドキュメント画像31を段階的に縮小表示させる。
Further, the situation
さらに状況判断制御部19は、この後ステップSP7に進んで、同一のユーザ7が所定の時間カーソル操作し続けたか否かを判断する。そして状況判断制御部19は、このステップSP7において肯定結果を得るとステップSP8に進んで、ドキュメント画像31を段階的に拡大表示させ、これに対して否定結果を得るとステップSP9に進んで、ドキュメント画像31の横にカーソル操作を行ったユーザ7のユーザ映像27を表示させる。
Further, the situation
さらに状況判断制御部19は、この後ステップSP10に進んで、ユーザ7がテレビ会議を終了すべき操作(以下、これを終了操作と呼ぶ)を行なったか否かを判断し、否定結果を得るとステップSP1に戻り、この後ステップSP1〜ステップSP10について同様の処理を繰り返す。そして状況判断制御部19は、やがてユーザ7が終了操作を行うことによりステップSP10において肯定結果を得ると、ステップSP11に進んでこのドキュメント操作時等の表示制御処理手順RT1を終了する。
Further, the situation
(3−2)音声検出時等の表示及び音量制御処理手順
一方、状況判断制御部19は、対応する各テレビ会議端末2と通信可能な状態に接続すると、上述のドキュメント操作検出時等の表示制御処理手順RT1と並行して、図17に示す音声検出時等の表示及び音量制御処理手順RT2をステップSP12において開始し、続くステップSP13において、所定の時間内にユーザ7から音声が検出されたか否かを判断する。そして状況判断制御部19は、このステップSP13において肯定結果を得るとステップSP15に進み、これに対して否定結果を得るとステップSP14に進んで、ユーザ7のユーザ映像27を均等になるように表示させる。
(3-2) Display at the time of voice detection, etc. and volume control processing procedure On the other hand, when the situation
また状況判断制御部19は、この後ステップSP15において、同一のユーザ7から所定の時間以上音声を検出し続けたか否かを判断する。そして状況判断制御部19は、このステップSP15において否定結果を得るとステップSP17に進み、これに対して肯定結果を得るとステップSP16に進んで、音声を検出したユーザ7のユーザ映像27を拡大表示させ、及び音量を大きくさせる一方、それ以外のユーザ7のユーザ映像27を縮小表示させ、及び音量を小さくさせる。
Further, the situation
さらに状況判断制御部19は、この後ステップSP17において、ドキュメント画像31が表示されているか否かを判断する。そして状況判断制御部19は、このステップSP17において否定結果を得るとステップSP19に進み、これに対して肯定結果を得るとステップSP18に進んで、ドキュメント画像31の横に音声を検出したユーザ7のユーザ映像27を表示させる。
Further, the situation
さらに状況判断制御部19は、この後ステップSP19に進んで、ユーザ7が終了操作を行なったか否かを判断し、否定結果を得るとステップSP13に戻り、この後ステップSP13〜ステップSP19について同様の処理を繰り返す。そして状況判断制御部19は、やがてユーザ7が終了操作を行うことによりステップSP19において肯定結果を得ると、ステップSP20に進んでこの音声検出時等の表示及び音量制御処理手順RT2を終了する。
Further, the situation
このようにして状況判断制御部19は、映像合成部20及び音声合成部37を制御して、ユーザ7のユーザ映像27及びドキュメント画像31の表示位置や大きさ並びに音量を変化させ得るようになされている。
In this way, the situation
(4)本実施の形態による動作及び効果
以上の構成において、このテレビ会議システム1は、ユーザ7のドキュメント操作に応じてドキュメント画像31及びユーザ7のユーザ映像27を拡大又は縮小するように表示する。
(4) Operation and Effect According to this Embodiment In the above configuration, the
従って、ユーザ7に余分な操作をさせることなく、ドキュメント操作時等にはドキュメント画像31をメインに捉えさせる一方、その操作を行ったユーザ7のユーザ映像27をメインに捉えさせることができる。
Accordingly, without causing the
また、合成映像32内にドキュメント画像31を表示させたときには、ユーザ7がそのドキュメント画像31上でカーソル操作を行っている時間を監視し、かかるカーソル操作を同一のユーザ7が継続して行っているときには、所定時間(例えば1〜2分程度)ごとにドキュメント画像31を段階的に順次拡大するように表示するようになされているため、ユーザ7に余分な操作をさせることなく、ユーザ7がそのドキュメント画像31上でカーソル操作を行っているときには、ドキュメント画像31をメインに捉えさせることができる。
When the
さらに、このテレビ会議システム1は、ユーザ7の発言の有無に応じてユーザ7のユーザ映像27を拡大又は縮小するように表示するようになされているため、ユーザ7に余分な操作をさせることなく、発言を行ったユーザ7のユーザ映像27をメインに捉えさせることができる。
Furthermore, since the
さらに、このテレビ会議システム1は、いずれかのテレビ会議端末2又はテレビ会議サーバ3において専用スイッチ群53又は56内のいずれかの専用スイッチが押圧操作、又はキーボード55又は58を介して合成映像32上に表示すべき文字列の入力に応じて発言画像(支援マーク画像50又はテキスト画像51)をその操作を行ったユーザ7の近傍に表示するようになされているため、そのとき発言しているユーザの当該発言を妨げることなく、事前にかつさりげなく自己の発言意思や所望する発言内容を他のユーザに伝えることができる。
Furthermore, in this
さらに、このテレビ会議システム1は、ユーザ操作に応じて通信可能な状態に接続すると、光源59及び60に対して駆動電圧の供給を開始することによって当該光源59を点灯させる一方、その後ユーザ操作に応じて接続を切断すると、かかる光源59及びへの駆動電圧の供給を停止することによって当該光源59及び60を消灯させるようになされているため、テレビ会議中であることを容易に周囲に認識させることによって、テレビ会議中に周囲の人から話しかけられるのを未然かつ有効に防止でき、これによりテレビ会議を中断させることなく円滑に進行させることができる。
Further, when the
以上の構成によれば、ユーザ7のドキュメント操作に応じてドキュメント画像31及びユーザ7のユーザ映像27を拡大又は縮小するように表示することにより、ユーザ7に余分な操作をさせることなく、ドキュメント操作時等にはドキュメント画像31をメインに捉えさせる一方、その操作を行ったユーザ7のユーザ映像27をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現することができる。
According to the above configuration, the
また、合成映像32内にドキュメント画像31を表示させたときには、ユーザ7がそのドキュメント画像31上でカーソル操作を行っている時間を監視し、かかるカーソル操作を同一のユーザ7が継続して行っているときには、所定時間(例えば1〜2分程度)ごとにドキュメント画像31を段階的に順次拡大するように表示するようになされているため、ユーザ7に余分な操作をさせることなく、ユーザ7がそのドキュメント画像31上でカーソル操作を行っているときには、ドキュメント画像31をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現することができる。
When the
さらに、ユーザ7の発言の有無に応じてユーザ7のユーザ映像27を拡大又は縮小するように表示するようになされているため、ユーザ7に余分な操作をさせることなく、発言を行ったユーザ7のユーザ映像27をメインに捉えさせることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現することができる。
Furthermore, since the user video 27 of the
さらに、いずれかのテレビ会議端末2又はテレビ会議サーバ3において専用スイッチ群53又は56内のいずれかの専用スイッチが押圧操作、又はキーボード55又は58を介して合成映像32上に表示すべき文字列の入力に応じて発言画像(支援マーク画像50又はテキスト画像51)をその操作を行ったユーザ7の近傍に表示するようになされているため、そのとき発言しているユーザの当該発言を妨げることなく、事前にかつさりげなく自己の発言意思や所望する発言内容を他のユーザに伝えることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現することができる。
Furthermore, in any of the
さらに、ユーザ操作に応じて通信可能な状態に接続すると、光源59及び60に対して駆動電圧の供給を開始することによって当該光源59を点灯させる一方、その後ユーザ操作に応じて接続を切断すると、かかる光源59及びへの駆動電圧の供給を停止することによって当該光源59及び60を消灯させるようになされているため、テレビ会議中であることを容易に周囲に認識させることによって、テレビ会議中に周囲の人から話しかけられるのを未然かつ有効に防止でき、これによりテレビ会議を中断させることなく円滑に進行させることができ、かくしてコミュニケーション性が高く、臨場感あふれるテレビ会議システムを実現することができる。
Furthermore, when connected in a communicable state according to a user operation, the light source 59 is turned on by starting the supply of driving voltage to the
(5)他の実施の形態
なお上述の実施の形態においては、テレビ会議サーバ3と、2台のテレビ会議端末2(2A、2B)とからなるテレビ会議システム1について述べたが、本発明はこれに限らず、1又は2以上の複数の端末装置と、情報処理装置とからなるこの他種々のリアルタイムに映像及び音声を送受信するシステムに適用することができる。
(5) Other Embodiments In the above-described embodiment, the
また上述の実施の形態においては、ドキュメント画像31が表示されているときに、ユーザ7の発言の有無に応じてユーザ7のユーザ映像27を拡大又は縮小するように表示する場合について述べたが、本発明はこれに限らず、ドキュメント画像31が表示されていないときにも、上述と同様にユーザ7の発言の有無に応じてユーザ7のユーザ映像27を拡大又は縮小するように表示することができる。
In the above-described embodiment, when the
さらに上述の実施の形態においては、上述のようにテレビ会議端末2及びテレビ会議サーバ3を構成し、処理を行った場合について述べたが、本発明はこれに限らず、例えば、テレビ会議サーバは送信される各種データに対して合成処理及び状況判断制御処理のみを行い、そのデータを送信するようにしても良く、また送信される各種データに対して各テレビ会議端末それぞれにおいて合成処理及び状況判断制御処理を行い、そのデータを送信するようにしても良く、この他種々の構成を広く適用することができる。
Furthermore, in the above-described embodiment, the case where the
さらに上述の実施の形態においては、発言画像生成部は、テレビ会議端末2及びテレビ会議サーバ3それぞれに設けられている場合について述べたが、本発明はこれに限らず、例えばテレビ会議サーバのみに設けられている場合であっても良く、この他種々の構成を広く適用することができる。
Further, in the above-described embodiment, the case where the speech image generation unit is provided in each of the
また上述の実施の形態においては、各カーソル画像29がドキュメント上で1〜2秒以上移動するようなカーソル操作又はユーザの発言が1〜2秒以上検出が行われたときに、ユーザ7のユーザ映像27を拡大又は縮小するように表示する場合について述べたが、本発明はこれに限らず、この他種々の影響を考慮して当該時間よりも長く又は短くするようにしても良い。
Further, in the above-described embodiment, when the cursor operation or the user's utterance in which each cursor image 29 moves on the document for 1 to 2 seconds or more is detected for 1 to 2 seconds or more, the
さらに上述の実施の形態においては、同時にユーザ7のカーソル操作及び又はユーザ7の発言が行われたときには、その操作時間及び又は検出時間に基づいてドキュメント画像31及びユーザ7のユーザ映像27を対応する大きさに拡大又は縮小するように表示した場合について述べたが、本発明はこれに限らず、例えば音量の大きさ、カーソルの動きの大きさ及び又は単位時間内のドキュメント操作や音声検出の数量に基づいてドキュメント画像31及びユーザ映像27を対応する大きさに拡大又は縮小するように表示するようにしても良く、この他種々の判断基準を用いることができる。
Further, in the above-described embodiment, when the user's 7 cursor operation and / or the user's 7 speech are performed at the same time, the
さらに上述の実施の形態においては、いずれかのテレビ会議端末2又はテレビ会議サーバ3において専用スイッチ群53又は56内のいずれかの専用スイッチが押圧操作、又はキーボード55又は58を介して合成映像32上に表示すべき文字列の入力に応じて発言画像(支援マーク画像50又はテキスト画像51)をその操作を行ったユーザ7(7A又は7B)又は24の近傍に表示した場合について述べたが、本発明はこれに限らず、例えば発言画像(支援マーク画像50又はテキスト画像51)をその操作を行ったユーザ7の近傍に表示すると共に、その操作を行ったユーザ7の映像27を中央に大きく表示して優先的に発言をさせるようにしても良い。
Furthermore, in the above-described embodiment, any one of the dedicated switches in the
さらに上述の実施の形態においては、発言しているユーザ7の音声の音量を当該所定時間ごとに段階的に順次上げ、かつこれと同期して他のユーザ7の音声の音量を当該所定時間ごとに段階的に順次下げた場合について述べたが、本発明はこれに限らず、他のユーザ7の音声の音量を当該所定時間ごとに段階的に順次下げるだけにしても良く、要は発言しているユーザについての音量を、他の上記ユーザについての音量に対して相対的に大きくさせるようにすれば良い。
Further, in the above-described embodiment, the volume of the voice of the
本発明は、テレビ会議システム以外の種々の機器においてリアルタイムに映像及び音声を送受信して表示させる場合等にも利用可能である。 The present invention can also be used in the case of transmitting and displaying video and audio in real time on various devices other than the video conference system.
1……テレビ会議システム、2……テレビ会議端末、3……テレビ会議サーバ、4、21……カメラ部、5、22……マイクロホン、6、23……ポインティングデバイス、7……ユーザ、13……状況判断部、19……状況判断制御部、20……映像合成部、27……ユーザ映像、29……カーソル画像、31……ドキュメント画像、32……合成映像、35、46……ディスプレイ、37……音声合成部、49……付加情報管理テーブル、NT……ネットワーク、RT1……ドキュメント操作時等の表示制御処理手順、RT2……音声検出時等の表示及び音量制御処理手順。
DESCRIPTION OF
Claims (15)
上記端末装置は、
ユーザを撮影する撮影手段と、
上記ユーザの音声を集音する集音手段と、
ドキュメントについての所定のドキュメント操作を行うためのドキュメント操作手段と、
上記撮影手段から出力される映像データ及び上記集音手段から出力される音声データを上記ネットワークを介して上記情報処理装置に送信する送信手段と、
上記情報処理装置から上記ネットワークを介して送信される合成映像データに基づく映像を表示する表示手段と
を具え、
上記情報処理装置は、
上記端末装置から上記ネットワークを介して送信される上記映像データに基づく上記ユーザの映像及び必要な上記ドキュメントの画像を合成した合成映像を生成する映像合成手段と、
上記ドキュメント操作手段を用いた上記ドキュメント操作及び又は上記音声データに基づき検出される上記ユーザの発言の有無に基づいて、上記合成映像における上記ドキュメントの画像及び又は対応する上記ユーザの映像を拡大又は縮小させるように上記合成映像手段を制御する制御手段と、
上記映像合成手段により生成された上記合成映像の映像データでなる上記合成映像データを、上記ネットワークを介して上記端末装置に送信する送信手段と
を具えることを特徴とするテレビ会議システム。 In a video conference system including one or more terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network,
The terminal device is
Photographing means for photographing the user;
Sound collecting means for collecting the user's voice;
A document operation means for performing a predetermined document operation on the document;
Transmitting means for transmitting video data output from the photographing means and audio data output from the sound collecting means to the information processing apparatus via the network;
Display means for displaying video based on composite video data transmitted from the information processing apparatus via the network,
The information processing apparatus
Video synthesizing means for generating a synthesized video obtained by synthesizing the video of the user based on the video data transmitted from the terminal device via the network and a necessary image of the document;
Based on the document operation using the document operation means and / or presence / absence of the user's speech detected based on the audio data, the image of the document and / or the corresponding user image in the synthesized video is enlarged or reduced. Control means for controlling the composite video means so as to
A video conferencing system comprising: transmission means for transmitting the composite video data, which is video data of the composite video generated by the video synthesis means, to the terminal device via the network.
各上記端末装置から上記ネットワークを介して送信される上記音声データに基づく音声を合成してなる合成音声を生成する音声合成手段を具え、
上記制御手段は、
上記ユーザの発言時間に応じて、上記合成音声における対応するユーザについての音量を、他の上記ユーザについての音量に対して相対的に大きくさせるように、上記音声合成手段を制御し、
上記送信手段は、
上記音声合成手段により生成された上記合成音声の音声データでなる合成音声データを、上記ネットワークを介して上記端末装置に送信し、
上記端末装置は、
上記情報処理装置から送信される上記合成音声データに基づく上記合成音声を出力する音声出力手段を具える
ことを特徴とする請求項1に記載のテレビ会議システム。 The information processing apparatus
Comprising speech synthesis means for generating synthesized speech formed by synthesizing speech based on the speech data transmitted from each of the terminal devices via the network;
The control means includes
According to the user's speech time, the voice synthesis means is controlled so that the volume for the corresponding user in the synthesized voice is relatively larger than the volume for the other users,
The transmission means is
Transmitting synthesized voice data consisting of voice data of the synthesized voice generated by the voice synthesizing means to the terminal device via the network;
The terminal device is
The video conference system according to claim 1, further comprising audio output means for outputting the synthesized voice based on the synthesized voice data transmitted from the information processing apparatus.
発光する光源と、
当該光源の点滅を制御する点滅制御手段とを具え、
上記点滅制御手段は、
上記情報処理装置と通信可能な状態に接続すると、上記光源を点灯させる一方、当該情報処理装置との接続を切断すると上記光源を消灯させる
ことを特徴とする請求項1に記載のテレビ会議システム。 The terminal device is
A light source that emits light;
A blinking control means for controlling blinking of the light source,
The blinking control means is
The video conference system according to claim 1, wherein when connected to the information processing apparatus, the light source is turned on, and when the connection with the information processing apparatus is disconnected, the light source is turned off.
上記端末装置から上記ネットワークを介して送信される撮影されたユーザの映像データに基づく上記ユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する映像合成手段と、
上記端末装置から上記ネットワークを介して送信される上記ドキュメントについての所定のドキュメント操作及び又は集音された上記ユーザの音声の音声データに基づき検出される上記ユーザの発言の有無に基づいて、上記合成映像における上記ドキュメントの画像及び又は対応する上記ユーザの映像を拡大又は縮小させるように上記合成映像合成手段を制御する制御手段と、
上記映像合成手段により生成された上記合成映像の映像データでなる合成映像データを、上記ネットワークを介して上記端末装置に送信する送信手段と
を具えることを特徴とする情報処理装置。 In one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network,
Video synthesizing means for generating a synthesized video obtained by synthesizing the video of the user and a necessary document image based on the video data of the photographed user transmitted from the terminal device via the network;
The synthesis based on the presence or absence of the user's speech detected based on the predetermined document operation on the document transmitted from the terminal device via the network and / or the voice data of the collected user's voice Control means for controlling the composite video composition means so as to enlarge or reduce the image of the document in the video and / or the corresponding video of the user;
An information processing apparatus comprising: transmission means for transmitting synthesized video data composed of video data of the synthesized video generated by the video synthesizing means to the terminal device via the network.
上記ドキュメントを表示し若しくは変更し又は当該ドキュメントのページを変更する操作であり、
上記制御手段は、
上記ドキュメント操作が行われたときに、上記合成映像における上記ドキュメントの画像及び又は上記ドキュメント操作を行った上記ユーザの映像を拡大させるように、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The above document operation
An operation for displaying or changing the document or changing the page of the document.
The control means includes
The video synthesizing unit is controlled to enlarge the image of the document in the synthesized video and / or the video of the user who performed the document manipulation when the document operation is performed. 5. The information processing apparatus according to 4.
上記ドキュメント操作が所定時間行われないときには、上記ドキュメントの画像及び対応する上記ユーザの映像を所定時間ごとに段階的に縮小させるように、上記映像合成手段を制御する
ことを特徴とする請求項5に記載の情報処理装置。 The control means includes
6. The image synthesizing unit is controlled so that when the document operation is not performed for a predetermined time, the image of the document and the corresponding video of the user are gradually reduced every predetermined time. The information processing apparatus described in 1.
上記合成映像上に表示されるカーソルを上記ドキュメントの画像上において移動させる操作であり、
上記制御手段は、
当該ドキュメント操作の操作時間に応じて、上記合成映像における上記ドキュメントの画像を段階的に拡大させるように、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The above document operation
An operation of moving the cursor displayed on the composite video on the image of the document,
The control means includes
The information processing apparatus according to claim 4, wherein the video composition unit is controlled so as to enlarge the image of the document in the composite video in a stepwise manner according to an operation time of the document operation.
上記ドキュメント操作が所定時間行われないときには、上記ドキュメントの画像及び対応する上記ユーザの映像を所定時間ごとに段階的に縮小させるように、上記映像合成手段を制御する
ことを特徴とする請求項7に記載の情報処理装置。 The control means includes
8. The video synthesizing unit is controlled so that when the document operation is not performed for a predetermined time, the image of the document and the corresponding video of the user are gradually reduced every predetermined time. The information processing apparatus described in 1.
上記ドキュメント操作手段を用いた上記ドキュメント操作及び又は上記音声データに基づき検出される上記ユーザの発言が所定時間以上継続して行われないときには、上記ドキュメント操作及び又は上記ユーザの発言をしてないものとして、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The control means includes
When the document operation using the document operation means and / or the user's speech detected based on the audio data is not performed continuously for a predetermined time or more, the document operation or the user's speech is not performed The information processing apparatus according to claim 4, wherein the image synthesizing unit is controlled.
上記ユーザの発言時間に応じて、上記合成映像における対応する上記ユーザの映像を段階的に拡大させるように、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The control means includes
5. The information processing apparatus according to claim 4, wherein the video synthesizing unit is controlled so as to gradually expand the corresponding video of the user in the synthesized video in accordance with the speech time of the user.
上記制御手段は、
上記ユーザの発言時間に応じて、上記合成音声における対応するユーザについての音量を、他の上記ユーザについての音量に対して相対的に大きくさせるように、上記音声合成手段を制御し、
上記送信手段は、
上記音声合成手段により生成された上記合成音声の音声データでなる合成音声データを、上記ネットワークを介して上記端末装置に送信する
ことを特徴とする請求項4に記載の情報処理装置。 Comprising speech synthesis means for generating synthesized speech formed by synthesizing speech based on the speech data transmitted from each of the terminal devices via the network;
The control means includes
According to the user's speech time, the voice synthesis means is controlled so that the volume for the corresponding user in the synthesized voice is relatively larger than the volume for the other users,
The transmission means is
5. The information processing apparatus according to claim 4, wherein synthesized voice data including voice data of the synthesized voice generated by the voice synthesizer is transmitted to the terminal device via the network.
所定のユーザ操作に応じて、当該ユーザの発言を支援する所定画像を上記合成映像上に表示するように、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The control means includes
The information processing apparatus according to claim 4, wherein the video synthesizing unit is controlled to display a predetermined image supporting the user's speech on the synthesized video in response to a predetermined user operation.
上記ユーザ操作に応じて、当該ユーザが入力した文字列を表すテキスト画像を上記合成映像上に表示するように、上記映像合成手段を制御する
ことを特徴とする請求項4に記載の情報処理装置。 The control means includes
5. The information processing apparatus according to claim 4, wherein the video synthesizing unit is controlled to display a text image representing a character string input by the user on the synthesized video in response to the user operation. .
上記端末装置から上記ネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、
上記端末装置から上記ネットワークを介して送信される上記ドキュメントについての所定のドキュメント操作及び又は集音された上記ユーザの音声の音声データに基づき検出される上記ユーザの発言の有無に基づいて、上記合成映像における上記ドキュメントの画像及び又は対応する上記ユーザの映像を拡大又は縮小させる第2のステップと、
上記合成映像の映像データでなる合成映像データを、上記ネットワークを介して上記端末装置に送信する第3のステップと
を具えることを特徴とする情報処理方法。 In an information processing method in one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network,
A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured video data of the user transmitted from the terminal device via the network;
The synthesis based on the presence or absence of the user's speech detected based on the predetermined document operation on the document transmitted from the terminal device via the network and / or the voice data of the collected user's voice A second step of enlarging or reducing the image of the document in the video and / or the corresponding video of the user;
And a third step of transmitting the composite video data composed of the video data of the composite video to the terminal device via the network.
上記端末装置から上記ネットワークを介して送信される撮影されたユーザの映像データに基づくユーザの映像及び必要なドキュメントの画像を合成した合成映像を生成する第1のステップと、
上記端末装置から上記ネットワークを介して送信される上記ドキュメントについての所定のドキュメント操作及び又は集音された上記ユーザの音声の音声データに基づき検出される上記ユーザの発言の有無に基づいて、上記合成映像における上記ドキュメントの画像及び又は対応する上記ユーザの映像を拡大又は縮小させる第2のステップと、
上記合成映像の映像データでなる合成映像データを、上記ネットワークを介して上記端末装置に送信する第3のステップと
を実行させるためのプログラム。 For one or a plurality of terminal devices installed at different points and an information processing device connected to the terminal device via a predetermined network,
A first step of generating a synthesized video obtained by synthesizing a user's video and a necessary document image based on the captured video data of the user transmitted from the terminal device via the network;
The synthesis based on the presence or absence of the user's speech detected based on a predetermined document operation on the document transmitted from the terminal device via the network and / or voice data of the collected user's voice A second step of enlarging or reducing the image of the document in the video and / or the corresponding video of the user;
A program for executing a third step of transmitting composite video data composed of video data of the composite video to the terminal device via the network.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004146930A JP2005328484A (en) | 2004-05-17 | 2004-05-17 | Video conference system, information processing apparatus, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004146930A JP2005328484A (en) | 2004-05-17 | 2004-05-17 | Video conference system, information processing apparatus, information processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005328484A true JP2005328484A (en) | 2005-11-24 |
Family
ID=35474445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004146930A Pending JP2005328484A (en) | 2004-05-17 | 2004-05-17 | Video conference system, information processing apparatus, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005328484A (en) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007086354A (en) * | 2005-09-21 | 2007-04-05 | Toshiba Corp | Composite picture controller, composite picture control method, and program |
JP2007150920A (en) * | 2005-11-29 | 2007-06-14 | Kyocera Corp | Communication terminal and display method thereof |
JP2007251355A (en) * | 2006-03-14 | 2007-09-27 | Fujifilm Corp | Relaying apparatus for interactive system, interactive system, and interactive method |
JP2010004573A (en) | 2009-10-05 | 2010-01-07 | Kyocera Corp | Communication terminal, and display method thereof |
JP2010213129A (en) * | 2009-03-12 | 2010-09-24 | Brother Ind Ltd | Television conference apparatus, television conference system, television conference control method, and program for television conference apparatus |
JP2010271431A (en) * | 2009-05-20 | 2010-12-02 | Casio Computer Co Ltd | Display system and display device |
JP2012004756A (en) * | 2010-06-15 | 2012-01-05 | Brother Ind Ltd | Terminal device, conference system, and processing program |
JP2012049878A (en) * | 2010-08-27 | 2012-03-08 | Brother Ind Ltd | Communication device, communication control method and communication control program |
JP2012118751A (en) * | 2010-11-30 | 2012-06-21 | Ricoh Co Ltd | External input apparatus, display data creation method and program |
US8487956B2 (en) | 2005-11-29 | 2013-07-16 | Kyocera Corporation | Communication terminal, system and display method to adaptively update a displayed image |
US8510799B2 (en) | 2007-03-16 | 2013-08-13 | Sony Corporation | Communication system, communication system management apparatus, terminal connection control method, and program |
JP2014199651A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2014199652A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2014199649A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2017523632A (en) * | 2014-05-21 | 2017-08-17 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Method, apparatus and system for visual presentation |
JP2018517196A (en) * | 2015-05-22 | 2018-06-28 | グーグル エルエルシー | Priority display of visual content in computer presentations |
US10044977B2 (en) | 2016-01-06 | 2018-08-07 | Samsung Electronics Co., Ltd. | Display apparatus and control methods thereof |
JP2018533264A (en) * | 2015-09-02 | 2018-11-08 | ハドル・ルーム・テクノロジー・エッセ・エッレ・エッレ | Equipment for video communication |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06141310A (en) * | 1992-10-23 | 1994-05-20 | Arumetsukusu:Kk | Video conference telephone system |
JPH06282405A (en) * | 1993-03-29 | 1994-10-07 | Nippon Telegr & Teleph Corp <Ntt> | Attendant video display window control system |
JPH07336660A (en) * | 1994-06-14 | 1995-12-22 | Matsushita Electric Ind Co Ltd | Video conference system |
JP2000259535A (en) * | 1999-03-08 | 2000-09-22 | Fuji Xerox Co Ltd | Window display controller |
JP2003323387A (en) * | 2002-05-02 | 2003-11-14 | Megafusion Corp | Information interchange system and information interchange program |
-
2004
- 2004-05-17 JP JP2004146930A patent/JP2005328484A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06141310A (en) * | 1992-10-23 | 1994-05-20 | Arumetsukusu:Kk | Video conference telephone system |
JPH06282405A (en) * | 1993-03-29 | 1994-10-07 | Nippon Telegr & Teleph Corp <Ntt> | Attendant video display window control system |
JPH07336660A (en) * | 1994-06-14 | 1995-12-22 | Matsushita Electric Ind Co Ltd | Video conference system |
JP2000259535A (en) * | 1999-03-08 | 2000-09-22 | Fuji Xerox Co Ltd | Window display controller |
JP2003323387A (en) * | 2002-05-02 | 2003-11-14 | Megafusion Corp | Information interchange system and information interchange program |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4695474B2 (en) * | 2005-09-21 | 2011-06-08 | 株式会社東芝 | Composite video control apparatus, composite video control method, and program |
JP2007086354A (en) * | 2005-09-21 | 2007-04-05 | Toshiba Corp | Composite picture controller, composite picture control method, and program |
US7974494B2 (en) | 2005-09-21 | 2011-07-05 | Kabushiki Kaisha Toshiba | Image control from composed composite image using HID signal conversion to source image coordinates |
JP2007150920A (en) * | 2005-11-29 | 2007-06-14 | Kyocera Corp | Communication terminal and display method thereof |
US8487956B2 (en) | 2005-11-29 | 2013-07-16 | Kyocera Corporation | Communication terminal, system and display method to adaptively update a displayed image |
JP2007251355A (en) * | 2006-03-14 | 2007-09-27 | Fujifilm Corp | Relaying apparatus for interactive system, interactive system, and interactive method |
US8510799B2 (en) | 2007-03-16 | 2013-08-13 | Sony Corporation | Communication system, communication system management apparatus, terminal connection control method, and program |
JP2010213129A (en) * | 2009-03-12 | 2010-09-24 | Brother Ind Ltd | Television conference apparatus, television conference system, television conference control method, and program for television conference apparatus |
JP2010271431A (en) * | 2009-05-20 | 2010-12-02 | Casio Computer Co Ltd | Display system and display device |
JP2010004573A (en) | 2009-10-05 | 2010-01-07 | Kyocera Corp | Communication terminal, and display method thereof |
JP2012004756A (en) * | 2010-06-15 | 2012-01-05 | Brother Ind Ltd | Terminal device, conference system, and processing program |
JP2012049878A (en) * | 2010-08-27 | 2012-03-08 | Brother Ind Ltd | Communication device, communication control method and communication control program |
JP2012118751A (en) * | 2010-11-30 | 2012-06-21 | Ricoh Co Ltd | External input apparatus, display data creation method and program |
JP2014199649A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2014199652A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2014199651A (en) * | 2013-03-15 | 2014-10-23 | 株式会社リコー | Distribution control system, distribution system, distribution control method, and program |
JP2017523632A (en) * | 2014-05-21 | 2017-08-17 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Method, apparatus and system for visual presentation |
JP2018517196A (en) * | 2015-05-22 | 2018-06-28 | グーグル エルエルシー | Priority display of visual content in computer presentations |
JP2018533264A (en) * | 2015-09-02 | 2018-11-08 | ハドル・ルーム・テクノロジー・エッセ・エッレ・エッレ | Equipment for video communication |
US11115626B2 (en) | 2015-09-02 | 2021-09-07 | Huddle Toom Technology S.R.L. | Apparatus for video communication |
US10044977B2 (en) | 2016-01-06 | 2018-08-07 | Samsung Electronics Co., Ltd. | Display apparatus and control methods thereof |
US10511804B2 (en) | 2016-01-06 | 2019-12-17 | Samsung Electronics Co., Ltd. | Display apparatus and control methods thereof |
US10887546B2 (en) | 2016-01-06 | 2021-01-05 | Samsung Electronics Co., Ltd. | Display apparatus and control methods thereof |
US11323658B2 (en) | 2016-01-06 | 2022-05-03 | Samsung Electronics Co., Ltd. | Display apparatus and control methods thereof |
KR20230006421A (en) * | 2016-01-06 | 2023-01-10 | 삼성전자주식회사 | Display apparatus and control methods thereof |
KR102595795B1 (en) | 2016-01-06 | 2023-10-30 | 삼성전자주식회사 | Display apparatus and control methods thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005328484A (en) | Video conference system, information processing apparatus, information processing method and program | |
JP6460228B2 (en) | Information processing apparatus, information processing method, and information processing program | |
KR101141478B1 (en) | Graphical user interface apparatus and connection method in two-way communication system | |
US8487956B2 (en) | Communication terminal, system and display method to adaptively update a displayed image | |
US20080062252A1 (en) | Apparatus and method for video mixing and computer readable medium | |
US7508413B2 (en) | Video conference data transmission device and data transmission method adapted for small display of mobile terminals | |
JP6179834B1 (en) | Video conferencing equipment | |
JP4241053B2 (en) | Communication system and terminal device thereof | |
US20120016960A1 (en) | Managing shared content in virtual collaboration systems | |
JP2002007294A (en) | System and method for image distribution, and storage medium | |
JPH09247637A (en) | Video audio communication system, video communication system and transmission and reception terminals | |
JP2007116683A (en) | Telecommunication system | |
CN109753259B (en) | Screen projection system and control method | |
JP2000184346A (en) | Information terminal device, information communication system and display state control method | |
JP4345353B2 (en) | Communication terminal device | |
JP2009065696A (en) | Device, method and program for synthesizing video image | |
JP4973908B2 (en) | Communication terminal and display method thereof | |
US20070120949A1 (en) | Video, sound, and voice over IP integration system | |
JP2006014119A (en) | Photography image transceiver system | |
JP4649640B2 (en) | Image processing method, image processing apparatus, and content creation system | |
JP2001268078A (en) | Communication controller, its method, providing medium and communication equipment | |
JP2017103641A (en) | Information processing apparatus, conference system, information processing method and program | |
JP2019176386A (en) | Communication terminals and conference system | |
JPH1023383A (en) | Video conference system | |
JPH099220A (en) | Communication equipment and communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100430 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100527 |