JP2000217091A - Video conference system - Google Patents

Video conference system

Info

Publication number
JP2000217091A
JP2000217091A JP11012046A JP1204699A JP2000217091A JP 2000217091 A JP2000217091 A JP 2000217091A JP 11012046 A JP11012046 A JP 11012046A JP 1204699 A JP1204699 A JP 1204699A JP 2000217091 A JP2000217091 A JP 2000217091A
Authority
JP
Japan
Prior art keywords
plurality
terminal
video
conference
conference participants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11012046A
Other languages
Japanese (ja)
Inventor
Takanori Ikegami
貴則 池上
Original Assignee
Toshiba Corp
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, 株式会社東芝 filed Critical Toshiba Corp
Priority to JP11012046A priority Critical patent/JP2000217091A/en
Publication of JP2000217091A publication Critical patent/JP2000217091A/en
Application status is Withdrawn legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To provide a video conference system by which progress of a more natural and smoother video conference can be realized. SOLUTION: In this video conference system, video images of conference participants of other terminals are side by side displayed on a long sideways screen of a video output device 17, a plurality of video cameras 11a-11z are respectively placed above the video images of the respective participants displayed on the long sideways screen. Non-verbal interpretation processing is applied to the motion of each conference participant on the basis of a plurality of video information sets obtained by photographing a talker in different directions by using the video cameras 11a-11z so as to specify a person to which the talker speaks thereby attaining control such as automatic transfer of a right to speak from the talker. Thus, the progress of the video conference can be realized more naturally and smoothly.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、テレビ会議システムに関する。 The present invention relates to relates to a video conferencing system.

【0002】 [0002]

【従来の技術】近年、遠隔地に点在する、例えば事業所や支店などの拠点にそれぞれ設置された各端末を通信網を介して接続し各拠点の会議参加者が各拠点に居ながらにしてデータ通信によりテレビ会議を行うテレビ会議システムが実現されている。 In recent years, scattered in remote locations, for example, conference participants at each site to connect each terminal installed each to base, such as offices and branch offices via a communication network without leaving each site west TV conference system to perform a TV conference is realized by the data communication Te.

【0003】従来のテレビ会議システムの各拠点に設置された端末の一例としては、図5に示すように、他の拠点に設置された他の端末からの会議参加者の映像を、画面を4分割するなどして表示するモニタ51と、このモニタ51の上に設置され、モニタ51の画面を見て会話する自端末の会議参加者を撮影する1台のカメラ52とを有するものがある。 [0003] As an example of the installed terminal to each base of a conventional television conference system, as shown in FIG. 5, the video of the conference participants from the other terminal installed in other locations, the screen 4 a monitor 51 for displaying, for example, by dividing, is placed on top of the monitor 51, those having a single camera 52 for photographing a conference participant of the terminal that conversation looking at the screen of the monitor 51.

【0004】この種のテレビ会議システムは、一般的なパーソナルコンピュータ(以下パソコンと称す)と同等のハードウェアを利用していることから、モニタ51としては、対角寸法が例えば15インチから19インチ程度の画面のものを利用しており、このため、会議を自分を含めて5人程度で行う場合、モニタ51の画面には、 [0004] This kind of video conference system, since it utilizes the same hardware as general personal computer (hereinafter referred to as PC), a monitor 51 19 inches diagonal dimension of, for example, 15 inches the degree of utilizes what screen, Therefore, when performing in five about including yourself meeting, on the screen of the monitor 51,
他の会議参加者の映像が上下左右に1コマずつ4分割表示される。 The video of the other conference participants are divided into four display frame by frame up, down, left and right.

【0005】この場合、モニタ51の画面を見る自端末の会議参加者の視点は、常にモニタ51の画面の範囲、 [0005] In this case, the screen point of view of the conference participants of the terminal to see the monitor 51 is always in the range of the screen of the monitor 51,
つまり1点に拘束される。 That is constrained to a single point.

【0006】 [0006]

【発明が解決しようとする課題】しかしながら、これでは、会議の進行において重要な会話相手に対する非言語コミュニケーション、例えば視線の移動、瞳孔の大きさの変化、表情の変化、身振りおよび手振りの変化などが阻害され、多人数での会議では特に対話が不自然となる問題があった。 [SUMMARY OF THE INVENTION However, this is non-verbal communication to important conversation partner in the progression of the conference, for example, eye movement, the change in the size of the pupil, a change in facial expression, and changes in the gesture and hand gesture is inhibited, there has been a problem, especially dialogue becomes unnatural at the meeting in multiplayer.

【0007】本発明はこのような課題を解決するためになされたもので、話者が行う対話動作、例えば視線の移動、瞳孔の大きさの変化、表情の変化、身振りの変化、 [0007] The present invention has been made in order to solve such problems, interaction the speaker performed, for example, eye movement, the change in the size of the pupil, a change in facial expression, gestures change,
手振りなどの非言語コミュニケーションを考慮することでテレビ会議を、より自然な形で円滑に進行させることのできるテレビ会議システムを提供することを特徴としている。 Gesture videoconferencing by considering the non-verbal communication, such as is characterized by providing a video conference system that can smoothly proceed in a more natural way.

【0008】 [0008]

【課題を解決するための手段】上記した目的を達成するために、請求項1記載のテレビ会議システムは、自端末とこれとは異なる地点に配置された他の複数の端末とを通信網を介して接続してなるテレビ会議システムにおいて、前記各端末は、前記他端末から送られてきた複数の会議参加者の映像を、少なくとも自端末の会議参加者がいずれか一つに向かい発言する際に他とは対話動作を変える程度に並べて表示する表示手段と、前記表示手段により表示された個々の会議参加者の映像位置あるいは各映像近傍の位置にそれぞれ配置され、前記自端末の会議参加者を撮影する複数の撮影手段とを備え、前記各端末あるいは前記通信網上の処理装置は、前記複数の撮影手段によってそれぞれ撮影された複数の映像情報を基に、 To achieve the above object SUMMARY OF THE INVENTION The television conference system according to claim 1, wherein the self terminal and communication network and another plurality of terminals arranged in different points from this in video conferencing system formed by connecting through, the respective terminal, a plurality of images of conference participants sent from the other terminal, at least when the own terminal of the conference participants to speak toward any one display means for the other displayed side by side to the extent of changing the interaction to, respectively arranged at the position of the image position or the image near each individual conference participant displayed by the display means, the own terminal conferees and a plurality of photographing means for photographing, said processing apparatus on the terminal or the communication network, based on a plurality of video information captured respectively by the plurality of imaging means,
非言語解釈処理を行い、前記話者が前記複数の会議参加者の中から1人を選んで発言する動作を識別する非言語解釈処理手段を具備したことを特徴としている。 Performs a non-language interpretation process, the speaker is characterized in that it is provided with a non-language interpretation processing means for identifying an operation to speak to choose one person from among the plurality of conference participants.

【0009】請求項2記載のテレビ会議システムは、自端末とこれとは異なる地点に配置された他の複数の端末とを通信網を介して接続してなるテレビ会議システムにおいて、前記各端末は、前記他端末から送られてきた複数の会議参加者の映像を、少なくとも自端末の会議参加者がいずれか一つに向かい発言する際に他とは対話動作を変える程度に並べて表示する表示手段と、前記表示手段により表示された個々の会議参加者の映像位置あるいは各映像近傍の位置にそれぞれ配置され、前記自端末の会議参加者を撮影する複数の撮影手段とを備え、前記各端末あるいは前記通信網上の処理装置は、前記複数の撮影手段によってそれぞれ撮影された複数の映像情報を基に、非言語解釈処理を行い、前記話者が前記複数の会議参加者の中から1 [0009] videoconferencing system of claim 2, in its own terminal and this becomes connected through the communication network and another plurality of terminals arranged in different points in the video conference system, each terminal , said plurality of conference participants of the video sent from the other terminal, at least the display means is self terminal of the conference participants and others when speaking toward any one displayed side by side to the extent that changing interactions When, it is arranged on the position of the image position or the image near each individual conference participant displayed by the display means, and a plurality of photographing means for photographing the conference participants of the own terminal, each terminal or said processing apparatus on the communication network, based on a plurality of video information captured respectively by the plurality of imaging means performs a non-language interpretation process, the speaker from the plurality of conference participants 1 を選んで発言する動作を識別する非言語解釈処理手段と、前記非言語解釈処理手段による非言語解釈処理結果、識別された1人の会議参加者の端末に対して発言権を委譲するための切り替え制御を行う制御手段とを具備したことを特徴としている。 And a non-language interpretation processing means for identifying the operation to speak choose, the non-language interpretation result of processing by the non-language interpretation processing means for delegating the right to speak for the identified one terminal of the conference participants were It is characterized by comprising a control means for switching control.

【0010】請求項3記載のテレビ会議システムは、請求項1あるいは請求項2いずれか記載のテレビ会議システムにおいて、前記表示手段は、前記複数の会議参加者の映像を横方向に順に並べて表示する画面を有している。 [0010] videoconferencing system according to claim 3, in claim 1 or claim 2 videoconferencing system according to any one, the display means displays an image of the plurality of conference participants are arranged laterally in the order It has a screen.

【0011】請求項1記載の発明では、他端末から送られてきた複数の会議参加者の映像を、少なくとも自端末の会議参加者がいずれか一つに向かい発言する際に他とは対話動作を変える程度に並べて表示する表示手段と、 [0011] In the first aspect of the present invention, interaction is an image of a plurality of conference participants sent from another terminal, the other when at least the own terminal of the conference participants to speak toward any one and display means for displaying side-by-side to the extent that change the,
この表示手段により表示された個々の会議参加者の映像位置あるいは各映像近傍の位置にそれぞれ配置され、自端末の会議参加者を撮影する複数の撮影手段とを備えたことで、各端末あるいは通信網上の処理装置は、複数の撮影手段によってそれぞれ撮影された複数の映像情報を基に、非言語解釈処理を行い、話者が複数の会議参加者の中から1人を選んで発言する動作を識別するので、話者がどの会議参加者に対して発言しているかが解り、より円滑な会議運営に向けたさまざまな制御を行うことができる。 The display means is disposed at a position of the image position or the image near each individual conference participant displayed by, that includes a plurality of photographing means for photographing a conference participant of the terminal itself, the terminal or the communication processing devices on the network, based on the plurality of video information captured respectively by the plurality of imaging means, performs a non-language interpretation process, the operation of the speaker is to speak to choose one person from among a plurality of conference participants because to identify, it is possible to know whether you are speaking to any conference participants speaker, perform a variety of control towards a more smooth meeting management.

【0012】請求項2記載の発明では、請求項1記載の発明に加え、話者が複数の会議参加者の中から選んで発言した1人の映像を識別し、その人に自動的に発言権を委譲する制御を行うので、非言語コミュニケーションの自由度が広がり話者は自然に発言することができる。 [0012] In the second aspect of the present invention, in addition to the first aspect of the invention, to identify the one of the image that the speaker has to speak to choose from among a plurality of conference participants, automatically speak to the people since the control is performed to transfer the rights, freedom spread speaker of non-verbal communication can be to speak naturally.

【0013】請求項3記載の発明では、複数の会議参加者の映像を横方向に順に並べて表示する画面を有する表示手段としたことで、少なくとも話者は対話相手に対して視線を向けるような動作の変化を起こすようになり非言語コミュニケーションを取り入れた会議を行うことができる。 [0013] In the present invention of claim 3, wherein, by the display means having a screen for displaying ordered images of a plurality of conference participants in the transverse direction, such as at least speakers direct line of sight to the conversation partner it is possible to perform now so as to cause a change in the operation of incorporating non-verbal communication conference.

【0014】すなわち、この発明では、他の端末の会議参加者の映像を横に並べて表示するとともに、それぞれの会議参加者の映像の位置に複数の撮影手段を設置して、それぞれの撮影手段で異なる方向から話者を撮影し各撮影手段から得た複数の映像情報それぞれについて話者の動作を非言語解釈処理し、話者が対話した人を特定することで、例えば話者から発言権を自動的に対話者に委譲するなどの制御を行えるので、より自然で円滑なテレビ会議の進行を実現することができる。 [0014] That is, in this invention, displays side by side images of conference participants other terminals laterally, by installing a plurality of photographing means to a position of the image of each of the conference participants, each of the imaging means taken speaker from different directions and the non-language interpretation processing operation of the speaker for each of the plurality of image information obtained from the imaging means, by identifying the person who dialogue speaker, for example, the floor from the speaker since can be performed automatically control, such as delegated to the interlocutor, it is possible to realize the progress of the more natural and smooth video conferencing.

【0015】 [0015]

【発明の実施の形態】以下、本発明の実施の形態を図面を参照して詳細に説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, detailed description of the embodiments of the present invention with reference to the drawings. 図1は本発明に係るテレビ会議システムの一つの実施形態を示す図である。 Figure 1 is a diagram showing one embodiment of a videoconferencing system according to the present invention.

【0016】同図に示すように、このテレビ会議システムは、各地に分散して点在する複数の拠点に配置されたテレビ会議用の端末1a〜1zと、これらの端末1a〜 [0016] As shown in the figure, the video conference system includes a terminal 1a~1z for videoconferencing arranged in a plurality of locations scattered in geographically dispersed, these terminals 1a~
1zを通信網2を介して接続する中央処理装置(MC A central processing unit connected through the communication network 2 to 1z (MC
U)3とでシステムが構成されている。 System and U) 3 is formed. 中央処理装置(MCU)3は、各拠点のテレビ会議用の端末1a〜1 A central processing unit (MCU) 3, the terminal for TV conferences each location 1a~1
zから送信されてきた映像データなどを指定された拠点に送信、および各拠点からの制御データに基づく処理を実行するなど、会議全体を制御する。 Such as sending to the specified base image data transmitted from z, and the like to execute a process based on the control data from each site, and controls the entire conference. 各拠点のテレビ会議用の端末1a〜1zと中央処理装置(MCU)3とは中央処理装置(MCU)3を中心として通信網2にて例えばスター型などに結線されている。 The terminal 1a~1z and a central processing unit (MCU) 3 for videoconferencing of each site are connected at the communication network 2, for example, in such a star around a central processing unit (MCU) 3.

【0017】テレビ会議用の各端末1a〜1zは、図2 [0017] Each terminal 1a~1z for video conferencing, as shown in FIG. 2
に示すように、複数のビデオカメラ11a〜11zと、 As shown in, a plurality of video cameras 11A~11z,
これらのビデオカメラ11a〜11zにより撮影された映像情報が入力され、この入力された映像情報に対して非言語解釈処理を行い話者が複数の会議参加者の中から1人を選んで発言した動作から対話相手の映像を識別する映像入力処理装置12と、マイク13を接続した音声入力処理装置14と、各データを多重し送信する送信処理装置15と、各データを受信および分離する受信処理装置16と、横方向に長い画面(横長画面)を有する大画面の液晶プロジェクタなどの映像出力装置17を接続した映像出力処理装置18と、スピーカー19を接続した音声出力処理装置20と、端末全体を制御する制御装置21とから構成されている。 The video information captured by these video camera 11a~11z is input, the speaker performs a non-language interpretation process has been speaking to choose one person from among a plurality of conference participants with respect to the input video information a video input processor 12 identifies a video conversation partner from operation, a voice input processor 14 connected to a microphone 13, a transmission processor 15 for multiplexing and transmitting each data reception process for receiving and separating each data a device 16, a video output processing unit 18 connected to the video output device 17 such as a large-screen liquid crystal projector having a laterally long screen (widescreen), an audio output processing device 20 connected to the speaker 19, the entire terminal and a control unit 21 which controls. ビデオカメラ11a〜1 Video camera 11a~1
1zは、その拠点における会議参加者の映像信号を映像入力処理装置12に出力する。 1z outputs the video signal of the conference participants at that site in the image input processing unit 12. 映像入力処理装置12 The video input processing device 12
は、ビデオカメラ11a〜11zから入力された各映像入力信号の非言語解釈処理、圧縮符号化処理、配信先の付加処理等を行うものであり構成の説明については後述する。 The non language interpretation process of the image input signal input from the video camera 11A~11z, compression coding processing, which performs delivery destination adding process such as described below for a description of the configuration. マイク13からの音声信号は、音声入力処理装置14に出力される。 Audio signal from the microphone 13 is outputted to the audio input processor 14. 音声入力処理装置14は、圧縮符号化処理等を行う。 Speech input processing unit 14 performs compression encoding processing. 送信処理装置15は、映像入力処理装置12、音声入力処理装置14、および制御装置21からの信号を多重化し送信する。 Transmission processing apparatus 15, the image input processing unit 12, and transmits multiplexed signal from the voice inputting unit 14, and a control device 21. 受信処理装置16は、多重化された映像・音声・制御信号を受信すると共に、これらの信号の分離処理を行い、映像出力処理装置18、 Reception processing apparatus 16 is configured to receive video, audio and control signals are multiplexed, performs separation processing of these signals, the image output processing unit 18,
音声出力処理装置20および制御装置21に伝達する。 And it transmits to the audio output processing device 20 and controller 21.
映像出力処理装置18は、圧縮されたデータを復号化し、他の各拠点の映像を映像出力装置17上に再構築する。 Video output processing unit 18 decodes the compressed data, to reconstruct the other images of each site on the video output device 17. スピーカー19は音声を発生するものである。 Speaker 19 is intended to generate a voice. 音声出力処理装置20は、圧縮データを復号化し、スピーカー9に出力する。 Audio output processing unit 20 decodes the compressed data, and outputs to the speaker 9. 制御装置21は拠点全体を制御するものである。 Controller 21 controls the entire base.

【0018】上記映像入力処理装置12は、図3に示すように、アナログ・デジタル・コンバータ(以下ADC [0018] The image input processing unit 12, as shown in FIG. 3, the analog-to-digital converter (hereinafter ADC
と称す)24a〜24z、映像圧縮符号化処理部25a And referred) 24a~24z, video compression encoding processing unit 25a
〜25z、非言語解釈処理部26a〜26zなどを有している。 ~25Z, and a like non-language interpretation unit 26A~26z.

【0019】ADC24a〜24zは、ビデオカメラ1 [0019] ADC24a~24z is, the video camera 1
1a 〜11zから入力された映像信号(アナログ信号) 1a ~11Z inputted from video signal (analog signal)
をデジタル信号に変換するものである。 The and converts it into a digital signal. 映像圧縮符号化処理部25a〜25zは、動画映像データを圧縮符号化するエンコーダである。 Video compression coding processing unit 25a~25z is an encoder for compressing and encoding video image data. 非言語解釈処理部26a〜26 Non-language interpretation processing unit 26a~26
zは、ADC24a〜24zからの映像入力に対し、視線の動き、瞳孔の大きさ、表情、身振り、手振りなどから非言語的解釈処理を行い、その結果を制御装置21に伝達するものである。 z, compared video input from ADC24a~24z, gaze movement, pupil size, perform facial expression, gesture, nonverbal interpretation process and the like hand waving, is to transmit the result to the controller 21. 制御装置21は、非言語解釈処理部26a〜26zからの情報(非言語解釈データ)を送信処理装置15に送り、送信処理装置15はその非言語解釈データを中央処理装置(MCU)3に送信する。 The controller 21 sends information from the non-language interpretation unit 26a~26z (non language interpretation data) to the transmission processing apparatus 15, the transmission processing unit 15 transmits the non-language interpretation data to a central processing unit (MCU) 3 to. 中央処理装置(MCU)3は、各拠点の端末から送信されてきた非言語解釈データに基づいて、視線の動きなどによる発言権の移譲制御、つまり会議の話者切り替え制御やコミュニケーションの促進制御を行う。 Central processing unit (MCU) 3, based on the non-language interpretation data that has been transmitted from the terminal of each site, transfer control, such as by speaking rights movement of the line-of-sight, that is, the speaker switching control and communication facilitate control of the meeting do. この他、例えば、異文化間の非言語コミュニケーションの翻訳などを行うようにしても良い。 In addition, for example, it may be performed, such as non-verbal communication of the translation between the different cultures.

【0020】上記テレビ会議用の各端末1a〜1zに備えられている映像出力装置17は、図4に示すように、 [0020] The video conference video output device is provided to each terminal 1a~1z for 17, as shown in FIG. 4,
自端末以外の端末から送られてきた複数の会議参加者の映像、例えば4人分の映像の場合、横長画面40の横方向に複数区分された各領域41a〜41dに表示するものである。 Multiple conference participants of the video sent from a terminal other than the own terminal, for example, in the case of four of the video, is to displayed in the areas 41a~41d that is more segmented laterally oblong screen 40. 各領域41a〜41dの上方の映像出力装置17上面には、各領域41a〜41dに表示されている各会議参加者へ送る自端末の会議参加者の上半身部分を撮影する複数のビデオカメラ11a〜11dが個々の会議参加者映像の位置と接近して配設されている。 Above the video output device 17 the upper surface of each area 41 a to 41 d, a plurality of video cameras 11a~ for photographing the upper body portion of the conference participants of the terminal to be sent to each of the conference participants are displayed in the areas 41 a to 41 d 11d are disposed close to the position of the individual conference participant video.

【0021】次に、このテレビ会議システムの具体的な動作を説明する。 [0021] Next, a specific operation of the TV conference system. このテレビ会議システムにおいて、例えば自端末の会議参加者と他の複数の端末の4人の会議参加者との間でテレビ会議を行っており、自端末の会議参加者が話者としての発言権があるときに、話者が、例えば図4の横長画面40に向かって右隅の人、つまり領域41dに表示されている会議参加者に対して発言を行った場合、話者の視線は領域41dの方向に向けられるため、ビデオカメラ11dによって撮影された話者の映像は、話者の正面の顔の映像であり、特に話者の目が向いている方向、つまり視線は正面に向けられている。 In this TV conference system, for example self-terminal of the conference participants and has carried out a TV conference between the four conference participants of a plurality of other terminals, conference participants of the terminal itself is right to speak of as speaker when there is, if the speaker was carried out, for example, the right corner of the person in the landscape screen 40 of FIG. 4, in other words to speak to the conference participants, which is displayed in the area 41d, the line of sight of the speaker area in order to be directed in the direction of the 41d, the video of the speaker that has been captured by the video camera 11d is an image of the face of the front of the speaker, the direction in which especially facing the eyes of the speaker, in other words the line of sight is directed to the front ing.

【0022】このとき、同時に他のビデオカメラ11a [0022] In this case, at the same time other video camera 11a
〜11cにより撮影された映像は、いずれも話者の正面以外の顔、つまり横顔あるいは斜め横顔の映像となる。 Video taken by ~11c are both face other than the front of the speaker, that is, the profile or the diagonal profile of the video.

【0023】これらの映像情報は、映像信号(アナログ信号)の形でADC24a〜24zに入力されてデジタル信号に変換され、それぞれの映像圧縮符号化処理部2 [0023] These video information is inputted to ADC24a~24z in the form of a video signal (analog signal) is converted into a digital signal, each of the video compression coding processing unit 2
5a〜25zおよび非言語解釈処理部26a〜26zに分岐して出力される。 Output branches into 5a~25z and nonverbal interpreting processing unit 26A~26z.

【0024】映像圧縮符号化処理部25a〜25zでは、入力されたデジタル信号が、MPEG1、MPEG [0024] In the video compression coding processing unit 25A~25z, digital signal input, MPEG1, MPEG
2あるいはH. 2 or H. 261などの動画映像データに圧縮符号化されて送信処理装置15へ出力される。 261 is compressed and encoded video image data such as to be output to the transmission processing apparatus 15.

【0025】また、非言語解釈処理部26a〜26zでは、ADC24a〜24zからの映像情報の入力に対して、視線の動き、瞳孔の大きさの変化、表情の変化、身振り、手振りの変化などから非言語的解釈処理を行い、 Further, in the non-language interpretation processing unit 26A~26z, with respect to the input video information from ADC24a~24z, gaze movements, changes in pupil size, change in facial expression, gestures, etc. changes in gestures It performs a non-verbal interpretation processing,
複数のビデオカメラ11a〜11dから得られた映像中でどのビデオカメラに対して話者が話しかけているかを解釈する。 To interpret what the speaker is talking to any video camera in the video obtained from a plurality of video cameras 11a~11d.

【0026】この場合、非言語解釈処理部26dには、 [0026] In this case, the non-language interpretation processing unit 26d is,
話者から視線が向けられているビデオカメラ11dの映像として、話者の正面の顔の映像が入力され、非言語解釈処理部26bには、ビデオカメラ11bからの映像として、話者の横顔の映像が入力され、非言語解釈処理部26cには、ビデオカメラ11cからの映像として、話者の斜め横顔の映像が入力される。 As the image of the video camera 11d which has been directed line of sight from the speaker, is input image of the face of the front of the speaker, in the non-language interpretation processing unit 26b, as an image from the video camera 11b, the speaker profile of image is input to the non-language interpreting processing unit 26c, as an image from the video camera 11c, the image of the oblique profile of the speaker is inputted.

【0027】これらの映像から、それぞれの顔の向き情報などがそれぞれの解釈結果として制御装置21へ出力される。 [0027] From these images, such as orientation information of each face is outputted to the controller 21 as each interpretation results.

【0028】制御装置21では、これらの解釈結果から、ビデオカメラ11dが設置されている領域41dに映されている会議参加者が現在の話者との対話者であることが判別される。 [0028] In the controller 21, these interpretations result, the conference participant who is mirrored in a region 41d where the video camera 11d is installed is interlocutor of the current speaker is determined. この判別結果は、対話者の映像番号などが非言語解釈結果のデータとして送信処理装置15 The result of this determination, the transmission processing apparatus such as a video ID interlocutor as the data of the non language interpretation result 15
に送られる。 It is sent to.

【0029】送信処理装置15は、入力された動画映像データと共にその非言語解釈結果のデータを中央処理装置(MCU)3に送信する。 The transmission processing apparatus 15 transmits the non-language interpretation result data to a central processing unit (MCU) 3 together with the input moving image data.

【0030】中央処理装置(MCU)3は、各拠点の端末から送信されてきた非言語解釈結果のデータに基づいて、発言権の移譲制御、つまり会議の話者切り替え制御を行い、これにより領域41dに映されている会議参加者が発言を許され、発言を行えるようになる。 The central processing unit (MCU) 3, based on the non-language interpretation result of data transmitted from a terminal of each site, transfer control of the floor, i.e. perform speaker switching control of the conference, thereby region conference participants are projected to 41d are allowed to speak, and to allow to speak. また対話者に対して「発言をして下さい」などの提示を行うコミュニケーションの促進制御を行っても良い。 In addition it may be carried out to promote control of communication to perform the presentation, such as "please speak" to the interlocutor.

【0031】このように端末の前の発言者が実際の会議のように画面に表示されている会議参加者へ視線を動かしたり、顔の向きを変えることで、対話を希望する人を選べるので、非言語コミュニケーションの自由度が広がり自然に発言することができる。 [0031] In this way, move the line of sight to the conference participants, which is displayed on the screen as in the previous speaker the actual meeting of the terminal, by changing the orientation of the face, because the choice of the person you wish to dialogue , it is possible that the degree of freedom of the non-verbal communication to speak naturally spread.

【0032】このようにこの実施の形態のテレビ会議システムによれば、他の端末の会議参加者の映像を横長のモニタに横に並べて表示するとともに、それぞれの会議参加者の映像の位置に複数のビデオカメラ11a〜11 The plurality Thus, according to the television conference system of this embodiment, the video conference participant other terminals and displays side by side in landscape monitor, the position of the image of each of the conference participants of the video camera 11a~11
zを設置することでそれぞれの方向から話者を撮影して各ビデオカメラ11a〜11zから得た複数の映像情報それぞれについて話者の動作を非言語解釈処理してシステム側で対話相手を特定するので、より自然で円滑なテレビ会議の進行を実現することができる。 Identifying a dialogue partner operation of the speaker in a non-language interpretation process to the system side for each of the plurality of image information obtained from the video cameras 11a~11z by photographing the speaker from each direction by installing the z so, it is possible to realize the progress of the more natural and smooth video conferencing.

【0033】なお、本発明は上記実施形態のみに限定されるものではない。 [0033] The present invention is not limited to the above embodiment. 上記実施形態では、会議参加者の映像に応じた数だけビデオカメラを配置したが、自端末の会議参加者以外に他の端末の会議参加者が2人のみの場合、他の端末の会議参加者のそれぞれの映像を所定間隔を隔てて配置した異なる2台のモニタに表示させ、2台のモニタの間に1台のカメラを配置するだけでも、いずれかの映像の方向に向いて発言する話者の動作を識別するのに十分な映像情報を得ることができる。 In the above embodiment, the arrangement of a video camera number corresponding to the video of the conference participants, if the meeting participants other terminals in addition to the conference participants of the terminal is only two, conference participation of other terminals 's to display the respective images on two monitors different arranged at a predetermined distance, even by simply placing one camera between two monitors, to speak towards the direction of one of the video it is possible to obtain a sufficient image information to identify the operation of the speaker.

【0034】また、上記実施形態では、横長画面40を有する1台の大画面液晶プロジェクタなどを例にしたが、この他、例えば会議参加者の人数分のモニタを用意し、所定間隔で並べるだけでも良い。 [0034] In the above embodiment, although an example and one large screen liquid crystal projector having a horizontally long screen 40, In addition, for example, prepared monitor number portion of the conference participants, only arranged at predetermined intervals But good.

【0035】また、テレビ会議をよりリアルに行うために、各端末の会議参加者の周囲に複数のスピーカーを用意し、これら複数のスピーカーの音響効果によって会議参加者に対して立体的な音場を形成することで、聞き手側に話者が誰であるかを認識させるようにしても良い。 [0035] In addition, in order to perform a TV conference more realistic, by preparing a plurality of speakers around the conference participants of each terminal, three-dimensional sound field for the conference participants by the acoustic effect of the plurality of speakers by forming the speaker to the listener side it may be to recognize who you are.

【0036】 [0036]

【発明の効果】以上説明したように本発明によれば、他の端末の会議参加者の映像を横に並べて表示するとともに、それぞれの会議参加者の映像の位置に複数の撮影手段を設置して、それぞれの撮影手段で異なる方向から話者を撮影し各撮影手段から得た複数の映像情報それぞれについて話者の動作を非言語解釈処理し、話者が対話した人を特定することで、例えば話者から対話者へ発言権を自動的に委譲するなどの制御を行えるようになり、より自然で円滑なテレビ会議の進行を実現することができる。 According to the present invention as described in the foregoing, it displays side by side images of conference participants other terminals next, and installing a plurality of photographing means to a position of each of the conference participants of the video Te, non language interpretation processing operation of the speaker for each of the plurality of image information obtained from the imaging means photographed speakers from different directions in the respective photographing means, by identifying the person who dialogue speaker, for example, it can be made to allow the control of, such as automatically transfer the right to speak to the interlocutor from the speaker, to achieve the progress of the more natural and smooth video conferencing.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明に係る一つの実施の形態のテレビ会議システムの構成を示す図。 It shows the configuration of one embodiment of a television conference system according to the present invention; FIG.

【図2】このテレビ会議システムの拠点にそれぞれ設置された端末の一例を示すブロック図。 2 is a block diagram showing an example of each the installed terminal base for the video conference system.

【図3】このテレビ会議システムの映像入力処理装置の構成を示す図。 FIG. 3 is a diagram showing the configuration of a video input processor of the videoconferencing system.

【図4】このテレビ会議システムにおいて、具体的なビデオカメラの配置例を示す図。 [4] In the television conference system, it shows an arrangement example of a specific video camera.

【図5】従来のテレビ会議システムのビデオカメラの配置例を示す図。 5 is a diagram showing an example of the arrangement of a video camera of conventional video conferencing systems.

【符号の説明】 DESCRIPTION OF SYMBOLS

11a 〜11z…ビデオカメラ、12…映像入力処理装置、13…マイク、14…音声入力処理装置、15…送信処理装置、16…受信処理装置、17…映像出力装置、18…映像出力処理装置、19…スピーカー、20 11a ~11Z ... video camera, 12 ... image input processing unit, 13 ... microphone, 14 ... audio input processing unit, 15 ... transmission processing apparatus, 16 ... reception processing unit, 17 ... image output device, 18 ... image output processing apparatus, 19 ... speaker, 20
…音声出力処理装置、21…制御装置、1a 〜1z…端末、2…通信網、3…中央処理装置(MCU)、24a ... audio output processor, 21 ... controller, 1a ~1Z ... terminal, 2 ... communication network, 3 ... central processing unit (MCU), 24a
〜24z…ADC、25a〜25z…映像圧縮符号化処理部、26a〜26z…非言語解釈処理部。 ~24z ... ADC, 25a~25z ... video compression encoding process unit, 26a~26z ... non language interpretation processing unit.

Claims (3)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 自端末とこれとは異なる地点に配置された他の複数の端末とを通信網を介して接続してなるテレビ会議システムにおいて、 前記各端末は、 前記他端末から送られてきた複数の会議参加者の映像を、少なくとも自端末の会議参加者がいずれか一つに向かい発言する際に他とは対話動作を変える程度に並べて表示する表示手段と、 前記表示手段により表示された個々の会議参加者の映像位置あるいは各映像近傍の位置にそれぞれ配置され、前記自端末の会議参加者を撮影する複数の撮影手段とを備え、 前記各端末あるいは前記通信網上の処理装置は、 前記複数の撮影手段によってそれぞれ撮影された複数の映像情報を基に、非言語解釈処理を行い、前記話者が前記複数の会議参加者の中から1人を選んで発言する動作を識別する 1. A local terminal and which the videoconferencing system formed by connecting through a communication network and a plurality of terminals arranged in addition to different points, the each terminal, sent from the other terminal a plurality of video conference participants are displayed and a display means for displaying side by side to the extent of changing the interaction of the other when the conference participants at least its own terminal to speak toward any one, by the display means respectively disposed at the position of the image position or the image near each individual conference participant, said a plurality of photographing means for photographing a conference participant of the terminal, the processing unit on each terminal or said communication network identifies based on a plurality of video information captured respectively by the plurality of imaging means performs a non-language interpretation process, the operation of the speaker to speak choose one from among the plurality of conference participants 言語解釈処理手段を具備したことを特徴とするテレビ会議システム。 Video conference system, characterized by comprising a language interpretation process means.
  2. 【請求項2】 自端末とこれとは異なる地点に配置された他の複数の端末とを通信網を介して接続してなるテレビ会議システムにおいて、 前記各端末は、 前記他端末から送られてきた複数の会議参加者の映像を、少なくとも自端末の会議参加者がいずれか一つに向かい発言する際に他とは対話動作を変える程度に並べて表示する表示手段と、 前記表示手段により表示された個々の会議参加者の映像位置あるいは各映像近傍の位置にそれぞれ配置され、前記自端末の会議参加者を撮影する複数の撮影手段とを備え、 前記各端末あるいは前記通信網上の処理装置は、 前記複数の撮影手段によってそれぞれ撮影された複数の映像情報を基に、非言語解釈処理を行い、前記話者が前記複数の会議参加者の中から1人を選んで発言する動作を識別する 2. A local terminal and which the videoconferencing system formed by connecting through a communication network and a plurality of terminals arranged in addition to different points, the each terminal, sent from the other terminal a plurality of video conference participants are displayed and a display means for displaying side by side to the extent of changing the interaction of the other when the conference participants at least its own terminal to speak toward any one, by the display means respectively disposed at the position of the image position or the image near each individual conference participant, said a plurality of photographing means for photographing a conference participant of the terminal, the processing unit on each terminal or said communication network identifies based on a plurality of video information captured respectively by the plurality of imaging means performs a non-language interpretation process, the operation of the speaker to speak choose one from among the plurality of conference participants 言語解釈処理手段と、 前記非言語解釈処理手段による非言語解釈処理結果、識別された1人の会議参加者の端末に対して発言権を委譲するための切り替え制御を行う制御手段とを具備したことを特徴とするテレビ会議システム。 And language interpretation processing means, said non-language interpretation result of processing by the non-language interpretation processing unit, equipped with a control unit for switching control to delegate the right to speak for the identified one of the conference participants of the terminal TV conference system, characterized in that.
  3. 【請求項3】 請求項1あるいは請求項2いずれか記載のテレビ会議システムにおいて、 前記表示手段は、 前記複数の会議参加者の映像を横方向に順に並べて表示する画面を有することを特徴とするテレビ会議システム。 3. The method of claim 1 or claim 2 videoconferencing system according to any one, the display means, characterized by having a screen for displaying an image of said plurality of conference participants are arranged laterally in the order TV conference system.
JP11012046A 1999-01-20 1999-01-20 Video conference system Withdrawn JP2000217091A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11012046A JP2000217091A (en) 1999-01-20 1999-01-20 Video conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11012046A JP2000217091A (en) 1999-01-20 1999-01-20 Video conference system

Publications (1)

Publication Number Publication Date
JP2000217091A true JP2000217091A (en) 2000-08-04

Family

ID=11794671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11012046A Withdrawn JP2000217091A (en) 1999-01-20 1999-01-20 Video conference system

Country Status (1)

Country Link
JP (1) JP2000217091A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013502828A (en) * 2009-08-21 2013-01-24 アバイア インク. Camera-based facial recognition or other presence detection method as a method of sounding a telephone device alarm,

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013502828A (en) * 2009-08-21 2013-01-24 アバイア インク. Camera-based facial recognition or other presence detection method as a method of sounding a telephone device alarm,

Similar Documents

Publication Publication Date Title
EP1039734B1 (en) Method and system for reducing multimedia conference bandwidth
US8355041B2 (en) Telepresence system for 360 degree video conferencing
US6704769B1 (en) Media role management in a video conferencing network
US6654045B2 (en) Teleconferencing method and system
US6285392B1 (en) Multi-site television conference system and central control apparatus and conference terminal for use with the system
KR101099884B1 (en) Moving picture data encoding method, decoding method, terminal device for executing them, and bi-directional interactive system
US20050062844A1 (en) Systems and method for enhancing teleconferencing collaboration
EP1536645A1 (en) Video conferencing system with physical cues
Vertegaal et al. GAZE-2: conveying eye contact in group video conferencing using eye-controlled camera direction
US9065973B2 (en) System and method for displaying a videoconference
US20030104806A1 (en) Wireless telepresence collaboration system
US20040117067A1 (en) Mutually-immersive mobile telepresence with gaze and eye contact preservation
US8355040B2 (en) Telepresence conference room layout, dynamic scenario manager, diagnostics and control system and method
US5438357A (en) Image manipulating teleconferencing system
US20140354766A1 (en) Distributed real-time media composer
US20040227693A1 (en) Integral eye-path alignment on telephony and computer video devices using two or more image sensing devices
US20020027597A1 (en) System for mobile videoconferencing
JP2005510144A (en) System and method for providing recognition of a remote person in a room during a video conference
JP4566177B2 (en) Telecommunications system
US7616226B2 (en) Video conference system and a method for providing an individual perspective view for a participant of a video conference between multiple participants
CN101534413B (en) System, method and apparatus for remote representation
US6433813B1 (en) Videoconferencing method and system for connecting a host with a plurality of participants
CA2284884C (en) Videoconference system
EP0942396B1 (en) Shared virtual space display method and apparatus using said method
US8638354B2 (en) Immersive video conference system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071031