JP2003244669A - Video conference system having sight line detecting function - Google Patents

Video conference system having sight line detecting function

Info

Publication number
JP2003244669A
JP2003244669A JP2002036491A JP2002036491A JP2003244669A JP 2003244669 A JP2003244669 A JP 2003244669A JP 2002036491 A JP2002036491 A JP 2002036491A JP 2002036491 A JP2002036491 A JP 2002036491A JP 2003244669 A JP2003244669 A JP 2003244669A
Authority
JP
Japan
Prior art keywords
sight
image
line
video conference
conference system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002036491A
Other languages
Japanese (ja)
Inventor
Mariko Kawaguri
真理子 河栗
Hisahide Wakita
尚英 脇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002036491A priority Critical patent/JP2003244669A/en
Publication of JP2003244669A publication Critical patent/JP2003244669A/en
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To identify a talker and display a sight point of the talker through detection of a visual line so as to provide a feeling of presence even to people at a remote place as if they are present in the same place as the talker, thereby smoothly running a conference. <P>SOLUTION: A sight line detector is attached to a video conference system to detect the sight lines of participants, and a screen at a remote place displays the image. Further, a talker in the conference is identified through detection of the sight line and voice monitor information. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、画像信号、音声信
号を通信回線に送出し、複数の離れた場所における会議
を可能とするテレビ会議システムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a video conference system which sends out an image signal and an audio signal to a communication line to enable a conference at a plurality of remote places.

【0002】[0002]

【従来の技術】テレビ会議システムとは、ビデオカメ
ラ、スクリーンまたは、モニタテレビをそれぞれの会議
の場所に設置し、画像および音声のやり取りを行うこと
により会議を進行させるものである。電話とちがい画像
をやり取りできるため、視覚情報が加味されることによ
り臨場感が増加し、離れていても会議が可能となり、仕
事の効率化や緊急時の対応の迅速化に役立っている。
2. Description of the Related Art A video conference system is a system in which a video camera, a screen, or a monitor TV is installed at each meeting place and an image and a voice are exchanged to advance the meeting. Since different images can be exchanged with the telephone, the presence of visual information is increased by adding visual information, and it is possible to have a meeting even if you are away, which is useful for improving work efficiency and responding quickly in an emergency.

【0003】[0003]

【発明が解決しようとする課題】画像を見ながら会議が
進行するため、通信する画像の内容および質が大きく進
行を左右する。
Since the conference proceeds while watching the image, the content and quality of the image to be communicated greatly influence the progress.

【0004】例えば、議論の時、お互いの目を見て行う
と相手の反応を見ながらスムーズに話が進行するが、離
れた場所の画像が広範囲な画像で人の大きさが小さい場
合、顔の表情などが見えにくかったり、カメラの位置に
より、話を聞いている人が違う方向を見ているように通
信されると、視覚的相互性がないため、臨場感がうすれ
て、同じ場所にいる人との議論のようにスムーズに行か
ない場合が発生する。
[0004] For example, in discussions, when the eyes of each other are used to see each other's reactions, the conversation proceeds smoothly, but when the images of distant places are wide-ranging images and the size of the person is small, the face When people who are talking to each other communicate with each other as if they are looking in different directions depending on the position of the camera, there is no visual reciprocity. Sometimes it does not go smoothly like the discussion with the person who is there.

【0005】さらに、遠隔地において話を聞いている人
にとって話者が何を見て話しているか画像で知ることが
できれば、話の状況を把握し易い。また、話している人
にとっても、どのような画像を遠隔地で見ているかが分
かれば、状況把握に役立ち、より良いプレゼンテーショ
ンが可能となる。
Further, if a person who is listening at a remote place can know what the speaker is looking at and talking, it is easy to grasp the situation of the talk. Also, for the person who is speaking, understanding what kind of image is being viewed at a remote location helps to grasp the situation and enables a better presentation.

【0006】[0006]

【課題を解決するための手段】そこで、本発明による非
接触の視線検出器を用いて話者が何を見て話している
か、聞いている人がどんな画像を見ているかを検出し、
その画像もスクリーンまたはモニタテレビに映すことに
より、よりリアルな画像が提供でき、会議の進行を促す
ものである。
Therefore, by using the non-contact line-of-sight detector according to the present invention, it is possible to detect what the speaker sees and speaks, and what image the listener is looking at.
By displaying the image on the screen or the monitor TV, a more realistic image can be provided and the progress of the conference can be promoted.

【0007】[0007]

【発明の実施の形態】本発明はテレビ会議システムにお
ける画像通信に関するものである。以下、本発明の実施
形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION The present invention relates to image communication in a video conference system. Hereinafter, embodiments of the present invention will be described.

【0008】(実施の形態1)テレビ会議システムは、
複数の画像撮影装置と音声通信装置及び表示装置(スク
リーンまたは液晶画面、モニター)からなる。
(Embodiment 1) A video conference system
It is composed of a plurality of image capturing devices, a voice communication device, and a display device (screen or liquid crystal screen, monitor).

【0009】図1にテレビ会議システムの模式図を示
す。画像撮影装置としてビデオカメラ1、2、ビデオカ
メラ1に視線検出装置3および音声モニタ装置4が設置
されており、画像信号及び音声信号を通信装置6に接続
することにより、スクリーン5および遠隔地のテレビシ
ステムに信号を伝達して画像や音声を送る。机10に着
席した参加者7、8、9は、スクリーン5に遠隔地の画
像や会議資料を表示しながら、会議を進行する。
FIG. 1 shows a schematic diagram of a video conference system. The video cameras 1 and 2 as the image capturing device, the line-of-sight detection device 3 and the audio monitor device 4 are installed in the video camera 1, and by connecting the image signal and the audio signal to the communication device 6, the screen 5 and a remote location can be displayed. It transmits signals to the television system and sends images and sounds. The participants 7, 8 and 9 seated on the desk 10 proceed with the conference while displaying images of the remote place and conference materials on the screen 5.

【0010】視線検出装置3は、近赤外線カメラ、反射
ミラー、およびアイカメラが一体化したものを用いる。
近赤外線カメラにより顔面上の眼球位置を網膜反射より
検知し、眼球方向より視線を追跡するものである。これ
により、非接触で話す人の視線が追及できる。近赤外線
を使うことにより、人には大きな影響を与えることな
く、暗い場所でも眼球位置を検知することができる。そ
のため、スライドなどを用いた暗室での会議についても
有効に視線を追尾できる。
The line-of-sight detecting device 3 uses a near-infrared camera, a reflecting mirror, and an eye camera integrated with each other.
The near-infrared camera detects the position of the eyeball on the face from the retina reflection and traces the line of sight from the eyeball direction. As a result, the line of sight of the speaker can be pursued without contact. By using near-infrared rays, it is possible to detect the eyeball position even in a dark place without significantly affecting humans. Therefore, the line of sight can be effectively tracked even in a conference in a dark room using slides or the like.

【0011】前記視線検出装置3より得られた視線ポイ
ントを通信装置6を介してビデオカメラ2に送り、視線
ポイントを含む範囲の画像を取り込む。その画像を5秒
間蓄積して、遠隔地の画像表示装置へ通信装置6を介し
て送信して遠隔地の会議室のスクリーン上に写す。これ
により、例えば話者が何を見て話しているか(人、資
料、画像など)が、同じ会議室に居る人と同様に遠隔地
の会議室の人にも分かるため、話の内容を理解する助け
となる。
The line-of-sight point obtained from the line-of-sight detection device 3 is sent to the video camera 2 via the communication device 6 to capture an image in the range including the line-of-sight point. The image is accumulated for 5 seconds, transmitted to an image display device at a remote place via the communication device 6, and displayed on the screen of the conference room at the remote place. This allows people in remote conference rooms as well as those in the same conference room to know what the speaker is seeing (people, materials, images, etc.) Will help you.

【0012】人の視線はかなり変動するため、1秒間の
視点を随時画像表示すると、めまぐるしく変わる場合が
ある。そこで、5秒間ほど蓄積して平均化、又は、視野
を広げることにより、変動を抑えた画像となる。
Since the line of sight of a person fluctuates considerably, when a viewpoint for 1 second is displayed as an image at any time, it may change rapidly. Therefore, an image is obtained in which fluctuation is suppressed by accumulating for about 5 seconds and averaging or expanding the field of view.

【0013】さらに、スクリーン5に写された画像上に
視線ポイントをレーザーポインターと同様に示すと話者
の注目点まで検知でき、リアルタイムの会議が可能とな
る。
Further, if the line-of-sight point is shown on the image displayed on the screen 5 in the same manner as the laser pointer, the point of interest of the speaker can be detected, and a real-time conference can be performed.

【0014】画像の表示としては、話者の顔と話者が見
ている場所が同時に見える方が理解し易いため、画像を
2分割して話者と視線ポイントにより囲まれた画像を表
示することが望ましい。
As for displaying an image, it is easier to understand if the face of the speaker and the place where the speaker is looking can be seen at the same time. Therefore, the image is divided into two and an image surrounded by the speaker and the line-of-sight point is displayed. Is desirable.

【0015】また、話者にとっては、同じ会場内の人の
顔や視線を自由に見られるため、反応を見ながら話が進
められるが、遠隔地の人の反応はわからない。このよう
に、スクリーン上に遠隔地の人の顔や視線追跡した画像
が表示できれば、こちらの話している内容がわかってい
るか、話を聞いてもらっているかがわかり、相互に確認
しながら話を進行することが可能となる。
Further, since the speaker can freely see the face and line of sight of the person in the same venue, the talk can proceed while seeing the reaction, but the reaction of the person in the remote place cannot be understood. In this way, if you can display the image of the face or line-of-sight of a remote person on the screen, you can see if you know what you are talking about, or if you are listening to it, and proceed while confirming each other. It becomes possible to do.

【0016】以上、会議に参加している人の視線を検知
して見ている範囲の画像をスクリーン上に表示すること
で、遠隔地における会議参加者とも臨場感が高まり、会
議の進行をスムーズにすることができる。
As described above, by detecting the line of sight of the person who is participating in the conference and displaying the image of the range being viewed on the screen, the presence of the conference participants at the remote location is enhanced and the progress of the conference is smoothed. Can be

【0017】(実施の形態2)視線検知する時、話者の
特定が大事である。音声レベルの大小を比較して話者の
判別をしたり(特開平4−150590)、一定の時間
を超えた音声を発する人を話者と判定する方法が提案さ
れている(特開平2−4095)。
(Embodiment 2) It is important to identify the speaker when detecting the line of sight. A method has been proposed in which the speaker level is compared to determine the speaker (Japanese Patent Laid-Open No. 4-150590), and a person who emits a voice that exceeds a certain time is determined to be the speaker (Japanese Patent Laid-Open No. 2-150590). 4095).

【0018】しかし、音声を用いると、簡易に話者が分
かるが、雑音やせきなどの妨害音による誤判定も起こる
場合がある。そこで、会議参加者の視線を追跡して視線
が集中している人を話者と判定すると、環境の妨害を受
ける確率が少ない。そこで、音声情報と視線情報を合わ
せて話者を特定することにより、より確実に話者の判定
が可能となる。
However, when the voice is used, the speaker can be easily recognized, but an erroneous determination may occur due to an interfering sound such as noise or cough. Therefore, if the line of sight of the conference participants is tracked and the person whose line of sight is concentrated is determined to be the speaker, the probability of being disturbed by the environment is low. Therefore, by specifying the speaker by combining the voice information and the line-of-sight information, it is possible to more reliably determine the speaker.

【0019】話者判定のアルゴリズムについて図2に示
した。まず、参加者の声のレベルを音声モニタにより検
知し、一番大きいレベルの人を選択する。同時に各参加
者の視線を検知する。次に、各会議室において声のレベ
ルを比較し、一番大きいレベルの人を選択する。さら
に、視線検知よりその選択された人に視線が集中してい
るかを判定して話者を確定する。
The speaker determination algorithm is shown in FIG. First, the voice level of the participant is detected by the voice monitor, and the person with the highest level is selected. At the same time, the line of sight of each participant is detected. Next, the voice levels are compared in each conference room, and the person with the highest level is selected. Furthermore, the speaker is determined by determining whether the line of sight is concentrated on the selected person by detecting the line of sight.

【0020】話者が特定できれば、他の人より大きく映
し出したりマーキングすることにより強調されると、遠
隔地の人は誰が話しているか随時把握でき、スムーズに
会議が進行できる。また、通信装置において話者の音声
のみを切り出して大きく送信することにより、雑音が省
かれた音声情報が得られ、同じ会議室にて聞いている人
のレベルに近づくことができる。
If the speaker can be specified, the person at the remote place can always grasp who is speaking, by emphasizing it by displaying it or marking it larger than other people, and the conference can proceed smoothly. In addition, by cutting out only the voice of the speaker and transmitting the voice largely in the communication device, noise-free voice information can be obtained, and it is possible to approach the level of a person listening in the same conference room.

【0021】このように、話者を特定できれば、会議の
進行をスムーズにするのに大きな効果がある。
Thus, if the speaker can be specified, it is very effective in smoothing the progress of the conference.

【0022】[0022]

【発明の効果】本発明は、複数の画像撮影装置、画像表
示装置、音声モニタ装置及び通信装置からなるテレビ会
議システムにおいて、前記画像撮影装置が視線検出装置
を具備することを特徴とするテレビ会議システムであ
り、視線検出により、話者の特定や話者の視点を表示し
て遠隔地の人も同じ場所に居るような臨場感を与え、会
議をスムーズに進行させるのに役立たせることができ
る。
According to the present invention, in a video conference system comprising a plurality of image capturing devices, image display devices, audio monitor devices and communication devices, the image capturing device comprises a line-of-sight detecting device. It is a system, and by detecting the line of sight, the speaker can be identified and the viewpoint of the speaker can be displayed to give the presence of a person in a remote place to be in the same place, which can be useful for smoothly proceeding the conference. .

【図面の簡単な説明】[Brief description of drawings]

【図1】テレビ会議システムの模式図FIG. 1 is a schematic diagram of a video conference system.

【図2】話者特定のアルゴリズムを示した図FIG. 2 is a diagram showing a speaker identification algorithm.

【符号の説明】[Explanation of symbols]

1,2 ビデオカメラ 3 視線検出装置 4 音声モニタ装置 5 スクリーン 6 通信装置 7,8,9 参加者 10 机 1, 2 video camera 3 Line-of-sight detection device 4 Audio monitor 5 screen 6 Communication device 7,8,9 Participants 10 desks

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 複数の画像撮影装置、画像表示装置、音
声モニタ装置及び通信装置からなるテレビ会議システム
において、前記画像撮影装置が視線検出装置を具備する
ことを特徴とするテレビ会議システム。
1. A video conference system comprising a plurality of image capturing devices, an image display device, a voice monitor device, and a communication device, wherein the image capturing device comprises a line-of-sight detection device.
【請求項2】 複数の画像撮影装置、画像表示装置、音
声モニタ装置及び通信装置からなるテレビ会議システム
において、前記画像撮影装置が視線検出装置を具備し、
視線追尾した画像を提供することを特徴とするテレビ会
議システム。
2. A video conference system comprising a plurality of image capturing devices, an image display device, a voice monitor device, and a communication device, wherein the image capturing device comprises a line-of-sight detection device,
A video conferencing system that provides an image with eye tracking.
【請求項3】 視線追尾した場所の位置情報をある時間
蓄積してその範囲をカバーする画像を提供することを特
徴とする請求項2記載のテレビ会議システム。
3. The video conference system according to claim 2, wherein position information of a place where the line of sight is tracked is accumulated for a certain period of time to provide an image covering the range.
【請求項4】 視線追尾した場所の画像上に視線ポイン
トを表示することを特徴とする請求項2記載のテレビ会
議システム。
4. The video conference system according to claim 2, wherein the line-of-sight point is displayed on the image of the place where the line-of-sight is tracked.
【請求項5】 複数の画像撮影装置、画像表示装置、お
よび音声モニタ装置及び通信装置からなるテレビ会議シ
ステムにおいて、前記画像撮影装置が視線検出装置を具
備し、視線追尾した画像および音声情報より話者を判定
することを特徴とするテレビ会議システム。
5. A video conference system comprising a plurality of image capturing devices, an image display device, a voice monitor device and a communication device, wherein the image capturing device comprises a line-of-sight detection device, and the image and audio information tracked by the line-of-sight A video conference system characterized by determining the person.
【請求項6】 視線追尾した画像および音声情報より話
者を判定し、遠隔地の画像表示装置に話者を強調して表
示するとともに、話者の視線範囲の画像を提供すること
を特徴とする請求項5記載のテレビ会議システム。
6. The speaker is determined from the image and the audio information tracked by the line of sight, the speaker is emphasized and displayed on an image display device at a remote location, and an image in the line of sight of the speaker is provided. The video conference system according to claim 5.
JP2002036491A 2002-02-14 2002-02-14 Video conference system having sight line detecting function Pending JP2003244669A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002036491A JP2003244669A (en) 2002-02-14 2002-02-14 Video conference system having sight line detecting function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002036491A JP2003244669A (en) 2002-02-14 2002-02-14 Video conference system having sight line detecting function

Publications (1)

Publication Number Publication Date
JP2003244669A true JP2003244669A (en) 2003-08-29

Family

ID=27778362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002036491A Pending JP2003244669A (en) 2002-02-14 2002-02-14 Video conference system having sight line detecting function

Country Status (1)

Country Link
JP (1) JP2003244669A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system
JP2010191544A (en) * 2009-02-16 2010-09-02 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for processing video voice
JP2017005616A (en) * 2015-06-15 2017-01-05 株式会社リコー Terminal, video conference system, and program
WO2020079485A3 (en) * 2018-10-15 2020-06-25 Orcam Technologies Ltd. Hearing aid systems and methods
KR20220056622A (en) 2020-10-28 2022-05-06 삼성에스디에스 주식회사 Method and apparatus for providing explainable artificial intelligence
US11979716B2 (en) 2018-10-15 2024-05-07 Orcam Technologies Ltd. Selectively conditioning audio signals based on an audioprint of an object

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system
JP2010191544A (en) * 2009-02-16 2010-09-02 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for processing video voice
JP2017005616A (en) * 2015-06-15 2017-01-05 株式会社リコー Terminal, video conference system, and program
US11418893B2 (en) 2018-10-15 2022-08-16 Orcam Technologies Ltd. Selective modification of background noises
US10959027B2 (en) 2018-10-15 2021-03-23 Orcam Technologies Ltd. Systems and methods for camera and microphone-based device
WO2020079485A3 (en) * 2018-10-15 2020-06-25 Orcam Technologies Ltd. Hearing aid systems and methods
US11470427B2 (en) 2018-10-15 2022-10-11 Orcam Technologies Ltd. Lip-tracking hearing aid
US11496842B2 (en) 2018-10-15 2022-11-08 Orcam Technologies Ltd. Selective amplification of speaker of interest
US11638103B2 (en) 2018-10-15 2023-04-25 Orcam Technologies Ltd. Identifying information and associated individuals
US11785395B2 (en) 2018-10-15 2023-10-10 Orcam Technologies Ltd. Hearing aid with voice recognition
US11792577B2 (en) 2018-10-15 2023-10-17 Orcam Technologies Ltd. Differential amplification relative to voice of speakerphone user
US11843916B2 (en) 2018-10-15 2023-12-12 Orcam Technologies Ltd. Hearing aid with voice or image recognition
US11930322B2 (en) 2018-10-15 2024-03-12 Orcam Technologies Ltd. Conditioning audio signals including overlapping voices
US11979716B2 (en) 2018-10-15 2024-05-07 Orcam Technologies Ltd. Selectively conditioning audio signals based on an audioprint of an object
KR20220056622A (en) 2020-10-28 2022-05-06 삼성에스디에스 주식회사 Method and apparatus for providing explainable artificial intelligence

Similar Documents

Publication Publication Date Title
US6275258B1 (en) Voice responsive image tracking system
US10122972B2 (en) System and method for localizing a talker using audio and video information
US8289363B2 (en) Video conferencing
US10491858B2 (en) Video conference audio/video verification
US6975991B2 (en) Wearable display system with indicators of speakers
US6850265B1 (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US7460150B1 (en) Using gaze detection to determine an area of interest within a scene
US20040254982A1 (en) Receiving system for video conferencing system
JP2003506927A (en) Method and apparatus for allowing video conferencing participants to appear in front of an opponent user with focus on the camera
US11405584B1 (en) Smart audio muting in a videoconferencing system
TW201543902A (en) Muting a videoconference
JP6149433B2 (en) Video conference device, video conference device control method, and program
JP2003244669A (en) Video conference system having sight line detecting function
CN111163280A (en) Asymmetric video conference system and method thereof
JP5120020B2 (en) Audio communication system with image, audio communication method with image, and program
JPH11234640A (en) Communication control system
JP4708960B2 (en) Information transmission system and voice visualization device
US20230199380A1 (en) Virtual space connection device
JP2006339869A (en) Apparatus for integrating video signal and voice signal
US9706169B2 (en) Remote conference system and method of performing remote conference
WO2021090702A1 (en) Information processing device, information processing method, and program
US20230230416A1 (en) Establishing private communication channels
JPH09327006A (en) Two-way interactive system
WO2023176389A1 (en) Information processing device, information processing method, and recording medium
Johanson The turing test for telepresence