JP2003230049A - Camera control method, camera controller and video conference system - Google Patents
Camera control method, camera controller and video conference systemInfo
- Publication number
- JP2003230049A JP2003230049A JP2002029428A JP2002029428A JP2003230049A JP 2003230049 A JP2003230049 A JP 2003230049A JP 2002029428 A JP2002029428 A JP 2002029428A JP 2002029428 A JP2002029428 A JP 2002029428A JP 2003230049 A JP2003230049 A JP 2003230049A
- Authority
- JP
- Japan
- Prior art keywords
- face image
- camera
- sound source
- camera control
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、カメラ制御方法及
びカメラ制御装置並びにテレビ会議システムに関し、特
に、複数の音声入力手段により音源方向を検出し、カメ
ラの方向を制御し、カメラに映し出された画像の中から
顔画像を抽出する手段と、顔画像の画面上の位置と大き
さとを認識する手段とを有するカメラ制御方法及びカメ
ラ制御装置並びにテレビ会議システムに関する。より具
体的には、例えば、テレビ会議システムの場合などにお
いて、発言者に対してカメラの向きとズームとを自動的
にかつ正確に制御して、円滑にテレビ会議を進めること
を可能にする。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a camera control method, a camera control device, and a video conference system, and more particularly, it detects the direction of a sound source by a plurality of audio input means, controls the direction of the camera, and displays it on the camera. The present invention relates to a camera control method, a camera control device, and a video conference system that have means for extracting a face image from an image and means for recognizing the position and size of the face image on the screen. More specifically, for example, in the case of a video conference system or the like, it is possible to automatically and accurately control the direction of the camera and the zoom for the speaker, and to smoothly advance the video conference.
【0002】[0002]
【従来の技術】TV会議などにおいて、発言者の人物画
像を正確に画面に表示するためのカメラ制御方法及びカ
メラ制御装置に関し、以下のような従来例がある。特開
平5−268599号公報「テレビ会議システムにおけ
る人物撮像カメラの自動制御方式」によれば、人物の輪
郭やパターンマッチングにより画面内の人物の位置及び
大きさを自動的に制御する技術が記載されている。即
ち、人物撮像カメラの出力画像の中から人物の輪郭を抽
出して、抽出された人物を含む画像と、予め記憶されて
いて、画面中央位置に人物像を配置している人物像のサ
ンプルデータとを比較照合することにより、サンプルデ
ータに近い状態となるように、人物撮像カメラのパン・
チルト・ズーム制御を行ない、撮像される人物を表示画
面の中央付近となる位置及び大きさに自動的に表示でき
るようにしている。2. Description of the Related Art The following conventional examples relate to a camera control method and a camera control apparatus for accurately displaying a person image of a speaker in a video conference. Japanese Unexamined Patent Publication No. 5-268599 “Automatic control system for human image pickup camera in video conference system” describes a technique for automatically controlling the position and size of a person on a screen by the contour and pattern matching of the person. ing. That is, the outline of a person is extracted from the output image of the person image pickup camera, and an image including the extracted person and sample data of a person image in which a person image is stored in advance and stored in the center position of the screen By comparing and collating with, the pan and
Tilt / zoom control is performed so that the person to be imaged can be automatically displayed at a position and size near the center of the display screen.
【0003】特開平9−307870号公報「テレビ会
議システムにおけるカメラ自動方向制御装置」によれ
ば、複数の音声入力手段から発言者の方向を検出して、
音声入力手段の位置にカメラの向きを制御すると共に、
発言者の顔輪郭を抽出してカメラの向きを調整する技術
が記載されている。即ち、テレビ会議への参加者が、発
言中の状態にある場合には点灯するランプ付きのイアホ
ンマイクをそれぞれ装着することにより、参加者が発言
した際に、ランプの点灯がランプ検出回路により検出さ
れて、検出された点灯ランプの位置データに基づいて、
カメラ方向制御回路が、カメラの向きを該点灯ランプの
方向に向けるように制御し、更に、顔輪郭抽出回路が、
予め登録している標準的な顔輪郭データを参照すること
により、発言者の顔の位置を検出して、カメラの方向を
該発言者の顔の位置に正確に向けさせるものである。According to Japanese Unexamined Patent Publication No. 9-307870, "Camera Automatic Direction Control Device in Video Conference System", the direction of a speaker is detected from a plurality of voice input means,
While controlling the direction of the camera to the position of the voice input means,
A technique for extracting the face contour of the speaker and adjusting the orientation of the camera is described. That is, when the participant in the video conference wears the earphone microphone with a lamp that lights up when the participant is speaking, the lamp detection circuit detects the lighting of the lamp when the participant speaks. Based on the detected lighting lamp position data,
The camera direction control circuit controls the direction of the camera so as to face the lighting lamp, and the face contour extraction circuit further includes:
By referring to standard face contour data registered in advance, the position of the face of the speaker is detected, and the direction of the camera is accurately directed to the position of the face of the speaker.
【0004】特表2000−512108号「音源位置
づけ方法と装置」によれば、2つの音声入力手段により
得られる音声信号を時間分割により周波数分析を行な
い、それぞれの音声入力手段にて得られた音声信号の遅
延時間を算出することにより、音源方向を検出し、更に
は、音声入力手段を4つだけ備えることにより、音声の
垂直方向のみならず距離まで検出し、カメラの方向やズ
ームを制御することを可能とし、発言者の方向にカメラ
を自動的に向けると共に適切な大きさの画像にズームア
ップする技術が記載されている。According to Japanese Patent Laid-Open No. 2000-512108 "Sound Source Positioning Method and Device", the voice signals obtained by the two voice input means are subjected to frequency analysis by time division, and the voices obtained by the respective voice input means. By calculating the delay time of the signal, the sound source direction is detected. Further, by providing only four voice input means, not only the vertical direction of the voice but also the distance is detected, and the direction and zoom of the camera are controlled. A technique for enabling the above, automatically pointing the camera in the direction of the speaker, and zooming up to an image of an appropriate size is described.
【0005】即ち、発言者の位置が移動するような状態
にあったとしても、発言者の音声信号を互いに離れた位
置に配置されている2つのマイク(音声入力手段)によ
り受信し、それぞれのマイクで受信された双方の音声信
号間の受信時間の信号遅延時間を、フーリエ解析を用い
て算出することにより、発言者の音声信号の方向を検出
することを可能とすると共に、更には、X,Y座標方向
の互いに異なる位置に3つ乃至4つのマイク(音声入力
手段)を配設して、それぞれのマイクで受信された音声
信号間の受信時間関係を算出することにより、X,Y,
Zの3軸の座標方向における発言者の位置(即ち、方向
と距離)を算出することを可能とし、発言者の方向にカ
メラを向けさせると同時に、ズームアップ制御も行なう
ことが可能であるとしているものである。That is, even if the speaker's position is moving, the speaker's voice signal is received by two microphones (voice input means) arranged at positions distant from each other, and By calculating the signal delay time of the reception time between both voice signals received by the microphone using Fourier analysis, it is possible to detect the direction of the voice signal of the speaker, and further, X , Three or four microphones (voice input means) are arranged at different positions in the Y-coordinate direction, and the reception time relationship between the voice signals received by the respective microphones is calculated.
It is possible to calculate the position (that is, the direction and distance) of the speaker in the coordinate directions of the three axes of Z, and to point the camera in the direction of the speaker and at the same time perform zoom-up control. There is something.
【0006】[0006]
【発明が解決しようとする課題】しかしながら、上述の
技術においては、例えば、特開平5−268599号公
報における技術の場合にあっては、テレビ会議への参加
者の人物に関する画像パターンが予め登録されている既
知の状態でなければならず、また、画面上に、2人以上
の人物の顔画像が抽出されてしまった場合に、真に表示
すべき目的の発言者を正確に表示することや、あるい
は、画面外に位置している発言者を表示することが困難
であるという課題を有している。However, in the technique described above, for example, in the case of the technique disclosed in Japanese Patent Laid-Open No. 5-268599, an image pattern relating to the person of the participant in the video conference is registered in advance. If the face images of two or more persons have been extracted on the screen, it is necessary to accurately display the intended speaker who should be displayed. Or, there is a problem that it is difficult to display the speaker located outside the screen.
【0007】また、特開平9−307870号公報にお
ける技術においては、正確な音源方向を検出するため
に、テレビ会議への参加者即ち発言者の数だけ、ランプ
付きのイアホンマイク即ち音声入力手段を用意する必要
があり、多数の音声入力手段が必要となるという課題を
有している。更には、特表2000−512108号に
おける技術においては、2乃至4個程度の少ない音声入
力手段(マイク)により、発言者の音源方向や音源との
距離を検出することができるが、テレビ会議室が反響の
大きな部屋や雑音の大きい部屋などの場合にあっては、
音声信号の到来する方向が、種々に変化してしまい、正
確に音源方向を検出することが困難であるという課題を
有している。Further, in the technique disclosed in Japanese Unexamined Patent Publication No. 9-307870, in order to detect an accurate sound source direction, there are as many earphone microphones with a lamp, that is, voice input means, as many as the number of participants or speakers of the video conference. There is a problem that it is necessary to prepare and a large number of voice input means are required. Further, in the technology of Japanese Patent Publication No. 2000-512108, the direction of the sound source of the speaker and the distance to the sound source can be detected by a small number of two to four voice input means (microphones). Is a room with a lot of echo or a room with a lot of noise,
There is a problem that it is difficult to accurately detect the direction of the sound source because the arrival direction of the audio signal changes in various ways.
【0008】本発明は、かかる課題に鑑みてなされたも
のであり、参加者の人数よりも少ない個数の複数個の音
声入力手段を介してそれぞれから入力されてくる入力音
声の周波数や信号遅延時間を分析することにより音源方
向を検出する音源方向検出手段と、該音源方向検出手段
により検出された音源方向にカメラの向きを水平方向及
び/又は垂直方向に移動制御させ、更に、広角又は望遠
のズーム変更制御させると共に、前以って設定されてい
る画面上の位置に、前以って設定されている顔画像の大
きさで表示されるようにカメラを制御することができる
カメラ制御・位置判定手段と、カメラにより撮像された
画像の中から人物の顔画像を抽出し、画面上の顔画像の
位置/大きさを認識する顔画像抽出・位置判定手段とを
用いて、前記音源方向検出手段により検出された音声の
音源方向に前記顔画像抽出・位置判定手段により人物の
顔画像が検出された場合に、初めて発言者の顔画像と認
識して、前記カメラ制御・位置判定手段により画面上の
所定の位置及び/又は大きさに、該発言者の顔画像を表
示することを可能とし、周りの反響音などの影響から正
確に発言者を表示することができないことや、多くの音
声入力部を装備しなくてはならない等の従来技術の課題
を解決せんとするものである。The present invention has been made in view of the above problems, and the frequency and signal delay time of input voices respectively input from a plurality of voice input means of which the number is smaller than the number of participants. A sound source direction detecting means for detecting a sound source direction by analyzing, and controlling the movement of the camera in the horizontal direction and / or the vertical direction to the sound source direction detected by the sound source direction detecting means. Camera control / position that allows zoom change control and also controls the camera so that it is displayed at the preset position on the screen with the preset facial image size. Using the determination means and the face image extraction / position determination means for extracting the face image of the person from the image captured by the camera and recognizing the position / size of the face image on the screen, the sound source When the face image of the person is detected by the face image extracting / position determining unit in the sound source direction of the voice detected by the direction detecting unit, it is recognized as the face image of the speaker for the first time, and the camera control / position determining unit is used. This makes it possible to display the face image of the speaker at a predetermined position and / or size on the screen, and it is not possible to accurately display the speaker due to the influence of surrounding echoes. It is an object of the present invention to solve the problems of the prior art, such as having to equip the voice input section.
【0009】更には、前記顔画像抽出・位置判定手段に
て、複数の人物の顔画像が検出された場合には、前記音
源方向検出手段により検出された音源方向に最も近い位
置にいる人物を発言者とみなして、該発言者の顔画像を
所定の位置/大きさに表示することを可能とし、逆に、
顔画像が検出されない場合や、顔画像が画面内に収まり
切れない状態にある場合には、カメラを広角側にズーム
変更制御させて、広角画像に撮影されている音源方向の
近傍にいる人物の顔画像を検出させて、該人物を発言者
とみなして、発言者とみなされた該人物の顔画像を所定
の位置/大きさに表示することを可能にせんとするもの
である。Further, when the face image extracting / position determining means detects face images of a plurality of persons, the person closest to the sound source direction detected by the sound source direction detecting means is selected. It is possible to display the face image of the speaker as a speaker at a predetermined position / size, and conversely,
If no face image is detected, or if the face image is too large to fit on the screen, control the camera to change the zoom to the wide-angle side so that the person in the vicinity of the sound source direction captured in the wide-angle image is controlled. The face image is detected, the person is regarded as the speaker, and the face image of the person regarded as the speaker can be displayed at a predetermined position / size.
【0010】[0010]
【課題を解決するための手段】本発明は、上記課題を解
決するための技術手段を提供するものであり、各発明
は、以下の技術手段を構成している。第1の発明は、カ
メラの方向を水平方向及び/又は垂直方向へ角度変更す
る制御を可能とするカメラ制御手段を有することによ
り、撮像画像を画面上の所定の位置に表示させることが
できるカメラ制御方法において、更に、前記カメラより
入力される画像から人物の顔画像を抽出する顔画像抽出
手段と、該顔画像抽出手段により抽出され、画面上に表
示される顔画像の位置を認識することができる顔画像位
置判定手段と、複数個の音声入力手段に入力されるそれ
ぞれの音声信号から音源方向を検出する音源方向検出手
段と、を有し、前記音源方向検出手段により検出された
音源方向に、前記カメラ方向制御手段により水平方向及
び/又は垂直方向への前記カメラの角度変更を自動的に
制御して、前記顔画像抽出手段により抽出され、かつ、
前記顔画像位置判定手段により認識された画面上にある
人物の顔画像の位置を、前以って設定されている画面上
の位置に表示させるようにして、前記音源方向検出手段
により検出された音源方向にある人物の顔画像を前以っ
て設定されている画面上の位置に表示させるカメラ制御
方法とすることを特徴とするものである。The present invention provides technical means for solving the above-mentioned problems, and each invention constitutes the following technical means. A first aspect of the present invention has a camera control unit that enables control of changing the direction of the camera to a horizontal direction and / or a vertical direction so that a captured image can be displayed at a predetermined position on the screen. In the control method, further, recognizing the face image extraction means for extracting a face image of a person from the image input from the camera, and the position of the face image extracted by the face image extraction means and displayed on the screen. And a sound source direction detecting means for detecting a sound source direction from each sound signal input to a plurality of sound input means, and the sound source direction detected by the sound source direction detecting means. The camera direction control means automatically controls the angle change of the camera in the horizontal direction and / or the vertical direction, and is extracted by the face image extraction means, and
The position of the face image of the person on the screen recognized by the face image position determination means is displayed at the preset position on the screen, and detected by the sound source direction detection means. A camera control method for displaying a face image of a person in a sound source direction at a preset position on the screen.
【0011】第2の発明は、前記第1の発明に記載のカ
メラ制御方法において、前記カメラ制御手段として、前
記カメラを広角及び/又は望遠へズーム変更する制御を
可能とし、また、前記顔画像位置判定手段として、画面
上での顔画像の大きさを認識することを可能とすること
により、前記カメラ制御手段により広角及び/又は望遠
への前記カメラのズーム変更を自動的に制御して、前記
顔画像抽出手段により抽出され、かつ、前記顔画像位置
判定手段により認識される画面上にある人物の顔画像の
大きさを、前以って設定されている画面上の大きさに表
示させるようにして、前記音源方向検出手段により検出
された音源方向にある人物の顔画像を前以って設定され
ている画面上の大きさに表示させるカメラ制御方法とす
ることを特徴とするものである。In a second aspect of the present invention, in the camera control method according to the first aspect, the camera control means enables control of zooming the camera to a wide angle and / or a telephoto, and the face image. As the position determination means, by making it possible to recognize the size of the face image on the screen, the camera control means automatically controls the zoom change of the camera to wide-angle and / or telephoto, The size of the face image of the person on the screen, which is extracted by the face image extraction means and recognized by the face image position determination means, is displayed in a preset size on the screen. In this way, a camera control method for displaying a face image of a person in the sound source direction detected by the sound source direction detecting means in a size set on a screen set in advance is provided. It is intended.
【0012】第3の発明は、前記第1又は第2の発明に
記載のカメラ制御方法において、前記音源方向検出手段
により検出された音源方向に、前記顔画像抽出手段によ
り2つ以上の人物の顔画像が抽出された場合には、前記
カメラ制御手段をして、前記音源方向検出手段により検
出された音源方向に最も近い位置にいる人物の顔画像
を、前以って設定された画面上の位置及び/又は大きさ
に表示させるように制御するカメラ制御方法とすること
を特徴とするものである。A third aspect of the invention is the camera control method according to the first or second aspect of the invention, in which the face image extracting means detects two or more persons in the sound source direction detected by the sound source direction detecting means. When the face image is extracted, the camera control means is used to display the face image of the person closest to the sound source direction detected by the sound source direction detecting means on the screen set in advance. The camera control method is so controlled as to display the position and / or size of the camera.
【0013】第4の発明は、前記第1乃至第3の発明の
いずれかに記載のカメラ制御方法において、前記音源方
向検出手段により検出された音源方向に、前記顔画像抽
出手段により人物の顔画像が検出されなかった場合、及
び/又は、前記顔画像抽出手段により抽出された人物の
顔画像が画面内に収まり切らなかった場合には、前記カ
メラ制御手段をして、前記カメラを広角動作へのズーム
変更の制御を自動的に行なわしめ、該広角動作による撮
像画像に基づいて、前記顔画像抽出手段による人物の顔
画像の抽出動作と、前記顔画像位置判定手段による画面
上に表示される顔画像の位置及び/又は大きさの認識動
作とが行なわれるカメラ制御方法とすることを特徴とす
るものである。According to a fourth aspect of the present invention, in the camera control method according to any one of the first to third aspects, a face of a person is detected by the face image extracting means in the sound source direction detected by the sound source direction detecting means. When no image is detected and / or when the face image of the person extracted by the face image extracting means does not fit on the screen, the camera control means is used to operate the camera in wide-angle operation. The automatic zoom control is performed to display the face image of the person by the face image extracting means and the face image position determining means displays on the screen based on the captured image by the wide-angle operation. The camera control method is characterized in that a position and / or size of a face image is recognized.
【0014】第5の発明は、前記第1乃至第4の発明の
いずれかに記載のカメラ制御方法において、前記音源方
向検出手段により検出された音源方向に、前記カメラ制
御手段によりカメラの角度変更及び/又はズーム変更の
制御が行なわれた後の経過時間を計測する時間計測手段
を更に有し、該時間計測手段により計測される前記経過
時間が、前以って設定されている一定の単位時間を経過
していることが検出される毎に、前記音源方向検出手段
により検出される音源方向への前記カメラ制御手段によ
るカメラの角度変更及び/又はズーム変更の制御がなさ
れるカメラ制御方法とすることを特徴とするものであ
る。A fifth invention is the camera control method according to any one of the first to fourth inventions, wherein the camera control means changes the angle of the camera in the sound source direction detected by the sound source direction detection means. And / or a time measuring means for measuring an elapsed time after the zoom change control is performed, and the elapsed time measured by the time measuring means is a preset unit. A camera control method in which the camera angle change and / or zoom change control by the camera control unit in the sound source direction detected by the sound source direction detection unit is performed each time it is detected that time has elapsed. It is characterized by doing.
【0015】第6の発明は、前記第1乃至第5の発明の
いずれかに記載のカメラ制御方法において、前記顔画像
抽出手段が、人物の肌色を識別することにより、人物の
顔画像を抽出するカメラ制御方法とすることを特徴とす
るものである。According to a sixth aspect of the present invention, in the camera control method according to any one of the first to fifth aspects, the face image extracting means extracts the face image of the person by identifying the skin color of the person. And a camera control method for controlling the camera.
【0016】第7の発明は、前記第1乃至第6の発明の
いずれかに記載のカメラ制御方法において、前記顔画像
抽出手段が、人物の輪郭を識別することにより、人物の
顔画像を抽出するカメラ制御方法とすることを特徴とす
るものである。A seventh invention is the camera control method according to any one of the first to sixth inventions, wherein the face image extraction means extracts a face image of the person by identifying the outline of the person. And a camera control method for controlling the camera.
【0017】第8の発明は、前記第1乃至第7の発明の
いずれかに記載のカメラ制御方法において、前記音源方
向検出手段が、複数個の前記音声入力手段に入力される
それぞれの音声信号の周波数及び/又は遅延時間を分析
することにより、音源方向を検出するカメラ制御方法と
することを特徴とするものである。An eighth invention is the camera control method according to any one of the first to seventh inventions, wherein the sound source direction detecting means inputs respective audio signals to a plurality of the audio input means. The method is characterized by providing a camera control method for detecting the sound source direction by analyzing the frequency and / or the delay time.
【0018】第9の発明は、水平方向及び/又は垂直方
向への角度変更、及び/又は、広角及び/又は望遠への
ズーム変更を制御可能とするカメラ制御装置において、
更に、前記第1乃至第8の発明のいずれかに記載のカメ
ラ制御方法を実現することを可能とする手段を備えてい
るカメラ制御装置とすることを特徴とするものである。A ninth invention is a camera control device capable of controlling an angle change in a horizontal direction and / or a vertical direction and / or a zoom change in a wide angle and / or a telephoto.
Further, the present invention is characterized in that the camera control device is provided with means for realizing the camera control method according to any one of the first to eighth inventions.
【0019】第10の発明は、テレビ会議を行なうテレ
ビ会議システムにおいて、前記第9の発明に記載のカメ
ラ制御装置を備えているテレビ会議システムとすること
を特徴とするものである。A tenth aspect of the present invention is a video conference system for performing a video conference, the video conference system comprising the camera control device according to the ninth aspect.
【0020】[0020]
【発明の実施の形態】本発明によるカメラ制御方法及び
該カメラ制御方法を実現するカメラ制御装置並びに該カ
メラ制御装置を備えているテレビ会議システムに関する
実施形態の一例を以下に説明する。図1は、本発明によ
るカメラ制御方法及びカメラ制御装置をテレビ会議シス
テムに適用する場合における実施形態の構成の一例を示
す機能ブロック図であり、テレビ会議システム装置本体
20は、次の回路要素から構成されている。テレビ会議
システム装置本体20は、当該テレビ会議システム装置
本体20の全体制御を司るCPU(中央演算装置)1
と、CPU1による制御・演算等のためのプログラムを
格納しているROM(リードオンメモリ)及び該制御・
演算等を補助すると共に諸データを格納するワーキング
メモリとしてのRAM(ランダムアクセスメモリ)とか
らなるメモリA 2と、テレビ会議システムを動作させ
る上で必要な情報を保管しておくためのプログラマブル
な書き換えが可能なメモリB 3とを備えている。BEST MODE FOR CARRYING OUT THE INVENTION An example of an embodiment relating to a camera control method according to the present invention, a camera control apparatus for realizing the camera control method, and a video conference system including the camera control apparatus will be described below. FIG. 1 is a functional block diagram showing an example of the configuration of an embodiment when a camera control method and a camera control device according to the present invention are applied to a video conference system. The video conference system device main body 20 includes the following circuit elements. It is configured. The video conference system device body 20 includes a CPU (central processing unit) 1 that controls the entire video conference system device body 20.
And a ROM (read-on memory) storing programs for control / calculation by the CPU 1 and the control /
A memory A 2 including a RAM (random access memory) as a working memory for assisting calculations and storing various data, and programmable rewriting for storing information necessary for operating the video conference system. And a memory B 3 capable of
【0021】更に、テレビ会議システム装置本体20
は、テレビ会議への参加者が会話するために用いる、2
個以上の複数個からなる音声入力部4及び2個以上の複
数個からなるスピーカ5と、音声入力部4とスピーカ5
とを制御する音声制御部6と、複数個の音声入力部4そ
れぞれから入力される各入力音声信号の周波数の分析や
入力音声信号の遅延時間の分析により音源方向を検出す
る音源方向検出部15と、通信回線17を介して、映像
や音声データの受け渡しを行なう通信制御部7と、人物
の顔画像の抽出と該顔画像の画面上の位置及び/又は大
きさを把握する顔画像抽出・位置判定部8と、通信制御
部7との間で送受信される映像及び音声データの分離や
多重化を行なう分離多重化部9と、テレビ会議に必要と
する映像を撮影するカメラ10と、カメラ10の水平方
向及び/又は垂直方向との角度(方向)変更を制御した
り、広角及び/又は望遠へのズーム変更を制御したり、
あるいは、現在のカメラ10の角度(方向)やズームの
状態をカメラ位置として把握するカメラ制御・位置判定
部11とを備えている。Further, the main body 20 of the video conference system device.
Used by participants in a video conference to talk
A voice input unit 4 including a plurality of voice input units and a speaker 5 including a plurality of two or more voice input units 4 and a speaker 5.
And a sound source direction detecting unit 15 for detecting the sound source direction by analyzing the frequency of each input audio signal input from each of the plurality of audio input units 4 and the delay time of the input audio signal. A communication control unit 7 for transferring video and audio data via the communication line 17, a face image of a person, and a face image extraction for grasping the position and / or size of the face image on the screen. A position determining unit 8 and a demultiplexing unit 9 that demultiplexes and multiplexes video and audio data transmitted and received between the communication control unit 7, a camera 10 that captures an image required for a video conference, and a camera. Control the angle (direction) change with 10 horizontal and / or vertical directions, control the zoom change to wide angle and / or telephoto,
Alternatively, it is provided with a camera control / position determination unit 11 that grasps the current angle (direction) of the camera 10 and the zoom state as a camera position.
【0022】ここに、音源方向検出部15は、前述のご
とく、テレビ会議への参加者よりも少ない数からなる2
個以上の複数個の音声入力部4から入力された入力音声
の周波数や音声信号の遅延時間を分析することにより、
音源方向を検出する音源方向検出手段を提供するもので
ある。また、顔画像抽出・位置判定部8は、前述のごと
く、カメラ10より入力される画像から人物の顔画像を
抽出する顔画像抽出手段と、該顔画像抽出手段により抽
出され、画面上に表示された顔画像の位置及び/又は画
面上での顔画像の大きさを認識することができる顔画像
位置判定手段とを提供するものであり、人物の顔画像を
抽出する顔画像抽出手段としては、人物の肌色を識別す
ることにより、あるいは、人物の輪郭を識別することに
より、人物の顔画像を抽出することが可能である。Here, as described above, the sound source direction detecting unit 15 is composed of a smaller number than the participants in the video conference.
By analyzing the frequency of the input voice and the delay time of the voice signal input from the plurality of voice input units 4 or more,
A sound source direction detecting means for detecting a sound source direction is provided. As described above, the face image extraction / position determination unit 8 includes a face image extraction unit that extracts a face image of a person from the image input from the camera 10, and the face image extraction unit extracts the face image and displays it on the screen. A face image position determining means capable of recognizing the position of the face image and / or the size of the face image on the screen is provided as a face image extracting means for extracting a face image of a person. It is possible to extract a face image of a person by identifying the skin color of the person or by identifying the contour of the person.
【0023】また、カメラ制御・位置判定部11は、前
述のごとく、カメラ10の水平方向及び/又は垂直方向
への角度変更(即ち、パン及び/又はチルト変更)、及
び/又は、広角及び/又は望遠へのズーム変更を制御す
るカメラ制御手段を提供すると共に、現在のカメラ10
の位置(即ち、方向やズーム状態)を判定したり、ある
いは、前記音源方向検出手段により検出された音源方向
に所在している人物の顔画像を前以って設定されている
画面上の位置及び/又は大きさ(倍率)に自動的に表示
させたりすることができる表示位置判定手段を含むカメ
ラ制御手段を提供しているものである。Further, the camera control / position determination unit 11 changes the angle of the camera 10 in the horizontal direction and / or the vertical direction (that is, changes the pan and / or the tilt) and / or the wide angle and / or the wide angle, as described above. Alternatively, the present camera 10 is provided with a camera control means for controlling the zoom change to the telephoto.
Position (that is, direction or zoom state) is determined, or a face image of a person located in the sound source direction detected by the sound source direction detecting means is set on the screen in advance. And / or a camera control unit including a display position determination unit that can automatically display the size (magnification).
【0024】更には、テレビ会議システム装置本体20
は、映像データや各種の文字情報を表示する表示部12
と、カメラ10で撮影された映像を符号化すること、及
び/又は、表示部12に表示する映像データや文字情報
を符号化することを制御する映像制御部13と、相手先
の電話番号の入力やテレビ会議システム装置本体20に
対する操作のための入力を行ない、該入力を判定するた
めの操作部14と、発言者の自動探索時において、単位
時間間隔毎に、音源方向の検出動作と顔画像の抽出動作
とを制御するために必要となる時計部16とを備えてい
る。かかる各回路要素は、図1に示す通り互いに結線さ
れて、テレビ会議システム装置本体20が構成されてい
る。ここに、図1に示す結線として、実線は、音声及び
/又は画像情報が流れる情報信号線を示し、また、破線
は、各種の制御情報が流れる制御信号線を示している。Further, the main body 20 of the video conference system device
Is a display unit 12 for displaying video data and various character information.
And an image control unit 13 for controlling encoding of an image captured by the camera 10 and / or encoding of image data or character information displayed on the display unit 12, and a telephone number of the other party. Inputting and inputting for operation on the video conference system device main body 20, the operation unit 14 for determining the input, and the detecting operation of the sound source direction and the face at every unit time interval during the automatic search of the speaker. A clock unit 16 necessary for controlling the image extracting operation is provided. The respective circuit elements are connected to each other as shown in FIG. 1 to form the video conference system device body 20. Here, as the connection shown in FIG. 1, a solid line indicates an information signal line through which audio and / or image information flows, and a broken line indicates a control signal line through which various control information flows.
【0025】また、メモリB 3に記憶されている具体
的な情報としては、例えば、顔画像の検出用としての人
物の肌色や人物の輪郭に関するデータ、前以って設定さ
れている顔画像の画面表示位置・範囲、前以って設定さ
れている顔画像の画面の大きさ、顔画像検出動作の停止
時間間隔(即ち、音源方向検出方向の検出と、該音源方
向の顔画像の検出と、該顔画像の所定の位置/大きさへ
の表示を実行させる単位時間間隔)の設定値や、発呼時
の発呼先番号(アドレス)などが記憶されている。テレ
ビ会議システム装置本体20にて画像通信が行なわれて
いる通信中の状態にある時、複数個の音声入力部4で得
られたそれぞれの音声信号に基づいて、音源方向検出部
15により音源方向が検出される。CPU1は、カメラ
制御・位置判定部11にてカメラ10の位置(方向とズ
ームの状態)を判断すると共に、音源方向検出部15に
より検出された音源方向へカメラ10の向きを制御す
る。The specific information stored in the memory B3 is, for example, data relating to the skin color of a person or the outline of the person for detecting a face image, and the face image set in advance. Screen display position / range, screen size of face image set in advance, stop time interval of face image detection operation (that is, detection of sound source direction detection direction and detection of face image in the sound source direction) A set value of a unit time interval for executing display of the face image at a predetermined position / size, a callee number (address) at the time of making a call, and the like are stored. When the video conference system device main body 20 is in a communication state in which image communication is being performed, the sound source direction detection unit 15 detects the sound source direction based on the respective audio signals obtained by the plurality of audio input units 4. Is detected. The CPU 1 determines the position (direction and zoom state) of the camera 10 by the camera control / position determination unit 11, and controls the orientation of the camera 10 to the sound source direction detected by the sound source direction detection unit 15.
【0026】ここで、カメラ10から取り込まれた映像
データに基づいて、顔画像抽出・位置判定部8により、
人物の顔画像が抽出され、抽出された顔画像の位置が検
出される。しかる後、再び、CPU1は、カメラ制御・
位置判定部11により、カメラ10の位置(方向とズー
ムの状態)を判断し、かつ、カメラ10から取り込まれ
た映像データに基づいて、顔画像抽出・位置判定部8に
より抽出されて、画面上の表示位置が検出されている人
物の顔画像から、前以って設定されている画面上の所定
の位置及び/又は大きさ(倍率)に、顔画像が表示され
るように、カメラ10の位置が制御される。Here, based on the video data taken in from the camera 10, the face image extraction / position determination unit 8
The face image of the person is extracted, and the position of the extracted face image is detected. After that, the CPU 1 controls the camera again.
The position determination unit 11 determines the position (direction and zoom state) of the camera 10, and the face image extraction / position determination unit 8 extracts the image data on the screen based on the video data captured from the camera 10. The face image of the person whose display position is detected is displayed by the camera 10 so that the face image is displayed at a predetermined position and / or size (magnification) on the screen set in advance. The position is controlled.
【0027】また、発言者が検出されて、前以って設定
されている画面上の所定の位置及び/又は大きさ(倍
率)に、該発言者の顔画像が一旦表示された以降におい
ては、カメラ10で撮像され、画面表示されている顔画
像の表示を安定させるために、音源方向の検出動作と顔
画像の抽出動作更には所定の位置及び/又は大きさへの
カメラの制御動作との常時実行を一旦停止させて、時計
部16によりタイマを起動させて、前以って設定されて
いる単位時間が経過する毎に、実行されるように制御す
る。Further, after the speaker is detected and the face image of the speaker is once displayed at a predetermined position and / or size (magnification) on the screen set in advance, In order to stabilize the display of the face image captured by the camera 10 and displayed on the screen, a sound source direction detection operation, a face image extraction operation, and a camera control operation to a predetermined position and / or size are performed. The constant execution is temporarily stopped, the timer is started by the clock unit 16, and the timer is controlled to be executed each time a preset unit time elapses.
【0028】図1に示す本実施形態の構成について更に
詳細に説明する。前述のごとく、映像情報と音声情報と
をそれぞれ符号化する符号化手段と符号化されたデータ
を復号化する復号化手段としては、映像制御部13と音
声制御部6とがそれぞれ分担している。通信回線17に
データを送信する送信手段と通信回線17からのデータ
を受信する受信手段とは、通信制御部7が担務してい
る。符号化/復号化された情報の画像通信を行なうため
に必要とする処理を適時行なう画像及び音声情報処理手
段の役割は、主として、CPU1が、メモリA 2,メ
モリB 3,映像制御部13,音声制御部6,通信制御
部7を制御することにより、遂行される。The configuration of this embodiment shown in FIG. 1 will be described in more detail. As described above, the video control unit 13 and the audio control unit 6 share the encoding unit for encoding the video information and the audio information and the decoding unit for decoding the encoded data, respectively. . The communication control unit 7 is responsible for transmitting means for transmitting data to the communication line 17 and receiving means for receiving data from the communication line 17. The role of the image and audio information processing means for timely performing the processing required for image communication of encoded / decoded information is mainly that the CPU 1 controls the memory A 2, the memory B 3, the video control unit 13, This is performed by controlling the voice control unit 6 and the communication control unit 7.
【0029】また、画像の圧縮・解凍処理は、通信制御
部7にて行なわれる。更に、前以って設定されている一
定の単位時間まで時間をカウント・計測する時計手段即
ち時間計測手段は、時計部16が担務する。入力される
画像から人物の顔画像を抽出し、画面上に表示される人
物の顔画像の位置及び/又は大きさを把握する人物の顔
画像抽出・位置判定手段は、顔画像抽出・位置判定部8
が分担する。入力音声の音源方向を検出する音源方向検
出手段は、音源方向検出部15が分担する。テレビ会議
システム装置本体20を操作するためのキー入力を検出
する入力検出手段は、操作部14が担務している。カメ
ラ10を上下左右にチルト・パン動作させる方向変更手
段とカメラ10を広角や望遠状態に動作させるズーム変
更手段とは、カメラ制御・位置判定部11が分担してい
る。The image compression / decompression process is performed by the communication control unit 7. Further, the clock unit 16 is responsible for the clock means for counting and measuring the time up to a preset unit time, that is, the time measuring means. A face image extraction / position determination unit for a person that extracts a face image of a person from an input image and grasps the position and / or size of the face image of the person displayed on the screen is a face image extraction / position determination. Part 8
Will be shared. The sound source direction detecting unit 15 is responsible for the sound source direction detecting means for detecting the sound source direction of the input voice. The operation unit 14 is responsible for input detection means for detecting a key input for operating the video conference system device body 20. The camera control / position determination unit 11 shares the direction changing means for tilting / panning the camera 10 vertically and horizontally and the zoom changing means for moving the camera 10 in a wide-angle or telephoto state.
【0030】次に、以上のごとき構成を有するテレビ会
議システム装置のカメラ制御方法及びカメラ制御装置に
関し、発言者の位置を自動探索し、該発言者の顔画像を
所定の位置及び/又は大きさで表示させる動作につい
て、図2,図3,図4,図5,図6に示す各フローチャ
ートに沿って説明する。図2は、図1に示すテレビ会議
システムにおける本発明に係るカメラ制御方法及びカメ
ラ制御装置に関わる一実施形態を説明するためのフロー
チャートである。以下、図2に示すフローチャートに沿
って、本実施形態について説明する。テレビ会議システ
ム装置本体20において、空き(Idle)状態(ステ
ートS1)から画像通信中の状態を示す通信中の状態
(ステートS2)に移行すると、まず、2個以上の複数
個からなる音声入力部4に入力されている入力音声信号
があるか否かが確認され(ステップa1)、入力音声信
号が検出されていない場合には(ステップa1のN
O)、ステップa1にて、次の音声の入力があるまで待
ち合わされる。Next, regarding the camera control method and the camera control device of the video conference system apparatus having the above-mentioned configuration, the position of the speaker is automatically searched, and the face image of the speaker is predetermined position and / or size. The operation to be displayed at will be described with reference to the flowcharts shown in FIGS. 2, 3, 4, 5, and 6. FIG. 2 is a flowchart for explaining one embodiment of the camera control method and the camera control device according to the present invention in the video conference system shown in FIG. The present embodiment will be described below with reference to the flowchart shown in FIG. In the main body 20 of the video conference system, when the idle state (state S1) is changed to the communicating state (state S2) indicating the image communicating state, first, the voice input unit including a plurality of two or more voice input parts is provided. It is confirmed whether or not there is an input voice signal being input to No. 4 (step a1), and if no input voice signal is detected (N in step a1).
O), at step a1, the process waits until the next voice is input.
【0031】一方、入力音声信号が検出された場合には
(ステップa1のYES)、音源方向検出部15によ
り、該入力音声信号の音源方向が検出される(ステップ
a2)。更に、カメラ制御・位置判定部11により、カ
メラ10の現在の位置(方向とズームの状態、即ち、水
平、垂直、望遠及び広角の位置)が検出される(ステッ
プa3)。検出された音源方向と、検出された現在のカ
メラ10の位置とは、メモリB3に一旦保存される(ス
テップa4)。CPU1により、検出されてメモリB3
に保存されている音源方向とカメラ10の現在の位置
(方向とズームの状態、即ち、水平、垂直、望遠及び広
角の位置)とが確認され、カメラ10の向きを、音源方
向に向けさせるための移動量が算出され、算出された該
移動量をカメラ制御・位置判定部11に送信して、カメ
ラ制御・位置判定部11からの制御により、カメラ10
の向きを、検出された音源方向へと動作させる(ステッ
プa5)。On the other hand, when the input voice signal is detected (YES in step a1), the sound source direction detecting section 15 detects the sound source direction of the input voice signal (step a2). Further, the camera control / position determination unit 11 detects the current position (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) of the camera 10 (step a3). The detected sound source direction and the detected current position of the camera 10 are temporarily stored in the memory B3 (step a4). Memory B3 detected by CPU1
To confirm the sound source direction and the current position of the camera 10 (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) stored in, and to direct the camera 10 to the sound source direction. The movement amount of the camera 10 is calculated, the calculated movement amount is transmitted to the camera control / position determination unit 11, and the camera 10 is controlled by the camera control / position determination unit 11.
Is operated in the direction of the detected sound source (step a5).
【0032】カメラ10の音源方向への移動動作後、撮
像されたカメラ10からの映像信号に基づいて、顔画像
抽出・位置判定部8により、該映像信号の中に含まれて
いる人物の顔画像を抽出すると共に、画面上の該顔画像
の位置と画面上での顔画像の大きさ(倍率)とを判定し
(ステップa6)、判定された画面上の顔画像の位置と
画面上での顔画像の大きさ(倍率)とを示すカメラ10
の位置(方向及びズームの状態)は、メモリB 3に保
存される(ステップa7)。After the movement of the camera 10 in the direction of the sound source, the face image extraction / position determination unit 8 determines the face of the person included in the image signal based on the imaged image signal from the camera 10. While extracting the image, the position of the face image on the screen and the size (magnification) of the face image on the screen are determined (step a6), and the determined position of the face image on the screen and the screen are determined. 10 showing the size (magnification) of the face image of the
The position (direction and zoom state) of is stored in the memory B 3 (step a7).
【0033】しかる後において、メモリB 3に予め保
存されている設定値に沿って、画面上の顔画像の位置、
大きさ(倍率)を決定し、決定された顔画像の位置と大
きさ(倍率)とに基づいて、再び、カメラ制御・位置判
定部11により、カメラ10の方向とズームとを動作さ
せることにより、音源となっている人物即ち発言者の顔
画像を前以って設定されている画面上の位置と大きさ
(倍率)とに自動的に表示することができる(ステップ
a8)。After that, the position of the face image on the screen is set in accordance with the preset values stored in the memory B3 in advance.
By determining the size (magnification), the camera control / position determination unit 11 operates the direction and zoom of the camera 10 again based on the determined position and size (magnification) of the face image. The face image of the person who is the sound source, that is, the speaker can be automatically displayed at the preset position and size (magnification) on the screen (step a8).
【0034】ここで、ステップa6において、発言者を
示す人物の顔画像抽出と画面上の顔画像の位置・大きさ
を、顔画像抽出・位置判定部8において判定する判定方
法としては、例えば、特開2000−354247号公
報「画像処理装置」や前記特開平5−268599号公
報「テレビ会議システムにおける人物撮像カメラの自動
制御方式」等により開示されているように、前述したご
とく、人物の肌色や人物の輪郭から顔画像を抽出するこ
ととする。かくのごとき動作を行なうことにより、発言
者の顔画像を、画面上の前以って設定されている所定の
位置に、前以って設定されている所定の大きさで正確に
表示することが可能となる。Here, in step a6, the face image extraction / position determination unit 8 determines the face image of the person indicating the speaker and the position / size of the face image on the screen. As disclosed in Japanese Patent Application Laid-Open No. 2000-354247, "Image processing apparatus", Japanese Patent Application Laid-Open No. 5-268599, "Automatic control system for human image pickup camera in video conference system", etc., as described above, The face image is extracted from the contour of the person. By performing such an operation, the face image of the speaker can be accurately displayed at a predetermined position set on the screen in a predetermined size set in advance. Is possible.
【0035】次に、図3に示す本発明に係るカメラ制御
方法及びカメラ制御装置の他の実施形態について説明す
る。図3は、図1に示すテレビ会議システムにおける本
発明に係るカメラ制御方法及びカメラ制御装置に関わる
他の実施形態を説明するためのフローチャートである。Next, another embodiment of the camera control method and the camera control apparatus according to the present invention shown in FIG. 3 will be described. FIG. 3 is a flowchart for explaining another embodiment relating to the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
【0036】ここに、図3においては、カメラ制御・位
置判定部11を動作させて、音源方向検出部15にて検
出された音源方向に、カメラ10を移動動作させること
により、顔画像抽出・位置判定部8により、画面上の人
物の顔画像を検出した時に、周りの反響音などのために
音源検出方向に多少の誤差が生じて、2つ以上の顔画像
が抽出された場合、それぞれの顔画像の位置をメモリB
3に一旦保存し、音源方向検出部15により検出され
た音源方向に最も近くに所在している人物を目的とする
発言者と判定し、メモリB 3に予め保存されている設
定値に沿って、画面上の顔画像の位置、大きさ(倍率)
を決定し、決定された顔画像の位置と大きさ(倍率)と
に基づいて、再び、カメラ制御・位置判定部11を動作
させることにより、カメラ10を移動動作させて、当該
音源の発生源と判定された発言者を、前以って設定され
ている位置と大きさ(倍率)とにより自動的に画面表示
することを可能としているものである。Here, in FIG. 3, the camera control / position determination unit 11 is operated to move the camera 10 in the sound source direction detected by the sound source direction detection unit 15 to extract a face image. When the position determination unit 8 detects a face image of a person on the screen, if some error occurs in the sound source detection direction due to surrounding echoes, and two or more face images are extracted, The position of the face image of memory B
3 is once stored in the memory B 3, and the person closest to the sound source direction detected by the sound source direction detecting unit 15 is determined to be the speaker, and according to the set value stored in advance in the memory B 3. , Position of face image on screen, size (magnification)
Is determined, and the camera control / position determination unit 11 is operated again based on the determined position and size (magnification) of the face image to move the camera 10 to move the source of the sound source. It is possible to automatically display the speaker determined to be on the screen according to the position and the size (magnification) set in advance.
【0037】以下、図3に示すフローチャートに沿っ
て、本実施形態について説明する。テレビ会議システム
装置本体20において、空き(Idle)状態(ステー
トS1)から画像通信中の状態を示す通信中の状態(ス
テートS2)に移行すると、まず、2個以上の複数個か
らなる音声入力部4に入力されている入力音声信号があ
るか否かが確認され(ステップb1)、入力音声信号が
検出されていない場合には(ステップb1のNO)、ス
テップb1にて、次の音声の入力があるまで待ち合わさ
れる。The present embodiment will be described below with reference to the flow chart shown in FIG. In the main body 20 of the video conference system, when the idle state (state S1) is changed to the communicating state (state S2) indicating the image communicating state, first, the voice input unit including a plurality of two or more voice input parts is provided. It is confirmed whether or not there is an input voice signal input to No. 4 (step b1). If no input voice signal is detected (NO in step b1), the next voice is input in step b1. I will be waiting until there is.
【0038】一方、入力音声信号が検出された場合には
(ステップb1のYES)、音源方向検出部15によ
り、該入力音声信号の音源方向が検出される(ステップ
b2)。更に、カメラ制御・位置判定部11により、カ
メラ10の現在の位置(方向とズームの状態、即ち、水
平、垂直、望遠及び広角の位置)が検出される(ステッ
プb3)。検出された音源方向と、検出された現在のカ
メラ10の位置とは、メモリB3に一旦保存される(ス
テップb4)。CPU1により、検出されてメモリB3
に保存されている音源方向とカメラ10の現在の位置
(方向とズームの状態、即ち、水平、垂直、望遠及び広
角の位置)とが確認され、カメラ10の向きを、音源方
向に向けさせるための移動量が算出され、算出された該
移動量をカメラ制御・位置判定部11に送信して、カメ
ラ制御・位置判定部11からの制御により、カメラ10
の向きを、検出された音源方向へと動作させる(ステッ
プb5)。On the other hand, when the input sound signal is detected (YES in step b1), the sound source direction detecting section 15 detects the sound source direction of the input sound signal (step b2). Further, the camera control / position determination unit 11 detects the current position (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) of the camera 10 (step b3). The detected sound source direction and the detected current position of the camera 10 are temporarily stored in the memory B3 (step b4). Memory B3 detected by CPU1
To confirm the sound source direction and the current position of the camera 10 (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) stored in, and to direct the camera 10 to the sound source direction. The movement amount of the camera 10 is calculated, the calculated movement amount is transmitted to the camera control / position determination unit 11, and the camera 10 is controlled by the camera control / position determination unit 11.
Is operated in the direction of the detected sound source (step b5).
【0039】カメラ10の音源方向への移動動作後、撮
像されたカメラ10からの映像信号に基づいて、顔画像
抽出・位置判定部8により、該映像信号の中に含まれて
いる人物の顔画像を抽出すると共に、画面上の該顔画像
の位置と画面上での顔画像の大きさ(倍率)とが判定さ
れる(ステップb6)。ここで、抽出された人物の顔画
像として、2つ以上の人物の顔画像が検出されているか
否かが判定される(ステップb7)。2つ以上の人物の
顔画像が検出されている場合には(ステップb7のYE
S)、顔画像抽出・位置判定部8により検出されたそれ
ぞれの人物の顔画像の位置と音源方向検出部15により
検出された音源の音源方向とを比較し、該音源方向に最
も近い位置に所在する顔画像の位置の人物を、目的とす
る人物(即ち、発言者)として選択し、ステップb9に
移行する(ステップb8)。一方、2つ以上の人物の顔
画像が検出されていなく、1つの顔画像のみの場合には
(ステップb7のNO)、検出された顔画像の人物が目
的の人物(即ち、発言者)であるので、次のステップb
9に移行する。ステップb9においては、発言者として
選択された人物の顔画像を撮像するためのカメラ10の
位置(方向及びズームの状態)が、メモリB 3に保存
される(ステップb9)。After the camera 10 moves in the direction of the sound source, the face image extraction / position determination unit 8 determines the face of the person included in the image signal based on the imaged image signal from the camera 10. While extracting the image, the position of the face image on the screen and the size (magnification) of the face image on the screen are determined (step b6). Here, it is determined whether or not the face images of two or more persons are detected as the extracted face images of the person (step b7). When the face images of two or more persons are detected (YE in step b7)
S), the position of the face image of each person detected by the face image extraction / position determination unit 8 is compared with the sound source direction of the sound source detected by the sound source direction detection unit 15, and the position is closest to the sound source direction. The person at the position of the existing face image is selected as the target person (that is, the speaker), and the process proceeds to step b9 (step b8). On the other hand, when the face images of two or more persons are not detected and only one face image is detected (NO in step b7), the person of the detected face images is the target person (that is, the speaker). So there is next step b
Move to 9. In step b9, the position (direction and zoom state) of the camera 10 for capturing the face image of the person selected as the speaker is stored in the memory B3 (step b9).
【0040】しかる後において、メモリB 3に予め保
存されている設定値に沿って、画面上の顔画像の位置、
大きさ(倍率)を決定し、決定された顔画像の位置と大
きさ(倍率)とに基づいて、再び、カメラ制御・位置判
定部11により、カメラ10の方向とズームとを動作さ
せることにより、音源となっている人物即ち発言者の顔
画像を前以って設定されている画面上の位置と大きさ
(倍率)とに自動的に表示することができる(ステップ
b10)。After that, the position of the face image on the screen is set in accordance with the set value stored in the memory B 3 in advance.
By determining the size (magnification), the camera control / position determination unit 11 operates the direction and zoom of the camera 10 again based on the determined position and size (magnification) of the face image. The face image of the person who is the sound source, that is, the speaker can be automatically displayed at the preset position and size (magnification) on the screen (step b10).
【0041】次に、図4に示す本発明に係るカメラ制御
方法及びカメラ制御装置の更なる他の実施形態について
説明する。図4は、図1に示すテレビ会議システムにお
ける本発明に係るカメラ制御方法及びカメラ制御装置に
関わる更なる他の実施形態を説明するためのフローチャ
ートである。Next, still another embodiment of the camera control method and the camera control apparatus according to the present invention shown in FIG. 4 will be described. FIG. 4 is a flowchart for explaining still another embodiment of the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
【0042】ここに、図4においては、顔画像抽出・位
置判定部8により画面上の人物の顔画像を検出せんとし
た時に、人物の顔画像が検出されなかった場合、及び/
又は、抽出された人物の顔画像が画面内に収まり切らな
かった場合には、CPU1からカメラ制御・位置判定部
11を動作させて、カメラ10のズーム変更を行なわせ
て、自動的に広角動作させることにより、より広い範囲
の画像を画面上に表示し、かかる広範囲に撮像された画
面上に人物の顔画像が検出されたかどうかを、顔画像抽
出・位置判定部8により判定し、人物の顔画像が抽出さ
れた場合には、メモリB 3に予め保存されている設定
値に沿って、画面上の顔画像の位置及び大きさ(倍率)
を決定し、決定された顔画像の位置と大きさ(倍率)と
に基づいて、再び、カメラ制御・位置判定部11によ
り、カメラ10を動作させることにより、たとえ、音源
方向の検出に誤差があった場合であっても、音源の発生
元の発言者を探し出し、前以って設定されている画面上
の位置と大きさ(倍率)とにより、自動的に表示するこ
とを可能としているものである。Here, in FIG. 4, when the face image extraction / position determination unit 8 does not detect the face image of the person on the screen, the face image of the person is not detected, and /
Alternatively, when the extracted face image of the person does not fit within the screen, the CPU 1 operates the camera control / position determination unit 11 to change the zoom of the camera 10 and automatically perform the wide-angle operation. By doing so, a wider range of images is displayed on the screen, and it is determined by the face image extraction / position determination unit 8 whether or not a face image of a person is detected on the screen captured in such a wide range, and When the face image is extracted, the position and size (magnification) of the face image on the screen are set according to the setting values stored in the memory B 3 in advance.
Then, based on the determined position and size (magnification) of the face image, the camera control / position determination unit 11 operates the camera 10 again, so that an error may occur in the detection of the sound source direction. Even if there is a sound source, it is possible to find the speaker who is the source of the sound source and automatically display it based on the preset position and size (magnification) on the screen. Is.
【0043】以下、図4に示すフローチャートに沿っ
て、本実施形態について説明する。テレビ会議システム
装置本体20において、空き(Idle)状態(ステー
トS1)から画像通信中の状態を示す通信中の状態(ス
テートS2)に移行すると、まず、2個以上の複数個か
らなる音声入力部4に入力されている入力音声信号があ
るか否かが確認され(ステップc1)、入力音声信号が
検出されていない場合には(ステップc1のNO)、ス
テップc1にて、次の音声の入力があるまで待ち合わさ
れる。The present embodiment will be described below with reference to the flowchart shown in FIG. In the main body 20 of the video conference system, when the idle state (state S1) is changed to the communicating state (state S2) indicating the image communicating state, first, the voice input unit including a plurality of two or more voice input parts is provided. It is confirmed whether or not there is an input voice signal input in step 4 (step c1). If no input voice signal is detected (NO in step c1), the next voice is input in step c1. I will be waiting until there is.
【0044】一方、入力音声信号が検出された場合には
(ステップc1のYES)、音源方向検出部15によ
り、該入力音声信号の音源方向が検出される(ステップ
c2)。更に、カメラ制御・位置判定部11により、カ
メラ10の現在の位置(方向とズームの状態、即ち、水
平、垂直、望遠及び広角の位置)が検出される(ステッ
プc3)。検出された音源方向と、検出された現在のカ
メラ10の位置とは、メモリB3に一旦保存される(ス
テップc4)。CPU1により、検出されてメモリB3
に保存されている音源方向とカメラ10の現在の位置
(方向とズームの状態、即ち、水平、垂直、望遠及び広
角の位置)とが確認され、カメラ10の向きを、音源方
向に向けさせるための移動量が算出され、算出された該
移動量をカメラ制御・位置判定部11に送信して、カメ
ラ制御・位置判定部11からの制御により、カメラ10
の向きを、検出された音源方向へと動作させる(ステッ
プc5)。On the other hand, when the input audio signal is detected (YES in step c1), the sound source direction detecting section 15 detects the sound source direction of the input audio signal (step c2). Further, the camera control / position determination unit 11 detects the current position (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) of the camera 10 (step c3). The detected sound source direction and the detected current position of the camera 10 are temporarily stored in the memory B3 (step c4). Memory B3 detected by CPU1
To confirm the sound source direction and the current position of the camera 10 (direction and zoom state, that is, horizontal, vertical, telephoto, and wide-angle position) stored in, and to direct the camera 10 to the sound source direction. The movement amount of the camera 10 is calculated, the calculated movement amount is transmitted to the camera control / position determination unit 11, and the camera 10 is controlled by the camera control / position determination unit 11.
Is operated in the direction of the detected sound source (step c5).
【0045】カメラ10の音源方向への移動動作後、撮
像されたカメラ10からの映像信号に基づいて、顔画像
抽出・位置判定部8により、該映像信号の中に含まれて
いる人物の顔画像を抽出すると共に、画面上の該顔画像
の位置と画面上での顔画像の大きさ(倍率)とが判定さ
れる(ステップc6)。ここで、顔画像抽出・位置判定
部8により、人物の顔画像が検出されているか否かが判
定される(ステップc7)。人物の顔画像が検出されて
いる場合(ステップc7のYES)、検出されている顔
画像の人物が、目的とする人物(即ち、発言者)であ
り、発言者として決定された人物の顔画像を撮像してい
るカメラ10の位置(方向及びズームの状態)が、メモ
リB 3に保存される(ステップc10)。一方、ステ
ップc7において、人物の顔画像が検出されていない場
合、及び/又は、抽出された人物の顔画像が画面内に収
まり切らなかった場合には(ステップc7のNO)、カ
メラ制御・位置判定部11を動作させて、カメラ10を
制御し、より広範囲の画像を撮像する広角動作を行なわ
しめる。After the camera 10 moves in the direction of the sound source, the face image extraction / position determination unit 8 determines the face of the person included in the image signal based on the imaged image signal from the camera 10. While extracting the image, the position of the face image on the screen and the size (magnification) of the face image on the screen are determined (step c6). Here, the face image extraction / position determination unit 8 determines whether or not a face image of a person is detected (step c7). When the face image of the person is detected (YES in step c7), the person of the detected face image is the target person (that is, the speaker), and the face image of the person who is determined as the speaker. The position (direction and zoom state) of the camera 10 that is capturing the image is stored in the memory B 3 (step c10). On the other hand, in step c7, if the face image of the person is not detected and / or if the extracted face image of the person does not fit on the screen (NO in step c7), camera control / position The determination unit 11 is operated to control the camera 10 to perform a wide-angle operation for capturing an image in a wider range.
【0046】広角動作のカメラ10により撮像されたカ
メラ10からの映像信号に基づいて、再度、顔画像抽出
・位置判定部8により、該映像信号の中に含まれている
人物の顔画像を抽出すると共に、画面上の該顔画像の位
置と画面上での顔画像の大きさ(倍率)が判定される
(ステップc9)。ここで、人物の顔画像が検出された
場合には(ステップc9のYES)、音源方向の検出に
誤差があったものとみなして、広角動作の結果、顔画像
抽出・位置判定部8により人物の顔画像が検出された人
物が、音源の発生元の目的とする人物(即ち、発言者)
であるとして、ステップc10に移行し、発言者として
決定された人物の顔画像を撮像するためのカメラ10の
位置(方向及びズームの状態)が、メモリB 3に保存
される(ステップc10)。Based on the video signal from the camera 10 picked up by the wide-angle camera 10, the face image extraction / position determination unit 8 again extracts the face image of the person included in the video signal. At the same time, the position of the face image on the screen and the size (magnification) of the face image on the screen are determined (step c9). Here, when the face image of the person is detected (YES in step c9), it is considered that there is an error in the detection of the sound source direction, and as a result of the wide-angle operation, the face image extraction / position determination unit 8 determines the person. The person whose face image was detected is the person who is the source of the sound source (that is, the speaker)
If so, the process proceeds to step c10, and the position (direction and zoom state) of the camera 10 for capturing the face image of the person determined as the speaker is stored in the memory B3 (step c10).
【0047】しかる後において、メモリB 3に予め保
存されている設定値に沿って、画面上の顔画像の位置、
大きさ(倍率)を決定し、決定された顔画像の位置と大
きさ(倍率)とに基づいて、再び、カメラ制御・位置判
定部11により、カメラ10の方向とズームとを動作さ
せることにより、音源となっている人物即ち発言者の顔
画像を前以って設定されている画面上の位置と大きさ
(倍率)とに自動的に表示することができる(ステップ
c12)。After that, the position of the face image on the screen is set in accordance with the set values stored in advance in the memory B3.
By determining the size (magnification), the camera control / position determination unit 11 operates the direction and zoom of the camera 10 again based on the determined position and size (magnification) of the face image. The face image of the person who is the sound source, that is, the speaker can be automatically displayed at the preset position and size (magnification) on the screen (step c12).
【0048】一方、ステップc9において、広角動作さ
せたカメラ10によっても、人物の顔画像が検出されな
かった場合には(ステップc9のNO)、音源方向検出
部15が検出した音源が、何らかの雑音によるものとみ
なして、音源方向検出動作を一旦停止せしめて(ステッ
プc11)、ステップc1に復帰し、次の音声の入力が
あるまで待ち合わされる。On the other hand, in step c9, when the face image of the person is not detected even by the camera 10 operated in the wide angle (NO in step c9), the sound source detected by the sound source direction detecting unit 15 causes some noise. The sound source direction detection operation is temporarily stopped (step c11), the process returns to step c1, and the process waits until the next voice is input.
【0049】次に、図5に示す本発明に係るカメラ制御
方法及びカメラ制御装置の更なる他の実施形態について
説明する。図5は、図1に示すテレビ会議システムにお
ける本発明に係るカメラ制御方法及びカメラ制御装置に
関わる更なる他の実施形態を説明するためのフローチャ
ートである。Next, still another embodiment of the camera control method and the camera control apparatus according to the present invention shown in FIG. 5 will be described. FIG. 5 is a flowchart for explaining still another embodiment relating to the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
【0050】ここに、図5においては、一度、前記図2
乃至図4のいずれかに示す過程を経て、目的とする人物
(即ち、発言者)の顔画像が検出されて、該発言者の顔
画像を前以って設定されている画面上の所定の位置と所
定の大きさ(倍率)とに自動的に表示する動作が決定さ
れた後において、音源方向検出部15により常時音源方
向を検出するような動作を一旦停止せしめて、メモリB
3に予め登録されている単位時間間隔が経過するまで
時計部16によりタイマをカウントさせて、該単位時間
間隔が経過する毎に、音源方向検出部15による音源方
向の再検出を動作させるようにすることにより、発言者
である人物の僅かな動きにも常時反応して、カメラ10
の位置が移動動作されないようにし、もって、発言者の
顔画像を安定して表示させることを可能としているもの
である。Here, in FIG. 5, once in FIG.
Through the process shown in any one of FIG. 4 to FIG. 4, the face image of the target person (that is, the speaker) is detected, and the face image of the speaker is set in a predetermined screen on the screen. After the operation of automatically displaying the position and the predetermined size (magnification) is determined, the operation of constantly detecting the sound source direction by the sound source direction detecting unit 15 is temporarily stopped, and the memory B
3, the timer is counted by the clock unit 16 until the unit time interval pre-registered in 3 is elapsed, and the sound source direction detection unit 15 re-detects the sound source direction every time the unit time interval elapses. By doing so, the camera 10 responds to the slight movement of the person who is the speaker at all times.
It is possible to stably display the face image of the speaker by preventing the position of (1) from being moved.
【0051】以下、図5に示すフローチャートに沿っ
て、本実施形態について説明する。テレビ会議システム
装置本体20において、空き(Idle)状態(ステー
トS1)から画像通信中の状態を示す通信中の状態(ス
テートS2)に移行すると、まず、時計部16によりカ
ウントされるタイマが、メモリB 3に予め登録されて
いる単位時間間隔に到達したか否かが判定される(ステ
ップd1)。該単位時間間隔に到達していない場合には
(ステップd1のNO)、そのまま、時計部16による
タイマのカウントは継続されるが、一方、該単位時間間
隔に到達し、所定の単位時間を経過していることが検出
された場合には(ステップd1のYES)、時計部16
によりカウントされているタイマを一旦クリアして、再
度初期値からのカウントを行なわせることを可能とする
状態に設定させる(ステップd2)。This embodiment will be described below with reference to the flow chart shown in FIG. In the video conference system device main body 20, when the idle state (state S1) is changed to the communication state (state S2) indicating the image communication state, first, the timer counted by the clock unit 16 is It is determined whether the unit time interval pre-registered in B3 has been reached (step d1). When the unit time interval has not been reached (NO in step d1), the timer of the clock unit 16 continues to be counted as it is, while the unit time interval has been reached and the predetermined unit time has elapsed. If it is detected (YES in step d1), the clock unit 16
The timer being counted by is once cleared and is set to a state in which counting from the initial value can be performed again (step d2).
【0052】タイマが前記単位時間間隔が示す時間を経
過したことが時計部16により検出された場合において
は、まず、入力音声信号が検出されるか否かが確認され
る(ステップd3)。入力音声信号が検出されていない
場合には(ステップd3のNO)、ステップd10に移
行して、時計部16によるタイマのカウント動作を開始
させて(ステップd10)、ステップd1に復帰して、
次の単位時間間隔の経過まで待ち合わせる。When the timer 16 detects that the timer has passed the time indicated by the unit time interval, it is first checked whether or not the input voice signal is detected (step d3). When the input voice signal is not detected (NO in step d3), the process proceeds to step d10 to start the counting operation of the timer by the clock unit 16 (step d10), and returns to step d1.
Wait until the next unit time interval elapses.
【0053】一方、入力音声信号が検出されている場合
には(ステップd3のYES)、音源方向検出部15に
より、該入力音声信号の音源方向が検出される(ステッ
プd4)。更に、カメラ制御・位置判定部11により、
カメラ10の現在の位置(方向とズームの状態、即ち、
水平、垂直、望遠及び広角の位置)が検出される(ステ
ップd5)。検出された音源方向と、検出された現在の
カメラ10の位置とは、メモリB3に一旦保存される
(ステップd6)。CPU1により、検出されてメモリ
B3に保存されている音源方向とカメラ10の現在の位
置(方向とズームの状態、即ち、水平、垂直、望遠及び
広角の位置)とが確認され、カメラ10の向きを、音源
方向に向けさせるための移動量が算出され、算出された
該移動量をカメラ制御・位置判定部11に送信して、カ
メラ制御・位置判定部11からの制御により、カメラ1
0の向きを、検出された音源方向へと動作させる(ステ
ップd7)。On the other hand, when the input voice signal is detected (YES in step d3), the sound source direction detecting section 15 detects the sound source direction of the input voice signal (step d4). Further, by the camera control / position determination unit 11,
Current position of camera 10 (direction and zoom status, ie,
Horizontal, vertical, telephoto and wide-angle positions) are detected (step d5). The detected sound source direction and the detected current position of the camera 10 are temporarily stored in the memory B3 (step d6). The CPU 1 confirms the sound source direction detected and stored in the memory B3 and the current position of the camera 10 (direction and zoom state, that is, horizontal, vertical, telephoto and wide-angle position), and the orientation of the camera 10 is confirmed. Is calculated for the direction of the sound source, and the calculated movement amount is transmitted to the camera control / position determination unit 11, and the camera 1 is controlled by the camera control / position determination unit 11.
The direction of 0 is operated toward the detected sound source direction (step d7).
【0054】ここで、前述した図2乃至図4に示すそれ
ぞれのフローチャートのいずれかのカメラ制御動作が選
択されて実行される(ステップd8)。即ち、カメラ1
0の音源方向への移動動作後、撮像されたカメラ10か
らの映像信号に基づいて、顔画像抽出・位置判定部8に
より、該映像信号の中に含まれている人物の顔画像を抽
出すると共に、画面上の該顔画像の位置と画面上での顔
画像の大きさ(倍率)とが判定される。ここで、抽出さ
れた人物の顔画像が、1つのみ、又は、2つ以上の顔画
像が検出されているか、あるいは、1つの顔画像も検出
されていないかのいずれであるかが判定される。Here, any one of the camera control operations in the respective flow charts shown in FIGS. 2 to 4 is selected and executed (step d8). That is, camera 1
After the moving operation of 0 in the sound source direction, the face image extraction / position determination unit 8 extracts the face image of the person included in the image signal based on the imaged image signal from the camera 10. At the same time, the position of the face image on the screen and the size (magnification) of the face image on the screen are determined. Here, it is determined whether only one face image of the extracted person is detected, two or more face images are detected, or one face image is not detected. It
【0055】1つのみの顔画像しか検出されていない場
合には、図2のフローチャートのステップa6及びa7
に示すごとく、抽出された人物の顔画像が目的とする発
言者の顔画像であるとして、前述の顔画像抽出・位置判
定部8の動作により判定されている画面上の該顔画像の
位置と画面上での顔画像の大きさ(倍率)とを示すカメ
ラ10の位置(方向及びズームの状態)が、メモリB
3に保存される。If only one face image is detected, steps a6 and a7 in the flowchart of FIG.
As shown in, the position of the face image on the screen determined by the operation of the face image extraction / position determination unit 8 is determined as the face image of the target speaker as the extracted face image of the person. The position (direction and zoom state) of the camera 10 indicating the size (magnification) of the face image on the screen is stored in the memory B.
Stored in 3.
【0056】また、2つ以上の顔画像が検出されている
場合には、図3のフローチャートのステップb6乃至b
9に示すように、顔画像抽出・位置判定部8により検出
されたそれぞれの人物の顔画像の位置と音源方向検出部
15により検出された音源の音源方向とを比較し、該音
源方向に最も近い位置に所在する顔画像の位置の人物
を、目的とする人物(即ち、発言者)として選択し、発
言者として選択された人物の顔画像を撮像するためのカ
メラ10の位置(方向及びズームの状態)が、メモリB
3に保存される。When two or more face images are detected, steps b6 to b in the flowchart of FIG.
As shown in FIG. 9, the position of the face image of each person detected by the face image extraction / position determination unit 8 is compared with the sound source direction of the sound source detected by the sound source direction detection unit 15, and the sound source direction most The person at the position of the face image located at a close position is selected as the target person (that is, the speaker), and the position (direction and zoom) of the camera 10 for capturing the face image of the person selected as the speaker. State) is memory B
Stored in 3.
【0057】一方、1つの顔画像も検出されていない場
合や顔画像が画面内に収まり切れない場合には、図4の
フローチャートのステップc8乃至c11に示すごと
く、カメラ制御・位置判定部11によりカメラ10を広
角動作させて、広範囲の画像を撮像させた結果、顔画像
抽出・位置判定部8により人物の顔画像が検出されるよ
うになった場合には、該人物の顔画像を撮像するための
カメラ10の位置(方向及びズームの状態)が、メモリ
B 3に保存される。しかし、広角動作によるカメラ1
0によっても、人物の顔画像が検出されなかった場合に
は、音源方向検出動作を一旦停止せしめて、ステップd
10に移行して、時計部16によるタイマのカウント動
作を開始させて(ステップd10)、ステップd1に復
帰して、次の単位時間間隔の経過まで待ち合わせる。On the other hand, when no face image is detected or when the face image does not fit on the screen, the camera control / position determination unit 11 determines by the steps c8 to c11 in the flowchart of FIG. When the face image extraction / position determination unit 8 detects a face image of a person as a result of operating the camera 10 in a wide angle and capturing a wide range of images, the face image of the person is captured. The position (direction and zoom state) of the camera 10 for saving is stored in the memory B 3. However, camera 1 with wide-angle operation
If the face image of the person is not detected even by 0, the sound source direction detection operation is temporarily stopped and step d
10, the timer 16 starts the counting operation of the timer (step d10), returns to step d1, and waits until the next unit time interval elapses.
【0058】発言者の顔画像が検出されて、カメラ10
の位置がメモリB 3に保存された状態に至っている場
合においては、メモリB 3に予め保存されている設定
値に沿って、画面上の顔画像の位置、大きさ(倍率)を
決定し、決定された顔画像の位置と大きさ(倍率)とに
基づいて、再び、カメラ制御・位置判定部11により、
カメラ10の方向とズームとを動作させることにより、
音源となっている人物即ち発言者の顔画像を前以って設
定されている画面上の位置と大きさ(倍率)とにより画
面表示させる(ステップd9)。更に、先にステップd
2において初期値に設定されたタイマのカウントを開始
させて(ステップd10)、ステップd1に復帰して、
次の単位時間間隔の経過まで待ち合わせることにより、
メモリB 3に予め登録されている次回の単位時間間隔
に到達するまで、入力音声の検出動作が中止される。而
して、たとえ、発言者の顔即ち口の位置が、発言中にお
いて、多少ずれて、音源方向が多少ずれてしまうような
場合があったとしても、その都度、カメラ10の位置が
移動調整されることなく、前記単位時間間隔が示す所定
時間が経過するまでは、カメラ10の位置が安定した位
置に置かれることとなり、発言者の顔画像を安定して表
示させることができる。When the face image of the speaker is detected, the camera 10
When the position of is stored in the memory B 3, the position and size (magnification) of the face image on the screen are determined according to the preset values stored in the memory B 3. Based on the determined position and size (magnification) of the face image, the camera control / position determination unit 11 again causes
By operating the direction and zoom of the camera 10,
The face image of the person who is the sound source, that is, the speaker is displayed on the screen according to the preset position and size (magnification) on the screen (step d9). Furthermore, step d
In step 2, the count of the timer set to the initial value is started (step d10), and the process returns to step d1.
By waiting until the next unit time interval elapses,
The input voice detection operation is stopped until the next unit time interval registered in advance in the memory B3 is reached. Therefore, even if the position of the speaker's face, that is, the position of the mouth is slightly deviated during the remark, and the sound source direction is deviated slightly, the position of the camera 10 is adjusted each time. Without being performed, the position of the camera 10 is kept at a stable position until the predetermined time indicated by the unit time interval elapses, and the face image of the speaker can be stably displayed.
【0059】[0059]
【発明の効果】以上に説明したごとく、本発明に係るカ
メラ制御方法及びカメラ制御装置並びにテレビ会議シス
テムによれば、以下のごとき効果がもたらされる。即
ち、本発明によれば、水平方向、垂直方向、広角及び望
遠動作を行なうことができるカメラ制御手段と、カメラ
より入力され、画面上に表示された画像の中から人物の
顔画像を抽出し、顔画像の位置と大きさとを認識する顔
画像抽出・位置判定手段と、参加者数よりも少ない複数
個の音声入力手段に入力されるそれぞれの音声信号の周
波数及び/又は遅延時間から音源方向を検出することが
できる音源方向検出手段により検出された音源方向即ち
発言者の方向にカメラを自動的に向けさせる制御をする
ことができ、かつ、前以って設定されている画面上の所
定の位置に、前以って設定されている顔画像の所定の大
きさで表示されるようにカメラを制御することができる
カメラ位置判定手段をも備えた前記カメラ制御手段と、
を具備することにより、カメラにて正確に発言者を捉え
て、画面上の所定の位置に、且つ、所定の大きさで表示
させることが可能である。As described above, according to the camera control method, the camera control device and the video conference system according to the present invention, the following effects are brought about. That is, according to the present invention, the camera control means capable of performing the horizontal direction, the vertical direction, the wide angle, and the telephoto operation, and the face image of the person are extracted from the images input from the camera and displayed on the screen. , A face image extraction / position determination means for recognizing the position and size of the face image, and a sound source direction from the frequency and / or delay time of each audio signal input to a plurality of audio input means less than the number of participants The direction of the sound source detected by the sound source direction detecting means, that is, the direction of the speaker, can be automatically controlled, and a predetermined value on the screen can be set. At the position, the camera control means also provided with a camera position determination means capable of controlling the camera so as to be displayed in a predetermined size of the face image set in advance,
With the above configuration, the speaker can be accurately captured by the camera and displayed at a predetermined position on the screen and in a predetermined size.
【0060】また、前記音源検出方向手段により検出さ
れた音源検出方向にカメラの向きを制御した際に、周り
の反響音などの影響のため、前記音源検出方向に多少の
誤差が生じて、前記顔画像・位置判定手段にて、複数の
人物の顔画像が検出された場合にあっては、前記音源検
出方向に最も近い位置に所在する人物を発言者として判
別して、判別された該発言者の顔画像を、画面上の所定
の位置に、且つ、所定の大きさで、表示させることがで
きる。Further, when the direction of the camera is controlled in the sound source detection direction detected by the sound source detection direction means, a slight error occurs in the sound source detection direction due to the influence of surrounding reverberation sound, etc. When the face image / position determination means detects the face images of a plurality of persons, the person closest to the sound source detection direction is determined as the speaker, and the determined speech is determined. The face image of the person can be displayed at a predetermined position on the screen and in a predetermined size.
【0061】更に、前記音源検出方向手段により検出さ
れた音源検出方向にカメラの向きを制御しても、前記顔
画像・位置判定手段により、人物の顔画像が検出されな
い場合、及び/又は、顔画像が画面内に収まり切らない
状態にある場合には、カメラを広角動作させて、より広
範囲の画像を撮像せしめ、該広範囲の画像から、発言者
とみなされる人物の顔画像を検出することにより、前記
音源検出方向に多少の誤差があったとしても、該発言者
とみなされた人物の顔画像を、画面上の所定の位置に、
且つ、所定の大きさで、表示させることができる。Furthermore, when the face image of the person is not detected by the face image / position determination means even if the direction of the camera is controlled in the sound source detection direction detected by the sound source detection direction means, and / or If the image does not fit on the screen, the camera is operated in a wide angle to capture a wider range of images, and the face image of the person who is considered to be the speaker is detected from the wider range of images. Even if there is some error in the sound source detection direction, the face image of the person regarded as the speaker is displayed at a predetermined position on the screen.
Moreover, it can be displayed in a predetermined size.
【0062】更には、音源方向の検出動作を常時行なわ
せることなく、前以って登録されている単位時間間隔が
示す所定の単位時間が経過する毎に、音源方向の検出動
作を行なわせ、カメラの位置を音源方向に向けさせ、発
言者の顔画像を画面上の所定の位置や大きさに表示させ
る動作を行なわせることにより、たとえ、発言中に、発
言者の顔の位置即ち口の位置が多少ずれて、音源方向が
多少ずれるようなことがあったとしても、カメラの位置
(即ち、方向及びズームの状態)が常時移動調整される
ことを防止し、発言者の顔画像を安定して、画面表示さ
せることが可能である。Further, the sound source direction detecting operation is not always performed, but the sound source direction detecting operation is performed each time a predetermined unit time indicated by a unit time interval registered in advance elapses. By pointing the position of the camera toward the sound source and displaying the face image of the speaker at a predetermined position or size on the screen, even if the speaker's face position or mouth Even if the position of the sound source is slightly misaligned and the sound source direction is slightly misaligned, the camera position (that is, the direction and zoom state) is constantly prevented from being adjusted, and the face image of the speaker is stabilized. Then, it is possible to display it on the screen.
【0063】また、前記音源方向検出手段として、参加
者数よりも少ない複数個の音声入力手段から入力されて
くるそれぞれの入力音声信号の周波数及び/又は遅延時
間を分析することにより、音声の発生元である音源方向
を検出することを可能としており、音声入力手段の数を
より少なくすることができる。Further, as the sound source direction detecting means, the frequency and / or the delay time of each input voice signal input from a plurality of voice input means smaller than the number of participants are analyzed to generate a voice. The original sound source direction can be detected, and the number of voice input means can be reduced.
【図1】本発明によるカメラ制御方法及びカメラ制御装
置をテレビ会議システムに適用する場合における実施形
態の構成の一例を示す機能ブロック図である。FIG. 1 is a functional block diagram showing an example of a configuration of an embodiment when a camera control method and a camera control device according to the present invention are applied to a video conference system.
【図2】図1に示すテレビ会議システムにおける本発明
に係るカメラ制御方法及びカメラ制御装置に関わる一実
施形態を説明するためのフローチャートである。FIG. 2 is a flowchart for explaining an embodiment of a camera control method and a camera control device according to the present invention in the video conference system shown in FIG.
【図3】図1に示すテレビ会議システムにおける本発明
に係るカメラ制御方法及びカメラ制御装置に関わる他の
実施形態を説明するためのフローチャートである。FIG. 3 is a flowchart for explaining another embodiment of the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
【図4】図1に示すテレビ会議システムにおける本発明
に係るカメラ制御方法及びカメラ制御装置に関わる更な
る他の実施形態を説明するためのフローチャートであ
る。4 is a flowchart for explaining still another embodiment of the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
【図5】図1に示すテレビ会議システムにおける本発明
に係るカメラ制御方法及びカメラ制御装置に関わる更な
る他の実施形態を説明するためのフローチャートであ
る。5 is a flowchart for explaining still another embodiment of the camera control method and the camera control device according to the present invention in the video conference system shown in FIG.
1…CPU、2…メモリA、3…メモリB、4…音声入
力部、5…スピーカ、6…音声制御部、7…通信制御
部、8…顔画像抽出・位置判定部、9…分離多重化部、
10…カメラ、11…カメラ制御・位置判定部、12…
表示部、13…映像制御部、14…操作部、15…音源
方向検出部、16…時計部、17…通信回線、20…テ
レビ会議システム装置本体。1 ... CPU, 2 ... Memory A, 3 ... Memory B, 4 ... Voice input unit, 5 ... Speaker, 6 ... Voice control unit, 7 ... Communication control unit, 8 ... Face image extraction / position determination unit, 9 ... Separation and multiplexing Akabe,
10 ... Camera, 11 ... Camera control / position determination unit, 12 ...
Display unit, 13 ... Image control unit, 14 ... Operation unit, 15 ... Sound source direction detection unit, 16 ... Clock unit, 17 ... Communication line, 20 ... Video conference system device body.
Claims (10)
方向へ角度変更する制御を可能とするカメラ制御手段を
有することにより、撮像画像を画面上の所定の位置に表
示させることができるカメラ制御方法において、更に、
前記カメラより入力される画像から人物の顔画像を抽出
する顔画像抽出手段と、該顔画像抽出手段により抽出さ
れ、画面上に表示される顔画像の位置を認識することが
できる顔画像位置判定手段と、複数個の音声入力手段に
入力されるそれぞれの音声信号から音源方向を検出する
音源方向検出手段と、を有し、前記音源方向検出手段に
より検出された音源方向に、前記カメラ方向制御手段に
より水平方向及び/又は垂直方向への前記カメラの角度
変更を自動的に制御して、前記顔画像抽出手段により抽
出され、かつ、前記顔画像位置判定手段により認識され
た画面上にある人物の顔画像の位置を、前以って設定さ
れている画面上の位置に表示させるようにして、前記音
源方向検出手段により検出された音源方向にある人物の
顔画像を前以って設定されている画面上の位置に表示さ
せることを特徴とするカメラ制御方法。1. A camera control capable of displaying a picked-up image at a predetermined position on a screen by having a camera control means capable of controlling a direction of the camera to be changed in a horizontal direction and / or a vertical direction. In the method,
Face image extraction means for extracting a face image of a person from the image input from the camera, and face image position determination capable of recognizing the position of the face image extracted by the face image extraction means and displayed on the screen Means and a sound source direction detecting means for detecting a sound source direction from each of the audio signals input to the plurality of audio input means, and the camera direction control is performed in the sound source direction detected by the sound source direction detecting means. A person on the screen which is extracted by the face image extraction means and recognized by the face image position determination means by automatically controlling the angle change of the camera in the horizontal direction and / or the vertical direction by the means. The face image of the person in the sound source direction detected by the sound source direction detecting means is displayed in advance so that the position of the face image is displayed at the position on the screen set in advance. Camera control method characterized by displaying on the position on the screen is constant.
て、前記カメラ制御手段として、前記カメラを広角及び
/又は望遠へズーム変更する制御を可能とし、また、前
記顔画像位置判定手段として、画面上での顔画像の大き
さを認識することを可能とすることにより、前記カメラ
制御手段により広角及び/又は望遠への前記カメラのズ
ーム変更を自動的に制御して、前記顔画像抽出手段によ
り抽出され、かつ、前記顔画像位置判定手段により認識
される画面上にある人物の顔画像の大きさを、前以って
設定されている画面上の大きさに表示させるようにし
て、前記音源方向検出手段により検出された音源方向に
ある人物の顔画像を前以って設定されている画面上の大
きさに表示させることを特徴とするカメラ制御方法。2. The camera control method according to claim 1, wherein the camera control means enables control of zooming the camera to a wide angle and / or a telephoto, and the face image position determination means uses a screen. By making it possible to recognize the size of the face image above, the camera control means automatically controls the zoom change of the camera to wide angle and / or telephoto, and the face image extraction means The size of the face image of the person on the screen that is extracted and recognized by the face image position determination means is displayed in the size on the screen set in advance, and the sound source A camera control method characterized in that a face image of a person in the sound source direction detected by the direction detecting means is displayed in a size on the screen set in advance.
御方法において、前記音源方向検出手段により検出され
た音源方向に、前記顔画像抽出手段により2つ以上の人
物の顔画像が抽出された場合には、前記カメラ制御手段
をして、前記音源方向検出手段により検出された音源方
向に最も近い位置にいる人物の顔画像を、前以って設定
された画面上の位置及び/又は大きさに表示させるよう
に制御することを特徴とするカメラ制御方法。3. The camera control method according to claim 1, wherein the face image extracting unit extracts face images of two or more persons in the sound source direction detected by the sound source direction detecting unit. In this case, the camera control means is used to set the face image of the person at the position closest to the sound source direction detected by the sound source direction detection means to the position on the screen set in advance and / or A camera control method characterized by controlling so as to display in a size.
ラ制御方法において、前記音源方向検出手段により検出
された音源方向に、前記顔画像抽出手段により人物の顔
画像が検出されなかった場合、及び/又は、前記顔画像
抽出手段により抽出された人物の顔画像が画面内に収ま
り切らなかった場合には、前記カメラ制御手段をして、
前記カメラを広角動作へのズーム変更の制御を自動的に
行なわしめ、該広角動作による撮像画像に基づいて、前
記顔画像抽出手段による人物の顔画像の抽出動作と、前
記顔画像位置判定手段による画面上に表示される顔画像
の位置及び/又は大きさの認識動作とが行なわれること
を特徴とするカメラ制御方法。4. The camera control method according to claim 1, wherein a face image of the person is not detected by the face image extracting unit in the sound source direction detected by the sound source direction detecting unit. And / or, when the face image of the person extracted by the face image extracting means is not fully contained in the screen, the camera control means is used to
The camera is automatically controlled to change the zoom to a wide-angle operation, and based on the imaged image obtained by the wide-angle operation, the face image extracting operation by the face image extracting means and the face image position determining means are performed. A camera control method, characterized in that a position and / or size of a face image displayed on a screen is recognized.
ラ制御方法において、前記音源方向検出手段により検出
された音源方向に、前記カメラ制御手段によりカメラの
角度変更及び/又はズーム変更の制御が行なわれた後の
経過時間を計測する時間計測手段を更に有し、該時間計
測手段により計測される前記経過時間が、前以って設定
されている一定の単位時間を経過していることが検出さ
れる毎に、前記音源方向検出手段により検出される音源
方向への前記カメラ制御手段によるカメラの角度変更及
び/又はズーム変更の制御がなされることを特徴とする
カメラ制御方法。5. The camera control method according to claim 1, wherein the camera control unit controls a camera angle change and / or a zoom change in the sound source direction detected by the sound source direction detection unit. Further has a time measuring means for measuring an elapsed time after the execution, and the elapsed time measured by the time measuring means has passed a preset unit time. The camera control method is characterized in that the camera control means controls the camera angle change and / or the zoom change in the sound source direction detected by the sound source direction detection means each time.
ラ制御方法において、前記顔画像抽出手段が、人物の肌
色を識別することにより、人物の顔画像を抽出すること
を特徴とするカメラ制御方法。6. The camera control method according to claim 1, wherein the face image extracting means extracts the face image of the person by identifying the skin color of the person. Control method.
ラ制御方法において、前記顔画像抽出手段が、人物の輪
郭を識別することにより、人物の顔画像を抽出すること
を特徴とするカメラ制御方法。7. The camera control method according to claim 1, wherein the face image extracting means extracts the face image of the person by identifying the contour of the person. Control method.
ラ制御方法において、前記音源方向検出手段が、複数個
の前記音声入力手段に入力されるそれぞれの音声信号の
周波数及び/又は遅延時間を分析することにより、音源
方向を検出することを特徴とするカメラ制御方法。8. The camera control method according to claim 1, wherein the sound source direction detection means has a frequency and / or a delay time of each audio signal input to the plurality of audio input means. A method for controlling a camera, characterized in that the sound source direction is detected by analyzing the.
更、及び/又は、広角及び/又は望遠へのズーム変更を
制御可能とするカメラ制御装置において、更に、請求項
1乃至8のいずれかに記載のカメラ制御方法を実現する
ことを可能とする手段を備えていることを特徴とするカ
メラ制御装置。9. A camera control device capable of controlling an angle change in a horizontal direction and / or a vertical direction and / or a zoom change to a wide angle and / or a telephoto, further comprising any one of claims 1 to 8. A camera control device comprising means for enabling the camera control method according to claim 1 to be realized.
ムにおいて、請求項9に記載のカメラ制御装置を備えて
いることを特徴とするテレビ会議システム。10. A video conference system for performing a video conference, comprising the camera control device according to claim 9.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002029428A JP2003230049A (en) | 2002-02-06 | 2002-02-06 | Camera control method, camera controller and video conference system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002029428A JP2003230049A (en) | 2002-02-06 | 2002-02-06 | Camera control method, camera controller and video conference system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003230049A true JP2003230049A (en) | 2003-08-15 |
Family
ID=27750143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002029428A Pending JP2003230049A (en) | 2002-02-06 | 2002-02-06 | Camera control method, camera controller and video conference system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003230049A (en) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006129480A (en) * | 2004-10-30 | 2006-05-18 | Microsoft Corp | Automatic face extraction for use in recorded meetings timelines |
US7555141B2 (en) | 2004-11-09 | 2009-06-30 | Nec Corporation | Video phone |
JP2010068471A (en) * | 2008-09-12 | 2010-03-25 | Toyota Motor Corp | Image processing apparatus |
JP2011004007A (en) * | 2009-06-16 | 2011-01-06 | Ricoh Co Ltd | Television conference device, television conference method, and program for the same |
JP2011071683A (en) * | 2009-09-25 | 2011-04-07 | Nec Corp | Video object detection apparatus, video object detection method and program |
US20110090300A1 (en) * | 2008-06-18 | 2011-04-21 | Creative Technology Ltd | Image capture apparatus and methods for providing an image with eye-to-eye contact with a recipient |
WO2012019517A1 (en) * | 2010-08-10 | 2012-02-16 | 华为终端有限公司 | Method, device and system for processing video in video communication |
US8194173B2 (en) * | 2004-07-16 | 2012-06-05 | Nikon Corporation | Auto-focusing electronic camera that focuses on a characterized portion of an object |
JP2012147420A (en) * | 2010-12-22 | 2012-08-02 | Ricoh Co Ltd | Image processing device and image processing system |
JP2012175136A (en) * | 2011-02-17 | 2012-09-10 | Nec Corp | Camera system and control method of the same |
US8411160B2 (en) | 2007-08-31 | 2013-04-02 | Casio Computer Co., Ltd. | Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image |
JP2013162525A (en) * | 2012-02-07 | 2013-08-19 | Google Inc | Control system and control method for varying audio level in communication system |
EP2650841A2 (en) | 2012-04-09 | 2013-10-16 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and image processing program |
CN104065923A (en) * | 2014-06-23 | 2014-09-24 | 苏州阔地网络科技有限公司 | On-line synchronization classroom tracking control method and system |
CN105635627A (en) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | Method and apparatus for adjusting focusing point of camera in video conversation |
KR101630614B1 (en) * | 2015-03-25 | 2016-06-24 | (주)에어사운드 | System and method for producing lecture contents |
CN107580192A (en) * | 2017-09-15 | 2018-01-12 | 上海启诺信息科技有限公司 | Audio-video linkage control device and audio-video linked system |
CN109981964A (en) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | Robot-based shooting method and shooting device and robot |
CN110673811A (en) * | 2019-09-27 | 2020-01-10 | 深圳看到科技有限公司 | Panoramic picture display method and device based on sound information positioning and storage medium |
CN110691196A (en) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | Sound source positioning method of audio equipment and audio equipment |
CN113014857A (en) * | 2021-02-25 | 2021-06-22 | 游密科技(深圳)有限公司 | Control method and device for video conference display, electronic equipment and storage medium |
CN113824916A (en) * | 2021-08-19 | 2021-12-21 | 深圳壹秘科技有限公司 | Image display method, device, equipment and storage medium |
CN115242971A (en) * | 2022-06-21 | 2022-10-25 | 海南视联通信技术有限公司 | Camera control method and device, terminal equipment and storage medium |
-
2002
- 2002-02-06 JP JP2002029428A patent/JP2003230049A/en active Pending
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8194173B2 (en) * | 2004-07-16 | 2012-06-05 | Nikon Corporation | Auto-focusing electronic camera that focuses on a characterized portion of an object |
KR101238586B1 (en) | 2004-10-30 | 2013-02-28 | 마이크로소프트 코포레이션 | Automatic face extraction for use in recorded meetings timelines |
JP2006129480A (en) * | 2004-10-30 | 2006-05-18 | Microsoft Corp | Automatic face extraction for use in recorded meetings timelines |
US7555141B2 (en) | 2004-11-09 | 2009-06-30 | Nec Corporation | Video phone |
US8411160B2 (en) | 2007-08-31 | 2013-04-02 | Casio Computer Co., Ltd. | Apparatus including function to specify image region of main subject from obtained image, method to specify image region of main subject from obtained image and computer readable storage medium storing program to specify image region of main subject from obtained image |
US20110090300A1 (en) * | 2008-06-18 | 2011-04-21 | Creative Technology Ltd | Image capture apparatus and methods for providing an image with eye-to-eye contact with a recipient |
US8754923B2 (en) * | 2008-06-18 | 2014-06-17 | Creative Technology Ltd | Image capture apparatus and methods for providing an image with eye-to-eye contact with a recipient |
JP2010068471A (en) * | 2008-09-12 | 2010-03-25 | Toyota Motor Corp | Image processing apparatus |
JP2011004007A (en) * | 2009-06-16 | 2011-01-06 | Ricoh Co Ltd | Television conference device, television conference method, and program for the same |
JP2011071683A (en) * | 2009-09-25 | 2011-04-07 | Nec Corp | Video object detection apparatus, video object detection method and program |
WO2012019517A1 (en) * | 2010-08-10 | 2012-02-16 | 华为终端有限公司 | Method, device and system for processing video in video communication |
CN102377975A (en) * | 2010-08-10 | 2012-03-14 | 华为终端有限公司 | Video processing method used for video communication, apparatus thereof and system thereof |
JP2012147420A (en) * | 2010-12-22 | 2012-08-02 | Ricoh Co Ltd | Image processing device and image processing system |
JP2012175136A (en) * | 2011-02-17 | 2012-09-10 | Nec Corp | Camera system and control method of the same |
JP2013162525A (en) * | 2012-02-07 | 2013-08-19 | Google Inc | Control system and control method for varying audio level in communication system |
EP2650841A2 (en) | 2012-04-09 | 2013-10-16 | Ricoh Company, Ltd. | Image processing apparatus, image processing method, and image processing program |
US9001181B2 (en) | 2012-04-09 | 2015-04-07 | Ricoh Company, Limited | Image processing apparatus, image processing method, and computer program product |
CN104065923A (en) * | 2014-06-23 | 2014-09-24 | 苏州阔地网络科技有限公司 | On-line synchronization classroom tracking control method and system |
CN104065923B (en) * | 2014-06-23 | 2017-05-17 | 阔地教育科技有限公司 | On-line synchronization classroom tracking control method and system |
KR101630614B1 (en) * | 2015-03-25 | 2016-06-24 | (주)에어사운드 | System and method for producing lecture contents |
CN105635627A (en) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | Method and apparatus for adjusting focusing point of camera in video conversation |
CN107580192B (en) * | 2017-09-15 | 2019-03-15 | 上海启诺信息科技有限公司 | Audio-video linkage control device and audio-video linked system |
CN107580192A (en) * | 2017-09-15 | 2018-01-12 | 上海启诺信息科技有限公司 | Audio-video linkage control device and audio-video linked system |
CN109981964A (en) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | Robot-based shooting method and shooting device and robot |
CN110673811A (en) * | 2019-09-27 | 2020-01-10 | 深圳看到科技有限公司 | Panoramic picture display method and device based on sound information positioning and storage medium |
CN110673811B (en) * | 2019-09-27 | 2024-04-16 | 深圳看到科技有限公司 | Panoramic picture display method and device based on sound information positioning and storage medium |
CN110691196A (en) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | Sound source positioning method of audio equipment and audio equipment |
CN113014857A (en) * | 2021-02-25 | 2021-06-22 | 游密科技(深圳)有限公司 | Control method and device for video conference display, electronic equipment and storage medium |
CN113824916A (en) * | 2021-08-19 | 2021-12-21 | 深圳壹秘科技有限公司 | Image display method, device, equipment and storage medium |
CN115242971A (en) * | 2022-06-21 | 2022-10-25 | 海南视联通信技术有限公司 | Camera control method and device, terminal equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003230049A (en) | Camera control method, camera controller and video conference system | |
US8044990B2 (en) | Camera controller and teleconferencing system | |
US10264210B2 (en) | Video processing apparatus, method, and system | |
JP4770178B2 (en) | Camera control apparatus, camera system, electronic conference system, and camera control method | |
US20110216153A1 (en) | Digital conferencing for mobile devices | |
US20100118112A1 (en) | Group table top videoconferencing device | |
US11042767B2 (en) | Detecting spoofing talker in a videoconference | |
JP2009166184A (en) | Guide robot | |
CN113905204B (en) | Image display method, device, equipment and storage medium | |
JP2737682B2 (en) | Video conference system | |
JP2009017330A (en) | Video conference system, video conference method, and video conference program | |
KR20100041061A (en) | Video telephony method magnifying the speaker's face and terminal using thereof | |
JP5151131B2 (en) | Video conferencing equipment | |
JP2011066467A (en) | Television conference terminal apparatus, method for controlling voice of the same, and voice control program | |
JP5598394B2 (en) | Conference terminal device, conference terminal control method, and conference terminal control program, | |
JP2010004480A (en) | Imaging apparatus, control method thereof and program | |
JP2016039600A (en) | Controller, control method, program, display, imaging device and video conference system | |
CN104539873B (en) | Tele-conferencing system and the method for carrying out teleconference | |
KR100195724B1 (en) | Method of adjusting video camera in image conference system | |
WO2023080099A1 (en) | Conference system processing method and conference system control device | |
JP2002262138A (en) | Image pickup system, video conference system, monitoring system, and information terminal with image pickup function | |
US20230306618A1 (en) | Tracking with Multiple Cameras | |
JP2010028299A (en) | Conference photographed image processing method, conference device, and the like | |
JP2004112824A (en) | Video camera communication apparatus | |
CN117319594A (en) | Conference personnel tracking display method, device, equipment and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060516 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061003 |