JPH06351015A - Image pickup system for video conference system - Google Patents

Image pickup system for video conference system

Info

Publication number
JPH06351015A
JPH06351015A JP5138537A JP13853793A JPH06351015A JP H06351015 A JPH06351015 A JP H06351015A JP 5138537 A JP5138537 A JP 5138537A JP 13853793 A JP13853793 A JP 13853793A JP H06351015 A JPH06351015 A JP H06351015A
Authority
JP
Japan
Prior art keywords
speaker
camera
image pickup
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5138537A
Other languages
Japanese (ja)
Inventor
Shinzou Matsui
紳造 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP5138537A priority Critical patent/JPH06351015A/en
Publication of JPH06351015A publication Critical patent/JPH06351015A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To automatically change an image pickup direction, viewing angle, and sound collecting direction in a real time corresponding to the movement of a speaker without fixing the position of the speaker, and to detect the direction of the speaker by using at least three microphones in order to suppress the increase of a cost. CONSTITUTION:A camera 1 and a high directivity sound collecting microphone are fixed to a stand 4 by a direction controller 3. Also, a speaker direction detecting part 5 which detects the direction of the speaker is fixed to the stand 4. Information obtained from the speaker direction detecting part 5 is supplied to a speaker position analyzing part 6, and the direction of the speaker is obtained. A system control part 7 controls a camera control part 8 in order to move the camera 1 and the high directivity sound collecting microphone 2 by the information searched by the speaker position analyzing part 6, and controls the movement of the direction controller 3 in order to set the direction of the camera 1 and the high directivity 2 sound collecting microphone 2.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は話者位置を検出して撮
像エリアを自動的に設定可能なテレビジョン会議システ
ム用の撮像システムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image pickup system for a television conference system capable of automatically setting an image pickup area by detecting a speaker position.

【0002】[0002]

【従来の技術】近年、テレビジョン(以下、テレビと略
記する)を用いた会議システムが普及してきている。例
えば、話者の数に対応したカメラを用意し、各カメラか
らの信号を切換えるテレビ会議システムや、1台の全景
を撮像するカメラと1台の人物撮像専用のカメラを用い
るテレビ会議システムが知られている(特開平4−32
3990号公報参照)。特に、後者のテレビ会議システ
ムでは、人物撮像専用のカメラは、旋回台等によりその
撮像方向を変えることができ、リモートコントローラ
(以下リモコンと略記する)等によって人物撮像専用の
カメラを動かして話者方向に向けていた。
2. Description of the Related Art In recent years, a conference system using a television (hereinafter abbreviated as a television) has become widespread. For example, a video conference system that prepares a camera corresponding to the number of speakers and switches signals from each camera, and a video conference system that uses a camera that captures one panoramic view and a camera dedicated to capturing one person are known. (Japanese Patent Laid-Open No. 4-32)
3990 gazette). Particularly in the latter video conference system, the camera for exclusive use of image capturing of a person can change its imaging direction by a swivel base or the like, and the camera for exclusive use of image capturing can be moved by a remote controller (hereinafter abbreviated as a remote controller) or the like. It was turning in the direction.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、話者の
数に対応したカメラを用意するシステムの場合、1人に
つき1台カメラを必要としているので、多人数による会
議等の場合、話者の数が多く、そのコストがかなり高い
ものとなっていた。更に、話者が話しながら移動するよ
うな場合、話者がカメラの撮像画角外に出てしまうとい
った不都合が生じる。
However, in the case of a system in which a camera corresponding to the number of speakers is prepared, one camera is required for each person. However, the cost was quite high. Further, when the speaker moves while talking, there is an inconvenience that the speaker goes out of the imaging angle of view of the camera.

【0004】また、リモコンを使用したテレビ会議シス
テムの場合、カメラの台数は少なくて済むものの、話者
が話しながら移動するような場合、いちいち移動する話
者にカメラを追従させなければならず、その操作が煩わ
しいものであった。加えて、話者が話している途中で他
の話者が話し始めたような場合、話者を適格に認識する
ことができず、リアルタイムに適切な映像及び音声情報
を得ることが困難なものであった。
Further, in the case of a video conference system using a remote controller, although the number of cameras is small, when the speaker moves while talking, the camera must be made to follow the moving speaker one by one, The operation was troublesome. In addition, if another speaker starts speaking while the speaker is speaking, the speaker cannot be properly recognized and it is difficult to obtain appropriate video and audio information in real time. Met.

【0005】この発明は上記課題に鑑みてなされたもの
で、話者の位置を固定化せずに話者の移動に対応して、
撮像方向、画角、集音方向をリアルタイムに自動的に変
えることができ、且つコストの上昇を抑えたテレビジョ
ン会議システム用の撮像システムを提供することを目的
とする。
The present invention has been made in view of the above-mentioned problems, and corresponds to the movement of the speaker without fixing the position of the speaker,
An object of the present invention is to provide an image pickup system for a television conference system capable of automatically changing the image pickup direction, the angle of view, and the sound collection direction in real time and suppressing an increase in cost.

【0006】[0006]

【課題を解決するための手段】すなわちこの発明は、複
数の異なる場所の間で映像情報及び音声情報等の情報を
伝送して会議等を行うテレビジョン会議システム用の撮
像システムに於いて、少なくとも一人の話者を撮像する
撮像手段と、この撮像手段で撮像されるべく話者が発す
る音声情報を検出する音声情報検出手段と、この音声情
報検出手段により検出された音声情報に基いて、該音声
の発生した方位情報を検出する方位情報検出手段と、こ
の方位情報検出手段により検出された方位情報に基い
て、上記撮像手段による撮像状態を制御する制御手段と
を具備することを特徴とする。
That is, the present invention provides at least an imaging system for a television conference system for transmitting information such as video information and audio information between a plurality of different places to hold a conference. Based on the voice information detected by the voice information detected by the image pickup means for picking up one speaker, the voice information detected by the speaker to be picked up by the image pickup means, and the voice information detected by the voice information detection means. An azimuth information detecting means for detecting azimuth information in which sound is generated, and a control means for controlling an image pickup state by the image pickup means based on the azimuth information detected by the azimuth information detecting means. .

【0007】[0007]

【作用】この発明は、複数の異なる場所の間で映像情報
及び音声情報等の情報を伝送して会議等を行うテレビジ
ョン会議システム用の撮像システムである。このシステ
ムに於いて、撮像手段が少なくとも一人の話者を撮像
し、この撮像手段で撮像されるべく話者が発する音声情
報が、音声情報検出手段で検出される。この音声情報検
出手段により検出された音声情報に基いて、方位情報検
出手段が該音声の発生された方位情報を検出する。する
と、この方位情報検出手段により検出された方位情報に
基いて、制御手段が上記撮像手段による撮像状態を制御
する。
The present invention is an imaging system for a television conference system for transmitting information such as video information and audio information between a plurality of different places to hold a conference. In this system, the image pickup means picks up an image of at least one speaker, and the voice information emitted by the speaker to be picked up by the image pickup means is detected by the voice information detecting means. Based on the voice information detected by the voice information detecting means, the direction information detecting means detects the direction information in which the voice is generated. Then, based on the azimuth information detected by the azimuth information detecting means, the control means controls the image pickup state by the image pickup means.

【0008】[0008]

【実施例】以下、図面を参照してこの発明の実施例を説
明する。図1は、この発明のテレビジョン会議システム
用の撮像システムの一実施例の構成を示す外略図であ
る。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is an outline diagram showing the configuration of an embodiment of an image pickup system for a television conference system according to the present invention.

【0009】同図に於いて、カメラ1は、ズーム機能及
びオートフォーカス(AF)機能を有したカメラであ
る。このカメラ1には、高指向性集音マイクロホン(以
下マイクと略記する)2が取付けられている。上記カメ
ラ1は、また、方位制御装置3によってスタンド4に据
付けられているもので、その撮像方向及び集音方向が上
下方向(図示矢印A方向)及び左右方向(図示矢印B方
向)に制御される。上記スタンド4には、話者の方位を
検出するための話者方位検出部5が取付けられている。
In FIG. 1, a camera 1 is a camera having a zoom function and an autofocus (AF) function. A high directional sound collecting microphone (hereinafter abbreviated as a microphone) 2 is attached to the camera 1. The camera 1 is also installed on the stand 4 by the azimuth control device 3, and its imaging direction and sound collection direction are controlled in the vertical direction (arrow A direction in the drawing) and the left and right direction (arrow B direction in the drawing). It A speaker orientation detecting section 5 for detecting the orientation of the speaker is attached to the stand 4.

【0010】上記話者方位検出部5から得られた情報
は、話者位置解析部6に供給され、ここで種々の解析が
なされる。この話者位置解析部6では、後述するよう
に、上記カメラ1から話者への方位が求められる。シス
テム制御部7は、話者位置解析部6で求められた情報に
より、カメラ1及び高指向性集音マイク2を移動させる
べくカメラ制御部8を制御すると共に、カメラ1及び高
指向性集音マイク2の方位を設定すべく方位制御装置3
の動きを制御する。尚、カメラ制御部8は、カメラ1の
ズーム機能、AF機能等の動きを制御するものである。
The information obtained from the speaker orientation detecting section 5 is supplied to the speaker position analyzing section 6 where various analyzes are performed. The speaker position analysis unit 6 obtains the direction from the camera 1 to the speaker, as described later. The system control unit 7 controls the camera control unit 8 to move the camera 1 and the high-directional sound collection microphone 2 based on the information obtained by the speaker position analysis unit 6, and also controls the camera 1 and the high-directivity sound collection. Direction control device 3 for setting the direction of microphone 2
Control the movement of. The camera control unit 8 controls movements of the camera 1, such as a zoom function and an AF function.

【0011】このようにして、撮像システムは構成され
ている。そして、例えばテーブル9の近傍には、互いに
適切な間隔で複数の話者101、102 、103 、104
、…、10n が配置されている。
The image pickup system is constructed in this manner. Then, for example, in the vicinity of the table 9, a plurality of speakers 10 1 , 10 2 , 10 3 , 10 4 are arranged at appropriate intervals.
, ... 10 n are arranged.

【0012】ここで、図2及び図3を参照して、話者方
位検出について説明する。先ず、図2に於いて、マイク
11a及び11bを使用した場合の話者の方位検出につ
いて説明する。いま、話者10aから音声が発せられた
とすると、2つのマイク11a及び11bに、その音声
が集音される。このとき、マイク11a及び11bに入
射される音声の時間のずれを検出することにより、話者
10aの角度(入射角度θ)が求められる。
Now, with reference to FIGS. 2 and 3, the detection of the speaker direction will be described. First, referring to FIG. 2, the detection of the direction of the speaker when the microphones 11a and 11b are used will be described. Now, assuming that a voice is emitted from the speaker 10a, the voice is collected by the two microphones 11a and 11b. At this time, the angle (incident angle θ) of the speaker 10a is obtained by detecting the time difference between the voices incident on the microphones 11a and 11b.

【0013】ところが、2つのマイク11a及び11b
だけでは、マイク11a、11b間を結ぶ線に対して入
射角度θの音声は、図2の斜線部で表される円錐上の側
面12上からの音声全てが同じ入射角度として認識され
てしまう。このため、話者の3次元上での移動(上下方
向及び左右方向両方の移動)等には対応することができ
ない。
However, the two microphones 11a and 11b
Only by itself, the sound having the incident angle θ with respect to the line connecting the microphones 11a and 11b is recognized as the same incident angle from all the sounds from the side surface 12 on the cone represented by the hatched portion in FIG. Therefore, it is not possible to deal with the movement of the speaker in three dimensions (movement in both the vertical direction and the horizontal direction).

【0014】このため、図3に示されるように、マイク
11a、11bに加えてマイク11を設けて、話者の方
位を特定することができるようにしている。すなわち、
話者10aから音声が発せられた場合、上記したよう
に、マイク11a、11bを結ぶ線に対して底面12a
を有する円錐が考えられる。また、同時に、マイク11
a、11cを結ぶ線に対して底面12bを有する円錐が
考えられる。これにより、底面12a、12bを有する
2つの円錐から、それぞれの円錐上の側面上で交わる点
が、音声を発した話者10aの位置となる。こうして、
話者の位置、すなわち方位を特定することができる。
Therefore, as shown in FIG. 3, the microphone 11 is provided in addition to the microphones 11a and 11b so that the orientation of the speaker can be specified. That is,
When a voice is emitted from the speaker 10a, as described above, the bottom surface 12a is connected to the line connecting the microphones 11a and 11b.
A cone with is conceivable. At the same time, the microphone 11
A cone having a bottom surface 12b with respect to the line connecting a and 11c is conceivable. As a result, the point where the two cones having the bottom surfaces 12a and 12b intersect on the side surfaces on the respective cones is the position of the speaker 10a who uttered the voice. Thus
The position of the speaker, that is, the direction can be specified.

【0015】図4は、話者方位検出部5の具体的な構成
例を示したもので、(a)は話者方向から見た正面図、
(b)は斜視図である。同図に於いて、基準となるマイ
ク13aから所定距離Lab、Lacをおいてマイク13
b、13cが、図示の如く配置されている。すなわち、
マイク13bは、各話者とマイク13aとを結ぶ線上に
ない位置に配置される。そして、マイク13cは、マイ
ク13a、13cを結ぶ線に対してマイク13aから垂
直方向で、且つ各話者とマイク13aとを結ぶ線上にな
い位置に配置されている。上記所定距離Lab、Lacは、
音声周波数によって決められるもので、例えば5〜10
cmである。
FIG. 4 shows a specific example of the configuration of the speaker orientation detecting section 5, in which (a) is a front view seen from the speaker direction,
(B) is a perspective view. In the figure, the microphone 13 is placed at predetermined distances L ab and L ac from the reference microphone 13 a.
b and 13c are arranged as shown. That is,
The microphone 13b is arranged at a position not on the line connecting each speaker and the microphone 13a. The microphone 13c is arranged in a direction perpendicular to the line connecting the microphones 13a and 13c and not on the line connecting each speaker and the microphone 13a. The predetermined distances L ab and L ac are
It is determined by the audio frequency, for example 5-10
cm.

【0016】また、上記マイク13a、13b、13c
には、吸音材14が取付けられている。この吸音材14
は、このシステムが設けられる部屋の壁等からの反射音
や、エアコンディショナの音、話者の音声に対してその
反対側から入射する音、及び話者の移動しないエリアか
らの音を吸音して、検出誤差を少なくするためのもので
ある。
The microphones 13a, 13b, 13c are also provided.
A sound absorbing material 14 is attached to the. This sound absorbing material 14
Absorbs the sound reflected from the wall of the room where this system is installed, the sound of the air conditioner, the sound incident from the opposite side to the speaker's sound, and the sound from the area where the speaker does not move. Then, the detection error is reduced.

【0017】次に、図5のブロック図を参照して、話者
方位検出部5及び話者位置解析部6の詳細な構成を説明
する。話者方位検出部5は、上述したマイク13a、1
3b、13cと、これらそれぞれのマイク13a、13
b、13cで集音された音声の信号を増幅して話者位置
解析部6に出力する増幅器15a、15b、15cで構
成されている。
Next, with reference to the block diagram of FIG. 5, detailed configurations of the speaker azimuth detecting unit 5 and the speaker position analyzing unit 6 will be described. The speaker azimuth detecting unit 5 includes the microphones 13a and 1 described above.
3b, 13c and their respective microphones 13a, 13c
It is composed of amplifiers 15a, 15b and 15c for amplifying the voice signals collected by b and 13c and outputting them to the speaker position analyzing section 6.

【0018】話者位置解析部6は、上記増幅器15a、
15b、15cの出力の特定周波数を抽出するバンドパ
スフィルタ(BPF)16a、16b、16cと、この
バンドパスフィルタ16a、16b、16cで抽出され
た出力をA/D変化するA/Dコンバータ17a、17
b、17cと、話者方位解析部18a、18bと、話者
方位演算部19とより構成される。話者方位解析部18
a、18bは、それぞれマイク13a、13bと、マイ
ク13a、13cからの音声信号と、音速及びマイク間
距離(Lab、Lac)に基いて、上述したような原理によ
り、話者の方向を求める。そして、話者方位解析部18
aと、18bの解析結果から、図4に示されたような2
つの円錐の交点が、話者方位演算部19により求められ
る。これにより、話者の方向が決定される。
The speaker position analysis unit 6 includes the amplifier 15a,
Bandpass filters (BPF) 16a, 16b, 16c for extracting specific frequencies of the outputs of 15b, 15c, and an A / D converter 17a for A / D changing the outputs extracted by the bandpass filters 16a, 16b, 16c, 17
b, 17c, speaker orientation analysis units 18a, 18b, and a speaker orientation calculation unit 19. Speaker direction analysis unit 18
a and 18b indicate the direction of the speaker based on the above-described principle based on the sound signals from the microphones 13a and 13b and the audio signals from the microphones 13a and 13c, the sound velocity and the inter-microphone distances (L ab and L ac ), respectively. Ask. Then, the speaker orientation analysis unit 18
From the analysis results of a and 18b, 2 as shown in FIG.
The intersection of the two cones is obtained by the speaker orientation calculator 19. This determines the direction of the speaker.

【0019】図6は、話者方位解析部18aの詳細なブ
ロック構成図である。この場合、話者方位解析部18b
の構成は、入力される信号がマイク13b及び13cか
らのものに代わるだけで、その他の構成は話者方位解析
部18aと同じであるので、ここでは説明は省略する。
FIG. 6 is a detailed block diagram of the speaker orientation analysis unit 18a. In this case, the speaker orientation analysis unit 18b
The configuration is similar to that of the speaker azimuth analyzing unit 18a except that the input signal is changed from that of the microphones 13b and 13c, and the description thereof is omitted here.

【0020】話者方位解析部18aに於いて、マイク1
3aより入力される基準となる音声信号は、高速フーリ
エ変換(FFT)演算部20aで高速フーリエ変換され
る。同様に、FFT演算部20bでは、マイク13bよ
り入力される音声信号がFFT変換される。そして、こ
れらFFT演算部20a及び20bでFFT演算された
結果は、クロススペクトル演算部21にてクロススペク
トルが演算される。ここで、2つの音声信号のデータを
基に、各周波数に於ける位相を検出するための処理がな
される。
In the speaker direction analysis unit 18a, the microphone 1
The reference voice signal input from 3a is subjected to fast Fourier transform in the fast Fourier transform (FFT) calculation unit 20a. Similarly, in the FFT calculation unit 20b, the audio signal input from the microphone 13b is FFT-converted. The cross spectrum calculation unit 21 calculates the cross spectrum of the result of the FFT calculation performed by the FFT calculation units 20a and 20b. Here, processing for detecting the phase at each frequency is performed based on the data of the two audio signals.

【0021】そして、位相計算部22では、各周波数に
於ける複素数の値により、位相が算出される。その周波
数の値と、この算出された位相値と、上記2つのマイク
13a、13b間の距離と音速から、入射角が入射角演
算部23で求められる。こうして求められた入射角か
ら、平均値演算部24にて各入射角の平均値θave が求
められる。
Then, the phase calculator 22 calculates the phase from the value of the complex number at each frequency. The incident angle is calculated by the incident angle calculation unit 23 from the value of the frequency, the calculated phase value, the distance between the two microphones 13a and 13b and the sound velocity. From the incident angles thus obtained, the average value calculator 24 obtains the average value θave of each incident angle.

【0022】この入射角の平均値が、それぞれの話者方
位解析部18a及び18bから入力されて、話者方位演
算部19で話者の方向が決定される。そして、ここで決
定された話者の方向に向けて、システム制御部7が方位
制御装置3を制御して、カメラ1及び高指向性集音マイ
ク2を作動させる。
The average value of the incident angles is input from the respective speaker orientation analysis units 18a and 18b, and the speaker orientation calculation unit 19 determines the direction of the speaker. Then, the system control unit 7 controls the azimuth control device 3 in the direction of the speaker determined here to operate the camera 1 and the high-directional sound collecting microphone 2.

【0023】このように、第1の実施例によれば、クロ
ススペクトルの位相成分から各周波数に於いての遅延時
間を計算し、各々入射角を計算してそれを平均化してい
るので、精度良く入射角を求めることができる。
As described above, according to the first embodiment, the delay time at each frequency is calculated from the phase component of the cross spectrum, the respective incident angles are calculated, and the averaged values are calculated. The incident angle can be obtained well.

【0024】また、吸音材を使用することにより、会議
室の壁等の反射音や、エアコンディショナ等の不必要な
音を除去することができ、音声の誤認識を低減すること
ができる。
Further, by using the sound absorbing material, it is possible to remove the reflected sound from the wall of the conference room and the unnecessary sound such as the air conditioner, and reduce the erroneous recognition of voice.

【0025】次に、この発明の第2の実施例について説
明する。尚、以下に述べる実施例に於いて、同一の構成
要素には同一の参照番号を付して、重複を避けるためそ
の説明は省略するものとする。
Next, a second embodiment of the present invention will be described. In the embodiments described below, the same components are designated by the same reference numerals, and the description thereof will be omitted to avoid duplication.

【0026】上述した第1の実施例では、話者方位検出
部を1つ用いて話者の方向を特定していたが、この第2
の実施例は、話者方位検出部を2つ用いて、話者の方向
及び位置を特定しようとするものである。
In the above-described first embodiment, the direction of the speaker is specified by using one speaker direction detecting section, but this second direction is used.
In this embodiment, two speaker orientation detectors are used to identify the direction and position of the speaker.

【0027】図7及び図8を参照すると、第1の話者方
位検出手段としての話者方位検出部5と所定間隔をおい
て、第2の話者方位検出手段として話者方位検出部25
が設置されている。この話者方位検出部25は、話者方
位検出部5によって求められた方向と組合わせて、話者
の位置または話者までの距離を検出するためのものであ
る。この話者方位検出部25の検出結果は、話者方位検
出部5の検出結果と共に、話者位置解析ユニット26に
供給される。
With reference to FIGS. 7 and 8, a speaker orientation detecting section 25 as a second speaker orientation detecting means is provided at a predetermined interval from the speaker orientation detecting section 5 as a first speaker orientation detecting means.
Is installed. The speaker orientation detecting unit 25 is for detecting the position of the speaker or the distance to the speaker in combination with the direction obtained by the speaker orientation detecting unit 5. The detection result of the speaker orientation detecting unit 25 is supplied to the speaker position analyzing unit 26 together with the detection result of the speaker orientation detecting unit 5.

【0028】話者方位検出部25は、図9に示されるよ
うに、マイク13d、13eが所定距離Ldeをおいて配
置されている。そして、これらのマイク13d、13e
には、吸音材14が取付けられている。
As shown in FIG. 9, in the speaker direction detecting section 25, microphones 13d and 13e are arranged at a predetermined distance L de . And these microphones 13d and 13e
A sound absorbing material 14 is attached to the.

【0029】図10は、この第2の実施例によるシステ
ムの話者方位検出部5、25及び話者位置解析ユニット
26の詳細な構成を説明するブロック図である。尚、話
者方位検出部5及び話者位置解析部6については上述し
たので、説明は省略する。
FIG. 10 is a block diagram for explaining the detailed construction of the speaker azimuth detecting units 5 and 25 and the speaker position analyzing unit 26 of the system according to the second embodiment. Since the speaker azimuth detecting unit 5 and the speaker position analyzing unit 6 have been described above, the description thereof will be omitted.

【0030】話者方位検出部25は、上述したマイク1
3d、13eと、これらそれぞれのマイク13d、13
eで集音された音声の信号を増幅して話者位置解析部2
7に出力する増幅器15d、15eで構成されている。
The speaker azimuth detecting unit 25 is the microphone 1 described above.
3d and 13e and their respective microphones 13d and 13
Speaker position analysis unit 2 by amplifying the signal of the voice collected by e
It is composed of amplifiers 15d and 15e for outputting to the No. 7.

【0031】話者位置解析部27は、上記増幅器15
d、15eの出力の特定周波数を抽出するバンドパスフ
ィルタ16d、16eと、このバンドパスフィルタ16
d、16eで抽出された出力をA/D変化するA/Dコ
ンバータ17d、17eと、話者方位解析部18cによ
り構成される。話者方位解析部18cは、マイク13
d、13eと、13dからの音声信号と、音速及びマイ
ク間距離(Lde)に基いて、上述したような原理によ
り、話者の方向を求める。
The speaker position analysis unit 27 is provided with the amplifier 15 described above.
bandpass filters 16d and 16e for extracting a specific frequency of the outputs of d and 15e, and this bandpass filter 16
It is composed of A / D converters 17d and 17e for A / D changing the outputs extracted by d and 16e, and a speaker orientation analysis unit 18c. The speaker direction analysis unit 18c uses the microphone 13
Based on the sound signals from d, 13e, and 13d, the speed of sound, and the distance between microphones (L de ), the direction of the speaker is obtained by the above-described principle.

【0032】そして、話者方位解析部18cの解析結果
と、話者位置解析部6の話者方位演算部19の演算結果
が、話者位置演算部28に入力される。この話者位置演
算部28では、話者位置解析部6と話者位置解析部27
から、話者の方向と共に、話者とカメラ1との距離を演
算して、その結果をシステム制御部7へ出力する。これ
により求められた話者の方向及び話者とカメラ1との距
離に従って、システム制御部7が方位制御装置3を制御
して話者の方向を特定する。それと共に、カメラ制御部
8を介して、カメラ1のズーム機能、AF機能が制御さ
れて、カメラの画角が決定されて撮像がなされる。
Then, the analysis result of the speaker direction analysis unit 18c and the calculation result of the speaker direction calculation unit 19 of the speaker position analysis unit 6 are input to the speaker position calculation unit 28. The speaker position calculation unit 28 includes a speaker position analysis unit 6 and a speaker position analysis unit 27.
Then, the distance between the speaker and the camera 1 is calculated together with the direction of the speaker, and the result is output to the system control unit 7. According to the direction of the speaker and the distance between the speaker and the camera 1 thus obtained, the system control unit 7 controls the azimuth control device 3 to specify the direction of the speaker. At the same time, the zoom function and the AF function of the camera 1 are controlled via the camera control unit 8, the angle of view of the camera is determined, and imaging is performed.

【0033】このように、2系統の話者方位検出部を設
けることにより、話者の方向及び位置を検出することが
でき、これによってカメラの撮像エリアを自動的に設定
することができる。例えば、図7に於いて、初めに話者
101 が音声を発していたとすると、システム制御部7
によってカメラ1は話者101 のみを撮像する画角で動
作する。そして、続けて新たに他の話者(例えば話者1
4 )から音声が発せられたならば、システム制御部7
は方位制御装置3によるパンニングが間に合わないと判
断した場合、画角を話者101 から全ての話者が撮像さ
れる全景に切替えるように、カメラ制御部8を制御す
る。その後、特定の話者104 のみを撮像する画角でカ
メラ1が動作するようにする。尚、何れの話者も音声を
発しない場合は、全景を捕らえる画角で撮像するように
すれば良い。
As described above, the speaker direction and position can be detected by providing the two-speaker direction detecting units, and thus the image pickup area of the camera can be automatically set. For example, in FIG. 7, assuming that the speaker 10 1 is making a voice at first , the system control unit 7
Thus, the camera 1 operates at an angle of view that captures only the speaker 10 1 . Then, another new speaker (for example, speaker 1
0 4 ), the system control unit 7
When it is determined that the panning by the azimuth control device 3 is not in time, the camera controller 8 controls the camera angle so that the angle of view is switched from the speaker 10 1 to the full view in which all the speakers are imaged. After that, the camera 1 is made to operate at an angle of view that captures only the specific speaker 10 4 . If no speaker produces a voice, the image may be captured at an angle of view that captures the entire view.

【0034】次に、この発明の第3の実施例について説
明する。図11は、話者方位解析部の他の例を示したブ
ロック構成図である。尚、ここでは図6の話者方位解析
部18dとしているが、話者方位解析部18a〜18c
についても同様であるので、ここでの説明は省略する。
Next, a third embodiment of the present invention will be described. FIG. 11 is a block diagram showing another example of the speaker orientation analysis unit. Although the speaker orientation analysis unit 18d in FIG. 6 is used here, the speaker orientation analysis units 18a to 18c are used.
Since the same applies to, the description thereof will be omitted here.

【0035】話者方位解析部18dに於いて、マイク1
3a及び13bより入力される音声信号は、FFT演算
部20a及び20bでFFT演算される。そして、これ
らFFT演算部20a及び20bでFFT演算された結
果は、クロススペクトル演算部21にてクロススペクト
ルが演算されて、2つの音声信号のデータを基に、各周
波数に於ける位相を検出するための処理がなされる。
In the speaker direction analysis unit 18d, the microphone 1
The audio signals input from 3a and 13b are FFT-calculated by the FFT calculators 20a and 20b. Then, a cross spectrum of the result of the FFT calculation performed by the FFT calculation units 20a and 20b is calculated by the cross spectrum calculation unit 21, and the phase at each frequency is detected based on the data of the two audio signals. Processing is performed.

【0036】そして、位相計算部22では、各周波数に
於ける複素数の値により、位相が算出される。また、パ
ワー演算部29では、上記クロススペクトルのパワース
ペクトルが演算される。この算出された位相値と、その
周波数の値と上記2つのマイク13a、13b間の距離
と音速から、入射角が入射角演算部23で求められる。
そして、周波数成分選択部30にて、上記パワースペク
トルを誤検出の要因となる音声パワーの低い周波数成分
を排除するために、各パワー値に対する所定の閾値との
比較による周波数成分が選択される。こうして求められ
た上記周波数成分に於いて、入射角の平均値θave が平
均値演算部24で求められる。
Then, the phase calculator 22 calculates the phase from the value of the complex number at each frequency. The power calculator 29 calculates the power spectrum of the cross spectrum. From the calculated phase value, the value of the frequency, the distance between the two microphones 13a and 13b, and the speed of sound, the incident angle is calculated by the incident angle calculator 23.
Then, the frequency component selection unit 30 selects a frequency component by comparing each power value with a predetermined threshold value in order to eliminate a frequency component with low voice power that causes a false detection of the power spectrum. The average value θave of the incident angles of the frequency components thus obtained is obtained by the average value calculator 24.

【0037】このように、第3の実施例によれば、周波
数成分に於いては音声成分のレベルが低い場合に、回路
ノイズや外乱ノイズにより位相誤差を生じてしまうの
で、上記各周波数に於ける入射角を上記クロススペクト
ルのパワースペクトルを計算し、その結果を閾値と比較
して、ある一定信号レベル以下の周波数成分を除去して
いる。このため、精度良く入射角を求めることができ
る。
As described above, according to the third embodiment, when the level of the voice component is low in the frequency component, a phase error occurs due to the circuit noise or the disturbance noise. The power spectrum of the cross spectrum is calculated for the angle of incidence, and the result is compared with a threshold to remove frequency components below a certain constant signal level. Therefore, the incident angle can be accurately obtained.

【0038】図12は、話者方位解析部の更に他の例を
示したブロック構成図である。尚、ここでは図6の話者
方位解析部18dとしているが、話者方位解析部18a
〜18cについても同様であるので、ここでの説明は省
略する。
FIG. 12 is a block diagram showing still another example of the speaker orientation analysis unit. Although the speaker orientation analysis unit 18d in FIG. 6 is used here, the speaker orientation analysis unit 18a is also used.
Since the same applies to ~ 18c, description thereof is omitted here.

【0039】話者方位解析部18eに於いて、FFT演
算部20a及び20bでFFT演算された結果は、クロ
ススペクトル演算部21にてクロススペクトルが演算さ
れて、2つの音声信号のデータを基に、各周波数に於け
る位相を検出するための処理がなされる。そして、位相
計算部22では、各周波数に於ける複素数の値により、
位相が算出される。また、パワー演算部29では、上記
クロススペクトルのパワースペクトルが演算される。こ
の算出された位相値と、その周波数の値と上記2つのマ
イク13a、13b間の距離と音速から、入射角が入射
角演算部23で求められる。そして、第1の周波数成分
選択手段としての周波数成分選択部30にて、各パワー
値に対する所定の閾値との比較による周波数成分が選択
される。
In the speaker direction analysis unit 18e, the result of the FFT operation performed by the FFT operation units 20a and 20b is the cross spectrum operation performed by the cross spectrum operation unit 21 and the data of the two audio signals are used as the basis. , Processing for detecting the phase at each frequency is performed. Then, in the phase calculation unit 22, according to the value of the complex number at each frequency,
The phase is calculated. The power calculator 29 calculates the power spectrum of the cross spectrum. From the calculated phase value, the value of the frequency, the distance between the two microphones 13a and 13b, and the speed of sound, the incident angle is calculated by the incident angle calculator 23. Then, the frequency component selection unit 30 as the first frequency component selection means selects a frequency component by comparing each power value with a predetermined threshold value.

【0040】この周波数成分選択部30により選択され
た周波数成分の入射角の平均と分散が、ヒストグラム等
により統計計算部31で求められる。そして、この統計
計算により、上記平均値に対して、ある一定の分散内
(例えば2σ)に入る周波数成分が、第2の周波数成分
選択手段としての周波数成分選択部32で選択される。
この後、該周波数成分に於いて、入射角の平均値θave
が平均値演算部24で求められる。
The statistical calculation unit 31 obtains the average and variance of the incident angles of the frequency components selected by the frequency component selection unit 30 using a histogram or the like. By this statistical calculation, the frequency component that falls within a certain variance (for example, 2σ) with respect to the average value is selected by the frequency component selection unit 32 as the second frequency component selection means.
After this, in the frequency component, the average value of the incident angle θave
Is calculated by the average value calculator 24.

【0041】このように、第4の実施例によれば、各周
波数に於ける入射角を統計処理して平均値から大きく外
れている周波数成分の要素を除去することで、例えばエ
アコンディショナ等の話者以外から発生する音の影響に
よる誤検出を低減することができ、精度良く入射角を求
めることができる。
As described above, according to the fourth embodiment, the incident angle at each frequency is statistically processed to remove the element of the frequency component that is largely deviated from the average value, for example, an air conditioner or the like. It is possible to reduce erroneous detection due to the influence of a sound generated from a person other than the speaker, and it is possible to accurately determine the incident angle.

【0042】[0042]

【発明の効果】以上のようにこの発明によれば、話者の
位置を固定化せずに話者の移動に対応して、撮像方向、
画角、集音方向をリアルタイムに自動的に変えることが
でき、且つコストの上昇を抑えたテレビジョン会議シス
テム用の撮像システムを提供することができる。
As described above, according to the present invention, the imaging direction is changed in accordance with the movement of the speaker without fixing the position of the speaker.
It is possible to provide an image pickup system for a television conference system capable of automatically changing the angle of view and the sound collecting direction in real time and suppressing an increase in cost.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明のテレビジョン会議システム用の撮像
システムの一実施例の構成を示す外略図である。
FIG. 1 is an outline diagram showing the configuration of an embodiment of an image pickup system for a television conference system according to the present invention.

【図2】マイク11a及び11bを使用した場合の話者
の方位検出について説明する原理図である。
FIG. 2 is a principle diagram illustrating detection of a speaker's direction when using microphones 11a and 11b.

【図3】マイク11a、11b及び11cを使用した場
合の話者の方位検出について説明する図である。
FIG. 3 is a diagram for explaining direction detection of a speaker when using microphones 11a, 11b and 11c.

【図4】話者方位検出部5の具体的な構成例を示したも
ので、(a)は話者方向から見た正面図、(b)は斜視
図である。
4A and 4B show a specific configuration example of a speaker azimuth detecting section 5, where FIG. 4A is a front view seen from the speaker direction, and FIG. 4B is a perspective view.

【図5】話者方位検出部5及び話者位置解析部6の詳細
を示すブロック構成図である。
5 is a block configuration diagram showing details of a speaker orientation detection unit 5 and a speaker position analysis unit 6. FIG.

【図6】図5の話者方位解析部18aの詳細を示すブロ
ック構成図である。
6 is a block configuration diagram showing details of a speaker orientation analysis unit 18a in FIG.

【図7】この発明のテレビジョン会議システム用の撮像
システムの第2の実施例の構成を示す外略図である。
FIG. 7 is an outline diagram showing a configuration of a second embodiment of the image pickup system for the television conference system of the present invention.

【図8】図7の話者方位検出部5と話者方位検出部25
の配置を示す図である。
FIG. 8 is a speaker orientation detection unit 5 and a speaker orientation detection unit 25 of FIG.
It is a figure which shows arrangement | positioning.

【図9】話者方位検出部25の具体的な構成例を示す図
である。
FIG. 9 is a diagram showing a specific configuration example of a speaker orientation detection unit 25.

【図10】この発明の第2の実施例によるシステムの話
者方位検出部5、25及び話者位置解析ユニット26の
詳細を示すブロック構成図である。
FIG. 10 is a block configuration diagram showing details of speaker azimuth detecting units 5 and 25 and a speaker position analyzing unit 26 of a system according to a second embodiment of the present invention.

【図11】この発明の第3の実施例による話者方位解析
部の他の例を示したブロック構成図である。
FIG. 11 is a block diagram showing another example of the speaker direction analysis unit according to the third embodiment of the present invention.

【図12】この発明の第4の実施例による話者方位解析
部の更に他の例を示したブロック構成図である。
FIG. 12 is a block configuration diagram showing still another example of the speaker orientation analysis unit according to the fourth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…カメラ、2…高指向性集音マイクロホン、3…方位
制御装置、4…スタンド、5…話者方位検出部、6…話
者位置解析部、7…システム制御部、8…カメラ制御
部、9…テーブル、101 、102 、103 、104
…、10n 、10a、10b、10c…話者、11a〜
11c、13a〜13e…マイク、14…吸音材。
DESCRIPTION OF SYMBOLS 1 ... Camera, 2 ... High directivity sound collection microphone, 3 ... Direction control device, 4 ... Stand, 5 ... Speaker direction detection part, 6 ... Speaker position analysis part, 7 ... System control part, 8 ... Camera control part , 9 ... Table, 10 1 , 10 2 , 10 3 , 10 4 ,
... 10 n , 10a, 10b, 10c ... speaker, 11a-
11c, 13a to 13e ... Microphone, 14 ... Sound absorbing material.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 複数の異なる場所の間で映像情報及び音
声情報等の情報を伝送して会議等を行うテレビジョン会
議システム用の撮像システムに於いて、 少なくとも一人の話者を撮像する撮像手段と、 この撮像手段で撮像されるべく話者が発する音声情報を
検出する音声情報検出手段と、 この音声情報検出手段により検出された音声情報に基い
て、該音声の発生した方位情報を検出する方位情報検出
手段と、 この方位情報検出手段により検出された方位情報に基い
て、上記撮像手段による撮像状態を制御する制御手段と
を具備することを特徴とするテレビジョン会議システム
用の撮像システム。
1. An image pickup system for a television conference system for transmitting information such as video information and audio information between a plurality of different places to hold a conference, and an image pickup means for picking up an image of at least one speaker. And voice information detecting means for detecting voice information emitted by the speaker to be captured by the image capturing means, and direction information in which the voice is generated is detected based on the voice information detected by the voice information detecting means. An image pickup system for a television conference system, comprising: azimuth information detection means; and control means for controlling an image pickup state by the image pickup means based on the azimuth information detected by the azimuth information detection means.
JP5138537A 1993-06-10 1993-06-10 Image pickup system for video conference system Pending JPH06351015A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5138537A JPH06351015A (en) 1993-06-10 1993-06-10 Image pickup system for video conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5138537A JPH06351015A (en) 1993-06-10 1993-06-10 Image pickup system for video conference system

Publications (1)

Publication Number Publication Date
JPH06351015A true JPH06351015A (en) 1994-12-22

Family

ID=15224477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5138537A Pending JPH06351015A (en) 1993-06-10 1993-06-10 Image pickup system for video conference system

Country Status (1)

Country Link
JP (1) JPH06351015A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08298652A (en) * 1995-04-26 1996-11-12 Nec Corp Camera direction control device for video conference terminal
JPH09149309A (en) * 1995-11-24 1997-06-06 Fuji Electric Co Ltd Running-type checking robot
WO2001010121A1 (en) * 1999-08-02 2001-02-08 Pivotal Networking, Inc. Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users
KR20020045700A (en) * 2000-12-09 2002-06-20 박성근 A 3-Dimensional Sound Source Tracking Device Using A CCD Camera And A Mics
US6516066B2 (en) 2000-04-11 2003-02-04 Nec Corporation Apparatus for detecting direction of sound source and turning microphone toward sound source
JP2004032782A (en) * 2002-06-27 2004-01-29 Microsoft Corp All-direction camera and system for microphone array
US6788337B1 (en) 1998-03-02 2004-09-07 Nec Corporation Television voice control system capable of obtaining lively voice matching with a television scene
DE102005038717A1 (en) * 2005-08-15 2007-03-01 Micronas Gmbh Audio-visual processing used in audio-visual communication system, involves processing and controlling tone data sent to users based on produced tone control signal while tone and graphic data are simultaneously transmitted towards users
JP2007318439A (en) * 2006-05-25 2007-12-06 Yamaha Corp Audio conference device
WO2007139040A1 (en) * 2006-05-25 2007-12-06 Yamaha Corporation Speech situation data creating device, speech situation visualizing device, speech situation data editing device, speech data reproducing device, and speech communication system
JP2010010857A (en) * 2008-06-25 2010-01-14 Oki Electric Ind Co Ltd Voice input robot, remote conference support system, and remote conference support method
JP2011035472A (en) * 2009-07-29 2011-02-17 Chubu Electric Power Co Inc Image display device
JP2012034362A (en) * 2010-07-28 2012-02-16 Emprie Technology Development LLC Sound direction detection
JP2013511750A (en) * 2009-12-28 2013-04-04 歌尓声学股▲ふん▼有限公司 Microphone array noise reduction control method and apparatus

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08298652A (en) * 1995-04-26 1996-11-12 Nec Corp Camera direction control device for video conference terminal
JPH09149309A (en) * 1995-11-24 1997-06-06 Fuji Electric Co Ltd Running-type checking robot
US6788337B1 (en) 1998-03-02 2004-09-07 Nec Corporation Television voice control system capable of obtaining lively voice matching with a television scene
WO2001010121A1 (en) * 1999-08-02 2001-02-08 Pivotal Networking, Inc. Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users
US6208373B1 (en) * 1999-08-02 2001-03-27 Timothy Lo Fong Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users
US6516066B2 (en) 2000-04-11 2003-02-04 Nec Corporation Apparatus for detecting direction of sound source and turning microphone toward sound source
KR20020045700A (en) * 2000-12-09 2002-06-20 박성근 A 3-Dimensional Sound Source Tracking Device Using A CCD Camera And A Mics
JP2004032782A (en) * 2002-06-27 2004-01-29 Microsoft Corp All-direction camera and system for microphone array
DE102005038717A1 (en) * 2005-08-15 2007-03-01 Micronas Gmbh Audio-visual processing used in audio-visual communication system, involves processing and controlling tone data sent to users based on produced tone control signal while tone and graphic data are simultaneously transmitted towards users
JP2007318439A (en) * 2006-05-25 2007-12-06 Yamaha Corp Audio conference device
WO2007139040A1 (en) * 2006-05-25 2007-12-06 Yamaha Corporation Speech situation data creating device, speech situation visualizing device, speech situation data editing device, speech data reproducing device, and speech communication system
JP2010010857A (en) * 2008-06-25 2010-01-14 Oki Electric Ind Co Ltd Voice input robot, remote conference support system, and remote conference support method
JP2011035472A (en) * 2009-07-29 2011-02-17 Chubu Electric Power Co Inc Image display device
JP2013511750A (en) * 2009-12-28 2013-04-04 歌尓声学股▲ふん▼有限公司 Microphone array noise reduction control method and apparatus
JP2012034362A (en) * 2010-07-28 2012-02-16 Emprie Technology Development LLC Sound direction detection

Similar Documents

Publication Publication Date Title
US5940118A (en) System and method for steering directional microphones
US9693017B2 (en) Automatic switching between different cameras at a video conference endpoint based on audio
US7227566B2 (en) Communication apparatus and TV conference apparatus
US6185152B1 (en) Spatial sound steering system
US6516066B2 (en) Apparatus for detecting direction of sound source and turning microphone toward sound source
CN100370830C (en) Method and apparatus for audio-image speaker detection and location
EP2953348B1 (en) Determination, display, and adjustment of best sound source placement region relative to microphone
JP4296197B2 (en) Arrangement and method for sound source tracking
US9084038B2 (en) Method of controlling audio recording and electronic device
JP5857674B2 (en) Image processing apparatus and image processing system
JPH06351015A (en) Image pickup system for video conference system
US20120163624A1 (en) Directional sound source filtering apparatus using microphone array and control method thereof
JP2003532348A (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
JP2000356674A (en) Sound source identification device and its identification method
JP4411959B2 (en) Audio collection / video imaging equipment
CN113702910A (en) Sound positioning method and device based on double microphones
CN112015364A (en) Method and device for adjusting pickup sensitivity
JP4479227B2 (en) Audio pickup / video imaging apparatus and imaging condition determination method
KR101424911B1 (en) Real-time automatic video monitoring system including audio sensor array
JP3739673B2 (en) Zoom estimation method, apparatus, zoom estimation program, and recording medium recording the program
JP4198915B2 (en) Spatial sonic steering system
JP2005151042A (en) Sound source position specifying apparatus, and imaging apparatus and imaging method
JPH05308553A (en) Sound recorder for video camera
KR20170105727A (en) Method for enhancing the security of building by tracing a man who is speaking on the basis of voice analaysis and system using the same
JP3298297B2 (en) Voice direction sensor

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010918