JPH04109784A - Video conference picture display controller and its method - Google Patents

Video conference picture display controller and its method

Info

Publication number
JPH04109784A
JPH04109784A JP22877290A JP22877290A JPH04109784A JP H04109784 A JPH04109784 A JP H04109784A JP 22877290 A JP22877290 A JP 22877290A JP 22877290 A JP22877290 A JP 22877290A JP H04109784 A JPH04109784 A JP H04109784A
Authority
JP
Japan
Prior art keywords
signal
image signal
image
speaker
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP22877290A
Other languages
Japanese (ja)
Other versions
JP2630041B2 (en
Inventor
Hitoshi Koyama
小山 斉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2228772A priority Critical patent/JP2630041B2/en
Publication of JPH04109784A publication Critical patent/JPH04109784A/en
Application granted granted Critical
Publication of JP2630041B2 publication Critical patent/JP2630041B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To avoid the necessity of an exclusive operator and the operation by participants by specifying a direction of a speaker based on a voice signal inputted from 2>= microphones, selecting automatically only a picture signal of a specific part, compressing and sending the signal, expanding and displaying automatically only the specific picture part. CONSTITUTION:The above controller is provided with a direction decision circuit 200 being a position specification means specifying the location of a speaker of a voice signal based on the voice collected by a microphone. When a person 10 utters a word, the voice signal inputted to a microphone 21 has a delay of Tsec caused due to a distance difference with respect to the voice signal inputted to a microphone 20. The direction decision circuit 200 specifies the direction of the speaker and generates a control signal representing a coded area according to the specified direction and a decoding or display area as side information and sends a coded area 1 while coding it, After the received picture is decoded at the receiver side, only the part equivalent to the decoded area 1 is magnified and displayed according to the side information.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、テレビ電話および会議システムに利用する。[Detailed description of the invention] [Industrial application field] INDUSTRIAL APPLICATION This invention is utilized for a video telephone and a conference system.

特に、複数の人間を対象としたテレビ会議システムでの
カメラおよび画面の制御手段に関する。
In particular, the present invention relates to camera and screen control means in a video conference system for multiple people.

〔概要〕〔overview〕

本発明は、テレビ会議で発言中の発声者の画像を表示制
御する手段において、 発言中の発声者を自動選択することにより、人手による
カメラ操作を不要にすることができるようにしたもので
ある。
The present invention is a means for controlling the display of an image of a speaker who is speaking in a video conference, which automatically selects the speaker who is speaking, thereby eliminating the need for manual camera operation. .

〔従来の技術〕[Conventional technology]

従来のテレビ会議システムでは、会議出席者の中の発言
者に向けた撮像カメラの制御をジョイスティック等を用
いて撮像(送信)側あるいは表示〈受信)側で行うもの
がある。このようなテレビ会議ンステムでは、撮像側ま
たは表示側に専任のオペレータを設けるか、または会議
参加者が適宜発言者に向けたカメラ制御や表示切替を行
うことによって発言者の画像をとらえ、所望の効果をえ
られる。しかし、専任オペレータや会議参加者の操作が
無い場合は適切な画像が得られず、発言者と無関係な画
像の交信を行うことになる。以下具体的に撮像側でカメ
ラ制御を行う場合の従来例を第6図および表示側でカメ
ラ制御を行う場合の従来例を第7図の全体ブロック図を
用いて説明する。
In some conventional video conference systems, an imaging camera directed toward a speaker among conference participants is controlled on the imaging (transmission) side or the display (reception) side using a joystick or the like. In such video conferencing systems, a dedicated operator is provided on the imaging side or display side, or conference participants can control the camera to point at the speaker and switch the display as appropriate to capture the speaker's image and display the desired image. You can get the effect. However, if there is no operation by a full-time operator or a conference participant, an appropriate image cannot be obtained, and images unrelated to the speaker will be exchanged. Hereinafter, a conventional example in which camera control is performed on the imaging side will be specifically explained using FIG. 6, and a conventional example in which camera control is performed on the display side will be explained using the general block diagram in FIG. 7.

第6図で、10.11および12は会議参加者、20お
よび21はマイク、30は撮像カメラ、31は撮像カメ
ラのコントローラ、50はカメラ30で撮影した画像を
符号化する画像コーグ、51はマイク20および21で
集音した音声を符号化する音声コーグ、60は符号化さ
れた音声および画像をマルチプレクスして回線にのせる
マルチプレクサ、101 は送信回線、100は符号等
のデータを受信する受信回線、80は受信データを音声
系と画像系に分離するデマルチプレクサ、70は分離さ
れた音声符号を音声信号に復号化する音声デコーダ、7
1は画像符号を画像信号に復号化する画像デコーダ、9
0は画像信号を表示する表示TV、40および41は音
声信号を拡声するスピーカである。
In FIG. 6, 10.11 and 12 are conference participants, 20 and 21 are microphones, 30 is an imaging camera, 31 is a controller for the imaging camera, 50 is an image cog that encodes the image taken by the camera 30, and 51 is A voice cog encodes the voices collected by the microphones 20 and 21; 60 is a multiplexer that multiplexes the encoded voice and image and puts it on a line; 101 is a transmission line; 100 is a receiver for receiving data such as codes. a receiving line; 80 is a demultiplexer that separates received data into audio and image data; 70 is an audio decoder that decodes the separated audio codes into audio signals;
1 is an image decoder that decodes an image code into an image signal; 9
0 is a display TV that displays image signals, and 40 and 41 are speakers that amplify audio signals.

第7図で第6図と同一の番号を付したものは基本的に同
じ機能および動作を行うので説明は省略する。第7図で
第6図と異なるのは、61のマルチプレクサと、81の
デマルチプレクサとである。マルチプレクサ61は画像
符号と音声符号の他に相手方のカメラをコントロールす
るカメラコントローラ31の制御信号も合わせてマルチ
プレクスして送出する。デマルチプレクサ81は画像符
号と音声符号の他に、相手方から送られるカメラをコン
トロールする信号も合わせてデマルチプレクスして分離
する。
Components in FIG. 7 that are given the same numbers as in FIG. 6 basically have the same functions and operations, so a description thereof will be omitted. What is different in FIG. 7 from FIG. 6 is 61 multiplexers and 81 demultiplexers. The multiplexer 61 multiplexes the image code and the audio code, as well as a control signal from the camera controller 31 that controls the other party's camera, and sends the multiplexed signal. The demultiplexer 81 demultiplexes and separates not only the image code and the audio code but also the signal for controlling the camera sent from the other party.

従来のTV会議システムでは、例えば、撮影範囲を第6
図の画像の撮像側で人間が制御して適切な画面を撮影で
きる。一方、受信表示側で人間がカメラを制御すること
によっても同様の効果が得られる。
In conventional TV conference systems, for example, the shooting range is
A human can control the image capturing side of the figure to capture an appropriate screen. On the other hand, a similar effect can be obtained by having a person control the camera on the receiving and displaying side.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

このような従来のTV会議システムでは、自動的に発言
者にカメラを向ける手段が無く人間の操作を必要とし、
カメラを制御する人間を余分に用いるかまたは参加者が
自らカメラを制御せざるをえなく、余分な人員の発生や
カメラ制御のために会議に集中できないなどの問題を引
起こしている。
In such conventional TV conference systems, there is no means to automatically point the camera at the speaker, and human operation is required.
Either an extra person is required to control the camera, or participants are forced to control the camera themselves, causing problems such as extra personnel and difficulty concentrating on the meeting due to camera control.

さらに、画像の受信側でカメラを制御する場合は、送信
側のカメラをコントロールするために相手側の人間の配
列順序や音声の特徴をあらかじめ把握しておき、発声者
の方向をこの記憶をたよりに特定し、カメラを制御する
ことを回避する手段が無く試行錯誤で方向を特定しなけ
ればならない問題があった。また、専任のオペレータを
用いる場合は、人手の増加とともに、会議内容を第三者
に聞かれる問題もあった。
Furthermore, when controlling the camera on the image receiving side, it is necessary to know in advance the arrangement order of the people on the other side and the characteristics of the voices in order to control the camera on the transmitting side, and use this memory to determine the direction of the speaker. There was a problem in that there was no way to avoid specifying the direction and controlling the camera, and the direction had to be specified by trial and error. Furthermore, when a full-time operator is used, there is the problem that not only does the number of personnel increase, but also the content of the meeting can be heard by a third party.

本発明は、このような欠点を除去するもので、人手によ
るカメラ操作を不要にするテレビ会議画像表示制御装置
および方法を提供することを目的とする。
The present invention aims to eliminate such drawbacks and to provide a video conference image display control device and method that eliminates the need for manual camera operation.

〔課題を解決するための手段〕[Means to solve the problem]

本発明は、撮像するカメラと、集音する集音手段と、上
記カメラから与えられる画像信号を圧縮して圧縮画像信
号を生成する画像信号圧縮手段と、上記集音手段から与
えられる音声信号を圧縮して圧縮音声信号を生成する音
声信号圧縮手段と、上記圧縮画像信号と上記圧縮音声信
号とを多重化して多重化信号を生成して送信する多重化
送信手段と、この多重化送信手段から到来する多重化信
号を圧縮画像信号と圧縮音声信号とに分離する信号分離
手段と、この信号分離手段で分離された圧縮画像信号を
伸張する画像信号伸張手段と、上記信号分離手段で分離
された圧縮音声信号を伸張する音声信号伸張手段と、上
記画像信号伸張手段で伸張された画像信号に係わる画像
信号を表示する表示手段と、上記音声信号伸張手段で伸
張された音声信号を拡声する拡声手段とを備えたテレビ
会議方式の画像符号化および表示制御装置において、上
記集音手段を複数個備え、この複数個の集音手段が集音
した音声に基づきこの音声の発声者の位置を特定する位
置特定手段を備えたことを特徴とする。
The present invention includes a camera that takes an image, a sound collection means that collects sound, an image signal compression means that compresses an image signal given from the camera to generate a compressed image signal, and an audio signal given from the sound collection means. audio signal compression means for compressing and generating a compressed audio signal; multiplexing transmission means for multiplexing the compressed image signal and the compressed audio signal to generate and transmit a multiplexed signal; a signal separating means for separating an incoming multiplexed signal into a compressed image signal and a compressed audio signal; an image signal expanding means for expanding the compressed image signal separated by the signal separating means; and a signal separating means for expanding the compressed image signal separated by the signal separating means; audio signal expansion means for expanding the compressed audio signal; display means for displaying an image signal related to the image signal expanded by the image signal expansion means; and amplification means for amplifying the audio signal expanded by the audio signal expansion means. A video conference type image encoding and display control device comprising a plurality of the above-mentioned sound collecting means, and identifying the position of the speaker of the sound based on the sound collected by the plurality of sound collecting means. It is characterized by being equipped with a position specifying means.

ここで、上記位置特定手段の特定した位置の近傍の画像
信号を除く画像信号を上記画像信号圧縮手段に与えるこ
とを禁止する画像信号送出禁止手段を備えることが望ま
しい。
Here, it is desirable to provide an image signal transmission prohibition means for prohibiting image signals other than image signals in the vicinity of the position specified by the position specifying means from being provided to the image signal compression means.

また、上記位置特定手段の特定した位置を示す位置情報
を送信する特定位置情報送信手段と、上記画像信号送出
禁止手段に代わり、到来する位置情報の示す圧縮画像信
号の部分を除く圧縮画像信号を上記画像信号伸張手段に
与えることを禁止する画像信号伸張禁止手段を備えるこ
とが望ましい。
Further, in place of the specific position information transmitting means for transmitting the position information indicating the position specified by the position specifying means and the above-mentioned image signal transmission prohibiting means, the compressed image signal excluding the part of the compressed image signal indicating the incoming position information is provided. It is desirable to include an image signal expansion prohibition means for prohibiting the image signal from being applied to the image signal expansion means.

また、上記画像信号伸張禁止手段に代わり、上記到来す
る圧縮画像信号の伸張処理後に到来する位置情報の示す
部分を拡大して上記表示手段に与える表示拡大手段を備
えことが望ましい。
Further, in place of the image signal decompression inhibiting means, it is preferable to include a display enlarging means for enlarging a portion indicated by the positional information that arrives after the incoming compressed image signal has been decompressed and providing it to the display means.

〔作用〕[Effect]

少なくとも2本以上のマイクから入力される音声を基に
発声者の方向を特定し、発声者の位置特定手段の結果に
応じてカメラより入力した画像の特定部分の画像信号の
みを自動的に選択して圧縮し、送信し、また、発声者の
位置特定手段の結果を送信し、この送信された位置特定
結果を受信し、受信した位置特定結果に基づきテレビ画
面の圧縮された信号の伸張を制御し、特定の画像部分の
信号のみを自動的に伸張し表示する。
The direction of the speaker is identified based on the audio input from at least two microphones, and only the image signal of a specific part of the image input from the camera is automatically selected according to the result of the speaker's location identification means. the compressed signal of the television screen is decompressed based on the received positioning result; control, and automatically expands and displays only the signal of a specific image part.

〔実施例〕〔Example〕

以下、本発明の一実施例を図面に基づき説すする。第1
図は第一実施例で、−台のカメラの撮影した画像の特定
エリアを符号化して送信する場合を示す全体ブロック構
成図である。第1図で第6図、第7図と同一の番号を付
したものは基本的に同様な機能を有するものであるので
説明を省略する。第1図で、200は2本のマイク20
および21から人力される音声などの到達時間差とマイ
ク20および21の設置間隔を基に音声などの発信源の
方向を判定し、符号化対象エリアを示す信号を生成して
出力する方向判定回路である。300は方向判定回路2
00から出力される信号に従ってカメラ撮影画像の特定
エリアを符号化する符号化制御回路である。
Hereinafter, one embodiment of the present invention will be explained based on the drawings. 1st
The figure is a first embodiment, and is an overall block configuration diagram showing a case where a specific area of an image taken by - cameras is encoded and transmitted. Components in FIG. 1 labeled with the same numbers as in FIGS. 6 and 7 basically have the same functions, and therefore their explanations will be omitted. In Figure 1, 200 is two microphones 20
and a direction determination circuit that determines the direction of the source of the voice, etc. based on the arrival time difference of the voice input manually from 21 and the installation interval of the microphones 20 and 21, and generates and outputs a signal indicating the area to be encoded. be. 300 is direction determination circuit 2
This is an encoding control circuit that encodes a specific area of a camera-captured image according to a signal output from 00.

第2図は、第二実施例で、カメラから取り込まれる画像
はそのまま符号化して送信するが、サイド情報に復号化
エリアを指定する情報を付加する場合を示す全体ブロッ
ク構成図である。第2図で、第1図、第6図および第7
図と同一の番号を付したものは同一の機能を有するもの
であるので説明を省略する。第二実施例で、マルチプレ
クサ60は符号化された音声、画像信号の他に方向判定
回路200の結果を合わせてマルチプレクサする。一方
、デマルチプレクサ80はマルチプレクサ60とは逆に
、符号化された音声、画像信号の他に符号化エリアを特
定するサイド情報も分離する。復号化制御回路400は
復号化エリアを指定するサイド情報に基づき指定エリア
の符号化された画像信号を取り出して画像デコーダ71
に送出する。画像デコーダ71は源画像の一部の符号化
データを復号化して表示TV90に送出する。
FIG. 2 is an overall block configuration diagram showing a second embodiment in which an image captured from a camera is encoded and transmitted as is, but information specifying a decoding area is added to side information. In Figure 2, Figures 1, 6 and 7
Components with the same numbers as those in the drawings have the same functions, so their explanation will be omitted. In the second embodiment, the multiplexer 60 multiplexes the results of the direction determination circuit 200 in addition to the encoded audio and image signals. On the other hand, in contrast to the multiplexer 60, the demultiplexer 80 separates side information specifying the coding area in addition to the coded audio and image signals. The decoding control circuit 400 extracts the encoded image signal of the designated area based on the side information that designates the decoding area and sends it to the image decoder 71.
Send to. The image decoder 71 decodes encoded data of a part of the source image and sends it to the display TV 90.

第3図は、第三実施例でカメラ30から取り込まれる画
像はそのまま符号化して送信するが、サイド情報に復号
化エリアを指定する情報を付加して送信し、受信側て復
号化の後に表示エリアを特定して拡大表示する場合を示
す全体ブロック構成図である。第3図で、第1図、第2
図、第6図および第7図と同一の番号を付したものは同
一の機能を有するものであるので説明を省略する。第三
実施例で、マルチプレクサ60は符号化された音声、画
像信号の他に方向判定回路200の結果を合わせてマル
チプレクサする。一方、デマルチプレクサ80はマルチ
プレクサ60とは逆に、符号化された音声、画像信号の
他に符号化エリアを特定するサイド情報も分離する。画
像デコーダ71は送信された画像データを復号化する。
FIG. 3 shows that in the third embodiment, the image captured from the camera 30 is encoded and transmitted as is, but information specifying the decoding area is added to the side information and transmitted, and the receiving side displays it after decoding. FIG. 2 is an overall block configuration diagram showing a case where an area is specified and displayed in an enlarged manner. In Figure 3, Figure 1, 2
Components with the same numbers as in FIG. 6, FIG. 7, and FIG. 7 have the same functions, so their explanation will be omitted. In the third embodiment, the multiplexer 60 multiplexes the encoded audio and image signals as well as the results of the direction determination circuit 200. On the other hand, in contrast to the multiplexer 60, the demultiplexer 80 separates side information specifying the coding area in addition to the coded audio and image signals. Image decoder 71 decodes the transmitted image data.

表示制御回路500は送信された表示エリアを指定する
サイド情報に基づき指定エリアの画像信号を取り出して
拡大し、表示TV90に送出する。
The display control circuit 500 takes out the image signal of the designated area based on the transmitted side information designating the display area, enlarges it, and sends it to the display TV 90.

すなわち、この実施例は、撮像するカメラ30と、集音
する集音手段であるマイク20および21と、カメラ3
0から与えられる画像信号を圧縮して圧縮画像信号を生
成する画像信号圧縮手段である画像コ−ダ50と、」1
記集音手段から与えられる音声信号を圧縮して圧縮音声
信号を生成する音声信号圧縮手段てあ・る音声コーグ5
1と、上記圧縮画像信号と上記圧縮音声信号とを多重化
して多重化信号を生成して送信する多重化送信手段であ
るマルチプレクサ60と、この多重化送信手段から到来
する多重化信号を圧縮画像信号と圧縮音声信号とに分離
する信号分離手段であるデマルチプレクサ80と、この
信号分離手段で分離された圧縮画像信号を伸張する画像
信号伸張手段である画像デコーダ71と、上記信号分離
手段で分離された圧縮音声信号を伸張する音声信号伸張
手段である音声デコーダ70と、上記画像信号伸張手段
で伸張された画像信号に係わる画像信号を表示する表示
手段である表示TVと、上記音声信号伸張手段で伸張さ
れた音声信号を拡声する拡声手段であるスピーカ40お
よび41とを備え、さらに、本発明の特徴とする手段と
して、上記集音手段が集音した音声に基づきこの音声の
発声者の位置を特定する位置特定手段である方向判定回
路200を備え、ここで、第一の発明は、上記位置特定
手段の特定した位置の近傍の画像信号を除く画像信号を
上記画像信号圧縮手段に与えることを禁止する画像信号
送出禁止手段である符号化制御回路300を備え、第二
〇発明は、マルチプレクサ60に、上記位置特定手段の
特定した位置を示す位置情報を送信する特定位置情報送
信手段を含み、上記画像信号圧縮手段に代わり、到来す
る位置情報の示す圧縮画像信号の部分を除く圧縮画像信
号を上記画像信号伸張手段に与えることを禁止する画像
信号伸張禁止手段である復号化制御回路400を備え、
第三の発明は、上記画像信号伸張禁止手段に代わり、上
記到来する圧縮画像信号の伸張処理後に到来する位置情
報の示す部分を拡大して上記表示手段に与える表示拡大
手段である表示制御回路500を備える。
That is, this embodiment includes a camera 30 for capturing an image, microphones 20 and 21 as a sound collecting means for collecting sound, and a camera 30 for capturing an image.
an image coder 50 which is an image signal compression means for compressing an image signal given from 0 to generate a compressed image signal;
Audio signal compression means for compressing the audio signal given from the recording sound collection means to generate a compressed audio signal
1, a multiplexer 60 which is a multiplexing transmission means for multiplexing the compressed image signal and the compressed audio signal to generate and transmit a multiplexed signal; A demultiplexer 80 is a signal separating means for separating a signal and a compressed audio signal; an image decoder 71 is an image signal expanding means for expanding the compressed image signal separated by the signal separating means; an audio decoder 70 which is an audio signal decompressing means for decompressing the compressed audio signal; a display TV which is a display means for displaying an image signal related to the image signal decompressed by the image signal decompressing means; and the audio signal decompressing means. and loudspeakers 40 and 41, which are amplifying means for amplifying the audio signal decompressed by the sound collecting means. A direction determination circuit 200 is provided as a position specifying means for specifying a position, wherein a first invention provides the image signal compression means with an image signal excluding image signals in the vicinity of the position specified by the position specifying means. The 20th invention includes a coding control circuit 300 which is an image signal transmission prohibition means for prohibiting image signal transmission, and the 20th invention includes specific position information transmitting means for transmitting position information indicating the position specified by the position specifying means to the multiplexer 60. , instead of the image signal compression means, a decoding control circuit 400 is provided which is an image signal decompression prohibition means for prohibiting the compressed image signal excluding the portion of the compressed image signal indicated by the incoming position information from being given to the image signal decompression means. Prepare,
A third aspect of the present invention is a display control circuit 500 which is a display enlargement means, instead of the image signal decompression inhibiting means, which enlarges a portion indicated by the positional information that arrives after decompression processing of the incoming compressed image signal and provides it to the display means. Equipped with

次に、動作について説明する。なお説明の簡単のため第
1図の人間10.11および12とマイク20および2
1の位置(距離)関係を第8図の状態で説明する。第8
図で、マイク20と21とは会議参加者の発声をとらえ
電気信号に変換して出力する。人間10が発声している
場合には、マイク21に人力される音声信号はマイク2
0に人力される音声信号に対して距離差によって生じる
T秒の遅れを持つ。したがって、音速をSとすればY=
TXS+Xの関係がある。マイク20と21との出力の
一例を第9図に示す。第9図で、上段はマイク20の出
力する信号波形、下段はマイク21の出力する信号波形
を示す。第8図に示した例では、マイク20の信号波形
を基準にマイク21の信号波形を観測すると、以下3つ
の場合が存在する。
Next, the operation will be explained. For ease of explanation, humans 10, 11 and 12 and microphones 20 and 2 in Figure 1 are used.
The positional (distance) relationship of 1 will be explained using the state shown in FIG. 8th
In the figure, microphones 20 and 21 capture the voices of conference participants and convert them into electrical signals for output. When the human 10 is speaking, the voice signal inputted to the microphone 21 is transmitted to the microphone 2.
There is a delay of T seconds caused by the distance difference with respect to the human input audio signal. Therefore, if the speed of sound is S, then Y=
There is a relationship between TXS+X. An example of the output of the microphones 20 and 21 is shown in FIG. In FIG. 9, the upper row shows the signal waveform output from the microphone 20, and the lower row shows the signal waveform output from the microphone 21. In the example shown in FIG. 8, when the signal waveform of the microphone 21 is observed based on the signal waveform of the microphone 20, the following three cases exist.

■ マイク21の信号波形の遅れTが正の値の場合:人
間10が発声 ■ マイク20と21の信号波形間の遅れTが0の場合
:人間11が発声 ■ マイク21の信号波形の遅れTが負の値の場合:人
間12が発声 である。なお、本実施例では説明を簡単にするために人
間を3人、マイクの個数を2個、相互の距離関係を同一
としたが、人間の総数、マイクの総数などが複数であり
、人間とマイクの距離関係が不均一の場合でも、人間が
TVカメラでの撮影に支障が無い程度にカメラの光軸に
対して直角に近く直線状に整列し、かつマイクの配置が
人間の配列に対しほぼ並行またはほぼ直交に近い場合で
、マイク間の距離と信号の到達時間差が明確であれば、
同様の基本原理で方向を特定することができる。方向判
定回路200は発声者の方向を特定し、特定した方向に
従って符号化エリアを示す制御信号、復号化または表示
エリアをサイド情報として生成する。例えば上述の■の
場合に、第一実施例では、カメラ撮影画像の内、第4図
の符号化エリア1を符号化して送出する。また、第二実
施例では、第5図の復号化エリア1を示すサイド情報を
生成し送出する。また、第三実施例でも、第二実施例と
同様に、サイド情報を送出し、受信側では受信画像をデ
コードした後に、サイド情報に従って第5図の復号化エ
リア1に相当する部分のみを拡大して表示を行う。
■ If the delay T of the signal waveform of the microphone 21 is a positive value: the human 10 speaks ■ If the delay T between the signal waveforms of the microphones 20 and 21 is 0: the human 11 speaks ■ The delay T of the signal waveform of the microphone 21 If is a negative value: the human 12 is speaking. In this example, in order to simplify the explanation, there are three people, two microphones, and the distance relationship between them is the same. However, the total number of people, the total number of microphones, etc. are plural, and Even if the distance between the microphones is uneven, the person should be aligned in a straight line at right angles to the camera's optical axis to the extent that it does not interfere with the TV camera's shooting, and the microphone placement should be relative to the person's arrangement. If the microphones are almost parallel or orthogonal, and the distance between the microphones and the difference in arrival time of the signals are clear,
Direction can be determined using a similar basic principle. The direction determining circuit 200 specifies the direction of the speaker, and generates a control signal indicating the encoding area and a decoding or display area as side information according to the specified direction. For example, in the case of (2) above, in the first embodiment, encoding area 1 in FIG. 4 of the camera-captured image is encoded and transmitted. Furthermore, in the second embodiment, side information indicating decoding area 1 in FIG. 5 is generated and sent. Also, in the third embodiment, similarly to the second embodiment, side information is sent, and after decoding the received image on the receiving side, only the portion corresponding to decoding area 1 in FIG. 5 is enlarged according to the side information. and display it.

〔発明の効果〕〔Effect of the invention〕

本発明は、以上説明したように、TVカメラの操作者に
よる撮影画像の選択を不必要とし、専任のオペレータや
参加者の模作を回避することができるので、会議進行の
円滑化が図れ、またオペレータによる秘密漏洩の問題を
回避することができる効果がある。
As explained above, the present invention eliminates the need for a TV camera operator to select a photographed image and avoids imitations by a full-time operator or participants, thereby facilitating the smooth progress of a meeting. This has the effect of avoiding the problem of secret leakage by operators.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の第一実施例を示す全体ブロック図。 第2図は第二実施例を示す全体ブロック図。 第3図は第三実施例を示す全体ブロック図。 第4図は符号化エリアの例を示す図。 第5図は復号化エリアの例を示す図。 第6図は従来例を示す全体ブロック図。 第7図は従来例を示す全体ブロック図。 第8図はマイクと会議参加者との位置関係の一例を示す
図。 第9図はマイクに入力される音声の信号波形を示す図。 10.11.12・・・人間、20.21・・・マイク
、30・・・カメラ、31・・・カメラコントローラ、
40.41・・・スピーカ、50・・・画像コーグ、5
1・・・音声コーグ、60.61・・・マルチプレクサ
、70・・・音声デコーダ、71・・・画像デコーダ、
80.81・・・デマルチプレクサ、90・・・表示T
V。 100・・・受信回線、101・・・送信回線、200
・・・方向判定回路、300・・・符号化制御回路、4
00・・・復号化制御回路、500・・・表示制御回路
FIG. 1 is an overall block diagram showing a first embodiment of the present invention. FIG. 2 is an overall block diagram showing a second embodiment. FIG. 3 is an overall block diagram showing a third embodiment. FIG. 4 is a diagram showing an example of a coding area. FIG. 5 is a diagram showing an example of a decoding area. FIG. 6 is an overall block diagram showing a conventional example. FIG. 7 is an overall block diagram showing a conventional example. FIG. 8 is a diagram showing an example of the positional relationship between microphones and conference participants. FIG. 9 is a diagram showing the signal waveform of audio input to the microphone. 10.11.12...Human, 20.21...Microphone, 30...Camera, 31...Camera controller,
40.41...Speaker, 50...Image Korg, 5
1... Audio cog, 60. 61... Multiplexer, 70... Audio decoder, 71... Image decoder,
80.81... Demultiplexer, 90... Display T
V. 100... Receiving line, 101... Transmitting line, 200
... Direction determination circuit, 300 ... Encoding control circuit, 4
00...Decoding control circuit, 500...Display control circuit.

Claims (1)

【特許請求の範囲】 1、撮像するカメラと、集音する集音手段と、上記カメ
ラから与えられる画像信号を圧縮して圧縮画像信号を生
成する画像信号圧縮手段と、上記集音手段から与えられ
る音声信号を圧縮して圧縮音声信号を生成する音声信号
圧縮手段と、上記圧縮画像信号と上記圧縮音声信号とを
多重化して多重化信号を生成して送信する多重化送信手
段と、この多重化送信手段から到来する多重化信号を圧
縮画像信号と圧縮音声信号とに分離する信号分離手段と
、この信号分離手段で分離された圧縮画像信号を伸張す
る画像信号伸張手段と、上記信号分離手段で分離された
圧縮音声信号を伸張する音声信号伸張手段と、上記画像
信号伸張手段で伸張された画像信号に係わる画像信号を
表示する表示手段と、上記音声信号伸張手段で伸張され
た音声信号を拡声する拡声手段とを備えたテレビ会議画
像表示制御装置において、 上記集音手段を複数個備え、この複数個の集音手段が集
音した音声に基づきこの音声の発声者の位置を特定する
位置特定手段を備えたことを特徴とするテレビ会議画像
表示制御装置。 2、上記位置特定手段の特定した位置の近傍の画像信号
を除く画像信号を上記画像信号圧縮手段に与えることを
禁止する画像信号送出禁止手段を備えた特許請求項1記
載のテレビ会議画像表示制御装置。 3、上記位置特定手段の特定した位置を示す位置情報を
送信する特定位置情報送信手段と、上記画像信号圧縮手
段に代わり、到来する位置情報の示す圧縮画像信号の部
分を除く圧縮画像信号を上記画像信号伸張手段に与える
ことを禁止する画像信号伸張禁止手段を備えた特許請求
項1記載のテレビ会議画像表示制御装置。 4、上記画像信号伸張禁止手段に代わり、上記到来する
圧縮画像信号の伸張処理後に到来する位置情報の示す部
分を拡大して上記表示手段に与える表示拡大手段を備え
た特許請求項3記載のテレビ会議画像表示制御装置。 5、複数人の発声者を含む場面を撮像するカメラおよび
この発声者の音声を集音する集音手段のそれぞれで画像
信号および音声信号のそれぞれを生成する第一ステップ
、この第一ステップで生成された信号を圧縮符号化した
後に多重化して送出する第二ステップと、到来する多重
化された信号を分離し、分離されたそれぞれの信号を伸
張して画像信号および音声信号を復元し、この画像信号
を表示する第三ステップとで構成されたテレビ会議画像
表示制御方法において、 上記第一ステップは、離隔した位置に上記集音手段を置
き、この集音手段のそれぞれに到来する音声の時間差に
基づき発声者の位置を特定し、この特定された位置の発
声者を選択し、この選択された発声者にかかわる画像信
号を生成するステップを含むことを特徴とするテレビ会
議画像表示制御方法。 6、複数人の発声者を含む場面を撮像するカメラおよび
この発声者の音声を集音する集音手段のそれぞれで画像
信号および音声信号のそれぞれを生成する第一ステップ
と、この第一ステップで生成された信号を圧縮符号化し
た後に多重化して送出する第二ステップと、到来する多
重化された信号を分離し、分離されたそれぞれの信号を
伸張して画像信号および音声信号を復元し、この画像信
号を表示する第三ステップとで構成されたテレビ会議画
像表示制御方法において、 上記第一ステップは、離隔した位置に上記集音手段を置
き、この集音手段のそれぞれに到来する音声の時間差に
基づき発声者の位置を特定し、この特定された位置を示
す選択信号を生成し、この選択信号とともに上記複数人
の発声者を含む場面に対応する画像信号を生成するステ
ップを含み、上記第三ステップは、到来する選択信号に
基づき到来する画像信号から選択した発声者にかかわる
画像信号を伸張して表示するステップを含むことを特徴
とするテレビ会議画像表示制御方法。 7、複数人の発声者を含む場面を撮像するカメラおよび
この発声者の音声を集音する集音手段のそれぞれで画像
信号および音声信号のそれぞれを生成する第一ステップ
と、この第一ステップで生成された信号を圧縮符号化し
た後に多重化して送出する第二ステップと、到来する多
重化された信号を分離し、分離されたそれぞれの信号を
伸張して画像信号および音声信号を復元し、この画像信
号を表示する第三ステップとで構成されたテレビ会議画
像表示制御方法において、 上記第一ステップは、離隔した位置に上記集音手段を置
き、この集音手段のそれぞれに到来する音声の時間差に
基づき発声者の位置を特定し、この特定された位置を示
す選択信号を生成し、この選択信号とともに上記複数人
の発声者を含む場面に対応する画像信号を生成するステ
ップを含み、上記第三ステップは、到来する画像信号を
伸張し、到来する選択信号に基づきこの伸張された画像
信号のうちの発声者にかかわる画像信号を選択して拡大
表示するステップを含むことを特徴とするテレビ会議画
像表示制御方法。
[Scope of Claims] 1. A camera that takes an image, a sound collection means that collects sound, an image signal compression means that compresses an image signal provided from the camera to generate a compressed image signal, and a video signal provided from the sound collection means. audio signal compression means for compressing an audio signal to generate a compressed audio signal; multiplexing transmission means for multiplexing the compressed image signal and the compressed audio signal to generate and transmit a multiplexed signal; a signal separating means for separating the multiplexed signal arriving from the signal separating means into a compressed image signal and a compressed audio signal; an image signal expanding means for expanding the compressed image signal separated by the signal separating means; and the signal separating means. audio signal expansion means for expanding the compressed audio signal separated by the image signal expansion means; display means for displaying an image signal related to the image signal expanded by the image signal expansion means; A video conference image display control device equipped with a loudspeaker means for amplifying the sound, comprising a plurality of the above-mentioned sound collecting means, and a position for identifying the position of the speaker of the sound based on the sound collected by the plurality of sound collecting means. A video conference image display control device comprising specifying means. 2. The video conference image display control according to claim 1, further comprising image signal transmission prohibiting means for prohibiting image signals other than image signals in the vicinity of the position specified by the position specifying means from being provided to the image signal compression means. Device. 3. Specific position information transmitting means for transmitting position information indicating the position specified by the position specifying means, and instead of the image signal compression means, transmitting the compressed image signal excluding the part of the compressed image signal indicating the incoming position information. 2. The video conference image display control device according to claim 1, further comprising image signal decompression prohibition means for prohibiting the image signal from being provided to the image signal decompression means. 4. The television set according to claim 3, further comprising display enlarging means in place of the image signal decompression inhibiting means, which magnifies a portion indicated by positional information that arrives after decompression processing of the incoming compressed image signal and provides it to the display means. Conference image display control device. 5. A first step in which an image signal and an audio signal are generated by a camera that images a scene including multiple speakers and a sound collection means that collects the voices of the speakers; The second step is to compress and encode the received signals, multiplex them and send them out, and separate the incoming multiplexed signals, expand each separated signal to restore the image signal and the audio signal, and then and a third step of displaying an image signal. 1. A video conference image display control method comprising the steps of specifying the location of a speaker based on the location of the speaker, selecting the speaker at the identified location, and generating an image signal related to the selected speaker. 6. A first step of generating an image signal and an audio signal with each of a camera that images a scene including a plurality of speakers and a sound collection means that collects the voices of the speakers; a second step of compressing and encoding the generated signal, multiplexing it and sending it out; separating the incoming multiplexed signal and decompressing each separated signal to restore the image signal and the audio signal; In the video conference image display control method comprising a third step of displaying the image signal, the first step includes placing the sound collecting means at separate positions, the step of identifying the location of the speaker based on the time difference, generating a selection signal indicating the identified location, and generating an image signal corresponding to a scene including the plurality of speakers together with the selection signal; A video conference image display control method characterized in that the third step includes the step of expanding and displaying an image signal related to a speaker selected from incoming image signals based on an incoming selection signal. 7. A first step of generating an image signal and an audio signal with each of a camera that images a scene including a plurality of speakers and a sound collection means that collects the voices of the speakers; a second step of compressing and encoding the generated signal, multiplexing it and sending it out; separating the incoming multiplexed signal and decompressing each separated signal to restore the image signal and the audio signal; In the video conference image display control method comprising a third step of displaying the image signal, the first step includes placing the sound collecting means at separate positions, the step of identifying the location of the speaker based on the time difference, generating a selection signal indicating the identified location, and generating an image signal corresponding to a scene including the plurality of speakers together with the selection signal; The television is characterized in that the third step includes the step of expanding the incoming image signal, and selecting and enlarging and displaying the image signal related to the speaker from among the expanded image signals based on the incoming selection signal. Conference image display control method.
JP2228772A 1990-08-29 1990-08-29 Video conference image display control method Expired - Fee Related JP2630041B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2228772A JP2630041B2 (en) 1990-08-29 1990-08-29 Video conference image display control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2228772A JP2630041B2 (en) 1990-08-29 1990-08-29 Video conference image display control method

Publications (2)

Publication Number Publication Date
JPH04109784A true JPH04109784A (en) 1992-04-10
JP2630041B2 JP2630041B2 (en) 1997-07-16

Family

ID=16881602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2228772A Expired - Fee Related JP2630041B2 (en) 1990-08-29 1990-08-29 Video conference image display control method

Country Status (1)

Country Link
JP (1) JP2630041B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997048252A1 (en) * 1996-06-14 1997-12-18 Picturetel Corporation Method and apparatus for localization of an acoustic source
WO2002058390A1 (en) * 2001-01-17 2002-07-25 Ericsson Inc. Adaptive display for video conferences

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62157493A (en) * 1985-12-29 1987-07-13 Toshiba Corp Electronic conference system
JPH0210635A (en) * 1988-06-29 1990-01-16 Matsushita Electric Ind Co Ltd Picture display device
JPH0244885A (en) * 1988-08-04 1990-02-14 Toshiba Corp Method and device for picture transmission
JPH0250690A (en) * 1988-08-12 1990-02-20 Oki Electric Ind Co Ltd Picture control method for picture communication equipment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62157493A (en) * 1985-12-29 1987-07-13 Toshiba Corp Electronic conference system
JPH0210635A (en) * 1988-06-29 1990-01-16 Matsushita Electric Ind Co Ltd Picture display device
JPH0244885A (en) * 1988-08-04 1990-02-14 Toshiba Corp Method and device for picture transmission
JPH0250690A (en) * 1988-08-12 1990-02-20 Oki Electric Ind Co Ltd Picture control method for picture communication equipment

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997048252A1 (en) * 1996-06-14 1997-12-18 Picturetel Corporation Method and apparatus for localization of an acoustic source
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
WO2002058390A1 (en) * 2001-01-17 2002-07-25 Ericsson Inc. Adaptive display for video conferences

Also Published As

Publication number Publication date
JP2630041B2 (en) 1997-07-16

Similar Documents

Publication Publication Date Title
JP2751923B1 (en) Multipoint video conference system and multipoint video conference device
JP3125552B2 (en) Video conference system
US6037970A (en) Videoconference system and method therefor
JPH09271006A (en) Multi-point video conference equipment
JP3097736B2 (en) Multi-screen transmission type multi-point video conference system
JP2000324463A (en) Video conference system
JP3460625B2 (en) Videophone device and information processing method in videophone device
JPH04109784A (en) Video conference picture display controller and its method
JPH0758859A (en) Information transmitter and information receiver for conference
JP3031320B2 (en) Video conferencing equipment
JPH09327009A (en) Video conference system and method and communication center
JPS62209985A (en) Video conference equipment
JP2730452B2 (en) Video conference system
JPH09261608A (en) Video conference terminal equipment and video conference image processor
JPH07107451A (en) Picture communication terminal equipment
JPS63114485A (en) Video conference equipment control system
JPH04168893A (en) Multi-point video conference terminal equipment
JPH05328337A (en) Image communication terminal equipment
JPH10126757A (en) Video conference system
JP2003209600A (en) Calling system, calling terminal, method, program, and computer-readable storage medium
JPS6284689A (en) Picture transmission and display system
JPH05260463A (en) System for switching video image of opposite party of conference
JP3178509B2 (en) Stereo audio teleconferencing equipment
JPH069391B2 (en) Video conference system
JPH0244885A (en) Method and device for picture transmission

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees