JP2009177592A - Communication terminal device, and image display control method - Google Patents

Communication terminal device, and image display control method Download PDF

Info

Publication number
JP2009177592A
JP2009177592A JP2008014995A JP2008014995A JP2009177592A JP 2009177592 A JP2009177592 A JP 2009177592A JP 2008014995 A JP2008014995 A JP 2008014995A JP 2008014995 A JP2008014995 A JP 2008014995A JP 2009177592 A JP2009177592 A JP 2009177592A
Authority
JP
Japan
Prior art keywords
terminal device
communication terminal
image
communication
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008014995A
Other languages
Japanese (ja)
Inventor
Satoya Kondo
学哉 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008014995A priority Critical patent/JP2009177592A/en
Publication of JP2009177592A publication Critical patent/JP2009177592A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To grasp who the user of a voice terminal is, as much as possible by viewing a terminal image indicating a connection destination terminal, when a video and voice terminal in a television conference system communicates with a voice terminal, capable of transmitting voice only. <P>SOLUTION: Address book data are stored in a television conference terminal. Thumbnail image data, name data, telephone number data, IP address data, or the like, each corresponding to a user for respective terminal device connected for communication can be registered in this address book. When the television conference terminal is connected to the voice terminal, image of the thumbnail image datum, the name indicated by the name data, the telephone number indicated by the telephone number data, and the IP address data indicated by the IP address data, which are registered in the address book corresponding to the voice terminal, are displayed in the terminal image displayed on the television conference terminal side. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、例えばテレビ会議システムなどを構成するものとして、映像・音声を送受信することのできる通信端末装置と、この通信端末装置により実行される画像表示制御の方法とに関する。   The present invention relates to, for example, a communication terminal device capable of transmitting and receiving video and audio, and an image display control method executed by the communication terminal device, as constituting a video conference system.

テレビ会議システムにおいては、互いに離れた会議場などの場所ごとにテレビ会議システム対応の端末装置を設け、さらにこの端末装置に撮像装置及びディスプレイ装置を接続する。そして、1つの近端としての或る会議場においては、例えばその会議場に居る会議参加者などを撮像装置により撮像して得た撮像画像を端末装置経由で、遠端となる他の会議場の端末装置に対して送信する。遠端側の端末装置は、近端側から送信されてきた撮像画像を受信し、これを自身に接続されているディスプレイに表示させる。
また、端末装置には、マイクロフォンとスピーカも接続され、近端側のマイクロフォンにより収音して得られる近端話者の音声信号を、端末装置経由で遠端側に送信する。遠端側の端末装置では、受信した音声信号をスピーカから出力する。
これにより、テレビ会議システムによっては、通信相手の会議場の様子をディスプレイ装置に表示させながら会話を行うようにして、会議を進行させていくことができる。
In the video conference system, a terminal device compatible with the video conference system is provided for each place such as a conference hall separated from each other, and an imaging device and a display device are connected to the terminal device. Then, in one conference hall as one near end, for example, a captured image obtained by imaging a conference participant or the like in the conference hall with an imaging device is connected to another conference hall at the far end via the terminal device. To the terminal device. The far-end terminal device receives the captured image transmitted from the near-end side and displays it on a display connected to itself.
In addition, a microphone and a speaker are also connected to the terminal device, and a near-end speaker's voice signal obtained by collecting sound by the near-end microphone is transmitted to the far-end side via the terminal device. The far-end terminal device outputs the received audio signal from the speaker.
Thereby, depending on the video conference system, it is possible to proceed with the conference by having a conversation while displaying the state of the conference room of the communication partner on the display device.

また、テレビ会議用の端末装置には、ゲートウェイなどを経由して携帯電話であるとかIP電話などの端末装置とも接続可能なものが知られている。このような端末装置が映像送信機能を有さない音声通信端末装置である場合には、上記のようにして撮像画像を受信して表示出力させることは不可能であり、従って、再生出力できるのは音声のみとなる。元来表示機能を有しているテレビ会議用の端末において、このようにして音声のみが再生出力される状況は、例えば発言者が誰であるのかということも分かりにくいなど、会議を進行させにくくする原因になりやすい。   Further, terminal devices for video conference are known that can be connected to a terminal device such as a mobile phone or an IP phone via a gateway or the like. When such a terminal device is an audio communication terminal device that does not have a video transmission function, it is impossible to receive and display a captured image as described above, and therefore it can be reproduced and output. Is voice only. In a video conferencing terminal that originally has a display function, the situation in which only audio is reproduced and output in this way makes it difficult to proceed with the conference, for example, it is difficult to know who the speaker is. It is easy to cause.

そこで、例えば特許文献1には、テレビカメラを有さない電話端末をテレビ会議装置に接続した場合に、この電話端末の発言音声が最高音圧レベルとして検出されたときに、この発言者に関する文字情報を画面表示することが記載されている。   Therefore, for example, in Patent Document 1, when a telephone terminal that does not have a TV camera is connected to the video conference apparatus, when the speech voice of the telephone terminal is detected as the maximum sound pressure level, the character relating to the speaker is described. It is described that the information is displayed on the screen.

特開平6−284419号公報JP-A-6-284419

本願発明としても、テレビ会議端末装置が音声通信端末装置と接続されている状態において、この音声通信端末装置に関連する情報を画像として提示しようとするものであり、そのうえで、より効率の良い画像による情報の提示が行われるようにすることを目的とする。   Also in the present invention, in a state where the video conference terminal device is connected to the voice communication terminal device, information related to the voice communication terminal device is to be presented as an image, and moreover, by using a more efficient image. The purpose is to present information.

そこで本発明は上記した課題を考慮して通信端末装置として次のように構成する。
つまり、他の通信端末装置と映像信号及び/又は音声信号送受信のための通信接続を行う通信接続手段と、この通信接続手段により通信接続可能な他の通信端末装置ごとに対応付けされる個別アドレスデータから成り、個別アドレスデータとして、対応付けされる他の通信端末装置のユーザに関連した所定の情報内容を有するユーザ情報を登録可能とされているアドレス帳データを記憶して管理するアドレス帳データ記憶管理手段と、通信接続されている他の通信端末装置に対応する通信端末画像として、通信接続手段により受信した他の通信端末装置から送信される映像信号を画像として表示出力させることができるとともに、通信接続されている他の通信端末装置のうちで、映像信号が送信不可で音声信号のみを送信可能な音声通信端末装置がある場合には、この音声通信端末装置に対応付けされる個別アドレスデータに登録されている所定のユーザ情報の内容が所定の態様により示されるようにした通信端末画像を表示出力させる表示制御手段とを備えることとした。
In view of the above-described problems, the present invention is configured as a communication terminal device as follows.
That is, a communication connection unit that performs communication connection for transmission / reception of video signals and / or audio signals with other communication terminal devices, and an individual address associated with each other communication terminal device that can communicate with the communication connection unit Address book data that stores and manages address book data that can register user information having predetermined information contents related to the user of another associated communication terminal device as individual address data. As a communication terminal image corresponding to the storage management means and another communication terminal device connected in communication, a video signal transmitted from the other communication terminal device received by the communication connection means can be displayed and output as an image. An audio communication terminal capable of transmitting only an audio signal without transmitting a video signal among other communication terminal devices connected for communication Display control for displaying and outputting a communication terminal image in which the content of the predetermined user information registered in the individual address data associated with the voice communication terminal device is displayed in a predetermined manner when there is a device. Means.

上記構成による通信端末装置は、通信接続先となる他の端末装置ごとに対応した個別アドレスデータから成るアドレス帳データを記憶管理している。そして、通信接続されている他の端末装置が音声通信端末装置である場合には、通信端末画像として、その音声通信端末装置に対応付けて個別アドレスデータに登録されたユーザ情報の内容を表示させることとしている。   The communication terminal device having the above configuration stores and manages address book data including individual address data corresponding to each other terminal device that is a communication connection destination. If the other terminal device connected for communication is a voice communication terminal device, the contents of the user information registered in the individual address data in association with the voice communication terminal device are displayed as a communication terminal image. I am going to do that.

このようにして本願発明にあっては、音声通信端末装置に対応する通信端末画像として、アドレス帳データに登録されているユーザ情報のデータ内容が反映された内容とすることができる。これにより、例えば音声通信端末装置からの映像は表示できなくとも、音声通信端末装置のユーザが誰であるのかを容易に把握することが可能になる。
また、本願発明では、アドレス帳データに登録されているユーザ情報を利用することとしている。これは、アドレス帳データを有効に活用しているものといえる。また、アドレス帳データを利用することで、例えば、音声通信端末装置の通信端末画像に表示させるべき文字、画像などの内容を改めて入力する必要はなく、例えば会議準備の手間も省かれる。
In this way, in the present invention, the communication terminal image corresponding to the voice communication terminal device can be the content reflecting the data content of the user information registered in the address book data. Thereby, for example, even if the video from the voice communication terminal device cannot be displayed, it is possible to easily understand who the user of the voice communication terminal device is.
In the present invention, user information registered in the address book data is used. This can be said to be an effective use of address book data. In addition, by using the address book data, for example, it is not necessary to input again the contents such as characters and images to be displayed on the communication terminal image of the voice communication terminal device, and for example, the trouble of preparing for the meeting is saved.

本願発明を実施するための最良の形態(以下、実施の形態という)としては、テレビジョン会議システム(テレビ会議システム)において備えられる端末装置(テレビ会議端末装置)に本願発明を適用する。
テレビ会議システムは、場所の異なる会議場ごとに通信端末であるテレビ会議端末装置を設置し、このテレビ会議端末装置から、撮像装置により撮影した画像と、マイクロフォンにより収音した音声を他のテレビ会議端末装置に送信させると共に、他のテレビ会議端末装置から送信されてきた画像と音声を受信して、それぞれ、ディスプレイ装置、スピーカから出力させるように構成される。つまり、テレビ会議システムでは、画像を相互に送受信する映像送受信系と、音声を相互に送受信する音声送受信系とを備える。
As the best mode for carrying out the present invention (hereinafter referred to as an embodiment), the present invention is applied to a terminal device (video conference terminal device) provided in a video conference system (video conference system).
A video conference system installs a video conference terminal device, which is a communication terminal, for each conference hall at different locations. From this video conference terminal device, an image captured by an imaging device and audio collected by a microphone are transmitted to another video conference. The terminal device is configured to transmit the image and the sound transmitted from another video conference terminal device, and to output from the display device and the speaker, respectively. That is, the video conference system includes a video transmission / reception system that transmits / receives images to / from each other and an audio transmission / reception system that transmits / receives audio to / from each other.

図1は、テレビ会議システムの構成例を示している。
この場合には、互いに離れた2つの場所A、場所Bが会議場とされており、これらの場所A,Bのそれぞれにおいて、テレビ会議端末装置1−1、1−2が設置される。これらのテレビ会議端末装置1−1、1−2は、所定の通信方式に対応する通信回線101により接続されて、相互通信が可能なようにされている。
また、場所Aにおいては、テレビ会議端末装置1−1とともに、撮像装置2−1、雲台3−1、ディスプレイ装置4−1、スピーカ6−1、マイクロフォン7−1が備えられる。
撮像装置2−1は、画角調整のためのズーム機構を備え、雲台3−1に取り付けられている。雲台3−1は、パン機構とチルト機構を備えることで、取り付けられた撮像装置の撮像方向(撮像視野)を、所定角度範囲で上下方向及び左右方向に変更することが可能とされている。
また、リモートコントローラ5−1は、テレビ会議端末装置1−1の動作をユーザが遠隔操作するために設けられる。
スピーカ6−1からは、後述するようにして、例えば遠端側のテレビ会議端末装置1−2から送信されてくる音声信号を音声として再生出力させることができる。
マイクロフォン7−1は音声を収音する。この収音によって得られる音声信号は、テレビ会議端末装置1−1により、例えば遠端側のテレビ会議端末装置1−2に対して送信することができる。
同様にして、場所Bにおいては、テレビ会議端末装置1−2とともに、撮像装置2−2、雲台3−2、ディスプレイ装置4−2、スピーカ6−2、マイクロフォン7−2が備えられる。
FIG. 1 shows a configuration example of a video conference system.
In this case, two places A and B that are separated from each other are used as conference halls, and the video conference terminal apparatuses 1-1 and 1-2 are installed in these places A and B, respectively. These video conference terminal apparatuses 1-1 and 1-2 are connected by a communication line 101 corresponding to a predetermined communication method so that mutual communication is possible.
In place A, an imaging device 2-1, a pan head 3-1, a display device 4-1, a speaker 6-1, and a microphone 7-1 are provided together with the video conference terminal device 1-1.
The imaging device 2-1 includes a zoom mechanism for adjusting the angle of view, and is attached to the pan head 3-1. The camera platform 3-1 includes a pan mechanism and a tilt mechanism, so that the imaging direction (imaging field of view) of the attached imaging device can be changed in the vertical direction and the horizontal direction within a predetermined angle range. .
The remote controller 5-1 is provided for the user to remotely control the operation of the video conference terminal device 1-1.
From the speaker 6-1, as will be described later, for example, an audio signal transmitted from the far-end video conference terminal device 1-2 can be reproduced and output as audio.
The microphone 7-1 collects sound. The audio signal obtained by this sound collection can be transmitted by the video conference terminal device 1-1 to, for example, the far-end video conference terminal device 1-2.
Similarly, in the place B, an imaging device 2-2, a pan head 3-2, a display device 4-2, a speaker 6-2, and a microphone 7-2 are provided together with the video conference terminal device 1-2.

なお、以降の説明において、テレビ会議端末装置、撮像装置、雲台、ディスプレイ装置、リモートコントローラ、スピーカ、マイクロフォンなどについて、特に離れた場所にある同一のものを区別する必要のない場合には、テレビ会議端末装置1、撮像装置2、雲台3、ディスプレイ装置4、リモートコントローラ5、スピーカ6、マイクロフォン7などのようにして表記する。   In the following description, the TV conference terminal device, the imaging device, the pan head, the display device, the remote controller, the speaker, the microphone, etc. The conference terminal device 1, the image pickup device 2, the camera platform 3, the display device 4, the remote controller 5, the speaker 6, the microphone 7, and the like are used.

この図に示されるテレビ会議システムとしての基本的動作は、例えば次のようになる。
先ず、場所Aにおいて、撮像装置2−1により撮像して得られた映像信号は、テレビ会議端末装置1−1に入力される。テレビ会議端末装置1−1は、入力された映像信号を、通信回線101を経由してテレビ会議端末装置1−2に対して送信する。テレビ会議端末装置1−2は、送信されてきた映像信号を受信し、ディスプレイ装置4−1により画像として再生出力させる。
また、同様にして、場所B内の撮像装置2−2により撮像して得られた映像信号は、テレビ会議端末装置1−2によりテレビ会議端末装置1−1に送信される。テレビ会議端末装置1−1では、受信した映像信号を、ディスプレイ装置4−1から出力させる。このときディスプレイ装置には、遠端側となる場所Bの撮像装置2−2により撮像された撮像画像として、例えば動画が表示される。
The basic operation of the video conference system shown in this figure is as follows, for example.
First, a video signal obtained by imaging by the imaging device 2-1 at the location A is input to the video conference terminal device 1-1. The video conference terminal device 1-1 transmits the input video signal to the video conference terminal device 1-2 via the communication line 101. The video conference terminal device 1-2 receives the transmitted video signal, and reproduces and outputs it as an image by the display device 4-1.
Similarly, a video signal obtained by imaging by the imaging device 2-2 in the place B is transmitted to the video conference terminal device 1-1 by the video conference terminal device 1-2. The video conference terminal device 1-1 outputs the received video signal from the display device 4-1. At this time, for example, a moving image is displayed on the display device as a captured image captured by the imaging device 2-2 at the location B on the far end side.

また、場所Aのマイクロフォン7−1により収音して得られた音声信号は、テレビ会議端末装置1−1から場所Bのテレビ会議端末装置1−2に対して通信回線101経由で送信する。テレビ会議端末装置1−2では、この送信されてくる音声信号を受信して、スピーカ6−2から音声として再生出力する。同様に、場所Bのマイクロフォン7−2により収音されてテレビ会議端末装置1−2により送信された音声信号は、場所Aのテレビ会議端末装置1−1により受信され、スピーカ6−1から音声として再生出力される。   Also, the audio signal obtained by collecting the sound with the microphone 7-1 at the location A is transmitted from the video conference terminal device 1-1 to the video conference terminal device 1-2 at the location B via the communication line 101. The video conference terminal device 1-2 receives the transmitted audio signal and reproduces and outputs it as audio from the speaker 6-2. Similarly, an audio signal picked up by the microphone 7-2 at the location B and transmitted by the video conference terminal device 1-2 is received by the video conference terminal device 1-1 at the location A, and is voiced from the speaker 6-1. Is reproduced and output.

上記のようにして、テレビ会議システムの映像送受信系及び音声送受信系では、それぞれ、映像、音声の双方向通信を行うものであり、これにより、例えば或る1つの場所にいる会議参加者は、ディスプレイ装置4にて表示される他の場所の会議場の様子を見て、視覚的に把握することができる。また、例えば或る1つの場所にいる会議参加者は、他の場所の会議場にいる会議参加者の発言した音声を、スピーカ6から聴くことができる。このようにして、離れた場所にいる会議参加者同士がコミュニケーションをとって、例えば会議を進行させていくことができる。   As described above, the video transmission / reception system and the audio transmission / reception system of the video conference system perform bidirectional communication of video and audio, respectively. It is possible to visually grasp the state of the conference hall in another place displayed on the display device 4. In addition, for example, a conference participant in a certain place can listen to the voice spoken by the conference participant in a conference hall in another location from the speaker 6. In this way, conference participants in remote locations can communicate with each other, for example, to advance the conference.

図2は、1つの場所において備えられるテレビ会議システムを、テレビ会議端末装置1の内部構成例とともに示している。なお、図1との対応では、テレビ会議端末装置1−1、1−2は、この図2に示す構成を共通に有するものとして考えればよい。   FIG. 2 shows a video conference system provided in one place together with an internal configuration example of the video conference terminal device 1. In correspondence with FIG. 1, the video conference terminal devices 1-1 and 1-2 may be considered as having the configuration shown in FIG. 2 in common.

この場合の撮像装置2においては、撮像のための光学系と、撮像光を利用して非圧縮の動画像としての映像信号を生成する信号処理部とを備えるものとされる。撮像装置2から出力される映像信号(撮像映像信号)は、テレビ会議端末装置1における映像信号処理/表示制御部11に対して入力される。
また、撮像装置2の光学系に対応しては、ズームレンズの位置を移動させて画角を変更するための機構を有して成る、ズーム機構部2aを備える。
また、雲台3は、取り付けられた撮像装置2の撮像視野を左右に変更するための機構であるパン機構部3aと、上記撮像視野を上下に変更するための機構であるチルト機構部3bとを有して成る。
The imaging apparatus 2 in this case includes an optical system for imaging and a signal processing unit that generates a video signal as an uncompressed moving image using imaging light. A video signal (captured video signal) output from the imaging device 2 is input to the video signal processing / display control unit 11 in the video conference terminal device 1.
Further, corresponding to the optical system of the image pickup apparatus 2, a zoom mechanism unit 2a including a mechanism for changing the angle of view by moving the position of the zoom lens is provided.
The pan head 3 includes a pan mechanism unit 3a that is a mechanism for changing the imaging field of view of the attached imaging device 2 to the left and right, and a tilt mechanism unit 3b that is a mechanism for changing the imaging field of view up and down. It has.

映像信号処理/表示制御部11は、入力される映像信号について必要に応じて所定の信号処理を実行するとともに、ディスプレイ装置4に対して画像を表示させるための表示制御を実行する。   The video signal processing / display control unit 11 performs predetermined signal processing on the input video signal as necessary, and executes display control for causing the display device 4 to display an image.

例えば、映像信号処理/表示制御部11は、撮像装置2から入力される撮像映像信号について必要に応じて所要の信号処理を施したうえでで、映像エンコーダ12に転送する。   For example, the video signal processing / display control unit 11 performs necessary signal processing on the captured video signal input from the imaging device 2 as necessary, and transfers the processed video signal to the video encoder 12.

映像エンコーダ12は、入力される映像信号について所定方式による画像圧縮符号化処理を実行して、通信部14に対して転送する。通信部14は、制御部18の制御に応じて、映像エンコーダ12から転送されてくる圧縮画像データについて、所定の通信方式に従って、通信回線101経由で、接続先の通信端末装置に対して送信する。   The video encoder 12 performs an image compression encoding process by a predetermined method on the input video signal, and transfers it to the communication unit 14. Under the control of the control unit 18, the communication unit 14 transmits the compressed image data transferred from the video encoder 12 to the connection destination communication terminal device via the communication line 101 according to a predetermined communication method. .

また、他のテレビ会議端末装置から送信されてきた圧縮画像データは、通信部14にて受信されて、映像デコーダ13に転送される。
映像デコーダ13は、入力されてくる圧縮画像データについて、画像圧縮符号化に対する復調(デコード)処理を実行して所定形式の映像信号を得る。このようにして得た映像信号を映像信号処理/表示制御部11に転送する。
The compressed image data transmitted from other video conference terminal devices is received by the communication unit 14 and transferred to the video decoder 13.
The video decoder 13 executes demodulation (decoding) processing for image compression coding on the input compressed image data to obtain a video signal in a predetermined format. The video signal thus obtained is transferred to the video signal processing / display control unit 11.

映像信号処理/表示制御部11は、例えば上記のようにして映像デコーダ13から転送される映像信号の画像がディスプレイ装置4にて表示されるようにするための表示制御を実行することができる。これにより、他の会議場において撮影された画像が、ディスプレイ装置4にて表示されることになる。
また、映像信号処理/表示制御部11は、撮像装置2による撮像に基づいて得られる上記撮像映像信号について、ディスプレイ装置4にて所定の態様により表示されるようにして表示制御を実行することも可能とされている。
さらに、映像信号処理/表示制御部11は、制御部18の制御に応じて、各種の操作画像をディスプレイ装置4により表示させるための画像生成処理、表示制御処理を実行可能とされている。
なお、映像信号処理/表示制御部11は、その一部、あるいは全ての機能をDSP(Digital Signal Processor)により構成することができる。
The video signal processing / display control unit 11 can execute display control for causing the display device 4 to display an image of the video signal transferred from the video decoder 13 as described above, for example. As a result, images taken in other conference halls are displayed on the display device 4.
In addition, the video signal processing / display control unit 11 may execute display control so that the display device 4 displays the captured video signal obtained based on imaging by the imaging device 2 in a predetermined manner. It is possible.
Further, the video signal processing / display control unit 11 can execute image generation processing and display control processing for displaying various operation images on the display device 4 under the control of the control unit 18.
The video signal processing / display control unit 11 can be configured by a DSP (Digital Signal Processor) for a part or all of the functions thereof.

また、マイクロフォン7により収音して得られた収音音声信号は、A/Dコンバータ23により例えばPCM(Pulse Code Modulation)形式のデジタル音声信号に変換されて音声信号処理部21に入力される。
音声信号処理部21は、入力される音声信号について、例えばデジタル信号処理による所要の音声信号処理を施す部位とされる。例えば上記A/Dコンバータ23から入力されるデジタル音声信号については、音声信号処理部21は、必要に応じて所定の信号処理を施したうえで、音声エンコーダ13に転送することができる。音声エンコーダ13は、入力されるPCM形式の音声信号について、所定方式による音声圧縮符号化を行い、通信部14に出力する。通信部14は、制御部18の制御に応じて、音声エンコーダ24から転送されてくる圧縮音声信号データについて、通信回線101経由で、接続先の通信端末装置に対して送信する。このようにして近端側の話者音声を、接続先(遠端側)の通信端末装置に対して送信することができる。
The collected sound signal obtained by collecting sound by the microphone 7 is converted into a digital sound signal in, for example, PCM (Pulse Code Modulation) format by the A / D converter 23 and input to the sound signal processing unit 21.
The audio signal processing unit 21 is a part that performs necessary audio signal processing by digital signal processing, for example, on the input audio signal. For example, the audio signal processing unit 21 can transfer a digital audio signal input from the A / D converter 23 to the audio encoder 13 after performing predetermined signal processing as necessary. The voice encoder 13 performs voice compression coding on the input PCM format voice signal by a predetermined method and outputs the result to the communication unit 14. The communication unit 14 transmits the compressed audio signal data transferred from the audio encoder 24 to the connection destination communication terminal device via the communication line 101 under the control of the control unit 18. In this way, the near-end speaker voice can be transmitted to the communication terminal apparatus at the connection destination (far-end side).

また、接続先の通信端末装置から送信されてきた圧縮音声信号データは、通信部14にて受信され、音声デコーダ25に対して転送される。音声デコーダ25では、入力されてくる圧縮音声信号データについて、音声圧縮符号化に対する復調(デコード)処理を実行してPCM形式の音声信号を得て、音声信号処理部21に対して転送する。   The compressed audio signal data transmitted from the connection destination communication terminal apparatus is received by the communication unit 14 and transferred to the audio decoder 25. The audio decoder 25 performs demodulation (decoding) processing for audio compression coding on the input compressed audio signal data, obtains a PCM format audio signal, and transfers it to the audio signal processing unit 21.

音声信号処理部21は、音声デコーダ25から転送されてくるデジタル音声信号について必要に応じた信号処理を施した上で、D/Aコンバータ22に転送することができる。
D/Aコンバータ22は、入力されるデジタル音声信号をアナログ信号に変換して出力する。このようにして出力された音声信号は、例えば実際においては増幅などを経てスピーカ6に出力される。これにより、スピーカ6からは、接続先の通信端末装置から送信されてきた話者音声が再生出力される。
The audio signal processing unit 21 can transfer the digital audio signal transferred from the audio decoder 25 to the D / A converter 22 after performing signal processing as necessary.
The D / A converter 22 converts the input digital audio signal into an analog signal and outputs the analog signal. The audio signal output in this way is output to the speaker 6 after being actually amplified, for example. Thereby, the speaker 6 reproduces and outputs the speaker voice transmitted from the communication terminal device of the connection destination.

なお、上記これまでの説明から分かるように、テレビ会議端システムにおける音声送受信系としては拡声通話系といわれるものとなるが、このような拡声通話系をそのまま使用したのでは、エコー、ハウリングなどの現象を生じることが知られている。つまり、スピーカ6から空間に放出された音は、直接音及び間接音としての空間伝搬経路(エコーパス)を経て、マイクロフォン7に到達する。つまり、接続先の通信端末装置から送信されスピーカ6から放出された相手側話者の声がマイクロフォン2にて収音され、再び、接続先の通信端末装置に送信される。また、接続先の通信端末装置側においてもにおいても、さらにスピーカから放出された音がマイクロフォンで収音されて、こちらの通信端末装置に送信されてくる。即ち、拡声通話系では、一度空間に放出された音が、通信端末装置間で循環するようにして送受信される。これにより、スピーカから放出される音には、自分が今話している声が、或る遅延時間をもってこだまのようにして聴こえるものが含まれることになる。これがエコーであり、ループゲインが1を越えればハウリングとなる。
音声信号処理部21としては、例えば適応処理などにより上記のエコーをキャンセルするための信号処理を実行させるように構成できる。
また、音声信号処理部21についても、その一部、あるいは全ての機能をDSPにより構成することができる。
As can be seen from the above description, the voice transmission / reception system in the video conference end system is called a voice call system, but if such a voice call system is used as it is, echo, howling, etc. It is known to cause a phenomenon. That is, the sound emitted from the speaker 6 to the space reaches the microphone 7 through a spatial propagation path (echo path) as a direct sound and an indirect sound. That is, the voice of the partner speaker transmitted from the connection destination communication terminal apparatus and emitted from the speaker 6 is picked up by the microphone 2 and transmitted again to the connection destination communication terminal apparatus. Also on the connection destination communication terminal device side, the sound emitted from the speaker is further picked up by the microphone and transmitted to this communication terminal device. That is, in the loudspeaker communication system, the sound once released into the space is transmitted and received while circulating between the communication terminal devices. As a result, the sound emitted from the speaker includes a sound in which the voice he / she is currently speaking can be heard with a certain delay time. This is an echo, and howling occurs when the loop gain exceeds 1.
The audio signal processing unit 21 can be configured to execute signal processing for canceling the above-described echo by, for example, adaptive processing.
In addition, part or all of the functions of the audio signal processing unit 21 can be configured by a DSP.

また、このテレビ会議端末装置1は、撮像装置2の撮像視野を可変制御する機能を有するものとされている。ここでの撮像視野の可変は、パン制御、チルト制御、ズーム制御の組み合わせによるものとする。パン制御、チルト制御は、撮像装置の撮像方向(撮像視野)をそれぞれ左右方向、上下方向に可変する制御で、ズーム制御は、撮像装置の画角を変更する制御である。これに対応して、テレビ会議端末装置1は、PTZ(PTZ:Pan(Panning),Tilt(Tilting),Zoom(Zooming))駆動制御部15を備える。   In addition, the video conference terminal device 1 has a function of variably controlling the imaging field of view of the imaging device 2. Here, the imaging field of view is variable by a combination of pan control, tilt control, and zoom control. Pan control and tilt control are controls that change the imaging direction (imaging field of view) of the imaging device in the horizontal direction and the vertical direction, respectively. Zoom control is a control that changes the angle of view of the imaging device. Correspondingly, the video conference terminal device 1 includes a PTZ (PTZ: Pan (Panning), Tilt (Tilting), Zoom (Zooming)) drive control unit 15.

PTZ駆動制御部15は、図示するようにして、パン/チルト駆動制御部16とズーム駆動制御部17とを備える。
パン/チルト駆動制御部16は、制御部18からのパン方向における移動量の指示情報に応じて、雲台3が備えるとされるパン機構部3aにおけるパンモータを駆動するための駆動信号を生成して出力する。同様に、制御部18からのチルト方向における移動量の指示情報に応じて、雲台3が備えるとされるチルト機構部3bにおけるチルトモータを駆動するための駆動信号を生成して出力する。これにより、撮像装置2の撮像視野として、左右方向(パン方向)と上下方向(チルト方向)の撮像方向を変更する制御が可能とされる。
また、ズーム駆動制御部17は、制御部19からの画角変更量の指示情報に応じて、撮像装置2の光学系において備えられるズーム機構部2aにおけるズームモータを駆動するための駆動信号を生成して出力する。これにより、撮像視野として、画角を変更する制御が可能になる。
The PTZ drive control unit 15 includes a pan / tilt drive control unit 16 and a zoom drive control unit 17 as illustrated.
The pan / tilt drive control unit 16 generates a drive signal for driving the pan motor in the pan mechanism unit 3a that is supposed to be provided in the pan head 3 in accordance with the movement amount instruction information in the pan direction from the control unit 18. Output. Similarly, a drive signal for driving the tilt motor in the tilt mechanism unit 3b provided in the pan head 3 is generated and output according to the movement amount instruction information in the tilt direction from the control unit 18. As a result, it is possible to perform control to change the imaging direction in the horizontal direction (pan direction) and the vertical direction (tilt direction) as the imaging field of the imaging device 2.
Further, the zoom drive control unit 17 generates a drive signal for driving the zoom motor in the zoom mechanism unit 2 a provided in the optical system of the imaging device 2 in accordance with the instruction information of the angle of view change from the control unit 19. And output. Thereby, it is possible to control to change the angle of view as the imaging field of view.

制御部18は、例えばCPU、ROM、RAMなどを有して成るマイクロコンピュータなどにより構成されるもので、テレビ会議端末装置1についての全体制御を実行する。   The control part 18 is comprised by the microcomputer etc. which have CPU, ROM, RAM etc., for example, and performs the whole control about the video conference terminal device 1. FIG.

記憶部19は、例えば不揮発性の記憶デバイスから成るもので、制御部18が必要な各種のプログラム、データなどを記憶する。
本実施の形態に対応しては、記憶部19には、アドレス帳データ19aを記憶させる。アドレス帳データについては後述する。
The storage unit 19 is composed of, for example, a non-volatile storage device, and stores various programs and data necessary for the control unit 18.
Corresponding to the present embodiment, the storage unit 19 stores address book data 19a. The address book data will be described later.

リモートコントローラ5は、テレビ会議端末装置1の動作についての各種の操作をユーザが行うための所要の操作子を備え、これらの操作子に対する操作に応じて、赤外線、あるいは電波などによりコマンド信号を送信する。このコマンド信号は、受信部20にて受信復調されることで操作情報信号に変換されて制御部18に入力される。制御部18は、入力される操作情報信号に応答して所要の制御、処理を実行する。   The remote controller 5 includes necessary operators for the user to perform various operations regarding the operation of the video conference terminal device 1, and transmits command signals by infrared rays or radio waves in accordance with operations on these operators. To do. The command signal is received and demodulated by the receiving unit 20 to be converted into an operation information signal and input to the control unit 18. The control unit 18 executes necessary control and processing in response to the input operation information signal.

ところで、これまでの説明のようにしてテレビ会議端末装置1は、映像・音声信号の送受信機能を有しており、これにより、テレビ会議端末装置1が相互に撮像画像の映像信号及び収音音声の音声信号を送受信し、受信した映像・音声信号を再生出力することで、いわゆるテレビ会議が行える。
しかし、テレビ会議端末装置1は、映像信号の送信機能を持たず、音声信号の送受信機能のみを有するような音声端末装置とも通信回線101経由で接続してテレビ会議システムを構築することが可能とされている。この場合、テレビ会議端末装置1は、音声端末装置との間で、例えば音声信号のみの送受信を行い、受信した音声信号をスピーカ6から再生出力させることになる。
By the way, as described so far, the video conference terminal device 1 has a video / audio signal transmission / reception function, whereby the video conference terminal device 1 mutually receives the video signal of the captured image and the collected sound. Thus, a so-called video conference can be performed by transmitting and receiving audio signals and reproducing and outputting the received video and audio signals.
However, the video conference terminal device 1 can be connected to an audio terminal device that does not have a video signal transmission function but only an audio signal transmission / reception function via the communication line 101 to construct a video conference system. Has been. In this case, the video conference terminal device 1 performs transmission / reception of, for example, only an audio signal with the audio terminal device, and reproduces and outputs the received audio signal from the speaker 6.

ここで、図3により、1つのテレビ会議端末装置1と複数の音声端末装置とから成るテレビ会議システムの形成例を示す。
この図においては、5つの場所A、B、C、D、Eが示される。場所Aには、図1、図2に示したのと同様のテレビ会議端末装置1と、これらの周辺装置(撮像装置2、雲台3、ディスプレイ装置4、リモートコントローラ5、スピーカ6、及びマイクロフォン7)が設置されているものとしている。
また、残る場所B、C、D、Eには、それぞれ電話機若しくは携帯電話などとしての音声端末装置100−1、100−2、100−3、100−4が在るものとされる。
そして、これらのテレビ会議端末装置1、及び音声端末装置100−1、100−2、100−3、100−4が、通信回線101を経由して、相互通信が可能なようにして接続される。
なお、実際においては、音声端末装置100−1、100−2、100−3、100−4を通信回線101と接続するためのゲートウェイが介在する場合があるが、ここでは、図示と説明を簡単なものとするために、ゲートウェイの図示は省略している。また、以降において、音声端末装置100−1、100−2、100−3、100−4を個々に区別する必要のないときには、音声端末装置100と表記する場合がある。
Here, FIG. 3 shows an example of forming a video conference system including one video conference terminal device 1 and a plurality of audio terminal devices.
In this figure, five locations A, B, C, D and E are shown. In the place A, a video conference terminal device 1 similar to that shown in FIGS. 1 and 2 and peripheral devices (imaging device 2, pan head 3, display device 4, remote controller 5, speaker 6, and microphone) are provided. 7) is installed.
In the remaining locations B, C, D, and E, there are audio terminal devices 100-1, 100-2, 100-3, and 100-4 as telephones or mobile phones, respectively.
The video conference terminal device 1 and the audio terminal devices 100-1, 100-2, 100-3, 100-4 are connected to each other via the communication line 101 so as to be able to communicate with each other. .
In practice, there may be a gateway for connecting the voice terminal apparatuses 100-1, 100-2, 100-3, and 100-4 to the communication line 101. Here, however, the illustration and description are simplified. Therefore, the gateway is not shown. Further, hereinafter, the voice terminal devices 100-1, 100-2, 100-3, and 100-4 may be referred to as the voice terminal device 100 when it is not necessary to distinguish them individually.

このようなテレビ会議システムの構成では、映像信号の送受信機能を有さない音声端末装置100のそれぞれは、他の通信端末装置(テレビ会議端末装置1、他の音声端末装置100)に対して、送話音声の音声信号を送信する。上記他の通信端末装置は、このようにして送信されてくる音声信号を受信して、スピーカから音声として出力させる。
また、テレビ会議端末装置1は、音声端末装置100のそれぞれに対しては、映像信号は送信せずに、音声信号のみを送信するようにして動作する。ここで送信する音声信号は、例えばマイクロフォン7により収音して得られる収音音声のものとなる。各音声端末装置100は、このようにして送信されてくる音声信号を受信して、スピーカなどから出力させる。
このようにして、図3に示すテレビ会議システムでは、送話音声、収音音声の相互送受信と、受信した音声信号の音声出力が行われるものであり、これによって、音声により会議、コミュニケーションを進行させていくことができる。
In the configuration of such a video conference system, each of the audio terminal devices 100 that do not have a video signal transmission / reception function is different from the other communication terminal devices (the video conference terminal device 1 and the other audio terminal devices 100). Transmit the audio signal of the transmitted voice. The other communication terminal apparatus receives the audio signal transmitted in this way, and outputs it from the speaker as audio.
In addition, the video conference terminal device 1 operates so as to transmit only the audio signal without transmitting the video signal to each of the audio terminal devices 100. The audio signal to be transmitted here is, for example, a collected sound obtained by collecting sound by the microphone 7. Each voice terminal device 100 receives the voice signal transmitted in this manner and outputs it from a speaker or the like.
In this manner, in the video conference system shown in FIG. 3, the transmission and reception of the transmitted voice and the collected voice are performed, and the voice of the received voice signal is output. I can let you.

先に図1、図2によっても説明したように、本実施の形態のテレビ会議端末装置1は、他のテレビ会議端末装置から送信されてくる撮像画像など映像信号を受信して表示出力することが可能とされている。しかし、上記のようにして接続される音声端末装置100からは映像信号が送信されてこないので、音声端末装置100に対応して撮像画像を表示させることはできない。
ただし、音声端末装置100に対応した画像を何も表示させないこととすると、故障と勘違いされる可能性もあるし、なんの面白みもなくなってしまう。
このことからすれば、テレビ会議端末装置1としては、音声端末装置100と接続しているときにも、その接続中にあるとされる音声端末装置100に関連した何らかの画像(通信端末画像)を表示させることが好ましいことになる。このような通信端末画像としては、例えば図4に示す態様を考えることができる。
As described above with reference to FIGS. 1 and 2, the video conference terminal device 1 according to the present embodiment receives and displays a video signal such as a captured image transmitted from another video conference terminal device. Is possible. However, since a video signal is not transmitted from the audio terminal device 100 connected as described above, a captured image cannot be displayed corresponding to the audio terminal device 100.
However, if no image corresponding to the voice terminal device 100 is displayed, there is a possibility that it will be mistaken for a failure, and there will be no interest.
Accordingly, even when the video conference terminal device 1 is connected to the audio terminal device 100, it can display some image (communication terminal image) related to the audio terminal device 100 that is assumed to be connected. It is preferable to display. As such a communication terminal image, for example, the mode shown in FIG. 4 can be considered.

図4には、ディスプレイ装置4の表示画面部30が示される。この場合の表示画面部30は、図示するようにして、その画像表示領域を縦横2列により4分割して、分割された画像表示領域ごとに、通信端末画像として、音声端末画像31(31−1、31−2、31−3、31−4)を配列して表示させている。ここでは、これら4つの音声端末画像31−1、31−2、31−3、31−4は、それぞれ、図3に示した音声端末装置100−1、100−2、100−3、100−4に対応しているものとされる。   FIG. 4 shows the display screen unit 30 of the display device 4. In this case, the display screen section 30 divides the image display area into four rows and columns, as shown in the figure, and a voice terminal image 31 (31-31) is used as a communication terminal image for each of the divided image display areas. 1, 31-2, 31-3, 31-4) are arranged and displayed. Here, these four voice terminal images 31-1, 31-2, 31-3, and 31-4 are respectively voice terminal devices 100-1, 100-2, 100-3, and 100- shown in FIG. 4 is assumed to be supported.

音声端末画像31−1を例に採ると、その画内容は、マイクロフォンの画像が示されるアイコン画像40と、「Voice Only」との文字が表示された文字画像41とが配置されたものとなっている。これらのアイコン画像40と文字画像41とを見ることで、テレビ会議端末装置1のディスプレイ装置4の表示画面部30を見ている会議参加者は、現在、音声端末装置100と通信接続されていることを視覚的に把握、確認できることになる。そして、このような画内容の通信端末画像(音声端末画像)を、通信接続中にあるとされる音声端末装置ごとに表示させる。この結果、図4においては、音声端末装置100−1、100−2、100−3、100−4ごとに対応して、同じ画内容の4つの音声端末画像31−1、31−2、31−3、31−4が表示される結果となっているものである。   Taking the voice terminal image 31-1 as an example, the image content is an arrangement of an icon image 40 showing a microphone image and a character image 41 displaying characters “Voice Only”. ing. By looking at the icon image 40 and the character image 41, the conference participant who is viewing the display screen unit 30 of the display device 4 of the video conference terminal device 1 is currently connected to the voice terminal device 100 for communication. You can grasp and confirm this visually. Then, a communication terminal image (voice terminal image) having such image content is displayed for each voice terminal device that is assumed to be in communication connection. As a result, in FIG. 4, four voice terminal images 31-1, 31-2, 31 having the same image content are provided corresponding to the voice terminal devices 100-1, 100-2, 100-3, and 100-4. -3, 31-4 are displayed.

なお、確認のために述べておくと、仮に、テレビ会議端末装置1と接続している通信端末が4つあるとして、そのうちの1つが、例えばテレビ会議端末装置1と同一、若しくはこれに準じた構成により映像音声の送受信機能を有する端末装置(以降、映像音声端末装置ともいうことにする)で、残る3つが音声端末装置であるとする。この場合には、例えば図4のようにして4分割される通信端末画像において、1つの通信端末画像には、映像音声端末装置から送信される映像信号の画像(例えば撮像画像)を表示させ、残る3つの通信端末画像により、音声端末画像31を表示させることができる。   For confirmation, it is assumed that there are four communication terminals connected to the video conference terminal device 1, and one of them is the same as or equivalent to the video conference terminal device 1, for example. It is assumed that a terminal device having a video / audio transmission / reception function according to the configuration (hereinafter also referred to as a video / audio terminal device) and the remaining three are audio terminal devices. In this case, for example, in a communication terminal image divided into four as shown in FIG. 4, an image of a video signal (for example, a captured image) transmitted from the video / audio terminal device is displayed on one communication terminal image, The voice terminal image 31 can be displayed by the remaining three communication terminal images.

上記図4に示す表示を行うこととすれば、テレビ会議端末装置1の側に居る会議参加者は、上記もしたように、現在において音声端末装置と接続されていることを視覚的に把握することはできる。しかし、この場合には、音声端末装置にかかわらず表示される音声端末画像の内容が同じであるために、接続されている音声端末装置が、それぞれどの会議参加者のものであるのを的確に把握することは非常に難しい。もちろん通信接続された状態にあることで、音声端末装置100から送信されてくる音声を聴くことはできるが、会議参加者の特定を音声だけに頼ることになるので、判断しにくいことに変わりはない。   If the display shown in FIG. 4 is performed, the conference participant on the side of the video conference terminal device 1 visually grasps that it is currently connected to the voice terminal device as described above. I can. However, in this case, since the contents of the displayed voice terminal images are the same regardless of the voice terminal device, it is possible to accurately determine which conference participant each connected voice terminal device belongs to. It is very difficult to grasp. Of course, it is possible to listen to the voice transmitted from the voice terminal device 100 by being in a communication connection state, but since it depends on only the voice to identify the conference participant, it is difficult to judge. Absent.

そこで、本実施の形態としては、以降説明するようにして、音声端末画像31についての表示を行うものとする。
先ず、本実施の形態の音声端末画像31の表示にあたっては、記憶部19に記憶されるアドレス帳データ19aを利用することになるので、図5によりアドレス帳データの内容について説明しておく。図5は、アドレス帳データの構造例を模式的に示す。
この図に示すようにして、アドレス帳データ19aは、個別アドレスデータ19bの集合により形成されているものとしてみることができる。
個別アドレスデータ19bは、1つの通信端末装置に対応して少なくとも1つの登録項目の情報を登録することにより生成される。なお、個別アドレスデータ19bが対応する通信端末装置は、テレビ会議端末装置であってもよいし、音声端末装置であってもよい。
Therefore, in the present embodiment, the audio terminal image 31 is displayed as described below.
First, since the address book data 19a stored in the storage unit 19 is used for displaying the voice terminal image 31 of the present embodiment, the contents of the address book data will be described with reference to FIG. FIG. 5 schematically shows an example of the structure of address book data.
As shown in this figure, the address book data 19a can be regarded as being formed by a set of individual address data 19b.
The individual address data 19b is generated by registering information of at least one registration item corresponding to one communication terminal device. The communication terminal device to which the individual address data 19b corresponds may be a video conference terminal device or a voice terminal device.

この場合の個別アドレスデータ19bは、例えば図示するようにして名前、電話番号、IPアドレス、サムネイル画像データの登録項目(登録データ)の集合により形成されるものとしている。
名前の登録項目には、名前としての文字(数字、記号を含む)のデータを格納することができ、ここに格納された文字情報が、対応する通信端末装置のユーザの名称を示すものとして扱われる。また、電話番号の登録項目は、電話番号を示す文字(数字、記号を含む)のデータを格納することができ、ここに格納された電話番号が、対応する通信端末装置の電話番号であるものとして扱われる。また、IPアドレスの登録項目には、IPアドレスを示すデータを格納することができ、ここに格納されるデータが、対応する通信端末装置に設定されているIPアドレスを示すものとして扱われる。なお、以降においては、この電話番号及びIPアドレスの登録項目の情報を、まとめて「接続情報」という場合がある。
また、サムネイル画像データの登録項目には、所定の画サイズ範囲の画像データを格納することができる。ここに格納されるサムネイル画像データは、対応する通信端末装置のユーザに対応した何らかの画内容を有するものとして扱われる。実際においては、例えば、対応する通信端末装置のユーザを撮影した写真の画像データなどを格納することなどが行われる。
The individual address data 19b in this case is formed by a set of registration items (registration data) of names, telephone numbers, IP addresses, and thumbnail image data, for example, as shown in the figure.
In the name registration item, data of characters (including numbers and symbols) as names can be stored, and the character information stored here is treated as indicating the name of the user of the corresponding communication terminal device. Is called. The telephone number registration item can store data of characters (including numerals and symbols) indicating the telephone number, and the telephone number stored here is the telephone number of the corresponding communication terminal device. Are treated as The IP address registration item can store data indicating an IP address, and the data stored therein is treated as indicating the IP address set in the corresponding communication terminal device. In the following, information on the registration items of the telephone number and the IP address may be collectively referred to as “connection information”.
The thumbnail image data registration item can store image data in a predetermined image size range. The thumbnail image data stored here is handled as having some image content corresponding to the user of the corresponding communication terminal device. Actually, for example, image data of a photograph taken of a user of the corresponding communication terminal device is stored.

テレビ会議端末装置1は、アドレス帳データ19aとして登録されている個別アドレスデータ19bの内容をGUI(Graphical User Interface)画像として表示出力させることが可能とされている。例えばユーザは、このアドレス帳データのGUI画像を見ることで、テレビ会議システムの接続先として登録されているユーザと端末装置の接続情報などを確認することができる。また、このアドレス帳データのGUI画像に対する操作によって、接続先としたい端末装置を選択し、この選択した端末装置に対する発呼、接続要求などを実行させることが可能とされている。
また、アドレス帳データ19a(個別アドレスデータ19b)の新規登録、更新登録などのための操作も、このアドレス帳データのGUI画像に対する操作により行うことが可能である。
The video conference terminal device 1 can display and output the contents of the individual address data 19b registered as the address book data 19a as a GUI (Graphical User Interface) image. For example, the user can confirm the connection information between the user and the terminal device registered as the connection destination of the video conference system by viewing the GUI image of the address book data. Further, it is possible to select a terminal device desired to be a connection destination by performing an operation on the GUI image of the address book data, and execute a call, a connection request, or the like to the selected terminal device.
In addition, operations for new registration and update registration of the address book data 19a (individual address data 19b) can be performed by operating the GUI image of the address book data.

図6は、本実施の形態としての音声端末画像の表示態様例を示している。なお、この図においても、図4と同様に、テレビ会議端末装置1が通信接続を確立している通信端末装置としては、4つの音声端末装置100−1、100−2、100−3、100−4であることを前提とする。   FIG. 6 shows a display mode example of the voice terminal image as the present embodiment. Also in this figure, as in FIG. 4, the four audio terminal devices 100-1, 100-2, 100-3, 100 are the communication terminal devices with which the video conference terminal device 1 has established communication connection. -4.

この図においては、図4に準じて、表示画面部30の表示領域が4分割された通信端末画像として、それぞれ、音声端末装置100−1、100−2、100−3、100−4に対応した音声端末画像32−1、32−2、32−3、32−4が表示された状態を示している。
そして、この場合の音声端末画像32としては、例えば左上の音声端末画像32−1を例にとると、サムネイルエリアA1、名前エリアA2、電話番号エリアA3、及びIPアドレスエリアA4が配置されて形成されているものとしてみることができる。
In this figure, according to FIG. 4, the communication terminal images obtained by dividing the display area of the display screen unit 30 into four correspond to the voice terminal devices 100-1, 100-2, 100-3, and 100-4, respectively. The voice terminal images 32-1, 32-2, 32-3, and 32-4 are displayed.
As the voice terminal image 32 in this case, for example, the upper left voice terminal image 32-1 is taken as an example, and a thumbnail area A1, a name area A2, a telephone number area A3, and an IP address area A4 are arranged and formed. Can be seen as being.

サムネイルエリアA1は、対応する音声通信端末装置の個別アドレスデータ19bにおいて、サムネイル画像データの登録項目にサムネイル画像データが格納されていた場合には、この格納されていたサムネイル画像データが表示される領域である。この音声端末画像32−1が対応する音声端末装置100−1の個別アドレスデータ19bにおいては、サムネイル画像データが格納されていたものとされ、従って、音声端末画像32−1のサムネイルエリアA1には、個別アドレスデータ19bに格納されていたサムネイル画像データの画像が表示されているものとされる。ここでは、サムネイルエリアA1において表示される画像として、個別アドレスデータ19bに格納されていたサムネイル画像データに基づいたものについては、ユーザサムネイル画像Pusということにする。   The thumbnail area A1 is an area in which, if the thumbnail image data is stored in the registered item of the thumbnail image data in the individual address data 19b of the corresponding voice communication terminal device, the stored thumbnail image data is displayed. It is. In the individual address data 19b of the voice terminal device 100-1 corresponding to the voice terminal image 32-1, it is assumed that thumbnail image data has been stored. Therefore, in the thumbnail area A1 of the voice terminal image 32-1, It is assumed that the thumbnail image data stored in the individual address data 19b is displayed. Here, an image displayed in the thumbnail area A1 based on the thumbnail image data stored in the individual address data 19b is referred to as a user thumbnail image Pus.

名前エリアA2は、対応する音声端末装置の個別アドレスデータ19bにおける名前の登録項目においてデータが格納されていた場合において、この名前としてのデータを、文字として表示する領域である。   The name area A2 is an area for displaying the data as the name as characters when data is stored in the name registration item in the individual address data 19b of the corresponding voice terminal device.

電話番号エリアA3は、対応する音声端末装置の個別アドレスデータ19bにおける電話番号の登録項目においてデータが格納されていた場合において、この電話番号としてのデータを、文字(数字、記号を含む)として表示する領域である。   In the telephone number area A3, when data is stored in the telephone number registration item in the individual address data 19b of the corresponding voice terminal device, the data as the telephone number is displayed as characters (including numbers and symbols). It is an area to do.

IPアドレスエリアA4は、対応する音声端末装置の個別アドレスデータ19bにおけるIPアドレスの登録項目においてデータが格納されていた場合において、この電話番号としてのデータを、文字として表示する領域である。
音声端末画像32−1としては、対応する音声端末装置100−1の個別アドレスデータ19bにおいて、名前、電話番号、及びIPアドレスのいずれの登録項目においてもデータが格納されていたものとされ、これに応じて、名前エリアA2、電話番号エリアA3、及びIPアドレスエリアA4には、それぞれ、個別アドレスデータ19bに格納されているデータに応じた文字(数字、記号)が表示されている状態が示される。
The IP address area A4 is an area for displaying data as the telephone number as characters when data is stored in the IP address registration item in the individual address data 19b of the corresponding voice terminal device.
As the voice terminal image 32-1, the individual address data 19b of the corresponding voice terminal device 100-1 stores data in any registered items of name, telephone number, and IP address. Accordingly, in the name area A2, the telephone number area A3, and the IP address area A4, characters (numbers and symbols) corresponding to the data stored in the individual address data 19b are displayed. It is.

また、この場合には、音声端末装置100−2に対応する個別アドレスデータ19bにおいても、サムネイル画像データと、名前、電話番号、IPアドレスの各データが格納されていたものとされ、これに応じて、音声端末装置100−2に対応する音声端末画像32−2においても、サムネイルエリアA1には、ユーザサムネイル画像Pusが表示され、また、名前エリアA2、電話番号エリアA3、及びIPアドレスエリアA4には、それぞれ、個別アドレスデータ19bに格納されているデータに応じて、名前、電話番号、IPアドレスを表す文字(数字、記号)が表示される。
同様に、音声端末装置100−3に対応する個別アドレスデータ19bにおいても、サムネイル画像データと、名前、電話番号、IPアドレスの各データが格納されていたものとされ、これに応じて、音声端末装置100−3に対応する音声端末画像32−3においても、サムネイルエリアA1には、ユーザサムネイル画像Pusが表示され、また、名前エリアA2、電話番号エリアA3、及びIPアドレスエリアA4には、それぞれ、個別アドレスデータ19bに格納されているデータに応じて、名前、電話番号、IPアドレスを表す文字(数字、記号)が表示される。
In this case, the individual address data 19b corresponding to the voice terminal device 100-2 also stores the thumbnail image data and the name, telephone number, and IP address data. Also in the voice terminal image 32-2 corresponding to the voice terminal device 100-2, the user thumbnail image Pus is displayed in the thumbnail area A1, and the name area A2, the telephone number area A3, and the IP address area A4. Are displayed with characters (numbers and symbols) representing names, telephone numbers, and IP addresses in accordance with the data stored in the individual address data 19b.
Similarly, in the individual address data 19b corresponding to the voice terminal device 100-3, it is assumed that the thumbnail image data and the data of name, telephone number, and IP address are stored. Also in the audio terminal image 32-3 corresponding to the device 100-3, the user thumbnail image Pus is displayed in the thumbnail area A1, and the name area A2, the telephone number area A3, and the IP address area A4 are respectively displayed. In accordance with the data stored in the individual address data 19b, characters (numbers, symbols) representing names, telephone numbers, and IP addresses are displayed.

これに対して、音声端末装置100−4に対応する個別アドレスデータ19bにおいては、名前、電話番号、IPアドレスの各データは格納されていたが、サムネイル画像データは格納されていなかったものとする。この場合、音声端末装置100−4に対応する音声端末画像32−4のサムネイルエリアA1に対しては、ユーザサムネイル画像Pusを表示させることができない。そこで、この場合には、ユーザサムネイル画像Pusに代えて、音声端末画像100−4が使用する回線種別をシンボル画像により表す、回線種別画像Picnを、サムネイルエリアA1に表示させるようにする。
なお、名前エリアA2、電話番号エリアA3、及びIPアドレスエリアA4には、それぞれ、個別アドレスデータ19bに格納されているデータに応じて、名前、電話番号、IPアドレスを表す文字(数字、記号)を表示させる。
In contrast, in the individual address data 19b corresponding to the voice terminal device 100-4, the name, telephone number, and IP address data are stored, but the thumbnail image data is not stored. . In this case, the user thumbnail image Pus cannot be displayed in the thumbnail area A1 of the audio terminal image 32-4 corresponding to the audio terminal device 100-4. In this case, instead of the user thumbnail image Pus, a line type image Picn representing the line type used by the voice terminal image 100-4 by a symbol image is displayed in the thumbnail area A1.
In the name area A2, the telephone number area A3, and the IP address area A4, characters (numbers and symbols) representing names, telephone numbers, and IP addresses according to the data stored in the individual address data 19b, respectively. Is displayed.

また、ここでも確認のために述べておくが、例えば仮に、テレビ会議端末装置1が通信接続を確立している通信端末装置が、3つの音声端末装置100−1、100−2、100−3と、1つの映像音声端末装置であり、この映像音声端末装置からは撮像画像などの映像信号を送信してきているとする場合には、図6における音声端末画像32−4の分割画像領域(通信端末画像)には、上記映像音声端末装置から送信されてくる映像信号の画像を表示するとともに、残る3つの分割画像領域(通信端末画像)には、図6に示すのと同じ内容の音声端末画像32−1、32−2、32−3を表示することになる。
また、通信接続が確立された音声端末装置についての個別アドレスデータ19bの登録が無かった場合には、図4に示した態様の音声端末画像31(以降、未登録音声端末画像ともいう)を表示させるものとする。
Also, for the sake of confirmation here, for example, the communication terminal device with which the video conference terminal device 1 has established a communication connection is assumed to have three voice terminal devices 100-1, 100-2, 100-3. If the video / audio terminal apparatus transmits a video signal such as a captured image, the divided image area (communication) of the audio terminal image 32-4 in FIG. In the terminal image), an image of the video signal transmitted from the video / audio terminal device is displayed, and in the remaining three divided image areas (communication terminal images), an audio terminal having the same contents as shown in FIG. The images 32-1, 32-2, and 32-3 are displayed.
If the individual address data 19b is not registered for the voice terminal device with which communication connection is established, the voice terminal image 31 (hereinafter also referred to as an unregistered voice terminal image) of the mode shown in FIG. 4 is displayed. Shall be allowed to.

このようにして本実施の形態のテレビ会議端末装置1は、接続先に音声端末装置が存在する場合において、アドレス帳データ19aにその接続先となっている音声端末装置に対応した個別アドレスデータ19bが登録されている場合には、その個別アドレスデータ19bに登録されているデータ内容が反映された通信端末画像(音声端末画像32)を表示させるように構成される。
これにより、テレビ会議端末装置1を使用している会議参加者は、音声端末画像32を見ることで、その音声端末装置のユーザが誰であるのかを容易に認識、把握できる。
例えば、個別アドレスデータ19bに登録するサムネイル画像データとしては、その端末装置のユーザの写真画像などが一般的であり、また、写真画像でなくとも、その端末のユーザを連想させる何らかの画内容のものとなる場合が多い。つまりは、個別アドレスデータ19bのサムネイル画像データは、その端末装置のユーザに個別であり、そのユーザであることを認識、あるいは容易に想起することのできるような画内容を有しているものといえる。従って、ユーザサムネイル画像Pusが表示されていれば、この画像を見ることで、その音声端末装置のユーザが誰であるのかを視覚的に把握できることになる。
また、名前エリアA2に表示されている名前によっても、その音声端末装置のユーザが誰であるのかを把握できる。
さらには、テレビ会議端末装置1の会議参加者が、接続先端末装置の電話番号やIPアドレスをユーザと対応付けて覚えていれば、電話番号エリアA3やIPアドレスエリアA4に表示される電話番号、IPアドレスを見ることによっても、接続先の音声端末装置のユーザが誰であるのかを知ることができる。
Thus, in the video conference terminal device 1 according to the present embodiment, when there is a voice terminal device at the connection destination, the address book data 19a includes individual address data 19b corresponding to the voice terminal device that is the connection destination. Is registered, the communication terminal image (voice terminal image 32) reflecting the data content registered in the individual address data 19b is displayed.
Thereby, the conference participant using the video conference terminal device 1 can easily recognize and grasp who the user of the voice terminal device is by looking at the voice terminal image 32.
For example, as thumbnail image data registered in the individual address data 19b, a photographic image of the user of the terminal device is generally used, and even if it is not a photographic image, it has some image content associated with the user of the terminal. In many cases. That is, the thumbnail image data of the individual address data 19b is individual to the user of the terminal device, and has image contents that can be recognized or easily recalled as the user. I can say that. Therefore, if the user thumbnail image Pus is displayed, it is possible to visually grasp who the user of the voice terminal device is by viewing this image.
Also, the name displayed in the name area A2 can be used to determine who the user of the voice terminal device is.
Further, if the conference participant of the video conference terminal device 1 remembers the telephone number or IP address of the connection destination terminal device in association with the user, the telephone number displayed in the telephone number area A3 or the IP address area A4 By looking at the IP address, it is possible to know who the user of the connected voice terminal device is.

なお、上記のユーザサムネイル画像Pus、名前エリアA2に表示される名前、電話番号エリアA3に表示される電話番号、及びIPアドレスエリアA4に表示されるIPアドレスのうち、対応する音声端末装置のユーザが誰であるのかを認識しやすいのは、ユーザサムネイル画像Pusであるといえる。
ユーザサムネイル画像Pusの基となる、個別アドレスデータ19bのサムネイル画像データは、その端末装置のユーザの写真画像などが一般的であり、また、写真画像でなくとも、その端末のユーザを連想させる何らかの画内容のものとなる場合が多い。つまりは、個別アドレスデータ19bのサムネイル画像データは、その端末装置のユーザに個別であり、そのユーザのことを認識、あるいは容易に想起することのできるような画内容を有しているものとして扱える。従って、音声端末画像32においてユーザサムネイル画像Pusが表示されていさえすれば、例えばその表示を見ている会議参加者は、名前などがうろ覚えであるような場合でも、対応する端末装置のユーザが誰であるのかを的確に把握できる。
Of the user thumbnail image Pus, the name displayed in the name area A2, the telephone number displayed in the telephone number area A3, and the IP address displayed in the IP address area A4, the user of the corresponding voice terminal device It can be said that it is the user thumbnail image Pus that easily recognizes who the person is.
The thumbnail image data of the individual address data 19b, which is the basis of the user thumbnail image Pus, is generally a photographic image of the user of the terminal device, and even if it is not a photographic image, it is associated with the user of the terminal. In many cases, it will be of the picture content. In other words, the thumbnail image data of the individual address data 19b is individual to the user of the terminal device and can be handled as having image contents that can recognize or easily recall the user. . Therefore, as long as the user thumbnail image Pus is displayed in the audio terminal image 32, for example, the conference participant who is viewing the display can find out who the user of the corresponding terminal device is, even if the name is unrecognizable. It is possible to accurately grasp whether it is.

そして本実施の形態では、上記のユーザサムネイル画像Pusを含み、音声端末画像32に表示させるべき情報内容は、アドレス帳データ19aにおける登録データを利用することとしている。これは、例えば、音声端末画像32にユーザサムネイル画像Pus、名前、電話番号、アドレスなどを表示させようとするのにあたり、音声端末画像32の表示のために改めてデータを登録、入力する作業を行う必要が無いということを意味する。   In the present embodiment, the information content to be displayed on the voice terminal image 32 including the user thumbnail image Pus described above uses registration data in the address book data 19a. For example, when displaying the user thumbnail image Pus, name, telephone number, address, etc. on the voice terminal image 32, the work of registering and inputting data again for displaying the voice terminal image 32 is performed. It means that there is no need.

図7のフローチャートは、上記図6により説明した本実施の形態としての通信端末画像表示のためにテレビ会議端末装置1が実行するものとされる手順例を示している。
先ず、ステップS101においては、或る1つの通信端末装置との間での映像音声若しくは音声の送受信のための通信接続が確立された状態となるのを待機している。そして、例えば映像音声若しくは音声の送信に必要なネゴシエーションの処理などが完了して通信接続が確立されたことを判別すると、ステップS102以降の手順に進む。
The flowchart of FIG. 7 shows an example of a procedure executed by the video conference terminal device 1 for displaying the communication terminal image as the present embodiment described with reference to FIG.
First, in step S101, the process waits for a communication connection for video / audio transmission / reception with a certain communication terminal apparatus to be established. Then, for example, when it is determined that the negotiation process necessary for video / audio transmission or the like has been completed and the communication connection has been established, the process proceeds to step S102 and subsequent steps.

ステップS102においては、上記ステップS101に対応して接続が確立された接続先の端末装置の種類として、映像音声端末装置と音声端末装置のいずれであるのかを判別する。この判別は例えば、先のネゴシエーションの過程において得られた接続先端末装置の種類の情報などを参照すればよい。   In step S102, it is determined whether the type of the terminal device to which the connection is established corresponding to step S101 is the video / audio terminal device or the audio terminal device. This determination may be made, for example, by referring to the information on the type of the connection destination terminal device obtained in the previous negotiation process.

ステップS102において、映像音声端末装置であることが判別された場合には、ステップS106に進んで、この接続先端末装置に対応する通信端末画像として、テレビ会議端末装置1が受信する、この接続先端末装置から送信されてくる映像信号の画像を表示出力させるための画像処理制御を実行する。   If it is determined in step S102 that the terminal is a video / audio terminal device, the process proceeds to step S106, and the video conference terminal device 1 receives the connection destination image as a communication terminal image corresponding to the connection destination terminal device. Image processing control for displaying and outputting an image of the video signal transmitted from the terminal device is executed.

これに対して、ステップS102において音声端末装置であることが判別された場合にはステップS103に進む。
ステップS103においては、記憶部19に記憶されているアドレス帳データ19aを参照し、接続先端末装置に対応する個別アドレスデータ19bが、アドレス帳データ19aに登録されているか否かについて判別する。この判別にあたっては、例えば、接続先端末装置と接続するために実際に利用した電話番号若しくはIPアドレスが登録されている個別アドレスデータ19bを検索するようにされる。該当する個別アドレスデータ19bが検索されればステップS103において肯定の判別結果が得られ、検索されなければ否定の判別結果が得られることになる。
On the other hand, if it is determined in step S102 that it is a voice terminal device, the process proceeds to step S103.
In step S103, the address book data 19a stored in the storage unit 19 is referenced to determine whether or not the individual address data 19b corresponding to the connection destination terminal device is registered in the address book data 19a. In this determination, for example, the individual address data 19b in which the telephone number or IP address actually used for connecting to the connection destination terminal device is registered is searched. If the corresponding individual address data 19b is searched, a positive determination result is obtained in step S103, and if it is not searched, a negative determination result is obtained.

ステップS103において否定の判別結果が得られた場合には、通信端末画像として、図4に示した態様の未登録音声端末画像31を表示させるための制御を実行する。また、肯定の判別結果が得られた場合には、ステップS104により、通信端末画像として、図6に示した態様の音声端末画像32を表示させる。なお、以降の説明においては、図6に示される態様の音声端末画像32については、アドレス帳対応音声端末画像ということにする。   If a negative determination result is obtained in step S103, control is performed to display the unregistered voice terminal image 31 in the mode shown in FIG. 4 as the communication terminal image. If a positive determination result is obtained, the voice terminal image 32 having the mode shown in FIG. 6 is displayed as the communication terminal image in step S104. In the following description, the voice terminal image 32 having the mode shown in FIG. 6 is referred to as an address book-compatible voice terminal image.

図8は、上記ステップS104としてのアドレス帳対応音声端末画像32を表示するための手順例を示している。
ここでは先ずステップS201において、接続先の音声端末装置に対応する個別アドレスデータ19bにおいて、サムネイル画像データが登録されているか否かについて判別することとしている。ここで肯定の判別結果が得られた場合には、ステップS202に進んで、アドレス帳対応音声端末画像32におけるサムネイルエリアA1内に対して、ユーザサムネイル画像Pusを描画する処理を実行しステップS204に進む。
これに対して、ステップS201にて否定の判別結果が得られた場合には、ステップS203に進んで、接続先の音声端末装置との通信に使用している回線種別を示す回線種別画像Picnを生成し、これをサムネイルエリアA1内に対して描画する処理を実行する。なお、ステップS203の手順を実行する際には、接続先の音声端末装置が通信に利用している回線種別を特定することが必要になるが、これも、例えば音声通信のためのネゴシエーション処理の過程において通知されてくる回線種別を示す情報を利用すればよい。ステップS203の手順の後はステップS204に進む。
FIG. 8 shows an example of a procedure for displaying the address book-corresponding voice terminal image 32 as step S104.
Here, first, in step S201, it is determined whether or not thumbnail image data is registered in the individual address data 19b corresponding to the connection destination voice terminal device. If a positive determination result is obtained here, the process proceeds to step S202 to execute a process of drawing the user thumbnail image Pus in the thumbnail area A1 in the address book-corresponding voice terminal image 32, and then to step S204. move on.
On the other hand, if a negative determination result is obtained in step S201, the process proceeds to step S203, and a line type image Picn indicating the line type used for communication with the connected voice terminal device is displayed. A process of generating and rendering this in the thumbnail area A1 is executed. Note that when executing the procedure of step S203, it is necessary to specify the line type used for communication by the connected voice terminal device. For example, this is also a negotiation process for voice communication. Information indicating the line type notified in the process may be used. After the procedure of step S203, the process proceeds to step S204.

ステップS204においては、同じ接続先の音声端末装置に対応する個別アドレスデータ19bにおいて名前データが登録されているか否かについて判別する。
名前データが登録されているとして肯定の判別結果が得られれば、ステップS205により、登録されている名前データを利用して、この名前データが示す文字が表示されるようにして、名前エリアA2内の描画を実行し、ステップS206に進む。ステップS204にて否定の判別結果が得られた場合にはステップS205をスキップしてステップS206に進む。
In step S204, it is determined whether or not name data is registered in the individual address data 19b corresponding to the same connection destination voice terminal device.
If an affirmative determination result is obtained as the name data is registered, in step S205, the name data is displayed using the registered name data, and the name data is displayed. The drawing is executed, and the process proceeds to step S206. If a negative determination result is obtained in step S204, step S205 is skipped and the process proceeds to step S206.

ステップS206においては、同じ個別アドレスデータ19bにおいて電話番号データが登録されているか否かについて判別する。
電話番号データが登録されているとして肯定の判別結果が得られた場合には、ステップS207により、登録されている電話番号データが示す文字が表示されるようにして、電話番号エリアA2内の描画を実行し、ステップS208に進む。ステップS206にて否定の判別結果が得られた場合にはステップS207をスキップしてステップS208に進む。
In step S206, it is determined whether or not telephone number data is registered in the same individual address data 19b.
If an affirmative determination result is obtained assuming that the telephone number data is registered, the characters indicated by the registered telephone number data are displayed in step S207 so that the drawing in the telephone number area A2 is performed. Is executed, and the process proceeds to step S208. If a negative determination result is obtained in step S206, step S207 is skipped and the process proceeds to step S208.

ステップS208においては、同じ個別アドレスデータ19bにおいてIPアドレスデータが登録されているか否かについて判別する。
IPアドレスデータが登録されているとして肯定の判別結果が得られた場合には、ステップS209により、登録されているIPアドレスデータが示す文字が表示されるようにして、IPアドレスエリアA2内の描画を実行し、この処理を抜けるようにされる。これに対して、否定の判別結果が得られた場合にはステップS209をスキップして、この処理を抜ける。
In step S208, it is determined whether or not IP address data is registered in the same individual address data 19b.
If an affirmative determination result is obtained on the assumption that the IP address data is registered, in step S209, the characters indicated by the registered IP address data are displayed, and the drawing in the IP address area A2 is performed. Is executed to exit this process. On the other hand, if a negative determination result is obtained, step S209 is skipped and the process is exited.

ところで、これまでの説明のようにしてアドレス帳対応音声端末画像32を表示させることで、本実施の形態としては、接続先端末が音声端末装置でありながら、この音声端末装置に対応する通信端末画像(即ちアドレス帳対応音声端末画像32である)を見ることで、その音声端末装置のユーザ(会議参加者)が誰であるのかを把握できる。
しかし、会議においては、進行に伴って話者が随時変わっていくことになる。このときに、複数接続されているとする通信端末装置が映像音声端末装置だけなのであれば、通信端末画像として表示されている相手側話者の様子などから、話者音声が、どの映像音声端末装置からのものであるのかを把握することは容易である。これに対して、音声端末装置の通信端末画像としては、アドレス帳対応音声端末画像、若しくは未登録音声端末画像などとなって、基本的には静止画として表示されるものとなる。このために、テレビ会議端末装置1に対して複数の音声端末装置が接続されているような場合において、音声端末装置を使用する会議参加者の間で話者が変わっていくような状況となると、テレビ会議端末装置1側にて通信端末画像を見ている会議参加者は、どの音声端末装置の会議参加者が話者となっているのかを判断することが難しくなる場合があると考えられる。
By the way, by displaying the address book-corresponding voice terminal image 32 as described so far, in the present embodiment, the communication terminal corresponding to the voice terminal device is used while the connection destination terminal is a voice terminal device. By looking at the image (that is, the address book-corresponding voice terminal image 32), it is possible to grasp who the user (conference participant) of the voice terminal device is.
However, in the conference, the speaker will change as needed. At this time, if only a video / audio terminal device is connected to a plurality of communication terminal devices, the video / audio terminal of the speaker audio is determined based on the state of the other party's speaker displayed as the communication terminal image. It is easy to know if it is from the device. On the other hand, the communication terminal image of the voice terminal device is an address book-compatible voice terminal image or an unregistered voice terminal image, which is basically displayed as a still image. For this reason, in a case where a plurality of audio terminal devices are connected to the video conference terminal device 1, a situation occurs in which speakers change among conference participants who use the audio terminal devices. It is considered that it may be difficult for a conference participant who is viewing a communication terminal image on the video conference terminal device 1 side to determine which voice terminal device the conference participant is a speaker. .

そこで、本実施の形態としては、音声端末装置の会議参加者が話者となって発話しているとされるときに応じては、その音声端末装置に対応する通信端末画像が強調して表示されるようにすることとした。
このような強調表示の態様例について、再度、図6を参照して説明する。ここでは、音声端末装置100−1、100−2、100−3、100−4のうち、音声端末装置100−1のユーザ(会議参加者)が現在発話中であることとする。これに応じて、音声端末装置100−1に対応する左上の音声端末画像32−1に対しては、強調表示枠33が配置表示されている。
ここから、例えば音声端末装置100−1のユーザが発話を止め、誰も発話していない状態になったとされると、強調表示枠33の表示が消去される。また、ここからさらに、例えば音声端末装置100−2のユーザが発話した状態になったとすると、音声端末装置100−2に対応する音声端末画像32−2に対して強調表示枠33が配置表示される。
Therefore, according to the present embodiment, when a conference participant of a voice terminal device is said to be speaking and speaking, a communication terminal image corresponding to the voice terminal device is highlighted and displayed. I decided to make it.
An example of such highlighting will be described again with reference to FIG. Here, it is assumed that the user (conference participant) of the voice terminal device 100-1 among the voice terminal devices 100-1, 100-2, 100-3, and 100-4 is currently speaking. In response to this, an emphasis display frame 33 is arranged and displayed for the upper left audio terminal image 32-1 corresponding to the audio terminal device 100-1.
From this point, for example, when the user of the voice terminal device 100-1 stops speaking and no one speaks, the display of the highlight frame 33 is deleted. Further, if the user of the voice terminal device 100-2 is in a state of speaking from here, for example, the highlight frame 33 is arranged and displayed on the voice terminal image 32-2 corresponding to the voice terminal device 100-2. The

図9のフローチャートは、上記した強調表示枠33を表示するためにテレビ会議端末装置1が実行するものとされる手順例を示している。この図に示す手順は、例えば図6などに示したように、複数の接続先端末装置に応じた複数の通信端末画像の表示出力を行っているときに実行されるものとなる。   The flowchart of FIG. 9 shows an example of a procedure that is executed by the video conference terminal device 1 in order to display the highlight frame 33 described above. The procedure shown in this figure is executed when display output of a plurality of communication terminal images corresponding to a plurality of connection destination terminal devices is performed, for example, as shown in FIG.

先ず、ステップS301においては、現在において映像音声又は音声の通信接続が確立されている接続先端末装置からの発話音声が検知されているか否かについて判別する。
発話音声の検知にあたっては、音声信号処理部21が入力する音声デコーダ25からの音声信号つまり、接続先端末装置から送信されてくる音声信号を受信して得られる受信音声信号のレベルが一定以上であるか否かについて判別することにより検知することができる。また、現実においては複数の接続先端末装置からの発話音声が同時に送信されてくる状況となる場合があるが、この発話音声の検知は、1つの強調表示枠33を表示させることを目的として行われるものであるから、ここでの発話音声の検知にあっては、上記のようにして複数の接続先端末装置からの発話音声が同時に得られているとする場合には、所定の規則に従って、1つの接続先端末装置のみを対象として発話音声を検知することとして、他の接続先端末装置からの発話音声については検知対象としないようにする。このときの規則としてはいくつか考えられるが、例えばレベルが最も大きいとして判定された音声信号を、発話音声として検知するようにすることが考えられる。
そして、ステップS301において発話音声が検知されたとして肯定の判別結果が得られたとされると、ステップS302、S303の手順を実行する。
First, in step S301, it is determined whether or not an utterance voice is detected from a connection destination terminal apparatus that has currently established a video / audio communication connection.
In detecting the speech voice, the level of the received voice signal obtained by receiving the voice signal from the voice decoder 25 input by the voice signal processing unit 21, that is, the voice signal transmitted from the connection destination terminal device, is above a certain level. It can be detected by determining whether or not there is. In actuality, there may be a situation in which utterances from a plurality of connected terminal devices are transmitted at the same time. This detection of utterances is performed for the purpose of displaying one highlight frame 33. Therefore, in the detection of the utterance voice here, if utterance voices from a plurality of connected terminal devices are obtained simultaneously as described above, according to a predetermined rule, By detecting the speech sound for only one connection destination terminal device, the speech sound from other connection destination terminal devices is not detected. There are several possible rules at this time. For example, a speech signal determined to have the highest level may be detected as an uttered speech.
If it is determined in step S301 that an utterance voice is detected and an affirmative determination result is obtained, steps S302 and S303 are executed.

ステップS302においては、ステップS301に対応して検知された発話音声を送信してくる接続端末装置(ここでは対象接続先端末装置ということにする)を特定するための処理を実行する。このための仕組みはいくつか考えられるが、例えば1つには、制御部18が通信部14に問い合わせるなどして、音声信号処理部21において発話音声であるとして検知した音声信号を送信してきた接続先端末装置を認識するように構成することが考えられる。   In step S302, a process for specifying a connection terminal device (here, referred to as a target connection destination terminal device) that transmits the uttered voice detected corresponding to step S301 is executed. There are several possible mechanisms for this. For example, one is a connection in which the control unit 18 sends an audio signal detected by the audio signal processing unit 21 as an uttered voice by making an inquiry to the communication unit 14. It may be configured to recognize the destination terminal device.

ステップS303においては、上記ステップS302により特定した対象接続先端末装置に対応する通信端末画像の領域に対して、強調表示枠33を配置表示させるための描画処理、表示制御を実行し、ステップS301に戻るようにされる。このようにして、発話音声が検知されている限りは、ステップS302、S303の手順が実行されることになり、結果として、発話しているユーザに対応する接続先端末装置の通信端末画像に対して強調表示枠33が表示されることになる。   In step S303, drawing processing and display control for arranging and displaying the highlight display frame 33 are executed on the area of the communication terminal image corresponding to the target connection destination terminal device specified in step S302. It is made to go back. In this way, as long as the utterance voice is detected, the procedures of steps S302 and S303 are executed. As a result, the communication terminal image of the connection destination terminal apparatus corresponding to the uttering user is processed. Thus, the highlight frame 33 is displayed.

これに対して、ステップS301において接続先端末装置からの発話音声が検知されないとして否定の判別結果が得られた場合には、ステップS304により、表示画面部30の画像表示領域内において強調表示枠33が消去された状態となるようにして、描画処理、表示制御を実行する。   On the other hand, when a negative determination result is obtained in step S301 that the utterance voice from the connection destination terminal device is not detected, the highlight display frame 33 is displayed in the image display area of the display screen unit 30 in step S304. The drawing process and the display control are executed in such a manner that is deleted.

なお、強調表示枠33を配置表示することのできる通信端末画像としては、例えばその目的からすれば、音声端末装置に対応する音声端末画像のみとして、映像音声端末装置に対応する通信端末画像には表示させないようにすることが考えられる。また、これとは逆に、映像音声端末装置に対応する通信端末画像に対しても、その映像音声端末装置のユーザが発話中であることに応じて強調表示枠33を配置表示させてもよい。図9に示したフローチャートのアルゴリズムでは、映像音声端末装置に対応する通信端末画像に対しても、強調表示枠33が表示されるようになる。
また、発話中にあるとされるユーザの接続先端末装置に対応する通信端末画像を強調するための表示態様としては、図6に例示したもの以外にも多様に考えられる。
Note that the communication terminal image in which the highlight frame 33 can be arranged and displayed includes, for example, only the audio terminal image corresponding to the audio terminal device, and the communication terminal image corresponding to the video audio terminal device. It can be considered not to display. On the contrary, the highlight frame 33 may be arranged and displayed on the communication terminal image corresponding to the video / audio terminal device according to the fact that the user of the video / audio terminal device is speaking. . In the algorithm of the flowchart shown in FIG. 9, the highlight frame 33 is displayed also for the communication terminal image corresponding to the video / audio terminal device.
Further, various display modes other than those illustrated in FIG. 6 are conceivable as the display mode for emphasizing the communication terminal image corresponding to the connection destination terminal device of the user who is assumed to be speaking.

また、例えば図7〜図9に示す処理は、テレビ会議端末装置1の制御部18を形成するものとされるCPUが、ROM或いは不揮発性メモリなどに記憶されるプログラムを実行することで実現されるものとしてみることができる。
また、このプログラムは、上記のようにして、例えばROMなどに対して製造時などに書き込んで記憶させるほか、リムーバブルの記憶媒体に記憶させておいたうえで、この記憶媒体からインストール(アップデートも含む)させるようにして、例えば記憶部19などの不揮発性の記憶領域に記憶させることが考えられる。また、データインターフェイス経由により、他のホストとなる機器からの制御によってプログラムのインストールを行えるようにすることも考えられる。さらに、ネットワーク上のサーバなどにおける記憶装置に記憶させておいたうえで、例えばネットワーク経由などでサーバからダウンロードして取得できるように構成することも考えられる。
Further, for example, the processing illustrated in FIGS. 7 to 9 is realized by a CPU that forms the control unit 18 of the video conference terminal device 1 executing a program stored in a ROM or a non-volatile memory. Can be seen as something.
Also, as described above, this program is written and stored in a ROM or the like at the time of manufacture, for example, and is stored in a removable storage medium and then installed from this storage medium (including updates). For example, it can be stored in a non-volatile storage area such as the storage unit 19. It is also conceivable that the program can be installed via a data interface under the control of another host device. Further, it may be configured to be stored in a storage device in a server or the like on a network and then downloaded and acquired from the server via a network, for example.

本発明の実施の形態に対応するテレビ会議端末装置を備えるテレビ会議システムの基本構成例を示す図である。It is a figure which shows the example of a basic composition of a video conference system provided with the video conference terminal device corresponding to embodiment of this invention. 本実施の形態のテレビ会議端末装置の内部構成例を、これと接続される撮像装置、ディスプレイ装置等と共に示す図である。It is a figure which shows the internal structural example of the video conference terminal device of this Embodiment with the imaging device, display apparatus, etc. which are connected with this. 実施の形態のテレビ会議端末装置と音声端末装置とを接続して成るテレビ会議システムの構成例を示す図である。It is a figure which shows the structural example of the video conference system formed by connecting the video conference terminal device and audio | voice terminal device of embodiment. 一例として考えられる音声端末画像についての態様例を示す図である。It is a figure which shows the example of an aspect about the audio | voice terminal image considered as an example. アドレス帳データの構造例を示す図である。It is a figure which shows the structural example of address book data. 実施の形態としての音声端末画像についての態様例を示す図である。It is a figure which shows the example of an aspect about the audio | voice terminal image as embodiment. 実施の形態としての音声端末画像を表示させるための手順例を示すフローチャートである。It is a flowchart which shows the example of a procedure for displaying the audio | voice terminal image as embodiment. 実施の形態におけるアドレス帳対応音声端末画像を表示させるための手順例を示すフローチャートである。It is a flowchart which shows the example of a procedure for displaying the address book corresponding | compatible voice terminal image in embodiment. 発話中の会議参加者が対応する通信端末画像を強調表示するための手順例を示すフローチャートである。It is a flowchart which shows the example of a procedure for highlighting the communication terminal image which the meeting participant in speech corresponds.

符号の説明Explanation of symbols

1(1−1、1−2) テレビ会議端末装置、2(2−1、2−2) 撮像装置、2a ズーム機構部、3a パン機構部、3b チルト機構部、4(4−1、4−2) ディスプレイ装置、5(5−1、5−2) リモートコントローラ、11 映像信号処理/表示制御部、12 エンコーダ、13 デコーダ、14 通信部、15 PTZ駆動制御部、16 パン/チルト駆動制御部、17 ズーム駆動制御部、18 制御部、19 記憶部、19a スタンバイデータ、20 タイマ、21 音声信号処理部、24 音声エンコーダ、25 音声デコーダ、30 表示画面部、32(32−1〜32−4) 音声端末画像、33 強調表示枠、A1 サムネイルエリア、A2 名前エリア、A3 電話番号エリア、A4 IPアドレスエリア   1 (1-1, 1-2) video conference terminal device, 2 (2-1, 2-2) imaging device, 2a zoom mechanism unit, 3a pan mechanism unit, 3b tilt mechanism unit, 4 (4-1, 4 -2) Display device, 5 (5-1, 5-2) Remote controller, 11 Video signal processing / display control unit, 12 Encoder, 13 Decoder, 14 Communication unit, 15 PTZ drive control unit, 16 Pan / tilt drive control Unit, 17 zoom drive control unit, 18 control unit, 19 storage unit, 19a standby data, 20 timer, 21 audio signal processing unit, 24 audio encoder, 25 audio decoder, 30 display screen unit, 32 (32-1 to 32-2) 4) Voice terminal image, 33 highlight frame, A1 thumbnail area, A2 name area, A3 telephone number area, A4 IP address area

Claims (4)

他の通信端末装置と映像信号及び/又は音声信号送受信のための通信接続を行う通信接続手段と、
上記通信接続手段により通信接続可能な他の通信端末装置ごとに対応付けされる個別アドレスデータから成り、上記個別アドレスデータとして、対応付けされる他の通信端末装置のユーザに関連した所定の情報内容を有するユーザ情報を登録可能とされているアドレス帳データを記憶して管理する、アドレス帳データ記憶管理手段と、
通信接続されている他の通信端末装置に対応する通信端末画像として、上記通信接続手段により受信した他の通信端末装置から送信される映像信号を画像として表示出力させることができるとともに、通信接続されている他の通信端末装置のうちで、映像信号が送信不可で音声信号のみを送信可能な音声通信端末装置がある場合には、この音声通信端末装置に対応付けされる個別アドレスデータに登録されている所定のユーザ情報の内容が所定の態様により示されるようにした上記通信端末画像を表示出力させる表示制御手段と、
を備えることを特徴とする通信端末装置。
Communication connection means for performing communication connection for transmission and reception of video signals and / or audio signals with other communication terminal devices;
It consists of individual address data associated with each other communication terminal apparatus that can be communicably connected by the communication connection means, and the predetermined information content related to the user of the other communication terminal apparatus associated with the individual address data Address book data storage management means for storing and managing address book data that can be registered as user information,
As a communication terminal image corresponding to another communication terminal device connected for communication, a video signal transmitted from the other communication terminal device received by the communication connection means can be displayed and output as an image, and communication connection is established. If there is an audio communication terminal device that cannot transmit a video signal and can transmit only an audio signal among other communication terminal devices that are registered, it is registered in the individual address data associated with the audio communication terminal device. Display control means for displaying and outputting the communication terminal image in which the content of the predetermined user information is indicated in a predetermined manner;
A communication terminal device comprising:
上記アドレス帳データ記憶管理手段によっては、上記個別アドレスデータにサムネイル画像データを登録することが可能とされており、
上記表示制御手段は、上記個別アドレスデータに上記サムネイル画像データが登録されている場合には、上記通信端末画像において、この登録されているサムネイル画像データの画像を表示させる、
ことを特徴とする請求項1に記載の通信端末装置。
Depending on the address book data storage management means, it is possible to register thumbnail image data in the individual address data,
When the thumbnail image data is registered in the individual address data, the display control means displays the image of the registered thumbnail image data in the communication terminal image.
The communication terminal device according to claim 1.
上記通信接続されている他の通信端末装置のうちから発話音声を送信している通信端末装置を特定する特定手段をさらに備え、
上記表示制御手段は、上記特定手段により特定される通信端末装置に対応する通信端末画像を強調するための所定の態様による表示が行われるように制御を実行する、
ことを特徴とする請求項2に記載の通信端末装置。
Further comprising a specifying means for specifying a communication terminal device that is transmitting speech speech from among the other communication terminal devices that are connected for communication,
The display control means executes control so that display according to a predetermined mode for emphasizing a communication terminal image corresponding to the communication terminal device specified by the specifying means is performed.
The communication terminal device according to claim 2.
他の通信端末装置と映像信号及び/又は音声信号送受信のための通信接続を行うための通信接続手順と、
上記通信接続手順により通信接続可能な他の通信端末装置ごとに対応付けされる個別アドレスデータから成り、上記個別アドレスデータとして、対応付けされる他の通信端末装置のユーザに関連した所定の情報内容を有するユーザ情報を登録可能とされているアドレス帳データを記憶して管理する、アドレス帳データ記憶管理手順と、
通信接続されている他の通信端末装置に対応する通信端末画像として、上記通信接続手順により受信した他の通信端末装置から送信される映像信号を画像として表示出力させることができるとともに、通信接続されている他の通信端末装置のうちで、映像信号が送信不可で音声信号のみを送信可能な音声通信端末装置がある場合には、この音声通信端末装置に対応付けされる個別アドレスデータに登録されている所定のユーザ情報の内容が所定の態様により示されるようにした上記通信端末画像を表示出力させる表示制御手順と、
を実行することを特徴とする画像表示制御方法。
A communication connection procedure for performing communication connection for transmission and reception of video signals and / or audio signals with other communication terminal devices;
It consists of individual address data associated with each other communication terminal device that can be communicably connected by the communication connection procedure, and the predetermined information content related to the user of the other communication terminal device associated with the individual address data An address book data storage management procedure for storing and managing address book data that can be registered as user information,
As a communication terminal image corresponding to another communication terminal device connected for communication, a video signal transmitted from the other communication terminal device received by the communication connection procedure can be displayed and output as an image, and communication connection can be made. If there is an audio communication terminal device that cannot transmit a video signal and can transmit only an audio signal among other communication terminal devices that are registered, it is registered in the individual address data associated with the audio communication terminal device. A display control procedure for displaying and outputting the communication terminal image in which the content of the predetermined user information is indicated in a predetermined manner;
The image display control method characterized by performing.
JP2008014995A 2008-01-25 2008-01-25 Communication terminal device, and image display control method Pending JP2009177592A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008014995A JP2009177592A (en) 2008-01-25 2008-01-25 Communication terminal device, and image display control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008014995A JP2009177592A (en) 2008-01-25 2008-01-25 Communication terminal device, and image display control method

Publications (1)

Publication Number Publication Date
JP2009177592A true JP2009177592A (en) 2009-08-06

Family

ID=41032208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008014995A Pending JP2009177592A (en) 2008-01-25 2008-01-25 Communication terminal device, and image display control method

Country Status (1)

Country Link
JP (1) JP2009177592A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778244A (en) * 2010-02-01 2010-07-14 中兴通讯股份有限公司 Wireless video conference system and method for adding common voice user
WO2011132719A1 (en) * 2010-04-20 2011-10-27 シャープ株式会社 Output device, source apparatus, television set, system, output method, program, and recording medium
WO2011150876A2 (en) * 2011-06-15 2011-12-08 华为终端有限公司 Method for audio and video call, device, and system thereof
US8593501B1 (en) * 2012-02-16 2013-11-26 Google Inc. Voice-controlled labeling of communication session participants
JP2016027716A (en) * 2011-12-27 2016-02-18 株式会社リコー Communication management system, communication system, communication management method, and program
CN108965776A (en) * 2017-08-21 2018-12-07 北京视联动力国际信息技术有限公司 A kind of communication means and communication system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101778244A (en) * 2010-02-01 2010-07-14 中兴通讯股份有限公司 Wireless video conference system and method for adding common voice user
CN101778244B (en) * 2010-02-01 2013-06-05 中兴通讯股份有限公司 Wireless video conference system and method for adding common voice user
WO2011132719A1 (en) * 2010-04-20 2011-10-27 シャープ株式会社 Output device, source apparatus, television set, system, output method, program, and recording medium
JP2012050061A (en) * 2010-04-20 2012-03-08 Sharp Corp Output device, source apparatus, television receiver, system, output method, program and recording medium
US8711285B2 (en) 2010-04-20 2014-04-29 Sharp Kabushiki Kaisha Output device, source apparatus, television set, system, output method, program, and recording medium
WO2011150876A2 (en) * 2011-06-15 2011-12-08 华为终端有限公司 Method for audio and video call, device, and system thereof
CN102292989A (en) * 2011-06-15 2011-12-21 华为终端有限公司 Method,device and system thereof for audio and video call
WO2011150876A3 (en) * 2011-06-15 2012-05-10 华为终端有限公司 Method for audio and video call, device, and system thereof
CN102292989B (en) * 2011-06-15 2014-05-07 华为终端有限公司 Method, device and system thereof for audio and video call
JP2016027716A (en) * 2011-12-27 2016-02-18 株式会社リコー Communication management system, communication system, communication management method, and program
US8593501B1 (en) * 2012-02-16 2013-11-26 Google Inc. Voice-controlled labeling of communication session participants
CN108965776A (en) * 2017-08-21 2018-12-07 北京视联动力国际信息技术有限公司 A kind of communication means and communication system

Similar Documents

Publication Publication Date Title
US20140079212A1 (en) Signal processing apparatus and storage medium
US8675037B2 (en) Two-way communication system, communication terminal device and image mute control method
EP2892210B1 (en) Providing video telephony using broadcast receiving apparatus and SMS message
JP5315696B2 (en) Imaging control apparatus and imaging control method
JP2009177592A (en) Communication terminal device, and image display control method
US6219086B1 (en) Terminal apparatus
JP2005192086A (en) Communication equipment and communication system
JP2017034312A (en) Communication device, communication system, and program
JP6149433B2 (en) Video conference device, video conference device control method, and program
KR101918676B1 (en) Videoconferencing Server for Providing Multi-Screen Videoconferencing by Using Plural Videoconferencing Terminals and Camera Tracking Method therefor
JP2009017330A (en) Video conference system, video conference method, and video conference program
JP5120020B2 (en) Audio communication system with image, audio communication method with image, and program
JP5151131B2 (en) Video conferencing equipment
JP7095356B2 (en) Communication terminal and conference system
JP2006339869A (en) Apparatus for integrating video signal and voice signal
JP2002135434A (en) Interphone unit, interphone system, and storage medium with interphone software recorded thereon
JP4296976B2 (en) Communication terminal device
JP2017168903A (en) Information processing apparatus, conference system, and method for controlling information processing apparatus
JP2011055103A (en) Condominium intercom system
CN115118913A (en) Projection video conference system and projection video method
JP2017158137A (en) Conference system
JP4841274B2 (en) Information processing device
JP2013090193A (en) Video telephone system, and relay device and terminal device used for video telephone system
JP2006140596A (en) Communication terminal
KR100768666B1 (en) Method and system of video phone calling using talker sensitive avata