JP6268510B2 - COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM - Google Patents

COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM Download PDF

Info

Publication number
JP6268510B2
JP6268510B2 JP2013122481A JP2013122481A JP6268510B2 JP 6268510 B2 JP6268510 B2 JP 6268510B2 JP 2013122481 A JP2013122481 A JP 2013122481A JP 2013122481 A JP2013122481 A JP 2013122481A JP 6268510 B2 JP6268510 B2 JP 6268510B2
Authority
JP
Japan
Prior art keywords
speaker
image
size
site
sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013122481A
Other languages
Japanese (ja)
Other versions
JP2014241468A (en
Inventor
智幸 後藤
智幸 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2013122481A priority Critical patent/JP6268510B2/en
Priority to US14/290,031 priority patent/US9288437B2/en
Publication of JP2014241468A publication Critical patent/JP2014241468A/en
Application granted granted Critical
Publication of JP6268510B2 publication Critical patent/JP6268510B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、通信装置、通信方法及びプログラムに係り、更に詳しくは、少なくとも3つの拠点間での通信網を介した画像及び音声の送受信による情報共有に用いられる通信装置、通信方法及び前記通信装置で使用されるプログラムに関する。   The present invention relates to a communication device, a communication method, and a program. More specifically, the present invention relates to a communication device, a communication method, and the communication device used for information sharing by transmitting and receiving images and sounds via a communication network between at least three bases. Relates to the program used in

従来、少なくとも3つの拠点間での通信網を介した画像及び音声の送受信によるテレビ会議(情報共有)を行うために任意の一拠点で用いられるテレビ会議端末装置が知られている(例えば特許文献1参照)。   2. Description of the Related Art Conventionally, there is known a video conference terminal device used at any one site for performing a video conference (information sharing) by transmitting and receiving images and sounds via a communication network between at least three sites (for example, Patent Documents). 1).

このテレビ会議端末装置では、発話者がいない少なくとも1つの他拠点から送られてくる画像を所定サイズでディスプレイに表示し、発話者がいる1つの他拠点から送られてくる画像を前記所定サイズよりも大きい拡大サイズでディスプレイに表示する。   In this video conference terminal device, an image sent from at least one other site where there is no speaker is displayed on the display in a predetermined size, and an image sent from one other site where the speaker is present is made larger than the predetermined size. Is also displayed on the display in a larger enlarged size.

しかしながら、特許文献1に開示されているテレビ会議端末装置では、複数の他拠点に発話者がいるとき、該発話者を容易に認識することができなかった。   However, in the video conference terminal device disclosed in Patent Document 1, when a speaker is present at a plurality of other bases, the speaker cannot be easily recognized.

本発明は、少なくとも3つの拠点間での通信網を介した画像及び音声の送受信による情報共有を行うために任意の一拠点で用いられる通信装置であって、前記一拠点と異なる少なくとも2つの他拠点から前記通信網を介して個別に送られてくる少なくとも2つの音声に関する情報に基づいて、前記他拠点における発話者の有無を判定する判定手段と、前記判定手段で発話者がいないと判定された他拠点から前記通信網を介して送られてくる画像を所定サイズで表示面に表示し、前記判定手段で発話者がいると判定された他拠点から前記通信網を介して送られてくる画像を前記所定サイズよりも大きい拡大サイズで前記表示面に表示する表示手段と、を備え、前記判定手段は、前記少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき、該他拠点に発話者がいると判定し、前記表示手段は、前記判定手段で複数の他拠点に発話者がいると判定されたとき、前記複数の他拠点から前記通信網を介して個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示し、発話者がいると判定された前記複数の他拠点からの画像のうち、現に発話している発話者がいる他拠点からの画像を前記所定サイズよりも大きい第1の拡大サイズで表示し、発話を中断中の発話者がいる他拠点からの画像を前記第1の拡大サイズよりも小さく前記所定サイズよりも大きい第2の拡大サイズで表示する通信装置である。 The present invention is a communication apparatus used at any one site for sharing information by transmitting and receiving images and sounds via a communication network between at least three sites, and at least two other devices different from the one site Based on information on at least two voices individually transmitted from the base via the communication network, a determination unit that determines the presence or absence of a speaker at the other base, and the determination unit determines that there is no speaker The image sent from the other site via the communication network is displayed on the display screen in a predetermined size, and sent from the other site determined by the judging means that the speaker is present via the communication network. display means for displaying an image on the display surface at a greater enlargement in size than the predetermined size, the said determination means, said at least two other base volume level at each threshold or higher When that condition is considered to have continued for the predetermined time, determines that there is a speaker in said other bases, the display means has been determined that there is a speaker in a plurality of other locations in the determination unit The plurality of other sites that are individually transmitted via the communication network from the plurality of other sites and are displayed together on the display surface in the enlarged size, and the plurality of other sites determined to have a speaker. Of images from other sites where the speaker who is currently speaking is displayed in a first enlarged size larger than the predetermined size, and images from other sites where the speaker is suspended Is displayed in a second enlarged size smaller than the first enlarged size and larger than the predetermined size .

これによれば、複数の他拠点に発話者がいるとき、該発話者を容易に認識することができる。   According to this, when a speaker is present at a plurality of other bases, the speaker can be easily recognized.

一実施形態に係る会議システムの構成を示す図である。It is a figure which shows the structure of the conference system which concerns on one Embodiment. 図2(A)及び図2(B)は、それぞれテレビ会議装置の基準形態における斜視図(その1及びその2)である。FIGS. 2A and 2B are perspective views (No. 1 and No. 2), respectively, in the reference form of the video conference apparatus. テレビ会議装置の基準形態における上面図である。It is a top view in the standard form of a video conference apparatus. テレビ会議装置の制御の構成を示すブロック図である。It is a block diagram which shows the structure of control of a video conference apparatus. テレビ会議装置の基準形態における側面図(その1)である。It is a side view (the 1) in the standard form of a video conference apparatus. テレビ会議装置の基準形態における側面図(その2)である。It is a side view (the 2) in the standard form of a video conference apparatus. テレビ会議装置の基準状態における下面図である。It is a bottom view in the standard state of a video conference apparatus. テレビ会議装置の開き形態における側面図である。It is a side view in the opening form of a video conference apparatus. テレビ会議装置の最大開き形態における斜視図である。It is a perspective view in the maximum opening form of a video conference apparatus. 各拠点においてテレビ会議装置を用いて行われるテレビ会議の態様を示す図である。It is a figure which shows the aspect of the video conference performed using a video conference apparatus in each base. 他拠点からの画像をテレビ会議装置のディスプレイに表示する際に実行される一連の処理を説明するためのフローチャートである。It is a flowchart for demonstrating a series of processes performed when the image from another base is displayed on the display of a video conference apparatus. テレビ会議装置のディスプレイに、1つの他拠点からの画像が拡大サイズで表示され、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。It is a figure which shows the state by which the image from one other base is displayed on the display of a video conference apparatus by the enlarged size, and the image from the remaining other bases is displayed by the reduced size. テレビ会議装置のディスプレイに、2つの他拠点からの画像が拡大サイズで表示され、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。It is a figure which shows the state by which the image from two other bases is displayed on the display of a video conference apparatus by the enlarged size, and the image from the remaining other bases is displayed by the reduced size. テレビ会議装置のディスプレイに、3つの他拠点からの画像が拡大サイズで表示され、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。It is a figure which shows the state from which the image from three other bases are displayed by the enlarged size, and the image from the other other bases is displayed by the reduced size on the display of a video conference apparatus. テレビ会議装置のディスプレイに、全て(9つ)の他拠点からの画像が縮小サイズで表示されている状態を示す図である。It is a figure which shows the state in which the image from all the other bases is displayed on the display of a video conference apparatus by the reduced size. 図16(A)及び図16(B)は、それぞれ比較例のテレビ会議装置のディスプレイに1つの他拠点からの画像が拡大サイズで表示され、かつ残りの他拠点からの画像が縮小サイズで表示されている状態を示す図(その1及びその2)である。FIG. 16A and FIG. 16B each show an image from one other site in an enlarged size on the display of the video conference apparatus of the comparative example, and images from the remaining other sites in a reduced size. It is a figure (the 1 and the 2) which shows the state currently performed. テレビ会議装置のディスプレイに、拡大サイズで表示されている1つの他拠点からの画像が拡大され、拡大サイズで表示されている別の1つの他拠点からの画像が縮小され、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。The image from one other site displayed in the enlarged size is enlarged on the display of the video conference apparatus, the image from another one site displayed in the enlarged size is reduced, and the image from the other other site is displayed. It is a figure which shows the state by which the image of 1 is displayed by reduction size. テレビ会議装置のディスプレイに、拡大サイズで表示されている1つの他拠点からの画像が拡大され、拡大サイズで表示されている別の3つの他拠点からの画像が縮小され、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。The image from one other site displayed in the enlarged size is enlarged on the display of the video conference apparatus, the images from the other three other sites displayed in the enlarged size are reduced, and the image from the other other sites is displayed. It is a figure which shows the state by which the image of 1 is displayed by reduction size. 図19(A)〜図19(C)は、それぞれテレビ会議装置のディスプレイに、2つの他拠点からの画像が同じ大きさの拡大サイズで表示され、該2つの他拠点を識別するための処理がなされ、残りの他拠点からの画像が縮小サイズで表示されている状態を示す図である。19A to 19C each show a process for identifying images from two other bases on the display of the video conference apparatus in the same size and having the same size. FIG. 7 is a diagram illustrating a state in which images from other remaining bases are displayed in a reduced size.

以下、一実施形態を図1〜図15に基づいて説明する。図1には、一実施形態に係る通信システムの一例としての会議システム1000が概略的に示されている。この会議システム1000は、少なくとも3つの拠点(例えば10拠点)間でのネットワーク(通信網)、例えばインターネットを介したテレビ会議(情報共有)に用いられる。ここで、テレビ会議とは、動画像と音声を利用して情報共有を図るシステムである。   Hereinafter, an embodiment will be described with reference to FIGS. FIG. 1 schematically shows a conference system 1000 as an example of a communication system according to an embodiment. The conference system 1000 is used for a video conference (information sharing) via a network (communication network) between at least three sites (for example, 10 sites), for example, the Internet. Here, the video conference is a system for sharing information using moving images and sound.

会議システム1000は、図1に示されるように、一例として、複数(例えば10個)の通信装置としてのテレビ会議装置100を含んで構成されている。   As shown in FIG. 1, the conference system 1000 includes, for example, a video conference apparatus 100 as a plurality of (for example, 10) communication apparatuses.

10個のテレビ会議装置100は、一例として、実質的に同一の構成及び機能を有しており、インターネットを介して双方向で通信可能に接続される。   As an example, the ten video conference apparatuses 100 have substantially the same configuration and function, and are connected to be able to communicate bidirectionally via the Internet.

図2(A)及び図2(B)には、テレビ会議装置100の一形態(以下では、基準形態と称する)を異なる方向から見た外観が斜視図にて示されている。   FIGS. 2A and 2B are perspective views showing an appearance of one form (hereinafter referred to as a reference form) of the video conference apparatus 100 viewed from different directions.

テレビ会議装置100は、図2(A)及び図2(B)に示されるように、基準形態では、全体として、例えばA4版サイズの略矩形平板状の外形(例えば厚さが20mm〜40mm)を有している。   As shown in FIGS. 2 (A) and 2 (B), the video conference apparatus 100 as a whole has, for example, a substantially rectangular plate-like outer shape (for example, a thickness of 20 mm to 40 mm) of A4 size as a whole. have.

このように、テレビ会議装置100は、基準形態において、薄型コンパクトになるように設計されている。また、テレビ会議装置100は、後に詳述するように、基準形態と、例えば机、テーブル等の上面(載置面)上に載置された状態での使用に適した開き形態との間で形態を移行させることができる。   Thus, the video conference apparatus 100 is designed to be thin and compact in the standard form. Further, as will be described in detail later, the video conference apparatus 100 is between a reference form and an open form suitable for use in a state of being placed on an upper surface (mounting surface) such as a desk or table. The form can be shifted.

図3には、基準形態のテレビ会議装置100が、水平な載置面上に載置された状態が示されている。以下、テレビ会議装置100の長手方向をX軸方向、水平面内でX軸方向に直交する方向をY軸方向、X軸方向及びY軸方向のいずれにも直交する方向(鉛直方向)をZ軸方向として説明する。また、テレビ会議装置100は、特に断りがない限り、基準形態になっているものとする。   FIG. 3 shows a state in which the video conference device 100 in the standard form is placed on a horizontal placement surface. Hereinafter, the longitudinal direction of the video conference apparatus 100 is the X axis direction, the direction orthogonal to the X axis direction in the horizontal plane is the Y axis direction, and the direction (vertical direction) orthogonal to any of the X axis direction and the Y axis direction is the Z axis. This will be described as a direction. Further, the video conference apparatus 100 is assumed to be in a reference form unless otherwise specified.

テレビ会議装置100は、図2(A)〜図3に示されるように、第1筐体10、第2筐体12、ディスプレイ14、電子カメラ16、スピーカ18、マイク20、制御装置24(図4参照)などを備えている。   As shown in FIGS. 2A to 3, the video conference apparatus 100 includes a first housing 10, a second housing 12, a display 14, an electronic camera 16, a speaker 18, a microphone 20, and a control device 24 (see FIG. 2). 4).

第1筐体10は、一例として、図2(A)及び図2(B)に示されるように、制御装置24が収容されている制御装置収容部10aと、複数の操作部材が設けられている操作パネル部10bとを有している。   As an example, as shown in FIGS. 2A and 2B, the first housing 10 includes a control device housing portion 10a in which the control device 24 is housed and a plurality of operation members. And an operation panel unit 10b.

制御装置24は、画像データ及び音声データをエンコード処理またはデコード処理をして、インターネットを介した画像及び音声の送受信を制御する。   The control device 24 encodes or decodes image data and audio data, and controls transmission and reception of images and audio via the Internet.

この制御装置24は、図4に示されるように、制御用基板としてのメインボード62、音声処理用及び操作用基板としてのサブボード63などを含む。   As shown in FIG. 4, the control device 24 includes a main board 62 as a control board, a sub board 63 as a voice processing and operation board, and the like.

メインボード62には、一例として、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)104、HDD(Hard Disk Drive)106(もしくはストレージまたは記録デバイス)、データ入出力I/F(Inter face)108、ネットワークI/F110、画像入力I/F112、音量レベル判断部160、表示処理部140及び画像出力I/F114の各構成要素が実装されている。CPU101、ROM102、RAM104、HDD106、データ入出力I/F108、ネットワークI/F110、画像入力I/F112及び音量レベル判断部160は、アドレスバス、データバス等のバスライン116を介して、双方向通信可能に接続されている。なお、上述した画像データは、動画または間欠画像(一定時間間隔の静止画像)のデータである。   As an example, the main board 62 includes a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 104, an HDD (Hard Disk Drive) 106 (or a storage or recording device), and data storage. Each component of an output I / F (Interface) 108, a network I / F 110, an image input I / F 112, a volume level determination unit 160, a display processing unit 140, and an image output I / F 114 is mounted. The CPU 101, ROM 102, RAM 104, HDD 106, data input / output I / F 108, network I / F 110, image input I / F 112, and volume level determination unit 160 communicate bidirectionally via a bus line 116 such as an address bus or a data bus. Connected as possible. Note that the above-described image data is data of moving images or intermittent images (still images with a fixed time interval).

CPU101は、所定のプログラム(テレビ会議装置用プログラム)に基づいてテレビ会議装置100全体の動作を制御する。なお、テレビ会議装置用プログラムに従ったCPU101の命令による、ネットワーク(例えばインターネット)を介した音声及び画像の双方向通信にかかる一連の動作は後述する。   The CPU 101 controls the overall operation of the video conference apparatus 100 based on a predetermined program (video conference apparatus program). A series of operations related to bidirectional communication of audio and images via a network (for example, the Internet) in accordance with a command from the CPU 101 according to the TV conference device program will be described later.

ROM102は、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムが記憶されている。RAM104は、CPU101のワークエリアとして使用される。   The ROM 102 stores a program used for driving the CPU 101 such as an IPL (Initial Program Loader). The RAM 104 is used as a work area for the CPU 101.

HDD106は、上記テレビ会議装置用プログラム、画像データ、音声データ等の各種データが記憶される。なお、HDD106に限らず、例えばSSD(Solid State Drive)等を用いてもよい。上記テレビ会議装置用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、例えば記録メディア等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、上記テレビ会議装置用プログラムは、HDD106ではなく、ROM102に記憶されるようにしてもよい。HDD106は、CPU101の制御にしたがってHDD106に対する各種データの読み出し又は書き込みを制御する。   The HDD 106 stores various data such as the video conference device program, image data, and audio data. In addition, not only HDD106 but SSD (Solid State Drive) etc. may be used, for example. The program for the video conference apparatus may be a file in an installable format or an executable format, and may be recorded and distributed on a computer-readable recording medium such as a recording medium. The video conference device program may be stored in the ROM 102 instead of the HDD 106. The HDD 106 controls reading or writing of various data with respect to the HDD 106 according to the control of the CPU 101.

データ入出力I/F108は、後述する複数のUSB端子に接続された例えばフラッシュメモリ等の記録メディアMに対するデータの読み出し又は書き込み(記憶)を制御するとともに、USB端子に接続された例えばPC(パーソナルコンピュータ)からのデータの他拠点のテレビ会議装置への送信を制御する。   The data input / output I / F 108 controls reading or writing (storage) of data with respect to a recording medium M such as a flash memory connected to a plurality of USB terminals, which will be described later, and for example a PC (personal computer) connected to the USB terminal. The transmission of data from the computer) to the video conference device at the other site is controlled.

記録メディアMは、複数のUSB端子のうちの一のUSB端子に着脱自在となっている。なお、例えば記録メディアMがSDメモリ、コンパクトフラッシュ(登録商標)などUSB端子に直接に着脱できないものであれば、USB端子にメモリ読書ドライブを着脱させるように構成しても良いし、別途に、テレビ会議装置100に予めメモリ読書ドライブを設けていても良い。また、記録メディアMとしては、CPU101の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリに限らず、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。   The recording medium M is detachably attached to one of the plurality of USB terminals. For example, if the recording medium M is an SD memory, a compact flash (registered trademark) or the like that cannot be directly attached to or detached from the USB terminal, the memory reading drive may be attached to or detached from the USB terminal. The video conference device 100 may be provided with a memory reading drive in advance. The recording medium M is not limited to a flash memory as long as it is a non-volatile memory that reads or writes data according to the control of the CPU 101, and may be an EEPROM (Electrically Erasable and Programmable ROM) or the like.

ネットワークI/F110は、後述するLAN端子38(例えばイーサネット(登録商標)端子)を含み、インターネットを介したデータ(画像データ及び音声データ)の入出力(送受信)を行う。なお、ネットワークI/F110としては、有線のLAN端子に接続可能なように設けても良いし、また、無線のLANに接続できる無線LANのネットワークI/Fであっても良い。   The network I / F 110 includes a LAN terminal 38 (for example, Ethernet (registered trademark) terminal) described later, and performs input / output (transmission / reception) of data (image data and audio data) via the Internet. The network I / F 110 may be provided so as to be connectable to a wired LAN terminal, or may be a wireless LAN network I / F that can be connected to a wireless LAN.

画像入力I/F112は、後述する電子カメラ16から出力される被写体の画像信号を所定の画像データとして取り込む。   The image input I / F 112 takes in an image signal of a subject output from an electronic camera 16 described later as predetermined image data.

音量レベル判断部160は、ネットワークI/F110を介して取り込まれた通信相手(他拠点)からの音声データの音量レベルが所定の閾値以上であるか否かを判断し、その判断結果を、表示処理部140に送る。   The volume level determination unit 160 determines whether or not the volume level of the voice data from the communication partner (other base) captured via the network I / F 110 is equal to or higher than a predetermined threshold, and displays the determination result. The data is sent to the processing unit 140.

表示処理部140は、後に詳述するように、音量レベル判断部160での判断結果に基づいて、ネットワークI/F110を介して取り込まれた他拠点からの画像データを画像としてディスプレイ14の表示面に表示すべきサイズ及び位置を設定し、該画像データを画像出力I/F114に送る。なお、本実施形態では、後に詳述するように、表示処理部140とCPU101とを含んで構成される表示手段によって、発話者がいない他拠点からの画像がディスプレイ14の表示面に縮小サイズ(所定サイズ)で表示され、発話者がいる他拠点からの画像が該縮小サイズよりも大きい拡大サイズで表示される。   As will be described in detail later, the display processing unit 140 uses the image data from another base captured via the network I / F 110 as an image based on the determination result of the volume level determination unit 160 as a display surface of the display 14. The size and position to be displayed are set, and the image data is sent to the image output I / F 114. In the present embodiment, as will be described in detail later, an image from another site where no speaker is present is reduced on the display surface of the display 14 by a display unit including the display processing unit 140 and the CPU 101. The image from the other site where the speaker is present is displayed in an enlarged size larger than the reduced size.

画像出力I/F114は、表示処理部140からの画像データをディスプレイ14で表示可能な画像信号に変換してディスプレイ14に出力する。この結果、ディスプレイ14の表示面には、該画像データに対応する画像が表示される。   The image output I / F 114 converts the image data from the display processing unit 140 into an image signal that can be displayed on the display 14 and outputs the image signal to the display 14. As a result, an image corresponding to the image data is displayed on the display surface of the display 14.

なお、上記画像信号としては、アナログRGB信号(VGA)、コンポーネントビデオ信号、HDMI(登録商標)(High―Definition Multimedia Interface)信号、DVI(Digital Video Interactive)信号が挙げられる。   Examples of the image signal include an analog RGB signal (VGA), a component video signal, an HDMI (registered trademark) (High-Definition Multimedia Interface) signal, and a DVI (Digital Video Interactive) signal.

サブボード63には、前述した複数の操作ボタンに対応する複数の操作端子118、音声入出力I/F120及び音声制御部122の各構成要素が実装されている。複数の操作端子118、音声制御部122は、バスライン116を介して、互いに双方向通信可能に接続され、かつメインボード62に実装されバスライン116を介して接続された上記各構成要素と双方向通信可能に接続されている。   On the sub board 63, the respective components of the plurality of operation terminals 118, the voice input / output I / F 120, and the voice control unit 122 corresponding to the plurality of operation buttons described above are mounted. The plurality of operation terminals 118 and the audio control unit 122 are connected to each other via the bus line 116 so as to be capable of bidirectional communication with each other, and are mounted on the main board 62 and connected via the bus line 116. It is connected so that it can communicate with the other.

音声入出力I/F120は、マイク20により入力された音声信号を所定の音声データとして取り込んで、該音声データを音声制御部122に送るとともに、ネットワークI/F110、音声制御部122を介して受信された他拠点からの音声データをスピーカ18で再生可能な音声信号に変換する。   The voice input / output I / F 120 takes in the voice signal input from the microphone 20 as predetermined voice data, sends the voice data to the voice control unit 122, and receives it through the network I / F 110 and the voice control unit 122. The voice data from the other site is converted into a voice signal that can be reproduced by the speaker 18.

音声制御部122は、後述する一対のボリュームボタン62a、62bが操作されるのに伴いスピーカ18から出力される音の音量を調整し、後述するマイクミュートボタン64が押し下げられる(ON/OFFされる)のに伴いマイク20による音の入力/非入力を切り替える。   The sound control unit 122 adjusts the volume of sound output from the speaker 18 when a pair of volume buttons 62a and 62b described later is operated, and a microphone mute button 64 described later is pressed down (ON / OFF). ), The sound input / non-input by the microphone 20 is switched.

また、音声制御部122は、他拠点のテレビ会議装置100との双方向通信時に、スピーカ18から出力された音がマイク20により入力され、該他拠点のテレビ会議装置100との間で音波のループを形成して発生するエコー、ハウリングを抑制するエコーキャンセル処理機能を有するとともに、例えば室内の空調の作動音などのマイク20で入力された音を低減させるノイズキャンセル処理機能を有する。   In addition, the voice control unit 122 receives sound output from the speaker 18 through the microphone 20 during bidirectional communication with the video conference device 100 at another site, and generates sound waves with the video conference device 100 at the other site. It has an echo cancellation processing function that suppresses echoes and howling that are generated by forming a loop, and a noise cancellation processing function that reduces sound input by the microphone 20 such as an operating sound of an indoor air conditioner.

制御装置収容部10aは、図5及び図6を総合すると分かるように、一例として、X軸方向を長手方向とする略矩形平板状の外形を有する箱形部分から成る。   As can be seen from a combination of FIGS. 5 and 6, the control device accommodating portion 10 a includes, as an example, a box-shaped portion having a substantially rectangular flat plate-like outer shape whose longitudinal direction is the X-axis direction.

また、図5に示されるように、制御装置収容部10aの+X側の側壁には、4つの開口が形成されており、該4つの開口には、それぞれメインボード62に実装されている通信用のLAN端子38、HDMI(登録商標)用の画像出力端子40、VGAの画像出力端子42、電源端子44(電源ジャック)が嵌め込まれている。画像出力端子40、42に代えて又は加えて、DVI―I端子、コンポーネント端子、D端子、S端子、コンポジット端子が設けられていても良い。   In addition, as shown in FIG. 5, four openings are formed in the side wall on the + X side of the control device housing portion 10a, and the four openings are for communication mounted on the main board 62, respectively. LAN terminal 38, HDMI (registered trademark) image output terminal 40, VGA image output terminal 42, and power terminal 44 (power jack) are fitted. Instead of or in addition to the image output terminals 40 and 42, a DVI-I terminal, a component terminal, a D terminal, an S terminal, and a composite terminal may be provided.

図6に示されるように、制御装置収容部10aの−Y側の側壁の−X側の端部には、一例として、2つの開口が形成されており、該2つの開口には、それぞれメインボード62に実装されているUSB端子28、30が嵌め込まれている。また、制御装置収容部10aの−Y側の側壁の+X側の端部には、一例として、3つの開口が形成されており、該3つの開口には、それぞれメインボード62に実装されているヘッドフォン接続用端子32、マイク接続用端子34、USB端子36が嵌め込まれている。   As shown in FIG. 6, as an example, two openings are formed at the −X side end of the −Y side side wall of the control device housing portion 10 a, and the two openings are respectively connected to the main opening. USB terminals 28 and 30 mounted on the board 62 are fitted. Also, as an example, three openings are formed at the + X side end of the −Y side side wall of the control device accommodating portion 10 a, and the three openings are respectively mounted on the main board 62. A headphone connection terminal 32, a microphone connection terminal 34, and a USB terminal 36 are fitted.

また、図7に示されるように、一例として、制御装置収容部10aの−Z側の壁(底壁)の4隅には、4つの開口が形成されており、該4つの開口には、外付け用のバッテリを接続するための、メインボード62に実装された4つのコネクタ46が嵌め込まれている。   Further, as shown in FIG. 7, as an example, four openings are formed in the four corners of the −Z side wall (bottom wall) of the control device housing portion 10 a, and the four openings include: Four connectors 46 mounted on the main board 62 for connecting an external battery are fitted.

操作パネル部10bは、図3、図5及び図6を総合すると分かるように、X軸方向を長手方向とする細長い略矩形平板状の外形を有する箱形部分から成り、制御装置収容部10aの−Y側の端部の+Z側の端に連続している。   As can be understood from FIG. 3, FIG. 5 and FIG. 6, the operation panel portion 10b is composed of a box-shaped portion having an elongated, substantially rectangular, flat plate shape whose longitudinal direction is the X-axis direction. It is continuous to the + Z side end of the −Y side end.

操作パネル部10bの+Z側の壁の−X側の領域には、図3に示されるように、一例として、5つの開口がX軸方向に並べて形成されており、該5つの開口には、5つの操作部材が個別に嵌め込まれている。これら5つの操作部材は、一例として、−X側から+X側にかけて順に、電源ボタン48、メニューボタン50、カーソル52、決定ボタン54、通信相手とのインターネット回線を切断するための切断ボタン56となっている。   As shown in FIG. 3, in the region on the −X side of the + Z side wall of the operation panel unit 10b, as an example, five openings are formed side by side in the X-axis direction. Five operation members are individually fitted. As an example, these five operation members are a power button 48, a menu button 50, a cursor 52, a decision button 54, and a disconnect button 56 for disconnecting the Internet line with the communication partner in order from the -X side to the + X side. ing.

電源ボタン48は、テレビ会議装置100に対する電源のON/OFFを行うための操作部材である。操作パネル部10bにおける電源ボタン48の近傍には、電源ON時に点灯する電源ランプ49が設けられている。   The power button 48 is an operation member for turning on / off the power to the video conference apparatus 100. In the vicinity of the power button 48 in the operation panel unit 10b, a power lamp 49 that is turned on when the power is turned on is provided.

メニューボタン50は、ディスプレイ14にメニュー画面を呼び出すための操作部材である。   The menu button 50 is an operation member for calling a menu screen on the display 14.

カーソル52は、ディスプレイ14に表示されるメニュー画面内に表示された項目を選択するための操作部材である。すなわち、カーソル52を操作することで、メニュー画面内の項目を選択できるようになっている。   The cursor 52 is an operation member for selecting an item displayed in the menu screen displayed on the display 14. That is, by operating the cursor 52, items in the menu screen can be selected.

決定ボタン54は、メニュー画面内において選択された項目を決定するための操作部材である。メニュー画面内において選択及び決定される項目としては、例えば、他の拠点のテレビ会議装置100の宛先などが挙げられる。   The determination button 54 is an operation member for determining an item selected on the menu screen. As an item selected and determined in the menu screen, for example, a destination of the video conference apparatus 100 at another base can be cited.

切断ボタン56は、通信相手のテレビ会議装置100とのインターネット回線を切断するための操作部材である。   The disconnect button 56 is an operation member for disconnecting the Internet line with the video conference device 100 of the communication partner.

操作パネル部10bの+Z側の壁の+X側の領域には、一例として、5つの開口がX軸方向に並べて形成されており、該5つの開口には、5つの操作部材が個別に嵌め込まれている。これら5つの操作部材は、一例として、−X側から+X側にかけて順に、ビュー切換ボタン58、明度調整ボタン60、一対のボリュームボタン62a、62b、マイクミュートボタン64となっている。   For example, in the + X side region of the + Z side wall of the operation panel unit 10b, five openings are formed side by side in the X-axis direction, and five operation members are individually fitted into the five openings. ing. As an example, these five operation members are a view switching button 58, a brightness adjustment button 60, a pair of volume buttons 62a and 62b, and a microphone mute button 64 in order from the -X side to the + X side.

ビュー切換ボタン58は、電子カメラ16によって取り込まれた画像のうち、他の拠点に送信する画像を切り換えるための操作部材である。すなわち、例えばある拠点に複数のユーザ(会議参加者)がいる場合に、ビュー切換ボタン58を押すことで、複数のユーザの少なくとも1人が選択的に表示された複数の画像のうちいずれかを他の拠点に送信することができる。   The view switching button 58 is an operation member for switching an image to be transmitted to another site among images captured by the electronic camera 16. That is, for example, when there are a plurality of users (conference participants) at a certain base, by pressing the view switching button 58, one of a plurality of images selectively displayed by at least one of the plurality of users is displayed. Can be sent to other locations.

明度調整ボタン60は、ディスプレイ14に表示される画像の明度を調整するための操作部材である。テレビ会議装置100の周囲の明るさに応じて明度調整ボタン60を適宜押圧することで、ディスプレイ14の画面の明るさを視認性の良い適切な明るさに調整することができる。ここでは、一例として、明度調整ボタン60で調整される明度がN段階(Nは、自然数)に設定されており、明度調整ボタン60が押圧される度に、明度が段階的に高く又は低くなり、明度調整ボタン60がN回押圧されると、元の明度に戻るようになっている。   The brightness adjustment button 60 is an operation member for adjusting the brightness of an image displayed on the display 14. By appropriately pressing the brightness adjustment button 60 according to the ambient brightness of the video conference apparatus 100, the brightness of the screen of the display 14 can be adjusted to an appropriate brightness with good visibility. Here, as an example, the lightness adjusted by the lightness adjustment button 60 is set to N levels (N is a natural number), and the lightness gradually increases or decreases each time the lightness adjustment button 60 is pressed. When the brightness adjustment button 60 is pressed N times, the original brightness is restored.

一対のボリュームボタン62a、62bは、スピーカ18から出力される音の音量を調整するための操作部材である。一対のボリュームボタン62a、62bのうち、−X側のボリュームボタン62aを押圧することで、上記音量を下げることができ、+X側のボリュームボタン62bを押圧することで、上記音量を上げることができる。   The pair of volume buttons 62 a and 62 b are operation members for adjusting the volume of the sound output from the speaker 18. The volume can be lowered by pressing the -X side volume button 62a of the pair of volume buttons 62a and 62b, and the volume can be raised by pressing the + X side volume button 62b. .

マイクミュートボタン64は、マイク20のON/OFFを切り替えるための操作部材である。なお、マイク20がONとは、マイク20を介して音声が入力される状態を意味し、マイク20がOFFとは、マイク20を介して音声が入力されない状態を意味する。   The microphone mute button 64 is an operation member for switching ON / OFF of the microphone 20. Note that when the microphone 20 is ON, it means a state in which sound is input via the microphone 20, and when the microphone 20 is OFF, it means a state where no sound is input via the microphone 20.

第2筐体12は、図2(A)及び図2(B)に示されるように、ディスプレイ14、電子カメラ16の一部、スピーカ18の一部、マイク20の一部が収容されている第1収容部12aと、電子カメラ16の残部(撮影レンズ16aを除く)、スピーカ18の残部、マイク20の残部が収容されている第2収容部12bとを有している。   As shown in FIGS. 2A and 2B, the second housing 12 accommodates the display 14, a part of the electronic camera 16, a part of the speaker 18, and a part of the microphone 20. It has the 1st accommodating part 12a, the 2nd accommodating part 12b in which the remainder (except the imaging lens 16a) of the electronic camera 16, the remainder of the speaker 18, and the remainder of the microphone 20 are accommodated.

第1収容部12aは、図3、図5及び図6を総合すると分かるように、X軸方向を長手方向とする略矩形平板状の外形を有する箱形部分から成り、制御装置収容部10aの+Z側であって、操作パネル部10bの+Y側に位置している。ここでは、一例として、テレビ会議装置100が基準形態のとき、第1収容部12aの−Z側の面は、制御装置収容部10aの+Z側の面に当接している。   As can be understood from FIGS. 3, 5, and 6, the first housing portion 12 a is composed of a box-shaped portion having a substantially rectangular flat plate-like outer shape whose longitudinal direction is the X-axis direction. It is on the + Z side and is located on the + Y side of the operation panel unit 10b. Here, as an example, when the video conference device 100 is in the reference form, the −Z side surface of the first housing portion 12a is in contact with the + Z side surface of the control device housing portion 10a.

第1収容部12a内のほぼ中央には、ディスプレイ14がXY平面に平行な状態で収容されている。   The display 14 is accommodated in a state parallel to the XY plane at the approximate center in the first accommodating portion 12a.

ディスプレイ14は、一例として、画像が表示される表示面を有する液晶パネルと、該液晶パネルを挟む位置に配置された2つの電極と、該2つの電極を挟む位置に配置された2つの偏光板とを含む液晶構造体、及び該液晶構造体の一側に配置されたバックライトを含み、全体として、平板状の外形を有している。すなわち、ディスプレイ14は、いわゆる液晶ディスプレイである。   As an example, the display 14 includes a liquid crystal panel having a display surface on which an image is displayed, two electrodes disposed at a position sandwiching the liquid crystal panel, and two polarizing plates disposed at a position sandwiching the two electrodes. And a backlight disposed on one side of the liquid crystal structure, and has a flat plate-like outer shape as a whole. That is, the display 14 is a so-called liquid crystal display.

第1収容部12aの+Z側の面には、一例として、ディスプレイ14よりも一回り以上大きな矩形開口が形成されており、該矩形開口には、強化プラスチックからなるカバーパネル26が嵌め込まれている。すなわち、ディスプレイ14は、カバーパネル26によって+Z側から覆われている。カバーパネル26は、ディスプレイ14に対応(対向)する部分が透明となっており、該部分を取り囲む部分が例えば黒色となっている。以下では、カバーパネル26の透明部分をクリアパネル部CPと称し、カバーパネル26の黒色部分をブラックパネル部BPと称する。この場合、ディスプレイ14の液晶パネルは、+Z側からクリアパネル部CPを介して視認可能となっている。   As an example, a rectangular opening that is one or more times larger than the display 14 is formed on the surface on the + Z side of the first housing portion 12a, and a cover panel 26 made of reinforced plastic is fitted into the rectangular opening. . That is, the display 14 is covered from the + Z side by the cover panel 26. The cover panel 26 has a transparent portion corresponding to (opposed to) the display 14, and a portion surrounding the portion is, for example, black. Hereinafter, the transparent portion of the cover panel 26 is referred to as a clear panel portion CP, and the black portion of the cover panel 26 is referred to as a black panel portion BP. In this case, the liquid crystal panel of the display 14 is visible through the clear panel portion CP from the + Z side.

第2収容部12bは、図5及び図6を総合すると分かるように、X軸方向を長手方向とする略矩形平板状の箱形部分から成り、第1収容部12aの+Y側の端部の−Z側の端に連続している。すなわち、第2収容部12bは、第1収容部12aの−Z側の端よりも−Z側に突出している。   As can be understood from FIGS. 5 and 6, the second housing portion 12 b is composed of a substantially rectangular plate-like box-shaped portion whose longitudinal direction is the X-axis direction, and the end portion on the + Y side of the first housing portion 12 a. It continues to the end on the -Z side. That is, the 2nd accommodating part 12b protrudes in the -Z side rather than the -Z side end of the 1st accommodating part 12a.

図3、図5及び図6を総合すると分かるように、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間のX軸方向の中央部には、電子カメラ16の撮影レンズ16aを除く部分が収容されており、撮影レンズ16aはブラックパネル部BPに形成された開口から第2筐体12の外部に突出している。   As shown in FIG. 3, FIG. 5, and FIG. 6, an electronic camera is provided at the center in the X-axis direction of the space formed by the + Y side end of the first housing portion 12 a and the second housing portion 12 b. A portion excluding the 16 photographing lenses 16 a is accommodated, and the photographing lens 16 a protrudes outside the second housing 12 from an opening formed in the black panel portion BP.

撮影レンズ16aとしては、一例として、X軸方向の視野角が170°で、Y軸方向の視野角が135°の略半球形状の広角レンズが用いられている。   As the photographic lens 16a, for example, a substantially hemispherical wide-angle lens having a viewing angle in the X-axis direction of 170 ° and a viewing angle in the Y-axis direction of 135 ° is used.

図3、図5及び図6に示されるように、ブラックパネル部BPにおける撮影レンズ16aの+Y側近傍及び−Y側近傍には、撮影レンズ16aを保護するための一対のレンズ保護用突起66a、66bが突設されている。各レンズ保護用突起の外側の面は、湾曲面で構成されており、手指などが触れても、怪我をしないようになっている。   As shown in FIGS. 3, 5, and 6, a pair of lens protection protrusions 66 a for protecting the photographing lens 16 a are provided near the + Y side and the −Y side of the photographing lens 16 a in the black panel portion BP. 66b protrudes. The outer surface of each lens protection projection is formed of a curved surface so that it will not be injured when touched by a finger or the like.

電子カメラ16は、撮影レンズ16aを介して被写体(例えばユーザ、書画等)の画像を取り込み、取り込まれた画像を画像信号(電気信号)に変換して画像入力I/F112に出力する(図4参照)。電子カメラ16の撮像素子としては、一例として、CCD、CMOSなどが用いられている。   The electronic camera 16 captures an image of a subject (for example, a user, a document, etc.) through the photographing lens 16a, converts the captured image into an image signal (electric signal), and outputs the image signal to the image input I / F 112 (FIG. 4). reference). As an example of the image pickup device of the electronic camera 16, a CCD, a CMOS, or the like is used.

また、図3に示されるように、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間の−X側の端部には、スピーカ18が、音声出力方向が概ね+Z方向となるように配置されている。   Also, as shown in FIG. 3, a speaker 18 is connected to the sound output direction at the −X side end of the space formed by the + Y side end of the first storage portion 12a and the second storage portion 12b. Are arranged in the + Z direction.

ここでは、スピーカ18として、例えばフルレンジタイプの丸型のものが採用されているが、その他のものでも良い。スピーカ18は、音声入出力I/F120に結線されており、該音声入出力I/F120から送信される音声信号を音声として出力する(図4参照)。   Here, as the speaker 18, for example, a full range type round shape is adopted, but other types may be used. The speaker 18 is connected to the voice input / output I / F 120, and outputs a voice signal transmitted from the voice input / output I / F 120 as voice (see FIG. 4).

ブラックパネル部BPにおけるスピーカ18に対応する部分には、スピーカ18から出力された音声を外部に放出するための、複数の小さな貫通孔を含んで構成される音声放出口68が形成されている(図3参照)。   In a portion corresponding to the speaker 18 in the black panel portion BP, a sound emission port 68 configured to include a plurality of small through holes for discharging sound output from the speaker 18 to the outside is formed ( (See FIG. 3).

また、第1収容部12aの+Y側の端部と第2収容部12bとで形成される空間における電子カメラ16の+X側の領域には、マイク20が、音声入力方向が概ね−Z方向となるように配置されている。   In addition, in the space on the + X side of the electronic camera 16 in the space formed by the + Y side end of the first housing portion 12a and the second housing portion 12b, the microphone 20 has a voice input direction approximately in the −Z direction. It is arranged to be.

ここでは、マイク20として、例えば小型の無指向性のものが採用されているが、指向性を有するものを用いても良い。マイク20は、音声入出力I/F120に結線されており、入力した音声を音声信号として音声入出力I/F120に送信する(図4参照)。   Here, for example, a small omnidirectional microphone is adopted as the microphone 20, but a microphone having directivity may be used. The microphone 20 is connected to the voice input / output I / F 120 and transmits the input voice to the voice input / output I / F 120 as a voice signal (see FIG. 4).

ブラックパネル部BPのマイク20に対応する部分には、マイク20を介して入力される音声を取り込むための、少なくとも1つの小さな貫通孔を含んで構成される音声取込口70が形成されている。   A portion corresponding to the microphone 20 of the black panel portion BP is formed with a sound intake port 70 including at least one small through hole for capturing sound input via the microphone 20. .

また、ブラックパネル部BPの−X側かつ−Y側の角部には、外付け用バッテリの充電量の残量を表示する残量ランプ72、インターネット回線の接続状況を表示する回線ランプ74が設けられている。   Further, at the -X side and -Y side corners of the black panel portion BP, there are a remaining amount lamp 72 that displays the remaining amount of charge of the external battery, and a line lamp 74 that displays the connection status of the Internet line. Is provided.

以下では、図8に示されるように、X軸に直交し、かつカバーパネル26に平行な軸をα軸、X軸及びα軸に直交する軸をβ軸と称して説明する。そこで、テレビ会議装置100が基準形態のとき、α軸は、Y軸に一致し、β軸は、Z軸に一致する。   Hereinafter, as shown in FIG. 8, an axis orthogonal to the X axis and parallel to the cover panel 26 is referred to as an α axis, and an axis orthogonal to the X axis and the α axis is referred to as a β axis. Therefore, when the video conference apparatus 100 is in the reference form, the α axis coincides with the Y axis, and the β axis coincides with the Z axis.

ここで、第1収容部12aの−Y側の端部、すなわち−α側の端部は、X軸方向を軸方向とするトルクヒンジ(不図示)を介して第1筐体10に接続されている。そして、ディスプレイ14の液晶パネルは、+β側から視認可能であり、撮影レンズ16aは+β側に露出し、スピーカ18の音声出力方向は、概ね+β側となり、マイクの音声入力方向は、概ね−β側となる。   Here, the end portion on the −Y side of the first housing portion 12a, that is, the end portion on the −α side, is connected to the first housing 10 via a torque hinge (not shown) whose axial direction is the X-axis direction. ing. The liquid crystal panel of the display 14 is visible from the + β side, the photographing lens 16a is exposed to the + β side, the sound output direction of the speaker 18 is approximately + β side, and the sound input direction of the microphone is approximately −β. On the side.

すなわち、第2筐体12は、上記トルクヒンジの作用により、X軸周りに関して、第1筐体10に当接する当接位置(図5及び図6参照)と第1筐体10から離間する離間位置(図8参照)との間をX軸周りに相対回動可能となっている。そこで、以下では、第2筐体12が離間位置に位置するときのテレビ会議装置100の形態を、開き形態とも称する。   That is, the second housing 12 is separated from the first housing 10 by a contact position (see FIGS. 5 and 6) where the second housing 12 is in contact with the first housing 10 around the X axis. It can be rotated relative to the position (see FIG. 8) about the X axis. Therefore, in the following, the form of the video conference apparatus 100 when the second housing 12 is located at the separated position is also referred to as an open form.

第2筐体12の第1筐体10に対するX軸周りの回動角度θは、テレビ会議装置100が基準形態のとき、すなわち第2筐体12が当接位置に位置するときをθ=0°とすると、例えば0°≦θ≦90°に設定されている。図9では、θ=90°であり、テレビ会議装置100は、最大開き形態になっている。そして、上記トルクヒンジの作用により、第2筐体12を第1筐体10に対してX軸周りの回動角度θの位置でホールドできるようになっている。なお、第2筐体12が当接位置に位置するときのテレビ会議装置100の形態が基準形態である。そこで、以下では、基準形態を、閉じ形態とも称する。   The rotation angle θ around the X axis of the second housing 12 with respect to the first housing 10 is θ = 0 when the video conference apparatus 100 is in the reference form, that is, when the second housing 12 is located at the contact position. For example, 0 ° ≦ θ ≦ 90 ° is set. In FIG. 9, θ = 90 °, and the video conference apparatus 100 is in the maximum opening form. The second casing 12 can be held at a rotational angle θ around the X axis with respect to the first casing 10 by the action of the torque hinge. In addition, the form of the video conference apparatus 100 when the 2nd housing | casing 12 is located in a contact position is a reference | standard form. Therefore, hereinafter, the reference form is also referred to as a closed form.

以上のように構成される会議システム1000を用いるテレビ会議の一例を、以下に説明する。ここでは、テレビ会議は、例えば10拠点間で、各拠点に配置されたテレビ会議装置100を用いて行われる(図1参照)。各拠点のユーザ(会議参加者)の人数は、例えば1人とされている。   An example of a video conference using the conference system 1000 configured as described above will be described below. Here, the video conference is performed using, for example, the video conference apparatus 100 arranged at each site between 10 sites (see FIG. 1). The number of users (conference participants) at each site is, for example, one.

各拠点のユーザは、図10に示されるように、例えば一室に配置されたテーブルTの−Y側にテーブルT側を向いた状態で着座する。   As shown in FIG. 10, the user at each base is seated with the table T side facing the -Y side of the table T arranged in one room, for example.

ユーザは、テレビ会議装置100を、操作パネル部10bが手前側(−Y側)に位置するようにテーブルTの上面に例えば基準形態のまま載置し、第1筐体10に対して第2筐体12をX軸周りに角度φ(例えば60°≦φ≦90°)だけ回動させる。この結果、ディスプレイ14は、第1筐体10を台座として概ね−Y側を向いて起立した状態、すなわち表示面が−Y側から視認可能な状態となる。また、この状態では、撮影レンズ16a、スピーカ18及びマイク20が着座したユーザの顔の高さと概ね同じ高さに位置する。さらに、この状態では、撮影レンズ16aは概ね−Y側に向き、スピーカ18の音声出力方向は概ね−Y側となり、マイクの音声入力方向は概ね+Y側となる。   The user places the video conference device 100 on the upper surface of the table T, for example, in the standard form so that the operation panel unit 10b is positioned on the near side (−Y side), and the second state with respect to the first housing 10. The housing 12 is rotated around the X axis by an angle φ (for example, 60 ° ≦ φ ≦ 90 °). As a result, the display 14 is in a state in which the first casing 10 is pedestal and stands substantially facing the −Y side, that is, the display surface is visible from the −Y side. Further, in this state, the photographing lens 16a, the speaker 18 and the microphone 20 are located at substantially the same height as the height of the user's face. Further, in this state, the photographing lens 16a is generally directed to the -Y side, the sound output direction of the speaker 18 is approximately the -Y side, and the sound input direction of the microphone is approximately the + Y side.

また、ユーザは、テレビ会議装置100のテーブルT上への載置に併せて、テレビ会議装置100に対する電気及び通信に関する配線の接続(例えば、LAN端子38とインターネットに接続される端子との結線、電源端子44と外部電源との結線等)を行う。   In addition to the placement of the video conference apparatus 100 on the table T, the user can connect wiring related to electricity and communication to the video conference apparatus 100 (for example, connection between the LAN terminal 38 and a terminal connected to the Internet, The power terminal 44 and the external power source are connected).

次いで、ユーザは、電源ボタン48を押してテレビ会議装置100を起動させる。このとき、ディスプレイ14にメニュー画面が表示される。このメニュー画面は、各種調整、会議の開始(双方向通信の開始)等の各項目がアイコンと文字情報で表示される。そこで、ユーザは、カーソル52を操作して、上記メニュー画面上の会議の開始に関する項目を選択し、決定ボタン54を押して、会議の開始を決定する。   Next, the user presses the power button 48 to activate the video conference device 100. At this time, a menu screen is displayed on the display 14. In this menu screen, various items such as various adjustments, start of a conference (start of bidirectional communication), and the like are displayed with icons and text information. Therefore, the user operates the cursor 52 to select an item related to the start of the conference on the menu screen, and presses the determination button 54 to determine the start of the conference.

会議の開始が決定されると、任意の一拠点のテレビ会議装置100のディスプレイ14のメニュー画面に9つの他拠点の宛先リストが表示され、一拠点のユーザは、カーソル52を操作して、上記宛先リストからテレビ会議(双方向通信)を行いたい他拠点を選択して、決定ボタン54を押して決定する。ここでは、9つの他拠点が選択され、決定される。この結果、一拠点のテレビ会議装置100から9つの他拠点のテレビ会議装置100へ双方向通信の要求が送信される。   When the start of the conference is determined, the destination list of nine other sites is displayed on the menu screen of the display 14 of the video conference device 100 at any one site, and the user at one site operates the cursor 52 to From the destination list, another site where a video conference (two-way communication) is to be performed is selected, and the decision button 54 is pressed to decide. Here, nine other bases are selected and determined. As a result, a request for bidirectional communication is transmitted from the video conference device 100 at one site to the video conference devices 100 at nine other sites.

各他拠点のテレビ会議装置100では、その双方向通信の要求が着信すると、その要求の容認及び拒否それぞれに関する項目を、ディスプレイ14に表示されたメニュー画面上に表示する。   When the two-way communication request arrives, the video conference apparatus 100 at each other site displays items relating to the acceptance and rejection of the request on the menu screen displayed on the display 14.

そこで、各他拠点のユーザは、該他拠点のテレビ会議装置100のカーソル52及び決定ボタン54を操作することにより、上記容認及び拒否それぞれに関する項目のうちのいずれかを選択、決定する。ここでは、容認に関する項目が選択、決定され、この結果、10個のテレビ会議装置100は、インターネットを介して互いに双方向通信可能に接続される。   Therefore, the user at each other site operates the cursor 52 and the determination button 54 of the video conference apparatus 100 at the other site to select and determine any of the items regarding the acceptance and rejection. Here, the items relating to acceptance are selected and determined, and as a result, the ten video conference apparatuses 100 are connected to each other via the Internet so as to be capable of bidirectional communication.

10個のテレビ会議装置100間で双方向通信が開始されると、任意の一拠点のテレビ会議装置100の電子カメラ16で取り込まれた該一拠点のユーザの画像がインターネットを介して9つの他拠点のテレビ会議装置100に送信され、該テレビ会議装置100のディスプレイ14に表示される。   When two-way communication is started between the ten video conference apparatuses 100, the image of the user at one site captured by the electronic camera 16 of the video conference apparatus 100 at any one site is displayed via the Internet. The video is transmitted to the video conference device 100 at the base and displayed on the display 14 of the video conference device 100.

また、任意の一拠点のテレビ会議装置100のマイク20で取り込まれた該一拠点のユーザの音声が、インターネットを介して9つの他拠点のテレビ会議装置100に送信され、該テレビ会議装置100のスピーカ18から出力される。   In addition, the voice of the user at the one location captured by the microphone 20 of the video conference device 100 at any one location is transmitted to the nine video conference devices 100 at other locations via the Internet. Output from the speaker 18.

このようにして、10拠点間での画像及び音声の双方向通信によるテレビ会議が行われる。   In this manner, a video conference is performed between the 10 sites by bidirectional image and audio communication.

ところで、一般に、テレビ会議装置では、複数の他拠点からの画像を表示装置(例えばモニタ)の画面に同時に視認可能に表示させる必要があり、拠点数が多くなるほど、モニタの画面に表示する各他拠点からの画像の大きさを小さくする必要がある。この場合、該画像を視認し難く、発話者がいる他拠点を音声のみによって認識することは必ずしも容易でないため、該画像を視認し易くすることが望まれる。また、複数の他拠点それぞれに発話者がいる場合、すなわち複数の他拠点同士が会話状態にある場合、いずれの他拠点同士が会話状態にあるかを視認し易くすることも望まれる。さらに、テレビ会議が会議記録として媒体に録画録音され、例えばテレビ会議に参加しなかった者等が該媒体を再生して視聴する際に、場の雰囲気をつかみ易くするため、発話者がいる拠点を視認し易くすることが望まれる。   By the way, in general, in a video conference apparatus, it is necessary to display images from a plurality of other bases on the screen of a display device (for example, a monitor) so as to be visible at the same time. It is necessary to reduce the size of the image from the base. In this case, it is difficult to visually recognize the image, and it is not always easy to recognize the other site where the speaker is present only by voice. Therefore, it is desirable to make the image easily visible. In addition, when there are speakers at each of a plurality of other bases, that is, when a plurality of other bases are in a conversation state, it is also desirable to make it easy to visually recognize which other bases are in a conversation state. In addition, the location where the speaker is located in order to make it easier to grasp the atmosphere of the place when a video conference is recorded and recorded on a medium as a conference record, for example, when a person who has not participated in the video conference plays and views the medium. It is desirable to make it easy to visually recognize the above.

そこで、テレビ会議装置100では、図11に示される制御(一連の処理)が行われる。図11のフローチャートは、CPU101の処理アルゴリズムに対応している。この制御について、以下に詳細に説明する。   Therefore, in the video conference apparatus 100, the control (a series of processes) shown in FIG. 11 is performed. The flowchart in FIG. 11 corresponds to the processing algorithm of the CPU 101. This control will be described in detail below.

最初のステップS1では、少なくとも1つの他拠点からの画像データ及び音声データを受信しているか否かが判断される。ネットワークI/F110で少なくとも1つの他拠点からの画像データ及び音声データが受信されていれば、ステップS1での判断は肯定され、ステップS3に移行する。一方、ネットワークI/F110で他拠点からの画像データ及び音声データが受信されていなければ、ステップS1での判断が否定され、フローは終了する。なお、CPU101は、ネットワークI/F110での画像データ及び音声データの受信状況を常時監視している。   In the first step S1, it is determined whether image data and audio data from at least one other site have been received. If the network I / F 110 has received image data and audio data from at least one other site, the determination in step S1 is affirmed and the process proceeds to step S3. On the other hand, if the network I / F 110 has not received image data and audio data from another site, the determination in step S1 is denied and the flow ends. Note that the CPU 101 constantly monitors the reception status of image data and audio data in the network I / F 110.

ステップS3では、音量レベル判断部160での判断結果に基づいて、音量レベルが所定の閾値以上の他拠点があるか否か、すなわち少なくとも1つの他拠点からの音声データの音量レベルが該閾値以上であるか否かが判断される。この閾値は、各拠点における発言者の有無を判定するための指標(基準)となる値である。ステップS3での判断が肯定されると、ステップS5に移行する。一方、ステップS3での判断が否定されると、ステップS17に移行する。   In step S3, based on the determination result of the volume level determination unit 160, whether or not there is another site whose volume level is equal to or higher than a predetermined threshold value, that is, the volume level of audio data from at least one other site is equal to or higher than the threshold value. It is determined whether or not. This threshold is a value that serves as an index (reference) for determining the presence or absence of a speaker at each site. If the determination in step S3 is affirmed, the process proceeds to step S5. On the other hand, if the determination in step S3 is negative, the process proceeds to step S17.

ステップS5では、所定時間(例えば数秒〜数十秒)が経過したか否かが判断される。ステップS5での判断が肯定されると、ステップS7に移行する。一方、ステップS5での判断が否定されると、同じ判断が繰り返される。なお、ここでの計時は、例えば制御装置24が有するタイマを用いて行われる。   In step S5, it is determined whether a predetermined time (for example, several seconds to several tens of seconds) has elapsed. If the determination in step S5 is affirmed, the process proceeds to step S7. On the other hand, if the determination in step S5 is negative, the same determination is repeated. In addition, the time measurement here is performed using the timer which the control apparatus 24 has, for example.

ステップS7では、音量レベル判断部160での判断結果に基づいて、音量レベルが上記閾値以上の他拠点があるか否か、すなわち少なくとも1つの他拠点からの音声データの音量レベルが該閾値以上であるか否かが判断される。ステップS7での判断が肯定されると、ステップS8に移行する。一方、ステップS7での判断が否定されると、ステップS17に移行する。   In step S7, based on the determination result in the volume level determination unit 160, whether or not there is another site whose volume level is equal to or higher than the threshold value, that is, the volume level of the audio data from at least one other site is equal to or higher than the threshold value. It is determined whether or not there is. If the determination in step S7 is affirmative, the process proceeds to step S8. On the other hand, if the determination in step S7 is negative, the process proceeds to step S17.

ステップS8では、ステップS7の判断時点で音量レベルが上記閾値以上の他拠点のうち少なくとも1つの他拠点の音量レベルが上記所定時間継続して該閾値以上であるか否か、すなわちステップS7の判断時点で音量レベルが該閾値以上の他拠点の音量レベルがステップS3の判断時点でも該閾値以上であったか否かが判断される。ステップS8での判断が肯定されると、ステップS9に移行する。一方、ステップS8での判断が否定されると、ステップS5に戻る。   In step S8, it is determined whether or not the volume level of at least one other site among the other sites whose volume level is equal to or higher than the threshold value at the time of determination in step S7 is equal to or higher than the threshold value for the predetermined time. It is determined whether or not the volume level at the other site at the time is equal to or higher than the threshold at the time of determination at step S3. When the determination in step S8 is affirmed, the process proceeds to step S9. On the other hand, if the determination in step S8 is negative, the process returns to step S5.

音量レベルが上記所定時間継続して上記閾値以上の他拠点には、発話者がいると推定されるため、以下では、該他拠点を「発話者がいる他拠点」とも称する。この場合、例えば相槌、咳払い、くしゃみ等による非常に短い音声は、音量レベルが該閾値以上であっても発話に該当しないことを意味する。なお、実際には、発話の途中に(上記所定時間内に)音量レベルが上記閾値未満になることも想定されるが、ステップS3及びステップS7のいずれの判断時点でも音量レベルが閾値以上であれば、音量レベルが上記所定時間継続して上記閾値以上であると見做しても、すなわち発話が上記所定時間継続していると見做しても差し支えない。   Since it is estimated that there is a speaker at another site whose volume level continues for the predetermined time or more than the above threshold, the other site is also referred to as “another site where the speaker is present”. In this case, for example, a very short voice due to competing, coughing, sneezing, etc. means that it does not correspond to utterance even if the volume level is above the threshold. Actually, it is also assumed that the volume level becomes lower than the threshold value during the utterance (within the predetermined time), but if the volume level is equal to or higher than the threshold value at any time of determination in step S3 and step S7. For example, it may be considered that the volume level is continuously higher than the threshold value for the predetermined time, that is, the utterance is considered to be continued for the predetermined time.

ステップS9では、音量レベルが上記所定時間継続して上記閾値以上の他拠点(発話者がいる他拠点)の数が取得される。   In step S9, the number of other bases (other bases where the speaker is present) whose volume level continues for the predetermined time or more than the threshold is acquired.

次のステップS11では、音量レベルが上記所定時間継続して上記閾値以上の他拠点の数に応じて、拡大サイズの大きさ及び拡大サイズで表示する画像の位置が設定される。   In the next step S11, the size of the enlarged size and the position of the image to be displayed in the enlarged size are set according to the number of other sites whose volume level continues for the predetermined time or longer than the threshold value.

一例として、図12に示されるように9つの他拠点のうち発話者がいる他拠点の数が1である場合には、拡大サイズは、1つの他拠点(例えば他拠点D)からの画像全体が表示面に表示可能な大きさに設定され、拡大サイズの画像が表示される位置は、任意の位置(例えば表示面の左側部分)に設定される。   As an example, as shown in FIG. 12, when the number of other bases where the speaker is present among the nine other bases is 1, the enlarged size is the entire image from one other base (for example, another base D). Is set to a size that can be displayed on the display surface, and the position where the enlarged image is displayed is set to an arbitrary position (for example, the left portion of the display surface).

また、一例として、図13に示されるように9つの他拠点のうち発話者がいる他拠点の数が2である場合には、拡大サイズの大きさ及び該拡大サイズの画像が表示される位置は、2つの他拠点(例えば他拠点D、F)それぞれからの画像全体が異なる位置(例えば表示面の左側部分、右側部分)に例えば同じ大きさで一緒に表示されるように設定される。   Further, as an example, when the number of other bases where the speaker is present is two of nine other bases as shown in FIG. 13, the size of the enlarged size and the position where the image of the enlarged size is displayed. Is set so that the entire image from each of the two other bases (for example, the other bases D and F) is displayed together at, for example, the same size at different positions (for example, the left part and the right part of the display surface).

また、一例として、図14に示されるように9つの他拠点のうち発話者がいる他拠点の数が3である場合には、拡大サイズの大きさ及び該拡大サイズの画像が表示される位置は、3つの他拠点(例えば他拠点B、E、H)それぞれからの画像全体が異なる位置(例えば上側部分、左下側部分、右下側部分)に例えば同じ大きさで一緒に表示されるように設定される。   Further, as an example, when the number of other bases where the speaker is present is three among nine other bases as shown in FIG. 14, the size of the enlarged size and the position where the image of the enlarged size is displayed. Are displayed together in the same size, for example, at different positions (for example, the upper part, the lower left part, and the lower right part) of the entire image from each of the three other bases (for example, other bases B, E, and H). Set to

次のステップS13では、音量レベルが継続して上記閾値以上の他拠点からの画像が、設定された拡大サイズで設定された位置に表示される(図12〜図14参照)。   In the next step S13, the sound volume level continues and images from other sites that are equal to or greater than the threshold value are displayed at the set position in the set enlarged size (see FIGS. 12 to 14).

次のステップS15では、音量レベル判断部160での判断結果に基づいて、ステップS7の判断時点での音量レベルが上記閾値未満の他拠点があるか否か、すなわちステップS7の判断時点で少なくとも1つの他拠点からの音声データの音量レベルが該閾値未満であるか否かが判断される。ステップS7の判断時点で音量レベルが上記閾値未満の他拠点には、発話者がいないと推定できるため、以下では、該他拠点を「発話者がいない他拠点」とも称する。そこで、音量レベル判断部160とCPU101とを含んで、他拠点における発話者の有無を判定する判定手段が構成されている。ステップS15での判断が肯定されると、ステップS17に移行する。一方、ステップS15での判断が否定されると、ステップS1に戻る。すなわち、発話者がいる他拠点及び該他拠点の数、及び発話者がいない他拠点及び該他拠点の数が随時検出され、その検出結果に応じて、発話者がいる他拠点が拡大サイズで、発話者がいない他拠点が縮小サイズでディスプレイ14の表示面に表示される。このように、自拠点(一拠点)では、発話者の有無に応じて、表示面に表示される画像のサイズが拡大サイズと縮小サイズとの間で切り換えられることになる。   In the next step S15, based on the determination result in the volume level determination unit 160, whether or not there is another site whose volume level at the time of determination in step S7 is less than the above threshold, that is, at least 1 at the time of determination in step S7. It is determined whether or not the volume level of the audio data from one other site is less than the threshold value. Since it can be estimated that there is no speaker at other sites whose volume level is less than the above threshold at the time of the determination in step S7, the other sites are also referred to as “other sites without speakers” below. Therefore, a determination unit that includes the volume level determination unit 160 and the CPU 101 and determines the presence or absence of a speaker at another base is configured. If the determination in step S15 is affirmed, the process proceeds to step S17. On the other hand, if the determination in step S15 is negative, the process returns to step S1. That is, the other bases where the speaker is present and the number of the other bases, and the other bases where the speaker is not present and the number of the other bases are detected at any time, and according to the detection result, the other bases where the speaker is The other sites where there is no speaker are displayed on the display surface of the display 14 in a reduced size. In this way, the size of the image displayed on the display surface is switched between the enlarged size and the reduced size at the own site (one site) depending on the presence or absence of the speaker.

ステップS17では、音量レベルが上記閾値未満の他拠点の数が取得される。   In step S17, the number of other sites whose volume level is less than the threshold is acquired.

次のステップS19では、音量レベルが上記閾値未満の他拠点の数に応じて、縮小サイズの大きさ及び縮小サイズで表示する画像の位置が設定される。   In the next step S19, the size of the reduced size and the position of the image to be displayed in the reduced size are set according to the number of other sites whose volume level is less than the threshold value.

一例として、図15に示されるように9つの他拠点のうち発話者がいない他拠点の数が9である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、9つの他拠点(例えば他拠点A〜I)からの9つの画像が表示面の異なる位置に位置するように設定される。図15では、9つの他拠点からの9つの画像は、一例として、表示面上で3×3のマトリクス状に配列されている。   As an example, as shown in FIG. 15, when the number of other bases where there is no speaker among nine other bases is nine, the size of the reduced size and the position of the image displayed in the reduced size are nine. Nine images from other bases (for example, other bases A to I) are set to be located at different positions on the display surface. In FIG. 15, nine images from nine other sites are arranged in a 3 × 3 matrix on the display surface as an example.

また、一例として、図12に示されるように9つの他拠点のうち発話者がいない他拠点の数が8である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、8つの他拠点(例えば他拠点A、B、C、E、F、G、H、I)からの8つの画像それぞれが表示面の異なる位置に位置するように設定される。図12では、他拠点A、E、Gそれぞれからの画像の一部は、他拠点Dからの画像の影に隠れている。   As an example, as shown in FIG. 12, when the number of other sites where no speaker is present among the nine other sites is 8, the size of the reduced size and the position of the image displayed in the reduced size are Eight images from eight other bases (for example, other bases A, B, C, E, F, G, H, and I) are set to be located at different positions on the display surface. In FIG. 12, a part of the image from each of the other bases A, E, and G is hidden in the shadow of the image from the other base D.

また、一例として、図13に示されるように9つの他拠点のうち発話者がいない他拠点の数が7である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、7つの他拠点(例えば他拠点A、B、C、E、G、H、I)からの7つの画像それぞれが表示面の異なる位置に位置するように設定される。図13では、他拠点A、B、C、E、G、H、Iそれぞれからの画像の一部は、他拠点D又はFからの画像の影に隠れている。   As an example, as shown in FIG. 13, when the number of other sites where no speaker is present among the nine other sites is 7, the size of the reduced size and the position of the image displayed in the reduced size are Seven images from seven other sites (for example, other sites A, B, C, E, G, H, and I) are set to be located at different positions on the display surface. In FIG. 13, a part of the image from each of the other sites A, B, C, E, G, H, and I is hidden in the shadow of the image from the other site D or F.

また、一例として、図14に示されるように9つの他拠点のうち発話者がいない他拠点の数が6である場合には、縮小サイズの大きさ及び縮小サイズで表示する画像の位置は、6つの他拠点(例えば他拠点A、C、D、F、G、I)からの6つの画像それぞれが表示面の異なる位置に位置するように設定される。図14では、他拠点A、C、D、F、G、Iそれぞれからの画像の一部は、他拠点B、E及びHの少なくとも1つからの画像の影に隠れている。   As an example, as shown in FIG. 14, when the number of other bases where no speaker is present among nine other bases is 6, the size of the reduced size and the position of the image displayed in the reduced size are Six images from six other bases (for example, other bases A, C, D, F, G, and I) are set to be located at different positions on the display surface. In FIG. 14, a part of the image from each of the other bases A, C, D, F, G, and I is hidden by the shadow of the image from at least one of the other bases B, E, and H.

次のステップS21では、音量レベルが閾値未満の他拠点からの画像が、設定された縮小サイズで設定された位置に表示される(図12〜図15参照)。ステップS21が実行された後、フローは、ステップS1に戻る。   In the next step S21, images from other locations whose volume level is less than the threshold are displayed at the set position with the set reduced size (see FIGS. 12 to 15). After step S21 is executed, the flow returns to step S1.

以上説明したように本実施形態のテレビ会議装置100は、少なくとも3つの拠点(例えば10拠点)間でのインターネット(通信網)を介した画像及び音声の送受信によるテレビ会議(情報共有)を行うために任意の一拠点で用いられる通信装置であって、前記一拠点と異なる少なくとも2つの他拠点(例えば9つの他拠点)からインターネットを介して個別に送られてくる少なくとも2つ(例えば9つ)の音声データ(音声に関する情報)に基づいて、該他拠点における発話者の有無を判定する、音量レベル判断部160を含む判定手段と、該判定手段で発話者がいないと判定された他拠点からインターネットを介して送られてくる画像を縮小サイズ(所定サイズ)で表示面に表示し、前記判定手段で発話者がいると判定された他拠点からインターネット介して送られてくる画像を前記縮小サイズよりも大きい拡大サイズで前記表示面に表示する、表示処理部140を含む表示手段と、を備えている。そして、表示手段は、複数の他拠点それぞれに発話者がいるとき、前記複数の他拠点から個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示する。   As described above, the video conference apparatus 100 according to the present embodiment performs a video conference (information sharing) by transmitting and receiving images and sounds via the Internet (communication network) between at least three sites (for example, 10 sites). Communication devices used at any one site, and at least two (for example, nine) individually transmitted via the Internet from at least two other sites (for example, nine other sites) different from the one site. Based on the voice data (information related to the voice), the determination means including the volume level determination unit 160 for determining the presence or absence of a speaker at the other base, and the other base determined by the determination means that there is no speaker An image sent via the Internet is displayed on the display screen in a reduced size (predetermined size), and the other means determined by the determination means that there is a speaker Displaying an image sent via the Internet on the display surface at a greater enlargement in size than the reduced size, and a, a display means including a display processing unit 140. The display means displays a plurality of images individually sent from the plurality of other sites together on the display surface in the enlarged size when a speaker is present at each of the plurality of other sites.

この場合、複数の他拠点それぞれに発話者がいるとき、該複数の他拠点からの複数の画像が表示面に拡大サイズで一緒に表示される。   In this case, when a speaker is present at each of a plurality of other bases, a plurality of images from the plurality of other bases are displayed together in an enlarged size on the display surface.

この結果、複数の他拠点に発話者がいるとき、該発話者を容易に認識(把握)することができる。すなわち、複数の他拠点同士が会話状態にあるとき、会話状態にある複数の他拠点を容易に認識(把握)することができる。   As a result, when a speaker is present at a plurality of other bases, the speaker can be easily recognized (understood). That is, when a plurality of other bases are in a conversation state, the plurality of other bases in the conversation state can be easily recognized (understood).

また、前記判定手段は、少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき該他拠点に発話者がいると判定するため、該判定の信頼性が高い。これに対し、仮に一の時点で音量レベルが閾値以上である他拠点を一律に発話者がいる拠点と判定すると、例えば相槌等を行っている実質的に発話者ではない会議参加者も発話者と見做されるため、実情にそぐわず、該判定の信頼性が低い。   Further, the determination means determines that there is a speaker at the other site when it is considered that the state where the volume level at each of at least two other sites is equal to or greater than the threshold value continues for a predetermined time. High reliability of judgment. On the other hand, if it is determined that another site whose volume level is equal to or higher than the threshold at one time point is a site where the speaker is uniformly present, for example, a conference participant who is a speaker who is not a speaker is also a speaker. Therefore, the reliability of the determination is low.

また、前記表示手段は、前記判定手段で発話者がいると判定された他拠点の数に応じて、前記拡大サイズの大きさを設定するため、該他拠点の数によらず、該他拠点からの画像を視認し易くすることができる。   Further, the display means sets the size of the enlarged size according to the number of other bases determined to have a speaker by the determining means, so that the other bases are independent of the number of the other bases. It is possible to make it easy to visually recognize the image from.

一方、図16(A)及び図16(B)に示される比較例では、複数の他拠点のうち音量レベルが最も大きい他拠点を発話者がいる他拠点(例えば他拠点A´又は他拠点B´)とし、該他拠点のみを拡大サイズで表示し、残りの他拠点を縮小サイズで表示する。この場合、複数の他拠点に発話者がいるとき、拡大サイズで表示される画像が頻繁に切り替わるため、現に発話者がいる複数の他拠点を認識(把握)することは困難であった。また、会話状態にある複数の他拠点がいずれの他拠点であるかを認識(把握)することも困難であった。また、テレビ会議が媒体に録音録画され、該媒体を再生して視聴するとき、会話状態にある複数の他拠点がいずれの他拠点であるかを認識(把握)することが困難であった。   On the other hand, in the comparative example shown in FIG. 16A and FIG. 16B, another base where the speaker is located at another base with the highest volume level among the other bases (for example, another base A ′ or other base B). '), Only the other bases are displayed in an enlarged size, and the remaining other bases are displayed in a reduced size. In this case, when a speaker is present at a plurality of other sites, images displayed in an enlarged size are frequently switched. Therefore, it is difficult to recognize (understand) a plurality of other sites where the speaker is actually present. In addition, it is difficult to recognize (understand) which other bases are in a conversation state. Also, when a video conference is recorded and recorded on a medium, and the medium is played back and viewed, it is difficult to recognize (understand) which other bases are in a conversation state.

また、上記実施形態では、発話者がいる複数の他拠点からの画像の拡大サイズが同じ大きさに設定されているが、これに限らず、例えば、図17に示されるように、互いに異ならせても良い。具体的には、発話者が現に発話中の他拠点(例えば他拠点D)からの画像を大きい拡大サイズで表示し、発話者が発話を中断中の他拠点(例えば他拠点F)からの画像を小さい拡大サイズで表示することとしても良い。また、発話者がいる他拠点での発話時間を計測し、発話時間が長い他拠点ほど大きい拡大サイズで表示することとしても良い。この場合、発話者がいる他拠点からの画像の拡大サイズの大きさを発話時間に応じて徐々に又は段階的に変えても良い。この場合、発話時間が長い他拠点ほど拡大サイズを大きくすることが好ましい。逆に言うと、発話時間が短い他拠点ほど拡大サイズを小さくすることが好ましい。   Further, in the above embodiment, the enlarged sizes of the images from a plurality of other bases where the speaker is present are set to the same size. However, the present invention is not limited to this. For example, as shown in FIG. May be. Specifically, the image from the other base where the speaker is currently speaking (for example, another base D) is displayed in a large enlarged size, and the image from the other base where the speaker is interrupting the speech (for example, another base F) is displayed. May be displayed in a small enlarged size. Further, the utterance time at another site where the speaker is present may be measured, and the other site with a longer utterance time may be displayed in a larger enlarged size. In this case, the size of the enlarged size of the image from another base where the speaker is present may be changed gradually or stepwise according to the speech time. In this case, it is preferable to increase the enlargement size as the other site has a longer utterance time. In other words, it is preferable to reduce the enlargement size as the other site has a shorter utterance time.

また、上記実施形態では、発話者がいる複数の他拠点からの画像を拡大サイズで表示面の異なる位置に表示しているが、これに限らず、例えば、図18に示されるように、互いに少なくとも一部が重なるように表示しても良い。具体的には、現に発話中の他拠点(例えば他拠点E)からの画像を大きい拡大サイズで最前面に表示し、発話を中断中の3つの他拠点(例えば他拠点F、H、I)からの画像を小さい拡大サイズで背面に表示することとしても良い。すなわち、複数の拡大サイズの画像を少なくとも一部が重なるように表示することとしても良い。また、この場合、発話者がいる複数の他拠点での発話時間を計測し、発話時間が長い他拠点ほど大きい拡大サイズで前面に表示することとしても良い。この場合、発話者がいる他拠点からの画像の拡大サイズの大きさを発話時間に応じて徐々に又は段階的に変えても良い。この場合、発話時間が長い他拠点ほど拡大サイズを大きくすることが好ましい。逆に言うと、発話時間が短い他拠点ほど拡大サイズを小さくすることが好ましい。   Moreover, in the said embodiment, although the image from several other bases with a speaker is displayed in the position where a display surface differs in an enlarged size, it is not restricted to this, For example, as shown in FIG. You may display so that at least one part may overlap. Specifically, an image from another site that is currently speaking (for example, another site E) is displayed in the foreground in a large enlarged size, and three other sites (for example, other sites F, H, and I) that are suspending the speech are displayed. It is also possible to display the image from the back with a small enlarged size. That is, a plurality of enlarged-size images may be displayed so that at least a part thereof overlaps. In this case, the utterance time at a plurality of other sites where the speaker is present may be measured, and the other sites with longer utterance time may be displayed on the front surface with a larger enlarged size. In this case, the size of the enlarged size of the image from another base where the speaker is present may be changed gradually or stepwise according to the speech time. In this case, it is preferable to increase the enlargement size as the other site has a longer utterance time. In other words, it is preferable to reduce the enlargement size as the other site has a shorter utterance time.

また、実際には、発話の途中に(例えば発話の間等に)音量レベルが上記閾値未満になることが想定される。すなわち、ある他拠点に発話者がいる場合であっても、ステップS3の判断時点で音量レベルが該閾値以上であり、かつステップS7の判断時点で音量レベルが閾値未満になることが想定される。そこで、ステップS3とステップS5との間や、ステップS7とステップS8との間に例えばステップS5及びステップS7から成る一連のステップと同様の一連のステップを少なくとも1回行っても良い。   In practice, it is assumed that the volume level becomes lower than the threshold value during the utterance (for example, during the utterance). That is, even when there is a speaker at a certain other base, it is assumed that the volume level is equal to or higher than the threshold at the time of determination in step S3 and the volume level is lower than the threshold at the time of determination in step S7. . Therefore, a series of steps similar to the series of steps including step S5 and step S7 may be performed at least once between step S3 and step S5, or between step S7 and step S8.

また、実際には、複数の他拠点それぞれに現に発話者がいる場合、該発話者同士が会話をしていることが多く、発話の時間帯は、発話者毎に異なることが想定される。そこで、図19(A)〜図19(C)に示されるように、例えば、発話者がいる複数の他拠点からの複数の画像を同じ大きさの拡大サイズで表示する場合に、該複数の他拠点のうち発話者が現に発話中の他拠点の画像を別の他拠点の画像と識別するための処理を施すこととしても良い。この場合、例えば、発話者がいる複数の他拠点のうちステップS7の判断時点で音量レベルが最も大きい他拠点を発話者が現に発話中の他拠点と見做しても良い。この結果、発話者が現に発話中の他拠点を容易に視認することができる。   Actually, when there are speakers at each of a plurality of other bases, the speakers are often talking with each other, and the time zone of the utterance is assumed to be different for each speaker. Therefore, as shown in FIGS. 19A to 19C, for example, when a plurality of images from a plurality of other bases where a speaker is present are displayed in the same size and enlarged size, the plurality of images are displayed. It is also possible to perform processing for distinguishing an image of another site where the speaker is currently speaking from other sites from an image of another site. In this case, for example, the other base having the highest volume level at the time of determination in step S7 among the plurality of other bases where the speaker is present may be regarded as the other base where the speaker is actually speaking. As a result, the other site where the speaker is actually speaking can be easily visually recognized.

具体的には、発話者が現に発話中の他拠点からの画像の枠と別の他拠点からの画像の枠とを異ならせても良い。例えば、図19(A)に示されるように、発話者が現に発話中の他拠点Fからの画像の枠を別の他拠点Dからの画像の枠よりも太く表示しても良い。また、例えば、発話者が現に発話中の他拠点からの画像の枠の線と別の他拠点からの画像の枠の線とを異ならせても良い。具体的には、発話者が現に発話中の他拠点からの画像の枠を例えば実線等にし、別の他拠点からの画像の枠を例えば破線等にしても良い。また、発話者が現に発話中の他拠点からの画像の枠のみを例えば二重線等にしても良い。また、例えば、発話者が現に発話中の他拠点からの画像の枠の色と別の他拠点からの画像の枠の色とを異ならせても良い。   Specifically, the frame of an image from another base where the speaker is currently speaking may be different from the frame of an image from another base. For example, as shown in FIG. 19A, the frame of the image from the other site F where the speaker is currently speaking may be displayed thicker than the frame of the image from the other site D. Further, for example, the line of the image frame from another site where the speaker is currently speaking may be different from the line of the image frame from another site. Specifically, the frame of an image from another site where the speaker is currently speaking may be a solid line or the like, and the frame of an image from another site may be a broken line or the like. Further, only the frame of the image from the other base where the speaker is currently speaking may be a double line or the like. Further, for example, the color of the frame of the image from another site where the speaker is currently speaking may be different from the color of the frame of the image from another site.

また、例えば、図19(B)に示されるように、発話者が現に発話中の他拠点Fからの画像の解像度よりも別の他拠点Dからの画像の解像度を低くしても良い。また、例えば、発話者が現に発話中の他拠点からの画像の明度よりも別の他拠点からの画像の明度を低くしても良い。また、発話者が現に発話中の他拠点からの画像のフレームレートよりも別の他拠点からの画像のフレームレートを低くしても良い。この場合、一拠点でのテレビ会議装置100のCPU101の負荷を低減することができ、ひいては消費電力の低減を図ることができる。   Further, for example, as shown in FIG. 19B, the resolution of the image from another site D may be lower than the resolution of the image from the other site F where the speaker is currently speaking. Further, for example, the brightness of an image from another base may be made lower than the brightness of an image from another base where the speaker is currently speaking. Further, the frame rate of an image from another site may be lower than the frame rate of an image from another site where the speaker is currently speaking. In this case, it is possible to reduce the load on the CPU 101 of the video conference apparatus 100 at one site, and thus reduce power consumption.

また、例えば図19(C)に示されるように、発話者が現に発話中の他拠点Fからの画像に、図形、記号、文字、数字、模様、及びこれらの組み合わせ等(例えば漢字の発を図形の円で囲んだもの)を付加する処理を施しても良い。   Further, for example, as shown in FIG. 19C, a graphic, a symbol, a letter, a number, a pattern, a combination thereof, etc. A process of adding a figure circled) may be performed.

また、上記実施形態では、一拠点において、各他拠点からの音声データの音量レベルが異なる2つの時点で(実質的に所定時間継続して)閾値以上であるか否かを判断しているが、これに限られない。例えば、他拠点において、該他拠点の音声データの音量レベルが実質的に所定時間継続して閾値以上であるか否かを判断して、該判断結果を、インターネットを介して一拠点に送信することとしても良い。この場合、一拠点のテレビ会議装置には、該他拠点における発話者の有無の判断結果が送られるため、発話者の有無を判定する判定手段が必要なく、構成及び制御を簡略化することができる。   In the above-described embodiment, it is determined whether or not the volume level of the audio data from each other site is equal to or greater than the threshold value at two points in time (substantially continuing for a predetermined time) at one site. Not limited to this. For example, at another site, it is determined whether or not the volume level of the audio data at the other site is substantially equal to or greater than a threshold value for a predetermined time, and the determination result is transmitted to one site via the Internet. It's also good. In this case, since the determination result of the presence / absence of the speaker at the other site is sent to the video conference apparatus at one site, there is no need for a determination means for determining the presence / absence of the speaker, and the configuration and control can be simplified. it can.

また、上記実施形態では、テレビ会議は、10拠点間で行われているが、これに限らず、要は、少なくとも3つの拠点間で行われれば良い。この場合も、各拠点にテレビ会議装置100を配置することが好ましい。   Moreover, in the said embodiment, although the video conference is performed between 10 bases, it is not restricted to this, In short, what is necessary is just to be held between at least 3 bases. Also in this case, it is preferable to arrange the video conference apparatus 100 at each site.

また、上記実施形態では、表示手段が画像を表示する表示面は、ディスプレイ14の表示面とされているが、これに限られない。例えば、スクリーンの表面(例えばテレビ会議装置にプロジェクタを接続した場合)、外部モニタの画面、テレビの画面、パソコンの画面等であっても良い。この場合、ディスプレイ14は、必須ではない。また、表示面の大きさも特に限定されない。   Moreover, in the said embodiment, although the display surface on which a display means displays an image is made into the display surface of the display 14, it is not restricted to this. For example, it may be the surface of a screen (for example, when a projector is connected to a video conference device), an external monitor screen, a television screen, a personal computer screen, or the like. In this case, the display 14 is not essential. Further, the size of the display surface is not particularly limited.

また、上記実施形態では、ディスプレイとして、いわゆる液晶ディスプレイが採用されているが、これに限らず、例えばプラズマディスプレイ、有機EL(エレクトロルミネッセンス)ディスプレイなどの、他のディスプレイを採用しても良い。   Moreover, in the said embodiment, what is called a liquid crystal display is employ | adopted as a display, However, It is not restricted to this, For example, you may employ | adopt other displays, such as a plasma display and an organic electroluminescent (EL) display.

また、上記実施形態では、電子カメラ、マイク及びスピーカは、筐体に一体に設けられているが、これらの少なくとも1つは、筐体と別体であっても良い。   Moreover, in the said embodiment, although an electronic camera, a microphone, and a speaker are provided in the housing | casing integrally, at least 1 of these may be a different body from a housing | casing.

また、上記実施形態では、テレビ会議装置100は、一室内で用いられているが、これに限定されない。テレビ会議装置100は、上述の如く、携帯性に優れるため、特定の会議室内に据え置かれる必要はなく、自由に持ち運びし、様々な場所で用いられることが期待できる。   Moreover, in the said embodiment, although the video conference apparatus 100 is used in one room, it is not limited to this. Since the video conference apparatus 100 is excellent in portability as described above, it is not necessary to be installed in a specific conference room, and it can be expected to be freely carried and used in various places.

また、上記実施形態では、本発明は、いわゆるポータブルタイプ(可搬型)のテレビ会議装置100に適用されたが、いわゆる据え置き型のテレビ会議装置にも適用できる。   In the above embodiment, the present invention is applied to a so-called portable type (portable) video conference apparatus 100. However, the present invention can also be applied to a so-called stationary type video conference apparatus.

また、上記実施形態では、各拠点のユーザの数は、1人とされているが、これに限らず、複数人であっても良い。この場合、例えば、各拠点の全ユーザが表示された画像を他の拠点に送っても良いし、ビュー切換ボタン58を操作して、該拠点の一部のユーザが表示された画像を他の拠点に送っても良い。   Moreover, in the said embodiment, although the number of users of each base is made into one person, it is not restricted to this, A multiple person may be sufficient. In this case, for example, an image in which all the users at each site are displayed may be sent to another site, or the view switching button 58 is operated to display an image in which some users at the site are displayed. You may send it to the base.

また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。   Further, for example, a program for executing a series of processes shown in FIG. 11 used in the video conference apparatus (also referred to as a communication apparatus) of the above-described embodiment is an installable format or executable format file and is a CD-ROM. , Recorded on a computer-readable recording medium such as a flexible disk (FD), a CD-R, and a DVD (Digital Versatile Disk).

また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上記実施形態のテレビ会議装置(通信装置ともいう)で実施されるフローを実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。   Further, for example, a program for executing a series of processes shown in FIG. 11 used in the video conference apparatus (also referred to as a communication apparatus) of the above embodiment is stored on a computer connected to a network such as the Internet, and the network You may comprise so that it may provide by making it download via. In addition, a program for executing a flow executed by the video conference apparatus (also referred to as a communication apparatus) of the above embodiment may be provided or distributed via a network such as the Internet.

また、上記実施形態のテレビ会議装置(通信装置ともいう)で使用される、例えば図11に示される一連の処理を実行するプログラムを、ROM等に予め組み込んで提供するように構成してもよい。   Further, for example, a program for executing a series of processes shown in FIG. 11 used in the video conference apparatus (also referred to as a communication apparatus) according to the above-described embodiment may be provided by being incorporated in advance in a ROM or the like. .

なお、上記実施形態では、本発明をテレビ会議の専用装置に適用した例を挙げて説明したが、パーソナルコンピュータ、スマートフォンなどのカメラと音声入力の機能を備えた装置であればいずれにも適用することができる。   In the above embodiment, the present invention has been described with reference to an example in which the present invention is applied to a dedicated device for video conferences. However, the present invention is applicable to any device having a camera and a voice input function, such as a personal computer and a smartphone. be able to.

また、上記実施形態では、テレビ会議に用いられるテレビ会議装置100を通信装置の一例として説明したが、これに限られない。すなわち、本発明の通信装置は、少なくとも3つの拠点間での画像及び音声の送受信による情報共有に用いられるコミュニケーションツールとして多様な態様で使用可能である。   Moreover, although the video conference apparatus 100 used for the video conference has been described as an example of the communication apparatus in the above embodiment, the present invention is not limited to this. That is, the communication device of the present invention can be used in various modes as a communication tool used for information sharing by transmitting and receiving images and sounds between at least three bases.

14…ディスプレイ(表示手段の一部)、100…テレビ会議装置(通信装置)、114…画像出力I/F(表示手段の一部)、140…表示処理部(表示手段の一部)、160…音量レベル判断部(判定手段の一部)、1000…会議システム。   DESCRIPTION OF SYMBOLS 14 ... Display (part of display means), 100 ... Video conference apparatus (communication apparatus), 114 ... Image output I / F (part of display means), 140 ... Display processing part (part of display means) ... Volume level determination unit (part of determination means), 1000 ... conference system.

特開平9−261608号公報JP-A-9-261608

Claims (8)

少なくとも3つの拠点間での通信網を介した画像及び音声の送受信による情報共有を行うために任意の一拠点で用いられる通信装置であって、
前記一拠点と異なる少なくとも2つの他拠点から前記通信網を介して個別に送られてくる少なくとも2つの音声に関する情報に基づいて、前記他拠点における発話者の有無を判定する判定手段と、
前記判定手段で発話者がいないと判定された他拠点から前記通信網を介して送られてくる画像を所定サイズで表示面に表示し、前記判定手段で発話者がいると判定された他拠点から前記通信網を介して送られてくる画像を前記所定サイズよりも大きい拡大サイズで前記表示面に表示する表示手段と、を備え、
前記判定手段は、前記少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき、該他拠点に発話者がいると判定し、
前記表示手段は
前記判定手段で複数の他拠点に発話者がいると判定されたとき、前記複数の他拠点から前記通信網を介して個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示し、
発話者がいると判定された前記複数の他拠点からの画像のうち、現に発話している発話者がいる他拠点からの画像を前記所定サイズよりも大きい第1の拡大サイズで表示し、発話を中断中の発話者がいる他拠点からの画像を前記第1の拡大サイズよりも小さく前記所定サイズよりも大きい第2の拡大サイズで表示する通信装置。
A communication device used at any one site for sharing information by transmitting and receiving images and sounds via a communication network between at least three sites,
A determination means for determining presence / absence of a speaker at the other base based on information on at least two voices individually transmitted via the communication network from at least two other bases different from the one base;
An image sent from the other site determined to have no speaker by the determination unit via the communication network is displayed on a display surface with a predetermined size, and the other site determined to have a speaker by the determination unit Display means for displaying an image sent from the communication network from the display screen in an enlarged size larger than the predetermined size,
The determination means determines that there is a speaker at the other base when it is considered that the state where the volume level at each of the at least two other bases is equal to or higher than a threshold value continues for a predetermined time;
The display means,
When it is determined by the determination means that there are speakers at a plurality of other sites, a plurality of images individually sent from the plurality of other sites via the communication network are combined with the display surface in the enlarged size. Displayed on the
Of the images from the plurality of other sites determined to have a speaker, an image from the other site where the speaker who is currently speaking is displayed in a first enlarged size larger than the predetermined size, The communication apparatus which displays the image from the other base where the speaker who is interrupting is displayed in the second enlarged size smaller than the first enlarged size and larger than the predetermined size .
前記表示手段は、前記判定手段で発話者がいると判定された他拠点の数に応じて、前記拡大サイズの大きさを設定することを特徴とする請求項に記載の通信装置。 The communication apparatus according to claim 1 , wherein the display unit sets the size of the enlarged size in accordance with the number of other bases determined by the determination unit that there is a speaker. 前記表示手段は、前記所定サイズで表示されている他拠点からの画像を前記拡大サイズで表示するとき、該画像を徐々に大きくすることを特徴とする請求項1又は2に記載の通信装置。 The display means, wherein when displaying the image from the other bases that are displayed in a predetermined size in the expanded size, the communication device according to claim 1 or 2, characterized in that larger and larger the image. 前記表示手段は、前記拡大サイズで表示されている他拠点からの画像を前記所定サイズで表示するとき、該画像を徐々に小さくすることを特徴とする請求項1〜のいずれか一項に記載の通信装置。 The display means, when displaying the images from other locations that are displayed in the enlarged size in the predetermined size, in any one of claim 1 to 3, characterized in that gradually reduce the image The communication device described. 前記表示手段は、前記判定手段で前記複数の他拠点に発話者がいると判定されたとき、前記複数の他拠点からの複数の画像の前記拡大サイズを同じ大きさに設定し、かつ前記複数の画像のうち発話者が現に発話中の他拠点からの画像を別の他拠点からの画像と視覚的に識別するための処理を施すことを特徴とする請求項1〜のいずれか一項に記載の通信装置。 The display means sets the enlarged size of a plurality of images from the plurality of other bases to the same size when the judgment means determines that there are speakers at the plurality of other bases, and claim 1 any one of 4, wherein the handle is subjected to image visually distinguishable from the other base image of another from speaker other bases currently in speech out of the image The communication apparatus as described in. 少なくとも3つの拠点間での通信網を介した画像及び音声の送受信による情報共有を行うために任意の一拠点で用いられる通信方法であって、
前記一拠点と異なる少なくとも2つの他拠点から前記通信網を介して個別に送られてくる少なくとも2つの音声に関する情報に基づいて、該他拠点における発話者の有無を判定する工程と、
前記判定する工程で発話者がいないと判定された他拠点から前記通信網を介して送られてくる画像を所定サイズで表示面に表示し、前記判定する工程で発話者がいると判定された他拠点から前記通信網を介して送られてくる画像を前記所定サイズよりも大きい拡大サイズで前記表示面に一緒に表示する工程と、を含み、
前記判定する工程では、前記少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき、該他拠点に発話者がいると判定し、
前記表示する工程では
前記判定する工程で複数の他拠点に発話者がいると判定されたとき、前記複数の他拠点から前記通信網を介して個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示し、
発話者がいると判定された前記複数の他拠点からの画像のうち、現に発話している発話者がいる他拠点からの画像を前記所定サイズよりも大きい第1の拡大サイズで表示し、発話を中断中の発話者がいる他拠点からの画像を前記第1の拡大サイズよりも小さく前記所定サイズよりも大きい第2の拡大サイズで表示する通信方法。
A communication method used at any one site for sharing information by transmitting and receiving images and sounds via a communication network between at least three sites,
Determining the presence or absence of a speaker at the other site based on information about at least two voices individually sent via the communication network from at least two other sites different from the one site;
An image sent via the communication network from another site determined that there is no speaker in the determining step is displayed on the display surface in a predetermined size, and it is determined that there is a speaker in the determining step. Displaying together an image sent from another base via the communication network on the display surface in an enlarged size larger than the predetermined size,
In the determining step, when it is considered that the state where the volume level at each of the at least two other sites is equal to or higher than a threshold value is continued for a predetermined time, it is determined that there is a speaker at the other site;
In the displaying step ,
When it is determined in the determining step that a speaker is present at a plurality of other sites, a plurality of images individually sent from the plurality of other sites via the communication network are displayed on the display surface in the enlarged size. displayed together,
Of the images from the plurality of other sites determined to have a speaker, an image from the other site where the speaker who is currently speaking is displayed in a first enlarged size larger than the predetermined size, A communication method for displaying an image from another base where a speaker who is interrupting the speech is interrupted in a second enlarged size smaller than the first enlarged size and larger than the predetermined size.
前記判定する工程では、発話者がいると判定された他拠点の数に応じて、前記拡大サイズの大きさを設定することを特徴とする請求項に記載の通信方法。 Wherein in the determining step, depending on the number of other sites where it is determined that there are calling speaker The communication method according to claim 6, characterized in that setting the size of said larger size. 少なくとも3つの拠点間での通信網を介した画像及び音声の送受信による情報共有を行うために任意の一拠点で用いられる通信装置で使用されるプログラムであって、
前記一拠点と異なる少なくとも2つの他拠点から個別に送られてくる少なくとも2つの音声に関する情報に基づいて、該他拠点における発話者の有無を判定する手順と、
前記判定する手順で発話者がいないと判定された他拠点から前記通信網を介して送られてくる画像を所定サイズで表示面に表示し、前記判定する手順で発話者がいると判定された他拠点から前記通信網を介して送られてくる画像を前記所定サイズよりも大きい拡大サイズで前記表示面に表示する手順と、を含み、
前記判定する手順では、前記少なくとも2つの他拠点それぞれでの音量レベルが閾値以上である状態が所定時間継続していると見做されるとき、該他拠点に発話者がいると判定し、
前記表示する手順では
前記判定する手順で複数の他拠点に発話者がいると判定されたとき、前記複数の他拠点から個別に送られてくる複数の画像を前記拡大サイズで前記表示面に一緒に表示し、
発話者がいると判定された前記複数の他拠点からの画像のうち、現に発話している発話者がいる他拠点からの画像を前記所定サイズよりも大きい第1の拡大サイズで表示し、発話を中断中の発話者がいる他拠点からの画像を前記第1の拡大サイズよりも小さく前記所定サイズよりも大きい第2の拡大サイズで表示するプログラム。

A program used in a communication device used in any one site in order to share information by transmitting and receiving images and sounds via a communication network between at least three sites,
A procedure for determining the presence or absence of a speaker at the other base based on information about at least two voices individually sent from at least two other bases different from the one base;
An image sent via the communication network from another site determined to have no speaker in the determining procedure is displayed on the display screen in a predetermined size, and it is determined that there is a speaker in the determining procedure . A procedure for displaying an image sent from another site via the communication network on the display surface in an enlarged size larger than the predetermined size,
In the determination procedure, when it is considered that the state where the volume level at each of the at least two other sites is equal to or greater than a threshold value continues for a predetermined time, it is determined that there is a speaker at the other site,
In the displaying procedure ,
When it is determined in the determining procedure that there are speakers at a plurality of other sites, a plurality of images individually sent from the plurality of other sites are displayed together on the display surface in the enlarged size ,
Of the images from the plurality of other sites determined to have a speaker, an image from the other site where the speaker who is currently speaking is displayed in a first enlarged size larger than the predetermined size, A program for displaying an image from another base where a speaker who is interrupting the voice is interrupted in a second enlarged size smaller than the first enlarged size and larger than the predetermined size .

JP2013122481A 2013-06-11 2013-06-11 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM Expired - Fee Related JP6268510B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013122481A JP6268510B2 (en) 2013-06-11 2013-06-11 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM
US14/290,031 US9288437B2 (en) 2013-06-11 2014-05-29 Communication device, communication method, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013122481A JP6268510B2 (en) 2013-06-11 2013-06-11 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2014241468A JP2014241468A (en) 2014-12-25
JP6268510B2 true JP6268510B2 (en) 2018-01-31

Family

ID=52005137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013122481A Expired - Fee Related JP6268510B2 (en) 2013-06-11 2013-06-11 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM

Country Status (2)

Country Link
US (1) US9288437B2 (en)
JP (1) JP6268510B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189532A (en) * 2015-03-30 2016-11-04 日本電気株式会社 Video conference system, video conference controller, and video conference control method
JP6582874B2 (en) * 2015-10-28 2019-10-02 株式会社リコー COMMUNICATION SYSTEM, COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM
KR101843557B1 (en) * 2016-03-31 2018-03-30 에이케이엔코리아 주식회사 Method for video communication by multiple accessing and repeating apparatus for the same method
KR101819964B1 (en) * 2016-04-14 2018-01-22 엘에스디테크 주식회사 Video chatting service system
JP7024451B2 (en) * 2018-01-29 2022-02-24 大日本印刷株式会社 Telemedicine terminal device and computer program
KR102453084B1 (en) 2018-04-17 2022-10-12 삼성전자주식회사 Electronic apparatus and method for controlling thereof

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07336660A (en) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd Video conference system
JPH09261608A (en) * 1996-03-27 1997-10-03 Nec Software Ltd Video conference terminal equipment and video conference image processor
JPH1093943A (en) 1996-09-13 1998-04-10 Ricoh Co Ltd Video conference terminal equipment
JP2002027143A (en) * 2000-07-12 2002-01-25 Minolta Co Ltd Communication terminal
JP2003299051A (en) * 2002-03-29 2003-10-17 Matsushita Electric Ind Co Ltd Information output unit and information outputting method
JP2005151002A (en) * 2003-11-13 2005-06-09 Nec Soft Ltd Remote conference system
WO2007063922A1 (en) * 2005-11-29 2007-06-07 Kyocera Corporation Communication terminal and communication system, and display method of communication terminal
JP4776363B2 (en) * 2005-12-07 2011-09-21 シャープ株式会社 Communication terminal device and communication system
JP2008067078A (en) * 2006-09-07 2008-03-21 Toshiba Corp Portable terminal apparatus
JP2008294724A (en) * 2007-05-24 2008-12-04 Panasonic Corp Image receiver
EP2292016B1 (en) * 2008-06-09 2014-12-17 Vidyo, Inc. Improved view layout management in scalable video and audio communication systems
US8350891B2 (en) * 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
GB201017382D0 (en) * 2010-10-14 2010-11-24 Skype Ltd Auto focus
JP2014171157A (en) 2013-03-05 2014-09-18 Ricoh Co Ltd Communication device and communication method

Also Published As

Publication number Publication date
US20140362168A1 (en) 2014-12-11
US9288437B2 (en) 2016-03-15
JP2014241468A (en) 2014-12-25

Similar Documents

Publication Publication Date Title
JP6268510B2 (en) COMMUNICATION DEVICE, COMMUNICATION METHOD, AND PROGRAM
JP5776313B2 (en) Conference equipment
JP7080636B2 (en) system
JP6260926B2 (en) COMMUNICATION DEVICE, COMMUNICATION SYSTEM, COMMUNICATION DEVICE OPERATION METHOD, AND PROGRAM
JP2014171157A (en) Communication device and communication method
CN110166890B (en) Audio playing and collecting method and device and storage medium
JP2014173709A (en) Suction cup and electronic apparatus
JP2012054813A (en) Casing of conference apparatus, and conference apparatus
WO2020199986A1 (en) Video call method and terminal device
WO2020019981A1 (en) Electronic device and call answering method
JP2014187230A (en) Electronic apparatus and communication device
CN110460717B (en) Terminal control method and mobile terminal
US20100201532A1 (en) Method and apparatus for providing alarm function in portable terminal having projection function
WO2021031715A1 (en) Incoming call processing method, and electronic apparatus
JP2014176042A (en) Communication device, and voice input/output unit control method
JP2008046557A (en) Pocket signal handling apparatus and wearable display
JP6071054B2 (en) Communication device and method for controlling voice input / output unit
JP2014241524A (en) Communication device, communication system, program, and communication device using method
JP2014176043A (en) Communication device, echo cancel performance evaluation method and positional relationship propriety notification method
JP2013243433A (en) Conference device
KR100678104B1 (en) Method for controlling resource of external device in wireless terminal
JP6500366B2 (en) Management device, terminal device, transmission system, transmission method and program
CN111756893A (en) Audio output method, electronic device, and medium
JP2014179714A (en) Communication device, image display method and program
JP2016082449A (en) Communication device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171213

R151 Written notification of patent or utility model registration

Ref document number: 6268510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees