JP7225735B2 - VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL - Google Patents

VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL Download PDF

Info

Publication number
JP7225735B2
JP7225735B2 JP2018220885A JP2018220885A JP7225735B2 JP 7225735 B2 JP7225735 B2 JP 7225735B2 JP 2018220885 A JP2018220885 A JP 2018220885A JP 2018220885 A JP2018220885 A JP 2018220885A JP 7225735 B2 JP7225735 B2 JP 7225735B2
Authority
JP
Japan
Prior art keywords
directivity
information
communication terminal
line
video conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018220885A
Other languages
Japanese (ja)
Other versions
JP2020088618A (en
Inventor
怜士 川▲崎▼
龍彦 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2018220885A priority Critical patent/JP7225735B2/en
Publication of JP2020088618A publication Critical patent/JP2020088618A/en
Application granted granted Critical
Publication of JP7225735B2 publication Critical patent/JP7225735B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本願は、ビデオ会議システム、通信端末、及び通信端末のマイクロホンの制御方法に関する。 The present application relates to a video conferencing system, a communication terminal, and a method of controlling a microphone of a communication terminal.

複数の遠隔地を結んで双方向の画像および音声による会議を行うビデオ会議システムが普及している。また、複数のマイクロホンの出力音声を信号処理し、所定の方向の集音の感度を高くする(集音の指向性を制御する)ことで、発言者の音声を高感度に集音し、周囲の不要な音の集音を抑制するビームフォーミング技術が知られている。 2. Description of the Related Art A video conference system that connects a plurality of remote locations and conducts a two-way image and audio conference has become popular. In addition, by signal processing the output sound of multiple microphones and increasing the sensitivity of sound collection in a predetermined direction (controlling the directivity of sound collection), the speaker's voice can be collected with high sensitivity and beamforming technology for suppressing the collection of unnecessary sound is known.

一方、ビデオ会議システムでは、ビデオ会議を実行する各拠点に配置された通信端末のうちの何れか1つの通信端末において、音が発生した領域(方向)に基づき、マイクロホンの集音の指向性を決定する技術が開示されている(例えば、特許文献1参照)。 On the other hand, in a video conference system, the directivity of sound collection of a microphone is adjusted based on the area (direction) in which sound is generated in any one communication terminal among the communication terminals arranged at each base where the video conference is performed. A technique for determining is disclosed (see Patent Document 1, for example).

しかしながら、特許文献1の技術では、ビデオ会議の参加者の周囲で大きな音が発生した際に、その音の発生源の方向にマイクロホンの集音の指向性を誤って決定する場合があった。 However, with the technique of Patent Document 1, when a loud sound is generated around the participants of the video conference, there are cases where the directivity of the sound collection of the microphone is erroneously determined in the direction of the source of the sound.

本発明は、上記の点に鑑みてなされたものであって、マイクロホンの集音の指向性を適切に決定することを課題とする。 SUMMARY OF THE INVENTION It is an object of the present invention to appropriately determine the directivity of sound collected by a microphone.

開示の技術の一態様に係るビデオ会議システムは、複数の通信端末と、前記通信端末に画像を出力するカメラと、前記通信端末に音声を出力するマイクロホンと、を備え、ビデオ会議を実行するビデオ会議システムであって、前記通信端末は、前記画像から検出した前記ビデオ会議の参加者の視線を示す視線情報を蓄積する視線情報蓄積部と、蓄積された前記視線情報に基づき、前記マイクロホンの集音の指向性を決定する指向性決定部と、決定された前記指向性の情報を記憶する指向性情報記憶部と、記憶された前記指向性の情報を更新する指向性情報更新部と、を有し、前記指向性決定部は、前記指向性情報記憶部を参照して取得した前記指向性の情報に基づき、前記指向性を決定するA video conference system according to an aspect of the disclosed technology includes a plurality of communication terminals, a camera that outputs images to the communication terminals, and a microphone that outputs audio to the communication terminals, and a video conference system for executing a video conference. In the conference system, the communication terminal includes a line-of-sight information accumulation unit for accumulating line-of-sight information indicating a line-of-sight of a participant in the video conference detected from the image; a directivity determining unit that determines the directivity of sound; a directivity information storage unit that stores the determined directivity information; and a directivity information updating unit that updates the stored directivity information. The directivity determination unit determines the directivity based on the directivity information acquired by referring to the directivity information storage unit.

本発明の一実施形態によれば、マイクロホンの集音の指向性を適切に決定することができる。 According to an embodiment of the present invention, it is possible to appropriately determine the directivity of sound collection by a microphone.

実施形態に係るビデオ会議システムの構成の一例を説明する図である。It is a figure explaining an example of a structure of the video conference system which concerns on embodiment. 実施形態に係る通信端末のハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the communication terminal which concerns on embodiment. 第1の実施形態に係る通信端末の機能構成の一例を示すブロック図である。2 is a block diagram showing an example of functional configuration of a communication terminal according to the first embodiment; FIG. 参加者の視線の一例を説明する図である。It is a figure explaining an example of a participant's line of sight. 第1の実施形態に係る視線情報の一例を説明する図である。It is a figure explaining an example of line-of-sight information concerning a 1st embodiment. 第1の実施形態に係る時間に応じた視線変化の一例を説明する図である。It is a figure explaining an example of a line-of-sight change according to time concerning a 1st embodiment. 第1の実施形態に係る注目領域の一例を説明する図である。FIG. 4 is a diagram illustrating an example of a region of interest according to the first embodiment; FIG. 第1の実施形態に係るサブパケットに含まれる情報の一例を説明する図である。4 is a diagram illustrating an example of information included in a subpacket according to the first embodiment; FIG. マイクロホンの集音の指向性について説明する図であり、(a)はビームフォーミングの集音方向を説明する図であり、(b)は注目領域情報と集音方向との対応関係を説明する図である。FIG. 4A is a diagram for explaining the directivity of sound collection by a microphone, FIG. 4A is a diagram for explaining the sound collection direction of beam forming, and FIG. is. 第1の実施形態に係る注目領域の検出処理の一例を示すフローチャートである。6 is a flowchart illustrating an example of attention area detection processing according to the first embodiment; 第1の実施形態に係る指向性の制御処理の一例を示すフローチャートである。6 is a flowchart showing an example of directivity control processing according to the first embodiment; 第1の実施形態に係るビデオ会議システムの動作の一例を示すシーケンス図である。4 is a sequence diagram showing an example of the operation of the video conference system according to the first embodiment; FIG. 第1の実施形態に係るビデオ会議システムの効果の一例を説明する図であり、(a)は比較例に係る通信端末を用いるビデオ会議を説明する図であり、(b)は第1の実施形態に係る通信端末を用いるビデオ会議を説明する図である。FIG. 2A is a diagram illustrating an example of the effect of the videoconference system according to the first embodiment, FIG. 4A is a diagram illustrating a videoconference using a communication terminal according to a comparative example, and FIG. FIG. 4 is a diagram for explaining a video conference using communication terminals according to the embodiment; 第2の実施形態に係る通信端末の機能構成の一例を示すブロック図である。FIG. 11 is a block diagram showing an example of a functional configuration of a communication terminal according to the second embodiment; FIG. 第2の実施形態に係るビデオ会議システムの動作の一例を示すシーケンス図である。FIG. 11 is a sequence diagram showing an example of the operation of the video conference system according to the second embodiment; 第3の実施形態に係る通信端末の機能構成の一例を示すブロック図である。FIG. 14 is a block diagram showing an example of a functional configuration of a communication terminal according to a third embodiment; FIG. 第3の実施形態に係る入力画面の一例を説明する図である。It is a figure explaining an example of the input screen which concerns on 3rd Embodiment.

以下、図面を参照して発明を実施するための形態について説明する。各図面において、同一の構成部分には同一符号を付し、重複した説明を省略する場合がある。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments for carrying out the invention will be described with reference to the drawings. In each drawing, the same components are denoted by the same reference numerals, and redundant description may be omitted.

実施形態では、拠点Aに設置された通信端末2A、或いは2Bを例に説明する場合があるが、何れの拠点に設置された通信端末2も、説明に係る通信端末2A、或いは2Bと同様の機能を有し、同様の動作を実行可能であるものとする。 In the embodiment, the communication terminal 2A or 2B installed at the site A may be described as an example, but the communication terminal 2 installed at any site may be the same as the communication terminal 2A or 2B according to the description. It shall have the function and be capable of performing similar operations.

<実施形態に係るビデオ会議システムの構成>
図1は、実施形態に係るビデオ会議システムの構成の一例を説明する図である。図1に示すように、拠点Aに通信端末2Aが設置され、拠点Bに通信端末2Bが設置されている。通信端末2A及び2B(以下では、区別しない場合は、通信端末2という)は、インターネットやLAN(Local Area Network)等のネットワーク3を介してサーバ4と接続されている。但し、これに限定されるものではなく、ビデオ会議システム1に含まれる通信端末2の数(拠点の数)は任意に変更可能である。
<Configuration of Video Conference System According to Embodiment>
FIG. 1 is a diagram illustrating an example configuration of a video conference system according to an embodiment. As shown in FIG. 1, a communication terminal 2A is installed at a site A, and a communication terminal 2B is installed at a site B. As shown in FIG. Communication terminals 2A and 2B (hereinafter referred to as communication terminals 2 when not distinguished) are connected to a server 4 via a network 3 such as the Internet or a LAN (Local Area Network). However, the present invention is not limited to this, and the number of communication terminals 2 (number of bases) included in the video conference system 1 can be changed arbitrarily.

サーバ4は、各通信端末2がサーバ4と接続しているか否かを監視し、ビデオ会議開始時における通信端末2A及び2Bの呼び出し制御等のビデオ会議時に必要な制御を行う。 The server 4 monitors whether or not each communication terminal 2 is connected to the server 4, and performs necessary control during the videoconference, such as call control of the communication terminals 2A and 2B at the start of the videoconference.

ビデオ会議時の通信端末2A及び2Bは、自端末のデータ送信時は、サーバ4に対して画像データ及び音声データの少なくとも1つ(以下、画像・音声データという)を送信し、サーバ4は、相手側の他の通信端末2に対して画像・音声データを送信する。 The communication terminals 2A and 2B at the time of the videoconference transmit at least one of image data and audio data (hereinafter referred to as image/audio data) to the server 4 when transmitting their own data, and the server 4 The image/audio data is transmitted to another communication terminal 2 on the other party's side.

一方、データ受信時は、サーバ4を介して、相手側の他の通信端末2の画像・音声データを受信する。例えば拠点Aと拠点Bでビデオ会議を行った場合、拠点Aの通信端末2Aが送信したデータは、サーバ4を介して拠点Bの通信端末2Bに送信され、他の通信端末2(ビデオ会議に参加していない通信端末2)には送信されない。 On the other hand, when receiving data, image/audio data of another communication terminal 2 on the other party side is received via the server 4 . For example, when a videoconference is held between sites A and B, the data transmitted by the communication terminal 2A of the site A is transmitted to the communication terminal 2B of the site B via the server 4, and is transmitted to the communication terminal 2B of the site B. It is not transmitted to communication terminals 2) not participating.

同様に、拠点Bの通信端末2Bが送信した画像・音声データは、サーバ4を介して、ビデオ会議に参加している拠点Aの通信端末2Aに送信され、会議に参加していない他の通信端末2には送信されない。このような制御を行うことで、複数の通信端末2(複数の拠点間)でビデオ会議を行うことができる。 Similarly, the image/audio data transmitted by the communication terminal 2B at the base B is transmitted via the server 4 to the communication terminal 2A at the base A participating in the videoconference, and is transmitted to other communication terminals not participating in the conference. It is not sent to terminal 2. By performing such control, a video conference can be held between a plurality of communication terminals 2 (between a plurality of bases).

なお、図1に示すビデオ会議システム1の構成は、一例であって他の構成であってもよい。 Note that the configuration of the video conference system 1 shown in FIG. 1 is an example, and other configurations may be used.

また、通信端末2は、通信機能を備えた装置であれば、PJ(Projector:プロジェクタ)、画像形成装置、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。 The communication terminal 2 can be a PJ (Projector), an image forming device, an IWB (Interactive White Board), a digital Output devices such as signage, HUD (Head Up Display) devices, industrial machines, imaging devices, sound collecting devices, medical equipment, network appliances, notebook PCs (Personal Computers), mobile phones, smartphones, tablet terminals, game machines, PDAs ( Personal Digital Assistant), digital camera, wearable PC, desktop PC, or the like.

<実施形態に係る通信端末のハードウェア構成>
次に、実施形態に係る通信端末のハードウェア構成について説明する。図2は、通信端末2のハードウェア構成の一例を説明する図である。通信端末2は一例としてIWBである。
<Hardware Configuration of Communication Terminal According to Embodiment>
Next, the hardware configuration of the communication terminal according to the embodiment will be described. FIG. 2 is a diagram illustrating an example of the hardware configuration of the communication terminal 2. As shown in FIG. The communication terminal 2 is an IWB as an example.

通信端末2は、CPU(Central Proccesing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、SSD(Solid State Drive)204と、ネットワークコントローラ205と、センサコントローラ206と、キャプチャデバイス207とを有している。また通信端末2は、電子ペンコントローラ208と、外部記憶コントローラ209と、GPU210と、ディスプレイコントローラ211と、カメラコントローラ212と、マイクロホンコントローラ213と、スピーカコントローラ214とを有している。これらはバスBを介して相互に接続されている。 The communication terminal 2 includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, an SSD (Solid State Drive) 204, a network controller 205, and a sensor controller 206. , and a capture device 207 . The communication terminal 2 also has an electronic pen controller 208 , an external storage controller 209 , a GPU 210 , a display controller 211 , a camera controller 212 , a microphone controller 213 and a speaker controller 214 . These are interconnected via a bus B.

CPU201は、ROM202やSSD204等の記憶装置からプログラムやデータをRAM203上に読み出し、処理を実行することで、通信端末2全体の制御や機能を実現する演算装置である。 The CPU 201 is an arithmetic unit that realizes the overall control and functions of the communication terminal 2 by reading programs and data from a storage device such as the ROM 202 and the SSD 204 onto the RAM 203 and executing processing.

ROM202は、電源を切ってもプログラムやデータを保持することが可能な不揮発性の半導体メモリ(記憶装置)である。ROM202には、通信端末2の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM203は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。 The ROM 202 is a non-volatile semiconductor memory (storage device) capable of retaining programs and data even when power is turned off. The ROM 202 stores programs and data such as BIOS (Basic Input/Output System) executed when the communication terminal 2 is started, OS settings, and network settings. A RAM 203 is a volatile semiconductor memory (storage device) that temporarily holds programs and data.

SSD204は、IWBの座標検出システム用のアプリケーションや各種データが記憶された不揮発メモリである。なお、座標検出システム用のアプリケーションは、外部メモリ216に記憶された状態で取得されてもよいし、ネットワークコントローラ205を介してサーバ等からダウンロードされてもよい。ネットワークコントローラ205は、ネットワーク3(図1参照)を介してサーバなどと通信する際に通信プロトコルに基づく処理を実行することができる。なお、SSD204はHDD(Hard Disk Drive)であってもよい。 The SSD 204 is a non-volatile memory that stores applications and various data for the IWB coordinate detection system. Note that the application for the coordinate detection system may be obtained while being stored in the external memory 216 or may be downloaded from a server or the like via the network controller 205 . The network controller 205 can execute processing based on a communication protocol when communicating with a server or the like via the network 3 (see FIG. 1). Note that the SSD 204 may be an HDD (Hard Disk Drive).

センサコントローラ206は、IWBの備えるディスプレイ217に、電子ペン215、及び指が接触した場合に、接触位置の座標検出処理を実行することができる。キャプチャデバイス207は、PC221に電気的に接続され、PC221の備える表示装置に表示されている画像、又は映像をキャプチャすることができる。電子ペンコントローラ208は、入力装置である電子ペン215に電気的に接続され、電子ペン215による超音波や赤外線等の発生を制御することができる。 When the electronic pen 215 and a finger touch the display 217 of the IWB, the sensor controller 206 can execute coordinate detection processing of the contact position. The capture device 207 is electrically connected to the PC 221 and can capture images or videos displayed on the display device of the PC 221 . The electronic pen controller 208 is electrically connected to an electronic pen 215 as an input device, and can control generation of ultrasonic waves, infrared rays, and the like by the electronic pen 215 .

外部記憶コントローラ209は、着脱可能な外部メモリ216に対する書き込み、或いは外部メモ216リからの読み出しを行うことができる。外部メモリ216は、USB(Universal Serial Bus)メモリやSDカード等である。 External storage controller 209 can write to or read from removable external memory 216 . The external memory 216 is a USB (Universal Serial Bus) memory, an SD card, or the like.

GPU(Graphics Processing Unit)210は、ディスプレイ217の各ピクセルの画素値を演算する描画専用のプロセッサである。ディスプレイコントローラ211は、ディスプレイ217に電気的に接続されており、GPU210が生成した画像をディスプレイ217に出力することができる。ディスプレイ217は、ビデオ会議を実行する他の通信端末2からネットワーク3を介して伝送されたビデオ会議参加者の映像を表示することができる。 A GPU (Graphics Processing Unit) 210 is a processor dedicated to drawing that calculates the pixel value of each pixel on the display 217 . The display controller 211 is electrically connected to the display 217 and can output images generated by the GPU 210 to the display 217 . The display 217 can display images of videoconference participants transmitted via the network 3 from other communication terminals 2 executing the videoconference.

カメラコントローラ212は、カメラ218に電気的に接続され、カメラ218による撮像を制御することができる。カメラ218は、後述するように、ビデオ会議時の参加者を撮像するために用いられ、カメラ218で撮像された画像から参加者の視線が検出される。カメラコントローラ212は、カメラ218により撮像された画像データをCPU201に出力することができる。なお、参加者の視線検出のために、カメラの代わりに独立した視線センサモジュールを用いてもよい。 Camera controller 212 is electrically connected to camera 218 and can control imaging by camera 218 . As will be described later, the camera 218 is used to capture an image of a participant during the video conference, and the line of sight of the participant is detected from the image captured by the camera 218 . The camera controller 212 can output image data captured by the camera 218 to the CPU 201 . Note that an independent line-of-sight sensor module may be used instead of the camera to detect the line-of-sight of the participant.

マイクロホンコントローラ213は、マイクロホン219に電気的に接続され、マイクロホン219の集音の感度の高さ及び指向性等を制御することができる。なお、マイクロホン219の指向性については、別途詳述する。 The microphone controller 213 is electrically connected to the microphone 219 and can control the sensitivity and directivity of the sound collected by the microphone 219 . Note that the directivity of the microphone 219 will be described later in detail.

スピーカコントローラ214は、スピーカ220に電気的に接続され、スピーカ220により発生させる音の大きさ等を制御することができる。 The speaker controller 214 is electrically connected to the speaker 220 and can control the volume of sound generated by the speaker 220 and the like.

<第1の実施形態に係る通信端末の機能構成>
次に、第1の実施形態に係るビデオ会議システムについて説明する。先ず、第1の実施形態に係る通信端末の機能構成について説明する。図3は、本実施形態に係る通信端末の機能構成の一例を説明するブロック図である。
<Functional Configuration of Communication Terminal According to First Embodiment>
Next, a video conference system according to the first embodiment will be described. First, the functional configuration of the communication terminal according to the first embodiment will be explained. FIG. 3 is a block diagram illustrating an example of the functional configuration of the communication terminal according to this embodiment.

通信端末2Aは、撮像部21と、視線検出部22と、視線情報蓄積部23と、注目領域検出部24と、サブパケット生成部25と、送信部26と、受信部27と、指向性決定部28と、指向性制御部29とを有している。 The communication terminal 2A includes an imaging unit 21, a line-of-sight detection unit 22, a line-of-sight information storage unit 23, an attention area detection unit 24, a subpacket generation unit 25, a transmission unit 26, a reception unit 27, and a directivity determination unit. , and a directivity control unit 29 .

撮像部21は、ビデオ会議に参加している拠点Aでの参加者の画像を撮像し、撮像した画像情報を視線検出部22に出力する機能を有する。参加者の画像には、参加者の視線を検出するために、少なくとも参加者の目が含まれている。 The imaging unit 21 has a function of capturing an image of a participant at the base A participating in the video conference and outputting the captured image information to the line-of-sight detection unit 22 . The participant's image includes at least the participant's eyes in order to detect the participant's line of sight.

視線検出部22は、撮像部21から入力した画像情報から参加者の視線を検出し、視線情報蓄積部23に出力する機能を有する。また、視線情報蓄積部23は視線検出部22から入力した視線情報を蓄積する機能を有する。 The line-of-sight detection unit 22 has a function of detecting the line-of-sight of the participant from the image information input from the imaging unit 21 and outputting it to the line-of-sight information storage unit 23 . Also, the line-of-sight information accumulation unit 23 has a function of accumulating the line-of-sight information input from the line-of-sight detection unit 22 .

ここで、図4は、参加者の視線の一例を説明する図である。図4は、拠点Aでの参加者101が、拠点Bでの参加者102a~102dの映像が表示されているディスプレイ217を観察している様子を示している。 Here, FIG. 4 is a diagram illustrating an example of a participant's line of sight. FIG. 4 shows participant 101 at site A observing display 217 on which images of participants 102a to 102d at site B are displayed.

例えば、拠点Bで参加者102aが発言をした場合、参加者101はディスプレイ217で参加者102aが表示されている領域に視線を向け、また参加者102dが発言をした場合、参加者101はディスプレイ217で参加者102dが表示されている領域に視線を向ける。参加者の視線情報は、このように、参加者101がディスプレイ217で視線を向けている領域を示す情報をいう。 For example, when the participant 102a speaks at the base B, the participant 101 turns his/her gaze to the area where the participant 102a is displayed on the display 217, and when the participant 102d speaks, the participant 101 looks at the display area. At 217, look at the area where participant 102d is displayed. The line-of-sight information of the participant thus refers to information indicating the area to which the line-of-sight of the participant 101 is directed on the display 217 .

視線検出部22は、拠点Aで撮像部21が撮像した参加者の画像を画像処理することで、視線情報を検出することができる。視線検出部22は、画像処理として、例えば、画像から人物の目の黒目に該当する画像領域を抽出し、黒目の重心位置座標を視線情報として算出する処理を実行することができる。視線検出の画像処理方法には、公知技術を適用することができるため、ここでは詳細な説明を省略する。 The line-of-sight detection unit 22 can detect line-of-sight information by processing the image of the participant captured by the imaging unit 21 at the site A. FIG. As image processing, the line-of-sight detection unit 22 can execute, for example, a process of extracting an image region corresponding to the iris of a person's eye from an image and calculating the barycentric position coordinates of the iris as line-of-sight information. Since a well-known technique can be applied to the image processing method for line-of-sight detection, detailed description thereof is omitted here.

図5は、視線検出部22が検出し、視線情報蓄積部23が蓄積する視線情報の一例を説明する図である。視線検出部22は、時間に応じて変化する参加者の視線を検出し、順次に視線情報蓄積部23に出力することができる。また、視線情報蓄積部23は、図5に示すように、視線情報を示す重心位置座標を時間毎で蓄積することができる。 FIG. 5 is a diagram illustrating an example of line-of-sight information detected by the line-of-sight detection unit 22 and accumulated by the line-of-sight information accumulation unit 23. As shown in FIG. The line-of-sight detection unit 22 can detect the line-of-sight of the participant, which changes with time, and sequentially output it to the line-of-sight information accumulation unit 23 . In addition, as shown in FIG. 5, the line-of-sight information accumulation unit 23 can accumulate barycentric position coordinates indicating line-of-sight information for each time.

ここで、図6は、時間に応じた視線変化の一例を説明する図である。図6は、ディスプレイ217上での視線の軌跡を表す視線情報分布61を示している。 Here, FIG. 6 is a diagram illustrating an example of line-of-sight changes over time. FIG. 6 shows a line-of-sight information distribution 61 representing the line-of-sight trajectory on the display 217 .

拠点Aでのビデオ会議の参加者が複数人いる場合は、視線検出部22は各人の視線情報を検出し、視線情報蓄積部23は、人数分の視線情報を蓄積することができる。 When there are a plurality of participants in the video conference at the site A, the line-of-sight detection unit 22 can detect the line-of-sight information of each person, and the line-of-sight information accumulation unit 23 can accumulate the line-of-sight information for the number of participants.

図3に戻り、各機能部の説明を続ける。 Returning to FIG. 3, the description of each functional unit is continued.

注目領域検出部24は、視線情報蓄積部23が蓄積した視線情報に基づき、拠点Aで参加者が注目している注目領域を検出し、検出した注目領域情報をサブパケット生成部25に出力する機能を有する。 The attention area detection unit 24 detects an attention area that the participant is paying attention to at the base A based on the line-of-sight information accumulated by the line-of-sight information accumulation unit 23, and outputs the detected attention area information to the sub-packet generation unit 25. have a function.

例えば、注目領域検出部24は、視線が集中する時間を閾値とし、予め定められた時間閾値以上に視線が集中した領域を注目領域として検出することができる。具体的には、時間閾値を2秒とし、視線検出の検出時間間隔を10ミリ秒とすると、20回以上の検出で同じ領域に視線が向けられていた場合、注目領域検出部24は、この領域を注目領域として検出することができる。 For example, the attention area detection unit 24 can detect, as an attention area, an area in which the line of sight is concentrated for a predetermined time threshold or longer, using the time period during which the line of sight is concentrated as a threshold. Specifically, if the time threshold is set to 2 seconds and the detection time interval for line-of-sight detection is set to 10 milliseconds, when the line-of-sight is directed to the same area in 20 or more detections, the attention area detection unit 24 detects this A region can be detected as a region of interest.

なお、この「領域」は、注目領域を検出する単位領域として予め決定されている。単位領域は、1×1画素の領域や10×10画素の領域等を任意に設定することができる。時間を閾値にすることで、参加者が凝視した領域を注目領域として検出することができる。 Note that this "area" is determined in advance as a unit area for detecting the attention area. The unit area can be arbitrarily set to a 1×1 pixel area, a 10×10 pixel area, or the like. By using the time as a threshold, it is possible to detect the area that the participant gazed at as the attention area.

また、注目領域検出部24は、視線が集中する回数を閾値とし、予め定められた回数閾値以上に視線が集中した領域を注目領域として検出することもできる。時間を閾値にした場合との違いとしては、同じ領域を複数回の検出で連続して取得した場合に、集中した時間によらず1回とカウントする点である。 Further, the attention area detection unit 24 can detect the area where the line of sight is concentrated more than a predetermined number of times as the attention area, using the number of times the line of sight is concentrated as a threshold. The difference from the case where time is used as a threshold is that when the same region is continuously acquired by multiple detections, it is counted as one regardless of the concentrated time.

具体的には、回数の閾値を10回とし、視線検出の検出時間間隔を10ミリ秒とすると、同じ領域が不連続に10回検出された場合に、注目領域検出部24は、この領域を注目領域として検出することができる。回数を閾値にすることで、注目しているときに時折視線を外すことがあっても、適切に注目領域を検出することが可能となる。 Specifically, if the threshold for the number of times is set to 10 times and the detection time interval for line-of-sight detection is set to 10 milliseconds, when the same area is detected discontinuously 10 times, the attention area detection unit 24 detects this area. It can be detected as a region of interest. By using the number of times as a threshold, it is possible to appropriately detect the attention area even if the line of sight is sometimes lost while the user is paying attention.

また、注目領域検出部24は、視線を集中した参加者の人数を閾値として、予め定められた人数閾値以上の参加者が視線を集中した領域を注目領域として検出することもできる。拠点Aでのビデオ会議の参加者が複数いる場合は、視線情報分布61(図6)が人数分得られるが、注目領域検出部24は、閾値以上の人数の参加者の視線が集中した領域を、注目領域として検出することができる。 Further, the attention area detection unit 24 can detect, as an attention area, an area where a predetermined number of participants or more have focused their gazes, using the number of participants whose gazes are concentrated as a threshold. When there are a plurality of participants in the video conference at base A, line-of-sight information distribution 61 (FIG. 6) is obtained for each number of participants. can be detected as a region of interest.

人数を閾値にすることで、よそ見をしている参加者がいたとしても、他の参加者の視線情報から適切に注目領域を検出することが可能となる。 By using the number of people as a threshold, it is possible to appropriately detect an attention area from the line-of-sight information of other participants even if there is a participant who is looking away.

注目領域を検出するための閾値は、上述の時間、回数、及び人数を組み合わせて用いてもよい。組み合わせることで、注目領域の検出精度をより向上させることができる。 A threshold value for detecting a region of interest may be used by combining the above time, number of times, and number of people. By combining them, it is possible to further improve the detection accuracy of the attention area.

図7は、注目領域の一例を説明する図である。視線情報分布61において、破線で囲った領域62a~62dが注目領域として検出されている。 FIG. 7 is a diagram illustrating an example of a region of interest. In the line-of-sight information distribution 61, areas 62a to 62d surrounded by broken lines are detected as attention areas.

図3に戻り、説明を各機能部の説明を続ける。 Returning to FIG. 3, the description continues with the description of each functional unit.

サブパケット生成部25は、注目領域検出部24が検出した注目領域情報を入力し、拠点B等の他拠点に送信するためのサブパケットを生成し、送信部26に出力する機能を有する。また送信部26は、入力したサブパケットを、参加者の映像及び音声や同期データ等の会議データに含ませて、他の拠点に送信する機能を有する。なお、送信部26がサブパケットを送信する他の拠点に設置された通信端末2Bは、「他の第1通信端末」の一例である。また、注目領域検出部24が検出した注目領域情報は、「所定の座標情報」の一例である。 The sub-packet generation unit 25 has a function of receiving the attention area information detected by the attention area detection unit 24 , generating a sub-packet for transmission to another site such as the site B, and outputting the sub-packet to the transmission unit 26 . The transmission unit 26 also has a function of including the input subpacket in conference data such as video and audio of participants and synchronization data, and transmitting the conference data to another base. The communication terminal 2B installed at another site to which the transmission unit 26 transmits subpackets is an example of "another first communication terminal". Also, the attention area information detected by the attention area detection unit 24 is an example of "predetermined coordinate information".

ここで、図8は、サブパケットに含まれる情報の一例を説明する図である。図8では、注目領域のX、Y座標が一覧で示されている。単位領域が複数画素(10×10画素等)で構成される場合は、単位領域の中心座標等が注目領域の座標情報となる。 Here, FIG. 8 is a diagram illustrating an example of information included in a subpacket. In FIG. 8, the X and Y coordinates of the attention area are shown in a list. When the unit area is composed of a plurality of pixels (10×10 pixels, etc.), the center coordinates of the unit area and the like become the coordinate information of the attention area.

ここで、サブパケット生成部25は、注目領域の全ての座標情報ではなく、一部の座標情報からサブパケットを生成してもよい。一部の座標としては、X座標の最大値、X座標の最小値、Y座標の最大値、及びY座標の最小値の少なくとも1つ等が挙げられる。 Here, the subpacket generation unit 25 may generate subpackets from not all the coordinate information of the attention area, but part of the coordinate information. Some coordinates include at least one of a maximum X coordinate, a minimum X coordinate, a maximum Y coordinate, and a minimum Y coordinate.

マイクロホン219の指向性の決定(詳細は後述)に影響が大きいのは、注目領域のうちの端部の領域であるため、最大値及び最小値という端部のデータからサブパケットを生成してもよい。また、Y座標と比較してX座標は指向性の決定に影響が大きいため、X座標からサブパケットを生成してもよい。このように注目領域の一部の座標情報からサブパケットを生成することで、送信するデータ量を削減し、通信の負荷を低減し、また通信速度を上げることができる。 Since it is the edge area of the attention area that greatly affects the determination of the directivity of the microphone 219 (details will be described later), even if subpackets are generated from the edge data such as the maximum value and the minimum value, good. In addition, since the X coordinate has a greater influence on determination of directivity than the Y coordinate, subpackets may be generated from the X coordinate. By generating subpackets from the coordinate information of a part of the attention area in this way, the amount of data to be transmitted can be reduced, the communication load can be reduced, and the communication speed can be increased.

一方で、ビデオ会議を行う他の拠点で、同じ画素数、及び/又は画面サイズのディスプレイを使用しているとは限らない。そのため、この差異に起因して、注目領域情報に基づいたマイクロホン219の指向性の決定を適切に行えない場合がある。 On the other hand, it is not always the case that other locations where video conferences are held use displays with the same number of pixels and/or screen size. Therefore, due to this difference, it may not be possible to appropriately determine the directivity of the microphone 219 based on the attention area information.

そこで、サブパケット生成部25は、注目領域情報とともに、製品のモデル識別番号をサブパケットに含めてもよい。受信側でディスプレイの画素数、及び/又は画面サイズの差異の影響を補正することで、適切にマイクロホン219の指向性を決定することができる。 Therefore, the subpacket generator 25 may include the model identification number of the product in the subpacket together with the region-of-interest information. The directivity of the microphone 219 can be appropriately determined by correcting the influence of the difference in the number of pixels of the display and/or the screen size on the receiving side.

ここで、マイクロホン219の集音の指向性について説明する。本実施形態では、マイクロホン219の集音の指向性の制御のために、ビームフォーミング技術を用いることができる。マイクロホンのビームフォーミング(以降では、単にビームフォーミングという)とは、複数のマイクロホンを用い、所定の方向に音波の指向性を高める技術である。 Here, the directivity of the sound collected by the microphone 219 will be described. In this embodiment, beam forming technology can be used for controlling the directivity of the sound collected by the microphone 219 . Beamforming of microphones (hereinafter simply referred to as beamforming) is a technique of using a plurality of microphones to increase the directivity of sound waves in a predetermined direction.

具体的には、複数のマイクロホンが出力する音声を信号処理することで、集音の感度を所定の方向では高く、それ以外の方向では低くするようにする。これにより、ビデオ会議において、発言者の音は集音感度を上げて聞こえやすくし、周囲の不要な音は集音感度を下げて聞こえ難くすることができる。 Specifically, by signal-processing sounds output from a plurality of microphones, the sensitivity of sound collection is made high in a predetermined direction and low in other directions. As a result, in a video conference, the sound collection sensitivity of the speaker can be increased to make it easier to hear, and the sound collection sensitivity of unnecessary surrounding sounds can be lowered to make it harder to hear.

図9は、マイクロホンの集音の指向性について説明する図である。(a)はビームフォーミングの集音方向を説明する図であり、(b)は注目領域情報と集音方向との対応関係を説明する図である。 FIG. 9 is a diagram for explaining the directivity of sound collected by a microphone. (a) is a diagram for explaining the sound collection direction of beam forming, and (b) is a diagram for explaining the correspondence relationship between attention area information and the sound collection direction.

本実施形態では、図9(a)に示すように、ディスプレイ217のディスプレイ面に垂直な方向を集音方向の0度とし、図中左側に回転する方向を正の集音方向とし、右側に回転する方向を負の集音方向としている。また、図9(a)の±90度方向(水平方向)に対応する方向を撮像部21による画像のX方向とした場合に、注目領域情報と集音方向とを図6(b)に示す対応関係としている。 In this embodiment, as shown in FIG. 9A, the direction perpendicular to the display surface of the display 217 is 0 degrees of the sound collection direction, the direction rotating leftward in the figure is the positive sound collection direction, and the right direction is the sound collection direction. The direction of rotation is the negative sound collection direction. FIG. 6B shows attention area information and sound collecting directions when the direction corresponding to the ±90 degree direction (horizontal direction) in FIG. Corresponding relationship.

図6(b)の対応関係を参照して、注目領域情報のX座標に基づき、マイクロホンの集音方向の最大値と最小値を示す角度、すなわち指向性を設定することができる。例えば、注目領域情報のX座標の最大値が280画素で最小値が240画素の場合、指向性は最小値0度~最大値25度に設定され、この方向に位置する参加者101a及び101bの発する音に対する集音感度が上がり、逆に参加者101c及び101dの発する音に対する集音感度は下がる。このようにして注目領域に応じて指向性が決定される。図9(b)の対応関係を示すデータは、予め決定され、SSD204等のメモリに記憶されている。 With reference to the correspondence relationship shown in FIG. 6B, it is possible to set the angle indicating the maximum value and minimum value of the sound collecting direction of the microphone, that is, the directivity, based on the X-coordinate of the attention area information. For example, when the maximum value of the X coordinate of the attention area information is 280 pixels and the minimum value is 240 pixels, the directivity is set to a minimum value of 0 degrees to a maximum value of 25 degrees, and the participants 101a and 101b positioned in this direction are The sound collection sensitivity for the sounds emitted by the participants 101c and 101d is decreased. In this way, the directivity is determined according to the attention area. Data indicating the correspondence relationship in FIG. 9B is determined in advance and stored in a memory such as the SSD 204 .

なお、注目領域情報のY座標は、ディスプレイから参加者までの距離に対応するため、参加者までの距離が長い場合は、マイクロホンの集音感度を上げる等、Y座標の値に応じてマイクロホンの集音感度を決定してもよい。 Note that the Y coordinate of the attention area information corresponds to the distance from the display to the participants. Sound collection sensitivity may be determined.

図3に戻り、各機能部の説明を続けると、受信部27は、他の拠点から注目領域情報を受信し、指向性決定部28に出力する機能を有する。なお、受信部27が受信する注目領域情報を送信する、他の拠点に設置された通信端末2Bは、「他の第2通信端末」の一例である。なお、上述の「他の第1の通信端末」と「他の第2の通信端末」は、同じ通信端末であってもよいし、異なる通信端末であってもよい。 Returning to FIG. 3 and continuing the description of each functional unit, the receiving unit 27 has a function of receiving attention area information from other bases and outputting it to the directivity determination unit 28 . Note that the communication terminal 2B installed at another site, which transmits the attention area information received by the receiving unit 27, is an example of "another second communication terminal." It should be noted that the above-mentioned "another first communication terminal" and "another second communication terminal" may be the same communication terminal or different communication terminals.

指向性決定部28は、受信部27が受信した注目領域情報に基づき、SSD204等に記憶された図9(b)の対応関係を示すデータを参照してマイクロホン219の集音の指向性を決定し、決定した指向性情報を指向性制御部29に出力する機能を有する。 Based on the attention area information received by the receiving unit 27, the directivity determining unit 28 determines the directivity of sound collection by the microphone 219 by referring to the data indicating the correspondence shown in FIG. and outputs the determined directivity information to the directivity control unit 29 .

指向性制御部29は、入力した指向性情報に基づき、マイクロホン219の集音の指向性を制御することができる。 The directivity control unit 29 can control the directivity of the sound collected by the microphone 219 based on the input directivity information.

なお、本実施形態では、公知のビームフォーミング技術を適用することができるため、ビームフォーミング制御技術等の詳細な説明は省略する。 In addition, in this embodiment, since a well-known beamforming technique can be applied, detailed description of the beamforming control technique and the like is omitted.

<第1の実施形態に係るビデオ会議システムの動作>
次に、図10は、本実施形態に係る通信端末2Aによる注目領域の検出処理の一例を示すフローチャートである。
<Operation of Video Conference System According to First Embodiment>
Next, FIG. 10 is a flow chart showing an example of detection processing of an attention area by the communication terminal 2A according to this embodiment.

先ず、ステップS101において、撮像部21は、拠点Aでのビデオ会議への参加者の画像を撮像し、撮像した画像情報を視線検出部22に出力する。 First, in step S<b>101 , the imaging unit 21 captures an image of a participant in the video conference at the site A, and outputs captured image information to the line-of-sight detection unit 22 .

続いて、ステップS102において、視線検出部22は、入力した画像情報から参加者の視線を検出し、検出した視線情報を視線情報蓄積部23に出力する。なお、参加者が複数いる場合は、各参加者の視線を検出し、各参加者の視線情報を視線情報蓄積部23に出力する。 Subsequently, in step S<b>102 , the line-of-sight detection unit 22 detects the line-of-sight of the participant from the input image information, and outputs the detected line-of-sight information to the line-of-sight information accumulation unit 23 . If there are a plurality of participants, the line of sight of each participant is detected, and the line of sight information of each participant is output to the line of sight information accumulation unit 23 .

続いて、ステップS103において、視線情報蓄積部23は、入力した視線情報を蓄積する。なお、参加者が複数いる場合は、各参加者の視線情報を蓄積する。 Subsequently, in step S103, the line-of-sight information accumulation unit 23 accumulates the input line-of-sight information. In addition, when there are multiple participants, the line-of-sight information of each participant is accumulated.

続いて、ステップS104において、視線検出部22は、所定の時間を経過したか否かを判定する。この「所定の時間」は、視線情報を蓄積するために予め定められた時間である。 Subsequently, in step S104, the line-of-sight detection unit 22 determines whether or not a predetermined period of time has elapsed. This "predetermined time" is a predetermined time for accumulating line-of-sight information.

所定の時間が経過していないと判断された場合は(ステップS104、No)、ステップS101に戻る。一方、所定の時間が経過していると判断された場合は(ステップS104、Yes)、ステップS105において、注目領域検出部24は、視線情報蓄積部23により蓄積された視線情報に基づき、拠点Aで参加者が注目している注目領域を検出する。そして、検出した注目領域情報をサブパケット生成部25に出力する。 If it is determined that the predetermined time has not passed (step S104, No), the process returns to step S101. On the other hand, if it is determined that the predetermined time has passed (step S104, Yes), in step S105, the attention area detection unit 24 detects the point A based on the line-of-sight information accumulated by the line-of-sight information accumulation unit 23. to detect the region of interest that the participant is paying attention to. Then, the detected attention area information is output to the subpacket generator 25 .

続いて、ステップS106において、サブパケット生成部25は、入力した注目領域情報から拠点B等の他拠点に送信するためのサブパケットを生成し、送信部26に出力する。 Subsequently, in step S<b>106 , the subpacket generation unit 25 generates subpackets for transmission to other bases such as the base B from the input region-of-interest information, and outputs the subpackets to the transmission unit 26 .

続いて、ステップS107において、送信部26は、入力したサブパケットを、参加者の映像及び音声や、同期データ等の会議データに含ませて、拠点B等の他の拠点に送信する。 Subsequently, in step S107, the transmission unit 26 includes the input subpacket in conference data such as video and audio of the participants and synchronization data, and transmits the conference data to the base B and other bases.

このようにして、通信端末2Aは拠点Aでのビデオ会議への参加者の注目領域情報を、拠点B等の他拠点に送信することができる。 In this manner, the communication terminal 2A can transmit attention area information of participants in the video conference at the base A to other bases such as the base B. FIG.

次に、図11は、本実施形態に係る通信端末2Aによる指向性の制御処理の一例を示すフローチャートである。 Next, FIG. 11 is a flowchart showing an example of directivity control processing by the communication terminal 2A according to this embodiment.

先ず、ステップS111において、受信部27は、注目領域情報が含まれるサブパケットを受信したか否かを判定する。注目領域情報が含まれるサブパケットを受信していない場合は(ステップS111、No)、再度ステップS111の処理を実行する。一方、注目領域情報を受信した場合は(ステップS111、Yes)、ステップS112において、受信部27は受信した注目領域情報を指向性決定部28に出力する。指向性決定部28は、入力した注目領域情報に基づき、SSD204等に記憶された注目領域情報と集音方向との対応関係を示すデータを参照し、マイクロホン219の集音の指向性を決定する。そして、決定した指向性情報を指向性制御部29に出力する。 First, in step S111, the receiving unit 27 determines whether or not a subpacket containing attention area information has been received. If no subpacket containing attention area information has been received (step S111, No), the process of step S111 is executed again. On the other hand, if attention area information has been received (step S111, Yes), the reception unit 27 outputs the received attention area information to the directivity determination unit 28 in step S112. Based on the input area-of-interest information, the directivity determining unit 28 refers to data indicating the correspondence relationship between the area-of-interest information and the sound-collecting direction stored in the SSD 204 or the like, and determines the directivity of sound collection by the microphone 219. . Then, the determined directivity information is output to the directivity control section 29 .

続いて、ステップS113において、指向性制御部29は、入力した指向性情報に基づき、マイクロホン219の集音の指向性を制御する。 Subsequently, in step S113, the directivity control unit 29 controls the directivity of sound collection by the microphone 219 based on the input directivity information.

このようにして、通信端末2Aは、拠点B等の他拠点から受信した注目領域情報に基づき、通信端末2Aの備えるマイクロホン219の指向性を決定し、制御することができる。 In this manner, the communication terminal 2A can determine and control the directivity of the microphone 219 included in the communication terminal 2A based on the attention area information received from other sites such as the site B. FIG.

次に、図12は、本実施形態に係るビデオ会議システムの動作の一例を示すシーケンス図である。 Next, FIG. 12 is a sequence diagram showing an example of the operation of the video conference system according to this embodiment.

先ず、ステップS121において、通信端末2Aは、通信端末2Bに対してビデオ会議の開始を要求する信号を送信する。 First, in step S121, the communication terminal 2A transmits a signal requesting the start of the videoconference to the communication terminal 2B.

続いて、ステップS122において、通信端末2Bは、ビデオ会議を開始可能である場合は、その旨を示す要求応答信号を通信端末2Aに送信する。 Subsequently, in step S122, when the communication terminal 2B can start the video conference, the communication terminal 2B transmits a request response signal to that effect to the communication terminal 2A.

続いて、ステップS123において、通信端末2Aは、図10で説明した注目領域検出処理を実行する。 Subsequently, in step S123, the communication terminal 2A executes the attention area detection process described with reference to FIG.

続いて、ステップS124において、通信端末2Aは、注目領域情報を含むサブパケットを、会議データに含めて通信端末Bに送信する。 Subsequently, in step S124, the communication terminal 2A transmits the conference data to the communication terminal B including the subpacket including the attention area information.

続いて、ステップS125において、通信端末2Bは、受信したサブパケットに含まれる注目領域情報に基づいて、図11で説明した指向性の制御処理を実行する。 Subsequently, in step S125, the communication terminal 2B executes the directivity control process described with reference to FIG. 11 based on the attention area information included in the received subpacket.

続いて、ステップS126において、ビデオ会議を終了する場合は、通信端末2Aは、通信端末2Bに対してビデオ会議の終了を要求する信号を送信する。 Subsequently, in step S126, when ending the videoconference, the communication terminal 2A transmits a signal requesting the end of the videoconference to the communication terminal 2B.

続いて、ステップS127において、通信端末2Bは、ビデオ会議を終了可能である場合は、その旨を示す要求応答信号を通信端末2Aに送信する。 Subsequently, in step S127, when the video conference can be terminated, the communication terminal 2B transmits a request response signal to that effect to the communication terminal 2A.

このようにして、ビデオ会議システム1はビデオ会議を実行することができる。 In this manner, the video conference system 1 can conduct video conferences.

<第1の実施形態に係るビデオ会議システムの効果>
次に、本実施形態に係るビデオ会議システムの効果について説明する。
<Effects of the video conference system according to the first embodiment>
Next, effects of the video conference system according to this embodiment will be described.

図13は、本実施形態に係るビデオ会議システムの効果の一例を説明する図である。(a)は比較例に係る通信端末を用いるビデオ会議を説明する図であり、(b)は本実施形態に係る通信端末を用いるビデオ会議を説明する図である。 FIG. 13 is a diagram illustrating an example of the effect of the video conference system according to this embodiment. (a) is a diagram for explaining a video conference using a communication terminal according to a comparative example, and (b) is a diagram for explaining a video conference using a communication terminal according to an embodiment.

図13(a)において、比較例に係る通信端末5Aは、通信端末5Aothに隣接して設置されている。通信端末5Aが使用されるビデオ会議10と、通信端末5Aothが使用されるビデオ会議10othは別のビデオ会議である。また、通信端末5Aは、音の発生した方向(領域)の音声を集音するように、マイクロホンの指向性を制御する機能を備えている。 In FIG. 13A, the communication terminal 5A according to the comparative example is installed adjacent to the communication terminal 5Aoth. The video conference 10 using the communication terminal 5A and the video conference 10oth using the communication terminal 5Aoth are different video conferences. The communication terminal 5A also has a function of controlling the directivity of the microphone so as to collect sound in the direction (area) where the sound is generated.

図13(a)の場合、通信端末5Aと通信端末5Aothとの距離が近いと、通信端末5Aは、ビデオ会議10othの参加者501aの発言に反応し、参加者501aの方向(矢印131)の音声を集音するように、マイクロホンの指向性を誤って決定する場合がある。 In the case of FIG. 13A, when the distance between the communication terminal 5A and the communication terminal 5Aoth is short, the communication terminal 5A reacts to the speech of the participant 501a of the video conference 10oth, and moves in the direction (arrow 131) of the participant 501a. The directionality of the microphone may be erroneously determined to pick up sound.

一方、図13(b)において、本実施形態に係る通信端末2Aは、図13(a)の場合と同様に、通信端末5Aothに隣接して設置されている。また、通信端末2Aが使用されるビデオ会議10と、通信端末5Aothが使用されるビデオ会議10othは別のビデオ会議である。 On the other hand, in FIG. 13(b), the communication terminal 2A according to this embodiment is installed adjacent to the communication terminal 5Aoth, as in the case of FIG. 13(a). Also, the video conference 10 using the communication terminal 2A and the video conference 10oth using the communication terminal 5Aoth are different video conferences.

本実施形態では、上述のように、拠点B等の他拠点の通信端末2Bから送信される注目領域情報に基づき、マイクロホン219の指向性を制御する。別のビデオ会議に参加している参加者501aが拠点Bでの参加者の注目領域に含まれることはないため、参加者501aが発言しても、通信端末2Aはマイクロホン219の指向性を参加者501aの方向に向けるような誤った決定を行うことはない。 In this embodiment, as described above, the directivity of the microphone 219 is controlled based on the area-of-interest information transmitted from the communication terminal 2B at another site such as the site B. FIG. Since participant 501a participating in another videoconference is not included in the participant's attention area at site B, even if participant 501a makes a statement, communication terminal 2A uses the directivity of microphone 219 to participate in the videoconference. It does not make the wrong decision to point in the direction of person 501a.

このようにして、本実施形態では、マイクロホン219の集音の指向性を、ビデオ会議10の参加者101aの方向に、適切に決定することができる。 In this way, in this embodiment, the directivity of the sound collected by the microphone 219 can be appropriately determined in the direction of the participant 101a of the video conference 10. FIG.

なお、通信端末2Aの備える撮像部21は、別のビデオ会議に参加している参加者が撮像した画像に含まれないように、撮像視野が予め設定されていてもよい。これにより、別のビデオ会議に参加している参加者が、拠点Bでの参加者の注目領域に確実に含まれないようにできるため、マイクロホンの指向性を参加者501aの方向に向けるような誤決定を確実に防ぐことができる。 Note that the imaging field of the imaging unit 21 provided in the communication terminal 2A may be set in advance so as not to be included in the images captured by participants participating in another video conference. As a result, since it is possible to ensure that a participant who is participating in another video conference is not included in the attention area of the participant at the base B, the directivity of the microphone is directed toward the participant 501a. An erroneous decision can be reliably prevented.

また、本実施形態では、通信端末2Aは、検出した注目領域情報を他の第1通信端末に送信し、他の第2通信端末から受信した注目領域情報に基づいて指向性を決定する例を説明したが、これに限定されるものではない。 Further, in this embodiment, the communication terminal 2A transmits the detected attention area information to another first communication terminal, and determines the directivity based on the attention area information received from another second communication terminal. Illustrated, but not limited to.

例えば、通信端末2Aは、検出した視線情報を他の第1通信端末に送信し、他の第2通信端末から受信した視線情報を蓄積し、蓄積した視線情報に基づき、注目領域を検出し、検出した注目領域情報に基づいて指向性を決定してもよい。この場合に送信される視線情報は、「所定の座標情報」の一例である。 For example, the communication terminal 2A transmits the detected line-of-sight information to the other first communication terminal, accumulates the line-of-sight information received from the other second communication terminal, detects the attention area based on the accumulated line-of-sight information, Directivity may be determined based on the detected attention area information. The line-of-sight information transmitted in this case is an example of "predetermined coordinate information".

或いは、通信端末2Aは、検出した注目領域に基づき決定した指向性情報を他の第1通信端末に送信し、他の第2通信端末から受信した指向性情報に基づいて指向性を制御してもよい。 Alternatively, the communication terminal 2A transmits the directivity information determined based on the detected attention area to the other first communication terminal, and controls the directivity based on the directivity information received from the other second communication terminal. good too.

ここで、通信端末2Aが注目領域情報、又は指向性情報を他の第1通信端末に送信する場合は、視線情報を他の第1通信端末に送信する場合と比較して、送信するデータ量を削減できる効果を得ることができる。 Here, when the communication terminal 2A transmits the attention area information or the directivity information to the other first communication terminal, the amount of data to be transmitted is compared with the case where the line-of-sight information is transmitted to the other first communication terminal. can be reduced.

[第2の実施形態]
次に、第2の実施形態に係るビデオ会議システムを説明する。なお、既に説明した実施形態と同一の構成部についての説明は省略する。
[Second embodiment]
Next, a video conference system according to the second embodiment will be described. Note that descriptions of components that are the same as those of the already described embodiment will be omitted.

ここで、通信端末2が会議室等の所定の場所に固定されて設置されている場合、参加者が着席する場所は、ビデオ会議毎でほとんど変わらないため、前回行ったビデオ会議で決定された指向性情報を、今回行うビデオ会議でそのまま適用できる場合がある。 Here, if the communication terminal 2 is fixed and installed in a predetermined place such as a conference room, the place where the participants are seated is almost the same for each video conference. The directivity information may be applied as it is in the video conference to be held this time.

そこで、本実施形態では、前回行ったビデオ会議における指向性情報を指向性情報記憶部30に記憶しておき、指向性決定部28aは、今回行うビデオ会議において、指向性情報記憶部30を参照して取得した指向性情報に基づき、指向性を決定する。 Therefore, in the present embodiment, the directivity information in the previous video conference is stored in the directivity information storage unit 30, and the directivity determining unit 28a refers to the directivity information storage unit 30 in the current video conference. Directivity is determined based on the acquired directivity information.

図14は、本実施形態に係るビデオ会議システム1aの備える通信端末2Aaの機能構成の一例を説明するブロック図である。 FIG. 14 is a block diagram illustrating an example of the functional configuration of a communication terminal 2Aa included in the video conference system 1a according to this embodiment.

通信端末2Aaは、指向性決定部28aと、指向性情報記憶部30と、指向性情報更新部31とを有している。 The communication terminal 2</b>Aa has a directivity determining section 28 a , a directivity information storage section 30 and a directivity information updating section 31 .

指向性情報記憶部30は、指向性決定部28aが決定した指向性情報を、指向性情報更新部31を介して入力し、入力した指向性情報を記憶する機能を有する。 The directivity information storage unit 30 has a function of inputting the directivity information determined by the directivity determining unit 28a via the directivity information updating unit 31 and storing the input directivity information.

また指向性決定部28aは、注目領域情報に基づき、マイクロホン219の集音の指向性を決定する機能とともに、指向性情報記憶部30から取得した指向性情報に基づき、マイクロホン219の集音の指向性を決定する機能を有する。 Further, the directivity determination unit 28a has a function of determining the directivity of sound collection of the microphone 219 based on the attention area information, and determines the direction of sound collection of the microphone 219 based on the directivity information acquired from the directivity information storage unit 30. It has the function of determining sex.

指向性情報更新部31は、指向性情報記憶部30に記憶された指向性情報を更新する機能を有する。 The directivity information updating unit 31 has a function of updating the directivity information stored in the directivity information storage unit 30 .

図15は、本実施形態に係るビデオ会議システムの動作の一例を示すシーケンス図である。 FIG. 15 is a sequence diagram showing an example of the operation of the video conference system according to this embodiment.

先ず、ステップS151において、通信端末2Aaは、通信端末2Baに対してビデオ会議の開始を要求する信号を送信する。 First, in step S151, the communication terminal 2Aa transmits a signal requesting the start of the videoconference to the communication terminal 2Ba.

続いて、ステップS152において、通信端末2Baは、ビデオ会議を開始可能である場合は、その旨を示す要求応答信号を通信端末2Aaに送信する。 Subsequently, in step S152, when the communication terminal 2Ba can start the video conference, the communication terminal 2Ba transmits a request response signal to that effect to the communication terminal 2Aa.

続いて、ステップS153において、通信端末2Baは、通信端末2Baの指向性情報記憶部30から取得した指向性情報に基づき、マイクロホン219の集音の指向性を決定する。 Subsequently, in step S153, the communication terminal 2Ba determines the directivity of sound collection of the microphone 219 based on the directivity information acquired from the directivity information storage unit 30 of the communication terminal 2Ba.

続いて、ステップS154において、通信端末2Baは、指向性情報に基づき、マイクロホン219の集音の指向性を制御する。 Subsequently, in step S154, the communication terminal 2Ba controls the directivity of sound collection by the microphone 219 based on the directivity information.

続いて、ステップS155において、通信端末2Aaは、図10で説明した注目領域検出処理を実行する。 Subsequently, in step S155, the communication terminal 2Aa executes the attention area detection process described with reference to FIG.

続いて、ステップS156において、通信端末2Aaは、注目領域情報を含むサブパケットを、会議データに含めて通信端末Baに送信する。 Subsequently, in step S156, the communication terminal 2Aa includes the subpacket including the attention area information in the conference data and transmits the conference data to the communication terminal Ba.

続いて、ステップS157において、通信端末2Baは、受信したサブパケットに含まれる注目領域情報に基づいて、図11で説明した指向性の制御処理を実行する。 Subsequently, in step S157, the communication terminal 2Ba executes the directivity control process described with reference to FIG. 11 based on the attention area information included in the received subpacket.

続いて、ステップS158において、通信端末2Baは、今回決定した指向性情報により、通信端末2Baの指向性情報記憶部30に記憶された指向性情報を更新する。 Subsequently, in step S158, the communication terminal 2Ba updates the directionality information stored in the directionality information storage unit 30 of the communication terminal 2Ba with the directionality information determined this time.

続いて、ステップS159において、ビデオ会議を終了する場合は、通信端末2Aaは、通信端末2Baに対してビデオ会議の終了を要求する信号を送信する。 Subsequently, in step S159, when ending the videoconference, the communication terminal 2Aa transmits a signal requesting the end of the videoconference to the communication terminal 2Ba.

続いて、ステップS160において、通信端末2Baは、ビデオ会議を終了可能である場合は、その旨を示す要求応答信号を通信端末2Aaに送信する。 Subsequently, in step S160, when the video conference can be terminated, the communication terminal 2Ba transmits a request response signal to that effect to the communication terminal 2Aa.

このようにして、ビデオ会議システム1はビデオ会議を実行することができる。 In this manner, the video conference system 1 can conduct video conferences.

以上説明したように、本実施形態では、前回行ったビデオ会議における指向性情報を指向性情報記憶部30に記憶しておき、指向性決定部28aは、今回行うビデオ会議において、指向性情報記憶部30を参照して取得した指向性情報に基づき、指向性を決定する。 As described above, in this embodiment, the directivity information of the previous video conference is stored in the directivity information storage unit 30, and the directivity determination unit 28a stores the directivity information in the current video conference. The directivity is determined based on the directivity information acquired by referring to the unit 30 .

ビデオ会議の開始直後は、視線検出や視線情報の蓄積等で、指向性を決定するまでに一定の時間がかかるが、本実施形態によれば、ビデオ会議の開始の直後に、前回行ったビデオ会議における指向性情報に基づき指向性を決定するため、ビデオ会議の開始の直後から指向性を適切に設定することができ、ビデオ会議を開始直後から円滑に実行することができる。 Immediately after the start of the video conference, it takes a certain amount of time to determine the directivity due to line-of-sight detection, accumulation of line-of-sight information, and the like. Since the directivity is determined based on the directivity information in the conference, the directivity can be appropriately set immediately after the start of the videoconference, and the videoconference can be smoothly executed immediately after the start.

なお、上述したもの以外の効果は、第1の実施形態で説明したものと同様である。 Effects other than those described above are the same as those described in the first embodiment.

[第3の実施形態]
次に、第3の実施形態に係るビデオ会議システムを説明する。
[Third embodiment]
Next, a video conference system according to the third embodiment will be described.

図16は、本実施形態に係るビデオ会議システム1bの備える通信端末2Abの機能構成の一例を説明するブロック図である。 FIG. 16 is a block diagram illustrating an example of the functional configuration of the communication terminal 2Ab included in the video conference system 1b according to this embodiment.

通信端末2Abは、入力画面表示部32と、設定入力部33とを有している。 The communication terminal 2Ab has an input screen display section 32 and a setting input section 33 .

入力画面表示部32は、ビデオ会議システム1bのユーザが、注目領域を検出するための時間閾値、回数閾値、及び人数閾値の少なくとも1つ以上と、指向性決定部28が指向性を決定するための条件とを入力する入力画面を表示する機能を有する。 The input screen display unit 32 displays at least one of a time threshold, a number of times threshold, and a number of persons threshold for the user of the video conference system 1b to detect the attention area, and for the directivity determining unit 28 to determine the directivity. It has a function of displaying an input screen for inputting the conditions of

ここで、図17は、このような入力画面の一例を説明する図である。図17に示すように、入力画面321には、入力項目として、指向性制御処理を実行するか否かを入力するための「マイク指向性制御」と、視線情報を取得する「所定の時間」(図10参照)を入力するための「視線情報取得時間」と、注目領域の検出で用いられる閾値の種類及び閾値を入力するための「注目領域検出条件」とが含まれている。 Here, FIG. 17 is a diagram illustrating an example of such an input screen. As shown in FIG. 17, the input screen 321 includes, as input items, "microphone directivity control" for inputting whether or not to execute the directivity control process, and "predetermined time" for acquiring line-of-sight information. (see FIG. 10), and "attention area detection conditions" for inputting the types and thresholds of thresholds used in attention area detection.

このような入力画面321はディスプレイ217に表示され、ビデオ会議システム1bのユーザは、入力画面321を通じて注目領域を検出するための閾値や、指向性を決定するための条件を入力することができる。なお、ビデオ会議システム1bの管理者がこのような入力を行うようにしてもよい。また、図17に示した入力項目は一例であって、他の入力項目を追加し、或いは図17に示した入力項目と置き換えてもよい。 Such an input screen 321 is displayed on the display 217, and the user of the video conference system 1b can input a threshold value for detecting an attention area and a condition for determining directivity through the input screen 321. Note that an administrator of the video conference system 1b may make such an input. Also, the input items shown in FIG. 17 are only examples, and other input items may be added or replaced with the input items shown in FIG.

図16に戻り、説明を続ける。設定入力部33は、ディスプレイ217に表示された入力画面321を通じてユーザが入力した設定情報を入力し、視線検出部22及び注目領域検出部24に出力する。なお、この出力先は、入力項目に応じて決定することができる。 Returning to FIG. 16, the description is continued. The setting input unit 33 inputs setting information input by the user through the input screen 321 displayed on the display 217 and outputs the setting information to the line-of-sight detection unit 22 and the attention area detection unit 24 . Note that this output destination can be determined according to the input item.

以上説明したように、本実施形態では、ビデオ会議システム1bのユーザが各種閾値や指向性決定の条件等の設定情報を入力する入力画面を表示し、入力された設定情報に応じて通信端末の設定を行う。 As described above, in the present embodiment, an input screen is displayed for the user of the video conference system 1b to input setting information such as various thresholds and directivity determination conditions, and the communication terminal is configured according to the input setting information. Make settings.

周囲の不要な音の大きさ等、ビデオ会議を行う環境によって、指向性を決定するための適切な条件が異なる場合があるが、本実施形態によれば、会議環境に応じて適切に指向性を決定し、制御することができる。 The appropriate conditions for determining the directivity may differ depending on the environment in which the video conference is held, such as the volume of unwanted ambient sound. can be determined and controlled.

尚、本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。 It should be noted that the present invention is not limited to the specifically disclosed embodiments above, but is capable of various modifications and alterations without departing from the scope of the claims.

また実施形態は、通信端末のマイクロホンの制御方法も含む。例えば、通信端末のマイクロホンの制御方法は、カメラから画像の入力を受け、および、マイクロホンから音声の入力を受け、ビデオ会議で用いられる通信端末の前記マイクロホンの制御方法であって、前記カメラによって前記ビデオ会議の参加者の画像を撮像する工程と、前記画像から検出した前記参加者の視線を示す視線情報を蓄積する工程と、蓄積された前記視線情報に基づき、前記マイクロホンによる集音の指向性を決定する工程と、を含む。このような通信端末のマイクロホンの制御方法により、上述のビデオ会議システムと同様の効果を得ることができる。 Embodiments also include a method for controlling a microphone of a communication terminal. For example, a method of controlling a microphone of a communication terminal is a method of controlling the microphone of a communication terminal used in a video conference, receiving an image input from a camera and receiving an audio input from a microphone, wherein the a step of capturing an image of a participant in a video conference; a step of accumulating line-of-sight information indicating the line-of-sight of the participant detected from the image; and directivity of sound collection by the microphone based on the accumulated line-of-sight information. and determining. Such a control method for the microphone of the communication terminal can provide the same effects as the video conference system described above.

また、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 Also, each function of the embodiments described above can be realized by one or more processing circuits. Here, the "processing circuit" in this specification means a processor programmed by software to perform each function, such as a processor implemented by an electronic circuit, or a processor designed to perform each function described above. devices such as ASICs (Application Specific Integrated Circuits), DSPs (digital signal processors), FPGAs (field programmable gate arrays) and conventional circuit modules.

1、1a、1b ビデオ会議システム
2、2A 通信端末
2B 通信端末(他の第1通信端末の一例、他の第2通信端末の一例)
3 ネットワーク
4 サーバ
21 撮像部
22 視線検出部
23 視線情報蓄積部
24 注目領域検出部
25 サブパケット生成部
26 送信部
27 受信部
28 指向性決定部
29 指向性制御部
30 指向性情報記憶部
31 指向性情報更新部
32 入力画面表示部
33 設定入力部
201 CPU
202 RON
203 RAM
204 SSD
205 ネットワークコントローラ
206 センサコントローラ
207 キャプチャデバイス
208 電子ペンコントローラ
209 外部記憶コントローラ
210 GPU
211 ディスプレイコントローラ
212 カメラコントローラ
213 マイクロホンコントローラ
214 スピーカコントローラ
215 電子ペン
216 外部メモリ
217 ディスプレイ
218 カメラ
219 マイクロホン
220 スピーカ
1, 1a, 1b video conference system 2, 2A communication terminal 2B communication terminal (example of other first communication terminal, example of other second communication terminal)
3 network 4 server 21 imaging unit 22 line-of-sight detection unit 23 line-of-sight information storage unit 24 attention area detection unit 25 sub-packet generation unit 26 transmission unit 27 reception unit 28 directionality determination unit 29 directionality control unit 30 directionality information storage unit 31 directionality Sex information update unit 32 Input screen display unit 33 Setting input unit 201 CPU
202 RON
203 RAM
204 SSD
205 network controller 206 sensor controller 207 capture device 208 electronic pen controller 209 external storage controller 210 GPU
211 display controller 212 camera controller 213 microphone controller 214 speaker controller 215 electronic pen 216 external memory 217 display 218 camera 219 microphone 220 speaker

特開2017-034502号公報JP 2017-034502 A

Claims (7)

複数の通信端末と、前記通信端末に画像を出力するカメラと、前記通信端末に音声を出力するマイクロホンと、を備え、ビデオ会議を実行するビデオ会議システムであって、
前記通信端末は、
前記画像から検出した前記ビデオ会議の参加者の視線を示す視線情報を蓄積する視線情報蓄積部と、
蓄積された前記視線情報に基づき、前記マイクロホンの集音の指向性を決定する指向性決定部と、
決定された前記指向性の情報を記憶する指向性情報記憶部と、
記憶された前記指向性の情報を更新する指向性情報更新部と、を有し、
前記指向性決定部は、前記指向性情報記憶部を参照して取得した前記指向性の情報に基づき、前記指向性を決定する
ビデオ会議システム。
A video conference system comprising a plurality of communication terminals, a camera for outputting images to the communication terminals, and a microphone for outputting audio to the communication terminals, and executing a video conference,
The communication terminal is
a line-of-sight information accumulation unit that accumulates line-of-sight information indicating the line of sight of a participant in the video conference detected from the image;
a directivity determination unit that determines the directivity of sound collected by the microphone based on the accumulated line-of-sight information;
a directivity information storage unit that stores information on the determined directivity;
a directivity information updating unit that updates the stored directivity information;
The directivity determining unit determines the directivity based on the directivity information obtained by referring to the directivity information storage unit.
video conferencing system.
蓄積された前記視線情報に基づき、前記参加者が注目する注目領域を検出する注目領域検出部と、
検出された前記注目領域を他の第1通信端末に送信する送信部と、を有し、
前記指向性決定部は、他の第2通信端末から受信した前記注目領域に基づき、前記指向性を決定する
請求項1に記載のビデオ会議システム。
an attention area detection unit that detects an attention area that the participant pays attention to based on the accumulated line-of-sight information;
a transmitting unit configured to transmit the detected attention area to another first communication terminal;
2. The video conference system according to claim 1, wherein said directivity determination unit determines said directivity based on said attention area received from another second communication terminal.
前記視線情報から抽出した所定の座標情報が含まれるサブパケットを生成するサブパケット生成部を有し、
前記送信部は前記サブパケットを送信する
請求項2に記載のビデオ会議システム。
a subpacket generating unit that generates a subpacket containing predetermined coordinate information extracted from the line-of-sight information;
3. The videoconferencing system according to claim 2, wherein said transmitter transmits said subpackets.
前記指向性決定部は、予め定められた時間閾値以上の時間で前記参加者の視線が向けられた領域、予め定められた回数閾値以上の回数で前記参加者の視線が向けられた領域、及び予め定められた人数閾値以上の人数で前記参加者の視線が向けられた領域の少なくとも1つに基づき、前記指向性を決定する
請求項1乃至3の何れか1項に記載のビデオ会議システム。
The directivity determining unit determines an area to which the participant's gaze is directed for a time equal to or longer than a predetermined time threshold, an area to which the participant's gaze is directed for a number of times equal to or greater than a predetermined number of times threshold, and 4. The video conference system according to any one of claims 1 to 3, wherein the directivity is determined based on at least one area to which the eyes of the participants are directed by a number equal to or greater than a predetermined number threshold.
前記ビデオ会議システムのユーザが、前記時間閾値、前記回数閾値、及び前記人数閾値の少なくとも1つ以上と、前記指向性決定部が前記指向性を決定するための条件と、を入力する入力画面を表示する入力画面表示部を有する
請求項4に記載のビデオ会議システム。
an input screen for the user of the video conference system to input at least one of the time threshold, the number of times threshold, and the number of persons threshold, and conditions for the directivity determining unit to determine the directivity; 5. The video conference system according to claim 4, further comprising an input screen display section for displaying.
カメラから画像の入力を受け、および、マイクロホンから音声の入力を受け、ビデオ会議で用いられる通信端末であって、
前記画像から検出した前記ビデオ会議の参加者の視線を示す視線情報を蓄積する視線情報蓄積部と、
蓄積された前記視線情報に基づき、前記マイクロホンの集音の指向性を決定する指向性決定部と、
決定された前記指向性の情報を記憶する指向性情報記憶部と、
記憶された前記指向性の情報を更新する指向性情報更新部と、を有し、
前記指向性決定部は、前記指向性情報記憶部を参照して取得した前記指向性の情報に基づき、前記指向性を決定する
通信端末。
A communication terminal used in a video conference that receives an image input from a camera and receives an audio input from a microphone,
a line-of-sight information accumulation unit that accumulates line-of-sight information indicating the line of sight of a participant in the video conference detected from the image;
a directivity determination unit that determines the directivity of sound collected by the microphone based on the accumulated line-of-sight information;
a directivity information storage unit that stores information on the determined directivity;
a directivity information updating unit that updates the stored directivity information;
The directivity determining unit determines the directivity based on the directivity information obtained by referring to the directivity information storage unit.
communication terminal.
カメラから画像の入力を受け、および、マイクロホンから音声の入力を受け、ビデオ会議で用いられる通信端末の前記マイクロホンの制御方法であって、
前記カメラによって前記ビデオ会議の参加者の画像を撮像する工程と、
前記画像から検出した前記参加者の視線を示す視線情報を蓄積する工程と、
蓄積された前記視線情報に基づき、前記マイクロホンによる集音の指向性を決定する工程と、
決定された前記指向性の情報を、指向性情報記憶部により記憶する工程と、
記憶された前記指向性の情報を更新する工程と、を含み、
前記指向性を決定する工程は、前記指向性情報記憶部を参照して取得した前記指向性の情報に基づき、前記指向性を決定する
通信端末のマイクロホンの制御方法。
A method for controlling the microphone of a communication terminal used in a video conference, receiving an image input from a camera and receiving an audio input from a microphone, comprising:
Capturing images of participants in the video conference with the camera;
accumulating line-of-sight information indicating the line-of-sight of the participant detected from the image;
determining the directivity of sound collected by the microphone based on the accumulated line-of-sight information;
a step of storing information on the determined directivity in a directivity information storage unit;
updating the stored directional information;
The step of determining the directivity determines the directivity based on the directivity information obtained by referring to the directivity information storage unit.
A control method for a microphone of a communication terminal.
JP2018220885A 2018-11-27 2018-11-27 VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL Active JP7225735B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018220885A JP7225735B2 (en) 2018-11-27 2018-11-27 VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018220885A JP7225735B2 (en) 2018-11-27 2018-11-27 VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL

Publications (2)

Publication Number Publication Date
JP2020088618A JP2020088618A (en) 2020-06-04
JP7225735B2 true JP7225735B2 (en) 2023-02-21

Family

ID=70910147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018220885A Active JP7225735B2 (en) 2018-11-27 2018-11-27 VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL

Country Status (1)

Country Link
JP (1) JP7225735B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113905204B (en) * 2021-09-07 2023-02-14 深圳壹秘科技有限公司 Image display method, device, equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211485A (en) 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> Gaze degree measurement device, gaze degree measurement method, gaze degree measurement program and recording medium with the same program recorded
JP2012213013A (en) 2011-03-31 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> Tv conference system
JP2017085372A (en) 2015-10-28 2017-05-18 株式会社リコー Communication system, communication device, communication method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09275533A (en) * 1996-04-08 1997-10-21 Sony Corp Signal processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211485A (en) 2009-03-10 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> Gaze degree measurement device, gaze degree measurement method, gaze degree measurement program and recording medium with the same program recorded
JP2012213013A (en) 2011-03-31 2012-11-01 Nippon Telegr & Teleph Corp <Ntt> Tv conference system
JP2017085372A (en) 2015-10-28 2017-05-18 株式会社リコー Communication system, communication device, communication method and program

Also Published As

Publication number Publication date
JP2020088618A (en) 2020-06-04

Similar Documents

Publication Publication Date Title
JP7379907B2 (en) Information processing device, information processing program, information processing system, information processing method
US10075491B2 (en) Directing communications using gaze interaction
CN104580992B (en) A kind of control method and mobile terminal
WO2018161426A1 (en) Image capturing method and terminal
JP6229314B2 (en) Information processing apparatus, display control method, and program
EP2509070A1 (en) Apparatus and method for determining relevance of input speech
JP2012040655A (en) Method for controlling robot, program, and robot
WO2014085369A1 (en) Methods, apparatuses and computer readable medium for triggering a gesture recognition mode and device pairing and sharing via non-touch gestures
JP2017525024A (en) Architecture for managing input data
CN111045511B (en) Gesture-based control method and terminal equipment
JP2016151798A (en) Information processing device, method, and program
TW201403379A (en) Analyzing human gestural commands
JP6505327B2 (en) Method, apparatus and system for acquiring video data and computer readable storage medium
US20190286255A1 (en) Electronic whiteboard, image display method, and recording medium
CN108881721B (en) Display method and terminal
WO2019137535A1 (en) Object distance measurement method and terminal device
US10468022B2 (en) Multi mode voice assistant for the hearing disabled
CN110798327B (en) Message processing method, device and storage medium
JP7225735B2 (en) VIDEO CONFERENCE SYSTEM, COMMUNICATION TERMINAL AND MICROPHONE CONTROL METHOD OF COMMUNICATION TERMINAL
JP7259447B2 (en) Speaker detection system, speaker detection method and program
US20130179139A1 (en) Method for applying virtual person and portable electronic device for use with the method
CN112507798B (en) Living body detection method, electronic device and storage medium
CN114245148A (en) Live broadcast interaction method, device, terminal, server and storage medium
JP2017034645A (en) Imaging apparatus, program, and imaging method
CN111918089A (en) Video stream processing method, video stream display method, device and equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R151 Written notification of patent or utility model registration

Ref document number: 7225735

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151