JP7102859B2 - Video Conference Systems, Video Conference Methods, and Programs - Google Patents

Video Conference Systems, Video Conference Methods, and Programs Download PDF

Info

Publication number
JP7102859B2
JP7102859B2 JP2018065249A JP2018065249A JP7102859B2 JP 7102859 B2 JP7102859 B2 JP 7102859B2 JP 2018065249 A JP2018065249 A JP 2018065249A JP 2018065249 A JP2018065249 A JP 2018065249A JP 7102859 B2 JP7102859 B2 JP 7102859B2
Authority
JP
Japan
Prior art keywords
person
information
video conference
identifying
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018065249A
Other languages
Japanese (ja)
Other versions
JP2019176416A (en
Inventor
直志 合川
智 木村
伸正 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018065249A priority Critical patent/JP7102859B2/en
Publication of JP2019176416A publication Critical patent/JP2019176416A/en
Priority to JP2022108957A priority patent/JP7400886B2/en
Application granted granted Critical
Publication of JP7102859B2 publication Critical patent/JP7102859B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、ビデオ会議システム、ビデオ会議方法、およびプログラムに関する。 The present invention relates to video conference systems, video conference methods, and programs.

離れた場所にいる人物と会議を行う方法の1つとして、ビデオ会議システムが利用されている。ビデオ会議システムでは、それぞれの場所で撮影された映像を互いにやり取りすることにより、互いに離れた場所にいる人物同士で会議を行うことができる。 A video conference system is used as one of the methods for holding a conference with a person in a remote place. In a video conference system, by exchanging images taken at each location with each other, it is possible to hold a conference between people who are separated from each other.

上述のビデオ会議システムに関連する技術が、例えば、下記特許文献1に開示されている。下記特許文献1には、(1)遠隔会議の参加者の画像を用いて各参加者の認証を行い、(2)認証された参加者の数が必要数に達した場合に、アクション許可処理(会議を開始できることを通知する処理)を実行する技術が開示されている。 The technique related to the video conference system described above is disclosed in, for example, Patent Document 1 below. In the following Patent Document 1, (1) each participant is authenticated using an image of a participant in a remote conference, and (2) an action permission process is performed when the number of authenticated participants reaches the required number. A technique for executing (a process of notifying that a meeting can be started) is disclosed.

また、下記特許文献2には、(1)ディスプレイに設けられた複数の撮像装置の画像を使って当該ディスプレイの前に存在するユーザを検知し、(2)ユーザの検知結果に基づいて、ディスプレイの位置を上下左右方向に移動させることにより、全てのユーザが見やすい位置にディスプレイを配置する技術が開示されている。 Further, in Patent Document 2 below, (1) a user existing in front of the display is detected by using images of a plurality of image pickup devices provided on the display, and (2) a display is displayed based on the detection result of the user. Disclosed is a technique for arranging a display in a position that is easy for all users to see by moving the position of the display in the vertical and horizontal directions.

特開2009-171119号公報Japanese Unexamined Patent Publication No. 2009-171119 特開2016-004207号公報Japanese Unexamined Patent Publication No. 2016-004207

上述の特許文献1では、会議の参加人物が写る画像を用いて、個々の人物を特定(認証)している。ここで、会議の参加人物は、それぞれ、設けられたカメラに対して異なる向きまたは姿勢でいる場合がほとんどである。そのため、会議の参加人物の少なくとも一部が、画像から特定できない可能性がある。また、会議という場の性質に鑑みて、会議の参加人物が個人として特定されていないままとなっていることは好ましくない。 In the above-mentioned Patent Document 1, each person is specified (authenticated) by using an image showing a person participating in the conference. Here, in most cases, the participants in the conference have different orientations or postures with respect to the provided cameras. Therefore, it is possible that at least some of the participants in the conference cannot be identified from the image. Also, given the nature of the conference, it is not desirable for the participants in the conference to remain unidentified as individuals.

本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、ビデオ会議システムにおいて、会議の参加人物を特定する技術を提供することである。 The present invention has been made in view of the above problems. One of the objects of the present invention is to provide a technique for identifying a participant of a conference in a video conference system.

本発明のビデオ会議システムは、
第1の撮像装置により生成された、会議の参加人物が写る画像を取得する画像取得手段と、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった未特定人物の位置を検出する位置検出手段と、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する処理実行手段と、
を備える。
The video conference system of the present invention
An image acquisition means for acquiring an image of a person participating in the conference generated by the first imaging device, and
A person identification means that analyzes the image and executes a person identification process for identifying a person included in the image, and
A position detecting means for detecting the position of an unspecified person who could not be identified by the person identification process, and
A process execution means for executing a predetermined process for identifying the unspecified person using the detected position of the unspecified person, and a process executing means.
To be equipped.

本発明のビデオ会議方法は、
コンピュータが、
第1の撮像装置により生成された、会議の参加人物が写る画像を取得し、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった未特定人物の位置を検出し、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する、
ことを含む。
The video conference method of the present invention
The computer
Acquire the image of the participants of the conference generated by the first imaging device,
The image is analyzed, a person identification process for identifying the person included in the image is executed, and the person identification process is executed.
Detects the position of an unspecified person that could not be specified by the person identification process,
Using the detected position of the unspecified person, a predetermined process for identifying the unspecified person is executed.
Including that.

本発明のプログラムは、コンピュータに上述のビデオ会議方法を実行させる。 The program of the present invention causes a computer to perform the video conferencing method described above.

本発明によれば、ビデオ会議システムにおいて、会議の参加人物を特定することができる。 According to the present invention, in a video conference system, it is possible to identify the participants in a conference.

第1実施形態におけるビデオ会議システムの構成例を示す図である。It is a figure which shows the configuration example of the video conference system in 1st Embodiment. ビデオ会議システムのハードウエア構成を例示するブロック図である。It is a block diagram which illustrates the hardware configuration of a video conference system. 第1実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。It is a flowchart which illustrates the flow of the process executed by the video conference system of 1st Embodiment. 第1実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。It is a flowchart which illustrates the flow of the process executed by the video conference system of 1st Embodiment. 第2実施形態のビデオ会議システムの構成例を示す図である。It is a figure which shows the configuration example of the video conference system of 2nd Embodiment. 第3実施形態のビデオ会議システムの構成例を示す図である。It is a figure which shows the configuration example of the video conference system of 3rd Embodiment. 表示装置に表示される、被写体を特定するための情報の一例を示す図である。It is a figure which shows an example of the information for identifying a subject, which is displayed on a display device. 第4実施形態におけるビデオ会議システムの構成例を示す図である。It is a figure which shows the configuration example of the video conference system in 4th Embodiment. 第4実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。It is a flowchart which illustrates the flow of the process executed by the video conference system of 4th Embodiment. 第5実施形態におけるビデオ会議システムの構成例を示す図である。It is a figure which shows the configuration example of the video conference system in 5th Embodiment. 第5実施形態におけるビデオ会議システムのハードウエア構成を例示する図である。It is a figure which illustrates the hardware structure of the video conference system in 5th Embodiment. 第5実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。It is a flowchart which illustrates the flow of the process executed by the video conference system of 5th Embodiment.

以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all drawings, similar components are designated by the same reference numerals, and description thereof will be omitted as appropriate. Further, unless otherwise specified, in each block diagram, each block represents a configuration of a functional unit, not a configuration of a hardware unit.

[第1実施形態]
〔システム構成例〕
図1は、第1実施形態におけるビデオ会議システム1の構成例を示す図である。図1に例示されるビデオ会議システム1では、サーバ装置10と、会議が開催される各地点にそれぞれ設けられた、複数の通信端末20とが互いに通信可能に接続されている。ビデオ会議は、サーバ装置10を経由して、各通信端末20の間で実行される。
[First Embodiment]
[System configuration example]
FIG. 1 is a diagram showing a configuration example of the video conference system 1 according to the first embodiment. In the video conference system 1 illustrated in FIG. 1, the server device 10 and a plurality of communication terminals 20 provided at each point where the conference is held are connected to each other so as to be able to communicate with each other. The video conference is executed between the communication terminals 20 via the server device 10.

通信端末20には、撮像装置30および表示装置40が接続されている。撮像装置30は、その撮像装置30が設けられている地点にいる会議の参加人物を撮影して、ビデオ会議の相手側の地点に設けられた表示装置40に表示させる画像M(以下、「メイン画像」と表記)を生成する。表示装置40は、ビデオ会議の相手側の地点に設けられた撮像装置30により撮影された、相手側のメイン画像Mを表示する。また、相手側の表示装置40に表示されるメイン画像Mには、そのメイン画像Mを用いて特定された参加人物の情報(例えば、氏名、所属など)が重畳表示される。また、ビデオ会議システム1では、撮像装置30とは別に、移動型の撮像装置35が備えられている。一例として、撮像装置35は、自律移動可能なロボットに組み込まれている。他の一例として、撮像装置35は、スマートフォン、タブレット、ノート型パソコンといった、携帯型端末に組み込まれている。撮像装置35は、撮像装置30により生成されたメイン画像Mを用いて特定できなかった人物が存在する場合、その人物を特定するために利用する画像S(以下、「サブ画像」と表記)を生成する。 An imaging device 30 and a display device 40 are connected to the communication terminal 20. The image pickup device 30 captures an image M of a person who participates in the conference at a point where the image pickup device 30 is provided and displays it on a display device 40 provided at a point on the other side of the video conference (hereinafter, "main"). Notation "image") is generated. The display device 40 displays the main image M of the other party, which is taken by the image pickup device 30 provided at the other party's point of the video conference. Further, information (for example, name, affiliation, etc.) of a participant specified by using the main image M is superimposed and displayed on the main image M displayed on the display device 40 on the other side. Further, in the video conference system 1, a mobile image pickup device 35 is provided in addition to the image pickup device 30. As an example, the imaging device 35 is incorporated in a robot that can move autonomously. As another example, the image pickup device 35 is incorporated in a portable terminal such as a smartphone, a tablet, or a notebook personal computer. When there is a person who could not be identified by using the main image M generated by the image pickup device 30, the image pickup apparatus 35 uses an image S (hereinafter, referred to as “sub-image”) to identify the person. Generate.

図1に示されるように、ビデオ会議システム1は、画像取得部110、人物特定部120、位置検出部130、および処理実行部140をそなえる。図1の例において、これらの処理部は、1台のサーバ装置10に備えられているが、ビデオ会議システム1の構成は図1の例に制限されない。図示されていないが、これらの処理部の全部または一部は、複数のサーバ装置に分散して或いは重複して設けられていてもよい。 As shown in FIG. 1, the video conference system 1 includes an image acquisition unit 110, a person identification unit 120, a position detection unit 130, and a processing execution unit 140. In the example of FIG. 1, these processing units are provided in one server device 10, but the configuration of the video conference system 1 is not limited to the example of FIG. Although not shown, all or part of these processing units may be distributed or overlapped in a plurality of server devices.

画像取得部110は、撮像装置30(第1の撮像装置)により生成された、会議の参加人物が写る画像を取得する。図1の例では、画像取得部110は、撮像装置30により生成された、会議の参加人物が写る画像を、ネットワークを介して接続された通信端末20から取得することができる。また、画像取得部110は、図示しない他の通信端末に接続された撮像装置(第1の撮像装置)から、当該他の通信端末が設けられた場所で会議に参加している人物の画像を取得することができる。 The image acquisition unit 110 acquires an image of a person participating in the conference generated by the image pickup device 30 (first image pickup device). In the example of FIG. 1, the image acquisition unit 110 can acquire an image of a person participating in the conference generated by the image pickup apparatus 30 from a communication terminal 20 connected via a network. Further, the image acquisition unit 110 obtains an image of a person participating in the conference from an image pickup device (first image pickup device) connected to another communication terminal (not shown) at a place where the other communication terminal is provided. Can be obtained.

人物特定部120は、画像取得部110により取得された画像を解析して、当該画像に含まれる人物を特定する人物特定処理を実行する。言い換えると、人物特定部120は、画像取得部110により取得された画像に写る参加人物を個々に特定(認証)する。 The person identification unit 120 analyzes the image acquired by the image acquisition unit 110 and executes a person identification process for identifying a person included in the image. In other words, the person identification unit 120 individually identifies (authenticates) the participants appearing in the image acquired by the image acquisition unit 110.

人物特定部120は、例えば、次のように動作する。まず、人物特定部120は、画像取得部110により取得された画像の中から、人物と認識される領域を検出する。人物特定部120は、既知の一般物体検出アルゴリズムを利用して、「人物」と認識(分類)される領域を検出することができる。また、人物特定部120は、例えば、動きのある物体の領域を、人物の領域として検出してもよい。人物特定部120は、「動きのある物体」を、例えば、時系列で並ぶ複数の画像間での特徴点の移動量に基づいて判断することができる。具体的には、人物特定部120は、時系列で並ぶ複数の画像間において、基準値以上移動している特徴点が含まれる物体の領域を、人物の領域として推定することができる。そして、人物特定部120は、検出された領域から抽出される特徴量と、予め登録された参加人物の特徴量とを照合した結果に基づいて、各領域に含まれる人物が誰であるかを特定することができる。なお、会議の参加人物の特徴量は、その参加人物の情報(氏名、所属など)と対応付けて、サーバ装置10のストレージデバイスなどに予め記憶されている。ここで、人物特定部120は、検出された領域に含まれる人物が特定できなかった場合、その領域に含まれる人物が特定できなかったことを示す情報(特定失敗情報)をその領域に関連付ける。なお、「人物が特定できなかった場合」とは、例えば、照合の結果として算出されるスコアが基準値以上となる人物が存在しなかった場合などである。 The person identification unit 120 operates as follows, for example. First, the person identification unit 120 detects an area recognized as a person from the image acquired by the image acquisition unit 110. The person identification unit 120 can detect a region recognized (classified) as a "person" by using a known general object detection algorithm. Further, the person identification unit 120 may detect, for example, a region of a moving object as a region of a person. The person identification unit 120 can determine the "moving object" based on, for example, the amount of movement of feature points between a plurality of images arranged in time series. Specifically, the person identification unit 120 can estimate the area of the object including the feature points moving by the reference value or more between the plurality of images arranged in the time series as the area of the person. Then, the person identification unit 120 determines who is a person included in each area based on the result of collating the feature amount extracted from the detected area with the feature amount of the participant registered in advance. Can be identified. The feature amount of the participants in the conference is stored in advance in the storage device of the server device 10 or the like in association with the information (name, affiliation, etc.) of the participants. Here, when the person included in the detected area cannot be identified, the person identification unit 120 associates the information indicating that the person included in the area cannot be identified (specific failure information) with the area. The "case where a person cannot be identified" is, for example, a case where there is no person whose score calculated as a result of collation is equal to or higher than the reference value.

位置検出部130は、人物特定部120により実行された人物特定処理で特定できなかった人物(以下、「未特定人物」と表記)が存在する場合、その未特定人物の位置を検出する。図1の例では、画像取得部110により取得されたメイン画像Mを用いた人物特定処理の結果、4人の参加人物のうち、3人の人物(Jane、John、Nancy)が特定された一方で、残りの1人の人物が特定できず未特定人物と判断された場合が描かれている。この場合、位置検出部130は、特定できなかった残り1人の未特定人物の位置を検出する。一例として、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)をそのまま検出することができる。また他の一例として、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を基に他の座標系(例えば、会議が開催される場所のマップデータでの座標系)での未特定人物の座標(位置)を検出してもよい。この場合、メイン画像Mの座標系での座標を別の座標系での座標に変換するルール(変換パラメータ)は、例えば、サーバ装置10のメモリやストレージデバイスなどに予め用意されている。メイン画像Mの座標系での座標を別の座標系での座標に変換するルール(変換パラメータ)は、例えば、会議が行われる場所に設けられる撮像装置30の撮像範囲と、その場所の座席位置を含むマップデータと、を基に生成することができる。変換ルール(変換パラメータ)を生成するための情報は、例えば、各地点の参加人物が利用する端末(図示せず)などからサーバ装置10に対して会議の開催前に送信される。一例として、サーバ装置10は、ロボット60が保持するマップデータおよび撮像装置30により生成された画像を並べて或いは切替可能に表示装置40上に表示し、画像内での各座席の位置とマップデータ内の座席の位置とを対応付ける入力を受け付ける。サーバ装置10は、この入力に基づいて、画像の座標系をマップデータの座標系に変換するルール(変換パラメータ)を生成することができる。 The position detection unit 130 detects the position of the unspecified person when there is a person (hereinafter referred to as “unspecified person”) that could not be specified by the person identification process executed by the person identification unit 120. In the example of FIG. 1, as a result of the person identification process using the main image M acquired by the image acquisition unit 110, three of the four participants (Jane, John, Nancy) were identified. In, the case where the remaining one person cannot be identified and is determined to be an unspecified person is depicted. In this case, the position detection unit 130 detects the position of the remaining one unspecified person who could not be specified. As an example, the position detection unit 130 can detect the coordinates (position) of an unspecified person in the coordinate system of the main image M as it is. As another example, the position detection unit 130 uses the coordinates (position) of an unspecified person in the coordinate system of the main image M as the coordinate in another coordinate system (for example, the coordinates in the map data of the place where the conference is held). The coordinates (position) of an unspecified person in the system) may be detected. In this case, a rule (conversion parameter) for converting the coordinates in the coordinate system of the main image M to the coordinates in another coordinate system is prepared in advance in, for example, the memory or the storage device of the server device 10. The rules (conversion parameters) for converting the coordinates in the coordinate system of the main image M to the coordinates in another coordinate system are, for example, the imaging range of the imaging device 30 provided at the place where the meeting is held and the seat position at that place. It can be generated based on the map data including. Information for generating conversion rules (conversion parameters) is transmitted to the server device 10 from a terminal (not shown) used by the participants at each point before the conference is held, for example. As an example, the server device 10 displays the map data held by the robot 60 and the image generated by the image pickup device 30 on the display device 40 side by side or can be switched, and the position of each seat in the image and the map data. Accepts input that associates with the seat position of. Based on this input, the server device 10 can generate a rule (conversion parameter) for converting the coordinate system of the image into the coordinate system of the map data.

処理実行部140は、位置検出部130により検出された未特定人物の位置を用いて、当該未特定人物を特定するための所定処理を実行する。処理実行部140により実行される所定処理の詳細については、後述する。処理実行部140の所定処理により、画像取得部110が、撮像装置35によりサブ画像Sを取得することができる。そして、人物特定部120が、そのサブ画像Sを用いた人物特定処理を実行することで、未特定人物が特定される。 The processing execution unit 140 executes a predetermined process for identifying the unspecified person by using the position of the unspecified person detected by the position detecting unit 130. Details of the predetermined processing executed by the processing execution unit 140 will be described later. By the predetermined processing of the processing execution unit 140, the image acquisition unit 110 can acquire the sub-image S by the image pickup apparatus 35. Then, the person identification unit 120 executes a person identification process using the sub-image S to identify an unspecified person.

〔ハードウエア構成例〕
ビデオ会議システム1の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、ビデオ会議システム1の各機能構成部が、サーバ装置10においてハードウエアとソフトウエアとの組み合わせによって実現される場合について、さらに説明する。
[Hardware configuration example]
Each functional component of the video conference system 1 may be realized by hardware that realizes each functional component (eg, a hard-wired electronic circuit, etc.), or a combination of hardware and software (eg, example). It may be realized by a combination of an electronic circuit and a program that controls it). Hereinafter, a case where each functional component of the video conference system 1 is realized by a combination of hardware and software in the server device 10 will be further described.

図2は、ビデオ会議システム1のハードウエア構成を例示するブロック図である。図2の例において、サーバ装置10は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。 FIG. 2 is a block diagram illustrating a hardware configuration of the video conference system 1. In the example of FIG. 2, the server device 10 has a bus 1010, a processor 1020, a memory 1030, a storage device 1040, an input / output interface 1050, and a network interface 1060.

バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。 The bus 1010 is a data transmission path for the processor 1020, the memory 1030, the storage device 1040, the input / output interface 1050, and the network interface 1060 to transmit and receive data to and from each other. However, the method of connecting the processors 1020 and the like to each other is not limited to the bus connection.

プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。 The processor 1020 is a processor realized by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.

メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。 The memory 1030 is a main storage device realized by a RAM (Random Access Memory) or the like.

ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040はビデオ会議システム1の各機能(画像取得部110、人物特定部120、位置検出部130、および処理実行部140など)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。 The storage device 1040 is an auxiliary storage device realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like. The storage device 1040 stores a program module that realizes each function of the video conference system 1 (image acquisition unit 110, person identification unit 120, position detection unit 130, processing execution unit 140, and the like). When the processor 1020 reads each of these program modules into the memory 1030 and executes them, each function corresponding to the program module is realized.

入出力インタフェース1050は、サーバ装置10と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース1050には、キーボードやマウスといった入力装置(図示せず)、または、ディスプレイやスピーカーといった出力装置(図示せず)などが接続され得る。 The input / output interface 1050 is an interface for connecting the server device 10 and various input / output devices. An input device (not shown) such as a keyboard or mouse, or an output device (not shown) such as a display or speaker may be connected to the input / output interface 1050.

ネットワークインタフェース1060は、サーバ装置10をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。図示されるように、サーバ装置10は、ネットワークインタフェース1060を介して、ビデオ会議が開催される各地点に設けられた、複数の通信端末20と通信可能に接続されている。各通信端末20には、会議の参加人物を撮影するための撮像装置30、各撮像装置30により生成された画像を表示させるための表示装置40、および、会議中の音声を拾うための集音装置50が接続されている。また、各通信端末20には、会議の音声を出力するための音声出力装置(図示せず)が更に接続されている。また、サーバ装置10は、ネットワークインタフェース1060を介して、メイン画像Mを生成する撮像装置30(第1の撮像装置)とは別の撮像装置35と接続されている。 The network interface 1060 is an interface for connecting the server device 10 to the network. This network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network). The method of connecting the network interface 1060 to the network may be a wireless connection or a wired connection. As shown, the server device 10 is communicably connected to a plurality of communication terminals 20 provided at each point where a video conference is held via a network interface 1060. Each communication terminal 20 has an image pickup device 30 for photographing a person participating in the meeting, a display device 40 for displaying an image generated by each image pickup device 30, and a sound collecting device for picking up the sound during the meeting. The device 50 is connected. Further, an audio output device (not shown) for outputting the audio of the conference is further connected to each communication terminal 20. Further, the server device 10 is connected to an image pickup device 35 different from the image pickup device 30 (first image pickup device) that generates the main image M via the network interface 1060.

画像取得部110は、ネットワークインタフェース1060を介して各通信端末20から会議の参加人物が写る画像を取得することができる。また、サーバ装置10は、ネットワークインタフェース1060を介して、各通信端末20に相手の参加人物の画像を送信することができる。また、サーバ装置10は、ネットワークインタフェース1060を介して、各通信端末20にその通信端末20が備えられている地点の参加人物の画像を送信することができる。 The image acquisition unit 110 can acquire an image of a person participating in the conference from each communication terminal 20 via the network interface 1060. Further, the server device 10 can transmit an image of a participant of the other party to each communication terminal 20 via the network interface 1060. Further, the server device 10 can transmit an image of a participant at a point where the communication terminal 20 is provided to each communication terminal 20 via the network interface 1060.

〔処理の流れ〕
図3および図4を用いて、第1実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図3および図4は、第1実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。
[Processing flow]
A flow of processing executed by the video conference system 1 of the first embodiment will be described with reference to FIGS. 3 and 4. 3 and 4 are flowcharts illustrating a flow of processing executed by the video conference system 1 of the first embodiment.

まず、画像取得部110は、通信端末20から、ある地点における会議の参加人物が写るメイン画像Mを取得する(S102)。画像取得部110は、ネットワークインタフェース1060を介して、撮像装置30により生成された、メイン画像Mを取得することができる。 First, the image acquisition unit 110 acquires the main image M in which the participants of the conference at a certain point are captured from the communication terminal 20 (S102). The image acquisition unit 110 can acquire the main image M generated by the image pickup apparatus 30 via the network interface 1060.

人物特定部120は、S102の処理で取得されたメイン画像Mの中から、人物と認識される領域を検出する(S104)。そして、人物特定部120は、S104の処理で検出された領域について、人物特定処理を実行する(S106)。人物特定部120は、人物が特定できなかった場合(S108:NO)、人物特定処理の対象となった領域に対して、その領域に含まれる人物が特定できなかったことを示す情報(特定失敗情報)を関連付ける(S110)。一方、人物が特定できた場合(S108:YES)、人物特定部120は、特定した人物の氏名を含む人物情報を取得し、その人物の領域に関連付ける(S112)。なお、人物情報は、会議の開催前に参加人物の特徴量と関連付けて取得され、ストレージデバイス1040などに事前に登録されている。人物情報は、人物の氏名のほか、その人物が所属するグループ(会社や部署など)の名称、その人物の役職名などを含んでいる。なお、S106からS110の処理は、S104の処理で検出された人物の領域の全てが処理されるまで繰り返される(S114:NO)。 The person identification unit 120 detects an area recognized as a person from the main image M acquired in the process of S102 (S104). Then, the person identification unit 120 executes the person identification process for the area detected by the process of S104 (S106). When the person cannot be identified (S108: NO), the person identification unit 120 provides information indicating that the person included in the area cannot be identified with respect to the area targeted for the person identification process (identification failure). Information) is associated (S110). On the other hand, when the person can be identified (S108: YES), the person identification unit 120 acquires the person information including the name of the specified person and associates it with the area of the person (S112). The person information is acquired in association with the feature amount of the participants before the meeting is held, and is registered in advance in the storage device 1040 or the like. In addition to the name of the person, the person information includes the name of the group (company, department, etc.) to which the person belongs, the title of the person, and the like. The processes of S106 to S110 are repeated until all the areas of the person detected in the process of S104 are processed (S114: NO).

S104の処理で検出された人物の領域の全てが処理された後(S114:YES)、サーバ装置10は、S112の処理で関連付けられた各人物の人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Mに重畳させて、他の地点の通信端末20に送信する。これにより、ある地点でのメイン画像Mを用いた人物特定処理の結果が、そのメイン画像Mと共に他の地点の表示装置40に表示される(S116)。 After all the areas of the person detected in the process of S104 are processed (S114: YES), the server device 10 transfers the person information of each person associated with the process of S112 to the area to which the person information is associated. It is superimposed on the main image M according to the position of, and transmitted to the communication terminal 20 at another point. As a result, the result of the person identification process using the main image M at a certain point is displayed on the display device 40 at another point together with the main image M (S116).

また、位置検出部130は、未特定人物が存在するか否かを判定する(S118)。ここで、位置検出部130は、特定失敗情報が関連付けられた領域が存在するか否かによって、未特定人物が存在するか否かを判断することができる。未特定人物が存在しない場合(S118:NO)、以降の処理は実行されない。 Further, the position detection unit 130 determines whether or not an unspecified person exists (S118). Here, the position detection unit 130 can determine whether or not an unspecified person exists depending on whether or not there is an area associated with the specific failure information. If there is no unspecified person (S118: NO), the subsequent processing is not executed.

未特定人物が存在する場合(S118:YES)、位置検出部130は、未特定人物の位置を検出する(S120)。ここで、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を検出してもよいし、メイン画像Mの座標系での未特定人物の座標(位置)を基に他の座標系での未特定人物の座標(位置)を検出してもよい。 When an unspecified person exists (S118: YES), the position detection unit 130 detects the position of the unspecified person (S120). Here, the position detection unit 130 may detect the coordinates (position) of the unspecified person in the coordinate system of the main image M, or may detect the coordinates (position) of the unspecified person in the coordinate system of the main image M. Based on this, the coordinates (position) of an unspecified person in another coordinate system may be detected.

そして、処理実行部140は、位置検出部130により検出された未特定人物の位置を用いて、その未特定人物を特定するための所定処理を実行する(S122)。なお、未特定人物は、撮像装置30とは異なる、移動型の撮像装置35により生成されたサブ画像Sを用いて特定される。処理実行部140により実行される所定処理は、別の観点では、メイン画像Mとは異なる写り方で未特定人物が写るサブ画像Sを取得するための処理とも言える。一例として、処理実行部140は、移動型の撮像装置35が組み込まれた自律移動可能なロボットに対して、撮影位置(撮像装置35が撮影動作を実行すべき位置)を特定するための情報を生成して出力する処理を、所定処理として実行する。他の一例として、処理実行部140は、撮像装置35の被写体(未特定人物)を特定するための情報を生成して出力する処理を、所定処理として実行する。 Then, the process execution unit 140 executes a predetermined process for identifying the unspecified person by using the position of the unspecified person detected by the position detection unit 130 (S122). The unspecified person is identified by using the sub-image S generated by the mobile imaging device 35, which is different from the imaging device 30. From another point of view, the predetermined process executed by the process execution unit 140 can be said to be a process for acquiring a sub-image S in which an unspecified person is captured in a manner different from that of the main image M. As an example, the processing execution unit 140 provides information for specifying a shooting position (a position where the imaging device 35 should execute a shooting operation) to an autonomously movable robot in which a mobile imaging device 35 is incorporated. The process of generating and outputting is executed as a predetermined process. As another example, the process execution unit 140 executes a process of generating and outputting information for identifying a subject (unspecified person) of the image pickup apparatus 35 as a predetermined process.

画像取得部110は、処理実行部140の所定処理に応じて撮像装置35で生成された追加の画像(サブ画像S)を、当該撮像装置35が組み込まれた装置から取得する(S124)。そして、人物特定部120は、サブ画像Sを解析することによって、未特定人物を特定する(S126)。ここで、人物特定部120は、ストレージデバイス1040などに予め登録された人物情報の中から、サブ画像Sを用いて特定された参加人物の人物情報を取得する。そして、人物特定部120は、メイン画像Mでの未特定人物の領域に、取得した人物情報を関連付ける(S128)。サーバ装置10は、S128の処理で取得された人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Mに重畳させて、他の地点の通信端末20に送信する。これにより、サブ画像Sを用いた人物特定処理の結果が、他の地点の表示装置40に追加表示される(S130)。 The image acquisition unit 110 acquires an additional image (sub-image S) generated by the image pickup device 35 in response to a predetermined process of the process execution unit 140 from the device in which the image pickup device 35 is incorporated (S124). Then, the person identification unit 120 identifies an unspecified person by analyzing the sub-image S (S126). Here, the person identification unit 120 acquires the person information of the participant specified by using the sub-image S from the person information registered in advance in the storage device 1040 or the like. Then, the person identification unit 120 associates the acquired person information with the area of the unspecified person in the main image M (S128). The server device 10 superimposes the person information acquired in the process of S128 on the main image M according to the position of the area associated with the person information, and transmits the person information to the communication terminal 20 at another point. As a result, the result of the person identification process using the sub-image S is additionally displayed on the display device 40 at another point (S130).

なお、撮影時の環境などにより、未特定人物が不鮮明なサブ画像Sが取得される可能性もある。人物特定部120は、サブ画像Sを解析しても未特定人物が特定できなかった場合、サブ画像Sの取り直し指示を、撮像装置35が組み込まれた装置に対して出力してもよい。また、人物特定部120は、サブ画像Sの取り直しを予め決められた回数行ったにもかかわらず未特定人物が特定できなかった場合、その未特定人物を部外者(会議の参加人物として予め登録された人物以外の人物)と判断してもよい。この場合、人物特定部120は、表示装置40や図示しないスピーカーなどを用いて、部外者の存在を報知する処理を実行してもよい。 It should be noted that there is a possibility that a sub-image S in which an unspecified person is unclear may be acquired depending on the environment at the time of shooting. If the unspecified person cannot be identified even after analyzing the sub-image S, the person-identifying unit 120 may output a retake instruction of the sub-image S to the device in which the imaging device 35 is incorporated. Further, when the unspecified person cannot be identified even though the sub-image S is retaken a predetermined number of times, the person identification unit 120 preliminarily sets the unspecified person as an outsider (as a participant in the meeting). It may be determined as a person other than the registered person). In this case, the person identification unit 120 may execute a process of notifying the presence of an outsider by using a display device 40, a speaker (not shown), or the like.

以上、本実施形態では、メイン画像Mを用いて特定できなかった人物が存在する場合、メイン画像Mを生成した撮像装置30とは異なる、移動型の撮像装置35により生成されたサブ画像Sを用いてその未特定人物を特定する処理が実行される。これにより、未特定人物が、会議の場で特定されないままの状態となることを防止できる。また、本実施形態によれば、会議の参加人物が、会議の場に紛れ込んだ部外者の存在を認識することができる。 As described above, in the present embodiment, when there is a person who cannot be identified using the main image M, the sub-image S generated by the mobile image pickup device 35, which is different from the image pickup device 30 that generated the main image M, is displayed. The process of identifying the unspecified person is executed by using. As a result, it is possible to prevent an unspecified person from being left unspecified at the meeting place. Further, according to the present embodiment, the participants of the conference can recognize the existence of an outsider who has been mixed into the meeting place.

[第2実施形態]
本実施形態では、撮像装置35が、自律移動可能なロボットに組み込まれている場合の処理について説明する。本実施形態は、以下で説明する点を除き、第1実施形態と同様である。
[Second Embodiment]
In the present embodiment, the processing when the image pickup apparatus 35 is incorporated in the autonomously movable robot will be described. The present embodiment is the same as the first embodiment except for the points described below.

〔システム構成例〕
図5は、第2実施形態のビデオ会議システム1の構成例を示す図である。図5に示されるように、本実施形態の撮像装置35は、自律移動可能なロボット60に組み込まれている。また、本実施形態において、処理実行部140は、未特定人物の位置に基づいて、撮像装置35の撮影位置を特定するための情報を生成する。また、処理実行部140は、撮像装置35の撮影位置を特定するための情報をロボット60に出力することにより、その情報により特定される位置に当該ロボット60を誘導して撮影を実行させる。
[System configuration example]
FIG. 5 is a diagram showing a configuration example of the video conference system 1 of the second embodiment. As shown in FIG. 5, the image pickup apparatus 35 of the present embodiment is incorporated in the autonomously movable robot 60. Further, in the present embodiment, the processing execution unit 140 generates information for specifying the shooting position of the imaging device 35 based on the position of the unspecified person. Further, the processing execution unit 140 outputs information for specifying the shooting position of the imaging device 35 to the robot 60, and guides the robot 60 to the position specified by the information to execute shooting.

処理実行部140は、位置検出部130により検出された未特定人物の位置から、ロボット60に組み込まれた撮像装置35の撮影位置を特定する。ここで、処理実行部140は、撮像装置35の撮影位置を、ロボット60が保持するマップデータ上での位置として算出する。なお、本実施形態において、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を検出してもよいし、メイン画像Mの座標系での未特定人物の座標(位置)を基にマップデータの座標系での未特定人物の座標(位置)を検出してもよい。前者の場合、処理実行部140は、メイン画像Mの座標系での未特定人物の座標(位置)をマップデータの座標系での座標(位置)に変換するルール(変換パラメータ)を用いて、撮像装置35の撮影位置を算出する。そして、算出した撮影位置を特定する情報をロボット60に出力する。後者の場合、処理実行部140は、位置検出部130により検出された位置を特定する情報をロボット60に出力すればよい。また、処理実行部140は、ロボット60に撮影時の角度を示す情報(撮像装置35をどの方向にどの程度傾けるかを示す情報)を生成し、撮影位置に対応付けて出力することができる。具体的には、処理実行部140は、メイン画像M内での未特定人物の顔の位置(高さ)を更に判定し、その顔の位置および撮影位置を基準とする撮像装置35の撮像可能範囲に基づいて、撮影時の角度を算出することができる。 The processing execution unit 140 identifies the shooting position of the image pickup device 35 incorporated in the robot 60 from the position of the unspecified person detected by the position detection unit 130. Here, the processing execution unit 140 calculates the shooting position of the imaging device 35 as a position on the map data held by the robot 60. In the present embodiment, the position detection unit 130 may detect the coordinates (position) of the unspecified person in the coordinate system of the main image M, or the coordinates of the unspecified person in the coordinate system of the main image M. The coordinates (position) of an unspecified person in the coordinate system of the map data may be detected based on (position). In the former case, the processing execution unit 140 uses a rule (conversion parameter) for converting the coordinates (position) of an unspecified person in the coordinate system of the main image M into the coordinates (position) in the coordinate system of the map data. The imaging position of the image pickup device 35 is calculated. Then, the calculated information for specifying the shooting position is output to the robot 60. In the latter case, the processing execution unit 140 may output information for identifying the position detected by the position detection unit 130 to the robot 60. Further, the processing execution unit 140 can generate information indicating an angle at the time of shooting (information indicating how much the image pickup apparatus 35 is tilted in which direction) on the robot 60, and output the information in association with the shooting position. Specifically, the processing execution unit 140 further determines the position (height) of the face of an unspecified person in the main image M, and can image the image pickup device 35 based on the position of the face and the shooting position. The angle at the time of shooting can be calculated based on the range.

ロボット60は、処理実行部140から取得した情報により特定される位置まで移動する。なお、ロボット60は、既知の自己位置推定アルゴリズムを使って自己位置を算出して、目的とする位置(処理実行部140から取得した情報により特定される位置)まで移動することができる。ロボット60は、目的とする位置に到達すると、撮像装置35に撮影動作を実行させる。これにより、メイン画像Mを用いて特定されなかった未特定人物が写るサブ画像Sが生成される。また、ロボット60は、撮像装置35により生成されたサブ画像Sを画像取得部110に送信する。その結果、第1実施形態で説明したように、サブ画像Sを用いた人物特定処理が実行可能となる。 The robot 60 moves to a position specified by the information acquired from the processing execution unit 140. The robot 60 can calculate its own position using a known self-position estimation algorithm and move to a target position (a position specified by information acquired from the processing execution unit 140). When the robot 60 reaches a target position, the robot 60 causes the image pickup device 35 to perform a shooting operation. As a result, a sub-image S in which an unspecified person who has not been specified using the main image M is captured is generated. Further, the robot 60 transmits the sub-image S generated by the image pickup apparatus 35 to the image acquisition unit 110. As a result, as described in the first embodiment, the person identification process using the sub-image S can be executed.

また、ロボット60の動きを人が操作できるようにしてもよい。例えば、会議の参加人物が、携帯型端末(スマートフォンやノートパソコンなど)、或いは、専用のリモートコントローラを操作して、ロボット60に対して移動指示を送信してもよい。ロボット60の動作は、携帯型端末や専用のリモートコントローラから受信した移動指示によって制御される。なおこの場合において、会議の参加人物は、後述の第3実施形態で説明するような被写体を特定するための情報(表示装置40上に出力される情報)を確認することにより、ロボット60を移動させるべき位置を判断することができる。 Further, a person may be able to operate the movement of the robot 60. For example, a person participating in the conference may operate a portable terminal (smartphone, laptop computer, etc.) or a dedicated remote controller to send a movement instruction to the robot 60. The operation of the robot 60 is controlled by a movement instruction received from a portable terminal or a dedicated remote controller. In this case, the participants in the conference move the robot 60 by confirming the information for identifying the subject (information output on the display device 40) as described in the third embodiment described later. It is possible to determine the position to be made.

以上、本実施形態によれば、第1実施形態で説明した効果が得られる。また、本実施形態では、未特定人物が写るサブ画像Sを自律移動可能なロボット60が自動的に取得してくれる。そのため、会議の参加人物は、未特定人物を特定するために何らかの特別なアクションを会議中に起こさなくてもよくなる。つまり、未特定人物を特定する際の手間を省くことができ、ビデオ会議システム1の利便性が向上する。 As described above, according to the present embodiment, the effects described in the first embodiment can be obtained. Further, in the present embodiment, the autonomously movable robot 60 automatically acquires the sub-image S in which an unspecified person is captured. Therefore, the participants in the meeting do not have to take any special action during the meeting to identify the unspecified person. That is, it is possible to save the trouble of identifying an unspecified person, and the convenience of the video conference system 1 is improved.

[第3実施形態]
本実施形態では、撮像装置35が、会議の参加人物が所有する携帯型装置(例えば、スマートフォン、タブレット、ノート型パソコンなど)に組み込まれている場合の処理について説明する。本実施形態は、以下の点を除き、第1実施形態と同様である。
[Third Embodiment]
In the present embodiment, the processing when the imaging device 35 is incorporated in a portable device (for example, a smartphone, a tablet, a notebook computer, etc.) owned by the participants of the conference will be described. The present embodiment is the same as the first embodiment except for the following points.

図6は、第3実施形態のビデオ会議システム1の構成例を示す図である。図6に示されるように、本実施形態の撮像装置35は、会議の参加人物が所有する携帯型端末70に組み込まれている。携帯型端末70は、例えば、スマートフォン、タブレット、ノート型パソコンなどである。また、本実施形態において、処理実行部140は、位置検出部130により検出された未特定人物の位置に基づいて、撮像装置35の被写体(未特定人物)を特定するための情報を生成する。具体的には、処理実行部140は、位置検出部130により検出された、メイン画像Mにおける未特定人物の位置に合わせて、その人物が未特定人物であることを示す情報をメイン画像Mに重畳させたデータを生成する。そして、処理実行部140は、このように生成された、撮像装置35の被写体を特定するための情報を表示装置40(メイン画像Mの撮影地点に設けられた表示装置40)に出力する(例:図7)。 FIG. 6 is a diagram showing a configuration example of the video conference system 1 of the third embodiment. As shown in FIG. 6, the image pickup apparatus 35 of the present embodiment is incorporated in a portable terminal 70 owned by a participant of the conference. The portable terminal 70 is, for example, a smartphone, a tablet, a notebook computer, or the like. Further, in the present embodiment, the processing execution unit 140 generates information for identifying the subject (unspecified person) of the image pickup apparatus 35 based on the position of the unspecified person detected by the position detecting unit 130. Specifically, the processing execution unit 140 sends information indicating that the person is an unspecified person to the main image M according to the position of the unspecified person in the main image M detected by the position detecting unit 130. Generate superimposed data. Then, the processing execution unit 140 outputs the information for identifying the subject of the image pickup device 35 generated in this way to the display device 40 (display device 40 provided at the shooting point of the main image M) (example). : Fig. 7).

図7は、表示装置40に表示される、被写体を特定するための情報の一例を示す図である。図7では、特定済みの参加人物の氏名を示す情報に加えて、「Unknown」という文字情報が、メイン画像Mに重畳表示されている様子が描かれている。図7の例では、この「Unknown」という文字情報が、未特定人物であることを示す情報である。メイン画像Mの撮影地点にいる会議の参加人物は、図7に示されるような情報(「Unknown」という文字情報)を確認することにより、撮像装置35を使ってどの人物を撮影すればよいかを把握することができる。そして、未特定人物と判断された参加人物本人または他の参加人物が、携帯型端末70に備えられている撮像装置35を未特定人物と判断された参加人物に向けて撮影操作を実行する。これにより、メイン画像Mを用いて特定されなかった未特定人物が写るサブ画像Sが生成される。ここで、メイン画像Mの中に複数の未特定人物が存在する場合もある。この場合には、携帯型端末70により撮影されたサブ画像Sがどの未特定人物に対応する画像かを示す情報が必要となる。そこで、メイン画像Mの中に複数の未特定人物が存在する場合、一例として、携帯型端末70は、サブ画像Sに対応する未特定人物を指定する操作を更に受け付けてもよい。例えば、携帯型端末70は、サブ画像Sの撮影前または撮影後にメイン画像Mを表示画面上に表示させ、その中から未特定人物を選択する操作を受け付けてもよい。そして、携帯型端末70は、撮影動作に応じて、或いは、その端末を操作している人物の更なる操作に応じて、生成されたサブ画像Sをサーバ装置10に送信する。その結果、第1実施形態で説明したように、サブ画像Sを用いた人物特定処理が実行可能となる。 FIG. 7 is a diagram showing an example of information for identifying a subject displayed on the display device 40. In FIG. 7, in addition to the information indicating the names of the identified participants, the character information "Unknown" is superimposed and displayed on the main image M. In the example of FIG. 7, the character information "Unknown" is information indicating that the person is an unspecified person. Which person should be photographed by using the image pickup apparatus 35 by confirming the information (character information "Unknown") as shown in FIG. 7 for the participants of the conference at the shooting point of the main image M. Can be grasped. Then, the participant himself / herself or another participant who is determined to be an unspecified person executes a shooting operation toward the participant who is determined to be an unspecified person with the imaging device 35 provided in the portable terminal 70. As a result, a sub-image S in which an unspecified person who has not been specified using the main image M is captured is generated. Here, a plurality of unspecified persons may exist in the main image M. In this case, information indicating which unspecified person the sub-image S taken by the portable terminal 70 corresponds to is required. Therefore, when a plurality of unspecified persons are present in the main image M, as an example, the portable terminal 70 may further accept an operation of designating the unspecified persons corresponding to the sub image S. For example, the portable terminal 70 may display the main image M on the display screen before or after shooting the sub image S, and may accept an operation of selecting an unspecified person from the main image M. Then, the portable terminal 70 transmits the generated sub-image S to the server device 10 according to the shooting operation or the further operation of the person who is operating the terminal. As a result, as described in the first embodiment, the person identification process using the sub-image S can be executed.

以上、本実施形態によれば、第1実施形態で説明した効果が得られる。 As described above, according to the present embodiment, the effects described in the first embodiment can be obtained.

[第4実施形態]
本実施形態では、自動的に議事録を作成する機能を更に有する点を除き、上述の各実施形態と同様の構成を有する。
[Fourth Embodiment]
The present embodiment has the same configuration as each of the above-described embodiments, except that it further has a function of automatically creating minutes.

図8は、第4実施形態におけるビデオ会議システム1の構成例を示す図である。図8に例示されるビデオ会議システム1は、リスト作成部150、音声取得部160、発言者特定部170、議事録作成部180を更に備える。 FIG. 8 is a diagram showing a configuration example of the video conference system 1 according to the fourth embodiment. The video conference system 1 illustrated in FIG. 8 further includes a list creation unit 150, a voice acquisition unit 160, a speaker identification unit 170, and a minutes creation unit 180.

リスト作成部150は、人物特定部120の人物特定処理によって特定された人物のリストを作成する。リスト作成部150は、例えば次のように動作する。まず、リスト作成部150は、人物特定部120の人物特定処理で人物が特定された場合に、人物特定部120からその結果を取得する。そして、リスト作成部150は、人物特定部120から取得した人物の特定結果を、メモリ1030などに保持されるリストに追加する。これにより、ビデオ会議システム1を利用して開催される会議の参加者のリストを自動的に生成することができる。 The list creation unit 150 creates a list of persons identified by the person identification process of the person identification unit 120. The list creation unit 150 operates as follows, for example. First, when a person is identified by the person identification process of the person identification unit 120, the list creation unit 150 acquires the result from the person identification unit 120. Then, the list creation unit 150 adds the person identification result acquired from the person identification unit 120 to the list held in the memory 1030 or the like. As a result, a list of participants in the conference held by using the video conference system 1 can be automatically generated.

音声取得部160は、図示しないマイクにより生成された、会議中の会話の音声データを取得する。発言者特定部170は、音声取得部160により取得された音声データに関する発言者を特定する。一例として、発言者特定部170は、例えば会議の開催前にストレージデバイス1040などに予め登録された各参加人物の声紋データとの照合を行うことにより、音声取得部160が取得した音声データに関する発言者を特定することができる。他の一例として、発言者特定部170は、音声データと同期して取得される画像(撮像装置30により生成される画像)を解析することによって、音声取得部160が取得した音声データに関する発言者を特定することができる。具体的には、発言者特定部170は、音声データと同期して取得された画像を解析した結果、口の部分が動いている人物の領域を特定する。そして、口の部分が動いている人物の領域についての人物特定処理の結果から、その発話者を特定することができる。議事録作成部180は、発言者特定部170による発言者の特定結果と、音声取得部160により取得された音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する。また、議事録作成部180は、リスト作成部150により生成された人物のリストを、会議の参加者として議事録データに付加することができる。 The voice acquisition unit 160 acquires voice data of a conversation during a meeting generated by a microphone (not shown). The speaker identification unit 170 identifies a speaker regarding the voice data acquired by the voice acquisition unit 160. As an example, the speaker identification unit 170 makes a statement regarding the voice data acquired by the voice acquisition unit 160 by collating with the voiceprint data of each participant registered in advance in the storage device 1040 or the like before the conference is held. Can be identified. As another example, the speaker identification unit 170 analyzes an image (an image generated by the imaging device 30) acquired in synchronization with the voice data, so that the speaker identification unit 170 is a speaker regarding the voice data acquired by the voice acquisition unit 160. Can be identified. Specifically, the speaker identification unit 170 identifies a region of a person whose mouth is moving as a result of analyzing an image acquired in synchronization with voice data. Then, the speaker can be identified from the result of the person identification process for the area of the person whose mouth is moving. The minutes creation unit 180 generates the minutes data by associating the speaker identification result by the speaker identification unit 170 with the text data generated based on the voice data acquired by the voice acquisition unit 160. .. In addition, the minutes preparation unit 180 can add the list of persons generated by the list preparation unit 150 to the minutes data as participants in the meeting.

〔ハードウエア構成例〕
本実施形態のビデオ会議システム1は、第1実施形態と同様のハードウエア構成(例:図2)を有する。本実施形態のストレージデバイス1040は、上述のリスト作成部150、音声取得部160、発言者特定部170および議事録作成部180の機能を実現するためのプログラムモジュールを更に記憶している。プロセッサ1020が、これらのプログラムモジュールをメモリ1030上に読み出して実行することにより、上述の本実施形態の各機能が実現される。
[Hardware configuration example]
The video conference system 1 of the present embodiment has the same hardware configuration as that of the first embodiment (example: FIG. 2). The storage device 1040 of the present embodiment further stores a program module for realizing the functions of the list creation unit 150, the voice acquisition unit 160, the speaker identification unit 170, and the minutes creation unit 180 described above. When the processor 1020 reads and executes these program modules on the memory 1030, each function of the above-described embodiment is realized.

〔処理の流れ〕
図9を用いて、本実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図9は、第4実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。
[Processing flow]
The flow of processing executed by the video conference system 1 of the present embodiment will be described with reference to FIG. FIG. 9 is a flowchart illustrating a flow of processing executed by the video conference system 1 of the fourth embodiment.

まず、音声取得部160は会議の音声データを取得する(S202)。会議の音声データは、各地点に設けられている集音装置50により生成される。集音装置50は、通信端末20に接続されている。音声取得部160は、ネットワークインタフェース1060を介して各地点の通信端末20と通信して、その地点の集音装置50により生成された音声データを取得することができる。 First, the voice acquisition unit 160 acquires the voice data of the conference (S202). The audio data of the conference is generated by the sound collecting device 50 provided at each point. The sound collecting device 50 is connected to the communication terminal 20. The voice acquisition unit 160 can communicate with the communication terminal 20 at each point via the network interface 1060 and acquire the voice data generated by the sound collector 50 at that point.

そして、発言者特定部170は、音声取得部160により取得された音声データに関する発言者を特定する(S204)。一例として、発言者特定部170は、次のようにして、音声取得部160により取得された音声データに関する発言者を特定することができる。まず、発言者特定部170は、ストレージデバイス1040などに事前に登録された各参加人物の声紋データと音声データとを照合して、当該音声データの声紋との一致度が基準を満たす声紋データを特定する。そして、発言者特定部170は、特定した声紋データに関連付けられている参加人物の識別情報(人物の氏名、または、人物毎に割り当てられたIDなど)を取得することにより、音声取得部160により取得された音声データの発言者を特定することができる。他の一例として、発言者特定部170は、次のようにして、音声取得部160により取得された音声データに関する発言者を特定することができる。まず、発言者特定部170は、音声データと同期して画像取得部110により取得された画像を解析する。具体的には、発言者特定部170は、画像の中から人物の口の領域を検出し、その領域(すなわち、口)が時系列で並ぶ複数の画像間で動いているか否かを判定する。そして、発言者特定部170は、口の領域が動いていると判定された人物の領域について、人物特定部120の人物特定処理の結果を取得することにより、音声取得部160により取得された音声データの発言者を特定することができる。また、発言者特定部170は、既知の話者追尾方法(例えば、センサーマイクと顔検出技術とを組み合わせて、音源が位置する方向と人物(顔)の検出位置に基づいて話者を特定する方法)を利用して、発言者を特定してもよい。なお、ここでは、例えば、上述の各実施形態で説明したような処理によって、全ての人物が特定されているものと仮定している。 Then, the speaker identification unit 170 identifies the speaker regarding the voice data acquired by the voice acquisition unit 160 (S204). As an example, the speaker identification unit 170 can identify the speaker regarding the voice data acquired by the voice acquisition unit 160 as follows. First, the speaker identification unit 170 collates the voiceprint data of each participant registered in advance in the storage device 1040 or the like with the voice data, and obtains the voiceprint data whose degree of coincidence with the voiceprint of the voice data satisfies the standard. Identify. Then, the speaker identification unit 170 obtains the identification information (name of the person, ID assigned to each person, etc.) of the participating person associated with the specified voiceprint data, and thus the voice acquisition unit 160 uses the voice acquisition unit 160. The speaker of the acquired voice data can be identified. As another example, the speaker identification unit 170 can identify the speaker regarding the voice data acquired by the voice acquisition unit 160 as follows. First, the speaker identification unit 170 analyzes the image acquired by the image acquisition unit 110 in synchronization with the voice data. Specifically, the speaker identification unit 170 detects a region of a person's mouth from an image and determines whether or not the region (that is, the mouth) is moving between a plurality of images arranged in chronological order. .. Then, the speaker identification unit 170 acquires the result of the person identification process of the person identification unit 120 for the area of the person determined to be moving in the mouth area, and thus the voice acquired by the voice acquisition unit 160. The speaker of the data can be identified. Further, the speaker identification unit 170 identifies the speaker based on the direction in which the sound source is located and the detection position of the person (face) by combining a known speaker tracking method (for example, a sensor microphone and a face detection technique). Method) may be used to identify the speaker. Here, it is assumed that all the persons are specified by, for example, the processing described in each of the above-described embodiments.

議事録作成部180は、音声取得部160および発言者特定部170の処理結果に基づいて、議事録データを生成する(S206)。具体的には、議事録作成部180は、音声データをテキスト化するAPI(Application Programming Interface)などを利用して、音声取得部160により取得された音声データをテキストデータ化する。また、議事録作成部180は、発言者特定部170によって特定された、当該音声データの発言者の情報(例えば、発言者の氏名など)を取得する。そして、議事録作成部180は、音声取得部160により取得された音声データから生成されたテキストデータと、その音声データに関する発言者として特定された人物の情報とを対応付けて、議事録データに追加する。また、議事録作成部180は、リスト作成部150により生成された、会議の参加人物リストを読み出し、議事録データに参加人物の情報を付加してもよい。 The minutes creation unit 180 generates minutes data based on the processing results of the voice acquisition unit 160 and the speaker identification unit 170 (S206). Specifically, the minutes creation unit 180 converts the voice data acquired by the voice acquisition unit 160 into text data by using an API (Application Programming Interface) or the like that converts the voice data into text. In addition, the minutes preparation unit 180 acquires the speaker information (for example, the name of the speaker) of the voice data specified by the speaker identification unit 170. Then, the minutes creation unit 180 associates the text data generated from the voice data acquired by the voice acquisition unit 160 with the information of the person specified as the speaker regarding the voice data, and converts the minutes data into the minutes data. to add. Further, the minutes preparation unit 180 may read the list of participants in the meeting generated by the list preparation unit 150 and add the information of the participants to the minutes data.

以上、本実施形態の構成によれば、ビデオ会議システム1を利用した開催される会議の議事録を、自動で作成することができる。これにより、会議の参加人物が議事録の作成する手間を削減することができる。 As described above, according to the configuration of the present embodiment, the minutes of the meeting to be held using the video conference system 1 can be automatically created. As a result, it is possible to reduce the time and effort required for the participants in the meeting to prepare the minutes.

[第5実施形態]
本実施形態は、以下の点で、上述の各実施形態と異なる。
[Fifth Embodiment]
This embodiment differs from each of the above-described embodiments in the following points.

〔システム構成例〕
図10は、第5実施形態におけるビデオ会議システム1の構成例を示す図である。図10に例示されるように、本実施形態のビデオ会議システム1は、位置検出部130および撮像装置35を備えていない。その代わりに、本実施形態のビデオ会議システム1は、音声取得部160および発言者特定部170を備えている。音声取得部160および発言者特定部170の動作は、第4実施形態で説明した動作と同様である。本実施形態の処理実行部140は、音声データと同期して取得されたメイン画像Mを解析することによって、未特定人物が音声データに関する発話者か否かを特定する。本実施形態では、メイン画像Mに基づく個人認証処理と、音声データに基づく個人認証処理が並行して実行される。
[System configuration example]
FIG. 10 is a diagram showing a configuration example of the video conference system 1 according to the fifth embodiment. As illustrated in FIG. 10, the video conference system 1 of the present embodiment does not include the position detection unit 130 and the image pickup device 35. Instead, the video conference system 1 of the present embodiment includes a voice acquisition unit 160 and a speaker identification unit 170. The operations of the voice acquisition unit 160 and the speaker identification unit 170 are the same as the operations described in the fourth embodiment. The processing execution unit 140 of the present embodiment identifies whether or not the unspecified person is a speaker related to the voice data by analyzing the main image M acquired in synchronization with the voice data. In the present embodiment, the personal authentication process based on the main image M and the personal authentication process based on the voice data are executed in parallel.

〔ハードウエア構成例〕
図11は、第5実施形態におけるビデオ会議システム1のハードウエア構成を例示する図である。図11に例示されるハードウエア構成は、撮像装置35が備えられていない点で、図2に例示されるハードウエア構成と異なる。また、本実施形態のストレージデバイス1040は、位置検出部130の機能を実現するプログラムモジュールを記憶していない。その代わりに、本実施形態のストレージデバイス1040は、音声取得部160および発言者特定部170を実現するためのプログラムモジュールを更に記憶している。また、本実施形態のストレージデバイス1040に記憶される処理実行部140のプログラムモジュールは、上述した本実施形態の処理実行部140の機能を実現する。
[Hardware configuration example]
FIG. 11 is a diagram illustrating a hardware configuration of the video conference system 1 according to the fifth embodiment. The hardware configuration illustrated in FIG. 11 differs from the hardware configuration illustrated in FIG. 2 in that the image pickup apparatus 35 is not provided. Further, the storage device 1040 of the present embodiment does not store the program module that realizes the function of the position detection unit 130. Instead, the storage device 1040 of the present embodiment further stores a program module for realizing the voice acquisition unit 160 and the speaker identification unit 170. Further, the program module of the processing execution unit 140 stored in the storage device 1040 of the present embodiment realizes the function of the processing execution unit 140 of the present embodiment described above.

〔処理の流れ〕
図12を用いて、本実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図12は、第5実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。なお、ここでは、図3のS102からS114までの処理(メイン画像Mに基づく個人認証処理)が並行して実施されている。
[Processing flow]
A flow of processing executed by the video conference system 1 of the present embodiment will be described with reference to FIG. FIG. 12 is a flowchart illustrating a flow of processing executed by the video conference system 1 of the fifth embodiment. Here, the processes from S102 to S114 in FIG. 3 (personal authentication process based on the main image M) are performed in parallel.

まず、処理実行部140は、並行して実行されるメイン画像Mに基づく個人認証処理で、未特定人物が検出されたか否かを判定する(S302)。未特定人物が検出されなかった場合(S302:NO)、以降の処理は実行されない。 First, the process execution unit 140 determines whether or not an unspecified person has been detected in the personal authentication process based on the main image M executed in parallel (S302). If an unspecified person is not detected (S302: NO), the subsequent processing is not executed.

一方、未特定人物が検出された場合(S302:YES)、発言者特定部170は、音声取得部160により取得される音声データを用いて、その音声データに関する発言者を特定する処理を開始する(S304)。このS304の処理の具体的な流れは、図9のS304の処理と同様である。 On the other hand, when an unspecified person is detected (S302: YES), the speaker identification unit 170 starts a process of identifying the speaker related to the voice data by using the voice data acquired by the voice acquisition unit 160. (S304). The specific flow of the process of S304 is the same as the process of S304 of FIG.

また、処理実行部140は、上述の音声データと同期して取得されたメイン画像Mを解析して、S304の処理で特定された発言者が未特定人物と一致するか否かを判定する(S306)。処理実行部140は、メイン画像Mの中で口の部分が動いている人物の領域に特定失敗情報が関連付けられているか否かに基づいて、発言者が未特定人物か否かを判定することができる。発言者が未特定人物である場合(S306:YES)、処理実行部140は、メイン画像Mの未特定人物の領域に、発言者として特定された参加人物の人物情報を関連付ける(S308)。この関連付けにより、メイン画像M上では、未特定人物を示す情報に代わって、その参加人物の人物情報が表示される。 Further, the processing execution unit 140 analyzes the main image M acquired in synchronization with the above-mentioned voice data, and determines whether or not the speaker specified in the processing of S304 matches the unspecified person ( S306). The processing execution unit 140 determines whether or not the speaker is an unspecified person based on whether or not the specific failure information is associated with the area of the person whose mouth is moving in the main image M. Can be done. When the speaker is an unspecified person (S306: YES), the processing execution unit 140 associates the person information of the participant specified as the speaker with the area of the unspecified person in the main image M (S308). By this association, the person information of the participating person is displayed on the main image M instead of the information indicating the unspecified person.

本実施形態では、サブ画像Sを生成する撮像装置35を用いる代わりに、音声認証技術を用いて未特定人物が特定することができる。 In the present embodiment, instead of using the image pickup apparatus 35 that generates the sub-image S, an unspecified person can be identified by using a voice authentication technique.

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 Although the embodiments of the present invention have been described above with reference to the drawings, these are examples of the present invention, and various configurations other than the above can be adopted.

また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。 Further, in the plurality of flowcharts used in the above description, a plurality of steps (processes) are described in order, but the execution order of the steps executed in each embodiment is not limited to the order of description. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. In addition, the above-described embodiments can be combined as long as the contents do not conflict with each other.

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
第1の撮像装置により生成された、会議の参加人物が写る画像を取得する画像取得手段と、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった未特定人物の位置を検出する位置検出手段と、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。
2.
前記処理実行手段は、移動型の撮像装置である第2の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記画像取得手段は、前記第2の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記第2の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
1.に記載のビデオ会議システム。
3.
前記第2の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第2の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
2.に記載のビデオ会議システム。
4.
前記第2の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第2の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
2.に記載のビデオ会議システム。
5.
前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
1.から4.のいずれか1つに記載のビデオ会議システム。
6.
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
1.から5.のいずれか1つに記載のビデオ会議システム。
7.
コンピュータが、
第1の撮像装置により生成された、会議の参加人物が写る画像を取得し、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった未特定人物の位置を検出し、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する、
ことを含むビデオ会議方法。
8.
前記コンピュータが、
移動型の撮像装置である第2の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記第2の撮像装置により生成された追加画像を取得し、
前記第2の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
ことを含む7.に記載のビデオ会議方法。
9.
前記第2の撮像装置は、自律移動可能なロボットに組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第2の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
ことを含む8.に記載のビデオ会議方法。
10.
前記第2の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第2の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
ことを含む8.に記載のビデオ会議方法。
11.
前記コンピュータが、
前記人物特定手段によって特定された人物のリストを作成する、
ことを含む7.から10.のいずれか1つに記載のビデオ会議方法。
12.
前記コンピュータが、
音声データを取得し、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定し、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する、
ことを含む7.から11.のいずれか1つに記載のビデオ会議方法。
13.
コンピュータに、7.から12.のいずれか1つに記載のビデオ会議方法を実行させるためのプログラム。
Some or all of the above embodiments may also be described, but not limited to:
1. 1.
An image acquisition means for acquiring an image of a person participating in the conference generated by the first imaging device, and
A person identification means that analyzes the image and executes a person identification process for identifying a person included in the image, and
A position detecting means for detecting the position of an unspecified person who could not be identified by the person identification process, and
A process execution means for executing a predetermined process for identifying the unspecified person using the detected position of the unspecified person, and a process executing means.
Video conference system with.
2.
The process executing means sets as the predetermined process a process of generating and outputting information for identifying a shooting position or a subject of a second image pickup device, which is a mobile image pickup device, based on the position of the unspecified person. Run and
The image acquisition means acquires an additional image generated by the second image pickup apparatus, and obtains an additional image.
The person identifying means analyzes the additional image generated by the second imaging device to identify the unspecified person.
1. 1. The video conference system described in.
3. 3.
The second imaging device is incorporated in an autonomously movable robot.
The processing execution means is
Based on the position of the unspecified person, information for specifying the shooting position of the second imaging device is generated.
By outputting the information for specifying the shooting position to the robot, the robot is guided to the position specified by the information to execute shooting.
2. The video conference system described in.
4.
The second imaging device is incorporated in a portable terminal owned by a participant of the conference.
The processing execution means is
Based on the position of the unspecified person, information for identifying the subject of the second imaging device is generated.
The information for identifying the subject is output to the display device.
2. The video conference system described in.
5.
Further provided with a list creation means for creating a list of persons identified by the person identification means.
1. 1. From 4. The video conference system according to any one of the above.
6.
Voice acquisition means to acquire voice data and
A speaker identifying means for identifying a speaker related to the voice data by analyzing the voice data or an image acquired in synchronization with the voice data.
Further provided is a minutes creation means for generating minutes data by associating the specific result of the speaker with the text data generated based on the voice data.
1. 1. From 5. The video conference system according to any one of the above.
7.
The computer
Acquire the image of the participants of the conference generated by the first imaging device,
The image is analyzed, a person identification process for identifying the person included in the image is executed, and the person identification process is executed.
Detects the position of an unspecified person that could not be specified by the person identification process,
Using the detected position of the unspecified person, a predetermined process for identifying the unspecified person is executed.
Video conference methods including that.
8.
The computer
A process of generating and outputting information for identifying a shooting position or a subject of a second image pickup device, which is a mobile image pickup device, based on the position of the unspecified person is executed as the predetermined process.
The additional image generated by the second image pickup apparatus is acquired, and the additional image is acquired.
The unspecified person is identified by analyzing the additional image generated by the second imaging device.
Including 7. The video conference method described in.
9.
The second imaging device is incorporated in an autonomously movable robot.
The computer
Based on the position of the unspecified person, information for specifying the shooting position of the second imaging device is generated.
By outputting the information for specifying the shooting position to the robot, the robot is guided to the position specified by the information to execute shooting.
Including 8. The video conference method described in.
10.
The second imaging device is incorporated in a portable terminal owned by a participant of the conference.
The computer
Based on the position of the unspecified person, information for identifying the subject of the second imaging device is generated.
The information for identifying the subject is output to the display device.
Including 8. The video conference method described in.
11.
The computer
Create a list of people identified by the person identification means,
Including 7. To 10. The video conference method according to any one of the above.
12.
The computer
Get audio data,
By analyzing the voice data or an image acquired in synchronization with the voice data, a speaker regarding the voice data can be identified.
Minutes data is generated by associating the specific result of the speaker with the text data generated based on the voice data.
Including 7. From 11. The video conference method according to any one of the above.
13.
To the computer, 7. From 12. A program for executing the video conference method described in any one of the above.

1 ビデオ会議システム
10 サーバ装置
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース
110 画像取得部
120 人物特定部
130 位置検出部
140 処理実行部
150 リスト作成部
160 音声取得部
170 発言者特定部
180 議事録作成部
20 通信端末
30 撮像装置
30 第1の撮像装置
35 撮像装置
40 表示装置
50 集音装置
60 ロボット
70 携帯型端末
1 Video conferencing system 10 Server device 1010 Bus 1020 Processor 1030 Memory 1040 Storage device 1050 Input / output interface 1060 Network interface 110 Image acquisition unit 120 Person identification unit 130 Position detection unit 140 Processing execution unit 150 List creation unit 160 Voice acquisition unit 170 Speaker Specific unit 180 Minutes creation unit 20 Communication terminal 30 Imaging device 30 First imaging device 35 Imaging device 40 Display device 50 Sound collecting device 60 Robot 70 Portable terminal

Claims (10)

第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得する情報取得手段と、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった未特定人物の特定情報を検出する特定情報検出手段と、
検出された前記特定情報を用いて、解析することで前記未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。
An information acquisition means for acquiring the first information for identifying the participants in the conference, which is generated by the first acquisition device.
A person identification means that analyzes the first information and executes a person identification process for identifying a person included in the first information , and a person identification means.
Specific information detection means for detecting specific information of an unspecified person that could not be specified by the person identification process, and
A process execution means for executing a predetermined process for acquiring a second information capable of identifying the unspecified person by analyzing the detected specific information .
Video conference system with.
前記人物特定手段は、前記第2の情報を解析して、前記第2の情報に含まれる人物を特定する人物特定処理を実行する The person identification means analyzes the second information and executes a person identification process for identifying a person included in the second information.
ことを特徴とする請求項1に記載のビデオ会議システム。 The video conference system according to claim 1.
前記第1の情報と前記第2の情報は、顔情報及び音声の少なくとも一方を含む生体情報を含んでおり、 The first information and the second information include biological information including at least one of facial information and voice.
前記特定情報は、位置及び音声の少なくとも一方を含む The specific information includes at least one of position and voice.
ことを特徴とする請求項1又は2に記載のビデオ会議システム。 The video conference system according to claim 1 or 2.
前記処理実行手段は、移動型の撮像装の撮影位置または被写体を特定するための情報を前記未特定人物の前記特定情報に基づいて生成して出力する処理を前記所定処理として実行し、
前記情報取得手段は、前記移動型の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記移動型の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
請求項1から3のいずれか1項に記載のビデオ会議システム。
The process executing means executes as the predetermined process a process of generating and outputting information for specifying a shooting position or a subject of a mobile imaging device based on the specific information of the unspecified person.
The information acquisition means acquires an additional image generated by the mobile imaging device, and obtains an additional image.
The person identifying means analyzes an additional image generated by the mobile imaging device to identify the unspecified person.
The video conference system according to any one of claims 1 to 3 .
前記移動型の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
請求項4に記載のビデオ会議システム。
The mobile imaging device is incorporated in a robot that can move autonomously.
The processing execution means is
Based on the specific information of the unspecified person, information for specifying the shooting position of the mobile imaging device is generated.
By outputting the information for specifying the shooting position to the robot, the robot is guided to the position specified by the information to execute shooting.
The video conference system according to claim 4 .
前記移動型の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
請求項4に記載のビデオ会議システム。
The mobile imaging device is incorporated in a portable terminal owned by a participant of the conference.
The processing execution means is
Based on the specific information of the unspecified person, information for identifying the subject of the mobile imaging device is generated.
The information for identifying the subject is output to the display device.
The video conference system according to claim 4 .
前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
請求項1から6のいずれか1項に記載のビデオ会議システム。
Further provided with a list creation means for creating a list of persons identified by the person identification means.
The video conference system according to any one of claims 1 to 6 .
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
請求項1から7のいずれか1項に記載のビデオ会議システム。
Voice acquisition means to acquire voice data and
A speaker identifying means for identifying a speaker related to the voice data by analyzing the voice data or an image acquired in synchronization with the voice data.
Further provided is a minutes creation means for generating minutes data by associating the specific result of the speaker with the text data generated based on the voice data.
The video conference system according to any one of claims 1 to 7 .
コンピュータが、
第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得し、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった未特定人物の特定情報を検出し、
検出された前記特定情報を用いて、解析することで前記未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する、
ことを含むビデオ会議方法。
The computer
Acquires the first information for identifying the participants in the conference, which is generated by the first acquisition device.
The person identification process for identifying the person included in the first information by analyzing the first information is executed.
Detects specific information of an unspecified person that could not be specified by the person identification process,
Using the detected specific information , a predetermined process for acquiring a second information capable of identifying the unspecified person by analysis is executed.
Video conference methods including that.
コンピュータに、請求項9に記載のビデオ会議方法を実行させるためのプログラム。 A program for causing a computer to execute the video conference method according to claim 9 .
JP2018065249A 2018-03-29 2018-03-29 Video Conference Systems, Video Conference Methods, and Programs Active JP7102859B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018065249A JP7102859B2 (en) 2018-03-29 2018-03-29 Video Conference Systems, Video Conference Methods, and Programs
JP2022108957A JP7400886B2 (en) 2018-03-29 2022-07-06 Video conferencing systems, video conferencing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018065249A JP7102859B2 (en) 2018-03-29 2018-03-29 Video Conference Systems, Video Conference Methods, and Programs

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022108957A Division JP7400886B2 (en) 2018-03-29 2022-07-06 Video conferencing systems, video conferencing methods, and programs

Publications (2)

Publication Number Publication Date
JP2019176416A JP2019176416A (en) 2019-10-10
JP7102859B2 true JP7102859B2 (en) 2022-07-20

Family

ID=68169844

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018065249A Active JP7102859B2 (en) 2018-03-29 2018-03-29 Video Conference Systems, Video Conference Methods, and Programs
JP2022108957A Active JP7400886B2 (en) 2018-03-29 2022-07-06 Video conferencing systems, video conferencing methods, and programs

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022108957A Active JP7400886B2 (en) 2018-03-29 2022-07-06 Video conferencing systems, video conferencing methods, and programs

Country Status (1)

Country Link
JP (2) JP7102859B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220025458A (en) * 2020-08-24 2022-03-03 주식회사 아모센스 Electronic device and operating method of the same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004129071A (en) 2002-10-04 2004-04-22 Sony Corp Two-way communication system
JP2009069172A (en) 2007-09-10 2009-04-02 Konica Minolta Business Technologies Inc Minutes creating device, minutes creating system, minutes creating method and minutes creating program
JP2011004007A (en) 2009-06-16 2011-01-06 Ricoh Co Ltd Television conference device, television conference method, and program for the same

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06121310A (en) * 1992-10-05 1994-04-28 Ricoh Co Ltd Video conference device
JP3596996B2 (en) * 1996-11-15 2004-12-02 沖電気工業株式会社 Personal recognition device using characteristics of living body and automatic transaction system using this personal recognition device
US8248448B2 (en) * 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
JP2013207356A (en) * 2012-03-27 2013-10-07 Sony Corp Information processing apparatus, information processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004129071A (en) 2002-10-04 2004-04-22 Sony Corp Two-way communication system
JP2009069172A (en) 2007-09-10 2009-04-02 Konica Minolta Business Technologies Inc Minutes creating device, minutes creating system, minutes creating method and minutes creating program
JP2011004007A (en) 2009-06-16 2011-01-06 Ricoh Co Ltd Television conference device, television conference method, and program for the same

Also Published As

Publication number Publication date
JP2022136115A (en) 2022-09-15
JP7400886B2 (en) 2023-12-19
JP2019176416A (en) 2019-10-10

Similar Documents

Publication Publication Date Title
WO2017181769A1 (en) Facial recognition method, apparatus and system, device, and storage medium
JP4734980B2 (en) Face authentication device and control method therefor, electronic device equipped with face authentication device, face authentication device control program, and recording medium recording the program
JP2022048147A5 (en)
US11538276B2 (en) Communication system, distributed processing system, distributed processing method, and recording medium
CN107078917A (en) Trustship videoconference
Alsaadi Study on most popular behavioral biometrics, advantages, disadvantages and recent applications: A review
WO2010010736A1 (en) Conference image creating method, conference system, server device, conference device, and so forth
CN105554372B (en) Shooting method and device
US11245707B2 (en) Communication terminal, communication system, communication control method, and recording medium
WO2016172923A1 (en) Video detection method, video detection system, and computer program product
US11303756B2 (en) System and method for auto-initiating conference calls from a user device
US20210201478A1 (en) Image processing methods, electronic devices, and storage media
KR20160025768A (en) Attendance Management System Using Face Recognition
JP2019049978A (en) Communication terminal, communication system, image processing method, and program
JP7400886B2 (en) Video conferencing systems, video conferencing methods, and programs
WO2020095350A1 (en) Information processing device, information processing method, and recording medium
CN111275874B (en) Information display method, device and equipment based on face detection and storage medium
JP6691309B2 (en) Information processing apparatus, control method thereof, and program
CN112507798B (en) Living body detection method, electronic device and storage medium
JP7501575B2 (en) Videoconferencing system, videoconferencing method, and program
JP6684009B1 (en) Program, video processing device, and authentication method
WO2020152917A1 (en) Face authentication device, face authentication method, program, and recording medium
JP2022048817A (en) Information processing device and information processing method
JP2019175421A (en) Multi-angle face authentication system, learning method for the same, and authentication method
JP6267350B2 (en) Data processing apparatus, data processing system, data processing method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R151 Written notification of patent or utility model registration

Ref document number: 7102859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151