JP7110669B2

JP7110669B2 - ビデオ会議システム、ビデオ会議方法、およびプログラム

Info

Publication number: JP7110669B2
Application number: JP2018065248A
Authority: JP
Inventors: 直志合川; 智木村; 伸正佐藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-08-02
Anticipated expiration: 2038-03-29
Also published as: JP2019176415A; JP7501575B2; JP2022140529A

Description

本発明は、ビデオ会議システム、ビデオ会議方法、およびプログラムに関する。

離れた場所にいる人物と会議を行う方法の１つとして、ビデオ会議システムが利用されている。ビデオ会議システムでは、それぞれの場所で撮影された映像を互いにやり取りすることにより、互いに離れた場所にいる人物同士で会議を行うことができる。

上述のビデオ会議システムに関連する技術が、例えば、下記特許文献１乃至３に開示されている。

下記特許文献１には、２以上の地点間で双方向コミュニケーションを行う際、双方向コミュニケーションの参加者を容易に把握するための技術が開示されている。具体的には、（１）データベースに記憶されている識別情報を用いて各地点の参加者を認証し、（２）認証された参加者の位置を検出し、（３）各地点で撮影された映像のうち、参加者の検出位置に対応する部分に、データベースに記憶されているその参加者の属性情報を視覚的に表示するデータを付加する技術が開示されている。

また、下記特許文献２には、会議の参加者が初対面の相手であっても、その参加者に関する情報を知ることを可能とする技術が開示されている。具体的には、（１）会議の参加者に関する参加者情報の入力を受け付け、（２）各参加者に対して所定の動作（口頭での返事や挙手など）を行わせ、（３）その動作を行った人物を撮影画像上で特定し、（４）特定した人物の顔認識結果と参加者情報とを対応付け、（５）その対応付けに従って各参加者が写る撮影画像上に参加者情報を合成する技術が開示されている。

また、下記特許文献３には、会議の参加者として認証された人物が写る範囲を、相手側に表示する映像の範囲として自動的に調整する技術が開示されている。

特開２００４－１２９０７１号公報特開２０１０－０２８７１５号公報特開２０１５－１７７４１８号公報

ビデオ会議用のシステムを利用して開催される会議を含め、会議の場では、誰が参加しているかをはっきりさせるべきであり、個人として特定されていない人物がそのままでいることは好ましくない。

本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、ビデオ会議システムにおいて、個人として特定されていない人物がそのまま会議の場に残ることを抑制する技術を提供することである。

本発明のビデオ会議システムは、
会議の参加人物が写る画像を取得する画像取得手段と、
前記画像の中から、人物と認識される領域を検出する人物領域検出手段と、
前記領域に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させる表示制御手段と、
を備える。

本発明のビデオ会議方法は、
コンピュータが、
会議の参加人物が写る画像を取得し、
前記画像の中から、人物と認識される領域を検出し、
前記領域に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させる、
ことを含む。

本発明のプログラムは、コンピュータに、上述のビデオ会議方法を実行させる。

本発明によれば、ビデオ会議システムにおいて、個人として特定されていない人物がそのまま会議の場に残ることを抑制することができる。

第１実施形態におけるビデオ会議システムの構成例を示す図である。ビデオ会議システムのハードウエア構成を例示するブロック図である。第１実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。表示制御部により表示される第１情報の一例を示す図である。人物領域検出部により表示される第２情報の一例を示す図である。表示制御部による表示の一例を示す図である。第２情報を一覧形式で表示する例を示す図である。第３実施形態におけるビデオ会議システムの構成例を示す図である。第３実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。第４実施形態におけるビデオ会議システムの構成例を示す図である。第４実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。

以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

［第１実施形態］
〔システム構成例〕
図１は、第１実施形態におけるビデオ会議システム１の構成例を示す図である。図１に例示されるビデオ会議システム１では、サーバ装置１０が、通信端末２０Ａおよび通信端末２０Ｂと接続されている。通信端末２０Ａおよび通信端末２０Ｂは、それぞれ、互いに離れた場所に位置する地点Ａおよび地点Ｂに設けられている端末である。ビデオ会議は、これらの端末を用いて行われる。通信端末２０Ａには、撮像装置３０Ａおよび表示装置４０Ａが接続されている。また、通信端末２０Ｂには、撮像装置３０Ｂおよび表示装置４０Ｂが接続されている。撮像装置３０Ａおよび撮像装置３０Ｂは、それぞれの地点における会議の参加人物を撮影するために利用される。撮像装置３０Ａにより生成された地点Ａの参加人物の画像は、サーバ装置１０を経由して、地点Ｂの表示装置４０Ｂに表示される。また、撮像装置３０Ｂにより生成された地点Ｂの参加人物の画像は、サーバ装置１０を経由して、地点Ａの表示装置４０Ａに表示される。なお、地点Ａの参加人物の画像は、地点Ａの参加人物が撮影された画像を確認できるように、地点Ａの表示装置４０Ａに表示されてもよい。同様に、地点Ｂの参加人物の画像は、地点Ｂの参加人物が撮影された画像を確認できるように、地点Ｂの表示装置４０Ｂに表示されてもよい。

図１に示されるように、ビデオ会議システム１は、画像取得部１１０、人物領域検出部１２０、人物特定部１３０、および表示制御部１４０を備える。図１の例において、これらの処理部は、１台のサーバ装置１０に備えられているが、ビデオ会議システム１の構成は図１の例に制限されない。図示されていないが、これらの処理部の全部または一部は、複数のサーバ装置に分散して或いは重複して設けられていてもよい。

画像取得部１１０は、会議の参加人物が写る画像を取得する。図１の例では、画像取得部１１０は、会議の参加人物が写る画像を、ネットワークを介して接続された通信端末２０Ａおよび通信端末２０Ｂから取得することができる。

人物領域検出部１２０は、画像取得部１１０により取得された画像の中から、人物と認識される領域を検出する。人物領域検出部１２０は、既知の一般物体検出アルゴリズムを利用して、「人物」と認識（分類）される領域を検出することができる。また、人物領域検出部１２０は、例えば、動きのある物体の領域を、人物の領域として検出してもよい。人物領域検出部１２０は、「動きのある物体」を、例えば、時系列で並ぶ複数の画像間での特徴点の移動量に基づいて判断することができる。具体的には、人物領域検出部１２０は、時系列で並ぶ複数の画像間において、基準値以上移動している特徴点が含まれる物体の領域を、人物の領域として推定することができる。

人物特定部１３０は、人物領域検出部１２０により「人物」と認識された領域に含まれる人物を特定する処理（人物特定処理）を実行する。言い換えると、人物特定部１３０は、画像取得部１１０により取得された画像に写る参加人物を個々に特定（認証）する。人物特定部１３０は、人物領域検出部１２０により検出された領域から抽出される特徴量と、予め登録された参加人物の特徴量とを照合した結果に基づいて、各領域に含まれる人物が誰であるかを特定することができる。なお、会議の参加人物の特徴量は、その参加人物の情報（氏名、所属など）と対応付けて、サーバ装置１０のストレージデバイスなどに予め記憶されている。ここで、人物特定部１３０は、人物領域検出部１２０で検出された領域に含まれる人物が特定できなかった場合、その領域に含まれる人物が特定できなかったことを示す情報（特定失敗情報）をその領域に関連付ける。なお、「人物が特定できなかった場合」とは、例えば、照合の結果として算出されるスコアが基準値以上となる人物が存在しなかった場合などである。

表示制御部１４０は、各地点に設けられた撮像装置３０により生成された画像を、その他の地点に設けられた通信端末２０に送信する。また、表示制御部１４０は、各地点に設けられた撮像装置３０により生成された画像を、各々の撮像装置３０が設けられている地点の通信端末２０に送信してもよい。各地点の通信端末２０は、受け取った画像を、当該通信端末２０に接続された表示装置４０に表示させる。図１の例では、表示制御部１４０は、通信端末２０Ｂを介して取得した地点Ｂの画像を通信端末２０Ａに送信する。また、表示制御部１４０は、通信端末２０Ａを介して取得した地点Ａの画像を通信端末２０Ｂに送信する。また、表示制御部１４０は、人物特定部１３０の人物特定処理で特定できなかった人物が存在する場合、人物特定処理で人物が特定できなかったことを示す情報（第１情報）を少なくともいずれかの地点に設けられた表示装置に表示させる。なお、表示制御部１４０は、例えば、特定失敗情報が関連付けられた領域が存在するか否かに基づいて、人物特定処理で特定できなかった人物が存在するか否かを判断することができる。表示制御部１４０により表示される第１情報は、ビデオ会議システム１が、ある人物の存在を認識しているが、その人物が誰かまでは特定できていないことを示す情報と言える。

〔ハードウエア構成例〕
ビデオ会議システム１の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、ビデオ会議システム１の各機能構成部が、サーバ装置１０においてハードウエアとソフトウエアとの組み合わせによって実現される場合について、さらに説明する。

図２は、ビデオ会議システム１のハードウエア構成を例示するブロック図である。図２の例において、サーバ装置１０は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０はビデオ会議システム１の各機能（画像取得部１１０、人物領域検出部１２０、人物特定部１３０、および表示制御部１４０など）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。

入出力インタフェース１０５０は、サーバ装置１０と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース１０５０には、キーボードやマウスといった入力装置（図示せず）、または、ディスプレイやスピーカーといった出力装置（図示せず）などが接続され得る。

ネットワークインタフェース１０６０は、サーバ装置１０をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。図示されるように、サーバ装置１０は、ネットワークインタフェース１０６０を介して、通信端末２０Ａおよび通信端末２０Ｂと通信可能に接続されている。各通信端末２０には、会議の参加人物を撮影するための撮像装置３０、各撮像装置３０により生成された画像を表示させるための表示装置４０、および、会議中の音声を拾うための集音装置５０が接続されている。また、通信端末２０には、会議の音声を出力するための音声出力装置（図示せず）が更に接続されている。

画像取得部１１０は、ネットワークインタフェース１０６０を介して各通信端末２０から会議の参加人物が写る画像を取得することができる。また、表示制御部１４０は、ネットワークインタフェース１０６０を介して、各通信端末２０に相手の参加人物の画像を送信することができる。また、表示制御部１４０は、ネットワークインタフェース１０６０を介して、各通信端末２０にその通信端末２０が備えられている地点の参加人物の画像を送信することができる。

〔処理の流れ〕
図３を用いて、第１実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図３は、第１実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。

画像取得部１１０は、通信端末２０Ａまたは通信端末２０Ｂから、会議の参加人物が写る画像を取得する（Ｓ１０２）。そして、人物領域検出部１２０は、Ｓ１０２の処理で取得された画像の中から、人物と認識される領域を検出する（Ｓ１０４）。

人物特定部１３０は、Ｓ１０４の処理で検出された領域について、人物特定処理を実行する（Ｓ１０６）。人物特定部１３０は、人物が特定できなかった場合（Ｓ１０８：ＮＯ）、人物特定処理の対象となった領域に対して、その領域に含まれる人物が特定できなかったことを示す情報（特定失敗情報）を関連付ける（Ｓ１１０）。一方、人物が特定できなかった場合（Ｓ１０８：ＮＯ）、上述の特定失敗情報を関連付ける処理は実行されない。なお、Ｓ１０６からＳ１１０の処理は、Ｓ１０４の処理で検出された人物の領域の全てが処理されるまで繰り返される（Ｓ１１２：ＮＯ）。

Ｓ１０４の処理で検出された人物の領域の全てが処理された後（Ｓ１１２：ＹＥＳ）、表示制御部１４０は、各地点で撮影された参加人物の画像を、互いの相手いる地点に備えられた表示装置にそれぞれ表示させる（Ｓ１１４）。ここで、表示制御部１４０は、Ｓ１０８の処理で特定失敗情報が関連づけられた領域が存在する場合、その人物が特定されていないことが分かるように、例えば、その領域の人物の位置に合わせて第１情報を重畳表示させる（例：図４）。

図４は、表示制御部１４０により表示される第１情報の一例を示す図である。図４の例では、画像において後ろ姿が写っている２人の人物に対して、第１情報「Ｕｎｋｎｏｗｎ」が重畳表示されている様子が描かれている。なお、第１情報は、その人物が特定できなかったことを示す特定の印であればよく、「Ｕｎｋｎｗｏｎ」という表示に制限されない。この図では、次のようにして、「Ｕｎｋｎｗｏｎ」という第１情報が表示される。まず、人物領域検出部１２０が、図４の画像から、４人の人物領域を検出する。検出された４人のうちの２人は後ろ向き（目、鼻、口といった個人を特定するために利用される特徴量が抽出できない状況）で写っているため、人物特定部１３０は、人物特定処理でこれらの人物の特定に失敗する。人物特定部１３０は、人物特定処理の結果に基づいて、これら二人の領域に対して特定失敗情報を関連付ける。表示制御部１４０は、各人物の領域に関連付けられた特定失敗情報に基づいて画像上に第１情報を重畳させて、表示装置に向けて出力する。このデータを受け取った表示装置は、例えば、図４に例示されるような画像を、その表示面に表示することができる。

本実施形態では、ビデオ会議システム１を利用して開催される会議の参加人物の中に特定できていない人物が存在する場合、その会議で利用される表示装置に第１情報が表示される。この第１情報は、人物が特定されていないことを示す情報（例えば、「Ｕｎｋｎｏｗｎ」などの表示）である。つまり、会議の参加人物は、ビデオ会議システム１で特定されていない人物がいることを、この第１情報によって一目で把握することができる。また、第１情報は画像の中で特定できなかった人物の領域の位置に合わせて表示される。これにより、会議の参加人物は、どの人物が特定されていないかを認識できる。そして、会議の参加人物は、ビデオ会議システム１がその人物を特定できるように適切な措置を取ることができる。例えば、会議の参加人物は、特定されていない人物に対して、顔（人物特定時に利用される特徴点を含む領域）がはっきりと画像に写り込むように、顔の向きや姿勢を変えるように促すことができる。

ここで、表示制御部１４０は、画像に写っている会議の参加人物が見る表示装置に、第１情報を表示させてもよい。すなわち、人物特定処理で特定できなかった人物がいた場合、表示制御部１４０は、その人物がいる地点に設けられた表示装置に第１情報を表示させてもよい。例えば、地点Ａにいる会議の参加人物を人物特定処理で特定できなかったとする。この場合、表示制御部１４０は、撮像装置３０Ａで生成された画像に第１情報を重畳させたデータを、通信端末２０Ａに送信する。通信端末２０Ａは、表示装置４０Ａに、撮像装置３０Ａで生成された画像と、その画像に重畳された第１情報とを表示させる。このようにすることで、地点Ａ側にいる会議の参加人物が、特定されていない（認証されていない）人物がいることを容易に把握することができる。その結果、例えば、特定されなかった人物は、自身の顔（人物特定時に利用される特徴点を含む領域）がはっきりと画像に写り込むように、顔の向きや姿勢を自発的に変えるといった措置を取ることができる。

［第２実施形態］
本実施形態は、以下の点を除き、上述の第１実施形態と同様の構成を有する。

本実施形態の表示制御部１４０は、人物特定部１３０の人物特定処理で会議の参加人物が特定された場合、その人物の氏名を含む情報（第２情報）を表示装置に更に表示させる（例：図５）。図５は、人物領域検出部１２０により表示される第２情報の一例を示す図である。図５の例において、画像中の奥側に座っている２人の人物については、目、鼻、口といった特徴点がはっきりと写っており、人物特定部１３０はこれら２人の人物を特定できたとする。この場合、人物特定部１３０は、特定した人物の氏名を含む第２情報を取得し、その人物の領域に関連付ける。なお、第２情報は、会議の開催前に参加人物の特徴量と関連付けて取得され、ストレージデバイス１０４０などに事前に登録されている。第２情報は、人物の氏名のほか、その人物が所属するグループ（会社や部署など）の名称、その人物の役職名などを更に含んでいてもよい。そして、表示制御部１４０は、人物特定部１３０の人物特定処理の結果に基づいて、第２情報が関連付けられた領域の人物の位置に合わせて、その第２情報を重畳表示させる。その結果、例えば、図５に例示されるような画像が、ビデオ会議システム１を利用して開催される会議の参加人物が見る表示装置４０に表示される。これにより、会議の参加人物の名前や所属といった、その人物に関する情報が一目で把握できるようになる。

表示制御部１４０は、第１情報と第２情報とを併せて表示させる際、第１情報の表示態様を、第２情報の表示態様と異ならせてもよい。言い換えると、表示制御部１４０は、視覚的に第１情報と第２情報とを異ならせてもよい。一例として、表示制御部１４０は、第１情報を第２情報よりも目立たせてもよい。具体的には、表示制御部１４０は、第１情報の外形、大きさ、色、言語、およびフォントの少なくともいずれを、第２情報と異ならせることにより、第１情報を第２情報よりも目立たせることができる。例えば、表示制御部１４０は、第１情報を第２情報よりも大きく表示したり、第１情報の色を目立つ色に設定したり、第１情報のフォントを標準的なフォントとは異なる特殊なフォントに設定したりして、第１情報を第２情報よりも目立たせることができる。図６は、表示制御部１４０による表示の一例を示す図である。図６の例では、第１表示の背景色を変えることにより、第２表示よりも目立たせている様子が描かれている。このようにすることで、会議の参加人物が、ビデオ会議システム１で特定できていない人物の存在に気づき易くなる。

また、表示制御部１４０は、人物特定処理で特定された、会議の参加人物の数が所定の閾値以上である場合、第２情報を一覧形式で表示させてもよい（例：図７）。図７は、第２情報を一覧形式で表示する例を示す図である。図７に示されるように、表示制御部１４０は、画像中の空き領域（人物の領域以外の領域）を特定して、その領域に一覧形式の第２情報を表示することができる。表示制御部１４０は、空き領域のサイズに応じて、一覧の大きさを決定してもよい。また、表示制御部１４０は、一覧をスクロールバーと共に表示させて、一覧を表示する領域を節約してもよい。このようにすることで、第２情報が多数表示されることにより会議の参加人物の顔（画像の主となる情報）の視認性の低下を抑制できる。

〔第２実施形態の変形例〕
表示制御部１４０は、第１情報を第２情報よりも目立たなくさせてもよい。特に、表示制御部１４０は、ある地点の参加人物の画像を相手側の地点に送信する場合において、第１情報を第２情報よりも目立たなくさせると好ましい。例えば、表示制御部１４０は、相手側に送信する画像において、第１情報を小さくしたり、第１情報の色を薄くしたり、第１情報を非表示としたりして、第１情報を第２情報よりも目立たなくさせることができる。ある地点の参加人物の画像を相手側の地点に送信する場合に第１情報を目立たなくすることによって、その相手側にとってより重要度の高い情報（人物の顔または人物の動作など、会議で本来必要な情報）の視認性が低下することを抑制できる。

［第３実施形態］
本実施形態のビデオ会議システム１は、ビデオ会議システム１で特定できなかった人物がいる場合にその人物を特定するための構成を更に有している点を除き、上述の各実施形態と同様の構成を有する。

〔システム構成〕
図８は、第３実施形態におけるビデオ会議システム１の構成例を示す図である。図８に例示されるビデオ会議システム１では、上述の撮像装置３０（３０Ａ、３０Ｂ）とは別に、移動型の撮像装置３２（３２Ａ、３２Ｂ）が各地点に更に備えられている。移動型の撮像装置３２は、例えば、カメラ機能付き携帯端末（スマートフォンやタブレット端末など）、或いは、カメラ付きノートＰＣ（Personal Computer）などといった、個人が所有する装置である。

本実施形態において、画像取得部１１０は、撮像装置３０を介して取得された画像に基づく人物特定処理で特定されなかった会議の参加人物が存在する場合、その参加人物が写る追加の画像を、移動型の撮像装置３２Ａまたは撮像装置３２Ｂから取得する。そして、画像取得部１１０は、画像取得部１１０により取得された追加画像に基づいて、特定されなかった参加人物を特定する。

〔処理の流れ〕
図９を用いて、本実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図９は、第３実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。

まず、図３のＳ１０６の人物特定処理で特定されなかった人物の追加画像が、移動型の撮像装置３２により生成される（Ｓ２０２）。なお、会議の参加人物は、表示装置４０上に表示された第１情報に基づいて、自身がビデオ会議システム１において個人として特定されているか否かを把握することができる。表示装置４０上に表示された第１情報から、自分が特定されていないことを認識した人物は、例えば、スマートフォンやノートＰＣにインストールされた専用のアプリケーションを立ち上げて、追加画像を撮影する。撮影された追加画像は、ネットワークを介してサーバ装置１０に送信され、画像取得部１１０により取得される（Ｓ２０４）。ここで、撮像装置３０により生成された画像の中に複数の未特定人物が存在する場合もある。この場合には、追加画像がどの未特定人物に対応する画像かを示す情報が必要となる。そこで、撮像装置３０により生成された画像の中に複数の未特定人物が存在する場合、一例として、スマートフォンやノートＰＣ上で立ち上げたアプリケーションで、追加画像に対応する未特定人物を指定する操作を更に受け付けてもよい。例えば、スマートフォンやノートＰＣ上で立ち上げたアプリケーションは、追加画像の撮影前または撮影後に図４から図６などに例示される画面をスマートフォンやノートＰＣの表示面に表示させ、その画像の中から未特定人物を選択する操作を受け付けてもよい。この場合、画像取得部１１０は、追加画像と、その追加画像に対応する未特定人物を示す情報とを取得することができる。

人物特定部１３０は、スマートフォンやノートＰＣといった移動型の撮像装置３２により生成された追加画像を用いて、人物特定処理を実行する（Ｓ２０６）。具体的には、図３のＳ１０６の人物特定処理と同様に、追加画像から抽出される特徴量と、予め登録された参加人物の特徴量とを照合することによって、その追加画像の人物を特定することができる。ここで、追加画像が不鮮明であって人物が特定できない場合などには、人物特定部１３０は、その追加画像の送信元の装置に対し、画像の撮り直しを促すメッセージを出力するように構成されていてもよい。また、人物特定部１３０は、追加画像の取り直しを予め決められた回数行ったにもかかわらず未特定人物が特定できなかった場合、その未特定人物を部外者（会議の参加人物として予め登録された人物以外の人物）と判断してもよい。この場合、人物特定部１３０は、表示装置４０や図示しないスピーカーなどを用いて、部外者の存在を報知する処理を実行してもよい。このようにすることで、会議の参加人物が、会議の場に紛れ込んだ部外者の存在を認識することができる。

以上、本実施形態によれば、移動型の撮像装置３２から、ビデオ会議システム１が特定できていない人物について、その人物を特定するための追加画像を取得することができる。なお、移動型の撮像装置３２を利用することにより、その人物の特徴点がより鮮明に写る画像を取得することができる。結果として、ビデオ会議システム１が特定できていない人物を、精度よく特定することができる。

なお、人物特定部１３０は、会議の参加人物を一度特定すれば、その後に取得された画像から人物の特徴量が抽出できないような場合（例えば、俯いてしまって顔の特徴点が見えなくなった場合など）であっても、その人物が特定された状態を維持することができる。例えば、人物特定部１３０は、複数の画像間で、特定した人物の領域を画像中の位置などに基づいて追跡することにより、その人物が特定された状態を維持することができる。

〔第３実施形態の変形例〕
本実施形態において、移動型の撮像装置３２により生成された追加画像を用いる代わりに、会議の参加人物のいずれかが、特定できなかった人物を特定するための情報を直接入力してもよい。一例として、次のような動作が実行されてもよい。まず、会議の参加人物は、表示装置４０上で「Ｕｎｋｎｏｗｎ」といった第１情報が関連付けられている人物を確認した後、その人物の氏名といった情報を携帯型端末（スマートフォンやノートＰＣなど）上で立ち上げたアプリケーションを介して入力する。なお、特定できていない人物が複数存在する場合には、それら複数の人物の中で対象とする人物を選択する入力が更に実行される。そして、人物特定部１３０は、特定できなかった人物の領域に関連付けられている特定失敗情報を、入力された情報を用いて更新する。これにより、特定できていなかった人物は、ビデオ会議システム１で特定（認証）された状態となる。また、この結果、「Ｕｎｋｎｏｗｎ」といった第１情報の表示は、入力された人物の氏名に置き換わることになる。

［第４実施形態］
本実施形態では、自動的に議事録を作成する機能を更に有する点を除き、上述の各実施形態と同様の構成を有する。

図１０は、第４実施形態におけるビデオ会議システム１の構成例を示す図である。図１０に例示されるビデオ会議システム１は、リスト作成部１５０、音声取得部１６０、発言者特定部１７０、議事録作成部１８０を更に備える。

リスト作成部１５０は、人物特定部１３０の人物特定処理によって特定された人物のリストを作成する。リスト作成部１５０は、例えば次のように動作する。まず、リスト作成部１５０は、人物特定部１３０の人物特定処理で人物が特定された場合に、人物特定部１３０からその結果を取得する。そして、リスト作成部１５０は、人物特定部１３０から取得した人物の特定結果を、メモリ１０３０などに保持されるリストに追加する。これにより、ビデオ会議システム１を利用して開催される会議の参加者のリストを自動的に生成することができる。

音声取得部１６０は、図示しないマイクにより生成された、会議中の会話の音声データを取得する。発言者特定部１７０は、音声取得部１６０により取得された音声データに関する発言者を特定する。一例として、発言者特定部１７０は、例えば会議の開催前にストレージデバイス１０４０などに予め登録された各参加人物の声紋データとの照合を行うことにより、音声取得部１６０が取得した音声データに関する発言者を特定することができる。他の一例として、発言者特定部１７０は、音声データと同期して取得される画像（撮像装置３０により生成される画像）を解析することによって、音声取得部１６０が取得した音声データに関する発言者を特定することができる。具体的には、発言者特定部１７０は、音声データと同期して取得された画像を解析した結果、口の部分が動いている人物の領域を特定する。そして、口の部分が動いている人物の領域についての人物特定処理の結果から、その発話者を特定することができる。議事録作成部１８０は、発言者特定部１７０による発言者の特定結果と、音声取得部１６０により取得された音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する。また、議事録作成部１８０は、リスト作成部１５０により生成された人物のリストを、会議の参加者として議事録データに付加することができる。

〔ハードウエア構成例〕
本実施形態のビデオ会議システム１は、第１実施形態と同様のハードウエア構成（例：図２）を有する。本実施形態のストレージデバイス１０４０は、上述のリスト作成部１５０、音声取得部１６０、発言者特定部１７０および議事録作成部１８０の機能を実現するためのプログラムモジュールを更に記憶している。プロセッサ１０２０が、これらのプログラムモジュールをメモリ１０３０上に読み出して実行することにより、上述の本実施形態の各機能が実現される。

〔処理の流れ〕
図１１を用いて、本実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図１１は、第４実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。

まず、音声取得部１６０は会議の音声データを取得する（Ｓ３０２）。会議の音声データは、各地点に設けられている集音装置５０により生成される。集音装置５０は、通信端末２０に接続されている。音声取得部１６０は、ネットワークインタフェース１０６０を介して各地点の通信端末２０と通信して、その地点の集音装置５０により生成された音声データを取得することができる。

そして、発言者特定部１７０は、音声取得部１６０により取得された音声データに関する発言者を特定する（Ｓ３０４）。一例として、発言者特定部１７０は、次のようにして、音声取得部１６０により取得された音声データに関する発言者を特定することができる。まず、発言者特定部１７０は、ストレージデバイス１０４０などに事前に登録された各参加人物の声紋データと音声データとを照合して、当該音声データの声紋との一致度が基準を満たす声紋データを特定する。そして、発言者特定部１７０は、特定した声紋データに関連付けられている参加人物の識別情報（人物の氏名、または、人物毎に割り当てられたＩＤなど）を取得することにより、音声取得部１６０により取得された音声データの発言者を特定することができる。他の一例として、発言者特定部１７０は、次のようにして、音声取得部１６０により取得された音声データに関する発言者を特定することができる。まず、発言者特定部１７０は、音声データと同期して画像取得部１１０により取得された画像を解析する。具体的には、発言者特定部１７０は、画像の中から人物の口の領域を検出し、その領域（すなわち、口）が時系列で並ぶ複数の画像間で動いているか否かを判定する。そして、発言者特定部１７０は、口の領域が動いていると判定された人物の領域について、人物特定部１３０の人物特定処理の結果を取得することにより、音声取得部１６０により取得された音声データの発言者を特定することができる。なお、ここでは、例えば、第３実施形態で説明したような構成を利用して、全ての人物が特定されているものと仮定している。

議事録作成部１８０は、音声取得部１６０および発言者特定部１７０の処理結果に基づいて、議事録データを生成する（Ｓ３０６）。具体的には、議事録作成部１８０は、音声データをテキスト化するＡＰＩ（Application Programming Interface）などを利用して、音声取得部１６０により取得された音声データをテキストデータ化する。また、議事録作成部１８０は、発言者特定部１７０によって特定された、当該音声データの発言者の情報（例えば、発言者の氏名など）を取得する。そして、議事録作成部１８０は、音声取得部１６０により取得された音声データから生成されたテキストデータと、その音声データに関する発言者として特定された人物の情報とを対応付けて、議事録データに追加する。また、議事録作成部１８０は、リスト作成部１５０により生成された、会議の参加人物リストを読み出し、議事録データに参加人物の情報を付加してもよい。

以上、本実施形態の構成によれば、ビデオ会議システム１を利用した開催される会議の議事録を、自動で作成することができる。これにより、会議の参加人物が議事録の作成する手間を削減することができる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．
会議の参加人物が写る画像を取得する画像取得手段と、
前記画像の中から、人物と認識される領域を検出する人物領域検出手段と、
前記領域に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させる表示制御手段と、
を備えるビデオ会議システム。
２．
前記表示制御手段は、前記人物特定処理で特定された前記会議の参加人物の氏名を含む第２情報を前記表示装置に更に表示させる、
１．に記載のビデオ会議システム。
３．
前記表示制御手段は、前記第１情報の表示態様を、前記第２情報の表示態様と異ならせる、
２．に記載のビデオ会議システム。
４．
前記表示制御手段は、前記第１情報を前記第２情報よりも目立たせる、
３．に記載のビデオ会議システム。
５．
前記表示制御手段は、前記第１情報の外形、大きさ、色、言語、およびフォントの少なくとも１つを前記第２情報と異ならせることにより、前記第１情報を目立たせる、
４．に記載のビデオ会議システム。
６．
前記表示制御手段は、前記人物特定処理により特定された前記会議の参加人物の数が所定の閾値以上である場合、前記第２情報を一覧形式で表示させる、
２．から５．のいずれか１つに記載のビデオ会議システム。
７．
前記表示制御手段は、前記画像に写っている前記会議の参加人物が見る表示装置に、前記第１情報を表示させる、
１．から６．のいずれか１つに記載のビデオ会議システム。
８．
前記画像取得手段は、前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る追加画像を、前記画像を生成した撮像装置とは異なる移動型の撮像装置から取得し、
前記人物特定手段は、前記追加画像に基づいて前記画像に基づく前記人物特定処理で特定されなかった参加人物を特定する、
１．から７．のいずれか１つに記載のビデオ会議システム。
９．
前記人物特定処理によって特定された人物のリストを作成するリスト作成手段を更に備える、
８．に記載のビデオ会議システム。
１０．
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
８．または９．に記載のビデオ会議システム。
１１．
前記表示制御手段は、前記第１情報を前記第２情報よりも目立たなくさせる、
３．に記載のビデオ会議システム。
１２．
コンピュータが、
会議の参加人物が写る画像を取得し、
前記画像の中から、人物と認識される領域を検出し、
前記領域に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させる、
ことを含むビデオ会議方法。
１３．
前記コンピュータが、
前記人物特定処理で特定された前記会議の参加人物の氏名を含む第２情報を前記表示装置に更に表示させる、
ことを含む１２．に記載のビデオ会議方法。
１４．
前記コンピュータが、
前記第１情報の表示態様を、前記第２情報の表示態様と異ならせる処理を実行する、
ことを含む１３．に記載のビデオ会議方法。
１５．
前記コンピュータが、前記第１情報を前記第２情報よりも目立たせる処理を実行する、
ことを含む１４．に記載のビデオ会議方法。
１６．
前記コンピュータが、
前記第１情報の外形、大きさ、色、言語、およびフォントの少なくとも１つを前記第２情報と異ならせることにより、前記第１情報を目立たせる、
ことを含む１５．に記載のビデオ会議方法。
１７．
前記コンピュータが、
前記人物特定処理により特定された前記会議の参加人物の数が所定の閾値以上である場合、前記第２情報を一覧形式で表示させる、
ことを含む１３．から１６．のいずれか１つに記載のビデオ会議方法。
１８．
前記コンピュータが、
前記画像に写っている前記会議の参加人物が見る表示装置に、前記第１情報を表示させる、
ことを含む１２．から１７．のいずれか１つに記載のビデオ会議方法。
１９．
前記コンピュータが、
前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る追加画像を、前記画像を生成した撮像装置とは異なる移動型の撮像装置から取得し、
前記追加画像に基づいて前記画像に基づく前記人物特定処理で特定されなかった参加人物を特定する、
ことを含む１２．から１８．のいずれか１つに記載のビデオ会議方法。
２０．
前記コンピュータが、
前記人物特定処理によって特定された人物のリストを作成する、
ことを含む１９．に記載のビデオ会議方法。
２１．
前記コンピュータが、
音声データを取得し、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定し、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する、
ことを含む１９．または２０．に記載のビデオ会議方法。
２２．
前記コンピュータが、
前記第１情報を前記第２情報よりも目立たなくさせる処理を実行する、
ことを含む１４．に記載のビデオ会議方法。
２３．
コンピュータに、１２．から２２．のいずれか１つに記載のビデオ会議方法を実行させるプログラム。

１ビデオ会議システム
１０サーバ装置
１０１０バス
１０２０プロセッサ
１０３０メモリ
１０４０ストレージデバイス
１０５０入出力インタフェース
１０６０ネットワークインタフェース
１１０画像取得部
１２０人物領域検出部
１３０人物特定部
１４０表示制御部
１５０リスト作成部
１６０音声取得部
１７０発言者特定部
１８０議事録作成部２０通信端末
３０撮像装置
３２撮像装置
４０表示装置
５０集音装置

Claims

会議の参加人物が写る画像を取得する画像取得手段と、
前記画像の中から、人物と認識される領域を検出する人物領域検出手段と、
前記領域に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させる表示制御手段と、
を備え、
前記画像取得手段は、前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る追加画像を取得し、
前記人物特定手段は、前記追加画像に基づいて前記画像に基づく前記人物特定処理で特定されなかった参加人物を特定するビデオ会議システム。
前記画像取得手段は、前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る前記画像から撮像範囲を移動させた追加画像を取得する、
請求項１に記載のビデオ会議システム。
前記画像取得手段は、前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る撮像角度の異なる前記追加画像を取得する、
請求項１又は２に記載のビデオ会議システム。
前記画像取得手段は、前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る前記追加画像を、前記画像を生成した撮像装置とは異なる撮像装置から取得する、
請求項１から３のいずれか１項に記載のビデオ会議システム。
前記画像取得手段は、前記人物が特定できなかったことを表示する表示制御手段を実行すると、前記追加画像を取得する、
請求項１から４のいずれか１項に記載のビデオ会議システム。
前記人物特定手段は、前記人物が特定できなかったことを表示する表示制御手段を実行すると、前記追加画像に基づいて前記画像に基づく前記人物特定処理で特定されなかった参加人物を特定する人物特定処理を実行する、
請求項１から５のいずれか１項に記載のビデオ会議システム。
前記表示制御手段は、前記人物特定処理で特定された前記会議の参加人物の氏名を含む第２情報を前記表示装置に更に表示させる、
請求項１から６のいずれか１項に記載のビデオ会議システム。
前記表示制御手段は、前記第１情報の表示態様を、前記第２情報の表示態様と異ならせる、
請求項７に記載のビデオ会議システム。
前記表示制御手段は、前記第１情報を前記第２情報よりも目立たせる、
請求項８に記載のビデオ会議システム。
前記表示制御手段は、前記第１情報の外形、大きさ、色、言語、およびフォントの少なくとも１つを前記第２情報と異ならせることにより、前記第１情報を目立たせる、
請求項９に記載のビデオ会議システム。
前記表示制御手段は、前記人物特定処理により特定された前記会議の参加人物の数が所定の閾値以上である場合、前記第２情報を一覧形式で表示させる、
請求項７から１０のいずれか１項に記載のビデオ会議システム。
前記表示制御手段は、前記画像に写っている前記会議の参加人物が見る表示装置に、前記第１情報を表示させる、
請求項１から１１のいずれか１項に記載のビデオ会議システム。
前記人物特定処理によって特定された人物のリストを作成するリスト作成手段を更に備える、
請求項１から１２のいずれか１項に記載のビデオ会議システム。
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
請求項１から請求項１３のいずれか１項に記載のビデオ会議システム。
前記表示制御手段は、前記第１情報を前記第２情報よりも目立たなくさせる、
請求項８に記載のビデオ会議システム。
コンピュータが、
会議の参加人物が写る画像を取得し、
前記画像の中から、人物と認識される領域を検出し、
前記領域に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で前記人物が特定できなかったことを示す第１情報を表示装置に表示させ、
前記画像に基づく前記人物特定処理で特定されなかった参加人物が写る追加画像を取得し、
前記追加画像に基づいて前記画像に基づく前記人物特定処理で特定されなかった参加人物を特定する、
ことを含むビデオ会議方法。
コンピュータに、請求項１６に記載のビデオ会議方法を実行させるプログラム。