JP2011004007A - テレビ会議装置、テレビ会議方法、そのプログラム - Google Patents

テレビ会議装置、テレビ会議方法、そのプログラム Download PDF

Info

Publication number
JP2011004007A
JP2011004007A JP2009143626A JP2009143626A JP2011004007A JP 2011004007 A JP2011004007 A JP 2011004007A JP 2009143626 A JP2009143626 A JP 2009143626A JP 2009143626 A JP2009143626 A JP 2009143626A JP 2011004007 A JP2011004007 A JP 2011004007A
Authority
JP
Japan
Prior art keywords
participant
feature amount
unit
photographed
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009143626A
Other languages
English (en)
Other versions
JP5316248B2 (ja
Inventor
Sadafumi Araki
禎史 荒木
Takako Hashimoto
隆子 橋本
Keiji Omura
慶二 大村
Yuji Kasuya
勇児 糟谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2009143626A priority Critical patent/JP5316248B2/ja
Publication of JP2011004007A publication Critical patent/JP2011004007A/ja
Application granted granted Critical
Publication of JP5316248B2 publication Critical patent/JP5316248B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】適切に属性情報を送信する。
【解決手段】参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベースと、撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けてデータベースに登録する位置情報検出部と、撮影された参加者の特徴量とデータベース中の特徴量とに基づいて当該参加者を識別し、2回目以降に撮影された参加者の位置情報とデータベース中の位置情報とに基づいて当該参加者を識別する識別部と、特徴量で識別された参加者の属性情報と撮影された参加者の映像とを対応付けて送信し、位置情報で識別された参加者の属性情報と2回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有する。
【選択図】図3

Description

本発明は、例えば、互いに離れた複数の地点の間で行われるテレビ会議で用いられるテレビ会議装置、テレビ会議方法、そのプログラムに関する。
従来のテレビ会議などで用いられるテレビ会議装置について説明する。予め、テレビカメラより撮影された会議の参加者の人物画像(顔画像)から人物画像識別(顔画像識別)に必要な特徴量(例えば、顔特徴量)を生成手段により生成する。生成された特徴量と会議参加者のプロフィールを対応付けてデータベース記憶部に登録しておく。自端末のテレビカメラを通して相手端末のディスプレイに表示されている会議参加者についてプロフィールを表示させる場合に、前記生成手段により改めて特徴量を生成する。そして、この特徴量と一致する特徴量を照合し、照合により一致する特徴量があった場合に該特徴量に対応するプロフィールを要求元の相手端末に送り、相手端末のディスプレイに表示させるテレビ会議装置が既に知られている(例えば、特許文献1、2参照)。
しかし、従来のテレビ会議装置であれば、改めて特徴量を生成するために、顔画像識別を行わなければならない。一般に、顔画像識別では、表示されている人物がカメラに対して正対している場合が最も識別率が高く、顔の向きが斜めから横向きになるにつれて、識別率が低下するという性質がある。複数の人物が参加するテレビ会議においては、全参加者がカメラに対して正対するのは困難で、顔が斜め向きや横向きに撮影される参加者が存在する場合がある。また、顔がカメラに正対していても、顔部分の表示サイズが小さいとか、部屋が暗かったりする場合は、同様に識別率の低下が起こる。これらの場合、顔画像識別技術だけでは全参加者を正しく識別できず、適切なプロフィールを表示できないという問題がある。
本発明の目的は、上記問題点に鑑みて、参加者の特徴量を用いる頻度を少なくして、相手の通信端末に適切にプロフィールを送信するテレビ会議装置、テレビ会議方法、そのプログラムを提供することを目的とする。
上記課題を解決するために、本実施例のテレビ会議装置は、参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部と、撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する位置情報検出部と、前記撮影された参加者の特徴量と前記データベース記憶部中の特徴量とに基づいて当該参加者を識別し、2回目以降に撮影された参加者の位置情報と前記データベース記憶部中の位置情報とに基づいて当該参加者を識別する識別部と、特徴量で識別された参加者の属性情報と前記撮影された参加者の映像とを対応付けて送信し、位置情報で識別された参加者の属性情報と前記2回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有する。
本発明のテレビ会議装置、テレビ会議方法、そのプログラムであれば特徴量を用いる頻度を少なくすることで、参加者の識別の精度を高め、相手の通信端末に適切にプロフィールを送信できる。
本実施例のテレビ会議システムの機能構成例を示した図。 本実施例のテレビ会議システムで用いられる撮影装置の一例の斜視図。 本実施例のテレビ会議装置に適した会議の形態の一例を示した図。 本実施例のテレビ会議装置の機能構成例を示した図。 本実施例のテレビ会議装置の主な処理の流れを示したフローチャート図。 本実施例のデータテーブルの一例を示す図。 参加者の切り出し後の画像の一例を示した図。 切り出した参加者が2人表された場合の画像の一例を示した図。 属性情報が重畳された画像の一例を示す図。 位置情報が対応付けられたデータテーブルの一例を示す図。 表示部に表示させた場合の画像の一例を示す図。 他の実施例のテレビ会議装置の主な処理の流れの一部を示したフローチャート図。 エラー情報を対応させた画像の一例を示す図。
以下、図面を参照して、本発明を実施するための形態の説明を行う。なお、同じ機能を持つ構成部や同じ処理を行う工程には同じ番号を付し、重複説明を省略する。
以下に、実施例1のテレビ会議装置などについて説明するが、当該テレビ会議装置は、互いに離れた複数の地点の間で行われるテレビ会議において、それぞれの地点で撮影装置(例えば、テレビカメラ)映像がそれぞれネットワーク経由で他の地点に送信されるために用いられる。
図1に実施例1のテレビ会議装置100を含んだテレビ会議システム1000の機能構成例を示す。以下の説明では、お互いに離れたL地点とM地点とでテレビ会議が行われるものとし、それぞれの地点には、このテレビ会議システム1000が配置されているものとする。そして、L地点を自己側の地点とし、M地点を相手側の地点とし、L地点側のテレビ会議装置を第1テレビ会議装置100とし、M地点側のテレビ会議装置を第2テレビ会議装置200とする。なお、本実施例のテレビ会議装置は、3以上の地点においてでも、テレビ会議を行うことができる。
図1に示すように、テレビ会議システム1000は操作部102と、映像出力部103(例えばディスプレイ)音声出力部104(例えば、スピーカ)、後述する撮影装置106と、ハードディスク108と、メモリ110と、テレビ会議装置100と通信制御部112と、で構成される。
テレビ会議システム1000のうち、撮影装置106と、テレビ会議装置100以外は、PCなどに一般に使われる構成要素である。操作部102とは例えば、キーボードやマウスである。映像出力部103は、相手側のテレビ会議風景、テレビ会議の参加者(つまり、L地点であれば、M地点のテレビ会議風景、参加者)を出力し、音声出力部104は相手側のテレビ会議の参加者の音声(テレビ会議参加者の音声)を出力する。
図2に撮影装置106の一例の斜視図を示す。本実施例の撮影装置106は、お互いに径の異なる第1円柱部106aと、第2円柱部106dとからなる。第1円柱部106aの外周面上には、等間隔で撮影手段106cが配置されている。撮影手段106cは、例えばテレビカメラであり、会議の参加者を撮影するものである。第2円柱部106bの外周面上には、円周方向等間隔で収音手段106dが配置されている。収音手段106dとは例えば、マイクロホンであり、会議の参加者の音声を収音するものである。このように、本実施例では、図2に示すように、全方位を撮影、収音できる撮影装置を用いることが好ましい。撮影装置106は「"会議の映像・音声データから自動的に会議録コンテンツを作成するシステム"[online]平成20年10月14日、独立行政法人産業技術総合研究所[平成21年5月21日検索]、インターネット〈URL:http://www.aist.go.jp/aist_j/press_release/pr2008/pr20081014_2/pr20081014_2.html〉」に記載されている。
また撮影装置106は上述のように全方位撮影できるものでなく、自動的に発話者に向いて、ズーム・フォーカスする撮影装置であってもよい。
図3に、実施例1のテレビ会議装置100が用いられる最適なテレビ会議の形態を示す。図3に示すようにテレビ会議は、参加者が円を囲むように位置し、中央に撮影装置106が位置するような形態が好ましい。なぜなら図2に示す撮影装置により、全ての参加者の顔を常に略正対して、撮影できるからである。
図4に、実施例1のテレビ会議装置100の機能構成例を示す。図5にテレビ会議装置100の主な処理の流れを示す。実施例1のテレビ会議装置100は、切り出し部2と、特徴量生成部6と、位置情報検出部8と識別部10と、合成部12と、符号化部14とデータベース記憶部16とで構成されている。
まず、予め、テレビ会議開始前に、データベース記憶部16に図6に示すようなデータテーブルを登録しておく。図6に示すように、データテーブルはテレビ会議の参加予定者の属性情報と特徴量とを対応させる。図6の例では、氏名がA、B、C、D、E、F、G、H、Iの9人の参加予定者についてのデータテーブルが示されている。参加予定者とは、参加を予定している者であり、例えば、実際の参加者と、参加を予定していたが参加できなくなった者と、を示す。
ここで、属性情報とはテレビ会議の参加者予定者の属性を示す情報である、図6の例では、属性情報とは、氏名を示す氏名情報と、プロフィール情報とからなる。プロフィール情報とは図6の例では、その参加予定者の肩書き等である。例えば、氏名がAである参加予定者のプロフィール情報(肩書き)は「開発部部長」である。また、図6に示すように、氏名B、Cの参加予定者については肩書きのほかに過去の実績なども登録してもよい。例えば氏名Bの参加予定者についてはプロフィール情報として「企画部部長」の他に過去の実績「○○プロジェクトを成功させた」が登録されている。
また、特徴量とは参加予定者を識別するための情報である。特徴量には、例えば、顔特徴量や、音声特徴量、指紋特徴量、網膜特徴量などがある。処理の行いやすさの観点から特徴量は、顔特徴量や音声特徴量が好ましい。例えば、顔特徴量とは、本人と他人の識別判定が可能な利用者の顔の特徴を数値化したものである。例えば、顔の構成要素(目、鼻、口、眉など)の形状と、互いの配置関係などの特徴を数値で現したものである。また、例えば、予め取得した登録者の顔画像そのものを数値化したものを顔データとしても用いてもよく、例えばサイズを規定したJPEG方式の画像データである。
また、音声特徴量とは、少ない情報量で音声の特徴を表現できるものであり、例えばケプストラム、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルである。
特徴量として顔特徴量を用いる場合のデータテーブル作成処理としては、まず、撮影手段106によりテレビ会議の参加予定者について正対して顔を撮影する。そして、以下で説明する切り出し部2による以下の流れの処理を行う。
(1)入力された映像から顔領域の検出、顔領域の位置の特定
(2)切り出し部2による顔領域(図7参照)の切り出し処理
(3)切り出された顔領域の大きさや輝度などのばらつきの正規化処理
(4)正規化された顔領域からの顔特徴量の抽出処理
顔特徴量の抽出処理が終了すると、例えば、操作部102のキーボードなどで、参加予定者の属性情報(氏名情報やプロフィール情報)を入力して、顔特徴量と対応付けて、データベース記憶部16に登録する。以下の説明では、データベース記憶部16に登録されている特徴量を登録特徴量という。
データベース記憶部16に全ての参加予定者のデータテーブルを登録させた後のテレビ会議装置100の処理について説明する。また、テレビ会議の形態は図3に示す例であり、会議の参加者は、A〜Hであり、Iは欠席しているとする。
会議中に、参加者Bが発話したとする。すると、撮影装置106により、参加者Bは撮影され、発話音声が収音され、位置情報検出部8は位置情報(後述する)を検出する(ステップS1)。なお、以下の説明では、1回目の撮影を第1撮影とし、2回目以降の撮影を第2撮影とする。
参加者Bの音声信号aは位置情報検出部8に入力される。参加者Bの映像信号bは、切り出し部2に入力される。撮影装置は上述のように、全方位(360度)撮影するが、略正対した発話者Bの画像を得るように、切り出し部2は画像を切り出す。切り出し処理の工程は上記(1)〜(4)に述べたとおりである。切り出し部2は切り出された顔画像情報cと顔領域の場所情報d(以下、「顔場所情報」という。)を出力する。顔画像情報cは、特徴量生成部6に入力され、顔場所情報dは位置情報生成部8に入力される。顔画像情報cの一例を図7に示す。
次に、制御部18は、当該撮影が2回目以降の撮影であるか否かが判断する(ステップS2)。ここでは、1回目の撮影であるので(ステップS2のNo)、ステップS3に進む。制御部18による2回目以降の撮影か否かの判断手法については後述する。
特徴量生成部6は、顔画像情報cを用いて、第1撮影された参加者Bの特徴量を生成する(ステップS3)。特徴量とは、上記のように、例えば、顔特徴量や音声特徴量などである。音声特徴量を用いる場合には、位置情報検出部8からの音声信号aを用いる。
識別部10は、データベース記憶部16内の登録特徴量と、特徴量生成部6からの特徴量に基づいて、識別を行う(ステップS4)。この例では、識別部10は、顔識別部152と音声識別部154と位置情報識別部156とで構成されている。顔識別部152と音声識別部154は、どちらか一方でよい。
識別部10は、データベース記憶部16中の登録特徴量と、特徴量生成部6で生成された特徴量とに基づいて、参加者を識別する。以下の説明では、1回目の識別(特徴量を用いた識別)を「第1識別」といい、2回目以降の識別(後述する位置情報を用いた識別)を「第2識別」という。具体的には、特徴量と登録特徴量の類似度を計算する。特徴量が数値の場合には、例えば、特徴量と登録特徴量の差の絶対値の逆数を類似度として計算する。また、特徴量と登録特徴量の差の絶対値にマイナスを付加した値を計算する。そのほか、類似度については、特徴量と登録特徴量との類似している度合いを示すものであればなんでもよい。
そして、計算された類似度が予め定められた第1閾値より大きい類似度についての特徴量を有する参加者を識別する(以下、「類似度使用手法」という。)。
他には、例えば相互部分空間法がある。相互部分空間法とは、調べたい2つの部分空間があったときに、部分空間同士の為す角度(正準角という(N次元部分空間ならN個存在する))を計算し、得られた正準角のうち最小の角度を類似度とする手法である。
また、顔識別部152の顔特徴量を用いた識別の手法として、参加者の顔画像をモザイクに分割し、それらのモザイク毎に特徴点を抽出して照合する方法がある。また、参加者顔画像から抽出された等濃線分布に基づいて照合を行う方法がある。
また、音声識別部15の音声特徴量を用いた識別の手法は、例えば、認証の対象となる言葉を音声で入力し、当該入力音声を音声分析した結果の声紋データを特徴量としてデータベース記憶部16に格納しておく。
また、図8に示すように、位置情報検出部8の方向特定の精度が不十分で、2人の人物の間(図8では中心線W)を発話者とみなす場合がある。この場合には、当該2人以上の参加者それぞれについて識別部10による識別処理を行う。
また、識別に用いる特徴量の種類(上記の例では、顔特徴量や音声特徴量)を多くすれば、識別部10の識別精度を上げることができる。
次に、合成部12は、識別部10で識別された参加者の特徴量と対応する属性情報をデータベース記憶部16から抽出する。そして合成部12は、撮影装置106で撮影されている、識別された参加者の映像と抽出した属性情報とを対応付ける。ここで対応付けとは、例えば、図9に示すように参加者Bの映像に属性情報を重畳させる。重畳のほか、参加者Bの映像と属性情報とが対応していることが地点Bの会議の参加者達に理解できれば他の手法でもよい。対応づけられた参加者の映像と属性情報は符号化部14に入力される。
一方、位置情報生成部8により参加者以外の音が除去された音声信号も符号化部14に入力される。符号化部14は、対応づけられた参加者の映像と属性情報、および音源定位部4からの音声を符号化して、M地点側のテレビ会議装置を第2テレビ会議装置200に送信する(ステップS6)。
次に、位置情報について説明する。ステップS1において、上述のように位置情報検出部8は、第1撮影(1度目の撮影)の際に、切り出し部2からの切り出した顔画像(の参加者)について位置情報eを求める。位置情報eとは、例えば、参加者Aを基準とした場合の発話した参加者Bが位置する角度θ(ラジアン)である。この基準は他の場所としてもよい。また、切り出し部2による切り出しは、発話者の方向θと切り出し画像の水平方向の中心位置が一致するように切り出すことが好ましい。
しかし、図8に示すように、位置情報生成部8の方向特定の精度が不十分で、2人の人物の間(中心線W)を発話者の方向とみなす場合がある。この場合には、位置情報eをピクセルであらわすことが好ましい。図8の例では、参加者Aを基準とした場合の中心線Wの角度はθである。この場合の位置情報は、角度θと、切り出した画像上の水平方向の相対座標xに対応する方向(上記基準方向からの角度)から求まる解像度(横方向の全360度を何ピクセルで表示しているか)により一意的に決定できる。例えば、360度をNピクセルで表示している場合、位置情報は、(θ・N/2π)+x(ピクセル)とできる。
ここで、相対座標xは、切り出し部2で求めた顔場所情報dに相当する。このように、位置情報生成部8が2人の人物の間(中心線)を発話者の方向を音源方向とした場合であっても、位置情報としてピクセルを用いれば、話者を一意に識別できる位置情報を検出できる。その他、位置情報eは、参加者を一意に定めるものであれば、何でもよい。また、図7に示すように、発話者の方向θと切り出し画像の水平方向の中心位置が一致するように切り出された場合であっても、位置情報をピクセル、つまり、θ・N/2πであらわしてもよい。
そして、参加者を第1識別後(ステップS4終了後)に、位置情報検出部8は、位置情報eと撮影された参加者(この例では参加者B)の属性情報と対応付けてデータベース記憶部16に登録する(ステップS10)。つまり、図10に示すように、参加者Bについて位置情報βが追加更新される。このように、参加者は発話をして1回目の撮影後、特徴量生成部6の特徴量を生成するとともに、位置情報検出部8が発話した参加者の位置情報eを検出して、データベース記憶部16に発話した参加者の属性情報と対応付けられて随時、追加更新する。以下、データベース記憶部16中の位置情報eを登録位置情報eとする。ステップS6およびステップS10の処理が終了すると、テレビ会議装置の1回目の撮影についての処理が全て終了する。
次に、参加者Bの発話が終了した後に、再び参加者Bが発話したとする。この場合には、図3のフローチャート図中のスタートから再び開始する。この場合には、撮影装置106は、発話者である参加者Bを撮影し、位置情報e'を検出する(ステップS1)。そして、制御部18は、当該撮影が2回目以降の撮影であるか否かが判断する(ステップS2)。制御部18の2回目以降の撮影であるか否かの判断は、位置情報検出部8により音源推定された方向についての位置情報がデータベース記憶部16に登録されているか否かを判断すればよい。つまり、2回目以降の撮影が行われているということは、その撮影が行われた参加者の位置情報がデータベース記憶部16に登録されているということである。
参加者Bは2回目以降の撮影であるので(ステップS2のYes)、位置情報識別部156は、データベース記憶部中の位置情報eと、検出された位置情報e'とに基づいて識別を行う。位置情報識別部156による位置情報を用いた識別手法は、上記特徴量を用いた識別手法と同様であり、例えば、類似度を用いればよい。
第2識別されれば、合成部12はデータベース記憶部16を参照して、検出された位置情報e'と例えば類似度が大きい、データベース記憶部16内の位置情報eと対応する属性情報と2回目以降に撮影された参加者(この例では、参加者B)の映像とを対応付け、送信部が送信する(ステップS14)。ステップS14の処理が終了すると、テレビ会議装置の2回目以降の撮影についての処理が終了する。
また、一度も撮影されていない参加者(例えば参加者C)が撮影された場合には、ステップS2において、Noとなり、ステップS3において、特徴量生成部6が参加者Cの特徴量を生成する。そしてテレビ会議装置は、ステップS4、ステップS6、ステップS10の処理を行う。
このように、実施例1のテレビ会議装置100は、発話したことで1回目に撮影された参加者について位置情報を検出し、データベース記憶部16に属性情報と対応づけて登録させる。2回目以降に撮影された参加者については、特徴量を生成することなく、位置情報を用いて、参加者を識別して、属性情報を抽出して送信する。従って、特徴量生成の頻度を減らすことができ、顔がカメラに正対していない、または顔部分の表示サイズが小さい、または部屋が暗い場合であっても、参加者の識別率を低下させることなく、適切な属性情報を送信できる。
また撮影装置106は、複数のカメラを全ての撮影面が外側に向くようにして全方位撮影できるカメラアレイを用いてもよい。また、自動的に発話者に向いて撮影する撮影装置でもよい。
実施例2のテレビ会議装置200は、表示部22を有する点で、実施例1のテレビ会議装置100と異なる。実施例1で説明した識別部10による上記類似度使用手法を用いて第1識別した結果、第1閾値より大きい類似度が複数ある場合がある。その場合には、これらの類似度についての特徴量をもつ、第1識別される参加者の複数の候補の属性情報を表示部22に表示させる。
表示部22に表示される例を図11に示す。図11の例では、2人の参加者が表示されている場合を示す。図11の例では、左側の参加者については、氏名がAか、Bか、Cかをユーザ(通常、L地点での通常は会議の参加者であり、参加者について知っている者)に選択させるように表示させる。そしてユーザは操作部102(例えばマウス)により入力させる(クリックさせる)。また、正しい参加者が表示された全ての候補参加者に該当しない場合は、下段の入力スペースYに操作部102(例えば、キーボード)で、正しい氏名を入力させる。また、図11の右側の参加者については、氏名Dの参加者と入力スペースYが表示されている。また左側の人物は参加者Bであり、右側の人物は、参加者Dであると入力されようとしている。
また、ユーザによる入力は、第2識別(位置情報を用いての識別)の処理についても同様である。
図12にテレビ会議装置200の主な処理の流れの一部を示す。実施例2のテレビ会議装置200の処理の流れは、図12に示すフローチャート図が、図3記載のステップS4とステップS6との間に挿入され、ステップS10は図12に示す位置に移動されたものである。
ステップS102において、第1識別の候補人物が存在する場合には(ステップS102のYes)、制御部18は、候補人物名(上記の例では、参加者A、B、C)を表示部22に表示させる(ステップS106)。そして、ユーザに候補人物から人物名を選択させるか、人物名を入力スペースYに入力させる(ステップS108)。
一方、ステップS102において、第1識別の結果、候補人物が存在しない場合には(ステップS102のNo)、制御部18は表示部22に入力スペースを表示させ、人物名を入力させる(ステップS104)。そして、選択または入力された参加者人物名の属性情報と、当該参加者の映像、音声を第2テレビ会議装置200に送信する(ステップS6)。また、位置情報と、選択または入力された人物名とを対応付けてデータベース記憶部16に記憶させる(ステップS10)。ステップS6およびステップS10が終了すると、実施例2のテレビ会議装置の1回目の撮影についての処理は終了する。
また、参加者を選択させる画面(例えば図11)は、映像出力部103に出力させればよい。この場合には、B地点の会議風景と参加者選択画面を2画面で表示してもよく、自動で切り替えるようにしてもよい。また、参加者選択画面用の映像出力部を設置してもよい。
この実施例2のテレビ会議装置200であれば、第1識別、第2識別により、識別される参加者の候補が複数いる場合であっても、会議の参加者に正しい氏名などを選択または入力させることができ、結果として、識別部10の識別精度が低い場合や誤った場合であっても、ユーザになるべく負担をかけないで、適切に属性情報を送信できる。
テレビ会議中に参加者が座席の位置の変更、入退室での入れ変わりで、属性情報と位置情報との対応が変化する場合がある。このような場合に、データベース記憶部16をそのまま用いると、誤った属性情報を送信することになる。実施例3では、テレビ会議中に参加者が座席の位置の変更、入退室での入れ変わりを行った場合であっても、適切な属性情報を送信できるテレビ会議装置を説明する。実施例3のテレビ会議装置300の識別部20内には、判定部20を有する。以下の説明では、一度発話をした参加者Bが、新しい参加者Iと入れ替わった場合について説明する。
参加者Bの座席に座っている参加者Iが発話をすると、撮影装置106は参加者Iを撮影し、位置情報検出部8は、参加者Iの(参加者Bの座席)の位置情報を検出する。そして特徴量生成部6は、参加者Iの特徴量を生成する。以下では、参加者Iの撮影、位置情報の検出、特徴量の生成をそれぞれ、今回の撮影、今回の位置情報の検出、今回の特徴量の生成という。
ここで、判定部20は、今回検出された位置情報と対応する登録特徴量と、今回生成された特徴量との類似度を求める。判定部20は、当該類似度が所定値g(第2閾値)より小さいか、否かを判定する。判定部20が類似度が所定値gより小さいと判定した場合というのは、位置情報を検出、登録した際の特徴量(つまり、1回目の撮影の際に生成した特徴量)と、今回生成した特徴量とが大きく異なるということであり、参加者が入れ替わったということである。その場合には判定部20は、今回生成した特徴量に近い特徴量(今回生成した特徴量と類似度が大きい特徴量)と対応する属性情報を抽出する。そして、今回撮影した映像(つまり、参加者Iの映像)と、属性情報の他に、エラー情報fも対応付けて送信する。
ここで、エラー情報fとは、発話した参加者の特徴量と、当該発話した参加者の位置情報と対応する登録特徴量と、の類似度が所定値gより大きい場合に送信される情報である。図13にエラー情報fが対応付けられた映像の一例を示す。図13の例でのエラー情報とは、「新しい参加者です」である。図13の例でのエラー情報は、参加者Bから、新しい参加者Iに変わった場合のエラー情報であるが、参加者Bと、元々テレビ会議に参加していた参加者Fと、座席が変わった場合では、エラー情報fとして「参加者Fが参加者Bと座席を変わりました」を送信すればよい。エラー情報はこれらに限られるものではない。
また、特徴量として、顔特徴量と音声特徴量を用いている場合には、発話した参加者の顔特徴量または音声特徴量と、データベース記憶部16に登録されている顔特徴量と音声特徴量の差がどちらか一方でも所定値gより大きい場合に、エラー情報を送信してもよく、両方が所定値gより大きい場合にエラー情報を送信してもよい。
実施例3のテレビ会議装置300であれば、テレビ会議中に参加者が入れ替わったり、または新しい参加者が参入したとしても、属性情報を間違えて送信することなく、入れ替わったことまたは新しく参入したことを示すエラー情報を送信することで、テレビ会議の相手側に適切に、参加者が入れ替わったこと、新しく参入したことを、属性情報とともに知らせることができる。
実施例3のテレビ会議装置300は、参加者の交代、新しい参加者の参入が頻繁であると予め分かっているテレビ会議で用いることが好ましい。
また、テレビ会議装置300の特徴量生成部6は、参加者が発話の度に、特徴量を生成する。従って、特徴量生成の頻度を下げるために、参加者が途中で入れ替わったり、新しい参加者が参入しようとした時点で、L地点側の他の参加者が、テレビ会議装置100(または200)から、このテレビ会議装置300のモードに切り替えるようにすることが好ましい。この切り替えは、図示しない入力部から入力させればよい。
また、以上の例では、L地点、M地点にそれぞれ1台ずつテレビ会議装置を設けている。しかし、別の例として、L地点、M地点のうちの1つの地点(あるいはネットワーク経由でL地点、M地点に結ばれた別の1つの地点)に1台だけテレビ会議装置を設け、そのテレビ会議装置に、L地点、M地点の両方の参加予定者についての顔特徴データ及び肩書き・名前データをデータベース記憶部に登録させて、この両方の参加者についてテレビ会議を実行させてもよい。
また、以上の例では、テレビ会議装置内にデータベース記憶部16を保持させる構成とした。しかし、データベース記憶部16をハードディスク108またはメモリ110と統合させてもよい。
また、属性情報として、肩書き及び名前のみならず、その参加予定者の過去の会議での主張(或るプロジェクトに賛成か反対かの見解等)を要約したデータをこのデータベース記憶部に登録し、映像出力部103に表示させるようにしてもよい。
また、以上の例では、L地点、M地点という2地点を結ぶテレビ会議システムに本発明を適用している。しかし、これに限らず、3地点以上を結ぶテレビ会議システムや、テレビ会議システム以外の適宜の双方向コミュニケーションシステムにも本発明を適用してよい。
また、エンターテイメント系の双方向コミュニケーションシステムに本発明を適用する場合には、例えば参加予定者の好きなアニメーションの画像データを属性情報としてデータベース記憶部16に登録することにより、映像出力部103に表示される参加者の顔の近傍にそのアニメーションの画像が表示されるようにしたり、映像出力部103に表示される参加者の顔の上にそのアニメーションの画像が表示されるようにしてもよい。
また、参加予定者のうち映像出力部103に顔を表示することが好ましくない人物がいるような双方向コミュニケーションシステムに本発明を適用する場合には、その人物についての属性情報としてモザイクをかけることを指示する情報をデータベース記憶部16に登録することにより、映像出力部103に表示されるその人物の顔にモザイクがかかるようにしてもよい。
また、本実施例は、以上の例に限らず、本発明の要旨を逸脱することなく、その他様々の構成をとりうることはもちろんである。
以上説明した本実施例のテレビ会議装置はコンピュータにテレビ会議プログラムを解読させて実現することができる。この実施例で提案するテレビ会議プログラムはコンピュータが解読可能なプログラム言語によって記述され、磁気ディスク或はCD−ROM等の記録媒体に記録され、これら記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されてテレビ会議装置として機能する。具体的には、図1記載のテレビ会議装置100をCPUに代替させ、当該CPUにテレビ会議プログラムを解読させればよい。
1000 テレビ会議システム
100 テレビ会議装置
102 操作部
103 映像出力部
104 音声出力部
106 撮影装置
108 ハードディスク
110 メモリ
112 通信制御部
100 テレビ会議装置
2 切り出し部
6 特徴量生成部
8 位置情報検出部
10 識別部
12 合成部
14 符号化部
16 データベース記憶部
18 制御部
20 判定部
22 表示部
152 顔識別部
154 音声識別部
156 位置情報識別部
特開平6―121310号公報 特許第4055539号公報

Claims (7)

  1. 参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部と、
    撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、
    撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する位置情報検出部と、
    前記撮影された参加者の特徴量と前記データベース記憶部中の特徴量とに基づいて当該参加者を識別し、2回目以降に撮影された参加者の位置情報と前記データベース記憶部中の位置情報とに基づいて当該参加者を識別する識別部と、
    特徴量で識別された参加者の属性情報と前記撮影された参加者の映像とを対応付けて送信し、
    位置情報で識別された参加者の属性情報と前記2回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有するテレビ会議装置。
  2. 前記撮影装置により撮影された参加者の位置情報と対応する前記データベース記憶部中の特徴量と、当該撮影された参加者の特徴量と、の類似度が所定値より小さい場合には、当該撮影された参加者の映像とエラー情報とを前記送信部に送信させる判定部を有することを特徴とする請求項1記載のテレビ会議装置。
  3. 更に、前記識別部により識別された結果、識別される参加者の候補が複数いる場合には、全ての当該参加者の候補を表示する表示部を有することを特徴とする請求項1または2記載のテレビ会議装置。
  4. 前記特徴量は、顔特徴量または音声特徴量のうち少なくとも1つであることを特徴とする請求項1〜3何れかに記載のテレビ会議装置。
  5. 前記撮影装置は全方位撮影できるものであり、
    前記参加者は、前記撮影装置の周りに位置することを特徴とする請求項1〜4何れかに記載のテレビ会議装置。
  6. 撮影装置で撮影された参加者の特徴量を生成する生成工程と、
    参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部中の特徴量と、前記生成された特徴量とに基づいて識別された参加者の前記撮影された映像と前記データベース記憶部中の特徴量に対応する属性情報とを対応付けて送信する第1送信工程と、
    前記撮影された参加者の位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する登録工程と、
    2回目以降に撮影された参加者の位置情報を検出する検出工程と、
    前記検出工程後、前記データベース記憶部中の位置情報と、前記検出された位置情報とに基づいて識別された参加者の前記2回目以降に撮影された映像と前記データベース記憶部中の位置情報と対応する属性情報とを対応付けて送信する第2送信工程と、を有するテレビ会議方法。
  7. コンピュータを請求項1〜5何れかに記載のテレビ会議装置として機能させるためのプログラム。
JP2009143626A 2009-06-16 2009-06-16 テレビ会議装置、テレビ会議方法、そのプログラム Expired - Fee Related JP5316248B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009143626A JP5316248B2 (ja) 2009-06-16 2009-06-16 テレビ会議装置、テレビ会議方法、そのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009143626A JP5316248B2 (ja) 2009-06-16 2009-06-16 テレビ会議装置、テレビ会議方法、そのプログラム

Publications (2)

Publication Number Publication Date
JP2011004007A true JP2011004007A (ja) 2011-01-06
JP5316248B2 JP5316248B2 (ja) 2013-10-16

Family

ID=43561636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009143626A Expired - Fee Related JP5316248B2 (ja) 2009-06-16 2009-06-16 テレビ会議装置、テレビ会議方法、そのプログラム

Country Status (1)

Country Link
JP (1) JP5316248B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015118683A1 (ja) * 2014-02-10 2015-08-13 株式会社日立製作所 意見収集装置及びシステム及び意見収集方法
JP2017092675A (ja) * 2015-11-09 2017-05-25 株式会社リコー 情報処理装置、会議システム、情報処理方法およびプログラム
US10264302B2 (en) 2016-09-30 2019-04-16 Ricoh Company, Ltd. Communication management apparatus, method and computer-readable storage medium for generating image data identification information
JP2019176415A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2019176416A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2020016892A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
US10848871B2 (en) 2016-12-20 2020-11-24 Samsung Electronics Co., Ltd. Content output system, display apparatus and control method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8526463B2 (en) 2005-06-01 2013-09-03 Qualcomm Incorporated System and method to support data applications in a multi-homing, multi-mode communication device

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09271006A (ja) * 1996-04-01 1997-10-14 Ricoh Co Ltd 多地点テレビ会議装置
JP2002157592A (ja) * 2000-11-16 2002-05-31 Nippon Telegr & Teleph Corp <Ntt> 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体
JP2003023612A (ja) * 2001-07-10 2003-01-24 Mitsubishi Electric Corp 画像通信端末装置
JP2003230049A (ja) * 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
JP2004007284A (ja) * 2002-05-31 2004-01-08 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体
JP2004032782A (ja) * 2002-06-27 2004-01-29 Microsoft Corp 全方位カメラ及びマイクロフォンアレイのためのシステム
JP2004086625A (ja) * 2002-08-27 2004-03-18 Hitoshi Hongo 顧客情報管理装置
JP2004129071A (ja) * 2002-10-04 2004-04-22 Sony Corp 双方向コミュニケーションシステム
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09271006A (ja) * 1996-04-01 1997-10-14 Ricoh Co Ltd 多地点テレビ会議装置
JP2002157592A (ja) * 2000-11-16 2002-05-31 Nippon Telegr & Teleph Corp <Ntt> 人物情報登録方法、装置、人物情報登録プログラムを記録した記録媒体
JP2003023612A (ja) * 2001-07-10 2003-01-24 Mitsubishi Electric Corp 画像通信端末装置
JP2003230049A (ja) * 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
JP2004007284A (ja) * 2002-05-31 2004-01-08 Ricoh Co Ltd 映像記録システム、プログラム及び記録媒体
JP2004032782A (ja) * 2002-06-27 2004-01-29 Microsoft Corp 全方位カメラ及びマイクロフォンアレイのためのシステム
JP2004086625A (ja) * 2002-08-27 2004-03-18 Hitoshi Hongo 顧客情報管理装置
JP2004129071A (ja) * 2002-10-04 2004-04-22 Sony Corp 双方向コミュニケーションシステム
JP2007067972A (ja) * 2005-08-31 2007-03-15 Canon Inc 会議システム及び会議システムの制御方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015118683A1 (ja) * 2014-02-10 2015-08-13 株式会社日立製作所 意見収集装置及びシステム及び意見収集方法
JPWO2015118683A1 (ja) * 2014-02-10 2017-03-23 株式会社日立製作所 意見収集装置及びシステム及び意見収集方法
JP2017092675A (ja) * 2015-11-09 2017-05-25 株式会社リコー 情報処理装置、会議システム、情報処理方法およびプログラム
US10264302B2 (en) 2016-09-30 2019-04-16 Ricoh Company, Ltd. Communication management apparatus, method and computer-readable storage medium for generating image data identification information
US10979751B2 (en) 2016-09-30 2021-04-13 Ricoh Company, Ltd. Communication management apparatus, method and computer-readable storage medium for generating image data identification information communication
US10848871B2 (en) 2016-12-20 2020-11-24 Samsung Electronics Co., Ltd. Content output system, display apparatus and control method thereof
JP2020016892A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2019176416A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2019176415A (ja) * 2018-03-29 2019-10-10 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP7102859B2 (ja) 2018-03-29 2022-07-20 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP7110669B2 (ja) 2018-03-29 2022-08-02 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2022136115A (ja) * 2018-03-29 2022-09-15 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2022140529A (ja) * 2018-03-29 2022-09-26 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム
JP7400886B2 (ja) 2018-03-29 2023-12-19 日本電気株式会社 ビデオ会議システム、ビデオ会議方法、およびプログラム

Also Published As

Publication number Publication date
JP5316248B2 (ja) 2013-10-16

Similar Documents

Publication Publication Date Title
JP5316248B2 (ja) テレビ会議装置、テレビ会議方法、そのプログラム
US10621991B2 (en) Joint neural network for speaker recognition
US7953254B2 (en) Method and apparatus for generating meta data of content
JP6030240B2 (ja) 顔認識のための方法および装置
WO2017198014A1 (zh) 一种身份认证方法和装置
JP4474013B2 (ja) 情報処理装置
KR101010081B1 (ko) 미디어 식별
JP5739895B2 (ja) ビデオセッションの自動ラベリング
WO2019140161A1 (en) Systems and methods for decomposing a video stream into face streams
WO2010010736A1 (ja) 会議画像生成方法、会議システム、サーバ装置及び会議装置等
CN104170374A (zh) 在视频会议期间修改参与者的外观
KR101895846B1 (ko) 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화
JP2014523019A (ja) 動的ジェスチャー認識方法および認証システム
JP2011071685A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
US20120242860A1 (en) Arrangement and method relating to audio recognition
JP2007241130A (ja) 声紋認識を利用するシステムと装置
JP2007067972A (ja) 会議システム及び会議システムの制御方法
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP7206741B2 (ja) 健康状態判定システム、健康状態判定装置、サーバ、健康状態判定方法、及びプログラム
US20230097729A1 (en) Apparatus, systems and methods for determining a commentary rating
Yu et al. Towards smart meeting: Enabling technologies and a real-world application
CN106060394A (zh) 一种拍照方法、装置和终端设备
JP7388188B2 (ja) 発話者認識システム、発話者認識方法、及び発話者認識プログラム
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム
JP7110669B2 (ja) ビデオ会議システム、ビデオ会議方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130624

R151 Written notification of patent or utility model registration

Ref document number: 5316248

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees