JP2011004007A

JP2011004007A - テレビ会議装置、テレビ会議方法、そのプログラム

Info

Publication number: JP2011004007A
Application number: JP2009143626A
Authority: JP
Inventors: Sadafumi Araki; 禎史荒木; Takako Hashimoto; 隆子橋本; Keiji Omura; 慶二大村; Yuji Kasuya; 勇児糟谷
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-06-16
Filing date: 2009-06-16
Publication date: 2011-01-06
Anticipated expiration: 2029-06-16
Also published as: JP5316248B2

Abstract

【課題】適切に属性情報を送信する。
【解決手段】参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベースと、撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けてデータベースに登録する位置情報検出部と、撮影された参加者の特徴量とデータベース中の特徴量とに基づいて当該参加者を識別し、２回目以降に撮影された参加者の位置情報とデータベース中の位置情報とに基づいて当該参加者を識別する識別部と、特徴量で識別された参加者の属性情報と撮影された参加者の映像とを対応付けて送信し、位置情報で識別された参加者の属性情報と２回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有する。
【選択図】図３

Description

本発明は、例えば、互いに離れた複数の地点の間で行われるテレビ会議で用いられるテレビ会議装置、テレビ会議方法、そのプログラムに関する。

従来のテレビ会議などで用いられるテレビ会議装置について説明する。予め、テレビカメラより撮影された会議の参加者の人物画像（顔画像）から人物画像識別（顔画像識別）に必要な特徴量（例えば、顔特徴量）を生成手段により生成する。生成された特徴量と会議参加者のプロフィールを対応付けてデータベース記憶部に登録しておく。自端末のテレビカメラを通して相手端末のディスプレイに表示されている会議参加者についてプロフィールを表示させる場合に、前記生成手段により改めて特徴量を生成する。そして、この特徴量と一致する特徴量を照合し、照合により一致する特徴量があった場合に該特徴量に対応するプロフィールを要求元の相手端末に送り、相手端末のディスプレイに表示させるテレビ会議装置が既に知られている（例えば、特許文献１、２参照）。

しかし、従来のテレビ会議装置であれば、改めて特徴量を生成するために、顔画像識別を行わなければならない。一般に、顔画像識別では、表示されている人物がカメラに対して正対している場合が最も識別率が高く、顔の向きが斜めから横向きになるにつれて、識別率が低下するという性質がある。複数の人物が参加するテレビ会議においては、全参加者がカメラに対して正対するのは困難で、顔が斜め向きや横向きに撮影される参加者が存在する場合がある。また、顔がカメラに正対していても、顔部分の表示サイズが小さいとか、部屋が暗かったりする場合は、同様に識別率の低下が起こる。これらの場合、顔画像識別技術だけでは全参加者を正しく識別できず、適切なプロフィールを表示できないという問題がある。
本発明の目的は、上記問題点に鑑みて、参加者の特徴量を用いる頻度を少なくして、相手の通信端末に適切にプロフィールを送信するテレビ会議装置、テレビ会議方法、そのプログラムを提供することを目的とする。

上記課題を解決するために、本実施例のテレビ会議装置は、参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部と、撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する位置情報検出部と、前記撮影された参加者の特徴量と前記データベース記憶部中の特徴量とに基づいて当該参加者を識別し、２回目以降に撮影された参加者の位置情報と前記データベース記憶部中の位置情報とに基づいて当該参加者を識別する識別部と、特徴量で識別された参加者の属性情報と前記撮影された参加者の映像とを対応付けて送信し、位置情報で識別された参加者の属性情報と前記２回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有する。

本発明のテレビ会議装置、テレビ会議方法、そのプログラムであれば特徴量を用いる頻度を少なくすることで、参加者の識別の精度を高め、相手の通信端末に適切にプロフィールを送信できる。

本実施例のテレビ会議システムの機能構成例を示した図。本実施例のテレビ会議システムで用いられる撮影装置の一例の斜視図。本実施例のテレビ会議装置に適した会議の形態の一例を示した図。本実施例のテレビ会議装置の機能構成例を示した図。本実施例のテレビ会議装置の主な処理の流れを示したフローチャート図。本実施例のデータテーブルの一例を示す図。参加者の切り出し後の画像の一例を示した図。切り出した参加者が２人表された場合の画像の一例を示した図。属性情報が重畳された画像の一例を示す図。位置情報が対応付けられたデータテーブルの一例を示す図。表示部に表示させた場合の画像の一例を示す図。他の実施例のテレビ会議装置の主な処理の流れの一部を示したフローチャート図。エラー情報を対応させた画像の一例を示す図。

以下、図面を参照して、本発明を実施するための形態の説明を行う。なお、同じ機能を持つ構成部や同じ処理を行う工程には同じ番号を付し、重複説明を省略する。

以下に、実施例１のテレビ会議装置などについて説明するが、当該テレビ会議装置は、互いに離れた複数の地点の間で行われるテレビ会議において、それぞれの地点で撮影装置（例えば、テレビカメラ）映像がそれぞれネットワーク経由で他の地点に送信されるために用いられる。
図１に実施例１のテレビ会議装置１００を含んだテレビ会議システム１０００の機能構成例を示す。以下の説明では、お互いに離れたＬ地点とＭ地点とでテレビ会議が行われるものとし、それぞれの地点には、このテレビ会議システム１０００が配置されているものとする。そして、Ｌ地点を自己側の地点とし、Ｍ地点を相手側の地点とし、Ｌ地点側のテレビ会議装置を第１テレビ会議装置１００とし、Ｍ地点側のテレビ会議装置を第２テレビ会議装置２００とする。なお、本実施例のテレビ会議装置は、３以上の地点においてでも、テレビ会議を行うことができる。

図１に示すように、テレビ会議システム１０００は操作部１０２と、映像出力部１０３（例えばディスプレイ）音声出力部１０４（例えば、スピーカ）、後述する撮影装置１０６と、ハードディスク１０８と、メモリ１１０と、テレビ会議装置１００と通信制御部１１２と、で構成される。

テレビ会議システム１０００のうち、撮影装置１０６と、テレビ会議装置１００以外は、ＰＣなどに一般に使われる構成要素である。操作部１０２とは例えば、キーボードやマウスである。映像出力部１０３は、相手側のテレビ会議風景、テレビ会議の参加者（つまり、Ｌ地点であれば、Ｍ地点のテレビ会議風景、参加者）を出力し、音声出力部１０４は相手側のテレビ会議の参加者の音声（テレビ会議参加者の音声）を出力する。

図２に撮影装置１０６の一例の斜視図を示す。本実施例の撮影装置１０６は、お互いに径の異なる第１円柱部１０６ａと、第２円柱部１０６ｄとからなる。第１円柱部１０６ａの外周面上には、等間隔で撮影手段１０６ｃが配置されている。撮影手段１０６ｃは、例えばテレビカメラであり、会議の参加者を撮影するものである。第２円柱部１０６ｂの外周面上には、円周方向等間隔で収音手段１０６ｄが配置されている。収音手段１０６ｄとは例えば、マイクロホンであり、会議の参加者の音声を収音するものである。このように、本実施例では、図２に示すように、全方位を撮影、収音できる撮影装置を用いることが好ましい。撮影装置１０６は「"会議の映像・音声データから自動的に会議録コンテンツを作成するシステム"［ｏｎｌｉｎｅ］平成２０年１０月１４日、独立行政法人産業技術総合研究所［平成２１年５月２１日検索］、インターネット〈ＵＲＬ：http://www.aist.go.jp/aist_j/press_release/pr2008/pr20081014_2/pr20081014_2.html〉」に記載されている。
また撮影装置１０６は上述のように全方位撮影できるものでなく、自動的に発話者に向いて、ズーム・フォーカスする撮影装置であってもよい。

図３に、実施例１のテレビ会議装置１００が用いられる最適なテレビ会議の形態を示す。図３に示すようにテレビ会議は、参加者が円を囲むように位置し、中央に撮影装置１０６が位置するような形態が好ましい。なぜなら図２に示す撮影装置により、全ての参加者の顔を常に略正対して、撮影できるからである。

図４に、実施例１のテレビ会議装置１００の機能構成例を示す。図５にテレビ会議装置１００の主な処理の流れを示す。実施例１のテレビ会議装置１００は、切り出し部２と、特徴量生成部６と、位置情報検出部８と識別部１０と、合成部１２と、符号化部１４とデータベース記憶部１６とで構成されている。
まず、予め、テレビ会議開始前に、データベース記憶部１６に図６に示すようなデータテーブルを登録しておく。図６に示すように、データテーブルはテレビ会議の参加予定者の属性情報と特徴量とを対応させる。図６の例では、氏名がＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ、Ｉの９人の参加予定者についてのデータテーブルが示されている。参加予定者とは、参加を予定している者であり、例えば、実際の参加者と、参加を予定していたが参加できなくなった者と、を示す。
ここで、属性情報とはテレビ会議の参加者予定者の属性を示す情報である、図６の例では、属性情報とは、氏名を示す氏名情報と、プロフィール情報とからなる。プロフィール情報とは図６の例では、その参加予定者の肩書き等である。例えば、氏名がＡである参加予定者のプロフィール情報（肩書き）は「開発部部長」である。また、図６に示すように、氏名Ｂ、Ｃの参加予定者については肩書きのほかに過去の実績なども登録してもよい。例えば氏名Ｂの参加予定者についてはプロフィール情報として「企画部部長」の他に過去の実績「○○プロジェクトを成功させた」が登録されている。
また、特徴量とは参加予定者を識別するための情報である。特徴量には、例えば、顔特徴量や、音声特徴量、指紋特徴量、網膜特徴量などがある。処理の行いやすさの観点から特徴量は、顔特徴量や音声特徴量が好ましい。例えば、顔特徴量とは、本人と他人の識別判定が可能な利用者の顔の特徴を数値化したものである。例えば、顔の構成要素（目、鼻、口、眉など）の形状と、互いの配置関係などの特徴を数値で現したものである。また、例えば、予め取得した登録者の顔画像そのものを数値化したものを顔データとしても用いてもよく、例えばサイズを規定したＪＰＥＧ方式の画像データである。
また、音声特徴量とは、少ない情報量で音声の特徴を表現できるものであり、例えばケプストラム、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルである。
特徴量として顔特徴量を用いる場合のデータテーブル作成処理としては、まず、撮影手段１０６によりテレビ会議の参加予定者について正対して顔を撮影する。そして、以下で説明する切り出し部２による以下の流れの処理を行う。
（１）入力された映像から顔領域の検出、顔領域の位置の特定
（２）切り出し部２による顔領域（図７参照）の切り出し処理
（３）切り出された顔領域の大きさや輝度などのばらつきの正規化処理
（４）正規化された顔領域からの顔特徴量の抽出処理
顔特徴量の抽出処理が終了すると、例えば、操作部１０２のキーボードなどで、参加予定者の属性情報（氏名情報やプロフィール情報）を入力して、顔特徴量と対応付けて、データベース記憶部１６に登録する。以下の説明では、データベース記憶部１６に登録されている特徴量を登録特徴量という。

データベース記憶部１６に全ての参加予定者のデータテーブルを登録させた後のテレビ会議装置１００の処理について説明する。また、テレビ会議の形態は図３に示す例であり、会議の参加者は、Ａ〜Ｈであり、Ｉは欠席しているとする。

会議中に、参加者Ｂが発話したとする。すると、撮影装置１０６により、参加者Ｂは撮影され、発話音声が収音され、位置情報検出部８は位置情報（後述する）を検出する（ステップＳ１）。なお、以下の説明では、１回目の撮影を第１撮影とし、２回目以降の撮影を第２撮影とする。
参加者Ｂの音声信号ａは位置情報検出部８に入力される。参加者Ｂの映像信号ｂは、切り出し部２に入力される。撮影装置は上述のように、全方位（３６０度）撮影するが、略正対した発話者Ｂの画像を得るように、切り出し部２は画像を切り出す。切り出し処理の工程は上記（１）〜（４）に述べたとおりである。切り出し部２は切り出された顔画像情報ｃと顔領域の場所情報ｄ（以下、「顔場所情報」という。）を出力する。顔画像情報ｃは、特徴量生成部６に入力され、顔場所情報ｄは位置情報生成部８に入力される。顔画像情報ｃの一例を図７に示す。
次に、制御部１８は、当該撮影が２回目以降の撮影であるか否かが判断する（ステップＳ２）。ここでは、１回目の撮影であるので（ステップＳ２のＮｏ）、ステップＳ３に進む。制御部１８による２回目以降の撮影か否かの判断手法については後述する。

特徴量生成部６は、顔画像情報ｃを用いて、第１撮影された参加者Ｂの特徴量を生成する（ステップＳ３）。特徴量とは、上記のように、例えば、顔特徴量や音声特徴量などである。音声特徴量を用いる場合には、位置情報検出部８からの音声信号ａを用いる。

識別部１０は、データベース記憶部１６内の登録特徴量と、特徴量生成部６からの特徴量に基づいて、識別を行う（ステップＳ４）。この例では、識別部１０は、顔識別部１５２と音声識別部１５４と位置情報識別部１５６とで構成されている。顔識別部１５２と音声識別部１５４は、どちらか一方でよい。
識別部１０は、データベース記憶部１６中の登録特徴量と、特徴量生成部６で生成された特徴量とに基づいて、参加者を識別する。以下の説明では、１回目の識別（特徴量を用いた識別）を「第１識別」といい、２回目以降の識別（後述する位置情報を用いた識別）を「第２識別」という。具体的には、特徴量と登録特徴量の類似度を計算する。特徴量が数値の場合には、例えば、特徴量と登録特徴量の差の絶対値の逆数を類似度として計算する。また、特徴量と登録特徴量の差の絶対値にマイナスを付加した値を計算する。そのほか、類似度については、特徴量と登録特徴量との類似している度合いを示すものであればなんでもよい。
そして、計算された類似度が予め定められた第１閾値より大きい類似度についての特徴量を有する参加者を識別する（以下、「類似度使用手法」という。）。
他には、例えば相互部分空間法がある。相互部分空間法とは、調べたい２つの部分空間があったときに、部分空間同士の為す角度（正準角という（Ｎ次元部分空間ならＮ個存在する））を計算し、得られた正準角のうち最小の角度を類似度とする手法である。
また、顔識別部１５２の顔特徴量を用いた識別の手法として、参加者の顔画像をモザイクに分割し、それらのモザイク毎に特徴点を抽出して照合する方法がある。また、参加者顔画像から抽出された等濃線分布に基づいて照合を行う方法がある。

また、音声識別部１５の音声特徴量を用いた識別の手法は、例えば、認証の対象となる言葉を音声で入力し、当該入力音声を音声分析した結果の声紋データを特徴量としてデータベース記憶部１６に格納しておく。

また、図８に示すように、位置情報検出部８の方向特定の精度が不十分で、２人の人物の間（図８では中心線Ｗ）を発話者とみなす場合がある。この場合には、当該２人以上の参加者それぞれについて識別部１０による識別処理を行う。

また、識別に用いる特徴量の種類（上記の例では、顔特徴量や音声特徴量）を多くすれば、識別部１０の識別精度を上げることができる。

次に、合成部１２は、識別部１０で識別された参加者の特徴量と対応する属性情報をデータベース記憶部１６から抽出する。そして合成部１２は、撮影装置１０６で撮影されている、識別された参加者の映像と抽出した属性情報とを対応付ける。ここで対応付けとは、例えば、図９に示すように参加者Ｂの映像に属性情報を重畳させる。重畳のほか、参加者Ｂの映像と属性情報とが対応していることが地点Ｂの会議の参加者達に理解できれば他の手法でもよい。対応づけられた参加者の映像と属性情報は符号化部１４に入力される。

一方、位置情報生成部８により参加者以外の音が除去された音声信号も符号化部１４に入力される。符号化部１４は、対応づけられた参加者の映像と属性情報、および音源定位部４からの音声を符号化して、Ｍ地点側のテレビ会議装置を第２テレビ会議装置２００に送信する（ステップＳ６）。
次に、位置情報について説明する。ステップＳ１において、上述のように位置情報検出部８は、第１撮影（１度目の撮影）の際に、切り出し部２からの切り出した顔画像（の参加者）について位置情報ｅを求める。位置情報ｅとは、例えば、参加者Ａを基準とした場合の発話した参加者Ｂが位置する角度θ（ラジアン）である。この基準は他の場所としてもよい。また、切り出し部２による切り出しは、発話者の方向θと切り出し画像の水平方向の中心位置が一致するように切り出すことが好ましい。
しかし、図８に示すように、位置情報生成部８の方向特定の精度が不十分で、２人の人物の間（中心線Ｗ）を発話者の方向とみなす場合がある。この場合には、位置情報ｅをピクセルであらわすことが好ましい。図８の例では、参加者Ａを基準とした場合の中心線Ｗの角度はθである。この場合の位置情報は、角度θと、切り出した画像上の水平方向の相対座標xに対応する方向(上記基準方向からの角度)から求まる解像度（横方向の全３６０度を何ピクセルで表示しているか）により一意的に決定できる。例えば、３６０度をNピクセルで表示している場合、位置情報は、（θ・Ｎ／２π）＋ｘ（ピクセル）とできる。
ここで、相対座標ｘは、切り出し部２で求めた顔場所情報ｄに相当する。このように、位置情報生成部８が２人の人物の間（中心線）を発話者の方向を音源方向とした場合であっても、位置情報としてピクセルを用いれば、話者を一意に識別できる位置情報を検出できる。その他、位置情報ｅは、参加者を一意に定めるものであれば、何でもよい。また、図７に示すように、発話者の方向θと切り出し画像の水平方向の中心位置が一致するように切り出された場合であっても、位置情報をピクセル、つまり、θ・Ｎ／２πであらわしてもよい。
そして、参加者を第１識別後（ステップＳ４終了後）に、位置情報検出部８は、位置情報ｅと撮影された参加者（この例では参加者Ｂ）の属性情報と対応付けてデータベース記憶部１６に登録する（ステップＳ１０）。つまり、図１０に示すように、参加者Ｂについて位置情報β_２が追加更新される。このように、参加者は発話をして１回目の撮影後、特徴量生成部６の特徴量を生成するとともに、位置情報検出部８が発話した参加者の位置情報ｅを検出して、データベース記憶部１６に発話した参加者の属性情報と対応付けられて随時、追加更新する。以下、データベース記憶部１６中の位置情報ｅを登録位置情報ｅとする。ステップＳ６およびステップＳ１０の処理が終了すると、テレビ会議装置の１回目の撮影についての処理が全て終了する。

次に、参加者Ｂの発話が終了した後に、再び参加者Ｂが発話したとする。この場合には、図３のフローチャート図中のスタートから再び開始する。この場合には、撮影装置１０６は、発話者である参加者Ｂを撮影し、位置情報ｅ'を検出する（ステップＳ１）。そして、制御部１８は、当該撮影が２回目以降の撮影であるか否かが判断する（ステップＳ２）。制御部１８の２回目以降の撮影であるか否かの判断は、位置情報検出部８により音源推定された方向についての位置情報がデータベース記憶部１６に登録されているか否かを判断すればよい。つまり、２回目以降の撮影が行われているということは、その撮影が行われた参加者の位置情報がデータベース記憶部１６に登録されているということである。
参加者Ｂは２回目以降の撮影であるので（ステップＳ２のＹｅｓ）、位置情報識別部１５６は、データベース記憶部中の位置情報ｅと、検出された位置情報ｅ'とに基づいて識別を行う。位置情報識別部１５６による位置情報を用いた識別手法は、上記特徴量を用いた識別手法と同様であり、例えば、類似度を用いればよい。
第２識別されれば、合成部１２はデータベース記憶部１６を参照して、検出された位置情報ｅ'と例えば類似度が大きい、データベース記憶部１６内の位置情報ｅと対応する属性情報と２回目以降に撮影された参加者（この例では、参加者Ｂ）の映像とを対応付け、送信部が送信する（ステップＳ１４）。ステップＳ１４の処理が終了すると、テレビ会議装置の２回目以降の撮影についての処理が終了する。

また、一度も撮影されていない参加者（例えば参加者Ｃ）が撮影された場合には、ステップＳ２において、Ｎｏとなり、ステップＳ３において、特徴量生成部６が参加者Ｃの特徴量を生成する。そしてテレビ会議装置は、ステップＳ４、ステップＳ６、ステップＳ１０の処理を行う。

このように、実施例１のテレビ会議装置１００は、発話したことで１回目に撮影された参加者について位置情報を検出し、データベース記憶部１６に属性情報と対応づけて登録させる。２回目以降に撮影された参加者については、特徴量を生成することなく、位置情報を用いて、参加者を識別して、属性情報を抽出して送信する。従って、特徴量生成の頻度を減らすことができ、顔がカメラに正対していない、または顔部分の表示サイズが小さい、または部屋が暗い場合であっても、参加者の識別率を低下させることなく、適切な属性情報を送信できる。
また撮影装置１０６は、複数のカメラを全ての撮影面が外側に向くようにして全方位撮影できるカメラアレイを用いてもよい。また、自動的に発話者に向いて撮影する撮影装置でもよい。

実施例２のテレビ会議装置２００は、表示部２２を有する点で、実施例１のテレビ会議装置１００と異なる。実施例１で説明した識別部１０による上記類似度使用手法を用いて第１識別した結果、第１閾値より大きい類似度が複数ある場合がある。その場合には、これらの類似度についての特徴量をもつ、第１識別される参加者の複数の候補の属性情報を表示部２２に表示させる。

表示部２２に表示される例を図１１に示す。図１１の例では、２人の参加者が表示されている場合を示す。図１１の例では、左側の参加者については、氏名がＡか、Ｂか、Ｃかをユーザ（通常、Ｌ地点での通常は会議の参加者であり、参加者について知っている者）に選択させるように表示させる。そしてユーザは操作部１０２（例えばマウス）により入力させる（クリックさせる）。また、正しい参加者が表示された全ての候補参加者に該当しない場合は、下段の入力スペースＹに操作部１０２（例えば、キーボード）で、正しい氏名を入力させる。また、図１１の右側の参加者については、氏名Ｄの参加者と入力スペースＹが表示されている。また左側の人物は参加者Ｂであり、右側の人物は、参加者Ｄであると入力されようとしている。

また、ユーザによる入力は、第２識別（位置情報を用いての識別）の処理についても同様である。

図１２にテレビ会議装置２００の主な処理の流れの一部を示す。実施例２のテレビ会議装置２００の処理の流れは、図１２に示すフローチャート図が、図３記載のステップＳ４とステップＳ６との間に挿入され、ステップＳ１０は図１２に示す位置に移動されたものである。

ステップＳ１０２において、第１識別の候補人物が存在する場合には（ステップＳ１０２のＹｅｓ）、制御部１８は、候補人物名（上記の例では、参加者Ａ、Ｂ、Ｃ）を表示部２２に表示させる（ステップＳ１０６）。そして、ユーザに候補人物から人物名を選択させるか、人物名を入力スペースＹに入力させる（ステップＳ１０８）。

一方、ステップＳ１０２において、第１識別の結果、候補人物が存在しない場合には（ステップＳ１０２のＮｏ）、制御部１８は表示部２２に入力スペースを表示させ、人物名を入力させる（ステップＳ１０４）。そして、選択または入力された参加者人物名の属性情報と、当該参加者の映像、音声を第２テレビ会議装置２００に送信する（ステップＳ６）。また、位置情報と、選択または入力された人物名とを対応付けてデータベース記憶部１６に記憶させる（ステップＳ１０）。ステップＳ６およびステップＳ１０が終了すると、実施例２のテレビ会議装置の１回目の撮影についての処理は終了する。

また、参加者を選択させる画面（例えば図１１）は、映像出力部１０３に出力させればよい。この場合には、Ｂ地点の会議風景と参加者選択画面を２画面で表示してもよく、自動で切り替えるようにしてもよい。また、参加者選択画面用の映像出力部を設置してもよい。

この実施例２のテレビ会議装置２００であれば、第１識別、第２識別により、識別される参加者の候補が複数いる場合であっても、会議の参加者に正しい氏名などを選択または入力させることができ、結果として、識別部１０の識別精度が低い場合や誤った場合であっても、ユーザになるべく負担をかけないで、適切に属性情報を送信できる。

テレビ会議中に参加者が座席の位置の変更、入退室での入れ変わりで、属性情報と位置情報との対応が変化する場合がある。このような場合に、データベース記憶部１６をそのまま用いると、誤った属性情報を送信することになる。実施例３では、テレビ会議中に参加者が座席の位置の変更、入退室での入れ変わりを行った場合であっても、適切な属性情報を送信できるテレビ会議装置を説明する。実施例３のテレビ会議装置３００の識別部２０内には、判定部２０を有する。以下の説明では、一度発話をした参加者Ｂが、新しい参加者Ｉと入れ替わった場合について説明する。

参加者Ｂの座席に座っている参加者Ｉが発話をすると、撮影装置１０６は参加者Ｉを撮影し、位置情報検出部８は、参加者Ｉの（参加者Ｂの座席）の位置情報を検出する。そして特徴量生成部６は、参加者Ｉの特徴量を生成する。以下では、参加者Ｉの撮影、位置情報の検出、特徴量の生成をそれぞれ、今回の撮影、今回の位置情報の検出、今回の特徴量の生成という。

ここで、判定部２０は、今回検出された位置情報と対応する登録特徴量と、今回生成された特徴量との類似度を求める。判定部２０は、当該類似度が所定値ｇ（第２閾値）より小さいか、否かを判定する。判定部２０が類似度が所定値ｇより小さいと判定した場合というのは、位置情報を検出、登録した際の特徴量（つまり、１回目の撮影の際に生成した特徴量）と、今回生成した特徴量とが大きく異なるということであり、参加者が入れ替わったということである。その場合には判定部２０は、今回生成した特徴量に近い特徴量（今回生成した特徴量と類似度が大きい特徴量）と対応する属性情報を抽出する。そして、今回撮影した映像（つまり、参加者Ｉの映像）と、属性情報の他に、エラー情報ｆも対応付けて送信する。

ここで、エラー情報ｆとは、発話した参加者の特徴量と、当該発話した参加者の位置情報と対応する登録特徴量と、の類似度が所定値ｇより大きい場合に送信される情報である。図１３にエラー情報ｆが対応付けられた映像の一例を示す。図１３の例でのエラー情報とは、「新しい参加者です」である。図１３の例でのエラー情報は、参加者Ｂから、新しい参加者Ｉに変わった場合のエラー情報であるが、参加者Ｂと、元々テレビ会議に参加していた参加者Ｆと、座席が変わった場合では、エラー情報ｆとして「参加者Ｆが参加者Ｂと座席を変わりました」を送信すればよい。エラー情報はこれらに限られるものではない。

また、特徴量として、顔特徴量と音声特徴量を用いている場合には、発話した参加者の顔特徴量または音声特徴量と、データベース記憶部１６に登録されている顔特徴量と音声特徴量の差がどちらか一方でも所定値ｇより大きい場合に、エラー情報を送信してもよく、両方が所定値ｇより大きい場合にエラー情報を送信してもよい。
実施例３のテレビ会議装置３００であれば、テレビ会議中に参加者が入れ替わったり、または新しい参加者が参入したとしても、属性情報を間違えて送信することなく、入れ替わったことまたは新しく参入したことを示すエラー情報を送信することで、テレビ会議の相手側に適切に、参加者が入れ替わったこと、新しく参入したことを、属性情報とともに知らせることができる。
実施例３のテレビ会議装置３００は、参加者の交代、新しい参加者の参入が頻繁であると予め分かっているテレビ会議で用いることが好ましい。
また、テレビ会議装置３００の特徴量生成部６は、参加者が発話の度に、特徴量を生成する。従って、特徴量生成の頻度を下げるために、参加者が途中で入れ替わったり、新しい参加者が参入しようとした時点で、Ｌ地点側の他の参加者が、テレビ会議装置１００（または２００）から、このテレビ会議装置３００のモードに切り替えるようにすることが好ましい。この切り替えは、図示しない入力部から入力させればよい。
また、以上の例では、Ｌ地点、Ｍ地点にそれぞれ１台ずつテレビ会議装置を設けている。しかし、別の例として、Ｌ地点、Ｍ地点のうちの１つの地点（あるいはネットワーク経由でＬ地点、Ｍ地点に結ばれた別の１つの地点）に１台だけテレビ会議装置を設け、そのテレビ会議装置に、Ｌ地点、Ｍ地点の両方の参加予定者についての顔特徴データ及び肩書き・名前データをデータベース記憶部に登録させて、この両方の参加者についてテレビ会議を実行させてもよい。
また、以上の例では、テレビ会議装置内にデータベース記憶部１６を保持させる構成とした。しかし、データベース記憶部１６をハードディスク１０８またはメモリ１１０と統合させてもよい。

また、属性情報として、肩書き及び名前のみならず、その参加予定者の過去の会議での主張（或るプロジェクトに賛成か反対かの見解等）を要約したデータをこのデータベース記憶部に登録し、映像出力部１０３に表示させるようにしてもよい。
また、以上の例では、Ｌ地点、Ｍ地点という２地点を結ぶテレビ会議システムに本発明を適用している。しかし、これに限らず、３地点以上を結ぶテレビ会議システムや、テレビ会議システム以外の適宜の双方向コミュニケーションシステムにも本発明を適用してよい。

また、エンターテイメント系の双方向コミュニケーションシステムに本発明を適用する場合には、例えば参加予定者の好きなアニメーションの画像データを属性情報としてデータベース記憶部１６に登録することにより、映像出力部１０３に表示される参加者の顔の近傍にそのアニメーションの画像が表示されるようにしたり、映像出力部１０３に表示される参加者の顔の上にそのアニメーションの画像が表示されるようにしてもよい。
また、参加予定者のうち映像出力部１０３に顔を表示することが好ましくない人物がいるような双方向コミュニケーションシステムに本発明を適用する場合には、その人物についての属性情報としてモザイクをかけることを指示する情報をデータベース記憶部１６に登録することにより、映像出力部１０３に表示されるその人物の顔にモザイクがかかるようにしてもよい。
また、本実施例は、以上の例に限らず、本発明の要旨を逸脱することなく、その他様々の構成をとりうることはもちろんである。

以上説明した本実施例のテレビ会議装置はコンピュータにテレビ会議プログラムを解読させて実現することができる。この実施例で提案するテレビ会議プログラムはコンピュータが解読可能なプログラム言語によって記述され、磁気ディスク或はＣＤ−ＲＯＭ等の記録媒体に記録され、これら記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたＣＰＵに解読されてテレビ会議装置として機能する。具体的には、図１記載のテレビ会議装置１００をＣＰＵに代替させ、当該ＣＰＵにテレビ会議プログラムを解読させればよい。

１０００テレビ会議システム
１００テレビ会議装置
１０２操作部
１０３映像出力部
１０４音声出力部
１０６撮影装置
１０８ハードディスク
１１０メモリ
１１２通信制御部
１００テレビ会議装置
２切り出し部
６特徴量生成部
８位置情報検出部
１０識別部
１２合成部
１４符号化部
１６データベース記憶部
１８制御部
２０判定部
２２表示部
１５２顔識別部
１５４音声識別部
１５６位置情報識別部

特開平６―１２１３１０号公報特許第４０５５５３９号公報

Claims

参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部と、
撮影装置で撮影された参加者の特徴量を生成する特徴量生成部と、
撮影された参加者の位置情報を検出し、当該位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する位置情報検出部と、
前記撮影された参加者の特徴量と前記データベース記憶部中の特徴量とに基づいて当該参加者を識別し、２回目以降に撮影された参加者の位置情報と前記データベース記憶部中の位置情報とに基づいて当該参加者を識別する識別部と、
特徴量で識別された参加者の属性情報と前記撮影された参加者の映像とを対応付けて送信し、
位置情報で識別された参加者の属性情報と前記２回目以降に撮影された参加者の映像とを対応付けて送信する送信部とを有するテレビ会議装置。
前記撮影装置により撮影された参加者の位置情報と対応する前記データベース記憶部中の特徴量と、当該撮影された参加者の特徴量と、の類似度が所定値より小さい場合には、当該撮影された参加者の映像とエラー情報とを前記送信部に送信させる判定部を有することを特徴とする請求項１記載のテレビ会議装置。
更に、前記識別部により識別された結果、識別される参加者の候補が複数いる場合には、全ての当該参加者の候補を表示する表示部を有することを特徴とする請求項１または２記載のテレビ会議装置。
前記特徴量は、顔特徴量または音声特徴量のうち少なくとも１つであることを特徴とする請求項１〜３何れかに記載のテレビ会議装置。
前記撮影装置は全方位撮影できるものであり、
前記参加者は、前記撮影装置の周りに位置することを特徴とする請求項１〜４何れかに記載のテレビ会議装置。
撮影装置で撮影された参加者の特徴量を生成する生成工程と、
参加予定者を識別するための特徴量と参加予定者の属性を示す属性情報とが対応付けて登録されているデータベース記憶部中の特徴量と、前記生成された特徴量とに基づいて識別された参加者の前記撮影された映像と前記データベース記憶部中の特徴量に対応する属性情報とを対応付けて送信する第１送信工程と、
前記撮影された参加者の位置情報と当該撮影された参加者の属性情報と対応付けて前記データベース記憶部に登録する登録工程と、
２回目以降に撮影された参加者の位置情報を検出する検出工程と、
前記検出工程後、前記データベース記憶部中の位置情報と、前記検出された位置情報とに基づいて識別された参加者の前記２回目以降に撮影された映像と前記データベース記憶部中の位置情報と対応する属性情報とを対応付けて送信する第２送信工程と、を有するテレビ会議方法。
コンピュータを請求項１〜５何れかに記載のテレビ会議装置として機能させるためのプログラム。