JP2009194857A

JP2009194857A - 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Info

Publication number: JP2009194857A
Application number: JP2008036393A
Authority: JP
Inventors: Mitsuru Nakamura; 充中村
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-02-18
Filing date: 2008-02-18
Publication date: 2009-08-27

Abstract

【課題】発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる通信会議システムを提供する。
【解決手段】通信会議システムを構成する一の通信装置に、複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、撮像画像における発言者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び発言者の位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備え、他の通信装置に、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備える。
【選択図】図１０

Description

本発明は、通信会議システム、該通信会議システムを構成する通信装置、通信会議方法、コンピュータを通信装置として動作させるためのコンピュータプログラムに関する。

通信会議システムは、通信網を介して画像データ及び音声データを送受信する複数の通信装置を備えている。各通信装置は、会議の参加者（使用者）を撮像するカメラ、参加者の発言を集音するマイクロホンを備え、撮像及び集音して得た画像データ及び音声データを送信する。送信先の通信装置は、送信された画像データ及び音声データを受信し、送信元の会議風景を表示装置及びスピーカにて再現する。このように構成された通信会議システムは、隔地参加者間の会議を可能にする。

一方、１００インチ以上の超大型テレビが実用化されつつある。通信会議システムの表示装置として超大型テレビを採用した場合、より臨場感のある会議を行うことが可能になる。また、大画面であることを利用して、会議に関する種々の情報を表示することもできる。

特許文献１には、光学式文字読取装置にて会議参加者の名刺の社名、役職及び氏名等を読み取り、読み取った情報を相手方の通信装置に送信して表示するように構成された通信会議システムが提案されている。特許文献１によれば、口頭による自己紹介を省略することが可能になる。

また、特許文献２には、会議に関する共有情報、例えば会議の残り時間を各通信装置の表示装置に表示するように構成された通信会議システムが提案されている。特許文献２によれば、参加者は会議に関する共有情報を容易に確認することができる。
特開平７−１２３３８９号公報特開平５−１４５９１８号公報

しかしながら、従来の通信会議システムにおいては、参加者が複数である場合、各参加者の発言を区別できない場合があり、会議が混乱するという問題があった。
また、マイクロホンの感度、スピーカの音再現性が原因で発言が不明瞭になる場合がある。この場合、その都度、発言者を確認して、発言内容を聞き直す必要があり、会議が遅延するという問題があった。
なお、発言内容を音声認識し、認識結果を表示する方法も考えられるが、単に発言内容を画面の下部に字幕方式で表示するだけでは、発言者を特定することができず、参加者が混乱するという問題があった。

なお、特許文献１に係る通信会議システムによれば、参加者の個人情報を表示することができるが、発言者を特定してその発言内容を確認することはできず、上述の問題を解決することはできない。
また、特許文献２に係る通信会議システムによれば、会議の共有情報を表示することができるが、発言者を特定してその発言内容を確認することはできず、上述の問題を解決することはできない。

本発明は斯かる事情に鑑みてなされたものであり、撮像画像における発言者の画像の近傍に発言内容を示す文字画像を合成するように構成することにより、発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる通信会議システム、該通信会議システムを構成する通信装置、通信会議方法、コンピュータを通信装置として機能させるコンピュータプログラムを提供することを目的とする。

本発明に係る通信会議システムは、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議システムにおいて、一の通信装置は、前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備え、他の通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備えることを特徴とする。

本発明に係る通信会議システムは、前記複数のマイクロホンは、指向性を有し、集音領域が異なるように並置されており、一の通信装置は、前記複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係を記憶する記憶手段を備え、前記位置特定手段は、前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてあることを特徴とする。

本発明に係る通信会議システムは、前記複数のマイクロホンは、集音領域が一部重複するように並置されており、一の通信装置は、前記複数のマイクロホンに入力された音声の強度レベルを比較する比較手段を備え、前記位置特定手段は、前記比較手段の比較結果及び前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてあることを特徴とする。

本発明に係る通信会議システムは、他の通信装置は、前記受信手段が受信した発言文字情報を蓄積する手段を備え、前記合成手段は、蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備えることを特徴とする。

本発明に係る通信会議システムは、使用者の多／寡に応じて各使用者の発言文字情報の蓄積量を減／増させる手段を備えることを特徴とする。

本発明に係る通信会議システムは、一の通信装置は、前記複数の使用者の顔部位の特徴量を示す顔特徴量情報及び該使用者の個人情報を対応付けた個人情報テーブルと、撮像して得た撮像画像に基づいて、各使用者の顔部位を検出する顔部位検出手段と、該顔部位検出手段が検出した各使用者の顔部位の特徴量を示す特徴量を抽出する特徴量抽出手段と、該特徴量抽出手段が抽出した特徴量及び前記個人情報テーブルに基づいて、各使用者の個人情報を特定する個人情報特定手段と、前記顔部位検出手段が検出した位置及び前記位置特定手段が特定した位置を比較することで、発言文字情報、使用者位置情報及び個人情報を関連付ける手段と、関連付けられた発言文字情報、使用者位置情報及び個人情報を送信する手段とを備え、他の通信装置は、関連付けられた発言文字情報、使用者位置情報及び個人情報を受信する手段を備え、前記合成手段は、受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備えることを特徴とする。

本発明に係る通信会議システムは、前記位置特定手段は、前記顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定する手段を備えることを特徴とする。

本発明に係る通信会議システムは、前記他の通信手段は、使用者を選択する選択手段を備え、前記合成手段は、選択された使用者に関する文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成するようにしてあることを特徴とする。

本発明に係る通信装置は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、複数のマイクロホンに各別に入力された前記複数の使用者の音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備えることを特徴とする。

本発明に係る通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備えることを特徴とする。

本発明に係る通信装置は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、前記発言文字情報に係る文字画像を、撮像画像における前記位置特定手段が示す位置に応じた画像部分に合成する合成手段と、該合成手段が合成して得た画像のデータを送信する手段とを備えることを特徴とする。

本発明に係る通信会議方法は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議方法において、一の通信装置は、前記複数の使用者夫々の音声を各別に認識し、発言した使用者の撮像画像における位置を特定し、認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付け、関連付けられた発言文字情報及び使用者位置情報を送信し、他の通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信し、受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成することを特徴とする。

本発明に係るコンピュータプログラムは、複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンとを設けたコンピュータに、前記複数のマイクロホンに入力された音声夫々を認識し、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定し、認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付ける処理を実行させることを特徴とする。

本発明にあっては、送信元である一の通信装置の音声認識手段は、複数のマイクロホンに入力された音声夫々を認識する。音声の認識によって、使用者が発言した音声の情報を、発言文字情報に変換することができる。発言文字情報は、使用者が発言した内容を文字で示すことができる情報である。
位置特定手段は、マイクロホンに音声が入力された場合、該マイクロホンに音声を入力した使用者の撮像画像における位置を特定し、特定された位置を示す使用者位置情報と、該使用者の発言文字情報とが関連付けられる。送信手段は、関連付けられた発言文字情報及び使用者位置情報を送信する。
送信先である他の通信装置の受信手段は、関連付けられた発言文字情報及び使用者位置情報を受信する。合成手段は、発言文字情報に係る文字画像を、撮像画像における使用者位置情報が示す位置に応じた画像部分に合成する。例えば、使用者の近傍に文字画像が表示される。
従って、使用者は、他の使用者の発言内容を文字画像で把握することが可能になる。また、使用者は、発言した使用者を文字画像の表示位置から把握することが可能になる。
なお、本願発明の用途はテレビ会議に限定されず、一般の会話用途、例えば家族間コミュニケーションに本願発明を用いても良い。

本発明にあっては、複数のマイクロホンは指向性を有しているため、各マイクロホンで集音可能な集音領域は限定される。逆に考えると、マイクロホンに音声が入力できた場合、発言した使用者の位置は該マイクロホンの集音領域に限定される。そこで、位置特定手段は、記憶手段が記憶している複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係に基づいて、音声を入力した使用者の位置を特定する。

本発明にあっては、複数の指向性を有するマイクロホンは集音領域が一部重複するように並設されているため、複数のマイクロホンに入力された音声の強度レベルを比較することで、各マイクロホンの集音領域と、発言した使用者との位置関係を詳細に特定することができる。
そこで、比較手段は、複数のマイクロホンに入力された音声の強度レベルを比較し、位置特定手段は、比較結果及び記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定する。

本発明にあっては、送信先の通信装置は、受信した発言文字情報を蓄積し、合成手段は、蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する。従って、使用者の発言履歴を表示することが可能になる。

本発明にあっては、使用者の多／寡に応じて各使用者の発言文字情報の蓄積量を減／増させる。つまり、使用者が多い場合、各使用者の発言文字情報の蓄積量を減少させ、使用者が少ない場合、各使用者の発言文字情報の蓄積量を増加させる。従って、各使用者に蓄積用の記憶領域を適切に配分することが可能になる。

本発明にあっては、顔部位検出手段は、撮像して得た撮像画像に基づいて、各使用者の顔部位を検出し、特徴量抽出手段は、顔部位検出手段が検出した各使用者の顔部位の特徴量を抽出する。そして、個人情報特定手段は、抽出された特徴量及び個人情報テーブルに基づいて、各使用者の個人情報を特定する。特定された個人情報は、顔部位検出手段が検出した位置及び位置特定手段が特定した位置を比較することで、発言文字情報及び使用者位置情報に関連付けられ、送信される。
送信先の通信装置は、関連付けられた発言文字情報、使用者位置情報及び個人情報を受信し、合成手段は、受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する。
従って、使用者は、各使用者の個人情報を文字画像で把握することが可能になる。

本発明にあっては、前記位置特定手段は、顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定することができる。従って、文字画像を、撮像画像における使用者の顔の近傍に表示することが可能になる。

本発明にあっては、他の通信装置は選択手段によって特定の使用者を選択する。合成手段は、選択された使用者に関する文字画像を撮像画像に合成し、選択されていない使用者に関する文字画像を撮像画像に合成しない。

本発明によれば、発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。
（実施の形態１）
図１は、本発明の実施の形態１に係る通信会議システムの構成を模式的に示すブロック図である。本発明の実施の形態１に係る通信会議システムは、通信網Ｎに接続された複数の通信装置１，１を備えている。本発明に係る通信会議システムは、会議参加者（使用者）の発言内容を吹き出し文字で表示することにより、発言した参加者（以下、発言者という）及びその発言内容を視覚的に把握し、会議の円滑化を図ることを可能にする。

図２は、通信装置１の構成を模式的に示すブロック図である。通信網Ｎに接続された複数の通信装置１，１の構成及び機能は同一であるため、一の通信装置１の構成について説明する。通信装置１は、各構成部の動作を制御する制御部１１、該制御部１１に接続された送信処理部１２、受信処理部１３及び操作部１８を備えている。送信処理部１２には、送信元の参加者を撮像するカメラ１５及び複数のマイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄが設けられ、受信処理部１３には送信先の会議風景を再現する表示装置１６及びスピーカ１７が設けられている。

制御部１１は、例えばＣＰＵ（Central Processing Unit）を有するマイクロコンピュータである。ＣＰＵには、通信装置１の各構成部の動作を制御するためのコンピュータプログラムを記憶したＲＯＭ、一時記憶用のＲＡＭ、計時部等がバスを介して接続されている。ＣＰＵは、ＲＯＭに記録されたコンピュータプログラムをＲＡＭに読み出して実行することにより、本発明に係る通信会議方法を実施する。
操作部１８は、通信会議に関する動作を指示するための押ボタンスイッチ、タッチパネル等の入力装置であり、制御部１１は操作部１８の操作状態を検出するように構成されている。

図３は、送信処理部１２の構成を模式的に示すブロック図である。送信処理部１２は、音声波形生成部１２ａ、音声処理部１２ｇ、音声認識部１２ｂ、発言者位置特定部１２ｃ、記憶部１２ｄ、発言情報生成部１２ｅ、送信部１２ｆ、画像処理部１２ｈ、顔部位検出部１２ｉ、顔特徴量抽出部１２ｊ、個人情報特定部１２ｋ及び個人情報テーブル１２ｌを備える。

マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄは、複数の参加者夫々の音声が各別に入力されるように指向性を有しており、集音方向が表示装置１６の表示方向、即ち表示面に略垂直な方向を向き、各マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄの集音領域が一部重複するように、表示装置１６の上部に横方向に並設されている（図４参照）。マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄは、音声が入力された場合、該音声を音声信号に変換し、音声波形生成部１２ａ及び音声処理部１２ｇに与える。音声信号は、音声の強度に応じた電圧を有するアナログの電気信号である。

音声波形生成部１２ａは、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄから与えられた音声信号夫々を、デジタルの音声データにＡＤ変換する。そして、音声波形生成部１２ａは、ＡＤ変換された音声データに、いずれのマイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄから得られた音声に基づくものであるかを示すマイク識別情報を付加し、該マイク識別情報が付加された音声データを音声認識部１２ｂ及び発言者位置特定部１２ｃに与える。

音声認識部１２ｂは、音声波形生成部１２ａから与えられた音声データ夫々を認識することによって、音声データを発言文字情報に変換する。発言文字情報は、例えば音声データの内容を文字で表すテキストデータである。そして、音声認識部１２ｂは、発言文字情報にマイク識別情報を付加し、マイク識別情報が付加された発言文字情報を発言情報生成部１２ｅに与える。

記憶部１２ｄは、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄを識別するマイク識別情報と、カメラ１５で撮像して得た撮像画像における各マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄの集音領域の位置との対応関係に係る集音領域位置情報を記憶している。

発言者位置特定部１２ｃは、音声波形生成部１２ａから与えられた複数の音声データと、記憶部１２ｄが記憶している集音領域位置情報とに基づいて、撮像画像における発言者の位置、特に撮像画像の水平ライン方向における位置を特定する。

図４は、発言者位置特定部１２ｃによる発言者の位置特定方法を概念的に示す説明図である。図４の左図は、鉛直上方から見た表示装置１６及び参加者Ａ，Ｂ，Ｃと、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄの集音領域を示す概念図である。破線で示した楕円は、各マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄの集音領域を示している。図４の右図は、各マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄから得られた音声データの波形を示している。横軸は時間、縦軸は音声レベルを示している。
発言者位置特定部１２ｃは、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄから得られた音声データの音声レベルを比較することで、撮像画像の水平ライン方向（図４中、縦方向）における発言者の位置を特定する。
例えば、参加者Ａが発言した場合、参加者Ａは、マイクロホン１４ｄの集音領域内、マイクロホン１４ａ，１４ｂ，１４ｃの集音領域外に位置しているため、マイクロホン１４ｄにのみ参加者Ａの音声が入力される。この場合、発言者位置特定部１２ｃは、各音声信号レベルを比較することで、マイクロホン１４ｄの集音領域の略中央に参加者Ａが位置していると判断することができる。また、発言者位置特定部１２ｃは、集音領域位置情報を参照してマイクロホン１４ｄの集音領域と、撮像画像における位置とを対応させることにより、参加者Ａの撮像画像における位置、つまり座標を特定することができる。
また、参加者Ｂが発言した場合、参加者Ｂはマイクロホン１４ｂの集音領域内に位置し、僅かにマイクロホン１４ｃの集音領域に入っている。この場合、発言者位置特定部１２ｃは、各音声信号レベルを比較することで、マイクロホン１４ｂの集音領域の略中央部より、音声信号レベルの差分に応じた距離だけマイクロホン１４ｃ側に参加者Ｂが位置していると判断することができる。
参加者Ｃが発言した場合も同様にして、発言者位置特定部１２ｃは、マイクロホン１４ａの集音領域の略中央部より、音声信号レベルの差分に応じた距離だけマイクロホン１４ｂ側に参加者Ｃが位置していると判断することができる。

発言者の位置特定を終えた発言者位置特定部１２ｃは、特定した発言者位置情報に、発言者の音声が入力されたマイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄの内、音声レベルが最大のマイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄを示すマイク識別情報を付加し、マイク識別情報が付加された発言者位置情報を発言情報生成部１２ｅに与える。

音声処理部１２ｇは、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄから与えられた音声信号を各別にデジタルの音声データにＡＤ変換し、ＡＤ変換された複数の音声データをモノラル又はステレオの音声データに合成する。そして、音声処理部１２ｇは、合成された音声データを送信部１２ｆに与える。

一方、カメラ１５は、表示装置１６の表示面側に位置する複数の参加者を撮像できるように、撮像領域が該表示面側になるような姿勢で表示装置１６の上部に固定されており、撮像して得たアナログの画像信号を画像処理部１２ｈに与える。

画像処理部１２ｈは、カメラ１５から与えられたアナログの画像信号を、デジタルの画像データにＡＤ変換し、該画像データに対して各種エフェクト処理を実行し、画像処理された画像データを顔部位検出部１２ｉ及び送信部１２ｆに与える。

顔部位検出部１２ｉは、画像処理部１２ｈから与えられた画像データに基づいて、顔部位を検出し、撮像画像における顔部位の位置を示す顔位置情報と、検出された顔部位の画像データとを顔特徴量抽出部１２ｊに与える。

顔特徴量抽出部１２ｊは、顔部位の画像から顔の特徴量を抽出し、抽出された顔部位の特徴量を示す顔特徴量情報と、顔位置情報とを関連付けて、個人情報特定部１２ｋに与える。

個人情報テーブル１２ｌは、参加者の顔部位の特徴量を示す顔特徴量情報と、該参加者の個人情報とを対応付けたものである。

図５は、個人情報テーブル１２ｌのレコードレイアウトを概念的に示す説明図である。個人情報テーブル１２ｌのレコードレイアウトを示す表は、「固有番号」列と、「顔特徴量情報」列と、「名前」列と、「役職」列と、「部門」列とから構成されている。「固有番号」列は、複数の参加者夫々を示す参加者固有番号、例えば「１」、「２」、「３」、「４」…を格納している。「顔特徴量情報」列は、複数の参加者夫々の顔の特徴を示す顔特徴量情報を参加者固有番号に対応付けて格納している。円形状は、参加者の顔の輪郭形状、例えば縦横比を模式的に示し、「ＦＡ」、「ＦＢ」、「ＦＣ」、「ＦＤ」は、目、鼻、口の形状、位置関係等の特徴量を示している。「名前」列は、各参加者の名前を示すテキスト情報、例えば「ＡＡＡ」、「ＢＢＢ」、「ＣＣＣ」、「ＤＤＤ」…を参加者固有番号に対応付けて格納している。「役職」列は、各参加者の役職を示すテキスト情報、例えば「係長」、「課長」、「部長」、「担当」を参加者固有番号に対応付けて格納している。「部門」列は、各参加者の部門を示すテキスト情報、例えば「開発」、「企画」、「生産」、「技術」を参加者固有番号に対応付けて格納している。

個人情報特定部１２ｋは、顔特徴量抽出部１２ｊから与えられた顔特徴量情報と、個人情報テーブル１２ｌとに基づいて、該顔特徴量情報に対応する個人情報、例えば参加者固有番号、名前、役職、部門等を特定し、特定された個人情報と、該顔特徴量情報に対応する顔位置情報とを関連付けて発言情報生成部１２ｅに与える。

図６は、個人情報の特定方法を概念的に示す説明図である。図６の左図は撮像画像の模式図であり、図６の右図は個人情報テーブル１２ｌの概念図である。個人情報特定部１２ｋは、図６の左図に示すように、顔特徴量抽出部１２ｊから与えられた各参加者の顔特徴量情報「ＦＡ」、「ＦＢ」、「ＦＣ」及び顔位置情報を保持している。個人情報特定部１２ｋは、例えば参加者Ａの顔特徴量情報「ＦＡ」と、個人情報テーブル１２ｌ中の顔特徴量情報とを照合することで、略一致する顔特徴量情報「ＦＡ」を特定し、特定された顔特徴量情報「ＦＡ」に対応付けられた個人情報としての名前「ＡＡＡ」、役職「係長」、部門「開発」と、左図中の参加者Ａの発言者位置情報、例えば座標（Ｘ，Ｙ）＝（２０２，５４０）とを関連づける。なお、Ｘは水平ライン方向の座標、Ｙは垂直ライン方向の座標を示している。同様にして、参加者Ｂの発言者位置情報、例えば座標（Ｘ，Ｙ）＝（８１０，２７０）と、個人情報としての名前「ＢＢＢ」、役職「課長」、部門「企画」とを関連づける。また、参加者Ｃの発言者位置情報、例えば座標（Ｘ，Ｙ）＝（１２００，８２０）と、個人情報としての名前「ＣＣＣ」、役職「部長」、部門「生産」とを関連づける。

発言情報生成部１２ｅは、同一のマイク識別情報を有する発言文字情報と、発言者位置情報とを対応付ける。また、発言情報生成部１２ｅは、発言者位置情報が示す位置と、顔位置情報が示す位置とを比較し、位置に相関関係がある発言者位置情報と、顔位置情報とを特定することによって、発言文字情報と、発言者位置情報と、個人情報とを関連付ける。更に、発言情報生成部１２ｅは、発言者の位置をより正確に示す顔位置情報に基づいて発言者位置を再特定し、再特定された発言者の位置を示す発言者位置情報と、発言文字情報と、個人情報とを関連付けた発言情報を生成し、生成された発言情報を送信部１２ｆに与える。
また、発言情報生成部１２ｅは、個人情報に対応する発言文字情報を特定できない場合、つまり該個人情報に係る参加者が発言していない場合、発言が無いことを示す情報と、顔位置情報と同一内容の非発言者位置情報と、個人情報とを関連付けた非発言者情報を生成し、生成された非発言者情報を送信部１２ｆに与える。

図７は、発言情報の一例を概念的に示す説明図である。図７に示した発言情報は、各参加者Ａ，Ｂ，Ｃが順に発言した場合の内容である。図７（ａ）は、発言した参加者Ａの発言情報、同様に、図７（ｂ）は、発言した参加者Ｂの発言情報、図７（ｃ）は、発言した参加者Ｃの発言情報を示している。例えば、参加者Ａの発言情報は、発言者の整理番号としての数字「１」、個人情報としての名前「ＡＡＡ」、役職「係長」、部門「開発」、発言者位置情報としての座標（Ｘ，Ｙ）＝（２０２，５４０）、発言文字情報としての文字「はじめまして私は…」を含んで構成されている。
図８は、発言情報の他の一例を示す説明図である。図８に示した発言情報は、略同時に二人の参加者Ａ，Ｂが発言した場合の内容である。

送信部１２ｆは、発言情報生成部１２ｅから与えられた発言情報と、非発言者情報と、音声処理部１２ｇから与えられた音声データと、画像処理部１２ｈから与えられた画像データとを他の通信装置１に送信する。

他の通信装置１は、一の通信装置１と同様の処理を実行し、他の通信装置１側の参加者を撮像して得た画像データと、発言者から集音して得た音声データと、発言情報と、非発言者情報とを一の通信装置１に送信する。
次に、一の通信装置１が備える受信処理部１３について説明する。

図９は、受信処理部１３の構成を模式的に示すブロック図である。受信処理部１３は、受信部１３ａ、発言文字情報付加部１３ｂ、発言履歴蓄積部１３ｃ、発言画像生成部１３ｅ、重畳処理部１３ｄ、及び表示制御部１３ｆを備えている。

受信部１３ａは、通信装置１から送信された発言情報、非発言者情報、画像データ及び音声データを受信し、受信した画像データを重畳処理部１３ｄに与え、発言情報及び非発言者情報を発言文字情報付加部１３ｂに与え、音声データをスピーカ１７に与える。スピーカ１７は、与えられた音声データに基づいて音声を再生する。

発言履歴蓄積部１３ｃは、各参加者の発言履歴として、受信部１３ａが受信した発言文字情報を参加者固有番号と対応付けて蓄積する一時記憶用のメモリである。

発言文字情報付加部１３ｂは、受信部１３ａから与えられた発言情報及び非発言者情報に基づいて、参加者の人数を特定し、該人数に基づいて発言履歴を記憶するための蓄積量を各参加者に割り当てる。例えば、発言履歴蓄積部１３ｃの容量を１とした場合、参加者が４人である場合、各参加者に０．２５の容量を発言履歴蓄積用に割り当てる。
発言文字情報付加部１３ｂは、受信部１３ａから発言情報が与えられた場合、該発言情報に含まれる発言文字情報を参加者固有番号と対応付けて発言履歴蓄積部１３ｃに蓄積させる。また、発言文字情報付加部１３ｂは、発言履歴蓄積部１３ｃに蓄積されている過去の発言文字情報を各参加者の発言情報に付加し、発言画像生成部１３ｅに与える。更に、発言文字情報付加部１３ｂは、非発言者情報が与えられた場合、発言履歴蓄積部１３ｃに蓄積されている非発言者の過去の発言文字情報を非発言者情報に付加し、発言画像生成部１３ｅに与える。

発言画像生成部１３ｅは、発言者位置情報及び非発言者情報に基づいて、各参加者の画像近傍に発言内容、個人情報及び発言履歴を重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部１３ｄに与える。
また、発言画像生成部１３ｅは、制御部１１の制御に従って、発言内容、個人情報及び発言履歴のいずれかを選択的に重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部１３ｄに与える機能を有している。
更に、発言画像生成部１３ｅは、制御部１１の制御に従って、特定の参加者の発言内容、個人情報及び発言履歴のみを選択的に重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部１３ｄに与える機能を有している。

重畳処理部１３ｄは、受信して得た撮像画像に、発言情報画像を重畳させ、重畳して得た画像データを表示制御部１３ｆに与える。
表示制御部１３ｆは、重畳処理部１３ｄから与えられた画像データに基づいて、吹き出し文字で発言内容が表示され、各参加者の個人情報、発言履歴が表示された画像を表示する。

図１０は、発言情報画像が撮像画像に重畳表示された画像の一例を示す模式図である。制御部１１は、操作部１８にて発言情報の表示方法、例えば発言履歴の表示の要否、発言情報を表示すべき参加者の選択を受け付け、受け付けた表示方法を発言画像生成部１３ｅに与えるように構成されている。発言履歴が不要である旨を受け付けた場合、発言画像生成部１３ｅは、各参加者の発言内容、個人情報を含む発言情報画像を生成する。
具体的には、発言画像生成部１３ｅは、発言者位置情報が示す位置に基づいて、発言内容の表示位置を決定し、決定された位置に吹き出し画像２ａ，２ｂ，２ｃを配する。例えば、参加者Ａの顔画像の近傍に吹き出し画像２ａを配する。そして、発言画像生成部１３ｅは、吹き出し画像２ａ内に発言文字情報に係る文字画像３ａを埋め込むように配する。また、発言画像生成部１３ｅは、吹き出し画像２ａの下側に参加者Ａの個人情報に係る文字画像４ａを配する。同様にして、参加者Ｂ，Ｃ夫々の顔画像の近傍に吹き出し画像２ｂ、２ｃを配し、発言文字情報に係る文字画像３ｂ，３ｃを埋め込み、個人情報に係る文字画像４ｂ，４ｃを配する。
また、発言画像生成部１３ｅは、非発言者情報が与えられている場合、吹き出し画像は配さず、発言していない参加者の顔画像の近傍に、個人情報を配する。

図１１は、発言情報画像が重畳表示された画像の他の例を示す模式図である。制御部１１は、発言履歴が必要である旨を受け付けた場合、発言画像生成部１３ｅは、各参加者の発言内容、発言履歴、及び個人情報を含む発言情報画像を生成する。
具体的には、発言画像生成部１３ｅは、吹き出し画像２ａ，２ｂ，２ｃ、発言に係る文字画像３ａ，３ｂ，３ｃ、個人情報に係る文字画像４ａ，４ｂ，４ｃに加え、発言履歴としての発言文字情報に係る文字画像５ａ，５ｂ，５ｃを配する。該文字画像５ａ，５ｂ，５ｃは、例えば個人情報に係る文字画像４ａ，４ｂ，４ｃの下方に配される。

図１２は、発言情報画像が重畳表示された画像の他の例を示す模式図である。制御部１１は、発言情報を表示すべき参加者として参加者Ｂ，Ｃを受け付けた場合、発言画像生成部１３ｅは、参加者Ｂ，Ｃについてのみ吹き出し画像２ｂ、２ｃ、並びに発言文字情報、個人情報及び発言履歴に係る文字画像３ｂ，４ｂ，５ｂ，３ｃ，４ｃ，５ｃを表示し、参加者Ａについての発言情報を表示しない。

このように構成された通信会議システム、通信装置１及び通信会議方法にあっては、発言者の顔画像の近傍に発言内容を吹き出し文字で表示することができるため、参加者は、発言者及びその発言内容を視覚的に把握することができる。
従って、発言者と発言内容の関連付けが容易となり、聞き逃しの防止、不明瞭な発言の明確化、聴覚障害のある者の参加等が可能となり、会議の円滑化を図ることができる。また、複数の参加者が同時に発言した場合であっても、吹き出しで表示された文字画像によって、発言者を特定し、発言内容を把握することができる。

また、発言内容等を参加者の顔画像近傍に表示するように構成されているため、参加者は、発言者と発言内容の関連付けを直感的に把握できる。

更に、発言内容を吹き出しの形で表示するように構成されているため、発言内容をユーザーフレンドリーに表示することができ、参加者は、発言者と発言内容をより直感的に把握することができる。

更にまた、各参加者の顔画像の近傍に該参加者の発言履歴を文字画像で表示することができる。従って、参加者の発言を聞き漏らした場合であっても、文字で発言内容を確認することができる。また、会議に途中参加した場合であっても、途中参加者は過去の発言履歴を文字で確認することができるため、会議の内容の理解が容易になり、スムーズに会議に合流することができる。

更にまた、発言履歴の蓄積量を参加者の多寡に応じて増減させる構成であるため、各参加者に発言履歴保存用の領域を略均等に配分することができる。

更にまた、各発言者の顔画像の近傍に個人情報を文字画像で表示することができるため、参加者は他の参加者の名前、所属等を常に把握することができる。また、参加者の顔を確認しづらい場合であっても、文字で表示された個人情報に基づいて参加者を判別することができる。

更にまた、使用者によって選択された特定参加者の発言内容のみを表示できるように構成されているため、利便性を向上させることができる。例えば、重要な参加者の発言内容のみを表示することができる。

更にまた、参加者が発言していない場合であっても、該参加者の顔画像近傍に個人情報、発言履歴等を表示することができる。従って、現在発言していない参加者の過去の発言履歴、個人情報も把握でき、利便性を向上させることができる。

更にまた、各参加者の発言者位置情報又は非発言者位置情報は、常時送受信されているため、参加者が会議室内を移動した場合であっても、参加者を追随するようにして、発言内容、個人情報及び発言履歴の文字画像を表示させることができる。

なお、実施の形態１にあっては、指向性マイクを用いて発言者の位置を特定するように構成してあるが、位置情報を発信するピンマイクロホンを各参加者に装着させ、該ピンマイクロホンから発信された位置情報に基づいて、撮像画像における発言者の位置を特定するように構成しても良い。また、参加者の位置を認識するカメラと、該カメラに連動する指向性マイクロホンとを備えて、発言者の位置を特定するように構成しても良い。

また、実施の形態１にあっては、参加者の発言内容、発言履歴、個人情報を表示する場合を説明したが、各参加者に係る他の情報を表示するように構成しても良い。例えば、発言した時刻、発言量等を表示するように構成しても良い。

更に、発言情報画像を受信側で生成するように構成してあるが、送信側の通信装置で生成するように構成しても良い。具体的には、受信処理部を構成する発言文字情報付加部、発言履歴蓄積部、発言画像生成部、重畳処理部を送信処理部に備え、発言情報生成部は発言情報及び非発言者情報を送信部ではなく発言文字情報付加部に与え、画像処理部は、画像データを送信部ではなく重畳処理部に与え、重畳処理部は、重畳して得た画像を送信部に与えるように構成する。
このように構成した場合、通信の相手方が画像及び音声データの再生機能しか備えていない場合であっても、発言情報が付加された画像を相手方の表示装置に表示させることができる。

更にまた、実施の形態１にあっては発言履歴の表示の要否を選択できるように構成してあるが、他の情報の要否、例えば個人情報の要否も適宜選択できるように構成しても良い。
更にまた、実施の形態１では通信会議システムを説明したが、画像データ及び音声データの通信を行わず、一の大会議場内で撮像及び集音を行い、該大会議場内で会議風景を大型ディスプレイで再現するように構成しても良い。
具体的には、会議支援装置において、複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と、該合成手段が合成して得た画像を表示する表示手段を備えるように構成すると良い。
この場合、大会議場における発言者及び発言内容を容易に把握することが可能になる。

（実施の形態２）
図１３は、本発明の実施の形態２に係る通信装置２０１の構成を示すブロック図である。通信装置２０１は、装置全体を制御するＣＰＵ２０１ａを備えたコンピュータである。ＣＰＵ２０１ａには、バス２０１ｈ介してＲＯＭ２０１ｂ、ＲＡＭ２０１ｃ、カメラ１５、表示装置１６、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄ（マイクロホン１４）、スピーカ１７、外部記憶装置２０１ｄ、内部記憶装置２０１ｅ、操作部２０１ｆ及び通信部２０１ｇが接続されている。

ＲＯＭ２０１ｂは、コンピュータの動作に必要な制御プログラムを記憶したマスクＲＯＭ、ＥＥＰＲＯＭ等の不揮発性メモリである。ＲＡＭ２０１ｃは、ＣＰＵ２０１ａの演算処理を実行する際に生ずる各種データを一時記憶するＤＲＡＭ、ＳＲＡＭ等の揮発性メモリである。カメラ１５、表示装置１６、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄ、スピーカ１７、操作部２０１ｆの構成は実施の形態１と同様である。

外部記憶装置２０１ｄは、本発明の実施の形態１に係るコンピュータプログラム７をコンピュータに読み取り可能に記録したＣＤ（Compact Disc）−ＲＯＭ、ＤＶＤ（Digital Versatile Disc）−ＲＯＭ、等の記録媒体６から情報を読み取る光ディスクドライブである。なお、通信網に接続されている図示しない外部コンピュータから本発明に係るコンピュータプログラム７をダウンロードし、内部記憶装置２０１ｅに記憶させるようにしても良い。

内部記憶装置２０１ｅは、例えばハードディスクであり、外部記憶装置２０１ｄにて記録媒体６から読み取られたコンピュータプログラム７を記憶する。また、内部記憶装置２０１ｅは、実施の形態１と同様の集音領域位置情報、個人情報テーブル等を記憶している。

通信部２０１ｇは、発言情報、非発言者情報、画像データ及び音声データを送受信するインタフェースであり、通信部２０１ｇによる各種情報の送受信はＣＰＵ２０１ａによって制御されている。

図１４及び図１５は、発言情報の生成及び送信に係るＣＰＵ２０１ａの処理手順を示すフローチャートである。ＣＰＵ２０１ａは、マイクロホン１４ａ、１４ｂ、１４ｃ、１４ｄ夫々から音声信号を各別に取得し、ＡＤ変換することで音声データを取得する（ステップＳ１１）。そして、ＣＰＵ２０１ａは、音声データ夫々を音声認識、つまり音声データを発言文字情報に変換する（ステップＳ１２）。

次いで、ＣＰＵ２０１ａは、内部記憶装置２０１ｅから集音領域位置情報を読み出し（ステップＳ１３）、各音声データに係る音声レベルを比較し（ステップＳ１４）、比較結果及び集音領域位置情報に基づいて、撮像画像における発言者の位置を特定する（ステップＳ１５）。発言者の位置特定方法は、実施の形態１と同様である。

次いで、ＣＰＵ２０１ａは、カメラ１５から画像信号を取得し、ＡＤ変換することで画像データを取得する（ステップＳ１６）。そして、ＣＰＵ２０１ａは、撮像画像から顔部位を検出し（ステップＳ１７）、検出した顔部位の画像部分から顔特徴量を抽出する（ステップＳ１８）。次いで、ＣＰＵ２０１ａは、内部記憶装置２０１ｅから個人情報テーブルを読み出し（ステップＳ１９）、読み出された個人情報テーブルと、ステップＳ１８で抽出された顔特徴量とに基づいて、個人情報を特定する（ステップＳ２０）。

そして、ＣＰＵ２０１ａは、ステップＳ１７で検出した顔部位の位置に基づいて、発言者位置情報を再特定する（ステップＳ２１）。

次いで、ＣＰＵ２０１ａは、発言文字情報、発言者位置情報及び個人情報を関連づけた発言情報を生成し（ステップＳ２２）、非発言者位置情報及び個人情報を関連づけた非発言者情報を生成する（ステップＳ２３）。各情報の関連づけ方法は、実施の形態１と同様である。

そして、ＣＰＵ２０１ａは、撮像及び集音して得た画像データ及び音声データを通信部２０１ｇにて送信し（ステップＳ２４）、また発言情報及び非発言者情報を通信部２０１ｇにて送信し（ステップＳ２５）、処理を終える。

図１６は、発言情報画像の生成及び表示に係るＣＰＵ２０１ａの処理手順を示すフローチャートである。ＣＰＵ２０１ａは、他の通信装置から送信された画像データ及び音声データを通信部２０１ｇにて受信し（ステップＳ５１）、発言情報及び非発言者情報を受信する（ステップＳ５２）。

そして、ＣＰＵ２０１ａは、受信した発言情報及び非発言者情報に基づいて、会議の発言者数を特定し（ステップＳ５３）、参加者の多／寡に応じて、各参加者の発言履歴を蓄積するための蓄積量、つまり記憶容量を減／増させて蓄積量を割り当てる（ステップＳ５４）。

そして、ＣＰＵ２０１ａは、操作部２０１ｆにて発言情報の表示方法を受け付ける（ステップＳ５５）。例えば、発言履歴の要否、発言情報を表示する参加者の選択等を受け付ける。

次いで、ＣＰＵ２０１ａは、発言履歴の要否を判定する（ステップＳ５６）。発言履歴を要すると判定した場合（ステップＳ５６：ＹＥＳ）、ＣＰＵ２０１ａは、蓄積された発言履歴に係る発言文字情報を発言情報に付加する（ステップＳ５７）。

ステップＳ５７の処理を終えた場合、又は発言履歴が不要であると判定した場合（ステップＳ５６：ＮＯ）、ＣＰＵ２０１ａは、ステップＳ５５で受け付けた表示方法、発言情報、非発言者情報に基づいて発言情報画像を生成し（ステップＳ５８）、生成した発言情報画像を、受信して得た撮像画像に重畳し（ステップＳ５９）、重畳して得た図１０乃至図１２に示すような発言情報付きの画像を表示装置１６にて表示し（ステップＳ６０）、処理を終える。

このように構成された通信装置２０１、該通信装置２０１を備えた通信会議システム、通信会議方法、コンピュータプログラム７にあっても実施の形態１と同様の効果を奏する。

なお、今回開示された実施の形態はすべての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる。

本発明の実施の形態１に係る通信会議システムの構成を模式的に示すブロック図である。通信装置の構成を模式的に示すブロック図である。送信処理部の構成を模式的に示すブロック図である。発言者位置特定部による発言者の位置特定方法を概念的に示す説明図である。個人情報テーブルのレコードレイアウトを概念的に示す説明図である。個人情報の特定方法を概念的に示す説明図である。発言情報の一例を概念的に示す説明図である。発言情報の他の一例を示す説明図である。受信処理部の構成を模式的に示すブロック図である。発言情報画像が撮像画像に重畳表示された画像の一例を示す模式図である。発言情報画像が重畳表示された画像の他の例を示す模式図である。発言情報画像が重畳表示された画像の他の例を示す模式図である。本発明の実施の形態２に係る通信装置の構成を示すブロック図である。発言情報の生成及び送信に係るＣＰＵの処理手順を示すフローチャートである。発言情報の生成及び送信に係るＣＰＵの処理手順を示すフローチャートである。発言情報画像の生成及び表示に係るＣＰＵの処理手順を示すフローチャートである。

符号の説明

１通信装置
６記録媒体
７コンピュータプログラム
１１制御部
１２送信処理部
１２ａ音声波形生成部
１２ｂ音声認識部
１２ｃ発言者位置特定部
１２ｄ記憶部
１２ｅ発言情報生成部
１２ｆ送信部
１２ｇ音声処理部
１２ｈ画像処理部
１２ｉ顔部位検出部
１２ｊ顔特徴量抽出部
１２ｋ個人情報特定部
１２ｌ個人情報テーブル
１３受信処理部
１３ａ受信部
１３ｂ発言文字情報付加部
１３ｃ発言履歴蓄積部
１３ｄ重畳処理部
１３ｅ発言画像生成部
１３ｆ表示制御部
１４ａ、１４ｂ、１４ｃ、１４ｄマイクロホン
１５カメラ
１６表示装置
１７スピーカ
１８操作部
２０１ａＣＰＵ
２０１ｂＲＯＭ
２０１ｃＲＡＭ
２０１ｄ外部記憶装置
２０１ｅ内部記憶装置
２０１ｆ操作部
２０１ｇ通信部
Ｎ通信網

Claims

複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議システムにおいて、
一の通信装置は、
前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、
該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、
前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
関連付けられた発言文字情報及び使用者位置情報を送信する送信手段と
を備え、
他の通信装置は、
関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、
該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と
を備えることを特徴とする通信会議システム。
前記複数のマイクロホンは、
指向性を有し、集音領域が異なるように並置されており、
一の通信装置は、
前記複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係を記憶する記憶手段を備え、
前記位置特定手段は、
前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてある
ことを特徴とする請求項１に記載の通信会議システム。
前記複数のマイクロホンは、
集音領域が一部重複するように並置されており、
一の通信装置は、
前記複数のマイクロホンに入力された音声の強度レベルを比較する比較手段を備え、
前記位置特定手段は、
前記比較手段の比較結果及び前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてある
ことを特徴とする請求項２に記載の通信会議システム。
他の通信装置は、
前記受信手段が受信した発言文字情報を蓄積する手段を備え、
前記合成手段は、
蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備える
ことを特徴とする請求項１から請求項３のいずれか一項に記載の通信会議システム。
使用者の多／寡に応じて各使用者の発言文字情報の蓄積量を減／増させる手段を備える
ことを特徴とする請求項４に記載の通信会議システム。
一の通信装置は、
前記複数の使用者の顔部位の特徴量を示す顔特徴量情報及び該使用者の個人情報を対応付けた個人情報テーブルと、
撮像して得た撮像画像に基づいて、各使用者の顔部位を検出する顔部位検出手段と、
該顔部位検出手段が検出した各使用者の顔部位の特徴量を示す特徴量を抽出する特徴量抽出手段と、
該特徴量抽出手段が抽出した特徴量及び前記個人情報テーブルに基づいて、各使用者の個人情報を特定する個人情報特定手段と、
前記顔部位検出手段が検出した位置及び前記位置特定手段が特定した位置を比較することで、発言文字情報、使用者位置情報及び個人情報を関連付ける手段と、
関連付けられた発言文字情報、使用者位置情報及び個人情報を送信する手段と
を備え、
他の通信装置は、
関連付けられた発言文字情報、使用者位置情報及び個人情報を受信する手段を備え、
前記合成手段は、
受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備える
ことを特徴とする請求項１から請求項５のいずれか一項に記載の通信会議システム。
前記位置特定手段は、
前記顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定する手段を備える
ことを特徴とする請求項６に記載の通信会議システム。
前記他の通信手段は、
使用者を選択する選択手段を備え、
前記合成手段は、
選択された使用者に関する文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成するようにしてある
ことを特徴とする請求項１から請求項７のいずれか一項に記載の通信会議システム。
複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、
複数のマイクロホンに各別に入力された前記複数の使用者の音声夫々を認識する音声認識手段と、
前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
関連付けられた発言文字情報及び使用者位置情報を送信する送信手段と
を備えることを特徴とする通信装置。
関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、
該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と
を備えることを特徴とする請求項９に記載の通信装置。
複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、
前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、
該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、
前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
前記発言文字情報に係る文字画像を、撮像画像における前記位置特定手段が示す位置に応じた画像部分に合成する合成手段と、
該合成手段が合成して得た画像のデータを送信する手段と
を備えることを特徴とする通信装置。
複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議方法において、
一の通信装置は、
前記複数の使用者夫々の音声を各別に認識し、
発言した使用者の撮像画像における位置を特定し、
認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付け、
関連付けられた発言文字情報及び使用者位置情報を送信し、
他の通信装置は、
関連付けられた発言文字情報及び使用者位置情報を受信し、
受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する
ことを特徴とする通信会議方法。
複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンとを設けたコンピュータに、
前記複数のマイクロホンに入力された音声夫々を認識し、
前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定し、
認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付ける
処理を実行させることを特徴とするコンピュータプログラム。