JP2009194857A - 通信会議システム、通信装置、通信会議方法、コンピュータプログラム - Google Patents

通信会議システム、通信装置、通信会議方法、コンピュータプログラム Download PDF

Info

Publication number
JP2009194857A
JP2009194857A JP2008036393A JP2008036393A JP2009194857A JP 2009194857 A JP2009194857 A JP 2009194857A JP 2008036393 A JP2008036393 A JP 2008036393A JP 2008036393 A JP2008036393 A JP 2008036393A JP 2009194857 A JP2009194857 A JP 2009194857A
Authority
JP
Japan
Prior art keywords
information
user
image
character
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008036393A
Other languages
English (en)
Inventor
Mitsuru Nakamura
充 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008036393A priority Critical patent/JP2009194857A/ja
Publication of JP2009194857A publication Critical patent/JP2009194857A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる通信会議システムを提供する。
【解決手段】通信会議システムを構成する一の通信装置に、複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、撮像画像における発言者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び発言者の位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備え、他の通信装置に、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備える。
【選択図】図10

Description

本発明は、通信会議システム、該通信会議システムを構成する通信装置、通信会議方法、コンピュータを通信装置として動作させるためのコンピュータプログラムに関する。
通信会議システムは、通信網を介して画像データ及び音声データを送受信する複数の通信装置を備えている。各通信装置は、会議の参加者(使用者)を撮像するカメラ、参加者の発言を集音するマイクロホンを備え、撮像及び集音して得た画像データ及び音声データを送信する。送信先の通信装置は、送信された画像データ及び音声データを受信し、送信元の会議風景を表示装置及びスピーカにて再現する。このように構成された通信会議システムは、隔地参加者間の会議を可能にする。
一方、100インチ以上の超大型テレビが実用化されつつある。通信会議システムの表示装置として超大型テレビを採用した場合、より臨場感のある会議を行うことが可能になる。また、大画面であることを利用して、会議に関する種々の情報を表示することもできる。
特許文献1には、光学式文字読取装置にて会議参加者の名刺の社名、役職及び氏名等を読み取り、読み取った情報を相手方の通信装置に送信して表示するように構成された通信会議システムが提案されている。特許文献1によれば、口頭による自己紹介を省略することが可能になる。
また、特許文献2には、会議に関する共有情報、例えば会議の残り時間を各通信装置の表示装置に表示するように構成された通信会議システムが提案されている。特許文献2によれば、参加者は会議に関する共有情報を容易に確認することができる。
特開平7−123389号公報 特開平5−145918号公報
しかしながら、従来の通信会議システムにおいては、参加者が複数である場合、各参加者の発言を区別できない場合があり、会議が混乱するという問題があった。
また、マイクロホンの感度、スピーカの音再現性が原因で発言が不明瞭になる場合がある。この場合、その都度、発言者を確認して、発言内容を聞き直す必要があり、会議が遅延するという問題があった。
なお、発言内容を音声認識し、認識結果を表示する方法も考えられるが、単に発言内容を画面の下部に字幕方式で表示するだけでは、発言者を特定することができず、参加者が混乱するという問題があった。
なお、特許文献1に係る通信会議システムによれば、参加者の個人情報を表示することができるが、発言者を特定してその発言内容を確認することはできず、上述の問題を解決することはできない。
また、特許文献2に係る通信会議システムによれば、会議の共有情報を表示することができるが、発言者を特定してその発言内容を確認することはできず、上述の問題を解決することはできない。
本発明は斯かる事情に鑑みてなされたものであり、撮像画像における発言者の画像の近傍に発言内容を示す文字画像を合成するように構成することにより、発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる通信会議システム、該通信会議システムを構成する通信装置、通信会議方法、コンピュータを通信装置として機能させるコンピュータプログラムを提供することを目的とする。
本発明に係る通信会議システムは、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議システムにおいて、一の通信装置は、前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備え、他の通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備えることを特徴とする。
本発明に係る通信会議システムは、前記複数のマイクロホンは、指向性を有し、集音領域が異なるように並置されており、一の通信装置は、前記複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係を記憶する記憶手段を備え、前記位置特定手段は、前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてあることを特徴とする。
本発明に係る通信会議システムは、前記複数のマイクロホンは、集音領域が一部重複するように並置されており、一の通信装置は、前記複数のマイクロホンに入力された音声の強度レベルを比較する比較手段を備え、前記位置特定手段は、前記比較手段の比較結果及び前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてあることを特徴とする。
本発明に係る通信会議システムは、他の通信装置は、前記受信手段が受信した発言文字情報を蓄積する手段を備え、前記合成手段は、蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備えることを特徴とする。
本発明に係る通信会議システムは、使用者の多/寡に応じて各使用者の発言文字情報の蓄積量を減/増させる手段を備えることを特徴とする。
本発明に係る通信会議システムは、一の通信装置は、前記複数の使用者の顔部位の特徴量を示す顔特徴量情報及び該使用者の個人情報を対応付けた個人情報テーブルと、撮像して得た撮像画像に基づいて、各使用者の顔部位を検出する顔部位検出手段と、該顔部位検出手段が検出した各使用者の顔部位の特徴量を示す特徴量を抽出する特徴量抽出手段と、該特徴量抽出手段が抽出した特徴量及び前記個人情報テーブルに基づいて、各使用者の個人情報を特定する個人情報特定手段と、前記顔部位検出手段が検出した位置及び前記位置特定手段が特定した位置を比較することで、発言文字情報、使用者位置情報及び個人情報を関連付ける手段と、関連付けられた発言文字情報、使用者位置情報及び個人情報を送信する手段とを備え、他の通信装置は、関連付けられた発言文字情報、使用者位置情報及び個人情報を受信する手段を備え、前記合成手段は、受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備えることを特徴とする。
本発明に係る通信会議システムは、前記位置特定手段は、前記顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定する手段を備えることを特徴とする。
本発明に係る通信会議システムは、前記他の通信手段は、使用者を選択する選択手段を備え、前記合成手段は、選択された使用者に関する文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成するようにしてあることを特徴とする。
本発明に係る通信装置は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、複数のマイクロホンに各別に入力された前記複数の使用者の音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報及び使用者位置情報を送信する送信手段とを備えることを特徴とする。
本発明に係る通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段とを備えることを特徴とする。
本発明に係る通信装置は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、前記発言文字情報に係る文字画像を、撮像画像における前記位置特定手段が示す位置に応じた画像部分に合成する合成手段と、該合成手段が合成して得た画像のデータを送信する手段とを備えることを特徴とする。
本発明に係る通信会議方法は、複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議方法において、一の通信装置は、前記複数の使用者夫々の音声を各別に認識し、発言した使用者の撮像画像における位置を特定し、認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付け、関連付けられた発言文字情報及び使用者位置情報を送信し、他の通信装置は、関連付けられた発言文字情報及び使用者位置情報を受信し、受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成することを特徴とする。
本発明に係るコンピュータプログラムは、複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンとを設けたコンピュータに、前記複数のマイクロホンに入力された音声夫々を認識し、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定し、認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付ける処理を実行させることを特徴とする。
本発明にあっては、送信元である一の通信装置の音声認識手段は、複数のマイクロホンに入力された音声夫々を認識する。音声の認識によって、使用者が発言した音声の情報を、発言文字情報に変換することができる。発言文字情報は、使用者が発言した内容を文字で示すことができる情報である。
位置特定手段は、マイクロホンに音声が入力された場合、該マイクロホンに音声を入力した使用者の撮像画像における位置を特定し、特定された位置を示す使用者位置情報と、該使用者の発言文字情報とが関連付けられる。送信手段は、関連付けられた発言文字情報及び使用者位置情報を送信する。
送信先である他の通信装置の受信手段は、関連付けられた発言文字情報及び使用者位置情報を受信する。合成手段は、発言文字情報に係る文字画像を、撮像画像における使用者位置情報が示す位置に応じた画像部分に合成する。例えば、使用者の近傍に文字画像が表示される。
従って、使用者は、他の使用者の発言内容を文字画像で把握することが可能になる。また、使用者は、発言した使用者を文字画像の表示位置から把握することが可能になる。
なお、本願発明の用途はテレビ会議に限定されず、一般の会話用途、例えば家族間コミュニケーションに本願発明を用いても良い。
本発明にあっては、複数のマイクロホンは指向性を有しているため、各マイクロホンで集音可能な集音領域は限定される。逆に考えると、マイクロホンに音声が入力できた場合、発言した使用者の位置は該マイクロホンの集音領域に限定される。そこで、位置特定手段は、記憶手段が記憶している複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係に基づいて、音声を入力した使用者の位置を特定する。
本発明にあっては、複数の指向性を有するマイクロホンは集音領域が一部重複するように並設されているため、複数のマイクロホンに入力された音声の強度レベルを比較することで、各マイクロホンの集音領域と、発言した使用者との位置関係を詳細に特定することができる。
そこで、比較手段は、複数のマイクロホンに入力された音声の強度レベルを比較し、位置特定手段は、比較結果及び記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定する。
本発明にあっては、送信先の通信装置は、受信した発言文字情報を蓄積し、合成手段は、蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する。従って、使用者の発言履歴を表示することが可能になる。
本発明にあっては、使用者の多/寡に応じて各使用者の発言文字情報の蓄積量を減/増させる。つまり、使用者が多い場合、各使用者の発言文字情報の蓄積量を減少させ、使用者が少ない場合、各使用者の発言文字情報の蓄積量を増加させる。従って、各使用者に蓄積用の記憶領域を適切に配分することが可能になる。
本発明にあっては、顔部位検出手段は、撮像して得た撮像画像に基づいて、各使用者の顔部位を検出し、特徴量抽出手段は、顔部位検出手段が検出した各使用者の顔部位の特徴量を抽出する。そして、個人情報特定手段は、抽出された特徴量及び個人情報テーブルに基づいて、各使用者の個人情報を特定する。特定された個人情報は、顔部位検出手段が検出した位置及び位置特定手段が特定した位置を比較することで、発言文字情報及び使用者位置情報に関連付けられ、送信される。
送信先の通信装置は、関連付けられた発言文字情報、使用者位置情報及び個人情報を受信し、合成手段は、受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する。
従って、使用者は、各使用者の個人情報を文字画像で把握することが可能になる。
本発明にあっては、前記位置特定手段は、顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定することができる。従って、文字画像を、撮像画像における使用者の顔の近傍に表示することが可能になる。
本発明にあっては、他の通信装置は選択手段によって特定の使用者を選択する。合成手段は、選択された使用者に関する文字画像を撮像画像に合成し、選択されていない使用者に関する文字画像を撮像画像に合成しない。
本発明によれば、発言者及びその発言内容を視覚的に把握することができ、会議の円滑化を図ることができる。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、本発明の実施の形態1に係る通信会議システムの構成を模式的に示すブロック図である。本発明の実施の形態1に係る通信会議システムは、通信網Nに接続された複数の通信装置1,1を備えている。本発明に係る通信会議システムは、会議参加者(使用者)の発言内容を吹き出し文字で表示することにより、発言した参加者(以下、発言者という)及びその発言内容を視覚的に把握し、会議の円滑化を図ることを可能にする。
図2は、通信装置1の構成を模式的に示すブロック図である。通信網Nに接続された複数の通信装置1,1の構成及び機能は同一であるため、一の通信装置1の構成について説明する。通信装置1は、各構成部の動作を制御する制御部11、該制御部11に接続された送信処理部12、受信処理部13及び操作部18を備えている。送信処理部12には、送信元の参加者を撮像するカメラ15及び複数のマイクロホン14a、14b、14c、14dが設けられ、受信処理部13には送信先の会議風景を再現する表示装置16及びスピーカ17が設けられている。
制御部11は、例えばCPU(Central Processing Unit)を有するマイクロコンピュータである。CPUには、通信装置1の各構成部の動作を制御するためのコンピュータプログラムを記憶したROM、一時記憶用のRAM、計時部等がバスを介して接続されている。CPUは、ROMに記録されたコンピュータプログラムをRAMに読み出して実行することにより、本発明に係る通信会議方法を実施する。
操作部18は、通信会議に関する動作を指示するための押ボタンスイッチ、タッチパネル等の入力装置であり、制御部11は操作部18の操作状態を検出するように構成されている。
図3は、送信処理部12の構成を模式的に示すブロック図である。送信処理部12は、音声波形生成部12a、音声処理部12g、音声認識部12b、発言者位置特定部12c、記憶部12d、発言情報生成部12e、送信部12f、画像処理部12h、顔部位検出部12i、顔特徴量抽出部12j、個人情報特定部12k及び個人情報テーブル12lを備える。
マイクロホン14a、14b、14c、14dは、複数の参加者夫々の音声が各別に入力されるように指向性を有しており、集音方向が表示装置16の表示方向、即ち表示面に略垂直な方向を向き、各マイクロホン14a、14b、14c、14dの集音領域が一部重複するように、表示装置16の上部に横方向に並設されている(図4参照)。マイクロホン14a、14b、14c、14dは、音声が入力された場合、該音声を音声信号に変換し、音声波形生成部12a及び音声処理部12gに与える。音声信号は、音声の強度に応じた電圧を有するアナログの電気信号である。
音声波形生成部12aは、マイクロホン14a、14b、14c、14dから与えられた音声信号夫々を、デジタルの音声データにAD変換する。そして、音声波形生成部12aは、AD変換された音声データに、いずれのマイクロホン14a、14b、14c、14dから得られた音声に基づくものであるかを示すマイク識別情報を付加し、該マイク識別情報が付加された音声データを音声認識部12b及び発言者位置特定部12cに与える。
音声認識部12bは、音声波形生成部12aから与えられた音声データ夫々を認識することによって、音声データを発言文字情報に変換する。発言文字情報は、例えば音声データの内容を文字で表すテキストデータである。そして、音声認識部12bは、発言文字情報にマイク識別情報を付加し、マイク識別情報が付加された発言文字情報を発言情報生成部12eに与える。
記憶部12dは、マイクロホン14a、14b、14c、14dを識別するマイク識別情報と、カメラ15で撮像して得た撮像画像における各マイクロホン14a、14b、14c、14dの集音領域の位置との対応関係に係る集音領域位置情報を記憶している。
発言者位置特定部12cは、音声波形生成部12aから与えられた複数の音声データと、記憶部12dが記憶している集音領域位置情報とに基づいて、撮像画像における発言者の位置、特に撮像画像の水平ライン方向における位置を特定する。
図4は、発言者位置特定部12cによる発言者の位置特定方法を概念的に示す説明図である。図4の左図は、鉛直上方から見た表示装置16及び参加者A,B,Cと、マイクロホン14a、14b、14c、14dの集音領域を示す概念図である。破線で示した楕円は、各マイクロホン14a、14b、14c、14dの集音領域を示している。図4の右図は、各マイクロホン14a、14b、14c、14dから得られた音声データの波形を示している。横軸は時間、縦軸は音声レベルを示している。
発言者位置特定部12cは、マイクロホン14a、14b、14c、14dから得られた音声データの音声レベルを比較することで、撮像画像の水平ライン方向(図4中、縦方向)における発言者の位置を特定する。
例えば、参加者Aが発言した場合、参加者Aは、マイクロホン14dの集音領域内、マイクロホン14a,14b,14cの集音領域外に位置しているため、マイクロホン14dにのみ参加者Aの音声が入力される。この場合、発言者位置特定部12cは、各音声信号レベルを比較することで、マイクロホン14dの集音領域の略中央に参加者Aが位置していると判断することができる。また、発言者位置特定部12cは、集音領域位置情報を参照してマイクロホン14dの集音領域と、撮像画像における位置とを対応させることにより、参加者Aの撮像画像における位置、つまり座標を特定することができる。
また、参加者Bが発言した場合、参加者Bはマイクロホン14bの集音領域内に位置し、僅かにマイクロホン14cの集音領域に入っている。この場合、発言者位置特定部12cは、各音声信号レベルを比較することで、マイクロホン14bの集音領域の略中央部より、音声信号レベルの差分に応じた距離だけマイクロホン14c側に参加者Bが位置していると判断することができる。
参加者Cが発言した場合も同様にして、発言者位置特定部12cは、マイクロホン14aの集音領域の略中央部より、音声信号レベルの差分に応じた距離だけマイクロホン14b側に参加者Cが位置していると判断することができる。
発言者の位置特定を終えた発言者位置特定部12cは、特定した発言者位置情報に、発言者の音声が入力されたマイクロホン14a、14b、14c、14dの内、音声レベルが最大のマイクロホン14a、14b、14c、14dを示すマイク識別情報を付加し、マイク識別情報が付加された発言者位置情報を発言情報生成部12eに与える。
音声処理部12gは、マイクロホン14a、14b、14c、14dから与えられた音声信号を各別にデジタルの音声データにAD変換し、AD変換された複数の音声データをモノラル又はステレオの音声データに合成する。そして、音声処理部12gは、合成された音声データを送信部12fに与える。
一方、カメラ15は、表示装置16の表示面側に位置する複数の参加者を撮像できるように、撮像領域が該表示面側になるような姿勢で表示装置16の上部に固定されており、撮像して得たアナログの画像信号を画像処理部12hに与える。
画像処理部12hは、カメラ15から与えられたアナログの画像信号を、デジタルの画像データにAD変換し、該画像データに対して各種エフェクト処理を実行し、画像処理された画像データを顔部位検出部12i及び送信部12fに与える。
顔部位検出部12iは、画像処理部12hから与えられた画像データに基づいて、顔部位を検出し、撮像画像における顔部位の位置を示す顔位置情報と、検出された顔部位の画像データとを顔特徴量抽出部12jに与える。
顔特徴量抽出部12jは、顔部位の画像から顔の特徴量を抽出し、抽出された顔部位の特徴量を示す顔特徴量情報と、顔位置情報とを関連付けて、個人情報特定部12kに与える。
個人情報テーブル12lは、参加者の顔部位の特徴量を示す顔特徴量情報と、該参加者の個人情報とを対応付けたものである。
図5は、個人情報テーブル12lのレコードレイアウトを概念的に示す説明図である。個人情報テーブル12lのレコードレイアウトを示す表は、「固有番号」列と、「顔特徴量情報」列と、「名前」列と、「役職」列と、「部門」列とから構成されている。「固有番号」列は、複数の参加者夫々を示す参加者固有番号、例えば「1」、「2」、「3」、「4」…を格納している。「顔特徴量情報」列は、複数の参加者夫々の顔の特徴を示す顔特徴量情報を参加者固有番号に対応付けて格納している。円形状は、参加者の顔の輪郭形状、例えば縦横比を模式的に示し、「FA」、「FB」、「FC」、「FD」は、目、鼻、口の形状、位置関係等の特徴量を示している。「名前」列は、各参加者の名前を示すテキスト情報、例えば「AAA」、「BBB」、「CCC」、「DDD」…を参加者固有番号に対応付けて格納している。「役職」列は、各参加者の役職を示すテキスト情報、例えば「係長」、「課長」、「部長」、「担当」を参加者固有番号に対応付けて格納している。「部門」列は、各参加者の部門を示すテキスト情報、例えば「開発」、「企画」、「生産」、「技術」を参加者固有番号に対応付けて格納している。
個人情報特定部12kは、顔特徴量抽出部12jから与えられた顔特徴量情報と、個人情報テーブル12lとに基づいて、該顔特徴量情報に対応する個人情報、例えば参加者固有番号、名前、役職、部門等を特定し、特定された個人情報と、該顔特徴量情報に対応する顔位置情報とを関連付けて発言情報生成部12eに与える。
図6は、個人情報の特定方法を概念的に示す説明図である。図6の左図は撮像画像の模式図であり、図6の右図は個人情報テーブル12lの概念図である。個人情報特定部12kは、図6の左図に示すように、顔特徴量抽出部12jから与えられた各参加者の顔特徴量情報「FA」、「FB」、「FC」及び顔位置情報を保持している。個人情報特定部12kは、例えば参加者Aの顔特徴量情報「FA」と、個人情報テーブル12l中の顔特徴量情報とを照合することで、略一致する顔特徴量情報「FA」を特定し、特定された顔特徴量情報「FA」に対応付けられた個人情報としての名前「AAA」、役職「係長」、部門「開発」と、左図中の参加者Aの発言者位置情報、例えば座標(X,Y)=(202,540)とを関連づける。なお、Xは水平ライン方向の座標、Yは垂直ライン方向の座標を示している。同様にして、参加者Bの発言者位置情報、例えば座標(X,Y)=(810,270)と、個人情報としての名前「BBB」、役職「課長」、部門「企画」とを関連づける。また、参加者Cの発言者位置情報、例えば座標(X,Y)=(1200,820)と、個人情報としての名前「CCC」、役職「部長」、部門「生産」とを関連づける。
発言情報生成部12eは、同一のマイク識別情報を有する発言文字情報と、発言者位置情報とを対応付ける。また、発言情報生成部12eは、発言者位置情報が示す位置と、顔位置情報が示す位置とを比較し、位置に相関関係がある発言者位置情報と、顔位置情報とを特定することによって、発言文字情報と、発言者位置情報と、個人情報とを関連付ける。更に、発言情報生成部12eは、発言者の位置をより正確に示す顔位置情報に基づいて発言者位置を再特定し、再特定された発言者の位置を示す発言者位置情報と、発言文字情報と、個人情報とを関連付けた発言情報を生成し、生成された発言情報を送信部12fに与える。
また、発言情報生成部12eは、個人情報に対応する発言文字情報を特定できない場合、つまり該個人情報に係る参加者が発言していない場合、発言が無いことを示す情報と、顔位置情報と同一内容の非発言者位置情報と、個人情報とを関連付けた非発言者情報を生成し、生成された非発言者情報を送信部12fに与える。
図7は、発言情報の一例を概念的に示す説明図である。図7に示した発言情報は、各参加者A,B,Cが順に発言した場合の内容である。図7(a)は、発言した参加者Aの発言情報、同様に、図7(b)は、発言した参加者Bの発言情報、図7(c)は、発言した参加者Cの発言情報を示している。例えば、参加者Aの発言情報は、発言者の整理番号としての数字「1」、個人情報としての名前「AAA」、役職「係長」、部門「開発」、発言者位置情報としての座標(X,Y)=(202,540)、発言文字情報としての文字「はじめまして私は…」を含んで構成されている。
図8は、発言情報の他の一例を示す説明図である。図8に示した発言情報は、略同時に二人の参加者A,Bが発言した場合の内容である。
送信部12fは、発言情報生成部12eから与えられた発言情報と、非発言者情報と、音声処理部12gから与えられた音声データと、画像処理部12hから与えられた画像データとを他の通信装置1に送信する。
他の通信装置1は、一の通信装置1と同様の処理を実行し、他の通信装置1側の参加者を撮像して得た画像データと、発言者から集音して得た音声データと、発言情報と、非発言者情報とを一の通信装置1に送信する。
次に、一の通信装置1が備える受信処理部13について説明する。
図9は、受信処理部13の構成を模式的に示すブロック図である。受信処理部13は、受信部13a、発言文字情報付加部13b、発言履歴蓄積部13c、発言画像生成部13e、重畳処理部13d、及び表示制御部13fを備えている。
受信部13aは、通信装置1から送信された発言情報、非発言者情報、画像データ及び音声データを受信し、受信した画像データを重畳処理部13dに与え、発言情報及び非発言者情報を発言文字情報付加部13bに与え、音声データをスピーカ17に与える。スピーカ17は、与えられた音声データに基づいて音声を再生する。
発言履歴蓄積部13cは、各参加者の発言履歴として、受信部13aが受信した発言文字情報を参加者固有番号と対応付けて蓄積する一時記憶用のメモリである。
発言文字情報付加部13bは、受信部13aから与えられた発言情報及び非発言者情報に基づいて、参加者の人数を特定し、該人数に基づいて発言履歴を記憶するための蓄積量を各参加者に割り当てる。例えば、発言履歴蓄積部13cの容量を1とした場合、参加者が4人である場合、各参加者に0.25の容量を発言履歴蓄積用に割り当てる。
発言文字情報付加部13bは、受信部13aから発言情報が与えられた場合、該発言情報に含まれる発言文字情報を参加者固有番号と対応付けて発言履歴蓄積部13cに蓄積させる。また、発言文字情報付加部13bは、発言履歴蓄積部13cに蓄積されている過去の発言文字情報を各参加者の発言情報に付加し、発言画像生成部13eに与える。更に、発言文字情報付加部13bは、非発言者情報が与えられた場合、発言履歴蓄積部13cに蓄積されている非発言者の過去の発言文字情報を非発言者情報に付加し、発言画像生成部13eに与える。
発言画像生成部13eは、発言者位置情報及び非発言者情報に基づいて、各参加者の画像近傍に発言内容、個人情報及び発言履歴を重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部13dに与える。
また、発言画像生成部13eは、制御部11の制御に従って、発言内容、個人情報及び発言履歴のいずれかを選択的に重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部13dに与える機能を有している。
更に、発言画像生成部13eは、制御部11の制御に従って、特定の参加者の発言内容、個人情報及び発言履歴のみを選択的に重畳表示するための発言情報画像を生成し、生成した発言情報画像に係る画像データを重畳処理部13dに与える機能を有している。
重畳処理部13dは、受信して得た撮像画像に、発言情報画像を重畳させ、重畳して得た画像データを表示制御部13fに与える。
表示制御部13fは、重畳処理部13dから与えられた画像データに基づいて、吹き出し文字で発言内容が表示され、各参加者の個人情報、発言履歴が表示された画像を表示する。
図10は、発言情報画像が撮像画像に重畳表示された画像の一例を示す模式図である。制御部11は、操作部18にて発言情報の表示方法、例えば発言履歴の表示の要否、発言情報を表示すべき参加者の選択を受け付け、受け付けた表示方法を発言画像生成部13eに与えるように構成されている。発言履歴が不要である旨を受け付けた場合、発言画像生成部13eは、各参加者の発言内容、個人情報を含む発言情報画像を生成する。
具体的には、発言画像生成部13eは、発言者位置情報が示す位置に基づいて、発言内容の表示位置を決定し、決定された位置に吹き出し画像2a,2b,2cを配する。例えば、参加者Aの顔画像の近傍に吹き出し画像2aを配する。そして、発言画像生成部13eは、吹き出し画像2a内に発言文字情報に係る文字画像3aを埋め込むように配する。また、発言画像生成部13eは、吹き出し画像2aの下側に参加者Aの個人情報に係る文字画像4aを配する。同様にして、参加者B,C夫々の顔画像の近傍に吹き出し画像2b、2cを配し、発言文字情報に係る文字画像3b,3cを埋め込み、個人情報に係る文字画像4b,4cを配する。
また、発言画像生成部13eは、非発言者情報が与えられている場合、吹き出し画像は配さず、発言していない参加者の顔画像の近傍に、個人情報を配する。
図11は、発言情報画像が重畳表示された画像の他の例を示す模式図である。制御部11は、発言履歴が必要である旨を受け付けた場合、発言画像生成部13eは、各参加者の発言内容、発言履歴、及び個人情報を含む発言情報画像を生成する。
具体的には、発言画像生成部13eは、吹き出し画像2a,2b,2c、発言に係る文字画像3a,3b,3c、個人情報に係る文字画像4a,4b,4cに加え、発言履歴としての発言文字情報に係る文字画像5a,5b,5cを配する。該文字画像5a,5b,5cは、例えば個人情報に係る文字画像4a,4b,4cの下方に配される。
図12は、発言情報画像が重畳表示された画像の他の例を示す模式図である。制御部11は、発言情報を表示すべき参加者として参加者B,Cを受け付けた場合、発言画像生成部13eは、参加者B,Cについてのみ吹き出し画像2b、2c、並びに発言文字情報、個人情報及び発言履歴に係る文字画像3b,4b,5b,3c,4c,5cを表示し、参加者Aについての発言情報を表示しない。
このように構成された通信会議システム、通信装置1及び通信会議方法にあっては、発言者の顔画像の近傍に発言内容を吹き出し文字で表示することができるため、参加者は、発言者及びその発言内容を視覚的に把握することができる。
従って、発言者と発言内容の関連付けが容易となり、聞き逃しの防止、不明瞭な発言の明確化、聴覚障害のある者の参加等が可能となり、会議の円滑化を図ることができる。また、複数の参加者が同時に発言した場合であっても、吹き出しで表示された文字画像によって、発言者を特定し、発言内容を把握することができる。
また、発言内容等を参加者の顔画像近傍に表示するように構成されているため、参加者は、発言者と発言内容の関連付けを直感的に把握できる。
更に、発言内容を吹き出しの形で表示するように構成されているため、発言内容をユーザーフレンドリーに表示することができ、参加者は、発言者と発言内容をより直感的に把握することができる。
更にまた、各参加者の顔画像の近傍に該参加者の発言履歴を文字画像で表示することができる。従って、参加者の発言を聞き漏らした場合であっても、文字で発言内容を確認することができる。また、会議に途中参加した場合であっても、途中参加者は過去の発言履歴を文字で確認することができるため、会議の内容の理解が容易になり、スムーズに会議に合流することができる。
更にまた、発言履歴の蓄積量を参加者の多寡に応じて増減させる構成であるため、各参加者に発言履歴保存用の領域を略均等に配分することができる。
更にまた、各発言者の顔画像の近傍に個人情報を文字画像で表示することができるため、参加者は他の参加者の名前、所属等を常に把握することができる。また、参加者の顔を確認しづらい場合であっても、文字で表示された個人情報に基づいて参加者を判別することができる。
更にまた、使用者によって選択された特定参加者の発言内容のみを表示できるように構成されているため、利便性を向上させることができる。例えば、重要な参加者の発言内容のみを表示することができる。
更にまた、参加者が発言していない場合であっても、該参加者の顔画像近傍に個人情報、発言履歴等を表示することができる。従って、現在発言していない参加者の過去の発言履歴、個人情報も把握でき、利便性を向上させることができる。
更にまた、各参加者の発言者位置情報又は非発言者位置情報は、常時送受信されているため、参加者が会議室内を移動した場合であっても、参加者を追随するようにして、発言内容、個人情報及び発言履歴の文字画像を表示させることができる。
なお、実施の形態1にあっては、指向性マイクを用いて発言者の位置を特定するように構成してあるが、位置情報を発信するピンマイクロホンを各参加者に装着させ、該ピンマイクロホンから発信された位置情報に基づいて、撮像画像における発言者の位置を特定するように構成しても良い。また、参加者の位置を認識するカメラと、該カメラに連動する指向性マイクロホンとを備えて、発言者の位置を特定するように構成しても良い。
また、実施の形態1にあっては、参加者の発言内容、発言履歴、個人情報を表示する場合を説明したが、各参加者に係る他の情報を表示するように構成しても良い。例えば、発言した時刻、発言量等を表示するように構成しても良い。
更に、発言情報画像を受信側で生成するように構成してあるが、送信側の通信装置で生成するように構成しても良い。具体的には、受信処理部を構成する発言文字情報付加部、発言履歴蓄積部、発言画像生成部、重畳処理部を送信処理部に備え、発言情報生成部は発言情報及び非発言者情報を送信部ではなく発言文字情報付加部に与え、画像処理部は、画像データを送信部ではなく重畳処理部に与え、重畳処理部は、重畳して得た画像を送信部に与えるように構成する。
このように構成した場合、通信の相手方が画像及び音声データの再生機能しか備えていない場合であっても、発言情報が付加された画像を相手方の表示装置に表示させることができる。
更にまた、実施の形態1にあっては発言履歴の表示の要否を選択できるように構成してあるが、他の情報の要否、例えば個人情報の要否も適宜選択できるように構成しても良い。
更にまた、実施の形態1では通信会議システムを説明したが、画像データ及び音声データの通信を行わず、一の大会議場内で撮像及び集音を行い、該大会議場内で会議風景を大型ディスプレイで再現するように構成しても良い。
具体的には、会議支援装置において、複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、関連付けられた発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と、該合成手段が合成して得た画像を表示する表示手段を備えるように構成すると良い。
この場合、大会議場における発言者及び発言内容を容易に把握することが可能になる。
(実施の形態2)
図13は、本発明の実施の形態2に係る通信装置201の構成を示すブロック図である。通信装置201は、装置全体を制御するCPU201aを備えたコンピュータである。CPU201aには、バス201h介してROM201b、RAM201c、カメラ15、表示装置16、マイクロホン14a、14b、14c、14d(マイクロホン14)、スピーカ17、外部記憶装置201d、内部記憶装置201e、操作部201f及び通信部201gが接続されている。
ROM201bは、コンピュータの動作に必要な制御プログラムを記憶したマスクROM、EEPROM等の不揮発性メモリである。RAM201cは、CPU201aの演算処理を実行する際に生ずる各種データを一時記憶するDRAM、SRAM等の揮発性メモリである。カメラ15、表示装置16、マイクロホン14a、14b、14c、14d、スピーカ17、操作部201fの構成は実施の形態1と同様である。
外部記憶装置201dは、本発明の実施の形態1に係るコンピュータプログラム7をコンピュータに読み取り可能に記録したCD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM、等の記録媒体6から情報を読み取る光ディスクドライブである。なお、通信網に接続されている図示しない外部コンピュータから本発明に係るコンピュータプログラム7をダウンロードし、内部記憶装置201eに記憶させるようにしても良い。
内部記憶装置201eは、例えばハードディスクであり、外部記憶装置201dにて記録媒体6から読み取られたコンピュータプログラム7を記憶する。また、内部記憶装置201eは、実施の形態1と同様の集音領域位置情報、個人情報テーブル等を記憶している。
通信部201gは、発言情報、非発言者情報、画像データ及び音声データを送受信するインタフェースであり、通信部201gによる各種情報の送受信はCPU201aによって制御されている。
図14及び図15は、発言情報の生成及び送信に係るCPU201aの処理手順を示すフローチャートである。CPU201aは、マイクロホン14a、14b、14c、14d夫々から音声信号を各別に取得し、AD変換することで音声データを取得する(ステップS11)。そして、CPU201aは、音声データ夫々を音声認識、つまり音声データを発言文字情報に変換する(ステップS12)。
次いで、CPU201aは、内部記憶装置201eから集音領域位置情報を読み出し(ステップS13)、各音声データに係る音声レベルを比較し(ステップS14)、比較結果及び集音領域位置情報に基づいて、撮像画像における発言者の位置を特定する(ステップS15)。発言者の位置特定方法は、実施の形態1と同様である。
次いで、CPU201aは、カメラ15から画像信号を取得し、AD変換することで画像データを取得する(ステップS16)。そして、CPU201aは、撮像画像から顔部位を検出し(ステップS17)、検出した顔部位の画像部分から顔特徴量を抽出する(ステップS18)。次いで、CPU201aは、内部記憶装置201eから個人情報テーブルを読み出し(ステップS19)、読み出された個人情報テーブルと、ステップS18で抽出された顔特徴量とに基づいて、個人情報を特定する(ステップS20)。
そして、CPU201aは、ステップS17で検出した顔部位の位置に基づいて、発言者位置情報を再特定する(ステップS21)。
次いで、CPU201aは、発言文字情報、発言者位置情報及び個人情報を関連づけた発言情報を生成し(ステップS22)、非発言者位置情報及び個人情報を関連づけた非発言者情報を生成する(ステップS23)。各情報の関連づけ方法は、実施の形態1と同様である。
そして、CPU201aは、撮像及び集音して得た画像データ及び音声データを通信部201gにて送信し(ステップS24)、また発言情報及び非発言者情報を通信部201gにて送信し(ステップS25)、処理を終える。
図16は、発言情報画像の生成及び表示に係るCPU201aの処理手順を示すフローチャートである。CPU201aは、他の通信装置から送信された画像データ及び音声データを通信部201gにて受信し(ステップS51)、発言情報及び非発言者情報を受信する(ステップS52)。
そして、CPU201aは、受信した発言情報及び非発言者情報に基づいて、会議の発言者数を特定し(ステップS53)、参加者の多/寡に応じて、各参加者の発言履歴を蓄積するための蓄積量、つまり記憶容量を減/増させて蓄積量を割り当てる(ステップS54)。
そして、CPU201aは、操作部201fにて発言情報の表示方法を受け付ける(ステップS55)。例えば、発言履歴の要否、発言情報を表示する参加者の選択等を受け付ける。
次いで、CPU201aは、発言履歴の要否を判定する(ステップS56)。発言履歴を要すると判定した場合(ステップS56:YES)、CPU201aは、蓄積された発言履歴に係る発言文字情報を発言情報に付加する(ステップS57)。
ステップS57の処理を終えた場合、又は発言履歴が不要であると判定した場合(ステップS56:NO)、CPU201aは、ステップS55で受け付けた表示方法、発言情報、非発言者情報に基づいて発言情報画像を生成し(ステップS58)、生成した発言情報画像を、受信して得た撮像画像に重畳し(ステップS59)、重畳して得た図10乃至図12に示すような発言情報付きの画像を表示装置16にて表示し(ステップS60)、処理を終える。
このように構成された通信装置201、該通信装置201を備えた通信会議システム、通信会議方法、コンピュータプログラム7にあっても実施の形態1と同様の効果を奏する。
なお、今回開示された実施の形態はすべての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれる。
本発明の実施の形態1に係る通信会議システムの構成を模式的に示すブロック図である。 通信装置の構成を模式的に示すブロック図である。 送信処理部の構成を模式的に示すブロック図である。 発言者位置特定部による発言者の位置特定方法を概念的に示す説明図である。 個人情報テーブルのレコードレイアウトを概念的に示す説明図である。 個人情報の特定方法を概念的に示す説明図である。 発言情報の一例を概念的に示す説明図である。 発言情報の他の一例を示す説明図である。 受信処理部の構成を模式的に示すブロック図である。 発言情報画像が撮像画像に重畳表示された画像の一例を示す模式図である。 発言情報画像が重畳表示された画像の他の例を示す模式図である。 発言情報画像が重畳表示された画像の他の例を示す模式図である。 本発明の実施の形態2に係る通信装置の構成を示すブロック図である。 発言情報の生成及び送信に係るCPUの処理手順を示すフローチャートである。 発言情報の生成及び送信に係るCPUの処理手順を示すフローチャートである。 発言情報画像の生成及び表示に係るCPUの処理手順を示すフローチャートである。
符号の説明
1 通信装置
6 記録媒体
7 コンピュータプログラム
11 制御部
12 送信処理部
12a 音声波形生成部
12b 音声認識部
12c 発言者位置特定部
12d 記憶部
12e 発言情報生成部
12f 送信部
12g 音声処理部
12h 画像処理部
12i 顔部位検出部
12j 顔特徴量抽出部
12k 個人情報特定部
12l 個人情報テーブル
13 受信処理部
13a 受信部
13b 発言文字情報付加部
13c 発言履歴蓄積部
13d 重畳処理部
13e 発言画像生成部
13f 表示制御部
14a、14b、14c、14d マイクロホン
15 カメラ
16 表示装置
17 スピーカ
18 操作部
201a CPU
201b ROM
201c RAM
201d 外部記憶装置
201e 内部記憶装置
201f 操作部
201g 通信部
N 通信網

Claims (13)

  1. 複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議システムにおいて、
    一の通信装置は、
    前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、
    該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、
    前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
    前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
    関連付けられた発言文字情報及び使用者位置情報を送信する送信手段と
    を備え、
    他の通信装置は、
    関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、
    該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と
    を備えることを特徴とする通信会議システム。
  2. 前記複数のマイクロホンは、
    指向性を有し、集音領域が異なるように並置されており、
    一の通信装置は、
    前記複数のマイクロホンと、撮像画像における該マイクロホンの集音領域の位置との対応関係を記憶する記憶手段を備え、
    前記位置特定手段は、
    前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてある
    ことを特徴とする請求項1に記載の通信会議システム。
  3. 前記複数のマイクロホンは、
    集音領域が一部重複するように並置されており、
    一の通信装置は、
    前記複数のマイクロホンに入力された音声の強度レベルを比較する比較手段を備え、
    前記位置特定手段は、
    前記比較手段の比較結果及び前記記憶手段が記憶している対応関係に基づいて、音声を入力した使用者の位置を特定するようにしてある
    ことを特徴とする請求項2に記載の通信会議システム。
  4. 他の通信装置は、
    前記受信手段が受信した発言文字情報を蓄積する手段を備え、
    前記合成手段は、
    蓄積された発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備える
    ことを特徴とする請求項1から請求項3のいずれか一項に記載の通信会議システム。
  5. 使用者の多/寡に応じて各使用者の発言文字情報の蓄積量を減/増させる手段を備える
    ことを特徴とする請求項4に記載の通信会議システム。
  6. 一の通信装置は、
    前記複数の使用者の顔部位の特徴量を示す顔特徴量情報及び該使用者の個人情報を対応付けた個人情報テーブルと、
    撮像して得た撮像画像に基づいて、各使用者の顔部位を検出する顔部位検出手段と、
    該顔部位検出手段が検出した各使用者の顔部位の特徴量を示す特徴量を抽出する特徴量抽出手段と、
    該特徴量抽出手段が抽出した特徴量及び前記個人情報テーブルに基づいて、各使用者の個人情報を特定する個人情報特定手段と、
    前記顔部位検出手段が検出した位置及び前記位置特定手段が特定した位置を比較することで、発言文字情報、使用者位置情報及び個人情報を関連付ける手段と、
    関連付けられた発言文字情報、使用者位置情報及び個人情報を送信する手段と
    を備え、
    他の通信装置は、
    関連付けられた発言文字情報、使用者位置情報及び個人情報を受信する手段を備え、
    前記合成手段は、
    受信した個人情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する手段を備える
    ことを特徴とする請求項1から請求項5のいずれか一項に記載の通信会議システム。
  7. 前記位置特定手段は、
    前記顔部位検出手段が検出した顔部位の位置に基づいて、音声を入力した使用者の位置を特定する手段を備える
    ことを特徴とする請求項6に記載の通信会議システム。
  8. 前記他の通信手段は、
    使用者を選択する選択手段を備え、
    前記合成手段は、
    選択された使用者に関する文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成するようにしてある
    ことを特徴とする請求項1から請求項7のいずれか一項に記載の通信会議システム。
  9. 複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、
    複数のマイクロホンに各別に入力された前記複数の使用者の音声夫々を認識する音声認識手段と、
    前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
    前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
    関連付けられた発言文字情報及び使用者位置情報を送信する送信手段と
    を備えることを特徴とする通信装置。
  10. 関連付けられた発言文字情報及び使用者位置情報を受信する受信手段と、
    該受信手段が受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する合成手段と
    を備えることを特徴とする請求項9に記載の通信装置。
  11. 複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを送受信する通信装置において、
    前記複数の使用者夫々の音声が各別に入力される複数のマイクロホンと、
    該複数のマイクロホンに入力された音声夫々を認識する音声認識手段と、
    前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定する位置特定手段と、
    前記音声認識手段が認識して得た発言文字情報及び前記位置特定手段が特定した位置を示す使用者位置情報を関連付ける手段と、
    前記発言文字情報に係る文字画像を、撮像画像における前記位置特定手段が示す位置に応じた画像部分に合成する合成手段と、
    該合成手段が合成して得た画像のデータを送信する手段と
    を備えることを特徴とする通信装置。
  12. 複数の使用者を撮像して得た撮像画像及び該使用者から集音して得た音声のデータを複数の通信装置間で送受信する通信会議方法において、
    一の通信装置は、
    前記複数の使用者夫々の音声を各別に認識し、
    発言した使用者の撮像画像における位置を特定し、
    認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付け、
    関連付けられた発言文字情報及び使用者位置情報を送信し、
    他の通信装置は、
    関連付けられた発言文字情報及び使用者位置情報を受信し、
    受信した発言文字情報に係る文字画像を、撮像画像における前記使用者位置情報が示す位置に応じた画像部分に合成する
    ことを特徴とする通信会議方法。
  13. 複数の使用者を撮像するカメラと、該複数の使用者夫々の音声が各別に入力される複数のマイクロホンとを設けたコンピュータに、
    前記複数のマイクロホンに入力された音声夫々を認識し、
    前記マイクロホンに使用者が音声を入力した場合、撮像画像における該使用者の位置を特定し、
    認識して得た発言文字情報及び特定した位置を示す使用者位置情報を関連付ける
    処理を実行させることを特徴とするコンピュータプログラム。
JP2008036393A 2008-02-18 2008-02-18 通信会議システム、通信装置、通信会議方法、コンピュータプログラム Pending JP2009194857A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008036393A JP2009194857A (ja) 2008-02-18 2008-02-18 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008036393A JP2009194857A (ja) 2008-02-18 2008-02-18 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2009194857A true JP2009194857A (ja) 2009-08-27

Family

ID=41076420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008036393A Pending JP2009194857A (ja) 2008-02-18 2008-02-18 通信会議システム、通信装置、通信会議方法、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2009194857A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033598A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 会議支援装置
JP2011192048A (ja) * 2010-03-15 2011-09-29 Nec Corp 発言内容出力システム、発言内容出力装置及び発言内容出力方法
WO2011122496A1 (ja) * 2010-03-31 2011-10-06 新日鉄ソリューションズ株式会社 情報処理システム、会議管理装置、情報処理方法、会議管理装置の制御方法及びプログラム
WO2012020591A1 (ja) * 2010-08-09 2012-02-16 日本電気株式会社 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
JP2012060240A (ja) * 2010-09-06 2012-03-22 Sony Corp 画像処理装置、プログラム及び画像処理方法
WO2013115541A1 (ko) * 2012-02-03 2013-08-08 삼성에스디에스 주식회사 단말기, 영상 통화 제어 서버, 및 이를 이용한 영상 통화 시스템 및 방법
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
WO2018061173A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム Tv会議システム、tv会議方法、およびプログラム
JP2019061557A (ja) * 2017-09-27 2019-04-18 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
WO2019142233A1 (ja) * 2018-01-16 2019-07-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020016893A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020129708A (ja) * 2019-02-07 2020-08-27 プラス株式会社 ビデオ会議装置
WO2020246640A1 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
JP2022017527A (ja) * 2018-01-16 2022-01-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP7462070B2 (ja) 2020-04-30 2024-04-04 北京字節跳動網絡技術有限公司 インタラクション情報処理方法、装置、電子デバイス及び記憶媒体

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033598A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 会議支援装置
JP2011192048A (ja) * 2010-03-15 2011-09-29 Nec Corp 発言内容出力システム、発言内容出力装置及び発言内容出力方法
WO2011122496A1 (ja) * 2010-03-31 2011-10-06 新日鉄ソリューションズ株式会社 情報処理システム、会議管理装置、情報処理方法、会議管理装置の制御方法及びプログラム
JP2011217098A (ja) * 2010-03-31 2011-10-27 Ns Solutions Corp 情報処理システム、会議管理装置、情報処理方法、会議管理装置の制御方法及びプログラム
CN102577370A (zh) * 2010-03-31 2012-07-11 新日铁系统集成株式会社 信息处理系统、会议管理装置、信息处理方法、会议管理装置的控制方法以及程序
CN102577370B (zh) * 2010-03-31 2013-07-31 新日铁系统集成株式会社 信息处理系统以及信息处理方法
US8659635B2 (en) 2010-03-31 2014-02-25 Ns Solutions Corporation Information processing system and information processing method
WO2012020591A1 (ja) * 2010-08-09 2012-02-16 日本電気株式会社 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
JP2012060240A (ja) * 2010-09-06 2012-03-22 Sony Corp 画像処理装置、プログラム及び画像処理方法
WO2013115541A1 (ko) * 2012-02-03 2013-08-08 삼성에스디에스 주식회사 단말기, 영상 통화 제어 서버, 및 이를 이용한 영상 통화 시스템 및 방법
US9307194B2 (en) 2012-02-03 2016-04-05 Samsung Sds Co., Ltd. System and method for video call
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2016127463A (ja) * 2015-01-06 2016-07-11 セイコーエプソン株式会社 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム
WO2018061173A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム Tv会議システム、tv会議方法、およびプログラム
US11194535B2 (en) 2017-09-27 2021-12-07 Fujifilm Business Innovation Corp. Information processing apparatus, information processing system, and non-transitory computer readable medium storing program
JP2019061557A (ja) * 2017-09-27 2019-04-18 富士ゼロックス株式会社 情報処理装置、情報処理システム及びプログラム
JP7056055B2 (ja) 2017-09-27 2022-04-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
JP2022017527A (ja) * 2018-01-16 2022-01-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020016893A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
WO2019142233A1 (ja) * 2018-01-16 2019-07-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP7149019B2 (ja) 2018-01-16 2022-10-06 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020129708A (ja) * 2019-02-07 2020-08-27 プラス株式会社 ビデオ会議装置
WO2020246640A1 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법
US11182922B2 (en) 2019-06-05 2021-11-23 Lg Electronics Inc. AI apparatus and method for determining location of user
JP7462070B2 (ja) 2020-04-30 2024-04-04 北京字節跳動網絡技術有限公司 インタラクション情報処理方法、装置、電子デバイス及び記憶媒体
CN113611308A (zh) * 2021-09-08 2021-11-05 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质
CN113611308B (zh) * 2021-09-08 2024-05-07 杭州海康威视数字技术股份有限公司 一种语音识别方法、装置、系统、服务器及存储介质

Similar Documents

Publication Publication Date Title
JP2009194857A (ja) 通信会議システム、通信装置、通信会議方法、コンピュータプログラム
US10771694B1 (en) Conference terminal and conference system
JP5223824B2 (ja) 画像送信装置、画像送信方法および画像送信プログラム
WO2004030328A1 (ja) テレビ電話通訳システムおよびテレビ電話通訳方法
CN106067996B (zh) 语音再现方法、语音对话装置
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2011205243A (ja) 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
CN114845081A (zh) 信息处理装置、记录介质及信息处理方法
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP4638183B2 (ja) 複数のカメラ出力の編集装置及びその編集方法
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
JP2003023612A (ja) 画像通信端末装置
JP2010134507A (ja) 再生装置
JP6846753B2 (ja) コンピュータシステム、Web会議音声補助方法及びプログラム
JP5082699B2 (ja) 議事録作成装置、議事録作成システム、議事録作成方法および議事録作成プログラム
JP2016206646A (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP5151131B2 (ja) テレビ会議装置
JP2001274912A (ja) 遠隔地会話制御方法および遠隔地会話システムならびに遠隔地会話制御プログラムを記録した記録媒体
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
JP5310682B2 (ja) カラオケ装置
JP2011066467A (ja) テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム
US11533537B2 (en) Information processing device and information processing system
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
JP3031320B2 (ja) ビデオ会議装置
JP5391175B2 (ja) 遠隔会議方法、遠隔会議システム及び遠隔会議プログラム