JP5340880B2 - 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム - Google Patents

遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム Download PDF

Info

Publication number
JP5340880B2
JP5340880B2 JP2009237543A JP2009237543A JP5340880B2 JP 5340880 B2 JP5340880 B2 JP 5340880B2 JP 2009237543 A JP2009237543 A JP 2009237543A JP 2009237543 A JP2009237543 A JP 2009237543A JP 5340880 B2 JP5340880 B2 JP 5340880B2
Authority
JP
Japan
Prior art keywords
output control
output
data
detected
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009237543A
Other languages
English (en)
Other versions
JP2011087074A (ja
Inventor
良太 野村
浩造 西野
潤 杉山
泰史 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Priority to JP2009237543A priority Critical patent/JP5340880B2/ja
Publication of JP2011087074A publication Critical patent/JP2011087074A/ja
Application granted granted Critical
Publication of JP5340880B2 publication Critical patent/JP5340880B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラムに関する。
近年、通信回線の高速化・大容量化に伴い、2地点またはそれ以上の複数の地点間を結んで、画像データおよび音声データを授受することにより、会議を開催することが可能な、テレビ会議システム等の「遠隔会話システム」が使用されている。遠隔会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。従来の遠隔会話システムとして、例えば、特許文献1では、撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影したり、あるいは、選択的に音声を集音する技術が提案されている。また、特許文献2では、撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影する技術が提案されている。
上記遠隔会話システムでは、発言していない参加者のマイクから不要な音が混入し、会議を妨げるという問題がある(例えば、パソコンのキータイプ音、参加者周辺の騒音等)。不要な音の混入を避けるために、遠隔会議端末にはミュートスイッチがついている場合が多いが、ミュートスイッチを使用する場合、発言の際にミュート解除を忘れ、会議に支障を来す可能性が生じる場合がある。
特開2004−118314号公報 特開2003−189273号公報
本発明は、上記に鑑みてなされたものであって、参加者の手を煩わせることなく、不要な音の混入を防止して、高品位な通話を行うことが可能な遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、各端末間で少なくとも音声を送受信する遠隔会話システムの出力制御装置において、撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出手段と、前記発話状態検出手段で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力制御手段と、を備えたことを特徴とする。
また、本発明の好ましい態様によれば、さらに、前記音声入力手段で集音された音声データを記憶する記憶手段を備え、前記出力制御手段は、前記発話状態検出手段で発話状態と検出された場合に、前記記憶手段に記憶されている音声データを第1の所定時間分前から出力することが望ましい。
また、本発明の好ましい態様によれば、前記出力制御手段は、前記撮像手段で撮影された参加者の画像データを出力することが望ましい。
また、本発明の好ましい態様によれば、前記出力制御手段は、前記記憶手段に記憶されている音声を第1の所定時間分前から出力する場合に、第2の所定時間だけ早送り出力またはスキップ出力を行って、出力する音声データおよび画像データを同期させることが望ましい。
また、本発明の好ましい態様によれば、前記記憶手段は、前記撮像手段で撮影した参加者の画像を記憶し、前記出力制御手段は、前記発話状態手段で口が発話状態と検出された場合に、前記記憶手段に記憶されている画像を前記第1の所定時間分前から出力し、音声データと画像データを同期させることが望ましい。
また、本発明の好ましい態様によれば、前記発話状態検出手段は、さらに、前記音声入力手段から入力される音声データの音量が閾値以上であるか否かを判断し、前記撮影手段で撮影した参加者の画像データ中の口の動きを検出し、かつ、前記音声データの音量が閾値以上である場合に、前記発話状態を検出することが望ましい。
また、本発明の好ましい態様によれば、前記出力制御装置は、送信側の前記端末に搭載されており、前記出力制御手段は、受信側の前記端末に音声データおよび画像データを前記出力することが望ましい。
また、本発明の好ましい態様によれば、前記出力制御装置は、受信側の前記端末に搭載されており、前記出力制御手段は、送信側の前記端末から受信した音声データおよび画像データを、自己のスピーカおよびモニタに前記出力することが望ましい。
また、本発明の好ましい態様によれば、前記出力制御装置は、各端末間の通信を中継する中継装置であり、前記出力制御手段は、送信側の前記端末から受信した音声データおよび画像データを、受信側の前記端末に前記出力することが望ましい。
また、上述した課題を解決し、目的を達成するために、本発明は、各端末間で少なくとも音声を送受信する遠隔会話システムの出力制御方法において、撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出工程と、前記発話状態検出工程で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力工程と、を含むことを特徴とする。
また、上述した課題を解決し、目的を達成するために、本発明は、各端末間で少なくとも音声データを送受信する遠隔会話システムの出力制御装置に搭載されるプログラムであって、撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出工程と、前記発話状態検出工程で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力工程と、をコンピュータに実行させることが望ましい。
以上説明したように、本発明によれば、各端末間で少なくとも音声を送受信する遠隔会話システムの出力制御装置において、撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出手段と、前記発話状態検出手段で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力制御手段と、を備えているので、参加者の手を煩わせることなく、不要な音の混入を防止して、高品位な通話を行うことが可能な遠隔会話システムの出力制御装置を提供することが可能になるという効果を奏する。
図1は、本発明に係る遠隔会話システムを適用したテレビ会議システムの構成例を説明するための概念図である。 図2は、図1の通信端末の構成例を説明するための概略ブロック図である。 図3は、画像データおよび音声データの出力タイミングの一例を説明するための図である。 図4は、実施の形態2に係る画像データおよび音声データの出力タイミングの一例を説明するための図である。 図5は、実施の形態2に係るテレビ会議システムの構成例を説明するための概念図である。 図6は、実施の形態3に係る通信端末の構成例を説明するための概略ブロック図である。 図7は、実施の形態4に係るテレビ会議システムの構成を説明するための概念図である。 図8は、実施の形態4に係る中継装置の構成例を説明するための概略ブロック図である。
以下に、この発明に係る遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。また、下記実施の形態における構成要素には、当業者が容易に想定できるものまたは実質的に同一のものが含まれる。
(実施の形態1)
実施の形態1では、本発明に係る遠隔会話システムの出力制御装置を送信側に適用した場合について説明する。図1は、本発明に係る遠隔会話システムを適用したテレビ会議システムの構成例を説明するための概念図である。図1に示したテレビ会議システムは、会議室1に配置された通信端末100と会議室2に配置された通信端末200との間で、公衆回線網やインターネットなどのネットワーク300を介して、データ通信が可能となっている。通信端末100,200としては、例えば、パーソナルコンピュータを使用することができる。ここで、会議を開催する会議室の数は限定されないが、以下の説明では、説明を簡略化するために、2つの会議室を結んで、「テレビ会議」が行われているものとし、会議の参加者は、会議室1の参加者Aと会議室2の参加者Bの2名とする。なお、ネットワーク300は公衆回線網やインターネットに限られるものではなく、他の広域・狭域のネットワークを使用してもよい。
通信端末100,200は、同様な構成となっており、それぞれ、参加者を撮影するためのカメラと、参加者の音声を入力するためのマイクと、通話相手の画像を表示するためのモニタと、通話相手の音声を出力するためのスピーカ等を備えている。
本テレビ会議システムでは、例えば、会議室1において、通信端末100は、常時、カメラにより撮影した画像データを外部出力(通信端末200への出力)している。また、通信端末100は、参加者Aの発話状態を検出し、参加者Aが発話状態にある場合は、音声データの外部出力(通信端末200への出力)をON、参加者Aが発話状態にない場合は、音声の外部出力をOFFとしている。これは、参加者Aが発話状態にない場合に外部の騒音等を通信端末200に送信しないためである。
具体的には、通信端末100では、カメラで参加者Aの撮影およびマイクで音声の入力を行っており、撮影した画像データ中で参加者Aの口の動きを検出した場合に、参加者Aが発話状態にあると判断している。ここで、参加者Aの口の動きを検出した場合のみ、音声データの外部出力(通信端末200への出力)をONとしているが、実際に、参加者Aが口を動かした場合に、その動きを検出し、検出した後、音声データの外部出力をONすることになるが、参加者Aが口を動かしてから音声データの外部出力をONするまでは、画像処理等に伴う遅延が生じるため、参加者Aの発言のうち、最初の部分の音声が欠落してしまう。そこで、本実施の形態では、音声の欠落を防止するため、詳細を後述するように、マイクから入力される音声を常時、バッファメモリにバッファリングしておき、参加者Aの口の動きを検出した後、バッファメモリにバッファリングされている音声データのうち、第1の所定時間T前からの音声データを第2の所定時間T、早送り出力して、音声と画像を同期させるようにしている。すなわち、通信端末の送信側で音声と画像の出力タイミングを調整している。
図2は、図1の通信端末100の構成例を説明するための概略ブロック図である。端末装置100は、図2に示すように、カメラ101と、マイク102と、データ処理部103と、バッファメモリ104と、口検出部105と、出力制御部107と、スピーカ108と、モニタ109と、データ通信部110等を備えている。
カメラ101は、参加者Aを撮影して、撮影した画像データをデータ処理部103に出力する。マイク102は、音声を集音して音声データをデータ処理部103に出力する。データ処理部103は、カメラ101から入力される画像データおよびマイク102から入力される音声データをデータ処理(A/D変換等)し、データ処理後の画像データをデータ通信部110および口検出部105に転送すると共に、データ処理後の音声データをバッファメモリ104に順次格納する。
口検出部105は、データ処理部103から入力される画像データの顔画像の部分を検出し、さらに、検出した顔画像の口を特定してその動きを検出し、口の動きの検出結果(例えば、口の動き有りの場合「1」、口の動き無しの場合「0」)を出力制御部107に出力する。顔およびその口の動きを検出する方法は、テンプレートマッチング等の公知の方法を使用することができるので、その詳細な説明は省略する。
出力制御部107は、口検出部105で口の動きが検出された場合に、バッファメモリ104に順次格納される音声データをデータ通信部110に出力する。
データ通信部110は、ネットワーク300を介してデータの送受信を行うためのものであり、画像データおよび音声データをネットワーク300に送信し、かつ、ネットワーク300を介して通信端末200から送信される画像データおよび音声データを受信する。なお、データ通信部110は、画像データおよび音声データをコード化して送信することにしてもよく、また、コード化された画像データおよび音声データを受信した場合には、デコードすることにしてもよい。
モニタ109は、例えば、液晶表示デバイスであり、データ通信部110がネットワーク300を介して通信端末200から受信した画像データに応じた画像を表示する。スピーカ108は、データ通信部110がネットワーク300を介して通信端末200から受信した音声データに応じた音声を出力する。
上記構成の通信端末100の画像データおよび音声データの送受信動作の概略を説明する。まず、送信動作を説明する。カメラ101で撮影された参加者Aの画像データと、マイク102で集音された参加者Aの音声データは、データ処理部103に入力される。データ処理部103に入力された画像データは、データ通信部110および口検出部105に転送される。データ通信部110に入力される音声データは、ネットワーク300を介して通信端末200に送信される。また、口検出部105では、入力される画像中の口の動きの検出が行われ、その検出結果が出力制御部107に出力される。他方、データ処理部103に入力された音声データは、バッファメモリ104に順次バッファリングされる。出力制御部107は、口検出部105で口の動きが検出された場合に、バッファメモリ104にバッファリングした音声データをデータ通信部110に転送する。データ通信部110に入力される音声データは、ネットワーク300を介して通信端末200に送信される。
つぎに、受信動作を説明する。データ通信部110は、ネットワーク300を介して通信端末200から送信されてくる、参加者Bの画像データおよび音声データを受信して、モニタ109により、対応する画像を表示し、スピーカ108より対応する音声を出力する。
上述したように、参加者Aが口を動かしてから音声データの外部出力をONするまでの画像処理等による遅延に伴う音声の欠落が生じてしまう。出力制御部107は、音声の欠落を防止するため、以下のように音声の出力タイミングを調整している。
図3は、画像データおよび音声データの出力タイミングの一例を説明するための図である。同図において、(a)は画像入力タイミング、(b)は画像出力タイミング、(c)は音声入力タイミング(バッファメモリ104への入力)、(d)音声出力タイミング(バッファメモリ104からの出力)を示している。また、tは、口の開口を検出した時刻、tは、口の動きの停止を検出した時刻、Tは、口の開口を検出して、音声データ出力をONさせるまでの第1の所定時間、Tは、Tでの遅れを取り戻すために、音声データを早送り出力する第2の所定時間、Tは、音声データを通常出力する時間を示している。
同図において、画像データ中で口の開口を時刻tに検出した場合に、検出後に音声データを出力すると第1の所定時間T分の遅延が生じるため、第1の所定時間T分の音声が欠落してしまう。音声の欠落を避けるために、第1の所定時間T後に口が開いた時点tからの音声データの出力を開始すると、音声と画像とのズレが生じる。そこで、出力制御部107は、口の開口が検出された場合に、バッファメモリ104にバッファリングしている、第1の所定時間T前(時刻t)からの音声データを第2の所定時間Tの間、早送りで出力して、音声と画像を同期させ、同期させた後、Tの間、通常出力して、音声の欠落および画像と音声のズレを解消している。なお、早送り出力の代わりにスキップ出力をすることにしてもよい。
以上説明したように、実施の形態1によれば、通信装置100は、カメラ101で参加者Aを撮影すると共に、マイク102で参加者Aの音声を集音し、カメラ101で撮影された参加者の画像データを、データ通信部110を介して、通信端末200に送信する一方、マイク102から入力される音声データをバッファメモリ104にバッファリングしておき、口検出部105は、カメラ101で撮影された参加者の画像データ中の口の動きを検出して通話状態を検出し、出力制御部107は、口検出部105で参加者Aの口の動きが検出された後、すなわち、発話状態が検出された後、バッファメモリ104にバッファリングしている、第1の所定時間T前からの音声データを第2の所定時間T、早送り出力し、その後、通常出力して、データ通信部110を介して、通信端末200に送信することとしたので、参加者の手を煩わせることなく、不要な音の混入を防止して、高品位な通話を行うことができ、また、参加者の発言した音声の欠落および画像と音声とのズレを防止することが可能となる。付言すると、受信側の通信端末200では、通信装置100から送信されてくる音声データおよび画像データをそのまま再生するだけで、不要な音の混入がなく、かつ、参加者の発言した音声の欠落および画像と音声とのズレのない通話が可能となる。
なお、ここでは、撮影した画像中で参加者Aの口の動きを検出した場合に、参加者Aが発話状態であると判断しているが、参加者Aが口を開けているが、発言していない状態を発話状態と判断することを防止するため、さらに、音声レベル判断部を設けることにしてもよい。より具体的には、口検出部105が撮影した画像データ中で参加者Aの口の動きを検出し、かつ、音声レベル判断部がマイク102から入力される音声データの音量(音声レベル)が閾値以上と判断した場合に、参加者Aが発話状態であると判断する構成としてもよい。
(実施の形態2)
実施の形態1では、マイク102から入力される音声を常時、バッファメモリ104にバッファリングしておき、参加者Aの口の動きを検出した後、バッファメモリ104にバッファリングした第1の所定時間T前の音声を第2の所定時間T、早送り出力する構成であるが、参加者Bは、早送りした音声を聞くことになるので、参加者Aの発言を聞きづらくなる。そこで、実施の形態2では、マイク102から入力される音声データおよびカメラ101から入力される画像データを、常時、バッファメモリ104にバッファリングしておき、参加者Aの口の動きを検出した後、バッファメモリ104にバッファリングしている、第1の所定時間T前からの音声データおよび画像データを出力し、参加者Aの発言が聞きづらくなるという点を解消している。
実施の形態2に係る通信端末100の構成例の概略は図2と同様であるので、異なる動作についてのみ説明する。図2において、データ処理部103は、カメラ101から入力される画像データおよびマイク102から入力される音声データをバッファメモリ104にそれぞれ順次格納する。口検出部105は、データ処理部103から入力される画像の顔画像の部分を検出し、さらに、検出した顔画像の口を特定してその動きを検出し、口の動きの検出結果(例えば、口の動き有りの場合「1」、口の動き無しの場合「0」)を出力制御部107に出力する。出力制御部107は、口検出部105で口の動きが検出された場合に、バッファメモリ104に順次格納されている、第1の所定時間T前からの画像データおよび音声データをデータ通信部110に出力する。データ通信部110に入力される画像データおよび音声データは、ネットワーク300を介して通信端末200に送信される。
図4は、実施の形態2に係る画像データおよび音声データの出力タイミングの一例を説明するための図である。同図において、(a)は画像入力タイミング(バッファメモリ104への入力)、(b)は画像出力タイミング(バッファメモリ104からの出力)、(c)は音声入力タイミング(バッファメモリ104への入力)、(d)音声出力タイミング(バッファメモリ104からの出力)を示している。また、tは、口の開口を検出した時刻、tは、口の動きの停止を検出した時刻、Tは、口の開口を検出して、音声データおよび画像データの出力をONさせるまでの第1の所定時間を示している。
同図において、出力制御部107は、口の開口が検出された後、第1の所定時間T後に、メモリバッファ104に格納している、第1の所定時間T前(時刻t)からの音声データおよび画像データを出力する。これにより、通信装置200では、参加者Aの発言を聞き易くなり、音声の早送りやスキップのない自然な通話が可能となる。
(実施の形態3)
実施の形態3では、本発明に係る遠隔会話システムの出力制御装置を受信側に適用した場合について説明する。実施の形態1,2では、送信側で、音声データと画像データの出力タイミングを調整しているが、実施の形態3では、受信側で音声データと画像データの出力タイミングを調整する場合について説明する。図5は、実施の形態2に係るテレビ会議システムの構成例を説明するための概念図である。図5において、図1と同等機能を有する部位には同一符号を付してある。同図において、送信側である通信端末100では、カメラ101で撮影した参加者の画像データおよびマイク102で集音した音声データをそのまま通信端末200に送信し、受信側である通信端末200は、受信した画像データおよび音声データの出力タイミングを調整する。
図6は、実施の形態3に係る通信端末200の構成例を説明するための概略ブロック図である。通信端末100の構成は通信端末200と同様である。通信端末200は、図6に示すように、カメラ201と、マイク202と、データ処理部203と、バッファメモリ204と、口検出部205と、出力制御部207と、スピーカ208と、モニタ209と、データ通信部120等を備えている。
カメラ201は、参加者Bを撮影して、撮影した画像データをデータ処理部203に出力する。マイク202は、音声を集音して音声データをデータ処理部203に出力する。データ処理部203は、カメラ201から入力される画像データおよびマイク202から入力される音声データをデータ処理してデータ通信部120に転送する。データ通信部120からは、画像データおよび音声データがネットワーク300を介して通信端末100に送信される。
他方、データ通信部120は、ネットワーク300を介して通信端末100から送信されてくる画像データおよび音声データを受信する。データ通信部120は、受信した画像データをモニタ209に出力して画像表示を行わせると共に口検出部205に転送する。また、データ通信部120は、受信した音声データをバッファメモリ204に順次格納する。口検出部205は、データ通信部120から入力される画像データの顔画像の部分を検出し、さらに、検出した顔画像の口を特定してその動きを検出し、口の動きの検出結果(例えば、口の動き有りの場合「1」、唇の動き無しの場合「0」)を出力制御部207に出力する。出力制御部207は、口検出部205で口の動きが検出された場合に、バッファメモリ204に順次格納される音声データをスピーカ208に出力して再生させる。ここで、出力制御部207の出力タイミングは、実施の形態1の図3で示した出力タイミングと同様である。なお、実施の形態2の図4で示した出力タイミングと同様とすることにしてもよい。
実施の形態3によれば、受信側で音声と画像の出力タイミングを調整しているので、送信側での音声と画像の出力タイミングの調整は不要となり、受信側の処理のみで、参加者の発言した音声の欠落および画像と音声とのズレのない通話が可能となる。
(実施の形態4)
実施の形態4では、本発明に係る遠隔会話システムの出力制御装置を中継装置に適用した場合について説明する。実施の形態4は、テレビ会議システムをサポートするサーバ等の中継装置を介して、テレビ会議を行う構成であり、中継装置が、音声データと画像データの出力タイミングを調整する場合について説明する。
図7は、実施の形態4に係るテレビ会議システムの構成を説明するための概念図である。図7において、図1と同等機能を有する部位には同一符号を付してある。同図において、会議室1に配置された通信端末100と、会議室2に配置された通信端末200と、中継装置500とはネットワーク300を介して接続されており、通信端末100と通信端末200は、中継装置500を介して、画像データおよび音声データの送受信を行う。通信端末100,200は、それぞれカメラおよびマイクで取得した画像データおよび音声データをそのまま中継装置500に送信し、中継装置500は、受信した画像データと音声データとのタイミングを調整して、通信端末200,100に送信する。
図8は、実施の形態4に係る中継装置500の構成例を説明するための概略ブロック図である。同図において、データ通信部510は、ネットワーク300を介して通信端末100から送信されてくる画像データおよび音声データを受信する。データ通信部510は、受信した画像を通信端末200に送信すると共に、口検出部505に転送する。また、データ通信部510は、受信した音声データをバッファメモリ504に順次格納する。
口検出部505は、データ通信部510から入力される画像データの顔画像の部分を検出し、さらに、検出した顔画像の口を特定してその動きを検出し、口の動きの検出結果(例えば、口の動き有りの場合「1」、口の動き無しの場合「0」)を出力制御部507に出力する。出力制御部507は、口検出部505で口の動きが検出された場合に、バッファメモリ504に順次格納される音声データを読み出して、データ通信部510に出力し、データ通信部510は、音声データを通信端末200に送信する。ここで、出力制御部507の出力タイミングは、実施の形態1の図3で示した出力タイミングと同様である。なお、実施の形態2の図4で示した出力タイミングと同様とすることにしてもよい。
実施の形態4によれば、中継装置500で音声と画像の出力タイミングを調整しているので、送信側および受信側での音声と画像の出力タイミングの調整が不要となり、中継装置500の処理のみで、参加者の発言した音声の欠落および画像と音声とのズレのない通話が可能となる。
なお、上記実施の形態1〜4のテレビ会議システムでは、接続する会議室を2つとしているが、本発明はこれに限られるものではなく、3つ以上の会議室を接続することにしてもよい。また、各会議室の参加者を1名としているが、これに限られるものではなく、各会議室の参加者を複数としてもよい。この場合、会議室の複数の参加者がいる場合は、複数の参加者のうち、いずれかの参加者の口の動きを検出した場合に、上記実施の形態の処理を行うことにすればよい。また、上記実施の形態1〜4では、本発明に係る遠隔会話システムをテレビ会議システムに適用した場合について説明したが、本発明は会議室で行われるテレビ電話会議に限られるものではなく、私的な通話にも利用可能であることは言うまでもない。また、上記実施の形態1〜4は、単独でまたは任意に組み合わせて実行可能である。
また、本発明の目的は、上述した遠隔会話システムの出力制御装置の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(または、CPU、MPU、DSP)が記録媒体に格納されたプログラムコードを実行することによっても達成することが可能である。この場合、記録媒体から読み出されたプログラムコード自体が前述した出力制御装置の機能を実現することになり、そのプログラムコードまたはそのプログラムを記憶した記録媒体は本発明を構成することになる。プログラムコードを供給するための記録媒体としては、FD、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリ、ROMなどの光記録媒体、磁気記録媒体、光磁気記録媒体、半導体記録媒体を使用することができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した出力制御装置の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した出力制御装置の機能が実現される場合も含まれること言うまでもない。
以上のように、本発明にかかる遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラムは、会社等で行われる公的なテレビ電話会議や私的な通話等に広く利用可能である。
1、2 会議室
100、200 通信端末
101,201 カメラ
102、202 マイク
103、203 データ処理部
104、204 バッファメモリ
105、205 口検出部
107、207 出力制御部
108、208 スピーカ
110、210 データ通信部
300 ネットワーク
500 中継装置

Claims (10)

  1. 各端末間で少なくとも音声を送受信する遠隔会話システムの出力制御装置において、
    撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出手段と、
    前記発話状態検出手段で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力制御手段と、
    前記音声入力手段で集音された音声データを記憶する記憶手段と、
    を備え、
    前記出力制御手段は、前記発話状態検出手段で発話状態と検出された場合に、前記記憶手段に記憶されている音声データを第1の所定時間分前から出力することを特徴とする遠隔会話システムの出力制御装置。
  2. 前記出力制御手段は、前記撮像手段で撮影された参加者の画像データを出力することを特徴とする請求項1に記載の遠隔会話システムの出力制御装置。
  3. 前記出力制御手段は、前記記憶手段に記憶されている音声を前記第1の所定時間分前から出力する場合に、第2の所定時間だけ早送り出力またはスキップ出力を行って、出力する音声データおよび画像データを同期させることを特徴とする請求項1に記載の遠隔会話システムの出力制御装置。
  4. 前記記憶手段は、前記撮像手段で撮影した参加者の画像を記憶し、
    前記出力制御手段は、前記発話状態手段で口が発話状態と検出された場合に、前記記憶手段に記憶されている画像を前記第1の所定時間分前から出力し、音声データと画像データを同期させることを特徴とする請求項1に記載の遠隔会話システムの出力制御装置。
  5. 前記発話状態検出手段は、さらに、前記音声入力手段から入力される音声データの音量が閾値以上であるか否かを判断し、前記撮影手段で撮影した参加者の画像データ中の口の動きを検出し、かつ、前記音声データの音量が閾値以上である場合に、前記発話状態を検出することを特徴とする請求項1〜請求項4のいずれか1つに記載の遠隔会話システムの出力制御装置。
  6. 前記出力制御装置は、送信側の前記端末に搭載されており、
    前記出力制御手段は、受信側の前記端末に音声データおよび画像データを前記出力することを特徴とする請求項1〜請求項5のいずれか1つに記載の遠隔会話システムの出力制御装置。
  7. 前記出力制御装置は、受信側の前記端末に搭載されており、
    前記出力制御手段は、送信側の前記端末から受信した音声データおよび画像データを、自己のスピーカおよびモニタに前記出力することを特徴とする請求項1〜請求項5のいずれか1つに記載の遠隔会話システムの出力制御装置。
  8. 前記出力制御装置は、各端末間の通信を中継する中継装置であり、
    前記出力制御手段は、送信側の前記端末から受信した音声データおよび画像データを、受信側の前記端末に前記出力することを特徴とする請求項1〜請求項5のいずれか1つに記載の遠隔会話システムの出力制御装置。
  9. 各端末間で少なくとも音声を送受信する遠隔会話システムの出力制御方法において、
    撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出工程と、
    前記発話状態検出工程で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力工程と、
    前記音声入力工程で集音された音声データを記憶手段に記憶する記憶工程と、
    を含み、
    前記出力工程では、前記発話状態検出工程で発話状態と検出された場合に、前記記憶手段に記憶されている音声データを第1の所定時間分前から出力することを特徴とする遠隔会話システムの出力制御方法。
  10. 各端末間で少なくとも音声データを送受信する遠隔会話システムの出力制御装置に搭載されるプログラムであって、
    撮像手段で撮像された参加者の画像データ中の口の動きを検出して、発話状態か否かを検出する発話状態検出工程と、
    前記発話状態検出工程で発話状態と検出された場合に、音声入力手段で集音される音声データを出力する出力工程と、
    前記音声入力工程で集音された音声データを記憶手段に記憶する記憶工程と、
    をコンピュータに実行させ、
    前記出力工程では、前記発話状態検出工程で発話状態と検出された場合に、前記記憶手段に記憶されている音声データを第1の所定時間分前から出力することを特徴とするコンピュータが実行可能なプログラム。
JP2009237543A 2009-10-14 2009-10-14 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム Active JP5340880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009237543A JP5340880B2 (ja) 2009-10-14 2009-10-14 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009237543A JP5340880B2 (ja) 2009-10-14 2009-10-14 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム

Publications (2)

Publication Number Publication Date
JP2011087074A JP2011087074A (ja) 2011-04-28
JP5340880B2 true JP5340880B2 (ja) 2013-11-13

Family

ID=44079711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009237543A Active JP5340880B2 (ja) 2009-10-14 2009-10-14 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム

Country Status (1)

Country Link
JP (1) JP5340880B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108449570B (zh) * 2018-03-26 2020-06-23 苏州科达科技股份有限公司 跨用户域视频会议的实现方法、系统、设备及存储介质
JP2022016997A (ja) * 2020-07-13 2022-01-25 ソフトバンク株式会社 情報処理方法、情報処理装置及び情報処理プログラム
JP7404568B1 (ja) 2023-01-18 2023-12-25 Kddi株式会社 プログラム、情報処理装置、及び情報処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06237304A (ja) * 1993-02-09 1994-08-23 Oki Electric Ind Co Ltd 音声会議システム
JPH0758859A (ja) * 1993-08-13 1995-03-03 Oki Electric Ind Co Ltd 遠隔会議用情報送信装置及び情報受信装置
JPH0764578A (ja) * 1993-08-25 1995-03-10 Canon Inc 信号処理装置
JPH099224A (ja) * 1995-06-19 1997-01-10 Matsushita Electric Ind Co Ltd リップシンク制御装置を用いた動画像および音声コーデック装置
JP2000175170A (ja) * 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム

Also Published As

Publication number Publication date
JP2011087074A (ja) 2011-04-28

Similar Documents

Publication Publication Date Title
US11482240B2 (en) Presentation of communications
CN107040751B (zh) 控制实时会议会话的方法、机器可读介质及通信系统
US20110164105A1 (en) Automatic video stream selection
US10732924B2 (en) Teleconference recording management system
US8786659B2 (en) Device, method and computer program product for responding to media conference deficiencies
KR20160025875A (ko) 다자간 영상 회의 서비스의 참여자 확장 방법
WO2012034329A1 (zh) 视频通话中视频录制的方法及装置
WO2018204117A1 (en) Web real-time communication from an audiovisual file
JP5340880B2 (ja) 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
JP2010157906A (ja) 映像表示装置
JP5436743B2 (ja) 通信端末装置および通信制御装置
JP2015012557A (ja) 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム
JP2006340321A (ja) ネットワークシステム及びネットワークシステムにおける通信方法
JP2007259293A (ja) 多者間通話システム、通話機能付き端末装置、多者間通話方法、プログラム及び記録媒体
JP2022016997A (ja) 情報処理方法、情報処理装置及び情報処理プログラム
US10582063B2 (en) Teleconference recording management system
KR20090010385A (ko) 화상 통신 단말의 화상 통화 녹화 방법 및 장치
JP4531013B2 (ja) 映像音声会議システムおよび端末装置
JP2014229990A (ja) インターホンシステム
US11741933B1 (en) Acoustic signal cancelling
JP2010219783A (ja) 通信端末、通信方法およびコンピュータプログラム
EP4300918A1 (en) A method for managing sound in a virtual conferencing system, a related system, a related acoustic management module, a related client device
KR101145220B1 (ko) VoIP(Voice over InternetProtocol) 기반의 화상회의장치 및 그 제어방법
JP6145305B2 (ja) インターホンシステム
JP2008060752A (ja) 通信端末の発呼方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130807

R150 Certificate of patent or registration of utility model

Ref document number: 5340880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250