JP2012142910A

JP2012142910A - 通信装置および通信方法

Info

Publication number: JP2012142910A
Application number: JP2011111807A
Authority: JP
Inventors: Naoya Takao; 直弥高尾; Kazuo Fujimoto; 和生藤本; Shigeaki Watanabe; 茂晃渡邉; Masashi Kozuki; 昌史上月; Masaki Ito; 正樹伊藤
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2010-12-15
Filing date: 2011-05-18
Publication date: 2012-07-26
Anticipated expiration: 2031-05-18
Also published as: US20120154512A1; JP2012142927A; US8902277B2; US20120162346A1; JP2012142915A; JPWO2012081203A1; US20120155657A1; WO2012081203A1; US20120155827A1; JP5877351B2

Abstract

【課題】使用者が覚える違和感を軽減することが可能な通信装置および通信方法を提供する。
【解決手段】他の通信装置から送信される音声データが受信部１３２により受信され、受信された音声データがテレビ３００のスピーカ３０２に出力される。出力された音声データに基づいて音声が発生され、その音声がカメラ／マイク装置２００のマイク２０２に入力される。入力された音声に対応する音声データがエコーキャンセル処理部１２５に入力される。エコーキャンセル処理部１２５により受信された音声データに対する入力された音声データの歪量が検出される。歪検出部１２６により検出された音声データの歪量が許容量を超えたか否かが判定される。音声データの歪量が許容量を超えた場合に、テレビ３００における音声の出力条件の変更要求を使用者に提示するための報知データＭが報知信号生成部１２７により生成される。
【選択図】図１０

Description

本発明は、映像データとともに音声データの送受信が可能な通信装置および通信方法に関する。

特許文献１に記載の通信システムおよびデータ通信方法においては、ネットワークを介して第１の端末と第２の端末との間で通信が行われる。この通信システムにおいて、第１および第２の端末の各々は、受信回路および送信回路を含む。また、第１および第２の端末の各々は、入力装置としてウェブカメラおよびマイクロホンを備えるとともに、出力装置としてディスプレイスクリーンおよびラウドスピーカを備える。

例えば、第１の端末において、ウェブカメラに第１の端末のユーザの映像が入力され、マイクロホンに第１の端末のユーザの音声が入力される。また、第２の端末において、ウェブカメラに第２の端末のユーザの映像が入力され、マイクロホンに第２の端末のユーザの音声が入力される。

第１の端末の送信回路においては、ウェブカメラおよびマイクロホンに入力された映像および音声に基づくデータがネットワークを介して第２の端末に送信される。この場合、第２の端末の受信回路においては、ネットワークを介して第１の端末から送信されたデータが受信され、受信されたデータに基づく映像および音声がディスプレイスクリーンおよびラウドスピーカから出力される。

同様に、第２の端末の送信回路においては、ウェブカメラおよびマイクロホンに入力された映像および音声に基づくデータがネットワークを介して第１の端末に送信される。この場合、第１の端末の受信回路においては、ネットワークを介して第２の端末から送信されたデータが受信され、受信されたデータに基づく映像および音声がディスプレイスクリーンおよびラウドスピーカから出力される。

これにより、第１の端末のユーザは、第２の端末のユーザの映像を視認しつつ第２の端末のユーザと会話することができる。同様に、第２の端末のユーザは、第１の端末のユーザの映像を視認しつつ第１の端末のユーザと会話することができる。

特表２０１０−５２１８５６号公報特表２０１０−２８３４８３号公報

上記の通信システムにおいて、例えば第２の端末から第１の端末に送られるデータに基づく音声が、第１の端末のラウドスピーカにより出力される。このとき、第１の端末のラウドスピーカから出力された音声の一部が、室内で反響することにより第１の端末のマイクロホンに入力される場合がある。第１の端末の送信回路においては、マイクロホンから入力された音声に基づくデータがネットワークを介して第２の端末に送信される。そのため、第２の端末では、第２の端末のユーザが言葉を発するごとにそのユーザの音声がラウドスピーカから出力される。この場合、第２の端末のユーザは第１の端末のユーザとの会話に違和感を覚える。

上記のように、第２の端末において、マイクロホンに入力された音声がラウドスピーカから出力されることを抑制するための構成としてエコーキャンセラが知られている（例えば、特許文献２参照）。

エコーキャンセラによれば、第１の端末のラウドスピーカから出力される音声に基づいて第１の端末のマイクロホンに入力される音響エコーが推定される。推定結果に基づいて、第１の端末のラウドスピーカに入力される音声信号から推定された音響エコーに基づく音声信号が減算される。これにより、第２の端末のラウドスピーカから音響エコーが発生することが抑制される。

しかしながら、エコーキャンセラの構成を採用した場合でも、第１の端末および第２の端末に用いられるラウドスピーカから出力される音声に歪が生じる場合がある。

また、上記の通信システムの各端末においては、通信されたデータに画像処理および音響処理が行われる。そのため、各端末では、データが入力されるタイミングと入力されたデータに基づく映像および音声が出力されるタイミングとの間に遅延が発生する。

このように、第１の端末において出力される音声に歪または遅延が生じていると、第２の端末から出力される音声に第１の端末に入力された音声の影響が残る。この場合、第２の端末のユーザは会話に違和感を覚える。同様に、第２の端末において出力される音声に歪または遅延が生じていると、第１の端末から出力される音声に第２の端末に入力された音声の影響が残る。この場合、第１の端末のユーザは会話に違和感を覚える。

本発明の目的は、使用者が覚える違和感を軽減することが可能な通信装置および通信方法を提供することである。

（１）第１の発明に係る通信装置は、他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置であって、他装置から送信される音声データを受信可能に構成された受信部と、受信部により受信された音声データを音声出力装置に出力する音声データ出力部と、音声入力装置からの音声データが入力される音声データ入力部と、音声データ入力部により入力された音声データを他装置に送信可能に構成された送信部と、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データと音声データ入力部により入力された音声データとの差分を検出する差分検出部と、差分検出部により検出された差分が予め定められた許容量を超えたか否かを判定する判定部と、判定部により差分が許容量を超えたと判定された場合に、音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号を生成する提示信号生成部とを備えるものである。

その通信装置においては、他装置から送信される音声データが受信部により受信され、受信部により受信された音声データが音声データ出力部により音声出力装置に出力される。音声データ入力部には、音声入力装置から音声データが入力される。音声データ入力部により入力された音声データは、送信部により他装置に送信される。それにより、通信装置の使用者と他装置の他の使用者との間で会話を行うことができる。

通信装置に接続される音声出力装置により出力される音声が通信装置に接続される音声入力装置に入力された場合、他装置に入力された音声が通信装置を経由して他装置から出力される。この場合、通信装置において、音声データ入力部に入力された音声データから受信部により受信された音声データに相当する成分を除去することにより、他装置に入力された音声が通信装置を経由して他装置から出力されることを防止することが可能となる。

しかしながら、音声出力装置により出力される音声に歪または遅延が生じている場合には、他装置により出力される音声に他装置に入力された音声の影響が残ることになる。それにより、他装置の使用者が違和感を覚えることになる。

そこで、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データにより表される波形と音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分が差分検出部により検出される。

ここで、波形の幾何学的な差分とは、一の波形と他の波形との相違の程度を意味する。一の波形の振幅に任意の係数を乗じることにより得られる波形が他の波形と等しい場合には、一の波形と他の波形との差分は０となる。波形の時間的な差分とは、一の波形と他の波形との時間軸上でのずれの程度を意味する。

検出された差分が予め定められた許容量を超えたか否かが判定部により判定される。差分が許容量を超えたと判定された場合には、音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号が提示信号生成部により生成される。

提示信号に基づいて音声の出力条件の変更要求が提示されると、通信装置の使用者に、音声出力装置による音声の出力条件の変更が促される。その結果、通信装置の使用者が音声出力装置による音声の出力条件を変更することにより、他装置の使用者が覚える違和感を軽減することが可能となる。

（２）差分検出部は、音声データ入力部に入力された音声データから受信部により受信された音声データに相当する成分を除去する処理を行う除去処理部と、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、除去処理部により処理された音声データのレベルを差分として検出するレベル検出部を含み、提示信号は、音声出力装置の音量の調整の要求を音声の出力条件の変更要求として含んでもよい。

この場合、音声データ入力部に入力された音声データから受信部により受信された音声データに相当する成分を除去する処理が除去処理部により行われる。音声出力装置から出力される音声に歪が生じている場合には、除去処理部により処理された音声データに音声の歪に起因するノイズが残ることになる。そこで、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、除去処理部により処理された音声データのレベルが差分としてレベル検出部により検出される。除去処理部により処理された音声データのレベルが許容量を超えた場合には、音声出力装置により出力される音声が一定量以上の歪を有すると判定することができる。この場合、音声出力装置の音量の調整の要求を使用者に提示するための提示信号が提示信号生成部により生成される。

提示信号に基づいて音声出力装置の音量の調整の要求が提示されることにより、通信装置の使用者に音声出力装置の音量の調整が促される。通信装置の使用者が音声出力装置の音量を調整することにより、音声出力装置により出力される音声の歪を軽減することができる。それにより、除去処理部により処理された音声データにおいて、音声の歪に起因するノイズが抑制される。その結果、他装置の使用者が覚える違和感を軽減することが可能となる。

（３）提示信号は、音声出力装置の音量の低減の要求を音声の出力条件の変更要求として含んでもよい。

この場合、除去処理部により処理された音声データのレベルが許容量を超えた場合に、音声出力装置の音量の低減の要求を使用者に提示するための提示信号が提示信号生成部により生成される。提示信号に基づいて音声出力装置の音量の低減の要求が提示されることにより、通信装置の使用者に音声出力装置の音量の低減が促される。通信装置の使用者が音声出力装置の音量を低減することにより、音声出力装置から出力される音声の歪が抑制される。それにより、除去処理部により処理された音声データにおいて、音声の歪に起因するノイズが十分に抑制される。その結果、他装置の使用者が覚える違和感を軽減することが可能となる。

（４）通信装置は、映像出力装置に接続可能であり、映像出力装置に映像データを出力する映像データ出力部をさらに備え、提示信号生成部は、音声出力装置の音量の調整の要求を表示するための映像データを提示信号として生成し、映像データ出力部は、提示信号生成部により生成された提示信号を映像出力装置に出力してもよい。

この場合、音声出力装置の音量の調整の要求を表示するための映像データが提示信号生成部により生成される。生成された映像データが映像データ出力部から映像出力装置に出力される。これにより、音声出力装置の音量の調整の要求が映像出力装置により表示される。その結果、会話を妨げることなく通信装置の使用者に音声出力装置の音量の調整を映像により促すことが可能となる。

（５）音声出力装置は、入力された音声データの遅延量を変更可能に構成され、差分検出部は、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データに対する音声データ入力部に入力された音声データの遅延量を差分として検出する遅延検出部を含み、提示信号は、音声出力装置における音声データの遅延量の変更を伴う操作の要求を音声の出力条件の変更要求として含んでもよい。

音声出力装置において生じる音声データの遅延が大きい場合には、他装置に入力された音声が通信装置に接続される音声出力装置から出力されるまでの時間、および通信装置に接続される音声入力装置に入力された音声が他装置から出力されるまでの時間が長くなる。それにより、会話時に、通信装置の使用者および他装置の使用者が違和感を覚える。

そこで、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データに対する音声データ入力部に入力された音声データの遅延量が遅延検出部により差分として検出される。検出された遅延量が許容量を超えた場合に、音声出力装置における音声データの遅延量の変更を伴う操作の要求を使用者に提示するための提示信号が提示信号生成部により生成される。

提示信号に基づいて音声データの遅延量の変更を伴う操作の要求が提示されることにより、通信装置の使用者に音声データの遅延量の変更を伴う操作が促される。通信装置の使用者が音声データの遅延量の変更を伴う操作を行うことにより、音声出力装置における音声データの遅延量を小さくすることが可能となる。これにより、他装置に入力された音声が通信装置に接続される音声出力装置から出力されるまでの時間、および通信装置に接続される音声入力装置に入力された音声が他装置から出力されるまでの時間を短くすることができる。その結果、会話時に通信装置の使用者および他装置の使用者が覚える違和感を軽減することが可能となる。

（６）通信装置は、映像出力装置に接続可能であり、映像出力装置は、映像データに基づいて複数の表示モードのうち選択された表示モードで映像を表示可能に構成されるとともに、複数の表示モードにそれぞれ対応して映像データの遅延量が異なるように設定され、音声出力装置は、音声データが映像出力装置における映像データに同期するように音声データの遅延量が調整されるように構成され、受信部は、他装置から送信された映像データを受信可能に構成され、通信装置は、受信部により受信された映像データを出力する映像データ出力部をさらに備え、提示信号は、音声出力装置における音声データの遅延量の変更を伴う操作の要求として映像出力装置の表示モードの変更の操作の要求を含んでもよい。

この場合、映像出力装置により表示される映像の表示モードにより映像データの遅延量が異なる。また、音声出力装置において、音声データが映像出力装置における映像データに同期するように音声データの遅延量が調整される。そのため、表示モードが変更されると、音声データの遅延量が変更される。映像出力装置が映像データの遅延量が大きい表示モードに設定されている場合には、音声データの遅延量も大きくなる。その場合、他装置に入力された音声が通信装置に接続される音声出力装置から出力されるまでの時間、および通信装置に接続される音声入力装置に入力された音声が他装置から出力されるまでの時間が長くなる。それにより、会話時に、通信装置の使用者および他装置の使用者が違和感を覚える。

そこで、遅延検出部により検出された遅延量が許容量を超えた場合に、映像出力装置の表示モードの変更の操作の要求を使用者に提示するための提示信号が提示信号生成部により生成される。提示信号に基づいて映像出力装置の表示モードの変更の操作の要求が提示されることにより、通信装置の使用者に映像出力装置の表示モードの変更の操作が促される。通信装置の使用者が映像出力装置の表示モードの変更の操作を行うことにより、映像データの遅延量が変更されるとともに、音声出力装置における音声データの遅延量が変更される。したがって、通信装置の使用者が映像出力装置の表示モードの変更の操作を行うことにより、音声データの遅延量を小さくすることが可能となる。その結果、会話時に通信装置の使用者および他装置の使用者が覚える違和感を軽減することが可能となる。

（７）提示信号生成部は、映像出力装置の表示モードの変更の操作の要求を表示するための映像データを提示信号として生成し、映像データ出力部は、提示信号生成部により生成された提示信号を映像出力装置に出力してもよい。

この場合、映像出力装置の表示モードの変更の操作の要求を表示するための映像データが提示信号生成部により生成される。生成された映像データが映像データ出力部により映像出力装置に出力される。これにより、映像出力装置の表示モードの変更の操作の要求が映像表示装置により表示される。その結果、会話を妨げることなく通信装置の使用者に映像出力装置の表示モードの変更の操作を映像により促すことが可能となる。

（８）通信装置は、受信部により受信された音声データを遅延させる遅延部と、音声データ入力部に入力された音声データから遅延部により遅延された音声データに相当する成分を除去する処理を行う除去処理部とをさらに備え、送信部は、除去処理部により処理された音声データを他装置に送信するように構成されてもよい。

この場合、遅延部により受信部により受信された音声データが遅延される。音声データ入力部に入力された音声データから遅延部により遅延された音声データに相当する成分を除去する処理が除去処理部により行われる。除去処理部により処理された音声データが、送信部により他装置に送信される。これにより、通信装置に接続される音声出力装置から出力される音声が通信装置に接続される音声入力装置に入力される場合でも、他装置に入力された音声が通信装置を経由して他装置から出力されることを抑制することが可能となる。

また、提示信号に基づいて音声出力装置における音声データの遅延量が小さくされるので、大きな遅延量を有する遅延部を用いることなく、音声データ入力部に入力された音声データから受信部により受信された音声データの成分を除去することが可能となる。そのため、遅延部のコストが増加しない。その結果、通信装置の低コスト化が実現される。

（９）第２の発明に係る通信装置は、他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置であって、他装置から送信される音声データを受信可能に構成された受信部と、受信部により受信された音声データを音声出力装置に出力する音声データ出力部と、音声入力装置からの音声データが入力される音声データ入力部と、音声データ入力部により入力された音声データを他装置に送信可能に構成された送信部と、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データにより表される波形と音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分を検出する差分検出部と、差分検出部により検出された差分が予め定められた許容量を超えたか否かを判定する判定部と、判定部により差分が許容量を超えたと判定された場合に、音声データ出力部により出力される音声データに基づく音声の出力条件を変更するための制御信号を生成する制御信号生成部とを備えるものである。

そこで、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データにより表される波形と音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分が差分検出部により検出される。また、検出された差分が予め定められた許容量を超えたか否かが判定部により判定される。差分が許容量を超えたと判定された場合には、音声データ出力部により出力される音声データに基づく音声の出力条件を変更するための制御信号が提示信号生成部により生成される。

制御信号に基づいて音声の出力条件が変更されることにより、会話を妨げることなく他装置の使用者が覚える違和感を軽減することが可能となる。

（１０）第３の発明に係る通信方法は、他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置を用いた通信方法であって、他装置から送信される音声データを通信装置の受信部により受信するステップと、受信された音声データを通信装置の音声データ出力部から音声出力装置に出力するステップと、音声入力装置からの音声データを通信装置の音声データ入力部に入力するステップと、音声データ入力部に入力された音声データを通信装置の送信部から他装置に送信するステップと、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データにより表される波形と音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分を検出するステップと、検出された差分が予め定められた許容量を超えたか否かを判定するステップと、差分が許容量を超えたと判定された場合に、音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号を出力するステップとを備えるものである。

その通信方法においては、他装置から送信される音声データが通信装置の受信部により受信され、受信部により受信された音声データが通信装置の音声データ出力部により音声出力装置に出力される。音声データ入力部には、音声入力装置から音声データが入力される。音声データ入力部により入力された音声データは、通信装置の送信部により他装置に送信される。それにより、通信装置の使用者と他装置の他の使用者との間で会話を行うことができる。

そこで、音声データ出力部から出力された音声データに基づいて音声出力装置により音声が出力されるとともに出力された音声に基づく音声データが音声入力装置から音声データ入力部に入力されるときに、受信部により受信された音声データにより表される波形と音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分が検出される。また、検出された差分が予め定められた許容量を超えたか否かが判定される。差分が許容量を超えたと判定された場合には、音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号が生成される。

本発明によれば、通信装置の使用者が覚える違和感を軽減することできる。

第１の実施の形態に係る通信システムの概略を説明するための図。図１の端末の構成を示すブロック図。サインイン画面を示す図。ユーザ登録画面を示す図。コンタクト画面を示す図。コンタクトリスト画面を示す図。会話画面を示す図。着信画面を示す図。着信画面の他の例を示す図。図２の制御ＬＳＩの詳細な構成を示すブロック図。エコーキャンセル処理部によるエコーキャンセル処理を説明するための図。報知映像を含む会話画面の一例を示す図。第１の実施の形態に係る会話プログラムに基づく制御ＬＳＩの一動作例を示すフローチャート。第２の実施の形態に係るテレビの構成を示すブロック図。複数の表示モードにそれぞれ対応する音声遅延量の一覧。第２の実施の形態に係る制御ＬＳＩの詳細な構成を示すブロック図。報知映像を含む会話画面の他の例を示す図。エコーキャンセル処理の概念図。第２の実施の形態に係る会話プログラムに基づく制御ＬＳＩの一動作例を示すフローチャート。

［１］第１の実施の形態
本発明の一実施の形態に係る通信装置および通信方法について図面を参照しつつ説明する。

（１）通信システムの概略
第１の実施の形態に係る通信装置を含む通信システムについて説明する。図１は第１の実施の形態に係る通信システムの概略を説明するための図であり、図２は図１の端末１０００の構成を示すブロック図である。

図１に示すように、この通信システムにおいては、端末１０００、基地局８００、パーソナルコンピュータ６００、テレビジョン受像機（以下、テレビと略記する。）７００および会話用サーバ２０００がネットワーク５００に接続される。また、携帯電話９００が基地局８００を介してネットワーク５００に接続される。このように、ネットワーク５００には、複数の通信端末として、端末１０００、パーソナルコンピュータ６００、テレビ７００および携帯電話９００が接続される。本実施の形態において、ネットワーク５００はインターネットである。

図１の例において、互いに接続された複数の通信端末（端末１０００、パーソナルコンピュータ６００、テレビ７００および携帯電話９００）には、それぞれ後述する制御ＬＳＩ（大規模集積回路）１０１（図２）が内蔵される。制御ＬＳＩ１０１（図２）には、内蔵のメモリに後述する会話プログラムが記憶される。

また、各通信端末は、映像入力部、音声入力部、映像出力部および音声出力部を有する。映像入力部は例えばカメラを含む。音声入力部は例えばマイクを含む。映像出力部は例えばモニタを含む。音声出力部は例えばスピーカを含む。

本実施の形態において、複数の通信端末のユーザは、予めそれぞれ固有のユーザ情報を会話用サーバ２０００に登録する必要がある。ユーザ情報は、ユーザ識別子（以下、ユーザＩＤと呼ぶ。）およびそのユーザＩＤに対応付けられたパスワードを含む。会話用サーバ２０００は、複数のユーザの複数のユーザ情報を記憶することにより、複数のユーザを管理する。

新たなユーザ情報が登録される場合には、任意の通信端末から会話用サーバ２０００に、ユーザ情報の登録要求とともに新たなユーザ情報が送信される。

会話用サーバ２０００は、予め記憶されている複数のユーザ情報を参照しつつ、受信したユーザ情報のユーザＩＤが既に登録されている複数のユーザ情報のユーザＩＤのいずれかに一致するか否かを判定する。

会話用サーバ２０００は、受信したユーザ情報のユーザＩＤが既に登録されている複数のユーザ情報のユーザＩＤのいずれにも一致しない場合、与えられたユーザ情報を記憶する。一方、会話用サーバ２０００は、受信したユーザ情報のユーザＩＤが既に登録されている複数のユーザ情報のユーザＩＤのいずれかに一致する場合、受信したユーザ情報を記憶しない。これにより、同一のユーザＩＤを含む複数のユーザ情報が会話用サーバ２０００に登録されることが防止される。

会話用サーバ２０００に、例えば一の通信端末からユーザ情報とともにサインインの要求が送信される。この場合、会話用サーバ２０００は、受信したユーザ情報が記憶されている複数のユーザ情報のいずれかに一致するか否かを判定する。すなわち、会話用サーバ２０００は、一の通信端末から受信したユーザ情報が既に登録されているか否かを判定する。

受信したユーザ情報が既に登録されている場合、会話用サーバ２０００は、複数のユーザが同一のユーザ情報でサインインすることを防止するために、受信したユーザ情報と同一のユーザ情報によるサインインが現在行われているか否かを判定する。

会話用サーバ２０００は、受信したユーザ情報と同一のユーザ情報によるサインインが行われていない場合に、ユーザのサインインを許可する。一方、会話用サーバ２０００は、一の通信端末から受信したユーザ情報が登録されていない場合、および受信したユーザ情報と同一のユーザ情報によるサインインが現在行われている場合に、ユーザのサインインを許可しない。

ユーザが会話用サーバ２０００にサインインすることにより、ユーザが使用する通信端末から会話用サーバ２０００に、通信端末のアドレス（例えば、インターネットプロトコルアドレス）が送信される。また、通信端末から会話用サーバ２０００に、所定の周期でサインインの継続要求が送信される。

これにより、会話用サーバ２０００においては、現在サインインしているユーザ、およびサインインしているユーザが使用する通信端末のアドレスが管理される。

ユーザは、一の通信端末を用いて会話用サーバ２０００にサインインすることにより、会話用サーバ２０００に他のユーザとの会話要求をそのユーザのユーザＩＤとともに送信することができる。この場合、会話用サーバ２０００は、受信したユーザＩＤに基づいて他のユーザがサインインしているか否かを判定する。

他のユーザがサインインしている場合、会話用サーバ２０００は、他のユーザが使用する通信端末のアドレスを一の通信端末に送信する。これにより、一の通信端末が、受信したアドレスにより他の通信端末にアクセスする。このようにして、一の通信端末と他の通信端末との間で、映像データおよび音声データを含む種々のデータの通信が可能となる。

一方、他のユーザがサインインしていない場合、会話用サーバ２０００は、他のユーザがサインインしていないことを示す情報を一の通信端末に送信する。この場合、一の通信端末においては、他のユーザと会話することができないことを示す情報がモニタまたはスピーカによりユーザに提示される。

上記に加えて、ユーザは、一の通信端末を用いて会話用サーバ２０００にサインインすることにより、他の通信端末からのアクセスを受け付けることができる。

複数の通信端末間では、カメラにより撮影された各ユーザの映像に基づく映像データ、およびマイクに入力された各ユーザの音声に基づく音声データの通信が行われる。これにより、各通信端末のユーザは、他の通信端末のユーザと会話することができる。

次に、端末１０００の構成について説明する。図１および図２に示すように、端末１０００は、通信装置１００、カメラ／マイク装置２００、テレビ３００および２つのリモートコントローラ４００，４９０を備える。

図２に示すように、通信装置１００は、制御ＬＳＩ１０１、ネットワークインターフェース１０３、無線受信部１０４、ユニバーサルシリアルバス（以下、ＵＳＢと呼ぶ。）インターフェース１０５、電源供給部１０６、高解像度マルチメディアインターフェース（以下、ＨＤＭＩと呼ぶ。）１０７、光ディスクドライブ１０８、メモリスロット１０９、蛍光表示管（以下、ＦＬディスプレイと呼ぶ。）１９１、発光ダイオードユニット（以下、ＬＥＤユニットと呼ぶ。）１９２、ブザー１９３およびフラッシュメモリ１１２を備える。メモリスロット１０９には、メモリカード１１０が挿入される。本実施の形態では、通信装置１００のネットワークインターフェース１０３は、ネットワークケーブル（例えば、ローカルエリアネットワークケーブル）を介してネットワーク５００に接続される。

制御ＬＳＩ１０１は、ＣＰＵ（中央演算処理装置）およびメモリを含み、半導体を用いた集積回路で実現される。上述のように、制御ＬＳＩ１０１のメモリには、通信装置１００のシステムプログラムとともに後述する会話プログラムが記憶される。ＣＰＵがメモリに記憶された各プログラムを実行することにより、制御ＬＳＩ１０１が種々の処理を実行する。また、制御ＬＳＩ１０１は、通信装置１００の各構成要素の動作を制御するとともに、他の通信端末（図１のパーソナルコンピュータ６００、テレビ７００および携帯電話９００等）との通信を制御する。制御ＬＳＩ１０１の詳細な構成は後述する。

ネットワークインターフェース１０３は、ネットワークケーブルを介してネットワーク５００に接続される。ネットワークインターフェース１０３により、ネットワーク５００から通信装置１００の制御ＬＳＩ１０１に、映像データおよび音声データを含む種々のデータが与えられる。また、通信装置１００の制御ＬＳＩ１０１からネットワーク５００に映像データおよび音声データを含む種々のデータが与えられる。

後述するように、リモートコントローラ４００は、無線通信（例えば赤外線通信）により後述する操作信号を通信装置１００に送信する。無線受信部１０４は、リモートコントローラ４００から無線で送信される操作信号を受信する。無線受信部１０４により受信された操作信号は、制御ＬＳＩ１０１に与えられる。

ＵＳＢインターフェース１０５は、ＵＳＢケーブルを介してカメラ／マイク装置２００に接続される。電源供給部１０６は、例えばコンセントを含み、家庭用電源に接続される。電源供給部１０６は、家庭用電源から得られた電力を通信装置１００の各構成要素に供給する。ＨＤＭＩ１０７は、ＨＤＭＩケーブルを介してテレビ３００に接続される。光ディスクドライブ１０８は、光ディスクに対してデータの読み書きを行う。

メモリスロット１０９は、メモリカード１１０が挿入および取り出し可能に構成される。制御ＬＳＩ１０１は、メモリスロット１０９にメモリカード１１０が挿入された状態で、メモリカード１１０に記憶されたデータを読み出すことができる。また、制御ＬＳＩ１０１は、メモリカード１１０にデータを書き込むことができる。

フラッシュメモリ１１２は、制御ＬＳＩ１０１に接続される。フラッシュメモリ１１２に代えて、他の不揮発性メモリを用いてもよい。フラッシュメモリ１１２には、例えば端末１０００を使用するユーザのユーザ情報および他のユーザのユーザＩＤのリスト（以下、コンタクトリストと呼ぶ。）が記憶される。また、フラッシュメモリ１１２には、ユーザが他の通信端末からのアクセスを受け付けることができない場合に、他の通信端末からのアクセスに応答して他の通信端末に与えられるべきデータ（例えば、留守であることを伝えるための映像データおよび音声データ）が記憶される。

通信装置１００は、例えば箱型のケーシングを有する。制御ＬＳＩ１０１、ネットワークインターフェース１０３、無線受信部１０４、ＵＳＢインターフェース１０５、電源供給部１０６、ＨＤＭＩ１０７、光ディスクドライブ１０８およびメモリスロット１０９はケーシング内に収容される。ＦＬディスプレイ１９１、ＦＬディスプレイ１９１、ＬＥＤユニット１９２およびブザー１９３は、ケーシングに取り付けられる。

ＦＬディスプレイ１９１は、例えば７セグメント蛍光表示管または１４セグメント蛍光表示管等からなる。制御ＬＳＩ１０１からＦＬディスプレイ１９１に現在の時刻および光ディスクの再生時間等を示す情報が与えられる。ＦＬディスプレイ１９１は、与えられた情報を表示する。

ＬＥＤユニット１９２は単色の光を発生する。制御ＬＳＩ１０１からＬＥＤユニット１９２に発光または非発光を示す情報が与えられる。ＬＥＤユニット１９２は、制御ＬＳＩ１０１から与えられる情報に基づいて点灯、消灯または点滅する。

制御ＬＳＩ１０１からブザー１９３に警報の発生を指令するための情報が与えられる。この場合、ブザー１９３は、制御ＬＳＩ１０１から与えられる情報に基づいて警報音を発生する。

リモートコントローラ４００は、操作部４０１、処理回路４０２および無線送信部４０３を備える。操作部４０１は、図１の電源ボタン４１１、会話起動ボタン４１２、会話応答ボタン４１３、十字キー４１４、決定ボタン４１５および図示しない複数の数字ボタンを含む。十字キー４１４は、上ボタン、下ボタン、左ボタンおよび右ボタンを含む。ユーザにより、操作部４０１のいずれかのボタンが操作される。処理回路４０２により操作されたボタンに応じた操作信号が生成される。生成された操作信号は、無線送信部４０３から通信装置１００の無線受信部１０４に送信される。上記のように、通信装置１００とリモートコントローラ４００との間の無線通信は、例えば赤外線通信により実現される。

カメラ／マイク装置２００は、カメラ２０１、マイク２０２および２つのアナログデジタル（以下、Ａ／Ｄと呼ぶ。）コンバータ２０３，２０４およびＵＳＢインターフェース２０５を備える。カメラ／マイク装置２００のＵＳＢインターフェース２０５は、ＵＳＢケーブルを介して通信装置１００のＵＳＢインターフェース１０５に接続される。

カメラ２０１は、撮像素子を備える。撮像素子により被写体の映像が取得される。カメラ２０１においては、取得された映像に基づいてアナログ形式の映像信号が生成される。生成された映像信号が、Ａ／Ｄコンバータ２０３によりデジタル形式の映像データに変換される。デジタル形式の映像データが、ＵＳＢインターフェース２０５、ＵＳＢケーブルおよびＵＳＢインターフェース１０５を介して、通信装置１００の制御ＬＳＩ１０１に与えられる。

マイク２０２には外部から音声（音波）が入力される。マイク２０２においては、入力された音声に基づいてアナログ形式の音声信号が生成される。生成された音声信号が、Ａ／Ｄコンバータ２０４によりデジタル形式の音声データに変換される。デジタル形式の音声データが、ＵＳＢインターフェース２０５、ＵＳＢケーブルおよびＵＳＢインターフェース１０５を介して、通信装置１００の制御ＬＳＩ１０１に与えられる。

本実施の形態では、カメラ／マイク装置２００は、例えばユーザの映像およびユーザの音声を取得するために用いられる。

上記のように、カメラ／マイク装置２００は、カメラ２０１およびマイク２０２を含む。通信装置１００にカメラ／マイク装置２００が接続される代わりに、通信装置１００にカメラ２０１およびマイク２０２がそれぞれ個別に接続されてもよい。

カメラ／マイク装置２００がＨＤＭＩを有してもよい。この場合、カメラ／マイク装置２００のＨＤＭＩがＨＤＭＩケーブルを介して通信装置１００に接続される。カメラ／マイク装置２００が無線送信部を有してもよい。この場合には、カメラ／マイク装置２００の無線送信部から通信装置１００の無線受信部１０４に映像データおよび音声データが与えられる。

テレビ３００は、モニタ３０１、スピーカ３０２、デジタルアナログ（以下、Ｄ／Ａと呼ぶ。）コンバータ３０３，３０４、ＨＤＭＩ３０５、無線受信部３０６および音量調整部３１０を備える。本実施の形態では、テレビ３００のＨＤＭＩ３０５が、ＨＤＭＩケーブルを介して通信装置１００のＨＤＭＩ１０７に接続される。

通信装置１００の制御ＬＳＩ１０１からテレビ３００に、ＨＤＭＩ１０７、ＨＤＭＩケーブルおよびＨＤＭＩ３０５を介してデジタル形式の映像データおよび音声データが与えられる。テレビ３００に与えられた映像データは、Ｄ／Ａコンバータ３０３によりアナログ形式の映像信号に変換される。アナログ形式の映像信号がモニタ３０１に与えられる。これにより、モニタ３０１に映像が表示される。

一方、テレビ３００に与えられた音声データは、Ｄ／Ａコンバータ３０４によりアナログ形式の音声信号に変換される。アナログ形式の音声信号が音量調整部３１０に与えられる。

音量調整部３１０には、後述するリモートコントローラ４９０から、例えば音声信号のレベルを調整するための操作信号が入力される。これにより、音量調整部３１０においては、リモートコントローラ４９０から与えられる操作信号に基づいて音声信号のレベルが調整される。調整された音声信号がスピーカ３０２に与えられ、音声信号に基づく音声が出力される。

上記のように、通信装置１００とテレビ３００とがＨＤＭＩ１０７、ＨＤＭＩケーブルおよびＨＤＭＩ３０５を介して接続される。この場合、通信装置１００は、テレビ３００の動作を制御するための制御信号をテレビ３００に与えることができる。

通信装置１００にテレビ３００が接続される代わりに、通信装置１００にモニタ３０１およびスピーカ３０２がそれぞれ個別に接続されてもよい。

リモートコントローラ４９０は、操作部４９１、処理回路４９２および無線送信部４９３を備える。操作部４９１は、図１の電源ボタン４８１および音量調整ボタン４８４ａ，４８４ｂを含む。ユーザにより、操作部４９１のいずれかのボタンが操作される。処理回路４９２により操作されたボタンに応じた操作信号が生成される。

電源ボタン４８１が操作されることにより、テレビ３００の電源をオンするための操作信号が生成される。音量調整ボタン４８４ａが操作されることにより、音声信号のレベルを高くするための操作信号が生成される。音量調整ボタン４８４ｂが操作されることにより、音声信号のレベルを低くするための操作信号が生成される。

生成された操作信号は、無線送信部４９３からテレビ３００の無線受信部３０６に無線で送信される。テレビ３００とリモートコントローラ４９０との間の無線通信は、例えば赤外線通信により実現される。

上記の端末１０００においては、例えばカメラ／マイク装置２００から通信装置１００に映像データおよび音声データが与えられる。通信装置１００においては、与えられた映像データが符号化される。また、与えられた音声データが符号化される。後述する端末１０００の会話動作時において、通信装置１００は、符号化された映像データおよび音声データをネットワーク５００に接続された他の通信端末（パーソナルコンピュータ６００、テレビ７００および携帯電話９００）に送信する。

また、端末１０００においては、ユーザが図１の会話用サーバ２０００にサインインすることにより、ネットワーク５００に接続された他の通信端末から送信される映像データおよび音声データが通信装置１００により受信される。通信装置１００においては、受信された映像データおよび音声データが復号化される。後述する端末１０００の会話動作時において、通信装置１００は、復号化された映像データおよび音声データをテレビ３００に与える。テレビ３００では、デジタル形式の映像データがアナログ形式の映像信号に変換され、変換された映像信号に基づく映像がモニタ３０１に表示される。また、デジタル形式の音声データがアナログ形式の音声信号に変換され、変換された音声信号に基づく音声がスピーカ３０２から出力される。

これにより、上記のように、端末１０００と他の通信端末間で映像データおよび音声データの通信が行われる。ネットワーク５００に接続される複数の通信端末の各々は、端末１０００と同様に、カメラ、マイク、モニタおよびスピーカを有する。したがって、端末１０００を使用するユーザは、他の通信端末を使用するユーザと会話することができる。

端末１０００の通信装置１００においては、例えば光ディスクドライブ１０８により光ディスクから読み出された映像データおよび音声データがテレビ３００に与えられる。テレビ３００では、デジタル形式の映像データがアナログ形式の映像信号に変換され、変換された映像信号に基づく映像がモニタ３０１に表示される。また、デジタル形式の音声データがアナログ形式の音声信号に変換され、変換された音声信号に基づく音声がスピーカ３０２から出力される。

さらに、端末１０００の通信装置１００においては、例えばネットワーク５００から受信された映像データおよび音声データがメモリカード１１０に書き込まれる。

（２）ユーザによる端末１０００の操作概要
以下の説明において、テレビ３００のモニタ３０１には、通信装置１００からＤ／Ａコンバータ３０３を通して映像信号が与えられる。テレビ３００のモニタ３０１は、与えられる映像信号に基づく映像を表示する。また、テレビ３００のスピーカ３０２には、通信装置１００からＤ／Ａコンバータ３０４を通して音声信号が与えられる。テレビ３００のスピーカ３０２は、与えられる音声信号に基づく音声を出力する。

ユーザによる端末１０００の操作の概要を、テレビ３００のモニタ３０１に表示される映像とともに説明する。

一のユーザが端末１０００を用いて会話用サーバ２０００にサインインする場合、一のユーザは例えば図１の会話起動ボタン４１２を操作する。これにより、リモートコントローラ４００から通信装置１００に会話プログラムを実行することを示す操作信号が与えられる。会話プログラムが実行されることにより、テレビ３００のモニタ３０１にサインイン画面が表示される。

図３は、サインイン画面を示す図である。図３に示すように、サインイン画面ＳＣ１には、ユーザＩＤの入力枠ｆ１、パスワードの入力枠ｆ２、サインインボタンｂ１および登録画面ボタンｂ２が表示される。ユーザは、図１のリモートコントローラ４００の十字キー４１４を操作することにより入力枠ｆ１，ｆ２、サインインボタンｂ１および登録画面ボタンｂ２をそれぞれ選択することができる。ユーザは、図１のリモートコントローラ４００の図示しない複数の数字ボタン等を用いて入力枠ｆ１，ｆ２に文字を入力することができる。

ユーザは、入力枠ｆ１，ｆ２にそれぞれユーザＩＤおよびパスワードを入力した後、サインインボタンｂ１を選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。これにより、会話用サーバ２０００へのサインインが実行される。

一方、ユーザは、会話用サーバ２０００にユーザ情報を登録する場合、登録画面ボタンｂ２を選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。この場合、テレビ３００のモニタ３０１にユーザ登録画面が表示される。

図４は、ユーザ登録画面を示す図である。図４に示すように、ユーザ登録画面ＳＣ２には、ユーザの名前の入力枠ｆ３、ユーザＩＤの入力枠ｆ１、パスワードの入力枠ｆ２および登録ボタンｂ３が表示される。ユーザは、図１のリモートコントローラ４００の十字キー４１４を操作することにより入力枠ｆ１，ｆ２，ｆ３および登録ボタンｂ３をそれぞれ選択することができる。ユーザは、入力枠ｆ１，ｆ２，ｆ３にそれぞれユーザＩＤ、パスワードおよび名前を入力した後、登録ボタンｂ３を選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。これにより、会話用サーバ２０００にユーザ情報が登録される。

会話用サーバ２０００へのサインインが実行されることにより、テレビ３００のモニタ３０１にコンタクト画面が表示される。

図５は、コンタクト画面を示す図である。上述のように、図２の通信装置１００のフラッシュメモリ１１２には、コンタクトリストが記憶されている。図５に示すように、コンタクト画面ＳＣ３には、フラッシュメモリ１１２に記憶されたコンタクトリストを表示するためのコンタクトリストボタンｂ４が表示される。この状態で、ユーザは、コンタクトリストボタンｂ４を選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。この場合、テレビ３００のモニタ３０１にコンタクトリスト画面が表示される。

図６は、コンタクトリスト画面を示す図である。図６に示すように、コンタクトリスト画面ＳＣ４には、例えば通信装置１００に記憶された複数のユーザＩＤにそれぞれ対応付けられた複数のユーザＩＤボタンｂ５が表示される。ユーザは、複数のユーザＩＤボタンｂ５のうちのいずれかを選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。

これにより、選択されたユーザＩＤが会話要求として会話用サーバ２０００に送信される。選択されたユーザＩＤによるサインインが既に行われている場合に、端末１０００の通信装置１００は、そのユーザＩＤによるサインインに用いられた他の通信端末のアドレスを会話用サーバ２０００から取得する。

その後、取得したアドレスを用いて端末１０００の通信装置１００から他の通信端末に会話を要求することを示す要求信号が送信される。通信装置１００が他の通信端末からの応答信号を受けることにより、テレビ３００のモニタ３０１に会話画面が表示される。

図７は、会話画面を示す図である。図７に示すように、会話画面ＳＣ５には、会話相手表示ウィンドウＷ１および自己表示ウィンドウＷ２が表示される。会話相手表示ウィンドウＷ１には、他の通信端末のカメラにより撮影された他のユーザの映像が表示される。自己表示ウィンドウＷ２には、カメラ／マイク装置２００のカメラ２０１により撮影されたユーザの映像が表示される。また、カメラ／マイク装置２００のマイク２０２に端末１０００のユーザの音声が入力される。テレビ３００のスピーカ３０２から他の通信端末のマイクに入力された他のユーザの音声が出力される。

上記のように、端末１０００においてテレビ３００のモニタ３０１に会話画面ＳＣ５が表示される場合には、他のユーザの通信端末のモニタにも会話画面ＳＣ５が表示される。他のユーザの通信端末のモニタには、端末１０００のユーザの映像および他の通信端末のユーザの映像が表示される。また、他の通信端末のマイクに他のユーザの音声が入力される。他の通信端末のスピーカから端末１０００のユーザの音声が出力される。

モニタ３０１に図５のコンタクト画面ＳＣ３が表示された状態で、他のユーザの通信端末から会話を要求することを示す要求信号が送信される場合がある。この場合、テレビ３００のモニタ３０１に着信画面が表示される。

図８は、着信画面を示す図である。この場合、図８に示すように、着信画面ＳＣ６には、風景映像ＳＳおよび複数の操作ボタンとともにビデオ応答ボタンｂ６が表示される。図９は、着信画面ＳＣ６の他の例を示す図である。図９の例では、着信画面ＳＣ６に風景映像が表示されていない。

ユーザは、図８または図９の着信画面ＳＣ６のビデオ応答ボタンｂ６を選択し、図１のリモートコントローラ４００の決定ボタン４１５を操作する。または、ユーザは、図１のリモートコントローラ４００の会話応答ボタン４１３を操作する。この場合、端末１０００の通信装置１００から他のユーザの通信端末に応答信号が送信されるとともに、テレビ３００のモニタ３０１に図７の会話画面ＳＣ５が表示される。この状態で、ユーザは、要求信号を送信した他のユーザと会話することができる。

（３）会話動作
図２の制御ＬＳＩ１０１のメモリに記憶された会話プログラムに基づく端末１０００の動作（以下、会話動作と呼ぶ。）について、制御ＬＳＩ１０１の詳細な構成とともに説明する。

図１０は、図２の制御ＬＳＩ１０１の詳細な構成を示すブロック図である。図１０では、制御ＬＳＩ１０１、図２のカメラ／マイク装置２００、テレビ３００およびネットワーク５００の接続関係が示される。各接続部のインターフェースの図示は省略する。

図１０に示すように、制御ＬＳＩ１０１は、制御ブロック１０１Ａおよび通信ブロック１０１Ｂからなる。制御ブロック１０１Ａは、バッファ部１２１ａ，１２１ｂ、復号化部１２２、合成部１２３、符号化部１２４、エコーキャンセル処理部１２５、差分レベル検出部１２６、報知信号生成部１３７および制御部１２９を含む。また、通信ブロック１０１Ｂは、通信管理部１３１、受信部１３２、パケット化部１３３および送信部１３４を含む。

制御ＬＳＩ１０１の通信ブロック１０１Ｂにおいて、通信管理部１３１は、端末１０００と他の通信端末との間で通信が行われている際に、他の通信端末において復号可能なデータの符号化方式を検出し、検出された符号化方式で送信用データを符号化することを指令する指令信号を制御ブロック１０１Ａの制御部１２９に与える。例えば、通信管理部１３１は、他の通信端末においてＨ．２６４形式で符号化された映像データを復号することが可能である場合、Ｈ．２６４形式で映像データを符号化することを指令する指令信号を制御部１２９に与える。また、通信管理部１３１は、他の通信端末においてＳＩＬＫ形式で符号化された音声データを復号することが可能である場合、ＳＩＬＫ形式で音声データを符号化することを指令する指令信号を制御部１２９に与える。

他の通信端末は、ネットワーク５００を介して端末１０００にデータ（映像データおよび音声データ）を送信する。端末１０００の受信部１３２は、他の通信端末から送信されるデータ（映像データおよび音声データ）を受信する。受信されたデータはパケット化されている。

受信部１３２は、受信したデータを制御ブロック１０１Ａのバッファ部１２１ａに与える。バッファ部１２１ａに、データが一時的に記憶される。また、受信部１３２は、データ（映像データおよび音声データ）が受信されていることを示す受信信号を制御部１２９に与える。

この場合、制御部１２９は、バッファ部１２１ａに記憶されたデータ（映像データおよび音声データ）を復号化することを指令する指令信号を復号化部１２２に与える。これにより、バッファ部１２１ａに記憶されたデータ（映像データおよび音声データ）が復号化部１２２により復号化される。

以下の説明では、復号化部１２２により復号化された映像データを受信映像データＤａと呼び、復号化部１２２により復号化された音声データを受信音声データＤｂと呼ぶ。

受信映像データＤａは合成部１２３に与えられる。合成部１２３には、カメラ／マイク装置２００から後述する送信映像データＤｃが与えられる。合成部１２３は、受信映像データＤａおよび送信映像データＤｃを合成することにより合成映像データＥを生成する。

合成部１２３は、生成された合成映像データＥをテレビ３００のＤ／Ａコンバータ３０３に与える。Ｄ／Ａコンバータ３０３では、デジタル形式の合成映像データＥがアナログ形式の合成映像信号に変換される。これにより、テレビ３００のモニタ３０１に合成映像信号に基づく映像（例えば、図７の会話画面ＳＣ５または後述する図１２の会話画面ＳＣ５）が表示される。

受信音声データＤｂはテレビ３００のＤ／Ａコンバータ３０４に与えられるとともに制御ブロック１０１Ａ内のバッファ部１２１ｂに与えられる。Ｄ／Ａコンバータ３０４では、デジタル形式の受信音声データＤｂがアナログ形式の音声信号に変換される。アナログ形式の音声信号は、音量調整部３１０を通してスピーカ３０２に入力される。スピーカ３０２から音声信号に基づく音声が出力される。

カメラ／マイク装置２００のカメラ２０１により映像が撮影される。撮影された映像に基づく映像信号がＡ／Ｄコンバータ２０３に与えられる。Ａ／Ｄコンバータ２０３では、アナログ形式の映像信号がデジタル形式の映像データに変換される。

カメラ／マイク装置２００のマイク２０２に音声が入力される。入力された音声に基づく音声信号が、Ａ／Ｄコンバータ２０４に与えられる。Ａ／Ｄコンバータ２０４では、アナログ形式の音声信号がデジタル形式の音声データに変換される。

以下の説明では、Ａ／Ｄコンバータ２０３により変換された映像データを送信映像データＤｃと呼び、Ａ／Ｄコンバータ２０４により変換された音声データを送信音声データＤｄと呼ぶ。

テレビ３００のスピーカ３０２から出力される音声の一部が、カメラ／マイク装置２００のマイク２０２に入力される場合がある。そこで、本実施の形態では、エコーキャンセル処理部１２５が用いられる。

受信音声データＤｂが通信装置１００からテレビ３００に与えられると、その受信音声データＤｂに基づく音声がスピーカ３０２から出力され、マイク２０２に入力される。カメラ／マイク装置２００においては、入力された音声に基づく送信音声データＤｄが生成され、通信装置１００に与えられる。この場合、共通の音声に基づく受信音声データＤｂがテレビ３００に与えられるタイミングと、共通の音声に基づく送信音声データＤｄが通信装置１００に与えられるタイミングとの間には遅延（以下、この遅延量を入出力遅延量と呼ぶ。）が生じる。バッファ部１２１ｂは、復号化部１２２から与えられた受信音声データＤｂを入出力遅延量に相当する時間遅延させてエコーキャンセル処理部１２５に出力する。

エコーキャンセル処理部１２５には、カメラ／マイク装置２００から送信音声データＤｄが与えられるとともに、バッファ部１２１ｂから受信音声データＤｂが与えられる。

エコーキャンセル処理部１２５は制御部１２９により制御される。エコーキャンセル処理部１２５は制御部１２９から開始信号を受けることにより、以下のエコーキャンセル処理を開始する。

ここで、開始信号は、端末１０００のユーザが音声を発していないと想定されるタイミングで、制御部１２９からエコーキャンセル処理部１２５に与えられる。例えば、他のユーザの要求信号に応答する直後に、端末１０００のユーザが音声を発している可能性は低い。そのため、開始信号は、ユーザにより会話応答ボタン４１３が操作された場合、または図８のビデオ応答ボタンｂ６が選択された場合に、制御部１２９からエコーキャンセル処理部１２５に与えられる。

また、他のユーザの音声がテレビ３００から出力されている間に、端末１０００のユーザが音声を発している可能性は低い。そのため、開始信号は、受信音声データＤｂのレベルが所定のしきい値（以下、音声しきい値と呼ぶ。）を超えた場合に制御部１２９からエコーキャンセル処理部１２５に与えられる。

エコーキャンセル処理部１２５は、制御部１２９から開始信号を受けると、カメラ／マイク装置２００から与えられた送信音声データＤｄのレベルを検出するとともにバッファ部１２１ｂから与えられた受信音声データＤｂのレベルを検出する。

エコーキャンセル処理部１２５は、例えば一定期間内に検出された送信音声データＤｄのレベルの平均値（または最大値）を算出するとともに、一定期間内に検出された受信音声データＤｂのレベルの平均値（または最大値）を算出する。その後、エコーキャンセル処理部１２５は、受信音声データＤｂのレベルの平均値（または最大値）が送信音声データＤｄのレベルの平均値（または最大値）と同じになるように、受信音声データＤｂのレベルを増幅する。

続いて、エコーキャンセル処理部１２５は、与えられた送信音声データＤｄから増幅された受信音声データＤｂを減算するエコーキャンセル処理を行う。エコーキャンセル処理後の送信音声データＤｄは、符号化部１２４に与えられるとともに、差分レベル検出部１２６に与えられる。

図１１は、エコーキャンセル処理部１２５によるエコーキャンセル処理を説明するための図である。図１１（ａ）〜図１１（ｄ）において、縦軸は音声データのレベルを表し、横軸は時間を表す。図１１（ａ）に送信音声データＤｄのレベルの経時的な変化が示される。図１１（ｂ）に受信音声データＤｂのレベルの経時的な変化が示される。図１１（ｃ）にエコーキャンセル処理部１２５により増幅された受信音声データＤｂのレベルの経時的な変化が示される。図１１（ｄ）にエコーキャンセル処理後の送信音声データＤｄのレベルの経時的な変化が示される。

送信音声データＤｄと受信音声データＤｂとは共通の音声に基づいて生成される。そのため、図１１（ａ）および図１１（ｃ）に示すように、送信音声データＤｄのレベルの経時的変化と増幅された受信音声データＤｂのレベルの経時的変化とは、近似している。したがって、端末１０００のユーザが音声を発しない場合には、図１１（ｄ）に実線で示すように、エコーキャンセル処理後の送信音声データＤｄのレベルは本来的にほぼ０になる。

通信装置１００に接続されるテレビ３００は必ずしも同じ仕様を有するとは限らない。そのため、スピーカ３０２の音声出力の特性により、スピーカ３０２から出力される音声の音量が大きい場合にスピーカ３０２から出力される音声に歪が生じる場合がある。この場合、送信音声データＤｄのレベルの経時的変化と増幅された受信音声データＤｂのレベルの経時的変化との間に大きな差が生じる。それにより、送信音声データＤｄから受信音声データＤｂの成分を十分に除去することができなくなる。その結果、図１１（ｄ）に点線で示すように、エコーキャンセル処理後の送信音声データＤｄのレベルが大きくなる。

エコーキャンセル処理後の送信音声データＤｄのレベルは、エコーキャンセル処理前の送信音声データＤｄにより表される波形と受信音声データＤｂにより表される波形との幾何学的な差分に相当する。

そこで、本実施の形態では、差分レベル検出部１２６が、エコーキャンセル処理後の送信音声データＤｄのレベルの絶対値が所定のしきい値（以下、レベル差分しきい値と呼ぶ。）ＴＨ１を超えたか否かを判定する。レベル差分しきい値ＴＨ１は、エコーキャンセル処理後の送信音声データＤｄのレベルの許容範囲の上限値（許容値）に設定される。差分レベル検出部１２６は、エコーキャンセル処理後の送信音声データＤｄのレベルの絶対値がレベル差分しきい値ＴＨ１を超えた場合に、音声の歪を検出したことを示す検出信号を制御部１２９に与える。

この場合、制御部１２９は、検出信号に応答して、報知データＭの生成を指令する指令信号を報知信号生成部１２７に与える。報知信号生成部１２７は、制御部１２９からの指令信号に応答して報知データＭを生成し、生成された報知データＭを合成部１２３に与える。報知データＭは、スピーカ３０２から出力される音声の出力条件の変更要求をユーザに提示するためのデータを含む。本実施の形態では、報知データＭは、スピーカ３０２から出力される音声の音量を低減する操作を要求する報知映像を表示するための映像データを含む。

これにより、合成部１２３には、受信映像データＤａおよび送信映像データＤｃとともに報知信号生成部１２７から報知データＭが与えられる。この場合、合成部１２３は、受信映像データＤａ、送信映像データＤｃおよび報知データＭを合成することにより合成映像データＥを生成する。

生成された合成映像データＥがテレビ３００のＤ／Ａコンバータ３０３によりアナログ形式の合成映像信号に変換されることにより、テレビ３００のモニタ３０１に報知映像を含む会話画面ＳＣ５が表示される。

図１２は、報知映像を含む会話画面ＳＣ５の一例を示す図である。図１２に示すように、会話画面ＳＣ５には、会話相手表示ウィンドウＷ１および自己表示ウィンドウＷ２に加えて、報知ウィンドウＷ３が表示される。報知ウィンドウＷ３に報知映像が表示される。

図１２の例では、報知ウィンドウＷ３に「こちら側の声が会話相手に伝わり難い可能性があります。ＴＶの音量を少し下げて下さい。」というメッセージを含む報知映像が表示される。ユーザによりリモートコントローラ４９０の音量調整ボタン４８４ｂが操作されることにより、スピーカ３０２から出力される音声の音量が小さくなると、音声の歪が低減される。その結果、エコーキャンセル処理後の送信音声データＤｄのレベルを０に近づけることができる。

ユーザが報知映像のメッセージに従ってリモートコントローラ４９０を操作することによりエコーキャンセル処理後の送信音声データＤｄのレベルの絶対値がレベル差分しきい値ＴＨ１以下になると、差分レベル検出部１２６は検出信号を制御部１２９に与えない。この場合、制御部１２９から報知信号生成部１２７に指令信号が与えられないので、報知データＭが生成されない。そのため、報知映像を含む図１２の報知ウィンドウＷ３が会話画面ＳＣ５に表示されなくなる。

その結果、ユーザは、報知ウィンドウＷ３が消滅することを視認することにより、スピーカ３０２から出力される音声の音量の調整を行う必要がなくなったことを容易に認識することができる。

図１０のエコーキャンセル処理部１２５は、制御部１２９から開始信号を受けない場合、エコーキャンセル処理を行わない。この場合、エコーキャンセル処理部１２５はカメラ／マイク装置２００から与えられる送信音声データＤｄを符号化部１２４に与える。

会話動作時において、制御部１２９に通信管理部１３１から符号化に関する指令信号が与えられた場合、制御部１２９は、与えられた指令信号に従う符号化方式を指定する指定信号を符号化部１２４に与える。これにより、符号化部１２４は、指定信号により指定された符号化形式で送信映像データＤｃおよび送信音声データＤｄを符号化する。符号化された送信映像データＤｃおよび送信音声データＤｄがパケット化部１３３に与えられる。パケット化部１３３は、送信映像データＤｃおよび送信音声データＤｄのパケット化を行う。パケット化された送信映像データＤｃおよび送信音声データＤｄは送信部１３４からネットワーク５００を通して他のユーザの通信端末に送信される。

上記の制御部１２９の機能は、例えばＣＰＵ（中央演算処理装置）およびメモリ等のハードウェアとコンピュータプログラム等のソフトウェアとにより実現される。

また、バッファ部１２１ａ，１２１ｂ、復号化部１２２、合成部１２３、符号化部１２４、エコーキャンセル処理部１２５、差分レベル検出部１２６、報知信号生成部１３７、通信管理部１３１、受信部１３２、パケット化部１３３および送信部１３４は、電子回路等のハードウェアで実現されてもよく、これらの構成要素の一部が、ＣＰＵおよびメモリ等のハードウェアとコンピュータプログラム等のソフトウェアとにより実現されてもよい。

（４）会話プログラム
第１の実施の形態に係る会話プログラムに基づく処理の一例を説明する。図１３は、第１の実施の形態に係る会話プログラムに基づく制御ＬＳＩ１０１の一動作例を示すフローチャートである。以下に示す動作は、例えばユーザが端末１０００により会話用サーバ２０００にサインインすることにより所定の周期で実行される。

初めに、図１０の制御ＬＳＩ１０１の制御部１２９は、ユーザが図１のリモートコントローラ４００を操作することにより他の通信端末からの要求信号に応答したか否かを判定する（ステップＳ１１）。具体的には、制御部１２９は、図１のリモートコントローラ４００の会話応答ボタン４１３が操作された場合に、リモートコントローラ４００から与えられる操作信号に基づいてユーザが他の通信端末からの要求信号に応答したと判定する。または、制御部１２９は、図１のリモートコントローラ４００の十字キー４１４が操作されることにより図８のビデオ応答ボタンｂ６が選択された後に図１のリモートコントローラ４００の決定ボタン４１５が操作された場合に、リモートコントローラ４００から与えられる操作信号に基づいてユーザが他の通信端末からの要求信号に応答したと判定する。

ユーザが他の通信端末からの要求信号に応答した場合、エコーキャンセル処理部１２５は、上記のエコーキャンセル処理を行う（ステップＳ１２）。

次に、差分レベル検出部１２６は、エコーキャンセル処理後の送信音声データＤｄのレベルがレベル差分しきい値を超えたか否かを判定する（ステップＳ１３）。

エコーキャンセル処理後の送信音声データＤｄのレベルがレベル差分しきい値を超えた場合に、図１０の報知信号生成部１２７は、報知データＭを生成する（ステップＳ１４）。

続いて、合成部１２３は、生成された報知データＭをカメラ／マイク装置２００から与えられる送信音声データＤｄとともに受信映像データＤａに合成する（ステップＳ１５）。その後、合成部１２３は、合成により得られた合成映像データＥをテレビ３００に出力する（ステップＳ１６）。これにより、会話プログラムが終了する。

上記のステップＳ１１において、ユーザが他の通信端末からの要求信号に応答していない場合、制御部１２９は、受信音声データＤｂのレベルが音声しきい値を超えたか否かを判定する（ステップＳ２１）。すなわち、制御部１２９は、他のユーザが音声を発したか否かを判定する。受信音声データＤｂのレベルが音声しきい値を超えた場合に、エコーキャンセル処理部１２５は上記のステップＳ１２のエコーキャンセル処理を実行する。一方、受信音声データＤｂのレベルが音声しきい値を超えない場合に、上記のステップＳ１１の処理に戻る。

上記のステップＳ１３において、エコーキャンセル処理後の送信音声データＤｄのレベルがレベル差分しきい値を超えない場合、合成部１２３は、カメラ／マイク装置２００から与えられる送信音声データＤｄを受信映像データＤａに合成する（ステップＳ３１）。その後、上記のステップＳ１６の処理に進み、合成部１２３は、合成により得られた合成映像データＥをテレビ３００に出力する。

上記の会話プログラムに係る一連の処理が所定の周期で繰り返し実行されることにより、エコーキャンセル処理後の送信音声データＤｄのレベルがレベル差分しきい値を超えた場合に、上記のステップＳ１３〜Ｓ１５の処理により報知映像がモニタ３０１に表示される。

一方、モニタ３０１に報知映像が表示されている状態でエコーキャンセル処理後の送信音声データＤｄのレベルがレベル差分しきい値以下になった場合には、上記のステップＳ１３，Ｓ３１の処理により報知データＭが生成されなくなる。それにより、モニタ３０１に表示されている報知画像が消滅する。

したがって、ユーザは、報知画像の表示状態を確認することにより、スピーカ３０２から出力される音声の音量の調整の要否を容易に認識することができる。

（５）効果
本実施の形態では、差分レベル検出部１２６により、エコーキャンセル処理後の送信音声データＤｄのレベルの絶対値がレベル差分しきい値ＴＨ１を超えたか否かが判定される。エコーキャンセル処理後の送信音声データＤｄのレベルの絶対値がレベル差分しきい値ＴＨ１を超えた場合に、報知映像をモニタ３０１に表示させるための報知データＭが生成される。生成された報知データＭは、合成部１２３により、受信映像データＤａおよび送信映像データＤｃに合成され、モニタ３０１に与えられる。

これにより、テレビ３００のモニタ３０１に報知映像が表示される。この場合、ユーザは、報知映像に含まれるメッセージに従ってスピーカ３０２から出力される音声の音量を小さくすることができる。それにより、スピーカ３０２から出力される音声の歪を低減することができる。そのため、エコーキャンセル処理後の送信音声データＤｄのレベルの絶対値をレベル差分しきい値ＴＨ１以下にすることができる。

したがって、他の通信端末に送信される送信音声データＤｄから他の通信端末において入力された音声の影響を十分に除去することができる。その結果、他の通信端末のユーザが覚える違和感を十分に抑制することが可能になる。

［２］第２の実施の形態
第２の実施の形態に係る通信システムについて、第１の実施の形態に係る通信システムと異なる点を説明する。第２の実施の形態に係る通信システムにおいては、図１の端末１０００のテレビ３００にアンテナが接続される。テレビ３００は、アンテナにより放送局装置から送信される放送信号を受信可能に構成される。

（１）テレビの構成
図１４は、第２の実施の形態に係るテレビ３００の構成を示すブロック図である。図１４に示すように、本実施の形態に係るテレビ３００は、モニタ３０１、スピーカ３０２、Ｄ／Ａコンバータ３０３，３０４、ＨＤＭＩ３０５、無線受信部３０６、映像音声処理回路３０７、チューナ３０８および音量調整部３１０を備える。チューナ３０８にアンテナ３０９が接続される。テレビ３００のＨＤＭＩ３０５は、ＨＤＭＩケーブルを介して通信装置１００のＨＤＭＩ１０７に接続される。通信装置１００の詳細な構成については後述する。

図１４のテレビ３００に用いられるリモートコントローラ４９０は、操作部４９１が表示モードボタン４８５を含む点を除き、図１および図２のリモートコントローラ４９０と同じ構成を有する。表示モードボタン４８５が操作されることにより、後述するテレビ３００の表示モードを変更するための操作信号が生成される。

図１４のテレビ３００において、アンテナ３０９により放送局装置から送信される放送信号が受信される。チューナ３０８は、選局を行うとともに、選局されたチャンネルの放送信号を映像データおよび音声データに復調する。復調された映像データおよび音声データが映像音声処理回路３０７に与えられる。

映像音声処理回路３０７は例えばＬＳＩで実現される。映像音声処理回路３０７は復号化部を含む。映像音声処理回路３０７の復号化部は、チューナ３０８から与えられる映像データおよび音声データを復号する。

テレビ３００には、モニタ３０１に表示可能な複数の表示モードが設定されている。複数の表示モードとしては、例えばスタンダードモード、シネマモード、ダイナミックモードおよび会話モードがある。

ユーザは、リモートコントローラ４９０の表示モードボタン４８５を操作することにより、複数の表示モードのいずれかを選択することができる。映像音声処理回路３０７は、ユーザにより選択された表示モードに基づいて映像データに映像の画質および明るさ等を調整するための映像調整処理を行う。

複数の表示モードにそれぞれ対応する複数の映像調整処理はそれぞれ異なる。そのため、複数の映像調整処理に必要な時間もそれぞれ異なる。そこで、映像音声処理回路３０７は、映像調整処理後の映像データをＤ/Ａコンバータ３０３に出力するタイミングと、音声データをＤ／Ａコンバータ３０４に出力するタイミングとを同期させる。この場合、映像音声処理回路３０７は、音声データと映像データとを同期させるために、音声データを遅延させる。Ｄ／Ａコンバータ３０３により、映像データがアナログ形式の映像信号に変換され、モニタ３０１に映像が表示される。Ｄ／Ａコンバータ３０４により、音声データがアナログ形式の音声信号に変換され、スピーカ３０２から音声が出力される。このように、映像データの出力タイミングと音声データの出力タイミングとが一致しているので、モニタ３０１に表示される映像のタイミングとスピーカ３０２から出力される音声のタイミングとが一致する。

（２）スピーカから出力される音声の遅延
上記の会話動作時においても、テレビ３００はユーザにより選択された表示モードに基づいて映像調整処理を行う。そのため、選択された表示モードに対応する映像調整処理の時間が長いと、通信装置１００からテレビ３００に受信音声データＤｂが与えられるタイミングと、その受信音声データＤｂに基づいてテレビ３００のスピーカ３０２から音声が出力されるタイミングとの間に大きな差が生じる。この場合、ユーザが発声した後、他の通信端末のユーザの音声がスピーカ３０２から出力されるまでの時間が長くなる。そのため、ユーザは所望の表示モードでモニタ３０１に表示される映像を視認することができるが、会話に違和感を覚える。

以下の説明では、通信装置１００からテレビ３００に受信音声データＤｂが与えられるタイミングと、その受信音声データＤｂに基づいてテレビ３００のスピーカ３０２から音声が出力されるタイミングとの差を音声遅延量と呼ぶ。

図１５は、複数の表示モードにそれぞれ対応する音声遅延量の一覧である。図１５の例では、スタンダードモードに対応する音声遅延量は２００ｍｓｅｃであり、シネマモードに対応する音声遅延量は４００ｍｓｅｃであり、ダイナミックモードに対応する音声遅延量は３００ｍｓｅｃであり、会話モードに対応する音声遅延量は１００ｍｓｅｃである。

このように、図１５の例では、スタンダードモードに対応する音声遅延量は会話モードに対応する音声遅延量の２倍である。ダイナミックモードに対応する音声遅延量は会話モードに対応する音声遅延量の３倍である。シネマモードに対応する音声遅延量は会話モードに対応する音声遅延量の４倍である。

そのため、例えばテレビ３００においてシネマモードが選択されておりかつ図１０を用いて説明した入出力遅延量が大きい場合には、テレビ３００の表示モードを音声遅延量が短い表示モード（例えば会話モード）に変更することが好ましい。テレビ３００の表示モードが会話モードに変更されることにより、テレビ３００における音声遅延量が低減される。それにより、会話時におけるユーザの違和感が抑制される。本実施の形態では、通信装置１００の制御ＬＳＩ１０１が以下の構成を有する。

（３）制御ＬＳＩの詳細な構成
図１６は、第２の実施の形態に係る制御ＬＳＩ１０１の詳細な構成を示すブロック図である。図１６に示すように、本実施の形態に係る制御ＬＳＩ１０１は、遅延量検出部１２１ｃをさらに含む点を除いて、図１０の制御ＬＳＩ１０１と同じ構成を有する。

この制御ＬＳＩ１０１において、復号化部１２２により復号化された受信音声データＤｂが、遅延量検出部１２１ｃおよびバッファ部１２１ｂに与えられるとともに、テレビ３００の映像音声処理回路３０７に与えられる。また、カメラ／マイク装置２００のＡ／Ｄコンバータ２０４から送信音声データＤｄが遅延量検出部１２１ｃおよびエコーキャンセル処理部１２５に与えられる。

遅延量検出部１２１ｃは制御部１２９により制御される。遅延量検出部１２１ｃは制御部１２９から開始信号を受けることにより、以下の遅延量検出処理を行う。制御部１２９から遅延量検出部１２１ｃに開始信号が与えられるタイミングは、上述のエコーキャンセル処理部１２５に開始信号が与えられるタイミングと同じである。

遅延量検出部１２１ｃは、制御部１２９から開始信号を受けると、送信音声データＤｄのレベルの経時的変化を検出するとともに受信音声データＤｂのレベルの経時的変化をそれぞれ検出する。

さらに、遅延量検出部１２１ｃは、検出された受信音声データＤｂの波形および送信音声データＤｄの波形のパターンマッチングを行う。これにより、遅延量検出部１２１ｃは、上記の入出力遅延量を検出する遅延量検出処理を行う。入出力遅延量は、送信音声データＤｄの波形と受信音声データＤｂの波形との時間的な差分に相当する。

続いて、遅延量検出部１２１ｃは、検出された入出力遅延量が所定のしきい値（以下、遅延量しきい値と呼ぶ。）を超えたか否かを判定する。遅延量しきい値は、入出力遅延量の許容範囲の上限値（許容値）に設定される。

遅延量検出部１２１ｃは、入出力遅延量が遅延量しきい値を超えた場合に、入出力遅延量が大きいことを示す検出信号を制御部１２９に与える。

この場合、制御部１２９は、検出信号に応答して、報知データＭの生成を指令する指令信号を報知信号生成部１２７に与える。報知信号生成部１２７は、制御部１２９からの指令信号に応答して報知データＭを生成し、生成された報知データＭを合成部１２３に与える。報知データＭは、スピーカ３０２から出力される音声の出力条件の変更要求をユーザに提示するためのデータを含む。本実施の形態では、報知データＭは映像データを含む。この映像データは、モニタ３０１にテレビ３００の表示モードの変更を要求する報知映像を表示させるためのデータである。

生成された合成映像データＥがテレビ３００の映像音声処理回路３０７を通してＤ／Ａコンバータ３０３に与えられる。合成映像データＥがＤ／Ａコンバータ３０３によりアナログ形式の合成映像信号に変換されることにより、テレビ３００のモニタ３０１に報知映像を含む会話画面ＳＣ５が表示される。

図１７は、報知映像を含む会話画面ＳＣ５の他の例を示す図である。本例では、テレビ３００の表示モードとしてシネマモードが選択されているものとする。図１７に示すように、会話画面ＳＣ５には、会話相手表示ウィンドウＷ１および自己表示ウィンドウＷ２に加えて、報知ウィンドウＷ３が表示される。報知ウィンドウＷ３に報知映像が表示される。

図１７の例では、報知ウィンドウＷ３に「表示モードを会話モードに変更して下さい。」というメッセージを含む報知映像が表示される。ユーザによりリモートコントローラ４９０の表示モードボタン４８５が操作されることにより、テレビ３００の表示モードがシネマモードから会話モードに変更される。これにより、テレビ３００における音声遅延量が低減され、入出力遅延量が低減される。

（４）音声の遅延に対応するために必要なバッファの容量
図１８は、エコーキャンセル処理の概念図である。図１８に示すように、テレビ３００における音声遅延量が大きくなると、エコーキャンセル処理を行うために用いられるバッファ部１２１ｂによる受信音声データＤｂの遅延時間を長くする必要がある。そのため、バッファ部１２１ｂの記憶容量を大きくしなければならない。

バッファ部１２１ｂの記憶容量は、テレビ３００における複数の表示モードにそれぞれ対応する遅延時間に基づいて決定することが好ましい。しかしながら、通信装置１００に接続されるテレビ３００は必ずしも同じ仕様を有するとは限らない。そのため、通信装置１００に種々の仕様を有するテレビ３００を接続可能にするためには、バッファ部１２１ｂが大きな記憶容量を有することが必要となる。

上記のように、図１６の制御ＬＳＩ１０１によれば、遅延量検出部１２１ｃにより入出力遅延量を低減するための報知映像がユーザに提示される。これにより、ユーザが入出力遅延量を低減するように表示モードを会話モードに変更するので、バッファ部１２１ｂの記憶容量を大きくする必要がなくなる。その結果、制御ＬＳＩ１０１の高コスト化が抑制される。

（５）会話プログラム
第２の実施の形態に係る会話プログラムに基づく処理の一例を説明する。図１９は、第２の実施の形態に係る会話プログラムに基づく制御ＬＳＩ１０１の一動作例を示すフローチャートである。以下に示す動作は、例えばユーザが端末１０００により会話用サーバ２０００にサインインすることにより所定の周期で繰り返し実行される。

初めに、図１６の制御ＬＳＩ１０１の制御部１２９は、ユーザが図１のリモートコントローラ４００を操作することにより他の通信端末からの要求信号に応答したか否かを判定する（ステップＳ４１）。

ユーザが他の通信端末からの要求信号に応答した場合、遅延量検出部１２１ｃは、上記の遅延量検出処理を行う（ステップＳ４２）。

次に、遅延量検出部１２１ｃは、検出された入出力遅延量が遅延量しきい値を超えたか否かを判定する（ステップＳ４３）。

入出力遅延量が遅延量しきい値を超えた場合に、図１６の報知信号生成部１２７が報知データＭを生成する（ステップＳ４４）。

続いて、合成部１２３は、生成された報知データＭを、図１６のカメラ／マイク装置２００から与えられる送信音声データＤｄとともに受信映像データＤａに合成する（ステップＳ４５）。その後、合成部１２３は、合成により得られた合成映像データＥをテレビ３００に出力する（ステップＳ４６）。これにより、会話プログラムが終了する。

上記のステップＳ４１において、ユーザが他の通信端末からの要求信号に応答していない場合、制御部１２９は、受信音声データＤｂのレベルが音声しきい値を超えたか否かを判定する（ステップＳ５１）。受信音声データＤｂのレベルが音声しきい値を超えた場合に、遅延量検出部１２１ｃは上記のステップＳ４２の遅延量検出処理を実行する。一方、受信音声データＤｂのレベルが音声しきい値を超えない場合に、上記のステップＳ４１の処理に戻る。

上記のステップＳ４３において、検出された入出力遅延量が遅延量しきい値を超えない場合、合成部１２３は、カメラ／マイク装置２００から与えられる送信音声データＤｄを受信映像データＤａに合成する（ステップＳ６１）。その後、上記のステップＳ４６の処理に進み、合成部１２３は、合成により得られた合成映像データＥをテレビ３００に出力する。

上記の会話プログラムに係る一連の処理が所定の周期で繰り返し実行されることにより、入出力遅延量が遅延量しきい値を超えた場合に、上記のステップＳ４３〜Ｓ４５の処理により報知映像がモニタ３０１に表示される。

一方、モニタ３０１に報知映像が表示されている状態で入出力遅延量が遅延量しきい値以下になった場合には、上記のステップＳ４３，Ｓ６１の処理により報知データＭが生成されなくなる。それにより、モニタ３０１に表示されている報知画像が消滅する。

したがって、ユーザは、報知画像の表示状態を確認することにより、テレビ３００の表示モードを会話モードに変更すべきか否かを容易に認識することができる。

（６）効果
本実施の形態では、遅延量検出部１２１ｃにより入出力遅延量が検出され、検出された入出力遅延量が遅延量しきい値を超えたか否かが判定される。入出力遅延量が遅延量しきい値を超えた場合に、報知映像をモニタ３０１に表示させるための報知データＭが生成される。生成された報知データＭは、合成部１２３により受信映像データＤａおよび送信映像データＤｃに合成され、モニタ３０１に与えられる。

これにより、テレビ３００のモニタ３０１に報知映像が表示される。この場合、ユーザは、報知映像に含まれるメッセージに従ってテレビ３００の表示モードを会話モードに変更することができる。テレビ３００の表示モードが会話モードに変更されることにより、テレビ３００における音声遅延量を最小にすることができる。したがって、入出力遅延量を十分に低減することができる。

その結果、複数の通信端末を用いた会話時に、各通信端末のユーザが覚える違和感を十分に抑制することが可能になる。

［３］変形例
（１）第１および第２の実施の形態において、差分レベル検出部１２６から検出信号が与えられた場合、制御部１２９は、図１０および図１６に一点鎖線で示すように、テレビ３００の音量調整部３１０に音声信号のレベル低くするための制御信号を与えてもよい。この場合、音量調整部３１０は、制御部１２９から与えられる制御信号に基づいて音声信号のレベルを低くする。これにより、スピーカ３０２から出力される音声の音量が小さくなり、音声の歪が低減される。その結果、ユーザによるリモートコントローラ４９０の操作を伴うことなく、会話時にユーザが覚える違和感が十分に抑制される。

このように、制御部１２９から音量調整部３１０に制御信号が与えられる場合には、図１０の報知信号生成部１２７は設けられなくてもよい。または、図１０の報知信号生成部１２７は以下の報知データＭを生成してもよい。

本例において、報知データＭは、音声の歪を低減するためにスピーカ３０２から出力される音声の音量が小さくなったことを示す報知映像の映像データを含んでもよい。

この場合、差分レベル検出部１２６から制御部１２９に検出信号が与えられることによりスピーカ３０２から出力される音声の音量が小さくなると、音声の歪を低減するために音量が小さくなったことを示す報知映像がモニタ３０１に表示される。これにより、ユーザは上記の報知映像を視認することにより、音声の歪を低減するために音量が小さくなったことを容易に認識することができる。

報知データＭは、音声の歪を低減するために音量が小さくなったことを報知するガイド音声の音声データを含んでもよい。

この場合、差分レベル検出部１２６から制御部１２９に検出信号が与えられることによりスピーカ３０２から出力される音声の音量が小さくなると、音声の歪を低減するために音量が小さくなったことを報知するガイド音声がスピーカ３０２から出力される。これにより、ユーザは上記のガイド音声を聴くことにより、音声の歪を低減するために音量が小さくなったことを容易に認識することができる。

（２）第２の実施の形態において、遅延量検出部１２１ｃから検出信号が与えられた場合、制御部１２９は、図１６に一点鎖線で示すように、テレビ３００の映像音声処理回路３０７にテレビ３００の表示モードを会話モードに変更するための制御信号を与えてもよい。この場合、映像音声処理回路３０７は、制御部１２９から与えられる制御信号に基づいて会話モードに対応する映像調整処理を行う。これにより、テレビ３００における音声遅延量を最も小さくすることができる。したがって、入出力遅延量を十分に低減することができる。その結果、ユーザによるリモートコントローラ４９０の操作を伴うことなく、会話時にユーザが覚える違和感が十分に抑制される。

このように、制御部１２９から音量調整部３１０に制御信号が与えられる場合には、図１６の報知信号生成部１２７は設けられなくてもよい。または、図１６の報知信号生成部１２７は以下の報知データＭを生成してもよい。

本例において、報知データＭは音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを示す報知映像の映像データを含んでもよい。

この場合、差分レベル検出部１２６から制御部１２９に検出信号が与えられることによりテレビ３００の表示モードが会話モードに変更されると、音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを示す報知映像がモニタ３０１に表示される。これにより、ユーザは上記の報知映像を視認することにより、音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを容易に認識することができる。

報知データＭは、音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを報知するガイド音声の音声データを含んでもよい。

この場合、差分レベル検出部１２６から制御部１２９に検出信号が与えられることによりテレビ３００の表示モードが会話モードに変更されると、音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを報知するガイド音声がスピーカ３０２から出力される。これにより、ユーザは上記のガイド音声を聴くことにより、音声遅延量を小さくするためにテレビ３００の表示モードが会話モードに変更されたことを容易に認識することができる。

（３）第２の実施の形態において、遅延量検出部１２１ｃから検出信号が与えられた場合、制御部１２９は、図１６に一点鎖線で示すように、映像音声処理回路３０７に音声データの遅延を最も小さくするかまたは０にするための制御信号を与えてもよい。

この場合、映像音声処理回路３０７は、制御部１２９から与えられる制御信号に基づいて音声データの遅延を最も小さくしまたは０にする。これにより、入出力遅延量が十分に小さくなる。その結果、ユーザによるリモートコントローラ４９０の操作を伴うことなく、会話時にユーザが覚える違和感が十分に抑制される。

このように、制御部１２９から音量調整部３１０に指令信号が与えられる場合には、図１６の報知信号生成部１２７は設けられなくてもよい。または、図１６の報知信号生成部１２７は以下の報知データＭを生成してもよい。

本例において、報知データＭは音声遅延量を小さくするためにテレビ３００における音声データの遅延量が小さくなったことを示す報知映像の映像データを含んでもよい。また、報知データＭは音声遅延量を小さくするためにテレビ３００における音声データの遅延量が小さくなったことを報知するガイド音声の音声データを含んでもよい。

これにより、ユーザは、上記の報知映像を視認するとともにガイド音声を聴くことにより、音声遅延量を小さくするためにテレビ３００における音声データの遅延量が小さくなるように調整されたことを容易に認識することができる。

（４）第２の実施の形態において、会話モードが選択されている場合、図１４の映像音声処理回路３０７は映像調整処理後の映像データをＤ/Ａコンバータ３０３に出力するタイミングと、音声データをＤ／Ａコンバータ３０４に出力するタイミングとを同期させなくてもよい。

この場合、通信装置１００から映像音声処理回路３０７に合成映像データＥおよび受信音声データＤｂが入力されると、映像調整処理の影響を受けることなく受信音声データＤｂがＤ／Ａコンバータ３０４に出力される。それにより、テレビ３００における音声遅延量を十分に小さくすることができる。その結果、入出力遅延量が十分に小さくなる。

（５）第２の実施の形態において、図１６の遅延量検出部１２１ｃは検出された入出力遅延量を制御部１２９に与えてもよい。この場合、遅延量検出部１２１ｃにより入出力遅延量が遅延量しきい値を超えたか否かが判定される代わりに、制御部１２９が、遅延量検出部１２１ｃから与えられる入出力遅延量が遅延量しきい値を超えたか否かを判定してもよい。

（６）第２の実施の形態において、テレビ３００のスピーカ３０２から出力される音声が、カメラ／マイク装置２００のマイク２０２に入力されることがない場合には、図１６の制御ＬＳＩ１０１にエコーキャンセル処理部１２５および差分レベル検出部１２６が設けられなくてもよい。

（７）第１および第２の実施の形態においては、報知データＭは、例えば端末１０００のユーザにテレビ３００の特定の操作を促す報知映像に基づく映像データである。これに限らず、報知データＭは、例えば端末１０００のユーザにテレビ３００の特定の操作を促す音声に基づく音声データであってもよい。

この場合、例えばテレビ３００に報知データＭが入力されることにより、スピーカ３０２から「音量を下げてください。」または「表示モードを会話モードにして下さい。」等のガイド音声が出力される。

［４］請求項の各構成要素と実施の形態の各要素との対応
以下、請求項の各構成要素と実施の形態の各要素との対応の例について説明するが、本発明は下記の例に限定されない。

上記実施の形態では、通信装置１００が通信装置の例であり、パーソナルコンピュータ６００、テレビ７００および携帯電話９００が他装置の例であり、マイク２０２およびＡ／Ｄコンバータ２０４を含む構成が音声入力装置の例であり、スピーカ３０２、音量調整部３１０、Ｄ／Ａコンバータ３０４および映像音声処理回路３０７を含む構成が音声出力装置の例である。

また、ネットワークインターフェース１０３、受信部１３２およびバッファ部１２１ａが受信部の例であり、ＨＤＭＩ１０７および復号化部１２２が音声データ出力部の例であり、ＵＳＢインターフェース１０５、エコーキャンセル処理部１２５および遅延量検出部１２１ｃが音声データ入力部の例であり、ネットワークインターフェース１０３、パケット化部１３３および送信部１３４が送信部の例である。

さらに、エコーキャンセル処理部１２５および遅延量検出部１２１ｃが差分検出部の例であり、差分レベル検出部１２６、遅延量検出部１２１ｃおよび制御部１２９が判定部の例であり、合成部１２３、報知信号生成部１２７および制御部１２９が提示信号生成部の例である。

また、レベル差分しきい値ＴＨ１および遅延量しきい値が許容量の例であり、報知データＭが提示信号の例であり、エコーキャンセル処理部１２５が除去処理部の例であり、差分レベル検出部１２６がレベル検出部および判定部の例であり、スタンダードモード、シネマモード、ダイナミックモードおよび会話モードが複数の表示モードの例である。

また、モニタ３０１、Ｄ／Ａコンバータ３０３および映像音声処理回路３０７を含む構成が映像出力装置の例であり、ＨＤＭＩ１０７および復号化部１２２が映像データ出力部の例であり、遅延量検出部１２１ｃが遅延検出部の例であり、制御部１２９が制御信号生成部の例である。

請求項の各構成要素として、請求項に記載されている構成または機能を有する他の種々の要素を用いることもできる。

本発明は、映像データおよび音声データの通信を行う通信機器に有効に利用することができる。

１００通信装置
１０３ネットワークインターフェース
１０５ＵＳＢインターフェース
１０７ＨＤＭＩ
１２１ａバッファ部
１２１ｃ遅延量検出部
１２２復号化部
１２３合成部
１２５エコーキャンセル処理部
１２６差分レベル検出部
１２７報知信号生成部
１２９制御部
１３２受信部
１３３パケット化部
１３４送信部
２０２マイク
２０４Ａ／Ｄコンバータ
３０１モニタ
３０２スピーカ
３０３，３０４Ｄ／Ａコンバータ
３０７映像音声処理回路
３１０音量調整部
６００パーソナルコンピュータ
７００テレビ
９００携帯電話
１０００端末
ＴＨ１レベル差分しきい値
Ｍ報知データ

Claims

他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置であって、
前記他装置から送信される音声データを受信可能に構成された受信部と、
前記受信部により受信された音声データを前記音声出力装置に出力する音声データ出力部と、
前記音声入力装置からの音声データが入力される音声データ入力部と、
前記音声データ入力部により入力された音声データを前記他装置に送信可能に構成された送信部と、
前記音声データ出力部から出力された音声データに基づいて前記音声出力装置により音声が出力されるとともに前記出力された音声に基づく音声データが前記音声入力装置から前記音声データ入力部に入力されるときに、前記受信部により受信された音声データにより表される波形と前記音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分を検出する差分検出部と、
前記差分検出部により検出された差分が予め定められた許容量を超えたか否かを判定する判定部と、
前記判定部により差分が前記許容量を超えたと判定された場合に、前記音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号を生成する提示信号生成部とを備える、通信装置。
前記差分検出部は、
前記音声データ入力部に入力された音声データから前記受信部により受信された音声データに相当する成分を除去する処理を行う除去処理部と、
前記音声データ出力部から出力された音声データに基づいて前記音声出力装置により音声が出力されるとともに前記出力された音声に基づく音声データが前記音声入力装置から前記音声データ入力部に入力されるときに、前記除去処理部により処理された音声データのレベルを前記差分として検出するレベル検出部を含み、
前記提示信号は、前記音声出力装置の音量の調整の要求を前記音声の出力条件の変更要求として含む、請求項１記載の通信装置。
前記提示信号は、前記音声出力装置の音量の低減の要求を前記音声の出力条件の変更要求として含む、請求項２記載の通信装置。
前記通信装置は、映像出力装置に接続可能であり、
前記映像出力装置に映像データを出力する映像データ出力部をさらに備え、
前記提示信号生成部は、前記音声出力装置の音量の調整の要求を表示するための映像データを前記提示信号として生成し、
前記映像データ出力部は、前記提示信号生成部により生成された提示信号を前記映像出力装置に出力する、請求項２記載の通信装置。
前記音声出力装置は、入力された音声データの遅延量を変更可能に構成され、
前記差分検出部は、
前記音声データ出力部から出力された音声データに基づいて前記音声出力装置により音声が出力されるとともに前記出力された音声に基づく音声データが前記音声入力装置から前記音声データ入力部に入力されるときに、前記受信部により受信された音声データに対する前記音声データ入力部に入力された音声データの遅延量を前記差分として検出する遅延検出部を含み、
前記提示信号は、前記音声出力装置における音声データの遅延量の変更を伴う操作の要求を前記音声の出力条件の変更要求として含む、請求項１記載の通信装置。
前記通信装置は、映像出力装置に接続可能であり、前記映像出力装置は、映像データに基づいて複数の表示モードのうち選択された表示モードで映像を表示可能に構成されるとともに、複数の表示モードにそれぞれ対応して映像データの遅延量が異なるように設定され、
前記音声出力装置は、音声データが前記映像出力装置における映像データに同期するように音声データの遅延量が調整されるように構成され、
前記受信部は、前記他装置から送信された映像データを受信可能に構成され、
前記通信装置は、
前記受信部により受信された映像データを出力する映像データ出力部をさらに備え、
前記提示信号は、前記音声出力装置における音声データの遅延量の変更を伴う操作の要求として前記映像出力装置の表示モードの変更の操作の要求を含む、請求項５記載の通信装置。
前記提示信号生成部は、前記映像出力装置の表示モードの変更の操作の要求を表示するための映像データを前記提示信号として生成し、
前記映像データ出力部は、前記提示信号生成部により生成された提示信号を前記映像出力装置に出力する、請求項６記載の通信装置。
前記受信部により受信された音声データを遅延させる遅延部と、
前記音声データ入力部に入力された音声データから前記遅延部により遅延された音声データに相当する成分を除去する処理を行う除去処理部とをさらに備え、
前記送信部は、前記除去処理部により処理された音声データを前記他装置に送信するように構成される、請求項５記載の通信装置。
他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置であって、
前記他装置から送信される音声データを受信可能に構成された受信部と、
前記受信部により受信された音声データを前記音声出力装置に出力する音声データ出力部と、
前記音声入力装置からの音声データが入力される音声データ入力部と、
前記音声データ入力部により入力された音声データを前記他装置に送信可能に構成された送信部と、
前記音声データ出力部から出力された音声データに基づいて前記音声出力装置により音声が出力されるとともに前記出力された音声に基づく音声データが前記音声入力装置から前記音声データ入力部に入力されるときに、前記受信部により受信された音声データにより表される波形と前記音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分を検出する差分検出部と、
前記差分検出部により検出された差分が予め定められた許容量を超えたか否かを判定する判定部と、
前記判定部により差分が前記許容量を超えたと判定された場合に、前記音声データ出力部により出力される音声データに基づく音声の出力条件を変更するための制御信号を生成する制御信号生成部とを備える、通信装置。
他装置との間で映像データおよび音声データの送受信が可能でかつ音声入力装置および音声出力装置に接続可能な通信装置を用いた通信方法であって、
前記他装置から送信される音声データを前記通信装置の受信部により受信するステップと、
前記受信された音声データを前記通信装置の音声データ出力部から前記音声出力装置に出力するステップと、
前記音声入力装置からの音声データを前記通信装置の音声データ入力部に入力するステップと、
前記音声データ入力部に入力された音声データを前記通信装置の送信部から前記他装置に送信するステップと、
前記音声データ出力部から出力された音声データに基づいて前記音声出力装置により音声が出力されるとともに前記出力された音声に基づく音声データが前記音声入力装置から前記音声データ入力部に入力されるときに、前記受信部により受信された音声データにより表される波形と前記音声データ入力部により入力された音声データにより表される波形との幾何学的または時間的な差分を検出するステップと、
前記検出された差分が予め定められた許容量を超えたか否かを判定するステップと、
前記差分が前記許容量を超えたと判定された場合に、前記音声データ出力部により出力される音声データに基づく音声の出力条件の変更要求を使用者に提示するための提示信号を出力するステップとを備える、通信方法。