JP2005167354A - Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法 - Google Patents

Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法 Download PDF

Info

Publication number
JP2005167354A
JP2005167354A JP2003400033A JP2003400033A JP2005167354A JP 2005167354 A JP2005167354 A JP 2005167354A JP 2003400033 A JP2003400033 A JP 2003400033A JP 2003400033 A JP2003400033 A JP 2003400033A JP 2005167354 A JP2005167354 A JP 2005167354A
Authority
JP
Japan
Prior art keywords
signal
image
audio
feature information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003400033A
Other languages
English (en)
Inventor
Tetsuya Hamada
哲也 浜田
Daisuke Kondo
大輔 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2003400033A priority Critical patent/JP2005167354A/ja
Publication of JP2005167354A publication Critical patent/JP2005167354A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 TV電話システムにおいて、画像と音声とを同期して再生する。
【解決手段】 送信側端末1において、同一時刻に入力された画像、音声それぞれについて特徴を抽出する。画像、音声それぞれについて抽出した特徴情報を1つの組にし、ヘッダ情報として付加して受信側端末2に送信する。受信側端末2では、ヘッダ情報から特徴情報を復元し、この特徴情報に基づいて画像と音声とを同期して再生する。
【選択図】 図1

Description

本発明はTV電話送信端末、TV電話受信端末、TV電話送信方法、TV電話受信方法に関し、特に通話者による画像と音声とをリアルタイムに送受信してお互いの顔を見ながら通話するためのTV電話送信端末、TV電話受信端末、TV電話送信方法、TV電話受信方法に関する。
電話機やPCなどを利用して、カメラ・マイクで取得した画像・音声をリアルタイムに送受信するテレビ電話(以下、TV電話と呼ぶ)が既に存在している。これにより、送話者と受話者とは、お互いの顔やその場の画像を見ながら通話を行うことができる。
上記、TV電話機能に加えて、画像・音声以外にデータ伝送部を持つことにより、遠隔地の装置をコントロールしながら遠隔地を観測したり、ファイル伝送や送受信者の画面を共有したりすることを可能とする遠隔監視システムやTV・電話会議システムが存在し、TV電話プロトコルの標準規格が利用されている。
図15は一般的なTV電話システムの構成を示すブロック図である。同図に示されているTV電話システムの送信側端末1は、カメラなどからなる画像入力部11と、ダイヤルボタンやナビゲーションボタンなどの押下情報やそれら入力手段の結果得られたテキスト情報・送信端末に保存されているコンテンツ情報などが得られるデータ入力部12と、マイクロフォンなどからなる音声入力部13と、各入力部11〜13に入力される信号それぞれに適した符号化処理を行う符号化部17と、符号化部17によって符号化された信号について多重化処理を行うプロトコル処理部18と、プロトコル処理部18による多重化処理後の信号について送信処理を行う通信部19と、アンテナANTとを含んで構成されている。符号化部17は、動画について符号化処理を行う動画符号化部171と、データ信号について符号化処理を行うデータ符号化部172と、音声について符号化処理を行う音声符号化部173とを含んで構成されている。
一方、受信側端末2は、アンテナANTと、送信されてきた信号の受信処理を行う通信部21と、受信処理後の信号について分離処理を行うプロトコル処理部22と、プロトコル処理部22による分離処理後の信号について復号処理を行う復元部23と、画像を出力するための表示画面などからなる画像出力部30、データ出力部31と、スピーカなどからなる音声出力部32とを含んで構成されている。復元部23は、動画について復元処理(復号処理)を行う動画復元部231と、データ信号について復元処理(復号処理)を行うデータ復元部232と、音声について復元処理(復号処理)を行う音声復元部233とを含んで構成されている。
以上のように構成された一般的なTV電話システムでは、送信側端末1の音声、画像、データの各入力部11〜13にそれぞれ入力される信号について、それぞれに適した符号化処理が行われ、プロトコル処理部18にて多重化され、通信処理される。
また受信側端末2では、受信した信号がプロトコル処理部22にて分離化され、それぞれの信号が各復元部231〜233にて画像、音声、データの元の信号に戻され、それら信号が各出力部30〜32によって再生される。
なお、特許文献1には、一定単位に分割したデータブロック毎に、時間的同期をとるための時刻情報を付加しておき、その時刻情報を用いて同時刻に送出する技術が記載されている。
特開平6−62398号公報(要約、段落0013)
しかしながら、上記の図15に示されているTV電話システムには、次のような問題点がある。TV電話機能にて伝送される画像信号・音声信号・データ信号は符号化後、多重化し送信される。さらに受信側では多重化された信号を分離化し、画像・音声・データ信号を復元する。この符号化や復元処理は画像・音声・データ信号とで独立して行われるため、処理する情報量や符号化手法などの違いにより、処理に要する時間に違いが生じる。そのため、画像信号・音声信号・データ信号の符号化部や復元部からの信号の送出は、同時とはならず、受信側端末での画像信号・音声信号・データ信号の同期(同時再生)が保障されるわけではない。
実際、携帯電話におけるTV電話中の画像と音声とで数百[ms]以上の再生時間の差異が発生しうる。そのため、画像による動きと音声再生や端末機能の作動とが同時に受信側端末にて再現されず、臨場感を損ねる原因となる。
ところで、上述した特許文献1に記載されている技術では、送信側端末にて時刻情報を画像信号・音声信号それぞれに付加し、受信側端末にてその時刻情報を利用し、画像と音声とのタイミングを合わせるデータ同期制御を行っている。この手法では、送信端末及び受信端末の両方で同じ方式の同期制御に対応している必要があり、その方式による同期信号を付与した画像・音声各信号の伝達に対応していない端末では、時刻情報の付加された画像信号・音声信号によるテレビ電話通話が正しくが行えなくない。つまり、特許文献1の技術を採用した場合、既に利用されている規格に則った接続が行えない。
本発明は、上記のような課題に鑑みてなされたものであり、通話者による画像と音声とを同期させて再生することのできるTV電話送信端末、TV電話受信端末、TV電話送信方法、TV電話受信方法を提供することを目的としている。
本発明の請求項1によるTV電話送信端末は、互いに対応する画像信号と音声信号とを所定データ信号と共に送信するTV電話送信端末であって、送信すべき画像信号の特徴を抽出する画像特徴情報抽出手段と、送信すべき音声信号の特徴を抽出する音声特徴情報抽出手段と、前記画像特徴情報抽出手段により抽出された画像特徴情報と前記音声特徴情報抽出手段により抽出された音声特徴情報と同一時間範囲内における前記画像特徴情報と前記音声特徴情報とを組にしたヘッダ情報を、前記データ信号に付加して送信する送信手段とを含むことを特徴とする。このように送信側端末を構成することにより、受信側端末においては、ヘッダ情報を用いることにより、画像と音声とを同期させて再生できる。
本発明の請求項2によるTV電話受信端末は、所定データ信号と共に受信した画像信号と音声信号とを再生するTV電話受信端末であって、前記データ信号に付加されてきたヘッダ情報に基づいて前記画像特徴情報と前記音声特徴情報との組を分離する分離手段と、前記分離手段により分離された前記画像特徴情報と前記音声特徴情報とを用いて前記画像信号と前記音声信号とを同期させて再生出力するタイミング調整手段とを含むことを特徴とする。このように、送信側端末からのヘッダ情報を用いることにより、受信側端末においては、画像と音声とを同期させて再生できる。
本発明の請求項3によるTV電話送信端末は、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを符号化して送信するTV電話送信端末であって、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に入力された場合、それらが同一時刻に入力されたことを示す時刻情報を付加する時刻情報付加手段と、前記時刻情報付加手段によって付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整手段とを含むことを特徴とする。このように構成すれば、画像と音声とを同期させて、送信側端末から受信側端末に送信することができる。
本発明の請求項4によるTV電話送信端末は、請求項3において、前記タイミング調整手段は、前記画像信号及び前記音声信号並びに前記データ信号の入力有無を確認し、入力が無い場合には、その符号化処理を行わないことを特徴とする。こうすることにより、符号化処理にかかる時間を短縮できる。
本発明の請求項5によるTV電話受信端末は、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを受信して再生するTV電話受信端末であって、前記画像信号及び前記音声信号並びに前記データ信号のうちの少なくとも2つが同一時刻に送信されてきた場合、それらが同一時刻に送信されてきたことを示す時刻情報を付加する時刻情報付加手段と、前記時刻情報付加手段によって付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整手段とを含むことを特徴とする。このように構成すれば、受信側端末においては、送信送信側端末から受信した画像と音声とを同期させて再生することができる。
本発明の請求項6によるTV電話受信端末は、請求項5において、前記タイミング調整手段は、前記画像信号及び前記音声信号並びに前記データ信号の受信有無を確認し、受信が無い場合には、その復元処理を行わないことを特徴とする。こうすることにより、復元処理にかかる時間を短縮できる。
本発明の請求項7によるTV電話送信方法は、互いに対応する画像信号と音声信号とを所定データ信号と共に送信するTV電話送信方法であって、送信すべき画像信号の特徴を抽出する画像特徴情報抽出ステップと、送信すべき音声信号の特徴を抽出する音声特徴情報抽出ステップと、前記画像特徴情報抽出ステップにおいて抽出された画像特徴情報と前記音声特徴情報抽出ステップにおいて抽出された音声特徴情報とについて、同一時間範囲内において抽出された特徴情報を組にしたヘッダ情報を、前記データ信号に付加して送信する送信ステップとを含むことを特徴とする。こうすることにより、受信側端末においては、ヘッダ情報を用いることにより、画像と音声とを同期させて再生できる。
本発明の請求項8によるTV電話受信方法は、所定データ信号と共に受信した画像信号と音声信号とを再生するTV電話受信方法であって、前記データ信号に付加されてきたヘッダ情報に基づいて前記画像特徴情報と前記音声特徴情報との組を分離する分離ステップと、前記分離ステップにおいて分離された前記画像特徴情報と前記音声特徴情報とを用いて前記画像信号と前記音声信号とを同期させて再生出力するタイミング調整ステップとを含むことを特徴とする。このように、送信側端末からのヘッダ情報を用いることにより、受信側端末においては、画像と音声とを同期させて再生できる。
本発明の請求項9によるTV電話送信方法は、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを符号化して送信するTV電話送信方法であって、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に入力された場合、それらが同一時刻に入力されたことを示す時刻情報を付加する時刻情報付加ステップと、前記時刻情報付加ステップにおいて付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整ステップとを含むことを特徴とする。このようにすれば、画像と音声とを同期させて、送信側端末から受信側端末に送信することができる。
本発明の請求項10によるTV電話受信方法は、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを受信して再生するTV電話受信方法であって、前記画像信号及び前記音声信号並びに前記データ信号のうちの少なくとも2つが同一時刻に送信されてきた場合、それらが同一時刻に送信されてきたことを示す時刻情報を付加する時刻情報付加ステップと、前記時刻情報付加ステップにおいて付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整ステップとを含むことを特徴とする。このようにすれば、受信側端末においては、送信送信側端末から受信した画像と音声とを同期させて再生することができる。
上述したように、特許文献1に記載されている技術では、その本方式による同期制御に対応していない端末ではテレビ電話通話が正しくが行えないのみならず、既に利用されている規格に則った接続が行えない。
これに対し、本発明では、時刻ずれが生じる最大の原因が音声・画像・データ信号の符号化(復号化)処理であることに注目し、送信・受信それぞれの端末内で同期制御を行うので、送信端末及び受信端末の両方が本発明による同期制御に対応している必要がない(後述する第2の実施形態の場合)。また、画像・音声の同期情報を規格化されたデータ伝送機能を使用することで、規格準拠の相互接続性を維持しつつ、同期再生に対応することが可能となる(後述する第1の実施形態の場合)。なお、通信網には規格で定められた信号しか流れない(時刻情報の付加された信号は流れない)ため、相互接続性の問題が生じない。
以上説明したように本発明は、TV電話プロトコルとして既存かつ標準準拠のプロトコルを利用しつつ、画像・音声の符号化処理時間の相違によって生じる画像・音声の再生タイミングの差異を小さくすることができる。
以下、本発明の実施の形態を、図面を参照して説明する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
(第1の実施形態)
図1には、本発明によるTV電話送信端末及びTV電話受信端末を利用した同期動作TV電話システムの第1の実施形態が示されている。
(送信側端末の構成)
図1に示されているように、送信側端末1は、図15に示されている一般的なTV電話システムの送信側端末の構成に、画像特徴抽出部14と、音声特徴抽出部15と、ヘッダ付与部16とが加えられた構成になっている。これら各部は、同図中の矢印で示されているように、各機能間で信号の送受信が可能となっている。
送信側端末1内の画像特徴抽出部14は、画像信号を入力とし、画像について特徴の抽出を行う。画像特徴の抽出には、顔の中にある目や眉などの特徴点の動きを検出する特徴点抽出手法などがTV電話機能中において利用できる。
送信側端末1内の音声特徴抽出部15は、音声信号を入力とし、音声について特徴の抽出を行う。音声の特徴とは、例えば音量の変化である。その場合、音量の変化を抽出し、その変化を示す音量変化情報を利用すれば良い。
送信側端末1内のヘッダ付与部16は、送信側で画像・音声の特徴抽出部から得られた画像特徴情報・音声特徴情報をヘッダ情報に含めることで、データ入力部12から送られたデータ信号と結合する機能を持っている。
(受信側端末の構成)
図1に示されているように、受信側端末2は、図15に示されている一般的なTV電話システムの受信側端末の構成に、画像特徴抽出部24と、音声特徴抽出部25と、ヘッダ分離部26と、マッチング部27及び28と、タイミング調整部29とが加えられた構成になっている。これら各部は、同図中の矢印で示されているように、各機能間で信号の送受信が可能となっている。
受信側端末2内の画像特徴抽出部24は、画像信号を入力とし、画像について特徴の抽出を行う。音声特徴抽出部25は、音声信号を入力とし、音声について特徴の抽出を行う。これら画像特徴抽出部24、音声特徴抽出部25は、送信側端末1内の画像特徴抽出部14、音声特徴抽出部15と、同様の機能を有している。
受信側端末2内のヘッダ分離部26は、送信側端末1からデータ信号とともに伝送されてきた画像特徴情報と音声特徴情報とをデータ信号からそれぞれ分離し、特徴情報をそれぞれ画像や音声のマッチング部27、28に送る機能を持っている。データ信号が存在せずに、画像と音声信号のみが送信された場合は、ヘッダ分離部26にて画像特徴情報・音声特徴情報を各マッチング部27、28に送出し、タイミング調整部29には、同一時刻のデータ信号が存在しないことを通知する機能も持っている。
マッチング部27、28は、復元後の画像信号・音声信号から得られた特徴情報とデータ信号とともに伝送された送信側端末1で得られた特徴情報とを画像・音声それぞれでマッチングを行い、同じ時刻に送信側端末1にて特徴抽出された信号であるかどうかを判断する機能を持つ。
タイミング調整部29には、画像・音声・データの各信号が、マッチング部27、28やヘッダ分離部26から入力される。このタイミング調整部29では、全ての信号がタイミング調整部29に到達するまで、それらの信号を保持する。そして、タイミング調整部29は、画像信号・音声信号・データ信号の全てを、同じタイミングで、対応する各出力部30〜32へ送出する機能を持っている。
(画像特徴情報の抽出)
画像の特徴情報としては、例えば、顔の特徴点情報を利用する。この画像特徴情報の抽出処理について図2を参照して説明する。同図に示されているように、カメラ撮影などによって得られる画像の1つのフレームF1について、十数個の特徴点Pを抽出する。特徴点Pは、同図のフレームF1中に付されている丸印のように、例えば、目・眉・口のエッジなどとする。抽出する特徴点Pは、現フレームF1、前フレームF0、その他のフレームについて、すべて同一の点とする。
それら各特徴点の動き情報は、ベクトル情報として数値化される。このベクトル情報は、全特徴点の情報を組として1つのデータとする。
前フレームF0が存在する場合は、その前フレームから特徴点の差分情報(ベクトル情報)も動き情報として利用し、動画であるメリットを活用する。同図においては、括弧で括られている(○、○)が前フレームについての特徴点の座標情報、括弧で括られている(□、□)が現フレームにおける特徴点の移動量情報、である。このデータ化に際しては、例えば、周知のフェイストラッキング技術などで利用される顔の特徴点抽出技術を採用すれば良い。
このように抽出した特徴点に関する画像特徴情報Jを音声特徴情報と共に送信側端末から受信側端末に送信することにより、受信側端末では画像と音声とを同期して再生することができる。
(音声特徴情報の抽出)
音声の特徴情報には、一番単純な例として、音量がある。すなわち、音声の音量を抽出し、これを数値化したものを利用する。この例について、図3を参照して説明する。
図3には、画像フレームと音声ストリームとの対応関係が示されている。なお、同図中の矢印は時間の経過を示している。
同図に示されているように、画像フレームF0,F1,…は離散的な情報であるのに対し、音声ストリームSは連続している情報である。このため、音声については、対応する画像1フレームの間に多数のサンプリングを行うことができる。したがって、マイクロフォンで取得された音声からサンプリング周期毎に音量を離散化して数値として特徴情報を獲得することができる。
同図においては、破線で囲まれている画像フレームとサンプリング期間とが対応している。例えば、画像フレームF1に対応するサンプリング期間T1において、その期間内での音量の変化Hを数値のデータ列としてデータ化すれば良い。他の画像フレームに対応するサンプリング期間についても、同様にデータ化すれば良い。
なお、特徴点の抽出は、一定時間間隔すなわち定期的に行っても良いし、音声について予め定めた閾値を超えた時すなわち不定期に行っても良い。
(比較される特徴情報)
送信側の画像・音声の各特徴情報は、符号化処理前の画像入力部11、音声入力部13から情報が得られた直後に画像特徴抽出部14、音声特徴抽出部15にてそれぞれ獲得する。これら送信側端末での画像・音声の各特徴情報は、送信されるデータ信号に付加されているヘッダ情報を利用することによって、受信側端末において取得することができる。また、画像・音声については、一般的なTV電話の仕様の枠組み通りに画像伝送・音声伝送が行われる。受信側端末では取得した画像信号・音声信号を復号し、もとの画像・音声が逐次復元される。この復元された画像・音声から、送信側端末と同じ方法で、画像・音声からそれぞれ特徴情報が抽出される。つまり、同じ画像信号・音声信号について、送信側・受信側にて同じ方法にて特徴が抽出されることになる。そして、これらの抽出結果同士が比較される。
なお、画像特徴情報、音声特徴情報は、ともに、符号化に利用される情報よりも格段に情報量は少ない。このため、送受信される信号のデータ部分すなわちヘッダ付与部16の出力信号を利用して送信しても音声や画像より時間的なタイミングが遅れることは原則として生じないと考えられる。
(マッチング)
送信側端末1で取得した画像の特徴情報と受信側端末2で取得した画像の特徴情報との類似度を比較するには、例えば、顔の特徴点情報(配置や動き)を数値化し、2つの情報が一致するかどうかを比較する技術、例えば先述したフェイストラッキング技術などを利用する。顔の複数の特徴点について、動き情報の類似度を比較することにより、同一信号かどうかを判別することができる。
送信側端末で取得した音声の特徴情報と受信側端末で取得した音声の特徴情報との類似度を比較するには、数値化された音量の変化が一致するかどうかのパターンマッチング処理を行い、同一信号かどうかを判別する。比較するデータ長は、画像のフレーム間隔に合わせた時間幅に対応する長さとする。しかしながら、音声信号を離散化した開始点・終了点が完全に一致するとは限らない。そこで、送信側の特徴情報を固定し、受信側の全情報と時間軸どおりに逐次比較する。こうすることで、同一形状となる情報を探索することができる。
処理される信号は、画像も含め、短時間の信号であるため、類似パターンが存在し、パターンマッチングが容易でないとも考えられる。しかしながら、TV電話においては、画像信号・音声信号ともに、基本的にシーケンス通りに処理されるため、探索範囲は限定的であるので、パターンマッチングで有効に探索できると考えられる。
また、画像信号に比べ、音声信号の方が画像信号よりも処理が軽いので、音声信号のデータマッチングによって先に該当データを検出し、マッチング部28でマッチングされた音声信号については、タイミング調整部29にて音声出力部32への出力が待機されることになる。その音声の特徴情報と対になる画像の特徴情報が画像側のマッチング部27で検出されると、対となる音声と画像との出力部30、32による表示画面やスピーカなどへの出力タイミング調整がタイミング調整部29によって行われる。また、音声・画像の特徴情報を伝送したデータの信号があれば、そのデータ信号とともに、対となる音声と画像との出力部30、31、32への出力タイミング調整がタイミング調整部29によって行われる。
(画像と音声との同期)
画像と音声との遅延差が小さい画像(又は音声)入力直後の信号から画像(又は音声)の特徴情報を同時に抽出し、それらをデータ信号として1つの組にする。その組となった特徴情報が受信側端末での同期を取るための情報となる。何らかの理由で画像もしくは音声の特徴情報が得られない場合は、特徴情報の組を作成する必要はなく、画像・音声は従来のTV電話と同様に再生される。例えば、通話者の顔がカメラに映っていない場合には、画像の特徴情報は得られない。しかしながら、TV電話の利用シーンを想定すれば、そのような場合は、主な利用用途ではないと考えられる。
TV電話において、画像と音声との遅延が意識されるのは、口の動きと音声とがずれる場合が多く、そのような場合には顔の特徴情報の利用が可能であると考えられる。
(TV電話送信方法)
以上説明した第1の実施形態においては、以下のようなTV電話送信方法が実現されている。すなわち、互いに対応する画像信号と音声信号とを所定データ信号と共に送信するTV電話送信方法であり、図4に示されているように、送信すべき信号が存在するか判断し存在しない場合は待ち状態とするステップS121と、送信すべき画像信号の特徴を抽出するステップS122と、送信すべき音声信号の特徴を抽出するステップS123と、ステップS122において抽出された画像特徴情報とステップS123において抽出された音声特徴情報とについて、同一時間範囲内において抽出された特徴情報を組にしたヘッダ情報を、データ信号に付加して送信するステップS124とを含むTV電話送信方法が実現されている。このようなTV電話送信方法を採用することにより、受信側端末においては、ヘッダ情報を用いることにより、画像と音声とを同期させて再生できる。
(TV電話受信方法)
以上説明した第1の実施形態においては、以下のようなTV電話受信方法が実現されている。すなわち、所定データ信号と共に受信した画像信号と音声信号とを再生するTV電話受信方法であり、図5に示されているように、送信されてきた信号すなわち受信信号が存在するか判断し存在しない場合は待ち状態とするステップS131と、データ信号に付加されてきたヘッダ情報に基づいて画像特徴情報と音声特徴情報との組を分離するステップS132と、ステップS132において分離された画像特徴情報と音声特徴情報とを用いて画像信号と音声信号とを同期させて再生出力するステップS133とを含むTV電話受信方法が実現されている。このようなTV電話受信方法を採用することにより、受信側端末においては、画像と音声とを同期させて再生できる。
(第1の実施形態のまとめ)
本実施形態では、画像入力/出力部、音声入力/出力部、データ入力/出力部、テレビ電話プロトコル処理部、動画符号化/復元部、音声符号化/復元部、データ符号化/復元部、通信部を備えるTV電話システムを前提としている。このTV電話システムに対し、受信側で画像信号・音声信号・データ信号の再生を同期して実行するために、送信画像・音声の特徴量を抽出し、抽出した特徴情報を、送受信されるデータ信号部分を利用して、相手側端末に送信している。そして、受信側では、受信画像・音声から同様に特徴量を抽出し、データ信号として転送されてきた送信側の画像・音声の特徴量とのマッチングを行い、同一時刻の画像と音声とを検出することで、符号化部や復元部によって生じる画像信号・音声信号・データ信号の時間差を小さくすることができる。
つまり、本実施形態によれば、送信側端末で取得した画像・音声の特徴情報をデータ信号に付加して伝送する。このため、3G−324Mなどの既存の標準化されたTV電話プロトコルにて伝送することができる。受信側端末では、復元された画像・音声から再度特徴情報を抽出し、送信側端末で取得された特徴情報とマッチングすることで、同一時刻に送信側端末で入力された信号を検出し、受信側端末の各出力部に同じタイミングで信号を送出することができる。
(第2の実施形態)
図6には、本発明によるTV電話送信端末及びTV電話受信端末を利用した同期動作TV電話システムの第2の実施形態が示されている。
(送信側端末、受信側端末の構成)
図6に示されているように、送信側端末1は、図15に示されている一般的なTV電話システムの送信側端末の構成に、時刻付与部41と、タイミング調整部42とが加えられた構成になっている。一方、受信側端末2は、図15に示されている一般的なTV電話システムの受信側端末の構成に、時刻付与部43と、タイミング調整部44とが加えられた構成になっている。なお、これら各部は、同図中の矢印で示されているように、各機能間で信号の送受信が可能となっている。
(時刻付与部の構成)
送信側端末1内の時刻付与部41は、画像・音声・データの各入力部11〜13から各信号が出力された直後に、同一時刻であることを識別可能な情報を付加し、同時に信号の最後にエンドマークを付加する機能を持つ。一方、受信側端末2内の時刻付与部43は、プロトコル処理部22から出力される、分離処理された直後の画像・音声・データの各信号に、同一時刻であることを識別可能な情報を付加し、同時に信号の最後にエンドマークを付加する機能を持つ。
ここで、同一時刻を識別する情報として、例えば、シリアル番号を含んだ情報を各信号に付加する方法がある。このシリアル番号は、所定の時間幅T毎に1増加し、扱える最大値になるとゼロに戻る。この最大値を適切に設定することで、シリアル番号を同一時刻であるかどうかの識別子として利用できる。
このシリアル番号については、符号化処理中及び復号化処理中それぞれにおいて同一番号が利用されなければ問題にならないと考えられる。このため、実装される処理系で利用可能な符号で、整数型の最大値が設定されれば良い。ただし、シリアル番号の大小の比較では、最大値の後にゼロに戻ることを考慮したアルゴリズムにする必要はある。
(各部の信号の構造)
送信側端末1の各入力部11〜13から入力された直後の信号の構造例が図7に示されている。同図に示されている信号本体100は、音声信号、画像信号、データ信号のいずれかである。
また、時刻付与部41で作成され、タイミング調整部42に対して通知される信号が、図8に示されている。同図を参照すると、この通知される信号には、時刻情報(すなわちシリアル番号)101と、その時刻の画像信号・音声信号・データ信号の有無を示す情報103〜105とが含まれている。
図7に示されている信号本体100に、シリアル番号である時刻情報101とエンドマーク105とが付与された状態の信号が、図9に示されている。受信側端末2の時刻付与部43では、プロトコル処理部22にて信号が分離化された直後に、同様の処理を行い、時刻情報101とエンドマーク105とを付与する。そして、時刻付与部43は、各信号を復元部231〜233に送出すると同時に、時刻情報101と画像信号・音声信号・データ信号の有無を示す情報103〜105とをタイミング調整部44に通知する。
送信側端末1では、図9に示されている情報のうち、図7に示されている信号本体100のみが符号化される。この符号化された信号100aに時刻情報101(すなわちシリアル番号)とエンドマーク105とが付与された状態の信号が図10に示されている。この図10に示されている信号がタイミング調整部42に送られる。
受信側端末2でも同様に、図10に示されている信号のうち、図11に示されている、符号化された信号100aのみが復元される。そして、この復元された信号に時刻情報101とエンドマーク105とを付与した信号(図9参照)がタイミング調整部44に送られる。
(タイミング調整部の構成)
タイミング調整部44は、画像・音声・データの各信号(図7参照)と時刻付与部43から通知される情報(図8参照)とを入力とし、画像・音声・データの各信号を同一時刻に各出力部30〜32へと送出する機能を持つ。また、タイミング調整部44は、復元すべき画像信号・音声信号・データ信号に割当てる処理量を制御するための情報を復元部23に通知する機能を持つ。なお、送信側端末1内のタイミング調整部42は、符号化すべき画像信号・音声信号・データ信号に割当てる処理量を制御するための情報を符号化部17に通知する機能を持つ。
(処理の割当て比率)
符号化部17や復元部23の処理量制御のために送信される情報は、例えば、画像・音声・データの各信号に割当てる符号化処理や復元処理(復号化処理)の割当て比率などの指示情報である。この割当て比率は、CPUなどにおけるプロセス毎に割当てられる比率や、符号化処理や復元処理がブロック単位などで表現可能な処理系を利用する場合は、その利用ブロック数などで表される。実際にはその比率に対して、符号化処理プロセスや復元処理プロセスに割当てられるプロセッサ使用率が乗算される。
この割当て比率は、符号化すべき(又は復号化すべき)一番古いシリアル番号(時刻情報)の各信号の有無を確認して決定される。この信号の有無は、シリアル番号とともに、時刻付与部41、43からタイミング調整部42、44へと通知される。例えば、シリアル番号が「5」の信号の組では画像信号と音声信号とが存在し、データ信号が存在しない場合、次のようになる。すなわち、この場合、まず画像の処理と音声の処理とに50%ずつの割当て比率がタイミング調整部42、44から符号化部17、復元部23に通知される。この例では50%ずつであるが、一般に画像信号の処理の方が情報量も多く、符号化処理や復元処理も複雑であるため、処理の割当て比率に予め重み付けをしても良い。例えば、画像:音声=7:3などとする重み付けが考えられる。
信号毎に符号化処理や復元処理が終了すると、エンドマークがタイミング調整部42、44にて検出される。同一シリアル番号の符号化処理(又は復元処理)の未終了の信号が存在する場合は、終了した信号のための処理資源を未終了の信号の処理に利用する。タイミング調整部42、44は、割当て比率を再設定し、符号化部17、復元部23に通知する。
先ほどの例で引き続き考えると、例えば音声信号のエンドマークが画像信号よりも先に検出された場合は次のようになる。すなわち、その場合、音声に利用していた符号化処理資源(又は復元処理資源)を画像信号の符号化処理(又は復元処理)に利用することになる。そして、符号化処理(又は復元処理)のために100%の資源が割当てる通知が、タイミング処理部から送信される。
なお、符号化処理(又は復元処理)の割当ては、2つの情報が残っている場合は、50%ずつでも良いし、いずれか一方の信号に100%全て割当てても良い。一方に全ての資源を割当てる場合は、処理量に応じて優先度を設ける。一般には、画像信号>音声信号>データ信号の順に処理量が多いので、この順に優先度を予め決定しておく。もっとも、優先度を予め決定しておくのではなく、その都度ランダムに優先度を決定しても良い。
(タイミング調整部の処理)
タイミング調整部での処理の流れについて、図12を参照して説明する。
タイミング調整部では、まず図8に示されている情報を受信したか判断する(ステップS51)。この情報を受信することで、画像・音声・データのいずれの信号が送られてくることを各信号の符号化処理中(又は復元処理中)に把握することが可能となる。この情報を受信するまでは待ち状態となる。
次に、図8の情報を受信すると、それに含まれている時刻情報(すなわちシリアル番号)と、各信号の有無を示す情報とに基づき、各符号化部(又は復元部)の処理量制御のための情報を送信する(ステップS52)。処理量制御としては、例えば、同一時刻情報(すなわちシリアル番号)にて信号のない画像信号・音声信号・データ信号の符号化処理(又は復元処理)に無駄な処理量を割当てない制御が考えられる。つまり、信号の有無を確認し、信号が存在しない場合には処理を行わないことにより、データ信号の処理量を削減でき、符号化処理(又は復元処理)にかかる時間を短縮できる。
次に、同一時刻情報の各信号のエンドマークが到達したかどうかの判定を行う(ステップS53)。エンドマークを受信するまでは待ち状態となる。そして、存在する画像・音声・データの全ての信号のエンドマークを受信するまで、処理量制御とエンドマーク判定とを繰り返す(ステップS54)。
同一時刻情報(すなわち同一シリアル番号)に属する全信号の処理が終了したら、各信号を同時に送出する(ステップS55)。この場合、送信側端末内のタイミング調整部42では、信号の存在する画像・音声・データの各信号を同時にプロトコル処理部18に送出する。一方、受信側端末内のタイミング調整部44では、各信号を画像・音声・データの各出力部30〜32に送出する。そして、タイミング調整部42、44は、次の時刻情報(すなわち次のシリアル番号)についての処理に移る。
(TV電話送信方法)
以上説明した第2の実施形態においては、以下のようなTV電話送信方法が実現されている。すなわち、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを符号化して送信するTV電話送信方法であり、図13に示されているように、送信すべき信号が存在するか判断し存在しない場合は待ち状態とするステップS141と、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に入力された場合、それらが同一時刻に入力されたことを示す時刻情報を付加するステップS142と、ステップS142において付加された時刻情報に基づいて画像信号及び音声信号並びにデータ信号それぞれについての出力タイミングを調整するステップS143とを含むTV電話送信方法が実現されている。このようなTV電話送信方法を採用することにより、画像と音声とを同期させて、送信側端末から受信側端末に送信することができる。
(TV電話受信方法)
以上説明した第2の実施形態においては、以下のようなTV電話受信方法が実現されている。すなわち、互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを受信して再生するTV電話受信方法であり、図14に示されているように、送信されてきた信号すなわち受信信号が存在するか判断し存在しない場合は待ち状態とするステップS151と、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に送信されてきた場合、それらが同一時刻に送信されてきたことを示す時刻情報を付加するステップS152と、ステップS152において付加された時刻情報に基づいて画像信号及び音声信号並びにデータ信号それぞれについての出力タイミングを調整するステップS153とを含むTV電話受信方法が実現されている。このようなTV電話受信方法を採用することにより、受信側端末においては、送信送信側端末から受信した画像と音声とを同期させて再生することができる。
(第2の実施形態のまとめ)
本実施形態では、画像入力/出力部、音声入力/出力部、データ入力/出力部、テレビ電話プロトコル処理部、動画符号化/復元部、音声符号化/復元部、データ符号化/復元部、通信部を備えるTV電話システムを前提としている。このTV電話システムにおいて、時刻情報を付与し、その付与した時刻情報に基づいて出力タイミングを調整することで、送信・受信端末それぞれの端末内で生じる画像・音声・データ信号の符号化/復元処理による時間差を小さくすることができる。
つまり、本実施形態によれば、画像・音声・データの各信号で処理時間に差が生じる符号化処理後(復元処理後)に出力時刻を揃えることができるため、ほぼ同じ時刻での画像信号・音声信号・データ信号の受信側端末での再生が可能となる。さらに画像・音声・データ各信号の有無に応じた動的な符号化処理(復元処理)の制御も可能なため、同期をとった際の画像・音声・データ各信号の再生の遅延時間も可能な限り小さくすることができる。
なお、送信側端末及び受信側端末が、それぞれ図6に示されている機能を要していることが望ましいが、いずれか一方の端末のみが、同図に示されている機能を要していれば、画像信号・音声信号・データ信号についての再生タイミングのずれを小さくすることができる。
本発明によれば、TV電話プロトコルとして既存かつ標準準拠のプロトコルを利用しつつ、画像・音声の符号化処理時間の相違によって生じる画像・音声の再生タイミングの差異を小さくすることができる。また、信号についての処理量の割当てを制御する場合、画像信号、音声信号及びデータ信号の組合せは任意であり、それらのうち任意の2種類の情報の伝送においても同様に、再生タイミングの差異を小さくすることができる。
本発明の第1の実施形態における同期動作TV電話システムの構成を示す図である。 画像特徴情報の抽出処理を示す図である。 音声の特徴情報の抽出手法の一例を示す図である。 本発明による第1の実施形態によるTV電話送信方法を示すフローチャートである。 本発明による第1の実施形態によるTV電話受信方法を示すフローチャートである。 本発明の第2の実施形態における同期動作TV電話システムの構成を示す図である。 第2の実施形態における画像・音声・データ入力部から得られた直後の信号本体を示す図である。 第2の実施形態における時刻付与部で作成され、タイミング調整部に通知される時刻情報と画像信号・音声信号・データ信号の有無の情報の格納例を示す図である。 第2の実施形態における画像信号・音声信号・データ信号の情報本体に時刻情報と情報のエンドマークとが付与された状態を示す図である。 第2の実施形態における画像信号・音声信号・データ信号を符号化した情報に時刻情報と情報のエンドマークとが付与された状態を示す図である。 第2の実施形態における画像信号・音声信号・データ信号を符号化した情報を示す図である。 第2の実施形態におけるタイミング調整部での処理を説明するためのフローチャートである。 本発明による第2の実施形態によるTV電話送信方法を示すフローチャートである。 本発明による第2の実施形態によるTV電話受信方法を示すフローチャートである。 一般的なTV電話システムの構成を示す図である。
符号の説明
1 送信側端末
2 受信側端末
11 画像入力部
12 データ入力部
13 音声入力部
14 画像特徴抽出部
15 音声特徴抽出部
16 ヘッダ付与部
17 符号化部
18、22 プロトコル処理部
19、21 通信部
23 復元部
24 画像特徴抽出部
25 音声特徴抽出部
26 ヘッダ分離部
27、28 マッチング部
29、42、44 タイミング調整部
30 画像出力部
31 データ出力部
32 音声出力部
41、43 時刻付与部
171 動画符号化部
172 データ符号化部
173 音声符号化部
231 動画復元部
232 データ復元部
233 音声復元部
ANT アンテナ

Claims (10)

  1. 互いに対応する画像信号と音声信号とを所定データ信号と共に送信するTV電話送信端末であって、送信すべき画像信号の特徴を抽出する画像特徴情報抽出手段と、送信すべき音声信号の特徴を抽出する音声特徴情報抽出手段と、前記画像特徴情報抽出手段により抽出された画像特徴情報と前記音声特徴情報抽出手段により抽出された音声特徴情報と同一時間範囲内における前記画像特徴情報と前記音声特徴情報とを組にしたヘッダ情報を、前記データ信号に付加して送信する送信手段とを含むことを特徴とするTV電話送信端末。
  2. 所定データ信号と共に受信した画像信号と音声信号とを再生するTV電話受信端末であって、前記データ信号に付加されてきたヘッダ情報に基づいて前記画像特徴情報と前記音声特徴情報との組を分離する分離手段と、前記分離手段により分離された前記画像特徴情報と前記音声特徴情報とを用いて前記画像信号と前記音声信号とを同期させて再生出力するタイミング調整手段とを含むことを特徴とするTV電話受信端末。
  3. 互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを符号化して送信するTV電話送信端末であって、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に入力された場合、それらが同一時刻に入力されたことを示す時刻情報を付加する時刻情報付加手段と、前記時刻情報付加手段によって付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整手段とを含むことを特徴とするTV電話送信端末。
  4. 前記タイミング調整手段は、前記画像信号及び前記音声信号並びに前記データ信号の入力有無を確認し、入力が無い場合には、その符号化処理を行わないことを特徴とする請求項3記載のTV電話送信端末。
  5. 互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを受信して再生するTV電話受信端末であって、前記画像信号及び前記音声信号並びに前記データ信号のうちの少なくとも2つが同一時刻に送信されてきた場合、それらが同一時刻に送信されてきたことを示す時刻情報を付加する時刻情報付加手段と、前記時刻情報付加手段によって付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整手段とを含むことを特徴とするTV電話受信端末。
  6. 前記タイミング調整手段は、前記画像信号及び前記音声信号並びに前記データ信号の受信有無を確認し、受信が無い場合には、その復元処理を行わないことを特徴とする請求項5記載のTV電話受信端末。
  7. 互いに対応する画像信号と音声信号とを所定データ信号と共に送信するTV電話送信方法であって、送信すべき画像信号の特徴を抽出する画像特徴情報抽出ステップと、送信すべき音声信号の特徴を抽出する音声特徴情報抽出ステップと、前記画像特徴情報抽出ステップにおいて抽出された画像特徴情報と前記音声特徴情報抽出ステップにおいて抽出された音声特徴情報とについて、同一時間範囲内において抽出された特徴情報を組にしたヘッダ情報を、前記データ信号に付加して送信する送信ステップとを含むことを特徴とするTV電話送信方法。
  8. 所定データ信号と共に受信した画像信号と音声信号とを再生するTV電話受信方法であって、前記データ信号に付加されてきたヘッダ情報に基づいて前記画像特徴情報と前記音声特徴情報との組を分離する分離ステップと、前記分離ステップにおいて分離された前記画像特徴情報と前記音声特徴情報とを用いて前記画像信号と前記音声信号とを同期させて再生出力するタイミング調整ステップとを含むことを特徴とするTV電話受信方法。
  9. 互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを符号化して送信するTV電話送信方法であって、画像信号及び音声信号並びにデータ信号のうちの少なくとも2つが同一時刻に入力された場合、それらが同一時刻に入力されたことを示す時刻情報を付加する時刻情報付加ステップと、前記時刻情報付加ステップにおいて付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整ステップとを含むことを特徴とするTV電話送信方法。
  10. 互いに対応する画像信号と音声信号とデータ信号とのうちの少なくとも2つを受信して再生するTV電話受信方法であって、前記画像信号及び前記音声信号並びに前記データ信号のうちの少なくとも2つが同一時刻に送信されてきた場合、それらが同一時刻に送信されてきたことを示す時刻情報を付加する時刻情報付加ステップと、前記時刻情報付加ステップにおいて付加された時刻情報に基づいて前記画像信号及び前記音声信号並びに前記データ信号それぞれについての出力タイミングを調整するタイミング調整ステップとを含むことを特徴とするTV電話受信方法。
JP2003400033A 2003-11-28 2003-11-28 Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法 Pending JP2005167354A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003400033A JP2005167354A (ja) 2003-11-28 2003-11-28 Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003400033A JP2005167354A (ja) 2003-11-28 2003-11-28 Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法

Publications (1)

Publication Number Publication Date
JP2005167354A true JP2005167354A (ja) 2005-06-23

Family

ID=34724408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003400033A Pending JP2005167354A (ja) 2003-11-28 2003-11-28 Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法

Country Status (1)

Country Link
JP (1) JP2005167354A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011120192A (ja) * 2009-12-04 2011-06-16 Alcor Micro Corp 映像/音声データ検出モジュール及び映像/音声データの検出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011120192A (ja) * 2009-12-04 2011-06-16 Alcor Micro Corp 映像/音声データ検出モジュール及び映像/音声データの検出方法

Similar Documents

Publication Publication Date Title
US10930262B2 (en) Artificially generated speech for a communication session
US5570372A (en) Multimedia communications with system-dependent adaptive delays
RU2408158C2 (ru) Синхронизация звука и видео
US7859561B2 (en) Method and system for video conference
JP2003504897A (ja) 電話回線による高速映像伝送
US7130618B2 (en) Method, apparatus, and system for transmitting moving image data
JP2000013769A (ja) 多点画像会議システム及びその具現方法
CN111147362B (zh) 多人即时通讯方法、系统、装置及电子设备
JP2010157906A (ja) 映像表示装置
JP2012151555A (ja) テレビ会議システム、テレビ会議中継装置、テレビ会議中継方法および中継プログラム
CN103826084A (zh) 一种音频编码方法
JP2001326979A (ja) 無線携帯端末及び無線携帯端末の通信方法
JP2005167354A (ja) Tv電話送信端末、tv電話受信端末、tv電話送信方法、tv電話受信方法
JPH1169330A (ja) 留守録機能を備えた画像通信装置
JP2007020095A (ja) 情報合成装置、情報合成システム、情報同期方法およびプログラム
JP2002290973A (ja) マルチメディア通信装置
JP2003309829A (ja) 携帯動画電話装置
JP2001077924A (ja) 多地点通信システム及びその方法
JP2006074359A (ja) 遠隔会議システムにおける音声データの送受信システム及び制御方法
JP2002290940A (ja) テレビ会議システム
JP2002152181A (ja) マルチメディアデータ通信方法およびマルチメディアデータ通信装置
JP6972576B2 (ja) 通信装置、通信システム、通信方法及びプログラム
US9300907B2 (en) Method for handling interference during the transmission of a chronological succession of digital images
JP2010219783A (ja) 通信端末、通信方法およびコンピュータプログラム
JP2003163906A (ja) テレビ会議システム及びテレビ会議方法