JP2004304601A

JP2004304601A - Ｔｖ電話装置、ｔｖ電話装置のデータ送受信方法

Info

Publication number: JP2004304601A
Application number: JP2003096297A
Authority: JP
Inventors: Kousuke Haruki; 耕祐春木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-03-31
Filing date: 2003-03-31
Publication date: 2004-10-28
Also published as: EP1465423A1; US20040189791A1

Abstract

【課題】映像と音声だけでなく利用者が発話した内容を表す文字列を扱うことで、聴覚が不自由な人にとっても通話を成立させる。
【解決手段】ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置である。ＴＶ電話装置は、音声データを入力する音声入力部２２と、映像データを入力する映像入力部３０と、入力された音声データに対して音声認識処理を実行してテキストデータを生成する音声認識部２７と、音声データと映像データとテキストデータとを多重化する多重化／分離部３６と、多重化されたデータをネットワークを通じて送信する通信ユニット３８を有する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ＴＶ電話装置及びＴＶ電話装置のデータ送受信方法に関する。
【０００２】
【従来の技術】
従来のＴＶ電話装置は、通信回線網を介して、通信相手とするＴＶ電話装置との間で映像と音声を転送する機能が設けられている。さらに、映像と音声だけでなく、付帯情報を提示できるＴＶ電話システムも考えられている（例えば特許文献１）。このテレビ電話システムでは、電話交換システムに接続された情報提供装置において、テレビ電話機間の通信にかかる音声からキーワードを検出し、この検出されたキーワードに関連する付帯情報を記憶部から選択して、通信中のテレビ電話機に表示させる。付帯情報としては、広告情報やサービス情報で有る。広告情報とは、システムと定型している企業・商店（広告主）やその商品を宣伝するための情報である。また、サービス情報とは、ユーザに有用と考えられる様々な情報（例えば天気予報、道路マップ）のことである。
【０００３】
【特許文献１】
特開２００２−１６５１９３号公報（図１、図６、図７）
【０００４】
【発明が解決しようとする課題】
このように従来のＴＶ電話装置では、映像と音声を転送するだけでなく、付帯情報を表示することが考えられている。しかしながら、従来のＴＶ電話装置では、映像と音声を利用者が使用できることを前提としているため、会話の成立に必ずしも必要ではない付帯情報を表示できるに過ぎない。例えば、聴覚が不自由な人にとっては、音声を利用することができないため、付帯情報が表示されたとしても、相手の発言内容が分からない、あるいは自分の発言を伝えにくいなど不具合があり通話を成立させるのが困難となっていた。
【０００５】
本発明は前記のような事情を考慮してなされたもので、映像と音声だけでなく利用者が発話した内容を表す文字列を扱うことで、聴覚が不都合な人にとっても通話を成立させることが可能なＴＶ電話装置、ＴＶ電話装置のデータ送受信方法を提供することを目的とする。
【０００６】
【課題を解決するための手段】
本発明は、ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置において、音声データを入力する音声入力手段と、映像データを入力する映像入力手段と、前記映像入力手段及び前記音声入力手段によって映像データと音声データとを入力している間にテキストデータを生成するテキストデータ生成手段と、前記音声データと前記映像データと前記テキストデータとを合成する合成手段と、前記合成手段によって合成されたデータを前記ネットワークを通じて送信する通信手段とを具備したことを特徴とする。
【０００７】
また本発明は、ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置において、映像データとテキストデータとが合成されたデータをネットワークを通じて受信する通信手段と、前記通信手段によって受信したデータから前記映像データと前記テキストデータとを分離する分離手段と、前記分離手段によって分離されたテキストデータに応じたテキストを、前記分離手段によって分離された映像データに合成する画像処理手段と、前記画像処理手段によってテキストが合成された映像データをもとに映像を出力する映像出力手段とを具備したことを特徴とする。
【０００８】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。図１は本実施形態に係わるＴＶ電話システム構成を示すブロック図である。ＴＶ電話システムは、複数のＴＶ電話装置１２，１４がネットワーク１０を介して接続される。ＴＶ電話装置１２，１４は、例えば半導体メモリ、ＣＤ−ＲＯＭ、ＤＶＤ、磁気ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。具体的には、パーソナルコンピュータ、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、カメラ機能付き携帯電話、専用のＴＶ電話装置などにより実現される。ネットワーク１０は、例えばＴＣＰ（ｔｒａｎｓｍｉｓｓｉｏｎｃｏｎｔｒｏｌｐｒｏｔｏｃｏｌ）／ＩＰ（ｉｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌ）などのプロトコルを用いてデータの送受信を相互に行なうことが可能な、インターネットなどを含むＩＰネットワークである。ＴＶ電話装置１２，１４には、ＩＰ（ｉｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌ）に従う通信機能が設けられているものとする。
【０００９】
図２は、本実施形態におけるＴＶ電話装置１２，１４の構成を示すブロック図である。図２に示すように、本実施形態におけるＴＶ電話装置１２，１４は、音声出力部２０、音声入力部２２、音声処理部２４、音声合成部２６、音声認識部２７、画像出力部２８、画像入力部３０、画像処理部３２、テキストデータ入力部３４、多重化／分離部３６、通信ユニット３８、機能制御部４０、機能指示部４２、記憶部４４、及び記録再生制御部４６を有している。
【００１０】
音声出力部２０は、音声処理部２４から出力された音声データをもとに音声を出力するもので、スピーカなどを含む。音声入力部２２は、音声を入力して音声データを音声処理部２４及び音声認識部２７に出力するもので、マイクなどを含む。音声出力部２０と音声入力部２２は、それぞれ独立してＴＶ電話装置に設けられても良いし、ヘッドセットや受話器のように構成されても良い。
【００１１】
音声処理部２４は、多重化／分離部３６からの符号化された音声データに対する復号化処理、音声入力部２２から入力された音声データに対する符号化処理の他、音声合成部２６によってテキストデータをもとに生成された音声データを音声出力部２０から出力させる処理を実行する。
【００１２】
音声合成部２６は、多重化／分離部３６によって分離されたテキストデータをもとに音声合成を行ない、合成された音声の音声データを音声処理部２４に出力する。
【００１３】
音声認識部２７は、音声入力部２２から入力された音声データに対して音声認識処理を実行して、例えば音声に応じたテキストデータを生成して多重化／分離部３６に出力する。
【００１４】
画像出力部２８は、映像処理部３２から出力された映像データをもとに映像を出力するもので、液晶ディスプレイやＣＲＴなどの表示装置を含む。画像入力部３０は、映像を撮影して映像データを映像処理部３２に出力するもので、カメラなどの撮像装置を含む。
【００１５】
画像処理部３２は、多重化／分離部３６からの符号化された映像データに対する復号化処理、映像出力部２８から入力された映像データに対する符号化処理などを実行する。
【００１６】
テキストデータ入力部３４は、キーボードやタブレット、マウスなどの入力装置から入力されたデータをもとにテキストデータを生成するもので、ＩＭＥ（ＩｎｐｕｔＭｅｔｈｏｄＥｄｉｔｏｒ）などのプログラムによってテキストデータを生成する。
【００１７】
多重化／分離部３６は、音声処理部２４（音声データ）、映像処理部３２（映像データ）、音声認識部２７またはテキストデータ入力部３４（テキストデータ）から入力されるデータを多重化して、通信ユニット３８を通じてネットワーク１０に送信できるデータ形式、例えば各データをパケット化した多重ストリームデータを生成し、また通信ユニット３８を介して受信されたデータから音声データ、映像データ、テキストデータを分離して、それぞれ音声処理部２４、映像処理部３２、音声合成部２６に出力する。多重化／分離部３６は、例えばＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）技術を用いた多重化／分離処理を実行する。また、多重化／分離部３６には、通信相手とするＴＶ電話装置に送信したデータに応じて、送信先のＴＶ電話装置がテキストデータをもとにテキストを表示するタイミングの調整、すなわち映像及び音声の再生とテキストの表示が同期するように多重ストリームデータの生成を調整する調整部３６ａが設けられている。調整部３６ａは、例えば、通信相手とする機器（ＴＶ電話装置）において、音声入力部２２によって発話音声が入力された時間よりも長い間、テキストデータをもとにしたテキストが表示されるように調整する。
【００１８】
通信ユニット３８は、ネットワーク１０を通じて、例えばＴＣＰ／ＩＰによるデータの送受信を制御する。
【００１９】
機能制御部４０は、通信相手とするＴＶ電話装置に設けられたデータ受信機能、すなわち映像データ、音声データ、テキストデータの何れに対する処理機能が設けられているかに応じて、多重化／分離部３６による多重化／分離の処理を制御して、通信相手が処理可能なデータのみが送信されるようにする。機能制御部４０は、通信相手のＴＶ電話装置との間で通話が開始される前に、通信相手から処理可能な機能を示す情報が記載された機能プロファイルを通信ユニット３８を通じて取得し、この機能プロファイルの記載に応じて多重化／分離部３６を制御する。
【００２０】
機能指示部４２は、通信相手とするＴＶ電話装置に対して、通話が開始される前に送信する機能プロファイル４２ａを機能制御部４０に提供する。機能プロファイル４２ａに記載される情報は、ＴＶ電話装置に実装された機能に応じて固定的に決められても良いし、図示せぬ入力装置からの利用者による指示に応じて使用しない機能を任意に設定できるようにしても良い。
【００２１】
記憶部４４は、通信ユニット３８を通じて多重化／分離部３６に入力されたデータを記憶するもので、例えば留守番電話機能を実現するために受信データ、例えば通信相手とするＴＶ電話装置から送信された、映像、音声、テキストの各データを記憶しておく。記録再生制御部４６から再生実行が指示された場合、記録してある受信データを多重化／分離部３６に提供する。
【００２２】
記録再生制御部４６は、ＴＶ電話装置を留守番電話として機能させるための制御を行なうもので、留守録設定時には多重化／分離部３６を通じて受信したデータを記憶部４４に記憶させ、また再生実行を指示することで記憶部４４に記憶させた受信データを多重化／分離部３６に提供させて、データから分離される映像（テキストを含む）、音声を出力させる。
【００２３】
（第１実施形態）
まず、送信側のＴＶ電話装置１２において映像と音声のデータにテキストデータを付加して送信し、受信側のＴＶ電話装置１４でテキストデータをもとに文字列を表示する場合について説明する。
【００２４】
図３は、例えばＴＶ電話装置１２とＴＶ電話装置１４とがネットワーク１０を介して接続された状態にあり、ＴＶ電話装置１２からＴＶ電話装置１４に対してデータを送信する時の状況を表している。図４は、送信側のＴＶ電話装置１２の動作を説明するためのフローチャートである。図３において、受信側として示すＴＶ電話装置１４は、聴覚が不自由な人が使用しているものとする。
【００２５】
ＴＶ電話装置１２は、映像と音声のデータにテキストデータを付加して送信する機能の実行が設定され、またＴＶ電話装置１４は、受信データ中に含まれるテキストデータをもとに文字列をキャプションとして表示する機能の実行が設定されて、それぞれ使用されるものとする。
【００２６】
まず、ＴＶ電話装置１２は、映像入力部３０によって利用者の顔などを撮影しながら、音声入力部２２によって音声を入力する（ステップＡ１）。映像入力部３０によって入力された映像データは、映像処理部３２によって符号化されて多重化／分離部３６に出力される。また、音声入力部２２から入力された音声データは、音声処理部２４により符号化されて多重化／分離部３６に出力される。
【００２７】
一方、音声認識部２７は、音声入力部２２から出力される音声データを入力し、この音声データに対する音声認識処理を実行する。例えば、利用者が「こんにちは」と発話した場合には、音声認識処理によって「こんにちは」のテキストデータが生成される（ステップＡ２）。
【００２８】
図５には、映像入力部３０によって入力される映像（ａ１）と、音声入力部２２により入力される音声（発話期間）（ａ２）と、音声認識処理の実行期間（ａ３）の関係を示している。音声認識部２７は、発話によって入力された音声に対して直ちに音声認識処理を実行するので、発話が終了した時点でほぼ同時に発話内容を表すテキストデータを出力する。
【００２９】
多重化／分離部３６は、音声処理部２４から入力される音声データと、映像処理部３２から入力される音声データと、音声認識部２７からのテキストデータとを多重化して、多重化ストリームデータを生成するが、この際、調整部３６ａにより、映像及び音声に対するテキストデータの出力タイミングを調整する。
【００３０】
すなわち、図５（ｂ２）に示すように、映像と音声によって確認される発話期間よりも、テキスト表示期間が長くなるように調整する。つまり、通常、音声を聞いて内容を確認するよりも、文字を読んで内容を把握する方がより多くの時間を要するためである。
【００３１】
多重化／分離部３６は、映像及び音声に対するテキストの出力タイミングを調整した多重化ストリームデータを生成して、通信ユニット３８を介して通信相手のＴＶ電話装置１４に送信する（ステップＡ４）。なお、多重化／分離部３６は、調整された出力タイミングで、テキストデータを、映像及び音声のデータと合成して多重ストリームデータを生成しても良いし、映像及び音声に対するテキストの時間的関係を記述した関連情報を生成して、多重ストリームデータと共に送信するようにしても良い。
【００３２】
なお、前述した説明では、音声を入力して、音声認識処理によってテキストデータを生成しているが、テキストデータ入力部３４から（キーボードなどを用いて）テキストデータを入力するようにしても良い。この場合、テキストデータ入力部３４（キーボードなど）を用いたデータ入力のタイミングは、利用者が発話するタイミングと一致しない（あるいは発話しない場合もある）ので、多重化／分離部３６は、テキストデータに対する出力タイミングの調整を行わないものとする。多重化／分離部３６は、テキストデータ入力部３４からテキストデータが入力されると、その時点で入力される映像と音声とに合成してＴＶ電話装置１４に送信する。
【００３３】
次に、受信側のＴＶ電話装置１４は、通信ユニット３８を介してＴＶ電話装置１２からのデータを受信すると、多重化／分離部３６において、受信データから映像データ、音声データ、テキストデータを分離する。
【００３４】
映像処理部３２は、多重化／分離部３６により分離された映像データに対してテキストを合成して、映像出力部２８によって出力させる。すなわち、通信相手のＴＶ電話装置１２の利用者が発声した内容、例えば図３に示す「こんにちは」の文字列が画面中にキャプションとして表示される。一方、音声処理部２４は、多重化／分離部３６により分離された音声データをもとに音声出力部２０から音声を出力させる。
【００３５】
こうして、送信側のＴＶ電話装置１２において入力された音声をテキストデータに変換して送信し、さらに受信側のＴＶ電話装置１４ではそのテキストデータを画面上にキャプションとして表示するので、受信側のＴＶ電話装置１４で音声出力が有効でない場合（聴覚が不自由な人が利用しているような場合）でも、通話を成立させることができる。また、画面中に表示される文字列が、映像中で相手が発声している間よりも長い時間表示されているので、発話の内容を確実に把握することができる。
【００３６】
また、送信側のＴＶ電話装置１２において、音声入力を行わずにキーボードなどによるテキスト入力を行った場合であっても、受信側のＴＶ電話装置１４においてテキストを画像中でキャプションとして表示でき、送信側と受信側の何れのＴＶ電話装置１２，１４とも音声入出力が有効でない場合などでも、通話を成立させることができる。
【００３７】
なお、前述した説明では、送信側のＴＶ電話装置１２において音声認識処理を実行し、映像及び音声と共にテキストデータを送信し、受信側のＴＶ電話装置１４において映像にテキストを合成して表示させているが、受信側のＴＶ電話装置１４において音声認識処理を実行するようにしても良い。この場合、送信側のＴＶ電話装置１２は、入力された映像と音声とを受信側のＴＶ電話装置１４に送信する。ＴＶ電話装置１４は、多重化／分離部３６によって分離された音声データを音声処理部２４において復号化し、この復号化された音声データに対して、音声認識部２７により音声認識処理を実行する。音声認識部２７による音声認識処理により生成されたデータは、映像処理部３２に出力されて映像データと合成される。映像処理部３２は、映像データにテキストを合成して、映像出力部２８によって表示させる。
【００３８】
こうして、ＴＶ電話装置１２の送信側端末から送信される映像、音声に対して、受信側のＴＶ電話装置１４で音声をリアルタイムで音声認識して画面上にキャプションとして表示するので、受信側のＴＶ電話装置１４で音声出力が有効でない場合、例えば聴覚が不自由な人が使用している場合であっても、これを意識せずに、送信側の利用者はＴＶ電話装置１２を使用することができる。
【００３９】
次に、送信側のＴＶ電話装置１４において映像データにテキストデータを付加して送信し、受信側のＴＶ電話装置１２でテキストデータをもとに音声合成する場合について説明する。
【００４０】
図６は、例えばＴＶ電話装置１２とＴＶ電話装置１４とがネットワーク１０を介して接続された状態にあり、ＴＶ電話装置１４からＴＶ電話装置１２に対してデータを送信する時の状況を表している。図６において、送信側として示すＴＶ電話装置１４は、聴覚が不自由な人が使用している。図７は、送信側のＴＶ電話装置１４の動作を説明するためのフローチャート、図８は、受信側のＴＶ電話装置１２の動作を説明するためのフローチャートである。
【００４１】
ＴＶ電話装置１４は、映像データにテキストデータを付加して送信する機能の実行が設定され、またＴＶ電話装置１２は、受信データ中に含まれるテキストデータをもとに音声合成する機能の実行が設定されて、それぞれ使用されるものとする。
【００４２】
まず、ＴＶ電話装置１４は、映像入力部３０によって利用者の顔などを撮影しながら、音声入力部２２によって音声を入力する（ステップＢ１）。映像入力部３０によって入力された映像データは、映像処理部３２によって符号化されて多重化／分離部３６に出力される。また、音声入力部２２から入力された音声データは、音声処理部２４により符号化されて多重化／分離部３６に出力される。ただし、ここでは利用者によって発声されないものとする。
【００４３】
一方、ＴＶ電話装置１４は、テキストデータ入力部３４から（キーボードなどを用いて）テキストデータが入力されると（ステップＢ２）、多重化／分離部３６にデータデータが出力される。
【００４４】
多重化／分離部３６は、テキストデータ入力部３４からテキストデータを入力すると、その時点で音声処理部２４から入力される音声と音声認識部２７から入力される音声に合成してＴＶ電話装置１２に送信する（ステップＢ３）。なお、テキストデータが入力されなかった場合には、多重化／分離部３６は、映像と音声のみをＴＶ電話装置１２に送信する（ステップＢ４）。
【００４５】
次に、受信側のＴＶ電話装置１２は、通信ユニット３８を介してＴＶ電話装置１２からのデータを受信すると、多重化／分離部３６において、受信データから映像データ、音声データ、テキストデータを分離する（ステップＣ１）。
【００４６】
音声合成部２６は、多重化／分離部３６によって分離されたテキストデータをもとに音声合成し、音声合成によって得られる音声データを音声処理部２４に出力する（ステップＣ２）。
【００４７】
音声処理部２４は、音声合成によって得られた音声データをもとに、音声出力部２０から音声を出力させる。一方、映像処理部３２は、多重化／分離部３６によって分離された映像データをもとに、映像出力部２８によって映像を出力させる（ステップＣ３）。
【００４８】
こうして、送信側のＴＶ電話装置１４では音声入力を行わなくても、キーボードなどを用いたテキストデータ入力部３４によってテキスト入力を行なうことで、受信側のＴＶ電話装置１２において合成音声などによって音声として出力できるので、発話することで音声によって応答があることになり通常の会話と同じ感覚で利用することができ、また受信側にとってテキスト出力が有効でない場合（例えば、視覚が不自由な人が使用している場合）などでも、通話を成立させることができる。
【００４９】
（第２実施形態）
第２実施形態では、受信側の機器に設けられた機能が扱えるデータのみに制限して、データ送信できるようにする。
【００５０】
例えば、図９に示すように、送信側のＴＶ電話装置１２は、映像、テキスト、音声の何れのデータも扱うことができる機能が設けられているが、受信側のＴＶ電話装置１４（例えばＩＰ電話装置）はテキストの表示のみしか表示できないような場合、先ず通話の前に受信側と送信側のそれぞれの機器がサポートしている機能を示す情報が記載された機能プロファイルを交換し、相互に送信できるデータ形式を認識する。
【００５１】
図１０には、ＴＶ電話装置１２とＴＶ電話装置１４（ＩＰ電話装置）との間の通話状態となるまでの手続きのシーケンスを示している。ＴＶ電話装置１２とＴＶ電話装置１４は、ネットワーク１０を介して接続するためのシーケンスを実行した後、相互に機能プロファイル４２ａを交換する。例えば、ＴＶ電話装置１２は、機能制御部４０及び通信ユニット３８を介して、機能プロファイル４２ａをＴＶ電話装置１４に送信する（図１０（１））。これに対して、ＴＶ電話装置１４も同様にして機能プロファイル４２ａをＴＶ電話装置１２に送信する（図１０（２））。
【００５２】
図１１には、機能プロファイル４２ａに記載された情報の一例を示している。図１１に示す例では、映像がオフ（映像データを扱う機能が設けられていない）、音声及びテキストがオンであることを指定する情報が記載されている。
【００５３】
ＴＶ電話装置１２は、ＴＶ電話装置１２から受信した機能プロファイル４２ａに記載された情報に応じて、機能制御部４０によって多重化／分離部３６が合成するデータを制限し、ＴＶ電話装置１２に送信するデータを制御する（機能設定（図１０（４）））。この場合、機能制御部４０は、ＴＶ電話装置１４に対してテキストのみを送信するように機能設定する。
【００５４】
また、ＴＶ電話装置１４も同様にして、ＴＶ電話装置１２から受信した機能プロファイル４２ａに記載された情報に応じて、ＴＶ電話装置１２に送信するデータを制限するための機能設定を行なう（図１０（３））。
【００５５】
この例の場合、受信側のＴＶ電話装置１４は、テキストを扱う機能のみをサポートしているので、送信側もそのスペックに合わせてテキストのみのデータを送信する。受信側のＴＶ電話装置１４からは当然ながらテキストのみのデータが送信される。このように、互いにサポートしている機能が異なるような場合も通話が可能になるため、より多くの端末から通話することができるようになる。
【００５６】
なお、ＴＶ電話装置１２，１４の機能プロファイル４２ａに記載されている情報、すなわち図１１に示す各データに対するオン／オフを、利用者からの指示に応じて自由に設定できるようにしても良い。
【００５７】
すなわち、ＴＶ電話装置１２は、映像、音声、テキストの何れもサポートする機能が設けられていても、例えば映像データの送信が不要であれば、機能プロファイル４２ａの映像に対する記載をオフに設定する。これにより、通信相手となるＴＶ電話装置１４には、機能プロファイル４２ａによって映像の機能がオフであることを通知できるので、テキストデータの受信をしなくてもすむ。
【００５８】
こうして、サポートしている機能を利用者自らが設定できるようにすることで、例えばネットワーク１０の情報通信許容量が少ないような場合でも、例えばテキストと音声にデータを制限することで、柔軟的にデータ量に見合った通話を実現することができる。
【００５９】
なお、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリなどの記録媒体に書き込んで各種装置に提供することができる。また、通信媒体により伝送して各種装置に提供することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、または通信媒体を介してプログラムを受信し、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【００６０】
また、本願発明は、前述した実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【００６１】
【発明の効果】
以上詳述したように本発明によれば、映像と音声だけでなく利用者が発話した内容を表す文字列を扱うことで、聴覚が不自由がある人にとっても通話を成立させることが可能となる。
【図面の簡単な説明】
【図１】本実施形態に係わるＴＶ電話システム構成を示すブロック図。
【図２】本実施形態におけるＴＶ電話装置１２，１４の構成を示すブロック図。
【図３】ＴＶ電話装置１２からＴＶ電話装置１４に対してデータを送信する時の状況を表す図。
【図４】送信側のＴＶ電話装置１２の動作を説明するためのフローチャート。
【図５】映像（ａ１）と音声（発話期間）（ａ２）と音声認識処理の実行期間（ａ３）の関係を示す図。
【図６】ＴＶ電話装置１４からＴＶ電話装置１２に対してデータを送信する時の状況を表す図。
【図７】送信側のＴＶ電話装置１４の動作を説明するためのフローチャート。
【図８】受信側のＴＶ電話装置１２の動作を説明するためのフローチャート。
【図９】送信側のＴＶ電話装置１２と受信側のＴＶ電話装置１４が扱うことができる機能を示す図。
【図１０】ＴＶ電話装置１２とＴＶ電話装置１４（ＩＰ電話装置）との間の通話状態となるまでの手続きのシーケンスを示す図。
【図１１】機能プロファイル４２ａに記載された情報の一例を示す図。
【符号の説明】
１０…ネットワーク１０、１２，１４…ＴＶ電話装置１４、２０…音声出力部２０、２２…音声入力部２２、２４…音声処理部２４、２６…音声合成部２６、２７…音声認識部２７、２８…映像出力部２８、３０…映像入力部３０、３２…映像処理部３２、３４…テキストデータ入力部３４、３６…多重化／分離部３６、３６ａ…調整部３６ａ、３８…通信ユニット３８、４０…機能制御部４０、４２…機能指示部４２、４２ａ…機能プロファイル４２ａ、４４…記憶部４４、４６…記録再生制御部４６。

Claims

ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置において、
音声データを入力する音声入力手段と、
映像データを入力する映像入力手段と、
前記映像入力手段及び前記音声入力手段によって映像データと音声データとを入力している間にテキストデータを生成するテキストデータ生成手段と、
前記音声データと前記映像データと前記テキストデータとを合成する合成手段と、
前記合成手段によって合成されたデータを前記ネットワークを通じて送信する通信手段と
を具備したことを特徴とするＴＶ電話装置。
前記テキストデータ生成手段は、
前記音声入力手段によって入力された音声データに対して音声認識を実行する音声認識手段を有することを特徴とする請求項１記載のＴＶ電話装置。
前記テキストデータ生成手段は、
入力装置から入力されたデータをもとにテキストデータを入力するテキストデータ入力手段を有することを特徴とする請求項１記載のＴＶ電話装置。
前記合成手段は、
前記テキストデータ生成手段によって生成されたテキストデータをもとにした前記他の機器におけるテキスト表示のタイミングを調整する調整手段を有したことを特徴とする請求項１記載のＴＶ電話装置。
前記調整手段は、前記音声入力手段によって発話音声が入力された時間よりも長い間、前記テキストデータをもとにしたテキストが表示されるように調整することを特徴とする請求項４記載のＴＶ電話装置。
ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置において、
映像データとテキストデータとが合成されたデータをネットワークを通じて受信する通信手段と、
前記通信手段によって受信したデータから前記映像データと前記テキストデータとを分離する分離手段と、
前記分離手段によって分離されたテキストデータに応じたテキストを、前記分離手段によって分離された映像データに合成する画像処理手段と、
前記画像処理手段によってテキストが合成された映像データをもとに映像を出力する映像出力手段と
を具備したことを特徴とするＴＶ電話装置。
前記画像処理手段によってテキストを前記映像データに対して合成するタイミングを調整する調整手段を具備したことを特徴とする請求項６記載のＴＶ電話装置。
ネットワークを通じて他の機器と接続されるＴＶ電話装置において、
映像データを入力する映像入力手段と、
前記映像入力手段によって映像データを入力している間にテキストデータを入力するテキストデータ入力手段と、
前記映像データと前記テキストデータとを合成する合成手段と、
前記合成手段によって合成されたデータを前記ネットワークを通じて送信する通信手段と
を具備したことを特徴とするＴＶ電話装置。
ネットワークを通じて他の機器と接続されるＴＶ電話装置において、
映像データとテキストデータとが合成されたデータをネットワークを通じて受信する通信手段と、
前記通信手段によって受信したデータから前記映像データと前記テキストデータとを分離する分離手段と、
前記分離手段によって分離されたテキストデータをもとに音声合成する音声合成手段と、
前記音声合成手段によって合成された音声を出力する音声出力手段と、
前記分離手段によって分離された映像データをもとに映像を出力する映像出力手段と
を具備したことを特徴とするＴＶ電話装置。
ネットワークを通じて他の機器との間で映像と音声を送受信するＴＶ電話装置において、
前記ネットワークを通じて前記他の機器から前記他の機器に設けられた機能を示す情報を受信する機能情報受信手段と、
音声データを入力する音声入力手段と、
映像データを入力する映像入力手段と、
前記映像入力手段及び前記音声入力手段によって映像データと音声データとを入力している間にテキストデータを生成するテキストデータ生成手段と、
前記交換手段によって受信した前記他の機器に設けられた機能を示す情報に応じて、前記音声データと前記映像データと前記テキストデータの何れかを選択的に合成する合成手段と、
前記合成手段によって合成されたデータを前記ネットワークを通じて送信する送信手段と
を具備したことを特徴とするＴＶ電話装置。
前記ネットワークを通じて、前記他の機器に対して自装置に設けられた機能を示す情報を送信する機能情報送信手段と、
前記機能情報送信手段によって送信される機能を示す情報を設定する機能設定手段と
を具備したことを特徴とする請求項１０記載のＴＶ電話装置。
ネットワークを通じてＴＶ電話装置間で映像と音声を送受信するＴＶ電話システムにおいて、
第１のＴＶ電話装置では、
音声データと映像データとを入力すると共に、映像データと音声データとを入力している間にテキストデータを生成し、
前記音声データと前記映像データと前記テキストデータとを合成して、前記ネットワークを通じて送信し、
第２のＴＶ電話装置では、
前記第１のＴＶ電話装置から送信されたデータをネットワークを通じて受信し、
この受信したデータから前記映像データと前記テキストデータとを分離し、
この分離されたテキストデータに応じたテキストを、前記分離手段によって分離された映像データに合成して映像を出力することを特徴とするＴＶ電話装置のデータ送受信方法。
ネットワークを通じてＴＶ電話装置間で映像と音声を送受信するＴＶ電話システムにおいて、
第１のＴＶ電話装置では、
映像データを入力すると共に、映像データを入力している間にテキストデータを入力し、
前記映像データと前記テキストデータとを合成して、前記ネットワークを通じて送信し、
第２のＴＶ電話装置では、
前記第１のＴＶ電話装置から送信されたデータをネットワークを通じて受信し、
この受信したデータから前記映像データと前記テキストデータとを分離し、
この分離されたテキストデータをもとに音声合成して音声を出力すると共に、前記映像データをもとに映像を出力することを特徴とするＴＶ電話装置のデータ送受信方法。