JP2008300968A

JP2008300968A - テレビ電話機

Info

Publication number: JP2008300968A
Application number: JP2007142211A
Authority: JP
Inventors: Masao Komon; 昌郎小門; Kouichi Kugo; 耕一久後; Shintaro Izumikawa; 慎太郎泉川; Hiroshi Nishigaki; 宏西垣
Original assignee: Funai Electric Co Ltd
Current assignee: Funai Electric Co Ltd
Priority date: 2007-05-29
Filing date: 2007-05-29
Publication date: 2008-12-11

Abstract

【課題】ハードウェアの能力の割には迅速に音声を文字列化し、かつ音声と同一の意味の文字列を表示する。
【解決手段】テレビ電話機５０の制御部７６は、音声データに基づいて、音声を構成する音を特定する。制御部７６は、音声を構成する音が特定された後、その音と画像データとに基づいて、その音声と同一の意味を示す文字列の画像と画像データが示す画像とを合成する。制御部７６は、操作部７０が操作を受付けたことを条件として、合成された画像を表示するように画像表示部７４を制御する。
【選択図】図１

Description

本発明は、テレビ電話機に関し、特に、会話を録音する機能を有するテレビ電話機に関する。

特許文献１は、映像データ記憶部と、音声データ記憶部と、映像処理部と、音声文字変換部と、ウインドウ処理部と、画像表示部とを備えた留守番機能付きテレビ電話を開示する。映像処理部は、留守中にかかってきたすべての発信者に関する静止画像を映像データ記憶部から取り出す。音声文字変換部は、留守中にかかってきたすべての発信者の音声データ（名前、電話番号、要件など）を音声データ記憶部から取り出し、音声認識を行なって音声データを文字データに変換する。ウインドウ処理部は、このようにして取り出された全発信者の静止画像および文字データに変換された伝言メッセージをウインドウ処理し、画像表示部に一覧表示する。

特許文献１に開示された発明によると、要件を瞬時に知ることができる。
特許文献２は、複数のテレビ電話機と、電子式構内交換機とから成るテレビ電話交換システムを開示する。電子式構内交換機は、第１の変換部と、第２の変換部と、送信部とを有する。第１の変換部は、送信側テレビ電話機からの音声をテキストデータに変換する。第２の変換部は、第１の変換部により生成されたテキストデータを２箇国間の言語変換を行ない、翻訳テキストデータとして出力する。送信部は、第２の変換部により生成された翻訳テキストデータを字幕として送信側のテレビ電話機からの画像信号と合成し、受信側テレビ電話機に送信する。

特許文献２に開示された発明によると、言語の異なる人による通話でも互いに言語を通じさせることができる。

特許文献３は、情報記憶部と、文字変換部と、印字部と、言語判定部と、翻訳部とを含む通信装置を開示する。情報記憶部は、通信回線を経て受信した音声情報の内容を記憶する。文字変換部は、情報記憶部に記憶された音声情報の内容を文字情報の内容に変換する。印字部は、文字変換部によって変換された文字情報に基づいて記録媒体上に印字を行なう。言語判定部は、通信回線を経て受信した音声情報の内容が、通信装置本体に予め設定されている国の言語とは異なる言語であるか否かを判定する。翻訳部は、言語判定部によって、通信装置本体に予め設定されている国の言語とは異なる言語であると判定されたときに、通信回線を経て受信した音声情報の内容を通信装置本体に予め設定されている国の言語に翻訳する。

特許文献３に開示された発明によると、言語の異なる情報の内容の確認をユーザに対し正確かつ容易に行なうことができる。
特開平６−２６１３１１号公報特開平５−２６０１９３号公報特開２００２−２５２７２８号公報

しかし、特許文献１〜３に開示された発明では、ハードウェアの能力が高くなければ効果を発揮することができないという問題点がある。音声を文字列に変換する処理である音声認識処理は多くの情報を取り扱う処理であることから、ハードウェアの能力が高くなければ処理に費やされる時間は長くなるためである。

本発明は上述の問題点を解決するためになされたものであって、その目的は、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できるテレビ電話機を提供することにある。

上記目的を達成するために、本発明のある局面に従うと、テレビ電話機は、通信手段と、記憶手段と、受付手段と、音声出力手段と、画像表示手段と、制御手段とを含む。通信手段は、複数の部分に分割された音声を示す音声データと、画像を示す画像データとを通信する。記憶手段は、通信手段が受信した音声データと通信手段が受信した画像データとを記憶する。受付手段は、操作を受付ける。音声出力手段は、音声を出力する。画像表示手段は、画像を表示する。制御手段は、音声出力手段と画像表示手段とを制御する。制御手段は、音特定手段と、文字列特定手段と、変更手段と、表示制御手段と、出力制御手段とを含む。音特定手段は、複数の部分に分割された音声データに基づいて、部分ごとに音声を構成する音を特定する。文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、音声を構成する音に基づき、音声データが示す音声と同一の意味を示す文字列を特定する。変更手段は、音声データが示す音声と同一の意味を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更する。表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、変更手段が変更した画像データが示す画像を表示するように画像表示手段を制御する。出力制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、通信手段が受信した音声データが示す音声を出力するように音声出力手段を制御する。

本発明の他の局面に従うと、テレビ電話機は、通信手段と、記憶手段と、受付手段と、音声出力手段と、画像表示手段と、制御手段とを含む。通信手段は、音声を示す音声データと、画像を示す画像データとを通信する。記憶手段は、通信手段が受信した音声データと通信手段が受信した画像データとを記憶する。受付手段は、操作を受付ける。音声出力手段は、音声を出力する。画像表示手段は、画像を表示する。制御手段は、音声出力手段と画像表示手段とを制御する。制御手段は、音特定手段と、合成手段と、表示制御手段と、出力制御手段とを含む。音特定手段は、音声データに基づいて、音声を構成する音を特定する。合成手段は、音特定手段が音声を構成する音を特定した後、音声を構成する音と画像データとに基づいて、音声データが示す音声と同一の意味を示す文字列の画像と画像データが示す画像とを合成する。表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、合成手段が合成した画像を表示するように画像表示手段を制御する。出力制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、通信手段が受信した音声データが示す音声を出力するように音声出力手段を制御する。

また、上述の合成手段は、文字列特定手段と、変更手段とを含むことが望ましい。文字列特定手段は、音特定手段が音声を構成する音を特定した後、音声を構成する音に基づいて音声データが示す音声と同一の意味を示す文字列を特定する。変更手段は、音声データが示す音声と同一の意味を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更する。併せて、表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、変更手段が変更した画像データが示す画像を表示するように画像表示手段を制御するための手段を含むことが望ましい。

もしくは、上述の受信手段は、複数の部分に分割された音声データを通信するための手段を含むことが望ましい。併せて、音特定手段は、複数の部分に分割された音声データに基づいて、部分ごとに音声を構成する音を特定するための手段を含むことが望ましい。併せて、文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、文字列を特定するための手段を含むことが望ましい。

もしくは、上述の音特定手段は、記憶手段が音声データを記憶した後、記憶手段が記憶した音声データに基づいて、音声を構成する音を特定するための手段を含むことが望ましい。併せて、文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、文字列を特定するための手段を含むことが望ましい。

もしくは、上述の合成手段は、文字列特定手段が特定した文字列が示す言葉を翻訳するための翻訳手段をさらに含むことが望ましい。併せて、変更手段は、翻訳手段が翻訳した言葉を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更するための手段を含むことが望ましい。

本発明に係るテレビ電話機は、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できる。

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同一である。したがって、それらについての詳細な説明は繰返さない。

図１は、本実施の形態に係るテレビ電話機のハードウェア構成を示す図である。図１を参照して、本実施の形態に係るテレビ電話機５０は、通信部６０と、記憶部６２と、音声入力部６４と、撮像部６６と、リモコン受信部６８と、操作部７０と、音声出力部７２と、画像表示部７４と、制御部７６とを含む。

通信部６０は、図示しないネットワークを介して他のテレビ電話機（図示せず）と音声データや画像データを通信する。

記憶部６２は、テレビ電話機５０として動作するために制御部７６が処理する情報を記憶する。そのような情報の一種として、通信部６０が受信した音声データや画像データがある。

音声入力部６４は、音声の入力を受付け、受付けた音声を示す電気信号を出力する。
撮像部６６は、人や物の像を撮影し、その像を示す画像データを電気信号として出力する。

リモコン受信部６８は、リモートコントローラ（以下、「リモコン」と称する）５２から信号を受信し、その信号に対応する電気信号を出力する。これにより、リモコン受信部６８は、その信号が示すユーザの指示を受付けることとなる。

操作部７０は、ユーザの操作に応じて電気信号を出力することにより、その操作が示すユーザの指示を受付ける。

音声出力部７２は、電気信号を受付け、その信号に対応する音を出力する。
画像表示部７４は、電気信号を受付け、その信号に対応する画像を表示する。

制御部７６は、テレビ電話機５０を構成する各部を制御する。また、制御部７６は、その制御の為に情報を処理する。また、制御部７６は、その制御のためや、情報の処理のために、演算を実施する。

図２は、制御部７６の機能を示す機能ブロック図である。図２を参照して、制御部７６の機能は、通信制御部９０と、保存処理部９２と、付加処理部９４と、計時部９６と、音特定部９８と、文字列特定部１００と、画像変更部１０２と、音声処理部１０４とを含む。

通信制御部９０は、画像変更部１０２が出力した情報や音声処理部１０４が出力した情報を送信するように通信部６０を制御する。また、通信制御部９０は、通話の開始すなわち着呼を要求する情報を通信部６０が受信すると、通話を開始するために通信部６０や音声出力部７２を制御したり、自動応答のための処理を実施したりする。

保存処理部９２は、通信部６０が受信した画像や音声を示すメッセージ情報（本実施の形態の場合、メッセージ情報は、画像を示す動画データと、音声を示す音声データとを含む。）とメッセージ情報を通信部６０が受信した時刻を示す時刻情報とを対応付けて記憶するように、記憶部６２を制御する。

付加処理部９４は、メッセージ情報を通信部６０が受信すると、時刻情報を生成し、メッセージ情報と共に保存処理部９２に出力する。

計時部９６は、次に述べる時刻からの経過時間を測定する。その時刻とは、テレビ電話機５０に対する電力の供給が開始された瞬間の時刻である。ただし、電力の供給が開始された後にユーザが操作部７０を操作して所定の指示をテレビ電話機５０に与えた場合には、その指示が与えられた時刻が上述した「次に述べる時刻」である。

音特定部９８は、通信部６０がメッセージ情報を受信して制御部７６に出力すると、メッセージ情報が含む音声データに基づいて、音声を構成する音を特定する。本実施の形態の場合、その音を示す情報は、記憶部６２に記憶される。

文字列特定部１００は、記憶部６２が記憶した、音声を構成する音を示す情報に基づき、その音声と同一の意味を示す文字列を特定する。

画像変更部１０２は、記憶部６２から読出した動画データと文字列特定部１００が特定した文字列とに基づいて、メッセージ情報に含まれた動画データの内容を変更する。画像変更部１０２は、メッセージ情報に含まれた音声データが示す音声と同一の意味を示す文字列の画像が含まれるように、その動画データの内容を変更する。また、画像変更部１０２は、動画データの内容を変更した後、その動画データに基づいて、画像表示部７４が利用できる形式の信号を生成し、画像表示部７４に出力する。また、画像変更部１０２は、撮像部６６が出力した電気信号を通信部６０による送信に適したデータに変換する。

音声処理部１０４は、記憶部６２から読出した音声データを音声出力部７２が利用できる形式の信号に変換し、音声出力部７２に出力する。また、音声処理部１０４は、音声入力部６４が出力した電気信号を通信部６０による送信に適したデータに変換する。

音特定部９８は、サンプリング部１１０と、距離計算部１１２とを含む。
サンプリング部１１０は、音声入力部６４が出力した音声データの一部を抽出する。

距離計算部１１２は、サンプリング部１１０が抽出したデータと、そのデータがどのような音を示すのかを特定するために用いる予め記憶部６２に記憶されたデータ（以下、そのデータを「音響モデル」と称する）とを比較し、それらの相違の程度を示す値（以下、その値を「距離」と称する）を特定する。距離計算部１１２は、自らが特定した距離に基づいて、音声を構成する音を特定する。距離計算部１１２は、音声を構成する音を示す情報を記憶するように、記憶部６２を制御する。

文字列特定部１００は、データ作成部１１４と、翻訳部１１６とを含む。
データ作成部１１４は、記憶部６２に記憶された音声を構成する音を示す情報に基づいて、その音声と同一の意味を示す文字列のデータを作成する。

翻訳部１１６は、データ作成部１１４が作成したデータに基づいて、そのデータが示す言葉を他の言葉に翻訳し、翻訳された言葉を示す文字列のデータを作成する。

図３は、テレビ電話機５０の外観図である。テレビ電話機５０の上部に撮像部６６が含むＣＣＤ（charge coupled device）カメラが取り付けられている。筐体の中央に大きな開口部が設けられており、ユーザは画像表示部７４が表示する画像をその開口部から見ることができる。

また、テレビ電話機５０の筐体は、左開口部８０と、右開口部８２と、中央開口部８４とを含む。

本実施の形態の場合、音声出力部７２は、左スピーカと右スピーカとを（いずれも図示せず）含む。左スピーカが出力した音声は、左開口部８０を通じてテレビ電話機５０の外部に出力される。右スピーカが出力した音声は、右開口部８２を通じてテレビ電話機５０の外部に出力される。

また、ユーザが発した音声は、中央開口部８４を通じて音声入力部６４に入力される。
図４は、記憶部６２が情報を記憶する領域を示す図である。図４を参照して、記憶部６２が情報を記憶する領域は、管理データ領域１２０と、音声データ領域１２２と、動画データ領域１２４と、構成音データ領域１２６と、テキストデータ領域１２８と、作業領域１３０とを含む。

管理データ領域１２０は、制御部７６がテレビ電話機５０を制御するために必要な情報を記憶する領域である。

音声データ領域１２２は、音声データを記憶する領域である。
動画データ領域１２４は、動画データを記憶する領域である。

構成音データ領域１２６は、距離計算部１１２が出力した、音声を構成する音を示す情報を記憶する領域である。

テキストデータ領域１２８は、文字列特定部１００が出力した文字列の情報を記憶する。

作業領域１３０は、各種のデータが一時的に記憶される領域である。
図５を参照して、制御部７６で実行されるプログラムは、メッセージの記憶に関し、以下のような制御を実行する。

ステップＳ１４０にて、通信部６０が着呼を要求する情報を受信すると、通信制御部９０は、音声出力部７２を制御し、呼出音を出力させる。これに対し、所定の期間、操作部７０が操作されなければ（操作部７０が何の信号も出力しなければ）、通信制御部９０は、着呼を要求する情報の送信元に対して着呼に応じることを示す情報を送信するように通信部６０を制御し、通話を開始する（ちなみに、前述した所定の期間内に操作部７０が操作された場合、通信制御部９０は、操作部７０が操作された時点で送信元に対して着呼に応じることを示す情報を送信し、その後、ユーザが通話するための各種の処理を実施する）。通話が開始されると、通信制御部９０は、管理データ領域１２０から読み出した音声データを送信するように通信部６０を制御する。これにより、上述した送信元のスピーカから、テレビ電話機５０のユーザが電話に出ることができないことを示す音声が出力される。

ステップＳ１４２にて、通信部６０は、メッセージ情報を受信する。本実施の形態の場合、メッセージ情報はパケットとして受信される。通信部６０は、メッセージ情報を制御部７６に出力する。制御部７６の付加処理部９４は、時刻情報を生成し、メッセージ情報と共に保存処理部９２に出力する。保存処理部９２は、メッセージ情報と時刻情報とを対応付けて記憶するように、記憶部６２を制御する。上述したように、メッセージ情報がパケットとして受信されることを利用して、音特定部９８のサンプリング部１１０は、パケットの受信の合間に、既に記憶部６２の音声データ領域１２２に記憶された音声データの一部を抽出する。データが抽出されると、距離計算部１１２は、サンプリング部１１０が抽出したデータと、音響モデルとを比較し、距離を特定する。距離計算部１１２は、自らが特定した距離に基づいて、音声を構成する音を特定する。距離計算部１１２は、音声を構成する音を示す情報を構成音データ領域１２６に記憶するように、記憶部６２を制御する。

ステップＳ１４４にて、付加処理部９４は、通信部６０が通信の終了を示す情報を受信したか否かに基いて、メッセージの録音が終了したか否かを判断する。メッセージの録音が終了したと判断した場合には（ステップＳ１４４にてＹＥＳ）、処理は終了する。もしそうでないと（ステップＳ１４４にてＮＯ）、処理はステップＳ１４２へと移される。

図６を参照して、制御部７６で実行されるプログラムは、メッセージの再生に関し、以下のような制御を実行する。

ステップＳ１６０にて、文字列特定部１００のデータ作成部１１４は、記憶部６２の構成音データ領域１２６から、音声を構成する音を示す情報を読み出す。

ステップＳ１６２にて、データ作成部１１４は、音声を構成する音を示す情報に基づいて、その音声と同一の意味を示す文字列のデータを作成する。管理データ領域１２０に記憶された翻訳の要否を示す翻訳フラグが「１」という値を示す場合、翻訳部１１６は、データ作成部１１４が作成したデータに基づいて、そのデータが示す言葉を他の言葉に翻訳し、翻訳された言葉を示す文字列のデータを作成する。翻訳フラグが「０」という値を示す場合には、翻訳部１１６は動作しない。翻訳フラグの値は、操作部７０を介して受け付けたユーザの指示に従って記憶される。

ステップＳ１６４にて、文字列特定部１００は、ステップＳ１６２にて特定された文字列を示す文字列データ（本実施の形態の場合、翻訳フラグの値が「０」ならばデータ作成部１１４が作成したデータであり、翻訳フラグの値が「１」ならば翻訳部１１６が作成したデータである）を画像変更部１０２に出力する。画像変更部１０２は、記憶部６２の動画データ領域１２４から、動画データを読み出す。画像変更部１０２は、文字列特定部１００が出力した文字列データを用いて、その動画データが示す動画の中に文字列データが示す文字列が含まれるよう、動画データ領域１２４から読み出した動画データの内容を変更する。動画データの内容が変更されると、画像変更部１０２は、内容が変更された動画データを画像表示部７４に出力する。画像表示部７４は、動画を表示する。音声処理部１０４は、記憶部６２の音声データ領域１２２から、音声データを読み出す。音声データが読み出されると、音声処理部１０４は、音声出力部７２が利用できる形式の信号にその音声データを変換し、音声出力部７２に出力する。音声出力部７２は、音声を出力する。

ステップＳ１６６にて、文字列特定部１００は、構成音データ領域１２６に記憶された音声を構成する音を示す情報のうち、通信１回分の音声を構成する音を示す情報をすべて読み出したか否かを判断する。通信１回分の音声を構成する音を示す情報をすべて読み出したと判断した場合には（ステップＳ１６６にてＹＥＳ）、処理は終了する。もしそうでないと（ステップＳ１６６にてＮＯ）、処理はステップＳ１６０へと移される。

以上のような構造およびフローチャートに基づく、テレビ電話機５０の動作について説明する。

通信部６０が着呼を要求する情報を受信すると、通信制御部９０は、音声出力部７２を制御し、呼出音を出力させる。これに対し、所定の期間、操作部７０が操作されなければ、通信制御部９０は、通話を開始する。通話が開始されると、通信制御部９０は、管理データ領域１２０から読み出した音声データを送信するように通信部６０を制御する（ステップＳ１４０）。

音声データが送信されると、付加処理部９４は、時刻情報を生成し、通信部６０が受信したメッセージ情報と共に保存処理部９２に出力する。保存処理部９２は、メッセージ情報と時刻情報とを対応付けて記憶するように、記憶部６２を制御する。

制御部７６の音特定部９８は、メッセージ情報が含む音声データに基づいて、音声を構成する音を特定する。音声データに基づいて音声を構成する音が特定されると、音特定部９８は、音声を構成する音を示す情報を記憶するように、記憶部６２を制御する（ステップＳ１４２）。

音を示す情報が記憶されると、付加処理部９４は、メッセージの録音が終了したか否かを判断する（ステップＳ１４４）。メッセージの録音が終了するまで（ステップＳ１４４にてＮＯ）、ステップＳ１４２とステップＳ１４４との処理が繰返される。

その後、操作部７０の操作により、メッセージを再生するようユーザから指示を受けると、文字列特定部１００は、記憶部６２の構成音データ領域１２６から、音声を構成する音を示す情報を読み出す（ステップＳ１６０）。

音声を構成する音を示す情報が読み出されると、文字列特定部１００は、音声を構成する音を示す情報に基いてその言葉を示す文字列を特定する（ステップＳ１６２）。文字列が特定されると、文字列特定部１００は、ステップＳ１６２にて特定した文字列を示す文字列データを画像変更部１０２に出力する。画像変更部１０２は、記憶部６２の動画データ領域１２４から、動画データを読み出す。画像変更部１０２は、文字列特定部１００が出力した文字列データを用いて、その動画データが示す動画の中に文字列データが示す文字列が含まれるよう、動画データ領域１２４から読み出した動画データの内容を変更する。動画データの内容が変更されると、画像変更部１０２は、内容が変更された動画データを画像表示部７４に出力する。画像表示部７４は、動画を表示する。音声処理部１０４は、記憶部６２の音声データ領域１２２から、音声データを読み出す。音声データが読み出されると、音声処理部１０４は、音声出力部７２が利用できる形式の信号にその音声データを変換し、音声出力部７２に出力する。音声出力部７２は、音声を出力する（ステップＳ１６４）。

図７は、メッセージの再生の際、文字列特定部１００が特定した文字列の画像が含まれた状態でメッセージ情報が示す動画が表示されていることを示す概念図である。

音声が出力されると、文字列特定部１００は、構成音データ領域１２６に記憶された音声を構成する音を示す情報のうち、通信１回分の音声を構成する音を示す情報をすべて読み出したか否かを判断する（ステップＳ１６６）。通信１回分の音声を構成する音を示す情報の一部がまだ読み出されていない間（ステップＳ１６６にてＮＯ）、ステップＳ１６０〜ステップＳ１６６の処理が繰返される。

以上のようにして、本実施の形態に係るテレビ電話機は、メッセージの録音と並行して音声を構成する音を特定する。その後、メッセージの再生の際、メッセージの録音時に特定された音に基づいてその言葉を示す文字列を特定し、その文字列を表示させる。これにより、音声を構成する音が録音時に特定され、その音声と同一の意味を示す文字列がメッセージの再生時に特定されるので、制御部７６が一度に実施する処理の量は少なくなる。その量が少なくなるので、制御部７６のハードウェアの能力の割には迅速に音声を文字列化できる。その結果、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できるテレビ電話機を提供することができる。

また、本実施の形態に係るテレビ電話機５０は、音声を構成する音の特定をメッセージの録音時に実施する。このように音の特定が実施されるので、メッセージの録音の終了直後にそのメッセージの再生を行なう場合にも、再生の遅れが少ない。

なお、本実施の形態の変形例においては、音特定部９８は、通信部６０が通信の終了を示す情報を受信した後に、音声を構成する音を特定してもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の実施の形態に係るテレビ電話機のハードウェア構成を示す図である。本発明の実施の形態に係る制御部の機能を示す機能ブロック図である。本発明の実施の形態に係るテレビ電話機の外観図である。本発明の実施の形態に係る記憶部が情報を記憶する領域を示す図である。本発明の実施の形態に係るメッセージの記憶処理の制御の手順を示すフローチャートである。本発明の実施の形態に係るメッセージの再生処理の制御の手順を示すフローチャートである。本発明の実施の形態に係るメッセージの再生の際、文字列が含まれた状態で表示されていることを示す概念図である。

符号の説明

６０通信部、６２記憶部、６４音声入力部、６６撮像部、６８リモコン受信部、７０操作部、７２音声出力部、７４画像表示部、７６制御部、８０左開口部、８２右開口部、８４中央開口部、９０通信制御部、９２保存処理部、９４付加処理部、９６計時部、９８音特定部、１００文字列特定部、１０２画像変更部、１０４音声処理部、１１０サンプリング部、１１２距離計算部、１１４データ作成部、１１６翻訳部、１２０管理データ領域、１２２音声データ領域、１２４動画データ領域、１２６構成音データ領域、１２８テキストデータ領域、１３０作業領域。

Claims

複数の部分に分割された音声を示す音声データと、画像を示す画像データとを通信するための通信手段と、
前記通信手段が受信した前記音声データと前記通信手段が受信した前記画像データとを記憶するための記憶手段と、
操作を受付けるための受付手段と、
音声を出力するための音声出力手段と、
画像を表示するための画像表示手段と、
前記音声出力手段と前記画像表示手段とを制御するための制御手段とを含み、
前記制御手段は、
前記複数の部分に分割された前記音声データに基づいて、前記部分ごとに前記音声を構成する音を特定するための音特定手段と、
前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記音声を構成する音に基づき、前記音声データが示す音声と同一の意味を示す文字列を特定するための文字列特定手段と、
前記音声データが示す音声と同一の意味を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための変更手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記変更手段が変更した画像データが示す画像を表示するように前記画像表示手段を制御するための表示制御手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記通信手段が受信した音声データが示す音声を出力するように前記音声出力手段を制御するための出力制御手段とを含む、テレビ電話機。
音声を示す音声データと、画像を示す画像データとを通信するための通信手段と、
前記通信手段が受信した前記音声データと前記通信手段が受信した前記画像データとを記憶するための記憶手段と、
操作を受付けるための受付手段と、
音声を出力するための音声出力手段と、
画像を表示するための画像表示手段と、
前記音声出力手段と前記画像表示手段とを制御するための制御手段とを含み、
前記制御手段は、
前記音声データに基づいて、前記音声を構成する音を特定するための音特定手段と、
前記音特定手段が前記音声を構成する音を特定した後、前記音声を構成する音と前記画像データとに基づいて、前記音声データが示す音声と同一の意味を示す文字列の画像と前記画像データが示す画像とを合成するための合成手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記合成手段が合成した画像を表示するように前記画像表示手段を制御するための表示制御手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記通信手段が受信した音声データが示す音声を出力するように前記音声出力手段を制御するための出力制御手段とを含む、テレビ電話機。
前記合成手段は、
前記音特定手段が前記音声を構成する音を特定した後、前記音声を構成する音に基づいて前記音声データが示す音声と同一の意味を示す文字列を特定するための文字列特定手段と、
前記音声データが示す音声と同一の意味を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための変更手段とを含み、
前記表示制御手段は、前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記変更手段が変更した画像データが示す画像を表示するように前記画像表示手段を制御するための手段を含む、請求項２に記載のテレビ電話機。
前記受信手段は、複数の部分に分割された前記音声データを通信するための手段を含み、
前記音特定手段は、前記複数の部分に分割された前記音声データに基づいて、前記部分ごとに前記音声を構成する音を特定するための手段を含み、
前記文字列特定手段は、前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記文字列を特定するための手段を含む、請求項３に記載のテレビ電話機。
前記音特定手段は、前記記憶手段が前記音声データを記憶した後、前記記憶手段が記憶した前記音声データに基づいて、前記音声を構成する音を特定するための手段を含み、
前記文字列特定手段は、前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記文字列を特定するための手段を含む、請求項３に記載のテレビ電話機。
前記合成手段は、前記文字列特定手段が特定した文字列が示す言葉を翻訳するための翻訳手段をさらに含み、
前記変更手段は、前記翻訳手段が翻訳した言葉を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための手段を含む、請求項３に記載のテレビ電話機。