JP2008300968A - テレビ電話機 - Google Patents
テレビ電話機 Download PDFInfo
- Publication number
- JP2008300968A JP2008300968A JP2007142211A JP2007142211A JP2008300968A JP 2008300968 A JP2008300968 A JP 2008300968A JP 2007142211 A JP2007142211 A JP 2007142211A JP 2007142211 A JP2007142211 A JP 2007142211A JP 2008300968 A JP2008300968 A JP 2008300968A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- image
- data
- unit
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】ハードウェアの能力の割には迅速に音声を文字列化し、かつ音声と同一の意味の文字列を表示する。
【解決手段】 テレビ電話機50の制御部76は、音声データに基づいて、音声を構成する音を特定する。制御部76は、音声を構成する音が特定された後、その音と画像データとに基づいて、その音声と同一の意味を示す文字列の画像と画像データが示す画像とを合成する。制御部76は、操作部70が操作を受付けたことを条件として、合成された画像を表示するように画像表示部74を制御する。
【選択図】図1
【解決手段】 テレビ電話機50の制御部76は、音声データに基づいて、音声を構成する音を特定する。制御部76は、音声を構成する音が特定された後、その音と画像データとに基づいて、その音声と同一の意味を示す文字列の画像と画像データが示す画像とを合成する。制御部76は、操作部70が操作を受付けたことを条件として、合成された画像を表示するように画像表示部74を制御する。
【選択図】図1
Description
本発明は、テレビ電話機に関し、特に、会話を録音する機能を有するテレビ電話機に関する。
特許文献1は、映像データ記憶部と、音声データ記憶部と、映像処理部と、音声文字変換部と、ウインドウ処理部と、画像表示部とを備えた留守番機能付きテレビ電話を開示する。映像処理部は、留守中にかかってきたすべての発信者に関する静止画像を映像データ記憶部から取り出す。音声文字変換部は、留守中にかかってきたすべての発信者の音声データ(名前、電話番号、要件など)を音声データ記憶部から取り出し、音声認識を行なって音声データを文字データに変換する。ウインドウ処理部は、このようにして取り出された全発信者の静止画像および文字データに変換された伝言メッセージをウインドウ処理し、画像表示部に一覧表示する。
特許文献1に開示された発明によると、要件を瞬時に知ることができる。
特許文献2は、複数のテレビ電話機と、電子式構内交換機とから成るテレビ電話交換システムを開示する。電子式構内交換機は、第1の変換部と、第2の変換部と、送信部とを有する。第1の変換部は、送信側テレビ電話機からの音声をテキストデータに変換する。第2の変換部は、第1の変換部により生成されたテキストデータを2箇国間の言語変換を行ない、翻訳テキストデータとして出力する。送信部は、第2の変換部により生成された翻訳テキストデータを字幕として送信側のテレビ電話機からの画像信号と合成し、受信側テレビ電話機に送信する。
特許文献2は、複数のテレビ電話機と、電子式構内交換機とから成るテレビ電話交換システムを開示する。電子式構内交換機は、第1の変換部と、第2の変換部と、送信部とを有する。第1の変換部は、送信側テレビ電話機からの音声をテキストデータに変換する。第2の変換部は、第1の変換部により生成されたテキストデータを2箇国間の言語変換を行ない、翻訳テキストデータとして出力する。送信部は、第2の変換部により生成された翻訳テキストデータを字幕として送信側のテレビ電話機からの画像信号と合成し、受信側テレビ電話機に送信する。
特許文献2に開示された発明によると、言語の異なる人による通話でも互いに言語を通じさせることができる。
特許文献3は、情報記憶部と、文字変換部と、印字部と、言語判定部と、翻訳部とを含む通信装置を開示する。情報記憶部は、通信回線を経て受信した音声情報の内容を記憶する。文字変換部は、情報記憶部に記憶された音声情報の内容を文字情報の内容に変換する。印字部は、文字変換部によって変換された文字情報に基づいて記録媒体上に印字を行なう。言語判定部は、通信回線を経て受信した音声情報の内容が、通信装置本体に予め設定されている国の言語とは異なる言語であるか否かを判定する。翻訳部は、言語判定部によって、通信装置本体に予め設定されている国の言語とは異なる言語であると判定されたときに、通信回線を経て受信した音声情報の内容を通信装置本体に予め設定されている国の言語に翻訳する。
特許文献3に開示された発明によると、言語の異なる情報の内容の確認をユーザに対し正確かつ容易に行なうことができる。
特開平6−261311号公報
特開平5−260193号公報
特開2002−252728号公報
しかし、特許文献1〜3に開示された発明では、ハードウェアの能力が高くなければ効果を発揮することができないという問題点がある。音声を文字列に変換する処理である音声認識処理は多くの情報を取り扱う処理であることから、ハードウェアの能力が高くなければ処理に費やされる時間は長くなるためである。
本発明は上述の問題点を解決するためになされたものであって、その目的は、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できるテレビ電話機を提供することにある。
上記目的を達成するために、本発明のある局面に従うと、テレビ電話機は、通信手段と、記憶手段と、受付手段と、音声出力手段と、画像表示手段と、制御手段とを含む。通信手段は、複数の部分に分割された音声を示す音声データと、画像を示す画像データとを通信する。記憶手段は、通信手段が受信した音声データと通信手段が受信した画像データとを記憶する。受付手段は、操作を受付ける。音声出力手段は、音声を出力する。画像表示手段は、画像を表示する。制御手段は、音声出力手段と画像表示手段とを制御する。制御手段は、音特定手段と、文字列特定手段と、変更手段と、表示制御手段と、出力制御手段とを含む。音特定手段は、複数の部分に分割された音声データに基づいて、部分ごとに音声を構成する音を特定する。文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、音声を構成する音に基づき、音声データが示す音声と同一の意味を示す文字列を特定する。変更手段は、音声データが示す音声と同一の意味を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更する。表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、変更手段が変更した画像データが示す画像を表示するように画像表示手段を制御する。出力制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、通信手段が受信した音声データが示す音声を出力するように音声出力手段を制御する。
本発明の他の局面に従うと、テレビ電話機は、通信手段と、記憶手段と、受付手段と、音声出力手段と、画像表示手段と、制御手段とを含む。通信手段は、音声を示す音声データと、画像を示す画像データとを通信する。記憶手段は、通信手段が受信した音声データと通信手段が受信した画像データとを記憶する。受付手段は、操作を受付ける。音声出力手段は、音声を出力する。画像表示手段は、画像を表示する。制御手段は、音声出力手段と画像表示手段とを制御する。制御手段は、音特定手段と、合成手段と、表示制御手段と、出力制御手段とを含む。音特定手段は、音声データに基づいて、音声を構成する音を特定する。合成手段は、音特定手段が音声を構成する音を特定した後、音声を構成する音と画像データとに基づいて、音声データが示す音声と同一の意味を示す文字列の画像と画像データが示す画像とを合成する。表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、合成手段が合成した画像を表示するように画像表示手段を制御する。出力制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、通信手段が受信した音声データが示す音声を出力するように音声出力手段を制御する。
また、上述の合成手段は、文字列特定手段と、変更手段とを含むことが望ましい。文字列特定手段は、音特定手段が音声を構成する音を特定した後、音声を構成する音に基づいて音声データが示す音声と同一の意味を示す文字列を特定する。変更手段は、音声データが示す音声と同一の意味を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更する。併せて、表示制御手段は、音声と画像とを出力するための操作を受付手段が受付けたことを条件として、変更手段が変更した画像データが示す画像を表示するように画像表示手段を制御するための手段を含むことが望ましい。
もしくは、上述の受信手段は、複数の部分に分割された音声データを通信するための手段を含むことが望ましい。併せて、音特定手段は、複数の部分に分割された音声データに基づいて、部分ごとに音声を構成する音を特定するための手段を含むことが望ましい。併せて、文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、文字列を特定するための手段を含むことが望ましい。
もしくは、上述の音特定手段は、記憶手段が音声データを記憶した後、記憶手段が記憶した音声データに基づいて、音声を構成する音を特定するための手段を含むことが望ましい。併せて、文字列特定手段は、音声を構成する音が特定され、かつ音声と画像とを出力するための操作を受付手段が受付けたことを条件として、文字列を特定するための手段を含むことが望ましい。
もしくは、上述の合成手段は、文字列特定手段が特定した文字列が示す言葉を翻訳するための翻訳手段をさらに含むことが望ましい。併せて、変更手段は、翻訳手段が翻訳した言葉を示す文字列の画像を画像データが示す画像が含むように、画像データの内容を変更するための手段を含むことが望ましい。
本発明に係るテレビ電話機は、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できる。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同一である。したがって、それらについての詳細な説明は繰返さない。
図1は、本実施の形態に係るテレビ電話機のハードウェア構成を示す図である。図1を参照して、本実施の形態に係るテレビ電話機50は、通信部60と、記憶部62と、音声入力部64と、撮像部66と、リモコン受信部68と、操作部70と、音声出力部72と、画像表示部74と、制御部76とを含む。
通信部60は、図示しないネットワークを介して他のテレビ電話機(図示せず)と音声データや画像データを通信する。
記憶部62は、テレビ電話機50として動作するために制御部76が処理する情報を記憶する。そのような情報の一種として、通信部60が受信した音声データや画像データがある。
音声入力部64は、音声の入力を受付け、受付けた音声を示す電気信号を出力する。
撮像部66は、人や物の像を撮影し、その像を示す画像データを電気信号として出力する。
撮像部66は、人や物の像を撮影し、その像を示す画像データを電気信号として出力する。
リモコン受信部68は、リモートコントローラ(以下、「リモコン」と称する)52から信号を受信し、その信号に対応する電気信号を出力する。これにより、リモコン受信部68は、その信号が示すユーザの指示を受付けることとなる。
操作部70は、ユーザの操作に応じて電気信号を出力することにより、その操作が示すユーザの指示を受付ける。
音声出力部72は、電気信号を受付け、その信号に対応する音を出力する。
画像表示部74は、電気信号を受付け、その信号に対応する画像を表示する。
画像表示部74は、電気信号を受付け、その信号に対応する画像を表示する。
制御部76は、テレビ電話機50を構成する各部を制御する。また、制御部76は、その制御の為に情報を処理する。また、制御部76は、その制御のためや、情報の処理のために、演算を実施する。
図2は、制御部76の機能を示す機能ブロック図である。図2を参照して、制御部76の機能は、通信制御部90と、保存処理部92と、付加処理部94と、計時部96と、音特定部98と、文字列特定部100と、画像変更部102と、音声処理部104とを含む。
通信制御部90は、画像変更部102が出力した情報や音声処理部104が出力した情報を送信するように通信部60を制御する。また、通信制御部90は、通話の開始すなわち着呼を要求する情報を通信部60が受信すると、通話を開始するために通信部60や音声出力部72を制御したり、自動応答のための処理を実施したりする。
保存処理部92は、通信部60が受信した画像や音声を示すメッセージ情報(本実施の形態の場合、メッセージ情報は、画像を示す動画データと、音声を示す音声データとを含む。)とメッセージ情報を通信部60が受信した時刻を示す時刻情報とを対応付けて記憶するように、記憶部62を制御する。
付加処理部94は、メッセージ情報を通信部60が受信すると、時刻情報を生成し、メッセージ情報と共に保存処理部92に出力する。
計時部96は、次に述べる時刻からの経過時間を測定する。その時刻とは、テレビ電話機50に対する電力の供給が開始された瞬間の時刻である。ただし、電力の供給が開始された後にユーザが操作部70を操作して所定の指示をテレビ電話機50に与えた場合には、その指示が与えられた時刻が上述した「次に述べる時刻」である。
音特定部98は、通信部60がメッセージ情報を受信して制御部76に出力すると、メッセージ情報が含む音声データに基づいて、音声を構成する音を特定する。本実施の形態の場合、その音を示す情報は、記憶部62に記憶される。
文字列特定部100は、記憶部62が記憶した、音声を構成する音を示す情報に基づき、その音声と同一の意味を示す文字列を特定する。
画像変更部102は、記憶部62から読出した動画データと文字列特定部100が特定した文字列とに基づいて、メッセージ情報に含まれた動画データの内容を変更する。画像変更部102は、メッセージ情報に含まれた音声データが示す音声と同一の意味を示す文字列の画像が含まれるように、その動画データの内容を変更する。また、画像変更部102は、動画データの内容を変更した後、その動画データに基づいて、画像表示部74が利用できる形式の信号を生成し、画像表示部74に出力する。また、画像変更部102は、撮像部66が出力した電気信号を通信部60による送信に適したデータに変換する。
音声処理部104は、記憶部62から読出した音声データを音声出力部72が利用できる形式の信号に変換し、音声出力部72に出力する。また、音声処理部104は、音声入力部64が出力した電気信号を通信部60による送信に適したデータに変換する。
音特定部98は、サンプリング部110と、距離計算部112とを含む。
サンプリング部110は、音声入力部64が出力した音声データの一部を抽出する。
サンプリング部110は、音声入力部64が出力した音声データの一部を抽出する。
距離計算部112は、サンプリング部110が抽出したデータと、そのデータがどのような音を示すのかを特定するために用いる予め記憶部62に記憶されたデータ(以下、そのデータを「音響モデル」と称する)とを比較し、それらの相違の程度を示す値(以下、その値を「距離」と称する)を特定する。距離計算部112は、自らが特定した距離に基づいて、音声を構成する音を特定する。距離計算部112は、音声を構成する音を示す情報を記憶するように、記憶部62を制御する。
文字列特定部100は、データ作成部114と、翻訳部116とを含む。
データ作成部114は、記憶部62に記憶された音声を構成する音を示す情報に基づいて、その音声と同一の意味を示す文字列のデータを作成する。
データ作成部114は、記憶部62に記憶された音声を構成する音を示す情報に基づいて、その音声と同一の意味を示す文字列のデータを作成する。
翻訳部116は、データ作成部114が作成したデータに基づいて、そのデータが示す言葉を他の言葉に翻訳し、翻訳された言葉を示す文字列のデータを作成する。
図3は、テレビ電話機50の外観図である。テレビ電話機50の上部に撮像部66が含むCCD(charge coupled device)カメラが取り付けられている。筐体の中央に大きな開口部が設けられており、ユーザは画像表示部74が表示する画像をその開口部から見ることができる。
また、テレビ電話機50の筐体は、左開口部80と、右開口部82と、中央開口部84とを含む。
本実施の形態の場合、音声出力部72は、左スピーカと右スピーカとを(いずれも図示せず)含む。左スピーカが出力した音声は、左開口部80を通じてテレビ電話機50の外部に出力される。右スピーカが出力した音声は、右開口部82を通じてテレビ電話機50の外部に出力される。
また、ユーザが発した音声は、中央開口部84を通じて音声入力部64に入力される。
図4は、記憶部62が情報を記憶する領域を示す図である。図4を参照して、記憶部62が情報を記憶する領域は、管理データ領域120と、音声データ領域122と、動画データ領域124と、構成音データ領域126と、テキストデータ領域128と、作業領域130とを含む。
図4は、記憶部62が情報を記憶する領域を示す図である。図4を参照して、記憶部62が情報を記憶する領域は、管理データ領域120と、音声データ領域122と、動画データ領域124と、構成音データ領域126と、テキストデータ領域128と、作業領域130とを含む。
管理データ領域120は、制御部76がテレビ電話機50を制御するために必要な情報を記憶する領域である。
音声データ領域122は、音声データを記憶する領域である。
動画データ領域124は、動画データを記憶する領域である。
動画データ領域124は、動画データを記憶する領域である。
構成音データ領域126は、距離計算部112が出力した、音声を構成する音を示す情報を記憶する領域である。
テキストデータ領域128は、文字列特定部100が出力した文字列の情報を記憶する。
作業領域130は、各種のデータが一時的に記憶される領域である。
図5を参照して、制御部76で実行されるプログラムは、メッセージの記憶に関し、以下のような制御を実行する。
図5を参照して、制御部76で実行されるプログラムは、メッセージの記憶に関し、以下のような制御を実行する。
ステップS140にて、通信部60が着呼を要求する情報を受信すると、通信制御部90は、音声出力部72を制御し、呼出音を出力させる。これに対し、所定の期間、操作部70が操作されなければ(操作部70が何の信号も出力しなければ)、通信制御部90は、着呼を要求する情報の送信元に対して着呼に応じることを示す情報を送信するように通信部60を制御し、通話を開始する(ちなみに、前述した所定の期間内に操作部70が操作された場合、通信制御部90は、操作部70が操作された時点で送信元に対して着呼に応じることを示す情報を送信し、その後、ユーザが通話するための各種の処理を実施する)。通話が開始されると、通信制御部90は、管理データ領域120から読み出した音声データを送信するように通信部60を制御する。これにより、上述した送信元のスピーカから、テレビ電話機50のユーザが電話に出ることができないことを示す音声が出力される。
ステップS142にて、通信部60は、メッセージ情報を受信する。本実施の形態の場合、メッセージ情報はパケットとして受信される。通信部60は、メッセージ情報を制御部76に出力する。制御部76の付加処理部94は、時刻情報を生成し、メッセージ情報と共に保存処理部92に出力する。保存処理部92は、メッセージ情報と時刻情報とを対応付けて記憶するように、記憶部62を制御する。上述したように、メッセージ情報がパケットとして受信されることを利用して、音特定部98のサンプリング部110は、パケットの受信の合間に、既に記憶部62の音声データ領域122に記憶された音声データの一部を抽出する。データが抽出されると、距離計算部112は、サンプリング部110が抽出したデータと、音響モデルとを比較し、距離を特定する。距離計算部112は、自らが特定した距離に基づいて、音声を構成する音を特定する。距離計算部112は、音声を構成する音を示す情報を構成音データ領域126に記憶するように、記憶部62を制御する。
ステップS144にて、付加処理部94は、通信部60が通信の終了を示す情報を受信したか否かに基いて、メッセージの録音が終了したか否かを判断する。メッセージの録音が終了したと判断した場合には(ステップS144にてYES)、処理は終了する。もしそうでないと(ステップS144にてNO)、処理はステップS142へと移される。
図6を参照して、制御部76で実行されるプログラムは、メッセージの再生に関し、以下のような制御を実行する。
ステップS160にて、文字列特定部100のデータ作成部114は、記憶部62の構成音データ領域126から、音声を構成する音を示す情報を読み出す。
ステップS162にて、データ作成部114は、音声を構成する音を示す情報に基づいて、その音声と同一の意味を示す文字列のデータを作成する。管理データ領域120に記憶された翻訳の要否を示す翻訳フラグが「1」という値を示す場合、翻訳部116は、データ作成部114が作成したデータに基づいて、そのデータが示す言葉を他の言葉に翻訳し、翻訳された言葉を示す文字列のデータを作成する。翻訳フラグが「0」という値を示す場合には、翻訳部116は動作しない。翻訳フラグの値は、操作部70を介して受け付けたユーザの指示に従って記憶される。
ステップS164にて、文字列特定部100は、ステップS162にて特定された文字列を示す文字列データ(本実施の形態の場合、翻訳フラグの値が「0」ならばデータ作成部114が作成したデータであり、翻訳フラグの値が「1」ならば翻訳部116が作成したデータである)を画像変更部102に出力する。画像変更部102は、記憶部62の動画データ領域124から、動画データを読み出す。画像変更部102は、文字列特定部100が出力した文字列データを用いて、その動画データが示す動画の中に文字列データが示す文字列が含まれるよう、動画データ領域124から読み出した動画データの内容を変更する。動画データの内容が変更されると、画像変更部102は、内容が変更された動画データを画像表示部74に出力する。画像表示部74は、動画を表示する。音声処理部104は、記憶部62の音声データ領域122から、音声データを読み出す。音声データが読み出されると、音声処理部104は、音声出力部72が利用できる形式の信号にその音声データを変換し、音声出力部72に出力する。音声出力部72は、音声を出力する。
ステップS166にて、文字列特定部100は、構成音データ領域126に記憶された音声を構成する音を示す情報のうち、通信1回分の音声を構成する音を示す情報をすべて読み出したか否かを判断する。通信1回分の音声を構成する音を示す情報をすべて読み出したと判断した場合には(ステップS166にてYES)、処理は終了する。もしそうでないと(ステップS166にてNO)、処理はステップS160へと移される。
以上のような構造およびフローチャートに基づく、テレビ電話機50の動作について説明する。
通信部60が着呼を要求する情報を受信すると、通信制御部90は、音声出力部72を制御し、呼出音を出力させる。これに対し、所定の期間、操作部70が操作されなければ、通信制御部90は、通話を開始する。通話が開始されると、通信制御部90は、管理データ領域120から読み出した音声データを送信するように通信部60を制御する(ステップS140)。
音声データが送信されると、付加処理部94は、時刻情報を生成し、通信部60が受信したメッセージ情報と共に保存処理部92に出力する。保存処理部92は、メッセージ情報と時刻情報とを対応付けて記憶するように、記憶部62を制御する。
制御部76の音特定部98は、メッセージ情報が含む音声データに基づいて、音声を構成する音を特定する。音声データに基づいて音声を構成する音が特定されると、音特定部98は、音声を構成する音を示す情報を記憶するように、記憶部62を制御する(ステップS142)。
音を示す情報が記憶されると、付加処理部94は、メッセージの録音が終了したか否かを判断する(ステップS144)。メッセージの録音が終了するまで(ステップS144にてNO)、ステップS142とステップS144との処理が繰返される。
その後、操作部70の操作により、メッセージを再生するようユーザから指示を受けると、文字列特定部100は、記憶部62の構成音データ領域126から、音声を構成する音を示す情報を読み出す(ステップS160)。
音声を構成する音を示す情報が読み出されると、文字列特定部100は、音声を構成する音を示す情報に基いてその言葉を示す文字列を特定する(ステップS162)。文字列が特定されると、文字列特定部100は、ステップS162にて特定した文字列を示す文字列データを画像変更部102に出力する。画像変更部102は、記憶部62の動画データ領域124から、動画データを読み出す。画像変更部102は、文字列特定部100が出力した文字列データを用いて、その動画データが示す動画の中に文字列データが示す文字列が含まれるよう、動画データ領域124から読み出した動画データの内容を変更する。動画データの内容が変更されると、画像変更部102は、内容が変更された動画データを画像表示部74に出力する。画像表示部74は、動画を表示する。音声処理部104は、記憶部62の音声データ領域122から、音声データを読み出す。音声データが読み出されると、音声処理部104は、音声出力部72が利用できる形式の信号にその音声データを変換し、音声出力部72に出力する。音声出力部72は、音声を出力する(ステップS164)。
図7は、メッセージの再生の際、文字列特定部100が特定した文字列の画像が含まれた状態でメッセージ情報が示す動画が表示されていることを示す概念図である。
音声が出力されると、文字列特定部100は、構成音データ領域126に記憶された音声を構成する音を示す情報のうち、通信1回分の音声を構成する音を示す情報をすべて読み出したか否かを判断する(ステップS166)。通信1回分の音声を構成する音を示す情報の一部がまだ読み出されていない間(ステップS166にてNO)、ステップS160〜ステップS166の処理が繰返される。
以上のようにして、本実施の形態に係るテレビ電話機は、メッセージの録音と並行して音声を構成する音を特定する。その後、メッセージの再生の際、メッセージの録音時に特定された音に基づいてその言葉を示す文字列を特定し、その文字列を表示させる。これにより、音声を構成する音が録音時に特定され、その音声と同一の意味を示す文字列がメッセージの再生時に特定されるので、制御部76が一度に実施する処理の量は少なくなる。その量が少なくなるので、制御部76のハードウェアの能力の割には迅速に音声を文字列化できる。その結果、ハードウェアの能力の割には迅速に音声を文字列化でき、かつ音声と同一の意味の文字列を表示できるテレビ電話機を提供することができる。
また、本実施の形態に係るテレビ電話機50は、音声を構成する音の特定をメッセージの録音時に実施する。このように音の特定が実施されるので、メッセージの録音の終了直後にそのメッセージの再生を行なう場合にも、再生の遅れが少ない。
なお、本実施の形態の変形例においては、音特定部98は、通信部60が通信の終了を示す情報を受信した後に、音声を構成する音を特定してもよい。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
60 通信部、62 記憶部、64 音声入力部、66 撮像部、68 リモコン受信部、70 操作部、72 音声出力部、74 画像表示部、76 制御部、80 左開口部、82 右開口部、84 中央開口部、90 通信制御部、92 保存処理部、94 付加処理部、96 計時部、98 音特定部、100 文字列特定部、102 画像変更部、104 音声処理部、110 サンプリング部、112 距離計算部、114 データ作成部、116 翻訳部、120 管理データ領域、122 音声データ領域、124 動画データ領域、126 構成音データ領域、128 テキストデータ領域、130 作業領域。
Claims (6)
- 複数の部分に分割された音声を示す音声データと、画像を示す画像データとを通信するための通信手段と、
前記通信手段が受信した前記音声データと前記通信手段が受信した前記画像データとを記憶するための記憶手段と、
操作を受付けるための受付手段と、
音声を出力するための音声出力手段と、
画像を表示するための画像表示手段と、
前記音声出力手段と前記画像表示手段とを制御するための制御手段とを含み、
前記制御手段は、
前記複数の部分に分割された前記音声データに基づいて、前記部分ごとに前記音声を構成する音を特定するための音特定手段と、
前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記音声を構成する音に基づき、前記音声データが示す音声と同一の意味を示す文字列を特定するための文字列特定手段と、
前記音声データが示す音声と同一の意味を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための変更手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記変更手段が変更した画像データが示す画像を表示するように前記画像表示手段を制御するための表示制御手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記通信手段が受信した音声データが示す音声を出力するように前記音声出力手段を制御するための出力制御手段とを含む、テレビ電話機。 - 音声を示す音声データと、画像を示す画像データとを通信するための通信手段と、
前記通信手段が受信した前記音声データと前記通信手段が受信した前記画像データとを記憶するための記憶手段と、
操作を受付けるための受付手段と、
音声を出力するための音声出力手段と、
画像を表示するための画像表示手段と、
前記音声出力手段と前記画像表示手段とを制御するための制御手段とを含み、
前記制御手段は、
前記音声データに基づいて、前記音声を構成する音を特定するための音特定手段と、
前記音特定手段が前記音声を構成する音を特定した後、前記音声を構成する音と前記画像データとに基づいて、前記音声データが示す音声と同一の意味を示す文字列の画像と前記画像データが示す画像とを合成するための合成手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記合成手段が合成した画像を表示するように前記画像表示手段を制御するための表示制御手段と、
前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記通信手段が受信した音声データが示す音声を出力するように前記音声出力手段を制御するための出力制御手段とを含む、テレビ電話機。 - 前記合成手段は、
前記音特定手段が前記音声を構成する音を特定した後、前記音声を構成する音に基づいて前記音声データが示す音声と同一の意味を示す文字列を特定するための文字列特定手段と、
前記音声データが示す音声と同一の意味を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための変更手段とを含み、
前記表示制御手段は、前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記変更手段が変更した画像データが示す画像を表示するように前記画像表示手段を制御するための手段を含む、請求項2に記載のテレビ電話機。 - 前記受信手段は、複数の部分に分割された前記音声データを通信するための手段を含み、
前記音特定手段は、前記複数の部分に分割された前記音声データに基づいて、前記部分ごとに前記音声を構成する音を特定するための手段を含み、
前記文字列特定手段は、前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記文字列を特定するための手段を含む、請求項3に記載のテレビ電話機。 - 前記音特定手段は、前記記憶手段が前記音声データを記憶した後、前記記憶手段が記憶した前記音声データに基づいて、前記音声を構成する音を特定するための手段を含み、
前記文字列特定手段は、前記音声を構成する音が特定され、かつ前記音声と前記画像とを出力するための前記操作を前記受付手段が受付けたことを条件として、前記文字列を特定するための手段を含む、請求項3に記載のテレビ電話機。 - 前記合成手段は、前記文字列特定手段が特定した文字列が示す言葉を翻訳するための翻訳手段をさらに含み、
前記変更手段は、前記翻訳手段が翻訳した言葉を示す文字列の画像を前記画像データが示す画像が含むように、前記画像データの内容を変更するための手段を含む、請求項3に記載のテレビ電話機。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007142211A JP2008300968A (ja) | 2007-05-29 | 2007-05-29 | テレビ電話機 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007142211A JP2008300968A (ja) | 2007-05-29 | 2007-05-29 | テレビ電話機 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008300968A true JP2008300968A (ja) | 2008-12-11 |
Family
ID=40174104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007142211A Withdrawn JP2008300968A (ja) | 2007-05-29 | 2007-05-29 | テレビ電話機 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008300968A (ja) |
-
2007
- 2007-05-29 JP JP2007142211A patent/JP2008300968A/ja not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6842507B2 (en) | Simple structured portable phone with video answerphone message function and portable phone system including the same | |
JP2010093554A (ja) | 通信装置、文字通話制御方法、及び通信制御プログラム | |
JP2006211570A (ja) | 撮影装置 | |
JP2932027B2 (ja) | テレビ電話装置 | |
JP2008300968A (ja) | テレビ電話機 | |
JPH11355747A (ja) | 映像・音声通信装置と同装置を用いたテレビ会議装置 | |
JP2000228687A (ja) | 情報通信システム | |
JP4504216B2 (ja) | 画像処理装置および画像処理プログラム | |
KR100945162B1 (ko) | 링백톤제공시스템 및 그 방법 | |
KR20000052141A (ko) | 휴대용 정보 단말 장치 | |
JP2002027039A (ja) | 通信通訳システム | |
JP2005277884A (ja) | 通信端末装置 | |
JP2664679B2 (ja) | 通信システム | |
JP3677563B2 (ja) | デジタルスチルカメラ | |
JP2006325092A (ja) | 電話通信システム、電話通信方法、中継サーバー及び携帯電話機 | |
JP2009157746A (ja) | 音声処理システム、端末装置、サーバ装置、音声処理方法、及びプログラム | |
JP2013201505A (ja) | テレビ会議システム及び多地点接続装置並びにコンピュータプログラム | |
JPH0548750A (ja) | マルチメデイア通信システム | |
JP2006332968A (ja) | テレビ電話装置 | |
JPH0388592A (ja) | テレビ電話装置 | |
JP2006217187A (ja) | 電話システムおよびその通話方法、電話端末、電話システム制御プログラム、および該プログラムを記録した記録媒体 | |
JP2005222410A (ja) | 車載用ハンドフリーメール装置 | |
KR20000042799A (ko) | 동영상 전화장치의 영상 송,수신 제어방법 | |
JP2006324940A (ja) | 自動アニメーション付き留守番電話機能を備えた画像表示機能付き通信装置および自動アニメーション付き留守番電話機能を用いた通信方法 | |
JP2008172359A (ja) | Ipインターホンシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100803 |