JP2015015623A - Television telephone set and program - Google Patents
Television telephone set and program Download PDFInfo
- Publication number
- JP2015015623A JP2015015623A JP2013141511A JP2013141511A JP2015015623A JP 2015015623 A JP2015015623 A JP 2015015623A JP 2013141511 A JP2013141511 A JP 2013141511A JP 2013141511 A JP2013141511 A JP 2013141511A JP 2015015623 A JP2015015623 A JP 2015015623A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- translation
- dictionary
- unit
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
Description
本発明は、映像及び音声を用いて通話を行なうテレビ電話機、及び、プログラムに関する。 The present invention relates to a video phone for making a call using video and audio, and a program.
テレビ電話機を使用して発話者と受話者とで通話を行なう場合、発話者のテレビ電話機は、カメラにより撮影された発話者の画像とマイクにより取り込まれた発話者の音声とを含む通話データを、電話網を介して、受話者のテレビ電話機に送信する。これにより、受話者は、発話者の音声を聞きながら、発話者の画像を見ることができる。 When a videophone is used to make a call between a speaker and a receiver, the videophone of the speaker has call data including the image of the speaker captured by the camera and the voice of the speaker captured by the microphone. , To the receiver's video phone via the telephone network. As a result, the listener can view the image of the speaker while listening to the voice of the speaker.
発話者と受話者との言語が異なる場合、受話者は、発話者の音声を瞬時に翻訳して、テレビ電話機にて会話を行なうことになる。ところが、受話者が発話者の言語に対する知識に乏しい場合や、発話者の音声を瞬時に翻訳できない場合では、会話をスムーズに行なうことができない。この問題を解決するために、特許文献1には、発話者の音声を翻訳する技術が記載されている。
When the language of the speaker is different from that of the receiver, the receiver instantly translates the speaker's voice and has a conversation on the video phone. However, if the speaker has little knowledge of the speaker's language or if the speaker's voice cannot be translated instantaneously, the conversation cannot be performed smoothly. In order to solve this problem,
特許文献1に記載された技術では、発話者のテレビ電話機と受話者のテレビ電話機との間に音声翻訳部(図示しない)を設けている。音声翻訳部は、発話者のテレビ電話機から送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する音声テキスト変換部(図示しない)と、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳するテキスト言語翻訳部(図示しない)と、翻訳されたテキストデータを字幕として受話者のテレビ電話機の表示部の端(例えば下端)に表示されるように、通話データに含まれる発話者の画像に合成して、受話者のテレビ電話機に伝送する画像テキスト合成部(図示しない)と、を具備している。これにより、受話者は、発話者の音声(英語)を聞きながら、発話者の画像と共に、翻訳された字幕を見ることができる。
In the technique described in
しかしながら、特許文献1に記載された技術では、通話データに含まれる発話者の音声は翻訳されて、字幕として受話者のテレビ電話機に伝送されるが、通話データに含まれる発話者の画像は、そのまま受話者のテレビ電話機に伝送される。このため、相手(受話者)の国籍・文化・風習により、送信元の被写体(発話者)がとるジェスチャが、その相手には不適切なジェスチャであると受け取られ、コミュニケーションに齟齬をきたす可能性がある。例えば、日本では、相手に軽く挨拶をする際に「手のひらを見せるように手を上げる」動作を行なうことがあるが、このような動作は、欧州では「侮辱行為」として認識されることがある。
However, in the technique described in
本発明は、上記の点に鑑みてなされたものであり、送信元の被写体(発話者)がとるジェスチャを翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができるテレビ電話機、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above points, and by translating a gesture taken by a subject (speaker) of a transmission source, smooth communication without causing misunderstanding to the other party (listener). An object of the present invention is to provide a videophone and a program capable of achieving the above.
本発明のテレビ電話機は、ジェスチャの特徴を示す参照用特徴データとそのジェスチャの翻訳を示す翻訳情報とを対応付けるジェスチャ辞書と、被写体の画像に基づいて前記被写体のジェスチャの特徴を示す撮影時特徴データを生成し、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するジェスチャ解析部と、前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成する翻訳結果合成部と、を具備することを特徴とする。 The video phone according to the present invention includes a gesture dictionary that associates reference feature data indicating a feature of a gesture and translation information indicating translation of the gesture, and feature data at the time of shooting that indicates the feature of the subject based on the image of the subject. A gesture analysis unit that selects, as translation results, translation information corresponding to the shooting feature data from translation information in the gesture dictionary, and synthesizes the translation results with the subject image. A translation result synthesis unit for generating an image.
本発明によれば、送信元の被写体(発話者)がとるジェスチャを翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。 ADVANTAGE OF THE INVENTION According to this invention, smooth communication can be aimed at without producing misunderstanding with respect to an other party (listener) by translating the gesture which the to-be-photographed object (speaker) takes.
以下、図面を参照しながら本発明の実施形態について説明する。本実施形態に係るテレビ電話機は、携帯電話機、スマートフォンなどに適用される。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The video phone according to the present embodiment is applied to a mobile phone, a smartphone, and the like.
[第1実施形態]
図1は、本発明の第1実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。テレビ電話機1は、カメラ11と、送信部12と、マイク13と、受信部21と、表示部22と、スピーカ23と、制御部(図示しない)と、記憶装置(図示しない)を具備している。
[First Embodiment]
FIG. 1 is a schematic block diagram showing the configuration of the
制御部は、カメラ11、送信部12、マイク13、受信部21、表示部22、スピーカ23に対して制御を行う。制御部は、例えばCPU(Central Processing Unit)等から構成されている。記憶装置には、コンピュータが実行可能なコンピュータプログラムが格納され、CPUは、そのコンピュータプログラムを読み出して実行する。表示部22としては、LCD(Liquid Crystal Display)が例示される。
The control unit controls the
テレビ電話機1は、発話者と受話者に使用される。ここで、発話者が使用するテレビ電話機1を発話者のテレビ電話機1Aと称し、受話者が使用するテレビ電話機1を受話者のテレビ電話機1Bと称する。
The
図1では、説明の都合上、カメラ11、送信部12、マイク13が発話者のテレビ電話機1A内にのみ図示されている。カメラ11は、被写体(発話者)を撮影する。マイク13は、発話者の音声を取り込む。送信部12は、カメラ11により撮影された発話者の画像と、マイク13により取り込まれた発話者の音声とを含む通話データを、電話網2を介して、受話者のテレビ電話機1Bに送信する。
In FIG. 1, for convenience of explanation, the
また、図1では、説明の都合上、受信部21、表示部22、スピーカ23が受話者のテレビ電話機1B内にのみ図示されている。受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信する。表示部22は、受信部21により受信された通話データに含まれる発話者の画像を表示する。スピーカ23は、受信部21により受信された通話データに含まれる発話者の音声を出力する。
In FIG. 1, for the sake of explanation, the
発話者のテレビ電話機1Aと受話者のテレビ電話機1Bは、電話網2を介して接続されている。電話網2には、例えば、音声翻訳部40が設けられている。音声翻訳部40は、例えば、特許文献1に記載された技術と同じ構成であるものとし、本発明に関連する部分のみ説明する。
The
発話者のテレビ電話機1Aは、更に、ジェスチャ翻訳部30を具備している。そのジェスチャ翻訳部30は、ソフトウェア(上述のコンピュータプログラム)により実現する。ジェスチャ翻訳部30は、発話者のテレビ電話機1A内の制御部により制御される。ジェスチャ翻訳部30は、カメラ11により撮影された画像内の被写体(発話者)のジェスチャを翻訳する。そのジェスチャ翻訳部30は、辞書記憶部31と、ジェスチャ辞書選択部32と、ジェスチャ解析部33と、翻訳結果合成部34とを具備している。
The speaker's
辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別に登録されている。ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの手の動きや顔の表情などを表す所作の特徴を示す参照用特徴データ(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報と、が複数種類対応付けられて登録されている。
In the
ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書を選択ジェスチャ辞書として選択する。ジェスチャ辞書31A〜31Dとしては日本語、英語(アメリカ)、英語(イギリス)、中国語などが例示されるが、これに限定されない。
The gesture
ジェスチャ解析部33は、発話者の画像に基づいて、発話者の所作の特徴を示す撮影時特徴データ(特徴ベクトル)を生成する。ジェスチャ解析部33は、ジェスチャ辞書選択部32により選択された選択ジェスチャ辞書を参照し、その選択ジェスチャ辞書の複数種類の翻訳情報の中から、撮影時特徴データに対応する翻訳情報を翻訳結果として選択する。
The
翻訳結果合成部34は、発話者の画像に翻訳結果を合成して、受話者のテレビ電話機1Bの表示部22に表示するための翻訳結果合成画像を生成する。
The translation
図2は、図1の構成を用いて、本発明の第1実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。
FIG. 2 is a flowchart for explaining the operation (videophone processing) of the
まず、発話者のテレビ電話機1Aにおいて、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、ジェスチャ辞書取得要求を行なう(S01)。ここで、S01は、例えば発話者の操作に応じて発話者のテレビ電話機1Aが発呼するときに実行される。S01において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として選択する(S02)。ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33に翻訳準備完了を通知する(S03)。図示省略するが、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34が同じ画像を取得できるように、ジェスチャ辞書選択部32は、翻訳結果合成部34に対しても翻訳準備完了を通知する。
First, in the
次に、ジェスチャ解析部33は、翻訳準備完了の通知に応じて、カメラ11に対して発話者画像取得要求を行ない(S04)、発話者の画像をカメラ11から取得する(S05)。ジェスチャ解析部33は、カメラ11からの発話者の画像に基づいて発話者の所作の特徴を示す撮影時特徴データを生成し、S02により選択された選択ジェスチャ辞書(ジェスチャ辞書31B)を参照する。次に、ジェスチャ解析部33は、選択ジェスチャ辞書の複数種類の参照用特徴データの中から、撮影時特徴データに一致する参照用特徴データを選択参照用特徴データとして選択し、選択ジェスチャ辞書の複数種類の翻訳情報のうちの、選択参照用特徴データに対応する翻訳情報を、翻訳結果として、翻訳結果合成部34に出力する(S06)。
Next, in response to the notification of translation preparation completion, the
翻訳結果合成部34は、翻訳準備完了の通知に応じて、カメラ11に対して発話者画像取得要求を行ない(S07)、発話者の画像をカメラ11から取得する(S08)。次に、翻訳結果合成部34は、カメラ11からの発話者の画像にジェスチャ解析部33からの翻訳結果を合成して翻訳結果合成画像を生成し、送信部12に出力する(S09)。
In response to the notification of completion of translation preparation, the translation
送信部12は、翻訳結果合成部34からの翻訳結果合成画像とマイク13により取り込まれた発話者の音声とを含む通話データを受話者のテレビ電話機1Bに電話網2を介して送信する(S10)。
The
電話網2において、音声翻訳部40の音声テキスト変換部は、発話者のテレビ電話機1Aから送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する。音声翻訳部40のテキスト言語翻訳部は、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳する。音声翻訳部40の画像テキスト合成部は、翻訳されたテキストデータを字幕として受話者のテレビ電話機1Bの表示部22の端(例えば下端)に表示されるように、通話データに含まれる翻訳結果合成画像に合成して、受話者のテレビ電話機1Bに伝送する。
In the
受話者のテレビ電話機1Bにおいて、受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信し、通話データに含まれる翻訳結果合成画像を表示部22に出力し、通話データに含まれる発話者の音声をスピーカ23に出力する。表示部22は、受信部21からの翻訳結果合成画像を表示する。スピーカ23は、受信部21からの音声を出力する。
In the
S10の後、通話が継続している場合、即ち、テレビ電話処理が継続している場合、S04以降が実行され、通話が継続しない場合、テレビ電話処理は終了する。 After S10, when the call is continued, that is, when the videophone process is continued, S04 and subsequent steps are executed, and when the call is not continued, the videophone process is terminated.
このように、本発明の第1実施形態に係るテレビ電話機1では、送信元の被写体(発話者)がとるジェスチャを発話者のテレビ電話機1Aで翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。
As described above, in the
[第2実施形態]
第2実施形態では、第1実施形態からの変更点のみ説明する。
[Second Embodiment]
In the second embodiment, only the changes from the first embodiment will be described.
図3は、本発明の第2実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。第1実施形態では、ジェスチャ翻訳部30は発話者のテレビ電話機1Aに設けられているが、第2実施形態では、ジェスチャ翻訳部30は受話者のテレビ電話機1Bに設けられている。
FIG. 3 is a schematic block diagram showing the configuration of the
図4は、図3の構成を用いて、本発明の第2実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。
FIG. 4 is a flowchart for explaining the operation (videophone processing) of the
まず、受話者のテレビ電話機1Bにおいて、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、ジェスチャ辞書取得要求を行なう(S01)。ここで、S01は、例えば発話者のテレビ電話機1Aから受話者のテレビ電話機1Bに対して発呼があったときに受話者の操作に応じて実行される。S01において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として選択する(S02)。ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34に翻訳準備完了を通知する(S03)。
First, in the
いま、発話者のテレビ電話機1Aにおいて、送信部12は、カメラ11により撮影された発話者の画像とマイク13により取り込まれた発話者の音声とを含む通話データを受話者のテレビ電話機1Bに電話網2を介して送信する。
Now, in the
電話網2において、音声翻訳部40の音声テキスト変換部は、発話者のテレビ電話機1Aから送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する。音声翻訳部40のテキスト言語翻訳部は、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳する。音声翻訳部40の画像テキスト合成部は、翻訳されたテキストデータを字幕として受話者のテレビ電話機1Bの表示部22の端(例えば下端)に表示されるように、通話データに含まれる発話者の画像に合成して、受話者のテレビ電話機1Bに伝送する。
In the
受話者のテレビ電話機1Bにおいて、受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信する。
In the receiver's
次に、ジェスチャ翻訳部30のジェスチャ解析部33は、翻訳準備完了の通知に応じて、受信部21に対して発話者画像取得要求を行なう(S04)。受信部21は、ジェスチャ解析部33からの発話者画像取得要求に応じて、受信した通話データに含まれる発話者の画像をジェスチャ解析部33に出力し、ジェスチャ解析部33は、その画像を受信部21から取得する(S05)。ジェスチャ解析部33は、受信部21からの発話者の画像に基づいて発話者の所作の特徴を示す撮影時特徴データを生成し、S02により選択された選択ジェスチャ辞書(ジェスチャ辞書31B)を参照する。次に、ジェスチャ解析部33は、選択ジェスチャ辞書の複数種類の参照用特徴データの中から、撮影時特徴データに一致する参照用特徴データを選択参照用特徴データとして選択し、選択ジェスチャ辞書の複数種類の翻訳情報のうちの、選択参照用特徴データに対応する翻訳情報を、翻訳結果として、翻訳結果合成部34に出力する(S06)。
Next, the
翻訳結果合成部34は、翻訳準備完了の通知に応じて、受信部21に対して発話者画像取得要求を行なう(S07)。受信部21は、翻訳結果合成部34からの発話者画像取得要求に応じて、受信した通話データに含まれる発話者の画像を翻訳結果合成部34に出力し、翻訳結果合成部34は、その画像を受信部21から取得する(S08)。次に、翻訳結果合成部34は、受信部21からの発話者の画像にジェスチャ解析部33からの翻訳結果を合成して翻訳結果合成画像を生成し、表示部22に出力する。表示部22は、翻訳結果合成画像を表示する(S21)。同時に、スピーカ23は、通話データに含まれる発話者の音声を出力する。
In response to the notification of completion of translation preparation, the translation
S21の後、通話が継続している場合、即ち、テレビ電話処理が継続している場合、S04以降が実行され、通話が継続しない場合、テレビ電話処理は終了する。 After S21, when the call is continued, that is, when the videophone process is continued, S04 and subsequent steps are executed, and when the call is not continued, the videophone process is terminated.
このように、本発明の第2実施形態に係るテレビ電話機1では、送信元の被写体(発話者)がとるジェスチャを受話者のテレビ電話機1Bで翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。
As described above, in the
[第3実施形態]
第3実施形態では、第1又は第2実施形態からの変更点のみ説明する。
[Third Embodiment]
In the third embodiment, only changes from the first or second embodiment will be described.
図5は、本発明の第3実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の構成を示す概略ブロック図である。そのジェスチャ翻訳部30は、更に、電話帳記憶部35と、判別用記憶部36と、判別部37とを具備している。
FIG. 5 is a schematic block diagram showing the configuration of the
電話帳記憶部35には、通話に用いられる識別子(例えば、電話番号や、IP電話などではネットワークアドレスやアカウント名)と使用言語に関連する属性情報とが利用者毎に対応付けられて登録されている。属性情報は、利用者の住所、利用者の国籍、利用者の所在地が判別可能な識別情報(IPアドレスなど)を少なくとも含む。
In the telephone
判別用記憶部36には、属性情報51と、選択すべきジェスチャ辞書を示す辞書情報52とが対応付けられて登録されている。辞書情報52は、属性情報51別に判別用記憶部36に登録されている。図6は、図5の判別用記憶部36の例を示している。図6に示されるように、属性情報51は国籍を示している。その国籍としては日本、アメリカ、イギリス、中国などが例示されるが、これに限定されない。その属性情報51(国籍)が示す日本、アメリカ、イギリス、中国に対して、辞書情報52が示すジェスチャ辞書は、日本語のジェスチャ辞書、英語(アメリカ)のジェスチャ辞書、英語(イギリス)のジェスチャ辞書、中国語のジェスチャ辞書であるものとする。
In the
判別部37は、発話者と受話者とが通話を行なうときに、電話帳記憶部35に登録された属性情報の中から、通話に用いられる発話者の識別子(ここでは、電話番号とする)に対応する属性情報を選択属性情報として取得する。このとき、判別部37は、判別用記憶部36に登録された属性情報51の中から、選択属性情報に一致する属性情報51を検索し、判別部37は、判別用記憶部36に登録された辞書情報52の中から、検索された属性情報51に対応する辞書情報52を選択辞書情報として取得する。
When the speaker and the receiver make a call, the
これにより、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、選択辞書情報が示すジェスチャ辞書を選択ジェスチャ辞書として自動的に選択する。
As a result, the gesture
図7は、図5及び図6の構成を用いて、本発明の第3実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。
FIG. 7 is a flowchart for explaining the operation (videophone processing) of the
まず、発話者と受話者とが通話を行なうときに、発話者のテレビ電話機1A、又は、受話者のテレビ電話機1Bにおいて、ジェスチャ翻訳部30の判別部37は、発話者国籍取得要求を行なう(S31)。ここで、S31は、例えば発話者の操作に応じて発話者のテレビ電話機1Aが発呼するときに実行される。又は、S31は、例えば発話者のテレビ電話機1Aから受話者のテレビ電話機1Bに対して発呼があったときに受話者の操作に応じて実行される。判別部37は、電話帳記憶部35に登録された国籍の中から、発話者の電話番号に対応する国籍(例えば[アメリカ])を選択国籍として取得する(S32)。次に、判別部37は、判別用記憶部36に登録された辞書情報52の中から、選択国籍[アメリカ]に対応する辞書情報52[英語(アメリカ)のジェスチャ辞書]を選択辞書情報として取得し、ジェスチャ辞書選択部32に出力する(S33)。
First, when a speaker and a receiver make a call, in the speaker's
次に、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、判別部37からの選択辞書情報[英語(アメリカ)のジェスチャ辞書]に応じて、ジェスチャ辞書取得要求を行なう(S34)。S34において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、選択辞書情報が示す英語(アメリカ)のジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として自動的に選択する(S35)。ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34に翻訳準備完了を通知する(S36)。
Next, the gesture
S36の後、S04以降が実行される。 After S36, S04 and subsequent steps are executed.
このように、本発明の第3実施形態に係るテレビ電話機1では、発話者と受話者とが通話を行なうときに、発話者の使用言語に対応するジェスチャ辞書を自動的に選択するため、これに伴う発話者又は受話者の操作の手間を省くことができる。
Thus, in the
[第4実施形態]
第4実施形態では、第1〜第3実施形態からの変更点のみ説明する。
[Fourth Embodiment]
In the fourth embodiment, only changes from the first to third embodiments will be described.
図8は、本発明の第4実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別に登録され、ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの所作の特徴を示す参照用特徴データ53(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報54と、が複数種類対応付けられて登録されている。図8に示されるように、その翻訳情報54は、ジェスチャの意味を表す文字列である。
FIG. 8 shows an example of a gesture dictionary in the
この場合、ジェスチャ翻訳部30の翻訳結果合成部34は、発話者の画像に翻訳結果を合成するときに、例えば図9に示されるような形態で、発話者の画像に、文字列を表す翻訳情報54を合成する。このとき、発話者の画像のうちの、発話者の画像に合成される字幕とは重複しない位置に、文字列を表す翻訳情報54を合成することが好ましい。
In this case, when the translation
[第5実施形態]
第5実施形態では、第1〜第3実施形態からの変更点のみ説明する。
[Fifth Embodiment]
In the fifth embodiment, only changes from the first to third embodiments will be described.
図10は、本発明の第5実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別及び利用者別に登録され、ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの所作の特徴を示す参照用特徴データ53(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報55と、が複数種類対応付けられて登録されている。翻訳情報55は、利用者のジェスチャに対して、予め用意された利用者の画像を示すアバター画像である。予め用意された利用者の画像は、例えば、カメラ11により利用者が予め撮影された画像ファイルである。
FIG. 10 shows an example of a gesture dictionary in the
この場合、ジェスチャ翻訳部30のジェスチャ解析部33は、撮影時特徴データ(特徴ベクトル)を生成したときに、選択ジェスチャ辞書(例えばジェスチャ辞書31B)の複数種類のアバター画像を表す翻訳情報55の中から、発話者の撮影時特徴データに対応するアバター画像を表す翻訳情報55を、翻訳結果として選択する。翻訳結果合成部34は、発話者の画像に翻訳結果を合成するときに、例えば図11に示されるような形態で、発話者の画像のうちの、背景画像以外の画像を、発話者のアバター画像を表す翻訳情報55に置き換える。このアバター画像は、発話者の顔の表情が顕著に表れるようなものであることが好ましい。
In this case, the
[第6実施形態]
第6実施形態では、第1〜第5実施形態からの変更点のみ説明する。
[Sixth Embodiment]
In the sixth embodiment, only changes from the first to fifth embodiments will be described.
本発明のテレビ電話機1は、ジェスチャ翻訳部30が発話者のテレビ電話機1A又は受話者のテレビ電話機1Bに設けられているが、これに限定されない。各テレビ電話機1に複数のジェスチャ翻訳部30が設けられてもよく、受話者のテレビ電話機1Bでは、複数の発話者のテレビ電話機1Aからの画像を一画面で表示部22に表示してもよいし、画面切り替えにより個別に表示部22に表示してもよい。
In the
例えば、図12に示されるように、第1〜第3の発話者と受話者とが同時にテレビ電話を行なう場合、受話者のテレビ電話機1Bの表示部22には、第1〜第3翻訳結果合成画像が表示される。第1翻訳結果合成画像は、第1発話者の画像に対して、第1発話者のジェスチャの翻訳結果である第1翻訳結果が合成されている。第2翻訳結果合成画像は、第2発話者の画像に対して、第2発話者のジェスチャの翻訳結果である第2翻訳結果が合成されている。第3翻訳結果合成画像は、第3発話者の画像に対して、第3発話者のジェスチャの翻訳結果である第3翻訳結果が合成されている。
For example, as shown in FIG. 12, when the first to third utterers and the receiver simultaneously make a videophone call, the
また、本発明のテレビ電話機1で動作するコンピュータプログラム(以下、プログラムと称する)は、本発明に関わる上記実施形態の機能を実現するように、CPU等を制御するプログラム(コンピュータを機能させるプログラム)である。そして、これら装置で取り扱われる情報は、その処理的に一時的にRAMに蓄積され、その後、各種ROMやHDDに格納され、必要に応じてCPUによって読み出し、修正・書き込みが行われる。プログラムを格納する記録媒体としては、半導体媒体(例えば、ROM、不揮発性メモリカード等)、光記憶媒体(例えば、DVD、MO、MD、CD、BD等)、磁気記録媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。また、ロードしたプログラムを実行することにより、上記した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。
A computer program (hereinafter referred to as a program) that operates on the
また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記録装置も本発明に含まれる。また、上述した実施形態における送信局装置及び受信局装置の一部または全部を典型機能ブロックは個別にプロセッサ化してもよいし、一部または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が実現した場合、該当技術による集積回路を用いることも可能である。 In addition, when distributing to the market, the program can be stored and distributed in a portable recording medium, or transferred to a server computer connected via a network such as the Internet. In this case, the recording apparatus of the server computer is also included in the present invention. In addition, a part or all of the transmitting station apparatus and the receiving station apparatus in the above-described embodiment may be individually converted into a processor, or a part or all of them may be integrated into a processor. Further, the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. Further, when an integrated circuit technology that replaces LSI is realized by the advancement of semiconductor technology, an integrated circuit according to the technology can be used.
1 … テレビ電話機、
1A … 発話者のテレビ電話機、
1B … 受話者のテレビ電話機、
2 … 電話網、
11 … カメラ、
12 … 送信部、
13 … マイク、
21 … 受信部、
22 … 表示部、
23 … スピーカ、
30 … ジェスチャ翻訳部、
31 … 辞書記憶部、
31A〜31D … ジェスチャ辞書、
32 … ジェスチャ辞書選択部、
33 … ジェスチャ解析部、
34 … 翻訳結果合成部、
35 … 電話帳記憶部、
36 … 判別用記憶部、
37 … 判別部、
40 … 音声翻訳部、
51 … 属性情報、
52 … 辞書情報、
53 … 参照用特徴データ、
54 … 翻訳情報(文字列)、
55 … 翻訳情報(画像ファイル)
1 ... Video phone,
1A ... Speaker's video phone,
1B ... The receiver's video phone,
2 ... telephone network,
11 ... Camera,
12 ... Transmitter,
13 ... Mike,
21 ... receiving part,
22 ... display part,
23… Speaker,
30 ... Gesture Translation Department,
31 ... Dictionary storage,
31A-31D ... Gesture dictionary,
32 ... Gesture dictionary selection part,
33 ... Gesture analysis section,
34 ... Translation result synthesis unit,
35 ... Phone book storage,
36 ... storage unit for discrimination,
37 ... discriminator,
40 ... speech translation department,
51 ... attribute information,
52… Dictionary information,
53 ... feature data for reference,
54 ... Translation information (character string),
55 ... Translation information (image file)
Claims (5)
被写体の画像に基づいて前記被写体のジェスチャの特徴を示す撮影時特徴データを生成し、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するジェスチャ解析部と、
前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成する翻訳結果合成部と、
を具備することを特徴とするテレビ電話機。 A gesture dictionary associating reference feature data indicating the features of the gesture with translation information indicating the translation of the gesture;
Gesture analysis that generates shooting feature data indicating the feature of the subject gesture based on the image of the subject, and selects translation information corresponding to the shooting feature data from the translation information of the gesture dictionary as a translation result And
A translation result synthesis unit that synthesizes the translation result with the image of the subject to generate a translation result synthesized image;
A video phone comprising:
前記翻訳結果合成画像を表示する表示部と、
を更に具備することを特徴とする請求項1に記載のテレビ電話機。 A receiving unit for receiving an image of the subject;
A display unit for displaying the translation result synthesized image;
The video phone according to claim 1, further comprising:
を更に具備することを特徴とする請求項1に記載のテレビ電話機。 A transmission unit for transmitting the translation result composite image;
The video phone according to claim 1, further comprising:
通話に用いられる識別子と使用言語に関連する属性情報とが対応付けられて登録された電話帳記憶部と、
選択すべきジェスチャ辞書を示す選択辞書情報が属性情報別に登録された判別用記憶部と、
前記電話帳記憶部に登録された前記属性情報の中から、通話に用いられる識別子に対応する属性情報を選択属性情報として取得し、前記判別用記憶部に登録された前記辞書情報の中から、前記選択属性情報に対応する辞書情報を選択辞書情報として取得する判別部と、
前記辞書記憶部に登録された前記複数のジェスチャ辞書の中から、前記選択辞書情報が示すジェスチャ辞書を前記ジェスチャ辞書として選択するジェスチャ辞書選択部と、
を更に具備することを特徴とする請求項1から3のいずれかに記載のテレビ電話機。 A dictionary storage unit in which a plurality of gesture dictionaries are registered;
A telephone directory storage unit in which an identifier used for a call and attribute information related to a language used are registered in association with each other;
A storage unit for determination in which selection dictionary information indicating a gesture dictionary to be selected is registered for each attribute information;
From the attribute information registered in the telephone directory storage unit, to obtain attribute information corresponding to an identifier used for a call as selection attribute information, from among the dictionary information registered in the determination storage unit, A determination unit that acquires dictionary information corresponding to the selection attribute information as selection dictionary information;
A gesture dictionary selection unit that selects a gesture dictionary indicated by the selection dictionary information as the gesture dictionary from the plurality of gesture dictionaries registered in the dictionary storage unit;
The video phone according to claim 1, further comprising:
ジェスチャの特徴を示す参照用特徴データとそのジェスチャの翻訳を示す翻訳情報とを対応付けるジェスチャ辞書を参照して、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するステップと、
前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成するステップと、
の各ステップをコンピュータに実行させるコンピュータプログラム。 Generating feature data at the time of photographing indicating the feature of the gesture of the subject based on the image of the subject;
Referring to the gesture dictionary that associates the reference feature data indicating the feature of the gesture with the translation information indicating the translation of the gesture, the translation information corresponding to the shooting feature data is translated from the translation information of the gesture dictionary A step to select as a result;
Synthesizing the translation result with the image of the subject to generate a translation result synthesized image;
A computer program that causes a computer to execute each step of.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013141511A JP2015015623A (en) | 2013-07-05 | 2013-07-05 | Television telephone set and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013141511A JP2015015623A (en) | 2013-07-05 | 2013-07-05 | Television telephone set and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015015623A true JP2015015623A (en) | 2015-01-22 |
Family
ID=52437057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013141511A Pending JP2015015623A (en) | 2013-07-05 | 2013-07-05 | Television telephone set and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015015623A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018040937A (en) * | 2016-09-07 | 2018-03-15 | カシオ計算機株式会社 | Speech production determination device, speech production determination system, program, and speech production determination method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05260193A (en) * | 1992-02-28 | 1993-10-08 | Nec Corp | Video telephone exchange system |
JP2010246085A (en) * | 2009-04-01 | 2010-10-28 | Avaya Inc | Interpretation of gestures to provide storage queues of visual information |
JP2013089238A (en) * | 2011-10-20 | 2013-05-13 | Fuji Xerox Co Ltd | Gesture processing program |
-
2013
- 2013-07-05 JP JP2013141511A patent/JP2015015623A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05260193A (en) * | 1992-02-28 | 1993-10-08 | Nec Corp | Video telephone exchange system |
JP2010246085A (en) * | 2009-04-01 | 2010-10-28 | Avaya Inc | Interpretation of gestures to provide storage queues of visual information |
JP2013089238A (en) * | 2011-10-20 | 2013-05-13 | Fuji Xerox Co Ltd | Gesture processing program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018040937A (en) * | 2016-09-07 | 2018-03-15 | カシオ計算機株式会社 | Speech production determination device, speech production determination system, program, and speech production determination method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11880628B2 (en) | Screen mirroring display method and electronic device | |
US11893359B2 (en) | Speech translation method and terminal when translated speech of two users are obtained at the same time | |
US10957012B2 (en) | System and method for processing image information | |
CN111371949A (en) | Application program switching method and device, storage medium and touch terminal | |
WO2022078295A1 (en) | Device recommendation method and electronic device | |
JP6374854B2 (en) | Screen sharing system and screen sharing method | |
CN111510556B (en) | Call information processing method and device and computer storage medium | |
CN114697732A (en) | Shooting method, system and electronic equipment | |
EP3174052A1 (en) | Method and device for realizing voice message visualization service | |
JP2008113331A (en) | Telephone system, telephone set, server device, and program | |
JP2015015623A (en) | Television telephone set and program | |
JP2017059121A (en) | Image management device, image management method and program | |
CN114244955B (en) | Service sharing method and system, electronic device and computer readable storage medium | |
JP4814753B2 (en) | Method and system for linking data information and voice information | |
JP2008010935A (en) | Mobile radio terminal device | |
US20150156345A1 (en) | Communication apparatus and electronic mail creation method | |
JP6387205B2 (en) | Communication system, communication method and program | |
JP2019135609A (en) | Character input support system, character input support control device, and character input support program | |
US20230275986A1 (en) | Accessory theme adaptation method, apparatus, and system | |
CN112115869A (en) | Data processing method and device and recording equipment | |
CN112115696A (en) | Data processing method and device and recording equipment | |
JP5561809B2 (en) | Terminal device | |
CN113286217A (en) | Call voice translation method and device and earphone equipment | |
CN115002537A (en) | Video sharing method, electronic device, storage medium, and program product | |
JP2019159333A (en) | Character input support system and character input support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170808 |