JP2015015623A - Television telephone set and program - Google Patents

Television telephone set and program Download PDF

Info

Publication number
JP2015015623A
JP2015015623A JP2013141511A JP2013141511A JP2015015623A JP 2015015623 A JP2015015623 A JP 2015015623A JP 2013141511 A JP2013141511 A JP 2013141511A JP 2013141511 A JP2013141511 A JP 2013141511A JP 2015015623 A JP2015015623 A JP 2015015623A
Authority
JP
Japan
Prior art keywords
gesture
translation
dictionary
unit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013141511A
Other languages
Japanese (ja)
Inventor
智之 土谷
Tomoyuki Tsuchiya
智之 土谷
Original Assignee
シャープ株式会社
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社, Sharp Corp filed Critical シャープ株式会社
Priority to JP2013141511A priority Critical patent/JP2015015623A/en
Publication of JP2015015623A publication Critical patent/JP2015015623A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a television telephone set capable of allowing smooth communication without letting a called person misunderstand by translating a gesture that a calling person takes.SOLUTION: A television telephone set (1) includes: gesture dictionaries (31A-31D) in which reference feature data representing features of a gesture and translation information representing a translation of the gesture are made to correspond to each other; a gesture analysis part (33) which generates photography-time feature data representing features of a gesture of a subject on the basis of an image of the subject, and selects translation information corresponding to photography-time feature data as a translation result from translation information of the gesture dictionary (31B); and a translation result composition part (34) which generates a translation result composite image by putting the translation result together with the image of the subject.

Description

本発明は、映像及び音声を用いて通話を行なうテレビ電話機、及び、プログラムに関する。 The present invention, video phone for performing a call using the video and audio, and a program.

テレビ電話機を使用して発話者と受話者とで通話を行なう場合、発話者のテレビ電話機は、カメラにより撮影された発話者の画像とマイクにより取り込まれた発話者の音声とを含む通話データを、電話網を介して、受話者のテレビ電話機に送信する。 If using video phone perform call on the speaker and listener, TV telephone speaker is the call data including an audio captured speaker by captured speaker images and the microphone by the camera , via the telephone network, and transmits it to the receiver's television phone. これにより、受話者は、発話者の音声を聞きながら、発話者の画像を見ることができる。 As a result, the listener is, while listening to the voice of the speaker, it is possible to see the image of the speaker.

発話者と受話者との言語が異なる場合、受話者は、発話者の音声を瞬時に翻訳して、テレビ電話機にて会話を行なうことになる。 If the language of the speaker and the listener is different, the listener is to translate the voice of the speaker in an instant, it will be carried out the conversation by video phone. ところが、受話者が発話者の言語に対する知識に乏しい場合や、発話者の音声を瞬時に翻訳できない場合では、会話をスムーズに行なうことができない。 However, and if the listener is poor knowledge of the language of the speaker, in the case you can not translate the voice of the speaker in an instant, it can not be carried out smoothly the conversation. この問題を解決するために、特許文献1には、発話者の音声を翻訳する技術が記載されている。 To solve this problem, Patent Document 1, a technique for translating the voice of the speaker is described.

特許文献1に記載された技術では、発話者のテレビ電話機と受話者のテレビ電話機との間に音声翻訳部(図示しない)を設けている。 In the technique described in Patent Document 1 is provided speech translation unit (not shown) between the speaker of the video phone and listener videophone. 音声翻訳部は、発話者のテレビ電話機から送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する音声テキスト変換部(図示しない)と、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳するテキスト言語翻訳部(図示しない)と、翻訳されたテキストデータを字幕として受話者のテレビ電話機の表示部の端(例えば下端)に表示されるように、通話データに含まれる発話者の画像に合成して、受話者のテレビ電話機に伝送する画像テキスト合成部(図示しない)と、を具備している。 Speech translation unit, a voice text conversion unit for converting the speaker contained in the call data transmitted from the speaker of the TV telephone audio (e.g. English voice) into text data (text data English name) (not shown) If, as the text language translation unit for translating the language that has been referred to in the text data to the listener of the specified language (for example, Japanese) (not shown), a display unit of the receiver's television phone the translated text data as a subtitle to appear in the end (e.g. bottom), are provided by combining the speaker of the images included in the call data, image text composition unit to be transmitted to the listener of the video phone and (not shown), the . これにより、受話者は、発話者の音声(英語)を聞きながら、発話者の画像と共に、翻訳された字幕を見ることができる。 As a result, the listener is, while listening to the speaker of the voice (English), along with the speaker of the image, you can see the translated subtitles.

特開平5−260193号公報 JP-5-260193 discloses

しかしながら、特許文献1に記載された技術では、通話データに含まれる発話者の音声は翻訳されて、字幕として受話者のテレビ電話機に伝送されるが、通話データに含まれる発話者の画像は、そのまま受話者のテレビ電話機に伝送される。 However, in the technique described in Patent Document 1, the speaker of the speech contained in the call data is translated, but is transmitted as subtitles listener videophone, speaker of the images contained in the call data, as it is transmitted to the receiver's television phone. このため、相手(受話者)の国籍・文化・風習により、送信元の被写体(発話者)がとるジェスチャが、その相手には不適切なジェスチャであると受け取られ、コミュニケーションに齟齬をきたす可能性がある。 Therefore, the nationality, culture and customs of the partner (listeners), gesture taking the source of the object (speaker) is are received to be inappropriate gestures to the other party, possibly causing a conflict in communication there is. 例えば、日本では、相手に軽く挨拶をする際に「手のひらを見せるように手を上げる」動作を行なうことがあるが、このような動作は、欧州では「侮辱行為」として認識されることがある。 For example, in Japan, but there is possible to "raise their hands to show the palm of the hand" operation at the time of the lightly greeting to the other party, such behavior is, in Europe there is to be recognized as "insults" .

本発明は、上記の点に鑑みてなされたものであり、送信元の被写体(発話者)がとるジェスチャを翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができるテレビ電話機、及び、プログラムを提供することを目的とする。 The present invention has been made in view of the above, by translating the gesture to take the source object (speaker) is, without misleading to the counterpart (listeners), smooth communication videophone can be achieved, and aims to provide a program.

本発明のテレビ電話機は、ジェスチャの特徴を示す参照用特徴データとそのジェスチャの翻訳を示す翻訳情報とを対応付けるジェスチャ辞書と、被写体の画像に基づいて前記被写体のジェスチャの特徴を示す撮影時特徴データを生成し、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するジェスチャ解析部と、前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成する翻訳結果合成部と、を具備することを特徴とする。 Videophone of the present invention, a gesture dictionary mapping and translation information and reference feature data indicating a feature of the gesture indicates the gesture translation, shooting feature data indicating a feature of the gesture of the object based on the image of the subject generates the out gesture dictionary translation information, the gesture analysis unit for selecting a translation information corresponding to the photographing feature data as a translation result, translation by combining the translation result to the image of the subject results synthesis characterized by comprising a translation result combining unit for generating the image.

本発明によれば、送信元の被写体(発話者)がとるジェスチャを翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。 According to the present invention, by translating the gesture to take the source object (speaker) is, without misleading to the counterpart (listener), it is possible to achieve smooth communication.

本発明の第1実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。 It is a schematic block diagram showing a configuration of a video phone 1 according to the first embodiment of the present invention. 図2は、図1の構成を用いて、本発明の第1実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 2, using the configuration of FIG. 1 is a flow chart for explaining the operation of the video phone 1 according to the first embodiment of the present invention (videophone processor). 図3は、本発明の第2実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。 Figure 3 is a schematic block diagram showing a configuration of a video phone 1 according to the second embodiment of the present invention. 図4は、図3の構成を用いて、本発明の第2実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 4, using the configuration of FIG. 3 is a flowchart for explaining the operation of the video phone 1 according to the second embodiment of the present invention (videophone processor). 図5は、本発明の第3実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の構成を示す概略ブロック図である。 Figure 5 is a schematic block diagram showing a configuration of a gesture translation unit 30 in the television telephone 1 according to a third embodiment of the present invention. 図6は、図5の判別用記憶部36の例を示している。 Figure 6 shows an example of the determination storage unit 36 ​​of FIG. 図5及び図6の構成を用いて、本発明の第3実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 Using the configuration of FIG. 5 and FIG. 6 is a flow chart for explaining a third operation of the video phone 1 according to the embodiment of the present invention (videophone processor). 本発明の第4実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。 It shows an example of a gesture dictionary 4 in the dictionary storage unit 31 of the gesture translation unit 30 in the television telephone 1 according to the embodiment of the present invention. 本発明の第4実施形態に係るテレビ電話機1の動作を説明するための図である。 It is a diagram for explaining the operation of the video phone 1 according to a fourth embodiment of the present invention. 本発明の第5実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。 It shows an example of a gesture dictionary fifth in the dictionary storage unit 31 of the gesture translation unit 30 in the television telephone 1 according to the embodiment of the present invention. 本発明の第5実施形態に係るテレビ電話機1の動作を説明するための図である。 It is a diagram for explaining the operation of the video phone 1 according to a fifth embodiment of the present invention. 本発明の第6実施形態に係るテレビ電話機1の動作を説明するための図である。 It is a diagram for explaining the operation of the video phone 1 according to a sixth embodiment of the present invention.

以下、図面を参照しながら本発明の実施形態について説明する。 Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described. 本実施形態に係るテレビ電話機は、携帯電話機、スマートフォンなどに適用される。 TV telephone according to the present embodiment, mobile phone, is applied to a smartphone.

[第1実施形態] First Embodiment
図1は、本発明の第1実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。 Figure 1 is a schematic block diagram showing a configuration of a video phone 1 according to the first embodiment of the present invention. テレビ電話機1は、カメラ11と、送信部12と、マイク13と、受信部21と、表示部22と、スピーカ23と、制御部(図示しない)と、記憶装置(図示しない)を具備している。 Television phone 1 includes a camera 11, a transmission unit 12, a microphone 13, a receiving unit 21, a display unit 22, a speaker 23, a control unit (not shown), comprises a storage device (not shown) there.

制御部は、カメラ11、送信部12、マイク13、受信部21、表示部22、スピーカ23に対して制御を行う。 Control unit, the camera 11, transmitter 12, a microphone 13, performs control with respect to the receiving unit 21, a display unit 22, a speaker 23. 制御部は、例えばCPU(Central Processing Unit)等から構成されている。 Control unit, for example, a CPU and a (Central Processing Unit) or the like. 記憶装置には、コンピュータが実行可能なコンピュータプログラムが格納され、CPUは、そのコンピュータプログラムを読み出して実行する。 The storage devices of the computer, stored executable computer program, CPU reads and executes the computer program. 表示部22としては、LCD(Liquid Crystal Display)が例示される。 As the display unit 22, LCD (Liquid Crystal Display) is exemplified.

テレビ電話機1は、発話者と受話者に使用される。 TV phone 1 is used in the speaker and the listener. ここで、発話者が使用するテレビ電話機1を発話者のテレビ電話機1Aと称し、受話者が使用するテレビ電話機1を受話者のテレビ電話機1Bと称する。 Here, referred to television telephone 1 speaker uses the speaker of the video phone 1A, referred TV telephone 1 listener uses the listener videophone 1B.

図1では、説明の都合上、カメラ11、送信部12、マイク13が発話者のテレビ電話機1A内にのみ図示されている。 In Figure 1, for convenience of explanation, the camera 11, transmitter 12, a microphone 13 is shown only in the speaker of the video phone in 1A. カメラ11は、被写体(発話者)を撮影する。 The camera 11 photographs the object (speaker). マイク13は、発話者の音声を取り込む。 Mike 13, captures the voice of the speaker. 送信部12は、カメラ11により撮影された発話者の画像と、マイク13により取り込まれた発話者の音声とを含む通話データを、電話網2を介して、受話者のテレビ電話機1Bに送信する。 Transmission unit 12 includes a speaker of the image captured by the camera 11, the call data including an audio speaker captured by the microphone 13, via the telephone network 2, and transmits to the receiver's television phone 1B .

また、図1では、説明の都合上、受信部21、表示部22、スピーカ23が受話者のテレビ電話機1B内にのみ図示されている。 Further, in FIG. 1, for convenience of explanation, the receiving unit 21, a display unit 22, a speaker 23 is shown only in the receiver's television telephone in 1B. 受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信する。 Receiver 21 receives the call data transmitted from the speaker of the video phone 1A. 表示部22は、受信部21により受信された通話データに含まれる発話者の画像を表示する。 The display unit 22 displays a speaker image included in the received call data by the receiving unit 21. スピーカ23は、受信部21により受信された通話データに含まれる発話者の音声を出力する。 Speaker 23 outputs a speech's voice included in the received call data by the receiving unit 21.

発話者のテレビ電話機1Aと受話者のテレビ電話機1Bは、電話網2を介して接続されている。 Speaker of the TV phone 1A and the reception's television phone 1B is connected via a telephone network 2. 電話網2には、例えば、音声翻訳部40が設けられている。 The telephone network 2, for example, speech translation unit 40 is provided. 音声翻訳部40は、例えば、特許文献1に記載された技術と同じ構成であるものとし、本発明に関連する部分のみ説明する。 Speech translation unit 40, for example, it is assumed the same configuration as the technique described in Patent Document 1 will be described only the parts related to the present invention.

発話者のテレビ電話機1Aは、更に、ジェスチャ翻訳部30を具備している。 Speaker of the TV phone 1A is further provided a gesture translation unit 30. そのジェスチャ翻訳部30は、ソフトウェア(上述のコンピュータプログラム)により実現する。 The gesture translation unit 30 is realized by software (the above-mentioned computer program). ジェスチャ翻訳部30は、発話者のテレビ電話機1A内の制御部により制御される。 Gesture translation unit 30 is controlled by the control unit in the speaker of the video phone 1A. ジェスチャ翻訳部30は、カメラ11により撮影された画像内の被写体(発話者)のジェスチャを翻訳する。 Gesture translation unit 30 translates the gesture subject in the image captured by the camera 11 (speaker). そのジェスチャ翻訳部30は、辞書記憶部31と、ジェスチャ辞書選択部32と、ジェスチャ解析部33と、翻訳結果合成部34とを具備している。 The gesture translation unit 30 includes a dictionary storage unit 31, a gesture dictionary selection unit 32, and includes a gesture analysis unit 33, and a translation result combining unit 34.

辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別に登録されている。 The dictionary storage unit 31, a gesture dictionary 31A~31D is registered by language. ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの手の動きや顔の表情などを表す所作の特徴を示す参照用特徴データ(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報と、が複数種類対応付けられて登録されている。 Each of the gesture dictionary 31A-31D, the reference feature data indicating features of gestures representing the hands of the movement and facial expression when the user performs a gesture (feature vector) of the gesture translation (mean) a translation information indicating, but are registered attached a plurality of types corresponding.

ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書を選択ジェスチャ辞書として選択する。 Gesture dictionary selection unit 32 selects from among the gesture dictionary 31A~31D registered in the dictionary storage unit 31, a gesture dictionary corresponding to the language of the speaker as a selection gesture dictionary. ジェスチャ辞書31A〜31Dとしては日本語、英語(アメリカ)、英語(イギリス)、中国語などが例示されるが、これに限定されない。 Gesture dictionary as 31A~31D Japanese, English (US), English (United Kingdom), but such as Chinese is exemplified by, but is not limited to this.

ジェスチャ解析部33は、発話者の画像に基づいて、発話者の所作の特徴を示す撮影時特徴データ(特徴ベクトル)を生成する。 Gesture analysis unit 33 based on the speaker of the image to generate a shooting characteristic data indicating characteristics of gestures of a speaker (feature vector). ジェスチャ解析部33は、ジェスチャ辞書選択部32により選択された選択ジェスチャ辞書を参照し、その選択ジェスチャ辞書の複数種類の翻訳情報の中から、撮影時特徴データに対応する翻訳情報を翻訳結果として選択する。 Gesture analysis unit 33 refers to the selected selection gesture dictionary by gesture dictionary selection unit 32, selected from among a plurality of types of translation information of the selected gesture dictionary, translation information corresponding to the photographing feature data as a translation result to.

翻訳結果合成部34は、発話者の画像に翻訳結果を合成して、受話者のテレビ電話機1Bの表示部22に表示するための翻訳結果合成画像を生成する。 Translation result combining unit 34 combines the translation result to the speaker of the image to generate a translation result composite image to be displayed on the display unit 22 of the receiver's television phone 1B.

図2は、図1の構成を用いて、本発明の第1実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 2, using the configuration of FIG. 1 is a flow chart for explaining the operation of the video phone 1 according to the first embodiment of the present invention (videophone processor).

まず、発話者のテレビ電話機1Aにおいて、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、ジェスチャ辞書取得要求を行なう(S01)。 First, the television phone 1A of the speaker, a gesture dictionary selection unit 32 of the gesture translation unit 30 performs the gesture dictionary acquisition request (S01). ここで、S01は、例えば発話者の操作に応じて発話者のテレビ電話機1Aが発呼するときに実行される。 Here, S01, for example speaker TV phone 1A in accordance with the speaker of the operations are performed when a call. S01において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として選択する(S02)。 In S01, the gesture dictionary selection unit 32 selects from among the gesture dictionary 31A~31D registered in the dictionary storage unit 31, a gesture dictionary corresponding to the language of the speaker (e.g. gesture dictionary 31B) as a selection gesture dictionary (S02). ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33に翻訳準備完了を通知する(S03)。 Gesture dictionary selection unit 32 notifies the translation ready the gesture analysis unit 33 of the gesture translation unit 30 (S03). 図示省略するが、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34が同じ画像を取得できるように、ジェスチャ辞書選択部32は、翻訳結果合成部34に対しても翻訳準備完了を通知する。 Notification Although not illustrated, as the gesture analysis unit 33 and the translation result combining unit 34 of the gesture translation unit 30 can obtain the same image, the gesture dictionary selection unit 32, also the translation ready to the translation results combining unit 34 to.

次に、ジェスチャ解析部33は、翻訳準備完了の通知に応じて、カメラ11に対して発話者画像取得要求を行ない(S04)、発話者の画像をカメラ11から取得する(S05)。 Next, the gesture analysis unit 33, in response to the translation preparation completion notification, performs speaker image acquisition request to camera 11 (S04), and acquires an image of a speaker from camera 11 (S05). ジェスチャ解析部33は、カメラ11からの発話者の画像に基づいて発話者の所作の特徴を示す撮影時特徴データを生成し、S02により選択された選択ジェスチャ辞書(ジェスチャ辞書31B)を参照する。 Gesture analysis unit 33 based on the speaker of the image from the camera 11 generates a shooting characteristic data indicating characteristics of gestures of a speaker, referring to selected selection gesture dictionary (gesture dictionary 31B) by S02. 次に、ジェスチャ解析部33は、選択ジェスチャ辞書の複数種類の参照用特徴データの中から、撮影時特徴データに一致する参照用特徴データを選択参照用特徴データとして選択し、選択ジェスチャ辞書の複数種類の翻訳情報のうちの、選択参照用特徴データに対応する翻訳情報を、翻訳結果として、翻訳結果合成部34に出力する(S06)。 Next, the gesture analysis unit 33 selects from among a plurality of types of reference feature data of the selected gesture dictionary, the reference feature data matching the shooting feature data as a selection reference characteristic data, a plurality of selection gesture dictionary of types of translation information, the translation information corresponding to the feature data for the selected reference, as a translation result, and it outputs the translation result combining unit 34 (S06).

翻訳結果合成部34は、翻訳準備完了の通知に応じて、カメラ11に対して発話者画像取得要求を行ない(S07)、発話者の画像をカメラ11から取得する(S08)。 Translation result combining unit 34, in response to the translation preparation completion notification, performs speaker image acquisition request to camera 11 (S07), and acquires an image of a speaker from camera 11 (S08). 次に、翻訳結果合成部34は、カメラ11からの発話者の画像にジェスチャ解析部33からの翻訳結果を合成して翻訳結果合成画像を生成し、送信部12に出力する(S09)。 Next, the translation results combining unit 34, the speaker of the image from the camera 11 by combining the translation result from the gesture analysis unit 33 generates the translation result composite image, and outputs to the transmission unit 12 (S09).

送信部12は、翻訳結果合成部34からの翻訳結果合成画像とマイク13により取り込まれた発話者の音声とを含む通話データを受話者のテレビ電話機1Bに電話網2を介して送信する(S10)。 Transmitter 12 a call data transmission over the telephone network 2 to the receiver's television phone 1B including the speaker of the sound captured by the translation result composite image and the microphone 13 from the translation results combining unit 34 (S10 ).

電話網2において、音声翻訳部40の音声テキスト変換部は、発話者のテレビ電話機1Aから送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する。 In the telephone network 2, speech text conversion unit of the speech translation unit 40, the speaker of the video phone 1A speaker voice (e.g. English audio) of text data (text data English name included in the transmitted call data from to convert to). 音声翻訳部40のテキスト言語翻訳部は、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳する。 Text language translation of the speech translation unit 40 translates the language that has been referred to in the text data to the listener of the specified language (for example, Japanese). 音声翻訳部40の画像テキスト合成部は、翻訳されたテキストデータを字幕として受話者のテレビ電話機1Bの表示部22の端(例えば下端)に表示されるように、通話データに含まれる翻訳結果合成画像に合成して、受話者のテレビ電話機1Bに伝送する。 Image Text synthesis of speech translation unit 40, the translated text data to be displayed on the edge of the display portion 22 of the receiver's television phone 1B (e.g. lower) as subtitles, the translation results synthesis contained in the call data and combined with the image, and transmits the listener videophone 1B.

受話者のテレビ電話機1Bにおいて、受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信し、通話データに含まれる翻訳結果合成画像を表示部22に出力し、通話データに含まれる発話者の音声をスピーカ23に出力する。 In listener videophone 1B, the receiving unit 21 receives the call data transmitted from the speaker of the video phone 1A, and outputs the translation result composite image included in the call data to the display unit 22, included in the call data and it outputs the speaker of the sound to the speaker 23. 表示部22は、受信部21からの翻訳結果合成画像を表示する。 The display unit 22 displays the translation result composite image from the receiving unit 21. スピーカ23は、受信部21からの音声を出力する。 Speaker 23 outputs the sound from the receiver unit 21.

S10の後、通話が継続している場合、即ち、テレビ電話処理が継続している場合、S04以降が実行され、通話が継続しない場合、テレビ電話処理は終了する。 After S10, when the call is continued, that is, when the TV phone process is continuing, or later S04 is executed, if the call is not to continue, TV phone processing is terminated.

このように、本発明の第1実施形態に係るテレビ電話機1では、送信元の被写体(発話者)がとるジェスチャを発話者のテレビ電話機1Aで翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。 Thus, in the video telephone 1 according to the first embodiment of the present invention, by translating the gesture to take the source object (speaker) is in speaker of the video phone 1A, to the counterpart (listeners) without misleading, it is possible to achieve a smooth communication.

[第2実施形態] Second Embodiment
第2実施形態では、第1実施形態からの変更点のみ説明する。 In the second embodiment, it will be described only changes from the first embodiment.

図3は、本発明の第2実施形態に係るテレビ電話機1の構成を示す概略ブロック図である。 Figure 3 is a schematic block diagram showing a configuration of a video phone 1 according to the second embodiment of the present invention. 第1実施形態では、ジェスチャ翻訳部30は発話者のテレビ電話機1Aに設けられているが、第2実施形態では、ジェスチャ翻訳部30は受話者のテレビ電話機1Bに設けられている。 In the first embodiment, although the gesture translation section 30 is provided in the speaker of the video phone 1A, in the second embodiment, the gesture translation section 30 is provided in the listener videophone 1B.

図4は、図3の構成を用いて、本発明の第2実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 4, using the configuration of FIG. 3 is a flowchart for explaining the operation of the video phone 1 according to the second embodiment of the present invention (videophone processor).

まず、受話者のテレビ電話機1Bにおいて、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、ジェスチャ辞書取得要求を行なう(S01)。 First, in the receiver's television phone 1B, the gesture dictionary selection unit 32 of the gesture translation unit 30 performs the gesture dictionary acquisition request (S01). ここで、S01は、例えば発話者のテレビ電話機1Aから受話者のテレビ電話機1Bに対して発呼があったときに受話者の操作に応じて実行される。 Here, S01 is executed according to the listener of the operation when there is outgoing call, for example, from the speaker of the video phone 1A with respect to the listener videophone 1B. S01において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、発話者の使用言語に対応するジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として選択する(S02)。 In S01, the gesture dictionary selection unit 32 selects from among the gesture dictionary 31A~31D registered in the dictionary storage unit 31, a gesture dictionary corresponding to the language of the speaker (e.g. gesture dictionary 31B) as a selection gesture dictionary (S02). ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34に翻訳準備完了を通知する(S03)。 Gesture dictionary selection unit 32 notifies the translation ready the gesture analysis unit 33 and the translation result combining unit 34 of the gesture translation unit 30 (S03).

いま、発話者のテレビ電話機1Aにおいて、送信部12は、カメラ11により撮影された発話者の画像とマイク13により取り込まれた発話者の音声とを含む通話データを受話者のテレビ電話機1Bに電話網2を介して送信する。 Now, the television phone 1A of the speaker, transmitting unit 12, the telephone call data including the audio captured speaker by the image and the microphone 13 of the speaker captured by the camera 11 to the receiver's television phone 1B for transmission over the network 2.

電話網2において、音声翻訳部40の音声テキスト変換部は、発話者のテレビ電話機1Aから送信された通話データに含まれる発話者の音声(例えば英語の音声)をテキストデータ(英語表記のテキストデータ)に変換する。 In the telephone network 2, speech text conversion unit of the speech translation unit 40, the speaker of the video phone 1A speaker voice (e.g. English audio) of text data (text data English name included in the transmitted call data from to convert to). 音声翻訳部40のテキスト言語翻訳部は、そのテキストデータに表記された言語を受話者の指定言語(例えば日本語)に翻訳する。 Text language translation of the speech translation unit 40 translates the language that has been referred to in the text data to the listener of the specified language (for example, Japanese). 音声翻訳部40の画像テキスト合成部は、翻訳されたテキストデータを字幕として受話者のテレビ電話機1Bの表示部22の端(例えば下端)に表示されるように、通話データに含まれる発話者の画像に合成して、受話者のテレビ電話機1Bに伝送する。 Image Text synthesis of speech translation unit 40, the translated text data to be displayed on the edge of the display portion 22 of the receiver's television phone 1B (e.g. lower) as subtitles, a speaker contained in the call data and combined with the image, and transmits the listener videophone 1B.

受話者のテレビ電話機1Bにおいて、受信部21は、発話者のテレビ電話機1Aから送信された通話データを受信する。 In listener videophone 1B, receiver 21 receives the call data transmitted from the speaker of the video phone 1A.

次に、ジェスチャ翻訳部30のジェスチャ解析部33は、翻訳準備完了の通知に応じて、受信部21に対して発話者画像取得要求を行なう(S04)。 Next, the gesture analysis unit 33 of the gesture translation unit 30, in response to the translation preparation completion notification, performs speaker image acquisition request to the receiving section 21 (S04). 受信部21は、ジェスチャ解析部33からの発話者画像取得要求に応じて、受信した通話データに含まれる発話者の画像をジェスチャ解析部33に出力し、ジェスチャ解析部33は、その画像を受信部21から取得する(S05)。 Receiver 21, depending on the speaker image acquisition request from the gesture analysis unit 33 outputs the image of a speaker included in the received call data to the gesture analysis unit 33, the gesture analysis unit 33 receives the image obtained from part 21 (S05). ジェスチャ解析部33は、受信部21からの発話者の画像に基づいて発話者の所作の特徴を示す撮影時特徴データを生成し、S02により選択された選択ジェスチャ辞書(ジェスチャ辞書31B)を参照する。 Gesture analysis unit 33 based on the speaker of the images from the receiving unit 21 generates a shooting characteristic data indicating characteristics of gestures of a speaker, referring to selected selection gesture dictionary (gesture dictionary 31B) by S02 . 次に、ジェスチャ解析部33は、選択ジェスチャ辞書の複数種類の参照用特徴データの中から、撮影時特徴データに一致する参照用特徴データを選択参照用特徴データとして選択し、選択ジェスチャ辞書の複数種類の翻訳情報のうちの、選択参照用特徴データに対応する翻訳情報を、翻訳結果として、翻訳結果合成部34に出力する(S06)。 Next, the gesture analysis unit 33 selects from among a plurality of types of reference feature data of the selected gesture dictionary, the reference feature data matching the shooting feature data as a selection reference characteristic data, a plurality of selection gesture dictionary of types of translation information, the translation information corresponding to the feature data for the selected reference, as a translation result, and it outputs the translation result combining unit 34 (S06).

翻訳結果合成部34は、翻訳準備完了の通知に応じて、受信部21に対して発話者画像取得要求を行なう(S07)。 Translation result combining unit 34, in response to the translation preparation completion notification, it performs speaker image acquisition request to the receiving section 21 (S07). 受信部21は、翻訳結果合成部34からの発話者画像取得要求に応じて、受信した通話データに含まれる発話者の画像を翻訳結果合成部34に出力し、翻訳結果合成部34は、その画像を受信部21から取得する(S08)。 Receiver 21, depending on the speaker image acquisition request from the translation result combining unit 34 outputs the image of a speaker included in the received call data to the translation result combining unit 34, the translation result combining unit 34, the acquiring an image from the receiving unit 21 (S08). 次に、翻訳結果合成部34は、受信部21からの発話者の画像にジェスチャ解析部33からの翻訳結果を合成して翻訳結果合成画像を生成し、表示部22に出力する。 Next, the translation results combining unit 34 combines the translation result from the gesture analysis unit 33 generates the translation result composite image speaker image from the receiving unit 21, and outputs to the display unit 22. 表示部22は、翻訳結果合成画像を表示する(S21)。 The display unit 22 displays the translation result composite image (S21). 同時に、スピーカ23は、通話データに含まれる発話者の音声を出力する。 At the same time, the speaker 23 outputs the speaker of the speech contained in the call data.

S21の後、通話が継続している場合、即ち、テレビ電話処理が継続している場合、S04以降が実行され、通話が継続しない場合、テレビ電話処理は終了する。 After S21, when the call is continued, that is, when the TV phone process is continuing, or later S04 is executed, if the call is not to continue, TV phone processing is terminated.

このように、本発明の第2実施形態に係るテレビ電話機1では、送信元の被写体(発話者)がとるジェスチャを受話者のテレビ電話機1Bで翻訳することにより、相手(受話者)に対して誤解を生むことなく、円滑なコミュニケーションを図ることができる。 Thus, in the video telephone 1 according to the second embodiment of the present invention, by translating the gesture to take the source object (speaker) is in listener videophone 1B, to the counterpart (listeners) without misleading, it is possible to achieve a smooth communication.

[第3実施形態] Third Embodiment
第3実施形態では、第1又は第2実施形態からの変更点のみ説明する。 In the third embodiment, it will be described only changes from the first or second embodiment.

図5は、本発明の第3実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の構成を示す概略ブロック図である。 Figure 5 is a schematic block diagram showing a configuration of a gesture translation unit 30 in the television telephone 1 according to a third embodiment of the present invention. そのジェスチャ翻訳部30は、更に、電話帳記憶部35と、判別用記憶部36と、判別部37とを具備している。 The gesture translation unit 30 further includes a telephone directory storage unit 35, a determination storage unit 36, and a discrimination portion 37.

電話帳記憶部35には、通話に用いられる識別子(例えば、電話番号や、IP電話などではネットワークアドレスやアカウント名)と使用言語に関連する属性情報とが利用者毎に対応付けられて登録されている。 The telephone directory storing unit 35, the identifier used in the call (for example, a telephone number, a network address and account name, etc. IP telephone) and attribute information associated with the language is registered in association with each user ing. 属性情報は、利用者の住所、利用者の国籍、利用者の所在地が判別可能な識別情報(IPアドレスなど)を少なくとも含む。 Attribute information includes the user's address, user nationality, location is distinguishable identification information of the user (such as IP address) at least.

判別用記憶部36には、属性情報51と、選択すべきジェスチャ辞書を示す辞書情報52とが対応付けられて登録されている。 The determination storage unit 36, the attribute information 51, the dictionary information 52 indicating the gesture dictionary to be selected are registered in association. 辞書情報52は、属性情報51別に判別用記憶部36に登録されている。 Dictionary information 52, the attribute information 51 is registered in the determination storage unit 36 ​​separately. 図6は、図5の判別用記憶部36の例を示している。 Figure 6 shows an example of the determination storage unit 36 ​​of FIG. 図6に示されるように、属性情報51は国籍を示している。 As shown in FIG. 6, the attribute information 51 indicates the nationality. その国籍としては日本、アメリカ、イギリス、中国などが例示されるが、これに限定されない。 As a nationality Japan, the United States, the United Kingdom, but countries such as China can be exemplified by, but is not limited to this. その属性情報51(国籍)が示す日本、アメリカ、イギリス、中国に対して、辞書情報52が示すジェスチャ辞書は、日本語のジェスチャ辞書、英語(アメリカ)のジェスチャ辞書、英語(イギリス)のジェスチャ辞書、中国語のジェスチャ辞書であるものとする。 The attribute information 51 (nationality) of Japan shows, the United States, United Kingdom, with respect to China, a gesture dictionary indicated by the dictionary information 52, Japanese gesture dictionary, a gesture dictionary of English (US), gesture dictionary of the English (United Kingdom) , it is assumed that a Chinese gesture dictionary.

判別部37は、発話者と受話者とが通話を行なうときに、電話帳記憶部35に登録された属性情報の中から、通話に用いられる発話者の識別子(ここでは、電話番号とする)に対応する属性情報を選択属性情報として取得する。 Discriminating section 37, when the the speaker and listener performs a call, from among the attribute information registered in the telephone directory storage unit 35, speaker identifier used to call (in this case, a telephone number) acquiring a select attribute information attribute information corresponding to. このとき、判別部37は、判別用記憶部36に登録された属性情報51の中から、選択属性情報に一致する属性情報51を検索し、判別部37は、判別用記憶部36に登録された辞書情報52の中から、検索された属性情報51に対応する辞書情報52を選択辞書情報として取得する。 At this time, the determination unit 37, from the registered attribute information 51 to determine storage unit 36, searches the attribute information 51 that matches the selected attribute information, determination unit 37 is registered in the determination storage unit 36 from the dictionary information 52, obtains the dictionary information 52 corresponding to the attribute information 51 retrieved as selected dictionary information.

これにより、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、選択辞書情報が示すジェスチャ辞書を選択ジェスチャ辞書として自動的に選択する。 Thus, the gesture dictionary selection unit 32, from the gesture dictionary 31A~31D registered in the dictionary storage section 31 automatically selects a gesture dictionary indicated by the selected dictionary information as a selection gesture dictionary.

図7は、図5及び図6の構成を用いて、本発明の第3実施形態に係るテレビ電話機1の動作(テレビ電話処理)を説明するためのフローチャートである。 7, using the configuration of FIG. 5 and FIG. 6 is a flow chart for explaining a third operation of the video phone 1 according to the embodiment of the present invention (videophone processor).

まず、発話者と受話者とが通話を行なうときに、発話者のテレビ電話機1A、又は、受話者のテレビ電話機1Bにおいて、ジェスチャ翻訳部30の判別部37は、発話者国籍取得要求を行なう(S31)。 First, when the the speaker and listener performs a call, the speaker of the video phone 1A, or, in the receiver's television phone 1B, determination unit 37 of the gesture translation unit 30 performs speaker citizenship request ( S31). ここで、S31は、例えば発話者の操作に応じて発話者のテレビ電話機1Aが発呼するときに実行される。 Here, S31, for example speaker TV phone 1A in accordance with the speaker of the operations are performed when a call. 又は、S31は、例えば発話者のテレビ電話機1Aから受話者のテレビ電話機1Bに対して発呼があったときに受話者の操作に応じて実行される。 Or, S31 is executed according to the listener of the operation when there is outgoing call, for example, from the speaker of the video phone 1A with respect to the listener videophone 1B. 判別部37は、電話帳記憶部35に登録された国籍の中から、発話者の電話番号に対応する国籍(例えば[アメリカ])を選択国籍として取得する(S32)。 Determination unit 37 obtains from the nationality registered in the telephone directory storage unit 35, the nationality corresponding to the telephone number of the speaker (e.g. [USA]) as selected nationality (S32). 次に、判別部37は、判別用記憶部36に登録された辞書情報52の中から、選択国籍[アメリカ]に対応する辞書情報52[英語(アメリカ)のジェスチャ辞書]を選択辞書情報として取得し、ジェスチャ辞書選択部32に出力する(S33)。 Then, determination unit 37 obtains from the dictionary information 52 registered in the determination storage unit 36, as the selected dictionary information the gesture dictionary US English dictionary information 52 corresponding to the selected national [USA] , and outputs the gesture dictionary selection unit 32 (S33).

次に、ジェスチャ翻訳部30のジェスチャ辞書選択部32は、判別部37からの選択辞書情報[英語(アメリカ)のジェスチャ辞書]に応じて、ジェスチャ辞書取得要求を行なう(S34)。 Next, the gesture dictionary selection unit 32 of the gesture translation unit 30, in response to the gesture dictionary English (US) selects dictionary data from the determination unit 37 performs the gesture dictionary acquisition request (S34). S34において、ジェスチャ辞書選択部32は、辞書記憶部31に登録されたジェスチャ辞書31A〜31Dの中から、選択辞書情報が示す英語(アメリカ)のジェスチャ辞書(例えばジェスチャ辞書31B)を選択ジェスチャ辞書として自動的に選択する(S35)。 In S34, the gesture dictionary selection unit 32, from the gesture dictionary 31A~31D registered in the dictionary storage unit 31, as a selection gesture dictionary gesture dictionary English (US) indicating the selected dictionary information (e.g. gesture dictionary 31B) automatically selected (S35). ジェスチャ辞書選択部32は、ジェスチャ翻訳部30のジェスチャ解析部33及び翻訳結果合成部34に翻訳準備完了を通知する(S36)。 Gesture dictionary selection unit 32 notifies the translation ready the gesture analysis unit 33 and the translation result combining unit 34 of the gesture translation unit 30 (S36).

S36の後、S04以降が実行される。 After S36, S04 and later is executed.

このように、本発明の第3実施形態に係るテレビ電話機1では、発話者と受話者とが通話を行なうときに、発話者の使用言語に対応するジェスチャ辞書を自動的に選択するため、これに伴う発話者又は受話者の操作の手間を省くことができる。 Thus, the video phone 1 according to a third embodiment of the present invention, when the the speaker and listener performs a call, to select a gesture dictionary corresponding to the language of the speaker automatically, which it can be omitted speaker or effort of the receiver's operation due to.

[第4実施形態] Fourth Embodiment
第4実施形態では、第1〜第3実施形態からの変更点のみ説明する。 In the fourth embodiment, it will be described only changes from the first to third embodiments.

図8は、本発明の第4実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。 Figure 8 shows an example of a gesture dictionary 4 in the dictionary storage unit 31 of the gesture translation unit 30 in the television telephone 1 according to the embodiment of the present invention. 辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別に登録され、ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの所作の特徴を示す参照用特徴データ53(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報54と、が複数種類対応付けられて登録されている。 The dictionary storage unit 31, a gesture dictionary 31A~31D is registered by language, each gesture dictionary 31A~31D is reference feature data 53 indicating characteristics of gesture when the user performs a gesture (feature vector) If a translation information 54 indicating the gesture of translating (meaning), but are registered attached a plurality of types corresponding. 図8に示されるように、その翻訳情報54は、ジェスチャの意味を表す文字列である。 As shown in FIG. 8, the translation information 54 is a character string that represents the meaning of the gesture.

この場合、ジェスチャ翻訳部30の翻訳結果合成部34は、発話者の画像に翻訳結果を合成するときに、例えば図9に示されるような形態で、発話者の画像に、文字列を表す翻訳情報54を合成する。 In this case, the translation result combining unit 34 of the gesture translation unit 30, when synthesizing a translation result to the speaker of the image, for example, in the form as shown in Figure 9, the speaker of the image, the translation representing a string the information 54 to synthesize. このとき、発話者の画像のうちの、発話者の画像に合成される字幕とは重複しない位置に、文字列を表す翻訳情報54を合成することが好ましい。 At this time, of the speaker of the image, a position not overlapping with the caption to be combined with the speaker of the image, it is preferable to synthesize the translation information 54 representing the strings.

[第5実施形態] Fifth Embodiment
第5実施形態では、第1〜第3実施形態からの変更点のみ説明する。 In the fifth embodiment, it will be described only changes from the first to third embodiments.

図10は、本発明の第5実施形態に係るテレビ電話機1におけるジェスチャ翻訳部30の辞書記憶部31内のジェスチャ辞書の例を示している。 Figure 10 shows an example of a gesture dictionary fifth in the dictionary storage unit 31 of the gesture translation unit 30 in the television telephone 1 according to the embodiment of the present invention. 辞書記憶部31には、ジェスチャ辞書31A〜31Dが言語別及び利用者別に登録され、ジェスチャ辞書31A〜31Dの各々には、利用者がジェスチャを行なうときの所作の特徴を示す参照用特徴データ53(特徴ベクトル)と、そのジェスチャの翻訳(意味)を示す翻訳情報55と、が複数種類対応付けられて登録されている。 The dictionary storage unit 31, a gesture dictionary 31A~31D is registered by language and user, with each of the gesture dictionary 31A~31D is reference feature data 53 indicating characteristics of gesture when the user performs a gesture and (feature vectors), and translation information 55 indicating the gesture of translating (meaning), but are registered attached a plurality of types corresponding. 翻訳情報55は、利用者のジェスチャに対して、予め用意された利用者の画像を示すアバター画像である。 Translation information 55, to the gesture of the user, a avatar images showing an image of a prepared user. 予め用意された利用者の画像は、例えば、カメラ11により利用者が予め撮影された画像ファイルである。 Previously prepared user of the image, for example, the user by the camera 11 is pre-captured image file.

この場合、ジェスチャ翻訳部30のジェスチャ解析部33は、撮影時特徴データ(特徴ベクトル)を生成したときに、選択ジェスチャ辞書(例えばジェスチャ辞書31B)の複数種類のアバター画像を表す翻訳情報55の中から、発話者の撮影時特徴データに対応するアバター画像を表す翻訳情報55を、翻訳結果として選択する。 In this case, the gesture analysis unit 33 of the gesture translation unit 30, when generating the shooting feature data (feature vector), a translation information 55 representing a plurality kinds of avatar image selection gesture dictionary (e.g. gesture dictionary 31B) from the translation information 55 representing the avatar image corresponding to the time characteristic data utterer of photographing is selected as the translation results. 翻訳結果合成部34は、発話者の画像に翻訳結果を合成するときに、例えば図11に示されるような形態で、発話者の画像のうちの、背景画像以外の画像を、発話者のアバター画像を表す翻訳情報55に置き換える。 Translation result combining unit 34, when synthesizing the results translated into speaker images, in the form as shown in FIG. 11, for example, of the speaker of the image, an image other than the background image, the speaker avatar replaced with the translation information 55 that represents the image. このアバター画像は、発話者の顔の表情が顕著に表れるようなものであることが好ましい。 The avatar image, it is preferable facial expressions of the speaker are such conspicuous.

[第6実施形態] Sixth Embodiment
第6実施形態では、第1〜第5実施形態からの変更点のみ説明する。 In the sixth embodiment, it will be described only changes from the first to fifth embodiments.

本発明のテレビ電話機1は、ジェスチャ翻訳部30が発話者のテレビ電話機1A又は受話者のテレビ電話機1Bに設けられているが、これに限定されない。 Videophone 1 of the present invention, although the gesture translation portion 30 is provided in the video phone 1A or listener TV phone 1B of the speaker, but is not limited thereto. 各テレビ電話機1に複数のジェスチャ翻訳部30が設けられてもよく、受話者のテレビ電話機1Bでは、複数の発話者のテレビ電話機1Aからの画像を一画面で表示部22に表示してもよいし、画面切り替えにより個別に表示部22に表示してもよい。 May be a plurality of gesture translation unit 30 is provided for each video phone 1, the listener videophone 1B, an image from a plurality of speakers of the TV phone 1A may be displayed on the display unit 22 on a single screen and it may be displayed in a separate display unit 22 by screen switching.

例えば、図12に示されるように、第1〜第3の発話者と受話者とが同時にテレビ電話を行なう場合、受話者のテレビ電話機1Bの表示部22には、第1〜第3翻訳結果合成画像が表示される。 For example, as shown in FIG. 12, when the first to third speaker and listener performs a video call at the same time, the display unit 22 of the receiver's television phone 1B is first to third translation result the composite image is displayed. 第1翻訳結果合成画像は、第1発話者の画像に対して、第1発話者のジェスチャの翻訳結果である第1翻訳結果が合成されている。 The first translation result composite image, to the first speaker of the image, the first translation result is a gesture translation result of the first speaker is synthesized. 第2翻訳結果合成画像は、第2発話者の画像に対して、第2発話者のジェスチャの翻訳結果である第2翻訳結果が合成されている。 The second translation result composite image, to the second speaker of the image, the second translation results are synthesized is a gesture translation result of the second speaker. 第3翻訳結果合成画像は、第3発話者の画像に対して、第3発話者のジェスチャの翻訳結果である第3翻訳結果が合成されている。 The third translation result composite image, to the third speaker of the image, the third translation result is synthesized is a gesture translation result of the third speaker.

また、本発明のテレビ電話機1で動作するコンピュータプログラム(以下、プログラムと称する)は、本発明に関わる上記実施形態の機能を実現するように、CPU等を制御するプログラム(コンピュータを機能させるプログラム)である。 The computer program that operates the TV telephone 1 of the present invention (hereinafter, referred to as program), so as to realize the functions of the above embodiments according to the present invention, a program for controlling a CPU and the like (a program that causes a computer) it is. そして、これら装置で取り扱われる情報は、その処理的に一時的にRAMに蓄積され、その後、各種ROMやHDDに格納され、必要に応じてCPUによって読み出し、修正・書き込みが行われる。 The information handled by these devices is accumulated in the process to temporarily RAM, then stored in various ROM and HDD, read by the CPU as necessary, modify-write is performed. プログラムを格納する記録媒体としては、半導体媒体(例えば、ROM、不揮発性メモリカード等)、光記憶媒体(例えば、DVD、MO、MD、CD、BD等)、磁気記録媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。 As the recording medium for storing a program, a semiconductor medium (for example, ROM, nonvolatile memory card, etc.), optical storage medium (e.g., DVD, MO, MD, CD, BD, etc.), a magnetic recording medium (e.g., magnetic tape, it may be any such as a flexible disk or the like). また、ロードしたプログラムを実行することにより、上記した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。 Further, by executing the loaded program, not only the functions of the embodiments described above can be realized, based on instructions of the program by processing in cooperation with an operating system or other application programs, the when the function of the invention is achieved also.

また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。 Further, in the case of the market may be or transfer is circulated to store the program in a portable recording medium, a server computer connected via a network such as the Internet. この場合、サーバコンピュータの記録装置も本発明に含まれる。 In this case, the recording device of the server computer is also included in the present invention. また、上述した実施形態における送信局装置及び受信局装置の一部または全部を典型機能ブロックは個別にプロセッサ化してもよいし、一部または全部を集積してプロセッサ化してもよい。 Also, some or all of the transmitting station and the receiving station apparatus typically functional blocks may be the processor of separately in the embodiments described above, may be the processor by being integrated part or all. また、集積回路化の手法はLSIに限らず専用回路または汎用プロセッサで実現しても良い。 Further, the method of circuit integration may be realized by a dedicated circuit or a general-purpose processor is not limited to LSI. また、半導体技術の進歩によりLSIに代替する集積回路化の技術が実現した場合、該当技術による集積回路を用いることも可能である。 Further, if integrated circuit technology replacing LSI is realized by the advancement of semiconductor technology, it is also possible to use an integrated circuit according to the relevant technology.

1 … テレビ電話機、 1 ... TV phone,
1A … 発話者のテレビ電話機、 1A ... the speaker of the video phone,
1B … 受話者のテレビ電話機、 1B ... listener of the video phone,
2 … 電話網、 2 ... telephone network,
11 … カメラ、 11 ... camera,
12 … 送信部、 12 ... the transmission unit,
13 … マイク、 13 ... Mike,
21 … 受信部、 21 ... receiver,
22 … 表示部、 22 ... display unit,
23 … スピーカ、 23 ... speaker,
30 … ジェスチャ翻訳部、 30 ... gesture the translation unit,
31 … 辞書記憶部、 31 ... dictionary storage unit,
31A〜31D … ジェスチャ辞書、 31A~31D ... gesture dictionary,
32 … ジェスチャ辞書選択部、 32 ... gesture dictionary selection unit,
33 … ジェスチャ解析部、 33 ... gesture analysis unit,
34 … 翻訳結果合成部、 34 ... the translation result synthesis unit,
35 … 電話帳記憶部、 35 ... phone book storage unit,
36 … 判別用記憶部、 36 ... discrimination storage unit,
37 … 判別部、 37 ... discrimination unit,
40 … 音声翻訳部、 40 ... voice translation unit,
51 … 属性情報、 51 ... attribute information,
52 … 辞書情報、 52 ... dictionary information,
53 … 参照用特徴データ、 53 ... the reference characteristic data,
54 … 翻訳情報(文字列)、 54 ... translation information (string),
55 … 翻訳情報(画像ファイル) 55 ... translation information (image file)

Claims (5)

  1. ジェスチャの特徴を示す参照用特徴データとそのジェスチャの翻訳を示す翻訳情報とを対応付けるジェスチャ辞書と、 A gesture dictionary mapping the reference feature data indicating a feature of the gesture and translation information indicating the gesture translation,
    被写体の画像に基づいて前記被写体のジェスチャの特徴を示す撮影時特徴データを生成し、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するジェスチャ解析部と、 It generates shooting feature data indicating a feature of the gesture of the object based on the image of the subject, from among the translation information of the gesture dictionary, gesture analysis to select the translation information corresponding to the shooting characteristic data as a translation result and parts,
    前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成する翻訳結果合成部と、 A translation result combining unit for generating a translation result composite image by combining the translation result to the image of the subject,
    を具備することを特徴とするテレビ電話機。 Videophone, characterized in that it comprises a.
  2. 前記被写体の画像を受信する受信部と、 A receiver for receiving an image of the object,
    前記翻訳結果合成画像を表示する表示部と、 A display unit that displays the translation result composite image,
    を更に具備することを特徴とする請求項1に記載のテレビ電話機。 Furthermore videophone according to claim 1, characterized in that it comprises a.
  3. 前記翻訳結果合成画像を送信する送信部、 Transmitting unit that transmits the translation result composite image,
    を更に具備することを特徴とする請求項1に記載のテレビ電話機。 Furthermore videophone according to claim 1, characterized in that it comprises a.
  4. 複数のジェスチャ辞書が登録された辞書記憶部と、 A dictionary memory in which a plurality of gesture dictionary is registered,
    通話に用いられる識別子と使用言語に関連する属性情報とが対応付けられて登録された電話帳記憶部と、 A telephone directory storage unit and the attribute information are registered in association related to the identifier and language used in the call,
    選択すべきジェスチャ辞書を示す選択辞書情報が属性情報別に登録された判別用記憶部と、 A determination storage unit selected dictionary information indicating a gesture dictionary is registered for each attribute information to be selected,
    前記電話帳記憶部に登録された前記属性情報の中から、通話に用いられる識別子に対応する属性情報を選択属性情報として取得し、前記判別用記憶部に登録された前記辞書情報の中から、前記選択属性情報に対応する辞書情報を選択辞書情報として取得する判別部と、 From among the attribute information registered in the telephone directory storage unit, it acquires the attribute information corresponding to the identifier used in the call as a selection attribute information, from among the dictionary information registered in the determination storage unit, a determination unit that acquires dictionary information corresponding to the selected attribute information as the selected dictionary information,
    前記辞書記憶部に登録された前記複数のジェスチャ辞書の中から、前記選択辞書情報が示すジェスチャ辞書を前記ジェスチャ辞書として選択するジェスチャ辞書選択部と、 From among the plurality of gesture dictionary registered in the dictionary storage unit, a gesture dictionary selection unit for selecting a gesture dictionary indicating the selected dictionary information as the gesture dictionary,
    を更に具備することを特徴とする請求項1から3のいずれかに記載のテレビ電話機。 Furthermore videophone according to any one of claims 1 to 3, characterized by including the.
  5. 被写体の画像に基づいて前記被写体のジェスチャの特徴を示す撮影時特徴データを生成するステップと、 And generating a shooting feature data indicating a feature of the gesture of the object based on the image of the subject,
    ジェスチャの特徴を示す参照用特徴データとそのジェスチャの翻訳を示す翻訳情報とを対応付けるジェスチャ辞書を参照して、前記ジェスチャ辞書の翻訳情報の中から、前記撮影時特徴データに対応する翻訳情報を翻訳結果として選択するステップと、 Referring to the gesture dictionary mapping the reference feature data indicating a feature of the gesture and translation information indicating the gesture translation from a translation information of the gesture dictionary, translated translation information corresponding to the time characteristic data the photographing selecting as a result,
    前記被写体の画像に前記翻訳結果を合成して翻訳結果合成画像を生成するステップと、 Generating a translation result composite image by combining the translation result to the image of the subject,
    の各ステップをコンピュータに実行させるコンピュータプログラム。 Computer program for executing the steps of the computer.
JP2013141511A 2013-07-05 2013-07-05 Television telephone set and program Pending JP2015015623A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013141511A JP2015015623A (en) 2013-07-05 2013-07-05 Television telephone set and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013141511A JP2015015623A (en) 2013-07-05 2013-07-05 Television telephone set and program

Publications (1)

Publication Number Publication Date
JP2015015623A true JP2015015623A (en) 2015-01-22

Family

ID=52437057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013141511A Pending JP2015015623A (en) 2013-07-05 2013-07-05 Television telephone set and program

Country Status (1)

Country Link
JP (1) JP2015015623A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05260193A (en) * 1992-02-28 1993-10-08 Nec Corp Video telephone exchange system
JP2010246085A (en) * 2009-04-01 2010-10-28 Avaya Inc Interpretation of gestures to provide storage queues of visual information
JP2013089238A (en) * 2011-10-20 2013-05-13 Fuji Xerox Co Ltd Gesture processing program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05260193A (en) * 1992-02-28 1993-10-08 Nec Corp Video telephone exchange system
JP2010246085A (en) * 2009-04-01 2010-10-28 Avaya Inc Interpretation of gestures to provide storage queues of visual information
JP2013089238A (en) * 2011-10-20 2013-05-13 Fuji Xerox Co Ltd Gesture processing program

Similar Documents

Publication Publication Date Title
EP2030421B1 (en) Image based dialing
JP5020135B2 (en) The mobile terminal device and a computer program
JP2004228805A (en) Videophone function attached mobile phone terminal
JP2010219692A (en) Image capturing apparatus and camera
CN102027740A (en) Camera data management and user interface apparatuses, systems, and methods
US8594740B2 (en) Mobile communication terminal and data input method
KR101912602B1 (en) Mobile device, display apparatus and control method thereof
US20120135784A1 (en) Mobile terminal and method for providing augmented reality using an augmented reality database
US8249422B2 (en) Content usage system, content usage method, recording and playback device, content delivery method, and content delivery program
US9621848B2 (en) Transmission management apparatus
JP2005267146A (en) Method and device for creating email by means of image recognition function
CN101997969A (en) Picture voice note adding method and device and mobile terminal having device
CN103558916A (en) Man-machine interaction system, method and device
CN1638391A (en) Mobile information terminal device, information processing method, recording medium, and program
US20090305682A1 (en) System and method for webpage display in a portable electronic device
JP2001127847A (en) Telephone set and data transmission method therefor
CN1622612A (en) Bookmark service apparatus and method for moving picture content
KR20160056888A (en) Browsing videos by searching multiple user comments and overlaying those into the content
EP2156656B1 (en) Digital camera and method of storing image data with person related metadata
US9591256B2 (en) Methods and devices for video communication
US8606183B2 (en) Method and apparatus for remote controlling bluetooth device
EP1742179A1 (en) Method and apparatus for controlling image in wireless terminal
US20070135097A1 (en) Text and voice capable mobile communication device
CN1758672A (en) Mobile communication terminal with function for input memo according to picture and controlling method
US20070255571A1 (en) Method and device for displaying image in wireless terminal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170808