JP2014150442A - Telephone conversation system and telephone conversation relay method - Google Patents
Telephone conversation system and telephone conversation relay method Download PDFInfo
- Publication number
- JP2014150442A JP2014150442A JP2013018631A JP2013018631A JP2014150442A JP 2014150442 A JP2014150442 A JP 2014150442A JP 2013018631 A JP2013018631 A JP 2013018631A JP 2013018631 A JP2013018631 A JP 2013018631A JP 2014150442 A JP2014150442 A JP 2014150442A
- Authority
- JP
- Japan
- Prior art keywords
- call
- video
- unit
- text
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、通話を行うための通話装置の技術に関する。 The present invention relates to a technology of a call device for making a call.
近年、ICT(Information and Communication Technology)サービスが発達している。その具体例として、例えばユーザの感情や印象を相手に分かりやすく伝えることのできるテレビ電話端末が提案されている(特許文献1参照)。 In recent years, ICT (Information and Communication Technology) services have been developed. As a specific example, for example, a videophone terminal has been proposed that can convey a user's feelings and impressions to a partner in an easily understandable manner (see Patent Document 1).
しかしながら、ICTサービスの普及は一部に留まっている。例えば、高齢者にはICTサービスが十分に普及しているとは言い難い。
高齢者は、加齢により身体に様々なハンディキャップを抱えている。このことが原因となって、ICTサービスの利用が阻害されている。例えば、聴覚の衰えによって、通話相手の発話内容が聞き取りにくいという問題がある。
However, the spread of ICT services remains limited. For example, it is hard to say that ICT services are sufficiently popular among elderly people.
Elderly people have various handicap due to aging. This has hindered the use of the ICT service. For example, there is a problem that it is difficult to hear the content of the other party's utterance due to a decline in hearing.
上記事情に鑑み、本発明は、通話相手の発話内容をより容易に理解することを可能とする技術の提供を目的としている。 In view of the above circumstances, an object of the present invention is to provide a technique that makes it easier to understand the utterance content of a call partner.
本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話中継部と、前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、第二通話端末から送信された音声及び映像を受信する第二通話中継部と、前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像と、前記第二音声認識部によって生成されたテキスト映像と、を合成することによって合成映像を生成する合成部と、を備え、前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、前記第二通話中継部は、前記合成映像を前記第二通話端末に送信する、通話システムである。 One aspect of the present invention is a first call relay unit that receives voice and video transmitted from a first call terminal, converts voice received by the first call relay unit into text data, and converts the text data into A first voice recognition unit that generates a text image to represent, a second call relay unit that receives voice and video transmitted from the second call terminal, and a voice received by the second call relay unit is converted into text data A second voice recognition unit that generates a text video representing the text data, a video received by the first call relay unit, a video received by the second call relay unit, and the first voice recognition A synthesis unit that generates a synthesized video by synthesizing the text video generated by the unit and the text video generated by the second voice recognition unit, Call relay unit transmits the synthesized image to the first call terminal, the second call relay unit transmits the combined image to the second call terminal, a call system.
本発明の一態様は、上記の通話システムであって、前記第一音声認識部によって生成されたテキスト映像の入力を受け付ける第一入力部と、前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、をさらに備え、前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する。 One aspect of the present invention is the call system described above, wherein a first input unit that receives an input of a text image generated by the first voice recognition unit, and a voice and a video received by the first call relay unit A second input unit that accepts input, a third input unit that accepts input of voice and video received by the second call relay unit, and a second input unit that accepts input of text video generated by the second voice recognition unit A four-input unit, and the synthesizing unit generates the synthesized video by arranging each video input to the first to fourth input units in a predetermined screen area.
本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話受信ステップと、前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像と、を合成することによって合成映像を生成する合成ステップと、前記合成映像を前記第一通話端末に送信する第一送信ステップと、前記合成映像を前記第二通話端末に送信する第二送信ステップと、を有する通話中継方法である。 One aspect of the present invention is a first call receiving step for receiving audio and video transmitted from a first call terminal, and converting voice received by the first call receiving step into text data, A first voice recognition step for generating a text image to represent, a second call reception step for receiving voice and video transmitted from the second call terminal, and converting the voice received by the second call reception step into text data A second voice recognition unit that generates a text video representing the text data, a video received by the first call reception step, a video received by the second call reception step, and the first voice recognition The text image generated by the step is synthesized with the text image generated by the second speech recognition step. And a first transmission step for transmitting the synthesized video to the first call terminal, and a second transmission step for transmitting the synthesized video to the second call terminal. It is a relay method.
本発明により、通話相手の発話内容をより容易に理解することが可能となる。 According to the present invention, it is possible to more easily understand the utterance content of the other party.
以下、本発明の一実施形態である通話システムについて説明する。
図1は、通話システム100のシステム構成図である。通話システム100は、2台の通話端末10(10−1、10−2)、中継装置90を備える。通話端末10と中継装置90とはネットワーク11(11−1、11−2)を介して双方向通信可能に接続されている。
Hereinafter, a call system according to an embodiment of the present invention will be described.
FIG. 1 is a system configuration diagram of the
通話端末10は、通話を行うユーザによって操作される。通話端末10は、音声入力部、撮像部、音声出力部、表示部を備える。
音声入力部は、マイクや受話器等の音声入力装置であり、通話端末10のユーザ(話者)の発話音声を入力する。音声入力部は、音声入力装置を通話端末10に接続するためのインタフェースであっても良い。この場合、音声入力部は、音声入力装置によって生成された音声信号を通話端末10に入力する。
The call terminal 10 is operated by a user who makes a call. The call terminal 10 includes a voice input unit, an imaging unit, a voice output unit, and a display unit.
The voice input unit is a voice input device such as a microphone or a receiver, and inputs the voice of the user (speaker) of the call terminal 10. The voice input unit may be an interface for connecting the voice input device to the call terminal 10. In this case, the voice input unit inputs the voice signal generated by the voice input device to the call terminal 10.
撮像部は、カメラ等の撮像装置であり、通話端末10のユーザ(話者)の顔を撮影する。撮像部は、撮像装置を通話端末10に接続するためのインタフェースであっても良い。この場合、撮像部は、撮像装置によって生成された映像信号を通話端末10に入力する。 The imaging unit is an imaging device such as a camera, and images the face of the user (speaker) of the call terminal 10. The imaging unit may be an interface for connecting the imaging device to the call terminal 10. In this case, the imaging unit inputs the video signal generated by the imaging device to the call terminal 10.
音声出力部は、スピーカー等の音声出力装置であり、通話端末10のユーザの対話者の発話音声を出力する。音声出力部は、音声出力装置を通話端末10に接続するためのインタフェースであっても良い。この場合、音声出力部は、発話音声を表す電気信号を生成し、音声出力装置に対して出力する。 The audio output unit is an audio output device such as a speaker, and outputs the uttered voice of the user who interacts with the call terminal 10. The audio output unit may be an interface for connecting the audio output device to the call terminal 10. In this case, the voice output unit generates an electrical signal representing the speech voice and outputs it to the voice output device.
表示部は、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部は、中継装置90によって生成された映像データを表示する。表示部は、画像表示装置を通話端末10に接続するためのインタフェースであっても良い。この場合、表示部は、中継装置90によって生成された映像データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。
The display unit is an image display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display, or an organic EL (Electro Luminescence) display. The display unit displays the video data generated by the
通話端末10は、ネットワーク11を介して所定のプロトコルで通信を行う事によって、中継装置90との間で通話を可能にする。例えば、通話端末10は、SIP(Session Initiation Protocol)に基づいて動作することによって、中継装置90との間で通話セッションを確立する。通話端末10−1及び通話端末10−2は、それぞれが中継装置90との間で通話セッションを確立することによって、互いに通話が可能になる。すなわち、通話端末10−1及び通話端末10−2がそれぞれ中継装置90と通話セッションを確立している場合、通話端末10−1の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末10−2において出力される。同様に、通話端末10−2の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末10−1において出力される。そのため、通話端末10−1のユーザと通話端末10−2のユーザとは、それぞれ映像を見ながら通話を行う事が可能である。
The call terminal 10 enables communication with the
中継装置90は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、中継プログラムを実行する。中継装置90は、中継プログラムを実行することによって、複数の通話中継部20(20−1、20−2)、複数のスプリッタ30(30−1、30−2)、複数の音声認識部40(40−1、40−2)、合成装置70を備える装置として機能する。なお、中継装置90の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。中継プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
The
通話中継部20(20−1、20−2)は、ネットワーク11を介して所定のプロトコルで通信を行う事によって、通話端末10との間で通話を可能にする。例えば、通話中継部20は、SIPに基づいて動作することによって、通話端末10との間で通話セッションを確立する。 The call relay unit 20 (20-1, 20-2) enables communication with the call terminal 10 by performing communication with the predetermined protocol via the network 11. For example, the call relay unit 20 establishes a call session with the call terminal 10 by operating based on SIP.
通話中継部20−1は、ネットワーク11−1を介して通話端末10−1との間で通話セッションを確立する。通話中継部20−1は、通話端末10−1から受信した音声をスプリッタ30−1に出力する。通話中継部20−1は、通話端末10−1から受信した映像を第二入力部52に出力する。通話中継部20−2は、ネットワーク11−2を介して通話端末10−2との間で通話セッションを確立する。通話中継部20−2は、通話端末10−2から受信した音声をスプリッタ30−2に出力する。通話中継部20−2は、通話端末10−2から受信した映像を第三入力部53に出力する。また、通話中継部20−1は、合成部60によって出力された合成映像及び音声を、ネットワーク11−1を介して通話端末10−1へ送信する。通話中継部20−2は、合成部60によって出力された合成映像及び音声を、ネットワーク11−2を介して通話端末10−2へ送信する。
The call relay unit 20-1 establishes a call session with the call terminal 10-1 via the network 11-1. The call relay unit 20-1 outputs the voice received from the call terminal 10-1 to the splitter 30-1. The call relay unit 20-1 outputs the video received from the call terminal 10-1 to the
スプリッタ30(30−1、30−2)は、通話中継部20によって出力された音声を複数の出力先に分配する。スプリッタ30−1は、通話中継部20−1によって出力された音声を、音声認識部40−1及び第二入力部52に分配する。スプリッタ30−2は、通話中継部20−2によって出力された音声を、音声認識部40−2及び第三入力部53に分配する。
The splitter 30 (30-1, 30-2) distributes the sound output by the call relay unit 20 to a plurality of output destinations. The splitter 30-1 distributes the voice output by the call relay unit 20-1 to the voice recognition unit 40-1 and the
音声認識部40(40−1、40−2)は、入力された音声の内容をテキストデータに変換する。そして、音声認識部40は、テキストデータを表す文字を表示した映像(テキスト映像)を生成する。音声認識部40−1は、スプリッタ30−1から分配された音声に基づいてテキスト映像を生成し、第一入力部51に出力する。音声認識部40−2は、スプリッタ30−2から分配された音声に基づいてテキスト映像を生成し、第四入力部54に出力する。
The voice recognition unit 40 (40-1, 40-2) converts the content of the input voice into text data. Then, the voice recognition unit 40 generates a video (text video) displaying characters representing text data. The voice recognition unit 40-1 generates a text video based on the voice distributed from the splitter 30-1 and outputs it to the
合成装置70は、第一入力部51、第二入力部52、第三入力部53、第四入力部54及び合成部60を備える。第一入力部51は、音声認識部40−1から出力されたテキスト映像を合成部60に入力する。第二入力部52は、スプリッタ30−1から分配された音声と、通話中継部20−1から出力された映像とを合成部60に入力する。第三入力部53は、スプリッタ30−2から分配された音声と、通話中継部20−2から出力された映像とを合成部60に入力する。第四入力部54は、音声認識部40−2から出力されたテキスト映像を合成部60に入力する。
The combining
合成部60は、第一入力部51乃至第四入力部54によって入力された各映像を合成することによって、合成映像を生成する。合成部60は、合成映像を通話中継部20−1及び通話中継部20−2の双方に出力する。また、合成部60は、第二入力部52によって入力された音声を通話中継部20−2に出力し、第三入力部53によって入力された音声を通話中継部20−1に出力する。
The synthesizing
図2は、合成部60の処理の概略を示す概略図である。合成部60は、一つの映像面を複数の領域に分割し、各領域に映像やテキスト映像を配置することによって合成映像を生成する。図2に示される具体例では、一つの映像面が四つの領域に分割されている。
FIG. 2 is a schematic diagram showing an outline of processing of the
合成部60は、左下に位置する第一領域81には、一方の通話端末10(例えば通話端末10−1)側の音声に関するテキスト映像を配置する。すなわち、合成部60は、第一入力部51によって入力されたテキスト映像を第一領域81に配置する。合成部60は、左上に位置する第二領域82には、一方の通話端末10(例えば通話端末10−1)側の映像を配置する。すなわち、合成部60は、第二入力部52によって入力された映像を第二領域82に配置する。
The synthesizing
合成部60は、右上に位置する第三領域83には、他方の通話端末10(例えば通話端末10−2)側の映像を配置する。すなわち、合成部60は、第三入力部53によって入力された映像を第三領域83に配置する。合成部60は、右下に位置する第四領域84には、他方の通話端末10(例えば通話端末10−2)側の音声に関するテキスト映像を配置する。すなわち、合成部60は、第四入力部54によって入力されたテキスト映像を第四領域84に配置する。
The synthesizing
図3は、合成映像の具体例を示す概略図である。第一領域81乃至第四領域84の各領域にそれぞれ映像が配置されることによって、図3に示されるような合成映像が生成される。図3に示されるように、第二領域82に通話端末10−1のユーザの顔が表示され、第一領域81に通話端末10−1のユーザの発話内容がテキストとして表示される。また、第三領域83に通話端末10−2のユーザの顔が表示され、第四領域84に通話端末10−2のユーザの発話内容がテキストとして表示される。
FIG. 3 is a schematic diagram illustrating a specific example of a composite video. A video is arranged in each of the
図4は、通話システム100における通話セッション確立時の処理の流れの具体例を示すシーケンス図である。図4は、A氏が操作する通話端末10と、B氏が操作する通話端末10との間で通話セッションが確立するまでの処理の流れを示す。
FIG. 4 is a sequence diagram showing a specific example of the flow of processing when a call session is established in the
まず、A氏が通話端末10を操作してB氏への発呼の指示を入力する(ステップS101)。B氏への発呼の指示を受けた通話端末10は、呼接続装置に対して発呼要求を送信する(ステップS102)。発呼要求には、通話セッションを確立する複数の通話端末10を示す識別情報が含まれる。ステップS102で送信される発呼要求には、A氏の通話端末10の識別情報と、B氏の通話端末10の識別情報と、が含まれる。 First, Mr. A operates the call terminal 10 to input a call instruction to Mr. B (step S101). The call terminal 10 that has received the call instruction to Mr. B transmits a call request to the call connection device (step S102). The call request includes identification information indicating a plurality of call terminals 10 that establish a call session. The call request transmitted in step S102 includes the identification information of Mr. A's call terminal 10 and the identification information of Mr. B's call terminal 10.
呼接続装置は、発呼要求を受信すると、発呼要求に含まれる識別情報が表す各通話端末10に対して発呼する(ステップS103、S104)。さらに、呼接続装置は、発呼先となった各通話端末10に対応付けられている通話中継部20にも発呼する。すなわち、呼接続装置は、A氏側の通話中継部20と、B氏側の通話中継部20とに発呼する(ステップS105、S106)。 When the call connection device receives the call request, the call connection device makes a call to each call terminal 10 indicated by the identification information included in the call request (steps S103 and S104). Furthermore, the call connection device also makes a call to the call relay unit 20 associated with each call terminal 10 that is the call destination. That is, the call connection device places a call to the Mr. A side call relay unit 20 and the Mr. B side call relay unit 20 (steps S105 and S106).
呼接続装置から発呼を受けたA氏通話端末及びB氏通話端末は、着信音を出力し、ユーザに対して着呼していることを報知する。ユーザが通話端末10を操作することによってオフフックになると、通話端末10は呼接続装置に対して応答する(ステップS107、S108)。 The Mr. A call terminal and the Mr. B call terminal that have received a call from the call connection device output a ring tone to notify the user that the call is being received. When the user goes off-hook by operating the call terminal 10, the call terminal 10 responds to the call connection device (steps S107 and S108).
呼接続装置から発呼を受けたA氏側通話中継部20及びB氏側通話中継部20は、着信に応じて自動的にオフフック状態に遷移し、呼接続装置に対して応答する(ステップS109、S110)。 The Mr. A side call relay unit 20 and the Mr. B side call relay unit 20 that have received a call from the call connection device automatically transition to the off-hook state in response to the incoming call, and respond to the call connection device (step S109). , S110).
A氏の通話端末10とA氏側の通話中継部20との間で、上記のようなV字発信処理が行われることによって、通話セッションが確立される(ステップS111)。また、B氏の通話端末10とB氏側の通話中継部20との間で、上記のようなV字発信処理が行われることによって、通話セッションが確立される(ステップS112)。A氏側通話中継部20とB氏側通話中継部20とは、合成部60を介して接続されている。そのため、A氏通話端末10とB氏通話端末10とは、通話が可能な状態となる。
A call session is established by performing the above V-shaped call processing between Mr. A's call terminal 10 and Mr. A's call relay unit 20 (step S111). In addition, a call session is established by performing the above V-shaped call processing between Mr. B's call terminal 10 and Mr. B's call relay unit 20 (step S112). The Mr. A-side call relay unit 20 and the Mr. B-side call relay unit 20 are connected via the combining
図5は、通話システム100における通話の処理の流れの具体例を示すシーケンス図である。図5は、A氏が操作する通話端末10と、B氏が操作する通話端末10との間で行われる通話の処理の流れを示す。
FIG. 5 is a sequence diagram showing a specific example of a call processing flow in the
A氏通話端末10は、入力されたA氏の音声及び映像をA氏側通話中継部20に送信する(ステップS201)。A氏側通話中継部20は、受信した音声を、スプリッタ30を介してA氏側音声認識部40に出力する(ステップS202)。また、A氏側通話中継部20は、受信した音声及び映像を、合成装置70に出力する(ステップS203)。A氏側音声認識部40は、A氏側通話中継部20から出力された音声について音声認識処理を実行し、テキスト映像を生成する(ステップS204)。A氏側音声認識部40は、生成したテキスト映像を合成装置70に出力する(ステップS205)。 The Mr. A call terminal 10 transmits the input Mr. A's voice and video to the Mr. A side call relay unit 20 (step S201). The Mr. A side call relay unit 20 outputs the received voice to the Mr. A side voice recognition unit 40 via the splitter 30 (step S202). In addition, the Mr. A side call relay unit 20 outputs the received voice and video to the synthesizing device 70 (step S203). The Mr. A side voice recognition unit 40 performs a voice recognition process on the voice output from the Mr. A side call relay unit 20 to generate a text image (step S204). The Mr. A side voice recognition unit 40 outputs the generated text image to the synthesizing device 70 (step S205).
B氏通話端末10は、入力されたB氏の音声及び映像をB氏側通話中継部20に送信する(ステップS206)。B氏側通話中継部20は、受信した音声を、スプリッタ30を介してB氏側音声認識部40に出力する(ステップS207)。また、B氏側通話中継部20は、受信した音声及び映像を、合成装置70に出力する(ステップS208)。B氏側音声認識部40は、B氏側通話中継部20から出力された音声について音声認識処理を実行し、テキスト映像を生成する(ステップS209)。B氏側音声認識部40は、生成したテキスト映像を合成装置70に出力する(ステップS210)。 The Mr. B call terminal 10 transmits the input Mr. B's voice and video to the Mr. B side call relay unit 20 (step S206). The Mr. B side call relay unit 20 outputs the received voice to the Mr. B side voice recognition unit 40 via the splitter 30 (step S207). In addition, the Mr. B side call relay unit 20 outputs the received voice and video to the synthesizing device 70 (step S208). The B-side voice recognition unit 40 performs a voice recognition process on the voice output from the B-side call relay unit 20 to generate a text image (step S209). The Mr. B side voice recognition unit 40 outputs the generated text image to the synthesis device 70 (step S210).
合成装置70は、A氏側通話中継部20から出力された音声及び映像と、B氏側通話中継部20から出力された音声及び映像と、A氏側音声認識部40から出力されたテキスト映像と、B氏側音声認識部40から出力されたテキスト映像と、を合成することによって合成映像を生成する(ステップS211)。
The synthesizing
合成装置70は、合成映像と、B氏側通話中継部20から出力された音声と、をA氏側通話中継部20に出力する(ステップS212)。A氏側通話中継部20は、合成装置70によって出力された合成映像及び音声を、A氏通話端末10へ送信する(ステップS213)。A氏通話端末10は、受信した合成映像を表示し、音声を出力する(ステップS214)。
The synthesizing
合成装置70は、合成映像と、A氏側通話中継部20から出力された音声と、をB氏側通話中継部20に出力する(ステップS215)。B氏側通話中継部20は、合成装置70によって出力された合成映像及び音声を、B氏通話端末10へ送信する(ステップS216)。B氏通話端末10は、受信した合成映像を表示し、音声を出力する(ステップS217)。
The synthesizing
このように構成された通話システム100では、通話端末10を用いて通話を行う際に、相手の発話内容がテキストの映像として通話端末10の画面に表示される。そのため、たとえ聴覚が衰えているユーザであっても、通話相手の発話内容をより容易に理解することが可能となる。
In the
また、高齢者は、口腔部や喉の衰えによって発話を思うようにできないという問題もある。このような問題に対し、上述した通話システム100では、自身の発話内容が通話相手にテキストの映像として表示される。そのため、たとえ発話を思うようにはっきりとできないユーザであっても、音声認識部40の性能に応じて、通話相手に発話内容をより正確に伝えることが可能となる。
In addition, there is a problem that the elderly can not think of speech due to the deterioration of the oral cavity and throat. For such a problem, in the above-described
<変形例>
図6は、通話システム100の第一の変形例(通話システム100a)のシステム構成図である。通話システム100aは、変換部41(41−1、41−2)を備える点で、通話システム100と異なる。
<Modification>
FIG. 6 is a system configuration diagram of a first modification (
通話システム100aにおける音声認識部40は、テキスト映像を生成せず、音声認識の結果であるテキストデータを変換部41に出力する。変換部41は、音声認識部40によって出力されたテキストデータの文章を、通話端末10のユーザによって指定された他の言語の文章に変換(翻訳)する。変換部41は、変換後のテキストデータを表す文字を表示した映像(テキスト映像)を生成する。そして、変換部41は、生成したテキスト映像を合成装置70に出力する。例えば、変換部41−1はX言語をY言語に変換し、変換部41−2はY言語をX言語に変換する。
このように構成されることによって、他言語のユーザと会話をスムーズに行う事が可能となる。
The voice recognition unit 40 in the
With this configuration, it is possible to smoothly perform conversations with users in other languages.
図7は、通話システム100の第二の変形例(通話システム100b)のシステム構成図である。通話システム100bは、音声認識部40が生成するテキスト映像の表示態様が、通話システム100におけるテキスト映像の表示態様と異なる。
FIG. 7 is a system configuration diagram of a second modification of the call system 100 (
図8は、通話システム100bにおいて生成される合成映像の具体例を示す概略図である。図8に示されるように、第一領域81に表示されるテキスト映像と、第四領域84に表示されるテキスト映像とでは、文字の高さ方向の位置が異なる。時間軸において先に発話された内容を表すテキスト映像では、より高い位置に文字が配置され、時間軸において後に発話された内容を表すテキスト映像では、より低い位置に文字が配置される。
FIG. 8 is a schematic diagram illustrating a specific example of a composite video generated in the
通話端末10−1と通話端末10−2とで、どちらが先に発話されたかという判定は、音声認識部40−1及び音声認識部40−2によって行われても良い。すなわち、音声認識部40(40−1及び40−2)は、音声認識を行う度に、他の音声認識部40に対して音声認識を行ったことを表す信号(フラグ信号)を送信する。音声認識部40は、フラグ信号を受信した後、フラグ信号を送信するまでの間、予め定められた高い位置の領域にテキストを配置したテキスト映像を生成する。一方、音声認識部40は、フラグ信号を送信した後、フラグ信号を受信するまでの間、予め定められた低い位置の領域にテキストを配置したテキスト映像を生成する。
このように構成されることによって、通話を行っている各ユーザは、表示されている発話内容についてどちらが直近で話しかけたのかを容易に判断することが可能となる。
It may be determined by the voice recognition unit 40-1 and the voice recognition unit 40-2 which of the call terminal 10-1 and the call terminal 10-2 is uttered first. That is, the speech recognition unit 40 (40-1 and 40-2) transmits a signal (flag signal) indicating that speech recognition has been performed to another speech recognition unit 40 every time speech recognition is performed. After receiving the flag signal, the voice recognition unit 40 generates a text image in which text is arranged in a predetermined high region until the flag signal is transmitted. On the other hand, after transmitting the flag signal, the voice recognition unit 40 generates a text image in which text is arranged in a predetermined low position area until the flag signal is received.
By being configured in this way, each user who is making a call can easily determine which of the displayed utterance contents has most recently spoken.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
100…通話システム, 10…通話端末, 11…ネットワーク, 20…通話中継部, 30…スプリッタ, 40…音声認識部, 51…第一入力部, 52…第二入力部, 53…第三入力部, 54…第四入力部, 60…合成部, 70…合成装置
DESCRIPTION OF
Claims (3)
前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、
第二通話端末から送信された音声及び映像を受信する第二通話中継部と、
前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、
前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像と、前記第二音声認識部によって生成されたテキスト映像と、を合成することによって合成映像を生成する合成部と、
を備え、
前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、
前記第二通話中継部は、前記合成映像を前記第二通話端末に送信する、通話システム。 A first call relay unit that receives audio and video transmitted from the first call terminal;
A first voice recognition unit that converts voice received by the first call relay unit into text data and generates a text image representing the text data;
A second call relay unit for receiving audio and video transmitted from the second call terminal;
A second voice recognition unit that converts the voice received by the second call relay unit into text data and generates a text image representing the text data;
Video received by the first call relay unit, video received by the second call relay unit, text video generated by the first voice recognition unit, and generated by the second voice recognition unit A synthesizing unit that generates a synthesized video by synthesizing the text video,
With
The first call relay unit transmits the composite video to the first call terminal;
The second call relay unit transmits the composite video to the second call terminal.
前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、
前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、
前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、
をさらに備え、
前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する、請求項1に記載の通話システム。 A first input unit that receives input of a text image generated by the first voice recognition unit;
A second input unit for receiving input of audio and video received by the first call relay unit;
A third input unit that receives input of audio and video received by the second call relay unit;
A fourth input unit for receiving an input of a text image generated by the second voice recognition unit;
Further comprising
The call system according to claim 1, wherein the synthesis unit generates the synthesized video by arranging each video input to the first to fourth input units in a predetermined screen area.
前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、
第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、
前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識ステップと、
前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像と、を合成することによって合成映像を生成する合成ステップと、
前記合成映像を前記第一通話端末に送信する第一送信ステップと、
前記合成映像を前記第二通話端末に送信する第二送信ステップと、
を有する通話中継方法。 A first call reception step for receiving audio and video transmitted from the first call terminal;
A first voice recognition step of converting the voice received by the first call receiving step into text data and generating a text image representing the text data;
A second call receiving step for receiving audio and video transmitted from the second call terminal;
A second voice recognition step of converting the voice received by the second call receiving step into text data and generating a text image representing the text data;
The video received by the first call receiving step, the video received by the second call receiving step, the text video generated by the first voice recognition step, and the second voice recognition step A synthesis step of generating a synthesized video by synthesizing the text video;
A first transmission step of transmitting the composite video to the first call terminal;
A second transmission step of transmitting the composite video to the second call terminal;
A call relay method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018631A JP6064209B2 (en) | 2013-02-01 | 2013-02-01 | Call system and call relay method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018631A JP6064209B2 (en) | 2013-02-01 | 2013-02-01 | Call system and call relay method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014150442A true JP2014150442A (en) | 2014-08-21 |
JP6064209B2 JP6064209B2 (en) | 2017-01-25 |
Family
ID=51573090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013018631A Active JP6064209B2 (en) | 2013-02-01 | 2013-02-01 | Call system and call relay method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6064209B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101917648B1 (en) * | 2016-09-08 | 2018-11-13 | 주식회사 하이퍼커넥트 | Terminal and method of controlling the same |
JP2020088818A (en) * | 2018-11-30 | 2020-06-04 | 株式会社Nttドコモ | Call control system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002074041A (en) * | 2000-08-28 | 2002-03-12 | Soki:Kk | Internet face to face trade system |
JP2006135456A (en) * | 2004-11-04 | 2006-05-25 | Mitsubishi Electric Corp | Arbitrary participation relaying apparatus, arbitrary participation video conference system, and arbitrary participation relaying method |
US20100039498A1 (en) * | 2007-05-17 | 2010-02-18 | Huawei Technologies Co., Ltd. | Caption display method, video communication system and device |
-
2013
- 2013-02-01 JP JP2013018631A patent/JP6064209B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002074041A (en) * | 2000-08-28 | 2002-03-12 | Soki:Kk | Internet face to face trade system |
JP2006135456A (en) * | 2004-11-04 | 2006-05-25 | Mitsubishi Electric Corp | Arbitrary participation relaying apparatus, arbitrary participation video conference system, and arbitrary participation relaying method |
US20100039498A1 (en) * | 2007-05-17 | 2010-02-18 | Huawei Technologies Co., Ltd. | Caption display method, video communication system and device |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101917648B1 (en) * | 2016-09-08 | 2018-11-13 | 주식회사 하이퍼커넥트 | Terminal and method of controlling the same |
US10430523B2 (en) | 2016-09-08 | 2019-10-01 | Hyperconnect, Inc. | Terminal and method of controlling the same |
US11379672B2 (en) | 2016-09-08 | 2022-07-05 | Hyperconnect Inc. | Method of video call |
JP2020088818A (en) * | 2018-11-30 | 2020-06-04 | 株式会社Nttドコモ | Call control system |
JP7112949B2 (en) | 2018-11-30 | 2022-08-04 | 株式会社Nttドコモ | Call control system |
Also Published As
Publication number | Publication date |
---|---|
JP6064209B2 (en) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US9191789B2 (en) | Systems and methods for using a caption device with a mobile device | |
KR100695926B1 (en) | Video Telephone Interpretation System And Video Telephone Interpretation | |
US7225224B2 (en) | Teleconferencing server and teleconferencing system | |
US8610755B2 (en) | Methods and apparatuses for multi-lingual support for hearing impaired communication | |
KR100698942B1 (en) | The Sign Language Interpretation System By Using The Sign Language Conversation Video Telephone And Its Supplementary Device | |
CA2499097A1 (en) | Sign language interpretation system and sign language interpretation method | |
US20060074624A1 (en) | Sign language video presentation device , sign language video i/o device , and sign language interpretation system | |
JP2004304601A (en) | Tv phone and its data transmitting/receiving method | |
CN113194203A (en) | Communication system, answering and dialing method and communication system for hearing-impaired people | |
JP6064209B2 (en) | Call system and call relay method | |
US9502037B2 (en) | Wireless caption communication service system | |
KR101400754B1 (en) | System for providing wireless captioned conversation service | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
JP2008067078A (en) | Portable terminal apparatus | |
JP6028289B2 (en) | Relay system, relay method and program | |
KR102170902B1 (en) | Real-time multi-language interpretation wireless transceiver and method | |
JP2002027039A (en) | Communication interpretation system | |
KR100945162B1 (en) | System and method for providing ringback tone | |
JP5136823B2 (en) | PoC system with fixed message function, communication method, communication program, terminal, PoC server | |
CN115066907A (en) | User terminal, broadcasting apparatus, broadcasting system including the same, and control method thereof | |
JP2003339034A (en) | Network conference system, network conference method, and network conference program | |
JP7233901B2 (en) | Information presentation system, information presentation device, information presentation method, and computer program | |
KR101105682B1 (en) | Telephone providing caption for a hearing-impaired person | |
JP2004007482A (en) | Telephone conference server and system therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6064209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |