JP2015231083A - Voice synthesis call system, communication terminal, and voice synthesis call method - Google Patents
Voice synthesis call system, communication terminal, and voice synthesis call method Download PDFInfo
- Publication number
- JP2015231083A JP2015231083A JP2014115527A JP2014115527A JP2015231083A JP 2015231083 A JP2015231083 A JP 2015231083A JP 2014115527 A JP2014115527 A JP 2014115527A JP 2014115527 A JP2014115527 A JP 2014115527A JP 2015231083 A JP2015231083 A JP 2015231083A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- communication terminal
- text
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、音声合成通話システム、通信端末および音声合成通話方法に関する。 The present invention relates to a voice synthesis call system, a communication terminal, and a voice synthesis call method.
特許文献1には、携帯機器各々に音声合成手段を搭載せずに、また、回線を占有することなく、携帯機器でメールの内容を自動的に読み上げる電子メール読み上げシステムが記載されている。特許文献1に記載の電子メール読み上げシステムは、音声合成エンジンが、メールサーバに着信したメールのコピーを音声ファイルに変換し、蓄積サーバに格納する。携帯機器は、メール着信通知を受けると音声ファイル要求をサーバシステムに送出して未ダウンロードの音声ファイルが蓄積サーバに存在することを確認し、ダウンロードする。 Patent Document 1 describes an e-mail reading system that automatically reads the contents of an e-mail on a portable device without installing a voice synthesizer in each portable device and without occupying a line. In the electronic mail reading system described in Patent Document 1, a voice synthesis engine converts a copy of mail received at a mail server into a voice file and stores it in a storage server. When the mobile device receives the incoming mail notification, the mobile device sends an audio file request to the server system, confirms that an undownloaded audio file exists in the storage server, and downloads it.
特許文献1に記載の技術では、あらかじめテキスト編集ソフト等により入力された文章を着信側の携帯機器に送信し、音声合成により再生することができる。しかしながら、もともと音声通話をしていた場合には、その通話を一度切断して、メールやテキスト編集ソフトに切り替えてテキスト文章を送る処理を行わなければならない。例えば、直前まで相手と電話で通話していたが、一方の人物が電車に乗る等して、音声では話せなくなるが、相手とのやりとりは継続したい時がある。
そこで、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けられる方法が必要である。
With the technique described in Patent Document 1, a sentence input in advance by text editing software or the like can be transmitted to a mobile device on the incoming side and reproduced by speech synthesis. However, if a voice call was originally made, the call must be disconnected once and switched to mail or text editing software to send a text sentence. For example, there is a case where a person talks on the telephone until just before, but one person gets on the train and cannot speak by voice, but wants to continue the communication with the other party.
Therefore, there is a need for a method capable of continuing a real-time exchange even if one or both of them does not speak while maintaining a call state with the other party who has been making a voice call.
このような背景を鑑みて本発明がなされたのであり、本発明は、音声通話をしていた端末と通話状態を維持しながら、一方が声を出さなくてもリアルタイムで音声によるやりとりを続けることができる、音声合成通話システム、通信端末および音声合成通話方法を提供することを課題とする。 The present invention has been made in view of such a background, and the present invention maintains a call state with a terminal that has been carrying out a voice call, and continues voice communication in real time even if one does not speak. It is an object of the present invention to provide a speech synthesis call system, a communication terminal, and a speech synthesis call method.
前記した課題を解決するため、請求項1に記載の発明は、ネットワークに接続可能な第1および第2の通信端末を有し、前記第1および第2の通信端末は、音声配信サーバを介して音声通話を行う音声通話部を備える音声合成通話システムであって、発信側の通信端末である前記第1の通信端末は、テキストの入力を受け付けるテキスト入力部と、音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、を備え、前記第1の通信端末または前記音声配信サーバは、前記テキストを音声データに変換する音声合成部と、前記変換した音声データを、受信側の通信端末である前記第2の通信端末に送信する音声送信部と、を備え、前記第2の通信端末の前記音声通話部は、前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力することを特徴とする音声合成通話システムとした。 In order to solve the above-described problem, the invention according to claim 1 includes first and second communication terminals connectable to a network, and the first and second communication terminals are connected via an audio distribution server. A voice synthesis call system including a voice call unit for making a voice call, wherein the first communication terminal, which is a communication terminal on the calling side, maintains a voice call state with a text input unit that accepts text input A voice text switching unit that switches to text input by the text input unit, wherein the first communication terminal or the voice distribution server includes a voice synthesis unit that converts the text into voice data, and the converted voice data. Is transmitted to the second communication terminal which is a communication terminal on the receiving side, and the voice call unit of the second communication terminal receives the voice data. When was the speech synthesis call system and outputs the combined voice communication by voice and the voice data of the voice communication state.
また、請求項3に記載の発明は、ネットワークに接続可能な第1および第2の通信端末を有し、前記第1および第2の通信端末は、音声配信サーバを介して音声通話を行う音声合成通話システムの音声合成通話方法であって、発信側の通信端末である前記第1の通信端末は、前記音声配信サーバを介して音声通話を行うステップと、音声通話状態を維持しつつ、テキスト入力に切り替えるステップと、テキストの入力を受け付けるステップと、を実行し、前記第1の通信端末または前記音声配信サーバは、前記テキストを音声データに変換するステップと、前記変換した音声データを、受信側の通信端末である第2の通信端末に送信するステップと、を実行し、前記第2の通信端末は、前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力するステップを実行することを特徴とする音声合成通話方法とした。 According to a third aspect of the present invention, there are provided first and second communication terminals connectable to a network, and the first and second communication terminals perform voice calls via a voice distribution server. A voice synthesis call method for a synthetic call system, wherein the first communication terminal, which is a communication terminal on a caller side, performs a voice call via the voice distribution server, and maintains a voice call state while text A step of switching to input and a step of accepting input of text, wherein the first communication terminal or the voice distribution server receives the step of converting the text into voice data and the converted voice data Transmitting to a second communication terminal, which is a communication terminal on the side, when the second communication terminal receives the voice data, the sound in the voice call state And a voice synthesizing call method characterized by performing the step of outputting the combined and voice call by call and the audio data.
このようにすることで、本発明の音声合成通話システムによれば、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。 In this way, according to the speech synthesis call system of the present invention, the conversation state is maintained with the other party that has been carrying out the voice call so far, and one or both of them can communicate in real time without speaking. You can continue.
また、請求項2に記載の発明は、音声配信サーバを介して音声通話を行う音声通話部と、テキストの入力を受け付けるテキスト入力部と、音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、前記テキストを音声データに変換する音声合成部と、前記変換した音声データを前記音声配信サーバに送信する音声送信部と、を備えることを特徴とする通信端末とした。 According to a second aspect of the present invention, there is provided a voice call unit that performs a voice call via a voice distribution server, a text input unit that accepts text input, and a text that is generated by the text input unit while maintaining a voice call state. A communication terminal comprising: a voice text switching unit that switches to input; a voice synthesis unit that converts the text into voice data; and a voice transmission unit that transmits the converted voice data to the voice distribution server; did.
このようにすることで、本発明の通信端末によれば、それまでに音声通話をしていた相手と通話状態を維持しながら、一方が声を出さなくてもリアルタイムでやりとりを続けることができる。 By doing so, according to the communication terminal of the present invention, it is possible to continue a real-time exchange even if one of them does not speak while maintaining a call state with the other party who has been carrying out the voice call so far. .
本発明によれば、音声通話をしていた相手と通話状態を維持しながら、一方が声を出さなくてもリアルタイムでやりとりを続けることができる、音声合成通話システム、通信端末および音声合成通話方法を提供することができる。 According to the present invention, a voice synthesis call system, a communication terminal, and a voice synthesis call method capable of continuing a real-time exchange even if one side does not speak while maintaining a call state with a partner who has been carrying out a voice call Can be provided.
次に、本発明を実施するための形態(以下、「本実施形態」という。)における音声合成通話システム1000等について説明する。 Next, a speech synthesis call system 1000 and the like in a mode for carrying out the present invention (hereinafter referred to as “the present embodiment”) will be described.
<システム構成と処理概要>
図1は、本発明の概要を示す図である。
本実施形態に係る音声合成通話システム1000では、音声で通話していた発信者が備える端末と着信者が備える端末とが、その通話を切断せずに、一方の端末にテキスト文を入力すると、他方の端末にそのテキスト文が音声合成された音声データがリアルタイムで配信される。
ここで、本発明の音声合成手段3(後記する図2等のテキスト受信部210、音声合成部220および音声送信部230)を双方の端末側が備えることで、双方が声を出さなくてもリアルタイムでやりとりを続けることができる。なお、以下で、本発明の音声合成手段3を一方の端末が備える例について説明する。
<System configuration and processing overview>
FIG. 1 is a diagram showing an outline of the present invention.
In the speech synthesis call system 1000 according to the present embodiment, when a terminal provided by a caller who is talking by voice and a terminal provided by a callee input a text sentence to one terminal without disconnecting the call, Voice data in which the text is synthesized by voice is delivered to the other terminal in real time.
Here, since both terminal sides are provided with the speech synthesizing means 3 (
図1に示すように、ユーザAは、音声通話/テキスト入力可能な携帯電話やスマートフォン等の通信端末1を持ち、ユーザBは、音声通話可能な携帯電話やスマートフォン等の通信端末2を持ち、音声通話を行っている。
通信端末1または通信ネットワーク(NW)2上には、音声通話の途中で通話状態を維持しながら、テキスト文を音声データに音声合成する音声合成手段3を備える。音声合成手段3は、通信端末1に内蔵した音声合成装置を利用する方法と、通信ネットワーク(NW)2上に設置された音声合成サーバを使用する方法とがある。
通信端末1(ユーザA)が、電車内等の声を出せない環境に移行しても、元々通話していた通信端末2(ユーザB)と通話状態を保持しながら、音声対音声の通話ではなくテキスト対音声の通話に切り替え、そのテキストを音声として合成し、音声によるやりとりが継続できる。
As shown in FIG. 1, a user A has a communication terminal 1 such as a mobile phone or a smartphone capable of voice call / text input, and a user B has a
The communication terminal 1 or the communication network (NW) 2 includes speech synthesis means 3 that synthesizes a text sentence into speech data while maintaining a call state during a voice call. The
Even if the communication terminal 1 (user A) shifts to an environment where the voice cannot be made, such as in a train, the communication state with the communication terminal 2 (user B) that originally made the call is maintained, while the voice-to-voice call is performed. Instead, you can switch to text-to-speech calls, synthesize the text as speech, and continue to communicate by speech.
図2は、本実施形態に係る音声合成通話システム1000の全体構成と処理概要を説明するための図である。
図2に示すように、本実施形態に係る音声合成通話システム1000は、ネットワークに接続可能な発信者端末100(第1の通信端末)と、メディア処理装置200(音声配信サーバ)と、ネットワークに接続可能な着信者端末300(第2の通信端末)と、を含んで構成される。
FIG. 2 is a diagram for explaining the overall configuration and processing outline of the speech synthesis call system 1000 according to the present embodiment.
As shown in FIG. 2, a speech synthesis call system 1000 according to this embodiment includes a caller terminal 100 (first communication terminal) connectable to a network, a media processing device 200 (voice distribution server), and a network. And a connectable receiver terminal 300 (second communication terminal).
発信者端末100は、音声通話/テキスト入力可能な携帯電話やスマートフォン等の通信端末である。発信者端末100は、受信部110と、送信部120と、相互に音声通話を行う音声通話部130と、相手先アドレス情報格納部140と、切替ボタン150と、音声テキスト切替部160と、テキスト入力部170と、を備えて構成される。
受信部110および送信部120は、受信/送信のための物理的なインタフェース(I/F)である。音声通話部130は、音声通話を行うためのソフトウェアまたはミドルウェアからなる。音声通話部130は、受信部110を介して入力された音声を受話する受話機能(後記図5の受話部101参照)と、送信部120に音声を出力する発話機能(後記図5の発話部102参照)と、を有する。
The
The reception unit 110 and the
切替ボタン150は、例えば図示しない表示部の表示画面内で、任意の位置を指示するためのタッチパネルに割り当てられたソフトキーである。このタッチキーの場合、ユーザが切替ボタン150として設定されたユーザ画面155(図4参照)を指で押したり、スライドしたり、離したりすることにより各操作を指示する。また、切替ボタン150は、キーボード等のキーのほか、専用に割り当てられた機能キーであってもよい。
また、本実施形態では、テキスト入力は、スマートフォン端末やフィーチャーフォン(携帯電話)にデフォルトで内蔵されている言語入力用キーボードを利用するものとして説明する。
The
Further, in the present embodiment, the text input is described as using a language input keyboard built in by default in a smartphone terminal or a feature phone (mobile phone).
テキスト入力部170は、テキスト入力画面が表示され、端末付属の文字入力機能(キーパッド等)によりテキスト文を受け付ける。
The
音声テキスト切替部160は、音声通話状態を維持しつつ、テキスト入力に切り替える。音声テキスト切替部160は、テキスト入力部170から取得したテキスト入力結果を音声合成手段3に送信する。
The voice
音声通話部130、音声テキスト切替部160およびテキスト入力部170は、ROM(Read Only Memory)等に格納されたプログラムをCPU(Central Processing Unit)がメインメモリであるRAM(Random Access Memory)に展開し実行することで実現される。また、相手先アドレス情報格納部140は、具体的にはハードディスクやフラッシュメモリ、RAM等の記憶手段からなる。
The
メディア処理装置200は、ネットワーク上のメディアサーバ等である。メディア処理装置200は、音声合成手段3を含む。この音声合成手段3は、テキスト受信部210と、テキストからアナログ音声を生成する音声合成エンジンからなる音声合成部220と、テキストから変換した音声データを着信者端末300に送信する音声送信部230と、を備えて構成される。なお、図6に示すように、この音声合成手段3を発信者端末100(通信端末A)に備えるようにしてもよい。
The
着信者端末300は、音声通話可能な携帯電話やスマートフォン、固定電話等である。着信者端末300は、受信部310と、送信部320と、音声通話部330と、を備えて構成される。
受信部310および送信部320は、受信/送信のための物理的なインタフェース(I/F)である。音声通話部330は、音声通話を行うためのソフトウェアまたはミドルウェアからなる。音声通話部330は、受信部310を介して入力された音声を受話する受話機能(後記図5の受話部301参照)と、送信部320に音声を出力する発話機能(後記図5の発話部302参照)と、を有する。
音声通話部330は、音声データを受信した場合、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。これにより、音声通話部330は、音声データを受信した場合、音声通話状態を維持しつつ、音声データによる音声通話を継続する。
The
The
When voice data is received, the
図3は、本実施形態に係る相手先アドレス情報格納部140のデータ構成例を示す図である。
図3に示すように、相手先アドレス情報格納部140には、各ユーザのユーザID141に対応付けて、相手先アドレス情報142や電話番号143等のユーザ端末識別情報が格納される。ここで、相手先アドレス情報142は、例えば、着信者端末300のIPアドレスである。また、電話番号143は、着信者端末300がスマートフォン等のように携帯電話機能を備える場合、その携帯電話番号が格納される。
FIG. 3 is a diagram illustrating a data configuration example of the destination address
As shown in FIG. 3, the destination address
以下、図2を参照して、音声合成通話システム1000の処理概要を説明する。
まず、発信者端末100は、通話確立時に、ユーザIDやその発信者端末100に固有なユーザ端末識別情報(IP(Internet Protocol)アドレスや電話番号等)を含む相手先アドレス情報を、相手先アドレス情報格納部140に保持する(図2の符号a参照)。
発信者端末100は、切替ボタン150の操作による切替指示を受け付ける(ステップS1:切替指示)。
切替指示を受信した、発信者端末100の音声テキスト切替部160は、テキスト入力部170に対してテキスト入力機能の起動指示を行う(ステップS2:起動指示)。
Hereinafter, with reference to FIG. 2, an outline of processing of the speech synthesis call system 1000 will be described.
First, at the time of establishing a call, the
The
Receiving the switching instruction, the voice
起動指示を受信した、発信者端末100のテキスト入力部170は、音声テキスト切替部160に入力結果を返却する(ステップS3:入力結果返却)。テキスト入力部170は、具体的には、スマートフォン端末やフィーチャーフォンにデフォルトで内蔵されている言語入力用キーボードを利用してテキスト入力を行う。
また、発信者端末100の音声テキスト切替部160は、相手先アドレス情報格納部140に保持されている相手先アドレス情報を参照する(ステップS4:相手先アドレス情報参照)。
そして、発信者端末100の音声テキスト切替部160は、メディア処理装置200に対して相手先アドレス情報を付与してテキスト入力結果を送信する(ステップS5:テキスト入力結果送信)。
The
Further, the voice
Then, the voice
次に、メディア処理装置200のテキスト受信部210は、発信者端末100からのテキスト入力結果を受信し、音声合成部220に対して、テキストデータから音声データへの変換指示を行う(ステップS6:変換指示)。
変換指示を受信した、メディア処理装置200の音声合成部220は、テキストデータを音声データに変換し、音声送信部230に対して送出指示を行う(ステップS7:送出指示)。
そして、メディア処理装置200の音声送信部230は、送出指示に従って着信者端末300に対して音声合成された音声データを送出する(ステップS8:音声データ送出)。
着信者端末300は、受信部310が送出された音声を受信し、音声通話部330は、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。
Next, the
The
Then, the
The called
このようにすることにより、本実施形態に係る音声合成通話システム1000は、発信者端末100のユーザが、それまでに音声通話をしていた着信者端末300のユーザと通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。例えば、音声通話中に、その音声通話を継続できない状況が生じた場合に、発信者端末100のユーザは、切替ボタン150を操作してテキスト入力画面に切替え、テキスト文を入力すると、入力されたテキスト文はメディア処理装置200にリアルタイムで送出される。メディア処理装置200の音声合成部220は、テキスト文を音声データに変換し、着信者端末300にリアルタイムで送信する。
By doing in this way, the speech synthesis call system 1000 according to the present embodiment allows the user of the
<処理の流れ>
次に、本実施形態に係る音声合成通話システム1000の処理の流れについて詳細に説明する。
図4は、本実施形態に係る音声合成通話システム1000の処理の流れを示すシーケンス図である。
図4に示すように、発信者端末100と着信者端末300との間で、通話が確立されている(ステップS101)。また、通話確立時には、発信者端末100の相手先アドレス情報格納部140に相手先アドレス情報が保持されている。
まず、発信者端末100は、通話確立時に、ユーザ画面155をタッチして切替ボタン150を押す等の切替指示を受け付け(ステップS102)、発信者端末100の音声テキスト切替部160に出力する。
<Process flow>
Next, the processing flow of the speech synthesis call system 1000 according to the present embodiment will be described in detail.
FIG. 4 is a sequence diagram showing a processing flow of the speech synthesis call system 1000 according to the present embodiment.
As shown in FIG. 4, a call is established between the
First, the
音声テキスト切替部160は、発信者端末100のテキスト入力部170に対してテキスト入力機能の起動指示を行う(ステップS103)。
テキスト入力部170は、ユーザ画面155をテキスト入力が可能なテキスト入力画面に表示切替する(ステップS104)。
発信者端末100のユーザは、ユーザ画面155へのテキスト入力結果をテキスト入力部170に出力する(ステップS105)。
テキスト入力部170は、テキスト入力結果を音声テキスト切替部160に出力する(ステップS106)。
The voice
The
The user of the
The
音声テキスト切替部160は、相手先アドレス情報格納部140に保持されている相手先アドレス情報を参照する(ステップS107)。
そして、音声テキスト切替部160は、メディア処理装置200のテキスト受信部210に対して相手先アドレス情報を付与してテキスト入力結果を送信する(ステップS108)。
メディア処理装置200のテキスト受信部210は、発信者端末100からのテキスト入力結果を受信し、音声合成部220に対して、テキストから音声への変換指示を行う(ステップS109)。
The voice
Then, the voice
The
音声合成部220は、変換指示に従って受信したテキストデータを音声データに変換する(ステップS110)。
そして、音声合成部220は、メディア処理装置200の音声送信部230に対して送出指示を行う(ステップS111)。
音声送信部230は、送出指示に従って着信者端末300に対して音声合成された音声データを送出する(ステップS112)。
着信者端末300は、受信部310が送出された音声データを受信し、音声通話部330が、音声通話状態の音声通話と音声データによる音声通話とを合せて出力する。
The
Then, the
The
The called
[適用例1]
図5は、音声合成手段3(音声合成部220等)がネットワーク(NW)側にある場合の音声合成通話システム1000Aの全体構成と処理概要を説明するための図である。図2と同一構成部分には同一符号を付している。
図5に示すように、音声合成手段3(音声合成部220等)がNW側にある場合の音声合成通話システム1000Aは、発信者端末である通信端末100A(第1の通信端末)と、NW上の音声配信サーバ200Aと、着信者端末である通信端末300A(第2の通信端末)とを含んで構成される。
[Application Example 1]
FIG. 5 is a diagram for explaining the overall configuration and processing outline of the speech synthesis call system 1000A when the speech synthesis means 3 (
As shown in FIG. 5, a speech synthesis call system 1000A when speech synthesis means 3 (
通信端末100Aは、音声通話やテキスト入力可能な携帯電話やスマートフォン等である。通信端末100Aは、受話部101(音声通話部130)、発話部102(音声通話部130)、相手先アドレス情報格納部140、切替ボタン150、音声テキスト切替部160、およびテキスト入力部170を備えて構成される。
音声配信サーバ200Aは、図2のメディア処理装置200であり、音声合成手段3を含む。この音声合成手段3は、テキスト受信部210、音声合成部220、および音声送信部230を備えて構成される。
通信端末300Aは、音声通話可能な携帯電話、スマートフォン、固定電話等である。通信端末300Aは、受話部301(音声通話部)、および発話部302(音声通話部)を備えて構成される。
The
The
The
以下、図5を参照して、音声合成通話システム1000Aの処理概要を説明する。
図5に示すように、通信端末100Aと通信端末300Aとの間は、通話確立しており、呼接続状態にある。この呼接続状態では、通信端末300Aの発話部302から通信端末100Aの受話部101に音声データが送信され(図5の符号a参照)、また通信端末100Aの発話部102から通信端末300Aの受話部301に音声データが送信される(図5の符号b参照)。
また、図5の符号cに示すように、通信端末100Aは、通話確立時に、ユーザIDやその通信端末に固有なユーザ端末識別情報(IPアドレスや電話番号等)を含む相手先アドレス情報を、相手先アドレス情報格納部140に保持する。
通信端末100Aは、切替ボタン150の操作による切替指示を受け付ける(ステップS1:切替指示)。例えば、通信端末100Aのユーザが画面上でボタンをクリックする等してオンにする。
Hereinafter, with reference to FIG. 5, an outline of processing of the speech synthesis call system 1000 </ b> A will be described.
As shown in FIG. 5, a call is established between the
In addition, as shown by reference sign c in FIG. 5, the
The
切替指示を受信した、発信者端末100の音声テキスト切替部160は、テキスト入力部170に対してテキスト入力機能の起動指示を行う(ステップS2:起動指示)。
起動指示を受信した、通信端末100Aのテキスト入力部170は、音声テキスト切替部160に入力結果を返却する(ステップS3:入力結果返却)。具体的には、テキスト入力部170は、テキスト入力画面が表示され、端末付属の文字入力機能(キーパッド等)によりテキスト文を受け付ける。
また、通信端末100Aの音声テキスト切替部160は、相手先アドレス情報格納部140に保持されている相手先アドレス情報を参照する(ステップS4:相手先アドレス情報参照)。
Receiving the switching instruction, the voice
The
Further, the voice
そして、通信端末100Aの音声テキスト切替部160は、音声配信サーバ200Aに対して相手先アドレス情報を付与してテキスト入力結果を送信する(ステップS5:テキスト入力結果送信)。具体的には、音声テキスト切替部160は、送信等と描かれたボタンが押されることによりテキスト入力結果を送信する。
Then, the voice
次に、音声配信サーバ200Aのテキスト受信部210は、通信端末100Aからのテキスト入力結果を受信し、音声合成部220に対して、テキストデータから音声データへの変換指示を行う(ステップS6:変換指示)。
変換指示を受信した、音声配信サーバ200Aの音声合成部220は、テキスト入力結果を音声データに変換し、また音声送信部230に対して送出指示を行う(ステップS7:送出指示)。
そして、音声配信サーバ200Aの音声送信部230は、送出指示に従って通信端末300Aに対して音声合成された音声データを送出する(ステップS8:音声データ送出)。
Next, the
Receiving the conversion instruction, the
Then, the
このように、音声配信サーバ200Aは、通信端末100Aからテキスト入力結果を受信した場合、音声合成部220によりテキスト入力結果を音声データに変換してから通信端末300Aに送信する。
通信端末300Aの受話部301は、音声配信サーバ200Aからの音声データを受信し、音声通話状態の音声通話(図5の符号b参照)に合せて、受信した音声データを出力する。
As described above, when the
The receiving
このようにすることにより、本実施形態に係る音声合成通話システム1000Aは、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。 By doing so, the speech synthesis call system 1000A according to the present embodiment can exchange in real time even if one or both of them do not speak while maintaining the call state with the other party who has been carrying out the voice call so far. Can continue.
また、本適用例1では、通信端末100Aが、音声合成手段3(音声合成部220等)を備えていないので、既存の携帯端末等の軽微な変更で使用することができる。したがって、通信端末100Aについては低コストで運用することができる。
Further, in Application Example 1, the
[適用例2]
図6は、音声合成手段3(音声合成部220等)が端末側にある場合の音声合成通話システム1000Bの全体構成と処理概要を説明するための図である。図2および図5と同一構成部分には同一符号を付している。また、図6では、通信端末100B側にのみ音声合成手段3を備える例として説明するが、通信端末300B側に音声合成手段3を備えるようにしてもよい。このように構成すれば、双方が声を出さなくてもリアルタイムでやりとりを続けることができる。
図6に示すように、音声合成部220が端末側にある場合の音声合成通話システム1000Bは、発信者端末である通信端末100B(第1の通信端末)と、NW上の音声配信サーバ200Bと、着信者端末である通信端末300B(第2の通信端末)とを含んで構成される。なお、通信端末300Bは、図5の通信端末300Aと同一構成である。
[Application Example 2]
FIG. 6 is a diagram for explaining the overall configuration and processing outline of the speech synthesis call system 1000B when the speech synthesis means 3 (
As shown in FIG. 6, the speech synthesis call system 1000B when the
通信端末100Bは、音声通話やテキスト入力可能な携帯電話やスマートフォン等である。通信端末100Bは、受話部101(音声通信部130)、発話部102(音声通信部130)、相手先アドレス情報格納部140、切替ボタン150、音声テキスト切替部160、テキスト入力部170、テキスト受信部210、音声合成部220、および音声送信部230を備えて構成される。
音声配信サーバ200Bは、図2のメディア処理装置200である。
The communication terminal 100B is a mobile phone, a smartphone, or the like capable of voice calls and text input. The communication terminal 100B includes a receiving unit 101 (voice communication unit 130), an utterance unit 102 (voice communication unit 130), a destination address
The
以下、図6を参照して、音声合成通話システム1000Bの処理概要を説明する。
図6に示すように、通信端末100Bと通信端末300Bとの間は、通話確立しており、呼接続状態にある。この呼接続状態では、通信端末300Bの発話部302から通信端末100Bの受話部101に音声データが送信され(図6の符号a参照)、また通信端末100Bの発話部102から通信端末300Bの受話部301に音声データが送信される(図6の符号b参照)。
Hereinafter, with reference to FIG. 6, an outline of processing of the speech synthesis call system 1000B will be described.
As shown in FIG. 6, the communication terminal 100B and the
また、図6の符号cに示すように、通信端末100Bは、通話確立時に、ユーザIDやその通信端末に固有なユーザ端末識別情報(IPアドレスや電話番号等)を含む相手先アドレス情報を、相手先アドレス情報格納部140に保持する。
通信端末100Bは、切替ボタン150の操作による切替指示を受け付ける(ステップS1:切替指示)。例えば、通信端末100Bのユーザが画面上でボタンをクリックする等してオンにする。
切替指示を受信した、通信端末100Bの音声テキスト切替部160は、テキスト入力部170に対してテキスト入力機能の起動指示を行う(ステップS2:起動指示)。
In addition, as shown by reference symbol c in FIG. 6, the communication terminal 100B, when establishing a call, transmits destination address information including a user ID and user terminal identification information (IP address, telephone number, etc.) unique to the communication terminal, It is held in the destination address
The communication terminal 100B receives a switching instruction by operating the switching button 150 (step S1: switching instruction). For example, the user of the communication terminal 100B turns on by clicking a button on the screen.
Receiving the switching instruction, the voice
起動指示を受信した、通信端末100Bのテキスト入力部170は、音声テキスト切替部160に入力結果を返却する(ステップS3:入力結果返却)。具体的には、テキスト入力部170は、テキスト入力画面が表示され、端末付属の文字入力機能(キーパッド等)によりテキスト文を受け付ける。
また、通信端末100Bの音声テキスト切替部160は、相手先アドレス情報格納部140に保持されている相手先アドレス情報を参照する(ステップS4:相手先アドレス情報参照)。
The
Further, the voice
そして、通信端末100Bの音声テキスト切替部160は、テキスト受信部210に対して相手先アドレス情報を付与してテキスト入力結果を出力する(ステップS5:テキスト入力結果出力)。具体的には、音声テキスト切替部160は、送信等と描かれたボタンが押されることにより、テキスト入力結果を送信する。
Then, the voice
次に、テキスト受信部210は、音声テキスト切替部160からのテキスト入力結果を受信し、音声合成部220に対して、テキストデータから音声データへの変換指示を行う(ステップS6:変換指示)。
変換指示を受信した、音声合成部220は、テキスト入力結果を音声データに変換し、また音声送信部230に対して送出指示を行う(ステップS7:送出指示)。
そして、音声送信部230は、送出指示に従って通信端末300Bに向けて音声合成された音声データを送出する(ステップS8:音声データ送出)。
Next, the
Receiving the conversion instruction, the
Then, the
このように、通信端末100Bは、音声合成部220によりテキスト入力結果を音声データに変換してから通信端末300Bに送信する。
通信端末300Bの受話部301は、音声配信サーバ200Bからの音声データを受信し、音声通話状態の音声通話(図6の符号b参照)に合せて、受信した音声データを出力する。
As described above, the communication terminal 100B converts the text input result into the voice data by the
The receiving
このようにすることにより、本実施形態に係る音声合成通話システム1000Bは、それまでに音声通話をしていた相手と通話状態を維持しながら、一方または双方が声を出さなくてもリアルタイムでやりとりを続けることができる。 In this way, the speech synthesis call system 1000B according to the present embodiment exchanges in real time even if one or both of them do not speak while maintaining the call state with the other party who has been carrying out the voice call so far. Can continue.
また、本適用例2では、通信端末100Bが、音声合成手段3(音声合成部220等)を備えるので、新たな機能を有する音声配信サーバ200Bを導入することなく、既存のサーバをそのまま使用することができる。したがって、音声配信サーバ200Bについては低コストでシステムを構築することができる。
In Application Example 2, since the communication terminal 100B includes the speech synthesis unit 3 (
以上説明したように、本実施形態に係る音声合成通話システム1000は、発信者端末100(図2参照)が、テキストの入力を受け付けるテキスト入力部170と、音声通話状態を維持しつつ、テキスト入力部170によるテキスト入力に切り替える音声テキスト切替部160と、を備える。メディア処理装置(音声配信サーバ)200は、テキストを音声データに変換する音声合成部220と、変換した音声データを着信者端末300に送信する音声送信部230と、を備える。着信者端末300は、音声データを受信した場合、音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力する。これにより、音声通話中に、その音声通話を継続できない状況が生じた場合に、発信者端末100のユーザは、切替ボタン150を操作してテキスト入力画面に切替え、テキスト文を入力すると、音声合成部220は、テキスト文を音声データに変換し、音声送信部230が着信者端末300にリアルタイムで送信する。
As described above, in the speech synthesis call system 1000 according to the present embodiment, the caller terminal 100 (see FIG. 2) has the
したがって、音声通話の途中で通話状態を維持しながら、テキスト対音声の通話に切り替えることで、通話相手が車内などの声を出せない環境に移行しても会話を継続することができる。すなわち、元々通話していた相手と通話状態を保持しながら、やりとりが継続できる。通話相手から見ても、切り替え前と変わらず音声通話でやりとりが継続できる。 Therefore, by switching to a text-to-speech call while maintaining the call state in the middle of a voice call, the conversation can be continued even when the call partner shifts to an environment where a voice cannot be produced, such as in a car. That is, it is possible to continue the exchange while maintaining the call state with the other party who was originally calling. Even when viewed from the other party, the conversation can be continued with a voice call as before switching.
3 音声合成手段
100 発信者端末(第1の通信端末)
100A,100B 通信端末(第1の通信端末)
101,301 受話部(音声通話部)
102,302 発話部(音声通話部)
110,310 受信部
120,320 送信部
130,330 音声通話部
140 相手先アドレス情報格納部
150 切替ボタン
160 音声テキスト切替部
170 テキスト入力部
200 メディア処理装置(音声配信サーバ)
200A,200B 音声配信サーバ
210 テキスト受信部
220 音声合成部
230 音声送信部
300 着信者端末(第2の通信端末)
300A,300B 通信端末(第2の通信端末)
1000,1000A,1000B 音声合成通話システム
3 Speech synthesis means 100 Caller terminal (first communication terminal)
100A, 100B communication terminal (first communication terminal)
101,301 Earpiece (voice call)
102,302 Speech part (voice call part)
110, 310
200A, 200B
300A, 300B communication terminal (second communication terminal)
1000, 1000A, 1000B voice synthesis call system
Claims (3)
発信側の通信端末である前記第1の通信端末は、
テキストの入力を受け付けるテキスト入力部と、
音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、を備え、
前記第1の通信端末または前記音声配信サーバは、
前記テキストを音声データに変換する音声合成部と、
前記変換した音声データを、受信側の通信端末である前記第2の通信端末に送信する音声送信部と、を備え、
前記第2の通信端末の前記音声通話部は、
前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力すること
を特徴とする音声合成通話システム。 A voice synthesis call system having first and second communication terminals connectable to a network, wherein the first and second communication terminals include a voice call unit for making a voice call via a voice distribution server. ,
The first communication terminal, which is a communication terminal on the calling side,
A text input unit that accepts text input;
A voice text switching unit that switches to text input by the text input unit while maintaining a voice call state,
The first communication terminal or the audio distribution server is
A speech synthesizer for converting the text into speech data;
An audio transmission unit that transmits the converted audio data to the second communication terminal, which is a communication terminal on the receiving side,
The voice call unit of the second communication terminal is
When the voice data is received, the voice call in the voice call state and the voice call based on the voice data are output together.
テキストの入力を受け付けるテキスト入力部と、
前記音声通話状態を維持しつつ、前記テキスト入力部によるテキスト入力に切り替える音声テキスト切替部と、
前記テキストを音声データに変換する音声合成部と、
前記変換した音声データを、前記音声配信サーバに送信する音声送信部と、を備えること
を特徴とする通信端末。 A voice call unit for making a voice call via the voice distribution server;
A text input unit that accepts text input;
A voice text switching unit that switches to text input by the text input unit while maintaining the voice call state;
A speech synthesizer for converting the text into speech data;
A communication terminal comprising: an audio transmission unit configured to transmit the converted audio data to the audio distribution server.
発信側の通信端末である前記第1の通信端末は、
音声配信サーバを介して音声通話を行うステップと、
音声通話状態を維持しつつ、テキスト入力に切り替えるステップと、
テキストの入力を受け付けるステップと、を実行し、
前記第1の通信端末または前記音声配信サーバは、
前記テキストを音声データに変換するステップと、
前記変換した音声データを受信側の通信端末である第2の通信端末に送信するステップと、を実行し、
前記第2の通信端末は、
前記音声データを受信した場合、前記音声通話状態の音声通話と当該音声データによる音声通話とを合せて出力するステップを実行すること
を特徴とする音声合成通話方法。 A voice synthesis call method for a voice synthesis call system having first and second communication terminals connectable to a network, wherein the first and second communication terminals make a voice call via a voice distribution server, ,
The first communication terminal, which is a communication terminal on the calling side,
Making a voice call via the voice delivery server;
Switching to text input while maintaining a voice call state;
Receiving a text input, and
The first communication terminal or the audio distribution server is
Converting the text into audio data;
Transmitting the converted voice data to a second communication terminal which is a communication terminal on the receiving side, and
The second communication terminal is
When the voice data is received, a step of outputting the voice call in the voice call state together with the voice call based on the voice data is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014115527A JP2015231083A (en) | 2014-06-04 | 2014-06-04 | Voice synthesis call system, communication terminal, and voice synthesis call method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014115527A JP2015231083A (en) | 2014-06-04 | 2014-06-04 | Voice synthesis call system, communication terminal, and voice synthesis call method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015231083A true JP2015231083A (en) | 2015-12-21 |
Family
ID=54887684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014115527A Pending JP2015231083A (en) | 2014-06-04 | 2014-06-04 | Voice synthesis call system, communication terminal, and voice synthesis call method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015231083A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020150386A (en) * | 2019-03-13 | 2020-09-17 | Necプラットフォームズ株式会社 | Voice speech system, voice speech controller, voice speech program, and voice speech method |
-
2014
- 2014-06-04 JP JP2014115527A patent/JP2015231083A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020150386A (en) * | 2019-03-13 | 2020-09-17 | Necプラットフォームズ株式会社 | Voice speech system, voice speech controller, voice speech program, and voice speech method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7792253B2 (en) | Communications involving devices having different communication modes | |
US20040204068A1 (en) | Mobile communication system and method, mobile communication terminal, server apparatus and program | |
JP6218568B2 (en) | COMMUNICATION DEVICE, COMMUNICATION SYSTEM, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM | |
US20050049879A1 (en) | Communication device capable of interworking between voice communications and text communications | |
CN101867641A (en) | Information display and reply system and method thereof | |
CA2796598C (en) | Communication device, method and system for providing previews of voice calls | |
JP2007235810A (en) | Mobile phone system, and mobile phone unit | |
JP2007201906A (en) | Mobile terminal device and image display method | |
JP2007165991A (en) | Portable telephone and mobile exchange | |
JP2015231083A (en) | Voice synthesis call system, communication terminal, and voice synthesis call method | |
JP2006270891A (en) | Message conversion system, message conversion method and program | |
WO2008071939A1 (en) | Improved text handling for mobile devices | |
JP4569655B2 (en) | Information communication terminal | |
JP5136823B2 (en) | PoC system with fixed message function, communication method, communication program, terminal, PoC server | |
JP2006295468A (en) | Mobile communication terminal device | |
JP5440828B2 (en) | Processing device and processing control method | |
JP2010193391A (en) | Speech system, speech method, speech program, telephone terminal and exchange | |
KR100691861B1 (en) | System and method for controlling call of cellular phone using personal computer | |
JP6805663B2 (en) | Communication devices, communication systems, communication methods and programs | |
JP5119813B2 (en) | Telephone device that can operate the phone book function during a call | |
KR20010067983A (en) | Method of Transmitting with Synthesizing Background Music to Voice on Calling and Apparatus therefor | |
KR102128814B1 (en) | Method for transmitting information in voicemail and electronic device thereof | |
JP6659066B1 (en) | Voice call system, voice call control device, voice call program, and voice call method | |
JP6521397B2 (en) | Telephone system, telephone, and telephone transfer method | |
JP2006060431A (en) | Mobile telephone terminal and mail reception notification method of mobile telephone terminal |