JP6342972B2 - Communication system and communication method thereof - Google Patents
Communication system and communication method thereof Download PDFInfo
- Publication number
- JP6342972B2 JP6342972B2 JP2016222505A JP2016222505A JP6342972B2 JP 6342972 B2 JP6342972 B2 JP 6342972B2 JP 2016222505 A JP2016222505 A JP 2016222505A JP 2016222505 A JP2016222505 A JP 2016222505A JP 6342972 B2 JP6342972 B2 JP 6342972B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- signal
- language
- dtmf signal
- telephone terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
本発明は、コミュニケーションシステム及びそのコミュニケーション方法に係り、特に、電話端末により音声を受け付けて音声翻訳を行う用途に用いて好適なコミュニケーションシステム及びそのコミュニケーション方法に関する。 The present invention relates to a communication system and a communication method thereof, and more particularly, to a communication system and a communication method thereof suitable for use in receiving speech from a telephone terminal and performing speech translation.
近年、インターネットなど、コミュニケーションのためのインフラは、地球規模で発達し、コミュニケーションのグローバル化が急速に進んでいる。このような状況の元で、情報処理技術の進展に伴って、自動音声翻訳が注目を集めている。 In recent years, communication infrastructure such as the Internet has been developed on a global scale, and the globalization of communication is rapidly progressing. Under such circumstances, automatic speech translation is attracting attention as information processing technology advances.
自動音声翻訳は、入力された人の音声を、音声認識し、テキスト化し、その入力された言語のテキストを目的言語のテキストに自動翻訳し、さらに、翻訳されたテキストを目的言語の音声に変換して、出力するシステムである。 Automatic speech translation recognizes the voice of the input person, converts it into text, automatically translates the text in the input language into text in the target language, and converts the translated text into speech in the target language And a system that outputs.
このような自動音声翻訳を利用した技術としては、例えば、特許文献1がある。特許文献1には、携帯端末から受け付けた音声データから緊急度及び言語種別を判定し、緊急度が高い場合には各種言語に精通した通訳者を選択し、緊急度が低い場合には機械翻訳サーバに機械翻訳させる技術が開示されている。
As a technique using such automatic speech translation, for example, there is
自動音声翻訳により、音声翻訳をする際には、予め入力言語(原文言語)と出力言語(訳文言語)を指定する必要がある。上記特許文献1のように、スマートフォンなどの携帯端末を使用する場合は、画面をタップすることで言語指定をすることができる。しかしながら、一般の固定電話機の場合は、同じ方法での指定ができないという問題点がある。
When speech translation is performed by automatic speech translation, it is necessary to specify an input language (source language) and an output language (translation language) in advance. When using a mobile terminal such as a smartphone as in
また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動音声翻訳システムを利用して、相手の発話を翻訳した音声を聞く応用が考えられる。このような場合には、電話機の受け渡しタイミングのばらつきにより出力音声の冒頭が聞こえないおそれがあるという問題点がある。 Further, in face-to-face speech interpretation, it is conceivable to use an automatic speech translation system to listen to speech translated from the other party's utterance while alternately passing one telephone. In such a case, there is a problem that the beginning of the output voice may not be heard due to variations in the delivery timing of the telephone.
さらに、言語種別の特定に関して言えば、特許文献1記載の通訳サービスシステムにおいては、「英語」「フランス語」などのキーワードを言語種別ごとに用意して、警備員又は外国人がそのキーワードを発話することによって、外国人の発話言語を特定する(段落番号0059)。
Further, regarding the specification of the language type, in the interpreting service system described in
しかしながら、特許文献1記載による言語種別の判定は、迂遠であり、処理系にも負荷がかかり、コミュニケーションのための余計な時間がかかって、対面音声通訳において、1台の電話機を交互に受け渡す応用においては、円滑に受け渡すことができないという問題点がある。
However, the determination of the language type described in
本発明は、上記問題点を解決するためになされたもので、その目的は、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することにある。 The present invention was made to solve the above problems, and its purpose is to specify a language type with a simple specification when a telephone and an automatic speech translation system exchange voice over a telephone line. In a face-to-face voice interpreter, when a single telephone is handed over alternately, a communication system that allows smooth handing over, allows the handed-over handset to hear the appropriate voice, and prevents missed voices, and It is to provide the communication method.
本発明に係るコミュニケーションシステムは、電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、電話端末は、コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、コミュニケーションサーバに送信する手段とを有し、コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有するものである。そして、コミュニケーションサーバは、電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、第一のDTMF信号受信それ以降に受信する音声信号に係る音声を、第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納し、第二のDTMF信号が送信されてきた後に、第一のDTMF信号の表す言語の音声データを、第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、電話端末に送信する。 A communication system according to the present invention is a communication system in which a telephone terminal and a communication server are connected by a telephone line, and the telephone terminal transmits a call to and from the communication server and inputs from a key device. Tone Multi-Frequency) signal is generated and transmitted to the communication server. The communication server is transmitted by the language processing unit that performs speech translation from the first language to the second language, and transmitted by the telephone line. Means for translating the first language voice related to the incoming voice signal into the second language and transmitting it to the telephone terminal, voice data of the speaker language, and the voice of the translated voice obtained by translating the voice data A call data table for storing data. When the communication server receives the first DTMF signal from the telephone terminal, the communication server receives the first DTMF signal until it receives the second DTMF signal operated and transmitted by another speaker. The voice related to the voice signal received is stored in the call data table as voice data in the language represented by the first DTMF signal, and the language represented by the first DTMF signal is transmitted after the second DTMF signal is transmitted. The speech signal related to the speech data of the translated speech obtained by translating the speech data into the language represented by the second DTMF signal is transmitted to the telephone terminal.
本発明によれば、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することができる。 According to the present invention, when a telephone and an automatic speech translation system exchange voice over a telephone line, the language type can be designated with simple designation, and one telephone is alternately delivered in face-to-face speech interpretation. In addition, it is possible to provide a communication system and a communication method capable of smoothly delivering, allowing a person who has received the handset to hear the sound with an appropriate voice, and preventing the voice from being missed.
以下、本発明に係る各実施形態を、図1ないし図13を用いて説明する。 Embodiments according to the present invention will be described below with reference to FIGS.
先ず、図1及び図3を用いて、本発明の実施形態に係るコミュニケーションシステムの構成について説明する。
図1は、コミュニケーションシステムの全体構成図である。
図2は、電話端末の機能構成図である。
図3は、コミュニケーションサーバの構成図である。
First, the configuration of a communication system according to an embodiment of the present invention will be described with reference to FIGS. 1 and 3.
FIG. 1 is an overall configuration diagram of a communication system.
FIG. 2 is a functional configuration diagram of the telephone terminal.
FIG. 3 is a configuration diagram of the communication server.
本実施形態のコミュニケーションシステムは、図1に示されるように、電話端末10とコミュニケーションサーバ100が、電話回線5により接続された形態である。
As shown in FIG. 1, the communication system of the present embodiment is a form in which a
電話回線5は、公衆回線でもよいし、企業内のPBX(Private Branch eXchange)により回線交換される構内回線でもよい。また、アナログ回線でもよいし、デジタル回線でもよい。
The
電話端末10は、DTMF(Dual-Tone Multi-Frequency)信号(いわゆるプッシュ信号)を発信可能な電話機である必要がある。DTMF信号とは、0から9までの数字と、*、#、A、B、C、Dの記号の計16種類の符号を、低群・高群の二つの音声周波数帯域の合成信号音で送信する信号である。また、電話端末10に接続されている回線は、DTMF信号を送信可能な回線とする。
The
電話端末10は、図2に示されるように、受話器11、送話器12、キー装置13、音声信号変換部14、接続制御部15、DTM信号生成部16からなる。受話器11、送話器12は、それぞれ受話のためのスピーカ、送話のためのマイクである。音声信号変換部14は、電話回線からの電気信号を音声に変換し、送話器12から音声を電気信号に変換する部分である。接続制御部15は、着呼、発呼を制御して、電話端末10と回線の接続、切断を行う部分である。DTM信号生成部16は、キー装置13の入力にしたがって、所定の周波数のDTM信号を生成する装置である。
As shown in FIG. 2, the
電話端末10を利用する者は、キー装置13から言語ごとに定められた規約のボタンにしたがって、自分の言語種別を入力できる。例えば、[#][1]は、日本語、[#][2]は、英語、[#][3]は、中国語のごとくである。電話端末10は、それをDTM信号に変換し、電話端末10の利用者の言語を判定するための信号として、電話回線5を介して、コミュニケーションサーバ100に送信する。
A person who uses the
コミュニケーションサーバ100は、電話回線5を介して送信される音声信号をデコードして、音声に変換し、それを指定された言語(以下、「翻訳言語」という)に係る音声に翻訳し(以下、翻訳された音声を「翻訳音声」という)、その音声をエンコードして、電話回線5を介して電話端末10に送信する装置である。
The
コミュニケーションサーバ100は、図3に示されるように、受信制御部110、送信制御部120、コミュニケーション制御部150、データベースアクセス部160、言語処理部200、データベース300からなる。
As illustrated in FIG. 3, the
受信制御部110は、図3に示されるように、デコーダ111、制御信号解析部112、DTMF信号解析部113、音声解析部114、通話データ出力部115からなり、受信時の音声信号、DTMF信号の判別とデコード、受信した情報のデータベースへの書込みを行う部分である。受信制御部110は、電話端末10からの制御信号、音声信号、又は、DTMF信号を電話回線を介して受信し、デコーダ111によりデコードする。そして、制御信号かDTMF信号か、あるいは、音声かを判別し、制御信号の場合は、呼の呼び出しを認識して、通話データ出力部115に報告する。DTMF信号の場合は、DTMF信号解析部113が、DTMF信号に含まれている周波数を解析し、どのボタンが電話端末10で押下されたかの認識を行ない、通話データ出力部115に報告する。音声の場合は、音声解析部114が、一文を判断して、その音声データを、通話データ出力部115に報告する。
As shown in FIG. 3, the
通話データ出力部115は、新たな呼の呼び出しがあったときには、新たな呼IDを生成する。また、ボタン対応テーブル310を参照して、押されたボタンに対応する話者の言語IDを取得する。そして、音声解析部114から音声が出力されたときには、呼ごとに異なる呼ID、話者が切り替わるごとに更新されるグループID、話者発話の一文ごとに更新されるシーケンシャルID、話者の音声かテキストか翻訳した音声かテキストかを示すフラグである種別、音声の言語を表す言語IDの情報を付加したデータを作成し、データベースアクセス部160を介して、通話データテーブル330に保存する。また、一文終了後、次の一文を受け付けるためにシーケンシャルIDを更新する。呼ID、グループID、種別、言語ID、シーケンシャルIDについては、後に、通話データテーブル330の説明の所でも説明する。
The call
送信制御部120は、図3に示されるように、エンコーダ121、通話データ入力部122からなり、翻訳された音声を音声信号として、電話端末10に送り返すための制御をする部分である。送信制御部120は、コミュニケーション制御部150の指示にしたがって、通話データテーブル330から音声データを取り出し、電話端末10に送り返す制御を行う。すなわち、コミュニケーション制御部150が指示するタイミングで、送信制御部120の通話データ入力部122は、指定された言語の音声データのうち、未送信の音声データをグループID、シーケンシャルIDなどの情報に基づいて、データベースアクセス部160を介して通話データテーブル330から取得し、エンコーダ121よりエンコードして、電話端末10に送信する。
As shown in FIG. 3, the
コミュニケーション制御部150は、受信制御部110から送られてくるDTMF信号の解析情報と通話データテーブル330に格納された状態にしたがって、言語処理部200、送信制御部120に指示を与える部分である。
The
言語処理部200は、図3に示されるように、音声認識部210、翻訳エンジン220、音声合成部230からなり、音声を入力して、指定された言語にしたがって、翻訳し、翻訳言語の音声として、出力する部分である。音声認識部210は、指定された言語種別を認識して、テキスト化する。翻訳エンジン220では、翻訳辞書に基づいて、ある言語(例えば、日本語)を他の言語(例えば、英語)に翻訳する。音声合成部230は、翻訳言語のテキストを音声データに変換し、一つの読み取れる音声データとして出力する。
As shown in FIG. 3, the
データベースアクセス部160は、他のコンポーネントからのデータベース300の読み出し、書込みの機能を提供する部分である。
The
データベース300は、ボタン対応テーブル310、通話状態テーブル320、通話データテーブル330を保持している。なお、各々のテーブルについては、後に詳説する。
The
コミュニケーションサーバ100の各々の機能は、FPGA(field-programmable gate array)のようなハードウェアロジックで実装してもよいし、メモリ上にロードされ、OS上で動作するプログラムとして、汎用のCPU(Central Processing Unit)がそのプログラムを実行することにより機能が実現されるものであってもよい。
Each function of the
次に、図4Aないし図6を用いて、コミュニケーションサーバ100上で扱う状態とイベント、及び、その関係について説明する。
図4Aは、コミュニケーション制御部が認識する状態を説明する図である。
図4Bは、コミュニケーション制御部が受け付けるイベントを説明する図である。
図5は、イベントによる状態遷移を示す状態遷移図である。
図6は、状態と発生するイベントによる処理マトリックスを示す図である。
Next, states and events handled on the
FIG. 4A is a diagram illustrating a state recognized by the communication control unit.
FIG. 4B is a diagram illustrating an event received by the communication control unit.
FIG. 5 is a state transition diagram showing state transition by event.
FIG. 6 is a diagram showing a processing matrix according to states and events that occur.
コミュニケーション制御部150は、「言語未選択」、「受付」、「翻訳中」、「翻訳音声送信中」の四つの状態を認識する。各々の状態の意味は、図4Aに示す如くである。なお、後の図では、状態を説明するのに、この番号を用いることにする。
The
また、コミュニケーション制御部150は、「DTMF信号(言語選択)」、「音声」、「翻訳完了」、「翻訳音声送信終了」、「DTMF信号(リピート再生)」の五つのイベントを受け付ける。各々のイベントの意味は、図4Bに示すごとくである。
The
上で説明した状態は、イベントの発生により遷移する。図5は、その状態とそのときに発生する主要なものを示したものである。例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声」イベントが発生したときには、「2:受付」の状態にとどまることを意味している。 The state described above transitions when an event occurs. FIG. 5 shows the state and main things that occur at that time. For example, when a “DTMF signal (language selection)” event occurs in the “2: reception” state, the state transitions to “3: Under translation”, and when a “DTMF signal (repeat)” event occurs, When “4: Translated voice transmission is in progress” and a “voice” event occurs, it means that the state remains “2: reception”.
また、図6に示される状態と発生するイベントによる処理マトリックスは、状態をカラム、イベントをロウで表現したマトリックスであり、カラムで表現した状態のときに、ロウで表現したイベントが発生したときには、その交点にあたる部分が適用されることを示している。交点の要素は、「状態(付随処理)」のように表現されており、カラムで表現した状態のときに、ロウで表現したイベントが発生したときに、その状態に遷移し、付随処理がその遷移にしたがって開始又は継続されることを示している。 6 is a matrix in which the state is represented by a column and the event is represented by a row. When an event represented by a row occurs in a state represented by a column, It shows that the portion corresponding to the intersection is applied. The element at the intersection is expressed as “state (accompanying process)”. When an event expressed in row occurs in the state expressed in the column, the state transitions to that state, and the accompanying process It shows that it starts or continues according to the transition.
例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「翻訳開始」処理がされ、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声送信」が開始され、「音声」イベントが発生したときには、「2:受付」の状態にとどまり、「音声データ蓄積」処理が継続されることを示している。 For example, when a “DTMF signal (language selection)” event occurs in the “2: reception” state, the process transits to “3: translation in progress”, a “translation start” process is performed, and a “DTMF signal (repeat)” When an “event” occurs, a transition is made to “4: Translation voice transmission in progress”, “Voice transmission” is started, and when a “Voice” event occurs, the state remains “2: Accept”, and “Voice data storage” ”Indicates that the process is continued.
なお、図6の処理マトリックスでは、状態遷移図に示さなかった例外的な状態とイベントの関係も示されているが、後の処理の説明では、主に、図5の状態遷移図に示された状態とそのときに発生するイベントの例を取り上げることにする。 In the processing matrix of FIG. 6, the relationship between exceptional states and events not shown in the state transition diagram is also shown. However, in the description of the subsequent processing, it is mainly shown in the state transition diagram of FIG. Let's take a look at examples of events and events that occur.
次に、図7ないし図9を用いてコミュニケーションシステムで用いられるデータ構造について説明する。
図7は、ボタン対応テーブル310の仕様を説明する図である。
図8は、通話状態テーブル320の仕様を説明する図である。
図9は、通話データテーブル330の仕様を説明する図である。
Next, a data structure used in the communication system will be described with reference to FIGS.
FIG. 7 is a diagram for explaining the specifications of the button correspondence table 310.
FIG. 8 is a diagram for explaining the specifications of the call state table 320.
FIG. 9 is a diagram for explaining the specifications of the call data table 330.
ボタン対応テーブル310は、図7に示されるように、ボタン♯1、言語又は機能♯2、言語ID♯3のフィールドを有し、DTMF信号より割り出されたユーザが押下したボタンと各種情報を結びつけるテーブルである。ボタン♯1のフィールドは、DTMF信号を解析して得られたユーザがDTMF信号発生の際に、押下したボタンを格納する。言語又は機能♯2のフィールドは、ボタン♯1の値に対応する言語又は機能を格納する。例えば、[♯][1]は、日本語、[♯][*]は、リピートの如くである。言語ID♯3のフィールドは、各言語に対応する言語IDを格納する。
As shown in FIG. 7, the button correspondence table 310 has
通話状態テーブル320は、図8に示されるように、呼ID♯1、状態♯2、言語ID♯3のフィールドを有し、コミュニケーション制御部150が参照する処理の状態を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。状態♯2のフィールドは、呼IDにより識別される呼の現在の状態を表す識別子を格納する。状態の意味は、図4Aで説明した通りである。言語ID♯3のフィールドは、現在選択されている言語の言語IDを格納する。
As shown in FIG. 8, the call state table 320 has fields for
通話データテーブル330は、図9に示されるように、呼ID♯1のフィールドと、m(mは、0以上の整数)個のテキスト♯10、m個の音声♯20の構造体を有し、呼IDごとに、通話に関する情報を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。
As shown in FIG. 9, the call data table 330 has a field of
テキスト♯10の構造体は、種別♯11、グループID♯12、言語ID♯13、シーケンシャルID♯14、テキストデータ♯15のメンバを有し、話者の認識テキスト、その翻訳後のテキストに関する情報を格納するものである。種別♯11は、そのテキストが話者の認識テキスト、その翻訳後のテキストかの別を示す識別子が格納する。グループID♯12は、話者の交代ごとに一意的に付与されるグループIDを格納する。言語ID♯13は、そのテキストの言語の言語IDを格納する。シーケンシャルID♯14は、音声データの分割単位ごとにシーケンシャルに付与されるシーケンシャルIDを格納する。テキストデータ♯15は、テキストのコードデータを格納する。
The structure of
音声♯20の構造体は、グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、音声データ♯25のメンバを有し、話者の音声データ、その翻訳後の合成音声のデータに関する情報を格納するものである。
The structure of the
グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、テキストデータ♯25の内容は、それぞれ、テキストデータ♯10の構造体のグループID♯11、種別♯12、言語ID♯13、シーケンシャルID♯14と同様である。音声データ♯25は、音声データのコードデータを格納する。
The contents of
次に、図10A、図10Bを用いて、コミュニケーションシステムの概要動作について説明する。
図10A、図10Bは、コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である。
Next, an outline operation of the communication system will be described with reference to FIGS. 10A and 10B.
10A and 10B are schematic sequence diagrams showing delivery between components of the communication system and the system status.
先ず、話者A(日本語話者)(SP1)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A01)。このときの状態は、言語未選択状態(状態=1)であり、通話状態テーブル320の値は、呼ID=1、状態=1、言語ID=0(T01)である(S01、T01)。なお、ここでは、A01の前に、電話端末10と、コミュニケーションサーバ100の呼は、接続されており、既に、呼IDが割振られたものとしている。また、通話状態テーブル320と通話データテーブル330の値は、説明に必要なもののみピックアップして、図示することにする。
First, the speaker A (Japanese speaker) (SP1) presses the button ([#] [1]) on the
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A20、(状態=2(受付)、言語ID=1(日本語):T02))。
The
システムの状態は、DTMF信号(言語選択)イベントを受けて、受付(状態=2)に遷移する(S02)。
次に、電話端末10から話者Aの音声データ(日本語)が送信されてきたものとする(A02)。このとき、通話データテーブル330の音声♯20の構造体に、値が設定される(A21、グループID=1、種別=0(話者)、言語ID=1、シーケンシャルID=1、音声データ:T03)。
In response to the DTMF signal (language selection) event, the system state transitions to reception (state = 2) (S02).
Next, it is assumed that voice data (Japanese) of the speaker A is transmitted from the telephone terminal 10 (A02). At this time, values are set in the structure of the
次に、日本語の話者Aから英語の話者Bに電話が受け渡されたものとする(SP1→SP2)。 Next, it is assumed that a call is handed over from Japanese speaker A to English speaker B (SP1 → SP2).
そして、話者B(英語話者)(SP2)が、電話端末10のボタン([#][2])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A03)。
Then, the speaker B (English speaker) (SP2) presses the button ([#] [2]) on the
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A22、(状態=3(翻訳中)、言語ID=2(英語):T04))。
Upon receiving the DTMF signal, the
そして、日本語から英語の翻訳が開始され、翻訳中状態(状態=3)になる(S03)。 Then, translation from Japanese into English is started, and a translation state (state = 3) is entered (S03).
言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A23、A24、T05、S04)。
次に、送信制御部120は、翻訳された音声を取り出して(A25)、話者Aの音声の翻訳結果(日本語→英語)として、電話端末10に送信する(A04)。
Upon receiving an instruction from the
Next, the
そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A26、S05)。
When the transmission of the translated voice is completed, the
ここで、話者Bが、電話により伝達された音声を聞きもらした、あるいは、理解しがたいなどと感じて、もう一度聞きたいという意思をもったとする。このときには、話者Bは、電話端末10のキー装置13を操作して、リピートを指示するボタン([#][*])を押下する。これにより、電話端末10からコミュニケーションサーバ100に、リピート再生を意味するDTMF信号が伝えられる(A05)。
Here, it is assumed that the speaker B hears the voice transmitted through the telephone or feels that it is difficult to understand and has an intention to listen again. At this time, the speaker B operates the
そして、コミュニケーション制御部150は、通話状態テーブル320の状態を、翻訳音声送信中状態(状態=4)にする(A27、S06)。
Then, the
次に、送信制御部120は、コミュニケーション制御部150の指示にしたがい、翻訳された音声データを取り出して(A28)、話者Aの音声の翻訳結果(日本語→英語)として、再度、電話端末10に送信する(A06)。
Next, according to the instruction of the
そして、2回目の翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A29、S07)。
When the second transmission of the translated voice is completed, the
次に、話者Bが話して、電話端末10から音声(英語)が伝えられたものとする(A07、A08)。 Next, it is assumed that the speaker B speaks and voice (English) is transmitted from the telephone terminal 10 (A07, A08).
それにより、順次、通話データテーブル330に、音声データが書き込まれる(A30、T09、A31、T10)。 Thereby, the voice data is sequentially written in the call data table 330 (A30, T09, A31, T10).
次に、英語の話者Bから日本語の話者Aに電話が受け渡されたものとする(SP2→SP3)。 Next, it is assumed that the telephone is delivered from the English speaker B to the Japanese speaker A (SP2 → SP3).
そして、話者A(日本語話者)(SP3)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(図10BのA09)。
Then, the speaker A (Japanese speaker) (SP3) presses the button ([#] [1]) on the
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A32、(状態=3(翻訳中)、言語ID=1(日本語):T11))。
The
そして、英語から日本語の翻訳が開始され、翻訳中状態(状態=3)になる(S08)。 Then, translation from English into Japanese is started, and a translation state (state = 3) is entered (S08).
言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A33、A34、T12、S09)。
次に、送信制御部120は、翻訳された音声データを、順次取り出して(A35)、話者Bの音声の翻訳結果(英語→日本語)として、電話端末10に送信する(A10、A11)。
Upon receiving an instruction from the
Next, the
そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A36、S10)。
When transmission of the translated voice is completed, the
次に、話者Aが話して、電話端末10から音声(日本語)が伝えられたものとする(A12)。 Next, it is assumed that the speaker A speaks and voice (Japanese) is transmitted from the telephone terminal 10 (A12).
それにより、通話データテーブル330に、音声データが書き込まれる(A37、T14)。 Thereby, voice data is written in the call data table 330 (A37, T14).
以下は、通話終了まで同様のシークエンスが繰り返される。 Thereafter, the same sequence is repeated until the end of the call.
次に、図11ないし図13を用いて、コミュニケーションシステムの処理について説明する。
図11は、コミュニケーションサーバの処理を示す概要フローチャートである。
図12は、音声解析処理を示すフローチャートである。
図13は、リピート処理を示すフローチャートである。
Next, processing of the communication system will be described with reference to FIGS. 11 to 13.
FIG. 11 is a schematic flowchart showing processing of the communication server.
FIG. 12 is a flowchart showing the voice analysis process.
FIG. 13 is a flowchart showing the repeat process.
先ず、コミュニケーションサーバ100は、電話端末10から電話回線5を介して信号を受け、受信制御部110のデコーダ111は、送信された信号を解析し(S100)、制御信号か、DTMF信号か、音声信号かを判別し、その結果にしたがって、制御信号解析部112、DTMF信号解析部113、音声解析部114に振り分ける(S101)。
First, the
制御信号が、発呼信号のときには、受信制御部110の制御信号解析部112は、通話データ出力部115に連絡し、呼IDを設定する(S130)。
When the control signal is a call signal, the control
制御信号が、DTMF信号のときには、受信制御部110のDTMF信号解析部113は、その解析情報を通信データ出力部115に連絡し、通信データ出力部115は、DTMF信号が、ボタン対応テーブル310により必要な言語、機能の情報を取り出す(S102)。
When the control signal is a DTMF signal, the DTMF
制御信号が、音声信号のときには、音声解析処理を行う(S150)。なお、音声解析処理については、後に、図12のフローチャートにより後に詳述する。 When the control signal is an audio signal, an audio analysis process is performed (S150). The voice analysis process will be described later in detail with reference to the flowchart of FIG.
制御信号が、DTMF信号のときに、DTMF信号の送信が初回処理のときには(S103:Yes)、通話データ出力部115は、グループIDの値を初期化し(S140)、言語IDを通話データテーブル330に書き込む(S141)。
When the control signal is the DTMF signal and the transmission of the DTMF signal is the first process (S103: Yes), the call
DTMF信号の送信が初回ではなく(S103:No)、そのDTMF信号がリピートを表す信号のときは(S104:Yes)、DTMF信号解析部113は、コミュニケーション制御部150に連絡する。送信制御部120は、コミュニケーション制御部150の指示にしたがって、リピート処理を行ない(S160)、リピート処理で取り出した音声データを、送信制御部120のエンコーダ121が送信信号にエンコードして、電話端末10に送信する。なお、リピート処理については、図13のフローチャートにより後に詳述する。
When the transmission of the DTMF signal is not the first time (S103: No) and the DTMF signal is a signal indicating repeat (S104: Yes), the DTMF
そのDTMF信号がリピートを表す信号ではないときは(S104:No)、指定された言語の言語IDに設定を切り換える(S105)。 If the DTMF signal is not a signal representing repeat (S104: No), the setting is switched to the language ID of the designated language (S105).
呼ID、言語ID、グループID、種別、シーケンシャルIDなどのパラメタが、コミュニケーション制御部150経由で、通話データ出力部115から言語処理部200に渡され、言語処理部200は、コミュニケーション制御部150の指示に従い、通話データテーブル330から該当する音声データを取得し(S106)、翻訳処理を行う(S107)。また、言語IDを切り換え、種別を翻訳音声として、翻訳音声の音声データを通話データテーブル330に格納する(S108)。なお、音声データを認識したテキスト、翻訳テキストも通話データテーブル330に書き込まれる。
Parameters such as a call ID, a language ID, a group ID, a type, and a sequential ID are passed from the call
そして、全てのシーケンシャルIDの音声データ(一文の音声データ)を翻訳済みのときには(S109:Yes)、次のS110のステップに行き、翻訳済みでないときには(S109:No)、シーケンシャルIDを更新し(S113)、S106に戻り、処理を繰り返す。 If all the sequential ID voice data (one sentence voice data) has been translated (S109: Yes), the process proceeds to the next step S110. If not translated (S109: No), the sequential ID is updated (S109: No). S113), returning to S106, the process is repeated.
グループIDに属する全ての音声データを翻訳したときには、コミュニケーション制御部150から指示を受け、送信制御部120の通話データ入力部122は、通話データテーブル330から翻訳済みかつ未送信の翻訳音声の音声データを取り出し(S110)、かつ、受信制御部110の通話データ出力部115は、グループIDを更新する(S111)。
When all voice data belonging to the group ID is translated, the
そして、送信制御部120のエンコーダが、S110で取り出した音声データを送信信号にエンコードして(S112)、電話端末10に送信する。
Then, the encoder of the
次に、図12を用いてS150の音声解析処理について説明する。 Next, the voice analysis process of S150 will be described with reference to FIG.
先ず、受信制御部110の通話データ出力部115は、シーケンシャルIDを初期化する(S200)。
First, the call
次に、音声データの有無を判定し(S201)、音声データがないときには(S201:No)、処理を終了し、音声データがあるときには(S201:Yes)、次に、S202判定に行く(S202)。 Next, the presence / absence of voice data is determined (S201). When there is no voice data (S201: No), the process is terminated. When voice data is present (S201: Yes), the process goes to S202 (S202). ).
音声データに区切り(無音部分)があるときには(S202:Yes)、呼ID、言語ID、グループID、シーケンシャルIDに基づいて、通話データテーブル330に、その区切りの部分までの音声データを格納し(S203)、シーケンシャルIDを更新し(S204)、S201の判断に戻る。 When there is a break (silent part) in the voice data (S202: Yes), the voice data up to the break part is stored in the call data table 330 based on the call ID, language ID, group ID, and sequential ID ( S203), the sequential ID is updated (S204), and the process returns to the determination of S201.
音声データに区切りがないときには(S202:No)、区切り判断のポインタをインクリメントし(S205)、S202の判断に戻る。 When there is no break in the audio data (S202: No), the break determination pointer is incremented (S205), and the process returns to the determination of S202.
次に、図13を用いてS160のリピート処理について説明する。 Next, the repeat process of S160 will be described with reference to FIG.
先ず、送信制御部120の通話データ入力部は、コミュニケーション制御部150からの指示を受け、呼ID、言語ID、グループID、種別、シーケンシャルIDに基づいて、通話データテーブル330から、直前に送信した音声データを取得する(S300)。
First, the call data input unit of the
そして、そのグループID内の全てのシーケンシャルIDの音声データを取得したときには(S301:Yes)、処理を終了し、取得していないシーケンシャルIDの音声データがあるときには(S301:No)、シーケンシャルIDを更新し(S302)、S300に戻る。 When the audio data of all the sequential IDs in the group ID are acquired (S301: Yes), the process is ended. When there is audio data of the sequential ID that has not been acquired (S301: No), the sequential ID is changed. Update (S302) and return to S300.
本実施形態のコミュニケーションシステムは、特殊な信号を生成する装置ではなく、DTMF信号をサポートしている全ての電話端末で利用可能であるという特徴がある。また、電話のボタンをプッシュすることは、広く普及している方法なので、自動翻訳を利用した経験のない者でも、とまどいなく簡便に利用できる
さらに、話者が言語を明確に指定するので、翻訳側の装置の負荷が少なく、判定も短時間で行なえるという特徴がある。
The communication system according to the present embodiment is not an apparatus that generates a special signal, but is characterized in that it can be used by all telephone terminals that support the DTMF signal. Pushing a button on a phone is a widely used method, so even those who have never used automatic translation can easily use it without difficulty. In addition, the speaker clearly specifies the language, so There is a feature that the load on the side device is small and the determination can be performed in a short time.
また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動翻訳の音声を聞く場合に、利用者にとって、自分の言語種別をキーにより指定した後に、相手の翻訳音声が流されるので、聞き逃しを防止することができるという特徴がある。 Also, in the face-to-face speech interpretation, when listening to the voice of automatic translation while alternately passing one phone, the translated voice of the other party is played after the user specifies his / her language type with the key. There is a feature that it is possible to prevent missed listening.
5…電話回線
10…電話端末
11…受話器
12…送話器
13…キー装置
14…音声信号変換部
15…接続制御部
16…DTM信号生成部
100…コミュニケーションサーバ
110…受信制御部
120…送信制御部
150…コミュニケーション制御部
160…データベースアクセス部
200…言語処理部
300…データベース
310…ボタン対応テーブル
320…通話状態テーブル
330…通話データテーブル
DESCRIPTION OF
Claims (4)
前記電話端末は、前記コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信する手段とを有し、
前記コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、前記電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、前記電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有し、
前記コミュニケーションサーバは、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、前記通話データテーブルに格納し、
前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信することを特徴するコミュニケーションシステム。 A communication system in which a telephone terminal and a communication server are connected by a telephone line,
Means for transmitting and receiving a call to the communication server; means for generating a DTMF (Dual-Tone Multi-Frequency) signal by input from a key device; and transmitting the signal to the communication server via the telephone line; Have
The communication server includes a language processing unit that performs speech translation from a first language to a second language, and voice in a first language related to a voice signal transmitted through the telephone line. Means for translating and transmitting to the telephone terminal; voice data in the language of the speaker; and a call data table for storing voice data of translated voice obtained by translating the voice data;
When the communication server receives the first DTMF signal from the telephone terminal, it receives the first DTMF signal until it receives the second DTMF signal operated and transmitted by another speaker. Storing the voice related to the voice signal received in the call data table as voice data in the language represented by the first DTMF signal,
After the second DTMF signal is transmitted, the speech signal related to the speech data of the translated speech obtained by translating the speech data of the language represented by the first DTMF signal into the language represented by the second DTMF signal, A communication system characterized by transmitting to the telephone terminal.
前記電話端末が、前記コミュニケーションサーバに通話を送受信するステップと、
前記電話端末が、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信するステップと、
前記コミュニケーションサーバが、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納するステップと、
前記コミュニケーションサーバが、前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信するステップとを有することを特徴するコミュニケーション方法。 A communication method in a communication system in which a telephone terminal and a communication server are connected by a telephone line,
The telephone terminal transmitting and receiving a call to the communication server;
The telephone terminal generates a DTMF (Dual-Tone Multi-Frequency) signal by input from a key device and transmits the signal to the communication server via the telephone line;
When the communication server receives the first DTMF signal from the telephone terminal, it receives the first DTMF signal until receiving the second DTMF signal operated and transmitted by another speaker. Storing the voice related to the voice signal received in the speech data table as voice data in the language represented by the first DTMF signal;
After the communication server transmits the second DTMF signal, the speech data of the language represented by the first DTMF signal is converted into the speech data of the translated speech that is translated into the language represented by the second DTMF signal. And transmitting the voice signal to the telephone terminal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222505A JP6342972B2 (en) | 2016-11-15 | 2016-11-15 | Communication system and communication method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222505A JP6342972B2 (en) | 2016-11-15 | 2016-11-15 | Communication system and communication method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018082269A JP2018082269A (en) | 2018-05-24 |
JP6342972B2 true JP6342972B2 (en) | 2018-06-13 |
Family
ID=62199107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016222505A Expired - Fee Related JP6342972B2 (en) | 2016-11-15 | 2016-11-15 | Communication system and communication method thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6342972B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003022267A (en) * | 2001-07-06 | 2003-01-24 | Sony Corp | Automatic translation system, automatic translation terminal equipment, automatic translation providing device, automatic translation method, program and recording medium |
JP2003141116A (en) * | 2001-10-29 | 2003-05-16 | Nec System Technologies Ltd | Translation system, translation method and translation program |
KR100485909B1 (en) * | 2002-11-06 | 2005-04-29 | 삼성전자주식회사 | Third-party call control type simultaneous interpretation system and method thereof |
JP2004179838A (en) * | 2002-11-26 | 2004-06-24 | Sony Ericsson Mobilecommunications Japan Inc | Mobile communication terminal and translation system |
JP5967569B2 (en) * | 2012-07-09 | 2016-08-10 | 国立研究開発法人情報通信研究機構 | Speech processing system |
-
2016
- 2016-11-15 JP JP2016222505A patent/JP6342972B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2018082269A (en) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7519359B2 (en) | Voice tagging of automated menu location | |
CN1333385C (en) | Voice browser dialog enabler for a communication system | |
US6490343B2 (en) | System and method of non-spoken telephone communication | |
JP2003163745A (en) | Telephone set, interactive responder, interactive responding terminal, and interactive response system | |
CN103139404A (en) | System and method for generating interactive voice response display menu based on voice recognition | |
US20050124322A1 (en) | System for communication information from a server via a mobile communication device | |
US20210249007A1 (en) | Conversation assistance device, conversation assistance method, and program | |
CN105338204A (en) | Interactive voice response method and device | |
JP3820245B2 (en) | Three-way call automatic interpretation system and method | |
KR101367722B1 (en) | Method for communicating voice in wireless terminal | |
US8724780B2 (en) | Voice interaction method of mobile terminal based on voiceXML and mobile terminal | |
KR100544810B1 (en) | Radio mobile terminal communication system | |
CN111554280A (en) | Real-time interpretation service system for mixing interpretation contents using artificial intelligence and interpretation contents of interpretation experts | |
US7805145B2 (en) | Information search system using radio portable terminal | |
JP6342972B2 (en) | Communication system and communication method thereof | |
JP5175231B2 (en) | Call system, call method, call program, telephone terminal and exchange | |
KR100370973B1 (en) | Method of Transmitting with Synthesizing Background Music to Voice on Calling and Apparatus therefor | |
JP3797497B2 (en) | Message creation method for pager | |
CN113053389A (en) | Voice interaction system and method for switching languages by one key and electronic equipment | |
US20040049386A1 (en) | Speech recognition method and system for a small device | |
WO2005101801A1 (en) | Communication device and program execution method | |
KR20020048669A (en) | The Development of VoiceXML Telegateway System for Voice Portal | |
EP3035207A1 (en) | Speech translation device | |
KR100642577B1 (en) | Method and apparatus for transforming voice message into text message and transmitting the same | |
KR20090032053A (en) | Method for construction personal phone book database using speech recognition, and automatic call connection service method and system using it |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180517 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6342972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |