JP6342972B2 - Communication system and communication method thereof - Google Patents

Communication system and communication method thereof Download PDF

Info

Publication number
JP6342972B2
JP6342972B2 JP2016222505A JP2016222505A JP6342972B2 JP 6342972 B2 JP6342972 B2 JP 6342972B2 JP 2016222505 A JP2016222505 A JP 2016222505A JP 2016222505 A JP2016222505 A JP 2016222505A JP 6342972 B2 JP6342972 B2 JP 6342972B2
Authority
JP
Japan
Prior art keywords
voice
signal
language
dtmf signal
telephone terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016222505A
Other languages
Japanese (ja)
Other versions
JP2018082269A (en
Inventor
吉田 大輔
大輔 吉田
大輔 渡邊
大輔 渡邊
飯島 雅之
雅之 飯島
正尚 平光
正尚 平光
信之 鹿又
信之 鹿又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2016222505A priority Critical patent/JP6342972B2/en
Publication of JP2018082269A publication Critical patent/JP2018082269A/en
Application granted granted Critical
Publication of JP6342972B2 publication Critical patent/JP6342972B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、コミュニケーションシステム及びそのコミュニケーション方法に係り、特に、電話端末により音声を受け付けて音声翻訳を行う用途に用いて好適なコミュニケーションシステム及びそのコミュニケーション方法に関する。   The present invention relates to a communication system and a communication method thereof, and more particularly, to a communication system and a communication method thereof suitable for use in receiving speech from a telephone terminal and performing speech translation.

近年、インターネットなど、コミュニケーションのためのインフラは、地球規模で発達し、コミュニケーションのグローバル化が急速に進んでいる。このような状況の元で、情報処理技術の進展に伴って、自動音声翻訳が注目を集めている。   In recent years, communication infrastructure such as the Internet has been developed on a global scale, and the globalization of communication is rapidly progressing. Under such circumstances, automatic speech translation is attracting attention as information processing technology advances.

自動音声翻訳は、入力された人の音声を、音声認識し、テキスト化し、その入力された言語のテキストを目的言語のテキストに自動翻訳し、さらに、翻訳されたテキストを目的言語の音声に変換して、出力するシステムである。   Automatic speech translation recognizes the voice of the input person, converts it into text, automatically translates the text in the input language into text in the target language, and converts the translated text into speech in the target language And a system that outputs.

このような自動音声翻訳を利用した技術としては、例えば、特許文献1がある。特許文献1には、携帯端末から受け付けた音声データから緊急度及び言語種別を判定し、緊急度が高い場合には各種言語に精通した通訳者を選択し、緊急度が低い場合には機械翻訳サーバに機械翻訳させる技術が開示されている。   As a technique using such automatic speech translation, for example, there is Patent Document 1. In Patent Document 1, the urgency level and language type are determined from voice data received from a mobile terminal. When the urgency level is high, an interpreter who is familiar with various languages is selected. When the urgency level is low, machine translation is performed. A technique for causing a server to perform machine translation is disclosed.

特開2016−66983号公報Japanese Patent Laid-Open No. 2006-66983

自動音声翻訳により、音声翻訳をする際には、予め入力言語(原文言語)と出力言語(訳文言語)を指定する必要がある。上記特許文献1のように、スマートフォンなどの携帯端末を使用する場合は、画面をタップすることで言語指定をすることができる。しかしながら、一般の固定電話機の場合は、同じ方法での指定ができないという問題点がある。   When speech translation is performed by automatic speech translation, it is necessary to specify an input language (source language) and an output language (translation language) in advance. When using a mobile terminal such as a smartphone as in Patent Document 1, a language can be specified by tapping the screen. However, in the case of a general fixed telephone, there is a problem that it cannot be specified in the same way.

また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動音声翻訳システムを利用して、相手の発話を翻訳した音声を聞く応用が考えられる。このような場合には、電話機の受け渡しタイミングのばらつきにより出力音声の冒頭が聞こえないおそれがあるという問題点がある。   Further, in face-to-face speech interpretation, it is conceivable to use an automatic speech translation system to listen to speech translated from the other party's utterance while alternately passing one telephone. In such a case, there is a problem that the beginning of the output voice may not be heard due to variations in the delivery timing of the telephone.

さらに、言語種別の特定に関して言えば、特許文献1記載の通訳サービスシステムにおいては、「英語」「フランス語」などのキーワードを言語種別ごとに用意して、警備員又は外国人がそのキーワードを発話することによって、外国人の発話言語を特定する(段落番号0059)。   Further, regarding the specification of the language type, in the interpreting service system described in Patent Document 1, a keyword such as “English” or “French” is prepared for each language type, and a security guard or a foreigner speaks the keyword. Thus, the foreign language is specified (paragraph number 0059).

しかしながら、特許文献1記載による言語種別の判定は、迂遠であり、処理系にも負荷がかかり、コミュニケーションのための余計な時間がかかって、対面音声通訳において、1台の電話機を交互に受け渡す応用においては、円滑に受け渡すことができないという問題点がある。   However, the determination of the language type described in Patent Document 1 is a detour, a load is imposed on the processing system, and it takes extra time for communication, so that one telephone is alternately transferred in the face-to-face speech interpretation. In application, there is a problem that it cannot be delivered smoothly.

本発明は、上記問題点を解決するためになされたもので、その目的は、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することにある。   The present invention was made to solve the above problems, and its purpose is to specify a language type with a simple specification when a telephone and an automatic speech translation system exchange voice over a telephone line. In a face-to-face voice interpreter, when a single telephone is handed over alternately, a communication system that allows smooth handing over, allows the handed-over handset to hear the appropriate voice, and prevents missed voices, and It is to provide the communication method.

本発明に係るコミュニケーションシステムは、電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、電話端末は、コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、コミュニケーションサーバに送信する手段とを有し、コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有するものである。そして、コミュニケーションサーバは、電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、第一のDTMF信号受信それ以降に受信する音声信号に係る音声を、第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納し、第二のDTMF信号が送信されてきた後に、第一のDTMF信号の表す言語の音声データを、第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、電話端末に送信する。   A communication system according to the present invention is a communication system in which a telephone terminal and a communication server are connected by a telephone line, and the telephone terminal transmits a call to and from the communication server and inputs from a key device. Tone Multi-Frequency) signal is generated and transmitted to the communication server. The communication server is transmitted by the language processing unit that performs speech translation from the first language to the second language, and transmitted by the telephone line. Means for translating the first language voice related to the incoming voice signal into the second language and transmitting it to the telephone terminal, voice data of the speaker language, and the voice of the translated voice obtained by translating the voice data A call data table for storing data. When the communication server receives the first DTMF signal from the telephone terminal, the communication server receives the first DTMF signal until it receives the second DTMF signal operated and transmitted by another speaker. The voice related to the voice signal received is stored in the call data table as voice data in the language represented by the first DTMF signal, and the language represented by the first DTMF signal is transmitted after the second DTMF signal is transmitted. The speech signal related to the speech data of the translated speech obtained by translating the speech data into the language represented by the second DTMF signal is transmitted to the telephone terminal.

本発明によれば、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することができる。   According to the present invention, when a telephone and an automatic speech translation system exchange voice over a telephone line, the language type can be designated with simple designation, and one telephone is alternately delivered in face-to-face speech interpretation. In addition, it is possible to provide a communication system and a communication method capable of smoothly delivering, allowing a person who has received the handset to hear the sound with an appropriate voice, and preventing the voice from being missed.

コミュニケーションシステムの全体構成図である。1 is an overall configuration diagram of a communication system. 電話端末の機能構成図である。It is a functional block diagram of a telephone terminal. コミュニケーションサーバの構成図である。It is a block diagram of a communication server. コミュニケーション制御部が認識する状態を説明する図である。It is a figure explaining the state which a communication control part recognizes. コミュニケーション制御部が受け付けるイベントを説明する図である。It is a figure explaining the event which a communication control part receives. イベントによる状態遷移を状態遷移図である。It is a state transition diagram showing the state transition due to an event. 状態と発生するイベントによる処理マトリックスを示す図である。It is a figure which shows the process matrix by a state and the event which generate | occur | produces. ボタン対応テーブル310の仕様を説明する図である。It is a figure explaining the specification of the button corresponding | compatible table. 通話状態テーブル320の仕様を説明する図である。It is a figure explaining the specification of the call state table. 通話データテーブル330の仕様を説明する図である。It is a figure explaining the specification of the call data table. コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である(その一)。FIG. 2 is a schematic sequence diagram showing delivery between each component of a communication system and a state of the system (part 1). コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である(その二)。It is a general | schematic sequence diagram which shows the delivery between each component of a communication system, and the state of a system (the 2). コミュニケーションサーバの処理を示す概要フローチャートである。It is a general | schematic flowchart which shows the process of a communication server. 音声解析処理を示すフローチャートである。It is a flowchart which shows an audio | voice analysis process. リピート処理を示すフローチャートである。It is a flowchart which shows a repeat process.

以下、本発明に係る各実施形態を、図1ないし図13を用いて説明する。   Embodiments according to the present invention will be described below with reference to FIGS.

先ず、図1及び図3を用いて、本発明の実施形態に係るコミュニケーションシステムの構成について説明する。
図1は、コミュニケーションシステムの全体構成図である。
図2は、電話端末の機能構成図である。
図3は、コミュニケーションサーバの構成図である。
First, the configuration of a communication system according to an embodiment of the present invention will be described with reference to FIGS. 1 and 3.
FIG. 1 is an overall configuration diagram of a communication system.
FIG. 2 is a functional configuration diagram of the telephone terminal.
FIG. 3 is a configuration diagram of the communication server.

本実施形態のコミュニケーションシステムは、図1に示されるように、電話端末10とコミュニケーションサーバ100が、電話回線5により接続された形態である。   As shown in FIG. 1, the communication system of the present embodiment is a form in which a telephone terminal 10 and a communication server 100 are connected by a telephone line 5.

電話回線5は、公衆回線でもよいし、企業内のPBX(Private Branch eXchange)により回線交換される構内回線でもよい。また、アナログ回線でもよいし、デジタル回線でもよい。   The telephone line 5 may be a public line or a private line that is switched by a private branch exchange (PBX) in a company. Also, an analog line or a digital line may be used.

電話端末10は、DTMF(Dual-Tone Multi-Frequency)信号(いわゆるプッシュ信号)を発信可能な電話機である必要がある。DTMF信号とは、0から9までの数字と、*、#、A、B、C、Dの記号の計16種類の符号を、低群・高群の二つの音声周波数帯域の合成信号音で送信する信号である。また、電話端末10に接続されている回線は、DTMF信号を送信可能な回線とする。   The telephone terminal 10 needs to be a telephone capable of transmitting a DTMF (Dual-Tone Multi-Frequency) signal (so-called push signal). A DTMF signal is a composite signal sound of two voice frequency bands of low and high groups, consisting of numbers from 0 to 9 and symbols of *, #, A, B, C, and D in total. A signal to be transmitted. The line connected to the telephone terminal 10 is a line that can transmit a DTMF signal.

電話端末10は、図2に示されるように、受話器11、送話器12、キー装置13、音声信号変換部14、接続制御部15、DTM信号生成部16からなる。受話器11、送話器12は、それぞれ受話のためのスピーカ、送話のためのマイクである。音声信号変換部14は、電話回線からの電気信号を音声に変換し、送話器12から音声を電気信号に変換する部分である。接続制御部15は、着呼、発呼を制御して、電話端末10と回線の接続、切断を行う部分である。DTM信号生成部16は、キー装置13の入力にしたがって、所定の周波数のDTM信号を生成する装置である。   As shown in FIG. 2, the telephone terminal 10 includes a receiver 11, a transmitter 12, a key device 13, an audio signal converter 14, a connection controller 15, and a DTM signal generator 16. The receiver 11 and the transmitter 12 are a speaker for receiving and a microphone for transmitting, respectively. The voice signal conversion unit 14 is a part that converts an electrical signal from the telephone line into voice and converts the voice from the transmitter 12 into an electrical signal. The connection control unit 15 is a part that controls incoming / outgoing calls to connect / disconnect the line to / from the telephone terminal 10. The DTM signal generator 16 is a device that generates a DTM signal having a predetermined frequency in accordance with an input from the key device 13.

電話端末10を利用する者は、キー装置13から言語ごとに定められた規約のボタンにしたがって、自分の言語種別を入力できる。例えば、[#][1]は、日本語、[#][2]は、英語、[#][3]は、中国語のごとくである。電話端末10は、それをDTM信号に変換し、電話端末10の利用者の言語を判定するための信号として、電話回線5を介して、コミュニケーションサーバ100に送信する。   A person who uses the telephone terminal 10 can input his / her language type from the key device 13 according to a button of a rule defined for each language. For example, [#] [1] is Japanese, [#] [2] is English, and [#] [3] is Chinese. The telephone terminal 10 converts it into a DTM signal and transmits it to the communication server 100 via the telephone line 5 as a signal for determining the language of the user of the telephone terminal 10.

コミュニケーションサーバ100は、電話回線5を介して送信される音声信号をデコードして、音声に変換し、それを指定された言語(以下、「翻訳言語」という)に係る音声に翻訳し(以下、翻訳された音声を「翻訳音声」という)、その音声をエンコードして、電話回線5を介して電話端末10に送信する装置である。   The communication server 100 decodes a voice signal transmitted via the telephone line 5, converts it into voice, and translates it into voice according to a designated language (hereinafter referred to as “translation language”) (hereinafter referred to as “translation language”). This is a device that encodes the translated speech and transmits it to the telephone terminal 10 via the telephone line 5.

コミュニケーションサーバ100は、図3に示されるように、受信制御部110、送信制御部120、コミュニケーション制御部150、データベースアクセス部160、言語処理部200、データベース300からなる。   As illustrated in FIG. 3, the communication server 100 includes a reception control unit 110, a transmission control unit 120, a communication control unit 150, a database access unit 160, a language processing unit 200, and a database 300.

受信制御部110は、図3に示されるように、デコーダ111、制御信号解析部112、DTMF信号解析部113、音声解析部114、通話データ出力部115からなり、受信時の音声信号、DTMF信号の判別とデコード、受信した情報のデータベースへの書込みを行う部分である。受信制御部110は、電話端末10からの制御信号、音声信号、又は、DTMF信号を電話回線を介して受信し、デコーダ111によりデコードする。そして、制御信号かDTMF信号か、あるいは、音声かを判別し、制御信号の場合は、呼の呼び出しを認識して、通話データ出力部115に報告する。DTMF信号の場合は、DTMF信号解析部113が、DTMF信号に含まれている周波数を解析し、どのボタンが電話端末10で押下されたかの認識を行ない、通話データ出力部115に報告する。音声の場合は、音声解析部114が、一文を判断して、その音声データを、通話データ出力部115に報告する。   As shown in FIG. 3, the reception control unit 110 includes a decoder 111, a control signal analysis unit 112, a DTMF signal analysis unit 113, a voice analysis unit 114, and a call data output unit 115. The reception voice signal and DTMF signal are received. This is the part that determines and decodes and writes the received information to the database. The reception control unit 110 receives a control signal, a voice signal, or a DTMF signal from the telephone terminal 10 via a telephone line and decodes it by the decoder 111. Then, it is discriminated whether it is a control signal, a DTMF signal, or a voice, and if it is a control signal, it recognizes the call of the call and reports it to the call data output unit 115. In the case of a DTMF signal, the DTMF signal analysis unit 113 analyzes the frequency included in the DTMF signal, recognizes which button is pressed on the telephone terminal 10, and reports it to the call data output unit 115. In the case of voice, the voice analysis unit 114 determines one sentence and reports the voice data to the call data output unit 115.

通話データ出力部115は、新たな呼の呼び出しがあったときには、新たな呼IDを生成する。また、ボタン対応テーブル310を参照して、押されたボタンに対応する話者の言語IDを取得する。そして、音声解析部114から音声が出力されたときには、呼ごとに異なる呼ID、話者が切り替わるごとに更新されるグループID、話者発話の一文ごとに更新されるシーケンシャルID、話者の音声かテキストか翻訳した音声かテキストかを示すフラグである種別、音声の言語を表す言語IDの情報を付加したデータを作成し、データベースアクセス部160を介して、通話データテーブル330に保存する。また、一文終了後、次の一文を受け付けるためにシーケンシャルIDを更新する。呼ID、グループID、種別、言語ID、シーケンシャルIDについては、後に、通話データテーブル330の説明の所でも説明する。   The call data output unit 115 generates a new call ID when a new call is called. Further, referring to the button correspondence table 310, the language ID of the speaker corresponding to the pressed button is acquired. When voice is output from the voice analysis unit 114, a different call ID for each call, a group ID that is updated each time the speaker is switched, a sequential ID that is updated for each sentence of the speaker utterance, and the voice of the speaker Then, data is added to which is added a type ID that is a flag indicating whether it is text, translated speech, or text, and language ID information that represents the language of the speech, and is stored in the call data table 330 via the database access unit 160. Also, after the end of one sentence, the sequential ID is updated to accept the next sentence. The call ID, group ID, type, language ID, and sequential ID will be described later in the description of the call data table 330.

送信制御部120は、図3に示されるように、エンコーダ121、通話データ入力部122からなり、翻訳された音声を音声信号として、電話端末10に送り返すための制御をする部分である。送信制御部120は、コミュニケーション制御部150の指示にしたがって、通話データテーブル330から音声データを取り出し、電話端末10に送り返す制御を行う。すなわち、コミュニケーション制御部150が指示するタイミングで、送信制御部120の通話データ入力部122は、指定された言語の音声データのうち、未送信の音声データをグループID、シーケンシャルIDなどの情報に基づいて、データベースアクセス部160を介して通話データテーブル330から取得し、エンコーダ121よりエンコードして、電話端末10に送信する。   As shown in FIG. 3, the transmission control unit 120 includes an encoder 121 and a call data input unit 122, and is a part that performs control for returning the translated voice to the telephone terminal 10 as a voice signal. The transmission control unit 120 performs control to extract voice data from the call data table 330 and send it back to the telephone terminal 10 in accordance with an instruction from the communication control unit 150. That is, at the timing instructed by the communication control unit 150, the call data input unit 122 of the transmission control unit 120 sets unsent voice data among the voice data in the specified language based on information such as a group ID and a sequential ID. The data is acquired from the call data table 330 via the database access unit 160, encoded by the encoder 121, and transmitted to the telephone terminal 10.

コミュニケーション制御部150は、受信制御部110から送られてくるDTMF信号の解析情報と通話データテーブル330に格納された状態にしたがって、言語処理部200、送信制御部120に指示を与える部分である。   The communication control unit 150 is a part that gives instructions to the language processing unit 200 and the transmission control unit 120 according to the analysis information of the DTMF signal sent from the reception control unit 110 and the state stored in the call data table 330.

言語処理部200は、図3に示されるように、音声認識部210、翻訳エンジン220、音声合成部230からなり、音声を入力して、指定された言語にしたがって、翻訳し、翻訳言語の音声として、出力する部分である。音声認識部210は、指定された言語種別を認識して、テキスト化する。翻訳エンジン220では、翻訳辞書に基づいて、ある言語(例えば、日本語)を他の言語(例えば、英語)に翻訳する。音声合成部230は、翻訳言語のテキストを音声データに変換し、一つの読み取れる音声データとして出力する。   As shown in FIG. 3, the language processing unit 200 includes a speech recognition unit 210, a translation engine 220, and a speech synthesis unit 230. The language processing unit 200 inputs speech, translates it according to a designated language, and translates the speech of the translated language. As the output part. The voice recognition unit 210 recognizes the designated language type and converts it into text. The translation engine 220 translates a language (for example, Japanese) into another language (for example, English) based on the translation dictionary. The voice synthesizer 230 converts the text in the translation language into voice data and outputs it as one readable voice data.

データベースアクセス部160は、他のコンポーネントからのデータベース300の読み出し、書込みの機能を提供する部分である。   The database access unit 160 is a part that provides functions for reading and writing the database 300 from other components.

データベース300は、ボタン対応テーブル310、通話状態テーブル320、通話データテーブル330を保持している。なお、各々のテーブルについては、後に詳説する。   The database 300 holds a button correspondence table 310, a call state table 320, and a call data table 330. Each table will be described in detail later.

コミュニケーションサーバ100の各々の機能は、FPGA(field-programmable gate array)のようなハードウェアロジックで実装してもよいし、メモリ上にロードされ、OS上で動作するプログラムとして、汎用のCPU(Central Processing Unit)がそのプログラムを実行することにより機能が実現されるものであってもよい。   Each function of the communication server 100 may be implemented by hardware logic such as a field-programmable gate array (FPGA), or a general-purpose CPU (Central CPU) as a program loaded on a memory and operating on the OS. The function may be realized by the processing unit) executing the program.

次に、図4Aないし図6を用いて、コミュニケーションサーバ100上で扱う状態とイベント、及び、その関係について説明する。
図4Aは、コミュニケーション制御部が認識する状態を説明する図である。
図4Bは、コミュニケーション制御部が受け付けるイベントを説明する図である。
図5は、イベントによる状態遷移を示す状態遷移図である。
図6は、状態と発生するイベントによる処理マトリックスを示す図である。
Next, states and events handled on the communication server 100, and the relationship between them will be described with reference to FIGS. 4A to 6.
FIG. 4A is a diagram illustrating a state recognized by the communication control unit.
FIG. 4B is a diagram illustrating an event received by the communication control unit.
FIG. 5 is a state transition diagram showing state transition by event.
FIG. 6 is a diagram showing a processing matrix according to states and events that occur.

コミュニケーション制御部150は、「言語未選択」、「受付」、「翻訳中」、「翻訳音声送信中」の四つの状態を認識する。各々の状態の意味は、図4Aに示す如くである。なお、後の図では、状態を説明するのに、この番号を用いることにする。   The communication control unit 150 recognizes four states: “language not selected”, “acceptance”, “under translation”, and “translated speech transmission”. The meaning of each state is as shown in FIG. 4A. In the following figures, this number will be used to describe the state.

また、コミュニケーション制御部150は、「DTMF信号(言語選択)」、「音声」、「翻訳完了」、「翻訳音声送信終了」、「DTMF信号(リピート再生)」の五つのイベントを受け付ける。各々のイベントの意味は、図4Bに示すごとくである。   The communication control unit 150 accepts five events of “DTMF signal (language selection)”, “voice”, “translation completion”, “translation voice transmission end”, and “DTMF signal (repeat playback)”. The meaning of each event is as shown in FIG. 4B.

上で説明した状態は、イベントの発生により遷移する。図5は、その状態とそのときに発生する主要なものを示したものである。例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声」イベントが発生したときには、「2:受付」の状態にとどまることを意味している。   The state described above transitions when an event occurs. FIG. 5 shows the state and main things that occur at that time. For example, when a “DTMF signal (language selection)” event occurs in the “2: reception” state, the state transitions to “3: Under translation”, and when a “DTMF signal (repeat)” event occurs, When “4: Translated voice transmission is in progress” and a “voice” event occurs, it means that the state remains “2: reception”.

また、図6に示される状態と発生するイベントによる処理マトリックスは、状態をカラム、イベントをロウで表現したマトリックスであり、カラムで表現した状態のときに、ロウで表現したイベントが発生したときには、その交点にあたる部分が適用されることを示している。交点の要素は、「状態(付随処理)」のように表現されており、カラムで表現した状態のときに、ロウで表現したイベントが発生したときに、その状態に遷移し、付随処理がその遷移にしたがって開始又は継続されることを示している。   6 is a matrix in which the state is represented by a column and the event is represented by a row. When an event represented by a row occurs in a state represented by a column, It shows that the portion corresponding to the intersection is applied. The element at the intersection is expressed as “state (accompanying process)”. When an event expressed in row occurs in the state expressed in the column, the state transitions to that state, and the accompanying process It shows that it starts or continues according to the transition.

例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「翻訳開始」処理がされ、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声送信」が開始され、「音声」イベントが発生したときには、「2:受付」の状態にとどまり、「音声データ蓄積」処理が継続されることを示している。   For example, when a “DTMF signal (language selection)” event occurs in the “2: reception” state, the process transits to “3: translation in progress”, a “translation start” process is performed, and a “DTMF signal (repeat)” When an “event” occurs, a transition is made to “4: Translation voice transmission in progress”, “Voice transmission” is started, and when a “Voice” event occurs, the state remains “2: Accept”, and “Voice data storage” ”Indicates that the process is continued.

なお、図6の処理マトリックスでは、状態遷移図に示さなかった例外的な状態とイベントの関係も示されているが、後の処理の説明では、主に、図5の状態遷移図に示された状態とそのときに発生するイベントの例を取り上げることにする。   In the processing matrix of FIG. 6, the relationship between exceptional states and events not shown in the state transition diagram is also shown. However, in the description of the subsequent processing, it is mainly shown in the state transition diagram of FIG. Let's take a look at examples of events and events that occur.

次に、図7ないし図9を用いてコミュニケーションシステムで用いられるデータ構造について説明する。
図7は、ボタン対応テーブル310の仕様を説明する図である。
図8は、通話状態テーブル320の仕様を説明する図である。
図9は、通話データテーブル330の仕様を説明する図である。
Next, a data structure used in the communication system will be described with reference to FIGS.
FIG. 7 is a diagram for explaining the specifications of the button correspondence table 310.
FIG. 8 is a diagram for explaining the specifications of the call state table 320.
FIG. 9 is a diagram for explaining the specifications of the call data table 330.

ボタン対応テーブル310は、図7に示されるように、ボタン♯1、言語又は機能♯2、言語ID♯3のフィールドを有し、DTMF信号より割り出されたユーザが押下したボタンと各種情報を結びつけるテーブルである。ボタン♯1のフィールドは、DTMF信号を解析して得られたユーザがDTMF信号発生の際に、押下したボタンを格納する。言語又は機能♯2のフィールドは、ボタン♯1の値に対応する言語又は機能を格納する。例えば、[♯][1]は、日本語、[♯][*]は、リピートの如くである。言語ID♯3のフィールドは、各言語に対応する言語IDを格納する。   As shown in FIG. 7, the button correspondence table 310 has buttons # 1, language or function # 2, and language ID # 3. The button corresponding to the button pressed by the user determined from the DTMF signal and various information are displayed. It is a table to tie. The field of the button # 1 stores a button pressed by the user when the DTMF signal is generated by analyzing the DTMF signal. The language or function # 2 field stores the language or function corresponding to the value of the button # 1. For example, [#] [1] is Japanese, and [#] [*] is repeat. The language ID # 3 field stores a language ID corresponding to each language.

通話状態テーブル320は、図8に示されるように、呼ID♯1、状態♯2、言語ID♯3のフィールドを有し、コミュニケーション制御部150が参照する処理の状態を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。状態♯2のフィールドは、呼IDにより識別される呼の現在の状態を表す識別子を格納する。状態の意味は、図4Aで説明した通りである。言語ID♯3のフィールドは、現在選択されている言語の言語IDを格納する。   As shown in FIG. 8, the call state table 320 has fields for call ID # 1, state # 2, and language ID # 3, and is a table that stores the state of processing referred to by the communication control unit 150. The call ID # 1 field stores a call identifier uniquely given to each call. The field of state # 2 stores an identifier representing the current state of the call identified by the call ID. The meaning of the state is as described in FIG. 4A. The language ID # 3 field stores the language ID of the currently selected language.

通話データテーブル330は、図9に示されるように、呼ID♯1のフィールドと、m(mは、0以上の整数)個のテキスト♯10、m個の音声♯20の構造体を有し、呼IDごとに、通話に関する情報を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。   As shown in FIG. 9, the call data table 330 has a field of call ID # 1, m (m is an integer of 0 or more) text # 10, and m speech # 20 structures. This is a table for storing information related to a call for each call ID. The call ID # 1 field stores a call identifier uniquely given to each call.

テキスト♯10の構造体は、種別♯11、グループID♯12、言語ID♯13、シーケンシャルID♯14、テキストデータ♯15のメンバを有し、話者の認識テキスト、その翻訳後のテキストに関する情報を格納するものである。種別♯11は、そのテキストが話者の認識テキスト、その翻訳後のテキストかの別を示す識別子が格納する。グループID♯12は、話者の交代ごとに一意的に付与されるグループIDを格納する。言語ID♯13は、そのテキストの言語の言語IDを格納する。シーケンシャルID♯14は、音声データの分割単位ごとにシーケンシャルに付与されるシーケンシャルIDを格納する。テキストデータ♯15は、テキストのコードデータを格納する。   The structure of text # 10 has members of type # 11, group ID # 12, language ID # 13, sequential ID # 14, and text data # 15, and information regarding the recognized text of the speaker and the translated text. Is stored. Type # 11 stores an identifier indicating whether the text is the speaker's recognized text or the translated text. The group ID # 12 stores a group ID that is uniquely assigned for each change of speaker. Language ID # 13 stores the language ID of the language of the text. Sequential ID # 14 stores a sequential ID assigned sequentially for each unit of audio data division. Text data # 15 stores text code data.

音声♯20の構造体は、グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、音声データ♯25のメンバを有し、話者の音声データ、その翻訳後の合成音声のデータに関する情報を格納するものである。   The structure of the voice # 20 has members of a group ID # 21, a type # 22, a language ID # 23, a sequential ID # 24, and a voice data # 25. Stores information about data.

グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、テキストデータ♯25の内容は、それぞれ、テキストデータ♯10の構造体のグループID♯11、種別♯12、言語ID♯13、シーケンシャルID♯14と同様である。音声データ♯25は、音声データのコードデータを格納する。   The contents of group ID # 21, type # 22, language ID # 23, sequential ID # 24, and text data # 25 are the group ID # 11, type # 12, and language ID # 13 of the structure of text data # 10, respectively. This is the same as Sequential ID # 14. Audio data # 25 stores code data of audio data.

次に、図10A、図10Bを用いて、コミュニケーションシステムの概要動作について説明する。
図10A、図10Bは、コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である。
Next, an outline operation of the communication system will be described with reference to FIGS. 10A and 10B.
10A and 10B are schematic sequence diagrams showing delivery between components of the communication system and the system status.

先ず、話者A(日本語話者)(SP1)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A01)。このときの状態は、言語未選択状態(状態=1)であり、通話状態テーブル320の値は、呼ID=1、状態=1、言語ID=0(T01)である(S01、T01)。なお、ここでは、A01の前に、電話端末10と、コミュニケーションサーバ100の呼は、接続されており、既に、呼IDが割振られたものとしている。また、通話状態テーブル320と通話データテーブル330の値は、説明に必要なもののみピックアップして、図示することにする。   First, the speaker A (Japanese speaker) (SP1) presses the button ([#] [1]) on the telephone terminal 10, and transmits a DTMF signal to the communication server 100 side (A01). The state at this time is a language non-selected state (state = 1), and the values of the call state table 320 are call ID = 1, state = 1, language ID = 0 (T01) (S01, T01). Here, it is assumed that the call between the telephone terminal 10 and the communication server 100 is connected before A01, and the call ID has already been allocated. Further, the values of the call state table 320 and the call data table 330 are shown only by picking up values necessary for explanation.

コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A20、(状態=2(受付)、言語ID=1(日本語):T02))。   The communication control unit 150 of the communication server 100 receives the DTMF signal and updates the state and language (A20, (state = 2 (acceptance), language ID = 1 (Japanese): T02)).

システムの状態は、DTMF信号(言語選択)イベントを受けて、受付(状態=2)に遷移する(S02)。
次に、電話端末10から話者Aの音声データ(日本語)が送信されてきたものとする(A02)。このとき、通話データテーブル330の音声♯20の構造体に、値が設定される(A21、グループID=1、種別=0(話者)、言語ID=1、シーケンシャルID=1、音声データ:T03)。
In response to the DTMF signal (language selection) event, the system state transitions to reception (state = 2) (S02).
Next, it is assumed that voice data (Japanese) of the speaker A is transmitted from the telephone terminal 10 (A02). At this time, values are set in the structure of the voice # 20 in the call data table 330 (A21, group ID = 1, type = 0 (speaker), language ID = 1, sequential ID = 1, voice data: T03).

次に、日本語の話者Aから英語の話者Bに電話が受け渡されたものとする(SP1→SP2)。   Next, it is assumed that a call is handed over from Japanese speaker A to English speaker B (SP1 → SP2).

そして、話者B(英語話者)(SP2)が、電話端末10のボタン([#][2])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A03)。   Then, the speaker B (English speaker) (SP2) presses the button ([#] [2]) on the telephone terminal 10, and transmits a DTMF signal to the communication server 100 side (A03).

コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A22、(状態=3(翻訳中)、言語ID=2(英語):T04))。   Upon receiving the DTMF signal, the communication control unit 150 of the communication server 100 updates the state and language (A22, (state = 3 (under translation), language ID = 2 (English): T04)).

そして、日本語から英語の翻訳が開始され、翻訳中状態(状態=3)になる(S03)。   Then, translation from Japanese into English is started, and a translation state (state = 3) is entered (S03).

言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A23、A24、T05、S04)。
次に、送信制御部120は、翻訳された音声を取り出して(A25)、話者Aの音声の翻訳結果(日本語→英語)として、電話端末10に送信する(A04)。
Upon receiving an instruction from the communication control unit 150, the language processing unit 200 reads and translates the speech data in the call data table 330, writes the translated speech as new structure data, and when the translation is completed, the communication control unit 150 Then, the state of the call state table 320 is rewritten to “translated voice transmission (state = 4)” (A23, A24, T05, S04).
Next, the transmission control unit 120 extracts the translated speech (A25), and transmits it to the telephone terminal 10 as a translation result (Japanese → English) of the speech of the speaker A (A04).

そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A26、S05)。   When the transmission of the translated voice is completed, the communication control unit 150 sets the state of the call state table 320 to the acceptance state (state = 2) (A26, S05).

ここで、話者Bが、電話により伝達された音声を聞きもらした、あるいは、理解しがたいなどと感じて、もう一度聞きたいという意思をもったとする。このときには、話者Bは、電話端末10のキー装置13を操作して、リピートを指示するボタン([#][*])を押下する。これにより、電話端末10からコミュニケーションサーバ100に、リピート再生を意味するDTMF信号が伝えられる(A05)。   Here, it is assumed that the speaker B hears the voice transmitted through the telephone or feels that it is difficult to understand and has an intention to listen again. At this time, the speaker B operates the key device 13 of the telephone terminal 10 and presses a button ([#] [*]) instructing repeat. Thereby, the DTMF signal meaning repeat reproduction is transmitted from the telephone terminal 10 to the communication server 100 (A05).

そして、コミュニケーション制御部150は、通話状態テーブル320の状態を、翻訳音声送信中状態(状態=4)にする(A27、S06)。   Then, the communication control unit 150 changes the state of the call state table 320 to a state in which translated speech is being transmitted (state = 4) (A27, S06).

次に、送信制御部120は、コミュニケーション制御部150の指示にしたがい、翻訳された音声データを取り出して(A28)、話者Aの音声の翻訳結果(日本語→英語)として、再度、電話端末10に送信する(A06)。   Next, according to the instruction of the communication control unit 150, the transmission control unit 120 extracts the translated voice data (A28), and again transmits the telephone terminal as a translation result (Japanese → English) of the speaker A. 10 (A06).

そして、2回目の翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A29、S07)。   When the second transmission of the translated voice is completed, the communication control unit 150 sets the state of the call state table 320 to the reception state (state = 2) (A29, S07).

次に、話者Bが話して、電話端末10から音声(英語)が伝えられたものとする(A07、A08)。   Next, it is assumed that the speaker B speaks and voice (English) is transmitted from the telephone terminal 10 (A07, A08).

それにより、順次、通話データテーブル330に、音声データが書き込まれる(A30、T09、A31、T10)。   Thereby, the voice data is sequentially written in the call data table 330 (A30, T09, A31, T10).

次に、英語の話者Bから日本語の話者Aに電話が受け渡されたものとする(SP2→SP3)。   Next, it is assumed that the telephone is delivered from the English speaker B to the Japanese speaker A (SP2 → SP3).

そして、話者A(日本語話者)(SP3)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(図10BのA09)。   Then, the speaker A (Japanese speaker) (SP3) presses the button ([#] [1]) on the telephone terminal 10, and transmits a DTMF signal to the communication server 100 side (A09 in FIG. 10B).

コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A32、(状態=3(翻訳中)、言語ID=1(日本語):T11))。   The communication control unit 150 of the communication server 100 receives the DTMF signal and updates the state and language (A32, (state = 3 (under translation), language ID = 1 (Japanese): T11)).

そして、英語から日本語の翻訳が開始され、翻訳中状態(状態=3)になる(S08)。   Then, translation from English into Japanese is started, and a translation state (state = 3) is entered (S08).

言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A33、A34、T12、S09)。
次に、送信制御部120は、翻訳された音声データを、順次取り出して(A35)、話者Bの音声の翻訳結果(英語→日本語)として、電話端末10に送信する(A10、A11)。
Upon receiving an instruction from the communication control unit 150, the language processing unit 200 reads and translates the speech data in the call data table 330, writes the translated speech as new structure data, and when the translation is completed, the communication control unit 150 Then, the state of the call state table 320 is rewritten to “translated voice transmission” (state = 4) (A33, A34, T12, S09).
Next, the transmission control unit 120 sequentially extracts the translated voice data (A35) and transmits it to the telephone terminal 10 as a translation result (English → Japanese) of the voice of the speaker B (A10, A11). .

そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A36、S10)。   When transmission of the translated voice is completed, the communication control unit 150 sets the state of the call state table 320 to the reception state (state = 2) (A36, S10).

次に、話者Aが話して、電話端末10から音声(日本語)が伝えられたものとする(A12)。   Next, it is assumed that the speaker A speaks and voice (Japanese) is transmitted from the telephone terminal 10 (A12).

それにより、通話データテーブル330に、音声データが書き込まれる(A37、T14)。   Thereby, voice data is written in the call data table 330 (A37, T14).

以下は、通話終了まで同様のシークエンスが繰り返される。   Thereafter, the same sequence is repeated until the end of the call.

次に、図11ないし図13を用いて、コミュニケーションシステムの処理について説明する。
図11は、コミュニケーションサーバの処理を示す概要フローチャートである。
図12は、音声解析処理を示すフローチャートである。
図13は、リピート処理を示すフローチャートである。
Next, processing of the communication system will be described with reference to FIGS. 11 to 13.
FIG. 11 is a schematic flowchart showing processing of the communication server.
FIG. 12 is a flowchart showing the voice analysis process.
FIG. 13 is a flowchart showing the repeat process.

先ず、コミュニケーションサーバ100は、電話端末10から電話回線5を介して信号を受け、受信制御部110のデコーダ111は、送信された信号を解析し(S100)、制御信号か、DTMF信号か、音声信号かを判別し、その結果にしたがって、制御信号解析部112、DTMF信号解析部113、音声解析部114に振り分ける(S101)。   First, the communication server 100 receives a signal from the telephone terminal 10 via the telephone line 5, and the decoder 111 of the reception control unit 110 analyzes the transmitted signal (S100), and determines whether the signal is a control signal, a DTMF signal, or a voice. It is determined whether the signal is a signal, and is distributed to the control signal analysis unit 112, the DTMF signal analysis unit 113, and the voice analysis unit 114 according to the result (S101).

制御信号が、発呼信号のときには、受信制御部110の制御信号解析部112は、通話データ出力部115に連絡し、呼IDを設定する(S130)。   When the control signal is a call signal, the control signal analysis unit 112 of the reception control unit 110 contacts the call data output unit 115 and sets a call ID (S130).

制御信号が、DTMF信号のときには、受信制御部110のDTMF信号解析部113は、その解析情報を通信データ出力部115に連絡し、通信データ出力部115は、DTMF信号が、ボタン対応テーブル310により必要な言語、機能の情報を取り出す(S102)。   When the control signal is a DTMF signal, the DTMF signal analysis unit 113 of the reception control unit 110 communicates the analysis information to the communication data output unit 115, and the communication data output unit 115 stores the DTMF signal according to the button correspondence table 310. Necessary language and function information is extracted (S102).

制御信号が、音声信号のときには、音声解析処理を行う(S150)。なお、音声解析処理については、後に、図12のフローチャートにより後に詳述する。   When the control signal is an audio signal, an audio analysis process is performed (S150). The voice analysis process will be described later in detail with reference to the flowchart of FIG.

制御信号が、DTMF信号のときに、DTMF信号の送信が初回処理のときには(S103:Yes)、通話データ出力部115は、グループIDの値を初期化し(S140)、言語IDを通話データテーブル330に書き込む(S141)。   When the control signal is the DTMF signal and the transmission of the DTMF signal is the first process (S103: Yes), the call data output unit 115 initializes the value of the group ID (S140) and sets the language ID to the call data table 330. (S141).

DTMF信号の送信が初回ではなく(S103:No)、そのDTMF信号がリピートを表す信号のときは(S104:Yes)、DTMF信号解析部113は、コミュニケーション制御部150に連絡する。送信制御部120は、コミュニケーション制御部150の指示にしたがって、リピート処理を行ない(S160)、リピート処理で取り出した音声データを、送信制御部120のエンコーダ121が送信信号にエンコードして、電話端末10に送信する。なお、リピート処理については、図13のフローチャートにより後に詳述する。   When the transmission of the DTMF signal is not the first time (S103: No) and the DTMF signal is a signal indicating repeat (S104: Yes), the DTMF signal analysis unit 113 contacts the communication control unit 150. The transmission control unit 120 performs a repeat process in accordance with an instruction from the communication control unit 150 (S160), and the audio data extracted by the repeat process is encoded by the encoder 121 of the transmission control unit 120 into a transmission signal, so that the telephone terminal 10 Send to. The repeat process will be described later in detail with reference to the flowchart of FIG.

そのDTMF信号がリピートを表す信号ではないときは(S104:No)、指定された言語の言語IDに設定を切り換える(S105)。   If the DTMF signal is not a signal representing repeat (S104: No), the setting is switched to the language ID of the designated language (S105).

呼ID、言語ID、グループID、種別、シーケンシャルIDなどのパラメタが、コミュニケーション制御部150経由で、通話データ出力部115から言語処理部200に渡され、言語処理部200は、コミュニケーション制御部150の指示に従い、通話データテーブル330から該当する音声データを取得し(S106)、翻訳処理を行う(S107)。また、言語IDを切り換え、種別を翻訳音声として、翻訳音声の音声データを通話データテーブル330に格納する(S108)。なお、音声データを認識したテキスト、翻訳テキストも通話データテーブル330に書き込まれる。   Parameters such as a call ID, a language ID, a group ID, a type, and a sequential ID are passed from the call data output unit 115 to the language processing unit 200 via the communication control unit 150. The language processing unit 200 According to the instruction, the corresponding voice data is acquired from the call data table 330 (S106), and translation processing is performed (S107). Further, the language ID is switched, the type is the translated voice, and the voice data of the translated voice is stored in the call data table 330 (S108). Note that the text in which the voice data is recognized and the translated text are also written in the call data table 330.

そして、全てのシーケンシャルIDの音声データ(一文の音声データ)を翻訳済みのときには(S109:Yes)、次のS110のステップに行き、翻訳済みでないときには(S109:No)、シーケンシャルIDを更新し(S113)、S106に戻り、処理を繰り返す。   If all the sequential ID voice data (one sentence voice data) has been translated (S109: Yes), the process proceeds to the next step S110. If not translated (S109: No), the sequential ID is updated (S109: No). S113), returning to S106, the process is repeated.

グループIDに属する全ての音声データを翻訳したときには、コミュニケーション制御部150から指示を受け、送信制御部120の通話データ入力部122は、通話データテーブル330から翻訳済みかつ未送信の翻訳音声の音声データを取り出し(S110)、かつ、受信制御部110の通話データ出力部115は、グループIDを更新する(S111)。   When all voice data belonging to the group ID is translated, the communication control unit 150 receives an instruction, and the call data input unit 122 of the transmission control unit 120 translates the voice data of the translated voice that has been translated from the call data table 330. (S110), and the call data output unit 115 of the reception control unit 110 updates the group ID (S111).

そして、送信制御部120のエンコーダが、S110で取り出した音声データを送信信号にエンコードして(S112)、電話端末10に送信する。   Then, the encoder of the transmission control unit 120 encodes the audio data extracted in S110 into a transmission signal (S112) and transmits it to the telephone terminal 10.

次に、図12を用いてS150の音声解析処理について説明する。   Next, the voice analysis process of S150 will be described with reference to FIG.

先ず、受信制御部110の通話データ出力部115は、シーケンシャルIDを初期化する(S200)。   First, the call data output unit 115 of the reception control unit 110 initializes a sequential ID (S200).

次に、音声データの有無を判定し(S201)、音声データがないときには(S201:No)、処理を終了し、音声データがあるときには(S201:Yes)、次に、S202判定に行く(S202)。   Next, the presence / absence of voice data is determined (S201). When there is no voice data (S201: No), the process is terminated. When voice data is present (S201: Yes), the process goes to S202 (S202). ).

音声データに区切り(無音部分)があるときには(S202:Yes)、呼ID、言語ID、グループID、シーケンシャルIDに基づいて、通話データテーブル330に、その区切りの部分までの音声データを格納し(S203)、シーケンシャルIDを更新し(S204)、S201の判断に戻る。   When there is a break (silent part) in the voice data (S202: Yes), the voice data up to the break part is stored in the call data table 330 based on the call ID, language ID, group ID, and sequential ID ( S203), the sequential ID is updated (S204), and the process returns to the determination of S201.

音声データに区切りがないときには(S202:No)、区切り判断のポインタをインクリメントし(S205)、S202の判断に戻る。   When there is no break in the audio data (S202: No), the break determination pointer is incremented (S205), and the process returns to the determination of S202.

次に、図13を用いてS160のリピート処理について説明する。   Next, the repeat process of S160 will be described with reference to FIG.

先ず、送信制御部120の通話データ入力部は、コミュニケーション制御部150からの指示を受け、呼ID、言語ID、グループID、種別、シーケンシャルIDに基づいて、通話データテーブル330から、直前に送信した音声データを取得する(S300)。   First, the call data input unit of the transmission control unit 120 receives an instruction from the communication control unit 150 and transmits it from the call data table 330 immediately before based on the call ID, language ID, group ID, type, and sequential ID. Audio data is acquired (S300).

そして、そのグループID内の全てのシーケンシャルIDの音声データを取得したときには(S301:Yes)、処理を終了し、取得していないシーケンシャルIDの音声データがあるときには(S301:No)、シーケンシャルIDを更新し(S302)、S300に戻る。   When the audio data of all the sequential IDs in the group ID are acquired (S301: Yes), the process is ended. When there is audio data of the sequential ID that has not been acquired (S301: No), the sequential ID is changed. Update (S302) and return to S300.

本実施形態のコミュニケーションシステムは、特殊な信号を生成する装置ではなく、DTMF信号をサポートしている全ての電話端末で利用可能であるという特徴がある。また、電話のボタンをプッシュすることは、広く普及している方法なので、自動翻訳を利用した経験のない者でも、とまどいなく簡便に利用できる
さらに、話者が言語を明確に指定するので、翻訳側の装置の負荷が少なく、判定も短時間で行なえるという特徴がある。
The communication system according to the present embodiment is not an apparatus that generates a special signal, but is characterized in that it can be used by all telephone terminals that support the DTMF signal. Pushing a button on a phone is a widely used method, so even those who have never used automatic translation can easily use it without difficulty. In addition, the speaker clearly specifies the language, so There is a feature that the load on the side device is small and the determination can be performed in a short time.

また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動翻訳の音声を聞く場合に、利用者にとって、自分の言語種別をキーにより指定した後に、相手の翻訳音声が流されるので、聞き逃しを防止することができるという特徴がある。   Also, in the face-to-face speech interpretation, when listening to the voice of automatic translation while alternately passing one phone, the translated voice of the other party is played after the user specifies his / her language type with the key. There is a feature that it is possible to prevent missed listening.

5…電話回線
10…電話端末
11…受話器
12…送話器
13…キー装置
14…音声信号変換部
15…接続制御部
16…DTM信号生成部
100…コミュニケーションサーバ
110…受信制御部
120…送信制御部
150…コミュニケーション制御部
160…データベースアクセス部
200…言語処理部
300…データベース
310…ボタン対応テーブル
320…通話状態テーブル
330…通話データテーブル
DESCRIPTION OF SYMBOLS 5 ... Telephone line 10 ... Telephone terminal 11 ... Handset 12 ... Transmitter 13 ... Key device 14 ... Voice signal conversion part 15 ... Connection control part 16 ... DTM signal generation part 100 ... Communication server 110 ... Reception control part 120 ... Transmission control Unit 150 ... Communication control unit 160 ... Database access unit 200 ... Language processing unit 300 ... Database 310 ... Button correspondence table 320 ... Call state table 330 ... Call data table

Claims (4)

電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、
前記電話端末は、前記コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信する手段とを有し、
前記コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、前記電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、前記電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有し、
前記コミュニケーションサーバは、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、前記通話データテーブルに格納し、
前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信することを特徴するコミュニケーションシステム。
A communication system in which a telephone terminal and a communication server are connected by a telephone line,
Means for transmitting and receiving a call to the communication server; means for generating a DTMF (Dual-Tone Multi-Frequency) signal by input from a key device; and transmitting the signal to the communication server via the telephone line; Have
The communication server includes a language processing unit that performs speech translation from a first language to a second language, and voice in a first language related to a voice signal transmitted through the telephone line. Means for translating and transmitting to the telephone terminal; voice data in the language of the speaker; and a call data table for storing voice data of translated voice obtained by translating the voice data;
When the communication server receives the first DTMF signal from the telephone terminal, it receives the first DTMF signal until it receives the second DTMF signal operated and transmitted by another speaker. Storing the voice related to the voice signal received in the call data table as voice data in the language represented by the first DTMF signal,
After the second DTMF signal is transmitted, the speech signal related to the speech data of the translated speech obtained by translating the speech data of the language represented by the first DTMF signal into the language represented by the second DTMF signal, A communication system characterized by transmitting to the telephone terminal.
前記コミュニケーションサーバは、リピート機能を表すDTMF信号を受信したとき、直前のDTMF信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信することを特徴とする請求項1記載のコミュニケーションシステム。   The said communication server transmits again the audio | voice signal which concerns on the audio | voice data transmitted to the said telephone terminal after reception of the last DTMF signal, when the DTMF signal showing a repeat function is received. Communication system. 電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムにおけるコミュニケーション方法であって、
前記電話端末が、前記コミュニケーションサーバに通話を送受信するステップと、
前記電話端末が、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信するステップと、
前記コミュニケーションサーバが、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納するステップと、
前記コミュニケーションサーバが、前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信するステップとを有することを特徴するコミュニケーション方法。
A communication method in a communication system in which a telephone terminal and a communication server are connected by a telephone line,
The telephone terminal transmitting and receiving a call to the communication server;
The telephone terminal generates a DTMF (Dual-Tone Multi-Frequency) signal by input from a key device and transmits the signal to the communication server via the telephone line;
When the communication server receives the first DTMF signal from the telephone terminal, it receives the first DTMF signal until receiving the second DTMF signal operated and transmitted by another speaker. Storing the voice related to the voice signal received in the speech data table as voice data in the language represented by the first DTMF signal;
After the communication server transmits the second DTMF signal, the speech data of the language represented by the first DTMF signal is converted into the speech data of the translated speech that is translated into the language represented by the second DTMF signal. And transmitting the voice signal to the telephone terminal.
前記コミュニケーションサーバが、リピート機能を表すDTMF信号を受信したとき、直前のDTMF信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信するステップを有することを特徴とする請求項3記載のコミュニケーション方法。   The communication server includes a step of retransmitting an audio signal related to audio data transmitted to the telephone terminal after receiving the immediately preceding DTMF signal when receiving a DTMF signal representing a repeat function. 3. The communication method according to 3.
JP2016222505A 2016-11-15 2016-11-15 Communication system and communication method thereof Expired - Fee Related JP6342972B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222505A JP6342972B2 (en) 2016-11-15 2016-11-15 Communication system and communication method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222505A JP6342972B2 (en) 2016-11-15 2016-11-15 Communication system and communication method thereof

Publications (2)

Publication Number Publication Date
JP2018082269A JP2018082269A (en) 2018-05-24
JP6342972B2 true JP6342972B2 (en) 2018-06-13

Family

ID=62199107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222505A Expired - Fee Related JP6342972B2 (en) 2016-11-15 2016-11-15 Communication system and communication method thereof

Country Status (1)

Country Link
JP (1) JP6342972B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022267A (en) * 2001-07-06 2003-01-24 Sony Corp Automatic translation system, automatic translation terminal equipment, automatic translation providing device, automatic translation method, program and recording medium
JP2003141116A (en) * 2001-10-29 2003-05-16 Nec System Technologies Ltd Translation system, translation method and translation program
KR100485909B1 (en) * 2002-11-06 2005-04-29 삼성전자주식회사 Third-party call control type simultaneous interpretation system and method thereof
JP2004179838A (en) * 2002-11-26 2004-06-24 Sony Ericsson Mobilecommunications Japan Inc Mobile communication terminal and translation system
JP5967569B2 (en) * 2012-07-09 2016-08-10 国立研究開発法人情報通信研究機構 Speech processing system

Also Published As

Publication number Publication date
JP2018082269A (en) 2018-05-24

Similar Documents

Publication Publication Date Title
US7519359B2 (en) Voice tagging of automated menu location
CN1333385C (en) Voice browser dialog enabler for a communication system
US6490343B2 (en) System and method of non-spoken telephone communication
JP2003163745A (en) Telephone set, interactive responder, interactive responding terminal, and interactive response system
CN103139404A (en) System and method for generating interactive voice response display menu based on voice recognition
US20050124322A1 (en) System for communication information from a server via a mobile communication device
US20210249007A1 (en) Conversation assistance device, conversation assistance method, and program
CN105338204A (en) Interactive voice response method and device
JP3820245B2 (en) Three-way call automatic interpretation system and method
KR101367722B1 (en) Method for communicating voice in wireless terminal
US8724780B2 (en) Voice interaction method of mobile terminal based on voiceXML and mobile terminal
KR100544810B1 (en) Radio mobile terminal communication system
CN111554280A (en) Real-time interpretation service system for mixing interpretation contents using artificial intelligence and interpretation contents of interpretation experts
US7805145B2 (en) Information search system using radio portable terminal
JP6342972B2 (en) Communication system and communication method thereof
JP5175231B2 (en) Call system, call method, call program, telephone terminal and exchange
KR100370973B1 (en) Method of Transmitting with Synthesizing Background Music to Voice on Calling and Apparatus therefor
JP3797497B2 (en) Message creation method for pager
CN113053389A (en) Voice interaction system and method for switching languages by one key and electronic equipment
US20040049386A1 (en) Speech recognition method and system for a small device
WO2005101801A1 (en) Communication device and program execution method
KR20020048669A (en) The Development of VoiceXML Telegateway System for Voice Portal
EP3035207A1 (en) Speech translation device
KR100642577B1 (en) Method and apparatus for transforming voice message into text message and transmitting the same
KR20090032053A (en) Method for construction personal phone book database using speech recognition, and automatic call connection service method and system using it

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180517

R150 Certificate of patent or registration of utility model

Ref document number: 6342972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees