JPH01147774A - Translation communication system - Google Patents

Translation communication system

Info

Publication number
JPH01147774A
JPH01147774A JP62307001A JP30700187A JPH01147774A JP H01147774 A JPH01147774 A JP H01147774A JP 62307001 A JP62307001 A JP 62307001A JP 30700187 A JP30700187 A JP 30700187A JP H01147774 A JPH01147774 A JP H01147774A
Authority
JP
Japan
Prior art keywords
translation
speech
voice
communication
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62307001A
Other languages
Japanese (ja)
Inventor
Hiromi Saito
裕美 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62307001A priority Critical patent/JPH01147774A/en
Publication of JPH01147774A publication Critical patent/JPH01147774A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Communication Control (AREA)

Abstract

PURPOSE:To eliminate a response delay, and to improve the efficiency of translation communication by setting and controlling uttering speed for a translated voice to be outputted by voice synthesis so as to be a definite value. CONSTITUTION:A regulation synthesizing part 25 provided on a translation communication terminal or a central translation system fetches a character code string to show the objective translation language information of regulation synthesis through a character code input part 25a, and controls a dictionary reading part 25c under the control of a regulation synthesis control part 25b, and obtains a phoneme parameter, etc., from a regulation synthesis dictionary 26, and generates respectively a phoneme parameter system and a rhythm parameter system necessitated for the regulation synthesis of a voice according to an input character code string. A speed setting part 25d gives a speed control parameter to regulate the uttering speed of the voice to be synthesized and outputted, to the regulation synthesis control part 25b. The uttering speed of the voice to be regulation-synthesized and outputted through a speech synthesizing part 27 can be controlled so as to be constant by this speed control parameter, and the response delay can be eliminated, and the translation communication can be made efficient.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は複数の通信端末間で相互に異なる言語音声を用
いながら翻訳通信を行なう為の翻訳通信システムに関す
る。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial Application Field) The present invention relates to a translation communication system for performing translation communication between a plurality of communication terminals while using mutually different language sounds.

(従来の技術) 使用言語の異なる当事者間で、相互にその使用言語を用
いながら翻訳通信することは人類の長年の夢である。こ
のような翻訳通信を実現するシステム、例えば日本語・
英語間の翻訳通信を行なうシステムは、現在実用化され
ている機器を用いて実現するものとすれば、基本的には
第2図に示すように構成される。
(Prior Art) It has been a long-standing dream of humankind to have parties who speak different languages communicate with each other through translation. A system that realizes such translation communication, such as Japanese
A system for translating communication between English and English, if realized using equipment currently in practical use, would basically be constructed as shown in FIG. 2.

即ち、このシステムは、電話端末aから音声入力される
日本語を日本語音声認識部すにて認識し、認識された日
本語言語情報を日英翻訳部Cにて英語言語情報に翻訳す
る。そしてこの英語言語情報を英語音声合成部dにて英
語音声に合成変換し、これを相手側の電話端末eに音声
出力する。一方、相手側の電話端末eから音声入力され
る英語を英語音声認識部fにて認識し、認識された英語
言語情報を英日翻訳部gにて日本語言語情報に翻訳する
。そしてこの日本語言語情報を日本語音声合成部りにて
日本”j音声に合成変換し、これを前記電話端末aに音
声出力するように構成される。
That is, in this system, the Japanese speech recognition section recognizes the Japanese voice input from the telephone terminal a, and the Japanese-English translation section C translates the recognized Japanese language information into English language information. Then, this English language information is synthesized and converted into English speech by an English speech synthesis section d, and this is output as speech to the telephone terminal e on the other party's side. On the other hand, the English voice recognition section f recognizes the English voice input from the other party's telephone terminal e, and the recognized English language information is translated into Japanese language information at the English-Japanese translation section g. Then, this Japanese language information is synthesized and converted into Japanese "j" speech by a Japanese speech synthesis section, and this is configured to be output as speech to the telephone terminal a.

このような翻訳通信システムを介することにより、電話
端末aの利用者は日本語を音声入力しながら相手側から
の通話情報を日本語音声として聞き、また電話端末eの
の利用者は英語を音声入力しながら相手側からの通話情
報を英語音声として聞くことが可能となり、ここにその
翻訳通信(通話)が実現される。
Through such a translation communication system, the user of telephone terminal a can input Japanese by voice while listening to the call information from the other party as Japanese voice, and the user of telephone terminal e can input English by voice. It becomes possible to listen to the call information from the other party as English voice while inputting information, and the translated communication (call) is now realized.

ところがこのような翻訳通信システムを介して実際に翻
訳通信(通話)を行なうに際しては様々な問題が生じる
。例えば入力音声の認識結果を翻訳処理し、この翻訳処
理によって求められる翻訳言語情報を規則合成法等の手
法を用いて音声合成して出力する一連の動作には少なか
らず処理時間が掛かる。また上述した音声認識の精度を
高める為には、例えば発話者はゆっくりと明瞭に、場合
によっては単語単位や文節単位に区切りながら発話する
ことが必要である。
However, various problems arise when actually performing translated communication (phone call) via such a translated communication system. For example, the series of operations of translating the recognition result of input speech, synthesizing the translated language information obtained by the translation processing using a method such as a rule synthesis method, and outputting the result takes a considerable amount of processing time. Furthermore, in order to improve the accuracy of the above-mentioned speech recognition, it is necessary for the speaker to speak slowly and clearly, and in some cases, to divide the speech into words or phrases.

ところが電話のように、相手側からの応答を確認しなが
ら発話して交互に情報の連絡を行なうような場合、なる
べくその応答時間が短いことが望まれる。しかし上述し
たように単語単位や文節単位にゆっくりと区切りながら
発話された音崗を認識した上で、その認識結果を文の単
位にまとめ、これを翻訳処理した後に翻訳結果を音声合
成して出力する際、例えば発話のニュアンス等を伝達す
るべく合成出力される翻訳音声の発話速度を可変制御す
ると、その合成出力音声は間延びしたものとなり、非常
に聞き苦しいものとなる。しかも音声合成されて出力さ
れた音声情報を確認した」二で、それに対する応答を行
なうまでには不本意な時間が必要となる等の問題があっ
た。
However, in cases such as telephone calls, where information is communicated alternately by speaking while checking the response from the other party, it is desirable that the response time be as short as possible. However, as mentioned above, after recognizing the uttered phonetic sounds that are slowly divided into words or phrases, the recognition results are summarized into sentence units, which are translated, and then the translated results are synthesized into speech and output. If, for example, the speaking speed of the synthesized translated speech is controlled in order to convey the nuances of the speech, the synthesized output speech becomes elongated and extremely difficult to hear. In addition, there were problems such as the need to confirm the voice information that was synthesized and output, and that it took an undesired amount of time to respond to the voice information.

(発明が解決しようとする問題点) このように従来より考えられている翻訳通信システムで
は、−船釣には発話のニュアンスを伝達するべく入力音
声の発話速度に応じて、その認識・翻訳結果に対する翻
訳音声の音声合成の出力速度(発話速度)を可変してい
るので、かえって翻訳音声が聞取り難くなったり、また
応答が遅れがちになる等の問題があった。
(Problems to be Solved by the Invention) As described above, in the conventional translation communication system, the recognition and translation results are calculated according to the speech rate of the input voice in order to convey the nuances of the speech. Since the output speed (speech rate) of the speech synthesis of the translated speech is variable, there are problems such as the translated speech becoming difficult to hear and the response tending to be delayed.

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、翻訳音声を聞取り易い速度で合
成出力し、またその応答の遅れを解消して効果的な翻訳
通信を実現することのできる翻訳通信システムを提供す
ることにある。
The present invention was created in consideration of these circumstances, and its purpose is to synthesize and output translated voices at a speed that is easy to hear, and to eliminate delays in response to achieve effective translated communication. Our goal is to provide a translation communication system that allows you to:

[発明の構成] (問題点を解決するための手段) 本発明は入力音声を分析して認識処理し、認識された言
語情報を他国語の言語情報に翻訳し、この翻訳された言
語情報を音声合成して出力して通信端末間の翻訳通信を
行なう翻訳通信システムにおいて、 音声合成して出力される翻訳音声に対する発声速度を一
定値に設定制御する手段を音声合成部に設けたことを特
徴とするものである。
[Structure of the Invention] (Means for Solving the Problems) The present invention analyzes input speech, performs recognition processing, translates the recognized linguistic information into linguistic information of a foreign language, and uses the translated linguistic information. A translation communication system that performs translated communication between communication terminals by synthesizing and outputting speech, characterized in that the speech synthesis section is provided with means for setting and controlling the speaking rate of the translated speech synthesized and output to a constant value. That is.

(作用) 本発明によれば、入力音声に対する認識率を高めるべく
ミ単語単位または文節単位にゆっくりと区切りながら発
話して音声入力がなされる場合であっても、その認識・
翻訳結果に対する音声合成出力が上記入力音声の発話速
度とは独立に一定化制御されて生成出力される。つまり
入力音声の発話のリズムに拘らず、例えば単語間のポー
ズ期間等を省いて、一定の発話速度で翻訳音声の合成出
力が行なわれる。従って翻訳合成音声の聞取り難さを効
果的に解消し、またその応答遅れを解消して翻訳通信(
通話)の能率化を図ることが可能となる。
(Function) According to the present invention, even when voice input is performed by slowly dividing the input voice into words or phrases in order to increase the recognition rate of the input voice, the recognition and
A speech synthesis output corresponding to the translation result is generated and output while being controlled to be constant independently of the speech rate of the input speech. In other words, regardless of the speech rhythm of the input speech, the synthesized output of translated speech is performed at a constant speech rate, for example, by omitting pause periods between words. Therefore, it effectively eliminates the difficulty of hearing the translated synthesized speech, and also eliminates the response delay and translates the communication (
This makes it possible to improve the efficiency of telephone calls.

(実施例) 以下、図面を参照して本発明の一実施例システムにつき
説明する。
(Example) Hereinafter, an example system of the present invention will be described with reference to the drawings.

第3図は実施例システムの概略構成図であり、通信回線
に段数の翻訳通信端末1a、〜Inや中央翻訳システム
2を接続して構成される。
FIG. 3 is a schematic configuration diagram of the embodiment system, which is constructed by connecting translation communication terminals 1a, -In and a central translation system 2 to a communication line.

これらの翻訳通信端末1a、〜Inや中央翻訳システム
2が接続される通信回線は通信事業会社毎に構築された
通信ネットワークや所定の地域別(国別)毎に構築され
た通信ネットワーク、またこれらの通信ネットワークを
相互に結んだネットワークとして実現される。
The communication lines to which these translation communication terminals 1a, ~In and the central translation system 2 are connected are communication networks built for each communication company, communication networks built for each predetermined region (country), and these networks. It is realized as a network that interconnects communication networks.

翻訳通信端末1a、〜inは、基本的には上記通信回線
を介して第2図に示した構成の翻訳通信システムを構成
して通信端末相互間での音声翻訳通信を行なうものであ
るが、その処理機能をどのような形態で備えるかを種々
の翻訳通信システム仕様に応じて異にしている。つまり
これらの翻訳通信端末1a、〜1nは音声翻訳通信機能
の全てを備えて構成される翻訳通信端末や、上記音声翻
訳通信機能の一部のみ、例えば音声コーデックだけを備
えた簡易な構成の翻訳通信端末等からなる。
The translation communication terminals 1a, ~in basically constitute a translation communication system having the configuration shown in FIG. 2 via the above-mentioned communication line, and perform voice translation communication between the communication terminals. The form in which the processing function is provided differs depending on the specifications of various translation communication systems. In other words, these translation communication terminals 1a to 1n may be translation communication terminals that are equipped with all of the voice translation communication functions, or translation communication terminals that have a simple configuration that only includes a part of the voice translation communication function, for example, only a voice codec. Consists of communication terminals, etc.

また所定の音声翻訳通信機能を備えた中央翻訳システム
2は翻訳通信を行なう翻訳通信端末の構成やその翻訳通
信の形態に応じて、上記翻訳通信端末だけでは不足する
処理機能を補い、上記翻訳通信端末間での翻訳通信を中
継するものである。
In addition, the central translation system 2 equipped with a predetermined voice translation communication function supplements the processing functions that are insufficient in the translation communication terminal alone, depending on the configuration of the translation communication terminal that performs the translation communication and the form of the translation communication. It relays translation communications between terminals.

具体的には中央翻訳システム2は、翻訳通信端末に音声
コーデックしか備えられていないような場合、この翻訳
通信端末から与えられる音声信号を認識し、翻訳処理し
、また翻訳音声を合成出力する等して、上記翻訳通信装
置に備えられていない処理機能を補うものとなっている
。このような中央翻訳システム2を中継してすることに
より、全ての処理機能を備えていない翻訳通信端末間で
の翻訳通信が行われる。
Specifically, in the case where the translation communication terminal is only equipped with an audio codec, the central translation system 2 recognizes the audio signal given from the translation communication terminal, processes the translation, and synthesizes and outputs the translated speech. This supplements the processing functions that the above-mentioned translation and communication device does not have. By relaying such a central translation system 2, translation communication can be performed between translation communication terminals that are not equipped with all processing functions.

第4図は音声翻訳通信に必要な処理機能の全てを含んで
構成される翻訳通信端末の基本的な構成例を示す図で、
11は制御部、12はキー入力部、13はデイスプレィ
である。音声翻訳通信に先立ち、キー入力部12から所
定のキー入力がなされると、その入力情報は制御部11
から網終端装置14を介して回線に送出される。この通
信モードによって翻訳通信端末の構成や通信しようとす
る情報の態様(直接音声の通信か翻訳通信か)、翻訳の
形態(翻訳言語、翻訳方式の指定)等の設定がなされ、
その情報が中央翻訳システム2に通知されると共に、通
信回線の接続制御が行われる。このとき、必要なメツセ
ージ情報等は前記デイスプレィ13を介して表示出力さ
れる。
Figure 4 is a diagram showing a basic configuration example of a translation communication terminal that includes all the processing functions necessary for voice translation communication.
11 is a control section, 12 is a key input section, and 13 is a display. Prior to speech translation communication, when a predetermined key input is made from the key input unit 12, the input information is transmitted to the control unit 11.
The signal is then sent out to the line via the network termination device 14. Depending on this communication mode, settings such as the configuration of the translation communication terminal, the type of information to be communicated (direct voice communication or translated communication), and the form of translation (specifying the translation language and translation method) are made.
The information is notified to the central translation system 2, and connection control of the communication line is performed. At this time, necessary message information and the like are displayed and outputted via the display 13.

さてマイクロフォン15を介して入力された音声はA/
D変換器16を介して取込まれ、データメモリ17に格
納されると共に、音声分析部18にてフィル、タリング
等の音響分析が施される。セグメント変換部19は標準
パターンメモリ20を参照して前記音響分析結果から、
例えば音素や音節、またはvCv単位の音声認識の為の
セグメント情報を求めている。音声認識部21はこのセ
グメント情報に従い、認識辞書22を参照して前述した
入力音声を認識処理している。この音声認識処理は、D
Pマツチングや遷移ネットワーク等を用いて行われる。
Now, the voice input through the microphone 15 is A/
The signal is taken in through the D converter 16 and stored in the data memory 17, and is subjected to acoustic analysis such as filtering and tarring in the audio analysis section 18. The segment conversion unit 19 refers to the standard pattern memory 20 and converts the acoustic analysis results into
For example, segment information for speech recognition in units of phonemes, syllables, or vCv is required. The speech recognition unit 21 performs recognition processing on the input speech described above with reference to the recognition dictionary 22 in accordance with this segment information. This speech recognition process is
This is done using P matching, transition networks, etc.

この際、必要に応じて音声の再入力が促される。At this time, you will be prompted to re-enter the voice if necessary.

このようにして求められた認識結果(言語情報)は、例
えば文節単位毎に区分される等して前記データメモリ1
7に適宜格納される。
The recognition results (linguistic information) obtained in this way are divided, for example, into units of phrases, and then stored in the data memory 1.
7 as appropriate.

翻訳部23は翻訳辞書24を参照して]二連した如く認
識された言語情報を翻訳処理するものである。
The translation unit 23 refers to the translation dictionary 24 and translates the linguistic information recognized as two consecutive words.

この翻訳処理は、例えば日英翻訳や英日翻訳等、予め定
められた言語間での翻訳のみならず、この翻訳通信シス
テムにおいて共通に設定された中間言語との間での翻訳
を行なう場合もあるが、−船釣にはその翻訳処理の形態
は翻訳通信端末毎に設定される。このようにして翻訳処
理された言語情報が前記網終端装置14を介して通信回
線に送出される。
This translation process includes not only translation between predetermined languages, such as Japanese-English translation and English-Japanese translation, but also translation between intermediate languages that are commonly set in this translation communication system. However, in boat fishing, the form of translation processing is set for each translation communication terminal. The language information translated in this way is sent to the communication line via the network termination device 14.

一方、通信回線から網終端装置14を介して受信される
言語情報に対して規則合成部25は規則合成辞書2Bを
参照してその言語情報に対する音韻・韻律パラメータ系
列を生成している。音声合成部27はこのような音韻・
韻律パラメータ系列に従って音声信号を規則合成により
生成し、D/A変換器28を介して出力している。この
ようにして規則合成された音声信号によってスピーカ2
9が駆動されて合成音声が発せられることになる。
On the other hand, for the linguistic information received from the communication line via the network termination device 14, the rule synthesis section 25 refers to the rule synthesis dictionary 2B to generate a phonological/prosodic parameter sequence for the linguistic information. The speech synthesis unit 27 synthesizes such phonemes and
A speech signal is generated by rule synthesis according to the prosodic parameter series, and is outputted via the D/A converter 28. In this way, the speaker 2 uses the regularly synthesized audio signals.
9 will be driven and synthesized speech will be emitted.

尚、プログラムメモリ30は、上述した各部の動作制御
に必要な制御プログラム等を格納し、前記制御部11に
与えるものである。
Incidentally, the program memory 30 stores control programs and the like necessary for controlling the operations of each of the above-mentioned sections, and provides them to the control section 11.

しかして翻訳通信を行なう翻訳通信端末がそれぞれ第4
図に示す如く構成されている場合、例えば日本語入力さ
れた音声が英語情報に翻訳されて他方の翻訳通信端末に
通信され、その翻訳通信端末にて英語音声に合成されて
出力される。またこの他方の翻訳通信端末から英語で音
声入力された情報は日本語情報に翻訳されて通信回線に
送出され、前述した一方の翻訳通信端末に与えられる。
Therefore, each translation communication terminal that performs translation communication is connected to a fourth
In the case of the configuration shown in the figure, for example, a Japanese input voice is translated into English information and communicated to the other translation communication terminal, and the translation communication terminal synthesizes the English speech and outputs it. Furthermore, the information voice input in English from the other translation communication terminal is translated into Japanese information, sent to the communication line, and given to the one translation communication terminal mentioned above.

そして日本語音声に合成されて出力され、ここに日本語
と英語との間の音声翻訳通信が行われる。
Then, it is synthesized into Japanese speech and output, and speech translation communication between Japanese and English is performed here.

ところで、一方の翻訳通信端末が第4図に示す如く構成
されるにも拘らず、他方の翻訳通信端末がA/D変換器
!6とD/A会換器28とからなる音声コーデックだけ
を備え、この音声コーデックを網終端装置14を介して
通信回線に接続して構成される場合がある。このような
場合には、前述した中央翻訳システム2が起動され、第
4図に示す如き構成の翻訳通信端末に不足する翻訳通信
機能が補われるようになっている。即ち、この中央翻訳
システム2は、前述した音声分析部18.セグメント変
換部19.標準パターンメモリ20.音声認識部21、
認識辞書22.翻訳部23.翻訳辞書24.規゛則合成
部25.規則合成辞書26.音声合成部27.そしてデ
ータメモリ17とプログラムメモリ30を備えて構成さ
れる。つまり中央翻訳システム2は、音声コーデックを
除く翻訳通信機能に必要な処理機能の全てを備えて構成
される。
By the way, although one translation communication terminal is configured as shown in FIG. 4, the other translation communication terminal is an A/D converter! 6 and a D/A switch 28, and this voice codec is connected to a communication line via a network termination device 14. In such a case, the aforementioned central translation system 2 is activated to supplement the translation communication function that is lacking in the translation communication terminal configured as shown in FIG. That is, this central translation system 2 includes the above-mentioned speech analysis section 18. Segment converter 19. Standard pattern memory 20. speech recognition unit 21;
Recognition dictionary 22. Translation Department 23. Translation dictionary 24. Rule synthesis section 25. Rule synthesis dictionary 26. Speech synthesis section 27. It is configured to include a data memory 17 and a program memory 30. In other words, the central translation system 2 is configured to include all the processing functions necessary for the translation communication function except for the voice codec.

しかしてこの中央翻訳システム2は、音声通信の開始に
先立つ前述した通信モードによって音声翻訳通信を行な
う翻訳通信端末の種別(構成)やその翻訳通信の態様が
通知されることから、この情報に従って上記翻訳通信端
末間で翻訳通信を行なうに不足する処理機能を判定して
いる。そしてその不足処理機能を補うべく、その処理形
態を変更して前述した各部を選択的に起動し、前記翻訳
通信端末間の音声翻訳通信を中継している。
However, since the central translation system 2 is notified of the type (configuration) of the translation communication terminal that performs the voice translation communication and the mode of the translation communication by the above-mentioned communication mode prior to the start of the voice communication, the central translation system 2 uses the above information according to this information. It determines the processing functions that are insufficient to perform translation communication between translation communication terminals. In order to compensate for the insufficient processing functions, the processing mode is changed to selectively activate each of the above-mentioned units to relay speech translation communication between the translation communication terminals.

例えば翻訳通信端末が音声コーデックのみを備えて構成
される場合には、中央翻訳システム2は該翻訳通信端末
から与えられる音声情報を入力し、これを分析して音声
認識した後、通信相手側の言語情報に翻訳している。そ
してこの翻訳言語情報を、例えば第4図に示す如く構成
された相手側の翻訳通信端末に中継出力している。逆に
この相手側の翻訳通信端末から翻訳言語情報が与えられ
ると、中央翻訳システム2はこの言語情報を規則合成し
て音声情報化し、これを前記音声コーデックのみを備え
た翻訳通信端末に出力している。
For example, if the translation communication terminal is configured with only a voice codec, the central translation system 2 inputs the voice information provided from the translation communication terminal, analyzes it, performs voice recognition, and then sends the message to the communication partner. Translated into linguistic information. This translated language information is then relayed and output to the other party's translation communication terminal configured as shown in FIG. 4, for example. Conversely, when translation language information is given from the other party's translation communication terminal, the central translation system 2 synthesizes this language information according to rules, converts it into speech information, and outputs it to the translation communication terminal equipped only with the above-mentioned speech codec. ing.

このようにして中央翻訳システム2を中継することによ
り、音声コーデックのみを備えた翻訳通信端末であって
も、そこに備えられていない音声翻訳通信機能が」二記
中央翻訳システム2によって補われるので、上述した音
声翻訳通信に参加することが可能となる。
By relaying the central translation system 2 in this way, even if the translation communication terminal is equipped with only an audio codec, the voice translation communication function that is not provided therein can be supplemented by the central translation system 2. , it becomes possible to participate in the above-mentioned voice translation communication.

このことは、多種の言語間での音声翻訳通信を中間言語
を介して行い得ることを意味し、極めて柔軟性に富み、
且つ拡張性に富んだ翻訳通信システムを構築可能である
ことが示される。
This means that speech translation communication between different languages can be carried out via an intermediate language, which is extremely flexible.
Moreover, it is shown that it is possible to construct a highly expandable translation communication system.

さてこのようにして構成される翻訳通信システムにおい
て本発明が特徴とするところは、第1図に翻訳通信端末
1a、 Inまたは中央翻訳システム2に備えられる規
則合成部25の構成例を示すように、規則合成されて出
力される翻訳音声の発話速度を一定化制御する速度設定
機能を設けた点にある。
Now, the features of the present invention in the translation communication system configured as described above are as shown in FIG. , is provided with a speed setting function that controls and constantizes the speaking speed of the translated speech that is synthesized according to the rules and outputted.

即ち、規則合成部25は、規則合成の対象となる翻訳言
語情報を示す文字コード列を文字コード列入力部25a
を介して取込み、規則合成制御部25bの制御の下で辞
書読出部25cを制御して前記規則合成辞書26から音
韻パラメータ等を求め、音声の規則合成に必要な音韻パ
ラメータ系列と韻律パラメータ系列とを前記入力文字コ
ード列に従ってそれぞれ生成している。速度設定部25
dは、規則合成制御部25bに対して合成出力する音声
の発話速度を規定する速度制御パラメータを与えるもの
である。この速度制御パラメータにより、音声合成部2
7を介して規則合成されて出力される音声の発話速度が
一定化制御されるようになっている。
That is, the rule synthesis unit 25 inputs a character code string indicating the translation language information to be subjected to rule synthesis to the character code string input unit 25a.
The dictionary reading unit 25c is controlled under the control of the rule synthesis control unit 25b to obtain phoneme parameters etc. from the rule synthesis dictionary 26, and the phoneme parameter series and prosodic parameter series necessary for rule synthesis of speech are obtained. are generated according to the input character code string. Speed setting section 25
d provides a speed control parameter that defines the speech speed of the voice to be synthesized and output to the rule synthesis control section 25b. With this speed control parameter, the speech synthesis section 2
7, the speech rate of the voice that is synthesized and output according to the rules is controlled to be constant.

即ち、これらの規則合成部25を構成する各要素は、例
えばプログラム・メモリや専用のハードウェアからなる
。辞書読出部25eは規則合成制御部25bからの要求
を受けて、例えば音節単位や単語単位の合成(音韻)パ
ラメータを規則合成辞書26から読出す。ここで用いら
れる合成パラメータは、例えばPARCORパラメータ
、フォルマントパラメータ等の時系列データからなり、
一定の発声速度で合成音声を生成する為の予め設定され
たデータの個数からなる。
That is, each element constituting the rule synthesis section 25 is composed of, for example, a program memory or dedicated hardware. In response to a request from the rule synthesis control section 25b, the dictionary reading section 25e reads, for example, synthesis (phoneme) parameters on a syllable basis or a word basis from the rule synthesis dictionary 26. The synthesis parameters used here consist of time series data such as PARCOR parameters and formant parameters, for example.
It consists of a preset number of data to generate synthetic speech at a constant speaking rate.

前記文字コード列入力部25aは、制御部11から与え
られてくる文字コード列、つまり翻訳結果のデータであ
る、例えば文単位に単語の区切りコードを挿入されて形
成された文字コード列を読込み、これを単語単位に分割
して順次規則合成制御部25bに与えている。規則合成
制御部25bはこのようにして与えられる単語単位の文
字コード列に従い、前記辞書読出部25cに対して゛合
成パラメータを読出す為の要求を発している。そしてこ
の要求に対して前記規則合成辞書2Gから読出された合
成パラメータに対して、イントネーションやアクセント
の情報を付加し、これを時系列データとして音声合成部
27に出力している。
The character code string input unit 25a reads a character code string given from the control unit 11, that is, a character code string that is translation result data, for example, formed by inserting word delimiter codes in each sentence, This is divided into word units and sequentially provided to the rule synthesis control section 25b. The rule synthesis control section 25b issues a request to the dictionary reading section 25c to read out the synthesis parameters in accordance with the word-by-word character code string thus provided. In response to this request, intonation and accent information is added to the synthesis parameters read from the rule synthesis dictionary 2G, and this is output to the speech synthesis section 27 as time series data.

尚、これらの情報付加に関するデータは、規則合成制御
部25bの内部に処理動作規則として格納されている。
Incidentally, data regarding these information additions are stored as processing operation rules inside the rule synthesis control section 25b.

規則合成制御部25bは入力された文字コード列によっ
て示される入力文を言語解析し、その解析結果に従って
上述した規則を適宜用いてアクセント情報等の付加を行
なうことになる。
The rule synthesis control unit 25b linguistically analyzes the input sentence indicated by the input character code string, and adds accent information and the like using the above-described rules as appropriate according to the analysis result.

ここで規則合成して出力する音声の発話速度の制御は、
速度設定部25dに保存されている速度制御パラメータ
を参照し、音声合成部27に出力するデータを制御する
ことによって行なわれる。この速度制御パラメータは、
例えば規則合成辞書2Bに記憶されている標準的な合成
音声の発話速度に対する比率のデータからなり、例えば
前記制御部11を介して翻訳通信端末単位に設定可能な
ように構成されている。この速度制御パラメータの設定
は、例えば幾つかの設定値をスイッチによって選択的に
切替えて行なうようにしても良く、また或いはその比率
データをキー入力部12から直接的に指示入力するよう
にしても良い。
The control of the speech rate of the voice synthesized and outputted here is as follows:
This is done by referring to the speed control parameters stored in the speed setting section 25d and controlling the data output to the speech synthesis section 27. This speed control parameter is
For example, it consists of data on the ratio of standard synthesized speech to speech rate stored in the rule synthesis dictionary 2B, and is configured to be able to be set for each translation communication terminal via the control section 11, for example. The speed control parameters may be set, for example, by selectively switching between several set values using a switch, or by directly inputting the ratio data from the key input unit 12. good.

このような速度制御パラメータにより、例えばその値が
(5/4)で示される場合、合成パラメータの時系列中
から5系列データにつき4系列のデータを取出すことで
間引きし、その時系列データの圧縮を行う。このように
してデータ圧縮された時系列データを音声合成部27に
与えることにより、その発話速度が標準的な発話速度の
(5/4)倍に速められる。この際、データの間引き部
分については、計算機処理にて補間し、合成音声が不自
然になることを防ぐようにすることが好ましい。
For example, if the value of such a speed control parameter is expressed as (5/4), 4 out of every 5 series of data are thinned out from the time series of the composite parameter, and the time series data is compressed. conduct. By supplying the time-series data compressed in this manner to the speech synthesis section 27, the speech rate can be increased to (5/4) times the standard speech rate. At this time, it is preferable that the thinned out portion of the data be interpolated by computer processing to prevent the synthesized speech from becoming unnatural.

また(415)なる値で示される速度制御パラメータが
与えられた場合には、4系列の合成パラメータの時系列
を適宜内挿補間して5系列分に拡張し、この時系列デー
タを音声合成部27に出力するようにすれば良い。
In addition, when a speed control parameter indicated by the value (415) is given, the time series of the four series of synthesis parameters is appropriately interpolated and expanded to five series, and this time series data is used in the speech synthesis section. 27.

このような発話速度の制御によれば、例えば合成音声の
ピッチ周波数等は音声合成部27にて定められているの
で、音声ピッチの変化を招来することなくその発話速度
を可変設定することができる。
According to such speech rate control, for example, the pitch frequency of the synthesized speech is determined by the speech synthesis unit 27, so the speech rate can be variably set without causing a change in the speech pitch. .

かくしてこのような規則合成部25によれば、翻訳結果
を示す文字コード列に従い、設定された速度制御パラメ
ータに従って音声の合成パラメータの時系列データを生
成して音声合成部27に出力するので、上記翻訳結果を
得た入力音声の発話速度に関係なく一定の発話速度での
合成音声(翻訳音声)を得ることが可能となる。
Thus, according to such a rule synthesis section 25, according to the character code string indicating the translation result, time series data of speech synthesis parameters is generated according to the set speed control parameter and output to the speech synthesis section 27. It becomes possible to obtain synthesized speech (translated speech) at a constant speech speed regardless of the speech speed of the input speech from which the translation result was obtained.

従って翻訳通信に際して入力音声に対する認識率の向上
を図るべく、例えば単語単位にゆっくりと区切りながら
音声を発話入力しても、その発話速度に拘りなく一定の
発話速度での自然性の高い翻訳合成音声を得ることが可
能となる。この結果、翻訳出力される合成音声が聞取り
難くなったり、その合成出力された音声に対する応答が
遅れがちになる等の不具合を効果的に解消することが可
能となる。よって、自然性の高い翻訳通信(通話)を効
果的に行なうことが可能となる等の効果が奏せられる。
Therefore, in order to improve the recognition rate for input speech during translation communication, for example, even if the speech is slowly divided into words and input, regardless of the speech speed, highly natural translation synthesized speech is produced at a constant speech speed. It becomes possible to obtain. As a result, it is possible to effectively eliminate problems such as the translated synthesized speech becoming difficult to hear or the response to the synthesized speech tending to be delayed. Therefore, effects such as being able to effectively carry out highly natural translation communication (phone call) can be achieved.

また入力音声のニアンスを伝達するべく、入力音声の発
話速度に応じて合成出力する音声の発話速度を制御する
必要がないので、その処理が大幅に簡易化される。具体
的には入力音声の認識結果で示される入力言語情報を、
その翻訳処理単位毎にまとめて処理することができ、ま
たその翻訳処理によって得られた翻訳情報をそのまま音
声合成処理に供すれば良いので、例えば入力音声の単語
間の区切り区間(ポーズ区間)等に対する配慮等が不要
となり、その処理手続きの大幅な簡易化を図ることが可
能となる等の実用上多大なる効果が奏せられる。
Further, since there is no need to control the speech rate of the synthesized and output voice according to the speech rate of the input voice in order to convey the nuance of the input voice, the processing is greatly simplified. Specifically, the input language information indicated by the recognition result of the input speech is
Each translation processing unit can be processed all at once, and the translation information obtained from the translation processing can be directly submitted to the speech synthesis processing, so for example, it can be used to divide sections (pause sections) between words of input speech, etc. There are great practical effects such as no need to pay attention to the above, and the processing procedure can be greatly simplified.

尚、本発明は」−述した実施例システムに限定されるも
のではない。例えば例示した言語以外の言語に対する翻
訳を行なうものであっても良く、更には3種以上の言語
間で同時翻訳通信するようにしてもよい。更には入力音
声の認識処理や翻訳処理の方式、また音声合成の方式に
ついては従来より種々提唱されている方式をシステム仕
様に応じて採用すれば良いものである。また音声合成の
方式に応じて発話速度の制御法を変形できることも勿論
のことである。その他、本発明はその要旨を逸脱しない
範囲で托々変形して実施することができる。
Note that the present invention is not limited to the embodiment system described above. For example, it may be possible to perform translation into a language other than the exemplified language, or it may be possible to perform simultaneous translation communication between three or more languages. Furthermore, as for input speech recognition processing, translation processing, and speech synthesis methods, various methods that have been proposed in the past may be adopted depending on the system specifications. It goes without saying that the speech rate control method can be modified depending on the speech synthesis method. In addition, the present invention can be modified and implemented without departing from the gist thereof.

[発明の効果] 以上説明したように本発明によれば、音声認識率を配慮
した入力音声の発話速度に拘らず、翻訳言語情報の合成
出力の発話速度を一定化制御するので、合成音声の聞取
り難さを解消し、また合成出力音声に対する応答の遅れ
も解消して能率的な翻訳通信を可能とする等の実用性の
高い翻訳通信システムを実現することが可能となる。
[Effects of the Invention] As explained above, according to the present invention, the speech rate of the synthesized output of translated linguistic information is controlled to be constant regardless of the speech rate of the input speech in consideration of the speech recognition rate. It is possible to realize a highly practical translation communication system that eliminates the difficulty of hearing and also eliminates the delay in response to synthesized output speech, making efficient translation communication possible.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例に係る翻訳通信システムにお
ける翻訳言語情報の規則合成部の構成例を示す図、第2
図は翻訳通信の基本的な概念を示す構成図、第3図は翻
訳通信システムの全体的な構成図、第4図は実施例シス
テムにおける翻訳通信機能の全てを備えた翻訳通信端末
の構成例を示す図である。 la、〜in・・・翻訳通信システム、2・・・中央翻
訳システム、11・・・制御部、14・・・網終端装置
、16・・・A/D変換器、18・・・音声分析部、1
9・・・セグメント変換部、21・・・音声認識部、2
3・・・翻訳部、25・・・規則合成部、25a・・・
文字コード列入力部、25b・・・規則合成制御部、2
5c・・・辞書読出部、25d・・・速度設定部、26
・・・規則合成辞書、27・・・音声合成部、28・・
・D/A変換器。 出願人代理人 弁理士 鈴江武彦 第1図 第20 第30 第4図
FIG. 1 is a diagram showing an example of the configuration of a rule synthesis section of translated language information in a translation communication system according to an embodiment of the present invention, and FIG.
The figure is a configuration diagram showing the basic concept of translation communication, Figure 3 is an overall configuration diagram of the translation communication system, and Figure 4 is a configuration example of a translation communication terminal equipped with all translation communication functions in the embodiment system. FIG. la, ~in... Translation communication system, 2... Central translation system, 11... Control unit, 14... Network termination device, 16... A/D converter, 18... Voice analysis Part 1
9... Segment conversion unit, 21... Speech recognition unit, 2
3... Translation section, 25... Rule synthesis section, 25a...
Character code string input section, 25b... rule synthesis control section, 2
5c...Dictionary reading section, 25d...Speed setting section, 26
... Rule synthesis dictionary, 27... Speech synthesis section, 28...
・D/A converter. Applicant's agent Patent attorney Takehiko Suzue Figure 1 Figure 20 Figure 30 Figure 4

Claims (1)

【特許請求の範囲】[Claims] 入力音声を分析して認識処理する手段と、この認識され
た言語情報を他国語の言語情報に翻訳する手段と、この
翻訳された言語情報を音声合成して出力する音声合成手
段とを備えて通信端末間の翻訳通信を行なう翻訳通信シ
ステムにおいて、上記音声合成手段は、音声合成して出
力される翻訳音声に対する発声速度を一定値に設定制御
する手段を備えたことを特徴とする翻訳通信システム。
It comprises means for analyzing and recognizing input speech, means for translating the recognized linguistic information into linguistic information of another language, and speech synthesis means for synthesizing and outputting the translated linguistic information into speech. A translation communication system for performing translation communication between communication terminals, characterized in that the speech synthesis means includes means for setting and controlling the speaking rate of the translated speech outputted through speech synthesis to a constant value. .
JP62307001A 1987-12-04 1987-12-04 Translation communication system Pending JPH01147774A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62307001A JPH01147774A (en) 1987-12-04 1987-12-04 Translation communication system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62307001A JPH01147774A (en) 1987-12-04 1987-12-04 Translation communication system

Publications (1)

Publication Number Publication Date
JPH01147774A true JPH01147774A (en) 1989-06-09

Family

ID=17963819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62307001A Pending JPH01147774A (en) 1987-12-04 1987-12-04 Translation communication system

Country Status (1)

Country Link
JP (1) JPH01147774A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268839A (en) * 1990-03-27 1993-12-07 Hitachi, Ltd. Translation method and system for communication between speakers of different languages
JP2009241166A (en) * 2008-03-28 2009-10-22 Advanced Telecommunication Research Institute International Robot remote operation system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268839A (en) * 1990-03-27 1993-12-07 Hitachi, Ltd. Translation method and system for communication between speakers of different languages
JP2009241166A (en) * 2008-03-28 2009-10-22 Advanced Telecommunication Research Institute International Robot remote operation system

Similar Documents

Publication Publication Date Title
US7469207B1 (en) Method and system for providing automated audible backchannel responses
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US8768701B2 (en) Prosodic mimic method and apparatus
JPH10260692A (en) Method and system for recognition synthesis encoding and decoding of speech
JPH06332494A (en) Apparatus for enhancement of voice comprehension in translation of voice from first language into second language
JPH031200A (en) Regulation type voice synthesizing device
JPS62231998A (en) Voice synthesization method and apparatus
JP3439307B2 (en) Speech rate converter
AU769036B2 (en) Device and method for digital voice processing
JPH01147774A (en) Translation communication system
JPH04199098A (en) Regular voice synthesizing device
JP3404055B2 (en) Speech synthesizer
JP3068370B2 (en) Portable speech recognition output assist device
Cheeseman et al. Voice signalling in the telephone network
JP3575919B2 (en) Text-to-speech converter
JP3113101B2 (en) Speech synthesizer
KR102116014B1 (en) voice imitation system using recognition engine and TTS engine
Flanagan et al. Speech processing: a perspective on the science and its applications
JPH02293900A (en) Voice synthesizer
JP2573586B2 (en) Rule-based speech synthesizer
JPH01222300A (en) Voltage synthesizing device
JP2578876B2 (en) Text-to-speech device
JPH05173587A (en) Speech synthesizer
JP2995774B2 (en) Voice synthesis method
JPH0272399A (en) Speech rule synthesis system