JPH0229797A - Text voice converting device - Google Patents

Text voice converting device

Info

Publication number
JPH0229797A
JPH0229797A JP63179107A JP17910788A JPH0229797A JP H0229797 A JPH0229797 A JP H0229797A JP 63179107 A JP63179107 A JP 63179107A JP 17910788 A JP17910788 A JP 17910788A JP H0229797 A JPH0229797 A JP H0229797A
Authority
JP
Japan
Prior art keywords
language
pronunciation
phoneme
prosodic
japanese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63179107A
Other languages
Japanese (ja)
Inventor
Mitsuko Kaseda
加世田 光子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63179107A priority Critical patent/JPH0229797A/en
Publication of JPH0229797A publication Critical patent/JPH0229797A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To voice texts of respective languages by a simple system constitution so that a user easily understands by performing conversion into voicing and phoneme symbols for a 2nd predetermined language separately by a character string voicing and phoneme symbol converting means for a 1st language and then composing a voice by a voice composing means. CONSTITUTION:A character string from an input device 11 is inputted to the language processing means 3 of the voicing and phoneme symbol generating means 1 of the test voice converting device and processed by the language processing means 3 according to a program stored in a main control part 13. This processing means 3 converts the character string into a voicing and phoneme symbol sequence for the 1st language written in a document storage part 14 and a voicing and phoneme symbol converting means 4 converts the voicing and phoneme symbol sequence converted by the means 3 into voicing and phoneme symbols for the 2nd language (English or German). Then the acoustic synthesizing means 22 composes a voice and outputs texts of many languages by the simple system constitution with the voice which is easily understood by the user.

Description

【発明の詳細な説明】 〔)既      要〕 多国語のテキストを音声変換可能なテキスト音声変換装
置に関し、 装置を大型化することなく、利用者にとって理解し易い
多国語音声を出力することを目的とし、書かれた第1の
言語の文字列を前記第1の言語とは異なる発音用の第2
の言語の発音・韻律記号列に変換する発音・韻律記号生
成手段と、前記発音・韻律記号に基づいて音声を合成す
る音声合成手段とを有するように構成する。
[Detailed Description of the Invention] [) Already Required] An object of the present invention is to output multilingual speech that is easy for users to understand without increasing the size of the device, regarding a text-to-speech conversion device capable of converting text in multiple languages into speech. , and the string of characters written in the first language is translated into a second language whose pronunciation is different from that of the first language.
The present invention is configured to include a pronunciation/prosodic symbol generation means for converting into a pronunciation/prosodic symbol string of the language, and a speech synthesis means for synthesizing speech based on the pronunciation/prosodic symbol.

〔産業上の利用分野〕[Industrial application field]

本発明は、テキストを音声に変換するテキスト音声変換
装置に関し、特に多国語のテキストを音声変換可能なテ
キスト音声変換装置に関する。
The present invention relates to a text-to-speech conversion device that converts text to speech, and particularly relates to a text-to-speech conversion device that can convert text in multiple languages into speech.

近年、発話障害のある身障者の発声手段としての用途、
盲人支援用の読書器、電子メール等の文章読み上げ装置
さらには教育用などテキスト音声変換装置の用途が広ま
っている。
In recent years, it has been used as a means of vocalization for disabled people with speech disorders,
2. Description of the Related Art Text-to-speech conversion devices are increasingly being used as reading devices for assisting the blind, text-to-speech devices for electronic mail, and even for educational purposes.

テキスト音声変換装置は、日常使用されている文章を音
声に自動的に変換して出力する装置であり、例えば日本
語の文章をキーボードから入力すると、その入力した文
章が音声となって出力される。
A text-to-speech conversion device is a device that automatically converts sentences used in daily life into speech and outputs it. For example, when a Japanese sentence is entered from a keyboard, the input text is output as speech. .

キーボードから入力した文章は、日本語辞書と音声合成
規則に基づいて最終的に発音の単位である合成単位に分
離され、各合成単位毎に音響パラメータが作成される。
Sentences input from the keyboard are finally separated into synthesis units, which are units of pronunciation, based on a Japanese dictionary and speech synthesis rules, and acoustic parameters are created for each synthesis unit.

そして、上記音響パラメータに基づいて、音声合成器に
より音声波形が合成される。
Then, a speech waveform is synthesized by a speech synthesizer based on the acoustic parameters.

上記合成単位としては、現在音素(C1■)、かな音節
(CV) 、VCV、CVCさらには2音素の組合せ(
CV、VC)を基本単位としたctyad、dipho
ne等が考えられている。Cは子音、■は母音を示す。
The synthesis units mentioned above include the current phoneme (C1■), kana syllable (CV), VCV, CVC, and a combination of two phonemes (
ctyad, dipho with CV, VC) as the basic unit
ne etc. are being considered. C indicates a consonant, ■ indicates a vowel.

例えば、「かもめ」は合成単位が音素(C1■)である
場合、/に/、/a/、/m/、10/、/m/、/e
/に、かな音節である場合/ k a /、/mO/、
/ m e /に分解される。またVCVである場合、
/ k a /、/ a m o /、/ o m e
 /に、CVCである場合/ k a m /、/ m
 o m /、/ m e /に分解される。
For example, for "Kamome", if the synthesis unit is the phoneme (C1■), /ni/, /a/, /m/, 10/, /m/, /e
If / is a kana syllable, / k a /, /mO/,
/m e /. Also, if it is VCV,
/ ka /, / a m o /, / o m e
/, if CVC / k a m /, / m
It is decomposed into o m /, / m e /.

〔従来の技術〕[Conventional technology]

近年、国際化に伴い、国際的な情報交流が年々活発とな
ってきており、テキスト音声変換装置においても、−ケ
国のみならず多国語に対応できる機能が要求されている
In recent years, with internationalization, international information exchange has become more active year by year, and text-to-speech conversion devices are also required to have the ability to support not only foreign languages but also multiple languages.

従来、多国語での音声変換可能なテキスト音声変換装置
としては、第10図に示すような音素(C,V)を合成
単位としたものがあった。
Conventionally, as a text-to-speech conversion device capable of converting speech in multiple languages, there has been one that uses phonemes (C, V) as synthesis units as shown in FIG.

同図において、61はキーボード等の文字列入力装置で
あり、入力装置61から入力される文章は、入力制御部
62によりJISコード等の所定の文字コードに変換さ
れ、入力制御部62を介して主制御部63に送られ、文
章蓄積部64に蓄積される。文章蓄積部64に蓄積され
た文章は言語処理部65に読み出され、音素単位に分解
される。
In the figure, 61 is a character string input device such as a keyboard, and the text input from the input device 61 is converted into a predetermined character code such as a JIS code by an input control section 62, and then sent via the input control section 62. It is sent to the main control section 63 and stored in the text storage section 64. The sentences stored in the sentence storage section 64 are read out by the language processing section 65 and decomposed into phoneme units.

さらに言語処理部65は、書かれた言語に応じてその言
語特有のアクセントやイントネーションを表現するため
の韻律情報を音素列の間に挿入し、時系列の音素情報、
韻律情報を音響処理部66に出力する。音響処理部66
は入力する音素情報、韻律情報等に基づいて音素ファイ
ル67を参照しながら音響パラメータ(音声合成用の制
御パラメータ)を作成し特に図示してはいないが内蔵し
ている音声合成器により、音声を合成し、その合成され
た音声はスピーカ68を介して、外部に発声される。尚
、音素ファイル67には各音素のスペクトルパラメータ
が格納されており、音響処理部66は音素ファイル67
から各音素に対応するスペクトルパラメータを読み出し
、音声を合成している。このように、音声の最小単位で
ある音素を合成単位としているため、はとんどあらゆる
言語の音声を発声することが可能である。
Furthermore, the language processing unit 65 inserts prosodic information between the phoneme strings to express the accent and intonation peculiar to the language according to the written language, and the chronological phoneme information,
The prosody information is output to the acoustic processing section 66. Sound processing section 66
creates acoustic parameters (control parameters for speech synthesis) while referring to the phoneme file 67 based on input phoneme information, prosody information, etc., and generates speech using a built-in speech synthesizer (not shown). The synthesized voice is output to the outside via the speaker 68. Note that the phoneme file 67 stores spectral parameters of each phoneme, and the acoustic processing unit 66 stores the phoneme file 67.
The spectral parameters corresponding to each phoneme are read out and the speech is synthesized. In this way, since the phoneme, which is the smallest unit of speech, is used as the unit of synthesis, it is possible to produce speech in almost any language.

しかしながら、音素を合成単位として音声合成を行うた
めには、音声学的、音響学的に多くの知識が必要となる
ため、明瞭な音声を実現することは非常に困難となって
いる。このため、他国語である場合、利用者にとって理
解しにくいなどの問題が生じていた。
However, in order to perform speech synthesis using phonemes as synthesis units, a lot of phonetic and acoustic knowledge is required, making it extremely difficult to achieve clear speech. This has caused problems such as difficulty for users to understand when the language is in another language.

このような問題を解決して、実用的な音質を得ようとし
たものに第11図に示すような音節を合成単位とした音
声変換装置がある。同図において、入力値r1171、
入力制御部72、主制御部73、文章蓄積部74、スピ
ーカ78は、第10図に示す同一名称のものと同じもの
なので詳しい説明は省略する。
An attempt has been made to solve these problems and obtain practical sound quality by using a speech conversion device using syllables as synthesis units, as shown in FIG. In the same figure, input value r1171,
The input control section 72, the main control section 73, the text storage section 74, and the speaker 78 are the same as those shown in FIG. 10 with the same names, so a detailed explanation will be omitted.

この音声変換装置は、同図において、破線80.80.
80で囲んで示すように各言語毎に専用の言語処理部8
1、音響処理部82、音声ファイル83を設けている。
This voice conversion device is indicated by broken lines 80, 80, .
As shown in the box 80, a dedicated language processing unit 8 is provided for each language.
1. A sound processing section 82 and an audio file 83 are provided.

入力文字例は言語処理部81によって書かれた言語に対
応する発音記号及び韻律記号の列に変換され、音響処理
部82によって音節を合成単位とした波形の合成が行わ
れる。音声ファイル83内には、各言語の音節単位のス
ペクトルパラメータが格納されており、音響処理部82
は、音声ファイル83を参照しながら、波形合成を行う
。このように、音節を合成単位として波形合成を行うこ
とにより、音がより明瞭なものとなり実用的な音質を得
ることが可能である。
The input character example is converted by the language processing section 81 into a string of phonetic symbols and prosodic symbols corresponding to the written language, and the acoustic processing section 82 synthesizes waveforms using syllables as synthesis units. The audio file 83 stores spectral parameters for each syllable of each language, and the audio processing unit 82
performs waveform synthesis while referring to the audio file 83. In this way, by performing waveform synthesis using syllables as synthesis units, the sound becomes clearer and it is possible to obtain practical sound quality.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上述したように、音素を合成単位とした場合、音響処理
部66は、全ての言語で共有できるので小型、低コスト
化が可能であるが1、音質が低下するため内容がよ(理
解できないなど実用上問題があった。
As mentioned above, when phonemes are used as synthesis units, the acoustic processing unit 66 can be shared by all languages, making it possible to be smaller and lower in cost. There was a practical problem.

また、音節を合成単位とした場合、実用的な音質が得ら
れるが、各言語に対して複数の言語処理部81、音響処
理部82、音声ファイル83を設ける必要があるため、
装置が巨大なものとなり設置スペースを多く必要とする
と共に、コストも高くなるという欠点があった。
Furthermore, if syllables are used as synthesis units, practical sound quality can be obtained, but it is necessary to provide multiple language processing units 81, acoustic processing units 82, and audio files 83 for each language.
The disadvantages are that the device becomes huge and requires a lot of installation space, and the cost is also high.

本発明は、装置を大型化することなく、利用者にとって
理解し易い多国語音声を出力することを目的とする。
An object of the present invention is to output multilingual audio that is easy for users to understand without increasing the size of the device.

〔課題を解決するための手段〕[Means to solve the problem]

第1図は本発明の原理図である。 FIG. 1 is a diagram showing the principle of the present invention.

発音・韻律記号生成手段1は、英語、ドイツ語、フラン
ス語等の多国語で書かれた第1の言語の文字列(テキス
ト)を、前記第1の言語とは異なる発音用の第2の言語
の発音・韻律記号列に変換する。例えば、前記第2の言
語が日本語であった場・合には、他国語で書かれた文字
列を日本語的な発音・イントネーションを表現する日本
語用の発音・韻律記号列に変換する。
The pronunciation/prosodic symbol generation means 1 converts a character string (text) in a first language written in a multilingual language such as English, German, or French into a second language for pronunciation different from the first language. Convert to pronunciation/prosodic symbol string. For example, if the second language is Japanese, a string of characters written in another language is converted into a string of pronunciation and prosodic symbols for Japanese that expresses Japanese pronunciation and intonation. .

音声合成手段2は、発音・韻律記号生成手段1により生
成された第2の言語用の発音・韻律記号列に基づいて第
2の言語に最適な合成単位で音声を合成する。
The speech synthesis means 2 synthesizes speech in the optimal synthesis unit for the second language based on the pronunciation/prosodic symbol string for the second language generated by the pronunciation/prosodic symbol generation means 1.

発音・韻律記号生成手段1は、例えば文字列をその書か
れた第1の言語用の発音・韻律記号列に変換する言語処
理手段3と、言語処理手段3によって生成された前記発
音・韻律記号列を前記第2の言語用の発音・韻律記号の
列に変換する発音・韻律記号変換手段4を有する。
The pronunciation/prosodic symbol generation means 1 includes, for example, a language processing means 3 that converts a character string into a pronunciation/prosodic symbol string for the first language in which it is written, and the pronunciation/prosodic symbol generated by the language processing means 3. It has pronunciation/prosodic symbol converting means 4 for converting the string into a string of pronunciation/prosodic symbols for the second language.

例えば、文字列が英語で書かれており、前記第2の言語
が日本語であった場合、文字列は言語処理手段3により
いったん英語用の発音・韻律記号列に変換される。そし
て、その英語用の発音・韻律記号列が発音・韻律記号変
換手段4により、日本語用の発音・韻律記号列に変換さ
れる。
For example, if the character string is written in English and the second language is Japanese, the character string is once converted into a pronunciation/prosodic symbol string for English by the language processing means 3. Then, the pronunciation/prosodic symbol string for English is converted into a pronunciation/prosodic symbol string for Japanese by the pronunciation/prosodic symbol converting means 4.

〔作   用〕[For production]

本発明では、多国語で書かれた第1の言語の文字列を発
音・韻律記号変換手段1によりfめ定められた第2の言
語用の発音・韻律記号列に変換して、音声合成手段2に
より適切な合成単位で音声合成を行っている。
In the present invention, a character string of a first language written in multiple languages is converted into a pronunciation/prosodic symbol string for a second language determined by f by the pronunciation/prosodic symbol conversion means 1, and the speech synthesis means 2, speech synthesis is performed in appropriate synthesis units.

したがって、例えば英語で書かれた文章は、日本語的な
発音・イントネーションで読み上げられる。このため、
所定言語が母国語であった場合、利用者は容易に文章の
内容を理解できるようになる。
Therefore, for example, a sentence written in English is read out with Japanese-like pronunciation and intonation. For this reason,
If the predetermined language is the user's native language, the user will be able to easily understand the content of the text.

また、音声合成手段2は1個だけ設ければよいので、小
型化、低コスト化が可能である。
In addition, since only one voice synthesizing means 2 needs to be provided, it is possible to reduce the size and cost.

〔実  施  例〕〔Example〕

以下、実施例について図面を参照しながら説明する。第
2図は、一実施例のシステム構成図である。
Examples will be described below with reference to the drawings. FIG. 2 is a system configuration diagram of one embodiment.

入力装置11は、キーボード等から成る文章の文字列を
入力する装置であり、入力装置11から入力された文字
列は入力制御部12によりJTSコード等の文字コード
に変換され、入力制御部12を介して、マイクロプロセ
ッサ等から成る主制御部13に送られ、フロッピィディ
スク、ハードディスク等の外部記憶装置から成る文章蓄
積部14に書き込まれる。
The input device 11 is a device for inputting a character string of a sentence using a keyboard or the like, and the character string inputted from the input device 11 is converted into a character code such as a JTS code by the input control section 12. The data is then sent to the main control section 13, which consists of a microprocessor, etc., and is written into the text storage section 14, which consists of an external storage device such as a floppy disk or hard disk.

主制御部13は、マイクロプロセッサ等から成り図示し
ていないROM (リード・オンリ・メモリ)に格納さ
れているプログラムを実行して、入力制御部12、言語
処理部15、及び音響処理部17を制御している。
The main control section 13 is composed of a microprocessor, etc., and executes a program stored in a ROM (read only memory), not shown, to control the input control section 12, the language processing section 15, and the audio processing section 17. It's in control.

言語処理部15は、日本語の文章の文字列を日本語用の
発音・韻律記号の時系列に変換する日本語用言語処理部
15a1英語の文章の文字列を英語用の発音・韻律記号
の時系列に変換する英語用言語処理部15b、ドイツ語
の文章の文字列をドイツ語用の発音・韻律記号の時系列
に変換するドイツ語用言語処理部15Cを有しており、
日本語用言語処理部15aから出力される時系列の発音
・韻律記号は直接音響処理部17に出力される。
The language processing unit 15 converts character strings of Japanese sentences into a time series of pronunciation and prosodic symbols for Japanese. It has an English language processing unit 15b that converts it into a time series, and a German language processing unit 15C that converts the character string of a German sentence into a time series of pronunciation and prosodic symbols for German.
The time-series pronunciation and prosodic symbols output from the Japanese language processing unit 15a are directly output to the acoustic processing unit 17.

また、英語用言語処理部15b、ドイツ語用言語処理部
15cから出力される時系列の発音記号・韻律記号は、
それぞれ発音・韻律記号変換部16b、16cに送られ
る。
In addition, the time series phonetic symbols and prosodic symbols output from the English language processing section 15b and the German language processing section 15c are as follows:
The signals are sent to pronunciation/prosodic symbol converters 16b and 16c, respectively.

英語用発音・韻律記号変換部16b、ドイツ語用発音・
韻律記号変換部16cは、それぞれ英語用の発音・韻律
記号列、ドイツ語用の発音・韻律記号列を、日本語的な
発音、イントネーションで各言語を発音させるための日
本語用の発音・韻律記号の列に変換して音響処理部17
に出力するものである。
English pronunciation/prosodic symbol converter 16b, German pronunciation/
The prosodic symbol conversion unit 16c converts the English pronunciation/prosodic symbol string and the German pronunciation/prosodic symbol string into Japanese pronunciation/prosodic symbol strings for pronunciation and intonation in each language. Convert it into a string of symbols and send it to the acoustic processing unit 17
This is what is output to.

音響処理部17は、入力する時系列の日本語用の発音記
号・韻律記号に基づいて音声波形を合成するブロックで
あり、その詳細は後述する。
The acoustic processing unit 17 is a block that synthesizes a speech waveform based on input time-series Japanese phonetic symbols and prosodic symbols, and the details thereof will be described later.

音声ファイル18は、合成単位のスペクトル包絡に関す
る情報であるスペクトルパラメータや音の強さの情報で
ある音源パラメータを格納しているファイルであり、音
響処理部17は入力する日本語用の発音記号の列を合成
単位に分割し、分割した合成単位をキーとして音声ファ
イル18から、その合成単位のスペクトルパラメータ及
び音源パラメータを読み出して、音声の合成を行ってい
る。
The audio file 18 is a file that stores spectral parameters, which are information about the spectral envelope of a synthesis unit, and sound source parameters, which are information about sound intensity. The sequence is divided into synthesis units, and the spectral parameters and sound source parameters of the synthesis units are read out from the audio file 18 using the divided synthesis units as keys to perform speech synthesis.

音響処理部17によって合成された音声波形はスピーカ
19を介して発音される。
The audio waveform synthesized by the audio processing section 17 is outputted via the speaker 19.

第3図は、言語処理部15の一構成例を示すブロック構
成図である。日本語用言語処理部15.a、英語用言語
処理部15b、ドイツ語用言語処理部15とも第3図に
示すようなブロック構成となっており、どの言語処理部
もほぼ同様な動作をするので以下日本語用言語処理部1
5aの場合を例にとって説明する。
FIG. 3 is a block configuration diagram showing an example of the configuration of the language processing section 15. As shown in FIG. Japanese language processing unit 15. Both the English language processing section 15b and the German language processing section 15 have a block configuration as shown in FIG. 1
The case 5a will be explained as an example.

前処理部21は、主制御部13の制御により文章蓄積部
14から所定長単位で文章の文字列を読み出して、その
文章を句読点「、」、「、」により区切る。
The preprocessing unit 21 reads out a text string in predetermined length units from the text storage unit 14 under the control of the main control unit 13, and separates the text using punctuation marks ",", ",".

単語同定部22は、日本語の各単語を格納している単語
辞書23を検索して、文章を単語単位に分割する。単語
辞書23内には、単語の品詞、発音記号、アクセントの
位置を表す情報などが格納されており、各単語に関する
品詞情報、発音記号、アクセント位置情報なども読み出
される。構文解析部24は、単語の品詞情報を基に、文
章を文節単位に分割するとともに、文節関係などの構文
情報を作成する。
The word identification unit 22 searches a word dictionary 23 that stores Japanese words, and divides the sentence into word units. The word dictionary 23 stores information indicating the part of speech, pronunciation symbol, accent position of a word, etc., and the part of speech information, pronunciation symbol, accent position information, etc. regarding each word are also read out. The syntactic analysis unit 24 divides the sentence into clauses based on word part-of-speech information, and creates syntactic information such as clause relationships.

発音解析部25は、前後の単語の発音記号を考慮して、
発音記号の修正を行ったり、固有名詞や数詞などの単語
辞書に登録されていない単語に対して発音記号を設定す
る。
The pronunciation analysis unit 25 considers the phonetic symbols of the preceding and following words, and
Correct phonetic symbols or set phonetic symbols for words such as proper nouns and numerals that are not registered in the word dictionary.

また、韻律解析部26は、構文解析部24によって作成
された構文情報を基にイントネーションやポーズ長を求
め、また複合語や附属語が続いた語のアクセント位置を
予め定められた規則に基づいて求め、韻律記号の修正、
生成を行う。
The prosody analysis unit 26 also calculates intonation and pause length based on the syntactic information created by the syntax analysis unit 24, and calculates the accent position of a word followed by a compound word or adjunct based on predetermined rules. search, correction of prosodic symbols,
Perform generation.

上述のような一連の動作により日本語用言語処理部15
aにより日本語の文章が日本語用の発音・韻律記号の列
に変換され音響処理部17に出力される。
Through the series of operations described above, the Japanese language processing unit 15
A Japanese sentence is converted into a string of pronunciation and prosodic symbols for Japanese and output to the audio processing section 17.

英語用言語処理部15b、ドイツ語用言語処理部15c
においては、単語辞書23内にはそれぞれ英語用、ドイ
ツ語用の単語が格納されており、英語の文構造規則、ド
イツ語の文構造規則に基づいて、噴筒単位に分割された
それぞれの言語での発音記号・韻律記号列が作成される
English language processing section 15b, German language processing section 15c
, the word dictionary 23 stores words for English and German, and the words for each language are divided into cylinders based on English sentence structure rules and German sentence structure rules. A string of phonetic symbols and prosodic symbols is created.

第4図に、英語用言語処理部15bにより作成される音
素の発音記号を示す。
FIG. 4 shows phoneme symbols for phonemes created by the English language processing unit 15b.

言語学的には、英語の発音記号は、同図に示す音素記号
31によって表記されるが、本実施例では、それぞれの
音素記号31に対してアルファベント文字で表わされる
アルパベット(ARP八BへT)記号32を対応させ、
このアルパベソト記号32により英語の発音記号を表わ
すようにしている。例えば「e」の音素記号31はアル
パベット記号32ではrEYjで表わされ、raJの音
素記号31はrAAJのアルパベソト記号32で表わさ
れる。英語用言語処理部15b内の単語辞書23′には
、発音記号としてアルパベット記号32が格納されてい
る。
Linguistically, English phonetic symbols are expressed by the phoneme symbols 31 shown in the same figure, but in this embodiment, each phoneme symbol 31 is expressed as an alphabet (ARP 8B to T) Match symbol 32,
This alphabesoto symbol 32 is used to represent the English pronunciation symbol. For example, the phoneme symbol 31 of "e" is represented by the alphabetic symbol 32 rEYj, and the phoneme symbol 31 of raJ is represented by the alphabetic symbol 32 of rAAJ. The word dictionary 23' in the English language processing section 15b stores alphabet symbols 32 as phonetic symbols.

次に、第5図は英語用発音・韻律記号変換部15bの一
実施例のブロック構成図である。
Next, FIG. 5 is a block diagram of an embodiment of the English pronunciation/prosodic symbol conversion section 15b.

音素変換テーブルは、第6図に示すように英語の発音記
号(アルパベソト記号32)に対応する日本語の発音記
号45を格納しているテーブルであり、図示していない
ROM (リード・オンリ・メモリ)等に格納されてい
る。例えば、rIYJのアルパベフト記号32は、「■
−」の日本語の発音記号45に対応しており、同様にr
HHJのアルパベット記号32がrHJの日本語の発音
記号45に対応している。尚、「−」は長音記号である 日本語用音素変換部4工は、英語用言語処理部15bか
ら第4図に示す英語の発音記号(音素記号)31と韻律
記号から成る列を入力すると、音素変換テーブル42を
参照して英語の発音記号(音素記号)31を日本語の発
音記号45に変換する。
The phoneme conversion table is a table that stores Japanese phonetic symbols 45 corresponding to English phonetic symbols (Alpabesoto symbol 32), as shown in FIG. ) etc. For example, the alphabeft symbol 32 of rIYJ is “■
-" corresponds to the Japanese phonetic symbol 45, and similarly r
The alphabetic symbol 32 of HHJ corresponds to the Japanese phonetic symbol 45 of rHJ. Note that "-" is a long sound symbol. When the Japanese phoneme conversion unit 4 receives a string consisting of English phonetic symbols (phoneme symbols) 31 and prosodic symbols shown in FIG. 4 from the English language processing unit 15b, , converts English phonetic symbols (phoneme symbols) 31 into Japanese phonetic symbols 45 with reference to the phoneme conversion table 42 .

また、音素修正ルール44は、日本語の音声の規則に関
する情報を格納している記憶域であり、語尾の子音(C
)に付加する母音(V)の情報、子音(C)が連続して
いる場合、その子音の間に挿入する母音(V)の情報な
どが格納されている。
Furthermore, the phoneme modification rule 44 is a storage area that stores information regarding Japanese phonetic rules.
), and when consonants (C) are consecutive, information on vowels (V) to be inserted between the consonants are stored.

例えば、語尾の子音(C)に付加する母音(V)は、一
般にrUJが多いが、rTJの場合にはrOJを付加す
るなど、各子音毎に異なっている。
For example, the vowel (V) added to the consonant (C) at the end of a word is generally rUJ, but in the case of rTJ, rOJ is added, and the vowel (V) is different for each consonant.

また、単母音(IH,E)(等)の後に無声破裂子音(
P、T、K)が続いて単語が終了している場合には、促
音(「っ」)を追加するなどのルールを格納している。
In addition, a voiceless plosive consonant (
It stores rules such as adding a consonant (``tsu'') when a word ends with a continuation of P, T, K).

音素修正部43は、日本語用音素変換部41から入力す
る日本語用の発音・韻律記号の列を、音素修正ルール4
4を参照しながら、語尾の子音(C)に所定の母音(V
)を付加したり、促音(「っ」)の追加などを行い正し
い日本語の発音記号に変換し、音響処理部17に出力す
る。
The phoneme correction unit 43 converts the string of pronunciation and prosodic symbols for Japanese input from the phoneme conversion unit 41 for Japanese into phoneme correction rules 4.
4, add a predetermined vowel (V) to the final consonant (C).
), a consonant (``tsu''), etc. are added to convert it into the correct Japanese pronunciation symbol, and output to the sound processing section 17.

ドイツ語用発音・韻律記号変換部16cも、上記英語用
発音・韻律記号変換部16bとほぼ同様な構成となって
いるので、詳しい説明は省略する。
The German pronunciation/prosodic symbol converter 16c has almost the same configuration as the English pronunciation/prosodic symbol converter 16b, so a detailed explanation will be omitted.

次に、第7図は音源処理部17の一構成例を示す図であ
る。
Next, FIG. 7 is a diagram showing an example of the configuration of the sound source processing section 17.

時間長設定部51は、日本語の各発音記号の発声時間長
が格納されているテーブルを有しており、発音・韻律記
号の列を入力すると、このテーブルを参照しながら音声
の各合成単位に対し発声時間長を設定する。
The time length setting unit 51 has a table in which the length of utterance of each Japanese phonetic symbol is stored, and when a string of pronunciation/prosodic symbols is input, each synthesis unit of speech is set while referring to this table. Set the vocalization time length.

音声ファイル52は、各合成単位毎にPARCOR係数
から成るスペクトルパラメータと音の強さを指示する音
源パラメータ等を格納しているファイルであり、例えば
ROM (リード・オンリ・メモリ)またはフロッピィ
ディスクやハードディスク等の外部記憶装置に作成され
る。
The audio file 52 is a file that stores spectral parameters consisting of PARCOR coefficients and sound source parameters indicating sound intensity for each synthesis unit, and is stored in, for example, a ROM (read only memory), floppy disk, or hard disk. It is created in an external storage device such as .

スペクトルパラメータ生成部53は、音声ファイル52
を参照して、各合成単位に対しスペクトルパラメータを
設定する。また、音源パラメータ生成部54は、音声フ
ァイル52を参照して、各合成単位に対し音源パラメー
タを設定する。
The spectral parameter generation unit 53 generates the audio file 52
Set the spectral parameters for each synthesis unit by referring to . The sound source parameter generation unit 54 also refers to the audio file 52 and sets sound source parameters for each synthesis unit.

さらに、ピッチパラメータ生成部55は基本的なイント
ネーションパターンを記憶しており、文節内のアクセン
ト位置に基づいて、自然なインネーションを表現するた
めに各合成単位毎にピッチパラメータ(基本周波数を示
す)を設定する。
Furthermore, the pitch parameter generation unit 55 stores basic intonation patterns, and uses pitch parameters (indicating the fundamental frequency) for each synthesis unit to express natural innation based on the accent position within the clause. Set.

上記スペクトルパラメータ、ピンチパラメータ、音源パ
ラメータは、時系列にPARCOR型の波形合成部56
に出力され、波形合成部56により音声が合成される。
The above-mentioned spectrum parameters, pinch parameters, and sound source parameters are chronologically processed by a PARCOR type waveform synthesis unit 56.
The waveform synthesis unit 56 synthesizes the audio.

次に、上記のように構成された本実施例の動作を第8図
乃至第9図のフローチャートを参照しながら説明する。
Next, the operation of this embodiment configured as described above will be explained with reference to the flowcharts of FIGS. 8 and 9.

まず、「私は彼に会った。」という日本語の文字列が入
力装置11から入力された場合を例にとって、説明する
First, an example will be explained in which a Japanese character string "I met him" is input from the input device 11.

言語処理部15は、「私は彼に会った。」という文字列
を文章蓄積部13から読み出すと、まず日本語の文字列
であるかどうか判別する(SAI)。
When the language processing section 15 reads out the character string "I met him" from the sentence storage section 13, it first determines whether it is a Japanese character string (SAI).

上記判別SAIは、例えば次のようにして行われる。一
般に日本語は漢字かな混じり文で2バイトコードを含ん
でおり、英語は1バイトコードのみを含むので、この文
字を示すコードのバイト数の違いにより判別を行う。
The above-described determination SAI is performed, for example, as follows. In general, Japanese is a sentence containing kanji and kana, and contains a 2-byte code, while English contains only a 1-byte code, so discrimination is made based on the difference in the number of bytes of the code representing this character.

また、「かな」、「漢字」を表わすコード(日本語の表
記コード)と、アルファベントを表わすコード(英語の
表記コード)はコードの値の範囲が異っており、コード
の値により判別することも可能である。
In addition, the code representing "kana" and "kanji" (Japanese written code) and the code representing alpha bent (English written code) have different code value ranges, and are distinguished by the code value. It is also possible.

したがって、通常文の最初の文字コードにより日本語で
あるかどうか判別可能であるが、数字や記号など両者に
共通の文字コードが最初に位置していた場合には後方の
文字コードを検索していくことにより判別できる。
Therefore, it is possible to determine whether a sentence is in Japanese by the first character code of the sentence, but if a character code that is common to both, such as a number or symbol, is located at the beginning, the character code at the end must be searched. You can tell by looking at it.

以上のような処理により、日本語であると判別されると
、上記文字列は日本語用言語処理部15aに送られる。
When it is determined that the character string is Japanese through the processing described above, the character string is sent to the Japanese language processing section 15a.

日本語用言語処理部15aは、日本語の単語辞書23を
参照しながら前処理部21、単語同定部22、構文解析
部23を介し、構文解析を行った後、発音解析部25、
韻律解析部26を介して「私は彼に会った」という日本
語の文字列をrWATAsHIWA KA’RENI 
 A’QTΔ、」という発音・韻律記号の列に変換する
(SA2)。ここで、「′」、「、」は韻律記号であり
、「”」はアクセント位置、「、」はポーズ長を示す記
号である。
The Japanese language processing unit 15a performs syntactic analysis via a preprocessing unit 21, a word identification unit 22, and a syntactic analysis unit 23 while referring to a Japanese word dictionary 23, and then performs syntactic analysis using a pronunciation analysis unit 25,
The Japanese character string "I met him" is read through the prosody analysis unit 26.
A'QTΔ,'' (SA2). Here, "'" and "," are prosodic symbols, "" is a symbol indicating an accent position, and "," is a symbol indicating a pause length.

rWATAsHIWA  KA’  RENI  A’
QTA、Jという日本語の発音・韻律記号の文字列は日
本語用言語処理部15aから音響処理部17に出力され
、音響処理部17により音声に変換される(SA3)。
rWATAsHIWA KA' RENI A'
The character strings of Japanese pronunciation and prosodic symbols QTA and J are output from the Japanese language processing unit 15a to the audio processing unit 17, and converted into speech by the audio processing unit 17 (SA3).

一方、rl  MET  HIMJという英語の文字列
が入力装置11から入力されると、入力制御部12によ
りJISコードに変換されて入力制御部12を介してそ
の文字列の入力データが主制御部14に送られ、文章蓄
積部13に書き込まれる。
On the other hand, when the English character string rl MET HIMJ is input from the input device 11, it is converted into a JIS code by the input control unit 12, and the input data of the character string is sent to the main control unit 14 via the input control unit 12. The text is sent and written into the text storage section 13.

言語処理部14は、主制御部14から加わる制御命令に
より、文章蓄積部13からrl  METHIMJとい
う文字列を入力すると、rIJがアルファベントである
ので英語の文字列であると判別しく5AI)、その文字
列を英語用言語処理部15bに出力する。
When the language processing unit 14 inputs the character string rl METHIMJ from the text storage unit 13 according to a control command sent from the main control unit 14, the language processing unit 14 determines that it is an English character string because rIJ is an alpha bent (5AI), and inputs the character string rl METHIMJ from the text storage unit 13. The character string is output to the English language processing section 15b.

英語用言語処理部15bは、入力される「■MET  
HIMlの文字列を英語の単語辞書23′を参照しなが
らrAY  MEH’ T  Hl)I’ Mlの英語
用発音・韻律記号の列に変換して、英語用発音・韻律記
号変換部16bに出力する(SA4)。
The English language processing unit 15b receives the input “■MET
The character string HIMl is converted into a string of English pronunciation/prosodic symbols rAY MEH' T Hl)I' Ml while referring to the English word dictionary 23', and outputted to the English pronunciation/prosodic symbol converter 16b. (SA4).

英語用発音・韻律記号変換部16は、rAYMEH’ 
T  HIH’ MJの英語用発音・韻律記号の列を、
rAI  ME’ QTOHビM 」の日本語用発音・
韻律記号の列に変換して音響処理部17に出力する(S
A5)。この処理SA5の詳細を第9図のフローチャー
トを参照しながら説明する。
The English pronunciation/prosodic symbol converter 16 is rAYMEH'
T HIH'MJ's row of English pronunciation and prosodic symbols,
Japanese pronunciation of rAI ME' QTOH BiM
It is converted into a string of prosodic symbols and output to the acoustic processing unit 17 (S
A5). The details of this process SA5 will be explained with reference to the flowchart of FIG. 9.

英語用発音・韻律記号変換部16の日本語用音素変換部
41はrAY  MEH’ T  HIH’ Mlの英
語用発音・韻律記号の列を入力すると、音素変換テーブ
ル(第6図参照)を参照してrAYJ−rAIJ、rM
J−rMJ、rEHj−rEJ、rHJ→rHJ、rl
H−HJ、rMJ→rMJの変換を行う(SBI)。こ
の結果rAY  MEH’ T  HIH’ Mlがr
AI  ME’T  H1’M」と変換され、音素修正
部43に出力される。
When the Japanese phoneme conversion unit 41 of the English pronunciation/prosodic symbol conversion unit 16 inputs the string of English pronunciation/prosodic symbols rAY MEH' T HIH' Ml, it refers to the phoneme conversion table (see Figure 6). rAYJ-rAIJ, rM
J-rMJ, rEHj-rEJ, rHJ→rHJ, rl
Perform H-HJ, rMJ→rMJ conversion (SBI). As a result, rAY MEH' T HIH' Ml is r
AI ME'T H1'M'' and output to the phoneme modification unit 43.

音素修正部43は、音素修正ルール44に格納されてい
るルールに基づき、rME’ TJを日本語用の促音的
表現であるrME’ QTJに変換する。さらに、rM
E’ QTJの語尾が子音rTJで終わっているので、
語尾のrTJの後にrOJを追加する。この結果、rM
E’ TJがrME”QTOJに変換される。
The phoneme modification unit 43 converts rME' TJ to rME' QTJ, which is a consonant expression for Japanese, based on the rules stored in the phoneme modification rules 44. Furthermore, rM
E' QTJ ends with the consonant rTJ, so
Add rOJ after rTJ at the end of the word. As a result, rM
E'TJ is converted to rME''QTOJ.

またrH1’MJも語尾が子音rMJで終わっているの
で、語尾rMJO後に母音rUJを追加する。
Furthermore, since the word rH1'MJ also ends with the consonant rMJ, a vowel rUJ is added after the word ending rMJO.

したがって、最終的にrAI  ME’ QTOHI’
MJの日本語用の発音・韻律記号列に変換されて、音響
処理部17に出力される。
Therefore, finally rAI ME'QTOHI'
The MJ is converted into a pronunciation/prosodic symbol string for Japanese and output to the audio processing section 17.

そして、音響処理部17から「アイ メットヒム」と日
本語的な発音でrl  MET  HIMJの英語の文
が放音される。
Then, the sound processing unit 17 emits the English sentence rl MET HIMJ with Japanese pronunciation as "I met him."

尚、英語の音素を直接日本語の音素に変換できる変換テ
ーブルと変換規則を用意して、英語の文章を直接日本語
用の発音・韻律記号列に変換するようにしてもよい。こ
のようにすれば、より高速に音声を出力させることがで
きる。
It is also possible to prepare a conversion table and conversion rules that can directly convert English phonemes into Japanese phonemes, and convert English sentences directly into pronunciation/prosodic symbol strings for Japanese. In this way, audio can be output faster.

また、上記実施例では英語、ドイツ語の文章を日本語的
な発音で合成するようにしているが、英語、ドイツ語以
外にも、フランス語、スペイン語、イタリア語、ロシア
語等の各種言語を日本語的な発音で合成するようにする
ことも可能である。
In addition, in the above embodiment, English and German sentences are synthesized with Japanese pronunciation, but in addition to English and German, various languages such as French, Spanish, Italian, and Russian are also synthesized. It is also possible to synthesize with Japanese pronunciation.

また、逆に日本語を例えば英語、ドイツ語的な発音で合
成するようにすることも可能である。
Conversely, it is also possible to synthesize Japanese with English or German pronunciation, for example.

さらに、スペクトルパラメータも、PARCOR係数に
限定されず、ホルマント、メルケプストラム、LSP(
線スペクトル対: 1ine spectrumpa 
i r)等を用いてもよい。
Furthermore, spectral parameters are not limited to PARCOR coefficients, but also formants, mel cepstrum, LSP (
Line spectrum pair: 1ine spectrum
ir) etc. may be used.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明によれば装置を大型化する
ことなく、簡単なシステム構成で多国語のテキストを利
用者にとって理解し易い明瞭な音声で出力することがで
きる。また、利用者にとって聞き取り易い母国語的な発
音で音声出力されるので、外国語に不慣れな人でも内容
を理解し易い利点がある。
As described above, according to the present invention, multilingual text can be output in clear speech that is easy for users to understand with a simple system configuration without increasing the size of the device. Furthermore, since the audio is output in a native language pronunciation that is easy for the user to hear, it has the advantage that even people who are unfamiliar with foreign languages can easily understand the content.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理図、 第2図は一実施例のシステム構成図、 第3図は言語処理部の一構成例を示す図、第4図は英語
用の発音記号を示す図、 第5図は英語用発音・韻律記号変換部の一構成例を示す
ブロック図、 第6図は音素変換テーブルの内容を示す図、第7図は音
源処理部の一構成例を示す図、第8図は入力文字列を日
本語用の発音・韻律記号の列に変換する処理を説明する
フローチャート、第9図は英語用の発音・韻律記号の列
を日本語用の発音・韻律記号の列に変換する処理を説明
するフローチャート、 第10図は従来のテキスト音声変換装置の一例を示す図
、 第11図は従来のテキスト音声変換装置の他の例を示す
図である。 1・・・発音・韻律記号生成手段、 2・・・音声合成手段、 3・・・言語処理手段、 4・・・発音・韻律記号変換手段。
Fig. 1 is a diagram showing the principle of the present invention, Fig. 2 is a system configuration diagram of an embodiment, Fig. 3 is a diagram showing an example of the configuration of the language processing section, Fig. 4 is a diagram showing phonetic symbols for English, FIG. 5 is a block diagram showing an example of the configuration of the English pronunciation/prosodic symbol converter; FIG. 6 is a diagram showing the contents of the phoneme conversion table; FIG. 7 is a block diagram showing an example of the configuration of the sound source processing unit; Figure 8 is a flowchart explaining the process of converting an input character string into a string of pronunciation and prosodic symbols for Japanese, and Figure 9 shows a sequence of pronunciation and prosodic symbols for English to a string of pronunciation and prosodic symbols for Japanese. FIG. 10 is a diagram showing an example of a conventional text-to-speech conversion device; FIG. 11 is a diagram showing another example of a conventional text-to-speech conversion device. 1... Pronunciation/prosodic symbol generation means, 2... Speech synthesis means, 3... Language processing means, 4... Pronunciation/prosodic symbol conversion means.

Claims (1)

【特許請求の範囲】 1)書かれた第1の言語の文字列を前記第1の言語とは
異なる発音用の第2の言語の発音・韻律記号列に変換す
る発音・韻律記号生成手段(1)と、前記発音・韻律記
号に基づいて音声を合成する音声合成手段(2)とを有
することを特徴とするテキスト音声変換装置。 2)前記発音・韻律記号生成手段(1)は、前記文字列
を前記書かれた第1の言語用の発音・韻律記号列に変換
する言語処理手段(3)と、 その変換された発音・韻律記号列を前記第2の言語用の
発音・韻律記号列に変換する発音・韻律記号変換手段(
4)とを有することを特徴とする請求項1記載のテキス
ト音声変換装置。
[Scope of Claims] 1) Pronunciation/prosodic symbol generation means ( 1); and a speech synthesis means (2) for synthesizing speech based on the pronunciation/prosodic symbols. 2) The pronunciation/prosodic symbol generation means (1) includes a language processing means (3) for converting the character string into a pronunciation/prosodic symbol string for the written first language; Pronunciation/prosodic symbol converting means (
4) The text-to-speech conversion device according to claim 1, characterized in that it has the following.
JP63179107A 1988-07-20 1988-07-20 Text voice converting device Pending JPH0229797A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63179107A JPH0229797A (en) 1988-07-20 1988-07-20 Text voice converting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63179107A JPH0229797A (en) 1988-07-20 1988-07-20 Text voice converting device

Publications (1)

Publication Number Publication Date
JPH0229797A true JPH0229797A (en) 1990-01-31

Family

ID=16060144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63179107A Pending JPH0229797A (en) 1988-07-20 1988-07-20 Text voice converting device

Country Status (1)

Country Link
JP (1) JPH0229797A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127199A (en) * 1990-09-19 1992-04-28 Oki Electric Ind Co Ltd Japanese pronunciation determining method for foreign language word
JPH0798709A (en) * 1993-05-14 1995-04-11 Ricoh Co Ltd Aural translating device
JPH08124092A (en) * 1994-10-21 1996-05-17 Alpine Electron Inc On-vehicle navigator device
US7230177B2 (en) 2002-11-19 2007-06-12 Yamaha Corporation Interchange format of voice data in music file

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660973A (en) * 1979-10-24 1981-05-26 Sharp Corp Electronic voice translator

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5660973A (en) * 1979-10-24 1981-05-26 Sharp Corp Electronic voice translator

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04127199A (en) * 1990-09-19 1992-04-28 Oki Electric Ind Co Ltd Japanese pronunciation determining method for foreign language word
JPH0798709A (en) * 1993-05-14 1995-04-11 Ricoh Co Ltd Aural translating device
JPH08124092A (en) * 1994-10-21 1996-05-17 Alpine Electron Inc On-vehicle navigator device
US7230177B2 (en) 2002-11-19 2007-06-12 Yamaha Corporation Interchange format of voice data in music file

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Macchi Issues in text-to-speech synthesis
JP3587048B2 (en) Prosody control method and speech synthesizer
Kayte et al. Di-phone-Based Concatenative Speech Synthesis Systems for Marathi Language
Aida-Zade et al. The main principles of text-to-speech synthesis system
JPH0887297A (en) Voice synthesis system
JPH0229797A (en) Text voice converting device
JP2002123281A (en) Speech synthesizer
JP3397406B2 (en) Voice synthesis device and voice synthesis method
Romsdorfer Polyglot text-to-speech synthesis: Text analysis & prosody control
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
KR100202539B1 (en) Voice synthetic method
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi
JPH08160983A (en) Speech synthesizing device
JPH04350699A (en) Text voice synthesizing device
JPH02234198A (en) Text voice synthesizing system
Evans et al. A multi-lingual speech synthesiser for blind people
Tian et al. Modular design for Mandarin text-to-speech synthesis
Gupta et al. INTERNATIONAL JOURNAL OF ADVANCES IN COMPUTING AND INFORMATION TECHNOLOGY
JPH07134596A (en) Method and device for processing speech duration time for speech synthesis
JPH0229798A (en) Voice output device
JPH086586A (en) Accent adding device and voice synthesizer
JPH0764586A (en) Voice synthesizer
JPH04284568A (en) Method and device for translating voice of korean text
Галай Phonetic Phenomena in the English Language