JP2740510B2 - Text-to-speech synthesis method - Google Patents

Text-to-speech synthesis method

Info

Publication number
JP2740510B2
JP2740510B2 JP63029930A JP2993088A JP2740510B2 JP 2740510 B2 JP2740510 B2 JP 2740510B2 JP 63029930 A JP63029930 A JP 63029930A JP 2993088 A JP2993088 A JP 2993088A JP 2740510 B2 JP2740510 B2 JP 2740510B2
Authority
JP
Japan
Prior art keywords
prosody
emphasis
parameter
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63029930A
Other languages
Japanese (ja)
Other versions
JPH01204100A (en
Inventor
哲也 酒寄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63029930A priority Critical patent/JP2740510B2/en
Publication of JPH01204100A publication Critical patent/JPH01204100A/en
Application granted granted Critical
Publication of JP2740510B2 publication Critical patent/JP2740510B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 技術分野 本発明は、テキスト音声合成方式に関する。Description: TECHNICAL FIELD The present invention relates to a text-to-speech synthesis system.

従来技術 テキスト音声合成によって長い文章を合成する場合、
合成音は人間の発声と比べて非常に単調であり、長時間
の聴取は苦痛を伴うものであった。また、文字で書かれ
た文章には文字情報の他に、傍線,傍点,かぎかっこ,
太字,拡大文字,網掛け,変形書体等の様々な強調情報
が含まれるのが普通であり、これによって重要な情報を
読み手に分かりやすい形で提供している。しかし従来の
テキスト音声合成方式では、これらの強調情報は無視し
て文字情報だけを入力情報としていた。このため、出力
される合成音声には強調箇所と非強調箇所と区別はな
く、合成音はさらに単調なものとなっていた。
Prior Art When synthesizing long sentences by text-to-speech synthesis,
The synthesized speech was very monotonous compared to human speech, and prolonged listening was painful. In addition, in sentences written in characters, in addition to character information, horizontal lines, cross points, angle brackets,
Various emphasis information such as bold, enlarged characters, shading, and modified fonts are usually included, thereby providing important information in a form that is easy for the reader to understand. However, in the conventional text-to-speech synthesis method, such emphasis information is ignored and only character information is used as input information. For this reason, there is no distinction between the emphasized portion and the non-emphasized portion in the output synthesized speech, and the synthesized sound is more monotonous.

目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、音声のテキスト合成において、単調になりが
ちな合成音声を、そこに含まれる重要な情報を強調して
発声することによって、聴取し易いものとすることを目
的としてなされたものである。
Objective The present invention has been made in view of the above-mentioned circumstances, and in particular, in text synthesis of speech, a synthesized speech that tends to be monotonous, by emphasizing important information contained therein and uttering the speech, The purpose is to make it easy to hear.

構成 本発明は、上記目的を達成するために、形態素解析
部、音韻・韻律記号生成部、韻律テーブル、韻律生成
部、強調バイアステーブル、強調パラメータ生成部、加
算器、音声素片ファイル、音韻パラメータ生成部、音声
合成器からなるテキスト音声合成装置であって、前記形
態素解析部は、入力されるテキストを形態素解析処理す
ることにより形態素情報を出力し、前記音韻・韻律記号
生成部は、形態素情報から韻律記号列、音韻記号列を生
成し、前記韻律テーブルは、韻律記号列に対応する韻律
パラメータを記憶し、前記韻律生成部は、韻律テーブル
を参照して韻律記号列から韻律パラメータを読み出し、
前記強調バイアステーブルは、テキストに含まれる強調
情報に対応した強調韻律パラメータを記憶し、前記強調
パラメータ生成部は、前記強調バイアステーブルを参照
し、テキストに含まれる強調情報が強調する箇所の強調
韻律パラメータを生成し、前記加算器は、韻律パラメー
タと強調韻律パラメータを加算し、加算韻律パラメータ
として出力し、前記音声素片ファイルは、音韻記号列に
対応する音素片パラメータを記憶し、前記音韻パラメー
タ生成部は、前記音声素片ファイルを参照し、入力され
る音韻記号列から音声素片パラメータを読み出し、前記
音声合成器は、加算韻律パラメータを加味しながら音声
素片パラメータを結合規則によって結合し合成音声を生
成することを特徴としたものである。以下、本発明の実
施例に基いて説明する。
To achieve the above object, the present invention provides a morphological analysis unit, a phoneme / prosodic symbol generation unit, a prosody table, a prosody generation unit, an emphasis bias table, an emphasis parameter generation unit, an adder, a speech unit file, a phoneme parameter. A text-to-speech synthesis device including a generation unit and a speech synthesizer, wherein the morphological analysis unit outputs morphological information by performing a morphological analysis process on the input text; and the phonological / prosodic symbol generating unit includes a morphological information unit. A prosody symbol string and a phoneme symbol string are generated from the prosody table, the prosody table stores prosody parameters corresponding to the prosody symbol string, and the prosody generation unit reads the prosody parameter from the prosody symbol string with reference to the prosody table,
The emphasis bias table stores emphasis prosody parameters corresponding to emphasis information included in the text, and the emphasis parameter generation unit refers to the emphasis bias table and emphasizes the prosody of a portion where the emphasis information included in the text emphasizes. Generating a parameter, the adder adds a prosodic parameter and an enhanced prosodic parameter, and outputs the sum as a prosodic parameter. The speech unit file stores a phoneme parameter corresponding to a phoneme symbol string. The generation unit refers to the speech unit file, reads a speech unit parameter from the input phoneme symbol string, and the speech synthesizer combines the speech unit parameters according to a combination rule while taking into account the added prosody parameter. It is characterized by generating synthesized speech. Hereinafter, a description will be given based on an example of the present invention.

第1図は、本発明の一実施例を説明するためのブロッ
ク線図で、図中、1は形態素解析部、2は音韻韻律記号
生成部、3は韻律生成部、4は韻律テーブル、5は強調
記号生成部、6は強調韻律生成部で、これら強調記号生
成部5及び強調韻律生成部7で強調すべきパラメータを
生成する。7は強調バイアステーブル、8は加算器、9
は音韻パラメータ生成部、10は音声素片ファイル、11は
音声合成器で、本発明は、前記形態素解析部1は、入力
されるテキストを形態素解析処理することにより形態素
情報を出力し、前記音韻・韻律記号生成部2は、形態素
情報から韻律記号列、音韻記号列を生成し、前記韻律テ
ーブル4は、韻律記号列に対応する韻律パラメータを記
憶し、前記韻律生成部3は、韻律テーブル4を参照して
韻律記号列から韻律パラメータを読み出し、前記強調バ
イアステーブル7は、テキストに含まれる強調情報に対
応した強調韻律パラメータを記憶し、前記強調パラメー
タ生成部5,6は、前記強調バイアステーブル7を参照
し、テキストに含まれる強調情報が強調する箇所の強調
韻律パラメータを生成し、前記加算器8は、韻律パラメ
ータと強調韻律パラメータを加算し、加算韻律パラメー
タとして出力し、前記音声素片ファイル10は、音韻記号
列に対応する音素片パラメータを記憶し、前記音韻パラ
メータ生成部9は、前記音声素片ファイル10を参照し、
入力される音韻記号列から音声素片パラメータを読み出
し、前記音声合成器11は、加算韻律パラメータを加味し
ながら音声素片パラメータを結合規則によって結合し合
成音声を生成したもので、例えば、傍線,傍点,かぎか
っこ,太字,拡大文字,網掛け,変形書体等の様々な強
調情報を含む文章を、強調箇所の韻律を変化させて発声
することによって、合成音の単調性を減少し、さらに重
要な情報を聞き手に分かりやすい形で提供するものであ
る。
FIG. 1 is a block diagram for explaining an embodiment of the present invention, in which 1 is a morphological analysis unit, 2 is a phoneme / prosodic symbol generation unit, 3 is a prosody generation unit, 4 is a prosody table, 5 Denotes an emphasis symbol generation unit, and 6 denotes an emphasis prosody generation unit. These emphasis symbol generation units 5 and 7 generate parameters to be emphasized. 7 is an emphasis bias table, 8 is an adder, 9
Is a phoneme parameter generation unit, 10 is a speech unit file, and 11 is a speech synthesizer. According to the present invention, the morphological analysis unit 1 outputs morphological information by performing morphological analysis processing on an input text, The prosody symbol generation unit 2 generates a prosody symbol sequence and a phoneme symbol sequence from the morphological information, the prosody table 4 stores prosody parameters corresponding to the prosody symbol sequence, and the prosody generation unit 3 , Read the prosody parameters from the prosody symbol string, the emphasis bias table 7 stores the emphasis prosody parameters corresponding to the emphasis information included in the text, and the emphasis parameter generation units 5 and 6 execute the emphasis bias table 7, the adder 8 generates a prosody parameter at a position where the emphasis information included in the text emphasizes, and the adder 8 generates the prosody parameter and the prosody parameter. The speech unit file 10 stores the phoneme parameter corresponding to the phoneme symbol string, and the phoneme parameter generation unit 9 refers to the speech unit file 10. ,
The speech synthesizer 11 reads out speech unit parameters from the input phoneme symbol string, and the speech synthesizer 11 combines the speech unit parameters according to a combination rule while taking into account the added prosodic parameters to generate a synthesized speech. By changing the prosody of the emphasis part to utter a sentence containing various emphasis information such as side-points, brackets, bold, enlarged characters, shading, deformed fonts, etc. Information is provided to the listener in an easy-to-understand format.

第2図乃至第4図は、それぞれ本発明の実施例を説明
するための図で、いずれも、“これが「霜降り」と呼ば
れている肉です”と発声した時の例を示し、「霜降り」
が強調されている時の例を示す。而して、第2図に示し
た実施例は、強調情報によって強調された箇所(文字列
の各文字)の基本周波数を非強調箇所のそれに対して一
定のバイアスを持たせて高くしたものである。また、第
3図に示した実施例は、強調情報(「 」)によって強
調された文字列(霜降り)のパワーを非強調箇所のそれ
に対して一定のバイアスを持たせて大きくしたもの、第
4図に示した実施例は、強調情報によって強調された箇
所(文字列)の発話速度を非強調箇所のそれよりも遅
く、すなわち強調箇所の各音韻の継続時間長を非強調箇
所に比べて長くしたものである。
FIG. 2 to FIG. 4 are diagrams for explaining the embodiment of the present invention, and all show examples in which "this is meat called" marbling "" is uttered, and "marbling""
Here is an example when is highlighted. In the embodiment shown in FIG. 2, the fundamental frequency of the portion (each character of the character string) emphasized by the emphasis information is increased by giving a certain bias to that of the non-emphasized portion. is there. In the embodiment shown in FIG. 3, the power of the character string (marbling) emphasized by the emphasis information (“”) is increased by giving a certain bias to that of the non-emphasized portion, In the embodiment shown in the figure, the utterance speed of the portion (character string) emphasized by the emphasis information is lower than that of the non-emphasized portion, that is, the duration of each phoneme of the emphasized portion is longer than that of the non-emphasized portion. It was done.

効果 以上の説明から明らかなように、本発明によると合成
音声の単調性を減少させ、重要な情報を強調して発声す
ることが可能となり、特に、音声のテキスト合成におい
て、単調になりがちな合成音声を、そこに含まれる重要
な情報を強調して発声することによって聴取し易いもの
とすることができ、もって、強調処理を音韻生成前の韻
律生成処理と並行して行うことにより、発生合成音声を
より人間の発声に近くて自然性を向上させるとともに、
強調処理を加算にて行うようにして、強調処理を簡単に
したものである。
Effects As is apparent from the above description, according to the present invention, it is possible to reduce the monotonicity of synthesized speech and emphasize important information to produce utterance. In particular, speech synthesis tends to be monotonous. It is possible to make the synthesized speech easy to hear by voicing with emphasis on important information contained in the synthesized speech. Therefore, by performing the emphasis process in parallel with the prosody generation process before the phoneme generation, Synthetic speech is closer to human utterance to improve naturalness,
The emphasis process is performed by addition, thereby simplifying the emphasis process.

【図面の簡単な説明】[Brief description of the drawings]

第1図は、本発明の実施に使用されるテキスト音声合成
装置の一例を示すブロック図、第2図乃至第4図は、そ
れぞれ本発明の実施例を説明するための図である。 1……形態素解析部、2……音韻韻律記号生成部、3…
…韻律生成部、4……韻律テーブル、5……強調記号生
成部、6……強調韻律生成部、7……強調バイアステー
ブル、8……加算器、9……音韻パラメータ生成部、10
……音声素片ファイル、11……音声合成器。
FIG. 1 is a block diagram showing an example of a text-to-speech synthesizing apparatus used for carrying out the present invention, and FIGS. 2 to 4 are views for explaining an embodiment of the present invention. 1 ... morphological analysis unit, 2 ... phonological prosodic symbol generation unit, 3 ...
... Prosody generation section, 4... Prosody table, 5... Emphasis symbol generation section, 6... Emphasis prosody generation section, 7... Emphasis bias table, 8.
…… Speech unit file, 11 …… Speech synthesizer.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】形態素解析部、音韻・韻律記号生成部、韻
律テーブル、韻律生成部、強調バイアステーブル、強調
パラメータ生成部、加算器、音声素片ファイル、音韻パ
ラメータ生成部、音声合成器からなるテキスト音声合成
装置であって、 形態素解析部は、入力されるテキストを形態素解析処理
することにより形態素情報を出力し、 音韻・韻律記号生成部は、形態素情報から韻律記号列、
音韻記号列を生成し、 韻律テーブルは、韻律記号列に対応する韻律パラメータ
を記憶し、 韻律生成部は、韻律テーブルを参照して韻律記号列から
韻律パラメータを読み出し、 強調バイアステーブルは、テキストに含まれる強調情報
に対応した強調韻律パラメータを記憶し、 強調パラメータ生成部は、強調バイアステーブルを参照
し、テキストに含まれる強調情報が強調する箇所の強調
韻律パラメータを生成し、 加算器は、韻律パラメータと強調韻律パラメータを加算
し、加算韻律パラメータとして出力し、 音声素片ファイルは、音韻記号列に対応する音素片パラ
メータを記憶し、 音韻パラメータ生成部は、音声素片ファイルを参照し、
入力される音韻記号列から音声素片パラメータを読み出
し、 音声合成器は、加算韻律パラメータを加味しながら音声
素片パラメータを結合規則によって結合し合成音声を生
成するテキスト音声合成装置。
1. A morphological analysis section, a phoneme / prosodic symbol generation section, a prosody table, a prosody generation section, an emphasis bias table, an emphasis parameter generation section, an adder, a speech unit file, a phoneme parameter generation section, and a speech synthesizer. In a text-to-speech synthesis apparatus, a morphological analysis unit outputs morphological information by performing morphological analysis processing on an input text, and a phoneme / prosodic symbol generation unit generates a prosodic symbol sequence from the morphological information,
A prosody table stores a prosody parameter corresponding to the prosody symbol string. The prosody generation unit reads the prosody parameter from the prosody symbol string with reference to the prosody table. The emphasis prosody parameter corresponding to the emphasis information included is stored. The emphasis parameter generation unit refers to the emphasis bias table and generates an emphasis prosody parameter of a portion where the emphasis information included in the text is emphasized. The parameter and the enhanced prosodic parameter are added and output as an added prosodic parameter. The speech unit file stores the phoneme parameter corresponding to the phoneme symbol string. The phoneme parameter generation unit refers to the speech unit file,
A text-to-speech synthesizer that reads out speech unit parameters from an input phoneme symbol string, and a speech synthesizer that combines speech unit parameters according to a combination rule while taking added prosody parameters into account.
JP63029930A 1988-02-09 1988-02-09 Text-to-speech synthesis method Expired - Fee Related JP2740510B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63029930A JP2740510B2 (en) 1988-02-09 1988-02-09 Text-to-speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63029930A JP2740510B2 (en) 1988-02-09 1988-02-09 Text-to-speech synthesis method

Publications (2)

Publication Number Publication Date
JPH01204100A JPH01204100A (en) 1989-08-16
JP2740510B2 true JP2740510B2 (en) 1998-04-15

Family

ID=12289706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63029930A Expired - Fee Related JP2740510B2 (en) 1988-02-09 1988-02-09 Text-to-speech synthesis method

Country Status (1)

Country Link
JP (1) JP2740510B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327870A (en) * 1998-05-15 1999-11-30 Fujitsu Ltd Device for reading-aloud document, reading-aloud control method and recording medium
JP6716397B2 (en) * 2016-08-31 2020-07-01 株式会社東芝 Audio processing device, audio processing method and program
JP6646001B2 (en) * 2017-03-22 2020-02-14 株式会社東芝 Audio processing device, audio processing method and program
JP2018159759A (en) * 2017-03-22 2018-10-11 株式会社東芝 Voice processor, voice processing method and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073589A (en) * 1983-09-30 1985-04-25 株式会社日立製作所 Voice synthesization system
JPS6488599A (en) * 1987-09-30 1989-04-03 Matsushita Electric Ind Co Ltd Voice synthesizer

Also Published As

Publication number Publication date
JPH01204100A (en) 1989-08-16

Similar Documents

Publication Publication Date Title
JPH0833744B2 (en) Speech synthesizer
JPS62231998A (en) Voice synthesization method and apparatus
JP2740510B2 (en) Text-to-speech synthesis method
JP3518898B2 (en) Speech synthesizer
AU769036B2 (en) Device and method for digital voice processing
JPH08335096A (en) Text voice synthesizer
JP3094622B2 (en) Text-to-speech synthesizer
JPH07200554A (en) Sentence read-aloud device
JP2703253B2 (en) Speech synthesizer
JP3113101B2 (en) Speech synthesizer
JPH05224689A (en) Speech synthesizing device
JP3397406B2 (en) Voice synthesis device and voice synthesis method
JP4056647B2 (en) Waveform connection type speech synthesis apparatus and method
JP2573586B2 (en) Rule-based speech synthesizer
JP2987089B2 (en) Speech unit creation method, speech synthesis method and apparatus therefor
JP2995774B2 (en) Voice synthesis method
JP2001100777A (en) Method and device for voice synthesis
JP2573587B2 (en) Pitch pattern generator
JP2573585B2 (en) Speech spectrum pattern generator
JP2586040B2 (en) Voice editing and synthesis device
JP3292218B2 (en) Voice message composer
JP2001166787A (en) Voice synthesizer and natural language processing method
JPH07129188A (en) Voice synthesizing device
JPH06138894A (en) Device and method for voice synthesis
JPH11327594A (en) Voice synthesis dictionary preparing system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees