JPH1097290A - Speech synthesizer - Google Patents

Speech synthesizer

Info

Publication number
JPH1097290A
JPH1097290A JP8251646A JP25164696A JPH1097290A JP H1097290 A JPH1097290 A JP H1097290A JP 8251646 A JP8251646 A JP 8251646A JP 25164696 A JP25164696 A JP 25164696A JP H1097290 A JPH1097290 A JP H1097290A
Authority
JP
Japan
Prior art keywords
phoneme symbol
waveform
speech
subsequence
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8251646A
Other languages
Japanese (ja)
Inventor
Hideji Nishida
秀治 西田
Hiroyuki Hirai
啓之 平井
Masanori Miyatake
正典 宮武
Hiroki Onishi
宏樹 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP8251646A priority Critical patent/JPH1097290A/en
Publication of JPH1097290A publication Critical patent/JPH1097290A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To output a synthesized speech waveform of superior speech quality by reading an optimum unit speech waveform corresponding to a 1st vocal sound symbol part string divided in specific preferential order out of a waveform memory and connecting it. SOLUTION: A text speech synthesizer 10 includes a microcomputer 12. The microcomputer 12 receives an input character string consisting of a 1st vocal sound symbol string consisting of text document data, and uses a dictionary 14 for text analysis to convert it into a vocal sound symbol string consisting of the 1st vocal sound symbol part string and also generate the pitch pattern and power pattern of this input character string. Then the microcomputer 12 shapes, connects, and edits unit speech waveforms registered in a speech waveform data base 16 according to the pitch pattern and power pattern, and outputs the resulting synthesized speech. Language information corresponding to vocal sound symbols of a 2nd vocal sound symbol string which is divided in specific preferential order is added to the 2nd vocal sound symbol string.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は音声合成装置に関
し、特に音声案内、音声応答および音声読み上げ等に用
いられ、入力文字列に対応する音韻記号列に従って音声
波形を合成して出力する、音声合成装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer, and more particularly to a speech synthesizer used for voice guidance, voice response, voice reading, etc., which synthesizes and outputs a voice waveform according to a phoneme symbol string corresponding to an input character string. Related to the device.

【0002】[0002]

【従来の技術】従来の一般的な音声合成装置が、特開平
7−92997号公報に開示されている。これは、音声
合成を行う音韻系列に対応し、データベースに含まれる
音声単位の中から、その音声単位に付加された韻律情報
により、音響的な特徴を選択基準として、音声単位を選
択してそれぞれを接続するものである。
2. Description of the Related Art A conventional general speech synthesizer is disclosed in Japanese Patent Application Laid-Open No. 7-92997. This corresponds to the phoneme sequence for speech synthesis, and from the speech units included in the database, based on the prosodic information added to the speech unit, a speech unit is selected based on acoustic features as a selection criterion, and Is to connect.

【0003】具体的に上述の音声合成装置の構成例を図
6に示す。
FIG. 6 shows a specific example of the configuration of the above-described speech synthesizer.

【0004】図6において、100は入力端子、101
は前処理部、102は選択基準パラメータ設定部、10
3は素片選択部、104は条件設定部、105は素片パ
ラメータテーブル、106は素片ファイル、107は素
片接続部、108は出力端子を表す。
In FIG. 6, reference numeral 100 denotes an input terminal, 101
Is a preprocessing unit, 102 is a selection criterion parameter setting unit, 10
Reference numeral 3 denotes a unit selection unit, 104 denotes a condition setting unit, 105 denotes a unit parameter table, 106 denotes a unit file, 107 denotes a unit connection unit, and 108 denotes an output terminal.

【0005】条件設定部104は、素片選択部103に
おける素片選択処理時に用いる素片環境適正条件を種々
設定するものであり、これら設定条件の追加、変更、削
除を行うことができる。
The condition setting unit 104 sets various unit environment appropriate conditions to be used in the unit selection process in the unit selection unit 103, and can add, change, and delete these setting conditions.

【0006】次に、図6を用いて、従来の音声合成装置
の処理について説明する。
Next, the processing of the conventional speech synthesizer will be described with reference to FIG.

【0007】前処理部101は、入力文字列を音韻単位
に分割する。選択基準パラメータ設定部102は、合成
パラメータである波形素片の選択に用いる選択基準パラ
メータを上述の音韻単位に基づいて設定する。素片選択
部103は、設定された選択基準パラメータと、素片パ
ラメータテーブル105から取り込んだ素片パラメータ
との間でその2乗誤差を算出し、この2乗誤差が小さい
順に素片パラメータを選択して1次候補を生成し、更に
条件設定部104に設定された素片環境適正条件を最も
良くみたす素片パラメータに対応する素片を上述の音韻
単位に対する最適素片として決定する。
The preprocessing unit 101 divides an input character string into phoneme units. The selection criterion parameter setting unit 102 sets a selection criterion parameter used for selecting a waveform segment that is a synthesis parameter based on the above-described phoneme unit. The unit selection unit 103 calculates the square error between the set selection criterion parameter and the unit parameter fetched from the unit parameter table 105, and selects the unit parameters in ascending order of the square error. Then, a primary candidate is generated, and a unit corresponding to a unit parameter that best meets the unit environment appropriate condition set in the condition setting unit 104 is determined as an optimum unit for the above-described phoneme unit.

【0008】このとき、「素片環境適正条件」とは、
(1)素片を抽出した音韻環境と合成時の音韻環境が一
致もしくは調音方式が類似すること、(2)平均ピッチ
の大小関係が選択基準パラメータの大小関係と一致する
こと、(3)ピッチ傾斜の符号(正/負/0)が選択基
準パラメータの符号と一致すること、であり、韻律情報
によって、最適素片の決定を行う。
[0008] At this time, the "element environment appropriate condition" is:
(1) The phoneme environment from which the unit was extracted matches the phoneme environment at the time of synthesis or the articulation method is similar, (2) the magnitude relationship of the average pitch matches the magnitude relationship of the selection reference parameter, (3) the pitch The sign of the slope (positive / negative / 0) matches the sign of the selection reference parameter, and the optimal segment is determined based on the prosody information.

【0009】次に、素片接続部107は決定された音韻
単位の最適素片を素片ファイル106から抽出し、音韻
単位毎に素片接続部107で接続して合成音声を出力す
る。
Next, the unit connection unit 107 extracts the optimal unit for the determined phoneme unit from the unit file 106, connects the unit for each phoneme unit, and outputs a synthesized speech.

【0010】[0010]

【発明が解決しようとする課題】然し乍ら、日本語の語
尾の母音は無声化しやすく、全体的にパワーが小さくな
るなどの特異な音響特性を有しているため、従来の音声
合成装置では、音声単位の選択の際、音声単位の平均ピ
ッチ周期や平均パワーなどの音響的な特徴を評価しうる
韻律情報のみで判定を行っており、日本語の語尾のよう
に、韻律情報だけでは最適な音声単位が選択できないと
いった問題点があった。
However, the vowels at the end of Japanese tend to be unvoiced and have unique acoustic characteristics such as low power as a whole. At the time of unit selection, judgment is made only with prosodic information that can evaluate acoustic features such as the average pitch period and average power of the speech unit. There was a problem that the unit could not be selected.

【0011】また、それぞれの音声単位は音節単位で分
解されており、音節単位毎に選択基準にしたがって音声
単位が選択されているため、単語単位など、第2の音韻
記号列に対する音声波形の連続性を利用できず、これも
合成音の音質の向上を妨げる原因となっていた。
Each speech unit is decomposed in syllable units, and speech units are selected in accordance with the selection criteria for each syllable unit. The sound quality was not available, which also hindered the improvement of the sound quality of the synthesized sound.

【0012】それゆえに、この発明の主たる目的は、優
れた音質の合成音を出力することができる、音声合成装
置を提供することである。
[0012] Therefore, a main object of the present invention is to provide a speech synthesizer capable of outputting a synthesized sound having excellent sound quality.

【0013】[0013]

【課題を解決するための手段】本発明は、入力文字列に
対応する第1の音韻記号列に含まれる複数の第1の音韻
記号部分列に対応する単位音声波形を合成して合成音声
波形を出力する音声合成装置において、前記第1の音韻
記号列を所定の優先順位で複数の第1の音韻記号部分列
に分割する分割手段と、前記所定の優先順位で分割され
た第2の音韻記号部分列を含む第2の音韻記号列、及び
前記第2の音韻記号部分列に対応する単位音声波形を含
む音声波形を蓄積した波形メモリと、前記第1の音韻記
号部分列に対応する単位音声波形を前記波形メモリから
読み出す波形読出手段と、前記波形メモリから読み出さ
れた単位音声波形を接続して合成音声波形を生成する波
形接続手段と、を具備し、前記第2の音韻記号列には、
音韻記号毎にその音韻記号に対応する言語情報が付加さ
れていることを特徴とする。
According to the present invention, a synthesized speech waveform is synthesized by synthesizing unit speech waveforms corresponding to a plurality of first phoneme symbol substrings included in a first phoneme symbol string corresponding to an input character string. And a dividing unit that divides the first phoneme symbol string into a plurality of first phoneme symbol subsequences at a predetermined priority, and a second phoneme divided at the predetermined priority. A waveform memory storing a second phoneme symbol string including a symbol subsequence and a speech waveform including a unit speech waveform corresponding to the second phoneme symbol subsequence; and a unit corresponding to the first phoneme symbol subsequence. A waveform reading means for reading a voice waveform from the waveform memory; and a waveform connecting means for connecting a unit voice waveform read from the waveform memory to generate a synthesized voice waveform, wherein the second phoneme symbol string is provided. In
A feature is that linguistic information corresponding to each phoneme symbol is added to each phoneme symbol.

【0014】また、前記第2の音韻記号部分列には、そ
の音韻記号部分列が語尾であるかないかの言語情報が付
加されており、前記第1の音韻記号部分列に一致する第
2の音韻記号部分列に対応する単位音声波形を前記波形
メモリから読み出す時、第1の音韻記号部分列が語尾で
あれば、それに対応する第2の音韻記号部分列を、前記
言語情報に基づいて語尾である単位音声波形を選択する
ことを特徴とする。
The second phoneme symbol subsequence is added with linguistic information indicating whether or not the phoneme symbol subsequence is the ending, and a second phoneme symbol subsequence that matches the first phoneme symbol subsequence is added. When the unit speech waveform corresponding to the phoneme symbol subsequence is read from the waveform memory, if the first phoneme symbol subsequence is the ending, the corresponding second phoneme symbol subsequence is suffixed based on the language information. Is selected.

【0015】また、前記第2の音韻記号部分列には、そ
の音韻記号部分列が語尾であるかないかの言語情報が付
加されており、前記第1の音韻記号部分列に一致する第
2の音韻記号部分列に対応する単位音声波形を前記波形
メモリから読み出す時、第1の音韻記号部分列が語尾で
なければ、それに対応する第2の音韻記号部分列を、前
記言語情報に基づいて、語尾でない単位音声波形を選択
することを特徴とする。
The second phoneme symbol subsequence is added with linguistic information indicating whether or not the phoneme symbol subsequence is the ending, and the second phoneme symbol subsequence coincides with the first phoneme symbol subsequence. When reading a unit speech waveform corresponding to a phoneme symbol subsequence from the waveform memory, if the first phoneme symbol subsequence is not an ending, a second phoneme symbol subsequence corresponding to the first phoneme symbol subsequence is determined based on the language information. It is characterized in that a unit voice waveform that is not the ending is selected.

【0016】更に、前記所定の優先順位とは、無音部、
無声音部および有声音部の順であることを特徴とする。
Further, the predetermined priority is a silent part,
It is characterized by an unvoiced part and a voiced part in this order.

【0017】[0017]

【発明の実施の形態】本発明の実施の形態を図1〜図5
を用いて説明する。
1 to 5 show an embodiment of the present invention.
This will be described with reference to FIG.

【0018】図1を参照して、テキスト音声合成装置1
0は、マイコン12を含む。マイコン12は、テキスト
文章データからなる第1の音韻記号列からなる入力文字
例を受け、まずテキスト解析用辞書14を用いて、入力
文字列を分割点が設定された第1の音韻記号部分列から
なる音韻記号列に変換すると共に、この入力文字列のピ
ッチパターンおよびパワーパターンを生成する。
Referring to FIG. 1, text-to-speech synthesizer 1
0 includes the microcomputer 12. The microcomputer 12 receives an input character example composed of a first phoneme symbol string composed of text sentence data, and uses the text analysis dictionary 14 to convert the input character string into a first phoneme symbol substring in which a dividing point is set. And a pitch pattern and a power pattern of the input character string are generated.

【0019】このとき、第1の音韻記号列を第1の音韻
記号部分列に分割するには、所定の優先順位、例えば無
音部、無声音部および有声音部の順であることが好まし
い。
At this time, in order to divide the first phoneme symbol sequence into the first phoneme symbol subsequences, it is preferable that a predetermined priority order is set, for example, a silent part, an unvoiced part, and a voiced part.

【0020】次に、マイコン12は、音声波形データベ
ース16に登録された単位音声波形をピッチパターンお
よびパワーパターンに基づいて、整形および接続編集
し、これによって生成された合成音を出力する。
Next, the microcomputer 12 shapes and connects and edits the unit sound waveform registered in the sound waveform database 16 based on the pitch pattern and the power pattern, and outputs a synthesized sound generated thereby.

【0021】音声波形データベース16には、「音声波
形」と各々の音声波形に対する「音韻ラベル情報」、波
形接続点近傍の音響特性を表す「韻律情報」に加え、語
尾であるかないかを表す「言語情報」が登録されてい
る。音韻ラベル情報は、音韻記号列(第2の音韻記号
列)および記号列番号を含む。具体例として、図2に音
声波形データベース16に登録されている各情報を列挙
する。なお、音韻記号列に含まれる“−”は5msec以上
の無音区間を表している。
The speech waveform database 16 includes "speech waveforms", "phonological label information" for each speech waveform, "prosodic information" representing acoustic characteristics near the waveform connection point, and "suffix or not" indicating whether or not the ending is present. "Language information" is registered. The phoneme label information includes a phoneme symbol string (second phoneme symbol string) and a symbol string number. As a specific example, FIG. 2 lists information registered in the audio waveform database 16. Note that "-" included in the phoneme symbol string indicates a silent section of 5 msec or more.

【0022】また、音声波形データベース16に登録さ
れている音韻記号列(第2の音韻記号列)は、第1の音
韻記号部分列と同様に、所定の優先順位、例えば無音
部、無声音部および有声音部の順で分割された第2の音
韻記号部分列から構成されている。
The phoneme symbol sequence (second phoneme symbol sequence) registered in the speech waveform database 16 has a predetermined priority, for example, a silence portion, an unvoiced sound portion, and the like, like the first phoneme symbol subsequence. It is composed of a second phoneme symbol substring divided in the order of the voiced sound part.

【0023】入力文字列に対応する音韻文字列,パワー
パターンおよびピッチパターンを生成するためのアルゴ
リズムを図3に示す。
FIG. 3 shows an algorithm for generating a phoneme character string, a power pattern, and a pitch pattern corresponding to an input character string.

【0024】マイコン12はまず、ステップS1で、入
力文字列を1文単位でメモリ12aに書き込む。次に、
ステップS3で文字列の形態素解析をする。すなわち、
テキスト解析用辞書14には、単語の表記とそれに対す
る音韻記号列(読み)やアクセント、品詞などの情報が
蓄えられており、これらの情報を用いて入力文字列がど
のような単語から成り立っているかを解析する。
First, in step S1, the microcomputer 12 writes an input character string into the memory 12a in units of one sentence. next,
In step S3, a morphological analysis of the character string is performed. That is,
The text analysis dictionary 14 stores information such as word notation and phonological symbol strings (reading), accents, parts of speech, and the like. The input character string is composed of what words using these information. Is analyzed.

【0025】続いて、ステップS5で解析結果に基づい
て入力文字列の音韻記号列を生成する。
Subsequently, in step S5, a phoneme symbol string of the input character string is generated based on the analysis result.

【0026】その後、ステップS7でテキスト解析用辞
書14を用いて入力文字列のポーズ(PAUSE)情報
を解析し、この解析結果からステップS9で入力文字列
のパワーパターンを生成する。
Then, in step S7, the pause (PAUSE) information of the input character string is analyzed using the text analysis dictionary 14, and a power pattern of the input character string is generated from the analysis result in step S9.

【0027】更に、ステップS11で、テキスト解析用
辞書14を用いて入力文字列のアクセント情報を解析
し、この解析結果からステップS13で入力文字列のピ
ッチパターンを生成する。
Further, in step S11, accent information of the input character string is analyzed using the text analysis dictionary 14, and a pitch pattern of the input character string is generated in step S13 from the analysis result.

【0028】ここで、パワーパターンは、周知の数量化
Ι類モデル、ピッチパターンも周知の藤崎モデル(比企
静雄編、「音声情報処理」東京大学出版会、1973)
により算出される。
Here, the power pattern is a well-known quantified type II model and the pitch pattern is also a well-known Fujisaki model (edited by Shizuo Hiki, "Speech Information Processing" University of Tokyo Press, 1973)
Is calculated by

【0029】次に、入力文字列に対応する音韻記号列、
パワーパターンおよびピッチパターンに基づいて出力音
声を生成するアルゴリズムを図4に示す。
Next, a phoneme symbol string corresponding to the input character string,
FIG. 4 shows an algorithm for generating an output voice based on the power pattern and the pitch pattern.

【0030】マイコン12は、まずステップS15で入
力文字列に対応する音韻記号列の分割点を決定し、この
音韻記号列を複数の音韻記号部分列に分割する。
At step S15, the microcomputer 12 first determines a division point of the phoneme symbol string corresponding to the input character string, and divides the phoneme symbol string into a plurality of phoneme symbol subsequences.

【0031】次に、ステップS17で部分列ナンバーn
を“1”に設定し、さらにステップS19で、n番目の
音韻記号部分列に対応する単位音声波形およびラベル情
報を音声波形データベース16より抽出する。
Next, in step S17, the subsequence number n
Is set to “1”, and the unit speech waveform and the label information corresponding to the n-th phoneme symbol subsequence are extracted from the speech waveform database 16 in step S19.

【0032】続いて、ステップS21で、入力文字列に
対応するパワーパターンに一致するように単位音声波形
の音韻継続時間長およびゲインを波形整形によって修正
する。
Subsequently, in step S21, the phoneme duration and gain of the unit speech waveform are corrected by waveform shaping so as to match the power pattern corresponding to the input character string.

【0033】その後、ステップS23で、入力文字列に
対応するピッチパターンに対応するように単位音声波形
のピッチを波形整形によって修正する。
Then, in step S23, the pitch of the unit voice waveform is corrected by waveform shaping so as to correspond to the pitch pattern corresponding to the input character string.

【0034】続いて、ステップS25で波形を接続し、
接続した合成音声波形をステップS27でメモリ12b
に記憶する。
Subsequently, the waveforms are connected in step S25,
The connected synthesized speech waveform is stored in the memory 12b in step S27.
To memorize.

【0035】その後、ステップS29で部分列番号nを
インクリメントし、ステップS31でn番目の単位音声
波形が存在するかどうか判断する。ここで“YES”で
あればステップS19に戻るが、“NO”であればステ
ップS33で合成音声波形をアナログ音声波形に変換し
て出力する。ステップS33のデータ変換は、周知のP
SOLA法(F.Charpentier他、”Pitch-Synchronous W
aveform Processing Techniques for Text-to-speech S
ynthesis Using Diphones”,Proc.Eurospeech’89)を用
いた。
Thereafter, in step S29, the sub-sequence number n is incremented, and in step S31, it is determined whether or not the n-th unit voice waveform exists. If "YES" here, the process returns to the step S19. However, if "NO", the synthesized voice waveform is converted into an analog voice waveform and output in a step S33. The data conversion in step S33 is performed by using a well-known P
SOLA method (F. Charpentier et al., “Pitch-Synchronous W
aveform Processing Techniques for Text-to-speech S
synthesis Using Diphones ", Proc. Eurospeech '89).

【0036】ここで、本発明の特徴であるステップS1
5を、具体的に以下に説明する。
Here, step S1 which is a feature of the present invention is described.
5 will be specifically described below.

【0037】本発明の実施の形態では、入力音韻記号列
の分割点の組み合わせからできるすべての音韻記号部分
列について、以下に示す「評価関数score」により決定
される評価点を算出し、各々の音韻記号部分列に対応す
る評価点の累積が最小になる組み合わせより分割点を決
定する。
In the embodiment of the present invention, evaluation points determined by the following "evaluation function score" are calculated for all the phoneme symbol subsequences formed from the combination of the division points of the input phoneme symbol string, and each evaluation point is calculated. The division point is determined from the combination that minimizes the accumulation of the evaluation points corresponding to the phoneme symbol subsequence.

【0038】ここで、「評価関数score」は、分割点の
優先順位により決定される値type、分割点前後の音韻の
種類により決定される値link、分割された音韻長により
決定される値len、及び分割点に対応する波形接続点に
おける理論値とのピッチ周期の差により決定される値f
0、および選択された音韻記号部分列が語尾であるかな
いかを数量化した値termのそれぞれの数値にw1〜w5
の重みをかけて足し合わせた値とする。w1〜w5の重
みは、夫々0〜10までの実数定数である。
Here, the "evaluation function score" is a value type determined by the priority of the division point, a value link determined by the type of phoneme before and after the division point, and a value len determined by the length of the divided phoneme. , And a value f determined by the difference in pitch period from the theoretical value at the waveform connection point corresponding to the division point
0, and w1-w5 for each numerical value of the value term quantifying whether the selected phonological symbol subsequence is the ending or not.
Weighted and added together. The weights of w1 to w5 are real constants of 0 to 10, respectively.

【0039】評価関数:score=w1*type+w2*lin
k+w3*len+w4*f0+w5*term type =0(分割点が前記優先順位第1位である場合) type =1(分割点が前記優先順位第2位である場合) type =3(分割点が前記優先順位第3位である場合) type =9(それ以外の場合) link =0(分割点前後の音韻の種類が一致する場合) link =9(それ以外の場合) len =−(分割点で区切られた音韻記号部分列の音韻
記号数) f0 =|log(実波形のピッチ周期)−log(理論ピッ
チ周期)|/ log(理論ピッチ周期) term =0(入力部分列が語尾でなく、選択部分列も語
尾でない場合) term =1(入力部分列が語尾であり、選択部分列も語
尾である場合) term =9(上記以外の場合) 以下、入力文字列/−ameno−tamedesu−
/(雨のためです)について、分割点の決定方法につい
て述べる。
Evaluation function: score = w1 * type + w2 * lin
k + w3 * len + w4 * f0 + w5 * term type = 0 (when the division point is the first priority) type = 1 (when the division point is the second priority) type = 3 (the division point is the priority) Type = 9 (otherwise) link = 0 (if the phonemes before and after the division point match) link = 9 (otherwise) len =-(separated by the division point) F0 = | log (pitch period of actual waveform)-log (theoretical pitch period) | / log (theoretical pitch period) term = 0 (input subsequence is not the ending, but is selected) Term = 1 (when the input subsequence is the ending and the selected subsequence is also the ending) term = 9 (other than the above) Hereinafter, the input character string / -ameno-tamedesu-
Regarding / (because of rain), the method of determining the division point is described.

【0040】尚、説明の簡略のため本実施の形態では、 w1=1,w2=1,w3=1,w4=1,w5=1 とした。音韻記号部分列の組み合わせは、図5に示す木
検索により行う。
In this embodiment, for simplicity of description, w1 = 1, w2 = 1, w3 = 1, w4 = 1, w5 = 1. The combination of phoneme symbol substrings is performed by a tree search shown in FIG.

【0041】図5中、選択された音韻記号部分列(この
音韻記号部分列は音声波形デ−タベ−ス16のラベル情
報に存在し、かつ、すべての音韻分割点前後の音韻が一
致するものが選択されたとした)の下側にscore値が示
されている。説明のため、各音韻記号部分列の選択され
た状態を便宜上「ノ−ド0」から「ノ−ド8」と呼ぶ。
In FIG. 5, the selected phoneme symbol subsequence (this phoneme symbol subsequence exists in the label information of the speech waveform database 16 and all phonemes before and after the phoneme division point coincide with each other) The score value is shown below. For the sake of explanation, the selected state of each phoneme symbol substring is referred to as "node 0" to "node 8" for convenience.

【0042】まず、はじめにノ−ド0において/−/
(無音)で始まり、/−ameno.../と続く音韻
記号部分列を音声波形デ−タベ−ス16のラベル情報よ
り検索し、その中で最もscore値が小さい音韻記号部分
列から所定の数m個(実施例では、2個とする)選択
し、下位にm個のノ−ドを作成する。
First, at node 0,
(Silence) and / -ameno. . . The phoneme symbol subsequence following "/" is retrieved from the label information of the speech waveform database 16, and a predetermined number m (two in the embodiment) of the phoneme symbol subsequence having the smallest score value is searched. ) Select and create m nodes below.

【0043】図5では、ノ−ド1/−ameno−/と
ノ−ド4/−ameno−tam/が選択された。/−
ameno−/のscore値は、 type =9:優先順位外の分割点で終わっている。
In FIG. 5, node 1 / -ameno- / and node 4 / -ameno-tam / were selected. /-
The score value of ameno- / ends at the division point of type = 9: out of priority.

【0044】link =0:後続の音韻記号がtで一致し
ている。
Link = 0: Subsequent phonemic symbols match at t.

【0045】len =−10 f0 =1.2:ピッチ差1.2倍 term =0:入力部分列が語尾でなく、選択部分列も語
尾でない。
Len = −10 f0 = 1.2: pitch difference 1.2 times term = 0: the input subsequence is not the ending, and the selected subsequence is not the ending.

【0046】score=9+0−10+1.2+ 0=0.2 /−ameno−tam/のscore値は、 type =0:優先順位第1位の分割点で終わっている。The score value of score = 9 + 0-10 + 1.2 + 0 = 0.2 / -ameno-tam / is such that type = 0: ends at the division point of the first priority.

【0047】link =0:後続の音韻記号がmで一致し
ている。
Link = 0: Subsequent phonemic symbols match at m.

【0048】len =−7 f0 =1.3:ピッチ差1.3倍 term =0:入力部分列が語尾でなく、選択部分列も語
尾でない。
Len = -7f0 = 1.3: pitch difference 1.3 times term = 0: the input subsequence is not the ending, and the selected subsequence is not the ending.

【0049】score=0+0−7+1.3+ 0=−5.7 である。ここで、ノ−ド1およびノ−ド4を音韻分割部
分列候補とする。
Score = 0 + 0−7 + 1.3 + 0 = −5.7 Here, nodes 1 and 4 are set as phoneme division subsequence candidates.

【0050】従って、それぞれのノ−ドでの累計score
値は、それぞれ、 ノ−ド1での累計score=0.2 ノ−ド4での累計score=−5.7 となる。分割毎に累計scoreの小さいものからm個の音
韻部分列の探索系列を残すため本実施の形態ではノ−ド
1およびノ−ド4の音韻部分列は候補として残る。従っ
て、次の探索として、ノ−ド2、3、5、6が候補とな
り、 ノ−ド2での累計score=−1.6 ノ−ド3での累計score=−5.2 ノ−ド5での累計score=−4.5 ノ−ド6での累計score=−6.6 となる。
Therefore, the total score at each node
The values are respectively: cumulative score at node 1 = 0.2 cumulative score at node 4 = -5.7. In this embodiment, the phoneme subsequences of node 1 and node 4 remain as candidates in order to leave search sequences of m phoneme subsequences starting from the one with the smallest total score for each division. Therefore, as the next search, nodes 2, 3, 5, and 6 are candidates, and the total score at node 2 = -1.6 The total score at node 3 = -5.2 The total at node 5 score = −4.5 Total score at node 6 is −6.6.

【0051】この場合、もし、同点があればそのノ−ド
でのscore値の小さいほうを優先するとするが、結果、
ノ−ド3、6が候補として残る。ここでノ−ド3は分割
が終了したので、ノ−ド3での累計scoreは、常に候補
として残る。ノ−ド2および5からの探索はこれ以上行
わない。同様に分割を繰り返し、候補として残ったノ−
ドは、図5より、ノ−ド3およびノ−ド7、ノ−ド8と
なり、それぞれの累積score値は、 ノ−ド3での累計score=−5.2 ノ−ド7での累計score=−2.5 ノ−ド8での累計score=−9.1 となる。
In this case, if there is a tie, priority is given to the smaller score value at that node.
Nodes 3 and 6 remain as candidates. Here, since the division of the node 3 has been completed, the total score at the node 3 always remains as a candidate. No further search from nodes 2 and 5 is performed. The division is repeated in the same manner, and the remaining
From FIG. 5, the nodes are Node 3, Node 7, and Node 8. The cumulative score of each node is: Total score at Node 3 = -5.2 Total score at Node 7 = -2.5 The total score at node 8 is -9.1.

【0052】ここで、ノ−ド7およびノード8でのscor
eを比較すると、ノ−ド7では、以下のように計算され
る。
Here, scor at node 7 and node 8
Comparing e, the calculation at node 7 is as follows.

【0053】type =0:優先順位第1位の分割点で終
わっている。
Type = 0: ends at the division point of the first priority.

【0054】link =0:文末であるから後続は接続し
ない。
Link = 0: The end of the sentence is not connected.

【0055】len =−6 f0 =1.1:ピッチ差1.1倍 term =9:入力部分列が語尾であり、選択部分列が語
尾でない。
Len = -6f0 = 1.1: pitch difference 1.1 times term = 9: the input subsequence is the ending, and the selected subsequence is not the ending.

【0056】score=0+0−6+1.1+9=4.1 ノ−ド8では、以下のように計算される。Score = 0 + 0-6 + 1.1 + 9 = 4.1 At node 8, the calculation is as follows.

【0057】type =0:優先順位第1位の分割点で終
わっている。
Type = 0: Ends at the division point of the first priority.

【0058】link =0:文末であるから後続は接続し
ない。
Link = 0: No connection is made after the end of the sentence.

【0059】len =−6 f0 =1.5:ピッチ差1.5倍 term =1:入力部分列が語尾であり、選択部分列も語
尾である。
Len = -6f0 = 1.5: pitch difference 1.5 times term = 1: the input subsequence is the ending, and the selected subsequence is the ending.

【0060】score=0+0−6+1.1+9=−2.5 となり、もし、term項がなければ、接続個所前後のピッ
チ周期がよく近似しているノ−ド7が最終的に選択さ
れ、合成音は語尾/desu−/に文中の音が合成され
不自然な音となる。
Score = 0 + 0-6 + 1.1 + 9 = -2.5, and if there is no term term, a node 7 whose pitch period before and after the connection is well approximated is finally selected, and the synthesized sound ends with / Desu- / is synthesized with the sound in the sentence, resulting in an unnatural sound.

【0061】従って、最終的に語尾であるかないかの言
語情報を考慮したscoreが最も小さいノ−ド8までの検
索による音韻分割が最適となり、実際の分割は、 /−ameno−/−tame/edesu−/ に決定され、/edesu−/の音声波形は、デ−タベ
−ス16の中の語尾の音声波形が使われる。
Therefore, the phoneme division by searching up to the node 8 having the smallest score in consideration of the linguistic information as to whether or not it is the end is optimal, and the actual division is as follows: / −ameno − / − name / edsu- / is determined, and the voice waveform at the end of the database 16 is used as the voice waveform of / edesu- /.

【0062】[0062]

【発明の効果】以上の説明から明らかなように、本発明
によれば、所定の優先順位で分割された第1の音韻記号
部分列に対応する最適な単位音声波形が読出手段によっ
て波形メモリから読み出され、波形接続手段によって接
続されるため、音質が優れた合成音声波形を出力するこ
とができる効果を奏する。
As is apparent from the above description, according to the present invention, the optimum unit speech waveform corresponding to the first phoneme symbol subsequence divided by the predetermined priority is read from the waveform memory by the reading means. Since it is read out and connected by the waveform connection means, it is possible to output a synthesized voice waveform having excellent sound quality.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の音声合成装置を示すブロック図であ
る。
FIG. 1 is a block diagram showing a speech synthesizer of the present invention.

【図2】音声波形データベースの内容を示す図である。FIG. 2 is a diagram showing contents of a speech waveform database.

【図3】実施の形態の動作の一部を示すフロー図であ
る。
FIG. 3 is a flowchart showing a part of the operation of the embodiment.

【図4】実施の形態の動作の一部を示すフロー図であ
る。
FIG. 4 is a flowchart showing a part of the operation of the embodiment.

【図5】実施の形態の動作の一部を示すフロー図であ
る。
FIG. 5 is a flowchart showing a part of the operation of the embodiment.

【図6】従来の音声合成装置を示すブロック図である。FIG. 6 is a block diagram showing a conventional speech synthesizer.

【符号の説明】[Explanation of symbols]

10…テキスト音声合成装置 12…マイコン 14…テキスト解析用辞書 16…音声波形データベース DESCRIPTION OF SYMBOLS 10 ... Text-speech synthesizer 12 ... Microcomputer 14 ... Dictionary for text analysis 16 ... Speech waveform database

───────────────────────────────────────────────────── フロントページの続き (72)発明者 大西 宏樹 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内 ──────────────────────────────────────────────────続 き Continuing from the front page (72) Inventor Hiroki Onishi 2-5-5 Keihanhondori, Moriguchi-shi, Osaka Sanyo Electric Co., Ltd.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 入力文字列に対応する第1の音韻記号列
に含まれる複数の第1の音韻記号部分列に対応する単位
音声波形を合成して合成音声波形を出力する音声合成装
置において、 前記第1の音韻記号列を所定の優先順位で複数の第1の
音韻記号部分列に分割する分割手段と、 前記所定の優先順位で分割された第2の音韻記号部分列
を含む第2の音韻記号列、及び前記第2の音韻記号部分
列に対応する単位音声波形を含む音声波形を蓄積した波
形メモリと、 前記第1の音韻記号部分列に対応する単位音声波形を前
記波形メモリから読み出す波形読出手段と、 前記波形メモリから読み出された単位音声波形を接続し
て合成音声波形を生成する波形接続手段と、を具備し、 前記第2の音韻記号列には、音韻記号毎にその音韻記号
に対応する言語情報が付加されていることを特徴とする
音声合成装置。
1. A speech synthesizer that synthesizes unit speech waveforms corresponding to a plurality of first phoneme symbol substrings included in a first phoneme symbol string corresponding to an input character string and outputs a synthesized speech waveform, Dividing means for dividing the first phoneme symbol sequence into a plurality of first phoneme symbol subsequences at a predetermined priority; and a second means including a second phoneme symbol subsequence divided at the predetermined priority. A waveform memory storing a speech waveform including a phoneme symbol sequence and a unit speech waveform corresponding to the second phoneme symbol subsequence; and reading a unit speech waveform corresponding to the first phoneme symbol subsequence from the waveform memory. Waveform reading means, and a waveform connection means for connecting the unit speech waveforms read from the waveform memory to generate a synthesized speech waveform, wherein the second phoneme symbol string includes, for each phoneme symbol, Languages corresponding to phonological symbols Speech synthesis apparatus characterized by multi-address is added.
【請求項2】 前記第2の音韻記号部分列には、その音
韻記号部分列が語尾であるかないかの言語情報が付加さ
れており、 前記第1の音韻記号部分列に一致する第2の音韻記号部
分列に対応する単位音声波形を前記波形メモリから読み
出す時、第1の音韻記号部分列が語尾であれば、それに
対応する第2の音韻記号部分列を、前記言語情報に基づ
いて語尾である単位音声波形を選択することを特徴とす
る請求項1記載の音声合成装置。
2. The second phoneme symbol subsequence is added with linguistic information as to whether the phoneme symbol subsequence is an ending or not, and a second phoneme symbol subsequence that matches the first phoneme symbol subsequence is added. When the unit speech waveform corresponding to the phoneme symbol subsequence is read from the waveform memory, if the first phoneme symbol subsequence is the ending, the corresponding second phoneme symbol subsequence is suffixed based on the language information. 2. The speech synthesizer according to claim 1, wherein a unit speech waveform is selected.
【請求項3】 前記第2の音韻記号部分列には、その音
韻記号部分列が語尾であるかないかの言語情報が付加さ
れており、 前記第1の音韻記号部分列に一致する第2の音韻記号部
分列に対応する単位音声波形を前記波形メモリから読み
出す時、第1の音韻記号部分列が語尾でなければ、それ
に対応する第2の音韻記号部分列を、前記言語情報に基
づいて、語尾でない単位音声波形を選択することを特徴
とする請求項1記載の音声合成装置。
3. The second phoneme symbol subsequence includes linguistic information indicating whether the phoneme symbol subsequence is an ending or not, and a second phoneme symbol subsequence that matches the first phoneme symbol subsequence. When reading a unit speech waveform corresponding to a phoneme symbol subsequence from the waveform memory, if the first phoneme symbol subsequence is not an ending, a second phoneme symbol subsequence corresponding to the first phoneme symbol subsequence is determined based on the language information. 2. The speech synthesizer according to claim 1, wherein a unit speech waveform other than the ending is selected.
【請求項4】 前記所定の優先順位とは、無音部、無声
音部および有声音部の順であることを特徴とする請求項
1記載の音声合成装置。
4. The speech synthesizer according to claim 1, wherein the predetermined priority order is a silent part, an unvoiced part, and a voiced part.
JP8251646A 1996-09-24 1996-09-24 Speech synthesizer Pending JPH1097290A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251646A JPH1097290A (en) 1996-09-24 1996-09-24 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251646A JPH1097290A (en) 1996-09-24 1996-09-24 Speech synthesizer

Publications (1)

Publication Number Publication Date
JPH1097290A true JPH1097290A (en) 1998-04-14

Family

ID=17225925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251646A Pending JPH1097290A (en) 1996-09-24 1996-09-24 Speech synthesizer

Country Status (1)

Country Link
JP (1) JPH1097290A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100522889B1 (en) * 1999-07-21 2005-10-19 코나미 가부시키가이샤 Speech synthesizing method, speech synthesis apparatus, and computer-readable medium recording speech synthesis program
JP2006047916A (en) * 2004-08-09 2006-02-16 Advanced Telecommunication Research Institute International Voice piece selector and voice synthesizer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100522889B1 (en) * 1999-07-21 2005-10-19 코나미 가부시키가이샤 Speech synthesizing method, speech synthesis apparatus, and computer-readable medium recording speech synthesis program
JP2006047916A (en) * 2004-08-09 2006-02-16 Advanced Telecommunication Research Institute International Voice piece selector and voice synthesizer
JP4512846B2 (en) * 2004-08-09 2010-07-28 株式会社国際電気通信基礎技術研究所 Speech unit selection device and speech synthesis device

Similar Documents

Publication Publication Date Title
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US20230058658A1 (en) Text-to-speech (tts) processing
US6173263B1 (en) Method and system for performing concatenative speech synthesis using half-phonemes
US11763797B2 (en) Text-to-speech (TTS) processing
EP1221693A2 (en) Prosody template matching for text-to-speech systems
JP3587048B2 (en) Prosody control method and speech synthesizer
JPH1039895A (en) Speech synthesising method and apparatus therefor
Bettayeb et al. Speech synthesis system for the holy quran recitation.
KR100373329B1 (en) Apparatus and method for text-to-speech conversion using phonetic environment and intervening pause duration
JP3050832B2 (en) Speech synthesizer with spontaneous speech waveform signal connection
JPH08335096A (en) Text voice synthesizer
JP3583852B2 (en) Speech synthesizer
JPH1097290A (en) Speech synthesizer
JP3060276B2 (en) Speech synthesizer
EP1589524B1 (en) Method and device for speech synthesis
JP3522005B2 (en) Speech synthesizer
EP1640968A1 (en) Method and device for speech synthesis
JP3302874B2 (en) Voice synthesis method
Demenko et al. The design of polish speech corpus for unit selection speech synthesis
Heggtveit et al. Intonation Modelling with a Lexicon of Natural F0 Contours
JPH09292897A (en) Voice synthesizing device
JPH07181995A (en) Device and method for voice synthesis
JPH07140999A (en) Device and method for voice synthesis
Gupta et al. INTERNATIONAL JOURNAL OF ADVANCES IN COMPUTING AND INFORMATION TECHNOLOGY