JPH07181995A - Device and method for voice synthesis - Google Patents

Device and method for voice synthesis

Info

Publication number
JPH07181995A
JPH07181995A JP5323648A JP32364893A JPH07181995A JP H07181995 A JPH07181995 A JP H07181995A JP 5323648 A JP5323648 A JP 5323648A JP 32364893 A JP32364893 A JP 32364893A JP H07181995 A JPH07181995 A JP H07181995A
Authority
JP
Japan
Prior art keywords
unit
environment
voice
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5323648A
Other languages
Japanese (ja)
Inventor
Kaoru Tsukamoto
薫 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5323648A priority Critical patent/JPH07181995A/en
Publication of JPH07181995A publication Critical patent/JPH07181995A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To generate a synthesized voice signal having a more human voice feeling and close to a natural voice. CONSTITUTION:A voice element piece data storage part 14B storing environment-unrelated voice element piece data generated by analyzing a voice signal generated by clear sound-by-sound vocalization without phoneme environment generation and a voice element piece data storage part 14A storing voice element piece data with extraction environment generated by analyzing a voice signal generated by vocalization with phoneme environment are prepared. Selection information storage means 16 and 18 storing selection information on the voice element piece data by the kinds of voice units are prepared. The selection information storage mean are fererred to in voice units of a phoneme sequence generated by converting inputted character information to select the voice element piece data with extraction environment which is high in similarity in phoneme environment to the voice unit of the phoneme sequence and provides an excellent connection with last voice element piece data when the data are found or the environment-unrelated voice element piece data when not (13, 17, and 19).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、入力された文字列情報
を音声に変換して出力する音声合成装置及び音声合成方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice synthesizing apparatus and a voice synthesizing method for converting input character string information into voice and outputting the voice.

【0002】[0002]

【従来の技術】文字情報(例えばテキストデータ)を入
力として、それを音声に変換して出力する音声合成装置
は、出力語彙の制限がないことから、録音・再生型の音
声合成技術にとって代わる音声合成技術として種々の利
用分野での応用が期待できる。例えば、ワードプロセッ
サ等で作成されたテキストデータを発音出力させたり、
翻訳処理で得られた目的言語のテキストデータを発音出
力させたりする際などに利用できる。
2. Description of the Related Art A voice synthesizer which receives character information (for example, text data) and converts it into voice and outputs the voice has no limitation on the output vocabulary. As a synthetic technology, application in various fields of application can be expected. For example, output text data created by a word processor, etc.,
It can be used, for example, when outputting text data in the target language obtained by the translation process in pronunciation.

【0003】図2は、日本語(漢字かな混じり文)を入
力とした従来の音声合成装置(日本語テキスト音声変換
装置)の構成を示しており、以下、この図2を参照しな
がら従来装置の概要を説明する。
FIG. 2 shows the configuration of a conventional speech synthesizer (Japanese text-to-speech converter) that inputs Japanese (Kanji / Kana mixed sentence) as an input. Hereinafter, referring to FIG. 2, the conventional apparatus will be described. The outline of is explained.

【0004】図2において、テキスト解析部101で
は、発音辞書102を利用して、文字情報入力部100
より入力された漢字かな混じり文から、音韻・韻律記号
列を生成する。ここで、音韻・韻律記号列とは、入力文
の読み、アクセント、イントネーション等を文字列とし
て記述したもの(中間言語)である。各単語の読みとア
クセントは、発音辞書102に登録されており、テキス
ト解析部101は、この辞書102を参照しながら音韻
・韻律記号列を生成する。
In FIG. 2, the text analysis unit 101 uses the pronunciation dictionary 102 to make use of the character information input unit 100.
A phonological / prosodic symbol string is generated from a kanji-kana mixed sentence input by the user. Here, the phoneme / prosodic symbol string is a string (intermediate language) in which the reading, accent, intonation, etc. of the input sentence are described as a character string. The reading and accent of each word are registered in the pronunciation dictionary 102, and the text analysis unit 101 refers to the dictionary 102 to generate a phoneme / prosodic symbol string.

【0005】合成パラメータ生成部103では、音韻・
韻律記号列に基づき、音声素片(音の種類)、音韻継続
時間(音の長さ)、基本周波数(声の高さ)パターンと
いった音声合成用のパラメータ(合成パラメータと呼
ぶ)を生成する。このうち、音声素片は、接続して合成
波形をつくるための音声の基本単位であり、単語等を発
音したときの発声データから生成されるものである。な
お、以下では、CV(子音−母音)、VCV(母音−子
音−母音)等の音声の基本要素の組合わせ自体を音声単
位と呼び、その音声単位の波形を実現する要素を音声素
片と呼ぶ。1個の音声単位は、例えば複数の音声素片で
なる組に対応する。音声素片データは、ROM等でなる
音声素片データ記憶部104に格納されており、合成パ
ラメータ生成部103は、音韻・韻律記号列から音声単
位を認識して対応する音声素片データを取出す。
In the synthesis parameter generation unit 103, the phoneme /
Based on the prosodic symbol string, parameters for voice synthesis (referred to as synthesis parameters) such as a voice unit (sound type), phoneme duration (sound length), and fundamental frequency (voice pitch) pattern are generated. Of these, the voice unit is a basic unit of voice for connecting and creating a synthetic waveform, and is generated from vocal data when a word or the like is pronounced. In the following, a combination itself of basic elements of voice such as CV (consonant-vowel) and VCV (vowel-consonant-vowel) is called a voice unit, and an element that realizes a waveform of the voice unit is a voice unit. Call. One voice unit corresponds to, for example, a set of a plurality of voice units. The speech unit data is stored in the speech unit data storage unit 104 such as a ROM, and the synthesis parameter generation unit 103 recognizes the speech unit from the phoneme / prosodic symbol string and extracts the corresponding speech unit data. .

【0006】音声合成部105は、合成パラメータ生成
部103が生成した合成パラメータに基づいて、合成波
形を生成する。このような合成音声信号が、スピーカを
通して発音出力されたり、回線を介して他の装置に伝送
されたりする。
The voice synthesizing section 105 produces a synthetic waveform based on the synthesis parameters produced by the synthesis parameter producing section 103. Such a synthesized voice signal is output as a sound through a speaker or is transmitted to another device through a line.

【0007】ところで、人間は様々な音韻を発声するた
め音韻に合わせて声道の形を調整しているが、会話音声
のように連続して発声された一般の音声では、声道の形
は急には変化できないために、前後の音韻の影響を受け
て、音韻と音韻との中間部においてその本来の周波数か
らずれるという性質がある。この音韻と音韻の中間部に
おいて音響的性質が連続的に変化することを調音結合と
言うが、近年、合成音の品質の向上を目指し、音声合成
装置においても、この調音結合を考慮した合成パラメー
タの生成方法が考えられている。
By the way, since humans utter various phonemes, the shape of the vocal tract is adjusted according to the phoneme. However, in the case of general speech that is continuously uttered like conversational speech, the shape of the vocal tract is Since it cannot change suddenly, it has the property that it is affected by the preceding and following phonemes and deviates from its original frequency in the middle part between the phonemes. It is called articulatory coupling that the acoustic characteristics change continuously in the middle part of the phoneme and the phoneme. In recent years, in order to improve the quality of synthesized speech, a speech synthesizer also has a synthesis parameter considering this articulatory coupling. Is being considered.

【0008】考えられる第1の合成パラメータの生成方
法は、同一のCV(子音−母音)、VCV(母音−子音
−母音)等でなる音声単位として、その音声単位に対応
する音声素片データの組合わせが異なるもの、すなわ
ち、異なった音韻環境(前後の音韻が異なっているよう
な環境)を持つ複数の音声単位を用意し、入力文中(従
って、音韻・韻律記号列)の音韻環境に合った音声単位
を選択して使用するものである。
A conceivable first synthesis parameter generation method is as a voice unit composed of the same CV (consonant-vowel), VCV (vowel-consonant-vowel), etc., of voice segment data corresponding to the voice unit. Prepare multiple phonetic units with different combinations, that is, different phoneme environments (environments where the preceding and following phonemes are different), and match the phoneme environment of the input sentence (and thus the phoneme / prosodic symbol string). The voice unit is selected and used.

【0009】また、考えられる第2の合成パラメータの
生成方法は、音声単位(従って音声素片)を接続して音
声を合成する場合において、音声単位間の接続点での歪
みは避けられないので、接続点そのものを減らすため
に、入力音韻列を接続歪みが大きくなるような場所での
接続を避けるように区切り、任意の長さの音声単位を選
択するものである(例えば、下記文献参照)。
Further, the second conceivable method of generating the synthesis parameter is that, when speech units (henceforth speech units) are connected to synthesize speech, distortion at the connection point between speech units cannot be avoided. , In order to reduce the number of connection points, the input phoneme sequence is divided so as to avoid connection at locations where connection distortion is large, and a voice unit of arbitrary length is selected (for example, see the following references). .

【0010】文献『岩橋直人、匂坂芳典共著、「歪み最
小化音声合成方法の主観・客観評価」日本音響学会講演
論文集2−2−15、1992年3月』
Reference “Naoto Iwahashi and Yoshinori Sakasaka,“ Subjective and Objective Evaluation of Distortion-Minimized Speech Synthesis Method ”Proceedings of Acoustical Society of Japan 2-2-15, March 1992.

【0011】[0011]

【発明が解決しようとする課題】音声の調音結合という
性質を考慮した上述した第1及び第2の合成パラメータ
の生成方法によれば、音声の自然性や肉声感といった点
から合成音声の品質を向上させることが期待できる。
According to the above-mentioned first and second synthesis parameter generation methods in consideration of the property of articulatory combination of voices, the quality of synthesized voices is improved from the viewpoint of naturalness of voice and feeling of real voice. It can be expected to improve.

【0012】しかしながら、音韻環境を考慮して第1の
合成パラメータの生成方法を適用し、かつ、接続による
歪み(接続箇所)を減らそうとして第2の合成パラメー
タの生成方法を適用した場合、1個の入力文に対して、
音声単位の何通りもの組合せの中から最適なものを求め
るという問題になり、多くの計算を要してしまうという
問題があった。
However, if the first synthesis parameter generation method is applied in consideration of the phonological environment and the second synthesis parameter generation method is applied in an attempt to reduce distortion (connection point) due to connection, 1 For each input sentence,
There has been a problem that an optimal one is obtained from various combinations of voice units, and many calculations are required.

【0013】また、計算量の増大やメモリの制限から考
えて、それぞれの音声単位についてあらゆる音韻環境を
揃えることは不可能である。従って、音韻環境の合った
音声単位がない場合は、他の環境を持つもので代用する
ことになるが、異なった調音結合を起こしている音声単
位は音響的に異なったものであるので、これらが接続さ
れると接続歪みは大きくなり、合成音の音質を損なって
いた。
Further, considering the increase of the calculation amount and the limitation of the memory, it is impossible to arrange all the phoneme environments for each voice unit. Therefore, if there is no voice unit with a suitable phonological environment, one with another environment will be substituted, but since the voice units that cause different articulation coupling are acoustically different, these When was connected, the connection distortion increased and the sound quality of the synthesized sound was impaired.

【0014】つまり、音質の向上には、音声単位の音韻
環境まで考慮することが必要であるが、記憶部に揃えら
れなかった音韻環境を持つ音声単位を入力文から要求さ
れた場合には、適切な対処ができない。
That is, in order to improve the sound quality, it is necessary to consider the phonological environment of each voice unit. However, when a voice unit having a phonological environment that is not stored in the storage unit is requested from the input sentence, I can't handle it properly.

【0015】本発明は、以上の点を考慮してなされたも
のであり、少ないメモリ容量及び処理量でより肉声感の
ある自然音声に近い合成音声信号を生成することが可能
な音声合成装置及び音声合成方法を提供しようとするも
のである。
The present invention has been made in consideration of the above points, and a speech synthesizer and a speech synthesizer capable of generating a synthesized speech signal having a real feeling of a natural voice with a small memory capacity and processing amount. It is intended to provide a speech synthesis method.

【0016】[0016]

【課題を解決するための手段】かかる課題を解決するた
め、第1の本発明においては、入力された文字情報を音
声信号に変換する音声合成装置において、以下の各手段
を設けた。
In order to solve such a problem, in the first aspect of the present invention, the following means are provided in the voice synthesizing device for converting the input character information into a voice signal.

【0017】(1) 音韻環境を持たぬように1音1音はっ
きりと発声された音声信号から分析生成された環境無関
係の音声素片データを格納している環境無関係音声素片
データ記憶部と、(2) 音韻環境を持つように発声された
音声信号から分析生成された抽出環境付の音声素片デー
タを格納している抽出環境付音声素片データ記憶部と、
(3) これら音声素片データの選択情報を音声単位の種類
毎に格納している選択情報格納手段と、(4) 入力された
文字情報が変換された音韻列における音声単位毎に選択
情報格納手段を参照し、この音韻列における音声単位の
音韻環境に対して近似しており、直前の音声素片データ
との接続が良好な抽出環境付の音声素片データがあれば
それを選択し、なければ環境無関係な音声素片データを
選択する合成パラメータ生成手段とを設けた。
(1) An environment-irrelevant speech unit data storage unit that stores environment-unrelated speech unit data that is analyzed and generated from a speech signal in which one sound is clearly pronounced so as not to have a phonological environment , (2) a speech element data storage unit with an extraction environment, which stores speech element data with an extraction environment, which is analyzed and generated from a speech signal uttered so as to have a phonological environment,
(3) Selection information storage means that stores selection information of these speech unit data for each type of speech unit, and (4) Selection information storage for each speech unit in a phoneme string into which input character information is converted. Refer to the means, it is approximated to the phoneme environment of the voice unit in this phoneme sequence, if there is a speech unit data with an extraction environment that has a good connection with the immediately preceding speech unit data, select it, If not, a synthesis parameter generating means for selecting speech unit data irrelevant to the environment is provided.

【0018】ここで、選択情報格納手段が、(3-1) 抽出
環境付の音声素片データの音韻環境を音声単位毎に格納
している音声単位辞書と、(3-2) 抽出環境付の音声素片
データの接続部情報を音声単位毎に格納している接続部
情報記憶部とからなり、合成パラメータ生成手段が、(4
-1) 入力された文字情報が変換された音韻列における音
声単位毎に音声単位辞書を参照し、この音韻列における
音声単位の音韻環境に対する近似度合から候補を絞り込
む音声単位選択チェック部と、(4-2) 絞り込まれた抽出
環境付の音声素片データと直前の音声素片データとの類
似度を接続部情報記憶部の格納内容から求める類似度計
算部と、(4-3) 音韻環境及び接続部の類似度に基づいて
抽出環境付の音声素片データの候補を1個に絞り込むと
共に抽出環境付の音声素片データを選択するか環境無関
係な音声素片データを選択するかを決定する合成パラメ
ータ生成部とからなることは好ましい。
Here, the selection information storage means includes (3-1) a voice unit dictionary in which the phoneme environment of the voice unit data with an extraction environment is stored for each voice unit, and (3-2) a voice unit dictionary with an extraction environment. And a connection part information storage part that stores connection part information of the voice unit data for each voice unit.
-1) A voice unit selection check unit that refers to the voice unit dictionary for each voice unit in the phoneme sequence in which the input character information is converted and narrows down candidates based on the degree of approximation of the voice unit in this phoneme sequence to the phoneme environment, 4-2) A similarity calculation unit that obtains the similarity between the narrowed down speech unit data with extraction environment and the immediately preceding speech unit data from the stored contents of the connection information storage unit, and (4-3) Phonological environment Based on the similarity of the connection part, the number of candidates for the speech unit data with the extraction environment is narrowed down to one, and it is determined whether to select the speech unit data with the extraction environment or the speech unit data unrelated to the environment. It is preferable that the image forming apparatus further comprises a synthesis parameter generating unit.

【0019】また、第2の本発明においては、入力され
た文字情報を音声信号に変換する音声合成方法を、以下
のようにした。
Further, in the second aspect of the present invention, the voice synthesizing method for converting the input character information into a voice signal is as follows.

【0020】すなわち、音韻環境を持たぬように1音1
音はっきりと発声された音声信号から分析生成された環
境無関係の音声素片データを格納している環境無関係音
声素片データ記憶部と、音韻環境を持つように発声され
た音声信号から分析生成された抽出環境付の音声素片デ
ータを格納している抽出環境付音声素片データ記憶部
と、これら音声素片データの選択情報を音声単位の種類
毎に格納している選択情報格納手段とを備えている。そ
して、入力された文字情報が変換された音韻列における
音声単位毎に選択情報格納手段を参照し、この音韻列に
おける音声単位の音韻環境に対して近似しており、直前
の音声素片データとの接続が良好な抽出環境付の音声素
片データがあればそれを選択し、なければ環境無関係な
音声素片データを選択する。
In other words, one note 1 does not have a phonological environment.
Sounds generated from analysis of speech signals uttered clearly and generated from speech signals uttered to have an environment-independent speech unit data storage unit that stores environment-unrelated speech unit data. A speech element data storage unit with an extraction environment, which stores speech element data with an extraction environment, and a selection information storage unit that stores selection information of these speech element data for each type of speech unit. I have it. Then, the selection information storage means is referred to for each voice unit in the phoneme string in which the input character information is converted, and the phoneme environment of the phoneme unit in this phoneme string is approximated to the immediately preceding phoneme data. If there is speech element data with a good extraction environment that has a good connection, the speech element data that does not relate to the environment is selected.

【0021】ここで、選択情報格納手段を、抽出環境付
の音声素片データの音韻環境を音声単位毎に格納してい
る音声単位辞書と、抽出環境付の音声素片データの接続
部情報を音声単位毎に格納している接続部情報記憶部と
で構成し、まず、入力された文字情報が変換された音韻
列における音声単位毎に音声単位辞書を参照し、この音
韻列における音声単位の音韻環境に対する近似度合から
候補を絞り込み、さらに、絞り込まれた抽出環境付の音
声素片データと直前の音声素片データとの類似度を接続
部情報記憶部の格納内容から求め、そして、音韻環境及
び接続部の類似度に基づいて抽出環境付の音声素片デー
タの候補を1個に絞り込んだ後、抽出環境付の音声素片
データを選択するか環境無関係な音声素片データを選択
するかを決定することは好ましい。
Here, the selection information storage means stores a voice unit dictionary in which the phoneme environment of the voice unit data with the extraction environment is stored for each voice unit, and the connection part information of the voice unit data with the extraction environment. The connection unit information storage unit stores each voice unit, and first, the voice unit dictionary is referred to for each voice unit in the phoneme sequence in which the input character information is converted, and the voice unit dictionary in this phoneme sequence is stored. The candidates are narrowed down from the degree of approximation to the phonological environment, and the similarity between the narrowed down speech unit data with the extraction environment and the immediately preceding speech unit data is obtained from the stored contents of the connection information storage unit, and the phonological environment And whether to select the speech unit data with the extraction environment or the speech unit data with no environment, after narrowing down the candidates of the speech unit data with the extraction environment to one based on the similarity of the connection part. To decide The preferable.

【0022】[0022]

【作用】本発明による音声合成装置及び音声合成方法に
おいては、音韻環境を持たぬように1音1音はっきりと
発声された音声信号から分析生成された環境無関係の音
声素片データを格納している環境無関係音声素片データ
記憶部と、音韻環境を持つように発声された音声信号か
ら分析生成された抽出環境付の音声素片データを格納し
ている抽出環境付音声素片データ記憶部とを用意してい
る。さらに、これら音声素片データの選択情報を音声単
位の種類毎に格納している選択情報格納手段を用意して
いる。
In the voice synthesizing apparatus and the voice synthesizing method according to the present invention, environment-independent voice segment data generated by analysis and generation from voice signals uttered clearly one by one without storing a phonological environment are stored. An environment-independent speech unit data storage unit, and an extraction-environment-based speech unit data storage unit that stores speech unit data with an extraction environment that is analyzed and generated from a speech signal uttered to have a phonological environment; Is prepared. Furthermore, a selection information storage means for storing the selection information of these voice segment data for each type of voice unit is prepared.

【0023】そして、入力された文字情報が変換された
音韻列における音声単位毎に選択情報格納手段を参照
し、この音韻列における音声単位の音韻環境に対して近
似しており、直前の音声素片データとの接続が良好な抽
出環境付の音声素片データがあればそれを選択し、なけ
れば環境無関係な音声素片データを選択する。
Then, the selection information storage means is referred to for each voice unit in the phoneme sequence into which the input character information is converted, and the phoneme environment of the voice unit in this phoneme sequence is approximated to the immediately preceding phoneme. If there is a voice segment data with an extraction environment that has a good connection with the voice data, it is selected, and if not, environment-independent voice segment data is selected.

【0024】これにより、音声の調音結合という性質を
重視し、入力文(音韻列)と音声単位(従って音声素片
データ)の音韻環境を考慮して合成しているので、肉声
感のあるより自然音声に近い合成音声を得ることがで
き、適切な音韻環境にある音声単位がないときでも、標
準的な音声単位を用意しているので、接続による歪みが
大きくなるような不適切な音声単位が合成に用いられる
ことはない。また、高頻度の抽出環境付の音声素片デー
タを中心に用意すればよいので、メモリ容量を軽減でき
ると共に、処理量も軽減できるようになる。
As a result, since the property of articulatory coupling of voices is emphasized and synthesis is performed in consideration of the phonological environment of the input sentence (phoneme sequence) and the voice unit (henceforth voice segment data), it is possible to obtain a real voice. Inappropriate voice unit that causes distortion due to connection because standard voice units are available even when there is no voice unit in an appropriate phonological environment that can obtain synthetic voice close to natural voice. Is never used for synthesis. Further, since it is sufficient to prepare the voice segment data with the high-frequency extraction environment as the center, it is possible to reduce the memory capacity and the processing amount.

【0025】[0025]

【実施例】以下、本発明の一実施例を図面を参照しなが
ら詳述する。なお、この実施例も、日本語文(漢字かな
混じり文)を対象としたものである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described in detail below with reference to the drawings. In addition, this embodiment is also intended for a Japanese sentence (kanji / kana mixed sentence).

【0026】図1は、この実施例の機能的構成を示すブ
ロック図である。図1において、この実施例は、文字情
報入力部10、テキスト解析部11、発音辞書12、合
成パラメータ生成部13、音声素片データ記憶部14、
音声合成部15、音声単位辞書16、距離値計算部1
7、接続部音響パラメータデータ記憶部18及び音声単
位選択チェック部19からなる。
FIG. 1 is a block diagram showing the functional configuration of this embodiment. In FIG. 1, in this embodiment, a character information input unit 10, a text analysis unit 11, a pronunciation dictionary 12, a synthesis parameter generation unit 13, a speech unit data storage unit 14,
Speech synthesizer 15, speech unit dictionary 16, distance value calculator 1
7, a connection unit acoustic parameter data storage unit 18 and a voice unit selection check unit 19.

【0027】文字情報入力部10、テキスト解析部1
1、発音辞書12及び音声合成部15は、従来の対応構
成と同一の動作を行なうものである。
Character information input unit 10 and text analysis unit 1
1, the pronunciation dictionary 12 and the voice synthesizing unit 15 perform the same operations as the conventional corresponding configuration.

【0028】合成パラメータ生成部13も、基本的な機
能は、従来の合成パラメータ生成部103と同様であ
り、音韻・韻律記号列に基づき、音声素片、音韻継続時
間、基本周波数パターンといった音声合成用パラメータ
を生成するものである。
The basic function of the synthesis parameter generation unit 13 is the same as that of the conventional synthesis parameter generation unit 103. Based on the phoneme / prosodic symbol string, the voice synthesis of a voice unit, a phoneme duration, and a basic frequency pattern is performed. It is for generating a parameter for use.

【0029】この実施例の場合、合成パラメータ生成部
13が利用する音声素片データ記憶部14には、自然に
発声された調音結合などの音声の性質が自然に含まれた
音声のデータから分析生成された抽出環境付の音声素片
データ14Aと、1音1音はっきりと発声された音声の
データから分析生成された環境無関係な音声素片データ
14Bとが格納されている。
In the case of this embodiment, the speech element data storage unit 14 used by the synthesis parameter generation unit 13 analyzes from the voice data naturally including the nature of voice such as articulatory coupling produced naturally. The generated voice segment data with an extraction environment 14A and environment-independent voice segment data 14B analyzed and generated from the data of voices clearly pronounced for each sound are stored.

【0030】また、この実施例の合成パラメータ生成部
13には、音声単位選択チェック部19及び距離値計算
部17が付随して設けられている。なお、これら合成パ
ラメータ生成部13、音声単位選択チェック部19及び
距離値計算部17が合成パラメータ生成手段を構成して
いるということができる。
Further, the synthesis parameter generation unit 13 of this embodiment is provided with a voice unit selection check unit 19 and a distance value calculation unit 17 in association. It can be said that the synthesis parameter generation unit 13, the voice unit selection check unit 19, and the distance value calculation unit 17 constitute a synthesis parameter generation unit.

【0031】音声単位選択チェック部19は、音韻列に
よって、音声単位辞書16を検索しながら、入力された
音韻列との音韻環境の類似度が高い音声単位を選択する
ものである。
The phonetic unit selection checking unit 19 selects a phonetic unit having a high degree of similarity in phoneme environment to the input phoneme string while searching the phonetic unit dictionary 16 by the phoneme string.

【0032】図3は、音声単位辞書16の構成を示すも
のである。音声単位辞書16は、例えば抽出環境付音声
単位ポインタテーブル16Aと、抽出環境付音声単位記
憶部16Bと、環境無関係音声単位ポインタテーブル1
6Cと、環境無関係音声単位記憶部16Dとからなる。
FIG. 3 shows the structure of the voice unit dictionary 16. The voice unit dictionary 16 includes, for example, a voice unit pointer table with extraction environment 16A, a voice unit storage unit with extraction environment 16B, and a voice unit pointer table 1 not related to the environment.
6C and an environment-independent voice unit storage unit 16D.

【0033】抽出環境付音声単位記憶部16Bには、上
記抽出環境付音声素片データ14Aを生成した際の発声
音声についての音韻列(抽出環境)と共に音声単位(以
下、抽出環境付音声単位と呼ぶ)が記述されていて、そ
の抽出環境付音声単位の音韻環境が分かるようになされ
ており、また、その抽出環境付音声単位に対する抽出環
境付音声素片データ14Aが格納されている音声素片デ
ータ記憶部14のアドレスも記述されている。音韻環境
は異なるが同一の音声単位(以下、音声単位の種類が同
一と呼ぶ)に関する情報は、例えば連続的に格納されて
いる。抽出環境付音声単位ポインタテーブル16Aは、
音韻環境付音声単位記憶部16Bに記憶されている同一
種類の抽出環境付音声単位の情報群の先頭アドレスを、
入力された音声単位の種類(音声単位名)に基づいて取
出せるように構成されている。
The extraction environment-added voice unit storage unit 16B stores a phoneme unit (hereinafter referred to as an extraction environment-added voice unit) together with a phonological string (extraction environment) about a uttered voice when the above-mentioned extraction-unit-added voice unit data 14A is generated. Is called so that the phonological environment of the voice unit with the extraction environment can be understood, and the voice unit in which the voice unit data 14A with the extraction environment for the voice unit with the extraction environment is stored. The address of the data storage unit 14 is also described. Information about the same voice unit (hereinafter, the same type of voice unit is referred to as the same) although the phonological environments are different is continuously stored, for example. The voice unit pointer table with extraction environment 16A is
The start address of the information group of the voice unit with the extraction environment of the same type stored in the voice unit storage unit with phoneme 16B is
It is configured so that it can be taken out based on the type (voice unit name) of the input voice unit.

【0034】図3において、“/i/iki”は“ii
ki”と発音された際の語頭用の音声単位/i/を意味
し、“/i/NdeaN”は“iNdeaN”と発音さ
れた際の語頭用の音声単位/i/を意味する(Nは
「ん」を「な行」と区別するために示している)。ま
た、P/i/は、語頭用の音声単位/i/についての音
韻環境付音声単位情報群の先頭アドレス(ポインタ)を
表している。
In FIG. 3, "/ i / iki" is "ii".
"i" means the initial voice unit / i / when pronounced "ki", and "/ i / NdeaN" means the initial voice unit / i / when pronounced "iNdeaN" (where N is It is shown to distinguish "n" from "na line". Further, P / i / represents the head address (pointer) of the phonetic environment-attached voice unit information group for the voice unit / i / for the beginning of a word.

【0035】環境無関係音声単位ポインタテーブル16
C及び環境無関係音声単位記憶部16Dは、環境無関係
な音声素片データ14Bに対するものであり、抽出環境
付音声単位ポインタテーブル16A及び抽出環境付音声
単位記憶部16Bとほぼ同様な構成を有するのでその説
明は省略する。なお、環境無関係音声単位は、同一種類
の音声単位について1個しか存在しない。
Environment-independent voice unit pointer table 16
The C and environment-irrelevant voice unit storage unit 16D is for the environment-unrelated voice unit data 14B and has substantially the same configuration as the extraction environment-attached voice unit pointer table 16A and the extraction environment-attached voice unit storage unit 16B. The description is omitted. Note that there is only one environment-unrelated voice unit for the same type of voice unit.

【0036】距離値計算部17は、候補に挙がった抽出
環境付音声単位と、その直前位置の既に選択させた音声
単位(必ずしも抽出環境付音声単位とは限らない)との
間の接続部での距離値(この実施例では類似度として距
離値を利用している)を、接続部音響パラメータデータ
記憶部18から接続部音響パラメータデータを読み出し
てを計算するものである。発声された自然音声から抽出
環境付音声素片データ14Aを生成させる際に、音声単
位の接続部の音響パラメータデータを併せて生成され、
その接続部音響パラメータデータが接続部音響パラメー
タデータ記憶部18に格納されている。
The distance value calculation unit 17 is a connection unit between a candidate voice unit with an extraction environment and a previously selected voice unit (not necessarily a voice unit with an extraction environment) at the immediately preceding position. Is calculated by reading the connection part acoustic parameter data from the connection part acoustic parameter data storage unit 18 (the distance value is used as the similarity in this embodiment). When generating the voice element data with extraction environment 14A from the uttered natural voice, the acoustic parameter data of the connection unit for each voice unit is also generated,
The connection section acoustic parameter data is stored in the connection section acoustic parameter data storage unit 18.

【0037】合成パラメータ生成部13は、音韻列に基
づき、音声単位選択チェック部19が絞り込んだ各音声
単位の候補の音韻環境や、距離値計算部17が計算した
音声単位間の接続部の距離値(類似度)に基づいて、音
韻環境及び距離値が適当である抽出環境付音声単位があ
れば、その抽出環境付音声単位に対応した抽出環境付音
声素片データ14Aを音声素片データ記憶部14から取
出し、音韻環境及び距離値が適当である抽出環境付音声
単位がなければ、環境無関係な音声素片データ14Bを
音声素片データ記憶部14から取出す。
Based on the phoneme sequence, the synthesis parameter generation unit 13 determines the phoneme environment of each voice unit candidate narrowed down by the voice unit selection check unit 19 and the distance of the connection unit between the voice units calculated by the distance value calculation unit 17. Based on the value (similarity), if there is a speech unit with an extraction environment having an appropriate phonological environment and distance value, the speech unit data with extraction environment 14A corresponding to the speech unit with an extraction environment is stored as speech unit data. If there is no voice unit with an extracted environment having a proper phonological environment and distance value, the voice unit data 14B irrelevant to the environment is fetched from the voice unit data storage unit 14.

【0038】以上のように機能する各部よりなる実施例
の音声合成装置は、全体を通しては、図4に示すように
動作する。
The speech synthesizing apparatus according to the embodiment, which is composed of the respective units functioning as described above, operates as shown in FIG. 4 throughout.

【0039】まず、文字情報(テキストデータ)を取り
込み(ステップ201)、その文字情報を解析してフレ
ーズに分解し、各フレーズ毎に、音韻・韻律記号列に変
換する(ステップ202)。
First, character information (text data) is taken in (step 201), the character information is analyzed and decomposed into phrases, and each phrase is converted into a phoneme / prosodic symbol string (step 202).

【0040】そして、音韻・韻律記号列における音韻列
に沿って、ある音声単位の種類を対象とし、その音声単
位種類によって音声単位辞書16を検索してその音声単
位種類に係る抽出環境付音声単位を取出す(ステップ2
03)。
Then, along with the phoneme sequence in the phoneme / prosodic symbol sequence, a certain voice unit type is targeted, and the voice unit dictionary 16 is searched by the voice unit type to extract the voice unit with the extraction environment related to the voice unit type. Take out (Step 2)
03).

【0041】ここで、1個以上の抽出環境付音声単位が
取出せた場合には、入力音韻列と取出した各抽出環境付
音声単位との音韻環境を比較し、最も音韻環境が近い抽
出環境付音声単位を候補として残す(ステップ20
4)。なお、この選択の際に、直前に選択された抽出環
境付音声単位と同一の発声音声(抽出環境)に係る今回
の抽出環境付音声単位があればそれを優先する。また、
音韻環境の近似度合は、後続音韻の一致性だけでなく、
先行音韻の一致性をも考慮して行なうことが好ましい
が、後続音韻を先行音韻より優先させても良い。
Here, when one or more speech units with an extraction environment can be extracted, the phonological environments of the input phoneme sequence and each extracted speech unit with an extraction environment are compared, and the extraction environment with the closest phonological environment is added. Leave the voice unit as a candidate (step 20)
4). At the time of this selection, if there is a current voice unit with extraction environment related to the same utterance (extraction environment) as the voice unit with extraction environment selected immediately before, this is prioritized. Also,
The degree of approximation of the phonological environment is not only the coincidence of the following phonemes,
Although it is preferable that the matching of the preceding phonemes is taken into consideration, the following phonemes may be prioritized over the preceding phonemes.

【0042】そして、既に選択された直前の音声単位
(抽出環境付音声単位又は環境無関係音声単位)の接続
部と、候補の抽出環境付音声単位の接続部との距離値を
計算すると共に、ステップ204の処理によって複数の
抽出環境付音声単位が候補として残っているならば(音
韻環境が同じ候補が複数あったならば)、距離値が最も
小さい(類似度が最も大きい)1個の抽出環境付音声単
位に候補を絞り込む(ステップ205)。なお、語頭の
音声単位については距離値計算は実行されない。
Then, the distance value between the connection portion of the immediately preceding voice unit (the voice unit with the extracted environment or the voice unit not related to the environment) which has already been selected and the connection portion of the candidate voice unit with the extracted environment is calculated, and the step is performed. If a plurality of speech units with an extraction environment remain as candidates by the processing of 204 (if there are a plurality of candidates with the same phoneme environment), one extraction environment with the smallest distance value (largest similarity) The candidates are narrowed down by the attached voice unit (step 205). The distance value calculation is not executed for the voice unit of the beginning of the word.

【0043】そして、残った1個の抽出環境付音声単位
について、音韻環境及び接続部距離値が適当であるか否
か判断する(ステップ206)。音韻環境についてのこ
の判断条件は、音声単位辞書16に格納した抽出環境付
音声単位の数や目標音質等に応じて適宜設定すれば良い
ものであるが、例えば、音声単位の後続音韻(1又は2
以上)が入力音韻列の該当位置の音韻に一致しているこ
とを挙げることができる。また、接続部距離値について
の判断は所定閾値との比較で行なう。
Then, with respect to the remaining one speech unit with extraction environment, it is judged whether or not the phonological environment and the connection distance value are appropriate (step 206). This judgment condition for the phonological environment may be appropriately set according to the number of voice units with the extraction environment stored in the voice unit dictionary 16, the target sound quality, and the like. Two
It can be mentioned that the above) matches the phoneme at the corresponding position in the input phoneme sequence. Further, the judgment of the connection part distance value is made by comparison with a predetermined threshold value.

【0044】候補として1個だけ残った抽出環境付音声
単位が適当であればその抽出環境付音声単位を選択し、
この抽出環境付音声単位に対応した抽出環境付音声素片
データ14Aを採用する(ステップ207)。
If only one voice unit with an extraction environment that remains as a candidate is appropriate, select that voice unit with an extraction environment,
The voice segment data with extraction environment 14A corresponding to this voice unit with extraction environment is adopted (step 207).

【0045】一方、候補として1個だけ残った抽出環境
付音声単位が不適当であれば、また、上記ステップ20
3の処理によって音声単位辞書16を検索しても抽出環
境付音声単位が見付からないときには、対象の音声単位
種類に対応した、調音結合を起こしていない発声音声デ
ータから形成された環境無関係音声素片データ14Bを
採用する(ステップ208)。
On the other hand, if the voice unit with the extraction environment, which remains only one candidate, is inappropriate, the above step 20 is repeated.
If the extracted environment-added voice unit is not found even after searching the voice unit dictionary 16 by the process of 3, the environment-independent voice unit corresponding to the target voice unit type and formed from the voiced voice data without articulation coupling is generated. The data 14B is adopted (step 208).

【0046】その後、対象フレーズに関する全ての音声
単位種類について(語尾の音声単位種類についても)採
用する音声素片データを決定したか否か判断し(ステッ
プ209)、決定していなければ上述したステップ20
3に戻る。
After that, it is judged whether or not the voice unit data to be adopted for all the voice unit types (also for the ending voice unit types) related to the target phrase have been decided (step 209), and if not decided, the above-mentioned step. 20
Return to 3.

【0047】そして、音韻・韻律記号列の韻律情報と、
決定した音声素片データとに基づいて韻律パラメータ
(音韻継続時間、基本周波数パターン、パワー等を規定
するパラメータ)も設定する(ステップ210)。
Then, the prosodic information of the phonological / prosodic symbol string,
Prosodic parameters (parameters that define phoneme duration, fundamental frequency pattern, power, etc.) are also set based on the determined speech unit data (step 210).

【0048】以上のようなステップ203〜210でな
る一連の処理は、フレーズ毎の繰返しループ線を図示し
ていないが、フレーズに対して繰返し行なわれる。な
お、ステップ203〜210でなる一連の処理が、ステ
ップ202の処理や、後述するステップ211の処理と
並行して実行されるものであっても良い。
Although the series of steps 203 to 210 described above does not show a repeating loop line for each phrase, it is repeated for each phrase. The series of processes in steps 203 to 210 may be executed in parallel with the process in step 202 or the process in step 211 described later.

【0049】以上のようにして、合成パラメータ(韻律
パラメータや音声素片データ等)が決定されると、音声
信号を合成して出力する(ステップ211、212)。
出力方法は、スピーカからの発音出力でも良く、回線を
通じた他の装置への伝送でも良い。
When the synthesis parameters (prosodic parameters, voice segment data, etc.) are determined as described above, the voice signals are synthesized and output (steps 211 and 212).
The output method may be sound output from a speaker or transmission to another device through a line.

【0050】次に、具体例によって、実施例の音声合成
動作、特に利用する音声素片データの決定動作を説明す
る。ここでは、入力文(フレーズ)が図5(1)に示す
“いられない”として説明する。また、音声単位がVC
V(母音−子音−母音)を基本としているものとして説
明する。
Next, the voice synthesizing operation of the embodiment, especially the operation of determining the voice segment data to be used will be described with reference to a specific example. Here, it is assumed that the input sentence (phrase) is “cannot be” shown in FIG. 5 (1). The voice unit is VC
The description will be made on the basis of V (vowel-consonant-vowel).

【0051】この入力文“いられない”は、図5(2)
に示すように、“irarenai”という音韻列に変
換される。
This input sentence “I can't” is shown in FIG.
As shown in, the phoneme sequence is converted into a phoneme sequence of "iraranai".

【0052】まず、語頭の音声単位種類[i]が対象と
なって、音声単位辞書16を検索し、語頭に音声単位/
i/を有する抽出環境付音声単位が取出される。すなわ
ち、音声単位辞書16の抽出環境付音声単位ポインタテ
ーブル部16Aを語頭の音声単位種類[i]の情報をア
ドレスとしてアクセスしてポインタ値P/i/を取出
し、このポインタ値P/i/で抽出環境付音声単位記憶
部16Bをアクセスすることで抽出環境付音声単位を取
出す。
First, the voice unit dictionary 16 is searched for the voice unit type [i] at the beginning of the word, and the voice unit /
The voice unit with extraction environment having i / is retrieved. That is, the voice unit pointer table unit 16A with extraction environment of the voice unit dictionary 16 is accessed by using the information of the voice unit type [i] at the beginning of the word as an address to extract the pointer value P / i /, and the pointer value P / i / The voice unit with extraction environment is retrieved by accessing the voice unit storage unit with extraction environment 16B.

【0053】図5(A)は、このとき取出された抽出環
境付音声単位を示す。1番目に検索された“/i/ik
i”と2番目の“/i/NdeaN”は、3番目の“/
i/rechigau”が音声単位/i/直後の音韻
“r”が入力音韻列の対応音韻と一致するので、3番目
の“/i/rechigau”が対象となったときに候
補からはずれ、この時点では3番目のものが候補とな
る。しかし、この後に検索された“/i/rassya
i”の方が入力音韻列との音韻環境が良くあっているの
で、この抽出環境付音声単位が候補に置き換わる。
FIG. 5A shows the voice unit with the extraction environment extracted at this time. The first searched "/ i / ik"
i "and the second" / i / NdeaN "are the third" /
Since i / rechigau is the phoneme unit / i / the phoneme "r" immediately after it matches the corresponding phoneme of the input phoneme sequence, the third phoneme "/ i / rechigau" is excluded from the candidates at this point. The third one is a candidate, but "/ i / rasya" retrieved after this
Since i ”has a better phoneme environment with the input phoneme sequence, this extraction environment-added voice unit is replaced with the candidate.

【0054】このような動作を繰返し、ここでは、“/
i/rassyai”だけが候補として残ったとする。
語頭であるので距離値は計算されないが、この抽出環境
付音声単位“/i/rassyai”について音韻環境
からの妥当性が判断される。判断条件にもよるが、後続
音韻が2個一致しているので妥当と判断される。従っ
て、この語頭の音声単位種類[i]については、調音結
合された自然音“irassyai”が発声された際の
語頭の音声単位/i/についての抽出環境付音声素片デ
ータ14Aが採用される。
Such an operation is repeated, and here, "/
It is assumed that only “i / rassyai” remains as a candidate.
The distance value is not calculated because it is the beginning of a word, but the validity from the phonological environment is judged for this voice unit with extraction environment "/ i / rassyai". Although it depends on the determination condition, it is determined to be appropriate because two succeeding phonemes match. Therefore, with respect to the voice unit type [i] at the beginning of the word, the voice element data with extraction environment 14A for the voice unit / i / at the beginning of the word when the articulated combined natural sound "irassyai" is uttered is adopted. .

【0055】次に、語中の音声単位種類[ira]が対
象となって、音声単位辞書16を検索する。この場合、
図5(B)に示すように、“/ira/ssyai”及
び“s/ira/byouosi”が取出されたとす
る。ここで、前者“/ira/ssyai”の方が候補
として残るが、後続音韻が入力音韻列“irarena
i”と一致しないため妥当性判断で不適当と判断され
る。
Next, the voice unit dictionary 16 is searched for the voice unit type [ira] in the word. in this case,
As shown in FIG. 5B, it is assumed that “/ ira / sseyai” and “s / ira / byouosi” have been taken out. Here, the former "/ ira / sssaii" remains as a candidate, but the subsequent phoneme is the input phoneme sequence "irarena".
Since it does not match i ", it is judged to be inappropriate by the validity judgment.

【0056】そこで、環境無関係音声単位/ira/を
選択し、これに対応する環境無関係音声素片データ14
Bを採用することに決定する。この環境無関係音声素片
データ14Bの取出しは、単位辞書16の環境無関係音
声単位ポインタテーブル部16Cを音声単位種類[ir
a]の情報をアドレスとしてアクセスしてポインタ値を
取出し、このポインタ値で環境無関係音声単位記憶部1
6Dをアクセスして音声素片データ14Bの格納アドレ
スを取出し、このアドレスで音声素片データ記憶部14
をアクセスして行なう。
Therefore, the environment-independent voice unit / ira / is selected and the environment-independent voice unit data 14 corresponding thereto is selected.
It is decided to adopt B. To extract the environment-irrelevant voice unit data 14B, the environment-irrelevant voice unit pointer table unit 16C of the unit dictionary 16 is used for the voice unit type [ir.
a] is used as an address to access the pointer value and the pointer value is used to extract the environment-independent voice unit storage unit 1
6D is accessed to take out the storage address of the voice unit data 14B, and the voice unit data storage unit 14 is used at this address.
To access.

【0057】次に、語中の次の音声単位種類[are]
が対象となる。この場合には詳述は避けるが、図5
(C)に示す複数の抽出環境付音声単位の中から抽出環
境付音声単位“emoiw/are/nu”だけが候補
に絞り込まれ、妥当と判断され、調音結合された自然音
“emoiwarenu”が発声された際の音声単位/
are/についての抽出環境付音声素片データ14Aが
採用されたとする。
Next, the next voice unit type [are] in the word
Is the target. In this case, detailed description is avoided, but FIG.
Of the plurality of voice units with extraction environment shown in (C), only the voice unit with extraction environment "emoiw / are / nu" is narrowed down to candidates and is judged to be valid, and a natural sound "emoiwarenu" with articulation is uttered. Voice unit when
It is assumed that the voice segment data with extraction environment 14A for are / is adopted.

【0058】次に、語中の次の音声単位種類[ena]
が対象となり、音声単位辞書16の検索によって、図5
(D)に示す4個の抽出環境付音声単位が取出される。
入力音韻列との音韻環境の一致性による候補の絞り込み
では、“katajik/ena/i”と“a/ena
/i”とが残る。そこで、直前に選択された抽出環境付
音声単位“emoiw/are/nu”における音声単
位/are/と接続されたときの歪の大きさ(距離値)
を、両候補間で比較する。
Next, the next voice unit type [ena] in the word
5 is obtained by searching the voice unit dictionary 16.
The four voice units with extraction environment shown in (D) are extracted.
In narrowing down candidates by matching the phoneme environment with the input phoneme sequence, "katajik / ena / i" and "a / ena" are selected.
/ I ”remains. Therefore, the magnitude of the distortion (distance value) when connected to the voice unit / are / in the voice unit“ emoiw / are / nu ”with the extraction environment immediately before selected
Is compared between both candidates.

【0059】図6は、距離値算出のイメージ的な説明図
である。抽出環境付音声単位“emoiw/are/n
u”における音声単位/are/の後部の接続部音響パ
ラメータデータCTを取出し、抽出環境付音声単位“k
atajik/ena/i”又は“a/ena/i”に
おける音声単位/ena/の前部の接続部音響パラメー
タデータCHを取出して距離値を求め、距離値の小さい
ものに候補を絞り込む。この場合、直前の音声単位/a
re/における最終音韻“e”は子音から移行したもの
であるので、当該音声単位/ena/の先頭音韻“e”
の前が子音である抽出環境付音声単位“katajik
/ena/i”の方が距離値が小さなって最終的な候補
として残る。
FIG. 6 is an image-like explanatory diagram of distance value calculation. Speech unit with extraction environment "emoiw / are / n"
In the audio unit / are / in the "u", the connection section acoustic parameter data CT at the rear part is extracted,
Atajik / ena / i "or" a / ena / i "in the front of the voice unit / ena / of the connection part acoustic parameter data CH is extracted to obtain a distance value, and candidates are narrowed down to those having a small distance value. , Last voice unit / a
Since the final phoneme "e" in re / is a transition from the consonant, the beginning phoneme "e" of the voice unit / ena /
"Katajik", which is a voice unit with an extraction environment in which the front of the
"/ Ena / i" has a smaller distance value and remains as a final candidate.

【0060】抽出環境付音声単位“katajik/e
na/i”については、妥当性は問題なかったとする。
従って、調音結合された自然音“katajikena
i”が発声された際の音声単位/ena/についての抽
出環境付音声素片データ14Aが採用される。
Speech unit with extraction environment "katajik / e"
As for na / i ", it is assumed that there was no problem with the validity.
Therefore, the articulated and combined natural sound "katajikena"
The voice element data with extraction environment 14A for the voice unit / ena / when i "is uttered is adopted.

【0061】次に、語尾の音声単位種類[ai]が対象
となる。この場合には詳述は避けるが、図5(E)に示
す複数の抽出環境付音声単位の中から抽出環境付音声単
位“katajiken/ai/”だけが候補に絞り込
まれ、妥当と判断され、調音結合された自然音“kat
ajikenai”が発声された際の音声単位/ai/
についての抽出環境付音声素片データ14Aが採用され
る。
Next, the ending voice unit type [ai] is targeted. In this case, although detailed description is omitted, only the extraction environment-added voice unit “katajiken / ai /” is narrowed down to candidates from the plurality of extraction environment-attached voice units shown in FIG. Articulated natural sound "kat"
ajikenai "voice unit / ai /
The voice element data 14A with the extraction environment is used.

【0062】なお、音声素片データ記憶部14に格納さ
れた音声素片データ14Aは、単語等の発声から切り出
して生成されたもので、VCV単位が基本となっている
が、音声単位辞書16を参照することで、単語等の一続
きの発声から続けて抽出、生成された音声素片、つまり
音韻連接している音声素片群を選択し、組合せの計算の
手間を省いて素片間の接続歪みを抑えることもできる。
すなわち、この実施例では上述したようにこのような選
択ルールを設けているので、入力音韻列“iraren
ai”の音声単位種類[ena]と[ai]について
は、1つの単語発声“katajikenai”から抽
出された音声単位/ena/と/ai/が適用され、こ
の間の接続歪みをなくすことができる。
The voice unit data 14A stored in the voice unit data storage unit 14 is generated by cutting out a utterance of a word or the like, and is based on the VCV unit, but the voice unit dictionary 16 By referring to, select a speech unit that is continuously extracted and generated from a series of utterances such as words, that is, a group of phonemes that are phonologically concatenated, and save time and effort for calculating combinations. It is possible to suppress the connection distortion of.
That is, in this embodiment, since such a selection rule is provided as described above, the input phoneme sequence "iraren"
For the voice unit types [ena] and [ai] of "ai", the voice units / ena / and / ai / extracted from one word utterance "katajikenai" are applied, and the connection distortion between them can be eliminated.

【0063】従って、上記実施例によれば、音声の調音
結合という性質を重視し、入力文(音韻列)と音声単位
の音韻環境を考慮して合成しているので、肉声感のある
より自然音声に近い合成音声信号を得ることができる。
Therefore, according to the above-described embodiment, since the property of articulatory coupling of voices is emphasized and synthesis is performed in consideration of the input sentence (phoneme sequence) and the phoneme environment of each voice unit, a natural voice with a feeling of real voice is obtained. It is possible to obtain a synthetic voice signal close to a voice.

【0064】また、適切な音韻環境にある音声単位がな
いときでも、標準的な音声単位を用意しているので、接
続による歪みが大きくなるような不適切な音声単位が合
成に用いられることはない。
Further, even when there is no voice unit in an appropriate phonological environment, since a standard voice unit is prepared, an inappropriate voice unit that causes large distortion due to connection may not be used for synthesis. Absent.

【0065】さらに、標準的な音声単位を用意している
ので、音韻環境を考慮した音声単位をかなり多く用意す
る必要はなく、メモリ容量を軽減できると共に、処理量
も軽減できる。
Further, since standard voice units are prepared, it is not necessary to prepare a considerably large number of voice units in consideration of the phonological environment, and the memory capacity and the processing amount can be reduced.

【0066】さらにまた、肉声感のあるより自然音声に
近い合成音声信号を得るためには、音声単位の探索処理
が中心であり、距離値の計算は僅かに行なえば良いの
で、この点からも処理量を軽減できる。例えば、抽出環
境付音声素片データ(従って音声単位)を2倍に増やし
ても、音声単位辞書の探索に要する処理が2倍になるだ
けで、全体の処理量は決して2倍にはならない。その結
果、音質向上のために、音声素片データの拡張に対処す
ることが容易であり、装置の能力を最大限に生かした品
質の音声合成を行なうことができる。
Furthermore, in order to obtain a synthesized voice signal having a real voice and closer to a natural voice, the search process for each voice unit is the center, and the distance value may be calculated slightly. From this point as well. The processing amount can be reduced. For example, even if the number of speech unit data with extraction environment (henceforth, the voice unit) is doubled, the processing required for searching the voice unit dictionary is doubled, and the total processing amount is never doubled. As a result, in order to improve the sound quality, it is easy to deal with the expansion of the voice unit data, and it is possible to perform voice synthesis of a quality that maximizes the ability of the device.

【0067】また、音声単位の選択時において、直前の
音声単位と同じ発声から、抽出生成された音声単位を優
先的に選択するようにしているので、音声単位間の接続
歪みを減らすこともできる。
Further, when the voice unit is selected, the voice unit extracted and generated is preferentially selected from the same utterance as the immediately preceding voice unit, so that the connection distortion between voice units can be reduced. .

【0068】なお、上記実施例においては、音声単位間
(従って音声素片データ間)の接続部の類似度を距離値
で判断するものを示したが、他のパラメータで判断する
ようにしても良い。また、距離値の計算時点も、音韻環
境の近似度合に基づいて候補を置き換える際に確認の意
味で行なうようにしても良く、実施例のタイミングに限
定されるものではない。
In the above embodiment, the similarity of the connection portion between voice units (thus between voice segment data) is judged by the distance value, but it may be judged by other parameters. good. Also, the distance value may be calculated at the point of confirmation when replacing the candidate based on the degree of approximation of the phoneme environment, and is not limited to the timing of the embodiment.

【0069】さらに、本発明が対象とする入力文は、日
本語文に限定されるものでないことは勿論である。
Further, it goes without saying that the input sentence targeted by the present invention is not limited to the Japanese sentence.

【0070】[0070]

【発明の効果】以上のように、本発明によれば、音韻環
境を持たぬように1音1音はっきりと発声された音声信
号から分析生成された環境無関係の音声素片データと、
音韻環境を持つように発声された音声信号から分析生成
された抽出環境付の音声素片データとを用意すると共
に、これら音声素片データの選択情報を音声単位の種類
毎に用意しておき、入力された文字情報が変換された音
韻列における音声単位毎に選択情報を参照し、この音韻
列における音声単位の音韻環境に近似していて、直前の
音声素片データとの接続が良好な抽出環境付の音声素片
データがあればそれを選択し、なければ環境無関係な音
声素片データを選択するようにしたので、肉声感のある
より自然音声に近い合成音声信号を、少ないメモリ容量
及び少ない処理量で得ることができる音声合成装置及び
音声合成方法を実現できる。
As described above, according to the present invention, environment-independent speech segment data generated by analysis and generation from a speech signal in which one note is clearly uttered without having a phonological environment,
A speech element data with an extraction environment, which is analyzed and generated from a speech signal uttered so as to have a phonological environment, is prepared, and selection information of these speech element data is prepared for each type of speech unit, The selection information is referred to for each voice unit in the phoneme sequence into which the input character information is converted, and the phoneme environment is approximated to the voice unit in this phoneme sequence, and the connection with the immediately preceding voice unit data is extracted well. If there is speech unit data with environment, select it, and if not, select speech unit data unrelated to the environment. A voice synthesizing apparatus and a voice synthesizing method that can be obtained with a small processing amount can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施例の機能ブロック図である。FIG. 1 is a functional block diagram of an embodiment.

【図2】従来の機能ブロック図である。FIG. 2 is a conventional functional block diagram.

【図3】実施例の音声単位辞書の構成を示す説明図であ
る。
FIG. 3 is an explanatory diagram showing a configuration of a voice unit dictionary according to the embodiment.

【図4】実施例の音声合成動作を示すフローチャートで
ある。
FIG. 4 is a flowchart showing a voice synthesizing operation of the embodiment.

【図5】実施例の具体的入力文に対する動作の説明図で
ある。
FIG. 5 is an explanatory diagram of an operation for a specific input sentence according to the embodiment.

【図6】実施例の距離値計算方法の概念図である。FIG. 6 is a conceptual diagram of a distance value calculation method according to an embodiment.

【符号の説明】[Explanation of symbols]

13…合成パラメータ生成部、14…音声素片データ記
憶部、14A…抽出環境付音声素片データ、14B…環
境無関係音声素片データ、15…音声合成部、16…音
声単位辞書、17…距離値計算部、18…接続部音響パ
ラメータデータ記憶部、19…音声単位選択チェック
部。
13 ... Synthesis parameter generation unit, 14 ... Speech unit data storage unit, 14A ... Speech unit data with extraction environment, 14B ... Environment unrelated speech unit data, 15 ... Speech synthesis unit, 16 ... Speech unit dictionary, 17 ... Distance Value calculation unit, 18 ... Connection unit acoustic parameter data storage unit, 19 ... Voice unit selection check unit.

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 入力された文字情報を音声信号に変換す
る音声合成装置において、 音韻環境を持たぬように1音1音はっきりと発声された
音声信号から分析生成された環境無関係の音声素片デー
タを格納している環境無関係音声素片データ記憶部と、 音韻環境を持つように発声された音声信号から分析生成
された抽出環境付の音声素片データを格納している抽出
環境付音声素片データ記憶部と、 これら音声素片データの選択情報を音声単位の種類毎に
格納している選択情報格納手段と、 入力された文字情報が変換された音韻列における音声単
位毎に上記選択情報格納手段を参照し、この音韻列にお
ける音声単位の音韻環境に近似していて直前の音声素片
データとの接続が良好な抽出環境付の音声素片データが
あればそれを選択し、なければ環境無関係な音声素片デ
ータを選択する合成パラメータ生成手段とを備えたこと
を特徴とする音声合成装置。
1. A speech synthesizer for converting input character information into a speech signal, wherein an environment-independent speech segment is generated by analysis from a speech signal in which one note is clearly pronounced so as not to have a phonological environment. An environment-independent speech unit data storage unit that stores data and a speech unit with an extraction environment that stores speech unit data with an extraction environment that is analyzed and generated from a speech signal that is uttered to have a phonological environment. A piece data storage unit, a selection information storage unit that stores selection information of these speech unit data for each type of voice unit, and the above selection information for each voice unit in a phoneme string into which input character information is converted. With reference to the storage means, if there is speech segment data with an extraction environment that is close to the phoneme environment of this speech unit in the phoneme sequence and that has a good connection with the immediately preceding speech segment data, select it. Speech synthesis apparatus characterized by comprising a composite parameter generating means for selecting a boundary extraneous speech unit data.
【請求項2】 上記選択情報格納手段が、抽出環境付の
音声素片データの音韻環境を音声単位毎に格納している
音声単位辞書と、抽出環境付の音声素片データの接続部
情報を音声単位毎に格納している接続部情報記憶部とか
らなり、 上記合成パラメータ生成手段が、入力された文字情報が
変換された音韻列における音声単位毎に上記音声単位辞
書を参照し、この音韻列における音声単位の音韻環境に
対する近似度合から候補を絞り込む音声単位選択チェッ
ク部と、絞り込まれた抽出環境付の音声素片データと直
前の音声素片データとの類似度を上記接続部情報記憶部
の格納内容から求める類似度計算部と、音韻環境及び接
続部の類似度に基づいて抽出環境付の音声素片データの
候補を1個に絞り込むと共に抽出環境付の音声素片デー
タを選択するか環境無関係な音声素片データを選択する
かを決定する合成パラメータ生成部とからなることを特
徴とする請求項1に記載の音声合成装置。
2. The selection information storage means stores a phonetic unit dictionary in which the phoneme environment of the voice unit data with the extraction environment is stored for each voice unit, and connection part information of the voice unit data with the extraction environment. The synthesizing parameter generating means refers to the voice unit dictionary for each voice unit in the phoneme sequence into which the input character information is converted, A voice unit selection check unit that narrows down candidates based on the degree of approximation to the phoneme environment of a voice unit in a column, and a similarity between the narrowed voice unit data with an extraction environment and the immediately preceding voice unit data is the connection unit information storage unit. Based on the similarity between the phoneme environment and the connection part, and the similarity calculation unit obtained from the stored content of the phoneme data is narrowed down to one, and the voice unit data with the extraction environment is selected. Speech synthesis apparatus according to claim 1, characterized in that it consists of a synthetic parameter generation unit for determining whether to select the Luke environment extraneous speech unit data.
【請求項3】 入力された文字情報を音声信号に変換す
る音声合成方法において、 音韻環境を持たぬように1音1音はっきりと発声された
音声信号から分析生成された環境無関係の音声素片デー
タを格納している環境無関係音声素片データ記憶部と、 音韻環境を持つように発声された音声信号から分析生成
された抽出環境付の音声素片データを格納している抽出
環境付音声素片データ記憶部と、 これら音声素片データの選択情報を音声単位の種類毎に
格納している選択情報格納手段とを備え、 入力された文字情報が変換された音韻列における音声単
位毎に上記選択情報格納手段を参照し、この音韻列にお
ける音声単位の音韻環境に近似していて直前の音声素片
データとの接続が良好な抽出環境付の音声素片データが
あればそれを選択し、なければ環境無関係な音声素片デ
ータを選択することを特徴とする音声合成方法。
3. A speech synthesis method for converting input character information into a speech signal, wherein an environment-independent speech element is generated by analysis from a speech signal in which one note is clearly pronounced so as not to have a phonological environment. An environment-independent speech unit data storage unit that stores data and a speech unit with an extraction environment that stores speech unit data with an extraction environment that is analyzed and generated from a speech signal that is uttered to have a phonological environment. A piece data storage unit and selection information storage means for storing the selection information of these speech unit data for each type of voice unit are provided. For each voice unit in the phoneme sequence in which the input character information is converted, Referring to the selection information storage means, if there is a speech unit data with an extraction environment that is close to the phoneme environment of the voice unit in this phoneme sequence and has a good connection with the immediately preceding speech unit data, select it. Na Speech synthesis method and selects the environmental extraneous speech unit data if Re.
【請求項4】 上記選択情報格納手段を、抽出環境付の
音声素片データの音韻環境を音声単位毎に格納している
音声単位辞書と、抽出環境付の音声素片データの接続部
情報を音声単位毎に格納している接続部情報記憶部とで
構成し、 入力された文字情報が変換された音韻列における音声単
位毎に上記音声単位辞書を参照し、この音韻列における
音声単位の音韻環境に対する近似度合から候補を絞り込
み、 絞り込まれた抽出環境付の音声素片データと直前の音声
素片データとの類似度を上記接続部情報記憶部の格納内
容から求め、 音韻環境及び接続部の類似度に基づいて抽出環境付の音
声素片データの候補を1個に絞り込んだ後、抽出環境付
の音声素片データを選択するか環境無関係な音声素片デ
ータを選択するかを決定することを特徴とする請求項3
に記載の音声合成方法。
4. The selection information storage means stores a voice unit dictionary storing the phoneme environment of the voice unit data with the extraction environment for each voice unit, and connection part information of the voice unit data with the extraction environment. A phoneme unit of a phonetic unit in this phoneme string is configured by referring to the phonetic unit dictionary for each phonetic unit in the phoneme string in which the input character information is converted The candidates are narrowed down based on the degree of approximation to the environment, and the similarity between the narrowed down speech unit data with the extraction environment and the immediately preceding speech unit data is obtained from the stored contents of the connection unit information storage unit. After narrowing down the candidates of the speech unit data with the extraction environment to one on the basis of the degree of similarity, determining whether to select the speech unit data with the extraction environment or the speech unit data unrelated to the environment. Characterized by Claim 3
The speech synthesis method described in.
JP5323648A 1993-12-22 1993-12-22 Device and method for voice synthesis Pending JPH07181995A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5323648A JPH07181995A (en) 1993-12-22 1993-12-22 Device and method for voice synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5323648A JPH07181995A (en) 1993-12-22 1993-12-22 Device and method for voice synthesis

Publications (1)

Publication Number Publication Date
JPH07181995A true JPH07181995A (en) 1995-07-21

Family

ID=18157067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5323648A Pending JPH07181995A (en) 1993-12-22 1993-12-22 Device and method for voice synthesis

Country Status (1)

Country Link
JP (1) JPH07181995A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143038B2 (en) 2003-04-28 2006-11-28 Fujitsu Limited Speech synthesis system
JP2011231766A (en) * 2010-04-28 2011-11-17 J Eberspecher Gmbh & Co Kg Piston engine, method, and use

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143038B2 (en) 2003-04-28 2006-11-28 Fujitsu Limited Speech synthesis system
JP2011231766A (en) * 2010-04-28 2011-11-17 J Eberspecher Gmbh & Co Kg Piston engine, method, and use

Similar Documents

Publication Publication Date Title
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US7502739B2 (en) Intonation generation method, speech synthesis apparatus using the method and voice server
Huang et al. Whistler: A trainable text-to-speech system
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP4302788B2 (en) Prosodic database containing fundamental frequency templates for speech synthesis
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US10699695B1 (en) Text-to-speech (TTS) processing
JPH05165486A (en) Text voice transforming device
JP2007248886A (en) Reading correcting device
JP2014062970A (en) Voice synthesis, device, and program
JPH0887297A (en) Voice synthesis system
JPH08335096A (en) Text voice synthesizer
JP3576066B2 (en) Speech synthesis system and speech synthesis method
US11393451B1 (en) Linked content in voice user interface
JPH07181995A (en) Device and method for voice synthesis
EP1589524B1 (en) Method and device for speech synthesis
JPH0962286A (en) Voice synthesizer and the method thereof
JP2003108170A (en) Method and device for voice synthesis learning
JP2003108180A (en) Method and device for voice synthesis
JP2907828B2 (en) Voice interactive document creation device
JP2862306B2 (en) Voice recognition device
JPH06214585A (en) Voice synthesizer