JP2000010580A - Method and device for synthesizing speech - Google Patents

Method and device for synthesizing speech

Info

Publication number
JP2000010580A
JP2000010580A JP10174812A JP17481298A JP2000010580A JP 2000010580 A JP2000010580 A JP 2000010580A JP 10174812 A JP10174812 A JP 10174812A JP 17481298 A JP17481298 A JP 17481298A JP 2000010580 A JP2000010580 A JP 2000010580A
Authority
JP
Japan
Prior art keywords
phoneme
speech
time
duration
articulatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10174812A
Other languages
Japanese (ja)
Inventor
Yoshinori Shiga
芳則 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10174812A priority Critical patent/JP2000010580A/en
Publication of JP2000010580A publication Critical patent/JP2000010580A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To make a synthetic speech a human and natural one by considering the physical limit of an articulatory organ thereby deciding a phoneme continuous time length. SOLUTION: A KANJI (Chiniese character)/KANA (Japanese syllabary)-mixed sentence being the object of speech synthesis is analyzed by a language processing part 101 to obtain a speech sign string in which a phoneme sign series and accent information are described and a language analytic result including the part of speech information of an independent word incorporated in respective accent phrases. A beat interval predictive processing part 108b in a speech synthetic part 102 decides synchronous timing of respective morae by a statistic method based on the number of morae and the part of speech information at every accent phrase based on the language analytic result. A phoneme continuous time length calculation processing part 107 obtains the time change of an articulation model based on the phoneme sign series in the speech sign string and the synchronous timing, and decides respective phoneme continuous time lengthes based on the time change of the articulation model.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声合成の対象と
なるテキストデータを解析して言語解析結果を得て、そ
の言語解析結果に基づいて、当該テキストデータの読み
に含まれる個々の音韻の継続時間長を決定すると共に音
声素片を選択し、決定した音韻の継続時間長に基づいて
選択した音声素片を接続することによって音声を合成す
る音声合成方法及び装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention analyzes text data to be subjected to speech synthesis, obtains a linguistic analysis result, and, based on the linguistic analysis result, analyzes individual phonemes contained in the reading of the text data. The present invention relates to a speech synthesis method and apparatus that determines a duration time, selects a speech unit, and connects the speech units selected based on the determined phoneme duration time to synthesize speech.

【0002】[0002]

【従来の技術】この種の音声合成装置の代表的なもの
に、音声を細分化して蓄積し、その組み合わせによって
任意の音声を合成可能な規則合成装置があることが知ら
れている。以下では、この規則合成装置の従来技術の例
を図を参照しながら説明していく。
2. Description of the Related Art It is known that a typical speech synthesizer of this type is a rule synthesizer capable of subdividing and accumulating speech and synthesizing an arbitrary speech by a combination thereof. Hereinafter, an example of the prior art of the rule synthesizing apparatus will be described with reference to the drawings.

【0003】図12は従来の規則合成装置の構成を示す
ブロック図である。図12の規則合成装置は入力される
テキストデータ(以下、単にテキストと称する)を音韻
と韻律からなる記号列に変換し、その記号列から音声を
生成する文音声変換(Text-to-speech conversion :以
下、TTSと称する)処理を行う。
FIG. 12 is a block diagram showing a configuration of a conventional rule synthesizing apparatus. The rule synthesizer of FIG. 12 converts input text data (hereinafter, simply referred to as text) into a symbol string composed of phonemes and prosody, and generates a speech from the symbol string (Text-to-speech conversion). : Hereinafter referred to as TTS).

【0004】この図12の規則合成装置におけるTTS
処理機構は、大きく分けて言語処理部12と音声合成部
13の2つの処理部からなり、日本語の規則合成を例に
とると次のように行われるのが一般的である。
The TTS in the rule synthesizing apparatus shown in FIG.
The processing mechanism is roughly divided into two processing units, a language processing unit 12 and a speech synthesis unit 13, and is generally performed as follows in the case of Japanese rule synthesis.

【0005】まず言語処理部12では、テキストファイ
ル11から入力されるテキスト(漢字かな混じり文)に
対して形態素解析、構文解析等の言語処理を行い、形態
素への分解、係り受け関係の推定等の処理を行うと同時
に、各形態素に読みとアクセント型を与える。その後言
語処理部12では、アクセントに関しては複合語等のア
クセント移動規則を用いて、読み上げの際の区切りとな
る句(以下、アクセント句と称する)毎のアクセント型
を決定する。通常TTSの言語処理部12では、こうし
て得られるアクセント句毎の読みとアクセント型を記号
列(以下、音声記号列と称する)として出力できるよう
になっている。
First, the language processing section 12 performs linguistic processing such as morphological analysis and syntactic analysis on text (kanji-kana mixed sentence) input from the text file 11, decomposes into morphemes, estimates dependency relations, and the like. At the same time, the pronunciation and accent type are given to each morpheme. After that, the language processing unit 12 determines the accent type of each phrase (hereinafter referred to as an accent phrase) serving as a delimiter at the time of reading aloud, using accent movement rules such as compound words. Normally, the language processing unit 12 of the TTS can output the reading and accent type for each accent phrase thus obtained as a symbol string (hereinafter referred to as a phonetic symbol string).

【0006】次に音声合成部13内では、得られた読み
に含まれる各音韻の継続時間長を音韻継続時間長決定処
理部14にて決定する。音韻の継続時間長は、川上蓁著
「日本語音声概説(桜楓社)」p.100 などに記載されて
いる日本語特有の拍の等時性に基づき決定する手法が一
般的である。子音の継続時間長は子音の種類により一定
とし、図13に示されるように、各モーラの基準時刻
(拍同期時刻:ここでは、子音から母音へのわたり部で
あり、図において記号△で示される位置)の間隔が一定
になるように、母音の継続時間長が決定される。
Next, in the speech synthesizer 13, the duration of each phoneme included in the obtained reading is determined by the phoneme duration determination processor 14. In general, the duration of a phoneme is determined based on the isochronism of the beats specific to Japanese, as described in Shinji Kawakami, “Japanese Voice Overview (Sakura Kaede)” p.100. The duration of the consonant is fixed depending on the type of the consonant, and as shown in FIG. 13, the reference time of each mora (beat synchronization time: here, a part extending from a consonant to a vowel, indicated by the symbol △ in the figure) The vowel duration is determined so that the interval between the vowels is constant.

【0007】また、この拍同期時刻の間隔(以下、単に
拍間隔と称する)は次のようにして決定する。即ち、
「人間はモーラ数が多いほど早く読む」という経験則に
基づき、実音声の観測により得られたアクセント句のモ
ーラ数によりテーブル(モーラ数・拍間隔対応テーブ
ル)20を参照することで拍間隔を得る。
The interval of the beat synchronization time (hereinafter simply referred to as a beat interval) is determined as follows. That is,
Based on the empirical rule that “humans read more as the number of mora increases, the beat interval is determined by referring to the table (mora number / beat interval correspondence table) 20 based on the mora number of the accent phrase obtained by observing the actual voice. obtain.

【0008】続いて音声合成部13内では、上記のよう
にして得られる「読み」に従って、音韻パラメータ生成
処理部16が音声素片メモリ15から必要な音声素片を
読み出し、読み出した音声素片を「音韻の継続時間長」
に従って時間軸方向に伸縮させながら接続して、合成す
べき音声の特徴パラメータ系列を生成する。
Subsequently, in the speech synthesis unit 13, the phoneme parameter generation processing unit 16 reads necessary speech units from the speech unit memory 15 in accordance with the "reading" obtained as described above, and reads the read speech units. For `` phoneme duration ''
Are connected while expanding and contracting in the time axis direction according to the above, to generate a feature parameter sequence of the voice to be synthesized.

【0009】ここで音声素片メモリ15には、予め作成
された多数の音声素片が格納されている。音声素片は、
アナウンサ等が発声した音声を分析して所定の音声の特
徴パラメータを得た後、所定の合成単位例えば日本語の
音節(子音十母音:以下、CVと称する)単位で、日本
語の音声に含まれる全ての音節を上記特徴パラメータか
ら切り出すことにより作成される。
Here, the speech unit memory 15 stores a large number of speech units prepared in advance. The speech unit is
After analyzing the voice uttered by the announcer or the like and obtaining a predetermined characteristic parameter of the voice, the voice is included in the Japanese voice in a predetermined synthesis unit, for example, a Japanese syllable (consonant vowel: hereinafter, referred to as CV). It is created by cutting out all syllables from the above feature parameters.

【0010】ここではパラメータとして低次ケプストラ
ム係数を利用している。低次ケプストラム係数は次のよ
うにして求めることができる。まず、アナウンサ等が発
声した音声データに、一定幅、一定周期で窓関数(ここ
ではハニング窓)をかけ、各窓内の音声波形に対してフ
ーリエ変換を行い音声の短時間スペクトルを計算する。
次に、得られた短時間スペクトルのパワーを対数化して
対数パワースペクトルを得た後、対数パワースペクトル
を逆フーリエ変換する。こうして計算されるのがケプス
トラム係数である。そして一般に、高次のケプストラム
係数は音声の基本周波数情報を、低次のケプストラム係
数は音声のスペクトル包絡情報を保持していることが知
られている。
Here, a low-order cepstrum coefficient is used as a parameter. The low-order cepstrum coefficient can be obtained as follows. First, a window function (here, a Hanning window) is applied to voice data uttered by an announcer or the like at a constant width and a constant cycle, and a Fourier transform is performed on a voice waveform in each window to calculate a short-time spectrum of the voice.
Next, after the obtained short-time spectrum power is logarithmically obtained to obtain a logarithmic power spectrum, the logarithmic power spectrum is subjected to inverse Fourier transform. The cepstrum coefficient is calculated in this way. In general, it is known that higher-order cepstrum coefficients hold fundamental frequency information of speech and lower-order cepstrum coefficients hold spectrum envelope information of speech.

【0011】音声合成部13では更に、ピッチパターン
生成処理部17が上記アクセント型をもとにピッチの高
低変化が生じる時刻に点ピッチを設定し、複数設定され
た点ピッチ間を直線補間してピッチのアクセント成分を
生成し、これにイントネーション成分(通常は周波数−
時間軸上での単調減少直線)を重畳してピッチパターン
を生成する。そして有声区間ではピッチパターンに基づ
いた周期パルスを、無声区間ではホワイトノイズをそれ
ぞれ音源として、一方音声の特徴パラメー夕系列からフ
ィルタ係数を算出し、合成フィルタ処理部18に与えて
所望の音声を合成する。ここでは、合成フィルタ処理部
18に、ケプストラム係数を直接フィルタ係数とするL
MA(Log Magnitude Approximation )フィルタ(対数
振幅近似フィルタ)を合成フィルタとして用いている。
In the voice synthesizing unit 13, the pitch pattern generation processing unit 17 further sets a point pitch at a time when the pitch changes based on the accent type, and performs linear interpolation between the plurality of set point pitches. Generates an accent component of the pitch, into which the intonation component (usually frequency-
A pitch pattern is generated by superimposing a monotonically decreasing straight line on the time axis. A periodic pulse based on the pitch pattern is used as a sound source in a voiced section, and a white noise is used as a sound source in an unvoiced section. A filter coefficient is calculated from a characteristic parameter sequence of one voice, and the calculated coefficient is provided to a synthesis filter processing unit 18 to synthesize a desired voice. I do. Here, the synthesizing filter processing unit 18 uses the cepstrum coefficient as a filter coefficient directly as L
An MA (Log Magnitude Approximation) filter (logarithmic amplitude approximation filter) is used as a synthesis filter.

【0012】ここまでの処理はディジタル処理によって
行われるのが一般的で、したがって合成された音声は離
散信号であるから、音声合成部13では最後に、この離
散波形をD/A(ディジタル/アナログ)変換器19に
供給し、離散信号を電気的なアナログ信号に変換する。
こうして得られたアナログ信号でスピーカー等を駆動す
ることにより聴覚で知覚できる音声が合成できる。
The processing up to this point is generally performed by digital processing. Therefore, the synthesized voice is a discrete signal. Therefore, the voice synthesizer 13 finally converts this discrete waveform into a D / A (digital / analog) signal. ) To the converter 19 to convert the discrete signals into electrical analog signals.
By driving a speaker or the like with the analog signal thus obtained, a sound that can be perceived by hearing can be synthesized.

【0013】[0013]

【発明が解決しようとする課題】上記した規則合成装置
に代表される従来の音声合成装置では、その音声合成装
置で生成される音声には次のような問題があった。ま
ず、従来の音声合成装置では、音声合成部において、読
みに含まれる各音韻の継続時間長を決定する際、上述し
たように、日本語の拍の等時性に基づき、各モーラの基
準時刻の時間間隔(拍間隔)が一定になるように決定し
ている。しかしながら、人間が音声を発声するときに
は、言葉の発音(調音)を司る顎、唇、舌などの調音器
官の物理的な制約によって、等時性を維持するのは難し
い。そのため、実際には、音韻の種類やその前後の音韻
の影響を受けて、等時性は乱されてしまうが、逆にそれ
が音声に人間らしさや発声者の個性を与えている。
In a conventional speech synthesizer represented by the rule synthesizer described above, the speech generated by the speech synthesizer has the following problems. First, in the conventional speech synthesizer, when the duration of each phoneme included in the reading is determined in the speech synthesis unit, the reference time of each mora is determined based on the isochronism of the Japanese beat as described above. Are determined so that the time interval (beat interval) of the data becomes constant. However, when a human utters a voice, it is difficult to maintain isochronism due to physical restrictions on articulatory organs such as jaws, lips, and tongue that control the pronunciation (articulation) of words. Therefore, in reality, the isochronism is disturbed by the influence of the type of the phoneme and the phonemes before and after the phoneme, but it gives the voice a humanity and the individuality of the speaker.

【0014】したがって、従来の音声合成装置における
日本語のモーラの等時性のみに基づく音韻継続時間長の
決定手法では、このような調音器官の物理的な制約が考
慮されていないがために、モーラの時間的な配置が一定
間隔になり過ぎてしまい、合成音声の人間らしさが損な
われてしまうという欠点があった。
Therefore, in the conventional method of determining the phoneme duration based only on the isochronism of the Japanese mora in the speech synthesizer, such physical restrictions on articulators are not taken into account. There is a drawback that the temporal arrangement of the mora is too constant and the humanity of the synthesized voice is impaired.

【0015】本発明は上記事情を考慮してなされたもの
でその目的は、調音器官の物理的な制約を考慮して音韻
継続時間長を決定することで、合成音声をより人間らし
い自然なものにし、聞き取りやすく長時間聞いていても
疲れない音声を合成可能な音声合成方法及び装置を提供
することにある。
The present invention has been made in view of the above circumstances, and its object is to determine a phoneme duration in consideration of physical constraints of articulatory organs, thereby making synthesized speech more human-like and natural. Another object of the present invention is to provide a voice synthesizing method and apparatus capable of synthesizing a voice that is easy to hear and that does not get tired even after long hours of listening.

【0016】[0016]

【課題を解決するための手段】本発明は、音声合成の対
象となるテキストデータを解析して言語解析結果を得た
後、当該言語解析結果に基づいて、調音器官の動きをモ
デル化した調音モデルの時間変化を求め、求めた調音モ
デルの時間変化をもとに上記テキストデータの読みに含
まれる個々の音韻の継続時間長を決定すると共に、上記
言語解析結果に基づいて音声素片を選択し、決定した音
韻の継続時間長に基づいて選択した音声素片を接続する
ことによって音声を合成することを特徴とする。
SUMMARY OF THE INVENTION The present invention provides an articulatory method in which text data to be subjected to speech synthesis is analyzed to obtain a linguistic analysis result, and based on the linguistic analysis result, a movement of an articulator is modeled. A time change of the model is obtained, and a duration of each phoneme included in the reading of the text data is determined based on the obtained time change of the articulation model, and a speech unit is selected based on the result of the language analysis. Then, the speech is synthesized by connecting the speech units selected based on the determined duration of the phoneme.

【0017】本発明においては、音声合成の対象となる
テキストデータに対する言語解析結果を利用して調音モ
デルを制御し、当該調音モデルの制御結果に基づいて音
韻の継続時間長を求めることで、人間が音声を発声した
際の調音器官の物理的な制約を音韻継続時間長に反映す
ると同時に、文章内の微妙な発話速度を合成音声に与え
ることが可能となり、人間らしく自然で、聞き取りやす
い音声を合成できる。
In the present invention, the articulatory model is controlled using the result of language analysis of text data to be subjected to speech synthesis, and the duration of the phoneme is obtained based on the control result of the articulatory model. Can reflect the physical constraints of the articulatory organs when uttering the voice to the phonological duration, and at the same time give subtle utterance speed in the sentence to the synthesized speech, and synthesize a human-like natural and easy-to-hear speech it can.

【0018】ここで、上記言語解析結果に基づいてテキ
ストデータの読みに含まれる各モーラの同期タイミング
を決定し、上記言語解析結果に含まれる音韻情報と決定
した同期タイミングに基づいて、調音器官の動きをモデ
ル化した調音モデルの時間変化を求めるようにするなら
ば、人間が音声を発声した際の調音器官の物理的な制約
を高精度に音韻継続時間長に反映すると同時に、文章内
の微妙な発話速度を精度よく合成音声に与えることが可
能となり、より一層人間らしく自然で、聞き取りやすい
音声を合成できる。
Here, the synchronization timing of each mora included in the reading of the text data is determined based on the result of the language analysis, and based on the phonetic information included in the result of the language analysis and the determined synchronization timing, the sound timing of the articulator is determined. If the temporal change of an articulatory model that models movement is to be obtained, the physical constraints of articulatory organs when a human utters a voice are accurately reflected in the phonological duration, and at the same time, the subtlety in the sentence A high utterance speed can be given to the synthesized speech with high accuracy, and a more human-like, natural and easy-to-hear speech can be synthesized.

【0019】特に、調音モデルの時間変化を求める際
に、言語解析により取得される音韻情報に含まれる個々
の音韻の後続音韻への調音器官動作指令時刻を先に決定
した同期タイミングに基づいて決定するならば、人間が
音声を発声した際の調音器官の物理的な制約をより高精
度に音韻継続時間長に反映することが可能となる。
In particular, when determining the time change of the articulatory model, the articulatory organ operation command time to the succeeding phoneme of each phoneme included in the phoneme information acquired by the language analysis is determined based on the previously determined synchronization timing. If so, it becomes possible to reflect the physical restriction of the articulatory organ when a human utters a voice to the phonological duration with higher accuracy.

【0020】また、各音韻の後続音韻への調音器官動作
指令時刻を決定するに際しては、当該音韻が子音または
母音のいずれであるかを判別し、その判別結果及び上記
同期タイミングによって与えられる時刻に基づいて当該
音韻の後続音韻への調音器官動作指令時刻を決定すると
よい。ここで、音韻が子音の場合には、上記同期タイミ
ングによって与えられる時刻に基づいて当該子音の後続
音韻への調音器官動作指令時刻を決定し、当該音韻が母
音の場合には、当該母音の調音に達する時刻と上記同期
タイミングによって与えられる時刻とを比較して、その
比較結果をもとに上記同期タイミングによって与えられ
る時刻または当該母音の調音に達する時刻に基づいて当
該母音の後続音韻への調音器官動作指令時刻を決定する
とよい。具体的には、当該母音の調音に達する時刻の方
が小さいならば上記同期タイミングによって与えられる
時刻に基づいて、当該母音の調音に達する時刻の方が大
きいならば当該母音の調音に達する時刻に基づいて、当
該母音の後続音韻への調音器官動作指令時刻を決定す
る。このようにすることで、不自然な調音運動が発生す
るのを防止できる。
Further, when determining the articulatory organ operation command time for the succeeding phoneme of each phoneme, it is determined whether the phoneme is a consonant or a vowel, and at the time given by the determination result and the synchronization timing. Based on this, it is preferable to determine the articulator organ operation command time for the subsequent phoneme of the phoneme. Here, if the phoneme is a consonant, the articulatory organ operation command time to the succeeding phoneme of the consonant is determined based on the time given by the synchronization timing, and if the phoneme is a vowel, the articulation of the vowel is determined. Is compared with the time given by the synchronization timing, and based on the comparison result, the articulation to the succeeding phoneme of the vowel based on the time given by the synchronization timing or the time at which the articulation of the vowel is reached The organ operation command time may be determined. Specifically, if the time to reach the articulation of the vowel is smaller than the time to reach the articulation of the vowel if the time to reach the articulation of the vowel is greater, On the basis of this, the articulator organ operation command time for the succeeding phoneme of the vowel is determined. In this way, occurrence of an unnatural articulation motion can be prevented.

【0021】また、上記各モーラの同期タイミングを決
定するのに、言語解析結果に基づいて統計的手法によっ
て推定するとよい。この場合、文章内の微妙な発話速度
変化を統計的手法により推定することになるため、より
人間らしく、聞き取りやすい音声を合成できる。ここ
で、上記統計手法として例えば数量化1類を適用可能で
あり、上記言語解析において(例えばアクセント句等
の)発話区分毎に当該発話区分に含まれる内容語(自立
語)の品詞情報を求め、当該発話区分毎のモーラ数及び
品詞情報に基づいて発話区分単位で統計的手法によって
各モーラの同期タイミングを推定するとよい。
In order to determine the synchronization timing of each mora, it is preferable to estimate the synchronization timing by a statistical method based on the result of language analysis. In this case, a subtle change in utterance speed in the text is estimated by a statistical method, so that a human-like voice that is easy to hear can be synthesized. Here, for example, quantification class 1 can be applied as the statistical method. In the linguistic analysis, for each utterance segment (for example, an accent phrase), the part of speech information of the content word (independent word) included in the utterance segment is obtained. It is preferable to estimate the synchronization timing of each mora by a statistical method on a per speech segment basis based on the number of mora and the part of speech information for each speech segment.

【0022】また、上記調音モデルには、顎、唇、及び
舌の各調音器官の動きをモデル化した調音モデルを適用
するとよく、調音モデルで示される調音器官の動きを、
臨界制動2次線形系のステップ応答関数で表すとよい。
このような調音モデルでは、モデルが簡素化されるため
演算量が少なくて済む。
The articulatory model preferably employs an articulatory model that models the movements of the articulators of the jaw, lips, and tongue.
It may be represented by a step response function of a critical damping quadratic linear system.
In such an articulation model, the model is simplified, so that the amount of calculation is small.

【0023】また、調音モデルパラメータとして、音韻
別に、その音韻が発声されていると認められる調音器官
の状態である許容範囲を割り当て、この許容範囲をもと
に、音韻間の境界を決定して音韻の継続時間長を求める
ならば、人間が通常に発声する際の顎、唇、及び舌の各
調音器官の比較的あいまいな動きが反映されるので、よ
り一層人間らしく自然で、聞き取りやすく長時間聞いて
いても疲れない音声を合成することが可能となる。この
許容範囲に入る時刻は該当する音韻の調音に達する時刻
であり、許容範囲から抜ける時刻は該当する音韻の調音
から抜け出す時刻であるといえる。許容範囲に基づく音
韻間の境界の決定方法としては、例えば、いずれかの調
音器官の状態が最初に音韻(当該音韻)の対応する許容
範囲を抜けた時刻(tout )と全ての調音器官の状態が
後の音韻(後続音韻)の対応する許容範囲に入った時刻
とで挟まれた区間の中間時点とする方法が適用可能(当
該音韻と後続音韻が共に母音の場合)である。この他、
いずれかの調音器官の状態が最初に当該音韻の対応する
許容範囲を抜けた時刻(tout )を音韻間の境界とする
とか(当該音韻が子音の場合)、全ての調音器官の状態
が後続音韻の対応する許容範囲に入った時刻(tin)を
音韻間の境界とする(当該音韻が母音で後続音韻が子音
の場合)ことも可能である。
Further, as the articulatory model parameters, an allowable range, which is the state of the articulatory organ in which the phoneme is recognized as being uttered, is assigned for each phoneme, and a boundary between the phonemes is determined based on the allowable range. Determining the duration of a phoneme reflects the relatively ambiguous movements of the articulators of the jaw, lips, and tongue when a human utters normally, making it more human-like, natural, and easier to hear. It is possible to synthesize a voice that does not get tired even when listening. The time in the allowable range is the time to reach the articulation of the corresponding phoneme, and the time out of the allowable range is the time to exit from the articulation of the corresponding phoneme. As a method of determining the boundary between phonemes based on the permissible range, for example, the time (tot) at which the state of any articulator first falls out of the corresponding permissible range of the phoneme (the relevant phoneme) and the state of all articulators Is an intermediate time point in a section sandwiched by a time point within a corresponding allowable range of a subsequent phoneme (subsequent phoneme) (when both the phoneme and the subsequent phoneme are vowels). In addition,
The time (tout) at which the state of any of the articulators first goes out of the corresponding permissible range of the corresponding phoneme is defined as the boundary between the phonemes (when the phoneme is a consonant), or the state of all the articulators is the succeeding phoneme. Can be used as a boundary between phonemes (when the phoneme is a vowel and the subsequent phoneme is a consonant).

【0024】また、実音声をもとに作成された、上記調
音モデルを制御するための音韻別の調音モデルパラメー
タからなる調音モデルパラメータセットを保持してお
き、音声合成の際に、調音モデルパラメータのセットに
基づいて調音モデルを制御するならば、より人間らしい
合成音声とすることができ、更に当該パラメータの作成
に用いられた音声を発声した話者の口調を真似ることが
可能となる。
Further, an articulation model parameter set composed of articulation model parameters for each phoneme for controlling the articulation model, which is created based on the actual speech, is held. If the articulatory model is controlled based on the set, the synthesized speech can be made more human, and it is possible to imitate the tone of the speaker who uttered the speech used to create the parameter.

【0025】特に、異なる話者の音声をもとに作成され
た複数の調音モデルパラメータセットを保持し、音声合
成の際に、上記複数セットの調音モデルパラメータの中
から1つの調音モデルパラメータのセットを選択し、こ
の選択した調音モデルパラメータのセットに基づいて調
音モデルを制御するならば、合成音声の口調を種々変え
ることが可能となる。
In particular, a plurality of articulation model parameter sets created based on voices of different speakers are held, and one set of articulation model parameters is selected from the plurality of articulation model parameters during speech synthesis. Is selected and the tone model is controlled based on the selected set of tone model parameters, the tone of the synthesized speech can be variously changed.

【0026】また、上記数量化1類の統計手法を適用す
る場合に、異なる話者の音声をもとに作成された複数の
カテゴリ数量セットを保持し、各モーラの同期タイミン
グを推定する際に、上記複数セットのカテゴリ数量の中
から1つのカテゴリ数量セットを選択して利用するなら
ば、文章内の微妙な発話速度変化を種々変えることがで
きる。
Further, when the above-mentioned statistical method of quantification type 1 is applied, a plurality of category quantity sets created based on the voices of different speakers are held, and when estimating the synchronization timing of each mora, If one category quantity set is selected from the plurality of category quantity sets and used, subtle changes in utterance speed in the text can be variously changed.

【0027】[0027]

【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。図1は本発明の一実施形態に
係る音声の規則合成装置の概略構成を示すブロック図で
ある。この音声規則合成装置(以下、音声合成装置と称
する)は、例えばパーソナルコンピュータ等の情報処理
装置上で、CD−ROM、フロッピーディスク、メモリ
カード等の記録媒体、或いはネットワーク等の通信媒体
により供給される専用のソフトウェア(文音声変換ソフ
トウェア)を実行することにより実現されるもので、文
音声変換(TTS)処理機能、即ちテキストから音声を
生成する文音声変換処理(文音声合成処理)機能を有し
ており、その機能構成は、大別して言語処理部101、
音声合成部102とに分けられる。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of a speech rule synthesizing apparatus according to an embodiment of the present invention. The speech rule synthesizer (hereinafter referred to as a speech synthesizer) is supplied on a recording medium such as a CD-ROM, a floppy disk, a memory card, or a communication medium such as a network on an information processing apparatus such as a personal computer. This is realized by executing dedicated software (sentence-to-speech conversion software), and has a sentence-to-speech conversion (TTS) processing function, that is, a sentence-to-speech conversion processing (sentence-to-speech synthesis processing) function of generating speech from text. The functional configuration is roughly divided into the language processing unit 101,
It is divided into a speech synthesis unit 102.

【0028】言語処理部101は、入力文、例えば漢字
かな混じり文を解析して読み情報とアクセント情報を生
成する処理と、これら情報に基づき音韻記号系列及びア
クセント情報が記述された音声記号列を生成する処理を
司る。
The language processing unit 101 analyzes input sentences such as kanji and kana mixed sentences to generate reading information and accent information, and converts a phonetic symbol sequence and accent information based on these information into a phonetic symbol sequence. It controls the generation process.

【0029】音声合成部102は、言語処理部101の
出力である音声記号列をもとに音声を生成する処理を司
る。さて、図1の音声合成装置において、文音声変換
(読み上げ)の対象となるテキスト(ここでは日本語文
書)はテキストファイル103として保存されている。
本装置では、文音声変換ソフトウェアに従い、当該ファ
イル103から漢字かな混じり文をl文ずつ読み出し
て、言語処理部101及び音声合成部102により以下
に述べる文音声変換処理を行い、音声を合成する。
The speech synthesizing unit 102 controls a process of generating a speech based on a speech symbol string output from the language processing unit 101. Now, in the speech synthesizer of FIG. 1, a text (here, a Japanese document) to be subjected to sentence-to-speech conversion (reading) is stored as a text file 103.
In this apparatus, according to the sentence-to-speech conversion software, a sentence mixed with kanji and kana is read out one by one from the file 103, and the sentence-to-speech conversion process described below is performed by the language processing unit 101 and the speech synthesis unit 102 to synthesize speech.

【0030】まず、テキストファイル103から読み出
された漢字かな混じり文(入力文)は、言語処理部10
1内の言語解析処理部104に入力される。言語解析処
理部104は、入力される漢字かな混じり文に対して形
態素解析を行い、読み情報とアクセント情報を生成す
る。形態素解析とは、与えられた文の中で、どの文字列
が語句を構成しているか、そしてその語の構造がどのよ
うなものかを解析する作業である。
First, a sentence (input sentence) mixed with kanji or kana read from the text file 103 is input to the language processing unit 10.
1 is input to the language analysis processing unit 104. The linguistic analysis processing unit 104 performs a morphological analysis on the input kanji-kana mixed sentence to generate reading information and accent information. Morphological analysis is an operation of analyzing which character string forms a phrase in a given sentence, and what the structure of the word is.

【0031】そのために、言語解析処理部104は、文
の最小構成要素である「形態素」を見出し語に持つ形態
素辞書105と形態素間の接続規則が登録されている接
続規則ファイル106を利用する。即ち言語解析処理部
104は、入力文と形態素辞書105とを照合すること
で得られる全ての形態素系列候補を求め、その中から、
接続規則ファイル106を参照して文法的に前後に接続
できる組み合わせを出力する。形態素辞書105には、
解析時に用いられる文法情報と共に、形態素の読み並び
にアクセントの型が登録されている。このため、形態素
解析により形態素が定まれば、同時に読みとアクセント
型も与えることができる。
For this purpose, the linguistic analysis processing unit 104 uses a morpheme dictionary 105 having "morpheme", which is the minimum component of a sentence, as a headword and a connection rule file 106 in which connection rules between morphemes are registered. That is, the linguistic analysis processing unit 104 obtains all morpheme sequence candidates obtained by collating the input sentence with the morpheme dictionary 105, and from among them,
A combination that can be grammatically connected back and forth with reference to the connection rule file 106 is output. In the morphological dictionary 105,
Along with grammatical information used at the time of analysis, morpheme readings and accent types are registered. For this reason, if a morpheme is determined by morphological analysis, reading and accent type can be given at the same time.

【0032】例えば、「公園へ行って本を読みます」と
いう文に対して形態素解析を行うと、 /公園/へ/行って/本/を/読み/ます/。 と形態素に分割される。
For example, if a morphological analysis is performed on the sentence “go to the park and read the book”, the following is obtained: / park / go / go / book / read / read /. And morphemes.

【0033】各形態素に読みとアクセント型が与えら
れ、 /コウエン/エ/イッテ/ホ^ン/ヲ/ヨミ/マ^ス/ となる。ここで「^」の入っている形態素は、その直前
のモーラでピッチが高く、その直後のモーラではピッチ
が落ちるアクセントであることを意床する。また「^」
がない場合は、平板型のアクセントであることを意味す
る。
Each morpheme is given a reading and an accent type, and becomes / Kouen / D / Itte / Phon / ヲ / Yomi / Mas /. Here, the morpheme containing “^” has a high pitch in the mora immediately before it, and implies that the pitch is dropped in the mora immediately after that. Also "^"
If there is no, it means that it is a flat accent.

【0034】ところで、人間が文章を読むときには、こ
のような形態素単位でアクセントを付けて読むことはせ
ず、幾つかの形態素を一まとめにして、そのまとまり毎
にアクセントを付けて読んでいる。
By the way, when a human reads a sentence, he does not read with such an accent in morpheme units, but reads several morphemes together and adds an accent for each unit.

【0035】そこで、このようなことを考慮して、言語
解析処理部104では更に、1つのアクセント句(アク
セントを与える単位)で形態素をまとめると同時に、ま
とめたことによるアクセントの移動も推定する。これに
加えて言語解析処理部104は、母音の無声化や読み上
げの際のポーズ(息継ぎ)等の情報も付加する。これに
より、上記の例では、最終的に次のような音声記号列が
生成される。
In view of the above, the linguistic analysis processing unit 104 further summarizes the morphemes with one accent phrase (accent giving unit) and also estimates the movement of the accent due to the summary. In addition to this, the linguistic analysis processing unit 104 also adds information such as devoicing of vowels and pauses when breathing out. Thus, in the above example, the following phonetic symbol sequence is finally generated.

【0036】 /コーエンエ/イッテ./ホ^ンオ/ヨミマ^(ス)/ ここで、ピリオド「.」はポーズを、「( )」は母音
が無声化した音節であることを表わす。
/ Cohenue / Itte. Here, a period “.” Indicates a pause, and “()” indicates a syllable in which a vowel is unvoiced.

【0037】言語解析処理部104は、このような音声
記号列を出力すると同時に、それぞれのアクセント句に
含まれる内容語(自立語)の品詞情報と、品詞の種類に
応じて活用形を出力する。上記の例では、 /普通名詞(公園)/動詞(行く)/普通名詞(本)/
動詞(読む)/ が出力される。
The linguistic analysis processing unit 104 outputs such a speech symbol string, and at the same time, outputs part-of-speech information of a content word (independent word) included in each accent phrase and an inflected form according to the type of part-of-speech. . In the above example, / common noun (park) / verb (go) / common noun (book) /
The verb (read) / is output.

【0038】さて、言語処理部101内の言語解析処理
部104により音声記号列及び上記品詞情報等が出力さ
れると、音声合成部102内の音韻継続時間長計算処理
部107が起動される。
When the speech symbol string and the part of speech information are output by the language analysis processing unit 104 in the language processing unit 101, the phoneme duration calculation processing unit 107 in the speech synthesis unit 102 is activated.

【0039】音韻継続時間長計算処理部107は、言語
解析処理部104で生成した音声記号列中の音韻情報に
従って、入力文に含まれる各モーラの子音部並びに母音
部の継続時間長を決定する。この音韻継続時間長処理部
107での継続時間長の決定処理の概略は以下の通りで
ある。
The phoneme duration calculation processing unit 107 determines the duration of the consonant part and vowel part of each mora included in the input sentence according to the phoneme information in the speech symbol string generated by the language analysis processing unit 104. . The outline of the processing for determining the duration in the phoneme duration processing unit 107 is as follows.

【0040】既に述べたように、人間の音声の生成過程
において、調音器官の動きの物理的制約が音韻継続時間
に影響を及ぼす。日本語音声においては、この調音器官
の制約が、拍の等時性という日本語特有の時間構造の特
徴を乱す原因となっている。しかしながら、実際には等
時性は乱されているが、逆にそれが音声に人間らしさを
与えているのである。
As described above, in the process of generating human speech, physical restrictions on the movement of articulators affect the duration of phonemes. In Japanese speech, this restriction of articulatory organs disturbs the isochronicity of the beat, which is a characteristic of the time structure unique to Japanese. However, in practice, the isochronism is disturbed, but on the contrary, it gives the voice a humanity.

【0041】そこで、複数の調音器官の状態をパラメー
タとする1つの調音モデルを考え、合成すべき音韻列に
従ってモデルを制御し、その制御結果に基づいて音韻継
続時間長を決定する。
Therefore, one articulatory model is used in which the state of a plurality of articulators is used as a parameter, the model is controlled in accordance with the phoneme sequence to be synthesized, and the phoneme duration is determined based on the control result.

【0042】調音モデルに関しては、古くは藤村−Coke
r の調音モデルなど、様々なモデルが提案されている。
しかし、近年のこれらのモデルの多くは、調音器官の動
きと音声の音響的な性質との関連付けを目的としてお
り、調音器官の制御機構をシミュレートし、声道の音響
特性を近似するために、モデルの構造や制御が複雑であ
る。
As for the articulatory model, Fujimura-Coke
Various models have been proposed, including the articulation model for r.
However, many of these models in recent years aim to correlate articulatory movements with the acoustic properties of speech, and simulate articulatory control mechanisms to approximate the acoustic properties of the vocal tract. , The structure and control of the model are complicated.

【0043】音韻継続時間長を決定するために必要とな
るモデルは、調音器官の物理的制約による音韻継続時間
長への影響が表現できればよいから、単純なモデルで十
分である。
A simple model is sufficient as a model required to determine the duration of the phoneme, as long as the effect of the physical constraints of the articulator on the duration of the phoneme can be expressed.

【0044】そこで本実施形態では、実際の発話におい
てその動きに物理的制約を受けやすいと思われる4つの
調音器官を選択し、これらによって音韻継続時間制御の
ための調音モデルを構成する。選択した調音器官は、図
3に示した顎の開き(J)、唇の丸め(L)、前舌の位
置(FT)、後舌の位置(BT)である。
Therefore, in the present embodiment, four articulatory organs that are likely to be physically constrained in their movements in an actual utterance are selected, and an articulatory model for phoneme duration control is formed by these. The selected articulators are the jaw opening (J), the lip rounding (L), the front tongue position (FT), and the rear tongue position (BT) shown in FIG.

【0045】そして、調音器官の動きを模擬するため
に、異なる調音様式で発音される音韻、即ち異音は全て
区別する。例えば、撥音「ん」には、図4に示すよう
に、後続する音韻によって幾つかの異なる調音様式を持
つ。
Then, in order to simulate the movement of the articulatory organs, phonemes pronounced in different articulation styles, that is, all abnormal sounds are distinguished. For example, as shown in FIG. 4, the sound-repelling “n” has several different articulation styles depending on the subsequent phonemes.

【0046】このような音声学的な分類に基づいて、日
本語音声に関しては、母音については無声化母音、鼻母
音までを、子音は口蓋化子音までの分類を行う。前述の
「公園へ行って本を読みます」という文の入力例に従え
ば、言語処理部101内の言語解析処理部104から入
力される音声記号列に含まれる音韻系列のそれぞれの音
韻は、まず図5(a)に示すような系列(第1の音韻情
報)で表される。この図5(a)において、/:/は長
音を、/N/は撥音、/Q/は促音を表す。
Based on such phonetic classification, Japanese voices are classified into unvoiced vowels and nasal vowels for vowels and palate consonants for consonants. According to the input example of the sentence “go to the park and read the book”, each phoneme of the phoneme sequence included in the phonetic symbol sequence input from the language analysis processing unit 104 in the language processing unit 101 is: First, it is represented by a sequence (first phoneme information) as shown in FIG. In FIG. 5A, /: / indicates a long sound, / N / indicates a sound repellent, and / Q / indicates a prompting sound.

【0047】更に、それぞれの音韻は、その音韻環境か
ら、音韻継続時間長計算処理部107(内の調音モデル
時間変化決定処理部107b)により、上記した詳細分
類の音韻系列、つまり異音レベルの音韻系列(第2の音
韻情報)に図5(b)のように変換される。なお、この
異音レベルの音韻系列への変換は、音韻継続時間長計算
処理部107側でなく、言語処理部101側(例えば言
語解析処理部104)で行われるものであっても構わな
い。
Further, each phoneme is converted from its phoneme environment by the phoneme duration calculation processing section 107 (in the articulation model time change determination processing section 107b), ie, the phoneme sequence of the above detailed classification, that is, the abnormal sound level. It is converted into a phoneme sequence (second phoneme information) as shown in FIG. Note that the conversion of the abnormal sound level into the phoneme sequence may be performed by the language processing unit 101 (for example, the language analysis processing unit 104) instead of the phoneme duration calculation processing unit 107.

【0048】本実施形態において、個々の音韻phに
は、各調音器官k(kは、J,L,FT,BT)毎の固
有状態Ainh(k,ph) と調音器官kの範囲(以下、許
容範囲と称する)の上限Amax(k,ph) 及び下限Ami
n(k,ph) との3×4(=12)個と、その音韻ph
の最小継続時間長Dmin(ph) の計13個の調音モデル
のパラメータが割り当てられる。
In this embodiment, each phoneme ph has a unique state Ainh (k, ph) for each articulator k (k is J, L, FT, BT) and a range of the articulator k (hereinafter, referred to as “k”). Upper limit Amax (k, ph) and lower limit Ami
3 × 4 (= 12) n (k, ph) and its phoneme ph
Are assigned to the parameters of a total of thirteen articulation models having the minimum duration Dmin (ph).

【0049】1つの音韻phを考えた場合、その音韻を
発声するのに代表的な調音モデルの各調音器官kの状態
が固有状態Ainh(k,ph) である。一方、この音韻が
発声されていると認められる調音器官の状態は、固有状
態における1点ではなく、ある程度の許容範囲がある。
そこで、各調音器官kのその音韻の調音として許容でき
る範囲を、上記のようにAmax(k,ph) 及びAmin
(k,ph) で表す。なお本実施形態では、Ainh(k,
ph) ,Amax(k,ph) ,Amin(k,ph) は、調音
器官の可動範囲を0〜1として正規化されている。例え
ば、音韻[i]に対するパラメータ値は図6のようにな
っている。
When one phoneme ph is considered, the state of each articulatory organ k of a typical articulatory model for uttering the phoneme is the eigenstate Ainh (k, ph). On the other hand, the state of the articulatory organ in which this phoneme is recognized as being uttered is not one point in the eigenstate but has a certain allowable range.
Therefore, the range of each articulator k that can be accepted as the articulation of the phoneme is defined as Amax (k, ph) and Amin as described above.
Expressed as (k, ph). In this embodiment, Ainh (k,
ph), Amax (k, ph) and Amin (k, ph) are normalized with the movable range of the articulator being 0 to 1. For example, parameter values for phoneme [i] are as shown in FIG.

【0050】一方、個々の調音器官kの動きを表す時系
列M(k,t)は、合成すべき音韻系列をもとに次式
(1)によって計算される。 ここで、ΣRi(k,t) は、音韻系列の音韻数をi=1
〜i=NのN個であるとすると、Ri(k,t) のi=1
〜i=N−1までの総和である。
On the other hand, a time series M (k, t) representing the movement of each articulator k is calculated by the following equation (1) based on the phoneme series to be synthesized. Here, ΣRi (k, t) represents the number of phonemes in the phoneme series as i = 1.
If i = N, i = 1 of Ri (k, t)
Ii = N−1.

【0051】またRi(k,t) は、モデルをi番目の当
該音韻phi から後続音韻phi+1(i+1番目の音
韻)へ移行させる開始時刻をti とすると、t<ti の
範囲では Ri(k,t) =0 で表され、t≧ti の範囲では Ri(k,t) ={Ainh(k,phi+1)−Ainh(k,ph
i)}S(t−ti ) で表される。
Also, Ri (k, t) is defined as Ri (k, t) in the range of t <ti, assuming that the start time of transition of the model from the ith phoneme phi to the succeeding phoneme phi + 1 (i + 1th phoneme) is ti. k, t) = 0, and Ri (k, t) = {Ainh (k, phi + 1) −Ainh (k, ph) in the range of t ≧ ti.
i) It is represented by} S (t-ti).

【0052】また、S(t)には、臨界制動2次線形系
のステップ応答、即ち S(t)=1−(1+at)e-at ……(2) を用い近似する。ここで、aは調音器官kの固有角周波
数αk を表す。固有角周波数は調音器官によって異な
り、動きの速い調音器官ほど大きな値をとる。
S (t) is approximated using the step response of the critical damping quadratic linear system, ie, S (t) = 1- (1 + at) e- at (2). Here, a represents the natural angular frequency αk of the articulator k. The natural angular frequency differs depending on the articulator, and the higher the speed of the articulator, the greater the value.

【0053】ところで、既に説明したように、拍同期時
刻は、日本語の等時性に基づいて与えられる等しい時間
間隔Tの複数の時刻である。この時間間隔T、つまり拍
間隔Tを調節することで、合成音声の発話速度を変化さ
せることができる。従来技術の説明の中では、拍同期時
刻は子音から母音へのわたり部であり、図13において
記号△で示される位置であった。しかし、宇都宮大学の
渡辺らは、「音声生成過程を考慮した音声の時間構造の
検討」(平成6年度秋季日本音響学会講演論文集、2-5-
19,p.313-314)の中で、調音現象の開始時間つまり先行
する調音運動から後続する調音運動への遷移開始時刻を
基準にする方が、従来の子音から母音へのわたり部を基
準とするよりも、拍の等時性をうまく説明できるとして
いる。したがって、このような人間が発声した音声の観
測結果に基づけば、本実施例の調音モデルにおいて各調
音器官の当該音韻から後続音韻へ移行開始時刻ti を拍
同期時刻に合わせるのが適当である。
As described above, the beat synchronization time is a plurality of times at equal time intervals T given based on Japanese isochronism. By adjusting the time interval T, that is, the beat interval T, the speech speed of the synthesized voice can be changed. In the description of the related art, the beat synchronization time is a portion extending from a consonant to a vowel, and is a position indicated by a symbol に お い て in FIG. However, Watanabe et al. Of Utsunomiya University, "Examination of time structure of speech considering speech generation process" (Abstracts of the 6th Autumn Meeting of the Acoustical Society of Japan, 2-5-
19, pp. 313-314), the reference to the start time of the articulation phenomena, that is, the transition start time from the preceding articulation movement to the following articulation movement, is based on the conventional section from the consonant to the vowel. Rather than saying, it can better explain the isochronism of the beat. Therefore, based on the observation result of the voice uttered by the human, it is appropriate to adjust the transition start time ti from the corresponding phoneme of each articulatory organ to the subsequent phoneme to the beat synchronization time in the articulatory model of the present embodiment.

【0054】そこで、上記ti は次のようにして求めら
れる。まず、先行するi−1番目の音韻phi-1 から上
記式に基づいて各調音器官を動かすことにより調音モデ
ルをi番目の当該音韻phi へ移行させる際、全ての調
音器官(J,L,FT,BT)が当該音韻phi のそれ
ぞれの許容範囲(調音許容範囲)に入る時刻を求め、更
に、当該音韻phi の最小継続時間長Dmin(phi)だけ
進めた(加算した)時刻tready を求める。当該音韻p
hi が子音の場合には、この時刻tready を後続音韻p
hi+1 へのモデルの移行開始時刻ti とし、当該音韻p
hi が母音の場合には、この時刻tready と拍同期時刻
とを比較し大きい方をti とする。即ち、通常は拍同期
時刻をti とするが、時刻readyが拍同期時刻を越えて
しまう場合、つまり拍同期時刻までに調音器官が当該音
韻(母音)の調音許容範囲に達しない場合は、調音器官
が当該音韻(母音)の調音許容範囲に達するまで後続音
韻へのモデルの移行開始時刻を遅らせることによって、
不自然な調音運動が起こらないように配慮している。
Therefore, the above ti is obtained as follows. First, when the articulatory model is shifted to the i-th phoneme phi by moving each articulator from the preceding (i-1) th phoneme phi-1 based on the above equation, all articulators (J, L, FT) are used. , BT) fall within the respective allowable ranges (articulation allowable ranges) of the phoneme phi, and further, a time tready advanced (added) by the minimum duration Dmin (phi) of the phoneme phi. The phoneme p
If hi is a consonant, this time tready is
The transfer start time ti of the model to hi + 1 is defined as the phoneme p
When hi is a vowel, the time tready is compared with the beat synchronization time, and the larger one is defined as ti. That is, although the beat synchronization time is usually set to ti, if the time ready exceeds the beat synchronization time, that is, if the articulator does not reach the articulation allowable range of the phoneme (vowel) by the beat synchronization time, the articulation is adjusted. By delaying the start of the transition of the model to the subsequent phoneme until the organ reaches the articulation tolerance of the phoneme (vowel),
Care is taken to prevent unnatural articulation.

【0055】以上の規則に基づいて制御された各調音器
官J,L,FT,BT(の動きをモデル化した調音モデ
ルの状態)の時間変化の例を図7に示す。このように、
調音器官の動きが時間軸に対する連続量として表わされ
る。
FIG. 7 shows an example of a temporal change of the articulatory organs J, L, FT, and BT (the state of the articulatory model in which the movement of the articulators J, L, FT, and BT) is controlled based on the above rules. in this way,
The movement of the articulator is represented as a continuous quantity with respect to the time axis.

【0056】一方、拍間隔Tは次のようにして求められ
る。従来例においては、「人間はモーラ数が多いほど早
く読む」という経験則に基づき、実音声の観測により得
られたアクセント句内モーラ数と拍間隔Tの対応を記し
たテーブルが予め用意されており、読み上げようとする
アクセント句のモーラ数からテーブルを参照することで
拍間隔(基準時刻である拍同期時刻の間隔)を得てい
た。しかし、実際の人間の発話においては、アクセント
句といった発話区分内に含まれるモーラ数だけでなく、
品詞の種類など様々な要因が音韻の継続時間長に影響を
及ぼしていることが、例えば、ATR自動翻訳電話研究
所の海木らによる「文音声における音韻継続時間長の設
定」(電子情報通信学会報告SP90-2,p9-16)などで報告
されている。
On the other hand, the beat interval T is obtained as follows. In the conventional example, based on an empirical rule that "humans read the more the number of mora, the faster the number of mora", there is prepared in advance a table describing the correspondence between the number of mora in the accent phrase obtained by observing the actual voice and the beat interval T. In addition, the beat interval (interval of the beat synchronization time as the reference time) is obtained by referring to the table from the number of mora of the accent phrase to be read out. However, in actual human utterances, not only the number of mora included in utterance segments such as accent phrases,
The fact that various factors such as the type of part-of-speech affect the duration of phonemes is described in, for example, "Setting the duration of phonemes in sentence speech" by Miki et al. It has been reported in academic conference reports SP90-2, p9-16).

【0057】このような報告に基づき、本実施形態で
は、拍間隔推定処理部108bにおいて、発話区分内モ
ーラ数と共に言語解析処理部104が生成したアクセン
ト句毎の内容語(自立語)の品詞情報を利用し、拍間隔
Tを調節することにより更に高精度の音韻継続時間長の
制御を行う。
Based on such a report, in the present embodiment, in the beat interval estimation processing unit 108b, the part-of-speech information of the content word (independent word) for each accent phrase generated by the language analysis processing unit 104 together with the number of mora in the utterance segment. , And the beat interval T is adjusted to control the phoneme duration time with higher accuracy.

【0058】拍間隔Tはアクセント句内で一定として近
似し、次式 拍間隔T=a0 x0 +a1 x1 +…+aN xN +b0 y0 +b1 y1 +…+bM yM …(3) によって推定する。
The beat interval T is approximated as being constant within the accent phrase, and is estimated by the following equation: beat interval T = a0 x0 + a1 x1 + ... + aN xN + b0 y0 + b1 y1 + ... + bM yM (3)

【0059】ここで、アクセント句内モーラ数がn(但
し、n≦N+1)のとき、xn-1 =1、xi =0(i≠
n−1)となり、N+1を越えるときには、xN =1、
xi=0(i≠N)となる。アクセント句内容語の品詞
は、ここではM+1種類あり、第m(m=0,1,2,
…,M)の品詞であるとき、ym =1、yi =0(i≠
m)となる。これは、統計の分野でよく知られている数
量化1類に基づく推定方法であり、x,yはダミー変数
と呼ばれ、a,bはカテゴリ数量と呼ばれる。上記
(3)式中のカテゴリ数量a0 〜aN ,b0 〜bM のセ
ットは、拍間隔推定用カテゴリ数量メモリ108a,1
08a′に格納されている。このメモリ108a,10
8a′は、例えばメインメモリ(図示せず)に確保され
た特定領域である。なお、カテゴリ数量a0 〜aN ,b
0 〜bM の求め方については後述する。
Here, when the number of mora in the accent phrase is n (where n ≦ N + 1), xn−1 = 1 and xi = 0 (i ≠
n-1), and when exceeding N + 1, xN = 1,
xi = 0 (i ≠ N). There are M + 1 types of parts of speech of the accent phrase content word, and the m-th (m = 0, 1, 2,
.., M), ym = 1, yi = 0 (i ≠
m). This is an estimation method based on quantification class 1 well known in the field of statistics, where x and y are called dummy variables, and a and b are called categorical quantities. The set of category quantities a0 to aN and b0 to bM in the above equation (3) is stored in the beat quantity estimation category quantity memory 108a, 1.
08a '. This memory 108a, 10
8a 'is a specific area secured in, for example, a main memory (not shown). Note that the category quantities a0 to aN, b
How to obtain 0 to bM will be described later.

【0060】拍間隔推定処理部108bは、上記(3)
式に従って、アクセント句内モーラ数、アクセント句内
容語の品詞情報から、拍間隔Tをアクセント句毎に求
め、求めた拍間隔Tをもとに拍同期時刻を設定し出力す
る。
The beat interval estimation processing unit 108b performs the processing in (3) above.
According to the formula, the beat interval T is obtained for each accent phrase from the number of mora in the accent phrase and the part of speech information of the accent phrase content word, and the beat synchronization time is set and output based on the obtained beat interval T.

【0061】音韻継続時間長計算処理部107内の調音
モデル時間変化決定処理部107bは、既に述べたよう
に、拍間隔推定処理部108bが出力する拍同期時刻に
基づいて(決定される後続音韻への調音モデルの移行開
始時刻ti を用いて)、各調音器官の時系列パターンを
生成する。
As described above, the articulation model time change determination processing unit 107b in the phoneme duration calculation processing unit 107 determines the following phoneme determined based on the beat synchronization time output from the beat interval estimation processing unit 108b. Then, a time-series pattern of each articulator is generated.

【0062】続いて、音韻境界決定処理部107cが、
調音モデル時間変化決定処理部107bて生成された各
調音器官の時系列パターンをもとに音韻継続時間長を決
定する。
Subsequently, the phoneme boundary determination processing unit 107c
The phoneme duration is determined based on the time series pattern of each articulator generated by the articulatory model time change determination processing unit 107b.

【0063】調音モデルが当該音韻から後続音韻へ遷移
する場合、初めの状態では、全ての調音器官は当該音韻
の調音許容範囲内にあるが、調音モデルの状態が変化す
ると、調音器官のうちの1つが時刻tout にてその許容
範囲を抜け出る。そしてモデルの状態遷移が進むと、あ
る時刻tinにおいて全ての調音器官が後続音韻の調音許
容範囲に入る。これは、t<tout では全ての調音器官
は当該音韻の調音許容範囲にあり、t≧tinでは全ての
調音器官は後続音韻の調音許容範囲内にあることを意味
する。
When the articulatory model transitions from the phoneme to the following phoneme, in the initial state, all articulatory organs are within the allowable articulatory range of the phoneme, but when the state of the articulatory model changes, any of the articulatory organs changes. One exits its tolerance at time tout. Then, as the state transition of the model progresses, at a certain time tin, all articulatory organs enter the articulation allowable range of the succeeding phoneme. This means that at t <tout, all articulators are within the allowable articulation range of the phoneme, and at t ≧ tin, all articulators are within the allowable articulation range of the subsequent phoneme.

【0064】ここでは、当該音韻が子音の場合、つまり
当該音韻が子音で後続音韻が母音の場合には、tout を
当該音韻と後続音韻の境界(子音−母音間の音韻境界)
とし、当該音韻が母音で後続音韻が子音の場合には、t
inを当該音韻と後続音韻の境界(母音−子音間の音韻境
界)とする。また、当該音韻及び後続音韻が共に母音の
場合には、(tout +tin)/2なる時刻を当該音韻と
後続音韻の境界(母音−母音間の音韻境界)とする。つ
まり、子音−母音間の境界は、いずれかの調音器官が最
初に子音(当該音韻)の調音許容範囲を抜け出た時刻と
し、母音−子音間の境界は、全ての調音器官が子音(後
続音韻)の調音許容範囲に入った時刻とする。また、母
音−母音間の境界は、いずれかの調音器官が最初に当該
音韻の調音許容範囲を抜け出た時刻と、全ての調音器官
が後続音韻の許容範囲に入った時刻とで挟まれた区間の
中間時点とする。
Here, when the phoneme is a consonant, that is, when the phoneme is a consonant and the subsequent phoneme is a vowel, tout is defined as the boundary between the phoneme and the subsequent phoneme (phonemic boundary between the consonant and the vowel).
When the phoneme is a vowel and the subsequent phoneme is a consonant, t
Let in be the boundary between the phoneme and the subsequent phoneme (phonemic boundary between vowel and consonant). When both the phoneme and the subsequent phoneme are vowels, the time (tot + tin) / 2 is set as a boundary between the phoneme and the subsequent phoneme (a phoneme boundary between a vowel and a vowel). In other words, the boundary between a consonant and a vowel is the time when one of the articulators first escapes from the articulation allowable range of the consonant (the relevant phoneme). ) Is the time when it enters the articulation allowable range. The boundary between vowels and vowels is defined as a section between the time when any articulator first exits the articulation allowable range of the phoneme and the time when all articulators enter the allowable range of the succeeding phoneme. It is assumed to be an intermediate time point.

【0065】以上の手順で全ての音韻境界を決定し、隣
り合う境界の時間差から、与えられた音韻系列に含まれ
る全ての音韻の時間的な長さ、即ち音韻継続時間長を決
定する。
With the above procedure, all phoneme boundaries are determined, and the time length of all phonemes included in a given phoneme sequence, that is, the phoneme duration is determined from the time difference between adjacent boundaries.

【0066】ところで、上記のようにして調音モデルを
制御するためには、音韻ph毎に割り当てられた各調音
器官kの固有状態Ainh(k,ph) 、その許容範囲Ama
x(k,ph) 及びAmin(k,ph) と、最小継続時間長
Dmin(ph) と、上記(2)式の調音器官k毎に決まる
固有角周波数a(=αk )と、上記(3)式中のカテゴ
リ数量a0 〜aN ,b0 〜bM を適切に設定する必要が
ある。そのため本実施形態では、実際に人間が発生した
大量の音量データを用いて最適化(学習)することによ
り、予めこれらの値を設定するようにしている。
Incidentally, in order to control the articulatory model as described above, the unique state Ainh (k, ph) of each articulatory organ k assigned to each phoneme ph and its allowable range Ama
x (k, ph) and Amin (k, ph), the minimum duration Dmin (ph), the natural angular frequency a (= αk) determined for each articulator k in the above equation (2), and the above (3) It is necessary to appropriately set the category quantities a0 to aN and b0 to bM in the equation. Therefore, in the present embodiment, these values are set in advance by optimizing (learning) using a large amount of volume data actually generated by a human.

【0067】この個々の音韻の調音モデルの各パラメー
タ値を大量の音声データを用いて最適化する方法につい
て、図8を参照して説明する。図8において、音声デー
タベース130には、人間が発声した音声をディジタル
化してファイルにしたもので、音声の内容を示す(音韻
情報としての)音韻ラベルと音韻境界の情報、及び発声
内容を言語解析して得られる各アクセント句内容語の品
詞情報が一緒に収められている。
A method of optimizing each parameter value of the individual phonemic articulation model using a large amount of voice data will be described with reference to FIG. In FIG. 8, a voice database 130 is a file obtained by digitizing a voice uttered by a human, and includes a phonological label (as phonological information) indicating the content of the voice, phonological boundary information, and linguistic analysis of the uttered content. The part-of-speech information of each accent phrase content word obtained as a result is stored together.

【0068】実音声音韻継続時間長計算処理部131
は、音声データベース130より音韻ラベルと音韻境界
位置(時刻)の情報を取り出し、隣り合う音韻境界位置
(時刻)の差分をとることによって、各音韻の実音声に
おける継続時間長を計算する。
Real speech phoneme duration calculation processing section 131
Extracts the information of the phoneme label and the phoneme boundary position (time) from the speech database 130, and calculates the difference between adjacent phoneme boundary positions (time) to calculate the duration of each phoneme in real speech.

【0069】音韻継続時間長推定処理部132は前記し
た図1中の音韻継続時間長計算処理部107で適用する
手法と同一手法による処理を行うもので、音声データベ
ース130に含まれる音韻ラベル系列を入力として、音
韻の継続時間長を推定する。音韻継続時間長計算処理部
107と異なるのは、内部で最適な拍間隔を自動設定
し、出力する点である。
The phoneme duration estimation processing section 132 performs processing by the same method as that applied in the above-described phoneme duration calculation processing section 107 in FIG. As an input, the duration of the phoneme is estimated. The difference from the phoneme duration calculation processing unit 107 is that an optimal beat interval is automatically set internally and output.

【0070】時間長比較部133は、実音声音韻継続時
間長計算処理部131により求められた実音声の音韻継
続時間長と、音韻継続時間長推定処理部132により推
定された音韻継続時間長とを比較して、継続時間長の推
定誤差を計算する。本実施形態では、この推定誤差とし
て、音声データベース130に含まれる全音韻の2乗誤
差の和を全音韻数で割った平均2乗誤差を採用してい
る。
The time length comparing unit 133 calculates the phoneme duration of the real speech obtained by the real speech phoneme duration calculation processing unit 131 and the phoneme duration estimated by the phoneme duration estimation processing unit 132. Are compared to calculate the estimation error of the duration. In the present embodiment, an average square error obtained by dividing the sum of square errors of all phonemes included in the voice database 130 by the number of all phonemes is used as the estimation error.

【0071】パラメータ変更部134は、時間長比較部
133により求められた継続時間長の推定誤差が小さく
なるように、音韻別調音モデルパラメータメモリ135
の内容である、各音韻毎の調音モデルパラメータの値を
変更する。
The parameter changing unit 134 controls the phoneme-specific articulation model parameter memory 135 so that the estimation error of the duration time obtained by the time length comparing unit 133 is reduced.
The value of the articulatory model parameter for each phoneme is changed.

【0072】このようなフィードバック制御を繰り返す
ことにより、継続時間長の推定誤差を最小化する音韻別
の調音モデルパラメータセットを、音韻別調音モデルパ
ラメータメモリ135内に得ることができる。
By repeating such feedback control, an articulatory model parameter set for each phoneme that minimizes the estimation error of the duration can be obtained in the phoneme-based articulatory model parameter memory 135.

【0073】一方、カテゴリ数量計算処理部136は、
推定誤差を最小化する音韻別の調音モデルパラメータを
得た際の拍間隔と、対応する音声データベース130中
のアクセント句の内容語品詞情報とから、カテゴリ数量
a0 〜aN ,b0 〜bM を算出する。ここでカテゴリ数
量の算出に当たっては、林知己監修、駒沢勉著「数量化
理論とデータ処理」(朝倉書店)等に記されている一般
的な手法を利用することができる。算出したカテゴリ数
量は、拍間隔推定用カテゴリ数量メモリ137に記憶さ
れる。
On the other hand, the category quantity calculation processing unit 136
The category quantities a0 to aN and b0 to bM are calculated from the beat interval at the time of obtaining the articulatory model parameters for each phoneme that minimizes the estimation error and the content word part of speech information of the accent phrase in the corresponding speech database 130. . In calculating the category quantity, a general method described in Tomomi Hayashi and Tsutomu Komazawa, “Quantification Theory and Data Processing” (Asakura Shoten) can be used. The calculated category quantity is stored in the beat interval estimation category quantity memory 137.

【0074】以上のようにして、音声データベース13
0から調音モデル制御のためのパラメータ値を音韻別調
音モデルパラメータメモリ135内に、カテゴリ数量を
拍間隔推定用カテゴリ数量メモリ137内に取得して、
以下に述べるように音声合成部102での音声合成に利
用すると、合成される音声は、音声データベース130
に収録された話者の口調に非常に近いものとなる。
As described above, the voice database 13
From 0, the parameter values for the articulatory model control are acquired in the phoneme-based articulatory model parameter memory 135, and the category quantity is acquired in the beat interval estimation category quantity memory 137,
When used for speech synthesis in the speech synthesis unit 102 as described below, the synthesized speech is stored in the speech database 130.
It will be very close to the tone of the speaker recorded in.

【0075】本実施形態では、異なる話者の音声より作
成した2種類の音声データファイル(音声データベース
130)から、上記の手法により、2セットの調音モデ
ル制御のためのパラメータ、及び2セットの拍間隔推定
用カテゴリ数量を求めるようにしている。即ち、音声デ
ータベース130に収録される(音韻ラベルと音韻境界
の情報、及びアクセント句内容語の品詞情報を含む)音
声データファイルとして、第1の話者の音声により作成
した第1の音声データファイルと、第2の話者の音声に
より作成した第2の音声データファイルの2種類用意
し、当該音声データファイルを切り替えて上記の手法を
適用することで、その都度、その話者の口調に対応した
調音モデルパラメータセットを音韻別調音モデルパラメ
ータメモリ135に、カテゴリ数量セットを拍間隔推定
用カテゴリ数量メモリ137に、それぞれ求めるように
している。
In the present embodiment, two sets of parameters for articulation model control and two sets of beats are obtained from two types of speech data files (speech database 130) created from speeches of different speakers by the above-described method. The category quantity for interval estimation is obtained. That is, a first voice data file created by the voice of the first speaker as a voice data file (including information on a phoneme label and a phoneme boundary, and part-of-speech information on an accent phrase content word) recorded in the voice database 130 And two types of second voice data files created by the voice of the second speaker are prepared, the voice data file is switched, and the above-described method is applied. The obtained articulation model parameter set is obtained in the phoneme-based articulation model parameter memory 135, and the category quantity set is obtained in the beat interval estimation category quantity memory 137.

【0076】このようにして求められた第1及び第2の
話者にそれぞれ対応した調音モデルパラメータセットの
一方は図1中の音韻別調音モデルパラメータメモリ10
7aに、他方は同じく図1中のもう一つの音韻別調音モ
デルパラメータメモリ107a′に格納されて使用され
る。同様に、第1及び第2の話者にそれぞれ対応したカ
テゴリ数量セットの一方は図1中の拍間隔推定用カテゴ
リ数量メモリ108aに、他方は図1中のもう一つの拍
間隔推定用カテゴリ数量メモリ108a′に格納されて
使用される。本実施形態では、このメモリ107a,1
07′のいずれか一方、及びメモリ108a,108
a′のいずれか一方を、ユーザ指定等によって決定され
るシステムの内部状態に基づいて切り替え使用すること
で、合成音声の口調を切り替えることができるようにな
っている。
One of the articulatory model parameter sets corresponding to the first and second speakers obtained in this way is stored in the phonemic-specific articulatory model parameter memory 10 in FIG.
7a, the other is also stored and used in another phoneme-based articulation model parameter memory 107a 'in FIG. Similarly, one of the category quantity sets respectively corresponding to the first and second speakers is stored in the beat interval estimation category quantity memory 108a in FIG. 1, and the other is placed in the other beat interval estimation category quantity in FIG. It is stored and used in the memory 108a '. In the present embodiment, this memory 107a, 1
07 'and the memories 108a and 108
By switching and using one of a 'based on the internal state of the system determined by the user's designation or the like, the tone of the synthesized voice can be switched.

【0077】次に、音韻継続時間長計算処理部107で
の動作の詳細を、図9乃至図11のフローチャートを参
照して説明する。まず音韻継続時間長計算処理部107
は、上記した音韻別調音モデルパラメータメモリ107
a,107a′の他に、調音モデル時間変化決定処理を
行う調音モデル時間変化決定処理部107bと、当該処
理部107bの処理結果をもとに音韻境界決定処理を行
う音韻境界決定処理部107cとから構成される。
Next, the operation of the phoneme duration calculation unit 107 will be described in detail with reference to the flowcharts of FIGS. First, the phoneme duration calculation unit 107
Is the above-mentioned phoneme-specific articulation model parameter memory 107
a and 107a ', an articulatory model time change determination processor 107b for performing an articulatory model time change determination process, and a phoneme boundary determination processor 107c for performing a phoneme boundary determination process based on the processing result of the processor 107b. Consists of

【0078】本実施形態では、上記の手法で求められた
異なる話者に対応する2種類の音韻別調音モデルパラメ
ータファイル(図示せず)、つまり音韻別に割り当てら
れる各調音器官J,L,FT,BTの調音モデルのパラ
メータが蓄積された2種類の音韻別調音モデルパラメー
タファイルが用意されており、文音声ソフトウェアに従
う文音声変換処理の開始時に、一方のファイルの内容が
上記音韻別調音モデルパラメータメモリ107aに、他
方のファイルの内容が音韻別調音モデルパラメータメモ
リ107a′に読み込まれるようになっている。このメ
モリ107a,107a′は、例えばメインメモリに確
保された特定領域である。
In the present embodiment, two types of articulatory model parameter files (not shown) corresponding to different speakers obtained by the above method, that is, each articulator J, L, FT, Two types of phonetic-based articulatory model parameter files in which the parameters of the BT articulatory model are stored are prepared. At 107a, the contents of the other file are read into the phoneme-based articulation model parameter memory 107a '. The memories 107a and 107a 'are, for example, specific areas secured in the main memory.

【0079】言語処理部101内の言語解析処理部10
4により読み情報が生成されて、音声合成部102内の
音韻継続時間長計算処理部107が起動されると、当該
処理部107内の調音モデル時間変化決定処理部107
bは、読み情報に含まれている合成すべき音韻列(音韻
数をNとする)中の音韻位置を示す変数iを先頭の音韻
を示す1に、時刻tを0に、拍同期時刻を示す変数tsy
ncを(例えばユーザの指定する発話速度で決まる値)T
に、全ての調音器官J,L,FT,BTがi番目の音韻
のそれぞれの調音許容範囲に入る時刻を示す変数tin
(i) (=tin(1))を0に初期設定する(ステップS
1)。
The language analysis processing unit 10 in the language processing unit 101
4 generates the reading information and activates the phoneme duration calculation processing unit 107 in the speech synthesis unit 102, and the articulation model time change determination processing unit 107 in the processing unit 107
b is a variable i indicating a phoneme position in a phoneme sequence to be synthesized (the number of phonemes is N) included in the reading information, a variable i indicating a first phoneme, a time t being set to 0, and a beat synchronization time being set to 0. Variable tsy
nc is (for example, a value determined by the speech rate specified by the user) T
Is a variable tin indicating the time at which all articulators J, L, FT, and BT enter the respective articulatory tolerances of the i-th phoneme.
(i) Initialize (= tin (1)) to 0 (step S)
1).

【0080】次に調音モデル時間変化決定処理部107
bは、時刻tをi番目の音韻の最小継続時間長(Dmin
(phi))だけ進めた値に更新する(ステップS2)。
この最小継続時間長(Dmin(phi))は、i番目の音韻
を用いて音韻別調音モデルパラメータメモリ107aま
たは107a′を参照することで取得できる。
Next, the articulatory model time change determination processor 107
b indicates that the time t is the minimum duration of the i-th phoneme (Dmin
(phi)) is updated to a value advanced (step S2).
The minimum duration (Dmin (phi)) can be obtained by referring to the phoneme-based articulation model parameter memory 107a or 107a 'using the i-th phoneme.

【0081】次に調音モデル時間変化決定処理部107
bは、i番目の音韻が子音であるか否かをチェックし
(ステップS3)、母音であれば、時刻tと拍同期時刻
tsyncとを比較する(ステップS4)。
Next, the articulatory model time change determination processor 107
b checks whether the i-th phoneme is a consonant (step S3), and if it is a vowel, compares the time t with the beat synchronization time tsync (step S4).

【0082】もし、時刻tが拍同期時刻tsyncを越えて
いないならば、時刻tを拍同期時刻tsyncに更新した後
(ステップS5)、拍同期時刻tsyncをTだけ進める
(ステップS6)。これに対し、時刻tが拍同期時刻t
syncを越えているならば、時刻tを更新することなくス
テップS6に進み、拍同期時刻tsyncをTだけ進める。
そして調音モデル時間変化決定処理部107bは、ステ
ップS6の後、現在の時刻tの値を前記移行開始時刻t
i (即ち、モデルをi番目の音韻から後続音韻へ移行さ
せる開始時刻)として決定する(ステップS7)。
If the time t does not exceed the beat synchronization time tsync, the time t is updated to the beat synchronization time tsync (step S5), and the beat synchronization time tsync is advanced by T (step S6). On the other hand, the time t is the beat synchronization time t
If it exceeds sync, the process proceeds to step S6 without updating the time t, and the beat synchronization time tsync is advanced by T.
After step S6, the articulation model time change determination processing unit 107b sets the value of the current time t to the shift start time t
i (that is, the start time of shifting the model from the i-th phoneme to the subsequent phoneme) is determined (step S7).

【0083】一方、i番目の音韻が子音であるならば、
そのままステップS7に進んで、現在の時刻tの値を移
行開始時刻ti として決定する。調音モデル時間変化決
定処理部107bはステップS7を実行すると、時刻t
における各調音器官J,L,FT,BTの位置(動き)
を表すMJ (=M(J,t)),ML (=M(L,
t)),MFT(=M(FT,t)),MBT(=M(B
T,t))を、上記(1)式により算出する(ステップ
S8)。
On the other hand, if the i-th phoneme is a consonant,
Proceeding directly to step S7, the value of the current time t is determined as the shift start time ti. When the articulatory model time change determination processing unit 107b executes step S7, the time t
(Movement) of each articulator J, L, FT, BT
(= M (J, t)), ML (= M (L,
t)), MFT (= M (FT, t)), MBT (= M (B
T, t)) is calculated by the above equation (1) (step S8).

【0084】次に調音モデル時間変化決定処理部107
bは、時刻tにおける調音器官J,L,FT,BTの位
置(MJ ,ML ,MFT,MBT)がi番目の音韻のそれぞ
れの調音許容範囲、即ちAmin(J,phi)〜Amax(J,
phi)、Amin(L,phi)〜Amax(L,phi)、Amin
(FT,phi)〜Amax(FT,phi)、Amin(BT,p
hi)〜Amax(BT,phi)に全て入っているか否かをチ
ェックする(ステップS9)。
Next, the articulatory model time change determination processor 107
b is the articulatory range of each i-th phoneme at the position (MJ, ML, MFT, MBT) of the articulators J, L, FT, and BT at time t, that is, Amin (J, phi) to Amax (J,
phi), Amin (L, phi) to Amax (L, phi), Amin
(FT, phi) to Amax (FT, phi), Amin (BT, p
It is checked whether or not all the values are included in hi) to Amax (BT, phi) (step S9).

【0085】もし、時刻tにおける調音器官J,L,F
T,BTの位置(MJ ,ML ,MFT,MBT)がi番目の
音韻のそれぞれの調音許容範囲に全て収まっているなら
ば、調音モデル時間変化決定処理部107bは、時刻t
を所定の微小時間δ(例えば5ms)だけ進めた後(ステ
ップ10)、ステップS8に戻って、その新たな時刻t
での各調音器官J,L,FT,BTの位置MJ ,ML ,
MFT,MBTを算出し、再びステップS9の判定を行う。
If the articulators J, L, F at time t,
If the positions of T and BT (MJ, ML, MFT, MBT) are all within the allowable range of articulation of the i-th phoneme, the articulatory model time change determination processing unit 107b sets the time t
Is advanced by a predetermined minute time δ (for example, 5 ms) (step 10), and the process returns to step S8, where the new time t
Position of each articulator J, L, FT, BT at MJ, ML,
MFT and MBT are calculated, and the determination in step S9 is performed again.

【0086】調音モデル時間変化決定処理部107b
は、以上の動作を、調音器官J,L,FT,BTの位置
の少なくとも1つが、i番目の音韻の対応する調音許容
範囲から外れるのを検出するまで繰り返す。
The articulation model time change determination processing unit 107b
Repeats the above operation until it detects that at least one of the positions of the articulators J, L, FT, and BT deviates from the corresponding articulation allowable range of the i-th phoneme.

【0087】このようにして、時刻tにおける調音器官
J,L,FT,BTの位置のいずれかがi番目の音韻の
対応する調音許容範囲から外れたならば、調音モデル時
間変化決定処理部107bは、その時刻tを、調音器官
J,L,FT,BTの位置の少なくとも1つがi番目の
音韻の調音許容範囲から出る時刻tout(i)であると決定
し、図示せぬメモリに保持する(ステップS11)。
As described above, if any of the positions of the articulators J, L, FT, and BT at the time t deviate from the corresponding articulation allowable range of the i-th phoneme, the articulatory model time change determination processing unit 107b Determines that the time t is the time tout (i) at which at least one of the positions of the articulators J, L, FT, and BT goes out of the articulation allowable range of the i-th phoneme, and stores the time tout in a memory (not shown). (Step S11).

【0088】次に時間変化決定処理部107bは、時刻
tにおけるステップS8と同じ処理を行う(ステップS
12)。但し、この例のようにステップS11が行われ
た直後では、各調音器官J,L,FT,BTの位置を表
すMJ ,ML ,MFT,MBTの値は、当該ステップS11
の直前に行われたステップS8でのMJ ,ML ,MFT,
MBTの算出結果と一致することから、当該ステップS1
1が行われた直後の上記ステップS12はスルーしても
構わない。
Next, time change determination processing section 107b performs the same processing as step S8 at time t (step S8).
12). However, immediately after step S11 is performed as in this example, the values of MJ, ML, MFT, and MBT representing the positions of the articulators J, L, FT, and BT are set to the values in step S11.
, ML, MFT, in step S8 performed immediately before
Since it matches the calculation result of MBT, step S1
Step S12 immediately after step 1 may be skipped.

【0089】次に時間変化決定処理部107bは、時刻
tにおける調音器官J,L,FT,BTの位置が次のi
+1番目の音韻のそれぞれの調音許容範囲、即ちAmin
(J,phi+1)〜Amax(J,phi+1)、Amin(L,phi
+1)〜Amax(L,phi+1)、Amin(FT,phi+1)〜Am
ax(FT,phi+1)、Amin(BT,phi+1)〜Amax(B
T,phi+1)に全て入っているか否かをチェックする
(ステップS13)。
Next, the time change determination processing unit 107b determines that the position of the articulators J, L, FT, and BT at the time t is the next i.
The articulation permissible range of the + 1st phoneme, ie, Amin
(J, phi + 1) to Amax (J, phi + 1), Amin (L, phi
+1) to Amax (L, phi + 1), Amin (FT, phi + 1) to Am
ax (FT, phi + 1), Amin (BT, phi + 1) to Amax (B
T, phi + 1) are checked (step S13).

【0090】もし、時刻tにおける調音器官J,L,F
T,BTの位置のいずれか1つでもi+1番目の音韻の
対応する調音許容範囲から外れているならば、調音モデ
ル時間変化決定処理部107bは、時刻tを所定の微小
時間δだけ進めた後(ステップS14)、ステップS1
2に戻って、その新たな時刻tでの各調音器官J,L,
FT,BTの位置を表すMJ ,ML ,MFT,MBTを算出
し、再びステップS13の判定を行う。
If the articulators J, L, F at time t,
If any one of the positions of T and BT is out of the corresponding articulation allowable range of the (i + 1) th phoneme, the articulation model time change determination processing unit 107b advances the time t by a predetermined minute time δ (Step S14), Step S1
2 and each articulator J, L, at the new time t.
MJ, ML, MFT, and MBT representing the positions of FT and BT are calculated, and the determination in step S13 is performed again.

【0091】調音モデル時間変化決定処理部107b
は、以上の動作を、全ての調音器官J,L,FT,BT
の位置が、i+1番目の音韻の対応する調音許容範囲に
入るのを検出するまで繰り返す。
The articulation model time change determination processing unit 107b
Performs the above operation with all articulatory organs J, L, FT, BT
Is detected until it is detected that the position is within the allowable articulation range of the (i + 1) th phoneme.

【0092】このようにして、時刻tにおける調音器官
J,L,FT,BTの位置の全てがi+1番目の音韻の
対応する調音許容範囲に入ったならば、調音モデル時間
変化決定処理部107bは、その時刻tを、全ての調音
器官J,L,FT,BTの位置がi+1番目の音韻(次
の音韻)の調音許容範囲に入る(移行する)時刻tin(i
+1) であると決定し、図示せぬメモリに保持する(ステ
ップS15)。
In this way, if all of the positions of the articulators J, L, FT, and BT at the time t are within the allowable articulation range of the (i + 1) th phoneme, the articulatory model time change determination processing unit 107b performs , The time t in (i.e., the time at which the positions of all the articulators J, L, FT, and BT fall within the allowable articulation range of the (i + 1) -th phoneme (the next phoneme).
+1), and stores it in a memory (not shown) (step S15).

【0093】次に調音モデル時間変化決定処理部107
bは、N−1番目の音韻(N個の音韻からなる音韻列中
の最後から2番目の音韻)まで処理が進んだか否かを、
現在のiの値がN−1であるか否かによりチェックする
(ステップS16)。
Next, the articulatory model time change determination processing unit 107
b indicates whether or not the processing has proceeded to the (N-1) th phoneme (the last to second phoneme in the phoneme sequence including N phonemes).
It is checked whether or not the current value of i is N-1 (step S16).

【0094】もし、現在のiの値がN−1でないなら
ば、調音モデル時間変化決定処理部107bはiの値を
インクリメント(+1)した後(ステップS17)、即
ちiの値を音韻列中の次の音韻を指すように更新した
後、上記ステップS2に戻る。
If the current value of i is not N-1, the articulation model time change determination processing unit 107b increments the value of i (+1) (step S17), that is, sets the value of i in the phoneme sequence. After updating to point to the next phoneme, the process returns to step S2.

【0095】このようにして調音モデル時間変化決定処
理部107bは、ステップS2以降の処理をi=1〜i
=N−1まで繰り返し、tin(i) の列(i=1,2,
3,…,N)、即ちtin(1) ,tin(2) ,tin(3) ,
…,tin(N) と、tout(i) の列(i=1,2,3,
…,N−1)、即ちtout(1),tout(2),tout(3),
…,tout(N-1)とを求める。
As described above, the articulatory model time change determination processing unit 107b performs the processing from step S2 onward for i = 1 to i
= N−1, and the sequence of tin (i) (i = 1, 2, 2,
3,..., N), that is, tin (1), tin (2), tin (3),
.., Tin (N) and a column of tout (i) (i = 1, 2, 3, 3)
.., N-1), that is, tout (1), tout (2), tout (3),
.., Tout (N-1).

【0096】すると、調音モデル時間変化決定処理部1
07bから同じ音韻継続時間長計算処理部107内の音
韻境界決定処理部107cに制御が渡される。音韻境界
決定処理部107cはまず、合成すべき音韻列中の音韻
位置を示す変数iを先頭の音韻を示す1に、i番目の音
韻の先行音韻との音韻境界を示す変数Bi 、即ちB1
を、tin(i) 、即ちtin(1) に初期設定する(ステップ
S21)。
Then, the articulatory model time change determination processor 1
Control is passed from 07b to the phoneme boundary determination processing unit 107c in the same phoneme duration calculation processing unit 107. First, the phoneme boundary determination processing unit 107c sets the variable i indicating the phoneme position in the phoneme sequence to be synthesized to 1 indicating the head phoneme, the variable Bi indicating the phoneme boundary with the preceding phoneme of the i-th phoneme, that is, B1.
Is initialized to tin (i), that is, tin (1) (step S21).

【0097】次に音韻境界決定処理部107cは、i番
目の音韻が子音であるか或いは母音であるかをチェック
し(ステップS22)、母音であれば、次のi+1番目
の音韻が子音であるか否かをチェックする(ステップS
23)。
Next, the phoneme boundary determination processing unit 107c checks whether the i-th phoneme is a consonant or a vowel (step S22). If it is a vowel, the next (i + 1) -th phoneme is a consonant. Is checked (Step S
23).

【0098】もし、i番目の音韻が母音で、次のi+1
番目の音韻が子音であるならば、音韻境界決定処理部1
07cは、i+1番目の音韻の先行音韻との音韻境界を
示す変数Bi+1 にtin(i+1) を設定し(ステップS2
4)、i番目の音韻が母音で、次のi+1番目の音韻も
母音であるならば、音韻境界決定処理部107cは、t
out(i)とtin(i+1) の中間時刻(tout(i)+tin(i+1)
)/2をBi+1 に設定する(ステップS25)。
If the ith phoneme is a vowel and the next i + 1
If the phoneme is a consonant, the phoneme boundary determination processing unit 1
07c sets tin (i + 1) to a variable Bi + 1 indicating a phoneme boundary with the preceding phoneme of the (i + 1) th phoneme (step S2).
4) If the i-th phoneme is a vowel and the next (i + 1) -th phoneme is also a vowel, the phoneme boundary determination processing unit 107c
intermediate time between out (i) and tin (i + 1) (tout (i) + tin (i + 1)
) / 2 is set to Bi + 1 (step S25).

【0099】これに対し、i番目の音韻が子音であるな
らば(この場合、子音−子音の組み合わせは存在しない
から、次のi+1番目の音韻は母音となる)、音韻境界
決定処理部107cはtout(i)をBi+1 に設定する(ス
テップS26)。
On the other hand, if the ith phoneme is a consonant (in this case, since there is no consonant-consonant combination, the next (i + 1) th phoneme is a vowel), the phoneme boundary determination processing unit 107c Tout (i) is set to Bi + 1 (step S26).

【0100】音韻境界決定処理部107cは、上記ステ
ップS24,S25またはS26によりBi+1 の値を決
定すると、Bi+1 とBi との差、即ちi+1番目の音韻
の先行音韻(i番目の音韻)との音韻境界Bi+1 と、i
番目の音韻の先行音韻(i−1番目の音韻)との音韻境
界Bi との時間差を求めて、i番目の音韻の継続時間長
Di を決定する(ステップS27)。1回目のステップ
S27では、1番目の音韻の継続時間長D1 がB2 −B
1 の演算により求められる。
When determining the value of Bi + 1 in step S24, S25 or S26, the phoneme boundary determination processing unit 107c determines the difference between Bi + 1 and Bi, that is, the preceding phoneme (i-th phoneme) of the (i + 1) -th phoneme. ) And i + 1
The time difference between the preceding phoneme of the i-th phoneme (i-1st phoneme) and the phoneme boundary Bi is determined, and the duration time Di of the i-th phoneme is determined (step S27). In the first step S27, the duration D1 of the first phoneme is B2-B
It is obtained by the operation of 1.

【0101】次に音韻境界決定処理部107cは、N−
1番目の音韻まで処理が進んだか否かを、現在のiの値
がN−1であるか否かによりチェックする(ステップS
28)。
Next, the phoneme boundary determination processing section 107c sets N-
It is checked whether or not the processing has proceeded to the first phoneme, based on whether or not the current value of i is N-1 (step S).
28).

【0102】もし、現在のiの値がN−1でないなら
ば、音韻境界決定処理部107cはiの値をインクリメ
ント(+1)した後(ステップS29)、上記ステップ
S22に戻る。
If the current value of i is not N-1, the phoneme boundary determination processing section 107c increments the value of i (+1) (step S29), and then returns to step S22.

【0103】このようにして音韻境界決定処理部107
cは、ステップS22以降の処理をi=1〜i=N−1
まで繰り返し、Di の列(i=1,2,3,…,N−
1)、即ちD1 ,D2 ,D3 ,…,DN-1 を求める。
In this way, the phoneme boundary determination processing section 107
c indicates that the processing after step S22 is i = 1 to i = N-1.
To the column of Di (i = 1, 2, 3,..., N−
1) That is, D1, D2, D3,..., DN-1 are obtained.

【0104】次に音韻境界決定処理部107cは、N番
目の音韻、即ち音韻系列中の最後の音韻(=母音)の継
続時間長DN を次の演算 DN =tin(i+1) −Bi+1 +DFO ……(3) により求める(ステップS30)。ここでDFOは、母音
のフェードアウト時間である。
Next, the phoneme boundary determination processing unit 107c calculates the duration DN of the Nth phoneme, that is, the last phoneme (= vowel) in the phoneme sequence by the following calculation: DN = tin (i + 1) -Bi + 1 + DFO (3) is obtained (step S30). Here, DFO is the vowel fade-out time.

【0105】これにより音韻境界決定処理部107c
(を備えた音韻継続時間長計算処理部107)は、音韻
系列に含まれるN個の音韻の継続時間長D1 ,D2 ,D
3 ,…,DN を求めたことになる。
As a result, the phoneme boundary determination processing section 107c
(The phoneme duration calculation processing unit 107 provided with) has durations D1, D2, D of N phonemes included in the phoneme sequence.
3,..., DN.

【0106】さて、以上のようにして音声合成部102
内の音韻継続時間長計算処理部107により入力文(入
力テキスト)の読みに含まれる各モーラの(子音部並び
に母音部の)継続時間長が決定されると、同じ音声合成
部102内のピッチパターン生成処理部109が起動さ
れる。
Now, as described above, the speech synthesis unit 102
When the duration of each mora (consonant part and vowel part) included in the reading of the input sentence (input text) is determined by the phoneme duration calculation processing unit 107 within the The pattern generation processing unit 109 is activated.

【0107】ピッチパターン生成処理部109は音韻継
続時間長計算処理部107により決定された継続時間長
(の系列)と、言語解析処理部104により決定された
アクセント情報に基づいて、まず点ピッチ位置を設定す
る。次に、設定された複数の点ピッチを直線で補間して
例えば10ms毎のピッチパターンを得る。
The pitch pattern generation processing unit 109 first determines the point pitch position based on (the sequence of) the durations determined by the phoneme duration calculation processing unit 107 and the accent information determined by the language analysis processing unit 104. Set. Next, a plurality of set point pitches are interpolated by a straight line to obtain a pitch pattern every 10 ms, for example.

【0108】一方、音声合成部102内の音韻パラメー
タ生成処理部110は、音声記号列の音韻情報をもとに
音韻パラメータを生成する処理を、例えぱピッチパター
ン生成処理部109によるピッチパターン生成処理と並
行して次のように行う。
On the other hand, the phoneme parameter generation processing unit 110 in the speech synthesis unit 102 performs a process of generating phoneme parameters based on the phoneme information of the speech symbol string, for example, a pitch pattern generation process by the pitch pattern generation processing unit 109. Is performed in parallel as follows.

【0109】まず本実施形態では、サンプリング周波数
11025Hzで標本化した実音声を改良ケプストラム
法により窓長20ms、フレーム周期10msで分析して得
た0次から25次のケプストラム係数を子音+母音(C
V)の単位で日本語音声の合成に必要な全音節を切り出
した計137個の音声素片が蓄積された音声素片ファイ
ル(図示せず)が用意されている。この音声素片ファイ
ルの内容は、文音声変換ソフトウェアに従う文音声変換
処理の開始時に、例えばメインメモリに確保された音声
素片領域(以下、音声素片メモリと称する)111に読
み込まれているものとする。
First, in the present embodiment, the 0th to 25th order cepstrum coefficients obtained by analyzing real speech sampled at a sampling frequency of 11025 Hz by the improved cepstrum method with a window length of 20 ms and a frame period of 10 ms are used as consonants + vowels (C
A speech unit file (not shown) storing a total of 137 speech units obtained by cutting out all syllables necessary for the synthesis of Japanese speech in units of V) is prepared. The contents of the speech unit file are read into, for example, a speech unit area (hereinafter referred to as a speech unit memory) 111 secured in the main memory at the start of the sentence-to-speech conversion process according to the sentence-to-speech conversion software. And

【0110】音韻パラメータ生成処理部110は、言語
解析処理部104から渡される音声記号列中の音韻情報
(ここでは第1の音韻情報であるが、第2の音韻情報で
も構わない)に従って、上記したCV単位の音声素片を
音声素片メモリ111から順次読み出し、読み出した音
声素片を接続することにより合成すべき音声の音韻パラ
メータ(特徴パラメータ)を生成する。
The phoneme parameter generation processing unit 110 performs the above-described processing according to the phoneme information (here, the first phoneme information, but may be the second phoneme information) in the speech symbol string passed from the language analysis processing unit 104. The speech units in CV units are sequentially read from the speech unit memory 111, and the read speech units are connected to generate phoneme parameters (feature parameters) of the speech to be synthesized.

【0111】ピッチパターン生成処理部109によりピ
ッチパターンが生成され、音韻パラメータ生成処理部1
10により音韻パラメータが生成されると、音声合成部
102内の合成フィルタ処理部112が起動される。こ
の合成フィルタ処理部112は、図2に示すように、ホ
ワイトノイズ発生部118、インパルス発生部119、
駆動音源切り替え部120、及びLMAフィルタ121
から構成されており、上記生成されたピッチパターンと
音韻パラメータから、次のようにして音声を合成する。
A pitch pattern is generated by the pitch pattern generation processing unit 109, and the phoneme parameter generation processing unit 1
When the phoneme parameters are generated by the, the synthesis filter processing unit 112 in the speech synthesis unit 102 is activated. As shown in FIG. 2, the synthesis filter processing unit 112 includes a white noise generation unit 118, an impulse generation unit 119,
Driving sound source switching unit 120 and LMA filter 121
And synthesizes a speech from the pitch pattern and the phoneme parameters generated as described below.

【0112】まず、音声の有声部(V)では、駆動音源
切り替え部120によりインパルス発生部119側に切
り替えられる。インパルス発生部119は、ピッチパタ
ーン生成処理部109により生成されたピッチパターン
に応じた間隔のインパルスを発生し、このインパルスを
音源としてLMAフィルタ121を駆動する。一方、音
声の無声部(U)では、駆動音源切り替え部120によ
りホワイトノイズ発生部118側に切り替えられる。ホ
ワイトノイズ発生部118はホワイトノイズを発生し、
このホワイトノイズを音源としてLMAフィルタ121
を駆動する。
First, the voiced portion (V) of the voice is switched to the impulse generating portion 119 by the driving sound source switching portion 120. The impulse generation unit 119 generates impulses at intervals according to the pitch pattern generated by the pitch pattern generation processing unit 109, and drives the LMA filter 121 using the impulse as a sound source. On the other hand, in the unvoiced part (U) of the sound, the driving sound source switching unit 120 switches to the white noise generating unit 118 side. The white noise generator 118 generates white noise,
The LMA filter 121 uses this white noise as a sound source.
Drive.

【0113】LMAフィルタ121は音声のケプストラ
ムを直接フィルタ係数とするものである。本実施形態に
おいて音韻パラメータ生成処理部110により生成され
た音韻パラメータは前記したようにケプストラムである
ことから、この音韻パラメータがLMAフィルタ121
のフィルタ係数となり、駆動音源切り替え部120によ
り切り替えられる音源によって駆動されることで、合成
音声を出力する。
The LMA filter 121 directly uses the cepstrum of the voice as a filter coefficient. In the present embodiment, since the phoneme parameter generated by the phoneme parameter generation processing unit 110 is a cepstrum as described above, this phoneme parameter is
, And is driven by a sound source switched by the driving sound source switching unit 120 to output a synthesized voice.

【0114】合成フィルタ処理部112(内のLMAフ
ィルタ121)により合成された音声は離散音声信号で
あり、D/A変換器113によりアナログ信号に変換
し、アンプ114を通してスピーカ115に出力するこ
とで、初めて音として聞くことができる。
The sound synthesized by the synthesis filter processing unit 112 (the LMA filter 121 therein) is a discrete sound signal, which is converted into an analog signal by the D / A converter 113 and output to the speaker 115 through the amplifier 114. , Can be heard as a sound for the first time.

【0115】以上本発明の一実施施形態について説明し
てきたが、本発明は前記実施形態に限定されるものでは
ない。例えば、前記実施形態では、音声の特徴パラメー
タとしてケプストラムを使用しているが、LPCやPA
RCOR、フォルマントなど他のパラメータであって
も、本発明は適用可能であり同様な効果が得られる。言
語処理部に関しても形態素解析以外に構文解析等が挿入
されても全<問題なく、ピッチ生成に関しても、点ピッ
チによる方法でなくともよく、例えば藤崎モデルを利用
した場合でも本発明は適用可能である。
Although the embodiment of the present invention has been described above, the present invention is not limited to the embodiment. For example, in the above embodiment, the cepstrum is used as the feature parameter of the voice, but the LPC or PA
The present invention is applicable to other parameters such as RCOR and formant, and similar effects can be obtained. Regarding the language processing unit, even if syntax analysis etc. other than morphological analysis is inserted, there is no problem. Regarding pitch generation, it is not necessary to use a method based on point pitch. For example, the present invention is applicable even when using a Fujisaki model. is there.

【0116】また、前記実施形態では、調音モデルパラ
メータの切り替えにより2種類の口調が合成可能である
場合について説明したが、更に様々な人の声からパラメ
ータを作成して3種類以上のパラメータを用意し、それ
らを切り替えて使用しても構わない。要するに本発明は
その要旨に逸脱しない範囲で種々変形して実施すること
ができる。
In the above embodiment, the case where two types of tones can be synthesized by switching the articulatory model parameters has been described. However, three or more types of parameters are prepared by creating parameters from various human voices. Then, they may be switched and used. In short, the present invention can be variously modified and implemented without departing from the gist thereof.

【0117】[0117]

【発明の効果】以上詳述したように本発明によれば、音
声合成の対象となるテキストデータに対する言語解析結
果を利用して調音モデルを制御し、その結果に基づいて
テキストデータの読みに含まれる個々の音韻の継続時間
長を求めるようにしたので、人間が音声を発声した際の
調音器官の物理的な制約を音韻継続時間長に反映すると
同時に、文章内の微妙な発話速度を合成音声に与えるこ
とができ、人間らしく自然で、聞き取りやすい音声を合
成できる。特に、上記言語解析結果に基づいてテキスト
データの読みに含まれる各モーラの同期タイミングを決
定し、当該言語解析結果に含まれる音韻情報と決定した
同期タイミングに基づいて調音モデルを制御することに
より、人間が音声を発声した際の調音器官の物理的な制
約を高精度に音韻継続時間長に反映すると同時に、文章
内の微妙な発話速度を精度よく合成音声に与えることが
できる。
As described in detail above, according to the present invention, the articulatory model is controlled by using the linguistic analysis result for the text data to be subjected to speech synthesis, and is included in the reading of the text data based on the result. Since the duration of each phoneme is determined, the physical constraints of the articulatory organs when a human utters the voice are reflected in the duration of the phoneme, and the subtle utterance speed in the text is synthesized speech. And can synthesize natural and human-friendly voice that is easy to hear. In particular, by determining the synchronization timing of each mora included in the text data reading based on the linguistic analysis result, by controlling the articulatory model based on the determined phonological information and the synchronization timing included in the linguistic analysis result, It is possible to accurately reflect the physical constraints of articulatory organs when a human utters a voice on the phoneme duration, and to give a subtle utterance speed in a sentence to a synthesized voice with high accuracy.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態に係る音声の規則合成装置
の概略構成を示すブロック図。
FIG. 1 is a block diagram showing a schematic configuration of a speech rule synthesis device according to an embodiment of the present invention.

【図2】図1中の合成フィルタ処理部112の構成を示
すブロック図。
FIG. 2 is a block diagram showing a configuration of a synthesis filter processing unit 112 in FIG.

【図3】同実施形態で適用される調音モデルを構成する
4つの調音器官を示す図。
FIG. 3 is an exemplary view showing four articulatory organs constituting an articulatory model applied in the embodiment;

【図4】音韻の細分化について、後続する音韻によって
(つまり音韻環境によって)幾つかの異なる調音様式を
持つ撥音「ん」の場合を例に示す図。
FIG. 4 is a diagram showing, by way of example, a case of a sound-repellent “n” having several different articulation modes depending on a subsequent phoneme (that is, depending on the phoneme environment) regarding phoneme segmentation.

【図5】「公園へ行って本を読みます」という文を言語
処理することで生成される音声記号列に含まれる音韻系
列の例を、音韻環境を考慮する前と後について示す図。
FIG. 5 is a diagram showing an example of a phoneme sequence included in a phonetic symbol string generated by performing language processing on a sentence “Go to a park and read a book” before and after considering a phoneme environment.

【図6】音韻[i]に対する調音モデルのパラメータの
一例を示す図。
FIG. 6 is a diagram showing an example of parameters of an articulatory model for phoneme [i].

【図7】4つの調音器官の動きをモデル化した調音モデ
ルの状態の時間変化の例を示す図。
FIG. 7 is a diagram showing an example of a temporal change in the state of an articulatory model that models the movement of four articulatory organs.

【図8】個々の音韻の調音モデルの各パラメータ値、及
び拍間隔推定用カテゴリ数量を大量の音声データを用い
て最適化する方法を説明するための図。
FIG. 8 is a diagram for explaining a method of optimizing each parameter value of the articulatory model of each phoneme and the number of beat interval estimation categories using a large amount of voice data.

【図9】音韻継続時間長計算処理部107内の調音モデ
ル時間変化決定処理部107bによる調音モデル時間変
化決定処理を説明するためのフローチャートの一部を示
す図。
FIG. 9 is a diagram showing a part of a flowchart for explaining an articulatory model time change determination process by an articulatory model time change determination processor 107b in the phoneme duration calculation processor 107;

【図10】音韻継続時間長計算処理部107内の調音モ
デル時間変化決定処理部107bによる調音モデル時間
変化決定処理を説明するためのフローチャートの残りを
示す図。
FIG. 10 is a diagram showing the remainder of the flowchart for explaining the articulatory model time change determination processing by the articulatory model time change determination processor 107b in the phoneme duration calculation processor 107.

【図11】音韻継続時間長計算処理部107内の音韻境
界決定処理部107cによる音韻境界と音韻の継続時間
長の決定処理を説明するためのフローチャート。
FIG. 11 is a flowchart illustrating a process of determining a phoneme boundary and a phoneme duration by a phoneme boundary determination processing unit in a phoneme duration calculation processing unit.

【図12】従来の規則合成装置の構成を示すブロック
図。
FIG. 12 is a block diagram showing a configuration of a conventional rule synthesis device.

【図13】図12の規則合成装置における従来の音韻の
継続時間長決定方法を説明するための図。
FIG. 13 is a view for explaining a conventional phoneme duration determining method in the rule synthesizing apparatus of FIG. 12;

【符号の説明】[Explanation of symbols]

101…言語処理部 102…音声合成部 104…言語解析処理部 107…音韻継続時間長計算処理部(音韻継続時間長決
定手段) 107a,107a′,135…音韻列調音モデルパラ
メータメモリ 107b…調音モデル時間変化決定処理部 107c…音韻境界決定処理部 108a,108a′,137…拍間隔推定用カテゴリ
数量メモリ 108b…拍間隔推定処理部 109…ピッチパターン生成処理部 110…音韻パラメータ生成処理部 112…合成フィルタ処理部 130…音声データベース 131…実音声音韻継続時間計算処理部 132…音韻継続時間長推定処理部 133…時間長比較部 134…パラメータ変更部 136…カテゴリ数量計算処理部
101: Language processing unit 102: Speech synthesis unit 104: Language analysis processing unit 107: Phoneme duration calculation unit (phoneme duration determination means) 107a, 107a ', 135 ... Phoneme train articulation model parameter memory 107b ... Articulation model Time change determination processing unit 107c: Phoneme boundary determination processing unit 108a, 108a ', 137: Category quantity memory for beat interval estimation 108b ... Beat interval estimation processing unit 109: Pitch pattern generation processing unit 110 ... Phoneme parameter generation processing unit 112: Synthesis Filter processing unit 130 Voice database 131 Real phoneme duration calculation processing unit 132 Phoneme duration estimation processing unit 133 Time length comparison unit 134 Parameter changing unit 136 Category number calculation processing unit

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 音声合成の対象となるテキストデータを
解析して言語解析結果を得た後、 前記言語解析結果に基づいて、調音器官の動きをモデル
化した調音モデルの時間変化を求め、 前記求めた調音モデルの時間変化をもとに前記テキスト
データの読みに含まれる個々の音韻の継続時間長を決定
すると共に、前記言語解析結果に基づいて音声素片を選
択し、 前記決定した音韻の継続時間長に基づいて前記選択した
音声素片を接続することによって音声を合成することを
特徴とする音声合成方法。
1. After analyzing text data to be subjected to speech synthesis and obtaining a language analysis result, a time change of an articulatory model that models a movement of an articulator is obtained based on the language analysis result. Determine the duration of each phoneme included in the reading of the text data based on the time change of the obtained articulation model, and select a speech unit based on the language analysis result. A speech synthesis method comprising: synthesizing speech by connecting the selected speech units based on a duration time.
【請求項2】 音声合成の対象となるテキストデータを
解析して音韻情報を含む言語解析結果を得た後、 前記言語解析結果に基づいて、前記テキストデータの読
みに含まれる各モーラの同期タイミングを決定し、 前記言語解析結果に含まれる音韻情報と前記決定した同
期タイミングに基づいて、調音器官の動きをモデル化し
た調音モデルの時間変化を求め、 前記求めた調音モデルの時間変化をもとに前記音韻情報
に含まれる個々の音韻の継続時間長を決定すると共に、
前記言語解析結果に基づいて音声素片を選択し、 前記決定した音韻の継続時間長に基づいて前記選択した
音声素片を接続することによって音声を合成することを
特徴とする音声合成方法。
2. After synthesizing text data to be subjected to speech synthesis to obtain a linguistic analysis result including phonological information, based on the linguistic analysis result, a synchronization timing of each mora included in the reading of the text data. Based on the phonological information included in the language analysis result and the determined synchronization timing, a time change of an articulator model that models the movement of the articulatory organ is obtained.Based on the obtained time change of the articulator model, In addition to determining the duration of each phoneme included in the phoneme information,
A speech synthesis method comprising: selecting a speech unit based on the result of the language analysis; and connecting the selected speech unit based on the determined duration of the phoneme to synthesize a speech.
【請求項3】 前記調音モデルの時間変化を求める際
に、前記音韻情報に含まれる個々の音韻の後続音韻への
調音器官動作指令時刻を前記同期タイミングに基づいて
決定することを特徴とする請求項2記載の音声合成方
法。
3. The method according to claim 1, wherein, when determining a time change of the articulatory model, an articulatory organ operation command time to a subsequent phoneme of each phoneme included in the phoneme information is determined based on the synchronization timing. Item 3. The speech synthesis method according to Item 2.
【請求項4】 前記音韻の後続音韻への調音器官動作指
令時刻を決定するに際して、当該音韻が子音または母音
のいずれであるかを判別し、その判別結果及び前記同期
タイミングによって与えられる時刻に基づいて当該音韻
の後続音韻への調音器官動作指令時刻を決定することを
特徴とする請求項3記載の音声合成方法。
4. When deciding an articulatory organ operation command time for a succeeding phoneme of the phoneme, it is determined whether the phoneme is a consonant or a vowel, and based on a result of the determination and a time given by the synchronization timing. 4. The speech synthesis method according to claim 3, wherein the articulator organ operation command time for the succeeding phoneme of the phoneme is determined by using the same.
【請求項5】 前記音韻が子音の場合には、前記同期タ
イミングによって与えられる時刻に基づいて当該子音の
後続音韻への調音器官動作指令時刻を決定し、当該音韻
が母音の場合には、当該母音の調音に達する時刻と前記
同期タイミングによって与えられる時刻とを比較して、
その比較結果をもとに前記同期タイミングによって与え
られる時刻または当該母音の調音に達する時刻に基づい
て当該母音の後続音韻への調音器官動作指令時刻を決定
することを特徴とする請求項4記載の音声合成方法。
5. When the phoneme is a consonant, an articulator operation command time for a succeeding phoneme of the consonant is determined based on the time given by the synchronization timing. By comparing the time at which the vowel articulation arrives with the time given by the synchronization timing,
5. The articulatory organ operation command time for a succeeding phoneme of the vowel is determined based on a time given by the synchronization timing or a time at which articulation of the vowel is reached based on the comparison result. Speech synthesis method.
【請求項6】 音声合成の対象となるテキストデータを
解析して言語解析結果を得る言語解析手段と、 前記言語解析結果に基づいて、調音器官の動きをモデル
化した調音モデルの時間変化を求め、当該調音モデルの
時間変化をもとに前記テキストデータの読みに含まれる
個々の音韻の継続時間長を決定する音韻継続時間長決定
手段と、 前記言語解析結果に基づいて音声素片を選択し、この選
択した音声素片を、前記音韻継続時間長決定手段により
決定された音韻の継続時間長に基づいて接続することに
より音声を生成する音声生成処理手段とを具備すること
を特徴とする音声合成装置。
6. A language analyzing means for analyzing text data to be subjected to speech synthesis to obtain a language analysis result, and obtaining a temporal change of an articulatory model which models a movement of an articulator based on the language analysis result. A phoneme duration determining means for determining the duration of each phoneme included in the reading of the text data based on the time change of the articulation model; and selecting a speech unit based on the language analysis result. And a speech generation processing unit for generating a speech by connecting the selected speech unit based on the duration of the phoneme determined by the phoneme duration determination unit. Synthesizer.
【請求項7】 音声合成の対象となるテキストデータを
解析して音韻情報を含む言語解析結果を得る言語解析手
段と、 前記言語解析結果に基づいて、前記テキストデータの読
みに含まれる各モーラの同期タイミングを決定する同期
タイミング決定手段と、 前記言語解析結果に含まれる音韻情報と前記同期タイミ
ング決定手段により決定された同期タイミングに基づい
て、調音器官の動きをモデル化した調音モデルの時間変
化を求め、当該調音モデルの時間変化をもとに前記テキ
ストデータの読みに含まれる個々の音韻の継続時間長を
決定する音韻継続時間長決定手段と、 前記言語解析結果に基づいて音声素片を選択し、この選
択した音声素片を、前記音韻継続時間長決定手段により
決定された音韻の継続時間長に基づいて接続することに
より音声を生成する音声生成処理手段とを具備すること
を特徴とする音声合成装置。
7. A language analysis means for analyzing text data to be subjected to speech synthesis to obtain a language analysis result including phoneme information, and based on the language analysis result, each of the mora included in the reading of the text data. Synchronization timing determining means for determining a synchronization timing, based on the phonetic information included in the language analysis result and the synchronization timing determined by the synchronization timing determining means, the time change of the articulatory model that models the movement of the articulatory organ. Phoneme duration determining means for determining the duration of each phoneme included in the reading of the text data based on the time change of the articulatory model, and selecting a speech unit based on the language analysis result. Then, by connecting the selected speech units based on the duration of the phoneme determined by the phoneme duration determination means, A speech synthesis device comprising: speech generation processing means for generating speech.
JP10174812A 1998-06-22 1998-06-22 Method and device for synthesizing speech Pending JP2000010580A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10174812A JP2000010580A (en) 1998-06-22 1998-06-22 Method and device for synthesizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10174812A JP2000010580A (en) 1998-06-22 1998-06-22 Method and device for synthesizing speech

Publications (1)

Publication Number Publication Date
JP2000010580A true JP2000010580A (en) 2000-01-14

Family

ID=15985108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10174812A Pending JP2000010580A (en) 1998-06-22 1998-06-22 Method and device for synthesizing speech

Country Status (1)

Country Link
JP (1) JP2000010580A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002054383A1 (en) * 2000-12-28 2002-07-11 Sharp Kabushiki Kaisha Text voice synthesis device and program recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002054383A1 (en) * 2000-12-28 2002-07-11 Sharp Kabushiki Kaisha Text voice synthesis device and program recording medium
US7249021B2 (en) 2000-12-28 2007-07-24 Sharp Kabushiki Kaisha Simultaneous plural-voice text-to-speech synthesizer

Similar Documents

Publication Publication Date Title
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US6308156B1 (en) Microsegment-based speech-synthesis process
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Zovato et al. Towards emotional speech synthesis: A rule based approach
JP5148026B1 (en) Speech synthesis apparatus and speech synthesis method
JPH031200A (en) Regulation type voice synthesizing device
JP3576840B2 (en) Basic frequency pattern generation method, basic frequency pattern generation device, and program recording medium
JPH0632020B2 (en) Speech synthesis method and apparatus
Carlson Models of speech synthesis.
JP3742206B2 (en) Speech synthesis method and apparatus
JP3437064B2 (en) Speech synthesizer
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JPH0580791A (en) Device and method for speech rule synthesis
JP2000010580A (en) Method and device for synthesizing speech
Murphy Controlling the voice quality dimension of prosody in synthetic speech using an acoustic glottal model
Ng Survey of data-driven approaches to Speech Synthesis
JP3081300B2 (en) Residual driven speech synthesizer
JP2000310996A (en) Voice synthesizing device, and control method for length of phoneme continuing time
JP2001100777A (en) Method and device for voice synthesis
JPS5914752B2 (en) Speech synthesis method
Karjalainen Review of speech synthesis technology
JP3284634B2 (en) Rule speech synthesizer
O’Shaughnessy Approaches to improve automatic speech synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060808