JPH1165597A - Voice compositing device, outputting device of voice compositing and cg synthesis, and conversation device - Google Patents

Voice compositing device, outputting device of voice compositing and cg synthesis, and conversation device

Info

Publication number
JPH1165597A
JPH1165597A JP9228029A JP22802997A JPH1165597A JP H1165597 A JPH1165597 A JP H1165597A JP 9228029 A JP9228029 A JP 9228029A JP 22802997 A JP22802997 A JP 22802997A JP H1165597 A JPH1165597 A JP H1165597A
Authority
JP
Japan
Prior art keywords
rhythm
voice
speech
synthesized
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9228029A
Other languages
Japanese (ja)
Other versions
JP3437064B2 (en
Inventor
Keiko Watanuki
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, Sharp Corp filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Priority to JP22802997A priority Critical patent/JP3437064B2/en
Publication of JPH1165597A publication Critical patent/JPH1165597A/en
Application granted granted Critical
Publication of JP3437064B2 publication Critical patent/JP3437064B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a voice composition device, an outputting device of voice synthesis and CG synthesis and a conversation device which outputs composied voice having natural phoneme continuing time length and pause length and naturally moving CG images. SOLUTION: The voice compositing device is shown in the figure. A language processing means 31 generates synthesized sentences to be synthesized from voices an outputted. The composited sentences are converted to phonemic symbol sequences added with pronunciation information by a prosodic processing means 32 to be sent to a rhythm generating means 33. The means 33 retrieves the pitch patterns which correspond to the syllables to be intended for voice synthesis from the pitch pattern data base section 34 which stores pitch patterns depending on the type of accent to generate rhythms by controlling the obtained pitch patterns. And as for the outputting device of voice composites and CG synthesis a CG control means is added which synchronizes CG with voices and controls. Furthermore as for the conversation device a rhythm detecting means for detecting the rhythms of a user and using the detected information for rhythm generation is added.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、人間とコンピュー
タが音声あるいは仕草などを通じて対話する音声合成装
置、音声合成及びCG合成出力装置、ならびに対話装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech synthesizer in which a human and a computer interact with each other through voice or gestures, a speech synthesis and CG synthesis output device, and a dialogue device.

【0002】[0002]

【従来の技術】従来、人間とコンピュータの間のインタ
ーフェースとしては、音声で応答する音声合成装置が考
えられてきた。これは、人間が発する音声を認識し、そ
れに応じてシステムの内部状態を変化させ、あらかじめ
決められた音声出力をし、人間との対話を実現しようと
したものである。また、コンピュータとの対話をより円
滑にするために、入力音声に対してアニメーション等が
応答する出力合成装置(本願の音声合成及びCG合成出
力装置に相当)が提案されている。
2. Description of the Related Art Conventionally, as an interface between a human and a computer, a voice synthesizer which responds by voice has been considered. This is to realize a dialogue with a human by recognizing a voice uttered by a human, changing an internal state of the system according to the voice, outputting a predetermined voice. Further, in order to facilitate a dialogue with a computer, an output synthesizing device (equivalent to a voice synthesizing and CG synthesizing output device of the present application) in which animation or the like responds to an input voice has been proposed.

【0003】上述のような音声合成装置においては、音
声を合成する際、音素の継続時間長などの韻律制御規則
の良否が合成される音声の自然性に影響を及ぼす。たと
えば、電子通信学会論文誌Vol.J67−A,No.
7(1984)では、音素が固有に持つ平均的な継続時
間長に、種々の条件を考慮した伸縮を施すことによっ
て、音素の継続時間長を決定する手法が説明されてい
る。また、特開昭61−32096号公報では、標準的
な発話テンポにおける各音素の継続時間長を、子音、母
音とで異なる割合を用いて伸縮する方法が述べられてい
る。さらに、特開平3−89299号公報では、発話テ
ンポごとに異なる定数テーブルを用いて、音素の継続時
間長を決定する方法が述べられている。しかし、上述し
た音声合成方法および装置では、音素のリズムを制御の
単位として継続時間長を変更することによって、合成音
声のリズムや発話テンポの制御を行っているが、実際の
発話でのリズムの制御は音素を単位として行われている
わけではないため、不自然なリズムとなることがあっ
た。
In the above-described speech synthesizer, when synthesizing speech, the quality of a prosody control rule such as the duration of a phoneme affects the naturalness of the synthesized speech. For example, IEICE Transactions Vol. J67-A, No.
7 (1984) describes a method of determining the duration of a phoneme by performing expansion and contraction on the average duration of the phoneme inherently in consideration of various conditions. Further, Japanese Patent Application Laid-Open No. 61-32096 describes a method of expanding and contracting the duration of each phoneme at a standard utterance tempo by using different ratios for consonants and vowels. Further, Japanese Patent Application Laid-Open No. 3-89299 describes a method of determining the duration of a phoneme using a different constant table for each utterance tempo. However, in the above-described speech synthesis method and apparatus, the rhythm of the synthesized speech and the tempo of the utterance are controlled by changing the duration time with the rhythm of the phoneme as a unit of control. Since the control is not performed in units of phonemes, an unnatural rhythm may occur.

【0004】特開平6−222793号公報では、出力
すべき文を母音−子音−母音連鎖に分解し、各連鎖の通
常発話テンポでの先行母音の中心から後続母音の中心ま
での継続時間長をリズムの単位として算出し、発話テン
ポに応じて各母音中心間長を伸縮する方法が述べられて
いる。しかし、イントネーションがおかしくなるなど、
不自然性が問題になっていた。
In Japanese Patent Application Laid-Open No. Hei 6-222793, a sentence to be output is decomposed into vowel-consonant-vowel chains, and the duration from the center of the preceding vowel to the center of the succeeding vowel at the normal speech tempo of each chain is calculated. It describes a method of calculating as a unit of rhythm and expanding and contracting the length between vowel centers according to the utterance tempo. However, such as strange intonation
Unnaturalness was a problem.

【0005】[0005]

【発明が解決しようとする課題】本発明は、上述の課題
を解決するためになされたもので、リズム単位を、コン
ピュータが出力する発話の開始点や下降ピッチの開始点
あるいはCG人物の手の振りや頭の振りの周期的な長さ
とし、これら特徴量が相補的、等時間的に出現するよう
に制御することによって、実際の発話に近い、自然な音
韻継続時間長やポーズ長をもった合成音声や自然な動き
をするCG画像を出力することの可能な音声合成装置、
音声合成及びCG合成出力装置、ならびに対話装置を提
供することを目的としてなされたものである。
SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-mentioned problems. The rhythm unit is defined as a start point of an utterance output from a computer, a start point of a descending pitch, or a hand of a CG person. By setting the periodic length of the swing and head swing and controlling these features to appear in a complementary and isochronous manner, a natural phoneme duration and pause length close to the actual utterance were obtained. A speech synthesizer capable of outputting synthesized speech or a CG image that moves naturally,
The purpose of the present invention is to provide a speech synthesis and CG synthesis output device and a dialogue device.

【0006】[0006]

【課題を解決するための手段】請求項1の発明は、音声
を合成する合成文章を生成する言語処理手段と、該言語
処理手段で生成した合成文章にアクセント、ポーズ、及
び母音の無声音化情報を含む発音情報を加えて音韻記号
列を生成する韻律処理手段と、音声におけるアクセント
型により分類したピッチパターンをデータベースとして
記憶したピッチパターンデータベース部と、前記韻律処
理手段で得られた音韻記号列に含まれる文節のそれぞれ
に対応したピッチパターンを前記ピッチパターンデータ
ベース部から検索し、得られたピッチパターンの制御を
行って合成音声のリズムを生成するリズム生成手段とを
備え、該リズム生成手段の出力に基づいて音声を合成す
ることを特徴とし、自然音声に近いピッチパターンを得
ることができるようになり、その結果、合成音声の自然
性が向上するようにしたものである。
According to a first aspect of the present invention, there is provided a language processing means for generating a synthesized sentence for synthesizing speech, and information on accent, pause, and unvoiced vowels in the synthesized sentence generated by the language processing means. Prosody processing means for generating a phoneme symbol string by adding pronunciation information including: a pitch pattern database section storing a pitch pattern classified by accent type in speech as a database; and a phoneme symbol string obtained by the prosody processing means. Rhythm generating means for searching the pitch pattern database section for a pitch pattern corresponding to each of the included phrases, controlling the obtained pitch pattern and generating a rhythm of the synthesized voice, and outputting the rhythm generating means. It is characterized by synthesizing speech based on It becomes, as a result, in which naturalness of synthetic speech is to be improved.

【0007】請求項2の発明は、請求項1の発明におい
て、前記ピッチパターンの制御として、前記ピッチパタ
ーンの所定の特徴量が等時間的に出力されるように音韻
継続時間長及びポーズ長の制御を行うことを特徴とし、
リズミカルな合成音声が得られるようにしたものであ
る。
According to a second aspect of the present invention, in the first aspect of the present invention, the control of the pitch pattern is performed by changing a phoneme duration time and a pause length so that a predetermined characteristic amount of the pitch pattern is output at an equal time. It is characterized by performing control,
A rhythmic synthesized speech is obtained.

【0008】請求項3の発明は、請求項2の発明におい
て、前記所定の特徴量として合成する音声の開始点およ
び下降ピッチ開始点を用いることを特徴とし、よりリズ
ミカルな合成音声を得るための具体的なリズム生成手段
が提供できるようにしたものである。
[0008] A third aspect of the present invention is characterized in that, in the second aspect of the present invention, a starting point of a speech to be synthesized and a starting point of a descending pitch are used as the predetermined feature amount, and a more rhythmical synthesized speech is obtained. A specific rhythm generating means can be provided.

【0009】請求項4の発明は、請求項1ないし3いず
れか1の発明において、前記リズム生成手段は、生成す
るリズムの周期にゆらぎを持たせることを特徴とし、機
械的でない、より自然なリズムを生成することが可能に
なるようにしたものである。
The invention of claim 4 is the invention according to any one of claims 1 to 3, characterized in that the rhythm generating means has a fluctuation in the cycle of the generated rhythm, and is not mechanical but more natural. A rhythm can be generated.

【0010】請求項5の発明は、請求項1ないし4いず
れか1の発明において、前記リズム生成手段は、合成す
る音声の内容に応じて生成するリズムを変調させる機能
を有することを特徴とし、コンピュータの音声に感情を
持たせることができ、より親しみやすい合成音声を作り
出すことができるようにしたものである。
According to a fifth aspect of the present invention, in any one of the first to fourth aspects of the present invention, the rhythm generating means has a function of modulating a rhythm to be generated in accordance with the content of a voice to be synthesized. It is intended to give emotion to computer speech and create a more intimate synthesized speech.

【0011】請求項6の発明は、請求項1ないし5いず
れか1記載の音声合成装置に、CG人物が合成音声に同
期をとって動作するようにCGを制御するCG制御手段
を設け、該CG制御手段の出力に基づいて、合成CGを
合成音声とともに出力することを特徴とし、自然なCG
人物の動きが得られるようにしたものである。
According to a sixth aspect of the present invention, in the voice synthesizing apparatus according to any one of the first to fifth aspects, CG control means for controlling the CG so that the CG person operates in synchronization with the synthesized voice is provided. The synthesized CG is output together with the synthesized voice based on the output of the CG control means.
The movement of a person can be obtained.

【0012】請求項7の発明は、請求項1ないし5いず
れか1記載の音成合成装置に、ユーザの発話を入力する
入力手段と、該入力手段から入力されたユーザの発話の
リズムを検出するリズム検出手段とを設け、該リズム検
出手段における検出結果を用いて、前記ピッチパターン
の制御を行うことを特徴とし、ユーザとコンピュータの
リズムが協調し、リズム感のある対話が実現するように
したものである。
According to a seventh aspect of the present invention, there is provided an audio synthesizing apparatus according to any one of the first to fifth aspects, wherein input means for inputting a user's utterance and a rhythm of the user's utterance input from the input means are detected. Rhythm detecting means for controlling the pitch pattern using the detection result of the rhythm detecting means, so that the rhythm of the user and the computer cooperate to realize a dialog with a sense of rhythm. It was done.

【0013】請求項8の発明は、請求項6記載の音声合
成及びCG合成出力装置に、ユーザの発話及び動きを入
力する入力手段と、該入力手段から入力されたユーザの
発話及び動きのリズムを検出するリズム検出手段とを設
け、該リズム検出手段における検出結果を用いて、前記
ピッチパターンの制御を行うことを特徴とし、ユーザと
コンピュータのリズムが協調し、リズム感のある対話が
実現するようにしたものである。
According to an eighth aspect of the present invention, there is provided the speech synthesis and CG synthesis output device according to the sixth aspect, wherein input means for inputting a user's utterance and movement, and rhythm of the user's utterance and movement input from the input means Rhythm detecting means for detecting the pitch, and controlling the pitch pattern using the detection result of the rhythm detecting means, whereby the rhythm of the user and the computer cooperate to realize a rhythmic dialogue. It is like that.

【0014】請求項9の発明は、請求項7または8の発
明において、ユーザから発生される音声パワー、音声ピ
ッチ、および手の動きの動作モードのうち、少なくとも
一つの動作モードについて該動作モードの動作状態を認
識し、認識結果から前記発話のリズムまたは前記発話及
び動きのリズムを検出することを特徴とし、ユーザとコ
ンピュータのリズムが協調し、リズム感のある対話を実
現するためのユーザのリズムをより正確に検出すること
ができるようにしたものである。
According to a ninth aspect of the present invention, in the seventh or eighth aspect of the present invention, at least one of the operation modes of the voice power, the voice pitch, and the hand movement generated by the user is selected from the operation modes. A rhythm of the utterance or a rhythm of the utterance and the movement is detected from a recognition result, wherein a rhythm of the user and a computer cooperate to realize a rhythm-like dialogue. Can be detected more accurately.

【0015】請求項10の発明は、請求項1ないし5い
ずれか1記載の音声合成装置を機能させるためのプログ
ラムを記録したコンピュータ読み取り可能な記録媒体と
したものである。
According to a tenth aspect of the present invention, there is provided a computer-readable recording medium in which a program for causing the voice synthesizing apparatus according to any one of the first to fifth aspects to function is recorded.

【0016】請求項11の発明は、請求項6記載の音声
合成及びCG合成出力装置を機能させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体とし
たものである。
According to an eleventh aspect of the present invention, there is provided a computer-readable recording medium on which a program for causing the voice synthesizing and CG synthesizing output device according to the sixth aspect to function is recorded.

【0017】請求項12の発明は、請求項7ないし9い
ずれか1記載の対話装置を機能させるためのプログラム
を記録したコンピュータ読み取り可能な記録媒体とした
ものである。
According to a twelfth aspect of the present invention, there is provided a computer-readable recording medium storing a program for causing the interactive device according to any one of the seventh to ninth aspects to function.

【0018】[0018]

【発明の実施の形態】BEST MODE FOR CARRYING OUT THE INVENTION

(実施形態1)図1は、本発明の第1の実施形態を説明
するためのブロック図で、音声合成装置の基本構成例を
示すものである。以下、図1に示す基本構成に従う本発
明の実施形態を説明する。入力部10に入力されたユー
ザの音声は、解析部20で解析され、応答生成部30に
入力される。応答生成部30では、コンピュータにより
音声合成出力される合成文章が言語処理手段31で生成
され、韻律処理手段32に送られる。韻律処理手段32
では、送られた合成文章が音声合成処理に必要なアクセ
ントの情報,ポーズ,母音の無声音化などの発音情報を
加えた音韻記号列に変換され、リズム生成手段33に送
られる。リズム生成手段33は、アクセント型によるピ
ッチパターンを記憶したピッチパターンデータベース3
4を備え、音声合成の対象となる文節に対応したピッチ
パターンをピッチパターンデータベース34から検索
し、得られたピッチパターンを制御し、リズムを生成し
て出力部40より出力する。図2(A)に言語処理手段
31で生成される合成文章の例を、また、図2(B)に
韻律処理手段32で生成される音韻記号列の例を示す。
(Embodiment 1) FIG. 1 is a block diagram for explaining a first embodiment of the present invention, and shows a basic configuration example of a speech synthesizer. Hereinafter, an embodiment of the present invention according to the basic configuration shown in FIG. 1 will be described. The voice of the user input to the input unit 10 is analyzed by the analysis unit 20 and input to the response generation unit 30. In the response generation unit 30, a synthesized sentence that is synthesized and output by the computer is generated by the language processing unit 31 and sent to the prosody processing unit 32. Prosody processing means 32
Then, the sent synthesized sentence is converted into a phoneme symbol string to which pronunciation information such as accent information, pause, and vowel devoicing necessary for speech synthesis processing is added, and sent to the rhythm generating means 33. The rhythm generating means 33 stores the pitch pattern database 3 storing pitch patterns of the accent type.
4, a pitch pattern corresponding to a phrase to be subjected to speech synthesis is searched from the pitch pattern database 34, the obtained pitch pattern is controlled, a rhythm is generated and output from the output unit 40. FIG. 2A shows an example of a synthesized sentence generated by the language processing unit 31, and FIG. 2B shows an example of a phoneme symbol string generated by the prosody processing unit 32.

【0019】次に、本発明の特徴であるリズム生成手段
33およびピッチパターンデータベース34について説
明する。ピッチパターンデータベース34においては、
予め自然発声のピッチを分析しておいて、これに正規化
を施してピッチパターンとしてデータベース化してあ
る。
Next, the rhythm generating means 33 and the pitch pattern database 34 which are features of the present invention will be described. In the pitch pattern database 34,
The pitch of a natural utterance is analyzed in advance, and the pitch is normalized to make a database as a pitch pattern.

【0020】図3は、4モーラのピッチパターンデータ
ベースの例を示す図である。ここで、アクセント型N
は、アクセント核の位置を表す。アクセントとは、アク
セントがついた際に、周波数が下降する直前(下降ピッ
チ開始点)のモーラである。つまり、1型とは、アクセ
ント核が第1モーラであること、2型とは、アクセント
核が第2モーラであること、3型とは、アクセント核が
第3モーラであること、0型とは、アクセント核がない
ことを示す。なお、図3には、4モーラの例を示した
が、1つのアクセント型Nについて、モーラ数Mの異な
るパターンが存在する。
FIG. 3 is a diagram showing an example of a 4-mora pitch pattern database. Where the accent type N
Represents the position of the accent nucleus. The accent is a mora just before the frequency drops when the accent is applied (the starting point of the drop pitch). That is, type 1 means that the accent nucleus is the first mora, type 2 means that the accent nucleus is the second mora, type 3 means that the accent nucleus is the third mora, and type 0 Indicates that there is no accent nucleus. Although FIG. 3 shows an example of four moras, one accent type N has different patterns of the number M of moras.

【0021】リズム生成手段33は、上記のごとくに複
数記憶された正規化ピッチパターンから、合成しようと
している文節のモーラ数およびアクセント型で決まる1
つのピッチパターンを検索する。人間同士の対話の解析
において、スムーズな対話では、発話の開始点や発話の
下降ピッチ,手の振りが相補的に、ほぼ等時間的に出現
することがわかっている。そこで、リズム生成手段33
は、これら特徴量が相補的に、等時間的に生起するよう
制御する。以下では、ピッチパターンデータベース34
から検索により取り出したピッチパターンに対して、発
話開始点とアクセント核(下降ピッチ開始点)の出現間
隔が相補的,等時間的になるよう、音韻継続時間長やポ
ーズ長を伸縮することにより、リズムを生成する例につ
いて説明する。
The rhythm generating means 33 determines 1 from the number of mora and the accent type of the phrase to be synthesized from the plurality of normalized pitch patterns stored as described above.
Search for one pitch pattern. In the analysis of the dialogue between humans, it has been found that in a smooth dialogue, the start point of the utterance, the descending pitch of the utterance, and the wave of the hand complementarily appear almost at the same time. Therefore, the rhythm generating means 33
Controls such that these feature values occur complementarily and isochronously. In the following, the pitch pattern database 34
By expanding and contracting the phoneme duration and pause length so that the appearance interval between the utterance start point and the accent nucleus (falling pitch start point) is complementary and isochronous to the pitch pattern retrieved from An example of generating a rhythm will be described.

【0022】図4は、コンピュータが「こちらの電子手
帳は、ペンで入力するだけで簡単にメモが作れます」と
合成音声で読み上げるときに、ピッチパターンデータベ
ース34から検索される文節ごとのピッチパターンの例
である。図5は、この検索されたピッチパターンを制御
してリズム生成をする前のピッチパターンの例で、図6
は、リズム生成手段33により処理をした後のピッチパ
ターンの例である。コンピュータが「こちらの電子手帳
は、ペンで入力するだけで簡単にメモが作れます」と合
成音声で読み上げるときの音声ピッチの時間変化を示
す。縦軸がピッチ(Hz)、横軸が時間(フレーム=1
/30秒)である。リズム生成処理を施した図6では、
発話開始時刻T0および下降ピッチの開始時刻T1,T
2,T3…の出現間隔Pが一定になるよう、音韻の継続
時間長およびポーズ長が伸縮されている。
FIG. 4 shows a pitch pattern for each phrase searched from the pitch pattern database 34 when the computer reads, "This electronic notebook can easily make a memo just by inputting with a pen." This is an example. FIG. 5 shows an example of a pitch pattern before generating a rhythm by controlling the retrieved pitch pattern.
Is an example of a pitch pattern after processing by the rhythm generating means 33. The computer shows, "This electronic organizer can easily make notes just by inputting with a pen." The vertical axis is pitch (Hz), the horizontal axis is time (frame = 1)
/ 30 seconds). In FIG. 6 where the rhythm generation processing has been performed,
Utterance start time T0 and descent pitch start times T1, T
The duration of the phoneme and the length of the pause are expanded and contracted so that the appearance interval P of 2, T3.

【0023】具体的には、リズム生成手段33は、検索
により取り出したピッチパターンに対して、発話開始点
と各アクセント核(下降ピッチ開始点)の出現間隔P
が、 P=np(sec.) となるよう、各アクセント核(下降ピッチ開始点)に挟
まれる音韻(またはモーラ)およびポーズの継続時間長
を算出し、アクセント核の開始時刻を制御する。このよ
うにして、アクセント核が等時間的に出現するようなリ
ズムを生成することができる。ここで、pは例えば、
0.8などの定数で、コンピュータの内部状態に応じて
変えることができる。
More specifically, the rhythm generating means 33 determines, for the pitch pattern extracted by the search, the utterance start point and the appearance interval P of each accent nucleus (falling pitch start point).
Is calculated such that P = np (sec.), And the duration of the phoneme (or mora) and pause between each accent nucleus (the starting point of the descending pitch) is controlled to control the start time of the accent nucleus. In this way, it is possible to generate a rhythm in which the accent nucleus appears at the same time. Here, p is, for example,
A constant such as 0.8, which can be changed according to the internal state of the computer.

【0024】また、nは、出現間隔Pに挟まれるモーラ
数Mが、例えば、3<M≦10であるときは、n=1と
し、またM≦2であるときは、n=0.5とし、またM
>10であるときには、n=2とし、データベースから
得られたピッチパターンにおいて、隣り合うアクセント
核が近接しすぎているとき(M≦2)や、アクセント核
を伴わない文節が連続した場合(M>10)にアクセン
ト核の出現間隔をpの倍数に保持し、リズムを保てるよ
うにする。
Further, n is n = 1 when the number M of moras sandwiched by the appearance interval P satisfies, for example, 3 <M ≦ 10, and n = 0.5 when M ≦ 2. And M
> 10, n = 2, and in the pitch pattern obtained from the database, when adjacent accent nuclei are too close (M ≦ 2) or when a phrase without an accent nucleus continues (M > 10), the intervals of appearance of accent nuclei are held at multiples of p so that the rhythm can be maintained.

【0025】なお、pの値に1/fゆらぎをもたせるこ
とにより、機械的でない、より自然なリズムを生成する
ことが可能である。また、例えば、急を要する内容の場
合は、pの値を短縮し、あるいは、応答内容に不明な点
があり、不安な場合は、pの値を伸長するなどして、生
成される音声内容に応じてpの値を変調させることによ
り、コンピュータの音声に感情を持たせることができ、
より親しみやすい合成音声を作り出すことができる。
By giving 1 / f fluctuation to the value of p, it is possible to generate a non-mechanical, more natural rhythm. Also, for example, in the case of urgent contents, the value of p is shortened, or when there is an unclear point in the response content, and in the case of uncertainty, the value of p is extended, and By modulating the value of p according to, it is possible to give emotion to the sound of the computer,
It is possible to create a more familiar synthesized speech.

【0026】(実施形態2)図7は、本発明の第2の実
施形態を説明するためのブロック図で、音声合成及びC
G合成出力装置の基本構成例を示すものである。本実施
形態の構成は、図に示すように、実施形態1の音声合成
装置の構成に加えて、出力されるCG人物の動作を制御
するCG制御手段35が付加されている。以下では、C
G人物の頭の動きを制御する場合の動作例を説明する。
人間同士の対話の解析において、対話におけるリズム
が、音声パワー,音声ピッチ,手の振り、頭の動きから
抽出できることがわかっている。また、スムーズな対話
では、頭の縦振りが、発話の開始点や発話の下降ピッチ
と同期をとる傾向にあることと、これら頭の振りや音声
の特徴量が相補的に、ほぼ等時間的に出現することがわ
かっている。
(Embodiment 2) FIG. 7 is a block diagram for explaining a second embodiment of the present invention.
1 shows an example of a basic configuration of a G synthesis output device. In the configuration of the present embodiment, as shown in the figure, in addition to the configuration of the speech synthesizer of the first embodiment, a CG control unit 35 for controlling the operation of the output CG person is added. In the following, C
An operation example in the case of controlling the head movement of the G person will be described.
In analyzing dialogue between humans, it has been found that the rhythm in the dialogue can be extracted from voice power, voice pitch, hand waving, and head movement. In a smooth dialogue, the vertical movement of the head tends to be synchronized with the starting point of the utterance and the descending pitch of the utterance. It is known to appear.

【0027】図8は、図7に示すCG制御手段35にお
ける処理の一例を説明するための図である。図8には、
ユーザが「こちらの電子手帳は、ペンで入力するだけで
簡単にメモが作れます」と発話したときの音声の時間変
化と、音声に同期したCG画像の頭の動きが示されてい
る。縦軸が動きの大きさ、横軸が時間(フレーム)であ
る。図に示すように、発話開始時刻T0および下降ピッ
チの開始時刻T1,T2,T3…とCG人物の頭の動き
の開始時刻Tcg1,Tcg2…が同期をとりながら、
相補的,等時間的に出現するよう、CG人物の頭の動き
の出現時刻が制御されている。
FIG. 8 is a view for explaining an example of the processing in the CG control means 35 shown in FIG. In FIG.
The time change of the sound when the user uttered, "You can easily create a memo just by inputting with this pen," and the movement of the head of the CG image synchronized with the sound are shown. The vertical axis represents the magnitude of the movement, and the horizontal axis represents time (frame). As shown in the drawing, the utterance start time T0 and the start times T1, T2, T3... Of the descending pitch and the start times Tcg1, Tcg2.
The appearance time of the head movement of the CG person is controlled so as to appear complementary and isochronously.

【0028】(実施形態3)図9は、本発明の第3の実
施形態を説明するためのブロック図で、対話装置の基本
構成例を示すものである。人間同士の対話の解析におい
て、考えながら話すときのリズムと、熱心に話している
ときでは、対話のリズムが変化することがわかってい
る。本実施形態では、このようなユーザの対話のリズム
に合わせてコンピュータ側のリズムを変化させ、ユーザ
とコンピュータとの間にリズミカルな対話を実現するも
のである。
(Embodiment 3) FIG. 9 is a block diagram for explaining a third embodiment of the present invention, and shows a basic configuration example of a dialogue apparatus. In analyzing dialogue between humans, it has been found that the rhythm of talking while thinking and the rhythm of talking when eagerly talking change. In the present embodiment, the rhythm of the computer is changed in accordance with the rhythm of the user's dialogue, and a rhythmical dialogue between the user and the computer is realized.

【0029】本実施形態の構成は、図9に示すように、
実施形態1の音声合成装置の構成に加えて、ユーザの対
話のリズムを検出するリズム検出手段50が付加されて
いる。以下では、入力データを音声としてその音声ピッ
チを認識する手段、また、出力手段として合成音声を出
力する音声出力手段とを具備するコンピュータによるも
のとして、本発明の実施形態を説明する。
The configuration of this embodiment is as shown in FIG.
In addition to the configuration of the speech synthesizer of the first embodiment, a rhythm detecting unit 50 for detecting a rhythm of a user's conversation is added. Hereinafter, an embodiment of the present invention will be described assuming that the computer is provided with means for recognizing the voice pitch of input data as voice, and voice output means for outputting synthesized voice as output means.

【0030】まず、入力データの音声ピッチはAD変換
され、予め決められた処理単位(フレーム:1フレーム
は1/30秒)毎に音声ピッチレベルが認識され、予め
決められたレベルの「下降ピッチ」が検出され、リズム
検出手段50に送出される。リズム検出手段50では、
入力されたユーザの音声の下降ピッチから周期(リズ
ム)を検出し、時刻情報とともにユーザの対話のリズム
を検出する。
First, the voice pitch of the input data is A / D converted, and the voice pitch level is recognized for each predetermined processing unit (frame: 1 frame is 1/30 second). Is detected and sent to the rhythm detecting means 50. In the rhythm detecting means 50,
A cycle (rhythm) is detected from the falling pitch of the input user's voice, and the rhythm of the user's dialogue is detected together with time information.

【0031】図10は、図9に示すリズム検出手段にお
ける処理の一例を説明するための図である。図10に
は、ユーザが「コンピュータの中でそれを再現してやる
とこのような形で…」と発話したときの音声の時間変化
が示されている。縦軸がピッチ(Hz)、横軸が時間
(フレーム)である。一定時間ごとにこれらの発話開始
時刻T0および下降ピッチの開始時刻T1,T2,T3
…から、下降ピッチの出現の周期を自己相関により求め
る。リズム生成手段33は、上述のようにして、リズム
検出手段50で検出されたユーザのリズムに応じて、コ
ンピュータ側から出力される発話のアクセント核(下降
ピッチ開始点)の出現間隔Pを決定する。
FIG. 10 is a view for explaining an example of the processing in the rhythm detecting means shown in FIG. FIG. 10 shows a time change of the voice when the user utters "This is the form when reproduced in a computer." The vertical axis is pitch (Hz) and the horizontal axis is time (frame). The utterance start time T0 and the descending pitch start times T1, T2, T3 at regular intervals.
, The period of the appearance of the descending pitch is obtained by autocorrelation. The rhythm generating unit 33 determines the appearance interval P of the accent nucleus (the starting point of the downward pitch) of the utterance output from the computer according to the rhythm of the user detected by the rhythm detecting unit 50 as described above. .

【0032】[0032]

【発明の効果】【The invention's effect】

請求項1の効果:音声合成の対象となる文節に対応した
ピッチパターンをピッチパターンデータベース部から検
索し、得られたピッチパターンを制御して、リズムを生
成することにより、自然音声に近いピッチパターンを得
ることができるようになり、その結果、合成音声の自然
性が向上する。
Advantageous Effects of the Invention: A pitch pattern corresponding to a phrase to be subjected to speech synthesis is searched from a pitch pattern database unit, and the obtained pitch pattern is controlled to generate a rhythm, so that a pitch pattern close to natural speech is obtained. Can be obtained, and as a result, the naturalness of the synthesized speech is improved.

【0033】請求項2の効果:請求項1の効果に加え
て、ピッチパターンの一定の特徴量が相補的に、等時間
的に出現するよう音韻継続時間長やポーズ長を制御する
ことにより、リズミカルな合成音声が得られる。
Effect of Claim 2 In addition to the effect of Claim 1, by controlling the phoneme duration time and pause length so that a constant feature of the pitch pattern appears complementarily and isochronously, A rhythmic synthesized voice is obtained.

【0034】請求項3の効果:請求項2の効果に加え
て、リズムの単位を、出力される音声の開始点および下
降ピッチ開始点の間隔とし、これら特徴量が相補的、等
時間的に出現するように制御することにより、よりリズ
ミカルな合成音声を得るための具体的なリズム生成手段
が提供できる。
The effect of the third aspect: In addition to the effect of the second aspect, the unit of the rhythm is the interval between the start point of the output voice and the start point of the descending pitch, and these feature amounts are complementary and isochronous. By controlling to appear, a specific rhythm generating means for obtaining a more rhythmic synthesized voice can be provided.

【0035】請求項4の効果:請求項1ないし3いずれ
か1の効果に加えて、リズム生成手段において、リズム
周期にゆらぎを持たせることにより、機械的でない、よ
り自然なリズムを生成することが可能になる。
According to the fourth aspect of the invention, in addition to the effect of any one of the first to third aspects, the rhythm generating means generates a non-mechanical, more natural rhythm by making the rhythm cycle fluctuate. Becomes possible.

【0036】請求項5の効果:請求項1ないし3いずれ
か1の効果に加えて、リズム生成手段において、合成音
声の内容に応じてリズムを変調させることにより、コン
ピュータの音声に感情を持たせることができ、より親し
みやすい合成音声を作り出すことができる。
Effect of Claim 5: In addition to the effect of any one of Claims 1 to 3, in addition to the effect of the rhythm generating means, the rhythm is modulated according to the content of the synthesized voice to give emotion to the sound of the computer. And can produce synthesized speech that is more familiar.

【0037】請求項6の効果:請求項1ないし5いずれ
か1の効果に加えて、出力されるCG人物の手の動きや
頭の振りなどの動作が、出力される音声と同期をとって
相補的、等時間的に出現するように制御することによ
り、自然なCG人物の動きが得られる。
Effect of Claim 6 In addition to the effect of any one of Claims 1 to 5, in addition to the effects of the output CG person's hand movements and head movements synchronized with the output voice. By performing control so that they appear in a complementary and isochronous manner, a natural CG person's movement can be obtained.

【0038】請求項7及び8の効果:請求項1ないし6
いずれか1の効果に加えて、ユーザのリズムを検出し、
その検出結果に基づいて出力するリズムを制御すること
により、ユーザとコンピュータのリズムが協調し、リズ
ム感のある対話が実現する。
Effects of Claims 7 and 8: Claims 1 to 6
In addition to any one of the effects, the rhythm of the user is detected,
By controlling the output rhythm based on the detection result, the rhythm of the user and the computer cooperate, and a rhythmic dialogue is realized.

【0039】請求項9の効果:請求項7及び8の効果に
加えて、ユーザのリズム検出をユーザから発生される音
声パワー,音声ピッチ,手の動きおよび頭の動きの動作
モードの少なくとも1つ以上の種類の動作モードについ
てその動作状態を認識するようにしたことにより、ユー
ザとコンピュータのリズムが協調し、リズム感のある対
話を実現するためのユーザのリズムをより正確に検出す
ることができる。
According to the ninth aspect, in addition to the effects of the seventh and eighth aspects, the rhythm of the user is detected by at least one of an operation mode of a voice power, a voice pitch, a hand movement and a head movement generated by the user. By recognizing the operation states of the above types of operation modes, the rhythm of the user and the computer cooperate, and the rhythm of the user for realizing a rhythmic dialog can be detected more accurately. .

【0040】請求項10の効果:音声合成装置を機能さ
せるためのプログラムを記録した、コンピュータ読み取
り可能な記録媒体を提供することができる。
According to the tenth aspect, it is possible to provide a computer-readable recording medium in which a program for causing a speech synthesizer to function is recorded.

【0041】請求項11の効果:音声合成及びCG合成
出力装置を機能させるためのプログラムを記録した、コ
ンピュータ読み取り可能な記録媒体を提供することがで
きる。
According to the eleventh aspect, it is possible to provide a computer-readable recording medium in which a program for causing a speech synthesis and CG synthesis output device to function is recorded.

【0042】請求項12の効果:対話装置を機能させる
ためのプログラムを記録したコンピュータ読み取り可能
な記録媒体を提供することができる。
According to the twelfth aspect, it is possible to provide a computer-readable recording medium in which a program for causing the interactive device to function is recorded.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態を説明するためのブロ
ック図である。
FIG. 1 is a block diagram for explaining a first embodiment of the present invention.

【図2】図1に示す言語処理手段で生成される合成文章
の一例及び韻律処理手段で生成される音韻記号列の例を
示す図である。
FIG. 2 is a diagram showing an example of a synthesized sentence generated by a language processing unit shown in FIG. 1 and an example of a phoneme symbol string generated by a prosody processing unit.

【図3】4モーラのピッチパターンデータベースの例を
示す図である。
FIG. 3 is a diagram showing an example of a 4-mora pitch pattern database.

【図4】図1に示すピッチパターンデータベースから検
索される文節ごとのピッチパターンの例を示す図であ
る。
FIG. 4 is a diagram showing an example of a pitch pattern for each clause retrieved from the pitch pattern database shown in FIG. 1;

【図5】図1に示すリズム生成手段でリズム生成をする
前のピッチパターンの例を示す図である。
FIG. 5 is a diagram showing an example of a pitch pattern before rhythm generation by the rhythm generation means shown in FIG. 1;

【図6】図1に示すリズム生成手段により処理をした後
のピッチパターンの例を示す図である。
FIG. 6 is a diagram showing an example of a pitch pattern after processing by the rhythm generating means shown in FIG. 1;

【図7】本発明の第2の実施形態を説明するためのブロ
ック図で、音声合成及びCG合成出力装置の基本構成例
を示すものである。
FIG. 7 is a block diagram for explaining a second embodiment of the present invention, showing a basic configuration example of a speech synthesis and CG synthesis output device.

【図8】図7に示すCG制御手段における処理の一例を
説明するための図である。
FIG. 8 is a diagram for explaining an example of processing in the CG control means shown in FIG.

【図9】本発明の第3の実施形態を説明するためのブロ
ック図で、対話装置の基本構成例を示すものである。
FIG. 9 is a block diagram for explaining a third embodiment of the present invention, showing a basic configuration example of a dialogue device.

【図10】図9に示すリズム検出手段における処理の一
例を説明するための図である。
FIG. 10 is a diagram for explaining an example of a process in a rhythm detecting unit shown in FIG. 9;

【符号の説明】[Explanation of symbols]

10…入力部、20…解析部、30…応答生成部、31
…言語処理手段、32…韻律処理手段、33…リズム生
成手段、34…ピッチパターンデータベース、35…C
G制御手段、40…出力部、50…リズム検出手段。
10 input unit, 20 analysis unit, 30 response generation unit, 31
... Language processing means, 32 ... Prosody processing means, 33 ... Rhythm generation means, 34 ... Pitch pattern database, 35 ... C
G control means, 40 ... output unit, 50 ... rhythm detection means.

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 音声を合成する合成文章を生成する言語
処理手段と、該言語処理手段で生成した合成文章にアク
セント、ポーズ、及び母音の無声音化情報を含む発音情
報を加えて音韻記号列を生成する韻律処理手段と、音声
におけるアクセント型により分類したピッチパターンを
データベースとして記憶したピッチパターンデータベー
ス部と、前記韻律処理手段で得られた音韻記号列に含ま
れる文節のそれぞれに対応したピッチパターンを前記ピ
ッチパターンデータベース部から検索し、得られたピッ
チパターンの制御を行って合成音声のリズムを生成する
リズム生成手段とを備え、該リズム生成手段の出力に基
づいて音声を合成することを特徴とする音声合成装置。
1. A language processing means for generating a synthesized sentence for synthesizing a speech, and phonetic symbol strings are added to the synthesized text generated by the language processing means by adding pronunciation information including accent, pause, and vowel unvoiced information. Prosody processing means to be generated, a pitch pattern database section storing a pitch pattern classified by accent type in speech as a database, and a pitch pattern corresponding to each of the phrases included in the phoneme symbol string obtained by the prosody processing means. A rhythm generating unit that searches the pitch pattern database unit and controls the obtained pitch pattern to generate a rhythm of the synthesized voice, and synthesizes a voice based on an output of the rhythm generating unit. Speech synthesizer.
【請求項2】 前記ピッチパターンの制御として、前記
ピッチパターンの所定の特徴量が等時間的に出力される
ように音韻継続時間長及びポーズ長の制御を行うことを
特徴とする請求項1記載の音声合成装置。
2. The method according to claim 1, wherein the control of the pitch pattern includes controlling a phoneme duration time and a pause length so that a predetermined characteristic amount of the pitch pattern is output at the same time. Voice synthesizer.
【請求項3】 前記所定の特徴量として合成する音声の
開始点および下降ピッチ開始点を用いることを特徴とす
る請求項2記載の音声合成装置。
3. The speech synthesizer according to claim 2, wherein a start point of a speech to be synthesized and a start point of a descending pitch are used as the predetermined feature amount.
【請求項4】 前記リズム生成手段は、生成するリズム
の周期にゆらぎを持たせることを特徴とする請求項1な
いし3いずれか1記載の音声合成装置。
4. The speech synthesizer according to claim 1, wherein said rhythm generating means has a fluctuation in a cycle of the generated rhythm.
【請求項5】 前記リズム生成手段は、合成する音声の
内容に応じて生成するリズムを変調させる機能を有する
ことを特徴とする請求項1ないし4いずれか1記載の音
声合成装置。
5. The speech synthesizer according to claim 1, wherein said rhythm generating means has a function of modulating a rhythm to be generated in accordance with the content of the voice to be synthesized.
【請求項6】 請求項1ないし5いずれか1記載の音声
合成装置に、CG人物が合成音声に同期をとって動作す
るようにCGを制御するCG制御手段を設け、該CG制
御手段の出力に基づいて、合成CGを合成音声とともに
出力することを特徴とする音声合成及びCG合成出力装
置。
6. A voice synthesizing apparatus according to claim 1, further comprising CG control means for controlling CG so that a CG person operates in synchronization with the synthesized voice, and an output of said CG control means. A speech synthesis and CG synthesis output device, which outputs a synthesized CG together with a synthesized voice based on the following.
【請求項7】 請求項1ないし5いずれか1記載の音成
合成装置に、ユーザの発話を入力する入力手段と、該入
力手段から入力されたユーザの発話のリズムを検出する
リズム検出手段とを設け、該リズム検出手段における検
出結果を用いて、前記ピッチパターンの制御を行うこと
を特徴とする対話装置。
7. An input means for inputting a user's utterance, and a rhythm detecting means for detecting a rhythm of the user's utterance input from the input means, to the sound synthesizing apparatus according to any one of claims 1 to 5. And controlling the pitch pattern using a detection result of the rhythm detecting means.
【請求項8】 請求項6記載の音声合成及びCG合成出
力装置に、ユーザの発話及び動きを入力する入力手段
と、該入力手段から入力されたユーザの発話及び動きの
リズムを検出するリズム検出手段とを設け、該リズム検
出手段における検出結果を用いて、前記ピッチパターン
の制御を行うことを特徴とする対話装置。
8. An input means for inputting a user's utterance and movement to the speech synthesis and CG synthesis output device according to claim 6, and a rhythm detection for detecting a rhythm of the user's utterance and movement input from said input means. Means for controlling the pitch pattern using the detection result of the rhythm detecting means.
【請求項9】 ユーザから発生される音声パワー、音声
ピッチ、および手の動きの動作モードのうち、少なくと
も一つの動作モードについて該動作モードの動作状態を
認識し、認識結果から前記発話のリズムまたは前記発話
及び動きのリズムを検出することを特徴とする請求項7
または8記載の対話装置。
9. An operation state of at least one of an operation mode of a voice power, a voice pitch, and a hand movement generated by a user is recognized, and a rhythm or utterance of the utterance is recognized from a recognition result. The utterance and movement rhythm are detected.
Or the interactive device according to 8.
【請求項10】 請求項1ないし5いずれか1記載の音
声合成装置を機能させるためのプログラムを記録したコ
ンピュータ読み取り可能な記録媒体。
10. A computer-readable recording medium on which a program for causing the speech synthesizing apparatus according to claim 1 to function is recorded.
【請求項11】 請求項6記載の音声合成及びCG合成
出力装置を機能させるためのプログラムを記録したコン
ピュータ読み取り可能な記録媒体。
11. A computer-readable recording medium on which a program for causing the speech synthesis and CG synthesis output device according to claim 6 to function is recorded.
【請求項12】 請求項7ないし9いずれか1記載の対
話装置を機能させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
12. A computer-readable recording medium in which a program for causing the interactive device according to claim 7 to function is recorded.
JP22802997A 1997-08-25 1997-08-25 Speech synthesizer Expired - Fee Related JP3437064B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22802997A JP3437064B2 (en) 1997-08-25 1997-08-25 Speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22802997A JP3437064B2 (en) 1997-08-25 1997-08-25 Speech synthesizer

Publications (2)

Publication Number Publication Date
JPH1165597A true JPH1165597A (en) 1999-03-09
JP3437064B2 JP3437064B2 (en) 2003-08-18

Family

ID=16870091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22802997A Expired - Fee Related JP3437064B2 (en) 1997-08-25 1997-08-25 Speech synthesizer

Country Status (1)

Country Link
JP (1) JP3437064B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (en) * 1997-12-10 1999-07-02 Toshiba Corp Voice interaction device and voice synthesizing method for voice interaction
WO2014192959A1 (en) * 2013-05-31 2014-12-04 ヤマハ株式会社 Technology for responding to remarks using speech synthesis
JP2015069038A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
JP2015069037A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
JP2015087740A (en) * 2013-05-31 2015-05-07 ヤマハ株式会社 Speech synthesis device, and program
CN112466277A (en) * 2020-10-28 2021-03-09 北京百度网讯科技有限公司 Rhythm model training method and device, electronic equipment and storage medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175082A (en) * 1997-12-10 1999-07-02 Toshiba Corp Voice interaction device and voice synthesizing method for voice interaction
WO2014192959A1 (en) * 2013-05-31 2014-12-04 ヤマハ株式会社 Technology for responding to remarks using speech synthesis
JP2015087740A (en) * 2013-05-31 2015-05-07 ヤマハ株式会社 Speech synthesis device, and program
US9685152B2 (en) 2013-05-31 2017-06-20 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP2015069038A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
JP2015069037A (en) * 2013-09-30 2015-04-13 ヤマハ株式会社 Voice synthesizer and program
CN112466277A (en) * 2020-10-28 2021-03-09 北京百度网讯科技有限公司 Rhythm model training method and device, electronic equipment and storage medium
CN112466277B (en) * 2020-10-28 2023-10-20 北京百度网讯科技有限公司 Prosody model training method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP3437064B2 (en) 2003-08-18

Similar Documents

Publication Publication Date Title
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
JP2002023775A (en) Improvement of expressive power for voice synthesis
JP3437064B2 (en) Speech synthesizer
JP2761552B2 (en) Voice synthesis method
JPH08335096A (en) Text voice synthesizer
JP2001125599A (en) Voice data synchronizing device and voice data generator
Lobanov et al. TTS-Synthesizer as a Computer Means for Personal Voice Cloning (On the example of Russian)
JP3742206B2 (en) Speech synthesis method and apparatus
JPH0580791A (en) Device and method for speech rule synthesis
Cheng et al. HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets
JP3233036B2 (en) Singing sound synthesizer
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JP3308875B2 (en) Voice synthesis method and apparatus
JP2573586B2 (en) Rule-based speech synthesizer
Gu et al. Combining HMM spectrum models and ANN prosody models for speech synthesis of syllable prominent languages
JPH09292897A (en) Voice synthesizing device
JPH1063287A (en) Pronunciation trainer
Heggtveit An overview of text-to-speech synthesis
JPH11352997A (en) Voice synthesizing device and control method thereof
Karjalainen Review of speech synthesis technology
JPH10301599A (en) Voice synthesizer
JP2573585B2 (en) Speech spectrum pattern generator
JPH06149283A (en) Speech synthesizing device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees