JP5361104B2 - Method and apparatus for processing speech from text using a non-language-dependent prosody markup - Google Patents

Method and apparatus for processing speech from text using a non-language-dependent prosody markup Download PDF

Info

Publication number
JP5361104B2
JP5361104B2 JP2001268566A JP2001268566A JP5361104B2 JP 5361104 B2 JP5361104 B2 JP 5361104B2 JP 2001268566 A JP2001268566 A JP 2001268566A JP 2001268566 A JP2001268566 A JP 2001268566A JP 5361104 B2 JP5361104 B2 JP 5361104B2
Authority
JP
Japan
Prior art keywords
tag
text
speech
curve
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001268566A
Other languages
Japanese (ja)
Other versions
JP2002091474A (en
Inventor
ピー.コチャンスキ グレゴリー
シィ チ−リン
Original Assignee
アルカテル−ルーセント ユーエスエー インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US23020400P priority Critical
Priority to US60/230204 priority
Priority to US09/845561 priority
Priority to US09/845,561 priority patent/US6856958B2/en
Application filed by アルカテル−ルーセント ユーエスエー インコーポレーテッド filed Critical アルカテル−ルーセント ユーエスエー インコーポレーテッド
Publication of JP2002091474A publication Critical patent/JP2002091474A/en
Application granted granted Critical
Publication of JP5361104B2 publication Critical patent/JP5361104B2/en
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a technique for modeling a speech having desired rhythm characteristics. SOLUTION: The set of tags for defining rhythm characteristics is prepared, and the selected tag is arranged in the proper place of a text main body. Each tag imposes constraint on the rhythm characteristics of a speech to be generated by processing the text. The set of equations to be solved so that a curve for defining the rhythm characteristics across the range of words and phrases can be generated and the set of equations to be solved so that a curve for defining the rhythm characteristics of the respective words in the phrases can be generated are generated according to the processing of the speech text and the tag. The data defined by the curve can be used together with the text so that the speech having the rhythm characteristics defined by the tag can be generated. The set of tags is generated by the reading of the training text to be read by a target speaker, and a training corpus on which the rhythm characteristics of the target speaker are reflected is generated, and then the training corpus is analyzed so that the tag for modeling the rhythm characteristics of the training corpus can be generated.

Description

本出願は、2000年9月5日付けで出願された米国特許出願第60/230,204号および2000年9月28日付けで出願された米国特許出願第60/236,002号の利点を請求するものであり、これらを双方とも全体的に参照することにより本明細書に援用する。 This application, the advantages of filed Sep. 28, filed on September 5, 2000 U.S. Patent Application No. 60 / 230,204 and 2000 U.S. Patent Application No. 60 / 236,002 It is intended to claims, which are incorporated herein by reference them both overall.
本発明は、概して、連続すると共に生理学的制約を受ける現象の表現およびモデリングにおける改良に関する。 The present invention relates generally to improvements in expression and modeling of phenomena undergoing physiological constraints with continuous. 特に、本発明は、信号の特徴およびタグの処理を定義して、タグによって定義される特徴を有する信号を生成するタグのセットの作成およびその使用に関する。 In particular, the present invention is to define a process for the characteristic and the tag signals, for creating and using the set of tags to generate a signal having the characteristics defined by the tags.

テキスト−スピーチシステムは、通常単語および文章であるテキストの入力を受け取り、これらの入力を発話される単語および文章に変換する。 Text - Speech system receives an input of text is usually a word or sentence is converted into words and sentences are spoken these inputs. テキスト−スピーチシステムは、各発音可能なテキストの単位に応答するスピーチ単位および韻律のモデルの在庫表を構築するために、特定の話者のスピーチのモデルを採用している。 Text - speech system, in order to build a stock table of speech units and the prosody of the model to respond to the unit of each pronounceable text, have adopted the model of the speech of a particular speaker. スピーチの韻律特徴は、スピーチのリズム的およびイントネーション的な特徴である。 Prosodic features of speech are rhythmic and intonational features of speech. 次にシステムは、スピーチの単位を組み立て、テキストで表される順序にし、該スピーチ単位を並べたものを再生する。 The system then assembles the unit of speech, the order represented by the text, to play an ordered the speech units. 典型的なテキスト−スピーチシステムは、電話シーケンスを予測するためにテキストの解析を行い、各電話の長さを予測するために継続期間モデリングを行い、ピッチ輪郭を予測するためにイントネーションモデリングを行い、異なる解析およびモジュールの結果を組み合わせて、スピーチ音声を作成するために信号処理を行う。 Typical text - speech system analyzes the text to predict phone sequence, performs the duration modeling to predict the length of each telephone performs intonation modeling to predict the pitch contour, by combining the results of the different analyzes and module performs signal processing in order to create a speech sound.

多くの従来技術によるテキスト−スピーチシステムは、合成スピーチを生成するテキストから、韻律情報を推定する。 Text many prior art - speech system, from the text to generate a synthesized speech, estimates the prosody information. 韻律情報には、スピーチのリズム、ピッチ、アクセント、音量、および他の特徴が含まれる。 The prosody information, speech rhythm, pitch, accent, include volume, and other features. テキストは、通常、韻律情報を推定することのできる情報をわずかにしか含まない。 The text, usually, not only to contain only the information that can be used to estimate the prosodic information. したがって、従来技術によるテキスト−スピーチシステムは、中庸に設計される傾向がある。 Accordingly, the text according to the prior art - Speech systems tend to be designed to moderate. 中庸に設計されたシステムは、正確な韻律を決定できない場合には、不正確な韻律よりもあいまいな韻律の方が勝るという理論に基づき、あいまいな韻律を生成する。 Moderate system designed, the precise if it is unable to determine the prosody is based on the theory that outweigh found the following ambiguous than incorrect prosody prosody, it generates an ambiguous prosody. その結果、韻律モデルも同様に中庸に設計される傾向があると共に、自然なスピーチに見られる韻律の変動をモデリングする能力を持たない。 As a result, the prosody model with tend to be designed to moderate similarly do not have the ability to model the variations in prosody found in natural speech. これらの変動により、自然なスピーチに、任意所定のピッチ輪郭にマッチする能力、または個人のスピーチスタイルおよび感情等、広範な印象を伝達する能力を与えられる。 These fluctuations, in natural speech, given the ability to transfer capacity to match any given pitch contour, or personal speech style and emotion, etc., a wide range of impression. 従来技術によるテキスト−スピーチシステムによって生成されるスピーチにおけるこのような変動の欠落は、多くのこのようなシステムによって生成される人工的な音声に大きく寄与している。 Prior art text - lack of such variations in the speech produced by the speech system contributes greatly to artificial speech that are generated by a number of such systems.

多くの用途において、対話を実行可能なテキスト−スピーチシステムを用いることが望ましい。 In many applications, capable of performing interactive text - it is desirable to use a speech system. 例えば、テキスト−スピーチシステムを用いて、顧客の入力に対して発話される応答を提供する、電話メニューシステム用のスピーチを生成できる。 For example, the text - by using a speech system to provide a response which is spoken to the input of the customer, can generate a speech for a telephone menu system. このようなシステムは、概念、目標、および意図に相当する状態情報を適宜含みうる。 Such systems, the concept may include a target, and the status information corresponding to the intended appropriately. 例えば、システムが「Wells Fargo Bank」等単一の固有名詞を表現する単語セットを生成する場合、合成されたスピーチは、その単語セットが単一の名詞であることを伝える音声の特徴を含むべきである。 For example, if the system generates a set of words that represent the "Wells Fargo Bank" or the like single proper noun, the synthesized speech, should contain audio features saying that the word set is a single noun it is. 他の場合、ある単語が特に重要であること、またはある単語が確認を要するものであることを、印象によって伝える必要がある場合がある。 In other cases, it is a word is particularly important, or that a word is one that requires the confirmation, we may be necessary to convey the impression. 正確な印象を伝えるため、生成されるスピーチは、適切な韻律特徴を持たなければならない。 To convey an accurate impression, speech that is generated must have the proper prosodic features. 生成されるスピーチに有利に定義しうる韻律特徴には、ピッチ、振幅、およびスピーチに自然な音声を与えると共に、所望の印象を伝えるために必要な任意の他の特徴がある。 The advantage may define prosodic features speech generated, pitch, amplitude, and with providing a natural voice speech, there is any other feature necessary to convey the desired impression.

発明が解決しようとする課題 Problems that the Invention is to Solve

したがって、所望の特徴を有するスピーチをモデリングするのに十分詳細に韻律特徴を定義することのできるタグのシステムおよびタグを処理して、タグによって定義される特徴を有するスピーチを生成するシステムが必要とされる。 Therefore, the processing systems and tags of the tag can be defined in sufficient detail prosodic features to model speech with desired characteristics, a need for a system to generate a speech having the characteristics defined by the tags It is.

課題を解決するための手段 Means for Solving the Problems

本発明は、所望の韻律特徴を有するスピーチを生成するシステムへの必要性を認識する。 The present invention recognizes the need for the system to generate a speech having a desired prosodic features. このために、本システムは、連続すると共に生理学的制約を受ける現象のモデリングに使用することのできるタグのセットの生成および処理を含む。 For this, the system includes the generation and processing of a set of tags that can be used to model the phenomenon undergoing physiological constraints with continuous. スピーチの韻律特徴はこのような現象の一例であり、特定話者のスピーチの韻律特徴または他の所望の韻律特徴を表現するように、タグのセットを作成することができる。 Prosodic features of speech is an example of this phenomenon, to represent prosodic features or other desired prosodic features of speech of a particular speaker, it is possible to create a set of tags. これらのタグは、テキスト内の適切な場所でテキストに適用することができ、また、テキストを処理することによって生成されるスピーチの韻律特徴を定義することができる。 These tags can be applied to the text at the appropriate place in the text, it is also possible to define the prosodic features of speech that are generated by processing the text. タグのセットは、テキストと共にタグを処理することで、タグが作成された元のスピーチの韻律特徴を有するスピーチを正確にモデリングすることができるほど十分詳細に韻律特徴を定義する。 The set of tags to treat the tag with the text, to define a sufficiently detailed to prosodic feature can be modeled speech with prosody characteristic of the original tag is created speech accurately. このレベルの詳細を含めることで、タグを非言語依存にすることができる。 By including this level of detail, it can be a tag in a non-language-dependent. これは、他の場合には、用いられる言語の韻律特徴の知識によって提供される情報を、タグを用いて提供できるためである。 This, in other cases, the information provided by the knowledge of the prosodic features of the language used, in order to be provided with a tag. このようにして、本発明によるタグのセットを採用するテキスト−スピーチシステムは、すべての言語で正確な韻律を生成することができると共に、言語を混合したテキストに対して正確な韻律を生成することができる。 In this way, the text adopts the set of tags according to the present invention - speech system, it is possible to generate an accurate prosody in all languages, to produce an accurate prosody for text mixed languages can. 例えば、本発明の教示を採用するテキスト−スピーチシステムは、フランス語の引用を含む英語のテキストブロックを正確に処理可能であると共に、該スピーチの英語の部分に正確な韻律特徴を、そして同様に該スピーチのフランス語の部分に正確な韻律特徴を有するスピーチを生成することが可能である。 For example, text employs the teachings of the present invention - speech system, French reference with which can be accurately processed text block English containing the the exact prosodic features English part of the speech, and similarly the it is possible to generate a speech with correct prosody characteristic French parts of speech.

スピーチの正確な表現を提供するために、タグ間の折衷を定義する情報を含むことが好ましく、タグ処理時に、どのようにタグが互いに関連するかを定義するタグ内の情報およびデフォルト情報に基づいて、折衷が行われる。 In order to provide an accurate representation of speech, it is preferable to include information defining a compromise between the tags, during tag processing, based on the information and the default information in the tags that define how the tags associated with each other Te, compromise is carried out. 多くのスピーチ単位は、他のスピーチ単位の特徴に影響を及ぼす。 Many of the speech unit, affect the features of other speech units. 隣接単位は、特に、互いに影響を及ぼす傾向を有する。 Adjacent units, especially, having influence tends to each other. 音節、単語、または単語グループ等、隣接する単位の定義に用いるタグが、韻律特徴の割り当てに関して競合する命令を含む場合、情報の優先度、および競合および折衷をどのように処理するかにより、適切な調整が行われる。 Syllables, words or word groups, etc., a tag used to define the adjacent units, may include instructions to compete for assignment of prosodic features, priority information, and by how to handle conflicts and compromise, appropriate Do adjustment is performed. 例えば、隣接する単語または語句がそれぞれ調整される。 For example, adjacent words or phrases are adjusted respectively. あるいは、タグ情報が隣接する単語または語句の一方が優勢であることを示す場合には、他方の単語または語句に対して適切な調整が行われることになる。 Alternatively, to indicate that one of the word or phrase tag information adjacent predominates would appropriate adjustments are made to the other of the word or phrase.

タグのセットは、トレーニングにより、すなわち特定の話者が読んだトレーニングテキストコーパスの特徴を解析することで定義することができる。 Set of tag is, by training, that can be defined by analyzing the characteristics of the particular speaker has read training text corpus. タグは、識別された特徴を用いて定義することができる。 Tags can be defined using the identified feature. 例えば、トレーニングコーパスから、話者が150Hzの基本発話周波数を有し、話者のスピーチのピッチは疑問文の末尾では50Hz上がることがわかると、生成されるスピーチの基本周波数を150Hzに設定すると共に、質問の末尾にピッチを50Hz上げるようタグを定義することができる。 For example, from the training corpus, it has a fundamental speech frequency of the speaker is 150Hz, and it can be seen that the 50Hz go up at the end of the pitch is interrogative sentence of speech of the speaker, and sets the fundamental frequency of speech that is generated to 150Hz , the pitch at the end of the questions it is possible to define a tag to raise 50Hz.

タグを一旦確立すると、スピーチを生成することが望ましいテキスト本文に入力することができる。 Once you establish a tag, it can be input to the body of text it is desirable to generate a speech. これは単に、エディタを用いて適切なタグをテキストに入力するだけで行うことができる。 It simply can be done simply by entering the appropriate tag in the text using an editor. 例えば、「You are the weakest link」という文に対してテキスト−スピーチ処理を行い、「are」という単語にアクセントを置いた150Hzの基本周波数を確立したい場合に、タグを次のように文に付加することが可能である。 For example, the text for the statement that "You are the weakest link" - made a speech processing, if you want to establish the fundamental frequency of 150Hz, which put the accent on the word "are", added the tag to the statement as follows: it is possible to. <setbase=150/>You<stress strength=4 type=0.5 pos=*shape=-0.2s.03, -.1s.03, 0s0,0.1s-0.1, 0.2s-0.1/>are<slope=-0.8/>the weakest link。 <Setbase = 150 /> You <stress strength = 4 type = 0.5 pos = * shape = -0.2s.03, -.1s.03, 0s0,0.1s-0.1, 0.2s-0.1 /> are <slope = - 0.8 /> the weakest link.

この結果、約150Hzを中心とするピッチを有し、単語「are」にアクセントが置かれ、単語「are」の終わりから文の終わりにかけてピッチが下がる語句曲線になる。 As a result, have a pitch centered at about 150Hz, word accent in "are" is placed, the phrase curve pitch is lowered toward the end-to-end word "are" in the sentence. テキストおよびタグによって定義されるデータが合成器に与えられると、合成器による文の発音の仕方は、語句曲線によって定義される特徴を反映したものになる。 When data defined by the text and tags are applied to the synthesizer, the manner of pronunciation of the sentence by the synthesizer, made to reflect the characteristics defined by the phrase curve. タグおよびその作用のさらなる態様について後述する。 It will be described later a further embodiment of the tag and its effects.

エディタを用いてタグを入力する代替として、プログラムしたルールセットに従い、タグを自動的にスピーチに配置することが可能である。 As an alternative to entering a tag with an editor according ruleset programmed, it is possible to place the automatic speech tags. 平叙文のピッチを定義する例示的なルールセットは、例えば、文の行程にわたって垂下する傾きを設定し、文の最後の単語には下がるアクセントを用いるというものでありうる。 Exemplary rule set that defines the pitch of the declarative sentence, for example, to set the inclination to droop over stroke of the statement may be one that uses the accent down the last word of a sentence. こういったルールをテキスト本文に適用すると、テキスト本文内の各平叙文に適切なタグが確立される。 When you apply these rules to a body of text, an appropriate tag is established in each declarative sentence in the text body. 他の文のタイプおよび機能を定義するために、さらなるルールを採用してもよい。 To define the type and function of other sentences, may be employed to further rules. 例えば音量(振幅)およびアクセント(強調)を定義するために、他のタグを確立して、テキストに適用しうる。 For example to define a volume (amplitude) and accent (emphasis) establishes the other tags can be applied to the text.

テキスト本文がタグのセットを用いて作成されると、タグが処理される。 When the body of text is created using a set of tags, the tag is processed. 最初に、語句曲線が計算される。 First, the phrase curve is calculated. 語句曲線は、語句の範囲にわたって計算される、ピッチ等の韻律特徴を表す曲線である。 Phrase curve is calculated over a range of terms, a curve representing the prosodic characteristics such as pitch. 本発明による添付のタブを用いて、テキストを処理するに当たり、一度に1つの小語句(minor phase)を処理することで、語句曲線を適宜作成することができる。 With attachment tabs according to the invention, when processing the text, by processing one small words a (minor phase) at a time, it is possible to create a phrase curve appropriately. ここで、小語句とは、語句、従属節、または等位節である。 Here, the small word, phrase, subordinate, or coordination clause. 1つの文は、通常、1つまたは複数の小語句を含む。 A statement, usually including one or more small words. タグの先行する小語句に影響を及ぼす能力を1つの小語句に制限するために、境界が設けられる。 In order to limit the ability to affect the small phrase preceding the tag for one small phrase boundaries are provided. 次に、語句曲線に関して、韻律が計算される。 Next, with respect to the phrase curve, prosody is computed. 個々の単語単位での韻律特徴が計算され、各語句におけるその作用が計算される。 The prosodic features of the individual word unit is calculated, the action of each word is calculated. この計算は、例えば語句内に現れる、アクセントが置かれる単語の作用をモデリングする。 This calculation, for example, appears in the phrase models the effect of word accent is placed. 語句曲線に関して韻律を計算した後に、言語的属性から観察可能な音響特徴へのマッピングが行われる。 After calculating the prosody respect phrase curve, mapping to observable acoustic features from linguistic attributes it is performed. 次に、音響特徴が、テキストを処理することで生成されたスピーチに適用される。 Next, the acoustic characteristics is applied to speech generated by processing the text. 音響特徴は、特定の時間に特定の値を有し、時間の関数をそれぞれ表す1つの曲線または曲線のセットで適切に表すことができる。 Acoustic feature has a particular value at a particular time, it can be adequately represented by a set of one curve or curves each representing a function of time. スピーチは機械によって生成されるため、各スピーチ成分が発生する時間がわかる。 Because speech is generated by a machine, it is understood the time that each speech component is generated. したがって、特定のスピーチ成分に適切な韻律特徴を、スピーチの成分が発生するとわかっている時間における値として表現することができる。 Therefore, it is possible to express the appropriate prosodic features to a particular speech component, as the value in time is known as a component of the speech is generated. スピーチ成分は、入力として合成器に与えることができ、観察可能な音響特徴の値も、スピーチの特徴を制御するために合成器に与えられる。 Speech component may be provided to the synthesizer as input, the value of the observable acoustic features are also provided to combiner to control the characteristics of the speech.

本発明のより完全な理解ならびに本発明のさらなる特徴および利点は、以下の詳細な説明および添付の図面から明らかになろう。 Further features and advantages of a more complete understanding and the invention of the present invention will become apparent from the following detailed description and the accompanying drawings.

以下の説明は、本発明によるスピーチの韻律特徴を特定するための技術について説明する。 The following description describes techniques for identifying prosodic features of the speech according to the present invention. まず、テキスト/スピーチ処理の全体的なプロセスについて説明する。 First, a description will be given of the overall process of the text / speech processing. 次に、韻律特徴を特定するために用いるタグのセットについて説明する。 Next, a description will be given a set of tags used to identify the prosodic features. タグの概略的な構造と文法を説明した後に、タグにおいて用いられるタグ、パラメータ、および値の各カテゴリについて説明する。 After describing the schematic structure and grammar of the tag, the tag used in the tag, parameters, and for each category values ​​will be described. 次に、いくつかの例示的な各タグの作用について、異なるパラメータの作用、競合するタグ間の折衷、および他のタグの代表的な属性を示しながら、説明する。 Next, some exemplary actions of each tag, the action of the different parameters, compromise between tags competing, and while exhibiting typical attributes of other tags are described. 次に、本発明による、タグを含むテキスト本文の処理の説明、ターゲット話者の韻律特徴を有するスピーチを生成するためのタグの作成および使用方法の説明、および本発明によるテキスト−スピーチ処理システムの説明が続く。 Then, according to the invention, the process of the text body including a tag description, description of how to create and use tags to generate a speech having prosodic features of the target speaker, according to the invention and text - Speech processing system description continues.

図1は、本発明による、タグを含むテキスト本文のテキスト−スピーチ処理のプロセス100を示す。 1, according to the present invention, the text body of the text including a tag - shows a process 100 of speech processing. ステップ102において、テキスト本文を解析し、タグを抽出する。 In step 102, it analyzes the text body, and extracts the tag. ステップ104において、タグを処理し、ピッチおよび音量等、該タグによって時間の関数として定義される音響特徴の値を決定する。 In step 104, it processes the tag, pitch and volume, etc., to determine the value of the acoustic feature which is defined as a function of time by the tag. ステップ106において、音響特徴について決定されたテキストおよび値を、合成器に与えられる言語的記号に変換する。 In step 106, it converts the determined text and values ​​acoustic feature, the linguistic symbols provided to the synthesizer. ステップ108において、言語的記号を入力として合成器に与え、タグによって定義される音響特徴を有するスピーチを生成する。 In step 108, provided to the combiner as input linguistic symbol, it generates a speech with acoustic characteristics defined by the tags.

タグは、テキストを処理することで生成されるスピーチに望ましい韻律特徴を定義するために、テキスト本文内、通常は単語の間に配置される。 Tag, in order to define a desired prosodic features speech is generated by processing the text, the text body, usually located between the words. 各タグは、韻律に対して制約セットを課す。 Each tag, impose a constraint set for prosody. <step>タグおよび<stress>タグは、他のタグへの関係を定義する「strength」パラメータを含む。 <Step> tag and the <stress> tag includes a "strength" parameters that define the relationship to other tags. タグは競合する情報を頻繁に含み、「strength」パラメータは、競合をどのように解決するかを決定する。 Tags often contain conflicting information, "strength" parameter, to determine how to resolve the conflict. 「Strength」パラメータのさらなる詳細およびその動作については後述する。 Below for more details and operation of the "Strength" parameter.

タグは、XMLすなわち拡張可能なマーク付け言語フォーマットで適切に定義することができる。 Tags, can be appropriately defined in XML i.e. extensible markup language format. XMLは、ワールドワイドウェブでの構造化文書用の汎用フォーマットであり、www.w3.org/XMLにおいて説明されている。 XML is a general-purpose format for structured document of the World Wide Web, are described in www.w3.org / XML. 当業者には、タグはXMLシンタクスで実現する必要がないことが明確であろう。 Those skilled in the art, the tag will be clear that it is not necessary to implement in XML syntax. タグは、(XMLで使用される「<」および「>」とは異なり)あらゆる任意の文字列で区切ることができ、タグの内部構造は、XMLのフォーマットに従わなくてもよく、適切に、タグの識別が可能であると共に、必要な属性を設定可能な任意の構造でありうる。 Tag (unlike "<" and ">" are used in XML) can be separated by any arbitrary character string, the internal structure of the tag may be followed XML format, suitably, as well as a possible identification of the tag can be any structure capable of setting attributes required. また、単一のキャラクタストリームにおいて、タグの間にテキストが介在している必要がないことも認識されよう。 Further, in a single character stream, text between the tags will also be recognized that there is no need to be interposed. タグおよびテキストは、例えば、タグを対応するテキストシーケンスでの場所に同期させる手段がありさえすれば、2つの並列データチャネルで流れることができる。 Tags and text, for example, if only there is means for synchronizing the tag to the location in the corresponding text sequence, can flow in two parallel data channels.

タグは、テキストが存在せず、入力が一連のタグだけから構成される場合にも用いうる。 Tag, there is no text, may also be used if the input is composed of only a series of tags. このような入力は、例えば、コンピュータグラフィックスアプリケーション用に筋力学をモデリングするために、これらのタグを用いる場合に適切である。 Such input can, for example, to model the muscle studies in computer graphics applications, is appropriate when using these tags. 一例を挙げると、シミュレートした金魚のひれの動きを制御するために、タグを用いることも可能である。 As an example, in order to control the movement of the fins of goldfish simulated, it is also possible to use a tag. このような場合、存在していないテキストからタグを分離する必要はなく、また、タグの区切り文字は、タグを次のタグから分離するために必要なだけである。 In such a case, it is not necessary to separate the tag from the non-existent text, also, the delimiter tag, it is only necessary to separate the tag from the next tag.

最後に、タグをシリアルデータストリームとして表現する必要はなく、シリアルデータストリームとして表現する代わりに、コンピュータのメモリ内のデータ構造として表現可能なことが認識されよう。 Finally, there is no need to express a tag as a serial data stream, instead of representing a serial data stream, it will be appreciated that expressible as a data structure in memory of a computer. 例えば、コンピュータプログラムがテキストおよびタグを生成中の対話システムでは、テキスト(もしあれば)、タグ、およびテキストとタグの間の一時的な関係を記述するデータ構造にポインタまたはリファレンスを渡すことが、最も効率的でありうる。 For example, the interactive system in generating a computer program text and tags (if any) text, tags, and the temporal relationship between the text and tags can pass a pointer or reference to the data structure that describes, It may be the most efficient. そして、タグを記述するデータ構造は、おそらく例えば、デバッグ、メモリ管理、または他の補助的目的で使用される他の情報と共に、XML記述と同等の情報を含む。 Then, the data structure that describes the tags include perhaps for example, debugging, memory management, or other together with other information used by the ancillary purposes, the XML description information equivalent.

本発明によるタグのセットについて以下に説明する。 The set of tags according to the present invention will be described below. この説明において、アルファベットのストリングは引用符で囲まれている。 In this description, the alphabet of the string is enclosed in quotation marks. XML表記法での標準のように、「?」はオプショントークンを表し、「*」はトークンのゼロまたは複数の発生を表し、「+」はトークンの1つまたは複数の発生を表す。 Like a standard in XML notation, "?" Represents the option token, "*" represents zero or more occurrences of the token, "+" represents one or more of the occurrence of the token. タグの文法は、次のフォーマットで表される。 Grammar tag is expressed in the following format.
タグ=”<”tagname AttValue”*”/>” Tag = "<" tagname AttValue "*" /> "
例示的なタグは、 An exemplary tag,
<set base=”200”/>である。 Is <set base = "200" />. このタグは、話者の基本周波数を200HZに設定する。 This tag, to set the fundamental frequency of the speaker to 200HZ. この例において、「”<”」はタグの開始を示し、「set」はとるべきアクション、すなわち特定された属性の値を設定することであり、「base」は値を設定すべき属性であり、「200」は属性「base」を設定すべき値であり、「”>”」はタグの終了を示す。 In this example, "" < "" indicates the start of a tag, "set" action to be taken, ie by setting the value of a specific attribute, "base" is an attribute should be set the value , "200" is a value to be set the attribute "base", ""> "" indicates the end of the tag.

各タグは、2つの部分を含む。 Each tag includes two parts. 第1の部分はアクションであり、第2の部分は、タグの動作の詳細を制御する属性−値の対のセットである。 The first part is the action, the second portion, the attribute controls the details of the operation of the tag - is a set of pairs of values. 殆どのタグは、自己完結する「point」タグである。 Most of the tags is a "point" tag, which self-contained. タグをいつ動作させるかを定義する際の精度を考慮するために、タグは「move」属性を含みうる。 To account for precision in defining whether to when operating the tag, the tag may include a "move" attribute. この属性は、タグを単語の冒頭に配置させることができるが、その作用を単語内のどこかに任せる。 This attribute can be placed tags at the beginning of a word, left to somewhere in the word their action. 「move」属性の使用および動作については、さらに詳細に後述する。 The use and operation of the "move" attribute, described in more detail below.

タグは、4つのカテゴリ、すなわち(1)パラメータを設定するタグ、(2)語句曲線、または語句曲線を構築するポイントを定義するタグ、(3)単語のアクセントを定義するタグ、および(4)境界をマークするタグ、のうちの1つに分類される。 Tag, four categories, namely (1) a tag for setting parameters, (2) tags that define the point to construct a phrase curve or phrase curve, and (3) a tag that defines the word accent and, (4) tag that marks the boundaries are classified into one of.

パラメータは、<set Att=value>という文法を有する、<set>タグによって設定される。 Parameter has the syntax of <set Att = value>, it is set by the <The set> tag. ここで、「Att」はタグが制御する属性であり、valueはその属性の数値である。 Here, the "Att" is an attribute to which a tag control, value is a numerical value of the attribute. <set>タグは、以下の属性を許容する。 <Set> tag allows the following attributes.
max=value。 max = value. この属性は、許容される最大の値、例えば、ピッチが適宜制御されている場合に生成されるべき、最大周波数をヘルツ単位で設定する。 This attribute maximum value allowed, for example, to be produced when the pitch is suitably controlled to set the maximum frequency in Hertz.
min=value。 min = value. この属性は、許容される最小の値、例えば、ピッチが適宜制御されている場合に生成されるべき、最小周波数をヘルツ単位で設定する。 This attribute minimum value allowed, for example, to be produced when the pitch is suitably controlled to set the minimum frequency in Hertz.
smooth=value。 smooth = value. これは、シミュレート中の機械システムの応答時間を制御する。 It controls the response time of the mechanical system being simulated. ピッチが制御されている場合、このパラメータは、ピッチステップの幅を設定するために、ピッチ曲線の平滑時間を秒単位で設定する。 If the pitch is controlled, this parameter, in order to set the width of the pitch step, setting the smoothing time of the pitch curve in seconds.
base=value。 base = value. これは、話者のベースライン、すなわちタグが全くない状態での周波数を設定する。 This is, to set the frequency in the state baseline, that is, the tag is no speaker.
range=mvalue。 range = mvalue. これは、話者のピッチの範囲をHz単位で設定する。 This sets the range of the pitch of the speaker in Hz.
pdroop=value。 pdroop = value. これは、基本周波数への語句曲線の垂下を設定し、1秒当たりの垂下量を単位として表される。 This sets the droop phrase curve to the fundamental frequency, represented droop amount per second as a unit.
adroop=value。 adroop = value. これは、語句曲線に向けてのピッチ軌跡の垂下率を設定し、1秒当たりの垂下率を単位として表される。 This sets the droop rate of the pitch trajectory towards phrase curve, it represented droop rate per second as a unit.
add=value。 add = value. これは、語句の範囲にわたるピッチの軌跡と、語句に対して局所的な影響を有する個々の単語のピッチの軌跡との間のマッピングにおける非線形性を設定する。 This sets the pitch of the trajectory ranging words, the nonlinearity in the mapping between the trajectory of the individual pitch of words having a local effect on the word. 「add」の値が1に等しい場合、線形マッピングが行われる。 If the value of "add" is equal to 1, a linear mapping is performed. すなわち、アクセントが、高ピッチ領域にあるか、または低ピッチ領域にあるかに関わらず、ピッチに対して同じ作用を有する。 That is, accents, or in the high pitch region, or whether a low pitch regions have the same effect on the pitch. 「add」の値が0に等しい場合、アクセントの作用は対数的であり、高い語句曲線上にあるときには、小さなアクセントが周波数をより大きく変化させる。 Is equal to the value 0 of the "add", the action of accents is logarithmic, but when present on the high phrase curve, small accents alters greater frequency. 「add」の値が1よりも大きい場合、線形マッピングよりも低速で行われる。 If the value of "add" is greater than 1, it takes place at a lower speed than the linear mapping.
jitter=value。 jitter = value. これは、ピッチジッタの平方二乗平均(RMS)の大きさを、話者の範囲を1とした小数で設定する。 This root-mean-square pitch jitter magnitude of (RMS), to set a decimal taken as 1 range speaker. ジッタは、処理されたスピーチにより自然な音声を与えるために導入されるランダムなピッチ変動の程度である。 Jitter is the degree of random pitch variations introduced to give a natural sound by processing speech.
jittercut=value。 jittercut = value. これは、ピッチジッタの時間の尺度を秒単位で設定する。 This is, to set the time of the measure of the pitch jitter in seconds. ピッチジッタは、「jittercut」よりも短い間隔では、相関する(1/f)ノイズであり、「jittercut」よりも長い間隔では相関しないノイズ、すなわちホワイトノイズである。 Pitch jitter is a shorter interval than "jittercut" is correlated (1 / f) noise, noise uncorrelated with longer intervals than "jittercut", that is, white noise. 大きな値の「jittercut」は、より長くかつ平滑なピッチの値を定義する一方、小さな値の「jittercut」は、短く不規則なピッチの変化を定義する。 "Jittercut" large value, while defining a value of the longer and smoother pitch, "jittercut" small value defines a change in short irregular pitch.

<set>タグに提供される引数は、テキスト−スピーチ処理が完了するまで、語句の境界にわたってまで、各音声ごとに保持される。 Arguments provided in <The set> tag, text - until speech processing is completed, until the over word boundaries are held for each voice.

<step>タグはいくつかの引数をとり、語句曲線に対して動作する。 <Step> tag takes several arguments, operates on the phrase curve. <step>タグは、<step by=value|to=value|strength=value>の形態をとる。 <Step> tag is in the form of <step by = value | strength = value | to = value>. <step>タグの属性は、以下のようなものである。 <Step> attribute of the tag is as follows.
by=value。 by = value. これは、各ステップのサイズを、話者の範囲を1とした小数で定義する。 This allows the size of each step is defined by the decimal that the 1 range of the speaker. 語句曲線におけるステップは、「smooth」時間によって平滑化される。 Step in phrase curve is smoothed by the "smooth" time. パラメータ「smooth」は上記で定義される。 The parameter "smooth" is defined above.
to=value。 to = value. これは、ステップが近づいていく周波数であり、話者の範囲を1とした小数で表現される。 This is the frequency at which the step is approaching, is expressed as a decimal, which was one of the range of the speaker.
strength=value。 strength = value. この属性は、特定の<step>タグがどのようにその隣接タグと相互作用するかを制御する。 This attribute controls how its neighboring tag interacts with a particular <step> tag. 「strength」の値が高い場合、タグはその隣接タグに対して優勢であり、「strength」の値が低い場合、隣接タグがそのタグに対して優勢である。 If the value of the "strength" is high, the tag is predominant with respect to its neighboring tag, if the value of the "strength" is low, predominates adjacent tag for that tag.

<slope>タグは、1つの引数をとり、語句曲線に対して動作する。 <Slope> tag takes a single argument, operates on phrase curve. <slope>タグは、<slope rate=value”%”? <Slope> tag, <slope rate = value "%"? >という形態を有する。 > Has the form of a. これは、1秒当たりの話者の範囲を1とした少数で表される語句の増減率を設定する。 This sets the rate of change terms represented a range of speakers per second in a few taken as 1. 記号「”%”」が存在する場合、その値は小語句の単位長さ当たりの範囲に対する割合に関して増減を表す。 If the symbol ""% "" exists, the value represents the increase and decrease with respect to ratio range per unit length of the small terms.

<stress>タグは、語句曲線に関する韻律を定義する。 <Stress> tag defines the prosody about the phrase curve. 各<stress>タグは、語句曲線に関して好ましい形状および好ましい高さを定義する。 Each <stress> tag defines the preferred shape and preferably a height with respect to the phrase curve. しかし、<stress>タグがしばしば競合する特性を定義する。 However, to define the characteristics that often conflict <stress> tag. <stress>タグを処理する上で、<stress>タグによって定義される好ましい形状および高さは、これらの特性が互いに折衷できるように、また、ピッチ曲線が平滑でなければならないという要件により、変更される。 In processing <stress> tag, preferred shape and height are defined by the <stress> tag, so that these properties can compromise with each other, also by the requirement that the pitch curve must be smooth, change It is. <stress>タグは、<stress shape = (point”.”) *point|strength = value|type=value>という形態を有する。 <Stress> tag has the form of a <stress shape = (point ".") * Point | type = value | strength = value>.

「shape」パラメータは、他のstressタグや制約との折衷がない場合に、アクセント曲線の理想的な形状を、点の集合という点において特定する。 "Shape" parameter, if there is no compromise with other stress tag and constraints, the ideal shape of the accent curve, be specific in terms of a set of points.

「strength」パラメータは、アクセントの言語的強さを定義する。 "Strength" parameter defines the linguistic strength of the accent. 強さがゼロのアクセントは、ピッチに対して何の影響も及ぼさない。 Strength is zero accent, it does not exert any influence on the pitch. 強さが1よりもはるかに大きなアクセントには、それに匹敵するか、それよりも大きな強さを有する隣接タグがない場合、正確に従う。 Is the much greater accent than 1 intensity, or comparable to that, when there is no adjacent tags with greater strength than it followed exactly. それに匹敵するか、それよりも大きな強度を有する隣接タグがある場合には、アクセントは、隣接タグの強度に応じて、隣接タグと折衷されるか、または隣接タグが該タグよりも優勢になる。 Or comparable to it, if there is adjacent tags with greater strength than it, accent, in accordance with the intensity of adjacent tags, either compromise with adjacent tags, or adjacent tags will dominate than the tag . 強度がおおよそ1に等しいアクセントは、アクセントを滑らかにしたピッチ曲線になる。 Strength approximately equal accent 1 will pitch curve to smooth the accent.

「type」パラメータは、アクセントがピッチ曲線の平均値によって定義されるのるか、またはその形状によって定義されるのかを制御する。 "Type" parameter, or that the accent is defined by the average value of the pitch curve, or to control whether defined by its shape. 「type」パラメータの値は、アクセントが隣接タグと折衷する必要がある場合に作用する。 The value of the "type" parameter acts when it is necessary accent to compromise with adjacent tags. アクセントが隣接タグよりもはるかに強い場合、ピッチの形状および平均値の双方が保持される。 If the accent is much stronger than the adjacent tag, both the shape and the average value of the pitch is maintained.

しかし、折衷が必要な場合、「type」は、いずれの特性を折衷するかを決定する。 However, if the compromise is needed, "type" is, to decide whether to compromise any of the properties. 「type」が0の値を有する場合、アクセントは、平均ピッチを犠牲にしてその形状を保持する。 If having a value of "type" is 0, accent, retains its shape at the expense of average pitch. 「type」が1の値を有する場合、アクセントは、形状を犠牲にしてその平均ピッチを維持する。 If having a value of "type" is 1, accent, a shape sacrificed to maintain the average pitch. 「type」の値が0から1の間である場合には、「type」の実際の値によって決定される折衷の範囲で、形状と平均ピッチとの間で折衷する。 If the value in the "type" is between 0 and 1 is a compromise of the range is determined by the actual value of "type", to compromise between the shape and the average pitch.

<stress>タグの引数「shape」における「point」パラメータは、次のシンタクスに従う。 "Point" parameter in the argument "shape" of the <stress> tag, according to the following syntax.
point=float(X”s”|X”p”|X”y”|X”w”)value。 point = float (X "s" | X "p" | X "y" | X "w") value. アクセント曲線上の点は、周波数が話者の範囲を1とした小数で表される(時間、周波数)対として特定される。 Point on the accent curve is a decimal frequency is set to 1 range speaker (time, frequency) are specified as pairs. Xは、秒(s)、音素(p)、音節(y)、または単語(w)で測定される。 X is measured in seconds (s), phoneme (p), syllables (y), or words (w). アクセント曲線は滑らかなものであるという制約を付けることが好ましいため、アクセント曲線はそれほど詳細に特定する必要はない。 Since it is preferable to apply the constraint that accent curves are those smooth, accent curves do not need to identify less detail.

図2は、<stress strength=10 type=0.5 shape=0.3s0, 0.15s0.3, 0s0.5, 0.15s0, 0.25s0/>という値を有するstressタグによって記述される例示的なアクセント曲線202を示すグラフ200である。 2, <stress strength = 10 type = 0.5 shape = 0.3s0, 0.15s0.3, 0s0.5, 0.15s0, 0.25s0 /> Exemplary accent curve 202 described by stress tag having a value of it is a graph 200 showing. タグを処理することで、点204〜214と、該点204〜214に適合する曲線202とが生成される。 By processing the tag, the point 204-214, and fits the curve 202 is generated in the point 204-214. 曲線202の点204〜214ヘの適合は、いかにも人間のスピーチらしい自然な音声を反映する滑らかな曲線を生成するように設計されることが好ましい。 Point 204-214 F fit the curve 202 is preferably designed to produce a smooth curve that reflects the natural voice seems indeed human speech.

上述したタグの他に、語句の境界を挿入する<phrase>タグが実施される。 Other tags described above, to insert the word boundaries <phrase> tag is performed. 通常、<phrase>タグは、小語句または息継ぎグループをマークするために用いられる。 Usually, <phrase> tag is used to mark a small word or breath group. phraseタグを越えての事前計画は行われない。 Preplanning of beyond the phrase tag is not performed. <phrase>前に定義される韻律は、<phrase>タグの後に発生するいずれのタグからも全体的に無関係である。 Prosody defined <phrase> before is entirely independent from any of the tags occurring after the <phrase> tag.

上述したように、任意のタグが「move」属性を含むことができる。 As described above, can be any tag includes "move" attribute. 「move」属性は、該「move」属性が特定するポイントまでそのアクションを据え置くようタグに命令する。 "Move" attribute instructs the tag to defer the action to the point where the "move" attribute to identify. 「move」属性は、次のシンタクスに従う。 "Move" attribute, according to the following syntax.
AttValue=position|other_attributes AttValue = position | other_attributes
但し、position=”move””=”move_valueであり、 However, a position = "move" "=" move_value,
move_value=”ell”? move_value = "ell"? motion*であり、かつ A motion *, and
motion=(float|”b”|”c”|”e”)(”r”|”w”|”y”|”p”|”s”)”*”|”?である。 motion = (float | "b" | "c" | "e") ( "r" | "w" | "y" | "p" | "s") "*" |? "is.

motionは、左から右の順に評価される。 motion is evaluated from left-to-right order. positionは、move_valueが「”ell”」で開始しない場合、タグから開始されるカーソルとしてモデリングされる。 position is, if the move_value does not start in the "" ell "", is modeled as a cursor that is initiated from the tag. 「”ell”」で開始する場合には、先行するタグからの最後のカーソル位置が開始点として用いられる。 When starting with "" ell "", the last cursor position from the preceding tag are used as starting point. 通常、タグは単語内に配置され、「move」属性は、アクセントを単語内に配置するために用いられる。 Normally, tags are arranged in a word, "move" attribute is used to place the accent in a word. motionは、小語句(r)、単語(w)、音節(y)、音素(p)またはアクセント(*)に関して特定することができる。 motion can be specified in terms of small words (r), the words (w), syllables (y), phoneme (p) or accent (*). タグが語句の冒頭に集まっている場合には、小語句および単語に関してのmotionの特定が有用である。 If the tag is gathered at the beginning of the phrase, the particular motion with respect small phrases and words are useful. motionを識別するルールは、次のようなものである。 Rules that identify the motion is as follows. 小語句に関して特定されたmotionは、語句間のあらゆる小休止をスキップする。 motion identified with respect to the small phrase skips any pause between words. 単語に関して特定されるmotionは、単語間のあらゆる小休止をスキップする。 motion identified with respect to the word skips any pause between words. 音節に関して特定されるmotionは、一小休止を一音節として取り扱う。 motion identified with respect to the syllable handles an pauses as one syllable. 音素に関して特定されるmotionは、一小休止を一音素として取り扱う。 motion identified with respect to phoneme handles an pauses as a phoneme. 「b」、「c」、または「e」をmotionとして用いる場合、ポインタが、最も近い、語句、単語、音節、または音素の冒頭、中央、または末尾にそれぞれ移動する。 When using "b", "c", or "e" as a motion, pointer, closest, phrases, words, syllables or phonemes beginning of, the central, or respectively move to the end. 秒に関して特定されるmoveは、ポインタをその秒数分移動する。 move to be specified in terms of seconds, pointer moves its number of seconds. Motion”*”(強勢が置かれる)は、ポインタを次に強勢が置かれる音節の中央に移動させる。 Motion "*" (stress is placed) is moved to the center of the syllable next stress is placed pointers. 疑問符(?)はポインタを移動させず、疑問符に続くmotionが単語の境界と交差しないよう制限する役割を果たす。 The question mark (?) Is without moving the pointer, it serves to restrict the motion following the question mark does not intersect the word boundaries. 引数がその制約に違反する場合には、警告メッセージが生じるか、または違反するタグを無視させる。 If the argument is in violation of the constraint, or a warning message occurs, or to ignore the tag to violate.

「move」コマンドを含むタグの一例は、次のようなものである。 An example of a tag containing a "move" command is as follows.
<step move=*0.5p by=1/> <Step move = * 0.5p by = 1 />
このタグの作用は、該タグ後に最初に強勢が置かれる音節の中心から音素0.5個分後に最も急な部分があるステップを、ピッチ曲線に配置することである。 Action of the tag, the steps that the steepest part after the phoneme 0.5 pieces of the center of syllables first stress after the tag is placed, is to place the pitch curve. 「move」属性により、タグは、タグ自体の場所ではなく、所望のポイントで作用を生じさせる。 The "move" attribute, tag, rather than the location of the tag itself, give rise to action at the desired point.

図3A〜図3Iは、各種タグの作用を示す。 Figure 3A~ Figure 3I shows the effect of various tags. 図3Aは、単一の周波数を設定する1つの<step to>タグと、同一周波数をそれぞれ設定する2つの<step to>タグと、異なる周波数をそれぞれ設定する2つの<step to>タグと、をそれぞれ処理した結果生じる曲線302〜306を示すグラフ300である。 Figure 3A, and one <step-to> tag to set a single frequency, and two <step-to> tag to set respectively the same frequency, and two <step-to> tag to set respectively different frequencies, which is a graph 300 showing curves 302-306 that result from processing, respectively. 曲線302は、タグ<step strength=10 to=0.5/>から生じるものである。 Curve 302 is generated from the tag <step strength = 10 to = 0.5 />. 曲線304は、第1のタグ<step strength=10 to=0.5/>の後に介在するテキストが続き、次に第2のタグ<step strength=10 to=0.5/>が続いた結果生じるものである。 Curve 304 is for text intervening after the first tag <step strength = 10 to = 0.5 /> followed occur then the second tag <step strength = 10 to = 0.5 /> lasted results . 曲線306は、第1のタグ<step strength=10 to=0.5/>の後に介在するテキストが続き、次に第2のタグ<step strength=10 to=0/>が続いた結果生じるものである。 Curve 306 is for text intervening after the first tag <step strength = 10 to = 0.5 /> followed occur then the second tag <step strength = 10 to = 0 /> lasted results .

<step by>タグは、単にステップをピッチ曲線に挿入するだけのものである。 <Step By> tag, it simply intended to insert a step on the pitch curve. タグ<step by=X/>は、該タグ後のピッチが、タグ前のピッチよりもXHz高くなるように指示する。 Tag <step by = X /> is the pitch after the tag instructs the XHz higher than the pitch of the previous tag. 該タグは、ピッチを変えるが、タグのいずれの側におけるピッチにも任意特定の値をとるように強制はしない。 The tag is changing the pitch, it is not forced to assume any specific value to pitch in either side of the tag. したがって、<step by>タグが他のタグと競合する傾向はない。 Therefore, it is not prone to conflict <step by> tag and other tags. 例えば、<step to=100/>タグの後に<step by=-50/>が続く場合、<step by=-50>タグよりも前の周波数は100Hzとなり、該タグ後の周波数は50Hzになる。 For example, if the <step to = 100 /> after the tag <step by = -50 /> is followed, become <step by = -50> 100Hz next to the frequency of the prior tag, frequency after the tag is 50Hz .

図3Bは、曲線312および314を示すグラフ310である。 Figure 3B is a graph 310 showing the curves 312 and 314. 曲線312は、一連のタグ<step to=0.1 strength=10/>... <step by=0.3 strength=10/>から生じるものである。 Curve 312, a series of tag <step to = 0.1 strength = 10 /> ... is caused from <step by = 0.3 strength = 10 />. 曲線314は、一連のタグ<step to=0.1 strength=10/>... <step by=0.3 strength=10/>... <step by=0.3 strength=10/>から生じるものである。 Curve 314, is caused from a series of tag <step to = 0.1 strength = 10 /> ... <step by = 0.3 strength = 10 /> ... <step by = 0.3 strength = 10 />. ピッチ曲線に対する制約が競合していないため、この例では折衷が必要ない。 Since the constraints on the pitch curve does not conflict, there is no need to compromise in this example.

語句曲線には、<slope>タグも関連する。 The phrase curve, also associated <slope> tag. <slope>タグは、その引数に応じて、タグの左側、すなわちタグよりも時間的に先行する側に対して、語句曲線を上か下に傾斜させる。 <Slope> tag, according to the argument, the left tag, i.e. to the side which temporally precedes the tag, tilting the phrase curve up or down. slopeタグは、現在の傾きの値を置換させる。 slope tag to replace the value of the current slope. 説明のため、一連のタグ<slope rate=1/>... <slope rate=0/>の結果では、傾きはゼロになる。 For illustration, the set of tags <slope rate = 1 /> ... <slope rate = 0 /> results, tilt is zero. タグ<slope rate=0/>は、タグ<slope rate=1/>およびあらゆる先行タグによって設定された傾きを置換する。 Tag <slope rate = 0 /> replaces the inclination set by the tag <slope rate = 1 /> and any preceding tags.

図3Cは、曲線322〜328を含むグラフ320である。 Figure 3C is a graph 320 including a curve 322-328. 曲線322は、タグ<slope rate=0.8/>から生じるものである。 Curve 322 is caused from the tag <slope rate = 0.8 />. 曲線324は、一連のタグ<slope rate=0.8/>... <step by=0.1 strength=10>から生じるものである。 Curve 324, is caused from a series of tag <slope rate = 0.8 /> ... <step by = 0.1 strength = 10>. 曲線326は、タグ... <slope rate=0.8>から生じるものである。 Curve 326, is caused from the tag ... <slope rate = 0.8>. 曲線328は、一連のタグ<slope rate=0.8/>... <set slope=0.1/>から生じるものである。 Curve 328, is caused from a series of tag <slope rate = 0.8 /> ... <set slope = 0.1 />. 曲線322〜328はそれぞれ、語句の境界から開始される傾き、0.25秒遅延した傾き、小さなステップが置かれた傾き、および上がった後に下がる傾きを表している。 Curve 322 to 328 represent respectively, the slope starting from the phrase boundary, the gradient delayed 0.25 seconds, the slope small steps is placed, and the slope down after rose. 新しい値を有する<slope>タグが、先行する<slope>タグによって課されたあらゆる値を置換するため、折衷は必要ない。 <Slope> tag having a new value, preceding to replace any value imposed by <slope> tag, no compromise is required.

図3Dは、<phrase>タグの作用を示す。 Figure 3D shows the effect of <phrase> tag. グラフ330は、平坦なトーンを表す曲線332を示す。 Graph 330 shows a curve 332 representing the flat tone. 曲線332の後には語句の境界334が続く。 The phrase of the boundary 334 after the curve 332 is followed. 語句の境界の後には、様々な振幅のトーンを示す曲線336〜339が続く。 After the boundaries of the phrase, followed by the curve 336 to 339 show various amplitudes of the tone. グラフ330は、一連のタグ<stress strength = 4 type=0.8 shape = 0.1s0.3, 0.1s0.3/>... <phrase/>... <stress strength=4 type=0.1 shape=various/>の作用を示す。 Graph 330 includes a series of tag <stress strength = 4 type = 0.8 shape = 0.1s0.3, 0.1s0.3 /> ... <phrase /> ... <stress strength = 4 type = 0.1 shape = various / > shows the effect of. <phrase>タグは、0.42秒後に下降トーンが、0.42秒前の平坦なトーンに何等影響を与えないようにする。 <Phrase> tag, falling tone after 0.42 seconds, so as not to give anything like effect in a flat tone of the previous 0.42 seconds.

<phrase>タグは、事前計画が停止する境界をマークし、好ましくは小語句の境界に配置される。 <Phrase> tag marks the boundary preplanning stops are preferably located on the boundary of the small terms. 小語句は通常、一語句、または全文よりも範囲の小さな従属節、または等位節である。 Small phrases usually one word or a small subordinate range than the full text, or a coordination clause. 典型的な人間のスピーチは、韻律を計画または韻律を準備することを特徴とし、この計画または準備は、生成される数音節前に行われる。 Typical human speech is characterized by preparing a plan or prosody prosody, the plan or preparation is performed several syllables before being produced. 例えば、準備することで、話者が難しいトーンの組み合わせを滑らかに折衷したり、快いピッチ範囲を超えたり、それ以下になったりしないようにすることができる。 For example, to prepare, it can be as smooth or compromise the combination of difficult speaker tone, or beyond the pleasant pitch range, does not or become less. 本発明によるタグを配置し処理するシステムは、人間によるスピーチ生成のこの側面をモデリングすることが可能であり、また、<phrase>タグの使用により、準備する範囲を制御する。 System for processing place a tag according to the present invention, it is possible to model this aspect of human by speech generation, also, by the use of <phrase> tag, to control the range of prepared. すなわち、<phrase>タグの配置が、折衷または他の準備が行われる音節の数を制御する。 That is, the arrangement of the <phrase> tag, controls the number of syllables compromise or other preparation is carried out. phraseタグは一方向制限要素として作用し、<phrase>タグの前にあるタグはその先に影響を及ぼせるが、<pharse>タグの後にあるタグがその前に影響を及ぼさないようにする。 phrase tag acts as a one-way restriction element, the tag preceding the <phrase> tags Oyoboseru effect on ahead, so as not to affect the front thereof a tag that is after the <pharse> tag.

図3E〜図3Iは、<stress>タグの作用を示す。 Figure 3E~ Figure 3I shows the effect of <stress> tag. <stress>タグは、単語または音節にアクセントを付けられるようにする。 <Stress> tag, to provide a unique accent to the word or syllable. <stress>タグは常に、少なくとも以下の3つの要素を含む。 <Stress> tag always contains at least the following three elements. 第1の要素は、アクセントの理想的な「プラトン」形状であり、これは、隣接するアクセントがない状態で、かつ非常にゆっくりと発話される場合にアクセントが有する形状である。 The first element is an ideal "Plato" shaped accent, which, in the absence of adjacent accents, and a shape having accent when very is slowly utterance. 第2の要素は、アクセントタイプである。 The second element is the accent type. 第3の要素は、アクセントの強さである。 The third element is the intensity of accent. 強いアクセントはその形状を保つ傾向がある一方、弱いアクセントは隣接するアクセントに支配される傾向がある。 While strong accent which tends to maintain its shape, weak accents tend to be dominated accent adjacent.

話すという動作はこれらの傾向を折衷するものであり、これらの状況下でスピーチをモデリングするよう追求するシステムはいずれも、かかる傾向を折衷する方法も持たなければならない。 Act of speaking is intended to compromise these trends, any system to pursue to modeling the speech under these circumstances, you must also how to compromise this trend. <stress>タグの引数「strength」は、競合する要件を表すタグ間での相互作用を制御する。 <Stress> argument "strength" of the tag, to control the interaction between the tag that represents the requirements to compete. 図3Eは、タイプ0.8の平坦なトーンと、その後に続くタイプ0の純粋に下降するトーンとの相互作用を示すグラフ340である。 Figure 3E is a flat tone type 0.8 is a graph 340 showing the interaction between tones purely descent of subsequent type 0. 平坦なトーンのタイプは0.8である、すなわちタイプ値が1に近いため、形状を犠牲にしてその平均ピッチを保つ傾向がある。 Type of flat tone is 0.8, namely type value is close to 1, it tends to keep the average pitch in the shape sacrificed. 下降トーンのタイプは0であるため、その平均ピッチを犠牲にして形状を保つ。 For the type of falling tone is 0, keep the shape at the expense of the average pitch. 曲線342A〜342Gは、一連のタグ<stress strength=4 type=0.8 shape=-0.1sY, 0.1sY/>... <stress strength=4 type=0 shape=-0.2.03, -.1s.03, 0s0, 0.1s-0.1, 0.2s-0.1/>の作用を示す。 Curve 342A~342G a series of tag <stress strength = 4 type = 0.8 shape = -0.1sY, 0.1sY /> ... <stress strength = 4 type = 0 shape = -0.2.03, -.1s.03 , 0s0, 0.1s-0.1, shows the effect of 0.2s-0.1 />. 但し、Yの値は、−0.1から0.5まで0.1ずつ増分して変化する。 However, the value of Y is varied in increments of 0.1 -0.1 to 0.5.

図3Fは、タイプ0.8の平坦なトーンと、その後に続くタイプ0.1の下降トーンとの相互作用を示すグラフ350である。 Figure 3F is a flat tone type 0.8 is a graph 350 showing the interaction of the falling tone it followed type 0.1. 平坦なトーンのタイプは0.8である、すなわちタイプ値が1に近いため、形状を犠牲にしてその平均ピッチを保つ傾向がある。 Type of flat tone is 0.8, namely type value is close to 1, it tends to keep the average pitch in the shape sacrificed. 下降トーンのタイプは0.1であるため、ピッチを維持するために形状を折衷するわずかな傾向を示す。 For the type of falling tone is 0.1, showing a slight tendency to compromise a shape to maintain the pitch. 曲線352A〜352Gは、一連のタグ<stress strength=4 type=0.8 shape=-0.1sY, 0.1sY/>... <stress strength=4 type=0.1 shape=-0.2.03,-.1s.03,0s0, 0.1s-0.1,0.2s-0.1/>の作用を示す。 Curve 352A~352G a series of tag <stress strength = 4 type = 0.8 shape = -0.1sY, 0.1sY /> ... <stress strength = 4 type = 0.1 shape = -0.2.03, -. 1s.03 , 0s0, shows the 0.1s-0.1,0.2s-0.1 /> action of. 但し、Yの値は、−0.1から0.5まで0.1ずつ増分して変化する。 However, the value of Y is varied in increments of 0.1 -0.1 to 0.5. 曲線352A〜曲線352Gは、トーンによってわずかなピッチの優先が示されるため、下降トーンのエリアにおいてわずかに一点に近寄ることが見てとれる。 Curve 352A~ curve 352G, since priority slight pitch indicated by the tone slightly can be seen that come close to a point in the area of ​​the falling tone.

図3Gは、タイプ0.8の平坦なトーンと、その後に続くタイプ0.5の下降トーンとの相互作用を示すグラフ360である。 Figure 3G is a flat tone type 0.8 is a graph 360 showing the interaction of the falling tone followed type 0.5. 平坦なトーンのタイプは0.8である、すなわちタイプ値が1に近いため、形状を犠牲にしてその平均ピッチを保つ傾向がある。 Type of flat tone is 0.8, namely type value is close to 1, it tends to keep the average pitch in the shape sacrificed. 下降トーンのタイプはここでは0.5であるため、そのピッチを維持する強い傾向を示し、その結果ピッチと形状との間が折衷されることになる。 For the type of falling tone here is 0.5, show a strong tendency to maintain the pitch, so that between the resulting pitch and shape is a compromise. 曲線362A〜362Gは、一連のタグ<stress strength=4 type=0.8 shape=-0.1sY,0.1sY/>... <stress strength=4 type=0.5 shape=-0.2.03,-.1s.03,0s0,0.1s-0.1,0.2s-0.1/>の作用を示す。 Curve 362A~362G a series of tag <stress strength = 4 type = 0.8 shape = -0.1sY, 0.1sY /> ... <stress strength = 4 type = 0.5 shape = -0.2.03, -. 1s.03 shows the effect of 0s0,0.1s-0.1,0.2s-0.1 />. 但し、Yの値は、−0.1から0.5まで0.1ずつ増分して変化する。 However, the value of Y is varied in increments of 0.1 -0.1 to 0.5. 曲線362A〜曲線362Gは、まだ各自の形状を維持しているが、ピッチを維持するために、共に強く圧縮されていることが見てとれる。 Curve 362A~ curve 362G, although still maintaining their shape, in order to maintain the pitch, can be seen that are both strongly compressed.

図3Hは、タイプ0.8の平坦なトーンと、その後に続くタイプ0.8の下降トーンとの相互作用を示すグラフ370である。 Figure 3H is a flat tone type 0.8 is a graph 370 showing the interaction of the falling tone followed type 0.8. 平坦なトーンのタイプは0.8である、すなわちタイプ値が1に近いため、形状を犠牲にしてその平均ピッチを保つ傾向がある。 Type of flat tone is 0.8, namely type value is close to 1, it tends to keep the average pitch in the shape sacrificed. 下降トーンのタイプはここでは0.8であるため、そのピッチを維持する非常に強い傾向を示し、その形状の維持には弱い傾向しか示さない。 For the type of falling tone here is 0.8, it indicates a very strong tendency to maintain its pitch, only weakly tendency to maintain its shape. 曲線372A〜372Gは、一連のタグ<stress strength=4 type=0.8 shape=-0.1sY, 0.1sY/>... <stress strength=4 type=0.8 shape=-0.2.03, -.1s.03, 0s0, 0.1s-0.1, 0.2s-0.1/>の作用を示す。 Curve 372A~372G a series of tag <stress strength = 4 type = 0.8 shape = -0.1sY, 0.1sY /> ... <stress strength = 4 type = 0.8 shape = -0.2.03, -.1s.03 , 0s0, 0.1s-0.1, shows the effect of 0.2s-0.1 />. 但し、Yの値は、−0.1から0.5まで0.1ずつ増分して変化する。 However, the value of Y is varied in increments of 0.1 -0.1 to 0.5. 曲線372A〜曲線372Gでは、形状の優位はピッチをその中点付近で低減するよう強いることができるが、形状を維持する傾向がかなり低減していることが見て取れる。 In Curve 372A~ curve 372 g, the dominant shape may be forced to reduce near its midpoint pitch, it can be seen that tends to maintain the shape is considerably reduced. 最初のトーン、すなわち平坦なトーンが低いピッチを有する場合、2番目のアクセントの中央で正確なピッチを維持するために、ピッチ曲線は、2つのトーンの間で上がる強い傾向を有する。 The first tone, that is, when having pitch lower flat tones, in order to maintain an accurate pitch in the center of the second accents, pitch curve, has a strong tendency to rise between two tones.

図3Iは、タイプ0.8の平坦なトーンと、その後に続くタイプ1の下降トーンとの相互作用を示すグラフ380である。 Figure 3I is a flat tone type 0.8 is a graph 380 showing the interaction of the subsequent Type 1 descending tone. 平坦なトーンのタイプは0.8である、すなわちタイプ値が1に近いため、形状を犠牲にしてその平均ピッチを保つ傾向がある。 Type of flat tone is 0.8, namely type value is close to 1, it tends to keep the average pitch in the shape sacrificed. 下降トーンのタイプはここでは1であるため、そのピッチを維持して、ピッチを厳密に維持するために、必要に応じて形状を折衷する。 For the type of falling tone here is 1, it maintains its pitch, in order to strictly maintain the pitch, to compromise the shape as necessary. 曲線382A〜382Gは、一連のタグ<stress strength=4 type=0.8 shape=-0.1sY, 0.1sY/>... <stress strength=4 type=1 shape=-0.2.03, -.1s.03, 0s0, 0.1s-0.1, 0.2s-0.1/>の作用を示す。 Curve 382A~382G a series of tag <stress strength = 4 type = 0.8 shape = -0.1sY, 0.1sY /> ... <stress strength = 4 type = 1 shape = -0.2.03, -.1s.03 , 0s0, 0.1s-0.1, shows the effect of 0.2s-0.1 />. 但し、Yの値は、−0.1から0.5まで0.1ずつ増分して変化する。 However, the value of Y is varied in increments of 0.1 -0.1 to 0.5. 曲線382A〜曲線382Gから、下降トーンはここではピッチによってその全体が定義されることが見てとれる。 From the curve 382A~ curve 382 g, falling tone can be seen that the entirety of which is defined by the pitch here.

アクセントが共に近づいた場合に、タグ間の折衷の別の例を見ることができる。 When the accent is approaching both can be seen another example of compromise between the tags. 2つのアクセントが重複する結果は、双方のアクセントを足したものよりも低い。 Results Two accent overlap is lower than the sum of both accents. その代わりに、同じサイズおよび形状であるが、個々のいずれかのアクセントの2倍の強さを有する単一のアクセントが形成される。 Instead, it is the same size and shape, single accent having twice the intensity of the individual one of accents is formed.

図4は、0.83sにピークがある固定されたアクセント曲線402と、曲線402に向かい、曲線404Fが曲線402に重複するまで徐々に移動するアクセント曲線404A〜404Eとの結果、を示すグラフ400である。 Figure 4 is an accent curve 402 which is fixed a peak in 0.83S, toward the curve 402, graph 400 shows the results, with the accent curve 404A~404E moving gradually to curve 404F overlap the curve 402 it is. 曲線402および曲線404A〜404Eは、一連のタグ<stress strength=4 shape=-.15s0, -.1s0, -.05s.1, 0s.3, .05s.1, .1s0, .15s0 type=0.5/>... <stress strength=4 shape=-.15s0, -.1s0,-.05s.1, 0s.3, .05s.1, .1s0, .15s0 type=0.5/>の処理結果である。 Curve 402 and curve 404A~404E a series of tag <stress strength = 4 shape = -. 15s0, -.1s0, -.05s.1, 0s.3, .05s.1, .1s0, .15s0 type = 0.5 /> ... <stress strength = 4 shape = -. 15s0, -.1s0, -. 05s.1, 0s.3, .05s.1, .1s0, is the processing result of .15s0 type = 0.5 /> . 曲線404Fは、曲線402および曲線404Eによって表される曲線を組み合わせた結果である。 Curve 404F is a result of combining curves represented by curve 402 and curve 404E. 曲線404Fのピークは、曲線402および曲線404Eのピークを足したものよりも低いことが見て取れる。 Peak of the curve 404F, it is seen less than plus the peak of the curve 402 and curve 404E.

すべてのアクセントタグは、「strength」パラメータを含む。 All of the accent tag includes a "strength" parameter. タグの「strength」パラメータにより、タグによって定義されるアクセントが隣接するアクセントにどのように影響を及ぼすかが影響される。 By "strength" parameter of the tag, accents defined by the tag is affected how the impact accent adjacent. 概して、強いアクセント、すなわち、比較的高いstrengthパラメータを有するタグによって定義されるアクセントは、その形状を保つ傾向がある一方、比較的低いstrengthパラメータを有する弱いアクセントは、隣接するアクセントに支配される傾向がある。 Generally, a strong accent, i.e., the accent is defined by a tag having a relatively high strength parameters, while there is a tendency to keep its shape, weak accents having relatively low strength parameters, tends to be dominated by the adjacent Accents there is.

図5は、下降トーンと、先行する強く高いトーンと、後続する弱く高いトーンの間の相互作用を、下降トーンの強さを変化させて示すグラフ500である。 Figure 5 is a falling tone, and strong high tone that precedes, the interaction between weak high tone followed is a graph 500 showing by changing the intensity of the falling tone. 曲線502〜512は、下降トーンの強さを0から5まで1ずつ増分させた、トーンのシーケンスを表す。 Curve 502-512 is the intensity of the falling tone was incremented by 1 from 0 to 5, representing a sequence of tones. 曲線502〜512は、一連のタグ<stress strength=4 type=0.3 shape=-0.1s0.3, 0.1s0.3/>... <stress strength=X type=0.5 shape=-.15s2, -.1s.2, 0s0,.1s-.2, .15s-.2/>... <stress strength=2.5 type=0.3, shape=-0.1s0.3, 0.1s0.3/>を処理することで生成される。 Curve 502-512, a series of tag <stress strength = 4 type = 0.3 shape = -0.1s0.3, 0.1s0.3 /> ... <stress strength = X type = 0.5 shape = -. 15s2, -. 1s.2, 0s0, .1s-.2, .15s-.2 /> ... <stress strength = 2.5 type = 0.3, shape = -0.1s0.3, to treat the 0.1s0.3 /> It is generated. 但し、Xは0から5まで1ずつ増分して変化する。 However, X is changed in increments by 1 from 0 to 5. 曲線514は、弱い平坦なトーンを後続せずに、強い平坦なトーンの後に続く下降トーンを示す。 Curve 514, without subsequent weak flat tone, showing a descending tone following the stronger flat tone. 曲線502で示す0の強さ(strength)を有する下降トーンは、完全に隣接するタグに支配されていることが見てとれる。 Descending tones with the intensity of 0 indicated by a curve 502 (strength) is can be seen that are dominated by the tag completely contiguous. 曲線504〜512は、下降トーンが、強さ(strength)が増大するにつれ、隣接するタグをますます乱しながら、どのようにその形状を保持する傾向があるかを示す。 Curve 504-512 indicates whether falling tone, as the strength (strength) is increased, while increasingly disturbs the adjacent tags, tend to retain how its shape. 曲線512で示す下降トーンの形状は曲線514と略同じであり、下降トーンの強さ(strength)が、後続する弱い平坦なトーンに対してどのように優勢になるかを示す。 Shape of the falling tone indicated by the curve 512 is substantially the same as the curve 514, the intensity of the falling tone (strength) indicates how predominates relative weak flat tones followed.

語句曲線に影響を及ぼす別の要因は、垂下、すなわち語句中でしばしば生じるピッチの規則的な低下である。 Phrase curve by affecting factors, droop, namely a regular decrease in the frequently occurring pitch in the phrase. この要因は、語句曲線が話者の基本周波数に向かって減衰する率を設定するパラメータpdroopによって表される。 This factor is expressed by a parameter pdroop for setting the rate at which phrase curve is attenuated towards the fundamental frequency of the speaker. <step to>タグ付近のポイントは、特に、高いstrengthパラメータを有している場合に、比較的影響を受けない。 <Step to> point in the vicinity of the tag, particularly when it has a high strength parameters, relatively unaffected. これは、pdroopパラメータによって定義される減衰が時間の経過に伴って作用し、周波数の設定付近では、比較的わずかな減衰が起こるためである。 It acts with the passage of attenuation time defined by pdroop parameters, around the set frequency is because relatively little attenuation occurs. <set to>タグから離れたポイントほど、強い影響を受ける。 The more points away from the <set to> tag, strongly influenced.

「pdroop」の値は、語句曲線の減衰率を指数で設定するため、ステップは1/pdroop秒で減衰する。 The value of "Pdroop" is to set the attenuation factor of the phrase curve exponent, the step is attenuated by 1 / pdroop sec. 通常、話者のピッチの軌跡は事前に計画される、すなわち滑らかなピッチの軌跡を達成するために、連続的または断続的な調整が行われる。 Normally, the trajectory of the pitch of the speaker is planned in advance, i.e., to achieve a smooth pitch trajectory of continuous or intermittent adjustments are made. この事前計画をモデリングするため、pdroopパラメータは、pdroopパラメータが<set to>タグの前に設定されるか、または後に設定されるかに関わらず、語句曲線において減衰を生じさせる能力を有する。 To model this preplanning, Pdroop parameter has the capacity to give rise whether Pdroop parameters are set <The set-to> either set before the tag, or after, the attenuation in the phrase curve.

例えば、図6は、語句の冒頭における正の<step to>タグ601の発生を表すグラフ600を示す。 For example, Figure 6 shows a graph 600 representing the occurrence of a positive <step-to> tag 601 in the beginning of the phrase. タグは、<step to=0.5 strength=3 set pdroop=X/>である。 Tag is a <step to = 0.5 strength = 3 set pdroop = X />. 但し、Xは0、0.5、1、および2の値をとり、その結果が、それぞれ語句曲線602〜608である。 However, X is a value of 0, 0.5, 1, and 2, the results are each phrase curve 602-608. 曲線604〜608を定義するタグに用いられるpdroopパラメータがゼロではないと、pdroopの値が増大するにつれ、増大する垂下率で、曲線604〜608が基本周波数である100Hzに向けて下がるという結果になることが見てとれる。 When pdroop parameters used tags that define the curve 604-608 is not zero, as the value of pdroop increases, with drooping rate increases, results in curves 604-608 is lowered toward the 100Hz is the fundamental frequency It made it can be seen.

「pdroop」に類似するパラメータは、「adroop」である。 Parameter that is similar to the "pdroop" is "adroop". 「adroop」パラメータは、ピッチの軌跡を語句曲線に戻すため、タグ処理時に仮定される事前計画の量を制限することができる。 "Adroop" parameter to return the track pitch in phrase curve, it is possible to limit the amount of pre-planning, which is assumed at the time of tag processing. 所与のポイントから1/adroop秒離れたアクセントは、そのポイント周囲のピッチの局所的な軌跡に対して、ほとんど影響を持たない。 Accent away 1 / adroop seconds from a given point, to local trajectory of the pitch around that point, it has little effect.

図7は、一連のタグ<set adroop=X/>... <set smooth=0.08/>... <step to=0 strength=3/>... <stress shape=-.1s0. -.05s0, .05s.3, .1s.3 strength=3 type=.5/>を処理することで生成される曲線702〜708を示すグラフ700である。 Figure 7 is a series of tag <set adroop = X /> ... <set smooth = 0.08 /> ... <step to = 0 strength = 3 /> ... <stress shape = -. 1s0. -. 05s0, .05s.3, a graph 700 showing curves 702-708 that are generated by processing the .1s.3 strength = 3 type = .5 />. 但し、Xは0、1、3、および10の値をそれぞれとる。 However, X is taken 0, 1, 3, and 10 values ​​respectively. ここで、ピッチ曲線は一定の100Hzであり、「adroop」パラメータは、アクセントからの距離が増大するにつれ、曲線702〜708をピッチ曲線に向けて減衰させる。 Here, the pitch curve is constant 100 Hz, "adroop" parameter, as the distance from the accent increases, attenuates toward the curve 702-708 the pitch curve. 減衰率は、「adroop」の値が増大するにつれて大きくなる。 Attenuation factor increases as the value of "adroop" increases.

図8は、曲線802〜808を示すグラフ800であり、異なる平滑化時間を有するアクセントを表す。 Figure 8 is a graph 800 showing curves 802-808 represent the accent with a different smoothing time. 曲線802〜808は、一連のタグ<set smooth=X/>. Curve 802-808, a series of tag <set smooth = X />. .. <stress strength=4 shape=-.15s0, -.1s0, -.05s.1, 0s.3, -15s0, .1s0, -05s.1/>を処理することで生成される。 .. <stress strength = 4 shape = -. 15s0, -.1s0, -.05s.1, 0s.3, -15s0, .1s0, -05s.1 /> is generated by processing the. 但し、Xは0.004、0.10、0.14、および0.2の値をそれぞれとる。 However, X is taken 0.004,0.10,0.14, and 0.2 values, respectively. 「smooth」パラメータは、例えば、延びた母音の中程でピッチを意図的に変化させるために、話者が通常ピッチの変更にかかる時間に設定されることが好ましい。 "Smooth" parameter, for example, in order to intentionally vary the pitch in the middle of the extended vowel, preferably the speaker is set to the time it takes changes in normal pitch. 「smooth」値が0.2の曲線808は、アクセントの形状に関して実質的に平滑化されすぎている。 Curve 808 of "smooth" value of 0.2 is too substantially smooth with respect to the shape of the accent.

図9は、「jittercut」パラメータの作用を示すグラフ900である。 Figure 9 is a graph 900 showing the effect of "jittercut" parameter. 「jittercut」パラメータは、ランダムな変動を語句に導入して、より現実味のあるスピーチを生成するために用いられる。 "Jittercut" parameter is to introduce a random variation to the terms used to generate the speech that is more realistic. 人間の話者は、同じ語句や文を、言う度に全く同じように口にすることはない。 Human speaker, the same phrase or sentence, will not be in the mouth in exactly the same way every time say. 「jittercut」パラメータを用いることで、人間の話者の変動特徴をいくらか導入することが可能である。 By using the "jittercut" parameter, it is possible to somewhat introduce variation characteristics of the human speaker.

グラフ900は、「jittercut」の値を0.1、0.3、および1それぞれに設定した曲線902〜906を示す。 Graph 900 shows curves 902-906 that sets the value of "jittercut" 0.1, 0.3, and 1, respectively. 曲線902の生成に用いられる「jittercut」の値は、おおよそ平均単語長を尺度とするため、単語内にかなりの変動をもたらす。 The value of "jittercut" used to generate the curve 902 results in approximate order to measure the average word length, a considerable variation in the word. 曲線906の生成に用いられる「jittercut」の値は一語句が尺度であり、語句の範囲にわたって変動を生成するが、単語内ではほとんど変動を生成しない。 The value of "jittercut" used to generate the curve 906 is one word a measure, but to produce a variation over the range of the phrase, do not produce little change in the word.

図10は、タグを処理し、タグによって定義される音響特徴の値を決定するプロセス1000を示す。 Figure 10 processes the tag shows a process 1000 for determining the value of the acoustic feature which is defined by the tag. プロセス1000は、図1のプロセス100のステップ104として採用してもよい。 Process 1000 may be used as the step 104 of the process 100 of FIG. プロセス1000は、各時点でピッチについての1つまたは複数の一次方程式を構築してから、その方程式のセットを解くことで進む。 Process 1000, after build one or more linear equations for the pitch at each time point, the process proceeds by solving the set of equations. 各タグは韻律への制約を表し、各タグを処理することに、方程式のセットにさらなる方程式が追加される。 Each tag represents a constraint on the prosody, to process each tag, additional equations are added to the set of equations.

ステップ1002〜1008において、stepおよびslopeタグが処理され、該タグによって定義される一次方程式でそれぞれ表される、語句曲線に対する制約のセットを作成する。 In step 1,002 to 1,008, step and slope tags are processed, each represented by a linear equation defined by the tag to create a set of constraints on phrase curve.

ステップ1002において、一次方程式が各<step by>タグごとに生成される。 In step 1002, a linear equation is generated for each <step By> tag. 各方程式は、p t+w −p t−w =stepsize 、w=1+[smooth/2Δt]は、平滑化幅の半分であり、tはタグの位置である。 Each equation, p t + w -p t- w = stepsize t, w = 1 + [smooth / 2Δt] is half of the smoothing width, t is the position of the tag. 各<step to>タグは、p =targetの形態の1つの方程式を追加する。 Each <step to> tags, add one of the equations in the form of a p t = target. ここで、targetは、引数「to」の値である。 Here, target is the value of the argument "to".

ステップ1004において、制約方程式のセットが各<slope>タグごとに生成される。 In step 1004, a set of constraints equations are generated for each <slope> tag. 各時間tごとに1つの方程式が追加される。 One equation is added to each time t. 方程式は、P t+1 −p =slope ・Δtの形態をとる。 Equation takes the form of a P t + 1 -p t = slope t · Δt. 式中、p は語句曲線であり、slope は先行する<slope>タグの属性「rate」であり、Δtは韻律計算の間隔であり、通常は10msである。 Wherein, p t is the phrase curve, slope t is a preceding <slope> tag attributes "rate", Delta] t is the spacing prosody calculations, usually a 10 ms.

<slope>タグから生成される方程式は、各ポイントを隣接するポイントに関連付ける。 Equations generated from <slope> tag associates the point adjacent each point. 該方程式を解くことで、連続した語句曲線、すなわち、急なステップやジャンプのない語句曲線がもたらされる。 By solving the equations, continuous phrase curve, i.e., results in abrupt steps or without jumps phrase curve. このような連続した語句曲線は、実際の人間のスピーチパターンを反映するものであり、その変化率は、声帯筋が即座には反応しないため、連続している。 Such continuous phrase curve is intended to reflect actual human speech pattern, rate of change, because the vocal muscles are not immediately react, are continuous.

ステップ1006において、1つの方程式が、「pdroop」がゼロではない各ポイントに追加される。 In step 1006, one equation, "pdroop" is added to each point not zero. このような方程式はそれぞれ、語句曲線をゼロに引き下げる傾向がある。 Each such equations, there is a tendency to lower the phrase curve to zero. 各垂下方程式は、s [droop] =pdroop・Δtの形態を有する。 Each droop equation has the form the s [droop] = pdroop · Δt . 各方程式は、別個の小さな作用を有するが、作用は累積されて、最終的には語句曲線をゼロにする。 Each equation has a separate small effects, effects are cumulative, and eventually the phrase curve to zero.

ステップ1008〜1012において、方程式を解く。 In step 1008-1012, solve the equation. 全体的に、m+nの方程式がある(nは未知数)。 Overall, there is a equation of m + n (n is unknown). mの値は、stepタグの数+(n−1)である。 The value of m is the number of step tag + (n-1). のすべての値が未知数である。 all values of p t is unknown. 未知数よりも多くの方程式があるため、方程式は、未知の値の過剰決定(overdetermination)をもたらす。 Because there are many equations than unknowns, equations, it leads to excess determination of the unknown values ​​(overdetermination). したがって、すべての方程式を適切に解く1つの解を見つける必要がある。 Therefore, it is necessary to find a proper one of the solutions to solve all the equations. 方程式を解く分野に馴染みがある者は、これが、その解に標準アルゴリズムを有する「加重最小二乗」問題と特徴付けうることを認識するであろう。 Those who are familiar in the field to solve the equations, which will recognize that may characterized as "weighted least squares" problem with standard algorithms with the solution.

ステップ1008において、好ましい実施では、方程式をs・a・p=s・bと行列の形態で表す。 In step 1008, in a preferred embodiment, it represents an equation in the form of s · a · p = s · b and the matrix. ここで、sはstrengthのm×m対角行列であり、a(aはm×n)は、方程式におけるp の係数を含み、b(これはm×1)は方程式の右辺(定数)を含む。 Here, s is the m × m diagonal matrix of strength, a (a is m × n) includes a coefficient of p t in equation, b (which is m × 1) right-hand side of equation (constant) including. Pは、m×1列べクトルである。 P is a m × 1 column base vector. 次に、ステップ1010において、方程式が解の正規形、すなわちa ・s ・a・p=a・s ・bに変形される。 Next, in step 1010, equation normal form of solutions, that is, deformed into a t · s 2 · a · p = a · s 2 · b. この理由は、こうすると、左辺が、帯幅の狭い帯対角行列(a ・s ・a)を含むためである。 The reason is that when doing so, the left side is because including narrow banded diagonal matrix of strip width (a t · s 2 · a ). その帯幅は、通常はnまたはmよりもはるかに小さいw以下である。 Its band width is usually less than much smaller w than n or m. 方程式を解くコストは、一般の場合でのn ではなく、帯対角行列の場合にはw nとして測られるため、帯幅の狭いことが重要である。 Cost of solving equations, rather than n 3 in the general case, because it is measured as w 2 n in the case of the band diagonal matrix, it is important narrow band width. 本発明において、この測定は、1000倍計算コストを低減し、スピーチの各秒の処理に必要なCPUサイクルの数が一定となるように保証する。 In the present invention, this measurement is reduced 1000-fold computational cost, to ensure that the number of CPU cycles needed to process each second of speech is constant. 最後に、ステップ1012において、行列解析を用いて方程式を解く。 Finally, in step 1012, solve the equation using a matrix analysis. 当業者は、ステップ1008〜1012を同等の結果をもたらしうる他のアルゴリズムで置換してもよいことを認識しよう。 Those skilled in the art will recognize that it may be replaced with other algorithms may lead to comparable results steps 1008-1012.

一例を挙げるため、サンプリング間隔dt=0.01s、smooth=0.04s、pdroop=1、および以下のタグを想定する。 An example for the sampling interval dt = 0.01s, smooth = 0.04s, assume pdroop = 1, and following tags.
<slope rate=1 pos=0s/> <Slope rate = 1 pos = 0s />
<step to=0.3 strength=2 pos=0s/> <Step to = 0.3 strength = 2 pos = 0s />
<step by=0.5 pos=0.04 strength=0.7/> <Step by = 0.5 pos = 0.04 strength = 0.7 />
この結果、以下の方程式のセットが得られる。 As a result, the following set of equations is obtained. 式中、「#」と、それに続く各行の材料はコメントを表し、方程式の一部ではない。 In the formula, the "#", each row of the material that follows it represents the comment, not part of the equation.
1:p0=0.3;s1=2#step to 1: p0 = 0.3; s1 = 2 # step to
2:p6−p2=0.5;s2=0.7#step by 2: p6-p2 = 0.5; s2 = 0.7 # step by
3:p1−p0=0.01;s3=1#slope 3: p1-p0 = 0.01; s3 = 1 # slope
4:p2−p1=0.01;s4=1#slope 4: p2-p1 = 0.01; s4 = 1 # slope
5:p3−p2=0.01;s5=1#slope 5: p3-p2 = 0.01; s5 = 1 # slope
6:p4−p3=0.01:s6=1#slope 6: p4-p3 = 0.01: s6 = 1 # slope
11:p0=0;sll=0.01#pdroop 11: p0 = 0; sll = 0.01 # pdroop
12:p1=0;s12=0.01#pdroop 12: p1 = 0; s12 = 0.01 # pdroop
13:p2=0;s13=0.01#pdroop 13: p2 = 0; s13 = 0.01 # pdroop
行列「a」は次のようになる。 Matrix "a" is as follows.
1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
0 0 -1 0 0 0 1 0 0 0 0 -1 0 0 0 1 0 0
-1 1 0 0 0 0 0 0 0 -1 1 0 0 0 0 0 0 0
0 -1 1 0 0 0 0 0 0 0 -1 1 0 0 0 0 0 0
0 0 -1 1 0 0 0 0 0 0 0 -1 1 0 0 0 0 0
・・・ ...
1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
・・・, ...,
ここで、各行は上記方程式の左辺に対応する。 Here, each row corresponds to the left-hand side of the equation. 各列は、時間値に対応する。 Each column corresponds to a time value.

上記方程式の右辺は、「b」行列をもたらす。 The right-hand side of the above equation results in a "b" matrix. 「b」行列の各行は、上記方程式の1つの右辺に対応する。 Each row of the "b" matrix corresponds to one of the right-hand side of the above equation.
0.3 0.3
0.5 0.5
0.01 0.01
0.01 0.01
0.01 0.01
0.01 0.01
・・・ ...
0
0
0
・・・ ...
strength s i,iの対角要素は、次のようなものである。 strength s i, the diagonal elements of the i is as follows.
[2 0.7 1 1 1 1 ... 0.01 0.01 0.01 ... ] [2 0.7 1 1 1 1 ... 0.01 0.01 0.01 ...]
ここで、各エントリは1つの方程式に対応する。 Here, each entry corresponding to one equation.

自然な音声を達成するために、小話旬間で連続性を実現することが重要である。 To achieve a natural sound, it is important to realize continuity in Footnotes Weeks. これは、全文を一度に計算することで達成することができる。 This can be accomplished by calculating the full text at a time. しかし、この手法では、語句の冒頭にあるタグが先行語句の末尾付近のピッチに影響させるに任せておくため、結果が望ましくない。 However, in this method, since the tag at the beginning of the phrase should be left to be affecting the pitch near the end of the preceding word, the result is undesirable. 実際の人間のスピーチパターンでは、語句の冒頭におけるピッチおよびアクセントは、先行語句の末尾付近のピッチに影響しない。 In actual human speech patterns, pitch and accent in the beginning of the phrase, does not affect the pitch near the end of the preceding phrase. 人間は、次の語句の冒頭でのピッチを考慮せずに、語句を終えてから、語句間の小休止中または後続する語句の冒頭において、任意の必要なピッチのシフトを行う傾向がある。 Humans, without considering the pitch at the beginning of the next word, after finishing the phrase at the beginning of the phrase pause during or subsequent between words tend to carry out a shift of any necessary pitch.

したがって、連続性は、一度に1つの小語句の韻律を計算することで達成される。 Therefore, continuity is achieved by computing the prosody of one small phrase at a time. しかし、完全に分離して語句を計算するのではなく、先行語句の末尾付近のp の値を見返し、それらを既知の値として方程式に代入して語句を計算する。 However, completely separated rather than computing the phrases, looking back the value of p t near the end of the preceding word, by substituting the equation them as known values to calculate the phrase.

タグ処理の次の段階は、ピッチ曲線の計算である。 The next step of the tag processing is the calculation of the pitch curve. ピッチ曲線は、個々の単語、および語句全体ではなく、語句のより小さな他の要素のピッチの挙動を記述する。 Pitch curve describes individual words, and not the entire phrase, the behavior of the pitch of the other smaller elements words. ピッチの軌跡は、語句曲線および<stress>タグに基づいて計算される。 Locus of pitch is calculated based on the phrase curve and <stress> tag. プロセスステップ1002〜1012に関して上述したアルゴリズムが適用されるが、方程式のセットは異なる。 While the algorithm described above with respect to process steps 1002 to 1012 is applied, the set of equations are different.

ステップ1014において、e t+1 =e =0の形態で表される連続性方程式、ならびに−e t+1 +2e −e t+1 =0の形態で表される、平滑性を表すさらなる方程式のセットが各ポイントに適用される。 In step 1014, e t + 1 = e t = 0 of the continuity equation is expressed in the form and -e t + 1 + 2e t -e t + 1 = is represented by 0 mode, set the point of further equations representing the smoothness, It is applied to. 各方程式は、strength s [smooth] =π/2・smooth/Δtを有する。 Each equation has a strength s [smooth] = π / 2 · smooth / Δt. 平滑性方程式は、ピッチの軌跡に尖った角がないことを含意する。 Smoothness equation, implies that there is no sharp angle to the trajectory of the pitch. 数学的に、「平滑性(smoothness)」方程式は、確実に二次導関数が小さいままであるようにする。 Mathematically, "smoothness (smoothness)" equation to ensure that the remain second derivative is small. この要件は、韻律を実施するために用いられる筋肉がすべてゼロではない質量を有するという物理的な制約に起因することから、滑らかに加速され、発作的に応答することはできない。 This requirement, since due to the physical constraints of having a mass muscle is not zero all used to implement the prosody, is smoothly accelerated, it is not possible to respond spasmodic.

ステップ1016において、「垂下(droop)」方程式n個のセットが適用される。 In step 1016, "droop (droop)" equation of n set is applied. これらの方程式は、上述した垂下方程式が語句曲線に影響するのと同様に、ピッチの軌跡に影響を及ぼす。 These equations droop equations described above as well as to affect the phrase curve affects the trajectory of the pitch. 各「垂下」方程式は、s [droop] =adroop・Δtという形態を有する。 Each "droop" equation has the form of s [droop] = adroop · Δt . これらの方程式は、語句曲線をゼロに向けて引き下げる傾向のある上述したpdroopパラメータとは反対に、ピッチの軌跡を語句曲線に垂下させる。 These equations, as opposed to pdroop parameters described above tend to lower toward the phrase curve to zero, thereby hanging the trajectory of the pitch phrase curve.

ステップ1018〜1020において、各<stress>タグごとに1つの方程式が導入される。 In step 1018-1020, one equation is introduced for each <stress> tag. このような方程式はそれぞれ、ピッチ軌跡の形状に制約を加える。 Each such equation, to constrain the shape of the pitch trajectory. ステップ1018において、<stress>タグの形状をまず線形的に補間し、ターゲットの連続したセットを形成する。 In step 1018, the first linearly interpolating the shape of the <stress> tag, to form a contiguous set of targets. shape=t ,X ,t ,x ,t ,x ,…,t ,x によって定義されるアクセントを補間し、X ,X k+1 ,X k+2 ,…,X にする。 shape = t 0, X 0, t 1, x 1, t 2, x 2, ..., t j, interpolating accent defined by x j, X k, X k + 1, X k + 2, ..., the X j to. 但し、k=t /Δtは、アクセントの形状の最初の点のインデックスであり、J=t /Δtは、アクセントの末尾のインデックスである。 However, k = t 0 / Δt is the index of the first point of the shape of the accent, J = t j / Δt is an index at the end of the accent. アクセントの平均ピッチに制約を加える方程式は、s [pos] =strength・sin(type・π/2)である状態で、次のようなものである。 Equations to constrain the average pitch accent, s state is [pos] = strength · sin ( type · π / 2), is as follows.
「type」が0から増大するにつれ、この方程式のstrengthもまた0(アクセントが平均ピッチを犠牲にして形状を保持することを意味する)から「strength」(アクセントが形状を犠牲にして平均ピッチを保持することを意味する)に増大することが見て取れる。 As "type" is increased from 0, the strength is also 0 average pitch from the "strength" (at the expense accent shape (meaning that the accent to retain the shape at the expense of the average pitch) of this equation it can be seen that increasing the meaning) to hold.

ステップ1020において、各ポイントに、すなわちアクセントのkからjについてさらなる方程式も生成される。 In step 1020, each point, i.e. a further equation for j from k accent is also generated. これらの方程式は、アクセントの形状を定義し、次の形態をとる。 These equations define the shape of the accent takes the following form.
[数2] [Number 2]
式中 In the formula
は、アクセントにわたるピッチの軌跡の平均値であり、 Is the average value of the trajectory of the pitch over the accent,
はアクセントの形状である。 It is in the form of accent. 平均を差し引くことで、これらの方程式によりアクセントが語句曲線の上にあるのか下にあるのかが制約されないようにする。 Mean By subtracting, whether accent these equations is below what is on the phrase curve from being constrained. 方程式は、アクセントが語句曲線の上にあるのか下にあるのかを制約するのではなく、アクセントの形状のみを制約する。 Equation, accents rather than constrain how the underlying or located in the top of the phrase curve to constrain only the shape of the accent. 各アクセントは、s [shape] =strength・cos(type・π/2)/(J−k+1)という「strength」値を有する。 Each accent has a "strength" value of s [shape] = strength · cos (type · π / 2) / (J-k + 1). ステップ1022において、上記例において説明したものと同様の行列解析を用いて、該方程式を解く。 In step 1022, using the same matrix analysis as described in the above example, solving the equation.

制約方程式は、等価最適化問題として考えることができる。 The constraint equations, can be considered as an equivalent optimization problem. 方程式e=(a・p−b) ・s ・(a・p−b)は、制約方程式を解く同じ値pに関して、eの最小値を与える。 The equation e = (a · p-b ) t · s 2 · (a · p-b) is, for the same value p solving the constraint equations, gives the minimum value of e. したがって、eを最小化することで、pを決定することができる。 Therefore, by minimizing the e, it is possible to determine to p. 上記eの方程式は、aおよびbの行のグループを選択することで、セグメントに分割可能である。 The above equation e, by selecting a group of rows of a and b, can be divided into segments. こういったグループは制約方程式のグループに対応し、eは、同じ二次形式のより小さなバージョンのグループにわたる和となる。 Do this kind of group corresponds to a group of the constraint equation, e is the sum over the group of smaller versions of the same quadratic form. 連続性、平滑性、および垂下方程式は、所望の韻律特徴を有するスピーチを生成するために必要な努力に関連するものとして理解することができる1つのグループに配置することが可能である。 Continuity, smoothness, and droop equations can be arranged in one group that can be understood as related to the effort required to produce a speech with desired prosodic features. タグから生じる制約方程式は、エラーを防ぐ、すなわちクリアで明白はスピーチの生成に関連するものとして理解することができる別のグループに配置することもできる。 Constraint equation resulting from tags prevent errors, i.e. apparent clear can also be arranged in another group which can be understood as related to the generation of speech. そして、「e」の値をe=努力+エラーとして理解することができる。 Then, it is possible to understand the value of "e" as e = effort + error. 質的に、「努力」という語は、生理学的な努力のように振る舞う。 Qualitatively, the term "effort" behaves like a physiological effort. 筋肉が中立位置に静止している場合にはゼロであり、筋肉の動きが速くかつ強くなるにつれて増大する。 If the muscles are at rest in the neutral position is zero, increases as muscle movement and stronger faster. 同様に、「エラー」という語は、伝達エラーレートのように振る舞う。 Similarly, the term "error" behaves like a transmission error rate. 韻律が理想とするターゲットに正確に適合する場合には最小であり、韻律が理想から離れるにつれて増大する。 Prosody is the minimum when precisely match the target to the ideal, prosody is increased as the distance from the ideal. 韻律が理想から離れるにつれ、聞き手がアクセントまたはトーン形状を誤認する機会がますます大きくなるものと予想される。 As prosody away from the ideal, the opportunity listener mistaking the accent or tone shapes are expected to become increasingly large. 人間のスピーチが、話す努力と誤解される可能性の組み合わせを最小化する試みが表すはずであるというのは、妥当な仮定である。 Human speech, because the potential combinations that are mistaken speak effort should represent an attempt to minimize, is a reasonable assumption. エラーレート(すなわち、スピーチが誤って解釈される機会)を最小にすることが望ましく、また、話す努力の低減も望ましい目標である。 Error rate (i.e., the opportunity that speech is incorrectly interpreted) it is desirable to minimize, It is also desirable goal reduction efforts to speak. 本発明の技法によって達成される「e」の値の最小化は、本物の人間のスピーチの傾向および折衷特徴を反映するものとみなすことができる。 Minimization of the value of "e" which is achieved by the techniques of the present invention may be considered to reflect the trends and eclectic features of real human speech.

ピッチ曲線を計算した後、プロセスが継続し、語句曲線およびピッチ曲線で表される言語的概念が、観察可能な音響特徴にマッピングされる。 After calculating the pitch curve, the process continues and linguistic concepts represented by phrase curve and pitch curve is mapped on observable acoustic features. マッピングは、予測される時間変化強調e と、スピーチ信号において生成するか、スピーチ信号について生成することのできる観察可能な特徴との間に統計学的相関を想定することで、達成することができる。 Mapping and time variation highlighting e t predicted or generated in a speech signal, by assuming a statistical correlation between the observable characteristics that may be generated for speech signals, can be achieved it can. は通常ベクトルであるため、e を統計学的相関の行列Mで乗算することで達成可能である。 Since e t is usually vector can be accomplished by multiplying by the matrix M statistical correlation e t.

ステップ1024において、行列Mがタグ<set range>から導出される。 In step 1024, the matrix M is derived from the tag <set range>. 次に、ステップ1026において、e ・Mが計算される。 Next, in step 1026, e t · M is computed. ステップ1028において、タグによって定義される韻律特徴を人間の知覚および予想に対して調整するために、ステップ1026の結果、すなわちe ・Mに対して非線形変換を行う。 In step 1028, in order to adjust the prosodic characteristics defined by the tags for human perception and expected, the result of step 1026, i.e., performs non-linear conversion on e t · M. 変換は、<set add>タグによって定義される。 Conversion is defined by the <The set the add> tag. 変換は、関数f(x)=base・(1+γ+x) 1/addで表されるが、式中γ=(1+(rage/base)) add −1である。 Conversion is expressed by a function f (x) = base · ( 1 + γ + x) 1 / add, where γ = (1+ (rage / base )) is the add -1. f(0)の値は「base」の値に等しく、f(1)の値は「base+range」の値に等しい。 The value of f (0) is equal to the value of "base", the value of f (1) is equal to the value of "base + range."

周波数で測定されるピッチと、アクセントの知覚される強さとの間の関係は、かならずしも線形である必要はない。 Relationship between the pitch measured at a frequency, and intensity perceived accent need not necessarily linear. さらに、神経信号または筋肉の張りとピッチとの間の関係は、線形ではない。 Furthermore, the relationship between the nerve signals or muscle tension and pitch, not linear. 知覚作用が最も重要であり、かつ人間の話者が、適切な音声になるようにアクセントを調整する場合、ピッチの変化を検出可能な最小の周波数の変化として見ることが有用である。 Perceptual effects is the most important, and the human speaker, when adjusting accent so that the appropriate audio, it is useful to see the change in pitch as a change in the minimum frequency detectable. 検出可能な最小の周波数変化の値は、周波数が増大するにつれて、増大する。 The value of the smallest detectable frequency change, as the frequency increases, increases. 広く受け入れられている1つの見解によれば、検出可能な最小の周波数変化と、周波数との間の関係は、DL∝e √fとして与えられる。 According to one opinion that widely accepted minimum frequency change detectable, the relationship between the frequency, given as DLαe √f. 式中、DLは検出可能な最小の周波数変化であり、eは自然対数の底であり、fは周波数またはピッチである。 Wherein, DL is the smallest detectable frequency change, e is the base of natural logarithms, f is the frequency or pitch. 本発明によるタグおよびタグ処理システムにおいて、この関係は、アクセントの強さと、「add」の値がおおよそ0.5である<set add>タグによって記述される線形と指数の間の中間にある周波数と、の間のある関係に対応する。 The tag and tag processing system according to the present invention, this relationship, the frequency with the intensity of accent, midway between the linear and exponential described by <The set add> tag value is approximately 0.5 of "add" and, corresponding to a certain relationship between the. 一方、話者が聞き手の都合に合わせないという前提でスピーチをモデリングするシステムが実施される場合には、他の値の「add」が考えられ、1を越える「add」の値を用いることができる。 On the other hand, if the system modeling a speech on the assumption that the speaker is not the convenience of listeners is carried out is "add" is considered other values, the use of the value of the excess of 1 "add" it can. 例えば、筋肉の張りが追加される場合、ピッチf0の値はおおよそ√(張り(tension))に等しい。 For example, if the tension of the muscle is added, equal to √ approximate value of the pitch f0 (tension (tension)).

各観察可能な特徴は、<set add>タグの適切な成分によって制御される、異なる関数を有することができる。 Each observable features may have a different function that is controlled by suitable components of <The set the add> tag. 振幅の知覚は、振幅の知覚およびピッチの知覚が双方とも、根底にある観察可能な変化としてゆっくりと増大する受信量を有するという点において、おおよそピッチの知覚と同様である。 Perception of amplitude, both amplitude perception and pitch perception, in that it has a receiving increasing amounts of slowly as observable changes that underlie the same as the approximate pitch perception. 振幅およびピッチの双方は、所望の知覚の影響でほぼ指数的に増大する逆関数として表現される。 Both the amplitude and pitch is expressed as an inverse function of increasing almost exponentially under the influence of a desired perception.

上記関数、すなわちf(x)=base・(1+γ+x) 1/addは、「add」の値が1の場合には、線形的な挙動をスムーズに記述する。 The function, namely f (x) = base · ( 1 + γ + x) 1 / add , when the value of the "add" is 1, describes a smooth linear behavior. 「add」の値が0に近づく場合、該関数は指数的な挙動を記述し、「add」の値が1と0の間であるか、または0に近い場合には、線形と指数の間での挙動を記述する。 If the value of "add" approaches zero, the function number describes an exponential behavior, when the value of "add" is close to 1 and a is or 0 between 0 during linear and exponential describe the behavior at.

図11は、図10のステップ1024〜1026に関連して上述した、言語的座標を観察可能な音響特徴にマッピングする一例を示す。 Figure 11 is described above in relation to step 1024 to 1026 in FIG. 10 shows an example of mapping on observable acoustic features linguistic coordinates. グラフ1102は、驚き対強調を描いた曲線1104を示す。 Graph 1102 shows the curve 1104 depicting surprising pair emphasized. グラフ1106は、ピッチ対振幅を描いた曲線1106を示す。 Graph 1106 shows the curve 1106 depicting pitch versus amplitude. 曲線1104は、曲線1106にマッピングされる。 Curve 1104 is mapped to the curve 1106. このマッピングは、図10のステップ1024〜1026に関連して上述した行列の乗算によって可能になる。 This mapping is made possible by the matrix multiplication described above in connection with step 1024 to 1026 in FIG. 10.

図12は、図10のステップ1028に関連して説明したものと同様の線形変換の結果を示すグラフ1200である。 Figure 12 is a graph 1200 illustrating the results of a similar linear transformation to that described in connection with step 1028 in FIG. 10. 曲線1202〜1208は、それぞれ「add」の値が0.0、0.5、1.0、および2.0である関数f(x)の軌跡を表す。 Curve from 1202 to 1208 represents the trajectory of the respective values ​​of "add" is 0.0,0.5,1.0, and 2.0 are a function f (x). 「add」の値が0の曲線1202は指数関係を示し、「add」の値が1である曲線1206は線形関係を示し、「add」の値が2である曲線1208は対数関係を示す。 Curve 1202 value of "add" is 0 indicates an exponential relationship, the curve 1206 the value of the "add" is 1, indicates a linear relationship, a curve 1208 the value of the "add" is 2 illustrates a logarithmic relationship.

図13は、「add」の値が異なる場合の、ピッチ曲線に対するアクセントの作用を示すグラフ1300である。 13, when the value of "add" is different, is a graph 1300 showing the effect of accent to the pitch curve. 曲線1302A、1304A、および1306Aは、一連のタグ<set add=X/>... <slope rate=1/>の作用を示す。 Curve 1302A, 1304A, and 1306A shows the effect of a series of tag <set add = X /> ... <slope rate = 1 />. ここで、Xの値は、曲線1302Aでは0、曲線1304Aでは0.5、曲線1306Aでは1である。 Here, the value of X, the curve 1302A 0, the curve 1304A 0.5, 1 the curve 1306A. 曲線1302Aは指数関係を示す一方、曲線1306Aは線形関係を示すことが見て取れる。 While the curve 1302A showing an exponential relationship, the curve 1306A is seen to exhibit a linear relationship. 曲線1302Aは、周波数と知覚されるピッチの間での対数関係を示すため、知覚されるピッチの均一な傾きが望ましい場合、実際の周波数は線形的に増大する。 Curve 1302A, in order to show a logarithmic relationship between the perceived pitch and frequency, when a uniform gradient of the perceived pitch is desired, the actual frequency is linearly increased.

曲線1302B、1304B、および1306Bは、一連のタグ<stress strength=3 type=0.5 shape=-0.1s0, 0.05s0, 0s0.1, 0.05s0, 0.1s0/>... <stress strength=3 type=0.5 shape=-0.1s0, 0.05s0, 0s0.1, 0.05s0, 0.1s0/>を追加した、一連のタグ<set add=X/>... <slope rate=1/>の作用を示す。 Curve 1302B, 1304B, and 1306B is, a series of tag <stress strength = 3 type = 0.5 shape = -0.1s0, 0.05s0, 0s0.1, 0.05s0, 0.1s0 /> ... <stress strength = 3 type = 0.5 shape = -0.1s0, 0.05s0, 0s0.1, 0.05s0, added the 0.1s0 />, shows the effect of a series of tag <set add = X /> ... <slope rate = 1 />. Xの値は、曲線1302Bでは0、曲線1304Bでは0.5、曲線1306Bでは1である。 The value of X, the curve 1302B 0, the curve 1304B 0.5, 1 the curve 1306B. 最初のアクセントの作用は、曲線1302B、1304B、および1306Bそれぞれに関して同様なことが見て取れる。 Action of the first accent curve 1302B, 1304B, and 1306B can be seen similar for each. この理由は、最初のアクセントが比較的低周波で発生することから、「add」の異なる値の異なる作用は特に目立たないためである。 This is because, since the first accent is produced at a relatively low frequency, different effects of different values ​​of "add" is because not particularly noticeable. 「add」の値が高いほど、高周波の場合には、作用がより目立つようになるが、低周波では作用は特に目立たない。 The higher the value of "add", in the case of high frequencies, but becomes action more visible, acts at low frequencies are not particularly noticeable. しかし、二番目のアクセントは、曲線1302B、1304B、および1306Bそれぞれごとにかなり異なる結果を生成する。 However, the second accent, a curve is generated 1302B, 1304B, and 1306B quite different results for each. 周波数が増大するにつれ、「add」の値が低減するほど、アクセントがより大きく周波数を偏位させることがわかる。 As the frequency increases, the more reduced the value of the "add", it can be seen that the accent is to offset the greater frequency.

以下の例は、本発明のタグからの標準中国語文の生成を示す。 The following example illustrates the formation of Mandarin sentence from the tag of the present invention. 標準中国語は、4つの異なる語彙トーンを有するトーン言語である。 Mandarin is a tone language with four different vocabularies tones. トーンには強弱があり、トーンの相対的な強さまたは弱さは、その形状および隣接するトーンと相互作用する。 The tone has strength, relative strength or weakness of a tone interacts with the tones its shape and adjacent. 図14A〜図14Hは、4つの異なるトーンを強いおよび弱い文脈でそれぞれ含む文全体にわたるピッチが、8つの状況においてどのように変化するかを示す。 Figure 14A~ Figure 14H, the pitch across sentences containing each of the four different strong and weak context tones, show how changes in eight situations. トーンの隣接トーンとの相互作用は、以下に示すように、文中の音節の強さ(strength)を制御するタグを用いて表すことができる。 Interaction with neighboring tones tone, as shown below, can be expressed using the tags to control the intensity of the sentence syllables (strength).
Chinese word English translation Strength Type Chinese word English translation Strength Type
Shou- radio 1.5 0.5 Shou- radio 1.5 0.5
Yin- −− 1.0 0.2 Yin- - 1.0 0.2
Ji −− 1.0 0.3 Ji - 1.0 0.3
Duo more 1.1 0.5 Duo more 1.1 0.5
ying- should 0.8 0.2 ying- should 0.8 0.2
gai −− 0.8 0.3 gai - 0.8 0.3
deng lamp 1.0 0.5 deng lamp 1.0 0.5
bi- comparatively 1.5 0.5 bi- comparatively 1.5 0.5
jiao −− 1.0 0.3 jiao - 1.0 0.3
duo more 1.0 0.5 duo more 1.0 0.5

「strength」および「type」の値は、単語shou1 yin1 ji1を含むトレーニング文から導出された。 The value of the "strength" and "type" was derived from the training sentence containing the word shou1 yin1 ji1. 但し、「1」は、標準中国語のトーン1、すなわち平坦なトーンを示す。 However, "1" indicates the standard Chinese tone 1, that is a flat tone.

これらのタグが、4つの異なるトーンが文の二番目の音節にある、図14E〜図14H(shou1 yin ji1)の4つの図に用いられる。 These tags are four different tones in the second syllable of the sentence, it used four diagrams of Figure 14E~ Figure 14H (shou1 yin ji1). 図14A〜図14Dに示す短い「Yan」文の場合、三音節の単語「shou1 yin/ying ji」が、単音節の単語「yan」で置換される。 For short "Yan" statement shown in Figure 14A~ Figure 14D, three syllables word "shou1 yin / ying ji" on, it is replaced by the words monosyllabic "yan". 各文の残りは同じである。 The rest of the sentence is the same. 音節「Yan」のタグは、strength=1.5、type=0.5であり、これは、三音節の単語である「Shou yin ji」で最も強い音節「Shou」と同じである。 Tag of the syllable "Yan" is, strength = 1.5, is a type = 0.5, which is the same as the word of a three-syllable "Shou yin ji" in the strongest syllable "Shou".

図14Aは、本発明によるタグの使用および処理による、一文中の単語「Yan1」のモデリングを表す曲線1402を示すグラフ1400である。 Figure 14A is through the use and processing of tags according to the present invention, it is a graph 1400 showing a curve 1402 representing the modeling of words in the sentence "Yan1". 「Yan1」は、トーン1、すなわち平坦なトーンで話される単語「Yan」である。 "Yan1" is, tone 1, that is, the word "Yan" spoken in a flat tone. 曲線1404は、冒頭に単語「Yan1」がある文を話す話者によって生成されるデータを表す。 Curve 1404 represents the data that is generated by a speaker speaking there is the word "Yan1" statement at the beginning. 単音節の単語「Yan1」は強いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの影響をわずかにしか示さない。 Word of a single syllable "Yan1" has a strong strength, Therefore pitch curve shows no little to the influence from other words in the vicinity.

図14Bは、本発明によるタグの使用および処理による、一文中の単語「Yan2」のモデリングを表す曲線1412を示すグラフ1410である。 Figure 14B is through the use and processing of tags according to the present invention, is a graph 1410 showing a curve 1412 representing the modeling of words in the sentence "Yan2". 「Yan2」は、トーン2、すなわち上昇トーンで話される単語「Yan」である。 "Yan2" is, tone 2, that is, the word "Yan" spoken in rising tones. 曲線1414は、冒頭に単語「Yan2」がある文を話す話者によって生成されるデータを表す。 Curve 1414 represents the data that is generated by a speaker speaking there is the word "Yan2" statement at the beginning. 単音節の単語「Yan2」は強いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの影響をわずかにしか示さない。 Word of a single syllable "Yan2" has a strong strength, Therefore pitch curves, not shown little to the influence from other words in the vicinity.

図14Cは、本発明によるタグの使用および処理による、一文中の単語「Yan3」のモデリングを表す曲線1422を示すグラフ1420である。 Figure 14C by the use and processing of tags according to the present invention, is a graph 1420 showing a curve 1422 representing the modeling of words in the sentence "Yan3". 「Yan3」は、トーン3、すなわち低トーンで話される単語「Yan」である。 "Yan3" is, tone 3, that is, words that are spoken in a low tone, "Yan". 曲線1424は、冒頭に単語「Yan3」がある文を話す話者によって生成されるデータを表す。 Curve 1424 represents the data that is generated by a speaker speaking there is the word "Yan3" statement at the beginning. 単音節の単語「Yan3」は強いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの影響をわずかにしか示さない。 Word of a single syllable "Yan3" has a strong strength, Therefore pitch curve shows no little to the influence from other words in the vicinity.

図14Dは、本発明によるタグの使用および処理による、一文中の単語「Yan4」のモデリングを表す曲線1432を示すグラフ1430である。 Figure 14D is by use and processing of tags according to the present invention, is a graph 1430 showing a curve 1432 representing the modeling of words in the sentence "Yan4". 「Yan4」は、トーン4、すなわち下降トーンで話される単語「Yan」である。 "Yan4" is, tone 4, that is, the word "Yan" spoken in descending tone. 曲線1434は、冒頭に単語「Yan4」がある文を話す話者によって生成されるデータを表す。 Curve 1434 represents the data that is generated by a speaker speaking there is the word "Yan4" statement at the beginning. 単音節の単語「Yan4」は強いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの影響をわずかにしか示さない。 Word of a single syllable "Yan4" has a strong strength, Therefore pitch curve shows no little to the influence from other words in the vicinity.

図14Eは、本発明によるタグの使用および処理による、一文中の単語「Shou1 yin1 ji1」のモデリングを表す曲線1442を示すグラフ1440である。 Figure 14E is by use and processing of tags according to the present invention, it is a graph 1440 showing a curve 1442 representing the modeling of words in the sentence "Shou1 yin1 ji1". 「Yin1」は、トーン1、すなわち平坦なトーンで話される音節「Yin」である。 "Yin1" is Tone 1, that is, the syllable "Yin" spoken in a flat tone. 曲線1444は、冒頭に単語「Shou1 yin1 ji1」がある文を話す話者によって生成されるデータを表す。 Curve 1444 represents the data that is generated by a speaker speaking there is the word "Shou1 yin1 ji1" statement at the beginning. 三音節の単語の中間の音節である音節「Yin1」は弱いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの強い影響を示す。 Which is an intermediate of the syllables of the words of a three-syllable syllable "Yin1" has a weak strength, Therefore pitch curve shows a strong influence from other words in the vicinity.

図14Fは、本発明によるタグの使用および処理による、一文中の単語「Shou1 yin2 ji1」のモデリングを表す曲線1452を示すグラフ1450である。 Figure 14F is due to the use and processing of the tag according to the present invention, it is a graph 1450 showing a curve 1452 representing the modeling of words in the sentence "Shou1 yin2 ji1". 「Yin2」は、トーン2、すなわち上昇トーンで話される音節「Yin」である。 "Yin2" is tone 2, that is, the syllable "Yin" spoken by increased tone. 曲線1454は、冒頭に単語「Shou1 yin2 ji1」がある文を話す話者によって生成されるデータを表す。 Curve 1454 represents the data that is generated by a speaker speaking there is the word "Shou1 yin2 ji1" statement at the beginning. 三音節の単語の中間の音節である音節「Yin2」は弱いstrengthを有し、そのためピッチ曲線は、付近の他の単語からの強い影響を示す。 Which is an intermediate of the syllables of the words of a three-syllable syllable "Yin2" has a weak strength, Therefore pitch curve shows a strong influence from other words in the vicinity.

図14Gは、本発明によるタグの使用および処理による、一文中の単語「Shou1 ying3 ji1」のモデリングを表す曲線1462を示すグラフ1460である。 Figure 14G is by use and processing of tags according to the present invention, is a graph 1460 showing a curve 1462 representing the modeling of words in the sentence "Shou1 ying3 ji1". 「Ying3」は、トーン3、すなわち低トーンで話される音節「Ying」である。 "Ying3" is Tone 3, that is, the syllable "Ying" spoken in a low tone. 曲線1464は、冒頭に単語「Shou1 ying3 ji1」がある文を話す話者によって生成されるデータを表す。 Curve 1464 represents the data that is generated by a speaker speaking there is the word "Shou1 ying3 ji1" statement at the beginning. 三音節の単語の中間の音節である音節「Ying3」は弱いstrengthを有し、そのためピッチ曲線は、付近の他の音節からの強い影響を示す。 Which is an intermediate of the syllables of the words of a three-syllable syllable "Ying3" has a weak strength, Therefore pitch curve shows a strong influence from other syllables in the vicinity.

図14Hは、本発明によるタグの使用および処理による、一文中の単語「Shou1 ying4 ji1」のモデリングを表す曲線1472を示すグラフ1470である。 Figure 14H is by use and processing of tags according to the present invention, it is a graph 1470 showing a curve 1472 representing the modeling of words in the sentence "Shou1 ying4 ji1". 「Ying4」は、トーン4、すなわち下降トーンで話される音節「Ying」である。 "Ying4" is, tone 4, that is, the syllable "Ying" spoken in descending tone. 曲線1474は、冒頭に単語「Shou1 ying4 ji1」がある文を話す話者によって生成されるデータを表す。 Curve 1474 represents the data that is generated by a speaker speaking there is the word "Shou1 ying4 ji1" statement at the beginning. 三音節の単語の中間の音節である音節「Ying4」は弱いstrengthを有し、そのためピッチ曲線は、付近の他の音節からの強い影響を示す。 Which is an intermediate of the syllables of the words of a three-syllable syllable "Ying4" has a weak strength, Therefore pitch curve shows a strong influence from other syllables in the vicinity.

図14A〜図14Hに示す曲線から、本発明によるタグを用いてテキスト処理のモデリングを表す曲線が、実際に話される単語を表す曲線に対する良好な近似を提供することが見て取れる。 From the curve shown in FIG 14A~ Figure 14H, the curve representing the modeling of text processing by using a tag according to the present invention, it can be seen to provide a good approximation to the curve representing the words that are actually spoken.

図15は、本発明によりタグを生成して使用するプロセス1500のステップを示す。 Figure 15 illustrates the steps of a process 1500 for generating and using the tag by the present invention. ステップ1502において、トレーニングテキスト本文を選択する。 In step 1502, to select the training body of text. ステップ1504において、ターゲット話者がトレーニングテキストを読み、トレーニングコーパスを生成する。 In step 1504, the target speaker to read the training text, to generate the training corpus. ステップ1506において、トレーニングコーパスを解析し、トレーニングコーパスの韻律特徴を識別する。 In step 1506, it analyzes the training corpus, of identifying the prosodic characteristics of the training corpus. ステップ1508において、トレーニングコーパスの韻律特徴をモデリングするタグのセットを生成し、トレーニングコーパスをモデリングするように、タグをトレーニングテキストに配置する。 In step 1508, generates a set of tags to model prosodic characteristics of the training corpus, so as to model a training corpus, the tags will be placed on the training text. ステップ1510において、トレーニングテキストにおけるタグの配置を解析し、ターゲット話者の韻律特徴をモデリングするために、テキストにおけるタグの配置についてのルールセットを生成する。 In step 1510, to analyze the arrangement of the tag in the training text, in order to model the prosodic features of the target speaker, to produce a set of rules for placement of the tag in the text. ステップ1512において、テキスト−スピーチ処理を実行することが望ましいテキスト本文にタグを配置する。 In step 1512, the text - to place the tag on the text body it is desirable to perform the speech process. タグの配置は、手動で、例えばテキストエディタを通して達成することも、あるいはステップ1510において確立したルールセットを用いて自動的に達成することもできる。 Placement tags, manually, for example, be achieved through the text editor also, or may be achieved automatically using a rule set that established at step 1510. ステップ1502〜1510は通常、ターゲット話者ごとに一回または数回行われるが、ステップ1512は、テキスト本文をテキスト−スピーチ処理のために準備することが望ましいときにいつでも実行されることが認識されよう。 Step 1502 to 1510 but is usually carried out once or several times for each target speaker, step 1512, the text body text - are recognized to be executed whenever it is desired to prepare for speech processing Ocean.

図16は、本発明によるテキスト−スピーチシステム1600を示す。 Figure 16 is a text according to the invention - illustrates a speech system 1600. システム1600は、メモリ1606およびハードディスク1608を含む処理ユニット1604と、モニタ1610と、キーボード1612と、マウス1614とを備えるコンピュータ1602を含む。 System 1600 includes a processing unit 1604 including a memory 1606 and a hard disk 1608, a monitor 1610, a keyboard 1612, a computer 1602 and a mouse 1614. コンピュータ1602は、マイクロホン1616およびラウドスピーカ1618も備える。 Computer 1602 also includes a microphone 1616 and the loudspeaker 1618. コンピュータ1602は、テキスト入カインタフエース1620およびスピーチ出カインタフエース1622を実施するよう動作する。 Computer 1602 is operable to perform the Cain tough Ace 1622 out text entry Cain tough Ace 1620 and speech. コンピュータ1602は、また、テキスト入カインタフェース1620からテキストを受信するよう適合されたスピーチモデラ1624も提供する。 Computer 1602 also provides speech modeler 1624 adapted to receive the text from the text input mosquito interface 1620. テキストには、本発明により生成されたタグが配置されている。 Text, the tags generated by the present invention is disposed. スピーチモデラ1624は、テキストおよびタグを処理して、タグによって定義される韻律特徴を有するスピーチを生成し、スピーチ出カインタフェース1622を用いて、該スピーチをラウドスピーカ1618に出力する。 Speech modeler 1624 processes the text and tags to produce speech having prosodic features defined by the tag, using a mosquito interface 1622 out speech, and outputs the speech to the loudspeaker 1618. スピーチモデラ1624は、ターゲット話者に典型的な韻律特徴を有するスピーチを生成するために、タグのセットを生成すると共に、タグの適用についてのルールを生成するよう適合された韻律タグ生成コンポーネント1626を適宜含みうる。 Speech modeler 1624, to generate a speech with typical prosodic features in the target speaker, to generate a set of tags, the prosody tag generation component 1626, adapted to generate rules for the application of tags It may include as appropriate. タグのセットを生成するために、韻律タグ生成コンポーネント1626が、ターゲット話者が読むトレーニングテキストのリーディングを表すトレーニングコーパスを解析し、トレーニングコーパスの韻律特徴を解析し、トレーニングコーパスをモデリングするために、トレーニングテキストに追加可能なタグのセットを生成する。 In order to generate a set of tags, in order to prosody tag generation component 1626 analyzes the training corpus, which represents the leading of training text in which the target speaker to read, to analyze the prosodic features of the training corpus, to model the training corpus, to generate a set of additional tags that can be in training text. 次に、韻律タグ生成コンポーネント1626は、タグをトレーニングテキストに配置し、タグの配置を解析し、ターゲット話者の話し方の特徴をモデリングするため、テキストにおけるタグの配置のルールセットを作成する。 Then, the prosody tag generation component 1626, to place the tag on the training text, analyzes the placement of the tag, for modeling the characteristics of the speech of the target speaker, to create a rule set of the placement of the tags in the text.

スピーチモデラ1624もまた、テキスト−スピーチの生成が望ましいテキストに配置されたタグを処理するために用いられる韻律評価コンポーネント1628を適宜含みうる。 Speech modeler 1624 may also text - may include prosody evaluation component 1628 used to process the tags generated is placed in the desired text speech properly. 韻律評価コンポーネント1628は、タグによって定義されるピッチ値または振幅値の時系列を生成する。 Prosody evaluation component 1628 generates a time series of pitch or amplitude values ​​are defined by a tag.

上述したタグを生成し処理するシステムは、より一般的な問題の一側面に対する解決策である。 System for generating and processing a tag as described above is a solution to one aspect of the more general problem. 話すという動作は、筋肉を動かすために必要な努力の最小化、および動きエラー、すなわち望ましい動きと実際になされる動きとの間の差の最小化という2つの主な目標を平衡させる筋肉の動きの動作である。 Operation of speaking, minimizing the effort required to move the muscles, and the motion error, i.e. two motion muscles to balance the main goal of minimizing the difference between the movement actually made the desired motion it is a behavior. 上述したタグを生成し処理するシステムは、概して、隣接するタグの要求がひどく競合する場合であっても、韻律の滑らかな変化を生成する。 System for generating and processing the tag described above, generally, even if a request for adjacent tag severely conflicting, to produce a smooth change in prosody. 滑らかな変化の生成は、筋肉の動きがどのようにしてなされるかの現実味を反映するものであり、努力と動きエラーを均衡させる。 Generation of smooth change, which reflects one of the reality muscle movement is made in any way, to balance the effort and motion errors.

本発明によるタグを生成し処理するシステムでは、ユーザが、定義しているアクセントに形状または範囲をいずれも制限することなく、アクセントを定義するタグを生成可能なことを認識されよう。 A system that generates and processes the tag according to the present invention, the user, without any shape or scope accents defining limits will recognize that it is possible generate a tag that defines the accent. したがって、ユーザには、異なる言語のアクセント形状ならびに同一言語内でのバリエーションを定義するように、タグを作成し配置する自由がある。 Therefore, the user, to define variations in the accent shape and the same language in different languages, there is a freedom to create a tag location. 話者固有のアクセントをスピーチに定義することも可能である。 It is also possible to define a speaker-specific accent on speech. 音楽に、装飾的なアクセントを定義することも可能である。 In music, it is also possible to define a decorative accent. ユーザのアクセント定義作成には、形状または範囲の制約が課されないため、定義の結果、生理学的にありそうもないターゲットの組み合わせになることもある。 The accent definition creating a user, for constraint shape or range is not imposed, the result of the definition, sometimes be a combination of unlikely the physiological target. 本発明によるタグを生成し処理するシステムは、競合する仕様を許容し、すべての制約を満たす滑らかな表面を具現化したものを戻す。 System for generating and processing the tag according to the present invention is to allow the specification competing returns that embodies a smooth surface that satisfies all the constraints.

競合する仕様に直面しながら滑らかな表面を具現化したものを生成することは、実際の人間のスピーチを正確に実現する助けとなる。 To produce what embodying a smooth surface in the face of competing specifications, it will help to accurately implement the actual human speech. 実際の人間のスピーチで韻律を制御する筋肉の動きは、滑らかである。 The movement of the muscles that control the prosody in actual human speech is smooth. これは、ある意図するアクセントターゲットから次のアクセントターゲットに移るために時間がかかるからである。 This is because the time to move from accent targets is intended next accented target such. スピーチ材料の1つのセクションが重要ではない場合、話者はそのターゲットの実現にあまり努力をしない場合もあることにも留意する。 If one section of the speech material is not important, the speaker will be noted also that in some cases you do not make an effort too much to the realization of the target. したがって、韻律の表面の具現化は、2つの関数の和を最小化する最適化問題として提示することができる。 Therefore, realization of prosody surfaces can be presented as an optimization problem of minimizing the sum of the two functions. 第1の関数は生理学的制約Gであり、これは、特定したピッチpの一次導関数および二次導関数を最小化することで、平滑性制約を課す。 The first function is a physiological constraint G, which is to minimize the first derivative and second derivative of the specified pitch p, imposes smoothness constraints. 第2の関数は、通信制約Rであり、これは、実現されたピッチpとターゲットとするyの間のエラーτの和を最小化する。 The second function is a communication restriction R, which minimizes the sum of errors τ between y of the pitch p and the target was achieved. この制約は、聞き手の理解のため、スピーチにおける精密さが必要な要件をモデリングする。 This constraint, because the listener's understanding, modeling the necessary requirements precision in speech.

エラーは、タグの仕様を満たすためにどの程度重要かを示す、タグのstrengthS によって重み付けられる。 Error How indicating importance or a, is weighted by Strengths i tag to meet the specifications of the tag. タグのstrengthが弱い場合、生理学的制約が優勢となり、このような場合、平滑性が精度よりも重要になる。 If the strength of the tag is weak, physiological constraints becomes dominant, in such a case, the smoothness is more important than accuracy. は、平滑性要件Gにより、隣接するタグとのアクセントタグの相互作用を制御する。 S i is the smoothness requirements G, to control the interaction of accent tags with adjacent tags. タグが強いほど、隣接するタグへの影響が強い。 As the tag is strong, strong influence on the adjacent tags. タグはまた、パラメータαおよびβも含み、これらは、最も重要なのは形状のエラーであるか、p の平均値であるかを制御する。 Tag also includes also the parameters α and beta, they are either the most important is an error of shape, and controls whether the average value of p t. これらのパラメータは、「type」パラメータから導出される。 These parameters are derived from the "type" parameter. ターゲットyは、語句曲線のトップにあるアクセント成分で表すことができる。 Target y can be expressed by the accent component at the top of the phrase curve.

G、R、およびτの値は、次の式で与えられる。 G, the value of R, and τ is given by the following equation.

タグは、概して、GとRの和を最小化するように処理される。 Tags are generally treated so as to minimize the sum of G and R. 上記式は、韻律を定義するタグの処理に当たり、努力および動きの組み合わせのエラーの最小化を示す。 The above equation, per the process definition tag prosody, the minimum of effort and the combination of the motion error.

図17は、連続しており、かつ筋力学等の制約を受ける動きの現象をモデリングするプロセス1700を示す。 Figure 17 is continuous, and shows a process 1700 for modeling the phenomenon of movement restricted muscle science like. ステップ1702において、所望の動き成分を定義するタグのセットを作成する。 In step 1702, to create a set of tags that define the desired movement component. ステップ1704において、タグを選択および配置して、所望の動きを定義する。 In step 1704, tag selection and placement to the to define a desired motion. ステップ1706において、タグを解析して、タグによって定義される動きを決定する。 In step 1706, it analyzes the tag, determining the motion defined by the tag. ステップ1708において、動きの努力、すなわち動きの生成に必要な努力と、動きのエラー、すなわちタグが定義する動きからの逸脱との組み合わせを最小化する動きの時系列を識別する。 In step 1708, it identifies the movement of the efforts, that the effort required to generate motion, the error of the motion, i.e., a time series of motion that minimizes the combination of a departure from the motion tag defines. ステップ1710において、識別された動きの時系列を生成する。 In step 1710, it generates a time sequence of the identified motion. ステップ1702は、生成する動きを定義するタグのセットが生成される場合、比較的まれに行われ、ステップ1704〜1710は、動きを定義し生成するために、タグを採用するときはいつでも、より頻繁に行われることが認識されよう。 Step 1702, if the set of tags that define the motion to be generated is generated, relatively infrequently performed, step 1704 to 1710, in order to define a motion generation, whenever employing the tag, more it will be appreciated that is frequently performed.

上記説明において、連続しており、かつ生理学的な制約を受ける現象の記述およびモデリングに適したタグを生成し使用する技法を説明した。 In the above description has been described a technique for the generation and use of is continuous, and is suitable for describing and modeling phenomena undergoing physiological constraints tag. このような技法が有用な広く使用される用途は、テキスト−スピーチ生成におけるスピーチの韻律特徴の記述およびモデリングであり、このような特徴のモデリングに適したタグのセットについて説明した。 Applications such techniques are used useful widely, text - a description and modeling of speech prosody in speech generation has been described for the set of tags suitable for modeling of such features. タグの作用の説明ならびにタグを処理する技法を提示した。 A technique for processing the description as well as the tag of the action of tags presented. タグを生成、選択、配置、処理するプロセスならびにタグを用いて所望の韻律特徴を有するスピーチを生成するテキスト−スピーチシステムを提示した。 Generating a tag, selection, placement, text generates a speech with desired prosodic features using the process and tag processing - presented a speech system. 最後に、タグを生成し使用して、一連の動きを定義し生成するプロセスについて説明した。 Finally, to generate a tag used has been described a process for generating and defining a series of movements.

本発明を目下好ましい実施形態の文脈で開示したが、当業者が、上記説明および添付の特許請求の範囲に準拠する広範な実施を採用しうることを認識されよう。 The present invention has been disclosed in the context of presently preferred embodiments, those skilled in the art will recognize that may employ extensive implementation conforms to the claims of the description and accompanying.

本発明によるテキスト−スピーチ処理のプロセスを示す図である。 Text according to the invention - illustrates a process of speech processing. 本発明によるタグの処理によって生成されるアクセント曲線を示す図である。 Is a diagram illustrating an accent curve generated by treatment of the tag according to the present invention. 本発明による<step>タグの作用を示すグラフである。 It is a graph showing the effect of <step> tag according to the present invention. 本発明による<step>タグの作用を示すグラフである。 It is a graph showing the effect of <step> tag according to the present invention. 本発明による<slope>タグの作用を示すグラフである。 It is a graph showing the effect of <slope> tag according to the present invention. 本発明による<phrase>タグの作用を示すグラフである。 It is a graph showing the effect of <phrase> tag according to the present invention. 本発明による<stress>タグの作用および相互関係を示す図である。 Is a diagram illustrating the operation and interaction of <stress> tag according to the present invention. 本発明による<stress>タグの作用および相互関係を示す図である。 Is a diagram illustrating the operation and interaction of <stress> tag according to the present invention. 本発明による<stress>タグの作用および相互関係を示す図である。 Is a diagram illustrating the operation and interaction of <stress> tag according to the present invention. 本発明による<stress>タグの作用および相互関係を示す図である。 Is a diagram illustrating the operation and interaction of <stress> tag according to the present invention. 本発明による<stress>タグの作用および相互関係を示す図である。 Is a diagram illustrating the operation and interaction of <stress> tag according to the present invention. 本発明によるタグの間の折衷を示すグラフである。 It is a graph showing a compromise between the tag according to the present invention. 本発明によるタグの強さの変動の作用を示すグラフである。 Is a graph showing the effect of intensity variations of the tag according to the present invention. 本発明によるタグにおいて用いられる「pdroop」パラメータの異なる値の作用を示すグラフである。 Is a graph showing the effect of different values ​​of "pdroop" parameter used in the tag according to the present invention. 本発明によるタグにおいて用いられる「adroop」パラメータの異なる値の作用を示すグラフである。 Is a graph showing the effect of different values ​​of "adroop" parameter used in the tag according to the present invention. 本発明によるタグにおいて用いられる「smooth」パラメータの異なる値の作用を示すグラフである。 Is a graph showing the effect of different values ​​of "smooth" parameter used in the tag according to the present invention. 本発明によるタグにおいて用いられる「jittercut」パラメータの異なる値の作用を示すグラフである。 Is a graph showing the effect of different values ​​of "jittercut" parameter used in the tag according to the present invention. 本発明によるタグ処理のプロセスのステップを示す図である。 It is a diagram illustrating a process step in the tag processing according to the present invention. 本発明による、言語的な位置を観察可能な音響特徴にマッピングする一例を示すグラフである。 According to the invention, it is a graph showing an example of mapping on observable acoustic features linguistic position. 本発明によるテキスト−スピーチ処理において行われる非線形変換の作用を示すグラフである。 Text according to the invention - is a graph showing the effect of non-linear transformation performed in the speech processing. 本発明によるタグにおいて用いられる「add」パラメータの異なる値の作用を示すグラフである。 Is a graph showing the effect of different values ​​of "add" parameter used in the tag according to the present invention. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明によるタグを用いる、例示的なデータのモデリングを示すグラフである。 Using a tag according to the present invention, it is a graph illustrating the modeling of an exemplary data. 本発明による、タグを作成して使用するプロセスを示す図である。 According to the invention, it is a diagram illustrating a process for creating and using tags. 本発明による例示的なテキスト−スピーチシステムを示す図である。 Exemplary text according to the invention - illustrates a speech system. 本発明により、動きを定義し生成するためのタグを生成し使用するプロセスを示す図である。 The present invention, showing the process of generating a tag for defining the motion generation use.

Claims (9)

  1. テキスト−スピーチ処方法であって、 Text - a Speech processing methods,
    テキストを処理することで生成されるスピーチの韻律特徴を定義するために、 トレーニングテキストのリーディングを表すトレーニングコーパスを解析して、テキストに配置するタグのセットをそこから作成するステップと、 To define the prosodic features of speech that are generated by processing the text, it analyzes the training corpus representing the leading training text, and creating therefrom a set of tags placed in the text,
    前記タグのシーケンスによって定義されるスピーチの特徴を生成するために、前記タグのセットの選択されたメンバを所望のシーケンスでテキスト本文に配置するステップと、 To generate the characteristics of the speech, defined by the sequence of the tag, placing the text body of the selected members of the set of tags in a desired sequence,
    前記タグによって定義される韻律特徴を有するスピーチを生成するために、前記テキスト本文および前記タグを処理するステップとを含む、方法。 To generate a speech having a prosodic features defined by the tag, and a step of processing the text body and the tag, the method.
  2. 前記タグはそれぞれ、前記タグにより影響を受ける前記スピーチの韻律特徴に制約を課すか、前記タグはそれぞれ、とられるべきアクションを特定すると共に、該とられるべきアクションについての情報を提供する属性および関連する値を定義するパラメータを含むか、または前記タグはそれぞれ、前記タグの影響が現れる場所を特定するパラメータを含みうる、請求項1記載の方法。 Wherein either tag respectively, impose constraints on prosodic features of the speech affected by the tags, wherein each Tag is configured to identify an action to be taken, attributes and associations that provide information about the actions to be taken the or it contains the parameters that define the value of, or each of the tags may include a parameter identifying the appearing location influence of the tag, the method of claim 1.
  3. 前記タグのセットは、次のタグによって変更されなければ、変更されないままである設定を確立するタグを含むか、前記タグのセットは、語句にわたり前記スピーチのピッチの挙動を定義するメンバを含むか、または前記タグのセットは、語句内の局所的な影響のピッチの挙動を定義するアクセントを定義するタグを含む、請求項2記載の方法。 Or the set of tags to be changed by the next tag, or includes a tag for establishing the set remains unchanged, the set of tags include the members that define the behavior of the pitch of the speech over the phrase or, a set of the tags include tags that define the accent that defines the behavior of the pitch of the local effects of the word the method of claim 2, wherein.
  4. 前記語句内の局所的な影響は、語句内の個々の単語を含み、前記アクセントを定義するタグは、前記アクセントの影響の非線形性の程度を定義するパラメータを含み、高い非線形性を有するアクセントほど、前記語句のピッチのより低い領域に現れるアクセントよりも、語句のピッチのより高い領域に現れる同じ語句への影響が強くなり、かつ線形的な影響を有するアクセントは、語句の各ピッチ領域において同じ影響を有する、請求項3記載の方法。 Wherein the local effect of the phrase includes individual words in the phrase, the tag defining the accent may include parameters defining the degree of nonlinearity of the influence of the accent, as accents with high nonlinearity than accents that appear in the lower region of the pitch of the phrase, the influence of the same word appearing in a higher area of ​​the pitch of the word becomes strong, and accents that have a linear effect is the same in each pitch area of ​​the phrase have an effect, method of claim 3.
  5. 線形的な影響よりも低い影響を有するアクセントほど、語句のピッチのより高い領域における影響が低くなり、語句のピッチのより低い領域における影響が高くなり、前記タグのセットは、タグが影響する領域間の境界をマークする語句の境界を定義するタグを含み、該語句の境界を定義するタグは、該境界をマークするタグの後のタグが、該境界をマークするタグの前にあるスピーチ成分に影響するのを防止し、かつ前記タグはそれぞれ、該タグの他のタグとの相互作用を定義するために、タイプおよび強さを定義する値を含みうる、請求項3記載の方法。 More accent with low impact than linear effects, effects at higher region of the pitch of the word is reduced, the influence of the lower region of the pitch of the word is increased, the set of tags, tag affects regions include tags that define the boundaries of the words to mark the boundary between the tag that defines the boundary of the phrase, the tag after the tag marking the boundary is, speech components in front of the tag marking the boundary the method of each prevented from affecting, and the tag, in order to define the interaction with other tags of the tag, which may include a value that defines the type and strength, according to claim 3, wherein the.
  6. 前記テキスト本文およびタグを処理するステップは、 Processing the text body and tag,
    前記テキストから前記タグを抽出するステップと、 Extracting the tag from said text,
    語句曲線を定義する方程式のセットを作成するステップと、 And a step to create a set of equations that define the phrase curve,
    該方程式のセットを解いて、前記語句曲線を生成するステップと、 A step of solving the set of equations to generate the phrase curve,
    ピッチ曲線を定義する方程式のセットを作成するステップと、 And a step to create a set of equations that define the pitch curve,
    該方程式のセットを解いて、前記ピッチ曲線を生成するステップと、 A step of solving the set of equations to generate the pitch curve,
    前記語句曲線および前記ピッチ曲線によって現れる言語的概念を観察可能な音響にマッピングするステップと、 And mapping the linguistic concepts manifested by the phrase curve and the pitch contour on observable acoustic,
    非線形変換を行い、タグによって定義される前記韻律特徴を人間の知覚および予想に対して調整するステップとを含む、請求項1記載の方法。 It performs non-linear transformation, and adjusting said prosodic features is defined by the tag to human perception and expected method of claim 1, wherein.
  7. ターゲット話者の韻律特徴を特定するタグのセットを定義する方法であって、 A method for defining a set of tags identifying the prosodic features of the target speaker,
    トレーニングテキスト本文を選択するステップと、 The method comprising the steps of: selecting a training body of text,
    前記ターゲット話者による前記トレーニングテキストのリーディングを表すスピーチを受信し、トレーニングコーパスを形成するステップと、 Comprising the steps of: receiving a speech representing the leading of the training text by the target speaker, to form a training corpus,
    該トレーニングコーパスを解析して、前記トレーニングコーパスの韻律特徴を識別するステップと、 It analyzes the training corpus, and identifying the prosodic characteristics of the training corpus,
    該識別されたトレーニングコーパスの韻律特徴を定義するタグのセットを作成するステップとを含む、方法。 And a step of creating a set of tags that define the prosodic characteristics of the training corpus the identified method.
  8. テキスト−スピーチ処理のためにテキストにタグを配置する方法であって、 Text - A method of placing a tag in a text for speech processing,
    トレーニングテキストのリーディングによって生成されるトレーニングコーパスの韻律特徴をモデリングするために、前記トレーニングテキスト本文にタグを配置するステップと、 To model the prosodic characteristics of the training corpus that is generated by reading the training text, placing a tag on the training text body,
    前記トレーニングテキストにおける前記タグの配置を解析して、テキストにおけるタグの配置についてのルールセットを作成するステップと、 By analyzing the placement of the tag in the training text, and a step to create a set of rules for the placement of the tag in the text,
    該ルールをテキスト−スピーチ処理が望まれているテキストに適用し、所望の韻律特徴を有するスピーチを生成するために、該テキストにタグを配置するステップとを含む、方法。 Text The rules - to apply to the text of the speech processing is desired, in order to generate the speech with desired prosodic features, and placing the tags in the text, methods.
  9. スピーチを生成するために処理すべきテキストと、生成すべきスピーチの韻律特徴を定義するタグとを含むテキスト入力を受信するテキスト−スピーチシステムであって、 A speech system, - the text of receiving text to be processed to generate speech, the text input including the tags that define the prosodic features of the to be generated speech
    一またはそれ以上のターゲット話者による一またはそれ以上のリーディングによって示される特徴を識別し、識別された前記特徴を定義するタグのセットを生成するために、トレーニングコーパスを解析する韻律タグ生成コンポーネントと、 To generate a set of tags, wherein identifying a indicated by one or more of the leading, according to one or more target speakers, defining the identified said feature, a prosody tag generation component that analyzes a training corpus ,
    前記テキスト入力を受信するためのテキスト入力インタフェースと、 A text input interface for receiving said text input,
    前記テキスト入力を処理して、前記タグによって特定される前記韻律特徴を有するスピーチを生成するよう動作するスピーチモデラとを備え、前記スピーチモデラによって生成された前記スピーチは、前記一またはそれ以上のターゲット話者のそれと類似し、さらに Processing the text input, and a speech modeler operative to generate a speech having the prosodic features identified by the tag, the speech generated by the speech modeler, the one or more target similar to that of the speaker, further,
    前記スピーチ出力を生成するためのスピーチ出力インタフェースとを備える、システム。 Comprising a speech output interface for generating the speech output system.
JP2001268566A 2000-09-05 2001-09-05 Method and apparatus for processing speech from text using a non-language-dependent prosody markup Expired - Fee Related JP5361104B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US23020400P true 2000-09-05 2000-09-05
US60/230204 2000-09-05
US09/845561 2001-04-30
US09/845,561 US6856958B2 (en) 2000-09-05 2001-04-30 Methods and apparatus for text to speech processing using language independent prosody markup

Publications (2)

Publication Number Publication Date
JP2002091474A JP2002091474A (en) 2002-03-27
JP5361104B2 true JP5361104B2 (en) 2013-12-04

Family

ID=26924013

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001268566A Expired - Fee Related JP5361104B2 (en) 2000-09-05 2001-09-05 Method and apparatus for processing speech from text using a non-language-dependent prosody markup
JP2012201342A Expired - Fee Related JP5634466B2 (en) 2000-09-05 2012-09-13 Method and apparatus for processing speech from text using a non-language-dependent prosody markup

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012201342A Expired - Fee Related JP5634466B2 (en) 2000-09-05 2012-09-13 Method and apparatus for processing speech from text using a non-language-dependent prosody markup

Country Status (1)

Country Link
JP (2) JP5361104B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4617494B2 (en) * 2004-03-17 2011-01-26 株式会社国際電気通信基礎技術研究所 Speech synthesis apparatus and the character assignment apparatus and computer program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6385799A (en) * 1986-09-30 1988-04-16 Sumitomo Electric Industries Voice synthesizer
JPS63285596A (en) * 1987-05-18 1988-11-22 Kokusai Denshin Denwa Co Ltd Speech speed altering system for voice synthesization
JP2623586B2 (en) * 1987-07-31 1997-06-25 国際電信電話株式会社 Pitch Control for Speech Synthesis
JPH0954599A (en) * 1995-08-18 1997-02-25 Meidensha Corp Intonation control method in speech synthesis by rule and speech synthesizer by rule
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP3270356B2 (en) * 1996-12-04 2002-04-02 株式会社ジャストシステム Spoken document creation device, spoken document creation method, and a computer reads and stores a program for executing the spoken document creation procedure in a computer usable medium
JPH11231885A (en) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd Speech synthesizing device
JP2000214874A (en) * 1999-01-26 2000-08-04 Canon Inc Sound synthesizing apparatus and its method, and computer-readable memory
JP2002127062A (en) * 2000-08-18 2002-05-08 Nippon Telegr & Teleph Corp <Ntt> Robot system, robot control signal generating device, robot control signal generating method, recording medium, program and robot

Also Published As

Publication number Publication date
JP2013011902A (en) 2013-01-17
JP5634466B2 (en) 2014-12-03
JP2002091474A (en) 2002-03-27

Similar Documents

Publication Publication Date Title
Mattingly Synthesis by rule of prosodic features
Xu et al. Maximum speed of pitch change and how it may relate to speech
Byrd A phase window framework for articulatory timing
Stevens et al. Acoustic and perceptual characteristics of voicing in fricatives and fricative clusters
Krakow Nonsegmental influences on velum movement patterns: Syllables, sentences, stress, and speaking rate
Cahn The generation of affect in synthesized speech
US5636325A (en) Speech synthesis and analysis of dialects
Shaffer Rhythm and timing in skill.
Thorsen Intonation and text in Standard Danish
US6785652B2 (en) Method and apparatus for improved duration modeling of phonemes
Yamagishi et al. Robust speaker-adaptive HMM-based text-to-speech synthesis
Cahn Generating expression in synthesized speech
Winckel Music, sound and sensation: A modern exposition
Farnetani et al. Coarticulation and connected speech processes
Miller Effects of speaking rate on segmental distinctions
CA2181000C (en) System and method for determining pitch contours
CA2238067C (en) Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
CN1294555C (en) Voice section making method
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US8204747B2 (en) Emotion recognition apparatus
Chen et al. Emphasis and tonal implementation in Standard Chinese
Xu et al. Phonetic realization of focus in English declarative intonation
US20020086269A1 (en) Spoken language teaching system based on language unit segmentation
Turk et al. Word-boundary-related duration patterns in English
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110615

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110914

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130903

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees