JP4787769B2 - F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof - Google Patents

F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof Download PDF

Info

Publication number
JP4787769B2
JP4787769B2 JP2007027547A JP2007027547A JP4787769B2 JP 4787769 B2 JP4787769 B2 JP 4787769B2 JP 2007027547 A JP2007027547 A JP 2007027547A JP 2007027547 A JP2007027547 A JP 2007027547A JP 4787769 B2 JP4787769 B2 JP 4787769B2
Authority
JP
Japan
Prior art keywords
prosodic
event
value
prosodic event
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007027547A
Other languages
Japanese (ja)
Other versions
JP2008191525A (en
Inventor
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007027547A priority Critical patent/JP4787769B2/en
Publication of JP2008191525A publication Critical patent/JP2008191525A/en
Application granted granted Critical
Publication of JP4787769B2 publication Critical patent/JP4787769B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To generate an F0 value time series inexpensively in accordance with various tones at low cost. <P>SOLUTION: A text in which a boundary position is determined for every accent phrase, and starting time and ending time are determined for each multiple accent types and moras, is input (3, S2). By using a rhythm event table, a plurality of rhythm events are related to an indicated position of the accent phrase according to the accent type (12, S8). By using a rhythm event table classified by tones, a rhythm event classified by tones, which corresponds to generation condition of the accent phrase is added (13, S10). A rhythm event parameter is created for each rhythm event from a rhythm event parameter data base (22, S12), and a delta function is created for each rhythm event from a creation function table (16, S16). An initial F0 value is calculated for each accent phrase (18, S18), and the F0 value time series is created for each accent phrase from the delta function and the initial F0 value (20, S20). <P>COPYRIGHT: (C)2008,JPO&amp;INPIT

Description

この発明は、テキストから合成音声を生成するテキスト音声合成分野に属するもので、特に音声に適切な抑揚を与えるために音声の韻律パターンを生成するF0値時系列生成装置、その方法、そのプログラム、及びその記録媒体に関する。   The present invention belongs to the field of text-to-speech synthesis that generates synthesized speech from text, and in particular, an F0 value time-series generation device that generates a prosodic pattern of speech in order to give appropriate inflection to speech, its method, its program, And a recording medium thereof.

以下の説明では、F0値とは、ある時点における音声の基本周波数を示しており、F0値時系列とは、合成音声の継続する時間に渡ったF0値の系列を示している。
従来技術1として、従来の合成音声を生成する際の音声のF0値時系列を生成する手法で、多空間の確率分布に基づくHMM(multi−space probability distribution HMM:MSD−HMM)を適用し、ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いて、ピッチとスペクトルを統一的にモデル化する手法がある。これは、音韻ごとのF0値の時間変化や継続長を、HMMのような統計モデルで学習したモデルを用いて、このモデルから尤もらしいF0値時系列を生成する手法である。詳細は、非特許文献1に記載されている。
In the following description, the F0 value indicates the fundamental frequency of speech at a certain point in time, and the F0 value time series indicates a sequence of F0 values over the duration of the synthesized speech.
As a prior art 1, a method for generating a conventional F0 value time series for generating a synthesized speech, and applying a multi-space probability distribution HMM (MSD-HMM) based on a multi-space probability distribution, There is a method for modeling pitch and spectrum in a unified manner using feature parameters obtained by combining pitch parameters and spectral parameters. This is a method of generating a plausible F0 value time series from a model obtained by learning a temporal change and duration of the F0 value for each phoneme using a statistical model such as an HMM. Details are described in Non-Patent Document 1.

従来技術2として、複数のアクセント句からなるポーズ句ごとに暫次的に下降するフレーズ成分と、アクセント句毎に指定されるアクセント成分とを組み合わせて、F0値時系列を表現する生成過程モデルを用いて、このモデルにフレーズ成分の下降パラメータやアクセント成分の振幅パラメータ、位置パラメータ等に入力して得られるF0値時系列を得る手法がある。詳細は非特許文献2に記載されている。
ここで、非特許文献1、2に記載されているモーラとは、音韻論上、一定の時間的長さをもった音の文節単位である。例えば、「チョコレート」であれば、「チョ」「コ」「レ」「ー」「ト」がそれぞれモーラとなる。
As a prior art 2, a generation process model that expresses an F0 value time series by combining a phrase component that temporarily falls for each pause phrase composed of a plurality of accent phrases and an accent component that is specified for each accent phrase Using this model, there is a technique for obtaining an F0 value time series obtained by inputting the descending parameter of the phrase component, the amplitude parameter of the accent component, the position parameter, and the like. Details are described in Non-Patent Document 2.
Here, the mora described in Non-Patent Documents 1 and 2 is a syllable unit of a sound having a certain time length in phonological theory. For example, in the case of “chocolate”, “cho”, “co”, “le”, “-”, and “to” are respectively mora.

また、アクセント句とは、0個もしくは1個のアクセント核を含む言語的な単位であり、通常、1つ以上の文節から形成される。アクセント核とはアクセントが付くモーラのことである。日本語のアクセント句はアクセント核の位置によって(1)〜(3)の3種類に大別される。
(1)0型のアクセント句:先頭のモーラのF0値が相対的に低く、2モーラ目以降のモーラのF0値が相対的に高い、つまり、アクセント核を含まないアクセント句。
(2)1型のアクセント句:先頭のモーラのF0値が相対的に高く、2モーラ目以降のモーラのF0値が相対的に低い、つまり1番目のモーラがアクセント核に該当するアクセント句。
(3)n型のアクセント句(nは2以上の整数):先頭のモーラのF0値が相対的に低く、2モーラ目から第nモーラ目までのF0値が相対的に高く、第n+1モーラ目以降が相対的に低い、つまり先頭からn番目のモーラがアクセント核に該当するアクセント句。
An accent phrase is a linguistic unit including zero or one accent core, and is usually formed from one or more phrases. An accent core is a mora with an accent. Japanese accent phrases are roughly classified into three types (1) to (3) according to the position of the accent nucleus.
(1) Type 0 accent phrase: F0 value of the first mora is relatively low, and F0 values of the mora after the second mora are relatively high, that is, an accent phrase that does not include an accent nucleus.
(2) Type 1 accent phrase: an accent phrase in which the first mora has a relatively high F0 value, and the second and subsequent mora have relatively low F0 values, that is, the first mora corresponds to the accent core.
(3) n-type accent phrase (n is an integer greater than or equal to 2): the F0 value of the first mora is relatively low, the F0 values from the second mora to the nth mora are relatively high, and the (n + 1) th mora An accent phrase that is relatively low after the eye, that is, the nth mora from the beginning corresponds to the accent nucleus.

このアクセント句に境界を付与する手法、アクセント句毎にアクセント型を付与する手法は、非特許文献3に記載されている。
また、従来技術3として、実音声から抽出したF0値時系列を大量に収集し、生成したい合成音声を構文的に類似したF0値時系列を探索し用いる。事例に基づくテンプレートを用いる手法もある。詳細は特許文献1に記載されている。
これらの手法はいずれも、ある程度自然な音声を合成することに成功している。
電子情報通信学会論文誌D-IIl.J38-D-II.7July,2000,pp1600-1609”多空間確率分布HMMによるピッチパターン生成” Journal of the Acoustical Society (E)Vol.5,No.4(1984)”Analysis of voice fundamental frequency contours for declarative sentences of Japanese” 浅野、松岡、高木、小原“多段解析法による形態素解析を用いた音声合成用読韻律情報設定法とその単語辞書構成”、自然言語処理Vol6,No.2,Jan,1999 特許第3420964号
Non-patent document 3 describes a technique for giving a boundary to the accent phrase and a technique for giving an accent type for each accent phrase.
Also, as the prior art 3, a large amount of F0 value time series extracted from real speech is collected, and an F0 value time series that is syntactically similar to the synthesized speech to be generated is searched for and used. There is also a method using a template based on a case. Details are described in Patent Document 1.
All of these techniques have succeeded in synthesizing a natural sound to some extent.
IEICE Transactions D-IIl.J38-D-II.7July, 2000, pp1600-1609 "Pitch pattern generation by multi-space probability distribution HMM" Journal of the Acoustical Society (E) Vol.5, No.4 (1984) ”Analysis of voice fundamental frequency contours for declarative sentences of Japanese” Asano, Matsuoka, Takagi, Ohara "Method of setting prosodic information for speech synthesis using morphological analysis by multistage analysis and its word dictionary structure", Natural Language Processing Vol6, No.2, Jan, 1999 Japanese Patent No. 3420964

従来の手法はいずれもアナウンサーが淡々と文章を読み上げるような、いわゆる読み上げ音声口調を前提とした技術であった。しかし、テキスト音声合成の技術は読み上げ口調に対して、用いられるのみではない。例えば、電話受付オペレータが応答する口調に似せて、合成音声を生成することにより、電話受付オペレータの業務の一部を機械で置き換えたり、スポーツのニュースを生き生きと紹介したり、実況したりするような口調に似せて、合成音声を生成することにより、草野球チームの試合結果など普段プロのアナウンサーが紹介しないような情報についても、音声に変換し、地域に密着したローカル放送などで放送することが可能になる。   All of the conventional methods are based on the so-called speech tone that is used by an announcer to read aloud sentences. However, the technology of text-to-speech synthesis is not only used for reading tone. For example, by synthesizing the tone of the telephone reception operator's response, a part of the work of the telephone reception operator can be replaced with a machine, sports news can be introduced lively, and the live situation can be seen. By generating synthesized voices that resemble complex tone, information that is not usually introduced by professional announcers, such as the results of grass baseball team games, can be converted to voice and broadcast on local broadcasts closely related to the area. Is possible.

このように様々な口調に似せて、音声を合成することを考えると、従来の手法はいずれも課題を抱えており、そのままで用いることは困難である。   In consideration of synthesizing speech in a manner similar to various tone in this way, all the conventional methods have problems and are difficult to use as they are.

第1の問題点
従来技術1はHMMからF0値時系列を合成する手法においては、F0値時系列を音韻ごとに学習し、合成する。このような場合、新たな口調に似せた音声を生成するためには、音韻ごとの平均F0値やその微分成分、場合によって、二階微分成分をモデルパラメータとして学習する必要があるため、モデルパラメータの数が増加する。このため、統計的に学習する際に必要となる学習データを膨大に収集する必要があり、コストが大きくなる問題がある。
First Problem In the conventional technique 1, in the method of synthesizing the F0 value time series from the HMM, the F0 value time series is learned and synthesized for each phoneme. In such a case, in order to generate a voice resembling a new tone, it is necessary to learn the average F0 value for each phoneme, its differential component, and in some cases, the second-order differential component as a model parameter. The number increases. For this reason, it is necessary to collect enormous amounts of learning data required for statistical learning, which increases the cost.

次に従来技術3の問題点を説明する。事例に基づくテンプレートを用いる手法では、合成音声を生成する際のターゲットとなる口調が変わった場合、ターゲットに合った口調の音声を大量に収集し、再度テンプレートを構築しなおす必要があり、HMMからF0値時系列を合成する手法と同様に、コストが大きくなる問題がある。第1の問題点としてコストの問題が挙げられる。   Next, problems of the prior art 3 will be described. In the method using a template based on the case, if the target tone when generating the synthesized speech changes, it is necessary to collect a large amount of the tone that matches the target, and to reconstruct the template. Similar to the method of synthesizing the F0 value time series, there is a problem that the cost increases. The first problem is a cost problem.

第2の問題点
次に第2の問題点を説明する。従来技術2のように、生成過程モデルを用いる場合、漸次的に下降する成分の存在を前提としている。しかし、例えば、相手に何かを問いかける口調では、音声のF0値は語尾にかけて上昇したり、また強い調子で話す場合は、特に下降せずそのままであったりして、必ずしも漸次的に下降するとは限らない。即ち、生成過程モデルは読み上げ音声句口調とは異なる口調に似せて、合成音声を生成する際にはモデルの構造が音声の特徴とミスマッチを起こし、正しい表現ができないことがあるという問題がある。よって第2の問題点として、読み上げ音声句口調とは異なる口調で合成音声を生成する際には、正しい表現ができないという問題が挙げられる。
Second problem Next, the second problem will be described. In the case of using the generation process model as in the prior art 2, it is assumed that there is a component that gradually decreases. However, for example, in a tone that asks something to the other party, the voice F0 value rises toward the end of the word, and when speaking in a strong tone, it does not particularly drop and does not necessarily decrease gradually. Not exclusively. That is, the generation process model resembles a tone different from the reading speech phrasing tone, and there is a problem that when the synthesized speech is generated, the structure of the model mismatches with the features of the speech, and the correct expression may not be achieved. Therefore, as a second problem, there is a problem that when a synthesized speech is generated with a tone different from the reading speech phrasing tone, correct expression cannot be made.

この発明は、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成装置に関する。この発明のF0値時系列生成装置は、韻律イベント部とF0値時系列部で構成されている。   In the present invention, a boundary position and an accent type for each accent phrase are assigned to each accent phrase, and a text with a determined start time and end time for each mora is input to generate an F0 value time series of speech. The present invention relates to a sequence generation device. The F0 value time series generation apparatus of the present invention includes a prosodic event part and an F0 value time series part.

韻律イベント部は、アクセント型、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する。F0値時系列部は、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成する。   The prosodic event unit generates a prosodic event from the accent type and the start time and end time for each mora using a prosodic event parameter table, and generates a prosodic event parameter for each prosodic event. The F0 value time series part generates an F0 value time series for each accent phrase using the prosodic event parameters and a predetermined generation function.

また、韻律イベント部は、韻律イベント生成部と口調別韻律イベント追加部と韻律イベントパラメータ生成部とで構成すればよい。韻律イベント生成部は、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する。口調別韻律イベント追加部は、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する。韻律イベントパラメータ生成部は、韻律イベントパラメータデータベースとアクセント句の情報を用いて、韻律イベント毎に韻律イベントパラメータを生成する。   The prosodic event unit may be composed of a prosody event generating unit, a tone-specific prosody event adding unit, and a prosodic event parameter generating unit. The prosodic event generation unit uses the prosodic event table to generate a plurality of prosodic events that are associated with the designated part of the accent phrase according to the accent type. The tone-specific prosodic event addition unit uses the tone-specific prosodic event table to add a tone-specific prosodic event corresponding to the occurrence condition to the specified location of the accent phrase if the accent phrase meets the occurrence condition. . The prosodic event parameter generation unit generates a prosodic event parameter for each prosodic event using the prosodic event parameter database and accent phrase information.

更に、F0値時系列部は、デルタ関数生成部と初期F0値生成部とF0値時系列生成部とで構成すればよい。デルタ関数生成部は、韻律イベント毎に生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句のデルタ関数として生成する。初期F0値生成部は、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める。F0値時系列生成部は、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成する。   Further, the F0 value time series unit may be configured by a delta function generation unit, an initial F0 value generation unit, and an F0 value time series generation unit. The delta function generation unit applies the prosodic event parameters to the generation function obtained from the generation function table for each prosodic event, and generates the sum of the generation functions corresponding to all the prosodic events as an accent phrase delta function. The initial F0 value generation unit obtains an initial F0 value for each accent phrase using the initial F0 value parameter database and accent phrase information. The F0 value time series generation unit generates an F0 value time series for each accent phrase from the delta function and the initial F0 value.

更に、上記複数の韻律イベントは上昇、下降、なだらかな下降、盛り上がり、としてもよい。   Furthermore, the plurality of prosodic events may be ascending, descending, gently descending, and exciting.

更に、韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(正規化韻律イベントパラメータという)が格納されており、生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力してもよい。   Furthermore, the prosodic event parameter database stores normalized prosodic event parameters (referred to as normalized prosodic event parameters), and converts the generated normalized prosodic event parameters according to mora information or accent phrase information. The prosodic event parameters may be output.

上記の構成により、第1の問題点、第2の問題点が解決されたことを説明する。
まず、第1の問題点が解決されたことについて説明する。アクセント句毎に予め決められた複数の韻律イベント毎の位置パラメータ、大きさパラメータ、継続時間パラメータと、アクセント句毎の初期F0値だけでアクセント句のF0値時系列を表現する。例えば「神奈川県では」というアクセント句では上記の構成の場合、6個の韻律イベントが生成される。このため、3×6+1=19個のパラメータで1つのアクセント句のF0値時系列を表現することが出来る。
The fact that the first problem and the second problem are solved by the above configuration will be described.
First, the fact that the first problem has been solved will be described. The F0 value time series of the accent phrase is expressed only by the position parameter, the size parameter, the duration parameter for each of the plurality of prosodic events predetermined for each accent phrase, and the initial F0 value for each accent phrase. For example, in the accent phrase “in Kanagawa Prefecture”, six prosodic events are generated in the above configuration. Therefore, the F0 value time series of one accent phrase can be expressed by 3 × 6 + 1 = 19 parameters.

従来技術1のF0値時系列生成手法では1音韻ごとに、F0値とF0値微分成分、さらにF0値の二階成分微分のそれぞれについての平均と分散を保持する、つまり、6個のパラメータを保持する必要がある。例えば、「神奈川県では」というアクセント句のF0値時系列を生成しようとすれば「KANAGAWAKENDEWA」という15個の音韻ごとに、6個のパラメータを保持する必要があるため、90個のパラメータを用いる必要がある。   In the F0 value time series generation method of the prior art 1, the average and variance for each F0 value, F0 value differential component, and second-order component differential of the F0 value are held for each phoneme, that is, 6 parameters are held. There is a need to. For example, if an F0 value time series of an accent phrase “in Kanagawa Prefecture” is to be generated, it is necessary to hold 6 parameters for each of 15 phonemes “KANAGAWAKEENDEWA”, so 90 parameters are used. There is a need.

本願発明の構成のように、用いるパラメータの数が少なければ、適切なパラメータを生成するために必要となる学習データの数もこれに応じて減少し、結果として、F0値時系列を生成するコストを下げる効果がある。従って、従来技術1の問題点を解決することが出来る。   If the number of parameters to be used is small as in the configuration of the present invention, the number of learning data necessary to generate an appropriate parameter is reduced accordingly, and as a result, the cost of generating the F0 value time series Has the effect of lowering. Therefore, the problem of the prior art 1 can be solved.

また従来技術3のように本願発明の構成では、テンプレートを用いるという概念はなく、当然テンプレートの再構成をする必要が無く、従来技術3の問題点を解決することが出来る。   Further, in the configuration of the present invention as in the prior art 3, there is no concept of using a template, and naturally there is no need to reconfigure the template, and the problems of the prior art 3 can be solved.

次に、第2の問題点が解決されたことについて説明する。上述のように、従来技術2では、例えば、発話末にF0値が上昇して疑問口調になる、といった口調に対しては適切なF0値時系列を生成することが出来なかった。しかし、本願発明の構成であれば、F0値時系列の局所的な動きを発生させる韻律イベントを用いるが、発話全体の動きを規定するような成分は用いない。そのため、発話末のF0値を下げたければ、「下降」の種類の韻律イベントを用いればよく、発話末のF0値を上げたければ、「上昇」の種類の韻律イベントを用いればよい。よって、様々な口調に似せた合成音声のためのF0値時系列を生成することが出来る。従って、本願の発明の構成により第2の問題点を解決することが出来る。   Next, the fact that the second problem has been solved will be described. As described above, in the related art 2, for example, an appropriate F0 value time series cannot be generated for a tone in which the F0 value increases at the end of the utterance and becomes a questionable tone. However, in the case of the configuration of the present invention, a prosodic event that generates a local movement of the F0 value time series is used, but a component that defines the movement of the entire utterance is not used. Therefore, if the F0 value at the end of the utterance is to be lowered, the “progress” type prosodic event may be used, and if the F0 value at the end of the utterance is to be increased, the “rising” type prosodic event may be used. Therefore, it is possible to generate an F0 value time series for synthesized speech resembling various tone. Therefore, the second problem can be solved by the configuration of the invention of the present application.

以下に、発明を実施するための最良の形態を示す。   The best mode for carrying out the invention will be described below.

この実施例では、入力としてテキストを想定する。図1はこの実施例1の機能構成例を示した図であり、図2はこの実施例1の主な処理の流れを示したフローチャートである。以下の説明では、入力されるテキストが「それではよろしいですか」という疑問口調の文章であるとして説明する。   In this example, text is assumed as input. FIG. 1 is a diagram showing a functional configuration example of the first embodiment, and FIG. 2 is a flowchart showing a main processing flow of the first embodiment. In the following explanation, it is assumed that the input text is a question-like sentence “Are you sure?”.

まず、F0値時系列を生成する対象となるテキスト「それではよろしいですか」がテキスト入力部3−1から入力される(ステップS2)。また、生成されるF0値時系列の所望速度(以下、話速という)が話速入力部3−2から入力される。以下の説明では、話速を0.2秒/1モーラとして説明する。   First, the text “Are you sure?” That is the target of generating the F0 value time series is input from the text input unit 3-1 (step S2). Further, a desired speed (hereinafter referred to as speech speed) of the F0 value time series to be generated is input from the speech speed input unit 3-2. In the following description, the speech speed is assumed to be 0.2 seconds / 1 mora.

まず、アクセント句分割・付与部2では入力されたテキストのアクセント句毎に境界位置が付与され、更にアクセント句毎にアクセント型が付与される(ステップS4)。この処理の内容については上記非特許文献3に記載されている。テキスト「それではよろしいですか」についてはアクセント句「それでは」とアクセント句「よろしいですか」との間に境界線が付与される。更に、アクセント句「それでは」、アクセント句「よろしいですか」それぞれにアクセント型が付与され、読みも付与される。アクセント句「それでは」については、3番目のモーラ「で」がアクセント核になり、アクセント型は3型になる。「よろしいですか」については、3番目のモーラ「し」がアクセント核になり、アクセント型は3型になる。例えば、図3に示すように、アクセント句毎にアクセント型が付与される。アクセント句分割・付与部2からは例えば図3に示す形式で出力され、モーラ分割・付与部4に入力される。このアクセント句分割・付与部2の処理内容は上記非特許文献3に記載されている。   First, the accent phrase dividing / giving unit 2 assigns a boundary position to each accent phrase of the input text, and further assigns an accent type to each accent phrase (step S4). The contents of this processing are described in Non-Patent Document 3 above. For the text “Are you sure?”, A boundary line is added between the accent phrase “Now” and the accent phrase “Are you sure?”. Furthermore, an accent type is assigned to each of the accent phrase “Now” and the accent phrase “Are you sure?”, And a reading is also assigned. For the accent phrase “Now”, the third mora “de” becomes the accent core, and the accent type becomes type 3. As for “Are you sure?”, The third mora “shi” becomes the accent core, and the accent type becomes type 3. For example, as shown in FIG. 3, an accent type is given for each accent phrase. The accent phrase dividing / giving unit 2 outputs, for example, the format shown in FIG. The processing contents of the accent phrase dividing / giving unit 2 are described in Non-Patent Document 3.

モーラ分割・付与部4では、テキストがモーラ毎に分割され、各々のモーラに開始時刻と終了時刻とを付与される(ステップS6)。なお、説明の簡略化のため、モーラ分割・付与部4では1モーラ間の長さを全て等しく分割するとして、話速と同じ1モーラ当り0.2秒とする。モーラ分割の手法としては、これに限られるものではない。   In the mora dividing / giving unit 4, the text is divided for each mora, and a start time and an end time are given to each mora (step S6). For simplification of description, the mora dividing / granting unit 4 divides all the lengths of one mora equally and assumes 0.2 seconds per mora which is the same as the speech speed. The method of mora division is not limited to this.

「それではよろしいですか」については、図4に示すように、「そ」「れ」「で」「は」「よ」「ろ」「し」「−」「で」「す」「か」というモーラに分割される。更に、1番目のモーラ「そ」について開始時刻が0.11秒とすると、1モーラ当りの時間が0.2秒であるので、モーラ「そ」の終了時刻が0.31秒となる。次のモーラ「れ」の開始時刻は0.31秒、終了時刻は0.51秒となる。このようにして、残り全てのモーラについて開始時刻、終了時刻が図4のように付与される。モーラ分割・付与部4からは例えば、図4の形式で出力される。   As for “Is it OK?”, As shown in FIG. 4, “so” “re” “de” “ha” “yo” “ro” “shi” “−” “de” “su” “ka” Divided into mora. Furthermore, if the start time of the first mora “SO” is 0.11 seconds, the time per mora is 0.2 seconds, so the end time of the mora “SO” is 0.31 seconds. The next mora “re” has a start time of 0.31 seconds and an end time of 0.51 seconds. In this way, the start time and end time are assigned to all remaining mora as shown in FIG. For example, the mora dividing / giving unit 4 outputs the data in the format shown in FIG.

なお、違う入力テキスト「今日はよく晴れて、気持ちの良い一日です。」であれば、分割されるモーラ、各モーラに付与される開始時刻および終了時刻、アクセント句、このアクセント句に付与されるアクセント型は、図5に示すように付与される。   In addition, if the input text is “Today is sunny and a pleasant day”, the mora to be divided, the start and end times given to each mora, the accent phrase, and the accent phrase The accent type is given as shown in FIG.

アクセント句毎の境界位置とアクセント句毎のアクセント型が付与され、モーラ毎の開始時刻、終了時刻が決められた入力テキストは韻律イベント生成部12に入力される。韻律イベント生成部12では、韻律イベントテーブルを用いて、アクセント句の指定された箇所に、アクセント型に応じた複数の韻律イベントが対応付けられて生成される(ステップS8)。   The input text in which the boundary position for each accent phrase and the accent type for each accent phrase are given and the start time and end time for each mora are determined is input to the prosodic event generation unit 12. The prosodic event generation unit 12 uses the prosodic event table to generate a plurality of prosodic events corresponding to the accent type at the location where the accent phrase is specified (step S8).

ここで、韻律イベントとは、例えば、F0値時系列に急な上昇や急な下降、なだらかな下降、盛り上がりの4種類の局所的な動きを発生させる指令である。韻律イベントテーブルは韻律イベントテーブル記憶部28に記憶されている。韻律イベントテーブルの例を図6に示す。例えば、アクセント句が0型であれば、韻律イベントID0〜2に対応する韻律イベント、つまり、下降イベント、上昇イベント、なだらかな下降イベント、がこのアクセント句に付与される。このアクセント句の1モーラ目の開始時刻に下降イベントが付与され、1モーラ目の終了時刻に上昇イベントが付与され、アクセント句の終了時刻つまり、最後のモーラの終了時刻になだらかな下降イベントが付与される。アクセント句が1型、n型の場合であれば、同様に図6に示す生成箇所に韻律イベントが付与される。   Here, the prosodic event is, for example, a command for generating four types of local movements such as a sudden rise, a sudden fall, a gentle fall, and a rise in the F0 value time series. The prosodic event table is stored in the prosodic event table storage unit 28. An example of the prosodic event table is shown in FIG. For example, if the accent phrase is type 0, prosodic events corresponding to prosodic event IDs 0 to 2, that is, a descending event, an ascending event, and a gently descending event are assigned to this accent phrase. A descending event is given at the start time of the first mora of the accent phrase, a rising event is given at the end time of the first mora, and a gentle descending event is given at the end time of the accent phrase, that is, the end time of the last mora. Is done. If the accent phrase is type 1 or type n, a prosodic event is similarly assigned to the generation location shown in FIG.

具体的に説明すると、アクセント句「それでは」のアクセント型は3型であるため、韻律イベントIDが6〜11に対応する韻律イベントが付与される。具体的には、1モーラ目「そ」の開始時刻0.11秒に下降イベントが付与され、1モーラ目「そ」の終了時刻0.31秒に上昇イベントが付与される。このようにして、韻律イベント生成部12では、1つのアクセント句に対して、指定された箇所に、複数の韻律イベントが生成される。アクセント句「それでは」に付与された韻律イベントを示したものが図7Aである。   Specifically, since the accent type of the accent phrase “Now” is type 3, prosodic events corresponding to prosodic event IDs 6 to 11 are given. Specifically, a descending event is given at the start time 0.11 second of the first mora “so”, and a rising event is given at the end time 0.31 second of the first mora “so”. In this way, the prosodic event generation unit 12 generates a plurality of prosodic events at designated locations for one accent phrase. FIG. 7A shows the prosodic event assigned to the accent phrase “Now”.

また、アクセント句「よろしいですか」についても同様に、図7Bに示すように複数の韻律イベントが付与される。韻律イベント生成部12からは例えば図7A、Bの形式で出力され、口調別韻律イベント追加部13に入力される。   Similarly, a plurality of prosodic events are given to the accent phrase “Are you sure?” As shown in FIG. 7B. The prosody event generation unit 12 outputs, for example, in the format of FIGS. 7A and 7B and inputs to the tone-specific prosody event addition unit 13.

口調別韻律イベント追加部13では、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所にこの発生条件に対応する口調別韻律イベントが追加される(ステップS10)。口調別韻律イベントテーブルは口調別韻律イベントテーブル記憶部30に記憶されている。   The tone-specific prosodic event adding unit 13 uses the tone-specific prosodic event table to add a tone-specific prosodic event corresponding to the occurrence condition to the specified location of the accent phrase if the accent phrase meets the occurrence condition. (Step S10). The tone-specific prosodic event table is stored in the tone-specific prosodic event table storage unit 30.

図8は口調別韻律イベントテーブルの例である。例えば、アクセント句が発生条件「助詞「か」が発話末に存在する」に該当する、つまりアクセント句の最後のモーラが助詞「か」であれば、「か」の開始時刻に韻律イベントIDが100である上昇イベントが追加される。   FIG. 8 is an example of a tone-specific prosodic event table. For example, if the accent phrase corresponds to the occurrence condition “the particle“ ka ”exists at the end of the utterance”, that is, if the last mora of the accent phrase is the particle “ka”, the prosodic event ID is at the start time of “ka”. A rising event that is 100 is added.

口調別韻律イベントテーブルが図8である場合、アクセント句「それでは」は発生条件に該当しないが、アクセント句「よろしいですか」は発生条件「助詞「か」が発話末に存在する」に該当する。よって、「か」の開始時刻である2.11秒に上昇イベント(口調別韻律イベント)が追加される。追加された結果例を図9に示す。なお、図6、図8に示す韻律イベントIDはこの実施例の説明の便宜上用いる符号であって、発明を実施する際には必ずしも必要ない。   When the tone-specific prosodic event table is FIG. 8, the accent phrase “So” does not meet the occurrence condition, but the accent phrase “Are you sure?” Corresponds to the occurrence condition “The particle“ ka ”exists at the end of the utterance” ” . Therefore, a rising event (tone-based prosody event) is added to 2.11 seconds, which is the start time of “ka”. An example of the added result is shown in FIG. The prosodic event IDs shown in FIG. 6 and FIG. 8 are symbols used for convenience of explanation of this embodiment, and are not necessarily required when the invention is carried out.

このように、韻律イベント生成部12、口調別韻律イベント追加部13では、従来技術2の生成過程モデルのような、発話全体にわたって影響を与えることを前提とするような大局的なイベントは用いない。また、口調別韻律イベント追加部13で、発話末に助詞「か」が存在しているということは、このアクセント句は疑問口調であるとみなされ、「か」が上昇するということになる。よって、このような疑問口調であっても、的確なF0値時系列が生成される。その他、音声句口調とは異なる様々な口調、例えば「なれなれしい口調」等で合成音声を生成する場合であっても、口調別韻律イベントテーブルの設定次第で、正しい表現が出来、上記第2の問題点を解決することが出来る。口調別韻律イベント追加部13からは例えば図9に示す形式で出力され、韻律イベントパラメータ生成部14に入力される。   As described above, the prosodic event generation unit 12 and the tone-specific prosody event addition unit 13 do not use a global event such as the generation process model of the prior art 2 that presupposes an influence over the entire utterance. . In addition, the presence of the particle “ka” at the end of the utterance in the tone-specific prosodic event adding unit 13 means that this accent phrase is a questionable tone, and “ka” increases. Therefore, an accurate F0 value time series is generated even in such a questionable tone. In addition, even when a synthesized speech is generated in various tone different from the phonetic tone, for example, “natural tone”, the correct expression can be made depending on the setting of the tone-specific prosody event table. The point can be solved. The tone-specific prosody event adding unit 13 outputs, for example, the format shown in FIG. 9 and the prosody event parameter generating unit 14.

韻律イベントパラメータ生成部14では、韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータが生成される(ステップS14)。韻律イベントパラメータデータベースは韻律イベントパラメータデータベース記憶部24に記憶されている。まず、韻律イベントパラメータについて説明する。   The prosodic event parameter generation unit 14 generates prosodic event parameters for each prosodic event using the speech / linguistic situation at the location where the prosodic event parameter database and the prosodic event are associated with each other (step S14). The prosodic event parameter database is stored in the prosodic event parameter database storage unit 24. First, the prosodic event parameters will be described.

韻律イベント生成部12、口調別韻律イベント追加部13で生成された韻律イベントの各々には、その種類に応じた生成関数が対応付けられる。後述する図10に示す生成関数テーブルに示すように、上昇イベントであれば、例えば以下の式(1)の生成関数が対応付けられる。

Figure 0004787769
Each of the prosodic events generated by the prosodic event generating unit 12 and the tone-specific prosody event adding unit 13 is associated with a generation function corresponding to its type. As shown in a generation function table shown in FIG. 10 to be described later, for example, a generation function of the following equation (1) is associated with a rising event.
Figure 0004787769

下降イベントであれば、以下の式(2)が対応付けられる。

Figure 0004787769
If it is a descending event, the following equation (2) is associated.
Figure 0004787769

なだらかな下降イベントであれば、以下の式(3)が対応付けられる。
−A(m−t)σexp(−σ(m−t)) (3)
If it is a gentle descent event, the following equation (3) is associated.
-A (mt) σ 2 exp (-σ (mt)) (3)

盛り上がりイベントであれば、以下の式(4)が対応付けられる。

Figure 0004787769
If it is a climax event, the following equation (4) is associated.
Figure 0004787769

式(1)〜(4)のtは時間を表し、A、m、σが韻律イベントパラメータを表し、A、m、σを生成する必要がある。具体的には、Aは関数の振幅を表す振幅パラメータであり、韻律イベントにより引き起こされる抑揚の大きさに対応する。mは生成関数の位置を表す位置パラメータであり、韻律イベントに対応付けられた生成箇所から、どの程度ずれた位置で実際に韻律イベントによりF0値の変化が引き起こされるかを表す。σは韻律イベントによるF0値の変化がどの程度の時間をかけて発生するかを表す継続時間パラメータである。   In Expressions (1) to (4), t represents time, A, m, and σ represent prosodic event parameters, and A, m, and σ need to be generated. Specifically, A is an amplitude parameter that represents the amplitude of the function, and corresponds to the amount of intonation caused by the prosodic event. m is a position parameter indicating the position of the generation function, and represents how much the F0 value is actually changed by the prosodic event at a position shifted from the generation position associated with the prosodic event. σ is a duration parameter indicating how much time the change of the F0 value due to the prosodic event occurs.

韻律イベントパラメータは同じ種類の韻律イベントに対しても、異なる値が生成されることがある。例示すると、図5で示すように入力テキストが「今日は、よく晴れて気持ちの良い一日です」である場合、アクセント句「今日は」のアクセント型と、アクセント句「晴れて」のアクセント型は同じ1型である。よって韻律イベント生成部13で両者とも図6記載の韻律イベントID3、4、5のイベントが付与される。しかし、文の先頭のアクセント句「今日は」と、文の途中のアクセント句「晴れて」では一般的に、全く同じ抑揚で発生するわけではない。例えば、文の途中のアクセント句「晴れて」の抑揚は小さく、即ち振幅パラメータAの値を小さくすることが適切な場合がある。   Different prosodic event parameters may be generated for the same type of prosodic event. For example, as shown in FIG. 5, when the input text is “Today is a sunny and pleasant day”, the accent type “Today is” and the accent type “Sunny” Are the same type. Accordingly, the prosodic event generation unit 13 is assigned events of prosodic event IDs 3, 4, and 5 shown in FIG. However, the accent phrase “Today” at the beginning of a sentence and the accent phrase “Sunny” in the middle of a sentence generally do not occur with exactly the same inflection. For example, the accent phrase “sunny” in the middle of a sentence is small, that is, it may be appropriate to reduce the value of the amplitude parameter A.

また、アクセント核の次に撥音「ん」がある場合とない場合とを比較すると、F0値が下降し始めるタイミングが異なることが観測されている。このような場合には、韻律イベントの位置パラメータmを状況に応じて、適切に生成する必要がある。このように、同じ種類の韻律イベントであっても、文の先頭であるか、文の途中であるか、アクセント核の次に撥音がある等という状況が異なるため、生成される韻律イベントパラメータが異なる可能性がある。   Further, it is observed that the timing at which the F0 value starts to fall is different when comparing the case where there is a sound repellent “n” next to the accent nucleus and the case where there is no sound repellent. In such a case, it is necessary to appropriately generate the position parameter m of the prosodic event according to the situation. In this way, even for the same type of prosodic event, since the situation such as the beginning of a sentence, the middle of a sentence, or the presence of a repelling sound after an accent nucleus, the generated prosodic event parameters are different. May be different.

このような様々な状況に応じて、韻律イベント毎に、適切に韻律イベントパラメータを生成する必要がある一方で、テキスト音声合成の利用分野においては、どのようなテキストに対しても、合成音声を生成する必要があることを考えれば、韻律イベントパラメータ生成部14はあらゆる状況に対して適切な韻律イベントパラメータを生成することが出来なければならない。   While it is necessary to appropriately generate prosodic event parameters for each prosodic event according to these various situations, in the field of application of text-to-speech synthesis, synthesized speech can be used for any text. In consideration of the necessity to generate, the prosodic event parameter generation unit 14 must be able to generate appropriate prosodic event parameters for every situation.

そこで、このような様々な状況に対応して、適切な韻律イベントパラメータを生成するための手法として、韻律イベントパラメータデータベースを、例えば、韻律イベント毎に、決定木を用いたコンテキストクラスタリングの手法で構成することが考えられる。   Therefore, as a method for generating appropriate prosodic event parameters corresponding to such various situations, the prosodic event parameter database is configured by, for example, a context clustering method using a decision tree for each prosodic event. It is possible to do.

一方、韻律イベントが対応付けられた箇所における音声・言語的な状況とは、例えばアクセント句の状況などが考えられる。そこで、韻律イベントパラメータを生成する方法として、韻律イベントパラメータデータベースと当該アクセント句の状況を用いて行うことを以下に説明する。   On the other hand, the speech / linguistic situation at the location associated with the prosodic event may be the situation of an accent phrase, for example. Therefore, as a method for generating prosodic event parameters, the following will be described using the prosodic event parameter database and the situation of the accent phrase.

図11は、上昇イベントの韻律イベントパラメータデータベースの構成である決定木の一例である。図11から明らかなように、決定木は例えば二分木であり、ノードにはYES/NOで答えられる質問が付与されている。生成された韻律イベントの状況に対する質問の答えがYESであれは、右の子ノードへ、NOであれば、左の子ノードへと木をたどれば、韻律イベントがどのような状況で生成されようとも、最終的にいずれかの葉に到達する。葉(最終的なノード)には韻律イベントパラメータA、p、qが指定されている。位置パラメータp、継続時間パラメータqはそれぞれ位置パラメータmと継続時間パラメータσを正規化した値である(以下、正規化位置パラメータp、正規化継続時間パラメータqという)。この正規化については、後述する。
韻律イベントパラメータデータベースの構成をこのような決定木にすれば、どのような状況の韻律イベントに対しても、的確な韻律イベントパラメータを生成することが出来る。
FIG. 11 is an example of a decision tree that is a configuration of a prosodic event parameter database of rising events. As is clear from FIG. 11, the decision tree is, for example, a binary tree, and a question that can be answered with YES / NO is given to the node. If the answer to the question about the status of the generated prosodic event is YES, if the answer is NO to the right child node, if NO, the tree is traced to the left child node. Well, finally reach one of the leaves. Prosodic event parameters A, p, and q are designated for the leaves (final nodes). The position parameter p and the duration parameter q are values obtained by normalizing the position parameter m and the duration parameter σ, respectively (hereinafter, referred to as a normalized position parameter p and a normalized duration parameter q). This normalization will be described later.
If the structure of the prosodic event parameter database is such a decision tree, accurate prosodic event parameters can be generated for prosodic events in any situation.

次に、具体的な韻律イベントパラメータの生成処理の流れを説明する。図9B記載の参照番号8201である上昇イベント(以下、韻律イベント8201という)の韻律イベントパラメータの生成処理について図11を用いて説明する。この上昇イベントが付加されているアクセント句は「よろしいですか」である。   Next, a specific flow of prosodic event parameter generation processing will be described. The prosody event parameter generation processing of the rising event (hereinafter referred to as prosodic event 8201) having the reference number 8201 described in FIG. 9B will be described with reference to FIG. The accent phrase to which this rising event is added is "Are you sure?"

まず、アクセント句「よろしいですか」について、ルートノードであるノード601の質問「文頭のフレーズであるか」否かを検討する。アクセント句「よろしいですか」は文頭のフレーズではなく、2番目のフレーズであるので、回答はNOである。NOの符号が付与されたバスを通り、ノード602に移動する。   First, regarding the accent phrase “Are you sure?”, It is examined whether or not the question “is it the phrase at the beginning of the sentence” of the node 601 that is the root node. The accent phrase “Are you sure?” Is not the phrase at the beginning of the sentence but the second phrase, so the answer is NO. The bus moves to the node 602 through the bus with the symbol “NO”.

次に、ノード602の質問「現在のアクセント型が1型であるか」否かを検討する。現在のアクセント句「よろしいですか」のアクセント型は3型であるので回答はNOである。NOの符号が付与されたバスを通り、ノード603に移動する。   Next, the question of the node 602 is examined whether or not the current accent type is type 1. Since the accent type of the current accent phrase “Are you sure?” Is type 3, the answer is NO. The bus moves to the node 603 through a bus assigned with a code of NO.

ノード603の質問「直前の句のアクセント型が0型であるか」否かを検討する。直前のアクセント句は「それでは」であり、アクセント句は3型であるので、回答はNOである。NOの符号が付与されたバスを通り、ノード604へ移動する。ノード604は葉ノードであり、質問は付与されておらず、振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqの値が記述されている。そこで、韻律イベント8201の韻律イベントパラメータはA=2.2、p=−0.2、q=0.1と生成される。   The node 603 question “whether the accent type of the immediately preceding phrase is type 0” or not is examined. The immediately preceding accent phrase is “Now,” and the accent phrase is type 3, so the answer is NO. The bus moves to the node 604 through a bus assigned with a code of NO. The node 604 is a leaf node, no question is given, and the values of the amplitude parameter A, the normalized position parameter p, and the normalized duration parameter q are described. Therefore, the prosodic event parameters of the prosodic event 8201 are generated as A = 2.2, p = −0.2, and q = 0.1.

図11は上昇イベントに対応した決定木であるが、同様な決定木を下降イベント、なだらかな下降イベント、盛り上がりイベントについても準備する。そして、全ての種類の韻律イベントについて、韻律イベントの種類に対応する決定木を用いて、上記の処理で、韻律イベント毎に、韻律イベントパラメータを生成する。   FIG. 11 shows a decision tree corresponding to a rising event. Similar decision trees are prepared for a falling event, a gentle falling event, and a rising event. Then, for all types of prosodic events, prosodic event parameters are generated for each prosodic event by the above processing using the decision tree corresponding to the prosodic event type.

そして、図12に示すように、アクセント句「よろしいですか」は、韻律イベントごとに、韻律イベントが対応付けられる生成箇所、振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqの4つの値の組で表される。韻律イベントパラメータ生成部14からは例えば図12に示す表の形式で出力され、韻律イベントパラメータ変換部22に入力される。   As shown in FIG. 12, the accent phrase “Are you sure?” Is the generation location, amplitude parameter A, normalized position parameter p, and normalized duration parameter q, which are associated with each prosodic event. Expressed as a set of two values. The prosody event parameter generation unit 14 outputs, for example, in the form of a table shown in FIG. 12 and inputs to the prosody event parameter conversion unit 22.

また、図11では振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqをまとめて決定する決定木を示しているが、パラメータの種類毎に異なる決定木を構築することも考えられる。また、図6や図7に示す韻律イベントIDごとに異なる決定木を用いることも考えられる。また、図11の例では、質問として、アクセント句のアクセント型やかかり受け関係に関連する質問が例示されているが、このほかにも、入力テキスト中のアクセント句の位置やあるいは韻律イベントが生成された箇所の前後の単語の形態素情報や音韻の情報、あるいはパラメータを生成する対象の韻律イベントより前に生成された韻律イベントの振幅の総和など、様々な観点から質問を考えることが出来る。   Further, FIG. 11 shows a decision tree for collectively determining the amplitude parameter A, the normalized position parameter p, and the normalized duration parameter q, but it is also conceivable to construct a different decision tree for each parameter type. It is also conceivable to use a different decision tree for each prosodic event ID shown in FIGS. Further, in the example of FIG. 11, the question is related to the accent phrase accent type and the dependency relationship, but in addition to this, the position of the accent phrase in the input text or the prosodic event is generated. Questions can be considered from various points of view, such as morphological information and phonological information of words before and after a given location, or the sum of amplitudes of prosodic events generated before the target prosody event for which parameters are generated.

韻律イベントパラメータ変換部22では、韻律イベントパラメータ生成部14が生成した正規化韻律イベントパラメータ(正規化位置パラメータpと正規化継続時間パラメータq)をモーラの情報もしくはアクセント句の情報に応じて、韻律イベントパラメータに変換される(ステップS14)。具体的には、正規化位置パラメータpと正規化継続時間パラメータqがそれぞれ、位置パラメータm、継続時間パラメータσに変換される。以下の説明では、モーラの情報に応じて変換される場合を説明する。   In the prosodic event parameter conversion unit 22, the normalized prosodic event parameters (normalized position parameter p and normalized duration parameter q) generated by the prosodic event parameter generating unit 14 are prosodic according to mora information or accent phrase information. It is converted into an event parameter (step S14). Specifically, the normalized position parameter p and the normalized duration parameter q are converted into a position parameter m and a duration parameter σ, respectively. In the following description, a case where conversion is performed in accordance with mora information will be described.

位置パラメータmと継続時間パラメータσの正規化について説明する。上述した位置パラメータpと継続時間パラメータqの単位は、該当韻律イベントを含むアクセント句の平均モーラ長で正規化された値である。例えばアクセント句「よろしいですか」であれば、アクセント句に7個のモーラを含む。また、図4等を参照すると、アクセント句「よろしいですか」は1番目のモーラ「よ」の開始時刻が0.91秒であり、最後のモーラ「か」の終了時刻は2.31秒である。よって、アクセント句の継続時間は1.4秒であり、アクセント句全体での平均モーラ長は0.2秒/モーラとなる。また、図12記載の上昇イベント902の生成箇所は1.11秒であり、正規化位置パラメータpは−0.2である。これは1番目のモーラ「よ」の終了時刻である1.11秒から、−0.2モーラ即ち、−0.2(上昇イベント902の正規化位置パラメータ)×0.2(平均モーラ長)=−0.04となる。つまり0.04秒前である1.07が位置パラメータmの値である。   The normalization of the position parameter m and the duration parameter σ will be described. The unit of the position parameter p and the duration parameter q described above is a value normalized by the average mora length of the accent phrase including the corresponding prosodic event. For example, an accent phrase “Are you sure?” Includes seven mora in the accent phrase. Also, referring to FIG. 4 and the like, the accent phrase “Are you sure?” Has a start time of 0.91 seconds for the first mora “yo” and an end time of 2.31 seconds for the last mora “ka”. is there. Therefore, the duration of the accent phrase is 1.4 seconds, and the average mora length of the entire accent phrase is 0.2 seconds / mora. Moreover, the generation location of the rising event 902 illustrated in FIG. 12 is 1.11 seconds, and the normalized position parameter p is −0.2. This is from the end time of 1.11 seconds, which is the end time of the first mora “Yo”, to −0.2 mora, that is, −0.2 (normalized positional parameter of the rising event 902) × 0.2 (average mora length) = −0.04. That is, 1.07, which is 0.04 seconds before, is the value of the position parameter m.

また、同様に正規化継続時間パラメータqは0.1である。これは、平均モーラ長0.1をかけて得られる0.01が継続時間パラメータσの値である。その他の韻律イベントについても正規化位置パラメータpと正規化継続時間パラメータqを変換して、例えば図13に示すような表が生成され、韻律イベントパラメータ変換部22から出力され、デルタ関数生成部16に入力される。   Similarly, the normalization duration parameter q is 0.1. In this case, 0.01 obtained by multiplying the average mora length of 0.1 is the value of the duration parameter σ. For other prosodic events, the normalized position parameter p and the normalized duration parameter q are converted, for example, a table as shown in FIG. 13 is generated and output from the prosodic event parameter converting unit 22, and the delta function generating unit 16 Is input.

正規化位置パラメータpや正規化継続時間パラメータqの単位は平均モーラ長に限られるものではなく、秒やミリ秒といった単位を直接用いることも可能である。しかし、秒やミリ秒といった絶対的な単位を用いると、韻律イベントパラメータの値が話速に強く影響を受けてしまう。このため、通常よりも、速い話速や遅い話速に対応した合成音声を生成する際に、所望の話速に応じた位置パラメータや継続時間パラメータに対応した決定木を用いる必要があり、韻律イベントパラメータデータベースには、所望の話速に応じた多数の決定木を準備する必要がある。従って、韻律イベントパラメータデータベースの構築にかかるコストが増大すると共に韻律イベントパラメータデータベース記憶部24には膨大なデータを格納しなければならなくなる。従って、話速によらず、安定した位置や継続時間を表現するために、図12の例では、平均モーラ長を単位としている。   The unit of the normalized position parameter p and the normalized duration parameter q is not limited to the average mora length, and units such as seconds and milliseconds can be directly used. However, if absolute units such as seconds or milliseconds are used, the value of the prosodic event parameter is strongly influenced by the speech speed. For this reason, when generating synthesized speech corresponding to a faster or slower speech speed than usual, it is necessary to use a decision tree corresponding to the position parameter and duration parameter corresponding to the desired speech speed. In the event parameter database, it is necessary to prepare a large number of decision trees corresponding to a desired speech speed. Therefore, the cost for constructing the prosodic event parameter database increases, and enormous data must be stored in the prosodic event parameter database storage unit 24. Therefore, in order to express a stable position and duration regardless of the speech speed, the example of FIG. 12 uses the average mora length as a unit.

デルタ関数生成部16では、韻律イベント毎に、所定の生成関数に韻律イベントパラメータA、m、σを適用し、全ての韻律イベントに対応する生成関数の和を計算することで、アクセント句におけるF0値時系列のデルタ関数FD(t)が生成される(ステップS16)。所定の関数とは例えば、上記式(1)〜(4)が考えられるが、これらに限られるものではない。以下の説明では、所定の生成関数を上記式(1)〜(4)として説明をする。生成関数テーブルは生成関数テーブル記憶部32に記憶されており、上述した図10が生成関数テーブルの一例である。   The delta function generation unit 16 applies the prosodic event parameters A, m, and σ to a predetermined generation function for each prosodic event, and calculates the sum of the generation functions corresponding to all the prosodic events, thereby obtaining F0 in the accent phrase. A value time series delta function FD (t) is generated (step S16). Examples of the predetermined function include the above formulas (1) to (4), but are not limited thereto. In the following description, the predetermined generation function is described as the above formulas (1) to (4). The generation function table is stored in the generation function table storage unit 32, and FIG. 10 described above is an example of the generation function table.

図10に示すように、生成関数と生成関数の概型は韻律イベントの種類に対応付けられている。例えば、下降イベントであれば生成関数は上記式(2)である。また、デルタ関数生成部16は生成関数生成部162、加算部164とで構成されている。   As shown in FIG. 10, the generation function and the general type of the generation function are associated with the type of prosodic event. For example, in the case of a descending event, the generation function is the above equation (2). The delta function generation unit 16 includes a generation function generation unit 162 and an addition unit 164.

まず生成関数生成部162で、入力に含まれる韻律イベント全てについて、韻律イベントに対応する生成関数が生成される。生成された生成関数を図14に示す。図14記載の生成関数の参照番号1001〜1007はそれぞれ図13の韻律イベントの参照番号901〜907と対応する。生成された生成関数1001〜1007は全て加算部164に入力される。   First, the generation function generation unit 162 generates generation functions corresponding to prosodic events for all prosodic events included in the input. The generated generation function is shown in FIG. Reference numbers 1001 to 1007 of the generation function shown in FIG. 14 correspond to the prosodic event reference numbers 901 to 907 of FIG. All the generated generation functions 1001 to 1007 are input to the adding unit 164.

加算部164では、生成関数1001〜1007について、入力のアクセント句の開始時刻から終了時刻の各時刻の和を加算することでデルタ関数FD(t)が求められる。デルタ関数FD(t)の例を図15に示す。デルタ関数FD(t)とはF0値時系列を微分したもの、つまり、F0値時系列の増減を示す関数である。このようにして、アクセント句毎に、デルタ関数FD(t)は生成される。   The addition unit 164 obtains the delta function FD (t) for the generation functions 1001 to 1007 by adding the sum of the times from the start time to the end time of the input accent phrase. An example of the delta function FD (t) is shown in FIG. The delta function FD (t) is a function obtained by differentiating the F0 value time series, that is, a function indicating increase / decrease of the F0 value time series. In this way, the delta function FD (t) is generated for each accent phrase.

なお、図10に示す生成関数テーブルの生成関数の下降イベントの生成関数(上記式(2))、盛り上がりイベントの生成関数(上記式(4))については、以下の説明のように、上昇イベントの生成関数(上記式(1))で表すことができる。以下説明すると、下降イベントの生成関数は上昇イベントの生成関数に「−」を付したものである。   Note that the generation function of the descending event (the above formula (2)) and the generation function of the climax event (the above formula (4)) of the generation function of the generation function table shown in FIG. Can be expressed by the generation function (the above formula (1)). In the following description, the descending event generation function is obtained by adding “-” to the ascending event generation function.

盛り上がりイベントの生成関数については、まず上昇イベント、下降イベントの生成関数の継続時間を1/2にし、つまりσをσ/2に置き換える。そして継続時間が1/2の上昇イベントの生成関数をσ/2だけ負の方向に移動させ、つまりmをm−σ/2に置き換える。また継続時間が1/2の下降イベントの生成関数をσ/2だけ正の方向に移動させ、つまり、mをm+σ/2に置き換える。これら置き換えられた上昇イベントの生成関数と下降イベントの生成関数を加算することで、盛り上がりイベントの生成関数を求めることが出来る。以上のことから生成関数は上昇イベントの生成関数(上記式(1))となだらかな下降イベントの生成関数(上記式(3))とで表すことができる。   As for the generation function of the rising event, first, the duration of the generation function of the rising event and the falling event is halved, that is, σ is replaced with σ / 2. Then, the generation function of the rising event whose duration is ½ is moved in the negative direction by σ / 2, that is, m is replaced with m−σ / 2. Further, the generation function of the falling event whose duration is ½ is moved in the positive direction by σ / 2, that is, m is replaced with m + σ / 2. By adding the replaced rising event generating function and falling event generating function, a rising event generating function can be obtained. From the above, the generation function can be expressed by the generation function of the rising event (the above formula (1)) and the gentle generation function of the falling event (the above formula (3)).

初期F0値生成部18では、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値が求められる(ステップS18)。   The initial F0 value generation unit 18 obtains an initial F0 value for each accent phrase using the initial F0 value parameter database and information on the accent phrase (step S18).

初期F0値パラメータデータベースは初期F0値パラメータデータベース記憶部26に記憶されている。初期F0値パラメータデータベースは上述した韻律イベントパラメータデータベースと同様に、例えば、二分木構成が考えられる。初期F0値パラメータデータベースの構成例を図16に示す。   The initial F0 value parameter database is stored in the initial F0 value parameter database storage unit 26. As the initial F0 value parameter database, for example, a binary tree configuration is conceivable as in the above-mentioned prosodic event parameter database. A configuration example of the initial F0 value parameter database is shown in FIG.

アクセント句「よろしいですか」を例にして具体的に説明すると、まずルートノードであるノード1201の質問「現在のアクセント句のアクセント型が1型であるか」否かを検討する。アクセント句「よろしいですか」のアクセント型は3型であり、回答はNOである。よって、NOの符号が付与されたバスを通り、ノード1202に移動する。次にノード1202の質問「現在の句のアクセント型が0型であるか」否かを検討する。回答はNOであるので、NOの符号が付与されたバスを通り、ノード1204に移動する。次にノード1204の質問「文頭であるか」否かを検討する。アクセント句「よろしいですか」は文頭の句でないないので、回答はNOであり、NOの符号が付与されたバスを通り、ノード1207に移動する。ノード1207は葉ノードであり、質問は付与されておらず、初期F0値が記述されている。そこで、「よろしいですか」の初期F0値は5.2に決定される。なお、初期F0値パラメータデータベースの構成例はニ分木に限られず、様々な構成が考えられる。このようにして、初期F0値生成部18でアクセント句毎に初期F0値が求められ、F0値時系列生成部20へ入力される。また、初期F0値生成部18は図17のように、図13に示す表と、図15に示すデルタ関数と初期F0値を組み合わせたものを出力してもよい   The accent phrase “Are you sure?” Will be specifically described as an example. First, the question of the node 1201 as the root node “whether the current accent phrase is accent type 1” is examined. The accent type of the accent phrase “Are you sure?” Is type 3, and the answer is NO. Therefore, the vehicle moves to the node 1202 through the bus to which the symbol “NO” is assigned. Next, it is examined whether or not the question of node 1202 is “the accent type of the current phrase is type 0” or not. Since the answer is NO, the vehicle moves to the node 1204 through the bus to which the code of NO is assigned. Next, it is examined whether or not the question of the node 1204 is “beginning of sentence”. Since the accent phrase “Are you sure?” Is not the phrase at the beginning of the sentence, the answer is NO, and the bus moves to the node 1207 through the bus assigned the sign of NO. The node 1207 is a leaf node, no question is given, and an initial F0 value is described. Therefore, the initial F0 value of “Are you sure?” Is determined to be 5.2. The configuration example of the initial F0 value parameter database is not limited to the binary tree, and various configurations can be considered. In this way, the initial F0 value generation unit 18 determines the initial F0 value for each accent phrase and inputs it to the F0 value time series generation unit 20. Further, as shown in FIG. 17, the initial F0 value generation unit 18 may output the table shown in FIG. 13 and a combination of the delta function and the initial F0 value shown in FIG.

F0値時系列生成部20では、デルタ関数生成部16からのアクセント句毎のデルタ関数と、初期F0値生成部18からのアクセント句毎の初期F0値とから、アクセント句毎にF0値時系列が生成される(ステップS20)。   In the F0 value time series generation unit 20, the F0 value time series for each accent phrase is calculated from the delta function for each accent phrase from the delta function generation unit 16 and the initial F0 value for each accent phrase from the initial F0 value generation unit 18. Is generated (step S20).

具体的には、例えば、デルタ関数FD(t)の積分値に初期F0値を加算して、アクセント句毎のF0値時系列F(t)が生成される。tは開始時刻と終了時刻の間の任意の時間とする。つまり以下の式(5)でF0値時系列F(t)が生成される。

Figure 0004787769
Specifically, for example, the initial F0 value is added to the integral value of the delta function FD (t) to generate the F0 value time series F (t) for each accent phrase. t is an arbitrary time between the start time and the end time. That is, the F0 value time series F (t) is generated by the following equation (5).
Figure 0004787769

ここでt1はアクセント句の開始時刻を示す。右辺の積分演算の意味は、上述の通り、デルタ関数FD(t)はF0値時系列を微分したものであるので、デルタ関数FD(t)を積分することで、F0値時系列を求めることが出来る。図18は、F0値時系列生成部20での処理結果である上記式(5)の演算結果、つまり生成されたアクセント句「よろしいですか」のF0値時系列を示すものである。   Here, t1 indicates the start time of the accent phrase. The meaning of the integral operation on the right side is that, as described above, the delta function FD (t) is obtained by differentiating the F0 value time series, so that the F0 value time series is obtained by integrating the delta function FD (t). I can do it. FIG. 18 shows the calculation result of the above equation (5) that is the processing result in the F0 value time series generation unit 20, that is, the F0 value time series of the generated accent phrase “Are you sure?”.

上述のように、例えば、アクセント句「よろしいですか」の場合、初期F0値と7つの韻律イベントそれぞれに3つずつの韻律イベントパラメータが生成される。よって、合計22の韻律パラメータだけで、F0値時系列を表現することが出来る。一方、従来技術1では「YOROSIIDESUKA」という13個の音韻毎に6個のパラメータが必要であり、つまり78個のパラメータが必要である。従って、この実施例では少ないパラメータでF0値時系列を生成することが可能になり、結果としてコストを下げることが出来、上記第1の問題点は解決される。   As described above, for example, in the case of the accent phrase “Are you sure?”, Three prosodic event parameters are generated for each of the initial F0 value and the seven prosodic events. Therefore, the F0 value time series can be expressed with only a total of 22 prosodic parameters. On the other hand, in the prior art 1, 6 parameters are required for every 13 phonemes “YOROSIDE ESUKA”, that is, 78 parameters are required. Therefore, in this embodiment, it becomes possible to generate the F0 value time series with a small number of parameters, and as a result, the cost can be reduced, and the first problem is solved.

また、アクセント句「よろしいですか」のアクセント型は3型であり、対応したF0値の動きに加えて、最後の「か」に対応したF0値の上昇が実現されている。よって、疑問口調に限らず、様々な口調に対応したF0値時系列を生成することができるので上記第2の問題点も解決される。   Further, the accent type of the accent phrase “Are you sure?” Is type 3, and in addition to the movement of the corresponding F0 value, the increase of the F0 value corresponding to the last “ka” is realized. Therefore, since the F0 value time series corresponding to various tone can be generated without being limited to the question tone, the second problem can be solved.

この実施例2では、処理を簡素にするため、実施例1で説明した韻律イベント生成部12、口調別韻律イベント追加部13、韻律イベントパラメータ生成部14、韻律イベントパラメータ変換部22との構成を統合して、韻律イベント部54としてF0値時系列生成装置52を作動させるものである。   In the second embodiment, in order to simplify the processing, the configuration of the prosody event generation unit 12, the tone-specific prosody event addition unit 13, the prosody event parameter generation unit 14, and the prosody event parameter conversion unit 22 described in the first embodiment is used. In combination, the F0 value time-series generating device 52 is operated as the prosodic event unit 54.

図19は実施例2の機能構成例を示した図である。韻律イベント部54では、アクセント型、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、更に口調別韻律イベントを追加し、韻律イベント、口調別韻律イベント毎に韻律イベントパラメータが生成される。   FIG. 19 is a diagram illustrating a functional configuration example of the second embodiment. The prosodic event unit 54 generates a prosodic event from the start time and end time of the accent type and the mora type using the prosodic event parameter table, and further adds a tone-specific prosody event. Prosodic event parameters are generated.

韻律イベントパラメータテーブルは韻律イベントパラメータテーブル記憶部29に記憶されている。図20に韻律イベントパラメータテーブルを示す。韻律イベントパラメータテーブルは、例えば、図6記載の韻律イベントテーブルと図8記載の口調別韻律イベントテーブルを統合させ、韻律イベント、口調別韻律イベント毎に対応する韻律イベントパラメータを付加させたものである。韻律イベント部では、図6記載の韻律イベントテーブル、図8記載の口調別韻律イベントテーブル、図11記載の韻律イベントパラメータデータベースを用いない。   The prosodic event parameter table is stored in the prosodic event parameter table storage unit 29. FIG. 20 shows a prosodic event parameter table. For example, the prosodic event parameter table is obtained by integrating the prosodic event table shown in FIG. 6 and the tone-specific prosodic event table shown in FIG. 8 and adding prosodic event parameters corresponding to each prosodic event and tone-specific prosodic event. . In the prosodic event section, the prosodic event table shown in FIG. 6, the tone-specific prosodic event table shown in FIG. 8, and the prosodic event parameter database shown in FIG. 11 are not used.

まず、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが韻律イベント部54に入力される。韻律イベント部54で、韻律イベントパラメータテーブルを用いて、アクセント句のアクセント型に応じて韻律イベントが生成され、同時に、その韻律イベントに対応する振幅パラメータA、位置パラメータm、継続時間パラメータσが求められる。以後のデルタ関数生成部16などの処理は実施例1と同様なので、省略する。   First, a boundary position and an accent type for each accent phrase are assigned to each accent phrase, and a text in which a start time and an end time for each mora are determined is input to the prosodic event unit 54. In the prosodic event unit 54, a prosodic event is generated according to the accent type of the accent phrase using the prosodic event parameter table, and at the same time, an amplitude parameter A, a position parameter m, and a duration parameter σ corresponding to the prosodic event are obtained. It is done. Subsequent processing by the delta function generation unit 16 and the like is the same as that in the first embodiment, and thus will be omitted.

この実施例2は実施例1よりも少ないコストで実施することが出来る。   The second embodiment can be implemented at a lower cost than the first embodiment.

この実施例3は、実施例1で説明したデルタ関数生成部16、初期F0値生成部18、F0値時系列生成部20を統合させてF0値時系列部58として、韻律イベントパラメータ生成装置56を処理させるものである。図21は実施例3の機能構成例である。   In the third embodiment, the delta function generation unit 16, the initial F0 value generation unit 18, and the F0 value time series generation unit 20 described in the first embodiment are integrated into a F0 value time series unit 58 as a prosodic event parameter generation device 56. Is to be processed. FIG. 21 is a functional configuration example of the third embodiment.

F0値時系列部58では、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列が生成される。所定の生成関数とは、例えば、上昇イベントの生成関数(上記式(1))、なだらかな下降の生成関数(上記式(3))などが挙げられる。上述したように、下降イベントの生成関数、盛り上がりイベントの生成関数は上昇イベントの生成関数から求めることが出来る。   The F0 value time series unit 58 generates an F0 value time series for each accent phrase using the prosodic event parameters and a predetermined generation function. The predetermined generation function includes, for example, a rising event generation function (the above formula (1)), a gentle downward generation function (the above formula (3)), and the like. As described above, the generation function of the descending event and the generation function of the rising event can be obtained from the generation function of the rising event.

まず、F0値時系列部58で韻律イベントに対応する生成関数が求められる。また例えば、上記の方法で初期F0値が求められ、韻律イベントパラメータ変換部22で求められた韻律イベントパラメータが生成関数に適用される。また、例えば実施例1で説明した手法で初期F0値が求められ、これらより、F0値時系列が求められる。   First, the generation function corresponding to the prosodic event is obtained by the F0 value time series unit 58. In addition, for example, the initial F0 value is obtained by the above method, and the prosodic event parameter obtained by the prosodic event parameter converting unit 22 is applied to the generation function. Further, for example, the initial F0 value is obtained by the method described in the first embodiment, and the F0 value time series is obtained from these values.

実施例1では、生成関数の加算後、積分計算してF0値時系列を求めていたが、この実施例3では、積分計算がされた生成関数を加算して、F0値時系列を求めること等ができる。この実施例3は実施例1で説明した処理の順序でなくとも、目的が達成される点で有効である。   In the first embodiment, the F0 value time series is obtained by integration calculation after adding the generation function. In this third embodiment, the F0 value time series is obtained by adding the generation function subjected to the integral calculation. Etc. The third embodiment is effective in that the object is achieved even if the order of processing described in the first embodiment is not used.

この実施例4では、実施例2で説明した韻律イベント部54と実施例3で説明したF0値時系列部58とでF0値時系列生成装置60は構成される。図22は実施例4の機能構成例である。処理内容は、実施例2、実施例3で説明した通りなので、説明を省略する。   In the fourth embodiment, the F0 value time series generation device 60 is configured by the prosodic event unit 54 described in the second embodiment and the F0 value time series unit 58 described in the third embodiment. FIG. 22 is a functional configuration example of the fourth embodiment. Since the processing content is as described in the second and third embodiments, the description is omitted.

以上説明したF0値時系列生成処理の過程では、F0値の対数の値の時系列を生成してから、指数関数を用いてF0値時系列を合成するものとする。従って、生成関数の韻律イベントパラメータや初期F0値については、F0値の対数をとった数値が例として示されている。これは、対数領域でのF0値の変化が聴感上の変化によく対応するという知見を反映した処理である。もちろん、対数F0値を用いず、線形のF0値を用いる場合でも、韻律イベントパラメータデータベースや初期F0値パラメータデータベースに含まれる数値を線形F0値とすれば、同様の処理で直接F0値時系列を生成することが可能である。   In the process of F0 value time series generation processing described above, a time series of logarithmic values of F0 values is generated, and then an F0 value time series is synthesized using an exponential function. Therefore, as for the prosodic event parameter and the initial F0 value of the generation function, numerical values obtained by taking the logarithm of the F0 value are shown as examples. This is a process reflecting the knowledge that the change in the F0 value in the logarithmic region corresponds well to the change in audibility. Of course, even when a linear F0 value is used without using a logarithmic F0 value, if the numerical values included in the prosodic event parameter database and the initial F0 value parameter database are linear F0 values, the F0 value time series can be directly converted by the same processing. It is possible to generate.

以上の各実施形態の他、本発明であるF0値時系列生成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、F0値時系列生成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   In addition to the above embodiments, the F0 value time-series generation apparatus according to the present invention is not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the F0 value time-series generation apparatus is not only executed in time series in the order described, but also executed in parallel or individually as required by the processing capability of the apparatus that executes the processing. It is good.

また、この発明のF0値時系列生成装置における処理をコンピュータによって実現する場合、F0値時系列生成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、F0値時系列生成装置における処理機能がコンピュータ上で実現される。   Further, when the processing in the F0 value time series generation device of the present invention is realized by a computer, the processing contents of the functions that the F0 value time series generation device should have are described by a program. Then, by executing this program on a computer, the processing function in the F0 value time-series generation device is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(DigitalVersatileDisc)、DVD−RAM(RandomAccessMemory)、CD−ROM(CompactDiscReadOnlyMemory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Opticaldisc)等を、半導体メモリとしてEEP−ROM(ElectronicallyErasableandProgrammable−ReadOnlyMemory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like is used as an optical disc, and a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only Memory), a CD-R (Recordable). ) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable Programmable-Read Only Memory), etc. can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program.

また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(ApplicationServiceProvider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Further, the above-described processing may be executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. Good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、F0値時系列生成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the F0 value time series generation device is configured by executing a predetermined program on the computer. However, at least a part of these processing contents may be realized by hardware. Good.

この発明の実施例1の機能構成例を示すブロック図。The block diagram which shows the function structural example of Example 1 of this invention. この発明の実施例1の主な処理の流れを示すフローチャート。The flowchart which shows the flow of the main processes of Example 1 of this invention. アクセント句分割・付与部2の出力例を示す図。The figure which shows the output example of the accent phrase division | segmentation and provision part 2. FIG. モーラ分割・付与部4の出力例を示す図。The figure which shows the example of an output of the mora division | segmentation and provision part 4. FIG. モーラ分割・付与部4のその他の出力例を示す図。The figure which shows the other output example of the mora division | segmentation and provision part 4. FIG. 韻律イベントテーブルの例を示す図。The figure which shows the example of a prosodic event table. 韻律イベント生成部12の出力例を示す図。The figure which shows the example of an output of the prosodic event generation part 12. FIG. 口調別韻律イベントテーブルの例を示す図。The figure which shows the example of the prosodic event table classified by tone. 口調別韻律イベント追加部13の出力例を示す図。The figure which shows the output example of the prosodic event addition part 13 according to a tone. 生成関数テーブルの例を示す図。The figure which shows the example of a production | generation function table. 韻律イベントパラメータデータベースの構成例を示す図。The figure which shows the structural example of a prosodic event parameter database. 韻律イベントパラメータ生成部14の出力例を示す図。The figure which shows the example of an output of the prosodic event parameter production | generation part 14. FIG. 韻律イベントパラメータ変換部22の出力例を示す図。The figure which shows the example of an output of the prosodic event parameter conversion part 22. FIG. 生成関数生成部162の出力例を示す図。The figure which shows the output example of the production | generation function production | generation part 162. FIG. 加算部164の出力例を示す図。The figure which shows the output example of the addition part 164. FIG. 初期F0値パラメータデータベースの構成例を示す図。The figure which shows the structural example of an initial F0 value parameter database. 初期F0値生成部18の出力例を示す図。The figure which shows the example of an output of the initial F0 value production | generation part 18. F0値時系列生成部20の出力例を示す図。The figure which shows the output example of F0 value time series production | generation part 20. FIG. この発明の実施例2の機能構成例を示す図。The figure which shows the function structural example of Example 2 of this invention. 韻律イベントパラメータテーブルの例を示す図。The figure which shows the example of a prosodic event parameter table. この発明の実施例3の機能構成例を示す図。The figure which shows the function structural example of Example 3 of this invention. この発明の実施例4の機能構成例を示す図。The figure which shows the function structural example of Example 4 of this invention.

Claims (10)

アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成装置であって、
アクセント型と、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント部と、
韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列部と、
を有し、
上記韻律イベントは、上昇、下降、なだらかな下降、盛り上がり、であり、
上記生成関数は、上記韻律イベントが
Figure 0004787769

であり、
上記韻律イベントパラメータは、A、σ、mである
ことを特徴とするF0値時系列生成装置。
An F0 value time series generating device that generates a F0 value time series of speech by inputting a boundary position and an accent type for each accent phrase for each accent phrase, and inputting text with a determined start time and end time for each mora. There,
A prosodic event section that generates a prosodic event using the prosody event parameter table from the accent type and the start time and end time for each mora, and generates a prosodic event parameter for each prosodic event;
An F0 value time series part for generating an F0 value time series for each accent phrase using prosodic event parameters and a predetermined generation function;
Have
The prosodic events are ascending, descending, gentle descent, and excitement.
The generation function has the prosodic event
Figure 0004787769

And
The F0 value time-series generation apparatus, wherein the prosodic event parameters are A, σ, and m.
請求項1に記載のF0値時系列生成装置であって、
上記F0値時系列部は、
韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成部と、
初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成部と、
デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成部と、
を有することを特徴とするF0値時系列生成装置。
The F0 value time-series generation device according to claim 1,
The F0 value time series part is
For each prosodic event, a prosody event parameter is applied to the generating function obtained from the generating function table, and a sum of generating functions corresponding to all prosodic events is generated as a delta function of the F0 value time series in the accent phrase. When,
Using an initial F0 value parameter database and accent phrase information, an initial F0 value generation unit for obtaining an initial F0 value for each accent phrase;
An F0 value time series generation unit for generating an F0 value time series for each accent phrase from the delta function and the initial F0 value;
An F0 value time-series generation apparatus characterized by comprising:
請求項1又は2記載のF0値時系列生成装置であって、
上記韻律イベント部は、
上記韻律イベントパラメータテーブルに代えて、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成部と、
口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加部と、
韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータを生成する韻律イベントパラメータ生成部と、
を有し、
上記口調別韻律イベントは、上昇、下降、なだらかな下降、盛り上がり、である
ことを特徴とするF0値時系列生成装置。
The F0 value time series generation device according to claim 1 or 2,
The prosodic event part is
In place of the prosodic event parameter table, using a prosodic event table, a prosodic event generating unit that generates a plurality of prosodic events that are associated with a designated part of an accent phrase according to an accent type;
If the accent phrase matches the occurrence condition using the tone-specific prosody event table, the tone-specific prosody event addition unit that adds the tone-specific prosody event corresponding to the occurrence condition to the specified location of the accent phrase,
A prosodic event parameter generating unit that generates a prosodic event parameter for each prosodic event, using a speech / linguistic situation at a location where the prosodic event parameter database and the prosodic event are associated,
Have
The F0 value time-series generating device , wherein the tone-specific prosodic events are ascending, descending, gentle descending, and rising .
請求項3に記載のF0値時系列生成装置であって、
上記韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納されており、
上記韻律イベントパラメータ生成部が生成した正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換部を有する
ことを特徴とするF0値時系列生成装置。
The F0 value time-series generation device according to claim 3 ,
The prosodic event parameter database stores normalized prosodic event parameters (hereinafter referred to as normalized prosodic event parameters),
The F0 value has a prosodic event parameter conversion unit that converts the normalized prosodic event parameter generated by the prosodic event parameter generation unit according to mora information or accent phrase information and outputs the prosodic event parameter Sequence generation device.
アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成方法であって、
韻律イベント手段が、アクセント型と、モーラの開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント過程と、
F0値時系列手段が、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列過程と、
を有し、
上記韻律イベントは、上昇、下降、なだらかな下降、盛り上がり、であり、
上記生成関数は、上記韻律イベントが
Figure 0004787769

であり、
上記韻律イベントパラメータは、A、σ、mである
ことを特徴とするF0値時系列生成方法。
An F0 value time series generation method in which a boundary position and an accent type for each accent phrase are assigned to each accent phrase, text having a determined start time and end time for each mora is input, and an F0 value time series of speech is generated. There,
The prosodic event means generates a prosodic event using the prosodic event parameter table from the accent type and the start time and end time for each mora, and generates a prosodic event parameter for each prosodic event;
An F0 value time series means for generating an F0 value time series for each accent phrase using a prosodic event parameter and a predetermined generation function;
Have
The prosodic events are ascending, descending, gentle descent, and excitement.
The generation function has the prosodic event
Figure 0004787769

And
The F0 value time-series generation method, wherein the prosodic event parameters are A, σ, and m.
請求項5に記載のF0値時系列生成方法であって、
上記F0値時系列過程は、
デルタ関数生成手段が、韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成過程と、
初期F0値生成手段が、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成過程と、
F0値時系列生成手段が、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成過程と、
を有することを特徴とするF0値時系列生成方法。
The F0 value time series generation method according to claim 5,
The F0 time series process is
The delta function generating means applies the prosodic event parameters to the generating function obtained from the generating function table for each prosodic event, and the sum of the generating functions corresponding to all prosodic events is used as the F0 value time-series delta function in the accent phrase. The delta function generation process to generate,
An initial F0 value generating means for generating an initial F0 value for each accent phrase using the initial F0 value parameter database and accent phrase information;
An F0 value time series generating means for generating an F0 value time series for each accent phrase from the delta function and the initial F0 value;
An F0 value time series generation method characterized by comprising:
請求項5又は6記載のF0値時系列生成方法であって、
上記韻律イベント過程は、
韻律イベント生成手段が、上記韻律イベントパラメータテーブルに代えて、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成過程と、
口調別韻律イベント追加手段が、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加過程と、
韻律イベントパラメータ生成手段が、韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータを生成する韻律イベントパラメータ生成過程と、
を有し、
上記口調別韻律イベントは、上昇、下降、なだらかな下降、盛り上がり、である
ことを特徴とするF0値時系列生成方法。
The F0 value time series generation method according to claim 5 or 6,
The prosodic event process is
A prosodic event generating means for generating a plurality of prosodic events that are associated with a designated portion of an accent phrase according to an accent type using a prosodic event table instead of the prosodic event parameter table; ,
The tone-specific prosodic event addition means uses the tone-specific prosodic event table to add a tone-specific prosodic event corresponding to the occurrence condition to the specified location of the accent phrase if the accent phrase meets the occurrence condition. The process of adding prosodic events by tone,
The prosodic event parameter generating means generates a prosodic event parameter for each prosodic event using a speech / linguistic situation at a location where the prosodic event parameter database and the prosodic event are associated, and
Have
The F0 value time series generation method, wherein the tone-specific prosodic events are ascending, descending, gently descending, and exciting .
請求項7に記載のF0値時系列生成方法であって、
上記韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納されており、
韻律イベントパラメータ変換手段が、上記韻律イベントパラメータ生成過程で生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換過程を有する
ことを特徴とするF0値時系列生成方法。
The F0 value time series generation method according to claim 7 ,
The prosodic event parameter database stores normalized prosodic event parameters (hereinafter referred to as normalized prosodic event parameters),
The prosodic event parameter converting means has a prosodic event parameter converting process of converting the normalized prosodic event parameter generated in the prosodic event parameter generating process according to mora information or accent phrase information and outputting the prosodic event parameter The F0 value time series generation method characterized by the above.
請求項1〜4何れかに記載のF0値時系列生成装置の各処理をコンピュータに実行させるためのF0値時系列生成プログラム。   An F0 value time series generation program for causing a computer to execute each process of the F0 value time series generation device according to claim 1. 請求項9記載のF0値時系列生成プログラムを記録したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium on which the F0 value time series generation program according to claim 9 is recorded.
JP2007027547A 2007-02-07 2007-02-07 F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof Active JP4787769B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007027547A JP4787769B2 (en) 2007-02-07 2007-02-07 F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007027547A JP4787769B2 (en) 2007-02-07 2007-02-07 F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2008191525A JP2008191525A (en) 2008-08-21
JP4787769B2 true JP4787769B2 (en) 2011-10-05

Family

ID=39751667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007027547A Active JP4787769B2 (en) 2007-02-07 2007-02-07 F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4787769B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5807921B2 (en) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
WO2015092936A1 (en) 2013-12-20 2015-06-25 株式会社東芝 Speech synthesizer, speech synthesizing method and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01316800A (en) * 1988-06-17 1989-12-21 Hitachi Ltd Speech rule synthesis part
JP3078073B2 (en) * 1991-12-26 2000-08-21 沖電気工業株式会社 Basic frequency pattern generation method
JP2003330482A (en) * 2002-05-14 2003-11-19 Toshiba Corp Method, device, and program for generating fundamental frequency pattern and method, device and program for synthesizing voice

Also Published As

Publication number Publication date
JP2008191525A (en) 2008-08-21

Similar Documents

Publication Publication Date Title
JP5269668B2 (en) Speech synthesis apparatus, program, and method
JP2010237323A (en) Sound model generation apparatus, sound synthesis apparatus, sound model generation program, sound synthesis program, sound model generation method, and sound synthesis method
JP2007249212A (en) Method, computer program and processor for text speech synthesis
JP5411845B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
JP5929909B2 (en) Prosody generation device, speech synthesizer, prosody generation method, and prosody generation program
JP2017009842A (en) Speech recognition result output device, speech recognition result output method and speech recognition result output program
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
JP2016151736A (en) Speech processing device and program
JP6669081B2 (en) Audio processing device, audio processing method, and program
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP6121273B2 (en) Speech learning model learning device, speech synthesizer, and methods and programs thereof
JP5726822B2 (en) Speech synthesis apparatus, method and program
JP4787769B2 (en) F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP6436806B2 (en) Speech synthesis data creation method and speech synthesis data creation device
JP5875504B2 (en) Speech analysis device, method and program
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP3737788B2 (en) Basic frequency pattern generation method, basic frequency pattern generation device, speech synthesis device, fundamental frequency pattern generation program, and speech synthesis program
JP6314828B2 (en) Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program
JP2014095851A (en) Methods for acoustic model generation and voice synthesis, devices for the same, and program
JP6036681B2 (en) Speech synthesis system, speech synthesis method, and speech synthesis program
JP2005234418A (en) Method and computer program for synthesizing f0-contours
JP2009237564A (en) Data selection method for speech synthesis
JPH11265194A (en) Audio information processing method
JP2006189723A (en) Basic frequency pattern generation system, basic frequency pattern generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110715

R150 Certificate of patent or registration of utility model

Ref document number: 4787769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350