JP2006276660A - Method of indicating features of intonation variation by modification of tone and computer program thereof - Google Patents

Method of indicating features of intonation variation by modification of tone and computer program thereof Download PDF

Info

Publication number
JP2006276660A
JP2006276660A JP2005098067A JP2005098067A JP2006276660A JP 2006276660 A JP2006276660 A JP 2006276660A JP 2005098067 A JP2005098067 A JP 2005098067A JP 2005098067 A JP2005098067 A JP 2005098067A JP 2006276660 A JP2006276660 A JP 2006276660A
Authority
JP
Japan
Prior art keywords
tone
intonation
target
word
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005098067A
Other languages
Japanese (ja)
Other versions
JP2006276660A5 (en
JP4793776B2 (en
Inventor
Ni Jinfu
ジンフ・ニ
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005098067A priority Critical patent/JP4793776B2/en
Publication of JP2006276660A publication Critical patent/JP2006276660A/en
Publication of JP2006276660A5 publication Critical patent/JP2006276660A5/ja
Application granted granted Critical
Publication of JP4793776B2 publication Critical patent/JP4793776B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method capable of measuring intonation variations underlying a speech under natural conditions. <P>SOLUTION: The method of measuring intonation variations includes a step 80 of preparing a prescribed set of citation values 56 of fundamental frequency (F0) targets for each of lexical tones obtained from isolated syllables 50 of a loudspeaker. The set of citation values of F0 targets characterizes a corresponding lexical tone. The method further includes a step 82 of extracting F0 target values for each syllable in sample speech data 52 of the loudspeaker and a step of calculating a prescribed first parameter 58 that measures the change from a citation value of a lexical tone of a syllable to an F0 target value, for each of the F0 target values of each syllable in the sample speech data 52. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

この発明は話し言葉の処理に関し、特に、話し言葉でのイントネーションの変化を測定して所望のイントネーションの音声を合成することに関する。   The present invention relates to spoken language processing, and more particularly, to measuring a change in intonation in spoken language to synthesize a desired intonation voice.

中国語の基本周波数(F0)の輪郭(一般的な意味でのイントネーション)は、語の複数の声調、及び平叙文と疑問文との対比を表すような実際のイントネーション(語の声調を除く)を明らかにするものである。伝統的に第一声、第二声、第三声、第四声と呼ばれ(声調1から4)、その各々が他と区別される独自の特徴を持った4つの語の声調と、このような顕著な特徴のない中立声調(声調0)とがある。   Chinese basic frequency (F0) outline (intonation in a general sense) is the actual tone (excluding the tone of a word) that represents multiple tones of a word and contrasts between plain and questioned sentences Is to clarify. Traditionally called the first, second, third and fourth voices (tones 1 to 4), each of which has its own distinctive characteristics that distinguish it from the others, and this There is a neutral tone (tone 0) without such a remarkable feature.

声調の種類は中国語の音節を直接に構成する要素である。例えば、「ma」は声調の種類によって以下の5つの異なる意味を持つ。   The type of tone is an element that directly composes Chinese syllables. For example, “ma” has the following five different meanings depending on the type of tone.

Figure 2006276660
このために重要な問題が生じる。テキスト−トゥ−スピーチ(text−to−speech:TTS)合成においてイントネーションを合成する際に、語の声調と実際のイントネーションとの相互作用をどのように明らかにするか、ということである。これはTTSを会話システムに適用する際に非常に重要である。会話システムでは例えば、疑問、メッセージの確認、及び感情が、人間によって、通常は音節のイントネーション(すなわち語の声調)と区別され、さらに通常の平叙文とも区別されるイントネーションのパターンで実現される[非特許文献1参照]。
Figure 2006276660
This creates an important problem. It is how to clarify the interaction between the tone of the word and the actual intonation when synthesizing intonation in text-to-speech (TTS) synthesis. This is very important when applying TTS to conversational systems. In a conversation system, for example, questions, message confirmations, and emotions are realized by humans in an intonation pattern that is usually distinguished from syllable intonations (ie, tone of words) and also from normal plain text [ Non-patent document 1].

これに対してとり得る解決策はおそらく、F0輪郭をアクセントと句の成分とに分解するフジサキのモデルであろう[非特許文献2参照]。イントネーションの変化をアクセントと句の成分との両者に分配してもよいが、モデルのパラメータ数は限られている。実際のイントネーションが語の声調に及ぼす影響に対処するため、言語学者は一般に音節[非特許文献3]または句[非特許文献4]のレベルでのピッチ範囲の変化に注目する。
G.コチャンスキー及びC.シー、「ソフトテンプレートを用いた韻律学モデリング」音声コミュニケーション、第39巻、pp.311−352、2003年(G. Kochanski and C. Shih, "Prosody modeling with soft templates," Speech Communication, Vol. 39, pp. 3l1-352, 2003.) H.フジサキ及びK.ヒロセ、「日本語宣言文における音声基本周波数輪郭の分析」日本音響学会誌、第5巻、第4号、pp.233−242、1984年(H. Fujisaki and K. Hirose, "Analysis of voice fundamental frequency contours for declarative sentences of Japanese," J. Acoust. Soc. Japan, Vol.5, No.4, pp. 233-242, 1984.) J.シェン、「北京方言における声調とイントネーションのピッチ範囲」、実験的音声学における調査報告書、T.リン及びL.J.ワン編、北京大学出版局、pp.73−130、1985年(中国語)(J. Shen, "Pitch range of tone and intonation in Beijing dialect," in Working papers in experimental phonetics, ed. by T. Lin and L. J. Wang, Beijing Univ. Press, pp. 73-130, 1985. (in Chinese)) Z.ウー、「標準中国語のためのイントネーション分析の新方法:文中の句輪郭の周波数転位処理」話し言葉の分析、知覚及び処理、G.ファンら編、pp.255−268、1996年(Z. Wu, "A new method of intonation analysis for standard Chinese: frequency transposition processing of phrasal contours in a sentence," Analysis, perception and processing of spoken language, ed. by G. Fant, et al, pp. 255-268, 1996.) Y.R.チャオ、中国語話し言葉の文法。バークレー、カリフォルニア大学出版局、1968年(Y. R. Chao, A grammar of spoken Chinese. Berkeley, University of California Press, 1968.) P.クラトチヴィル、北京語のイントネーション、イントネーションシステム、20ヶ国語の調査内、D.ハースト及びA.D.クリスト編、ケンブリッジ大学出版局、417−431、1998年(P. Kratochvil, Intonation in Beijing Chinese, in Intonation systems, a survey of twenty languages, ed. by D. Hirst and A. D. Cristo, Cambridge Uni. Press, 417-431, 1998.) J.ニ及びK.ヒロセ、「標準中国語文の基本周波数輪郭の機能的モデリングの実験的評価」ISCSLP2000、北京、pp.319−322、2000年(J. Ni and K. Hirose, "Experimental evaluation of a functional modeling of fundamental frequency contours of standard Chinese sentences," ISCSLP2000, Beijing, pp. 319-322, 2000.) J.ニ及びH.カワイ、「ピッチ範囲が中国語の声調とイントネーションパターンを固定する」音声韻律学2004、奈良、pp.95−98、2004年(J. Ni and H. Kawai, "Pitch targets anchor Chinese tone and intonation patterns," Speech Prosody 2004, Nara, pp. 95-98, 2004.) J.ニ及びH.カワイ、「パラメトリックモデリング及び合成による分析ベースのパターンマッチングを通した声調特徴量の抽出」ICASSP2003、pp.72−75、2003年(J. Ni and H. Kawai, "Tone feature extraction through parametric modeling and analysis-by-synthesis-based pattern matching," ICASSP2003, pp. 72-75, 2003) J.ニ及びH.カワイ、「関数モデル及びその評価による中国語基本周波数輪郭の骨格化」TAL2004、pp.151−154、北京、2004年(J. Ni and H. Kawai, "Skeletonising Chinese fundamental frequency contours with a functional model and its evaluation," TAL2004, pp. 151-154, Beijing, 2004.) J.トゥハート、R.コリナー及びC.コーエン、イントネーションの知覚的研究:音声のメロディに対する実験的、音声学的アプローチ、ケンブリッジ大学出版局、1990年(J. 'tHart, R. Collier and A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to speech melody, Cambridge University Press, 1990.)
A possible solution to this is probably a Fujisaki model that decomposes the F0 contour into accent and phrase components [see Non-Patent Document 2]. Intonation changes may be distributed to both accent and phrase components, but the number of parameters in the model is limited. In order to deal with the effects of actual intonation on the tone of words, linguists generally focus on changes in pitch range at the level of syllables [3] or phrases [4].
G. Cochance Key and C.I. See, “Prosodic Modeling Using Soft Template” Speech Communication, Vol. 39, pp. 311-352, 2003 (G. Kochanski and C. Shih, "Prosody modeling with soft templates," Speech Communication, Vol. 39, pp. 3l1-352, 2003.) H. Fujisaki and K. Hirose, “Analysis of Speech Basic Frequency Contours in Japanese Declarations”, Journal of the Acoustical Society of Japan, Vol. 233-242, 1984 (H. Fujisaki and K. Hirose, "Analysis of voice fundamental frequency contours for declarative sentences of Japanese," J. Acoust. Soc. Japan, Vol.5, No.4, pp. 233-242 , 1984.) J. et al. Shen, “Pitch range of tone and intonation in Beijing dialect”, research report on experimental phonetics, T. Phosphorus and L. J. et al. One, Peking University Press, pp. 73-130, 1985 (Chinese) (J. Shen, "Pitch range of tone and intonation in Beijing dialect," in Working papers in experimental phonetics, ed. By T. Lin and LJ Wang, Beijing Univ. Press, pp. 73-130, 1985. (in Chinese)) Z. Wu, “New method of intonation analysis for Mandarin Chinese: Frequency transposition processing of phrase contours in sentences”, analysis, perception and processing of spoken language, Fan et al., Pp. 255-268, 1996 (Z. Wu, "A new method of intonation analysis for standard Chinese: frequency transposition processing of phrasal contours in a sentence," Analysis, perception and processing of spoken language, ed. By G. Fant, et al, pp. 255-268, 1996.) Y. R. Chao, Chinese spoken grammar. Berkeley, University of California Press, 1968 (YR Chao, A grammar of spoken Chinese. Berkeley, University of California Press, 1968.) P. Kratochiville, Mandarin intonation, intonation system, in 20 languages, Hurst and A.M. D. Christo, Cambridge University Press, 417-431, 1998 (P. Kratochvil, Intonation in Beijing Chinese, in Intonation systems, a survey of twenty languages, ed. By D. Hirst and AD Cristo, Cambridge Uni. Press, 417 -431, 1998.) J. et al. D. and K.K. Hirose, “Experimental Evaluation of Functional Modeling of Basic Frequency Contours in Mandarin Chinese” ISCSLP2000, Beijing, pp. 319-322, 2000 (J. Ni and K. Hirose, "Experimental evaluation of a functional modeling of fundamental frequency contours of standard Chinese sentences," ISCSLP2000, Beijing, pp. 319-322, 2000.) J. et al. D. and H.H. Kawai, “Pitch Range Fixes Chinese Tone and Intonation Patterns” Phonetic Prosody 2004, Nara pp. 95-98, 2004 (J. Ni and H. Kawai, "Pitch targets anchor Chinese tone and intonation patterns," Speech Prosody 2004, Nara, pp. 95-98, 2004.) J. et al. D. and H.H. Kawai, “Extraction of Tone Features through Analysis-Based Pattern Matching by Parametric Modeling and Synthesis,” ICASSP 2003, pp. 72-75, 2003 (J. Ni and H. Kawai, "Tone feature extraction through parametric modeling and analysis-by-synthesis-based pattern matching," ICASSP2003, pp. 72-75, 2003) J. et al. D. and H.H. Kawai, “skeletonization of Chinese basic frequency contour by function model and its evaluation”, TAL 2004, pp. 151-154, Beijing, 2004 (J. Ni and H. Kawai, "Skeletonising Chinese fundamental frequency contours with a functional model and its evaluation," TAL2004, pp. 151-154, Beijing, 2004.) J. et al. To Heart, R.D. Coriner and C.I. Cohen, perceptual study of intonation: an experimental, phonetic approach to phonetic melodies, Cambridge University Press, 1990. phonetic approach to speech melody, Cambridge University Press, 1990.)

このようなアプローチの限界は、測定されたピッチ範囲が多少とも語の声調の影響を含んでいることである。さらに、もしある発話中の語の声調がたまたま全て声調1であった場合、ピッチ範囲の計算ができなくなる。というのも、声調1は高音域レベルの特性を有し、ピッチ範囲を推定するのに基準として利用可能な低音域の特徴がないからである。   The limitation of such an approach is that the measured pitch range includes more or less word tone effects. Furthermore, if the tone of a word being uttered is all tone 1, the pitch range cannot be calculated. This is because tone 1 has the characteristics of the high sound level and there is no low sound characteristic that can be used as a reference for estimating the pitch range.

この発明は、このイントネーションの変化を測定するという問題に別の方向から取組み、分離された個々の音節からの参考値の内部での声調変化を含む、声調の種類への依存性と、F0輪郭の起伏とを分解する際に生じる困難さを避けるようにする。   The present invention addresses the problem of measuring this intonation change from a different direction, including dependence on the tone type, including tone changes within the reference values from the separated individual syllables, and the F0 contour. Try to avoid the difficulties that arise when breaking down the undulations.

従って、この発明の目的の1つは、自然な条件下で、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。   Accordingly, one object of the present invention is to provide a method capable of measuring changes in intonation underlying speech under natural conditions.

この発明の別の目的は、語の声調に影響されることなく、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。   Another object of the present invention is to provide a method capable of measuring a change in intonation based on speech without being affected by the tone of a word.

この発明の第1の局面に従えば、イントネーションの種類を声調の変形により特徴づける方法は、話者の個々の音節から得た語の声調の各々について、基本周波数(F0)ターゲットに関する参考値の所定の組を準備するステップを含み、F0ターゲットの参考値の組は対応する語の声調を特徴づけるものであり、話者のサンプル音声データ中の各音節についてF0ターゲット値を抽出するステップと、サンプル音声データ中の各音節のF0ターゲット値の各々について、その音節の語の声調に関する参考値から当該F0ターゲット値への変化の度合いを表す所定の第1のパラメータを計算するステップとをさらに含む。   According to the first aspect of the present invention, a method of characterizing intonation types by tone transformation is a method of characterizing a reference value for a fundamental frequency (F0) target for each tone of a word obtained from an individual syllable of a speaker. Preparing a predetermined set, the reference set of reference values for the F0 target characterizing the tone of the corresponding word, and extracting the F0 target value for each syllable in the sample speech data of the speaker; For each of the F0 target values of each syllable in the sample voice data, calculating a predetermined first parameter representing a degree of change from the reference value related to the tone of the word of the syllable to the F0 target value is further included. .

好ましくは、準備するステップは、語の声調の各々について、話者による複数個の個々の音節を録音するステップと、それぞれの語の声調に従って、録音された個々の音節のF0ターゲット値を抽出するステップと、語の声調の各々について、語の声調を特徴づけるF0ターゲットの各々のF0ターゲット値を平均するステップとを含む。   Preferably, the preparing step includes recording a plurality of individual syllables by the speaker for each of the tone of the word, and extracting an F0 target value of each recorded syllable according to the tone of each word. And, for each word tone, averaging each F0 target value of each F0 target characterizing the tone of the word.

より好ましくは、この方法は、所定の第2のパラメータの分布が所定の第2のパラメータの所定の基準値の両側でつりあうように、前記所定の第1のパラメータを所定の第2のパラメータに正規化するステップをさらに含む。   More preferably, in this method, the predetermined first parameter is changed to the predetermined second parameter so that the distribution of the predetermined second parameter is balanced on both sides of the predetermined reference value of the predetermined second parameter. The method further includes normalizing.

この発明の第2の局面は、コンピュータ上で実行されると、上記したいずれかの全てのステップをコンピュータに行わせる、コンピュータプログラムに関する。   A second aspect of the present invention relates to a computer program that, when executed on a computer, causes the computer to perform any of the steps described above.

A.方法の概観
A.1 変形
非特許文献7で扱われている、機能モデルで構築された変形は、さまざまな声域でのF0輪郭をλ時空間と呼ばれる正規化された空間にマッピングすることを可能にする。ここで、f0はヘルツ表示のF0を表すものとし、λはλ(正規化された周波数)でのF0を表すものとする。f0とλとの間の変形は以下の式で表される。
A. Method Overview A. 1 Deformation Deformation constructed with a functional model, which is dealt with in Non-Patent Document 7, makes it possible to map F0 contours in various vocal ranges into a normalized space called λ space-time. Here, f0 represents F0 in Hertz display, and λ represents F0 at λ (normalized frequency). The deformation between f0 and λ is expressed by the following equation.

Figure 2006276660
ここでA(λ,ζ)は単純な共振システム内での振幅−周波数応答を表す。
Figure 2006276660
Where A (λ, ζ) represents the amplitude-frequency response in a simple resonant system.

Figure 2006276660
ζは共振システムの減衰比を表す。物理的には、減衰比は共振システム中の粘性抵抗の等価物を表す。他のモデルパラメータは以下を示す。
Figure 2006276660
ζ represents the damping ratio of the resonant system. Physically, the damping ratio represents the equivalent of viscous resistance in a resonant system. Other model parameters are as follows:

[f0,f0]:声域の最高周波数と最低周波数
,λ]:λで表した声域の最高周波数と最低周波数
声域[f0,f0]は話者に依存する。実際には、対象となる話者の発話の周波数範囲として測定することができる。ほとんどの場合、λとλとはそれぞれ1及び2に固定できる。
[f0 b, f0 t]: the highest and lowest frequencies of the vocal range
b , λ t ]: The highest frequency and the lowest frequency of the voice range expressed by λ The voice range [f 0 b , f 0 t ] depends on the speaker. Actually, it can be measured as the frequency range of the speech of the target speaker. In most cases, λ t and λ b can be fixed at 1 and 2, respectively.

λとζとが与えられると、f0は上述の変換で直接計算できる。便宜上、Tf0()はζにおけるλからf0への変形を示すものとする。 Given λ and ζ, f0 can be directly calculated by the above transformation. For convenience, T f0 () represents the deformation from λ to f0 in ζ.

f0=Tf0(λ,ζ) (3)
他方で、λ(又はζ)は、f0とζ(又はλ)が与えられれば、反復処理によって決定することもできる。Tλ()がζでのf0からλへの変形を表すものとする。f0が大きくなるほど、λで表した値は小さくなる。
f0 = Tf0 (λ, ζ) (3)
On the other hand, λ (or ζ) can also be determined by iterative processing, given f0 and ζ (or λ). Let T λ () represent the deformation from f0 to λ at ζ. As f0 increases, the value represented by λ decreases.

λ=Tλ(f0,ζ) (4)
さらに、Tζ()がλからf0への変形のためのζを表すものとする。
λ = T λ (f0, ζ) (4)
Further, T ζ () represents ζ for deformation from λ to f0.

ζ=Tζ(λ,f0) (5)
A.2 声調の変形
この変換により、以下のζで示すように、[f0,f0]内でのf0からf0への変化を測定する方法が提供される。
ζ = T ζ (λ, f0) (5)
A. 2 Tone Deformation This transformation provides a method for measuring the change from f0 1 to f0 2 in [f0 b , f0 t ], as shown by ζ below.

ζ=Tζ(Tλ(f0,ζ),f0) (6)
ここでζは、f0及びf0をともにλ値にマッピングするときのζの基準値である。好ましくは、ζは0.156に固定される。
ζ = T ζ (T λ (f0 1 , ζ 0 ), f0 2 ) (6)
Here, ζ 0 is a reference value of ζ when both f0 1 and f0 2 are mapped to λ values. Preferably, ζ 0 is fixed at 0.156.

f0及びf0間の一対一のマッピングを保証するために、ζは(0,0.7]の集合に属していなければならない。これにより、以下のf0=Tf0(λ,ζ)という条件下で図1に見られるように、個々のζについて、f0及びf0間での制約が導かれる。 In order to guarantee a one-to-one mapping between f0 1 and f0 2 , ζ must belong to the set of (0, 0.7], so that f0 1 = T f0i , ζ As can be seen in FIG. 1 under the condition of 0 ), a constraint between f0 1 and f0 2 is derived for each ζ.

λ=Tλ(Tf0(λ,ζ),ζ) (7)
ζが基準のζ(=0.156)から遠ざかるにつれて、λは非線形にかつ単調にλへと変化し、その範囲は領域[1,2]の両端において急激に狭くなる。
λ 2 = T λ (T f01 , ζ 0 ), ζ) (7)
As ζ moves away from the reference ζ 0 (= 0.156), λ 1 changes non-linearly and monotonously to λ 2 , and the range sharply narrows at both ends of the region [1, 2].

ζをζの両側でつりあわせるため、正規化された減衰比ζをζ∈[−1,1]として次のように定義する。 In order to balance ζ on both sides of ζ 0 , the normalized damping ratio ζ n is defined as ζ n ∈ [−1, 1] as follows.

Figure 2006276660
この方法を拡張して、語の声調及びピッチアクセント等の、2個のF0ターゲットのシーケンス間の変化を測定することが可能である。ある声調の中でのすべてのF0ターゲットは、同じζにおけるλによる相対量として表される。この方法を2個の声調間の変化を測定するために用いる利点は、声調内の内部変化が見え、このため、実際の声調の変化を測定可能となることである。
Figure 2006276660
This method can be extended to measure changes between sequences of two F0 targets, such as word tone and pitch accent. All F0 targets in a tone are expressed as relative quantities with λ at the same ζ 0 . The advantage of using this method to measure the change between two tones is that internal changes in the tone can be seen, thus making it possible to measure the actual tone change.

図2から図4はこの声調変形をマンダリン語の声調に適用した例を示す。図2(a)は4個の語の声調(ボックス30に示すように、声調1から声調4を同じ時間軸上で重ねたもの)を6回繰返した様子を示し、図2(b)はζ=0を示し、これはターゲット声調変化がない、基準となる語の声調を表す。図3(b)に示すように、ζが2秒間に0から−1まで線形に変化すると、図2(a)の声調のシーケンスは図3(a)に示すものへと変化する。ζは図4(b)の太線に対応し、図2(a)の声調シーケンスは図4(a)に示す太線へと変化する。確かに、声域の非常に高い/低い領域ではピッチ範囲が狭くなる現象が実際の発声でよく見られる。 2 to 4 show an example in which this tone modification is applied to a Mandarin tone. FIG. 2 (a) shows a four word tone (tones 1 to 4 superimposed on the same time axis as shown in box 30) repeated 6 times, and FIG. 2 (b) ζ n = 0, which represents the tone of the reference word with no target tone change. As shown in FIG. 3B, when ζ n changes linearly from 0 to −1 in 2 seconds, the tone sequence in FIG. 2A changes to that shown in FIG. ζ n corresponds to the thick line in FIG. 4B, and the tone sequence in FIG. 2A changes to the thick line shown in FIG. Certainly, a phenomenon in which the pitch range becomes narrow in a very high / low range of the voice range is often seen in actual speech.

A.3 イントネーションの変化測定
音節のイントネーションは声調と呼ばれる。音節と一致する時間−F0輪郭は声調パターンとして知られている。チャオ(Chao)の声調理論[非特許文献5を参照されたい。」に従って、4つの語の声調を4個の声調パターンとして表し、さらにこれを、図5に示すようないくつかの選択されたF0ターゲットにより表す。各声調は主要ターゲットによって特徴づけられる[非特許文献6を参照されたい。]。図5では主要ターゲットを黒丸で示す。
A. 3. Measurement of changes in intonation Stonal intonation is called tone. The time-F0 contour that matches the syllable is known as the tone pattern. Chao's tone theory [see Non-Patent Document 5]. The four word tones are represented as four tone patterns, and this is represented by a number of selected F0 targets as shown in FIG. Each tone is characterized by a main target [see Non-Patent Document 6]. ]. In FIG. 5, the main target is indicated by a black circle.

F0輪郭で明示される声調の変化は、基となる語の声調を特定の態様で変更したものである[非特許文献6を参照]。F0輪郭は、F0ターゲットのシーケンスで信頼性をもって表すことができ、F0ターゲットの数と種類とは、声調パターンに従い、基となる語の声調から決定できる[非特許文献8を参照]。従って、声調変形を用いてF0輪郭から声調の変化を測定するアルゴリズムは、基本的に以下のステップを含む。   The change in tone clearly indicated by the F0 contour is a change in the tone of the underlying word in a specific manner [see Non-Patent Document 6]. The F0 contour can be reliably represented by the sequence of F0 targets, and the number and type of F0 targets can be determined from the tone of the underlying word according to the tone pattern [see Non-Patent Document 8]. Therefore, the algorithm for measuring the tone change from the F0 contour using tone transformation basically includes the following steps.

・初期化:話者による個々の音節から測定された平均のF0ターゲットに従って、4つの声調パターンについてF0ターゲットの基準値(参考値)を決定する。   Initialization: Determine the reference value (reference value) of the F0 target for the four tone patterns according to the average F0 target measured from individual syllables by the speaker.

・ステップ1:図5の声調パターンに従って、F0輪郭からF0ターゲット(観測値)を抽出する。F0輪郭からF0ターゲットを推定するためのアルゴリズムを、非特許文献9及び10に記載のとおり利用することができ、これによってまず声調特徴を抽出し、その後これをF0ターゲットに変換する。   Step 1: F0 target (observed value) is extracted from the F0 contour according to the tone pattern of FIG. An algorithm for estimating the F0 target from the F0 contour can be used as described in Non-Patent Documents 9 and 10, whereby a tone feature is first extracted and then converted to an F0 target.

・ステップ2:声調パターンについて対(f0,^f0)を作成する。ここで、f0iはi番目のF0ターゲットの観測値を表し、^f0(「f」の前の「^」記号は本来fの上部に表記すべきものである。)はその参考値を表す。声調0については、このF0ターゲットの参考値は、単に先行する声調での最後のF0ターゲットの参考値をとるものとする。 Step 2: Create a pair (f0 i , ^ f0 i ) for the tone pattern. Here, f0i represents the observed value of the i-th F0 target, and ^ f0 i (the “^” symbol in front of “f” is supposed to be written above the original f) represents the reference value. For tone 0, the reference value for this F0 target is simply the reference value for the last F0 target in the preceding tone.

・ステップ3:ζ=Tζ(Tλ(^f0,ζ),f0)、及びζを計算する。ただし,i=1,…N(F0ターゲットの数)とする。これがイントネーションの変化の特徴を表している。 Step 3: Calculate ζ i = T ζ (T λ (^ f 0 i , ζ 0 ), f 0 i ), and ζ n . However, i = 1,... N (number of F0 targets). This represents the characteristics of intonation changes.

図6は、(a)ζ(丸)により特徴が表されたイントネーションパターンの推定に用いられたF0ターゲット対と、(b)対応する発話データで得られたF0輪郭のためのF0ターゲット対との、参考値(三角)と観測値(丸)とをプロットしている。線P0P4はζ=−1.045t+0.686を示し、線P5P7はζ=−0.809t+1.198を示す。 FIG. 6 shows (a) the F0 target pair used for estimating the intonation pattern characterized by ζ n (circle), and (b) the F0 target pair for the F0 contour obtained from the corresponding speech data. The reference value (triangle) and the observed value (circle) are plotted. Line P0P4 indicates ζ n = −1.045t + 0.686, and line P5P7 indicates ζ n = −0.809t + 1.198.

B.実施例の説明
B.1 構造
B.1.1 機能ブロック
図7はこの発明の一実施例に従った音声合成システム40を示すブロック図である。図7を参照して、音声合成システム40は、所定の話者の基準発話のための記憶装置50と、話者のサンプル発話を記憶するための記憶装置52と、基準発話の声調の各々に対する基準F0ターゲットを抽出し、さらに記憶装置52に記憶されたサンプル発話の各々について、イントネーション変化を示す正規化された減衰比ζのシーケンスを抽出するためのイントネーション抽出モジュール54とを含む。
B. DESCRIPTION OF EXAMPLE 1 Structure B. 1.1 Functional Block FIG. 7 is a block diagram showing a speech synthesis system 40 according to one embodiment of the present invention. Referring to FIG. 7, the speech synthesis system 40 includes a storage device 50 for a reference utterance of a predetermined speaker, a storage device 52 for storing a sample utterance of the speaker, and a tone of the reference utterance. An intonation extraction module 54 for extracting a reference F0 target and for each sample utterance stored in the storage device 52 for extracting a sequence of normalized damping ratios ζ n indicative of intonation changes.

音声合成システム40はさらに、基準発話の基準F0ターゲットを記憶するための記憶装置56と、ζのシーケンスを記憶するための記憶装置58とを含む。減衰比ζのシーケンスは、サンプル発話のイントネーション変化の特徴を表すものである。従って、ユーザは、記憶装置58に記憶されたζのシーケンスを利用して、所望のイントネーションを指定することができる。 The speech synthesis system 40 further includes a storage device 56 for storing the reference F0 target of the reference utterance and a storage device 58 for storing the sequence of ζ n . The sequence of the damping ratio ζ n represents the characteristics of the intonation change of the sample utterance. Therefore, the user can specify a desired intonation using the sequence of ζ n stored in the storage device 58.

音声合成システム40はさらに、合成すべき入力テキスト62と関連付けられたイントネーション情報60を受け、入力テキスト62中の音節の各々についてF0を合成するためのF0シンセサイザ64と、入力されたテキスト62とF0シンセサイザ64から出力されたF0とに従って音声信号を合成するための音声シンセサイザ66とを含む。   The speech synthesis system 40 further receives intonation information 60 associated with the input text 62 to be synthesized, an F0 synthesizer 64 for synthesizing F0 for each syllable in the input text 62, and the input text 62 and F0. An audio synthesizer 66 for synthesizing an audio signal according to F0 output from the synthesizer 64 is included.

イントネーション抽出モジュール54は、記憶装置50内の基準発話の音節の各々からF0ターゲットを抽出し、抽出されたf0ターゲットを記憶装置56に記憶するための第1のターゲット抽出モジュール80と、記憶装置52内のサンプル発話の音節の各々からF0ターゲットを抽出するための第2のターゲット抽出モジュール82と、第2のターゲット抽出モジュール82から出力されたF0ターゲットの各々について、減衰比ζを計算し、ζのシーケンスを記憶装置58に出力するためのζ計算モジュール84とを含む。 The intonation extraction module 54 extracts a F0 target from each syllable of the reference utterance in the storage device 50, and stores the extracted f0 target in the storage device 56. The first target extraction module 80 stores the extracted f0 target in the storage device 56. Calculating a damping ratio ζ n for each of the F0 targets output from the second target extraction module 82 and the second target extraction module 82 for extracting the F0 target from each of the syllables of the sample utterances, and a ζ n calculation module 84 for outputting the sequence of ζ n to the storage device 58.

F0シンセサイザ64は、イントネーション情報内のζのシーケンスからζを計算するζ計算モジュール90と、以下の式に従って、入力テキスト62の各々の音節のf0を計算し、計算されたf0を音声シンセサイザ66に出力するためのF0計算モジュール90とを含む。 The F0 synthesizer 64 calculates f0 i of each syllable of the input text 62 according to the following formula using a ζ calculation module 90 that calculates ζ from the sequence of ζ n in the intonation information, and the calculated f0 i is voiced. And an F0 calculation module 90 for outputting to the synthesizer 66.

f0=Tf0(Tλ(f0,ζ),ζ) (9)
B.1.2 コンピュータによる実現
図7に示されたモジュールは、この実施例ではコンピュータソフトウェアで実現される。図8は第1のターゲット抽出モジュール80を実現するコンピュータプログラムの制御構造を示す。図8を参照して、プログラムはステップ100で始まり、基準発話に見出される声調1〜声調4の各々について、ステップ102〜120が繰返される。
f0 i = T f0 (T λ (f0 i , ζ 0 ), ζ) (9)
B. 1.2 Implementation by Computer The module shown in FIG. 7 is implemented by computer software in this embodiment. FIG. 8 shows a control structure of a computer program that realizes the first target extraction module 80. Referring to FIG. 8, the program begins at step 100 and steps 102-120 are repeated for each of tone 1 to tone 4 found in the reference utterance.

ステップ102で、変数SUMがゼロに初期化される。   In step 102, the variable SUM is initialized to zero.

ステップ110で、基準発話内の、関心のある声調データの全てについて、ステップ112〜116が繰返される。ステップ114で、音節の音声データからF0ターゲットが抽出される。抽出されたF0はステップ116でSUMに加えられる。   At step 110, steps 112-116 are repeated for all of the tone data of interest within the reference utterance. In step 114, the F0 target is extracted from the syllable speech data. The extracted F0 is added to the SUM at step 116.

ステップ112から116が関心のある声調の音節全てに対し繰返された後、ステップ118でSUMの平均を求める。ステップ118で、この平均が、対象の声調と関連付けた上でメモリに記憶される。   After steps 112 to 116 are repeated for all syllables of the tone of interest, step 118 determines the SUM average. At step 118, this average is stored in memory in association with the subject's tone.

この処理の終わりには、声調1〜声調4の平均F0がメモリに記憶されていることになる。   At the end of this process, the average F0 of tone 1 to tone 4 is stored in the memory.

図9は図7に示す第2のターゲット抽出モジュール82及びζ計算モジュール84を実現するコンピュータプログラムの制御構造を示す。図9を参照して、ステップ140で、記憶装置52に記憶されたサンプル発話の全てについてF0輪郭が計算される。ステップ142で、入力テキスト62(図7を参照)の全ての音節について、ステップ144から152が繰返される。 FIG. 9 shows a control structure of a computer program for realizing the second target extraction module 82 and the ζ n calculation module 84 shown in FIG. Referring to FIG. 9, in step 140, F0 contours are calculated for all of the sample utterances stored in storage device 52. In step 142, steps 144 to 152 are repeated for all syllables of the input text 62 (see FIG. 7).

この繰返しでは、まず、処理中の音節の声調のF0ターゲットが抽出される。抽出されたi番目のF0ターゲットをf0,1≦i≦N(発話中のターゲットの数)とする。 In this repetition, first, the F0 target of the tone of the syllable being processed is extracted. Let the extracted i-th F0 target be f0 i , 1 ≦ i ≦ N (the number of targets in speech).

ステップ146で、ステップ144で抽出されたf0が音節の声調パターンの^f0と対にされる。ここで^f0はf0の参考値を表す。声調0については、そのF0ターゲットの参考値は単に、先行する声調の最後のF0ターゲットの参考値をとるだけである。 In step 146, f0 i extracted in step 144 is paired with ^ f0 i of the syllable tone pattern. Here, f0 i represents a reference value of f0 i . For tone 0, the reference value for that F0 target simply takes the reference value for the last F0 target of the preceding tone.

ステップ148で、ζが以下の式に従って計算される。 In step 148, ζ i is calculated according to the following equation:

ζ=Tζ(Tλ(^f0,ζ),f0) (10)
ステップ150で、正規化されたζni(1≦i≦N)が以下の式に従って計算される。
ζ i = T ζ (T λ (^ f 0 i , ζ 0 ), f 0 i ) (10)
At step 150, normalized ζ ni (1 ≦ i ≦ N) is calculated according to the following equation:

Figure 2006276660
ステップ152で、結果ζniが記憶装置58に記憶される(図7を参照)。
Figure 2006276660
In step 152, the result ζ ni is stored in the storage device 58 (see FIG. 7).

記憶装置52に記憶されているサンプル発話の音節全てについて上述の処理を繰返した後、ユーザは正規化されたζを用いればどのようなイントネーションも記述できる。従って、イントネーション情報60はζのシーケンスの形で準備することができる。 After repeating the above process for all syllables of the sample utterances stored in the storage device 52, the user can describe any intonation using the normalized ζ n . Therefore, the intonation information 60 can be prepared in the form of a sequence of ζ n .

この実施例では、図7に示すF0シンセサイザ64もまたコンピュータソフトウェアで実現される。このコンピュータプログラムの制御構造を図10に示す。   In this embodiment, the F0 synthesizer 64 shown in FIG. 7 is also realized by computer software. The control structure of this computer program is shown in FIG.

図10を参照して、F0シンセサイザ64が起動されると、まずイントネーション情報60内のイントネーションデータζniを読出す。次に、ステップ172で、入力テキスト62の音節全てについてステップ174から178を繰返す。ここでζni(1≦i≦N)はイントネーション情報60の正規化された減衰率のシーケンスとする。 Referring to FIG. 10, when F0 synthesizer 64 is activated, intonation data ζ ni in intonation information 60 is first read. Next, in step 172, steps 174 to 178 are repeated for all syllables of the input text 62. Here, ζ ni (1 ≦ i ≦ N) is a sequence of normalized attenuation rates of intonation information 60.

ステップ174で、式(11)の逆関数に従って、ζniからζを計算する。 In step 174, ζ i is calculated from ζ ni according to the inverse function of equation (11).

ステップ176で、i番目の音節(声調)のF0ターゲットf0が以下の式に従って計算される。 At step 176, the F0 target f0 i of the i th syllable (tone) is calculated according to the following equation:

f0=Tf0(Tλ(^f0,ζ),ζ) (12)
ここで^f0は基準発話から抽出された参考値(F0ターゲット)を表し、ζは定数(好ましくは、ζは0.156)を表す。
f0 i = T f0 (T λ (^ f0 i , ζ 0 ), ζ i ) (12)
Here, ^ f0 i represents a reference value (F0 target) extracted from the reference utterance, and ζ 0 represents a constant (preferably ζ 0 is 0.156).

ステップ178で、このようにして計算されたf0がメモリに記憶される。 In step 178, f0 i calculated in this way is stored in the memory.

入力テキスト62の全ての音節について、ステップ174から178が繰返された後、イントネーション情報60によりイントネーションパターンが指定された入力テキスト62中の声調のシーケンスのF0ターゲットとして、f0のシーケンスがステップ180で出力される。 Steps 174 to 178 are repeated for all syllables of the input text 62, and then the sequence of f0 i is used as the F0 target of the tone sequence in the input text 62 in which the intonation pattern is specified by the intonation information 60 in step 180. Is output.

B.1.3 コンピュータハードウェア
図11は上述のコンピュータプログラムを実行するこの実施例のコンピュータシステム330の外観を示し、図12はこのシステム330をブロック図で示す。
B. 1.3 Computer Hardware FIG. 11 shows the appearance of a computer system 330 of this embodiment that executes the above-described computer program, and FIG. 12 shows this system 330 in a block diagram.

図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、一対のスピーカ372と、マイクロフォン370と、を含む。   Referring to FIG. 11, this computer system 330 includes a computer 340 having an FD (flexible disk) drive 352 and a CD-ROM (compact disk read only memory) drive 350, a keyboard 346, a mouse 348, and a monitor 342. And a pair of speakers 372 and a microphone 370.

図12を参照して、コンピュータ340はさらに、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ハードディスク354と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、CPU356に接続され、アプリケーションプログラム命令、システムプログラム、及びデータ等を記憶するランダムアクセスメモリ(RAM)360とを含む。   Referring to FIG. 12, computer 340 further stores a CPU (central processing unit) 356, a bus 366 connected to CPU 356, FD drive 352, and CD-ROM drive 350, a hard disk 354, a boot-up program, and the like. A read only memory (ROM) 358, and a random access memory (RAM) 360 connected to the CPU 356 and storing application program instructions, system programs, data, and the like.

ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。   Although not shown here, the computer 340 may further include a network adapter board that provides a connection to a local area network (LAN).

コンピュータシステム330に上述の音声合成システムを実現させるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。   A computer program for causing the computer system 330 to realize the above-described speech synthesis system is stored in the CD-ROM 362 or FD 364 inserted into the CD-ROM drive 350 or FD drive 352 and further transferred to the hard disk 354. Alternatively, the program may be transmitted to the computer 340 through a network (not shown) and stored in the hard disk 354. The program is loaded into the RAM 360 when executed. The program may be loaded directly into the RAM 360 from the CD-ROM 362, from the FD 364, or via a network.

図8から図10を参照して説明したこのプログラムは、コンピュータ340にこの実施例の音声合成システム40の機能ブロックを実現させるための複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはコンピュータ340にインストールされるサードパーティのプログラムにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な関数または「ツール」を呼出すことにより、上述の処理を行う命令のみを含んでいてもよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。   The program described with reference to FIGS. 8 to 10 includes a plurality of instructions for causing the computer 340 to realize the functional blocks of the speech synthesis system 40 of this embodiment. Some of the basic functions necessary to perform this method are provided by an operating system (OS) running on computer 340 or a third party program installed on computer 340. Therefore, this program does not necessarily include all functions necessary for realizing the system and method of this embodiment. This program may include only instructions that perform the above-described processing by calling an appropriate function or “tool” in a controlled manner so as to obtain a desired result. The operation of computer system 330 is well known and will not be repeated here.

B.2 動作
この実施例の、上述の音声合成システム40(図7を参照)は以下のように動作する。音声合成システム40の動作は3段階である。すなわち、基準発話からのF0ターゲットの抽出と、基準発話からのζの計算と、F0ターゲット及び音声合成とである。これらの段階における音声合成システム40の動作を以下で説明する。
B. 2 Operation The above-described speech synthesis system 40 (see FIG. 7) of this embodiment operates as follows. The operation of the speech synthesis system 40 is in three stages. That is, extraction of the F0 target from the reference utterance, calculation of ζ n from the reference utterance, and F0 target and speech synthesis. The operation of the speech synthesis system 40 at these stages will be described below.

B.2.1 基準発話からのF0ターゲットの抽出
図7を参照して、所定の話者の音声データを、声調1〜声調4の全てについて録音し、基準発話として記憶装置50に記憶する。声調1〜声調4の各々について、第1のターゲット抽出モジュール80により、基準発話からF0ターゲットが抽出される。声調1〜声調4の各々について平均のF0ターゲットが記憶装置56に記憶される。
B. 2.1 Extraction of F0 Target from Reference Speech Referring to FIG. 7, voice data of a predetermined speaker is recorded for all of the tone 1 to tone 4 and stored in the storage device 50 as a reference utterance. For each of the tone 1 to tone 4, the first target extraction module 80 extracts the F0 target from the reference utterance. The average F0 target is stored in the storage device 56 for each of the tone 1 to tone 4.

B.2.2 基準発話からのζの計算
基準発話と同じ話者のサンプル発話を録音し、記憶装置52に記憶する。サンプル発話の各々の各音節について、第2のターゲット抽出モジュール82がF0ターゲットを抽出する。その後、モジュール82から出力されたF0ターゲットの各々について、ζ計算モジュール84がζを計算し、サンプル発話の各々についてζのシーケンスを生成する。
B. 2.2 Calculation of ζ n from reference utterance A sample utterance of the same speaker as the reference utterance is recorded and stored in the storage device 52. For each syllable of each sample utterance, the second target extraction module 82 extracts the F0 target. Then, for each of the F0 target output from the module 82, to calculate the n zeta n calculation module 84 is zeta, for each sample utterances to generate a sequence of zeta n.

B.2.3 F0ターゲット及び音声合成
ユーザは、入力テキスト62と、入力テキストをそのイントネーションで合成したいと考えているイントネーションを特定する関連のイントネーション情報60とを準備する。ユーザは、記憶装置58に記憶されているζのシーケンスを調べることにより、イントネーション情報を準備することができる。
B. 2.3 F0 Target and Speech Synthesis The user prepares the input text 62 and related intonation information 60 that identifies the intonation that the user wants to synthesize the input text. The user can prepare intonation information by examining the sequence of ζ n stored in the storage device 58.

イントネーション情報60と入力テキスト62とが準備されると、入力テキスト62の各音節について、ζ計算モジュール90がζを計算し、これをF0計算モジュール92に出力する。例えば、i番目の音節に対し、ζ計算モジュール90は式(11)の逆関数に従ってζniからこの音節のζを計算する。 When the intonation information 60 and the input text 62 are prepared, the ζ calculation module 90 calculates ζ for each syllable of the input text 62 and outputs this to the F0 calculation module 92. For example, for the i-th syllable, the ζ calculation module 90 calculates ζ i of this syllable from ζ ni according to the inverse function of equation (11).

F0計算モジュール92は、音節の各々に対し、このようにして計算されたζと、記憶装置56に記憶された^f0と、定数ζ=0.156とに以下の関数を適用してF0ターゲットf0を計算する。 The F0 calculation module 92 applies the following function to each of the syllables, ζ i calculated in this way, ^ f0 i stored in the storage device 56, and the constant ζ 0 = 0.156. F0 target f0 i is calculated.

f0=Tf0(Tλ(^f0,ζ),ζ) (13)
この結果、入力テキスト62内の音節について、F0計算モジュール92により、f0のシーケンスが出力される。このシーケンスが音声シンセサイザ66に与えられる。
f0 i = T f0 (T λ (^ f0 i , ζ 0 ), ζ i ) (13)
As a result, for the syllable in the input text 62, the F0 calculation module 92 outputs the sequence of f0 i . This sequence is provided to the voice synthesizer 66.

F0計算モジュール92からf0のシーケンスが与えられると、音声シンセサイザ66は、イントネーション情報60で指定されたイントネーションを備えた入力テキスト62の音声信号68を合成することができる。 Given the sequence of f0 i from the F0 calculation module 92, the speech synthesizer 66 can synthesize the speech signal 68 of the input text 62 with the intonation specified by the intonation information 60.

C.実験結果
ここで提案した方法が、測定されたF0輪郭内の、語の声調よりも高いレベルのイントネーションの変化を明らかにすることが可能であると示すために、2つの実験結果を報告する。音声サンプルは中国語音声コーパスから選択され、専門のナレータに朗読してもらった。ナレータの声域[f0,f0]は[100Hz,500Hz]と一致し、ナレータによる語の声調の参考値は表1に示されるとおりである。太字は主要ターゲットを示す。これらの参考値に対応する声調パターンを図2(a)に見ることができる。
C. Experimental Results Two experimental results are reported to show that the proposed method is able to account for higher levels of intonation changes in the measured F0 contour than the tone of the word. Audio samples were selected from a Chinese speech corpus and read by a specialized narrator. The voice range [f0 b , f0 t ] of the narrator is consistent with [100 Hz, 500 Hz], and the reference value of the voice of the word by the narrator is as shown in Table 1. Bold indicates major targets. The tone patterns corresponding to these reference values can be seen in FIG.

Figure 2006276660
Figure 2006276660

Figure 2006276660
図13〜図16に示される結果は、4つの慣用の挨拶を含むイントネーション変化の分析から得られた。4つの挨拶の実際のイントネーションは音韻論的には同じであるが、語の声調のためにF0輪郭は大きく起伏する。計算の例として、表2は、図13(a)に示されたサンプルからの観測値f0,i=1,…5、対応の参考値^f0、及び結果として得られるパラメータζ及びζniを列挙している。これらの結果は図13(b)に示される。
Figure 2006276660
The results shown in FIGS. 13-16 were obtained from analysis of intonation changes including four conventional greetings. The actual intonation of the four greetings is phonologically the same, but the F0 contour is greatly undulated due to the tone of the word. As an example of the calculation, Table 2 shows the observed values f0 i , i = 1,... 5 from the sample shown in FIG. 13 (a), the corresponding reference values ^ f0 i , and the resulting parameters ζ i and ζ ni is listed. These results are shown in FIG. 13 (b).

この例では、文のアクセントは、声調2の主要ターゲット(最初の声調3の表面声調)である0.024から第2の声調3の−0.423までζが下降したことで示される。他の文の文アクセントもまた、基となる声調の種類に関わりなく一貫して下降するように思われる。この4つの挨拶で示される基本的な特徴は、(1)文のアクセントは発話の最後に位置し、もう1つの音節にかかること、(2)最後の声調(声調1〜4)はその参考声調パターンを維持する(すなわちζが変化しない)ことである。声調0は最後の非−声調0である声調の連続したものであるとみなされる。この結果は上述の仮定と一致する。イントネーション変化の現象は、例えば非特許文献11で例示されているように、非声調言語でイントネーションを説明するのに通常用いられるいわゆる「ハットパターン」に非常に類似している。 In this example, the accent of the sentence is indicated by a decrease in ζ n from 0.024, which is the main target of tone 2 (surface tone of first tone 3), to −0.423 of second tone 3. The sentence accents of other sentences also appear to fall consistently regardless of the type of underlying tone. The basic features shown in these four greetings are: (1) the accent of the sentence is located at the end of the utterance and the other syllable, (2) the last tone (tones 1-4) is a reference Maintaining the tone pattern (ie, ζ n does not change). Tone 0 is considered to be a succession of tones that are the last non-tone 0. This result is consistent with the above assumptions. The phenomenon of intonation change is very similar to the so-called “hat pattern” that is usually used to describe intonation in non-tone language, as exemplified in Non-Patent Document 11, for example.

図17は声調及びイントネーションを合成する例を示す。図17(a)は基となる語の声調の参考値を示す。図17(b)はζ(t)によりイントネーションパターンをプロットする。図17(c)はこれらのF0ターゲット(丸)とこれらのターゲットによりモデルによって与えられる輪郭(連続線)とを示す。「+」のシーケンスはサンプル発話の測定されたF0輪郭を示す。 FIG. 17 shows an example of synthesizing a tone and intonation. FIG. 17A shows a reference value of the tone of the word that is the basis. FIG. 17B plots the intonation pattern according to ζ n (t). FIG. 17 (c) shows these F0 targets (circles) and the contours (continuous lines) provided by the model with these targets. The “+” sequence indicates the measured F0 contour of the sample utterance.

図17から明らかなように、モデルによって与えられるF0輪郭は元のF0輪郭に非常に近い。   As is apparent from FIG. 17, the F0 contour provided by the model is very close to the original F0 contour.

図18は同じ話者にいくつかの数字列を読んでもらうことで得られたさらなる結果を示す。朗読した数字列は、言語学的意味がないため、中立である。明瞭な結果を求めるため、主要な声調ターゲットのζ値のみを図にプロットする。加えて、これらの発話では休止(ポーズ)がない。イントネーション変化には2つの形状が現れる。1つは最初から最後まで下がる線である(左側)。他方は、下降部とそれに続く平坦部とからなる線である。この下降は最初の2個の音節間で起こる。明らかになったイントネーション変化は、語の声調を越えた高いレベルで体系的である。 FIG. 18 shows further results obtained by having the same speaker read several numbers. The number sequence read is neutral because it has no linguistic meaning. In order to obtain a clear result, only the ζ n values of the main tone targets are plotted in the figure. In addition, there is no pause in these utterances. Two shapes appear in the intonation change. One is a line going down from the beginning to the end (left side). The other is a line composed of a descending portion followed by a flat portion. This descent occurs between the first two syllables. The revealed intonation changes are systematic at a high level beyond the tone of words.

3人の話者による約200個の中国語サンプルを分析した。これらのサンプルでは実際のイントネーションは多少変化するものの、分析した結果は、この方法により、上で示したとおりイントネーションの変化をはっきりと明らかにできることを示した。   Approximately 200 Chinese samples from three speakers were analyzed. Although the actual intonation varies slightly in these samples, the results of the analysis show that this method can clearly reveal changes in intonation as indicated above.

D.結論
この発明の実施の形態は、測定されたF0輪郭から語の声調を除外したイントネーション変化を測定する方法に関する。イントネーション変化は語の声調パターンを構成する選択されたF0ターゲットを用いてサンプリングされ、時間軸上の1点のパラメータで特徴づけられる。実験結果から、この提案した方法が、F0輪郭に埋もれ、語の声調と混じりあった、実際のマンダリン語のイントネーションを分析するのに非常に有望であることがわかった。明らかにされた実際のイントネーションは、非声調言語で報告されたイントネーションとの類似性を示した。提案された方法は基となる語の声調をともなったF0輪郭の自動的な分析を試みるものであり、これは音声合成、認識、さらには理解において決定的に重要である。
D. CONCLUSION Embodiments of the present invention relate to a method of measuring intonation changes by excluding word tone from measured F0 contours. Intonation changes are sampled using the selected F0 targets that make up the tone pattern of the word and are characterized by a single point parameter on the time axis. The experimental results show that the proposed method is very promising for analyzing the actual Mandarin intonation buried in the F0 contour and mixed with the tone of the word. The actual intonation revealed was similar to the intonation reported in non-tonal languages. The proposed method attempts to automatically analyze the F0 contour with the tone of the underlying word, which is critical in speech synthesis, recognition and even understanding.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

λ、λ及びζ間の条件を示す図である。It is a figure which shows the conditions between (lambda) 1 , (lambda) 2, and (zeta). 声調変形をマンダリン語の声調に適用した例を示す図である。It is a figure which shows the example which applied tone deformation to the tone of Mandarin. 声調変形をマンダリン語の声調に適用した別の例を示す図である。It is a figure which shows another example which applied tone deformation to the tone of Mandarin. 声調変形をマンダリン語の声調に適用した別の例を示す図である。It is a figure which shows another example which applied tone deformation to the tone of Mandarin. F0ターゲットをベースとしてマンダリン語の声調を表す図である。It is a figure showing the tone of Mandarin language based on F0 target. ζ(丸)でのイントネーション変化の推定に用いられるF0ターゲット対と、元のF0輪郭のための、参考値(三角)と観測値(丸)とをプロットした図である。It is the figure which plotted the reference value (triangle) and the observed value (circle) for the F0 target pair used for estimation of the intonation change in ζ n (circle), and the original F0 contour. この発明の一実施の形態に従った音声合成システム40のブロック図である。1 is a block diagram of a speech synthesis system 40 according to an embodiment of the present invention. 第1のF0ターゲット抽出モジュール80を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。It is a figure which shows the control structure of the computer program which implement | achieves the 1st F0 target extraction module 80 with a flowchart. 第2のターゲット抽出モジュール82とζ計算モジュール84とを実現するコンピュータプログラムの制御構造をフローチャートで示す図である。It is a figure which shows the control structure of the computer program which implement | achieves the 2nd target extraction module 82 and the ζ n calculation module 84 with a flowchart. F0シンセサイザ64を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。It is a figure which shows the control structure of the computer program which implement | achieves F0 synthesizer 64 with a flowchart. 一実施の形態に係るコンピュータプログラムを実行するコンピュータシステム330の斜視図である。It is a perspective view of the computer system 330 which executes the computer program which concerns on one embodiment. システム330のブロック図である。2 is a block diagram of system 330. FIG. 慣用の挨拶「ni3hao3」(こんにちは)のF0輪郭を示す図である。Is a diagram showing the F0 contour of the greeting of the customary "ni3hao3" (Hello). 慣用の挨拶「zen3me0yang4a0?」(いかがお過ごしですか)のF0輪郭を示す図である。It is a figure which shows the F0 outline of the usual greeting "zen3me0yang4a0?" 慣用の挨拶「ni3mang2ma0?」(お忙しいですか)のF0輪郭を示す図である。It is a figure which shows F0 outline of the usual greeting "ni3mang2ma0?" 慣用の挨拶「ni3shen1ti3hao3ma0?」(ごきげんいかがですか)のF0輪郭を示す図である。It is a figure which shows the F0 outline of the usual greeting "ni3shen1ti3hao3ma0?" 語による韻律の特徴と、語によらない韻律の特徴とを合成する例を示す図である。It is a figure which shows the example which synthesize | combines the feature of the prosody by a word, and the feature of the prosody which does not depend on a word. 朗読された数字列での中立イントネーションの変化を示す図である。It is a figure which shows the change of neutral intonation in the read-out number sequence.

符号の説明Explanation of symbols

40 音声合成システム
50、52、56、58 記憶装置
54 イントネーション抽出モジュール
60 イントネーション情報
62 入力テキスト
64 F0シンセサイザ
66 音声シンセサイザ
68 イントネーションのある音声信号
80 第1のF0ターゲット抽出モジュール
82 第2のF0ターゲット抽出モジュール
84 ζ計算モジュール
90 ζ計算モジュール
92 F0計算モジュール
40 speech synthesis system 50, 52, 56, 58 storage device 54 intonation extraction module 60 intonation information 62 input text 64 F0 synthesizer 66 speech synthesizer 68 speech signal with intonation 80 first F0 target extraction module 82 second F0 target extraction Module 84 ζ n calculation module 90 ζ calculation module 92 F0 calculation module

Claims (4)

イントネーションの変化の特徴を声調の変形により表す方法であって、
話者の、個々の音節から得た語の声調の各々について、基本周波数(F0)ターゲットに関する参考値の所定の組を準備するステップを含み、前記F0ターゲットの参考値の組は、対応する語の声調を特徴づけるものであり、
前記話者のサンプル音声データ中の各音節についてF0ターゲット値を抽出するステップと、
前記サンプル音声データ中の各音節の前記F0ターゲット値の各々について、その音節の語の声調に関する参考値から前記F0ターゲット値への変化の度合いを表す所定の第1のパラメータを計算するステップとをさらに含む、イントネーションの変化の特徴を声調の変形により表す方法。
A method of expressing the characteristics of intonation changes by transformation of tone,
Providing a predetermined set of reference values for a fundamental frequency (F0) target for each of the speaker's tones of words obtained from individual syllables, wherein the set of reference values for the F0 target is a corresponding word And characterize the tone of
Extracting an F0 target value for each syllable in the speaker's sample voice data;
For each of the F0 target values of each syllable in the sample voice data, calculating a predetermined first parameter representing a degree of change from the reference value related to the tone of the word of the syllable to the F0 target value; A method for expressing the characteristics of changes in intonation by tone modification.
前記準備するステップは、
語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、
それぞれの語の声調に従って、録音された個々の音節のF0ターゲット値を抽出するステップと、
語の声調の各々について、語の声調を特徴づけるF0ターゲットの各々のF0ターゲット値を平均するステップとを含む、請求項1に記載の方法。
The step of preparing comprises
Recording a plurality of individual syllables by the speaker for each tone of the word;
Extracting the F0 target value of each recorded syllable according to the tone of each word;
2. The method of claim 1, comprising, for each word tone, averaging each F0 target value of each F0 target characterizing the tone of the word.
所定の第2のパラメータの分布が、当該所定の第2のパラメータの所定の基準値の両側でつりあうように、前記所定の第1のパラメータを前記所定の第2のパラメータに正規化するステップをさらに含む、請求項1に記載の方法。 Normalizing the predetermined first parameter to the predetermined second parameter so that the distribution of the predetermined second parameter is balanced on both sides of the predetermined reference value of the predetermined second parameter; The method of claim 1, further comprising: コンピュータ上で実行されると、請求項1〜請求項3のいずれかに記載の全てのステップを当該コンピュータに行わせる、コンピュータプログラム。 A computer program that, when executed on a computer, causes the computer to perform all the steps according to any one of claims 1 to 3.
JP2005098067A 2005-03-30 2005-03-30 Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof Active JP4793776B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005098067A JP4793776B2 (en) 2005-03-30 2005-03-30 Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005098067A JP4793776B2 (en) 2005-03-30 2005-03-30 Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof

Publications (3)

Publication Number Publication Date
JP2006276660A true JP2006276660A (en) 2006-10-12
JP2006276660A5 JP2006276660A5 (en) 2008-04-17
JP4793776B2 JP4793776B2 (en) 2011-10-12

Family

ID=37211466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005098067A Active JP4793776B2 (en) 2005-03-30 2005-03-30 Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof

Country Status (1)

Country Link
JP (1) JP4793776B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015558A1 (en) * 2005-08-04 2007-02-08 Bridgestone Corporation Sprocket for coreless crawler track and structure for the same
JP5226867B2 (en) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Basic frequency moving amount learning device, fundamental frequency generating device, moving amount learning method, basic frequency generating method, and moving amount learning program for speaker adaptation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (en) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech recognition system
JP2003330482A (en) * 2002-05-14 2003-11-19 Toshiba Corp Method, device, and program for generating fundamental frequency pattern and method, device and program for synthesizing voice
JP2005250264A (en) * 2004-03-05 2005-09-15 Yamaha Corp Device, method, and program for pitch pattern generation
JP2005265955A (en) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International Chinese language tone classification apparatus for chinese and f0 generating device for chinese

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (en) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk Speech recognition system
JP2003330482A (en) * 2002-05-14 2003-11-19 Toshiba Corp Method, device, and program for generating fundamental frequency pattern and method, device and program for synthesizing voice
JP2005250264A (en) * 2004-03-05 2005-09-15 Yamaha Corp Device, method, and program for pitch pattern generation
JP2005265955A (en) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International Chinese language tone classification apparatus for chinese and f0 generating device for chinese

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JPN6010056058, 徐大威他, ""中国語二音節単語の相対F0変化域の不変性"", 電子情報通信学会技術研究報告, Vol.101,No.86,SP2001−13(2001−05), pp.29−34 *
JPN6010056059, 徐大威他, ""中国語単語のF0レンジの変化に対する許容度に関する検討"", 日本音響学会2001年秋季研究発表会講演論文集−I−, 1−2−14(2001−10), pp.233−234 *
JPN6010056060, 森大毅他, ""単語レベルのF0レンジを考慮した中国語音声の韻律制御"", 日本音響学会1999年秋季研究発表会講演論文集−I−, 2−Q−20(1999−09), pp.319−320 *
JPN6010056061, 広瀬啓吉他, ""基本周波数パターン生成過程のモデルによる標準中国語音声の韻律的特徴の分析と定式化"", 日本音響学会誌, Vol.50,No.3(1994−03), pp.177−187 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015558A1 (en) * 2005-08-04 2007-02-08 Bridgestone Corporation Sprocket for coreless crawler track and structure for the same
JP5226867B2 (en) * 2009-05-28 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション Basic frequency moving amount learning device, fundamental frequency generating device, moving amount learning method, basic frequency generating method, and moving amount learning program for speaker adaptation
US8744853B2 (en) 2009-05-28 2014-06-03 International Business Machines Corporation Speaker-adaptive synthesized voice

Also Published As

Publication number Publication date
JP4793776B2 (en) 2011-10-12

Similar Documents

Publication Publication Date Title
Ye et al. Quality-enhanced voice morphing using maximum likelihood transformations
Yamagishi et al. Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora
Raitio et al. Synthesis and perception of breathy, normal, and lombard speech in the presence of noise
JP4586615B2 (en) Speech synthesis apparatus, speech synthesis method, and computer program
JP5039865B2 (en) Voice quality conversion apparatus and method
Eriksson et al. The acoustics of word stress in Swedish: a function of stress level, speaking style and word accent.
Muralishankar et al. Modification of pitch using DCT in the source domain
JP3673507B2 (en) APPARATUS AND PROGRAM FOR DETERMINING PART OF SPECIFIC VOICE CHARACTERISTIC CHARACTERISTICS, APPARATUS AND PROGRAM FOR DETERMINING PART OF SPEECH SIGNAL CHARACTERISTICS WITH HIGH RELIABILITY, AND Pseudo-Syllable Nucleus Extraction Apparatus and Program
Panda et al. A waveform concatenation technique for text-to-speech synthesis
WO2015025788A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
Přibilová et al. Non-linear frequency scale mapping for voice conversion in text-to-speech system with cepstral description
JP6330069B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP4793776B2 (en) Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof
JP4883750B2 (en) Acoustic rating device and program
TWI467566B (en) Polyglot speech synthesis method
KR101560833B1 (en) Apparatus and method for recognizing emotion using a voice signal
JP2016142936A (en) Preparing method for data for speech synthesis, and preparing device data for speech synthesis
JP5320341B2 (en) Speaking text set creation method, utterance text set creation device, and utterance text set creation program
JP5294700B2 (en) Speech recognition and synthesis system, program and method
KR20070049753A (en) Apparatus and method of phrase break prediction for synthesizing text-to-speech system
Cahyaningtyas et al. HMM-based indonesian speech synthesis system with declarative and question sentences intonation
JP2004279436A (en) Speech synthesizer and computer program
Eide et al. Towards pooled-speaker concatenative text-to-speech
EP1589524B1 (en) Method and device for speech synthesis
Singh et al. Straight-based emotion conversion using quadratic multivariate polynomial

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110719

R150 Certificate of patent or registration of utility model

Ref document number: 4793776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250