JP4617092B2 - Chinese tone classification device and Chinese F0 generator - Google Patents
Chinese tone classification device and Chinese F0 generator Download PDFInfo
- Publication number
- JP4617092B2 JP4617092B2 JP2004074594A JP2004074594A JP4617092B2 JP 4617092 B2 JP4617092 B2 JP 4617092B2 JP 2004074594 A JP2004074594 A JP 2004074594A JP 2004074594 A JP2004074594 A JP 2004074594A JP 4617092 B2 JP4617092 B2 JP 4617092B2
- Authority
- JP
- Japan
- Prior art keywords
- tone
- chinese
- classification
- gap
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012549 training Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 abstract description 18
- 230000011218 segmentation Effects 0.000 abstract description 11
- 238000004873 anchoring Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 11
- 239000011295 pitch Substances 0.000 description 11
- 230000008447 perception Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009982 effect on human Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Abstract
Description
この発明は声調言語の声調分類に関し、特に、中国語等の声調言語において、文脈による声調の変化を非常に正確に識別することに関する。 The present invention relates to tone classification of tonal languages, and more particularly to identifying changes in tone with context very accurately in tone languages such as Chinese.
中国語の基本的語彙声調(第一声、第二声、第三声、第四声と呼ばれる)は通常、それらの基本周波数(“F0”)輪郭のパターンが異なることによって特徴付けられる。すなわち、第一声は高いレベルの輪郭、第二声は途中から上がる輪郭、第三声は低く一旦下がる輪郭、第四声は高いところから下がる輪郭である。これらを識別するため、研究者はこれまでの研究において、第一声(高いF0)と第三声(低いF0)との区別(非特許文献1を参照されたい。)、及び第三声(低いF0)と第四声(高いF0)との区別(非特許文献2を参照されたい。)にはF0の高さが決定的に重要であると報告している。 Chinese basic vocabulary tones (called first voice, second voice, third voice, fourth voice) are usually characterized by their different fundamental frequency ("F0") contour patterns. That is, the first voice has a high level contour, the second voice has a contour that rises from the middle, the third voice has a low contour that falls once, and the fourth voice has a contour that descends from a high location. In order to distinguish these, researchers have distinguished the first voice (high F0) and the third voice (low F0) in previous studies (see Non-Patent Document 1), and the third voice ( It is reported that the height of F0 is decisively important for the distinction between low F0) and the fourth voice (high F0) (see Non-Patent Document 2).
F0傾斜勾配は、第一声(平坦)、第二声(上がる)、及び第四声(下がる)等の、動きの方向が異なる声調間を区別するのに有効である(非特許文献2を参照されたい。)。 The F0 gradient is effective for distinguishing between different tones such as the first voice (flat), the second voice (up), and the fourth voice (down) (see Non-Patent Document 2). Please refer.)
声調のF0輪郭は、連続した音声においては、互いに分離された音節に比べてかなり変動する。F0の高さのみでなく、傾斜勾配も相当に変動するため、表面上のF0輪郭からその下にある声調性を特定することはできない。他方で、知覚実験によれば、人間は、声調的な文脈が与えられれば、F0がかなり変動しても、その下にあると思われる語彙的な声調を高い一貫性をもって知覚できることが分かった(非特許文献3を参照されたい。)。このことは、声調的な文脈中に、F0の高さ及びF0の傾斜勾配のほかに、区別のための手がかりが存在することを示している。 The tone F0 contour varies considerably in continuous speech compared to syllables separated from each other. Since not only the height of F0 but also the gradient of the slope fluctuates considerably, it is not possible to specify the tone of the underlying tone from the F0 contour on the surface. On the other hand, perceptual experiments show that humans can perceive vocabulary tones that appear to be below them with high consistency even if F0 fluctuates considerably, given tonal context. (See Non-Patent Document 3). This indicates that there are clues for distinction in addition to the height of F0 and the slope of F0 in the tonal context.
これまで、どの研究でも、F0の高さ及びF0の傾斜勾配以外、声調的な文脈中での識別のための手がかりについて明らかに示した研究は存在していない。もしこのような手がかりが利用できれば、中国語等の声調言語で声調を分類する大きな助けとなるはずであり、さらにこのような手がかりによってトレーニングされた適切なモデルがあれば、音声認識又は音声合成装置の性能がさらに改善されるはずである。 To date, none of the studies have clearly shown clues for discrimination in tonal contexts other than the height of F0 and the slope of F0. If such cues are available, it should be a great help to classify tones in tonal languages such as Chinese, and if there is an appropriate model trained with such cues, a speech recognition or speech synthesizer The performance should be improved further.
従って、この発明の目的の一つは、中国語の声調の判断を容易にすることである。 Accordingly, one of the objects of the present invention is to facilitate the determination of the Chinese tone.
別の目的は、より自然な品質の中国語音声を合成することである。 Another object is to synthesize more natural quality Chinese speech.
この発明に従った中国語の声調分類装置は、関連付けにより声調を識別する特徴量を含む特徴量の組が与えられると、中国語で使用される声調分類の確率を出力するように、トレーニングデータセットを用いてトレーニングされた声調モデルを記憶するための手段を含む。関連付けにより声調を識別する特徴量は先頭ギャップ及び末尾ギャップを含む。声調分類装置はさらに、入力された中国語の音声データを一連の声調核にセグメント化するための手段と、声調核の各々から関連付けにより声調を識別する特徴量を抽出するための手段と、抽出する手段によって抽出された音響特徴量を声調モデルに適用し、声調モデルにより出力される最も高い確率を達成する声調分類を選択するためのパターンマッチング手段とを含む。 The Chinese tone classification device according to the present invention provides training data so as to output a probability of tone classification used in Chinese when a set of feature amounts including a feature amount for identifying a tone is given by association. Means for storing a tone model trained with the set is included. Feature quantity identifying the tone by association includes the head gap and tail gap. Tone classifier further includes means for segmenting the audio data is input Chinese into a series of tone nuclei, means for extracting a feature value identifying the tone by association from each tone nuclear extract Pattern matching means for applying the acoustic feature extracted by the means to the tone model and selecting a tone classification that achieves the highest probability output by the tone model.
好ましくは、関連付けにより声調を識別する特徴量はさらに、声調核の基本周波数(F0)輪郭の傾斜勾配を含む。 Preferably, the feature to identify the tone by association further comprises an inclined slope of the fundamental frequency (F0) contours of tone nucleus.
より好ましくは、関連付けにより声調を識別する特徴量はさらに、声調核の先頭F0及び末尾F0を含む。 More preferably, the feature to identify the tone by associating further comprises a head F0 and end F0 tones nucleus.
さらに好ましくは、関連付けにより声調を識別する特徴量はさらに、声調核の正規化されたパワーを含む。 More preferably, the feature to identify the tone by associating further comprises the normalized power of the tone nucleus.
この発明の別の局面に従った中国語の声調分類装置は、関連付けにより声調を識別する特徴量を含む特徴量の組が与えられると、中国語で使用される声調分類の確率を出力するように、トレーニングデータセットを用いてトレーニングされた声調モデルを記憶するための手段と、入力された中国語の音声データを一連の声調核にセグメント化するための手段と、声調核の各々から関連付けにより声調を識別する特徴量を抽出するための手段とを含む。関連付けにより声調を識別する特徴量は先頭ギャップ及び末尾ギャップを含む。装置はさらに、抽出するための手段によって抽出された先頭ギャップ及び末尾ギャップの符号の組合せに従って声調の分類を判断し、判断された分類を出力するための声調分類手段を含む。 The Chinese tone classification device according to another aspect of the present invention outputs a probability of tone classification used in Chinese when a set of feature amounts including a feature amount for identifying a tone is given by association. A means for storing a tone model trained using the training data set, a means for segmenting input Chinese speech data into a series of tone nuclei, and an association from each of the tone nuclei and means for extracting a feature value to identify the tone. Feature quantity identifying the tone by association includes the head gap and tail gap. The apparatus further includes a tone classification means for determining a tone classification according to the combination of the leading gap and trailing gap codes extracted by the extracting means and outputting the determined classification.
好ましくは、声調分類手段は、声調の先頭ギャップが正であり末尾ギャップが正であるとき、その声調が中国語の第一声であると判断するための手段を含む。 Preferably, the tone classification means includes means for determining that the tone is the first Chinese voice when the tone gap is positive and the tail gap is positive.
声調分類手段はさらに、声調の先頭ギャップが負であり末尾ギャップが正であるとき、その声調が中国語の第二声であると判断するための手段を含んでも良い。 The tone classification means may further include means for determining that the tone is a Chinese second voice when the tone head gap is negative and the tail gap is positive.
好ましくは、声調分類手段はさらに、声調の先頭ギャップが負であり末尾ギャップが負であるとき、その声調が中国語の第三声であると判断するための手段を含む。 Preferably, the tone classification means further includes means for determining that the tone is a third Chinese voice when the tone gap is negative and the tail gap is negative.
さらに好ましくは、声調分類手段はさらに、声調の先頭ギャップが正であり末尾ギャップが負であるとき、その声調が中国語の第四声であると判断するための手段を含む。 More preferably, the tone classification means further includes means for determining that the tone is the fourth voice of Chinese when the leading gap of the tone is positive and the trailing gap is negative.
この発明のさらに別の局面に従った中国語のF0生成装置は、関連付けにより声調を識別する特徴量を含む特徴量の組が与えられると、中国語で用いられるそれぞれの声調分類の確率を出力するようにトレーニングデータセットを用いてトレーニングされた声調モデルを記憶するための手段を含む。関連付けにより声調を識別する特徴量は先頭ギャップ及び末尾ギャップを含む。この装置はさらに、構文解析された中国語テキストが与えられると、その中国語テキスト内の音声単位の各々について可能な中国語声調の確率を出力する、確率的F0モデルを記憶するための手段と、確率的F0モデルの出力に従って、入力された中国語のテキストに適合するF0のシーケンスを生成するための手段と、生成するための手段によって出力されたF0シーケンスが声調モデルと整合しているか否かを判断するための手段とを含む。 The Chinese F0 generation device according to still another aspect of the present invention outputs a probability of each tone classification used in Chinese when a set of feature amounts including a feature amount for identifying a tone is given by association. Means for storing a tone model trained using the training data set. Feature quantity identifying the tone by association includes the head gap and tail gap. The apparatus further includes means for storing a probabilistic F0 model that, given a parsed Chinese text, outputs the probabilities of possible Chinese tones for each of the speech units in the Chinese text. The means for generating a sequence of F0 that matches the input Chinese text according to the output of the stochastic F0 model, and whether the F0 sequence output by the means for generating is consistent with the tone model Means for determining whether or not.
[前提条件]
(声調的な文脈によるF0変化現象)
ここで発明者らが検討した文脈による変化は、二つの周知の現象、「階段状の降下」及び「文脈上の同化」である。厳密に言えば、階段状の降下現象は高いピッチターゲットが低いピッチターゲットに続く特定の文脈における、文脈上の同化の一種である。
[Prerequisites]
(F0 change phenomenon due to tonal context)
The contextual changes considered by the inventors here are two well-known phenomena: “step-down” and “contextual assimilation”. Strictly speaking, the staircase descent phenomenon is a kind of contextual assimilation in the specific context where a high pitch target follows a low pitch target.
―階段状降下の効果
階段状降下の効果は、「HLH」の声調シーケンスにおいて、「L」が存在するために、二番目の「H」の声調のF0の高さが、最初の「H」より低くなる現象として知られている。もしHとLとが交互に現れるシーケンスでこれが連続して作用すると、F0の輪郭が階段状の関数となるであろう。ある発話で後の位置にあるHの声調のF0高さが、同じ発話の前方にあるLの声調より低くなることもあり得る。
-Effect of stair-step descent The effect of stair-step descent is that the height of F0 of the second “H” tone is the first “H” because “L” exists in the tone sequence of “HLH”. This is known as the phenomenon of lowering. If H and L act alternately in a sequence where H and L appear alternately, the contour of F0 will be a stepped function. The F0 height of the H tone at a later position in a certain utterance may be lower than the L tone in front of the same utterance.
中国語の四つの基本的語彙声調のうち三つは、図1に示すように先頭(第二声)、末尾(第四声)又は先頭と末尾の両方(第三声)のいずれかに低いターゲットを有する。 Three of the four basic vocabulary tones in Chinese are low in either the first (second voice), last (fourth voice), or both the first and last (third voice) as shown in FIG. Have a target.
図2は階段状降下現象の例を示す。発話されたテキストは、"you3 qing1 wei1 e4 hua4 xian4 xiang4"(「少しずつ悪化する現象がある。」)である。図2で点線20で示されるF0シーケンスから、二つの興味深い現象を見ることができる。
FIG. 2 shows an example of a step-like descent phenomenon. The spoken text is "you3 qing1 wei1 e4 hua4 xian4 xiang4" ("There is a phenomenon that gets worse little by little."). Two interesting phenomena can be seen from the F0 sequence indicated by the dotted
1.階段状降下の効果は後半3個の第四声で連続して3回起こり、下向きの階段となっている。 1. The effect of the staircase-like descent occurs three times in succession in the third half of the fourth voice, making it a downward staircase.
2.さらに最後の第四声のHの先頭が発話の始めの第三声のF0高さと同じレベルになっている。 2. Furthermore, the head of H of the last fourth voice is at the same level as the F0 height of the third voice at the beginning of the utterance.
語彙的声調のF0の高さは階段状降下の影響を相当受けるが、人間のピッチの知覚には何ら干渉しないことが良く知られている。すなわち、図2に示す複数の第四声は同じ声調であると知覚されるのみならず、先頭でもほぼ同じ高さであると知覚されるのである。さらに、音声合成の研究では、階段状降下の影響を受けると思われる隣接する二つの声調に高いピッチ点で同じF0の値を割り当てると、合成音声では2番目の語彙的声調に不自然なストレスがあるように感じられる。 It is well known that the height of the vocabulary tone F0 is significantly affected by a step-down, but does not interfere with human pitch perception. That is, the plurality of fourth voices shown in FIG. 2 are not only perceived as having the same tone, but are also perceived as having substantially the same height at the beginning. Furthermore, in speech synthesis research, if the same F0 value is assigned to two adjacent tones that are likely to be affected by a staircase descent at a high pitch point, unnatural stress is applied to the second lexical tone in synthesized speech. It feels like there is.
―文脈上の同化による声調変化
ここで用いる文脈上の同化による声調変化の概念とは、同化による変化の影響が激しいため、声調のF0傾斜の方向が他の声調のものに変わってしまうことさえある、という現象を指す。図3は、発話されたテキストが"si1 zhu2 guan3 xian2"(伝統的な弦楽器と木管楽器)である例を示す。図3に示した例では、線30で囲まれた部分のF0輪郭は第二声であり、その特徴的なパターンは上昇勾配である。しかしここでは、F0の輪郭は平坦なものに変わっており、これは第一声のものである。
-Tonal change by contextual assimilation The concept of tonal change by contextual assimilation used here is that the influence of the change by assimilation is so severe that the direction of the F0 slope of the tone changes to that of another tone. It refers to the phenomenon of being. FIG. 3 shows an example in which the spoken text is “si1 zhu2 guan3 xian2” (traditional stringed and woodwind instruments). In the example shown in FIG. 3, the F0 contour of the portion surrounded by the
重要な問題の一つは、F0輪郭が変化した場合、声調が別の声調に変わったかどうかである。この問題は非常に分かりにくいため、かつてはかなり相違する見解が示されていた。非特許文献4では、図3に示すような事例を説明するのに、音響学的な声調連声に関する規則を提案することまでしている。その提案では、先頭が高い声調が先行する第二声であって、その後に四つの基本的声調のうちの一つが続く場合、間にはさまれた第二声は、普通の速さの音声では第一声に変化する、と示唆されている。 One important issue is whether the tone has changed to another tone when the F0 contour changes. The problem was so confusing that it used to show a very different view. In Non-Patent Document 4, to explain the case as shown in FIG. In that proposal, if the second voice is preceded by a higher tone, followed by one of the four basic tones, the second voice sandwiched in between is a normal speed voice. It is suggested that it will change to the first voice.
しかし、最近の研究により、文脈によるF0変化に続く声調文脈がある限り、聞き手は依然としてその声調を元の声調のものであると知覚することが明らかになった(非特許文献3)。これは、図3におけるF0の変化を受けた第二声が依然として第一声ではなく第二声として知覚される、という意味である。このことは何人かの中国語を母語とする話者によって確認されている。 However, recent research has revealed that as long as there is a tone context following F0 changes due to context, the listener still perceives that tone as that of the original tone (Non-Patent Document 3). This means that the second voice that has undergone the change in F0 in FIG. 3 is still perceived as the second voice rather than the first voice. This has been confirmed by some Chinese-speaking speakers.
―知覚実験の二つの知見
非特許文献3は声調文脈によるF0変化と人間のピッチ知覚に対するその影響とに関し、より体系的な調査を行なっている。非特許文献3での興味ある実験の一つは、人間が三音節のシーケンスの中で、間に挟まれた声調をどのように知覚するか、さらに、同じ声調が、その音節をはさむ第一音節と第三音節とを交換した文脈では同様に知覚されるか、を検討したものである。第一音節と第三音節とを交換すると、間に挟まれた声調にとっては声調環境がかなり相違することになるので、ピッチ知覚に対する声調文脈の影響を試験するのには特別な方法を提供するものと期待される。
-Two findings on perception experiments Non-Patent Document 3 conducts a more systematic investigation on F0 changes due to tone context and its effect on human pitch perception. One of the interesting experiments in Non-Patent Document 3 is how humans perceive a tone that is sandwiched in a sequence of three syllables. It is examined whether it is perceived similarly in the context where the syllable and the third syllable are exchanged. The exchange of the first and third syllables provides a special way to test the effect of tone context on pitch perception, as the tone environment is quite different for the tones caught between them Expected.
図4は非特許文献4の実験から得られた二つの知見を例示する。 FIG. 4 illustrates two findings obtained from the experiment of Non-Patent Document 4.
1.元の声調文脈が自然で交換後の文脈が不自然な場合、間に挟まれた声調は元の文脈と同じ声調であると知覚される傾向がある(図4の第1行を参照)。 1. When the original tone context is natural and the context after the exchange is unnatural, the tone between them tends to be perceived as the same tone as the original context (see the first line in FIG. 4).
2.元の声調文脈が不自然で交換後の文脈が自然な場合、間に挟まれた声調は、交換された文脈において元の声調とは逆方向への輪郭を備えた声調であると知覚される傾向がある(図4の下の行を参照)。 2. If the original tone context is unnatural and the post-exchange context is natural, the tone between the two is perceived as a tone with a contour in the opposite direction to the original tone in the exchanged context There is a trend (see the bottom row in FIG. 4).
(関連付け仮説及び関連付けによるF0特徴量)
語彙的声調を区別するためのより効果的な特徴量を見出すことを目的として、本件発明者らは非特許文献5又は非特許文献6の心理学的音響学的知覚に関する知見を採用し、以下のような関連付け仮説をたてた(非特許文献7及び非特許文献8を参照)。
(F0 feature quantity by association hypotheses and associated)
For the purpose of finding a more effective feature amount for distinguishing lexical tone, the present inventors adopt the knowledge on psychological acoustic perception of Non-Patent Document 5 or Non-Patent Document 6, and It made a such association hypothesis as (see non-Patent Document 7 and non-Patent Document 8).
−最初の語彙的声調の末尾と2番目の語彙的声調の先頭との相対的なF0の相違は、F0輪郭に関する下り勾配という直接的な手がかりの他に、高いピッチ又は低いピッチについて識別するための重要な手がかりとなりうる。 -The relative F0 difference between the end of the first lexical tone and the beginning of the second lexical tone is to identify high or low pitches, as well as a direct clue to the down slope with respect to the F0 contour. It can be an important clue.
−競合効果について、タイミング割当機構があるはずである(非特許文献6を参照されたい。)。 -There must be a timing allocation mechanism for competitive effects (see Non-Patent Document 6).
この仮説に基づき、連続した音声の語彙的声調は、平坦、上昇、途中で下がる、又は下降、というF0パターンを用いること以外に、図5に示された表により示される関連付けによるパターンを用いて、音響的に特徴付けることができる。図5で用いられる用語は以下の通りである。 Based on this hypothesis, the vocabulary tone of the continuous speech uses the association pattern shown by the table shown in FIG. 5 in addition to using the F0 pattern of flat, up, down, or down. Can be acoustically characterized. The terms used in FIG. 5 are as follows.
−先頭ギャップ:先頭のF0と、先行する語彙の声調の末尾のF0との相違。
−末尾ギャップ:末尾のF0と、後続する語彙の声調の先頭のF0との相違。
-Leading gap: The difference between the leading F0 and the trailing F0 of the tone of the preceding vocabulary .
-End gap: difference between the end F0 and the beginning F0 of the tone of the following vocabulary.
(声調文脈による変化の関連付けによる識別)
本件発明者らは、この関連付け仮説を活用して、上述の声調変化をする声調を一貫して予測できることを見出した。
(Identification by association of change by tone context)
The inventors of the present invention have found that it is possible to consistently predict a tone that changes the tone described above by using this association hypothesis.
−階段状に下がる声調の関連付けによる識別
図6は先頭ギャップ及び末尾ギャップの推定方法を例示する。特に、図2の階段状に下がる声調の先頭及び末尾ギャップの推定を例示する。
-Identification by associating voices that fall in a staircase pattern FIG. 6 illustrates a method for estimating a leading gap and a trailing gap. In particular, the estimation of the leading and trailing gaps of the tone that goes down in a staircase pattern of FIG. 2 is illustrated.
図6において、細い縦線は音節の境界を示す。特徴量“r”は、先頭及び末尾ギャップを表し、特徴量“d”は持続時間を正規化したF0傾斜勾配を表す。先頭及び末尾点は声調核に対応する点である。 In FIG. 6, thin vertical lines indicate syllable boundaries. The feature quantity “r” represents the leading and trailing gaps, and the feature quantity “d” represents the F0 slope with the duration normalized. The leading and trailing points are points corresponding to the tone kernel.
第四声は「HL」のピッチパターンを有する。関連付けによる声調識別仮説によれば、以下の条件を満たす場合には第四声と判定される。 The fourth voice has a pitch pattern of “HL”. According to the tone discrimination hypothesis by association , when the following conditions are satisfied, it is determined as the fourth voice.
1.先頭ギャップが正である。すなわちr≧0である。第四声は先頭がHであるので、もし先行する声調の末尾がLであればr>0となる。一方、先行する声調の末尾がHであれば、r≒0である。 1. The leading gap is positive. That is, r ≧ 0. Since the fourth voice starts with H, if the end of the preceding tone is L, r> 0. On the other hand, if the end of the preceding tone is H, r≈0.
2.上と同様の機構により、末尾ギャップが負である。 2. By the same mechanism as above, the tail gap is negative.
3.F0傾斜の勾配が負、すなわちd<0(下り勾配のピッチ)である。 3. The slope of the F0 slope is negative, that is, d <0 (down slope pitch).
図6から、四つの第四声はそれらの絶対的なF0の高さが大きく異なるにも関わらず、上述の条件を満たすという点ではほとんど相違しないことがわかる。四つの第四声のどの第四声も、同じようなレベルの正の先頭ギャップと、同じようなレベルの負の末尾ギャップと、同じようなF0輪郭の下り勾配を有する。これら三つの特徴量はピッチ関連付け仮説によれば、声調を区別するため非常に重要であるので、これら四つの第四声は同様の声調と知覚されるはずであり、リスニングによりそれが実証された。 From FIG. 6, it can be seen that the four fourth voices are hardly different in that the above-mentioned conditions are satisfied, although their absolute F0 heights differ greatly. Every fourth of the four fourth voices has a similar level of positive leading gap, a similar level of negative trailing gap, and a similar F0 contour downslope. These three features are very important to distinguish the tone according to the pitch association hypothesis, so these four fourth voices should be perceived as similar tones, which was demonstrated by listening .
―文脈上の同化を受けた声調の関連付けによる区別
図7は第二声に対する先頭及び末尾ギャップrとF0傾斜勾配dの推定を例示する。図7から以下のことがわかる。
Distinguishing by association of tones that have undergone contextual assimilation FIG. 7 illustrates the estimation of leading and trailing gaps r and F0 slope gradient d for the second voice. The following can be seen from FIG.
1.先頭ギャップはどちらかといえば負、すなわちr1<0である。 1. The leading gap is rather negative, i.e. r1 <0.
2.末尾ギャップはどちらかといえば正、すなわちr2>0である。 2. The tail gap is rather positive, i.e. r2> 0.
3.F0輪郭傾斜は平坦、すなわちd≒0である。 3. The F0 contour slope is flat, ie d≈0.
図5から、上述の特徴量に関して第二声が最も当てはまると分かるので、この声調は第二声であろうと予測する。関連付け仮説に基づく第二声の予測を決定するのは、負の先頭ギャップと正の末尾ギャップである。 Since it can be seen from FIG. 5 that the second voice is most applicable to the above-described feature amount, it is predicted that this tone will be the second voice. It is the negative leading gap and the positive trailing gap that determine the prediction of the second voice based on the association hypothesis.
(交換された文脈での声調の予測)
関連付け声調識別仮説に基づき、上述の交換された文脈での実験で知覚される声調が何かを容易に正確に予測することもできる。図8及び図9はこの予測手順と、交換された文脈で、間に挟まれた声調についての予測結果を示す。ターゲットはまず、先頭ギャップ、末尾ギャップ及び下り勾配のピッチに基づいて高い(+)又は低い(−)ターゲットのいずれであるかが予測され、その後その先頭と末尾との2個のターゲットに基づいてどの声調かが予測可能となる。
(Prediction of tone in exchanged context)
Based on the associated tone discrimination hypothesis, it is also possible to easily and accurately predict what tone is perceived in experiments in the above-described exchanged context. 8 and 9 show this prediction procedure and the prediction results for the tones sandwiched in the exchanged context. The target is first predicted whether it is a high (+) or low (-) target based on the leading gap, trailing gap, and downhill pitch, and then based on the two targets at the beginning and end Which tone is predictable.
図8及び図9から、こうして予測された結果が、報告された二つの知見と一貫していることが分かる。 From FIGS. 8 and 9, it can be seen that the predicted results are consistent with the two findings reported.
中国語の声調区別パターンは音声における声調の音響的特徴量となるパターンを示す。良好なパターンは、発話が分離された音節からなるのか、連続した自然な音声かによらず、実際の音声の音響的特徴量から、一貫した信頼性のある声調の識別を可能とするものであるべきである。 The Chinese tone distinction pattern indicates a pattern that is an acoustic feature amount of tone in speech. A good pattern enables consistent and reliable tone identification from the acoustic features of the actual speech, regardless of whether the utterance consists of separated syllables or continuous natural speech. Should be.
関連付けによる声調識別パターンは、連続音声における中国語の声調について提案された最初の識別パターンである。伝統的な中国語の声調パターンと比較して、この新たなパターンは連続音声において声調をより良く識別する能力を提供する。この提案には多くの応用があるはずである。以下に、これを中国語の自動声調分類と中国語音声の合成に応用したものを簡単に説明する。 The tone identification pattern by association is the first identification pattern proposed for the Chinese tone in continuous speech. Compared to traditional Chinese tone patterns, this new pattern provides the ability to better identify tone in continuous speech. This proposal should have many applications. The following is a brief description of the application of this to Chinese automatic tone classification and Chinese speech synthesis.
[第1の実施の形態]
図10はこの発明の第1の実施の形態に従った声調分類システム100を例示する。システム100は上述の関連付けによる声調識別特徴量に基づいたものである。
[First embodiment]
FIG. 10 illustrates a
図10を参照して、システム100は、一組の関連付けによる特徴量が与えられると最も確率の高い声調分類を出力するように声調モデル106をトレーニングデータ102を用いてトレーニングするための声調モデルトレーニングユニット104と、入力された音声108に応答して、声調モデルトレーニングユニット104によってトレーニングされた声調モデル106を用いて、声調分類112を出力する声調分類ユニット110とを含む。
Referring to FIG. 10, the
声調モデル106はそれぞれの声調に対して準備された多数のガウス混合モデル(GMM)を含む。文脈に依存しないGMMのみを用いる場合、GMMの総数は5である。すなわち、基本の四声について4個と、軽声について1個である。文脈に依存するGMMを用いるのであれば、最大で175個のGMMを使用可能である(三つの声調からなる文脈に5*5*5=125、左境界の声調に4*5、右境界の声調に5*5、孤立した声調に5である)。
The
声調モデルトレーニングユニット104は、トレーニングデータ102の発話の各々の声調核を音響的にセグメント化するための音響的セグメント化モジュール130と、音響的セグメント化モジュール130によってセグメント化された音声信号の声調核のF0及びパワーを含む音響的特徴量を抽出するための特徴抽出モジュール132と、特徴抽出モジュール132によって抽出された音響的特徴量から、先頭ギャップ、末尾ギャップ、F0輪郭勾配等の関連付けによる特徴量を抽出するための関連付けによる特徴抽出モジュール134と、関連付けによる特徴抽出モジュール134によって抽出された関連付け特徴量を利用して、声調モデル106のモデルパラメータを推定するための声調モデル推定モジュール136とを含む。
The tone
音響的セグメント化モジュール130での声調核の音響的セグメント化は、統計的方法により、又は音声認識装置の音声セグメント化を利用するだけで実現できる。
The acoustic segmentation of tonal nuclei in the
声調分類ユニット110は、入力された音声108をセグメント化し、セグメント化された音声信号の声調核を出力するための音響的セグメント化モジュール150と、音響的セグメント化モジュール150によってセグメント化された音声信号の声調核のF0及びパワーを含む音響的特徴量を抽出するための特徴抽出モジュール152と、特徴抽出モジュール152によって抽出された音響的特徴量から関連付けによる特徴量を抽出するための関連付けによる特徴抽出モジュール154と、声調モデル106のうち関連付けによる特徴抽出モジュール154によって抽出された関連付けによる特徴量に最も良く一致する特徴パターンを探索し、最も良く一致するパターンに対応する声調分類112を出力するためのパターンマッチングモジュール156とを含む。
The
システム100は以下のように動作する。このシステムには二つの動作局面がある。トレーニングの局面と動作の局面とである。
トレーニングの局面では、トレーニングデータ102内の発話が、音響的セグメント化モジュール130によって声調の境界で音響的にセグメント化される。セグメント化された音声信号の声調核が特徴抽出モジュール132に与えられ、F0及びパワーを含むセグメント化された音声信号の音響的特徴量が抽出される。
In the training aspect, utterances in
関連付けによる特徴抽出モジュール134は声調核の音響的特徴量から、関連付けに基づく声調識別のための特徴量を抽出する。二つの最も重要な関連付けによる識別特徴量は先頭ギャップと末尾ギャップであり、これらは図11により、r1,1及びr2,2として計算される。別の重要な特徴量はF0輪郭の傾斜勾配、先頭F0、末尾F0である。必要に応じて、声調核の正規化されたパワーを含めても良い。この場合、1個の声調の特徴量は5次元又は6次元のベクトルとなる。
The
声調モデルトレーニング処理により、各声調についての声調モデル106内のガウス混合モデルのパラメータがトレーニングデータ102で推定される。
Through the tone model training process, the parameters of the Gaussian mixture model in the
次の、声調認識/分類局面では、入力された音声108が音響的セグメント化モジュール150でセグメント化され、特徴抽出モジュール152で、セグメント化された音声信号から音響的特徴量が抽出される。さらに、特徴抽出モジュール152によって抽出された特徴量から、関連付けによる特徴抽出モジュール154により、関連付けによる特徴量が抽出される。
In the next tone recognition / classification phase, the
関連付けによる特徴量のパターンが声調モデルと比較される。最大確率を有する声調のシーケンスが、認識された声調のシーケンスとして出力される(声調分類112)。 The pattern of the feature amount by the association is compared with the tone model. The tone sequence with the highest probability is output as the recognized tone sequence (tone classification 112).
[第2の実施の形態]
関連付けによるパターンは、従来の規則ベースの合成システムのようにテキストからF0パターンを生成するために直接利用するばかりでなく、確率的F0生成システムと統合して、合成音声の声調的分かりやすさを改善することもできる。
[Second Embodiment]
The pattern by association is not only used directly for generating the F0 pattern from the text as in the conventional rule-based synthesis system, but also integrated with the stochastic F0 generation system to improve the tonal intelligibility of the synthesized speech. It can also be improved.
規則ベースのイントネーション生成システムでは、トレーニングコーパスから開発した多数の規則を用いて合成すべきテキストのイントネーションF0パターンを予測する。関連付け声調識別パターンをこの規則の組と統合して、声調を識別することが十分可能となる手がかりを、生成されたF0から得られるようにすることが容易にできる。言いかえれば、標準的な声調パターンと比較して、関連付けによるパターンはF0の軌跡の配置に対し自由度が高い。これにより、合成音声の自然さが改善されるはずである。 In a rule-based intonation generation system, a text intonation F0 pattern to be synthesized is predicted using a number of rules developed from a training corpus. The associated tone identification pattern can be integrated with this set of rules to easily obtain a clue from the generated F0 that is sufficient to identify the tone. In other words, as compared with the standard tone pattern, the association pattern has a high degree of freedom with respect to the arrangement of the locus of F0. This should improve the naturalness of the synthesized speech.
現在の確率的F0生成システムでは、合成処理に先だってトレーニング期間を設ける。このトレーニング処理で特徴的な事項は、関連する文脈に関するファクタの数が多すぎて、頑健なイントネーションモデルを構築するために十分なトレーニングデータが得られない、ということである。 In the current probabilistic F0 generation system, a training period is provided prior to the synthesis process. What is characteristic of this training process is that there are too many factors related to the context and sufficient training data cannot be obtained to build a robust intonation model.
中国語を例にとると、約1300の声調音節があり、可能な三音節のつながりは22億を超える。強調や韻律句内での位置(始点、中位、終点)、疑問文か平叙文か、等のさらなるファクタを考慮するとすれば、可能な組合せは兆の単位になりうる。このような膨大な文脈的な組合せについてモデルをトレーニングするに足るデータを収集することは不可能である。従って、深刻なデータスパースネスの問題により、生成されたイントネーションのF0が奇妙に聞こえることは多々ある。 Taking Chinese as an example, there are about 1300 tonal syllables, with more than 2.2 billion possible three syllable connections. Considering additional factors such as emphasis and position in the prosodic phrase (start point, middle point, end point), question or plain sentence, etc., possible combinations can be in trillions of units. It is impossible to collect enough data to train a model for such a large number of contextual combinations. Therefore, the generated intonation F0 often sounds strange due to serious data sparseness problems.
しかし、関連付けに基づく声調区別パターンを補助として用いることにより、確率的に合成されたF0輪郭を検討するための事後チェックモジュールを簡単に利用することができる。 However, by using a tone distinction pattern based on association as an auxiliary, a post-check module for examining a stochastically synthesized F0 contour can be easily used.
図12は、入力されたテキスト200からF0シーケンス204を生成するための、この発明の第2の実施の形態によるF0生成ユニット202を示す。F0生成ユニット202は先行技術のF0生成装置で用いられる確率的F0モデル206、及びこの発明の第1の実施の形態で用いた声調モデル208と共に用いられる。
FIG. 12 shows an
F0生成ユニット202は、入力されたテキスト200を構文解析するためのテキスト構文解析モジュール220と、確率的F0モデル206を用いてテキスト構文解析モジュール220によって構文解析されたテキストのイントネーションF0を生成するためのイントネーションF0生成モジュール222と、声調モデル208を参照してイントネーションF0生成モジュール222が出力したF0シーケンスをチェックし、パターンに合わないF0を訂正して、訂正されたF0シーケンス204を出力する事後チェックモジュール224とを含む。
The
上述の通り、関連付けによる特徴パターンは、話す速度の変化、感情の変化等の高いレベルでの話し方のスタイルに従って、合成されたF0輪郭を修正する際に、確実に声調を識別可能にする。この問題は、先行技術の中国語TTS(テキスト―音声合成)システムではほとんど実現され得ないものである。 As described above, the feature pattern by association makes it possible to reliably identify the tone when correcting the synthesized F0 contour according to the style of speaking at a high level such as a change in speaking speed and a change in emotion. This problem can hardly be realized with the prior art Chinese TTS (text-to-speech synthesis) system.
上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The above-described embodiments are merely examples and should not be construed as limiting. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
100 声調分類システム、102 トレーニングデータ、104 声調モデルトレーニングユニット、106 声調モデル、108 入力音声、110 声調分類ユニット、112 声調分類、130,150 音響的セグメント化モジュール、132,152 特徴抽出モジュール、134,154 関連付けによる特徴抽出モジュール、136 声調モデル推定モジュール、 156 パターンマッチングモジュール、200 入力テキスト、202 F0生成ユニット、204 F0シーケンス、206 確率的F0モデル、208 声調モデル、220 テキスト構文解析モジュール、222 イントネーションF0生成モジュール、224事後チェックモジュール 100 tone classification system, 102 training data, 104 tone model training unit, 106 tone model, 108 input speech, 110 tone classification unit, 112 tone classification, 130, 150 acoustic segmentation module, 132, 152 feature extraction module, 134, 154 association feature extraction module, 136 tone model estimation module, 156 pattern matching module, 200 input text, 202 F0 generation unit, 204 F0 sequence, 206 stochastic F0 model, 208 tone model, 220 text parsing module, 222 intonation F0 Generation module, 224 post-check module
Claims (9)
前記声調分類装置はさらに、
入力された中国語の音声データを一連の声調核にセグメント化するための手段と、
前記声調核の各々から声調核境界におけるF0により声調を識別する特徴量を抽出するための手段と、
前記抽出するための手段によって抽出された音響特徴量を前記声調モデルに適用し、前記声調モデルにより出力される最も高い確率を達成する声調分類を選択するためのパターンマッチング手段とを含む、中国語の声調分類装置。 A training data set that outputs a probability of tone classification used in Chinese given a set of features including features that identify the tone by the fundamental frequency (F0) at the tone kernel boundary of the Chinese speech. A tonal classifier for Chinese, including means for storing a tonal model trained using, wherein the features identifying the tone by F0 at the tone kernel boundary are a head gap, a tail gap, and a tone kernel A combination of signs of the slope of the F0 contour of
The tone classification device further includes:
Means for segmenting input Chinese speech data into a series of tone nuclei;
Means for extracting from each of the tone nuclei a feature that identifies the tone by F0 at the tone nucleus boundary ;
Pattern matching means for applying to the tone model the acoustic feature extracted by the means for extracting and selecting a tone classification that achieves the highest probability output by the tone model; Tone classification device.
入力された中国語の音声データを一連の声調核にセグメント化するための手段と、
前記声調核の各々から声調核境界におけるF0により声調を識別する特徴量を抽出するための手段とを含む中国語の声調分類装置であって、声調核境界におけるF0により声調を識別する前記特徴量は、先頭ギャップ、末尾ギャップ、及び、前記声調核のF0輪郭の傾斜勾配の符号の組合わせを含み、
前記声調分類装置はさらに、
前記抽出するための手段によって抽出された先頭ギャップ、末尾ギャップ、及び、前記声調核のF0輪郭の傾斜勾配の符号の組合わせに従って声調の分類を判断し、判断された分類を出力するための声調分類手段を含む、中国語の声調分類装置。 A tone model trained using a training data set to output the probability of tone classification used in Chinese given a set of features that include a feature that identifies the tone by F0 at the tone kernel boundary Means for storing
Means for segmenting input Chinese speech data into a series of tone nuclei;
Means for extracting a feature quantity for identifying a tone by F0 at a tone kernel boundary from each of the tone nuclei, wherein the feature quantity identifies a tone by F0 at a tone kernel boundary. Includes a combination of a leading gap, a trailing gap, and a sign of the slope gradient of the F0 contour of the tone kernel,
The tone classification device further includes:
The tone for judging the tone classification according to the combination of the leading gap, the trailing gap extracted by the means for extracting, and the sign of the slope gradient of the F0 contour of the tone nucleus, and outputting the judged category Chinese tone classification device including classification means.
声調核境界におけるF0により声調を識別する特徴量を含む特徴量の組が与えられると、中国語で使用される声調分類の確率を出力するように、トレーニングデータセットを用いてトレーニングされた声調モデルを記憶するための手段を含む中国語のF0生成装置であって、関連付けにより声調を識別する前記特徴量は先頭ギャップ、末尾ギャップ、及び、声調核のF0輪郭の傾斜勾配の符号の組合わせを含み、
前記F0生成装置はさらに、
構文解析された中国語テキストが与えられると、その中国語テキスト内の音声単位の各々について可能な中国語声調の確率を出力する、確率的F0モデルを記憶するための手段と、
前記確率的F0モデルの出力に従って、入力された中国語のテキストに適合するF0のシーケンスを生成するための手段と、
前記生成するための手段によって出力されたF0シーケンスが、前記声調モデルと整合しているか否かを判断するための手段とを含む、中国語のF0生成装置。 A Chinese F0 generator,
A tone model trained using a training data set to output the probability of tone classification used in Chinese given a set of features that include a feature that identifies the tone by F0 at the tone kernel boundary A Chinese F0 generation device including means for storing the feature, wherein the feature quantity for identifying a tone by association is a combination of a leading gap, a trailing gap, and a sign of an inclination gradient of a tone kernel F0 contour. Including
The F0 generator further includes
Means for storing a probabilistic F0 model that, given a parsed Chinese text, outputs the probabilities of possible Chinese tones for each of the speech units in the Chinese text;
Means for generating a sequence of F0 matching the input Chinese text according to the output of the probabilistic F0 model;
Means for generating Chinese F0, comprising: means for determining whether the F0 sequence output by the means for generating is consistent with the tone model;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004074594A JP4617092B2 (en) | 2004-03-16 | 2004-03-16 | Chinese tone classification device and Chinese F0 generator |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004074594A JP4617092B2 (en) | 2004-03-16 | 2004-03-16 | Chinese tone classification device and Chinese F0 generator |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005265955A JP2005265955A (en) | 2005-09-29 |
JP4617092B2 true JP4617092B2 (en) | 2011-01-19 |
Family
ID=35090615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004074594A Expired - Lifetime JP4617092B2 (en) | 2004-03-16 | 2004-03-16 | Chinese tone classification device and Chinese F0 generator |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4617092B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4793776B2 (en) * | 2005-03-30 | 2011-10-12 | 株式会社国際電気通信基礎技術研究所 | Method for expressing characteristics of change of intonation by transformation of tone and computer program thereof |
WO2015026690A1 (en) * | 2013-08-19 | 2015-02-26 | Med-El Elektromedizinische Geraete Gmbh | Auditory prosthesis stimulation rate as a multiple of intrinsic oscillation |
CN112074903A (en) * | 2017-12-29 | 2020-12-11 | 流畅人工智能公司 | System and method for tone recognition in spoken language |
CN111128130B (en) * | 2019-12-31 | 2022-11-29 | 秒针信息技术有限公司 | Voice data processing method and device and electronic device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263097A (en) * | 1995-03-15 | 1996-10-11 | Internatl Business Mach Corp <Ibm> | Method for recognition of word of speech and system for discrimination of word of speech |
JP2003058182A (en) * | 2001-08-06 | 2003-02-28 | Culture Com Technology (Macau) Ltd | Method and system for recognizing voice |
JP2003330482A (en) * | 2002-05-14 | 2003-11-19 | Toshiba Corp | Method, device, and program for generating fundamental frequency pattern and method, device and program for synthesizing voice |
-
2004
- 2004-03-16 JP JP2004074594A patent/JP4617092B2/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263097A (en) * | 1995-03-15 | 1996-10-11 | Internatl Business Mach Corp <Ibm> | Method for recognition of word of speech and system for discrimination of word of speech |
JP2003058182A (en) * | 2001-08-06 | 2003-02-28 | Culture Com Technology (Macau) Ltd | Method and system for recognizing voice |
JP2003330482A (en) * | 2002-05-14 | 2003-11-19 | Toshiba Corp | Method, device, and program for generating fundamental frequency pattern and method, device and program for synthesizing voice |
Also Published As
Publication number | Publication date |
---|---|
JP2005265955A (en) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6725199B2 (en) | Speech synthesis apparatus and selection method | |
US7062439B2 (en) | Speech synthesis apparatus and method | |
EP0833304B1 (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
US7062440B2 (en) | Monitoring text to speech output to effect control of barge-in | |
US7191132B2 (en) | Speech synthesis apparatus and method | |
US20020160341A1 (en) | Foreign language learning apparatus, foreign language learning method, and medium | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
US20070136062A1 (en) | Method and apparatus for labelling speech | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JPH0922297A (en) | Method and apparatus for voice-to-text conversion | |
Latorre et al. | Polyglot synthesis using a mixture of monolingual corpora | |
JP2015068897A (en) | Evaluation method and device for utterance and computer program for evaluating utterance | |
Vu et al. | An HMM-based Vietnamese speech synthesis system | |
Mukherjee et al. | A bengali hmm based speech synthesis system | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
JP4617092B2 (en) | Chinese tone classification device and Chinese F0 generator | |
Huilgol et al. | A framework for labeling speech with acoustic cues to linguistic distinctive features | |
WO2012032748A1 (en) | Audio synthesizer device, audio synthesizer method, and audio synthesizer program | |
Tepperman et al. | Better nonnative intonation scores through prosodic theory. | |
Wagner | Acoustic cues for automatic determination of phrasing | |
KR20030033628A (en) | A method for labeling break strength automatically by using classification and regression tree | |
Demenko et al. | Prosody annotation for unit selection TTS synthesis | |
Demenko et al. | The stylization of intonation contours | |
Demenko et al. | Prosody annotation for corpus based speech synthesis | |
Kang et al. | Voiced/unvoiced decision algorithm for HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100601 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101025 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4617092 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |