JP5687611B2 - Phrase tone prediction device - Google Patents
Phrase tone prediction device Download PDFInfo
- Publication number
- JP5687611B2 JP5687611B2 JP2011269228A JP2011269228A JP5687611B2 JP 5687611 B2 JP5687611 B2 JP 5687611B2 JP 2011269228 A JP2011269228 A JP 2011269228A JP 2011269228 A JP2011269228 A JP 2011269228A JP 5687611 B2 JP5687611 B2 JP 5687611B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- feature
- accent
- information
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、会話に頻出する句末音調を、テキスト情報から予測する句末音調予測装置に関する。 The present invention relates to a phrase end tone predicting apparatus that predicts a phrase end tone that frequently appears in conversation from text information.
従来の情報提供を目的とした読み上げ音声合成では、合成対象の文には平叙文が多く、アクセント句毎の基本周波数の変化は、アクセント句にアクセント核がある場合はその核の位置以後、核の無い場合にはアクセント句の頭の位置から句末に向かって概ね下降する傾向がある。ところが、人間同士の会話音声においては、基本周波数がアクセント句の末尾に向かって下がった後に再び上昇させて、会話を続ける意図などを伝える場合がある。 In conventional speech-to-speech synthesis for the purpose of providing information, there are many plain sentences in the text to be synthesized, and if the accent phrase has an accent nucleus, the change in the fundamental frequency is different from the position of the nucleus. When there is no symbol, there is a tendency to generally descend from the position of the head of the accent phrase toward the end of the phrase. However, in conversation speech between humans, there is a case where the fundamental frequency is lowered again toward the end of the accent phrase and then raised again to convey the intention of continuing the conversation.
このアクセント句内における下降の後に、句末までのどこかの位置において、基本周波数が再び上昇する動きを「句末音調」という。例えば、長く話し続けたい場合に「〜して↑、〜して↑」と句末で基本周波数を再び上昇させる発話に見られる現象である。そのような再上昇の存在を示すラベルを「句末音調ラベル」と呼ぶ。例えば音声合成器が、より自然な会話音声を合成するためには、句末においてこのような句末音調の発生する(基本周波数が再上昇する)アクセント句か否かの認定、すなわち句末音調ラベルの付与が不可欠である。 The movement in which the fundamental frequency rises again at some position up to the end of the phrase after the fall in the accent phrase is called “end of tone”. For example, it is a phenomenon seen in an utterance that raises the fundamental frequency again at the end of a phrase such as “~ ↑, ~ ↑” when it is desired to continue speaking for a long time. A label indicating the existence of such a re-rise is referred to as “end of phrase label”. For example, in order for a speech synthesizer to synthesize a more natural conversation speech, it is recognized whether or not an accent phrase is generated at the end of the phrase (the fundamental frequency is increased again), that is, the end-of-phrase tone. Labeling is essential.
従来は、例えば英語のニュース音声を対象として、句や文や段落といったさまざまな単位の長さや位置や句境界前後の数単語に対応する品詞を特徴量として用いて、句末で基本周波数が再上昇するか否かの分類が行われた(非特許文献1)。このような予測モデルの構築は、非特許文献1から明らかなように、大量のデータに基づいて自動構成する方式が一般的である。
Conventionally, for example, for English news speech, the basic frequency is re-established at the end of a phrase by using the length and position of various units such as phrases, sentences, and paragraphs, and parts of speech corresponding to several words before and after the phrase boundary as features. The classification of whether or not to rise was performed (Non-Patent Document 1). As is apparent from Non-Patent
しかしながら、会話はニュースの情報案内文のようにほぼ正しい文法で話されるとは限らず、助詞などの機能語が省略されても、内容語から意図が伝わる。そのため、従来のように品詞に基づくだけではなく、発話の内容に基づいた句末音調の処理が必要となる。また、句境界付近で句末音調が生じるが、その境界からの距離は常に一定とは限らないので、句境界前後のできるだけ多くの単語を分類のための特徴量として組み込む必要がある。 However, conversations are not always spoken with almost correct grammar like news information sentences, and even if function words such as particles are omitted, the intention is transmitted from the content words. For this reason, not only based on the part of speech as in the prior art, but also a phrase end tone processing based on the content of the utterance is required. In addition, although the end-of-phrase tone is generated near the phrase boundary, the distance from the boundary is not always constant, so it is necessary to incorporate as many words as possible before and after the phrase boundary as feature values for classification.
しかし、従来技術では、上記したように例えば句境界前後の数単語に限定してその品詞情報から得られる特徴量を用いた句末音調の予測が行われていたため、予測精度が悪いという課題がある。 However, in the prior art, as described above, for example, the phrase end tone is predicted using the feature quantity obtained from the part-of-speech information limited to a few words before and after the phrase boundary. is there.
この発明は、このような課題に鑑みてなされたものであり、品詞以外の他の多くの情報に基づいて句末音調を正確に予測する句末音調予測装置を提供することを目的とする。 The present invention has been made in view of such a problem, and an object thereof is to provide an end-of-phrase tone prediction apparatus that accurately predicts an end-of-phrase tone based on a lot of information other than the part of speech.
この発明の句末音調予測装置は、特徴量情報抽出部と、単語情報データベースと、特徴量変換部と、句末音調予測モデルと、予測部と、を具備する。特徴量情報抽出部は、形態素情報とアクセント句情報を入力として、それらの情報の中から句末音調予測モデルが必要とする出現形、品詞、読み、アクセント句のアクセント型、アクセント句末ポーズの有無、の特徴量情報を抽出する。単語情報データベースは、扱う全ての単語の出現形、品詞に対応したビット列を記憶する。特徴量変換部は、特徴量情報抽出部が出力する特徴量情報を入力として、単語情報データベースに記憶されたビット列を参照して特徴量情報に対応させた特徴量ベクトルを生成する。句末音調予測モデルは、句末音調の有無を2値分類する予測モデルである。予測部は、特徴量ベクトルを入力として、当該特徴量ベクトルを句末音調予測モデルで2値分類して句末音調有りの場合に、当該アクセント句に句末音調ラベルを付与する。 The phrase end tone prediction apparatus of the present invention includes a feature amount information extraction unit, a word information database, a feature amount conversion unit, a phrase end tone prediction model, and a prediction unit. The feature quantity information extraction unit receives morpheme information and accent phrase information as input, and from that information the appearance form, part of speech, reading, accent phrase accent type, accent phrase end pose required by the phrase end tone prediction model Feature information about presence / absence is extracted. The word information database stores bit strings corresponding to the appearance forms and parts of speech of all words to be handled. The feature amount conversion unit receives the feature amount information output from the feature amount information extraction unit and generates a feature amount vector corresponding to the feature amount information with reference to a bit string stored in the word information database. The phrase end tone prediction model is a prediction model that binarizes the presence / absence of the phrase end tone. The prediction unit receives the feature amount vector, and binary-classifies the feature amount vector using the phrase end tone prediction model, and assigns a phrase end tone label to the accent phrase when a phrase end tone exists.
この発明の句末音調予測装置によれば、品詞に比べて数が多くなる出現形を含めた特徴量から句末音調の有無を2値分類する予測モデルを用いて、従来人手で付与されていた句末音調ラベルの付与を高精度に自動的に行うことが出来る。よって、テキストで表現された例えば会話文から会話音声の合成を大量に行う場合に、正確な句末音調ラベルが付与された音声合成のための入力データを大量に生成することが出来る。 According to the phrase endnote prediction device of the present invention, it is conventionally given manually using a prediction model that binaryly classifies the presence or absence of the phrase endnote from the feature quantity including the appearance form that is larger in number than the part of speech. The end-of-phrase tone label can be automatically assigned with high accuracy. Accordingly, when a large amount of speech is synthesized from, for example, a conversation sentence expressed in text, a large amount of input data for speech synthesis to which an accurate ending tone label is assigned can be generated.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1に、この発明の句末音調予測装置100の機能構成例を示す。その動作フローを図2に示す。句末音調予測装置100は、特徴量情報抽出部10と、単語情報データベース20と、特徴量変換部30と、句末音調予測モデル記憶部40と、予測部50と、制御部60と、を具備する。句末音調予測装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
FIG. 1 shows a functional configuration example of the phrase end tone prediction apparatus 100 of the present invention. The operation flow is shown in FIG. The phrase end tone prediction apparatus 100 includes a feature quantity
特徴量情報抽出部10は、形態素情報とアクセント句情報を入力として、それらの情報の中から句末音調予測モデルが必要とする出現形、品詞、読み、アクセント句のアクセント型、句末ポーズの有無、の特徴量情報を抽出する(ステップS10)。単語情報データベース20は、扱う全ての単語の出現形、品詞に対応したビット列を記憶する。それらのビット列は予め記憶されている。
The feature quantity
特徴量変換部30は、特徴量情報抽出部10が出力する特徴量情報を入力として、上記単語情報データベース20に記憶されたビット列を参照して特徴量情報に対応させた特徴量ベクトルを生成する(ステップS30)。
The feature
予測部50は、特徴量ベクトルを入力として、当該特徴量ベクトルを、句末音調予測モデル記憶部40に記憶された句末音調予測モデルを用いて2値分類し、句末音調有りの場合に、当該アクセント句に句末音調ラベルを付与する(ステップS50)。
The predicting
ステップ10の特徴量情報抽出過程と、ステップ20の特徴量変換過程と、ステップ50の予測過程は、入力されるテキストデータの全てのアクセント句についての処理が終了するまで繰り返される(ステップS60のno)。この繰り返し処理や、上記した各機能部間の時系列的な動作の制御は、制御部60が行う。
The feature quantity information extraction process in
以上、説明したようにこの発明の句末音調予測装置100によれば、句末音調ラベルの付与を自動的に行うことが出来る。以降、各部の動作を具体例を示して更に詳しく説明する。 As described above, according to the phrase end tone predicting apparatus 100 of the present invention, it is possible to automatically give a phrase end tone label. Hereinafter, the operation of each unit will be described in more detail with specific examples.
〔特徴量情報抽出部〕
特徴量抽出部10は形態素情報とアクセント句情報を入力とする。形態素情報とは、出現形、品詞、読み等の情報である。アクセント句情報とは、アクセント句境界の位置、アクセント句のアクセント型、アクセント句末尾にポーズが付くか否等の情報である。特徴量情報抽出部10は、これらの情報を入力として、句末音調予測を行うアクセント句分の分類に必要な特徴量情報を抽出する。
[Feature information extraction unit]
The feature
抽出する特徴量情報としては、アクセント句境界の位置情報から、句末音調予測を行うアクセント句に含まれる単語の出現形の系列、品詞の系列、を取り出す。続いて、そのアクセント句に含まれる読みの系列をつなげて、そのアクセント句全体の長さを抽出する。そのアクセント句のアクセント型情報からそのアクセント句におけるアクセントの位置情報(アクセント核の位置)を、また、そのアクセント句の末尾にポーズが付くか否かの情報を抽出する。 As feature quantity information to be extracted, a series of word appearances and part-of-speech series included in an accent phrase for which the phrase end tone prediction is performed is extracted from position information of the accent phrase boundary. Subsequently, the reading series included in the accent phrase is connected, and the length of the entire accent phrase is extracted. From the accent type information of the accent phrase, the position information of the accent (accent nucleus position) in the accent phrase and information on whether or not a pause is added at the end of the accent phrase are extracted.
図3に、一つのアクセント句から抽出された特徴量情報の例を示す。図3の左側から出現形、品詞、読み、の系列、そして当該アクセント句のアクセント核の位置、句末ポーズの有無、の特徴量情報が並んでいる。図4に、アクセント核の位置を示す。図4の横方向は経過時間であり、LとHの周波数の高低を表す。アクセント核はこの例の場合、先頭から3番目の読みとなる。なお、アクセント核はアクセント句の末尾から読みを数えた数としても良い。 FIG. 3 shows an example of feature amount information extracted from one accent phrase. From the left side of FIG. 3, a series of appearance forms, parts of speech, and readings, and feature amount information such as the position of the accent nucleus of the accent phrase and the presence or absence of a phrase end pose are arranged. FIG. 4 shows the position of the accent nucleus. The horizontal direction in FIG. 4 is the elapsed time and represents the level of the L and H frequencies. In this example, the accent kernel is the third reading from the beginning. The accent core may be a number obtained by counting readings from the end of the accent phrase.
なお、形態素情報とアクセント句情報は、従来の音声合成装置で行う言語解析処理の結果で得られる情報である。
〔特徴量変換部〕
図5に、特徴量変換部30の動作フローを示す。特徴量変換部30は、アクセント句を構成する全ての単語(出現形)とその品詞の特徴量情報を利用する。従来技術で行われていた単語数で制限をかけて特徴量ベクトルを作る代わりに、単語数とそれに対応した品詞を特徴量ベクトルとして設定する。
The morpheme information and the accent phrase information are information obtained as a result of language analysis processing performed by a conventional speech synthesizer.
[Feature conversion unit]
FIG. 5 shows an operation flow of the feature
これによりアクセント句を構成する単語の数が変化しても、常に単語の出現形とそれに対応する品詞の数の和のサイズで特徴量ベクトルを設定する。従来技術では、ある一定の値に定めた個数の上限値を超える数の単語を特徴量に含めなかったが、この表現方法により、従来含めることが出来なかった単語と品詞とを含めることが可能となる。 As a result, even if the number of words constituting the accent phrase changes, the feature quantity vector is always set with the size of the sum of the appearance form of the word and the number of parts of speech corresponding thereto. In the prior art, the number of words exceeding the upper limit of the number set to a certain value was not included in the feature amount, but this expression method can include words and parts of speech that could not be included conventionally. It becomes.
図6に、1アクセント句の特徴量ベクトルの構成例を示す。特徴量ベクトルは、出現形ビット列60と、品詞ビット列61と、アクセント句長62と、アクセント核位置63と、句末ポーズ有無64と、で構成される。なお、この順番はこの例に限定されない。出現形ビット列60と品詞ビット列61との順番が前後に逆転しても構わない。図6の数列が、特徴量ベクトルの一例である。
FIG. 6 shows a configuration example of a feature vector of one accent phrase. The feature vector includes an
特徴量変換部30は、特徴量情報抽出部10で抽出された1アクセント句単位の特徴量情報を入力として、単語情報データベースに記憶されたビット列を参照してその特徴量情報に対応させた特徴量ベクトルを生成する。入力された特徴量情報が、アクセント句を構成する出現形情報の場合(ステップS31のyes)、特徴量変換部30は、単語情報データベース20に記憶された出現形のビット列を参照して、入力された出現形情報に対応するビット列のビットを“1”にセットする(ステップS32)。
The feature
図7に、出現形ビット列60の一部を例示する。「出」、「買」、「売」、「借」、「‥‥」の出現形にそれぞれ対応するビットが、句末音調予測装置100が扱う全ての出現形の数分、配列されている。その長さは、例えば単語数が6万個であれば6万個のビットの配列が出現形ビット列60となる。
FIG. 7 illustrates a part of the
アクセント句が「出てくるんですね」の場合、この例では出現形の「出」が出現形ビット列60の先頭に位置しているので、出現形ビット列60の最初のビットが“1”にセットされる。そして、アクセント句の全ての出現形に対応する位置の出現形ビット列60のビットが“1”にセットされるまで、入力された出現形情報に対応するビット列のビットを“1”にセットする処理が繰り返される。アクセント句が「出てくるんですね」の場合、出現形の個数は5個なので、6万個のビット列中のその出現形に対応する何れかの位置のビットが“1”にセットされる。
In the case where the accent phrase is “Is it coming out”, in this example, since the appearance type “out” is located at the head of the appearance
品詞についても、出現形と同様の処理によって、品詞ビット列61の品詞が対応する位置のビットが“1”にセットされる(ステップS34)。品詞ビット列61は、品詞の数だけ配列されて構成される。
For the part of speech, the bit at the position corresponding to the part of speech of the part of
次に、特徴量変換部30は、特徴量情報の読みの数を数えてアクセント句長とする(ステップS36)。この例の場合、8個の読みを数えて一つのアクセント句が終了する(ステップS37のyes)ので、出現形ビット列60と品詞ビット列61の配列の後に、アクセント句長、この例の場合「8」、特徴量情報のアクセント核位置、この例の場合「3」、句末ポーズ有無「有り」のビット情報を付与して一つのアクセント句の特徴量変換の処理を終了する(ステップS38)。そして、次のアクセント句の処理に備えてステップS36で数えた読みの数をリセットする。以上説明したステップS31〜ステップS38の処理は、全てのアクセント句に対する処理が終了するまで繰り返される。図6に示した数列が、アクセント句「出てくるんですね」の特徴量ベクトルの例である。出現形ビット列の“0”ビットの数と、品詞ビット列61の“0”,“1”ビットの数は省略されている。なお、特徴量変換部30が読みを数える例で説明したが、読みは、音素、音節、モーラの何れに代えても良い。
Next, the feature
〔句末音調予測モデル記憶部〕
句末音調予測モデル記憶部40は、句末音調の有無を2値分類する予測モデルである句末音調予測モデルと、分類境界の特徴を現す特徴量のベクトルであるサポートベクトルと、そのサポートベクトルの分類カテゴリと、を記憶する。句末音調予測モデルはデータが少ない状況下で的確な予測を行うため、各カテゴリの分布形状をモデル化せずに、分類カテゴリの分類境界だけをモデル化することで課題の解決を行う。これには、例えば、サポートベクターマシン(Support Vector Machine)をはじめとした分類器を用いることができる。
一般にサポートベクターマシンによる分類では、次式を用いて分類する。
[End of Tone Prediction Model Storage Unit]
The phrase end tone prediction
In general, in the classification using the support vector machine, classification is performed using the following formula.
ここで、skは分類境界の特徴を現す特徴量ベクトルであるサポートベクトルである。ykはskと対を成すサポートベクトルskに対する分類カテゴリである。bは、学習時に、学習用のデータからサポートベクトルskを選ぶときに同時に求まる分類境界面の切片に相当する値である。 Here, s k is a support vector that is a feature vector representing the features of the classification boundary. y k is a classification category for support vector s k forming a s k and a pair. b is the time of learning, is a value corresponding to the sections of the classification boundary surface which is obtained at the same time when choosing a support vector s k from data for learning.
図8に、句末音調予測モデル記憶部40に記憶されるサポートベクトルskと分類カテゴリykの例を示す。分類カテゴリykには+1又は−1が設定される。+1は句末音調があること、つまり、アクセント句末で基本周波数が再上昇することを意味する。−1は句末音調が無いこと、つまり基本周波数が句末で再上昇しないことを意味する。
FIG. 8 shows an example of the support vector s k and the classification category y k stored in the phrase end tone prediction
関数K(・)は、特徴量ベクトルxとサポートベクトルskとを入力とし、その2つのベクトル間の類似性に相当する非負の値を算出する関数である。この関数K(・)には多項式関数やガウス関数が用いられる。この関数K(・)の出力値が高い場合、サポートベクトルskに与えられた分類カテゴリykが高く評価される。式(1)のように、全サポートベクトルskについてykとK(・)との積を計算して足し合わせ、分類先、すなわち、句末音調が有るか否かを決める。 Function K (·) as input and the support vector s k feature vector x, is a function for calculating a non-negative value corresponding to the similarity between the two vectors. For this function K (•), a polynomial function or a Gaussian function is used. In this case the output value of the function K (·) is high, classification category y k given in support vector s k is appreciated. As in Equation (1), the product of y k and K (•) is calculated and added for all support vectors s k to determine whether or not there is a classification destination, that is, a phrase end tone.
〔予測部〕
予測部50は、句末音調予測モデル記憶部40に記憶された句末音調予測モデルとサポートベクトルskと分類カテゴリykとを読み込み、特徴量変換部30で変換された特徴量ベクトルを入力として、句末音調予測モデルを用いてアクセント句末で基本周波数の再上昇が有るか否かの判定を行い、句末音調有りの場合に句末音調ラベルを付与する。
[Predictor]
The
なお、特徴量ベクトルは、上記した特徴量ベクトルの要素の部分的な組み合わせで構成しても良い。例えば、出現形ビット列60と品詞ビット列61との組み合わせのみ、或いは、出現形ビット列60とアクセント句長62とアクセント核位置63と句末ポーズ有無64との組み合わせ等、特徴量ベクトルの構成は図6に示した例に限定されない。
Note that the feature vector may be composed of a partial combination of the elements of the feature vector described above. For example, the configuration of the feature quantity vector such as only the combination of the
出現形ビット列60と品詞ビット列61を一つの特徴量ベクトルの要素としても良い。例えば、出現形「出」と品詞「動詞語幹」、同様に「て」と「活用語尾」、「くる」と「補助動詞」、「ん」と「補助名詞」、「ですね」と「判定詞」のそれぞれの組みに対応する要素のみを“1”とする。
The
図9に、出現形と品詞を一つの組として出現形・品詞ビット列80で構成した特徴量ベクトルを示す。アクセント句長62、アクセント核63、句末ポーズ有無64は、図6に示した実施例1の特徴量ベクトルと同じである。出現形・品詞ビット列80の各ビットは、例えば、「出現形_出:品詞_動詞語幹」,「出現形_買:品詞_動詞語幹」,…,「出現形_ですね:品詞_判定詞」,…としたものである。
FIG. 9 shows a feature vector composed of the appearance form / part of
特徴量ベクトルをこのように扱うことで、出現形と品詞との組み合わせの共起関係を明らかにすることができる。また、特徴量ベクトルの次元数を減らすことができる。 By handling the feature quantity vector in this way, it is possible to clarify the co-occurrence relationship between the appearance form and the part of speech. In addition, the number of dimensions of the feature vector can be reduced.
なお、特徴量ベクトルは、実施例1と同様に特徴量ベクトルの要素の部分的な組み合わせで構成しても良い。例えば、出現形・品詞ビット列80とアクセント句長62との組み合わせのみ、或いは、出現形・品詞ビット列80とアクセント句長62とアクセント核位置63との組み合わせ等、特徴量ベクトルの構成は図9に示した例に限定されない。
Note that the feature quantity vector may be configured by a partial combination of elements of the feature quantity vector as in the first embodiment. For example, the configuration of the feature quantity vector such as only the combination of the appearance form / part of
上記した実施例は、アクセント句の全ての出現形を対象とした特徴量ベクトルを生成する例であるが、全ての出現形を対象にしなくても良い。アクセント句の句末から先頭方向に向かってN個の単語までに制限しても良い。例えば、N=2個の出現形の数に制限対応する特徴量ベクトルとしても良い。 The above-described embodiment is an example of generating a feature vector for all appearance forms of an accent phrase, but it is not necessary to target all appearance forms. It may be limited to N words from the end of the accent phrase toward the beginning. For example, the feature quantity vector may be limited to the number of N = 2 appearance forms.
アクセント句を上記した「出てくるんですね」とした場合、句末から例えば2個の単語に制限したとすると、特徴量ベクトルを実施例2に示した出現形・品詞ビット列80とした場合、「ん」と「補助名詞」の組、と「ですね」と「判定詞」の組に対応する出現形・品詞ビット列80を構成する2個のビットのみが“1”となる。その他の単語の出現形と品詞の組に対応する要素は全て0とする。そして、その他のアクセント句の長さやアクセント核の位置や句末ポーズの有無の情報は、実施例1又は2と同様の方法で変換して設定する。この実施例の場合、特徴量変換部30の処理量が減るので計算機の負荷を軽減することができる。なお、実施例1に示した特徴量ベクトル(図6)に対しても、同様の考えが適用可能である。
If the accent phrase is “I'm coming out” as described above, and if it is limited to two words from the end of the phrase, for example, when the feature vector is the appearance form / part of
アクセント句末からN個の単語をその位置ごとに表現しても良い。つまり、句末からi番目の単語の情報として、出現形と品詞の全組み合わせの要素を備えた部分ベクトルを、N個分連結して特徴量ベクトルとする方法である。N個に満たなかったことを表現するために、各iの位置において、単語が無いことを示す要素を追加する。 N words from the end of the accent phrase may be expressed for each position. In other words, as information of the i-th word from the end of the phrase, N partial vectors having elements of all combinations of appearance forms and parts of speech are connected to form a feature vector. In order to express that the number is less than N, an element indicating that there is no word is added at each i position.
図10にその例を示す。図10は、N=3で句末から3個目の単語が無い場合の例として示している。出現形・品詞ビット列801は、句末から数えて1番目の部分特徴量ベクトルである。出現形・品詞ビット列802は、句末から数えて2番目の部分特徴量ベクトルである。この例では、句末から数えて2個目まで単語が存在する場合を示しているので、句末から数えて3個目の部分特徴量ベクトル(出現形・品詞ビット列)803の末尾に、句末からN=3個目の単語が存在しないことを意味するビット“1”が付与されている。
An example is shown in FIG. FIG. 10 shows an example where N = 3 and there is no third word from the end of the phrase. Appearance form, part of speech bit stream 80 1, a first partial feature quantity vectors counted from phrase end. Appearance form, part of speech bit stream 802 is a second part feature vectors counted from phrase end. In this example, it indicates a case where the word up to two eyes exist counted from phrase end,
このように句末音調の有無を判定する対象のアクセント句を構成する単語数(N)を限定した固定長の特徴量ベクトルを作ることができる。特徴量ベクトルを固定長とすることで、コンピュータをこの発明の句末音調装置100として機能させるためのプログラムを、簡単にすることができる。また、この発明の句末音調装置100をハードウェアで構成した場合のハードウェア構成を簡単にする効果を奏する。 In this way, it is possible to create a fixed-length feature vector that limits the number of words (N) that make up the accent phrase to be determined for the presence or absence of the end-of-phrase tone. By setting the feature vector to a fixed length, a program for causing a computer to function as the end-of-pitch tone apparatus 100 of the present invention can be simplified. Moreover, there is an effect of simplifying the hardware configuration in the case where the phrase end tone device 100 of the present invention is configured by hardware.
なお、上記した実施例は、アクセント句単位で、つまり1個のアクセント句のみに着目して句末音調の有無を予測する例で説明したが、予測対象のアクセント句の前後のアクセント句の情報を用いて、当該予測対象の句末音調の有無を予測するようにしても良い。 The above-described embodiment has been described with respect to an accent phrase unit, that is, an example of predicting the presence or absence of a phrase end tone by focusing on only one accent phrase, but information on accent phrases before and after the accent phrase to be predicted May be used to predict the presence or absence of the end-of-phrase tone to be predicted.
以上説明したこの発明の句末音調予測装置100によれば、テキストとして表現された会話文から会話音声の合成を大量に行なう場合に、正確な句末音調ラベルが付与されたテキストデータを大量に生成することが出来る。句末音調予測装置100で生成したテキストデータは、音声合成装置の入力データとして用いることが可能であり、そのテキストデータは句末音調の有無が正確に付与されているので合成音声も表現豊かな音声とすることが出来る。 According to the phrase end tone prediction apparatus 100 of the present invention described above, a large amount of text data to which an accurate phrase end tone label is assigned is used when a large amount of speech is synthesized from a conversation sentence expressed as text. Can be generated. The text data generated by the end-of-speech tone prediction device 100 can be used as input data for the speech synthesizer, and the text data is accurately given the presence or absence of the end-speech tone, so that the synthesized speech is also rich in expression. It can be voice.
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Note that the processes described in the above method and apparatus are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (1)
扱う全ての単語の出現形、品詞に対応したビット列を記憶する単語情報データベースと、
上記特徴量情報抽出部が出力する特徴量情報を入力として、上記単語情報データベースに記憶されたビット列を参照して特徴量情報に対応させた特徴量ベクトルを生成する特徴量変換部と、
句末音調の有無の分類境界をモデル化して、入力された特徴量ベクトルを句末音調の有無に2値分類する予測モデルである句末音調予測モデルと、
上記特徴量変換部が出力する特徴量ベクトルを入力として、当該特徴量ベクトルを上記句末音調予測モデルで2値分類して句末音調有りの場合に、当該アクセント句に句末音調ラベルを付与する予測部と、
を具備する句末音調予測装置。 Using morpheme information and accent phrase information as input, feature information on the appearance form, part of speech, reading, accent phrase accent type, presence of accent phrase end pose, etc. required by the phrase end tone prediction model A feature information extracting unit to extract;
A word information database for storing bit strings corresponding to appearance forms and parts of speech of all words to be handled;
A feature amount conversion unit that generates the feature amount vector corresponding to the feature amount information with reference to the bit string stored in the word information database, using the feature amount information output by the feature amount information extraction unit;
A model boundary of presence / absence of end-of-sound tone is modeled, and an end-of- speech tone prediction model, which is a prediction model that binarizes the input feature vector into presence / absence of end- of- pitch tone,
When the feature value vector output from the feature value conversion unit is input, the feature value vector is binary-classified by the above-mentioned phrase end tone prediction model, and when there is a phrase end tone, a phrase end tone label is assigned to the accent phrase A prediction unit to
An end-of-phrase tone prediction apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269228A JP5687611B2 (en) | 2011-12-08 | 2011-12-08 | Phrase tone prediction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011269228A JP5687611B2 (en) | 2011-12-08 | 2011-12-08 | Phrase tone prediction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013120351A JP2013120351A (en) | 2013-06-17 |
JP5687611B2 true JP5687611B2 (en) | 2015-03-18 |
Family
ID=48773000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011269228A Expired - Fee Related JP5687611B2 (en) | 2011-12-08 | 2011-12-08 | Phrase tone prediction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5687611B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3625426B2 (en) * | 2000-12-22 | 2005-03-02 | シャープ株式会社 | Speech synthesizer |
US20070055526A1 (en) * | 2005-08-25 | 2007-03-08 | International Business Machines Corporation | Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis |
WO2011004502A1 (en) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | Speech editing/synthesizing device and speech editing/synthesizing method |
-
2011
- 2011-12-08 JP JP2011269228A patent/JP5687611B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013120351A (en) | 2013-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017067206A1 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
CA2614840C (en) | System, program, and control method for speech synthesis | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
JP6370749B2 (en) | Utterance intention model learning device, utterance intention extraction device, utterance intention model learning method, utterance intention extraction method, program | |
JP2007108749A (en) | Method and device for training in statistical model of prosody, method and device for analyzing prosody, and method and system for synthesizing text speech | |
JP6552999B2 (en) | Text correction device, text correction method, and program | |
US20130080155A1 (en) | Apparatus and method for creating dictionary for speech synthesis | |
US7328157B1 (en) | Domain adaptation for TTS systems | |
CN1956057B (en) | Voice time premeauring device and method based on decision tree | |
JP7110055B2 (en) | Speech synthesis system and speech synthesizer | |
Tong et al. | Multi-Task Learning for Mispronunciation Detection on Singapore Children's Mandarin Speech. | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
JPWO2016103652A1 (en) | Audio processing apparatus, audio processing method, and program | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP5980101B2 (en) | Acoustic model learning text creation apparatus, method and program thereof | |
JP5687611B2 (en) | Phrase tone prediction device | |
Wang et al. | CE-Tacotron2: End-to-end emotional speech synthesis | |
JP5294700B2 (en) | Speech recognition and synthesis system, program and method | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
JP5722295B2 (en) | Acoustic model generation method, speech synthesis method, apparatus and program thereof | |
JP4787769B2 (en) | F0 value time series generating apparatus, method thereof, program thereof, and recording medium thereof | |
JP6151162B2 (en) | Fundamental frequency prediction apparatus, fundamental frequency prediction method, program | |
JP6002598B2 (en) | Emphasized position prediction apparatus, method thereof, and program | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5687611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |