JP2009204795A - Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, and storage medium - Google Patents
Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, and storage medium Download PDFInfo
- Publication number
- JP2009204795A JP2009204795A JP2008045929A JP2008045929A JP2009204795A JP 2009204795 A JP2009204795 A JP 2009204795A JP 2008045929 A JP2008045929 A JP 2008045929A JP 2008045929 A JP2008045929 A JP 2008045929A JP 2009204795 A JP2009204795 A JP 2009204795A
- Authority
- JP
- Japan
- Prior art keywords
- accent
- fundamental frequency
- accent phrase
- phrase
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、テキスト情報から音声合成を行う際に、合成対象のテキスト情報からアクセント句ごとの基本周波数を推定する基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体に関する。 The present invention relates to a fundamental frequency estimation device, a fundamental frequency estimation method, a fundamental frequency estimation program, and a storage medium that estimate a fundamental frequency for each accent phrase from text information to be synthesized when speech synthesis is performed from text information.
従来の音声合成用の基本周波数推定方法は、非特許文献1や非特許文献2のように、アクセント句を単位としてアクセント句の基本周波数の平均値や最高値や始点の高さや終点の高さなどの基本周波数の要約値を、当該および前後のアクセント句のアクセント型、長さ、位置や品詞の情報から推定し、それを基準として詳細な基本周波数を推定する。
非特許文献1及び2に記載されている方法によって、新聞記事等を対象とした淡々とした読み上げ音声の合成をすることができる。ところが、童話の語り聞かせや商品宣伝や会話のような人に語りかける対話音声では、従来技術で扱った新聞読み上げの基本周波数とは大きく異なる。そのため、対話音声における基本周波数の推定には、従来技術で推定に用いられた情報だけでは不十分であった。例えば、副詞と形容詞が連なる揚合、従来法では品詞を与えるのみであるので、形容詞に属するすべての単語連鎖において一様な基本周波数制御であったが、人に語りかけるような対話音声では、形容詞の品詞の文法機能とは異なるカテゴリ、例えば、意味のポジティブかネガティブか及びその意味の強さに応じて基本周波数の高さが大きく異なり、従来の方法では違いを正しく再現することが偶然を除いて不可能である。本発明は、上述の問題に鑑みて発明されたもので、より対話音声に近い基本周波数の推定が可能となる装置、方法、プログラム及びその記憶媒体を提供することを目的とする。
By the methods described in
本発明の基本周波数推定装置は、形態素解析辞書、カテゴリ名辞書、テキスト解析部、情報整形部、基本周波数要約値推定部、詳細基本周波数推定部から構成される。形態素解析辞書は、単語に対する品詞、読み、アクセント型を記録している。カテゴリ名辞書は、単語に対する品詞とは異なるカテゴリ名を記録している。例えば、カテゴリ名として、事前の分析によって、基本周波数の要約値が大きく異なることがわかっている単語に対する品詞の下位分類のカテゴリ名(例えば、単語に対する意味とその強度によって構成されたカテゴリ名)がある。テキスト解析部は、入力された文を解析し、アクセント句の先頭と末尾の単語の品詞、アクセント句のアクセント型、アクセント句の読み、アクセント句の長さ、アクセント句の主たる単語での品詞とは異なるカテゴリ名、アクセント句間の音調結合型、及びアクセント句の相対的な高さの情報を言語情報として出力する。ただし、アクセント句の主たる単語での品詞とは異なるカテゴリ名、または、アクセント句の相対的な高さの情報のうち、何れか一方を言語情報に含めるだけでもよい。なお、アクセント句の主たる単語での品詞とは異なるカテゴリ名を言語情報に含まない場合には、カテゴリ名辞書を設けなくともよい。情報整形部は、テキスト解析部から出力された言語情報を、あらかじめ定めた形式に整形する。基本周波数要約値推定部は、回帰モデルを用いて、整形された言語情報から、アクセント句ごとの基本周波数要約値を求める。なお、回帰モデルとは、前記の情報整形部で取り出された情報を入力として基本周波数の要約値を推定するモデルである。詳細基本周波数推定部は、前記言語情報から求まる基本周波数の時間的変化を、前記基本周波数要約値に適応させ、基本周波数を出力する。 The fundamental frequency estimation apparatus according to the present invention includes a morphological analysis dictionary, a category name dictionary, a text analysis unit, an information shaping unit, a fundamental frequency summary value estimation unit, and a detailed fundamental frequency estimation unit. The morphological analysis dictionary records parts of speech, readings, and accent types for words. The category name dictionary records a category name different from the part of speech for the word. For example, as a category name, a category name of a subcategory of part of speech for a word whose fundamental frequency summary value is known to be greatly different by a prior analysis (for example, a category name constituted by the meaning and the strength of the word) is there. The text analysis unit analyzes the input sentence and determines the part of speech of the beginning and end of the accent phrase, the accent type of the accent phrase, the reading of the accent phrase, the length of the accent phrase, the part of speech in the main word of the accent phrase, Outputs information on the different category names, the tone combination type between accent phrases, and the relative height of accent phrases as language information. However, any one of the category name different from the part of speech in the main word of the accent phrase or the relative height information of the accent phrase may be included in the language information. If the language information does not include a category name different from the part of speech of the main word of the accent phrase, the category name dictionary may not be provided. The information shaping unit shapes the language information output from the text analysis unit into a predetermined format. The fundamental frequency summary value estimation unit obtains a fundamental frequency summary value for each accent phrase from the formatted language information using the regression model. The regression model is a model that estimates the summary value of the fundamental frequency by using the information extracted by the information shaping unit as an input. The detailed fundamental frequency estimation unit adapts the temporal change of the fundamental frequency obtained from the language information to the fundamental frequency summary value and outputs the fundamental frequency.
テキスト解析部での処理を詳述する。テキスト解析部は、形態素解析手段、アクセント句決定手段、アクセント句読み推定手段、アクセント句アクセント型推定手段、アクセント句間音調結合推定手段、相対的高さ算出手段、カテゴリ名付与手段を有する。形態素解析手段は、入力された文を単語ごとに分解して単語列を生成し、形態素解析辞書を参照して各単語に品詞、読み、単語単体でのアクセント型を求める。アクセント句決定手段は、単語列を、アクセントの単位となる1つ以上の単語からなるアクセント句に単語列をまとめあげる。アクセント句読み推定手段は、アクセント句ごとの読みを推定し、アクセント句の長さを推定する。アクセント句アクセント型推定手段は、アクセント句ごとのアクセント型を推定する。アクセント句間音調結合型推定手段は、隣り合うアクセント句間の音調結合型を推定する。相対的高さ算出手段は、音調結合型の情報を用いて、各アクセント句の相対的な高さを算出する。カテゴリ名付与手段は、アクセント句ごとに、アクセント句内の主たる単語に、その単語の表層だけまたは単語の表層と品詞との組みをキーとして前記カテゴリ名辞書を検索して得られるカテゴリ名を付与する。ただし、言語情報として、単語に対する品詞とは異なるカテゴリ名を用いないときは、カテゴリ名付与手段及びカテゴリ名辞書は不要である。また言語情報としてアクセント句の相対的な高さの情報を用いないときは、相対的高さ算出手段は不要である。 Processing in the text analysis unit will be described in detail. The text analysis unit includes morphological analysis means, accent phrase determination means, accent phrase reading estimation means, accent phrase accent type estimation means, accent phrase intertone combination estimation means, relative height calculation means, and category name assignment means. The morpheme analysis means generates a word string by decomposing the inputted sentence for each word, refers to the morpheme analysis dictionary, and obtains the part of speech, the reading, and the accent type for the word alone. The accent phrase determining means collects the word strings into accent phrases composed of one or more words serving as accent units. The accent phrase reading estimation means estimates the reading for each accent phrase and estimates the length of the accent phrase. The accent phrase accent type estimation means estimates an accent type for each accent phrase. The accent phrase-to-accent phrase type estimation means estimates the tone-joint type between adjacent accent phrases. The relative height calculation means calculates the relative height of each accent phrase using the tone combination type information. The category name assigning means assigns, for each accent phrase, a category name obtained by searching the category name dictionary to the main word in the accent phrase using only the surface layer of the word or a combination of the word surface layer and the part of speech as a key. To do. However, when a category name different from the part of speech for the word is not used as language information, the category name assigning means and the category name dictionary are unnecessary. When the relative height information of the accent phrase is not used as the language information, the relative height calculating means is not necessary.
単語に対する品詞とは異なるカテゴリ名を導入して推定を行なうので、従来に比べて、アクセント句ごとの基本周波数のより正確な要約値の推定が可能となる。また、位置の情報の代わりに相対的な高さの情報を用いるので、再現される基本周波数の要約値の変動と実際の基本周波数の要約値の変動との相関が高くなる。その結果、従来技術に比べて、より対話音声に近い基本周波数の推定が可能となる。 Since the estimation is performed by introducing a category name different from the part of speech for the word, it is possible to estimate the summary value of the fundamental frequency for each accent phrase more accurately than in the past. Further, since relative height information is used instead of position information, the correlation between the reproduction of the fundamental frequency summary value and the actual fundamental frequency summary value fluctuation increases. As a result, it is possible to estimate the fundamental frequency closer to the conversational voice as compared with the prior art.
ここで、本発明の実施例について述べる。 Now, an embodiment of the present invention will be described.
図1は、実施例1の基本周波数推定装置の構成例を示す図である。図2は、実施例1の基本周波数推定方法の処理の流れの例を示す図である。基本周波数推定装置10は、形態素解析辞書110、カテゴリ名辞書120、テキスト解析部100、情報整形部200、基本周波数要約値推定部400及び詳細基本周波数推定部500から構成される。なお、形態素解析辞書110やカテゴリ名辞書120を基本周波数推定装置10の外部に設けてもよい。
FIG. 1 is a diagram illustrating a configuration example of the fundamental frequency estimation apparatus according to the first embodiment. FIG. 2 is a diagram illustrating an example of a processing flow of the fundamental frequency estimation method according to the first embodiment. The fundamental
形態素解析辞書110には、各単語に対する、単語の品詞、読み、アクセント型が記憶されている。図3は、実施例1のカテゴリ名辞書の項目例を示す図である。カテゴリ名辞書120には、検索のキーとなる単語の表層、及び単語に対する品詞とは異なるカテゴリ名(例えば、単語の意味によって構成されたカテゴリ名)が記憶されている。なお、単語の表層とは、単語の字面を意味する。検索のキーとして単語の表層および品詞が記憶されていてもよい。
The
テキスト解析部100は、合成対象文を単語列に分割し、形態素解析辞書110を参照して、全単語に品詞情報、読み、アクセント型の情報を付与する。その単語列からアクセント句をまとめあげ、各アクセント句の読み、アクセント型を決定する。アクセント句間の音調結合型を決定し、各アクセント句の相対的な高さを算出する。さらに、カテゴリ名辞書120を用いて、アクセント句内の主たる単語に、その単語の表層、または、単語の表層および品詞をキーとして、カテゴリ名辞書を検索して得られるカテゴリ名を付与する(S100)。
The
図4は、実施例1のテキスト解析部の構成例を示す図である。図5は、実施例1のテキスト解析ステップの処理の流れの例を示す図である。テキスト解析部100は、形態素解析手段101、アクセント句決定手段102、アクセント句読み推定手段103、アクセント句アクセント型推定手段104、アクセント句音調結合推定手段105、相対的高さ算出手段106及びカテゴリ名付与手段107から構成される。
FIG. 4 is a diagram illustrating a configuration example of the text analysis unit according to the first embodiment. FIG. 5 is a diagram illustrating an example of the processing flow of the text analysis step according to the first embodiment. The
形態素解析手段101は、合成対象文に対して、形態素解析を適用し、文を構成する単語に分解し、形態素解析辞書110を参照して単語ごとに品詞、読み及びアクセント型を付与する(S101)。なお、同時に単語ごとの活用型と活用形を付与し、装置を構成する後の部において利用してもよい。アクセント句決定手段102は、形態素解析手段101の出力結果である単語列を用いてアクセント句をまとめあげる。さらに、アクセント句が決定すると、アクセント句の先頭の単語の品詞及び末尾の単語の品詞が決定する(S102)。アクセント句読み推定手段103は、形態素解析手段101の出力結果である単語の読みとアクセント句決定手段102の出力結果であるアクセント句の情報からアクセント句の読み及びアクセント句の長さを決定する(S103)。なお、決定に際し、単語のアクセント型の情報を用いてもよい。アクセント句アクセント型推定手段104は、形態素解析手段101の出力結果である単語のアクセント型とアクセント句決定手段102の出力結果であるアクセント句の情報からアクセント句のアクセント型を決定する(S104)。なお、決定に際し、単語の読みの情報を用いてもよい。アクセント句音調結合推定手段105は、先行するアクセント句との音調結合型を決定する(S105)。なお、後続のアクセント句との音調結合型を単独で決定しても、または、先行するアクセント句との音調結合型と同時に決定してもよい。その場合、後続のアクセント句との音調結合型を単独、または、先行するアクセント句との音調結合型と同時に用いて、基本周波数要約値推定部400で要約値を推定してもよい。相対的高さ算出手段106は、先行するアクセント句との音調結合型の情報を用いて、アクセント句の相対的な高さを算出する(S106)。相対的な高さの情報は、音調結合型のうち弱結合を上昇、強結合を下降とみなして、冒頭のアクセント句の高さを0として、次への結合型が弱結合であれば、1をプラスし、強結合であれば、−1をプラスすることで、アクセント句の相対的な高さを表現する。高さの計算は文頭、ポーズ、文末のいずれか2つによって挟まれたアクセント句列の範囲で行う。なお、文頭から開始して次の弱結合が始まるまでを1つの範囲として、同様の方法による範囲設定を文末まで繰り返し、相対的な高さの計算を行なうことも可能である。カテゴリ名付与手段107は、アクセント句ごとにアクセント句の主たる単語の表層をキーとして、カテゴリ名辞書120を検索して、各単語の意味によって構成されたカテゴリ名を付与する(S107)。カテゴリ名には、形容詞の「楽しい」「明るい」など、形容詞と形容動詞由来の名詞の「希少」などにはポジティブさを表現するカテゴリ名としてのPositiveの「P」、形容詞の「悲しい」「つらい」など、形容詞と形容動詞由来の名詞の「悲惨」などにはネガティブさを表現するカテゴリ名としてのNegativeの「N」、どちらにも該当しないことを示すカテゴリ名としての「*」という2つ以上のカテゴリ名を与える。なお、カテゴリ名辞書には、カテゴリ名として、単語に対する品詞とは異なるカテゴリ名、単語に対する品詞の下位分類のカテゴリ名、または、単語に対する意味とその強度によって構成されたカテゴリ名を記録してもよい。よって、カテゴリ名辞書には、実施例の「P」、「N」、「*」という3種類のクラスを、さらに細分類したクラスを設け、それぞれのクラスに属する単語を対応付けておくことも可能である。
The
情報整形部200は、回帰モデル300の説明変数に与える情報をあらかじめ定めた形式に整形する(S200)。具体的には、情報整形部200は、テキスト解析部100の結果から当該アクセント句、及び先行の1つ以上のアクセント句と後続の1つ以上のアクセント句からそれぞれのアクセント句の先頭と末尾の単語の品詞情報とアクセント句のアクセント型情報、アクセント句の長さの情報、及び主たる単語での品詞とは異なるカデゴリ名を取り出す。また、先行のアクセント句から当該アクセント句への音調結合型、及び音調結合型から算出した当該のアクセント句の相対的な高さの情報を取り出す。例えば、当該アクセント句、1つ先行のアクセント句、及び1つ後続のアクセント句の情報を取り出す場合には、
(先行のアクセント句の先頭の単語の品詞情報、
先行のアクセント句の末尾の単語の品詞情報、
先行のアクセント句のアクセント型情報、
先行のアクセント句の長さの情報、
先行のアクセント句の主たる単語での品詞とは異なるカテゴリ名
当該のアクセント句の先頭の単語の品詞情報、
当該のアクセント句の末尾の単語の品詞情報、
当該のアクセント句のアクセント型情報、
当該のアクセント句の長さの情報、
当該のアクセント句の主たる単語での品詞とは異なるカテゴリ名、
後続のアクセント句の先頭の単語の品詞情報、
後続のアクセント句の末尾の単語の品詞情報、
後続のアクセント句のアクセント型情報、
後続のアクセント句の長さの情報、
後続のアクセント句の主たる単語での品詞とは異なるカテゴリ名、
先行のアクセント句から当該アクセント句への音調結合型、
音調結合型から算出した当該のアクセント句の相対的な高さの情報)
を整形結果として出力し、基本周波数要約値推定部400に情報を渡す。なお、アクセント句のアクセント型とは、アクセント核の位置を示す整数値であり、アクセント句の長さも整数値である。なお、アクセント核の位置や長さの測り方は常に同じ単位が用いられるのであれば、モーラを単位としても良いし、音素や音節を単位としても良い。図6は、実施例1の情報整形部200から出力される整形された言語情報の例を示す図である。なお、各アクセント句の情報は全て用いることも、その一部を用いることも可能である。
The
(Part of speech information for the first word of the preceding accent phrase,
Part of speech information at the end of the preceding accent phrase,
Accent type information of the preceding accent phrase,
Information on the length of the preceding accent phrase,
A category name different from the part of speech of the main word of the preceding accent phrase, the part of speech information of the first word of the accent phrase,
Part of speech information at the end of the accent phrase,
Accent type information of the corresponding accent phrase,
Information on the length of the accent phrase,
A category name different from the part of speech in the main word of the accent phrase,
Part-of-speech information for the first word in the following accent phrase,
Part-of-speech information for the last word of the following accent phrase,
Accent type information for subsequent accent phrases,
Information about the length of the following accent phrase,
A category name that is different from the part of speech in the main word of the following accent phrase,
Tone coupling type from the preceding accent phrase to the accent phrase,
Information on the relative height of the accent phrase calculated from the tone combination type)
Is output as a shaping result, and information is passed to the fundamental frequency summary
基本周波数要約値推定部400は、整形された言語情報を回帰モデル300の説明変数に設定し、回帰モデル300の推定した従属変数の値をアクセント句ごとの基本周波数の要約値として、詳細基本周波数推定部500に渡す(S400)。回帰モデル300は、カテゴリカルな情報を説明変数とし、実数値を従属変数として推定を行なうことが可能な回帰木(Regression Tree)、数量化I類などの任意のモデルである。回帰モデル300の係数や構造は、情報整形部200で整形された言語情報と当該の各アクセント句での基本周波数の要約値とが対となって構成されている学習用のデータを用いて計算する。なお、要約値とは、平均値、中央値、ダイナミックレンジ、最大値などである。回帰モデル300は、平均値、中央値、ダイナミックレンジの内、1つ以上を要約値として求める。基本周波数要約値推定部400では、要約値ごとに、それぞれ専用の回帰モデル300を構築して個別に推定を行なう。情報整形部200と基本周波数要約値推定部400の処理は、アクセント句ごとに、全てのアクセント句について行われる(S210)。
The fundamental frequency summary
詳細基本周波数推定部500は、当該のアクセント句のアクセント型から基本周波数の上昇が終わる音節位置、下降が始まる音節位置を計算し、それらの間を線形の線分を繋いだ線分の列を基本周波数の時間的変化とする(S500)。なお、これはもっとも簡単な例であり、その他の情報や記載方法(非線形の線分を繋いだ線分の列を基本周波数の時間的変化とするなど)を用いて基本周波数の時間的変化を推定したものであってもよい。基本周波数の時間的変化の推定後に、この時間的変化の要約値が基本周波数要約値推定部400から出力される要約値と適合するように時間的変化を上下動、拡大伸縮させる。
The detailed fundamental
図7は、実施例1の詳細基本周波数推定部において、平均値に基づいて詳細な基本周波数の推定を行っている例である。要約値がアクセント句での基本周波数の平均値または中央直である場合には、時間的変化の平均値または中央値と基本周波要約推定部400の推定した平均値または中央値が一致するように時間的変化を上下に平行移動させる。平行移動後の時間的変化の値を詳細な基本周波数とする。また、図8は、実施例1の詳細基本周波数推定部において、ダイナミックレンジに基づいて詳細な基本周波数の推定を行っている例である。要約値がアクセント句での基本周波数のダイナミックレンジである場合には、時間的変化の最小値及び最大値と基本周波要約推定部400の推定した最小値及び最大値が一致するように時間的変化を拡大縮小させる。拡大縮小後の時間的変化の値を詳細な基本周波数とする。
FIG. 7 is an example in which the detailed fundamental frequency estimation unit according to the first embodiment performs detailed fundamental frequency estimation based on the average value. When the summary value is the average value or median of the fundamental frequency in the accent phrase, the average value or median value of the temporal change and the average value or median value estimated by the fundamental frequency
上述のように実施例1の基本周波数推定装置は、単語に対する品詞とは異なるカテゴリ名を導入していること、及び相対的な高さの情報を用いることによって、より対話音声に近い基本周波数の推定が可能である。 As described above, the fundamental frequency estimation apparatus according to the first embodiment introduces a category name different from the part of speech for a word, and uses a relative height information, so that the fundamental frequency closer to the dialogue voice can be obtained. Estimation is possible.
[変形例]
実施例1では、テキスト解析部100は、形態素解析手段101、アクセント句決定手段102、アクセント句読み推定手段103、アクセント句アクセント型推定手段104、アクセント句音調結合推定手段105、相対的高さ算出手段106及びカテゴリ名付与手段107から構成されるが、相対的高さ算出手段106は設けなくてもよい。以下これについて上記実施例1と異なる部分のみ説明する。
[Modification]
In the first embodiment, the
テキスト解析部から出力される言語情報、及び情報整形部200で整形された情報に相対的な高さの情報は含まれない。基本周波数要約値推定部400は、相対的な高さの情報を含まない整形された言語情報を回帰モデル300の説明変数に設定し、回帰モデル300の推定した従属変数の値をアクセント句ごとの基本周波数の要約値として、詳細基本周波数推定部500に渡す(S400)。
Relative height information is not included in the language information output from the text analysis unit and the information shaped by the
上述のように変形例の基本周波数推定装置も、単語に対する品詞とは異なるカテゴリ名を導入していることによって、より対話音声に近い基本周波数の推定が可能である。 As described above, the fundamental frequency estimation apparatus according to the modified example can also estimate the fundamental frequency closer to the dialogue voice by introducing a category name different from the part of speech for the word.
図9は、実施例2のカテゴリ名付与手段とカテゴリ名辞書を設けない場合のテキスト解析部の構成例を示す図である。図10は、実施例2のカテゴリ名付与手段とカテゴリ名辞書を設けない場合のテキスト解析ステップの処理の流れの例を示す図である。以下これについて上記実施例1と異なる部分のみ説明する。なお、実施例2の基本周波数推定装置の構成例を示す図として図1、実施例2の基本周波数推定方法の処理の流れの例を示す図として図2を用いて説明する。 FIG. 9 is a diagram illustrating a configuration example of the text analysis unit when the category name assigning unit and the category name dictionary according to the second embodiment are not provided. FIG. 10 is a diagram illustrating an example of the flow of processing in the text analysis step when the category name assigning unit and the category name dictionary according to the second embodiment are not provided. Hereinafter, only the difference from the first embodiment will be described. A configuration example of the fundamental frequency estimation apparatus according to the second embodiment will be described with reference to FIG. 1, and a diagram illustrating an example of a process flow of the fundamental frequency estimation method according to the second embodiment with reference to FIG. 2.
基本周波数推定装置10は、形態素解析辞書110、テキスト解析部100’、情報整形部200、基本周波数要約値推定部400及び詳細基本周波数推定部500から構成される。実施例2では、図1のカテゴリ名辞書120は設けない。テキスト解析部100’は、合成対象文を単語列に分割し、形態素解析辞書110を参照して、全単語に品詞情報、読み、アクセント型の情報を付与する。その単語列からアクセント句をまとめあげ、各アクセント句の読み、アクセント型を決定する。アクセント句間の音調結合型を決定し、各アクセント句の相対的な高さを算出する(S100’)。テキスト解析部100’は、形態素解析手段101、アクセント句決定手段102、アクセント句読み推定手段103、アクセント句アクセント型推定手段104、アクセント句音調結合推定手段105、相対的高さ算出手段106から構成される。カテゴリ名付与手段107は設けない。テキスト解析部から出力される言語情報や情報整形部200で整形された情報に主たる単語の品詞以外のカテゴリ名の情報は含まれない。基本周波数要約値推定部400は、主たる単語の品詞以外のカテゴリ名の情報を含まない整形された言語情報を回帰モデル300の説明変数に設定し、回帰モデル300の推定した従属変数の値をアクセント句ごとの基本周波数の要約値として、詳細基本周波数推定部500に渡す(S400)。
The fundamental
上述のように実施例2の基本周波数推定装置でも、相対的な高さの情報を用いることによって、より対話音声に近い基本周波数の推定が可能である。 As described above, the fundamental frequency estimation apparatus according to the second embodiment can also estimate the fundamental frequency closer to the dialog voice by using the information on the relative height.
10 基本周波数推定装置
100 テキスト解析部 S100 テキスト解析ステップ
110 形態素解析辞書
120 カテゴリ名辞書
200 情報整形部 S200 情報整形ステップ
300 回帰モデル
400 基本周波数要約値推定部 S400 基本周波数要約推定ステップ
500 詳細基本周波数推定部 S500 詳細基本周波数推定ステップ
101 形態素解析手段 S101 形態素解析サブステップ
102 アクセント句決定手段 S102 アクセント句決定サブステップ
103 アクセント句読み推定手段
S103 アクセント句読み推定サブステップ
104 アクセント句アクセント型推定手段
S104 アクセント句アクセント型推定サブステップ
105 アクセント句間音調結合型推定手段
S105 アクセント句間音調結合型推定サブステップ
106 相対的高さ算出手段
S106 相対的高さ算出サブステップ
107 カテゴリ名付与手段
S107 カテゴリ名付与サブステップ
DESCRIPTION OF
Claims (12)
単語に対する品詞とは異なるカテゴリ名を記録したカテゴリ名辞書と、
入力された文を解析し、アクセント句の先頭と末尾の単語の品詞、アクセント句のアクセント型、アクセント句の読み、アクセント句の長さ、アクセント句の主たる単語での品詞とは異なるカテゴリ名、アクセント句間の音調結合型の情報を、言語情報として出力するテキスト解析部と、
前記言語情報を、あらかじめ定めた形式に整形する情報整形部と、
回帰モデルを用いて、整形された言語情報から、アクセント句ごとの基本周波数要約値を求める基本周波数要約値推定部と、
前記言語情報から求まる基本周波数の時間的変化を、前記基本周波数要約値に適応させ、基本周波数を出力する詳細基本周波数推定部と
を備え、
前記テキスト解析部は、
入力された文を単語ごとに分解して単語列を生成し、前記形態素解析辞書を参照して各単語に品詞、読み、単語単体でのアクセント型を求める形態素解析手段と、
前記単語列を、アクセントの単位となる1つ以上の単語からなるアクセント句に単語列をまとめあげるアクセント句決定手段と、
前記アクセント句ごとの読みを推定し、アクセント句の長さを推定するアクセント句読み推定手段と、
前記アクセント句ごとのアクセント型を推定するアクセント句アクセント型推定手段と、
隣り合うアクセント句間の音調結合型を推定するアクセント句間音調結合型推定手段と、
前記アクセント句ごとに、アクセント句内の主たる単語に、その単語の表層だけまたは単語の表層と品詞との組合せをキーとして前記カテゴリ名辞書を検索して得られるカテゴリ名を付与するカテゴリ名付与手段と、
を具備する
基本周波数推定装置。 A morphological analysis dictionary that records parts of speech, readings, and accent types for words;
A category name dictionary that records a category name different from the part of speech for the word,
Parses the input sentence, and the part of speech of the beginning and end of the accent phrase, the accent type of the accent phrase, the reading of the accent phrase, the length of the accent phrase, the category name different from the part of speech in the main word of the accent phrase, A text analysis unit that outputs tone-linked information between accent phrases as linguistic information;
An information shaping unit for shaping the language information into a predetermined format;
A fundamental frequency summary value estimator that obtains a fundamental frequency summary value for each accent phrase from the formatted language information using a regression model;
A detailed fundamental frequency estimating unit that adapts a temporal change of the fundamental frequency obtained from the language information to the fundamental frequency summary value and outputs the fundamental frequency; and
The text analysis unit
Morphological analysis means for decomposing an inputted sentence for each word to generate a word string, referring to the morphological analysis dictionary, each part of speech, reading, and obtaining an accent type of the word alone;
An accent phrase determining means for collecting the word string into an accent phrase composed of one or more words serving as an accent unit;
An accent phrase reading estimation means for estimating the reading of each accent phrase and estimating the length of the accent phrase;
An accent phrase accent type estimating means for estimating an accent type for each accent phrase;
An interaccent phrase concatenation type estimation means for estimating a tone combination type between adjacent accent phrases;
For each accent phrase, category name giving means for giving a category name obtained by searching the category name dictionary to the main word in the accent phrase using only the surface layer of the word or a combination of the word surface layer and the part of speech as a key When,
A fundamental frequency estimation apparatus comprising:
前記言語情報には、アクセント句の相対的な高さの情報を含み、
前記テキスト解析部は、
前記音調結合型の情報を用いて、各アクセント句の相対的な高さを算出する相対的高さ算出手段も、
具備する
ことを特徴とする基本周波数推定装置。 The fundamental frequency estimation device according to claim 1,
The language information includes information on the relative height of accent phrases,
The text analysis unit
Relative height calculation means for calculating the relative height of each accent phrase using the tone combination type information,
A fundamental frequency estimation apparatus comprising:
入力された文を解析し、アクセント句の先頭と末尾の単語の品詞、アクセント句のアクセント型、アクセント句の読み、アクセント句の長さ、アクセント句間の音調結合型及びアクセント句の相対的な高さの情報を、言語情報として出力するテキスト解析部と、
前記言語情報を、あらかじめ定めた形式に整形する情報整形部と、
回帰モデルを用いて、整形された言語情報から、アクセント句ごとの基本周波数要約値を求める基本周波数要約値推定部と、
前記言語情報から求まる基本周波数の時間的変化を、前記基本周波数要約値に適応させ、基本周波数を出力する詳細基本周波数推定部と
を備え、
前記テキスト解析部は、
入力された文を単語ごとに分解して単語列を生成し、前記形態素解析辞書を参照して各単語に品詞、読み、単語単体でのアクセント型を求める形態素解析手段と、
前記単語列を、アクセントの単位となる1つ以上の単語からなるアクセント句に単語列をまとめあげるアクセント句決定手段と、
前記アクセント句ごとの読みを推定し、アクセント句の長さを推定するアクセント句読み推定手段と、
前記アクセント句ごとのアクセント型を推定するアクセント句アクセント型推定手段と、
隣り合うアクセント句間の音調結合型を推定するアクセント句間音調結合型推定手段と、
前記音調結合型の情報を用いて、各アクセント句の相対的な高さを算出する相対的高さ算出手段と、
を具備する
基本周波数推定装置。 A morphological analysis dictionary that records parts of speech, readings, and accent types for words;
Parses the input sentence, and the part of speech of the beginning and end of the accent phrase, accent phrase accent type, accent phrase reading, accent phrase length, tone combination between accent phrases, and accent phrase relative A text analysis unit that outputs height information as language information;
An information shaping unit for shaping the language information into a predetermined format;
A fundamental frequency summary value estimator that obtains a fundamental frequency summary value for each accent phrase from the formatted language information using a regression model;
A detailed fundamental frequency estimating unit that adapts a temporal change of the fundamental frequency obtained from the language information to the fundamental frequency summary value and outputs the fundamental frequency; and
The text analysis unit
Morphological analysis means for decomposing an inputted sentence for each word to generate a word string, referring to the morphological analysis dictionary, each part of speech, reading, and obtaining an accent type of the word alone;
An accent phrase determining means for collecting the word string into an accent phrase composed of one or more words serving as an accent unit;
An accent phrase reading estimation means for estimating the reading of each accent phrase and estimating the length of the accent phrase;
An accent phrase accent type estimating means for estimating an accent type for each accent phrase;
An interaccent phrase concatenation type estimation means for estimating a tone combination type between adjacent accent phrases;
A relative height calculating means for calculating a relative height of each accent phrase using the tone-binding type information;
A fundamental frequency estimation apparatus comprising:
前記カテゴリ名辞書は、
単語に対する品詞の下位分類のカテゴリ名を記録していること
を特徴とする基本周波数推定装置。 The fundamental frequency estimation device according to claim 1 or 2,
The category name dictionary is
A fundamental frequency estimation device that records category names of subcategories of parts of speech for words.
前記カテゴリ名辞書は、
単語に対する意味とその強度によって構成されたカテゴリ名を記録していること
を特徴とする基本周波数推定装置。 The fundamental frequency estimation device according to claim 1 or 2,
The category name dictionary is
A fundamental frequency estimation device, wherein category names composed of meanings and intensities of words are recorded.
単語に対する品詞とは異なるカテゴリ名を記録したカテゴリ名辞書と、
を用いて、基本周波数を推定する基本周波数推定方法であって、
テキスト解析部が、入力された文を解析し、アクセント句の先頭と末尾の単語の品詞、アクセント句のアクセント型、アクセント句の読み、アクセント句の長さ、アクセント句の主たる単語での品詞とは異なるカテゴリ名、アクセント句間の音調結合型の情報を、言語情報として出力するテキスト解析ステップと、
情報整形部が、前記言語情報を、あらかじめ定めた形式に整形する情報整形ステップと、
基本周波数要約値推定部が、回帰モデルを用いて、整形された言語情報から、アクセント句ごとの基本周波数要約値を求める基本周波数要約値推定ステップと、
詳細基本周波数推定部が、前記言語情報から求まる基本周波数の時間的変化を、前記基本周波数要約値に適応させ、基本周波数を出力する詳細基本周波数推定ステップと
を有し、
前記テキスト解析ステップは、
入力された文を単語ごとに分解して単語列を生成し、前記形態素解析辞書を参照して各単語に品詞、読み、単語単体でのアクセント型を求める形態素解析サブステップと、
前記単語列を、アクセントの単位となる1つ以上の単語からなるアクセント句に単語列をまとめあげるアクセント句決定サブステップと、
前記アクセント句ごとの読みを推定し、アクセント句の長さを推定するアクセント句読み推定サブステップと、
前記アクセント句ごとのアクセント型を推定するアクセント句アクセント型推定サブステップと、
隣り合うアクセント句間の音調結合型を推定するアクセント句間音調結合型推定サブステップと、
前記アクセント句ごとに、アクセント句内の主たる単語に、その単語の表層だけまたは単語の表層と品詞との組合せをキーとして前記カテゴリ名辞書を検索して得られるカテゴリ名を付与するカテゴリ名付与サブステップと、
を有する
基本周波数推定方法。 A morphological analysis dictionary that records parts of speech, readings, and accent types for words;
A category name dictionary that records a category name different from the part of speech for the word,
A fundamental frequency estimation method for estimating a fundamental frequency using
The text analysis unit analyzes the input sentence, and the part of speech of the beginning and end of the accent phrase, the accent type of the accent phrase, the reading of the accent phrase, the length of the accent phrase, the part of speech in the main word of the accent phrase Is a text analysis step for outputting information on the combination of tones between different category names and accent phrases as linguistic information,
An information shaping step in which the information shaping unit shapes the language information into a predetermined format;
A fundamental frequency summary value estimation unit for obtaining a fundamental frequency summary value for each accent phrase from the formatted language information using a regression model;
A detailed fundamental frequency estimating unit adapted to adapt a temporal change of the fundamental frequency obtained from the language information to the fundamental frequency summary value and output a fundamental frequency; and
The text analysis step includes:
Decomposing the input sentence for each word to generate a word string, referring to the morpheme analysis dictionary, each part of speech, reading, morpheme analysis substep to obtain the accent type of the word alone,
An accent phrase determination sub-step for collecting the word string into an accent phrase composed of one or more words as an accent unit;
An accent phrase reading estimation sub-step that estimates the reading of each accent phrase and estimates the length of the accent phrase;
An accent phrase accent type estimation substep for estimating an accent type for each accent phrase;
An interaccent phrase combination estimation sub-step for estimating a tone combination between adjacent accent phrases;
For each accent phrase, a category name giving sub that gives a category name obtained by searching the category name dictionary to the main word in the accent phrase using only the surface layer of the word or a combination of the word surface layer and the part of speech as a key Steps,
A fundamental frequency estimation method comprising:
前記言語情報には、アクセント句の相対的な高さの情報を含み、
前記テキスト解析ステップは、
前記音調結合型の情報を用いて、各アクセント句の相対的な高さを算出する相対的高さ算出サブステップも、
有する
ことを特徴とする基本周波数推定方法。 The fundamental frequency estimation method according to claim 6, wherein
The language information includes information on the relative height of accent phrases,
The text analysis step includes:
A relative height calculation sub-step for calculating a relative height of each accent phrase using the tone combination type information,
A fundamental frequency estimation method characterized by comprising:
を用いて基本周波数を推定する基本周波数推定方法であって、
テキスト解析部が、入力された文を解析し、アクセント句の先頭と末尾の単語の品詞、アクセント句のアクセント型、アクセント句の読み、アクセント句の長さ、アクセント句間の音調結合型及びアクセント句の相対的な高さの情報を、言語情報として出力するテキスト解析ステップと、
情報整形部が、前記言語情報を、あらかじめ定めた形式に整形する情報整形ステップと、
基本周波数要約値推定部が、回帰モデルを用いて、整形された言語情報から、アクセント句ごとの基本周波数要約値を求める基本周波数要約値推定ステップと、
詳細基本周波数推定が、前記言語情報から求まる基本周波数の時間的変化を、前記基本周波数要約値に適応させ、基本周波数を出力する詳細基本周波数推定ステップと
を有し、
前記テキスト解析ステップは、
入力された文を単語ごとに分解して単語列を生成し、前記形態素解析辞書を参照して各単語に品詞、読み、単語単体でのアクセント型を求める形態素解析サブステップと、
前記単語列を、アクセントの単位となる1つ以上の単語からなるアクセント句に単語列をまとめあげるアクセント句決定サブステップと、
前記アクセント句ごとの読みを推定し、アクセント句の長さを推定するアクセント句読み推定サブステップと、
前記アクセント句ごとのアクセント型を推定するアクセント句アクセント型推定サブステップと、
隣り合うアクセント句間の音調結合型を推定するアクセント句間音調結合型推定サブステップと、
前記音調結合型の情報を用いて、各アクセント句の相対的な高さを算出する相対的高さ算出サブステップと、
を有する
基本周波数推定方法。 A morphological analysis dictionary that records parts of speech, readings, and accent types for words,
A fundamental frequency estimation method for estimating a fundamental frequency using
The text analysis unit analyzes the input sentence, and the part of speech of the beginning and end of the accent phrase, the accent type of the accent phrase, the reading of the accent phrase, the length of the accent phrase, the tone combination type between the accent phrases and the accent A text parsing step that outputs the relative height information of the phrase as linguistic information;
An information shaping step in which the information shaping unit shapes the language information into a predetermined format;
A fundamental frequency summary value estimation unit for obtaining a fundamental frequency summary value for each accent phrase from the formatted language information using a regression model;
A detailed fundamental frequency estimation step for adapting a temporal change of the fundamental frequency obtained from the language information to the fundamental frequency summary value and outputting a fundamental frequency; and
The text analysis step includes:
Decomposing the input sentence for each word to generate a word string, referring to the morpheme analysis dictionary, each part of speech, reading, morpheme analysis substep to obtain the accent type of the word alone,
An accent phrase determination sub-step for collecting the word string into an accent phrase composed of one or more words as an accent unit;
An accent phrase reading estimation sub-step that estimates the reading of each accent phrase and estimates the length of the accent phrase;
An accent phrase accent type estimation substep for estimating an accent type for each accent phrase;
An interaccent phrase combination estimation sub-step for estimating a tone combination between adjacent accent phrases;
A relative height calculation sub-step for calculating a relative height of each accent phrase using the tone combination type information;
A fundamental frequency estimation method comprising:
前記カテゴリ名辞書は、
単語に対する品詞の下位分類のカテゴリ名を記録していること
を特徴とする基本周波数推定方法。 A fundamental frequency estimation method according to claim 6 or 7,
The category name dictionary is
A fundamental frequency estimation method characterized by recording a category name of a subcategory of parts of speech for a word.
前記カテゴリ名辞書は、
単語に対する意味とその強度によって構成されたカテゴリ名を記録していること
を特徴とする基本周波数推定方法。 A fundamental frequency estimation method according to claim 6 or 7,
The category name dictionary is
A fundamental frequency estimation method characterized in that a category name composed of the meaning and strength of a word is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008045929A JP4829912B2 (en) | 2008-02-27 | 2008-02-27 | Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008045929A JP4829912B2 (en) | 2008-02-27 | 2008-02-27 | Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009204795A true JP2009204795A (en) | 2009-09-10 |
JP4829912B2 JP4829912B2 (en) | 2011-12-07 |
Family
ID=41147146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008045929A Active JP4829912B2 (en) | 2008-02-27 | 2008-02-27 | Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4829912B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014095851A (en) * | 2012-11-12 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | Methods for acoustic model generation and voice synthesis, devices for the same, and program |
JP2015108667A (en) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | Fundamental frequency prediction device, fundamental frequency prediction method, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7285602B1 (en) | 2022-06-24 | 2023-06-02 | 株式会社エース電研 | supply gutter |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264284A (en) * | 2006-03-28 | 2007-10-11 | Brother Ind Ltd | Device, method, and program for adding feeling |
-
2008
- 2008-02-27 JP JP2008045929A patent/JP4829912B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264284A (en) * | 2006-03-28 | 2007-10-11 | Brother Ind Ltd | Device, method, and program for adding feeling |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014095851A (en) * | 2012-11-12 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | Methods for acoustic model generation and voice synthesis, devices for the same, and program |
JP2015108667A (en) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | Fundamental frequency prediction device, fundamental frequency prediction method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4829912B2 (en) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7500020B2 (en) | Multilingual text-to-speech synthesis method | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
US8595004B2 (en) | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
US7996222B2 (en) | Prosody conversion | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
WO2018192424A1 (en) | Statistical parameter model establishment method, speech synthesis method, server and storage medium | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
US20060259303A1 (en) | Systems and methods for pitch smoothing for text-to-speech synthesis | |
JP4829477B2 (en) | Voice quality conversion device, voice quality conversion method, and voice quality conversion program | |
JP6370749B2 (en) | Utterance intention model learning device, utterance intention extraction device, utterance intention model learning method, utterance intention extraction method, program | |
JP2007279744A (en) | Method and apparatus for training fo and pause prediction model, method and apparatus for f0 and pause prediction, and method and apparatus for speech synthesis | |
WO2023279976A1 (en) | Speech synthesis method, apparatus, device, and storage medium | |
TWI467566B (en) | Polyglot speech synthesis method | |
JP4829912B2 (en) | Fundamental frequency estimation device, fundamental frequency estimation method, fundamental frequency estimation program, storage medium | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
Sawada et al. | The nitech text-to-speech system for the blizzard challenge 2016 | |
JP5983604B2 (en) | Segment information generation apparatus, speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP4684770B2 (en) | Prosody generation device and speech synthesis device | |
WO2008056604A1 (en) | Sound collection system, sound collection method, and collection processing program | |
JP6840124B2 (en) | Language processor, language processor and language processing method | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JPH1152987A (en) | Speech synthesis device with speaker adaptive function | |
JP6748607B2 (en) | Speech synthesis learning apparatus, speech synthesis apparatus, method and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140922 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4829912 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |