JP5320341B2 - Speaking text set creation method, utterance text set creation device, and utterance text set creation program - Google Patents
Speaking text set creation method, utterance text set creation device, and utterance text set creation program Download PDFInfo
- Publication number
- JP5320341B2 JP5320341B2 JP2010112423A JP2010112423A JP5320341B2 JP 5320341 B2 JP5320341 B2 JP 5320341B2 JP 2010112423 A JP2010112423 A JP 2010112423A JP 2010112423 A JP2010112423 A JP 2010112423A JP 5320341 B2 JP5320341 B2 JP 5320341B2
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- speech
- unit
- text set
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラムに関する。 The present invention relates to an utterance text set creation method, an utterance text set creation apparatus, and an utterance text set creation program for creating a text set read by a speaker when constructing a speech synthesis unit DB.
波形接続型音声合成システムは、音声合成を行う際に、音声素片を接続する必要があるため、音声合成用音声素片DBを有する。なお、音声素片とは、予め用意した短い単位の音声データである。例えば、音声素片の単位としては、CV、VCV、CVC、[C]V*等があり、個別のTTS(text-to-speech system)に依存する。但し、Cは子音を、Vは母音を表し、[C]はCがない場合がありえることを、V*は1つ以上のVの連鎖を表す。音声合成用音声素片DBを構築する際には、予め発声者が発声用テキストセットを読み上げ、その自然音声データを用いて、音声素片を求める必要がある。なお、自然音声データとは、単語、文等の自然な単位で発声者が発声した音を収録した音声データであり、音声合成用音声素片DBとは、自然音声データから音声合成に必要な音声素片のみを抽出したデータベースである。より自然な音声合成処理を行うために、音声合成用音声素片DBには、音声合成に必要な音声素片がより多く含まれることが望まれる。そのためには、発声用テキストセットが、音声素片を効率的に収集することができる文章からなることが必要である。 The waveform connection type speech synthesis system has a speech unit DB for speech synthesis because it is necessary to connect speech units when performing speech synthesis. Note that the speech segment is a short unit of speech data prepared in advance. For example, there are CV, VCV, CVC, [C] V *, etc. as speech unit units, which depend on individual TTS (text-to-speech system). However, C represents a consonant, V represents a vowel, [C] represents that there may be no C, and V * represents a chain of one or more Vs. When constructing the speech unit DB for speech synthesis, it is necessary for the speaker to read the speech text set in advance and obtain the speech unit using the natural speech data. Note that the natural speech data is speech data that records sounds uttered by a speaker in natural units such as words and sentences, and the speech synthesis speech unit DB is necessary for speech synthesis from natural speech data. It is a database that extracts only speech segments. In order to perform more natural speech synthesis processing, it is desired that the speech synthesis speech unit DB includes more speech units necessary for speech synthesis. For this purpose, it is necessary that the utterance text set is composed of sentences that can efficiently collect speech segments.
多様な口調や発話スタイル、豊かな感情を含んだ音声を高品質に合成する場合、目的とする口調や発話スタイル、感情を含んだ音声(以下「X口調」という)から作成された音声素片DBを用いた方が、朗読口調で発声された音声から作成された音声素片DBを用いるよりも合成音声の品質が高くなることが、非特許文献1により知られている。これは、X口調のバリエーション毎に、韻律やスペクトルの特徴が異なるため、大きな韻律変形量及びスペクトルの差異によって生じる自然性等の低下が原因であると考えられる。なお、発話スタイルとは、話者の環境や文化等によって起こる音響特性のことであり、例えば、方言、早口、ぞんざいな話し方、丁寧な話し方、ゆっくりとした話し方、はっきりと発音しない話し方等である。また、感情とは、悲しげな話し方、楽しげな話し方等である。口調とは、口に出したときの言葉の調子や、ものの言い方のようすのことであり、前記発話スタイルや感情を含んだ音声を含む概念とする。韻律の特徴とは声の高さ、イントネーション、リズム、ポーズ等であり、スペクトルとは、音声を周波数成分に分け、周波数毎の強さを表したものである。
When synthesizing high-quality speech that includes a variety of tone, utterance styles, and rich emotions, speech segments created from speech that includes the desired tone, utterance style, and emotion (hereinafter referred to as “X tone”) It is known from Non-Patent
一般的には大量日本語テキストの音韻列及び韻律特徴のカバレッジを最大化するようなアルゴリズムを用いて発声用テキストセットが作成されていた(非特許文献2参照)。なお、音韻列とは、音韻(音素)の列であり、読み仮名である。音韻とは、任意の個別言語において意味の区別(弁別)に用いられる最小の音の単位を指し、母音や子音等である。また、カバレッジとは、波形接続型音声合成システムで音声合成を行う際に、処理対象のテキストを音声合成する際に必要となる音声素片が、音素環境、音韻継続時間長及び基本周波数パタンを考慮したときに、音声合成用音声素片DBに含まれている確率である。 In general, an utterance text set has been created using an algorithm that maximizes the coverage of phoneme strings and prosodic features of a large amount of Japanese text (see Non-Patent Document 2). The phoneme string is a string of phonemes (phonemes) and is a reading pseudonym. A phoneme refers to a minimum sound unit used for distinction (discrimination) of meaning in an arbitrary individual language, such as a vowel or a consonant. In addition, coverage means that when speech synthesis is performed in a waveform-connected speech synthesis system, the speech segments required for speech synthesis of the text to be processed are the phoneme environment, phoneme duration length, and fundamental frequency pattern. It is the probability of being included in the speech synthesis speech element DB when considered.
発声用テキストセットを作成する際に、漢字仮名混じり文の大量日本語テキストから音韻列を推定するために、音声合成プログラムが用いられるが、一般的な音声合成プログラムは朗読口調で読み上げる場合を想定している。そのため、従来技術は、X口調で発声する場合に、推定した通りに発声者が発声しない場合が生じる。例えば、朗読口調を想定した一般的な音声合成プログラムを利用して音韻列を推定して発声用テキストセットを作成し、それを用いてX口調で発声者が発声した場合、音声合成プログラムが推定した音韻列と実際にX口調で発声して得られる音韻列に差(読みの揺れ)が生じると想定される。例えば、「明日」という単語は、一般的な音声合成プログラムを用いて音韻列を推定すると“あし^た”(^は無声化を表す記号)となるが、驚きの感情で発声すると“あし^たー”と語尾が長母音化する。また、強調した発声の場合“あした!”と“し”が無声化しなかったりする場合が想定される。 When creating a text set for utterance, a speech synthesis program is used to estimate phonological sequences from a large amount of Japanese text in a kanji-kana mixed sentence, but a general speech synthesis program is assumed to be read out in a reading tone. doing. Therefore, in the conventional technique, when speaking in X tone, the speaker may not utter as estimated. For example, using a general speech synthesis program that assumes reading tone, create a text set for utterance by estimating the phoneme sequence, and if the speaker utters in X tone, the speech synthesis program estimates It is assumed that there is a difference (reading fluctuation) between the phoneme sequence obtained and the phoneme sequence actually obtained by speaking in X tone. For example, the word “Tomorrow” is “Ashi ^ ta” (^ is a symbol for devoicing) when the phoneme sequence is estimated using a general speech synthesis program, but “Ashi ^ "Tau" and ending vowels. Further, in the case of emphasized utterances, it may be assumed that “Ashita!” And “Shi” are not devoiced.
このように、発声用テキストセット生成時に想定した音韻列と、実際にX口調で発声して得られる音韻列とが異なる場合、発声用テキストセット生成時に計算した「音韻列及び韻律特徴のカバレッジ最大化」が想定した通り実現されず、それにより合成音声の品質が低下するという問題がある。 As described above, when the phoneme sequence assumed at the time of generating the utterance text set is different from the phoneme sequence obtained by actually uttering in the X tone, Is not realized as expected, which causes a problem that the quality of the synthesized speech is lowered.
前記の課題を解決するために、本発明に係る発声用テキストセット作成技術は、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を予め記憶しておき、発声用テキストセット候補を用いて音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、パラメータ分布変換関数を用いて、求めたパラメータの分布を変換し、変換後のパラメータ分布を用いて発声用テキストセット候補を評価する。 In order to solve the above-described problem, the utterance text set creation technology according to the present invention uses the parameter distribution obtained from the natural speech data of reading tone and the parameter distribution obtained from the natural speech data of target X tone. A parameter distribution conversion function to be converted into a pre-stored, speech synthesis processing is performed by the speech synthesis program using the utterance text set candidate, a predetermined parameter is obtained from the speech synthesis data, and the parameter distribution conversion function is used, The obtained parameter distribution is converted, and the utterance text set candidates are evaluated using the converted parameter distribution.
本発明は、朗読口調以外の口調で発声した場合にも、音韻列及び韻律特徴のカバレッジを最大化する発声用テキストセットを生成することができるという効果を奏する。 The present invention produces an effect that it is possible to generate an utterance text set that maximizes the coverage of phoneme strings and prosodic features even when uttered in a tone other than reading tone.
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
<発声用テキストセット作成装置1000>
図1及び図2を用いて実施例1に係る発声用テキストセット作成装置1000を説明する。発声用テキストセット作成装置1000は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する。
<Speaking text set creation device 1000>
An utterance text set creation apparatus 1000 according to the first embodiment will be described with reference to FIGS. 1 and 2. The utterance text set creation apparatus 1000 creates a text set read by the utterer when the speech synthesis speech segment DB is constructed.
発声用テキストセット作成装置1000は、入出力インタフェース部101と、変換関数作成部100と、記憶部203と、テキストセット作成部200を有する。
The utterance text set creation apparatus 1000 includes an input /
発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、発声用テキストセット作成者(以下「ユーザ」という)から変換関数作成指示を受信すると、変換関数作成部100は、オフライン処理により、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数(例えば、後述する素片分布変換関数、継続長分布変換関数及びF0分布変換関数)を作成し(s100)、後述する発声用テキストセット候補を作成する前に、記憶部203に記憶する。
When the utterance text set creation apparatus 1000 receives a conversion function creation instruction from the utterance text set creator (hereinafter referred to as “user”) via the input /
さらに、発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、ユーザからテキストセット作成指示と口調指定情報を受信すると(s101)、テキストセット作成部200は、オンライン処理により、X口調で発声した場合のカバレッジを最大化するテキストセットを作成し(s200)、入出力インタフェース部101を介して、ユーザに出力する。以下各部の処理内容を説明する。
Furthermore, when the utterance text set creation device 1000 receives a text set creation instruction and tone designation information from the user via the input / output interface unit 101 (s101), the text
<入出力インタフェース部101>
入出力インタフェース部101は、ユーザからの入力を受け付けると共に、当該ユーザに対して情報を出力する。例えば、データが入力される入力インタフェース(例えばキーボード、マウス等)とデータが出力される出力インタフェース(例えばディスプレイ、プリンタ等)、または、それらの入出力インタフェースに対する入出力端子からなる。また、発声用テキストセット作成装置1000がネットワーク上のサーバ等であり、ユーザがネットワークを介してアクセスする場合には、入出力インタフェース部101は、ユーザとデータを送受信するための通信部等であってもよい。
<Input /
The input /
<記憶部203>
記憶部203は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部203に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。なお、後述する素片分布変換関数DB234、継続長分布変換関数DB236及びF0分布変換関数DB238は、記憶部203の一部であってもよい。
<
The
<変換関数作成部100>
変換関数作成部100は、例えば、X口調で人間が発声した自然音声を利用して、朗読口調とX口調の差分(音韻列に含まれる音声素片の出現頻度分布の差、音声素片毎の音韻継続時間長の出現頻度分布の差、音声素片毎の基本周波数パタンの出現頻度分布の差)を抽出し、パラメータ分布変換関数を求め、これを記憶部203に記憶する。
<Conversion
The conversion
図3及び図4を用いて変換関数作成部100を説明する。変換関数作成部100は、自然音声DB110と、音韻ラベリング部111と、第1パラメータ分布抽出部120と、パラメータ分布変換関数算出部130とを備える。
The conversion
(自然音声DB110及び音韻ラベリング部111)
自然音声DB110は、朗読口調自然音声データとX口調自然音声データとを予め記憶しておく。例えば、各自然音声データは、同じテキスト(例えば「旋回する」)を朗読口調とX口調で読み上げたものである。なお、X口調として様々なバリエーションを有してもよく、バリエーション毎に自然音声データを作成し、記憶する。
(Natural speech DB 110 and phonological labeling unit 111)
The natural voice DB 110 stores read-tone natural voice data and X-tone natural voice data in advance. For example, each natural voice data is obtained by reading the same text (for example, “turn”) in a reading tone and an X tone. Note that the X tone may have various variations, and natural voice data is created and stored for each variation.
音韻ラベリング部111は、入出力インタフェース部101を介して変換関数作成指示を受信すると、自然音声DB110から、朗読口調自然音声データとX口調自然音声データとを取得し(s110)、各自然音声データに、手動または自動で、音韻ラベル(例えば/seNkaisuru/等)を付与し(s111)、取得した各自然音声データとそれに対するラベルデータを素片分布抽出部123に出力する。
When receiving the conversion function creation instruction via the input /
(第1パラメータ分布抽出部120)
第1パラメータ分布抽出部120は、所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する(s120)。
(First parameter distribution extraction unit 120)
The first parameter distribution extraction unit 120 obtains predetermined parameters from the reading-tone natural voice data obtained by reading a predetermined document in the reading tone and the X-tone natural voice data obtained by reading the same document in the X-tone, respectively. Is extracted (s120).
例えば、第1パラメータ分布抽出部120は、全音声素片バリエーション記憶部122と、素片分布抽出部123と、継続長分布抽出部125と、F0分布抽出部127とを備える。
For example, the first parameter distribution extraction unit 120 includes an all speech unit
{全音声素片バリエーション記憶部122及び素片分布抽出部123}
素片分布抽出部123は、全音声素片バリエーション記憶部122を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し(s123a)、音声素片の出現頻度の分布(以下「素片分布」という)を抽出する(s123b)。
{All speech segment
The segment distribution extraction unit 123 refers to the all speech unit
全音声素片バリエーション記憶部122には、音声素片(または音声素片から得られる特徴量や音声素片に対応するラベルデータ等)と各音声素片に対する音声素片番号が記憶されている。但し、全音声素片バリエーション記憶部122に記憶される音声素片は、開発しようとするテキスト音声合成システムに依存したものになる。
The speech unit
素片分布抽出部123は、各自然音声データとラベルデータを受信し、自然音声データから得られる音声素片をキーとして、全音声素片バリエーション記憶部122を検索し、各音声素片に対する音声素片番号を取得する。得られた音声素片番号の数(出現頻度)に基づき、全ての音声素片の種類毎の出現頻度を求め、その素片分布を抽出する。素片分布を素片分布変換関数算出部133に、各自然音声データとそれに紐付けられた音声素片番号を継続長分布抽出部125とF0分布抽出部127に送信し、継続長分布抽出部125にはさらに各自然音声データに付与したラベルデータも送信する。
The segment distribution extraction unit 123 receives each natural speech data and label data, searches the entire speech unit
{継続長分布抽出部125}
継続長分布抽出部125は、ラベルデータと、音声素片番号を受信し、これを用いて、音声素片毎の音韻継続時間長を計算し(s125a)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)を抽出し(s125b)、これを継続長分布変換関数算出部135に送信する。なお、音韻継続長はベクトルデータとして計算される。例えば、音声素片”KAS”の各音韻の継続時間長がそれぞれ、Kの長さが12ms、Aの長さが22ms、Sの長さが11msの場合には、ベクトルデータを(12,22,11)とする。但し、他の従来技術により音声素片毎の音韻継続時間長を表してもよい。
{Continuation length distribution extraction unit 125}
The continuation length distribution extracting unit 125 receives the label data and the speech unit number, and calculates the phoneme duration for each speech unit using the label data and the speech unit number (s125a), and the phoneme duration for each speech unit. Is extracted (s125b) and transmitted to the duration distribution conversion
{F0分布抽出部127}
F0分布抽出部127は、自然音声データと、音声素片番号と、ラベルデータとを受信し、これらを用いて、音声素片毎の基本周波数パタンを抽出し(s127a)、音声素片毎の基本周波数パタンの出現頻度の分布(以下「F0分布」という)を抽出し(s127b)、F0分布抽出部127に送信する。なお、基本周波数パタンはベクトルデータとして計算される。例えば、音声素片”ASU”の各音韻の基本周波数パタンの周波数の平均値がそれぞれ、Aの平均値が120Hz、Sの平均値が0Hz(Sは無声子音であり基本周波数がないため)、Uの平均値が220Hzの場合には、ベクトルデータを(120,0,220)とする。但し、基本周波数パタンの指定方法は、この方法以外にも様々なものがあり、他の従来技術により音声素片毎の基本周波数パタンを表してもよい。例えば、音声素片の基本周波数パタンの周波数の平均値と、周波数の分散と、始点の周波数と、終点の周波数からなるベクトルデータを抽出してもよいし、音韻毎に平均値をとるのではなく、基本周波数の時間的変化パタンを3点の折れ線で近似してもよい。
{F0 distribution extraction unit 127}
The F0 distribution extraction unit 127 receives the natural speech data, the speech unit number, and the label data, and extracts the fundamental frequency pattern for each speech unit using these (s127a), A frequency distribution of basic frequency patterns (hereinafter referred to as “F0 distribution”) is extracted (s127b) and transmitted to the F0 distribution extraction unit 127. The fundamental frequency pattern is calculated as vector data. For example, the average value of the fundamental frequency pattern frequency of each phoneme of the speech unit “ASU” is 120 Hz and the average value of S is 0 Hz (since S is an unvoiced consonant and has no fundamental frequency), When the average value of U is 220 Hz, the vector data is (120, 0, 220). However, there are various basic frequency pattern designation methods other than this method, and the fundamental frequency pattern for each speech unit may be represented by other conventional techniques. For example, vector data consisting of the average value of the fundamental frequency pattern of the speech element, the frequency variance, the start point frequency, and the end point frequency may be extracted, or the average value may be taken for each phoneme. Alternatively, the temporal change pattern of the fundamental frequency may be approximated by a three-point broken line.
(パラメータ分布変換関数算出部130)
パラメータ分布変換関数算出部130は、朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出する(s130)。
(Parameter distribution conversion function calculation unit 130)
The parameter distribution conversion
例えば、パラメータ分布変換関数算出部130は、素片分布変換関数算出部133と、継続長分布変換関数算出部135と、F0分布変換関数算出部137とを備える。
For example, the parameter distribution conversion
{素片分布変換関数算出部133}
素片分布変換関数算出部133は、各自然音声データから求めた素片分布を受信し、朗読口調の自然音声データから求めた素片分布(図5(a−1))を、X口調の自然音声データから求めた素片分布(図5(a−2))に変換する素片分布変換関数を算出し(s133)、素片分布変換関数DB234に送信し、登録する。図5の上段は、朗読口調からX口調へ素片出現頻度分布を変換する素片分布変換関数fのイメージを示している。(a−1)及び(a−2)の横軸上にN個の音声素片番号が左から順番に並べられている。縦軸は出現頻度である。変換関数fは、左の分布を右の分布に変換する関数である。これにより、読みの揺れに関する両口調間の差などを変換関数fに織り込むことができる。
{Element distribution conversion function calculation unit 133}
The segment distribution conversion
例えば、音声素片の種類数をNとするとき、音声素片毎に朗読口調の素片分布{u1w,u2w,…,nNw}とX口調の素片分布{u1x,u2x,…,nNx}との差分{u1w−u1x,u2w−u2x,…,nNw−uNx}を求め、記憶しておく。後述する素片分布変換部233において、素片分布変換関数は、入力される素片分布から、この差分を差し引くことで分布を変換する。また、例えば、素片分布変換関数は、音声素片毎に朗読口調の素片分布とX口調の素片分布との比を、入力される素片分布に乗じることで変換してもよい。また他の方法によって、朗読口調の素片分布をX口調の素片分布に変換してもよい。なお、素片分布変換関数算出部133はX口調のバリエーション数分の素片分布変換関数を算出し、素片分布変換関数DB234に送信し、登録する。
For example, when the number of types of speech segments is N, the segment distribution of reading tone {u 1w , u 2w ,..., N Nw } and the segment distribution of X tone {u 1x , u 2x for each speech unit. ,..., N Nx }, the difference {u 1w −u 1x , u 2w −u 2x ,..., N Nw −u Nx } is obtained and stored. In the element
{継続長分布変換関数算出部135}
継続長分布変換関数算出部135は、各自然音声データの音声素片毎の継続長分布を受信し、朗読口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−1))を、X口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−2))に変換する継続長分布変換関数を算出し(s135)、継続長分布変換関数DB236に送信し、登録する。よって、継続長分布変換関数DB236には、(X口調のバリエーション数)×(音声素片の種類数N)分の継続長分布変換関数が登録されることになる。図5の中段は、朗読口調からX口調へ音韻継続時間長の出現頻度分布を変換する継続長分布変換関数のイメージを示している。左側が朗読口調におけるある音声素片iの音韻継続時間長の出現頻度(音韻継続時間長ベクトルのバリエーション数をMiとする)、右側がX口調におけるある音声素片iの音韻継続時間長の出現頻度を示しており、(b−1)及び(b−2)の横軸上にMi個の音韻継続長ベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数giは、左の分布を右の分布に変換する関数である。
{Duration distribution conversion function calculation unit 135}
The continuous length distribution conversion
例えば、ある音声素片iに対する音韻継続時間長ベクトルのバリエーション数をMiとするとき、音声素片毎に朗読口調の継続長分布{u1w,u2w,…,nMiw}とX口調の継続長分布{u1x,u2x,…,nMix}との差分{u1w−u1x,u2w−u2x,…,nMiw−uMix}を求め、記憶しておく。後述する継続長分布変換部235において、継続長分布変換関数は、入力される継続長分布から、この差分を差し引くことで分布を変換する。この処理を全ての音声素片に対して行う。また他の方法によって、朗読口調の継続長分布をX口調の継続長分布に変換してもよい。後述するF0分布変換関数算出部137及びF0分布変換部237についても同様の処理により、F0分布変換関数を求め、F0分布を変換することができる。
For example, when the number of variations of the phoneme duration length vector for a certain speech unit i is Mi, the continuous length distribution {u 1w , u 2w ,..., N Miw } for each speech unit and the continuation of the X tone the length distribution {u 1x, u 2x, ... , n Mix} and the difference {u 1w -u 1x, u 2w -u 2x, ..., n Miw -u Mix} sought and stored. In the continuation length
{F0分布変換関数算出部137}
F0分布変換関数算出部137は、各自然音声データの音声素片毎のF0分布を受信し、朗読口調の自然音声データから求めた音声素片毎のF0分布(図5(c−1))を、X口調の自然音声データから求めた音声素片毎のF0分布(図5(c−2))に変換するF0分布変換関数を算出し(s137)、F0分布変換関数DB238に送信し、登録する。F0分布変換関数DB238には、(X口調のバリエーション数)×(音声素片の種類数N)分のF0分布変換関数が登録されることになる。図5の下段は、朗読口調からX口調へF0分布を変換する関数のイメージを示している。左側が朗読口調におけるある音声素片iの基本周波数パタンの出現頻度(基本周波数パタンベクトルのバリエーション数をLiとする)、右側がX口調におけるある素片iの基本周波数パタンの出現頻度を示しており、(c−1)及び(c−2)の横軸上にLi個の基本周波数パタンベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数hiは、左の分布を右の分布に変換する関数である。
{F0 distribution conversion function calculation unit 137}
The F0 distribution conversion
<テキストセット作成部200>
図6及び図7を用いてテキストセット作成部200を説明する。テキストセット作成部200は、発声用テキストセット候補作成部210と、大量日本語DB211と、第2パラメータ分布抽出部220と、パラメータ分布変換部230と、評価部250と、終了判定部260とを有する。なお、図6中、パラメータ分布変換部230と、変換関数DB234、236及び238とが本発明によって追加される部分であり、その他の部分は従来の技術と同等の繰り返し処理を行ってもよい(例えば非特許文献2)。繰り返し処理には「交換法」や「貪欲アルゴリズム」等があるが、図6及び図7では交換法を例として示している。
<Text set
The text set
(発声用テキストセット候補作成部210及び大量日本語DB211)
発声用テキストセット候補作成部210は、インタフェース部101を介してテキストセット作成指示を受信すると、大量日本語文章DB211から所定数(例えば、500個)の文章を抽出し、最初の発声用テキストセット候補(以下「T」という)を作成し(s210)、第2パラメータ分布抽出部220に送信する。なお、テキストセット作成指示に大量日本語文章DB211から抽出する文章の数を指定する情報(以下「抽出数指定情報」という)を加えてもよい。なお、抽出数指定情報は、ユーザが最初に指定し、入力する値である。
(Speech text set
Upon receiving the text set creation instruction via the
(第2パラメータ分布抽出部220)
第2パラメータ分布抽出部220は、Tを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する(s220)。
(Second parameter distribution extraction unit 220)
The second parameter distribution extraction unit 220 performs speech synthesis processing using the speech synthesis program using T, obtains predetermined parameters from the speech synthesis data, and extracts the obtained parameter distribution (s220).
例えば、第2パラメータ分布抽出部220は、音韻列、基本周波数パタン、音韻継続時間長抽出部221と、素片分布抽出部223と、継続長分布抽出部225と、F0分布抽出部227とを備える。
For example, the second parameter distribution extraction unit 220 includes a phoneme string, a fundamental frequency pattern, a phoneme duration extraction unit 221, a segment
{音韻列、基本周波数パタン、音韻継続時間長抽出部221}
音韻列、基本周波数パタン、音韻継続時間長抽出部221は、発声用テキストセット候補を受信し、これを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を推定し、これらを抽出して(s221)、素片分布抽出部223に送信する。
{Phoneme sequence, fundamental frequency pattern, phoneme duration extraction unit 221}
The phoneme sequence, fundamental frequency pattern, and phoneme duration length extraction unit 221 receives the utterance text set candidate, uses this to perform speech synthesis processing by a speech synthesis program, and uses the speech synthesis data to generate the phoneme sequence and fundamental frequency pattern. Then, the phoneme duration length is estimated, extracted (s221), and transmitted to the segment
{素片分布抽出部223}
素片分布抽出部223は、音韻列、基本周波数パタン及び音韻継続時間長を受信し、音韻列を用いて各音声素片の出現頻度を求め、素片分布を抽出し(s223)、素片分布変換部233に送信する。また、音声素片とそれに紐付けられた音韻継続長を継続長分布抽出部225に、音声素片とそれに紐付けられた基本周波数パタンをF0分布抽出部227に送信する。
{Element distribution extraction unit 223}
The segment
{継続長分布抽出部225}
継続長分布抽出部225は、素片分布と音声素片毎の音韻継続長を受信し、音声素片毎の音韻継続時間長を求め、その出現頻度から継続長分布を抽出し(s225)、継続長分布変換部235に送信する。
{Continuation length distribution extraction unit 225}
The continuation length
{F0分布抽出部227}
F0分布抽出部227は、素片分布と音声素片毎の基本周波数パタンを受信し、音声素片毎の基本周波数パタンを求め、その出現頻度からF0分布を抽出し(s227)、F0分布変換部237に送信する。
{F0 distribution extraction unit 227}
The F0 distribution extraction unit 227 receives the unit distribution and the fundamental frequency pattern for each speech unit, obtains the fundamental frequency pattern for each speech unit, extracts the F0 distribution from the appearance frequency (s227), and converts the F0 distribution. To the unit 237.
なお、素片分布抽出部223では素片分布を1つ、継続長分布抽出部225及びF0分布抽出部227では音声素片のバリエーション数分のF0分布及び継続長分布を抽出する。
The segment
(パラメータ分布変換部230)
パラメータ分布変換部230は、入出力インタフェース部101を介して口調指定情報を受信し、口調指定情報に基づき、記憶部203からパラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、音声合成データから求めたパラメータ分布を変換する(s230)例えば、パラメータ分布変換部230は、素片分布変換部233と、継続長分布変換部235と、F0分布変換部237とを備える。
(Parameter distribution converter 230)
The parameter
{素片分布変換部233}
素片分布変換部233は、口調指定情報と素片分布を受信し、口調指定情報をキーとして、記憶部203内の素片分布変換関数DB234を検索し、対応する素片分布変換関数を取り出し、これを用いて、(合成データから求めた)受信した素片分布を変換し(s233)、変換後の素片分布を評価部250に送信する。
{Element distribution conversion unit 233}
The segment
{継続長分布変換部235}
継続長分布変換部235は、口調指定情報と継続長分布を受信し、口調指定情報をキーとして、記憶部203内の継続長分布変換関数DB236を検索し、対応する継続長分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信した継続長分布を変換し(s235)、変換後の継続長分布を評価部250に送信する。
{Continuation length distribution conversion unit 235}
The
{F0分布変換部237}
F0分布変換部237は、口調指定情報とF0分布を受信し、口調指定情報をキーとして、記憶部203内のF0分布変換関数DBを検索し、対応するF0分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信したF0分布を変換し(s237)、変換後のF0分布を評価部250に送信する。
{F0 distribution conversion unit 237}
The F0 distribution conversion unit 237 receives the tone designation information and the F0 distribution, searches the F0 distribution conversion function DB in the
(評価部250)
評価部250は、変換後のパラメータ分布(素片分布、継続長分布及びF0分布)を用いて評価関数を計算し、発声用テキストセット候補を評価し(s250)、評価結果を終了判定部260を介して発声用テキストセット候補作成部210に送信する。例えば、非特許文献2の方法等により評価関数を計算する。
(Evaluation unit 250)
The
例えば、全ての音声素片の種類をN、発声用テキストセット候補中に現れる音声素片の出現頻度を{u1,u2,…,nN}と表し、uiの相対出現頻度をpiとする。uiに対応する音韻継続時間長の種類をNi、それぞれの出現頻度を{vi1,vi2,…,viNi}と表し、vijの相対出現頻度をqijとする。なお、基本周波数パタンについても、音韻継続時間長と同様の方法により求めることができる。 For example, the type of all speech units is represented as N, the appearance frequency of speech units appearing in the utterance text set candidate is represented as {u 1 , u 2 ,..., N N }, and the relative appearance frequency of u i is represented as p. Let i . The type of phoneme duration corresponding to u i is represented by N i , the respective appearance frequencies are represented as {v i1 , v i2 ,..., v iNi }, and the relative appearance frequency of v ij is represented by q ij . The fundamental frequency pattern can also be obtained by the same method as the phoneme duration time.
音声素片uiのカバレッジの達成度を表す指標として、riを導入する。但し、 R i is introduced as an index representing the degree of coverage of the speech unit u i . However,
であり、dij(T)は、品質劣化の許容範囲内の変形によってvijの基本周波数及び音韻継続時間長を実現できるような波形素片が発声用テキストセット候補Tに含まれるとき1、そうでないとき0をとる関数とする。 And d ij (T) is 1 when the utterance text set candidate T includes waveform segments that can realize the fundamental frequency and phoneme duration length of v ij by deformation within the allowable range of quality degradation. Otherwise, it is a function that takes 0.
発声用テキストセット候補Tに含まれる音声素片のカバレッジの総和は The total coverage of speech units included in the utterance text set candidate T is
であり、同一の音声素片に属する音韻継続時間長や基本周波数パタンの間では、音韻継続時間長や基本周波数パタンの出現頻度が高いものほど被覆の良さを測る評価規準への寄与が大きくなる。これを評価関数として用いてもよい。さらに、音素環境の広がりと基本周波数パタン、音声素片継続時間長の広がりの間の重みを調整するメカニズムとして、非線形関数等を導入しても良い(非特許文献2参照)。 Among phoneme duration lengths and fundamental frequency patterns belonging to the same speech segment, the higher the appearance frequency of the phoneme duration length and the fundamental frequency pattern, the greater the contribution to the evaluation criteria for measuring the goodness of covering. . This may be used as an evaluation function. Furthermore, a nonlinear function or the like may be introduced as a mechanism for adjusting the weight between the spread of the phoneme environment and the basic frequency pattern and the spread of the speech unit duration (see Non-Patent Document 2).
(終了判定部260)
終了判定部260は、終了条件を満たすか否かを判定し(s260)、終了判定結果を発声用テキストセット候補作成部210に送信する。終了条件とは、例えば、交換を試みた文数が所定の値に達していることや、評価関数の大きさが所定の値以上であること等である。
(End determination unit 260)
The
[繰り返し処理]
発声用テキストセット候補作成部210は、評価結果と終了判定結果を受信し、終了判定結果が終了条件を満たすことを意味する場合には(s260)、その時点の発声用テキストセット候補を発声用テキストセットとして出力する(s315)。終了判定結果が終了条件を満たしていないことを意味する場合には(s260)、新たな発声用テキストセット候補を作成し(s210)、処理(s210〜s260)を繰り返す。
[Repetition processing]
The utterance text set
なお、新たな発声用テキストセット候補は、大量日本語DB211から任意の1文を取り出し、発声用テキストセット候補中の任意の1文と交換することによって作成してもよい。この場合、任意の1文を交換した発声用テキストセット候補と、交換していない発声用テキストセット候補とを、記憶部203に記憶しておき、評価部250の評価結果に従って、評価の低い発声用テキストセット候補を削除する構成としてもよい。2週目以降の各処理は、差分のみを処理すればよいため、効率的に処理することができる。
It should be noted that a new utterance text set candidate may be created by taking an arbitrary sentence from the mass
<プログラム>
なお、上述した発声用テキストセット作成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、または、その処理手順(実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program>
The utterance text set creation device described above can also be operated by a computer. In this case, the program for causing the computer to function as the target device (the device having the functional configuration shown in the drawings in the embodiment) or each process of the processing procedure (shown in the embodiment) is stored in the computer. A program to be executed may be downloaded into a computer from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line, and the program may be executed.
<効果>
本発明では、X口調毎に、朗読口調との間に生じ易い発声の差分を予め抽出し、パタン化しておき、その発声差分に応じて音韻列や韻律特徴のカバレッジが最大になるように、発声用テキストセットを補正することで、朗読口調以外の口調で発声した場合でもカバレッジが最大化できるようにする。本発明により作成された発声用テキストセットを用いて、発声者が発声し、その自然音声データに基づいて音声素片DBを構築することで、X口調における合成音声の劣化を防ぐことができる。
<Effect>
In the present invention, for each X tone, the utterance difference that is likely to occur between the reading tone and tone is extracted in advance and patterned, so that the coverage of the phoneme sequence and prosodic features is maximized according to the utterance difference. By correcting the utterance text set, the coverage can be maximized even when uttered in a tone other than reading tone. By using the utterance text set created according to the present invention, the utterer utters, and by constructing the speech segment DB based on the natural speech data, deterioration of the synthesized speech in the X tone can be prevented.
[変形例]
発声用テキストセット1000は、変換関数作成部100を有さずともよい。例えば、他の装置で作成した各変換関数を、記憶部203に記憶してもよい。
[Modification]
The utterance text set 1000 may not include the conversion
発声用テキストセット1000は、3つのパラメータ分布(素片分布、継続長分布、F0分布)を変換対象としているが、少なくとも1つを変換対象とすればよい。推定精度が落ちるが、データ量、計算量を減らすことができる。また、前記の3つのパラメータ分布以外のパラメータ分布を変換対象としてもよい。 The utterance text set 1000 has three parameter distributions (segment distribution, continuation length distribution, and F0 distribution) as conversion targets, but at least one may be converted. Although the estimation accuracy is reduced, the amount of data and calculation can be reduced. Further, parameter distributions other than the three parameter distributions may be converted.
実施例1では、非特許文献2記載の方法を用いて、発声用テキストセット候補を評価したが、他の既存技術を用いて評価してもよい。
In the first embodiment, the utterance text set candidates are evaluated using the method described in
本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する際に利用することができる。本発明の発話用テキストセット作成装置1000により作成されたテキストセットをX口調で発声者が読み上げることで、X口調における音韻列及び韻律特徴のカバレッジを最大化した音声合成用音声素片DBを構築することができ、そのDBを用いることで、X口調における高品質の合成音声を可能とする。 The present invention can be used when creating a text set read by a speaker when constructing a speech unit DB for speech synthesis. A speech unit DB for speech synthesis that maximizes the coverage of phoneme strings and prosodic features in the X tone is constructed by the speaker reading out the text set created by the speech set creation device 1000 of the present invention in the X tone. By using the DB, high-quality synthesized speech in the X tone is made possible.
1000 発声用テキストセット作成装置
100 変換関数作成部
101 入出力インタフェース部
110 自然音声DB
111 音韻ラベリング部
120 第1パラメータ分布抽出部
130 パラメータ分布変換関数算出部
200 テキストセット作成部
203 記憶部
210 発話用テキストセット候補作成部
220 第2パラメータ分布抽出部
230 パラメータ分布変換部
234 素片分布変換関数DB
236 継続長分布変換関数DB
238 F0分布変換関数DB
250 評価部
260 終了判定部
1000 Spoken Text
111 Phonological labeling unit 120 First parameter
236 Continuous length distribution conversion function DB
238 F0 distribution conversion function DB
250
Claims (9)
記憶部には、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数が、予め記憶されているものとし、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出ステップと、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換ステップと、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。 A speech text set creation method for creating a text set read out by a speaker when constructing a speech synthesis unit DB for speech synthesis,
It is assumed that a parameter distribution conversion function for converting a parameter distribution obtained from natural speech data in reading tone into a parameter distribution obtained from natural speech data in target X tone is stored in the storage unit in advance. ,
A utterance text set candidate creation step of extracting a predetermined number of sentences randomly from a large volume Japanese sentence DB and creating a utterance text set candidate;
A second parameter distribution extraction step of performing speech synthesis processing by a speech synthesis program using the utterance text set candidate, obtaining a predetermined parameter from the speech synthesis data, and extracting a distribution of the obtained parameter;
A parameter distribution conversion step of taking out the parameter distribution conversion function from the storage unit and converting the parameter distribution obtained from the speech synthesis data using the parameter distribution conversion function;
Evaluating the utterance text set candidates using the converted parameter distribution, and
A method for generating a text set for speech.
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出ステップと、
朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出ステップと、
前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。 The utterance text set generation method according to claim 1,
A first parameter distribution for obtaining predetermined parameters from the reading-tone natural voice data read out from the predetermined document in the reading-tone and the X-tone natural voice data read out from the same document in the X-tone, and extracting the parameter distribution, respectively. An extraction step;
A parameter distribution conversion function calculating step for calculating a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the X tone;
Storing the parameter distribution conversion function in the storage unit before creating a text set candidate for utterance,
A method for generating a text set for speech.
記憶部には、朗読口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の音韻継続時間長の分布(以下「継続長分布」という)及び音声素片毎の基本周波数の分布(以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されているものとし、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出ステップと、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出ステップと、
音声素片毎の音韻継続時間長を求め継続長分布を抽出し、音声素片毎の基本周波数パタンを求めF0分布を抽出する第2音韻継続時間長及びF0分布抽出ステップと、
前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換ステップと、
変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。 A speech text set creation method for creating a text set read out by a speaker when constructing a speech synthesis unit DB for speech synthesis,
The storage unit includes an appearance frequency distribution of each speech unit obtained from natural speech data of reading tone, a distribution of phoneme durations for each speech unit (hereinafter referred to as “continuation length distribution”), and a basic unit for each speech unit. The frequency distribution (hereinafter referred to as “F0 distribution”) is the frequency distribution of each speech unit, the duration distribution for each speech unit, and the F0 for each speech unit obtained from natural speech data of the intended X tone. It is assumed that an element distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function to be converted into a distribution are stored in advance,
A utterance text set candidate creation step of extracting a predetermined number of sentences randomly from a large volume Japanese sentence DB and creating a utterance text set candidate;
Using the utterance text set candidates, the speech synthesis process is performed by a speech synthesis program, and the phoneme sequence, the fundamental frequency pattern, and the phoneme duration time length are extracted from the speech synthesis data. Steps,
A second segment distribution extraction step of obtaining an appearance frequency of each speech segment from the phoneme sequence and extracting a segment distribution;
A second phoneme duration length and F0 distribution extraction step for obtaining a phoneme duration for each speech unit and extracting a duration distribution, obtaining a fundamental frequency pattern for each speech unit and extracting an F0 distribution;
A segment distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function are extracted from the storage unit, and the segment distribution, duration distribution, and F0 distribution obtained from the speech synthesis data using these distribution conversion functions, respectively. A parameter distribution conversion step for converting
An evaluation function that calculates an evaluation function using the segment distribution, the duration distribution, and the F0 distribution after the conversion, and evaluates the utterance text set candidate.
A method for generating a text set for speech.
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリングステップと、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、音声素片の出現頻度分布を抽出する第1素片分布抽出ステップと、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出し、音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1音韻継続時間長及びF0分布抽出ステップと、
朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出ステップと、
素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。 A utterance text set generation method according to claim 3,
A phonological labeling step of assigning a phonological label to the reading-tone natural voice data of a predetermined document read out in a reading-tone style and the X-tone natural voice data of the same document read out in an X tone;
A first segment distribution extraction step of referring to the all speech segment variation storage unit and assigning a speech unit number to a speech unit obtained from each natural speech data and extracting an appearance frequency distribution of the speech unit When,
A first phoneme duration and F0 distribution extraction step of calculating a phoneme duration for each speech unit, extracting a duration distribution, extracting a fundamental frequency pattern for each speech unit, and extracting an F0 distribution;
A segment distribution conversion function for converting a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in reading tone into a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in X tone, A parameter distribution conversion function calculating step for calculating a duration distribution conversion function and an F0 distribution conversion function;
Storing the segment distribution conversion function, the continuation length distribution conversion function, and the F0 distribution conversion function in the storage unit before creating the utterance text set candidate.
A method for generating a text set for speech.
朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を、予め記憶している記憶部と、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出部と、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換部と、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。 An utterance text set creation device for creating a text set read by a speaker when constructing a speech segment DB for speech synthesis,
A storage unit that stores in advance a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the target X tone;
A utterance text set candidate creation unit that randomly extracts a predetermined number of sentences from a large amount of Japanese sentence DB and creates utterance text set candidates;
A second parameter distribution extraction unit that performs speech synthesis processing by a speech synthesis program using the utterance text set candidate, obtains a predetermined parameter from speech synthesis data, and extracts a distribution of the obtained parameter;
A parameter distribution conversion unit that takes out the parameter distribution conversion function from the storage unit and converts the parameter distribution obtained from the speech synthesis data using the parameter distribution conversion function;
An evaluation unit that evaluates the utterance text set candidate using the converted parameter distribution;
An utterance text set generation device characterized by the above.
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出部と、
朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。 The utterance text set generation device according to claim 5,
A first parameter distribution for obtaining predetermined parameters from the reading-tone natural voice data read out from the predetermined document in the reading-tone and the X-tone natural voice data read out from the same document in the X-tone, and extracting the parameter distribution, respectively. An extractor;
A parameter distribution conversion function calculation unit for calculating a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the X tone,
The storage unit stores the parameter distribution conversion function before generating a text set candidate for utterance.
An utterance text set generation device characterized by the above.
朗読口調の自然音声データから求めた各音声素片の出現頻度分布(以下「素片分布」という)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)及び音声素片毎の基本周波数パタンの出現頻度の分布((以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されている記憶部と、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出部と、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出部と、
音声素片毎の音韻継続時間長を求め継続長分布を抽出する第2継続長分布抽出部と、
音声素片毎の基本周波数パタンを求めF0分布を抽出する第2F0分布抽出部と、
前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換部と、
変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。 An utterance text set creation device for creating a text set read by a speaker when constructing a speech segment DB for speech synthesis,
Appearance frequency distribution of each speech segment (hereinafter referred to as “segment distribution”) obtained from natural speech data of reading tone, and distribution of appearance frequency of phoneme duration length for each speech segment (hereinafter referred to as “continuation length distribution”) Distribution of frequency of appearance of fundamental frequency patterns for each speech unit (hereinafter referred to as “F0 distribution”), frequency distribution of speech units obtained from natural speech data of target X tone, speech unit A storage unit in which a duration distribution for each unit, a unit distribution conversion function for converting into a F0 distribution for each speech unit, a duration distribution conversion function, and an F0 distribution conversion function are stored in advance;
A utterance text set candidate creation unit that randomly extracts a predetermined number of sentences from a large amount of Japanese sentence DB and creates utterance text set candidates;
Using the utterance text set candidates, the speech synthesis process is performed by a speech synthesis program, and the phoneme sequence, the fundamental frequency pattern, and the phoneme duration time length are extracted from the speech synthesis data. And
A second segment distribution extraction unit for obtaining an appearance frequency of each speech segment from the phoneme sequence and extracting a segment distribution;
A second duration distribution extraction unit for obtaining a phoneme duration for each speech unit and extracting a duration distribution;
A second F0 distribution extraction unit for obtaining a fundamental frequency pattern for each speech unit and extracting an F0 distribution;
A segment distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function are extracted from the storage unit, and the segment distribution, duration distribution, and F0 distribution obtained from the speech synthesis data using these distribution conversion functions, respectively. A parameter distribution conversion unit for converting
An evaluation function that calculates an evaluation function using the segment distribution after conversion, duration distribution, and F0 distribution, and evaluates the utterance text set candidate,
An utterance text set generation device characterized by the above.
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリング部と、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、素片分布を抽出する第1素片分布抽出部と、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出する第1継続長分布抽出部と、
音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1F0分布抽出部と、
朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。 The utterance text set generation device according to claim 7,
A phonological labeling unit that assigns a phonological label to the reading-tone natural voice data that reads a predetermined document in a reading-tone and the X-tone natural voice data that reads the same document in an X-tone;
A first unit distribution extraction unit that refers to the whole speech unit variation storage unit, assigns a speech unit number to a speech unit obtained from each natural speech data, and extracts a unit distribution;
A first duration distribution extractor for calculating a phoneme duration for each speech unit and extracting a duration distribution;
A first F0 distribution extraction unit that extracts a fundamental frequency pattern for each speech unit and extracts an F0 distribution;
A segment distribution conversion function for converting a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in reading tone into a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in X tone, A parameter distribution conversion function calculation unit for calculating a continuation length distribution conversion function and an F0 distribution conversion function,
The storage unit stores the element distribution conversion function, the duration distribution conversion function, and the F0 distribution conversion function before creating the utterance text set candidate.
An utterance text set generation device characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112423A JP5320341B2 (en) | 2010-05-14 | 2010-05-14 | Speaking text set creation method, utterance text set creation device, and utterance text set creation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010112423A JP5320341B2 (en) | 2010-05-14 | 2010-05-14 | Speaking text set creation method, utterance text set creation device, and utterance text set creation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242470A JP2011242470A (en) | 2011-12-01 |
JP5320341B2 true JP5320341B2 (en) | 2013-10-23 |
Family
ID=45409217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010112423A Expired - Fee Related JP5320341B2 (en) | 2010-05-14 | 2010-05-14 | Speaking text set creation method, utterance text set creation device, and utterance text set creation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5320341B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015092936A1 (en) | 2013-12-20 | 2015-06-25 | 株式会社東芝 | Speech synthesizer, speech synthesizing method and program |
JP6271748B2 (en) | 2014-09-17 | 2018-01-31 | 株式会社東芝 | Audio processing apparatus, audio processing method, and program |
JP7348027B2 (en) * | 2019-10-28 | 2023-09-20 | 株式会社日立製作所 | Dialogue system, dialogue program, and method of controlling the dialogue system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02106799A (en) * | 1988-10-14 | 1990-04-18 | A T R Shichiyoukaku Kiko Kenkyusho:Kk | Synthetic voice emotion imparting circuit |
-
2010
- 2010-05-14 JP JP2010112423A patent/JP5320341B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011242470A (en) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7603278B2 (en) | Segment set creating method and apparatus | |
JP4125362B2 (en) | Speech synthesizer | |
JP5665780B2 (en) | Speech synthesis apparatus, method and program | |
JP6266372B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program | |
Donovan et al. | A hidden Markov-model-based trainable speech synthesizer | |
JP3910628B2 (en) | Speech synthesis apparatus, speech synthesis method and program | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
KR20070077042A (en) | Apparatus and method of processing speech | |
JP5411845B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP2020034883A (en) | Voice synthesizer and program | |
WO2015025788A1 (en) | Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JP5320341B2 (en) | Speaking text set creation method, utterance text set creation device, and utterance text set creation program | |
JP6330069B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JP6436806B2 (en) | Speech synthesis data creation method and speech synthesis data creation device | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP6170384B2 (en) | Speech database generation system, speech database generation method, and program | |
Ninh | A speaker-adaptive hmm-based vietnamese text-to-speech system | |
JP5722295B2 (en) | Acoustic model generation method, speech synthesis method, apparatus and program thereof | |
JP2003208188A (en) | Japanese text voice synthesizing method | |
JP2011141470A (en) | Phoneme information-creating device, voice synthesis system, voice synthesis method and program | |
JP2018205768A (en) | Utterance rhythm conversion device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5320341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |