JP5320341B2 - Speaking text set creation method, utterance text set creation device, and utterance text set creation program - Google Patents

Speaking text set creation method, utterance text set creation device, and utterance text set creation program Download PDF

Info

Publication number
JP5320341B2
JP5320341B2 JP2010112423A JP2010112423A JP5320341B2 JP 5320341 B2 JP5320341 B2 JP 5320341B2 JP 2010112423 A JP2010112423 A JP 2010112423A JP 2010112423 A JP2010112423 A JP 2010112423A JP 5320341 B2 JP5320341 B2 JP 5320341B2
Authority
JP
Japan
Prior art keywords
distribution
speech
unit
text set
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010112423A
Other languages
Japanese (ja)
Other versions
JP2011242470A (en
Inventor
公人 田中
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010112423A priority Critical patent/JP5320341B2/en
Publication of JP2011242470A publication Critical patent/JP2011242470A/en
Application granted granted Critical
Publication of JP5320341B2 publication Critical patent/JP5320341B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラムに関する。   The present invention relates to an utterance text set creation method, an utterance text set creation apparatus, and an utterance text set creation program for creating a text set read by a speaker when constructing a speech synthesis unit DB.

波形接続型音声合成システムは、音声合成を行う際に、音声素片を接続する必要があるため、音声合成用音声素片DBを有する。なお、音声素片とは、予め用意した短い単位の音声データである。例えば、音声素片の単位としては、CV、VCV、CVC、[C]V等があり、個別のTTS(text-to-speech system)に依存する。但し、Cは子音を、Vは母音を表し、[C]はCがない場合がありえることを、Vは1つ以上のVの連鎖を表す。音声合成用音声素片DBを構築する際には、予め発声者が発声用テキストセットを読み上げ、その自然音声データを用いて、音声素片を求める必要がある。なお、自然音声データとは、単語、文等の自然な単位で発声者が発声した音を収録した音声データであり、音声合成用音声素片DBとは、自然音声データから音声合成に必要な音声素片のみを抽出したデータベースである。より自然な音声合成処理を行うために、音声合成用音声素片DBには、音声合成に必要な音声素片がより多く含まれることが望まれる。そのためには、発声用テキストセットが、音声素片を効率的に収集することができる文章からなることが必要である。 The waveform connection type speech synthesis system has a speech unit DB for speech synthesis because it is necessary to connect speech units when performing speech synthesis. Note that the speech segment is a short unit of speech data prepared in advance. For example, there are CV, VCV, CVC, [C] V *, etc. as speech unit units, which depend on individual TTS (text-to-speech system). However, C represents a consonant, V represents a vowel, [C] represents that there may be no C, and V * represents a chain of one or more Vs. When constructing the speech unit DB for speech synthesis, it is necessary for the speaker to read the speech text set in advance and obtain the speech unit using the natural speech data. Note that the natural speech data is speech data that records sounds uttered by a speaker in natural units such as words and sentences, and the speech synthesis speech unit DB is necessary for speech synthesis from natural speech data. It is a database that extracts only speech segments. In order to perform more natural speech synthesis processing, it is desired that the speech synthesis speech unit DB includes more speech units necessary for speech synthesis. For this purpose, it is necessary that the utterance text set is composed of sentences that can efficiently collect speech segments.

多様な口調や発話スタイル、豊かな感情を含んだ音声を高品質に合成する場合、目的とする口調や発話スタイル、感情を含んだ音声(以下「X口調」という)から作成された音声素片DBを用いた方が、朗読口調で発声された音声から作成された音声素片DBを用いるよりも合成音声の品質が高くなることが、非特許文献1により知られている。これは、X口調のバリエーション毎に、韻律やスペクトルの特徴が異なるため、大きな韻律変形量及びスペクトルの差異によって生じる自然性等の低下が原因であると考えられる。なお、発話スタイルとは、話者の環境や文化等によって起こる音響特性のことであり、例えば、方言、早口、ぞんざいな話し方、丁寧な話し方、ゆっくりとした話し方、はっきりと発音しない話し方等である。また、感情とは、悲しげな話し方、楽しげな話し方等である。口調とは、口に出したときの言葉の調子や、ものの言い方のようすのことであり、前記発話スタイルや感情を含んだ音声を含む概念とする。韻律の特徴とは声の高さ、イントネーション、リズム、ポーズ等であり、スペクトルとは、音声を周波数成分に分け、周波数毎の強さを表したものである。   When synthesizing high-quality speech that includes a variety of tone, utterance styles, and rich emotions, speech segments created from speech that includes the desired tone, utterance style, and emotion (hereinafter referred to as “X tone”) It is known from Non-Patent Document 1 that the quality of synthesized speech is higher when a DB is used than when a speech segment DB created from speech uttered in a reading tone is used. This is considered to be caused by a decrease in naturalness and the like caused by a large prosodic deformation amount and a difference in spectrum because prosody and spectral characteristics are different for each variation of X tone. Note that the utterance style refers to the acoustic characteristics that occur depending on the speaker's environment and culture, such as dialects, fast speech, awkward speaking, polite speaking, slow speaking, and how to speak clearly. . In addition, emotions include a sad way of speaking and a pleasant way of speaking. The tone refers to the tone of words when they are put out to the mouth and the way of saying things, and is a concept that includes speech that includes the speech style and emotions. Prosodic features are voice pitch, intonation, rhythm, pose, and the like, and a spectrum is a representation of the strength of each frequency divided into frequency components.

一般的には大量日本語テキストの音韻列及び韻律特徴のカバレッジを最大化するようなアルゴリズムを用いて発声用テキストセットが作成されていた(非特許文献2参照)。なお、音韻列とは、音韻(音素)の列であり、読み仮名である。音韻とは、任意の個別言語において意味の区別(弁別)に用いられる最小の音の単位を指し、母音や子音等である。また、カバレッジとは、波形接続型音声合成システムで音声合成を行う際に、処理対象のテキストを音声合成する際に必要となる音声素片が、音素環境、音韻継続時間長及び基本周波数パタンを考慮したときに、音声合成用音声素片DBに含まれている確率である。   In general, an utterance text set has been created using an algorithm that maximizes the coverage of phoneme strings and prosodic features of a large amount of Japanese text (see Non-Patent Document 2). The phoneme string is a string of phonemes (phonemes) and is a reading pseudonym. A phoneme refers to a minimum sound unit used for distinction (discrimination) of meaning in an arbitrary individual language, such as a vowel or a consonant. In addition, coverage means that when speech synthesis is performed in a waveform-connected speech synthesis system, the speech segments required for speech synthesis of the text to be processed are the phoneme environment, phoneme duration length, and fundamental frequency pattern. It is the probability of being included in the speech synthesis speech element DB when considered.

大西浩二、益子貴史、小林隆夫著、「HMM音声合成における異なる発話スタイルの生成の検討」、電子情報通信学会技術研究報告、2003年、102巻、619号(SP2002-17)、p17〜22Koji Onishi, Takashi Masuko, Takao Kobayashi, "Examination of generation of different utterance styles in HMM speech synthesis", IEICE Technical Report, 2003, 102, 619 (SP2002-17), p17-22 河井恒、樋口宜男、山本誠一著、「基本周波数及び音素時間継続時間長を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会論文誌(D−II)、1999年8月、Vol.J82−D−II、no.8、p.1229−1238Tsuyoshi Kawai, Yoshio Higuchi, Seiichi Yamamoto, “Creation of waveform segment data set for speech synthesis considering fundamental frequency and duration of phoneme duration”, IEICE Transactions (D-II), 1999 8 Month, Vol. J82-D-II, no. 8, p. 1229-1238

発声用テキストセットを作成する際に、漢字仮名混じり文の大量日本語テキストから音韻列を推定するために、音声合成プログラムが用いられるが、一般的な音声合成プログラムは朗読口調で読み上げる場合を想定している。そのため、従来技術は、X口調で発声する場合に、推定した通りに発声者が発声しない場合が生じる。例えば、朗読口調を想定した一般的な音声合成プログラムを利用して音韻列を推定して発声用テキストセットを作成し、それを用いてX口調で発声者が発声した場合、音声合成プログラムが推定した音韻列と実際にX口調で発声して得られる音韻列に差(読みの揺れ)が生じると想定される。例えば、「明日」という単語は、一般的な音声合成プログラムを用いて音韻列を推定すると“あし^た”(^は無声化を表す記号)となるが、驚きの感情で発声すると“あし^たー”と語尾が長母音化する。また、強調した発声の場合“あした!”と“し”が無声化しなかったりする場合が想定される。   When creating a text set for utterance, a speech synthesis program is used to estimate phonological sequences from a large amount of Japanese text in a kanji-kana mixed sentence, but a general speech synthesis program is assumed to be read out in a reading tone. doing. Therefore, in the conventional technique, when speaking in X tone, the speaker may not utter as estimated. For example, using a general speech synthesis program that assumes reading tone, create a text set for utterance by estimating the phoneme sequence, and if the speaker utters in X tone, the speech synthesis program estimates It is assumed that there is a difference (reading fluctuation) between the phoneme sequence obtained and the phoneme sequence actually obtained by speaking in X tone. For example, the word “Tomorrow” is “Ashi ^ ta” (^ is a symbol for devoicing) when the phoneme sequence is estimated using a general speech synthesis program, but “Ashi ^ "Tau" and ending vowels. Further, in the case of emphasized utterances, it may be assumed that “Ashita!” And “Shi” are not devoiced.

このように、発声用テキストセット生成時に想定した音韻列と、実際にX口調で発声して得られる音韻列とが異なる場合、発声用テキストセット生成時に計算した「音韻列及び韻律特徴のカバレッジ最大化」が想定した通り実現されず、それにより合成音声の品質が低下するという問題がある。   As described above, when the phoneme sequence assumed at the time of generating the utterance text set is different from the phoneme sequence obtained by actually uttering in the X tone, Is not realized as expected, which causes a problem that the quality of the synthesized speech is lowered.

前記の課題を解決するために、本発明に係る発声用テキストセット作成技術は、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を予め記憶しておき、発声用テキストセット候補を用いて音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、パラメータ分布変換関数を用いて、求めたパラメータの分布を変換し、変換後のパラメータ分布を用いて発声用テキストセット候補を評価する。   In order to solve the above-described problem, the utterance text set creation technology according to the present invention uses the parameter distribution obtained from the natural speech data of reading tone and the parameter distribution obtained from the natural speech data of target X tone. A parameter distribution conversion function to be converted into a pre-stored, speech synthesis processing is performed by the speech synthesis program using the utterance text set candidate, a predetermined parameter is obtained from the speech synthesis data, and the parameter distribution conversion function is used, The obtained parameter distribution is converted, and the utterance text set candidates are evaluated using the converted parameter distribution.

本発明は、朗読口調以外の口調で発声した場合にも、音韻列及び韻律特徴のカバレッジを最大化する発声用テキストセットを生成することができるという効果を奏する。   The present invention produces an effect that it is possible to generate an utterance text set that maximizes the coverage of phoneme strings and prosodic features even when uttered in a tone other than reading tone.

発声用テキストセット作成部の構成図。The block diagram of the utterance text set preparation part. 発声用テキストセット作成部の処理フローを示す図。The figure which shows the processing flow of the utterance text set preparation part. 変換関数作成部の構成図。The block diagram of a conversion function preparation part. 変換関数作成部の処理フローを示す図。The figure which shows the processing flow of a conversion function preparation part. (a−1)朗読口調における素片分布を、(a−2)X口調における素片分布を、(b−1)朗読口調における継続長分布を、(b−2)X口調における継続長分布を、(c−1)朗読口調におけるF0分布を、(b−2)X口調におけるF0分布を示す図。(A-1) Segment distribution in reading tone, (a-2) Segment distribution in X tone, (b-1) Duration distribution in reading tone, (b-2) Duration distribution in X tone (C-1) The F0 distribution in reading tone, (b-2) The figure which shows F0 distribution in X tone. テキストセット作成部の構成図。The block diagram of a text set preparation part. テキストセット作成部の処理フローを示す図。The figure which shows the processing flow of a text set preparation part.

以下、本発明の実施の形態について、詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail.

<発声用テキストセット作成装置1000>
図1及び図2を用いて実施例1に係る発声用テキストセット作成装置1000を説明する。発声用テキストセット作成装置1000は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する。
<Speaking text set creation device 1000>
An utterance text set creation apparatus 1000 according to the first embodiment will be described with reference to FIGS. 1 and 2. The utterance text set creation apparatus 1000 creates a text set read by the utterer when the speech synthesis speech segment DB is constructed.

発声用テキストセット作成装置1000は、入出力インタフェース部101と、変換関数作成部100と、記憶部203と、テキストセット作成部200を有する。   The utterance text set creation apparatus 1000 includes an input / output interface unit 101, a conversion function creation unit 100, a storage unit 203, and a text set creation unit 200.

発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、発声用テキストセット作成者(以下「ユーザ」という)から変換関数作成指示を受信すると、変換関数作成部100は、オフライン処理により、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数(例えば、後述する素片分布変換関数、継続長分布変換関数及びF0分布変換関数)を作成し(s100)、後述する発声用テキストセット候補を作成する前に、記憶部203に記憶する。   When the utterance text set creation apparatus 1000 receives a conversion function creation instruction from the utterance text set creator (hereinafter referred to as “user”) via the input / output interface unit 101, the conversion function creation unit 100 performs offline processing. , A parameter distribution conversion function that converts a parameter distribution obtained from natural speech data of reading tone to a parameter distribution obtained from natural speech data of target X tone (for example, a segment distribution conversion function, a continuation length described later) Distribution conversion function and F0 distribution conversion function) are created (s100), and stored in the storage unit 203 before the utterance text set candidate to be described later is created.

さらに、発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、ユーザからテキストセット作成指示と口調指定情報を受信すると(s101)、テキストセット作成部200は、オンライン処理により、X口調で発声した場合のカバレッジを最大化するテキストセットを作成し(s200)、入出力インタフェース部101を介して、ユーザに出力する。以下各部の処理内容を説明する。   Furthermore, when the utterance text set creation device 1000 receives a text set creation instruction and tone designation information from the user via the input / output interface unit 101 (s101), the text set creation unit 200 performs an X tone by online processing. A text set for maximizing the coverage when uttered in step S200 is created (s200) and output to the user via the input / output interface unit 101. The processing contents of each unit will be described below.

<入出力インタフェース部101>
入出力インタフェース部101は、ユーザからの入力を受け付けると共に、当該ユーザに対して情報を出力する。例えば、データが入力される入力インタフェース(例えばキーボード、マウス等)とデータが出力される出力インタフェース(例えばディスプレイ、プリンタ等)、または、それらの入出力インタフェースに対する入出力端子からなる。また、発声用テキストセット作成装置1000がネットワーク上のサーバ等であり、ユーザがネットワークを介してアクセスする場合には、入出力インタフェース部101は、ユーザとデータを送受信するための通信部等であってもよい。
<Input / output interface unit 101>
The input / output interface unit 101 receives input from a user and outputs information to the user. For example, an input interface (for example, a keyboard, a mouse, etc.) for inputting data and an output interface (for example, a display, a printer, etc.) for outputting data, or input / output terminals for these input / output interfaces are included. In addition, when the utterance text set creation apparatus 1000 is a server on the network and the user accesses via the network, the input / output interface unit 101 is a communication unit for transmitting and receiving data to and from the user. May be.

<記憶部203>
記憶部203は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部203に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。なお、後述する素片分布変換関数DB234、継続長分布変換関数DB236及びF0分布変換関数DB238は、記憶部203の一部であってもよい。
<Storage unit 203>
The storage unit 203 stores / reads each input / output data and each data of the calculation process one by one. Thereby, each calculation process is advanced. However, the data need not necessarily be stored in the storage unit 203, and data may be directly transferred between the units. Note that an element distribution conversion function DB 234, a continuation length distribution conversion function DB 236, and an F0 distribution conversion function DB 238 described later may be part of the storage unit 203.

<変換関数作成部100>
変換関数作成部100は、例えば、X口調で人間が発声した自然音声を利用して、朗読口調とX口調の差分(音韻列に含まれる音声素片の出現頻度分布の差、音声素片毎の音韻継続時間長の出現頻度分布の差、音声素片毎の基本周波数パタンの出現頻度分布の差)を抽出し、パラメータ分布変換関数を求め、これを記憶部203に記憶する。
<Conversion function creation unit 100>
The conversion function creation unit 100 uses, for example, natural speech uttered by a human in X tone, and uses a difference between reading tone tone and X tone (difference in frequency distribution of speech units included in the phoneme sequence, each speech unit The difference between the appearance frequency distributions of the phoneme duration lengths and the difference in the appearance frequency distributions of the basic frequency patterns for each speech unit) is extracted, and a parameter distribution conversion function is obtained and stored in the storage unit 203.

図3及び図4を用いて変換関数作成部100を説明する。変換関数作成部100は、自然音声DB110と、音韻ラベリング部111と、第1パラメータ分布抽出部120と、パラメータ分布変換関数算出部130とを備える。   The conversion function creation unit 100 will be described with reference to FIGS. 3 and 4. The conversion function creation unit 100 includes a natural speech DB 110, a phonological labeling unit 111, a first parameter distribution extraction unit 120, and a parameter distribution conversion function calculation unit 130.

(自然音声DB110及び音韻ラベリング部111)
自然音声DB110は、朗読口調自然音声データとX口調自然音声データとを予め記憶しておく。例えば、各自然音声データは、同じテキスト(例えば「旋回する」)を朗読口調とX口調で読み上げたものである。なお、X口調として様々なバリエーションを有してもよく、バリエーション毎に自然音声データを作成し、記憶する。
(Natural speech DB 110 and phonological labeling unit 111)
The natural voice DB 110 stores read-tone natural voice data and X-tone natural voice data in advance. For example, each natural voice data is obtained by reading the same text (for example, “turn”) in a reading tone and an X tone. Note that the X tone may have various variations, and natural voice data is created and stored for each variation.

音韻ラベリング部111は、入出力インタフェース部101を介して変換関数作成指示を受信すると、自然音声DB110から、朗読口調自然音声データとX口調自然音声データとを取得し(s110)、各自然音声データに、手動または自動で、音韻ラベル(例えば/seNkaisuru/等)を付与し(s111)、取得した各自然音声データとそれに対するラベルデータを素片分布抽出部123に出力する。   When receiving the conversion function creation instruction via the input / output interface unit 101, the phonological labeling unit 111 acquires the reading-tone natural sound data and the X-tone natural sound data from the natural sound DB 110 (s110), and each natural sound data. The phoneme label (for example, / seNkaisuru / etc.) is assigned manually or automatically (s111), and the acquired natural speech data and the corresponding label data are output to the segment distribution extraction unit 123.

(第1パラメータ分布抽出部120)
第1パラメータ分布抽出部120は、所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する(s120)。
(First parameter distribution extraction unit 120)
The first parameter distribution extraction unit 120 obtains predetermined parameters from the reading-tone natural voice data obtained by reading a predetermined document in the reading tone and the X-tone natural voice data obtained by reading the same document in the X-tone, respectively. Is extracted (s120).

例えば、第1パラメータ分布抽出部120は、全音声素片バリエーション記憶部122と、素片分布抽出部123と、継続長分布抽出部125と、F0分布抽出部127とを備える。   For example, the first parameter distribution extraction unit 120 includes an all speech unit variation storage unit 122, a unit distribution extraction unit 123, a duration distribution extraction unit 125, and an F0 distribution extraction unit 127.

{全音声素片バリエーション記憶部122及び素片分布抽出部123}
素片分布抽出部123は、全音声素片バリエーション記憶部122を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し(s123a)、音声素片の出現頻度の分布(以下「素片分布」という)を抽出する(s123b)。
{All speech segment variation storage unit 122 and segment distribution extraction unit 123}
The segment distribution extraction unit 123 refers to the all speech unit variation storage unit 122 and assigns a speech unit number to each speech unit obtained from each natural speech data (s123a), so that the speech unit appears. A frequency distribution (hereinafter referred to as “segment distribution”) is extracted (s123b).

全音声素片バリエーション記憶部122には、音声素片(または音声素片から得られる特徴量や音声素片に対応するラベルデータ等)と各音声素片に対する音声素片番号が記憶されている。但し、全音声素片バリエーション記憶部122に記憶される音声素片は、開発しようとするテキスト音声合成システムに依存したものになる。   The speech unit variation storage unit 122 stores speech units (or feature values obtained from speech units, label data corresponding to speech units, etc.) and speech unit numbers for each speech unit. . However, the speech unit stored in the all speech unit variation storage unit 122 depends on the text speech synthesis system to be developed.

素片分布抽出部123は、各自然音声データとラベルデータを受信し、自然音声データから得られる音声素片をキーとして、全音声素片バリエーション記憶部122を検索し、各音声素片に対する音声素片番号を取得する。得られた音声素片番号の数(出現頻度)に基づき、全ての音声素片の種類毎の出現頻度を求め、その素片分布を抽出する。素片分布を素片分布変換関数算出部133に、各自然音声データとそれに紐付けられた音声素片番号を継続長分布抽出部125とF0分布抽出部127に送信し、継続長分布抽出部125にはさらに各自然音声データに付与したラベルデータも送信する。   The segment distribution extraction unit 123 receives each natural speech data and label data, searches the entire speech unit variation storage unit 122 using a speech unit obtained from the natural speech data as a key, and performs speech for each speech unit. Get the segment number. Based on the number of speech unit numbers obtained (appearance frequency), the appearance frequency for every type of all speech units is obtained, and the segment distribution is extracted. The unit distribution is transmitted to the unit distribution conversion function calculating unit 133, and each natural speech data and the speech unit number associated therewith are transmitted to the duration distribution extracting unit 125 and the F0 distribution extracting unit 127, and the duration distribution extracting unit Further, the label data attached to each natural voice data is also transmitted to 125.

{継続長分布抽出部125}
継続長分布抽出部125は、ラベルデータと、音声素片番号を受信し、これを用いて、音声素片毎の音韻継続時間長を計算し(s125a)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)を抽出し(s125b)、これを継続長分布変換関数算出部135に送信する。なお、音韻継続長はベクトルデータとして計算される。例えば、音声素片”KAS”の各音韻の継続時間長がそれぞれ、Kの長さが12ms、Aの長さが22ms、Sの長さが11msの場合には、ベクトルデータを(12,22,11)とする。但し、他の従来技術により音声素片毎の音韻継続時間長を表してもよい。
{Continuation length distribution extraction unit 125}
The continuation length distribution extracting unit 125 receives the label data and the speech unit number, and calculates the phoneme duration for each speech unit using the label data and the speech unit number (s125a), and the phoneme duration for each speech unit. Is extracted (s125b) and transmitted to the duration distribution conversion function calculation unit 135. The phoneme continuation length is calculated as vector data. For example, when the duration length of each phoneme of the speech unit “KAS” is 12 ms for K, 22 ms for A, and 11 ms for S, the vector data is (12, 22). 11). However, the phoneme duration for each speech unit may be represented by other conventional techniques.

{F0分布抽出部127}
F0分布抽出部127は、自然音声データと、音声素片番号と、ラベルデータとを受信し、これらを用いて、音声素片毎の基本周波数パタンを抽出し(s127a)、音声素片毎の基本周波数パタンの出現頻度の分布(以下「F0分布」という)を抽出し(s127b)、F0分布抽出部127に送信する。なお、基本周波数パタンはベクトルデータとして計算される。例えば、音声素片”ASU”の各音韻の基本周波数パタンの周波数の平均値がそれぞれ、Aの平均値が120Hz、Sの平均値が0Hz(Sは無声子音であり基本周波数がないため)、Uの平均値が220Hzの場合には、ベクトルデータを(120,0,220)とする。但し、基本周波数パタンの指定方法は、この方法以外にも様々なものがあり、他の従来技術により音声素片毎の基本周波数パタンを表してもよい。例えば、音声素片の基本周波数パタンの周波数の平均値と、周波数の分散と、始点の周波数と、終点の周波数からなるベクトルデータを抽出してもよいし、音韻毎に平均値をとるのではなく、基本周波数の時間的変化パタンを3点の折れ線で近似してもよい。
{F0 distribution extraction unit 127}
The F0 distribution extraction unit 127 receives the natural speech data, the speech unit number, and the label data, and extracts the fundamental frequency pattern for each speech unit using these (s127a), A frequency distribution of basic frequency patterns (hereinafter referred to as “F0 distribution”) is extracted (s127b) and transmitted to the F0 distribution extraction unit 127. The fundamental frequency pattern is calculated as vector data. For example, the average value of the fundamental frequency pattern frequency of each phoneme of the speech unit “ASU” is 120 Hz and the average value of S is 0 Hz (since S is an unvoiced consonant and has no fundamental frequency), When the average value of U is 220 Hz, the vector data is (120, 0, 220). However, there are various basic frequency pattern designation methods other than this method, and the fundamental frequency pattern for each speech unit may be represented by other conventional techniques. For example, vector data consisting of the average value of the fundamental frequency pattern of the speech element, the frequency variance, the start point frequency, and the end point frequency may be extracted, or the average value may be taken for each phoneme. Alternatively, the temporal change pattern of the fundamental frequency may be approximated by a three-point broken line.

(パラメータ分布変換関数算出部130)
パラメータ分布変換関数算出部130は、朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出する(s130)。
(Parameter distribution conversion function calculation unit 130)
The parameter distribution conversion function calculation unit 130 calculates a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data in the reading tone into the parameter distribution obtained from the natural speech data in the X tone (s130).

例えば、パラメータ分布変換関数算出部130は、素片分布変換関数算出部133と、継続長分布変換関数算出部135と、F0分布変換関数算出部137とを備える。   For example, the parameter distribution conversion function calculation unit 130 includes an element distribution conversion function calculation unit 133, a duration distribution conversion function calculation unit 135, and an F0 distribution conversion function calculation unit 137.

{素片分布変換関数算出部133}
素片分布変換関数算出部133は、各自然音声データから求めた素片分布を受信し、朗読口調の自然音声データから求めた素片分布(図5(a−1))を、X口調の自然音声データから求めた素片分布(図5(a−2))に変換する素片分布変換関数を算出し(s133)、素片分布変換関数DB234に送信し、登録する。図5の上段は、朗読口調からX口調へ素片出現頻度分布を変換する素片分布変換関数fのイメージを示している。(a−1)及び(a−2)の横軸上にN個の音声素片番号が左から順番に並べられている。縦軸は出現頻度である。変換関数fは、左の分布を右の分布に変換する関数である。これにより、読みの揺れに関する両口調間の差などを変換関数fに織り込むことができる。
{Element distribution conversion function calculation unit 133}
The segment distribution conversion function calculation unit 133 receives the segment distribution obtained from each natural speech data, and converts the segment distribution (FIG. 5 (a-1)) obtained from the natural speech data of the reading tone to the X tone. A segment distribution conversion function to be converted into the segment distribution (FIG. 5 (a-2)) obtained from the natural speech data is calculated (s133), transmitted to the segment distribution conversion function DB 234, and registered. The upper part of FIG. 5 shows an image of the segment distribution conversion function f for converting the segment appearance frequency distribution from the reading tone to the X tone. N speech unit numbers are arranged in order from the left on the horizontal axis of (a-1) and (a-2). The vertical axis represents the appearance frequency. The conversion function f is a function for converting the left distribution into the right distribution. As a result, the difference between the two tones relating to the reading swing can be incorporated into the conversion function f.

例えば、音声素片の種類数をNとするとき、音声素片毎に朗読口調の素片分布{u1w,u2w,…,nNw}とX口調の素片分布{u1x,u2x,…,nNx}との差分{u1w−u1x,u2w−u2x,…,nNw−uNx}を求め、記憶しておく。後述する素片分布変換部233において、素片分布変換関数は、入力される素片分布から、この差分を差し引くことで分布を変換する。また、例えば、素片分布変換関数は、音声素片毎に朗読口調の素片分布とX口調の素片分布との比を、入力される素片分布に乗じることで変換してもよい。また他の方法によって、朗読口調の素片分布をX口調の素片分布に変換してもよい。なお、素片分布変換関数算出部133はX口調のバリエーション数分の素片分布変換関数を算出し、素片分布変換関数DB234に送信し、登録する。 For example, when the number of types of speech segments is N, the segment distribution of reading tone {u 1w , u 2w ,..., N Nw } and the segment distribution of X tone {u 1x , u 2x for each speech unit. ,..., N Nx }, the difference {u 1w −u 1x , u 2w −u 2x ,..., N Nw −u Nx } is obtained and stored. In the element distribution conversion unit 233 described later, the element distribution conversion function converts the distribution by subtracting this difference from the input element distribution. Further, for example, the segment distribution conversion function may be converted by multiplying the input segment distribution by the ratio between the reading tone segment distribution and the X tone segment distribution for each speech segment. The reading tone segment distribution may be converted into an X tone segment distribution by other methods. The element distribution conversion function calculation unit 133 calculates the element distribution conversion functions for the number of variations of the X tone, and transmits and registers them in the element distribution conversion function DB 234.

{継続長分布変換関数算出部135}
継続長分布変換関数算出部135は、各自然音声データの音声素片毎の継続長分布を受信し、朗読口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−1))を、X口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−2))に変換する継続長分布変換関数を算出し(s135)、継続長分布変換関数DB236に送信し、登録する。よって、継続長分布変換関数DB236には、(X口調のバリエーション数)×(音声素片の種類数N)分の継続長分布変換関数が登録されることになる。図5の中段は、朗読口調からX口調へ音韻継続時間長の出現頻度分布を変換する継続長分布変換関数のイメージを示している。左側が朗読口調におけるある音声素片iの音韻継続時間長の出現頻度(音韻継続時間長ベクトルのバリエーション数をMiとする)、右側がX口調におけるある音声素片iの音韻継続時間長の出現頻度を示しており、(b−1)及び(b−2)の横軸上にMi個の音韻継続長ベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数giは、左の分布を右の分布に変換する関数である。
{Duration distribution conversion function calculation unit 135}
The continuous length distribution conversion function calculation unit 135 receives the continuous length distribution for each speech unit of each natural speech data, and the continuous length distribution for each speech unit obtained from the natural speech data of the reading tone (FIG. 5 (b- 1)) is calculated into a continuous length distribution conversion function (FIG. 5 (b-2)) for each speech unit obtained from natural speech data of X tone (s135), and a continuous length distribution conversion is performed. It transmits to function DB236 and registers. Accordingly, the continuous length distribution conversion function DB 236 is registered with continuous length distribution conversion functions for (the number of X tone variations) × (the number N of speech segment types). The middle part of FIG. 5 shows an image of a duration distribution conversion function for converting the appearance frequency distribution of the phoneme duration from the reading tone to the X tone. Appearance frequency of phoneme duration length of a speech unit i in the reading tone on the left (Mi is the number of variations of the phoneme duration vector), and appearance of the phoneme duration of a phoneme i in the X tone The frequency is shown, and Mi phoneme continuation length vectors are arranged in order from the left on the horizontal axis of (b-1) and (b-2). The vertical axis represents the appearance frequency. The conversion function gi is a function for converting the left distribution into the right distribution.

例えば、ある音声素片iに対する音韻継続時間長ベクトルのバリエーション数をMiとするとき、音声素片毎に朗読口調の継続長分布{u1w,u2w,…,nMiw}とX口調の継続長分布{u1x,u2x,…,nMix}との差分{u1w−u1x,u2w−u2x,…,nMiw−uMix}を求め、記憶しておく。後述する継続長分布変換部235において、継続長分布変換関数は、入力される継続長分布から、この差分を差し引くことで分布を変換する。この処理を全ての音声素片に対して行う。また他の方法によって、朗読口調の継続長分布をX口調の継続長分布に変換してもよい。後述するF0分布変換関数算出部137及びF0分布変換部237についても同様の処理により、F0分布変換関数を求め、F0分布を変換することができる。 For example, when the number of variations of the phoneme duration length vector for a certain speech unit i is Mi, the continuous length distribution {u 1w , u 2w ,..., N Miw } for each speech unit and the continuation of the X tone the length distribution {u 1x, u 2x, ... , n Mix} and the difference {u 1w -u 1x, u 2w -u 2x, ..., n Miw -u Mix} sought and stored. In the continuation length distribution conversion unit 235 described later, the continuation length distribution conversion function converts the distribution by subtracting this difference from the input continuation length distribution. This process is performed for all speech segments. Further, the reading tone tone duration distribution may be converted into the X tone duration duration distribution by other methods. The F0 distribution conversion function calculation unit 137 and the F0 distribution conversion unit 237 described later can also obtain the F0 distribution conversion function and convert the F0 distribution by the same processing.

{F0分布変換関数算出部137}
F0分布変換関数算出部137は、各自然音声データの音声素片毎のF0分布を受信し、朗読口調の自然音声データから求めた音声素片毎のF0分布(図5(c−1))を、X口調の自然音声データから求めた音声素片毎のF0分布(図5(c−2))に変換するF0分布変換関数を算出し(s137)、F0分布変換関数DB238に送信し、登録する。F0分布変換関数DB238には、(X口調のバリエーション数)×(音声素片の種類数N)分のF0分布変換関数が登録されることになる。図5の下段は、朗読口調からX口調へF0分布を変換する関数のイメージを示している。左側が朗読口調におけるある音声素片iの基本周波数パタンの出現頻度(基本周波数パタンベクトルのバリエーション数をLiとする)、右側がX口調におけるある素片iの基本周波数パタンの出現頻度を示しており、(c−1)及び(c−2)の横軸上にLi個の基本周波数パタンベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数hiは、左の分布を右の分布に変換する関数である。
{F0 distribution conversion function calculation unit 137}
The F0 distribution conversion function calculation unit 137 receives the F0 distribution for each speech unit of each natural speech data, and the F0 distribution for each speech unit obtained from the natural speech data of the reading tone (FIG. 5 (c-1)). Is converted into an F0 distribution conversion function for each speech unit (FIG. 5 (c-2)) obtained from natural speech data of X tone (s137), and transmitted to the F0 distribution conversion function DB 238. sign up. In the F0 distribution conversion function DB 238, F0 distribution conversion functions for (the number of X tone variations) × (the number N of speech segment types) are registered. The lower part of FIG. 5 shows an image of a function for converting the F0 distribution from the reading tone to the X tone. The left side shows the frequency of appearance of the fundamental frequency pattern of a certain speech unit i in reading tone (the number of variations of the fundamental frequency pattern vector is Li), and the right side shows the frequency of appearance of the fundamental frequency pattern of a unit i in X tone Li basic frequency pattern vectors are arranged in order from the left on the horizontal axes of (c-1) and (c-2). The vertical axis represents the appearance frequency. The conversion function hi is a function for converting the left distribution into the right distribution.

<テキストセット作成部200>
図6及び図7を用いてテキストセット作成部200を説明する。テキストセット作成部200は、発声用テキストセット候補作成部210と、大量日本語DB211と、第2パラメータ分布抽出部220と、パラメータ分布変換部230と、評価部250と、終了判定部260とを有する。なお、図6中、パラメータ分布変換部230と、変換関数DB234、236及び238とが本発明によって追加される部分であり、その他の部分は従来の技術と同等の繰り返し処理を行ってもよい(例えば非特許文献2)。繰り返し処理には「交換法」や「貪欲アルゴリズム」等があるが、図6及び図7では交換法を例として示している。
<Text set creation unit 200>
The text set creation unit 200 will be described with reference to FIGS. The text set creation unit 200 includes an utterance text set candidate creation unit 210, a large-volume Japanese DB 211, a second parameter distribution extraction unit 220, a parameter distribution conversion unit 230, an evaluation unit 250, and an end determination unit 260. Have. In FIG. 6, the parameter distribution conversion unit 230 and the conversion function DBs 234, 236, and 238 are portions added by the present invention, and the other portions may be subjected to an iterative process equivalent to the conventional technique ( For example, Non-Patent Document 2). The iterative processing includes “exchange method”, “greedy algorithm”, and the like, but FIGS. 6 and 7 show the exchange method as an example.

(発声用テキストセット候補作成部210及び大量日本語DB211)
発声用テキストセット候補作成部210は、インタフェース部101を介してテキストセット作成指示を受信すると、大量日本語文章DB211から所定数(例えば、500個)の文章を抽出し、最初の発声用テキストセット候補(以下「T」という)を作成し(s210)、第2パラメータ分布抽出部220に送信する。なお、テキストセット作成指示に大量日本語文章DB211から抽出する文章の数を指定する情報(以下「抽出数指定情報」という)を加えてもよい。なお、抽出数指定情報は、ユーザが最初に指定し、入力する値である。
(Speech text set candidate creation unit 210 and mass Japanese DB 211)
Upon receiving the text set creation instruction via the interface unit 101, the utterance text set candidate creation unit 210 extracts a predetermined number (for example, 500) of sentences from the large-volume Japanese sentence DB 211, and the first utterance text set A candidate (hereinafter referred to as “T”) is created (s210) and transmitted to the second parameter distribution extraction unit 220. Information specifying the number of sentences extracted from the large-volume Japanese sentence DB 211 (hereinafter referred to as “extraction number specifying information”) may be added to the text set creation instruction. The extraction number designation information is a value that is first designated and input by the user.

(第2パラメータ分布抽出部220)
第2パラメータ分布抽出部220は、Tを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する(s220)。
(Second parameter distribution extraction unit 220)
The second parameter distribution extraction unit 220 performs speech synthesis processing using the speech synthesis program using T, obtains predetermined parameters from the speech synthesis data, and extracts the obtained parameter distribution (s220).

例えば、第2パラメータ分布抽出部220は、音韻列、基本周波数パタン、音韻継続時間長抽出部221と、素片分布抽出部223と、継続長分布抽出部225と、F0分布抽出部227とを備える。   For example, the second parameter distribution extraction unit 220 includes a phoneme string, a fundamental frequency pattern, a phoneme duration extraction unit 221, a segment distribution extraction unit 223, a duration distribution extraction unit 225, and an F0 distribution extraction unit 227. Prepare.

{音韻列、基本周波数パタン、音韻継続時間長抽出部221}
音韻列、基本周波数パタン、音韻継続時間長抽出部221は、発声用テキストセット候補を受信し、これを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を推定し、これらを抽出して(s221)、素片分布抽出部223に送信する。
{Phoneme sequence, fundamental frequency pattern, phoneme duration extraction unit 221}
The phoneme sequence, fundamental frequency pattern, and phoneme duration length extraction unit 221 receives the utterance text set candidate, uses this to perform speech synthesis processing by a speech synthesis program, and uses the speech synthesis data to generate the phoneme sequence and fundamental frequency pattern. Then, the phoneme duration length is estimated, extracted (s221), and transmitted to the segment distribution extraction unit 223.

{素片分布抽出部223}
素片分布抽出部223は、音韻列、基本周波数パタン及び音韻継続時間長を受信し、音韻列を用いて各音声素片の出現頻度を求め、素片分布を抽出し(s223)、素片分布変換部233に送信する。また、音声素片とそれに紐付けられた音韻継続長を継続長分布抽出部225に、音声素片とそれに紐付けられた基本周波数パタンをF0分布抽出部227に送信する。
{Element distribution extraction unit 223}
The segment distribution extraction unit 223 receives the phoneme sequence, the fundamental frequency pattern, and the phoneme duration, obtains the appearance frequency of each speech segment using the phoneme sequence, extracts the segment distribution (s223), The data is transmitted to the distribution conversion unit 233. Further, the speech unit and the phoneme duration associated with it are transmitted to the duration distribution extraction unit 225, and the speech unit and the fundamental frequency pattern associated with it are transmitted to the F0 distribution extraction unit 227.

{継続長分布抽出部225}
継続長分布抽出部225は、素片分布と音声素片毎の音韻継続長を受信し、音声素片毎の音韻継続時間長を求め、その出現頻度から継続長分布を抽出し(s225)、継続長分布変換部235に送信する。
{Continuation length distribution extraction unit 225}
The continuation length distribution extracting unit 225 receives the segment distribution and the phoneme continuation length for each speech unit, obtains the phoneme duration for each speech unit, extracts the continuation distribution from the appearance frequency (s225), It transmits to the continuation length distribution conversion part 235.

{F0分布抽出部227}
F0分布抽出部227は、素片分布と音声素片毎の基本周波数パタンを受信し、音声素片毎の基本周波数パタンを求め、その出現頻度からF0分布を抽出し(s227)、F0分布変換部237に送信する。
{F0 distribution extraction unit 227}
The F0 distribution extraction unit 227 receives the unit distribution and the fundamental frequency pattern for each speech unit, obtains the fundamental frequency pattern for each speech unit, extracts the F0 distribution from the appearance frequency (s227), and converts the F0 distribution. To the unit 237.

なお、素片分布抽出部223では素片分布を1つ、継続長分布抽出部225及びF0分布抽出部227では音声素片のバリエーション数分のF0分布及び継続長分布を抽出する。   The segment distribution extraction unit 223 extracts one segment distribution, and the duration distribution extraction unit 225 and the F0 distribution extraction unit 227 extract F0 distributions and duration distributions corresponding to the number of variations of the speech segment.

(パラメータ分布変換部230)
パラメータ分布変換部230は、入出力インタフェース部101を介して口調指定情報を受信し、口調指定情報に基づき、記憶部203からパラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、音声合成データから求めたパラメータ分布を変換する(s230)例えば、パラメータ分布変換部230は、素片分布変換部233と、継続長分布変換部235と、F0分布変換部237とを備える。
(Parameter distribution converter 230)
The parameter distribution conversion unit 230 receives the tone designation information via the input / output interface unit 101, extracts the parameter distribution conversion function from the storage unit 203 based on the tone designation information, and uses the parameter distribution conversion function to perform speech synthesis. The parameter distribution obtained from the data is converted (s230). For example, the parameter distribution converter 230 includes an element distribution converter 233, a duration distribution converter 235, and an F0 distribution converter 237.

{素片分布変換部233}
素片分布変換部233は、口調指定情報と素片分布を受信し、口調指定情報をキーとして、記憶部203内の素片分布変換関数DB234を検索し、対応する素片分布変換関数を取り出し、これを用いて、(合成データから求めた)受信した素片分布を変換し(s233)、変換後の素片分布を評価部250に送信する。
{Element distribution conversion unit 233}
The segment distribution conversion unit 233 receives the tone designation information and the segment distribution, searches the segment distribution conversion function DB 234 in the storage unit 203 using the tone designation information as a key, and extracts the corresponding segment distribution conversion function. Using this, the received segment distribution (obtained from the combined data) is converted (s233), and the converted segment distribution is transmitted to the evaluation unit 250.

{継続長分布変換部235}
継続長分布変換部235は、口調指定情報と継続長分布を受信し、口調指定情報をキーとして、記憶部203内の継続長分布変換関数DB236を検索し、対応する継続長分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信した継続長分布を変換し(s235)、変換後の継続長分布を評価部250に送信する。
{Continuation length distribution conversion unit 235}
The duration distribution converter 235 receives the tone designation information and the duration distribution, searches the duration distribution conversion function DB 236 in the storage unit 203 using the tone designation information as a key, and extracts the corresponding duration distribution conversion function. Using this, the received duration distribution (obtained from the speech synthesis data) is converted (s235), and the converted duration distribution is transmitted to the evaluation unit 250.

{F0分布変換部237}
F0分布変換部237は、口調指定情報とF0分布を受信し、口調指定情報をキーとして、記憶部203内のF0分布変換関数DBを検索し、対応するF0分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信したF0分布を変換し(s237)、変換後のF0分布を評価部250に送信する。
{F0 distribution conversion unit 237}
The F0 distribution conversion unit 237 receives the tone designation information and the F0 distribution, searches the F0 distribution conversion function DB in the storage unit 203 using the tone designation information as a key, extracts the corresponding F0 distribution conversion function, and uses this The received F0 distribution (obtained from the speech synthesis data) is converted (s237), and the converted F0 distribution is transmitted to the evaluation unit 250.

(評価部250)
評価部250は、変換後のパラメータ分布(素片分布、継続長分布及びF0分布)を用いて評価関数を計算し、発声用テキストセット候補を評価し(s250)、評価結果を終了判定部260を介して発声用テキストセット候補作成部210に送信する。例えば、非特許文献2の方法等により評価関数を計算する。
(Evaluation unit 250)
The evaluation unit 250 calculates an evaluation function using the converted parameter distribution (segment distribution, duration distribution, and F0 distribution), evaluates the text set candidate for utterance (s250), and determines the evaluation result as an end determination unit 260. To the utterance text set candidate creation unit 210. For example, the evaluation function is calculated by the method of Non-Patent Document 2.

例えば、全ての音声素片の種類をN、発声用テキストセット候補中に現れる音声素片の出現頻度を{u,u,…,n}と表し、uの相対出現頻度をpとする。uに対応する音韻継続時間長の種類をN、それぞれの出現頻度を{vi1,vi2,…,viNi}と表し、vijの相対出現頻度をqijとする。なお、基本周波数パタンについても、音韻継続時間長と同様の方法により求めることができる。 For example, the type of all speech units is represented as N, the appearance frequency of speech units appearing in the utterance text set candidate is represented as {u 1 , u 2 ,..., N N }, and the relative appearance frequency of u i is represented as p. Let i . The type of phoneme duration corresponding to u i is represented by N i , the respective appearance frequencies are represented as {v i1 , v i2 ,..., v iNi }, and the relative appearance frequency of v ij is represented by q ij . The fundamental frequency pattern can also be obtained by the same method as the phoneme duration time.

音声素片uのカバレッジの達成度を表す指標として、rを導入する。但し、 R i is introduced as an index representing the degree of coverage of the speech unit u i . However,

Figure 0005320341
Figure 0005320341

であり、dij(T)は、品質劣化の許容範囲内の変形によってvijの基本周波数及び音韻継続時間長を実現できるような波形素片が発声用テキストセット候補Tに含まれるとき1、そうでないとき0をとる関数とする。 And d ij (T) is 1 when the utterance text set candidate T includes waveform segments that can realize the fundamental frequency and phoneme duration length of v ij by deformation within the allowable range of quality degradation. Otherwise, it is a function that takes 0.

発声用テキストセット候補Tに含まれる音声素片のカバレッジの総和は   The total coverage of speech units included in the utterance text set candidate T is

Figure 0005320341
Figure 0005320341

であり、同一の音声素片に属する音韻継続時間長や基本周波数パタンの間では、音韻継続時間長や基本周波数パタンの出現頻度が高いものほど被覆の良さを測る評価規準への寄与が大きくなる。これを評価関数として用いてもよい。さらに、音素環境の広がりと基本周波数パタン、音声素片継続時間長の広がりの間の重みを調整するメカニズムとして、非線形関数等を導入しても良い(非特許文献2参照)。 Among phoneme duration lengths and fundamental frequency patterns belonging to the same speech segment, the higher the appearance frequency of the phoneme duration length and the fundamental frequency pattern, the greater the contribution to the evaluation criteria for measuring the goodness of covering. . This may be used as an evaluation function. Furthermore, a nonlinear function or the like may be introduced as a mechanism for adjusting the weight between the spread of the phoneme environment and the basic frequency pattern and the spread of the speech unit duration (see Non-Patent Document 2).

(終了判定部260)
終了判定部260は、終了条件を満たすか否かを判定し(s260)、終了判定結果を発声用テキストセット候補作成部210に送信する。終了条件とは、例えば、交換を試みた文数が所定の値に達していることや、評価関数の大きさが所定の値以上であること等である。
(End determination unit 260)
The end determination unit 260 determines whether the end condition is satisfied (s260), and transmits the end determination result to the utterance text set candidate creation unit 210. The termination condition is, for example, that the number of sentences that have been exchanged has reached a predetermined value, or that the size of the evaluation function is greater than or equal to a predetermined value.

[繰り返し処理]
発声用テキストセット候補作成部210は、評価結果と終了判定結果を受信し、終了判定結果が終了条件を満たすことを意味する場合には(s260)、その時点の発声用テキストセット候補を発声用テキストセットとして出力する(s315)。終了判定結果が終了条件を満たしていないことを意味する場合には(s260)、新たな発声用テキストセット候補を作成し(s210)、処理(s210〜s260)を繰り返す。
[Repetition processing]
The utterance text set candidate creation unit 210 receives the evaluation result and the end determination result. If the end determination result means that the end condition is satisfied (s260), the utterance text set candidate creation unit 210 uses the utterance text set candidate for utterance. A text set is output (s315). If the end determination result means that the end condition is not satisfied (s260), a new utterance text set candidate is created (s210), and the processing (s210 to s260) is repeated.

なお、新たな発声用テキストセット候補は、大量日本語DB211から任意の1文を取り出し、発声用テキストセット候補中の任意の1文と交換することによって作成してもよい。この場合、任意の1文を交換した発声用テキストセット候補と、交換していない発声用テキストセット候補とを、記憶部203に記憶しておき、評価部250の評価結果に従って、評価の低い発声用テキストセット候補を削除する構成としてもよい。2週目以降の各処理は、差分のみを処理すればよいため、効率的に処理することができる。   It should be noted that a new utterance text set candidate may be created by taking an arbitrary sentence from the mass Japanese DB 211 and replacing it with an arbitrary sentence in the utterance text set candidate. In this case, the utterance text set candidate in which an arbitrary sentence is exchanged and the utterance text set candidate that has not been exchanged are stored in the storage unit 203, and the utterance having a low evaluation according to the evaluation result of the evaluation unit 250 It is good also as a structure which deletes the text set candidate for use. Each process after the second week can be processed efficiently because only the difference needs to be processed.

<プログラム>
なお、上述した発声用テキストセット作成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、または、その処理手順(実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program>
The utterance text set creation device described above can also be operated by a computer. In this case, the program for causing the computer to function as the target device (the device having the functional configuration shown in the drawings in the embodiment) or each process of the processing procedure (shown in the embodiment) is stored in the computer. A program to be executed may be downloaded into a computer from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line, and the program may be executed.

<効果>
本発明では、X口調毎に、朗読口調との間に生じ易い発声の差分を予め抽出し、パタン化しておき、その発声差分に応じて音韻列や韻律特徴のカバレッジが最大になるように、発声用テキストセットを補正することで、朗読口調以外の口調で発声した場合でもカバレッジが最大化できるようにする。本発明により作成された発声用テキストセットを用いて、発声者が発声し、その自然音声データに基づいて音声素片DBを構築することで、X口調における合成音声の劣化を防ぐことができる。
<Effect>
In the present invention, for each X tone, the utterance difference that is likely to occur between the reading tone and tone is extracted in advance and patterned, so that the coverage of the phoneme sequence and prosodic features is maximized according to the utterance difference. By correcting the utterance text set, the coverage can be maximized even when uttered in a tone other than reading tone. By using the utterance text set created according to the present invention, the utterer utters, and by constructing the speech segment DB based on the natural speech data, deterioration of the synthesized speech in the X tone can be prevented.

[変形例]
発声用テキストセット1000は、変換関数作成部100を有さずともよい。例えば、他の装置で作成した各変換関数を、記憶部203に記憶してもよい。
[Modification]
The utterance text set 1000 may not include the conversion function creation unit 100. For example, each conversion function created by another device may be stored in the storage unit 203.

発声用テキストセット1000は、3つのパラメータ分布(素片分布、継続長分布、F0分布)を変換対象としているが、少なくとも1つを変換対象とすればよい。推定精度が落ちるが、データ量、計算量を減らすことができる。また、前記の3つのパラメータ分布以外のパラメータ分布を変換対象としてもよい。   The utterance text set 1000 has three parameter distributions (segment distribution, continuation length distribution, and F0 distribution) as conversion targets, but at least one may be converted. Although the estimation accuracy is reduced, the amount of data and calculation can be reduced. Further, parameter distributions other than the three parameter distributions may be converted.

実施例1では、非特許文献2記載の方法を用いて、発声用テキストセット候補を評価したが、他の既存技術を用いて評価してもよい。   In the first embodiment, the utterance text set candidates are evaluated using the method described in Non-Patent Document 2, but may be evaluated using other existing techniques.

本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する際に利用することができる。本発明の発話用テキストセット作成装置1000により作成されたテキストセットをX口調で発声者が読み上げることで、X口調における音韻列及び韻律特徴のカバレッジを最大化した音声合成用音声素片DBを構築することができ、そのDBを用いることで、X口調における高品質の合成音声を可能とする。   The present invention can be used when creating a text set read by a speaker when constructing a speech unit DB for speech synthesis. A speech unit DB for speech synthesis that maximizes the coverage of phoneme strings and prosodic features in the X tone is constructed by the speaker reading out the text set created by the speech set creation device 1000 of the present invention in the X tone. By using the DB, high-quality synthesized speech in the X tone is made possible.

1000 発声用テキストセット作成装置
100 変換関数作成部
101 入出力インタフェース部
110 自然音声DB
111 音韻ラベリング部
120 第1パラメータ分布抽出部
130 パラメータ分布変換関数算出部
200 テキストセット作成部
203 記憶部
210 発話用テキストセット候補作成部
220 第2パラメータ分布抽出部
230 パラメータ分布変換部
234 素片分布変換関数DB
236 継続長分布変換関数DB
238 F0分布変換関数DB
250 評価部
260 終了判定部
1000 Spoken Text Set Creation Device 100 Conversion Function Creation Unit 101 Input / Output Interface Unit 110 Natural Speech DB
111 Phonological labeling unit 120 First parameter distribution extraction unit 130 Parameter distribution conversion function calculation unit 200 Text set creation unit 203 Storage unit 210 Utterance text set candidate creation unit 220 Second parameter distribution extraction unit 230 Parameter distribution conversion unit 234 Segment distribution Conversion function DB
236 Continuous length distribution conversion function DB
238 F0 distribution conversion function DB
250 Evaluation Unit 260 End Determination Unit

Claims (9)

音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
記憶部には、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数が、予め記憶されているものとし、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出ステップと、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換ステップと、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
A speech text set creation method for creating a text set read out by a speaker when constructing a speech synthesis unit DB for speech synthesis,
It is assumed that a parameter distribution conversion function for converting a parameter distribution obtained from natural speech data in reading tone into a parameter distribution obtained from natural speech data in target X tone is stored in the storage unit in advance. ,
A utterance text set candidate creation step of extracting a predetermined number of sentences randomly from a large volume Japanese sentence DB and creating a utterance text set candidate;
A second parameter distribution extraction step of performing speech synthesis processing by a speech synthesis program using the utterance text set candidate, obtaining a predetermined parameter from the speech synthesis data, and extracting a distribution of the obtained parameter;
A parameter distribution conversion step of taking out the parameter distribution conversion function from the storage unit and converting the parameter distribution obtained from the speech synthesis data using the parameter distribution conversion function;
Evaluating the utterance text set candidates using the converted parameter distribution, and
A method for generating a text set for speech.
請求項1記載の発声用テキストセット生成方法であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出ステップと、
朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出ステップと、
前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
The utterance text set generation method according to claim 1,
A first parameter distribution for obtaining predetermined parameters from the reading-tone natural voice data read out from the predetermined document in the reading-tone and the X-tone natural voice data read out from the same document in the X-tone, and extracting the parameter distribution, respectively. An extraction step;
A parameter distribution conversion function calculating step for calculating a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the X tone;
Storing the parameter distribution conversion function in the storage unit before creating a text set candidate for utterance,
A method for generating a text set for speech.
音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
記憶部には、朗読口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の音韻継続時間長の分布(以下「継続長分布」という)及び音声素片毎の基本周波数の分布(以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されているものとし、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出ステップと、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出ステップと、
音声素片毎の音韻継続時間長を求め継続長分布を抽出し、音声素片毎の基本周波数パタンを求めF0分布を抽出する第2音韻継続時間長及びF0分布抽出ステップと、
前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換ステップと、
変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
A speech text set creation method for creating a text set read out by a speaker when constructing a speech synthesis unit DB for speech synthesis,
The storage unit includes an appearance frequency distribution of each speech unit obtained from natural speech data of reading tone, a distribution of phoneme durations for each speech unit (hereinafter referred to as “continuation length distribution”), and a basic unit for each speech unit. The frequency distribution (hereinafter referred to as “F0 distribution”) is the frequency distribution of each speech unit, the duration distribution for each speech unit, and the F0 for each speech unit obtained from natural speech data of the intended X tone. It is assumed that an element distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function to be converted into a distribution are stored in advance,
A utterance text set candidate creation step of extracting a predetermined number of sentences randomly from a large volume Japanese sentence DB and creating a utterance text set candidate;
Using the utterance text set candidates, the speech synthesis process is performed by a speech synthesis program, and the phoneme sequence, the fundamental frequency pattern, and the phoneme duration time length are extracted from the speech synthesis data. Steps,
A second segment distribution extraction step of obtaining an appearance frequency of each speech segment from the phoneme sequence and extracting a segment distribution;
A second phoneme duration length and F0 distribution extraction step for obtaining a phoneme duration for each speech unit and extracting a duration distribution, obtaining a fundamental frequency pattern for each speech unit and extracting an F0 distribution;
A segment distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function are extracted from the storage unit, and the segment distribution, duration distribution, and F0 distribution obtained from the speech synthesis data using these distribution conversion functions, respectively. A parameter distribution conversion step for converting
An evaluation function that calculates an evaluation function using the segment distribution, the duration distribution, and the F0 distribution after the conversion, and evaluates the utterance text set candidate.
A method for generating a text set for speech.
請求項3記載の発声用テキストセット生成方法であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリングステップと、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、音声素片の出現頻度分布を抽出する第1素片分布抽出ステップと、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出し、音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1音韻継続時間長及びF0分布抽出ステップと、
朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出ステップと、
素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
A utterance text set generation method according to claim 3,
A phonological labeling step of assigning a phonological label to the reading-tone natural voice data of a predetermined document read out in a reading-tone style and the X-tone natural voice data of the same document read out in an X tone;
A first segment distribution extraction step of referring to the all speech segment variation storage unit and assigning a speech unit number to a speech unit obtained from each natural speech data and extracting an appearance frequency distribution of the speech unit When,
A first phoneme duration and F0 distribution extraction step of calculating a phoneme duration for each speech unit, extracting a duration distribution, extracting a fundamental frequency pattern for each speech unit, and extracting an F0 distribution;
A segment distribution conversion function for converting a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in reading tone into a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in X tone, A parameter distribution conversion function calculating step for calculating a duration distribution conversion function and an F0 distribution conversion function;
Storing the segment distribution conversion function, the continuation length distribution conversion function, and the F0 distribution conversion function in the storage unit before creating the utterance text set candidate.
A method for generating a text set for speech.
音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を、予め記憶している記憶部と、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出部と、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換部と、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。
An utterance text set creation device for creating a text set read by a speaker when constructing a speech segment DB for speech synthesis,
A storage unit that stores in advance a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the target X tone;
A utterance text set candidate creation unit that randomly extracts a predetermined number of sentences from a large amount of Japanese sentence DB and creates utterance text set candidates;
A second parameter distribution extraction unit that performs speech synthesis processing by a speech synthesis program using the utterance text set candidate, obtains a predetermined parameter from speech synthesis data, and extracts a distribution of the obtained parameter;
A parameter distribution conversion unit that takes out the parameter distribution conversion function from the storage unit and converts the parameter distribution obtained from the speech synthesis data using the parameter distribution conversion function;
An evaluation unit that evaluates the utterance text set candidate using the converted parameter distribution;
An utterance text set generation device characterized by the above.
請求項5記載の発声用テキストセット生成装置であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出部と、
朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。
The utterance text set generation device according to claim 5,
A first parameter distribution for obtaining predetermined parameters from the reading-tone natural voice data read out from the predetermined document in the reading-tone and the X-tone natural voice data read out from the same document in the X-tone, and extracting the parameter distribution, respectively. An extractor;
A parameter distribution conversion function calculation unit for calculating a parameter distribution conversion function for converting the parameter distribution obtained from the natural speech data of the reading tone into the parameter distribution obtained from the natural speech data of the X tone,
The storage unit stores the parameter distribution conversion function before generating a text set candidate for utterance.
An utterance text set generation device characterized by the above.
音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
朗読口調の自然音声データから求めた各音声素片の出現頻度分布(以下「素片分布」という)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)及び音声素片毎の基本周波数パタンの出現頻度の分布((以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されている記憶部と、
大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出部と、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出部と、
音声素片毎の音韻継続時間長を求め継続長分布を抽出する第2継続長分布抽出部と、
音声素片毎の基本周波数パタンを求めF0分布を抽出する第2F0分布抽出部と、
前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換部と、
変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。
An utterance text set creation device for creating a text set read by a speaker when constructing a speech segment DB for speech synthesis,
Appearance frequency distribution of each speech segment (hereinafter referred to as “segment distribution”) obtained from natural speech data of reading tone, and distribution of appearance frequency of phoneme duration length for each speech segment (hereinafter referred to as “continuation length distribution”) Distribution of frequency of appearance of fundamental frequency patterns for each speech unit (hereinafter referred to as “F0 distribution”), frequency distribution of speech units obtained from natural speech data of target X tone, speech unit A storage unit in which a duration distribution for each unit, a unit distribution conversion function for converting into a F0 distribution for each speech unit, a duration distribution conversion function, and an F0 distribution conversion function are stored in advance;
A utterance text set candidate creation unit that randomly extracts a predetermined number of sentences from a large amount of Japanese sentence DB and creates utterance text set candidates;
Using the utterance text set candidates, the speech synthesis process is performed by a speech synthesis program, and the phoneme sequence, the fundamental frequency pattern, and the phoneme duration time length are extracted from the speech synthesis data. And
A second segment distribution extraction unit for obtaining an appearance frequency of each speech segment from the phoneme sequence and extracting a segment distribution;
A second duration distribution extraction unit for obtaining a phoneme duration for each speech unit and extracting a duration distribution;
A second F0 distribution extraction unit for obtaining a fundamental frequency pattern for each speech unit and extracting an F0 distribution;
A segment distribution conversion function, a duration distribution conversion function, and an F0 distribution conversion function are extracted from the storage unit, and the segment distribution, duration distribution, and F0 distribution obtained from the speech synthesis data using these distribution conversion functions, respectively. A parameter distribution conversion unit for converting
An evaluation function that calculates an evaluation function using the segment distribution after conversion, duration distribution, and F0 distribution, and evaluates the utterance text set candidate,
An utterance text set generation device characterized by the above.
請求項7記載の発声用テキストセット生成装置であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリング部と、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、素片分布を抽出する第1素片分布抽出部と、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出する第1継続長分布抽出部と、
音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1F0分布抽出部と、
朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。
The utterance text set generation device according to claim 7,
A phonological labeling unit that assigns a phonological label to the reading-tone natural voice data that reads a predetermined document in a reading-tone and the X-tone natural voice data that reads the same document in an X-tone;
A first unit distribution extraction unit that refers to the whole speech unit variation storage unit, assigns a speech unit number to a speech unit obtained from each natural speech data, and extracts a unit distribution;
A first duration distribution extractor for calculating a phoneme duration for each speech unit and extracting a duration distribution;
A first F0 distribution extraction unit that extracts a fundamental frequency pattern for each speech unit and extracts an F0 distribution;
A segment distribution conversion function for converting a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in reading tone into a segment distribution, duration distribution, and F0 distribution obtained from natural speech data in X tone, A parameter distribution conversion function calculation unit for calculating a continuation length distribution conversion function and an F0 distribution conversion function,
The storage unit stores the element distribution conversion function, the duration distribution conversion function, and the F0 distribution conversion function before creating the utterance text set candidate.
An utterance text set generation device characterized by the above.
コンピュータを請求項5から8の何れかに記載の発声用テキストセット生成装置として機能させるための発声用テキストセット生成プログラム。   A utterance text set generation program for causing a computer to function as the utterance text set generation device according to any one of claims 5 to 8.
JP2010112423A 2010-05-14 2010-05-14 Speaking text set creation method, utterance text set creation device, and utterance text set creation program Expired - Fee Related JP5320341B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010112423A JP5320341B2 (en) 2010-05-14 2010-05-14 Speaking text set creation method, utterance text set creation device, and utterance text set creation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010112423A JP5320341B2 (en) 2010-05-14 2010-05-14 Speaking text set creation method, utterance text set creation device, and utterance text set creation program

Publications (2)

Publication Number Publication Date
JP2011242470A JP2011242470A (en) 2011-12-01
JP5320341B2 true JP5320341B2 (en) 2013-10-23

Family

ID=45409217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010112423A Expired - Fee Related JP5320341B2 (en) 2010-05-14 2010-05-14 Speaking text set creation method, utterance text set creation device, and utterance text set creation program

Country Status (1)

Country Link
JP (1) JP5320341B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015092936A1 (en) 2013-12-20 2015-06-25 株式会社東芝 Speech synthesizer, speech synthesizing method and program
JP6271748B2 (en) 2014-09-17 2018-01-31 株式会社東芝 Audio processing apparatus, audio processing method, and program
JP7348027B2 (en) * 2019-10-28 2023-09-20 株式会社日立製作所 Dialogue system, dialogue program, and method of controlling the dialogue system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02106799A (en) * 1988-10-14 1990-04-18 A T R Shichiyoukaku Kiko Kenkyusho:Kk Synthetic voice emotion imparting circuit

Also Published As

Publication number Publication date
JP2011242470A (en) 2011-12-01

Similar Documents

Publication Publication Date Title
US7603278B2 (en) Segment set creating method and apparatus
JP4125362B2 (en) Speech synthesizer
JP5665780B2 (en) Speech synthesis apparatus, method and program
JP6266372B2 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method, and program
Donovan et al. A hidden Markov-model-based trainable speech synthesizer
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
KR20070077042A (en) Apparatus and method of processing speech
JP5411845B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
JP2020034883A (en) Voice synthesizer and program
WO2015025788A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP6013104B2 (en) Speech synthesis method, apparatus, and program
JP5320341B2 (en) Speaking text set creation method, utterance text set creation device, and utterance text set creation program
JP6330069B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP6436806B2 (en) Speech synthesis data creation method and speech synthesis data creation device
JP6523423B2 (en) Speech synthesizer, speech synthesis method and program
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP6170384B2 (en) Speech database generation system, speech database generation method, and program
Ninh A speaker-adaptive hmm-based vietnamese text-to-speech system
JP5722295B2 (en) Acoustic model generation method, speech synthesis method, apparatus and program thereof
JP2003208188A (en) Japanese text voice synthesizing method
JP2011141470A (en) Phoneme information-creating device, voice synthesis system, voice synthesis method and program
JP2018205768A (en) Utterance rhythm conversion device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R150 Certificate of patent or registration of utility model

Ref document number: 5320341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees