JP2008203717A - Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof - Google Patents
Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof Download PDFInfo
- Publication number
- JP2008203717A JP2008203717A JP2007041909A JP2007041909A JP2008203717A JP 2008203717 A JP2008203717 A JP 2008203717A JP 2007041909 A JP2007041909 A JP 2007041909A JP 2007041909 A JP2007041909 A JP 2007041909A JP 2008203717 A JP2008203717 A JP 2008203717A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- text
- corpus
- text sentence
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、コーパスベース音声合成を行う際に用いる好適なテキスト文セットをテキストコーパスから選択する方法、そのプログラム、及びその装置に関するものである。 The present invention relates to a method for selecting a suitable text sentence set used in corpus-based speech synthesis from a text corpus, a program therefor, and an apparatus therefor.
従来、『文の1部を加工することにより頻出する可変単語を効率良く収集することができる文セットを自動的に生成する文セット自動生成方法、装置、プログラムおよびその記憶媒体を提供する。』ことを目的とした技術として、『選択テキストの候補となる特定タスクのテキストがタスク文コーパス記憶部1に格納されたタスク文コーパスと、当該特定タスクに特有な単語の単語リスト2を用い、単語リスト2中の単語がタスク文コーパスに出現する頻度を求め、タスク文コーパス中の当該単語部分を単語シンボルに置換してシンボル文コーパスを求め、シンボル文コーパスから候補テキストの組み合わせをシンボルテキストセットとして選択し、テキストセットに含まれる単語シンボル部分に対して、単語シンボルのテキストセット中における出現順序に対応して、単語の出現頻度順に、頻度上位の単語から順に埋め込む文セット自動生成方法。』というものが提案されている(特許文献1)。
また、『音声合成に用いる音声データベース作成に必要とする文(テキスト)の読上げ用文セットを効率的に生成する。』ことを目的とした技術として、『文コーパス中の各文について、3連鎖音韻を基本単位とした基本素片の出現率の合計値をスコアとして計算する(ステップ1−1)。既に文セットに格納した基本素片を除き、かつ同一文中の複数の同一形態の基本素片の重複分はスコア計算に含めない。最高値スコアの文が1つであれば(ステップ1−4)これを文セットに格納、複数であればその複数文について、環境付き音節や環境付き形態素などの拡張素片単位とした各種の拡張素片の出現率の合計値をスコアとして先と同様な手法で計算する。同一文について各種の拡張素片スコアを荷重加算して複合スコアとし、複合スコアの最高値の文を文セットに格納する。荷重加算の重み係数の設定によりタスク依存度を高めることができる。』というものが提案されている(特許文献2)。
Conventionally, “a sentence set automatic generation method, apparatus, program, and storage medium for automatically generating a sentence set that can efficiently collect variable words that frequently appear by processing a part of a sentence are provided. As a technique for the purpose of "using a task sentence corpus in which the text of a specific task that is a candidate for the selected text is stored in the task sentence
In addition, “a sentence set for reading a sentence (text) necessary for creating a speech database used for speech synthesis is efficiently generated. As a technique for the purpose of the above, “for each sentence in the sentence corpus, the total value of the appearance rate of basic segments with the three-chain phoneme as a basic unit is calculated as a score (step 1-1). Except for the basic segments already stored in the sentence set, the duplicates of a plurality of basic segments of the same form in the same sentence are not included in the score calculation. If there is one sentence with the highest score (step 1-4), this is stored in the sentence set, and if there are more than one sentence, various sentences in units of extended segments, such as syllables with environment and morphemes with environment, are used. The total value of the appearance rate of the extended segment is calculated as a score by the same method as described above. Various extended segment scores for the same sentence are weighted to form a composite score, and the sentence with the highest composite score is stored in the sentence set. The task dependency can be increased by setting the weighting coefficient for load addition. Is proposed (Patent Document 2).
上記特許文献1に記載の技術では、タスク文コーパスに格納されているテキスト文の一部を単語リストで置換することにより、好適なテキスト文を探索する範囲を拡張している。しかし、探索範囲の拡張に際し、テキスト文セット全体の音韻バランスや音韻出現数といった、テキスト文セットの品質指標を考慮していないという課題があった。
一方、上記特許文献2に記載の技術は、テキスト文セットの品質指標をスコア計算により評価しているが、特許文献1のような探索範囲の拡張は行っていない。
In the technique described in
On the other hand, the technique described in Patent Document 2 evaluates the quality index of the text sentence set by score calculation, but does not extend the search range as in
そこで、特許文献1に記載されているような拡張された探索範囲に対して、特許文献2に記載されているようなテキスト文セットの品質指標評価を行うことが考えられる。
しかしながら、拡張された探索範囲は、入れ替え可能な単語数と入れ替え単語区間の組み合わせ分だけ増大する。例えば、置換単語数=10、単語区間=3の場合、拡張前の1個のテキスト文に対して、10×10×10=1000個の拡張テキスト文セットが出来ることとなる。この場合、拡張前のテキストコーパス母集団が10万文であれば、拡張後のテキスト文セットは10億文となる。
Therefore, it is conceivable to perform a quality index evaluation of a text sentence set as described in Patent Document 2 for an extended search range as described in
However, the expanded search range is increased by a combination of the number of replaceable words and the replacement word section. For example, when the number of replacement words = 10 and the word interval = 3, 10 × 10 × 10 = 1000 extended text sentence sets can be created for one text sentence before expansion. In this case, if the text corpus population before expansion is 100,000 sentences, the text sentence set after expansion will be 1 billion sentences.
このような膨大な数のテキスト文セット全てに対し、品質指標の評価を行い、好適なテキスト文セット(例えば1000個)を選択する処理は、非常に多くの演算量を必要とする。
そのため、拡張された探索範囲から好適なテキスト文を探索しつつ、テキスト文セットの品質指標を評価し、かつ演算量の少ないコーパスベース音声合成のためのテキスト文セット選択方法、そのプログラム、及びその装置が望まれていた。
The process of evaluating the quality index for all such a large number of text sentence sets and selecting a suitable text sentence set (for example, 1000) requires a very large amount of calculation.
Therefore, a text sentence set selection method for corpus-based speech synthesis, which evaluates the quality index of a text sentence set while searching for a suitable text sentence from the expanded search range, and has a small amount of computation, its program, and A device was desired.
本発明に係るコーパスベース音声合成のためのテキスト文セット選択方法は、
コーパスベース音声合成のためのテキスト文セットをテキストコーパスから選択する方法であって、
音声合成の対象カテゴリにおける類義語を保持するシソーラス辞書を格納した記憶手段を設け、
最初に、作業テキスト文セットを空の状態にする初期化ステップと、
テキストコーパスから任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、選択文と呼ぶ)を前記テキストコーパスから選択する選択ステップと、
前記選択ステップにおいて選択文を構成する語句に対して、前記シソーラス辞書が保持する類義語で置換することで類似文群を作成するシソーラス置換ステップと、
前記選択文と類似文群の中から、任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、最良文と呼ぶ)を求める再判定ステップと、
前記再判定ステップにより得られた最良文を作業テキスト文セットに追加する文追加ステップと、
追加された作業テキスト文セットのコーパス品質がコーパス設計条件を満たすまで、選択ステップから文追加ステップまでを繰り返す、設計条件判断ステップ
を有することを特徴とするものである。
A text sentence set selection method for corpus-based speech synthesis according to the present invention includes:
A method for selecting a text sentence set for corpus-based speech synthesis from a text corpus,
A storage means for storing a thesaurus that holds synonyms in the target category of speech synthesis;
First, an initialization step to empty the working text statement set,
A selection step of selecting an arbitrary sentence from the text corpus and selecting from the text corpus a text sentence (hereinafter referred to as a selected sentence) that maximizes the corpus quality when the sentence is added to the working text sentence set;
A thesaurus replacement step of creating a similar sentence group by replacing a phrase constituting the selected sentence in the selection step with a synonym held by the thesaurus dictionary;
Redetermination for selecting a text sentence (hereinafter referred to as the best sentence) that maximizes the corpus quality when an arbitrary sentence is selected from the selected sentence and similar sentence groups and the sentence is added to the working text sentence set. Steps,
A sentence adding step of adding the best sentence obtained by the redetermination step to the working text sentence set;
It has a design condition judging step that repeats from the selection step to the sentence addition step until the corpus quality of the added work text sentence set satisfies the corpus design condition.
本発明に係るコーパスベース音声合成のためのテキスト文セット選択方法によれば、好適なテキスト文を探索する範囲を広範に保ちつつ、テキスト文セットの品質指標を評価し、かつ演算量を削減することができるので、探索時間の短縮や、装置の小型化、小メモリ化、低コスト化に資する。 According to the text sentence set selection method for corpus-based speech synthesis according to the present invention, the quality index of the text sentence set is evaluated and the amount of calculation is reduced while maintaining a wide range for searching for a suitable text sentence. Therefore, it contributes to shortening of the search time, downsizing of the apparatus, reduction of memory, and cost reduction.
実施の形態1.
図1は、本発明の実施の形態1に係るコーパスベース音声合成のためのテキスト文セット選択装置100の機能ブロック図である。
テキスト文セット選択装置100は、シソーラス辞書110、作業テキスト文セット記録部120、初期化部130、選択部140、シソーラス置換部150、再判定部160、文追加部170、設計条件判断部180を備える。
シソーラス辞書110は、音声合成の対象カテゴリにおける類義語のリストを保持している。
作業テキスト文セット記録部120は、テキスト文セット選択処理中の途中段階での作業テキスト文セットを記憶する。
初期化部130は、テキスト文セット選択処理開始時に作業テキスト文セット記録部120の作業テキスト文セットを空にする。
選択部140は、テキストコーパスから任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、選択文と呼ぶ)を前記テキストコーパスから選択する。
シソーラス置換部150は、前記選択部140で選ばれた選択文を構成する語句に対して、前記シソーラス辞書110が保持する類義語で置換することで類似文群を作成する。
再判定部160は、前記選択文と前期類似文群の中から、任意の1文を選び、その文を作業テキスト文セット記録部120に記録されている作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、最良文と呼ぶ)を求める。
文追加部170は、前記再判定部160で得られた最良文を、作業テキスト文セット記録部120に記録されている作業テキスト文セットに追加する。
設計条件判断部180は、作業テキスト文セット記録部120に記録されている作業テキスト文セットのコーパス品質が、コーパス設計条件を満たすまで選択ステップから文追加ステップまでを繰り返す。一方、コーパス設計品質が満たされた場合、作業テキスト文セット記録部120に記録されている作業テキスト文セットをテキスト文セットとして出力する。
テキストコーパス200は、コーパスベース音声合成のためのテキスト文セットの基礎となる、テキスト文の母集合を格納している。
FIG. 1 is a functional block diagram of a text sentence set
The text sentence set
The thesaurus dictionary 110 holds a list of synonyms in the target category of speech synthesis.
The working text sentence set
The
The
The
The
The
The design
The
作業テキスト文セット記録部120、初期化部130、選択部140、シソーラス置換部150、再判定部160、文追加部170、設計条件判断部180は、回路デバイスのようなハードウェアで構成することもできるし、マイコンやCPUのような演算装置上で実行されるソフトウェアとして構成することもできる。
シソーラス辞書110の構成例としては、HDD(Hard Disk Drive)のような比較的容量の大きい記憶装置に、類義語リストを記録したファイルを格納することなどが考えられる。なお、シソーラス辞書110は、テキスト文セット選択装置100の外部に設けてもよい。
テキストコーパス200についても、同様にHDDのような比較的容量の大きい記憶装置に、テキスト文を記録したファイル等を格納することにより構成できる。
The work text sentence set
As a configuration example of the thesaurus dictionary 110, it is conceivable to store a file in which a synonym list is recorded in a storage device having a relatively large capacity such as an HDD (Hard Disk Drive). The thesaurus dictionary 110 may be provided outside the text sentence set
Similarly, the
図2は、本実施の形態1に係るテキスト文セット選択装置100の動作を概念的に説明するものである。
図2において、テキストコーパス200は、小円で表されるテキスト文の集合を格納している。また、各テキスト文を構成する語句を、シソーラス辞書110が格納している類義語で変換することにより得られるテキスト文の範囲は、破線の大円で表している。
FIG. 2 conceptually illustrates the operation of the text sentence set
In FIG. 2, a
先に述べたように、テキストコーパス200が格納しているテキスト文の母集合から、コーパスベース音声合成に好適なテキスト文セットを選択する際に、シソーラス辞書110による類義語変換後のテキスト文までをも探索範囲とすると、演算量が膨大となってしまう可能性がある。
そこで、本実施の形態1においては、シソーラス辞書110による類義語変換前の段階で、最も好適なテキスト文をあらかじめ選択し、そのテキスト文をシソーラス辞書110により類義語変換した範囲のみを探索範囲とする。
このようにすることで、シソーラス辞書110による類義語変換後の全範囲を探索範囲とする場合に比較して大幅に演算量を削減できる。また、シソーラス辞書110による類義語変換前の段階で最も好適なテキスト文を選択しているため、その周辺にも好適なテキスト文が存在しているものと考えられ、一定の品質が確保される。
As described above, when selecting a text sentence set suitable for corpus-based speech synthesis from a set of text sentences stored in the
Therefore, in the first embodiment, the most suitable text sentence is selected in advance before the synonym conversion by the thesaurus dictionary 110, and only the range in which the text sentence is synonymous converted by the thesaurus dictionary 110 is set as the search range.
By doing in this way, the amount of calculation can be reduced significantly compared with the case where the entire range after synonym conversion by the thesaurus dictionary 110 is used as the search range. In addition, since the most suitable text sentence is selected at the stage before synonym conversion by the thesaurus dictionary 110, it is considered that a suitable text sentence exists in the vicinity, and a certain quality is ensured.
ここで、動作フローの説明に先立ち、テキスト文セットの品質指標について補足説明しておく。
ここで用いられるテキスト文セットの品質指標として、テキスト文中に含まれる音素単位(例えば、母音/a/、/i/、/u/、/e/、/o/)毎の個数やその被覆率、連鎖音韻単位(例えば、/aa/、/ai/)毎の個数やその被覆率、などの音響的パフォーマンス量が考えられる。
さらには、特許文献1に示すように、複雑な階層的定義に基づいた被覆率を用いてもよいし、その他好適な音響的パフォーマンス量や言語的パフォーマンス量を併用することもできる。
Here, prior to the description of the operation flow, a supplementary explanation will be given regarding the quality index of the text sentence set.
As a quality index of the text sentence set used here, the number and coverage of each phoneme unit (for example, vowel / a /, / i /, / u /, / e /, / o /) included in the text sentence The number of acoustic performances such as the number of the chain phoneme units (for example, / aa /, / ai /) and the coverage thereof can be considered.
Furthermore, as shown in
図3は、本実施の形態1に係るテキスト文セット選択装置100の動作フローである。以下、ステップ毎に説明する。
FIG. 3 is an operation flow of the text sentence set
(S330)初期化ステップ
初期化部130は、テキスト文セット選択処理開始時に作業テキスト文セット記録部120の作業テキスト文セットを空にする。
(S340)選択ステップ
選択部140は、テキストコーパスから任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、選択文と呼ぶ)を前記テキストコーパスから選択する。
(S350)シソーラス置換ステップ
置換部150は、前記選択部140で選ばれた選択文を構成する語句に対して、前記シソーラス辞書110が保持する類義語で置換することで類似文群を作成する。
(S360)再判定ステップ
再判定部160は、前記選択文と前期類似文群の中から、任意の1文を選び、その文を作業テキスト文セット記録部120に記録されている作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、最良文と呼ぶ)を求める。
(S370)文追加ステップ
文追加部170は、前記再判定部160で得られた最良文を、作業テキスト文セット記録部120に記録されている作業テキスト文セットに追加する。
(S380)設計条件判断ステップ
設計条件判断部180は、作業テキスト文セット記録部120に記録されている作業テキスト文セットのコーパス品質が、コーパス設計条件を満たすまで選択ステップから文追加ステップまでを繰り返す。一方、コーパス設計品質が満たされた場合、作業テキスト文セット記録部120に記録されている作業テキスト文セットをテキスト文セットとして出力する。
(S330) Initialization Step The
(S340) Selection Step The
(S350) Thesaurus replacement step The
(S360) Re-determination step The
(S370) Sentence adding step The
(S380) Design Condition Determination Step The design
なお、テキスト文セットの出力先は、テキスト文セット選択装置100の外に設けられた記憶装置、ネットワークインターフェース、別途設けたメモリ領域、などとすることができる。また、出力形式は、テキスト文データそのものでもよいし、ポインタ情報のみでもよい。
The output destination of the text sentence set may be a storage device provided outside the text sentence set
以上のように、本実施の形態1によれば、シソーラス辞書110によりテキスト文を変換する前に、あらかじめ1個の好適なテキスト文を探索しておき、その1文のみについてシソーラス110による類義語変換を行って探索するので、シソーラス辞書110による変換後の全範囲を探索範囲とする場合に比較して大幅に演算量を削減できる。 As described above, according to the first embodiment, before a text sentence is converted by the thesaurus dictionary 110, one suitable text sentence is searched in advance, and synonym conversion by the thesaurus 110 is performed for only that one sentence. Therefore, the amount of calculation can be greatly reduced as compared with the case where the entire range after conversion by the thesaurus dictionary 110 is set as the search range.
実施の形態2.
本発明の実施の形態2では、実施の形態1の演算量をさらに削減することのできる動作例について説明する。なお、テキスト文セット選択装置100の構成は、実施の形態1で説明した図1と同様であるため、説明を省略する。
Embodiment 2. FIG.
In the second embodiment of the present invention, an operation example that can further reduce the amount of calculation of the first embodiment will be described. Note that the configuration of the text sentence set
図4は、本実施の形態2に係るテキスト文セット選択装置100の動作を概念的に説明するものである。本実施の形態2においては、テキスト文をシソーラス辞書110で類義語変換して得られる全ての範囲を探索範囲とするのではなく、その1部のみを探索範囲とする。
図4において、三角形で表されているのは、破線の大円で表される領域のうち、探索対象とするテキスト文を示すものである。実施の形態1で説明した図2では、破線の大円で表される領域内の全てを探索範囲としていたが、本実施の形態2では、図4の三角形に示すように、さらに探索範囲を絞り込む。
FIG. 4 conceptually illustrates the operation of the text sentence set
In FIG. 4, what is represented by a triangle indicates a text sentence to be searched out of an area represented by a broken-line great circle. In FIG. 2 described in the first embodiment, the entire search area within the area represented by the broken circle is the search range. However, in the second embodiment, as shown by the triangle in FIG. Narrow down.
図5は、図4で説明した概念図の具体例である。
シソーラス辞書110を用いてテキスト文を変換する際には、まず元のテキスト文を構成する語句のうち、変換対象を決定する。例えば、変換前の原文が「この発明は、テキスト文を選択する方法に関するものである。」となっている場合、これらのうち「テキスト文」等の名詞語句や、「関する」等の動詞語句が主な変換対象となる。
実施の形態1では、これらの全てを変換対象としていたため、例えば変換対象の音節部分が6個あり、それぞれの変換対象部分についての類義語が10個ずつ存在する場合、原文を変換して派生するテキスト文は、10の6乗個存在し得ることになる。
FIG. 5 is a specific example of the conceptual diagram described in FIG.
When converting a text sentence using the thesaurus dictionary 110, first, a conversion target is determined from words or phrases constituting the original text sentence. For example, when the original sentence before conversion is “this invention relates to a method for selecting a text sentence”, a noun phrase such as “text sentence” or a verb phrase such as “related” among them. Is the main conversion target.
In
一方、本実施の形態2では、名詞語句のみを変換対象とする。そのため、派生するテキスト文はその分少なくなる。例えば、変換対象の音節部分6個のうち、名詞語句が3個である場合は、派生するテキスト文の数は半分以下になる。
なお、名詞語句を変換対象とするのは、テキスト文のバリエーションを作成するのに好適であるからであるが、これに限る必要はなく、テキスト文やシソーラス辞書110の内容によっては動詞語句を変換対象としてもよい。
On the other hand, in the second embodiment, only noun words are converted. Therefore, there are fewer derived text sentences. For example, if there are three noun phrases in the six syllable parts to be converted, the number of derived text sentences is less than half.
The reason for converting the noun word / phrase is that it is suitable for creating a variation of the text sentence. However, the present invention is not limited to this. Depending on the text sentence or the contents of the thesaurus dictionary 110, the verb phrase may be converted. It may be a target.
本実施の形態2におけるテキスト文セット選択装置100の動作フローは、実施の形態1の図3で説明したものと原則として同じである。ただし、図4〜図5で説明したように類義語変換による派生文の数が少なくなるため、ステップS350〜S360の演算量を削減することができる。
これにより、探索時間の短縮や、テキスト文セット選択装置100の小型化、小メモリ化、低コスト化に資する。また、シソーラス辞書110が格納している類義語は、主に名詞語句に関するものが多いため、名詞語句を変換して派生文を得ることにより、テキスト文のバリエーションも十分に確保できる。
The operation flow of the text sentence set
This contributes to a reduction in search time and a reduction in the size, memory, and cost of the text sentence set
実施の形態3.
図6は、本発明の実施の形態3に係るテキスト文セット選択装置100の動作を概念的に説明するものである。
実施の形態2では、名詞語句のみを類義語変換の対象としたが、本実施の形態3では、文字数もしくは音節数が最も長い語句を、類義語変換の対象とする。名詞語句や動詞語句などの全ての変換対象語句の中から最も長いものを対象としてもよいし、名詞語句のみの中から最も長いものを対象としてもよい。
FIG. 6 conceptually illustrates the operation of the text sentence set
In the second embodiment, only noun phrases are subject to synonym conversion, but in this third embodiment, the phrase having the longest number of characters or syllables is subject to synonym conversion. The longest of all the conversion target phrases such as noun phrases and verb phrases may be the target, or the longest of the noun phrases alone may be the target.
本実施の形態3におけるテキスト文セット選択装置100の動作フローは、実施の形態1の図3で説明したものと原則として同じである。ただし、図6で説明したように類義語変換による派生文の数が大幅に少なくなるため、ステップS350〜S360の演算量を大幅に削減することができる。
これにより、探索時間の短縮や、テキスト文セット選択装置100の小型化、小メモリ化、低コスト化に資する。また、音素環境などへの影響が相対的に大きい最長語句を変換対象として探索範囲を決定しているため、探索結果の品質も一定のレベルに保つことができる。
The operation flow of the text sentence set
This contributes to a reduction in search time and a reduction in the size, memory, and cost of the text sentence set
100 テキスト文セット選択装置、110 シソーラス辞書、120 作業テキスト文セット記録部、130 初期化部、140 選択部、150 シソーラス置換部、160 再判定部、170 文追加部、180 設計条件判断部、200 テキストコーパス。
DESCRIPTION OF
Claims (7)
音声合成の対象カテゴリにおける類義語を保持するシソーラス辞書を格納した記憶手段を設け、
最初に作業テキスト文セットを空の状態にする初期化ステップと、
テキストコーパスから任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、選択文と呼ぶ)を前記テキストコーパスから選択する選択ステップと、
前記選択ステップにおいて選択文を構成する語句に対して前記シソーラス辞書が保持する類義語で置換することで類似文群を作成するシソーラス置換ステップと、
前記選択文と類似文群の中から任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、最良文と呼ぶ)を求める再判定ステップと、
前記再判定ステップにより得られた最良文を作業テキスト文セットに追加する文追加ステップと、
追加された作業テキスト文セットのコーパス品質がコーパス設計条件を満たすまで、選択ステップから文追加ステップまでを繰り返す、設計条件判断ステップ
を有する
ことを特徴とするコーパスベース音声合成のためのテキスト文セット選択方法。 A method for selecting a text sentence set for corpus-based speech synthesis from a text corpus,
A storage means for storing a thesaurus that holds synonyms in the target category of speech synthesis;
An initialization step to empty the working text statement set first,
A selection step of selecting an arbitrary sentence from the text corpus and selecting from the text corpus a text sentence (hereinafter referred to as a selected sentence) that maximizes the corpus quality when the sentence is added to the working text sentence set;
A thesaurus replacement step of creating a similar sentence group by replacing a phrase constituting the selected sentence in the selection step with a synonym held by the thesaurus dictionary; and
Re-determination step of selecting a text sentence (hereinafter referred to as the best sentence) that maximizes the corpus quality when an arbitrary sentence is selected from the selected sentence group and the similar sentence group and the sentence is added to the working text sentence set. When,
A sentence adding step of adding the best sentence obtained by the redetermination step to the working text sentence set;
Text sentence set selection for corpus-based speech synthesis characterized by having a design condition judgment step that repeats from the selection step to the sentence addition step until the corpus quality of the added work text sentence set satisfies the corpus design condition Method.
前記選択ステップにおいて選択したテキスト文を構成する語句のうち、名詞語句のみを置換対象とする
ことを特徴とする請求項1に記載のコーパスベース音声合成のためのテキスト文セット選択方法。 In the thesaurus replacement step,
The method for selecting a text sentence set for corpus-based speech synthesis according to claim 1, wherein only noun words or phrases are set as replacement targets among the phrases constituting the text sentence selected in the selection step.
前記選択ステップにおいて選択したテキスト文を構成する語句のうち、文字数若しくは音節数が最大のものを置換対象とする
ことを特徴とする請求項1又は請求項2に記載のコーパスベース音声合成のためのテキスト文セット選択方法。 In the thesaurus replacement step,
3. The corpus-based speech synthesis for corpus-based speech synthesis according to claim 1, wherein, among words and phrases constituting the text sentence selected in the selection step, those having the maximum number of characters or syllables are targeted for replacement. Text sentence set selection method.
ことを特徴とするコーパスベース音声合成のためのテキスト文セット選択プログラム。 A text sentence set selection program for corpus-based speech synthesis, which causes a computer to execute the text sentence set selection method for corpus-based speech synthesis according to any one of claims 1 to 3.
音声合成の対象カテゴリにおける類義語を保持するシソーラス辞書を格納した記憶手段と、
最初に作業テキスト文セットを空の状態にする初期化部と、
テキストコーパスから任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、選択文と呼ぶ)を前記テキストコーパスから選択する選択部と、
前記選択文を構成する語句に対して前記シソーラス辞書が保持する類義語で置換することで類似文群を作成するシソーラス置換部と、
前記選択文と類似文群の中から任意の1文を選び、その文を作業テキスト文セットに追加した場合のコーパス品質が最大となるテキスト文(以下、最良文と呼ぶ)を求める再判定部と、
前記再判定部が得た最良文を作業テキスト文セットに追加する文追加部と、
追加された作業テキスト文セットのコーパス品質がコーパス設計条件を満たすまで、前記選択部、前記シソーラス置換部、前記再判定部、及び前記文追加部の処理を繰り返す、設計条件判断部
を備える
ことを特徴とするコーパスベース音声合成のためのテキスト文セット選択装置。 An apparatus for selecting a text sentence set for corpus-based speech synthesis from a text corpus,
Storage means for storing a thesaurus dictionary holding synonyms in the target category of speech synthesis;
First, an initialization part that makes the working text sentence set empty,
A selection unit that selects an arbitrary sentence from the text corpus and selects a text sentence (hereinafter referred to as a selected sentence) that maximizes the corpus quality when the sentence is added to the working text sentence set;
A thesaurus replacement unit that creates a similar sentence group by replacing a phrase constituting the selected sentence with a synonym held by the thesaurus dictionary;
A re-determination unit that selects an arbitrary sentence from the selected sentence and a group of similar sentences and obtains a text sentence (hereinafter referred to as the best sentence) that maximizes the corpus quality when the sentence is added to the working text sentence set. When,
A sentence adding unit for adding the best sentence obtained by the re-determination unit to a working text sentence set;
A design condition determination unit that repeats the processing of the selection unit, the thesaurus replacement unit, the re-determination unit, and the sentence addition unit until the corpus quality of the added work text sentence set satisfies a corpus design condition. A text sentence set selection device for featured corpus-based speech synthesis.
前記選択部が選択したテキスト文を構成する語句のうち、名詞語句のみを置換対象とする
ことを特徴とする請求項5に記載のコーパスベース音声合成のためのテキスト文セット選択装置。 The thesaurus replacement part is:
The text sentence set selection device for corpus-based speech synthesis according to claim 5, wherein only a noun word or phrase is a replacement target among words or phrases constituting the text sentence selected by the selection unit.
前記選択部が選択したテキスト文を構成する語句のうち、文字数若しくは音節数が最大のものを置換対象とする
ことを特徴とする請求項5又は請求項6に記載のコーパスベース音声合成のためのテキスト文セット選択装置。 The thesaurus replacement part is:
7. The corpus-based speech synthesis for corpus-based speech synthesis according to claim 5, wherein, among the words and phrases constituting the text sentence selected by the selection unit, those having the maximum number of characters or syllables are to be replaced. Text sentence set selection device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007041909A JP2008203717A (en) | 2007-02-22 | 2007-02-22 | Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007041909A JP2008203717A (en) | 2007-02-22 | 2007-02-22 | Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008203717A true JP2008203717A (en) | 2008-09-04 |
Family
ID=39781255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007041909A Pending JP2008203717A (en) | 2007-02-22 | 2007-02-22 | Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008203717A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027162B2 (en) * | 2009-09-24 | 2011-09-27 | International Business Machines Corporation | Liquid-cooled electronics apparatus and methods of fabrication |
CN112397201A (en) * | 2020-12-10 | 2021-02-23 | 杭州师范大学 | Restated sentence generation optimization method for intelligent inquiry system |
CN112446213A (en) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | Text corpus expansion method |
CN114639371A (en) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | Voice conversion method, device and equipment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056787A (en) * | 1998-08-13 | 2000-02-25 | Nec Corp | Fixed form sentence corpus creating device, method, and record medium therefor |
JP2004246140A (en) * | 2003-02-14 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus, and program for text selection |
JP2004347955A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatic sentence set, and storage medium therefor |
-
2007
- 2007-02-22 JP JP2007041909A patent/JP2008203717A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056787A (en) * | 1998-08-13 | 2000-02-25 | Nec Corp | Fixed form sentence corpus creating device, method, and record medium therefor |
JP2004246140A (en) * | 2003-02-14 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus, and program for text selection |
JP2004347955A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatic sentence set, and storage medium therefor |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027162B2 (en) * | 2009-09-24 | 2011-09-27 | International Business Machines Corporation | Liquid-cooled electronics apparatus and methods of fabrication |
CN112446213A (en) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | Text corpus expansion method |
CN112446213B (en) * | 2020-11-26 | 2022-10-14 | 电子科技大学 | Text corpus expansion method |
CN112397201A (en) * | 2020-12-10 | 2021-02-23 | 杭州师范大学 | Restated sentence generation optimization method for intelligent inquiry system |
CN114639371A (en) * | 2022-03-16 | 2022-06-17 | 马上消费金融股份有限公司 | Voice conversion method, device and equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5377889B2 (en) | Language processing apparatus and program | |
JP4215418B2 (en) | Word prediction method, speech recognition method, speech recognition apparatus and program using the method | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
US20100125459A1 (en) | Stochastic phoneme and accent generation using accent class | |
JP2008203717A (en) | Text sentence selecting method for corpus-based speech synthesis, and program thereof and device thereof | |
JP5319141B2 (en) | Language model pruning method and apparatus | |
JP6301794B2 (en) | Automaton deformation device, automaton deformation method and program | |
JP2015084047A (en) | Text set creation device, text set creating method and text set create program | |
Kominek et al. | Learning pronunciation dictionaries: language complexity and word selection strategies | |
JP2009059300A (en) | Device, method, and program for creating data for learning translation | |
JP6300601B2 (en) | Dictionary device, morpheme analyzer, data structure, morpheme analysis method and program | |
JP4004376B2 (en) | Speech synthesizer, speech synthesis program | |
JP4745417B2 (en) | Information retrieval apparatus and program | |
JP4405542B2 (en) | Apparatus, method and program for clustering phoneme models | |
JP4640063B2 (en) | Speech synthesis method, speech synthesizer, and computer program | |
JP2007004011A (en) | Voice synthesizier, method, and program, and its recording medium | |
JP5976255B2 (en) | Information providing apparatus and information providing method | |
JP5976037B2 (en) | Model learning device, ranking device, method, and program | |
JP2004326479A (en) | Similarity calculating program and device between words | |
JP2010145873A (en) | Text replacement device, text voice synthesizer, text replacement method, and text replacement program | |
JP4173404B2 (en) | Statement set automatic generation device, statement set automatic generation program, storage medium | |
JP5881157B2 (en) | Information processing apparatus and program | |
JP2008305291A (en) | Information processor, information processing method and program | |
KR101227716B1 (en) | Audio synthesis device, audio synthesis method, and computer readable recording medium recording audio synthesis program | |
JP2007233216A (en) | Speech element connection type speech synthesizer and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111122 |