JP4787686B2 - TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM - Google Patents
TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM Download PDFInfo
- Publication number
- JP4787686B2 JP4787686B2 JP2006169352A JP2006169352A JP4787686B2 JP 4787686 B2 JP4787686 B2 JP 4787686B2 JP 2006169352 A JP2006169352 A JP 2006169352A JP 2006169352 A JP2006169352 A JP 2006169352A JP 4787686 B2 JP4787686 B2 JP 4787686B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- candidate
- storage unit
- keyword
- candidate text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、日本語やその他の言語の音声合成において必要となる音声データベース記憶部が既に存在した状態において、新たに追加で格納する音声データを収録する際に、発声者が読み上げる元となる収録する候補となるテキストの選択に用いられると同時に、音声に変換したいテキストが格納されたテキストデータベース記憶部から収録する候補となるテキストの組を選択する装置、その方法、そのプログラム、及びその記録媒体に関する。 In the present invention, in the state where a speech database storage unit required for speech synthesis in Japanese and other languages already exists, when recording additional speech data to be stored, the recording from which the speaker reads aloud A device for selecting a set of candidate texts to be recorded from a text database storage unit in which texts to be converted into speech are stored at the same time, the method, the program, and the recording medium About.
従来の音声合成技術において、近年では大容量な記憶装置の使用費用の低下と電子計算機の計算能力の向上に伴って、数十分から数時間に及ぶ発声した音声データをそのまま大容量の記憶装置に記憶しておき、入力された音声合成すべきテキスト及び韻律情報に応じて、前記記憶装置に記憶された音声データから音声素片を適切に選択し、そのまま接続するか又は韻律情報に応じてそれらを変形して接続することで高品質な音声を合成する音声合成方法が特許文献1、非特許文献1等に記されている。
しかしながら、いかに大容量の記憶装置に数十時間に及び音声データを記憶することが可能になったとしても、音声合成の素となる音声データベース記憶部を作成するためには、音声を録音し、かつその音声を音声素片として、利用できるようにセグメンテーション作業を行うなどして、音声合成用データベース記憶部を構築する必要がある。つまり、現実的には、上記の作業に伴う時間的、費用的なコストから現実的に集めることが可能な音声の量は決まってくるため、高品質な合成音声を実現可能な音声合成用データベース記憶部をいかに短期間・小コストで構築するかというのは、大きな課題であった。そのため、音声合成用データベース記憶部を自動的に構築する上で、重要なセグメンテーション作業を自動化するための技術が提案されてきており、音声合成用データさえあれば、音声合成用データベース記憶部を効率的に構築可能となることが、非特許文献2等に記されている。
In the conventional speech synthesis technology, in recent years, as the cost of using a large-capacity storage device decreases and the calculation capacity of an electronic computer improves, speech data uttered over several tens of minutes to several hours can be stored as it is. In accordance with the input text to be synthesized and the prosody information, the speech unit is appropriately selected from the speech data stored in the storage device and connected as it is or according to the prosody information A speech synthesis method for synthesizing high-quality speech by deforming and connecting them is described in
However, even if it becomes possible to store voice data for tens of hours in a large-capacity storage device, in order to create a voice database storage unit that is a source of voice synthesis, voice is recorded, In addition, it is necessary to construct a database storage unit for speech synthesis by performing a segmentation operation so that the speech can be used as a speech unit. In other words, in reality, the amount of speech that can be collected realistically is determined from the time and cost costs associated with the above work, so a speech synthesis database that can realize high-quality synthesized speech. How to build a storage unit in a short period of time and at a low cost was a big issue. For this reason, technologies for automating important segmentation tasks have been proposed for automatically constructing a speech synthesis database storage unit. If there is only data for speech synthesis, the database storage unit for speech synthesis is efficient. It is described in Non-Patent
また、音声データを集める方法としては、入力テキストを音声合成する際に、使用すべき音声素片が収録されている確率が音響的に見て最大となるように、音声合成用データベース記憶部を設計する方法が非特許文献3等に記されている。また、合成処理による劣化を避けるため同一内容の発声を韻律的に多重化する方法が非特許文献4等に記されている。
一方前記収録用テキストを作る方法として、確実に使用された言語表現を蓄積・整理した言語データを発生した文コーパスに含まれる素片単位(例えば連鎖音韻)の出現回数表あるいは、出現率を作成し、文コーパス中の各文に含まれる単位の出現回数あるいは出現率の累計値を選択基準スコアとして、スコアの高い文を文コーパスから逐次選択することにより、収録用テキストの集合を生成する方法が非特許文献5及び非特許文献6等に記されている。
On the other hand, as a method for creating the text for recording, an appearance frequency table or an appearance rate of a unit of unit (for example, chain phoneme) included in a sentence corpus that generates linguistic data obtained by accumulating and organizing linguistic expressions used reliably is created. A method for generating a set of recording texts by sequentially selecting sentences with high scores from the sentence corpus using the total number of occurrences or the rate of occurrence of units included in each sentence in the sentence corpus as a selection criterion score Are described in Non-Patent
重要なキーワードを含む文書等を音声合成した場合に合成音声の品質に問題があったり、特定分野のテキストに対して特に高い合成音声の品質を求めたりする場合など、既に、存在する音声合成用データベース記憶部に対し追加で、音声を収録することで、合成音声の品質を向上させたい場合などが存在する。
しかし、従来の技術では、収録用テキストは予め決められた形態素や、3連鎖音韻などのある一定単位のみを基準にした選択を行っているため、既存の合成用データベース記憶部を用いて音声合成した場合の合成音声の品質上問題があった単語や文節などのキーワードについて収録対象とするかどうかは考慮しておらず、合成音声の品質を向上させるようなキーワードを収録できる保証がない。従って追加で、収録を行ったとしても、音声合成の品質を向上させるようなキーワードの収録をする保証がなかった。
For speech synthesis that already exists, such as when there is a problem with the quality of synthesized speech when a document containing important keywords is synthesized, or when a particularly high quality of synthesized speech is required for text in a specific field. There are cases where it is desired to improve the quality of synthesized speech by recording speech in addition to the database storage unit.
However, in the conventional technology, since the text to be recorded is selected based on a predetermined unit such as a predetermined morpheme or 3-chain phoneme, speech synthesis is performed using an existing synthesis database storage unit. In this case, it is not considered whether or not keywords such as words and phrases that have a problem in the quality of the synthesized speech are to be recorded, and there is no guarantee that keywords that improve the quality of the synthesized speech can be recorded. Therefore, even if additional recording was performed, there was no guarantee that keywords would be recorded that would improve the quality of speech synthesis.
大量の候補テキストがデジタルデータとして、格納された候補テキストデータベース記憶部と、音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部とを備え、上記キーワードリスト記憶部中のキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索すると共に、その候補テキスト中に含まれるキーワードの数を計数し、上記検索された候補テキスト中から、上記キーワードリスト記憶部中の全てのキーワードを全体で含む候補テキストの組み合わせを選択し、上記選択された候補テキストの組み合わせを出力する。 A candidate text database storage unit that stores a large amount of candidate text as digital data, and a keyword list storage unit in which important keywords in speech synthesis are stored in advance, and a candidate that includes a keyword in the keyword list storage unit The text is searched from the candidate text database storage unit, the number of keywords included in the candidate text is counted, and all keywords in the keyword list storage unit are included from the searched candidate texts. A candidate text combination is selected, and the selected candidate text combination is output.
以上の構成によれば、既に存在する合成音声用のデータベース記憶部に対し、追加で、音声を収録することで、ある特定分野の合成音声の品質を向上させたい場合、この特定分野について重要なキーワードが予め格納されているキーワードリスト記憶部を設けて、このキーワードリスト記憶部中の全てのキーワードを含むようなテキストの組み合わせを、合成音声用のデータベース記憶部に収録する候補となる候補テキストとして選択することができる。このため、重要なキーワードの収録漏れが無く合成音声の品質保証が可能となる。 According to the above configuration, in the case where it is desired to improve the quality of synthesized speech in a specific field by additionally recording the voice to the already existing synthesized speech database storage unit, it is important for this specific field. A keyword list storage unit in which keywords are stored in advance is provided, and a combination of texts including all keywords in the keyword list storage unit is selected as candidate text to be recorded in the database storage unit for synthesized speech. You can choose. For this reason, there is no omission of important keywords, and the quality of synthesized speech can be guaranteed.
実施例1
図1にこの発明の実施例1の機能構成を示し、処理の流れを図2に示す。
キーワードリスト記憶部2には音声合成において重要なキーワードが予め格納されている。候補テキストデータベース記憶部4には、例えば大量の日本語テキストがデジタルデータとして格納されている。ここで例えば候補テキストデータベース記憶部には読み上げ原稿としてのテキストや音声合成の用途として想定されているタスクに関係するテキスト等音声出力の必要が高そうなテキストを格納してもよいし、または、キーワードリスト記憶部2に格納されたキーワードを少なくとも1つ含む候補テキストを多数集めて候補テキストデータベース記憶部2に格納してもよい。
また候補テキストデータベース記憶部4は学習用データベース記憶部でも問題はない。
キーワード計数部6は、キーワードリスト記憶部2に格納されているキーワードを含む候補テキストを候補テキストデータベース記憶部4から検索する(ステップS101)。そして、その検索された候補テキストのキーワードの数の計数も、キーワード計数部6は行う(ステップS102)。この計数は重複せずに行う。
Example 1
FIG. 1 shows a functional configuration of
The keyword
The candidate text
The
図3にキーワードリスト記憶部2の格納内容の具体例を示す。この場合、キーワードリスト記憶部2には「日本電信電話」「株式会社」「佐藤花子」「山田太郎」「営業」等が格納されている。そして候補テキストの1つが「日本電信電話株式会社の営業担当山田太郎より営業窓口までお問い合わせがありました。」である場合、「日本電信電話」「株式会社」「営業」「山田太郎」「営業」と5個のキーワードが出現するが、3個目と5個目のキーワードが同一の「営業」であるため、この候補テキストキーワードの数は4個と計数される。
キーワード計数部6で検索された候補テキストのテキスト番号とキーワードの数はキーワード計数記憶部5に記憶される。
テキスト選択部8は、検索された候補テキスト中からキーワードリスト記憶部中の全てのキーワードを全体で含む候補テキストの組み合わせを選択する。以下に、テキスト選択部8で候補テキストの組み合わせを選択する方法の一例を示す。
FIG. 3 shows a specific example of the contents stored in the keyword
The text number of the candidate text retrieved by the
The
まず、テキスト選択部8はキーワード計数記憶部5内の最も多いキーワード数を含む候補テキストのテキスト番号を選択し、当該テキスト番号と対応する候補テキストを候補テキストデータベース記憶部4から取り出す(ステップS103)。取り出された候補テキストはテキスト選択部8中の候補テキスト記憶部7に記憶される(ステップS104)。なお、キーワード計数記憶部5には検索候補テキストと、この候補テキストのキーワードの数を記憶するようにしても良い。この場合は、テキスト選択部8による候補テキストデータベース記憶部4からの検索候補テキストの取り出しは行わないで済む。以下の説明実施例でも同様である。
一度選んだ候補テキストに含まれるキーワードをキーワードリスト記憶部2からテキスト選択部8は除外する(ステップS106)。そして、テキスト選択部8中の制御部9はキーワードリスト記憶部2のキーワードが空になるまで(ステップS108)、キーワードの除外、候補テキストを検索、キーワードの計数、最多キーワードの検索候補テキストの選択、その候補テキスト記憶部7への記憶を繰り返し行う。
キーワードリスト記憶部2中のキーワードが空になると、候補テキスト記憶部7中の候補テキストが出力部10より候補テキストの組み合わせとして、出力される(ステップS10)。上述した繰り返し制御による候補テキストの組の選択は、候補テキストの組み合わせのデータ量を減少させる効果がある。なお、テキスト選択部8の処理方法はこれに限られるものではない。上述では、重要なキーワードを含む候補テキストを検索したが各候補テキストに含まれる重要なキーワードの数を計数してもよい。更に、同一の候補テキストの同一の重要なキーワードは複数個あっても1個と計数したが、重複して計数してもよい。
First, the
The
When the keyword in the keyword
実施例2
次に、図4に実施例2の機能構成を示し、処理の流れを図5に示す。実施例2において、テキスト選択部8は実施例1で説明した候補テキスト記憶部7、制御部9の他に重要度生成部12と、重要度記憶部14と、最大重要度組選択部16と、構成要素生成部18と、で構成される。なお同一の処理を行う部分については同一の符号を付ける。また、以下の実施例2から実施例5において、同一機能構成部分には、同一参照番号を付け、重複説明は省略する。
キーワード計数部6でキーワードを含む候補テキストを候補テキストデータベース記憶部4から検索し、検索された候補テキストのテキスト番号が検索キーワード計数記憶部5に記憶される。テキスト選択部8中の構成要素生成部18は検索キーワード計数記憶部5より順次テキスト番号を取り出し、そのテキスト番号と対応する候補テキストを候補テキストデータベース記憶部4から取り出す(ステップS2)。
構成要素生成部18は、例えば公知の技術である形態素解析・読み付与を行い(ステップS4)、単語境界の決定、単語の品詞の付与、単語の読みを決定する。また、この単語の読みに対応する音節・音素系列に変換する(ステップS6)。解析された形態素、音節・音素を用いて、検索された候補テキストに対し、構成要素生成部18は、音声言語の音響的及び/または言語的な階層構造における少なくとも1つの層に基づいた分析により、上記検索された候補テキストのそれぞれについて、1つ以上の構成要素の集合を生成する(ステップS8)。
Example 2
Next, FIG. 4 shows a functional configuration of the second embodiment, and FIG. 5 shows a processing flow. In the second embodiment, the
The
The
具体的には、例えば、候補テキストデータベース記憶部4中の1つの候補テキストが「これはきれいな花です」という文章であったとすると、言語的階層については、まず上記形態素解析により、形態素を生成し、この場合の形態素は「これ」「は」「きれいな」「花」「です」となる。次に隣り合う2つの形態素を組み合わせたものを、1つの連鎖形態素と定義すると、連鎖形態素は「これは」「はきれいな」「きれいな花」「花です」となる。次に隣り合う3つの形態素を組み合わせたものを1つの3連鎖形態素と定義すると、「これはきれいな」「はきれいな花」「きれいな花です」となる。また形態素から主語・述語を生成し、「これは」「きれいな花です」となる。
一方、音響的階層については、上記音韻系列変換により、音素としては、「K」「O」「R」「E」「W」「A」「K」「I」「R」「E」「I」「N」「A」「H」「A」「N」「A」「D」「E」「S」「U」が生成され、続いて音節としては、「コ」「レ」「ワ」「キ」「レ」「イ」「ナ」「ハ」「ナ」「デ」「ス」が生成される。次に隣り合う2つの音節を連鎖音節として、「コレ」「レワ」「ワキ」「キレ」「レイ」「イナ」「ナハ」「ハナ」「ナデ」「デス」が生成され、次に隣り合う3つの音節を3連鎖音節として、「コレワ」「レワキ」「ワキレ」「キレイ」「レイナ」「イナハ」「イナハ」「ナハナ」「ハナデ」「ナデス」が生成される。ここでは生成されたそれぞれが例えば、図6に示すような階層構造として構成要素記憶部20に記憶される。図6に示すように、構成要素生成部18で生成されたそれぞれを構成要素と定義し、形態素、連鎖形態素、3連鎖形態素、主語・述語、音素、音節、連鎖音節、3連鎖音節のそれぞれを層と定義し、ある層についての構成要素の集合を構成要素集合と定義する。なお、層について、これらは例示的に列挙されたものであり、これらに限られるものではない。また、言語的階層、音響的階層のうちの少なくとも1つ考慮すればよく、層についてはこれらのうちの少なくとも1つ考慮すればよい。また階層構造の生成は人手によってでも行うことが出来る。
Specifically, for example, if one candidate text in the candidate text
On the other hand, with respect to the acoustic hierarchy, the phoneme series conversion results in “K” “O” “R” “E” “W” “A” “K” “I” “R” “E” “I”. “N” “A” “H” “A” “N” “A” “D” “E” “S” “U” are generated, followed by “K” “R” “W” as syllables. “Ki” “Le” “I” “Na” “Ha” “Na” “De” “Su” are generated. Next, using the next two syllables as a chain syllable, “Kore” “Rewa” “Waki” “Kire” “Rei” “Ina” “Naha” “Hana” “Nade” “Death” is generated, and next Three syllables are made into three chain syllables, and “Colewa”, “Rewaki”, “Wakire”, “Beautiful”, “Reina”, “Inaha”, “Inaha”, “Nahana”, “Hanade”, “Nades” are generated. Here, each of the generated items is stored in the
図4に説明を戻すと、生成された構成要素の集合は一旦、構成要素記憶部20に記憶され、その後、読み出されて重要度生成部12に入力される。重要度生成部12は、各検索された候補テキストについて、重要度を生成する(ステップS12)。
ここで、重要度とは、候補テキストを選択する上での重要性を示す値であり、つまり、候補テキストを既存の音声合成用データベース記憶部(図示せず)に収録する重要性を表す値であると定義する。従って、重要度が高い候補テキストを選択し、その音声を収録して、既存の音声合成用データベース記憶部に追加すれば、より合成音声の品質を高めることが出来る。
この実施例では、一般的な文章において、固有名詞の部分は重要性が高い場合が多く、助詞の部分は重要性が低い場合が多い。この思想に基づき、上記重要度について、構成要素である「山田太郎」「東京」などの固有名詞を重要度として高い数値である、例えば「10」とし、構成要素である「を」「は」などの助詞を重要度として低い数値である、例えば「1」とし、その他の品詞の構成要素の重要度を、例えば「5」と設定する。そして、それぞれの重要度を品詞の個数に乗じ、それらの和をその候補テキストの重要度として算出する。
Returning to FIG. 4, the generated set of components is temporarily stored in the
Here, the importance is a value indicating the importance in selecting the candidate text, that is, a value indicating the importance of recording the candidate text in an existing speech synthesis database storage unit (not shown). Is defined as Therefore, if the candidate text with high importance is selected, the voice is recorded, and added to the existing voice synthesis database storage unit, the quality of the synthesized voice can be further improved.
In this embodiment, in general sentences, the proper noun part is often highly important, and the particle part is often less important. Based on this concept, the proper nouns such as “Taro Yamada” and “Tokyo”, which are constituent elements, are set to high numerical values, for example “10”, and the constituent elements “to” and “ha” are based on this idea. For example, “1” is set as a low numerical value as the importance level, and the importance levels of the other components of the part of speech are set as “5”, for example. Then, the importance is multiplied by the number of parts of speech, and the sum thereof is calculated as the importance of the candidate text.
例えば、構成要素生成部18で取り出された候補テキストが「私は東京と大阪へ行く」である場合、「私」「は」「東京」「と」「大阪」「へ」「行く」という構成要素(形態素)が生成され(ステップS8)、これらの構成要素は、1つの構成要素集合として、構成要素記憶部20で記憶され、その後、重要度生成部12に入力される。重要度生成部12は、「東京」「大阪」が2つの固有名詞、「は」「と」「へ」が3つの助詞としてその候補テキストの重要度を生成する。この場合の候補テキストの重要度は23(=2×10+3×1)となる。なお、重要度の考え方はこれに限られるものではない。
各検索された候補テキストについて、重要度がそれぞれ生成され(ステップS12)、当該候補テキストのテキスト番号と重要度が組となって、重要度記憶部14に記憶される。またテキスト番号でなく、候補テキストと当該テキストの重要度とを組として、重要度記憶部14に記憶させてもよい。
最大重要度組選択部16は重要度の和が最大である検索された候補テキストの組み合わせを選択する。最大重要度組選択部16による候補テキストの組み合わせを選択する方法の一例を以下に示す。
まず重要度が大きい順にテキスト番号または、候補テキストを並べ、上位から候補テキストを選択していき、キーワードリスト記憶部中のキーワードを全て含むまで選択する。選ばれた候補テキストの組み合わせは一旦、候補テキスト記憶部7に記憶され、出力部10により出力される。なお、最大重要度組選択部16による候補テキストの組み合わせを選択する方法はこれに限られるものではない。
For example, when the candidate text extracted by the
Importance is generated for each retrieved candidate text (step S12), and the text number and importance of the candidate text are paired and stored in the
The maximum importance set selecting unit 16 selects a combination of searched candidate texts having the maximum importance. An example of a method for selecting a combination of candidate texts by the maximum importance set selecting unit 16 will be described below.
First, text numbers or candidate texts are arranged in descending order of importance, candidate texts are selected from the top, and selected until all keywords in the keyword list storage unit are included. The selected combination of candidate texts is temporarily stored in the candidate
実施例3
この実施例では、既存の合成音声用データベース記憶部に格納されている音声に対応する発声テキストのデータベース記憶部に存在しない、又はまれにしか存在しない構成要素を含む候補テキストについて重要度が高いものであると考える。一般的に、既存の音声合成用データベース記憶部を用いて、音声合成を行って、音声の品質が悪い場合、その音声合成用データベース記憶部と対応する発声テキストデータベース記憶部に、まれにしか存在しない構成要素からなっている候補テキストを収録することで、合成音声の品質をより向上させることが出来る場合が多いからである。
この実施例では、上記実施例1、2で説明したテキスト選択部8内に、階層被覆率計算部22、階層被覆率記憶部24、頻度分布記憶部30が更に追加される。また、説明の便宜上、発声テキストデータベース記憶部26と構成要素リスト記憶部28が追加される。
発声テキストデータベース記憶部26には、既存の音声合成用データベース記憶部に格納された音声に対応するテキストがデジタルデータとして格納されている。構成要素リスト記憶部28には、上述した構成要素生成部18または人手により、発声テキストデータベース記憶部26中の全ての発声テキストについて、構成要素リスト記憶部として例えば、図6の階層構造が生成格納されている。
Example 3
In this embodiment, a candidate text that includes a component that does not exist or rarely exists in the database storage unit of the utterance text corresponding to the speech stored in the existing synthesized speech database storage unit is highly important. I believe that. Generally, when speech synthesis is performed using an existing speech synthesis database storage unit and the speech quality is poor, the speech text database storage unit corresponding to the speech synthesis database storage unit is rarely present. This is because the quality of the synthesized speech can often be improved by recording candidate texts that are not composed components.
In this embodiment, a tier
The utterance text
また、この実施例では構成要素の被覆率をいう概念を用いる。被覆率とは、ある構成要素が発声テキストデータベース記憶部26に含まれる全ての構成要素全体に占める割合と定義する。つまり、被覆率が低い構成要素は発声テキストデータベース記憶部26に比較的含まれていないことを意味し、被覆率が低い構成要素を含む候補テキストの音声を既存の合成音声用データベース記憶部に収録することで、より高い品質の音声を合成することが出来る。なお、構成要素生成部18により生成される構成要素の層は、構成要素リスト記憶部に含まれる構成要素の層と同一である。
被覆率の求め方は、例えば、音素の層については、発声テキストデータベース記憶部26に格納されている全てのテキストに含まれる全ての音素の出現総数をR、対象となる音素xの総数をrとすると、音素xの被覆率はr/Rで求めることが出来る。全ての構成要素ごとに、被覆率を求め、発声テキストデータベース記憶部26に含まれるテキストの全ての層について、頻度分布表が作成され、頻度分布記憶部30に記憶される。
図7に音素の層についての頻度分布表の具体例を示す。ある音素の前音素環境とは当該音素の1つ前の音素を意味し、ある音素の後音素環境とは当該音素の1つ後の音素を意味する。「♯」は無音であることを意味する。そして、被覆率が例えば高い順に並べ替える。
ここで、図7には、順序1の音素「A」と順序2の音素「A」とが2つ含まれているが、前音素環境については、同じであるが、後音素環境については、順序1の音素「A」については「♯」、順序2の音素「A」については「S」となっている点で違っているので、これらは別なものとして扱う。
In this embodiment, the concept of the coverage of components is used. The coverage is defined as the ratio of a certain component to all the components included in the utterance text
For example, for the phoneme layer, R is the total number of appearances of all phonemes included in all texts stored in the utterance text
FIG. 7 shows a specific example of the frequency distribution table for the phoneme layer. The phoneme environment of a certain phoneme means the phoneme immediately before the phoneme, and the phoneme environment of a phoneme means the phoneme immediately after the phoneme. “#” Means silence. And it rearranges in order with a high coverage, for example.
Here, FIG. 7 includes two phonemes “A” of
なお、音響的階層がここでは、「音素」「音節」「連鎖音節」「3連鎖音節」を挙げているが、これら各階層の各要素に対する環境としては前音素環境、後音素環境ではなく、他の音響でもよい。例えば、3連鎖音節についての前環境、後環境は音素、音節、連鎖音節、3連鎖音節のどれでもよい。また、音響的階層の各層についての頻度分布表については、前環境、後環境のどちらか一方を考慮するか、2つとも考慮しない構成にしてもよく、言語的階層の各層についての頻度分布表においては前環境、後環境の両方については考慮しない。
図4に説明を戻すと、候補テキストから構成要素生成部18により生成された構成要素の集合は構成要素記憶部20に一旦記憶され、その後、これら構成要素の集合は階層被覆率計算部22に入力される。階層被覆率計算部22は、検索された候補テキストごとの構成要素集合ごとに、その構成要素に対する被覆率を頻度分布記憶部30を参照して求め、これら被覆率の和を求める。
例えば、上記の候補テキスト「これはきれいな花です」の場合、階層被覆率計算部22が図7の頻度分布表を参照して、まず被覆率を求める。例えば1つめの「K」の前音素環境は無音、後音素環境は「O」であるので、順序3の「K」であるので、被覆率がa3となる。
そして、残りの音素全てについて被覆率が求められ、また、その他の層の構成要素についても被覆率を求められ、求められた被覆率を用いて、各層ごとに、階層被覆率が求められる(図5中のステップS10)。
Note that the acoustic hierarchy here is “phoneme”, “syllable”, “chained syllable”, “three-chained syllable”, but the environment for each element of these layers is not a prephoneme environment or a postphoneme environment, Other sounds may be used. For example, the pre-environment and post-environment for a three-chain syllable may be any of phonemes, syllables, chain syllables, and three-chain syllables. In addition, the frequency distribution table for each layer of the acoustic hierarchy may be configured so that either the previous environment or the rear environment is considered or not both, and the frequency distribution table for each layer of the linguistic hierarchy. Does not consider both the pre-environment and the post-environment.
Returning to FIG. 4, the set of components generated by the
For example, in the case of the above candidate text “This is a beautiful flower”, the hierarchical
Then, the coverage is obtained for all the remaining phonemes, the coverage is also obtained for the constituent elements of the other layers, and the hierarchical coverage is obtained for each layer using the obtained coverage (see FIG. Step S10 in step 5).
階層被覆率とは、各階層毎に対象候補テキストに含まれる構成要素の被覆率の総和である。つまり、ある候補テキストIの層Jにおいて、N(IJ)個の構成要素があり、構成要素kの被覆率をCIJkとすると、階層被覆率CIJは、下記の式(1)で求めることが出来る。
CIJ=Σk=1 N(IJ)CIJk・・・・(1)
例えば、上記の候補テキスト「これはきれいな花です」の形態素層の構成要素は「これ」「は」「きれいな」「花」「です」となる。そしてこの候補テキストの形態素の層における階層被覆率は図7で示したものになる場合は、これらの総和により求める。なお、図8は例えば、「これ」という形態素の被覆率が7.25×10−5ということを表している。
よって、7.25×10−5+2.83×10−4+5.84×10−6+1.43×10−5+6.93×10−4≒1.07×10−3となる。
次に重要度生成部12において、検索された候補テキストごとに階層被覆率の和を求め、この和が大となれば、小となるような値を重要度として求める。ここでは、階層被覆率の重み付き和を求めた後、逆数を求める。
つまり候補テキストIの重要度SIは、Lを層の数、WJを階層Jの重み係数とすると、以下の式(2)で求めることが出来る。
SI=1/ΣJ=1 LWJ・CIJ・・・・(2)
例えば、上記の「これはきれいな花です」という候補テキストについて、図9に示すように、主語・述語、3連鎖形態素、連鎖形態素、形態素、3連鎖音節、連鎖音節、音節、音素についての階層被覆率がそれぞれb、c、d、e、f、g、h、aとなる場合に、重み係数をそれぞれ、Wb、Wc、Wd、We、Wf、Wg、Wh、Wa、とすると、この候補テキストの重要度は、以下のように求めることが出来る。
1/(b・Wb+c・Wc+d・Wd+e・We+f・Wf+g・Wg+h・Wh+a・Wa)
The hierarchy coverage is the total sum of the coverage of the constituent elements included in the target candidate text for each hierarchy. That is, in a layer J of a candidate text I, there are N (IJ) components, and when the coverage of the component k is C IJk , the hierarchical coverage C IJ is obtained by the following equation (1). I can do it.
C IJ = Σ k = 1 N (IJ) C IJk (1)
For example, the constituent elements of the morpheme layer of the candidate text “This is a beautiful flower” are “this” “ha” “beautiful” “flower” “is”. When the candidate text has the tier coverage in the morpheme layer as shown in FIG. FIG. 8 shows, for example, that the coverage of the morpheme “this” is 7.25 × 10 −5 .
Therefore, 7.25 × 10 −5 + 2.83 × 10 −4 + 5.84 × 10 −6 + 1.43 × 10 −5 + 6.93 × 10 −4 ≈1.07 × 10 −3 .
Next, the
That severity S I of the candidate text I, the number of layers to L, and the W J and weighting coefficients of the hierarchical J, can be obtained by the following equation (2).
S I = 1 / Σ J = 1 L W J・ C IJ・ ・ ・ ・ (2)
For example, for the above candidate text “This is a beautiful flower”, as shown in FIG. 9, hierarchical coverage of the subject / predicate, 3 chain morpheme, chain morpheme, morpheme, 3 chain syllable, chain syllable, syllable, phoneme When the rates are b, c, d, e, f, g, h, a, the weighting factors are W b , W c , W d , W e , W f , W g , W h , W, respectively. If a , then the importance of this candidate text can be determined as follows.
1 / (b · W b + c · W c + d · W d + e · W e + f · W f + g · W g + h · W h + a · W a )
ここで、階層被覆率の(重み付き)和を求め、この値が大となれば、小となるような値を重要度とする理由は、この候補テキストの階層被覆率の(重み付き)和とは、候補テキストが、どの程度、既存の音声合成用データベース記憶部に対応した発声テキストデータベース記憶部26に含まれている構成要素から再構成可能化を示すものである。階層被覆率の(重み付き)和が低ければ、発声テキストデータベース記憶部26にまれにしか存在しない構成要素からなる候補テキストである。よって、階層被覆率の(重み付き)和の逆数である重要度が高い構成要素を含む候補テキストを収録して発声テキストデータベース記憶部26より作成した音声合成用データベース記憶部に追加すれば合成音声の品質を向上させることが出来る。何故なら、上述したように、既存の音声合成用データベース記憶部にまれにしか存在していない構成要素を含む候補テキストを収録して既存の音声合成用データベース記憶部に追加することで、合成音声の品質を向上させることが出来る場合が多いからである。
なお、重み係数については、キーワード計数部6により、検索された候補テキストをある分野に依存した用途向けにする場合は、音響的階層構造の階層被覆率に対する重み係数より、言語的階層構造の階層被覆率に対する重み係数を大きくすればよい。何故なら検索された候補テキストをある分野に依存した用途向けにする場合は、候補テキストから生成された形態素にはその特定の分野に依存した単語等が含まれている場合が多いからである。逆に、検索された候補テキストをある分野に比較的、依存させない用途向けにする場合は、音響的階層構造の階層被覆率に対する重み係数より、言語的階層構造の階層被覆率に対する重み係数を小さくすればよい。また、重み付けを考えない場合は、重み係数を全て「1」とすればよい。
また、上記では、上記重み付き和の逆数をとることで重要度を生成したが、これに限られず、例えば、上記重み付き和にマイナスを付けてこれを重要度とすることなども考えられる。
Here, the (weighted) sum of the hierarchical coverage is obtained, and if this value becomes large, the reason why the value that becomes small becomes the importance is the (weighted) sum of the hierarchical coverage of the candidate text. Indicates that the candidate text can be reconstructed from the components included in the utterance text
As for the weighting factor, when the
In the above description, the importance is generated by taking the reciprocal of the weighted sum. However, the importance is not limited to this. For example, it is possible to add a minus to the weighted sum to make the importance.
実施例4
この実施例では、実施例1〜3で説明した最大重要度組選択部16の具体的な処理の流れの例を説明する。なお、以下で説明する最大重要度組選択部16の処理は公知の技術であるグリーディアルゴリズム(図5中のステップS14)を用いる。最大重要度組選択部16は、最重要テキスト選択手段32、キーワード除去手段34、繰り返し制御手段36、とで構成されている。また図10にグリーディアルゴリズムの処理の流れを示す。
重要度記憶部14では、例えば図11に示す形式で記憶させればよい。例えば、構成要素生成部18で、層を連鎖形態素、連鎖音節、音素について構成要素を生成した場合を説明すると、キーワードを含む各候補テキストごとに、候補テキスト番号、例えば「7」と、キーワード数、例えばK1と、各層名と、各層についての構成要素集合と、各層についての階層被覆率と、重要度とを記憶させる。なおこの記憶形式は以下の実施例5においても同様である。
Example 4
In this embodiment, an example of a specific processing flow of the maximum importance set selecting unit 16 described in the first to third embodiments will be described. Note that the processing of the maximum importance set selecting unit 16 described below uses a greedy algorithm (step S14 in FIG. 5) which is a known technique. The maximum importance group selection unit 16 includes a most important
For example, the
最重要テキスト選択手段32が重要度生成部12で生成された重要度が最も高い候補テキストを候補テキストデータベース記憶部4から選択し、候補テキスト記憶部7に記憶する(ステップS16)。キーワード除去手段34が、選択された候補テキストに含まれる全てのキーワードをキーワードリスト記憶部2から除去する(ステップS18)。
そして、上述したキーワード計数部6、構成要素生成部18、重要度生成部12、最重要テキスト選択手段32、キーワード除去手段34、の処理を繰り返し制御手段36が繰り返し行う(ステップS20)。この繰り返し処理を、上記最重要テキスト選択手段32により選択された全ての候補テキストの組中に含まれるキーワードが上記キーワードリスト記憶部中の最初のキーワードの全てと一致するまで行う。
このグリーディアルゴリズムによる最大重要度組選択部16の処理において用いる重要度は実施例3で示した手法により求める場合に限らず、実施例2で示した手法により求めてもよい。
The most important text selection means 32 selects the candidate text having the highest importance generated by the
Then, the
The importance used in the processing of the maximum importance set selecting unit 16 by this greedy algorithm is not limited to the case of obtaining by the method shown in the third embodiment, but may be obtained by the method shown in the second embodiment.
実施例5
この実施例では、最大重要度組選択部16の処理の流れを公知技術である動的計画法(図5中のステップS22)を用いて処理を行う。また動的計画法とはある1つの条件を満たしながら、ある値が最大もしくは最小になるものを選択するアルゴリズムである。なお、動的計画法の詳細に関しては、「R.Bellman “Dynamic programming” Princeton Universe Press 1957」に記載されている。
この場合の最大重要度組選択部16はデータ量測定手段38、動的計画法実行手段40とで構成されている。
まずデータ量測定手段38により、重要度記憶部14に記憶されている全ての候補テキストについてのデータ量を測定する。図11に破線で示すように、各候補テキストのデータ量が付加された形式で重要度記憶部14に記憶される。そして、動的計画法実行手段40が以下の処理により候補テキストを選択する。
動的計画法実行手段40が動的計画法を用いて、検索された候補テキストの組み合わせの重要度の総和を最大とし、かつキーワードリスト記憶部2のキーワードを全て全体で含み、かつ候補テキストのデータ量の総和が最小となる候補テキストの組み合わせを選択する。
Example 5
In this embodiment, the processing flow of the maximum importance set selecting unit 16 is processed using a dynamic programming method (step S22 in FIG. 5) which is a known technique. Dynamic programming is an algorithm that selects a value that maximizes or minimizes a certain value while satisfying a certain condition. Details of dynamic programming are described in “R. Bellman“ Dynamic programming ”Princeton University Press 1957”.
In this case, the maximum importance set selecting unit 16 includes a data
First, the data amount measuring means 38 measures the data amount for all candidate texts stored in the
The dynamic programming execution means 40 uses the dynamic programming to maximize the sum of the importance levels of the combinations of retrieved candidate texts, includes all the keywords in the keyword
ここで、キーワードリスト記憶部2のキーワードを全て含んでいるか否かはキーワードリスト記憶部2中のキーワード数と選択された候補テキストのキーワードの数とが等しいか否かを判定すればよい。ここで、キーワード候補テキストに含まれるキーワードの数の和を求める際に、同一のキーワードは1つと数えることにする。等しければ、キーワードリスト記憶部2のキーワードを全て含んでいることになる。また、データ量総和のしきい値を設定して、動的計画法を実行し、条件を満たさなくなるまでデータ量総和のしきい値を徐々に下げて動的計画法を繰り返し実行することも考えられる。
以上の各実施形態の他、本発明であるテキスト選択装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記テキスト選択装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記テキスト選択装置における処理機能をコンピュータによって実現する場合、テキスト選択装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記テキスト選択装置における処理機能がコンピュータ上で実現される。
Here, whether or not all the keywords in the keyword
In addition to the above embodiments, the text selection device / method according to the present invention is not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above text selection device / method is not only executed in time series in the order described, but also executed in parallel or individually as required by the processing capability of the device that executes the processing. It is good.
When the processing function in the text selection device is realized by a computer, the processing content of the function that the text selection device should have is described by a program. Then, by executing this program on a computer, the processing functions in the text selection device are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape, and the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable-Programmable-Ready), etc. Can be used.
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、言語モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
In this embodiment, the language model creation apparatus is configured by executing a predetermined program on a computer. However, at least a part of the processing contents may be realized by hardware.
Claims (10)
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
上記候補テキストデータベース記憶部に格納された、複数の候補テキストそれぞれに含まれる上記重要なキーワードの数を計数するキーワード計数部と、
上記計数された候補テキスト中から、候補テキストの組み合わせを選択するテキスト選択部と、
を有し、
上記テキスト選択部は、
上記計数された候補テキストのうち、上記重要なキーワードの数が最も多い候補テキストを選択し、選択した候補テキストを候補テキスト記憶部に記憶させるテキスト選択手段と、
上記テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去手段と、
キーワードリスト記憶部のキーワードが空になるまで、上記キーワード計数部と、上記テキスト選択手段と、上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御手段と、
を含む
ことを特徴とするテキスト選択装置。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
A keyword counting unit that counts the number of the important keywords included in each of the plurality of candidate texts, stored in the candidate text database storage unit ;
From among the counted candidate text, and the text selection unit for selecting a combination of candidate text,
Have
The text selection part
A text selection means for selecting a candidate text having the largest number of the important keywords from the counted candidate texts, and storing the selected candidate text in a candidate text storage unit;
Keyword removing means for removing keywords included in the candidate text selected by the text selecting means from the keyword list storage unit;
Repeat control means for sequentially controlling the keyword counting section, the text selection means, and the keyword removal means until the keywords in the keyword list storage section are empty,
Text selection device according to claim <br/> contain.
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数部と、
上記検索された候補テキスト中から、候補テキストの組み合わせを選択するテキスト選択部と、
を有し、
上記テキスト選択部は、
上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における所定の階層の構成要素の集合を生成する構成要素生成部と、
上記検索された候補テキストのそれぞれについて、前記構成要素の集合に含まれる各構成要素に付与された重要度の総和を算出し、その総和を当該候補テキストの重要度として生成する重要度生成部と、
候補テキスト記憶部に記憶されていない上記検索された候補テキストのうち、上記候補テキストの重要度が最も大きい候補テキストを選択し、選択した候補テキストを上記候補テキスト記憶部に記憶させる最重要テキスト選択手段と、
上記最重要テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去手段と、
上記候補テキスト記憶部に記憶された候補テキストの組中に含まれるキーワードが上記キーワードリスト記憶部中の最初のキーワードの全てと一致するまで、上記最重要テキスト選択手段と上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御手段と、
を、含むことを特徴とするテキスト選択装置。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
A keyword counting unit for searching candidate texts including the important keyword from the candidate text database storage unit;
A text selection unit for selecting a combination of candidate texts from the searched candidate texts;
Have
The text selection part
For each of the retrieved candidate texts , a component generation unit that generates a set of components of a predetermined hierarchy in the acoustic and / or linguistic hierarchical structure of the spoken language;
For each of the retrieved candidate texts, an importance generation unit that calculates the sum of the importance given to each component included in the set of component and generates the sum as the importance of the candidate text ; ,
The most important text selection for selecting the candidate text having the highest importance of the candidate text from the searched candidate texts not stored in the candidate text storage unit and storing the selected candidate text in the candidate text storage unit Means,
Keyword removing means for removing keywords included in the candidate text selected by the most important text selecting means from the keyword list storage unit;
The most important text selection means and the keyword removal means until the keywords included in the set of candidate texts stored in the candidate text storage unit match all of the first keywords in the keyword list storage unit. Repetitive control means for sequentially and repetitively controlling;
A text selection device comprising:
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数部と、
上記検索された候補テキスト中から、候補テキストの組み合わせを選択するテキスト選択部と、
を有し、
上記テキスト選択部は、
上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における少なくとも1つの層に基づいた分析により、1つ以上の構成要素の集合を生成する構成要素生成部と、
音声合成用データベース記憶部に格納された音声に対応する発声テキストに対し、少なくとも、上記生成する1つ以上の構成要素集合と対応する構成要素集合ごとにその構成要素がその構成要素集合に占める割合を示す被覆率が格納された頻度分布記憶部と、
上記検索された候補テキストごとの上記構成要素集合ごとに、その構成要素に対する被覆率を上記頻度分布記憶部を参照して求め、これら被覆率の和を階層被覆率として、求める階層被覆率計算部と、
上記検索された候補テキストごとに上記階層被覆率の和を求め、この和が大となれば、小となるような値を上記重要度として求める重要度生成部と、
候補テキスト記憶部に記憶されていない上記検索された候補テキストのうち、上記候補テキストの重要度が最も大きい候補テキストを選択し、選択した候補テキストを上記候補テキスト記憶部に記憶させる最重要テキスト選択手段と、
上記最重要テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去手段と、
上記候補テキスト記憶部に記憶された候補テキストの組中に含まれるキーワードが上記キーワードリスト記憶部中の最初のキーワードの全てと一致するまで、上記最重要テキスト選択手段と上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御手段と、
を、含むことを特徴とするテキスト選択装置。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
A keyword counting unit for searching candidate texts including the important keyword from the candidate text database storage unit;
A text selection unit for selecting a combination of candidate texts from the searched candidate texts;
Have
The text selection part
A component generation unit that generates a set of one or more components by analyzing each of the retrieved candidate texts based on at least one layer in the acoustic and / or linguistic hierarchical structure of the spoken language; ,
Percentage of the constituent element in the constituent element set corresponding to at least one constituent element set to be generated with respect to the utterance text corresponding to the speech stored in the speech synthesis database storage unit A frequency distribution storage unit in which the coverage ratio indicating is stored;
For each component set for each of the retrieved candidate texts, a coverage with respect to the component is obtained by referring to the frequency distribution storage unit, and the sum of these coverages is used as a hierarchical coverage to obtain a hierarchical coverage calculation unit When,
An importance generation unit that obtains the sum of the hierarchical coverages for each of the searched candidate texts, and obtains a value that is small as the importance if the sum is large;
The most important text selection for selecting the candidate text having the highest importance of the candidate text from the searched candidate texts not stored in the candidate text storage unit and storing the selected candidate text in the candidate text storage unit Means,
Keyword removing means for removing keywords included in the candidate text selected by the most important text selecting means from the keyword list storage unit;
The most important text selection means and the keyword removal means until the keywords included in the set of candidate texts stored in the candidate text storage unit match all of the first keywords in the keyword list storage unit. Repetitive control means for sequentially and repetitively controlling;
A text selection device comprising:
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数部と、
上記検索された候補テキスト中から、候補テキストのそれぞれについて算出される重要度が高い候補テキストを優先的に選択することにより、上記キーワードリスト記憶部中の全てのキーワードを全体で含む候補テキストの組み合わせを選択し、選択した候補テキストの組み合わせを候補テキスト記憶部に記憶させるテキスト選択部と、
を有し、
上記テキスト選択部は、
上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における少なくとも1つの層に基づいた分析により、1つ以上の構成要素の集合を生成する構成要素生成部と、
音声合成用データベース記憶部に格納された音声に対応する発声テキストに対し、少なくとも、上記生成する1つ以上の構成要素集合と対応する構成要素集合ごとにその構成要素がその構成要素集合に占める割合を示す被覆率が格納された頻度分布記憶部と、
上記検索された候補テキストごとの上記構成要素集合ごとに、その構成要素に対する被覆率を上記頻度分布記憶部を参照して求め、これら被覆率の和を階層被覆率として、求める階層被覆率計算部と、
上記検索された候補テキストごとに上記階層被覆率の和を求め、この和が大となれば、小となるような値を上記重要度として求める重要度生成部と、
を、含むことを特徴とするテキスト選択装置。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
A keyword counting unit for searching candidate texts including the important keyword from the candidate text database storage unit;
A combination of candidate texts including all keywords in the keyword list storage unit by preferentially selecting candidate texts with high importance calculated for each candidate text from the searched candidate texts A text selection unit that stores a combination of the selected candidate texts in the candidate text storage unit,
Have
The text selection part
A component generation unit that generates a set of one or more components by analyzing each of the retrieved candidate texts based on at least one layer in the acoustic and / or linguistic hierarchical structure of the spoken language; ,
Percentage of the constituent element in the constituent element set corresponding to at least one constituent element set to be generated with respect to the utterance text corresponding to the speech stored in the speech synthesis database storage unit A frequency distribution storage unit in which the coverage ratio indicating is stored;
For each component set for each of the retrieved candidate texts, a coverage with respect to the component is obtained by referring to the frequency distribution storage unit, and the sum of these coverages is used as a hierarchical coverage to obtain a hierarchical coverage calculation unit When,
An importance generation unit that obtains the sum of the hierarchical coverages for each of the searched candidate texts, and obtains a value that is small as the importance if the sum is large;
A text selection device comprising:
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
を用い、
キーワード計数手段が、上記候補テキストデータベース記憶部に格納された、複数の候補テキストそれぞれに含まれる上記重要なキーワードの数を、計数するキーワード計数過程と、
テキスト選択手段が、上記計数された候補テキスト中から、候補テキストの組み合わせを、選択するテキスト選択過程と、
を有し、
上記テキスト選択過程は、
上記計数された候補テキストのうち、上記重要なキーワードの数が最も多い候補テキストを選択し、選択した候補テキストを候補テキスト記憶部に記憶させる候補テキスト選択過程と、
上記テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去過程と、
キーワードリスト記憶部のキーワードが空になるまで、上記キーワード計数部と、上記テキスト選択手段と、上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御過程と、
を含む
ことを特徴とするテキスト選択方法。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
Use
A keyword counting process in which the keyword counting means counts the number of the important keywords included in each of the plurality of candidate texts stored in the candidate text database storage unit ;
Text selection means, from among the counted candidate text, a combination of candidate text, and the text selection step of selecting,
I have a,
The text selection process is
A candidate text selection process of selecting the candidate text having the largest number of the important keywords from the counted candidate text and storing the selected candidate text in the candidate text storage unit;
A keyword removal process for removing keywords included in the candidate text selected by the text selection means from the keyword list storage unit;
Until the keyword in the keyword list storage unit is empty, a repetitive control process in which the keyword counting unit, the text selecting unit, and the keyword removing unit are sequentially repetitively controlled,
A method for selecting text , comprising :
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
を用い、
キーワード計数手段が、上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数過程と、
テキスト選択手段が、上記検索された候補テキスト中から、候補テキストの組み合わせを、選択するテキスト選択過程と、
を有し、
上記テキスト選択過程は、
構成要素生成手段が、上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における所定の階層の構成要素の集合を生成する構成要素生成過程と、
重要度生成手段が、上記検索された候補テキストのそれぞれについて、前記構成要素の集合に含まれる各構成要素に付与された重要度の総和を算出し、その総和を当該候補テキストの重要度として求める重要度生成過程と、
候補テキスト記憶部に記憶されていない上記検索された候補テキストのうち、上記候補テキストの重要度が最も大きい候補テキストを選択し、選択した候補テキストを上記候補テキスト記憶部に記憶させる最重要テキスト選択過程と、
上記最重要テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去過程と、
上記候補テキスト記憶部に記憶された候補テキストの組中に含まれるキーワードが上記キーワードリスト記憶部中の最初のキーワードの全てと一致するまで、上記最重要テキスト選択手段と上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御過程と、
を、含むことを特徴とするテキスト選択方法。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
Use
A keyword counting process in which the keyword counting means searches the candidate text database storage unit for candidate text containing the important keyword ;
A text selection process in which the text selection means selects a combination of candidate texts from the searched candidate texts;
Have
The text selection process is
A component generation process in which the component generation means generates a set of components in a predetermined hierarchy in the acoustic and / or linguistic hierarchical structure of the spoken language for each of the retrieved candidate texts;
For each of the retrieved candidate texts, the importance generation means calculates the sum of the importance assigned to each component included in the set of the components, and obtains the sum as the importance of the candidate text. Importance generation process ,
Among the searched candidate text is not stored in the candidate text storage unit, the most important text importance of the candidate text selects the largest candidate text, and stores the candidate selected text to the candidate text storage unit The selection process,
A keyword removal process for removing keywords included in the candidate text selected by the most important text selection means from the keyword list storage unit;
The most important text selection means and the keyword removal means until the keywords included in the set of candidate texts stored in the candidate text storage unit match all of the first keywords in the keyword list storage unit. A repetitive control process for sequentially repetitive control;
A method for selecting text, comprising:
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
を用い、
キーワード計数手段が、上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数過程と、
テキスト選択手段が、上記検索された候補テキスト中から、候補テキストの組み合わせを、選択するテキスト選択過程と、
を有し、
上記テキスト選択過程は、
上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における少なくとも1つの層に基づいた分析により、1つ以上の構成要素の集合を生成する構成要素生成過程と、
音声合成用データベース記憶部に格納された音声に対応する発声テキストに対し、少なくとも、上記生成する1つ以上の構成要素集合と対応する構成要素集合ごとにその構成要素がその構成要素集合に占める割合を示す被覆率が格納された頻度分布記憶過程と、
上記検索された候補テキストごとの上記構成要素集合ごとに、その構成要素に対する被覆率を上記頻度分布記憶部を参照して求め、これら被覆率の和を階層被覆率として、求める階層被覆率計算過程と、
上記検索された候補テキストごとに上記階層被覆率の和を求め、この和が大となれば、小となるような値を上記重要度として求める重要度生成過程と、
候補テキスト記憶部に記憶されていない上記検索された候補テキストのうち、上記候補テキストの重要度が最も大きい候補テキストを選択し、選択した候補テキストを上記候補テキスト記憶部に記憶させる最重要テキスト選択過程と、
上記最重要テキスト選択手段で選択された候補テキストに含まれるキーワードをキーワードリスト記憶部中から除去するキーワード除去過程と、
上記候補テキスト記憶部に記憶された候補テキストの組中に含まれるキーワードが上記キーワードリスト記憶部中の最初のキーワードの全てと一致するまで、上記最重要テキスト選択手段と上記キーワード除去手段と、を順次繰り返し制御させる繰り返し制御過程と、
を、含むことを特徴とするテキスト選択方法。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
Use
A keyword counting process in which the keyword counting means searches the candidate text database storage unit for candidate text containing the important keyword ;
A text selection process in which the text selection means selects a combination of candidate texts from the searched candidate texts;
Have
The text selection process is
A component generation process for generating a set of one or more components for each of the retrieved candidate texts by analysis based on at least one layer in the acoustic and / or linguistic hierarchical structure of the spoken language; ,
Percentage of the constituent element in the constituent element set corresponding to at least one constituent element set to be generated with respect to the utterance text corresponding to the speech stored in the speech synthesis database storage unit A frequency distribution storage process in which the coverage ratio indicating is stored,
Hierarchical coverage calculation process for obtaining the coverage for each constituent element for each retrieved candidate text by referring to the frequency distribution storage unit and using the sum of these coverages as the hierarchical coverage When,
An importance generation process for obtaining the sum of the hierarchical coverages for each of the searched candidate texts, and obtaining a value that is small if the sum is large,
The most important text selection for selecting the candidate text having the highest importance of the candidate text from the searched candidate texts not stored in the candidate text storage unit and storing the selected candidate text in the candidate text storage unit Process,
A keyword removal process for removing keywords included in the candidate text selected by the most important text selection means from the keyword list storage unit;
The most important text selection means and the keyword removal means until the keywords included in the set of candidate texts stored in the candidate text storage unit match all of the first keywords in the keyword list storage unit. A repetitive control process for sequentially repetitive control;
A method for selecting text, comprising:
音声合成において重要なキーワードが予め格納されているキーワードリスト記憶部と、
を用い、
上記重要なキーワードを含む候補テキストを上記候補テキストデータベース記憶部から検索するキーワード計数過程と、
上記検索された候補テキスト中から、候補テキストのそれぞれについて算出される重要度が高い候補テキストを優先的に選択することにより、上記キーワードリスト記憶部中の全てのキーワードを全体で含む候補テキストの組み合わせを選択し、選択した候補テキストの組み合わせを候補テキスト記憶部に記憶させるテキスト選択過程と、
を有し、
上記テキスト選択過程は、
上記検索された候補テキストのそれぞれについて、音声言語の音響的及び/または言語的な階層構造における少なくとも1つの層に基づいた分析により、1つ以上の構成要素の集合を生成する構成要素生成過程と、
音声合成用データベース記憶部に格納された音声に対応する発声テキストに対し、少なくとも、上記生成する1つ以上の構成要素集合と対応する構成要素集合ごとにその構成要素がその構成要素集合に占める割合を示す被覆率が格納された頻度分布記憶過程と、
上記検索された候補テキストごとの上記構成要素集合ごとに、その構成要素に対する被覆率を上記頻度分布記憶部を参照して求め、これら被覆率の和を階層被覆率として、求める階層被覆率計算過程と、
上記検索された候補テキストごとに上記階層被覆率の和を求め、この和が大となれば、小となるような値を上記重要度として求める重要度生成過程と、
を含むことを特徴とするテキスト選択方法。 A candidate text database storage unit in which a large amount of candidate text is stored as digital data,
A keyword list storage unit in which important keywords in speech synthesis are stored in advance;
Use
A keyword counting process for searching candidate texts containing the important keywords from the candidate text database storage unit;
A combination of candidate texts including all keywords in the keyword list storage unit by preferentially selecting candidate texts with high importance calculated for each candidate text from the searched candidate texts A text selection process for storing the selected combination of candidate texts in the candidate text storage unit, and
Have
The text selection process is
A component generation process for generating a set of one or more components for each of the retrieved candidate texts by analysis based on at least one layer in the acoustic and / or linguistic hierarchical structure of the spoken language; ,
Percentage of the constituent element in the constituent element set corresponding to at least one constituent element set to be generated with respect to the utterance text corresponding to the speech stored in the speech synthesis database storage unit A frequency distribution storage process in which the coverage ratio indicating is stored,
Hierarchical coverage calculation process for obtaining the coverage for each constituent element for each retrieved candidate text by referring to the frequency distribution storage unit and using the sum of these coverages as the hierarchical coverage When,
An importance generation process for obtaining the sum of the hierarchical coverages for each of the searched candidate texts, and obtaining a value that is small if the sum is large,
A method for selecting text, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006169352A JP4787686B2 (en) | 2006-06-19 | 2006-06-19 | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006169352A JP4787686B2 (en) | 2006-06-19 | 2006-06-19 | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007334264A JP2007334264A (en) | 2007-12-27 |
JP4787686B2 true JP4787686B2 (en) | 2011-10-05 |
Family
ID=38933768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006169352A Expired - Fee Related JP4787686B2 (en) | 2006-06-19 | 2006-06-19 | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4787686B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6088233B2 (en) * | 2012-12-12 | 2017-03-01 | 日本放送協会 | Spoken sentence generation device for speech synthesis and program thereof |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4306086B2 (en) * | 2000-04-14 | 2009-07-29 | 富士通株式会社 | Apparatus and method for creating a dictionary for speech synthesis |
JP2004251953A (en) * | 2003-02-18 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for text selection |
-
2006
- 2006-06-19 JP JP2006169352A patent/JP4787686B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007334264A (en) | 2007-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
US7496498B2 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
US8620662B2 (en) | Context-aware unit selection | |
US7219060B2 (en) | Speech synthesis using concatenation of speech waveforms | |
US8019605B2 (en) | Reducing recording time when constructing a concatenative TTS voice using a reduced script and pre-recorded speech assets | |
US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
JPH10274997A (en) | Document reading-aloud device | |
CN101236743A (en) | System and method for generating high quality speech | |
JP2008134475A (en) | Technique for recognizing accent of input voice | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
US20070073542A1 (en) | Method and system for configurable allocation of sound segments for use in concatenative text-to-speech voice synthesis | |
KR20090005090A (en) | Speech synthesis apparatus and method thereof | |
Bulyko et al. | Efficient integrated response generation from multiple targets using weighted finite state transducers | |
JP4787686B2 (en) | TEXT SELECTION DEVICE, ITS METHOD, ITS PROGRAM, AND RECORDING MEDIUM | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP4829605B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP4004376B2 (en) | Speech synthesizer, speech synthesis program | |
JP2006018133A (en) | Distributed speech synthesis system, terminal device, and computer program | |
Isogai et al. | Recording script design for corpus-based TTS system based on coverage of various phonetic elements | |
Breuer et al. | The Bonn open synthesis system 3 | |
JP4741208B2 (en) | Speech text data selection program for speech synthesis and text data selection device for speech synthesis | |
US20030216921A1 (en) | Method and system for limited domain text to speech (TTS) processing | |
JP6002598B2 (en) | Emphasized position prediction apparatus, method thereof, and program | |
JP5155836B2 (en) | Recorded text generation device, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110715 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140722 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |