JP2014115577A - Read-aloud sentence generation device for voice synthesis, and program of the same - Google Patents
Read-aloud sentence generation device for voice synthesis, and program of the same Download PDFInfo
- Publication number
- JP2014115577A JP2014115577A JP2012271461A JP2012271461A JP2014115577A JP 2014115577 A JP2014115577 A JP 2014115577A JP 2012271461 A JP2012271461 A JP 2012271461A JP 2012271461 A JP2012271461 A JP 2012271461A JP 2014115577 A JP2014115577 A JP 2014115577A
- Authority
- JP
- Japan
- Prior art keywords
- graph
- node
- list
- integrated
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 75
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 75
- 230000014509 gene expression Effects 0.000 claims abstract description 107
- 230000007717 exclusion Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000010354 integration Effects 0.000 claims abstract description 12
- 238000012217 deletion Methods 0.000 claims description 60
- 230000037430 deletion Effects 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 15
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 description 19
- 238000006467 substitution reaction Methods 0.000 description 9
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本願発明は、音声合成用データベースの構築に必要な読み上げ文を生成する音声合成用読み上げ文生成装置及びそのプログラムに関する。 The present invention relates to a speech synthesis read-out sentence generation device that generates a read-out sentence necessary for constructing a speech synthesis database and a program thereof.
従来から、音声合成用の読み上げ文章を生成する発明が提案されている(特許文献1参照)。この特許文献1に記載の発明は、有向グラフにおけるノードの最低通過回数から、音声合成用の読み上げ文を生成するための条件式を生成し、生成した条件式をシンプレックス法で解くことにより、読み上げ文を生成するものである。
Conventionally, an invention for generating a text-to-speech for speech synthesis has been proposed (see Patent Document 1). The invention described in
この特許文献1に記載の発明は、音声合成用データベースに既に登録されて読み上げられた文(以下、「読み上げ済み文」)が存在する場合でも、この読み上げ済み文を反映できないため、読み上げ済み文と同一の読み上げ文が重複生成され、読み上げ文の数が増大するという問題がある。
In the invention described in
そこで、本願発明は、読み上げ文の重複生成を防止し、生成される読み上げ文の数を削減できる音声合成用読み上げ文生成装置及びそのプログラムを提供することを課題とする。 Therefore, an object of the present invention is to provide a speech synthesis read-out sentence generation device and a program therefor that can prevent duplicate generation of read-out sentences and reduce the number of read-out sentences generated.
前記した課題に鑑みて、本願第1発明に係る音声合成用読み上げ文生成装置は、文に含まれる語句を示す複数のノードとノード間の接続関係を示すエッジとで構成され、ノードに置換可能な語句を割り当てた有向グラフによって文が表現され、有向グラフを用いて、音声合成に必要となる音声合成データベース用の読み上げ文を生成する音声合成用読み上げ文生成装置であって、グラフ入力手段と、グラフ統合手段と、テキストデータ入力手段と、グラフ比較手段と、リスト除外手段と、第1条件式生成手段と、第2条件式生成手段と、最小通過回数算出手段と、読み上げ文生成手段とを備えることを特徴とする。 In view of the problems described above, the speech synthesis read-out sentence generation device according to the first invention of the present application is composed of a plurality of nodes indicating words included in a sentence and edges indicating connection relations between the nodes, and can be replaced with nodes. A speech synthesis speech generation device for speech synthesis that generates a speech for a speech synthesis database required for speech synthesis using a directed graph in which a sentence is represented by a directed graph to which a simple word or phrase is assigned. An integration unit, a text data input unit, a graph comparison unit, a list exclusion unit, a first conditional expression generation unit, a second conditional expression generation unit, a minimum passage number calculation unit, and a reading sentence generation unit are provided. It is characterized by that.
かかる構成によれば、音声合成用読み上げ文生成装置は、グラフ入力手段によって、有向グラフと、有向グラフのノードに対応し、かつ、ノードで置換する語句を1以上格納するリストとが入力される。また、音声合成用読み上げ文生成装置は、グラフ統合手段によって、グラフ入力手段に入力された有向グラフを統合(クラスタリング)する。そして、音声合成用読み上げ文生成装置は、テキストデータ入力手段によって、既に読み上げられた文についての発話内容を示す読み上げ済みテキストデータが入力される。 According to such a configuration, the speech synthesizing speech generation apparatus receives a directed graph and a list that stores one or more words that correspond to the nodes of the directed graph and that are replaced by the nodes by the graph input unit. In addition, the speech synthesis read-out sentence generation device integrates (clusters) the directed graphs input to the graph input unit by the graph integration unit. Then, the text-to-speech read-out sentence generating apparatus receives read-out text data indicating the utterance content of the sentence already read out by the text data input means.
また、音声合成用読み上げ文生成装置は、グラフ比較手段によって、テキストデータ入力手段に入力された読み上げ済みテキストデータと、統合された有向グラフとを比較することで、リストから、読み上げ済みテキストデータに含まれる語句を求める。そして、音声合成用読み上げ文生成装置は、リスト除外手段によって、グラフ比較手段が求めた語句をリストから除外する。 In addition, the speech synthesizing device for speech synthesis includes, by the graph comparison unit, the read-out text data input to the text data input unit and the integrated directed graph, thereby including the read-out text data from the list. Ask for a phrase Then, the speech synthesis read-out sentence generation device excludes the phrase obtained by the graph comparison unit from the list by the list exclusion unit.
また、音声合成用読み上げ文生成装置は、第1条件式生成手段によって、ノードの通過回数を、ノードに対応し、かつ、リスト除外手段で除外されたリストに格納された語句の個数以上とする第1条件式を生成する。そして、音声合成用読み上げ文生成装置は、第2条件式生成手段によって、第2条件式として、ノードに入力されるエッジの通過回数の和がノードの通過回数に等しくなる条件式と、ノードから出力するエッジの通過回数の和がノードの通過回数に等しくなる条件式とを生成する。 Further, the speech synthesizing speech generation apparatus uses the first conditional expression generation unit to set the number of passages of the node to be equal to or more than the number of words stored in the list corresponding to the node and excluded by the list exclusion unit. A first conditional expression is generated. Then, the speech synthesizing speech generation device uses the second conditional expression generation means as the second conditional expression, a conditional expression in which the sum of the number of times of passing of the edges input to the node is equal to the number of times of passing of the node, A conditional expression is generated in which the sum of the number of passes of the output edge is equal to the number of passes of the node.
ここで、ノードの通過回数とは、有向グラフにおけるノードとエッジの構造を維持したまま始点から単独の終点までを接続する経路において、ノードで示される内容を置換して各ノードを接続するとき、各ノードを通過する回数のことを指す。
また、エッジの通過回数とは、有向グラフにおけるノードとエッジの構造を維持したまま始点から単独の終点までを接続する経路において、ノードで示される内容を置換して各ノードを接続するとき、各エッジを通過する回数のことを指す。
Here, the number of times the node has passed means that when connecting each node by replacing the content indicated by the node in the path connecting the start point to the single end point while maintaining the node and edge structure in the directed graph, Refers to the number of times a node passes.
In addition, the number of times the edge passes is determined by replacing the contents indicated by the node in the path connecting the start point to the single end point while maintaining the structure of the node and edge in the directed graph. Refers to the number of passes.
また、音声合成用読み上げ文生成装置は、最小通過回数算出手段によって、第1条件式及び第2条件式を満たすように、文の先頭における通過回数が最小になる最小通過回数を算出する。ここで、第1の条件式及び第2の条件式が一次方程式又は一次不等式のため、最小通過回数算出手段は、シンプレックス法を用いて、第1条件式及び第2条件式を解くことができる。 In addition, the speech synthesizing speech generation apparatus for speech synthesis calculates the minimum number of passages that minimizes the number of passages at the head of the sentence so as to satisfy the first conditional expression and the second conditional expression by the minimum passage number calculation means. Here, since the first conditional expression and the second conditional expression are linear equations or linear inequalities, the minimum passage number calculating means can solve the first conditional expression and the second conditional expression using the simplex method. .
また、音声合成用読み上げ文生成装置は、読み上げ文生成手段によって、最小通過回数算出手段が算出した最小通過回数と等しい数、リスト除外手段で削除されたリストに格納された語句の組み合わせを変えて読み上げ文を生成する。 In the speech synthesis speech generation device for speech synthesis, the speech generation unit changes the number of passages equal to the minimum number of passages calculated by the minimum passage number calculation unit and the combination of words stored in the list deleted by the list exclusion unit. Generate a spoken sentence.
また、本願第2発明に係る音声合成用読み上げ文生成装置は、グラフ統合手段が、グラフ入力手段に2番目以降に入力された有向グラフのエッジが分岐しているか否かを判定し、エッジが分岐していない有向グラフを分岐削除済みグラフとし、エッジが分岐している有向グラフから、前記エッジの分岐先にあるノードを別々にして当該エッジの分岐が削除された分岐削除済みグラフを生成するグラフ分岐削除手段と、DPマッチング法(Dynamic Programming Matching)によって、グラフ入力手段に最初に入力された有向グラフ又は統合グラフの一方と分岐削除済みグラフとからなる比較対象グラフ対が類似するか否かを判定し、比較対象グラフ対が類似する場合、比較対象グラフ対を1個の統合グラフに統合し、比較対象グラフ対が類似しない場合、比較対象グラフ対のそれぞれを新たな統合グラフとする統合グラフ生成手段と、を備え、グラフ比較手段が、統合グラフ生成手段から入力された統合グラフと、読み上げ済みテキストデータとを比較することを特徴とする。
かかる構成によれば、音声合成用読み上げ文生成装置は、入力された有向グラフのエッジの分岐を削除してから統合することができる。
In the speech synthesis device for speech synthesis according to the second invention of the present application, the graph integration unit determines whether the edge of the directed graph input to the graph input unit after the second branch is branched, and the edge branches. A graph branch deletion that generates a branch deleted graph in which the branch of the edge is deleted separately from the directed graph in which the edge branches from the directed graph in which the edge branches Means and DP matching method (Dynamic Programming Matching) to determine whether the comparison target graph pair consisting of one of the directed graph or the integrated graph first input to the graph input means and the branch deleted graph is similar, If the comparison target graph pairs are similar, combine the comparison target graph pairs into one integrated graph, and if the comparison target graph pairs are not similar, An integrated graph generation unit that sets each comparison target graph pair as a new integrated graph, and the graph comparison unit compares the integrated graph input from the integrated graph generation unit with the read-out text data. And
According to such a configuration, the speech synthesizing text generation device for speech synthesis can be integrated after deleting the branch of the edge of the input directed graph.
また、本願第3発明に係る音声合成用読み上げ文生成装置は、第1条件式生成手段が、グラフ分岐削除手段により同一のノードが分岐削除済みグラフで複数のノードに分けられた場合、複数のノードの通過回数の和が、同一のノードに対応し、かつ、リスト除外手段で除外されたリストに格納された語句の個数以上となる第1条件式を生成することを特徴とする。
かかる構成によれば、音声合成用読み上げ文生成装置は、最終的に生成される読み上げ文の数を少なくする第1条件式を生成することができる。
In the speech synthesizing speech generation device according to the third invention of the present application, when the first conditional expression generation unit divides the same node into a plurality of nodes in the branch deleted graph by the graph branch deletion unit, A first conditional expression is generated in which the sum of the number of passages of nodes corresponds to the same node and is equal to or greater than the number of words stored in the list excluded by the list excluding means.
According to this configuration, the speech synthesis read-out sentence generation device can generate the first conditional expression that reduces the number of read-out sentences to be finally generated.
また、本願第4発明に係る音声合成用読み上げ文生成装置は、統合グラフ生成手段が、統合グラフのノードに置換可能な語句が複数含まれる場合、複数の語句が格納された別々のリストから、別々のリストに含まれる語句の全組み合わせが格納された統合リストを生成し、統合リストに貪欲アルゴリズムを適用することで、音声合成に最小限のコンパクトリストを生成し、ノードとコンパクトリストとを対応づけることを特徴とする。
かかる構成によれば、音声合成用読み上げ文生成装置は、ノードに置換可能な語句が複数含まれる場合でも、その語句を1個にすることができる。
Further, the speech synthesis read-out sentence generation device according to the fourth invention of the present application, when the integrated graph generation means includes a plurality of replaceable words / phrases in the node of the integrated graph, from separate lists storing a plurality of words / phrases, Generates a unified list that stores all combinations of words contained in separate lists, and applies a greedy algorithm to the unified list, thereby generating a minimal compact list for speech synthesis and supporting nodes and compact lists It is characterized by attaching.
According to such a configuration, the speech synthesizing text generation device for speech synthesis can reduce the number of words even if the node includes a plurality of words that can be replaced.
ここで、本願第1発明に係る音声合成用読み上げ文生成装置は、コンピュータに備えられたCPU(Central Processing Unit)、メモリ、ハードディスクなどのハードウェア資源を、前記した各手段として協調動作させる音声合成用読み上げ文生成プログラムによって実現することもできる(本願第5発明)。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 Here, the speech synthesis read-out sentence generator according to the first invention of the present application is a speech synthesizer in which hardware resources such as a CPU (Central Processing Unit), a memory, and a hard disk provided in a computer are cooperatively operated as the respective means described above. It can also be realized by a read-out sentence generation program (the fifth invention of the present application). This program may be distributed through a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
本願発明によれば、以下のような優れた効果を奏する。
本願第1,5発明によれば、音声合成用読み上げ文生成装置及びそのプログラムは、有向グラフを統合し、統合した有向グラフと読み上げ済みテキストデータとの比較結果に基づいて、読み上げ済みテキストデータに含まれる語句をリストから除外する。これによって、本願第1,5発明によれば、音声合成用読み上げ文生成装置及びそのプログラムは、読み上げ済み文に含まれない語句だけで読み上げ文を生成することになり、読み上げ文の重複生成を防止し、生成される読み上げ文の数を削減することができる。
According to the present invention, the following excellent effects can be obtained.
According to the first and fifth inventions of the present application, a speech synthesizing speech generation device and its program are integrated in a directed graph, and are included in the read text data based on the comparison result between the integrated directed graph and the read text data. Exclude words from the list. Thus, according to the first and fifth inventions of the present application, the speech synthesizing text generation device and its program generate a text to be read only with words and phrases that are not included in the text that has been read out. It is possible to prevent and reduce the number of read-out sentences generated.
本願第2発明によれば、音声合成用読み上げ文生成装置は、入力された有向グラフのエッジの分岐を削除してから統合することで、生成される読み上げ文の数を少なくすることができる。
本願第3発明によれば、音声合成用読み上げ文生成装置は、第1条件式として、複数に分割されたノードの通過回数の和が、分割前の同一ノードに対応し、かつ、除外後のリストに格納された語句の個数以上となる一次不等式を用いるため、生成される読み上げ文の数を少なくすることができる。
本願第4発明によれば、音声合成用読み上げ文生成装置は、ノードに置換可能な語句が複数含まれる場合でも、その語句を1個にできるため、ノードに含まれる置換可能な語句の個数に関わらず、読み上げ文の生成処理を共通化でき、構成を簡素にすることができる。
According to the second aspect of the present invention, the speech synthesis read-out sentence generation device can reduce the number of read-out sentences to be generated by integrating after deleting the branch of the edge of the input directed graph.
According to the third aspect of the present invention, the speech synthesizing speech generation apparatus for speech synthesis uses, as the first conditional expression, the sum of the number of passages of the nodes divided into a plurality corresponds to the same node before the division, and after the exclusion Since a primary inequality that is equal to or greater than the number of words stored in the list is used, the number of read-out sentences to be generated can be reduced.
According to the fourth aspect of the present invention, the speech synthesizing speech generating apparatus for speech synthesis can reduce the number of replaceable words / phrases to one even if the node includes a plurality of replaceable words / phrases. Regardless, it is possible to share the generation process of the read-out sentence and simplify the configuration.
以下、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各実施形態において、同一の機能を有する手段には同一の符号を付し、説明を省略した。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate. In each embodiment, means having the same function are denoted by the same reference numerals and description thereof is omitted.
(実施形態)
[音声合成用読み上げ文生成装置の構成]
図1を参照して、本発明の実施形態に係る音声合成用読み上げ文生成装置の構成について説明する。
図1に示すように、音声合成用読み上げ文生成装置1は、文を表現した有向グラフを用いて、音声合成に必要となる音声合成データベース用の読み上げ文を生成するものである。このため、音声合成用読み上げ文生成装置1は、グラフ入力手段10と、グラフ分岐削除手段11と、統合グラフ生成手段12と、テキストデータ入力手段13と、グラフ比較手段14と、リスト除外手段15と、条件式生成手段16と、最小通過回数算出手段17と、読み上げ文生成手段18とを備える。
なお、グラフ分岐削除手段11及び統合グラフ生成手段12が、請求項に記載のグラフ統合手段に相当する。
(Embodiment)
[Configuration of a text-to-speech generator for speech synthesis]
With reference to FIG. 1, the structure of the speech synthesizing text generating apparatus according to the embodiment of the present invention will be described.
As shown in FIG. 1, the speech synthesis read-out
The graph
グラフ入力手段10は、有向グラフG(図2)と、リストL(図3)とが入力されるものである。そして、グラフ入力手段10は、入力された有向グラフGと、リストLとをグラフ分岐削除手段11に出力する。
The graph input means 10 receives a directed graph G (FIG. 2) and a list L (FIG. 3). Then, the
<有向グラフ及びリストの具体例>
図2,図3を参照して、有向グラフ及びリストの具体例について、説明する(適宜図1参照)。
この図2では、有向グラフGにおける文の先頭を「START」、及び、有向グラフGにおける文の終了を「END」として図示した。
<Specific examples of directed graphs and lists>
A specific example of the directed graph and the list will be described with reference to FIGS. 2 and 3 (see FIG. 1 as appropriate).
In FIG. 2, the head of the sentence in the directed graph G is illustrated as “START”, and the end of the sentence in the directed graph G is illustrated as “END”.
図2に示すように、有向グラフGは、グラフ理論で用いられる有向グラフであって、文(例えば、天気予報番組の読み上げ原稿)を表現したものである。また、有向グラフGは、ノードN及びエッジE(ノードN間を結ぶ矢印)で構成される。 As shown in FIG. 2, the directed graph G is a directed graph used in graph theory and expresses a sentence (for example, a read-out original of a weather forecast program). The directed graph G includes a node N and an edge E (an arrow connecting the nodes N).
ノードNは、文の一部を表したものであり、文に含まれる語句を置換可能である。
エッジEは、ノードNの接続、分岐及び合流といったノードNの接続関係を示すものである。ここで、ノードNの接続とは、エッジEを介して、ノードNを1対1で接続することである。また、ノードNの分岐とは、1個のノードNからエッジEを分岐させて、複数のノードNに接続することである。さらに、ノードNの合流とは、複数のノードNからのエッジEを合流させて、1個のノードNに接続することである。
リストLは、1以上のノードNに予め対応付けられており、対応付けられたノードNで置換する語句を1以上格納するものである。
The node N represents a part of a sentence and can replace a phrase included in the sentence.
The edge E indicates the connection relationship of the node N such as connection, branching and joining of the node N. Here, the connection of the node N means that the node N is connected one-to-one via the edge E. The branching of the node N is to branch the edge E from one node N and connect to a plurality of nodes N. Further, the merging of the nodes N means that the edges E from the plurality of nodes N are merged and connected to one node N.
The list L is associated with one or more nodes N in advance, and stores one or more words / phrases to be replaced with the associated node N.
図2(a)の例では、有向グラフG1は、文の先頭を示すノードN1Sと、「中心付近では」を示すノードN11と、「今後[時間]以内に」を示すノードN12と、「[方角]の」を示すノードN13と、「強い風が吹く見込みです」を示すノードN14と、文の終了を示すノードN1Eという、計6個のノードNで構成される。また、有向グラフG1において、エッジEは、ノードNを分岐及び合流させずに、ノードN1SからノードN1Eまでを順番に接続する。
In the example of FIG. 2A, the directed graph G 1 includes a node N 1S indicating the head of a sentence, a node N 11 indicating “near the center”, and a node N 12 indicating “within [time] in the future” , A node N 13 indicating “of [direction]”, a node N 14 indicating “a strong wind is expected to blow”, and a
また、ノードNは、‘[]’に含まれる語句を、リストLに格納された語句で置換可能なことを示す。例えば、ノードN12は、[時間]という語句を、図3のリストL1に格納された語句で置換可能である。
一方、ノードNは、‘[]’が含まれない場合、語句を置換できないことを示す。例えば、ノードN11は、‘[]’が含まれないので語句を置換できず、常に、「中心付近では」を示すことになる。
Further, the node N indicates that the word / phrase included in the “[]” can be replaced with the word / phrase stored in the list L. For example, node N 12 can replace the phrase [time] with the phrase stored in list L 1 of FIG.
On the other hand, if node “N” is not included, node N indicates that the word cannot be replaced. For example, since the node N 11 does not include “[]”, the phrase cannot be replaced, and always indicates “near the center”.
また、図2(b)の例では、有向グラフG2は、文の先頭を示すノードN2Sと、「中心付近では」を示すノードN21と、「[数値]から」を示すノードN22と、「今後[時間]以内に」を示すノードN23と、「[風速]メートルの」を示すノードN24と、「強い風が吹く見込みです」を示すノードN25と、文の終了を示すノードN2Eという、計7個のノードNで構成される。 In the example of FIG. 2B, the directed graph G 2 includes a node N 2 S indicating the head of the sentence, a node N 21 indicating “near the center”, and a node N 22 indicating “from [numerical value]”. , Node N 23 indicating “within [time] in the future”, node N 24 indicating “[wind speed] meters”, node N 25 indicating “expected to blow strong wind”, and end of sentence The node N 2E is composed of a total of seven nodes N.
この有向グラフG2において、ノードN21は、エッジEを介して、ノードN22,N23に分岐する。また、ノードN22,N23は、エッジEを介して、ノードN24に合流する。つまり、有向グラフG2は、ノードN22又はノードN23の一方が選択的に含まれる文を示す。 In the directed graph G 2 , the node N 21 branches to nodes N 22 and N 23 via the edge E. Further, the nodes N 22 and N 23 merge with the node N 24 via the edge E. In other words, the directed graph G 2 is illustrates a sentence one node N 22 or the node N 23 is included in the selectively.
図3に示すように、リストL1は、図2のノードN12,N23に対応付けられている。
また、リストL1は、ノードN12,N23の[時間]に対応する、「12時間」、「24時間」という2個の語句を格納する。つまり、ノードN12,N23は、リストL1に格納された語句で置換されて、「今後12時間以内に」、「今後24時間以内に」という2種類を表すことになる。
なお、図3では、リストLとノードNで置換される語句との対応関係を分かりやすくするため、ノードNで置換される語句をリストLの上部に図示した。
As shown in FIG. 3, the list L 1 is associated with the node N 12, N 23 in FIG.
The list L 1 stores two words “12 hours” and “24 hours” corresponding to [time] of the nodes N 12 and N 23 . That is, the nodes N 12 and N 23 are replaced with the words and phrases stored in the list L 1 to represent two types of “within the next 12 hours” and “within the next 24 hours”.
In FIG. 3, the word / phrase replaced at the node N is illustrated at the top of the list L in order to make the correspondence between the list L and the word / phrase replaced at the node N easier to understand.
また、リストL2は、ノードN13に対応付けられている。そして、リストL2は、ノードN13の[方角]に対応する、「東北東」、「東」、「東南東」等の語句を16個(16方角分)格納する。
また、リストL3は、ノードN22に対応付けられている。そして、リストL3は、ノードN22の[数値]に対応した「15」という1個の語句を格納する。
また、リストL4は、ノードN24に対応付けられている。そして、リストL4は、ノードN24の[風速]に対応した「20」、「30」という2個の語句を格納する。
なお、ノードN及びリストLは、1対1で対応する必要はない。例えば、ノードN11,N14,N25は、何れのリストLにも対応していない。
Also, the list L 2 are associated with the node N 13. The list L 2 stores 16 words (16 directions) corresponding to the [direction] of the node N 13 such as “east-northeast”, “east”, and “east-southeast”.
Also, the list L 3 is associated with the node N 22. The list L 3 stores one word / phrase “15” corresponding to [numerical value] of the node N 22 .
The list L 4 is associated with the node N 24 . The list L 4 stores two words “20” and “30” corresponding to [wind speed] of the node N 24 .
Note that the node N and the list L need not correspond one-to-one. For example, the nodes N 11 , N 14 , and N 25 do not correspond to any list L.
以後、図2の有向グラフG1,G2と、図3のリストL1〜L4がグラフ入力手段10に入力されたこととして説明する。
なお、グラフ入力手段10に最初に入力された有向グラフGを「初期グラフ」と呼び、2番目以降に入力された有向グラフGを「分岐削除対象グラフ」と呼ぶ場合がある。図2では、有向グラフG1が初期グラフとなり、有向グラフG2が分岐削除対象グラフとなる。
また、本発明は、有向グラフG及びリストLが、図2,図3の例に限定されないことは言うまでもない。
The following description is based on the assumption that the directed graphs G 1 and G 2 in FIG. 2 and the lists L 1 to L 4 in FIG.
The directed graph G that is first input to the
In the present invention, it goes without saying that the directed graph G and the list L are not limited to the examples of FIGS.
図1に戻り、音声合成用読み上げ文生成装置1の構成について、説明を続ける。
グラフ分岐削除手段11は、グラフ入力手段10から入力された分岐削除対象グラフのエッジが分岐しているか否かを判定するものである。
エッジが分岐していない場合、グラフ分岐削除手段11は、分岐削除対象グラフを、そのまま分岐削除済みグラフとして扱う。
一方、エッジが分岐している場合、グラフ分岐削除手段11は、分岐削除対象グラフから、エッジの分岐先にある各ノードが別々に含まれる分岐削除済みグラフを生成する。
その後、グラフ分岐削除手段11は、グラフ入力手段10から入力されたリストLと、初期グラフと、分岐削除済みグラフとを統合グラフ生成手段12に出力する。
Returning to FIG. 1, the description of the configuration of the speech synthesis read-out
The graph
When the edge is not branched, the graph
On the other hand, when the edge is branched, the graph
Thereafter, the graph
<分岐削除済みグラフの生成:第1例>
図4,図5を参照して、分岐削除済みグラフの生成について、2個の具体例を説明する(適宜図1参照)。
図4(a)に示すように、グラフ分岐削除手段11は、ノードN21でエッジEが分岐していると判定する。この場合、グラフ分岐削除手段11は、図4(b)に示すように、分岐削除対象グラフG2から、これらエッジEの分岐先にあるノードN22,N23が別々となるように、分岐削除済みグラフG3,G4を生成する。
<Generation of branch deleted graph: first example>
With reference to FIGS. 4 and 5, two specific examples of generation of the branch deleted graph will be described (see FIG. 1 as appropriate).
As illustrated in FIG. 4A, the graph
具体的には、グラフ分岐削除手段11は、分岐削除対象グラフG2でエッジEが分岐していないノードN2S,N21,N24〜N2Eを、そのまま分岐削除済みグラフG3,G4にコピーする。また、グラフ分岐削除手段11は、分岐削除済みグラフG3において、分岐した一方のノードN22を前後のノードN21,N24に接続する。さらに、グラフ分岐削除手段11は、分岐削除済みグラフG4において、分岐した他方のノードN23を前後のノードN21,N24に接続する。
Specifically, the graph
つまり、図4(b)の分岐削除済みグラフG3は、分岐削除対象グラフG2のノードN2S,N21と、分岐した一方のノードN22と、ノードN24〜N2Eとで構成される。また、分岐削除済みグラフG4は、分岐削除対象グラフG2のノードN2S,N21と、分岐した他方のノードN23と、ノードN24〜N2Eとで構成される。
このようにして、音声合成用読み上げ文生成装置1は、エッジEの分岐を削除してから、有向グラフGを統合することができる。
In other words, the branch Deleted graph G 3 in FIG. 4 (b), the node N 2S branch deletion graph G 2, and N 21, and one node N 22 which is branched, is composed of a node N 24 to N 2E The The branch Deleted graph G 4 are composed of the node N 2S branch deletion graph G 2, and N 21, the other nodes N 23 branched, the node N 24 to N 2E.
In this way, the speech synthesis read-out
<分岐削除済みグラフの生成:第2例>
さらに、図5の分岐削除対象グラフG5のように、複数の箇所でエッジEが分岐している場合を考える。
まず、グラフ分岐削除手段11は、分岐削除対象グラフG5において、STARTのノードN5Sから出発し、途中、エッジEの分岐がある際には適当なエッジEを選択し、ENDのノードN5Eに到達するパスを探索する。このパスで、グラフ分岐削除手段11は、1つの分岐削除済みグラフ(不図示)を生成する。次に、グラフ分岐削除手段11は、ENDのノードN5Eから1つ手前のノードNに戻り、エッジEの分岐があるか判定する。
<Generation of branch deleted graph: second example>
Further, as the branch deletion graph G 5 in FIG. 5, a case where the edge E is branched at a plurality of locations.
First, the graph
エッジEの分岐がない又は辿っていないエッジEが存在しなければ、グラフ分岐削除手段11は、もう1つ前のノードNに戻り同じことを繰り返す。辿っていないエッジEが存在すれば、グラフ分岐削除手段11は、このエッジEを選択し、ENDのノードNに到達するパスを探索する。
ここで、グラフ分岐削除手段11は、パスの探索の際に、パスの履歴をエッジEが分岐している場所で保存するのだが、その保存されている履歴群が現在のパスの履歴に一致するものがなければ、辿っていないエッジEと判定する。
If there is no edge E branch or an edge E that has not been traced, the graph
Here, the graph branch deletion means 11 saves the path history at the location where the edge E branches when searching for a path. The stored history group matches the history of the current path. If there is nothing to do, it is determined that the edge E has not been traced.
図5の例では、パスが、STARTのノードN5Sから始まり、ノードN52へのエッジEを通ったとする。この場合、グラフ分岐削除手段11は、ノードN52へのエッジEを通ったという履歴をノードN51に保存する。次に、パスがノードN55へのエッジEを通ったとする。すると、グラフ分岐削除手段11は、ノードN51からノードN52へのエッジEを通り、ノードN55へのエッジEを通ったという履歴をノードN54に保存する。このパスがENDのノードN5Eまで到達するので、グラフ分岐削除手段11は、ノードN52,N55を通る分岐削除済みグラフを生成する。
In the example of FIG. 5, it is assumed that the path starts from the node N 5 S of START and passes through the edge E to the node N 52 . In this case, the graph
次に、グラフ分岐削除手段11は、ノードN54まで戻り、履歴を調べる。その結果、グラフ分岐削除手段11は、ノードN56へのエッジEの履歴が存在しないため、ノードN56へのエッジEを選択し、そのままENDのノードN5Eに入り、ノードN52,N56を通る分岐削除済みグラフを生成する。
これと同様、グラフ分岐削除手段11は、ノードN52,N57を通る分岐削除済みグラフを生成する。
Next, the graph
Similarly, the graph
続いて、グラフ分岐削除手段11は、ノードN55,N56,N57へのエッジEをすでに辿ってしまったので、ノードN51まで戻る。ここで、グラフ分岐削除手段11は、ノードN53へのエッジEの履歴が存在しないため、ノードN53を選択する。グラフ分岐削除手段11は、ENDのノードN5Eに至るパスを探索する。その際、グラフ分岐削除手段11は、ノードN54で履歴を調べると、ノードN51からノードN52へのエッジEを通り、ノードN55へのエッジEを通った履歴と、ノードN51からノードN52へのエッジEを通り、ノードN56へのエッジEを通った履歴と、ノードN51からノードN52へのエッジEを通り、ノードN57へのエッジEを通った履歴が見つかるが、ノードN51からノードN53へのエッジEを通り、ノードN55へのエッジEを通った履歴は見つからないことから、ノードN55を通り、ENDのノードN5Eに入り、ノードN53,N55を通る分岐削除済みグラフを生成する。
Subsequently, the graph
次に、グラフ分岐削除手段11は、ノードN54まで戻り、履歴を調べる。その結果、グラフ分岐削除手段11は、ノードN51からノードN53へのエッジEを通り、ノードN56へのエッジEの履歴が存在しないため、ノードN56へのエッジEを選択し、そのままENDのノードN5Eに入り、ノードN52,N56を通る分岐削除済みグラフを生成する。
これと同様、グラフ分岐削除手段11は、ノードN52,N57を通る分岐削除済みグラフを生成する。
Next, the graph
Similarly, the graph
このようにして、グラフ分岐削除手段11は、分岐削除対象グラフG5から、分岐先のノードN52,N53,N55〜N57を全て組み合わせて(2×3=6個)、分岐削除済みグラフを生成する。
In this way, the graph
図1に戻り、音声合成用読み上げ文生成装置1の構成について、説明を続ける。
統合グラフ生成手段12は、DPマッチング法によって、比較対象グラフ対のノードの一致と挿入誤りと欠落誤りと代替誤りとを求めて、比較対象グラフ対が類似するか否かを判定するものである。
Returning to FIG. 1, the description of the configuration of the speech synthesis read-out
The integrated graph generation means 12 obtains the node match, insertion error, missing error, and substitution error of the comparison target graph pair by the DP matching method, and determines whether or not the comparison target graph pair is similar. .
この比較対象グラフ対とは、統合グラフ生成手段12で比較対象となる有向グラフGの対のことである。この比較対象グラフ対は、統合グラフTが生成されていない場合、初期グラフG及び分岐削除済みグラフGの対になる。また、比較対象グラフ対は、統合グラフTが生成されている場合、統合グラフT及び分岐削除済みグラフGの対になる。 This comparison target graph pair is a pair of directed graphs G to be compared by the integrated graph generation means 12. This comparison target graph pair is a pair of the initial graph G and the branch deleted graph G when the integrated graph T is not generated. Further, when the integrated graph T is generated, the comparison target graph pair is a pair of the integrated graph T and the branch deleted graph G.
比較対象グラフ対が類似する場合、統合グラフ生成手段12は、DPマッチング法の結果に基づいて、比較対象グラフ対を1個の統合グラフT(図6)に統合する。さらに、統合グラフTが複数ある場合には、比較対象グラフ対も複数生じるため、統合グラフ生成手段12は、DPマッチングにより、最も正解度が高い統合グラフTに統合する。
一方、比較対象グラフ対がすべて類似しない場合、統合グラフ生成手段12は、比較対象グラフ対における統合グラフTと比較された有向グラフGを、統合グラフTに追加する。
その後、統合グラフ生成手段12は、グラフ入力手段10から入力されたリストLと、統合グラフTとをテキストデータ入力手段13に出力する。
When the comparison target graph pairs are similar, the integrated
On the other hand, when all the comparison target graph pairs are not similar, the integrated
Thereafter, the integrated
<統合グラフの生成>
図6,図7を参照して、統合グラフの生成について、説明する(適宜図1参照)。
ここで、統合グラフ生成手段12は、最初に初期グラフG1が入力され、2番目、3番目に分岐削除済みグラフG3,G4が入力されたこととして説明する。
<Generation of integrated graph>
The generation of the integrated graph will be described with reference to FIGS. 6 and 7 (see FIG. 1 as appropriate).
Here, the integrated graph generation means 12 will be described assuming that the initial graph G 1 is input first, and the second and third branch deleted graphs G 3 and G 4 are input.
まず、統合グラフ生成手段12は、統合グラフTが生成されていないため、図6(a)に示すように、初期グラフG1と、2番目の分岐削除済みグラフG3とを比較対象グラフ対G1,G3とする。そして、統合グラフ生成手段12は、この比較対象グラフ対G1,G3において、ノードNの一致(H)と、挿入誤り(I)と、欠落誤り(D)と、代替誤り(S)とを、DPマッチングにより求める。
First, since the integrated graph T is not generated, the integrated
この場合、一致(H)は、「中心付近では」を示すノードN11,N21と、「強い風が吹く見込みです」を示すノードN14,N25との‘2’になる。また、代替誤り(S)は、「今後[時間]以内に」を示すノードN12に対し、「[数値]から」を示すノードN22と、「[方角]の」を示すノードN13に対し、「[風速]メートルの」を示すノードN24との‘2’になる。また、挿入誤り(I)及び欠落誤り(D)は、‘0’となる。 In this case, the match (H) is “2” between the nodes N 11 and N 21 indicating “near the center” and the nodes N 14 and N 25 indicating “expected to blow strong wind”. Moreover, alternative error (S), compared node N 12 indicating "within the next [Time]", and the node N 22 indicating the "from the Numeric]", the node N 13 indicating the "in the direction '' On the other hand, it becomes “2” with the node N 24 indicating “[wind speed] meter”. Further, the insertion error (I) and the missing error (D) are “0”.
また、統合グラフ生成手段12は、DPマッチングの結果を下記の式(1)に代入して正解度を算出する。例えば、このDPマッチングの結果を式(1)に代入すると、正解度は、(2−0)/(2+2+0)=0.5となる。
正解度=(H−I)/(H+S+D)・・・式(1)
The integrated
Accuracy = (HI) / (H + S + D) (1)
また、統合グラフ生成手段12は、この正解度が予め設定された閾値(例えば、0.3)以上であるか否かを判定する。この例では、正解度=0.5が閾値=0.3以上のため、統合グラフ生成手段12は、比較対象グラフ対G1,G3を1個の統合グラフTに統合する。
Further, the integrated
図6(a)では、1番目の初期グラフG1のノードN12,N13に対して、ノードN22,N24が代替誤り(S)になる。従って、統合グラフ生成手段12は、1番目の初期グラフG1をベースとして、ノードN12に並列となるようにノードN22を追加し、ノードN13に並列となるようにノードN24を追加する。ここで、統合グラフ生成手段12は、代替誤り(S)が連続している場合、エッジEをノードN22からノードN13に合流させず、ノードN22からノードN24に接続するエッジEを追加する。
In FIG. 6A, the nodes N 22 and N 24 become substitution errors (S) with respect to the nodes N 12 and N 13 of the first initial graph G 1 . Therefore, the integrated
なお,図6(a)では、代替誤り(S)の例を挙げたが、欠落誤り(D)と判定された場合、統合グラフ生成手段12は、欠落誤り(D)と判定されたノードNをとばすようにエッジEを追加する。ここで、欠落誤り(D)が複数連続した場合、統合グラフ生成手段12は、代替誤り(S)と同様、これらノードNをとばすようにエッジEを追加する。
In FIG. 6A, an example of the substitution error (S) is given. However, when it is determined as a missing error (D), the integrated
また、挿入誤り(I)と判定された場合、統合グラフ生成手段12は、挿入誤り(I)と判定された場所にノードNを追加し、追加したノードNの両端にエッジEも追加する。ここで、挿入誤り(I)が複数連続した場合、統合グラフ生成手段12は、代替誤り(S)と同様、これらノードNを連続して挿入する。
If it is determined that there is an insertion error (I), the integrated
仮に、正解度が閾値未満の場合(例えば、閾値=0.6に設定されている場合)、統合グラフ生成手段12は、比較対象グラフ対G1,G3のそれぞれを、別々の統合グラフTとして扱う。
If the degree of correctness is less than the threshold (for example, when threshold = 0.6), the integrated
次に、統合グラフ生成手段12は、3番目の以降の分岐削除済みグラフG4に関しては、統合グラフTをベースとして、ノードNを追加していく。つまり、統合グラフ生成手段12は、図7(a)に示すように、統合グラフTと、3番目の分岐削除済みグラフG4とを比較対象グラフ対T,G4とする。そして、統合グラフ生成手段12は、この比較対象グラフ対T,G4において、ノードNの一致(H)と、挿入誤り(I)と、欠落誤り(D)と、代替誤り(S)とを、DPマッチングにより求める。
Then, the integrated
この場合、一致(H)は、「中心付近では」を示すノードN11,N21と、「今後[時間]以内に」を示すノードN12,N23と、「強い風が吹く見込みです」を示すノードN14,N25との‘3’になる。また、代替誤り(S)は、「[方角]の」を示すノードN13に対し、「[風速]メートルの」を示すノードN24との‘1’になる。また、挿入誤り(I)及び欠落誤り(D)は、‘0’となる。 In this case, the coincidence (H) indicates that the nodes N 11 and N 21 indicating “near the center”, the nodes N 12 and N 23 indicating “within [time]”, and “a strong wind is expected to blow”. It becomes '3' with nodes N 14 and N 25 indicating Moreover, alternative error (S), compared node N 13 indicating the "in the direction]", becomes the node N 24 indicating the "[wind] Meters"'1'. Further, the insertion error (I) and the missing error (D) are “0”.
このDPマッチングの結果を前記した式(1)に代入すると、正解度は、(3−0)/(3+1+0)=0.75となる。この例では、正解度=0.75が閾値=0.3以上のため、統合グラフ生成手段12は、比較対象グラフ対T,G4を1個の統合グラフTに統合する。
When the result of this DP matching is substituted into the above-described equation (1), the accuracy is (3-0) / (3 + 1 + 0) = 0.75. In this example, since the accuracy = 0.75 is equal to or greater than the threshold value = 0.3, the integrated
図7(a)では、ノードN13,N24が代替誤り(S)となる。このため、統合グラフ生成手段12は、図7(b)に示すように、ノードN12から2本のエッジEを分岐させて、ノードN13,N24が並行になるように、統合グラフTに追加する。
なお、統合グラフ生成手段12は、一致(H)となるノードN11,N21と、ノードN12,N23と、ノードN14,N25とは、図6(b)の段階で既に統合グラフTに追加されているため、何の処理も行わない。
In FIG. 7A, the nodes N 13 and N 24 become substitution errors (S). Therefore, as shown in FIG. 7B, the integrated
Note that the integrated
以後、説明を簡易にするため、図7(b)の統合グラフTにおいて、ノードN1Sの符号をNS、ノードN11の符号をN1、ノードN12の符号をN2、ノードN13の符号をN3、ノードN2に続くノードN24の符号をN4、ノードN22の符号をN5、ノードN5に続くノードN24の符号をN6、ノードN14の符号をN7、ノードN1Eの符号をNEと呼ぶ。 Hereinafter, in order to simplify the description, in the integrated graph T of FIG. 7B, the code of the node N 1S is N S , the code of the node N 11 is N 1 , the code of the node N 12 is N 2 , and the node N 13 the code N 3, the node codes N 4 nodes N 24 following the N 2, node codes N 5 of N 22, reference numerals the N 6 of the node N 24 following the node N 5, the sign of the node N 14 N 7, called the sign of the node N 1E and N E.
また、図7(b)の統合グラフTにおいて、ノードNSとノードN1とを接続するエッジの符号をES1、ノードN1からノードN2に分岐するエッジの符号をE12、ノードN1からノードN5に分岐するエッジの符号をE15、ノードN2からノードN3に分岐するエッジの符号をE23、ノードN2からノードN4に分岐するエッジの符号をE24、ノードN5とノードN6とを接続するエッジの符号をE56、ノードN3からノードN7に合流するエッジの符号をE37、ノードN4からノードN7に合流するエッジの符号をE47、ノードN6からノードN7に合流するエッジの符号をE67、ノードN7とノードNEとを接続するエッジの符号をE7Eと記す。 Further, in the integrated graph T in FIG. 7 (b), the node N S and node N 1 E S1 the sign of the edge connecting the, E 12 the sign of the edge that branches from the node N 1 to the node N 2, node N E 15 is an edge code that branches from 1 to node N 5 , E 23 is an edge code that branches from node N 2 to node N 3 , E 24 is an edge code that branches from node N 2 to node N 4, and The sign of the edge connecting N 5 and the node N 6 is E 56 , the sign of the edge joining from the node N 3 to the node N 7 is E 37 , and the sign of the edge joining the node N 4 to the node N 7 is E 47. , the node N E 67 the sign of the edge that joins the node N 7 to 6, referred to as codes E 7E of edges connecting the nodes N 7 and node N E.
図1に戻り、音声合成用読み上げ文生成装置1の構成について、説明を続ける。
テキストデータ入力手段13は、読み上げ済みテキストデータが入力され、入力された読み上げ済みテキストデータをグラフ比較手段14に出力するものである。
Returning to FIG. 1, the description of the configuration of the speech synthesis read-out
The text data input means 13 is input with the read-out text data and outputs the input read-out text data to the graph comparison means 14.
読み上げ済みテキストデータとは、読み上げ済み文の発話内容を示すテキストデータである。言い換えるなら、読み上げ済みテキストデータは、例えば、アナウンサにより読み上げられた音声が既に音声合成データベースに登録され、新たに生成する必要がない読み上げ文のテキストデータである。 The read-out text data is text data indicating the utterance content of the read-out sentence. In other words, the read-out text data is, for example, text data of a read-out sentence in which the speech read out by the announcer is already registered in the speech synthesis database and does not need to be newly generated.
グラフ比較手段14は、統合グラフ生成手段12から入力された統合グラフTと読み上げ済みテキストデータとを比較することで、リストLから、テキストデータに含まれる語句を求めるものである。
The
<統合グラフ及び読み上げ済みテキストデータの比較>
図7,図8を参照し、統合グラフ及び読み上げ済みテキストデータの比較について、説明する(適宜図1参照)。
ここで、グラフ比較手段14は、図3のリストL1〜L4が統合グラフ生成手段12から入力され、図7(b)の統合グラフTと、図8(a)の読み上げ済みテキストデータとを比較することとして説明する。
なお、図8(b)では、説明を分かり易くするために “[数値]=”及び“[風速]=”を図示した。
<Comparison of integrated graph and read-out text data>
A comparison between the integrated graph and the read-out text data will be described with reference to FIGS. 7 and 8 (see FIG. 1 as appropriate).
Here, the
In FIG. 8B, “[numerical value] =” and “[wind speed] =” are illustrated for easy understanding of the description.
図7(b)に示すように、統合グラフTは、エッジEの分岐により複数のパスを有する。図7の統合グラフTにおいて、ノードN1〜N3,N7を通過するパスを「パス1」と呼び、ノードN1,N2,N4,N7を通過するパスを「パス2」と呼び、ノードN1,N5〜N7を通過するパスを「パス3」と呼ぶ。
As shown in FIG. 7B, the integrated graph T has a plurality of paths due to the branching of the edge E. In the integrated graph T of FIG. 7, a path passing through the nodes N 1 to N 3 and N 7 is called “
グラフ比較手段14は、統合グラフTが複数のパスを有する場合、何れのパスが読み上げ済みテキストデータに一致するかを判定する。まず、グラフ比較手段14は、統合グラフTのパス1と、読み上げ済みテキストデータとを比較すると、ノードN1の「中心付近では」までは一致するが、7文字目で一致しなくなる。このため、グラフ比較手段14は、その時点で、パス1が読み上げ済みテキストデータに一致しないと判定して、パス1と読み上げ済みテキストデータとの比較を終了する。次に、グラフ比較手段14は、パス2と読み上げ済みテキストデータとを比較すると、パス1と同様、7文字目で一致しなくなる。このため、グラフ比較手段14は、その時点で、パス2が読み上げ済みテキストデータに一致しないと判定し、パス2と読み上げ済みテキストデータとの比較を終了する。
When the integrated graph T has a plurality of paths, the
最後に、グラフ比較手段14は、パス3と読み上げ済みテキストデータとを比較する。ここで、統合グラフTのパス3において、[数値]=15、[風速]=20が含まれていると仮定する。この場合、ノードN1の「中心付近では」が語尾まで一致し、ノードN5の「“[数値]=”15から」が語尾まで一致し、ノードN6の「“[風速]=”20メートルの」が語尾まで一致し、ノードN7の「強い風が吹く見込みです」が語尾まで一致し、ENDのノードNEに至る。このため、入力文追加グラフ比較手段40は、パス3と読み上げ済みテキストデータとが一致すると判定する。
Finally, the
そして、グラフ比較手段14は、前記した比較結果により、リストL3の語句「15」と、リストL4の語句「20」とが、読み上げ済みテキストデータに含まれることを示すリスト除外情報を生成する。その後、グラフ比較手段14は、統合グラフ生成手段12から入力されたリストL及び統合グラフTと、生成したリスト除外情報とを、リスト除外手段15に出力する。
このリスト除外情報は、後記するリスト除外手段15によって用いられる、リストLから語句を除外するための情報である。
The graph comparing means 14, the comparison result of the above, generated the phrase list L 3 "15", and the phrase list L 4 "20", but the list exclusion information indicating that contained in the speech already text data To do. Thereafter, the
This list exclusion information is information for excluding words / phrases from the list L, which is used by the list exclusion means 15 described later.
なお、[数値]=15、[風速]=20が含まれる場合において、統合グラフTのパス3が読み上げ済みテキストデータに一致しない場合、リストLに格納された別の語句が含まれると仮定して、前記した比較を繰り返す。 When [Numeric Value] = 15 and [Wind Speed] = 20 are included, if the path 3 of the integrated graph T does not match the read-out text data, it is assumed that another word / phrase stored in the list L is included. Repeat the above comparison.
図1に戻り、音声合成用読み上げ文生成装置1の構成について、説明を続ける。
リスト除外手段15は、グラフ比較手段14から入力されたリスト除外情報に基づいて、リストLから、読み上げ済みテキストデータに含まれる語句を除外するものである。
Returning to FIG. 1, the description of the configuration of the speech synthesis read-out
The
この例では、リスト除外情報は、リストL3の語句「15」及びリストL4の語句「20」が読み上げ済みテキストデータに含まれている。従って、リスト除外手段15は、図8(c)に示すように、リストL3に格納された語句「15」を除外し、リストL4に格納された語句「20」を除外する。そして、リスト除外手段15は、グラフ比較手段14から入力されたリストL1,L2及び統合グラフTと、語句を除外したリストL3,L4とを条件式生成手段16に出力する。
In this example, the list exclusion information, the phrase word "15" and a list L 4 of the list L 3 "20" is included in the reading preformatted text data. Accordingly, as shown in FIG. 8C, the
条件式生成手段16は、読み上げ文に必要となる第1条件式及び第2条件式を生成するものであり、第1条件式生成手段16aと、第2条件式生成手段16bとを備える。
そして、条件式生成手段16は、グラフ比較手段14から入力されたリストL1〜L4及び統合グラフTと、第1条件式生成手段16aが生成した第1条件式と、第2条件式生成手段16bが生成した第2条件式とを最小通過回数算出手段17に出力する。
The conditional
The conditional
<第1条件式の生成>
以下、第1条件式の生成について、具体的に説明する。
第1条件式生成手段16aは、統合グラフTのノードN毎に、ノードNの通過回数Fを、ノードNに対応するリストLに格納された語句の個数以上とする第1条件式を生成するものである。
ここで、条件式生成手段16は、図7(b)の統合グラフTと、図8(c)のリストL1〜L4が入力されたこととして説明する。
<Generation of the first conditional expression>
Hereinafter, the generation of the first conditional expression will be specifically described.
For each node N of the integrated graph T, the first conditional
Here, the conditional
具体的には、第1条件式生成手段16aは、ノードNSに対応するリストLが存在しないため、リストLに格納された語句の個を‘0’とする。従って、第1条件式生成手段16aは、式(1)のように、ノードNSの通過回数FSが‘0’以上となる一次不等式を生成する。また、第1条件式生成手段16aは、ノードNSと同様、式(2)のように、ノードN1の通過回数F1が‘0’以上となる一次不等式を生成する。
FS≧0 …式(1)
F1≧0 …式(2)
Specifically, the first condition
F S ≧ 0 (1)
F 1 ≧ 0 Equation (2)
また、第1条件式生成手段16aは、ノードN2にリストL1が対応するため、リストL1に格納された語句の数をカウントする。そして、第1条件式生成手段16aは、式(3)のように、ノードN2の通過回数F2がリストL1に格納された語句の数‘2’以上となる一次不等式を生成する。さらに、第1条件式生成手段16aは、ノードN2と同様、式(4)のように、ノードN3の通過回数F3がリストL2に格納された語句の数‘16’以上となる一次不等式を生成する。
F2≧2 …式(3)
F3≧16 …式(4)
The first condition
F 2 ≧ 2 Formula (3)
F 3 ≧ 16 Formula (4)
ここで、ノードN4,N6は、分岐削除対象グラフG2で同一であったノードN24が、分岐削除済みグラフG3,G4で別々のノードN24に分かれた後、統合グラフTに統合されている(図4参照)。この場合、第1条件式生成手段16aは、式(5)のように、ノードN4,N6の通過回数F4,F6の和が、ノードN4,N6に対応するリスト4に格納された語句の数‘1’以上となる一次不等式を生成する。
F4+F6≧1 …式(5)
Here, the node N 4, N 6, after the node N 24 were identical branched deleted graph G 2 is, which is divided into separate nodes N 24 branched deleted graph G 3, G 4, integrated graph T (See FIG. 4). In this case, the first
F 4 + F 6 ≧ 1 Formula (5)
また、第1条件式生成手段16aは、式(6)のように、ノードN5の通過回数F5が、ノードN5に対応するリスト3に格納された語句の数‘0’以上となる一次不等式を生成する。このリスト3は、語句が格納されていないため、語句の数が‘0’となる。
F5≧0 …式(6)
The first
F 5 ≧ 0 Formula (6)
また、第1条件式生成手段16aは、ノードN1と同様、式(7)のように、ノードN7の通過回数F7が‘0’以上となる一次不等式を生成する。そして、第1条件式生成手段16aは、ノードN1と同様、式(8)のように、ノードNEの通過回数FEが‘0’以上となる一次不等式を生成する。
F7≧0 …式(7)
FE≧0 …式(8)
Similarly to the node N 1 , the first conditional
F 7 ≧ 0 Equation (7)
F E ≧ 0 Equation (8)
<第2条件式の生成>
以下、第2条件式の生成について、具体的に説明する。
第2条件式生成手段16bは、第2条件式として、統合グラフTのノードN毎に、ノードNに入力されるエッジEの通過回数Hの和がノードNの通過回数Fに等しくなる条件式を生成するものである。
また、第2条件式生成手段16bは、第2条件式として、ノードNから出力するエッジEの通過回数Hの和がノードNの通過回数Fに等しくなる条件式とを生成する。
すなわち、第2条件式生成手段16bは、1個のノードNに対して、入力側と出力側との両方で第2条件式を生成する。
<Generation of second conditional expression>
Hereinafter, the generation of the second conditional expression will be specifically described.
The second conditional
In addition, the second conditional
That is, the second conditional
具体的には、第2条件式生成手段16bは、ノードNSの出力側の第2条件式として、式(9)のように、ノードNSから出力するエッジES1の通過回数HS1が、ノードNSの通過回数FSに等しくなる式を生成する。ここで、ノードNSの入力側の第2条件式は、ノードNSが先頭であって入力が存在しないため、生成されない。
FS=HS1 …式(9)
Specifically, the second
F S = H S1 Formula (9)
また、第2条件式生成手段16bは、ノードN1の入力側の第2条件式として、式(10)のように、ノードN1に入力されるエッジES1の通過回数HS1が、ノードN1の通過回数F1に等しくなる式を生成する。
F1=HS1 …式(10)
The second
F 1 = H S1 Formula (10)
また、第2条件式生成手段16bは、ノードN1の出力側の第2条件式として、式(11)のように、ノードN1から出力するエッジE12の通過回数H12とエッジE15の通過回数H15との和が、ノードN1の通過回数F1に等しくなる式を生成する。
F1=H12+H15 …式(11)
The second
F 1 = H 12 + H 15 Formula (11)
また、第2条件式生成手段16bは、ノードN1と同様、式(12)及び式(13)のように、ノードN2の入力側と出力側との両方で第2条件式を生成する。
F2=H12 …式(12)
F2=H23+H24 …式(13)
Similarly to the node N 1 , the second conditional
F 2 = H 12 Formula (12)
F 2 = H 23 + H 24 Formula (13)
また、第2条件式生成手段16bは、ノードN3の入力側の第2条件式として、式(14)のように、ノードN3に入力されるエッジE23の通過回数H23が、ノードN3の通過回数F3に等しくなる式を生成する。
F3=H23 …式(14)
Further, the second conditional
F 3 = H 23 Formula (14)
また、第2条件式生成手段16bは、ノードN3の出力側の第2条件式として、式(15)のように、ノードN3から出力するエッジE37の通過回数H37が、ノードN3の通過回数F3に等しくなる式を生成する。
F3=H37 …式(15)
Further, the second conditional
F 3 = H 37 Formula (15)
また、第2条件式生成手段16bは、ノードN3と同様、式(16)〜式(21)のように、ノードN4,N5,N6の入力側と出力側との両方で第2条件式を生成する。
F4=H24 …式(16)
F4=H47 …式(17)
F5=H15 …式(18)
F5=H56 …式(19)
F6=H56 …式(20)
F6=H67 …式(21)
Similarly to the node N 3 , the second conditional
F 4 = H 24 Formula (16)
F 4 = H 47 Formula (17)
F 5 = H 15 Formula (18)
F 5 = H 56 Formula (19)
F 6 = H 56 Formula (20)
F 6 = H 67 Formula (21)
また、第2条件式生成手段16bは、ノードN7の入力側の第2条件式として、式(22)のように、ノードN7に入力されるエッジE37の通過回数H37と、エッジE47の通過回数H47と、エッジE67の通過回数H67との和が、ノードN7の通過回数F7に等しくなる式を生成する。
F7=H37+H47+H67 …式(22)
The second
F 7 = H 37 + H 47 + H 67 ... formula (22)
また、第2条件式生成手段16bは、ノードN7の出力側の第2条件式として、式(23)のように、ノードN7から出力するエッジE7Eの通過回数H7Eが、ノードN7の通過回数F7に等しくなる式を生成する。
F7=H7E …式(23)
Further, the second conditional
F 7 = H 7E Formula (23)
また、第2条件式生成手段16bは、ノードNEの入力側の第2条件式として、式(24)のように、ノードNEに入力されるエッジE7Eの通過回数H7Eが、ノードNEの通過回数FEに等しくなる式を生成する。ここで、ノードNEの出力側の第2条件式は、ノードNEが最後で出力が存在しないため、生成されない。
FE=H7E …式(24)
The second
F E = H 7E Formula (24)
最小通過回数算出手段17は、条件式生成手段16から入力された第1条件式及び第2条件式をシンプレックス法で解いて、文の先頭におけるノードNSの通過回数FSが最小になる最小通過回数を算出するものである。
このとき、最小通過回数算出手段17は、シンプレックス法により、第1条件式及び第2条件式に含まれるF1〜FE及びHS1〜H7Eも算出する。
Minimum pass
At this time, the minimum passage number calculation means 17 also calculates F 1 to F E and H S1 to H 7E included in the first conditional expression and the second conditional expression by the simplex method.
ここで、式(1)〜式(24)を解いた結果は、以下のようになる。つまり、最小通過回数は、通過回数FSと等しい値‘17’となる。
FS=17,F1=17,F2=16,F3=16,F4=0,F5=1,F6=1,F7=17,FE=17,HS1=17,H12=16,H15=1,H23=16,H24=0,H37=16,H47=16,H56=1,H67=1,H7E=17
Here, the results of solving the equations (1) to (24) are as follows. In other words, the minimum number of passes is a value equal '17' pass count F S.
F S = 17, F 1 = 17, F 2 = 16, F 3 = 16, F 4 = 0, F 5 = 1, F 6 = 1, F 7 = 17, F E = 17, H S1 = 17, H 12 = 16, H 15 = 1, H 23 = 16, H 24 = 0, H 37 = 16, H 47 = 16, H 56 = 1, H 67 = 1, H 7E = 17
その後、最小通過回数算出手段17は、条件式生成手段16から入力されたリストL1〜L4及び統合グラフTと、第1条件式及び第2条件式を解いた結果とを読み上げ文生成手段18に出力する。 Thereafter, the minimum passage number calculation means 17 reads out the lists L 1 to L 4 and the integrated graph T input from the conditional expression generation means 16 and the results of solving the first conditional expression and the second conditional expression. 18 is output.
読み上げ文生成手段18は、最小通過回数算出手段17から入力された統合グラフTを用いて、最小通過回数と等しい数、リストLに格納された語句の組み合わせを変えて読み上げ文を生成するものである。 The spoken sentence generation means 18 uses the integrated graph T input from the minimum passage number calculation means 17 to generate a reading sentence by changing the number of phrases equal to the minimum passage number and the combination of words stored in the list L. is there.
<読み上げ文の生成>
図7,図8を参照し、読み上げ文の生成について、説明する(適宜図1参照)。
ここで、読み上げ文生成手段18は、図7(b)の統合グラフTと、図8(c)のリストL1〜L4とが最小通過回数算出手段17から入力されたこととして説明する。
<Generating aloud text>
With reference to FIG. 7 and FIG. 8, the generation of the reading sentence will be described (refer to FIG. 1 as appropriate).
Here, it is assumed that the read-out
図7(b)に示すように、統合グラフTの先頭では、ノードNSからノードN1に入力されるエッジES1が存在する。そこで、読み上げ文生成手段18は、エッジES1を選択する。さらに、読み上げ文生成手段18は、エッジES1が入力されるノードN1にリストLが対応していないので、このノードN1が示す「中心付近では」を読み上げ文として選択する。
As shown in FIG. 7 (b), in the beginning of the integration graph T, edge E S1 is present which is input from the node N S to node N 1. Therefore, the read-out sentence generation means 18 selects the edge ES1 . Furthermore, since the list L does not correspond to the node N 1 to which the edge E S1 is input, the reading
続いて、ノードN1からエッジE12,E15が分岐している。そこで、読み上げ文生成手段18は、一方の分岐先であるエッジE12の通算選択回数が、このエッジE12の通過回数H12を超えているか否かを判定する。 Subsequently, edges E 12 and E 15 branch from the node N 1 . Therefore, the read-out sentence generation means 18 determines whether or not the total number of times of selection of the edge E 12 that is one branch destination exceeds the number of times of passage H 12 of the edge E 12 .
エッジE12の通算選択回数が通過回数H12を超えていない場合、読み上げ文生成手段18は、このエッジE12を選択して、このエッジE12の通算選択回数をインクリメントする。
一方、エッジE12の通算選択回数が通過回数H12を超えている場合、読み上げ文生成手段18は、他方の分岐先であるエッジE15を選択して、このエッジE15の通算選択回数をインクリメントする。
If total number of selection times of the edge E 12 does not exceed the number of passes H 12, reading sentence generating means 18 selects the edge E 12, it increments the total number of times of selecting the edge E 12.
On the other hand, if the total number of selection times of the edge E 12 is greater than the number of passes H 12, reading
ここでは、読み上げ文生成手段18がエッジE12を選択したこととする。また、エッジE12の分岐先となるノードN2がリストL1に対応する。この場合、読み上げ文生成手段18は、リストL1の1番目の語句「12時間」を選択して、このノードN2が示す「今後12時間以内に」を読み上げ文として選択する。 Here, reading sentence generating means 18 is to be selected the edge E 12. Further, the node N 2 that is the branch destination of the edge E 12 corresponds to the list L 1 . In this case, the reading sentence generation means 18 selects the first word “12 hours” in the list L 1 and selects “within the next 12 hours” indicated by the node N 2 as the reading sentence.
続いて、ノードN2からエッジE23,E24が分岐している。そこで、読み上げ文生成手段18は、一方の分岐先であるエッジE23の通算選択回数が、このエッジE23の通過回数H23を超えているか否かを判定する。 Subsequently, edges E 23 and E 24 branch from the node N 2 . Therefore, the read-out sentence generation means 18 determines whether or not the total number of times of selection of the edge E 23 which is one branch destination exceeds the number of passes H 23 of the edge E 23 .
エッジE23の通算選択回数が通過回数H23を超えていない場合、読み上げ文生成手段18は、このエッジE23を選択して、このエッジE23の通算選択回数をインクリメントする。
一方、エッジE23の通算選択回数が通過回数H23を超えている場合、読み上げ文生成手段18は、他方の分岐先であるエッジE24を選択して、このエッジE24の通算選択回数をインクリメントする。
If total number of selection times of the edge E 23 does not exceed the number of passes H 23, reading sentence generating means 18 selects the edge E 23, it increments the total number of times of selecting the edge E 23.
On the other hand, when the total number of times of selection of the edge E 23 exceeds the number of times of passage H 23 , the reading
ここでは、読み上げ文生成手段18がエッジE23を選択したこととする。また、エッジE23の分岐先となるノードN3がリストL2に対応する。この場合、読み上げ文生成手段18は、リストL2の1番目の語句「東北東」を選択して、このノードN3が示す「東北東の」を読み上げ文として選択する。 Here, reading sentence generating means 18 is to be selected the edge E 23. Further, the node N 3 that is the branch destination of the edge E 23 corresponds to the list L 2 . In this case, the reading sentence generation means 18 selects the first word “east-northeast” of the list L 2 and selects “east-northeast” indicated by the node N 3 as the reading sentence.
続いて、ノードN3からノードN7に入力されるエッジE37が存在する。そこで、読み上げ文生成手段18は、エッジE37を選択する。さらに、読み上げ文生成手段18は、このノードN7が示す「強い風が吹く見込みです」を読み上げ文として選択する。
Subsequently, there is an edge E 37 input from the node N 3 to the node N 7 . Therefore, the read-out
最後に、ノードNEに入力されるエッジE7Eが存在する。従って、読み上げ文生成手段18は、読み上げ文として選択されたノードNの語句を順番に連結して、読み上げ文を生成する。この例では、読み上げ文生成手段18は、「中心付近では今後12時間以内に東北東の強い風が吹く見込みです」という読み上げ文を生成する。
Finally, the edge E 7E is present that is input to the node N E. Therefore, the read-out
読み上げ文生成手段18は、ノードNSからノードNEまでエッジEを辿りながら、読み上げ文の生成処理を最小通過回数だけ繰り返す。ここで、読み上げ文生成手段18は、選択されていない語句がリストLに残っていれば、その語句を選択する。さらに、読み上げ文生成手段18は、選択されていない語句がリストLに残っていない場合、選択済みの語句を繰り返し用いる。
このようにして、読み上げ文生成手段18は、最小通過回数と同数の読み上げ文を生成する。
Reading
In this way, the reading sentence generation means 18 generates the same number of reading sentences as the minimum number of passages.
[音声合成用読み上げ文生成装置の動作]
図9を参照し、図1の音声合成用読み上げ文生成装置1の動作について、説明する(適宜図1参照)。
音声合成用読み上げ文生成装置1は、グラフ入力手段10によって、有向グラフ(初期グラフ、分岐削除対象グラフ)Gと、リストLとが入力される(ステップS1)。
[Operation of the text-to-speech generator for speech synthesis]
With reference to FIG. 9, the operation of the speech synthesizing
In the speech synthesis speech-to-
音声合成用読み上げ文生成装置1は、グラフ分岐削除手段11によって、分岐削除対象グラフGのエッジEが分岐しているか否かを判定する。
エッジEが分岐していない場合、グラフ分岐削除手段11は、分岐削除対象グラフGを、そのまま分岐削除済みグラフGとして出力する。
一方、エッジEが分岐している場合、グラフ分岐削除手段11は、分岐削除対象グラフGから、分岐したエッジEが削除された分岐削除済みグラフGを複数生成する(ステップS2)。
The speech synthesis read-out
When the edge E is not branched, the graph
On the other hand, when the edge E is branched, the graph
音声合成用読み上げ文生成装置1は、統合グラフ生成手段12によって、DPマッチング法によって、比較対象グラフ対が類似するか否かを判定する。
比較対象グラフ対が類似する場合、統合グラフ生成手段12は、DPマッチング法の結果に基づいて、比較対象グラフ対を統合グラフTに統合する。
一方、比較対象グラフ対が類似しない場合、統合グラフ生成手段12は、比較対象グラフ対のそれぞれを、新たな統合グラフTとして扱う(ステップS3)。
In the speech synthesis read-out
When the comparison target graph pairs are similar, the integrated
On the other hand, if the comparison target graph pairs are not similar, the integrated
音声合成用読み上げ文生成装置1は、テキストデータ入力手段13によって、読み上げ済みテキストデータが入力される(ステップS4)。
音声合成用読み上げ文生成装置1は、グラフ比較手段14によって、統合グラフTと読み上げ済みテキストデータとを比較することで、リスト除外情報を生成する(ステップS5)。
In the text-to-
The speech synthesis read-out
音声合成用読み上げ文生成装置1は、リスト除外手段15によって、リスト除外情報に基づいて、リストLから読み上げ済みテキストデータに含まれる語句を除外する(ステップS6)。
音声合成用読み上げ文生成装置1は、第1条件式生成手段16aによって、第1条件式を生成する(ステップS7)。
音声合成用読み上げ文生成装置1は、第2条件式生成手段16bによって、ノードNの入力側と出力側との両方で第2条件式を生成する(ステップS8)。
Based on the list exclusion information, the speech synthesizing
The speech synthesis read-out
The speech synthesis read-out
音声合成用読み上げ文生成装置1は、最小通過回数算出手段17によって、第1条件式及び第2条件式をシンプレックス法で解いて、最小通過回数を算出する(ステップS9)。
音声合成用読み上げ文生成装置1は、読み上げ文生成手段18によって、統合グラフTを用いて、最小通過回数と等しい数、リストLに格納された語句の組み合わせを変えて読み上げ文を生成する(ステップS10)。
The speech synthesizing
In the speech synthesis device for
以上のように、音声合成用読み上げ文生成装置1は、リスト除外手段15によって、読み上げ済みテキストデータに含まれる語句をリストLから除外する。このため、音声合成用読み上げ文生成装置1は、読み上げ済み文に含まれない語句だけで読み上げ文を生成することができ、読み上げ文の重複生成を防止し、生成される読み上げ文の数を削減することができる。
As described above, the speech synthesis read-out
なお、前記した実施形態では、統合グラフTが1個の場合を例として説明したが、統合グラフTの個数は特に限定されない。例えば、統合グラフTが複数ある場合においては、類似する統合グラフTをさらに統合し(変数の共通化)、類似しない統合グラフTをそれぞれ個別のものとして扱うことで、全体としてシンプレックス法を用いることが可能となる。 In the above-described embodiment, the case where there is one integrated graph T has been described as an example, but the number of integrated graphs T is not particularly limited. For example, in the case where there are a plurality of integrated graphs T, the similar integrated graph T is further integrated (variable sharing), and the dissimilar integrated graphs T are treated as individual items so that the simplex method is used as a whole. Is possible.
(変形例1)
本願発明は、実施形態に限定されず、その趣旨を逸脱しない範囲で様々な変形を加えることができる。以下、本発明の変形例について説明する。
(Modification 1)
The present invention is not limited to the embodiments, and various modifications can be made without departing from the spirit of the present invention. Hereinafter, modifications of the present invention will be described.
前記した実施形態では、ノードNに置換可能な語句が最大1個含まれることとして説明したが、本発明は、これに限定されない。
本願発明の変形例に係る音声合成用読み上げ文生成装置1Aは、統合グラフTのノードNに置換可能な語句が2個以上含まれる点と、統合グラフ生成手段12の代わりに、統合グラフ生成手段12Aを備える点とが、前記した実施形態と異なる。
In the above-described embodiment, it has been described that the node N includes at most one replaceable word / phrase, but the present invention is not limited to this.
The speech synthesis device for speech synthesis 1A according to the modified example of the present invention includes a point that two or more replaceable words are included in the node N of the integrated graph T, and an integrated graph generating unit instead of the integrated
この統合グラフ生成手段12Aは、統合グラフTのノードNに置換可能な語句が複数含まれる場合、複数の語句が格納された別々のリストLから、別々のリストLに含まれる語句の全組み合わせが格納された統合リストを生成し、統合リストに貪欲アルゴリズムを適用することでコンパクトリストを生成し、ノードNとコンパクトリストとを対応づける。
When the node N of the integrated graph T includes a plurality of replaceable words / phrases, the integrated
例えば、図10(a)に示すように、統合グラフTに、「[月度][日付][区分][時間]時には」を示すノードNが含まれる場合を考える。また、ノードNには、リストL10〜L13が対応付けられている。 For example, as shown in FIG. 10A, a case is considered where the integrated graph T includes a node N indicating “when [monthly] [date] [division] [time]”. In addition, lists L 10 to L 13 are associated with the node N.
リストL10は、図10(b)に示すように、ノードNの[月度]に対応した語句が12個格納されている。
リストL11は、ノードNの[日付]に対応した語句が31個格納されている。
リストL12は、ノードNの[区分]に対応した、「午前」、「午後」という語句が2個格納されている。
リストL13は、ノードNの[時間]に対応した語句が12個格納されている。
List L 10, as shown in FIG. 10 (b), the phrase that corresponds to the monthly] of the node N is stored 12.
The list L 11 stores 31 words / phrases corresponding to [date] of the node N.
The list L 12 stores two words “AM” and “PM” corresponding to the [classification] of the node N.
The list L 13 stores 12 words / phrases corresponding to [time] of the node N.
この場合、統合グラフ生成手段12Aは、図10(c)に示すように、ノードNで置換可能な4個の語句[月度],[日付],[区分],[時間]を、1個の置換可能な語句[月度−日付−区分−時間]に結合する。
In this case, as shown in FIG. 10C, the integrated
また、統合グラフ生成手段12Aは、図10(d)に示すように、リストL10〜L13に含まれる語句の全組み合わせが格納された統合リストL20を生成する。つまり、統合リストL20は、12×31×2×12=8928個の語句が格納される。
The integrated
例えば、統合リストL20に格納された1語目の語句は、リストL10〜L13の1語目の語句を組み合わせた「1月1日午前0時」となる。また、統合リストL20に格納された2語目の語句は、リストL10〜L12の1語目の語句と、リストL13の2語目の語句とを組み合わせた「1月1日午前1時」となる。また、統合リストL20に格納された3語目の語句は、リストL10〜L12の1語目の語句と、リストL13の3語目の語句とを組み合わせた「1月1日午前2時」となる。
For example, the first word / phrase stored in the integrated list L 20 is “midnight on January 1,” which is a combination of the first word / phrases in the lists L 10 to L 13 . Also, the second word stored in the integrated list L 20 is “January 1 AM”, which is a combination of the first word in the lists L 10 to L 12 and the second word in the
そして、統合グラフ生成手段12Aは、図10(d)の統合リストL20に貪欲アルゴリズムを適用することで、音声合成に最小限のコンパクトリスト(不図示)を生成して、図10(c)のノードNに対応づける。
The integrated
この貪欲アルゴリズムは、例えば、参考文献「T.コルメン他著、“アルゴリズムイントロダクション”、第3巻、近代科学社、1995年12月30日、p313−317」に記載されているため、詳細な説明を省略する。
また、貪欲アルゴリズムとして、特許第4741208号公報に記載の逐次貪欲アルゴリズムを用いることもできる。
This greedy algorithm is described in, for example, the reference document “T. Colmen et al.,“ Algorithm Introduction ”, Volume 3, Modern Science, December 30, 1995, p313-317”, so that detailed explanations are given. Is omitted.
As the greedy algorithm, a sequential greedy algorithm described in Japanese Patent No. 4741208 can also be used.
以上のように、音声合成用読み上げ文生成装置1Aは、ノードNに置換可能な語句が複数含まれる場合でも、その語句を1個にすることができる。このため、音声合成用読み上げ文生成装置1Aは、ノードNに含まれる置換可能な語句の個数に関わらず、読み上げ文の生成処理を共通化でき、構成を簡素にすることができる。 As described above, the speech synthesizing speech generation device 1A can reduce the number of words even if the node N includes a plurality of replaceable words. For this reason, the speech synthesizing speech generation apparatus 1A for speech synthesis can make the reading text generation process common regardless of the number of replaceable words included in the node N, and can simplify the configuration.
1,1A 音声合成用読み上げ文生成装置
10 グラフ入力手段
11 グラフ分岐削除手段(グラフ統合手段)
12,12A 統合グラフ生成手段(グラフ統合手段)
13 テキストデータ入力手段
14 グラフ比較手段
15 リスト除外手段
16 条件式生成手段
17 最小通過回数算出手段
18 読み上げ文生成手段
1,1A Speech Synthesizer for
12, 12A integrated graph generation means (graph integration means)
13 Text data input means 14 Graph comparison means 15 List exclusion means 16 Conditional expression generation means 17 Minimum pass count calculation means 18 Reading sentence generation means
Claims (5)
前記有向グラフと、前記有向グラフのノードに対応し、かつ、当該ノードで置換する語句を1以上格納するリストとが入力されるグラフ入力手段と、
前記グラフ入力手段に入力された有向グラフを統合するグラフ統合手段と、
発話内容を示すテキストデータが入力されるテキストデータ入力手段と、
前記テキストデータ入力手段に入力されたテキストデータと、統合された前記有向グラフとを比較することで、前記リストから、前記テキストデータに含まれる語句を求めるグラフ比較手段と、
前記グラフ比較手段が求めた語句を前記リストから除外するリスト除外手段と、
前記ノードの通過回数を、当該ノードに対応し、かつ、前記リスト除外手段で除外されたリストに格納された語句の個数以上とする第1条件式を生成する第1条件式生成手段と、
第2条件式として、前記ノードに入力されるエッジの通過回数の和が前記ノードの通過回数に等しくなる条件式と、当該ノードから出力するエッジの通過回数の和が前記ノードの通過回数に等しくなる条件式とを生成する第2条件式生成手段と、
前記第1条件式及び前記第2条件式を満たすように、前記文の先頭における通過回数が最小になる最小通過回数を算出する最小通過回数算出手段と、
前記最小通過回数算出手段が算出した最小通過回数と等しい数、前記リスト除外手段で削除されたリストに格納された語句の組み合わせを変えて、前記読み上げ文を生成する読み上げ文生成手段と、
を備えることを特徴とする音声合成用読み上げ文生成装置。 The sentence is expressed by a directed graph composed of a plurality of nodes indicating words included in the sentence and an edge indicating a connection relation between the nodes, and the replaceable words are assigned to the nodes. A speech synthesis generation device for speech synthesis that generates speech for a speech synthesis database necessary for synthesis,
A graph input means for inputting the directed graph and a list that stores one or more words corresponding to the nodes of the directed graph and replaced by the nodes;
Graph integration means for integrating the directed graph input to the graph input means;
Text data input means for inputting text data indicating the utterance content;
A graph comparing means for obtaining a phrase contained in the text data from the list by comparing the text data input to the text data input means and the integrated directed graph;
A list excluding unit for excluding the word obtained by the graph comparing unit from the list;
First conditional expression generation means for generating a first conditional expression that sets the number of passages of the node to be equal to or more than the number of words stored in the list that corresponds to the node and is excluded by the list exclusion means;
As a second conditional expression, a conditional expression in which the sum of the number of times of passage of edges input to the node is equal to the number of times of passage of the node, and a sum of the number of times of passage of edges output from the node are equal to the number of times of passage of the node Second conditional expression generation means for generating a conditional expression
Minimum passage number calculating means for calculating a minimum number of passages that minimizes the number of passages at the head of the sentence so as to satisfy the first conditional expression and the second conditional expression;
A reading sentence generation means for generating the reading sentence by changing a combination of words stored in the list deleted by the list exclusion means, a number equal to the minimum passage number calculated by the minimum passage number calculation means,
A speech synthesis apparatus for speech synthesis, comprising:
前記グラフ入力手段に2番目以降に入力された有向グラフのエッジが分岐しているか否かを判定し、前記エッジが分岐していない有向グラフを分岐削除済みグラフとし、前記エッジが分岐している有向グラフから、前記エッジの分岐先にあるノードを別々にして当該エッジの分岐が削除された分岐削除済みグラフを生成するグラフ分岐削除手段と、
DPマッチング法によって、前記グラフ入力手段に最初に入力された有向グラフ又は統合グラフの一方と前記分岐削除済みグラフとからなる比較対象グラフ対が類似するか否かを判定し、前記比較対象グラフ対が類似する場合、前記比較対象グラフ対を1個の前記統合グラフに統合し、前記比較対象グラフ対が類似しない場合、前記比較対象グラフ対のそれぞれを新たな前記統合グラフとする統合グラフ生成手段と、を備え、
前記グラフ比較手段は、前記統合グラフ生成手段から入力された統合グラフと、前記テキストデータとを比較することを特徴とする請求項1に記載の音声合成用読み上げ文生成装置。 The graph integration means includes:
It is determined whether or not the edge of the directed graph input to the graph input means for the second time and thereafter is branched, the directed graph in which the edge is not branched is defined as a branch deleted graph, and the directed graph from which the edge is branched , A graph branch deletion means for separately generating nodes at the branch destination of the edge and generating a branch deleted graph in which the branch of the edge is deleted;
By the DP matching method, it is determined whether the comparison target graph pair composed of one of the directed graph or the integrated graph first input to the graph input means and the branch deleted graph is similar, and the comparison target graph pair is When similar, the comparison target graph pair is integrated into one integrated graph, and when the comparison target graph pair is not similar, an integrated graph generating unit that sets each of the comparison target graph pairs as a new integrated graph; With
2. The speech synthesis read-out sentence generation apparatus according to claim 1, wherein the graph comparison unit compares the integrated graph input from the integrated graph generation unit with the text data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012271461A JP6088233B2 (en) | 2012-12-12 | 2012-12-12 | Spoken sentence generation device for speech synthesis and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012271461A JP6088233B2 (en) | 2012-12-12 | 2012-12-12 | Spoken sentence generation device for speech synthesis and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014115577A true JP2014115577A (en) | 2014-06-26 |
JP6088233B2 JP6088233B2 (en) | 2017-03-01 |
Family
ID=51171594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012271461A Active JP6088233B2 (en) | 2012-12-12 | 2012-12-12 | Spoken sentence generation device for speech synthesis and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6088233B2 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004251953A (en) * | 2003-02-18 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for text selection |
JP2004347955A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatic sentence set, and storage medium therefor |
JP2006030892A (en) * | 2004-07-21 | 2006-02-02 | Nippon Hoso Kyokai <Nhk> | Program and device for read-aloud text data selection for speech synthesizing |
JP2007334264A (en) * | 2006-06-19 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | Text selecting device, and method, program and recording medium thereof |
US20080091431A1 (en) * | 2003-03-10 | 2008-04-17 | Chih-Chung Kuo | Method And Apparatus Of Generating Text Script For A Corpus-Based Text-To Speech System |
JP2010033462A (en) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | Read-aloud text generation device for voice synthesis and program thereof |
JP2010032918A (en) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | Voice synthesizing method, voice synthesizer, and voice synthesis program |
-
2012
- 2012-12-12 JP JP2012271461A patent/JP6088233B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004251953A (en) * | 2003-02-18 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for text selection |
US20080091431A1 (en) * | 2003-03-10 | 2008-04-17 | Chih-Chung Kuo | Method And Apparatus Of Generating Text Script For A Corpus-Based Text-To Speech System |
JP2004347955A (en) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for automatic sentence set, and storage medium therefor |
JP2006030892A (en) * | 2004-07-21 | 2006-02-02 | Nippon Hoso Kyokai <Nhk> | Program and device for read-aloud text data selection for speech synthesizing |
JP2007334264A (en) * | 2006-06-19 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | Text selecting device, and method, program and recording medium thereof |
JP2010033462A (en) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | Read-aloud text generation device for voice synthesis and program thereof |
JP2010032918A (en) * | 2008-07-30 | 2010-02-12 | Nippon Hoso Kyokai <Nhk> | Voice synthesizing method, voice synthesizer, and voice synthesis program |
Also Published As
Publication number | Publication date |
---|---|
JP6088233B2 (en) | 2017-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4130190B2 (en) | Speech synthesis system | |
JP5293460B2 (en) | Database generating apparatus for singing synthesis and pitch curve generating apparatus | |
US9620092B2 (en) | Composition using correlation between melody and lyrics | |
Raczyński et al. | Melody harmonization with interpolated probabilistic models | |
US20100121642A1 (en) | Speech Data Retrieval Apparatus, Speech Data Retrieval Method, Speech Data Retrieval Program and Computer Usable Medium Having Computer Readable Data Retrieval Program Embodied Therein | |
JP5310563B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
Wu et al. | Encoding linear models as weighted finite-state transducers. | |
Huang et al. | Iterative Viterbi A* algorithm for k-best sequential decoding | |
KR20170128070A (en) | Chord composition method based on recurrent neural network | |
CN1787072B (en) | Method for synthesizing pronunciation based on rhythm model and parameter selecting voice | |
JP2020118929A (en) | Summary generation device, method, program, and storage medium | |
JP6088233B2 (en) | Spoken sentence generation device for speech synthesis and program thereof | |
JP5512597B2 (en) | Speech synthesis apparatus, method and program thereof | |
JP2013164609A (en) | Singing synthesizing database generation device, and pitch curve generation device | |
Garani et al. | An algorithmic approach to South Indian classical music | |
US9704482B2 (en) | Method and system for order-free spoken term detection | |
Long et al. | T-music: A melody composer based on frequent pattern mining | |
Kumar et al. | Meeting summarization: A survey of the state of the art | |
Sproat et al. | Applications of lexicographic semirings to problems in speech and language processing | |
Kang et al. | Lattice based transcription loss for end-to-end speech recognition | |
Lee et al. | Improved model adaptation approach for recognition of reduced-frame-rate continuous speech | |
JP5881157B2 (en) | Information processing apparatus and program | |
JP5020763B2 (en) | Apparatus, method, and program for generating decision tree for speech synthesis | |
JP5113662B2 (en) | Text-to-speech reading device for speech synthesis and program thereof | |
JP5020759B2 (en) | Segment database generation apparatus, method and program for various speech synthesizers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6088233 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |