JP5113662B2 - 音声合成用読上げ文章生成装置及びそのプログラム - Google Patents
音声合成用読上げ文章生成装置及びそのプログラム Download PDFInfo
- Publication number
- JP5113662B2 JP5113662B2 JP2008196953A JP2008196953A JP5113662B2 JP 5113662 B2 JP5113662 B2 JP 5113662B2 JP 2008196953 A JP2008196953 A JP 2008196953A JP 2008196953 A JP2008196953 A JP 2008196953A JP 5113662 B2 JP5113662 B2 JP 5113662B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- nodes
- conditional expression
- graph
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 55
- 238000003786 synthesis reaction Methods 0.000 title claims description 55
- 230000014509 gene expression Effects 0.000 claims description 118
- 238000000034 method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 description 18
- 238000005304 joining Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
請求項1,3に係る発明によれば、文章を表現した有向グラフを用いることで、有向グラフの各ノードに対応する語句を全ての組み合わせ数の読上げ文章を生成する必要がなくなるため、演算量を少なくし、音声合成用読上げ文章生成装置を簡易な構成とすることができる。
図1を参照して、本発明の実施形態に係る音声合成用読上げ文章生成装置の構成について説明する。図1は、本発明の実施形態に係る音声合成用読上げ文章生成装置のブロック図である。
以下、図2及び図3を参照して、有向グラフ及びリストの具体例について説明する(適宜図1参照)。図2は図1のグラフ入力手段に入力された有向グラフを説明する図であり、(a)は有向グラフの第1例であり、(b)は有向グラフの第2例である。また、図3は図1のグラフ入力手段に入力されたリストを説明する図であり、(a)は図2(a)のノードN1に対応するリストの例であり、(b)は図2(b)のノードN12に対応するリストの例である。
リストL1が格納した語句の個数:100
リストL2が格納した語句の個数:600
リストL3が格納した語句の個数:400
リストL4が格納した語句の個数:200
リストL5が格納した語句の個数:7
リストL6が格納した語句の個数:1
リストL11が格納した語句の個数:100
リストL12が格納した語句の個数:180
リストL13が格納した語句の個数:90
リストL14が格納した語句の個数:200
リストL15が格納した語句の個数:7
リストL16が格納した語句の個数:16
リストL17が格納した語句の個数:100
以下、図4を参照して、統合グラフの生成について説明する(適宜図1,図2参照)。図4は、図1の統合グラフ生成手段が生成した統合グラフを説明する図である。なお、図4では、統合グラフTにおける文章の先頭を「先頭」、及び、統合グラフTにおける文章の終了を「終了」として図示した。
以下、条件式及び読上げ文章の生成について説明する(適宜図1,図4参照)。
条件式生成手段13は、ノードN毎に、一次関数又は一次不等式であり、かつ、各ノードNの通過回数(変数)が正となる条件式を生成する。以下、ノードN1〜ノードN6の通過回数をそれぞれX1〜X6とし、ノードN11〜ノードN17の通過回数をそれぞれX11〜X17とする。また、文章の先頭における通過回数をXSとし、文章の終了における通過回数をXEとする。
XS=X1・・・式(1)
X11=X2+X12・・・式(2)
X2=X3・・・式(3)
X12=X13・・・式(4)
X3+X13=X14・・・式(5)
X14=X15・・・式(6)
X15=X6+X16・・・式(7)
X16=X17・・・式(8)
X6+X17=XE・・・式(9)
X2≧600 ・・・式(10)
X3≧400 ・・・式(11)
X6≧1 ・・・式(12)
X11≧100・・・式(13)
X12≧180・・・式(14)
X13≧90 ・・・式(15)
X14≧200・・・式(16)
X15≧7 ・・・式(17)
X16≧16 ・・・式(18)
X17≧100・・・式(19)
以下、図5を参照して、図1の音声合成用読上げ文章生成装置の動作について説明する(適宜図1参照)。図5は、図1の音声合成用読上げ文章生成装置の動作を示すフローチャートである。なお、音声合成用読上げ文章生成装置1は、グラフ入力手段11にリストL及び有向グラフGが入力されたものとして説明する。
11 グラフ入力手段
12 統合グラフ生成手段
13 条件式生成手段
14 最小通過回数算出手段
15 読上げ文章生成手段
G 有向グラフ
L リスト
T 統合グラフ
Claims (3)
- 文章に含まれる語句の位置を示す複数のノードと前記ノード間において分岐及び合流が可能なエッジとで構成された有向グラフによって前記文章が表現され、当該有向グラフを用いて、音声合成に必要となる音声合成データベース用の読上げ文章を生成する音声合成用読上げ文章生成装置であって、
前記有向グラフと、当該有向グラフの前記ノードに対応する前記語句を1以上格納するリストとが入力されるグラフ入力手段と、
前記ノード毎に、当該ノードの通過回数を当該ノードに対応する前記リストが格納した前記語句の個数以上とする第1の条件式を生成すると共に、前記エッジが前記ノード間の接続を示すときは前記ノード間の通過回数を等しくする第2の条件式を生成し、前記エッジが前記ノード間の分岐を示すときは分岐前の前記ノードの通過回数と分岐した前記ノードの通過回数の合算値とを等しくする前記第2の条件式を生成し、前記エッジが前記ノード間の合流を示すときは合流する前記ノードの通過回数の合算値と合流後の前記ノードの通過回数とを等しくする前記第2の条件式を生成する条件式生成手段と、
前記条件式生成手段が生成した第1の条件式及び第2の条件式を満たすように、前記文章の先頭における通過回数が最小になる最小通過回数を算出する最小通過回数算出手段と、
前記最小通過回数算出手段が算出した最小通過回数と等しい数、前記リストに格納した前記語句の組み合わせを変えて前記読上げ文章を生成する読上げ文章生成手段と、
を備えることを特徴とする音声合成用読上げ文章生成装置。 - 前記グラフ入力手段は、複数の前記有向グラフが入力され、
DPマッチング法によって、前記複数の有向グラフの前記ノードの一致と挿入誤りと欠落誤りと代替誤りとを求めて前記複数の有向グラフが類似するか否かを判定し、前記複数の有向グラフが類似する場合、前記DPマッチング法の結果に基づいて、前記複数の有向グラフを統合グラフに統合すると共に、前記複数の有向グラフが類似しない場合、前記複数の有向グラフのそれぞれを新たな前記統合グラフとする統合グラフ生成手段、をさらに備えることを特徴とする請求項1に記載の音声合成用読上げ文章生成装置。 - 文章に含まれる語句の位置を示す複数のノードと前記ノード間において分岐及び合流が可能なエッジとで構成された有向グラフによって前記文章が表現され、当該有向グラフを用いて、音声合成に必要となる音声合成データベース用の読上げ文章を生成するために、コンピュータを、
前記有向グラフと、当該有向グラフの前記ノードに対応する前記語句を1以上格納するリストとが入力されるグラフ入力手段、
前記ノード毎に、当該ノードの通過回数を当該ノードに対応する前記リストが格納した前記語句の個数以上とする第1の条件式を生成すると共に、前記エッジが前記ノード間の接続を示すときは前記ノード間の通過回数を等しくする第2の条件式を生成し、前記エッジが前記ノード間の分岐を示すときは分岐前の前記ノードの通過回数と分岐した前記ノードの通過回数の合算値とを等しくする前記第2の条件式を生成し、前記エッジが前記ノード間の合流を示すときは合流する前記ノードの通過回数の合算値と合流後の前記ノードの通過回数とを等しくする前記第2の条件式を生成する条件式生成手段、
前記条件式生成手段が生成した第1の条件式及び第2の条件式を満たすように、前記文章の先頭における通過回数が最小になる最小通過回数を算出する最小通過回数算出手段、
前記最小通過回数算出手段が算出した最小通過回数と等しい数、前記リストに格納した前記語句の組み合わせを変えて前記読上げ文章を生成する読上げ文章生成手段、
として機能させることを特徴とする音声合成用読上げ文章生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008196953A JP5113662B2 (ja) | 2008-07-30 | 2008-07-30 | 音声合成用読上げ文章生成装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008196953A JP5113662B2 (ja) | 2008-07-30 | 2008-07-30 | 音声合成用読上げ文章生成装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010033462A JP2010033462A (ja) | 2010-02-12 |
JP5113662B2 true JP5113662B2 (ja) | 2013-01-09 |
Family
ID=41737821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008196953A Active JP5113662B2 (ja) | 2008-07-30 | 2008-07-30 | 音声合成用読上げ文章生成装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5113662B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6088233B2 (ja) * | 2012-12-12 | 2017-03-01 | 日本放送協会 | 音声合成用読み上げ文生成装置及びそのプログラム |
JP2021043572A (ja) * | 2019-09-09 | 2021-03-18 | ソニー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282683A (ja) * | 1998-03-26 | 1999-10-15 | Omron Corp | エージェントシステム |
JP4741208B2 (ja) * | 2004-07-21 | 2011-08-03 | 日本放送協会 | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 |
-
2008
- 2008-07-30 JP JP2008196953A patent/JP5113662B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010033462A (ja) | 2010-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elias et al. | Parallel Tacotron 2: A non-autoregressive neural TTS model with differentiable duration modeling | |
CN106373561B (zh) | 声学得分计算和语音识别的设备和方法 | |
WO2018192424A1 (zh) | 统计参数模型建立方法、语音合成方法、服务器和存储介质 | |
EP3654328A1 (en) | Method and apparatus with speech recognition | |
CN110245222B (zh) | 对话模型训练方法及装置、对话生成方法及装置 | |
Zhang et al. | Benchmarking lf-mmi, ctc and rnn-t criteria for streaming asr | |
JP2007264503A (ja) | 音声合成装置及びその方法 | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
KR20130059476A (ko) | 음성 인식용 탐색 공간 생성 방법 및 장치 | |
JP5113662B2 (ja) | 音声合成用読上げ文章生成装置及びそのプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US8655664B2 (en) | Text presentation apparatus, text presentation method, and computer program product | |
JP6472342B2 (ja) | 音声合成装置、音声合成方法、およびプログラム | |
US20050119889A1 (en) | Rule based speech synthesis method and apparatus | |
Huang et al. | Text-only domain adaptation using unified speech-text representation in transducer | |
JP4956503B2 (ja) | グラフ統合装置及びそのプログラム | |
JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP4741208B2 (ja) | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 | |
JP5174574B2 (ja) | グラフにおけるノード通過回数決定装置およびそのプログラム | |
JP5020759B2 (ja) | 種々の音声合成装置のための素片データベース生成装置、方法及びプログラム | |
JP4882569B2 (ja) | 音声合成装置、方法及びプログラム | |
JP5387410B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6088233B2 (ja) | 音声合成用読み上げ文生成装置及びそのプログラム | |
JP6063218B2 (ja) | 音声合成装置およびそのプログラム | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110128 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20110128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5113662 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |