JP6063218B2 - 音声合成装置およびそのプログラム - Google Patents
音声合成装置およびそのプログラム Download PDFInfo
- Publication number
- JP6063218B2 JP6063218B2 JP2012254293A JP2012254293A JP6063218B2 JP 6063218 B2 JP6063218 B2 JP 6063218B2 JP 2012254293 A JP2012254293 A JP 2012254293A JP 2012254293 A JP2012254293 A JP 2012254293A JP 6063218 B2 JP6063218 B2 JP 6063218B2
- Authority
- JP
- Japan
- Prior art keywords
- graph
- speech
- voice
- input sentence
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
[音声合成装置の構成]
本発明に係る音声合成装置の構成について、図1を参照しながら説明する。音声合成装置1は、入力文に対応する音声を合成するものであり、具体的には図1に示すように、有向グラフを利用して外部から入力される入力文(テキスト)に対応する音声を合成して出力するものである。この音声合成装置1は、例えばラジオ放送における気象通報などにおいて、合成音声によって気象情報を放送する場合などに用いられる。
以下、本発明に係る音声合成装置1による音声合成の具体例について、図4を参照しながら説明する。
本発明に係る音声合成装置1の処理手順について、図5を参照(適宜図1を参照)しながら説明する。
音声合成装置1は、例えば図6に示すような構成であっても構わない。すなわち、図6に示す音声合成装置1Aは、音声合成装置1とは異なり、入力文グラフ比較手段20Aにおける処理の前に予めグラフ追加手段30Aによって新たな有向グラフが生成され、グラフ群蓄積手段10Aに蓄積されている。そして、入力文グラフ比較手段20Aは、図6に示すように、入力文と、グラフ群蓄積手段10Aに蓄積されている複数の有向グラフのうち、グラフ追加手段30Aによって生成された新たな有向グラフ以外の有向グラフとを比較する。
音声合成装置1は、例えば図7に示すような構成であっても構わない。すなわち、図7に示す音声合成装置1Bは、音声合成装置1とは異なり、入力文グラフ比較手段20Aにおける処理の前に予めグラフ追加手段30Bによって新たな有向グラフが生成され、追加グラフ群蓄積手段70に蓄積されている。そして、入力文グラフ比較手段20Aは、図7に示すように、まず入力文と、グラフ群蓄積手段10に蓄積されている複数の有向グラフとを比較する。
[音声合成装置の構成]
本発明の第2実施形態に係る音声合成装置1Cの構成について、図8を参照しながら説明する。ここで、音声合成装置1Cは、図8に示すように、アラインメント手段80と、音声蓄積手段90と、音声発話内容蓄積手段100と、グラフ音声登録手段110と、を新たに備えること以外は、前記した第1実施形態に係る音声合成装置1と同様の構成を備えている。従って、以下では音声合成装置1と重複する構成については同じ符号を付して説明を省略し、処理手順についても説明を省略する。
0ms〜1470ms 「日本のはるか東の」
1470ms〜2000ms <無音>
2000ms〜2350ms 「北緯」
2350ms〜2910ms 「22度」
2910ms〜3200ms 「東経」
3200ms〜4200ms 「145度付近には」
4200ms〜5000ms <無音>
5000ms〜7520ms 「930ヘクトパスカルの」
7520ms〜10500ms「熱帯低気圧があって」
10500ms〜13900ms「ほとんど停滞しています。」
ここで、前記した音声合成装置1A,1B,1Cは、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
10,10A グラフ群蓄積手段
20,20A 入力文グラフ比較手段
30,30A,30B グラフ追加手段
40,40A,40B 入力文追加グラフ比較手段
50 音声選択手段
60 音声接続手段
70 追加グラフ群蓄積手段
80 アラインメント手段
90 音声蓄積手段
100 音声発話内容蓄積手段
110 グラフ音声登録手段
120 音声補正手段
Claims (4)
- 複数のノードと各ノード間の接続を表すエッジとで構成され、前記ノードのそれぞれに置換可能なテキストデータと対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成する音声合成装置であって、
複数の前記有向グラフを蓄積するグラフ群蓄積手段と、
前記入力文と、前記グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、前記入力文と前記グラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る入力文グラフ比較手段と、
前記有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、前記開始ノード、前記一つのノード、前記終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成するグラフ追加手段と、
前記入力文グラフ比較手段において一致する有向グラフがなかった場合に、前記入力文と、前記グラフ追加手段で生成された新たな有向グラフとを比較することで、前記入力文と前記新たな有向グラフのノードにおけるテキストデータとの対応関係を得る入力文追加グラフ比較手段と、
前記入力文グラフ比較手段または前記入力文追加グラフ比較手段において得られた前記対応関係を用いて、前記ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する音声選択手段と、
前記音声選択手段によって選択された音声の組み合わせを、前記入力文の構成順に接続する音声接続手段と、
を備えることを特徴とする音声合成装置。 - 音声の発話内容を示すテキストデータと対応付けられている複数の音声を蓄積する音声蓄積手段と、
予め入力された音声の発話内容を示すテキストデータを蓄積する音声発話内容蓄積手段と、
前記音声発話内容蓄積手段に蓄積された音声の発話内容を示すテキストデータと、当該音声の音声波形の対応する区間とを比較して対応付け、この対応付けた対応関係を前記音声蓄積手段に蓄積するアラインメント手段と、
予め入力された複数の前記有向グラフのいずれかと前記音声発話内容蓄積手段に蓄積された前記発話内容を示すテキストデータとを比較することで、前記発話内容を示すテキストデータが有向グラフをどのように通るか決定し、当該テキストデータと当該有向グラフとを対応づけて、その対応付けたテキストデータに対応する区間の音声を前記音声蓄積手段から取得して前記グラフ群蓄積手段に蓄積するグラフ音声登録手段と、
をさらに備えることを特徴とする請求項1に記載の音声合成装置。 - 前記音声選択手段で選択された音声において、当該音声の音声波形同士の接続部分における音の高低差を少なくするように補正する音声補正手段をさらに備え、
前記音声接続手段は、前記音声補正手段で補正された音声の組み合わせを接続することを特徴とする請求項1または請求項2に記載の音声合成装置。 - 複数のノードと各ノード間の接続を表すエッジとで構成され、前記ノードのそれぞれに置換可能なテキストデータと対応する複数の音声が割り当てられて全体として文章を形成することができる有向グラフを使用して、入力された入力文に対応した音声を合成するために、複数の前記有向グラフを蓄積するグラフ群蓄積手段を備える音声合成装置のコンピュータを、
前記入力文と、前記グラフ群蓄積手段に蓄積されている有向グラフとを比較することで、前記入力文と前記グラフ群蓄積手段に蓄積されているいずれかの有向グラフのノードにおけるテキストデータとの対応関係を得る入力文グラフ比較手段、
前記有向グラフのノードに含まれるテキストデータを全て集めて一つのノードとし、開始ノードからのエッジと、終了ノードへのエッジを加えることで、前記開始ノード、前記一つのノード、前記終了ノードおよびこれらのノード間のエッジから構成される新たな有向グラフを生成するグラフ追加手段、
前記入力文グラフ比較手段において一致する有向グラフがなかった場合に、前記入力文と、前記グラフ追加手段で生成された新たな有向グラフとを比較することで、前記入力文と前記新たな有向グラフのノードにおけるテキストデータとの対応関係を得る入力文追加グラフ比較手段、
前記入力文グラフ比較手段または前記入力文追加グラフ比較手段において得られた前記対応関係を用いて、前記ノードにおけるテキストデータと対応付けられている音声について、当該音声と接続する前後の音声の接続部分における類似度が最大となる組み合わせを選択する音声選択手段、
前記音声選択手段によって選択された音声の組み合わせを、前記入力文の構成順に接続する音声接続手段、
として機能させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012254293A JP6063218B2 (ja) | 2012-11-20 | 2012-11-20 | 音声合成装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012254293A JP6063218B2 (ja) | 2012-11-20 | 2012-11-20 | 音声合成装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014102380A JP2014102380A (ja) | 2014-06-05 |
JP6063218B2 true JP6063218B2 (ja) | 2017-01-18 |
Family
ID=51024942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012254293A Expired - Fee Related JP6063218B2 (ja) | 2012-11-20 | 2012-11-20 | 音声合成装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6063218B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050349B (zh) * | 2022-06-14 | 2024-06-11 | 抖音视界有限公司 | 文本转换音频的方法、装置、设备和介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5054632B2 (ja) * | 2008-07-30 | 2012-10-24 | 日本放送協会 | 音声合成装置及び音声合成プログラム |
JP5269668B2 (ja) * | 2009-03-25 | 2013-08-21 | 株式会社東芝 | 音声合成装置、プログラム、及び方法 |
-
2012
- 2012-11-20 JP JP2012254293A patent/JP6063218B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014102380A (ja) | 2014-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4966048B2 (ja) | 声質変換装置及び音声合成装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2008107454A (ja) | 音声合成装置 | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
JP2009047837A (ja) | 音声合成方法及びその装置 | |
JP2009163121A (ja) | 音声処理装置及びそのプログラム | |
KR101153736B1 (ko) | 발음기관 애니메이션 생성 장치 및 방법 | |
JP2008225254A (ja) | 音声合成装置及び方法並びにプログラム | |
US20110054903A1 (en) | Rich context modeling for text-to-speech engines | |
JP2009109805A (ja) | 音声処理装置及びその方法 | |
US20060053017A1 (en) | Method of synthesizing of an unvoiced speech signal | |
US20090216537A1 (en) | Speech synthesis apparatus and method thereof | |
JP6063218B2 (ja) | 音声合成装置およびそのプログラム | |
US6377917B1 (en) | System and methodology for prosody modification | |
US7765103B2 (en) | Rule based speech synthesis method and apparatus | |
JP5054632B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP5198200B2 (ja) | 音声合成装置及び方法 | |
JP4510631B2 (ja) | 音声波形の連結を用いる音声合成 | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP5177135B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP4525162B2 (ja) | 音声合成装置及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6063218 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |