JP3913770B2 - 音声合成装置および方法 - Google Patents
音声合成装置および方法 Download PDFInfo
- Publication number
- JP3913770B2 JP3913770B2 JP2006512928A JP2006512928A JP3913770B2 JP 3913770 B2 JP3913770 B2 JP 3913770B2 JP 2006512928 A JP2006512928 A JP 2006512928A JP 2006512928 A JP2006512928 A JP 2006512928A JP 3913770 B2 JP3913770 B2 JP 3913770B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- voice quality
- information
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 13
- 238000003786 synthesis reaction Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 title description 51
- 238000006243 chemical reaction Methods 0.000 claims description 109
- 238000012937 correction Methods 0.000 claims description 21
- 230000001755 vocal effect Effects 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 238000001308 synthesis method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000002542 deteriorative effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Description
(実施の形態1)
図1は、本発明の実施の形態1における声質可変音声合成装置の構成図である。声質可変音声合成装置100は、編集者が所望する声質を有する音声を合成する装置であり、テキスト解析部101と、目標素片情報生成部102と、素片データベース103と、素片選択部104と、声質指定部105と、声質変換部106と、波形生成部107と、歪み判定部108と、目標素片情報修正部109とを備えている。
<目標素片情報生成部102>
目標素片情報生成部102は、テキスト解析部101から送られる言語情報をもとに、入力されたテキストの韻律情報を予測する。ここで、韻律情報は少なくとも音素単位ごとの継続時間長、基本周波数、パワー情報を含むものである。また、音素単位以外でも、モーラ単位や音節単位ごとに継続時間長、基本周波数、パワー情報を予測するようにしても良い。目標素片情報生成部102は、どのような方式の予測を行っても良い。例えば、数量化I類による方法で、予測を行うようにすればよい。
素片データベース103は、予め収録された音声の素片を記憶する。記憶する形式としては、波形そのものを記憶する方法であっても良いし、音源波情報と声道情報とに分けてそれぞれを記憶する方法であっても良い。また、記憶する音声素片は波形に限られず、再合成可能な分析パラメータを記憶するようにしても良い。
素片選択部104は、目標素片情報生成部102により生成された情報に基づき素片データベース103より最適な音声素片系列を選択する。素片選択部104の具体的構成については特定するものではないが、その一例の構成を図2に示す。
声質指定部105は、編集者による所望の合成音の声質を指定を受付ける。指定の具体的指定方法については特に限定するものではないが、その一例を図3に示す。
声質変換部106は、声質指定部105により指定された声質に合うように、素片選択部104により選択された音声素片系列を変換する。変換の方法は特に限定するものではない。
またはフォルマント周波数を伸縮することにより、声質変換する方法であってもよい。
波形生成部107は、声質変換部106により変換された音声素片系列を合成し、音声波形を合成する。合成方法は特に限定するものではない。例えば、素片データベース103が記憶する音声素片が音声波形の場合は波形接続法により合成すればよい。または素片データベースが記憶する情報が音源波情報と声道情報とである場合は、ソースフィルタモデルとして再合成すればよい。
歪み判定部108は素片探索部104により選択された音声素片と、声質変換部106により声質を変換された後の音声素片とを比較し、声質変換部106の変形による音声素片の歪みを算出する。歪みを判定する際の範囲は、音素、音節、モーラ、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。
1.接続境界の連続性による判定
音声素片の接続境界付近では、声質変換部106の変形により歪みが大きくなる。このような現象は声質変換部106の声質変換を音声素片ごとに独立して行った場合には顕著に表れる。この歪みにより波形生成部107により合成音を合成した場合に素片接続点付近で音質が劣化する。そのため、この素片接続点での歪みを判定する。判定方法としては例えば、以下の方法がある。
1.1ケプストラム距離
素片接続点におけるスペクトルの形状をあらわすケプストラム距離により歪みを判定する。すなわち、接続点の前方素片の最終フレームと接続点の後方素片の先頭フレームとのケプストラム距離を算出する。
1.2フォルマント距離
素片接続点におけるフォルマントの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームと、接続点の後方素片の先頭フレームとの各フォルマント周波数の差分を基に距離を算出する。
1.3 ピッチの連続性
素片接続点における基本周波数の連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームの基本周波数と、接続点の後方素片の先頭フレームの基本周波数との差分を算出する。
1.4パワーの連続性
素片接続点におけるパワーの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームのパワーと、接続点の後方素片の先頭フレームのパワーとの差分を算出する。
2.素片変形率による判定
声質変換部106の変形により、素片選択部104で選択された音声素片を変形した際に、声質指定部105により指定された声質が選択時と大きく異なった場合には、声質の変化量が大きくなり、波形生成部107で合成した際に、音声の品質とくに明瞭度が低下する。そこで、素片選択部104で選択した音声素片と、声質変換部106で変換した音声素片とを比較して、その変化量に基づいて歪みを判定する。例えば、以下の方法で判定することが出来る。
2.1ケプストラム距離
声質変換前の音声素片と声質変換後の音声素片とのケプストラム距離により歪みを判定する。
2.2フォルマント距離
声質変換前の音声素片と声質変換後の音声素片とのフォルマント周波数の差分に基づく距離により歪みを判定する。
2.3基本周波数の変形率
声質変換前の音声素片と声質変換後の音声素片との基本周波数の平均値の差分により歪みを判定する。または、基本周波数の時間パターンの差分により歪みを判定する。
2.4パワーの変形率
声質変換前の音声素片と声質変換後の音声素片とのパワーの平均値の差分により歪みを判定する。または、パワーの時間パターンの差分により歪みを判定する。
歪み判定部108により音声素片が歪んでいると判定された場合には、目標素片情報修正部109は、歪み判定部108により歪んでいると判断された音声素片を変更するために、目標素片情報生成部102によって生成された目標素片情報を修正する。
図7は、本発明の実施の形態2における声質可変音声合成装置の構成図である。図7において、図1と同じ構成要素については同じ符号を用い、説明を省略する。
また、再選択の範囲は、音素、音節、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。
102 目標素片情報生成部
103 素片データベース
104 素片選択部
105 声質指定部
106 声質変換部
107 波形生成部
108 歪み判定部
109 目標素片情報修正部
201 基本素片データベース
202 声質素片データベース
301 素片候補抽出部
302 探索部
303 コスト計算部
304 目標コスト計算部
305 接続コスト計算部
801 素片保持部
Claims (16)
- 所望の声質を有する音声を合成する音声合成装置であって、
複数の声質の音声素片を記憶する音声素片記憶手段と、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段とを備え、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする音声合成装置。 - 前記声質変換手段は、さらに、前記修正後の音声素片情報に対応する音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記目標素片情報修正手段は、さらに、前記目標素片情報生成手段により生成された音声素片情報を修正する際に、前記声質変換手段により変換された音声素片の声道特徴を修正後の音声素片情報に加える
ことを特徴とする請求項1に記載の音声合成装置。 - 前記声道特徴は、前記声質変換手段により変換された音声素片のケプストラム係数またはケプトラム係数の時間パターンである
ことを特徴とする請求項3に記載の音声合成装置。 - 前記声道特徴は、前記声質変換手段により変換された音声素片のフォルマント周波数またはフォルマント周波数の時間パターンである
ことを特徴とする請求項3に記載の音声合成装置。 - 前記歪み判定手段は、隣接する音声素片間の接続性に基づいて歪みを判定する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記歪み判定手段は、隣接する音声素片間のケプストラム距離、隣接する音声素片間のフォルマント周波数の距離、隣接する音声素片間の基本周波数の差分、または隣接する音声素片間のパワーの差分に基づいて歪みを判定する
ことを特徴とする請求項6に記載の音声合成装置。 - 前記歪み判定手段は、前記素片選択手段により選択された音声素片から前記声質変換手段により変換された変換後の音声素片への変形率に基づいて歪みを判定する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記歪み判定手段は、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のケプストラム距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のフォルマント周波数の距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間の基本周波数の差分、または前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のパワーの差分に基づいて歪みを判定する
ことを特徴とする請求項8に記載の音声合成装置。 - 前記歪み判定手段は、音素、音節、モーラ、形態素、単語、文節、アクセント句、フレーズ、呼気段落および全文のいずれかを単位として歪みを判定する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、前記歪み判定手段において歪みを検出した範囲のみについて、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする請求項1に記載の音声合成装置。 - さらに、前記素片選択手段により選択された音声素片の識別子を保持する素片保持手段を備え、
前記素片選択手段は、前記歪み判定手段において歪みが検出されなかった範囲の音声素片については、前記素片保持手段に保持された前記識別子に基づいて前記音声素片を選択する
ことを特徴とする請求項11に記載の音声合成装置。 - 前記音声素片記憶手段は、
標準的な声質の音声素片を記憶する基本音声素片記憶手段と、
前記標準的な声質の音声素片とは異なる複数の声質の音声素片を記憶する声質音声素片記憶手段とを有し、
前記素片選択手段は、
前記目標素片情報生成手段により生成された音声素片情報に対応する音声素片を、前記基本音声素片記憶手段から選択する基本素片選択手段と、
前記目標素片情報修正手段により修正された音声素片情報に対応する音声素片を、前記声質音声素片記憶手段から選択する声質素片選択手段とを有する
ことを特徴とする請求項1に記載の音声合成装置。 - 複数の声質の音声素片を記憶する音声素片記憶手段を備える音声合成装置における音声合成方法であって、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成ステップと、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択ステップと、
合成音の声質の指定を受付ける声質指定ステップと、
前記素片選択ステップにおいて選択された音声素片を、前記声質指定ステップにおいて受付けられた声質を有する音声素片に変換する声質変換ステップと、
前記声質変換ステップにおいて変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定ステップと、
前記歪み判定ステップにおいて変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成ステップにおいて生成された音声素片情報を前記声質変換ステップにおいて変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正ステップとを含み、
前記素片選択ステップでは、前記目標素片情報修正ステップにおいて音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする音声合成方法。 - コンピュータを音声合成装置として機能させるためのプログラムであって、
前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え、
前記プログラムは、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段としてコンピュータを機能させ、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とするプログラム。 - コンピュータが実行するプログラムを記録したコンピュータ読取可能な記録媒体であって、
前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え、
前記プログラムは、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段としてコンピュータを機能させ、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とするコンピュータ読取可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004141551 | 2004-05-11 | ||
JP2004141551 | 2004-05-11 | ||
PCT/JP2005/006489 WO2005109399A1 (ja) | 2004-05-11 | 2005-04-01 | 音声合成装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3913770B2 true JP3913770B2 (ja) | 2007-05-09 |
JPWO2005109399A1 JPWO2005109399A1 (ja) | 2007-08-02 |
Family
ID=35320429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006512928A Expired - Fee Related JP3913770B2 (ja) | 2004-05-11 | 2005-04-01 | 音声合成装置および方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7912719B2 (ja) |
JP (1) | JP3913770B2 (ja) |
CN (1) | CN1954361B (ja) |
WO (1) | WO2005109399A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022504002A (ja) * | 2019-10-12 | 2022-01-13 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809145B2 (en) * | 2006-05-04 | 2010-10-05 | Sony Computer Entertainment Inc. | Ultra small microphone array |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US8073157B2 (en) * | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
US8233642B2 (en) | 2003-08-27 | 2012-07-31 | Sony Computer Entertainment Inc. | Methods and apparatuses for capturing an audio signal based on a location of the signal |
US9174119B2 (en) | 2002-07-27 | 2015-11-03 | Sony Computer Entertainement America, LLC | Controller for providing inputs to control execution of a program when inputs are combined |
US7803050B2 (en) | 2002-07-27 | 2010-09-28 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
US8139793B2 (en) | 2003-08-27 | 2012-03-20 | Sony Computer Entertainment Inc. | Methods and apparatus for capturing audio signals based on a visual image |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
CN101213589B (zh) * | 2006-01-12 | 2011-04-27 | 松下电器产业株式会社 | 对象声音分析装置和对象声音分析方法 |
CN101004911B (zh) * | 2006-01-17 | 2012-06-27 | 纽昂斯通讯公司 | 用于生成频率弯曲函数及进行频率弯曲的方法和装置 |
JP4757130B2 (ja) * | 2006-07-20 | 2011-08-24 | 富士通株式会社 | ピッチ変換方法及び装置 |
KR100811226B1 (ko) * | 2006-08-14 | 2008-03-07 | 주식회사 보이스웨어 | 악센트구 매칭 사전선택을 이용한 일본어음성합성방법 및시스템 |
GB2443027B (en) * | 2006-10-19 | 2009-04-01 | Sony Comp Entertainment Europe | Apparatus and method of audio processing |
US20080120115A1 (en) * | 2006-11-16 | 2008-05-22 | Xiao Dong Mao | Methods and apparatuses for dynamically adjusting an audio signal based on a parameter |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
JP5218971B2 (ja) * | 2008-07-31 | 2013-06-26 | 株式会社日立製作所 | 音声メッセージ作成装置及び方法 |
US8150695B1 (en) * | 2009-06-18 | 2012-04-03 | Amazon Technologies, Inc. | Presentation of written works based on character identities and attributes |
EP2518723A4 (en) * | 2009-12-21 | 2012-11-28 | Fujitsu Ltd | VOICE CONTROL DEVICE AND VOICE CONTROL METHOD |
KR101201913B1 (ko) * | 2010-11-08 | 2012-11-15 | 주식회사 보이스웨어 | 사용자의 후보 합성단위 선택에 의한 음성 합성 방법 및 시스템 |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
JP6266372B2 (ja) * | 2014-02-10 | 2018-01-24 | 株式会社東芝 | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム |
CN106297765B (zh) * | 2015-06-04 | 2019-10-18 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
EP3625791A4 (en) | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE |
US10535344B2 (en) * | 2017-06-08 | 2020-01-14 | Microsoft Technology Licensing, Llc | Conversational system user experience |
JP6523423B2 (ja) * | 2017-12-18 | 2019-05-29 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
CN108053696A (zh) * | 2018-01-04 | 2018-05-18 | 广州阿里巴巴文学信息技术有限公司 | 一种根据阅读内容进行声音播放的方法、装置和终端设备 |
US10981073B2 (en) * | 2018-10-22 | 2021-04-20 | Disney Enterprises, Inc. | Localized and standalone semi-randomized character conversations |
US11062691B2 (en) * | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
CN110136687B (zh) * | 2019-05-20 | 2021-06-15 | 深圳市数字星河科技有限公司 | 一种基于语音训练克隆口音及声韵方法 |
CN110503991B (zh) * | 2019-08-07 | 2022-03-18 | Oppo广东移动通信有限公司 | 语音播报方法、装置、电子设备及存储介质 |
KR20210057569A (ko) * | 2019-11-12 | 2021-05-21 | 엘지전자 주식회사 | 음성 신호를 처리하는 방법 및 이를 적용한 장치 |
CN112133278B (zh) * | 2020-11-20 | 2021-02-05 | 成都启英泰伦科技有限公司 | 一种个性化语音合成模型网络训练及个性化语音合成方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319495A (ja) * | 1994-05-26 | 1995-12-08 | N T T Data Tsushin Kk | 音声合成装置のための合成単位データ生成方式及び方法 |
JP2770747B2 (ja) * | 1994-08-18 | 1998-07-02 | 日本電気株式会社 | 音声合成装置 |
JP2898568B2 (ja) | 1995-03-10 | 1999-06-02 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 声質変換音声合成装置 |
JP2880433B2 (ja) * | 1995-09-20 | 1999-04-12 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声合成装置 |
JPH1097267A (ja) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | 声質変換方法および装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
US20030028380A1 (en) * | 2000-02-02 | 2003-02-06 | Freeland Warwick Peter | Speech system |
US7412422B2 (en) * | 2000-03-23 | 2008-08-12 | Dekel Shiloh | Method and system for securing user identities and creating virtual users to enhance privacy on a communication network |
JP2001282278A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
AU2001255787A1 (en) * | 2000-05-01 | 2001-11-12 | Lifef/X Networks, Inc. | Virtual representatives for use as communications tools |
JP2003029774A (ja) | 2001-07-19 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 |
US6829581B2 (en) * | 2001-07-31 | 2004-12-07 | Matsushita Electric Industrial Co., Ltd. | Method for prosody generation by unit selection from an imitation speech database |
JP4408596B2 (ja) | 2001-08-30 | 2010-02-03 | シャープ株式会社 | 音声合成装置、声質変換装置、音声合成方法、声質変換方法、音声合成処理プログラム、声質変換処理プログラム、および、プログラム記録媒体 |
JP2003157100A (ja) * | 2001-11-22 | 2003-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声通信方法及び装置、並びに音声通信プログラム |
JP2004053833A (ja) | 2002-07-18 | 2004-02-19 | Sharp Corp | 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体 |
US20040098266A1 (en) * | 2002-11-14 | 2004-05-20 | International Business Machines Corporation | Personal speech font |
US8005677B2 (en) * | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
-
2005
- 2005-04-01 CN CN2005800150686A patent/CN1954361B/zh not_active Expired - Fee Related
- 2005-04-01 JP JP2006512928A patent/JP3913770B2/ja not_active Expired - Fee Related
- 2005-04-01 WO PCT/JP2005/006489 patent/WO2005109399A1/ja active Application Filing
- 2005-04-01 US US11/579,899 patent/US7912719B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022504002A (ja) * | 2019-10-12 | 2022-01-13 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 |
JP7146961B2 (ja) | 2019-10-12 | 2022-10-04 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声パッケージの推薦方法、装置、電子機器および記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN1954361B (zh) | 2010-11-03 |
US7912719B2 (en) | 2011-03-22 |
CN1954361A (zh) | 2007-04-25 |
US20070233489A1 (en) | 2007-10-04 |
JPWO2005109399A1 (ja) | 2007-08-02 |
WO2005109399A1 (ja) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3913770B2 (ja) | 音声合成装置および方法 | |
JP4025355B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN101131818A (zh) | 语音合成装置与方法 | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2623586B2 (ja) | 音声合成におけるピッチ制御方式 | |
JP2003337592A (ja) | 音声合成方法及び音声合成装置及び音声合成プログラム | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
WO2010050103A1 (ja) | 音声合成装置 | |
JP2007178686A (ja) | 音声変換装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP5198200B2 (ja) | 音声合成装置及び方法 | |
WO2008056604A1 (fr) | Système de collecte de son, procédé de collecte de son et programme de traitement de collecte | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
JP5275470B2 (ja) | 音声合成装置およびプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20070124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070131 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3913770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110209 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120209 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130209 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140209 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |