JP5119700B2 - 韻律修正装置、韻律修正方法、および、韻律修正プログラム - Google Patents
韻律修正装置、韻律修正方法、および、韻律修正プログラム Download PDFInfo
- Publication number
- JP5119700B2 JP5119700B2 JP2007073082A JP2007073082A JP5119700B2 JP 5119700 B2 JP5119700 B2 JP 5119700B2 JP 2007073082 A JP2007073082 A JP 2007073082A JP 2007073082 A JP2007073082 A JP 2007073082A JP 5119700 B2 JP5119700 B2 JP 5119700B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- real voice
- prosody
- regular
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004048 modification Effects 0.000 title claims abstract description 207
- 238000012986 modification Methods 0.000 title claims abstract description 201
- 238000002715 modification method Methods 0.000 title claims description 8
- 238000004364 calculation method Methods 0.000 claims description 152
- 238000012937 correction Methods 0.000 claims description 149
- 238000001514 detection method Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 39
- 238000009499 grossing Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 22
- 238000013459 approach Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 description 66
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 18
- 230000033764 rhythmic process Effects 0.000 description 18
- 230000008859 change Effects 0.000 description 12
- 235000016496 Panda oleosa Nutrition 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 102100024237 Stathmin Human genes 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001417093 Moridae Species 0.000 description 1
- 108050003387 Stathmin Proteins 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
- Auxiliary Devices For Music (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
図1は、本実施形態に係る韻律修正システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム1は、韻律抽出装置2、および、韻律修正装置3を備えている。
韻律修正装置3は、肉声韻律入力部31、修正区間決定部32、話速検出部33、規則韻律生成部34、肉声韻律修正部35、および、肉声韻律出力部36を備えている。
次に、上記の構成に係る韻律修正装置3の動作について、図7を参照しながら説明する。
図9は、本実施形態に係る韻律修正システム10の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム10は、図1に示す韻律修正装置3の代わりに、韻律修正装置4を備えている。なお、図9において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律修正装置4は、図1に示す話速検出部33および肉声韻律修正部35の代わりに、話速比検出部41および肉声韻律修正部42を備えている。なお、上記の話速比検出部41および肉声韻律修正部42は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
次に、上記の構成に係る韻律修正装置4の動作について、図10を参照しながら説明する。なお、図10において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図11は、本実施形態に係る韻律修正システム11の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム11は、図1に示す韻律修正装置3の代わりに、韻律修正装置5を備えている。なお、図11において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律修正装置5は、図1に示す話速検出部33および肉声韻律修正部35の代わりに、話速比検出部51および肉声韻律修正部52を備えている。なお、上記の話速比検出部51および肉声韻律修正部52は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
次に、上記の構成に係る韻律修正装置5の動作について、図17を参照しながら説明する。なお、図17において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図18は、本実施形態に係る韻律修正システム12の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム12は、図9に示す韻律修正装置4の代わりに、韻律修正装置6を備えている。なお、図18において、図9と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図18に示す話速比検出部41は、各構成部材41a〜41gの図示を省略している。さらに、図18に示す肉声韻律修正部42は、音素境界再設定部42aの図示を省略している。
図19は、本実施形態に係る韻律修正システム13の概略構成を示すブロック図である。すなわち、本実施形態に係る韻律修正システム13は、図1に示す韻律修正システム1に加えて、GUI(Graphical User Interface)装置7、および、音声合成装置8を備えている。なお、図19において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図19に示す韻律修正装置3は、各構成部材32〜36の図示を省略している。さらに、上記のGUI装置7および音声合成装置8は、図5に示す韻律修正システム1a、図6に示す韻律修正システム1b、図9に示す韻律修正システム10、図11に示す韻律修正システム11、および、図18に示す韻律修正システム12に備えられていても良い。
人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成部と、
前記規則韻律生成部が生成した規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正部とを備える、韻律修正装置。
前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類、または、前記肉声音素境界によって定められる各々の音素の肉声音素長に基づいて決定する修正区間決定部をさらに備える、付記1に記載の韻律修正装置。
前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、付記1または2に記載の韻律修正装置。
前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長、および、前記肉声韻律情報の話速と前記規則韻律情報の話速との比である話速比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、付記1または2に記載の韻律修正装置。
前記肉声韻律情報中で修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲において、前記肉声音素境界によって定められる各々の音素の肉声音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、前記修正対象となる各々の音素に対する肉声韻律情報の話速を算出し、かつ、前記規則音素境界によって定められる各々の音素の規則音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出し、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する話速比検出部をさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比検出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、付記4に記載の韻律修正装置。
前記肉声韻律情報中で修正対象となる音素または音素列の区間において、前記肉声音素境界によって定められる各々の音素の肉声音素長と、前記規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する音素長比算出部と、
前記音素長比算出部により算出された各々の音素長比を平滑化することにより、前記肉声韻律情報の話速と前記規則韻律情報の話速との比を話速比として算出する話速比算出部とをさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比算出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、付記4に記載の韻律修正装置。
前記肉声韻律入力部が受け付けた肉声韻律情報または前記肉声韻律修正部により修正された肉声韻律情報を格納する肉声韻律記憶部と、
前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値以上である場合、前記肉声韻律修正部により修正された肉声韻律情報を前記肉声韻律記憶部に書き込み、前記肉声韻律修正部に対して、前記肉声韻律情報を修正するように指示を出力し、かつ、前記肉声韻律修正部により修正された肉声韻律情報の肉声音素長と、当該肉声韻律情報が修正される前の前記肉声韻律記憶部に格納されている肉声韻律情報の肉声音素長との差分が閾値未満である場合、前記肉声韻律修正部により修正された肉声韻律情報を出力する収束判定部とを備える、付記1〜6のいずれか一項に記載の韻律修正装置。
付記1〜7のいずれか一項に記載の韻律修正装置により修正された肉声韻律情報を編集させる、GUI装置。
付記1〜7のいずれか一項に記載の韻律修正装置により修正された肉声韻律情報、または、付記8に記載のGUI装置により編集された肉声韻律情報に基づいて生成された合成音声を出力する、音声合成装置。
付記1〜8のいずれか一項に記載の韻律修正装置と、
付記8に記載のGUI装置および付記9に記載の音声合成装置の少なくとも1つとを備える、韻律修正システム。
コンピュータが備える肉声韻律入力部が、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力工程と、
前記コンピュータが備える規則韻律生成部が、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成工程と、
前記コンピュータが備える肉声韻律修正部が、前記規則韻律生成工程で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正工程とを含む、韻律修正方法。
人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力処理と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成処理と、
前記規則韻律生成処理で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正処理とをコンピュータに実行させる、韻律修正プログラム。
3、4、5、6 韻律修正装置
7 GUI装置
8 音声合成装置
31 肉声韻律入力部
32 修正区間決定部
34 規則韻律生成部
35、38、42、52 肉声韻律修正部
35a 規則音素長比算出部
35b、38a、42a、52a 音素境界再設定部
37、41、51 話速比検出部
37a、41c 肉声総音素長算出部
37b、41e 規則総音素長算出部
37c 話速比算出部
41a 話速算出範囲設定部
41b 拍数計数部
41d 肉声話速算出部
41f 規則話速算出部
41g 話速比算出部
51a 音素長比算出部
51b 平滑化範囲設定部
51c 話速比算出部
61 肉声韻律記憶部
62 収束判定部
Claims (7)
- 人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力部と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成部と、
前記規則韻律生成部が生成した規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正部と、
前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定部と、を備える、韻律修正装置。 - 前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則音素境界によって定められる各々の音素の規則音素長の比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、請求項1に記載の韻律修正装置。 - 前記肉声韻律修正部は、
前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長、および、前記肉声韻律情報の話速と前記規則韻律情報の話速との比である話速比に基づいて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する音素境界再設定部を含む、請求項1に記載の韻律修正装置。 - 前記肉声韻律情報中で修正対象となる音素を含む少なくとも1音素または1拍以上からなる話速算出範囲において、前記肉声音素境界によって定められる各々の音素の肉声音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、前記修正対象となる各々の音素に対する肉声韻律情報の話速を算出し、かつ、前記規則音素境界によって定められる各々の音素の規則音素長の総和、および、当該話速算出範囲内の音素数または拍数に基づいて、修正対象となる各々の音素に対する規則韻律情報の話速を算出し、肉声韻律情報の話速と規則韻律情報の話速との比を話速比として算出する話速比検出部をさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比検出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長となるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、請求項3に記載の韻律修正装置。 - 前記肉声韻律情報中で修正対象となる音素または音素列の区間において、前記肉声音素境界によって定められる各々の音素の肉声音素長と、前記規則音素境界によって定められる各々の音素の規則音素長との比を、各々の音素の音素長比として算出する音素長比算出部と、
前記音素長比算出部により算出された各々の音素長比を平滑化することにより、前記肉声韻律情報の話速と前記規則韻律情報の話速との比を話速比として算出する話速比算出部とをさらに備え、
前記音素境界再設定部は、前記修正対象となる音素または音素列の区間において、前記規則韻律情報の各々の音素の規則音素長と、前記話速比算出部により算出された話速比とに基づいて修正音素長を算出し、当該修正音素長が前記区間における各々の肉声音素長と
なるように、前記肉声韻律情報の肉声音素境界を再設定し、前記肉声韻律情報を修正する、請求項3に記載の韻律修正装置。 - コンピュータが備える肉声韻律入力部が、人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力工程と、
前記コンピュータが備える規則韻律生成部が、前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成工程と、
前記コンピュータが備える肉声韻律修正部が、前記規則韻律生成工程で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正工程と、
前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定工程と、を含む、韻律修正方法。 - 人間の発声から抽出された肉声韻律情報を受け付ける肉声韻律入力処理と、
前記肉声韻律情報中で修正対象となる音素または音素列を少なくとも含む区間に対して、人間の発声における規則的または統計的な音素長を表すデータを用いることにより、音素間の境界および音素の規則音素長を定める規則音素境界を持つ規則韻律情報を生成する規則韻律生成処理と、
前記規則韻律生成処理で生成された規則韻律情報を用いて、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界および肉声音素長が、実際の前記人間の発声の音素境界および音素長に近づくように、前記肉声韻律情報中の修正対象となる音素または音素列の肉声音素境界を再設定し、前記肉声韻律情報を修正する肉声韻律修正処理と、
前記肉声韻律情報中で修正対象となる音素または音素列の区間を、前記肉声韻律情報の音素並びの種類に基づいて決定する修正区間決定処理と、をコンピュータに実行させる、韻律修正プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007073082A JP5119700B2 (ja) | 2007-03-20 | 2007-03-20 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
US12/029,316 US8433573B2 (en) | 2007-03-20 | 2008-02-11 | Prosody modification device, prosody modification method, and recording medium storing prosody modification program |
CN2008100867410A CN101271688B (zh) | 2007-03-20 | 2008-03-20 | 韵律修改装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007073082A JP5119700B2 (ja) | 2007-03-20 | 2007-03-20 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233542A JP2008233542A (ja) | 2008-10-02 |
JP5119700B2 true JP5119700B2 (ja) | 2013-01-16 |
Family
ID=39775644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007073082A Expired - Fee Related JP5119700B2 (ja) | 2007-03-20 | 2007-03-20 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8433573B2 (ja) |
JP (1) | JP5119700B2 (ja) |
CN (1) | CN101271688B (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5029168B2 (ja) * | 2007-06-25 | 2012-09-19 | 富士通株式会社 | 音声読み上げのための装置、プログラム及び方法 |
JP5130809B2 (ja) * | 2007-07-13 | 2013-01-30 | ヤマハ株式会社 | 楽曲を制作するための装置およびプログラム |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
JP5282469B2 (ja) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US9484019B2 (en) * | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
JP5516192B2 (ja) * | 2010-07-28 | 2014-06-11 | 富士通株式会社 | モデル作成装置、モデル作成プログラムおよびモデル作成方法 |
CN102063898B (zh) * | 2010-09-27 | 2012-09-26 | 北京捷通华声语音技术有限公司 | 韵律短语预测方法 |
JP5728913B2 (ja) * | 2010-12-02 | 2015-06-03 | ヤマハ株式会社 | 音声合成情報編集装置およびプログラム |
JP5593244B2 (ja) * | 2011-01-28 | 2014-09-17 | 日本放送協会 | 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体 |
US9508329B2 (en) * | 2012-11-20 | 2016-11-29 | Huawei Technologies Co., Ltd. | Method for producing audio file and terminal device |
US20140278403A1 (en) * | 2013-03-14 | 2014-09-18 | Toytalk, Inc. | Systems and methods for interactive synthetic character dialogue |
JP6261924B2 (ja) * | 2013-09-17 | 2018-01-17 | 株式会社東芝 | 韻律編集装置、方法およびプログラム |
CN104021784B (zh) * | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
WO2016043322A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社コティレドン・テクノロジー | 音声合成方法、プログラム及び装置 |
JP2016080827A (ja) * | 2014-10-15 | 2016-05-16 | ヤマハ株式会社 | 音韻情報合成装置および音声合成装置 |
CN106980624B (zh) * | 2016-01-18 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
CN109727592A (zh) * | 2017-10-31 | 2019-05-07 | 上海幻电信息科技有限公司 | 基于自然语言语音交互的运维指令执行方法、介质及终端 |
US10418025B2 (en) * | 2017-12-06 | 2019-09-17 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
US12080272B2 (en) * | 2019-12-10 | 2024-09-03 | Google Llc | Attention-based clockwork hierarchical variational encoder |
US11830481B2 (en) * | 2021-11-30 | 2023-11-28 | Adobe Inc. | Context-aware prosody correction of edited speech |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
JPH07140996A (ja) | 1993-11-16 | 1995-06-02 | Fujitsu Ltd | 音声規則合成装置 |
JP3563772B2 (ja) * | 1994-06-16 | 2004-09-08 | キヤノン株式会社 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
JPH08171394A (ja) * | 1994-12-19 | 1996-07-02 | Fujitsu Ltd | 音声合成装置 |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
JPH09292897A (ja) | 1996-04-26 | 1997-11-11 | Sanyo Electric Co Ltd | 音声合成装置 |
US6029131A (en) * | 1996-06-28 | 2000-02-22 | Digital Equipment Corporation | Post processing timing of rhythm in synthetic speech |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US6006187A (en) * | 1996-10-01 | 1999-12-21 | Lucent Technologies Inc. | Computer prosody user interface |
JPH11143483A (ja) | 1997-08-15 | 1999-05-28 | Hiroshi Kurita | 音声発生システム |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP2001306087A (ja) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
JP3701850B2 (ja) * | 2000-09-19 | 2005-10-05 | 日本放送協会 | 音声言語の韻律表示装置および記録媒体 |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
JP3846300B2 (ja) * | 2001-12-14 | 2006-11-15 | オムロン株式会社 | 録音原稿作成装置および方法 |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
JP4225128B2 (ja) * | 2003-06-13 | 2009-02-18 | ソニー株式会社 | 規則音声合成装置及び規則音声合成方法 |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
JP4792703B2 (ja) * | 2004-02-26 | 2011-10-12 | 株式会社セガ | 音声解析装置、音声解析方法及び音声解析プログラム |
KR100590553B1 (ko) * | 2004-05-21 | 2006-06-19 | 삼성전자주식회사 | 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템 |
WO2005119650A1 (ja) * | 2004-06-04 | 2005-12-15 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US7558389B2 (en) * | 2004-10-01 | 2009-07-07 | At&T Intellectual Property Ii, L.P. | Method and system of generating a speech signal with overlayed random frequency signal |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
US7742921B1 (en) * | 2005-09-27 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | System and method for correcting errors when generating a TTS voice |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
GB2444539A (en) * | 2006-12-07 | 2008-06-11 | Cereproc Ltd | Altering text attributes in a text-to-speech converter to change the output speech characteristics |
US8438032B2 (en) * | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
CN101606190B (zh) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
-
2007
- 2007-03-20 JP JP2007073082A patent/JP5119700B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-11 US US12/029,316 patent/US8433573B2/en active Active
- 2008-03-20 CN CN2008100867410A patent/CN101271688B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080235025A1 (en) | 2008-09-25 |
CN101271688B (zh) | 2011-07-20 |
US8433573B2 (en) | 2013-04-30 |
JP2008233542A (ja) | 2008-10-02 |
CN101271688A (zh) | 2008-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5119700B2 (ja) | 韻律修正装置、韻律修正方法、および、韻律修正プログラム | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
US7962341B2 (en) | Method and apparatus for labelling speech | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP5029884B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
CN107610691B (zh) | 英语元音发声纠错方法及装置 | |
JP4744338B2 (ja) | 合成音声生成装置 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP3846300B2 (ja) | 録音原稿作成装置および方法 | |
JP6756607B2 (ja) | アクセント型判定装置及びプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
JP2018041116A (ja) | 音声合成装置、音声合成方法およびプログラム | |
KR101348906B1 (ko) | 음성 합성기의 화속변경방법 | |
JP5012444B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
Cahyaningtyas et al. | Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System | |
JP2001228890A (ja) | 音声認識装置 | |
Wang et al. | Improved generation of prosodic features in HMM-based Mandarin speech synthesis | |
JPH05224690A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110701 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120626 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120925 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121008 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5119700 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |