JP6983271B2 - 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents
音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP6983271B2 JP6983271B2 JP2020068909A JP2020068909A JP6983271B2 JP 6983271 B2 JP6983271 B2 JP 6983271B2 JP 2020068909 A JP2020068909 A JP 2020068909A JP 2020068909 A JP2020068909 A JP 2020068909A JP 6983271 B2 JP6983271 B2 JP 6983271B2
- Authority
- JP
- Japan
- Prior art keywords
- hidden state
- phoneme
- level
- training
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000002194 synthesizing effect Effects 0.000 title claims description 40
- 230000015572 biosynthetic process Effects 0.000 claims description 125
- 238000003786 synthesis reaction Methods 0.000 claims description 125
- 238000012549 training Methods 0.000 claims description 67
- 238000005070 sampling Methods 0.000 claims description 66
- 230000000306 recurrent effect Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
Claims (22)
- 音声を並行して合成する方法であって、
セグメント分割モジュールが、一つのテキストを複数のセグメントに分割するステップと、
隠れ状態取得モジュールが、前記一つのテキストに基づいて、前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップと、
音声並行合成モジュールが、前記複数の初期隠れ状態及び前記複数のセグメントの入力特徴に基づいて、前記複数のセグメントを並行して合成するステップと、を含むことを特徴とする、音声を並行して合成する方法。 - 前記複数のセグメントの各セグメントは、音素、音節、及び韻律語のいずれか一つであり、
音声並行合成モジュールが前記複数のセグメントを並行して合成するステップは、
音声シリアル合成モジュールが、各セグメントの初期隠れ状態及び入力特徴に基づいて、各セグメントを自己回帰的にシリアルに合成するステップを含むことを特徴とする、請求項1に記載の方法。 - 隠れ状態取得モジュールが前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するステップは、
音素レベル入力特徴決定モジュールが、前記複数のセグメントにおける各セグメントの音素レベルの入力特徴を決定するステップと、
隠れ状態予測モジュールが、各セグメントの音素レベルの入力特徴に基づいて、トレーニングされた隠れ状態予測モデルを用いて各セグメントの初期隠れ状態を予測するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 音声並行合成モジュールが前記複数のセグメントを並行して合成するステップは、
フレームレベル入力特徴決定モジュールが、前記複数のセグメントの各セグメントのフレームレベルの入力特徴を決定するステップと、
サンプリングポイントレベル特徴取得モジュールが、前記フレームレベルの入力特徴に基づいて、音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するステップと、
セグメント合成モジュールが、各セグメントの初期隠れ状態及び前記サンプリングポイントレベルの特徴に基づいて、リカレントニューラルネットワークに基づく音声合成モデルを用いて各セグメントを合成するステップと、を含むことを特徴とする、請求項3に記載の方法。 - サンプリングポイントレベル特徴取得モジュールが音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するステップは、
アップサンプリング繰り返しモジュールが、アップサンプリングを繰り返すことにより、前記サンプリングポイントレベルの特徴を取得するステップを含むことを特徴とする、請求項4に記載の方法。 - 前記方法は、
音声合成モデルトレーニングモジュールが、トレーニングデータを用いて、リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするステップと、
隠れ状態予測モデルトレーニングモジュールが、前記トレーニングデータ及びトレーニングされた前記音声合成モデルを用いて隠れ状態予測モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の方法。 - 音声合成モデルトレーニングモジュールが前記リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするステップは、
第1の取得モジュールが、前記トレーニングデータにおけるトレーニングテキストのフレームレベルの入力特徴及び対応するトレーニング音声の音声サンプリングポイントを取得するステップであって、前記フレームレベルの入力特徴は、音素コンテキスト、韻律コンテキスト、フレーム位置、及び基本周波数の少なくとも1つを含むステップと、
第1のトレーニングモジュールが、前記トレーニングテキストの前記フレームレベルの入力特徴及び前記トレーニング音声の前記音声サンプリングポイントを用いて、前記音声合成モデルをトレーニングするステップと、を含むことを特徴とする、請求項6に記載の方法。 - 隠れ状態予測モデルトレーニングモジュールが前記隠れ状態予測モデルをトレーニングするステップは、
第2の取得モジュールが、前記トレーニングテキストの音素レベルの入力特徴を取得するステップであって、前記音素レベルの入力特徴は、音素コンテキスト及び韻律コンテキストの少なくとも1つを含むステップと、
第3の取得モジュールが、トレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するステップと、
第2のトレーニングモジュールが、前記音素レベルの入力特徴及び前記音素レベルの隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするステップと、を含むことを特徴とする、請求項7に記載の方法。 - 第2のトレーニングモジュールが前記隠れ状態予測モデルをトレーニングするステップは、
隠れ状態クラスター化モジュールが、前記音素レベルの隠れ状態をクラスター化して音素レベルのクラスター化隠れ状態を生成するステップと、
第3のトレーニングモジュールが、前記音素レベルの入力特徴及び前記音素レベルのクラスター化隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項8に記載の方法。 - 第3の取得モジュールがトレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するステップは、
音素レベル隠れ状態決定モジュールが、各音素に対応する複数のサンプリングポイントのうちの1番目のサンプリングポイントの初期隠れ状態を各音素の音素レベルの隠れ状態として決定するステップを含むことを特徴とする、請求項8に記載の方法。 - 音声を並行して合成する装置であって、
一つのテキストを複数のセグメントに分割するように構成されるセグメント分割モジュールと、
前記一つのテキストに基づいて、前記複数のセグメントの、リカレントニューラルネットワークに用いられる複数の初期隠れ状態を取得するように構成される隠れ状態取得モジュールと、
前記複数の初期隠れ状態及び前記複数のセグメントの入力特徴に基づいて、前記複数のセグメントを並行して合成するように構成される音声並行合成モジュールと、を含むことを特徴とする、音声を並行して合成する装置。 - 前記複数のセグメントの各セグメントは、音素、音節、及び韻律語のいずれか一つであり、
前記音声並行合成モジュールは、
各セグメントの初期隠れ状態及び入力特徴に基づいて、各セグメントを自己回帰的にシリアルに合成するように構成される音声シリアル合成モジュールを含むことを特徴とする、請求項11に記載の装置。 - 前記隠れ状態取得モジュールは、
前記複数のセグメントの各セグメントの音素レベルの入力特徴を決定するように構成される音素レベル入力特徴決定モジュールと、
各セグメントの音素レベルの入力特徴に基づいて、トレーニングされた隠れ状態予測モデルを用いて各セグメントの初期隠れ状態を予測するように構成される隠れ状態予測モデルと、を含むことを特徴とする、請求項11に記載の装置。 - 前記音声並行合成モジュールは、
前記複数のセグメントの各セグメントのフレームレベルの入力特徴を決定するように構成されるフレームレベル入力特徴決定モジュールと、
前記フレームレベルの入力特徴に基づいて、音響条件モデルを用いてサンプリングポイントレベルの特徴を取得するように構成されるサンプリングポイントレベル特徴取得モジュールと、
各セグメントの初期隠れ状態及び前記サンプリングポイントレベルの特徴に基づいて、リカレントニューラルネットワークに基づく音声合成モデルを用いて各セグメントを合成するように構成されるセグメント合成モジュールと、を含むことを特徴とする、請求項13に記載の装置。 - 前記サンプリングポイントレベル特徴取得モジュールは、
アップサンプリングを繰り返すことにより、前記サンプリングポイントレベルの特徴を取得するように構成されるアップサンプリング繰り返しモジュールを含むことを特徴とする、請求項14に記載の装置。 - 前記装置は、
トレーニングデータを用いて、リカレントニューラルネットワークに基づく音声合成モデルをトレーニングするように構成される音声合成モデルトレーニングモジュールと、
前記トレーニングデータ及びトレーニングされた前記音声合成モデルを用いて隠れ状態予測モデルをトレーニングするように構成される隠れ状態予測モデルトレーニングモジュールと、をさらに含むことを特徴とする、請求項11に記載の装置。 - 前記音声合成モデルトレーニングモジュールは、
前記トレーニングデータにおけるトレーニングテキストのフレームレベルの入力特徴及び対応するトレーニング音声の音声サンプリングポイントを取得するように構成される第1の取得モジュールであって、前記フレームレベルの入力特徴は、音素コンテキスト、韻律コンテキスト、フレーム位置、及び基本周波数の少なくとも1つを含む第1の取得モジュールと、
前記トレーニングテキストの前記フレームレベルの入力特徴及び前記トレーニング音声の前記音声サンプリングポイントを用いて、前記音声合成モデルをトレーニングするように構成される第1のトレーニングモジュールと、を含むことを特徴とする、請求項16に記載の装置。 - 前記隠れ状態予測モデルトレーニングモジュールは、
前記トレーニングテキストの音素レベルの入力特徴を取得するように構成される第2の取得モジュールであって、前記音素レベルの入力特徴は、音素コンテキスト及び韻律コンテキストの少なくとも1つを含む第2の取得モジュールと、
トレーニングされた前記音声合成モデルから各音素の音素レベルの隠れ状態を取得するように構成される第3の取得モジュールと、
前記音素レベルの入力特徴及び前記音素レベルの隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするように構成される第2のトレーニングモジュールと、を含むことを特徴とする、請求項17に記載の装置。 - 前記第2のトレーニングモジュールは、
前記音素レベルの隠れ状態をクラスター化して音素レベルのクラスター化隠れ状態を生成するように構成される隠れ状態クラスター化モジュールと、
前記音素レベルの入力特徴及び前記音素レベルのクラスター化隠れ状態を用いて前記隠れ状態予測モデルをトレーニングするように構成される第3のトレーニングモジュールと、を含むことを特徴とする、請求項18に記載の装置。 - 前記第3の取得モジュールは、
各音素に対応する複数のサンプリングポイントのうちの1番目のサンプリングポイントの初期隠れ状態を各音素の音素レベルの隠れ状態として決定するように構成される音素レベル隠れ状態決定モジュールを含むことを特徴とする、請求項18に記載の装置。 - 一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するためのメモリと、を含む電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記電子機器が請求項1から10のいずれかに記載の方法を実現することを特徴とする、電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行される場合、請求項1から10のいずれかに記載の方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910569448.8A CN112151003A (zh) | 2019-06-27 | 2019-06-27 | 并行语音合成方法、装置、设备以及计算机可读存储介质 |
CN201910569448.8 | 2019-06-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021006897A JP2021006897A (ja) | 2021-01-21 |
JP6983271B2 true JP6983271B2 (ja) | 2021-12-17 |
Family
ID=73868783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020068909A Active JP6983271B2 (ja) | 2019-06-27 | 2020-04-07 | 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11289068B2 (ja) |
JP (1) | JP6983271B2 (ja) |
CN (1) | CN112151003A (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112885327B (zh) * | 2021-01-21 | 2024-07-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112951202B (zh) * | 2021-03-11 | 2022-11-08 | 北京嘀嘀无限科技发展有限公司 | 语音合成方法、装置、电子设备以及程序产品 |
CN112951203B (zh) * | 2021-04-25 | 2023-12-29 | 平安创科科技(北京)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113361712B (zh) * | 2021-06-30 | 2023-07-21 | 北京百度网讯科技有限公司 | 特征确定模型的训练方法、语义分析方法、装置及电子设备 |
CN113838452B (zh) * | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113903358B (zh) * | 2021-10-15 | 2022-11-04 | 贝壳找房(北京)科技有限公司 | 语音质检方法、可读存储介质及计算机程序产品 |
CN114187890A (zh) * | 2021-12-31 | 2022-03-15 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机可读存储介质及终端设备 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6704699B2 (en) * | 2000-09-05 | 2004-03-09 | Einat H. Nir | Language acquisition aide |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
US20150364127A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Advanced recurrent neural network based letter-to-sound |
ES2738319T3 (es) * | 2014-09-12 | 2020-01-21 | Microsoft Technology Licensing Llc | Sistema informático para entrenar redes neuronales |
US11080587B2 (en) * | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
WO2017201507A1 (en) * | 2016-05-20 | 2017-11-23 | Google Llc | Memory-efficient backpropagation through time |
US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
US11069335B2 (en) * | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
US20180129937A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network |
US10839790B2 (en) * | 2017-02-06 | 2020-11-17 | Facebook, Inc. | Sequence-to-sequence convolutional architecture |
JP7112075B2 (ja) * | 2017-08-07 | 2022-08-03 | 国立研究開発法人情報通信研究機構 | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 |
JP7209275B2 (ja) * | 2017-08-31 | 2023-01-20 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) * | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10971170B2 (en) * | 2018-08-08 | 2021-04-06 | Google Llc | Synthesizing speech from text using neural networks |
CN109859736B (zh) * | 2019-01-23 | 2021-05-25 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
-
2019
- 2019-06-27 CN CN201910569448.8A patent/CN112151003A/zh active Pending
-
2020
- 2020-04-07 JP JP2020068909A patent/JP6983271B2/ja active Active
- 2020-05-14 US US16/874,585 patent/US11289068B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN112151003A (zh) | 2020-12-29 |
US20200410979A1 (en) | 2020-12-31 |
JP2021006897A (ja) | 2021-01-21 |
US11289068B2 (en) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6983271B2 (ja) | 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
EP4007997B1 (en) | Controlling expressivity in end-to-end speech synthesis systems | |
CN109036371B (zh) | 用于语音合成的音频数据生成方法及系统 | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
Blaauw et al. | A neural parametric singing synthesizer | |
KR102057927B1 (ko) | 음성 합성 장치 및 그 방법 | |
US20220392430A1 (en) | System Providing Expressive and Emotive Text-to-Speech | |
Kaur et al. | Conventional and contemporary approaches used in text to speech synthesis: A review | |
CN113744755A (zh) | 一种从音频信号生成语音动画的装置及方法 | |
US20230018384A1 (en) | Two-Level Text-To-Speech Systems Using Synthetic Training Data | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
CN117859173A (zh) | 利用基于语音合成的模型适配改进语音识别 | |
CN117133270B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Li et al. | Phoneme Embedding and its Application to Speech Driven Talking Avatar Synthesis. | |
CN117355840A (zh) | 正则化词分割 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR20240014257A (ko) | 합성 음성을 생성하는 방법 및 음성 합성 시스템 | |
KR20240014251A (ko) | 음성의 속도 및 피치를 변경하는 방법 및 음성 합성 시스템 | |
KR20240068699A (ko) | 마스크킹된 음성 모델링을 위한 안내 데이터 선택 | |
CN115346510A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
JP2021056326A (ja) | 音声合成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6983271 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |