JP6724932B2 - 音声合成方法、音声合成システムおよびプログラム - Google Patents
音声合成方法、音声合成システムおよびプログラム Download PDFInfo
- Publication number
- JP6724932B2 JP6724932B2 JP2018002451A JP2018002451A JP6724932B2 JP 6724932 B2 JP6724932 B2 JP 6724932B2 JP 2018002451 A JP2018002451 A JP 2018002451A JP 2018002451 A JP2018002451 A JP 2018002451A JP 6724932 B2 JP6724932 B2 JP 6724932B2
- Authority
- JP
- Japan
- Prior art keywords
- harmonic
- amplitude
- distribution
- frequency
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 16
- 238000003786 synthesis reaction Methods 0.000 title claims description 16
- 238000001308 synthesis method Methods 0.000 title claims description 15
- 238000009826 distribution Methods 0.000 claims description 308
- 238000001228 spectrum Methods 0.000 claims description 225
- 238000000034 method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 15
- 230000008901 benefit Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 206010013952 Dysphonia Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 208000027498 hoarse voice Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/04—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
- G10H1/053—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
- G10H1/057—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
- G10H1/0575—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits using a data store from which the envelope is synthesized
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
- G10H2250/481—Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
Description
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声(以下「合成音声」という)を合成する歌唱合成装置であり、図1に例示される通り、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用される。
本発明の第2実施形態を説明する。以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図6は、第3実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。図6に例示される通り、第3実施形態の第1学習済モデル32には制御データCa_nが供給される。第t番目の単位期間(第1単位期間の例示)における各調波成分の制御データCa_nは、第1実施形態と制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、直前に位置する第(t-1)番目の単位期間(第2単位期間の例示)について第1学習済モデル32が特定した調波振幅分布Da_nを包含する。すなわち、各単位期間について特定された調波振幅分布Da_nが、直後の単位期間の調波振幅分布Da_nを算定するための入力として帰還される。第3実施形態の第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと直前の調波振幅分布Da_nとを含む制御データCa_nと、調波振幅分布Da_nとの間の関係を学習した統計的予測モデルである。
図7は、第4実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。図7に例示される通り、第4実施形態の第1学習済モデル32には制御データCa_nが供給される。第n番目の調波成分(第1調波成分の例示)の制御データCa_nは、第1実施形態の制御データC_nと同様の要素(調波周波数H_n,振幅スペクトル包絡Eaおよび目標声質X)に加えて、周波数軸上で当該調波成分に隣合う第(n-1)番目の調波成分(第2調波成分の例示)について第1学習済モデル32が特定した調波振幅分布Da_n-1を包含する。すなわち、第4実施形態の第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xと他の調波成分の調波振幅分布Da_n-1とを含む制御データCa_nと、調波振幅分布Da_nとの間の関係を学習した統計的予測モデルである。
図8は、第5実施形態における制御装置11の機能的な構成を部分的に例示するブロック図である。第1学習済モデル32に対する入力および出力は第1実施形態と同様である。すなわち、第1学習済モデル32は、調波周波数H_nと振幅スペクトル包絡Eaと目標声質Xとを含む制御データC_nに応じた調波振幅分布Da_nを出力する。
第1実施形態から第5実施形態では、1個の単位期間における調波周波数H_nを第1学習済モデル32および第2学習済モデル33に付与した。例えば1個の音符の発音期間内において調波周波数H_nが経時的に変化するという傾向を考慮すると、任意の1個の単位期間における制御データC_nに、当該単位期間における調波周波数H_nに加えて、当該単位期間の前後の単位期間における調波周波数H_nを含めた構成も好適である。すなわち、第6実施形態の制御データC_nは、調波周波数H_nの時間的な変化を表す。
(1)第t番目の単位期間における当該調波成分の調波周波数H_nと、
(2)第t番目以外の単位期間(典型的には直前または直後の単位期間)における当該調波成分の調波周波数H_n、または、第t番目の単位期間の前後における当該調波周波数H_nの変化量とを含む。なお、第2実施形態から第5実施形態の構成を第6実施形態に適用してもよい。
図9は、第7実施形態における制御装置11の機能的な構成を例示するブロック図である。図9に例示される通り、第7実施形態の調波処理部21は、第1実施形態における第1学習済モデル32および第2学習済モデル33を振幅特定部41および位相特定部42に置換した構成である。制御データ生成部31が振幅スペクトル包絡Eaと位相スペクトル包絡EpとN個の制御データC_1〜C_Nとを生成する動作は第1実施形態と同様である。
第8実施形態の音声合成装置100の構成は第7実施形態と同様である。すなわち、第8実施形態の調波処理部21は、図9の例示と同様に、制御データ生成部31と振幅特定部41と位相特定部42と周波数スペクトル生成部34とを具備する。
第9実施形態の音声合成装置100の構成は第7実施形態と同様である。すなわち、第9実施形態の調波処理部21は、図9の例示と同様に、制御データ生成部31と振幅特定部41と位相特定部42と周波数スペクトル生成部34とを具備する。第9実施形態では、振幅特定部41が各調波成分の調波振幅分布Da_nを特定する動作が第7実施形態とは相違する。
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
Claims (15)
- 複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
コンピュータにより実現される音声合成方法。 - 前記調波振幅分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波振幅分布との間の関係を学習した第1学習済モデルにより、前記調波振幅分布を特定する
請求項1の音声合成方法。 - 前記複数の調波振幅分布を単位期間毎に特定し、
前記制御データは、第1単位期間における各調波成分の調波振幅分布を特定するためのデータであり、前記第1単位期間の直前の第2単位期間において当該調波成分について特定された調波振幅分布を含む
請求項2の音声合成方法。 - 前記制御データは、前記複数の調波成分のうち第1調波成分の調波振幅分布を特定するためのデータであり、周波数軸上で前記第1調波成分に隣合う第2調波成分について特定された調波振幅分布を含む
請求項2または請求項3の音声合成方法。 - 前記複数の調波振幅分布を単位期間毎に特定し、
前記制御データは、一の単位期間における各調波成分の調波振幅分布を特定するためのデータであり、
前記一の単位期間における当該調波成分の調波周波数と、
前記一の単位期間以外の単位期間における当該調波成分の調波周波数、または、前記一の単位期間の前後における当該調波周波数の変化量とを含む
請求項2の音声合成方法。 - 前記複数の調波成分の各々について、前記目標声質と、前記振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、前記単位帯域内の位相の分布である調波位相分布を特定し、
前記振幅スペクトル包絡および位相スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布および複数の調波位相分布とから、前記目標声質の音声の周波数スペクトルを生成する
請求項2から請求項5の何れかの音声合成方法。 - 前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データと調波位相分布との間の関係を学習した第2学習済モデルにより、前記調波位相分布を特定する
請求項6の音声合成方法。 - 前記調波位相分布の特定においては、目標声質と調波周波数と振幅スペクトル包絡と、前記第1学習済モデルにより特定された調波振幅分布とから、前記第2学習済モデルにより前記調波位相分布を特定する
請求項7の音声合成方法。 - 前記位相スペクトル包絡は、前記振幅スペクトル包絡から算定される
請求項6から請求項8の何れかの音声合成方法。 - 前記調波振幅分布の特定においては、前記単位帯域内の振幅の分布を示す形状データを、目標声質と調波周波数と振幅スペクトル包絡とを含む制御データに対応させて記憶する記憶装置から、前記複数の調波成分の各々の制御データに対応する形状データを取得し、当該形状データから前記調波成分の調波振幅分布を特定する
請求項1の音声合成方法。 - 前記調波振幅分布の特定においては、前記記憶装置に記憶された複数の形状データの補間により、前記複数の調波成分の各々について調波振幅分布を特定する
請求項10の音声合成方法。 - 前記形状データは、前記単位帯域における非調波成分の振幅の分布を表し、
前記調波振幅分布の特定においては、前記複数の調波成分の各々について、前記記憶装置から取得した形状データに、当該調波成分の調波周波数に対応する振幅ピーク成分を付加することで、当該調波成分の調波振幅分布を生成する
請求項10の音声合成方法。 - 前記調波振幅分布は、各調波成分に対応する代表振幅に対する振幅の相対値の分布である
請求項1から請求項12の何れかの音声合成方法。 - プロセッサを具備する音声合成システムであって、
前記プロセッサが、メモリに記憶されたプログラムを実行することにより、
複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定し、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する
音声合成システム。 - 複数の調波成分の各々について、目標声質と、振幅スペクトル包絡と、当該調波成分について指示された調波周波数とに応じて、当該調波成分に対応したピークを含む単位帯域内の振幅の分布である調波振幅分布を特定する処理と、
前記振幅スペクトル包絡と、前記複数の調波成分についてそれぞれ特定された複数の調波振幅分布とから、前記目標声質の音声の周波数スペクトルを生成する処理と
をコンピュータに実行させるプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018002451A JP6724932B2 (ja) | 2018-01-11 | 2018-01-11 | 音声合成方法、音声合成システムおよびプログラム |
PCT/JP2018/047757 WO2019138871A1 (ja) | 2018-01-11 | 2018-12-26 | 音声合成方法、音声合成装置およびプログラム |
CN201880085358.5A CN111542875B (zh) | 2018-01-11 | 2018-12-26 | 声音合成方法、声音合成装置及存储介质 |
EP18899045.1A EP3739571A4 (en) | 2018-01-11 | 2018-12-26 | VOICE SYNTHESIS PROCESS, VOICE SYNTHESIS DEVICE AND PROGRAM |
US16/924,463 US11094312B2 (en) | 2018-01-11 | 2020-07-09 | Voice synthesis method, voice synthesis apparatus, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018002451A JP6724932B2 (ja) | 2018-01-11 | 2018-01-11 | 音声合成方法、音声合成システムおよびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019120892A JP2019120892A (ja) | 2019-07-22 |
JP2019120892A5 JP2019120892A5 (ja) | 2020-05-07 |
JP6724932B2 true JP6724932B2 (ja) | 2020-07-15 |
Family
ID=67219548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018002451A Active JP6724932B2 (ja) | 2018-01-11 | 2018-01-11 | 音声合成方法、音声合成システムおよびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11094312B2 (ja) |
EP (1) | EP3739571A4 (ja) |
JP (1) | JP6724932B2 (ja) |
CN (1) | CN111542875B (ja) |
WO (1) | WO2019138871A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020194098A (ja) * | 2019-05-29 | 2020-12-03 | ヤマハ株式会社 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN111429881B (zh) * | 2020-03-19 | 2023-08-18 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN112634914B (zh) * | 2020-12-15 | 2024-03-29 | 中国科学技术大学 | 基于短时谱一致性的神经网络声码器训练方法 |
CN112820267B (zh) * | 2021-01-15 | 2022-10-04 | 科大讯飞股份有限公司 | 波形生成方法以及相关模型的训练方法和相关设备、装置 |
CN113423005B (zh) * | 2021-05-18 | 2022-05-03 | 电子科技大学 | 一种基于改进神经网络的智能音乐生成方法及系统 |
CN113889073B (zh) * | 2021-09-27 | 2022-10-18 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备和存储介质 |
JPWO2023068228A1 (ja) * | 2021-10-18 | 2023-04-27 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
JP3815347B2 (ja) * | 2002-02-27 | 2006-08-30 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
KR100446242B1 (ko) * | 2002-04-30 | 2004-08-30 | 엘지전자 주식회사 | 음성 부호화기에서 하모닉 추정 방법 및 장치 |
JP2005234337A (ja) * | 2004-02-20 | 2005-09-02 | Yamaha Corp | 音声合成装置、音声合成方法、及び音声合成プログラム |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
JP4209461B1 (ja) * | 2008-07-11 | 2009-01-14 | 株式会社オトデザイナーズ | 合成音声作成方法および装置 |
WO2011004579A1 (ja) * | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
JP5772739B2 (ja) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | 音声処理装置 |
US9368103B2 (en) * | 2012-08-01 | 2016-06-14 | National Institute Of Advanced Industrial Science And Technology | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system |
-
2018
- 2018-01-11 JP JP2018002451A patent/JP6724932B2/ja active Active
- 2018-12-26 WO PCT/JP2018/047757 patent/WO2019138871A1/ja unknown
- 2018-12-26 EP EP18899045.1A patent/EP3739571A4/en not_active Withdrawn
- 2018-12-26 CN CN201880085358.5A patent/CN111542875B/zh active Active
-
2020
- 2020-07-09 US US16/924,463 patent/US11094312B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20200342848A1 (en) | 2020-10-29 |
US11094312B2 (en) | 2021-08-17 |
WO2019138871A1 (ja) | 2019-07-18 |
CN111542875B (zh) | 2023-08-11 |
CN111542875A (zh) | 2020-08-14 |
EP3739571A1 (en) | 2020-11-18 |
EP3739571A4 (en) | 2021-10-06 |
JP2019120892A (ja) | 2019-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
WO2018084305A1 (ja) | 音声合成方法 | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP6729539B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP2016161919A (ja) | 音声合成装置 | |
US20210366454A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
WO2020095951A1 (ja) | 音響処理方法および音響処理システム | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
WO2021060493A1 (ja) | 情報処理方法、推定モデル構築方法、情報処理装置、および推定モデル構築装置 | |
JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
JP2018077281A (ja) | 音声合成方法 | |
JP2012063501A (ja) | 音声処理装置 | |
JP2018077280A (ja) | 音声合成方法 | |
RU2591640C1 (ru) | Способ модификации голоса и устройство для его осуществления (варианты) | |
JP2020166298A (ja) | 音声合成方法 | |
JP2018077282A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200324 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200324 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200608 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6724932 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |