JP2021119381A - 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 - Google Patents
音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP2021119381A JP2021119381A JP2021048816A JP2021048816A JP2021119381A JP 2021119381 A JP2021119381 A JP 2021119381A JP 2021048816 A JP2021048816 A JP 2021048816A JP 2021048816 A JP2021048816 A JP 2021048816A JP 2021119381 A JP2021119381 A JP 2021119381A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- simulated
- learning
- hostile
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims abstract description 156
- 230000006870 function Effects 0.000 claims abstract description 131
- 230000015654 memory Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
Claims (13)
- 音声スペクトル生成モデルの学習方法であって、
第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得することと、
前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することと、
前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習することとを含む、音声スペクトル生成モデルの学習方法。 - 前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する前に、
第2文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第2文字系列に対応する模擬スペクトル系列を取得することと、
前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することとを更に含み、
前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することは、
前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得することを含む、請求項1に記載の音声スペクトル生成モデルの学習方法。 - 前記の前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することは、
前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得することと、
前記第3損失値に基づいて前記敵対的損失関数モデルを学習することとを含む、請求項2に記載の音声スペクトル生成モデルの学習方法。 - 前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することは、
前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得することと、
前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得することと、
前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得することと、
全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得することとを含む、請求項1に記載の音声スペクトル生成モデルの学習方法。 - 前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項1に記載の音声スペクトル生成モデルの学習方法。
- 音声スペクトル生成モデルの学習装置であって、
第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する第1取得モジュールと、
前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する第2取得モジュールと、
前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する第1学習モジュールとを含む、音声スペクトル生成モデルの学習装置。 - 第2文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第2文字系列に対応する模擬スペクトル系列を取得する第3取得モジュールと、
前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する第2学習モジュールとを更に含み、
前記第2取得モジュールは、具体的には、
前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得する、請求項6に記載の学習装置。 - 前記第2学習モジュールは、
前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得する第1取得ユニットと、
前記第3損失値に基づいて前記敵対的損失関数モデルを学習する学習ユニットとを含む、請求項7に記載の学習装置。 - 前記第2取得モジュールは、
前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得する第2取得ユニットと、
前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得するダウンサンプリングユニットと、
前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得する第3取得ユニットと、
全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得する第4取得ユニットとを含む、請求項6に記載の学習装置。 - 前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項6に記載の学習装置。
- 少なくとも1つのプロセッサと、及び
前記少なくとも1つのプロセッサと通信可能に接続されたメモリであって、前記少なくとも1つのプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させることのできる、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納されているメモリを含むことを特徴とする電子機器。 - コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドは、請求項1〜5のいずれか1項に記載の方法を前記コンピュータに実行させることを特徴とする、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010858104.1 | 2020-08-24 | ||
CN202010858104.1A CN112037760B (zh) | 2020-08-24 | 2020-08-24 | 语音频谱生成模型的训练方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021119381A true JP2021119381A (ja) | 2021-08-12 |
JP7146991B2 JP7146991B2 (ja) | 2022-10-04 |
Family
ID=73581872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021048816A Active JP7146991B2 (ja) | 2020-08-24 | 2021-03-23 | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11488578B2 (ja) |
EP (1) | EP3816992A3 (ja) |
JP (1) | JP7146991B2 (ja) |
KR (1) | KR102488010B1 (ja) |
CN (1) | CN112037760B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863529B (zh) * | 2020-12-31 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN112837670B (zh) * | 2021-01-19 | 2024-05-10 | 北京捷通华声科技股份有限公司 | 语音合成方法、装置及电子设备 |
CN114970651A (zh) * | 2021-02-26 | 2022-08-30 | 北京达佳互联信息技术有限公司 | 和弦生成模型的训练方法、和弦生成方法、装置及设备 |
CN113362836B (zh) * | 2021-06-02 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 训练声码器方法、终端及存储介质 |
CN113823296A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113611281B (zh) * | 2021-07-16 | 2024-07-12 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
CN113838450B (zh) * | 2021-08-11 | 2022-11-25 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
CN113889076B (zh) * | 2021-09-13 | 2022-11-01 | 北京百度网讯科技有限公司 | 语音识别及编解码方法、装置、电子设备及存储介质 |
CN113743110B (zh) * | 2021-11-08 | 2022-02-11 | 京华信息科技股份有限公司 | 一种基于微调生成式对抗网络模型的漏词检测方法及系统 |
CN114141228B (zh) * | 2021-12-07 | 2022-11-08 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、语音合成方法和装置 |
CN114492526B (zh) * | 2022-01-25 | 2022-11-22 | 太原科技大学 | 一种面向多星光谱自动识别的SPEC-Net网络架构及识别方法 |
CN114999447B (zh) | 2022-07-20 | 2022-10-25 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及语音合成方法 |
CN115240680A (zh) * | 2022-08-05 | 2022-10-25 | 安徽大学 | 一种模糊耳语音的转换方法、系统及其装置 |
CN115171651B (zh) * | 2022-09-05 | 2022-11-29 | 中邮消费金融有限公司 | 一种儿化音合成方法、装置、电子设备及存储介质 |
CN115953009B (zh) * | 2023-03-01 | 2023-07-21 | 阿里巴巴(中国)有限公司 | 电力系统的调度方法、调度决策模型的训练方法 |
CN115910027B (zh) * | 2023-03-08 | 2023-05-09 | 深圳市九天睿芯科技有限公司 | 一种辅助发声方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP2018146821A (ja) * | 2017-03-07 | 2018-09-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
WO2019107379A1 (ja) * | 2017-11-29 | 2019-06-06 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9972314B2 (en) * | 2016-06-01 | 2018-05-15 | Microsoft Technology Licensing, Llc | No loss-optimization for weighted transducer |
KR102481885B1 (ko) | 2017-09-08 | 2022-12-28 | 삼성전자주식회사 | 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스 |
CN108597496B (zh) * | 2018-05-07 | 2020-08-28 | 广州势必可赢网络科技有限公司 | 一种基于生成式对抗网络的语音生成方法及装置 |
US12020167B2 (en) * | 2018-05-17 | 2024-06-25 | Magic Leap, Inc. | Gradient adversarial training of neural networks |
CN108630190B (zh) * | 2018-05-18 | 2019-12-10 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
US11462209B2 (en) | 2018-05-18 | 2022-10-04 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN109147810B (zh) * | 2018-09-30 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
US11017307B2 (en) * | 2018-10-17 | 2021-05-25 | Fujitsu Limited | Explanations generation with different cognitive values using generative adversarial networks |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
US11222621B2 (en) * | 2019-05-23 | 2022-01-11 | Google Llc | Variational embedding capacity in expressive end-to-end speech synthesis |
US10713821B1 (en) * | 2019-06-27 | 2020-07-14 | Amazon Technologies, Inc. | Context aware text-to-image synthesis |
CN110390950B (zh) | 2019-08-17 | 2021-04-09 | 浙江树人学院(浙江树人大学) | 一种基于生成对抗网络的端到端语音增强方法 |
CN110600013B (zh) * | 2019-09-12 | 2021-11-02 | 思必驰科技股份有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN110739002B (zh) * | 2019-10-16 | 2022-02-22 | 中山大学 | 基于生成对抗网络的复数域语音增强方法、系统及介质 |
CN110930976B (zh) * | 2019-12-02 | 2022-04-15 | 北京声智科技有限公司 | 一种语音生成方法及装置 |
WO2021127978A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN111128137B (zh) * | 2019-12-30 | 2023-05-30 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
CN111243572B (zh) * | 2020-01-14 | 2022-09-06 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于说话人博弈的多人语音转换方法与系统 |
US11251896B2 (en) * | 2020-03-03 | 2022-02-15 | Mitsubishi Electric Research Laboratories, Inc. | Generative model for inverse design of materials, devices, and structures |
CN111462768B (zh) * | 2020-03-12 | 2023-04-25 | 南京邮电大学 | 基于共享训练的多尺度StarGAN的语音转换方法 |
US11222620B2 (en) * | 2020-05-07 | 2022-01-11 | Google Llc | Speech recognition using unspoken text and speech synthesis |
CN111444731B (zh) * | 2020-06-15 | 2020-11-03 | 深圳市友杰智新科技有限公司 | 模型训练方法、装置和计算机设备 |
US11574622B2 (en) * | 2020-07-02 | 2023-02-07 | Ford Global Technologies, Llc | Joint automatic speech recognition and text to speech conversion using adversarial neural networks |
CN112489621B (zh) * | 2020-11-20 | 2022-07-12 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
-
2020
- 2020-08-24 CN CN202010858104.1A patent/CN112037760B/zh active Active
-
2021
- 2021-03-17 EP EP21163034.8A patent/EP3816992A3/en not_active Ceased
- 2021-03-18 KR KR1020210035374A patent/KR102488010B1/ko active IP Right Grant
- 2021-03-18 US US17/205,121 patent/US11488578B2/en active Active
- 2021-03-23 JP JP2021048816A patent/JP7146991B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010116549A1 (ja) * | 2009-03-30 | 2010-10-14 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP2010237323A (ja) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP2018146821A (ja) * | 2017-03-07 | 2018-09-20 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム |
WO2019107379A1 (ja) * | 2017-11-29 | 2019-06-06 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7146991B2 (ja) | 2022-10-04 |
US11488578B2 (en) | 2022-11-01 |
CN112037760B (zh) | 2022-01-07 |
EP3816992A3 (en) | 2021-10-27 |
US20210201887A1 (en) | 2021-07-01 |
EP3816992A2 (en) | 2021-05-05 |
CN112037760A (zh) | 2020-12-04 |
KR20210038470A (ko) | 2021-04-07 |
KR102488010B1 (ko) | 2023-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021119381A (ja) | 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US11417314B2 (en) | Speech synthesis method, speech synthesis device, and electronic apparatus | |
JP7194150B2 (ja) | ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器 | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
US11562732B2 (en) | Method and apparatus for predicting mouth-shape feature, and electronic device | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP2022505015A (ja) | 知識グラフのベクトル表現生成方法、装置及び電子機器 | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
JP2021099890A (ja) | 因果関係の判別方法、装置、電子機器及び記憶媒体 | |
JP2021192290A (ja) | 機械翻訳モデルのトレーニング方法、装置及び電子機器 | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
US11836836B2 (en) | Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums | |
JP2021192289A (ja) | 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 | |
EP3855341A1 (en) | Language generation method and apparatus, electronic device and storage medium | |
JP2021114284A (ja) | 句読点予測方法および装置 | |
JP2022028897A (ja) | 文章翻訳方法、装置、電子機器及び記憶媒体 | |
JP2022006189A (ja) | 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器 | |
CN111611808A (zh) | 用于生成自然语言模型的方法和装置 | |
JP2022020063A (ja) | 対話処理方法、装置、電子機器及び記憶媒体 | |
CN115688796B (zh) | 用于自然语言处理领域中预训练模型的训练方法及其装置 | |
JP2022088494A (ja) | テキスト生成方法、装置、電子機器及び記憶媒体 | |
CN111382562A (zh) | 文本相似度的确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146991 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |