JP2019200408A - 音声合成モデルを生成するための方法、及び装置 - Google Patents
音声合成モデルを生成するための方法、及び装置 Download PDFInfo
- Publication number
- JP2019200408A JP2019200408A JP2018247790A JP2018247790A JP2019200408A JP 2019200408 A JP2019200408 A JP 2019200408A JP 2018247790 A JP2018247790 A JP 2018247790A JP 2018247790 A JP2018247790 A JP 2018247790A JP 2019200408 A JP2019200408 A JP 2019200408A
- Authority
- JP
- Japan
- Prior art keywords
- training
- neural network
- deep neural
- text
- initial deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 66
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 128
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001308 synthesis method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
Description
以下の図面を参照してなされる非制限的な実施形態に対する詳細的な説明により、本発明の他の特徴、目の及び利点がより明らかになる。
Claims (10)
- 音声合成モデルを生成するための方法であって、
テキストサンプル情報と、テキストサンプル情報に対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するステップと、
初期ディープニューラルネットワークを、取得するステップと、
機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
を含む方法。 - 機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するステップは、
トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するステップを含み、
前記トレーニングステップは、
トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、
前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、
比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、
初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
を含む請求項1に記載の方法。 - トレーニングを行って音声合成モデルを得るステップは、
初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成し、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いて前記トレーニングステップを実行するステップ、
をさらに含む請求項2に記載の方法。 - 処理待ちテキスト情報を取得するステップと、
前記処理待ちテキスト情報を、請求項1〜3の中のいずれか1項に記載の方法に従って生成された音声合成モデルに入力して、前記処理待ちテキスト情報に対応するオーディオデータを生成するステップと、
を含む音声合成方法。 - 音声合成モデルを生成するための装置であって、
テキストサンプル情報とテキストサンプル情報に対応するオーディオサンプルデータ及びオーディオサンプルデータの基本周波数とを含むトレーニングサンプルの、トレーニングサンプルセットを、取得するように配置されているトレーニングサンプルセット取得ユニットと、
初期ディープニューラルネットワークを取得するように配置されているネットワーク取得ユニットと、
機械学習方法を利用して、前記トレーニングサンプルセット中のトレーニングサンプルのテキストサンプル情報を入力とし、入力されたテキストサンプル情報に対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数を出力として、前記初期ディープニューラルネットワークに対してトレーニングを行い、トレーニング後の前記初期ディープニューラルネットワークを音声合成モデルとして確定するように配置されているトレーニングユニットと、
を備える装置。 - 前記トレーニングユニットは、さらに、トレーニングサンプルセットに基づいて、以下のトレーニングステップを実行するように配置されており、
前記トレーニングステップは、
トレーニングサンプルセットの中の少なくとも一つのトレーニングサンプルのテキストサンプル情報を、それぞれ、初期ディープニューラルネットワークに入力して、前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を得るステップと、
前記少なくとも一つのテキストサンプル情報の中のそれぞれのテキストサンプル情報に対応するオーディオデータおよびオーディオデータの基本周波数を、対応するオーディオサンプルデータおよびオーディオサンプルデータの基本周波数と比較するステップと、
比較結果に基づいて、初期ディープニューラルネットワークが所定の最適化目標に達したか否かを確定するステップと、
初期ディープニューラルネットワークが最適化目標に達したと確定されたことに応答して、初期ディープニューラルネットワークを音声合成モデルとして確定するステップと、
を含む請求項5に記載の装置。 - 前記トレーニングユニットは、さらに、
初期ディープニューラルネットワークが最適化目標に達していないと確定されたことに応答して、初期ディープニューラルネットワークのパラメータを調整し、かつ、未使用のトレーニングサンプルを使用してトレーニングサンプルセットを構成して、調整後の初期ディープニューラルネットワークを初期ディープニューラルネットワークとして使用して、続いて前記トレーニングステップを実行するように配置されている請求項6に記載の装置。 - 処理待ちテキスト情報を取得するように配置されている処理待ちテキスト情報取得ユニットと、
前記処理待ちテキスト情報を、請求項1〜3のいずれか一項に記載の方法に従って生成された音声合成モデルに入力して、前記処理待ちテキスト情報に対応するオーディオデータを生成するように配置されている生成ユニットと、
を備える音声合成装置。 - 一つまたは複数のプロセッサと、
一つまたは複数のプログラムが記憶されている記憶装置と、を備え、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行されると、前記一つまたは複数のプロセッサが、請求項1〜3のいずれか一項に記載の方法を実現する電子機器。 - コンピュータプログラムが記憶されており、前記プログラムがプロセッサによって実行されると、請求項1〜3のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810478000.0A CN108630190B (zh) | 2018-05-18 | 2018-05-18 | 用于生成语音合成模型的方法和装置 |
CN201810478000.0 | 2018-05-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019200408A true JP2019200408A (ja) | 2019-11-21 |
JP6803365B2 JP6803365B2 (ja) | 2020-12-23 |
Family
ID=63693772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018247790A Active JP6803365B2 (ja) | 2018-05-18 | 2018-12-28 | 音声合成モデルを生成するための方法、及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11017762B2 (ja) |
JP (1) | JP6803365B2 (ja) |
CN (1) | CN108630190B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802452A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 垃圾指令识别方法及装置 |
CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
CN113555009A (zh) * | 2020-04-21 | 2021-10-26 | 京东数字科技控股有限公司 | 用于训练模型的方法和装置 |
JP2022133408A (ja) * | 2021-08-09 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616093B (zh) * | 2018-12-05 | 2024-02-27 | 平安科技(深圳)有限公司 | 端对端语音合成方法、装置、设备及存储介质 |
CN109584858A (zh) * | 2019-01-08 | 2019-04-05 | 武汉西山艺创文化有限公司 | 一种基于ai人工智能的虚拟配音方法及其装置 |
CN109637525B (zh) * | 2019-01-25 | 2020-06-09 | 百度在线网络技术(北京)有限公司 | 用于生成车载声学模型的方法和装置 |
CN109873779B (zh) * | 2019-01-30 | 2021-05-11 | 浙江工业大学 | 一种基于lstm的分级式无线信号调制类型识别方法 |
CN111768761B (zh) * | 2019-03-14 | 2024-03-01 | 京东科技控股股份有限公司 | 一种语音识别模型的训练方法和装置 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN110135583B (zh) * | 2019-05-23 | 2020-08-21 | 北京地平线机器人技术研发有限公司 | 标注信息的生成方法、标注信息的生成装置和电子设备 |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、系统与存储介质 |
CN112802443B (zh) * | 2019-11-14 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 语音合成方法及装置、电子设备和计算机可读存储介质 |
SG10201912562SA (en) * | 2019-12-18 | 2021-07-29 | Yitu Pte Ltd | A training method, a readable storage medium and a voice cloning method for a voice cloning model |
CN111079053A (zh) * | 2019-12-19 | 2020-04-28 | 北京安兔兔科技有限公司 | 一种产品信息展示方法、装置、电子设备及存储介质 |
CN111133506A (zh) * | 2019-12-23 | 2020-05-08 | 深圳市优必选科技股份有限公司 | 语音合成模型的训练方法、装置、计算机设备及存储介质 |
CN111143514B (zh) * | 2019-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111179905A (zh) * | 2020-01-10 | 2020-05-19 | 北京中科深智科技有限公司 | 一种快速配音生成方法及装置 |
CN111583903B (zh) * | 2020-04-28 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111627428B (zh) * | 2020-05-15 | 2023-11-14 | 北京青牛技术股份有限公司 | 构建压缩的语音识别模型的方法 |
CN111767953B (zh) | 2020-06-30 | 2021-11-26 | 北京字节跳动网络技术有限公司 | 用于训练物品编码模型的方法和装置 |
CN111816168A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语音播放的方法、装置及存储介质 |
CN112037760B (zh) * | 2020-08-24 | 2022-01-07 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
CN112116906B (zh) * | 2020-08-27 | 2024-03-22 | 山东浪潮科学研究院有限公司 | 一种基于gan网络的现场混音方法、装置、设备及介质 |
CN112069293B (zh) * | 2020-09-14 | 2024-04-19 | 上海明略人工智能(集团)有限公司 | 一种数据标注方法、装置、电子设备和计算机可读介质 |
CN112215294A (zh) * | 2020-10-20 | 2021-01-12 | 深圳地平线机器人科技有限公司 | 数据样本的采集方法、装置、介质及电子设备 |
CN112652293A (zh) * | 2020-12-24 | 2021-04-13 | 上海优扬新媒信息技术有限公司 | 语音合成模型训练及语音合成方法、装置及语音合成器 |
EP4310835A1 (en) * | 2021-03-16 | 2024-01-24 | Samsung Electronics Co., Ltd. | Electronic device and personalized text-to-speech model generation method by electronic device |
CN113192522B (zh) * | 2021-04-22 | 2023-02-21 | 北京达佳互联信息技术有限公司 | 音频合成模型生成方法及装置、音频合成方法及装置 |
CN113327594B (zh) * | 2021-06-11 | 2022-08-16 | 北京世纪好未来教育科技有限公司 | 语音识别模型训练方法、装置、设备及存储介质 |
CN113408664B (zh) * | 2021-07-20 | 2024-04-16 | 北京百度网讯科技有限公司 | 训练方法、分类方法、装置、电子设备以及存储介质 |
CN113571047B (zh) * | 2021-07-20 | 2024-07-23 | 杭州海康威视数字技术股份有限公司 | 一种音频数据的处理方法、装置及设备 |
CN113642727B (zh) * | 2021-08-06 | 2024-05-28 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法和多媒体信息的处理方法、装置 |
CN113488057B (zh) * | 2021-08-18 | 2023-11-14 | 山东新一代信息产业技术研究院有限公司 | 面向康养的对话实现方法及系统 |
CN114969340B (zh) * | 2022-05-30 | 2023-09-22 | 中电金信软件有限公司 | 一种对深度神经网络进行剪枝的方法及装置 |
CN118298835A (zh) * | 2024-03-14 | 2024-07-05 | 天津大学 | 一种适用于目标建筑空间的抗混响语音信号的获取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
JP2017032839A (ja) * | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
US20170345411A1 (en) * | 2016-05-26 | 2017-11-30 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
JP2018013721A (ja) * | 2016-07-22 | 2018-01-25 | 国立研究開発法人情報通信研究機構 | 音声合成パラメータ生成装置及びそのためのコンピュータプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1224531B1 (de) * | 1999-10-28 | 2004-12-15 | Siemens Aktiengesellschaft | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe |
GB2508411B (en) * | 2012-11-30 | 2015-10-28 | Toshiba Res Europ Ltd | Speech synthesis |
GB2524505B (en) * | 2014-03-24 | 2017-11-08 | Toshiba Res Europe Ltd | Voice conversion |
CN106297765B (zh) * | 2015-06-04 | 2019-10-18 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
CN104934028B (zh) * | 2015-06-17 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105118498B (zh) * | 2015-09-06 | 2018-07-31 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
US10249289B2 (en) * | 2017-03-14 | 2019-04-02 | Google Llc | Text-to-speech synthesis using an autoencoder |
WO2018213565A2 (en) * | 2017-05-18 | 2018-11-22 | Telepathy Labs, Inc. | Artificial intelligence-based text-to-speech system and method |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
-
2018
- 2018-05-18 CN CN201810478000.0A patent/CN108630190B/zh active Active
- 2018-12-28 US US16/236,076 patent/US11017762B2/en active Active
- 2018-12-28 JP JP2018247790A patent/JP6803365B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
JP2017032839A (ja) * | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
US20170345411A1 (en) * | 2016-05-26 | 2017-11-30 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
JP2018013721A (ja) * | 2016-07-22 | 2018-01-25 | 国立研究開発法人情報通信研究機構 | 音声合成パラメータ生成装置及びそのためのコンピュータプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555009A (zh) * | 2020-04-21 | 2021-10-26 | 京东数字科技控股有限公司 | 用于训练模型的方法和装置 |
CN112802452A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 垃圾指令识别方法及装置 |
CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
JP2022133408A (ja) * | 2021-08-09 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11017762B2 (en) | 2021-05-25 |
US20190355344A1 (en) | 2019-11-21 |
CN108630190B (zh) | 2019-12-10 |
JP6803365B2 (ja) | 2020-12-23 |
CN108630190A (zh) | 2018-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6803365B2 (ja) | 音声合成モデルを生成するための方法、及び装置 | |
US11869530B2 (en) | Generating audio using neural networks | |
US10553201B2 (en) | Method and apparatus for speech synthesis | |
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
US10388284B2 (en) | Speech recognition apparatus and method | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
JP7208952B2 (ja) | 対話モデルを生成するための方法及び装置 | |
US11205417B2 (en) | Apparatus and method for inspecting speech recognition | |
US11842728B2 (en) | Training neural networks to predict acoustic sequences using observed prosody info | |
JP2020170200A (ja) | エンドツーエンドのテキスト音声変換 | |
US11282498B2 (en) | Speech synthesis method and speech synthesis apparatus | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
CN112786007A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
US11942077B2 (en) | Electronic device and operating method thereof | |
CN111681661B (zh) | 语音识别的方法、装置、电子设备和计算机可读介质 | |
KR20210028041A (ko) | 전자 장치 및 그 제어 방법 | |
WO2022072936A2 (en) | Text-to-speech using duration prediction | |
CN118230716A (zh) | 深度学习模型的训练方法、语音合成方法、装置 | |
KR102663654B1 (ko) | 적응형 시각적 스피치 인식 | |
KR20230096450A (ko) | 캘리브레이션 보정을 이용하여 e2e 음성 인식 모델을 생성하는 음성 인식 모델 생성 방법 및 장치 | |
CN115116426A (zh) | 语音生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200212 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200930 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20200930 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20201008 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20201013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6803365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |