JP2018036413A - 音声合成学習装置、方法、及びプログラム - Google Patents
音声合成学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018036413A JP2018036413A JP2016168356A JP2016168356A JP2018036413A JP 2018036413 A JP2018036413 A JP 2018036413A JP 2016168356 A JP2016168356 A JP 2016168356A JP 2016168356 A JP2016168356 A JP 2016168356A JP 2018036413 A JP2018036413 A JP 2018036413A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- learning
- neural network
- data
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】音声合成装置200の演算部220において、学習部230が、音声特徴量系列と、自然性成分と、学習用の真の音声データとを入力とし、合成音声データを生成する生成器としてのニューラルネットワークと、合成音声データが、真の音声データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。
【選択図】図7
Description
を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ
と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行う。
が出力されるが、真の音声データxと出力される合成音声データ
とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数L2は以下の(1)式で表される。
を、出力部90に出力する。
を生成する生成器としてのニューラルネットワークが、合成音声データ
と、音声データxとの距離を表す目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
を、出力部90に出力して処理を終了する。
を生成する生成器としてのニューラルネットワークが、合成音声データ
と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
(合成音声信号又は合成音声スペクトル系列)を生成する生成器としてのニューラルネットワークと、合成音声データ
が、真の音声データと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。
とに基づいて、合成音声データが真の音声データであるか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された合成音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。
を、出力部90に出力する。
を、出力部90に出力して処理を終了する。
を生成する生成器としてのニューラルネットワークと、合成音声データ
が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
を生成する生成器としてのニューラルネットワークを備え、生成器としてのニューラルネットワークが、合成音声データ
と、学習用の真の音声データxとの距離を表す目的関数を最適化するように学習を行う。
が出力されるが、真の音声データxと出力される合成音声データ
とを、ある距離指標に対して距離が最小化するように、ニューラルネットワークの重みを最適化すればよい。なお、ここで述べた距離指標とは、例えば最小二乗誤差などである。距離指標として最小二乗誤差の場合、目的関数L2は以下の(1)式で表される。
を出力部90に出力する。
を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行い、学習されたニューラルネットワークを、ニューラルネットワーク記憶部40に記憶して処理を終了する。
を出力部90に出力して処理を終了する。
を生成する生成器としてのニューラルネットワークが、目的関数を最適化するように学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
が、真の音声データxと同一の分布に従うか否かを識別する識別器とを備え、生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う。
とに基づいて、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークを学習する。この識別器としてのニューラルネットワークは、入力された音声データが真のものであるか合成されたものであるかの識別を行い、その結果を出力するものである。
を出力部90に出力する。
を出力部90に出力して処理を終了する。
を生成する生成器としてのニューラルネットワークと、合成音声データ
が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
が、真の音声データxと同一の分布に従うか否かを識別する識別器としてのニューラルネットワークとを備え、第2の実施の形態と同様の処理によって生成器としてのニューラルネットワークと、識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行うようにすればよい。
を生成する生成器としてのニューラルネットワークと、合成音声データ
が、真の音声データxと同一の分布に従うか否かを識別する識別器とが、互いに競合する最適化条件に従って学習を行うことにより、より自然な音声を合成することができるニューラルネットワークを学習できる。
2.Pre-emphasis:元の音の高音強調を行った音
3.LPC:LPC分析合成音
4.LPC+pulse:LPC分析で得たLPCと一定間隔をおいて(128サンプルごと)発生したpulse信号を合成して生成した音
次に第1及び第2の実施の形態の実験結果を示す。
20、220、320、420、520 演算部
30、230、330、430、530 学習部
40 ニューラルネットワーク記憶部
50、250、350、450 生成部
90 出力部
100、200、300、400、500 音声合成装置
332 中間音声変換部
528、532 音声特徴量生成部
Claims (8)
- 任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、
入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声データ又は音声特徴量系列から合成音声データを生成する生成器としてのニューラルネットワークと、前記生成された前記合成音声データが、真の音声データと同一の分布に従うか否かを識別する識別器としてニューラルネットワークとを備え、前記生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う学習部
を含む音声合成学習装置。 - 前記学習部は、音声データを音声分析して得た、音声特徴量系列から音声を合成するボコーダに用いられる音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声特徴量系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う請求項1に記載の音声合成学習装置。
- 前記学習部は、音声特徴量系列から音声を合成して得た、音声信号又は音声スペクトル系列と、学習用の真の音声データとを入力とし、前記音声信号又は音声スペクトル系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う請求項1に記載の音声合成学習装置。
- 前記学習部は、音声データを入力として予め学習されたニューラルネットワークであるAuto Encoderから出力される音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声特徴量系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが、互いに競合する最適化条件に従って学習を行う請求項1に記載の音声合成学習装置。
- 任意の音声データ又は音声特徴量系列から音声を合成するニューラルネットワークを学習する音声合成学習装置であって、
入力された音声データ又は音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声データ又は音声特徴量系列から合成音声データを生成する生成器としてのニューラルネットワークを備え、前記生成器としてのニューラルネットワークが、前記合成音声データと、学習用の真の音声データとの距離を表す目的関数を最適化するように学習を行う学習部
を含む音声合成学習装置。 - 前記学習部は、音声データを音声分析して得た、音声特徴量系列から音声を合成するボコーダに用いられる音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声特徴量系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークが、前記目的関数を最適化するように学習を行う請求項5に記載の音声合成学習装置。
- 前記学習部は、音声特徴量系列から音声を合成して得た、音声信号又は音声スペクトル系列と、学習用の真の音声データとを入力とし、前記音声信号又は音声スペクトル系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークが、前記目的関数を最適化するように学習を行う請求項5に記載の音声合成学習装置。
- 前記学習部は、音声データを入力として予め学習されたニューラルネットワークであるAuto Encoderから出力される音声特徴量系列と、学習用の真の音声データとを入力とし、前記音声特徴量系列から合成された合成音声データを生成する前記生成器としてのニューラルネットワークが、前記目的関数を最適化するように学習を行う請求項5に記載の音声合成学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016168356A JP6649210B2 (ja) | 2016-08-30 | 2016-08-30 | 音声合成学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016168356A JP6649210B2 (ja) | 2016-08-30 | 2016-08-30 | 音声合成学習装置、方法、及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019149850A Division JP6722810B2 (ja) | 2019-08-19 | 2019-08-19 | 音声合成学習装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018036413A true JP2018036413A (ja) | 2018-03-08 |
JP6649210B2 JP6649210B2 (ja) | 2020-02-19 |
Family
ID=61567398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016168356A Active JP6649210B2 (ja) | 2016-08-30 | 2016-08-30 | 音声合成学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6649210B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754782A (zh) * | 2019-01-28 | 2019-05-14 | 武汉恩特拉信息技术有限公司 | 一种辨别机器语音和自然语音的方法及装置 |
JP2019168608A (ja) * | 2018-03-23 | 2019-10-03 | カシオ計算機株式会社 | 学習装置、音響生成装置、方法及びプログラム |
JP2019215500A (ja) * | 2018-06-14 | 2019-12-19 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
CN111602194A (zh) * | 2018-09-30 | 2020-08-28 | 微软技术许可有限责任公司 | 语音波形生成 |
US10891949B2 (en) | 2018-09-10 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
JP2022516784A (ja) * | 2019-01-11 | 2022-03-02 | ネイバー コーポレーション | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2754920C1 (ru) * | 2020-08-17 | 2021-09-08 | Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" | Способ синтеза речи с передачей достоверного интонирования клонируемого образца |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01276200A (ja) * | 1988-04-28 | 1989-11-06 | Hitachi Ltd | 音声合成装置 |
JPH03125200A (ja) * | 1989-10-09 | 1991-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成法 |
WO2017168870A1 (ja) * | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
-
2016
- 2016-08-30 JP JP2016168356A patent/JP6649210B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01276200A (ja) * | 1988-04-28 | 1989-11-06 | Hitachi Ltd | 音声合成装置 |
JPH03125200A (ja) * | 1989-10-09 | 1991-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成法 |
WO2017168870A1 (ja) * | 2016-03-28 | 2017-10-05 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Non-Patent Citations (1)
Title |
---|
高木 信二: "Deep Neural Networkに基づく音響特徴抽出・音響モデルを用いた統計的音声合成システム", 情報処理学会 研究報告 音声言語情報処理(SLP) 2015−SLP−105 [ONLINE], JPN6019022401, 20 February 2015 (2015-02-20), JP, pages 1 - 6, ISSN: 0004058052 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019168608A (ja) * | 2018-03-23 | 2019-10-03 | カシオ計算機株式会社 | 学習装置、音響生成装置、方法及びプログラム |
JP7124373B2 (ja) | 2018-03-23 | 2022-08-24 | カシオ計算機株式会社 | 学習装置、音響生成装置、方法及びプログラム |
JP2019215500A (ja) * | 2018-06-14 | 2019-12-19 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2019240228A1 (ja) * | 2018-06-14 | 2019-12-19 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
US10891949B2 (en) | 2018-09-10 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
CN111602194A (zh) * | 2018-09-30 | 2020-08-28 | 微软技术许可有限责任公司 | 语音波形生成 |
US11869482B2 (en) | 2018-09-30 | 2024-01-09 | Microsoft Technology Licensing, Llc | Speech waveform generation |
JP2022516784A (ja) * | 2019-01-11 | 2022-03-02 | ネイバー コーポレーション | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 |
CN109754782A (zh) * | 2019-01-28 | 2019-05-14 | 武汉恩特拉信息技术有限公司 | 一种辨别机器语音和自然语音的方法及装置 |
CN109754782B (zh) * | 2019-01-28 | 2020-10-09 | 武汉恩特拉信息技术有限公司 | 一种辨别机器语音和自然语音的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP6649210B2 (ja) | 2020-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6649210B2 (ja) | 音声合成学習装置、方法、及びプログラム | |
JP5631915B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 | |
CN111201565A (zh) | 用于声对声转换的系统和方法 | |
US20230036020A1 (en) | Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score | |
JP6876642B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP7124373B2 (ja) | 学習装置、音響生成装置、方法及びプログラム | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Pamisetty et al. | Prosody-tts: An end-to-end speech synthesis system with prosody control | |
JP6271748B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2015161774A (ja) | 音合成方法及び音合成装置 | |
JP6722810B2 (ja) | 音声合成学習装置 | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP6400526B2 (ja) | 音声合成装置、その方法、およびプログラム | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
JP2020134920A (ja) | 音声処理装置、および音声処理方法 | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
Pan et al. | PVGAN: A Pathological Voice Generation Model Incorporating a Progressive Nesting Strategy | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP7079455B1 (ja) | 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム | |
CN113066472B (zh) | 合成语音处理方法及相关装置 | |
US20230260503A1 (en) | Sound synthesis method, sound synthesis apparatus, and recording medium storing instructions to perform sound synthesis method | |
JP2018004997A (ja) | 音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6649210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |