JP6523893B2 - 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム - Google Patents
学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム Download PDFInfo
- Publication number
- JP6523893B2 JP6523893B2 JP2015183092A JP2015183092A JP6523893B2 JP 6523893 B2 JP6523893 B2 JP 6523893B2 JP 2015183092 A JP2015183092 A JP 2015183092A JP 2015183092 A JP2015183092 A JP 2015183092A JP 6523893 B2 JP6523893 B2 JP 6523893B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- learning
- perceptual
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 47
- 238000003786 synthesis reaction Methods 0.000 title claims description 43
- 238000000034 method Methods 0.000 title claims description 26
- 238000001308 synthesis method Methods 0.000 title claims description 8
- 230000014509 gene expression Effects 0.000 claims description 111
- 230000006870 function Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 62
- 238000009826 distribution Methods 0.000 description 44
- 239000011159 matrix material Substances 0.000 description 20
- 238000003066 decision tree Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 230000008447 perception Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001417093 Moridae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
図1は第1実施形態の学習装置の機能構成の例を示す図である。第1実施形態の学習装置100は、記憶部1、取得部2及び学習部3を備える。
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態の知覚表現音響モデル104を使用して音声合成を行う音声合成装置200について説明する。
2 取得部
3 学習部
100 学習装置
101 基準音響モデル
102 学習話者情報
103 知覚表現得点情報
104 知覚表現音響モデル
104a 性別音響モデル
104b 年齢音響モデル
104c 明るさ音響モデル
104d 太さ音響モデル
104e 明瞭さ音響モデル
105 目標話者音響モデル
106 目標話者音声
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
307 スピーカー
310 バス
Claims (8)
- 複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部と、
前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する学習部と、を備え、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習装置。 - 前記知覚表現は、声の性別、声の年齢、声の明るさ、声の太さ、及び、声の明瞭さの少なくとも1つを含む、
請求項1に記載の学習装置。 - 前記学習話者情報は、前記学習話者の音声を示す音響データ、前記音響データから抽出された言語データ、及び、前記学習話者の音響モデルを含む、
請求項1に記載の学習装置。 - 話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部と、
前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、
任意のテキストの入力を受け付ける入力部と、
前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部と、を備え、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成装置。 - 複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備える学習装置の学習方法であって、
学習装置が、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習するステップ、を含み、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習方法。 - 話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置の音声合成方法であって、
音声合成装置が、前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集するステップと、
音声合成装置が、任意のテキストの入力を受け付けるステップと、
合成部が、前記編集するステップにより話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行うステップと、を含み、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成方法。 - 複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備えるコンピュータを、
前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する学習部として機能させ、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習プログラム。 - 話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置を、
前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、
任意のテキストの入力を受け付ける入力部と、
前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部として機能させ、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015183092A JP6523893B2 (ja) | 2015-09-16 | 2015-09-16 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
US15/257,247 US10540956B2 (en) | 2015-09-16 | 2016-09-06 | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015183092A JP6523893B2 (ja) | 2015-09-16 | 2015-09-16 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058513A JP2017058513A (ja) | 2017-03-23 |
JP6523893B2 true JP6523893B2 (ja) | 2019-06-05 |
Family
ID=58237074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015183092A Active JP6523893B2 (ja) | 2015-09-16 | 2015-09-16 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10540956B2 (ja) |
JP (1) | JP6523893B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6639285B2 (ja) | 2016-03-15 | 2020-02-05 | 株式会社東芝 | 声質嗜好学習装置、声質嗜好学習方法及びプログラム |
JP6391895B2 (ja) * | 2016-05-20 | 2018-09-19 | 三菱電機株式会社 | 音響モデル学習装置、音響モデル学習方法、音声認識装置、および音声認識方法 |
JP6805037B2 (ja) | 2017-03-22 | 2020-12-23 | 株式会社東芝 | 話者検索装置、話者検索方法、および話者検索プログラム |
JP7013172B2 (ja) | 2017-08-29 | 2022-01-31 | 株式会社東芝 | 音声合成辞書配信装置、音声合成配信システムおよびプログラム |
KR102072162B1 (ko) * | 2018-01-05 | 2020-01-31 | 서울대학교산학협력단 | 인공 지능 기반 외국어 음성 합성 방법 및 장치 |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
JP7125608B2 (ja) * | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
RU2744032C2 (ru) * | 2019-04-15 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для определения результата выполнения задачи в краудсорсинговой среде |
CN110264991B (zh) * | 2019-05-20 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 |
CN110379407B (zh) * | 2019-07-22 | 2021-10-19 | 出门问问(苏州)信息科技有限公司 | 自适应语音合成方法、装置、可读存储介质及计算设备 |
JP2022544984A (ja) | 2019-08-21 | 2022-10-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ヒト話者の埋め込みを会話合成に適合させるためのシステムおよび方法 |
US11430431B2 (en) * | 2020-02-06 | 2022-08-30 | Tencent America LLC | Learning singing from speech |
RU2020107002A (ru) | 2020-02-14 | 2021-08-16 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система приема метки для цифровой задачи, исполняемой в краудсорсинговой среде |
US11942070B2 (en) | 2021-01-29 | 2024-03-26 | International Business Machines Corporation | Voice cloning transfer for speech synthesis |
CN112992162B (zh) * | 2021-04-16 | 2021-08-20 | 杭州一知智能科技有限公司 | 一种音色克隆方法、系统、装置及计算机可读存储介质 |
CN114333847A (zh) * | 2021-12-31 | 2022-04-12 | 达闼机器人有限公司 | 语音克隆方法、装置、训练方法、电子设备及存储介质 |
WO2023157066A1 (ja) * | 2022-02-15 | 2023-08-24 | 日本電信電話株式会社 | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215983A (ja) * | 2000-02-02 | 2001-08-10 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2002244689A (ja) | 2001-02-22 | 2002-08-30 | Rikogaku Shinkokai | 平均声の合成方法及び平均声からの任意話者音声の合成方法 |
JP2003271171A (ja) | 2002-03-14 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 音声合成方法、音声合成装置および音声合成プログラム |
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
JP5414160B2 (ja) | 2007-08-09 | 2014-02-12 | 株式会社東芝 | 感性評価装置及び方法 |
JP5457706B2 (ja) | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
GB0920480D0 (en) * | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
GB2501062B (en) * | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
TWI471854B (zh) * | 2012-10-19 | 2015-02-01 | Ind Tech Res Inst | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
JP2014206875A (ja) | 2013-04-12 | 2014-10-30 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
US9570065B2 (en) * | 2014-09-29 | 2017-02-14 | Nuance Communications, Inc. | Systems and methods for multi-style speech synthesis |
-
2015
- 2015-09-16 JP JP2015183092A patent/JP6523893B2/ja active Active
-
2016
- 2016-09-06 US US15/257,247 patent/US10540956B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10540956B2 (en) | 2020-01-21 |
US20170076715A1 (en) | 2017-03-16 |
JP2017058513A (ja) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
US20200211529A1 (en) | Systems and methods for multi-style speech synthesis | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
Zhao et al. | Using phonetic posteriorgram based frame pairing for segmental accent conversion | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
Liu et al. | Controllable accented text-to-speech synthesis | |
Chen et al. | The USTC System for Voice Conversion Challenge 2016: Neural Network Based Approaches for Spectrum, Aperiodicity and F0 Conversion. | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
Schipor et al. | Automatic assessment of pronunciation quality of children within assisted speech therapy | |
CN116453502A (zh) | 基于双说话人嵌入的跨语言语音合成方法及系统 | |
Raghavendra et al. | A multilingual screen reader in Indian languages | |
Cahyaningtyas et al. | Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN | |
JP2016142936A (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
Sun et al. | A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190426 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6523893 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |