JP2019179257A - 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム - Google Patents
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム Download PDFInfo
- Publication number
- JP2019179257A JP2019179257A JP2019113938A JP2019113938A JP2019179257A JP 2019179257 A JP2019179257 A JP 2019179257A JP 2019113938 A JP2019113938 A JP 2019113938A JP 2019113938 A JP2019113938 A JP 2019113938A JP 2019179257 A JP2019179257 A JP 2019179257A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speakers
- speaker
- acoustic model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
(参考非特許文献1:益子他、“動的特徴を用いたHMMに基づく音声合成”、信学論、vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.)
(参考非特許文献2:今井他、“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”、電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.)
(参考非特許文献3:Dehak, Najim, et al. "Front-end factor analysis for speaker verification." Audio, Speech, and Language Processing, IEEE Transactions on 19.4
(2011): 788-798.)
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
Claims (10)
- 複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習する音響モデル学習部を有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置であって、
前記音響モデル学習部は、
複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて、前記ディープニューラルネットワーク音響モデルを学習し、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
音響モデル学習装置。 - 請求項1に記載の音響モデル学習装置であって、
前記音響モデル学習部は、
複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて前記ディープニューラルネットワーク音響モデルを学習し、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
音響モデル学習装置。 - 入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するテキスト解析部と、
複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成する音声パラメータ生成部と、
前記生成された音声パラメータを用いて音声波形を生成する音声波形生成部を有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成装置。 - 請求項4に記載の音声合成装置であって、
前記ディープニューラルネットワーク音響モデルは、
複数の話者の音声データと、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータとを用いて学習され、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、1−of−K表現ベクトルで表現される前記話者を特定するデータを入力することを特徴とする
音声合成装置。 - 請求項4に記載の音声合成装置であって、
前記ディープニューラルネットワーク音響モデルは、
複数の話者の音声データと、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を用いて学習され、
前記ニューラルネットワークの入力層に、複数の話者のコンテキストデータと、前記話者の特徴を表すデータとしてi−vectorで表現される話者スペクトル特徴ベクトルおよびF0特徴情報を表す話者韻律特徴ベクトルと、を入力することを特徴とする
音声合成装置。 - 音響モデル学習装置が実行する音響モデル学習方法であって、
複数の話者の音声データと、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて、音声波形合成に必要な、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するためのディープニューラルネットワーク音響モデルを学習するステップを有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音響モデル学習方法。 - 音声合成装置が実行する音声合成方法であって、
入力テキストを解析して、少なくとも音素情報とアクセント情報を含むコンテキストデータを取得するステップと、
複数の話者の音声データと、前記複数の話者の音声データのコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータとを用いて学習されたディープニューラルネットワーク音響モデルを用いて、前記入力テキストを解析して取得されたコンテキストデータと、前記入力テキストとともに入力される前記話者を特定するデータまたは前記話者の特徴を表すデータから、音高パラメータ、及び、スペクトルパラメータを含む音声パラメータを生成するステップと、
前記生成された音声パラメータを用いて音声波形を生成するステップを有し、
ニューラルネットワークの入力層に、少なくとも前記音声データの音素情報とアクセント情報を含む複数の話者のコンテキストデータと、前記話者を特定するデータあるいは前記話者の特徴を表すデータを入力することを特徴とする音声合成方法。 - コンピュータを請求項1から3の何れかに記載の音響モデル学習装置として機能させるプログラム。
- コンピュータを請求項4から6の何れかに記載の音声合成装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019113938A JP6680933B2 (ja) | 2019-06-19 | 2019-06-19 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019113938A JP6680933B2 (ja) | 2019-06-19 | 2019-06-19 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015153948A Division JP6622505B2 (ja) | 2015-08-04 | 2015-08-04 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019179257A true JP2019179257A (ja) | 2019-10-17 |
JP6680933B2 JP6680933B2 (ja) | 2020-04-15 |
Family
ID=68278672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019113938A Active JP6680933B2 (ja) | 2019-06-19 | 2019-06-19 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6680933B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN113012681A (zh) * | 2021-02-18 | 2021-06-22 | 深圳前海微众银行股份有限公司 | 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法 |
CN114495896A (zh) * | 2021-12-31 | 2022-05-13 | 深圳市优必选科技股份有限公司 | 一种语音播放方法及计算机设备 |
JP2022097353A (ja) * | 2020-12-18 | 2022-06-30 | ハイパーコネクト インコーポレイテッド | 音声合成装置およびその方法 |
WO2022141678A1 (zh) * | 2020-12-31 | 2022-07-07 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
US12118977B2 (en) | 2019-08-09 | 2024-10-15 | Hyperconnect LLC | Terminal and operating method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282484A (ja) * | 1998-03-27 | 1999-10-15 | Victor Co Of Japan Ltd | 音声合成装置 |
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
-
2019
- 2019-06-19 JP JP2019113938A patent/JP6680933B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282484A (ja) * | 1998-03-27 | 1999-10-15 | Victor Co Of Japan Ltd | 音声合成装置 |
US20150186359A1 (en) * | 2013-12-30 | 2015-07-02 | Google Inc. | Multilingual prosody generation |
Non-Patent Citations (3)
Title |
---|
FAN, YUCHEN, ET AL.: "MULTI-SPEAKER MODELING AND SPEAKER ADAPTATION FOR DNN-BASED TTS SYNTHESIS", PROC. ICASSP 2015, JPN6018027290, 19 April 2015 (2015-04-19), pages 4475 - 4479, XP033187560, ISSN: 0004231232, DOI: 10.1109/ICASSP.2015.7178817 * |
SAON, GEORGE, ET AL.: "Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors", PROC. ARSU 2013, JPN6019006435, December 2013 (2013-12-01), CZ, pages 55 - 59, XP032544445, ISSN: 0004231233, DOI: 10.1109/ASRU.2013.6707705 * |
柏木陽佑、外3名: "制約付き話者コードの同時推定によるニューラルネット音響モデルの話者正規化学習", 日本音響学会 2014年 秋季研究発表会講演論文集, JPN6020009294, 5 September 2014 (2014-09-05), pages 7 - 10, ISSN: 0004231234 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12118977B2 (en) | 2019-08-09 | 2024-10-15 | Hyperconnect LLC | Terminal and operating method thereof |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN111489734B (zh) * | 2020-04-03 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
JP2022097353A (ja) * | 2020-12-18 | 2022-06-30 | ハイパーコネクト インコーポレイテッド | 音声合成装置およびその方法 |
JP7254114B2 (ja) | 2020-12-18 | 2023-04-07 | ハイパーコネクト リミテッド ライアビリティ カンパニー | 音声合成装置およびその方法 |
WO2022141678A1 (zh) * | 2020-12-31 | 2022-07-07 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113012681A (zh) * | 2021-02-18 | 2021-06-22 | 深圳前海微众银行股份有限公司 | 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法 |
CN113012681B (zh) * | 2021-02-18 | 2024-05-17 | 深圳前海微众银行股份有限公司 | 基于唤醒语音模型的唤醒语音合成方法及应用唤醒方法 |
CN114495896A (zh) * | 2021-12-31 | 2022-05-13 | 深圳市优必选科技股份有限公司 | 一种语音播放方法及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6680933B2 (ja) | 2020-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US8046225B2 (en) | Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof | |
JP2019211748A (ja) | 音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体 | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP6452591B2 (ja) | 合成音声品質評価装置、合成音声品質評価方法、プログラム | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2012141354A (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
US11545135B2 (en) | Acoustic model learning device, voice synthesis device, and program | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
KR20200138993A (ko) | 감정 토큰을 이용한 감정 음성 합성 방법 및 장치 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2020129099A (ja) | 推定装置、推定方法、及びプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2019032427A (ja) | 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム | |
WO2024180662A1 (ja) | 音声合成装置、音声合成方法、音声情報処理装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190619 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6680933 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |