JP6902759B2 - 音響モデル学習装置、音声合成装置、方法およびプログラム - Google Patents
音響モデル学習装置、音声合成装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6902759B2 JP6902759B2 JP2019150193A JP2019150193A JP6902759B2 JP 6902759 B2 JP6902759 B2 JP 6902759B2 JP 2019150193 A JP2019150193 A JP 2019150193A JP 2019150193 A JP2019150193 A JP 2019150193A JP 6902759 B2 JP6902759 B2 JP 6902759B2
- Authority
- JP
- Japan
- Prior art keywords
- series
- sequence
- speech parameter
- prediction model
- synthetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 230000006870 function Effects 0.000 claims description 49
- 239000011159 matrix material Substances 0.000 claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000001308 synthesis method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 36
- 239000013598 vector Substances 0.000 description 17
- 230000007774 longterm Effects 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Description
本実施形態では、音声パラメータ系列を予測するためのDNN予測モデル(「音響モデル」ともいう)を学習する際に短期及び長期における音声パラメータ系列の特徴量の誤差を集計する処理を行い、そして、ボコーダによる音声合成処理を行う。これによって、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成による音声合成が可能になる。
モデル学習処理は、言語特徴量系列から音声パラメータ系列を予測するためのDNN予測モデルの学習に関する。本実施形態で用いるDNN予測モデルはFFNN(フィードフォワード・ニューラルネットワーク)型の予測モデルであり、データの流れが一方向である。
音声合成処理では、学習後のDNN予測モデルを用いて、所定の言語特徴量系列から合成音声パラメータ系列を予測し、ニューラルボコーダを用いて合成音声波形を生成する。
(b1.モデル学習装置100の各機能ブロックの説明)
図1は、本実施形態に係るモデル学習装置の機能ブロック図ある。モデル学習装置100は、各データベースとして、コーパス記憶部110と、DNN予測モデル記憶部150を備えている。また、モデル学習装置100は、各処理部として、音声パラメータ系列予測部140と、誤差集計装置200と、学習部180を備えている。
(c1.誤差集計装置200の各機能ブロックの説明)
誤差集計装置200は、出力データ系列(合成音声パラメータ系列)160及び教師データ系列(自然音声パラメータ系列)130を入力とし、短期及び長期における音声パラメータ系列の誤差を計算する装置(211〜230)を実行する。そして、各誤差計算装置の出力は、各重み付け部(241〜248)によって0から1の間で重み付けが行われる。各重み付け部(241〜248)の出力は、加算部250で加算される。加算部250の出力が誤差170である。
x=[x1 T,・・・,xt T,xT T]Tは、自然言語特徴量系列(入力データ系列120)である。ここで、転置行列「上付き文字のT」をベクトル内と外で2つ用いているのは、時間情報を考慮するためである。また、「下付き文字のtとT」は、それぞれフレームのインデックスと総数である。フレーム間隔は5mS程度である。なお、損失関数は、隣接するフレームの関係を学習するために用いており、フレーム間隔に依らず動作可能である。
時間領域制約に関する特徴量の系列の誤差計算装置211について説明する。YTD=[Y1 TW,・・・,Yt TW,・・・,YT TW]は閉区間[t+L,t+R]における各フレーム間の関係を表す特徴量の一連の系列であり、時間領域制約の損失関数LTD(Y,Y^)はYTDとY^TDの平均二乗誤差で式(2)のように定義される。
音響特徴量に基本周波数(f0)を用いる場合、誤差集計装置200は、時間領域制約に関する特徴量の系列の誤差計算装置211、局所的な分散の系列の誤差計算装置212、及び、系列内の分散の誤差計算装置221を用いる。この場合、各重み付け部のうち、241、242、及び、245の重みのみを「1」に設定し、残りの重みを「0」に設定すればよい。ここで、基本周波数(f0)は一次元であるため、分散共分散行列、相関係数行列、及び、次元領域制約は用いない。
音響特徴量にメルケプストラム(スペクトラムの一種)を用いる場合、誤差集計装置200は、局所的な分散の系列の誤差計算装置212、局所的な分散共分散行列の誤差計算装置213、局所的な相関係数行列の誤差計算装置214、系列内の分散の誤差計算装置221、及び、次元領域制約に関する特徴量の誤差計算装置230を用いる。この場合、各重み付け部のうち、242、243、244、245、及び、248の重みのみを「1」に設定し、残りの重みを「0」に設定すればよい。
図3は、本実施形態に係る音声合成装置の機能ブロック図ある。音声合成装置300は、各データベースとして、コーパス記憶部310と、DNN予測モデル記憶部150と、ボコーダ記憶部360を備えている。また、音声合成装置300は、各処理部として、音声パラメータ系列予測部140と、波形合成処理部350を備えている。
(e1.実験条件)
音声評価の実験には、東京方言のプロの女性話者一名の音声コーパスを使用した。音声は平静音声で、学習用には2000発話、評価用には学習用とは別に100発話を用意した。言語特徴量は527次元のベクトル系列であり、外れ値が発生しないように発話内の正規化手法により正規化した。基本周波数は16bit、48kHzでサンプリングした収録音声から、5msフレーム周期で抽出した。また、学習の前処理として、基本周波数を対数化してから、無音と無声の区間を補間した。
図4は、音声評価実験で用いる評価セットから選んだ1発話の基本周波数系列の代表例(a)〜(d)を示す。横軸はフレームインデックス(Frame index)を、縦軸は基本周波数(F0 in Hz)を表す。同図(a)は目標(Target)の基本周波数系列を、同図(b)は本実施形態が提案する手法(Prop.)の基本周波数系列を、同図(c)はMLPGを適用した従来例(Conv. w/ MLPG)の基本周波数系列を、同図(d)はMLPGを適用しない従来例(Conv. w/o MLPG)の基本周波数系列をそれぞれ示す。
モデル学習装置100は、言語特徴量系列から音声パラメータ系列を予測するためのDNN予測モデルを学習する際に、短期及び長期における音声パラメータ系列の特徴量の誤差を集計する処理を行う。そして、音声合成装置300は、学習後のDNN予測モデルを用いて、合成音声パラメータ系列340を生成し、ボコーダによる音声合成を行う。これによって、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成が可能になる。
200 誤差集計装置
300 音声合成装置
Claims (9)
- 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパス記憶部と、
ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、
前記自然言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、
前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計する誤差集計装置と、
前記誤差に所定の最適化を行い、前記予測モデルを学習する学習部を備え、
前記誤差集計装置は、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習装置。 - 前記損失関数は、時間領域制約、局所的な分散、局所的な分散共分散行列、又は、局所的な相関係数行列に関する損失関数の少なくとも1つを含む請求項1に記載の音響モデル学習装置。
- 前記損失関数は、さらに、系列内の分散、系列内の分散共分散行列、又は、系列内の相関係数行列に関する損失関数の少なくとも1つを含む請求項2に記載の音響モデル学習装置。
- 前記損失関数は、さらに、次元領域制約に関する損失関数の少なくとも1つを含む請求項3に記載の音響モデル学習装置。
- 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測し、
前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計し、
前記誤差に所定の最適化を行い、前記予測モデルを学習する音響モデル学習方法であって、
前記誤差を集計する際に、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習方法。 - 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測するステップと、
前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計するステップと、
前記誤差に所定の最適化を行い、前記予測モデルを学習するステップと、
をコンピュータに実行させる音響モデル学習プログラムであって、
前記誤差を集計するステップは、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習プログラム。 - 音声合成対象文章の言語特徴量系列を記憶するコーパス記憶部と、
請求項1に記載の音響モデル学習装置で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、
音声波形を生成するためのボコーダを記憶するボコーダ記憶部と、
前記言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、
前記合成音声パラメータ系列を入力とし、前記ボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置。 - 音声合成対象文章の言語特徴量系列を入力とし、請求項5に記載の音響モデル学習方法で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測し、
前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成する音声合成方法。 - 音声合成対象文章の言語特徴量系列を入力とし、請求項6に記載の音響モデル学習プログラムで学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測するステップと、
前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成するステップと、
をコンピュータに実行させる音声合成プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019150193A JP6902759B2 (ja) | 2019-08-20 | 2019-08-20 | 音響モデル学習装置、音声合成装置、方法およびプログラム |
EP20855419.6A EP4020464A4 (en) | 2019-08-20 | 2020-08-14 | ACOUSTIC PATTERN LEARNING DEVICE, VOICE SYNTHESIS DEVICE, METHOD AND PROGRAM |
CN202080058174.7A CN114270433A (zh) | 2019-08-20 | 2020-08-14 | 声学模型学习装置、语音合成装置、方法以及程序 |
PCT/JP2020/030833 WO2021033629A1 (ja) | 2019-08-20 | 2020-08-14 | 音響モデル学習装置、音声合成装置、方法およびプログラム |
US17/673,921 US20220172703A1 (en) | 2019-08-20 | 2022-02-17 | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019150193A JP6902759B2 (ja) | 2019-08-20 | 2019-08-20 | 音響モデル学習装置、音声合成装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021032947A JP2021032947A (ja) | 2021-03-01 |
JP6902759B2 true JP6902759B2 (ja) | 2021-07-14 |
Family
ID=74661105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019150193A Active JP6902759B2 (ja) | 2019-08-20 | 2019-08-20 | 音響モデル学習装置、音声合成装置、方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220172703A1 (ja) |
EP (1) | EP4020464A4 (ja) |
JP (1) | JP6902759B2 (ja) |
CN (1) | CN114270433A (ja) |
WO (1) | WO2021033629A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7178028B2 (ja) | 2018-01-11 | 2022-11-25 | ネオサピエンス株式会社 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607774B2 (ja) * | 1996-04-12 | 2005-01-05 | オリンパス株式会社 | 音声符号化装置 |
JP2005024794A (ja) * | 2003-06-30 | 2005-01-27 | Toshiba Corp | 音声合成方法と装置および音声合成プログラム |
KR100672355B1 (ko) * | 2004-07-16 | 2007-01-24 | 엘지전자 주식회사 | 음성 코딩/디코딩 방법 및 그를 위한 장치 |
JP5376643B2 (ja) * | 2009-03-25 | 2013-12-25 | Kddi株式会社 | 音声合成装置、方法およびプログラム |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
JP6622505B2 (ja) | 2015-08-04 | 2019-12-18 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
-
2019
- 2019-08-20 JP JP2019150193A patent/JP6902759B2/ja active Active
-
2020
- 2020-08-14 WO PCT/JP2020/030833 patent/WO2021033629A1/ja unknown
- 2020-08-14 CN CN202080058174.7A patent/CN114270433A/zh active Pending
- 2020-08-14 EP EP20855419.6A patent/EP4020464A4/en not_active Withdrawn
-
2022
- 2022-02-17 US US17/673,921 patent/US20220172703A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2021033629A1 (ja) | 2021-02-25 |
US20220172703A1 (en) | 2022-06-02 |
JP2021032947A (ja) | 2021-03-01 |
EP4020464A1 (en) | 2022-06-29 |
EP4020464A4 (en) | 2022-10-05 |
CN114270433A (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Juvela et al. | Speech waveform synthesis from MFCC sequences with generative adversarial networks | |
Van Den Oord et al. | Wavenet: A generative model for raw audio | |
Juvela et al. | GELP: GAN-excited linear prediction for speech synthesis from mel-spectrogram | |
WO2020215666A1 (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
Nirmal et al. | Voice conversion using general regression neural network | |
Adiga et al. | Acoustic features modelling for statistical parametric speech synthesis: a review | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Reddy et al. | Excitation modelling using epoch features for statistical parametric speech synthesis | |
KR20180078252A (ko) | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 | |
Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
Koriyama et al. | Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model. | |
JP6902759B2 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
Li et al. | Simultaneous estimation of glottal source waveforms and vocal tract shapes from speech signals based on arx-lf model | |
Suda et al. | A revisit to feature handling for high-quality voice conversion based on Gaussian mixture model | |
Kannan et al. | Voice conversion using spectral mapping and TD-PSOLA | |
Al-Radhi et al. | Continuous vocoder applied in deep neural network based voice conversion | |
Reddy et al. | Inverse filter based excitation model for HMM‐based speech synthesis system | |
Kobayashi et al. | Implementation of f0 transformation for statistical singing voice conversion based on direct waveform modification | |
Wen et al. | Pitch-scaled spectrum based excitation model for HMM-based speech synthesis | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
Al-Radhi et al. | Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion | |
TW201001396A (en) | Method for synthesizing speech | |
Roebel et al. | Towards universal neural vocoding with a multi-band excited wavenet | |
Kotani et al. | Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210423 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902759 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |