JP6902759B2 - 音響モデル学習装置、音声合成装置、方法およびプログラム - Google Patents

音響モデル学習装置、音声合成装置、方法およびプログラム Download PDF

Info

Publication number
JP6902759B2
JP6902759B2 JP2019150193A JP2019150193A JP6902759B2 JP 6902759 B2 JP6902759 B2 JP 6902759B2 JP 2019150193 A JP2019150193 A JP 2019150193A JP 2019150193 A JP2019150193 A JP 2019150193A JP 6902759 B2 JP6902759 B2 JP 6902759B2
Authority
JP
Japan
Prior art keywords
series
sequence
speech parameter
prediction model
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019150193A
Other languages
English (en)
Other versions
JP2021032947A (ja
Inventor
悟行 松永
悟行 松永
大和 大谷
大和 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Inc
Original Assignee
AI Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Inc filed Critical AI Inc
Priority to JP2019150193A priority Critical patent/JP6902759B2/ja
Priority to EP20855419.6A priority patent/EP4020464A4/en
Priority to CN202080058174.7A priority patent/CN114270433A/zh
Priority to PCT/JP2020/030833 priority patent/WO2021033629A1/ja
Publication of JP2021032947A publication Critical patent/JP2021032947A/ja
Application granted granted Critical
Publication of JP6902759B2 publication Critical patent/JP6902759B2/ja
Priority to US17/673,921 priority patent/US20220172703A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は、入力テキストに応じた音声を合成する音声合成技術に関する。
目標話者の音声データからその話者の合成音声を生成する方法として、DNN(Deep Neural Network)に基づく音声合成技術がある。この技術は、音声データからDNN音響モデルを学習するDNN音響モデル学習装置と、学習されたDNN音響モデルを用いて合成音声を生成する音声合成装置で構成されている。
特許文献1は、小さなサイズかつ複数話者の合成音声を生成できるDNN音響モデルを低コストで学習できる音響モデル学習を開示している。DNN音声合成において時系列である音声パラメータ系列をモデル化するために、Maximum Likelihood Parameter Generation(MLPG)やRecurrnet Neural Network(RNN)を利用することが一般的である。
特開2017−032839号公報
しかしながら、MLPGは発話レベルの処理のため低遅延の音声合成処理には適さない。また、RNNは高い性能を持つLSTM(Long Short Term Memory)−RNNが一般的に利用されるが、その再帰処理は複雑であり計算コストが高いため限られた計算資源の環境には適さない。
限られた計算資源の環境において低遅延の音声合成処理を実現するためには、Feed−Forward Neural Network(FFNN)が適切である。FFNNは基本的なDNNであるため構造が単純で計算コストは低く、Frame−by−frameで動作するため低遅延の処理に適している。
一方、FFNNには、隣接するフレーム間の音声パラメータの関係を無視して学習するため、時系列である音声パラメータ系列を適切にモデル化できない制約がある。この制約を解決するために、隣接するフレーム間の音声パラメータの関係を考慮するFFNN用の学習方法が必要になるという問題がある。
本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成技術を提供することにある。
上記課題を解決するために、第1の発明は、複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパス記憶部と、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、前記自然言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計する誤差集計装置と、前記誤差に所定の最適化を行い、前記予測モデルを学習する学習部を備え、前記誤差集計装置は、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習装置である。
第2の発明は、前記損失関数は、時間領域制約、局所的な分散、局所的な分散共分散行列、又は、局所的な相関係数行列に関する損失関数の少なくとも1つを含む第1の発明に記載の音響モデル学習装置である。
第3の発明は、前記損失関数は、さらに、系列内の分散、系列内の分散共分散行列、又は、系列内の相関係数行列に関する損失関数の少なくとも1つを含む第2の発明に記載の音響モデル学習装置である。
第4の発明は、前記損失関数は、さらに、次元領域制約に関する損失関数の少なくとも1つを含む第3の発明に記載の音響モデル学習装置である。
第5の発明は、複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測し、前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計し、前記誤差に所定の最適化を行い、前記予測モデルを学習する音響モデル学習方法であって、前記誤差を集計する際に、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習方法である。
第6の発明は、複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測するステップと、前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計するステップと、前記誤差に所定の最適化を行い、前記予測モデルを学習するステップと、をコンピュータに実行させる音響モデル学習プログラムであって、前記誤差を集計するステップは、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習プログラムである。
第7の発明は、音声合成対象文章の言語特徴量系列を記憶するコーパス記憶部と、第1の発明に記載の音響モデル学習装置で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、音声波形を生成するためのボコーダを記憶するボコーダ記憶部と、前記言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、前記合成音声パラメータ系列を入力とし、前記ボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置である。
第8の発明は、音声合成対象文章の言語特徴量系列を入力とし、第5の発明に記載の音響モデル学習方法で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測し、前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成する音声合成方法である。
第9の発明は、音声合成対象文章の言語特徴量系列を入力とし、第6の発明に記載の音響モデル学習プログラムで学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測するステップと、前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成するステップと、をコンピュータに実行させる音声合成プログラムである。
本発明によれば、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成技術を提供することができる。
本発明の実施形態に係るモデル学習装置の機能ブロック図ある。 本発明の実施形態に係る誤差集計装置の機能ブロック図ある。 本発明の実施形態に係る音声合成装置の機能ブロック図ある。 音声評価実験で用いる1発話の基本周波数系列の代表例を示す。 音声評価実験で用いる5次と10次のメルケプストラム系列の代表例を示す。 音声評価実験で用いる5次と10次のメルケプストラムの散布図の代表例を示す。 音声評価実験で用いる5次と10次のメルケプストラム系列の変調スペクトルの代表例を示す。
図面を参照しながら本発明の実施の形態を説明する。ここで、各図において共通する部分には同一の符号を付し、重複した説明は省略する。また、図形は、長方形が処理部を表し、平行四辺形がデータを表し、円柱がデータベースを表す。また、実線の矢印は処理の流れを表し、点線の矢印はデータベースの入出力を表す。
処理部及びデータベースは機能ブロック群であり、ハードウェアでの実装に限られず、ソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線(インターネット回線など)に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。
[A.本実施形態の概要]
本実施形態では、音声パラメータ系列を予測するためのDNN予測モデル(「音響モデル」ともいう)を学習する際に短期及び長期における音声パラメータ系列の特徴量の誤差を集計する処理を行い、そして、ボコーダによる音声合成処理を行う。これによって、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成による音声合成が可能になる。
(a1.モデル学習処理)
モデル学習処理は、言語特徴量系列から音声パラメータ系列を予測するためのDNN予測モデルの学習に関する。本実施形態で用いるDNN予測モデルはFFNN(フィードフォワード・ニューラルネットワーク)型の予測モデルであり、データの流れが一方向である。
また、モデル学習をする際に、短期及び長期における音声パラメータ系列の特徴量の誤差を集計する処理を行う。このために、本実施形態では、DNN予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を誤差集計処理に導入している。
(a2.音声合成処理)
音声合成処理では、学習後のDNN予測モデルを用いて、所定の言語特徴量系列から合成音声パラメータ系列を予測し、ニューラルボコーダを用いて合成音声波形を生成する。
[B.モデル学習装置の具体的な構成]
(b1.モデル学習装置100の各機能ブロックの説明)
図1は、本実施形態に係るモデル学習装置の機能ブロック図ある。モデル学習装置100は、各データベースとして、コーパス記憶部110と、DNN予測モデル記憶部150を備えている。また、モデル学習装置100は、各処理部として、音声パラメータ系列予測部140と、誤差集計装置200と、学習部180を備えている。
まず、一人又は複数人の音声を事前に収録する。ここでは200文程度の文章を読み上げ(発話し)、その発話音声を収録し、音声辞書を話者毎に作成する。各音声辞書には話者ID(話者識別情報)が付与されている。
そして、各音声辞書には、発話音声から抽出されたコンテキスト、音声波形、及び、自然音響特徴量が発話単位で格納されている。発話単位とは、文章毎の意味である。コンテキスト(「言語特徴量」ともいう)は各文章をテキスト解析した結果であり、音声波形に影響を与える要因(音素の並び、アクセント、イントネーションなど)である。音声波形は人が各文章を読み上げ、マイクロフォンに入力された波形である。
音響特徴量としてはスペクトル特徴量、基本周波数、周期・非周期指標、有声無声判定フラグなどがある。さらに、スペクトル特徴量としてはメルケプストラム、LPC(Linear Predictive Coding)、LSP(Line Spectral Pairs)などがある。
ここで、DNNは入出力の一対一の対応関係を表すモデルである。このため、DNN音声合成では、予めフレーム単位の音響特徴量系列と音素単位の言語特徴量系列の対応(音素境界)を設定し、フレーム単位の音響特徴量と言語特徴量の対を用意する必要がある。この対が本実施形態の音声パラメータ系列及び言語特徴量系列に相当する。
本実施形態では、言語特徴量系列及び音声パラメータ系列として、上述した音声辞書から、自然言語特徴量系列及び自然音声パラメータ系列を用意している。コーパス記憶部110は、複数の発話音声から抽出された入力データ系列(自然言語特徴量系列)120及び教師データ系列(自然音声パラメータ系列)160を発話単位で記憶している。
音声パラメータ系列予測部140は、DNN予測モデル記憶部150に記憶されているDNN予測モデルを用いて、入力データ系列(自然言語特徴量系列)120から出力データ系列(合成音声パラメータ系列)160を予測する。誤差集計装置200は、出力データ系列(合成音声パラメータ系列)160及び教師データ系列(自然音声パラメータ系列)130を入力とし、短期及び長期における音声パラメータ系列の特徴量の誤差170を集計する。
学習部180は誤差170を入力とし、所定の最適化(例えば、誤差逆伝搬法;Back Propagation)を行い、DNN予測モデルを学習(更新)する。学習後のDNN予測モデルはDNN予測モデル記憶部150に記憶される。
このような更新処理が、コーパス記憶部110に記憶された全ての入力データ系列(自然言語特徴量系列)120及び教師データ系列(自然音声パラメータ系列)160について実行される。
[C.誤差集計装置の具体的な構成]
(c1.誤差集計装置200の各機能ブロックの説明)
誤差集計装置200は、出力データ系列(合成音声パラメータ系列)160及び教師データ系列(自然音声パラメータ系列)130を入力とし、短期及び長期における音声パラメータ系列の誤差を計算する装置(211〜230)を実行する。そして、各誤差計算装置の出力は、各重み付け部(241〜248)によって0から1の間で重み付けが行われる。各重み付け部(241〜248)の出力は、加算部250で加算される。加算部250の出力が誤差170である。
各誤差計算装置(211〜230)は、大きく3つに分けることができる。すなわち、短期、長期、及び、次元領域制約に関する誤差計算装置である。
短期に関する誤差計算装置としては、時間領域制約に関する特徴量の系列の誤差計算装置211、局所的な分散の系列の誤差計算装置212、局所的な分散共分散行列の系列の誤差計算装置213、及び、局所的な相関係数行列の系列の誤差計算装置214があり、これらのうち少なくとも1つを用いればよい。
長期に関する誤差計算装置としては、系列内の分散の誤差計算装置221、系列内の分散共分散行列の誤差計算装置222、及び、系列内の相関係数行列の誤差計算装置223がある。ここで、系列とは一発話全てを意味し、「系列内の分散、分散共分散行列、及び、相関係数行列」は「発話内の分散、分散共分散行列、及び、相関係数行列」とも言える。後述するように、本実施形態の損失関数は、明示的に定義した短期の関係が暗黙的に長期の関係に波及する設計となっているため、長期に関する誤差計算装置は必須ではなく、また、これらのうち少なくとも1つを用いればよい。
次元領域制約に関する誤差計算装置としては、次元領域制約に関する特徴量の系列の誤差計算装置230がある。ここで、次元領域制約に関する特徴量とは、基本周波数(f)のような一次元の音響特徴量ではなく、多次元のスペクトル特徴量(スペクトラムの一種であるメルケプストラム)をいう。後述するように、次元領域制約に関する誤差計算装置は必須ではない。
(c2.誤差計算で用いる系列及び損失関数の説明)
x=[x ,・・・,x ,x は、自然言語特徴量系列(入力データ系列120)である。ここで、転置行列「上付き文字のT」をベクトル内と外で2つ用いているのは、時間情報を考慮するためである。また、「下付き文字のtとT」は、それぞれフレームのインデックスと総数である。フレーム間隔は5mS程度である。なお、損失関数は、隣接するフレームの関係を学習するために用いており、フレーム間隔に依らず動作可能である。
y=[y ,・・・,y ,y は、自然音声パラメータ系列(教師データ系列130)である。y^=[y^ ,・・・,y^ ,y^ は、生成された合成音声パラメータ系列(出力データ系列160)である。なお、本来は、ハット記号「^」は「y」の上に記載されるものであるが、明細書で使用可能な文字コードの都合上「y」と「^」を並べて記載する。
=[xt1,・・・,xti,・・・,xtI]とy=[yt1,・・・,ytd,・・・,ytD]はぞれぞれフレームtにおける言語特徴量ベクトルと音声パラメータベクトルである。ここで、「下付き文字のiとI」はそれぞれ言語特徴量ベクトルの次元のインデックスと総数であり、「下付き文字のdとD」はそれぞれ音声パラメータベクトルの次元のインデックスと総数である。
本実施形態の損失関数では、xとyを短期の閉区間[t+L,t+R]で区切った一連の系列XとY=[Y,・・・,Yτ,・・・,Y]をそれぞれDNNの入出力とする。ここで、Y=[yt+L,・・・,yt+τ,・・・,yt+R]はフレームtについての短期の系列であり、L(≦0)は後方参照するフレーム数であり、R(≧0)は前方参照するフレーム数であり、τ(L≦τ≦R)は短期内の参照フレームインデックスである。
FFNNでは、xt+τに対するy^t+τは隣接フレームとは関係なく独立して予測される。そこで、Y(「出力層」ともいう)に対して隣接するフレーム同士を関連付けるために時間領域制約(TD)、局所的な分散(LV)、局所的な分散共分散行列(LC)、局所的な相関係数行列(LR)の損失関数を導入する。これらの損失関数の効果はYとYt+τがオーバーラップの関係となっているため、学習段階で全てのフレームに波及する。このようにして、FFNNでもLSTM−RNNのように短期及び長期の学習を可能とする。
また、本実施形態の損失関数は、明示的に定義した短期の関係が暗黙的に長期の関係に波及する設計となっている。しかしながら、系列内の分散(GV)、系列内の分散共分散行列(GC)、系列内の相関係数行列(GR)の損失関数を導入することで長期の関係を明示的に定義することも可能である。
さらに、多次元の音声パラメータ(スペクトラムなど)については、次元領域制約(DD)を導入することによって、次元間の関係を考慮することが可能となる。
本実施形態の損失関数は、これらの損失関数の出力の重み付き和により式(1)のように定義される。
Figure 0006902759
ここで、i={TD,LV,LC,LR,GV,GC,GR,DD}は損失関数の識別子を表し、ωは識別子iの損失に対する重みである。
(c3.各誤差計算装置211〜230の説明)
時間領域制約に関する特徴量の系列の誤差計算装置211について説明する。YTD=[Y W,・・・,Y W,・・・,Y W]は閉区間[t+L,t+R]における各フレーム間の関係を表す特徴量の一連の系列であり、時間領域制約の損失関数LTD(Y,Y^)はYTDとY^TDの平均二乗誤差で式(2)のように定義される。
Figure 0006902759
ここで、W=[W ,・・・,W ,・・・,W ]は閉区間[t+L,t+R]における各フレーム間を関連付けるための係数行列であり、W=[WmL,・・・,Wm0,・・・,WmR]はm番目の係数ベクトルであり、mとMはそれぞれ係数ベクトルのインデックスと総数である。
局所的な分散の系列の誤差計算装置212について説明する。YLV=[v ,・・・,v ,・・・,v は閉区間[t+L,t+R]における分散ベクトルの系列であり、局所的な分散の損失関数LLV(Y,Y^)はYLVとY^LVの平均絶対誤差で式(3)のように定義される。
Figure 0006902759
ここで、v=[vt1,・・・,vtd,・・・,vtD]はフレームtにおけるD次元の分散ベクトルであり、次元dの分散vtdは式(4)により与えられる。
Figure 0006902759
ここで、y tdは式(5)のように閉区間[t+L,t+R]における次元dの平均である。なお、本来は、オーバーライン「」は「y」の上に記載されるものであるが、明細書で使用可能な文字コードの都合上「y」と「」を並べて記載する。
Figure 0006902759
局所的な分散共分散行列の誤差計算装置213について説明する。YLC=[c,・・・,c,・・・,c]は閉区間[t+L,t+R]における分散共分散行列の系列であり、局所的な分散共分散行列の損失関数LLC(Y,Y^)はYLCとY^LCの平均絶対誤差で式(6)のように定義される。
Figure 0006902759
ここで、cはフレームtにおけるD×Dの分散共分散行列であり式(7)により与えられる。
Figure 0006902759
ここで、Y =[y t1,・・・,y td,・・・,y tD]は閉区間[t+L,t+R]における平均ベクトルである。
局所的な相関係数行列の誤差計算装置214について説明する。YLR=[r,・・・,r,・・・,r]は閉区間[t+L,t+R]における相関係数行列の系列であり、局所的な相関係数行列の損失関数LLR(Y,Y^)はYLRとY^LRの平均絶対誤差で式(8)のように定義される。
Figure 0006902759
ここで、rはc+εと√(v +ε)の要素毎の商で与えられる相関係数行列であり、εは0(ゼロ)割を防ぐための微小値である。局所的な分散の損失関数LLV(Y,Y^)と局所的な分散共分散行列の損失関数LLC(Y,Y^)を併用した場合、cの対角成分とvが重複するため、これを回避するためにこの損失関数を利用する。
系列内の分散の誤差計算装置221について説明する。YGV=[V,・・・,V,・・・,V]はy=Y|τ=0についての分散ベクトルであり、系列内の分散の損失関数LGV(Y,Y^)はYGVとY^GVの平均絶対誤差で式(9)のように定義される。
Figure 0006902759
ここで、Vdは次元dの分散であり、式(10)により与えられる。
Figure 0006902759
ここで、y は次元dの平均であり、式(11)により与えられる。
Figure 0006902759
系列内の分散共分散行列の誤差計算装置222について説明する。YGCはy=Y|τ=0についての分散共分散行列であり、系列内の分散共分散行列の損失関数LGC(Y,Y^)はYGCとY^GCの平均絶対誤差で式(12)のように定義される。
Figure 0006902759
ここで、YGCは式(13)で与えられる。
Figure 0006902759
ここで、y=[y ,・・・,y ,・・・,y ]はD次元の平均ベクトルである。
系列内の相関係数行列の誤差計算装置223について説明する。YGRはy=Y|τ=0についての相関係数行列であり、系列内の相関係数行列の損失関数LGR(Y,Y^)はYGRとY^GRの平均絶対誤差で式(14)のように定義される。
Figure 0006902759
ここで、YGRはYGC+εと√(YGV GV+ε)の要素毎の商で与えられる相関係数行列であり、εは0(ゼロ)割を防ぐための微小値である。系列内の分散の損失関数LGV(Y,Y^)と系列内の分散共分散行列の損失関数LGC(Y,Y^)を併用した場合、YGCの対角成分とYGVが重複するため、これを回避するためにこの損失関数を利用する。
次元領域制約に関する特徴量の誤差計算装置230について説明する。YDD=yWは次元間の関係を表す特徴量の系列であり、次元領域制約に関する特徴量の損失関数LDD(Y,Y^)はYDDとY^DDの平均絶対誤差で式(15)のように定義される。
Figure 0006902759
ここで、W=[W ,・・・,W ,・・・,W ]は次元間を関連付けるための係数行列であり、W=[Wn1,・・・,Wnd,・・・,WnD]はn番目の係数ベクトルであり、nとNはそれぞれ係数ベクトルのインデックスと総数である。
(c4.実施例1:音響特徴量に基本周波数(f)を用いる場合)
音響特徴量に基本周波数(f)を用いる場合、誤差集計装置200は、時間領域制約に関する特徴量の系列の誤差計算装置211、局所的な分散の系列の誤差計算装置212、及び、系列内の分散の誤差計算装置221を用いる。この場合、各重み付け部のうち、241、242、及び、245の重みのみを「1」に設定し、残りの重みを「0」に設定すればよい。ここで、基本周波数(f)は一次元であるため、分散共分散行列、相関係数行列、及び、次元領域制約は用いない。
(c5.実施例2:音響特徴量にメルケプストラムを用いる場合)
音響特徴量にメルケプストラム(スペクトラムの一種)を用いる場合、誤差集計装置200は、局所的な分散の系列の誤差計算装置212、局所的な分散共分散行列の誤差計算装置213、局所的な相関係数行列の誤差計算装置214、系列内の分散の誤差計算装置221、及び、次元領域制約に関する特徴量の誤差計算装置230を用いる。この場合、各重み付け部のうち、242、243、244、245、及び、248の重みのみを「1」に設定し、残りの重みを「0」に設定すればよい。
[D.音声合成装置の具体的な構成]
図3は、本実施形態に係る音声合成装置の機能ブロック図ある。音声合成装置300は、各データベースとして、コーパス記憶部310と、DNN予測モデル記憶部150と、ボコーダ記憶部360を備えている。また、音声合成装置300は、各処理部として、音声パラメータ系列予測部140と、波形合成処理部350を備えている。
コーパス記憶部310は、音声合成したい文章(音声合成対象文章)の言語特徴量系列320を記憶している。
音声パラメータ系列予測部140は、言語特徴量系列320を入力とし、DNN予測モデル記憶部150の学習後のDNN予測モデルで処理し、合成音声パラメータ系列340を出力する。
波形合成処理部350は、合成音声パラメータ系列340を入力とし、ボコーダ記憶部360のボコーダで処理し、合成音声波形370を出力する。
[E.音声評価]
(e1.実験条件)
音声評価の実験には、東京方言のプロの女性話者一名の音声コーパスを使用した。音声は平静音声で、学習用には2000発話、評価用には学習用とは別に100発話を用意した。言語特徴量は527次元のベクトル系列であり、外れ値が発生しないように発話内の正規化手法により正規化した。基本周波数は16bit、48kHzでサンプリングした収録音声から、5msフレーム周期で抽出した。また、学習の前処理として、基本周波数を対数化してから、無音と無声の区間を補間した。
本実施形態では前処理を施したままの1次元のベクトル系列とし、従来例では前処理を施した後に一次の動的特徴量を付与した2次元のベクトル系列とした。さらに、本実施形態と従来例ともに、無音区間は学習から除外し、学習セット全体から平均と分散を求めて標準化した。スペクトル特徴量は60次元のメルケプストラム系列(α:0.55)である。メルケプストラムは16bit、48kHzでサンプリングした収録音声から5msのフレーム周期で抽出したスペクトルから求めた。また、無音区間は学習から除外し、学習セット全体から平均と分散を求めて標準化した。
DNNは、ノード数を512、所定の活性化関数とする4層の隠れ層と、線形の活性化関数の出力層で構成されるFFNNとした。学習のエポックは20、バッチサイズは1発話単位として、ランダムに学習データを選択する手法を用いて、所定の最適化手法により学習した。
基本周波数とスペクトル特徴量は別々にモデル化した。従来例おいて、損失関数は基本周波数とスペクトル特徴量のDNNともに平均二乗誤差とした。本実施形態において、基本周波数のDNNの損失関数の各パラメータはL=−15、R=0、W=[[0,・・・,0,1]、[0,・・・,0,−20,20]]、ωTD=1、ωGV=1、ωLV=1とし、スペクトル特徴量のDNNの損失関数の各パラメータはL=−2、R=2、W=[[0,0,1,0,0]]、ωTD=1、ωGV=1、ωLV=3、ωLC=3とした。また、従来例ではDNNから予測された一次の動的特徴量が付加された基本周波数の系列に、動的特徴量を考慮したパラメータ生成法(MLPG)を適用した。
(e2.実験結果)
図4は、音声評価実験で用いる評価セットから選んだ1発話の基本周波数系列の代表例(a)〜(d)を示す。横軸はフレームインデックス(Frame index)を、縦軸は基本周波数(F0 in Hz)を表す。同図(a)は目標(Target)の基本周波数系列を、同図(b)は本実施形態が提案する手法(Prop.)の基本周波数系列を、同図(c)はMLPGを適用した従来例(Conv. w/ MLPG)の基本周波数系列を、同図(d)はMLPGを適用しない従来例(Conv. w/o MLPG)の基本周波数系列をそれぞれ示す。
同図(a)に対して、同図(b)は滑らかであり軌跡の形状も似ている。また、同図(c)も同様に滑らかであり軌跡の形状も似ている。一方、同図(d)は滑らかではなく不連続である。本実施形態はDNNから予測された基本周波数系列に後処理を適用しなくても滑らかであるのに対して、従来例はDNNから予測された基本周波数系列に対して後処理であるMLPGを適用しなければ滑らかにすることができない。MLPGは発話単位の処理であるため、発話内のすべてのフレームの基本周波数を予測してからでしか適用することができない。このため、低遅延を必要とする音声合成システムには不向きである。
図5〜図7は、評価セットから選んだ1発話のメルケプストラムの代表例を示す。各図のうち、(a)は目標(Target)の場合を、(b)は本実施形態が提案する手法(Prop.)の場合を、(c)は従来例(Conv.)の場合を表す。
図5は、5次と10次のメルケプストラム系列の代表例を示す。横軸はフレームインデックス(Frame index)を、上段の縦軸は5次のメルケプストラム係数(5th)を、下段の縦軸は10次のメルケプストラム係数(10th)を表す。
図6は、5次と10次のメルケプストラムの散布図の代表例を示す。横軸は5次のメルケプストラム係数(5th)を、縦軸は10次のメルケプストラム係数(10th)を表す。
図7は、5次と10次のメルケプストラム系列の変調スペクトルの代表例を示す。横軸は周波数(Frequency)[Hz]を、上段の縦軸は5次のメルケプストラム係数(5th)の変調スペクトル[dB]を、下段の縦軸は10次のメルケプストラム係数(10th)の変調スペクトル[dB]を表す。ここでの変調スペクトルとは、短時間フーリエ変換の平均パワースペクトルをいう。
従来例と目標のメルケプストラム系列を比較すると,従来例の系列は微細構造が再現されておらず平滑化されており、系列の変動(振幅や分散)はやや小さい(図5(c))。また、系列の分布は十分な広がりがなく特定の範囲に集中している(図6(c))。さらに,変調スペクトルは30Hz以上において10dB低く、高周波成分を再現できていない(図7(c))。
一方で、本実施形態と目標のメルケプストラム系列を比較すると、本実施形態の系列は微細構造が再現されており、その変動もほぼ目標の系列と同じである(図5(b))。また、系列の分布は目標の分布と似ている(図6(b))。さらに、変調スペクトルは20〜80Hzにおいて数dB低いが概ね同じである(図7(b))。本実施形態を用いることで目標の系列に迫る精度でメルケプストラム系列をモデル化できることがわかる。
[F.作用効果]
モデル学習装置100は、言語特徴量系列から音声パラメータ系列を予測するためのDNN予測モデルを学習する際に、短期及び長期における音声パラメータ系列の特徴量の誤差を集計する処理を行う。そして、音声合成装置300は、学習後のDNN予測モデルを用いて、合成音声パラメータ系列340を生成し、ボコーダによる音声合成を行う。これによって、限られた計算資源の環境において低遅延、かつ、適切にモデル化されたDNNによる音声合成が可能になる。
さらに、モデル学習装置100は、短期及び長期に加え、次元領域制約に関する誤差計算を行うと、多次元のスペクトル特徴量についても、適切にモデル化されたDNNによる音声合成が可能になる。
以上、本発明の実施形態について説明してきたが、これらのうち、2つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施例を部分的に実施しても構わない。
また、本発明は、上記発明の実施形態の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。
100 DNN音響モデル学習装置
200 誤差集計装置
300 音声合成装置

Claims (9)

  1. 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパス記憶部と、
    ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、
    前記自然言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、
    前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計する誤差集計装置と、
    前記誤差に所定の最適化を行い、前記予測モデルを学習する学習部を備え、
    前記誤差集計装置は、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習装置。
  2. 前記損失関数は、時間領域制約、局所的な分散、局所的な分散共分散行列、又は、局所的な相関係数行列に関する損失関数の少なくとも1つを含む請求項1に記載の音響モデル学習装置。
  3. 前記損失関数は、さらに、系列内の分散、系列内の分散共分散行列、又は、系列内の相関係数行列に関する損失関数の少なくとも1つを含む請求項2に記載の音響モデル学習装置。
  4. 前記損失関数は、さらに、次元領域制約に関する損失関数の少なくとも1つを含む請求項3に記載の音響モデル学習装置。
  5. 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測し、
    前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計し、
    前記誤差に所定の最適化を行い、前記予測モデルを学習する音響モデル学習方法であって、
    前記誤差を集計する際に、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習方法。
  6. 複数の発話音声から抽出された自然言語特徴量系列及び自然音声パラメータ系列を発話単位で記憶するコーパスから、前記自然言語特徴量系列を入力とし、ある自然言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを用いて合成音声パラメータ系列を予測するステップと、
    前記合成音声パラメータ系列と前記自然音声パラメータ系列に関する誤差を集計するステップと、
    前記誤差に所定の最適化を行い、前記予測モデルを学習するステップと、
    をコンピュータに実行させる音響モデル学習プログラムであって、
    前記誤差を集計するステップは、前記予測モデルの出力層に対して隣接するフレーム同士を関連付けるための損失関数を用いる音響モデル学習プログラム。
  7. 音声合成対象文章の言語特徴量系列を記憶するコーパス記憶部と、
    請求項1に記載の音響モデル学習装置で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測するためのフィードフォワード・ニューラルネットワーク型の予測モデルを記憶する予測モデル記憶部と、
    音声波形を生成するためのボコーダを記憶するボコーダ記憶部と、
    前記言語特徴量系列を入力とし、前記予測モデルを用いて合成音声パラメータ系列を予測する音声パラメータ系列予測部と、
    前記合成音声パラメータ系列を入力とし、前記ボコーダを用いて合成音声波形を生成する波形合成処理部を備える音声合成装置。
  8. 音声合成対象文章の言語特徴量系列を入力とし、請求項5に記載の音響モデル学習方法で学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測し、
    前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成する音声合成方法。
  9. 音声合成対象文章の言語特徴量系列を入力とし、請求項6に記載の音響モデル学習プログラムで学習した、ある言語特徴量系列からある合成音声パラメータ系列を予測する予測モデルを用いて、合成音声パラメータ系列を予測するステップと、
    前記合成音声パラメータ系列を入力とし、音声波形を生成するためのボコーダを用いて、合成音声波形を生成するステップと、
    をコンピュータに実行させる音声合成プログラム。

JP2019150193A 2019-08-20 2019-08-20 音響モデル学習装置、音声合成装置、方法およびプログラム Active JP6902759B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019150193A JP6902759B2 (ja) 2019-08-20 2019-08-20 音響モデル学習装置、音声合成装置、方法およびプログラム
EP20855419.6A EP4020464A4 (en) 2019-08-20 2020-08-14 ACOUSTIC PATTERN LEARNING DEVICE, VOICE SYNTHESIS DEVICE, METHOD AND PROGRAM
CN202080058174.7A CN114270433A (zh) 2019-08-20 2020-08-14 声学模型学习装置、语音合成装置、方法以及程序
PCT/JP2020/030833 WO2021033629A1 (ja) 2019-08-20 2020-08-14 音響モデル学習装置、音声合成装置、方法およびプログラム
US17/673,921 US20220172703A1 (en) 2019-08-20 2022-02-17 Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019150193A JP6902759B2 (ja) 2019-08-20 2019-08-20 音響モデル学習装置、音声合成装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021032947A JP2021032947A (ja) 2021-03-01
JP6902759B2 true JP6902759B2 (ja) 2021-07-14

Family

ID=74661105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019150193A Active JP6902759B2 (ja) 2019-08-20 2019-08-20 音響モデル学習装置、音声合成装置、方法およびプログラム

Country Status (5)

Country Link
US (1) US20220172703A1 (ja)
EP (1) EP4020464A4 (ja)
JP (1) JP6902759B2 (ja)
CN (1) CN114270433A (ja)
WO (1) WO2021033629A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7178028B2 (ja) 2018-01-11 2022-11-25 ネオサピエンス株式会社 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607774B2 (ja) * 1996-04-12 2005-01-05 オリンパス株式会社 音声符号化装置
JP2005024794A (ja) * 2003-06-30 2005-01-27 Toshiba Corp 音声合成方法と装置および音声合成プログラム
KR100672355B1 (ko) * 2004-07-16 2007-01-24 엘지전자 주식회사 음성 코딩/디코딩 방법 및 그를 위한 장치
JP5376643B2 (ja) * 2009-03-25 2013-12-25 Kddi株式会社 音声合成装置、方法およびプログラム
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN109767755A (zh) * 2019-03-01 2019-05-17 广州多益网络股份有限公司 一种语音合成方法和系统

Also Published As

Publication number Publication date
WO2021033629A1 (ja) 2021-02-25
US20220172703A1 (en) 2022-06-02
JP2021032947A (ja) 2021-03-01
EP4020464A1 (en) 2022-06-29
EP4020464A4 (en) 2022-10-05
CN114270433A (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Juvela et al. Speech waveform synthesis from MFCC sequences with generative adversarial networks
Van Den Oord et al. Wavenet: A generative model for raw audio
Juvela et al. GELP: GAN-excited linear prediction for speech synthesis from mel-spectrogram
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
Nirmal et al. Voice conversion using general regression neural network
Adiga et al. Acoustic features modelling for statistical parametric speech synthesis: a review
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Reddy et al. Excitation modelling using epoch features for statistical parametric speech synthesis
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
Al-Radhi et al. Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder
Koriyama et al. Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model.
JP6902759B2 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
Li et al. Simultaneous estimation of glottal source waveforms and vocal tract shapes from speech signals based on arx-lf model
Suda et al. A revisit to feature handling for high-quality voice conversion based on Gaussian mixture model
Kannan et al. Voice conversion using spectral mapping and TD-PSOLA
Al-Radhi et al. Continuous vocoder applied in deep neural network based voice conversion
Reddy et al. Inverse filter based excitation model for HMM‐based speech synthesis system
Kobayashi et al. Implementation of f0 transformation for statistical singing voice conversion based on direct waveform modification
Wen et al. Pitch-scaled spectrum based excitation model for HMM-based speech synthesis
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
Al-Radhi et al. Noise and acoustic modeling with waveform generator in text-to-speech and neutral speech conversion
TW201001396A (en) Method for synthesizing speech
Roebel et al. Towards universal neural vocoding with a multi-band excited wavenet
Kotani et al. Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210611

R150 Certificate of patent or registration of utility model

Ref document number: 6902759

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250