JP7146991B2

JP7146991B2 - 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品

Info

Publication number: JP7146991B2
Application number: JP2021048816A
Authority: JP
Inventors: 志傑陳; 濤孫; 磊 ▲カ▼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2021-03-23
Publication date: 2022-10-04
Anticipated expiration: 2041-03-23
Also published as: US20210201887A1; CN112037760B; EP3816992A2; KR102488010B1; KR20210038470A; JP2021119381A; CN112037760A; US11488578B2; EP3816992A3

Description

本願は、データ処理技術分野に関し、特に音声合成及び深層学習技術分野に関し、具体的には音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品に関する。

スペクトル生成技術は、音声合成において非常に重要な技術である。スペクトルは、橋渡しとして、入力された文字系列と、最終的に合成されるオーディオとを関連付ける。

従来技術において、音声スペクトル生成モデルは、生成されたスペクトルの誤差を平均二乗誤差ＭＳＥ（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）損失関数を用いてフィードバックするが、ＭＳＥ損失関数に基づくモデリングは、スペクトルの本質を反映することができず、生成されたスペクトルが非常に曖昧なものである。ボコーダが真の明瞭なスペクトルで学習を行う場合、上記のような曖昧なスペクトルがボコーダに入力されると、ボコーダの学習と判定に不整合が生じ、ボコーダの安定性に大きな影響を与え、最終的に合成されるオーディオの音質に影響を与える。

本開示は、音声スペクトル生成モデルの学習方法、装置、機器及び記憶媒体を提供する。

本開示の一態様によれば、音声スペクトル生成モデルの学習方法を提供し、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得することと、前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得することと、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習することとを含む。

本開示の別の態様によれば、音声スペクトル生成モデルの学習装置を提供し、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得する第１取得モジュールと、前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得する第２取得モジュールと、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する第１学習モジュールとを含む。

本願の技術によれば、前記音声スペクトル生成モデルで生成したスペクトル系列は、より明確なものとなり、より真のスペクトル系列の分布に近づく。

このセクションに記載された内容は、本願の実施例のポイントや重要な特徴を特定することを意図するものではなく、また、本願の範囲を限定するために使用されるものでもないことを理解されたい。本願の他の特徴は、以下の明細書から容易に理解される。

図面は、本構成をよりよく理解するためのものであり、本願の限定にならない。

本願の実施例１に係る音声スペクトル生成モデルの学習方法のフローチャートである。本願の実施例１に係る音声スペクトル生成モデルでスペクトル系列を生成する原理図である。本願の実施例２に係る音声スペクトル生成モデルの学習方法のフローチャートである。本願の実施例２に係る敵対的損失関数モデルによるスペクトル系列のダウンサンプリングである。本願の実施例２に係る敵対的損失関数モデルの構造図である。本願の実施例３に係る音声スペクトル生成モデルの学習装置のブロック図その１である。本願の実施例３に係る音声スペクトル生成モデルの学習装置のブロック図その２である。本願の実施例に係る音声スペクトル生成モデルの学習方法が実現されるシナリオ図である。

以下、図面を参照して本願の例示的な実施例を説明し、理解することに寄与する本願の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本願の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。

スペクトル生成技術は、音声合成技術において非常に重要な一環であり、文字系列からスペクトル系列への変換を実現し、スペクトル系列を橋渡しとして、入力された文字系列と最終的に合成されるオーディオとを関連付ける。

従来技術におけるスペクトル生成技術は、一般的に、文字系列を入力とし、スペクトル系列を出力とするＴａｃｏｔｒｏｎモデルを用い、Ａｔｔｅｎｔｉｏｎ技術を用いて、エンドツーエンドの音声合成モデリングを実現し、損失関数としてＭＳＥ関数を用いる。しかしながら、ＭＳＥ損失関数は、ポイント毎の比較方法によって損失値を計算するが、生成されたスペクトル系列の多モード属性のため、上記の計算方法では、スペクトル系列を本質的に表現することができず、更にスペクトルの真偽を正確に反映することができない。それによって、Ｔａｃｏｔｒｏｎモデルによって生成されたスペクトル系列は、曖昧なものとなり、真のスペクトル系列と大きく異なり、最終的に合成されるオーディオの音質が劣化する。

スペクトル系列の特徴を本質から反映し、更にスペクトル系列の真偽を正確に判別できる損失関数が存在すれば、このような損失関数でスペクトル生成モデルを学習することで、よりリアルで明瞭なスペクトル系列を生成することができる。

本願は、ニューラルネットワークの一般的近似定理に基づいて、ニューラルネットワークモデルを用いて上記所望の損失関数を表して近似すると共に、敵対的生成ネットワークに基づいて学習することにより、スペクトル系列の真偽を正確に判別し、更にスペクトル生成モデルにフィードバックし、音声スペクトル生成モデルで生成したスペクトル系列が真の分布により近くなるようにすることができる。

具体的には、本願の実施例に基づいて、本願は、音声スペクトル生成モデルの学習方法を提供する。

図１を参照すると、図１は、本願の実施例に係る音声スペクトル生成モデルの学習方法のフローチャートである。前記方法は、以下のステップを含む。

Ｓ１０１において、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得する。

ここで、前記第１文字系列は、前記音声スペクトル生成モデルの訓練サンプルとして、１つの文字系列であってもよいし、複数の文字系列のセットであってもよい。これにより、多数の訓練サンプルによって現在の前記音声スペクトル生成モデルで生成したスペクトル系列と真のスペクトルとの間のギャップを正確に反映することができる。前記第１文字系列に対応する真のスペクトル系列は、直接サウンドバンクから取得することができる。

前記音声スペクトル生成モデルは、Ｔａｃｏｔｒｏｎモデルであってもよいし、文字から音声ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）の他のモデルであってもよい。ここで、説明と理解の便宜のために、Ｔａｃｏｔｒｏｎモデルを例に本願の実施例を説明するが、具体的に限定しない。

前記所定の損失関数は、ＭＳＥ損失関数である。ＭＳＥ損失関数の損失値は、Ｔａｃｏｔｒｏｎモデルによって生成されたスペクトル系列と真のスペクトル系列との差の２乗の期待値を表し、前記音声スペクトル生成モデルで生成したスペクトル系列の了解度の学習の担う。もちろん、前記所定の損失関数は、他の損失関数であってもよい。ここで説明と理解の便宜のために、ＭＳＥ損失関数を例に本願の実施例を説明するが、具体的に限定しない。

本ステップでは、図２に示すように、文字系列をＴａｃｏｔｒｏｎモデルに入力し、学習初期にランダム初期化パラメータに基づいて、Ｔａｃｏｔｒｏｎモデルは、文字系列に対応する模擬スペクトル系列を生成する。模擬スペクトル系列は、文字系列に対応する真のスペクトル系列とは区別される。ＭＳＥ損失関数に基づいて、模擬スペクトル系列に対応する第１損失値が算出される。前記第１損失値は、真のスペクトル系列に対する模擬スペクトル系列の了解度の損失を表す。

Ｓ１０２において、前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得する。

ニューラルネットワークの一般的近似定理に基づいて、本質的に敵対的生成ネットワークの深層学習モデルである前記敵対的損失関数モデルは、１つの損失関数に近似することができ、敵対的学習方式で学習して１つの損失関数を表すことができる。該損失関数は、スペクトル系列の特徴を本質から表現することができ、前記音声スペクトル生成モデルで生成したスペクトル系列の明瞭度の学習を担う。

本ステップでは、図２に示すように、Ｓ１０１で生成した模擬スペクトル系列を敵対的損失関数モデルに入力し、真のスペクトル系列に対する模擬スペクトル系列の明瞭度の損失を表す第２損失値を出力することができる。

Ｓ１０３において、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する。

以上のことから、前記所定の損失関数は、ＭＳＥ損失関数を例として、前記音声スペクトル生成モデルで生成したスペクトル系列の了解度の学習を担い、前記敵対的損失関数モデルは、前記音声スペクトル生成モデルで生成したスペクトル系列の明瞭度の学習を担う。本ステップでは、前記第１損失値と前記第２損失値を所定の割合で前記音声スペクトル生成モデルにフィードバックすることによって、前記音声スペクトル生成モデルを損失値に基づいて自己学習させてパラメータを最適化する。

ここで、前記所定の割合は、具体的には異なるサウンドバンクにおける発話者の特徴に基づいて決定され、本願において具体的に限定しない。前記の第１損失値と前記第２損失値を所定の割合で前記音声スペクトル生成モデルにフィードバックすることは、前記第１損失値と前記第２損失値とを前記所定の割合の重みで前記音声スペクトル生成モデルにフィードバックすることとして理解してもよい。

このように、上記２つの損失関数を前記音声スペクトル生成モデルに共にフィードバックすることによって、所定の損失関数を用いて別個に学習するよりも、前記音声スペクトル生成モデルのパラメータを更に最適化することができ、それにより、学習後の前記音声スペクトル生成モデルで生成したスペクトル系列は、了解度が保証され、明瞭度が更に向上する。

本願の上記実施例によれば、以下の利点又は効果を有する。第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得し、前記第１文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得し、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する。前記敵対的損失関数モデルは、敵対的生成ネットワークに基づいて１つの損失関数を学習し、所定の損失関数と共に前記音声スペクトル生成モデルを学習することによって、前記音声スペクトル生成モデルで生成したスペクトル系列をより明瞭にすることができ、更に、後続のオーディオ変換時の安定性を向上させ、最終的に合成されるオーディオの音質を向上させることができる。

図３を参照すると、図３は、本願の実施例に係る別の音声スペクトル生成モデルの学習方法のフローチャートである。前記方法において、以下のステップを含む。

Ｓ３０１において、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得する。

本ステップの具体的な実施形態は、図１に示す実施例におけるＳ１０１の具体的な説明を参照し、重複を避けるため、ここでは繰り返し説明しない。

Ｓ３０２において、第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列を取得する。前記第２文字系列に対応する模擬スペクトル系列は、前記音声スペクトル生成モデルによって生成される。

ここで、前記第２文字系列は、１つの文字系列であってもよいし、複数の文字系列のセットであってもよい。また、前記第２文字系列は、前記第１文字系列と全く同じ文字系列セットであってもよいし、前記第１文字系列と部分的に同じ文字系列セットであってもよいし、前記第１文字系列と全く異なる文字系列セットであってもよく、本願において具体的に限定しない。

前記第２文字系列に対応する真のスペクトル系列は、サウンドバンクから直接取得することができる。前記第２文字系列に対応する模擬スペクトル系列は、前記音声スペクトル生成モデルによって生成される。

Ｓ３０３において、前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する。

ここで、前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列は、前記敵対的損失関数モデルの学習サンプルとして理解してもよい。

本願の実施例において、前記敵対的損失関数モデルは、敵対的生成ネットワークに基づく深層学習モデルであるため、多数の同一文字系列の真のスペクトル系列と模擬スペクトル系列のサンプルデータによって、前記敵対的損失関数モデルは、敵対的生成方式で自己学習することができ、それによって表す損失関数は、スペクトル系列の本質をより正確に反映し、真のスペクトル系列と模擬スペクトル系列との間の差をより正確に反映することができる。

任意選択で、前記の前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することは、前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第２文字系列に対応する真のスペクトル系列に対する前記第２文字系列に対応する模擬スペクトル系列の損失を表す第３損失値を取得することと、前記第３損失値に基づいて前記敵対的損失関数モデルを学習することとを含む。

本願の実施例において、前記第２文字系列に対応する真のスペクトル系列と前記第２文字系列に対応する模擬スペクトル系列、即ち、同一文字系列の真のスペクトル系列と模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記敵対的損失関数モデルは、前記真のスペクトル系列と模擬スペクトル系列をそれぞれ特徴抽出及び分析する。

ここで、前記スペクトル系列の出力値が大きいほど、前記スペクトル系列が真のスペクトル系列に近いことを示し、前記スペクトル系列の出力値が小さいほど、前記スペクトル系列と真のスペクトル系列との間の差が大きいことを示し、出力値に対して、前記敵対的損失関数モデル自体の損失関数に基づいて第３損失値を算出することができる。

本願の上記実施例によれば、以下の利点又は効果を有する。同一文字系列の真のスペクトル系列と模擬スペクトル系列とを前記敵対的損失関数モデルに入力することによって、前記敵対的損失関数モデルは、前記真のスペクトル系列と模擬スペクトル系列との特徴の違いを比較学習することができ、前記敵対的損失関数モデルによって表される損失関数は、スペクトル系列の真偽をより正確に反映することができる。

なお、本実施例における技術的手段は、図１に示す実施例にも同様に適用され、同様の効果を奏するので、重複を避けるために、ここで繰り返し述べない。

Ｓ３０４において、前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第２損失値を取得する。

Ｓ３０３での前記敵対的損失関数モデルの学習後、前記敵対的損失関数モデルのパラメータが更新される。この時の敵対的損失関数モデルは、初期化時の敵対的損失関数モデルよりも所望の損失関数に近い。

本ステップでは、前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力し、取得された第２損失値を前記第１損失値と併せて前記音声スペクトル生成モデルにフィードバックすることによって、新規の損失値に基づく前記音声スペクトル生成モデルの再学習を可能にし、前記音声スペクトル生成モデルのパラメータが更に最適化される。

任意選択で、前記の前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第２損失値を取得することは、前記第１文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得することと、前記第１文字系列に対応する模擬スペクトル系列をＮ回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得することと、前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得することと、全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第２損失値を取得することとを含む。

スペクトル系列の多モード属性のため、それに対する特徴抽出及び分析は、多角的にマルチスケールで行うことが求められる。本願の実施例では、前記敵対的損失関数モデルは、それに入力されるスペクトル系列を複数回ダウンサンプリングし、ダウンサンプリング毎のスペクトル系列を全て前記敵対的損失関数モデルに入力して特徴抽出及び分析を行って判別する。

具体的には、図４に示すように、まず、前記第１文字系列に対応するオリジナルの模擬スペクトル系列をｎ回ダウンサンプリングし、ダウンサンプリング毎のスペクトル系列を取得する。その後、上記ダウンサンプリング毎のスペクトル系列を全て前記敵対的損失関数モデルに入力して特徴抽出及び分析を行う。前記オリジナルのスペクトル系列は、対応的にオリジナル損失値を出力し、ダウンサンプリング毎のスペクトル系列は、１つのサブ損失値をそれぞれ出力する。ダウンサンプリングのスペクトル系列に対応する損失値を、それぞれ、前記敵対的損失関数モデルにフィードバックする必要がある。具体的には、ｉ番目のダウンサンプリングのスペクトル系列に対応する第ｉサブ損失値を前記敵対的損失関数モデルにフィードバックし、更に前記ｉ番目のダウンサンプリングのスペクトル系列にフィードバックした後、ダウンサンプリング毎に対応するサブ損失値をオリジナルの模擬スペクトル系列に１層ずつフィードバックして、前記第２損失値を得る。

このように、前記敵対的損失関数モデルは、入力されたスペクトルを異なるスケールで特徴抽出及び分析し、スペクトルの真偽を判別するという作用を高次元空間で達成する。

一実施形態では、前記第１文字系列に対応する模擬スペクトル系列をダウンサンプリングすることは、以下のように実現される。前記第１文字系列に対応する模擬スペクトル系列が１００フレーム×８０次元の特徴行列として示されると仮定し、隣接する２つのフレームのデータの平均値を取ることで、５０フレーム×８０次元の特徴行列のダウンサンプリングが可能となり、このように類推する。なお、前記ダウンサンプリングの実施形態は、これに限定されるものではなく、本願の実施例は、具体的に限定しない。

なお、前記敵対的損失関数モデルを同一文字系列の真のスペクトル系列と模擬スペクトル系列を用いて学習する際に、前記敵対的損失関数モデルに入力される真のスペクトル系列と模擬スペクトル系列を、いずれも上述のように複数回のダウンサンプリングを行い、前記敵対的損失関数モデルの特徴抽出能力と判別能力をマルチスケールで学習する。

本願の上記実施例は、以下の利点又は効果を有する。前記第１文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力した後、前記敵対的損失関数モデルは、スペクトル系列を複数回ダウンサンプリングすることができ、入力されたスペクトルを異なるスケールで特徴抽出及び分析し、前記敵対的損失関数による前記スペクトル系列の真偽判別をより正確に行える。

任意選択で、前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる。

本願の実施例において、図５に示すように、前記敵対的損失関数モデルは、多層の深層畳み込みニューラルネットワークモデルを用いる。複数の層の畳み込み層を通じてスペクトル系列の特徴を多角的に抽出することができる。例えば、第１層の畳み込み層は、エッジ、線及び角などの階層レベルのようないくつかの下位の特徴のみを抽出することができるが、より多くの層のネットワークは、下位の特徴からより複雑な特徴を反復的に抽出することができ、畳み込みニューラルネットワークは、スペクトルを抽象化する際にスペクトル系列のコンテキスト情報を保存して特徴抽出をより包括して正確にすることができる。畳み込み層の階層数は、必要に応じて決定することができるが、本発明の実施例は、具体的に限定しない。

Ｓ３０５において、前記第１損失値と前記第２損失値に基づいて、前記音声スペクトル生成モデルを学習する。

本ステップの具体的な実施形態は、図１に示す実施例におけるＳ１０３の具体的な説明を参照し、重複を避けるため、ここでは繰り返し説明しない。

本開示の実施形態において、前記音声スペクトル生成モデルと前記敵対的損失関数モデルは、交互巡回学習プロセスが存在する。以下のように理解する。Ｓ４０１において、音声スペクトル生成モデルが初期化状態にある場合、パラメータをランダムに初期化し、入力された第２文字系列に基づいて、対応する模擬スペクトル系列を生成する。Ｓ４０２において、上記生成された前記第２文字系列に対応する模擬スペクトル系列を前記第２文字系列に対応する真のスペクトル系列と共に初期化された敵対的損失関数モデルに入力し、前記敵対的損失関数モデルを１次学習する。Ｓ４０３において、第１文字系列を初期化された音声スペクトル生成モデルに入力して前記第１文字系列に対応する模擬スペクトル系列を生成し、学習後の敵対的損失関数モデルを音声スペクトル生成モデルの損失関数とし、所定の損失関数と共に音声スペクトル生成モデルを１回学習し、ここまで１つの学習サイクルである。その後、学習後の音声スペクトル生成モデルで生成した模擬スペクトル系列で、Ｓ４０２からＳ４０３のステップを繰り返し、前記音声スペクトル生成モデルと前記敵対的損失関数モデルを順次巡回的に交代して学習する。

本願の実施例において、前記音声スペクトル生成モデルと前記敵対的損失関数モデルの交互巡回学習が可能であり、互いに敵対的に学習する過程で、前記敵対的損失関数モデルを所望の損失関数に徐々に近づけ、前記音声スペクトル生成モデルで生成したスペクトル系列を真のスペクトル系列に徐々に近づける。

本願の実施例における学習方法は、図１に示す実施例を基に多くの代替実施形態を追加し、いずれも、生成されるスペクトル系列をより明瞭にすることができる。

本願は、音声スペクトル生成モデルの学習装置を更に提供する。

図６に示すように、音声スペクトル生成モデルの学習装置６００は、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得する第１取得モジュール６０１と、前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得する第２取得モジュール６０２と、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する第１学習モジュール６０３とを含む。

任意選択で、図７に示すように、音声スペクトル生成モデルの学習装置６００は、第２文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第２文字系列に対応する模擬スペクトル系列を取得する第３取得モジュール６０４と、前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する第２学習モジュール６０５とを更に含む。第２取得モジュール６０２は、具体的には、前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第２損失値を取得する。

任意選択で、第２学習モジュール６０５は、前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第２文字系列に対応する真のスペクトル系列に対する前記第２文字系列に対応する模擬スペクトル系列の損失を表す第３損失値を取得する第１取得ユニットと、前記第３損失値に基づいて前記敵対的損失関数モデルを学習する学習ユニットとを含む。

任意選択で、第２取得モジュール６０２は、前記第１文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得する第２取得ユニットと、前記第１文字系列に対応する模擬スペクトル系列をＮ回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得するダウンサンプリングユニットと、前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得する第３取得ユニットと、全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第２損失値を取得する第４取得ユニットとを含む。

本願の上記実施例において、音声スペクトル生成モデルの学習装置６００は、図１と図３に示す方法の実施例で実現される各プロセスを実現することができ、同様の効果を奏することができるので、その繰り返しを避けるために、ここではその説明を省略する。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を更に提供する。

図８は、本願の実施例の音声スペクトル生成モデルの学習方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は特許請求される本願の実現を限定することを意図しない。

図８に示すように、該電子機器は、１又は複数のプロセッサ８０１、メモリ８０２、及び高速インターフェースと低速インターフェースを含む、各構成要素を接続するためのインターフェースを含む。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にＧＵＩのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び／又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）。図８では、１つのプロセッサ８０１を例に挙げている。

メモリ８０２は、本願において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行されるコマンドが格納されている。それによって、前記少なくとも１つのプロセッサは、本願において提供される音声スペクトル生成モデルの学習方法を実行する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、本願において提供される音声スペクトル生成モデルの学習方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。

非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ８０２は、本願の実施例における音声スペクトル生成モデルの学習方法に対応するプログラムコマンド／モジュール（例えば、図６に示す第１取得モジュール６０１、第２取得モジュール６０２及び第１学習モジュール６０３）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ８０１は、メモリ８０２に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における音声スペクトル生成モデルの学習方法を実現する。

メモリ８０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ８０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。一部の実施形態では、メモリ８０２は、任意選択で、プロセッサ８０１に対して遠隔に配置されたメモリを含む。これらの遠隔メモリは、ネットワークを介して音声スペクトル生成モデルの学習方法に係る電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。

音声スペクトル生成モデルの学習方法に係る電子機器は、入力装置８０３と出力装置８０４とを更に含んでもよい。プロセッサ８０１、メモリ８０２、入力装置８０３及び出力装置８０４は、バス又は他の方式で接続され、図８では、バスを介して接続される例が示される。

タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置などの入力装置８０３は、入力された数字又は文字情報を受信し、音声スペクトル生成モデルの学習方法係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生じる。出力装置８０４は、ディスプレイ装置、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを含む。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。

本明細書に記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現される。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈可能な１つ又は複数のコンピュータプログラムで実現することを含む。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び／又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能な信号」は、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。

本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ）、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体（例えば、通信ネットワーク）のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットなどが挙げられる。

コンピュータシステムは、クライアント及びサーバを含む。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスアーキテクチャにおけるホスト製品の１つであり、従来の物理ホスト及びＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおける管理困難性が高く、トラフィック拡張性が低いという欠点を解決する。

本願の実施例の技術手段によれば、第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得し、前記第１文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得し、前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する。前記敵対的損失関数モデルは、敵対的生成ネットワークに基づいて１つの損失関数を学習し、所定の損失関数と共に前記音声スペクトル生成モデルを学習することによって、前記音声スペクトル生成モデルで生成したスペクトル系列をより明瞭にし、真のスペクトル系列の分布により近いものすることができ、更に、後続のオーディオ変換時の安定性を向上させ、最終的に合成されるオーディオの音質を向上させることができる。

上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書ではこれについて限定しない。

上述した具体的な実施形態は、本願の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本願の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本願の保護範囲に含まれるべきである。

Claims

音声スペクトル生成モデルの学習方法であって、
第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得することと、
前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得することと、
前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習することとを含む、音声スペクトル生成モデルの学習方法。
前記の前記第１文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得する前に、
第２文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第２文字系列に対応する模擬スペクトル系列を取得することと、
前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することとを更に含み、
前記の前記第１文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得することは、
前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第２損失値を取得することを含む、請求項１に記載の音声スペクトル生成モデルの学習方法。
前記の前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することは、
前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第２文字系列に対応する真のスペクトル系列に対する前記第２文字系列に対応する模擬スペクトル系列の損失を表す第３損失値を取得することと、
前記第３損失値に基づいて前記敵対的損失関数モデルを学習することとを含む、請求項２に記載の音声スペクトル生成モデルの学習方法。
前記の前記第１文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得することは、
前記第１文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得することと、
前記第１文字系列に対応する模擬スペクトル系列をＮ回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得することと、
前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得することと、
全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第２損失値を取得することとを含む、請求項１に記載の音声スペクトル生成モデルの学習方法。
前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項１に記載の音声スペクトル生成モデルの学習方法。
音声スペクトル生成モデルの学習装置であって、
第１文字系列を音声スペクトル生成モデルに入力し、前記第１文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第１損失値を取得する第１取得モジュールと、
前記第１文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第２損失値を取得する第２取得モジュールと、
前記第１損失値と前記第２損失値とに基づいて、前記音声スペクトル生成モデルを学習する第１学習モジュールとを含む、音声スペクトル生成モデルの学習装置。
第２文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第２文字系列に対応する模擬スペクトル系列を取得する第３取得モジュールと、
前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する第２学習モジュールとを更に含み、
前記第２取得モジュールは、具体的には、
前記第１文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第２損失値を取得する、請求項６に記載の学習装置。
前記第２学習モジュールは、
前記第２文字系列に対応する真のスペクトル系列と、前記第２文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第２文字系列に対応する真のスペクトル系列に対する前記第２文字系列に対応する模擬スペクトル系列の損失を表す第３損失値を取得する第１取得ユニットと、
前記第３損失値に基づいて前記敵対的損失関数モデルを学習する学習ユニットとを含む、請求項７に記載の学習装置。
前記第２取得モジュールは、
前記第１文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得する第２取得ユニットと、
前記第１文字系列に対応する模擬スペクトル系列をＮ回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得するダウンサンプリングユニットと、
前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得する第３取得ユニットと、
全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第２損失値を取得する第４取得ユニットとを含む、請求項６に記載の学習装置。
前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項６に記載の学習装置。
少なくとも１つのプロセッサと、及び
前記少なくとも１つのプロセッサと通信可能に接続されたメモリであって、前記少なくとも１つのプロセッサによって実行されると、請求項１～５のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させることのできる、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納されているメモリを含むことを特徴とする電子機器。
コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドは、請求項１～５のいずれか１項に記載の方法をコンピュータに実行させることを特徴とする、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体。
プロセッサによって実行されると、請求項１～５のいずれか１項に記載の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品。