JP2021119381A - 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 - Google Patents

音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2021119381A
JP2021119381A JP2021048816A JP2021048816A JP2021119381A JP 2021119381 A JP2021119381 A JP 2021119381A JP 2021048816 A JP2021048816 A JP 2021048816A JP 2021048816 A JP2021048816 A JP 2021048816A JP 2021119381 A JP2021119381 A JP 2021119381A
Authority
JP
Japan
Prior art keywords
sequence
simulated
learning
hostile
loss value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021048816A
Other languages
English (en)
Other versions
JP7146991B2 (ja
Inventor
志傑 陳
Zhijie Chen
志傑 陳
濤 孫
Tao Sun
濤 孫
磊 ▲カ▼
磊 ▲カ▼
Lei Jia
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021119381A publication Critical patent/JP2021119381A/ja
Application granted granted Critical
Publication of JP7146991B2 publication Critical patent/JP7146991B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声合成及び深層学習の技術分野に関する音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品を提供する。【解決手段】音声スペクトル生成モデルの学習方法は、第1文字系列を音声スペクトル生成モデルに入力して第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて模擬スペクトル系列の第1損失値を取得することと、第1文字系列に対応する模擬スペクトル系列を敵対的生成ネットワークモデルである敵対的損失関数モデルに入力して模擬スペクトル系列の第2損失値を取得することと、第1損失値と第2損失値とに基づいて音声スペクトル生成モデルを学習することと、を含む。【選択図】図1

Description

本願は、データ処理技術分野に関し、特に音声合成及び深層学習技術分野に関し、具体的には音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品に関する。
スペクトル生成技術は、音声合成において非常に重要な技術である。スペクトルは、橋渡しとして、入力された文字系列と、最終的に合成されるオーディオとを関連付ける。
従来技術において、音声スペクトル生成モデルは、生成されたスペクトルの誤差を平均二乗誤差MSE(Mean Square Error)損失関数を用いてフィードバックするが、MSE損失関数に基づくモデリングは、スペクトルの本質を反映することができず、生成されたスペクトルが非常に曖昧なものである。ボコーダが真の明瞭なスペクトルで学習を行う場合、上記のような曖昧なスペクトルがボコーダに入力されると、ボコーダの学習と判定に不整合が生じ、ボコーダの安定性に大きな影響を与え、最終的に合成されるオーディオの音質に影響を与える。
本開示は、音声スペクトル生成モデルの学習方法、装置、機器及び記憶媒体を提供する。
本開示の一態様によれば、音声スペクトル生成モデルの学習方法を提供し、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得することと、前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することと、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習することとを含む。
本開示の別の態様によれば、音声スペクトル生成モデルの学習装置を提供し、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する第1取得モジュールと、前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する第2取得モジュールと、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する第1学習モジュールとを含む。
本願の技術によれば、前記音声スペクトル生成モデルで生成したスペクトル系列は、より明確なものとなり、より真のスペクトル系列の分布に近づく。
このセクションに記載された内容は、本願の実施例のポイントや重要な特徴を特定することを意図するものではなく、また、本願の範囲を限定するために使用されるものでもないことを理解されたい。本願の他の特徴は、以下の明細書から容易に理解される。
図面は、本構成をよりよく理解するためのものであり、本願の限定にならない。
本願の実施例1に係る音声スペクトル生成モデルの学習方法のフローチャートである。 本願の実施例1に係る音声スペクトル生成モデルでスペクトル系列を生成する原理図である。 本願の実施例2に係る音声スペクトル生成モデルの学習方法のフローチャートである。 本願の実施例2に係る敵対的損失関数モデルによるスペクトル系列のダウンサンプリングである。 本願の実施例2に係る敵対的損失関数モデルの構造図である。 本願の実施例3に係る音声スペクトル生成モデルの学習装置のブロック図その1である。 本願の実施例3に係る音声スペクトル生成モデルの学習装置のブロック図その2である。 本願の実施例に係る音声スペクトル生成モデルの学習方法が実現されるシナリオ図である。
以下、図面を参照して本願の例示的な実施例を説明し、理解することに寄与する本願の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本願の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。
スペクトル生成技術は、音声合成技術において非常に重要な一環であり、文字系列からスペクトル系列への変換を実現し、スペクトル系列を橋渡しとして、入力された文字系列と最終的に合成されるオーディオとを関連付ける。
従来技術におけるスペクトル生成技術は、一般的に、文字系列を入力とし、スペクトル系列を出力とするTacotronモデルを用い、Attention技術を用いて、エンドツーエンドの音声合成モデリングを実現し、損失関数としてMSE関数を用いる。しかしながら、MSE損失関数は、ポイント毎の比較方法によって損失値を計算するが、生成されたスペクトル系列の多モード属性のため、上記の計算方法では、スペクトル系列を本質的に表現することができず、更にスペクトルの真偽を正確に反映することができない。それによって、Tacotronモデルによって生成されたスペクトル系列は、曖昧なものとなり、真のスペクトル系列と大きく異なり、最終的に合成されるオーディオの音質が劣化する。
スペクトル系列の特徴を本質から反映し、更にスペクトル系列の真偽を正確に判別できる損失関数が存在すれば、このような損失関数でスペクトル生成モデルを学習することで、よりリアルで明瞭なスペクトル系列を生成することができる。
本願は、ニューラルネットワークの一般的近似定理に基づいて、ニューラルネットワークモデルを用いて上記所望の損失関数を表して近似すると共に、敵対的生成ネットワークに基づいて学習することにより、スペクトル系列の真偽を正確に判別し、更にスペクトル生成モデルにフィードバックし、音声スペクトル生成モデルで生成したスペクトル系列が真の分布により近くなるようにすることができる。
具体的には、本願の実施例に基づいて、本願は、音声スペクトル生成モデルの学習方法を提供する。
図1を参照すると、図1は、本願の実施例に係る音声スペクトル生成モデルの学習方法のフローチャートである。前記方法は、以下のステップを含む。
S101において、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する。
ここで、前記第1文字系列は、前記音声スペクトル生成モデルの訓練サンプルとして、1つの文字系列であってもよいし、複数の文字系列のセットであってもよい。これにより、多数の訓練サンプルによって現在の前記音声スペクトル生成モデルで生成したスペクトル系列と真のスペクトルとの間のギャップを正確に反映することができる。前記第1文字系列に対応する真のスペクトル系列は、直接サウンドバンクから取得することができる。
前記音声スペクトル生成モデルは、Tacotronモデルであってもよいし、文字から音声TTS(Text To Speech)の他のモデルであってもよい。ここで、説明と理解の便宜のために、Tacotronモデルを例に本願の実施例を説明するが、具体的に限定しない。
前記所定の損失関数は、MSE損失関数である。MSE損失関数の損失値は、Tacotronモデルによって生成されたスペクトル系列と真のスペクトル系列との差の2乗の期待値を表し、前記音声スペクトル生成モデルで生成したスペクトル系列の了解度の学習の担う。もちろん、前記所定の損失関数は、他の損失関数であってもよい。ここで説明と理解の便宜のために、MSE損失関数を例に本願の実施例を説明するが、具体的に限定しない。
本ステップでは、図2に示すように、文字系列をTacotronモデルに入力し、学習初期にランダム初期化パラメータに基づいて、Tacotronモデルは、文字系列に対応する模擬スペクトル系列を生成する。模擬スペクトル系列は、文字系列に対応する真のスペクトル系列とは区別される。MSE損失関数に基づいて、模擬スペクトル系列に対応する第1損失値が算出される。前記第1損失値は、真のスペクトル系列に対する模擬スペクトル系列の了解度の損失を表す。
S102において、前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する。
ニューラルネットワークの一般的近似定理に基づいて、本質的に敵対的生成ネットワークの深層学習モデルである前記敵対的損失関数モデルは、1つの損失関数に近似することができ、敵対的学習方式で学習して1つの損失関数を表すことができる。該損失関数は、スペクトル系列の特徴を本質から表現することができ、前記音声スペクトル生成モデルで生成したスペクトル系列の明瞭度の学習を担う。
本ステップでは、図2に示すように、S101で生成した模擬スペクトル系列を敵対的損失関数モデルに入力し、真のスペクトル系列に対する模擬スペクトル系列の明瞭度の損失を表す第2損失値を出力することができる。
S103において、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する。
以上のことから、前記所定の損失関数は、MSE損失関数を例として、前記音声スペクトル生成モデルで生成したスペクトル系列の了解度の学習を担い、前記敵対的損失関数モデルは、前記音声スペクトル生成モデルで生成したスペクトル系列の明瞭度の学習を担う。本ステップでは、前記第1損失値と前記第2損失値を所定の割合で前記音声スペクトル生成モデルにフィードバックすることによって、前記音声スペクトル生成モデルを損失値に基づいて自己学習させてパラメータを最適化する。
ここで、前記所定の割合は、具体的には異なるサウンドバンクにおける発話者の特徴に基づいて決定され、本願において具体的に限定しない。前記の第1損失値と前記第2損失値を所定の割合で前記音声スペクトル生成モデルにフィードバックすることは、前記第1損失値と前記第2損失値とを前記所定の割合の重みで前記音声スペクトル生成モデルにフィードバックすることとして理解してもよい。
このように、上記2つの損失関数を前記音声スペクトル生成モデルに共にフィードバックすることによって、所定の損失関数を用いて別個に学習するよりも、前記音声スペクトル生成モデルのパラメータを更に最適化することができ、それにより、学習後の前記音声スペクトル生成モデルで生成したスペクトル系列は、了解度が保証され、明瞭度が更に向上する。
本願の上記実施例によれば、以下の利点又は効果を有する。第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得し、前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得し、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する。前記敵対的損失関数モデルは、敵対的生成ネットワークに基づいて1つの損失関数を学習し、所定の損失関数と共に前記音声スペクトル生成モデルを学習することによって、前記音声スペクトル生成モデルで生成したスペクトル系列をより明瞭にすることができ、更に、後続のオーディオ変換時の安定性を向上させ、最終的に合成されるオーディオの音質を向上させることができる。
図3を参照すると、図3は、本願の実施例に係る別の音声スペクトル生成モデルの学習方法のフローチャートである。前記方法において、以下のステップを含む。
S301において、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する。
本ステップの具体的な実施形態は、図1に示す実施例におけるS101の具体的な説明を参照し、重複を避けるため、ここでは繰り返し説明しない。
S302において、第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列を取得する。前記第2文字系列に対応する模擬スペクトル系列は、前記音声スペクトル生成モデルによって生成される。
ここで、前記第2文字系列は、1つの文字系列であってもよいし、複数の文字系列のセットであってもよい。また、前記第2文字系列は、前記第1文字系列と全く同じ文字系列セットであってもよいし、前記第1文字系列と部分的に同じ文字系列セットであってもよいし、前記第1文字系列と全く異なる文字系列セットであってもよく、本願において具体的に限定しない。
前記第2文字系列に対応する真のスペクトル系列は、サウンドバンクから直接取得することができる。前記第2文字系列に対応する模擬スペクトル系列は、前記音声スペクトル生成モデルによって生成される。
S303において、前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する。
ここで、前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列は、前記敵対的損失関数モデルの学習サンプルとして理解してもよい。
本願の実施例において、前記敵対的損失関数モデルは、敵対的生成ネットワークに基づく深層学習モデルであるため、多数の同一文字系列の真のスペクトル系列と模擬スペクトル系列のサンプルデータによって、前記敵対的損失関数モデルは、敵対的生成方式で自己学習することができ、それによって表す損失関数は、スペクトル系列の本質をより正確に反映し、真のスペクトル系列と模擬スペクトル系列との間の差をより正確に反映することができる。
任意選択で、前記の前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することは、前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得することと、前記第3損失値に基づいて前記敵対的損失関数モデルを学習することとを含む。
本願の実施例において、前記第2文字系列に対応する真のスペクトル系列と前記第2文字系列に対応する模擬スペクトル系列、即ち、同一文字系列の真のスペクトル系列と模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記敵対的損失関数モデルは、前記真のスペクトル系列と模擬スペクトル系列をそれぞれ特徴抽出及び分析する。
ここで、前記スペクトル系列の出力値が大きいほど、前記スペクトル系列が真のスペクトル系列に近いことを示し、前記スペクトル系列の出力値が小さいほど、前記スペクトル系列と真のスペクトル系列との間の差が大きいことを示し、出力値に対して、前記敵対的損失関数モデル自体の損失関数に基づいて第3損失値を算出することができる。
本願の上記実施例によれば、以下の利点又は効果を有する。同一文字系列の真のスペクトル系列と模擬スペクトル系列とを前記敵対的損失関数モデルに入力することによって、前記敵対的損失関数モデルは、前記真のスペクトル系列と模擬スペクトル系列との特徴の違いを比較学習することができ、前記敵対的損失関数モデルによって表される損失関数は、スペクトル系列の真偽をより正確に反映することができる。
なお、本実施例における技術的手段は、図1に示す実施例にも同様に適用され、同様の効果を奏するので、重複を避けるために、ここで繰り返し述べない。
S304において、前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得する。
S303での前記敵対的損失関数モデルの学習後、前記敵対的損失関数モデルのパラメータが更新される。この時の敵対的損失関数モデルは、初期化時の敵対的損失関数モデルよりも所望の損失関数に近い。
本ステップでは、前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力し、取得された第2損失値を前記第1損失値と併せて前記音声スペクトル生成モデルにフィードバックすることによって、新規の損失値に基づく前記音声スペクトル生成モデルの再学習を可能にし、前記音声スペクトル生成モデルのパラメータが更に最適化される。
任意選択で、前記の前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得することは、前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得することと、前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得することと、前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得することと、全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得することとを含む。
スペクトル系列の多モード属性のため、それに対する特徴抽出及び分析は、多角的にマルチスケールで行うことが求められる。本願の実施例では、前記敵対的損失関数モデルは、それに入力されるスペクトル系列を複数回ダウンサンプリングし、ダウンサンプリング毎のスペクトル系列を全て前記敵対的損失関数モデルに入力して特徴抽出及び分析を行って判別する。
具体的には、図4に示すように、まず、前記第1文字系列に対応するオリジナルの模擬スペクトル系列をn回ダウンサンプリングし、ダウンサンプリング毎のスペクトル系列を取得する。その後、上記ダウンサンプリング毎のスペクトル系列を全て前記敵対的損失関数モデルに入力して特徴抽出及び分析を行う。前記オリジナルのスペクトル系列は、対応的にオリジナル損失値を出力し、ダウンサンプリング毎のスペクトル系列は、1つのサブ損失値をそれぞれ出力する。ダウンサンプリングのスペクトル系列に対応する損失値を、それぞれ、前記敵対的損失関数モデルにフィードバックする必要がある。具体的には、i番目のダウンサンプリングのスペクトル系列に対応する第iサブ損失値を前記敵対的損失関数モデルにフィードバックし、更に前記i番目のダウンサンプリングのスペクトル系列にフィードバックした後、ダウンサンプリング毎に対応するサブ損失値をオリジナルの模擬スペクトル系列に1層ずつフィードバックして、前記第2損失値を得る。
このように、前記敵対的損失関数モデルは、入力されたスペクトルを異なるスケールで特徴抽出及び分析し、スペクトルの真偽を判別するという作用を高次元空間で達成する。
一実施形態では、前記第1文字系列に対応する模擬スペクトル系列をダウンサンプリングすることは、以下のように実現される。前記第1文字系列に対応する模擬スペクトル系列が100フレーム×80次元の特徴行列として示されると仮定し、隣接する2つのフレームのデータの平均値を取ることで、50フレーム×80次元の特徴行列のダウンサンプリングが可能となり、このように類推する。なお、前記ダウンサンプリングの実施形態は、これに限定されるものではなく、本願の実施例は、具体的に限定しない。
なお、前記敵対的損失関数モデルを同一文字系列の真のスペクトル系列と模擬スペクトル系列を用いて学習する際に、前記敵対的損失関数モデルに入力される真のスペクトル系列と模擬スペクトル系列を、いずれも上述のように複数回のダウンサンプリングを行い、前記敵対的損失関数モデルの特徴抽出能力と判別能力をマルチスケールで学習する。
本願の上記実施例は、以下の利点又は効果を有する。前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力した後、前記敵対的損失関数モデルは、スペクトル系列を複数回ダウンサンプリングすることができ、入力されたスペクトルを異なるスケールで特徴抽出及び分析し、前記敵対的損失関数による前記スペクトル系列の真偽判別をより正確に行える。
なお、本実施例における技術的手段は、図1に示す実施例にも同様に適用され、同様の効果を奏するので、重複を避けるために、ここで繰り返し述べない。
任意選択で、前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる。
本願の実施例において、図5に示すように、前記敵対的損失関数モデルは、多層の深層畳み込みニューラルネットワークモデルを用いる。複数の層の畳み込み層を通じてスペクトル系列の特徴を多角的に抽出することができる。例えば、第1層の畳み込み層は、エッジ、線及び角などの階層レベルのようないくつかの下位の特徴のみを抽出することができるが、より多くの層のネットワークは、下位の特徴からより複雑な特徴を反復的に抽出することができ、畳み込みニューラルネットワークは、スペクトルを抽象化する際にスペクトル系列のコンテキスト情報を保存して特徴抽出をより包括して正確にすることができる。畳み込み層の階層数は、必要に応じて決定することができるが、本発明の実施例は、具体的に限定しない。
S305において、前記第1損失値と前記第2損失値に基づいて、前記音声スペクトル生成モデルを学習する。
本ステップの具体的な実施形態は、図1に示す実施例におけるS103の具体的な説明を参照し、重複を避けるため、ここでは繰り返し説明しない。
本開示の実施形態において、前記音声スペクトル生成モデルと前記敵対的損失関数モデルは、交互巡回学習プロセスが存在する。以下のように理解する。S401において、音声スペクトル生成モデルが初期化状態にある場合、パラメータをランダムに初期化し、入力された第2文字系列に基づいて、対応する模擬スペクトル系列を生成する。S402において、上記生成された前記第2文字系列に対応する模擬スペクトル系列を前記第2文字系列に対応する真のスペクトル系列と共に初期化された敵対的損失関数モデルに入力し、前記敵対的損失関数モデルを1次学習する。S403において、第1文字系列を初期化された音声スペクトル生成モデルに入力して前記第1文字系列に対応する模擬スペクトル系列を生成し、学習後の敵対的損失関数モデルを音声スペクトル生成モデルの損失関数とし、所定の損失関数と共に音声スペクトル生成モデルを1回学習し、ここまで1つの学習サイクルである。その後、学習後の音声スペクトル生成モデルで生成した模擬スペクトル系列で、S402からS403のステップを繰り返し、前記音声スペクトル生成モデルと前記敵対的損失関数モデルを順次巡回的に交代して学習する。
本願の実施例において、前記音声スペクトル生成モデルと前記敵対的損失関数モデルの交互巡回学習が可能であり、互いに敵対的に学習する過程で、前記敵対的損失関数モデルを所望の損失関数に徐々に近づけ、前記音声スペクトル生成モデルで生成したスペクトル系列を真のスペクトル系列に徐々に近づける。
本願の実施例における学習方法は、図1に示す実施例を基に多くの代替実施形態を追加し、いずれも、生成されるスペクトル系列をより明瞭にすることができる。
本願は、音声スペクトル生成モデルの学習装置を更に提供する。
図6に示すように、音声スペクトル生成モデルの学習装置600は、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する第1取得モジュール601と、前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する第2取得モジュール602と、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する第1学習モジュール603とを含む。
任意選択で、図7に示すように、音声スペクトル生成モデルの学習装置600は、第2文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第2文字系列に対応する模擬スペクトル系列を取得する第3取得モジュール604と、前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する第2学習モジュール605とを更に含む。第2取得モジュール602は、具体的には、前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得する。
任意選択で、第2学習モジュール605は、前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得する第1取得ユニットと、前記第3損失値に基づいて前記敵対的損失関数モデルを学習する学習ユニットとを含む。
任意選択で、第2取得モジュール602は、前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得する第2取得ユニットと、前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得するダウンサンプリングユニットと、前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得する第3取得ユニットと、全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得する第4取得ユニットとを含む。
任意選択で、前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる。
本願の上記実施例において、音声スペクトル生成モデルの学習装置600は、図1と図3に示す方法の実施例で実現される各プロセスを実現することができ、同様の効果を奏することができるので、その繰り返しを避けるために、ここではその説明を省略する。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を更に提供する。
図8は、本願の実施例の音声スペクトル生成モデルの学習方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は特許請求される本願の実現を限定することを意図しない。
図8に示すように、該電子機器は、1又は複数のプロセッサ801、メモリ802、及び高速インターフェースと低速インターフェースを含む、各構成要素を接続するためのインターフェースを含む。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にGUIのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど)。図8では、1つのプロセッサ801を例に挙げている。
メモリ802は、本願において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行されるコマンドが格納されている。それによって、前記少なくとも1つのプロセッサは、本願において提供される音声スペクトル生成モデルの学習方法を実行する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、本願において提供される音声スペクトル生成モデルの学習方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。
非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ802は、本願の実施例における音声スペクトル生成モデルの学習方法に対応するプログラムコマンド/モジュール(例えば、図6に示す第1取得モジュール601、第2取得モジュール602及び第1学習モジュール603)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ801は、メモリ802に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における音声スペクトル生成モデルの学習方法を実現する。
メモリ802は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。一部の実施形態では、メモリ802は、任意選択で、プロセッサ801に対して遠隔に配置されたメモリを含む。これらの遠隔メモリは、ネットワークを介して音声スペクトル生成モデルの学習方法に係る電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。
音声スペクトル生成モデルの学習方法に係る電子機器は、入力装置803と出力装置804とを更に含んでもよい。プロセッサ801、メモリ802、入力装置803及び出力装置804は、バス又は他の方式で接続され、図8では、バスを介して接続される例が示される。
タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置などの入力装置803は、入力された数字又は文字情報を受信し、音声スペクトル生成モデルの学習方法係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生じる。出力装置804は、ディスプレイ装置、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)などを含む。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。
本明細書に記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現される。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実現することを含む。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び/又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。用語「機械読み取り可能な信号」は、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施される。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。
本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどが挙げられる。
コンピュータシステムは、クライアント及びサーバを含む。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスアーキテクチャにおけるホスト製品の1つであり、従来の物理ホスト及びVPS(Virtual Private Server)サービスにおける管理困難性が高く、トラフィック拡張性が低いという欠点を解決する。
本願の実施例の技術手段によれば、第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得し、前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得し、前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する。前記敵対的損失関数モデルは、敵対的生成ネットワークに基づいて1つの損失関数を学習し、所定の損失関数と共に前記音声スペクトル生成モデルを学習することによって、前記音声スペクトル生成モデルで生成したスペクトル系列をより明瞭にし、真のスペクトル系列の分布により近いものすることができ、更に、後続のオーディオ変換時の安定性を向上させ、最終的に合成されるオーディオの音質を向上させることができる。
上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書ではこれについて限定しない。
上述した具体的な実施形態は、本願の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本願の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本願の保護範囲に含まれるべきである。

Claims (13)

  1. 音声スペクトル生成モデルの学習方法であって、
    第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得することと、
    前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することと、
    前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習することとを含む、音声スペクトル生成モデルの学習方法。
  2. 前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する前に、
    第2文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第2文字系列に対応する模擬スペクトル系列を取得することと、
    前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することとを更に含み、
    前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することは、
    前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得することを含む、請求項1に記載の音声スペクトル生成モデルの学習方法。
  3. 前記の前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習することは、
    前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得することと、
    前記第3損失値に基づいて前記敵対的損失関数モデルを学習することとを含む、請求項2に記載の音声スペクトル生成モデルの学習方法。
  4. 前記の前記第1文字系列に対応する模擬スペクトル系列を敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得することは、
    前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得することと、
    前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得することと、
    前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得することと、
    全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得することとを含む、請求項1に記載の音声スペクトル生成モデルの学習方法。
  5. 前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項1に記載の音声スペクトル生成モデルの学習方法。
  6. 音声スペクトル生成モデルの学習装置であって、
    第1文字系列を音声スペクトル生成モデルに入力し、前記第1文字系列に対応する模擬スペクトル系列を生成し、所定の損失関数に基づいて前記模擬スペクトル系列の第1損失値を取得する第1取得モジュールと、
    前記第1文字系列に対応する模擬スペクトル系列を、敵対的生成ネットワークモデルである敵対的損失関数モデルに入力し、前記模擬スペクトル系列の第2損失値を取得する第2取得モジュールと、
    前記第1損失値と前記第2損失値とに基づいて、前記音声スペクトル生成モデルを学習する第1学習モジュールとを含む、音声スペクトル生成モデルの学習装置。
  7. 第2文字系列に対応する真のスペクトル系列と、前記音声スペクトル生成モデルによって生成される前記第2文字系列に対応する模擬スペクトル系列を取得する第3取得モジュールと、
    前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列とに基づいて、前記敵対的損失関数モデルを学習する第2学習モジュールとを更に含み、
    前記第2取得モジュールは、具体的には、
    前記第1文字系列に対応する模擬スペクトル系列を学習後の前記敵対的損失関数モデルに入力して第2損失値を取得する、請求項6に記載の学習装置。
  8. 前記第2学習モジュールは、
    前記第2文字系列に対応する真のスペクトル系列と、前記第2文字系列に対応する模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記第2文字系列に対応する真のスペクトル系列に対する前記第2文字系列に対応する模擬スペクトル系列の損失を表す第3損失値を取得する第1取得ユニットと、
    前記第3損失値に基づいて前記敵対的損失関数モデルを学習する学習ユニットとを含む、請求項7に記載の学習装置。
  9. 前記第2取得モジュールは、
    前記第1文字系列に対応する模擬スペクトル系列を前記敵対的損失関数モデルに入力し、オリジナル損失値を取得する第2取得ユニットと、
    前記第1文字系列に対応する模擬スペクトル系列をN回ダウンサンプリングし、ダウンサンプリング毎の模擬スペクトル系列を取得するダウンサンプリングユニットと、
    前記ダウンサンプリング毎の模擬スペクトル系列をそれぞれ前記敵対的損失関数モデルに入力し、前記ダウンサンプリング毎の模擬スペクトル系列に対応する損失値を取得する第3取得ユニットと、
    全てのダウンサンプリングの模擬スペクトル系列に対応する損失値と前記オリジナル損失値とに基づいて、前記第2損失値を取得する第4取得ユニットとを含む、請求項6に記載の学習装置。
  10. 前記敵対的損失関数モデルは、深層畳み込みニューラルネットワークモデルを用いる、請求項6に記載の学習装置。
  11. 少なくとも1つのプロセッサと、及び
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリであって、前記少なくとも1つのプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させることのできる、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納されているメモリを含むことを特徴とする電子機器。
  12. コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータコマンドは、請求項1〜5のいずれか1項に記載の方法を前記コンピュータに実行させることを特徴とする、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体。
  13. プロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品。
JP2021048816A 2020-08-24 2021-03-23 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品 Active JP7146991B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010858104.1 2020-08-24
CN202010858104.1A CN112037760B (zh) 2020-08-24 2020-08-24 语音频谱生成模型的训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2021119381A true JP2021119381A (ja) 2021-08-12
JP7146991B2 JP7146991B2 (ja) 2022-10-04

Family

ID=73581872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021048816A Active JP7146991B2 (ja) 2020-08-24 2021-03-23 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US11488578B2 (ja)
EP (1) EP3816992A3 (ja)
JP (1) JP7146991B2 (ja)
KR (1) KR102488010B1 (ja)
CN (1) CN112037760B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112837670B (zh) * 2021-01-19 2024-05-10 北京捷通华声科技股份有限公司 语音合成方法、装置及电子设备
CN114970651A (zh) * 2021-02-26 2022-08-30 北京达佳互联信息技术有限公司 和弦生成模型的训练方法、和弦生成方法、装置及设备
CN113362836B (zh) * 2021-06-02 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质
CN113823296A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113611281B (zh) * 2021-07-16 2024-07-12 北京捷通华声科技股份有限公司 一种语音合成方法、装置、电子设备及存储介质
CN113838450B (zh) * 2021-08-11 2022-11-25 北京百度网讯科技有限公司 音频合成及相应的模型训练方法、装置、设备及存储介质
CN113889076B (zh) * 2021-09-13 2022-11-01 北京百度网讯科技有限公司 语音识别及编解码方法、装置、电子设备及存储介质
CN113743110B (zh) * 2021-11-08 2022-02-11 京华信息科技股份有限公司 一种基于微调生成式对抗网络模型的漏词检测方法及系统
CN114141228B (zh) * 2021-12-07 2022-11-08 北京百度网讯科技有限公司 语音合成模型的训练方法、语音合成方法和装置
CN114492526B (zh) * 2022-01-25 2022-11-22 太原科技大学 一种面向多星光谱自动识别的SPEC-Net网络架构及识别方法
CN114999447B (zh) 2022-07-20 2022-10-25 南京硅基智能科技有限公司 一种基于对抗生成网络的语音合成模型及语音合成方法
CN115240680A (zh) * 2022-08-05 2022-10-25 安徽大学 一种模糊耳语音的转换方法、系统及其装置
CN115171651B (zh) * 2022-09-05 2022-11-29 中邮消费金融有限公司 一种儿化音合成方法、装置、电子设备及存储介质
CN115953009B (zh) * 2023-03-01 2023-07-21 阿里巴巴(中国)有限公司 电力系统的调度方法、调度决策模型的训练方法
CN115910027B (zh) * 2023-03-08 2023-05-09 深圳市九天睿芯科技有限公司 一种辅助发声方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010116549A1 (ja) * 2009-03-30 2010-10-14 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2018146821A (ja) * 2017-03-07 2018-09-20 日本電信電話株式会社 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
WO2019107379A1 (ja) * 2017-11-29 2019-06-06 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972314B2 (en) * 2016-06-01 2018-05-15 Microsoft Technology Licensing, Llc No loss-optimization for weighted transducer
KR102481885B1 (ko) 2017-09-08 2022-12-28 삼성전자주식회사 클래스 인식을 위한 뉴럴 네트워크 학습 방법 및 디바이스
CN108597496B (zh) * 2018-05-07 2020-08-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
US12020167B2 (en) * 2018-05-17 2024-06-25 Magic Leap, Inc. Gradient adversarial training of neural networks
CN108630190B (zh) * 2018-05-18 2019-12-10 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置
US11462209B2 (en) 2018-05-18 2022-10-04 Baidu Usa Llc Spectrogram to waveform synthesis using convolutional networks
CN109147810B (zh) * 2018-09-30 2019-11-26 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
US11017307B2 (en) * 2018-10-17 2021-05-25 Fujitsu Limited Explanations generation with different cognitive values using generative adversarial networks
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11222621B2 (en) * 2019-05-23 2022-01-11 Google Llc Variational embedding capacity in expressive end-to-end speech synthesis
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
CN110390950B (zh) 2019-08-17 2021-04-09 浙江树人学院(浙江树人大学) 一种基于生成对抗网络的端到端语音增强方法
CN110600013B (zh) * 2019-09-12 2021-11-02 思必驰科技股份有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110739002B (zh) * 2019-10-16 2022-02-22 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN110930976B (zh) * 2019-12-02 2022-04-15 北京声智科技有限公司 一种语音生成方法及装置
WO2021127978A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和存储介质
CN111128137B (zh) * 2019-12-30 2023-05-30 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111243572B (zh) * 2020-01-14 2022-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于说话人博弈的多人语音转换方法与系统
US11251896B2 (en) * 2020-03-03 2022-02-15 Mitsubishi Electric Research Laboratories, Inc. Generative model for inverse design of materials, devices, and structures
CN111462768B (zh) * 2020-03-12 2023-04-25 南京邮电大学 基于共享训练的多尺度StarGAN的语音转换方法
US11222620B2 (en) * 2020-05-07 2022-01-11 Google Llc Speech recognition using unspoken text and speech synthesis
CN111444731B (zh) * 2020-06-15 2020-11-03 深圳市友杰智新科技有限公司 模型训练方法、装置和计算机设备
US11574622B2 (en) * 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
CN112489621B (zh) * 2020-11-20 2022-07-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010116549A1 (ja) * 2009-03-30 2010-10-14 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP2018146821A (ja) * 2017-03-07 2018-09-20 日本電信電話株式会社 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
WO2019107379A1 (ja) * 2017-11-29 2019-06-06 ヤマハ株式会社 音声合成方法、音声合成装置およびプログラム

Also Published As

Publication number Publication date
JP7146991B2 (ja) 2022-10-04
US11488578B2 (en) 2022-11-01
CN112037760B (zh) 2022-01-07
EP3816992A3 (en) 2021-10-27
US20210201887A1 (en) 2021-07-01
EP3816992A2 (en) 2021-05-05
CN112037760A (zh) 2020-12-04
KR20210038470A (ko) 2021-04-07
KR102488010B1 (ko) 2023-01-12

Similar Documents

Publication Publication Date Title
JP2021119381A (ja) 音声スペクトル生成モデルの学習方法、装置、電子機器及びコンピュータプログラム製品
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
US11417314B2 (en) Speech synthesis method, speech synthesis device, and electronic apparatus
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
US11562732B2 (en) Method and apparatus for predicting mouth-shape feature, and electronic device
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP2022505015A (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
JP2021192290A (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
US11836836B2 (en) Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums
JP2021192289A (ja) 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
JP2021114284A (ja) 句読点予測方法および装置
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
JP2022006189A (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
CN111611808A (zh) 用于生成自然语言模型的方法和装置
JP2022020063A (ja) 対話処理方法、装置、電子機器及び記憶媒体
CN115688796B (zh) 用于自然语言处理领域中预训练模型的训练方法及其装置
JP2022088494A (ja) テキスト生成方法、装置、電子機器及び記憶媒体
CN111382562A (zh) 文本相似度的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220921

R150 Certificate of patent or registration of utility model

Ref document number: 7146991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150