JP7194779B2 - 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents

音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDF

Info

Publication number
JP7194779B2
JP7194779B2 JP2021103443A JP2021103443A JP7194779B2 JP 7194779 B2 JP7194779 B2 JP 7194779B2 JP 2021103443 A JP2021103443 A JP 2021103443A JP 2021103443 A JP2021103443 A JP 2021103443A JP 7194779 B2 JP7194779 B2 JP 7194779B2
Authority
JP
Japan
Prior art keywords
style
training
information
text
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021103443A
Other languages
English (en)
Other versions
JP2021157193A (ja
Inventor
文富 王
涛 孫
錫磊 王
君騰 張
正坤 高
磊 賈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021157193A publication Critical patent/JP2021157193A/ja
Application granted granted Critical
Publication of JP7194779B2 publication Critical patent/JP7194779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本願はコンピュータ技術に関しており、具体的に、知的音声とディープラーニングなどの人工知能技術分野に関しており、特に音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラムに関している。
音声合成は、テキスト音声変換(Text-to-Speech;TTS)とも呼ばれ、コンピュータによってテキスト情報を音質が良く、自然な滑かさが高い音声情報へ変換するプロセスを意味しており、知的音声インタラクション技術のコア技術の1つである。
近年、ディープラーニング技術の発展、及び音声合成分野で広く利用されることにつれて、音声合成の音質及び自然な滑かさは、何れも従来にないように向上された。現在の主流である音声合成モデルは、主にシングル発音者(即シングル音色)、シングルスタイルの音声合成を実現するために用いられる。マルチスタイル、マルチ音色の合成を実現しようとすると、発音者ごとに録音された複数種類のスタイルのトレーニングデータを収集して音声合成モデルをトレーニングすることができる。
本願は音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供している。
本願の一態様によれば、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得することと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することと、
前記処理対象テキストの音響特徴情報に基づいて、前記処理対象テキストの音声を合成することと、を含んでいる音声合成方法を提供している。
本願の別の態様によれば、
複数のトレーニングデータを収集し、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれることと、
前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングすることと、を含む音声合成モデルのトレーニング方法を提供している。
本願のさらに別の態様によれば、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュールと、
予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成するための生成モジュールと、
前記処理対象テキストの音響特徴情報に基づいて前記処理対象テキストの音声を合成するための合成モジュールと、を含んでいる音声合成装置を提供している。
本願のさらに別の態様によれば、
複数のトレーニングデータを収集するための収集モジュールであって、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュールと、
前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングするためのトレーニングモジュールと、を含む音声合成モデルのトレーニング装置を提供している。
本願のさらに別の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行されるコマンドが記憶されており、
前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが上記の方法を実行することができる、電子機器を提供している。
本願のさらに別の態様によれば、コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶されている非一時的なコンピュータ読取可能な記憶媒体を提供している。
本願のさらに別の態様によれば、プロセッサによって実行される時に、上述した方法が実行されるコンピュータプログラムを提供している。
本願の技術によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実し、ユーザの使用体験を高くすることは可能となる。
この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもないと理解すべきである。本開示の他の特徴は、以下の明細書によって理解し易くなるであろう。
図面は本案をよりよく理解させるためのものであり、本願に対する限定を構成していない。
図1は本願第1の実施例による模式図である。 図2は本願第2の実施例による模式図である。 図3は本実施例の音声合成モデルのアプリケーション構造模式図である。 図4は本実施例の音声合成モデルにおけるスタイルエンコーダーの模式図である。 図5は本願第3の実施例による模式図である。 図6は本願第4の実施例による模式図である。 図7は本実施例の音声合成モデルのトレーニング構造模式図である。 図8は本願第5の実施例による模式図である。 図9は本願第6の実施例による模式図である。 図10は本願第7の実施例による模式図である。 図11は本願第8の実施例による模式図である。 図12は本願実施例の上記方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本願の例示的な実施例について説明する。その中、理解に役立つように本願の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
図1は本願第1の実施例による模式図である。図1に示すように、本実施例は音声合成方法を提供しており、具体的に以下のようなステップを含んでもよい。
S101:合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得する。
S102:予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成する。
S103:処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成する。
本実施例の音声合成方法の実行本体は音声合成装置であり、この音声合成装置は、電子実体であってもよいし、或いは、ソフトウェアで集積されたアプリケーションであってもよい。利用時に、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音声を合成することは可能となる。
本実施例において、合成対象音声のスタイル情報及び合成対象音声の音色情報は、音声合成モデルをトレーニングするために用いられるトレーニングデータセットにおけるスタイル情報及び音色情報であることは必須であり、そうでなければ、実現できない。
本実施例において、合成対象音声のスタイル情報は、合成対象音声のスタイル識別子、例えばスタイルIDであってよく、このスタイルIDはトレーニングデータセットにおけるトレーニングされたスタイルIDであってよい。あるいは、スタイル情報は、このスタイルで表現した音声から抽出したスタイルの他の情報であってもよい。しかし、実際の応用において、利用時に、スタイルで表現した音声は、メル(mel)スペクトルシーケンスの形式で表されてもよい。本実施例の音色情報は、この音色で表現した音声に基づいて抽出されてもよく、この音色情報はmelスペクトルシーケンスの形式で表されてもよい。
本実施例のスタイル情報は、音声表現のスタイルを限定するために用いられ、例えばユーモア、楽しみ、悲しみ、伝統などを含んでもよい。本実施例の音色情報は音声を表現する声音の音色を限定するために用いられ、例えばスターA、アナウンサーB、キャラクターCなどであってよい。
本実施例の処理対象テキストの内容情報は文字形式である。選択的に、ステップS101の前に、処理対象テキストを前処理して、処理対象テキストの内容情報、例えば音素シーケンスを取得することをさらに含んでもよい。例えば、処理対象テキストが中国語であると、この処理対象テキストの内容情報が処理対象テキストの調子付き音素シーケンスであってもよく、中国語文字の発音全般には調子が付いているので、中国語にとって、前処理の後に調子付き音素シーケンスを取得する必要がある。他の言語について、前処理によって対応する処理対象テキストの音素シーケンスを取得すればよい。例えば、処理対象テキストが中国語である場合に、音素は中国語ピンインの1つの音節、例えば1つの声母或いは韻母であってもよい。
本実施例において、スタイル情報、音色情報、及び処理対象テキストの内容情報が一緒に音声合成モデルへ入力され、この音声合成モデルはスタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成してよい。本実施例の音声合成モデルは、Tacotron構成で実現できる。最後に、神経ボコーダ(WaveRNN)モデルを利用して、処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成することができる。
従来技術には、シングル音色やシングルスタイルの音声合成だけを実現できる。本実施例の技術案を利用して、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて音声を合成するときに、スタイル、音色は必要に応じて入力され、処理対象テキストもいずれの言語であってもよいので、本実施例の技術案はクロス言語、クロススタイル、クロス音色の音声合成が図れ、シングル音色やシングルスタイルの音声合成のみに限定されていない。
本願の音声合成方法によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実して、ユーザの使用体験を高くすることは可能となる。
図2は本願第2の実施例による模式図である。図2に示すように、本実施例の音声合成方法は、前述の図1に示された実施例の技術案を基に、より一層詳細的に本願の技術案を説明する。図2に示すように、本実施例の音声合成方法は、具体的には以下のステップを含んでもよい。
S201:合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得する。
上記の図1に示された実施例の相関記載を参照して、この合成対象音声の音色情報はこの音色で表現した処理対象テキストのmelスペクトルシーケンスであってよい。処理対象テキストの内容情報は処理対象テキストを前処理することで得られた処理対象テキストの音素シーケンスであってよい。
例えば、本実施例においてスタイル情報を取得するプロセスは以下のいずれかの形態を含んでいる。
(1)ユーザの入力スタイルの説明情報を取得し、入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから入力スタイルに対応するスタイル識別子を合成対象音声のスタイル情報として取得する。
例えば、入力スタイルの説明情報は、ユーモア、ファニー、悲しみ、伝統などであってよい。本実施例には、スタイルテーブルが予め設置されており、このスタイルテーブルに各種類のスタイル説明情報に対応するスタイル識別子が記録されている。そして、これらのスタイル識別子は、その前にトレーニングデータセットで音声合成モデルをトレーニングしたときに、トレーニングされており、この際、このスタイル識別子を合成対象音声のスタイル情報とすることができる。
(2)入力スタイルで表現したオーディオ情報を取得し、オーディオ情報から入力スタイルの情報を合成対象音声のスタイル情報として抽出する。
このような実現形態において、スタイル情報は入力スタイルで表現したオーディオ情報から抽出され、その中、このオーディオ情報がmelスペクトルシーケンスの形式を利用してよい。さらに選択的に、この実現形態において、1つのスタイル抽出モデルが予めトレーニングされ、使用時に、あるスタイルに基づいて表現したオーディオ情報から抽出されたmelスペクトルシーケンスを入力し、オーディオ情報中の対応するスタイルを出力としてもよい。このスタイル抽出モデルは、トレーニングされる時に、無数のトレーニングデータが用いられ、各トレーニングデータにはトレーニングスタイル及びトレーニングスタイル付きのトレーニングmelスペクトルシーケンスがある。無数のトレーニングデータで、教師ありのトレーニング方式を利用して、このスタイル抽出モデルをトレーニングする。
なお、ちなみに、本実施例の音色情報の取得は、音色情報に対応する音色で表現されたオーディオ情報から抽出されてもよい。この音色情報は音色melスペクトルシーケンスとも呼ばれるmelスペクトルシーケンスの形式を利用してよく、例えば、音声合成の際に、便利のために、トレーニングデータセットから直接的に1段の音色melシーケンスを取得してもよい。
ちなみに、このような実現形態において、入力スタイルで表現したオーディオ情報に入力スタイルだけが付けられていればよく、オーディオ情報に係る内容は処理対象テキストの内容情報であってもよいし、処理対象テキストの内容情報と関係がなくてもよい。同様に、音色情報に対応する音色で表現したオーディオ情報は処理対象テキストの内容情報であってもよいし、処理対象テキストの内容情報と関係がなくてもよい。
S202:音声合成モデルにおける内容エンコーダーで、処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得する。
例えば、この内容エンコーダーは処理対象テキストの内容情報を符号化し、対応する内容符号化特徴を生成する。処理対象テキストの内容情報は音素シーケンスの形式が用いられるので、相応的に得られた内容符号化特徴も、相応的に内容符号化シーケンスと呼ばれるシーケンスの形式が用いられる。ただし、それぞれの音素は1つの符号化ベクトルに対応している。この内容エンコーダーはそれぞれの音素がどのように発音するかを決める。
S203:音声合成モデルにおけるスタイルエンコーダーで、処理対象テキストの内容情報とスタイル情報とを符号化することで、スタイル符号化特徴を取得する。
このスタイルエンコーダーは処理対象テキストの内容情報を符号化しながら、スタイル情報で符号化のスタイルを制御して、対応するスタイル符号化マトリクスを生成し、同様に、スタイル符号化シーケンスとも呼ばれる。それぞれの音素は1つの符号化ベクトルに対応している。このスタイルエンコーダーはそれぞれの音素の発音方式であるスタイルを決める。
S204:音声合成モデルにおける音色エンコーダーで音色情報を符号化することで、音色符号化特徴を取得する。
この音色エンコーダーは音色情報を符号化し、音色情報がmelスペクトルシーケンスを利用してもよい。つまり、音色エンコーダーはmelスペクトルシーケンスを符号化し、対応する音色ベクトルを生成してよい。この音色エンコーダーは合成対象音声の音色、例えば音色A、音色Bまたは音色Cなどを決める。
S205:音声合成モデルにおけるデコーダーで、内容符号化特徴、スタイル符号化特徴、及び音色符号化特徴に基づいて復号し、処理対象テキストの音響特徴情報を生成する。
このデコーダーは内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーのそれぞれから出力され、且つ結合された特徴を入力として、対応する内容情報、スタイル情報、及び音色情報の組合せに応じて、対応する処理対象テキストの音響特徴情報を生成し、それを処理対象テキストの音声特徴シーケンスとも呼ばれ、melスペクトルシーケンスの形式も用いられる。
上記のステップS202~S205は上記の図1に示された実施例のステップS102の実現形態の1つである。
図3は本実施例の音声合成モデルのアプリケーション構造模式図である。図3に示すように、本実施例の音声合成モデルには、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、及びデコーダーという幾つかの部分を含んで構成される。
ただし、内容エンコーダーは、残差付きで接続された複数層の畳み込み神経ネットワーク(Convolutional Neural Networks;CNN)及び1層の双方向長短期記憶ネットワーク(Long Short-term Memory;LSTM)から構成される。音色エンコーダーは、複数層のCNN及び1層のゲート付き回帰型ユニット(Gated Recurrent Unit;GRU)から構成される。デコーダーは、アテンションメカニズムに基づく自己回帰構造である。スタイルエンコーダーは複数層のCNNと複数層の双方向GRU層とから構成される。例えば、図4は本実施例の音声合成モデルにおけるスタイルエンコーダーの模式図である。図4に示すように、スタイルエンコーダーがN層のCNNとN層のGRUとを含むことを例として、スタイルエンコーダーが符号化する時に、処理対象テキストの内容情報、例えば処理対象テキストが中国語である時に調子付きの音素シーケンスであってもよい内容情報が、そのままCNNへ入力されたが、スタイル情報、例えばスタイルIDが、そのままGRUへ入力されて、スタイルエンコーダーの符号化を経て、最終的にスタイル符号化特徴を出力でき、対応的に入力された調子付きの音素シーケンスの故に、スタイル符号化シーケンスとも呼ばれる。
図3に示すように、従来の音声合成モデルTacotronと比べると、本実施例の音声合成モデルにおいて、内容エンコーダーと、スタイルエンコーダーと、音色エンコーダーとは、個別の3つの手段であり、これらの3つの手段はデカップリングの態様で、それぞれ異なる役割を果たし、それぞれ対応する機能を担当し、クロススタイル、クロス音色、クロス言語の合成の肝心なところとなる。したがって、本実施例はシングル音色或いはシングルスタイルの音声のみを合成できることに限定されておらず、クロス言語、クロススタイル、クロス音色の音声合成を実現することができる。例えば、スターAがユーモアスタイルで放送した英語セグメントXを実現してもよいし、キャラクターCが悲しみのスタイルで放送した中国語セグメントYを実現してもよい。
S206:処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成する。
本実施例において、音声合成モデルの内部構成をより一層明瞭に説明するために、音声合成モデル中の内部構成を解析した。しかしながら、実際の応用には、この音声合成モデルはエンドツーエンドのモデルであるが、上記の原理に基づいてスタイル、音色及び言語のデカップリングを実現でき、さらに、クロススタイル、クロス音色、クロス言語の音声合成を実現することができる。
実際の応用には、図3と図4に示すように、合成対象テキスト、スタイルID、及び音色melスペクトルシーケンスが与えられており、予めテキスト前処理モジュールを利用してこのテキストを対応する調子付けの音素シーケンスへ変換してもよく、得られた音素シーケンスはそれぞれ音声合成モデルにおける内容エンコーダー、スタイルエンコーダーの入力とするとともに、スタイルエンコーダーはさらにスタイルIDを入力として使用し、このようにして、内容符号化シーケンスX1とスタイル符号化シーケンスX2とを取得する。その後、合成対象音色に応じて、トレーニングデータセットから1文のこの音色に対応するmelスペクトルシーケンスを選択して、音色エンコーダーの入力とすることで、音色符号化ベクトルX3が得られた。その後、X1、X2及びX3を次元的に結合することで、シーケンスZが得られ、デコーダーの入力とする。デコーダーは入力されたシーケンスZに従って、対応するスタイル、対応する音色で上記テキストを表現したmelスペクトルシーケンスを生成する。最終的に、神経ボコーダ(WaveRNN)によって、対応するオーディオを合成する。注意すべきことは、所定の合成対象テキストはクロス言語のテキスト、例えば、中国語、英語、中国語及び英語の混合などであってもよい。
本実施例の音声合成方法は、上記の技術案を利用することで、クロス言語、クロススタイル、クロス音色の音声合成を実現でき、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。本実施例の技術案は各種類の音声インタラクション場面に適用され、一般化され得る。
図5は本願第3の実施例による模式図である。図5に示すように、本実施例は音声合成モデルのトレーニング方法を提供しており、具体的に以下のステップを含む。
S501:複数のトレーニングデータを収集し、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる。
S502:複数のトレーニングデータを利用して前記音声合成モデルをトレーニングする。
本実施例の音声合成モデルのトレーニング方法の実行本体は音声合成モデルのトレーニング装置であり、この装置は、電子実体であってよいし、或いは、ソフトウェアで集積されたアプリケーションであってもよい。利用時にコンピュータ機器に動作することで、音声合成モデルをトレーニングする。
本実施例のトレーニングにおいて、収集したトレーニングデータの数は、百万オーダー以上に達すことができ、音声合成モデルをより精確にトレーニングする。各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報が含まれてもよく、上記実施例におけるスタイル情報、音色情報、内容情報にそれぞれ対応しており、詳細は上記実施例の相関記載を参照できるが、ここでは説明を繰り返さない。
なお、各トレーニングデータには、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれてもよく、この2つの情報は、音声合成モデルがより効果的に学習できるように、教師ありトレーニングの参考とする。
本実施例の音声合成モデルのトレーニング方法は、上記の案によって、音声合成モデルを効果的にトレーニングすることができ、音声合成モデルがトレーニングデータに基づいて、内容、スタイル及び音色に従って音声を合成するプロセスを学習するようにして、更に、学習した後の音声合成モデルが、音声合成の多様性を充実することができるようにする。
図6は本願第4の実施例による模式図である。図6に示すように、本実施例の音声合成モデルのトレーニング方法は、前述の図5に示された実施例の技術案を基に、より詳細的に本願の技術案を更に説明する。図6に示すように、本実施例の音声合成モデルのトレーニング方法は、具体的に以下のステップを含んでもよい。
S601:複数のトレーニングデータを収集し、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる。
実際の応用には、まず、トレーニングスタイルとトレーニング音色とでトレーニングテキストの内容情報を表現することで対応する音声を取得し、その後、得られた音声に対してmelスペクトル抽出を行うことで、対応する目標音響特徴情報を取得する。つまり、この目標音響特徴情報もmelスペクトルシーケンスの形式を採用した。
S602:各トレーニングデータについて、音声合成モデルにおける内容エンコーダー、スタイルエンコーダー及び音色エンコーダーで、それぞれトレーニングデータにおけるトレーニングテキストの内容情報、トレーニングスタイル情報、及びトレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得する。
具体的に、音声合成モデルにおける内容エンコーダーで、トレーニングデータにおけるトレーニングテキストの内容情報を符号化することで、トレーニング内容符号化特徴を取得する。音声合成モデルにおけるスタイルエンコーダーで、トレーニングデータにおけるトレーニングスタイル情報及びトレーニングテキストの内容情報を符号化することで、トレーニングスタイル符号化特徴を取得する。音声合成モデルにおける音色エンコーダーで、トレーニングデータにおけるトレーニング音色情報を符号化することで、トレーニング音色符号化特徴を取得する。実現プロセスも、上記図2に示された実施例のステップS202~S204の相関記載を参照できるが、ここでは説明を繰り返さない。
S603:音声合成モデルにおけるスタイル抽出器で、トレーニングテキストの内容情報とトレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報とに基づいて、目標トレーニングスタイル符号化特徴を抽出する。
ちなみに、このトレーニングテキストの内容情報と上記のスタイルエンコーダーのトレーニング時に入力されたトレーニングテキストの内容情報とは同じである。トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報は、melスペクトルシーケンスの形式であってよい。
図7は本実施例の音声合成モデルのトレーニング構造模式図であり、図7に示すように、上記の図3に示されたこの音声合成モデルのアプリケーション構造模式図と比べると、この音声合成モデルはトレーニングする時に、スタイル抽出器を追加して、トレーニング効果を強くする。しかし、使用する時に、このスタイル抽出器を必要とせず、図3に示された構造をそのまま採用する。図7に示すように、このスタイル抽出器には、参考スタイルエンコーダー、参考内容エンコーダー、及びアテンションメカニズムモジュールが含まれることで、スタイルベクトルがテキストレベル上に圧縮されることが図られ、得られた目標トレーニングスタイル符号化特徴はスタイルエンコーダーの学習目標となる。
具体的に、トレーニング段階において、スタイル抽出器は教師なしでスタイル表現を学習し、このスタイル表現は同時にスタイルエンコーダーの目標としてスタイルエンコーダーの学習を駆動する。音声合成モデルのトレーニングが終了したら、スタイルエンコーダーはスタイル抽出器と同じ功能を有する。応用段階において、スタイルエンコーダーはスタイル抽出器を替える。したがって、スタイル抽出器はトレーニング段階だけに存在している。注意すべきことは、スタイル抽出器の強大な作用により、音声合成モデル全体が良好なデカップリング性能を有するようにして、つまり、内容エンコーダー、スタイルエンコーダー、音色エンコーダーがそれぞれの役割を果たし、分業が明確である。内容エンコーダーはどのように発音するかの役割を担い、スタイルエンコーダーは発音のスタイル方式の役割を担い、音色エンコーダーはだれの音色で発音するかの役割を担う。
S604:音声合成モデルにおけるデコーダーで、トレーニング内容符号化特徴、目標トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴に基づいて復号し、トレーニングテキストの予測音響特徴情報を生成する。
S605:トレーニングスタイル符号化特徴、目標トレーニングスタイル符号化特徴、予測音響特徴情報、及び目標音響特徴情報に基づいて、総合損失関数を構築する。
例えば、具体的にこのステップを実現する時に、以下のステップを含んでもよい。
(a)トレーニングスタイル符号化特徴と目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築する;
(b)予測音響特徴情報と目標音響特徴情報とに基づいて、音響特徴損失関数を構築する;
(c)スタイル損失関数と再構成損失関数とに基づいて、総合損失関数を生成する。
具体的に、スタイル損失関数と再構成損失関数とに一定の重みが配置され、両者の重みの和を取って最終な総合損失関数としてよい。具体的な重みの比例は実際の要求に応じて設置されてもよい。例えば、スタイルを強調しようとすれば、相対的に大きい重みが設置される。例えば再構成損失関数の重みを1に設置した時に、スタイル損失関数の重みを、1~10の間のある値に設置してよく、値が大きいほど、スタイル損失関数の比例が大きくなり、トレーニング中にスタイルが全体に与える影響が大きくなる。
S606:総合損失関数が収束するか否かを判定し、収束しなければ、ステップS607を実行し、収束すれば、ステップS608を実行する。
S607:総合損失関数が収束する傾向にあるように、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、スタイル抽出器、及びデコーダーのパラメータを調整し、ステップS602へ返って、次のトレーニングデータを取得し、トレーニングを続行する。
S608:連続した所定回数のトレーニングにおいて、総合損失関数は常に収束するか否かを判定する。常に収束しなければ、ステップS602へ返って、次のトレーニングデータを取得し、トレーニングを続行する。そうでなければ、常に収束すると、音声合成モデルのパラメータを特定し、さらに音声合成モデルを特定して、トレーニングを終了する。
このステップはトレーニング終了の条件としてよく、ただし、連続した所定回数は実際の経験に従って設置されてよく、例えば連続した100回、200回や他の数に設置されてもよい。連続した所定回数のトレーニングにおいて、総合損失関数が常に収束していれば、この音声合成モデルはもう完璧にトレーニングされたので、トレーニングを終了してもよい。また、選択的に、実際のトレーニングにおいて、音声合成モデルは、無限に収束する傾向になるが、連続した所定回数のトレーニングで絶対に収束していない可能性があり、その場合に、トレーニング終了条件を所定回数閾値のトレーニングに設置してよく、トレーニング回数が所定回数閾値に達した場合、トレーニングを終了し、この音声合成モデルの最終パラメータとしてトレーニング終了時の音声合成モデルのパラメータを取得し、最終のパラメータに基づいてこの音声合成モデルを利用し、そうでなければ、トレーニング回数が所定回数閾値に達するまでに、トレーニングを続行する。
上記のステップS602~S607は前述の図5に示された実施例のステップS502の実現形態の1つである。
本実施例はトレーニングプロセスにおいて音声合成モデル内の各手段を説明したが、音声合成モデル全体のトレーニングプロセスはエンドツーエンドトレーニングである。この音声合成モデルのトレーニングにおいて、合計で2部分の損失関数を含み、1つはデコーダーの出力に基づいて構築した再構成損失関数であり、もう1つはスタイルエンコーダーの出力とスタイル抽出器の出力とに基づいて構築したスタイル損失関数である。2部分の損失関数はいずれもL2ノルムの損失関数を利用してよい。
本実施例の音声合成モデルのトレーニング方法は、上述した案を利用することで、トレーニングプロセスにおいて効果的に内容、スタイル及び音色の完全なデカップリングを保証でき、さらにトレーニングした後の音声合成モデルが、クロススタイル、クロス音色、クロス言語の音声合成を実現できるようにして、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に向上することができる。
図8は本願第5の実施例による模式図である。図8に示すように、本実施例は、
合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュール801と、
予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成するための生成モジュール802と、
処理対象テキストの音響特徴情報に基づいて、処理対象テキストの音声を合成するための合成モジュール803と、を含んでいる音声合成装置800を提供している。
本実施例の音声合成装置800は、上記のモジュールを利用することで音声合成処理を実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じ、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。
図9は本願第6の実施例による模式図である。図9に示すように、本実施例は音声合成装置800を提供している。本実施例の音声合成装置800は、前述の図8に示された実施例を基に、より一層詳細に本願の技術案を説明する。
図9に示すように、本実施例の音声合成装置800において、生成モジュール802は、
音声合成モデルにおける内容エンコーダーで、処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得するための内容符号化手段8021と、
音声合成モデルにおけるスタイルエンコーダーで、処理対象テキストの内容情報とスタイル情報とを符号化することで、スタイル符号化特徴を取得するためのスタイル符号化手段8022と、
音声合成モデルにおける音色エンコーダーで音色情報を符号化することで、音色符号化特徴を取得するための音色符号化手段8023と、
音声合成モデルにおけるデコーダーで、内容符号化特徴、スタイル符号化特徴及び音色符号化特徴に基づいて復号し、処理対象テキストの音響特徴情報を生成するための復号手段8024と、を備えている。
さらに選択的に、本実施例の音声合成装置800において、取得モジュール801は、
ユーザの入力スタイルの説明情報を取得し、入力スタイルの説明情報に応じて、予め設定されたスタイルテーブルから入力スタイルに対応するスタイル識別子を合成対象音声のスタイル情報として取得し、
あるいは、入力スタイルで表現したオーディオ情報を取得し、オーディオ情報から入力スタイルの音色情報を合成対象音声のスタイル情報として抽出するために用いられる。
本実施例の音声合成装置800は、上記のモジュールを利用することで音声合成処理を実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じ、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。
図10は本願第7の実施例による模式図である。図10に示すように、本実施例は、
複数のトレーニングデータを収集するための収集モジュール1001であって、各トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、トレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報、及びトレーニングスタイル情報に対応するトレーニングスタイルとトレーニング音色情報に対応するトレーニング音色とでトレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュール1001と、
複数のトレーニングデータを利用して音声合成モデルをトレーニングするためのトレーニングモジュール1002と、を備えている音声合成モデルのトレーニング装置1000を提供している。
本実施例の音声合成モデルのトレーニング装置1000は、上記のモジュールを利用することで音声合成モデルのトレーニングを実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じ、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。
図11は本願第8の実施例による模式図である。図11に示すように、本実施例は音声合成モデルのトレーニング装置1000を提供している。本実施例の音声合成モデルのトレーニング装置1000は、前述の図10に示された実施例を基に、より一層詳細に本願の技術案を説明する。
図11に示すように、本実施例の音声合成モデルのトレーニング装置1000において、トレーニングモジュール1002は、
各トレーニングデータについて、音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれトレーニングデータにおけるトレーニングテキストの内容情報、トレーニングスタイル情報、及びトレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得するための符号化手段10021と、
音声合成モデルにおけるスタイル抽出器で、トレーニングテキストの内容情報及びトレーニングスタイル情報に対応するトレーニングスタイルでトレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出するための抽出手段10022と、
音声合成モデルにおけるデコーダーで、トレーニング内容符号化特徴、目標トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴に基づいて復号し、トレーニングテキストの予測音響特徴情報を生成するための復号手段10023と、
トレーニングスタイル符号化特徴、目標トレーニングスタイル符号化特徴、予測音響特徴情報、及び目標音響特徴情報に基づいて、総合損失関数を構築するための構築手段10024と、
総合損失関数が収束しなければ、総合損失関数が収束する傾向にあるように、内容エンコーダー、スタイルエンコーダー、音色エンコーダー、スタイル抽出器、及びデコーダーのパラメータを調整するための調整手段10025とを備えている。
さらに選択的に、構築手段10024は、
トレーニングスタイル符号化特徴と目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築し、
予測音響特徴情報と目標音響特徴情報とに基づいて、再構成損失関数を構築し、
スタイル損失関数と再構成損失関数とに基づいて、総合損失関数を生成するために用いられる。
本実施例の音声合成モデルのトレーニング装置1000は、上記のモジュールを利用することで音声合成モデルのトレーニングを実現する実現原理及び技術効果は、上記の相関方法の実施例の実現メカニズムと同じであり、詳細は上記の相関方法の実施例の記載を参照することができ、ここでは説明を繰り返さない。
本願の実施例によれば、本願は電子機器とコンピュータ読取可能な記憶媒体とを更に提供している。
図12に示すように、本願実施例の上記方法を実現する電子機器のブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す旨である。電子機器は、様々な形式の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本文に示す部品と、それらの接続及び関係と、それらの機能とは単に例示であり、本文で説明した及び/又は要求した本願の実現を限定することを意図しない。
図12に示すように、この電子機器は、1つ又は複数のプロセッサ1201、メモリ1202、及び各部件を接続ための、高速インターフェースと低速インターフェースを含むインターフェースを有している。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行されるコマンドを処理することができ、このコマンドは、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置(例えば、インターフェースに結合された表示機器)にGUIの図形情報を表示するコマンドを含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器を接続して、各機器が一部の必要な操作を提供してもよい(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとする)。図12は、1つのプロセッサ1201を例にしている。
メモリ1202は、本願が提供した非一時的なコンピュータ読取可能な記憶媒体である。その中、前記メモリには少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記少なくとも1つのプロセッサに本願が提供した音声合成方法及び音声合成モデルのトレーニング方法を実行させる。本願の非一時的なコンピュータ読取可能な記憶媒体は、コンピュータコマンドを記憶し、このコンピュータコマンドは、コンピュータに本願が提供した音声合成方法及び音声合成モデルのトレーニング方法を実行させるためのものである。
メモリ1202は、非一時的なコンピュータ読取可能な記憶媒体として、本願の実施例における音声合成方法及び音声合成モデルのトレーニング方法に対応するプログラムコマンド・モジュール(例えば、図8、図9、図10、及び図11に示された相関モジュール)のような、非一時的なソフトウェアプログラムと、非一時的なコンピュータ実行可能なプログラム及びモジュールとを記憶するためのものである。プロセッサ1201は、メモリ1202に記憶される非一時的なソフトウェアプログラムと、コマンドと、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上述した方法実施例における音声合成方法及び音声合成モデルのトレーニング方法を実現する。
メモリ1202は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶するプログラム記憶エリア、及び音声合成方法と音声合成モデルのトレーニング方法とを実現する電子機器の使用によって生成されたデータなどを記憶するデータ記憶エリアを含んでもよい。また、メモリ1202は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッド記憶デバイスを含んでもよい。一部の実施例において、メモリ1202は、選択的に、プロセッサ1201から遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを介して、音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。
音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器は、入力装置1203と出力装置1204とを更に含んでもよい。プロセッサ1201、メモリ1202、入力装置1203及び出力装置1204は、バス又は他の方式によって接続されてよく、図12においてバスによる接続を例とする。
入力装置1203は、入力されたデジタル又は文字情報を受信し、音声合成方法及び音声合成モデルのトレーニング方法を実現する電子機器のユーザ設定及び機能制御に関わるキー信号入力を発生してよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置1204は、表示機器と、補助照明装置(例えば、LED)と、触覚フィードバック装置(例えば、振動モーター)などを含んでもよい。この表示機器は、液晶ディスプレー(LCD)、発光ダイオード(LED)ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示機器はタッチスクリーンであってもよい。
ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現されてもよい。これらの各実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この1つまたは複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されてもよく、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とからデータ及びコマンドを受信し、データ及びコマンドを、この記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とへ伝送してもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する)は、プログラマブルプロセッサの機械コマンドを含み、高級プロセス及び/又はオブジェクト向けのプログラミング言語、及び/又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味しており、機械読取可能な信号である機械コマンドを受ける機械読取可能な媒体を含む。術語「機械読取可能な信号」とは、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。
ユーザとのインタラクションを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレー)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバやクラウドホストとも呼ばれ、クラウドコンピューティングサービス系統における1つのホスト製品であり、従来の物理ホストとVPS(「Virtual Private Sever」、或いは「VPS」と単に呼ばれる)サービスに存在する、管理難しさが大きく、業務拡張性が弱いという不具合を解決するために設けられた。
本願の実施例の技術案によれば、合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得し、予めトレーニングされた音声合成モデルで、スタイル情報、音色情報、及び処理対象テキストの内容情報に基づいて、処理対象テキストの音響特徴情報を生成し、処理対象テキストの音響特徴情報に基づいて処理対象テキストの音声を合成することで、クロス言語、クロススタイル、クロス音色の音声合成が図れ、音声合成の多様性を大いに充実し、ユーザの使用体験を高くすることは可能となる。
本願の実施例の技術案によれば、上記の技術案を利用することで、クロス言語、クロススタイル、クロス音色の音声合成を実現することができ、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。本願実施例の技術案は各種類の音声インタラクション場面に適用され、一般化され得る。
本願の実施例の技術案によれば、上記の案を利用することで、音声合成モデルを効果的にトレーニングでき、音声合成モデルに、トレーニングデータに基づいて、内容、スタイル及び音色に従って音声を合成するプロセスを学習させ、さらに学習した後の音声合成モデルが、音声合成の多様性を充実することができるようにする。
本願の実施例の技術案によれば、上記の案を利用することで、トレーニング過程において、内容、スタイル、及び音色の完全なデカップリングを効果的に保証することができ、さらにトレーニングした後の音声合成モデルが、クロススタイル、クロス音色、クロス言語の音声合成を実現することができるようにして、音声合成の多様性を大いに充実し、長期間の放送の単調感を低減し、ユーザの体験を顕著に高くすることができる。
前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。
上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (14)

  1. 音声合成装置で実行される音声合成方法であって、
    合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得することと、
    予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することと、
    前記処理対象テキストの音響特徴情報に基づいて、前記処理対象テキストの音声を合成することと、を含んでおり、
    予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成することは、
    前記音声合成モデルにおける内容エンコーダーで、前記処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得することと、
    前記音声合成モデルにおけるスタイルエンコーダーで、前記処理対象テキストの内容情報と前記スタイル情報とを符号化することで、スタイル符号化特徴を取得することと、
    前記音声合成モデルにおける音色エンコーダーで前記音色情報を符号化することで、音色符号化特徴を取得することと、
    前記音声合成モデルにおけるデコーダーで、前記内容符号化特徴、前記スタイル符号化特徴、及び前記音色符号化特徴に基づいて復号し、前記処理対象テキストの音響特徴情報を生成することと、を含んでいる、
    音声合成方法。
  2. 合成対象音声のスタイル情報を取得することは、
    ユーザの入力スタイルの説明情報を取得し、前記入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから前記入力スタイルに対応するスタイル識別子を前記合成対象音声のスタイル情報として取得すること、
    或いは、入力スタイルで表現したオーディオ情報を取得し、前記オーディオ情報から前記入力スタイルの情報を前記合成対象音声のスタイル情報として抽出することを含んでいる、
    請求項1に記載の方法。
  3. 複数のトレーニングデータを収集し、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれることと、
    前記複数のトレーニングデータを利用して音声合成モデルをトレーニングすることと、を含んでいる、
    音声合成モデルのトレーニング方法。
  4. 前記複数のトレーニングデータを利用して前記音声合成モデルをトレーニングすることは、
    各前記トレーニングデータについて、前記音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれ前記トレーニングデータにおける前記トレーニングテキストの内容情報、前記トレーニングスタイル情報、及び前記トレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得することと、
    前記音声合成モデルにおけるスタイル抽出器で、前記トレーニングテキストの内容情報及び前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出することと、
    前記音声合成モデルにおけるデコーダーで、前記トレーニング内容符号化特徴、前記目標トレーニングスタイル符号化特徴、及び前記トレーニング音色符号化特徴に基づいて復号し、前記トレーニングテキストの予測音響特徴情報を生成することと、
    前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築することと、
    前記総合損失関数が収束しなければ、前記総合損失関数が収束する傾向にあるように、前記内容エンコーダー、前記スタイルエンコーダー、前記音色エンコーダー、前記スタイル抽出器、及び前記デコーダーのパラメータを調整することとを含んでいる、
    請求項に記載の方法。
  5. 前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築することは、
    前記トレーニングスタイル符号化特徴と前記目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築することと、
    前記予測音響特徴情報と前記目標音響特徴情報とに基づいて、再構成損失関数を構築することと、
    前記スタイル損失関数と前記再構成損失関数とに基づいて、前記総合損失関数を生成することと、を含んでいる、
    請求項に記載の方法。
  6. 合成対象音声のスタイル情報、音色情報、及び処理対象テキストの内容情報を取得するための取得モジュールと、
    予めトレーニングされた音声合成モデルで、前記スタイル情報、前記音色情報、及び前記処理対象テキストの内容情報に基づいて、前記処理対象テキストの音響特徴情報を生成するための生成モジュールと、
    前記処理対象テキストの音響特徴情報に基づいて前記処理対象テキストの音声を合成するための合成モジュールと、を含んでいる、
    音声合成装置。
  7. 前記生成モジュールは、
    前記音声合成モデルにおける内容エンコーダーで、前記処理対象テキストの内容情報を符号化することで、内容符号化特徴を取得するための内容符号化手段と、
    前記音声合成モデルにおけるスタイルエンコーダーで、前記処理対象テキストの内容情報と前記スタイル情報とを符号化することで、スタイル符号化特徴を取得するためのスタイル符号化手段と、
    前記音声合成モデルにおける音色エンコーダーで前記音色情報を符号化することで、音色符号化特徴を取得するための音色符号化手段と、
    前記音声合成モデルにおけるデコーダーで、前記内容符号化特徴、前記スタイル符号化特徴、及び前記音色符号化特徴に基づいて復号し、前記処理対象テキストの音響特徴情報を生成するための復号手段と、を含んでいる、
    請求項に記載の装置。
  8. 前記取得モジュールは、
    ユーザの入力スタイルの説明情報を取得し、前記入力スタイルの説明情報に応じて、予め設置されたスタイルテーブルから前記入力スタイルに対応するスタイル識別子を前記合成対象音声のスタイル情報として取得し、
    或いは、入力スタイルで表現したオーディオ情報を取得し、前記オーディオ情報から前記入力スタイルの情報を前記合成対象音声のスタイル情報として抽出するために用いられる、
    請求項またはに記載の装置。
  9. 複数のトレーニングデータを収集するための収集モジュールであって、各前記トレーニングデータには、合成対象音声のトレーニングスタイル情報、トレーニング音色情報、トレーニングテキストの内容情報、前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報、及び前記トレーニングスタイル情報に対応するトレーニングスタイルと前記トレーニング音色情報に対応するトレーニング音色とで前記トレーニングテキストの内容情報を表現した目標音響特徴情報が含まれる収集モジュールと、
    前記複数のトレーニングデータを利用して音声合成モデルをトレーニングするためのトレーニングモジュールと、を含む、
    音声合成モデルのトレーニング装置。
  10. 前記トレーニングモジュールは、
    各前記トレーニングデータについて、前記音声合成モデルにおける内容エンコーダー、スタイルエンコーダー、及び音色エンコーダーで、それぞれ前記トレーニングデータにおける前記トレーニングテキストの内容情報、前記トレーニングスタイル情報、及び前記トレーニング音色情報を符号化することで、トレーニング内容符号化特徴、トレーニングスタイル符号化特徴、及びトレーニング音色符号化特徴を順次に取得するための符号化手段と、
    前記音声合成モデルにおけるスタイル抽出器で、前記トレーニングテキストの内容情報及び前記トレーニングスタイル情報に対応するトレーニングスタイルで前記トレーニングテキストの内容情報を表現したスタイル特徴情報に基づいて、目標トレーニングスタイル符号化特徴を抽出するための抽出手段と、
    前記音声合成モデルにおけるデコーダーで、前記トレーニング内容符号化特徴、前記目標トレーニングスタイル符号化特徴、及び前記トレーニング音色符号化特徴に基づいて復号し、前記トレーニングテキストの予測音響特徴情報を生成するための復号手段と、
    前記トレーニングスタイル符号化特徴、前記目標トレーニングスタイル符号化特徴、前記予測音響特徴情報、及び前記目標音響特徴情報に基づいて、総合損失関数を構築するための構築手段と、
    前記総合損失関数が収束しなければ、前記総合損失関数が収束する傾向にあるように、前記内容エンコーダー、前記スタイルエンコーダー、前記音色エンコーダー、前記スタイル抽出器、及び前記デコーダーのパラメータを調整するための調整手段とを含んでいる、
    請求項に記載の装置。
  11. 前記構築手段は、
    前記トレーニングスタイル符号化特徴と前記目標トレーニングスタイル符号化特徴とに基づいて、スタイル損失関数を構築し、
    前記予測音響特徴情報と前記目標音響特徴情報とに基づいて、再構成損失関数を構築し、
    前記スタイル損失関数と前記再構成損失関数とに基づいて、前記総合損失関数を生成するために用いられる、
    請求項1に記載の装置。
  12. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリと、を含む電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行されるコマンドが記憶されており、
    前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1乃至請求項、または請求項乃至請求項のいずれか一項に記載の方法を実行することができる、
    電子機器。
  13. コンピュータに請求項1乃至請求項、または請求項乃至請求項のいずれか一項に記載の方法を実行させるためのコンピュータコマンドが記憶されている、
    非一時的なコンピュータ読取可能な記憶媒体。
  14. プロセッサによって実行される時に、請求項1乃至請求項、または請求項乃至請求項のいずれか一項に記載の方法が実行されるコンピュータプログラム。
JP2021103443A 2020-11-11 2021-06-22 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム Active JP7194779B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011253104.5 2020-11-11
CN202011253104.5A CN112365881A (zh) 2020-11-11 2020-11-11 语音合成方法及对应模型的训练方法、装置、设备与介质

Publications (2)

Publication Number Publication Date
JP2021157193A JP2021157193A (ja) 2021-10-07
JP7194779B2 true JP7194779B2 (ja) 2022-12-22

Family

ID=74515939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021103443A Active JP7194779B2 (ja) 2020-11-11 2021-06-22 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム

Country Status (4)

Country Link
US (1) US11769482B2 (ja)
JP (1) JP7194779B2 (ja)
KR (1) KR20210124104A (ja)
CN (1) CN112365881A (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145720B (zh) * 2020-02-04 2022-06-21 清华珠三角研究院 一种将文本转换成语音的方法、系统、装置和存储介质
CN112365874B (zh) * 2020-11-17 2021-10-26 北京百度网讯科技有限公司 语音合成模型的属性注册、装置、电子设备与介质
CN113096625A (zh) * 2021-03-24 2021-07-09 平安科技(深圳)有限公司 多人佛乐生成方法、装置、设备及存储介质
CN113838448B (zh) * 2021-06-16 2024-03-15 腾讯科技(深圳)有限公司 一种语音合成方法、装置、设备及计算机可读存储介质
CN113539236B (zh) * 2021-07-13 2024-03-15 网易(杭州)网络有限公司 一种语音合成方法和装置
CN113314097B (zh) * 2021-07-30 2021-11-02 腾讯科技(深圳)有限公司 语音合成方法、语音合成模型处理方法、装置和电子设备
CN113838450B (zh) * 2021-08-11 2022-11-25 北京百度网讯科技有限公司 音频合成及相应的模型训练方法、装置、设备及存储介质
CN113744713A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 一种语音合成方法及语音合成模型的训练方法
CN113689868B (zh) * 2021-08-18 2022-09-13 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN113724687B (zh) * 2021-08-30 2024-04-16 深圳市神经科学研究院 基于脑电信号的语音生成方法、装置、终端及存储介质
CN114299915A (zh) * 2021-11-09 2022-04-08 腾讯科技(深圳)有限公司 语音合成方法及相关设备
CN114141228B (zh) * 2021-12-07 2022-11-08 北京百度网讯科技有限公司 语音合成模型的训练方法、语音合成方法和装置
CN114333762B (zh) * 2022-03-08 2022-11-18 天津大学 基于表现力的语音合成方法、系统、电子设备及存储介质
CN114822495B (zh) * 2022-06-29 2022-10-14 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法
CN116030792B (zh) * 2023-03-30 2023-07-25 深圳市玮欧科技有限公司 用于转换语音音色的方法、装置、电子设备和可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146803A (ja) 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム
US20200342852A1 (en) 2018-01-11 2020-10-29 Neosapience, Inc. Speech translation method and system using multilingual text-to-speech synthesis model

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105304080B (zh) * 2015-09-22 2019-09-03 科大讯飞股份有限公司 语音合成装置及方法
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN110599998B (zh) * 2018-05-25 2023-08-18 阿里巴巴集团控股有限公司 一种语音数据生成方法及装置
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
CN109754779A (zh) * 2019-01-14 2019-05-14 出门问问信息科技有限公司 可控情感语音合成方法、装置、电子设备及可读存储介质
WO2020153717A1 (en) * 2019-01-22 2020-07-30 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device
KR102057927B1 (ko) 2019-03-19 2019-12-20 휴멜로 주식회사 음성 합성 장치 및 그 방법
CN110288973B (zh) * 2019-05-20 2024-03-29 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN111402842B (zh) * 2020-03-20 2021-11-19 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111899719A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111883149B (zh) * 2020-07-30 2022-02-01 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018146803A (ja) 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム
US20200342852A1 (en) 2018-01-11 2020-10-29 Neosapience, Inc. Speech translation method and system using multilingual text-to-speech synthesis model

Also Published As

Publication number Publication date
US20220020356A1 (en) 2022-01-20
US11769482B2 (en) 2023-09-26
CN112365881A (zh) 2021-02-12
JP2021157193A (ja) 2021-10-07
KR20210124104A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
JP7194779B2 (ja) 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
JP7335298B2 (ja) 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN112365882B (zh) 语音合成方法及模型训练方法、装置、设备及存储介质
JP7259197B2 (ja) モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7490804B2 (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
CN110473516B (zh) 语音合成方法、装置以及电子设备
CN112365880B (zh) 语音合成方法、装置、电子设备及存储介质
CN110619867B (zh) 语音合成模型的训练方法、装置、电子设备及存储介质
CN112542155B (zh) 歌曲合成方法及模型训练方法、装置、设备与存储介质
CN112270920A (zh) 一种语音合成方法、装置、电子设备和可读存储介质
CN112365877A (zh) 语音合成方法、装置、电子设备和存储介质
WO2022106654A2 (en) Methods and systems for video translation
JP7335569B2 (ja) 音声認識方法、装置及び電子機器
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
JP7216065B2 (ja) 音声認識方法及び装置、電子機器並びに記憶媒体
CN117063228A (zh) 用于灵活流式和非流式自动语音识别的混合模型注意力
Soni et al. Deep Learning Technique to generate lip-sync for live 2-D Animation
CN117273147A (zh) 电子面板上生成图案的方法、装置、电子设备和存储介质
CN118212908A (zh) 音频生成方法、装置及电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7194779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150