JP7314450B2 - 音声合成方法、装置、機器、及びコンピュータ記憶媒体 - Google Patents

音声合成方法、装置、機器、及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP7314450B2
JP7314450B2 JP2022077078A JP2022077078A JP7314450B2 JP 7314450 B2 JP7314450 B2 JP 7314450B2 JP 2022077078 A JP2022077078 A JP 2022077078A JP 2022077078 A JP2022077078 A JP 2022077078A JP 7314450 B2 JP7314450 B2 JP 7314450B2
Authority
JP
Japan
Prior art keywords
features
model
text
prosody
vocoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022077078A
Other languages
English (en)
Other versions
JP2023027748A (ja
Inventor
ジャン、リチアン
ホウ、ジアンカン
スン、タオ
ジア、レイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023027748A publication Critical patent/JP2023027748A/ja
Application granted granted Critical
Publication of JP7314450B2 publication Critical patent/JP7314450B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能技術の分野における音声、深層学習などの技術に関する。
音声合成は,入力されたテキストを自然に理解できる音声に合成する技術である。音声合成の流暢さ、表現力、及び音質はユーザ体験に直接影響する。したがって、高いリアルタイム率は、音声合成技術で解決されるべき緊急の問題になっている。
これに鑑みて、本開示は、音声合成技術のリアルタイム率を向上させるための音声合成方法、装置、機器、及びコンピュータ記憶媒体を提供する。
根据本開示の第1の態様によれば、音声合成方法を提供し、
合成待ちテキストを取得するステップと、
前記テキストから抽出された韻律特徴を取得するステップと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するステップと;
前記ボコーダ特徴をボコーダに入力して、合成された音声を取得するステップと、を含む。
根据本開示の第2の態様によれば、音声合成装置を提供し、
合成待ちテキストを取得するためのテキスト取得ユニットと、
前記テキストから抽出された韻律特徴を取得するための韻律抽出ユニットと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得し、前記ボコーダ特徴をボコーダに入力して、合成された音声を取得する音声合成ユニットと、を含む。
本開示の第3の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示に係る基本アーキテクチャの概略図である。 本開示の実施例により提供される音声合成方法のフローチャートである。 本開示の実施例により提供される韻律予測モデルの概略構造図である。 本開示の実施例により提供される韻律予測モデルの概略構造図である。 本開示の実施例により提供される音声合成モデルの概略構造図である。 本開示の実施例により提供される後予測ネットワークの概略構造図である。 本開示の実施例により提供されるUV修正の方法のフローチャートである。 本開示の実施例により提供される第1の音声合成モデルのトレーニング方法のフローチャートである。 本開示の実施例により提供される第1の音声合成モデルのトレーニングアーキテクチャの概略図である。 本開示の実施例により提供される第2の音声合成モデルのトレーニング方法のフローチャートである。 本開示の実施例により提供される第2の音声合成モデルのトレーニングアーキテクチャの概略図である。 本開示の実施例により提供される韻律抽出モデルの概略構造図である。 本開示の実施例により提供される第3の音声合成モデルのトレーニング方法のフローチャートである。 本開示の実施例により提供される第3の音声合成モデルのトレーニングアーキテクチャの概略図である。 本開示の実施例により提供される第4の音声合成モデルのトレーニング方法のフローチャートである。 本開示の実施例により提供される第4の音声合成モデルのトレーニングアーキテクチャの概略図である。 本開示の実施例により提供される音声合成装置の概略構造図である。 本開示の実施例により提供される後処理装置の概略構造図である。 本開示の実施例を実現するための電子機器のブロック図である。
以下、図面に基づいて、本出願の例示のな実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
本開示により提供される技術的解決策の理解を容易にするために、まず、本開示に係る基本アーキテクチャについて簡単に説明する。図1に示すように、本開示に係る基本アーキテクチャは、音声合成装置とボコーダを含み、音声合成装置とボコーダとの間には、後処理装置をさらに含むこともできる。
音声合成装置は、合成待ちテキストを処理し、ボコーダ特徴の出力として変換する。後処理装置は、本開示の実施例における音声合成方法の主な実行主体であり、音声合成装置から出力されるボコーダ特徴を最適化処理した後、ボコーダに出力する。ボコーダはボコーダ特徴を使用して最終的に合成された音声を取得する。
図2は本開示の実施例により提供される音声合成方法のフローチャートである。当該方法の実行主体は音声合成装置であり、当該音声合成装置は、図1に示す音声合成装置である。当該装置は、ユーザ端末のアプリケーションに位置することができるか、又は端末のアプリケーションのプラグインまたはソフトウェア開発キット(Software Development Kit、SDK)などの機能ユニットに位置することもできるか、又は、サーバ側に位置することもでき、本発明の実施例はこれについて特に限定しない。図2に示すように、当該方法は、以下のステップを含むことができ、
201では、合成待ちテキストを取得する。
202では、テキストから抽出された韻律特徴を取得する。
203では、テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得する。
204では、ボコーダ特徴をボコーダに入力して、合成された音声を取得する。
本開示により提供される技術的解決策は、テキストから韻律特徴を抽出した後、音声合成モデルは韻律特徴を使用してテキストを組み合わせてボコーダ特徴を取得して、ボコーダがボコーダ特徴を直接使用して音声を合成することによって、音声合成技術の効率を向上させ、次いで高いリアルタイム率を確保することを分かることができる。
以下は実施例を組み合わせ上記の各ステップに対して詳細に説明する。まず、上記のステップ401を詳細に説明する。
本開示に関する合成待ちテキストは、予め設定された内容であってもよく、例えば、起動語の内容、歓迎語の内容、特定のシナリオで固定放送の内容などである。例えば、ユーザ端末がある新しい地域に位置決めする時、「XX地域へようこそ」(「XX」はある具体的な地域名を表す)を放送する。また、例えば、ナビゲーションシナリオでのナビゲーションテキスト「前方XXXで左折」(「XXX」はある具体的な建物名を表す)などである。
合成待ちテキストは、第三者から取得されたテキスト内容であってもよく、例えば、第三者から取得されたニュース内容、文章内容などである。
合成待ちテキストは、ユーザとインタラクション中に、ユーザが入力した音声に応答して生成されたテキストであってもよい。例えば、ユーザが音声「XXXXはどこにありますか」を入力し、ユーザが入力した当該音声に応答して放送テキスト「XXXXは建設中路三号にある」を生成する。
以下は実施例を組み合わせて上記のステップ202、すなわち「テキストから抽出された韻律特徴を取得する」を詳細に説明する。
本開示の実施例では、韻律特徴は、韻律予測モデルによってテキストから抽出することができる。韻律予測モデルによってテキストから韻律特徴を抽出し、韻律特徴を言語合成モデルに出力する。言語合成モデルでテキストと韻律特徴を使用してボコーダ特徴を出力する。
以下は韻律予測モデルの実現を詳細に説明する。図3aに示すように、韻律予測モデルは、主に第1のエンコーダと第1のデコーダを含む。なお、本開示に関する「第1」、「第2」などの表現は、例えば「第1のエンコーダ」、「第2のエンコーダ」、「第1のデコーダ」、「第2のデコーダ」、「第1の閾値」、「第2の閾値」などは、名称を区別するためにのみ使用され、追加の限定がない限り、数、順序、及び大きさの制限は備えられない。
その中、第1のエンコーダは、テキストから言語特徴を抽出した後、言語特徴を第1のデコーダに出力する。第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。
具体的には、第1のエンコーダにテキストを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向LSTM層を経た後に言語特徴を取得する。第2のデコーダは、1つの自己回帰ネットワークであり、予測された前のフレームの韻律特徴は、まず、Pre-net(前予測ネットワーク)を通過した後、pre-netの出力結果と言語特徴をスプライシングした後にLSTMに共に入力し、次に、線形予測層の処理を経て予測された韻律特徴を取得する。
上記の方式に加えて、韻律予測モデルは、さらに、放送スタイルを組み合わせて韻律特徴の抽出を行うこともできる。この場合の韻律予測モデル構造は、図3bに示すようにすることができる。この時、第1のエンコーダは、テキストから言語特徴を抽出した後、放送スタイル特徴と言語特徴をスプライシングし、取得された第1のスプライシング特徴を第1のデコーダに入力する。放送スタイル特徴は、話者情報から抽出することができ、例えば、話者情報に対して埋め込み処理を行う。テキストから抽出することもでき、例えば、テキストのセマンティック情報、領域知識などから抽出する(この場合は図には示されていない)。第1のデコーダは、予測された前のフレームの韻律特徴と第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する。このように、音声合成モデルが様々な放送スタイルの音声合成能力を備えることができる。
上記の2つの構造は、本開示により提供される2つの実現方式であり、それ以外、他の方式を使用してテキストから韻律特徴を抽出することもできる。
以下は実施例を組み合わせて上記のステップ203、すなわち「テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得する」を詳細に説明する。
図4は本開示の実施例により提供される音声合成モデルの概略構造図である。図6に示すように、音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含む。
第2のエンコーダは、テキストから言語特徴を抽出した後、言語特徴と韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を第2のデコーダに出力し、
第2のデコーダは、予測された前のフレームの音響特徴、及び第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含む。
後予測ネットワーク(Post-net)は、音響特徴を使用してボコーダ特徴を予測して取得する。
図4に示すように、第2のエンコーダにテキストを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向LSTM層を経た後に言語特徴を取得する。当該言語特徴とステップ402で取得された韻律特徴は、すなわち韻律予測モデルによって出力された韻律特徴をスプライシングした後に、第2のスプライシング特徴を取得する。さらに、話者情報に対して埋め込み処理を行った後に話者特徴を取得し、言語特徴、話者特徴、及び韻律特徴をスプライシングした後に第2のスプライシング特徴を取得することもでき、図4に示されるのはこのような好ましい方式である。
第2のデコーダは、1つの自己回帰ネットワークであり、前のフレームの音響特徴がPre-net(前予測ネットワーク)を通過した後に取得された特徴と、注意力処理後の第2のスプライシング特徴をスプライシングし、第3のスプライシング特徴を取得する。第3のスプライシング特徴は、LSTM処理後に線形予測層に入力され、線形予測層から現在のフレームの音響特徴を予測して取得する。本開示の実施例に係る音響特徴は音声スペクトル特徴を含む。その中の比較的に汎用的で一般的な音声スペクトル特徴はmel(メル)スペクトルである。
第2のデコーダは、実際には、1つの自己回帰ネットワークを使用して時系列予測を行ってmelスペクトルを取得し、第2のエンコーダでテキストの言語特徴、韻律特徴、話者特徴などを共にスプライシングして文脈特徴とし、次に、前のフレーム予測によって取得されたmelスペクトルを使用して文脈特徴を組み合わせて現在のフレームのmelスペクトルを予測し、順次に予測すると1つのmelスペクトルシーケンスを取得することができる。
後予測ネットワークの構造は、図5に示すことができ、後予測ネットワークは、音響特徴をCBHG(Convolution bank+highway network+bidirectional GRU)モジュールを経て処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成する。予測モジュールは、双方向GRU(Gate Recurrent Unit、ゲート付き回帰ユニット)と線形投影層を含むことができ、Nは正の整数である。例えば、図5に示すように、Nは4に設置する。SP(Spectral envelope、スペクトル包絡線)は、高周波数、中周波数、低周波数に分割され、1つの予測モジュールによってそれぞれ予測して出力され、他のエネルギー特徴、CAP(Coarse aperiodic parameter、非周期的な粗さパラメータ)、LF0(Logarithmic fundamental frequency、対数基本周波数)特徴、UV特徴などは、残りの1つの予測モジュールによって予測して出力される。最終的に出力されるすべてのこれらの特徴は、ボコーダ特徴を構成する。
以下は実施例を組み合わせて上記のステップ204、すなわち「ボコーダ特徴をボコーダに入力して、合成された音声を取得する」を詳細に説明する。
実現方式として、音声合成モデルによって出力されたボコーダ特徴は、ボコーダに直接入力し、ボコーダによって対応する音声を合成することができる。
好ましい実施方式として、ボコーダ特徴をボコーダに入力する前、さらに、ボコーダ特徴に対していくつかの後処理を行い、次に、処理後のボコーダ特徴をボコーダに入力することもできる。実行される後処理は、線形補間、UV修正、及び逆正規化のうちの少なくとも1つを含むことができる。
いくつかの場合によって、ボコーダの合成能力は音声合成モデルによって出力されたボコーダ特徴より高く、例えば音声合成モジュールは、フレームシフトが10msのボコーダ特徴を出力するが、ボコーダが5ms特徴を合成する音質が10ms特徴より高いので、予め設定された補間倍数に従って、音声合成モデルによって出力されたボコーダ特徴に対して線形補間処理を行うことができる。その中、補間倍数は、ボコーダの合成能力に基づいて予め設定することができ、上記の例では補間倍数を2倍に設置することができる。このような方式は、音声合成モジュールの計算量を減らし、後処理の線形補間によって10msの音声合成モジュールも5msの音声合成モジュールに近い効果に達成できることを実現する。
UV特徴は、すなわちUnvoiced(無声音)とVoiced(有声音)特徴である。ボコーダ特徴では、各フレームは、すべて1つのUV特徴を有する値で当該フレームオーディオの発音特性を表す。1つのテキストについて、これに対応するのは、1つのオーディオシーケンスであり、通常、複数のフレームから構成され、従って、ボコーダ特徴におけるUV特徴は、1つのシーケンス、すなわちUV特徴シーケンスとして具現される。UV特徴シーケンスは、各フレームのUV特徴値を含む。
UV特徴値は0と1を含み、0はUnvoicedを表し、1はVoicedを表す。
従来の音声合成モデルではボコーダ特徴の予測を行う時、UV特徴については分類確率に基づいて行われる予測であり、一定の誤差が存在する可能性があり、これらの誤差は、母音と子音の分布が発音法則に符合せず、音声合成の効果が低くなる。
以下は実施例を組み合わせてUV修正のプロセスを詳細に説明する。具体的には、ボコーダ特徴におけるエネルギー特徴に基づいてボコーダ特徴におけるUV特徴シーケンスに対して値変化境界の修正を行うことができる。音声スペクトル特徴に基づいてUV特徴シーケンスの各値に対してそれぞれ判断と修正を行うこともできる。すなわち、ボコーダ特徴におけるエネルギー特徴に基づいてボコーダ特徴におけるUV特徴シーケンスに対して値変化境界の修正を行い、音声スペクトル特徴に基づいてUV特徴シーケンスの各値に対してそれぞれ判断と修正を行うこともできる。
以下は1つの好ましい実施方式で上記の2つの方式を例として説明する。図6に示すように、UV修正は、具体的には、以下のステップを含むことができる。
601では、ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対して1つずつ判断し、当該フレームに対応するエネルギー特徴値が0より小さい場合、当該フレームのUV特徴値を0に修正する。
前述のように、ボコーダ特徴にはエネルギー特徴が含まれ、本ステップでは、まず、ボコーダにおけるエネルギー特徴を使用してUV特徴シーケンスの値変化境界上の値が1のフレームを判断する。
値変化境界上の値が1のフレームとは、UV特徴シーケンスに、隣接する0から1までが存在する場合、値変化境界とみなし、隣接する0と1の値が1のフレームを判断する。
値が1のフレームは、当該フレームが音声合成モデルによって有声音として認識されることを意味する。有声音とは、発音時に声帯が振動する音を指す。無声音とは、発音時に声帯が振動しない音を指す。通常の状況では、有声音の発音は、無声音よりも大きく、無声音は、ボコーダ特徴に対応するエネルギー特徴値が通常、0より小さいため、UV特徴シーケンスの値変化境界上の値が1のフレームに対応するエネルギー特徴値が0より小さい場合、当該フレームは無声音である可能性が高く、そのUV特徴値を0に修正する。対応するエネルギー特徴値が0以上である場合、当該フレームのUV特徴値は変更しないように保持する。
本ステップでは、UV特徴シーケンスにおけるすべての値境界上の値が1のフレームをすべて判断する。UV特徴値の修正を行った後に新しい値境界が生成された場合、新しい値境界上の値が1のフレームに対しても判断する必要がある。例えば、元のUV特徴シーケンスに「…0、1、1…」という1つのセグメントがある。その中の0、1境界上の1を判断し、それを0に修正した後、当該0値と後の値1は、また新しい値境界を構成すると、後の値1に対応するフレームに対して上記の判断を続ける。
602では、UV特徴シーケンスの値変化境界上の値が0のフレームを1つずつ判断し、当該フレームに対応するエネルギー特徴値と値が1の隣接フレームに対応するエネルギーとの間の比率が予め設定された比例の閾値より大きい場合、当該値が0のフレームのUV特徴値を1に修正する。
値が0のフレームは、当該フレームが音声合成モデルによって無声音として認識されることを意味し、異なるユーザにとって、発音時のエネルギー値が異なる場合がある。しかし、無声音と有声音の発音時には一定の区別がある。値変化境界上の値が0のフレームと値が1のフレームに対応するエネルギー間の比率が予め設定された比例の閾値(例えば50%)より大きい場合、つまり、当該フレームが隣接する有声音とあまり差がない場合、当該フレームも有声音である可能性が高いとみなすので、当該フレームのUV特徴値を1に修正する。それ以外の場合、当該フレームのUV特徴値は変更しないように保持する。
本ステップでは、UV特徴シーケンスにおけるすべての値境界上の値が0のフレームをすべて判断することができる。UV特徴値の修正を行った後に新しい値境界が生成された場合、また、新しい値境界上の値が0のフレームを判断する必要がある。例えば、元のUV特徴シーケンスに「…1、0、0…」という1つのセグメントがある。その中の1、0境界上の0を判断し、それを1に修正した後、当該1値と後の値0は、また新しい値境界を構成すると、後の値0に対応するフレームに対して上記の判断を続ける。本ステップでは1つのnをパラメータとして設置することができ、1つの値境界での前方または後方に最大にnフレームを連続的に判断し、すなわちnフレーム後に新しい値境界が生成されても、判断と修正を継続せず、nは予め設定された正の整数であり、例えば、8を取る。異なる人の異なる発音習慣に応じて、異なる話者に対して異なるn値を取ることができる。
603では、フレームごとに判断し、当該フレーム音声スペクトル特徴の前のM次元の最大値が予め設定された第1の閾値より小さい場合、当該フレームのUV特徴値を1に設置し、当該フレーム音声スペクトル特徴の前のM次元の最大値が予め設定された第2の閾値より大きい場合、当該フレームのUV特徴値を0に設置する。
Mは予め設定された正の整数であり、例えば、20と取る。第2の閾値は第1の閾値より大きく、例えば、第1の閾値は2を取り、第2の閾値は2.5を取る。
音声合成モデルはボコーダ特徴を出力する以外、テキストに対応する音響特徴を出力することもでき、音声スペクトル特徴を含む。その中の比較的に汎用的で一般的な音声スペクトル特徴はmel(メル)スペクトルである。
melスペクトルを例とし、melスペクトルの値は0~4である。観察と研究した後に、有声音に対応するmelスペクトルの前の20次元の値が比較的大きく、無声音に対応するmelスペクトルの前の20次元の値が比較的小さい。したがって、melスペクトルの前の20次元の最大値が2より小さい場合、当該フレームは有声音である可能性が高いため、当該フレームのUV特徴値を1に設置する。当該フレームのUV特徴値自体が1である場合、変更しないように保持し、0である場合、それを1に修正する。melスペクトルの前の20次元の最大値が2.5より大きい場合、当該フレーム無声音である可能性が高いため、当該フレームのUV特徴値を0に設置する。
melスペクトルの前の20次元の最大値が2以上であり、且つ2.5以下である場合、当該フレームのUV特徴値は変更しないように保持する。
上記の図6に示す実施例で使用される実行順序は好ましい実行順序であり、最適なUV修正効果に達成することができる。しかし、本開示は上記の実行ステップと実行順序に限定されず、その中の一部または全部のステップのみを実行する場合、又は他の実行順序を使用する場合も、同様に本開示の保護範囲内である。
通常、音声合成モデルをトレーニングする時、モデルトレーニングの難易度と精度を低減するために、トレーニング時にいくつかのタイプの特徴に対して正規化処理を行う。これらの正規化は、異なる話者または異なる放送スタイルに対することであってもよい。しかし、実際の音声合成プロセスでは、音声合成モデルによって出力された正規化のボコーダ特徴は、最終的にボコーダによって合成された音声効果に影響を与える。したがって、さらに、修正後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行うことができる。その中、逆正規化処理は、音声合成モデルのトレーニングプロセス中に予め設定されたタイプの特徴シーケンスに対して行われる正規化に対応する。
それ以外、正規化プロセス中に分散と平均値を適切に調整することもでき、高周波エネルギーと基本周波数の効果を向上させることができる。分散を調整すると、最終的に合成された音声がより透過させることができ、平均値を調整すると、最終的に合成された音声がより大きく明瞭ではっきりすることができる。
上記の処理後のボコーダ特徴はボコーダに提供して音声合成を行った後、合成された音声品質を大幅に向上させることができる。上記のステップ204で使用されるボコーダタイプは、本開示では、例えば、worldボコーダなどを使用することができるが、これらに限定されない。
上記の音声合成と後処理方法により、音声合成の高いリアルタイム率と少量の計算量を確保し、オフライン音声合成に基礎を提供することができる。実験的な検証を経て、当該音声合成方法のエラー率は1000分の3より低く、携帯電話オフライン地図ナビゲーションなどの低いリソース要求シナリオの音声合成方法に適する。
以下は実施例を組み合わせて音声合成モデルのトレーニング方法を詳細に説明する。図8aは本開示の実施例により提供される第1の音声合成モデルのトレーニング方法のフローチャートである。図7aに示すように、当該方法は、以下のステップを含むことができ、
701では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含む。
本実施例では、トレーニングサンプルを取得する方式は、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。
次に、標準音声からボコーダ特徴と韻律特徴を抽出し、抽出されたボコーダ特徴と韻律特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴と韻律特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。
702では、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。
このようなトレーニング方式は、図7bに示すように、実際には、テキストサンプルの韻律特徴とボコーダ特徴をすべてラベリングする。トレーニングプロセス中に、各反復において、テキストサンプルと韻律特徴を音声合成モデルに入力する。音声合成モデルは予測されたボコーダ特徴を出力した後、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計し、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルのモデルパラメータを反復的に更新することができる。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。
音声合成モデルの構造は、依然として、図4に示すように、本実施例のトレーニングプロセス中に、音声合成モデルにおける第2のエンコーダは、テキストサンプルから言語特徴を抽出した後、言語特徴とラベリングされた韻律特徴をスプライシングし、又は言語特徴、韻律特徴、及び話者特徴(話者特徴は標準音声から抽出する)をスプライシングし、スプライシングされた第2のスプライシング特徴を第2のデコーダに出力する。
第2のデコーダは、予測された前のフレームの音響特徴、及び第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、音響特徴はmelスペクトルなどの音声スペクトル特徴を含む。
後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する。後予測ネットワークの構造は、図5に示すように、後予測ネットワークが音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成し、予測モジュールは双方向GRUと線形投影層を含み、Nは正の整数であり、例えば、4を取る。SPエンベロープは、高周波数、中周波数、低周波数に分割され、1つの予測モジュールによってそれぞれ予測して出力され、他のエネルギー特徴、CAP特徴、LF0特徴、UV特徴などは、残りの1つの予測モジュールによって予測して出力される。最終的に出力されるすべてのこれらの特徴は、ボコーダ特徴を構成する。
トレーニング終了後に取得された音声合成モデルは、上記音声合成方法の実施例に使用されて、合成待ちテキストに対してボコーダ特徴の抽出を行うことを使用されることができる。
図8aは本開示の実施例により提供される第2の音声合成モデルのトレーニング方法のフローチャートである。図8aに示すように、当該方法は、以下のステップを含むことができ、
801では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
本実施例では、トレーニングサンプルを取得する方式は上記実施例と類似し、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。
次に、標準音声からボコーダ特徴と音響特徴を抽出し、抽出されたボコーダ特徴と音響特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴と音響特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。
802では、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律抽出モデルと音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成待ちテキストのボコーダ特徴を取得するために用いられる。
本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律抽出モデルを使用して補助トレーニングを行う。韻律抽出モデルは、音響特徴を入力した場合に韻律特徴を出力することができる。図8bに示すように、実際には、テキストサンプルの音響特徴とボコーダ特徴をすべてラベリングする。トレーニングプロセス中に、各反復において、すべてのラベリングされた音響特徴を韻律抽出モデルに入力し、韻律抽出モデルによって出力された韻律特徴と上記のテキストサンプルを音声合成モデルに入力する。音声合成モデルは予測されたボコーダ特徴を出力した後、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計することができ、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律抽出モデルのモデルパラメータを反復的に更新することができる。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。
音声合成モデルの構造及び原理は、前の実施例と同じであり、説明は省略する。以下は上記の韻律抽出モデルの構造を説明する。図8cは本開示の実施例により提供される韻律抽出モデルの概略構造図である。図8cに示すように、韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含む。
ラベリングされた音響特徴、例えばmelスペクトルは、畳み込み層と双方向GRU層を経た後、双方向GRU層によって出力された特徴と音声合成モデルの第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行い、韻律特徴を取得する。
上記のトレーニングプロセス中に、韻律抽出モデルと音声合成モデルを共に共同トレーニングを行い、最終的にトレーニングされた音声合成モデルは、合成待ちテキストのボコーダ特徴を取得するために用いられる。
図9aは本開示の実施例により提供される第3の音声合成モデルのトレーニング方法のフローチャートである。図9aに示すように、当該方法は、以下のステップを含むことができ、
901では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含む。
本実施例では、トレーニングサンプルを取得する方式は上記実施例と類似し、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。
次に、標準音声からボコーダ特徴を抽出し、抽出されたボコーダ特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。
902では、テキストサンプルを韻律予測モデルの入力とし、韻律予測モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律予測モデルと音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成待ちテキストのボコーダ特徴を取得するために用いられる。
本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律予測モデルを使用して共同トレーニングを行う。韻律予測モデルは、テキストを入力する場合に韻律特徴を出力することができる。図9bに示すように、テキストサンプルのボコーダ特徴のみをすべてラベリングする必要がある。トレーニングプロセス中に、各反復において、すべてのテキストサンプルを韻律予測モデルと音声合成モデルに入力する。韻律予測モデルによって出力された韻律特徴も、音声合成モデルに入力する。音声合成モデルは、テキストと韻律特徴をを入力した場合に予測されたボコーダ特徴を出力し、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計することができ、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律予測モデルのモデルパラメータを反復的に更新する。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。
音声合成モデルの構造及び原理は、前の実施例と同じであり、韻律予測モデルの構造及び原理は、図3a、3bに示すように、第1のエンコーダと第1のデコーダを含む。
第1のエンコーダは、テキストサンプルから言語特徴を抽出した後、言語特徴を第1のデコーダに出力し、第1のデコーダは、予測された前のフレームの韻律特徴と言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。
具体的には、第1のエンコーダにおいてテキストサンプルを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向LSTM層を経た後に言語特徴を取得する。第2のデコーダは、1つの自己回帰ネットワークであり、予測された前のフレームの韻律特徴は、まず、Pre-net(前予測ネットワーク)を通過した後、pre-netの出力結果と言語特徴をスプライシングした後にLSTMに共に入力し、次に、線形予測層の処理を経て予測された韻律特徴を取得する。
又は、第1のデコーダがテキストサンプルから言語特徴を抽出した後、テキストサンプルから抽出された放送スタイル特徴と言語特徴をスプライシングし、取得された第1のスプライシング特徴を第1のデコーダに入力し、第1のデコーダは、予測された前のフレームの韻律特徴と第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する。
上記のトレーニングプロセス中に、韻律予測モデルと音声合成モデルに対して共に共同トレーニングを行い、最終的にトレーニングされた音声合成モデルは、合成待ちテキストのボコーダ特徴を取得するために用いられる。
図10aは本開示の実施例により提供される第4の音声合成モデルのトレーニング方法のフローチャートである。図10aに示すように、当該方法は、以下のステップを含むことができ、
1001では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。
本実施例では、トレーニングサンプルを取得する方式は上記実施例と類似し、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。
次に、標準音声からボコーダ特徴と音響特徴を抽出し、抽出されたボコーダ特徴と音響特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴と音響特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。
1002では、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、テキストサンプルを韻律予測モデルの入力とし、韻律抽出モデルによって出力された韻律特徴を韻律予測モデルのターゲット出力とし、韻律予測モデルと、韻律抽出モデルと、音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成待ちテキストのボコーダ特徴を取得するために用いられる。
本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律抽出モデルと韻律予測モデルを使用して共同トレーニングを行う。韻律抽出モデルはラベリングされた音響特徴を入力した場合に韻律特徴を出力し、韻律予測モデルはテキストサンプルを入力した場合に韻律特徴を出力することができる。図10bに示すように、テキストサンプルのボコーダ特徴と音響特徴に対してすべてラベリングする必要がある。トレーニングプロセス中に、各反復において、すべてのテキストサンプルを韻律予測モデルと音声合成モデルに入力し、ラベリングされた音響特徴を韻律抽出モデルに入力する。韻律抽出モデルによって出力された韻律特徴も、音声合成モデルに入力する。音声合成モデルは、テキストと韻律特徴をを入力した場合に予測されたボコーダ特徴を出力し、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化し、韻律予測モデルによって予測された韻律特徴と韻律抽出モデルによって抽出された韻律特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して2つの損失関数を予め設計することができ、すなわち予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化して損失関数L1を構築し、韻律予測モデルによって予測された韻律特徴と韻律抽出モデルによって抽出された韻律特徴との間の差異を最小化して損失関数L2を構築する。L1とL2を使用して全損失関数を構築し、当該全損失関数に基づいて、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律予測モデルのモデルパラメータを反復的に更新する。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。
上記の音声合成モデルは、トレーニングデータに対する要求が低く、通常、数百の文で商業的な安定的効果、表現力、及び流暢さを達成することができる。
以上は、本開示により提供される方法に対する詳細な説明であり、以下は、実施例を組み合わせて本開示により提供される装置を詳細に説明する。
図11は開示の実施例により提供される音声合成装置の概略構造図である。すなわち図1に示す音声合成装置である。図11に示すように、当該装置1100は、テキスト取得ユニット1101、韻律抽出ユニット1102、及び音声合成ユニット1103を含むことができ、モデルトレーニングユニット1104をさらに含むこともできる。各構成ユニットの主な機能は、以下のようである。
テキスト取得ユニット1101は、合成待ちテキストを取得するために用いられる。
韻律抽出ユニット1102は、テキストから抽出された韻律特徴を取得するために用いられる。
音声合成ユニット1103は、テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得し、ボコーダ特徴をボコーダに入力して、合成された音声を取得するために用いられる。
韻律抽出ユニット1102は、具体的には、テキストを韻律予測モデルに入力して、韻律特徴を取得するために用いられる。韻律予測モデルは、第1のエンコーダと第1のデコーダを含む。
1つの実現方式として、第1のエンコーダは、テキストから言語特徴を抽出した後、言語特徴を第1のデコーダに出力するために用いられ、第1のデコーダは、予測された前のフレームの韻律特徴と言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。
別の実現方式として、第1のデコーダは、テキストから言語特徴を抽出した後、テキストから抽出された放送スタイル特徴と言語特徴をスプライシングし、取得された第1のスプライシング特徴を第1のデコーダに入力し、第1のデコーダは予測された前のフレームの韻律特徴と第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得するために用いられる。
音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含むことができる。
第2のエンコーダは、テキストから言語特徴を抽出した後、言語特徴と韻律特徴をスプライシングし、又は言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を第2のデコーダに出力するために用いられる。
第2のデコーダは、予測された前のフレームの音響特徴と、第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して後予測ネットワークに出力するために用いられ、音響特徴は音声スペクトル特徴を含む。
後予測ネットワークは、音響特徴を使用してボコーダ特徴を予測して取得するために用いられる。
1つの実現可能な方式として、第2のデコーダは、前のフレームの音響特徴が前予測ネットワークを通過した後に取得された特徴と、注意力処理後の第2のスプライシング特徴をスプライシングし、第3のスプライシング特徴を取得し、第3のスプライシング特徴は、長短期記憶ネットワークLSTMを経て処理した後に線形予測層に入力し、線形予測層から現在のフレームの音響特徴を予測して取得する。
1つの実現可能な方式として、後予測ネットワークは、音響特徴がCBHGモジュールを経て処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成し、予測モジュールは、双方向ゲート付き回帰ユニットGRUと線形投影層を含み、Nは正の整数である。
上記のモデルトレーニングユニット1104は、以下のいくつかのトレーニング方式を使用することができるこれらに限定しない。
第1のトレーニング方式:モデルトレーニングユニット1104は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含み、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。
第2のトレーニング方式:モデルトレーニングユニット1104は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含み、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律抽出モデルと音声合成モデルをトレーニングする。
第3のトレーニング方式:モデルトレーニングユニット1104は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含み、テキストサンプルを韻律予測モデルの入力とし、韻律予測モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律予測モデルと音声合成モデルをトレーニングする。
第4のトレーニング方式:モデルトレーニングユニット1104は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含み、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、テキストサンプルを韻律予測モデルの入力とし、韻律抽出モデルによって出力された韻律特徴を韻律予測モデルのターゲット出力とし、韻律予測モデルと、韻律抽出モデルと、音声合成モデルをトレーニングする。
上記の第2のトレーニング方式と第4のトレーニング方式に関する韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含むことができる。
ラベリングされた音響特徴は、畳み込み層と双方向GRU層を経た後、取得された特徴と音声合成モデルにおける第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行い、韻律特徴を取得する。
上記の4つの方式では、モデルトレーニングユニット1104は、標準音声を取得し、標準音声に対応するテキストをテキストサンプルとして決定することができる。標準音声から音響特徴とボコーダ特徴のうちの少なくとも1つをテキストサンプルとして抽出してラベリングする。テキストサンプルから韻律特徴を抽出してテキストサンプルをラベリングする。
図12は本開示の実施例により提供される後処理装置の概略構造図である。図12に示すように、当該装置1200は、特徴取得ユニット1201、UV修正ユニット1202、及び特徴処理ユニット1203を含むことができる、線形補間ユニット1204、及び逆正規化ユニット1205をさらに含むこともできる。各構成ユニットの主な機能は、以下のようである。
特徴取得ユニット1201は、テキストに対して得られたボコーダ特徴を取得するために用いられる。
UV修正ユニット1202は、ボコーダ特徴におけるエネルギー特徴及び/又は音声スペクトル特徴に基づいて、ボコーダ特徴におけるUV特徴に対して値修正を行うために用いられる。
特徴処理ユニット1203は、合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するために用いられる。
UV修正ユニット1202は、具体的には、ボコーダ特徴におけるUV特徴シーケンスの値変化境界上の値が1のフレームに対応するエネルギー特徴値が0より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのUV特徴値を0に修正し、UV特徴シーケンスの値変化境界上の値が0のフレームに対応するエネルギー特徴値と、値が1の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が0のフレームのUV特徴値を1に修正するために用いられる。
UV修正ユニット1202は、具体的には、各フレームについて、当該フレーム音声スペクトル特徴の前のM次元の最大値が予め設定された第1の閾値より小さい場合、当該フレームのUV特徴値を1に設置し、当該フレーム音声スペクトル特徴の前のM次元の最大値が予め設定された第2の閾値より大きい場合、当該フレームのUV特徴値を0に設置するために用いられ、Mは予め設定された正の整数であり、第2の閾値は第1の閾値より大きい。
好ましい実施方式として、音声スペクトル特徴はメルスペクトル特徴であり、Mは20であり、第1の閾値は2であり、第2の閾値は2.5である。
線形補間ユニット1204は、予め設定された補間倍数に従って、特徴取得ユニット1201によって取得されたボコーダ特徴に対して線形補間処理を行い、線形補間処理後のボコーダ特徴をUV修正ユニット1202に提供するために用いられる。
さらに、逆正規化ユニット1205は、修正後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行うために用いられ、逆正規化処理は、音声合成モデルのトレーニングプロセス中に予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、音声合成モデルは、テキストに対して得られたボコーダ特徴を取得するソースである。
こうに応じて、特徴処理ユニット1203は、逆正規化ユニット1205を経て処理した後のボコーダ特徴をボコーダに提供する。
なお、上記の音声合成装置1100と上記の後処理装置1200は、それぞれ独立的に設置することができ、1つの装置として設置して実現することもでき、一部のユニットを1つの装置として統合して実現することもでき、本開示はこれについて限定しない。
本明細書の各実施例は、すべて漸進的な方式を使用して説明し、各実施例間の同一および類似の部分は、互いに参照すればよく、各実施例は、すべて他の実施例との違いについて重点的に説明する。特に、装置の実施例は、方法の実施例に基本的に類似するため、説明は比較的に簡単であり、関連するところは、方法の実施例の部分の説明を参照すればよい。
本開示の技術案において、関するユーザ個人情報の取得、記憶、応用などは、すべて関連する法律および規定を満たし、公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図13に示すように、本開示の実施例に係る音声合成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図13に示すように、機器1300は計算ユニット1301を含み、計算ユニット1301は、読み取り専用メモリ(ROM)1302に記憶されているコンピュータプログラムまたは記憶ユニット1308からランダムアクセスメモリ(RAM)1303にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM1303には、機器1300が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット1301、ROM1302、およびRAM1303は、バス1304を介してお互いに接続される。入出力(I/O)インターフェース1305もバス1304に接続される。
機器1300内の複数のコンポーネントは、I/Oインターフェース1305に接続されており、キーボード、マウスなどの入力ユニット1306と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1307と、ディスク、光ディスクなどの記憶ユニット1308と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1309と、を含む。通信ユニット1309は、機器1300が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット1301は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット1301のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1301は、音声合成方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声合成方法は、記憶ユニット1308などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM1302および/または通信ユニット1309を介して機器1300にローディングおよび/またはインストールされる。コンピュータプログラムがRAM1303にローディングされて計算ユニット1301によって実行される場合、上記の音声合成方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1301は、他の任意の適切な方式(例えば、ファームウェアによって)を介して音声合成方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ローディングプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストと仮想プライベートサーバ(VPs、VI irtual Private Server)サービスに、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (23)

  1. 音声合成方法であって、
    合成待ちテキストを取得するステップと、
    前記テキストから抽出された韻律特徴を取得するステップと、
    前記テキストと前記韻律特徴を音声合成モデルに入力して、スペクトル特徴、エネルギー特徴、CAP(Coarse aperiodic parameter)特徴、LF0(Logarithmic fundamental frequency)特徴、及び、UV特徴のうちの少なくとも一つを含むボコーダ特徴を取得するステップと、
    前記ボコーダ特徴をボコーダに入力して、合成された音声を取得するステップと、を含み、
    前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
    前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力し、
    前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
    前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
    音声合成方法。
  2. 前記テキストから抽出された韻律特徴を取得するステップは、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するステップを含み、
    前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
    前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、
    又は、
    前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
    請求項1に記載の音声合成方法。
  3. 前記第2のデコーダが予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測するステップは、
    前記第2のデコーダが、前記前のフレームの音響特徴が前予測ネットワークを経た後に取得された特徴と、注意力処理を行った後の前記第2のスプライシング特徴をスプライシングして、第3のスプライシング特徴を取得するステップと、前記第3のスプライシング特徴が長短期記憶ネットワークLSTM処理を経た後に線形予測層に入力し、線形予測層によって予測して現在のフレームの音響特徴を取得するステップと、を含む、
    請求項に記載の音声合成方法。
  4. 前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得するステップは、
    前記後予測ネットワークが音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するステップを含み、前記予測モジュールは、双方向ゲート付き回帰ユニット(GRU)と線形投影層を含み、Nは正の整数である、
    請求項に記載の音声合成方法。
  5. 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
    トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた韻律特徴、及びボコーダ特徴を含み、
    前記テキストサンプルと、ラベリングされた前記韻律特徴を音声合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記音声合成モデルのターゲット出力とし、前記音声合成モデルをトレーニングする、
    請求項1に記載の音声合成方法。
  6. 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
    トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、
    ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律抽出モデルと前記音声合成モデルをトレーニングする、
    請求項に記載の音声合成方法。
  7. 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
    トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルと前記テキストサンプルにラベリングされたボコーダ特徴を含み、
    前記テキストサンプルを韻律予測モデルの入力とし、前記韻律予測モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律予測モデルと前記音声合成モデルをトレーニングする、
    請求項1に記載の音声合成方法。
  8. 前記音声合成モデルは、以下の方式を使用して予めトレーニングして取得し、前記方式は、
    トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、
    ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴を前記韻律予測モデルのターゲット出力とし、前記韻律予測モデル、韻律抽出モデル、及び前記音声合成モデルをトレーニングする、
    請求項に記載の音声合成方法。
  9. 前記韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含み、
    ラベリングされた前記音響特徴は、畳み込み層と双方向GRU層を経た後、取得された特徴と前記音声合成モデルにおける前記第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行って、韻律特徴を取得する、
    請求項又はに記載の音声合成方法。
  10. 前記トレーニングサンプルを取得するステップは、
    標準音声を取得し、前記標準音声に対応するテキストをテキストサンプルとして決定するステップと、
    前記標準音声から音響特徴とボコーダ特徴のうちの少なくとも1つを前記テキストサンプルとして抽出してラベリングし、及び/又は、
    前記テキストサンプルから韻律特徴を抽出して前記テキストサンプルをラベリングするステップと、を含む、
    請求項のいずれか一項に記載の音声合成方法。
  11. 音声合成装置であって、
    合成待ちテキストを取得するためのテキスト取得ユニットと、
    前記テキストから抽出された韻律特徴を取得するための韻律抽出ユニットと、
    前記テキストと前記韻律特徴を音声合成モデルに入力して、スペクトル特徴、エネルギー特徴、CAP(Coarse aperiodic parameter)特徴、LF0(Logarithmic fundamental frequency)特徴、及び、UV特徴のうちの少なくとも一つを含むボコーダ特徴を取得し、前記ボコーダ特徴をボコーダに入力して、合成された音声を取得する音声合成ユニットと、を含み、
    前記音声合成モデルは、第2のエンコーダ、第2のデコーダ、及び後予測ネットワークを含み、
    前記第2のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第2のスプライシング特徴を前記第2のデコーダに出力するために用いられ、
    前記第2のデコーダは、予測された前のフレームの音響特徴、及び前記第2のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力するために用いられ、前記音響特徴は音声スペクトル特徴を含み、
    前記後予測ネットワークは、音響特徴を使用してボコーダ特徴を予測して取得するために用いられる、
    音声合成装置。
  12. 前記韻律抽出ユニットは、具体的には、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するために用いられ、
    前記韻律予測モデルは、第1のエンコーダと第1のデコーダを含み、
    前記第1のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第1のデコーダに出力するために用いられ、前記第1のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、又は、
    前記第1のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第1のスプライシング特徴を前記第1のデコーダに入力し、前記第1のデコーダに予測された前のフレームの韻律特徴と前記第1のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得するために用いられる、
    請求項11に記載の音声合成装置。
  13. 前記第2のデコーダは、具体的には、前記前のフレームの音響特徴が前予測ネットワークを経た後に取得された特徴と、注意力処理を行った後の前記第2のスプライシング特徴をスプライシングし、第3のスプライシング特徴を取得し、前記第3のスプライシング特徴が長短期記憶ネットワークLSTM処理を経た後に線形予測層に入力し、線形予測層によって予測して現在のフレームの音響特徴を取得するために用いられる、
    請求項11に記載の音声合成装置。
  14. 前記後予測ネットワークは、具体的には、音響特徴をCBHGモジュールで処理した後、次に、N個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するために用いられ、前記予測モジュールは、双方向ゲート付き回帰ユニット(GRU)と線形投影層を含み、Nは正の整数である、
    請求項11に記載の音声合成装置。
  15. 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
    前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた韻律特徴、及びボコーダ特徴を含み、前記テキストサンプルと、ラベリングされた前記韻律特徴を音声合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記音声合成モデルのターゲット出力とし、前記音声合成モデルをトレーニングする、
    請求項11に記載の音声合成装置。
  16. 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
    前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律抽出モデルと前記音声合成モデルをトレーニングする、
    請求項11に記載の音声合成装置。
  17. 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
    前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプルと前記テキストサンプルにラベリングされたボコーダ特徴を含み、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律予測モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記韻律予測モデルと前記音声合成モデルをトレーニングする、
    請求項11に記載の音声合成装置。
  18. 前記音声合成装置は、モデルトレーニングユニットをさらに含み、
    前記モデルトレーニングユニットは、トレーニングサンプルを取得するために用いられ、各トレーニングサンプルは、テキストサンプル、前記テキストサンプルにラベリングされた音響特徴、及びボコーダ特徴を含み、ラベリングされた前記音響特徴を韻律抽出モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴と前記テキストサンプルを言語合成モデルの入力とし、ラベリングされた前記ボコーダ特徴を前記言語合成モデルのターゲット出力とし、前記テキストサンプルを韻律予測モデルの入力とし、前記韻律抽出モデルによって出力された韻律特徴を前記韻律予測モデルのターゲット出力とし、前記韻律予測モデル、韻律抽出モデル、及び前記音声合成モデルをトレーニングする、
    請求項11に記載の音声合成装置。
  19. 前記韻律抽出モデルは、畳み込み層、双方向GRU層、及び注意力層を含み、
    ラベリングされた前記音響特徴は、畳み込み層と双方向GRU層を経た後、取得された特徴と前記音声合成モデルにおける前記第2のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行って、韻律特徴を取得する、
    請求項16又は18に記載の音声合成装置。
  20. 前記モデルトレーニングユニットは、具体的には、標準音声を取得し、前記標準音声に対応するテキストをテキストサンプルとして決定し、前記標準音声から音響特徴とボコーダ特徴のうちの少なくとも1つを前記テキストサンプルとして抽出してラベリングし、及び/又は、前記テキストサンプルから韻律特徴を抽出して前記テキストサンプルをラベリングするために用いられる、
    請求項1518のいずれか一項に記載の音声合成装置。
  21. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~のいずれかの一つに記載の音声合成方法を実行する、
    電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~のいずれかの一つに記載の音声合成方法を実行させる、
    コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  23. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される時に請求項1~のいずれかの一つに記載の音声合成方法を実現する、
    コンピュータプログラム。
JP2022077078A 2021-08-17 2022-05-09 音声合成方法、装置、機器、及びコンピュータ記憶媒体 Active JP7314450B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110942295.4 2021-08-17
CN202110942295.4A CN113838452B (zh) 2021-08-17 2021-08-17 语音合成方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
JP2023027748A JP2023027748A (ja) 2023-03-02
JP7314450B2 true JP7314450B2 (ja) 2023-07-26

Family

ID=78960628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022077078A Active JP7314450B2 (ja) 2021-08-17 2022-05-09 音声合成方法、装置、機器、及びコンピュータ記憶媒体

Country Status (4)

Country Link
US (1) US11996084B2 (ja)
JP (1) JP7314450B2 (ja)
KR (1) KR102611024B1 (ja)
CN (1) CN113838452B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838452B (zh) * 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN114360587A (zh) * 2021-12-27 2022-04-15 北京百度网讯科技有限公司 识别音频的方法、装置、设备、介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200394998A1 (en) 2018-08-02 2020-12-17 Neosapience, Inc. Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
JP2021085943A (ja) 2019-11-26 2021-06-03 日本放送協会 音声合成装置及びプログラム

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282494A (ja) 1998-03-27 1999-10-15 Brother Ind Ltd 音声合成装置および記憶媒体
TW430778B (en) 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
JP4584511B2 (ja) 2001-09-10 2010-11-24 Okiセミコンダクタ株式会社 規則音声合成装置
CN102201234B (zh) 2011-06-24 2013-02-06 北京宇音天下科技有限公司 一种基于音调自动标注及预测的语音合成方法
CN102915737B (zh) 2011-07-31 2018-01-19 中兴通讯股份有限公司 一种浊音起始帧后丢帧的补偿方法和装置
CN104517614A (zh) 2013-09-30 2015-04-15 上海爱聊信息科技有限公司 基于各子带特征参数值的清浊音判决装置及其判决方法
US9472182B2 (en) 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
KR101706123B1 (ko) 2015-04-29 2017-02-13 서울대학교산학협력단 파라미터 변경에 의해 음색을 변환하는 사용자 맞춤형 음성 보정 방법 및 이를 구현하는 음성 보정 장치
JP6472342B2 (ja) 2015-06-29 2019-02-20 日本電信電話株式会社 音声合成装置、音声合成方法、およびプログラム
CN108346424B (zh) 2017-01-23 2021-11-19 北京搜狗科技发展有限公司 语音合成方法和装置、用于语音合成的装置
JP6802958B2 (ja) 2017-02-28 2020-12-23 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
KR102199067B1 (ko) * 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN109671422B (zh) 2019-01-09 2022-06-17 浙江工业大学 一种获取纯净语音的录音方法
US10902841B2 (en) * 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
CN111798832A (zh) * 2019-04-03 2020-10-20 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
CN112151003A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 并行语音合成方法、装置、设备以及计算机可读存储介质
WO2021006117A1 (ja) 2019-07-05 2021-01-14 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
CN110534089B (zh) * 2019-07-10 2022-04-22 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
US20220377726A1 (en) 2019-10-30 2022-11-24 Hyundai Motor Company Method and device for allocating sidelink resource in communication system
CN110970014B (zh) * 2019-10-31 2023-12-15 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
WO2021118604A1 (en) * 2019-12-13 2021-06-17 Google Llc Training speech synthesis to generate distinct speech sounds
WO2021127985A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
GB2591245B (en) * 2020-01-21 2022-06-15 Samsung Electronics Co Ltd An expressive text-to-speech system
CN111508469A (zh) * 2020-04-26 2020-08-07 北京声智科技有限公司 一种文语转换方法及装置
CN111681641B (zh) * 2020-05-26 2024-02-06 微软技术许可有限责任公司 基于短语的端对端文本到语音(tts)合成
CN111754976B (zh) * 2020-07-21 2023-03-07 中国科学院声学研究所 一种韵律控制语音合成方法、系统及电子装置
CN111883149B (zh) * 2020-07-30 2022-02-01 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN112017644B (zh) * 2020-10-21 2021-02-12 南京硅基智能科技有限公司 一种声音变换系统、方法及应用
CN112365880B (zh) * 2020-11-05 2024-03-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备及存储介质
CN112382267A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于转换口音的方法、装置、设备以及存储介质
CN112365875B (zh) * 2020-11-18 2021-09-10 北京百度网讯科技有限公司 语音合成方法、装置、声码器和电子设备
CN112541078A (zh) * 2020-12-10 2021-03-23 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112863482B (zh) * 2020-12-31 2022-09-27 思必驰科技股份有限公司 带有韵律的语音合成方法及系统
CN112786006B (zh) * 2021-01-13 2024-05-17 北京有竹居网络技术有限公司 语音合成方法、合成模型训练方法、装置、介质及设备
CN113327579A (zh) * 2021-08-03 2021-08-31 北京世纪好未来教育科技有限公司 语音合成方法、装置、存储介质和电子设备
CN113838452B (zh) * 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200394998A1 (en) 2018-08-02 2020-12-17 Neosapience, Inc. Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
JP2021085943A (ja) 2019-11-26 2021-06-03 日本放送協会 音声合成装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jonathan Shen et. al.,Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions,2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2018年04月15日,pages 4779-4783
Yanfeng Lu et. al.,Implementing Prosodic Phrasing in Chinese End-to-end Speech Synthesis,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年05月12日,pages 7050-7054

Also Published As

Publication number Publication date
KR20230026242A (ko) 2023-02-24
US11996084B2 (en) 2024-05-28
CN113838452A (zh) 2021-12-24
US20230059882A1 (en) 2023-02-23
KR102611024B1 (ko) 2023-12-06
JP2023027748A (ja) 2023-03-02
CN113838452B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
US11450313B2 (en) Determining phonetic relationships
JP7314450B2 (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
CN112771607A (zh) 电子设备及其控制方法
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN113450758B (zh) 语音合成方法、装置、设备及介质
WO2022072936A2 (en) Text-to-speech using duration prediction
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
JP7318161B2 (ja) 音声処理方法、装置、機器、及びコンピュータ記憶媒体
CN114242035A (zh) 语音合成方法、装置、介质以及电子设备
CN114512121A (zh) 语音合成方法、模型训练方法及装置
CN113744713A (zh) 一种语音合成方法及语音合成模型的训练方法
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
CN115831090A (zh) 语音合成方法、装置、设备及存储介质
CN117711376A (zh) 语种识别方法、系统、设备及存储介质
CN118135994A (zh) 语音合成方法、装置、设备及介质
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质
CN113793598A (zh) 语音处理模型的训练方法和数据增强方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230615

R150 Certificate of patent or registration of utility model

Ref document number: 7314450

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150