JP6752872B2 - 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム - Google Patents

音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム Download PDF

Info

Publication number
JP6752872B2
JP6752872B2 JP2018244454A JP2018244454A JP6752872B2 JP 6752872 B2 JP6752872 B2 JP 6752872B2 JP 2018244454 A JP2018244454 A JP 2018244454A JP 2018244454 A JP2018244454 A JP 2018244454A JP 6752872 B2 JP6752872 B2 JP 6752872B2
Authority
JP
Japan
Prior art keywords
voice
training
speech
time length
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018244454A
Other languages
English (en)
Other versions
JP2019211748A (ja
Inventor
グ,ユ
サン,シャオフィ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019211748A publication Critical patent/JP2019211748A/ja
Application granted granted Critical
Publication of JP6752872B2 publication Critical patent/JP6752872B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンピュータ応用技術分野に関するものであり、特に音声合成方法及び装置、コンピュータ設備読取り可能な媒体及びプログラムに関するものである。
音声合成技術は、主に統計パラメータに基づく技術及びセル選別に基づく接続合成技術という2種類に分かられ、この2種類の音声合成方法は、それぞれの利点があるが、それぞれに相応する問題もある。
例えば、統計パラメータに基づく音声合成技術は、小規模の音庫だけが必要し、オフラインシーンにおける音声合成タスクに適用することができ、同時に、表現力合成、情感音声合成、話者変換等のタスクに応用しても良く、このような方法によって合成された音声が相対的に安定で連続性がよいが、音響モデルのモデリング能力の限定及び統計平滑等の効果の影響で、統計パラメータに基づく合成の音質が相対的に悪くなる。パラメータ合成と異なり、接続合成は、大規模の音庫が必要し、主にオンライン設備の音声合成タスクに応用され、接続合成は、音庫における波形素片を選別し、特定なアルゴリズムによって接続するという方式を採用するので、音声の音質が良く、自然音声に近いが、接続の方式を採用するので、多い異なる音声手段の間の連続性が悪くなる。合成のテキストが既定である場合に、候補手段による音庫からの選別の確度があまり高くなく、又は特定な語彙、語句が音庫におけるコーパスによって覆われていなければ、接続合成された音声は自然度及び連続性が悪いという問題が発生し、ユーザの聴感に厳しく影響する。該技術の問題点を解決するために、従来の技術において音庫を補足する方式を採用し、音庫へ新たに幾つかの対応するコーパスを補充し、相応する問題点を修復するように再び音庫を構造する。
しかし、従来の技術において、製品より問題音声を返送してから、再び発音者によってコーパスを補充して録音し、音庫を構造するまでは、相対的に長い繰り返し過程であり、問題音声の修復周期が長く、即時に修復するという効果を実現することができない。
本発明は、接続合成における自然度及び連続性が悪い問題音声を早速修復するための音声合成方法及び装置、コンピュータ設備読取り可能な媒体及びプログラムを提供する。
本発明に関する音声合成方法は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成すること、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。
更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することを含む。
更に好ましく、上記方法において、音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練すること、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練すること、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練すること、を含む。
更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信すること、を更に含む。
更に好ましく、上記方法において、上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成した後、上記音声合成方法は、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加すること、を含む。
更に好ましく、上記方法において、上記音声合成モデルはWaveNetモデルを採用する。
本発明に関する音声合成装置は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、上記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、上記目標テキストに対応する音声を合成するための合成モジュールと、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。
更に好ましく、上記装置において、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練するための訓練モジュールを含む。
更に好ましく、上記装置において、上記訓練モジュールは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練し、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練し、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練するために用いられる。
更に好ましく、上記装置において、更に
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信するための受信モジュールを含む。
更に好ましく、上記装置において、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加するための添加モジュールを含む。
更に好ましく、上記装置において、上記音声合成モデルはWaveNetモデルを採用する。
本発明に関するコンピュータ設備は、
1つ或複数のプロセッサと、
1つ或複数のプログラムを記憶するためのメモリと、を含み、
上記1つ或複数のプログラムが上記1つ或複数のプロセッサによって実行される時、上記1つ或複数のプロセッサに上記音声合成方法を実現させる。
本発明に関するコンピュータ読取り可能な媒体は、コンピュータプログラムを記憶しており、該コンピュータプログラムがプロセッサによって実行される時、上記音声合成方法を実現する。
本発明の音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体によれば、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本発明の技術案によれば、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に、本発明の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。
本発明の音声合成方法の実施例1のフローチャートである。 本発明の音声合成方法の実施例2のフローチャートである 本発明の音声合成装置の実施例1の構成図である。 本発明の音声合成装置の実施例2の構成図である。 本発明のコンピュータ設備の実施例の構成図である。 本発明によって提供されたコンピュータ設備の例の図である。
本発明の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して本発明を詳しく説明する。
図1は、本発明の音声合成方法の実施例1のフローチャートである。図1に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含む。
100、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
101、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。
本実施例の音声合成方法の実行本体は、音声合成装置である。具体的に、音声接続合成の過程において、合成待ちのテキストが音庫のコーパスによって完全に覆われていなければ、接続合成した音声は自然度及び連続性が悪いという問題が発生し、従来の技術において、該問題を修復するためにコーパスを補充して録音し、再び音庫を構造する必要があり、問題音声の修復周期が長くなってしまう。該問題を解決するために、本実施例において、音声合成装置を採用してこの部分の合成待ちのテキストに対する音声合成を実現し、従来の音声接続合成過程に問題音声が発生した時の補充案として、効率的に問題音声の修復周期を短縮するように、他の角度から音声合成を実現する。
具体的に、本実施例の音声合成方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルが必要する。そのうち、該時間長さ予測モデルは、目標テキストにおける毎音素の状態の時間長さを予測するために用いられる。そのうち、音素が、音声における最も小さいセルであり、例えば中国語の発音において、1つの子音又は韻母がそれぞれに1つの音素とすることができる。他の言語の発音において、毎発音も1つの音素に相当する。本実施例において、隠れマルコフモデルに従って毎音素を5個の状態に切り分けることができ、状態の時間長さとは該状態にある時間の長さである。本実施例において、予めに訓練された時間長さ予測モデルは、目標テキストにおける毎音素の全ての状態の時間長さを予測することができる。また、本実施例において、予めに基本周波数予測モデルを訓練しておき、該基本周波数予測モデルは、目標テキストの発音における毎フレームの基本周波数を予測することができる。
本実施例の目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数が、音声合成の必要特徴である。具体的に、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を、予めに訓練された音声合成モデルに入力し、該音声合成モデルは、該目標テキストに対応する音声を合成し出力することができる。このようにして、接続合成において自然度及び連続性の悪いという問題があると、直接に本実施例の技術案を使用して音声合成を行うことができる。本実施例の音声合成の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、合成した音声の音質は音声接続合成の音庫における音質と同じ、即ち合成した発音と接続した発音とは同一の発音者からの音声に聞こえることを保証できることで、ユーザの聴感を保証し、ユーザの使用体験度を強化することができる。且つ、本実施例の音声合成技術案における時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも予めに訓練されたものであるので、問題音声を修復する時、即時に修復するという効果を実現することができる。
本実施例の音声合成方法は、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデルと音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本実施例の技術案によると、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。
図2は、本発明の音声合成方法の実施例2のフローチャートである。図2に示すように、本実施例の音声合成方法は、上記図1に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を説明する。図2に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含むことができる。
200、音庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練すること。
具体的に、該ステップ200は以下のようなステップを含むことができる。
(a)音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
(b)複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
(c)各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練すること、
(d)各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練すること、
(e)各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練すること。
本実施例の音声接続合成において使用される音庫は、十分な原始コーパスを含むことができ、該原始コーパスには、原始テキスト及び対応する原始音声を含むことができ、例えば20時間だけの原始音声を含むことができる。まず、音庫から複数の訓練テキスト及び対応する訓練音声を抽出し、例えば毎訓練テキストが一言である。そして、隠れマルコフモデルに従って、複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さをそれぞれに抽出し、同時に、複数の訓練音声における毎訓練音声における毎フレームに対応する基本周波数を抽出してもよい。そして、3つのモデルをそれぞれに訓練する。本実施例に係る複数の訓練テキスト及び対応する訓練音声の具体的な数は、実際の必要に基づいて設置することができ、例えば数万の訓練テキスト及び対応する訓練音声を抽出することができる。
例えば各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練する。訓練する前、該時間長さ予測モデルに対して初期パラメータを設置することができる。そして、訓練テキストを入力し、時間長さ予測モデルによって該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを予測し、次に、時間長さ予測モデルによって予測した該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを、対応する訓練音声における毎音素に対応する状態の実時間長さと比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さを利用して、絶えず時間長さ予測モデルを訓練して、時間長さ予測モデルのパラメータを確定することで、時間長さ予測モデルを確定し、時間長さ予測モデルの訓練が終了する。
また、具体的に各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練することができる。同様に、訓練する前、該基本周波数予測モデルに対して初期パラメータを設置することができる。基本周波数予測モデルによって、該訓練テキストに対応する訓練音声における毎フレームに対応する予測基本周波数を予測し、次に、基本周波数予測モデルによって予測した毎フレームの基本周波数を、対応する訓練音声における毎フレームの実基本周波数と比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数を利用して、絶えず基本周波数予測モデルを訓練して、基本周波数予測モデルのパラメータを確定することで、基本周波数予測モデルを確定し、基本周波数予測モデルの訓練が終了する。
そして、各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練してもよい。本実施例の音声合成モデルは、WaveNetモデルを採用することができる。該WaveNetモデルは、DeepMindチームは2016年に提出した波形モデリング能力を具備するモデルであり、該WaveNetモデルは、提出されてから、産業界及び学界において広く注目される。
該音声合成モデル、例えばWaveNetモデルにおいて、毎訓練テキストの訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を合成音声の必要特徴とする。訓練する前、該WaveNetモデルに対して初期パラメータを設置する。訓練する時、各訓練テキスト、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を、該WaveNetモデルに入力し、WaveNetモデルは、入力した特徴に基づいて合成した音声を出力し、そして、該合成した音声と訓練音声との交差エントロピーを計算し、次に勾配低下方法によってWaveNetモデルのパラメータを調整して該交差エントロピーを極小値に到達させ、即ちWaveNetモデルによって合成した音声と対応する訓練音声とを十分に近接させる。上記方式に従って、複数の訓練テキスト、対応する複数の訓練音声、及び対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を利用して、絶えずWaveNetモデルを訓練して、WaveNetモデルのパラメータを確定することで、WaveNetモデルを確定し、WaveNetモデルの訓練が終了する。
本実施例に係る時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練することは、オフライン訓練の過程であり、上記3つのモデルを取得して、接続音声合成において問題が発生した時、オンラインで使用することができる。
201、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信したかを判断し、そうであれば、ステップ202を実行し、そうでなければ、続けて音庫を利用して音声接続合成を行うこと、
202、音声接続技術を利用して音庫に基づいて接続した目標テキストの音声が問題音声であることを確定し、ステップ203を実行すること。
音声接続合成において、音庫には目標テキストのコーパスが存在しなければ、接続した音声は連続性及び自然性が悪くなるので、この時、合成した音声が問題音声であり、常にユーザが正常に使用することができない。
203、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測し、ステップ204を実行すること、
204、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成し、ステップ205を実行すること、
ステップ203及びステップ204は、上記図1に示す実施例のステップ100及びステップ101を参照することができ、ここで贅言しない。
205、目標テキスト及び対応する合成した音声を音庫に添加し、音庫をアップスケールさせる。
上記処理によって、該目標テキストに対応する音声を合成することができ、そして、該音声を音庫に添加することができ、このようにして、後続音庫を使用して音声接続合成を行う時、音声接続合成の自然性及び連続性を向上することができる。問題音声があった時のみ、本実施例の方式で音声を合成し、且つ合成した音声が音庫における原始音声の音質と同じ、ユーザが聞く時、同一の発音者からの発音に聞こえ、ユーザの聴感に影響しない。且つ、本実施例の方式によると、絶えず音庫におけるコーパスを拡張して、後続音声接続合成を使用する効率を更に向上させることができ、本実施例の技術案によると、音庫を更新することで、音庫をアップスケールさせるだけでなく、更新後の音庫を使用する音声接続合成システムのサービスをアップスケールさせることができ、より多い音声接続合成の要求を満足することができる。
本実施例の音声合成方法は、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。
図3は、本発明の音声合成装置の実施例1の構成図である。図3に示すように、本実施例の音声合成装置は、具体的に
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュール10と、
予測モジュール10によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成するための合成モジュール11と、を含み、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。
本実施例の音声合成装置は、上記モジュールを採用することで音声合成を実現する実現原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図4は、本発明の音声合成装置の実施例2の構成図である。図4に示すように、本実施例の音声合成装置は、上記図3に示す実施例の技術案を基礎として、具体的に以下の部品を含むことができる。
図4に示すように、本実施例の音声合成装置は、庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練するための訓練モジュール12を更に含む。
相応に、予測モジュール10は、訓練モジュール12によって予めに訓練した時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するために用いられ、
相応に、合成モジュール11は、予測モジュール10によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、訓練モジュール12によって予めに訓練した音声合成モデルによって目標テキストに対応する音声を合成するために用いられる。
更に好ましく、図4に示すように、本実施例の音声合成装置において、訓練モジュール12は、具体的に、
音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すし、
各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練し、
各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練し、
各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練するために用いられる。
更に好ましく、図4に示すように、本実施例の音声合成装置は、更に、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信するための受信モジュール13を含む。
相応に、受信モジュール13は、予測モジュール10を起動させることができ、受信モジュール13はユーザによって返送された問題音声を受信した後、予測モジュール10を起動させ、予めに訓練された時間長さ予測モデ及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測させる。
更に好ましく、図4に示すように、本実施例の音声合成装置は、更に、目標テキスト及び合成モジュール11によって合成した対応する音声を音庫に添加するための添加モジュール14を含む。
更に好ましく、本実施例の音声合成装置において、音声合成モデルはWaveNetモデルを採用する。
本実施例の音声合成装置は、上記モジュールを採用することで音声合成を実現する実現原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。
図5は、本発明のコンピュータ設備の実施例の構成図である。図5に示すように、本実施例のコンピュータ設備は、メモリ40及び1つ或いは複数のプロセッサ30を含み、メモリ40は1つ或いは複数のプログラムを記憶するためのものであり、メモリ40に記憶された1つ或いは複数のプログラムが1つ或いは複数のプロセッサ30によって実行される時、1つ或いは複数のプロセッサ30に上記図1〜図2に示す実施例の音声合成方法を実現させる。図5に示す実施例において複数のプロセッサ30を含むことを例とする。
例えば、図6は、本発明に関するコンピュータ設備の例の図である。図6は、本発明の実施形態を実現するために適する、例示的なコンピュータ設備12aのブロック図を示す。
図6に示すコンピュータ設備12aは1つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。
図6に示すように、コンピュータ設備12aは汎用演算設備の形態で表現される。コンピュータ設備12aの構成要素には、1つ又は複数のプロセッサ16aと、システムメモリ28aと、異なるシステム構成要素(システムメモリ28aとプロセッサ16aとを含む)を接続するためのバス18aを含むが、これに限定されない。
バス18aは、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバス、ビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含むが、これに限定されない。
コンピュータ設備12aには、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備12aにアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。
システムメモリ28aは、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30a及び/又はキャッシュメモリ32aを含むことができる。コンピュータ設備12aには、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ34aは、移動不可能な不揮発性磁媒体を読み書くために用いられる(図6に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図6に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれ1つ又は複数のデータ媒体インターフェースによってバス18aに接続される。システムメモリ28aは少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図1〜図4の各実施例の機能を実行するように配置される。
1組の(少なくとも1つの)プログラムモジュール42aを含むプログラム/実用ツール40aは、例えばシステムメモリ28aに記憶され、このようなプログラムモジュール42aには、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42aは、常に本発明に記載された上記図1〜4の各実施例における機能及び/或いは方法を実行する。
コンピュータ設備12aは、1つ又は複数の周辺設備14a(例えばキーボード、ポインティングデバイス、ディスプレイ24a等)と通信を行ってもよく、ユーザと該コンピュータ設備12aとのインタラクティブを実現することができ1つ又は複数のる設備と通信を行ってもよく、及び/又は該コンピュータ設備12aと1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備(例えばネットワークカード、モデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22aによって行うことができる。そして、コンピュータ設備12aは、ネットワークアダプタ20aによって1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図に示すように、ネットワークアダプタ20aは、バス18aによってコンピュータ設備12aの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備12aと連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。
プロセッサ16aは、システムメモリ28aに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載された音声合成方法を実現する。
本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な媒体も提供し、該プログラムがプロセッサによって実行される時、上記実施例に示すような音声合成方法方法を実現する。
本実施例のコンピュータ読み取り可能な媒体は、上記図6に示す実施例におけるシステムメモリ28aにおけるRAM30a、及び/或いはキャッシュメモリ32a、及び/或いはストレジ34aを含むことができる。
時間及び技術の進展に伴い、コンピュータプログラムの伝送方式も、有形の媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形の媒体だけでなく、無形の媒体を含んでもよい。
本実施例のコンピュータ読み取り可能な媒体は、1つ又は複数のコンピュータコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形の媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。
コンピュータ読取り可能な信号媒体は、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの1部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含むが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は伝送できる。
コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって伝送されてもよく、無線、電線、光ケーブル、RF等、又は上記ものの任意で適当な組合を含むが、これに限定されない。
1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、上記プログラミング言語は、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。
本発明に開示されたいくつの実施例で開示されたシステム、装置および方法は、他の形態によって実現できることを理解すべきだ。例えば、上述装置に関する実施例が例示だけであり、例えば、上記手段の区分がロジック機能上の区分だけであり、実際に実現する時、他の区分方式であってもよい。
上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の1部又は全部を選択して、本実施例の態様の目的を実現することができる。
また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。
上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の部分ステップを実行させるための若干の命令を含む。上記記憶媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。
以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で行った、いずれの修正、等価置換、改良なども全て本発明の保護する範囲に属すべきである。

Claims (15)

  1. コンピュータ設備によって実行される、音声合成装置における音声合成方法であって、
    前記音声合成装置は、予測モジュールと、合成モジュールとを備え、
    前記コンピュータ設備は、前記音声合成装置と通信可能であり、
    前記コンピュータ設備から送信される命令に基づいて、
    前記予測モジュールが、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること
    前記合成モジュールが、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成すること、を含み、
    そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである
    音声合成方法。
  2. 前記音声合成装置は、訓練モジュールをさらに備え、
    前記予測モジュールが、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に
    前記訓練モジュールが、音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することを含む
    請求項1に記載された音声合成方法。
  3. 前記訓練モジュールが、音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することは、具体的に、
    前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること
    前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること
    各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練すること
    各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練すること
    各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練すること、を含む
    請求項2に記載された音声合成方法。
  4. 前記音声合成装置は、受信モジュールをさらに備え、
    前記予測モジュールが、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に
    前記受信モジュールが、前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信すること、を含む
    請求項2に記載された音声合成方法。
  5. 前記音声合成装置は、添加モジュールをさらに備え、
    前記合成モジュールが、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成した後、前記音声合成方法は、更に
    前記添加モジュールが、前記目標テキスト及び対応する合成した前記音声を前記音庫に添加すること、を含む
    請求項2に記載された音声合成方法。
  6. 前記音声合成モデルはWaveNetモデルを採用する
    請求項1〜5のいずれか1項に記載された音声合成方法。
  7. 音声合成装置であって、
    音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、前記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、
    前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、前記目標テキストに対応する音声を合成するための合成モジュールと、を含み、
    そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである
    音声合成装置。
  8. 前記音声合成装置は、更に
    音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練するための訓練モジュールを含む
    請求項7に記載された音声合成装置。
  9. 前記訓練モジュールは、具体的に、
    前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
    前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、
    各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練し、
    各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練し、
    各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練するために用いられる
    請求項8に記載された音声合成装置。
  10. 前記音声合成装置は、更に
    前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信するための受信モジュールを含む
    請求項8に記載された音声合成装置。
  11. 前記音声合成装置は、更に
    前記目標テキスト及び対応する合成した前記音声を前記音庫に添加するための添加モジュールを含む
    請求項8に記載された音声合成装置。
  12. 前記音声合成モデルはWaveNetモデルを採用する
    請求項7〜11のいずれか1項に記載された音声合成方法。
  13. コンピュータ設備であって、
    1つ或複数のプロセッサと、
    1つ或複数のプログラムを記憶するためのメモリと、を含み、
    前記1つ或複数のプログラムが前記1つ或複数のプロセッサによって実行される時、前記1つ或複数のプロセッサに請求項1〜6のいずれか1項に記載された音声合成方法を実現させる
    コンピュータ設備。
  14. コンピュータプログラムを記憶しているコンピュータ読取り可能な媒体であって、該コンピュータプログラムがプロセッサによって実行される時、請求項1〜6のいずれか1項に記載された音声合成方法を実現する
    コンピュータ読取り可能な媒体。
  15. コンピュータ設備において、プロセッサにより実行される場合、請求項1〜6のいずれか1項に記載の音声合成方法を実現することを特徴とするプログラム。
JP2018244454A 2018-06-04 2018-12-27 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム Active JP6752872B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810565148.8A CN108550363B (zh) 2018-06-04 2018-06-04 语音合成方法及装置、计算机设备及可读介质
CN201810565148.8 2018-06-04

Publications (2)

Publication Number Publication Date
JP2019211748A JP2019211748A (ja) 2019-12-12
JP6752872B2 true JP6752872B2 (ja) 2020-09-09

Family

ID=63492479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244454A Active JP6752872B2 (ja) 2018-06-04 2018-12-27 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム

Country Status (3)

Country Link
US (1) US10825444B2 (ja)
JP (1) JP6752872B2 (ja)
CN (1) CN108550363B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN109979428B (zh) * 2019-04-02 2021-07-23 北京地平线机器人技术研发有限公司 音频生成方法和装置、存储介质、电子设备
CN110379407B (zh) * 2019-07-22 2021-10-19 出门问问(苏州)信息科技有限公司 自适应语音合成方法、装置、可读存储介质及计算设备
CN110390928B (zh) * 2019-08-07 2022-01-11 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
CN110600002B (zh) * 2019-09-18 2022-04-22 北京声智科技有限公司 语音合成方法、装置及电子设备
CN110992927B (zh) * 2019-12-11 2024-02-20 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备
CN111613224A (zh) * 2020-04-10 2020-09-01 云知声智能科技股份有限公司 一种个性化语音合成方法及装置
CN111653266B (zh) * 2020-04-26 2023-09-05 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111599343B (zh) * 2020-05-14 2021-11-09 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN111916049B (zh) * 2020-07-15 2021-02-09 北京声智科技有限公司 一种语音合成方法及装置
CN111968616A (zh) * 2020-08-19 2020-11-20 浙江同花顺智能科技有限公司 一种语音合成模型的训练方法、装置、电子设备和存储介质
CN112542153B (zh) * 2020-12-02 2024-07-16 北京沃东天骏信息技术有限公司 时长预测模型训练方法和装置、语音合成方法和装置
CN112786013A (zh) * 2021-01-11 2021-05-11 北京有竹居网络技术有限公司 基于唱本的语音合成方法、装置、可读介质和电子设备
CN113096640A (zh) * 2021-03-08 2021-07-09 北京达佳互联信息技术有限公司 一种语音合成方法、装置、电子设备及存储介质
CN114783405B (zh) * 2022-05-12 2023-09-12 马上消费金融股份有限公司 一种语音合成方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6060079B2 (ja) 1978-04-20 1985-12-27 三洋電機株式会社 アナログ信号合成装置
JP2001350491A (ja) 2000-06-07 2001-12-21 Canon Inc 音声処理方法および装置
JP2007141993A (ja) 2005-11-16 2007-06-07 Tokyo Gas Co Ltd 被膜形成装置および被膜形成方法
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
JP5148026B1 (ja) * 2011-08-01 2013-02-20 パナソニック株式会社 音声合成装置および音声合成方法
CN103377651B (zh) * 2012-04-28 2015-12-16 北京三星通信技术研究有限公司 语音自动合成装置及方法
TWI471854B (zh) * 2012-10-19 2015-02-01 Ind Tech Res Inst 引導式語者調適語音合成的系統與方法及電腦程式產品
US9972300B2 (en) * 2015-06-11 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN104934028B (zh) * 2015-06-17 2017-11-17 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置

Also Published As

Publication number Publication date
CN108550363A (zh) 2018-09-18
US10825444B2 (en) 2020-11-03
JP2019211748A (ja) 2019-12-12
CN108550363B (zh) 2019-08-27
US20190371292A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
JP6752872B2 (ja) 音声合成方法及び装置、コンピュータ設備、読取り可能な媒体及びプログラム
KR102327614B1 (ko) 클록워크 계층적 변이 인코더
US10410621B2 (en) Training method for multiple personalized acoustic models, and voice synthesis method and device
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US8046225B2 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
CN106688034B (zh) 具有情感内容的文字至语音转换
JP4328698B2 (ja) 素片セット作成方法および装置
CN108573694B (zh) 基于人工智能的语料扩充及语音合成系统构建方法及装置
JP7517778B2 (ja) 結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成
JP2019211747A (ja) 音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US8626510B2 (en) Speech synthesizing device, computer program product, and method
US10521945B2 (en) Text-to-articulatory movement
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2014228580A (ja) 音声モデル生成装置、方法、プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JPWO2009044596A1 (ja) 音声合成装置、音声合成方法および音声合成プログラム
CN117894293A (zh) 语音合成方法、装置、计算机设备和存储介质
JP2005043828A (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
JP2017040747A (ja) 音声パラメータ生成装置、音声合成装置、音声パラメータ生成方法、音声合成方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200819

R150 Certificate of patent or registration of utility model

Ref document number: 6752872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250