JP2016004267A - 大規模コーパスに基づく音声合成方法及び装置 - Google Patents

大規模コーパスに基づく音声合成方法及び装置 Download PDF

Info

Publication number
JP2016004267A
JP2016004267A JP2014264861A JP2014264861A JP2016004267A JP 2016004267 A JP2016004267 A JP 2016004267A JP 2014264861 A JP2014264861 A JP 2014264861A JP 2014264861 A JP2014264861 A JP 2014264861A JP 2016004267 A JP2016004267 A JP 2016004267A
Authority
JP
Japan
Prior art keywords
prosodic
corpus
boundary partitioning
alternative
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014264861A
Other languages
English (en)
Other versions
JP6581356B2 (ja
Inventor
シウリン リー
Xiulin Li
シウリン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2016004267A publication Critical patent/JP2016004267A/ja
Application granted granted Critical
Publication of JP6581356B2 publication Critical patent/JP6581356B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声合成の自然さ及び柔軟性を向上させる、大規模コーパスに基づく音声合成方法及び装置を提供する。
【解決手段】大規模コーパスに基づく音声合成方法は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップS310と、当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップS320と、決定された韻律境界分割方式に従い音声合成を実行するステップS330と、を含む。
【選択図】図3

Description

本発明の実施形態は、テキスト音声変換の技術分野に関し、特に大規模コーパスに基づく音声合成方法及び装置に関する。
音声は、人間と機械がコミュニケーションするための最もありふれた、且つ最も自然な手段である。テキスト入力を音声出力に変換する技術は、テキスト音声(TTS)変換又は音声合成技術と呼ばれる。当該技術は、音響学、言語学、デジタル信号処理マルチメディア技術等、複数の分野に関係しており、中国における情報処理分野での最先端技術である。
図1に、従来技術による音声合成システムの信号フローを示す。図1を参照すると、訓練フェーズにおいて、韻律構造予測モデル103、音響モデル104、及び候補単位105は、テキストコーパス101及び音声コーパス102内の注釈付きデータの訓練に基づいて得ることができる。韻律構造予測モデル103は音声合成フェーズにおいて韻律構造予測107の基準を提供し、音響モデル104は音声合成109を行う基礎となり、候補単位105は、波形接続型の音声合成109における共通の候補波形を得るソフトウェアユニットである。
音声合成フェーズでは第1に、入力テキストに対してテキスト解析106が実行され、次いで韻律構造予測モデル103に従い入力テキストに対して韻律構造予測107が実行され、次いで各種の音声合成パターン、すなわちパラメータ合成型の音声合成又は波形接続型の音声合成に応じてパラメータ予測/単位選択108が実行され、最後に、最終的な音声合成109が実行される。
韻律構造予測を実行すべく既存の音声合成システムを採用することにより、幾つかの入力テキストに関して、入力テキストにより決定される韻律階層構造が既に得られている場合がある。しかし、音声の韻律階層構造は往々にして人々の実際のコミュニケーションにおける各種要因に影響を受ける。図2は、実際の人の声における韻律構造の影響因子の原理を示す模式図である。図2を参照すると、実際の人の声の韻律構造は、特徴、感情、基本周波数、及び話者の文の意味に影響され得る。一例として話者の特徴を挙げると、70歳の男性の発話の韻律構造は30歳の女性の発話の韻律構造とは異なる。
従って、一様な韻律構造予測モデル103による予測を介して得られる文の韻律構造は柔軟性に乏しく、従って音声合成システムにより最終的に合成される音声は結果的に不自然なものになる。
この目的のため、本発明の実施形態は、合成音声の自然さ及び柔軟性を向上させるべく大規模コーパスに基づく音声合成方法及び装置を提案する。
第1の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成方法を提案するものであり、本方法は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、
決定された1つの韻律境界分割方式に従い音声合成を実行するステップと
を含む
第2の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成装置を提案するものであり、本装置は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、
決定された1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと、
を備える。
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行し、次いで当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本発明の実施形態で提案する大規模コーパスに基づく音声合成を行う方法及び装置は、合成音声の自然さ及び柔軟性を向上させる。
添付の図面を参照しながら、以下の非限定的な実施形態の詳細説明を精査することにより、本発明の他の特徴、目的、及び利点がより明らかになろう。
従来技術による音声合成システムの信号フローを示す構成図 従来技術における実際の人の声の韻律構造の影響因子の原理を示す模式図 本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャート 本発明の実施形態に適用可能な中国語の文の韻律構造の模式図 本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図 本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図 本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャート 本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャート 本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図
本発明について、添付の図面及び実施形態と共に以下により詳細に記述する。本明細書に記述する特定の実施形態は本発明を限定するものではなく、単に本発明を説明する目的で用いるのに過ぎないことを理解されたい。また、説明を容易にするため、添付の図面は全ての構成要素ではなく本発明に関する部分のみを示していることにも留意する必要がある。
図3〜6に、本発明の第1の実施形態を示す。
図3は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。大規模コーパスに基づく音声合成方法は、音声合成用に特化された計算装置において実施される。音声合成用に特化された計算装置は、パーソナルコンピュータ及びサーバ等の汎用コンピュータを含み、音声合成用の各種の埋め込み型コンピュータを更に含む。大規模コーパスに基づく音声合成方法は、以下のステップを含む。
S310:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップ。
音声合成システムは、構成及び機能の観点から、テキスト解析、韻律処理、及び音響処理の3個の主モジュールに分割することができる。テキスト解析モジュールは主として、コンピュータが入力テキストを完全に理解して、後の2つの部分が必要とする各種の発音プロンプトを提供することができるように、人が自然言語を理解するプロセスをシミュレートする。韻律処理は、合成音声が意義素を正確に表してより自然に聞こえるように、合成音声の分節特性を計画する。音響処理は、先行する2つの部分の処理結果の要件に従い音声、すなわち合成音声を出力する。
入力テキストの韻律処理は、入力テキストに対する韻律構造予測無しでは実行することができない。一般に、中国語の韻律構造は韻律語、韻律句、及び音調句の3階層からなると考えられている。図4は、中国語の文の韻律構造の模式図である。中国語の文は、多くの文法に則った単語401を結合することにより構成される。1つ以上の文法に則った単語401は集合的に韻律語402を構成し、1つ以上の韻律語402は集合的に韻律句403を構成し、次いで、1つ以上の韻律句403は集合的に音調句404を構成する。
韻律語402の基本的な特徴は以下の通りである。(1)1つの韻脚からなり、(2)一般に文法に則った単語又は3音節未満の単語群であり、(3)例えば接続詞、前置詞のように1〜3音節、大部分は2又は3音節にわたり、(4)文法に則った単語と同様の連声パターン及び語強勢パターンを有し、内部にリズム境界が現れず、(5)韻律語402が韻律句403を形成することができる。
韻律句403の主な特徴は、(1)1つ又は複数の韻律語402により形成されている、(2)7〜9音節にわたり、(3)各種の内部韻律語402の間に韻律の観点でリズム境界が潜在的に現れ、主な表現が韻律語の最後の音節の延長及び韻律語間のピッチ再設定からなり、(4)韻律句403の音程階調の傾向は基本的に下降傾向であり、(5)相対的に安定した句強勢構成パターン、すなわち統語構造に関する従来型の強勢パターンを有していることである。
音調句404の主な特徴は、(1)恐らくは複数の韻脚を有し、(2)複数の韻律句音調パターン及び韻律句強勢パターンが恐らく内部に含まれ、従って関連するリズム境界が現れ、主な表現が韻律句の最後の音節の延長及び韻律句間のピッチ再設定からなり、(3)異なる音程又は文パターンに依存する音調パターンを有する、すなわち例えば平叙文は下降傾向を有し、一般的な疑問文は上昇傾向を有し、感嘆文の音高レベルは一般に上昇する特定の音程階調傾向を有している。
入力テキストのこれらの3階層の認識、すなわち入力テキストに対する韻律構造予測により、文中での合成音声の休止特性を決定する。一般に、3個の休止レベルはシステムの入力テキストの韻律階層と1対1に対応しており、韻律階層が高いほど、それにより区切られる休止特性がより顕著であり、韻律階層が低いほど、それにより区切られる休止特性がより不明瞭である。更に、合成音声の休止特性は、その自然さに多大な影響を及ぼす。従って、入力テキストに対する韻律構造予測は、最終的な合成音声の自然さに多大な影響を及ぼす。
入力テキストに対する韻律構造予測を実行した結果が韻律境界分割方式である。音声合成は、異なる韻律境界分割方式に従い実行されるため、合成音声の休止位置及び休止時間長等のパラメータは異なっている。韻律境界分割方式は、予測を介して得られる韻律語境界、韻律句境界、及び音調句境界を含む。すなわち、韻律境界分割方式は、韻律語、韻律句、及び音調句における境界分割を含む。
韻律構造予測が同一入力テキストに対して実行されることで、入力テキストに対し異なる複数の韻律境界分割方式が出力され得ることを理解されたい。好適には、入力テキストに対する異なる韻律境界分割方式は、入力テキストに対する複数の優れた韻律境界分割方式を出力することにより得ることができる。
入力テキストに対する韻律構造予測を実行するプロセスで、音調句は基本的に句読点で区切られるため、音調句は容易に認識できると一般に考えられている。一方、韻律語の予測は規則を要約する方法に依存しており、これは基本的に使用要件を満たしている。これに対して、韻律構造予測における韻律句の予測は困難なものとなる。従って、入力テキストの韻律構造予測とは、主として韻律句境界の予測を解くことである。
入力テキストの韻律構造予測は、韻律構造予測モデルに基づいて実行される。韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を実行することにより生成される。好適には、統計的学習は、韻律構造予測モデルを生成すべくテキストコーパス及び音声コーパス内の注釈付きデータに対して決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムを利用して実行することができる。
テキストコーパス及び音声コーパスは、韻律構造予測モデルの訓練に用いる2つの基本コーパスであり、テキストコーパスの保存対象はテキストデータであって、音声コーパスの保存対象は音声データである。テキストコーパス及び音声コーパスは基本コーパスを保存するだけでなく、これらのコーパスの注釈付きデータをも保存する。コーパスの注釈付きデータは少なくとも、コーパスの韻律階層構造に関する注釈付きデータを含む。
コーパスに関する注釈付きデータの構造を、一例としてテキストコーパスを用いて示す。図5は、本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図である。図5を参照すると、テキストコーパスは、コーパス501を保存するだけでなく、コーパスの韻律構造に関する注釈付きデータ502をも保存する。コーパス501は文として保存され、韻律語、韻律句及び音調句はこれらの文中で分割される。コーパスの注釈付きデータ502は、当該コーパス内の韻律語の終端がどの韻律境界であるかに関する注釈である。コーパスの韻律構造に関する注釈付きデータにおいて、B0は韻律語の終端が韻律語境界であることを表し、B1は韻律語の終端が韻律句境界であることを表し、B2は韻律語の終端が音調句境界であることを表す。
本実施形態において、入力テキストを受信した後で、韻律構造予測モデルを利用して入力テキストに対する少なくとも2つの韻律境界分割方式を得るべく入力テキストに対する韻律構造予測を実行する。
S320:少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する。
音声合成において、入力テキストは異なる韻律単位の組と考えられる。すなわち、入力テキストは複数の異なる韻律単位を含む。韻律単位は、入力テキストにおける各漢字に対応する音節である。例えば、入力テキスト
は韻律単位
を含み、入力テキスト
を含む。
入力テキストに関して複数の異なる韻律境界分割方式が得られた後では、異なる韻律境界分割方式で得られる韻律境界が異なるため、異なる韻律境界分割方式内の同一箇所に位置する韻律単位は異なっている。
例えば、入力テキスト
に関して、韻律句境界分割だけ与えられた場合、以下の2つの韻律境界分割方式がある。
上述の2つの韻律境界分割方式において、記号「$」は、韻律境界分割方式における韻律句境界を表す。第1の韻律境界分割方式において、韻律単位「格」が韻律境界分割方式の第2の韻律句の終端にあるのに対し、第2の韻律境界分割方式では、韻律単位「了」が韻律境界分割方式の第2の韻律句の終端にあることが分かる。
本実施形態において、音声コーパス内の複数の異なる韻律単位に関する構造確率情報を比較し、比較結果に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
上述の2つの韻律境界分割方式の例において、韻律単位「格」及び韻律単位「了」は各々、第1の韻律境界分割方式及び第2の韻律境界分割方式の終端にある。音声コーパス内において、韻律単位「格」が韻律句の終端にある確率が、韻律単位「了」が韻律句の終端にある確率よりも大きい場合は、第1の韻律境界分割方式が最終的な韻律境界分割方式として選択され、音声コーパス内において、韻律単位「了」が韻律句の終端にある確率が、韻律単位「格」が韻律句の終端にある確率よりも大きい場合は、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。
S330:決定された韻律境界分割方式に従い音声合成を実行する。
入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成及びパラメータ合成型の音声合成を含む。
上述の方式において、韻律語分割方式を決定すべく最初に上述の方式を採用し、必要に応じて、複数の代替的な韻律句分割方式を得るために韻律語分割に基づいて韻律句分割を実行し、最終的な韻律境界分割方式として機能する好適な代替的な方式を得るために同様の方法を採用することが好適である。
図6は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図である。図6を参照すると、大規模コーパスに基づいて音声合成方法を動作させる音声合成システムによる入力テキストに対する音声合成は、従来技術における音声合成システムに含まれる入力テキストに対するテキスト解析608、韻律構造予測モデルによる入力テキストに対する韻律構造予測609、入力テキストに対するパラメータ予測/単位選択610、及び最終音声合成611に加えて、音声コーパス内の韻律単位に関する構造確率情報に従い韻律構造に対して実行される韻律修正607を更に含む。入力テキストに対する音声合成は、修正された韻律構造により実行され、得られた合成音声はより自然なものとなっている。
本実施形態は、入力テキストに対する韻律構造予測を実行することにより、少なくとも2つの代替的な韻律境界分割方式を提供し、次いで少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報に従い1つの韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行するため、入力テキストに対して実行される韻律構造予測は、コーパス内の韻律単位に関する構造確率情報を参照し、音声合成の自然さ及び柔軟性が向上する。
図7に、本発明の第2の実施形態を示す。
図7は、本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャートである。大規模コーパスに基づく音声合成方法は本発明の第1の実施形態に基づいており、更に、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報による韻律境界分割方式の決定は以下のステップを含む。
S321:少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。
入力テキストに対する韻律境界分割方式を、韻律単位に関する位置統計情報に従い決定する場合、第1に、少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
韻律単位は、代替的な韻律境界分割方式における韻律境界に位置する韻律単位を選択すべきである。韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭に韻律単位が出現する確率を指す場合は、韻律境界よりも後方の韻律単位を選択する必要があり、韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の末尾に韻律単位が出現する確率を指す場合は、韻律境界よりも前方の韻律単位を選択する必要がある。
好適には、韻律単位に関する構造確率情報は、次式で表すことができる。
=β×log(m+n0)−γ
mが音声コーパス内の目標韻律階層における目標位置にある韻律単位の個数を表し、目標韻律階層は韻律語、韻律句、及び音調句を含み、目標位置は韻律語、韻律句、又は音調句の先頭又は末尾にあり、n0は個数調整パラメータであってゼロより大きい任意の整数であってよく、βは確率拡大縮小係数であり、γは確率オフセット係数である。上式において、パラメータn0、β、及びγは値が経験則に基づくパラメータであり、上式を介して計算で得られた結果Wiは音声コーパス内の韻律単位に関する構造確率情報を表す。
S322:少なくとも2つの代替的な韻律境界分割方式の出力確率を、構造確率情報に従い出力確率計算関数を利用して計算する。
好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定すべく所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求める。
一例として、出力確率計算関数は次式のように示される。
f(W,W)=α×W+(1−α)W
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあり、Wは韻律単位の韻律階層確率であり、Wは韻律単位の構造確率である。韻律単位の韻律階層確率、すなわちWは、韻律構造予測モデルを利用して入力テキストに対して韻律構造予測を実行する際に韻律構造予測モデルにより出力される韻律単位に対応する確率値であり、対応する階層の韻律境界が韻律単位に出現する入力テキストの確率を表す。対応する階層は、韻律語階層、韻律句階層、又は音調句階層であってよい。
韻律単位の構造確率とは、韻律単位が音声コーパスのコーパス内の特定の位置に出現する確率を指す。構造確率は、韻律単位が音声コーパス内で出現する位置について統計を実施することにより得られる。
好適には、韻律単位の構造確率は、音声コーパス内の韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を指す。
出力確率計算関数の計算結果は、代替的な韻律境界分割方式の出力確率である。
S323:出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定する。
出力確率が最大である代替的な韻律境界分割方式が、音声コーパス内の韻律単位に関する構造確率情報に基づく最も適切な韻律境界分割方式であると考えられ、従って出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として採用する。
少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得し、次いで構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算して、最後に、出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として決定することにより、本実施形態は、韻律単位に関する位置統計情報による韻律境界分割方式の決定を完了し、音声合成の自然さ及び柔軟性が向上する。
図8に、本発明の好適な実施形態を示す。
図8は、本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。図8を参照すると、大規模コーパスに基づく音声合成方法は以下のステップを含む。
S810:テキストコーパス及び音声コーパス内の注釈付きデータを利用して韻律構造予測モデルを訓練する。
音声合成システムは、入力テキストシーケンスを合成音声波形に変換するシステムである。当該システムは、特定のソフトウェア及びハードウェアを介してテキストファイルを変換し、次いで、コンピュータ又は他の音声システムを介して音声を出力して、合成音声が極力人間の音声のように相対的に高い明瞭さ及び自然さを持ち得るようにする。
入力テキストに対する音声合成は、2つのコーパス、すなわちテキストコーパス及び音声コーパス内のコーパスデータに基づいて実行される。テキストコーパス及び音声コーパスは共に大量のコーパスデータを保存している。テキストコーパス内のコーパスデータの形式はテキスト形式であり、入力テキストに対するテキスト解析を実行する際の基本的な基準である。音声コーパス内のコーパスデータの形式は音声形式であり、入力テキストに対する解析が完了した後で音声合成を実行する際の基本データである。
入力テキスト解析と、音声合成及び出力との2つのステップの間に、入力テキストの韻律構造の予測を実行する必要がある。入力テキストに対する韻律構造予測は、出力音声の休止位置及び休止時間長等の音響パラメータを決定する。入力テキストに対する韻律構造予測は、訓練済み韻律構造予測モデルに基づいて実行する必要がある。
韻律構造予測モデルの訓練は、テキストコーパス及び音声コーパス内の注釈付きデータに基づいて実行される。注釈付きデータは、コーパス内の韻律構造に注釈を付ける。韻律構造予測モデルの訓練プロセスにおいて、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習により、韻律構造予測モデルは自身の構造を完成させ、従って入力テキストに関して入力テキストの韻律構造を予測することができる。
本実施形態において、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。
S820:韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置に対して統計を実施することにより得られる。
音声コーパスは、大量の音声コーパスセグメントを保存している。音声コーパスセグメントは複数の異なる韻律単位からなる。例えば、音声コーパスは音声コーパスセグメント
を保存し、この音声コーパスセグメントは5個の韻律単位、すなわち
を含む。
音声コーパスセグメントは、韻律語、韻律句、又は音調句であってよい。本実施形態において、音声コーパスセグメントは韻律句である。
構造確率情報とは、音声コーパス内の音声コーパスセグメント内に設定された位置に韻律単位が出現する確率に関する情報を指す。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率に関する情報を指す。
構造確率情報は、音声コーパス内で韻律単位が出現する位置について統計を実施することにより得られる。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率を介して得られる。
S830:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行する。
入力テキストを受信した後で、訓練済み韻律構造予測モデルを利用して入力テキストに対する韻律構造予測処理を実行する。入力テキストに対して韻律構造予測処理を実行した結果は、入力テキストに関する少なくとも2つの代替的な韻律境界分割方式である。好適には、入力テキストに対する少なくとも2つの優れた代替的な韻律境界分割方式を出力することにより、入力テキストに対する複数の異なる韻律境界分割方式が得られる。
韻律境界分割方式を用いて入力テキストに対する韻律境界を画定する。好適には、入力テキストに対する異なる韻律階層によれば、韻律境界分割方式により画定される入力テキストの韻律境界は、韻律語境界、韻律句境界、及び音調句境界を含む。
韻律構造予測においては韻律句の予測が難点となるため、本実施形態では韻律構造境界分割について、単に韻律句境界分割を一例として説明している。当業者であれば、韻律語及び音調句に対して境界分割を実行するプロセスが、韻律句に対して境界分割を実行するプロセスと同様であることを理解できよう。
一例として、入力テキスト
に対する韻律句境界分割を、少なくとも2つの代替的な韻律境界分割方式を提供するプロセスを説明するための例として挙げる。上述の入力テキストに関して、以下のように2つの韻律句境界分割方式がある。
記号「$」は、韻律境界分割方式内の韻律句境界を表す。
S840:少なくとも2つの代替的な韻律境界分割方式の音声コーパス内の韻律単位に関する構造確率情報に従い韻律境界分割方式を決定する。
韻律語、韻律句、又は音調句は全て韻律単位を含む。音声コーパス内で、韻律単位は、特定の確率に従い、韻律語、韻律句、又は音調句の先頭又は末尾に出現する。例えば、韻律単位「了」が韻律句の末尾に出現する確率は0.78である。この確率は、音声コーパス内の韻律単位に関する構造確率情報である。
韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置について実施された統計、すなわち韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率により得られる。韻律単位に関する構造確率情報が得られた後で、韻律単位に関する構造確率情報に基づいて、少なくとも2つの代替的な韻律境界分割方式の出力確率を各々計算し、次いで、出力確率に基づいて少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定することができる。
好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率は、次式により計算することができる。
f(W,W)=α×W+(1−α)W
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあって、一旦選択されたならば異なる代替的な韻律境界分割方式により変化せず、Wは韻律単位の韻律階層確率であり、Wは韻律単位の構造確率である。
一例として上述の入力テキスト
に対する2つの韻律境界分割方式を挙げると、音声コーパス内の韻律句の終端に韻律単位「了」が出現する確率が韻律句の終端に韻律単位「格」が出現する確率よりも大きい場合、構造確率情報に基づく計算から得られた第2の韻律境界分割方式の出力確率は第1の韻律境界分割方式の出力確率よりも大きく、従って、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。
S850:決定された韻律境界分割方式に従い音声合成を実行する。
入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成であってよく、またパラメータ合成型の音声合成であってよい。
上述の方法ステップを1台のコンピュータで実行しなくてもよいことに注意されたい。実際に、韻律構造予測モデルに対する訓練をコンピュータで完了し、次いで、訓練済み韻律構造予測モデルを別のコンピュータに移植して入力テキストに対する音声合成を完了することもできる。
韻律構造予測モデルを訓練し、韻律単位に関する位置統計情報について統計を実施し、少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測を実行し、韻律単位に関する位置統計情報に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定して、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本実施形態は、韻律単位に関する位置統計情報が、音声合成の自然さ及び柔軟性を向上させるべく入力テキストに対する韻律構造予測を実行することを可能にする。
図9に、本発明の第3の実施形態を示す。
図9は、本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図である。図9を参照すると、大規模コーパスに基づく音声合成装置は、予測処理モジュール910、境界分割モジュール920、及び音声合成モジュール930を含む。
予測処理モジュール910は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行するために用いる。
境界分割モジュール920は、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するために用いる。
音声合成モジュール930は、決定された韻律境界分割方式に従い音声合成を実行するために使用される。
好適には、韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成される。
好適には、テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。
好適には、境界分割モジュールは、構造確率情報取得ユニット921、出力確率計算ユニット922、及び境界分割方式決定ユニット923を含む。
構造確率情報取得ユニット921は、音声コーパス内のデータについて事前に実施された統計に従い少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を得るために使用される。
出力確率計算ユニット922は、構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するために使用される。
境界分割方式決定ユニット923は、出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定するために使用される。
好適には、少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界は、韻律語境界、韻律句境界、又は音調句境界を含む。
好適には、韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
好適には、出力確率計算ユニット922は特に、所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するために使用される。
本発明の上記複数の実施形態のシーケンス番号は、説明目的のために過ぎず、実施形態の優先順位を表すものではない。
当業者には、本発明の上述の各種モジュール又は各種ステップが、汎用計算装置を用いて実装でき、単一の計算装置に一体化でき、又は複数の計算装置を含むネットワーク上に分散されていてもよく、また任意選択的に、計算装置の実行可能なプログラムコードを用いて実装でき、その結果、ストレージ装置に保存されて計算装置により実行されても、又は各種集積回路モジュールに各々組み込まれてもよく、或いは複数のモジュール又はそのステップを単一の集積回路モジュールに一体化できることが理解されよう。このように、本発明は、ハードウェア及びソフトウェアの如何なる特定の組合せにも限定されない。
本明細書において各種の実施形態を漸進的に記述しており、各実施形態において他の実施形態との差異を強調しながら、各種実施形態間で同一又は類似の部分を相互に参照してもよい。
上記の説明は本発明の好適な実施形態に過ぎず、本発明を限定するものではなく、当業者には本発明に各種の変更及び変型があり得ることが理解されよう。本発明の趣旨及び原理の範囲内でなされる任意の変更、均等物との置換、又は改良は全て本発明の権利保護範囲に含まれるものとする。
101 テキストコーパス
102 音声コーパス
103 韻律構造予測モデル
104 音響モデル
105 候補単位
106 テキスト解析
107 韻律構造予測
108 パラメータ予測/単位選択
109 音声合成
401 単語
402 韻律語
403 韻律句
404 音調句
501 コーパス
502 注釈付きデータ
607 韻律修正
608 テキスト解析
609 韻律構造予測
610 パラメータ予測/単位選択
611 音声合成
910 予測処理モジュール
920 境界分割モジュール
921 構造確率情報取得ユニット
922 出力確率計算ユニット
923 境界分割方式決定ユニット
930 音声合成モジュール

Claims (14)

  1. 大規模コーパスに基づく音声合成方法であって、
    韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
    前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、
    決定された前記1つの韻律境界分割方式に従い音声合成を実行するステップと
    を含むことを特徴とする方法。
  2. 前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項1に記載の方法。
  3. テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項2に記載の方法。
  4. 前記少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する前記ステップが、
    前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得するステップと、
    前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するステップと、
    前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定するステップと
    を含むことを特徴とする、請求項1に記載の方法。
  5. 前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項4に記載の方法。
  6. 前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項4に記載の方法。
  7. 前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する前記ステップが、
    所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するステップを含むことを特徴とする、請求項4に記載の方法。
  8. 大規模コーパスに基づく音声合成装置であって、
    韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
    前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、
    決定された前記1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと
    を備えることを特徴とする装置。
  9. 前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項8に記載の装置。
  10. テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項9に記載の装置。
  11. 前記境界分割モジュールが
    前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得する構造確率情報取得ユニットと、
    前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する出力確率計算ユニットと、
    前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定する境界分割方式決定ユニットと
    を備えることを特徴とする、請求項8に記載の装置。
  12. 前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項11に記載の装置。
  13. 前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項11に記載の装置。
  14. 前記出力確率計算ユニットが特に、
    所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定する
    ために使用されることを特徴とする、請求項11に記載の装置。
JP2014264861A 2014-06-19 2014-12-26 大規模コーパスに基づく音声合成方法及び装置 Active JP6581356B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410276352.X 2014-06-19
CN201410276352.XA CN104021784B (zh) 2014-06-19 2014-06-19 基于大语料库的语音合成方法和装置

Publications (2)

Publication Number Publication Date
JP2016004267A true JP2016004267A (ja) 2016-01-12
JP6581356B2 JP6581356B2 (ja) 2019-09-25

Family

ID=51438509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014264861A Active JP6581356B2 (ja) 2014-06-19 2014-12-26 大規模コーパスに基づく音声合成方法及び装置

Country Status (5)

Country Link
US (1) US9767788B2 (ja)
EP (1) EP2958105B1 (ja)
JP (1) JP6581356B2 (ja)
KR (1) KR102139387B1 (ja)
CN (1) CN104021784B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071709A (ja) * 2019-10-30 2021-05-06 百度在綫網絡技術(北京)有限公司 リズム一時停止予測方法、装置および電子機器

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
US9542929B2 (en) 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
CN105185373B (zh) * 2015-08-06 2017-04-05 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN105654940B (zh) * 2016-01-26 2019-12-24 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN108305611B (zh) * 2017-06-27 2022-02-11 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备
CN108170848B (zh) * 2018-01-18 2021-08-13 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN110942763B (zh) * 2018-09-20 2023-09-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US11417313B2 (en) * 2019-04-23 2022-08-16 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
WO2020230924A1 (ko) * 2019-05-15 2020-11-19 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
WO2020256170A1 (ko) * 2019-06-18 2020-12-24 엘지전자 주식회사 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
CN110827825A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音识别文本的标点预测方法、系统、终端及存储介质
CN111028823B (zh) * 2019-12-11 2024-06-07 广州酷狗计算机科技有限公司 音频生成方法、装置、计算机可读存储介质及计算设备
CN111226275A (zh) * 2019-12-31 2020-06-02 深圳市优必选科技股份有限公司 基于韵律特征预测的语音合成方法、装置、终端及介质
CN113129864B (zh) * 2019-12-31 2024-05-31 科大讯飞股份有限公司 语音特征预测方法、装置、设备及可读存储介质
CN111724765B (zh) * 2020-06-30 2023-07-25 度小满科技(北京)有限公司 一种文本转语音的方法、装置及计算机设备
CN112151009B (zh) * 2020-09-27 2024-06-25 平安科技(深圳)有限公司 一种基于韵律边界的语音合成方法及装置、介质、设备
CN112466277B (zh) * 2020-10-28 2023-10-20 北京百度网讯科技有限公司 韵律模型训练方法、装置、电子设备及存储介质
CN113421550A (zh) * 2021-06-25 2021-09-21 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156990A (ja) * 2000-11-22 2002-05-31 Matsushita Electric Ind Co Ltd 中国語音声合成におけるポーズ継続時間処理方法及び装置
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
WO2008056590A1 (fr) * 2006-11-08 2008-05-15 Nec Corporation Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
JP2014232145A (ja) * 2013-05-28 2014-12-11 日本電信電話株式会社 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945693B (zh) * 2005-10-09 2010-10-13 株式会社东芝 训练韵律统计模型、韵律切分和语音合成的方法及装置
CN101051458B (zh) * 2006-04-04 2011-02-09 中国科学院自动化研究所 基于组块分析的韵律短语预测方法
CN101051459A (zh) * 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
US7822606B2 (en) * 2006-07-14 2010-10-26 Qualcomm Incorporated Method and apparatus for generating audio information from received synthesis information
CN101202041B (zh) * 2006-12-13 2011-01-05 富士通株式会社 一种汉语韵律词组词方法及装置
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156990A (ja) * 2000-11-22 2002-05-31 Matsushita Electric Ind Co Ltd 中国語音声合成におけるポーズ継続時間処理方法及び装置
JP2007114507A (ja) * 2005-10-20 2007-05-10 Toshiba Corp 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
WO2008056590A1 (fr) * 2006-11-08 2008-05-15 Nec Corporation Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
JP2014232145A (ja) * 2013-05-28 2014-12-11 日本電信電話株式会社 ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071709A (ja) * 2019-10-30 2021-05-06 百度在綫網絡技術(北京)有限公司 リズム一時停止予測方法、装置および電子機器
US11200382B2 (en) 2019-10-30 2021-12-14 Baidu Online Network Technology (Beijing) Co., Ltd. Prosodic pause prediction method, prosodic pause prediction device and electronic device

Also Published As

Publication number Publication date
CN104021784A (zh) 2014-09-03
CN104021784B (zh) 2017-06-06
JP6581356B2 (ja) 2019-09-25
EP2958105B1 (en) 2018-04-04
EP2958105A1 (en) 2015-12-23
KR102139387B1 (ko) 2020-07-30
US20150371626A1 (en) 2015-12-24
US9767788B2 (en) 2017-09-19
KR20150146373A (ko) 2015-12-31

Similar Documents

Publication Publication Date Title
JP6581356B2 (ja) 大規模コーパスに基づく音声合成方法及び装置
US11289069B2 (en) Statistical parameter model establishing method, speech synthesis method, server and storage medium
US8898066B2 (en) Multi-lingual text-to-speech system and method
JP2022528016A (ja) 表現用エンドツーエンド音声合成における変分埋め込み容量
EP4029010B1 (en) Neural text-to-speech synthesis with multi-level context features
JP2008152260A (ja) 韻律語グルーピング方法及び装置
US9324316B2 (en) Prosody generator, speech synthesizer, prosody generating method and prosody generating program
CN112669845B (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
CN103632663A (zh) 一种基于hmm的蒙古语语音合成及前端处理的方法
JP2009139677A (ja) 音声処理装置及びそのプログラム
CN111339771A (zh) 一种基于多任务多层级模型的文本韵律预测方法
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
KR20210045217A (ko) 감정 이식 장치 및 감정 이식 방법
CN106708789B (zh) 一种文本处理方法及装置
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
CN113948062B (zh) 数据转换方法及计算机存储介质
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2009175345A (ja) 音声情報処理装置及びその方法
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP2004258406A (ja) テキスト音声合成システム及び方法
CN112951204B (zh) 语音合成方法和装置
CN113223486B (zh) 信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190830

R150 Certificate of patent or registration of utility model

Ref document number: 6581356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250