JP2016004267A

JP2016004267A - 大規模コーパスに基づく音声合成方法及び装置

Info

Publication number: JP2016004267A
Application number: JP2014264861A
Authority: JP
Inventors: シウリンリー; Xiulin Li
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2014-06-19
Filing date: 2014-12-26
Publication date: 2016-01-12
Anticipated expiration: 2034-12-26
Also published as: CN104021784A; CN104021784B; JP6581356B2; EP2958105B1; EP2958105A1; KR102139387B1; US20150371626A1; US9767788B2; KR20150146373A

Abstract

【課題】音声合成の自然さ及び柔軟性を向上させる、大規模コーパスに基づく音声合成方法及び装置を提供する。
【解決手段】大規模コーパスに基づく音声合成方法は、韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップＳ３１０と、当該少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定するステップＳ３２０と、決定された韻律境界分割方式に従い音声合成を実行するステップＳ３３０と、を含む。
【選択図】図３

Description

本発明の実施形態は、テキスト音声変換の技術分野に関し、特に大規模コーパスに基づく音声合成方法及び装置に関する。

音声は、人間と機械がコミュニケーションするための最もありふれた、且つ最も自然な手段である。テキスト入力を音声出力に変換する技術は、テキスト音声（ＴＴＳ）変換又は音声合成技術と呼ばれる。当該技術は、音響学、言語学、デジタル信号処理マルチメディア技術等、複数の分野に関係しており、中国における情報処理分野での最先端技術である。

図１に、従来技術による音声合成システムの信号フローを示す。図１を参照すると、訓練フェーズにおいて、韻律構造予測モデル１０３、音響モデル１０４、及び候補単位１０５は、テキストコーパス１０１及び音声コーパス１０２内の注釈付きデータの訓練に基づいて得ることができる。韻律構造予測モデル１０３は音声合成フェーズにおいて韻律構造予測１０７の基準を提供し、音響モデル１０４は音声合成１０９を行う基礎となり、候補単位１０５は、波形接続型の音声合成１０９における共通の候補波形を得るソフトウェアユニットである。

音声合成フェーズでは第１に、入力テキストに対してテキスト解析１０６が実行され、次いで韻律構造予測モデル１０３に従い入力テキストに対して韻律構造予測１０７が実行され、次いで各種の音声合成パターン、すなわちパラメータ合成型の音声合成又は波形接続型の音声合成に応じてパラメータ予測／単位選択１０８が実行され、最後に、最終的な音声合成１０９が実行される。

韻律構造予測を実行すべく既存の音声合成システムを採用することにより、幾つかの入力テキストに関して、入力テキストにより決定される韻律階層構造が既に得られている場合がある。しかし、音声の韻律階層構造は往々にして人々の実際のコミュニケーションにおける各種要因に影響を受ける。図２は、実際の人の声における韻律構造の影響因子の原理を示す模式図である。図２を参照すると、実際の人の声の韻律構造は、特徴、感情、基本周波数、及び話者の文の意味に影響され得る。一例として話者の特徴を挙げると、７０歳の男性の発話の韻律構造は３０歳の女性の発話の韻律構造とは異なる。

従って、一様な韻律構造予測モデル１０３による予測を介して得られる文の韻律構造は柔軟性に乏しく、従って音声合成システムにより最終的に合成される音声は結果的に不自然なものになる。

この目的のため、本発明の実施形態は、合成音声の自然さ及び柔軟性を向上させるべく大規模コーパスに基づく音声合成方法及び装置を提案する。

第１の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成方法を提案するものであり、本方法は、
韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
当該少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定するステップと、
決定された１つの韻律境界分割方式に従い音声合成を実行するステップと
を含む

第２の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成装置を提案するものであり、本装置は、
韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
当該少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定する境界分割モジュールと、
決定された１つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと、
を備える。

韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行し、次いで当該少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本発明の実施形態で提案する大規模コーパスに基づく音声合成を行う方法及び装置は、合成音声の自然さ及び柔軟性を向上させる。

添付の図面を参照しながら、以下の非限定的な実施形態の詳細説明を精査することにより、本発明の他の特徴、目的、及び利点がより明らかになろう。

従来技術による音声合成システムの信号フローを示す構成図従来技術における実際の人の声の韻律構造の影響因子の原理を示す模式図本発明の第１の実施形態による大規模コーパスに基づく音声合成方法のフローチャート本発明の実施形態に適用可能な中国語の文の韻律構造の模式図本発明の第１の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図本発明の第１の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図本発明の第２の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャート本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャート本発明の第３の実施形態による大規模コーパスに基づく音声合成装置の構造図

本発明について、添付の図面及び実施形態と共に以下により詳細に記述する。本明細書に記述する特定の実施形態は本発明を限定するものではなく、単に本発明を説明する目的で用いるのに過ぎないことを理解されたい。また、説明を容易にするため、添付の図面は全ての構成要素ではなく本発明に関する部分のみを示していることにも留意する必要がある。

図３〜６に、本発明の第１の実施形態を示す。

図３は、本発明の第１の実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。大規模コーパスに基づく音声合成方法は、音声合成用に特化された計算装置において実施される。音声合成用に特化された計算装置は、パーソナルコンピュータ及びサーバ等の汎用コンピュータを含み、音声合成用の各種の埋め込み型コンピュータを更に含む。大規模コーパスに基づく音声合成方法は、以下のステップを含む。
Ｓ３１０：韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップ。

音声合成システムは、構成及び機能の観点から、テキスト解析、韻律処理、及び音響処理の３個の主モジュールに分割することができる。テキスト解析モジュールは主として、コンピュータが入力テキストを完全に理解して、後の２つの部分が必要とする各種の発音プロンプトを提供することができるように、人が自然言語を理解するプロセスをシミュレートする。韻律処理は、合成音声が意義素を正確に表してより自然に聞こえるように、合成音声の分節特性を計画する。音響処理は、先行する２つの部分の処理結果の要件に従い音声、すなわち合成音声を出力する。

入力テキストの韻律処理は、入力テキストに対する韻律構造予測無しでは実行することができない。一般に、中国語の韻律構造は韻律語、韻律句、及び音調句の３階層からなると考えられている。図４は、中国語の文の韻律構造の模式図である。中国語の文は、多くの文法に則った単語４０１を結合することにより構成される。１つ以上の文法に則った単語４０１は集合的に韻律語４０２を構成し、１つ以上の韻律語４０２は集合的に韻律句４０３を構成し、次いで、１つ以上の韻律句４０３は集合的に音調句４０４を構成する。

韻律語４０２の基本的な特徴は以下の通りである。（１）１つの韻脚からなり、（２）一般に文法に則った単語又は３音節未満の単語群であり、（３）例えば接続詞、前置詞のように１〜３音節、大部分は２又は３音節にわたり、（４）文法に則った単語と同様の連声パターン及び語強勢パターンを有し、内部にリズム境界が現れず、（５）韻律語４０２が韻律句４０３を形成することができる。

韻律句４０３の主な特徴は、（１）１つ又は複数の韻律語４０２により形成されている、（２）７〜９音節にわたり、（３）各種の内部韻律語４０２の間に韻律の観点でリズム境界が潜在的に現れ、主な表現が韻律語の最後の音節の延長及び韻律語間のピッチ再設定からなり、（４）韻律句４０３の音程階調の傾向は基本的に下降傾向であり、（５）相対的に安定した句強勢構成パターン、すなわち統語構造に関する従来型の強勢パターンを有していることである。

音調句４０４の主な特徴は、（１）恐らくは複数の韻脚を有し、（２）複数の韻律句音調パターン及び韻律句強勢パターンが恐らく内部に含まれ、従って関連するリズム境界が現れ、主な表現が韻律句の最後の音節の延長及び韻律句間のピッチ再設定からなり、（３）異なる音程又は文パターンに依存する音調パターンを有する、すなわち例えば平叙文は下降傾向を有し、一般的な疑問文は上昇傾向を有し、感嘆文の音高レベルは一般に上昇する特定の音程階調傾向を有している。

入力テキストのこれらの３階層の認識、すなわち入力テキストに対する韻律構造予測により、文中での合成音声の休止特性を決定する。一般に、３個の休止レベルはシステムの入力テキストの韻律階層と１対１に対応しており、韻律階層が高いほど、それにより区切られる休止特性がより顕著であり、韻律階層が低いほど、それにより区切られる休止特性がより不明瞭である。更に、合成音声の休止特性は、その自然さに多大な影響を及ぼす。従って、入力テキストに対する韻律構造予測は、最終的な合成音声の自然さに多大な影響を及ぼす。

入力テキストに対する韻律構造予測を実行した結果が韻律境界分割方式である。音声合成は、異なる韻律境界分割方式に従い実行されるため、合成音声の休止位置及び休止時間長等のパラメータは異なっている。韻律境界分割方式は、予測を介して得られる韻律語境界、韻律句境界、及び音調句境界を含む。すなわち、韻律境界分割方式は、韻律語、韻律句、及び音調句における境界分割を含む。

韻律構造予測が同一入力テキストに対して実行されることで、入力テキストに対し異なる複数の韻律境界分割方式が出力され得ることを理解されたい。好適には、入力テキストに対する異なる韻律境界分割方式は、入力テキストに対する複数の優れた韻律境界分割方式を出力することにより得ることができる。

入力テキストに対する韻律構造予測を実行するプロセスで、音調句は基本的に句読点で区切られるため、音調句は容易に認識できると一般に考えられている。一方、韻律語の予測は規則を要約する方法に依存しており、これは基本的に使用要件を満たしている。これに対して、韻律構造予測における韻律句の予測は困難なものとなる。従って、入力テキストの韻律構造予測とは、主として韻律句境界の予測を解くことである。

入力テキストの韻律構造予測は、韻律構造予測モデルに基づいて実行される。韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を実行することにより生成される。好適には、統計的学習は、韻律構造予測モデルを生成すべくテキストコーパス及び音声コーパス内の注釈付きデータに対して決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムを利用して実行することができる。

テキストコーパス及び音声コーパスは、韻律構造予測モデルの訓練に用いる２つの基本コーパスであり、テキストコーパスの保存対象はテキストデータであって、音声コーパスの保存対象は音声データである。テキストコーパス及び音声コーパスは基本コーパスを保存するだけでなく、これらのコーパスの注釈付きデータをも保存する。コーパスの注釈付きデータは少なくとも、コーパスの韻律階層構造に関する注釈付きデータを含む。

コーパスに関する注釈付きデータの構造を、一例としてテキストコーパスを用いて示す。図５は、本発明の第１の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図である。図５を参照すると、テキストコーパスは、コーパス５０１を保存するだけでなく、コーパスの韻律構造に関する注釈付きデータ５０２をも保存する。コーパス５０１は文として保存され、韻律語、韻律句及び音調句はこれらの文中で分割される。コーパスの注釈付きデータ５０２は、当該コーパス内の韻律語の終端がどの韻律境界であるかに関する注釈である。コーパスの韻律構造に関する注釈付きデータにおいて、Ｂ０は韻律語の終端が韻律語境界であることを表し、Ｂ１は韻律語の終端が韻律句境界であることを表し、Ｂ２は韻律語の終端が音調句境界であることを表す。

本実施形態において、入力テキストを受信した後で、韻律構造予測モデルを利用して入力テキストに対する少なくとも２つの韻律境界分割方式を得るべく入力テキストに対する韻律構造予測を実行する。

Ｓ３２０：少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定する。

音声合成において、入力テキストは異なる韻律単位の組と考えられる。すなわち、入力テキストは複数の異なる韻律単位を含む。韻律単位は、入力テキストにおける各漢字に対応する音節である。例えば、入力テキスト
は韻律単位
を含み、入力テキスト
を含む。

入力テキストに関して複数の異なる韻律境界分割方式が得られた後では、異なる韻律境界分割方式で得られる韻律境界が異なるため、異なる韻律境界分割方式内の同一箇所に位置する韻律単位は異なっている。

例えば、入力テキスト
に関して、韻律句境界分割だけ与えられた場合、以下の２つの韻律境界分割方式がある。

上述の２つの韻律境界分割方式において、記号「＄」は、韻律境界分割方式における韻律句境界を表す。第１の韻律境界分割方式において、韻律単位「格」が韻律境界分割方式の第２の韻律句の終端にあるのに対し、第２の韻律境界分割方式では、韻律単位「了」が韻律境界分割方式の第２の韻律句の終端にあることが分かる。

本実施形態において、音声コーパス内の複数の異なる韻律単位に関する構造確率情報を比較し、比較結果に従い少なくとも２つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

上述の２つの韻律境界分割方式の例において、韻律単位「格」及び韻律単位「了」は各々、第１の韻律境界分割方式及び第２の韻律境界分割方式の終端にある。音声コーパス内において、韻律単位「格」が韻律句の終端にある確率が、韻律単位「了」が韻律句の終端にある確率よりも大きい場合は、第１の韻律境界分割方式が最終的な韻律境界分割方式として選択され、音声コーパス内において、韻律単位「了」が韻律句の終端にある確率が、韻律単位「格」が韻律句の終端にある確率よりも大きい場合は、第２の韻律境界分割方式が最終的な韻律境界分割方式として選択される。

Ｓ３３０：決定された韻律境界分割方式に従い音声合成を実行する。

入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成及びパラメータ合成型の音声合成を含む。

上述の方式において、韻律語分割方式を決定すべく最初に上述の方式を採用し、必要に応じて、複数の代替的な韻律句分割方式を得るために韻律語分割に基づいて韻律句分割を実行し、最終的な韻律境界分割方式として機能する好適な代替的な方式を得るために同様の方法を採用することが好適である。

図６は、本発明の第１の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図である。図６を参照すると、大規模コーパスに基づいて音声合成方法を動作させる音声合成システムによる入力テキストに対する音声合成は、従来技術における音声合成システムに含まれる入力テキストに対するテキスト解析６０８、韻律構造予測モデルによる入力テキストに対する韻律構造予測６０９、入力テキストに対するパラメータ予測／単位選択６１０、及び最終音声合成６１１に加えて、音声コーパス内の韻律単位に関する構造確率情報に従い韻律構造に対して実行される韻律修正６０７を更に含む。入力テキストに対する音声合成は、修正された韻律構造により実行され、得られた合成音声はより自然なものとなっている。

本実施形態は、入力テキストに対する韻律構造予測を実行することにより、少なくとも２つの代替的な韻律境界分割方式を提供し、次いで少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報に従い１つの韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行するため、入力テキストに対して実行される韻律構造予測は、コーパス内の韻律単位に関する構造確率情報を参照し、音声合成の自然さ及び柔軟性が向上する。

図７に、本発明の第２の実施形態を示す。

図７は、本発明の第２の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャートである。大規模コーパスに基づく音声合成方法は本発明の第１の実施形態に基づいており、更に、少なくとも２つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報による韻律境界分割方式の決定は以下のステップを含む。
Ｓ３２１：少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。

入力テキストに対する韻律境界分割方式を、韻律単位に関する位置統計情報に従い決定する場合、第１に、少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

韻律単位は、代替的な韻律境界分割方式における韻律境界に位置する韻律単位を選択すべきである。韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭に韻律単位が出現する確率を指す場合は、韻律境界よりも後方の韻律単位を選択する必要があり、韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の末尾に韻律単位が出現する確率を指す場合は、韻律境界よりも前方の韻律単位を選択する必要がある。

好適には、韻律単位に関する構造確率情報は、次式で表すことができる。
Ｗ_ｉ＝β×ｌｏｇ（ｍ＋ｎ０）−γ

ｍが音声コーパス内の目標韻律階層における目標位置にある韻律単位の個数を表し、目標韻律階層は韻律語、韻律句、及び音調句を含み、目標位置は韻律語、韻律句、又は音調句の先頭又は末尾にあり、ｎ０は個数調整パラメータであってゼロより大きい任意の整数であってよく、βは確率拡大縮小係数であり、γは確率オフセット係数である。上式において、パラメータｎ０、β、及びγは値が経験則に基づくパラメータであり、上式を介して計算で得られた結果Ｗｉは音声コーパス内の韻律単位に関する構造確率情報を表す。

Ｓ３２２：少なくとも２つの代替的な韻律境界分割方式の出力確率を、構造確率情報に従い出力確率計算関数を利用して計算する。

好適には、少なくとも２つの代替的な韻律境界分割方式の出力確率を決定すべく所定の重みパラメータに従い少なくとも２つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求める。

一例として、出力確率計算関数は次式のように示される。
ｆ（Ｗ_ｐ，Ｗ_ｉ）＝α×Ｗ_ｐ＋（１−α）Ｗ_ｉ
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は０〜１の間にあり、Ｗ_ｐは韻律単位の韻律階層確率であり、Ｗ_ｉは韻律単位の構造確率である。韻律単位の韻律階層確率、すなわちＷ_ｐは、韻律構造予測モデルを利用して入力テキストに対して韻律構造予測を実行する際に韻律構造予測モデルにより出力される韻律単位に対応する確率値であり、対応する階層の韻律境界が韻律単位に出現する入力テキストの確率を表す。対応する階層は、韻律語階層、韻律句階層、又は音調句階層であってよい。

韻律単位の構造確率とは、韻律単位が音声コーパスのコーパス内の特定の位置に出現する確率を指す。構造確率は、韻律単位が音声コーパス内で出現する位置について統計を実施することにより得られる。

好適には、韻律単位の構造確率は、音声コーパス内の韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を指す。

出力確率計算関数の計算結果は、代替的な韻律境界分割方式の出力確率である。

Ｓ３２３：出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定する。

出力確率が最大である代替的な韻律境界分割方式が、音声コーパス内の韻律単位に関する構造確率情報に基づく最も適切な韻律境界分割方式であると考えられ、従って出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として採用する。

少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得し、次いで構造確率情報に従い出力確率計算関数を利用して少なくとも２つの代替的な韻律境界分割方式の出力確率を計算して、最後に、出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として決定することにより、本実施形態は、韻律単位に関する位置統計情報による韻律境界分割方式の決定を完了し、音声合成の自然さ及び柔軟性が向上する。

図８に、本発明の好適な実施形態を示す。

図８は、本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。図８を参照すると、大規模コーパスに基づく音声合成方法は以下のステップを含む。
Ｓ８１０：テキストコーパス及び音声コーパス内の注釈付きデータを利用して韻律構造予測モデルを訓練する。

音声合成システムは、入力テキストシーケンスを合成音声波形に変換するシステムである。当該システムは、特定のソフトウェア及びハードウェアを介してテキストファイルを変換し、次いで、コンピュータ又は他の音声システムを介して音声を出力して、合成音声が極力人間の音声のように相対的に高い明瞭さ及び自然さを持ち得るようにする。

入力テキストに対する音声合成は、２つのコーパス、すなわちテキストコーパス及び音声コーパス内のコーパスデータに基づいて実行される。テキストコーパス及び音声コーパスは共に大量のコーパスデータを保存している。テキストコーパス内のコーパスデータの形式はテキスト形式であり、入力テキストに対するテキスト解析を実行する際の基本的な基準である。音声コーパス内のコーパスデータの形式は音声形式であり、入力テキストに対する解析が完了した後で音声合成を実行する際の基本データである。

入力テキスト解析と、音声合成及び出力との２つのステップの間に、入力テキストの韻律構造の予測を実行する必要がある。入力テキストに対する韻律構造予測は、出力音声の休止位置及び休止時間長等の音響パラメータを決定する。入力テキストに対する韻律構造予測は、訓練済み韻律構造予測モデルに基づいて実行する必要がある。

韻律構造予測モデルの訓練は、テキストコーパス及び音声コーパス内の注釈付きデータに基づいて実行される。注釈付きデータは、コーパス内の韻律構造に注釈を付ける。韻律構造予測モデルの訓練プロセスにおいて、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習により、韻律構造予測モデルは自身の構造を完成させ、従って入力テキストに関して入力テキストの韻律構造を予測することができる。

本実施形態において、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。

Ｓ８２０：韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置に対して統計を実施することにより得られる。

音声コーパスは、大量の音声コーパスセグメントを保存している。音声コーパスセグメントは複数の異なる韻律単位からなる。例えば、音声コーパスは音声コーパスセグメント
を保存し、この音声コーパスセグメントは５個の韻律単位、すなわち
を含む。

音声コーパスセグメントは、韻律語、韻律句、又は音調句であってよい。本実施形態において、音声コーパスセグメントは韻律句である。

構造確率情報とは、音声コーパス内の音声コーパスセグメント内に設定された位置に韻律単位が出現する確率に関する情報を指す。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率に関する情報を指す。

構造確率情報は、音声コーパス内で韻律単位が出現する位置について統計を実施することにより得られる。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率を介して得られる。

Ｓ８３０：韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行する。

入力テキストを受信した後で、訓練済み韻律構造予測モデルを利用して入力テキストに対する韻律構造予測処理を実行する。入力テキストに対して韻律構造予測処理を実行した結果は、入力テキストに関する少なくとも２つの代替的な韻律境界分割方式である。好適には、入力テキストに対する少なくとも２つの優れた代替的な韻律境界分割方式を出力することにより、入力テキストに対する複数の異なる韻律境界分割方式が得られる。

韻律境界分割方式を用いて入力テキストに対する韻律境界を画定する。好適には、入力テキストに対する異なる韻律階層によれば、韻律境界分割方式により画定される入力テキストの韻律境界は、韻律語境界、韻律句境界、及び音調句境界を含む。

韻律構造予測においては韻律句の予測が難点となるため、本実施形態では韻律構造境界分割について、単に韻律句境界分割を一例として説明している。当業者であれば、韻律語及び音調句に対して境界分割を実行するプロセスが、韻律句に対して境界分割を実行するプロセスと同様であることを理解できよう。

一例として、入力テキスト
に対する韻律句境界分割を、少なくとも２つの代替的な韻律境界分割方式を提供するプロセスを説明するための例として挙げる。上述の入力テキストに関して、以下のように２つの韻律句境界分割方式がある。

記号「＄」は、韻律境界分割方式内の韻律句境界を表す。

Ｓ８４０：少なくとも２つの代替的な韻律境界分割方式の音声コーパス内の韻律単位に関する構造確率情報に従い韻律境界分割方式を決定する。

韻律語、韻律句、又は音調句は全て韻律単位を含む。音声コーパス内で、韻律単位は、特定の確率に従い、韻律語、韻律句、又は音調句の先頭又は末尾に出現する。例えば、韻律単位「了」が韻律句の末尾に出現する確率は０．７８である。この確率は、音声コーパス内の韻律単位に関する構造確率情報である。

韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置について実施された統計、すなわち韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率により得られる。韻律単位に関する構造確率情報が得られた後で、韻律単位に関する構造確率情報に基づいて、少なくとも２つの代替的な韻律境界分割方式の出力確率を各々計算し、次いで、出力確率に基づいて少なくとも２つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定することができる。

好適には、少なくとも２つの代替的な韻律境界分割方式の出力確率は、次式により計算することができる。
ｆ（Ｗ_ｐ，Ｗ_ｉ）＝α×Ｗ_ｐ＋（１−α）Ｗ_ｉ
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は０〜１の間にあって、一旦選択されたならば異なる代替的な韻律境界分割方式により変化せず、Ｗ_ｐは韻律単位の韻律階層確率であり、Ｗ_ｉは韻律単位の構造確率である。

一例として上述の入力テキスト
に対する２つの韻律境界分割方式を挙げると、音声コーパス内の韻律句の終端に韻律単位「了」が出現する確率が韻律句の終端に韻律単位「格」が出現する確率よりも大きい場合、構造確率情報に基づく計算から得られた第２の韻律境界分割方式の出力確率は第１の韻律境界分割方式の出力確率よりも大きく、従って、第２の韻律境界分割方式が最終的な韻律境界分割方式として選択される。

Ｓ８５０：決定された韻律境界分割方式に従い音声合成を実行する。

入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成であってよく、またパラメータ合成型の音声合成であってよい。

上述の方法ステップを１台のコンピュータで実行しなくてもよいことに注意されたい。実際に、韻律構造予測モデルに対する訓練をコンピュータで完了し、次いで、訓練済み韻律構造予測モデルを別のコンピュータに移植して入力テキストに対する音声合成を完了することもできる。

韻律構造予測モデルを訓練し、韻律単位に関する位置統計情報について統計を実施し、少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測を実行し、韻律単位に関する位置統計情報に従い少なくとも２つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定して、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本実施形態は、韻律単位に関する位置統計情報が、音声合成の自然さ及び柔軟性を向上させるべく入力テキストに対する韻律構造予測を実行することを可能にする。

図９に、本発明の第３の実施形態を示す。

図９は、本発明の第３の実施形態による大規模コーパスに基づく音声合成装置の構造図である。図９を参照すると、大規模コーパスに基づく音声合成装置は、予測処理モジュール９１０、境界分割モジュール９２０、及び音声合成モジュール９３０を含む。

予測処理モジュール９１０は、韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行するために用いる。

境界分割モジュール９２０は、少なくとも２つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定するために用いる。

音声合成モジュール９３０は、決定された韻律境界分割方式に従い音声合成を実行するために使用される。

好適には、韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成される。

好適には、テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。

好適には、境界分割モジュールは、構造確率情報取得ユニット９２１、出力確率計算ユニット９２２、及び境界分割方式決定ユニット９２３を含む。

構造確率情報取得ユニット９２１は、音声コーパス内のデータについて事前に実施された統計に従い少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を得るために使用される。

出力確率計算ユニット９２２は、構造確率情報に従い出力確率計算関数を利用して少なくとも２つの代替的な韻律境界分割方式の出力確率を計算するために使用される。

境界分割方式決定ユニット９２３は、出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定するために使用される。

好適には、少なくとも２つの代替的な韻律境界分割方式により分割される韻律境界は、韻律語境界、韻律句境界、又は音調句境界を含む。

好適には、韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

好適には、出力確率計算ユニット９２２は特に、所定の重みパラメータに従い少なくとも２つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、少なくとも２つの代替的な韻律境界分割方式の出力確率を決定するために使用される。

本発明の上記複数の実施形態のシーケンス番号は、説明目的のために過ぎず、実施形態の優先順位を表すものではない。

当業者には、本発明の上述の各種モジュール又は各種ステップが、汎用計算装置を用いて実装でき、単一の計算装置に一体化でき、又は複数の計算装置を含むネットワーク上に分散されていてもよく、また任意選択的に、計算装置の実行可能なプログラムコードを用いて実装でき、その結果、ストレージ装置に保存されて計算装置により実行されても、又は各種集積回路モジュールに各々組み込まれてもよく、或いは複数のモジュール又はそのステップを単一の集積回路モジュールに一体化できることが理解されよう。このように、本発明は、ハードウェア及びソフトウェアの如何なる特定の組合せにも限定されない。

本明細書において各種の実施形態を漸進的に記述しており、各実施形態において他の実施形態との差異を強調しながら、各種実施形態間で同一又は類似の部分を相互に参照してもよい。

上記の説明は本発明の好適な実施形態に過ぎず、本発明を限定するものではなく、当業者には本発明に各種の変更及び変型があり得ることが理解されよう。本発明の趣旨及び原理の範囲内でなされる任意の変更、均等物との置換、又は改良は全て本発明の権利保護範囲に含まれるものとする。

１０１テキストコーパス
１０２音声コーパス
１０３韻律構造予測モデル
１０４音響モデル
１０５候補単位
１０６テキスト解析
１０７韻律構造予測
１０８パラメータ予測／単位選択
１０９音声合成
４０１単語
４０２韻律語
４０３韻律句
４０４音調句
５０１コーパス
５０２注釈付きデータ
６０７韻律修正
６０８テキスト解析
６０９韻律構造予測
６１０パラメータ予測／単位選択
６１１音声合成
９１０予測処理モジュール
９２０境界分割モジュール
９２１構造確率情報取得ユニット
９２２出力確率計算ユニット
９２３境界分割方式決定ユニット
９３０音声合成モジュール

Claims

大規模コーパスに基づく音声合成方法であって、
韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
前記少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定するステップと、
決定された前記１つの韻律境界分割方式に従い音声合成を実行するステップと
を含むことを特徴とする方法。
前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項１に記載の方法。
テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項２に記載の方法。
前記少なくとも２つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定する前記ステップが、
前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得するステップと、
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも２つの代替的な韻律境界分割方式の出力確率を計算するステップと、
前記出力確率が最大である代替的な韻律境界分割方式を、前記１つの韻律境界分割方式として決定するステップと
を含むことを特徴とする、請求項１に記載の方法。
前記少なくとも２つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項４に記載の方法。
前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項４に記載の方法。
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも２つの代替的な韻律境界分割方式の出力確率を計算する前記ステップが、
所定の重みパラメータに従い前記少なくとも２つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも２つの代替的な韻律境界分割方式の出力確率を決定するステップを含むことを特徴とする、請求項４に記載の方法。
大規模コーパスに基づく音声合成装置であって、
韻律構造予測モデルを利用して少なくとも２つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
前記少なくとも２つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、１つの韻律境界分割方式を決定する境界分割モジュールと、
決定された前記１つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと
を備えることを特徴とする装置。
前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項８に記載の装置。
テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項９に記載の装置。
前記境界分割モジュールが
前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも２つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得する構造確率情報取得ユニットと、
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも２つの代替的な韻律境界分割方式の出力確率を計算する出力確率計算ユニットと、
前記出力確率が最大である代替的な韻律境界分割方式を、前記１つの韻律境界分割方式として決定する境界分割方式決定ユニットと
を備えることを特徴とする、請求項８に記載の装置。
前記少なくとも２つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項１１に記載の装置。
前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項１１に記載の装置。
前記出力確率計算ユニットが特に、
所定の重みパラメータに従い前記少なくとも２つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも２つの代替的な韻律境界分割方式の出力確率を決定する
ために使用されることを特徴とする、請求項１１に記載の装置。