JP3667950B2

JP3667950B2 - ピッチパターン生成方法

Info

Publication number: JP3667950B2
Application number: JP25049697A
Authority: JP
Inventors: 岳彦籠嶋; 芳則志賀; 眞弘森田; 重宣瀬戸; 孝章新居; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-09-16
Filing date: 1997-09-16
Publication date: 2005-07-06
Anticipated expiration: 2017-09-16
Also published as: JPH1195783A; US20010051872A1; US6529874B2

Description

【０００１】
【発明の属する技術分野】
本発明は、ピッチパターン生成方法に係り、特にテキスト音声合成で用いられるピッチパターンを生成する方法に関する。
【０００２】
【従来の技術】
任意の文章から人工的に音声信号を作り出すことをテキスト合成という。通常テキスト合成システムは、言語処理部・制御パラメータ生成部・音声信号生成部の３つの段階から構成される。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われる。次に制御パラメータ生成部においてアクセントやイントネーションの処理が行われ、音韻記号列・ピッチパターン・音韻継続時間長などの情報が出力される。最後に、音声信号生成部で音声信号が合成される。
【０００３】
テキスト合成システムの中で合成音声の自然性に関係するのが制御パラメータ生成部における韻律処理であり、とりわけピッチパターンが合成音声の自然性を大きく左右する。従来のテキスト合成システムでは、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な音声となっていた。
【０００４】
近年、自然音声から抽出されたピッチパターンをそのまま用いてピッチパターンの生成を行う方法が提案されている。例えば、特開平６−２３６１９７では、自然音声のピッチパターンから切り出されたユニットパターンか、または切り出されたユニットパターンをベクトル量子化したものを記憶しておき、入力属性または入力言語情報に基づいて適合するユニットパターンを検索し、これらのユニットパターンを時間軸上に配置し変形することによってピッチパターンを生成する方法が開示されている。
【０００５】
【発明が解決しようとする課題】
上述したような従来のテキスト音声合成においては、全ての入力属性あるいは入力言語情報に適合するユニットパターンを記憶しておくことは不可能なので、ユニットパターンの変形が必要となる。例えば、入力された継続時間長に合うようにユニットパターンを伸縮させることが必要となる。しかしながら、ユニットパターンが自然音声のピッチパターンから切り出されたものであったとしても、このような変形処理によって自然性が低下するという問題がある。
【０００６】
本発明は、上記事情を考慮してなされたものであり、テキスト音声合成による合成音の自然性を向上させることができるピッチパターン生成方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明は、入力テキストの音声合成のためのピッチパターンを生成するピッチパターン生成方法において、音声データの韻律単位を複数の代表パターンにそれぞれ対応する各クラスタにクラスタリングするステップと、前記音声データについてピッチ抽出を行って得られる第１のピッチパターンから、前記各クラスタに属する韻律単位に対応する第２のピッチパターンを抽出するステップと、第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第２のピッチパターンに近似させた第３のピッチパターンと前記第２のピッチパターンとにより定義される歪みの評価関数を用いて、前記各クラスタに対応する第２の代表パターンを生成するステップと、前記第２の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択し、該選択した代表パターンを用いて前記入力テキストの音声合成のためのピッチパターンを生成するステップとを具備することを特徴とする。
【０００８】
韻律単位とは、ピッチパターン生成の単位であって、（１）アクセント句、（２）ピッチパターンの形状に応じてアクセント句を複数の区間に分割した単位、（３）連続するアクセント句の境界を含むような単位、など種々の単位を用いることができる。
【０００９】
第１の代表パターンの変形は、時間軸上の伸縮に加えて、周波数軸上の平行移動または伸縮や、微分または積分や、フィルタリングなどの組合せによって実現され、これらは時間−周波数領域あるいは時間−対数周波数領域におけるパターンに対して行われる。
【００１０】
クラスタリングとは、韻律単位を何らかの基準に従って代表パターンに対応するクラスタに分類する操作であり、基準としては、当該韻律単位について、代表パターンより生成されたピッチパターンの誤差や、当該韻律単位の属性、あるいは誤差と属性の組合せなどを用いることができる。
【００１２】
韻律単位の属性とは、当該韻律単位を含む音声データまたはその音声データに対応するテキストから抽出される、当該韻律単位およびその近傍の韻律単位に関する情報であり、例えば、アクセント型・モーラ数・品詞・音韻・かかり受けなどがある。
【００１３】
歪みの評価関数は、複数の韻律単位に対して一つの第１の代表パターンから生成された第３のピッチパターンの歪みを評価する関数であり、生成された第３のピッチパターンと自然音声のピッチパターンである第２のピッチパターンとの間もしくはそれらの対数の間で定義される関数であり、例えば２乗誤差の総和などを用ることができる。
【００３１】
なお、以上の各装置に係る発明は方法に係る発明としても成立し、方法に係る発明は装置に係る発明としても成立する。
また、上記の発明は、相当する手順あるいは手段をコンピュータに実行させるためのプログラムを記録した機械読取り可能な媒体としても成立する。
【００３２】
本発明では、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成させることが可能である。
【００３３】
また、本発明では、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成させることができる。
このように本発明によれば、テキスト音声合成による合成音声の自然性を効果的に向上させ、高品質な合成音声を提供することができるようになる。
【００３４】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。
本実施形態は、概略的には、代表パターンに対して入力属性に応じた変形を行って生成されるピッチパターンが自然音声のピッチパターンに近くなるような代表パターンを生成し、またそのようにして得た代表パターンを用いてピッチパターンを生成することにより、自然音声に近い自然性を持った合成音声を生成するようにしたものである。
【００３５】
図１は、本発明の一実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図であり、大きく分けて学習系１とピッチ制御系２よりなる。実際にテキスト音声合成を行う場合に動作するのはピッチ制御系２であり、学習系１は事前に学習を行って代表パターンなどを生成するものである。
【００３６】
まず、学習系１について説明する。
学習系１は、韻律単位に対応する大量のピッチパターン１０１と、ピッチパターン１０１に対応する属性１０２を用いて、代表パターン１０３、変形パラメータ生成規則１０６、代表パターン選択規則１０５を生成する。
【００３７】
本実施形態では、アクセント句（例えば図６に示すように「青森の」、「兄の」、「雨具を」等）を韻律単位とする場合について説明するが、ピッチパターンの形状に応じてアクセント句を複数の区間に分割した単位や、連続するアクセント句の境界を含むような単位などを用いてもよい。韻律単位の例を図３に示す。
【００３８】
以下の説明では、ピッチパターン１０１に含まれるアクセント句の数をＮ、代表パターン１０３の代表パターン数（クラスタ数）をｎとし、各アクセント句に対応するピッチパターンをベクトルｒ_j ，（ｊ＝１…Ｎ）で、代表パターンをベクトルｕ_i ，（ｉ＝１…ｎ）で表すものとする。
【００３９】
ここで、図２に示したブロック図を用いてピッチパターン１０１と属性１０２の生成手順の一例について説明する。なお、図２のブロック図に係るデータ生成機能は、ソフトウェアでもハードウェアでも実現可能である。
【００４０】
音声データ１１１は、連続発声された多数の音声データを表している。テキスト１１０は、音声データ１１１の発声内容に対応する文章のデータである。
テキスト解析部３１は、テキスト１１０に対して形態素解析などのテキスト解析を行って、テキストをアクセント句単位に分割し、各アクセント句に対して属性１０２を付与する。属性１０２は、当該アクセント句およびその近傍のアクセント句に関する情報であり、例えば、アクセント型・モーラ数・品詞・音韻・係り受けなどの情報である。
【００４１】
音韻ラベリング部３２は、音声データ１１１と対応するテキスト１１０に従って音韻の境界を検出し、音声データ１１１に音韻ラベル１１２を付与する。
ピッチ抽出部３３は、音声データ１１１にピッチ抽出を行って、基本周波数の時間変化パターンであるピッチパターンを文章全体について生成し、文ピッチパターン１１３を出力する。
【００４２】
アクセント句切り出し部３４は、音韻ラベル１１２と属性１０２を参照して、文ピッチパターン１１３からアクセント句毎のピッチパターンを切り出してピッチパターン１０１を出力する。
【００４３】
次に学習系１の詳細な動作について説明する。
なお、学習に先だって、予めｎ個の代表パターンが設定されているものとする。この代表パターンは、例えば先見的な知識に基づいて用意した適当な特性を持つものであってもよいし、あるいはノイズ・データを用いることも可能である。
【００４４】
まず、選択規則生成部１８は、アクセント句の属性とピッチパターンに関する先見的な知識や属性１０２の分布などを基にして、あるアクセント句について、当該アクセント句の属性および当該アクセント句の近傍のアクセント句の属性などから、当該アクセント句がどのクラスタに属するかを決定するための規則（すなわち属性から代表パターンを選択する規則）である代表パターン選択規則１０５を生成する。
【００４５】
クラスタリング部１２は、代表パターン選択規則１０５に従ってアクセント句の属性１０２からピッチパターンのクラスタを選択することによって、全てのピッチパターンを代表パターンに対応するｎ個のクラスタにクラスタリングし、クラスタ情報１０８を出力する。
【００４６】
変形パラメータ生成部１０は、代表パターン１０３を変形したものがピッチパターン１０１を近似するように変形パラメータ１０４を生成する。
代表パターン１０３は、図４（ａ）で表されるような、基本周波数の変化を表すパターンである。ただし、縦軸は基本周波数の対数を表している。
【００４７】
パターンの変形は、時間軸上の伸縮、周波数軸上の伸縮、周波数軸上の並行移動、微分、積分、フィルタリングなどの組合せによって実現される。図４（ａ）の代表パターンを、時間軸上で伸縮した例を（ｂ）に、周波数軸上で伸縮した例を（ｃ）に、周波数軸上で並行移動した例を（ｄ）に、微分した例を（ｅ）にそれぞれ示す。時間軸上の伸縮は、線形伸縮以外に継続時間長の情報などを用いた非線形な伸縮を用いることもできる。またこれらの変形は、基本周波数の対数のパターンかあるいは基本周波数そのもののパターンに対して行われる。また、代表パターン１０３として、基本周波数のパターンを微分して得られる基本周波数の傾きを表すパターンを用いても良い。
【００４８】
これらの変形処理の組合せを関数ｆ（）で、伸縮率や移動量などの変形のパラメータの組みをベクトルｐで、代表パターンをベクトルｕで表すと、変形によって生成されるパターンを表すベクトルｓは次式で表すことができる。
【００４９】
ｓ＝ｆ（ｐ，ｕ） …（１）
代表パターンｕ_i を変形してピッチパターンｒ_j を近似する変形パラメータ１０４を表すベクトルｐ_ijは、次式で表される誤差ｅ_ijを最小化するようなｐ_ijを探索することによって求められる。
【００５０】
ｅ_ij＝（ｒ_j −ｆ（ｐ_ij，ｕ_i ))^T （ｒ_j −ｆ（ｐ_ij，ｕ_i ))…（２）
変形パラメータはピッチパターン１０１の全てのアクセント句と代表パターン１０３の全ての代表パターンの組合せに対して生成されるため、全部でｎ×Ｎ個の変形パラメータｐ_ij，（ｉ＝１…ｎ）（ｊ＝１…Ｎ）が生成される。
【００５１】
代表パターン生成部１１は、クラスタ情報１０８で表されるクラスタ毎に、ピッチパターン１０１と変形パラメータ１０４より代表パターン１０３を生成する。ｉ番目のクラスタの代表パターンｕ_i は、評価関数Ｅ_i （ｕ_i ）をｕ_i について偏微分して０とおいた次式で表される方程式を解くことによって求められる。
【００５２】
【数１】

評価関数Ｅ_i （ｕ_i ）は、当該クラスタに属するピッチパターンｒ_j を代表パターンｕ_i を用いて近似した際の誤差の総和を表しており、次式で定義される。
【００５３】
【数２】

【００５４】
ただし、ｒ_j は、ｉ番目のクラスタに属するピッチパターンを表している。また、（４）式が偏微分できない場合や、（３）式が解析的には解けない場合は、なんらかの公知の最適化手法を用いて（４）式の評価関数を最小にするｕ_i を探索することによって代表パターンを求めることができる。
【００５５】
上述した変形パラメータ生成部１０における変形パラメータの生成と、代表パターン生成部１１における代表パターン１０３の生成は、（４）式の評価関数が収束するまで（予め規定した収束条件が成立するまで）、繰り返し実行するのが好ましい。
【００５６】
そして、変形パラメータ生成規則生成部１５は、ピッチパターン１０１に対応する変形パラメータ１０４および属性１０２より、変形パラメータ生成規則１０６を生成する。変形パラメータ生成規則は、入力属性から変形パラメータを生成するための規則であり、数量化Ｉ類などの統計的手法や、なんらかの帰納学習法など公知の方法を用いて生成することが可能である。
【００５７】
次にピッチ制御系２について説明する。
ピッチ制御系２は、テキスト合成システムに入力されたテキストにテキスト解析を行って得られるアクセント句毎の入力属性１２０より、代表パターン１０３、変形パラメータ生成規則１０６、代表パターン選択規則１０５を参照して、文章全体のピッチパターンである文ピッチパターン１２３を出力する。
【００５８】
代表パターン選択部２１は、代表パターン選択規則１０５と入力属性１２０に従って、代表パターン１０３より当該アクセント句に適した代表パターン１２１を選択して出力する。
【００５９】
変形パラメータ生成部２０は、変形パラメータ生成規則１０６と入力属性１２０に従って、変形パラメータ１２４を生成して出力する。
パターン変形部２２は、変形パラメータ１２４に従って代表パターン１２１を変形してピッチパターン１２２を出力する。代表パターンの変形は、変形パラメータ生成部１０で定義された変形処理の組合せを表す関数ｆ（）による変形と同様に行われる。
【００６０】
パターン接続部２３は、アクセント句毎のピッチパターン１２２を接続し、接続部におけるピッチパターンが不連続になるのを避けるため、接続部でパターンの平滑化を行った文ピッチパターン１２３を出力する。
【００６１】
本実施形態によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成させることができる。
【００６２】
次に、本発明の別の実施形態について説明する。
図５は、本発明の他の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。図１と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態では、ピッチパターンのクラスタリングの方法および代表パターン選択規則の生成法がこれまでの実施形態と異なっている。
【００６３】
すなわち、先の実施形態では、先見的な知識や属性の分布に従って代表パターン選択規則を生成し、その後で代表パターン選択規則にしたがってアクセント句のクラスタリングを行ったが、本実施形態では、代表パターンに変形を行って得られるピッチパターンと音声データより抽出されたピッチパターンの誤差に基づいて、アクセント句のクラスタリングおよび代表パターン選択規則の生成を行う。
【００６４】
本実施形態では、まず、変形パラメータ生成部１０は、代表パターン１０３を変形したものがピッチパターン１０１を近似するように変形パラメータ１０４を生成する。
【００６５】
次に、クラスタリングを行う。以下、本実施形態におけるピッチパターンのクラスタリング方法の詳細について説明する。
パターン変形部１３は、変形パラメータ１０４に従って代表パターン１０３を変形してピッチパターン１０９を出力する。代表パターンの変形は、変形パラメータ生成部１０で定義された変形処理の組合せを表す関数ｆ（）による変形と同様に行われる。Ｎ個のアクセント句のピッチパターンｒ_j ，（ｊ＝１…Ｎ）に対してそれぞれｎ個の代表パターンｕ_i ，（ｉ＝１…ｎ）の全てを変形してｎ個のピッチパターンｓ_ij，（ｉ＝１…ｎ）を生成する。
【００６６】
誤差評価部１４は、ピッチパターン１０９とピッチパターン１０１の誤差を評価して、誤差情報１０７を出力する。誤差は次式で定義される２乗誤差を用いる。
【００６７】
ｅ_ij＝（ｒ_j −ｓ_ij）^T （ｒ_j −ｓ_ij） …（５）
誤差はピッチパターン１０１の全てのアクセント句と代表パターン１０３の全ての代表パターンの組合せに対して生成されるため、全部でｎ×Ｎ個の誤差の値ｅ_ij，（ｉ＝１…ｎ）（ｊ＝１…Ｎ）が生成される。
【００６８】
クラスタリング部１７は、誤差情報１０７に従ってピッチパターン１０１を代表パターンに対応するｎ個のクラスタにクラスタリングし、クラスタ情報１０８を出力する。代表パターンｕ_i に対応するクラスタをＧ_i で表すと、誤差ｅ_ijを用いてピッチパターンｒ_j は次式のようにクラスタリングされる。
【００６９】
Ｇ_i ＝｛ｒ_j ｜ｅ_ij＝min ［ｅ_1j，…，ｅ_nj］｝ …（６）
ただし、記号min ［ｘ₁ ，…，ｘ_n ］はｘ₁ ，…，ｘ_n の中の最小の値を表している。
【００７０】
そして、代表パターン生成部１１は、クラスタ情報１０８で表されるクラスタ毎に、ピッチパターン１０１と変形パラメータ１０４より代表パターン１０３を生成する。
【００７１】
なお、先の実施形態と同様に、変形パラメータの生成、クラスタリング、代表パターンの生成は、（４）式の評価関数が収束するまで（予め規定した収束条件が成立するまで）、繰り返し実行するのが好ましい。
【００７２】
上記の処理が終了したら、変形パラメータ生成規則生成部１５による変形パラメータ生成規則１０６の生成と選択規則生成部１６による代表パターン選択規則１０５の生成を行う。
【００７３】
次に、本実施形態における代表パターン選択規則の生成法について説明する。選択規則生成部１６は、誤差情報１０７および属性１０２より、代表パターン選択規則１０５を生成する。代表パターン生成規則は、入力属性から代表パターンを選択するための規則であり、数量化Ｉ類などの統計的手法や、なんらかの帰納学習法など公知の方法を用いて生成することが可能である。
【００７４】
以上のような本実施形態によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成することができる。
【００７５】
次に、本発明のさらに別の実施形態について説明する。
図６は、本発明の他の実施形態に係る音声情報処理方法を実現する音声情報処理装置の構成を示すブロック図である。図１、図５と相対応する部分に同一の参照符号を付して相違点を中心に説明すると、本実施形態では、代表パターン生成部の入力となる変形パラメータとクラスタ情報の生成方法がこれまでの実施形態と異なっている。
【００７６】
すなわち、図１および図５の実施形態では、代表パターン１０３とピッチパターン１０１より生成された最適な変形パラメータを用いて代表パターンの生成を行っているのに対して、本実施形態では、変形パラメータ生成規則により生成された変形パラメータを用いて代表パターンの生成を行っている点が異なっている。
【００７７】
本実施形態では、変形パラメータ生成部１９において、変形パラメータ生成規則１０６と属性１０２に従って、変形パラメータ１１４を生成し、これを入力として代表パターン生成部１１において代表パターンの生成を行っている。
【００７８】
クラスタリング部１２は、代表パターン選択規則１０５に従ってアクセント句の属性１０２からピッチパターンのクラスタを選択することによって、全てのピッチパターンを代表パターンに対応するｎ個のクラスタにクラスタリングし、クラスタ情報１０８を出力する。
【００７９】
つまり、本実施形態では、変形パラメータの生成、代表パターン選択規則の生成、クラスタリング、変形パラメータ生成規則の生成、代表パターンの生成を一連の処理として実行される。なお、変形パラメータ生成規則の生成は、変形パラメータの生成の後でかつ代表パターンの生成の前であれば、代表パターン選択規則の生成およびクラスタリングとは、独立して任意のタイミングで実行可能である。先の実施形態と同様に、この一連の処理は、（４）式の評価関数が収束するまで（予め規定した収束条件が成立するまで）、繰り返し実行するのが好ましい。
【００８０】
上記の一連の処理が終了したら、その時点における変形パラメータ生成規則１０６と代表パターン選択規則１０５を採用する。あるいは、最終的に得られた代表パターンを用いてもう一度計算し直したものを採用してもよい。
【００８１】
なお、以上の各実施形態では、学習系１とピッチ制御系２を有する音声情報処理装置として説明したが、学習系１のみを有する学習用の音声情報処理装置、ピッチ制御系２のみを有するピッチ制御の音声情報処理装置、あるいは学習系１から代表パターン１０３、変形パラメータ生成規則１０６、代表パターン選択規則１０５の記憶部を除いた部分のみ有する音声情報処理装置、ピッチ制御系２から代表パターン１０３、変形パラメータ生成規則１０６、代表パターン選択規則１０５の記憶部を除いた部分のみ有する音声情報処理装置として構成することも可能である。
【００８２】
また、以上の各機能は、ハードウェアとしてもソフトウェアとしても実現可能である。また、上記した各手順あるいは手段をコンピュータに実行させるためのプログラムを記録した機械読取り可能な媒体として実施することもできる。
本発明は、上述した実施の形態に限定されるものではなく、その技術的範囲において種々変形して実施することができる。
【００８３】
【発明の効果】
本発明によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差の評価関数に基づいて代表パターンを生成し、その代表パターンを用いてテキスト合成におけるピッチパターンの生成を行っているため、変形によって自然性が劣化することなく、自然性の高い合成音声を生成することが可能である。
【００８４】
また、本発明によれば、代表パターンに対して変形を行って生成されるピッチパターンの自然音声のピッチパターンに対する誤差と属性より代表パターン選択規則を生成すると共に、代表パターンと自然音声のピッチパターンより生成される変形パラメータと韻律単位の属性より変型パラメータ生成規則を生成し、これらを用いて入力属性から適切な代表パターンを選択し、変形を行うことによってピッチパターンを生成しているため、より自然音声に近い合成音声を生成することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声情報処理装置の構成を示すブロック図
【図２】ピッチパターンと属性の生成方法の一例を説明するための図
【図３】本発明の実施形態における韻律単位の例を示す模式図
【図４】本発明の実施形態における代表パターンの変形の例を示す模式図
【図５】本発明の別の実施形態に係る音声情報処理装置の構成を示すブロック図
【図６】本発明のさらに別の実施形態に係る音声情報処理装置の構成を示すブロック図
【符号の説明】
１…学習系
２…ピッチ制御系
１０，１９，２０…変形パラメータ生成部
１１…代表パラメータ生成部
１２，１７…クラスタリング部
１３，２２…パターン変形部
１４…誤差評価部
１５…変形パラメータ生成規則生成部
１６，１８…選択規則生成部
２１…代表パターン選択部
２３…パターン接続部
３１…テキスト解析部
３２…音韻ラベリング部
３３…ピッチ抽出部
３４…アクセント句切り出し部
１０１，１０９，１２２…ピッチパターン
１０２…属性
１０３，１２１…代表パターン
１０４，１１４，１２４…変形パラメータ
１０５…代表パターン選択規則
１０６…変形パラメータ生成規則
１０７…誤差情報
１０８…クラスタ情報
１１０…テキスト
１１１…音声データ
１１２…音韻ラベル
１１３，１２３…文ピッチパターン
１２０…入力属性

Claims

入力テキストの音声合成のためのピッチパターンを生成するピッチパターン生成方法において、
音声データの韻律単位を複数の代表パターンにそれぞれ対応する各クラスタにクラスタリングするステップと、
前記音声データについてピッチ抽出を行って得られる第１のピッチパターンから、前記各クラスタに属する韻律単位に対応する第２のピッチパターンを抽出するステップと、
第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第２のピッチパターンに近似させた第３のピッチパターンと前記第２のピッチパターンとにより定義される歪みの評価関数を用いて、前記各クラスタに対応する第２の代表パターンを生成するステップと、
前記第２の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択し、該選択した代表パターンを用いて前記入力テキストの音声合成のためのピッチパターンを生成するステップとを具備することを特徴とするピッチパターン生成方法。
前記韻律単位はアクセント句であることを特徴とする請求項１に記載のピッチパターン生成方法。
前記韻律単位は連続するアクセント句の境界を含むものであることを特徴とする請求項１に記載のピッチパターン生成方法。
前記クラスタリングするステップは、前記第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第４のピッチパターンの前記第２のピッチパターンに対する誤差を評価し、前記誤差の値に従って前記クラスタリングを行うことを特徴とする請求項１に記載のピッチパターン生成方法。
前記クラスタリングするステップは、前記韻律単位の属性に従って前記クラスタリングを行うことを特徴とする請求項１に記載のピッチパターン生成方法。
前記クラスタリングするステップは、前記第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第４のピッチパターンの前記第２のピッチパターンに対する誤差を評価し、前記誤差の値および前記韻律単位の属性に従って前記クラスタリングを行うことを特徴とする請求項１に記載のピッチパターン生成方法。
第２の代表パターンを生成するステップは、前記第１の代表パターンに対する変形として、周波数軸または対数周波数軸上の平行移動および伸縮の少なくとも一方をさらに施すことを特徴とする請求項１に記載のピッチパターン生成方法。
第２の代表パターンを生成するステップは、前記第１の代表パターンに対する変形として、微分および積分の少なくとも一方をさらに施すことを特徴とする請求項１に記載のピッチパターン生成方法。
前記第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成された第４のピッチパターンの前記第２のピッチパターンに対する誤差を評価するステップと、
前記誤差の値および前記韻律単位の属性に従って代表パターン選択規則を生成するステップとをさらに具備し、
前記入力テキストの音声合成のためのピッチパターンを生成するステップは、該代表パターン選択規則に従って前記第２の代表パターンから前記入力テキストの韻律単位に対応する一つの代表パターンを選択することを特徴とする請求項１に記載のピッチパターン生成方法。
前記第１の代表パターンに少なくとも時間軸上の伸縮を含む変形を施すことにより生成される、前記第２のピッチパターンに近似させた第３のピッチパターンと前記第１の代表パターンより変形パラメータを生成するステップと、
前記変形パラメータおよび前記韻律単位の属性に従って変形パラメータ生成規則を生成するステップと、
生成された前記変形パラメータ生成規則に従って変形パラメータを生成するステップとをさらに具備し、
前記入力テキストの音声合成のためのピッチパターンを生成するステップは、前記選択した代表パターンを前記変形パラメータに従って変形させた後に接続して前記入力テキストの音声合成のためのピッチパターンを生成することを特徴とする請求項１に記載のピッチパターン生成方法。