JP4542400B2

JP4542400B2 - 韻律生成装置及び韻律生成プログラム

Info

Publication number: JP4542400B2
Application number: JP2004268199A
Authority: JP
Inventors: 訓史大出; 篤今井; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2010-09-15
Anticipated expiration: 2024-09-15
Also published as: JP2006084666A

Description

本発明は、韻律生成装置及び韻律生成プログラムに係り、特に自然性が高く安定した韻律パターンを生成するための韻律生成装置及び韻律生成プログラムに関する。

従来、音声合成技術を用いた音律生成において、入力されたテキスト文章に対して、読みやアクセント情報を有する形態素辞書との照合を行い、基本周波数パターンや音素の継続時間長等の韻律パラメータを所定のモデルを用いて規則的に求める手法が提案されている（例えば、非特許文献１参照。）。

また、自然性を高めるため、アクセント句等の単位で自然音声のアクセント型、モーラ数、品詞の組、係り受け情報、呼気段落の位置等の条件によりクラスタリングされた基本周波数の平均パターン、もしくは代表パターンを韻律パターンとして保持し、前後の文節情報や構文構造を基に韻律パターンを接続する手法が提案されている（例えば、非特許文献２参照。）。

更に、自然発声された音声をデータベースとして韻律生成（韻律制御）を行うものとしては、定型文を用いたもの（例えば、非特許文献３参照。）、類似する文章を用いたもの（例えば、特許文献１参照。）が提案されている。
江藤雅哉ほか、"生成過程モデルと統計的手法による基本周波数パターンの生成"、電子情報通信学会、ＳＰ２００１−１５（２００１−５）．龍嶋岳彦ほか、"代表パターンコードブックを用いた基本周波数制御法"、電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ８５−Ｄ−ＩＩＮｏ．６ｐｐ．９７６−９８６、２００２年６月．片江伸之ほか、"文型−韻律データベースを用いた定型文音声合成システム"、日本音響学会講演論文集ｐｐ２７５−２７６、平成８年３月. 特開平１１−２４９６７７号公報

ところで、上述したような従来技術で用いられる自然発声の韻律データベースには、発話環境や表現方法の違い等により声の高さや話速の様々なバリエーションが蓄積されている。ここで、声の高さとリズムは、同時に変化するものであり、これらを可能な限り再現することが韻律の自然性を向上し、安定した韻律を生成するのに有効であると考えられる。しかしながら、これまでの韻律生成手法では、声の高さとリズムに対応する基本周波数パターンや音素の継続時間長を規則的に別々に求めていた。

また、任意の文章の韻律を生成する場合、韻律データベースに蓄積されている類似した言い回しには限りがあるため、入力される読み上げ文章を分割し、類似する言い回しを検索により抽出して対応する自然発声の韻律パターンを取得していた。そのため、最終的に分割したものから元の１つの韻律パターンを生成する場合には、抽出した各素片を接続する必要がある。しかしながら、異なる環境の韻律パターン同士を接続するため、声の高さや話速が不連続になり、音声の自然さが失われる場合がある。

本発明は、上述した問題点に鑑みなされたものであり、自然性が高く安定した韻律パターンを生成することができる韻律生成装置及び韻律生成プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成装置において、前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段と、前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果と、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースとから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段と、前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合する韻律パターン結合手段とを有し、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする。

請求項１記載の発明によれば、類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合することで、安定した韻律パターンを生成することができる。また、韻律パターンに含まれる基本周波数パターンに基づいて時系列的な類似度を高精度に設定することができる。更に、基本周波数パターンとのそれぞれの最大値と最小値の平均値により調整をすることにより、対象となる類似文節列の平均的な調整が可能となる。これにより、全体として安定させて基本周波数パターンを調整することができる。

請求項２に記載された発明は、前記類似文節抽出手段は、文節列を構成する形態素毎のモーラ数、アクセント型、及び品詞に基づいて、前記類似文節列の類似度を設定することを特徴とする。

請求項２記載の発明によれば、形態素毎のモーラ数、アクセント型、及び品詞に基づいて言語的な類似度を詳細に設定することができる。

請求項３に記載された発明は、前記類似文節抽出手段は、文節列を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて、前記類似文節列の類似度を設定することを特徴とする。

請求項３記載の発明によれば、文節を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて言語的な類似度を詳細に設定することができる。

請求項４に記載された発明は、前記類似文節抽出手段は、子音、母音、長母音、促音、撥音の各音素の単独又は組み合わせに基づいて、前記類似文節列の類似度を設定することを特徴とする。

請求項４記載の発明によれば、各音素の単独又は組み合わせに基づいて類似度を詳細に設定することができる。

請求項５に記載された発明は、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる各音素の継継続時間長と、前記類似文節列の各音素の継続時間長とに基づいて、前記類似文節列の類似度を設定することを特徴とする。

請求項５記載の発明によれば、韻律パターンに含まれる音素の継続時間長を用いて時系列的な類似度を高精度に設定することができる。

請求項６に記載された発明は、前記韻律パターン結合手段は、前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる平均継続時間長に基づいて、前記類似文節列の各音素の平均継続時間長を調整することを特徴とする。

請求項６記載の発明によれば、平均継続時間長に基づいて類似文節の対応する各音素の平均継続時間長を調整することにより、安定した韻律パターンを生成することができる。

請求項７に記載された発明は、前記韻律パターン結合手段は、前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる音素組について、前記音素組の時間長と前記類似文節列の各音素の時間長が伸張もしくは収縮のどちらか一方向に時間長を調整することで一致する場合にのみ、最も変形率が小さい音素の変化率に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする。

請求項７記載の発明によれば、変形率に基づいて類似文節の対応する各音素の平均継続時間長を調整することにより、安定した韻律パターンを生成することができる。

請求項８に記載された発明は、入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成処理をコンピュータに実行させるための韻律生成プログラムにおいて、前記コンピュータを、前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段、前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果と、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースとから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段、及び、前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合する韻律パターン結合手段として機能させ、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする。

請求項８記載の発明によれば、類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合することで、安定した韻律パターンを生成することができる。また、韻律パターンに含まれる基本周波数パターンに基づいて時系列的な類似度を高精度に設定することができる。また、基本周波数パターンとのそれぞれの最大値と最小値の平均値により調整をすることにより、対象となる類似文節列の平均的な調整が可能となる。これにより、全体として安定させて基本周波数パターンを調整することができる。更に、特別な装置構成を必要とせず、低コストで韻律生成を実現することができる。更に、プログラムをインストールすることにより、容易に韻律生成を実現することができる。

本発明によれば、自然性が高く安定した韻律パターンを生成することができる。

＜本発明の概要＞
本発明は、入力される読み上げ文章等を言語解析し、更に予め設定される規則的な生成モデルに基づいて韻律パターンを生成する（以下、規則モデルによる韻律パターンという）。その後、読み上げ文章を文節列に分解し、「文節毎に言語的に類似する文節」であり、「規則モデルによる韻律パターンに類似する韻律パターンで発声された文節」を、予め自然発声した音声と、その音響分析の結果、及びその文章の言語解析結果等が蓄積された韻律データベース等から抽出し、その文節の類似度を設定する。

また、得られた複数の類似文節列から類似度がある基準以上の文節列又は類似度の高い順から所定の数の文節列の韻律パターンを規則モデルによる韻律パターンと置換えて分割した文章を結合することで、文章全体の韻律パターンを生成する。

以下に、本発明の特徴を有する韻律生成装置及び韻律生成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本明細書、図面、及び特許請求の範囲において、「類似」とは「一致（同一）」を含むものとする。

＜機能構成＞
図１は、本発明における韻律生成装置の機能構成の一例を示す図である。図１の韻律生成装置１０は、言語解析手段１１と、規則モデル韻律生成手段１２と、類似文節抽出手段１３と、韻律データベース１４と、韻律パターン結合手段１５とを有するよう構成されている。

韻律パターンを生成する場合、まず言語解析手段１１は、入力される文章としての読み上げられる文章データ（以下、読み上げ文章データという。）を入力し、入力した読み上げ文章データを解析して、読みや品詞、アクセント型等の必要な言語情報を付与する。また、言語解析手段１１は、読み上げ文章データを文節列に分解する。更に、言語解析手段１１は、言語情報を付与した言語解析結果及び分解された文節列を規則モデル韻律生成手段１２及び類似文節抽出手段１３に出力する。

規則モデル韻律生成手段１２は、入力された文節列に基づいて予め設定される生成モデル等を用いて規則的に韻律パターンとしての各音素の継続時間長及び基本周波数パターンを生成する。なお、規則的に韻律パターンを求める手法としては、上述した生成過程モデル（例えば、非特許文献１）や代表パターン（例えば、非特許文献２）等を用いることができる。また、規則モデル韻律生成手段１２は、生成された韻律パターンを類似文節抽出手段１３及び韻律パターン結合手段１５に出力する。

類似文節抽出手段１３は、入力した言語解析結果を言語的に類似し、かつ規則的な韻律パターンに類似する韻律パターンを有する文節列を韻律データベース１４を用いて抽出し類似度（スコア）を設定する。ここで、類似度の設定についての具体的な説明は後述する。また、韻律データベース１４には、自然発声した音声と、その分析結果、韻律パターン等、及びその文章の言語解析結果が予め蓄積されている。

その後、類似文節抽出手段１３は、韻律データベース１４を用いて抽出された文節列から類似度（スコア）がある基準以上の文節列の韻律パターン又は類似度の高い順から所定の数の韻律パターンを候補として韻律パターン結合手段１５に出力する。

韻律パターン結合手段１５は、規則モデルによる韻律パターンと、韻律データベースより取得した類似する文節の韻律パターンを置き換え、基本周波数パターンや継続時間長の合わせ込み等を行うことで適宜調整して全体の韻律パターンを生成する。なお、最終的に類似する文節が存在しない場合、規則的に求めた韻律パターンをそのまま用いる。韻律パターンの結合についての具体的な説明は後述する。

これにより、読み上げられた文章を部分的に接続して韻律パターンを生成する上述した韻律生成装置１０において、安定した韻律パターンを生成することができる。

＜類似度の設定例＞
ここで、上述した類似文節抽出手段１３における類似度の設定について具体的に説明する。文節の類似度は、「言語解析による言語的な類似性」と、「その文節を発声した音声の韻律パターンと規則的に求めた韻律パターンとの類似性」の両方の結果に基づいて設定する。

ここで、文節の類似度の設定例について図を用いて説明する。図２は、文節の類似度の設定を説明するための一例の図である。なお、図２は、読み上げ文章から規則モデル（規則的な生成モデル）により生成された韻律パターンに含まれる基本周波数バターン及び言語解析結果の１つであるアクセント位置と、韻律データベースに蓄積された自然発声の基本周波数バターン、及びアクセント位置とを比較した図である。

比較結果として、例えば図２（ａ）に示すように、両方の韻律パターンが類似すると判断しても言語解析結果が一致いない場合や、図２（ｂ）に示すように、韻律パターンでは類似しないと判断しても、言語解析結果が一致する場合等がある。そこで、「言語的な類似性」と、「その文節を発声した音声の韻律パターンと規則的に求めた韻律パターンとの類似性」の両方を基準にして類似度を設定する。

ここで、類似度の設定例については、例えば以下の（ａ）〜（ｈ）に示すような手法がある。

（ａ）文節を構成する各形態素を子音、母音、促音、撥音の単独又は組み合わせパターンに置き換え、その各パターンと一致するか否かを判断して類似度を設定する。

具体的に説明すると、言語的な類似度の設定では文節を構成する形態素毎にその類似度を調べる。これは、文節全体でモーラ（ひらがな１文字に相当）数が一致する場合でも、「い’ま／では」と「い’がく／は」のように言語的な切れ目でリズムや基本周波数の波形が異なる可能性がある候補を除外するためである。なお、上述の「’」はアクセント位置を表し、［／］は、形態素境界を表している。

また、特殊拍や長母音による２モーラに対し、子音と母音により形成される２モーラのリズム感の違いを反映させるため、モーラ数ではなく子音、母音、両母音、促音、撥音の各音素の組み合わせパターンが類似する形態素を候補として、その形態素の音素、品詞、アクセントの類似度を設定する。このとき、助詞等の付属語の場合は、その使われ方によって韻律に影響を与えるので、類似度の重みを大きくするよう設定してもよい。なお、パターンと一致しない場合は、類似文節の候補から除外する。

（ｂ）各音素の一致する割合を求めて類似度を設定する。具体的には、Ｎ_１を音素数、ｗを重み（自立語、付属語等から設定）とし、δを０〜１（０：不一致の場合、１：音素と一致する場合）とすると、各音素が一致する割合Ｓ_ｐｈは以下に示す式（１）を用いて求めることができる。
Ｓ_ｐｈ＝（１／Ｎ_１）Σｗδ ・・・（１）
また、韻律データベース中の各音素の平均継続時間長が類似する音素の組み合わせ（重複を認める）を求め、同じカテゴリーに含まれる場合は、その類似する距離に応じて０〜１の値を返す。

（ｃ）言語解析結果におけるアクセント型が一致するか否かを判断して類似度を設定する。具体的には、Ｎ_２を形態素数とし、ｗを重み（自立語、付属語等から設定）とし、δが０か１か（１：アクセント型が一致する場合、０：不一致の場合）とすると、アクセント型の類似度Ｓ_ａｃは以下に示す式（２）により求めることができる。
Ｓ_ａｃ＝（１／Ｎ_２）Σｗδ ・・・（２）

（ｄ）各形態素の品詞の並びが一致するか否かを判断することにより類似度を設定する。なお、この類似度は形態素毎に求める。Ｎ_３を形態素数とし、ｗを重み（自立語、付属語等により設定）とし、δを０、１、又は０．５（１：品詞が一致する場合、０：不一致の場合、０．５：サ変動詞の語幹と名詞、接続詞と副詞等の使い方が類似する品詞である場合）とすると、品詞の並びの類似度Ｓ_ｐは以下に示す式（３）により求めることができる。
Ｓ_ｐ＝（１／Ｎ_３）Σｗδ・・・（３）

（ｅ）助詞等の付属語が一致するか否かを判断することにより類似度を設定する。この類似度は、付属語である形態素毎に求める。Ｎ_４を付属語の数とし、δを０か１（１：品詞、打消しや断定等の用例、音素表記が一致する場合。０：不一致の場合）とすると、付属語が一致する類似度Ｓ_ｐｐは以下に示す式（４）により求めることができる。
Ｓ_ｐｐ＝（１／Ｎ_４）Σδ ・・・（４）

（ｆ）規則モデルとの継続時間長の類似性を判断して類似度を設定する。なお、この類似度は音素毎に求める。Ｎ_５を音素の数とし、ｗを重み（自立語、付属語、アクセント核の有無等により設定）とし、ｆ（Ｘ）を０〜１（各音素の時間長の差Ｘにその距離に応じて０〜１を返すスコア関数）とし、Ｘｒｉをｉ番目の読み上げ文章の音素の継続時間長とし、Ｘｔｉをｉ番目の候補音素の継続時間長とすると、規則モデルとの継続時間長の類似性Ｓ_ｄｒは以下に示す式（５）により求めることができる。
Ｓ_ｄｒ＝（１／Ｎ_５）Σｗｆ（Ｘｔｉ−Ｘｒｉ）・・・（５）

（ｇ）規則モデルとの基本周波数の類似性を判断して類似度を設定する。なお、この類似度は母音・長母音に対して求める。Ｎ_６を母音の数とし、ｗを重み（自立語、付属語、アクセント核の有無等により設定）とし、ｆ（Ｘ）を０〜１（各母音の基本周波数の対数軸上の差Ｘにその距離に応じて０〜１を返すスコア関数）とし、Ｘｒｉをｉ番目の読み上げ文章の母音の基本周波数とし、Ｘｔｉをｉ番目の類似文節の母音の基本周波数とすると、規則モデルとの基本周波数の類似性Ｓ_ｆ０は、以下に示す式（６）により求めることができる。
Ｓ_ｆ０＝（１／Ｎ_６）Σｗｆ（Ｘｔｉ−Ｘｒｉ）・・・（６）

（ｈ）上述（ａ）〜（ｇ）で求めた類似度の全スコア又は複数のスコアを重みを付けて加算する。

上述の内容により詳細の設定された類似度から、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節だけを候補とする。なお、類似度に優先度を設けてもよい。例えば、アクセント型のスコアであるＳ_ａｃとＳ_ｆ０とは、どちらかが個々の基準値よりも低い場合、その文節を候補から除外するよう設定することもできる。

＜韻律パターン結合＞
次に、韻律パターン結合の具体的な方法について説明する。ここで、韻律パターンの結合とは、候補となった韻律パターンを規則モデルによる韻律パターンに合わせ込むことにより、滑らかな文章にすることである。以下に合わせ込みの例を示す。

図３は、平均基本周波数を用いた韻律パターン結合を説明するための一例の図である。図３に示すように基本周波数パターンは、類似文節内の各母音の基本周波数の平均値における最大値と最小値との平均が、対応する文節の規則モデルによる韻律パターンの各母音の基本周波数の平均における最大値と最小値との平均に合わせるため、全体を上下方向（図３では下方向）に移動させて調整を行う。

また、図４は、平均継続時間長を用いた韻律パターン結合を説明するための一例の図である。図４に示すように、各母音の継続時間長については、文節内のリズムを壊さないために文節全体を一様に伸縮することで、韻律パターンの結合を行う。

まず、変換する文節の規則モデルによる音素の継続時間長において、文節を構成する自立語の母音（Ｖ）のみ、長母音（Ｖ：）のみ、子音（Ｃ）及び母音、子音及び長母音毎に継続時間長の平均値を算出し、類似文節の対応する音素との差を求める。そして、その差が最小となるように文節全体を一様に伸縮することで合わせ込みを行う。

なお、図４の例では、子音と母音の平均値を基準としているが、本発明においてはこの限りではなく、子音と母音の最も小さい変化率に基づいて文節全体を一様に伸縮する処理を行ってもよい。

具体的には、自立語の母音のみ、長母音のみ、子音と母音、子音と長母音の組み合わせに対して、時間長の比を求める。なお、比はＲｉを時間長の比とし、Ｔｔｉを類似文節のｉ番目の音素組の時間長とし、Ｔｒｉを規則的に求めたｉ番目の音素組の時間長とすると、以下に示す式（７）により求めることができる。
Ｒｉ＝Ｔｒｉ／Ｔｔｉ・・・（７）

次に、全ての組み合わせ対の時間長比が１より大きい場合、最も小さい時間長の比Ｒ_ｍｉｎを変形率Ｒとする。また、全ての組み合わせ対の時間長比が１より小さい場合、最大となる時間長の比Ｒ_ｍａｘを変形率Ｒとする。なお、それ以外の場合は変形を行わないようにしてもよい。また、変形の上限及び下限をある範囲内（例えば２０％）として設定することで、大きな変化がなく全体として安定した変形を行うことができる。最後に、各音素を一律Ｒで伸縮する。このとき、母音だけ伸縮させるようにしてもよい。これにより、素片の合わせ込みを行うことができる。

上述したように、読み上げられた文章を部分的に接続して安定した韻律パターンを生成することができる。

ここで、上述した韻律生成装置１０は、上述した専用の装置構成等を用いて本発明における韻律生成を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、本発明における韻律生成を実現することができる。

＜ハードウェア構成＞
ここで、本発明における韻律パターンの生成が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図５は、本発明における韻律生成が実現可能なハードウェア構成の一例を示す図である。

図５におけるコンピュータ本体には、入力装置２１と、出力装置２２と、ドライブ装置２３と、補助記憶装置２４と、メモリ装置２５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２６と、ネットワーク接続装置２７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置２１は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置２２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ２６が有する制御プログラムにより韻律パターンを生成するためのプログラムの実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体２８等により提供される。プログラムを記録した記録媒体２８は、ドライブ装置２３にセット可能であり、記録媒体２８に含まれる実行プログラムが、記録媒体２８からドライブ装置２３を介して補助記憶装置２４にインストールされる。

補助記憶装置２４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。

ＣＰＵ２６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及びメモリ装置２５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、韻律生成における各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置２４から取得することができ、また格納することもできる。

ネットワーク接続装置２７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで韻律生成を実現することができる。また、プログラムをインストールすることにより、容易に韻律生成を実現することができる。次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。

＜韻律生成処理＞
図６は、本発明における韻律生成プログラムを用いた韻律生成処理手順を示す一例のフローチャートである。

まず、読み上げ文章を入力し（Ｓ０１）、入力した読み上げ文章を言語解析する（Ｓ０２）。次に、言語解析結果を基に規則的モデルにより規則的に韻律パターンを生成し（Ｓ０３）、更に読み上げ文章を文節列に分解する（Ｓ０４）。これにより、少なくとも１つの文節列が存在することになる。

その後、韻律パターンと文節列毎の言語解析結果とに基づいて、韻律データベース等に予め蓄積された韻律パターン及び言語解析結果等から類似する文節列を検索により抽出する（Ｓ０５）。ここで、類似する文節列を抽出する方法としては、上述したように、例えばＳ０２の言語解析により得られた情報から言語的に類似する文節列を抽出する（Ｓ０６）。更に、規則的な韻律パターンに類似する韻律パターンを有する文節列を抽出する（Ｓ０７）。なお、Ｓ０６とＳ０７の各処理における文節列の抽出手順については後述する。

ここで、Ｓ０４にて検索されていない他の文節列があるか否かを判断する（Ｓ０８）。他の文節列がある場合（Ｓ０８において、ＹＥＳ）、Ｓ０５に戻りＳ０４にて分割された他の文節列に類似する文節列を抽出する。また、他の文節列がない場合（Ｓ０８において、ＮＯ）、つまり、Ｓ０４にて全ての文節列について類似する文節列の抽出が終了した場合に上述した手法により類似度の設定を行う（Ｓ０９）。

また、設定された類似度に基づいて、例えば予め設定されるある基準値以上の類似度を有する文節列又は類似度の高い順から所定の数の文節列を韻律パターン候補として出力する（Ｓ１０）。最後に韻律パターンを結合して韻律を生成する（Ｓ１１）。

上述した韻律生成処理により、文章を部分的に接続して安定した韻律パターンを生成することができる。次に、Ｓ０６、Ｓ０７の各処理手順について、フローチャートを用いて説明する。

＜言語的に類似する文節列の抽出（Ｓ０６）＞
図７は、言語的に類似する文節列を抽出する処理手順を示す一例のフローチャートである。まず、分解された文節列の１つを入力し、文節を構成する形態素の子音、短母音、長母音、促音、撥音の組み合わせと音素パターンとの類似度を設定する（Ｓ６１）。次に、文節を構成する形態素の品詞、アクセント型の類似度を設定する（Ｓ６２）。また、文節を構成する助詞等からなる付属語のモーラ数及び品詞、その言語的な意味から判断して類似度を設定する（Ｓ６３）。

なお、上述のＳ６１〜Ｓ６３の処理順序は一例であり、如何なる順序でもよい。また、これらの処理から設定される類似度を加算したり、それぞれの類似度を単独で用いることもできる。

＜規則的な韻律パターンとの類似度（Ｓ０７）＞
次に、規則的な韻律パターンに類似する韻律パターンを有する文節列を抽出する処理手順について説明する。図８は、規則的な韻律パターンとの類似度抽出処理手順を示す一例のフローチャートである。

まず、基本周波数パターンの類似度を設定する（Ｓ７１）。次に、継続時間長の類似度を設定する（Ｓ７２）。なお、上述のＳ７１、Ｓ７２の処理順序は一例であり、逆順序でもよい。また、これらの処理から設定される類似度の和や差を類似度とすることもできる。このように、全ての類似度を計算し、その値がある基準値以上である場合、その文節を候補とし、最終的に最も類似度の高い文節の韻律パターンを出力する。

上述したように、規則モデルによる韻律パターンと、韻律データベースより取得した類似する文節の韻律パターンとを置き換え、基本周波数や継続時間長の合わせ込み等で適宜調整することで全体の韻律パターンを生成して、安定した韻律パターンを生成することができる。

上述したように本発明によれば、自然発声の音声から自然な韻律パターンを部分的に接続して読み上げ文章（テキスト）の韻律パターンを生成する韻律生成手法において、自然性が高く安定した韻律パターンを生成することができる。

具体的には、本発明を適用することで、自然発声による肉声の自然さを残したまま、異なる発声環境の文節を接続することによる声の高さや話速の変化の不連続感がない、安定した韻律パターンを持った合成音声を取得することができる。以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における韻律生成装置の機能構成の一例を示す図である。文節の類似度の設定例を説明するための一例の図である。平均基本周波数を用いた韻律パターン結合を説明するための一例の図である。平均継続時間長を用いた韻律パターン結合を説明するための一例の図である。本発明における韻律生成が実現可能なハードウェア構成の一例を示す図である。本発明における韻律生成プログラムを用いた韻律生成処理手順を示す一例のフローチャートである。言語的に類似する文節列を抽出する処理手順を示す一例のフローチャートである。規則的な韻律パターンとの類似度抽出処理手順を示す一例のフローチャートである。

符号の説明

１０韻律生成装置
１１言語解析手段
１２規則モデル韻律生成手段
１３類似文節抽出手段
１４韻律データベース
１５韻律パターン結合手段
２１入力装置
２２出力装置
２３ドライブ装置
２４補助記憶装置
２５メモリ装置
２６ＣＰＵ
２７ネットワーク接続装置
２８記録媒体

Claims

入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成装置において、
前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段と、
前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果と、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースとから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段と、
前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合する韻律パターン結合手段とを有し、
前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、
前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする韻律生成装置。
前記類似文節抽出手段は、
文節列を構成する形態素毎のモーラ数、アクセント型、及び品詞に基づいて、前記類似文節列の類似度を設定することを特徴とする請求項１に記載の韻律生成装置。
前記類似文節抽出手段は、
文節列を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて、前記類似文節列の類似度を設定することを特徴とする請求項１又は２に記載の韻律生成装置。
前記類似文節抽出手段は、
子音、母音、長母音、促音、撥音の各音素の単独又は組み合わせに基づいて、前記類似文節列の類似度を設定することを特徴とする請求項１乃至３の何れか１項に記載の韻律生成装置。
前記類似文節抽出手段は、
前記規則モデル韻律生成手段により得られる韻律パターンに含まれる各音素の継継続時間長と、前記類似文節列の各音素の継続時間長とに基づいて、前記類似文節列の類似度を設定することを特徴とする請求項１乃至４の何れか１項に記載の韻律生成装置。
前記韻律パターン結合手段は、
前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる平均継続時間長に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする請求項１乃至５の何れか１項に記載の韻律生成装置。
前記韻律パターン結合手段は、
前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる音素組について、前記音素組の時間長と前記類似文節列の各音素の時間長が伸張もしくは収縮のどちらか一方向に時間長を調整することで一致する場合にのみ、最も変形率が小さい音素の変化率に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする請求項１乃至６の何れか１項に記載の韻律生成装置。
入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成処理をコンピュータに実行させるための韻律生成プログラムにおいて、
前記コンピュータを、
前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段、
前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果と、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースとから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段、及び、
前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターンと結合する韻律パターン結合手段として機能させ、
前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、
前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする韻律生成プログラム。