JP4542400B2 - 韻律生成装置及び韻律生成プログラム - Google Patents

韻律生成装置及び韻律生成プログラム Download PDF

Info

Publication number
JP4542400B2
JP4542400B2 JP2004268199A JP2004268199A JP4542400B2 JP 4542400 B2 JP4542400 B2 JP 4542400B2 JP 2004268199 A JP2004268199 A JP 2004268199A JP 2004268199 A JP2004268199 A JP 2004268199A JP 4542400 B2 JP4542400 B2 JP 4542400B2
Authority
JP
Japan
Prior art keywords
prosody
pattern
similarity
prosodic
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004268199A
Other languages
English (en)
Other versions
JP2006084666A (ja
Inventor
訓史 大出
篤 今井
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004268199A priority Critical patent/JP4542400B2/ja
Publication of JP2006084666A publication Critical patent/JP2006084666A/ja
Application granted granted Critical
Publication of JP4542400B2 publication Critical patent/JP4542400B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、韻律生成装置及び韻律生成プログラムに係り、特に自然性が高く安定した韻律パターンを生成するための韻律生成装置及び韻律生成プログラムに関する。
従来、音声合成技術を用いた音律生成において、入力されたテキスト文章に対して、読みやアクセント情報を有する形態素辞書との照合を行い、基本周波数パターンや音素の継続時間長等の韻律パラメータを所定のモデルを用いて規則的に求める手法が提案されている(例えば、非特許文献1参照。)。
また、自然性を高めるため、アクセント句等の単位で自然音声のアクセント型、モーラ数、品詞の組、係り受け情報、呼気段落の位置等の条件によりクラスタリングされた基本周波数の平均パターン、もしくは代表パターンを韻律パターンとして保持し、前後の文節情報や構文構造を基に韻律パターンを接続する手法が提案されている(例えば、非特許文献2参照。)。
更に、自然発声された音声をデータベースとして韻律生成(韻律制御)を行うものとしては、定型文を用いたもの(例えば、非特許文献3参照。)、類似する文章を用いたもの(例えば、特許文献1参照。)が提案されている。
江藤雅哉ほか、"生成過程モデルと統計的手法による基本周波数パターンの生成"、電子情報通信学会、SP2001−15(2001−5). 龍嶋岳彦ほか、"代表パターンコードブックを用いた基本周波数制御法"、電子情報通信学会論文誌 D−II Vol.J85−D−II No.6 pp.976−986、2002年6月. 片江伸之ほか、"文型−韻律データベースを用いた定型文音声合成システム"、日本音響学会講演論文集 pp275−276、平成8年3月. 特開平11−249677号公報
ところで、上述したような従来技術で用いられる自然発声の韻律データベースには、発話環境や表現方法の違い等により声の高さや話速の様々なバリエーションが蓄積されている。ここで、声の高さとリズムは、同時に変化するものであり、これらを可能な限り再現することが韻律の自然性を向上し、安定した韻律を生成するのに有効であると考えられる。しかしながら、これまでの韻律生成手法では、声の高さとリズムに対応する基本周波数パターンや音素の継続時間長を規則的に別々に求めていた。
また、任意の文章の韻律を生成する場合、韻律データベースに蓄積されている類似した言い回しには限りがあるため、入力される読み上げ文章を分割し、類似する言い回しを検索により抽出して対応する自然発声の韻律パターンを取得していた。そのため、最終的に分割したものから元の1つの韻律パターンを生成する場合には、抽出した各素片を接続する必要がある。しかしながら、異なる環境の韻律パターン同士を接続するため、声の高さや話速が不連続になり、音声の自然さが失われる場合がある。
本発明は、上述した問題点に鑑みなされたものであり、自然性が高く安定した韻律パターンを生成することができる韻律生成装置及び韻律生成プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成装置において、前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段と、前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段と、前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合する韻律パターン結合手段とを有し、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする。
請求項1記載の発明によれば、類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合することで、安定した韻律パターンを生成することができる。また、韻律パターンに含まれる基本周波数パターンに基づいて時系列的な類似度を高精度に設定することができる。更に、基本周波数パターンとのそれぞれの最大値と最小値の平均値により調整をすることにより、対象となる類似文節列の平均的な調整が可能となる。これにより、全体として安定させて基本周波数パターンを調整することができる。
請求項2に記載された発明は、前記類似文節抽出手段は、文節列を構成する形態素毎のモーラ数、アクセント型、及び品詞に基づいて、前記類似文節列の類似度を設定することを特徴とする。
請求項2記載の発明によれば、形態素毎のモーラ数、アクセント型、及び品詞に基づいて言語的な類似度を詳細に設定することができる。
請求項3に記載された発明は、前記類似文節抽出手段は、文節列を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて、前記類似文節列の類似度を設定することを特徴とする。
請求項3記載の発明によれば、文節を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて言語的な類似度を詳細に設定することができる。
請求項4に記載された発明は、前記類似文節抽出手段は、子音、母音、長母音、促音、撥音の各音素の単独又は組み合わせに基づいて、前記類似文節列の類似度を設定することを特徴とする。
請求項4記載の発明によれば、各音素の単独又は組み合わせに基づいて類似度を詳細に設定することができる。
請求項に記載された発明は、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる各音素の継継続時間長と、前記類似文節列の各音素の継続時間長とに基づいて、前記類似文節列の類似度を設定することを特徴とする。
請求項記載の発明によれば、韻律パターンに含まれる音素の継続時間長を用いて時系列的な類似度を高精度に設定することができる。
請求項に記載された発明は、前記韻律パターン結合手段は、前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる平均継続時間長に基づいて、前記類似文節列の各音素の平均継続時間長を調整することを特徴とする。
請求項記載の発明によれば、平均継続時間長に基づいて類似文節の対応する各音素の平均継続時間長を調整することにより、安定した韻律パターンを生成することができる。
請求項に記載された発明は、前記韻律パターン結合手段は、前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる音素組について、前記音素組の時間長と前記類似文節列の各音素の時間長が伸張もしくは収縮のどちらか一方向に時間長を調整することで一致する場合にのみ、最も変形率が小さい音素の変化率に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする。
請求項記載の発明によれば、変形率に基づいて類似文節の対応する各音素の平均継続時間長を調整することにより、安定した韻律パターンを生成することができる。
請求項に記載された発明は、入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成処理をコンピュータに実行させるための韻律生成プログラムにおいて、前記コンピュータを、前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段、前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段、及び、前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合する韻律パターン結合手段として機能させ、前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする。
請求項記載の発明によれば、類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合することで、安定した韻律パターンを生成することができる。また、韻律パターンに含まれる基本周波数パターンに基づいて時系列的な類似度を高精度に設定することができる。また、基本周波数パターンとのそれぞれの最大値と最小値の平均値により調整をすることにより、対象となる類似文節列の平均的な調整が可能となる。これにより、全体として安定させて基本周波数パターンを調整することができる。更に、特別な装置構成を必要とせず、低コストで韻律生成を実現することができる。更に、プログラムをインストールすることにより、容易に韻律生成を実現することができる。
本発明によれば、自然性が高く安定した韻律パターンを生成することができる。
<本発明の概要>
本発明は、入力される読み上げ文章等を言語解析し、更に予め設定される規則的な生成モデルに基づいて韻律パターンを生成する(以下、規則モデルによる韻律パターンという)。その後、読み上げ文章を文節列に分解し、「文節毎に言語的に類似する文節」であり、「規則モデルによる韻律パターンに類似する韻律パターンで発声された文節」を、予め自然発声した音声と、その音響分析の結果、及びその文章の言語解析結果等が蓄積された韻律データベース等から抽出し、その文節の類似度を設定する。
また、得られた複数の類似文節列から類似度がある基準以上の文節列又は類似度の高い順から所定の数の文節列の韻律パターンを規則モデルによる韻律パターンと置換えて分割した文章を結合することで、文章全体の韻律パターンを生成する。
以下に、本発明の特徴を有する韻律生成装置及び韻律生成プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本明細書、図面、及び特許請求の範囲において、「類似」とは「一致(同一)」を含むものとする。
<機能構成>
図1は、本発明における韻律生成装置の機能構成の一例を示す図である。図1の韻律生成装置10は、言語解析手段11と、規則モデル韻律生成手段12と、類似文節抽出手段13と、韻律データベース14と、韻律パターン結合手段15とを有するよう構成されている。
韻律パターンを生成する場合、まず言語解析手段11は、入力される文章としての読み上げられる文章データ(以下、読み上げ文章データという。)を入力し、入力した読み上げ文章データを解析して、読みや品詞、アクセント型等の必要な言語情報を付与する。また、言語解析手段11は、読み上げ文章データを文節列に分解する。更に、言語解析手段11は、言語情報を付与した言語解析結果及び分解された文節列を規則モデル韻律生成手段12及び類似文節抽出手段13に出力する。
規則モデル韻律生成手段12は、入力された文節列に基づいて予め設定される生成モデル等を用いて規則的に韻律パターンとしての各音素の継続時間長及び基本周波数パターンを生成する。なお、規則的に韻律パターンを求める手法としては、上述した生成過程モデル(例えば、非特許文献1)や代表パターン(例えば、非特許文献2)等を用いることができる。また、規則モデル韻律生成手段12は、生成された韻律パターンを類似文節抽出手段13及び韻律パターン結合手段15に出力する。
類似文節抽出手段13は、入力した言語解析結果を言語的に類似し、かつ規則的な韻律パターンに類似する韻律パターンを有する文節列を韻律データベース14を用いて抽出し類似度(スコア)を設定する。ここで、類似度の設定についての具体的な説明は後述する。また、韻律データベース14には、自然発声した音声と、その分析結果、韻律パターン等、及びその文章の言語解析結果が予め蓄積されている。
その後、類似文節抽出手段13は、韻律データベース14を用いて抽出された文節列から類似度(スコア)がある基準以上の文節列の韻律パターン又は類似度の高い順から所定の数の韻律パターンを候補として韻律パターン結合手段15に出力する。
韻律パターン結合手段15は、規則モデルによる韻律パターンと、韻律データベースより取得した類似する文節の韻律パターンを置き換え、基本周波数パターンや継続時間長の合わせ込み等を行うことで適宜調整して全体の韻律パターンを生成する。なお、最終的に類似する文節が存在しない場合、規則的に求めた韻律パターンをそのまま用いる。韻律パターンの結合についての具体的な説明は後述する。
これにより、読み上げられた文章を部分的に接続して韻律パターンを生成する上述した韻律生成装置10において、安定した韻律パターンを生成することができる。
<類似度の設定例>
ここで、上述した類似文節抽出手段13における類似度の設定について具体的に説明する。文節の類似度は、「言語解析による言語的な類似性」と、「その文節を発声した音声の韻律パターンと規則的に求めた韻律パターンとの類似性」の両方の結果に基づいて設定する。
ここで、文節の類似度の設定例について図を用いて説明する。図2は、文節の類似度の設定を説明するための一例の図である。なお、図2は、読み上げ文章から規則モデル(規則的な生成モデル)により生成された韻律パターンに含まれる基本周波数バターン及び言語解析結果の1つであるアクセント位置と、韻律データベースに蓄積された自然発声の基本周波数バターン、及びアクセント位置とを比較した図である。
比較結果として、例えば図2(a)に示すように、両方の韻律パターンが類似すると判断しても言語解析結果が一致いない場合や、図2(b)に示すように、韻律パターンでは類似しないと判断しても、言語解析結果が一致する場合等がある。そこで、「言語的な類似性」と、「その文節を発声した音声の韻律パターンと規則的に求めた韻律パターンとの類似性」の両方を基準にして類似度を設定する。
ここで、類似度の設定例については、例えば以下の(a)〜(h)に示すような手法がある。
(a)文節を構成する各形態素を子音、母音、促音、撥音の単独又は組み合わせパターンに置き換え、その各パターンと一致するか否かを判断して類似度を設定する。
具体的に説明すると、言語的な類似度の設定では文節を構成する形態素毎にその類似度を調べる。これは、文節全体でモーラ(ひらがな1文字に相当)数が一致する場合でも、「い’ま/では」と「い’がく/は」のように言語的な切れ目でリズムや基本周波数の波形が異なる可能性がある候補を除外するためである。なお、上述の「’」はアクセント位置を表し、[/]は、形態素境界を表している。
また、特殊拍や長母音による2モーラに対し、子音と母音により形成される2モーラのリズム感の違いを反映させるため、モーラ数ではなく子音、母音、両母音、促音、撥音の各音素の組み合わせパターンが類似する形態素を候補として、その形態素の音素、品詞、アクセントの類似度を設定する。このとき、助詞等の付属語の場合は、その使われ方によって韻律に影響を与えるので、類似度の重みを大きくするよう設定してもよい。なお、パターンと一致しない場合は、類似文節の候補から除外する。
(b)各音素の一致する割合を求めて類似度を設定する。具体的には、Nを音素数、wを重み(自立語、付属語等から設定)とし、δを0〜1(0:不一致の場合、1:音素と一致する場合)とすると、各音素が一致する割合Sphは以下に示す式(1)を用いて求めることができる。
ph=(1/N)Σwδ ・・・(1)
また、韻律データベース中の各音素の平均継続時間長が類似する音素の組み合わせ(重複を認める)を求め、同じカテゴリーに含まれる場合は、その類似する距離に応じて0〜1の値を返す。
(c)言語解析結果におけるアクセント型が一致するか否かを判断して類似度を設定する。具体的には、Nを形態素数とし、wを重み(自立語、付属語等から設定)とし、δが0か1か(1:アクセント型が一致する場合、0:不一致の場合)とすると、アクセント型の類似度Sacは以下に示す式(2)により求めることができる。
ac=(1/N)Σwδ ・・・(2)
(d)各形態素の品詞の並びが一致するか否かを判断することにより類似度を設定する。なお、この類似度は形態素毎に求める。Nを形態素数とし、wを重み(自立語、付属語等により設定)とし、δを0、1、又は0.5(1:品詞が一致する場合、0:不一致の場合、0.5:サ変動詞の語幹と名詞、接続詞と副詞等の使い方が類似する品詞である場合)とすると、品詞の並びの類似度Sは以下に示す式(3)により求めることができる。
=(1/N)Σwδ・・・(3)
(e)助詞等の付属語が一致するか否かを判断することにより類似度を設定する。この類似度は、付属語である形態素毎に求める。Nを付属語の数とし、δを0か1(1:品詞、打消しや断定等の用例、音素表記が一致する場合。0:不一致の場合)とすると、付属語が一致する類似度Sppは以下に示す式(4)により求めることができる。
pp=(1/N)Σδ ・・・(4)
(f)規則モデルとの継続時間長の類似性を判断して類似度を設定する。なお、この類似度は音素毎に求める。Nを音素の数とし、wを重み(自立語、付属語、アクセント核の有無等により設定)とし、f(X)を0〜1(各音素の時間長の差Xにその距離に応じて0〜1を返すスコア関数)とし、Xriをi番目の読み上げ文章の音素の継続時間長とし、Xtiをi番目の候補音素の継続時間長とすると、規則モデルとの継続時間長の類似性Sdrは以下に示す式(5)により求めることができる。
dr=(1/N)Σwf(Xti−Xri) ・・・(5)
(g)規則モデルとの基本周波数の類似性を判断して類似度を設定する。なお、この類似度は母音・長母音に対して求める。Nを母音の数とし、wを重み(自立語、付属語、アクセント核の有無等により設定)とし、f(X)を0〜1(各母音の基本周波数の対数軸上の差Xにその距離に応じて0〜1を返すスコア関数)とし、Xriをi番目の読み上げ文章の母音の基本周波数とし、Xtiをi番目の類似文節の母音の基本周波数とすると、規則モデルとの基本周波数の類似性Sf0は、以下に示す式(6)により求めることができる。
f0=(1/N)Σwf(Xti−Xri) ・・・(6)
(h)上述(a)〜(g)で求めた類似度の全スコア又は複数のスコアを重みを付けて加算する。
上述の内容により詳細の設定された類似度から、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節だけを候補とする。なお、類似度に優先度を設けてもよい。例えば、アクセント型のスコアであるSacとSf0とは、どちらかが個々の基準値よりも低い場合、その文節を候補から除外するよう設定することもできる。
<韻律パターン結合>
次に、韻律パターン結合の具体的な方法について説明する。ここで、韻律パターンの結合とは、候補となった韻律パターンを規則モデルによる韻律パターンに合わせ込むことにより、滑らかな文章にすることである。以下に合わせ込みの例を示す。
図3は、平均基本周波数を用いた韻律パターン結合を説明するための一例の図である。図3に示すように基本周波数パターンは、類似文節内の各母音の基本周波数の平均値における最大値と最小値との平均が、対応する文節の規則モデルによる韻律パターンの各母音の基本周波数の平均における最大値と最小値との平均に合わせるため、全体を上下方向(図3では下方向)に移動させて調整を行う。
また、図4は、平均継続時間長を用いた韻律パターン結合を説明するための一例の図である。図4に示すように、各母音の継続時間長については、文節内のリズムを壊さないために文節全体を一様に伸縮することで、韻律パターンの結合を行う。
まず、変換する文節の規則モデルによる音素の継続時間長において、文節を構成する自立語の母音(V)のみ、長母音(V:)のみ、子音(C)及び母音、子音及び長母音毎に継続時間長の平均値を算出し、類似文節の対応する音素との差を求める。そして、その差が最小となるように文節全体を一様に伸縮することで合わせ込みを行う。
なお、図4の例では、子音と母音の平均値を基準としているが、本発明においてはこの限りではなく、子音と母音の最も小さい変化率に基づいて文節全体を一様に伸縮する処理を行ってもよい。
具体的には、自立語の母音のみ、長母音のみ、子音と母音、子音と長母音の組み合わせに対して、時間長の比を求める。なお、比はRiを時間長の比とし、Ttiを類似文節のi番目の音素組の時間長とし、Triを規則的に求めたi番目の音素組の時間長とすると、以下に示す式(7)により求めることができる。
Ri=Tri/Tti ・・・(7)
次に、全ての組み合わせ対の時間長比が1より大きい場合、最も小さい時間長の比Rminを変形率Rとする。また、全ての組み合わせ対の時間長比が1より小さい場合、最大となる時間長の比Rmaxを変形率Rとする。なお、それ以外の場合は変形を行わないようにしてもよい。また、変形の上限及び下限をある範囲内(例えば20%)として設定することで、大きな変化がなく全体として安定した変形を行うことができる。最後に、各音素を一律Rで伸縮する。このとき、母音だけ伸縮させるようにしてもよい。これにより、素片の合わせ込みを行うことができる。
上述したように、読み上げられた文章を部分的に接続して安定した韻律パターンを生成することができる。
ここで、上述した韻律生成装置10は、上述した専用の装置構成等を用いて本発明における韻律生成を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、本発明における韻律生成を実現することができる。
<ハードウェア構成>
ここで、本発明における韻律パターンの生成が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における韻律生成が実現可能なハードウェア構成の一例を示す図である。
図5におけるコンピュータ本体には、入力装置21と、出力装置22と、ドライブ装置23と、補助記憶装置24と、メモリ装置25と、各種制御を行うCPU(Central Processing Unit)26と、ネットワーク接続装置27とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置21は、ユーザが操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザからのプログラムの実行等、各種操作信号を入力する。出力装置22は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、CPU26が有する制御プログラムにより韻律パターンを生成するためのプログラムの実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体28等により提供される。プログラムを記録した記録媒体28は、ドライブ装置23にセット可能であり、記録媒体28に含まれる実行プログラムが、記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。
補助記憶装置24は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。
CPU26は、OS(Operating System)等の制御プログラム、及びメモリ装置25により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、韻律生成における各処理を実現することができる。プログラムの実行中に必要な各種情報等は、補助記憶装置24から取得することができ、また格納することもできる。
ネットワーク接続装置27は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで韻律生成を実現することができる。また、プログラムをインストールすることにより、容易に韻律生成を実現することができる。次に、実行プログラムにおける処理手順についてフローチャートを用いて説明する。
<韻律生成処理>
図6は、本発明における韻律生成プログラムを用いた韻律生成処理手順を示す一例のフローチャートである。
まず、読み上げ文章を入力し(S01)、入力した読み上げ文章を言語解析する(S02)。次に、言語解析結果を基に規則的モデルにより規則的に韻律パターンを生成し(S03)、更に読み上げ文章を文節列に分解する(S04)。これにより、少なくとも1つの文節列が存在することになる。
その後、韻律パターンと文節列毎の言語解析結果とに基づいて、韻律データベース等に予め蓄積された韻律パターン及び言語解析結果等から類似する文節列を検索により抽出する(S05)。ここで、類似する文節列を抽出する方法としては、上述したように、例えばS02の言語解析により得られた情報から言語的に類似する文節列を抽出する(S06)。更に、規則的な韻律パターンに類似する韻律パターンを有する文節列を抽出する(S07)。なお、S06とS07の各処理における文節列の抽出手順については後述する。
ここで、S04にて検索されていない他の文節列があるか否かを判断する(S08)。他の文節列がある場合(S08において、YES)、S05に戻りS04にて分割された他の文節列に類似する文節列を抽出する。また、他の文節列がない場合(S08において、NO)、つまり、S04にて全ての文節列について類似する文節列の抽出が終了した場合に上述した手法により類似度の設定を行う(S09)。
また、設定された類似度に基づいて、例えば予め設定されるある基準値以上の類似度を有する文節列又は類似度の高い順から所定の数の文節列を韻律パターン候補として出力する(S10)。最後に韻律パターンを結合して韻律を生成する(S11)。
上述した韻律生成処理により、文章を部分的に接続して安定した韻律パターンを生成することができる。次に、S06、S07の各処理手順について、フローチャートを用いて説明する。
<言語的に類似する文節列の抽出(S06)>
図7は、言語的に類似する文節列を抽出する処理手順を示す一例のフローチャートである。まず、分解された文節列の1つを入力し、文節を構成する形態素の子音、短母音、長母音、促音、撥音の組み合わせと音素パターンとの類似度を設定する(S61)。次に、文節を構成する形態素の品詞、アクセント型の類似度を設定する(S62)。また、文節を構成する助詞等からなる付属語のモーラ数及び品詞、その言語的な意味から判断して類似度を設定する(S63)。
なお、上述のS61〜S63の処理順序は一例であり、如何なる順序でもよい。また、これらの処理から設定される類似度を加算したり、それぞれの類似度を単独で用いることもできる。
<規則的な韻律パターンとの類似度(S07)>
次に、規則的な韻律パターンに類似する韻律パターンを有する文節列を抽出する処理手順について説明する。図8は、規則的な韻律パターンとの類似度抽出処理手順を示す一例のフローチャートである。
まず、基本周波数パターンの類似度を設定する(S71)。次に、継続時間長の類似度を設定する(S72)。なお、上述のS71、S72の処理順序は一例であり、逆順序でもよい。また、これらの処理から設定される類似度の和や差を類似度とすることもできる。このように、全ての類似度を計算し、その値がある基準値以上である場合、その文節を候補とし、最終的に最も類似度の高い文節の韻律パターンを出力する。
上述したように、規則モデルによる韻律パターンと、韻律データベースより取得した類似する文節の韻律パターンとを置き換え、基本周波数や継続時間長の合わせ込み等で適宜調整することで全体の韻律パターンを生成して、安定した韻律パターンを生成することができる。
上述したように本発明によれば、自然発声の音声から自然な韻律パターンを部分的に接続して読み上げ文章(テキスト)の韻律パターンを生成する韻律生成手法において、自然性が高く安定した韻律パターンを生成することができる。
具体的には、本発明を適用することで、自然発声による肉声の自然さを残したまま、異なる発声環境の文節を接続することによる声の高さや話速の変化の不連続感がない、安定した韻律パターンを持った合成音声を取得することができる。 以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における韻律生成装置の機能構成の一例を示す図である。 文節の類似度の設定例を説明するための一例の図である。 平均基本周波数を用いた韻律パターン結合を説明するための一例の図である。 平均継続時間長を用いた韻律パターン結合を説明するための一例の図である。 本発明における韻律生成が実現可能なハードウェア構成の一例を示す図である。 本発明における韻律生成プログラムを用いた韻律生成処理手順を示す一例のフローチャートである。 言語的に類似する文節列を抽出する処理手順を示す一例のフローチャートである。 規則的な韻律パターンとの類似度抽出処理手順を示す一例のフローチャートである。
符号の説明
10 韻律生成装置
11 言語解析手段
12 規則モデル韻律生成手段
13 類似文節抽出手段
14 韻律データベース
15 韻律パターン結合手段
21 入力装置
22 出力装置
23 ドライブ装置
24 補助記憶装置
25 メモリ装置
26 CPU
27 ネットワーク接続装置
28 記録媒体

Claims (8)

  1. 入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成装置において、
    前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段と、
    前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段と、
    前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合する韻律パターン結合手段とを有し、
    前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、
    前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする韻律生成装置。
  2. 前記類似文節抽出手段は、
    文節列を構成する形態素毎のモーラ数、アクセント型、及び品詞に基づいて、前記類似文節列の類似度を設定することを特徴とする請求項1に記載の韻律生成装置。
  3. 前記類似文節抽出手段は、
    文節列を構成する付属語のモーラ数及び品詞、その言語的な意味に基づいて、前記類似文節列の類似度を設定することを特徴とする請求項1又は2に記載の韻律生成装置。
  4. 前記類似文節抽出手段は、
    子音、母音、長母音、促音、撥音の各音素の単独又は組み合わせに基づいて、前記類似文節列の類似度を設定することを特徴とする請求項1乃至3の何れか1項に記載の韻律生成装置。
  5. 前記類似文節抽出手段は、
    前記規則モデル韻律生成手段により得られる韻律パターンに含まれる各音素の継継続時間長と、前記類似文節列の各音素の継続時間長とに基づいて、前記類似文節列の類似度を設定することを特徴とする請求項1乃至の何れか1項に記載の韻律生成装置。
  6. 前記韻律パターン結合手段は、
    前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる平均継続時間長に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする請求項1乃至の何れか1項に記載の韻律生成装置。
  7. 前記韻律パターン結合手段は、
    前記入力された文章を言語解析して得られる文節列における各文節の自立語の母音、長母音、子音と母音、及び子音と長母音毎に得られる音素組について、前記音素組の時間長と前記類似文節列の各音素の時間長が伸張もしくは収縮のどちらか一方向に時間長を調整することで一致する場合にのみ、最も変形率が小さい音素の変化率に基づいて、前記類似文節列の各音素の継続時間長を調整することを特徴とする請求項1乃至の何れか1項に記載の韻律生成装置。
  8. 入力された文章を言語解析して得られる言語解析結果及び文節列から韻律を生成する韻律生成処理をコンピュータに実行させるための韻律生成プログラムにおいて、
    前記コンピュータを、
    前記文節列から規則的な韻律パターンを生成する規則モデル韻律生成手段、
    前記規則モデル韻律生成手段により得られる韻律パターン及び前記言語解析結果、自然発声の韻律パターン及びその言語解析結果が予め蓄積されているデータベースから、前記言語解析結果による言語的な類似性、及び、前記規則的な韻律パターンと前記自然発声の韻律パターンとの類似性に基づいて、ある基準値以上の類似度を有する文節又は類似度の高い順から所定の数の文節を類似文節列の候補として抽出し、抽出された類似文節列の類似度を設定する類似文節抽出手段、及び、
    前記類似文節抽出手段により得られる類似文節列の候補に対応付けられた韻律パターンを、前記規則モデル韻律生成手段により得られる韻律パターンに基づいて調整し、調整された韻律パターンを時間軸上に連なる前後の文節列の韻律パターン結合する韻律パターン結合手段として機能させ、
    前記類似文節抽出手段は、前記規則モデル韻律生成手段により得られる韻律パターンに含まれる基本周波数パターンと、前記類似文節列の韻律パターン情報に含まれる基本周波数パターンとに基づいて、前記類似文節列の類似度を設定し、
    前記韻律パターン結合手段は、前記規則モデル韻律生成手段からの前記基本周波数パターンと、前記類似文節列からの前記基本周波数パターンとのそれぞれの最大値と最小値の平均値に基づいて、前記類似文節列の基本周波数パターンを調整することを特徴とする韻律生成プログラム。
JP2004268199A 2004-09-15 2004-09-15 韻律生成装置及び韻律生成プログラム Expired - Fee Related JP4542400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004268199A JP4542400B2 (ja) 2004-09-15 2004-09-15 韻律生成装置及び韻律生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004268199A JP4542400B2 (ja) 2004-09-15 2004-09-15 韻律生成装置及び韻律生成プログラム

Publications (2)

Publication Number Publication Date
JP2006084666A JP2006084666A (ja) 2006-03-30
JP4542400B2 true JP4542400B2 (ja) 2010-09-15

Family

ID=36163249

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004268199A Expired - Fee Related JP4542400B2 (ja) 2004-09-15 2004-09-15 韻律生成装置及び韻律生成プログラム

Country Status (1)

Country Link
JP (1) JP4542400B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5012444B2 (ja) * 2007-11-14 2012-08-29 富士通株式会社 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP5393546B2 (ja) * 2010-03-15 2014-01-22 三菱電機株式会社 韻律作成装置及び韻律作成方法
JP5328703B2 (ja) * 2010-03-23 2013-10-30 三菱電機株式会社 韻律パターン生成装置
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
CN115994532A (zh) * 2023-03-22 2023-04-21 暗链科技(深圳)有限公司 语料分类方法、非易失性可读存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056788A (ja) * 1998-08-03 2000-02-25 Hitachi Ltd 音声合成装置の韻律制御方法
JP2000284799A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 音声信号伝送装置および音声信号伝送方法
JP2001166787A (ja) * 1999-12-03 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成装置および自然言語処理方法
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
JP2003271171A (ja) * 2002-03-14 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法、音声合成装置および音声合成プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056788A (ja) * 1998-08-03 2000-02-25 Hitachi Ltd 音声合成装置の韻律制御方法
JP2000284799A (ja) * 1999-03-31 2000-10-13 Toshiba Corp 音声信号伝送装置および音声信号伝送方法
JP2001166787A (ja) * 1999-12-03 2001-06-22 Matsushita Electric Ind Co Ltd 音声合成装置および自然言語処理方法
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
JP2003271171A (ja) * 2002-03-14 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法、音声合成装置および音声合成プログラム

Also Published As

Publication number Publication date
JP2006084666A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
Yamagishi et al. Robust speaker-adaptive HMM-based text-to-speech synthesis
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
Kayte et al. Hidden Markov model based speech synthesis: A review
JP2001282279A (ja) 音声情報処理方法及び装置及び記憶媒体
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
Nakamura et al. HMM-based singing voice synthesis and its application to Japanese and English
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4542400B2 (ja) 韻律生成装置及び韻律生成プログラム
Pietquin et al. Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning.
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Jeerapradit et al. HMM-based Thai singing voice synthesis system
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Cheng et al. HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets
Yong et al. Low footprint high intelligibility Malay speech synthesizer based on statistical data
JP4575798B2 (ja) 音声合成装置及び音声合成プログラム
Sherpa et al. Pioneering Dzongkha text-to-speech synthesis
JP2000056788A (ja) 音声合成装置の韻律制御方法
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140702

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees