JP5393546B2

JP5393546B2 - 韻律作成装置及び韻律作成方法

Info

Publication number: JP5393546B2
Application number: JP2010057661A
Authority: JP
Inventors: 貴弘大塚; 訓古田; 正山浦; 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-03-15
Filing date: 2010-03-15
Publication date: 2014-01-22
Anticipated expiration: 2030-03-15
Also published as: JP2011191528A

Description

この発明は、コンピュータに入力された文章から合成音声を作成する場合等において、その合成音声の韻律情報を作成する韻律作成装置及び韻律作成方法に関するものである。

任意の文章から機械的に音声波形を作成するテキスト音声合成システムが開発されている。一般に、テキスト音声合成システムは、言語処理部、韻律生成部及び音声波形生成部から構成される。韻律生成部は、当該システムで音声波形を作成するにあたり、音声の抑揚、リズム、音量（パワー）の自然性に関わる処理を実施する。
自然な抑揚を生成するために、自然音声から抽出した大量のピッチパターンをそのまま利用する方法が提案されている（例えば、特許文献１参照）。この方法では、韻律データベースに自然音声から抽出したピッチパターンを格納しておき、入力したテキストに対応する言語情報によって最適なピッチパターンを韻律データベースから１つ選択してピッチパターンを生成する。
一方、特許文献２には、音声合成対象となるテキストの韻律制御単位毎に当該テキストを解析して得られる言語情報に基づいて、自然音声から抽出した大量のピッチパターンを蓄えた韻律データベースから複数のピッチパターンを選択し、これらから新たなピッチパターンを生成する方法が開示されている。

特開２００２−２９７１７５号公報特開２００６−３０９１６２号公報

従来の技術は、入力したテキストと同一の言語情報になったピッチパターンが複数ある場合に、適切なピッチパターンを選択することができず、不自然な抑揚になるという問題がある。例えば、人間が発した音声を分析してピッチパターンを作成する場合、収録時期又は話者の状態によって、同一の言語情報であっても、音声の特徴が揺らいで、声の高さが異なるピッチパターンが選択候補になり得る。この場合には、言語情報に基づいて適切なピッチパターンの選択をうまく行えない。

また、入力したテキストの言語情報と韻律データベース中の言語情報の距離に基づいてピッチパターンを選択するにあたり、入力したテキストの言語情報と類似した言語情報がない場合、言語情報間の距離は、韻律の聴取印象をうまく表現できず、期待しないピッチパターンが選択されて不自然な抑揚になるという問題もある。

この発明は、上記のような課題を解決するためになされたもので、安定して自然な韻律になる韻律情報を作成する韻律作成装置及び韻律作成方法を得ることを目的とする。

この発明に係る韻律作成装置は、入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成部と、複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部と、代表韻律情報作成部が作成した代表韻律情報と詳細韻律情報記憶部が記憶した詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、当該代表韻律情報に類似した詳細韻律情報を詳細韻律情報記憶部から選択する詳細韻律情報選択部と、代表韻律情報と詳細韻律情報選択部が選択した詳細韻律情報との韻律特徴のパターンを類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成部とを備えるものである。

この発明によれば、複数の韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶する詳細韻律情報記憶部から、入力された言語情報を基に作成された代表韻律情報と詳細韻律情報とを参照して、当該代表韻律情報に類似した詳細韻律情報を選択する。
このように、代表韻律情報に類似した詳細韻律情報を選択することから、同一言語情報となるパターンが複数ある場合であっても、代表韻律情報が示す韻律特徴パターンから大きくはずれた詳細韻律情報が選ばれにくくなり、安定な（音声合成する音素、単語、文にわたって不連続感がない）韻律が得られるという効果がある。

この発明の実施の形態１による韻律作成装置の構成を示すブロック図である。詳細韻律情報記憶部の記憶内容の一例を示す図である。入力言語情報の一例を示す図である。図３中の入力言語情報から作成された代表韻律情報を示す図である。出力韻律情報の一例を示す図である。代表韻律情報と詳細韻律情報とを所定の加重割合で加重平均して出力韻律情報を作成する処理を説明する図である。

実施の形態１．
図１は、この発明の実施の形態１による韻律作成装置の構成を示すブロック図である。図１において、実施の形態１における韻律作成装置は、代表韻律情報作成部１、詳細韻律情報記憶部２、詳細韻律情報選択部３及び混合韻律情報作成部４を備える。代表韻律情報作成部１は、実施の形態１における韻律作成装置への入力言語情報１０１を入力する構成部であり、入力言語情報１０１を参照して代表韻律情報１０２を作成する。詳細韻律情報記憶部２は、複数の詳細韻律情報１０３を記憶する記憶部である。

詳細韻律情報選択部３は、詳細韻律情報１０３を選択する構成部であり、代表韻律情報１０２を参照して詳細韻律情報記憶部２から代表韻律情報１０２に類似した詳細韻律情報１０３を選択し、詳細韻律情報１０４として出力する。混合韻律情報作成部４は、代表韻律情報１０２と詳細韻律情報１０４が混合された韻律情報を作成する構成部であり、代表韻律情報１０２と詳細韻律情報１０４との韻律特徴のパターンの類似度を求め、時系列に求められた類似度に応じて、代表韻律情報１０２又は詳細韻律情報１０４のいずれかを、時系列に出力すべき出力韻律情報１０５とする。

詳細韻律情報記憶部２には、詳細韻律情報１０３として、複数の音情報及びこれにそれぞれ対応する韻律特徴のパターンが記憶される。ここで、韻律特徴のパターンとは、例えば、人間が発した音声の韻律特徴であるピッチ（声の高さ）をピッチ分析して、１モーラあたり４つのピッチを時間順に並べたものである。
図２は、詳細韻律情報記憶部の記憶内容の一例を示す図であり、２回の発声「中止します」と１回の発声「売り出される」との音情報２０１及びピッチパターン２０２を示している。発声「中止します」の音情報２０１は、「ちゅうしします」であり、パターン２０２は、２４点（６モーラ×４）のピッチを時間順に並べたものである。図２に示すように同じ言語情報であっても、人の発声は完全に同一にならないため、ピッチパターン２０３とピッチパターン２０４との形状が異なる。

代表韻律情報作成部１、詳細韻律情報選択部３及び混合韻律情報作成部４は、この発明の趣旨に従った韻律作成プログラムをコンピュータに実行させることで、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータで実現することができる。
また、詳細韻律情報記憶部２は、上記コンピュータが搭載する記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

次に動作について説明する。
実施の形態１における韻律作成装置の動作原理を詳細に述べる。なお、韻律作成装置の構成は、図１を参照する。
先ず、入力言語情報１０１は、音情報、アクセント情報、位置情報などからなる。音情報、アクセント情報、位置情報は、従来の既知の形態素解析技術を用いて漢字仮名交じり文を解析することで得られる。
図３は、入力言語情報の一例を示す図であり、漢字仮名交じり文「地図を表示します」を形態素解析して得られた言語情報を示している。図３において、「地図を」の音情報３０１は「ちずを」であり、これのアクセント型３０２は「１型」であり、位置情報３０３は「１番目」である。また「表示します」の音情報３０１は「ひょおじします」であり、アクセント型３０２は「５型」、位置情報３０３は「２番目」である。

代表韻律情報作成部１では、入力言語情報１０１から代表韻律情報１０２を作成する。代表韻律情報１０２とは、韻律特徴（ピッチやパワーやリズム）のパターンである。
例えば、ピッチパターンは、一般によく知られた点ピッチモデルを使って作成することができる。点ピッチパターンは、参考文献１の第１６８−１６９頁に開示されている。
（参考文献１）田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、“岩波講座言語の科学２音声”、岩波書店発行

点ピッチモデルは、文章全体ではピッチが下降していく傾向になるので、この基本傾斜パターンを直線で、その上に付加されるアクセント成分を台形で表現し、各モーラ（ほぼ音節の単位に相当する。）の中心点のピッチを決め、この中心点のピッチの間を補間してピッチパターンを得る。

図４は、図３中の入力言語情報から作成された代表韻律情報を示す図である。図４において、横軸は時間（Ｔｉｍｅ）で、縦軸が声の高さ（ピッチ）である。また、横軸に沿って音情報４０１を示しており、点ピッチモデルにおける基本傾斜パターン４０２を、破線で示している。黒丸のプロットがモーラの中心点のピッチ４０３であり、ピッチ４０３の間を補間することにより、ピッチパターン４０４が得られる。
図３に示す代表韻律情報１０２では、例えば、基本傾斜パターン４０２の始点と終点を位置情報３０３の最大値（図３の場合は“２”（番目））によって決定し、音情報４０１の音の数（「ちずを」の場合は“３”）とアクセント情報（「ちずを」の場合は１型）によってアクセント成分（台形部分の形）を決定する。

詳細韻律情報選択部３は、上述のようにして得られた代表韻律情報１０２と詳細韻律情報記憶部２に記憶されるパターン（詳細韻律情報１０３）を比較し、代表韻律情報１０２に類似したパターンを選択して、これを詳細韻律情報１０４とする。
例えば、代表韻律情報１０２と詳細韻律情報記憶部２に記憶されるパターンとの２者間の類似度を計算し、類似度が大きい詳細韻律情報１０３を、詳細韻律情報１０４とする。
なお、類似度は、入力言語情報１０１、代表韻律情報１０２、詳細韻律情報１０３及びこれに対応する言語情報を参照することにより、例えば、下記式（１）で得られる距離ｄを用いて算出できる。
下記式（１）において、ｉは時刻を示し、ｗ（ｉ）は時刻ｉごとの加重を示している。また、Ｆ０ｔ（ｉ）は、代表韻律情報１０２の時刻ｉのピッチを示し、Ｆ０ｓ（ｉ）は、詳細韻律情報１０３のピッチパターンの時刻ｉのピッチを示している。

上記式（１）において、加重ｗ（ｉ）は、入力言語情報１０１の時刻ｉに対応する音情報と、詳細韻律情報記憶部２に記憶される詳細韻律情報１０３の時刻ｉに対応する音情報（言語情報）とが同じであれば小さい値（０以上１未満）とし、異なれば大きい値とする（１以上）。すなわち、音情報が似ている場合は、距離ｄが小さくなる（類似度が大きくなる）ように計算して選ばれやすくする。逆に、音情報が似ていない場合は、距離ｄが大きくなる（類似度が小さくなる）ように計算して選ばれにくくする。

混合韻律情報作成部４は、代表韻律情報作成部１で作成された代表韻律情報１０２と、詳細韻律情報選択部３に選択された詳細韻律情報１０４とを参照し、出力韻律情報１０５を作成する。具体的には、代表韻律情報１０２と詳細韻律情報１０４の類似度を計算し、この類似度に応じて代表韻律情報１０２又は詳細韻律情報１０４のいずれかを出力韻律情報１０５とする。
なお、類似度は、例えば、上記式（１）で得られる距離ｄを用いて算出できる。
この場合、上記式（１）において、Ｆ０ｓ（ｉ）は詳細韻律情報選択部３に選択された詳細韻律情報１０４のピッチパターンの時刻ｉのピッチとなる。

この場合においても、加重ｗ（ｉ）は、入力言語情報１０１の時刻ｉに対応する音情報と詳細韻律情報１０４の時刻ｉに対応する音情報とが同じであれば、小さい値（０以上１未満）とし、異なれば、大きい値とする（１以上）。すなわち、音情報が同じ場合は、距離ｄを小さくし、逆に、音情報が異なる場合は、距離ｄを大きくする。
距離ｄが一定値以上の区間であれば、代表韻律情報１０２を出力韻律情報１０５とし、距離ｄが一定値未満の区間では、詳細韻律情報１０４を出力韻律情報１０５とする。

図５は、出力韻律情報の一例を示す図である。図５において、音情報「ちずを」に対応する距離ｄが一定値以上（類似度が小さい）であった場合、出力韻律情報１０５の音情報「ちずを」に対応する部分は、代表韻律情報１０２（図４の「ちずを」に対応するピッチパターン）となる。また、出力韻律情報１０５の音情報「ひょうじします」に対応する部分は距離ｄが一定値未満（類似度が大きい）であり、詳細韻律情報１０４が出力される。
なお、図５は、詳細韻律情報１０４がピッチパターン４０４であるときの出力韻律情報１０５を示している。
このように、混合韻律情報作成部４によって、代表韻律情報１０２と詳細韻律情報１０４との類似度に応じて、代表韻律情報１０２と詳細韻律情報１０４が混合された混合韻律情報が、出力韻律情報１０５として出力される。

上述の説明では、漢字仮名交じり文を解析して、入力言語情報１０１を得る場合を述べたが、これに代えて、入力言語情報１０１を人手で作成してもよい。
また、入力言語情報１０１を、音情報、アクセント情報、位置情報等として、代表韻律情報１０２を作成する場合を示したが、これに限定されるものではない。
例えば、音情報だけから代表韻律情報１０２を作成してもよい。すなわち、音情報の音の合計数から基本傾斜パターンの始点と終点を決定し、各音情報の音の数からアクセント成分（アクセント型によらない平均的な台形形状となる）を決定してもよい。

また、代表韻律情報１０２の例としてピッチパターンとしたが、これに代えて、声の大きさを表すパワーパターンや、一音一音の長さを表すリズムパターンとしてもよい。
特に、代表韻律情報１０２がピッチパターンである場合、これを点ピッチモデルで作成することを示したが、これに代えて、モーラごとピッチを人手で与え、これらを補間してピッチパターンを作成してもよい。
さらに、統計的な学習方法（数量化Ｉ類モデルや回帰木モデル）を使って言語情報から推定した特徴量（ピッチ、パワー、一音の長さ）をモーラ毎に設定し、これらを補間して得たパターンを代表韻律情報１０２としてもよい。

上述の説明では、詳細韻律情報記憶部２にてパターンに対応する音情報を記憶する場合を示したが、音情報はなくてもよい。すなわち、詳細韻律情報記憶部２は、韻律特徴のパターン（ピッチパターン、パワーパターン、リズムパターン）だけを記憶してもよい。
また、詳細韻律情報記憶部２に記憶されるパターンが、１モーラあたり４つの特徴量としたが、もっと多くても少なくてもよい。１モーラあたりの個数を一定個数にせず、音の長さなどによって可変な個数としてもよい。

上述では、パターンの長さとして、文節程度の長さを用いて説明したが、もっと長くても（例えば、句や文の長さでも）よいし、逆に、もっと短くても（例えば、音素や形態素の長さ）よい。

また、入力言語情報１０１として、日本語（とモーラ）を用いて説明したが、他言語、例えば、英語や中国語でも適用可能である。モーラを持たない言語に関しては、モーラに準ずる単位あるいは音節単位で制御すればよい。

さらに、詳細韻律情報記憶部２に記憶するピッチパターン（詳細韻律情報１０３）を、人間から発せられた音声をピッチ分析して得る場合を述べたが、人間が発した音声をピッチ分析して得られたピッチを参照して、人手でピッチパターンを作成して詳細韻律情報記憶部２に記憶するようにしてもよい。

上述の説明では、詳細韻律情報選択部３が、代表韻律情報１０２と詳細韻律情報１０３との２者間の類似度を、上記式（１）で表される重みつきのユークリッド距離で計算する場合を示したが、これに代えて、なんらかの公知な距離尺度を用いてもよい。
例えば、下記式（２）で得られるｐ次平均ノルムの距離や下記式（３）で得られる最大ノルムの距離を用いて計算してもよい。
ｐ次平均ノルム（例えば、ｐ＝１，３，４など）

最大ノルム

また、類似度として、代表韻律情報１０２と詳細韻律情報１０３との相関係数を計算してもよく、相関係数が最大となる詳細韻律情報１０３を選択結果（詳細韻律情報１０４）としてもよい。

上述の説明では、混合韻律情報作成部４が、代表韻律情報１０２と詳細韻律情報１０４との２者間の類似度を、上記式（１）で表される重みつきのユークリッド距離で計算する場合を示したが、これに代えて、なんらかの公知な距離尺度を用いてもよい。
例えば、上記式（２）で得られるｐ次平均ノルムの距離や上記式（３）で得られる最大ノルムの距離を用いて計算してもよい。

また、類似度として、代表韻律情報１０２と詳細韻律情報１０４との相関係数を計算して、この相関係数が最大となる詳細韻律情報１０４を選択結果（出力韻律情報１０５）としてもよい。

上述の説明では、詳細韻律情報選択部３によって加重ｗ（ｉ）を可変値としたが、詳細韻律情報記憶部２に音情報がない場合は一定値（例えば１）とすればよい。

また、詳細韻律情報選択部３によって、加重ｗ（ｉ）を音情報の相違に応じて可変値としたが、位置情報の相違に応じて可変値としてもよい。この場合、位置情報が同じであれば、加重ｗ（ｉ）（全ての時刻ｉについて）を小さな値（０以上１未満）とし、位置情報が異なれば、加重ｗ（ｉ）（全ての時刻ｉについて）を大きな値（１以上）とする。
さらに、音情報の相違と位置情報との相違を同時に加味して加重ｗ（ｉ）を設定してもよい。

これまでの説明では、詳細韻律情報選択部３が、代表韻律情報１０２と詳細韻律情報記憶部２に記憶したパターン（詳細韻律情報１０３）との２者間の類似度を計算して、類似度が小さいものを詳細韻律情報１０４としたが、これに限定されるものではない。
例えば、２者間の類似度が一定値以下となる複数の詳細韻律情報１０３から代表値（最頻値、中央値、平均値）を求め、これを詳細韻律情報１０４としてもよい。

また、混合韻律情報作成部４が、代表韻律情報１０２と詳細韻律情報１０４との距離を計算し、この類似度によって代表韻律情報１０２又は詳細韻律情報１０４のいずれかを、出力韻律情報１０５としたが、これに限定されるものではない。
例えば、入力言語情報１０１と詳細韻律情報１０４との音情報の相違によって加重割合を設定し、この加重割合で代表韻律情報１０２と詳細韻律情報１０４を加重平均したものを、出力韻律情報１０５としてもよい。
図６は、代表韻律情報と詳細韻律情報とを所定の加重割合で加重平均して出力韻律情報を作成する処理を説明する図である。図６において、代表韻律情報６０１と詳細韻律情報６０２とを加重割合６０３で加重平均することで、出力韻律情報６０４が作成される。
図６の加重割合６０３は、前半の時刻の区間で代表韻律情報６０１への割合が大きく、後半の時刻の区間では詳細韻律情報６０２への割合が大きくなるよう設定されている。
音情報「ひょうじします」と「ちゅうしします」の一音一音を比較すると、前半は相違があり、後半の「します」の部分は一音一音が同じである。
このように、詳細韻律情報６０２の後半のパターンへの加重割合を大きく設定することで、出力韻律情報６０４のパターンの後半では、詳細韻律情報６０２のパターンを再現することができる。

以上のように、この実施の形態１によれば、複数の韻律特徴のパターンをそれぞれ示す詳細韻律情報１０３を予め記憶する詳細韻律情報記憶部２から、入力言語情報１０１を基に作成された代表韻律情報１０２と詳細韻律情報１０３とを参照して、当該代表韻律情報１０２に類似した詳細韻律情報１０３を選択する。
このように構成することで、代表韻律情報１０２が示す韻律特徴のパターンに類似した詳細韻律情報１０３を、出力韻律情報１０５を構成する詳細韻律情報１０４として選択することから、同一言語情報のパターンが複数ある場合であっても、代表韻律情報１０２の韻律特徴パターンから大きくはずれた詳細韻律情報１０４が選ばれにくくなる。このため、安定な（音声合成する音素、単語、文にわたって不連続感がない）韻律が得られる。
また、出力韻律情報１０５が、人間の発した音声を分析して得た韻律特徴のパターンである詳細韻律情報となるので、人間の発した音声の韻律特徴に近い韻律のパターンを生成することができ、その結果、自然な韻律が得られる。
例えば、人間が発した音声を分析して詳細韻律情報記憶部２に記憶するパターン（詳細韻律情報１０３）を作成する場合、収録時期や話者の状態によって音声特徴が揺らいで、音声特徴の異なる（ピッチの場合、例えば高さが異なる）詳細韻律情報が選択候補になったとしても、代表韻律情報１０２を参照して選択することで、代表韻律情報１０２が示す韻律特徴のパターンから大きくはずれた詳細韻律情報１０３が選ばれにくくなり、安定な韻律が得られるという効果がある。

さらに、類似した言語情報がなく、言語情報間の距離がうまく定義できない場合でも、代表韻律情報１０２に基づいて、大きくはずれた詳細韻律情報が選ばれにくく、かつ、出力韻律情報１０５が、人間の発した音声を分析して得たパターン（詳細韻律情報）となるので、安定で自然な韻律が得られるという効果がある。

また、この実施の形態１によれば、詳細韻律情報記憶部２が、詳細韻律情報１０３及びこれに対応する言語情報を記憶し、詳細韻律情報選択部３が、入力言語情報１０１、代表韻律情報１０２、詳細韻律情報１０３及びこれに対応する言語情報を参照して、代表韻律情報１０２と詳細韻律情報１０３との類似度を算出するにあたり、入力言語情報１０１と当該詳細韻律情報１０３に対応する言語情報とが一致するときは一致しないときよりも類似度が大きくなるように算出する。
このように入力言語情報１０１を加味して類似度を計算することにより、入力言語情報１０１に類似し、かつ代表韻律情報１０２に類似した詳細韻律情報１０４が選択されるようになり、入力言語情報１０１に依存する特有の韻律特徴（音素に起因するパターンの変化や、文頭・文中・文末のパターンの形状の違い等）を含んだ韻律情報を得られやすくなり、安定で自然な韻律情報が得られるという効果がある。

さらに、この実施の形態１によれば、代表韻律情報１０２と詳細韻律情報１０４との韻律特徴のパターンを、両者が類似しない区間は代表韻律情報１０２の韻律特徴のパターンとなり、両者が類似する区間では詳細韻律情報１０４の韻律特徴のパターンとなるように混合した混合韻律情報を、出力韻律情報１０５として作成する混合韻律情報作成部４を備えたので、選択された詳細韻律情報１０４と代表韻律情報１０２とが類似しない場合に、代表韻律情報１０２を出力韻律情報１０５とすることによって、代表韻律情報１０２の韻律特徴のパターンから大きく外れた詳細韻律情報１０４が選ばれなくなり、安定な韻律情報が得られるという効果がある。

なお、実施の形態１において、２つ以上の詳細韻律情報１０４を連結したものを出力韻律情報１０５とする場合であって、選択された一方の詳細韻律情報１０４と代表韻律情報１０２とが類似しておらず、この区間における出力韻律情報１０５を代表韻律情報１０２とするとき、他方の詳細韻律情報１０４は、代表韻律情報１０２に類似する（距離が近い）ものとして選択される。
このため、代表韻律情報１０２と詳細韻律情報１０４との接続の連続性が高くなり、安定な韻律情報が得られる効果がある。言い換えれば、詳細韻律情報１０４と代表韻律情報１０２を連結して得られる出力韻律情報１０５は、連続性の高い韻律情報となり、安定な韻律情報が得られる。

また、上記実施の形態１によれば、代表韻律情報１０２と詳細韻律情報１０４との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力韻律情報１０５として作成する混合韻律情報作成部４を備える。
この構成を有することによって、代表韻律情報１０２の韻律特徴のパターンから大きく外れた詳細韻律情報１０４の選択が抑制されて、かつ、出力韻律情報１０５が人間の発した音声を分析して得たパターン（詳細韻律情報）に近くなるので、安定で自然な韻律情報が得られる効果がある。
特に、詳細韻律情報記憶部２に記憶されているパターンが少ない場合では、大きく外れた詳細韻律情報が選ばれる場合がある。この場合、代表韻律情報と詳細韻律情報とを加重平均して出力韻律情報を得ることで、大きく外れた詳細韻律情報の選択が抑制され、安定な韻律情報が得られる。

さらに、上記実施の形態１によれば、入力言語情報１０１と詳細韻律情報１０４との音情報の相違によって加重割合を設定して、この加重割合で代表韻律情報１０２と詳細韻律情報１０４とを加重平均して作成した混合韻律情報を、出力韻律情報１０５として出力する。このようにすることで、音情報に類似する韻律情報が、出力韻律情報１０５に反映されるようになり、自然な韻律情報が得られるという効果がある。

１代表韻律情報作成部、２詳細韻律情報記憶部、３詳細韻律情報選択部、４混合韻律情報作成部、１０１入力言語情報、１０２，６０１代表韻律情報、１０３，１０４，６０２詳細韻律情報、１０５，６０４出力韻律情報、２０１，３０１，４０１音情報、２０２パターン、２０３，２０４，４０４ピッチパターン、３０２アクセント型、３０３位置情報、４０２基本傾斜パターン、４０３ピッチ、６０３加重割合。

Claims

入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成部と、
複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部と、
前記代表韻律情報作成部が作成した代表韻律情報と前記詳細韻律情報記憶部が記憶した詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を前記詳細韻律情報記憶部から選択する詳細韻律情報選択部と、
前記代表韻律情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成部
とを備えた韻律作成装置。
前記混合韻律情報作成部は、前記代表韻律情報と前記詳細韻律情報選択部が選択した詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項１記載の韻律作成装置。
前記混合韻律情報作成部は、前記代表韻律情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項１記載の韻律作成装置。
前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
前記混合韻律情報作成部は、前記入力したテキストの言語情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定する
ことを特徴とする請求項３記載の韻律作成装置。
前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
前記詳細韻律情報選択部は、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出することを特徴とする請求項１記載の韻律作成装置。
韻律作成装置によって韻律情報を作成する韻律作成方法において、
入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成ステップと、
複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部から、前記代表韻律情報作成ステップで作成された代表韻律情報と前記詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を選択する詳細韻律情報選択ステップと、
前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成ステップ
とを備えたことを特徴とする韻律作成方法。
前記混合韻律情報作成ステップにおいて、前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項６記載の韻律作成方法。
前記混合韻律情報作成ステップにおいて、前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項６記載の韻律作成方法。
前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
前記混合韻律情報作成ステップにおいて、前記入力したテキストの言語情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定することを特徴とする請求項８記載の韻律作成方法。
前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
前記詳細韻律情報選択ステップにおいて、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出する
ことを特徴とする請求項６記載の韻律作成方法。