JP5393546B2 - 韻律作成装置及び韻律作成方法 - Google Patents

韻律作成装置及び韻律作成方法 Download PDF

Info

Publication number
JP5393546B2
JP5393546B2 JP2010057661A JP2010057661A JP5393546B2 JP 5393546 B2 JP5393546 B2 JP 5393546B2 JP 2010057661 A JP2010057661 A JP 2010057661A JP 2010057661 A JP2010057661 A JP 2010057661A JP 5393546 B2 JP5393546 B2 JP 5393546B2
Authority
JP
Japan
Prior art keywords
information
prosodic
detailed
prosodic information
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010057661A
Other languages
English (en)
Other versions
JP2011191528A (ja
Inventor
貴弘 大塚
訓 古田
正 山浦
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010057661A priority Critical patent/JP5393546B2/ja
Publication of JP2011191528A publication Critical patent/JP2011191528A/ja
Application granted granted Critical
Publication of JP5393546B2 publication Critical patent/JP5393546B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、コンピュータに入力された文章から合成音声を作成する場合等において、その合成音声の韻律情報を作成する韻律作成装置及び韻律作成方法に関するものである。
任意の文章から機械的に音声波形を作成するテキスト音声合成システムが開発されている。一般に、テキスト音声合成システムは、言語処理部、韻律生成部及び音声波形生成部から構成される。韻律生成部は、当該システムで音声波形を作成するにあたり、音声の抑揚、リズム、音量(パワー)の自然性に関わる処理を実施する。
自然な抑揚を生成するために、自然音声から抽出した大量のピッチパターンをそのまま利用する方法が提案されている(例えば、特許文献1参照)。この方法では、韻律データベースに自然音声から抽出したピッチパターンを格納しておき、入力したテキストに対応する言語情報によって最適なピッチパターンを韻律データベースから1つ選択してピッチパターンを生成する。
一方、特許文献2には、音声合成対象となるテキストの韻律制御単位毎に当該テキストを解析して得られる言語情報に基づいて、自然音声から抽出した大量のピッチパターンを蓄えた韻律データベースから複数のピッチパターンを選択し、これらから新たなピッチパターンを生成する方法が開示されている。
特開2002−297175号公報 特開2006−309162号公報
従来の技術は、入力したテキストと同一の言語情報になったピッチパターンが複数ある場合に、適切なピッチパターンを選択することができず、不自然な抑揚になるという問題がある。例えば、人間が発した音声を分析してピッチパターンを作成する場合、収録時期又は話者の状態によって、同一の言語情報であっても、音声の特徴が揺らいで、声の高さが異なるピッチパターンが選択候補になり得る。この場合には、言語情報に基づいて適切なピッチパターンの選択をうまく行えない。
また、入力したテキストの言語情報と韻律データベース中の言語情報の距離に基づいてピッチパターンを選択するにあたり、入力したテキストの言語情報と類似した言語情報がない場合、言語情報間の距離は、韻律の聴取印象をうまく表現できず、期待しないピッチパターンが選択されて不自然な抑揚になるという問題もある。
この発明は、上記のような課題を解決するためになされたもので、安定して自然な韻律になる韻律情報を作成する韻律作成装置及び韻律作成方法を得ることを目的とする。
この発明に係る韻律作成装置は、入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成部と、複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部と、代表韻律情報作成部作成した代表韻律情報と詳細韻律情報記憶部記憶した詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、当該代表韻律情報に類似した詳細韻律情報を詳細韻律情報記憶部から選択する詳細韻律情報選択部と、代表韻律情報と詳細韻律情報選択部が選択した詳細韻律情報との韻律特徴のパターンを類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成部とを備えるものである。
この発明によれば、複数の韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶する詳細韻律情報記憶部から、入力された言語情報を基に作成された代表韻律情報と詳細韻律情報とを参照して、当該代表韻律情報に類似した詳細韻律情報を選択する。
このように、代表韻律情報に類似した詳細韻律情報を選択することから、同一言語情報となるパターンが複数ある場合であっても、代表韻律情報が示す韻律特徴パターンから大きくはずれた詳細韻律情報が選ばれにくくなり、安定な(音声合成する音素、単語、文にわたって不連続感がない)韻律が得られるという効果がある。
この発明の実施の形態1による韻律作成装置の構成を示すブロック図である。 詳細韻律情報記憶部の記憶内容の一例を示す図である。 入力言語情報の一例を示す図である。 図3中の入力言語情報から作成された代表韻律情報を示す図である。 出力韻律情報の一例を示す図である。 代表韻律情報と詳細韻律情報とを所定の加重割合で加重平均して出力韻律情報を作成する処理を説明する図である。
実施の形態1.
図1は、この発明の実施の形態1による韻律作成装置の構成を示すブロック図である。図1において、実施の形態1における韻律作成装置は、代表韻律情報作成部1、詳細韻律情報記憶部2、詳細韻律情報選択部3及び混合韻律情報作成部4を備える。代表韻律情報作成部1は、実施の形態1における韻律作成装置への入力言語情報101を入力する構成部であり、入力言語情報101を参照して代表韻律情報102を作成する。詳細韻律情報記憶部2は、複数の詳細韻律情報103を記憶する記憶部である。
詳細韻律情報選択部3は、詳細韻律情報103を選択する構成部であり、代表韻律情報102を参照して詳細韻律情報記憶部2から代表韻律情報102に類似した詳細韻律情報103を選択し、詳細韻律情報104として出力する。混合韻律情報作成部4は、代表韻律情報102と詳細韻律情報104が混合された韻律情報を作成する構成部であり、代表韻律情報102と詳細韻律情報104との韻律特徴のパターンの類似度を求め、時系列に求められた類似度に応じて、代表韻律情報102又は詳細韻律情報104のいずれかを、時系列に出力すべき出力韻律情報105とする。
詳細韻律情報記憶部2には、詳細韻律情報103として、複数の音情報及びこれにそれぞれ対応する韻律特徴のパターンが記憶される。ここで、韻律特徴のパターンとは、例えば、人間が発した音声の韻律特徴であるピッチ(声の高さ)をピッチ分析して、1モーラあたり4つのピッチを時間順に並べたものである。
図2は、詳細韻律情報記憶部の記憶内容の一例を示す図であり、2回の発声「中止します」と1回の発声「売り出される」との音情報201及びピッチパターン202を示している。発声「中止します」の音情報201は、「ちゅうしします」であり、パターン202は、24点(6モーラ×4)のピッチを時間順に並べたものである。図2に示すように同じ言語情報であっても、人の発声は完全に同一にならないため、ピッチパターン203とピッチパターン204との形状が異なる。
代表韻律情報作成部1、詳細韻律情報選択部3及び混合韻律情報作成部4は、この発明の趣旨に従った韻律作成プログラムをコンピュータに実行させることで、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータで実現することができる。
また、詳細韻律情報記憶部2は、上記コンピュータが搭載する記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
次に動作について説明する。
実施の形態1における韻律作成装置の動作原理を詳細に述べる。なお、韻律作成装置の構成は、図1を参照する。
先ず、入力言語情報101は、音情報、アクセント情報、位置情報などからなる。音情報、アクセント情報、位置情報は、従来の既知の形態素解析技術を用いて漢字仮名交じり文を解析することで得られる。
図3は、入力言語情報の一例を示す図であり、漢字仮名交じり文「地図を表示します」を形態素解析して得られた言語情報を示している。図3において、「地図を」の音情報301は「ちずを」であり、これのアクセント型302は「1型」であり、位置情報303は「1番目」である。また「表示します」の音情報301は「ひょおじします」であり、アクセント型302は「5型」、位置情報303は「2番目」である。
代表韻律情報作成部1では、入力言語情報101から代表韻律情報102を作成する。代表韻律情報102とは、韻律特徴(ピッチやパワーやリズム)のパターンである。
例えば、ピッチパターンは、一般によく知られた点ピッチモデルを使って作成することができる。点ピッチパターンは、参考文献1の第168−169頁に開示されている。
(参考文献1) 田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、“岩波講座 言語の科学2 音声”、岩波書店発行
点ピッチモデルは、文章全体ではピッチが下降していく傾向になるので、この基本傾斜パターンを直線で、その上に付加されるアクセント成分を台形で表現し、各モーラ(ほぼ音節の単位に相当する。)の中心点のピッチを決め、この中心点のピッチの間を補間してピッチパターンを得る。
図4は、図3中の入力言語情報から作成された代表韻律情報を示す図である。図4において、横軸は時間(Time)で、縦軸が声の高さ(ピッチ)である。また、横軸に沿って音情報401を示しており、点ピッチモデルにおける基本傾斜パターン402を、破線で示している。黒丸のプロットがモーラの中心点のピッチ403であり、ピッチ403の間を補間することにより、ピッチパターン404が得られる。
図3に示す代表韻律情報102では、例えば、基本傾斜パターン402の始点と終点を位置情報303の最大値(図3の場合は“2”(番目))によって決定し、音情報401の音の数(「ちずを」の場合は“3”)とアクセント情報(「ちずを」の場合は1型)によってアクセント成分(台形部分の形)を決定する。
詳細韻律情報選択部3は、上述のようにして得られた代表韻律情報102と詳細韻律情報記憶部2に記憶されるパターン(詳細韻律情報103)を比較し、代表韻律情報102に類似したパターンを選択して、これを詳細韻律情報104とする。
例えば、代表韻律情報102と詳細韻律情報記憶部2に記憶されるパターンとの2者間の類似度を計算し、類似度が大きい詳細韻律情報103を、詳細韻律情報104とする。
なお、類似度は、入力言語情報101、代表韻律情報102、詳細韻律情報103及びこれに対応する言語情報を参照することにより、例えば、下記式(1)で得られる距離dを用いて算出できる。
下記式(1)において、iは時刻を示し、w(i)は時刻iごとの加重を示している。また、F0t(i)は、代表韻律情報102の時刻iのピッチを示し、F0s(i)は、詳細韻律情報103のピッチパターンの時刻iのピッチを示している。
Figure 0005393546
上記式(1)において、加重w(i)は、入力言語情報101の時刻iに対応する音情報と、詳細韻律情報記憶部2に記憶される詳細韻律情報103の時刻iに対応する音情報(言語情報)とが同じであれば小さい値(0以上1未満)とし、異なれば大きい値とする(1以上)。すなわち、音情報が似ている場合は、距離dが小さくなる(類似度が大きくなる)ように計算して選ばれやすくする。逆に、音情報が似ていない場合は、距離dが大きくなる(類似度が小さくなる)ように計算して選ばれにくくする。
混合韻律情報作成部4は、代表韻律情報作成部1で作成された代表韻律情報102と、詳細韻律情報選択部3に選択された詳細韻律情報104とを参照し、出力韻律情報105を作成する。具体的には、代表韻律情報102と詳細韻律情報104の類似度を計算し、この類似度に応じて代表韻律情報102又は詳細韻律情報104のいずれかを出力韻律情報105とする。
なお、類似度は、例えば、上記式(1)で得られる距離dを用いて算出できる。
この場合、上記式(1)において、F0s(i)は詳細韻律情報選択部3に選択された詳細韻律情報104のピッチパターンの時刻iのピッチとなる。
この場合においても、加重w(i)は、入力言語情報101の時刻iに対応する音情報と詳細韻律情報104の時刻iに対応する音情報とが同じであれば、小さい値(0以上1未満)とし、異なれば、大きい値とする(1以上)。すなわち、音情報が同じ場合は、距離dを小さくし、逆に、音情報が異なる場合は、距離dを大きくする。
距離dが一定値以上の区間であれば、代表韻律情報102を出力韻律情報105とし、距離dが一定値未満の区間では、詳細韻律情報104を出力韻律情報105とする。
図5は、出力韻律情報の一例を示す図である。図5において、音情報「ちずを」に対応する距離dが一定値以上(類似度が小さい)であった場合、出力韻律情報105の音情報「ちずを」に対応する部分は、代表韻律情報102(図4の「ちずを」に対応するピッチパターン)となる。また、出力韻律情報105の音情報「ひょうじします」に対応する部分は距離dが一定値未満(類似度が大きい)であり、詳細韻律情報104が出力される。
なお、図5は、詳細韻律情報104がピッチパターン404であるときの出力韻律情報105を示している。
このように、混合韻律情報作成部4によって、代表韻律情報102と詳細韻律情報104との類似度に応じて、代表韻律情報102と詳細韻律情報104が混合された混合韻律情報が、出力韻律情報105として出力される。
上述の説明では、漢字仮名交じり文を解析して、入力言語情報101を得る場合を述べたが、これに代えて、入力言語情報101を人手で作成してもよい。
また、入力言語情報101を、音情報、アクセント情報、位置情報等として、代表韻律情報102を作成する場合を示したが、これに限定されるものではない。
例えば、音情報だけから代表韻律情報102を作成してもよい。すなわち、音情報の音の合計数から基本傾斜パターンの始点と終点を決定し、各音情報の音の数からアクセント成分(アクセント型によらない平均的な台形形状となる)を決定してもよい。
また、代表韻律情報102の例としてピッチパターンとしたが、これに代えて、声の大きさを表すパワーパターンや、一音一音の長さを表すリズムパターンとしてもよい。
特に、代表韻律情報102がピッチパターンである場合、これを点ピッチモデルで作成することを示したが、これに代えて、モーラごとピッチを人手で与え、これらを補間してピッチパターンを作成してもよい。
さらに、統計的な学習方法(数量化I類モデルや回帰木モデル)を使って言語情報から推定した特徴量(ピッチ、パワー、一音の長さ)をモーラ毎に設定し、これらを補間して得たパターンを代表韻律情報102としてもよい。
上述の説明では、詳細韻律情報記憶部2にてパターンに対応する音情報を記憶する場合を示したが、音情報はなくてもよい。すなわち、詳細韻律情報記憶部2は、韻律特徴のパターン(ピッチパターン、パワーパターン、リズムパターン)だけを記憶してもよい。
また、詳細韻律情報記憶部2に記憶されるパターンが、1モーラあたり4つの特徴量としたが、もっと多くても少なくてもよい。1モーラあたりの個数を一定個数にせず、音の長さなどによって可変な個数としてもよい。
上述では、パターンの長さとして、文節程度の長さを用いて説明したが、もっと長くても(例えば、句や文の長さでも)よいし、逆に、もっと短くても(例えば、音素や形態素の長さ)よい。
また、入力言語情報101として、日本語(とモーラ)を用いて説明したが、他言語、例えば、英語や中国語でも適用可能である。モーラを持たない言語に関しては、モーラに準ずる単位あるいは音節単位で制御すればよい。
さらに、詳細韻律情報記憶部2に記憶するピッチパターン(詳細韻律情報103)を、人間から発せられた音声をピッチ分析して得る場合を述べたが、人間が発した音声をピッチ分析して得られたピッチを参照して、人手でピッチパターンを作成して詳細韻律情報記憶部2に記憶するようにしてもよい。
上述の説明では、詳細韻律情報選択部3が、代表韻律情報102と詳細韻律情報103との2者間の類似度を、上記式(1)で表される重みつきのユークリッド距離で計算する場合を示したが、これに代えて、なんらかの公知な距離尺度を用いてもよい。
例えば、下記式(2)で得られるp次平均ノルムの距離や下記式(3)で得られる最大ノルムの距離を用いて計算してもよい。
p次平均ノルム(例えば、p=1,3,4など)
Figure 0005393546
最大ノルム
Figure 0005393546
また、類似度として、代表韻律情報102と詳細韻律情報103との相関係数を計算してもよく、相関係数が最大となる詳細韻律情報103を選択結果(詳細韻律情報104)としてもよい。
上述の説明では、混合韻律情報作成部4が、代表韻律情報102と詳細韻律情報104との2者間の類似度を、上記式(1)で表される重みつきのユークリッド距離で計算する場合を示したが、これに代えて、なんらかの公知な距離尺度を用いてもよい。
例えば、上記式(2)で得られるp次平均ノルムの距離や上記式(3)で得られる最大ノルムの距離を用いて計算してもよい。
また、類似度として、代表韻律情報102と詳細韻律情報104との相関係数を計算して、この相関係数が最大となる詳細韻律情報104を選択結果(出力韻律情報105)としてもよい。
上述の説明では、詳細韻律情報選択部3によって加重w(i)を可変値としたが、詳細韻律情報記憶部2に音情報がない場合は一定値(例えば1)とすればよい。
また、詳細韻律情報選択部3によって、加重w(i)を音情報の相違に応じて可変値としたが、位置情報の相違に応じて可変値としてもよい。この場合、位置情報が同じであれば、加重w(i)(全ての時刻iについて)を小さな値(0以上1未満)とし、位置情報が異なれば、加重w(i)(全ての時刻iについて)を大きな値(1以上)とする。
さらに、音情報の相違と位置情報との相違を同時に加味して加重w(i)を設定してもよい。
これまでの説明では、詳細韻律情報選択部3が、代表韻律情報102と詳細韻律情報記憶部2に記憶したパターン(詳細韻律情報103)との2者間の類似度を計算して、類似度が小さいものを詳細韻律情報104としたが、これに限定されるものではない。
例えば、2者間の類似度が一定値以下となる複数の詳細韻律情報103から代表値(最頻値、中央値、平均値)を求め、これを詳細韻律情報104としてもよい。
また、混合韻律情報作成部4が、代表韻律情報102と詳細韻律情報104との距離を計算し、この類似度によって代表韻律情報102又は詳細韻律情報104のいずれかを、出力韻律情報105としたが、これに限定されるものではない。
例えば、入力言語情報101と詳細韻律情報104との音情報の相違によって加重割合を設定し、この加重割合で代表韻律情報102と詳細韻律情報104を加重平均したものを、出力韻律情報105としてもよい。
図6は、代表韻律情報と詳細韻律情報とを所定の加重割合で加重平均して出力韻律情報を作成する処理を説明する図である。図6において、代表韻律情報601と詳細韻律情報602とを加重割合603で加重平均することで、出力韻律情報604が作成される。
図6の加重割合603は、前半の時刻の区間で代表韻律情報601への割合が大きく、後半の時刻の区間では詳細韻律情報602への割合が大きくなるよう設定されている。
音情報「ひょうじします」と「ちゅうしします」の一音一音を比較すると、前半は相違があり、後半の「します」の部分は一音一音が同じである。
このように、詳細韻律情報602の後半のパターンへの加重割合を大きく設定することで、出力韻律情報604のパターンの後半では、詳細韻律情報602のパターンを再現することができる。
以上のように、この実施の形態1によれば、複数の韻律特徴のパターンをそれぞれ示す詳細韻律情報103を予め記憶する詳細韻律情報記憶部2から、入力言語情報101を基に作成された代表韻律情報102と詳細韻律情報103とを参照して、当該代表韻律情報102に類似した詳細韻律情報103を選択する。
このように構成することで、代表韻律情報102が示す韻律特徴のパターンに類似した詳細韻律情報103を、出力韻律情報105を構成する詳細韻律情報104として選択することから、同一言語情報のパターンが複数ある場合であっても、代表韻律情報102の韻律特徴パターンから大きくはずれた詳細韻律情報104が選ばれにくくなる。このため、安定な(音声合成する音素、単語、文にわたって不連続感がない)韻律が得られる。
また、出力韻律情報105が、人間の発した音声を分析して得た韻律特徴のパターンである詳細韻律情報となるので、人間の発した音声の韻律特徴に近い韻律のパターンを生成することができ、その結果、自然な韻律が得られる。
例えば、人間が発した音声を分析して詳細韻律情報記憶部2に記憶するパターン(詳細韻律情報103)を作成する場合、収録時期や話者の状態によって音声特徴が揺らいで、音声特徴の異なる(ピッチの場合、例えば高さが異なる)詳細韻律情報が選択候補になったとしても、代表韻律情報102を参照して選択することで、代表韻律情報102が示す韻律特徴のパターンから大きくはずれた詳細韻律情報103が選ばれにくくなり、安定な韻律が得られるという効果がある。
さらに、類似した言語情報がなく、言語情報間の距離がうまく定義できない場合でも、代表韻律情報102に基づいて、大きくはずれた詳細韻律情報が選ばれにくく、かつ、出力韻律情報105が、人間の発した音声を分析して得たパターン(詳細韻律情報)となるので、安定で自然な韻律が得られるという効果がある。
また、この実施の形態1によれば、詳細韻律情報記憶部2が、詳細韻律情報103及びこれに対応する言語情報を記憶し、詳細韻律情報選択部3が、入力言語情報101、代表韻律情報102、詳細韻律情報103及びこれに対応する言語情報を参照して、代表韻律情報102と詳細韻律情報103との類似度を算出するにあたり、入力言語情報101と当該詳細韻律情報103に対応する言語情報とが一致するときは一致しないときよりも類似度が大きくなるように算出する。
このように入力言語情報101を加味して類似度を計算することにより、入力言語情報101に類似し、かつ代表韻律情報102に類似した詳細韻律情報104が選択されるようになり、入力言語情報101に依存する特有の韻律特徴(音素に起因するパターンの変化や、文頭・文中・文末のパターンの形状の違い等)を含んだ韻律情報を得られやすくなり、安定で自然な韻律情報が得られるという効果がある。
さらに、この実施の形態1によれば、代表韻律情報102と詳細韻律情報104との韻律特徴のパターンを、両者が類似しない区間は代表韻律情報102の韻律特徴のパターンとなり、両者が類似する区間では詳細韻律情報104の韻律特徴のパターンとなるように混合した混合韻律情報を、出力韻律情報105として作成する混合韻律情報作成部4を備えたので、選択された詳細韻律情報104と代表韻律情報102とが類似しない場合に、代表韻律情報102を出力韻律情報105とすることによって、代表韻律情報102の韻律特徴のパターンから大きく外れた詳細韻律情報104が選ばれなくなり、安定な韻律情報が得られるという効果がある。
なお、実施の形態1において、2つ以上の詳細韻律情報104を連結したものを出力韻律情報105とする場合であって、選択された一方の詳細韻律情報104と代表韻律情報102とが類似しておらず、この区間における出力韻律情報105を代表韻律情報102とするとき、他方の詳細韻律情報104は、代表韻律情報102に類似する(距離が近い)ものとして選択される。
このため、代表韻律情報102と詳細韻律情報104との接続の連続性が高くなり、安定な韻律情報が得られる効果がある。言い換えれば、詳細韻律情報104と代表韻律情報102を連結して得られる出力韻律情報105は、連続性の高い韻律情報となり、安定な韻律情報が得られる。
また、上記実施の形態1によれば、代表韻律情報102と詳細韻律情報104との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力韻律情報105として作成する混合韻律情報作成部4を備える。
この構成を有することによって、代表韻律情報102の韻律特徴のパターンから大きく外れた詳細韻律情報104の選択が抑制されて、かつ、出力韻律情報105が人間の発した音声を分析して得たパターン(詳細韻律情報)に近くなるので、安定で自然な韻律情報が得られる効果がある。
特に、詳細韻律情報記憶部2に記憶されているパターンが少ない場合では、大きく外れた詳細韻律情報が選ばれる場合がある。この場合、代表韻律情報と詳細韻律情報とを加重平均して出力韻律情報を得ることで、大きく外れた詳細韻律情報の選択が抑制され、安定な韻律情報が得られる。
さらに、上記実施の形態1によれば、入力言語情報101と詳細韻律情報104との音情報の相違によって加重割合を設定して、この加重割合で代表韻律情報102と詳細韻律情報104とを加重平均して作成した混合韻律情報を、出力韻律情報105として出力する。このようにすることで、音情報に類似する韻律情報が、出力韻律情報105に反映されるようになり、自然な韻律情報が得られるという効果がある。
1 代表韻律情報作成部、2 詳細韻律情報記憶部、3 詳細韻律情報選択部、4 混合韻律情報作成部、101 入力言語情報、102,601 代表韻律情報、103,104,602 詳細韻律情報、105,604 出力韻律情報、201,301,401 音情報、202 パターン、203,204,404 ピッチパターン、302 アクセント型、303 位置情報、402 基本傾斜パターン、403 ピッチ、603 加重割合。

Claims (10)

  1. 入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成部と、
    複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部と、
    前記代表韻律情報作成部作成した代表韻律情報と前記詳細韻律情報記憶部記憶した詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を前記詳細韻律情報記憶部から選択する詳細韻律情報選択部と
    前記代表韻律情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成部
    とを備えた韻律作成装置。
  2. 前記混合韻律情報作成部は、記代表韻律情報と前記詳細韻律情報選択部選択した詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項1記載の韻律作成装置。
  3. 前記混合韻律情報作成部は、記代表韻律情報と前記詳細韻律情報選択部選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項1記載の韻律作成装置。
  4. 前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
    前記混合韻律情報作成部は、前記入力したテキストの言語情報と前記詳細韻律情報選択部選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定する
    ことを特徴とする請求項記載の韻律作成装置。
  5. 前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
    前記詳細韻律情報選択部は、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出することを特徴とする請求項1記載の韻律作成装置。
  6. 韻律作成装置によって韻律情報を作成する韻律作成方法において、
    入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成ステップと、
    複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部から、前記代表韻律情報作成ステップで作成された代表韻律情報と前記詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を選択する詳細韻律情報選択ステップと
    前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成ステップ
    を備えたことを特徴とする韻律作成方法。
  7. 前記混合韻律情報作成ステップにおいて、記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項6記載の韻律作成方法。
  8. 前記混合韻律情報作成ステップにおいて、記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項6記載の韻律作成方法。
  9. 前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
    前記混合韻律情報作成ステップにおいて、前記入力したテキストの言語情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定することを特徴とする請求項記載の韻律作成方法。
  10. 前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
    前記詳細韻律情報選択ステップにおいて、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出する
    ことを特徴とする請求項6記載の韻律作成方法。
JP2010057661A 2010-03-15 2010-03-15 韻律作成装置及び韻律作成方法 Active JP5393546B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010057661A JP5393546B2 (ja) 2010-03-15 2010-03-15 韻律作成装置及び韻律作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010057661A JP5393546B2 (ja) 2010-03-15 2010-03-15 韻律作成装置及び韻律作成方法

Publications (2)

Publication Number Publication Date
JP2011191528A JP2011191528A (ja) 2011-09-29
JP5393546B2 true JP5393546B2 (ja) 2014-01-22

Family

ID=44796523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010057661A Active JP5393546B2 (ja) 2010-03-15 2010-03-15 韻律作成装置及び韻律作成方法

Country Status (1)

Country Link
JP (1) JP5393546B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10571293B2 (en) 2016-03-29 2020-02-25 Mitsubishi Electric Corporation Speech guidance device and speech guidance method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103906473B (zh) * 2011-10-28 2016-01-06 日立阿洛卡医疗株式会社 超声波成像装置、超声波成像方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP2002297175A (ja) * 2001-03-29 2002-10-11 Sanyo Electric Co Ltd テキスト音声合成装置、テキスト音声合成方法及びプログラム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4542400B2 (ja) * 2004-09-15 2010-09-15 日本放送協会 韻律生成装置及び韻律生成プログラム
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP4403996B2 (ja) * 2005-03-29 2010-01-27 日本電気株式会社 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
KR101395459B1 (ko) * 2007-10-05 2014-05-14 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10571293B2 (en) 2016-03-29 2020-02-25 Mitsubishi Electric Corporation Speech guidance device and speech guidance method

Also Published As

Publication number Publication date
JP2011191528A (ja) 2011-09-29

Similar Documents

Publication Publication Date Title
US11990118B2 (en) Text-to-speech (TTS) processing
US10453442B2 (en) Methods employing phase state analysis for use in speech synthesis and recognition
US20200410981A1 (en) Text-to-speech (tts) processing
US7953600B2 (en) System and method for hybrid speech synthesis
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US11763797B2 (en) Text-to-speech (TTS) processing
US8942983B2 (en) Method of speech synthesis
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP4403996B2 (ja) 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2009175345A (ja) 音声情報処理装置及びその方法
JP5328703B2 (ja) 韻律パターン生成装置
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP3571925B2 (ja) 音声情報処理装置
JP2004054063A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JPH1097268A (ja) 音声合成装置
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
JPH11265194A (ja) 音声情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131015

R150 Certificate of patent or registration of utility model

Ref document number: 5393546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250