JP5393546B2 - 韻律作成装置及び韻律作成方法 - Google Patents
韻律作成装置及び韻律作成方法 Download PDFInfo
- Publication number
- JP5393546B2 JP5393546B2 JP2010057661A JP2010057661A JP5393546B2 JP 5393546 B2 JP5393546 B2 JP 5393546B2 JP 2010057661 A JP2010057661 A JP 2010057661A JP 2010057661 A JP2010057661 A JP 2010057661A JP 5393546 B2 JP5393546 B2 JP 5393546B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- prosodic
- detailed
- prosodic information
- prosody
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
自然な抑揚を生成するために、自然音声から抽出した大量のピッチパターンをそのまま利用する方法が提案されている(例えば、特許文献1参照)。この方法では、韻律データベースに自然音声から抽出したピッチパターンを格納しておき、入力したテキストに対応する言語情報によって最適なピッチパターンを韻律データベースから1つ選択してピッチパターンを生成する。
一方、特許文献2には、音声合成対象となるテキストの韻律制御単位毎に当該テキストを解析して得られる言語情報に基づいて、自然音声から抽出した大量のピッチパターンを蓄えた韻律データベースから複数のピッチパターンを選択し、これらから新たなピッチパターンを生成する方法が開示されている。
このように、代表韻律情報に類似した詳細韻律情報を選択することから、同一言語情報となるパターンが複数ある場合であっても、代表韻律情報が示す韻律特徴パターンから大きくはずれた詳細韻律情報が選ばれにくくなり、安定な(音声合成する音素、単語、文にわたって不連続感がない)韻律が得られるという効果がある。
図1は、この発明の実施の形態1による韻律作成装置の構成を示すブロック図である。図1において、実施の形態1における韻律作成装置は、代表韻律情報作成部1、詳細韻律情報記憶部2、詳細韻律情報選択部3及び混合韻律情報作成部4を備える。代表韻律情報作成部1は、実施の形態1における韻律作成装置への入力言語情報101を入力する構成部であり、入力言語情報101を参照して代表韻律情報102を作成する。詳細韻律情報記憶部2は、複数の詳細韻律情報103を記憶する記憶部である。
図2は、詳細韻律情報記憶部の記憶内容の一例を示す図であり、2回の発声「中止します」と1回の発声「売り出される」との音情報201及びピッチパターン202を示している。発声「中止します」の音情報201は、「ちゅうしします」であり、パターン202は、24点(6モーラ×4)のピッチを時間順に並べたものである。図2に示すように同じ言語情報であっても、人の発声は完全に同一にならないため、ピッチパターン203とピッチパターン204との形状が異なる。
また、詳細韻律情報記憶部2は、上記コンピュータが搭載する記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。
実施の形態1における韻律作成装置の動作原理を詳細に述べる。なお、韻律作成装置の構成は、図1を参照する。
先ず、入力言語情報101は、音情報、アクセント情報、位置情報などからなる。音情報、アクセント情報、位置情報は、従来の既知の形態素解析技術を用いて漢字仮名交じり文を解析することで得られる。
図3は、入力言語情報の一例を示す図であり、漢字仮名交じり文「地図を表示します」を形態素解析して得られた言語情報を示している。図3において、「地図を」の音情報301は「ちずを」であり、これのアクセント型302は「1型」であり、位置情報303は「1番目」である。また「表示します」の音情報301は「ひょおじします」であり、アクセント型302は「5型」、位置情報303は「2番目」である。
例えば、ピッチパターンは、一般によく知られた点ピッチモデルを使って作成することができる。点ピッチパターンは、参考文献1の第168−169頁に開示されている。
(参考文献1) 田窪行則、前川喜久雄、窪園晴夫、本多清志、白井克彦、中川聖一著、“岩波講座 言語の科学2 音声”、岩波書店発行
図3に示す代表韻律情報102では、例えば、基本傾斜パターン402の始点と終点を位置情報303の最大値(図3の場合は“2”(番目))によって決定し、音情報401の音の数(「ちずを」の場合は“3”)とアクセント情報(「ちずを」の場合は1型)によってアクセント成分(台形部分の形)を決定する。
例えば、代表韻律情報102と詳細韻律情報記憶部2に記憶されるパターンとの2者間の類似度を計算し、類似度が大きい詳細韻律情報103を、詳細韻律情報104とする。
なお、類似度は、入力言語情報101、代表韻律情報102、詳細韻律情報103及びこれに対応する言語情報を参照することにより、例えば、下記式(1)で得られる距離dを用いて算出できる。
下記式(1)において、iは時刻を示し、w(i)は時刻iごとの加重を示している。また、F0t(i)は、代表韻律情報102の時刻iのピッチを示し、F0s(i)は、詳細韻律情報103のピッチパターンの時刻iのピッチを示している。
なお、類似度は、例えば、上記式(1)で得られる距離dを用いて算出できる。
この場合、上記式(1)において、F0s(i)は詳細韻律情報選択部3に選択された詳細韻律情報104のピッチパターンの時刻iのピッチとなる。
距離dが一定値以上の区間であれば、代表韻律情報102を出力韻律情報105とし、距離dが一定値未満の区間では、詳細韻律情報104を出力韻律情報105とする。
なお、図5は、詳細韻律情報104がピッチパターン404であるときの出力韻律情報105を示している。
このように、混合韻律情報作成部4によって、代表韻律情報102と詳細韻律情報104との類似度に応じて、代表韻律情報102と詳細韻律情報104が混合された混合韻律情報が、出力韻律情報105として出力される。
また、入力言語情報101を、音情報、アクセント情報、位置情報等として、代表韻律情報102を作成する場合を示したが、これに限定されるものではない。
例えば、音情報だけから代表韻律情報102を作成してもよい。すなわち、音情報の音の合計数から基本傾斜パターンの始点と終点を決定し、各音情報の音の数からアクセント成分(アクセント型によらない平均的な台形形状となる)を決定してもよい。
特に、代表韻律情報102がピッチパターンである場合、これを点ピッチモデルで作成することを示したが、これに代えて、モーラごとピッチを人手で与え、これらを補間してピッチパターンを作成してもよい。
さらに、統計的な学習方法(数量化I類モデルや回帰木モデル)を使って言語情報から推定した特徴量(ピッチ、パワー、一音の長さ)をモーラ毎に設定し、これらを補間して得たパターンを代表韻律情報102としてもよい。
また、詳細韻律情報記憶部2に記憶されるパターンが、1モーラあたり4つの特徴量としたが、もっと多くても少なくてもよい。1モーラあたりの個数を一定個数にせず、音の長さなどによって可変な個数としてもよい。
例えば、下記式(2)で得られるp次平均ノルムの距離や下記式(3)で得られる最大ノルムの距離を用いて計算してもよい。
p次平均ノルム(例えば、p=1,3,4など)
最大ノルム
例えば、上記式(2)で得られるp次平均ノルムの距離や上記式(3)で得られる最大ノルムの距離を用いて計算してもよい。
さらに、音情報の相違と位置情報との相違を同時に加味して加重w(i)を設定してもよい。
例えば、2者間の類似度が一定値以下となる複数の詳細韻律情報103から代表値(最頻値、中央値、平均値)を求め、これを詳細韻律情報104としてもよい。
例えば、入力言語情報101と詳細韻律情報104との音情報の相違によって加重割合を設定し、この加重割合で代表韻律情報102と詳細韻律情報104を加重平均したものを、出力韻律情報105としてもよい。
図6は、代表韻律情報と詳細韻律情報とを所定の加重割合で加重平均して出力韻律情報を作成する処理を説明する図である。図6において、代表韻律情報601と詳細韻律情報602とを加重割合603で加重平均することで、出力韻律情報604が作成される。
図6の加重割合603は、前半の時刻の区間で代表韻律情報601への割合が大きく、後半の時刻の区間では詳細韻律情報602への割合が大きくなるよう設定されている。
音情報「ひょうじします」と「ちゅうしします」の一音一音を比較すると、前半は相違があり、後半の「します」の部分は一音一音が同じである。
このように、詳細韻律情報602の後半のパターンへの加重割合を大きく設定することで、出力韻律情報604のパターンの後半では、詳細韻律情報602のパターンを再現することができる。
このように構成することで、代表韻律情報102が示す韻律特徴のパターンに類似した詳細韻律情報103を、出力韻律情報105を構成する詳細韻律情報104として選択することから、同一言語情報のパターンが複数ある場合であっても、代表韻律情報102の韻律特徴パターンから大きくはずれた詳細韻律情報104が選ばれにくくなる。このため、安定な(音声合成する音素、単語、文にわたって不連続感がない)韻律が得られる。
また、出力韻律情報105が、人間の発した音声を分析して得た韻律特徴のパターンである詳細韻律情報となるので、人間の発した音声の韻律特徴に近い韻律のパターンを生成することができ、その結果、自然な韻律が得られる。
例えば、人間が発した音声を分析して詳細韻律情報記憶部2に記憶するパターン(詳細韻律情報103)を作成する場合、収録時期や話者の状態によって音声特徴が揺らいで、音声特徴の異なる(ピッチの場合、例えば高さが異なる)詳細韻律情報が選択候補になったとしても、代表韻律情報102を参照して選択することで、代表韻律情報102が示す韻律特徴のパターンから大きくはずれた詳細韻律情報103が選ばれにくくなり、安定な韻律が得られるという効果がある。
このように入力言語情報101を加味して類似度を計算することにより、入力言語情報101に類似し、かつ代表韻律情報102に類似した詳細韻律情報104が選択されるようになり、入力言語情報101に依存する特有の韻律特徴(音素に起因するパターンの変化や、文頭・文中・文末のパターンの形状の違い等)を含んだ韻律情報を得られやすくなり、安定で自然な韻律情報が得られるという効果がある。
このため、代表韻律情報102と詳細韻律情報104との接続の連続性が高くなり、安定な韻律情報が得られる効果がある。言い換えれば、詳細韻律情報104と代表韻律情報102を連結して得られる出力韻律情報105は、連続性の高い韻律情報となり、安定な韻律情報が得られる。
この構成を有することによって、代表韻律情報102の韻律特徴のパターンから大きく外れた詳細韻律情報104の選択が抑制されて、かつ、出力韻律情報105が人間の発した音声を分析して得たパターン(詳細韻律情報)に近くなるので、安定で自然な韻律情報が得られる効果がある。
特に、詳細韻律情報記憶部2に記憶されているパターンが少ない場合では、大きく外れた詳細韻律情報が選ばれる場合がある。この場合、代表韻律情報と詳細韻律情報とを加重平均して出力韻律情報を得ることで、大きく外れた詳細韻律情報の選択が抑制され、安定な韻律情報が得られる。
Claims (10)
- 入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成部と、
複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部と、
前記代表韻律情報作成部が作成した代表韻律情報と前記詳細韻律情報記憶部が記憶した詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を前記詳細韻律情報記憶部から選択する詳細韻律情報選択部と、
前記代表韻律情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成部
とを備えた韻律作成装置。 - 前記混合韻律情報作成部は、前記代表韻律情報と前記詳細韻律情報選択部が選択した詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項1記載の韻律作成装置。
- 前記混合韻律情報作成部は、前記代表韻律情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項1記載の韻律作成装置。
- 前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
前記混合韻律情報作成部は、前記入力したテキストの言語情報と前記詳細韻律情報選択部が選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定する
ことを特徴とする請求項3記載の韻律作成装置。 - 前記詳細韻律情報記憶部は、前記詳細韻律情報に対応する言語情報を記憶し、
前記詳細韻律情報選択部は、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出することを特徴とする請求項1記載の韻律作成装置。 - 韻律作成装置によって韻律情報を作成する韻律作成方法において、
入力したテキストから、所定の音節単位ごとの韻律特徴を直線補間してなるパターンを示す代表韻律情報を作成する代表韻律情報作成ステップと、
複数のテキストの韻律特徴のパターンをそれぞれ示す詳細韻律情報を予め記憶した詳細韻律情報記憶部から、前記代表韻律情報作成ステップで作成された代表韻律情報と前記詳細韻律情報との所定時間おきの距離の総和を示す類似度を参照して、前記代表韻律情報に類似した前記詳細韻律情報を選択する詳細韻律情報選択ステップと、
前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを前記類似度に応じて混合した混合韻律情報を、出力対象の韻律情報として作成する混合韻律情報作成ステップ
とを備えたことを特徴とする韻律作成方法。 - 前記混合韻律情報作成ステップにおいて、前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを、両者が類似しない区間は前記代表韻律情報の韻律特徴のパターンとなり、前記両者が類似する区間は前記詳細韻律情報の韻律特徴のパターンとなるように混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項6記載の韻律作成方法。
- 前記混合韻律情報作成ステップにおいて、前記代表韻律情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報との韻律特徴のパターンを所定の加重割合で加重平均して混合した混合韻律情報を、出力対象の韻律情報として作成することを特徴とする請求項6記載の韻律作成方法。
- 前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
前記混合韻律情報作成ステップにおいて、前記入力したテキストの言語情報と前記詳細韻律情報選択ステップで選択した前記詳細韻律情報に対応する言語情報との相違によって前記加重割合を設定することを特徴とする請求項8記載の韻律作成方法。 - 前記詳細韻律情報記憶部に前記詳細韻律情報に対応する言語情報を記憶し、
前記詳細韻律情報選択ステップにおいて、前記類似度を算出するにあたり、前記入力したテキストの言語情報と前記詳細韻律情報に対応する言語情報とが一致するときは一致しないときよりも前記類似度が大きくなるように算出する
ことを特徴とする請求項6記載の韻律作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057661A JP5393546B2 (ja) | 2010-03-15 | 2010-03-15 | 韻律作成装置及び韻律作成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057661A JP5393546B2 (ja) | 2010-03-15 | 2010-03-15 | 韻律作成装置及び韻律作成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011191528A JP2011191528A (ja) | 2011-09-29 |
JP5393546B2 true JP5393546B2 (ja) | 2014-01-22 |
Family
ID=44796523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010057661A Active JP5393546B2 (ja) | 2010-03-15 | 2010-03-15 | 韻律作成装置及び韻律作成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5393546B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10571293B2 (en) | 2016-03-29 | 2020-02-25 | Mitsubishi Electric Corporation | Speech guidance device and speech guidance method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103906473B (zh) * | 2011-10-28 | 2016-01-06 | 日立阿洛卡医疗株式会社 | 超声波成像装置、超声波成像方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP2002297175A (ja) * | 2001-03-29 | 2002-10-11 | Sanyo Electric Co Ltd | テキスト音声合成装置、テキスト音声合成方法及びプログラム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4542400B2 (ja) * | 2004-09-15 | 2010-09-15 | 日本放送協会 | 韻律生成装置及び韻律生成プログラム |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
JP4403996B2 (ja) * | 2005-03-29 | 2010-01-27 | 日本電気株式会社 | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム |
KR101395459B1 (ko) * | 2007-10-05 | 2014-05-14 | 닛본 덴끼 가부시끼가이샤 | 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체 |
-
2010
- 2010-03-15 JP JP2010057661A patent/JP5393546B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10571293B2 (en) | 2016-03-29 | 2020-02-25 | Mitsubishi Electric Corporation | Speech guidance device and speech guidance method |
Also Published As
Publication number | Publication date |
---|---|
JP2011191528A (ja) | 2011-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990118B2 (en) | Text-to-speech (TTS) processing | |
US10453442B2 (en) | Methods employing phase state analysis for use in speech synthesis and recognition | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
US7953600B2 (en) | System and method for hybrid speech synthesis | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US8942983B2 (en) | Method of speech synthesis | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4403996B2 (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
JP4533255B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2009175345A (ja) | 音声情報処理装置及びその方法 | |
JP5328703B2 (ja) | 韻律パターン生成装置 | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JPH1097268A (ja) | 音声合成装置 | |
JP4603290B2 (ja) | 音声合成装置および音声合成プログラム | |
JPH11265194A (ja) | 音声情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5393546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |