JP2008191525A - F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 - Google Patents

F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 Download PDF

Info

Publication number
JP2008191525A
JP2008191525A JP2007027547A JP2007027547A JP2008191525A JP 2008191525 A JP2008191525 A JP 2008191525A JP 2007027547 A JP2007027547 A JP 2007027547A JP 2007027547 A JP2007027547 A JP 2007027547A JP 2008191525 A JP2008191525 A JP 2008191525A
Authority
JP
Japan
Prior art keywords
prosodic
event
value
prosodic event
value time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007027547A
Other languages
English (en)
Other versions
JP4787769B2 (ja
Inventor
Noboru Miyazaki
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007027547A priority Critical patent/JP4787769B2/ja
Publication of JP2008191525A publication Critical patent/JP2008191525A/ja
Application granted granted Critical
Publication of JP4787769B2 publication Critical patent/JP4787769B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】低コストで様々な口調に応じたF0値時系列を生成する。
【解決手段】アクセント句毎に境界位置と複数のアクセント型、モーラ毎に開始時刻及び終了時刻が決められたテキストが入力され(3、S2)、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付け(12、S8)、口調別韻律イベントテーブルを用いて、アクセント句の発生条件に対応する口調別韻律イベントを追加し(13、S10)、韻律イベントパラメータデータベースより、韻律イベント毎に韻律イベントパラメータを生成し(22、S12)、生成関数テーブルから韻律イベント毎にデルタ関数を生成し(16、S16)、初期F0値パラメータデータベースから、アクセント句毎に初期F0値を求め(18、S18)、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成する(20、S20)。
【選択図】図1

Description

この発明は、テキストから合成音声を生成するテキスト音声合成分野に属するもので、特に音声に適切な抑揚を与えるために音声の韻律パターンを生成するF0値時系列生成装置、その方法、そのプログラム、及びその記録媒体に関する。
以下の説明では、F0値とは、ある時点における音声の基本周波数を示しており、F0値時系列とは、合成音声の継続する時間に渡ったF0値の系列を示している。
従来技術1として、従来の合成音声を生成する際の音声のF0値時系列を生成する手法で、多空間の確率分布に基づくHMM(multi−space probability distribution HMM:MSD−HMM)を適用し、ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いて、ピッチとスペクトルを統一的にモデル化する手法がある。これは、音韻ごとのF0値の時間変化や継続長を、HMMのような統計モデルで学習したモデルを用いて、このモデルから尤もらしいF0値時系列を生成する手法である。詳細は、非特許文献1に記載されている。
従来技術2として、複数のアクセント句からなるポーズ句ごとに暫次的に下降するフレーズ成分と、アクセント句毎に指定されるアクセント成分とを組み合わせて、F0値時系列を表現する生成過程モデルを用いて、このモデルにフレーズ成分の下降パラメータやアクセント成分の振幅パラメータ、位置パラメータ等に入力して得られるF0値時系列を得る手法がある。詳細は非特許文献2に記載されている。
ここで、非特許文献1、2に記載されているモーラとは、音韻論上、一定の時間的長さをもった音の文節単位である。例えば、「チョコレート」であれば、「チョ」「コ」「レ」「ー」「ト」がそれぞれモーラとなる。
また、アクセント句とは、0個もしくは1個のアクセント核を含む言語的な単位であり、通常、1つ以上の文節から形成される。アクセント核とはアクセントが付くモーラのことである。日本語のアクセント句はアクセント核の位置によって(1)〜(3)の3種類に大別される。
(1)0型のアクセント句:先頭のモーラのF0値が相対的に低く、2モーラ目以降のモーラのF0値が相対的に高い、つまり、アクセント核を含まないアクセント句。
(2)1型のアクセント句:先頭のモーラのF0値が相対的に高く、2モーラ目以降のモーラのF0値が相対的に低い、つまり1番目のモーラがアクセント核に該当するアクセント句。
(3)n型のアクセント句(nは2以上の整数):先頭のモーラのF0値が相対的に低く、2モーラ目から第nモーラ目までのF0値が相対的に高く、第n+1モーラ目以降が相対的に低い、つまり先頭からn番目のモーラがアクセント核に該当するアクセント句。
このアクセント句に境界を付与する手法、アクセント句毎にアクセント型を付与する手法は、非特許文献3に記載されている。
また、従来技術3として、実音声から抽出したF0値時系列を大量に収集し、生成したい合成音声を構文的に類似したF0値時系列を探索し用いる。事例に基づくテンプレートを用いる手法もある。詳細は特許文献1に記載されている。
これらの手法はいずれも、ある程度自然な音声を合成することに成功している。
電子情報通信学会論文誌D-IIl.J38-D-II.7July,2000,pp1600-1609"多空間確率分布HMMによるピッチパターン生成" Journal of the Acoustical Society (E)Vol.5,No.4(1984)"Analysis of voice fundamental frequency contours for declarative sentences of Japanese" 浅野、松岡、高木、小原"多段解析法による形態素解析を用いた音声合成用読韻律情報設定法とその単語辞書構成"、自然言語処理Vol6,No.2,Jan,1999 特許第3420964号
従来の手法はいずれもアナウンサーが淡々と文章を読み上げるような、いわゆる読み上げ音声口調を前提とした技術であった。しかし、テキスト音声合成の技術は読み上げ口調に対して、用いられるのみではない。例えば、電話受付オペレータが応答する口調に似せて、合成音声を生成することにより、電話受付オペレータの業務の一部を機械で置き換えたり、スポーツのニュースを生き生きと紹介したり、実況したりするような口調に似せて、合成音声を生成することにより、草野球チームの試合結果など普段プロのアナウンサーが紹介しないような情報についても、音声に変換し、地域に密着したローカル放送などで放送することが可能になる。
このように様々な口調に似せて、音声を合成することを考えると、従来の手法はいずれも課題を抱えており、そのままで用いることは困難である。
第1の問題点
従来技術1はHMMからF0値時系列を合成する手法においては、F0値時系列を音韻ごとに学習し、合成する。このような場合、新たな口調に似せた音声を生成するためには、音韻ごとの平均F0値やその微分成分、場合によって、二階微分成分をモデルパラメータとして学習する必要があるため、モデルパラメータの数が増加する。このため、統計的に学習する際に必要となる学習データを膨大に収集する必要があり、コストが大きくなる問題がある。
次に従来技術3の問題点を説明する。事例に基づくテンプレートを用いる手法では、合成音声を生成する際のターゲットとなる口調が変わった場合、ターゲットに合った口調の音声を大量に収集し、再度テンプレートを構築しなおす必要があり、HMMからF0値時系列を合成する手法と同様に、コストが大きくなる問題がある。第1の問題点としてコストの問題が挙げられる。
第2の問題点
次に第2の問題点を説明する。従来技術2のように、生成過程モデルを用いる場合、漸次的に下降する成分の存在を前提としている。しかし、例えば、相手に何かを問いかける口調では、音声のF0値は語尾にかけて上昇したり、また強い調子で話す場合は、特に下降せずそのままであったりして、必ずしも漸次的に下降するとは限らない。即ち、生成過程モデルは読み上げ音声句口調とは異なる口調に似せて、合成音声を生成する際にはモデルの構造が音声の特徴とミスマッチを起こし、正しい表現ができないことがあるという問題がある。よって第2の問題点として、読み上げ音声句口調とは異なる口調で合成音声を生成する際には、正しい表現ができないという問題が挙げられる。
この発明は、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成装置に関する。この発明のF0値時系列生成装置は、韻律イベント部とF0値時系列部で構成されている。
韻律イベント部は、アクセント型、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する。F0値時系列部は、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成する。
また、韻律イベント部は、韻律イベント生成部と口調別韻律イベント追加部と韻律イベントパラメータ生成部とで構成すればよい。韻律イベント生成部は、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する。口調別韻律イベント追加部は、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する。韻律イベントパラメータ生成部は、韻律イベントパラメータデータベースとアクセント句の情報を用いて、韻律イベント毎に韻律イベントパラメータを生成する。
更に、F0値時系列部は、デルタ関数生成部と初期F0値生成部とF0値時系列生成部とで構成すればよい。デルタ関数生成部は、韻律イベント毎に生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句のデルタ関数として生成する。初期F0値生成部は、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める。F0値時系列生成部は、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成する。
更に、上記複数の韻律イベントは上昇、下降、なだらかな下降、盛り上がり、としてもよい。
更に、韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(正規化韻律イベントパラメータという)が格納されており、生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力してもよい。
上記の構成により、第1の問題点、第2の問題点が解決されたことを説明する。
まず、第1の問題点が解決されたことについて説明する。アクセント句毎に予め決められた複数の韻律イベント毎の位置パラメータ、大きさパラメータ、継続時間パラメータと、アクセント句毎の初期F0値だけでアクセント句のF0値時系列を表現する。例えば「神奈川県では」というアクセント句では上記の構成の場合、6個の韻律イベントが生成される。このため、3×6+1=19個のパラメータで1つのアクセント句のF0値時系列を表現することが出来る。
従来技術1のF0値時系列生成手法では1音韻ごとに、F0値とF0値微分成分、さらにF0値の二階成分微分のそれぞれについての平均と分散を保持する、つまり、6個のパラメータを保持する必要がある。例えば、「神奈川県では」というアクセント句のF0値時系列を生成しようとすれば「KANAGAWAKENDEWA」という15個の音韻ごとに、6個のパラメータを保持する必要があるため、90個のパラメータを用いる必要がある。
本願発明の構成のように、用いるパラメータの数が少なければ、適切なパラメータを生成するために必要となる学習データの数もこれに応じて減少し、結果として、F0値時系列を生成するコストを下げる効果がある。従って、従来技術1の問題点を解決することが出来る。
また従来技術3のように本願発明の構成では、テンプレートを用いるという概念はなく、当然テンプレートの再構成をする必要が無く、従来技術3の問題点を解決することが出来る。
次に、第2の問題点が解決されたことについて説明する。上述のように、従来技術2では、例えば、発話末にF0値が上昇して疑問口調になる、といった口調に対しては適切なF0値時系列を生成することが出来なかった。しかし、本願発明の構成であれば、F0値時系列の局所的な動きを発生させる韻律イベントを用いるが、発話全体の動きを規定するような成分は用いない。そのため、発話末のF0値を下げたければ、「下降」の種類の韻律イベントを用いればよく、発話末のF0値を上げたければ、「上昇」の種類の韻律イベントを用いればよい。よって、様々な口調に似せた合成音声のためのF0値時系列を生成することが出来る。従って、本願の発明の構成により第2の問題点を解決することが出来る。
以下に、発明を実施するための最良の形態を示す。
この実施例では、入力としてテキストを想定する。図1はこの実施例1の機能構成例を示した図であり、図2はこの実施例1の主な処理の流れを示したフローチャートである。以下の説明では、入力されるテキストが「それではよろしいですか」という疑問口調の文章であるとして説明する。
まず、F0値時系列を生成する対象となるテキスト「それではよろしいですか」がテキスト入力部3−1から入力される(ステップS2)。また、生成されるF0値時系列の所望速度(以下、話速という)が話速入力部3−2から入力される。以下の説明では、話速を0.2秒/1モーラとして説明する。
まず、アクセント句分割・付与部2では入力されたテキストのアクセント句毎に境界位置が付与され、更にアクセント句毎にアクセント型が付与される(ステップS4)。この処理の内容については上記非特許文献3に記載されている。テキスト「それではよろしいですか」についてはアクセント句「それでは」とアクセント句「よろしいですか」との間に境界線が付与される。更に、アクセント句「それでは」、アクセント句「よろしいですか」それぞれにアクセント型が付与され、読みも付与される。アクセント句「それでは」については、3番目のモーラ「で」がアクセント核になり、アクセント型は3型になる。「よろしいですか」については、3番目のモーラ「し」がアクセント核になり、アクセント型は3型になる。例えば、図3に示すように、アクセント句毎にアクセント型が付与される。アクセント句分割・付与部2からは例えば図3に示す形式で出力され、モーラ分割・付与部4に入力される。このアクセント句分割・付与部2の処理内容は上記非特許文献3に記載されている。
モーラ分割・付与部4では、テキストがモーラ毎に分割され、各々のモーラに開始時刻と終了時刻とを付与される(ステップS6)。なお、説明の簡略化のため、モーラ分割・付与部4では1モーラ間の長さを全て等しく分割するとして、話速と同じ1モーラ当り0.2秒とする。モーラ分割の手法としては、これに限られるものではない。
「それではよろしいですか」については、図4に示すように、「そ」「れ」「で」「は」「よ」「ろ」「し」「−」「で」「す」「か」というモーラに分割される。更に、1番目のモーラ「そ」について開始時刻が0.11秒とすると、1モーラ当りの時間が0.2秒であるので、モーラ「そ」の終了時刻が0.31秒となる。次のモーラ「れ」の開始時刻は0.31秒、終了時刻は0.51秒となる。このようにして、残り全てのモーラについて開始時刻、終了時刻が図4のように付与される。モーラ分割・付与部4からは例えば、図4の形式で出力される。
なお、違う入力テキスト「今日はよく晴れて、気持ちの良い一日です。」であれば、分割されるモーラ、各モーラに付与される開始時刻および終了時刻、アクセント句、このアクセント句に付与されるアクセント型は、図5に示すように付与される。
アクセント句毎の境界位置とアクセント句毎のアクセント型が付与され、モーラ毎の開始時刻、終了時刻が決められた入力テキストは韻律イベント生成部12に入力される。韻律イベント生成部12では、韻律イベントテーブルを用いて、アクセント句の指定された箇所に、アクセント型に応じた複数の韻律イベントが対応付けられて生成される(ステップS8)。
ここで、韻律イベントとは、例えば、F0値時系列に急な上昇や急な下降、なだらかな下降、盛り上がりの4種類の局所的な動きを発生させる指令である。韻律イベントテーブルは韻律イベントテーブル記憶部28に記憶されている。韻律イベントテーブルの例を図6に示す。例えば、アクセント句が0型であれば、韻律イベントID0〜2に対応する韻律イベント、つまり、下降イベント、上昇イベント、なだらかな下降イベント、がこのアクセント句に付与される。このアクセント句の1モーラ目の開始時刻に下降イベントが付与され、1モーラ目の終了時刻に上昇イベントが付与され、アクセント句の終了時刻つまり、最後のモーラの終了時刻になだらかな下降イベントが付与される。アクセント句が1型、n型の場合であれば、同様に図6に示す生成箇所に韻律イベントが付与される。
具体的に説明すると、アクセント句「それでは」のアクセント型は3型であるため、韻律イベントIDが6〜11に対応する韻律イベントが付与される。具体的には、1モーラ目「そ」の開始時刻0.11秒に下降イベントが付与され、1モーラ目「そ」の終了時刻0.31秒に上昇イベントが付与される。このようにして、韻律イベント生成部12では、1つのアクセント句に対して、指定された箇所に、複数の韻律イベントが生成される。アクセント句「それでは」に付与された韻律イベントを示したものが図7Aである。
また、アクセント句「よろしいですか」についても同様に、図7Bに示すように複数の韻律イベントが付与される。韻律イベント生成部12からは例えば図7A、Bの形式で出力され、口調別韻律イベント追加部13に入力される。
口調別韻律イベント追加部13では、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所にこの発生条件に対応する口調別韻律イベントが追加される(ステップS10)。口調別韻律イベントテーブルは口調別韻律イベントテーブル記憶部30に記憶されている。
図8は口調別韻律イベントテーブルの例である。例えば、アクセント句が発生条件「助詞「か」が発話末に存在する」に該当する、つまりアクセント句の最後のモーラが助詞「か」であれば、「か」の開始時刻に韻律イベントIDが100である上昇イベントが追加される。
口調別韻律イベントテーブルが図8である場合、アクセント句「それでは」は発生条件に該当しないが、アクセント句「よろしいですか」は発生条件「助詞「か」が発話末に存在する」に該当する。よって、「か」の開始時刻である2.11秒に上昇イベント(口調別韻律イベント)が追加される。追加された結果例を図9に示す。なお、図6、図8に示す韻律イベントIDはこの実施例の説明の便宜上用いる符号であって、発明を実施する際には必ずしも必要ない。
このように、韻律イベント生成部12、口調別韻律イベント追加部13では、従来技術2の生成過程モデルのような、発話全体にわたって影響を与えることを前提とするような大局的なイベントは用いない。また、口調別韻律イベント追加部13で、発話末に助詞「か」が存在しているということは、このアクセント句は疑問口調であるとみなされ、「か」が上昇するということになる。よって、このような疑問口調であっても、的確なF0値時系列が生成される。その他、音声句口調とは異なる様々な口調、例えば「なれなれしい口調」等で合成音声を生成する場合であっても、口調別韻律イベントテーブルの設定次第で、正しい表現が出来、上記第2の問題点を解決することが出来る。口調別韻律イベント追加部13からは例えば図9に示す形式で出力され、韻律イベントパラメータ生成部14に入力される。
韻律イベントパラメータ生成部14では、韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータが生成される(ステップS14)。韻律イベントパラメータデータベースは韻律イベントパラメータデータベース記憶部24に記憶されている。まず、韻律イベントパラメータについて説明する。
韻律イベント生成部12、口調別韻律イベント追加部13で生成された韻律イベントの各々には、その種類に応じた生成関数が対応付けられる。後述する図10に示す生成関数テーブルに示すように、上昇イベントであれば、例えば以下の式(1)の生成関数が対応付けられる。
Figure 2008191525
下降イベントであれば、以下の式(2)が対応付けられる。
Figure 2008191525
なだらかな下降イベントであれば、以下の式(3)が対応付けられる。
−A(m−t)σexp(−σ(m−t)) (3)
盛り上がりイベントであれば、以下の式(4)が対応付けられる。
Figure 2008191525
式(1)〜(4)のtは時間を表し、A、m、σが韻律イベントパラメータを表し、A、m、σを生成する必要がある。具体的には、Aは関数の振幅を表す振幅パラメータであり、韻律イベントにより引き起こされる抑揚の大きさに対応する。mは生成関数の位置を表す位置パラメータであり、韻律イベントに対応付けられた生成箇所から、どの程度ずれた位置で実際に韻律イベントによりF0値の変化が引き起こされるかを表す。σは韻律イベントによるF0値の変化がどの程度の時間をかけて発生するかを表す継続時間パラメータである。
韻律イベントパラメータは同じ種類の韻律イベントに対しても、異なる値が生成されることがある。例示すると、図5で示すように入力テキストが「今日は、よく晴れて気持ちの良い一日です」である場合、アクセント句「今日は」のアクセント型と、アクセント句「晴れて」のアクセント型は同じ1型である。よって韻律イベント生成部13で両者とも図6記載の韻律イベントID3、4、5のイベントが付与される。しかし、文の先頭のアクセント句「今日は」と、文の途中のアクセント句「晴れて」では一般的に、全く同じ抑揚で発生するわけではない。例えば、文の途中のアクセント句「晴れて」の抑揚は小さく、即ち振幅パラメータAの値を小さくすることが適切な場合がある。
また、アクセント核の次に撥音「ん」がある場合とない場合とを比較すると、F0値が下降し始めるタイミングが異なることが観測されている。このような場合には、韻律イベントの位置パラメータmを状況に応じて、適切に生成する必要がある。このように、同じ種類の韻律イベントであっても、文の先頭であるか、文の途中であるか、アクセント核の次に撥音がある等という状況が異なるため、生成される韻律イベントパラメータが異なる可能性がある。
このような様々な状況に応じて、韻律イベント毎に、適切に韻律イベントパラメータを生成する必要がある一方で、テキスト音声合成の利用分野においては、どのようなテキストに対しても、合成音声を生成する必要があることを考えれば、韻律イベントパラメータ生成部14はあらゆる状況に対して適切な韻律イベントパラメータを生成することが出来なければならない。
そこで、このような様々な状況に対応して、適切な韻律イベントパラメータを生成するための手法として、韻律イベントパラメータデータベースを、例えば、韻律イベント毎に、決定木を用いたコンテキストクラスタリングの手法で構成することが考えられる。
一方、韻律イベントが対応付けられた箇所における音声・言語的な状況とは、例えばアクセント句の状況などが考えられる。そこで、韻律イベントパラメータを生成する方法として、韻律イベントパラメータデータベースと当該アクセント句の状況を用いて行うことを以下に説明する。
図11は、上昇イベントの韻律イベントパラメータデータベースの構成である決定木の一例である。図11から明らかなように、決定木は例えば二分木であり、ノードにはYES/NOで答えられる質問が付与されている。生成された韻律イベントの状況に対する質問の答えがYESであれは、右の子ノードへ、NOであれば、左の子ノードへと木をたどれば、韻律イベントがどのような状況で生成されようとも、最終的にいずれかの葉に到達する。葉(最終的なノード)には韻律イベントパラメータA、p、qが指定されている。位置パラメータp、継続時間パラメータqはそれぞれ位置パラメータmと継続時間パラメータσを正規化した値である(以下、正規化位置パラメータp、正規化継続時間パラメータqという)。この正規化については、後述する。
韻律イベントパラメータデータベースの構成をこのような決定木にすれば、どのような状況の韻律イベントに対しても、的確な韻律イベントパラメータを生成することが出来る。
次に、具体的な韻律イベントパラメータの生成処理の流れを説明する。図9B記載の参照番号8201である上昇イベント(以下、韻律イベント8201という)の韻律イベントパラメータの生成処理について図11を用いて説明する。この上昇イベントが付加されているアクセント句は「よろしいですか」である。
まず、アクセント句「よろしいですか」について、ルートノードであるノード601の質問「文頭のフレーズであるか」否かを検討する。アクセント句「よろしいですか」は文頭のフレーズではなく、2番目のフレーズであるので、回答はNOである。NOの符号が付与されたバスを通り、ノード602に移動する。
次に、ノード602の質問「現在のアクセント型が1型であるか」否かを検討する。現在のアクセント句「よろしいですか」のアクセント型は3型であるので回答はNOである。NOの符号が付与されたバスを通り、ノード603に移動する。
ノード603の質問「直前の句のアクセント型が0型であるか」否かを検討する。直前のアクセント句は「それでは」であり、アクセント句は3型であるので、回答はNOである。NOの符号が付与されたバスを通り、ノード604へ移動する。ノード604は葉ノードであり、質問は付与されておらず、振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqの値が記述されている。そこで、韻律イベント8201の韻律イベントパラメータはA=2.2、p=−0.2、q=0.1と生成される。
図11は上昇イベントに対応した決定木であるが、同様な決定木を下降イベント、なだらかな下降イベント、盛り上がりイベントについても準備する。そして、全ての種類の韻律イベントについて、韻律イベントの種類に対応する決定木を用いて、上記の処理で、韻律イベント毎に、韻律イベントパラメータを生成する。
そして、図12に示すように、アクセント句「よろしいですか」は、韻律イベントごとに、韻律イベントが対応付けられる生成箇所、振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqの4つの値の組で表される。韻律イベントパラメータ生成部14からは例えば図12に示す表の形式で出力され、韻律イベントパラメータ変換部22に入力される。
また、図11では振幅パラメータA、正規化位置パラメータp、正規化継続時間パラメータqをまとめて決定する決定木を示しているが、パラメータの種類毎に異なる決定木を構築することも考えられる。また、図6や図7に示す韻律イベントIDごとに異なる決定木を用いることも考えられる。また、図11の例では、質問として、アクセント句のアクセント型やかかり受け関係に関連する質問が例示されているが、このほかにも、入力テキスト中のアクセント句の位置やあるいは韻律イベントが生成された箇所の前後の単語の形態素情報や音韻の情報、あるいはパラメータを生成する対象の韻律イベントより前に生成された韻律イベントの振幅の総和など、様々な観点から質問を考えることが出来る。
韻律イベントパラメータ変換部22では、韻律イベントパラメータ生成部14が生成した正規化韻律イベントパラメータ(正規化位置パラメータpと正規化継続時間パラメータq)をモーラの情報もしくはアクセント句の情報に応じて、韻律イベントパラメータに変換される(ステップS14)。具体的には、正規化位置パラメータpと正規化継続時間パラメータqがそれぞれ、位置パラメータm、継続時間パラメータσに変換される。以下の説明では、モーラの情報に応じて変換される場合を説明する。
位置パラメータmと継続時間パラメータσの正規化について説明する。上述した位置パラメータpと継続時間パラメータqの単位は、該当韻律イベントを含むアクセント句の平均モーラ長で正規化された値である。例えばアクセント句「よろしいですか」であれば、アクセント句に7個のモーラを含む。また、図4等を参照すると、アクセント句「よろしいですか」は1番目のモーラ「よ」の開始時刻が0.91秒であり、最後のモーラ「か」の終了時刻は2.31秒である。よって、アクセント句の継続時間は1.4秒であり、アクセント句全体での平均モーラ長は0.2秒/モーラとなる。また、図12記載の上昇イベント902の生成箇所は1.11秒であり、正規化位置パラメータpは−0.2である。これは1番目のモーラ「よ」の終了時刻である1.11秒から、−0.2モーラ即ち、−0.2(上昇イベント902の正規化位置パラメータ)×0.2(平均モーラ長)=−0.04となる。つまり0.04秒前である1.07が位置パラメータmの値である。
また、同様に正規化継続時間パラメータqは0.1である。これは、平均モーラ長0.1をかけて得られる0.01が継続時間パラメータσの値である。その他の韻律イベントについても正規化位置パラメータpと正規化継続時間パラメータqを変換して、例えば図13に示すような表が生成され、韻律イベントパラメータ変換部22から出力され、デルタ関数生成部16に入力される。
正規化位置パラメータpや正規化継続時間パラメータqの単位は平均モーラ長に限られるものではなく、秒やミリ秒といった単位を直接用いることも可能である。しかし、秒やミリ秒といった絶対的な単位を用いると、韻律イベントパラメータの値が話速に強く影響を受けてしまう。このため、通常よりも、速い話速や遅い話速に対応した合成音声を生成する際に、所望の話速に応じた位置パラメータや継続時間パラメータに対応した決定木を用いる必要があり、韻律イベントパラメータデータベースには、所望の話速に応じた多数の決定木を準備する必要がある。従って、韻律イベントパラメータデータベースの構築にかかるコストが増大すると共に韻律イベントパラメータデータベース記憶部24には膨大なデータを格納しなければならなくなる。従って、話速によらず、安定した位置や継続時間を表現するために、図12の例では、平均モーラ長を単位としている。
デルタ関数生成部16では、韻律イベント毎に、所定の生成関数に韻律イベントパラメータA、m、σを適用し、全ての韻律イベントに対応する生成関数の和を計算することで、アクセント句におけるF0値時系列のデルタ関数FD(t)が生成される(ステップS16)。所定の関数とは例えば、上記式(1)〜(4)が考えられるが、これらに限られるものではない。以下の説明では、所定の生成関数を上記式(1)〜(4)として説明をする。生成関数テーブルは生成関数テーブル記憶部32に記憶されており、上述した図10が生成関数テーブルの一例である。
図10に示すように、生成関数と生成関数の概型は韻律イベントの種類に対応付けられている。例えば、下降イベントであれば生成関数は上記式(2)である。また、デルタ関数生成部16は生成関数生成部162、加算部164とで構成されている。
まず生成関数生成部162で、入力に含まれる韻律イベント全てについて、韻律イベントに対応する生成関数が生成される。生成された生成関数を図14に示す。図14記載の生成関数の参照番号1001〜1007はそれぞれ図13の韻律イベントの参照番号901〜907と対応する。生成された生成関数1001〜1007は全て加算部164に入力される。
加算部164では、生成関数1001〜1007について、入力のアクセント句の開始時刻から終了時刻の各時刻の和を加算することでデルタ関数FD(t)が求められる。デルタ関数FD(t)の例を図15に示す。デルタ関数FD(t)とはF0値時系列を微分したもの、つまり、F0値時系列の増減を示す関数である。このようにして、アクセント句毎に、デルタ関数FD(t)は生成される。
なお、図10に示す生成関数テーブルの生成関数の下降イベントの生成関数(上記式(2))、盛り上がりイベントの生成関数(上記式(4))については、以下の説明のように、上昇イベントの生成関数(上記式(1))で表すことができる。以下説明すると、下降イベントの生成関数は上昇イベントの生成関数に「−」を付したものである。
盛り上がりイベントの生成関数については、まず上昇イベント、下降イベントの生成関数の継続時間を1/2にし、つまりσをσ/2に置き換える。そして継続時間が1/2の上昇イベントの生成関数をσ/2だけ負の方向に移動させ、つまりmをm−σ/2に置き換える。また継続時間が1/2の下降イベントの生成関数をσ/2だけ正の方向に移動させ、つまり、mをm+σ/2に置き換える。これら置き換えられた上昇イベントの生成関数と下降イベントの生成関数を加算することで、盛り上がりイベントの生成関数を求めることが出来る。以上のことから生成関数は上昇イベントの生成関数(上記式(1))となだらかな下降イベントの生成関数(上記式(3))とで表すことができる。
初期F0値生成部18では、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値が求められる(ステップS18)。
初期F0値パラメータデータベースは初期F0値パラメータデータベース記憶部26に記憶されている。初期F0値パラメータデータベースは上述した韻律イベントパラメータデータベースと同様に、例えば、二分木構成が考えられる。初期F0値パラメータデータベースの構成例を図16に示す。
アクセント句「よろしいですか」を例にして具体的に説明すると、まずルートノードであるノード1201の質問「現在のアクセント句のアクセント型が1型であるか」否かを検討する。アクセント句「よろしいですか」のアクセント型は3型であり、回答はNOである。よって、NOの符号が付与されたバスを通り、ノード1202に移動する。次にノード1202の質問「現在の句のアクセント型が0型であるか」否かを検討する。回答はNOであるので、NOの符号が付与されたバスを通り、ノード1204に移動する。次にノード1204の質問「文頭であるか」否かを検討する。アクセント句「よろしいですか」は文頭の句でないないので、回答はNOであり、NOの符号が付与されたバスを通り、ノード1207に移動する。ノード1207は葉ノードであり、質問は付与されておらず、初期F0値が記述されている。そこで、「よろしいですか」の初期F0値は5.2に決定される。なお、初期F0値パラメータデータベースの構成例はニ分木に限られず、様々な構成が考えられる。このようにして、初期F0値生成部18でアクセント句毎に初期F0値が求められ、F0値時系列生成部20へ入力される。また、初期F0値生成部18は図17のように、図13に示す表と、図15に示すデルタ関数と初期F0値を組み合わせたものを出力してもよい
F0値時系列生成部20では、デルタ関数生成部16からのアクセント句毎のデルタ関数と、初期F0値生成部18からのアクセント句毎の初期F0値とから、アクセント句毎にF0値時系列が生成される(ステップS20)。
具体的には、例えば、デルタ関数FD(t)の積分値に初期F0値を加算して、アクセント句毎のF0値時系列F(t)が生成される。tは開始時刻と終了時刻の間の任意の時間とする。つまり以下の式(5)でF0値時系列F(t)が生成される。
Figure 2008191525
ここでt1はアクセント句の開始時刻を示す。右辺の積分演算の意味は、上述の通り、デルタ関数FD(t)はF0値時系列を微分したものであるので、デルタ関数FD(t)を積分することで、F0値時系列を求めることが出来る。図18は、F0値時系列生成部20での処理結果である上記式(5)の演算結果、つまり生成されたアクセント句「よろしいですか」のF0値時系列を示すものである。
上述のように、例えば、アクセント句「よろしいですか」の場合、初期F0値と7つの韻律イベントそれぞれに3つずつの韻律イベントパラメータが生成される。よって、合計22の韻律パラメータだけで、F0値時系列を表現することが出来る。一方、従来技術1では「YOROSIIDESUKA」という13個の音韻毎に6個のパラメータが必要であり、つまり78個のパラメータが必要である。従って、この実施例では少ないパラメータでF0値時系列を生成することが可能になり、結果としてコストを下げることが出来、上記第1の問題点は解決される。
また、アクセント句「よろしいですか」のアクセント型は3型であり、対応したF0値の動きに加えて、最後の「か」に対応したF0値の上昇が実現されている。よって、疑問口調に限らず、様々な口調に対応したF0値時系列を生成することができるので上記第2の問題点も解決される。
この実施例2では、処理を簡素にするため、実施例1で説明した韻律イベント生成部12、口調別韻律イベント追加部13、韻律イベントパラメータ生成部14、韻律イベントパラメータ変換部22との構成を統合して、韻律イベント部54としてF0値時系列生成装置52を作動させるものである。
図19は実施例2の機能構成例を示した図である。韻律イベント部54では、アクセント型、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、更に口調別韻律イベントを追加し、韻律イベント、口調別韻律イベント毎に韻律イベントパラメータが生成される。
韻律イベントパラメータテーブルは韻律イベントパラメータテーブル記憶部29に記憶されている。図20に韻律イベントパラメータテーブルを示す。韻律イベントパラメータテーブルは、例えば、図6記載の韻律イベントテーブルと図8記載の口調別韻律イベントテーブルを統合させ、韻律イベント、口調別韻律イベント毎に対応する韻律イベントパラメータを付加させたものである。韻律イベント部では、図6記載の韻律イベントテーブル、図8記載の口調別韻律イベントテーブル、図11記載の韻律イベントパラメータデータベースを用いない。
まず、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが韻律イベント部54に入力される。韻律イベント部54で、韻律イベントパラメータテーブルを用いて、アクセント句のアクセント型に応じて韻律イベントが生成され、同時に、その韻律イベントに対応する振幅パラメータA、位置パラメータm、継続時間パラメータσが求められる。以後のデルタ関数生成部16などの処理は実施例1と同様なので、省略する。
この実施例2は実施例1よりも少ないコストで実施することが出来る。
この実施例3は、実施例1で説明したデルタ関数生成部16、初期F0値生成部18、F0値時系列生成部20を統合させてF0値時系列部58として、韻律イベントパラメータ生成装置56を処理させるものである。図21は実施例3の機能構成例である。
F0値時系列部58では、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列が生成される。所定の生成関数とは、例えば、上昇イベントの生成関数(上記式(1))、なだらかな下降の生成関数(上記式(3))などが挙げられる。上述したように、下降イベントの生成関数、盛り上がりイベントの生成関数は上昇イベントの生成関数から求めることが出来る。
まず、F0値時系列部58で韻律イベントに対応する生成関数が求められる。また例えば、上記の方法で初期F0値が求められ、韻律イベントパラメータ変換部22で求められた韻律イベントパラメータが生成関数に適用される。また、例えば実施例1で説明した手法で初期F0値が求められ、これらより、F0値時系列が求められる。
実施例1では、生成関数の加算後、積分計算してF0値時系列を求めていたが、この実施例3では、積分計算がされた生成関数を加算して、F0値時系列を求めること等ができる。この実施例3は実施例1で説明した処理の順序でなくとも、目的が達成される点で有効である。
この実施例4では、実施例2で説明した韻律イベント部54と実施例3で説明したF0値時系列部58とでF0値時系列生成装置60は構成される。図22は実施例4の機能構成例である。処理内容は、実施例2、実施例3で説明した通りなので、説明を省略する。
以上説明したF0値時系列生成処理の過程では、F0値の対数の値の時系列を生成してから、指数関数を用いてF0値時系列を合成するものとする。従って、生成関数の韻律イベントパラメータや初期F0値については、F0値の対数をとった数値が例として示されている。これは、対数領域でのF0値の変化が聴感上の変化によく対応するという知見を反映した処理である。もちろん、対数F0値を用いず、線形のF0値を用いる場合でも、韻律イベントパラメータデータベースや初期F0値パラメータデータベースに含まれる数値を線形F0値とすれば、同様の処理で直接F0値時系列を生成することが可能である。
以上の各実施形態の他、本発明であるF0値時系列生成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、F0値時系列生成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この発明のF0値時系列生成装置における処理をコンピュータによって実現する場合、F0値時系列生成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、F0値時系列生成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(DigitalVersatileDisc)、DVD−RAM(RandomAccessMemory)、CD−ROM(CompactDiscReadOnlyMemory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Opticaldisc)等を、半導体メモリとしてEEP−ROM(ElectronicallyErasableandProgrammable−ReadOnlyMemory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(ApplicationServiceProvider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、F0値時系列生成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の実施例1の機能構成例を示すブロック図。 この発明の実施例1の主な処理の流れを示すフローチャート。 アクセント句分割・付与部2の出力例を示す図。 モーラ分割・付与部4の出力例を示す図。 モーラ分割・付与部4のその他の出力例を示す図。 韻律イベントテーブルの例を示す図。 韻律イベント生成部12の出力例を示す図。 口調別韻律イベントテーブルの例を示す図。 口調別韻律イベント追加部13の出力例を示す図。 生成関数テーブルの例を示す図。 韻律イベントパラメータデータベースの構成例を示す図。 韻律イベントパラメータ生成部14の出力例を示す図。 韻律イベントパラメータ変換部22の出力例を示す図。 生成関数生成部162の出力例を示す図。 加算部164の出力例を示す図。 初期F0値パラメータデータベースの構成例を示す図。 初期F0値生成部18の出力例を示す図。 F0値時系列生成部20の出力例を示す図。 この発明の実施例2の機能構成例を示す図。 韻律イベントパラメータテーブルの例を示す図。 この発明の実施例3の機能構成例を示す図。 この発明の実施例4の機能構成例を示す図。

Claims (10)

  1. アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成装置であって、
    アクセント型と、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント部と、
    韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列部と、
    を有することを特徴とするF0値時系列生成装置。
  2. 請求項1記載のF0値時系列生成装置であって、
    上記韻律イベント部は、
    上記韻律イベントパラメータテーブルに代えて、
    韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成部と、
    口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加部と、
    韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータを生成する韻律イベントパラメータ生成部と、
    を有するものであることを特徴とするF0値時系列生成装置。
  3. 請求項2記載のF0値時系列生成装置であって、
    上記複数の韻律イベント及び口調別韻律イベントは上昇、下降、なだらかな下降、盛り上がり、であることを特徴とするF0値時系列生成装置。
  4. 請求項1〜3何れかに記載のF0値時系列生成装置であって、
    上記F0値時系列部は、
    韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成部と、
    初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成部と、
    デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成部と、を有することを特徴とするF0値時系列生成装置。
  5. 請求項1〜4何れかに記載のF0値時系列生成装置であって、
    上記生成関数は、
    Figure 2008191525
    又は
    −A(m−t)σexp(−σ(m−t))であり、
    上記韻律イベントパラメータはA、σ、mであることを特徴とするF0値時系列生成装置。
  6. 請求項2〜5に何れかに記載のF0値時系列生成装置であって、
    上記韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納されており、
    上記韻律イベントパラメータ生成部が生成した正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換部を有することを特徴とするF0値時系列生成装置。
  7. アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のF0値時系列を生成するF0値時系列生成方法であって、
    韻律イベント手段が、アクセント型と、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント過程と、
    F0値時系列手段が、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にF0値時系列を生成するF0値時系列過程と、
    を有することを特徴とするF0値時系列生成方法。
  8. 請求項7記載のF0値時系列生成方法であって、
    上記韻律イベント過程は、
    韻律イベント生成手段が、
    上記韻律イベントパラメータテーブルに代えて、
    韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成過程と、
    口調別韻律イベント追加手段が、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加過程と、
    韻律イベントパラメータ生成手段が、正規化された韻律イベントパラメータ(以下、正規化韻律イベントパラメータという)が格納された韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に正規化韻律イベントパラメータを生成する韻律イベントパラメータ生成過程と、
    韻律イベントパラメータ変換手段が、上記韻律イベントパラメータ生成過程で生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換過程と、を有し、
    上記F0値時系列過程は、
    デルタ関数生成手段が、韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるF0値時系列のデルタ関数として生成するデルタ関数生成過程と、
    初期F0値生成手段が、初期F0値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期F0値を求める初期F0値生成過程と、
    F0値時系列生成手段が、デルタ関数と初期F0値とからアクセント句毎にF0値時系列を生成するF0値時系列生成過程と、を有することを特徴とするF0値時系列生成方法。
  9. 請求項1〜6何れかに記載のF0値時系列生成装置の各処理をコンピュータに実行させるためのF0値時系列生成プログラム。
  10. 請求項9記載のF0値時系列生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007027547A 2007-02-07 2007-02-07 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 Active JP4787769B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007027547A JP4787769B2 (ja) 2007-02-07 2007-02-07 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007027547A JP4787769B2 (ja) 2007-02-07 2007-02-07 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008191525A true JP2008191525A (ja) 2008-08-21
JP4787769B2 JP4787769B2 (ja) 2011-10-05

Family

ID=39751667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007027547A Active JP4787769B2 (ja) 2007-02-07 2007-02-07 F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4787769B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
US9830904B2 (en) 2013-12-20 2017-11-28 Kabushiki Kaisha Toshiba Text-to-speech device, text-to-speech method, and computer program product

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01316800A (ja) * 1988-06-17 1989-12-21 Hitachi Ltd 音声規則合成方式
JPH05173590A (ja) * 1991-12-26 1993-07-13 Oki Electric Ind Co Ltd 基本周波数パタン生成方法
JP2003330482A (ja) * 2002-05-14 2003-11-19 Toshiba Corp 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01316800A (ja) * 1988-06-17 1989-12-21 Hitachi Ltd 音声規則合成方式
JPH05173590A (ja) * 1991-12-26 1993-07-13 Oki Electric Ind Co Ltd 基本周波数パタン生成方法
JP2003330482A (ja) * 2002-05-14 2003-11-19 Toshiba Corp 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
US9830904B2 (en) 2013-12-20 2017-11-28 Kabushiki Kaisha Toshiba Text-to-speech device, text-to-speech method, and computer program product

Also Published As

Publication number Publication date
JP4787769B2 (ja) 2011-10-05

Similar Documents

Publication Publication Date Title
US7603278B2 (en) Segment set creating method and apparatus
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP6121273B2 (ja) 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
WO2016103652A1 (ja) 音声処理装置、音声処理方法、および記録媒体
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP5875504B2 (ja) はなし言葉分析装置とその方法とプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2014095851A (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
JP2004054063A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP6036681B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
JP2005234418A (ja) F0輪郭を合成する方法及びコンピュータプログラム
CN117672179A (zh) 一种支持智能处理的语音合成方法及系统
JP2009237564A (ja) 音声合成用データの選択方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110715

R150 Certificate of patent or registration of utility model

Ref document number: 4787769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350