JP4584511B2 - 規則音声合成装置 - Google Patents
規則音声合成装置 Download PDFInfo
- Publication number
- JP4584511B2 JP4584511B2 JP2001273235A JP2001273235A JP4584511B2 JP 4584511 B2 JP4584511 B2 JP 4584511B2 JP 2001273235 A JP2001273235 A JP 2001273235A JP 2001273235 A JP2001273235 A JP 2001273235A JP 4584511 B2 JP4584511 B2 JP 4584511B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- statistic
- speech
- learning
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は規則音声合成装置に関し、例えば、任意の語彙を音声合成する場合などに用いて好適なものである。
【0002】
【従来の技術】
従来、テキスト文章を音声にして出力するテキスト音声変換は、テキスト解析部と規則音声合成部(パラメータ生成部と音声合成部)から構成される。
【0003】
テキスト解析部では、漢字かな混じり文(日本語テキスト)を入力して、単語辞書を参照して当該テキストに対し形態素解析を行い(必要なら構文解析、意味解析等も行って)、各形態素の読み、およびその読みに関する韻律(すなわち、アクセント、イントネーション等)を示す韻律記号を決定し、韻律記号付き発音記号(中間言語)を出力する。
【0004】
この韻律記号付き発音記号から音声を合成するのが、規則音声合成部であり、パラメータ生成部と音声合成部から構成される。
【0005】
パラメータ生成部では、韻律に関するピッチ周波数パターンや音韻継続時間長、ポーズ、振幅等の設定を行う。
【0006】
音声合成部では、目的とする音韻系列(中間言語)中にあらわれる音声合成単位を、あらかじめ蓄積されている音声データから選択し、パラメータ生成部で決定したパラメータに従って、結合/変形して音声の合成処理を行う。
【0007】
音声合成の単位である音声合成単位としては、音素、音節(CV)、VCV,CVC(C:子音、V:母音)が使用可能である。
【0008】
このうち音素は、たかだか50種類程度しか存在しないため、取り扱う音響データの種類が少ない点で有利であるが、調音結合に対する規則化が不可欠であり、またその規則化が困難でもある。そのため、音質は悪く、音素は合成単位としては現在ではほとんど用いられていない。
【0009】
これに対し、複数の音素を包含する音節を音声合成単位とした場合には、音素間の調音結合特性も1音節単位のなかに含まれるために調音結合に関する規則を生成する必要はない。特に、VCV形音節は母音で子音をはさむため、子音の明瞭度が高い。また、CVC形音節は振幅の小さい子音で接続するため接続歪みは小さい。さらに最近では、合成単位として音韻連鎖を拡張した単位も一部用いられている。
【0010】
音声合成単位中の音声データとしては、原音声波形をそのまま利用して、これに基づいて品質劣化の少ない高品質の合成音を得る手法が用いられるようになって来ている。
【0011】
一方、上述した従来のテキスト音声変換によって、より自然性の高い合成音声を出力するためには、音声合成単位の種類、素片品質、合成方式と共に、前記パラメータ生成部でのパラメータ(ピッチ周波数パターン、音韻継続時間長、ポーズ、振幅)をいかに自然音声に近くなるよう適切に制御するかがきわめて重要となる。
【0012】
それらのパラメータの中で、特に、ポーズ長は、いわゆる間(ま)に相当し、長すぎると止まっているような感じで、短すぎると聞いていてせわしなく疲れてしまう。ポーズ長を制御する方法としては、従来、次の文献1に記載された方法がある。
【0013】
文献1:特開平6−59695公報
当該文献1に記載された技術では、主に局所的な係り受け関係を用いて、1モーラ長と3モーラ長の2種類のポーズを設定する。
【0014】
この方法では、まず、ポーズの種類を分類し、次の式(1)にしたがってポーズ長を推定する。
【0015】
【数1】
例えば、3モーラ長処理の場合には、この式(1)のポーズグループの平均ポーズ長を3モーラとする。
【0016】
【発明が解決しようとする課題】
ところがこの方法では、前記式(1)にしたがってポーズ長を推定するとき、特定個人の発声する自然音声に応じたデータを用いることがあり得るが、その場合には、前記推定ポーズ長に当該個人の自然音声の癖が出て、それを変更できず、柔軟性に欠ける。
【0017】
また、複数人の発声する自然音声に応じたデータを用いて推定する場合、複数人の発声速度がそれぞれ異なるのでポーズ長も異なり、複数人のデータをまとめて扱うと不適切であり、自然な合成音声を得られない可能性が高まる。
【0018】
さらに、これらのいずれのケースでも、合成音声を生成しようとするユーザが好みの長さのポーズ長を選択できないことも、合成音声生成の自由度や、柔軟性の点で問題である。
【0019】
かかる問題点に鑑み、本発明は、自由度が高く、柔軟性に富み、自然な合成音声を生成することができる規則音声合成装置を提供することを目的とする。
【0020】
【課題を解決するための手段】
かかる課題を解決するために、本発明では、統計モデルを利用し、少なくともポーズ長に関する制御規則を含む韻律規則を用いて音声を合成する規則音声合成装置において、(1)所定の学習用基礎音声データをもとに、前記ポーズ長に関する所定の統計量を算出する統計量算出手段と、(2)当該統計量を用いて前記学習用基礎データを正規化して正規化量を算出する学習用正規化手段と、(3)当該正規化量に応じて前記ポーズ長を学習して学習結果量を算出するポーズ長学習手段と、(4)供給される音韻記号に由来する第1の入力量と当該学習結果量をもとに予測ポーズ長を算出する統計モデル予測手段と、(5)前記統計量に由来する第2の入力量を用いて逆正規化することにより、当該予測ポーズ長を変更する逆正規化手段とを備えたことを特徴とする。
【0021】
【発明の実施の形態】
(A)実施形態
以下、本発明にかかる規則音声合成装置を、入力された文音声(テキスト音声)に応じた合成音声を出力するテキスト音声変換装置に適用した場合を例に、第1〜第4の実施形態について説明する。
【0022】
(A−1)第1の実施形態の構成
本実施形態のテキスト音声変換装置の全体構成例を図2に示す。当該テキスト音声変換装置は、全体として、一種の音声合成装置を構成している。
【0023】
図2において、当該テキスト音声変換装置は、テキスト解析部101と、単語辞書102と、パラメータ生成部103と、音声合成部104と、素片辞書105と、素片作成部106とを備えている。
【0024】
このうちテキスト解析部101は、漢字かな混じり文S11を入力し、単語辞書102を参照して当該文S11の形態素解析を行い、(必要なら構文解析、意味解析等も行って)この解析により得られた形態素の読み、アクセント、およびイントネーションを決定し、韻律記号付き発音記号(中間言語)S12を出力する部分である。
【0025】
当該中間言語S12を受け取るパラメータ生成部103は、中間言語S12自身に基づいて使用すべき素片辞書105内の素片アドレスを選択し、また、ピッチ周波数パターンや音韻継続時間長、ポーズ長、振幅等の設定を行う。このうち当該ポーズ長の設定に寄与する部分が、後述するポーズ長算出部103Aである。
【0026】
素片辞書105は、音素や音節よりも細かい1ピッチ周期単位の波形(音声素片)を格納している辞書である。当該素片辞書105に格納される素片は、音声データS19をもとに素片作成部106が予め作成し、当該素片辞書105に格納しておくものである。本実施形態のテキスト音声変換装置によって合成される合成音声は、当該素片辞書105が各素片アドレスで指定される記憶領域に格納している素片をもとにして合成される。
【0027】
パラメータ生成部103では、韻律に関するピッチ周波数パターンや音韻継続時間長、ポーズ、振幅等の設定を行い、音声合成部104では、目的とする音韻系列(中間言語)中にあらわれる音声合成単位を、あらかじめ蓄積されている音声データから選択し、パラメータ生成部103で決定したパラメータに従って、結合/変形して音声の合成処理を行う。当該パラメータ生成部103は、音声合成部104とともに、規則音声合成部を構成する。
【0028】
なお、本実施形態は、上述した音声合成単位に関しては、原音声波形(ここでは、音声素片)をそのまま利用するケースに近いので、規則音声合成方式でありながら、編集合成方式に近い一面を有している。これによって品質劣化の少ない高品質の合成音を得ることが可能となる。
【0029】
また、本実施形態においても従来同様、より自然性の高い合成音声を出力するためには、音声合成単位の種類、素片品質、合成方式と共に、前記パラメータ生成部103でのパラメータ(ピッチ周波数パターン、音韻継続時間長、ポーズ、振幅)をいかに自然音声に近くなるよう適切に制御するかが極めて重要となる。
【0030】
これらのパラメータの中でも、本実施形態が主として取り扱うポーズ長は、いわゆる間(ま)に相当し、長すぎると止まっているような感じで、短すぎると聞いていてせわしなく疲れてしまうため、人間にとって快適で、自然な合成音声を得るために特に重要なパラメータである。
【0031】
前記音声合成部104が音声合成に用いる方法としては、従来の種々の方法が適用できるが、例えば、波形重畳法を用いることも好ましい。
【0032】
波形重畳法は、特開平10−254495号公報に記載されたように、ピッチマークを中心とする窓を掛けて音声素片を作成しておき、パラメータ生成部103が生成するピッチ周期間隔でピッチマークをずらしながら重畳して行くものである。ピッチマークとしては例えば個々の音声素片の最初の極大値を用いることができる。
【0033】
前記パラメータ生成部103で決定した音韻の継続時間長は、日本語の等モーラ規則(自然音声中のモーラ長がほぼ等しい性質で、英語などにはみられない特質)に基づき、主に母音部の伸縮によって音韻継続時間長を調整する。すなわち、決定した音韻継続時間が素片より長い場合は、最後尾の素片を繰り返し使用し(伸長)、反対に短い場合は、途中で打ち切る(圧縮)処理を行なう。
【0034】
パラメータ生成部103で決定したポーズ長は、音声合成部104が出力する合成音声S14の有音区間のあいだに当該ポーズ長の長さの無音区間を挿入することによって、合成音声S14に反映される。
【0035】
次に、図1を参照しながら、本実施形態に特徴的な前記パラメータ生成部103の主要部であるポーズ長算出部103Aの構成例について説明する。パラメータ生成部103以外のテキスト音声変換装置の構成要素、すなわち、前記テキスト解析部101、単語辞書102、音声合成部104、素片辞書105、素片作成部107は、従来のものを利用することが可能である。
【0036】
また図1には、ポーズ長を出力するために必要なポーズ長算出部103Aだけを図示しているが、パラメータ生成部103内に、ピッチ周波数パターン、音韻継続時間長、振幅など、ポーズ長以外のパラメータを生成する構成要素も存在することは当然である。パラメータ生成部103内部のポーズ長算出部103A以外の構成要素(図示せず)は、従来のものをそのまま使用することが可能である。
【0037】
(A−1−1)ポーズ長算出部(パラメータ生成部)の構成例
図1において、当該ポーズ長算出部103Aは、ポーズ記号同定部201と、要因抽出部202と、ポーズ長予測部203と、逆正規化部204と、学習データ蓄積部205と、要因抽出部206と、正規化部207と、ポーズ統計量算出部208と、ポーズ長学習部209と、統計量選択部210とを備えている。
【0038】
このうち学習データ蓄積部205は、複数の話者が発声した自然音声に関する音韻記号のうちポーズ記号のラベリングされた音声データを学習データとして蓄積しておく部分である。この学習データの蓄積は、前記合成音声S14の生成に先立って実行される。当該学習データ蓄積部205内に蓄積される学習データは、全部でM人分のデータである。各話者の学習データは、当該話者が発声した自然音性から得られたポーズ長を示すデータで、一人分の学習データは、Lm個の要素データから構成されている。
【0039】
したがって、各話者を一意に指定する話者番号をm(m=1,2,…,M)とし、各要素データを識別する要素番号をl(l=1,2,…,Lm)とすると、当該学習データは一般に、g(m,l)の形で記述することができる。
【0040】
当該学習データ蓄積部205から当該学習データg(m,l)を受け取るポーズ統計量算出部208は、話者毎にポーズ長の統計量(平均、標準偏差)を算出する部分で、算出した統計量は正規化部207と、統計量選択部210に供給する。当該平均と標準偏差は、前記話者番号ごとに算出されるので、話者番号がmの場合、前記各要素データが示すポーズ長の平均はμmと書くことができ、標準偏差はσmと書くことができる。
【0041】
前記学習データ蓄積部205から各学習データg(m,l)を受け取ると共にとポーズ統計量算出部208から当該統計量を受け取る正規化部207は、これらをもとに次の式(2)で示される演算を実行して、g(m,l)の正規化を行う部分である。学習データg(m,l)は当該正規化によって正規化学習データn(m,l)に変換される。学習データg(m,l)はポーズ長を示すから、当該正規化学習データn(m,l)は、正規化されたポーズ長を示すものである。
【0042】
【数2】
同様に、前記学習データ蓄積部205から学習データg(m,l)を受け取る要因抽出部206は、学習(すなわち、ポーズ長学習部209が行う演算)を介してポーズ長を制御するための要因を抽出する部分である。学習を介してポーズ長を制御するため、当該要因の抽出は、少なくとも学習よりも先に実行しておく必要がある。一例としては、正規化部207が行う正規化と同時並列的に実行してもよい。
【0043】
抽出する要因の具体例としては、ポーズ前後の呼気段落(一息で発声される音声区間)の長さ(すなわちモーラ数)や、係り受け関係(係り受けの距離)などを用いることができる。なお、係り受けの距離とは、あるアクセント句(ひとまとまりの音調区間)と当該アクセント句との間に意味上の係り受けの関係を持つ他のアクセント句との距離を示す量である。
【0044】
前記正規化部207から前記正規化学習データn(m,l)を受け取り、当該要因抽出部206から要因を受け取るポーズ長学習部209は、所定の演算を実行することによりポーズ長に関する学習を実行する部分で、最終的には当該学習により後述する重み係数x(jk)を出力する。当該学習に対応する演算としては、統計モデルを用いた様々な演算を使用可能であるが、ここでは数量化I類モデルを用いるものとする。
【0045】
数量化I類モデルは、公知のように、多変量解析の1つであり、かつ質的な要因に基づいて目的となる外的基準(ここでは、ポーズ長)を算出するもので、以下の式(3)〜(5)で定式化される。
【0046】
【数3】
【数4】
【数5】
i番目のデータの要因アイテムをj、その属するカテゴリをk、そのカテゴリ数量(カテゴリに付与する係数)をx(jk)とするとき、ポーズ長の予測値y(i)は、前記式(3)で与えられる。また、前記式(4)は当該式(3)中のδ(jk)を示し、データiがjアイテムのkカテゴリに反応した時は1、それ以外の時は0を取る。
【0047】
式(3)中のx(jk)は、最小2乗法で求められる。すなわち、式(5)に示すように、ポーズ長の予測値y(i)と実測値Y(i)の2乗誤差が最小になるようにして求められる。本実施形態の場合、当該実測値Y(i)としては、正規化部207から供給される前記正規化学習データn(m,l)を用いる。
【0048】
式(5)の2乗誤差を最小にするx(jk)を求めるには、式(5)をx(jk)で偏微分して方程式を解く必要があり、コンピュータによる実際の計算としては、連立方程式を解く数値解析問題に帰着できる。このようにしてポーズ長学習部209が算出した重み係数x(jk)は、ポーズ長予測部203に供給される。
【0049】
一方、統計量選択部210は、前記ポーズ統計量算出部208から統計量を受け取る点では前記正規化部207と同じであるが、受け取る統計量は必ずしも正規株207と同じである必要はない。すなわち、前記ポーズ統計量算出部208が前記正規化部207に供給した統計量の基礎となった学習データの話者番号と、統計量選択部210に供給する統計量の基礎となる学習データの話者番号は同じであってもよく、相違してもよい。
【0050】
ただし本実施形態の利点は、これらを相違させたときに顕在化する。
【0051】
いずれにしても統計量選択部210は何らかの方法で話者番号に対する選択操作を行う必要がある。当該選択操作は、ポーズ統計量算出部208から複数の話者番号に関する統計量を予め取得して、取得した複数話者分の統計量のなかから特定の統計量を選択する操作であってもよく、あるいは、選択する話者番号をポーズ統計量算出部208に伝えて当該話者番号に対応する統計量だけを取得する操作であってもよい。
【0052】
統計量選択部210が取得し選択した統計量は、前記逆正規化部204に供給される。統計量選択部210が選択した話者番号を例えば、m0とすると、ポーズ長の平均μm0と、標準偏差σm0が当該逆正規化部204に供給されることになる。
【0053】
学習データには話者番号ごとに、自然音声発声(ここではポーズ長)に関する話者の個性(癖)が反映されているため、どの話者番号の学習データを用いるかによって、ポーズ長の特徴が変化し、合成音声S14が変質することになるが、正規化部207に供給された学習データの話者番号(m)と統計選択部210が選択した話者番号(m0)が相違する場合には、異なる二人の話者の個性が合成音声S14に反映されることになる。この場合、一般的には、正規化部207に供給され正規化を施された学習データの話者(話者番号mの話者)の個性よりも、統計選択部210が選択し正規化を施されていない話者(話者番号m0の話者)の個性のほうが支配的となるのが普通である。
【0054】
次に、当該逆正規化部204やポーズ長予測部203を含む、構成要素201〜204の第1の系統について説明する。上述したポーズ長学習部209,統計量選択部210などを含む構成要素205〜210の第2の系統が、合成音声S14の主として個性(特徴)に関する制御を行うのに対し、この第1の系統は、当該合成音声S14の主として無個性的で最大公約数的な部分を制御する。
【0055】
第1の系統の構成要素のうちポーズ記号同定部201は、前記テキスト解析部101が出力する中間言語S21に含まれる多種類の音韻記号列のなかからポーズ記号を同定することで、ポーズの入る位置を同定する部分である。中間言語S21は同定されたポーズの入る位置を示す情報とともに、要因抽出部202に供給される。
【0056】
これを受けた要因抽出部202は、ポーズ長に関連する所定の要因を抽出する。当該要因抽出部202の機能は、基本的に前記要因抽出部206の機能と同じであってよい。したがって当該要因抽出部202は、ポーズ前後の呼気段落のモーラ数や、係り受けの距離などを抽出してポーズ長予測部203に供給する。
【0057】
ポーズ長予測部203は、前記ポーズ長学習部209から重み係数x(jk)を受け取るので、要因抽出部202から受け取った要因のアイテムjやカテゴリkを用いて前記式(3)の演算を実行し、ポーズ長の予測値y(i)を算出することができる。当該ポーズ長の下限は0に制限しておくとよい。
【0058】
当該予測値y(i)を受け取るとともに、前記統計量選択部210が選択した統計量(前記平均μm0と、標準偏差σm0)を受け取る逆正規化部204は、これらを用いて次の式(6)で示す逆正規化を実行する部分である。
【0059】
【数6】
この逆正規化の結果は、信号S25として前記音声合成部S14に供給される。
【0060】
当該信号S25は、図2の音声合成部104に供給されるピッチ周波数パターン、音韻継続時間長、振幅などのパラメータS13の一構成要素となり、合成音声S14に反映される。
【0061】
以下、上記のような構成を有する本実施形態の動作について説明する。
【0062】
(A−3)第1の実施形態の動作
ここでは、前記学習データ蓄積部205の内部に例えば話者番号1〜6の話者に関する学習データが蓄積されているものとする。そして、各話者の学習データをもとにポーズ統計量算出部208が算出したポーズ長の平均と標準偏差が図4に示す通りであったものとする。
【0063】
図4において、例えば、話者番号1の話者の平均ポーズ長は422ms(ミリ秒)、ポーズ長の標準偏差は220msであり、話者番号4の話者の平均ポーズ長は261ms、ポーズ長の標準偏差は210msである。この数値から、話者番号1の話者は、比較的発声速度が遅くポーズ長の長い話者であり、話者番号4の話者は比較的発声速度が早くポーズ長の短い話者でることが分かる。
【0064】
そして前記統計量選択部210は、ポーズ統計量算出部208との連携により、少なくとも当該話者番号1および4の話者に関する各統計量をいつでも逆正規化部204に供給できる状態にある。
【0065】
いま、前記テキスト解析部101に図5(A)に示す文章が入力されものとする。新聞記事などの一部であるこの文章は、「当初予算比では過去最高の五兆七千億円、年度途中の所得税減税などを考慮すると七兆七千億円の自然増収があった計算になる。」というものであり、学習データ蓄積部205などには格納されていないものである。
【0066】
この文章のポーズが入る位置PS1〜PS5は、自然性の高い発声(あるいは合成音声)では例えば、「当初予算比では(PS1)過去最高の五兆七千億円、(PS2)年度途中の所得税減税などを(PS3)考慮すると(PS4)七兆七千億円の(PS5)自然増収があった計算になる。」のようになる。
【0067】
当該文章に対応する合成音声S14における各位置のポーズは、前記要因に応じて自然性を高めるように生成される。各位置のポーズ長の詳細は各式(2)〜(6)を解くことによって決定されるが、一般的には、前記要因のうち例えば、ポーズ前の呼気段落のモーラ数が多いほどポーズ長は長くなり、反対にポーズ前の呼気段落のモーラ数が少ないほどポーズ長は短くなる傾向を有する。ポーズ後の呼気段落のモーラ数についても同様であり、図5(B)の方法1,方法2に対応する各ポーズ長の各方法内における相対的な大小関係もこのような傾向にしたがったものとなっている。しかしながら、異なる方法間で同じ位置(例えばPS1)のポーズ長の値(例えば、506msと341ms)を比較するとかなり大きく相違している。
【0068】
当該方法1は、話者番号1の話者の学習データを用いて正規化部207で正規化を行うとともにポーズ長学習部209で学習を行い、話者番号1の話者の学習データを基礎とする統計量を用いて逆正規化部204で逆正規化を行うケースである。また、方法2は、話者番号1の話者の学習データを用いて正規化部207で正規化を行うとともにポーズ長学習部209で学習を行い、話者番号4の話者の学習データを基礎とする統計量を用いて逆正規化部204で逆正規化を行うケースである。
【0069】
図5(B)の方法1の行と方法2の行とを対比すると、統計量選択部210による選択操作が合成音声S14に与える影響が大きいことは明らかである。学習にも逆正規化にも話者番号1の学習データに由来するデータを使用する方法1の合成音声S14は純粋に話者番号1の話者の(ポーズ長に関する)個性だけを反映したものとなっているのに対し、学習には話者番号1の学習データに由来するデータを使用するものの逆正規化には話者番号4の学習データに由来するデータを使用する方法2の合成音声S14は、話者番号1の話者の個性と話者番号4の話者の個性の双方を反映し、これらがミックスされた個性を持つ。ただし当該方法2の合成音声S14では通常、話者番号4の話者の個性のほうが話者番号1の話者の個性よりも強く作用し、支配的である点は上述した通りである。
【0070】
このことから、当該テキスト音声変換装置のユーザは、当該統計量選択部210の選択操作を行うことによって、自由に合成音声S14の個性(特徴)を変化させることができることが分かる。逆正規化に用いる話者の個性のほうが支配的であるから、例えば、学習に用いる話者は話者番号1の話者に固定したままでも、逆正規化に用いる話者を話者番号4から変化させるだけで、簡便に、合成音声S14の個性を変化させることも可能である。
【0071】
なお、図5(C)は図5(A)とは別な文章の一例を示し、図5(D)は当該文章を本実施形態のテキスト音声変換装置で処理することによって得られるポーズ長の一例である。図5(D)の方法1,方法2の意味は、図5(B)と同様である。
【0072】
また、ポーズ長の平均や標準偏差などの統計量は必ずしも学習データ蓄積部205から得た学習データをもとにポーズ統計量算出部208が算出したものである必要はない。したがって、一例としては、発声を模倣したい人が存在する場合には、その人のポーズ長の平均、標準偏差が既知であれば、その人に近い個性を持つ合成音声S14を出力することも可能である。
【0073】
なお、以上の説明では統計量選択部210における選択操作で逆正規化に用いる統計量の基礎となる学習データの話者番号を選択するものとしたが、正規化部207が正規化する学習データの話者番号も選択することができるようにしてもよいことは当然である。
【0074】
(A−3)第1の実施形態の効果
以上のように本実施形態によれば、自然性の高い合成音声(S14)を出力することができるだけでなく、学習データ蓄積部に蓄積されている学習データ等を活用して、当該合成音声(S14)の個性(特徴)を柔軟に変化させたり、自由自在に作り出すことが可能である。
【0075】
また、必要に応じて、統計量選択部(210)の選択操作だけで合成音声(S14)の個性を変化させることもできるため、操作性が高く、使い勝手がよい。
【0076】
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
【0077】
この相違点は、前記統計量の選択操作に関連する部分にかぎられる。
【0078】
(B−1)第2の実施形態の構成および動作
本実施形態のポーズ長算出部103Bの主要部の構成例を図3に示す。図3において図1と同じ符号を付与した各構成要素および各信号の機能は、第1の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第1の実施形態とまったく同じで、図2はそのまま本実施形態の全体構成例も示している。
【0079】
第1の実施形態では図1に示す統計量選択部210に関連する部分の構成が必ずしも明確でなかったが、本実施形態では図3に示すように、この部分に選択テーブル部301を配置してある。
【0080】
この選択テーブル301の論理的な構成は、例えば図4に示すものであってよい。第1の実施形態では図4のテーブルを、単に話者番号ごとに平均ポーズ長とポーズ長の標準偏差を対応づけてまとめた表として使用したが、本実施形態では同じ図4が、選択テーブル部301に格納された選択テーブルの論理的な実体を示す。
【0081】
図4からも明らかなように、当該選択テーブルは、一種のデータベースを構成する。
【0082】
この選択テーブルを格納した選択テーブル部301に対して供給するユーザ切替信号S40によって、本実施形態のテキスト音声変換装置のユーザは選択テーブル上の組を選択することができる。テキスト音声変換装置を、ユーザが所望の個性を持つ合成音声S14を作成するための装置として使用する場合、ユーザが組(例えば、話者番号3,平均ポーズ長320ms、ポーズ長の標準偏差168msの組もその1つ)の選択を行うためには、何らかの方法で、当該ユーザに選択テーブルの内容を知らせることが必要になると考えられるが、それはユーザインタフェースの問題である。
【0083】
例えば、直接的に、図4に示す通りの選択テーブルの内容をディスプレイ装置(図示せず)上に画面表示してユーザに選択させることで当該選択に応じた前記ユーザ切替信号S40を選択テーブル部301に供給するようにしてもよいが、そのようなことは行わずに、検索キーとして話者番号をユーザに入力させ、当該話者番号に対応した組の内容を統計量S35として逆正規化部204に供給するようにしてもよい。
【0084】
いずれにしても有効なユーザ切替信号S40が選択テーブル部301に供給されると、当該ユーザ切替信号S40に応じた検索が実行され、検索結果として特定された組中の平均ポーズ長とポーズ長の標準偏差が、統計量S35として逆正規化部204に供給される。
【0085】
一例として、ユーザ切替信号S40によって話者番号4の組が特定された場合には、検索結果として平均ポーズ長261msとポーズ長の標準偏差210msが逆正規化部204に供給されることとなり、逆正規化部204では、当該平均ポーズ長261msが前記式(6)中のσm0に代入され、ポーズ長の標準偏差210msがμm0に代入されることで第1の実施形態と同様な逆正規化が行われる。
【0086】
なお、選択テーブルの内容は、ユーザからの要求に応じて更新することができるようにするとよい。当該更新では、指定した組を削除したり、新たに生成した組と入れ替えたり、従前の組は残したまま新たな組を追加したりすることができる。
【0087】
通常、このように新たな組の追加を行うには、その追加に対応できるだけの学習データが学習データ蓄積部205に存在しなければならないが、ユーザインタフェースがユーザから、任意の平均ポーズ長やポーズ長の標準偏差の入力を許している場合には、この限りではない。習熟したユーザならば、選択テーブル中に、好みの平均ポーズ長やポーズ長の標準偏差を入力することで、所望の特徴を持つ合成音声S14を生成することも容易である。
【0088】
また、第1の実施形態で述べた発声を模倣したい人が存在する場合には、ユーザが、その人のポーズ長の平均、標準偏差を当該選択テーブルに入力することになる。
【0089】
(B)第2の実施形態の効果
以上のように、本実施形態では、第1の実施形態の効果と同等な効果を得ることができる。
【0090】
加えて、本実施形態では、選択テーブル部を設けることによって、操作性を高めることが可能となる。
【0091】
(C)第3の実施形態
以下では、本実施形態が第1および第2の実施形態と相違する点についてのみ説明する。
【0092】
この相違点は、前記選択テーブル部301に関連する部分にかぎられる。
【0093】
(C−1)第3の実施形態の構成および動作
本実施形態のポーズ長算出部103Cの主要部の構成例を図6に示す。図6において図3と同じ符号を付与した各構成要素および各信号の機能は、第2の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第1の実施形態とまったく同じで、図2はそのまま本実施形態の全体構成例も示している。
【0094】
本実施形態の選択テーブル部301には、第2の実施形態で述べたディスプレイ装置に相当するGUI表示選択部601が接続されている。
【0095】
当該GUI表示選択部601は、ボタン、スライダなどの各種のコントロールを含むGUI(グラフィカル・ユーザ・インタフェース)を用い、マウスやトラックボールなどのポインティングデバイスによって前記コントロールを操作することでユーザの指示を受け付けるユーザフレンドリな操作環境を提供する。
【0096】
GUI画面の表示内容については様々なものが考えられるが、例えば、次のような画面表示も好ましい。
【0097】
すなわち、直感的にポーズ長の形態を表現する語(ゆっくり←ふつう→はやい、だらだら←ふつう→てきぱき、のろい←ふつう→速い、止まるような←ふつう→せわしない、ポーズの長い←ふつう→ポーズの短い等)を画面表示するものである。
【0098】
一例として、「ゆっくり←ふつう→はやい」を採用し、「ゆっくり」を示す押しボタンコントロールと、「ふつう」を示す押しボタンコントロールと、「はやい」を示す押しボタンコントロールを画面表示するようにしてもよい。
【0099】
図4の選択テーブルは上の組ほど平均ポーズ長が長くなるように整列されているため、例えば、合成音声S14の現時点のポーズ長が話者番号3に対応するものである場合、「ゆっくり」を示す押しボタンコントロールを1回押してユーザ切替信号S40が選択テーブル部301に供給されると話者番号2の組が選択され、2回押すと話者番号1の組が選択されるようになる。
【0100】
反対に、「はやい」を示す押しボタンコントロールを押すと、そのたびに平均ポーズ長が話者番号3の組よりも短い話者番号4の組や、話者番号5の組などが選択されるようになる。
【0101】
また、現時点のポーズ長が話者番号3のポーズ長よりも長い場合や短い場合には、「ふつう」を示す押しボタンコントロールを押すたびに話者番号3(4でも可)の組に向かって選択を変化させることとなる。
【0102】
なお、図4には6つの組しか存在しないが、選択テーブル内の組は7つ以上であってもよいことは当然である。組数を増やして、隣接組間の平均ポーズ長の差を小さくすれば、合成音声S14のポーズ長に関し、より細密な制御を行うことが可能となる。
【0103】
また、組数は必要ならば5つ以下であってもかまわない。
【0104】
(C−2)第3の実施形態の効果
本実施形態によれば、第2の実施形態と同等な効果を得ることができる。
【0105】
加えて、本実施形態では、選択テーブル部(301)とユーザのあいだにGUI表示選択部を介在させることにより、間接的にポーズ長を選択できるので、ユーザーは直接的に数値を扱う必要が無く、直感的に選択可能である。
【0106】
したがって本実施形態によれば、テキスト音声変換装置などの音声合成装置に不慣れなユーザであっても、自然性の高い合成音声(S14)の特徴を柔軟に変化させることが可能である。
【0107】
(D)第4の実施形態
以下では、本実施形態が第1〜第3の実施形態と相違する点についてのみ説明する。
【0108】
この相違点は、前記統計量選択部210あるいは選択テーブル部301に関連する部分にかぎられる。
【0109】
(D−1)第4の実施形態の構成および動作
本実施形態のポーズ長算出部103Dの主要部の構成例を図7に示す。図7において図6と同じ符号を付与した各構成要素および各信号の機能は、第3の実施形態と同じである。また、本実施形態のテキスト音声変換装置の全体構成例は第1の実施形態とまったく同じで、図2はそのまま本実施形態の全体構成例も示している。
【0110】
本実施形態で、前記ポーズ統計量算出部208から統計量を受け取るのは、統計量記憶部705である。
【0111】
この統計量記憶部705に加えて、本実施形態のポーズ長算出部103Dは、図7に示すように、第1〜第3の実施形態には存在しなかった各構成要素701〜704を備えている。
【0112】
すなわちポーズ長算出部103Dは、入力部701と、表示器702と、制御部703と、画像メモリ704とを備えている。
【0113】
統計量記憶部705はポーズ統計量算出部208が算出した統計量またはユーザが任意に入力した統計量を記憶しておき、ユーザからの要求に応じて画像メモリ704に供給する部分である。
【0114】
画像メモリ704に供給された統計量は、表示器702によってユーザに目視され認識される。当該表示器702は、第3の実施形態と同様なGUIや、CUI(キャラクタ・ユーザ・インタフェース)であってもかまわないが、所定の統計量以外の汎用的な情報を表示できる画面を持たない統計量専用の表示器であってもよい。表示器702が汎用的な情報を表示できる画面を持たない場合、構成要素704も画像メモリである必要はなく、例えば、24ビット程度のレジスタで十分である。
【0115】
当該表示器702は少なくとも、画像メモリ704内の統計量がユーザにとって可読な形になるように変換する機能(例えば、2進数から10進数への変換機能など)を備えている。
【0116】
入力部701はユーザからの統計量に関する入力を受け付ける部分である。入力部701の具体例としては、通常のキーボード、テンキー等の他に、手書き文字認識装置、音声認識装置などを用いて差し支えない。また、入力部701と表示器702が一体となったタッチパネルなどを用いることもできる。本実施形態の入力部701は統計量以外の汎用的な入力情報を受け付ける必要はないため、数字の入力だけを受け付けることができれば十分である。
【0117】
ユーザが当該入力部701から入力した統計量はいったん画像メモリ704に格納されるので、そのときユーザは、表示器702を介して自身の入力を目視確認することができ、必要なだけ修正を繰り返すこともできる。ユーザがその統計量を最終的に選択する旨の操作を行えば、当該統計量は、統計量記憶部705を介して前記逆正規化部204に供給される。
【0118】
一般的に、どのような統計量を入力したとしても何らかの合成音声S14を出力することは可能であるが、自然性の高い合成音声S14を出力したり、所望の特徴を持つ合成音声S14を出力するためには、テキスト音声変換装置の機構および合成音声の原理に関する十分な知識と習熟が必要である。本実施形態は主として、このような知識を持つ習熟したユーザを想定したものである。
【0119】
習熟したユーザの場合、予め用意された選択肢(前記選択テーブルの組)のなかから選択するよりも、本実施形態のように任意の統計量を入力するような構成を取ったほうが、逆正規化部204に供給する統計量をきめ細かく設定し、より細密に合成音声S14の特徴を指定することが可能である。
【0120】
例えば、当該ユーザが音声合成装置開発者である場合には、本実施形態は、設定したポーズ長をチューニングするのにも好適である。
【0121】
(D−2)第4の実施形態の効果
本実施形態によれば、第1〜第3の実施形態とほぼ同等な効果を得ることが可能である。
【0122】
加えて、本実施形態では、逆正規化部(204)に供給する統計量をきめ細かく設定し、より細密に合成音声(S14)の特徴を指定することが可能である。
【0123】
(E)他の実施形態
なお、上記第1〜第4の本実施形態では、学習・予測に数量化I類を用いる構成としたが、本発明はこれに限定されるものではなく、他の回帰モデルを用いても良い。
【0124】
また、上記第3の実施形態では、ボタン、スライダ等から構成されるGUI表示選択部501は、ポーズ長の形態を表現する語を含むように構成したが、ボタン、スライダ等は単独で構成しても良い。さらに、ポーズ長の形態を表現する語からなるテーブルから選択テーブル部301内の選択テーブルが参照されるような構成にしても良い。
【0125】
なお、第1〜第4の実施形態では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
【0126】
【発明の効果】
以上に説明したように、本発明によれば、規則音声合成装置の柔軟性や自由度を高め、なおかつ、自然な合成音声が得ることが可能となる。
【図面の簡単な説明】
【図1】第1の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図2】第1の実施形態に係るテキスト音声変換装置の主要部の構成例を示す概略図である。
【図3】第2の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図4】第2の実施形態に係るテキスト音声変換装置で使用する選択テーブルの構成例を示す概略図である。
【図5】第1〜第4の実施形態の動作説明図である。
【図6】第3の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【図7】第4の実施形態に係るテキスト音声変換装置で使用するポーズ長算出部の構成例を示す概略図である。
【符号の説明】
101…テキスト解析部、102…単語辞書、103…パラメータ生成部、103A…ポーズ長算出部、104…音声合成部、105…素片辞書、106…素片作成部、201…ポーズ記号同定部、202、206…要因抽出部、203…ポーズ長予測部、204…逆正規化部、205…学習データ蓄積部、207…正規化部、208…ポーズ統計量算出部、209…ポーズ長学習部、210…統計量選択部、301…選択テーブル、601…GUI表示選択部、704…画像メモリ、705…統計量記憶部。
Claims (4)
- 統計モデルを利用し、少なくともポーズ長に関する制御規則を含む韻律規則を用いて音声を合成する規則音声合成装置において、
所定の学習用基礎音声データをもとに、前記ポーズ長に関する所定の統計量を算出する統計量算出手段と、
当該統計量を用いて前記学習用基礎データを正規化して正規化量を算出する学習用正規化手段と、
当該正規化量に応じて前記ポーズ長を学習して学習結果量を算出するポーズ長学習手段と、
供給される音韻記号に由来する第1の入力量と当該学習結果量をもとに予測ポーズ長を算出する統計モデル予測手段と、
前記統計量に由来する第2の入力量を用いて逆正規化することにより、当該予測ポーズ長を変更する逆正規化手段とを備えたことを特徴とする規則音声合成装置。 - 請求項1の規則音声合成装置において、
前記学習用基礎音声データを、複数人の話者が発声する自然音声をもとに話者ごとに区別して生成した話者音声データから構成しておき、複数の話者音声データの中から、前記第2の入力量として使用する話者音声データを選択する音声データ選択手段を備えたことを特徴とする規則音声合成装置。 - 請求項1または2の規則音声合成装置において、
文字データを解析することで前記音韻記号を生成する文字データ解析手段を備えたことを特徴とする規則音声合成装置。 - 請求項2の規則音声合成装置において、
算出された各統計量を予め蓄積するか、又は前記統計量算出手段が同時に複数の話者音声データに関して統計量の算出を行うようにしておき、各統計量に対するユーザからの明示的な選択操作に応じて、蓄積してある、または同時に算出した各統計量の中から選択した統計量を前記第2の入力量とする統計量選択手段を備えたことを特徴とする規則音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001273235A JP4584511B2 (ja) | 2001-09-10 | 2001-09-10 | 規則音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001273235A JP4584511B2 (ja) | 2001-09-10 | 2001-09-10 | 規則音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003084787A JP2003084787A (ja) | 2003-03-19 |
JP4584511B2 true JP4584511B2 (ja) | 2010-11-24 |
Family
ID=19098476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001273235A Expired - Fee Related JP4584511B2 (ja) | 2001-09-10 | 2001-09-10 | 規則音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4584511B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4621936B2 (ja) * | 2005-09-16 | 2011-02-02 | 株式会社国際電気通信基礎技術研究所 | 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム |
JP5975033B2 (ja) * | 2011-07-11 | 2016-08-23 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
JP6633466B2 (ja) * | 2016-07-12 | 2020-01-22 | 日本電信電話株式会社 | ポーズ長制御装置、ポーズ長制御方法、およびプログラム |
JP7133998B2 (ja) * | 2018-06-21 | 2022-09-09 | 日本放送協会 | 音声合成装置及びプログラム |
WO2020013075A1 (ja) * | 2018-07-12 | 2020-01-16 | ソニー株式会社 | 積和演算システム及び積和演算方法 |
CN110782871B (zh) | 2019-10-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 一种韵律停顿预测方法、装置以及电子设备 |
CN113838452B (zh) | 2021-08-17 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和计算机存储介质 |
CN113838453B (zh) * | 2021-08-17 | 2022-06-28 | 北京百度网讯科技有限公司 | 语音处理方法、装置、设备和计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000221989A (ja) * | 1999-01-28 | 2000-08-11 | Oki Electric Ind Co Ltd | 音声合成装置、規則音声合成方法及び記憶媒体 |
-
2001
- 2001-09-10 JP JP2001273235A patent/JP4584511B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000221989A (ja) * | 1999-01-28 | 2000-08-11 | Oki Electric Ind Co Ltd | 音声合成装置、規則音声合成方法及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2003084787A (ja) | 2003-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809572B2 (en) | Voice quality change portion locating apparatus | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
US6226614B1 (en) | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon | |
US6499014B1 (en) | Speech synthesis apparatus | |
US5940797A (en) | Speech synthesis method utilizing auxiliary information, medium recorded thereon the method and apparatus utilizing the method | |
JP4125362B2 (ja) | 音声合成装置 | |
JPH05333900A (ja) | 音声合成方法および装置 | |
JP3616250B2 (ja) | 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体 | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP4584511B2 (ja) | 規則音声合成装置 | |
JP5029884B2 (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
JP3483230B2 (ja) | 発声情報作成装置 | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP2001306087A (ja) | 音声データベース作成装置および音声データベース作成方法および記録媒体 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2001134283A (ja) | 音声合成装置および音声合成方法 | |
JP6809608B2 (ja) | 歌唱音生成装置及び方法、プログラム | |
JPH07140996A (ja) | 音声規則合成装置 | |
JP6727477B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
Hill et al. | Unrestricted text-to-speech revisited: rhythm and intonation. | |
JPH03245192A (ja) | 外国語単語の発音決定方法 | |
JP2011180368A (ja) | 合成音声修正装置および合成音声修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080303 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20081126 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100810 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4584511 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |