JP3550303B2 - ピッチパターン生成方法およびピッチパターン生成装置 - Google Patents
ピッチパターン生成方法およびピッチパターン生成装置 Download PDFInfo
- Publication number
- JP3550303B2 JP3550303B2 JP21775198A JP21775198A JP3550303B2 JP 3550303 B2 JP3550303 B2 JP 3550303B2 JP 21775198 A JP21775198 A JP 21775198A JP 21775198 A JP21775198 A JP 21775198A JP 3550303 B2 JP3550303 B2 JP 3550303B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch pattern
- representative
- pattern
- attribute
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、属性の情報から事例に対応する特徴量の選択(あるいは事例のクラス分類)を行うシステムに関する。
【0002】
【従来の技術】
ある事例が、どのクラスに属するかを決定する問題について、人工知能などの分野でこれまで様々な研究がなされている。例えば、文献「AIによるデータ解析、J.R.キンラン、(株)トッパン」には、決定木を用いて事例を分類する方法が開示されている。決定木による分類器は、属性に関するIF−THENのルールで記述されるものである。
【0003】
例えば、属性を天侯、温度として、与えられた事例が「開催」または「中止」のいずれのクラスに属するかを決定する分類器の例を図1に示す。このような決定木は、すでに属性の値と正しいクラスが分かっている多数の事例を訓練事例として、訓練事例に対する分類の正解率が高くなるように学習される。
【0004】
【発明が解決しようとする課題】
事例を分類する問題において、クラスの数が3つ以上である場合には、分類の正解率だけでなく、どのように誤るかが問題になることがある。例として、テキストを音声に変換するテキスト音声合成におけるピッチパターン生成処理について述べる。ピッチパターン生成処理は、テキストを解析して得られる品詞、アクセント型、音節数などの情報から、声の高さの時間変化バターンであるピッチパターンを生成する処理である。ピッチパターンの生成法として、アクセント句単位の典型的なピッチパターンである代表パターンを複数用意し、アクセント句毎の品詞、アクセント型、音節数などを属性として、代表パターンを選択し、これを用いてピッチパターンを生成する方法がある。この代表パターン選択においては、最適なパターンの選択率が高いだけでなく、最適なパターンからかけはなれたパターンが選ばれにくいことが重要である。
【0005】
代表パターンが、図2に示した4つのパターンであるとすると、図2(a)に示すパターンが最適なパターンである場合に誤って図2(b)に示すパターンを選択してしまうことはそれほど問題にならないが、誤って図2(c)に示すパターンを選択してしまうとアクセントが全く違って聞こえることとなり、大きな問題となる。
【0006】
従来の決定木による分類法を代表パターン選択に用いた場合、属性と最適なパターンの番号の組をトレーニング事例として、最適なパターンの選択率を高めることを基準として学習を行う。そのため、最適なパターンが選ばれなかった場合にかけはなれたパターンが選択されることを避けられないという問題がある。
【0007】
そこで、本発明は以上の問題を考慮してなされたものであり、事例に対応する特徴量の選択(あるいは事例のクラス分類であってもよい)を行う際に、各選択肢を選択した場合の評価値を当該事例の属性情報に基づき推定してから該推定値に基づいて特徴量を選択することにより、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える情報処理方法を提供することをも目的とする。
【0008】
【課題を解決するための手段】
本発明の情報処理方法は、ある事例に関する複数の属性(例えば、テキスト音声合成におけるアクセント句のアクセント型、モーラ数、当該アクセント句の係り先、先行アクセント句の係り先)の状態に従って、前記事例に関する特徴量(例えばテキスト音声合成における代表パターン)を複数の選択肢から選択する情報処理方法であって、
k番目の選択肢に対応する特徴量の推定値yk をj番目の属性の状態によって決定される属性値dj の関数wkj(dj )と定数wk0とを用いて、
【0009】
【数2】
によって求め、該特徴量の推定値に基づいて、前記事例に関する特徴量を前記複数の選択肢より選択することを特徴とすることにより、事例に対応する特徴量の選択を行う際に、各選択肢を選択した場合の評価値を属性の情報に基づき推定し、該推定値に基づいて特徴量を選択するため、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える。
【0010】
ここで、属性とは、前記事例に関して事例の分類を行うに際して知ることができる情報の種類である。例えば、事例を「人間」とするならば、属性として性別、職業、身長、体重、年齢など種々の情報が考えられる。
【0011】
属性値とは、この属性の状態を表す数値である。属性が、成績(優、良、可、不可)や服のサイズ(LL、L、M、S)などのように順序関係を持つもの(いわゆる順序尺度)である場合は、順序関係に従った適当な値を属性値とすることができる。例えば、成績であれば、優:4、良:3、可:2、不可:1などとしてもよい。属性が、身長、体重、年齢、摂氏温度などのように数値として測定されるもの(いわゆる間隔尺度または比尺度)である場合は、測定値を属性値とすることができる。あるいは、測定値を量子化して得られる代表値を順序尺度と同様に扱っても良い。属性が、性別・職業・色などのように順序関係を持たないもの(いわゆる分類尺度)である場合は、これらの分類のカテゴリに対して任意の値を対応させて属性値とすることができる。例えば、色であれば、赤:1、青:2、黄:3、などとしてもよい。
【0012】
少なくとも1つの属性に対する属性値dj が有限個(N個)の値(dj1、dj2、…、djN)をとるものである場合、好ましくは、各属性値に対応する係数(akj1 、 akj2 、…、akjN )を用いて、k番目の選択肢に対応する属性値の関数wkj(dj )が
wkj(djm)=akjm
で表されるようにしてもよい。
【0013】
属性の状態が不明であったり、属性が想定していない状態となるなどして、属性値が不明である場合、不明な属性値dj の関数wkj(dj )が定数ckjを用いて
wkj(dj )=ckj
で表されるようにしてもよい。
【0014】
好ましくは、前記選択肢が、テキストを音声に変換するテキスト音声合成に関する特徴パラメータの選択肢であるようにしてもよい。
好ましくは、前記特徴パラメータの選択肢が、ピッチパターン制御モデルの特徴バラメータの選択肢であるようにしてもよい。
【0015】
好ましくは、前記ピッチパターン制御モデルが、複数の代表パターンより1つのパターンを選択し、該選択されたパターンに対して変形を施して得られるパターンをピッチパターンとするものであるようにしてもよい。
【0016】
好ましくは、前記変形が、少なくとも対数周波数軸上の並行移動を含むようにしてもよい。
好ましくは、前記属性が、アクセント句のモーラ数、アクセント句の係り先、先行アクセント句の係り先を含むようにしてもよい。
【0017】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
ある人がラーメン、寿司、カレーライスのうちどれが最も好きかを、その人の年齢、性別、出身地方から推定する問題を例題として説明する。ここでは、トレーニング事例として、図3に示すようなアンケートの結果を用いるものとする。トレーニング事例(アンケート結果)の例を図4に示す。
【0018】
本実施形態では、年齢、性別、出身地方が属性(j)であり、ラーメン、寿司、カレーライスがそれぞれどのくらい好きかが推定すべき特徴量(k)である。図4に示す年齢、性別、出身地方といった属性からラーメン、寿司、カレーライスがそれぞれどのくらい好きかを表す推定値を求め、好ましさの推定値が最大になるものを選択することにより、どの食べ物が最も好きかを推定する。
【0019】
各属性の属性値は、アンケートの選択肢の番号をそのまま用いるものとし、年齢、性別、出身地方の属性値をそれぞれd1 、d2 、d3 で表す。各特徴量(k=1、2、3)、各属性(j=1、2、3)毎に定めた属性値の関数wkjと各特徴量毎に定めた定数wk0を用いて、ラーメン、寿司、カレーライスの好ましさ(特徴量)の推定値y1 、y2 、y3 を次のようにモデル化する。
【0020】
【数3】
ここで、属性値の関数wkjを以下のように定義する。
【0021】
【数4】
【0022】
次に、推定モデルのパラメータをトレーニング事例を用いて決定する方法について説明する。全てのトレーニング事例に対するラーメン、寿司、カレーライスの好ましさの推定誤差の2乗和を表す評価関数E1 、E2 、E3 を以下のように定義する。
【0023】
【数5】
【0024】
ただし、Mはトレーニング事例の数を、y1 i 、y2 i 、y3 i は、それぞれi番目のトレーニング事例のラーメン、寿司、カレーライスの好ましさの値(アンケートの選択肢の番号)を表し、dj i はi番目のトレーニング事例のj番目の属性値を表すものとする。この評価関数を最小化するようなバラメータを探索すればよい。パラメータの探索は、何らかの公知の最適化手法を用いればよい。
【0025】
例えば、a111 =−0.2、a112 =−0.1、a113 =0.3、a114 =0.5、a115 =0.4と係数が求められたとすると、変数d1 を年代として関数Wk1(d1 )は、図5のように表される。また、図5の関数の代わりに、変数d1 を年齢として、図5の関数を滑らかに補間して得られる図6のような関数を用いてもよい。
【0026】
求められたモデルを用いて最も好ましい食べ物(特徴量)を推定するためには、推走する人の年齢、性別、出身地方から、図3に従って属性値d1 、d2 、d3 を求め、これを(1)式に代入して各食べ物に対応する好ましさの推定値y1 、y2 、y3 を求めて、推定値が最大になった食べ物(最大の推定値がy1 であればラーメン、y2 であれば寿司、y3 であればカレーライス)を最も好きな食べ物と推定する。
【0027】
また、このモデルを用いて、ラーメン、寿司、カレーライスの中から好きな食べ物を全て推定して選択することもできる。例えば、閾値を「3.5」として、好ましさの推定値yk が3.5以上であればその食べ物が好きであると推定すればよい。好ましさの推定値がy1 =2.5、y2 =4.2、y3 =3.8であるとすれば、好きな食ぺ物は寿司とカレーライスであると推定される。
【0028】
トレーニング事例として与えられる情報が、各食べ物の好ましさではなく、どれが最も好きかという情報のみである場合、最も好きな食べ物に対する好ましさの値を「5」とし、それ以外を「1」として、上記の方法と同様にモデルのパラメータを求めて推定を行うことができる。例えば、好きな食べ物が寿司の場合は、i番目のトレーニング事例におけるラーメンの推定値はy1 i =1、寿司の推定値はy2 i =5、カレーライスの推定値はy3 i =1となる。
【0029】
また、不明な属性値があるような事例に対して推定を行うために、dj が不明な場合の関数の値を、
wkj(dj )=ckj(dj が不明) (6)
と定義する。ckjは、例えばakjm (m=1、2、…)の乎均値としてもよい。あるいは、属性値の出現頻度で重み付けをして求めた加重平均値を用いてもよい。
【0030】
なお、定数wk0は、常に「0」として最適化を行わないようにしてもよい。
また、2つ以上の属性の組合せを新たに1つの属性と定義してもよい。例えば、「性別」と「出身地方」の2つの属性を組み合わせて1つの属性とし、図7に示すように属性値を付与することも可能である。
【0031】
図8は、本発明の情報処理方法を実現する情報処理装置の構成を示すブロック図で、例えば、入力されたテキスト101を合成音声110に変換するテキスト音声合成処理を実現するものである。
【0032】
言語処理部10は、テキスト101に言語処理を行って、その処理結果、すなわち、アクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105、音韻記号列106をそれぞれアクセント句毎に出力データとして出力する。
【0033】
例えば「あらゆる現実をすべて自分の方へねじ曲げたのだ」というテキストの場合、アクセント句は「あらゆる」「現実を」「すべて」「自分の」「方ヘ」「ねじ曲げたのだ」となり、これらの各アクセント句についてのアクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105が出力される。
【0034】
韻律生成部11は、アクセント型102、モーラ数103、当該アクセント句の係り先104、先行アクセン卜句の係り先105、音韻記号列106から、基本周波数の時間変化パターンであるピッチパターンと音韻継続時間長を生成して、それぞれ出力データ107、108として出力する。
【0035】
音声信号生成部12は、音韻記号列106、ピッチパターン107、音韻継続時間長108より、合成音声110を生成する。
次に、韻律生成部11の詳細な動作について、図9を参照して説明する。
【0036】
代表パターン選択部21は、言語処理部10から出力されるアクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105から、当該アクセント句に対して適した代表パターンを選択し、代表バターン番号201を出力する。
【0037】
代表パターン記憶部22は、複数の代表パターンを代表パターン番号に対応させて予め記憶している。その中から、代表パターン選択部21から出力された代表バターン番号201に対応する代表バターン203を読みだして出力する。
【0038】
代表バターンとは、例えば図10に示すような、音声の基本周波数の代表的な時間変化バターンの時間軸をモーラ単位に正規化したものである。
移動量生成部20は、入力したモーラ数103、当該アクセント句の係り先104、先行アクセン卜句の係り先105より、代表パターン203を対数周波数軸方向に並行移動する際の移動量202を求めて出力する。
【0039】
音韻継続時間長生成部23は、音韻記号列106に従って、各音韻の音韻継続時間長108を求めて出力する。
ピッチパターン生成部24は、代表パターン203を、音韻継続時間長108に従って各モーラの長さが音韻継続時間長と等しくなるように時間方向に伸縮し、移動量202に従って対数周波数軸上で並行移動させて、ピッチパターン107を出力する。「あらゆる」というアクセント句に対して、ピッチパターンの生成を行った例を図11に示す。
【0040】
図11(a)が代表バターン203を、図11(b)が、時間方向の伸縮を行って得られるバターンを、図11(c)が、対数周波数軸上で並行移動させて得られるピッチパターン107を表している。ただし、図11の縦軸は対数周波数を表すものとし、移動量202は4.5とした。
【0041】
次に、代表パターン選択部21の詳細な動作について説明する。ここで、アクセント型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105を当該アクセン卜句に関する属性とし、代表パターンを特徴量とする。まず、属性値から各代表パターンに対する評価値を推定し、該推定値が最小となる代表パターンの番号を代表バターン番号201として出力する。
【0042】
ここで、各代表バターンの推定値とは、各代表パターンを使用して生成されるピッチパターンと、属性の状態の組合せに対して理想的なピッチパターンとの距離を表している。
【0043】
距離の推定値の求め方について説明する。各属性の状態に対する属性値を図12のように定義する。
k番目の代表パターンに対する距離の推定値yk を、属性値の関数wkj(dj )、(k=1、2、…、K)(j=1、2、3、4)と定数wkoを用いて次式によって求める。
【0044】
【数6】
【0045】
関数wkj(dj )、(k=1、2、…、K)(j=1、2、3、4)は、係数akjm (k=1、2、…、K)(j=1、2、3、4)(m=0、1、2、…)とckjを用いて以下のように定義される。
【0046】
【数7】
【0047】
ここで、dj が不明であるとは、言語処理の失敗などの理由で、属性の状態を知ることができないような揚合を意味している。
(8)式の代わりに、次式のような多項式を用いてもよい。
【0048】
wkj(dj )=bkj2 dj 2 +bkj1 dj +bkj0 (9)
(7)式のwk0および(8)式の係数akjm あるいは(9)式の係数bkjm は、トレーニング事例に対する距離の推定値の誤差が最小となるように決定される。
【0049】
トレ−二ング事例とは、実音声から抽出されたピッチパターンと各代表パターンとの距離のデータと、対応するテキストの属性(アクセン卜型、モーラ数、当該アクセン卜句の係り先、先行アクセン卜旬の係り先)のデータの組合せである。トレ−二ング事例は、大量のテキストとそれを読み上げた実音声のデータを解析することにより得られる。
【0050】
係数の最適化は、例えば距離の推定値の2乗平均誤差を評価関数として、公知の最適化手法を用いて行うことができる。
また、(8)式の係数ckjは、akj0 、akj1 …の平均値とするか、あるいは属性値の出現頻度を考慮して重み付けを行った加重平均値としてもよい。
【0051】
本実施形態ではテキストの属性を、アクセント型、モーラ数、当該アクセン卜句の係り先、先行アクセン卜句の係り先としたが、その他にも、品詞、文中の位置、呼気段落中の位置、音韻の種類など様々な情報を属性とすることができる。
【0052】
【発明の効果】
以上説明したように、本発明によれば、事例に対応する特徴量の選択を行う際に、各選択肢を選択した場合の評価値を属性の情報に基づき推定し、該推定値に基づいて特徴量を選択するため、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える。
【図面の簡単な説明】
【図1】従来からある決定木を用いた分類器の一例を示す図。
【図2】ピッチパターン生成処理における代表パターンの具体例を示す図。
【図3】トレーニング事例収集のためのアンケートの具体例を示す図。
【図4】トレーニング事例の具体例を示す図。
【図5】属性値の関数wk1(d1 )の具体例を示す図。
【図6】属性値の関数wk1(d1 )の具体例を示す図で、図5の関数を滑らかに補間したものである。
【図7】2つの属性の組合せを1つの属性として属性値を定めたテーブルの一例を示す図。
【図8】本発明の一実施形態に係るテキスト音声合成処理を実行するを情報処理装置の構成例を示す図。
【図9】韻律生成部の構成例を示す図。
【図10】代表パターン記憶部に記憶される代表パターンを模式的に示す図。
【図11】複数の選択肢の中から選択された代表パターンからピッチパターンを生成する過程を説明するための図。
【図12】属性の状態に対する属性値を定めたテーブルの一例を示す図。
【符号の説明】
10…言語処理部
11…韻律生成部
12…音声信号生成部
20…移動量生成部
21…代表パターン選択部
22…代表パターン記憶部
23…音韻継続時間長生成部
24…ピッチパターン生成部
【発明の属する技術分野】
本発明は、属性の情報から事例に対応する特徴量の選択(あるいは事例のクラス分類)を行うシステムに関する。
【0002】
【従来の技術】
ある事例が、どのクラスに属するかを決定する問題について、人工知能などの分野でこれまで様々な研究がなされている。例えば、文献「AIによるデータ解析、J.R.キンラン、(株)トッパン」には、決定木を用いて事例を分類する方法が開示されている。決定木による分類器は、属性に関するIF−THENのルールで記述されるものである。
【0003】
例えば、属性を天侯、温度として、与えられた事例が「開催」または「中止」のいずれのクラスに属するかを決定する分類器の例を図1に示す。このような決定木は、すでに属性の値と正しいクラスが分かっている多数の事例を訓練事例として、訓練事例に対する分類の正解率が高くなるように学習される。
【0004】
【発明が解決しようとする課題】
事例を分類する問題において、クラスの数が3つ以上である場合には、分類の正解率だけでなく、どのように誤るかが問題になることがある。例として、テキストを音声に変換するテキスト音声合成におけるピッチパターン生成処理について述べる。ピッチパターン生成処理は、テキストを解析して得られる品詞、アクセント型、音節数などの情報から、声の高さの時間変化バターンであるピッチパターンを生成する処理である。ピッチパターンの生成法として、アクセント句単位の典型的なピッチパターンである代表パターンを複数用意し、アクセント句毎の品詞、アクセント型、音節数などを属性として、代表パターンを選択し、これを用いてピッチパターンを生成する方法がある。この代表パターン選択においては、最適なパターンの選択率が高いだけでなく、最適なパターンからかけはなれたパターンが選ばれにくいことが重要である。
【0005】
代表パターンが、図2に示した4つのパターンであるとすると、図2(a)に示すパターンが最適なパターンである場合に誤って図2(b)に示すパターンを選択してしまうことはそれほど問題にならないが、誤って図2(c)に示すパターンを選択してしまうとアクセントが全く違って聞こえることとなり、大きな問題となる。
【0006】
従来の決定木による分類法を代表パターン選択に用いた場合、属性と最適なパターンの番号の組をトレーニング事例として、最適なパターンの選択率を高めることを基準として学習を行う。そのため、最適なパターンが選ばれなかった場合にかけはなれたパターンが選択されることを避けられないという問題がある。
【0007】
そこで、本発明は以上の問題を考慮してなされたものであり、事例に対応する特徴量の選択(あるいは事例のクラス分類であってもよい)を行う際に、各選択肢を選択した場合の評価値を当該事例の属性情報に基づき推定してから該推定値に基づいて特徴量を選択することにより、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える情報処理方法を提供することをも目的とする。
【0008】
【課題を解決するための手段】
本発明の情報処理方法は、ある事例に関する複数の属性(例えば、テキスト音声合成におけるアクセント句のアクセント型、モーラ数、当該アクセント句の係り先、先行アクセント句の係り先)の状態に従って、前記事例に関する特徴量(例えばテキスト音声合成における代表パターン)を複数の選択肢から選択する情報処理方法であって、
k番目の選択肢に対応する特徴量の推定値yk をj番目の属性の状態によって決定される属性値dj の関数wkj(dj )と定数wk0とを用いて、
【0009】
【数2】
によって求め、該特徴量の推定値に基づいて、前記事例に関する特徴量を前記複数の選択肢より選択することを特徴とすることにより、事例に対応する特徴量の選択を行う際に、各選択肢を選択した場合の評価値を属性の情報に基づき推定し、該推定値に基づいて特徴量を選択するため、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える。
【0010】
ここで、属性とは、前記事例に関して事例の分類を行うに際して知ることができる情報の種類である。例えば、事例を「人間」とするならば、属性として性別、職業、身長、体重、年齢など種々の情報が考えられる。
【0011】
属性値とは、この属性の状態を表す数値である。属性が、成績(優、良、可、不可)や服のサイズ(LL、L、M、S)などのように順序関係を持つもの(いわゆる順序尺度)である場合は、順序関係に従った適当な値を属性値とすることができる。例えば、成績であれば、優:4、良:3、可:2、不可:1などとしてもよい。属性が、身長、体重、年齢、摂氏温度などのように数値として測定されるもの(いわゆる間隔尺度または比尺度)である場合は、測定値を属性値とすることができる。あるいは、測定値を量子化して得られる代表値を順序尺度と同様に扱っても良い。属性が、性別・職業・色などのように順序関係を持たないもの(いわゆる分類尺度)である場合は、これらの分類のカテゴリに対して任意の値を対応させて属性値とすることができる。例えば、色であれば、赤:1、青:2、黄:3、などとしてもよい。
【0012】
少なくとも1つの属性に対する属性値dj が有限個(N個)の値(dj1、dj2、…、djN)をとるものである場合、好ましくは、各属性値に対応する係数(akj1 、 akj2 、…、akjN )を用いて、k番目の選択肢に対応する属性値の関数wkj(dj )が
wkj(djm)=akjm
で表されるようにしてもよい。
【0013】
属性の状態が不明であったり、属性が想定していない状態となるなどして、属性値が不明である場合、不明な属性値dj の関数wkj(dj )が定数ckjを用いて
wkj(dj )=ckj
で表されるようにしてもよい。
【0014】
好ましくは、前記選択肢が、テキストを音声に変換するテキスト音声合成に関する特徴パラメータの選択肢であるようにしてもよい。
好ましくは、前記特徴パラメータの選択肢が、ピッチパターン制御モデルの特徴バラメータの選択肢であるようにしてもよい。
【0015】
好ましくは、前記ピッチパターン制御モデルが、複数の代表パターンより1つのパターンを選択し、該選択されたパターンに対して変形を施して得られるパターンをピッチパターンとするものであるようにしてもよい。
【0016】
好ましくは、前記変形が、少なくとも対数周波数軸上の並行移動を含むようにしてもよい。
好ましくは、前記属性が、アクセント句のモーラ数、アクセント句の係り先、先行アクセント句の係り先を含むようにしてもよい。
【0017】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
ある人がラーメン、寿司、カレーライスのうちどれが最も好きかを、その人の年齢、性別、出身地方から推定する問題を例題として説明する。ここでは、トレーニング事例として、図3に示すようなアンケートの結果を用いるものとする。トレーニング事例(アンケート結果)の例を図4に示す。
【0018】
本実施形態では、年齢、性別、出身地方が属性(j)であり、ラーメン、寿司、カレーライスがそれぞれどのくらい好きかが推定すべき特徴量(k)である。図4に示す年齢、性別、出身地方といった属性からラーメン、寿司、カレーライスがそれぞれどのくらい好きかを表す推定値を求め、好ましさの推定値が最大になるものを選択することにより、どの食べ物が最も好きかを推定する。
【0019】
各属性の属性値は、アンケートの選択肢の番号をそのまま用いるものとし、年齢、性別、出身地方の属性値をそれぞれd1 、d2 、d3 で表す。各特徴量(k=1、2、3)、各属性(j=1、2、3)毎に定めた属性値の関数wkjと各特徴量毎に定めた定数wk0を用いて、ラーメン、寿司、カレーライスの好ましさ(特徴量)の推定値y1 、y2 、y3 を次のようにモデル化する。
【0020】
【数3】
ここで、属性値の関数wkjを以下のように定義する。
【0021】
【数4】
【0022】
次に、推定モデルのパラメータをトレーニング事例を用いて決定する方法について説明する。全てのトレーニング事例に対するラーメン、寿司、カレーライスの好ましさの推定誤差の2乗和を表す評価関数E1 、E2 、E3 を以下のように定義する。
【0023】
【数5】
【0024】
ただし、Mはトレーニング事例の数を、y1 i 、y2 i 、y3 i は、それぞれi番目のトレーニング事例のラーメン、寿司、カレーライスの好ましさの値(アンケートの選択肢の番号)を表し、dj i はi番目のトレーニング事例のj番目の属性値を表すものとする。この評価関数を最小化するようなバラメータを探索すればよい。パラメータの探索は、何らかの公知の最適化手法を用いればよい。
【0025】
例えば、a111 =−0.2、a112 =−0.1、a113 =0.3、a114 =0.5、a115 =0.4と係数が求められたとすると、変数d1 を年代として関数Wk1(d1 )は、図5のように表される。また、図5の関数の代わりに、変数d1 を年齢として、図5の関数を滑らかに補間して得られる図6のような関数を用いてもよい。
【0026】
求められたモデルを用いて最も好ましい食べ物(特徴量)を推定するためには、推走する人の年齢、性別、出身地方から、図3に従って属性値d1 、d2 、d3 を求め、これを(1)式に代入して各食べ物に対応する好ましさの推定値y1 、y2 、y3 を求めて、推定値が最大になった食べ物(最大の推定値がy1 であればラーメン、y2 であれば寿司、y3 であればカレーライス)を最も好きな食べ物と推定する。
【0027】
また、このモデルを用いて、ラーメン、寿司、カレーライスの中から好きな食べ物を全て推定して選択することもできる。例えば、閾値を「3.5」として、好ましさの推定値yk が3.5以上であればその食べ物が好きであると推定すればよい。好ましさの推定値がy1 =2.5、y2 =4.2、y3 =3.8であるとすれば、好きな食ぺ物は寿司とカレーライスであると推定される。
【0028】
トレーニング事例として与えられる情報が、各食べ物の好ましさではなく、どれが最も好きかという情報のみである場合、最も好きな食べ物に対する好ましさの値を「5」とし、それ以外を「1」として、上記の方法と同様にモデルのパラメータを求めて推定を行うことができる。例えば、好きな食べ物が寿司の場合は、i番目のトレーニング事例におけるラーメンの推定値はy1 i =1、寿司の推定値はy2 i =5、カレーライスの推定値はy3 i =1となる。
【0029】
また、不明な属性値があるような事例に対して推定を行うために、dj が不明な場合の関数の値を、
wkj(dj )=ckj(dj が不明) (6)
と定義する。ckjは、例えばakjm (m=1、2、…)の乎均値としてもよい。あるいは、属性値の出現頻度で重み付けをして求めた加重平均値を用いてもよい。
【0030】
なお、定数wk0は、常に「0」として最適化を行わないようにしてもよい。
また、2つ以上の属性の組合せを新たに1つの属性と定義してもよい。例えば、「性別」と「出身地方」の2つの属性を組み合わせて1つの属性とし、図7に示すように属性値を付与することも可能である。
【0031】
図8は、本発明の情報処理方法を実現する情報処理装置の構成を示すブロック図で、例えば、入力されたテキスト101を合成音声110に変換するテキスト音声合成処理を実現するものである。
【0032】
言語処理部10は、テキスト101に言語処理を行って、その処理結果、すなわち、アクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105、音韻記号列106をそれぞれアクセント句毎に出力データとして出力する。
【0033】
例えば「あらゆる現実をすべて自分の方へねじ曲げたのだ」というテキストの場合、アクセント句は「あらゆる」「現実を」「すべて」「自分の」「方ヘ」「ねじ曲げたのだ」となり、これらの各アクセント句についてのアクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105が出力される。
【0034】
韻律生成部11は、アクセント型102、モーラ数103、当該アクセント句の係り先104、先行アクセン卜句の係り先105、音韻記号列106から、基本周波数の時間変化パターンであるピッチパターンと音韻継続時間長を生成して、それぞれ出力データ107、108として出力する。
【0035】
音声信号生成部12は、音韻記号列106、ピッチパターン107、音韻継続時間長108より、合成音声110を生成する。
次に、韻律生成部11の詳細な動作について、図9を参照して説明する。
【0036】
代表パターン選択部21は、言語処理部10から出力されるアクセン卜型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105から、当該アクセント句に対して適した代表パターンを選択し、代表バターン番号201を出力する。
【0037】
代表パターン記憶部22は、複数の代表パターンを代表パターン番号に対応させて予め記憶している。その中から、代表パターン選択部21から出力された代表バターン番号201に対応する代表バターン203を読みだして出力する。
【0038】
代表バターンとは、例えば図10に示すような、音声の基本周波数の代表的な時間変化バターンの時間軸をモーラ単位に正規化したものである。
移動量生成部20は、入力したモーラ数103、当該アクセント句の係り先104、先行アクセン卜句の係り先105より、代表パターン203を対数周波数軸方向に並行移動する際の移動量202を求めて出力する。
【0039】
音韻継続時間長生成部23は、音韻記号列106に従って、各音韻の音韻継続時間長108を求めて出力する。
ピッチパターン生成部24は、代表パターン203を、音韻継続時間長108に従って各モーラの長さが音韻継続時間長と等しくなるように時間方向に伸縮し、移動量202に従って対数周波数軸上で並行移動させて、ピッチパターン107を出力する。「あらゆる」というアクセント句に対して、ピッチパターンの生成を行った例を図11に示す。
【0040】
図11(a)が代表バターン203を、図11(b)が、時間方向の伸縮を行って得られるバターンを、図11(c)が、対数周波数軸上で並行移動させて得られるピッチパターン107を表している。ただし、図11の縦軸は対数周波数を表すものとし、移動量202は4.5とした。
【0041】
次に、代表パターン選択部21の詳細な動作について説明する。ここで、アクセント型102、モーラ数103、当該アクセント句の係り先104、先行アクセント句の係り先105を当該アクセン卜句に関する属性とし、代表パターンを特徴量とする。まず、属性値から各代表パターンに対する評価値を推定し、該推定値が最小となる代表パターンの番号を代表バターン番号201として出力する。
【0042】
ここで、各代表バターンの推定値とは、各代表パターンを使用して生成されるピッチパターンと、属性の状態の組合せに対して理想的なピッチパターンとの距離を表している。
【0043】
距離の推定値の求め方について説明する。各属性の状態に対する属性値を図12のように定義する。
k番目の代表パターンに対する距離の推定値yk を、属性値の関数wkj(dj )、(k=1、2、…、K)(j=1、2、3、4)と定数wkoを用いて次式によって求める。
【0044】
【数6】
【0045】
関数wkj(dj )、(k=1、2、…、K)(j=1、2、3、4)は、係数akjm (k=1、2、…、K)(j=1、2、3、4)(m=0、1、2、…)とckjを用いて以下のように定義される。
【0046】
【数7】
【0047】
ここで、dj が不明であるとは、言語処理の失敗などの理由で、属性の状態を知ることができないような揚合を意味している。
(8)式の代わりに、次式のような多項式を用いてもよい。
【0048】
wkj(dj )=bkj2 dj 2 +bkj1 dj +bkj0 (9)
(7)式のwk0および(8)式の係数akjm あるいは(9)式の係数bkjm は、トレーニング事例に対する距離の推定値の誤差が最小となるように決定される。
【0049】
トレ−二ング事例とは、実音声から抽出されたピッチパターンと各代表パターンとの距離のデータと、対応するテキストの属性(アクセン卜型、モーラ数、当該アクセン卜句の係り先、先行アクセン卜旬の係り先)のデータの組合せである。トレ−二ング事例は、大量のテキストとそれを読み上げた実音声のデータを解析することにより得られる。
【0050】
係数の最適化は、例えば距離の推定値の2乗平均誤差を評価関数として、公知の最適化手法を用いて行うことができる。
また、(8)式の係数ckjは、akj0 、akj1 …の平均値とするか、あるいは属性値の出現頻度を考慮して重み付けを行った加重平均値としてもよい。
【0051】
本実施形態ではテキストの属性を、アクセント型、モーラ数、当該アクセン卜句の係り先、先行アクセン卜句の係り先としたが、その他にも、品詞、文中の位置、呼気段落中の位置、音韻の種類など様々な情報を属性とすることができる。
【0052】
【発明の効果】
以上説明したように、本発明によれば、事例に対応する特徴量の選択を行う際に、各選択肢を選択した場合の評価値を属性の情報に基づき推定し、該推定値に基づいて特徴量を選択するため、正しい特徴量の選択がなされなかった場合でもより正解に近い特徴量の選択が行える。
【図面の簡単な説明】
【図1】従来からある決定木を用いた分類器の一例を示す図。
【図2】ピッチパターン生成処理における代表パターンの具体例を示す図。
【図3】トレーニング事例収集のためのアンケートの具体例を示す図。
【図4】トレーニング事例の具体例を示す図。
【図5】属性値の関数wk1(d1 )の具体例を示す図。
【図6】属性値の関数wk1(d1 )の具体例を示す図で、図5の関数を滑らかに補間したものである。
【図7】2つの属性の組合せを1つの属性として属性値を定めたテーブルの一例を示す図。
【図8】本発明の一実施形態に係るテキスト音声合成処理を実行するを情報処理装置の構成例を示す図。
【図9】韻律生成部の構成例を示す図。
【図10】代表パターン記憶部に記憶される代表パターンを模式的に示す図。
【図11】複数の選択肢の中から選択された代表パターンからピッチパターンを生成する過程を説明するための図。
【図12】属性の状態に対する属性値を定めたテーブルの一例を示す図。
【符号の説明】
10…言語処理部
11…韻律生成部
12…音声信号生成部
20…移動量生成部
21…代表パターン選択部
22…代表パターン記憶部
23…音韻継続時間長生成部
24…ピッチパターン生成部
Claims (8)
- 入力されたテキストからピッチパターンを生成するピッチパターン生成方法であって、
音声の基本周波数の時間変化パターンである複数の代表パターンを記憶手段に記憶する第1のステップと、
前記テキストから、前記ピッチパターンを生成する際に必要な情報であって複数の属性にそれぞれ対応する複数の属性値の組合せを求める第2のステップと、
前記複数の代表パターンのうちのk番目の代表パターンを用いて生成されるピッチパターンと、前記組合せに対して理想的なピッチパターンとの距離を表す推定値yk を前記複数の属性のうちのj番目の属性の属性値dj の関数wkj(dj )と定数wk0とを用いて、
前記複数の代表パターンのそれぞれに対し求めた前記推定値に基づいて、前記複数の代表パターンのうちの1つを選択する第4のステップと、
選択された代表パターンを変形して前記組合せに対応するピッチパターンを生成する第5のステップと、
を有することを特徴とするピッチパターン生成方法。 - 前記第4のステップは、前記複数の代表パターンのうち前記推定値が最小の代表パターンを選択することを特徴とする請求項1記載のピッチパターン生成方法。
- 前記複数の属性値のうちの少なくとも1つの属性値djが有限個の値(dj1、dj2…、djN)をとるものであって、当該有限個の各値に対応する係数(akjl 、akj2 、…、akjN )を用いて、前記k番目の代表パターンについて前記推定値yk を求める際の属性値djに対応する関数wkj(dj )が
wkj(djm)=akjm
で表されることを特徴とする請求項1記載のピッチパターン生成方法。 - 前記属性値dj が不明である場合、前記k番目の代表パターンについて前記推定値yk を求める際の属性値djに対応する関数wkj (dj )が、定数ckjを用いて
wkj(dj)=ckj
で表されることを特徴とする請求項1記載のピッチパターン生成方法。 - 前記属性は、少なくともアクセント句のモーラ数、アクセン卜句の係り先、先行アクセント句の係り先を含むことを特徴とする請求項1記載のピッチパターン生成方法。
- 入力されたテキストからピッチパターンを生成するピッチパターン生成方法であって、
音声の基本周波数の時間変化パターンである複数の代表パターンを記憶手段に記憶する第1のステップと、
前記テキストから、前記ピッチパターンを生成する際に必要な情報であって複数の属性にそれぞれ対応する複数の属性値の組合せを求める第2のステップと、
前記複数の代表パターンのそれぞれについて、各代表パターンを用いて生成されるピッチパターンと前記組合せに対して理想的なピッチパターンとの距離の推定値を算出する第3のステップと、
前記複数の代表パターンのそれぞれに対し求めた前記推定値に基づいて、前記複数の代表パターンのうちの1つを選択する第4のステップと、
選択された代表パターンを変形して前記組合せに対応するピッチパターンを生成する第5のステップと、
を有することを特徴とするピッチパターン生成方法。 - 入力されたテキストからピッチパターンを生成するピッチパターン生成装置であって、
音声の基本周波数の時間変化パターンである複数の代表パターンを記憶する記憶手段と、
前記テキストから、前記ピッチパターンを生成する際に必要な情報であって複数の属性にそれぞれ対応する複数の属性値の組合せを求める手段と、
前記複数の代表パターンのうちのk番目の代表パターンを用いて生成されるピッチパターンと、前記組合せに対して理想的なピッチパターンとの距離を表す評価値yk を、前記複数の属性のうちのj番目の属性の属性値dj の関数wkj(dj )と定数wk0とを用いて、
前記複数の代表パターンのそれぞれに対し求めた前記推定値に基づいて、当該複数の代表パターンのうちの1つを選択する手段と、
選択された代表パターンを変形して前記組合せに対応するピッチパターンを生成する手段と、
を具備したことを特徴とするピッチパターン生成装置。 - 入力されたテキストからピッチパターンを生成するピッチパターン生成装置であって、
音声の基本周波数の時間変化パターンである複数の代表パターンを記憶する記憶手段と、
前記テキストから、前記ピッチパターンを生成する際に必要な情報であって複数の属性にそれぞれ対応する複数の属性値の組合せを求める手段と、
前記複数の代表パターンのそれぞれについて、各代表パターンを用いて生成されるピッチパターンと前記組合せに対して理想的なピッチパターンとの距離の推定値を算出する手段と、
前記複数の代表パターンのそれぞれに対し求めた前記推定値に基づいて、前記複数の代表パターンのうちの1つを選択する手段と、
選択された代表パターンを変形して前記組合せに対応するピッチパターンを生成する手段と、
を具備したことを特徴とするピッチパターン生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21775198A JP3550303B2 (ja) | 1998-07-31 | 1998-07-31 | ピッチパターン生成方法およびピッチパターン生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21775198A JP3550303B2 (ja) | 1998-07-31 | 1998-07-31 | ピッチパターン生成方法およびピッチパターン生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000047681A JP2000047681A (ja) | 2000-02-18 |
JP3550303B2 true JP3550303B2 (ja) | 2004-08-04 |
Family
ID=16709187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21775198A Expired - Fee Related JP3550303B2 (ja) | 1998-07-31 | 1998-07-31 | ピッチパターン生成方法およびピッチパターン生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3550303B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002073595A1 (fr) * | 2001-03-08 | 2002-09-19 | Matsushita Electric Industrial Co., Ltd. | Dispositif generateur de prosodie, procede de generation de prosodie, et programme |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
JP2004226505A (ja) * | 2003-01-20 | 2004-08-12 | Toshiba Corp | ピッチパタン生成方法、音声合成方法とシステム及びプログラム |
US11716586B2 (en) | 2018-09-28 | 2023-08-01 | Sony Corporation | Information processing device, method, and program |
-
1998
- 1998-07-31 JP JP21775198A patent/JP3550303B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000047681A (ja) | 2000-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2527817B2 (ja) | 主題連想装置および単語連想装置 | |
US7729914B2 (en) | Method for detecting emotions involving subspace specialists | |
CN1842702B (zh) | 声音合成装置和声音合成方法 | |
KR100397402B1 (ko) | 음성인식방법,정보형성방법,음성인식장치및기록매체 | |
US20080201150A1 (en) | Voice conversion apparatus and speech synthesis apparatus | |
US20120221339A1 (en) | Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN108228576A (zh) | 文本翻译方法及装置 | |
CN109461441A (zh) | 一种自适应、无监督式的课堂教学活动智能感知方法 | |
JP3550303B2 (ja) | ピッチパターン生成方法およびピッチパターン生成装置 | |
KR20220071960A (ko) | 고품질의 합성 음성을 생성하는 음성 합성 시스템 | |
CN113611293A (zh) | 一种蒙古语数据集扩充方法 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
CN111832787B (zh) | 教师风格预测模型的训练方法及计算机存储介质 | |
US10978076B2 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
JP2002133389A (ja) | データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体 | |
JP4716605B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2000048041A (ja) | データ検索システム及びこれに用いる装置 | |
JP7243147B2 (ja) | コード推定方法、コード推定装置およびプログラム | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP2018155774A (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2004117662A (ja) | 音声合成システム | |
JP7377899B2 (ja) | テキスト変換装置、テキスト変換方法、およびプログラム | |
JP7377898B2 (ja) | テキスト生成装置、テキスト生成方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040420 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080430 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090430 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |