JP6433063B2

JP6433063B2 - 音声加工装置、及びプログラム

Info

Publication number: JP6433063B2
Application number: JP2014240094A
Authority: JP
Inventors: 今井　篤; 篤今井; 信正清山; 都木　徹; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2018-12-05
Anticipated expiration: 2034-11-27
Also published as: JP2016102860A

Description

本発明は、音声加工装置、及びプログラムに関する。

音声の感情表現は、主として韻律と声質により表現される。そのため、韻律と声質を適当に組み合わせて制御することで、特に感情が込められていない平静な音声を、意図する感情表現を付与した音声に加工することができる。従来の音声合成の技術では、感情のこもった音声である感情音声の韻律や声質を規則化したモデルによって予測し、その予測に従って元の音声を加工する方法が一般的に用いられていた。しかし、近年は、特定の感情で発話された音声の大規模なデータベースから統計的に音素の特徴量の並びを生成し、音声合成器でフィルタリングして韻律と声質を区別することなく、感情音声に変換する方法が一般的である（例えば、非特許文献１参照）。具体的には、話者ごとに、同じ発話内容の平静な発話と特定の感情を込めた発話の対のデータベースを用意する。そして、このデータベースから平静な発話と特定の感情を込めた発話のそれぞれについて韻律と声質の変化の特徴を統計的に機械学習したモデルを利用して加工ターゲットを作成し、この加工ターゲットに基づいて音声を変換する。この統計量には、韻律と声質の両方の情報が反映されており、用意したデータベースの発話の特徴をよく反映した感情表現で音声合成される。従って、一つのデータベースによって合成される声の特徴は限定的である。

また、感情音声の主として声質の制御を目的とした技術に、混合ガウス分布（ＧＭＭ：Gaussian Mixture Model）に基づく音声加工法がある。この技術では、平静音声のスペクトルからＧＭＭを求め、そのＧＭＭの各混合における回帰行列を、同一発話内容の平静音声と感情音声の回帰分析によって算出し、声質の変換規則とする。また、機械学習した混合ガウス分布に基づく声質加工法を、音声分析合成方式に適用して声質変換を行う技術もある（例えば、非特許文献１参照）。

岩見洋平、戸田智基、川波弘道、猿渡洋、鹿野清宏、"ＧＭＭに基づく声質変換を用いた感情音声合成"、一般社団法人電子情報通信学会、電子情報通信学会技術研究報告.ＳＰ，音声１０２（６１９）、２００３年１月、ｐ．１１−１６

感情音声加工技術に関しては、近年、提供情報に相応しい口調を実現する音声合成技術が求められている。例えば、注意喚起のような用途であれば、平静音声よりも少し語気を強め、自然災害時の緊急警報のような用途であれば、それよりもさらに強い、切迫感のある口調で読み上げることが考えられる。
従来のデータベース利用の技術では、特定話者による特定の感情表現（すなわち、口調）を品質良く合成することができる。しかし、より怒った口調にするなど表現の程度を調整したい場合には、所望の感情強度で構成されたデータベースを新たに用意する必要があり、表現の拡張性に課題がある。このように従来技術では、表現の幅という点において自由度が小さく、より実用的な感情音声の加工が求められている。

本発明は、このような事情を考慮してなされたもので、平静音声を幅広い感情表現の音声に加工することができる音声加工装置、及びプログラムを提供する。

本発明の一態様は、音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶部と、韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力部と、韻律変換指示値出力部から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出す差分情報取得部と、前記差分情報取得部が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工部と、前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工部と、を備えることを特徴とする音声加工装置である。
この発明によれば、音声加工装置は、音響特徴量の変化量に対応した段階別に、平静音声と感情音声の母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する。音響特徴量には、音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数が用いられる。音声加工装置は、韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値に対応した段階の段階別スペクトル差分情報を選択し、選択した段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する。音声加工装置は、加工した段階別スペクトル差分情報を用いて、平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する。
これにより、音声加工装置は、柔軟かつ簡便に、感情の程度に応じて平静音声の母音の声質を変化させ、幅広い感情表現の音声に加工することができる。

本発明の一態様は、上述する音声加工装置であって、前記加工規則記憶部は、１または複数の母音に対応して段階別に前記段階別スペクトル差分情報を記憶し、前記差分情報取得部は、前記変換指示値に対応した段階の各母音の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出し、前記差分情報加工部は、前記差分情報取得部が読み出した各母音の前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工し、前記音声加工部は、前記平静音声に含まれる母音のスペクトルを、前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報のうち前記母音に対応した前記段階別スペクトル差分情報により加工して感情音声を生成する、ことを特徴とする。
この発明によれば、音声加工装置は、母音ごとにあるいは母音のグループ別に音響特徴量の変化量に対応した段階別の段階別スペクトル差分情報を記憶する。音声加工装置は、平静音声のスペクトルに含まれる母音を、母音別に加工して、あるいは、母音別の音韻によりグルーピング、または母音を適当にグルーピングし、そのそれぞれのグループに対して同一の規則で加工して感情音声を生成する。
これにより、音声加工装置は、母音ごとのスペクトルの加工規則を適用して感情的な音声の声質を生成したり、母音のグループごとにスペクトルの加工規則を適用して処理の負荷を低減しながら感情的な音声の声質を生成したりすることができる。

本発明の一態様は、上述する音声加工装置であって、平静音声と感情音声のスペクトルの差分を母音ごとに取得する差分取得部と、母音ごとに、前記差分取得部が取得した前記差分を、前記平静音声と前記感情音声の前記音響特徴量の差分の大きさに基づいて複数のクラスタに分類するクラスタリング部と、母音ごとに、前記クラスタに対応した段階の段階別スペクトル差分情報を、前記クラスタに属する前記差分を用いて生成し、前記加工規則記憶部に書き込む加工規則生成部とを備える、ことを特徴とする。
この発明によれば、音声加工装置は、母音ごとに、平静音声と感情音声のスペクトルの差分をそれらの音響特徴量の差分の大きさに応じてクラスタリングし、クラスタリングされたスペクトルの差分からクラスタに対応した段階の段階別スペクトル差分情報を生成する。
これにより、音声加工装置は、平静音声の声質を加工して感情音声を生成するための母音のスペクトルの加工規則を生成することができる。

本発明の一態様は、上述する音声加工装置であって、前記加工規則生成部は、母音ごとに、異なる段階の段階別スペクトル差分情報の間を内挿補間して、前記異なる段階の間の段階の段階別スペクトル差分情報を生成する、ことを特徴とする。
この発明によれば、音声加工装置は、平静音声と感情音声の音素のスペクトルの差分をそれらの音声の音響特徴量の差分の大きさに応じてクラスタリングし、クラスタリングした結果から生成された異なる段階の段階別スペクトル差分情報の間を内挿補間して、それらの間の段階の段階別スペクトル差分情報を生成する。
これにより、音声加工装置は、平静音声を感情音声に加工するための加工規則を簡易に生成することができる。

本発明の一態様は、コンピュータを、音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶手段と、韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力手段と、韻律変換指示値出力手段から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶手段から読み出す差分情報取得手段と、前記差分情報取得手段が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工手段と、前記差分情報加工手段がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工手段と、を具備する音声加工装置として機能させるためのプログラムである。

本発明によれば、平静音声を幅広い感情表現の音声に加工することができる。

本発明の一実施形態による音声加工装置の機能ブロック図である。同実施形態による音声加工装置の加工規則生成処理を示す処理フローである。同実施形態による音声加工装置の指標別加工規則生成処理を示す処理フローである。同実施形態によるパワー差分を指標としたクラスタを示す図である。同実施形態による２つのクラスタの平静音声と感情音声のスペクトル差分の概形変化を示す図である。同実施形態によるクラスタ間の段階に対応した段階別スペクトル差分情報の生成を説明するための図である。同実施形態による音声加工装置の音声加工処理を示す処理フローである。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の音声加工装置は、特に感情が込められていない平静音声に対して、意図した感情表現を付与した加工を行い、感情音声を生成する。平静音声は、人が実際に発声したものでもよく、合成音声でもよい。実際の発話の感情音声には、韻律の変化だけではなく声質の変化も伴う。従って、声の大きさや高さの変化などの従来と同様の韻律の加工に加え、韻律の変化に応じて平静音声の声質を変化させることにより、韻律だけを加工した場合よりも提供情報に相応しい口調の感情表現を付加することができる。しかし、一口に感情表現といっても多様である。同じ「怒り」の感情音声であっても、例えば、程度が強い怒りの口調と、程度が低い怒りとして表現できる語気が強い程度の口調は異なる。また、語気が強い口調よりも怒りの程度を強くすることで、切迫感のある口調とすることもできる。明るいトーンの口調や暗いトーンの口調を、「喜び」の程度や「怒り」の程度を変えることで実現することもできる。本実施形態の音声加工装置は、韻律と声質のうち、声質を柔軟にかつ簡便に制御することで、感情の種類に加え、その感情の程度までを加味して平静音声を加工し、表現できる感情表現の幅を拡大する。

声質の制御は、音声のスペクトルを加工することにより実現される。本実施形態による音声加工装置は、日本語において、特に音声の聞こえに影響が大きい母音に着目し、同一発話内容の平静音声と感情音声の母音ごとの平均的なスペクトルの特徴に基づいて、平静音声に対して感情音声の声質を与える母音スペクトルの加工規則を生成する。上述したように本実施形態の音声加工装置は声質の加工を行うものであるが、感情音声の加工には韻律制御が不可欠である。韻律制御においては、感情に応じて声の大きさを表すパワーや、声の高さに関係する基本周波数の加工指示値が与えられる。本実施形態の音声加工装置は、これらの加工指示値に基づいて、平静音声の母音スペクトルに感情音声の声質を与えるための母音スペクトルの加工規則を適用して加工を行い、声質を制御する。韻律制御には既存の任意の方法を用いることができる。

母音スペクトルを加工するために、本実施形態の音声加工装置は、平静音声と感情音声の対からなるデータベースを用いて、平静音声と感情音声のスペクトルの変化の差分情報を母音ごとに求める。本実施形態の音声加工装置は、それら母音ごとの差分情報を、平静音声と感情音声間の音響特徴量の変化量（差分の大きさ）を指標としてクラスタリングする。指標となる音響特徴量の変化量には、パワーの差分または基本周波数の差分、あるいは、それら両者を加味した値を用いる。本実施形態の音声加工装置は、クラスタリングされた差分情報に基づいて、音響特徴量の変化量に対応した段階別のスペクトル差分情報を母音ごとに求める。本実施形態の音声加工装置は、韻律制御により加工対象の平静音声に対して指示されたパワーや基本周波数などの変換指示値がいずれの段階に対応するかを判断する。本実施形態の音声加工装置は、変換指示値が対応する段階の各母音のスペクトル差分情報に感情の程度に応じた係数を乗算し、スペクトルの差分の大きさを加工する。本実施形態の音声加工装置は、平静音声における母音のスペクトルに、スペクトルの差分の大きさが加工されたその母音のスペクトル差分情報を加算して感情音声を生成する。

図１は、本発明の一実施形態による音声加工装置１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、音声加工装置１は、平静音声記憶部１１、感情音声記憶部１２、音響分析部１３、加工規則記憶部１４、指示入力部２１、平静音声入力部２２、韻律変換指示値出力部２３、差分情報取得部２４、差分情報加工部２５、音声加工部２６、及び感情音声出力部２７を備えて構成される。同図において、音声加工装置１は、ｎ個の加工規則記憶部１４を備える（ｎは１以上の整数）。ｉ番目（ｉは１以上ｎ以下の整数）の加工規則記憶部１４を、加工規則記憶部１４−ｉと記載する。ｎ個の加工規則記憶部１４はそれぞれ、１種類または複数種類の感情に対応する。例えば、感情の種類は、「喜び」、「怒り」、「悲しみ」、「楽しみ」、…など、任意とすることができる。これらの感情の種類それぞれについて加工規則記憶部１４を設けることもできるが、例えば、「喜び」と「楽しみ」の感情音声が類似している場合、これらの感情が１つの加工規則記憶部１４に対応するようにしてもよい。

平静音声記憶部１１は、学習用平静音声データを記憶するデータベースである。学習用平静音声データは、話者が感情を込めずに発話した平静音声の音声データである。学習用平静音声データには、いずれの音素の発話の部分であるかを表すラベルが音素単位で付与されている。音素の音響特徴量は、その音素の前後の音素の影響を受ける。そこで、学習用平静音声データには、様々な音素の並びがバランスよく含まれる音素バランス文の発話を用いることが望ましい。

感情音声記憶部１２は、各感情の学習用感情音声データを記憶するデータベースである。学習用感情音声データは、学習用平静音声データと同じ話者が同じ発話内容を、感情を込めて発話した感情音声の音声データである。学習用平静音声データには、いずれの音素の発話部分であるかを表すラベルが音素単位で付与されている。なお、学習用感情音声データは、同一話者の対であることが望ましいが、話者適応を行えば学習用平静音声データと異なる話者の感情音声の音声データも用いることができる。

音響分析部１３は、差分取得部１３１、クラスタリング部１３２、及び加工規則生成部１３３を備える。
差分取得部１３１は、平静音声記憶部１１から読み出した学習用平静音声データと感情音声記憶部１２から読み出した学習用平静音声データのスペクトルの差分であるスペクトル差分情報を母音ごとに取得する。なお、差分取得部１３１は、学習用平静音声データや学習用感情音声データから各母音のスペクトルを取得する際には、母音の音素が付加された音声区間の中でもパワーが安定している部分のスペクトルを取得する。

クラスタリング部１３２は、母音ごとに、差分取得部１３１が取得したスペクトル差分情報をクラスタリングする処理を、加工規則記憶部１４−１〜１４−ｎのそれぞれに対応した感情別に行う。クラスタリング部１３２は、クラスタリングを行うための指標に、学習用平静音声データと学習用感情音声データとの間の音響特徴量の変化量を用いる。音響特徴量の変化量は、パワーの差分、または、基本周波数の差分、あるいは、パワーの差分と基本周波数の差分を混合した組み合わせで表され、クラスタリング部１３２は、異なる音響特徴量を用いた指標ごとにクラスタリングを行う。クラスタの数は任意であり、予め設定された値を用いてもよく、指示入力部２１により入力された値を用いてもよい。例えば、平均値のクラスタ、平均値よりも差分が大きい１つまたは２つのクラスタ、平均値よりも差分が小さい１つまたは２つのクラスタのように、３〜５程度のクラスタとすることが考えられる。クラスタの数は、予め設定された値を用いてもよく、指示入力部２１により入力された値を用いてもよい。

加工規則生成部１３３は、クラスタリングされたスペクトル差分情報に基づいて各母音の段階的なスペクトル差分情報を生成する処理を、加工規則記憶部１４−１〜１４−ｎのそれぞれに対応した感情別に行う。各段階のそれぞれに対応したスペクトル差分情報を、「段階別スペクトル差分情報」と記載する。加工規則生成部１３３は、感情別に生成した各母音の段階的な段階別スペクトル差分情報を、感情に対応した加工規則記憶部１４に母音スペクトルの加工規則として書き込む。段階の数は、予め設定された値を用いてもよく、指示入力部２１により入力された値を用いてもよい。

加工規則記憶部１４は、第１加工規則記憶部１４１、第２加工規則記憶部１４２、及び第３加工規則記憶部１４３を備える。
第１加工規則記憶部１４１は、パワーの差分を指標としてクラスタリングされたスペクトル差分情報に基づいて加工規則生成部１３３が生成した母音スペクトルの加工規則を記憶する。第２加工規則記憶部１４２は、基本周波数の差分を指標としてクラスタリングされたスペクトル差分情報に基づいて加工規則生成部１３３が生成した母音スペクトルの加工規則を記憶する。第３加工規則記憶部１４３は、パワーの差分及び基本周波数の差分を指標としてクラスタリングしたスペクトル差分情報に基づいて加工規則生成部１３３が生成した母音スペクトルの加工規則を記憶する。

指示入力部２１は、感情の種類、感情の程度、平静音声の発話内容のテキストデータ、及び指標の種類の入力を受ける。
平静音声入力部２２は、感情音声に加工する対象の平静音声データを入力する。平静音声データは、指示入力部２１に入力されたテキストデータが示す発話内容を人が実際に発話したときの平静音声の音声データでもよく、テキストデータが示す発話内容から音声合成により生成した音声データでもよい。

韻律変換指示値出力部２３は、指示入力部２１により入力された感情の種類に対応した韻律モデルに基づいて、指示入力部２１により入力された発話内容のテキストデータに対する韻律制御情報を生成する。韻律を制御して平静音声を感情音声に加工するための韻律制御情報は、発話内容における制御区間と、その制御区間における音響特徴量の変換指示値を含む。音響特徴量の変換指示値は、制御区間においてパワーをどのように変化させるかのパワー変換指示値と、基本周波数をどのように変化させるかの基本周波数変換指示値とを含む。変換指示値は、パワー変換指示値と基本周波数変換指示値のいずれかのみでもよい。韻律変換指示値出力部２３は、生成した韻律制御情報を差分情報取得部２４に出力する。

差分情報取得部２４は、韻律制御情報が示す各制御区間の音響特徴量の変換指示値に対応した段階の各母音の段階別スペクトル差分情報を、指示入力部２１により入力された感情に対応した加工規則記憶部１４から読み出す。差分情報取得部２４は、指示入力部２１により入力された指標の種類がパワーである場合は、段階別スペクトル差分情報を第１加工規則記憶部１４１から読み出し、指標の種類が基本周波数である場合は、段階別スペクトル差分情報を第２加工規則記憶部１４２から読み出す。また、差分情報取得部２４は、指標の種類がパワー及び基本周波数である場合は、段階別スペクトル差分情報を第３加工規則記憶部１４２から読み出す。差分情報取得部２４は、韻律制御情報が示す制御区間と、その制御区間について読み出した各母音の段階別スペクトル差分情報を音声加工部２６に出力する。

差分情報加工部２５は、指示入力部２１により入力された感情の程度に応じて、差分情報取得部２４が取得した段階別スペクトル差分情報のスペクトルの差分の大きさを変更し、スペクトル加工情報を生成する。例えば、差分情報加工部２５は、感情の程度に応じた係数β（０＜β≦１）を段階別スペクトル差分情報に乗算してスペクトル加工情報を生成する。係数βは、感情の程度が高いほど１に近い値であり、感情の程度が低いほど０に近い値である。感情の程度として係数βが入力されてもよい。差分情報加工部２５は、制御区間と、その制御区間の各母音について段階別スペクトル差分情報から生成したスペクトル加工情報とを音声加工部２６に出力する。

音声加工部２６は、制御区間ごとに、平静音声データに含まれる母音のスペクトルに、その母音のスペクトル加工情報を加算して感情音声データを生成する。
感情音声出力部２７は、音声加工部２６が生成した感情音声データを出力する。

図２は、音声加工装置１の加工規則生成処理を示す処理フローである。
差分取得部１３１は、平静音声記憶部１１から学習用平静音声データを読み出す。差分取得部１３１は、読み出した学習用平静音声データから、／ａ／、／ｉ／、／ｕ／、／ｅ／、／ｏ／などの母音の音素が付加された音声区間それぞれから母音のスペクトルを取得する（ステップＳ１０５）。

差分取得部１３１は、加工規則記憶部１４の番号を表す変数ｉに初期値１を設定する（ステップＳ１１０）。差分取得部１３１は、ｉ番目の加工規則記憶部１４−ｉに対応した感情の学習用感情音声データを感情音声記憶部１２から読み出す。差分取得部１３１は、読み出した学習用感情音声データから母音の音素が付加された各音声区間それぞれから母音のスペクトルを取得する（ステップＳ１１５）。

差分取得部１３１は、全ての母音のうち未選択の母音を１つ選択する（ステップＳ１２０）。以下では、選択した母音を、「処理対象母音」と記載する。差分取得部１３１は、処理対象母音の加工規則を生成し、加工規則記憶部１４−ｉに書き込む（ステップＳ１２５）。この処理の詳細な説明は、図３を用いて後述する。

差分取得部１３１は、全ての母音を選択したか否かを判断する（ステップＳ１３０）。差分取得部１３１は、未選択の母音の音素があると判断した場合（ステップＳ１３０：ＮＯ）、ステップＳ１２０からの処理を繰り返す。そして、差分取得部１３１は、全ての母音を選択したと判断した場合（ステップＳ１３０：ＹＥＳ）、ｉがｎ以上であるか否かを判断する（ステップＳ１３５）。
差分取得部１３１は、ｉがｎ未満であると判断した場合（ステップＳ１３５：ＮＯ）、現在のｉの値に１を加算してステップＳ１１５からの処理を繰り返す（ステップＳ１４０）。そして、差分取得部１３１は、ｉがｎ以上であると判断した場合（ステップＳ１４０：ＮＯ）、処理を終了する。

図３は、音声加工装置１の指標別加工規則生成処理を示す処理フローであり、図２のステップＳ１２５における詳細な処理を示す。
差分取得部１３１は、学習用平静音声データから取得した処理対象母音のスペクトルのそれぞれと、学習用感情音声データから取得した処理対象母音のスペクトルそれぞれとの差分を求める（ステップＳ２０５）。例えば、処理対象母音が／ａ／であり、／ａ／のラベルが付与された学習用平静音声データのｊ個の音声区間のそれぞれからスペクトルａ１１、ａ１２、…、ａ１ｊが得られたとする。また、／ａ／のラベルが付与された学習用感情音声データのｊ個の音声区間それぞれからスペクトルａ２１、ａ２２、…、ａ２ｊが得られたとする。この場合、差分取得部１３１は、（ａ１１，ａ２１）、（ａ１１，ａ２２）、…、（ａ１１，ａ２ｊ）、（ａ１２，ａ２１）、（ａ１２，ａ２２）、…、（ａ１２，ａ２ｊ）、…、（ａ１ｊ，ａ２１）、（ａ１ｊ，ａ２２）、…、（ａ１ｊ，ａ２ｊ）の組み合わせを生成する。差分取得部１３１は、生成した組み合わせのそれぞれについてスペクトル差分を求める。スペクトルの差分は、スペクトル包絡（Mel-Generalized Cepstrum：ＭＧＣ）間のユークリッド距離を計算して得られる。差分取得部１３１、各組み合わせについて求めたスペクトル差分を示すスペクトル差分情報を、クラスタリング部１３２に出力する。

クラスタリング部１３２は、ステップＳ２０５において差分取得部１３１が各組み合わせについて生成したスペクトル差分情報を、パワーの差分を指標に用いてクラスタリングする（ステップＳ２１０）。スペクトル差分情報が、学習用平静音声データの／ａ／のスペクトルａ１ｐ（ｐは１以上ｊ以下の整数）と、学習用感情音声データの／ａ／のスペクトルａ２ｑ（ｑは１以上ｊ以下の整数）との差分であるとする。このスペクトル差分情報の指標は、スペクトルａ１ｐのパワーとスペクトルａ２ｑのパワーの差分である。指標は、パワーの変化が大きいほど大きな値となる。

加工規則生成部１３３は、ステップＳ２１０においてクラスタリングされたスペクトル差分情報に基づいて、指標に応じた各段階の処理対象母音の段階別スペクトル差分情報を生成する（ステップＳ２１５）。加工規則生成部１３３は、同じクラスタに属するスペクトル差分情報の平均を段階別スペクトル差分情報とする。

図４は、パワー差分を指標としたクラスタを示す図である。パワーのダイナミックレンジは話者によって異なるため、各話者の最大振幅を基にレンジを正規化する。その上で、同図においては、パワーの差分が中央値から＋１０〜＋３０％に分散するパワー差分大のクラスタと−１０〜−３０％に分散するパワー差分小の２つのクラスタに分類している。
図５は、図４に示す２つのクラスタの平静音声と感情音声のスペクトル差分の概形変化を示す図である。同図においては、母音／ｏ／のスペクトル差分を示している。符号ｄ１は、パワー差分大のクラスタに属するスペクトル差分の平均であり、パワー差分大に対応した段階の段階別スペクトル差分情報となる。符号ｄ２は、パワー差分小のクラスタに属するスペクトル差分の平均であり、パワー差分化小に対応した段階の段階別スペクトル差分情報となる。
加工規則生成部１３３は、図４のようにクラスタリング部１３２がパワー差分を指標としてクラスタリングした２つのクラスタから、図５に示すようにパワー差分大とパワー差分小の対応した２段階の段階別スペクトル差分情報を生成する。なお、クラスタの数が３以上の場合も同様に指標（クラスタ）に対応した段階の段階別スペクトル差分情報を生成することができる。

図３において、加工規則生成部１３３は、ステップＳ２１５において生成された各段階の段階別スペクトル差分情報を、処理対象母音を示す情報と対応付けて加工規則記憶部１４−ｉの第１加工規則記憶部１４１に登録する（ステップＳ２２０）。

クラスタリング部１３２は、ステップＳ２０５において差分取得部１３１が各組み合わせについて生成したスペクトル差分情報を、基本周波数の差分を指標に用いてクラスタリングする（ステップＳ２２５）。上記の例の場合、スペクトルａ１ｐとスペクトルａ２ｑのスペクトル差分情報の指標は、スペクトルａ１ｐが得られた音素のラベルが付与されている部分の学習用平静音声データから得られた基本周波数と、スペクトルａ２ｑが得られた音素のラベルが付与されている部分の学習用感情音声データから得られた基本周波数の差分である。基本周波数の算出は、任意の既存の方法を用いることができる。指標は、基本周波数の変化が大きいほど大きな値となる。

加工規則生成部１３３は、ステップＳ２２０においてクラスタリングされたスペクトル差分情報に基づいて、ステップＳ２１５と同様に、指標に応じた各段階の処理対象母音の段階別スペクトル差分情報を生成する（ステップＳ２３０）。加工規則生成部１３３は、ステップＳ２３０において生成された各段階の段階別スペクトル差分情報を、処理対象母音を示す情報と対応付けて加工規則記憶部１４−ｉの第２加工規則記憶部１４２に登録する（ステップＳ２３５）。

クラスタリング部１３２は、ステップＳ２０５において差分取得部１３１が各組み合わせについて生成したスペクトル差分情報を、パワーの差分及び基本周波数の差分を指標に用いてクラスタリングする（ステップＳ２４０）。加工規則生成部１３３は、ステップＳ２４０においてクラスタリングされたスペクトル差分情報に基づいて、ステップＳ２１５と同様に、指標に応じた各段階の処理対象母音の段階別スペクトル差分情報を生成する（ステップＳ２４５）。加工規則生成部１３３は、ステップＳ２４５において生成された各段階の段階別スペクトル差分情報を、処理対象母音を示す情報と対応付けて加工規則記憶部１４−ｉの第３加工規則記憶部１４３に登録する（ステップＳ２５０）。

図６は、クラスタ間の段階に対応した段階別スペクトル差分情報の生成を説明するための図である。同図においては感情が「怒り」であり、母音が／ａ／である場合を示している。平静音声から感情音声への変化の際に、母音のスペクトルの変化の仕方は、ほぼ相似形であることが観測される場合も多い。そこで、そのような話者の場合は、近似的に、非常に簡単に段階別スペクトル差分情報を生成することができる。つまり、母音のスペクトルの変化の仕方が相似形であるという特徴を生かして、同図に示すように、パワー差分大のクラスタの平均のスペクトル差分から、パワー差分小のクラスタの平均のスペクトルの差分に向かって連続的なスペクトル差分のパターンを生成する。加工規則生成部１３３は、この規則を各音素に適用し、パワー差分大とパワー差分小の間のパワー変化の大きさに応じた段階の段階別スペクトル差分情報を生成することができる。

例えば、段階別スペクトル差分情報を生成する段階の数をｋ（ｋは３以上の整数）とする。同図では、ｋ＝３の場合を示している。ステップＳ２１５、ステップＳ２３０、及びステップＳ２４５において、加工規則生成部１３３は、差分（変化量）が最も大きいクラスタと差分が最も小さいクラスタの２つのクラスタについて、それらクラスタの平均のスペクトル差分情報から段階別スペクトル差分情報を生成する。差分が最も大きいクラスタの平均のスペクトル差分ｄ（１）が段階１の段階別スペクトル差分情報、差分が最も小さいクラスタの平均のスペクトル差分ｄ（ｋ）が段階ｋの段階別スペクトル差分情報となる。加工規則生成部１３３は、段階１と段階ｋの間の段階２〜段階（ｋ−１）の段階別スペクトル差分情報を、スペクトル差分ｄ（１）とスペクトル差分ｄ（ｋ）との間を内挿補間することにより生成する。つまり、加工規則生成部１３３は、スペクトル差分ｄ１とスペクトル差分ｄｋとの間を補間する（ｋ−２）個のスペクトル差分を生成する。加工規則生成部１３３は、生成した（ｋ−２）個のスペクトル差分を、スペクトル差分ｄ（１）に近い順に、段階２〜段階（ｋ−１）の段階別スペクトル差分情報とする。
このように段階別スペクトル差分情報を生成することにより、韻律制御情報で指示された全てのパワーの変換指示値や基本周波数の変換指示値に応じた声質の特徴を平静音声に付与することができる。

図７は、音声加工装置１の音声加工処理を示す処理フローである。
指示入力部２１は、感情の種類、感情の程度、及び指標の種類の入力を受ける（ステップＳ３０５）。さらに、指示入力部２１は、発話内容のテキストデータの入力を受ける（ステップＳ３１０）。平静音声入力部２２は、平静音声データを入力する（ステップＳ３１５）。韻律変換指示値出力部２３は、指示入力部２１により入力された感情に対応した韻律制御モデルを用いて、指示入力部２１により入力された発話内容のテキストデータに対する韻律制御情報を出力する（ステップＳ３２０）。例えば、韻律制御情報には、発話内容のｘｉ〜ｘ（ｉ＋１）の区間はパワー変換指示値がｐｉであり、基本周波数変換指示値がｆｉであることが設定される。

韻律制御モデルは、任意の既存の技術を用いることができる。例えば、韻律制御モデルとして以下の参考文献に記載の技術を用いることができる。この技術では、テキストデータに形態素解析及び係り受け解析を行い、さらに、読みとアクセントを付与するテキスト処理を行う。読みの付与では、読みの決定、音便化処理、母音無性化処理が行われる。また、アクセスの付与では、アクセント句を構成する個々の形態素のアクセント型と、アクセント句の境界及びアクセント型を決定する。このテキスト処理の結果に基づいて、ＨＭＭ（Hidden Markov Model、隠れマルコフモデル）に基づく音声合成アルゴリズムを利用し、基本周波数、パワーなどの韻律制御情報を得る。

（参考文献）河井恒、他７名、「大規模コーパスを用いた音声合成システムXIMERA」、一般社団法人電子情報通信学会、電子情報通信学会論文誌Ｄ、Ｖｏｌ．Ｊ８９−Ｄ、Ｎｏ．１２、２００６年、ｐ．２６８８−２６９８

差分情報取得部２４は、韻律制御情報が示す各制御区間の音響特徴量の変換指示値に対応する段階の各音素の段階別スペクトル差分情報を、指示入力部２１により入力された感情に対応した加工規則記憶部１４から読み出す（ステップＳ３２５）。差分情報取得部２４は、指示入力部２１により入力された指標の種類がパワーである場合は、各制御区間のパワー変換指示値ｐｉに対応した段階の段階別スペクトル差分情報を第１加工規則記憶部１４１から読み出す。また、差分情報取得部２４は、指示入力部２１により入力された指標の種類が基本周波数である場合は、各制御区間の基本周波数変換指示値ｆｉに対応した段階の段階別スペクトル差分情報を第２加工規則記憶部１４２から読み出す。また、差分情報取得部２４は、指示入力部２１により入力された指標の種類がパワー及び基本周波数である場合は、各制御区間のパワー変換指示値ｐｉ及び基本周波数変換指示値ｆｉを用いて以下の式（１）により算出した指標値に対応した段階の段階別スペクトル差分情報を第３加工規則記憶部１４２から読み出す。

この指標値は、パワーの変化の特徴だけでもなく、基本周波数の変化の特徴だけでもなく、その両方の動きの特徴を加味した混合指標の値である。従って、パワー変化が大きく、かつ、基本周波数変化が大きいほど大きな指標値を与え、その逆の場合はより小さな指標値を与える。そこで、差分情報取得部２４は、韻律制御情報により示される基本周波数とパワーの時間変化をそれぞれ１０Ｈｚ程度でスムージングし、スムージング後の振幅を対数変換する。差分情報取得部２４は、対数変換により得られた値を用い、中央値を１として振幅を０〜２に正規化する。基本周波数の振幅を正規化した値をＰｔ、パワーの振幅を正規化した値をＰｏとする。差分情報取得部２４は、以下の式（１）により、Ｐｔ及びＰｏを同じ重み付けで加算し、指標値を得る。

指標値＝Ｐｔ^０．５×Ｐｏ^０．５ …（１）

差分情報加工部２５は、各制御区間について差分情報取得部２４が取得した段階別スペクトル差分情報に、指示入力部２１により入力された感情の程度に応じた係数β（０＜β≦１）を乗算し、スペクトル加工情報を生成する（ステップＳ３３０）。例えば、感情の程度を表す段階別に係数βの値を予め決めておき、差分情報加工部２５は、入力された感情の程度を表す段階に対応した係数βを用いる。

音声加工部２６は、平静音声データに含まれる母音のスペクトルに、その母音が含まれる制御区間について差分情報加工部２５が生成したスペクトル加工情報のうち、その母音のスペクトル加工情報を加算して感情音声データを生成する（ステップＳ３３５）。これにより、韻律の変化を加味した声質の感情音声が逐次生成される。感情音声出力部２７は、ステップＳ３３５において音声加工部２６が生成した感情音声データを出力する（ステップＳ３４０）。

上記において、音声加工装置１は、パワーの差分、基本周波数の差分、あるいは、パワーの差分及び基本周波数の差分を指標値としてクラスタリングを行い、各段階の段階別スペクトル差分情報を生成している。これは、パワーを変化させて音声に感情を込める話者、基本周波数を変化させて音声に感情を込める話者、パワー及び基本周波数の両方を変化させて音声に感情を込める話者など、様々な話者がいるためである。そこで、いずれの種類の指標を用いたときの段階別スペクトル差分情報が効果的であるかについては、第１加工規則記憶部１４１、第２加工規則記憶部１４２、及び第３加工規則記憶部１４３それぞれの段階別スペクトル差分情報を利用して感情音声データを生成し、生成した感情音声データの聴覚的な効果を実際に確認して選択する。

また、パワー及び基本周波数の両方を変化させて音声に感情を込める話者であっても、パワーの変化のほうが大きい話者や、基本周波数の変換のほうが大きい話者もいる。その場合、その重みに応じて、式（１）のＰｔの指数部分と、Ｐｏの指数部分とを変更する。Ｐｔの指数部分を０とすることにより、パワーの差分を指標としてクラスタリングしたときの加工規則を用いた場合と同様に平静音声を加工することができる。また、Ｐｏの指数部分を０とすることにより、基本周波数の差分を指標としてクラスタリングしたときの加工規則を用いた場合と同様に平静音声を加工することができる。

なお、上記において、音声加工装置１は、母音ごとに各段階の段階別スペクトル差分情報を生成しているが、話者によっては平静音声と感情音声のスペクトル差分が複数の母音で類似している場合がある。この場合、音声加工装置１は、類似した特徴の母音のグループごとに各段階の段階別スペクトル差分情報を生成してもよい。音声加工装置１は、ステップＳ１２０において、類似した特徴の複数の母音を選択する。また、平静音声と感情音声のスペクトル差分が全ての母音で類似している場合、音声加工装置１は、全ての母音をまとめて各段階の段階別スペクトル差分情報を生成してもよい。
平静音声と感情音声のスペクトル差分が類似した母音のグループは、ユーザが指示入力部２１により入力してもよく、音響分析部１３が各母音の平静音声と感情音声のスペクトル差分を算出し、類似性を判断してもよい。

以上説明した実施形態によれば、音声加工装置１は、自然発話や合成音声に対し、感情の種類と、その感情の強さに応じて声質の加工を柔軟かつ簡便に行うことにより、平静音声から所望の感情程度の感情表現の音声を生成することができる。従って、音声加工装置１は、加工できる感情表現の幅を拡大するとともに、音声の加工にかかる処理量及び処理時間を低減し、実用に資することが可能となる。さらに、本実施形態の音声加工装置１は、様々な話し方の特徴を持つ話者に対して、有効な加工方法を選択可能であるという自由度を持ち、多様の発話様式に対して柔軟に適応することができる。

なお、上述の音声加工装置１は、内部にコンピュータシステムを有している。そして、音声加工装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１音声加工装置
１１平静音声記憶部
１２感情音声記憶部
１３音響分析部
１３１差分取得部
１３２クラスタリング部
１３３加工規則生成部
１４、１４−１、１４−２、１４−ｎ加工規則記憶部
１４１第１加工規則記憶部
１４２第２加工規則記憶部
１４３第３加工規則記憶部
２１指示入力部
２２平静音声入力部
２３韻律変換指示値出力部
２４差分情報取得部
２５差分情報加工部
２６音声加工部
２７感情音声出力部

Claims

音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶部と、
韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力部と、
韻律変換指示値出力部から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出す差分情報取得部と、
前記差分情報取得部が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工部と、
前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工部と、
を備えることを特徴とする音声加工装置。
前記加工規則記憶部は、１または複数の母音に対応して段階別に前記段階別スペクトル差分情報を記憶し、
前記差分情報取得部は、前記変換指示値に対応した段階の各母音の前記段階別スペクトル差分情報を前記加工規則記憶部から読み出し、
前記差分情報加工部は、前記差分情報取得部が読み出した各母音の前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工し、
前記音声加工部は、前記平静音声に含まれる母音のスペクトルを、前記差分情報加工部がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報のうち前記母音に対応した前記段階別スペクトル差分情報により加工して感情音声を生成する、
ことを特徴とする請求項１に記載の音声加工装置。
平静音声と感情音声のスペクトルの差分を母音ごとに取得する差分取得部と、
母音ごとに、前記差分取得部が取得した前記差分を、前記平静音声と前記感情音声の前記音響特徴量の差分の大きさに基づいて複数のクラスタに分類するクラスタリング部と、
母音ごとに、前記クラスタに対応した段階の段階別スペクトル差分情報を、前記クラスタに属する前記差分を用いて生成し、前記加工規則記憶部に書き込む加工規則生成部とを備える、
ことを特徴とする請求項２に記載の音声加工装置。
前記加工規則生成部は、母音ごとに、異なる段階の段階別スペクトル差分情報の間を内挿補間して、前記異なる段階の間の段階の段階別スペクトル差分情報を生成する、
ことを特徴とする請求項３に記載の音声加工装置。
コンピュータを、
音声のパワーまたは基本周波数、あるいは、音声のパワー及び基本周波数の組み合わせにおける音響特徴量の変化量に対応した段階別に、平静音声と感情音声との母音のスペクトルの差分を示す段階別スペクトル差分情報を記憶する加工規則記憶手段と、
韻律を制御して平静音声を感情音声に加工するための音響特徴量の変換指示値を出力する韻律変換指示値出力手段と、
韻律変換指示値出力手段から出力された前記変換指示値に対応した段階の前記段階別スペクトル差分情報を前記加工規則記憶手段から読み出す差分情報取得手段と、
前記差分情報取得手段が読み出した前記段階別スペクトル差分情報のスペクトルの差分の大きさを感情の程度に応じて加工する差分情報加工手段と、
前記差分情報加工手段がスペクトルの差分の大きさを加工して得た前記段階別スペクトル差分情報を用いて、前記平静音声に含まれる母音のスペクトルを加工し、感情音声を生成する音声加工手段と、
を具備する音声加工装置として機能させるためのプログラム。