JP6003352B2

JP6003352B2 - データ生成装置、及びデータ生成方法

Info

Publication number: JP6003352B2
Application number: JP2012168473A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2016-10-05
Anticipated expiration: 2032-07-30
Also published as: JP2014026222A

Description

本発明は、音声感情データを生成するデータ生成装置，及びデータ生成方法に関する。

従来、音声合成にて出力する合成音の声質を任意に変換する音声合成装置が知られている（例えば、特許文献１参照）。この種の音声合成装置の中には、音声合成の手法として、予め用意した音声パラメータを調整して音声波形、ひいては合成音を生成するフォルマント合成を用いるものが存在する。

このようなフォルマント合成にて生成される合成音に感情を付与する場合、音声パラメータの調整は、少なくとも一つの音声データに基づいて実施される必要がある。ここで言う音声データとは、人が音声を発したときの感情の内容と、当該内容の感情にて発せられた音声波形に基づいて生成された音声パラメータとを、当該音声を発した人物ごとに予め一対一で対応付けた一つのデータである。この音声データは、一般的に、記憶装置に記憶され、データベースが構築されている。

このような音声合成装置においては、合成音に付与する感情の種類を増加させるために、音声データを構成する感情の種類、ひいては音声データの数を増加させる必要がある。

特開２００４−３８０７１号

上述したように、記憶装置に記憶する音声データの数を増加させれば、従来の音声合成装置において、合成音に付与できる感情の種類を増やすこと、即ち、合成音による感情表現を多様化できる。

しかしながら、従来の音声データは、感情の内容と音声パラメータとを、音声を発した人物ごとに一対一で対応付けたものである。このため、従来の技術において、合成音に付加する感情の種類を多様化するためには、音声を発した人物ごとに別個に音声データを用意して記憶装置に記憶する必要があり、音声データの数が膨大なものとなる可能性があった。

そのため、記憶装置に記憶された音声データの数が膨大なものとなると、音声合成装置では、音声合成の際に、利用者によって指定された感情の内容を含む音声データを抽出するために要する処理量が増加し、目的とする音声データを抽出するまでに要する時間が長くなるという問題が生じる。

そこで、本発明は、音声合成において、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制することを目的とする。

上記目的を達成するためになされた本発明は、データ生成装置に関する。
本発明のデータ生成装置は、パラメータ取得手段と、分類手段と、タグ取得手段と、代表推定手段と、パラメータ決定手段と、データ生成手段とを備えている。

パラメータ取得手段は、音声データを少なくとも２つ記憶する第一記憶装置から、音声データそれぞれに含まれる音声パラメータを取得する。ここで言う音声パラメータは、人が発した音の波形を表す少なくとも一つの特徴量である。さらに、ここで言う音声データは、音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを人ごとに対応付けたデータである。

分類手段は、パラメータ取得手段にて取得した音声パラメータの群を、音声パラメータの分布に基づいて、少なくとも２つのグループに分類する。その分類手段にて分類されたグループのそれぞれを分類クラスタとして、タグ取得手段が、分類クラスタのそれぞれに含まれる音声パラメータと対応付けられたタグデータのそれぞれを、第一記憶装置から分類クラスタごとに取得する。

その取得したタグデータに基づいて、代表推定手段が、分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、分類クラスタごとに少なくとも一つ推定する。さらに、パラメータ決定手段が、分類手段にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す音声パラメータである代表パラメータを、分類クラスタごとに決定する。

この決定された代表パラメータと、代表推定手段にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを、データ生成手段が生成して、第二記憶装置に記憶する。

本発明のデータ生成装置によれば、音声合成装置にて出力される合成音に付与可能な感情の種類が従来と同数であったとしても、第二記憶装置に記憶される音声感情データのデータ量を、従来の技術に比べて低減できる。

この結果、本発明のデータ生成装置によって生成された、音声感情データが記憶された第二記憶装置を用いれば、音声合成装置における音声合成の際に、利用者に指定された感情の内容を含む音声感情データを抽出するまでに要する処理量を低減でき、ひいては、当該音声感情データの抽出までに要する時間長を短縮できる。

換言すれば、本発明によれば、音声合成において、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制できる。

本発明におけるパラメータ決定手段では、平均手段が、分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、分類クラスタごとに導出し、差分導出手段が、平均手段にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を代表パラメータとして、分類クラスタごとに導出しても良い。

このようなデータ生成装置によれば、代表パラメータを、平均パラメータと基準パラメータとの差分とすることができる。
このような音声感情データを用いて音声パラメータを調整して音声合成すれば、音声パラメータとして基準パラメータのみが存在する状況下であっても、音声合成により、感情を付与した合成音を生成できる。

さらに、本発明における差分導出手段では、抽出手段が、感情が自然体であることを表すタグデータと対応付けられた音声パラメータのそれぞれを、第一記憶装置から抽出し、基準導出手段が、抽出手段で抽出した音声パラメータの平均を、基準パラメータとして導出しても良い。

このようなデータ生成装置によれば、基準パラメータの導出に用いる音声パラメータに対応付けられたタグデータを、感情が自然体であることを表すタグデータとすることができる。

この感情が自然体であることを、例えば、ニュース番組での表情のように無表情である場合の感情や、通常の会話における感情とすれば、当該タグデータと対応付けられた音声パラメータを容易に収集でき、ひいては、基準パラメータを容易に導出できる。

ところで、本発明は、データ生成方法としてなされていても良い。
本発明がデータ生成方法としてなされている場合、本発明のデータ生成方法では、第一記憶装置から、音声データそれぞれに含まれる音声パラメータを取得するパラメータ取得手順と、その取得した音声パラメータの群を音声パラメータの分布に基づいて、少なくとも２つのグループに分類する分類手順とを有している必要がある。さらに、データ生成方法では、分類クラスタのそれぞれに含まれる音声パラメータと対応付けられたタグデータのそれぞれを、第一記憶装置から分類クラスタごとに取得するタグ取得手順と、その取得したタグデータに基づいて、分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、分類クラスタごとに少なくとも一つ推定する代表推定手順とを有している必要がある。

さらには、データ生成方法では、その分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す音声パラメータである代表パラメータを、分類クラスタごとに決定するパラメータ決定手順と、その決定された代表パラメータと、代表推定手順にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手順とを有している必要がある。
データ生方法において、パラメータ決定手順は、前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順とを備えることが好ましい。
また、差分導出手順は、前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順とを備えることが好ましい。

このようなデータ生成方法によれば、請求項１に係るデータ生成装置と同様の効果を得ることができる。

音声合成システムの概略構成を示すブロック図である。音声感情データ生成処理の処理手順を示すフローチャートである。音声感情データ生成処理の処理概要を示す説明図である。音声感情データ生成処理の処理概要を示す説明図である。音声合成処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図１に示すように、音声合成システム１は、当該音声合成システム１の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータＰＶに基づいて音声合成した音声（即ち、合成音）を出力するシステムである。この音声合成システム１による音声合成では、詳しくは後述する音声感情データＥＴに基づいて、合成音に対して、利用者によって指定された感情を含む音の性質を付加することがなされる。

これを実現するために、音声合成システム１は、少なくとも一つの音声入力装置１０と、少なくとも一つの音声格納サーバ２５と、少なくとも一つの情報処理装置３０と、少なくとも一つのデータ格納サーバ５０と、少なくとも一つの音声出力端末６０とを備えている。

音声入力装置１０は、音声が入力される装置である。音声格納サーバ２５は、音声入力装置１０にて入力された音声に基づいて生成された音声パラメータＰＶと、当該音声の性質を表すタグデータＴＧとを対応付けた音声データＳＤを格納する。

情報処理装置３０は、音声入力装置１０に格納されている音声データＳＤ群に基づいて、少なくとも２つ以上の音声感情データＥＴを生成する。データ格納サーバ５０は、情報処理装置３０にて生成された音声感情データＥＴを格納する。

音声出力端末６０は、音声格納サーバ２５に格納されている音声パラメータＰＶ，及びデータ格納サーバ５０に格納されている音声感情データＥＴに基づいて音声合成した合成音を出力する。
〈音声入力装置〉
音声入力装置１０は、通信部１１と、入力受付部１２と、表示部１３と、音声入力部１４と、音声出力部１５と、記憶部１７と、制御部２０とを備えている。音声入力装置１０は、例えば、周知のカラオケ装置として構成されていても良いし、その他の装置として構成されていても良い。

通信部１１は、通信網を介して、音声入力装置１０が外部との間で通信を行う。ここで言う通信網には、例えば、公衆無線通信網やネットワーク回線を含む。
入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。この入力機器には、例えば、キーやスイッチ、リモコンの受付部を含む。

表示部１３は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置である。この表示装置には、例えば、液晶ディスプレイやＣＲＴを含む。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置、いわゆるマイクロホンである。

音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置である。音声出力部１５は、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格によって規定されたデータに基づいて、音源からの音を模擬した出力音を出力する音源モジュールとして構成されていても良い。この音源モジュールには、例えば、ＭＩＤＩ音源を含む。

記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。
また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声格納サーバ〉
音声格納サーバ２５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置である。この音声格納サーバ２５は、通信網を介して、音声入力装置１０、情報処理装置３０、データ格納サーバ５０に接続されている。

この音声格納サーバ２５には、少なくとも２つ以上の音声データＳＤが格納されている。音声データＳＤは、音声パラメータＰＶ_iと、タグデータＴＧ_iとを発声者ごとに対応付けたデータである。すなわち、音声パラメータＰＶ_iと、タグデータＴＧ_iとに、発声者を識別する識別番号（ＩＤ）を付与したデータが、音声データＳＤとして生成される。

音声パラメータＰＶは、人が発した音の波形ごとに用意されるものであり、当該音声波形ｉを表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごとに用意される。音声パラメータＰＶにおける特徴量として、発声音声における各音素での基本周波数Ｆ０、メル周波数ケプストラム（ＭＦＣＣ）、音素長、パワー、及びそれらの時間差分を、少なくとも備えている。この音声パラメータＰＶにおける特徴量は、音素ごとに用意される。

これらの基本周波数Ｆ０、ＭＦＣＣ、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数Ｆ０であれば、音素ごとの音声素片の時間軸に沿った自己相関、音素ごとの音声素片の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、ＭＦＣＣであれば、音素ごとの音声素片に対して時間分析窓を適用して、時間分析窓ごとに周波数解析（例えば、ＦＦＴ）をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音素ごとの音声素片に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。

タグデータＴＧは、音声パラメータＰＶによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴情報と、当該音声が発声されたときの発声者の感情を表す感情情報とを少なくとも含む。発声者特徴情報には、例えば、発声者の性別、年齢などを含む。また、感情情報は、感情そのものを表す情報に加えて、発声したときの情景、情緒や、雰囲気などを表す情報や、発声者の感情を推定するために必要な情報を含んでも良い。

音声データＳＤの生成は、音声入力装置１０を介して入力された音声を、人が手作業で解析することで行っても良いし、音声入力装置１０などの情報処理装置がプログラムを実行することで行っても良い。

音声入力装置１０にてプログラムを実行することで、音声データＳＤを生成する場合、例えば、当該音声入力装置１０が周知のカラオケ装置であれば、カラオケ用に予め用意され、楽曲の楽譜を表すカラオケデータ（即ち、ＭＩＤＩデータ）を用いて、以下のように実行すれば良い。音声波形に対してカラオケデータを照合することで、各音節または音素ごとの音声素片を抽出し、その音声素片それぞれから音声パラメータＰＶを導出する。

また、音声入力装置１０を周知のカラオケ装置と想定した場合、音声パラメータＰＶ_iとタグデータＴＧ_iとを発声者ごとに対応付ける方法の一例として、当該音声入力装置１０へのログインの際に、利用者から入力され、楽曲の予約時に曲と対応付けられるＩＤを、発声者の識別番号として、音声パラメータＰＶ_iとタグデータＴＧ_iと対応付ければ良い。
〈情報処理装置〉
この情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、記憶部３４と、制御部４０とを備えている。

通信部３１は、通信網を介して外部との間で通信を行う。入力受付部３２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。入力機器には、例えば、キーボードやポインティングデバイスを含む。

表示部３３は、画像を表示する表示装置である。表示装置には、例えば、液晶ディスプレイやＣＲＴを含む。記憶部３４は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶装置には、例えば、ハードディスク装置や、フラッシュメモリを含む。

また、制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。
そして、情報処理装置３０のＲＯＭ４１には、音声格納サーバ２５に格納されている音声データＳＤ群に基づいて、少なくとも２つ以上の音声感情データＥＴを生成する音声感情データ生成処理を制御部４０が実行するための処理プログラムが記憶されている。

すなわち、情報処理装置３０は、音声感情データ生成処理を実行することで、本発明のデータ生成装置として機能する。
なお、データ格納サーバ５０は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置であり、通信網を介して少なくとも情報処理装置３０に接続されている。
〈音声感情データ生成処理〉
音声感情データ生成処理は、図２に示すように、起動されると、音声格納サーバ２５に格納されている全ての音声パラメータＰＶを取得する（Ｓ１１０）。

続いて、少なくとも２以上の数値であるクラスタ数ｋを取得する（Ｓ１２０）。その取得したクラスタ数ｋに従って、Ｓ１１０にて取得した全ての音声パラメータＰＶを、クラスタ数ｋのクラスタに分類するクラスタリングを実行する（Ｓ１３０）。このＳ１３０にて実行するクラスタリングは、ｋ−ｍｅａｎｓなどの周知の手法によって実行すれば良い。以下、クラスタリングによって分類した各クラスタを分類クラスタＣＬと称す。

すなわち、分類クラスタＣＬは、図３に示すように、空間平面において、類似するとみなせる音声パラメータＰＶのグループ（集合）である。
Ｓ１３０では、さらに、分類クラスタＣＬごとに、当該分類クラスタＣＬに含まれる音声パラメータＰＶそれぞれに、識別符号Ｎ_k,jを付して記憶する。ただし、符号ｊは、分類クラスタＣＬ_kに含まれる音声パラメータＰＶのインデックスである。

また、Ｓ１２０では、利用者が入力した数値をクラスタ数ｋとして取得しても良いし、音声パラメータＰＶ群における各音声パラメータＰＶの空間分布から推定した結果をクラスタ数ｋとして取得しても良い。

後者の場合、クラスタ数ｋを推定する手法の一例としては、空間平面における原点から各音声パラメータＰＶ_iまでの距離ＥＤ_iの分布、及び空間平面における基準ベクトルＲＶと各音声パラメータＰＶ_iとがなす角度ＡＮＧ_iの分布に基づいて推定することが考えられる。より具体的には、クラスタ数ｋは、距離ＥＤ_iの分布におけるピークの数に、角度ＡＮＧ_iの分布におけるピークの数を乗じた値として推定すれば良い。

なお、距離ＥＤ_iは、下記（１）式にて求めれば良く、角度ＡＮＧ_iは、下記（２）式にて求めれば良い。

ただし、（１）式中のｔ（）は、ベクトルの転置、即ち、転置行列を意味する。また、基準ベクトルＲＶとは、任意の方向を持つ基準ベクトルである。
さらに、ここで言うピークとは、それぞれの分布における極大値である。そして、ピークの数は、距離ＥＤ_iまたは角度ＡＮＧ_iの分布によって表される曲線を微分した結果に従って、ゼロクロスの回数をカウントすることで求めれば良い。

続いて、音声感情データ生成処理では、分類クラスタＣＬ_kごとに、各分類クラスタＣＬ_kに含まれる音声パラメータＰＶ（Ｎ_k,j）それぞれを対応付けられたタグデータＴＧを収集する（Ｓ１４０）。

そして、Ｓ１４０にて収集した、各分類クラスタＣＬ_kのタグデータＴＧ群に基づいて、各分類クラスタＣＬ_kを代表するタグデータＴＧを代表タグデータＴＤとして推定する（Ｓ１５０）。この代表タグデータＴＤの推定は、タグデータＴＧ群を構成するタグデータＴＧのヒストグラムを分類クラスタＣＬ_kごとに求め、その分類クラスタＣＬ_kごとのヒストグラムにおいて、頻度が最大であるタグデータＴＧを、当該分類クラスタＣＬ_kにおける代表タグデータＴＤとすれば良い。

さらに、分類クラスタＣＬ_kごとに、当該分類クラスタＣＬ_kにおける音声パラメータＰＶの代表値であるクラスタ代表値を導出する（Ｓ１６０）。このクラスタ代表値には、各分類クラスタＣＬ_kに含まれる音声パラメータＰＶの平均値である平均パラメータＣＰＶ＿Ａ_kと、各分類クラスタＣＬ_kに含まれる音声パラメータＰＶの分散である分散パラメータＣＰＶ＿Ｖ_kとが含まれる。

なお、各分類クラスタＣＬ_kにおける平均パラメータＣＰＶ＿Ａ_kの導出は、下記（３）式に従って実行される。また、各分類クラスタＣＬ_kにおける分散パラメータＣＰＶ＿Ｖ_kの導出は、下記（４）式に従って実行される。

続いて、特定条件を満たす全ての音声パラメータＰＶを中立パラメータＰＶとして、音声格納サーバ２５から取得する（Ｓ１７０）。下記（５）式に従って、取得した中立パラメータＰＶの平均値を基準パラメータＮＰＶとして導出する（Ｓ１８０）。

具体的に、Ｓ１７０における特定条件とは、タグデータＴＧにおける感情が自然体であることを表していることである。これにより、基準パラメータＮＰＶは、感情が自然体であることを表す音声パラメータとなる。

なお、特定条件は、タグデータＴＧにおける感情が自然体であることを表していることに限らず、タグデータＴＧが対応付けられていないことであっても良い。さらに、特定条件は、音声格納サーバ２５に格納されている全ての音声パラメータＰＶであっても良い。

続いて、下記（６）式に従って、分類クラスタＣＬ_kごとに、当該分類クラスタＣＬ_kにおける平均パラメータＣＰＶ＿Ａ_kと基準パラメータＮＰＶとの差分を、当該分類クラスタＣＬ_kにおける代表パラメータＤＰＶ_kとして導出する（Ｓ１９０）。

分類クラスタＣＬ_kにおける平均パラメータＣＰＶ＿Ａ_kと基準パラメータＮＰＶとの差分は、図４に示すように、空間平面において、基準パラメータＮＰＶによって表される座標から、各平均パラメータＣＰＶ＿Ａ_kによって表される座標までの距離となる。

さらに、代表タグデータＴＤ_kと、代表パラメータＤＰＶ_kと、分散パラメータＣＰＶ＿Ｖ_kとを、それぞれに対応する分類クラスタＣＬ_kごとに対応付けた音声感情データＥＴ_kを、分類クラスタＣＬ_kごとに生成して、データ格納サーバ５０に格納する（Ｓ２００）。

その後、本音声感情データ生成処理を終了する。
〈音声出力端末〉
この音声出力端末６０は、図１に示すように、情報受付部６１と、表示部６２と、音出力部６３と、通信部６４と、記憶部６５と、制御部６７とを備えている。音声出力端末６０は、例えば、周知の携帯端末や、周知の情報処理装置として構成されていても良い。ここで言う携帯端末には、携帯電話や携帯情報端末を含む。また、情報処理装置には、いわゆるパーソナルコンピュータを含む。

このうち、情報受付部６１は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部６２は、制御部６７からの指令に基づいて画像を表示する。音出力部６３は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。

通信部６４は、通信網を介して音声出力端末６０が外部との間で情報通信を行うものである。記憶部６５は、記憶内容を読み書き可能に構成された不揮発性の記憶装置であり、各種処理プログラムや各種データが記憶される。

また、制御部６７は、ＲＯＭ、ＲＡＭ、ＣＰＵを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理〉
次に、音声出力端末６０の制御部６７が実行する音声合成処理について説明する。

この音声合成処理は、音声出力端末６０の情報受付部６１を介して起動指令が入力されると起動される。
図５に示すように、音声合成処理は、起動されると、まず、情報受付部６１を介して入力された情報（以下、入力情報と称す）を取得する（Ｓ５１０）。このＳ５１０にて取得する入力情報とは、例えば、合成音として出力する音声の内容（文言）を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、出力性質情報は、タグデータＴＧに対応する情報であり、発声者特徴情報と、感情情報とを含む。

続いて、Ｓ５１０にて取得した出力文言を合成音として出力するために必要な音素それぞれに対応し、かつＳ５１０にて取得した出力性質情報のうちの発声者特徴情報に最も類似する代表タグデータＴＤと対応付けられた音声パラメータＰＶを、音声格納サーバ２５から抽出する（Ｓ５２０）。

さらに、Ｓ５１０にて取得した出力性質情報のうちの感情情報に最も類似する代表タグデータＴＤを含む音声感情データＥＴを、データ格納サーバ５０から抽出する（Ｓ５３０）。

そして、Ｓ５１０にて取得した入力情報に即した合成音が出力されるように、Ｓ５２０にて抽出した音声パラメータＰＶを、Ｓ５３０にて抽出した音声感情データＥＴに基づいて調整する（Ｓ５４０）。続いて、Ｓ５４０にて調整された音声パラメータＰＶに基づいて、音声合成する（Ｓ５５０）。このＳ５５０における音声合成は、フォルマント合成による周知の音声合成の手法を用いる。

さらに、Ｓ５５０にて音声合成することによって生成された合成音を音出力部６３から出力する（Ｓ５６０）。
その後、本音声合成処理を終了する。
［実施形態の効果］
以上説明したように、情報処理装置３０によれば、ある程度の数の音声パラメータＰＶを統計処理することにより、表情空間領域（クラスタＣＬ）を推定している。このため、音声合成システム１によれば、発声者ごとにすべての感情の音声パラメータＰＶを用意する必要がない。

したがって、情報処理装置３０によれば、音声出力端末から出力される合成音に付与可能な感情の種類が従来と同数であったとしても、データ格納サーバ５０に記憶される音声感情データＥＴのデータ量を、従来の技術に比べて低減できる。

この結果、情報処理装置３０によって生成された、音声感情データＥＴが記憶されたデータ格納サーバ５０を用いれば、音声合成の際に、利用者に指定された感情の内容を含む音声感情データＥＴを抽出するまでに要する処理量を低減でき、ひいては、当該音声感情データＥＴの抽出までに要する時間長を短縮できる。

しかも、音声合成システム１によれば、各表情に対する人間の発声の自然な変化が反映できる。
換言すれば、上記実施形態の情報処理装置３０によれば、音声合成の際に、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制できる。

しかも、上記音声感情データ生成処理では、平均パラメータＣＰＶ＿Ａと基準パラメータＮＰＶとの差分を代表パラメータＤＰＶとして生成し、この代表パラメータＤＰＶを、代表タグデータＴＤを対応付けたデータを音声感情データＥＴとしている。

このような音声感情データＥＴを用いて音声パラメータＰＶを調整して音声合成すれば、音声パラメータＰＶとして基準パラメータＮＰＶのみが存在する状況下であっても、音声合成により、感情を付与した合成音を生成できる。

さらに、上記音声感情データ生成処理では、音声感情データＥＴに、分散パラメータＣＰＶ＿Ｖを含めている。
このため、上記実施形態の音声合成処理によれば、音声合成の際に音声パラメータＰＶを調整する調整量を微調整することができる。

なお、上記音声感情データ生成処理では、基準パラメータの導出に用いる音声パラメータに対応付けられたタグデータＴＧを、感情が自然体であることを表すタグデータＴＧとしている。

この感情が自然体であることを、例えば、ニュース番組での表情のように無表情である場合の感情や、通常の会話における感情とすれば、当該タグデータＴＧと対応付けられた音声パラメータＰＶを容易に収集でき、ひいては、基準パラメータを容易に導出できる。

以上説明したように、音声合成システム１によれば、音声感情データＥＴに従って音声パラメータＰＶを調整して音声合成することで、元来の発声者であるか否かに拘わらず、当該音声感情データＥＴにおける感情を付加した合成音を生成することができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態においては、音声格納サーバ２５とデータ格納サーバ５０とは、別個に構成されていたが、音声格納サーバ２５とデータ格納サーバ５０との構成は、これに限るものではない。すなわち、音声格納サーバ２５とデータ格納サーバ５０とは共通のサーバとして構成されていても良い。

また、上記実施形態では、基準ベクトルＲＶを、任意の方向を持つ基準ベクトルとしていたが、基準ベクトルＲＶは、これに限るものではなく、空間平面における原点から中立パラメータＰＶへと向かうベクトルを、基準ベクトルＲＶとしても良い。

さらに、上記実施形態の音声感情データ生成処理におけるＳ１３０では、クラスタリングを、タグデータＴＧにてスクリーニングを実行した後に実行しても良い。
さらには、Ｓ１３０にて実行するクラスタリングは、ｋ−ｍｅａｎｓに限るものではなく、その他の周知のクラスタリング手法を用いても良い。

なお、上記実施形態における音声感情データＥＴには、分散パラメータＣＰＶ＿Ｖが含まれていたが、音声感情データＥＴには、分散パラメータＣＰＶ＿Ｖが含まれていなくとも良い。すなわち、本発明における音声感情データは、少なくとも、代表タグデータＴＤ_kと、代表パラメータＤＰＶ_kとが、それぞれに対応する分類クラスタＣＬ_kごとに対応付けられていれば良い。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の音声感情データ生成処理におけるＳ１１０が、本発明におけるパラメータ取得手段に相当し、音声感情データ生成処理におけるＳ１２０，Ｓ１３０が、分類手段に相当する。そして、音声感情データ生成処理におけるＳ１４０が、本発明におけるタグ取得手段に相当し、Ｓ１５０が、代表推定手段に相当する。さらに、音声感情データ生成処理におけるＳ１６０〜Ｓ１９０が、本発明におけるパラメータ決定手段に相当し、Ｓ２００が、データ生成手段に相当する。

また、上記実施形態における音声格納サーバ２５が、本発明の第一記憶装置に相当し、データ格納サーバ５０が、本発明の第二記憶装置に相当する。
なお、上記実施形態の音声感情データ生成処理におけるＳ１６０が、本発明における平均手段に相当し、Ｓ１９０が、本発明における差分導出手段に相当する。さらに、音声感情データ生成処理におけるＳ１７０が、抽出手段に相当し、Ｓ１８０が基準導出手段に相当する。

１…音声合成システム１０…音声入力装置２５…音声格納サーバ３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…記憶部４０…制御部４１…ＲＯＭ４２…ＲＡＭ４３…ＣＰＵ５０…データ格納サーバ６０…音声出力端末６１…情報受付部６２…表示部６３…音出力部６４…通信部６５…記憶部６７…制御部

Claims

人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも２つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手段と、
前記パラメータ取得手段にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも２つのグループに分類する分類手段と、
前記分類手段にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手段と、
前記タグ取得手段にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手段と、
前記分類手段にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手段と、
前記パラメータ決定手段にて決定された代表パラメータと、前記代表推定手段にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手段と
を備え、
前記パラメータ決定手段は、
前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手段と、
前記平均手段にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手段と
を備え、
前記差分導出手段は、
前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手段と、
前記抽出手段で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手段と
を備えることを特徴とするデータ生成装置。
人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも２つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手順と、
前記パラメータ取得手順にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも２つのグループに分類する分類手順と、
前記分類手順にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手順と、
前記タグ取得手順にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手順と、
前記分類手順にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当
該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手順と、
前記パラメータ決定手順にて決定された代表パラメータと、前記代表推定手順にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手順と
を備え、
前記パラメータ決定手順は、
前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、
前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順と
を備え、
前記差分導出手順は、
前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、
前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順と
を備えることを特徴とするデータ生成方法。