JP6003352B2 - データ生成装置、及びデータ生成方法 - Google Patents

データ生成装置、及びデータ生成方法 Download PDF

Info

Publication number
JP6003352B2
JP6003352B2 JP2012168473A JP2012168473A JP6003352B2 JP 6003352 B2 JP6003352 B2 JP 6003352B2 JP 2012168473 A JP2012168473 A JP 2012168473A JP 2012168473 A JP2012168473 A JP 2012168473A JP 6003352 B2 JP6003352 B2 JP 6003352B2
Authority
JP
Japan
Prior art keywords
parameter
voice
classification
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012168473A
Other languages
English (en)
Other versions
JP2014026222A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2012168473A priority Critical patent/JP6003352B2/ja
Publication of JP2014026222A publication Critical patent/JP2014026222A/ja
Application granted granted Critical
Publication of JP6003352B2 publication Critical patent/JP6003352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声感情データを生成するデータ生成装置,及びデータ生成方法に関する。
従来、音声合成にて出力する合成音の声質を任意に変換する音声合成装置が知られている(例えば、特許文献1参照)。この種の音声合成装置の中には、音声合成の手法として、予め用意した音声パラメータを調整して音声波形、ひいては合成音を生成するフォルマント合成を用いるものが存在する。
このようなフォルマント合成にて生成される合成音に感情を付与する場合、音声パラメータの調整は、少なくとも一つの音声データに基づいて実施される必要がある。ここで言う音声データとは、人が音声を発したときの感情の内容と、当該内容の感情にて発せられた音声波形に基づいて生成された音声パラメータとを、当該音声を発した人物ごとに予め一対一で対応付けた一つのデータである。この音声データは、一般的に、記憶装置に記憶され、データベースが構築されている。
このような音声合成装置においては、合成音に付与する感情の種類を増加させるために、音声データを構成する感情の種類、ひいては音声データの数を増加させる必要がある。
特開2004−38071号
上述したように、記憶装置に記憶する音声データの数を増加させれば、従来の音声合成装置において、合成音に付与できる感情の種類を増やすこと、即ち、合成音による感情表現を多様化できる。
しかしながら、従来の音声データは、感情の内容と音声パラメータとを、音声を発した人物ごとに一対一で対応付けたものである。このため、従来の技術において、合成音に付加する感情の種類を多様化するためには、音声を発した人物ごとに別個に音声データを用意して記憶装置に記憶する必要があり、音声データの数が膨大なものとなる可能性があった。
そのため、記憶装置に記憶された音声データの数が膨大なものとなると、音声合成装置では、音声合成の際に、利用者によって指定された感情の内容を含む音声データを抽出するために要する処理量が増加し、目的とする音声データを抽出するまでに要する時間が長くなるという問題が生じる。
そこで、本発明は、音声合成において、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制することを目的とする。
上記目的を達成するためになされた本発明は、データ生成装置に関する。
本発明のデータ生成装置は、パラメータ取得手段と、分類手段と、タグ取得手段と、代表推定手段と、パラメータ決定手段と、データ生成手段とを備えている。
パラメータ取得手段は、音声データを少なくとも2つ記憶する第一記憶装置から、音声データそれぞれに含まれる音声パラメータを取得する。ここで言う音声パラメータは、人が発した音の波形を表す少なくとも一つの特徴量である。さらに、ここで言う音声データは、音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを人ごとに対応付けたデータである。
分類手段は、パラメータ取得手段にて取得した音声パラメータの群を、音声パラメータの分布に基づいて、少なくとも2つのグループに分類する。その分類手段にて分類されたグループのそれぞれを分類クラスタとして、タグ取得手段が、分類クラスタのそれぞれに含まれる音声パラメータと対応付けられたタグデータのそれぞれを、第一記憶装置から分類クラスタごとに取得する。
その取得したタグデータに基づいて、代表推定手段が、分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、分類クラスタごとに少なくとも一つ推定する。さらに、パラメータ決定手段が、分類手段にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す音声パラメータである代表パラメータを、分類クラスタごとに決定する。
この決定された代表パラメータと、代表推定手段にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを、データ生成手段が生成して、第二記憶装置に記憶する。
本発明のデータ生成装置によれば、音声合成装置にて出力される合成音に付与可能な感情の種類が従来と同数であったとしても、第二記憶装置に記憶される音声感情データのデータ量を、従来の技術に比べて低減できる。
この結果、本発明のデータ生成装置によって生成された、音声感情データが記憶された第二記憶装置を用いれば、音声合成装置における音声合成の際に、利用者に指定された感情の内容を含む音声感情データを抽出するまでに要する処理量を低減でき、ひいては、当該音声感情データの抽出までに要する時間長を短縮できる。
換言すれば、本発明によれば、音声合成において、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制できる。
本発明におけるパラメータ決定手段では、平均手段が、分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、分類クラスタごとに導出し、差分導出手段が、平均手段にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を代表パラメータとして、分類クラスタごとに導出しても良い。
このようなデータ生成装置によれば、代表パラメータを、平均パラメータと基準パラメータとの差分とすることができる。
このような音声感情データを用いて音声パラメータを調整して音声合成すれば、音声パラメータとして基準パラメータのみが存在する状況下であっても、音声合成により、感情を付与した合成音を生成できる。
さらに、本発明における差分導出手段では、抽出手段が、感情が自然体であることを表すタグデータと対応付けられた音声パラメータのそれぞれを、第一記憶装置から抽出し、基準導出手段が、抽出手段で抽出した音声パラメータの平均を、基準パラメータとして導出しても良い。
このようなデータ生成装置によれば、基準パラメータの導出に用いる音声パラメータに対応付けられたタグデータを、感情が自然体であることを表すタグデータとすることができる。
この感情が自然体であることを、例えば、ニュース番組での表情のように無表情である場合の感情や、通常の会話における感情とすれば、当該タグデータと対応付けられた音声パラメータを容易に収集でき、ひいては、基準パラメータを容易に導出できる。
ところで、本発明は、データ生成方法としてなされていても良い。
本発明がデータ生成方法としてなされている場合、本発明のデータ生成方法では、第一記憶装置から、音声データそれぞれに含まれる音声パラメータを取得するパラメータ取得手順と、その取得した音声パラメータの群を音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手順とを有している必要がある。さらに、データ生成方法では、分類クラスタのそれぞれに含まれる音声パラメータと対応付けられたタグデータのそれぞれを、第一記憶装置から分類クラスタごとに取得するタグ取得手順と、その取得したタグデータに基づいて、分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、分類クラスタごとに少なくとも一つ推定する代表推定手順とを有している必要がある。
さらには、データ生成方法では、その分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す音声パラメータである代表パラメータを、分類クラスタごとに決定するパラメータ決定手順と、その決定された代表パラメータと、代表推定手順にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手順とを有している必要がある。
データ生方法において、パラメータ決定手順は、前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順とを備えることが好ましい。
また、差分導出手順は、前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順とを備えることが好ましい。
このようなデータ生成方法によれば、請求項1に係るデータ生成装置と同様の効果を得ることができる。
音声合成システムの概略構成を示すブロック図である。 音声感情データ生成処理の処理手順を示すフローチャートである。 音声感情データ生成処理の処理概要を示す説明図である。 音声感情データ生成処理の処理概要を示す説明図である。 音声合成処理の処理手順を示すフローチャートである。
以下に本発明の実施形態を図面と共に説明する。
〈音声合成システム〉
図1に示すように、音声合成システム1は、当該音声合成システム1の利用者が指定した内容の音声が出力されるように、予め登録された音声パラメータPVに基づいて音声合成した音声(即ち、合成音)を出力するシステムである。この音声合成システム1による音声合成では、詳しくは後述する音声感情データETに基づいて、合成音に対して、利用者によって指定された感情を含む音の性質を付加することがなされる。
これを実現するために、音声合成システム1は、少なくとも一つの音声入力装置10と、少なくとも一つの音声格納サーバ25と、少なくとも一つの情報処理装置30と、少なくとも一つのデータ格納サーバ50と、少なくとも一つの音声出力端末60とを備えている。
音声入力装置10は、音声が入力される装置である。音声格納サーバ25は、音声入力装置10にて入力された音声に基づいて生成された音声パラメータPVと、当該音声の性質を表すタグデータTGとを対応付けた音声データSDを格納する。
情報処理装置30は、音声入力装置10に格納されている音声データSD群に基づいて、少なくとも2つ以上の音声感情データETを生成する。データ格納サーバ50は、情報処理装置30にて生成された音声感情データETを格納する。
音声出力端末60は、音声格納サーバ25に格納されている音声パラメータPV,及びデータ格納サーバ50に格納されている音声感情データETに基づいて音声合成した合成音を出力する。
〈音声入力装置〉
音声入力装置10は、通信部11と、入力受付部12と、表示部13と、音声入力部14と、音声出力部15と、記憶部17と、制御部20とを備えている。音声入力装置10は、例えば、周知のカラオケ装置として構成されていても良いし、その他の装置として構成されていても良い。
通信部11は、通信網を介して、音声入力装置10が外部との間で通信を行う。ここで言う通信網には、例えば、公衆無線通信網やネットワーク回線を含む。
入力受付部12は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。この入力機器には、例えば、キーやスイッチ、リモコンの受付部を含む。
表示部13は、少なくとも、文字コードで示される情報を含む画像を表示する表示装置である。この表示装置には、例えば、液晶ディスプレイやCRTを含む。また、音声入力部14は、音を電気信号に変換して制御部20に入力する装置、いわゆるマイクロホンである。
音声出力部15は、制御部20からの電気信号を音に変換して出力する装置である。音声出力部15は、MIDI(Musical Instrument Digital Interface)規格によって規定されたデータに基づいて、音源からの音を模擬した出力音を出力する音源モジュールとして構成されていても良い。この音源モジュールには、例えば、MIDI音源を含む。
記憶部17は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。
また、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声格納サーバ〉
音声格納サーバ25は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置である。この音声格納サーバ25は、通信網を介して、音声入力装置10、情報処理装置30、データ格納サーバ50に接続されている。
この音声格納サーバ25には、少なくとも2つ以上の音声データSDが格納されている。音声データSDは、音声パラメータPViと、タグデータTGiとを発声者ごとに対応付けたデータである。すなわち、音声パラメータPViと、タグデータTGiとに、発声者を識別する識別番号(ID)を付与したデータが、音声データSDとして生成される。
音声パラメータPVは、人が発した音の波形ごとに用意されるものであり、当該音声波形iを表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごとに用意される。音声パラメータPVにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を、少なくとも備えている。この音声パラメータPVにおける特徴量は、音素ごとに用意される。
これらの基本周波数F0、MFCC、パワーの導出方法は、周知であるため、ここでの詳しい説明は省略するが、例えば、基本周波数F0であれば、音素ごとの音声素片の時間軸に沿った自己相関、音素ごとの音声素片の周波数スペクトルの自己相関、またはケプストラム法などの手法を用いて導出すれば良い。また、MFCCであれば、音素ごとの音声素片に対して時間分析窓を適用して、時間分析窓ごとに周波数解析(例えば、FFT)をした結果について、周波数ごとの大きさを対数化した結果を、さらに、周波数解析することで導出すれば良い。パワーについては、音素ごとの音声素片に対して時間分析窓を適用して振幅の二乗した結果を時間方向に積分することで導出すれば良い。
タグデータTGは、音声パラメータPVによって表される音の性質を表すデータであり、発声者の特徴を表す発声者特徴情報と、当該音声が発声されたときの発声者の感情を表す感情情報とを少なくとも含む。発声者特徴情報には、例えば、発声者の性別、年齢などを含む。また、感情情報は、感情そのものを表す情報に加えて、発声したときの情景、情緒や、雰囲気などを表す情報や、発声者の感情を推定するために必要な情報を含んでも良い。
音声データSDの生成は、音声入力装置10を介して入力された音声を、人が手作業で解析することで行っても良いし、音声入力装置10などの情報処理装置がプログラムを実行することで行っても良い。
音声入力装置10にてプログラムを実行することで、音声データSDを生成する場合、例えば、当該音声入力装置10が周知のカラオケ装置であれば、カラオケ用に予め用意され、楽曲の楽譜を表すカラオケデータ(即ち、MIDIデータ)を用いて、以下のように実行すれば良い。音声波形に対してカラオケデータを照合することで、各音節または音素ごとの音声素片を抽出し、その音声素片それぞれから音声パラメータPVを導出する。
また、音声入力装置10を周知のカラオケ装置と想定した場合、音声パラメータPViとタグデータTGiとを発声者ごとに対応付ける方法の一例として、当該音声入力装置10へのログインの際に、利用者から入力され、楽曲の予約時に曲と対応付けられるIDを、発声者の識別番号として、音声パラメータPViとタグデータTGiと対応付ければ良い。
〈情報処理装置〉
この情報処理装置30は、通信部31と、入力受付部32と、表示部33と、記憶部34と、制御部40とを備えている。
通信部31は、通信網を介して外部との間で通信を行う。入力受付部32は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。入力機器には、例えば、キーボードやポインティングデバイスを含む。
表示部33は、画像を表示する表示装置である。表示装置には、例えば、液晶ディスプレイやCRTを含む。記憶部34は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶装置には、例えば、ハードディスク装置や、フラッシュメモリを含む。
また、制御部40は、ROM41、RAM42、CPU43を少なくとも有した周知のコンピュータを中心に構成されている。
そして、情報処理装置30のROM41には、音声格納サーバ25に格納されている音声データSD群に基づいて、少なくとも2つ以上の音声感情データETを生成する音声感情データ生成処理を制御部40が実行するための処理プログラムが記憶されている。
すなわち、情報処理装置30は、音声感情データ生成処理を実行することで、本発明のデータ生成装置として機能する。
なお、データ格納サーバ50は、記憶内容を読み書き可能に構成された不揮発性の記憶装置を中心に構成された装置であり、通信網を介して少なくとも情報処理装置30に接続されている。
〈音声感情データ生成処理〉
音声感情データ生成処理は、図2に示すように、起動されると、音声格納サーバ25に格納されている全ての音声パラメータPVを取得する(S110)。
続いて、少なくとも2以上の数値であるクラスタ数kを取得する(S120)。その取得したクラスタ数kに従って、S110にて取得した全ての音声パラメータPVを、クラスタ数kのクラスタに分類するクラスタリングを実行する(S130)。このS130にて実行するクラスタリングは、k−meansなどの周知の手法によって実行すれば良い。以下、クラスタリングによって分類した各クラスタを分類クラスタCLと称す。
すなわち、分類クラスタCLは、図3に示すように、空間平面において、類似するとみなせる音声パラメータPVのグループ(集合)である。
S130では、さらに、分類クラスタCLごとに、当該分類クラスタCLに含まれる音声パラメータPVそれぞれに、識別符号Nk,jを付して記憶する。ただし、符号jは、分類クラスタCLkに含まれる音声パラメータPVのインデックスである。
また、S120では、利用者が入力した数値をクラスタ数kとして取得しても良いし、音声パラメータPV群における各音声パラメータPVの空間分布から推定した結果をクラスタ数kとして取得しても良い。
後者の場合、クラスタ数kを推定する手法の一例としては、空間平面における原点から各音声パラメータPViまでの距離EDiの分布、及び空間平面における基準ベクトルRVと各音声パラメータPViとがなす角度ANGiの分布に基づいて推定することが考えられる。より具体的には、クラスタ数kは、距離EDiの分布におけるピークの数に、角度ANGiの分布におけるピークの数を乗じた値として推定すれば良い。
なお、距離EDiは、下記(1)式にて求めれば良く、角度ANGiは、下記(2)式にて求めれば良い。
Figure 0006003352
ただし、(1)式中のt()は、ベクトルの転置、即ち、転置行列を意味する。また、基準ベクトルRVとは、任意の方向を持つ基準ベクトルである。
さらに、ここで言うピークとは、それぞれの分布における極大値である。そして、ピークの数は、距離EDiまたは角度ANGiの分布によって表される曲線を微分した結果に従って、ゼロクロスの回数をカウントすることで求めれば良い。
続いて、音声感情データ生成処理では、分類クラスタCLkごとに、各分類クラスタCLkに含まれる音声パラメータPV(Nk,j)それぞれを対応付けられたタグデータTGを収集する(S140)。
そして、S140にて収集した、各分類クラスタCLkのタグデータTG群に基づいて、各分類クラスタCLkを代表するタグデータTGを代表タグデータTDとして推定する(S150)。この代表タグデータTDの推定は、タグデータTG群を構成するタグデータTGのヒストグラムを分類クラスタCLkごとに求め、その分類クラスタCLkごとのヒストグラムにおいて、頻度が最大であるタグデータTGを、当該分類クラスタCLkにおける代表タグデータTDとすれば良い。
さらに、分類クラスタCLkごとに、当該分類クラスタCLkにおける音声パラメータPVの代表値であるクラスタ代表値を導出する(S160)。このクラスタ代表値には、各分類クラスタCLkに含まれる音声パラメータPVの平均値である平均パラメータCPV_Akと、各分類クラスタCLkに含まれる音声パラメータPVの分散である分散パラメータCPV_Vkとが含まれる。
なお、各分類クラスタCLkにおける平均パラメータCPV_Akの導出は、下記(3)式に従って実行される。また、各分類クラスタCLkにおける分散パラメータCPV_Vkの導出は、下記(4)式に従って実行される。
Figure 0006003352
続いて、特定条件を満たす全ての音声パラメータPVを中立パラメータPVとして、音声格納サーバ25から取得する(S170)。下記(5)式に従って、取得した中立パラメータPVの平均値を基準パラメータNPVとして導出する(S180)。
Figure 0006003352
具体的に、S170における特定条件とは、タグデータTGにおける感情が自然体であることを表していることである。これにより、基準パラメータNPVは、感情が自然体であることを表す音声パラメータとなる。
なお、特定条件は、タグデータTGにおける感情が自然体であることを表していることに限らず、タグデータTGが対応付けられていないことであっても良い。さらに、特定条件は、音声格納サーバ25に格納されている全ての音声パラメータPVであっても良い。
続いて、下記(6)式に従って、分類クラスタCLkごとに、当該分類クラスタCLkにおける平均パラメータCPV_Akと基準パラメータNPVとの差分を、当該分類クラスタCLkにおける代表パラメータDPVkとして導出する(S190)。
Figure 0006003352
分類クラスタCLkにおける平均パラメータCPV_Akと基準パラメータNPVとの差分は、図4に示すように、空間平面において、基準パラメータNPVによって表される座標から、各平均パラメータCPV_Akによって表される座標までの距離となる。
さらに、代表タグデータTDkと、代表パラメータDPVkと、分散パラメータCPV_Vkとを、それぞれに対応する分類クラスタCLkごとに対応付けた音声感情データETkを、分類クラスタCLkごとに生成して、データ格納サーバ50に格納する(S200)。
その後、本音声感情データ生成処理を終了する。
〈音声出力端末〉
この音声出力端末60は、図1に示すように、情報受付部61と、表示部62と、音出力部63と、通信部64と、記憶部65と、制御部67とを備えている。音声出力端末60は、例えば、周知の携帯端末や、周知の情報処理装置として構成されていても良い。ここで言う携帯端末には、携帯電話や携帯情報端末を含む。また、情報処理装置には、いわゆるパーソナルコンピュータを含む。
このうち、情報受付部61は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部62は、制御部67からの指令に基づいて画像を表示する。音出力部63は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。
通信部64は、通信網を介して音声出力端末60が外部との間で情報通信を行うものである。記憶部65は、記憶内容を読み書き可能に構成された不揮発性の記憶装置であり、各種処理プログラムや各種データが記憶される。
また、制御部67は、ROM、RAM、CPUを少なくとも有した周知のコンピュータを中心に構成されている。
〈音声合成処理〉
次に、音声出力端末60の制御部67が実行する音声合成処理について説明する。
この音声合成処理は、音声出力端末60の情報受付部61を介して起動指令が入力されると起動される。
図5に示すように、音声合成処理は、起動されると、まず、情報受付部61を介して入力された情報(以下、入力情報と称す)を取得する(S510)。このS510にて取得する入力情報とは、例えば、合成音として出力する音声の内容(文言)を表す出力文言や、合成音として出力する音の性質を表す出力性質情報を含むものである。なお、出力性質情報は、タグデータTGに対応する情報であり、発声者特徴情報と、感情情報とを含む。
続いて、S510にて取得した出力文言を合成音として出力するために必要な音素それぞれに対応し、かつS510にて取得した出力性質情報のうちの発声者特徴情報に最も類似する代表タグデータTDと対応付けられた音声パラメータPVを、音声格納サーバ25から抽出する(S520)。
さらに、S510にて取得した出力性質情報のうちの感情情報に最も類似する代表タグデータTDを含む音声感情データETを、データ格納サーバ50から抽出する(S530)。
そして、S510にて取得した入力情報に即した合成音が出力されるように、S520にて抽出した音声パラメータPVを、S530にて抽出した音声感情データETに基づいて調整する(S540)。続いて、S540にて調整された音声パラメータPVに基づいて、音声合成する(S550)。このS550における音声合成は、フォルマント合成による周知の音声合成の手法を用いる。
さらに、S550にて音声合成することによって生成された合成音を音出力部63から出力する(S560)。
その後、本音声合成処理を終了する。
[実施形態の効果]
以上説明したように、情報処理装置30によれば、ある程度の数の音声パラメータPVを統計処理することにより、表情空間領域(クラスタCL)を推定している。このため、音声合成システム1によれば、発声者ごとにすべての感情の音声パラメータPVを用意する必要がない。
したがって、情報処理装置30によれば、音声出力端末から出力される合成音に付与可能な感情の種類が従来と同数であったとしても、データ格納サーバ50に記憶される音声感情データETのデータ量を、従来の技術に比べて低減できる。
この結果、情報処理装置30によって生成された、音声感情データETが記憶されたデータ格納サーバ50を用いれば、音声合成の際に、利用者に指定された感情の内容を含む音声感情データETを抽出するまでに要する処理量を低減でき、ひいては、当該音声感情データETの抽出までに要する時間長を短縮できる。
しかも、音声合成システム1によれば、各表情に対する人間の発声の自然な変化が反映できる。
換言すれば、上記実施形態の情報処理装置30によれば、音声合成の際に、合成音による感情表現を多様化しつつも、指定された感情の内容を含むデータを抽出するまでに要する処理量の増加を抑制できる。
しかも、上記音声感情データ生成処理では、平均パラメータCPV_Aと基準パラメータNPVとの差分を代表パラメータDPVとして生成し、この代表パラメータDPVを、代表タグデータTDを対応付けたデータを音声感情データETとしている。
このような音声感情データETを用いて音声パラメータPVを調整して音声合成すれば、音声パラメータPVとして基準パラメータNPVのみが存在する状況下であっても、音声合成により、感情を付与した合成音を生成できる。
さらに、上記音声感情データ生成処理では、音声感情データETに、分散パラメータCPV_Vを含めている。
このため、上記実施形態の音声合成処理によれば、音声合成の際に音声パラメータPVを調整する調整量を微調整することができる。
なお、上記音声感情データ生成処理では、基準パラメータの導出に用いる音声パラメータに対応付けられたタグデータTGを、感情が自然体であることを表すタグデータTGとしている。
この感情が自然体であることを、例えば、ニュース番組での表情のように無表情である場合の感情や、通常の会話における感情とすれば、当該タグデータTGと対応付けられた音声パラメータPVを容易に収集でき、ひいては、基準パラメータを容易に導出できる。
以上説明したように、音声合成システム1によれば、音声感情データETに従って音声パラメータPVを調整して音声合成することで、元来の発声者であるか否かに拘わらず、当該音声感情データETにおける感情を付加した合成音を生成することができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態においては、音声格納サーバ25とデータ格納サーバ50とは、別個に構成されていたが、音声格納サーバ25とデータ格納サーバ50との構成は、これに限るものではない。すなわち、音声格納サーバ25とデータ格納サーバ50とは共通のサーバとして構成されていても良い。
また、上記実施形態では、基準ベクトルRVを、任意の方向を持つ基準ベクトルとしていたが、基準ベクトルRVは、これに限るものではなく、空間平面における原点から中立パラメータPVへと向かうベクトルを、基準ベクトルRVとしても良い。
さらに、上記実施形態の音声感情データ生成処理におけるS130では、クラスタリングを、タグデータTGにてスクリーニングを実行した後に実行しても良い。
さらには、S130にて実行するクラスタリングは、k−meansに限るものではなく、その他の周知のクラスタリング手法を用いても良い。
なお、上記実施形態における音声感情データETには、分散パラメータCPV_Vが含まれていたが、音声感情データETには、分散パラメータCPV_Vが含まれていなくとも良い。すなわち、本発明における音声感情データは、少なくとも、代表タグデータTDkと、代表パラメータDPVkとが、それぞれに対応する分類クラスタCLkごとに対応付けられていれば良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
上記実施形態の音声感情データ生成処理におけるS110が、本発明におけるパラメータ取得手段に相当し、音声感情データ生成処理におけるS120,S130が、分類手段に相当する。そして、音声感情データ生成処理におけるS140が、本発明におけるタグ取得手段に相当し、S150が、代表推定手段に相当する。さらに、音声感情データ生成処理におけるS160〜S190が、本発明におけるパラメータ決定手段に相当し、S200が、データ生成手段に相当する。
また、上記実施形態における音声格納サーバ25が、本発明の第一記憶装置に相当し、データ格納サーバ50が、本発明の第二記憶装置に相当する。
なお、上記実施形態の音声感情データ生成処理におけるS160が、本発明における平均手段に相当し、S190が、本発明における差分導出手段に相当する。さらに、音声感情データ生成処理におけるS170が、抽出手段に相当し、S180が基準導出手段に相当する。
1…音声合成システム 10…音声入力装置 25…音声格納サーバ 30…情報処理装置 31…通信部 32…入力受付部 33…表示部 34…記憶部 40…制御部 41…ROM 42…RAM 43…CPU 50…データ格納サーバ 60…音声出力端末 61…情報受付部 62…表示部 63…音出力部 64…通信部 65…記憶部 67…制御部

Claims (2)

  1. 人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも2つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手段と、
    前記パラメータ取得手段にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手段と、
    前記分類手段にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手段と、
    前記タグ取得手段にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手段と、
    前記分類手段にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手段と、
    前記パラメータ決定手段にて決定された代表パラメータと、前記代表推定手段にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手段と
    を備え、
    前記パラメータ決定手段は、
    前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手段と、
    前記平均手段にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手段と
    を備え、
    前記差分導出手段は、
    前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手段と、
    前記抽出手段で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手段と
    を備えることを特徴とするデータ生成装置。
  2. 人が発した音の波形を表す少なくとも一つの特徴量である音声パラメータと、当該音声パラメータによって表される音を発した人の感情を含む情報であるタグデータとを、前記人ごとに対応付けた音声データを、少なくとも2つ記憶する第一記憶装置から、前記音声データそれぞれに含まれる前記音声パラメータを取得するパラメータ取得手順と、
    前記パラメータ取得手順にて取得した音声パラメータの群を、前記音声パラメータの分布に基づいて、少なくとも2つのグループに分類する分類手順と、
    前記分類手順にて分類されたグループのそれぞれを分類クラスタとし、前記分類クラスタのそれぞれに含まれる音声パラメータと対応付けられた前記タグデータのそれぞれを、前記第一記憶装置から前記分類クラスタごとに取得するタグ取得手順と、
    前記タグ取得手順にて取得したタグデータに基づいて、前記分類クラスタのそれぞれを代表する感情を含む情報である代表タグデータを、前記分類クラスタごとに少なくとも一つ推定する代表推定手順と、
    前記分類手順にて分類された各分類クラスタに含まれる音声パラメータに基づいて、当
    該分類クラスタを代表して表す前記音声パラメータである代表パラメータを、前記分類クラスタごとに決定するパラメータ決定手順と、
    前記パラメータ決定手順にて決定された代表パラメータと、前記代表推定手順にて推定された代表タグデータとを、それぞれが対応する分類クラスタごとに対応付けた音声感情データを生成して、第二記憶装置に記憶するデータ生成手順と
    を備え、
    前記パラメータ決定手順は、
    前記分類クラスタのそれぞれに含まれる音声パラメータの平均値である平均パラメータを、前記分類クラスタごとに導出する平均手順と、
    前記平均手順にて導出された平均パラメータと、規定された基準値での音声パラメータを表す基準パラメータとの差分を前記代表パラメータとして、前記分類クラスタごとに導出する差分導出手順と
    を備え、
    前記差分導出手順は、
    前記感情が自然体であることを表す前記タグデータと対応付けられた前記音声パラメータのそれぞれを、前記第一記憶装置から抽出する抽出手順と、
    前記抽出手順で抽出した前記音声パラメータの平均を、前記基準パラメータとして導出する基準導出手順と
    を備えることを特徴とするデータ生成方法。
JP2012168473A 2012-07-30 2012-07-30 データ生成装置、及びデータ生成方法 Active JP6003352B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012168473A JP6003352B2 (ja) 2012-07-30 2012-07-30 データ生成装置、及びデータ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012168473A JP6003352B2 (ja) 2012-07-30 2012-07-30 データ生成装置、及びデータ生成方法

Publications (2)

Publication Number Publication Date
JP2014026222A JP2014026222A (ja) 2014-02-06
JP6003352B2 true JP6003352B2 (ja) 2016-10-05

Family

ID=50199878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012168473A Active JP6003352B2 (ja) 2012-07-30 2012-07-30 データ生成装置、及びデータ生成方法

Country Status (1)

Country Link
JP (1) JP6003352B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195312A (zh) * 2017-05-05 2017-09-22 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6260499B2 (ja) * 2014-08-29 2018-01-17 ブラザー工業株式会社 音声合成システム、及び音声合成装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004117662A (ja) * 2002-09-25 2004-04-15 Matsushita Electric Ind Co Ltd 音声合成システム
JP2006184921A (ja) * 2006-01-27 2006-07-13 Canon Electronics Inc 情報処理装置及び方法
JP4246790B2 (ja) * 2006-06-05 2009-04-02 パナソニック株式会社 音声合成装置
JPWO2009125710A1 (ja) * 2008-04-08 2011-08-04 株式会社エヌ・ティ・ティ・ドコモ メディア処理サーバ装置およびメディア処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107195312A (zh) * 2017-05-05 2017-09-22 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN107195312B (zh) * 2017-05-05 2020-03-27 深圳信息职业技术学院 情绪宣泄模式的确定方法、装置、终端设备和存储介质

Also Published As

Publication number Publication date
JP2014026222A (ja) 2014-02-06

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US10339290B2 (en) Spoken pass-phrase suitability determination
CN107369440B (zh) 一种针对短语音的说话人识别模型的训练方法及装置
US20180349495A1 (en) Audio data processing method and apparatus, and computer storage medium
Patel et al. Speech recognition and verification using MFCC & VQ
CN112133277B (zh) 样本生成方法及装置
JP5017534B2 (ja) 飲酒状態判定装置及び飲酒状態判定方法
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
TW200421262A (en) Speech model training method applied in speech recognition
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
Wang et al. I-vector based speaker gender recognition
CN109272996A (zh) 一种降噪方法及系统
CN116129852A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
Abushariah et al. Voice based automatic person identification system using vector quantization
CN109087651B (zh) 一种基于视频与语谱图的声纹鉴定方法、系统及设备
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
CN111724764A (zh) 一种合成音乐的方法和装置
CN114464151B (zh) 修音方法及装置
CN112951208B (zh) 语音识别的方法和装置
JP5954221B2 (ja) 音源特定システム、及び音源特定方法
Yang et al. Speaker recognition based on weighted mel-cepstrum
GORAI et al. A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160822

R150 Certificate of patent or registration of utility model

Ref document number: 6003352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150