JP6594251B2 - 音響モデル学習装置、音声合成装置、これらの方法及びプログラム - Google Patents

音響モデル学習装置、音声合成装置、これらの方法及びプログラム Download PDF

Info

Publication number
JP6594251B2
JP6594251B2 JP2016083174A JP2016083174A JP6594251B2 JP 6594251 B2 JP6594251 B2 JP 6594251B2 JP 2016083174 A JP2016083174 A JP 2016083174A JP 2016083174 A JP2016083174 A JP 2016083174A JP 6594251 B2 JP6594251 B2 JP 6594251B2
Authority
JP
Japan
Prior art keywords
intention
acoustic model
context data
information
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016083174A
Other languages
English (en)
Other versions
JP2017194510A (ja
Inventor
伸克 北条
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016083174A priority Critical patent/JP6594251B2/ja
Publication of JP2017194510A publication Critical patent/JP2017194510A/ja
Application granted granted Critical
Publication of JP6594251B2 publication Critical patent/JP6594251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、音声合成技術及び音声合成をするために用いられる音響モデルを学習する技術に関する。
音声データから音声合成用モデルを学習し、合成音声を生成する手法として、DNN(Deep Neural Network)に基づく技術がある(例えば、非特許文献1参照。)。この技術の概要を図13及び図14に示す。
従来は、図13から図14に例示するように、音声データと、コンテキストデータに基づいて生成された言語特徴量ベクトルとに基づいて、DNN音響モデルを学習していた。また、合成するテキストをテキスト解析することにより得られたコンテキストと、学習されたDNN音響モデルから、音声パラメータを生成し、得られた音声パラメータから、音声波形生成により、合成音声波形を得ていた。
Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp. 7962-7966.
しかしながら、人間の発声では、発声されるテキストの読みやアクセント等の情報のみに応じて発声を行うのではなく、意図に応じて韻律等を使い分け発声することにより、意図を伝達することがある。一方、従来の音声合成は、合成するテキストの読み、アクセントなどのコンテキスト情報のみに基づき音声パラメータが生成され、意図は考慮されていない。したがって、従来の音声合成では、テキストに対応する意図と不適合な音声が合成され、誤解が生じたり、合成音声が不自然に感じられたりする可能性があった。
この発明の目的は、発話意図を考慮した音声合成を可能とするための音響モデルを学習する音響モデル学習装置、発話意図を考慮した音声合成を可能とした音声合成装置、これらの方法及びプログラムを提供することである。
この発明の一態様による音響モデル学習装置は、各コンテキストデータが記憶されているコンテキストデータ記憶部と、コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、を備えており、各発話意図には、各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、各コンテキストデータの意図情報ベクトルは、各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである
この発明の一態様による音響モデル学習装置は、各コンテキストデータが記憶されているコンテキストデータ記憶部と、コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、を備えており、音響モデル学習部は、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、各発話意図が属する意図クラスとして決定する意図クラス決定部を更に含む
この発明の一態様による音声合成装置は、入力されたテキストを解析してコンテキストを得るテキスト解析部と、各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、入力された発話意図を表す意図情報ベクトルと、前記の音響モデル学習装置で生成された音響モデルと、抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成部と、生成された音声パラメータを用いて合成音声を生成する音声波形生成部と、を備えている。
発話意図を考慮した音声合成を可能とするための音響モデルを学習することができる。発話意図を考慮した音声合成をすることができる。
第一実施形態の音響モデル学習装置の例を説明するためのブロック図。 音響モデル学習方法の例を説明するための流れ図。 意図情報ベクトル作成部15の処理の例を説明するための流れ図。 第一実施形態の音声合成装置の例を説明するためのブロック図。 音声合成方法の例を説明するための流れ図。 第二実施形態の音響モデル学習装置の例を説明するためのブロック図。 意図クラス学習部19の例を説明するためのブロック図。 第二実施形態の音声合成装置の例を説明するためのブロック図。 第三実施形態の音響モデル学習装置の例を説明するためのブロック図。 第三実施形態の音声合成装置の例を説明するためのブロック図。 第三実施形態の音声合成方法の例を説明するための流れ図。 第四実施形態の音声合成方法の例を説明するための流れ図。 従来の音響モデル学習装置の例を説明するためのブロック図。 音声合成装置の例を説明するためのブロック図。
以下、図面を参照して、この発明の一実施形態について説明する。
[第一実施形態]
(音響モデル学習装置及び方法)
第一実施形態の音響モデル学習装置は、図1に例示するように、コンテキストデータ記憶部11、音声データ記憶部12、言語特徴量ベクトル抽出部13、意図データ記憶部14、意図情報ベクトル作成部15、意図情報ベクトル記憶部16、音響モデル学習部17及び音響モデル記憶部18を備えている。
第一実施形態の音響モデル学習方法は、音響モデル学習装置の各部が図2及び以下に説明するステップS13からS17の処理を実行することにより実現される。
音響モデル学習装置及び方法は、音声データ、コンテキストデータ及び各発話の意図に対応する意図情報を用いて、音響モデルを学習するものである。
<コンテキストデータ記憶部11>
コンテキストデータ記憶部11には、各コンテキストデータが記憶されている。Iを正の整数として、コンテキストデータ記憶部11に記憶されているコンテキストデータの総数は、例えばI個である。コンテキストデータは、音声データ記憶部12に記憶されている音声データ中の各発話に対して付与された発音等の情報である。音声データ中の各発話に1つのコンテキストデータが付与されている。コンテキストデータには、音素情報(発音情報)とアクセント情報(アクセント型、アクセント句長)が例えば含まれている。コンテキストデータには、これ以外にも品詞情報等が含まれていてもよい。
<音声データ記憶部12>
音声データ記憶部12には、音響モデル学習に使用する音声データが記憶されている。この音声データは、例えば音声信号に対して信号処理を行った結果、得られる音声パラメータ(音高パラメータ(基本周波数(F0)等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))等のデータである。
コンテキストデータ記憶部11に記憶されているコンテキストデータの総数がI個である場合には、I個のコンテキストデータにそれぞれ対応するI個の音声データが、音声データ記憶部12に記憶される。
<言語特徴量ベクトル抽出部13>
言語特徴量ベクトル抽出部13は、コンテキストデータ記憶部11から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する(ステップS13)。抽出された言語特徴量ベクトルデータは、音響モデル学習部17に出力される。
言語特徴量ベクトルは、コンテキストデータを数値ベクトルで表現したものである。例えば、非特許文献1のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、更に文長などの数値情報と連結し得られる数値ベクトルとする。
<意図データ記憶部14>
意図データ記憶部14には、意図データが記憶されているとする。意図データは、音声データ、コンテキストデータに含まれる各発話に対して付与される意図情報を保持したデータである。
意図情報は、各発話に対して付与される、その発話の意図を表す情報である。Nを2以上の整数として、全意図情報はN種類からなり、1つの発話に対し1つの意図情報が対応づけられるものとする。N種類の意図情報を{c1,c2,…,cN}で表現する。例えば、参考文献1の表6の全33種類(N=33)からなる対話行為情報を利用し、{c1="挨拶", c2="情報提供",…,c33="その他"}のように各対話行為に対応する文字列とする。
〔参考文献1〕目黒豊美, et al. "聞き役対話の分析および分析に基づいた対話制御部の構築.", 情報処理学会論文誌, 53.12, 2012, pp.2787-2801.
意図データでは、音声データ、コンテキストデータ中の全発話数Iを用いて、{d1,d2,…,dI}のように例えば表現される。各発話についてそれぞれ1つずつ意図情報が対応し、例えば文番号iの発話についてn番目の意図情報が対応するとき,di=cnとすることで構成される。
<意図情報ベクトル作成部15>
意図情報ベクトル作成部15は、意図データ記憶部14から読み込んだ意図データを用いて、各コンテキストデータの発話意図を表す意図情報ベクトルを作成する(ステップS15)。作成された意図情報ベクトルは、意図情報ベクトル記憶部16に記憶される。
Kを正の整数として、意図情報ベクトルは、各意図情報をK次元の数値ベクトルで表現したものである。意図情報ベクトルviは、各コンテキストデータi(i=1,2,…,I:Iは全コンテキストデータ数)に対し、それぞれdiに基づき決定される。各コンテキストデータに対応する意図情報ベクトルの集合である意図情報ベクトルデータは、V={v1,v2,…,vI}のように表現される。
意図情報ベクトル作成部15は、例えば、コンテキストデータiに対応する意図情報ベクトルviの次元をNとし(K=N)、vi=[v1 i,v2 i,…,vN i]表現したとき、そのコンテキストデータiに対応する意図情報cnの入力に対し、下記のような意図情報の1-of-K表現を使用することにより、そのコンテキストデータiに対応する意図情報ベクトルviを作成する。
Figure 0006594251
ここで、意図情報ベクトルの次元を表現するインデックスをn’=1,2,…,Nとした。
意図情報ベクトル作成部15の処理の例を図3に示す。
<意図情報ベクトル記憶部16>
意図情報ベクトル記憶部16には、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶される。
意図情報ベクトルは、上記に説明するように、意図情報ベクトルデータ作成部16により作成され、意図情報ベクトル記憶部16に記憶される。この意図情報ベクトルの作成は、音響モデル学習の処理を行う前に、予め行われてもよい。
<音響モデル学習部17>
音響モデル学習部17は、言語特徴量ベクトル抽出部13で抽出された各コンテキストデータの言語特徴量ベクトルと、音声データ記憶部12から読み込んだ各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部16から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する(ステップS17)。音声データ記憶部12から読み込んだ各コンテキストデータに対応する音声データは、例えば音声パラメータである。生成された音響モデルは、音響モデル記憶部18に記憶される。
音響モデル学習装置及び方法は、音響モデル学習をする際に、意図情報ベクトルを用いる点で従来と異なる。
例えば、音声データ、言語特徴量ベクトルデータ及び意図情報ベクトルデータから、音響モデル学習を行い、言語特徴量ベクトル、意図情報ベクトルを入力、対応する音声パラメータを出力とするDNN音響モデルを学習する。DNN音響モデルの構成に関して、意図情報ベクトルは、単に言語特徴量ベクトルと連結し、DNNの入力ベクトルとして活用すればよい。または、音声認識分野における参考文献2のモデルのように、モデルと類似しした構成により、意図情報ベクトルをDNNの単数または複数の中間層に入力し、学習してもよい。学習アルゴリズムについては、非特許文献1などと同様に、誤差逆伝播や確率的勾配降下法など、従来の一般的なDNN学習アルゴリズムを使用することができる。
〔参考文献2〕
Xue, Shaofei, et al. "Fast adaptation of deep neural network based on discriminant codes for speech recognition.", Audio, Speech, and Language Processing, IEEE/ACM Transactions on 22.12 (2014), pp.1713-1725.
(音声合成装置及び方法)
第一実施形態の音声合成装置は、図4に例示するように、テキスト解析部21、言語特徴量ベクトル抽出部22、意図情報ベクトル作成部23、音声パラメータ生成部24及び音声波形生成部25を備えている。
第一実施形態の音声合成方法は、音声合成装置の各部が図5及び以下に説明するステップS21からS25の処理を実行することにより実現される。
音声合成装置及び方法は、入力テキスト、入力テキストに対応する意図情報、音響モデル、音響モデル学習部17で得られた音響モデルから合成音声を得るものでる。
音声合成装置及び方法では、合成するテキストと意図情報とから、合成音声が生成される。処理手順の一例は下記の通りである。
意図情報は、ユーザにより指定され、キーボード、マウス等の入力手段により入力される。また、意図情報の推定器を事前に準備し、入力テキストから自動で推定し、入力してもよい。また、参考文献1の技術を利用した対話システムから得られる対話行為情報を意図情報として利用する等、他システムから獲得できる情報に基づき入力してもよい。音声合成装置及び方法で利用される意図情報ベクトル抽出は、音響モデル学習装置及び方法で使用された意図情報ベクトル抽出と同一であるとする。
<テキスト解析部21>
テキスト解析部21は、入力されたテキストをテキスト解析し、合成テキストの読み、アクセントなどの情報であるコンテキストを得る(ステップS21)。得られたコンテキストは、言語特徴量ベクトル抽出部22に出力される。
<言語特徴量ベクトル抽出部22>
言語特徴量ベクトル抽出部22は、入力されたコンテキストに対応する言語特徴量ベクトルを抽出する(ステップS22)。抽出された言語特徴量ベクトルは、音声パラメータ生成部24に出力される。
言語特徴量ベクトル抽出部22の処理は、言語特徴量ベクトル抽出部13の処理と同様であるため、ここでは重複説明を省略する。
<意図情報ベクトル作成部23>
意図情報ベクトル作成部23は、入力された意図情報cnに対応する意図情報ベクトルを作成する(ステップS23)。作成された意図情報ベクトルは、音声パラメータ生成部24に出力される。
意図情報ベクトル作成部23の処理は、意図情報ベクトル作成部15の処理と同様であるため、ここでは重複説明を省略する。
<音響モデル記憶部18>
音響モデル記憶部18には、音響モデル学習装置及び方法により生成された音響モデルが記憶されている。
<音声パラメータ生成部24>
音声パラメータ生成部24は、言語特徴量ベクトル抽出部22で得られた言語特徴量ベクトルと、意図情報ベクトル作成部23で作成された意図情報ベクトルと、音響モデル記憶部18から読み込んだ音響モデルとを用いて、音声パラメータを生成する(ステップS24)。生成された音声パラメータは、音声波形生成部25に出力される。
音声パラメータ生成部24は、例えば、言語特徴量ベクトル及び意図情報ベクトルを、音響モデルに入力し、順伝播により音声パラメータを生成する。
<音声波形生成部25>
音声波形生成部25は、音声パラメータ生成部24で生成された音声パラメータから、音声波形生成により合成音声を得る(ステップS25)。
音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム(例えば、参考文献3参照。)を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば参考文献4に記載されている手法を用いてもよい。
〔参考文献3〕益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996.
〔参考文献4〕今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.
このように、各コンテキストの意図に対応する意図情報を活用する。すなわち、音声合成装置の入力として、読み、アクセントなどの従来のコンテキストに加え、意図情報を活用し、対応する意図情報を反映した音声パラメータを出力するよう音響モデルを構成する。これにより、各意図に対応する音声パラメータの傾向を、音響モデルから生成される音声パラメータに反映させることが可能となる。このようにして、合成するテキストの意図と適合した音声を合成することにより、音声により意図を表現し、誤解が生じたり、合成音声が不自然に感じられたりすることを防ぐことができる。
[第二実施形態]
第一実施形態において、類似した音声の表情付けに対し、複数の意図情報が対応する場合がある。例えば,意図情報として、参考文献1のような対話行為情報を利用する場合、情報提供、自己開示_事実などの対話行為は、音声に強く表情付けが行われず、通常の読み上げ口調に近い音声が発話される可能性がある。そのため、第一実施形態では、過剰にクラス数の大きい分類が、音声による意図の表現のために使用される可能性がある。クラス数が増大すると、入力コンテキストの次元数が増加し、音響モデル(例えばDNN音響モデル)のパラメータ数が増加する。一般に、パラメータ数の大きい音響モデルは学習データに対する過学習を招きやすく、合成音声の品質を低下させたり、音声による意図表現の表現力を低下させたりする。または、十分な合成音声品質や音声による意図表現の表現力を得るために、大量の音声データ、コンテキストデータが必要となり、音声合成装置及び方法の学習のためのコストが増大する。
そこで、第二実施形態では、例えば、音声パラメータに基づき、意図情報のクラスタリングを実施し、意図クラス情報を得る。音声パラメータの傾向が類似した複数の意図を1つの意図クラスで表現し、コンテキストとして活用することで、パラメータ数の小さい音響モデルによる学習により過学習を防ぎ、合成音声の品質を改善したり、音声による意図表現の表現力を上昇させたりする。また、少量のデータから音声合成器の学習が可能となり、コストが減少する。
以下、第一実施形態と異なる部分を主に説明する。第一実施形態と同様の部分については、重複説明を省略する。
(音響モデル学習装置及び方法)
第二実施形態の音響モデル学習装置は、図6に例示するように、意図クラス学習部19及び意図クラス分類情報記憶部110を更に備えている。意図クラス学習部19は、図7に例示するように、意図特徴ベクトル抽出部191及び意図クラスタリング部192を例えば備えている。
<意図特徴ベクトル抽出部191>
意図特徴ベクトル抽出部191は、各意図情報について、対応する発話の音声データから、意図情報の特徴を表す意図特徴ベクトルを得る。得られた意図特徴ベクトルは、意図クラスタリング部192に出力される。
例えば、意図特徴ベクトルとして、まず、各意図情報のF0、発話速度、パワーの平均・標準偏差を求め、意図特徴ベクトルとして使用する。このとき、意図情報cn(n=1,2,…,N:Nは全意図数)の意図特徴ベクトルwnは例えば以下のように定義される。
Figure 0006594251
ここで、mnF0n,stdF0nはそれぞれ意図情報cnのF0の平均値および標準偏差、mnPown,stdPownはそれぞれ意図情報cnのパワーの平均値および標準偏差、mnSrn,stdSrnはそれぞれ意図情報cnの発話速度の平均値および標準偏差である。または、意図特徴ベクトルとして、例えばケプストラム特徴量などのスペクトル特徴量を使用してもよい。また、語尾1モーラのF0について、時間差分係数の平均・標準偏差を算出し、使用するなど、発話全体ではなく、特定の時間区間に関する統計処理を行い、意図特徴ベクトルとして使用してもよい。
<意図クラスタリング部192>
意図クラスタリング部192は、意図特徴ベクトル抽出部191で得られたN個の意図特徴ベクトルを用いて、任意のM(Mは2以上N未満の整数)個に分割するようにクラスタリングを行うことで、意図クラス分類情報を得る。得られた意図クラス分類情報は、意図クラス分類情報記憶部110に記憶される。
クラスタリングアルゴリズムには、k-means法や階層的クラスタリングなどの一般的なクラスタリングアルゴリズムを使用することができる。
意図クラス分類情報は、各意図情報がどの意図クラス情報に属するかに関する情報である。例えば、各意図情報cn(n=1,2,…,N:Nは全意図情報数)がそれぞれ意図クラス情報ein(1≦in≦M)にクラスタリングされるとき、そのインデックスをリスト形式のデータI=[i1,i2,…,iN]として保持される。「ein」の「in」は、iの下付きnである「in」を意味するとする。このデータIが意図クラス分類情報の例である。
意図クラス情報は、意図情報をクラスタリングした結果を表現する情報であり、全クラス数をM(Mは2以上N未満の整数)としすると、例えば{e1,e2,…,eM}のように表される。
<意図情報ベクトル作成部15>
第二実施形態の意図情報ベクトル作成部15は、ある意図情報を入力したとき、意図クラス分類情報に基づき、対応する意図情報ベクトルを出力する。
まず、意図情報ベクトル作成部15は、あるコンテキストデータに対応する意図情報cnが入力されたとき、意図クラス分類情報に基づき、入力された意図情報cnに対応する意図クラス情報einを得る。この意図クラス分類情報に基づき、意図クラス情報を出力する点が第一実施形態と異なる部分である。
そして、意図情報ベクトル作成部15は、意図クラス情報einに対応する意図情報ベクトルviを出力する。
例えば、第一実施形態と同様に、コンテキストデータiに対応する意図情報ベクトルviの次元をMとし(K=M)、vi=[v1 i,v2 i,…,vM i]と表現したとき、そのコンテキストデータiに対応する意図クラス情報emの入力に対し、下記のような意図情報の1-of-K表現を使用することにより、そのコンテキストデータiに対応する意図情報ベクトルviを作成する。
Figure 0006594251
ここで、意図情報ベクトルの次元を表現するインデックスをm’=1,2,…,Mとした。
このように、第二実施形態では、各コンテキストデータに対応する意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルとなる。
音響モデル学習装置及び方法の他の処理は、第一実施形態と同様である。
(音声合成装置及び方法)
第二実施形態の音響モデル学習装置は、図8に例示するように、意図クラス分類情報記憶部110を更に備えている。
意図情報ベクトル作成部23は、第二実施形態の意図情報ベクトル作成部15と同様の処理を行う。
すなわち、第二実施形態の意図情報ベクトル作成部23は、各発話の意図情報diと、意図クラス分類情報記憶部110から読み込んだ意図クラス分類情報から意図情報ベクトル抽出を行い、意図情報ベクトルviを出力する。
音声合成装置及び方法の他の処理は、第一実施形態と同様である。
[第三実施形態]
第二実施形態において、音声による意図表現の高い表現力を実現するためには、音響モデル(例えば、DNN音響モデル)の尤度を最大化する意図クラスとDNN音響モデルのパラメータを学習できればよい。第二実施形態のモデル学習では、前段の意図クラス学習部で各発話の意図クラスを決定し、後段の音響モデル学習部では、前段で決定された意図クラスを使用して、音響モデルの尤度を最大化する音響モデルのパラメータを決定している。しかし、意図クラス、音響モデルのパラメータについて多段的に最適化を行うため、得られる意図クラスと音響モデルのパラメータは局所解に陥り、DNN音響モデルの尤度は十分に大きくならない可能性がある。したがって、音声による意図表現の表現力を十分に向上することができない可能性がある。
そこで、第三実施形態では、音響モデルの尤度を最大化する意図クラスと音響モデルのパラメータを同時に学習するアルゴリズムにより、より大きな音響モデルの尤度を達成する意図クラスと音響モデルのパラメータを推定可能とし、音声による意図表現の表現力をさらに向上させる。
以下、第一実施形態及び第二実施形態と異なる部分を主に説明する。第一実施形態及び第二実施形態と同様の部分については、重複説明を省略する。
(音響モデル学習装置及び方法)
第三実施形態の音響モデル学習装置は、図9に例示するように、意図クラス決定部111及び尤度基準意図クラス分類情報記憶部112を更に備えている。
<音響モデル学習部17>
第三実施形態の音響モデル学習部17は、音声データ記憶部12から読み込んだ音声データと、言語特徴量ベクトル抽出部13が抽出した言語特徴量ベクトルデータと、意図情報ベクトル記憶部16から読み込んだ意図情報ベクトルデータとから、各発話意図が各意図クラスに属する確率である意図クラス確率と音響モデルのパラメータを同時に推定し、音響モデルと意図クラス分類情報とを出力する(ステップS17)。例えば、各意図情報に対応する意図クラス情報を隠れ変数とし、EMアルゴリズムのMステップに勾配法を適応するGeneralized EM (GEM)アルゴリズム(例えば、参考文献5参照。)を用いる。GEMアルゴリズムでは、音響モデルのパラメータ、意図クラス確率について適当な初期値を与え、両者が交互に更新される。
第二実施形態の意図クラスタリング部192で得られる意図クラス分類情報を活用し、第二実施形態と同様の意図情報ベクトルを出力した上で、意図クラス確率の初期値としてもよい。音響モデルのパラメータの初期値は、非特許文献1等と同様に,乱数を設定することができる。
〔参考文献5〕宮川雅巳, "EM アルゴリズムとその周辺.", 応用統計学 16.1, 1987, pp.1-21
このようにして、音響モデル学習部17は、言語特徴量ベクトル抽出部13で抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部16から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成する。
生成された音響モデルは、音響モデル記憶部18に記憶される。生成された各発話意図が各意図クラスに属する確率は、意図クラス決定部111に出力される。
<意図クラス決定部111>
意図クラス決定部111は、意図クラス確率から、尤度基準意図クラス分類情報を決定する(ステップS111、図11参照)。例えば、各意図情報cn(n=1,2,…,N:Nは全意図数)に対し、意図クラス確率が最大となる意図クラスのインデックスin=argmaxmpnmを出力し、リスト形式のデータI=[i1,i2,…,iN]として保持する。
意図クラス確率は、各意図情報cn(n=1,2,…,N:Nは全意図数)が各意図クラス情報em (m=1,2,…,M:Mは全意図クラス数)に属する確率pnmである。
決定された尤度基準意図クラス分類情報は、尤度基準意図クラス分類情報記憶部112に記憶される。
尤度基準意図クラス分類情報は、上記のように、意図クラス確率と意図クラス決定により決定される。意図クラス分類情報と同様に,例えば、各意図情報cn(n=1,…,N:Nは全意図数)がそれぞれ意図クラス情報ein(1≦in≦M:Mは全意図クラス数)にクラスタリングされるとき、そのインデックスをリスト形式のデータI=[i1,i2,…,iN]として保持される。
このようにして、意図クラス決定部111は、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、各発話意図が属する意図クラスとして決定する。
音響モデル学習装置及び方法の他の処理は、第一実施形態と同様である。
(音声合成装置及び方法)
第三実施形態の音声合成装置は、図10に例示するように、尤度基準意図クラス分類情報記憶部112を備えている。
<意図情報ベクトル作成部23>
第三実施形態の意図情報ベクトル作成部23は、意図クラス分類情報記憶部110から読み込んだ意図クラス分類情報ではなく、尤度基準意図クラス分類情報記憶部112から読み込んだ尤度基準意図クラス分類情報を用いて意図情報ベクトル抽出を行う(ステップS23)。
音声合成装置及び方法の他の処理は、第一実施形態と同様である。
[第四実施形態]
第三実施形態の音響モデル・意図クラス学習で使用されるアルゴリズムにおいてGEMアルゴリズムなどの初期値依存性のあるアルゴリズムを使用する場合、音響モデル(例えば、DNN音響モデル)の尤度を十分に大きくし、音声による意図表現の表現力を十分に向上するためには、適切な初期値を設定することが好ましい。
そこで、第四実施形態では、尤度基準意図クラス再分類情報に基づく意図クラス確率の初期値の設定と、意図クラス確率算出・音響モデル学習による尤度基準意図クラス再分類情報の更新とを反復する。反復の各ステップで意図クラス確率算出・音響モデル学習により得られる尤度基準意図クラス再分類情報は、ある音響モデルの尤度を最大化する基準で学習されたものであるため、それを意図クラス確率の初期値として設定し、再度、意図クラス確率算出・音響モデル学習を実行することで、さらに尤度の大きい音響モデルを学習可能であると期待される。したがって、尤度基準意図クラス再分類情報に基づく意図クラス確率の初期値の設定と、意図クラス確率算出・音響モデル学習による尤度基準意図クラス再分類情報の更新を反復することにより、反復的に音響モデルの尤度を上昇させることができる。これにより、音声による意図表現の表現力をさらに向上させる。
以下、第三実施形態と異なる部分を主に説明する。第三実施形態と同様の部分については、重複説明を省略する。
(音響モデル学習装置及び方法)
<音響モデル学習部17>
第四実施形態の音響モデル学習部17は、言語特徴量ベクトル抽出部13で抽出された各コンテキストデータの言語特徴量ベクトルと、各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部16から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成する(ステップS17)。
生成された各発話意図が各意図クラスに属する確率は、意図クラス決定部111に出力される。意図クラス決定部111では、第三実施形態で説明した方法と同様の方法により、各発話意図が属する意図クラスが決定される。
第四実施形態では、意図クラス決定部111で決定された各発話意図が属する意図クラスに各発話意図が属する確率を1とし、他の意図クラスに各発話意図が属する確率を0とする確率を、音響モデル学習部17における上記予め定められた各発話意図が各意図クラスに属する確率の初期値として、音響モデル学習部17及び意図クラス決定部111の処理が繰り返し行われる。
音響モデル尤度データsを、音響モデル学習部17において、意図クラス確率の初期値の設定と音響モデル学習とを反復する各ステップにおける音響モデルの尤度を記録するデータとするる。例えば、j番目のステップにおける音響モデルの尤度をsjとしたとき、音響モデル尤度データsは、s=[s1,s2,…,sJ] (Jは全ステップ数)のように表現される。
このとき、繰り返しの処理を行うために、例えば、音響モデル学習部17は、まず、音響モデル尤度データの初期化を行う。すなわち、音響モデル学習部17は、音響モデル尤度データsを初期化する。
そして、音響モデル学習部17は、音声データ記憶部12から読み込んだ音声データと、言語特徴量ベクトル抽出部13から抽出した言語特徴量ベクトルと、学習された音響モデルと、意図クラス確率とから、音響モデル尤度を算出し、音響モデル尤度データsを更新する。例えば、リスト形式のデータsの末尾に音響モデル尤度を追加する。
音響モデル学習部17は、音響モデル尤度データsから、学習ステップの’終了’又は’終了でない’を出力する。判定基準としては、学習の反復ステップ数が所定値に達したか、リスト形式の音響モデル尤度データsの末尾二項の差がある閾値sthよりも低かったか(sj-sj-1<sth)、またはその組み合わせ等を用いることができる。
図12に例示するように、音響モデル学習部17の終了判定において’終了’と判定されるまで、音響モデル学習部17及び意図クラス決定部111の処理が繰り返し行われる。音響モデル学習部17の終了判定において’終了’と判定された場合には、最後に生成された音響モデルが、最終的な音響モデルとして音響モデル記憶部18に記憶される。
(音声合成装置及び方法)
第四実施形態の音声合成装置及び方法は、第三実施形態の音声合成装置及び方法と同様であるため、ここでは重複説明を省略する。
[プログラム及び記録媒体]
音響モデル学習装置又は音声合成装置における各処理をコンピュータによって実現する場合、音響モデル学習装置又は音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
[変形例]
音響モデル学習装置及び音声合成装置、これらの方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
例えば、ステップS13の処理の前にステップS15の処理を行ってもよいし、ステップS13の処理とステップS15の処理とを並行して行ってもよい。また、例えば、ステップS21及びステップS22の処理の前にステップS23の処理を行ってもよいし、ステップS21及びステップS22の処理とステップS23の処理とを並行して行ってもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims (8)

  1. 各コンテキストデータが記憶されているコンテキストデータ記憶部と、
    上記コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
    各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、
    上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、
    を含み、
    各発話意図には、上記各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、上記意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、
    上記各コンテキストデータの意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである、
    音響モデル学習装置。
  2. 各コンテキストデータが記憶されているコンテキストデータ記憶部と、
    上記コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
    各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、
    上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、
    を含み、
    上記音響モデル学習部は、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、
    各発話意図が各意図クラスに属する確率を最大にする意図クラスを、上記各発話意図が属する意図クラスとして決定する意図クラス決定部を更に含む、
    音響モデル学習装置。
  3. 請求項の音響モデル学習装置において、
    上記意図クラス決定部で決定された上記各発話意図が属する意図クラスに上記各発話意図が属する確率を1とし、他の意図クラスに上記各発話意図が属する確率を0とする確率を上記予め定められた各発話意図が各意図クラスに属する確率の初期値として、上記音響モデル学習部及び上記意図クラス決定部の処理を繰り返し行う、
    音響モデル学習装置。
  4. 入力されたテキストを解析してコンテキストを得るテキスト解析部と、
    上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
    入力された発話意図を表す意図情報ベクトルと、請求項1又は2の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成部と、
    上記生成された音声パラメータを用いて合成音声を生成する音声波形生成部と、
    を含む音声合成装置。
  5. 言語特徴量ベクトル抽出部が、各コンテキストデータが記憶されているコンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
    音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習ステップと、
    を含み、
    各発話意図には、上記各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、上記意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、
    上記各コンテキストデータの意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである、
    音響モデル学習方法。
  6. 言語特徴量ベクトル抽出部が、各コンテキストデータが記憶されているコンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
    音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習ステップと、
    を含み、
    上記音響モデル学習ステップでは、上記音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、
    意図クラス決定部が、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、上記各発話意図が属する意図クラスとして決定する意図クラス決定ステップを更に含む、
    音響モデル学習方法。
  7. テキスト解析部が、入力されたテキストを解析してコンテキストを得るテキスト解析ステップと、
    言語特徴量ベクトル抽出部が、上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
    音声パラメータ生成部が、入力された発話意図を表す意図情報ベクトルと、請求項1又は2の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成ステップと、
    音声波形生成部が、上記生成された音声パラメータを用いて合成音声を生成する音声波形生成ステップと、
    を含む音声合成方法。
  8. 請求項1からの何れか音響モデル学習装置又は請求項5若しくは6の音声合成装置の各部としてコンピュータを機能させるためのプログラム。
JP2016083174A 2016-04-18 2016-04-18 音響モデル学習装置、音声合成装置、これらの方法及びプログラム Active JP6594251B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016083174A JP6594251B2 (ja) 2016-04-18 2016-04-18 音響モデル学習装置、音声合成装置、これらの方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016083174A JP6594251B2 (ja) 2016-04-18 2016-04-18 音響モデル学習装置、音声合成装置、これらの方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017194510A JP2017194510A (ja) 2017-10-26
JP6594251B2 true JP6594251B2 (ja) 2019-10-23

Family

ID=60156413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016083174A Active JP6594251B2 (ja) 2016-04-18 2016-04-18 音響モデル学習装置、音声合成装置、これらの方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6594251B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7126384B2 (ja) * 2018-06-14 2022-08-26 日本放送協会 学習装置及びプログラム
CN110047463B (zh) * 2019-01-31 2021-03-02 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110992940B (zh) * 2019-11-25 2021-06-15 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003302992A (ja) * 2002-04-11 2003-10-24 Canon Inc 音声合成方法及び装置
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
JP2007183421A (ja) * 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd 音声合成装置
JP4891802B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Also Published As

Publication number Publication date
JP2017194510A (ja) 2017-10-26

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
JP5398909B2 (ja) テキスト音声合成方法及びシステム
US11763797B2 (en) Text-to-speech (TTS) processing
CN106688034A (zh) 具有情感内容的文字至语音转换
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
KR20200138993A (ko) 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks
Kumaresh et al. Multi-Speaker Speech Synthesis with Diverse Prosody Control using Generative Adversarial Networks
Tang et al. Deep neural network trained with speaker representation for speaker normalization
Pour et al. Persian Automatic Speech Recognition by the use of Whisper Model
KR20240096867A (ko) 2-레벨 스피치 운율 전송

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190924

R150 Certificate of patent or registration of utility model

Ref document number: 6594251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150