JP6594251B2

JP6594251B2 - 音響モデル学習装置、音声合成装置、これらの方法及びプログラム

Info

Publication number: JP6594251B2
Application number: JP2016083174A
Authority: JP
Inventors: 伸克北条; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2019-10-23
Anticipated expiration: 2036-04-18
Also published as: JP2017194510A

Description

この発明は、音声合成技術及び音声合成をするために用いられる音響モデルを学習する技術に関する。

音声データから音声合成用モデルを学習し、合成音声を生成する手法として、DNN(Deep Neural Network)に基づく技術がある（例えば、非特許文献１参照。）。この技術の概要を図１３及び図１４に示す。

従来は、図１３から図１４に例示するように、音声データと、コンテキストデータに基づいて生成された言語特徴量ベクトルとに基づいて、DNN音響モデルを学習していた。また、合成するテキストをテキスト解析することにより得られたコンテキストと、学習されたDNN音響モデルから、音声パラメータを生成し、得られた音声パラメータから、音声波形生成により、合成音声波形を得ていた。

Zen et al., "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013, pp. 7962-7966.

しかしながら、人間の発声では、発声されるテキストの読みやアクセント等の情報のみに応じて発声を行うのではなく、意図に応じて韻律等を使い分け発声することにより、意図を伝達することがある。一方、従来の音声合成は、合成するテキストの読み、アクセントなどのコンテキスト情報のみに基づき音声パラメータが生成され、意図は考慮されていない。したがって、従来の音声合成では、テキストに対応する意図と不適合な音声が合成され、誤解が生じたり、合成音声が不自然に感じられたりする可能性があった。

この発明の目的は、発話意図を考慮した音声合成を可能とするための音響モデルを学習する音響モデル学習装置、発話意図を考慮した音声合成を可能とした音声合成装置、これらの方法及びプログラムを提供することである。

この発明の一態様による音響モデル学習装置は、各コンテキストデータが記憶されているコンテキストデータ記憶部と、コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、を備えており、各発話意図には、各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、各コンテキストデータの意図情報ベクトルは、各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである。
この発明の一態様による音響モデル学習装置は、各コンテキストデータが記憶されているコンテキストデータ記憶部と、コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、を備えており、音響モデル学習部は、抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、各発話意図が属する意図クラスとして決定する意図クラス決定部を更に含む。

この発明の一態様による音声合成装置は、入力されたテキストを解析してコンテキストを得るテキスト解析部と、各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、入力された発話意図を表す意図情報ベクトルと、前記の音響モデル学習装置で生成された音響モデルと、抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成部と、生成された音声パラメータを用いて合成音声を生成する音声波形生成部と、を備えている。

発話意図を考慮した音声合成を可能とするための音響モデルを学習することができる。発話意図を考慮した音声合成をすることができる。

第一実施形態の音響モデル学習装置の例を説明するためのブロック図。音響モデル学習方法の例を説明するための流れ図。意図情報ベクトル作成部１５の処理の例を説明するための流れ図。第一実施形態の音声合成装置の例を説明するためのブロック図。音声合成方法の例を説明するための流れ図。第二実施形態の音響モデル学習装置の例を説明するためのブロック図。意図クラス学習部１９の例を説明するためのブロック図。第二実施形態の音声合成装置の例を説明するためのブロック図。第三実施形態の音響モデル学習装置の例を説明するためのブロック図。第三実施形態の音声合成装置の例を説明するためのブロック図。第三実施形態の音声合成方法の例を説明するための流れ図。第四実施形態の音声合成方法の例を説明するための流れ図。従来の音響モデル学習装置の例を説明するためのブロック図。音声合成装置の例を説明するためのブロック図。

以下、図面を参照して、この発明の一実施形態について説明する。

［第一実施形態］
（音響モデル学習装置及び方法）
第一実施形態の音響モデル学習装置は、図１に例示するように、コンテキストデータ記憶部１１、音声データ記憶部１２、言語特徴量ベクトル抽出部１３、意図データ記憶部１４、意図情報ベクトル作成部１５、意図情報ベクトル記憶部１６、音響モデル学習部１７及び音響モデル記憶部１８を備えている。

第一実施形態の音響モデル学習方法は、音響モデル学習装置の各部が図２及び以下に説明するステップＳ１３からＳ１７の処理を実行することにより実現される。

音響モデル学習装置及び方法は、音声データ、コンテキストデータ及び各発話の意図に対応する意図情報を用いて、音響モデルを学習するものである。

＜コンテキストデータ記憶部１１＞
コンテキストデータ記憶部１１には、各コンテキストデータが記憶されている。Iを正の整数として、コンテキストデータ記憶部１１に記憶されているコンテキストデータの総数は、例えばI個である。コンテキストデータは、音声データ記憶部１２に記憶されている音声データ中の各発話に対して付与された発音等の情報である。音声データ中の各発話に１つのコンテキストデータが付与されている。コンテキストデータには、音素情報（発音情報）とアクセント情報（アクセント型、アクセント句長）が例えば含まれている。コンテキストデータには、これ以外にも品詞情報等が含まれていてもよい。

＜音声データ記憶部１２＞
音声データ記憶部１２には、音響モデル学習に使用する音声データが記憶されている。この音声データは、例えば音声信号に対して信号処理を行った結果、得られる音声パラメータ（音高パラメータ（基本周波数（F0）等）、スペクトルパラメータ（ケプストラム、メルケプストラム等））等のデータである。

コンテキストデータ記憶部１１に記憶されているコンテキストデータの総数がI個である場合には、I個のコンテキストデータにそれぞれ対応するI個の音声データが、音声データ記憶部１２に記憶される。

＜言語特徴量ベクトル抽出部１３＞
言語特徴量ベクトル抽出部１３は、コンテキストデータ記憶部１１から読み込んだ各コンテキストデータを用いて、各コンテキストデータの言語特徴量ベクトルを抽出する（ステップＳ１３）。抽出された言語特徴量ベクトルデータは、音響モデル学習部１７に出力される。

言語特徴量ベクトルは、コンテキストデータを数値ベクトルで表現したものである。例えば、非特許文献１のように、音素情報、アクセント情報をそれぞれ1-of-K表現し、更に文長などの数値情報と連結し得られる数値ベクトルとする。

＜意図データ記憶部１４＞
意図データ記憶部１４には、意図データが記憶されているとする。意図データは、音声データ、コンテキストデータに含まれる各発話に対して付与される意図情報を保持したデータである。

意図情報は、各発話に対して付与される、その発話の意図を表す情報である。Nを２以上の整数として、全意図情報はN種類からなり、１つの発話に対し１つの意図情報が対応づけられるものとする。N種類の意図情報を{c₁,c₂,…,c_N}で表現する。例えば、参考文献１の表６の全33種類（N=33）からなる対話行為情報を利用し、{c₁="挨拶", c₂="情報提供",…,c₃₃="その他"}のように各対話行為に対応する文字列とする。

〔参考文献１〕目黒豊美, et al. "聞き役対話の分析および分析に基づいた対話制御部の構築.", 情報処理学会論文誌, 53.12, 2012, pp.2787-2801.

意図データでは、音声データ、コンテキストデータ中の全発話数Iを用いて、{d₁,d₂,…,d_I}のように例えば表現される。各発話についてそれぞれ１つずつ意図情報が対応し、例えば文番号iの発話についてn番目の意図情報が対応するとき，d_i=c_nとすることで構成される。

＜意図情報ベクトル作成部１５＞
意図情報ベクトル作成部１５は、意図データ記憶部１４から読み込んだ意図データを用いて、各コンテキストデータの発話意図を表す意図情報ベクトルを作成する（ステップＳ１５）。作成された意図情報ベクトルは、意図情報ベクトル記憶部１６に記憶される。

Kを正の整数として、意図情報ベクトルは、各意図情報をK次元の数値ベクトルで表現したものである。意図情報ベクトルv_iは、各コンテキストデータi(i=1,2,…,I:Iは全コンテキストデータ数)に対し、それぞれd_iに基づき決定される。各コンテキストデータに対応する意図情報ベクトルの集合である意図情報ベクトルデータは、V={v₁,v₂,…,v_I}のように表現される。

意図情報ベクトル作成部１５は、例えば、コンテキストデータiに対応する意図情報ベクトルv_iの次元をNとし(K=N)、v_i=[v₁ ⁱ,v₂ ⁱ,…,v_N ⁱ]表現したとき、そのコンテキストデータiに対応する意図情報c_nの入力に対し、下記のような意図情報の1-of-K表現を使用することにより、そのコンテキストデータiに対応する意図情報ベクトルv_iを作成する。

ここで、意図情報ベクトルの次元を表現するインデックスをn’=1,2,…,Nとした。

意図情報ベクトル作成部１５の処理の例を図３に示す。

＜意図情報ベクトル記憶部１６＞
意図情報ベクトル記憶部１６には、各コンテキストデータの発話意図を表する意図情報ベクトルが記憶される。

意図情報ベクトルは、上記に説明するように、意図情報ベクトルデータ作成部１６により作成され、意図情報ベクトル記憶部１６に記憶される。この意図情報ベクトルの作成は、音響モデル学習の処理を行う前に、予め行われてもよい。

＜音響モデル学習部１７＞
音響モデル学習部１７は、言語特徴量ベクトル抽出部１３で抽出された各コンテキストデータの言語特徴量ベクトルと、音声データ記憶部１２から読み込んだ各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部１６から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する（ステップＳ１７）。音声データ記憶部１２から読み込んだ各コンテキストデータに対応する音声データは、例えば音声パラメータである。生成された音響モデルは、音響モデル記憶部１８に記憶される。

音響モデル学習装置及び方法は、音響モデル学習をする際に、意図情報ベクトルを用いる点で従来と異なる。

例えば、音声データ、言語特徴量ベクトルデータ及び意図情報ベクトルデータから、音響モデル学習を行い、言語特徴量ベクトル、意図情報ベクトルを入力、対応する音声パラメータを出力とするDNN音響モデルを学習する。DNN音響モデルの構成に関して、意図情報ベクトルは、単に言語特徴量ベクトルと連結し、DNNの入力ベクトルとして活用すればよい。または、音声認識分野における参考文献２のモデルのように、モデルと類似しした構成により、意図情報ベクトルをDNNの単数または複数の中間層に入力し、学習してもよい。学習アルゴリズムについては、非特許文献１などと同様に、誤差逆伝播や確率的勾配降下法など、従来の一般的なDNN学習アルゴリズムを使用することができる。

〔参考文献２〕
Xue, Shaofei, et al. "Fast adaptation of deep neural network based on discriminant codes for speech recognition.", Audio, Speech, and Language Processing, IEEE/ACM Transactions on 22.12 (2014), pp.1713-1725.

（音声合成装置及び方法）
第一実施形態の音声合成装置は、図４に例示するように、テキスト解析部２１、言語特徴量ベクトル抽出部２２、意図情報ベクトル作成部２３、音声パラメータ生成部２４及び音声波形生成部２５を備えている。

第一実施形態の音声合成方法は、音声合成装置の各部が図５及び以下に説明するステップＳ２１からＳ２５の処理を実行することにより実現される。

音声合成装置及び方法は、入力テキスト、入力テキストに対応する意図情報、音響モデル、音響モデル学習部１７で得られた音響モデルから合成音声を得るものでる。

音声合成装置及び方法では、合成するテキストと意図情報とから、合成音声が生成される。処理手順の一例は下記の通りである。

意図情報は、ユーザにより指定され、キーボード、マウス等の入力手段により入力される。また、意図情報の推定器を事前に準備し、入力テキストから自動で推定し、入力してもよい。また、参考文献１の技術を利用した対話システムから得られる対話行為情報を意図情報として利用する等、他システムから獲得できる情報に基づき入力してもよい。音声合成装置及び方法で利用される意図情報ベクトル抽出は、音響モデル学習装置及び方法で使用された意図情報ベクトル抽出と同一であるとする。

＜テキスト解析部２１＞
テキスト解析部２１は、入力されたテキストをテキスト解析し、合成テキストの読み、アクセントなどの情報であるコンテキストを得る（ステップＳ２１）。得られたコンテキストは、言語特徴量ベクトル抽出部２２に出力される。

＜言語特徴量ベクトル抽出部２２＞
言語特徴量ベクトル抽出部２２は、入力されたコンテキストに対応する言語特徴量ベクトルを抽出する（ステップＳ２２）。抽出された言語特徴量ベクトルは、音声パラメータ生成部２４に出力される。

言語特徴量ベクトル抽出部２２の処理は、言語特徴量ベクトル抽出部１３の処理と同様であるため、ここでは重複説明を省略する。

＜意図情報ベクトル作成部２３＞
意図情報ベクトル作成部２３は、入力された意図情報c_nに対応する意図情報ベクトルを作成する（ステップＳ２３）。作成された意図情報ベクトルは、音声パラメータ生成部２４に出力される。

意図情報ベクトル作成部２３の処理は、意図情報ベクトル作成部１５の処理と同様であるため、ここでは重複説明を省略する。

＜音響モデル記憶部１８＞
音響モデル記憶部１８には、音響モデル学習装置及び方法により生成された音響モデルが記憶されている。

＜音声パラメータ生成部２４＞
音声パラメータ生成部２４は、言語特徴量ベクトル抽出部２２で得られた言語特徴量ベクトルと、意図情報ベクトル作成部２３で作成された意図情報ベクトルと、音響モデル記憶部１８から読み込んだ音響モデルとを用いて、音声パラメータを生成する（ステップＳ２４）。生成された音声パラメータは、音声波形生成部２５に出力される。

音声パラメータ生成部２４は、例えば、言語特徴量ベクトル及び意図情報ベクトルを、音響モデルに入力し、順伝播により音声パラメータを生成する。

＜音声波形生成部２５＞
音声波形生成部２５は、音声パラメータ生成部２４で生成された音声パラメータから、音声波形生成により合成音声を得る（ステップＳ２５）。

音声波形生成の前に、例えば、maximum likelihood generation (MLPG) アルゴリズム（例えば、参考文献３参照。）を用いて時間方向に平滑化された音声パラメータ系列を得てもよい。また、音声波形生成には、例えば参考文献４に記載されている手法を用いてもよい。

〔参考文献３〕益子他，“動的特徴を用いたHMMに基づく音声合成”，信学論，vol.J79-D-II，no.12，pp.2184-2190，Dec. 1996.
〔参考文献４〕今井他，“音声合成のためのメル対数スペクトル近似（MLSA）フィルタ”，電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.

このように、各コンテキストの意図に対応する意図情報を活用する。すなわち、音声合成装置の入力として、読み、アクセントなどの従来のコンテキストに加え、意図情報を活用し、対応する意図情報を反映した音声パラメータを出力するよう音響モデルを構成する。これにより、各意図に対応する音声パラメータの傾向を、音響モデルから生成される音声パラメータに反映させることが可能となる。このようにして、合成するテキストの意図と適合した音声を合成することにより、音声により意図を表現し、誤解が生じたり、合成音声が不自然に感じられたりすることを防ぐことができる。

［第二実施形態］
第一実施形態において、類似した音声の表情付けに対し、複数の意図情報が対応する場合がある。例えば，意図情報として、参考文献１のような対話行為情報を利用する場合、情報提供、自己開示_事実などの対話行為は、音声に強く表情付けが行われず、通常の読み上げ口調に近い音声が発話される可能性がある。そのため、第一実施形態では、過剰にクラス数の大きい分類が、音声による意図の表現のために使用される可能性がある。クラス数が増大すると、入力コンテキストの次元数が増加し、音響モデル（例えばDNN音響モデル）のパラメータ数が増加する。一般に、パラメータ数の大きい音響モデルは学習データに対する過学習を招きやすく、合成音声の品質を低下させたり、音声による意図表現の表現力を低下させたりする。または、十分な合成音声品質や音声による意図表現の表現力を得るために、大量の音声データ、コンテキストデータが必要となり、音声合成装置及び方法の学習のためのコストが増大する。

そこで、第二実施形態では、例えば、音声パラメータに基づき、意図情報のクラスタリングを実施し、意図クラス情報を得る。音声パラメータの傾向が類似した複数の意図を１つの意図クラスで表現し、コンテキストとして活用することで、パラメータ数の小さい音響モデルによる学習により過学習を防ぎ、合成音声の品質を改善したり、音声による意図表現の表現力を上昇させたりする。また、少量のデータから音声合成器の学習が可能となり、コストが減少する。

以下、第一実施形態と異なる部分を主に説明する。第一実施形態と同様の部分については、重複説明を省略する。

（音響モデル学習装置及び方法）
第二実施形態の音響モデル学習装置は、図６に例示するように、意図クラス学習部１９及び意図クラス分類情報記憶部１１０を更に備えている。意図クラス学習部１９は、図７に例示するように、意図特徴ベクトル抽出部１９１及び意図クラスタリング部１９２を例えば備えている。

＜意図特徴ベクトル抽出部１９１＞
意図特徴ベクトル抽出部１９１は、各意図情報について、対応する発話の音声データから、意図情報の特徴を表す意図特徴ベクトルを得る。得られた意図特徴ベクトルは、意図クラスタリング部１９２に出力される。

例えば、意図特徴ベクトルとして、まず、各意図情報のF0、発話速度、パワーの平均・標準偏差を求め、意図特徴ベクトルとして使用する。このとき、意図情報c_n（n=1,2,…,N:Nは全意図数）の意図特徴ベクトルw_nは例えば以下のように定義される。

ここで、mnF0_n,stdF0_nはそれぞれ意図情報c_nのF0の平均値および標準偏差、mnPow_n,stdPow_nはそれぞれ意図情報c_nのパワーの平均値および標準偏差、mnSr_n,stdSr_nはそれぞれ意図情報c_nの発話速度の平均値および標準偏差である。または、意図特徴ベクトルとして、例えばケプストラム特徴量などのスペクトル特徴量を使用してもよい。また、語尾1モーラのF0について、時間差分係数の平均・標準偏差を算出し、使用するなど、発話全体ではなく、特定の時間区間に関する統計処理を行い、意図特徴ベクトルとして使用してもよい。

＜意図クラスタリング部１９２＞
意図クラスタリング部１９２は、意図特徴ベクトル抽出部１９１で得られたN個の意図特徴ベクトルを用いて、任意のM（Mは2以上N未満の整数）個に分割するようにクラスタリングを行うことで、意図クラス分類情報を得る。得られた意図クラス分類情報は、意図クラス分類情報記憶部１１０に記憶される。

クラスタリングアルゴリズムには、k-means法や階層的クラスタリングなどの一般的なクラスタリングアルゴリズムを使用することができる。

意図クラス分類情報は、各意図情報がどの意図クラス情報に属するかに関する情報である。例えば、各意図情報c_n（n=1,2,…,N:Nは全意図情報数）がそれぞれ意図クラス情報e_in(1≦i_n≦M)にクラスタリングされるとき、そのインデックスをリスト形式のデータI=[i₁,i₂,…,i_N]として保持される。「e_in」の「in」は、iの下付きnである「i_n」を意味するとする。このデータIが意図クラス分類情報の例である。

意図クラス情報は、意図情報をクラスタリングした結果を表現する情報であり、全クラス数をM(Mは2以上N未満の整数)としすると、例えば{e₁,e₂,…,e_M}のように表される。

＜意図情報ベクトル作成部１５＞
第二実施形態の意図情報ベクトル作成部１５は、ある意図情報を入力したとき、意図クラス分類情報に基づき、対応する意図情報ベクトルを出力する。

まず、意図情報ベクトル作成部１５は、あるコンテキストデータに対応する意図情報c_nが入力されたとき、意図クラス分類情報に基づき、入力された意図情報c_nに対応する意図クラス情報e_inを得る。この意図クラス分類情報に基づき、意図クラス情報を出力する点が第一実施形態と異なる部分である。

そして、意図情報ベクトル作成部１５は、意図クラス情報e_inに対応する意図情報ベクトルv_iを出力する。

例えば、第一実施形態と同様に、コンテキストデータiに対応する意図情報ベクトルv_iの次元をMとし(K=M)、v_i=[v₁ ⁱ,v₂ ⁱ,…,v_M ⁱ]と表現したとき、そのコンテキストデータiに対応する意図クラス情報e_mの入力に対し、下記のような意図情報の1-of-K表現を使用することにより、そのコンテキストデータiに対応する意図情報ベクトルv_iを作成する。

ここで、意図情報ベクトルの次元を表現するインデックスをm’=1,2,…,Mとした。

このように、第二実施形態では、各コンテキストデータに対応する意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルとなる。

音響モデル学習装置及び方法の他の処理は、第一実施形態と同様である。

（音声合成装置及び方法）
第二実施形態の音響モデル学習装置は、図８に例示するように、意図クラス分類情報記憶部１１０を更に備えている。

意図情報ベクトル作成部２３は、第二実施形態の意図情報ベクトル作成部１５と同様の処理を行う。

すなわち、第二実施形態の意図情報ベクトル作成部２３は、各発話の意図情報d_iと、意図クラス分類情報記憶部１１０から読み込んだ意図クラス分類情報から意図情報ベクトル抽出を行い、意図情報ベクトルv_iを出力する。

音声合成装置及び方法の他の処理は、第一実施形態と同様である。

［第三実施形態］
第二実施形態において、音声による意図表現の高い表現力を実現するためには、音響モデル（例えば、DNN音響モデル）の尤度を最大化する意図クラスとDNN音響モデルのパラメータを学習できればよい。第二実施形態のモデル学習では、前段の意図クラス学習部で各発話の意図クラスを決定し、後段の音響モデル学習部では、前段で決定された意図クラスを使用して、音響モデルの尤度を最大化する音響モデルのパラメータを決定している。しかし、意図クラス、音響モデルのパラメータについて多段的に最適化を行うため、得られる意図クラスと音響モデルのパラメータは局所解に陥り、DNN音響モデルの尤度は十分に大きくならない可能性がある。したがって、音声による意図表現の表現力を十分に向上することができない可能性がある。

そこで、第三実施形態では、音響モデルの尤度を最大化する意図クラスと音響モデルのパラメータを同時に学習するアルゴリズムにより、より大きな音響モデルの尤度を達成する意図クラスと音響モデルのパラメータを推定可能とし、音声による意図表現の表現力をさらに向上させる。

以下、第一実施形態及び第二実施形態と異なる部分を主に説明する。第一実施形態及び第二実施形態と同様の部分については、重複説明を省略する。

（音響モデル学習装置及び方法）
第三実施形態の音響モデル学習装置は、図９に例示するように、意図クラス決定部１１１及び尤度基準意図クラス分類情報記憶部１１２を更に備えている。

＜音響モデル学習部１７＞
第三実施形態の音響モデル学習部１７は、音声データ記憶部１２から読み込んだ音声データと、言語特徴量ベクトル抽出部１３が抽出した言語特徴量ベクトルデータと、意図情報ベクトル記憶部１６から読み込んだ意図情報ベクトルデータとから、各発話意図が各意図クラスに属する確率である意図クラス確率と音響モデルのパラメータを同時に推定し、音響モデルと意図クラス分類情報とを出力する（ステップＳ１７）。例えば、各意図情報に対応する意図クラス情報を隠れ変数とし、EMアルゴリズムのMステップに勾配法を適応するGeneralized EM (GEM)アルゴリズム（例えば、参考文献５参照。）を用いる。GEMアルゴリズムでは、音響モデルのパラメータ、意図クラス確率について適当な初期値を与え、両者が交互に更新される。

第二実施形態の意図クラスタリング部１９２で得られる意図クラス分類情報を活用し、第二実施形態と同様の意図情報ベクトルを出力した上で、意図クラス確率の初期値としてもよい。音響モデルのパラメータの初期値は、非特許文献１等と同様に，乱数を設定することができる。

〔参考文献５〕宮川雅巳, "EM アルゴリズムとその周辺.", 応用統計学 16.1, 1987, pp.1-21

このようにして、音響モデル学習部１７は、言語特徴量ベクトル抽出部１３で抽出された各コンテキストデータの言語特徴量ベクトルと各コンテキストデータに対応する音声データと意図情報ベクトル記憶部１６から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成する。

生成された音響モデルは、音響モデル記憶部１８に記憶される。生成された各発話意図が各意図クラスに属する確率は、意図クラス決定部１１１に出力される。

＜意図クラス決定部１１１＞
意図クラス決定部１１１は、意図クラス確率から、尤度基準意図クラス分類情報を決定する（ステップＳ１１１、図１１参照）。例えば、各意図情報c_n(n=1,2,…,N:Nは全意図数)に対し、意図クラス確率が最大となる意図クラスのインデックスi_n=argmax_mp_nmを出力し、リスト形式のデータI=[i₁,i₂,…,i_N]として保持する。

意図クラス確率は、各意図情報c_n（n=1,2,…,N:Nは全意図数）が各意図クラス情報e_m (m=1,2,…,M:Mは全意図クラス数）に属する確率p_nmである。

決定された尤度基準意図クラス分類情報は、尤度基準意図クラス分類情報記憶部１１２に記憶される。

尤度基準意図クラス分類情報は、上記のように、意図クラス確率と意図クラス決定により決定される。意図クラス分類情報と同様に，例えば、各意図情報c_n（n=1,…,N:Nは全意図数）がそれぞれ意図クラス情報e_in(1≦i_n≦M:Mは全意図クラス数)にクラスタリングされるとき、そのインデックスをリスト形式のデータI=[i₁,i₂,…,i_N]として保持される。

このようにして、意図クラス決定部１１１は、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、各発話意図が属する意図クラスとして決定する。

（音声合成装置及び方法）
第三実施形態の音声合成装置は、図１０に例示するように、尤度基準意図クラス分類情報記憶部１１２を備えている。

＜意図情報ベクトル作成部２３＞
第三実施形態の意図情報ベクトル作成部２３は、意図クラス分類情報記憶部１１０から読み込んだ意図クラス分類情報ではなく、尤度基準意図クラス分類情報記憶部１１２から読み込んだ尤度基準意図クラス分類情報を用いて意図情報ベクトル抽出を行う（ステップＳ２３）。

［第四実施形態］
第三実施形態の音響モデル・意図クラス学習で使用されるアルゴリズムにおいてGEMアルゴリズムなどの初期値依存性のあるアルゴリズムを使用する場合、音響モデル（例えば、DNN音響モデル）の尤度を十分に大きくし、音声による意図表現の表現力を十分に向上するためには、適切な初期値を設定することが好ましい。

そこで、第四実施形態では、尤度基準意図クラス再分類情報に基づく意図クラス確率の初期値の設定と、意図クラス確率算出・音響モデル学習による尤度基準意図クラス再分類情報の更新とを反復する。反復の各ステップで意図クラス確率算出・音響モデル学習により得られる尤度基準意図クラス再分類情報は、ある音響モデルの尤度を最大化する基準で学習されたものであるため、それを意図クラス確率の初期値として設定し、再度、意図クラス確率算出・音響モデル学習を実行することで、さらに尤度の大きい音響モデルを学習可能であると期待される。したがって、尤度基準意図クラス再分類情報に基づく意図クラス確率の初期値の設定と、意図クラス確率算出・音響モデル学習による尤度基準意図クラス再分類情報の更新を反復することにより、反復的に音響モデルの尤度を上昇させることができる。これにより、音声による意図表現の表現力をさらに向上させる。

以下、第三実施形態と異なる部分を主に説明する。第三実施形態と同様の部分については、重複説明を省略する。

（音響モデル学習装置及び方法）
＜音響モデル学習部１７＞
第四実施形態の音響モデル学習部１７は、言語特徴量ベクトル抽出部１３で抽出された各コンテキストデータの言語特徴量ベクトルと、各コンテキストデータに対応する音声データと、意図情報ベクトル記憶部１６から読み込んだ各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成する（ステップＳ１７）。

生成された各発話意図が各意図クラスに属する確率は、意図クラス決定部１１１に出力される。意図クラス決定部１１１では、第三実施形態で説明した方法と同様の方法により、各発話意図が属する意図クラスが決定される。

第四実施形態では、意図クラス決定部１１１で決定された各発話意図が属する意図クラスに各発話意図が属する確率を１とし、他の意図クラスに各発話意図が属する確率を０とする確率を、音響モデル学習部１７における上記予め定められた各発話意図が各意図クラスに属する確率の初期値として、音響モデル学習部１７及び意図クラス決定部１１１の処理が繰り返し行われる。

音響モデル尤度データsを、音響モデル学習部１７において、意図クラス確率の初期値の設定と音響モデル学習とを反復する各ステップにおける音響モデルの尤度を記録するデータとするる。例えば、j番目のステップにおける音響モデルの尤度をs_jとしたとき、音響モデル尤度データsは、s=[s₁,s₂,…,s_J] (Jは全ステップ数)のように表現される。

このとき、繰り返しの処理を行うために、例えば、音響モデル学習部１７は、まず、音響モデル尤度データの初期化を行う。すなわち、音響モデル学習部１７は、音響モデル尤度データsを初期化する。

そして、音響モデル学習部１７は、音声データ記憶部１２から読み込んだ音声データと、言語特徴量ベクトル抽出部１３から抽出した言語特徴量ベクトルと、学習された音響モデルと、意図クラス確率とから、音響モデル尤度を算出し、音響モデル尤度データsを更新する。例えば、リスト形式のデータsの末尾に音響モデル尤度を追加する。

音響モデル学習部１７は、音響モデル尤度データsから、学習ステップの’終了’又は’終了でない’を出力する。判定基準としては、学習の反復ステップ数が所定値に達したか、リスト形式の音響モデル尤度データsの末尾二項の差がある閾値s_thよりも低かったか（s_j-s_j-1<s_th）、またはその組み合わせ等を用いることができる。

図１２に例示するように、音響モデル学習部１７の終了判定において’終了’と判定されるまで、音響モデル学習部１７及び意図クラス決定部１１１の処理が繰り返し行われる。音響モデル学習部１７の終了判定において’終了’と判定された場合には、最後に生成された音響モデルが、最終的な音響モデルとして音響モデル記憶部１８に記憶される。

（音声合成装置及び方法）
第四実施形態の音声合成装置及び方法は、第三実施形態の音声合成装置及び方法と同様であるため、ここでは重複説明を省略する。

［プログラム及び記録媒体］
音響モデル学習装置又は音声合成装置における各処理をコンピュータによって実現する場合、音響モデル学習装置又は音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

［変形例］
音響モデル学習装置及び音声合成装置、これらの方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

例えば、ステップＳ１３の処理の前にステップＳ１５の処理を行ってもよいし、ステップＳ１３の処理とステップＳ１５の処理とを並行して行ってもよい。また、例えば、ステップＳ２１及びステップＳ２２の処理の前にステップＳ２３の処理を行ってもよいし、ステップＳ２１及びステップＳ２２の処理とステップＳ２３の処理とを並行して行ってもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims

各コンテキストデータが記憶されているコンテキストデータ記憶部と、
上記コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、
上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、
を含み、
各発話意図には、上記各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、上記意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、
上記各コンテキストデータの意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである、
音響モデル学習装置。
各コンテキストデータが記憶されているコンテキストデータ記憶部と、
上記コンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部と、
上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習部と、
を含み、
上記音響モデル学習部は、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、
各発話意図が各意図クラスに属する確率を最大にする意図クラスを、上記各発話意図が属する意図クラスとして決定する意図クラス決定部を更に含む、
音響モデル学習装置。
請求項２の音響モデル学習装置において、
上記意図クラス決定部で決定された上記各発話意図が属する意図クラスに上記各発話意図が属する確率を１とし、他の意図クラスに上記各発話意図が属する確率を０とする確率を上記予め定められた各発話意図が各意図クラスに属する確率の初期値として、上記音響モデル学習部及び上記意図クラス決定部の処理を繰り返し行う、
音響モデル学習装置。
入力されたテキストを解析してコンテキストを得るテキスト解析部と、
上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出部と、
入力された発話意図を表す意図情報ベクトルと、請求項１又は２の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記生成された音声パラメータを用いて合成音声を生成する音声波形生成部と、
を含む音声合成装置。
言語特徴量ベクトル抽出部が、各コンテキストデータが記憶されているコンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習ステップと、
を含み、
各発話意図には、上記各発話意図が属する意図クラスについての情報である意図クラス情報が予め定められているとして、上記意図クラス情報は、意図情報を予めクラスタリングすることにより得られるものであり、
上記各コンテキストデータの意図情報ベクトルは、上記各コンテキストデータの発話意図に対応する意図クラス情報を表すベクトルである、
音響モデル学習方法。
言語特徴量ベクトル抽出部が、各コンテキストデータが記憶されているコンテキストデータ記憶部から読み込んだ各コンテキストデータを用いて、上記各コンテキストデータの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと各コンテキストデータの発話意図を表する意図情報ベクトルが記憶されている意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、音響モデル学習を行うことにより音響モデルを生成する音響モデル学習ステップと、
を含み、
上記音響モデル学習ステップでは、上記音響モデル学習部が、上記抽出された上記各コンテキストデータの言語特徴量ベクトルと上記各コンテキストデータに対応する音声データと上記意図情報ベクトル記憶部から読み込んだ上記各コンテキストデータの意図情報ベクトルとを用いて、予め定められた各発話意図が各意図クラスに属する確率の初期値に基づいて、音響モデル学習を行うことにより音響モデルと各発話意図が各意図クラスに属する確率とを生成し、
意図クラス決定部が、各発話意図が各意図クラスに属する確率を最大にする意図クラスを、上記各発話意図が属する意図クラスとして決定する意図クラス決定ステップを更に含む、
音響モデル学習方法。
テキスト解析部が、入力されたテキストを解析してコンテキストを得るテキスト解析ステップと、
言語特徴量ベクトル抽出部が、上記各コンテキストの言語特徴量ベクトルを抽出する言語特徴量ベクトル抽出ステップと、
音声パラメータ生成部が、入力された発話意図を表す意図情報ベクトルと、請求項１又は２の音響モデル学習装置で生成された音響モデルと、上記抽出された言語特徴量ベクトルとを用いて、音声パラメータを生成する音声パラメータ生成ステップと、
音声波形生成部が、上記生成された音声パラメータを用いて合成音声を生成する音声波形生成ステップと、
を含む音声合成方法。
請求項１から３の何れか音響モデル学習装置又は請求項５若しくは６の音声合成装置の各部としてコンピュータを機能させるためのプログラム。