JP2020013008A

JP2020013008A - 音声処理装置、音声処理プログラムおよび音声処理方法

Info

Publication number: JP2020013008A
Application number: JP2018135609A
Authority: JP
Inventors: 大和大谷; Yamato Otani; 悟行松永; Noriyuki Matsunaga; 平井　啓之; Hiroyuki Hirai; 啓之平井
Original assignee: AI Co Ltd
Current assignee: AI Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2020-01-23
Anticipated expiration: 2038-07-19
Also published as: JP6864322B2

Abstract

【課題】多彩な発話表現を容易に実現できる、音声処理装置、音声処理プログラムおよび音声処理方法を提供する。【解決手段】複数の発話者のそれぞれの平静音声および複数の発話スタイル音声の音声コーパスを予め準備し、平静音声と発話スタイル音声の混合割合である制御パラメータ（第１混合割合）および発話者の混合割合である制御パラメータ（第２混合割合）とに基づいて学習データを生成する（Ｓ７）。その学習データから学習して入力‐出力変換モデルを構築する（Ｓ９）。【選択図】図４

Description

この発明は音声処理装置、音声処理プログラムおよび音声処理方法に関し、特にたとえば、感情表現を伴って発話することができる、音声処理装置、音声処理プログラムおよび音声処理方法に関する。

この発明の背景となる音声合成装置の一例が、特許文献１に開示されている。特許文献１の技術は、ある発話者の発声スタイルや話者性を任意の制御則に基づいて変形可能な、ニューラルネットワークに基づく発話スタイル変換システムを提供することができる。

特開２０１７−３２８３９号広報［G10L 13/06］

特許文献１の技術では、音声合成用のニューラルネットワーク音響モデルの入力部に発話者の特徴を表した数値データを利用することで様々な話者性を再現しようとしているが、発話者の特徴データを変化させた際の内部の挙動を考慮して学習をしていないため、必ずしも所望の話者性を再現できる保証がない、という問題がある。

それゆえに、この発明の主たる目的は、新規な、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。

この発明の他の目的は、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。

この発明の他の目的は、容易に所望の話者性を実現できる、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。

第１の発明は、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパス、平静音声と少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成部、制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成部、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部を備える、音声処理装置である。

第１の発明では、音声処理装置（１０：実施例において相当する部分を示す参照符号。以下、同様。）は、音声コーパス記憶部（２０、１０１）に、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスが記憶される。制御パラメータ生成部（Ｓ５、１０７）は、たとえば制御則記憶部（１０９）に設定されている制御則の定義域内において、平静音声と少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを生成する。学習データ生成部（Ｓ７、１０５）は、制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する。そして、学習部（Ｓ９‐Ｓ１５、１１１）が、入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する。

第１の発明によれば、感情音声（発話スタイル音声）および平静音声の音声データに基づいて学習する際に発話スタイル音声を混合する割合を変更させることによって学習データを作成するので、変換モデルにおいて、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる。

第２の発明は、第１の発明に従属し、音声コーパスは異なる複数の発話者のそれぞれについて平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含み、制御パラメータは複数の発話者の混合割合である第２混合割合を含み、学習データ生成部は発話スタイルおよび発話者のそれぞれの第１混合割合および第２混合割合を含む制御データに従って学習データを生成する、音声処理装置である。

第２の発明では、音声コーパス記憶部（２０、１０１）に記憶される音声コーパスは、異なる複数の発話者のそれぞれについて平静音声および少なくとも１つの発話スタイル音声の音声データの特徴量を含み、制御パラメータ生成部（Ｓ５、１０７）が生成する制御パラメータは複数の発話者の混合割合である第２混合割合を含む。そのため、学習データ生成部は発話スタイルおよび発話者のそれぞれの混合割合を含む制御データに従って学習データを生成する。

第２の発明によれば、複数の発話者のそれぞれの感情音声（発話スタイル音声）を平静音声の音声データに基づいて学習すれば、所望の話者性の出力音声を容易に出力することができる。

第３の発明は、第１の発明または第２の発明の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する変換フィルタ予測部、および変換フィルタを用いて入力波形を変換する波形変換部を備える、音声処理装置。

第３の発明では、変換フィルタ予測部（Ｓ２７、２０９）は、第１の発明または第２の発明の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する。波形変換部（Ｓ２９、２１１）は、変換フィルタを用いて入力波形を変換する。

第３の発明によれば、波形変換部からは、所望の発話スタイルおよび／または話者性の音声波形を出力することができる。

第４の発明は、コンピュータによって実行され、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理プログラムであって、コンピュータのプロセサを、平静音声と少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成部、制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成部、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部として機能させる、音声処理プログラムである。

第５の発明は、コンピュータによって実行され、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理方法であって、平静音声と少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成ステップ、制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成ステップ、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習ステップを含む、音声処理方法である。

第４の発明または第５の発明によっても、第１の発明と同様の効果が期待できる。

この発明によれば、同一発話者の異なる感情音声（発話スタイル音声）を平静音声とは別に録取し、それぞれの音声データに基づいて学習する際に発話スタイル音声を混合する割合を変更させることによって学習データを作成するので、変換モデルにおいて、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる。

さらに、複数の発話者のそれぞれの感情音声（発話スタイル音声）を平静音声の音声データに基づいて学習すれば、所望の話者性の出力音声を容易に出力することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例の音声処理装置の電気的な構成の一例を示すブロック図である。図２は図１実施例の音声コーパスの一例を示す図解図である。図３は図１実施例のメモリのメモリマップの一例を示す図解図である。図４は図１実施例の学習動作の一例を示すフロー図である。図５は図４実施例に適用する学習パラメータの一例を示す図解図である。図６は図１実施例における図４のフロー図に相当する機能ブロック図である。図７は図１実施例における変換特性の一例を従来との比較で示すグラフである。図８は図１実施例における出力動作の一例を示すフロー図である。図９は図１実施例における図８のフロー図に相当する機能ブロック図である。

図１を参照して、この実施例の音声処理装置１０は基本的には汎用コンピュータであり、ＣＰＵ（プロセサ）１２を備え、ＣＰＵ１２は、バス１４を通して通信モジュール１６に接続され、したがって、ＣＰＵ１２は、必要なとき、通信モジュール１６を介して、ネットワーク（図示せず）に通信可能に接続される。

ＣＰＵ１２はまた、バス１４を通してメモリ１８およびＨＤＤ２０にアクセスでき、ＨＤＤ２０やメモリ１８に設定されているプログラムやデータ（後述）に従って、音声処理、たとえばディープニューラルネットワーク（ＤＮＮ）に従った変換モデルを構築し、および／またはそのような変換モデルを利用して入力音声波形を出力音声波形に変換する。つまり、この実施例の音声処理装置１０の音声出力機構は、波形接続型音声合成であり、発話スタイルに応じて収録した音声波形を、たとえば音素ごとに、接続しながら出力音声波形を生成する。

その出力音声波形は、ＣＰＵ１２から、適宜のインタフェース（図示せず）を介して、スピーカ２２にアナログ音声信号として与えられる。したがって、入力音声を変換モデルで変換した出力音声がスピーカ２２から出力される。

さらに、音声処理装置１０は、たとえばＬＣＤのようなディスプレイ２３を備える。

図１におけるＨＤＤ２０は、データベースとして使用され、ここでは音声コーパス記憶部として機能する。ただし、ＨＤＤは大容量記憶装置の一例として便宜上挙げただけであり、ＵＳＢのような他の半導体記憶装置や、光学記憶装置が用いられてもよい。

音声コーパス記憶部は、同一発話内容の発話スタイル音声および平静音声で構成される。発話スタイル音声は、「明るい」、「暗い」、「かわいい」などの声の印象や、「驚」、「怒」、「喜」などの人の感情を表した声質を持つ音声ことを指す。この実施例では、発話スタイルのうち「怒」、「悲」および「喜」の３つを採用した。発明者等の実験では、４名の発話者の音声を録取して、図２に示すようなコーパスを作成した。ただし、発話スタイル音声または平静音声のうち、同一発話がない場合には、合成音声から作成する。

生成するパラメータはスペクトル包絡、基本周波数、非同期指標、残差ベクトル、位相特徴量などや、それらの時間変動を表したデルタ成分に関するパラメータが挙げられる。そして、スペクトル包絡に関するパラメータの例としては、ＦＦＴ（高速フーリエ変換）スペクトル、ケプストラム、メルケプトラム、線スペクトル対、メル線スペクトル対、メル一般化スペクトラム、自己符号化器の符号化成分などがある。

実施例では、メルケプトラム（人間の聴覚特性を考慮したケプストラム（音声のスペクトルをフーリエ変換したもの））を採用する。図２は、平静音声および発話スタイル音声の内の「怒」の発話スタイル音声をそれぞれ、たとえば５ｍｓ（１フレーム）毎に区切ってＦＦＴ）して作成したコーパスを示す。つまり、入力音声の１フレームに含まれる特徴量を示すデータをコーパスとして生成する。ただし、同一発話者の平静音声と各発話スタイル音声のパラメータは時間軸方向に整合している必要がある。

図２において縦長の短冊が１つの特徴データを図解していて、平静音声の特徴データと各発話スタイル音声の特徴データはそれぞれマッチングが判断され、平静音声の特徴データと同じ発話スタイル音声の特徴データは、省略される。なお、この実施例では、後述のように、発話者ＩＤを示すパラメータを平静音声の特徴データから計算することにしているため、平静音声の音声特徴データを省略することはない。

実施例においては、このような、複数の発話者のそれぞれの平静音声と複数の発話スタイル音声を録取した音声コーパスを予め準備しておき、図４に示すモデル学習処理を実行し、変換（入力‐出力変換）モデルを構築し、それをたとえば図１に示すＨＤＤ２０のような、モデル記憶部に格納する。

実施例では複数（たとえば４人）の発話者の、それぞれの平静音声と３つの発話スタイル音声の発話を用いて音声コーパスを作成した。しかしながら、発話者の数は１人でもよいし、発話スタイル音声の数は、１つ以上であればよいし、もっと多くてもよい。

図３に示すように、図１のメモリ１８には、プログラム記憶部２４およびデータ記憶部２６が設けられる。

プログラム記憶部２４には、図４に示す学習処理のための学習プログラム２４ａおよび図８に示す出力変換処理のための変換プログラム２４ｂが予め設定される。ただし、実施例の音声処理装置１０が、モデル構築のためにだけ使用される場合には、学習プログラム２４ａだけが設定されていればよく、音声処理装置１０が、出力音声変換のためにだけ使用される場合には、変換プログラム２４ｂだけが設定されていればよい。

データ記憶部２６には、それぞれ後述するが、学習処理に使われる学習パラメータ、制御パラメータ、制御則および学習データをそれぞれ記憶するための学習パラメータ記憶領域２６ａ、制御パラメータ記憶領域２６ｂ、制御則記憶領域２６ｃおよび学習データ記憶領域２６ｄが形成される。

さらに、変換処理に使われる入力音声波形、入力パラメータおよび変換モデルをそれぞれ記憶する入力音声波形記憶領域２６ｅ、入力パラメータ記憶領域２６ｆおよびモデル記憶領域２６ｇが形成される。

また、このデータ記憶領域２６には、後述の学習の繰り返し回数ｉをカウントするためのカウンタ（図示せず）などの領域を含む。

図４を参照して、学習処理の最初のステップＳ１では、図５に示すような学習用パラメータを生成する。つまり、ＣＰＵ１２（図１）が実行するステップＳ１は、学習用パラメータ生成部として機能する。

ここでの学習パラメータは、入力音声パラメータおよび出力音声パラメータを含む。ここで、入力音声パラメータは、図２に示す音声の特徴量のデータであり、音声コーパスである。発話スタイルは怒、悲、喜を示す。この学習用パラメータ生成部はさらに、入力発話者（実施例では４人）のＩＤ（識別記号）を表すパラメータおよび出力音声の発話スタイルのＩＤを表すパラメータを生成する。出力音声パラメータは、出力音声の発話スタイルのパラメータのことであり、出力音声の発話スタイル音声を示すパラメータである。

入力発話者のＩＤを表すパラメータは、当該発話者の平静音声の音声コーパスから計算したものを採用する。ただし、計算には、たとえばone hot（ワンホット）ベクトル、i-vectorのコンポーネント、主成分分析の主成分スコア（類似度、計算インデックス）、autoencoderのエンコード部の出力係数などの公知のものを採用することができるが、実施例では、主成分分析の主成分スコアを用いる。

出力音声の発話スタイルのパラメータは、ワンホットベクトルや主成分分析の主成分スコアを想定できるが、実施例ではワンホットベクトルを用いる。

次のステップＳ３において、メモリ１８のデータ記憶領域２６に形成しているカウンタｉ（図示せず）を初期化（ｉ＝１）する。これは、ステップＳ５以降の学習プロセスを繰り返した回数をカウントするためである。

図４の次のステップＳ５では、制御パラメータを生成する。つまり、ＣＰＵ１が実行するステップＳ５は制御パラメータ生成部として、機能する。制御パラメータは、この実施例の特徴の1つである、上記の３つの発話スタイル音声をどのような割合で混合するかを示す混合割合（第１混合割合）のパラメータである。このステップＳ５では、変換モデルを作成する毎に１つの設定ファイルとして、制御パラメータ生成条件を設定（記憶）しておく。

制御パラメータを生成する条件としては、１度に生成するパラメータの数の他に、各制御パラメータを生成する方法（固定値または乱数）がある。１度に生成するパラメータの数は、一例として、上述の音声コーパス内の発話者数（実施例では、「４」）＋発話スタイル数（実施例では、「３」）を用いる。

制御パラメータの生成方法（制御則）は、上述の混合割合を固定値で設定するのか、あるいは乱数を用いて決めるのかを示すものである。固定値の場合、各パラメータを固定値で指定する。乱数で指定する場合、発話者用の乱数は「０」から「１」までの合計が「１」になる実数とし、発話スタイル用の乱数は「０」から「１」までの実数とする。前者は各発話者の割合（第２混合割合）を設定するものであるため、合計を「１」とする必要があるが、後者（第１混合割合）の場合そのような規制は必要ない。ただし、発話者の割合は固定値としておき、発話スタイルだけを乱数で変更するようにしてもよい。制御パラメータを生成するためのこのような制御則は、この音声処理装置１０の設計者によって予め設定されているものである。

そして、この制御パラメータ生成部では、このような生成条件に基づいて、混合割合を示す制御パラメータを生成し、制御パラメータ記憶部に記憶（設定）しておく。ただし、生成された制御パラメータは、上記制御パラメータ生成条件設定ファイルと紐付けされて記憶される。

続くステップＳ７では、ＣＰＵ１２は、ステップＳ５で生成された制御パラメータと、データ記憶領域２６の制御則記憶領域２６ｃから読み出した制御則に基づいて、学習データを生成する。つまり、ＣＰＵ１２が実行するステップＳ７は学習データ生成部として機能する。このステップＳ７では、制御則、制御パラメータ値に従って図５に示す学習用パラメータを変形して学習用データを生成する。

学習データ生成部すなわちステップＳ７では、先に説明したように、制御パラメータおよび制御則に従って学習データを生成するのであるが、ここでは一例として、制御則が線形結合（直線的に制御する）である場合の学習データの生成過程を説明する。ただし、発話内容はすべて同一であると仮定している。

数１は入力音声パラメータであり、たとえば２５次元データである。

ここで、v_nはｎ番目の発話者のための制御パラメータ（第２混合割合）であり、x_t ⁽ⁿ⁾は当該ｎ番目の発話者の平静音声を示す。

数２は出力音声のパラメータであり，たとえば２５次元データである。

ここで、u_mはｍ番目の発話スタイルのための制御パラメータ（第１混合割合）であり、y_t ^(m)は当該ｍ番目の発話スタイルを示すパラメータである。

数３は出力音声の発話スタイルのＩＤを示すパラメータであり、たとえば３次元ベクトルである。

ここで、e_nはn番目の発話スタイルのＩＤを示すパラメータである。

数４はｎ番目の発話者のＩＤを表すパラメータであり、たとえば３次元ベクトルである。

ここで、S_nはn番目の発話者のＩＤを表すパラメータである。

この数１から数４の処理によって得られたデータの内、数５で表される３１次元ベクトルを入力データの学習データとし、数６を出力データの学習データとして用いる。

ここでTは転置を表す。

このようにして、ステップＳ７で、学習データを生成し、次のステップＳ９で、ＣＰＵ１２は、変換モデルを学習する。つまり、ＣＰＵ１２が実行するステップＳ９がモデル学習部として機能する。

ただし、出力データの学習データとしては、数６のd_tの代わりにこれを量子化したVQ(d_t)を用いてもよい。

ここで構築するモデルはディープニューラルネットワーク（ＤＮＮ）を想定している。また、ネットワークの種類としては、フィードフォワードネットワーク、畳み込みネットワーク、リカレントネットワークを想定などがあるが、実施例では、フィードフォワードネットワークを採用した。

さらに、このステップＳ９でのモデル学習方法は、ＤＮＮで一般的に使われている確率的勾配法やこれに付随する正規化や学習率のスケジュール手法、敵対的学習を利用することができるものであり、その手法自体が特徴ではないので、ここではそれ以上の説明は省略する。

次のステップＳ１１で繰返し回数ｉをインクリメントし、続くステップＳ１３で、ＣＰＵ１２は誤差（出力と同じフレーム予測との）が収束したかどうか判断する。そして、ステップＳ１３で“ＹＥＳ”を判断したとき、この学習処理は終了する。

ただし、ステップＳ１３で“ＮＯ”を判断したときには、ステップＳ１５では、繰返し回数ｉが規定値に達したかどうか判断する。このステップＳ１５で“ＮＯ”なら、プロセスは先のステップＳ５に戻って、上で説明したステップＳ５‐Ｓ１３の処理を繰り返す。ステップＳ１５で“ＹＥＳ”なら、そのまま学習処理を終了する。

この学習処理で学習した変換モデルは、図１のＨＤＤ２０に、図２のような音声コーパスと紐付けされて、記憶される。ただし、後述の出力音声の変換処理に使うときには、データ記憶領域２６のモデル記憶領域２６ｇ（図３）に記憶される。

図６は、図４に示す各部を機能ブロック図として表現したものであり、音声コーパス記憶部１０１およびモデル記憶部１１３は、図１の実施例でいうとＨＤＤ２０に相当する。制御則記憶部１０９は、図３の制御則記憶領域２６ｃに相当する。

図４のステップＳ１が学習用パラメータ生成部１０３に相当し、ステップＳ５が制御パラメータ生成部１０７に相当し、ステップＳ７が学習データ生成部１０５に相当する。そして、ステップＳ９がモデル学習部１１１に相当する。

図６のこれらの機能部１０３、１０５、１０７および１１１の動作は、対応する各ステップＳ１、Ｓ７、Ｓ５およびＳ９で説明した通りであり、ここでは重複する説明は省略する。

上述の実施例においては、音声コーパスとして、複数（４人）の発話者のそれぞれ複数（４つ）の発話スタイルの音声データに基づく特徴量データを予め準備しておき、出力音声における複数の発話スタイルの混合割合である制御パラメータｕ_ｍおよびｖ_ｎを設定を用いて数１‐数６に従って学習データを生成するようにしたので、制御パラメータｕ_ｍおよびｖ_ｎを適宜設定することにより、図７の線Ｅで示すように、入力感情の重みに対する出力特徴量の感情の度合い（発話スタイル）を、たとえば直線的に変化するように設計することができる。したがって、出力音声の所望の発話スタイルを容易に設計することができる。これに対して、従来では、線Ｃで示すように、入力感情の重みに対する出力特徴量の感情の度合い（発話スタイル）が急激に変化してしまうので、出力音声の所望の発話スタイルを設計することは容易ではなかった。

ただし、上述の実施例では複数の発話者の複数の発話スタイルの音声データを含む音声コーパスを準備し、発話者の混合割合v_nおよび発話スタイルの混合割合u_mを含む制御パラメータを用いて入力データの学習データ（数５）および出力データの学習データ（数６）を生成（ステップＳ７）し、その学習データを用いてステップＳ９で変換モデルを学習するようにした。しかしながら、発話スタイルの混合割合だけを含む制御パラメータを用いて学習データを生成するようにしてもよい。その場合には、発話スタイルの混合割合u_mだけを用いて数５の入力データの学習データおよび数６の出力データの学習データを生成することになるが、その場合でも出力音声における発話スタイルを設計することができる。

上述のようにして出力音声の変換モデルを学習することができ、この出力変換モデルをそのまま利用して、あるいは他の音声処理装置で構築した出力変換モデルを導入することによって、図８で示すように、入力音声データをその変換モデルに従って変換した出力音声を得ることができる。

変換プログラム２４ｂ（図３）に従った、図８の最初のステップＳ２１では、ＣＰＵ１２は、入力音声波形を取り込むとともに、ユーザが所望する出力音声の発話スタイルのパラメータｕ_ｍおよびｖ_ｎを取り込む。ステップＳ２１を実行するＣＰＵ１２は、波形、パラメータ入力部として機能する。取り込んだ入力波形は図３に示すメモリ１８のデータ記憶領域２６の入力音声波形記憶領域２６ｅに記憶される。入力音声波形は、ユーザ自身の音声をそのまま波形信号として入力してもよいし、音声合成によって作成した音声の波形信号を入力するようにしてもよい。さらに、入力方法としては、リアルタイムにマイク（図示せず）などから入力する場合と、たとえばＵＳＢのようなメモリからいっぺんに取り込む方法がある。

また、発話スタイルのパラメータｕ_ｍおよびｖ_ｎの入力のためには、ＣＰＵ１２が図示しないＵＩ（ユーザインタフェース）をディスプレイ２３（図１）に表示して、ユーザからの入力を受け付けるようにしてもよいし、たとえば上述したＵＳＢに入力音声波形とともに所望の発話スタイルのパラメータｕ_ｍおよびｖ_ｎも設定しておき、そのＵＳＢから取り込むようにすることもできる。

続くステップＳ２３では、先の図４のステップＳ５と同じような手法で、音声コーパスから音声パラメータ（図５）を生成するとともに、ステップＳ１と同じような手法で、発話者ＩＤのパラメータＳ_ｎを生成する。ステップＳ２３を実行するＣＰＵ１２は、音声パラメータ生成部として機能する。

次のステップＳ２５では、図４のステップＳ７と同じような手法で、音声パラメータ、発話スタイルパラメータおよび発話者ＩＤパラメータを結合した、数５のような入力パラメータを生成する。ステップＳ２５を実行するＣＰＵ１２は、入力パラメータ生成部として機能する。生成した入力パラメータは、図３に示すメモリ１８のデータ記憶領域２６の入力パラメータ記憶領域２６ｆに記憶される。

そして、ステップＳ２７で、先に獲得した変換モデルを使って、変換フィルタを予測する。ステップＳ２７を実行するＣＰＵ１２は、変換フィルタ予測部として機能する。

ステップＳ２９では、その変換フィルタを用いて、波形を変換して、スピーカ２２（図１）に出力する。ステップＳ２９を実行するＣＰＵ１２は、波形変換、出力部として機能する。ただし、波形変換の方法としては、入力波形に対して畳み込みする方法、または入力波形を上述のような音声パラメータに分解した後にその変換フィルタを適用し、ボコーダを通じて波形を再編成する方法を適用する。

この実施例によれば、ステップＳ２１でユーザが所望する発話スタイルのパラメータｖ_ｎおよびｕ_ｍを設定できるようにしているので、ユーザが所望する発話スタイルの出力音声を出力することができる。

図９は、図８に示す各ステップを機能ブロック図として表現したものであり、モデル記憶部２６ｇは、図３のデータ記憶領域２６に含まれる。図８のステップＳ２１が波形、パラメータ入力部２０１に相当し、ステップＳ２３が音声パラメータ生成部２０３に相当し、ステップＳ２５が入力パラメータ生成部２０５に相当する。そして、テップＳ２７が変換フィルタ予測部２０９に相当し、ステップＳ２９が波形変換部２１１に相当する。

ただし、図９のこれらの機能部２０１、２０３、２０５、２０９および１１１の動作は、対応する各ステップＳ２１、Ｓ２３、Ｓ２５、Ｓ２７およびＳ２９で既に説明した通りであり、ここでは重複する説明は省略する。

１０ …音声処理装置
１２ …ＣＰＵ
１８ …メモリ
２０ …ＨＤＤ
２２ …スピーカ
２４ …プログラム記憶領域
２６ …データ記憶領域

Claims

平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパス、
前記平静音声と前記少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成部、
前記制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成部、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部を備える、音声処理装置。
前記音声コーパスは異なる複数の発話者のそれぞれについて前記平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含み、
前記制御パラメータは前記複数の発話者の混合割合である第２混合割合を含み、
前記学習データ生成部は前記発話スタイルおよび前記発話者のそれぞれの第１混合割合および第２混合割合を含む前記制御データに従って前記学習データを生成する、請求項１記載の音声処理装置。
請求項１または請求項２の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する変換フィルタ予測部、および
前記変換フィルタを用いて入力波形を変換する波形変換部を備える、音声処理装置。
コンピュータによって実行され、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理プログラムであって、前記コンピュータのプロセサを、
前記平静音声と前記少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成部、
前記制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成部、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部として機能させる、音声処理プログラム。
コンピュータによって実行され、平静音声および少なくとも１つの発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理方法であって、
前記平静音声と前記少なくとも１つの発話スタイル音声の混合割合である第１混合割合を含む制御パラメータを設定する制御パラメータ生成ステップ、
前記制御パラメータを用いて入力データの学習データおよび出力データの学習データを生成する学習データ生成ステップ、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習ステップを含む、音声処理方法。