JP7192882B2

JP7192882B2 - 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム

Info

Publication number: JP7192882B2
Application number: JP2020562317A
Authority: JP
Inventors: 定男廣谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-12-26
Filing date: 2019-06-20
Publication date: 2022-12-20
Anticipated expiration: 2039-06-20
Also published as: JPWO2020136948A1; WO2020136948A1; US11869529B2; US20220076691A1

Description

この発明は、音声信号の発話リズムを変換する技術に関する。

外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語を母語とする話者（以下、「日本語母語話者」と呼ぶ）は、英語を母語とする話者（以下、「英語母語話者」と呼ぶ）の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、発話リズムやイントネーションなどの超文節的特徴になるため、これまで、日本語母語話者が発話した任意の英語音声の発話リズムを自動的に変換し、英語母語話者に聞き取り易くする技術が提案されてきた。

例えば、特許文献１では、日本語母語話者および英語母語話者が発話した大量の英語音声を用いて、非負値時空間分解法により得られた時間関数の発話リズム変換則（コードブック）を用いて発話リズムの変換を行っている。

特開２０１６－２１８３８６号公報

従来の発話リズム変換技術では、基本的に、ネイティブ話者が変換対象の音声と同一のテキストを発話した音声が必要とされる。これに対し、特許文献１の手法では、ネイティブ話者と非ネイティブ話者とが同一のテキストを発話した音声から発話リズムの変換則を表すガウス混合モデルを学習し、変換対象の音声信号の発話リズムにガウス混合モデルが最も良く当てはまるようにガウス分布を重み付け加算することで変換後の発話リズムを求める。これにより、ネイティブ話者が同一のテキストを発話した音声が存在しなくとも、発話リズムの変換を行うことができる。しかしながら、発話リズム間の関係は非線形であるため、特許文献１の手法では変換精度が十分に上がらないという課題があった。

この発明の目的は、上記のような技術的課題に鑑みて、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる発話リズム変換技術を実現することである。

上記の課題を解決するために、この発明の第一の態様の発話リズム変換装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第１特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と発話リズムに関する情報とを抽出する特徴量抽出部と、入力音声信号から抽出した発話リズムに関する情報を含む第１特徴量ベクトルを発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、変換後の発話リズムと入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部と、を含む。

上記の課題を解決するために、この発明の第二の態様のモデル学習装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第１特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、学習データを用いて、第一音声信号から抽出した第１特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部と、を含む。

この発明によれば、予め学習したニューラルネットワークを用いて発話リズムを変換することで、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる。

図１は、発話リズム変換装置の機能構成を例示する図である。図２は、発話リズム変換方法の処理手順を例示する図である。図３は、モデル学習装置の機能構成を例示する図である。図４は、モデル学習方法の処理手順を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
この発明の第一実施形態は、事前に学習されたニューラルネットワーク（以下、「発話リズム変換モデル」と呼ぶ）を用いて、第一グループの話者による音声信号を、第二グループの話者の発話リズムに変換する発話リズム変換装置および方法と、事前に収集された学習データを用いて、発話リズム変換装置および方法が用いる発話リズム変換モデルを学習するモデル学習装置および方法である。第一グループとは、例えば、第一言語（例えば、日本語）を母語とする話者（以下、「日本語母語話者」と呼ぶ）である。第二グループとは、例えば、第二言語（例えば、英語）を母語とする話者（以下、「英語母語話者」と呼ぶ）である。

＜発話リズム変換＞
第一実施形態の発話リズム変換装置１は、図１に例示するように、モデル記憶部１０、特徴量抽出部１１、変換部１２、および音声合成部１３を備える。この発話リズム変換装置１が、図２に例示する各ステップの処理を行うことにより第一実施形態の発話リズム変換方法が実現される。

発話リズム変換装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発話リズム変換装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発話リズム変換装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発話リズム変換装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発話リズム変換装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

モデル記憶部１０には、予め学習した発話リズム変換モデルが記憶されている。発話リズム変換モデルは、第一グループの話者が発話した音声を収録した音声信号から抽出した特徴量ベクトルを入力とし、第一グループの話者の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークである。発話リズム変換モデルは、第一グループの話者が第二言語で発話した音声を収録した音声信号（以下、「第一音声信号」と呼ぶ）と、第二グループの話者が第二言語で発話した音声を収録した音声信号（以下、「第二音声信号」と呼ぶ）との組からなるデータの集合（以下、「学習データ」と呼ぶ）を用いて、深層学習により、予め学習されたものである。学習データは、例えば、日本語母語話者が英語で発話した音声信号と、英語母語話者が同一のテキストを英語で発話した音声信号とを組にした十分な量のデータである。

ニューラルネットワークとしては、例えば、512ユニット、5層からなる多層パーセプトロン（MLP: Multi Layer Perceptron）や、5層、フィルタ数512で構成される畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）等を用いればよい。畳み込みニューラルネットワークを用いる場合、入力側から順にフィルタを、例えば、(10, 2), (8, 1), (6, 1), (3, 1), (1, 2)とすればよい。

ステップＳ１１において、特徴量抽出部１１は、発話リズム変換装置１に入力された第一音声信号（以下、「入力音声信号」と呼ぶ）からフレーム毎に特徴量を抽出し、その特徴量を含む特徴量ベクトルを生成する。特徴量抽出部１１は、抽出した特徴量ベクトルを、変換部１２および音声合成部１３へ出力する。

具体的には、特徴量抽出部１１は、入力音声信号を声道スペクトルに関する情報と発話リズムに関する情報とに分解し、発話リズムに関する情報を含む第１特徴量ベクトルを変換部１２に、声道スペクトルに関する情報を含む第２特徴量ベクトルを音声合成部１３にそれぞれ出力する。

変換部１２に出力される特徴量ベクトル（以下、「第１特徴量ベクトル」とする）は、少なくとも変換対象の音素p_tに対応した発話リズム情報(Φ'_1,t, D_1,t)を含む。ただし、tは入力音声信号に含まれる音素の番号である。発話リズム情報の求め方は、例えば、特許文献１の段落［００１１］－［００２７］に記載された方法を用いることができる。抽出する特徴量は、発話リズム情報(Φ'_1,t, D_1,t)のほかに、音素p_tの駆動時点（その音素を最もよく表す時刻）におけるメル周波数ケプストラム係数（MFCC: Mel-Frequency Cepstrum Coefficients）や基本周波数F0等、音声信号に関する既知の特徴量をさらに含んでいてもよい。

生成する第１特徴量ベクトルは、連続する所定数の音素についての特徴量を並べたベクトルである。例えば、変換対象の音素p_tの特徴量を((Φ'_1,t, D_1,t), MFCC_1,t, F0_1,t)とすれば、特徴量ベクトルは連続する３つの音素p_t-1, p_t, p_t+1の特徴量を並べた(Φ'_1,t-1, Φ'_1,t, Φ'_1,t+1, D_1,t-1, D_1,t, D_1,t+1, MFCC_1,t-1, MFCC_1,t, MFCC_1,t+1, Flag_1,t-1, F0_1,t-1, Flag_1,t, F0_1,t, Flag_1,t+1, F0_1,t+1)^Tと表すことができる。ここで、・^T（上付きのT）は行列またはベクトルの転置を表す。Flagは有声か無声かを表す情報であり、例えば有声の場合は１、無声の場合は０が設定される。

特徴量抽出部１１は、例えば、表１に示す要素からなる第１特徴量ベクトルを抽出する。表１において、１段目は要素の種類（属性）を表し、２段目はその要素を抽出した音素の番号を表し、３段目はその要素の次数を表す。

Φ'_Jは日本語母語話者のサンプリングした時間関数を10点でサンプリングしたものとする。ただし、Φ'_Jの1次および10次（最終次）の値は常に0.5のため、第１特徴量ベクトルから除外する。D_Jは音素の継続時間長である。MFCCは音声認識等で用いられる音声信号から抽出されるメルケプストラム周波数であり、13次で分析し、0次項（ゲイン）を除いた13次を用いるものとする。F0は無音の値を補完してHzにlogを取り、平均値を引いて正規化したものとする。Flagは有声が１、無声が０のフラグ情報を表すものとする。この例では、入力音声信号に対する第１特徴量ベクトルは72次のベクトルとなる。

発話リズム変換モデルを多層パーセプトロン（MLP）で構成する場合は、この72次のベクトルを変換部１２へ入力する。発話リズム変換モデルを畳み込みニューラルネットワーク（CNN）で構成する場合は、１つ前の音素p_t-1に関する24次のベクトル(Φ'_1,t-1, D_1,t-1, MFCC_1,t-1, Flag_1,t-1, F0_1,t-1)^Tと、現在の音素p_tに関する24次のベクトル(Φ'_1,t, D_1,t, MFCC_1,t, Flag_1,t, F0_1,t)^Tと、１つ後の音素p_t+1に関する24次のベクトル(Φ'_1,t+1, D_1,t+1, MFCC_1,t+1, Flag_1,t+1, F0_1,t+1)^Tとからなる24×3行列を変換部１２へ入力する。

また、音声合成部１３に出力される特徴量ベクトル（以下、「第２特徴量ベクトル」という）は、声道スペクトルに関する情報であり、例えばＬＳＰパラメータ列である。特許文献１の［００１１］－［００２７］に記載された方法では、ＬＳＰパラメータの分析次数の総数をｐ、分析次数を表すインデックスをｉとし、ｔを時刻を表すインデックスとして、入力音声信号である時系列信号Ｙ（ｔ）に対するＬＳＰパラメータ列Y(t)={y₁(t),…,y_i(t),…,y_p(t)}が得られるので、これを第２特徴量ベクトルとして用いれば良い。

ステップＳ１２において、変換部１２は、特徴量抽出部１１から入力音声信号の第１特徴量ベクトルを受け取り、モデル記憶部１０に記憶された発話リズム変換モデルへその第１特徴量ベクトルを入力して、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報(Φ'_2,t, D_2,t)を得る。変換部１２は、得られた変換後の発話リズム情報(Φ'_2,t, D_2,t)を音声合成部１３へ出力する。

変換部１２は、上述の72次の第１特徴量ベクトルを入力としたとき、Φ_Eを英語母語話者のサンプリングした時間関数を20点でサンプリングしたものとし、表２に示す要素からなる21次のベクトルを出力する。

ステップＳ１３において、音声合成部１３は、特徴量抽出部１１から入力音声信号の第２特徴量ベクトルを、変換部１２から変換後の発話リズム情報(Φ'_2,t, D_2,t)を受け取り、入力音声信号の第２特徴量ベクトルと変換後の発話リズム情報(Φ'_2,t, D_2,t)とを用いて、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した出力音声信号を合成して出力する。音声合成の処理は、例えば、特許文献１の段落［００４８］－［００５４］に記載された方法を用いることができる。

＜モデル学習＞
第一実施形態のモデル学習装置２は、図３に例示するように、モデル記憶部１０、学習データ記憶部２０、および学習部２１を備える。学習部２１は、変換部２１１、終了判定部２１２、およびパラメータ更新部２１３を備える。このモデル学習装置２が、図４に例示する各ステップの処理を行うことにより第一実施形態のモデル学習方法が実現される。

モデル学習装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置２の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。モデル学習装置２が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

学習データ記憶部２０には、予め収集した学習データが記憶されている。学習データは、第一音声信号から抽出した発話リズムに関する情報を含む第１特徴量ベクトルと、第二音声信号から抽出した発話リズムに関する情報との組からなるデータの集合である。学習データは、例えば、日本語母語話者が英語で発話した音声信号の第１特徴量ベクトルと、英語母語話者が同一のテキストを英語で発話した音声信号の発話リズムに関する情報とを組にした十分な量のデータである。第１特徴量ベクトルに含まれる特徴量の種類（属性）は、発話リズム変換装置１の特徴量抽出部１１で抽出する特徴量と同様とする。学習データは、予め抽出した特徴量ベクトルではなく、音声信号そのものであってもよい。その場合、モデル学習装置２は、学習データの音声信号から特徴量ベクトルを都度抽出する特徴量抽出部を備えるように構成すればよい。

ステップＳ２１において、学習部２１は、学習データ記憶部２０に記憶された学習データを用いて、第一音声信号から抽出した第１特徴量ベクトルを入力とし、第一音声信号の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する。学習部２１は、学習済みのニューラルネットワークのパラメータを発話リズム変換モデルとしてモデル記憶部１０へ記憶する。

ニューラルネットワークの学習は、具体的には、以下のようにして行う。

ステップＳ２１１において、変換部２１１は、予め適当な初期値が設定されたニューラルネットワークに、学習データ中の第一音声信号の第１特徴量ベクトルを入力し、変換後の発話リズム情報の推定値を求める。

ステップＳ２１２において、終了判定部２１２は、所定の終了条件を満たすか否かを判定する。終了条件を満たす場合（ＹＥＳ）には、学習を終了する。終了条件を満たさない場合（ＮＯ）には、ステップＳ２１３を実行し、その後再度ステップＳ２１１を実行する。所定の終了条件は、予め設定された繰り返し回数に到達したこと、発話リズム情報の推定値と正解データとの誤差が所定の閾値以下になったこと、パラメータの更新量が所定の閾値以下となったこと等を用いればよい。

ステップＳ２１３において、パラメータ更新部２１３は、変換部２１１で求めた発話リズム情報の推定値と、入力した第１特徴量ベクトルに対応する学習データ中の第二音声信号の発話リズム情報（正解データ）との比較結果に応じて、ニューラルネットワークの各パラメータを更新する。パラメータの更新は周知の誤差伝搬学習法などにより行えばよい。例えば、発話リズム情報の推定値と正解データとの平均二乗誤差を最小化するようにパラメータの更新（学習）を行う。

学習部２１は、学習が終了したときのニューラルネットワークのパラメータをモデル記憶部１０へ記憶する。発話リズム変換装置１へ直接記憶するために学習済みのニューラルネットワークのパラメータを出力し、モデル学習装置２はモデル記憶部１０を備えないように構成してもよい。発話リズム変換装置１の変換部１２は、学習済みのパラメータを設定したニューラルネットワークを発話リズム変換モデルとして、第一実施形態で説明した処理を実行する。

［第二実施形態］
第一実施形態では、日本語母語話者の３音素組の時間関数を英語母語話者の３音素組の中心音素の時間関数に変換していた。これに対して、第二実施形態では、日本語母語話者の時間関数全体を英語母語話者の時間関数全体に変換するように発話リズム変換モデルを構成する。第一実施形態の発話リズム変換モデルは、多層パーセプトロン（MLP）や畳み込みニューラルネットワーク（CNN）で構成したが、第二実施形態の発話リズム変換モデルは、再帰型ニューラルネットワーク（RNN）で構成する。

第一実施形態では、３音素組による局所的な変換が行われていたが、発話リズムは超文節的特徴であり、局所的な近似では不十分である。また、従来技術では、日本語母語話者の英語音声に含まれる言いよどみや言い間違いなどを別のモデルで表現し、不要であれば時間関数から削除していたが、この方法では時間関数が不連続になってしまうという問題がある。そのため、第二実施形態では、時系列を扱うことが可能な、自然言語処理や音声処理で広く用いられている、再帰型ニューラルネットワークを時間関数の変換に用いることにより、発話全体を考慮しながら時間関数の推定を可能とする。また、言いよどみや言い間違いなどに関して別のモデルを必要としないため、より自然な発話リズム変換を行うことが可能となる。

＜発話リズム変換＞
第二実施形態の特徴量抽出部１１は、入力音声信号から発話リズムに関する情報を含む第１特徴量ベクトルと声道スペクトルに関する情報を含む第２特徴量ベクトルとを抽出する。各音素から求める発話リズム情報は第一実施形態と同様であるが、生成する第１特徴量ベクトルは、入力されたすべての音素（すなわち、発話全体）についての特徴量を連結したベクトル系列とする。

第二実施形態の発話リズム変換モデルは再帰型ニューラルネットワークで構成するため、ある音素p_tに関する特徴量ベクトルは１つの音素の特徴量のみからなり、例えば、表３に示す要素からなる24次のベクトルとなる。

第二実施形態の特徴量抽出部１１は、発話リズム情報に加え、日本語母語話者の言いよどみや言い間違いなどを考慮するために、音素分類情報を抽出して第１特徴量ベクトルに含めてもよい。音素分類情報とは、例えば、発話開始を０、発話終了を１、ショートポーズを２、不要な挿入母音を３、などに設定した情報である。

第二実施形態の変換部１２は、発話リズム変換モデルへ第１特徴量ベクトルを入力し、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報を得る。各音素について得られる変換後の発話リズム情報は、第一実施形態と同様であり、例えば、表２に示した要素からなる21次のベクトルであるが、発話リズム変換モデルの出力ベクトルは、すべての音素（すなわち、発話全体）についての特徴量を連結したベクトル系列となる。

特徴量抽出部１１が生成して音声合成部１３に入力される第２特徴量ベクトルや、音声合成部１３の処理は、第一実施形態と同様である。

＜モデル学習＞
第二実施形態で用いる学習データは、第一実施形態と同様に、例えば、日本語母語話者と英語母語話者が同一の英文（例えば、"I have a pen"など）を英語で発話したパラレルデータである。同じ英文ではあるが、日本語母語話者の英語音声は言いよどみや言い間違いなどが含まれるため、第二実施形態では、非パラレルなデータを扱える注意機構（attention）付系列変換モデル（Seq2Seq）を用いる。注意機構とは、Decoderが推論するためにEncoderのどの時刻に注意するかを示すものである。リズム変換では、Encoderの時刻とDecoderの時刻との対応がほぼ対角になることから、例えば、Guided Attention Loss（参考文献１参照）を利用する。これにより、言いよどみや言い間違いなどをスキップなどすることができる。ネットワーク構造は、音声合成などで用いられるTacotron2（参考文献２参照）を参考にして構築する。なお、入力ベクトルと出力ベクトルの音素数は一致していなくてもよい。

〔参考文献１〕Tachibana, Hideyuki & Uenoyama, Katsuya & Aihara, Shunsuke. (2017). Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.
〔参考文献２〕Shen, J.; Pang, R.; Weiss, R.J.; Schuster, M.; Jaitly, N.; Yang, Z.; Chen, Z.; Zhang, Y.; Wang, Y.; Skerrv-Ryan, R.; et al. Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions. In Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 12-17 May 2018; pp. 4779-4783. doi:10.1109/ICASSP.2018.8461368.

学習のための目的関数は、例えば、|Y^-Y|₂ + |P^-P|₂ + wGALとし、これを最小化するようにネットワークを学習する。ここで、Yは表３に示した特徴量ベクトルであり、Pは音素分類情報であり、^は推定値を表す。GALはGuided Attention Lossを表し、参考文献１の4.1章に記載されたW_ntに相当する。wは重みであり、例えば10000とする。|P^-P|₂の代わりに、Pに対するエントロピーを用いてもよい。

［変形例］
発話リズム変換モデルに入力する第１特徴量ベクトルは、ゲイン（声の大きさ）、音素、調音特徴などを加えてもよい。

第一実施形態では、変換対象の音素p_tと前後の音素p_t-1, p_t+1との３つ組を第１特徴量ベクトルに含めたが、音素p_t-2, p_t-1, p_t, p_t+1, p_t+2の５つ組を第１特徴量ベクトルに含めてもよい。

発話リズム変換装置１の音声合成部１３において、出力ベクトルの基本周波数F0を用いて、入力音声信号のイントネーションを変換した変換後音声信号を合成してもよい。

上述の実施形態では、発話リズム変換装置１とモデル学習装置２とを別々の装置として構成する例を説明したが、発話リズム変換装置１とモデル学習装置２とが備えるべき機能をすべて備えた一台の発話リズム変換装置として構成してもよい。すなわち、モデル記憶部１０、特徴量抽出部１１、変換部１２、音声合成部１３、学習データ記憶部２０、および学習部２１を含む発話リズム変換装置を構成することも可能である。

第一および第二実施形態により変換された時間関数およびF0は、ニューラルネットワークを用いたとしても、人間のそれらと比べて変動が小さく、自然な合成音声とならないことがわかっている。参考文献３の敵対的生成ネットワーク（GAN）を用いることで、この問題を解消することも可能である。

〔参考文献３〕Y. Saito, S. Takamichi and H. Saruwatari, "Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 84-96, Jan. 2018.

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、
上記第一グループの話者が発話した入力音声信号から、声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第１特徴量ベクトルとを抽出する特徴量抽出部と、
上記第１特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、
上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含む発話リズム変換装置。
請求項１に記載の発話リズム変換装置であって、
上記第１特徴量ベクトルは、前後に連続する複数の音素の発話リズムに関する情報をさらに含むものである、
発話リズム変換装置。
第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第１特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、
上記学習データを用いて、上記第一音声信号から抽出した第１特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含むモデル学習装置。
モデル記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルが記憶されており、
特徴量抽出部が、上記第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第１特徴量ベクトルとを抽出し、
変換部が、上記第１特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得、
音声合成部が、上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する発話リズム変換方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
発話リズム変換方法。
学習データ記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第１特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データが記憶されており、
学習部が、上記学習データを用いて、上記第一音声信号から抽出した第１特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習するモデル学習方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
モデル学習方法。
請求項１または２に記載の発話リズム変換装置もしくは請求項３に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。