JP7492159B2

JP7492159B2 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Info

Publication number: JP7492159B2
Application number: JP2022539804A
Authority: JP
Inventors: 卓弘金子; 弘和亀岡; 宏田中; 伸克北条
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2024-05-29
Anticipated expiration: 2040-07-27
Also published as: JPWO2022024183A1; WO2022024183A1; US20230274751A1

Description

特許法第３０条第２項適用・電気通信回線を通じた発表：論文”ＳｔａｒＧＡＮ－ＶＣ２：ＲｅｔｈｉｎｋｉｎｇＣｏｎｄｉｔｉｏｎａｌＭｅｔｈｏｄｓｆｏｒＳｔａｒＧＡＮ－ＢａｓｅｄＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ”のアブストラクトｖｅｒ．１の発表掲載年月日：２０１９年７月２９日、掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０７．１２２７９ｖ１・電気通信回線を通じた発表：論文”ＳｔａｒＧＡＮ－ＶＣ２：ＲｅｔｈｉｎｋｉｎｇＣｏｎｄｉｔｉｏｎａｌＭｅｔｈｏｄｓｆｏｒＳｔａｒＧＡＮ－ＢａｓｅｄＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ“のＰＤＦファイルのｖｅｒ．１の発表掲載年月日：２０１９年７月２９日掲載アドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９０７．１２２７９ｖ１．ｐｄｆ・電気通信回線を通じた発表：論文”ＳｔａｒＧＡＮ－ＶＣ２：ＲｅｔｈｉｎｋｉｎｇＣｏｎｄｉｔｉｏｎａｌＭｅｔｈｏｄｓｆｏｒＳｔａｒＧＡＮ－ＢａｓｅｄＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ”のアブストラクトｖｅｒ．２の発表掲載年月日：２０１９年８月７日掲載アドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０７．１２２７９ｖ２・電気通信回線を通じた発表：論文”ＳｔａｒＧＡＮ－ＶＣ２：ＲｅｔｈｉｎｋｉｎｇＣｏｎｄｉｔｉｏｎａｌＭｅｔｈｏｄｓｆｏｒＳｔａｒＧＡＮ－ＢａｓｅｄＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ“のＰＤＦファイルのｖｅｒ．２の発表掲載年月日：２０１９年８月７日掲載アドレス：ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９０７．１２２７９ｖ２．ｐｄｆ・集会名：ＩＮＴＥＲＳＰＥＥＣＨ２０１９，集会場所：ＭｅｓｓｅｃｏｎｇｒｅｓｓＧｒａｚ（Ｍｅｓｓｅｐｌａｔｚ１，８０１０Ｇｒａｚ，Ａｕｓｔｒｉａ）開催日：２０１９年９月１５日～１９日・電気通信回線を通じた発表：上記ＩＮＴＥＲＳＰＥＥＣＨ２０１９の予稿（ブックレット）の発表掲載年月日：２０１９年９月１５日掲載アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｉｓｃａ－ｓｐｅｅｃｈ．ｏｒｇ／ａｒｃｈｉｖｅ／ｐｄｆｓ／ｉｎｔｅｒｓｐｅｅｃｈ＿２０１９／ｉｎｔｅｒｓｐｅｅｃｈ＿２０１９．ｐｄｆ

特許法第３０条第２項適用・電気通信回線を通じた発表：上記ＩＮＴＥＲＳＰＥＥＣＨ２０１９の予稿（要旨）の発表掲載年月日：２０１９年９月１５日掲載アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｉｓｃａ－ｓｐｅｅｃｈ．ｏｒｇ／ａｒｃｈｉｖｅ／ｉｎｔｅｒｓｐｅｅｃｈ＿２０１９／ｋａｎｅｋｏ１９＿ｉｎｔｅｒｓｐｅｅｃｈ．ｈｔｍｌ・電気通信回線を通じた発表：上記ＩＮＴＥＲＳＰＥＥＣＨ２０１９の予稿（論文）の発表掲載年月日：２０１９年９月１５日掲載アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｉｓｃａ－ｓｐｅｅｃｈ．ｏｒｇ／ａｒｃｈｉｖｅ／ｐｄｆｓ／ｉｎｔｅｒｓｐｅｅｃｈ＿２０１９／ｋａｎｅｋｏ１９＿ｉｎｔｅｒｓｐｅｅｃｈ．ｐｄｆ・電気通信回線を通じた発表：「音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム」に関する技術の、発明者の金子卓弘のホームページにおける発表掲載年月日：２０１９年９月６日掲載アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｋｅｃｌ．ｎｔｔ．ｃｏ．ｊｐ／ｐｅｏｐｌｅ／ｋａｎｅｋｏ．ｔａｋｕｈｉｒｏ／ｐｒｏｊｅｃｔｓ／ｓｔａｒｇａｎ－ｖｃ２／ｒｅｓｏｕｒｃｅｓ／Ｋａｎｅｋｏ＿ＳｔａｒＧＡＮ－ＶＣ２＿Ｉｎｔｅｒｓｐｅｅｃｈ＿２０１９＿ｐｏｓｔｅｒ．ｐｄｆ

本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。

入力された音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。音質変換の技術の１つとして、例えば機械学習を用いることが提案されている。そのような機械学習を用いる技術の１つとして、敵対的生成ネットワーク等の生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用いる技術であって、変換先を示す情報を生成器及び識別器に導入する技術が提案されている（非特許文献１）。また、生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用い、変換結果が対象の属性に属するような制約条件を課すという技術も提案されている（非特許文献１）。

ＨｉｒｏｋａｚｕＫａｍｅｏｋａ，ＴａｋｕｈｉｒｏＫａｎｅｋｏ，ＫｏｕＴａｎａｋａ，ＮｏｂｕｋａｔｓｕＨｏｊｏ，"ＳＴＡＲＧＡＮ－ＶＣ：ＮＯＮ－ＰＡＲＡＬＬＥＬＭＡＮＹ－ＴＯ－ＭＡＮＹＶＯＩＣＥＣＯＮＶＥＲＳＩＯＮＷＩＴＨＳＴＡＲＧＥＮＥＲＡＴＩＶＥＡＤＶＥＲＳＡＲＩＡＬＮＥＴＷＯＲＫＳ"，ａｒＸｉｖ：１８０６．０２１６９ｖ２

しかしながら、上述の従来技術等では、変換元の属性と変換先の属性との候補がどちらも多数ある場合に、適切に音声の変換ができない場合があった。例えば、男性の音声から女性の音声に変換する場合、男性との違いが明確に表れる高音の音域に重心を置いて変換されるため、対象とする女性の通常の音域よりも高音に偏りが出ることがある。また、例えば多対多変換の場合、女性の音声から女性の音声への変換と、女性の音声から男性の音声への変換のように、変換の難しさが異なる変換を同時に学習する必要がある。このような場合に、全ての組合せに対して均等に学習することができなくなることがあった。その結果、学習結果のモデルによる変換の結果の経験分布は、学習データの経験分布と乖離する場合があった。なお経験分布とは、データの特徴量を確率変数とする確率分布を意味する。

上記事情に鑑み、本発明は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することを目的としている。

本発明の一態様は、入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置である。

本発明により、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することが可能となる。

実施形態の音声信号生成システム１００の概要を説明する説明図。実施形態における音声信号変換モデル学習装置１の概要を説明する説明図。実施形態における第１種データ生成処理の流れの一例を説明する説明図。実施形態における第２種データ生成処理の流れの一例を説明する説明図。実施形態における識別部１２０が実行する処理の流れの一例を説明する説明図。実施形態の音声信号変換モデル学習装置１が実行する処理の流れの一例を示す第１の図。実施形態の音声信号変換モデル学習装置１のハードウェア構成の一例を示す図。実施形態における制御部１０の機能構成の一例を示す図。実施形態における音声信号変換装置２のハードウェア構成の一例を示す図。実施形態における制御部２０の機能構成の一例を示す図。実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャート。第２変形例における生成部１１０の機能構成の一例を示す図。第２変形例における生成部１１０が実行する処理の流れの一例を示すフローチャート。目的関数の違いによるＭＣＤの違いと、ＭＳＤの違いとを示す実験の結果の図である。生成部１１０の機能構成の違いによる、ＭＣＤの違いとＭＳＤの違いとを示す実験の結果の図。目的関数と生成部１１０の機能構成との組合せの違いによる、ＭＯＳを示す実験の結果の図。目的関数と生成部１１０の機能構成との組合せの違いによる、Ａｖｅｒａｇｅｐｒｅｆｅｒｅｎｃｅｓｃｏｒｅｓｏｎｓｐｅａｋｅｒｓｉｍｉｌａｒｉｔｙを示す実験の結果の図。

（実施形態）
図１及び図２を用いて、実施形態の音声信号生成システム１００の概要を説明する。図１は、実施形態の音声信号生成システム１００の概要を説明する説明図である。音声信号生成システム１００は、第１の話者（以下「第１話者」という。）が発した音声（以下「第１話者音声」という。）を表す音声信号（以下「変換対象音声信号」という。）を変換済み音声信号に変換する。変換済み音声信号は、内容は変換対象音声信号と同一でありながら第１話者が発した音声が有する音響特徴（ＡｃｏｕｓｔｉｃＦｅａｔｕｒｅ）よりも第２話者が発した音声が有する音響特徴を有する音声を表す音声信号である。第２話者は、変換済み音声信号が表す音声の話者としてユーザ等により音声信号生成システム１００に予め指示された話者である。

音声信号生成システム１００は、音声信号変換モデル学習装置１及び音声信号変換装置２を備える。音声信号変換モデル学習装置１は、変換対象音声信号を変換済み音声信号に変換する機械学習のモデル（以下「音声信号変換モデル」という。）を所定の終了条件が満たされるまで機械学習によって更新する。

以下説明の簡単のため、機械学習を行うことを学習という。また、機械学習のモデル（以下「機械学習モデル」という。）を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。なお、学習用とは、機械学習モデルの更新に用いられることを意味する。以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは条件を表す。

図２は、実施形態における音声信号変換モデル学習装置１の概要を説明する説明図である。音声信号変換モデル学習装置１は、第１学習用データ及び第２学習用データを用いて学習を行うことで音声信号変換モデルを更新する。なお、以下第１学習用データと第２学習用データとを区別しない場合、それらを学習用データという。

第１学習用データは、音声信号、変換元話者情報及び変換先話者情報を有するデータである。変換元話者情報は、第１学習用データが示す音声信号（以下「第１学習用音声信号」という。）が表す音声（以下「第１学習用音声」という。）の話者を示す。変換先話者情報は、第１学習用音声信号の音声信号変換モデルによる変換先の音声信号（以下「第１種生成信号」という。）が表す音声（以下「第１種生成音声」という。）の話者として予め設定された話者を示す。設定は例えばユーザが行う。変換元話者情報が示す話者と変換先話者情報が示す話者とは同一であってもよいし、異なってもよい。以下説明の簡単のため、第１学習用音声信号がＳ_０であり、変換元話者情報が示す話者がＣ_１であり、変換先話者情報が示す話者がＣ_２である第１学習用データを（Ｓ_０、Ｃ_１、Ｃ_２）と表現する。なお、（Ａ１、Ａ２、Ａ３）の記号は、情報Ａ１、情報Ａ２及び情報Ａ３の一組の情報が後述する生成部１１０に入力される情報であることを示す。

第２学習用データは、音声信号、ランダム話者情報及び話者識別情報を含む。話者識別情報は、第２学習用データが示す音声信号（以下「第２学習用音声信号」という。）が表す音声（以下「第２学習用音声」という。）の話者として予め設定された話者を示す。ランダム話者情報は、予め用意された複数の話者のうち後述する決定部１３０によりランダムに決定された話者を示す情報である。ランダムな決定は、乱数発生器等の乱数を発生する技術を用いて決定される。以下説明の簡単のため、第２学習用音声信号がＳ´_０であり、ランダム話者情報が示す話者がＣ´_２であり、話者識別情報が示す話者がＣ´_１である第２学習用データを［Ｓ´_０、Ｃ´_２、Ｃ´_１］と表現する。なお、以下、［Ａ１、Ａ２、Ａ３］の記号は情報Ａ１、情報Ａ２及び情報Ａ３の一組の情報が後述する識別部１２０又は損失取得部１４０へ入力される情報であることを示す。

音声信号変換モデル学習装置１は、生成部１１０、識別部１２０、決定部１３０及び損失取得部１４０を備える。生成部１１０は、第１学習用データを取得し、取得した第１学習用データ（Ｓ_０、Ｃ_１、Ｃ_２）を用いて第１種データ生成処理及び第２種データ生成処理を実行する。

第１種データ生成処理は、取得した第１学習用データに基づき音声信号変換モデルにより第１種生成データを生成する処理である。第１種生成データは、第１種生成信号、変換元話者情報及び変換先話者情報を有するデータである。そのため、第１学習用データの表現に倣って第１種生成データを記号で表現すれば、第１種生成信号がＳ_１である場合に、第１種生成データは［Ｓ_１、Ｃ_１、Ｃ_２］と表現される。

第２種データ生成処理は、第１種データ生成処理によって生成した第１種生成データに基づき第２種生成データを生成する処理である。第２種生成データは、第２種生成信号、変換元話者情報及び変換先話者情報を有する。第２種生成信号は、逆生成用データに対する第１種データ生成処理の実行結果が示す音声信号（以下「逆音声信号」という。）である。

逆生成用データは、第１種生成データの変換元話者情報を変換先話者情報とし、第１種生成データの変換先話者情報を変換元話者情報とし、第１種生成信号を第１学習用音声信号とする第１学習用データである。そのため、第１学習用データの表現に倣って逆生成用データを記号で表現すれば、逆生成用データは（Ｓ_１、Ｃ_２、Ｃ_１）と表現される。

また、逆生成用データが（Ｓ_１、Ｃ_２、Ｃ_１）と表現されるため、第１学習用データの表現に倣って第２種生成データを記号で表現すれば、逆音声信号がＳ_２である場合、第２種生成データは［Ｓ_２、Ｃ_２、Ｃ_１］と表現される。このように、第２種データ生成処理は、逆生成用データに対する第１種データ生成処理である。

生成部１１０は、生成した第１種生成データを識別部１２０に出力する。生成部１１０は、生成した第２種生成データを損失取得部１４０に出力する。

以下、第１種生成データが有する変換元話者情報と変換先話者情報との１対の情報を第１対情報という。以下、第２学習用データが有するランダム話者情報及び話者識別情報との１対の情報を第２対情報という。第１対情報と第２対情報とはどちらも、話者を示す１対の情報である。そこで、以下、第１対情報と第２対情報とを区別しない場合、対情報という。また、第１対情報と第２対情報とはどちらも、対情報を含む第１種生成データ又は第２学習用データが含む音声信号の話者としてユーザ等により予め設定された話者を示す情報を含む。具体的には、第１種生成データが含む変換先話者情報は第１対情報が含む情報であって予め設定された話者を示す情報であり、第２学習用データが含む話者識別情報は第２対情報が含む情報であって予め設定された話者を示す情報である。以下、第１種生成データが含む変換先話者情報と、第２学習用データが含む話者識別情報とを区別しない場合、話者設定情報という。

識別部１２０は、音声推定処理を実行する。音声推定処理は、処理対象の音声信号について、処理対象の音声信号の対情報に基づき対情報が示す情報のうち話者設定情報が示す話者が実際に発した音声を表す音声信号か否かを推定する処理である。

識別部１２０の処理対象の音声信号は、識別部１２０に入力されたデータであって音声信号を含むデータ（以下「識別入力データ」という。）が示す音声信号の表す音声（以下「識別音声」という。）である。識別入力データは、具体的には第１種生成データと第２学習用データとである。識別部１２０の推定結果は、損失取得部１４０に出力される。

決定部１３０は、識別入力データを第１種生成データと第２学習用データとのいずれにするかを所定の規則に従って決定する。所定の規則は識別入力データを決定可能であればどのような規則であってもよく、例えば乱数発生器で発生させた乱数を用い、第１学習用データと第２学習用データとを等確率で識別入力データに決定する規則である。

決定部１３０は、第１種生成データを識別入力データに決定した場合、生成部１１０に入力させる第１学習用データを第１学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。第１学習用データ群は、第１学習用データの集合である。所定の規則は、生成部１１０に入力させる第１学習用データを第１学習用データ群に含まれる複数のデータの中から決定可能であればどのような規則であってもよい。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。

決定部１３０は、第２学習用データを識別入力データに決定した場合、識別部１２０に入力させる第２学習用データを第２学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。第２学習用データ群は、第２学習用データの集合である。第１学習用データ群及び第２学習用データ群の各データは、音声信号変換モデル学習装置１が備える後述する記憶部に記憶済みのデータである。

決定部１３０は、識別入力データを第１種生成データに決定したか第２学習用データに決定したかを示す情報（以下「経路情報」という。）を損失取得部１４０に出力する。

決定部１３０によって第１種生成データが識別入力データに決定された場合には、生成部１１０は、決定部１３０により生成部１１０に入力させる第１学習用データとして決定された第１学習用データを取得する。決定部１３０によって第２学習用データが識別入力データに決定された場合には、識別部１２０は、識別部１２０に入力させる第２学習用データとして決定部１３０により決定された第２学習用データを取得する。

また決定部１３０は、第２学習用データを識別入力データに決定した場合、ランダム話者情報も決定する。

損失取得部１４０は、識別入力データ、第２種生成データ及び経路情報を取得し、以下の式（１）～（４）で表される目的関数Ｌの値（以下「目的損失」という。）を取得する。目的関数Ｌは、以下の式（２）で表される拡張型敵対的損失関数と、以下の式（３）で表される循環型損失関数と、以下の式（４）で表される恒等損失関数とを含む。

Ｄは、識別部１２０が実行する自然音声推定処理による識別入力データから推定結果への写像を表す。Ｇは、生成部１１０が実行する第１種データ生成処理によるデータの変換を表現する写像を表す。

ｘは、識別入力データが示す音声信号を表す。式（２）～（４）におけるＥの下付き文字のうち、（ｘ、ｃ_１）～Ｐ（ｘ、ｃ_１）は、学習データの分布Ｐ（ｘ、ｃ_１）から音響特徴量ｘと音響特徴量ｘに対応する話者情報ｃ_１とをサンプリングすることを示す。なお、話者情報とは、変換元話者情報、変換先話者情報、ランダム話者情報又は話者識別情報を意味する。なお学習データの分布とは、具体的には、第１学習用データ群における第１学習用データの特徴量を確率変数とする確率分布を表す。すなわち、Ｐ（ｘ、ｃ_１）は多次元分布で、横軸は、（ｘ、ｃ_１）の各次元を表す。Ｅは期待値を表す。

式（２）～（４）のにおけるＥの下付き文字のうち、ｃ_２～Ｐ（ｃ_２）は話者情報をランダムにサンプリングすることを示す。

なお式（２）の右辺第１項のｘ、ｃ_１、ｃ_２は順に、第２学習用データのＳ´_０、Ｃ´₁,Ｃ´_２を表す。なお式（２）の右辺第２項のｃ_１、ｃ_２は順に、第１学習用データ及び第１種生成データのＣ_１、Ｃ_２を表し、ｘは、第１学習用データのＳ_０を表し、Ｇ（ｘ、ｃ_１、ｃ_２）は、第１種生成データのＳ_１を表す。なお式（３）の右辺のｃ_１、ｃ_２は順に、第１学習用データ及び逆生成用データ及び第２種生成データのＣ_１、Ｃ_２を表す。なお式（３）の右辺のｘは、第１学習用データのＳ_０を表す。なお式（３）の右辺のＧ（ｘ、ｃ_１、ｃ_２）は、逆生成用データのＳ_１を表し、Ｇ（Ｇ（ｘ、ｃ_１、ｃ_２）ｃ_２、ｃ_１）は、第２種生成データのＳ_２を表す。なお式（４）の右辺のｘは、第１学習用データのＳ_０を表し、ｃ_１は、第１学習用データのＣ_１及びＣ_２を表す。

拡張型敵対的損失関数の値（以下「拡張型敵対的損失」という。）は、識別部１２０が推定した音質類と、識別音声の音質類との違いを示す。なお、識別音声の話者は、第１種生成データが識別入力データであることを経路情報が示す場合には変換先話者情報が示す話者であり、第２学習用データが識別入力データであることを経路情報が示す場合には話者識別情報が示す話者である。なお、識別音声が第２学習用音声である場合には識別音声の音質類は自然音声集合であり、識別音声が第１種生成音声である場合には識別音声の音質類は合成音声集合である。

循環型損失関数の値（以下「循環型損失」という。）は、第２種生成データが示す音声信号（すなわち第２種生成信号）と第１学習用データが示す音声信号（すなわち第１学習用音声信号）との違いを示す。

恒等損失関数は、生成部１１０へ入力される第１学習用データの変換元話者情報が示す話者と第１学習用データの変換先話者情報が示す話者とが同一である場合に、第１学習用音声と第１種生成音声とが同一になるよう制約をかけるために導入される損失関数である。

損失取得部１４０が取得した目的損失は、生成部１１０及び識別部１２０に出力される。生成部１１０及び識別部１２０は、目的損失に基づき学習する。より具体的には、例えば生成部１１０は目的損失を小さくするように学習し、識別部１２０は拡張型敵対的損失関数を大きくするように学習する。生成部１１０及び識別部１２０は、目的損失に基づいて学習可能であればどのようなものであってもよく、生成部１１０及び識別部１２０は、例えばニューラルネットワークである。

図３は、実施形態における第１種データ生成処理の流れの一例を説明する説明図である。
生成部１１０が第１学習用データを取得する（ステップＳ１０１）。次に生成部１１０は第１学習用データに基づき第１種生成データを生成する（ステップＳ１０２）。

図４は、実施形態における第２種データ生成処理の流れの一例を説明する説明図である。
生成部１１０が第１種生成データを取得する（ステップＳ２０１）。ステップＳ２０１の処理はステップＳ１０２の処理であってもよいし、ステップＳ１０２の処理で生成された第１種生成データを生成部１１０が改めて取得しなおす処理であってもよい。次に生成部１１０は、第１種生成データに基づき、逆生成用データに対する第１種データ生成処理を実行することで第２種生成データを生成する（ステップＳ２０２）。

図５は、実施形態における識別部１２０が実行する処理の流れの一例を説明する説明図である。
識別部１２０は、識別入力データを取得する（ステップＳ３０１）。識別部１２０は、音声推定処理を実行する（ステップＳ３０２）。

図６は、実施形態の音声信号変換モデル学習装置１が実行する処理の流れの一例を示す第１の図である。図３～図５に記載の処理と同様の処理については図３～図５と同じ符号を用いることで説明を省略する。

決定部１３０が識別入力データを第１種生成データに決定する（ステップＳ４０１）。次にステップＳ１０１の処理が実行される。次にステップＳ１０２の処理が実行される。次にステップＳ２０２の処理が実行される。次にステップＳ３０１の処理が実行される。次にステップＳ３０２の処理が実行される。次に、損失取得部１４０が、ステップＳ１０１で取得された第１学習用データと、第２種生成データと、ステップＳ３０２の推定結果とに基づき、目的損失を取得する（ステップＳ４０２）。目的損失に基づき、生成部１１０及び識別部１２０が学習する（ステップＳ４０３）。

図７は、実施形態の音声信号変換モデル学習装置１のハードウェア構成の一例を示す図である。

音声信号変換モデル学習装置１は、バスで接続されたＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサ９１とメモリ９２とを備える制御部１０を備え、プログラムを実行する。音声信号変換モデル学習装置１は、プログラムの実行によって制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。より具体的には、プロセッサ９１が記憶部１３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置１は、制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。

制御部１０は、音声信号変換モデル学習装置１が備える各種機能部の動作を制御する。制御部１０は、例えば第１種データ生成処理を実行する。制御部１０は、例えば第２種データ生成処理を実行する。制御部１０は、例えば自然音声推定処理を実行する。制御部１０は、例えば話者推定処理を実行する。

入力部１１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部１１は、自装置に対する各種情報の入力を受け付ける。入力部１１は、例えば学習の開始を指示する入力を受け付ける。入力部１１は、例えば第１学習用データ群に追加するデータの入力を受け付ける。入力部１１は、例えば第２学習用データ群に追加するデータの入力を受け付ける。

インタフェース部１２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して外部装置と通信する。外部装置は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の記憶装置であってもよい。外部装置が例えば第１学習用データを出力する場合、インタフェース部１２は外部装置との通信によって外部装置が出力する第１学習用データを取得する。外部装置が例えば第２学習用データを出力する場合、インタフェース部１２は外部装置との通信によって外部装置が出力する第２学習用データを取得する。

インタフェース部１２は、自装置を音声信号変換装置２に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して音声信号変換装置２と通信する。インタフェース部１２は、音声信号変換装置２との通信により、音声信号変換装置２に学習済みの音声信号変換モデルを出力する。学習済みとは、所定の終了条件が満たされたことを意味する。

記憶部１３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１３は音声信号変換モデル学習装置１に関する各種情報を記憶する。記憶部１３は、例えば音声信号変換モデルを記憶する。記憶部１３は、例えば予め第１学習用データ群を記憶する。記憶部１３は、例えば予め第２学習用データ群を記憶する。記憶部１３は、例えば入力部１１又はインタフェース部１２を介して入力された第１学習用データ及び第２学習用データを記憶する。記憶部１３は、例えば識別部１２０の推定結果を記憶する。

出力部１４は、各種情報を出力する。出力部１４は、例えばＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイや液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等の表示装置を含んで構成される。出力部１４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部１４は、例えば入力部１１に入力された情報を出力する。

図８は、実施形態における制御部１０の機能構成の一例を示す図である。
制御部１０は、被管理部１０１及び管理部１０２を備える。被管理部１０１は、生成部１１０、識別部１２０、決定部１３０及び損失取得部１４０を備える。被管理部１０１は、第１学習用データ及び第２学習用データを用いて終了条件が満たされるまで音声信号変換モデルを更新する。

管理部１０２は、被管理部１０１の動作を制御する。管理部１０２は、例えば被管理部１０１が備える生成部１１０、識別部１２０、決定部１３０及び損失取得部１４０が実行する各処理のタイミングを制御する。

管理部１０２は、例えば入力部１１、インタフェース部１２、記憶部１３及び出力部１４の動作を制御する。管理部１０２は、例えば記憶部１３から各種情報を読み出し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し記憶部１３に記録する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し被管理部１０１に出力する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し記憶部１３に記録する。管理部１０２は、例えば入力部１１に入力された情報を出力部１４に出力させる。

管理部１０２は、例えば生成部１１０の生成した第１種生成データを記憶部１３に記録する。管理部１０２は、例えば識別部１２０の結果を記憶部１３に記録する。管理部１０２は、例えば決定部１３０の決定結果を記憶部１３に記録する。管理部１０２は、例えば損失取得部１４０の取得した損失を記憶部１３に記録する。

図９は、実施形態における音声信号変換装置２のハードウェア構成の一例を示す図である。

音声信号変換装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２０を備え、プログラムを実行する。音声信号変換装置２は、プログラムの実行によって制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。より具体的には、プロセッサ９３が記憶部２３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、音声信号変換装置２は、制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。

制御部２０は、音声信号変換装置２が備える各種機能部の動作を制御する。制御部２０は、例えば音声信号変換モデル学習装置１が得た学習済みの音声信号変換モデルを用いて、変換対象音声信号を変換済み音声信号に変換する。

入力部２１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２１は、自装置に対する各種情報の入力を受け付ける。入力部２１は、例えば変換対象音声信号を変換済み音声信号に変換する処理の開始を指示する入力を受け付ける。入力部２１は、例えば変換対象の変換対象音声信号の入力を受け付ける。

インタフェース部２２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換対象音声信号の出力先である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置に変換対象音声信号を出力する。変換対象音声信号の出力際の外部装置は、例えばスピーカー等の音声出力装置である。

外部装置は、例えば学習済みの音声信号変換モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えば学習済みの音声信号変換モデルを記憶しており学習済みの音声信号変換モデルを出力する場合、インタフェース部２２は外部装置との通信によって学習済みの音声信号変換モデルを取得する。

外部装置は、例えば変換対象音声信号の出力元である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置から変換対象音声信号を取得する。

インタフェース部２２は、自装置を音声信号変換モデル学習装置１に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して音声信号変換モデル学習装置１と通信する。インタフェース部２２は、音声信号変換モデル学習装置１との通信により、音声信号変換モデル学習装置１から学習済みの音声信号変換モデルを取得する。

記憶部２３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２３は音声信号変換装置２に関する各種情報を記憶する。記憶部２３は、例えばインタフェース部２２を介して取得した学習済みの音声信号変換モデルを記憶する。

出力部２４は、各種情報を出力する。出力部２４は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２４は、例えば入力部２１に入力された情報を出力する。

図１０は、実施形態における制御部２０の機能構成の一例を示す図である。制御部２０は、変換対象取得部２０１、変換部２０２及び音声信号出力制御部２０３を備える。

変換対象取得部２０１は、変換対象となる変換対象音声信号を取得する。変換対象取得部２０１は、例えば入力部２１に入力された変換対象音声信号を取得する。変換対象取得部２０１は、例えばインタフェース部２２に入力された変換対象音声信号を取得する。

変換部２０２は、変換対象取得部２０１が取得した変換対象を、学習済みの音声信号変換モデルを用いて変換済み音声信号に変換する。変換済み音声信号は音声信号出力制御部２０３に出力される。

音声信号出力制御部２０３は、インタフェース部２２の動作を制御する。音声信号出力制御部２０３は、インタフェース部２２の動作を制御することでインタフェース部２２に変換済み音声信号を出力させる。

図１１は、実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャートである。制御部２０が、インタフェース部２２に入力された変換対象音声信号を取得する（ステップＳ５０１）。次に制御部２０が、記憶部２３に記憶された学習済みの音声信号変換モデルを用いて変換対象音声信号を変換済み音声信号に変換する（ステップＳ５０２）。次に制御部２０がインタフェース部２２の動作を制御して変換済み音声信号を出力先に出力させる（ステップＳ５０３）。出力先は、例えばスピーカー等の外部装置である。

このように構成された実施形態の音声信号生成システム１００は、変換元話者情報、変換先話者情報及び話者識別情報を用いて学習し、学習済みの音声信号変換モデルを得る。このため音声信号生成システム１００は、変換対象の音声信号が表す音声を、変換先話者情報だけに基づいて変換された音声信号よりも変換先話者情報が示す話者の音声に近い音声を表す音声信号に変換することができる。そのため、音声信号生成システム１００は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とすることができる。

（第１変形例）
目的関数は拡張型敵対的損失関数を含んでいればよく、必ずしも循環型損失関数及び恒等損失関数まで含む必要はない。目的関数は、例えば拡張型敵対的損失関数であってもよいし、拡張型敵対的損失関数及び循環型損失関数を含み恒等損失関数を含まないものであってもよいし、拡張型敵対的損失関数及び恒等損失関数を含み循環型損失関数を含まないものであってもよい。

なお、拡張型敵対的損失関数の説明では、尺度としてクロスエントロピーを用いるものを説明したが、Ｌ２距離やワッサースタイン計量などの任意の尺度に基づくものを用いたものであってもよい。循環型損失関数の説明では、Ｌ１距離を用いるものを説明したが、Ｌ２距離などの任意の尺度に基づくものを用いたものであってもよい。恒等損失関数の説明では、Ｌ１距離を用いるものを説明したがＬ２距離などの任意の尺度に基づくものを用いたものであってもよい。

（第２変形例）
なお生成部１１０は、第１種データ生成処理において必ずしも変換元話者情報を用いなくてもよい。このような生成部１１０は、例えば以下の図１２に示す構成である。

図１２は、第２変形例における生成部１１０の機能構成の一例を示す図である。生成部１１０は、エンコーダ１１１及びデコーダ１１２を備える。

エンコーダ１１１は、畳み込み層を有するニューラルネットワークである。エンコーダ１１１は、第１学習用データをエンコードする。エンコーダ１１１は、データ取得部１１３、第１特性抽出部１１４、第２特性抽出部１１５、抽出結果変換部１１６及びエンコード結果出力部１１７を備える。データ取得部１１３は、エンコーダ１１１に入力された第１学習用データを取得する。データ取得部１１３は、具体的にはエンコーダ１１１を構成するニューラルネットワークの入力層である。

第１特性抽出部１１４は、第１特性抽出処理を実行する。第１特性抽出処理は、第１学習用データの第１学習用音声信号の特性を示す情報（以下「特性情報」という。）を取得する処理である。第１特性抽出処理は、例えば短時間フーリエ変換を時間軸方向の予め定められた区間ごとに順次実行する処理である。第１特性抽出処理は、メルケプストラムを抽出する処理であってもよいし、ニューラルネットワークによる変換処理であってもよい。なお、第１特性抽出部１１４は、具体的には第１特性抽出処理を実行する回路である。そのため、第１特性抽出部１１４は、第１特性抽出処理がニューラルネットワークによる変換処理である場合にはエンコーダ１１１を構成するニューラルネットワークの中間層の１つである。

第２特性抽出部１１５は、第２特性抽出処理を実行する。第２特性抽出処理は、特性情報に対して機械学習における畳み込みの処理を実行する処理である。機械学習における畳み込みの処理は処理対象から、処理対象が有する特性を抽出する処理である。そのため、第２特性抽出処理は、第１学習用音声信号が有する特性のうち第１特性抽出処理の処理対象の特性情報が示す特性とは異なる別の特性を示す情報を抽出する処理である。すなわち、第２特性抽出処理もまた第１特性抽出処理と同様に特性情報を取得する処理である。第２特性抽出部１１５は、具体的にはエンコーダ１１１を構成するニューラルネットワークの畳み込み層である。

抽出結果変換部１１６は、抽出結果変換処理を実行する。抽出結果変換処理は、変換先話者情報に基づき抽出結果変換写像により第２特性抽出処理の実行結果を変換する。抽出結果変換写像は、識別部１２０の推定結果に応じて更新される写像であり、変換先話者情報に応じた写像であり、変換先話者情報と第２特性抽出処理の実行結果（すなわち特性情報）とのうちの第２特性抽出処理の実行結果のみを変換する写像である。抽出結果変換部１１６は、具体的にはエンコーダ１１１を構成するニューラルネットワークの中間層の１つである。

抽出結果変換写像は、第２特性抽出処理の実行結果に対して、少なくとも変換先話者情報に応じたアフィン変換を実行する。なお、抽出結果変換写像は、変換先話者情報だけでなく変換元話者情報にも応じたアフィン変換であってもよい。第２特性抽出処理の実行結果に対するアフィン変換の一例は以下の式（５）で表される関数ＣＩＮである。

式（５）においてテンソルｆは特性情報である。より具体的には、テンソルｆは、各要素が第１学習用データに関する特徴量を表す特徴量テンソルである。テンソルｆは、少なくとも３階のテンソルである。μ（ｆ）は、テンソルｆの所定の一方向に直交する各２階のテンソルについて、各２階のテンソルにおける要素の値の平均値を表す。そのため、μ（ｆ）は、所定の一方向の要素数がＣであれば、Ｃ次元のベクトルである。所定の一方向は、例えばＣＮＮで抽出される高さ×幅×チャネルの３階の特徴量テンソルのチャネルを示す方向である。σ（ｆ）は、μ（ｆ）を取得した各２階のテンソルにおける、要素の値の標準偏差を表す。そのため、σ（ｆ）は、μ（ｆ）と同じ要素数のベクトルである。係数γ_ｃ２と係数β_ｃ２とは目的関数Ｌを用いた学習により変換先話者情報が示す話者ごとに更新されるパラメータである。

第１特性抽出、第２特性抽出及び抽出結果変換処理の一連の処理がエンコーダ１１１による第１学習用データのエンコードである。

エンコード結果出力部１１７は、エンコードされた第１学習用データをデコーダ１１２に出力する。エンコード結果出力部１１７は、具体的にはエンコーダ１１１を構成するニューラルネットワークの出力層である。

デコーダ１１２は、エンコーダ１１１の出力結果に基づき、第１種生成データを生成する。エンコーダ１１１及びデコーダ１１２による処理であって第１学習用データに基づき第１種生成データを生成する処理は第１種データ生成処理の一例である。

図１３は、第２変形例における生成部１１０が実行する処理の流れの一例を示すフローチャートである。
データ取得部１１３が第１学習用データを取得する（ステップＳ６０１）。次に第１特性抽出部１１４が第１特性抽出処理を実行する（ステップＳ６０２）。次に第２特性抽出部１１５が、ステップＳ６０２における第１特性抽出処理によって得られた特性情報に対して第２特性抽出処理を実行する（ステップＳ６０３）。次に抽出結果変換部１１６がステップＳ６０３の第２特性抽出処理によって得られた特性情報に対して抽出結果変換処理を実行する（ステップＳ６０４）。次にエンコード結果出力部１１７が、ステップＳ６０４の処理によって得られた情報をデコーダに出力する（ステップＳ６０５）。次にデコーダ１１２がステップＳ６０５で出力された情報をデコードする（ステップＳ６０６）。ステップＳ６０６のデコードによって得られた情報が、第１種生成データである。

なお、ステップＳ６０３及びステップＳ６０４の処理は、第１特性抽出処理の実行後であってステップＳ６０５の処理の実行前に、複数回繰り返し実行されてもよい。この場合、２回目以降の第２特性抽出処理の実行対象は、直前の第２特性抽出処理によって抽出された特性情報が抽出結果変換処理によって得られた情報である。

図１３が示すように、第２変形例における生成部１１０によるエンコードの処理では、特性情報に対する第２特性抽出処理が実行される。そして、ステップＳ６０３及びステップＳ６０４の処理が複数回実行される場合であっても、第２変形例における生成部１１０によるエンコードの処理では、少なくとも１回は特性情報に対する第２特性抽出処理が実行される。

このように構成された第２変形例の音声信号変換モデル学習装置１は、畳み込み層による畳み込みの処理の実行時には、変換先話者情報に依存しない情報に対する畳み込みの処理が実行され、畳み込みの処理の実行結果が変換先話者情報に応じて変換される。このため、第２変形例の音声信号変換モデル学習装置１は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、変換先話者情報を表現する空間と特性情報を表現する空間との直交性の高さを維持したまま情報を処理することができる。なお直交性とは、音声信号を表す表現空間と変換先を示す情報を表す表現空間とが直交である度合を意味する。

直交性が低くなるほど１つの情報に含まれる変換先話者情報と特性情報との境界が不明確になりエンコード又はデコードの際に計算量が増大してしまう。そのため、直交性を維持することができる第２変形例の音声信号変換モデル学習装置１は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、計算量を減らすことができる。

また、このように構成された第２変形例の音声信号変換モデル学習装置１では以下の理由から、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。理由は以下の通りである。多対多音声変換を単一のモデルで実現するためには、話者ごとに異なる特性情報の変換を、話者情報に応じて選択的に実行できることが重要である。しかし、従来技術である、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術では、話者情報は畳み込みされる情報の一部として使われるため、話者情報に応じた特性情報の選択を直接的に実行することはない。

これに対し、第２変形例の音声信号変換モデル学習装置１では、式（５）で示したアフィン変換のように、話者ごとに特性情報の強弱を、学習可能なパラメータを用いて直接表現可能である。そのため、第２変形例の音声信号変換モデル学習装置１は、従来技術と比べて、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。なお学習可能なパラメータとは、式（５）の場合、係数γ_ｃ２と係数β_ｃ２を表す。すなわち、このように構成された第２変形例の音声信号変換モデル学習装置１では、音声変換を表す数理モデルに用いられるパラメータの数の増大を抑制する技術を提供することができる。

なお、第２変形例の生成部１１０は、敵対的生成ネットワーク（ＧＡＮ）等の生成器及び識別器を備えそれらが学習により更新される装置であって生成器は変換先話者情報に基づき値を出力する装置（以下「汎生成ネットワーク」という。）であればどのような装置に適用されてもよい。このような場合、第２変形例の生成部１１０は汎生成ネットワークが有する生成部として動作する。例えば非特許文献１のＳｔａｒＧＡＮは汎生成ネットワークの一例であり、非特許文献１のＳｔａｒＧＡＮでは、非特許文献１のＳｔａｒＧＡＮが有するＧｅｎｅｒａｔｏｒに代えて、第２変形例の生成部１１０が用いられてもよい。この場合、非特許文献１におけるａｔｔｒｉｂｕｔｅは、音声信号生成システム１００における変換先話者情報である。

（第３変形例）
なお、ここまで音声信号の変換に関して話者を変換することについて音声信号生成システム１００の説明をしてきたが、音声信号生成システム１００の音声の変換は音声信号の属性を変換可能であれば必ずしも話者の変換でなくてもよい。このような場合、音声信号生成システム１００では変換元話者情報に代えて変換元属性情報が用いられ、変換先話者情報に代えて変換先属性情報が用いられ、話者識別情報に代えて属性識別情報が用いられる。変換元属性情報は、第１学習用音声の属する属性を示す。変換先話者情報は、予め設定された属性であって第１種生成音声の属する属性を示す。属性識別情報は、予め設定された属性であって第２学習用音声が属する属性を示す。ランダム話者情報は、予め用意された複数の属性のうち決定部１３０によりランダムに決定された属性を示す情報である。また、このような場合、音声推定処理は、処理対象の属する属性の音声信号であって実際に発せられた音声を表す音声信号か否かを推定する処理である。

話者も属性の１つであるがその他の属性として、属性は例えば性別であってもよい。このような場合、音声信号生成システム１００は例えば男性の音声の音声信号を女性の音声の音声信号に変換する。また、属性は例えば感情であってもよい。このような場合、音声信号生成システム１００は例えば嬉しい感情を表す声を悲しい感情を表す声に変換する。また、属性は例えば発音のタイプあってもよい。このような場合、音声信号生成システム１００は例えば非ネイティブの英語をネイティブの英語に変換する。属性は、音声の質に関する属性であってもよい。音声の質に関する属性は、例えば合成音声か自然音声かのいずれか一方を示す属性である。自然音声は実際に人が発した音であり、合成音声はコンピュータ等の装置によって生成された音声である。このような場合、音声信号生成システム１００は、例えば合成音声を自然音声に変換する。

（実施形態、第１～第３変形例を組み合わせた音声信号生成システム１００を用いた実験の実験結果）
図１４は、音声信号変換モデルの学習に用いる目的関数の違いによる、メルケプストラム歪み（Ｍｅｌ－ｃｅｐｓｔｒａｌｄｉｓｔｏｒｔｉｏｎ：ＭＣＤ）の違いと、変調スペクトル距離（ｍｏｄｕｌａｔｉｏｎｓｐｅｃｔｒａｄｉｓｔａｎｃｅ：ＭＳＤ）の違いとを示す実験（以下「第１実験」という。）の結果の図である。

第１実験においては、目的関数Ｌとして話者識別損失関数Ｌ_ｃｌｓと敵対的損失関数Ｌ_ａｄｖと循環型損失関数Ｌ´_ｃｙｃと恒等損失関数Ｌ´_ｉｄとを用いて音声信号変換モデルを学習させる実験（以下「第１－１実験」という。）が行われた。第１実験においては、目的関数Ｌとして敵対的損失関数Ｌ_{ｔ－ａｄｖ}と循環型損失関数Ｌ´_ｃｙｃと恒等損失関数Ｌ´_ｉｄとを用いて音声信号変換モデルを学習させること（以下「第１－２実験」という。）が行われた。第１実験においては、目的関数Ｌとして話者識別損失関数Ｌ_ｃｌｓと敵対的損失関数Ｌ_{ｔ－ａｄｖ}と循環型損失関数Ｌ´_ｃｙｃと恒等損失関数Ｌ´_ｉｄとを用いて音声信号変換モデルを学習させること（以下「第１－３実験」という。）が行われた。第１実験においては、目的関数Ｌとして式（１）で表される関数を用いて音声信号変換モデルを学習させる実験（以下「第１－４実験」という。）が行われた。第１実験において、λ_ｃｙｃは１０であり、λ_ｉｄは１であった。

話者識別損失関数Ｌ_ｃｌｓは以下の式（６）及び式（７）の和で表され、敵対的損失関数Ｌ_ａｄｖは以下の式（８）で表され、敵対的損失関数Ｌ_{ｔ－ａｄｖ}は以下の式（９）で表され、循環型損失関数Ｌ´_ｃｙｃは式（１０）で表され、恒等損失関数Ｌ´_ｉｄは式（１１）で表される。

なお式（６）の右辺のｘ、ｃ_１は順に、第２学習用データのＳ´_０、Ｃ´_１を表す。なお、式（７）の右辺のｘ、ｃ_２は順に、第１学習用データのＳ_０、Ｃ_２を表す。なお式（８）の右辺第１項のｘは、第２学習用データのＳ´_０を表す。なお式（８）の右辺第２項のｘ、ｃ_２は順に、第１学習用データのＳ_０、Ｃ_２を表す。なお式（９）の右辺第１項のｘ、ｃ_１は順に、第２学習用データのＳ´_０、Ｃ´_１を表す。なお式（９）の右辺第２項のｘ、ｃ_２は順に、第１学習用データのＳ_０、Ｃ_２を表す。なお式（１０）の右辺のｘ、ｃ_１、ｃ_２は順に、第１学習用データのＳ_０、Ｃ_１、Ｃ_２を表す。なお式（１１）の右辺のｘ、ｃ_１は順に、第１学習用データのＳ_０、Ｃ_１を表す。

図１４は、第１－４実験の実験結果が最も小さいＭＣＤと最も小さいＭＳＤとであることを示す。これは式（１）で表される目的関数Ｌを用いた学習により得られる学習済みの音声信号変換モデルは、図１４の他の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。なお、図１４における“Ｌ_ｃｌｓ”は第１－１実験を表し、“Ｌ_{ｔ－ａｄｖ}”は第１－２実験を表し、“Ｌ_{ｔ－ａｄｖ}＋Ｌ_ｃｌｓ（ＳｔａｒＧＡＮ－ＶＣ）”は第１－３実験を表し、“Ｌ_{ｓｔ－ａｄｖ}（ＳｔａｒＧＡＮ－ＶＣ２）”は第１－４実験を表す。

図１５は、音声信号変換モデルの学習に用いる生成部１１０の機能構成の違いによる、ＭＣＤの違いとＭＳＤの違いとを示す実験（以下「第２実験」という。）の結果の図である。

図１５において、“Ｃｈａｎｎｅｌ－ｗｉｓｅ（ＳｔａｒＧＡＮ－ＶＣ）”は、エンコーダ１１１による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術である。すなわち、“Ｃｈａｎｎｅｌ－ｗｉｓｅ（ＳｔａｒＧＡＮ－ＶＣ）”の行の結果は、エンコーダ１１１による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う学習により得られた学習済み音声信号変換モデルのＭＳＤとＭＣＤとを示す。

図１５において”Ｍｏｄｕｌａｔｉｏｎ－ｂａｓｅｄ（ＳｔａｒＧＡＮ－ＶＣ２）”は、図１３に記載の処理により第１学習用データをエンコードする技術である。すなわち、”Ｍｏｄｕｌａｔｉｏｎ－ｂａｓｅｄ（ＳｔａｒＧＡＮ－ＶＣ２）”の行の結果は、第２変形例の生成部１１０を用いた学習により得られた学習済み音声信号変換モデルのＭＳＤとＭＣＤとを示す。

図１５は、ＭＣＤの値は、”Ｃｈａｎｎｅｌ－ｗｉｓｅ（ＳｔａｒＧＡＮ－ＶＣ）”と”Ｍｏｄｕｌａｔｉｏｎ－ｂａｓｅｄ（ＳｔａｒＧＡＮ－ＶＣ２）”とで略同一であることを示す。図１５は、”Ｍｏｄｕｌａｔｉｏｎ－ｂａｓｅｄ（ＳｔａｒＧＡＮ－ＶＣ２）”のＭＳＤの値の方が”Ｃｈａｎｎｅｌ－ｗｉｓｅ（ＳｔａｒＧＡＮ－ＶＣ）”のＭＳＤの値より小さいことを示す。このことから、図１５は、”Ｍｏｄｕｌａｔｉｏｎ－ｂａｓｅｄ（ＳｔａｒＧＡＮ－ＶＣ２）”の学習により得られる学習済みの音声信号変換モデルの方が、“Ｃｈａｎｎｅｌ－ｗｉｓｅ（ＳｔａｒＧＡＮ－ＶＣ）”の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。

図１６は、音声信号変換モデルの学習に用いる目的関数と生成部１１０の機能構成との組合せの違いによる、ＭＯＳ（ｍｅａｎｏｐｉｎｉｏｎｓｃｏｒｅ）を示す実験（以下「第３実験」という。）の結果の図である。なお、ＭＯＳは最高評価が５であり最低評価が１のＭＯＳであった。

図１６の”ＳｔａｒＧＡＮ－ＶＣ２”は、目的関数が式（１）で表され生成部１１０が図１３に記載の処理により第１学習用データをエンコードする機能部である音声信号変換モデル学習装置１が得た学習済みの音声信号変換モデルを表す。

図１６の”ＳｔａｒＧＡＮ－ＶＣ”は、比較対象装置が得た学習済みの音声信号変換モデルを表す。比較対象装置は、目的関数が式（６）、式（７）、式（８）及び式（１０）及び式（１１）の線形和で表される点と、生成部１１０がエンコーダ１１１による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う点とで音声信号変換モデル学習装置１と異なる。

図１６において”Ｉｎｔｅｒｇｅｎｄｅｒ”は、学習済み音声信号変換モデルによる異性間の音声信号の変換に対するＭＯＳを示す。図１６において”Ｉｎｔｒａｇｅｎｄｅｒ”は、学習済み音声信号変換モデルによる同性間の音声信号の変換に対するＭＯＳを示す。図１６において“Ａｌｌ”は、”Ｉｎｔｅｒｇｅｎｄｅｒ”の結果と”Ｉｎｔｒａｇｅｎｄｅｒ”の結果との合計である。

図１６は、”Ｉｎｔｅｒｇｅｎｄｅｒ”、 ”Ｉｎｔｒａｇｅｎｄｅｒ”及び“Ａｌｌ”の全てにおいて、”ＳｔａｒＧＡＮ－ＶＣ２”により得られた音声信号の方が”ＳｔａｒＧＡＮ－ＶＣ”により得られた音声信号よりも高いＭＯＳであることを示す。

図１７は、音声信号変換モデルの学習に用いる目的関数と生成部１１０の機能構成との組合せの違いによる、Ａｖｅｒａｇｅｐｒｅｆｅｒｅｎｃｅｓｃｏｒｅｓｏｎｓｐｅａｋｅｒｓｉｍｉｌａｒｉｔｙを示す実験（以下「第４実験」という。）の結果の図である。Ａｖｅｒａｇｅｐｒｅｆｅｒｅｎｃｅｓｃｏｒｅｓｏｎｓｐｅａｋｅｒｓｉｍｉｌａｒｉｔｙは、学習済みの音声信号変換モデルによって生成された音声が、音声信号の変換先の話者の実際の音声のどちらに似ているか、又は、どちらとも言えないかを被験者に判断してもらう実験である。

図１７において”Ｆａｉｒ”は、どちらとも言えないことを示す。図１７は、”ＳｔａｒＧＡＮ－ＶＣ２”により得られた音声信号の音声の方が、”Ｉｎｔｅｒｇｅｎｄｅｒ”、 ”Ｉｎｔｒａｇｅｎｄｅｒ”及び“Ａｌｌ”の全てにおいて、変換先の話者に近い音声の音声信号を生成することを示す。

（第４変形例）
なお、識別部１２０は、更に話者識別処理を実行してもよい。話者識別処理は、識別部１２０に第２学習用データが入力された際に実行される。話者識別処理は、入力された第２学習用データの第２学習用音声信号Ｓ´_０について話者を推定する。話者識別処理は具体的には話者識別処理を実行するニューラルネットワークにより実行される。話者識別処理を実行するニューラルネットワークは、損失取得部１４０が取得した式（６）又は式（７）の値に基づき更新される。より具体的には、話者識別処理を実行するニューラルネットワークは、第２学習用データが識別部１２０に入力された場合には、損失取得部１４０が取得する式（６）の値に基づき式（６）の値を小さくするように更新される。そして、話者識別処理を実行するニューラルネットワークは、第１学習用データが生成部１１０に入力された場合には、損失取得部１４０が取得する式（７）の値に基づき式（７）の値を小さくするように更新される。また、第１学習用データが生成部１１０に入力された場合には、生成部１１０は、損失取得部１４０が取得する式（７）の値に基づき式（７）の値を小さくするように学習する。なお式（６）におけるＣで表される関数は、話者識別処理を表す。また、話者識別処理を実行する場合、識別部１２０は変換元話者情報又は変換先話者情報のいずれか又は両方を用いてもよいし用いなくてもよい。変換元話者情報又は変換先話者情報のいずれか又は両方を用いない場合、識別部１２０は、変換元話者情報又は変換先話者情報のいずれか又は両方を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。

（第５変形例）
なお、生成部１１０については必ずしも変換元話者情報も用いなくてもいい旨を第２変形例で説明した。生成部１１０が変換元話者情報を用いない場合、識別部１２０は変換元話者情報を用いてもよいし用いなくてもよい。変換元話者情報を用いない場合、識別部１２０は、変換元話者情報を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。

（第６変形例）
なお、第２特性抽出処理で実行される処理は必ずしも畳み込みの処理である必要は無い。第２特性抽出処理で実行される処理は、ニューラルネットワークによる処理であればどのような処理であってもよく、例えば、ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋであってもよいし、ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＮｅｕｒａｌＮｅｔｗｏｒｋであってもよい。なお、第２特性抽出処理は特性処理の一例である。

（第７変形例）
第１種データ生成処理は、生成処理の一例である。第１学習用データは、入力音声信号の一例である。第１種生成データは変換先音声信号の一例である。自然音声推定処理は音声推定処理の一例である。話者推定処理は属性推定処理の一例である。第１種生成音声は変換先音声の一例である。なお、第１学習用音声は入力音声の一例である。

音声信号変換モデル学習装置１は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

音声信号変換装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置２が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

なお、音声信号生成システム１００の各機能の全て又は一部は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…音声信号生成システム、１…音声信号変換モデル学習装置、２…音声信号変換装置、１０…制御部、１１…入力部、１２…インタフェース部、１３…記憶部、１４…出力部、１０１…被管理部、１０２…管理部、１１０…生成部、１２０…識別部、１３０…決定部、１４０…損失取得部、２０…制御部、２１…入力部、２２…インタフェース部、２３…記憶部、２４…出力部、２０１…変換対象取得部、２０２…変換部、２０３…音声信号出力制御部、９１…プロセッサ、９２…メモリ、９３…プロセッサ、９４…メモリ

Claims

入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、
を備え、
前記変換先音声信号は前記識別部に入力され、
前記処理対象は前記識別部に入力される音声信号であり、
前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、
音声信号変換モデル学習装置。
前記生成部及び前記識別部は、前記音声推定処理の推定結果と、前記処理対象について実際に人が発した音声か否かを示す情報との違いを示す値を含む損失に基づき学習する、
請求項１に記載の音声信号変換モデル学習装置。
前記損失は、前記入力音声信号と、前記変換先音声信号を入力音声信号とし前記変換先属性情報を変換元属性情報とし前記変換元属性情報を変換先属性情報とするデータである逆生成用データに対して生成処理を実行した結果と、の違いを示す値をさらに含む、
請求項２に記載の音声信号変換モデル学習装置。
前記損失は、前記変換元属性情報が示す属性と前記変換先属性情報が示す属性とが同一である場合に、前記入力音声と前記変換先音声信号が表す音声とが同一になるよう制約をかける関数の値をさらに含む、
請求項２又は３に記載の音声信号変換モデル学習装置。
変換対象の音声信号である変換対象音声信号を取得する取得部と、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置、が得た前記変換対象音声信号を変換する機械学習のモデルを用いて前記変換対象音声信号を変換する変換部、
を備える音声信号変換装置。
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置が実行する音声信号変換モデル学習方法であって、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成ステップと、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別ステップと、
前記生成部及び前記識別部が前記音声推定処理の推定結果に基づき学習する学習ステップと、
を有する
音声信号変換モデル学習方法。
請求項１から４のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。