JP7469698B2

JP7469698B2 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Info

Publication number: JP7469698B2
Application number: JP2022522103A
Authority: JP
Inventors: 宏田中; 弘和亀岡; 卓弘金子; 伸克北条
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2024-04-17
Anticipated expiration: 2040-05-11
Also published as: JPWO2021229643A1; WO2021229643A1

Description

特許法第３０条第２項適用 “ＡＴＴＳ２Ｓ－ＶＣ：Ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎｗｉｔｈＡｔｔｅｎｔｉｏｎａｎｄＣｏｎｔｅｘｔＰｒｅｓｅｒｖａｔｉｏｎＭｅｃｈａｎｉｓｍｓ”の論文が公開されたウェブサイトのアドレスｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｘｐｌ／ｃｏｎｈｏｍｅ／８６７１７７３／ｐｒｏｃｅｅｄｉｎｇ掲載日２０１９年５月１２日ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／８６８３２８２掲載日２０１９年５月１２日

本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。

近年、アニメやオンラインでの動画配信等の普及により自身の声に代えてキャラクターの声でしゃべる音声変換の技術への需要が高まっている。また音声変換の技術は、話者性変換、発声支援、音声強調、訛り変換などへの応用も期待されている。このような音声変換の技術は、具体的には入力音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術である。音声変換は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数を推定する回帰分析の問題として定式化される。従来の音声変換の技術の中では、混合ガウス分布モデル(Gaussian Mixture Model：GMM)を用いた手法が、その有効性と汎用性から広く用いられている。また、近年では、ニューラルネットワーク(Neural Network; NN)を用いた手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF)などを用いた事例ベースの手法の検討も進められている。

Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Nobukatsu Hojo," ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS" ［online］、［令和２年４月２４日検索］、インターネット〈URL：https://arxiv.org/pdf/1811.04076.pdf > Hiroyuki Miyoshi, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari,"Voice conversion using sequence-to-sequence learning of context posterior probabilities,"2017 Annual Conference of the Inter-national Speech Communication Association (INTERSPEECH), pp.1268-1272, 2017. Jing-Xuan Zhang, Zhen-Hua Ling, Li-Juan Liu, Yuan Jiang, and Li-Rong Dai, "Sequence-to-sequence acoustic modeling for voice conversion," IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol.27, no.3, pp.631-644, 2019.

しかしながら、このような従来の技術はいずれも声質の変換を目的としている。そのためこのような従来の技術は基本周波数パターン、話速、発話リズムなどの韻律的特徴（超分節的特徴）の変換を適切に実行できず、従来の技術により変換された音声と目標とする音声との違いは大きい場合があった。

上記事情に鑑み、本発明は、目標とする音声により近づけることができる技術を提供することを目的としている。

本発明の一態様は、音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理、前記系列長調整処理及び前記第２目標側デコード処理をこの順に実行した結果である第２目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記第２目標側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第１目標側デコード部、前記第２目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習する、音声信号変換モデル学習装置である。

本発明により、目標とする音声により近づけることが可能となる。

第１実施形態の音声信号変換システム１００の概要を説明する説明図。第１実施形態における音声信号変換モデル学習装置１の概要を説明する説明図。第１実施形態における順方向注意行列Ａ_Ｘ→Ｙを説明する説明図。第１実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図。第１実施形態における制御部１０の機能構成の一例を示す図。第１実施形態における音声信号変換装置２のハードウェア構成の一例を示す図。第１実施形態における制御部２０の機能構成の一例を示す図。第１実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャート。第１実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャート。第２実施形態の音声信号変換システム１００ａの概要を説明する説明図。第２実施形態における循環注意損失項を説明する説明図。第２実施形態における制御部１０ａの機能構成の一例を示す図。第２実施形態における音声信号変換システム１００ａが実行する処理の流れの一例を示すフローチャート。第３実施形態の音声信号変換システム１００ｂを説明する説明図。第３実施形態における音声信号変換システム１００ｂが実行する処理の流れの一例を示すフローチャート。第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第１実験の結果を示す第１の図。第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第１実験の結果を示す第２の図。第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第２実験の結果を示す第１の図。第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第２実験の結果を示す第２の図。

（第１実施形態）
図１及び図２を用いて、第１実施形態の音声信号変換システム１００の概要を説明する。図１は、第１実施形態の音声信号変換システム１００の概要を説明する説明図である。音声信号変換システム１００は、変換対象の音声信号（以下「変換対象音声信号」という。）を変換する。以下、変換後の変換対象音声信号を被変換音声信号という。例えば変換対象音声信号は実際に人が発した音声の信号である。例えば被変換音声信号は、動画配信で用いるキャラクターの音声の信号である。

音声信号変換システム１００は、音声信号変換モデル学習装置１及び音声信号変換装置２を備える。音声信号変換モデル学習装置１は、変換対象特徴量時系列を被変換特徴量時系列に変換する学習済みのモデル（以下「音声信号変換モデル」という。）を機械学習によって得る。

変換対象特徴量時系列は、変換対象音声信号を表す音声特徴量の時系列である。以下、音声特徴量の時系列を音声特徴量時系列という。音声特徴量は、音声信号から得られる情報のうち所定の条件を満たす情報である。音声特徴量は、例えば音声信号の位相スペクトルであってもよいし、音声信号の振幅スペクトルであってもよいし、音声信号の波形であってもよい。

変換対象特徴量時系列は変換対象音声信号に対する時系列変換処理の実行によって取得される。時系列変換処理は、時系列変換処理の実行対象の音声信号の対象期間における音声特徴量、を取得する処理を、複数の対象期間に対して実行する処理である。対象期間は、音声特徴量を取得する処理の対象となる期間である。このような時系列変換処理は、例えば短時間フーリエ変換である。このような場合、音声特徴量は位相スペクトルの時系列又は振幅スペクトルの時系列である。

被変換特徴量時系列は、被変換音声信号を表す音声特徴量時系列である。被変換特徴量時系列は、変換対象音声信号に対する時系列変換処理の実行によって取得される。

以下説明の簡単のため、機械学習を行うことを学習という。なお、機械学習を行うとは、機械学習のモデル（以下「機械学習モデル」という。）におけるパラメータの値を好適に調整することを意味する。以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは予め定められた条件を表す。

音声信号変換モデル学習装置１は、学習済みモデルを得るためのデータ（以下「学習用データ」という。）を用いて学習を行う。学習用データは、具体的には複数の特徴対データを含む。特徴対データは、学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙの対である。

学習用入力音声特徴量系列Ｘは、音声信号変換モデル学習装置１が学習済みモデルを得る際の説明変数として用いられる音声特徴量時系列である。学習用入力音声特徴量系列Ｘは、例えば以下の式（１）で表される。

式（１）におけるデータ点ｘ_ｉは、ｉ番目の時刻における学習用入力音声特徴量系列Ｘの音声特徴量である（ｉは１以上Ｉ以下の整数。Ｉは１以上の整数）。すなわち集合論の言葉を用いれば、学習用入力音声特徴量系列Ｘは、データ点ｘ_ｉを元としデータ点ｘ_ｉ間の順序関係が時刻の速さで定義された順序集合である。

学習用目標音声特徴量系列Ｙは、音声信号変換モデル学習装置１が学習済みモデルを得る際の目的変数として用いられる時系列である。学習用目標音声特徴量系列Ｙは、例えば以下の式（２）で表される。

式（２）におけるｙ_ｊは、ｊ番目の時刻における学習用目標音声特徴量系列Ｙの音声特徴量である（ｊは１以上Ｊ以下の整数。Ｊは１以上の整数）。すなわち集合論の言葉を用いれば、学習用目標音声特徴量系列Ｙは、データ点ｙ_ｊを元としデータ点ｙ_ｊ間の順序関係が時刻の速さで定義された順序集合である。

学習用データは、目標話者識別情報Ｓ_ｔ及び入力話者識別情報Ｓ_ｓを含む。目標話者識別情報Ｓ_ｔは、学習用目標音声特徴量系列Ｙが表す音声信号の発話者（以下「目標話者」という。）を示す情報である。入力話者識別情報Ｓ_ｓは、学習用入力音声特徴量系列Ｘが表す音声信号の発話者（以下「入力話者」という。）を示す情報である。以下、目標話者識別情報Ｓ_ｔと入力話者識別情報Ｓ_ｓとをそれぞれ区別しない場合、話者情報という。

図２は、第１実施形態における音声信号変換モデル学習装置１の概要を説明する説明図である。音声信号変換モデル学習装置１は、エンコード部１１０、系列長調整部１２０、目標側デコード部１３０、入力側デコード部１４０及び損失取得部１５０を備える。

エンコード部１１０、系列長調整部１２０、目標側デコード部１３０及び入力側デコード部１４０は学習する機能部である。音声信号変換モデル学習装置１においては、エンコード部１１０、系列長調整部１２０、目標側デコード部１３０、入力側デコード部１４０及び損失取得部１５０が協働して学習済みモデルを得るための学習を実行する。

エンコード部１１０は、特徴対データに対してエンコード処理を実行する。エンコード処理は学習用入力音声特徴量系列Ｘのデータ点ｘ_ｉごとに各データ点ｘ_ｉをエンコードする処理（以下「入力側エンコード処理」という。）を含む。入力側エンコード処理は、例えば次元を圧縮する処理である。次元の圧縮とは高い次元の情報を低い次元の情報に変換する処理である。次元の圧縮は、例えば３次元ベクトルで表現される情報を２次元ベクトルで表現される情報に変換する処理である。

以下、入力側エンコード処理による変換後の学習用入力音声特徴量系列Ｘを埋め込み入力系列Ｋという。埋め込み入力系列Ｋは、学習用入力音声特徴量系列Ｘの各音声特徴量がエンコードされた量の時系列である。そのため、埋め込み入力系列Ｋは音声特徴量時系列の１つである。以下、入力側エンコード処理によるエンコード後のデータ点ｘ_ｉをデータ点ｋ_ｉという。埋め込み入力系列Ｋは、例えば以下の式（３）で表される。

このように、埋め込み入力系列Ｋは、集合論の言葉を用いれば、データ点ｋ_ｉを元としデータ点ｋ_ｉ間の順序関係が時刻の速さで定義された順序集合であって元の数が学習用入力音声特徴量系列Ｘに同一の順序集合である。

また、エンコード処理は学習用目標音声特徴量系列Ｙのデータ点ｙ_ｊごとに各データ点ｙ_ｊをエンコードする処理（以下「目標側エンコード処理」という。）を含む。目標側エンコード処理は、例えば次元を圧縮する処理を含む。以下、目標側エンコード処理による変換後の学習用目標音声特徴量系列Ｙを、埋め込み目標系列Ｑという。埋め込み目標系列Ｑは、学習用目標音声特徴量系列Ｙの各音声特徴量がエンコードされた量の時系列である。そのため、埋め込み目標系列Ｑは音声特徴量時系列の１つである。以下、目標側エンコード処理によるエンコード後のデータ点ｙ_ｊをデータ点ｑ_ｊという。埋め込み目標系列Ｑは、例えば以下の式（４）で表される。

このように、埋め込み目標系列Ｑは、集合論の言葉を用いれば、データ点ｑ_ｉを元としデータ点ｑ_ｊ間の順序関係が時刻の速さで定義された順序集合であって元の数が学習用目標音声特徴量系列Ｙに同一の順序集合である。

エンコード部１１０は、エンコード処理を表現する機械学習モデルを学習によって更新する。エンコード部１１０は、学習によってエンコード処理を表現する機械学習モデルを更新可能であればどのようなものであってもよい。エンコード部１１０は、例えばエンコード処理を表現するニューラルネットワークである。エンコード部１１０は、例えばエンコード処理を表現する長短期記憶ネットワーク（Long Short-Term Memory：LSTM）等の再帰型ネットワーク（Convolutional Neural Network：CNN）であってもよい。

系列長調整部１２０は、第１系列長調整処理を実行する。第１系列長調整処理は、埋め込み入力系列Ｋの系列長を調整する処理である。具体的には、第１系列長調整処理は、埋め込み入力系列Ｋの系列の長さ（以下「系列長」という。）を埋め込み目標系列Ｑの系列長に一致させる処理である。系列長は系列が含む元の数である。

第１系列長調整処理は、より具体的には、系列長が埋め込み目標系列Ｑの系列長に同一の系列である被調整入力系列Ｒに埋め込み入力系列Ｋを変換する処理である。被調整入力系列Ｒは、埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させる変換を行った時系列である。そのため、被調整入力系列Ｒは音声特徴量時系列の１つである。以下、被調整入力系列Ｒの元をデータ点ｒ_ｊという。被調整入力系列Ｒは、例えば以下の式（５）で表される。

このように、被調整入力系列Ｒは、集合論の言葉を用いれば、データ点ｒ_ｊを元としデータ点ｒ_ｊ間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Ｑに同一の順序集合である。

以下、一対の音声特徴量信号の一方の系列長を他方の系列長に一致させる変換を表す行列を注意行列Ａという。特に、埋め込み入力系列Ｋから被調整入力系列Ｒへの変換を表す行列を順方向注意行列Ａ_Ｘ→Ｙという。順方向注意行列Ａ_Ｘ→Ｙは、列数が埋め込み入力系列Ｋに等しく行数が埋め込み目標系列Ｑに等しい行列であって、埋め込み入力系列Ｋから被調整入力系列Ｒへの変換を表す行列である。順方向注意行列Ａ_Ｘ→Ｙの要素は、例えば以下の式（６）及び（７）で表される。式（６）の左辺が順方向注意行列Ａ_Ｘ→Ｙの要素を表す。

式（６）の左辺は、順方向注意行列Ａ_Ｘ→Ｙにおけるｉ行ｊ列の要素を表す。式（７）におけるｆ_ＦＦＮＮはフィード・フォワード・ニューラルネットワークを用いた学習によって取得された値であることを意味する。なお、順方向注意行列Ａ_Ｘ→Ｙの要素とデータ点ｒ_ｊとの関係は、以下の式（８）で表される。

このように、系列長調整部１２０は、一対のエンコードされた音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する。

系列長調整部１２０は、第１系列長調整処理を表現する機械学習モデルを学習によって更新する。系列長調整部１２０は、第１系列長調整処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。系列長調整部１２０は、例えば第１系列長調整処理を表現するニューラルネットワークである。系列長調整部１２０は、例えば第１系列長調整処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。

目標側デコード部１３０は、埋め込み目標系列Ｑに対して第１目標側デコード処理を実行する。第１目標側デコード処理は、埋め込み目標系列Ｑをデコードする処理である。以下、第１目標側デコード処理によってデコードされたデコード後の埋め込み目標系列Ｑを第１目標側推定系列Ｙ｛＾｝という。以下、Ｕ｛＾｝は記号Ｕの上にハットが位置する記号を表す。

以下、第１目標側推定系列Ｙ｛＾｝の元をデータ点ｙ｛＾｝_ｊという。第１目標側推定系列Ｙ｛＾｝は、例えば以下の式（９）で表される。

第１目標側推定系列Ｙ｛＾｝は、集合論の言葉を用いれば、データ点ｙ｛＾｝_ｊを元としデータ点ｙ｛＾｝_ｊ間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Ｑに同一の順序集合である。

第１目標側デコード処理は、例えば以下の式（１０）で表される処理によって第１目標側推定系列Ｙ｛＾｝を取得する処理である。

式（１０）は、データ点ｒ_ｊと、データ点ｑ_ｊと、目標話者識別情報Ｓ_ｔとに基づいてデータ点ｙ｛＾｝_ｊを推定する処理を表す。式（１０）の具体的な処理（すなわち式（１０）の右辺の関数ｆ_{ＴａｒＤｅｃＡＲ}の形）は、目標側デコード部１３０の学習により更新される。

目標側デコード部１３０は、被調整入力系列Ｒに対して第２目標側デコード処理を実行する。第２目標側デコード処理は、被調整入力系列Ｒをデコードする処理である。以下、第２目標側デコード処理によってデコードされたデコード後の被調整入力系列Ｒを第２目標側推定系列Ｙ｛～｝という。以下、Ｕ｛～｝は記号Ｕの上にチルダが位置する記号を表す。

以下、第２目標側推定系列Ｙ｛～｝の元をデータ点ｙ｛～｝_ｊという。第２目標側推定系列Ｙ｛～｝は、集合論の言葉を用いれば、データ点ｙ｛～｝_ｊを元としデータ点ｙ｛～｝_ｊ間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Ｑに同一の順序集合である。

第２目標側デコード処理は、例えば以下の式（１１）で表される処理によって第２目標側推定系列Ｙ｛～｝を取得する処理である。

式（１１）は、被調整入力系列Ｒと目標話者識別情報Ｓ_ｔとに基づいて第２目標側推定系列Ｙ｛～｝を取得する処理を表す。式（１１）の具体的な処理（すなわち式（１１）の右辺の関数ｆ_{ＴａｒＤｅｃ}の形）は、目標側デコード部１３０の学習により更新される。

目標側デコード部１３０は、第１目標側デコード処理を表現する機械学習モデルと、第２目標側デコード処理を表現する機械学習モデルとを学習によって更新する。目標側デコード部１３０は、第１目標側デコード処理を表現する機械学習モデルと、第２目標側デコード処理を表現する機械学習モデルとを学習によって更新可能であればどのようなものであってもよい。

目標側デコード部１３０は、例えば第１目標側デコード処理及び第２目標側デコード処理を表現するニューラルネットワークである。目標側デコード部１３０は、例えば第１目標側デコード処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。

入力側デコード部１４０は、埋め込み入力系列Ｋに対して入力側デコード処理を実行する。入力側デコード処理は、埋め込み入力系列Ｋをデコードする処理である。以下、入力側デコード処理によってデコードされたデコード後の埋め込み入力系列Ｋを入力側推定系列Ｘ｛～｝という。

以下、入力側推定系列Ｘ｛～｝の元をデータ点ｘ｛～｝_ｉという。入力側推定系列Ｘ｛～｝は、集合論の言葉を用いれば、データ点ｘ｛～｝_ｉを元としデータ点ｘ｛～｝_ｉ間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み入力系列Ｋに同一の順序集合である。

入力側デコード処理は、例えば以下の式（１２）で表される処理によって入力側推定系列Ｘ｛～｝を取得する処理である。

式（１２）は、埋め込み入力系列Ｋと入力話者識別情報Ｓ_ｓとに基づいて入力側推定系列Ｘ｛～｝を取得する処理を表す。式（１２）の具体的な処理（すなわち式（１２）の右辺の関数ｆ_{ＳｒｃＤｅｃ}の形）は、入力側デコード部１４０の学習により更新される。

入力側デコード部１４０は、入力側デコード処理を表現する機械学習モデルを学習によって更新する。入力側デコード部１４０は、入力側デコード処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。入力側デコード部１４０は、例えば入力側デコード処理を表現するニューラルネットワークである。入力側デコード部１４０は、例えば入力側デコード処理長短期記憶ネットワーク等の再帰型ネットワークであってもよい。

損失取得部１５０は、第１損失取得処理を実行する。第１損失取得処理は、第１目標側推定系列Ｙ｛＾｝、第２目標側推定系列Ｙ｛～｝、入力側推定系列Ｘ｛～｝、学習用入力音声特徴量系列Ｘ及び学習用目標音声特徴量系列Ｙに基づき損失関数の値を取得する処理である。

第１損失取得処理における損失関数（以下「第１損失関数」という。）は、基本損失項と、文脈損失項とを含む。基本損失項は、第１目標側推定系列Ｙ｛＾｝と学習用目標音声特徴量系列Ｙとの間の違いを表す。文脈損失項は、文脈情報の損失を表す。

文脈情報とは音声信号が表す内容の履歴である。そのため文脈情報は、音声特徴量の時系列そのものである。文脈情報は、音声特徴量の時系列であればどのような情報であってもよい。そのため、入力音声特徴量系列Ｘ、学習用目標音声特徴量系列Ｙ、埋め込み入力系列Ｋ及び被調整入力系列Ｒはそれぞれ文脈情報の一例である。

文脈損失項は、具体的には入力側推定系列Ｘ｛～｝と学習用入力音声特徴量系列Ｘとの間の違いと、第２目標側推定系列Ｙ｛～｝と学習用目標音声特徴量系列Ｙとの間の違いとを表す項である。

第１損失関数は、例えば以下の式（１３）で表される。式（１３）の左辺は第１損失関数を表す。

式（１３）の左辺は第１損失関数を表す。式（１４）は基本損失項の一例である。式（１５）の右辺第１項は、入力側推定系列Ｘ｛～｝と学習用入力音声特徴量系列Ｘとの間の違いを表す。式（１５）の右辺第２項は、第２目標側推定系列Ｙ｛～｝と学習用目標音声特徴量系列Ｙとの間の違いを表す。そのため、式（１５）が文脈損失項の一例である。式（１３）のλ_ｃｐは第１損失関数における文脈損失項の重みを表す。

なお、式（１４）においてノルムはＬ^１ノルムであるが、必ずしもＬ^１ノルムである必要はなく、Ｌ^Ｐノルムであってもよい（Ｐは、２以上の整数）。また、式（１５）においてノルムはＬ^１ノルムであるが、必ずしもＬ^１ノルムである必要はなく、Ｌ^Ｐノルムであってもよい。

損失取得部１５０は取得した第１損失関数の値（すなわち損失）を、エンコード部１１０、系列長調整部１２０、目標側デコード部１３０及び入力側デコード部１４０に出力する。

エンコード部１１０、系列長調整部１２０、目標側デコード部１３０及び入力側デコード部１４０は損失取得部１５０が取得した損失に基づき損失を小さくするように学習する。単位学習処理が所定の終了条件が満たされるまで繰り返されることで得られる機械学習モデルが音声信号変換モデルである。単位学習処理は、取得した損失に基づき損失を小さくするようにエンコード部１１０、系列長調整部１２０、目標側デコード部１３０及び入力側デコード部１４０が学習する処理である。所定の終了条件は、例えば繰り返しの回数が所定の回数に達したという条件である。

なお、系列長調整部１２０による学習は、具体的には、損失取得部１５０が取得した損失に基づき、損失取得部１５０が取得する損失を小さくするという条件と式（６）及び式（７）を満たすという条件とを満たすように順方向注意行列Ａ_Ｘ→Ｙを更新する処理である。系列長調整部１２０による学習結果の順方向注意行列Ａ_Ｘ→Ｙは記憶部１３に記録される。

音声信号変換装置２は、音声信号変換モデルを用いて変換対象音声信号を被変換音声信号に変換する。

＜順方向注意行列Ａ_Ｘ→Ｙについて＞
ここで順方向注意行列Ａ_Ｘ→Ｙについて説明する。
図３は、第１実施形態における順方向注意行列Ａ_Ｘ→Ｙを説明する説明図である。図３の横軸は順方向注意行列Ａ_Ｘ→Ｙの行番号を表し、図３の縦軸は順方向注意行列Ａ_Ｘ→Ｙの列番号を表す。順方向注意行列Ａ_Ｘ→Ｙにおけるｉ行ｊ列の要素の値は、データ点ｋ_ｉとデータ点ｑ_ｊとの類似の度合の期待値を表す。順方向注意行列Ａ_Ｘ→Ｙの各要素の値は以下の第１確率分布条件と第２確率分布条件と満たす。第１確率分布条件は、説明変数を確率変数ｑ_ｊとし目的変数を順方向注意行列Ａ_Ｘ→Ｙのｉ行ｊ列目の要素の値とする関数は確率変数をｑ_ｊとする確率分布を表すという条件である。第２確率分布条件は、説明変数を確率変数ｋ_ｉとし目的変数を順方向注意行列Ａ_Ｘ→Ｙのｉ行ｊ列目の要素の値とする関数は確率変数をｋ_ｉとする確率分布を表すという条件である。このように、順方向注意行列Ａ_Ｘ→Ｙは２つの音声特徴量時系列の時刻間の類似の度合の期待値を示す情報である。

音声信号変換モデル学習装置１にとって、埋め込み入力系列Ｋと埋め込み目標系列Ｑとは類似の度合が高いほど望ましい。そのため図３に示すように、学習による音声信号変換モデルの更新とともに順方向注意行列Ａ_Ｘ→Ｙは対角行列に近づく。

図４は、第１実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置１は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサ９１とメモリ９２とを備える制御部１０を備え、プログラムを実行する。音声信号変換モデル学習装置１は、プログラムの実行によって制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。より具体的には、プロセッサ９１が記憶部１３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置１は、制御部１０、入力部１１、インタフェース部１２、記憶部１３及び出力部１４を備える装置として機能する。

制御部１０は、音声信号変換モデル学習装置１が備える各種機能部の動作を制御する。制御部１０は、例えば単位学習処理を実行する。

入力部１１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部１１は、自装置に対する各種情報の入力を受け付ける。入力部１１は、例えば学習の開始を指示する入力を受け付ける。入力部１１は、例えば学習用データの入力を受け付ける。

インタフェース部１２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して外部装置と通信する。外部装置は、例えばＵＳＢ（Universal Serial Bus）メモリ等の記憶装置であってもよい。外部装置が例えば学習用データを出力する場合、インタフェース部１２は外部装置との通信によって外部装置が出力する学習用データを取得する。

インタフェース部１２は、自装置を音声信号変換装置２に接続するための通信インタフェースを含んで構成される。インタフェース部１２は、有線又は無線を介して音声信号変換装置２と通信する。インタフェース部１２は、音声信号変換装置２との通信により、音声信号変換装置２に音声信号変換モデルを出力する。

記憶部１３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１３は音声信号変換モデル学習装置１に関する各種情報を記憶する。記憶部１３は、例えば予め順方向注意行列Ａ_Ｘ→Ｙの各要素の初期値を記憶する。記憶部１３は、例えば音声信号変換モデルを記憶する。

出力部１４は、各種情報を出力する。出力部１４は、例えばＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置を含んで構成される。出力部１４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部１４は、例えば入力部１１に入力された情報を出力する。

図５は、第１実施形態における制御部１０の機能構成の一例を示す図である。制御部１０は、被管理部１０１及び管理部１０２を備える。被管理部１０１は、エンコード部１１０、系列長調整部１２０、目標側デコード部１３０、入力側デコード部１４０及び損失取得部１５０を備える。

被管理部１０１は、単位学習処理を繰り返すことで音声信号変換モデルを得る。音声信号変換モデルは具体的には、エンコード部１１０、系列長調整部１２０及び目標側デコード部１３０による学習用入力音声特徴量系列Ｘを第２目標側推定系列Ｙ｛～｝に変換する処理を表す学習済みのモデルである。

エンコード部１１０は、入力側エンコード部１１１及び目標側エンコード部１１２を備える。入力側エンコード部１１１は、入力側エンコード処理を実行する。

目標側デコード部１３０は、第１目標側デコード部１３１及び第２目標側デコード部１３２を備える。第１目標側デコード部１３１は、第１目標側デコード処理を実行する。第２目標側デコード部１３２は、第２目標側デコード処理を実行する。

管理部１０２は、被管理部１０１の動作を制御する。管理部１０２は、被管理部１０１の動作の制御として、例えば単位学習処理の実行を制御する。

管理部１０２は、例えば入力部１１、インタフェース部１２、記憶部１３及び出力部１４の動作を制御する。管理部１０２は、例えば記憶部１３から各種情報を読み出し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し被管理部１０１に出力する。管理部１０２は、例えば入力部１１に入力された情報を取得し記憶部１３に記録する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し被管理部１０１に出力する。管理部１０２、例えばインタフェース部１２に入力された情報を取得し記憶部１３に記録する。管理部１０２は、例えば入力部１１に入力された情報を出力部１４に出力させる。

管理部１０２は、例えば単位学習処理の実行に用いられる情報と単位学習処理の実行によって生じた情報とを記憶部１３に記録する。

図６は、第１実施形態における音声信号変換装置２のハードウェア構成の一例を示す図である。音声信号変換装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２０を備え、プログラムを実行する。音声信号変換装置２は、プログラムの実行によって制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。より具体的には、プロセッサ９３が記憶部２３に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、音声信号変換装置２は、制御部２０、入力部２１、インタフェース部２２、記憶部２３及び出力部２４を備える装置として機能する。

制御部２０は、音声信号変換装置２が備える各種機能部の動作を制御する。制御部２０は、例えば音声信号変換モデル学習装置１が得た音声信号変換モデルを用いて変換対象音声信号を被変換音声信号に変換する。

入力部２１は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２１は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２１は、自装置に対する各種情報の入力を受け付ける。入力部２１は、例えば変換対象音声信号を被変換音声信号に変換する処理の開始を指示する入力を受け付ける。入力部２１は、例えば変換対象の変換対象音声信号の入力を受け付ける。

インタフェース部２２は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して外部装置と通信する。外部装置は、例えば被変換音声信号の出力先である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置に被変換音声信号を出力する。被変換音声信号の出力際の外部装置は、例えばスピーカー等の音声出力装置である。

外部装置は、例えば音声信号変換モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、インタフェース部２２は外部装置との通信によって音声信号変換モデルを取得する。

外部装置は、例えば変換対象音声信号の出力元である。このような場合、インタフェース部２２は、外部装置との通信によって外部装置から変換対象音声信号を取得する。

インタフェース部２２は、自装置を音声信号変換モデル学習装置１に接続するための通信インタフェースを含んで構成される。インタフェース部２２は、有線又は無線を介して音声信号変換モデル学習装置１と通信する。インタフェース部２２は、音声信号変換モデル学習装置１との通信により、音声信号変換モデル学習装置１から音声信号変換モデルを取得する。

記憶部２３は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２３は音声信号変換装置２に関する各種情報を記憶する。記憶部１３は、例えばインタフェース部２２を介して取得した音声信号変換モデルを記憶する。

出力部２４は、各種情報を出力する。出力部２４は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２４は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２４は、例えば入力部２１に入力された情報を出力する。

図７は、第１実施形態における制御部２０の機能構成の一例を示す図である。制御部２０は、変換対象取得部２０１、系列エンコード部２０２、変換部２０３、系列デコード部２０４及び音声信号出力制御部２０５を備える。

変換対象取得部２０１は、変換対象音声信号を取得する。変換対象取得部２０１は、例えば入力部２１に入力された変換対象音声信号を取得する。変換対象取得部２０１は、例えばインタフェース部２２に入力された変換対象音声信号を取得する。

系列エンコード部２０２は、変換対象取得部２０１が取得した変換対象音声信号に対して時系列変換処理を実行することで変換対象音声信号を変換対象特徴量時系列に変換する。変換対象特徴量時系列は変換部２０３に出力される。

変換部２０３は、音声信号変換モデルを用い、系列エンコード部２０２が取得した変換対象特徴量時系列を被変換特徴量時系列に変換する。被変換特徴量時系列は系列デコード部２０４に出力される。

系列デコード部２０４は、変換部２０３によって取得された被変換特徴量時系列に対して信号化処理を実行することで被変換特徴量時系列を被変換音声信号に変換する。信号化処理は、被変換特徴量時系列を被変換音声信号に変換可能な処理であればどのような処理であってもよい。信号化処理は、例えばボコーダである。ボコーダは、例えばＰａｒａｍｅｔｒｉｃｖｏｃｏｄｅｒの方法であってもよいし、Ｐｈａｓｅｖｏｃｏｄｅｒの方法であってもよいし、Ｎｅｕｒａｌｖｏｃｏｄｅｒの方法であってもよい。Ｐａｒａｍｅｔｒｉｃｖｏｃｏｄｅｒは、例えばＷＯＲＬＤｖｏｃｏｄｅｒであってもよいし、ＳＴＲＡＩＧＨＴｖｏｃｏｄｅｒであってもよい。Ｐｈａｓｅｖｏｃｏｄｅｒは、例えばＧｉｒｉｆｆｉｎ－ｌｉｍである。Ｎｅｕｒａｌｖｏｃｏｄｅｒは、例えばＷａｖｅＮｅｔであってもよいし、ＷａｖｅＧｌｏｗであってもよい。被変換音声信号は音声信号出力制御部２０５に出力される。

音声信号出力制御部２０５は、インタフェース部２２の動作を制御する。音声信号出力制御部２０５は、インタフェース部２２の動作を制御することでインタフェース部２２に被変換音声信号を出力させる。

図８は、第１実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャートである。より具体的には、図８は単位学習処理の流れの一例を示すフローチャートである。音声信号変換モデル学習装置１は、図８に示す単位学習処理を繰り返し実行することで音声信号変換モデルを得る。

入力部１１又はインタフェース部１２に学習用データが入力される（ステップＳ１０１）。次にエンコード部１１０が入力側エンコード処理及び目標側エンコード処理を実行する（ステップＳ１０２）。次に系列長調整部１２０が第１系列長調整処理を実行する（ステップＳ１０３）。次に目標側デコード部１３０が第１目標側デコード処理及び第２目標側デコード処理を実行する（ステップＳ１０４）。次に入力側デコード部１４０が入力側デコード処理を実行する（ステップＳ１０５）。

次に損失取得部１５０がステップＳ１０４及びステップＳ１０５の結果に基づき、第１損失関数の値を損失として取得する（ステップＳ１０６）。次に、ステップＳ１０６で取得された損失に基づき、損失を小さくするように、エンコード部１１０、系列長調整部１２０、目標側デコード部１３０及び入力側デコード部１４０による学習が実行される（ステップＳ１０７）。

図９は、第１実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャートである。
変換対象取得部２０１が、入力部２１又はインタフェース部２２に入力された変換対象音声信号を取得する（ステップＳ２０１）。次に系列エンコード部２０２が変換対象音声信号に対して時系列変換処理を実行し、変換対象特徴量時系列を取得する（ステップＳ２０２）。次に変換部２０３が、音声信号変換モデルを用い、変換対象特徴量時系列を被変換特徴量時系列に変換する（ステップＳ２０３）。次に系列デコード部２０４が、信号化処理の実行により、ステップＳ２０３で取得された被変換特徴量時系列を被変換音声信号に変換する（ステップＳ２０４）。次に、音声信号出力制御部２０５が、インタフェース部２２の動作を制御することでインタフェース部２２に被変換音声信号を出力させる（ステップＳ２０５）。

このように構成された第１実施形態の音声信号変換システム１００は、埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させる処理を有する。仮に、音声信号変換システム１００が埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させない場合、埋め込み入力系列Ｋの各音声特徴量の出現のタイミングが埋め込み目標系列Ｑと異なるまま学習が行われる。

これは、埋め込み入力系列Ｋが表す音声信号の韻律的特徴を埋め込み目標系列Ｑの韻律的特徴と異なるまま学習が行われることを意味し、このようにして得られた音声信号変換モデルは韻律的特徴を適切に変換できない場合があることを意味する。そのため、埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させる処理を有する音声信号変換システム１００は、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。なお、韻律的特徴とは、基本周波数パターン、話速、発話リズム等の発話のタイミングを示す情報である。

また音声信号変換システム１００は、音声特徴量の時系列である入力音声特徴量系列Ｘを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Ｙに近づけるように学習する。この際、音声信号変換システム１００は学習用入力音声特徴量系列Ｘの系列長を学習用目標音声特徴量系列Ｙに一致させた後、文脈損失項を含む第１損失関数の値を小さくするように学習する。文脈損失項は文脈情報の損失を表す項であるため、第１損失関数の値に基づいて学習する音声信号変換システム１００は、学習用目標音声特徴量系列Ｙの韻律的特徴との違いを小さくすることができる。そのため音声信号変換システム１００は、変換対象音声信号を目標とする音声により近づけることができる。

また音声信号変換システム１００は、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。ここで、以下の仮想場面における問題点を説明する。仮想場面は、音声特徴量時系列が文字時系列情報に変換された後、文字時系列情報を用いて音声信号変換システム１００が学習する場面である。文字時系列情報は、音声特徴量時系列が表す音声信号の各音を、各音を表現する文字で表す情報である。文字時系列情報は、例えば音声特徴量時系列が表す音声信号が笑い声である場合に、「ははは」という「は」の文字の羅列を示す情報である。しかしながら、笑い声は複雑な音声信号であり必ずしも「ははは」と表現できない。例えば人によっては「は」と「へ」の中間的な音声で笑う人もいる。この例からわかるように、文字時系列情報を用いて学習を行う仮想場面では、適切な文字に変換できない音声信号を適切に学習することができない場合がある。適切な文字に変換できない音声信号の例は、笑い声の他には例えばフィラーがある。

一方、音声特徴量時系列のまま学習に用いる音声信号変換システム１００であれば、文字時系列情報を用いず音声特徴量時系列のまま学習を行うため、適切な文字に変換できない音声信号であっても適切に学習することができる。そのため、音声信号変換システム１００は、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。

また音声信号変換システム１００はデコードの際に話者情報を用いる。一般に、異なる話者の音声特徴量時系列は、たとえ内容が同一であったとしても異なる。一方、同一の話者の音声特徴量時系列は、たとえ内容が異なっていたとしても共通点を有する。そのため、話者情報を用いずに複数の話者の音声特徴量時系列を用いて学習を行った場合、音声信号変換システム１００は音声特徴量の違いと共通点とが話者に依存するものか否かを判定できない。その結果、音声信号変換システム１００は学習用に入力された音声特徴量時系列を適切に分類することができない状態で学習済みモデルを得てしまう場合がある。このようにして得られた学習済みモデルを用いる場合、音声信号変換システム１００は入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが大きい音声特徴量時系列に変換してしまう場合がある。以下、話者情報を用いないで得られた学習済みモデルを話者情報非使用モデルという。

一方、話者情報を用いる場合、複数の話者の音声特徴量時系列を用いて学習を行ったとしても、音声信号変換システム１００は音声特徴量の違いと共通点とが話者に依存するものか否かを判定できる。その結果、音声信号変換システム１００は学習用に入力された音声特徴量時系列を適切に分類することができる状態で学習済みモデルを得る。このようにして得られた学習済みモデルを用いる場合、音声信号変換システム１００は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。

また、話者情報を用いることで目標とする音声特徴量時系列との差がより小さい音声特徴量時系列に変換される理由の１つは以下の保持理由である。保持理由は、異なる話者が発した音声の音声特徴量時系列を用いても、入力側デコード部１４０の存在により、入力側エンコード部１１１が学習用入力音声特徴量系列Ｘの言語情報を保持するように学習するという理由を含む。保持理由は、目標側デコード部１３０の存在により入力側エンコード部１１１が学習用入力音声特徴量系列Ｘを学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙとの共通空間へ射影するように学習するという理由を含む。

（第２実施形態）
図１０及び図１１を用いて、第２実施形態の音声信号変換システム１００ａの概要を説明する。図１０は、第２実施形態の音声信号変換システム１００ａの概要を説明する説明図である。図１１は、後述する循環注意損失項を説明する説明図である。音声信号変換システム１００ａは、音声信号変換モデル学習装置１に代えて音声信号変換モデル学習装置１ａを備える点で音声信号変換システム１００と異なる。以下、音声信号変換システム１００が備える機能部と同様の機能を有するものについては図１と同じ符号を付すことで説明を省略する。

音声信号変換モデル学習装置１ａは、系列長調整部１２０に代えて系列長調整部１２０ａを備える点で音声信号変換モデル学習装置１と異なる。また、音声信号変換モデル学習装置１ａは、損失取得部１５０が取得する損失関数が第１損失関数に代えて第２損失関数である点で音声信号変換モデル学習装置１と異なる。第２損失関数は、基本損失項と、循環注意損失項とを含む損失関数である。

循環注意損失項は、順方向注意行列Ａ_ｘ→Ｙと逆方向注意行列Ａ_Ｙ→Ｘとの行列の積と単位行列との違い、を表す。逆方向注意行列Ａ_Ｙ→Ｘは第２系列長調整処理において用いられる注意行列Ａである。第２系列長調整処理は、埋め込み目標系列Ｋ_ｘの系列長を学習用入力音声特徴量系列Ｘの系列長に一致させる処理である。

埋め込み目標系列Ｋ_ｘは、逆入力が行われた場合に、第２目標側推定系列Ｙ｛～｝を入力側エンコード処理によって変換した結果である。逆入力は、学習用入力音声特徴量系列Ｘに代えて第２目標側推定系列Ｙ｛～｝がエンコード部１１０に入力されることを意味する。そのため、埋め込み目標系列Ｋ_ｘは音声特徴量時系列の１つである。

第２系列長調整処理も第１系列長調整処理と同様に、一対の音声特徴量信号の一方の系列長を他方の系列長に一致させる変換である。循環注意損失項は、例えば以下の式（１６）で表される。式（１６）の左辺は循環注意損失項を表す。

式（１６）は近似的には例えば以下の式（１７）で表される。

式（１７）においてＧはペナルティ行列であり、各要素ｇ_ｉ、ｊはハイパーパラメータσ_ｇを用いて以下の式（１８）で定義される。

式（１６）又は式（１７）の損失関数を最小することは、順方向注意行列Ａ_ｘ→Ｙと逆方向注意行列Ａ_Ｙ→Ｘとの行列の積と、単位行列と、の違いを最小にすることを意味する。なお、式（１７）においてノルムはＬ^１ノルムであるが、必ずしもＬ^１ノルムである必要はなく、Ｌ^Ｐノルムであってもよい。

系列長調整部１２０ａは、系列長調整部１２０ａは、逆入力の場合には第２系列長調整処理も実行する点で系列長調整部１２０と異なるものの、第１系列長調整処理も第２系列長調整処理も、一対の音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する処理である。そのため系列長調整部１２０ａは系列長調整部１２０同様、一対の音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する機能部の一例である。

また系列長調整部１２０ａは、取得された損失に基づき、損失を小さくするという条件と式（６）及び式（７）を満たすという条件とを満たすように順方向注意行列Ａ_ｘ→Ｙだけでなく逆方向注意行列Ａ_Ｙ→Ｘも学習する点で系列長調整部１２０と異なる。

そのため系列長調整部１２０ａは、第１系列長調整処理及び第２系列長調整処理を表現する機械学習モデルを学習によって更新する。系列長調整部１２０ａは、第１系列長調整処理及び第２系列長調整処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。系列長調整部１２０ａは、例えば第１系列長調整処理及び第２系列長調整処理を表現するニューラルネットワークである。系列長調整部１２０ａは、例えば第１系列長調整処理及び第２系列長調整処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。

音声信号変換モデル学習装置１ａは、制御部１０に代えて後述する制御部１０ａを備える点で音声信号変換モデル学習装置１と異なる。

図１２は、第２実施形態における制御部１０ａの機能構成の一例を示す図である。以下、制御部１０と同様の機能を備えるものについては、図５と同じ符号を付すことで説明を省略する。制御部１０ａは、管理部１０２に代えて管理部１０２ａを備える点と、被管理部１０１に代えて被管理部１０１ａを備える点とで制御部１０と異なる。管理部１０２ａは、被管理部１０１に代えて被管理部１０１ａの動作を制御する点で管理部１０２と異なる。管理部１０２ａは、被管理部１０１の動作の制御として、学習用入力音声特徴量系列Ｘ及び学習用目標音声特徴量系列Ｙに基づく第１目標側推定系列Ｙ｛＾｝、第２目標側推定系列Ｙ｛～｝及び入力推定系列Ｘ｛～｝の取得後に逆入力を被管理部１０１に実行させる。

被管理部１０１は、系列長調整部１２０に代えて系列長調整部１２０ａを備える点で被管理部１０１と異なる。

図１３は、第２実施形態における音声信号変換システム１００ａが実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため図８と同様の処理については同じ符号を付すことで説明を省略する。

ステップＳ１０１～ステップＳ１０４の処理の実行の次に、逆入力が実行される（ステップＳ１０８）。すなわち入力側エンコード部１１１にステップＳ１０４で取得された第２目標側推定系列Ｙ｛～｝が入力される。

ステップＳ１０８の次に、入力側エンコード部１１１が第２目標側推定系列Ｙ｛～｝に対して入力側エンコード処理を実行する（ステップＳ１０９）。ステップＳ１０９の入力側エンコード処理によって第２目標側推定系列Ｙ｛～｝が埋め込み目標系列Ｋ_ｘに変換される。

次に系列長調整部１２０ａが埋め込み目標系列Ｋ_ｘに対して第２系列長調整処理を実行する（ステップＳ１１０）。次に第１目標側デコード部１３１が、第２系列長調整処理の実行結果の系列に対して、第２目標側デコード処理を実行する（ステップＳ１１１）。ステップＳ１１１によって取得される系列は、以下の式（１９）で表される。

次に損失取得部１５０がステップＳ１０４及びステップＳ１１１の結果に基づき、第２損失関数の値を損失として取得する（ステップＳ１１２）。次に、ステップＳ１１２で取得された損失に基づき、損失を小さくするように、エンコード部１１０、系列長調整部１２０ａ、目標側デコード部１３０及び入力側デコード部１４０による学習が実行される（ステップＳ１１３）。

このように音声信号変換モデル学習装置１ａは、第２目標側推定系列Ｙ｛～｝に対して入力側エンコード処理と系列長を調整する処理と第２目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列と、の違いを用いて学習を行う。上述したように、第２目標側推定系列Ｙ｛～｝に対して入力側エンコード処理と系列長を調整する処理と第２目標側デコード処理とを実行した結果の系列は式（１９）で表される系列である。そして式（１９）は式（１６）の右辺第１項である。そのため、式（１６）又は式（１７）は、第２目標側推定系列Ｙ｛～｝に対して入力側エンコード処理と系列長を調整する処理と第２目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列Ｘと、の違いを表す。

このように構成された第２実施形態の音声信号変換システム１００ａは、音声信号変換システム１００と同様に、埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させる処理を有する。そのため音声信号変換システム１００と同様に、音声信号変換システム１００ａは、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。

また音声信号変換システム１００ａは、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。そのため音声信号変換システム１００と同様に、音声信号変換システム１００ａは、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。

また音声信号変換システム１００ａはデコードの際に話者情報を用いる。そのため音声信号変換システム１００と同様に、音声信号変換システム１００は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。

また音声信号変換システム１００ａは、音声特徴量の時系列である入力音声特徴量系列Ｘを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Ｙに近づけるように学習する。この際、音声信号変換システム１００ａは学習用入力音声特徴量系列Ｘの系列長を学習用目標音声特徴量系列Ｙと同一にした後、循環注意損失項を含む第２損失関数の値を小さくするように学習する。

上述したように循環注意損失項は、第２目標側推定系列Ｙ｛～｝に対して入力側エンコード処理と系列長を調整する処理と第２目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列と、の違いを示す。したがって音声信号変換モデル学習装置１ａは入力音声特徴量系列Ｘをまず学習用目標音声特徴量系列Ｙに近づくように変換し次に入力音声特徴量系列Ｘに近づくように変換した結果の音声特徴量時系列を入力音声特徴量系列Ｘに近づけるように学習する。仮に入力音声特徴量系列Ｘが学習用目標音声特徴量系列Ｙに一致するように変換された場合、第１目標側推定系列Ｙ｛＾｝を入力音声特徴量系列Ｘに近づくように変換すれば入力音声特徴量系列Ｘに一致する音声特徴量時系列が得られる。そのため、循環注意損失項を含む第２損失関数の値を小さくするように学習する音声信号変換システム１００ａは変換対象音声信号を目標とする音声により近づけることができる。

また、このことは、循環注意損失項を用いれば、たとえ雑音が多い環境で録音されたデータを用いて学習を行う場合であっても、雑音の影響が軽減された学習が行われることを意味する。

（第３実施形態）
図１４は、第３実施形態の音声信号変換システム１００ｂを説明する説明図である。音声信号変換システム１００ｂは、音声信号変換モデル学習装置１ａに代えて音声信号変換モデル学習装置１ｂを備える点で音声信号変換システム１００ａと異なる。以下、音声信号変換システム１００ａが備える機能部と同様の機能を有するものについては図１０と同じ符号を付すことで説明を省略する。

音声信号変換モデル学習装置１ｂは、制御部１０ａに代えて後述する制御部１０ｂを備える点で音声信号変換モデル学習装置１ａと異なる。制御部１０ｂは、損失取得部１５０が第１損失関数に代えて以下の第３損失関数を用いる点で、制御部１０ａと異なる。第３損失関数は、基本損失項と、注意考慮型コントラスティブ損失項とを含む。

注意考慮型コントラスティブ損失項は、注意行列Ａの要素のうち最大要素以外の各要素の値について０との違いを表す。最大要素とは、注意行列Ａの各列の最大値を与える要素である。そのため、１つのＩ行Ｊ列の注意行列Ａにおいて最大要素はＪ個存在する。注意考慮型コントラスティブ損失項は、例えば以下の式（２０）で表される。式（２０）の左辺は、注意考慮型コントラスティブ損失項を表す。

式（２０）において、ａ_ｊは、順方向注意行列Ａ_Ｘ→Ｙのｊ番目の列を表す。すなわちａ_ｊはａ_１、ｊからａ_Ｉ、ｊまでのＩ個の要素を有するベクトルである。εは、乱数ベクトルである。Ｃはマージンを表す定数である。埋め込み入力系列Ｋ_Ｙは、入力側エンコード処理による変換後の学習用目標音声特徴量系列Ｙである。

なお、式（２０）においてノルムはＬ^１ノルムであるが、必ずしもＬ^１ノルムである必要はなく、Ｌ^Ｐノルムであってもよい。

＜＜注意考慮型コントラスティブ損失項の役割＞＞
注意考慮型コントラスティブ損失項の説明にあたり注意行列Ａについてこれまでと異なる観点から説明する。注意行列Ａは、上述したように、２つの音声特徴量時系列の時刻間の類似の度合の期待値を示す。そのため、ｊ番目の列における最大値は２つの音声特徴量時系列が類似していることを示す。またこのことは、ｊ番目の列における最大値を与える行をｉ行として、ｊ番目の列におけるｉ行以外の行は類似度が低いことを意味する。そのため、注意行列Ａは以下の局在条件を満たすことが望ましい。局在条件は、注意行列Ａの各列の最大要素以外の要素（以下「非最大要素」という。）の値が０に略同一であるという条件である。次に注意考慮型コントラスティブ損失項が奏する効果について説明する。

第３損失関数に注意考慮型コントラスティブ損失項が無い場合、たとえ学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙとが同一の事象を表す互いに異なる表現であったとしても、局在条件を満たさない注意行列Ａが学習されてしまう場合がある。これを誤学習という。局在条件を満たさないということは、非最大要素が０に略同一ではないことを意味する。このことは、学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙとが同一の事象を表していないことを意味する。

式（２０）の損失を小さくするということは、非最大要素の値を０に近づけることを意味する。そのため、注意考慮型コントラスティブ損失項を用いることで、音声信号変換モデル学習装置１ｂは誤学習の発生の頻度を抑制することができる。

また、入力音声特徴量系列Ｘには例えば背景雑音が重畳するが、一方、目標音声特徴量系列Ｙは理想環境下でのクリーンな音声である。そこで、音声信号変換システム１００ｂは、注意考慮型コントラスティブ損失項を用いてクリーンな音声より抽出された埋め込み入力系列Ｋ_Ｙと埋め込み入力系列Ｋ_ｘとの間の距離を制約とすることで、所望の文脈情報を抽出することができる。このように、注意考慮型コントラスティブ損失項は、学習において、雑音が多い環境で録音されたデータから雑音の影響を軽減する効果を有する。

図１５は、第３実施形態における音声信号変換システム１００ｂが実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため図１３と同様の処理については同じ符号を付すことで説明を省略する。ステップＳ１０１～ステップＳ１１１の処理の次に、損失取得部１５０がステップＳ１０４及びステップＳ１１１の結果に基づき、第３損失関数の値を損失として取得する（ステップＳ１１２ｂ）。次に、ステップＳ１１２ｂで取得された損失に基づき、損失を小さくするように、エンコード部１１０、系列長調整部１２０ａ、目標側デコード部１３０及び入力側デコード部１４０による学習が実行される（ステップＳ１１３ｂ）。

このように構成された第３実施形態の音声信号変換システム１００ｂは、音声信号変換システム１００と同様に、埋め込み入力系列Ｋの系列長を埋め込み目標系列Ｑの系列長に一致させる処理を有する。そのため音声信号変換システム１００と同様に、音声信号変換システム１００ｂは、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。

また音声信号変換システム１００ｂは、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。そのため音声信号変換システム１００と同様に、音声信号変換システム１００ｂは、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。

また音声信号変換システム１００ｂはデコードの際に話者情報を用いる。そのため音声信号変換システム１００と同様に、音声信号変換システム１００は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。

また音声信号変換システム１００ｂは、音声特徴量の時系列である入力音声特徴量系列Ｘを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Ｙに近づけるように学習する。この際、音声信号変換システム１００ｂは学習用入力音声特徴量系列Ｘの系列長を学習用目標音声特徴量系列Ｙと同一にした後、注意考慮型コントラスティブ損失項を含む第３損失関数の値を小さくするように学習する。

上述したように、注意考慮型コントラスティブ損失項があることで音声信号変換システム１００ｂが誤学習する頻度が抑制される。そのため、音声信号変換システム１００ｂは、変換対象音声信号を目標とする音声により近づけることができる。

（第１変形例）
なお、音声信号変換システム１００、音声信号変換システム１００ａ及び音声信号変換システム１００ｂは、音声信号変換モデルを得るための学習に際して必ずしも話者情報を用いる必要は無い。たとえ話者情報を用いなくとも、学習において用いる複数の特徴対データの入力話者と目標話者とが特徴対データに依らず同一である場合には、話者情報を用いても用いなくても同様の音声信号変換モデルが得られる。また、学習において用いる複数の特徴対データの１つが他の特徴対データと異なる入力話者及び目標話者の場合であっても、話者情報を用いない場合よりは変換の精度が下がるが音声信号を目標とする音声信号に近づける音声信号変換モデルを得ることはできる。

（第２変形例）
なお、第１損失関数、第２損失関数、第３損失関数は、注意行列損失項を含んでもよい。注意逆損失項は、順方向注意行列Ａ_Ｘ→Ｙと対角行列との違いを表す。注意行列損失項は、例えば以下の式（２１）で表される。式（２１）の左辺は、注意行列損失項を表す。

式（２１）の損失を小さくする処理は、順方向注意行列Ａ_Ｘ→Ｙを対角行列に近づける処理に同値である。学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙとの類似の度合が高い場合、データ点ｘ_ｉとデータ点ｙ_ｗとは類似の度合が高い。Ｗは、ｉにＩ／Ｊを掛け算した値に最も近い整数である。

そのため、学習用入力音声特徴量系列Ｘと学習用目標音声特徴量系列Ｙとの類似の度合が高いことが予め知られている場合、順方向注意行列Ａ_Ｘ→Ｙは対角行列に近づくことが望ましい（参考文献１参照）。

参考文献１：Hideyuki Tachibana, Katsuya Uenoyama, and Shunsuke Aihara, “Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4784-4788, 2018.

なお、式（２１）においてノルムはＬ^１ノルムであるが、必ずしもＬ^１ノルムである必要はなく、Ｌ^Ｐノルムであってもよい。

（第３変形例）
第２損失関数は、基本損失項と循環注意損失項とにくわえて、さらに文脈損失項を含んでもよい。第２損失関数は、基本損失項と循環注意損失項とにくわえて、さらに注意考慮型コントラスティブ損失項を含んでもよい。第２損失関数は、基本損失項と循環注意損失項とにくわえて、さらに文脈損失項及び注意考慮型コントラスティブ損失項を含んでもよい。基本損失項、循環注意損失項、注意行列損失項、文脈損失項及び注意考慮型コントラスティブ損失項を含む第２損失関数は、例えば以下の式（２２）で表される統合損失関数である。式（２２）の左辺が、統合損失関数を表す。

式（２２）のλ_ｇａは、統合損失関数における注意行列損失項の重みを表す。式（２２）のλ_ｃｐは、統合損失関数における文脈損失項の重みを表す。式（２２）のλ_ｃａｌは、統合損失関数における循環注意損失項の重みを表す。式（２２）のλ_ｃｌは、統合損失関数における注意考慮型コントラスティブ損失項の重みを表す。

第３損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに文脈損失項を含んでもよい。第３損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに循環注意損失項を含んでもよい。第３損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに文脈損失項及び循環注意損失項を含んでもよい。すなわち第３損失関数は、統合損失関数であってもよい。

（第１実験の結果）
以下、図１６及び図１７を用いて第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第１実験の結果を示す。

図１６は、第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第１実験の結果を示す第１の図である。第１実験は、参考文献２の英語音声データセットにおける１１３２文を用いて行われた。１１３２文のうち１０００文（約１時間に相当）が学習用データとして用いられた。１１３２文のうち１３２文が学習済みモデルの評価のために用いられた。第１実験は、音声の自然性及び話者類似性に関する比較実験であった。第１実験において入力話者は男女１名であり、目標話者も男女１名であった。図１６におけるｒｍｓ及びｃｌｂは入力話者の名前である。ｂｌｄ及びｓｌｔは目標話者の名前である。音声のサンプリングレートは１６ｋＨｚであった。

参考文献２：John Kominek and Alan W. Black, “The CMU Arctic speech databases,” 2004 ISCA Speech Synthesis Workshop (SSW), pp.223-224, 2004.

図１６は第１実験の実験結果は、１５名の被験者それぞれに、３つの学習方法に４通りの学習用データを適用した結果得られた合計１２の学習済みモデルについて各８０回ずつ、人の声か否かを判定してもらった結果を示す。４通りの学習用データの違いは、入力話者と目標話者との組合せの違いである。

４通りの学習用データの１つは、入力話者がｒｍｓであり目標話者がｂｄｌの学習用データである。図１６において、入力話者がｒｍｓであり目標話者がｂｄｌの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“ｒｍｓ－ｂｌｄ”のグラフである。

４通りの学習用データの１つは、入力話者がｒｍｓであり目標話者がｓｌｔの学習用データである。図１６において、入力話者がｒｍｓであり目標話者がｓｌｔの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“ｒｍｓ－ｓｌｔ”のグラフである。

４通りの学習用データの１つは、入力話者がｃｌｂであり目標話者がｂｄｌの学習用データである。図１６において、入力話者がｃｌｂであり目標話者がｂｄｌの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“ｃｌｂ－ｂｄｌ”のグラフである。

４通りの学習用データの１つは、入力話者がｃｌｂであり目標話者がｓｌｔの学習用データである。図１６において、入力話者がｃｌｂであり目標話者がｓｌｔの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“ｃｌｂ－ｓｌｔ”のグラフである。

図１６において“ｓｕｍｍａｒｙ”のグラフは、４通りの学習用データそれぞれの結果を平均した結果を示す。図１６において、横軸は、“ｓｕｍｍａｒｙ”のグラフと、ｒｍｓ－ｂｌｄ”のグラフと、“ｒｍｓ－ｓｌｔ”のグラフと、“ｃｌｂ－ｂｄｌ”のグラフと、“ｃｌｂ－ｓｌｔ”のグラフとの図１６上の位置を示す。

図１６において、“Ｐｒｏｐｏｓｅｄ”は、第２実施形態の音声信号変換システム１００ａで得られた音声信号変換モデルを用いた音声変換を表す。図１６において、“ＧＭＭ－ＶＣ－ｗＧＶ”は、参考文献３に記載の技術で得られた音声信号変換モデルを用いた音声変換を表す。学習は参考文献４に記載のオープンソースツールキットを用いて行われた。

参考文献３：Tomoki Toda, Alan W. Black, and Keiichi Tokuda, “Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory,” IEEE Transactions on Audio, Speech and Language Processing (TASLP), vol.15, no.8, pp.2222-2235, 2007.

参考文献４：Kazuhiro Kobayashi and Tomoki Toda, “sprocket: Open-source voice conversion software,” Proc. Odyssey 2018 The Speaker and Language Recognition Workshop, pp.203-210, 2018.

図１６において、“ＬＳＴＭ－ＴＴＳ”は、非特許文献２及び３に記載の技術で得られた音声信号変換モデルを用いた音声変換を表す。学習は、音声認識モジュールが完璧に動作したと仮定した場合に、テキスト音声合成モジュールのみに着目できるため、テキスト音声合成により生成される音声との比較により行われた。コンテキスト情報は、参考文献５に記載のオープンソースツールキットに従って抽出された。音声特徴量は、参考文献６に記載のシステムにより抽出された６０次元のメルケプストラムと、対数Ｆ_０と、音声信号に含まれる成分のうち空気の震え等の雑音成分である非周期成分とが用いられた。Ｆ_０は周期信号成分の基本周波数である。継続長モデルとして、２５６次元のセルを持つ３層の長・短期記憶モデル（Long Short-Term Memory: ＬＳＴＭ）及び線形射影が用いられた。音響特徴量モデルとして、２５６次元のセルを持つ３層の双方向ＬＳＴＭ及び線形射影が用いられた。

参考文献５：Zhizheng Wu, Oliver Watts, and Simon King, “Merlin: An open source neural network speech synthesis system,”2016 ISCA Speech Synthesis Workshop (SSW), pp.202-207, 2016.

参考文献６：Masanori. Morise, Fumiya. Yokomori, and Kenji. Ozawa, “WORLD: a vocoder-based high-quality speech synthesis system for real-time applications,” IEICE Transactions on Information and Systems,vol.99, no.7, pp.1877-1884, 2016.

図１６の縦軸は、“Ｐｒｏｐｏｓｅｄ”が人の声に近いと判定された割合と、“ＧＭＭ－ＶＣ－ｗＧＶ”が人の声に近いと判定された割合と、“ＬＳＴＭ－ＴＴＳ”が人の声に近いと判定された割合と、第１非判定割合（図１６における“Ｆａｉｒ”）とを示す。第１非判定割合は、人の声の近さについて“Ｐｒｏｐｏｓｅｄ”と、“ＧＭＭ－ＶＣ－ｗＧＶ”と、“ＬＳＴＭ－ＴＴＳ”との間に優劣はつけられないと判定された割合である。

図１７は、第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第１実験の結果を示す第２の図である。

図１７の実験結果は、１５名の被験者に各学習済みによる音声変換の結果は目標話者の音声に近いか否かを判定してもらった結果である。図１７の横軸の意味は、図１６の横軸の意味と同じである。図１７の縦軸は、“Ｐｒｏｐｏｓｅｄ”による音声変換の結果は目標話者の音声に近いと判定された割合と、“ＧＭＭ－ＶＣ－ｗＧＶ” による音声変換の結果は目標話者の音声に近いと判定された割合と、“ＬＳＴＭ－ＴＴＳ” による音声変換の結果は目標話者の音声に近いと判定された割合と、第２非判定割合（図１７における“Ｆａｉｒ”）とを示す。第２非判定割合は、目標話者の音声への近さについて“Ｐｒｏｐｏｓｅｄ”と、“ＧＭＭ－ＶＣ－ｗＧＶ”と、“ＬＳＴＭ－ＴＴＳ”との間に優劣はつけられないと判定された割合である。

図１６及び図１７は、“ＧＭＭ－ＶＣ－ｗＧＶ”よりも“Ｐｒｏｐｏｓｅｄ”の方が、自然性（すなわち人の声に近い度合）及び話者類似性の両方が向上していることを示す。話者類似性は、具体的には目標話者に近い度合である。この結果は、声質や抑揚、話速といった様々な特徴量を同時に変換できる“Ｐｒｏｐｏｓｅｄ”が音声変換において有効であることを示す。

図１６及び図１７は、“Ｐｒｏｐｏｓｅｄ”が“ＬＳＴＭ－ＴＴＳ”と同程度の性能を達成していることを示す。この結果は、“Ｐｒｏｐｏｓｅｄ”がテキストラベルを使わず音声データのみから文脈情報に相当する情報を抽出し、話者性を変更する支配的な要素を学習できたことを示す。

なお、第１実験では環境雑音が無い収録室で録音した実験データが用いられた。ここで非特許文献１に記載の実験（以下「先行実験」という。）の結果と第１実験の結果とを比較すると、両者には差が無いことがわかる。先行実験と第１実験との違いは循環注意損失項及び注意考慮型コントラスティブ損失項を用いるか否かの違いであり、循環注意損失項及び注意考慮型コントラスティブ損失項を用いた学習では雑音が多い環境で録音されたデータを用いても雑音の影響が軽減される。第１実験では、先行実験と異なり循環注意損失項及び注意考慮型コントラスティブ損失項を用いているものの、環境雑音が無い収録室で録音した実験データが用いられた。そのため、第１実験の結果と先行実験の結果には差が無い。

（第２実験の結果）
以下、図１８及び図１９を用いて第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第２実験の結果を示す。第２実験は、自己や病気により生体を含む喉頭摘出をし、通常発声が困難になった人に音声信号変換システム１００ａを適用した結果を示す。このような人は、電気式人工喉頭と呼ばれる外部音源を用いて音声（電気音声信号）を発生する。第２実験では、音声信号変換システム１００ａが、このような電気音声信号から健常者の音声を予測する。電気音声信号は、電気式人工喉頭と呼ばれる外部音源を用いて発生された音声である。

電気音声信号は、音源を生成する電気式人工喉頭に起因して、抑揚成分がフラットな抑揚(例えば、１００Ｈｚ固定など)となってしまう音声である。従来の音声変換の技術では、抑揚成分が無い場合に予測は困難であったため、抑揚成分が欠落した音声から抑揚成分を含めて通常音声を予測できるか、という点が実験の肝の１つであった。なお、モデルは話者情報を用いた学習によって得られた。

図１８は、第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第２実験の結果を示す第１の図である。

第２実験は、参考文献７の日本語音声データセットにおける５０３文を用いて行われた。５０３文のうち４５０文が学習用データとして用いられた。５０３文のうち５３文が学習済みモデルの評価のために用いられた。図１８の縦軸は、目標音声の基本周波数と変換音声の基本周波数との相関係数を示す。相関係数は、音声信号変換装置２による基本周波数の予測精度を示す。図１８の横軸は目標話者を示す。

参考文献７：John Kominek and Alan W. Black, “The CMU Arctic speech databases,” 2004 ISCA Speech Synthesis Workshop (SSW), pp.223-224, 2004.

第２実験における変換対象音声信号は、アナウンサー又はナレータである男性６人（Ｍ１～Ｍ６）と女性４人（Ｆ１～Ｆ４）とにより発生された通常音声の音声信号と、男性健常者１名により模擬発声された電気音声信号（ＥＬ）とであった。音声のサンプリングレートは１６ｋＨｚであった。

図１９は、第２損失関数が統合損失関数である第２実施形態の音声信号変換システム１００ａを用いた音声変換の第２実験の結果を示す第２の図である。

図１９の縦軸は、目標音声の基本周波数と変換音声の基本周波数との相関係数を示す。図１９の横軸は入力話者を示す。

図１８及び図１９は、入力音声が通常音声ではなく電気音声の時に劣化が生じていることを示す。通常音声から通常音声への変換の場合には、入力特徴量に基本周波数の情報が入り込むため、電気音声を入力とした時と比べて予測のために韻律成分が含まれた通常音声は有利な特徴量である可能性が高い。

仮に、入力音声の基本周波数のみを手掛かりに音声信号変換装置２が予測を行なった場合、入力話者と目標話者が同じ話者である場合の予測精度が最も高くなるはずである。しかし、図１８及び図１９の実験結果はそうではないことを示す。この結果は、基本周波数成分を予測するのに、ある程度、入力音声の音韻情報を手掛かりに予測できていることを示す。それゆえに、図１８及び図１９では、電気音声信号を入力とした際の劣化度合いが、目標話者に依存せず一定量である確率が高い。逆に電気音声信号を入力音声とした際の予測精度が通常音声を入力とした際の予測精度と同等になることは、中間表現として音韻情報を正確に学習できていることを示す。また、図１８及び図１９は、話者には依存せず、目標話者としてモデル化が難しい話者（例えば、Ｍ５）が存在することを示す。

（第４変形例）
なお、音声信号変換装置２は、順方向注意行列Ａ_Ｘ→Ｙに代えて予め記憶部２３に記録された対角行列を用いて音声の変換を行ってもよい。上述したように順方向注意行列Ａ_Ｘ→Ｙのｉ行ｊ列の要素はデータ点ｋ_ｉとデータ点ｑ_ｊとの類似の度合の期待値を表す。そのため、順方向注意行列Ａ_Ｘ→Ｙを用いて音声の変換を行う場合、変換対象音声信号の全てが音声信号変換装置２に入力されてからでないと音声信号変換装置２は音声変換を実行することができない。一方、予め用意された対角行列を用いる場合、変換対象音声信号の一部が音声信号変換装置２に入力されていれば音声変換を実行することができる。そのため、予め用意された対角行列を用いる場合、音声信号変換装置２は、変換対象音声信号が全て入力されるまで待機する必要がなく、音声変換のリアルタイム性を向上させることができる。

なお、注意行列Ａの生成時に埋め込み目標系列Ｋ_ｘにおいて該当時間の直近のデータ点のみを用い、セグメント化するなどして未来のデータ点を用いないことでも、音声信号変換装置２による音声変換のリアルタイム性を向上させることができる。

（第５変形例）
なお、音声信号変換モデル学習装置１、１ａ及び１ｂは、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音声信号変換モデル学習装置１、１ａ及び１ｂが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。なお、音声信号変換装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音声信号変換モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

なお、音声信号変換モデル学習装置１、１ａ又は１ｂと音声信号変換装置２とは、必ずしも異なる装置として実装される必要は無い。音声信号変換モデル学習装置１、１ａ又は１ｂと音声信号変換装置２とは、例えば両者の機能を併せ持つ１つの装置として実装されてもよい。

なお、音声信号変換モデル学習装置１、１ａ及び１ｂと音声信号変換装置２の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００、１００ａ、１００ｂ…音声信号変換システム、１、１ａ、１ｂ…音声信号変換モデル学習装置、２…音声信号変換装置、１０、１０ａ、１０ｂ…制御部、１１…入力部、１２…インタフェース部、１３…記憶部、１４…出力部、１０１、１０１ａ…被管理部、１０２、１０２ａ…管理部、１１０…エンコード部、１１１…入力側エンコード部、１１２…目標側エンコード部、１２０、１２０ａ…系列長調整部、１３０…目標側デコード部、１３１…第１目標側デコード部、１３２…第２目標側デコード部、１４０…入力側デコード部、１５０…損失取得部、２０…制御部、２１…入力部、２２…インタフェース部、２３…記憶部、２４…出力部、２０１…変換対象取得部、２０２…系列エンコード部、２０３…変換部、２０４…系列デコード部、２０５…音声信号出力制御部

Claims

音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、
前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、
前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、
文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果である第２目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、
前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコード部、前記系列長調整部、前記第１目標側デコード部、前記第２目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習し、
前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
音声信号変換モデル学習装置。
前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列の各列の最大値を与える要素を最大要素として、前記注意行列の要素のうち最大要素以外の各要素の値について０との違いを表す、注意考慮型コントラスティブ損失項をさらに含む、
請求項１に記載の音声信号変換モデル学習装置。
前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
請求項１又は２のいずれか一項に記載の音声信号変換モデル学習装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、
前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、
循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、
前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコード部、前記系列長調整部、前記第１目標側デコード部及び前記第２目標側デコード部は前記損失関数の値に基づいて学習する、
音声信号変換モデル学習装置。
前記学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部、
を備え、
前記損失関数は、前記第２目標側推定系列と前記学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いとを表す文脈損失項、をさらに含む、
請求項４に記載の音声信号変換モデル学習装置。
前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列の各列の最大値を与える要素を最大要素として、前記注意行列の要素のうち最大要素以外の各要素の値について０との違いを表す、注意考慮型コントラスティブ損失項をさらに含む、
請求項４又は５に記載の音声信号変換モデル学習装置。
前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
請求項４から６のいずれか一項に記載の音声信号変換モデル学習装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、
前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、
注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について０との違いを表し、
前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコード部、前記系列長調整部、前記第１目標側デコード部及び前記第２目標側デコード部は前記損失関数の値に基づいて学習する、
音声信号変換モデル学習装置。
前記学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部、
を備え、
前記損失関数は、前記第２目標側推定系列と前記学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いとを表す文脈損失項、をさらに含む、
請求項８に記載の音声信号変換モデル学習装置。
前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
請求項８又は９に記載の音声信号変換モデル学習装置。
前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
請求項８から１０のいずれか一項に記載の音声信号変換モデル学習装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果である第２目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第１目標側デコード部、前記第２目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習し、前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
を備える音声信号変換装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第１目標側デコード部及び前記第２目標側デコード部は前記損失関数の値に基づいて学習する音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
を備える音声信号変換装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコード部と、注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について０との違いを表し、前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第１目標側デコード部及び前記第２目標側デコード部は前記損失関数の値に基づいて学習する音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
を備える音声信号変換装置。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整ステップと、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコードステップと、
前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコードステップと、
前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコードステップによってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコードステップと、
文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果である第２目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、
前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコードステップ、前記系列長調整ステップ、前記第１目標側デコードステップ、前記第２目標側デコードステップ及び前記入力側デコードステップは前記損失関数の値に基づいて学習し、
前記損失関数は、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
音声信号変換モデル学習方法。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整ステップと、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコードステップと、
前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコードステップと、
循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、
前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコードステップ、前記系列長調整ステップ、前記第１目標側デコードステップ及び前記第２目標側デコードステップは前記損失関数の値に基づいて学習する、
音声信号変換モデル学習方法。
音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整ステップと、
前記他方の音声特徴量時系列に対して第１目標側デコード処理を実行する第１目標側デコードステップと、
前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第２目標側デコード処理を実行する第２目標側デコードステップと、
注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した結果を第２目標側推定系列として、前記第２目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第１目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第２目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について０との違いを表し、
前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第１目標側デコード処理をこの順に実行した結果である第１目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
前記エンコードステップ、前記系列長調整ステップ、前記第１目標側デコードステップ及び前記第２目標側デコードステップは前記損失関数の値に基づいて学習する、
音声信号変換モデル学習方法。
請求項１から１１のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
請求項１２から１４のいずれか一項に記載の音声信号変換装置としてコンピュータを機能させるためのプログラム。