JP7492159B2 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDF

Info

Publication number
JP7492159B2
JP7492159B2 JP2022539804A JP2022539804A JP7492159B2 JP 7492159 B2 JP7492159 B2 JP 7492159B2 JP 2022539804 A JP2022539804 A JP 2022539804A JP 2022539804 A JP2022539804 A JP 2022539804A JP 7492159 B2 JP7492159 B2 JP 7492159B2
Authority
JP
Japan
Prior art keywords
voice
unit
input
signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022539804A
Other languages
English (en)
Other versions
JPWO2022024183A1 (ja
Inventor
卓弘 金子
弘和 亀岡
宏 田中
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022024183A1 publication Critical patent/JPWO2022024183A1/ja
Application granted granted Critical
Publication of JP7492159B2 publication Critical patent/JP7492159B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

特許法第30条第2項適用 ・電気通信回線を通じた発表:論文”StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion”のアブストラクトver.1 の発表 掲載年月日:2019年7月29日、 掲載アドレス:https://arxiv.org/abs/1907.12279v1 ・電気通信回線を通じた発表:論文”StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion“のPDFファイルのver.1 の発表 掲載年月日:2019年7月29日 掲載アドレスhttps://arxiv.org/pdf/1907.12279v1.pdf ・電気通信回線を通じた発表:論文”StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion”のアブストラクトver.2 の発表 掲載年月日:2019年8月7日 掲載アドレスhttps://arxiv.org/abs/1907.12279v2 ・電気通信回線を通じた発表:論文”StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion“のPDFファイルのver.2 の発表 掲載年月日:2019年8月7日 掲載アドレス:https://arxiv.org/pdf/1907.12279v2.pdf ・集会名:INTERSPEECH 2019, 集会場所:Messecongress Graz (Messeplatz 1,8010 Graz, Austria) 開催日:2019年9月15日~19日 ・電気通信回線を通じた発表:上記 INTERSPEECH 2019の予稿(ブックレット)の発表 掲載年月日:2019年9月15日 掲載アドレス:https://www.isca-speech.org/archive/pdfs/interspeech_2019/interspeech_2019.pdf
特許法第30条第2項適用 ・電気通信回線を通じた発表:上記 INTERSPEECH 2019の予稿(要旨)の発表 掲載年月日:2019年9月15日 掲載アドレス:https://www.isca-speech.org/archive/interspeech_2019/kaneko19_interspeech.html ・電気通信回線を通じた発表:上記 INTERSPEECH 2019の予稿(論文)の発表 掲載年月日:2019年9月15日 掲載アドレス:https://www.isca-speech.org/archive/pdfs/interspeech_2019/kaneko19_interspeech.pdf ・電気通信回線を通じた発表:「音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム」に関する技術の、発明者の金子卓弘のホームページにおける発表 掲載年月日:2019年9月6日 掲載アドレス:https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/stargan-vc2/resources/Kaneko_StarGAN-VC2_Interspeech_2019_poster.pdf
本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。
入力された音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。音質変換の技術の1つとして、例えば機械学習を用いることが提案されている。そのような機械学習を用いる技術の1つとして、敵対的生成ネットワーク等の生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用いる技術であって、変換先を示す情報を生成器及び識別器に導入する技術が提案されている(非特許文献1)。また、生成器及び識別器を備えそれらが学習により更新されるシステム又は装置を用い、変換結果が対象の属性に属するような制約条件を課すという技術も提案されている(非特許文献1)。
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo,"STARGAN-VC: NON-PARALLEL MANY-TO-MANY VOICE CONVERSION WITH STAR GENERATIVE ADVERSARIAL NETWORKS", arXiv:1806.02169v2
しかしながら、上述の従来技術等では、変換元の属性と変換先の属性との候補がどちらも多数ある場合に、適切に音声の変換ができない場合があった。例えば、男性の音声から女性の音声に変換する場合、男性との違いが明確に表れる高音の音域に重心を置いて変換されるため、対象とする女性の通常の音域よりも高音に偏りが出ることがある。また、例えば多対多変換の場合、女性の音声から女性の音声への変換と、女性の音声から男性の音声への変換のように、変換の難しさが異なる変換を同時に学習する必要がある。このような場合に、全ての組合せに対して均等に学習することができなくなることがあった。その結果、学習結果のモデルによる変換の結果の経験分布は、学習データの経験分布と乖離する場合があった。なお経験分布とは、データの特徴量を確率変数とする確率分布を意味する。
上記事情に鑑み、本発明は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することを目的としている。
本発明の一態様は、入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置である。
本発明により、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とする技術を提供することが可能となる。
実施形態の音声信号生成システム100の概要を説明する説明図。 実施形態における音声信号変換モデル学習装置1の概要を説明する説明図。 実施形態における第1種データ生成処理の流れの一例を説明する説明図。 実施形態における第2種データ生成処理の流れの一例を説明する説明図。 実施形態における識別部120が実行する処理の流れの一例を説明する説明図。 実施形態の音声信号変換モデル学習装置1が実行する処理の流れの一例を示す第1の図。 実施形態の音声信号変換モデル学習装置1のハードウェア構成の一例を示す図。 実施形態における制御部10の機能構成の一例を示す図。 実施形態における音声信号変換装置2のハードウェア構成の一例を示す図。 実施形態における制御部20の機能構成の一例を示す図。 実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャート。 第2変形例における生成部110の機能構成の一例を示す図。 第2変形例における生成部110が実行する処理の流れの一例を示すフローチャート。 目的関数の違いによるMCDの違いと、MSDの違いとを示す実験の結果の図である。 生成部110の機能構成の違いによる、MCDの違いとMSDの違いとを示す実験の結果の図。 目的関数と生成部110の機能構成との組合せの違いによる、MOSを示す実験の結果の図。 目的関数と生成部110の機能構成との組合せの違いによる、Average preference scores on speaker similarityを示す実験の結果の図。
(実施形態)
図1及び図2を用いて、実施形態の音声信号生成システム100の概要を説明する。図1は、実施形態の音声信号生成システム100の概要を説明する説明図である。音声信号生成システム100は、第1の話者(以下「第1話者」という。)が発した音声(以下「第1話者音声」という。)を表す音声信号(以下「変換対象音声信号」という。)を変換済み音声信号に変換する。変換済み音声信号は、内容は変換対象音声信号と同一でありながら第1話者が発した音声が有する音響特徴(Acoustic Feature)よりも第2話者が発した音声が有する音響特徴を有する音声を表す音声信号である。第2話者は、変換済み音声信号が表す音声の話者としてユーザ等により音声信号生成システム100に予め指示された話者である。
音声信号生成システム100は、音声信号変換モデル学習装置1及び音声信号変換装置2を備える。音声信号変換モデル学習装置1は、変換対象音声信号を変換済み音声信号に変換する機械学習のモデル(以下「音声信号変換モデル」という。)を所定の終了条件が満たされるまで機械学習によって更新する。
以下説明の簡単のため、機械学習を行うことを学習という。また、機械学習のモデル(以下「機械学習モデル」という。)を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。なお、学習用とは、機械学習モデルの更新に用いられることを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは条件を表す。
図2は、実施形態における音声信号変換モデル学習装置1の概要を説明する説明図である。音声信号変換モデル学習装置1は、第1学習用データ及び第2学習用データを用いて学習を行うことで音声信号変換モデルを更新する。なお、以下第1学習用データと第2学習用データとを区別しない場合、それらを学習用データという。
第1学習用データは、音声信号、変換元話者情報及び変換先話者情報を有するデータである。変換元話者情報は、第1学習用データが示す音声信号(以下「第1学習用音声信号」という。)が表す音声(以下「第1学習用音声」という。)の話者を示す。変換先話者情報は、第1学習用音声信号の音声信号変換モデルによる変換先の音声信号(以下「第1種生成信号」という。)が表す音声(以下「第1種生成音声」という。)の話者として予め設定された話者を示す。設定は例えばユーザが行う。変換元話者情報が示す話者と変換先話者情報が示す話者とは同一であってもよいし、異なってもよい。以下説明の簡単のため、第1学習用音声信号がSであり、変換元話者情報が示す話者がCであり、変換先話者情報が示す話者がCである第1学習用データを(S、C、C)と表現する。なお、(A1、A2、A3)の記号は、情報A1、情報A2及び情報A3の一組の情報が後述する生成部110に入力される情報であることを示す。
第2学習用データは、音声信号、ランダム話者情報及び話者識別情報を含む。話者識別情報は、第2学習用データが示す音声信号(以下「第2学習用音声信号」という。)が表す音声(以下「第2学習用音声」という。)の話者として予め設定された話者を示す。ランダム話者情報は、予め用意された複数の話者のうち後述する決定部130によりランダムに決定された話者を示す情報である。ランダムな決定は、乱数発生器等の乱数を発生する技術を用いて決定される。以下説明の簡単のため、第2学習用音声信号がS´であり、ランダム話者情報が示す話者がC´であり、話者識別情報が示す話者がC´である第2学習用データを[S´、C´、C´]と表現する。なお、以下、[A1、A2、A3]の記号は情報A1、情報A2及び情報A3の一組の情報が後述する識別部120又は損失取得部140へ入力される情報であることを示す。
音声信号変換モデル学習装置1は、生成部110、識別部120、決定部130及び損失取得部140を備える。生成部110は、第1学習用データを取得し、取得した第1学習用データ(S、C、C)を用いて第1種データ生成処理及び第2種データ生成処理を実行する。
第1種データ生成処理は、取得した第1学習用データに基づき音声信号変換モデルにより第1種生成データを生成する処理である。第1種生成データは、第1種生成信号、変換元話者情報及び変換先話者情報を有するデータである。そのため、第1学習用データの表現に倣って第1種生成データを記号で表現すれば、第1種生成信号がSである場合に、第1種生成データは[S、C、C]と表現される。
第2種データ生成処理は、第1種データ生成処理によって生成した第1種生成データに基づき第2種生成データを生成する処理である。第2種生成データは、第2種生成信号、変換元話者情報及び変換先話者情報を有する。第2種生成信号は、逆生成用データに対する第1種データ生成処理の実行結果が示す音声信号(以下「逆音声信号」という。)である。
逆生成用データは、第1種生成データの変換元話者情報を変換先話者情報とし、第1種生成データの変換先話者情報を変換元話者情報とし、第1種生成信号を第1学習用音声信号とする第1学習用データである。そのため、第1学習用データの表現に倣って逆生成用データを記号で表現すれば、逆生成用データは(S、C、C)と表現される。
また、逆生成用データが(S、C、C)と表現されるため、第1学習用データの表現に倣って第2種生成データを記号で表現すれば、逆音声信号がSである場合、第2種生成データは[S、C、C]と表現される。このように、第2種データ生成処理は、逆生成用データに対する第1種データ生成処理である。
生成部110は、生成した第1種生成データを識別部120に出力する。生成部110は、生成した第2種生成データを損失取得部140に出力する。
以下、第1種生成データが有する変換元話者情報と変換先話者情報との1対の情報を第1対情報という。以下、第2学習用データが有するランダム話者情報及び話者識別情報との1対の情報を第2対情報という。第1対情報と第2対情報とはどちらも、話者を示す1対の情報である。そこで、以下、第1対情報と第2対情報とを区別しない場合、対情報という。また、第1対情報と第2対情報とはどちらも、対情報を含む第1種生成データ又は第2学習用データが含む音声信号の話者としてユーザ等により予め設定された話者を示す情報を含む。具体的には、第1種生成データが含む変換先話者情報は第1対情報が含む情報であって予め設定された話者を示す情報であり、第2学習用データが含む話者識別情報は第2対情報が含む情報であって予め設定された話者を示す情報である。以下、第1種生成データが含む変換先話者情報と、第2学習用データが含む話者識別情報とを区別しない場合、話者設定情報という。
識別部120は、音声推定処理を実行する。音声推定処理は、処理対象の音声信号について、処理対象の音声信号の対情報に基づき対情報が示す情報のうち話者設定情報が示す話者が実際に発した音声を表す音声信号か否かを推定する処理である。
識別部120の処理対象の音声信号は、識別部120に入力されたデータであって音声信号を含むデータ(以下「識別入力データ」という。)が示す音声信号の表す音声(以下「識別音声」という。)である。識別入力データは、具体的には第1種生成データと第2学習用データとである。識別部120の推定結果は、損失取得部140に出力される。
決定部130は、識別入力データを第1種生成データと第2学習用データとのいずれにするかを所定の規則に従って決定する。所定の規則は識別入力データを決定可能であればどのような規則であってもよく、例えば乱数発生器で発生させた乱数を用い、第1学習用データと第2学習用データとを等確率で識別入力データに決定する規則である。
決定部130は、第1種生成データを識別入力データに決定した場合、生成部110に入力させる第1学習用データを第1学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。第1学習用データ群は、第1学習用データの集合である。所定の規則は、生成部110に入力させる第1学習用データを第1学習用データ群に含まれる複数のデータの中から決定可能であればどのような規則であってもよい。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。
決定部130は、第2学習用データを識別入力データに決定した場合、識別部120に入力させる第2学習用データを第2学習用データ群に含まれる複数のデータの中から所定の規則に従って決定する。所定の規則は、例えば予め各データに付与された順序に従う、という規則であってもよい。所定の規則はランダムサンプリングに従うという規則であってもよい。第2学習用データ群は、第2学習用データの集合である。第1学習用データ群及び第2学習用データ群の各データは、音声信号変換モデル学習装置1が備える後述する記憶部に記憶済みのデータである。
決定部130は、識別入力データを第1種生成データに決定したか第2学習用データに決定したかを示す情報(以下「経路情報」という。)を損失取得部140に出力する。
決定部130によって第1種生成データが識別入力データに決定された場合には、生成部110は、決定部130により生成部110に入力させる第1学習用データとして決定された第1学習用データを取得する。決定部130によって第2学習用データが識別入力データに決定された場合には、識別部120は、識別部120に入力させる第2学習用データとして決定部130により決定された第2学習用データを取得する。
また決定部130は、第2学習用データを識別入力データに決定した場合、ランダム話者情報も決定する。
損失取得部140は、識別入力データ、第2種生成データ及び経路情報を取得し、以下の式(1)~(4)で表される目的関数Lの値(以下「目的損失」という。)を取得する。目的関数Lは、以下の式(2)で表される拡張型敵対的損失関数と、以下の式(3)で表される循環型損失関数と、以下の式(4)で表される恒等損失関数とを含む。
Figure 0007492159000001
Figure 0007492159000002
Figure 0007492159000003
Figure 0007492159000004
Dは、識別部120が実行する自然音声推定処理による識別入力データから推定結果への写像を表す。Gは、生成部110が実行する第1種データ生成処理によるデータの変換を表現する写像を表す。
xは、識別入力データが示す音声信号を表す。式(2)~(4)におけるEの下付き文字のうち、(x、c)~P(x、c)は、学習データの分布P(x、c)から音響特徴量xと音響特徴量xに対応する話者情報cとをサンプリングすることを示す。なお、話者情報とは、変換元話者情報、変換先話者情報、ランダム話者情報又は話者識別情報を意味する。なお学習データの分布とは、具体的には、第1学習用データ群における第1学習用データの特徴量を確率変数とする確率分布を表す。すなわち、P(x、c)は多次元分布で、横軸は、(x、c)の各次元を表す。Eは期待値を表す。
式(2)~(4)のにおけるEの下付き文字のうち、c~P(c)は話者情報をランダムにサンプリングすることを示す。
なお式(2)の右辺第1項のx、c、cは順に、第2学習用データのS´、C´1,C´を表す。なお式(2)の右辺第2項のc、cは順に、第1学習用データ及び第1種生成データのC、Cを表し、xは、第1学習用データのSを表し、G(x、c、c)は、第1種生成データのSを表す。なお式(3)の右辺のc、cは順に、第1学習用データ及び逆生成用データ及び第2種生成データのC、Cを表す。なお式(3)の右辺のxは、第1学習用データのSを表す。なお式(3)の右辺のG(x、c、c)は、逆生成用データのSを表し、G(G(x、c、c)c、c)は、第2種生成データのSを表す。なお式(4)の右辺のxは、第1学習用データのSを表し、cは、第1学習用データのC及びCを表す。
拡張型敵対的損失関数の値(以下「拡張型敵対的損失」という。)は、識別部120が推定した音質類と、識別音声の音質類との違いを示す。なお、識別音声の話者は、第1種生成データが識別入力データであることを経路情報が示す場合には変換先話者情報が示す話者であり、第2学習用データが識別入力データであることを経路情報が示す場合には話者識別情報が示す話者である。なお、識別音声が第2学習用音声である場合には識別音声の音質類は自然音声集合であり、識別音声が第1種生成音声である場合には識別音声の音質類は合成音声集合である。
循環型損失関数の値(以下「循環型損失」という。)は、第2種生成データが示す音声信号(すなわち第2種生成信号)と第1学習用データが示す音声信号(すなわち第1学習用音声信号)との違いを示す。
恒等損失関数は、生成部110へ入力される第1学習用データの変換元話者情報が示す話者と第1学習用データの変換先話者情報が示す話者とが同一である場合に、第1学習用音声と第1種生成音声とが同一になるよう制約をかけるために導入される損失関数である。
損失取得部140が取得した目的損失は、生成部110及び識別部120に出力される。生成部110及び識別部120は、目的損失に基づき学習する。より具体的には、例えば生成部110は目的損失を小さくするように学習し、識別部120は拡張型敵対的損失関数を大きくするように学習する。生成部110及び識別部120は、目的損失に基づいて学習可能であればどのようなものであってもよく、生成部110及び識別部120は、例えばニューラルネットワークである。
図3は、実施形態における第1種データ生成処理の流れの一例を説明する説明図である。
生成部110が第1学習用データを取得する(ステップS101)。次に生成部110は第1学習用データに基づき第1種生成データを生成する(ステップS102)。
図4は、実施形態における第2種データ生成処理の流れの一例を説明する説明図である。
生成部110が第1種生成データを取得する(ステップS201)。ステップS201の処理はステップS102の処理であってもよいし、ステップS102の処理で生成された第1種生成データを生成部110が改めて取得しなおす処理であってもよい。次に生成部110は、第1種生成データに基づき、逆生成用データに対する第1種データ生成処理を実行することで第2種生成データを生成する(ステップS202)。
図5は、実施形態における識別部120が実行する処理の流れの一例を説明する説明図である。
識別部120は、識別入力データを取得する(ステップS301)。識別部120は、音声推定処理を実行する(ステップS302)。
図6は、実施形態の音声信号変換モデル学習装置1が実行する処理の流れの一例を示す第1の図である。図3~図5に記載の処理と同様の処理については図3~図5と同じ符号を用いることで説明を省略する。
決定部130が識別入力データを第1種生成データに決定する(ステップS401)。次にステップS101の処理が実行される。次にステップS102の処理が実行される。次にステップS202の処理が実行される。次にステップS301の処理が実行される。次にステップS302の処理が実行される。次に、損失取得部140が、ステップS101で取得された第1学習用データと、第2種生成データと、ステップS302の推定結果とに基づき、目的損失を取得する(ステップS402)。目的損失に基づき、生成部110及び識別部120が学習する(ステップS403)。
図7は、実施形態の音声信号変換モデル学習装置1のハードウェア構成の一例を示す図である。
音声信号変換モデル学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音声信号変換モデル学習装置1は、プログラムの実行によって制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置1は、制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。
制御部10は、音声信号変換モデル学習装置1が備える各種機能部の動作を制御する。制御部10は、例えば第1種データ生成処理を実行する。制御部10は、例えば第2種データ生成処理を実行する。制御部10は、例えば自然音声推定処理を実行する。制御部10は、例えば話者推定処理を実行する。
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。入力部11は、例えば学習の開始を指示する入力を受け付ける。入力部11は、例えば第1学習用データ群に追加するデータの入力を受け付ける。入力部11は、例えば第2学習用データ群に追加するデータの入力を受け付ける。
インタフェース部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して外部装置と通信する。外部装置は、例えばUSB(Universal Serial Bus)メモリ等の記憶装置であってもよい。外部装置が例えば第1学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する第1学習用データを取得する。外部装置が例えば第2学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する第2学習用データを取得する。
インタフェース部12は、自装置を音声信号変換装置2に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して音声信号変換装置2と通信する。インタフェース部12は、音声信号変換装置2との通信により、音声信号変換装置2に学習済みの音声信号変換モデルを出力する。学習済みとは、所定の終了条件が満たされたことを意味する。
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音声信号変換モデル学習装置1に関する各種情報を記憶する。記憶部13は、例えば音声信号変換モデルを記憶する。記憶部13は、例えば予め第1学習用データ群を記憶する。記憶部13は、例えば予め第2学習用データ群を記憶する。記憶部13は、例えば入力部11又はインタフェース部12を介して入力された第1学習用データ及び第2学習用データを記憶する。記憶部13は、例えば識別部120の推定結果を記憶する。
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。
図8は、実施形態における制御部10の機能構成の一例を示す図である。
制御部10は、被管理部101及び管理部102を備える。被管理部101は、生成部110、識別部120、決定部130及び損失取得部140を備える。被管理部101は、第1学習用データ及び第2学習用データを用いて終了条件が満たされるまで音声信号変換モデルを更新する。
管理部102は、被管理部101の動作を制御する。管理部102は、例えば被管理部101が備える生成部110、識別部120、決定部130及び損失取得部140が実行する各処理のタイミングを制御する。
管理部102は、例えば入力部11、インタフェース部12、記憶部13及び出力部14の動作を制御する。管理部102は、例えば記憶部13から各種情報を読み出し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し記憶部13に記録する。管理部102、例えばインタフェース部12に入力された情報を取得し被管理部101に出力する。管理部102、例えばインタフェース部12に入力された情報を取得し記憶部13に記録する。管理部102は、例えば入力部11に入力された情報を出力部14に出力させる。
管理部102は、例えば生成部110の生成した第1種生成データを記憶部13に記録する。管理部102は、例えば識別部120の結果を記憶部13に記録する。管理部102は、例えば決定部130の決定結果を記憶部13に記録する。管理部102は、例えば損失取得部140の取得した損失を記憶部13に記録する。
図9は、実施形態における音声信号変換装置2のハードウェア構成の一例を示す図である。
音声信号変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部20を備え、プログラムを実行する。音声信号変換装置2は、プログラムの実行によって制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。より具体的には、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音声信号変換装置2は、制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。
制御部20は、音声信号変換装置2が備える各種機能部の動作を制御する。制御部20は、例えば音声信号変換モデル学習装置1が得た学習済みの音声信号変換モデルを用いて、変換対象音声信号を変換済み音声信号に変換する。
入力部21は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部21は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部21は、自装置に対する各種情報の入力を受け付ける。入力部21は、例えば変換対象音声信号を変換済み音声信号に変換する処理の開始を指示する入力を受け付ける。入力部21は、例えば変換対象の変換対象音声信号の入力を受け付ける。
インタフェース部22は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換対象音声信号の出力先である。このような場合、インタフェース部22は、外部装置との通信によって外部装置に変換対象音声信号を出力する。変換対象音声信号の出力際の外部装置は、例えばスピーカー等の音声出力装置である。
外部装置は、例えば学習済みの音声信号変換モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば学習済みの音声信号変換モデルを記憶しており学習済みの音声信号変換モデルを出力する場合、インタフェース部22は外部装置との通信によって学習済みの音声信号変換モデルを取得する。
外部装置は、例えば変換対象音声信号の出力元である。このような場合、インタフェース部22は、外部装置との通信によって外部装置から変換対象音声信号を取得する。
インタフェース部22は、自装置を音声信号変換モデル学習装置1に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して音声信号変換モデル学習装置1と通信する。インタフェース部22は、音声信号変換モデル学習装置1との通信により、音声信号変換モデル学習装置1から学習済みの音声信号変換モデルを取得する。
記憶部23は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は音声信号変換装置2に関する各種情報を記憶する。記憶部23は、例えばインタフェース部22を介して取得した学習済みの音声信号変換モデルを記憶する。
出力部24は、各種情報を出力する。出力部24は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部24は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部24は、例えば入力部21に入力された情報を出力する。
図10は、実施形態における制御部20の機能構成の一例を示す図である。制御部20は、変換対象取得部201、変換部202及び音声信号出力制御部203を備える。
変換対象取得部201は、変換対象となる変換対象音声信号を取得する。変換対象取得部201は、例えば入力部21に入力された変換対象音声信号を取得する。変換対象取得部201は、例えばインタフェース部22に入力された変換対象音声信号を取得する。
変換部202は、変換対象取得部201が取得した変換対象を、学習済みの音声信号変換モデルを用いて変換済み音声信号に変換する。変換済み音声信号は音声信号出力制御部203に出力される。
音声信号出力制御部203は、インタフェース部22の動作を制御する。音声信号出力制御部203は、インタフェース部22の動作を制御することでインタフェース部22に変換済み音声信号を出力させる。
図11は、実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャートである。制御部20が、インタフェース部22に入力された変換対象音声信号を取得する(ステップS501)。次に制御部20が、記憶部23に記憶された学習済みの音声信号変換モデルを用いて変換対象音声信号を変換済み音声信号に変換する(ステップS502)。次に制御部20がインタフェース部22の動作を制御して変換済み音声信号を出力先に出力させる(ステップS503)。出力先は、例えばスピーカー等の外部装置である。
このように構成された実施形態の音声信号生成システム100は、変換元話者情報、変換先話者情報及び話者識別情報を用いて学習し、学習済みの音声信号変換モデルを得る。このため音声信号生成システム100は、変換対象の音声信号が表す音声を、変換先話者情報だけに基づいて変換された音声信号よりも変換先話者情報が示す話者の音声に近い音声を表す音声信号に変換することができる。そのため、音声信号生成システム100は、変換元の属性と変換先の属性との候補がどちらも多数ある場合であっても、より適切な経験分布を有する音声の変換を可能とすることができる。
(第1変形例)
目的関数は拡張型敵対的損失関数を含んでいればよく、必ずしも循環型損失関数及び恒等損失関数まで含む必要はない。目的関数は、例えば拡張型敵対的損失関数であってもよいし、拡張型敵対的損失関数及び循環型損失関数を含み恒等損失関数を含まないものであってもよいし、拡張型敵対的損失関数及び恒等損失関数を含み循環型損失関数を含まないものであってもよい。
なお、拡張型敵対的損失関数の説明では、尺度としてクロスエントロピーを用いるものを説明したが、L2距離やワッサースタイン計量などの任意の尺度に基づくものを用いたものであってもよい。循環型損失関数の説明では、L1距離を用いるものを説明したが、L2距離などの任意の尺度に基づくものを用いたものであってもよい。恒等損失関数の説明では、L1距離を用いるものを説明したがL2距離などの任意の尺度に基づくものを用いたものであってもよい。
(第2変形例)
なお生成部110は、第1種データ生成処理において必ずしも変換元話者情報を用いなくてもよい。このような生成部110は、例えば以下の図12に示す構成である。
図12は、第2変形例における生成部110の機能構成の一例を示す図である。生成部110は、エンコーダ111及びデコーダ112を備える。
エンコーダ111は、畳み込み層を有するニューラルネットワークである。エンコーダ111は、第1学習用データをエンコードする。エンコーダ111は、データ取得部113、第1特性抽出部114、第2特性抽出部115、抽出結果変換部116及びエンコード結果出力部117を備える。データ取得部113は、エンコーダ111に入力された第1学習用データを取得する。データ取得部113は、具体的にはエンコーダ111を構成するニューラルネットワークの入力層である。
第1特性抽出部114は、第1特性抽出処理を実行する。第1特性抽出処理は、第1学習用データの第1学習用音声信号の特性を示す情報(以下「特性情報」という。)を取得する処理である。第1特性抽出処理は、例えば短時間フーリエ変換を時間軸方向の予め定められた区間ごとに順次実行する処理である。第1特性抽出処理は、メルケプストラムを抽出する処理であってもよいし、ニューラルネットワークによる変換処理であってもよい。なお、第1特性抽出部114は、具体的には第1特性抽出処理を実行する回路である。そのため、第1特性抽出部114は、第1特性抽出処理がニューラルネットワークによる変換処理である場合にはエンコーダ111を構成するニューラルネットワークの中間層の1つである。
第2特性抽出部115は、第2特性抽出処理を実行する。第2特性抽出処理は、特性情報に対して機械学習における畳み込みの処理を実行する処理である。機械学習における畳み込みの処理は処理対象から、処理対象が有する特性を抽出する処理である。そのため、第2特性抽出処理は、第1学習用音声信号が有する特性のうち第1特性抽出処理の処理対象の特性情報が示す特性とは異なる別の特性を示す情報を抽出する処理である。すなわち、第2特性抽出処理もまた第1特性抽出処理と同様に特性情報を取得する処理である。第2特性抽出部115は、具体的にはエンコーダ111を構成するニューラルネットワークの畳み込み層である。
抽出結果変換部116は、抽出結果変換処理を実行する。抽出結果変換処理は、変換先話者情報に基づき抽出結果変換写像により第2特性抽出処理の実行結果を変換する。抽出結果変換写像は、識別部120の推定結果に応じて更新される写像であり、変換先話者情報に応じた写像であり、変換先話者情報と第2特性抽出処理の実行結果(すなわち特性情報)とのうちの第2特性抽出処理の実行結果のみを変換する写像である。抽出結果変換部116は、具体的にはエンコーダ111を構成するニューラルネットワークの中間層の1つである。
抽出結果変換写像は、第2特性抽出処理の実行結果に対して、少なくとも変換先話者情報に応じたアフィン変換を実行する。なお、抽出結果変換写像は、変換先話者情報だけでなく変換元話者情報にも応じたアフィン変換であってもよい。第2特性抽出処理の実行結果に対するアフィン変換の一例は以下の式(5)で表される関数CINである。
Figure 0007492159000005
式(5)においてテンソルfは特性情報である。より具体的には、テンソルfは、各要素が第1学習用データに関する特徴量を表す特徴量テンソルである。テンソルfは、少なくとも3階のテンソルである。μ(f)は、テンソルfの所定の一方向に直交する各2階のテンソルについて、各2階のテンソルにおける要素の値の平均値を表す。そのため、μ(f)は、所定の一方向の要素数がCであれば、C次元のベクトルである。所定の一方向は、例えばCNNで抽出される高さ×幅×チャネルの3階の特徴量テンソルのチャネルを示す方向である。σ(f)は、μ(f)を取得した各2階のテンソルにおける、要素の値の標準偏差を表す。そのため、σ(f)は、μ(f)と同じ要素数のベクトルである。係数γc2と係数βc2とは目的関数Lを用いた学習により変換先話者情報が示す話者ごとに更新されるパラメータである。
第1特性抽出、第2特性抽出及び抽出結果変換処理の一連の処理がエンコーダ111による第1学習用データのエンコードである。
エンコード結果出力部117は、エンコードされた第1学習用データをデコーダ112に出力する。エンコード結果出力部117は、具体的にはエンコーダ111を構成するニューラルネットワークの出力層である。
デコーダ112は、エンコーダ111の出力結果に基づき、第1種生成データを生成する。エンコーダ111及びデコーダ112による処理であって第1学習用データに基づき第1種生成データを生成する処理は第1種データ生成処理の一例である。
図13は、第2変形例における生成部110が実行する処理の流れの一例を示すフローチャートである。
データ取得部113が第1学習用データを取得する(ステップS601)。次に第1特性抽出部114が第1特性抽出処理を実行する(ステップS602)。次に第2特性抽出部115が、ステップS602における第1特性抽出処理によって得られた特性情報に対して第2特性抽出処理を実行する(ステップS603)。次に抽出結果変換部116がステップS603の第2特性抽出処理によって得られた特性情報に対して抽出結果変換処理を実行する(ステップS604)。次にエンコード結果出力部117が、ステップS604の処理によって得られた情報をデコーダに出力する(ステップS605)。次にデコーダ112がステップS605で出力された情報をデコードする(ステップS606)。ステップS606のデコードによって得られた情報が、第1種生成データである。
なお、ステップS603及びステップS604の処理は、第1特性抽出処理の実行後であってステップS605の処理の実行前に、複数回繰り返し実行されてもよい。この場合、2回目以降の第2特性抽出処理の実行対象は、直前の第2特性抽出処理によって抽出された特性情報が抽出結果変換処理によって得られた情報である。
図13が示すように、第2変形例における生成部110によるエンコードの処理では、特性情報に対する第2特性抽出処理が実行される。そして、ステップS603及びステップS604の処理が複数回実行される場合であっても、第2変形例における生成部110によるエンコードの処理では、少なくとも1回は特性情報に対する第2特性抽出処理が実行される。
このように構成された第2変形例の音声信号変換モデル学習装置1は、畳み込み層による畳み込みの処理の実行時には、変換先話者情報に依存しない情報に対する畳み込みの処理が実行され、畳み込みの処理の実行結果が変換先話者情報に応じて変換される。このため、第2変形例の音声信号変換モデル学習装置1は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、変換先話者情報を表現する空間と特性情報を表現する空間との直交性の高さを維持したまま情報を処理することができる。なお直交性とは、音声信号を表す表現空間と変換先を示す情報を表す表現空間とが直交である度合を意味する。
直交性が低くなるほど1つの情報に含まれる変換先話者情報と特性情報との境界が不明確になりエンコード又はデコードの際に計算量が増大してしまう。そのため、直交性を維持することができる第2変形例の音声信号変換モデル学習装置1は、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術に比べて、計算量を減らすことができる。
また、このように構成された第2変形例の音声信号変換モデル学習装置1では以下の理由から、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。理由は以下の通りである。多対多音声変換を単一のモデルで実現するためには、話者ごとに異なる特性情報の変換を、話者情報に応じて選択的に実行できることが重要である。しかし、従来技術である、畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術では、話者情報は畳み込みされる情報の一部として使われるため、話者情報に応じた特性情報の選択を直接的に実行することはない。
これに対し、第2変形例の音声信号変換モデル学習装置1では、式(5)で示したアフィン変換のように、話者ごとに特性情報の強弱を、学習可能なパラメータを用いて直接表現可能である。そのため、第2変形例の音声信号変換モデル学習装置1は、従来技術と比べて、話者ごとに異なる特性情報の変換を効率的に実行することが可能である。なお学習可能なパラメータとは、式(5)の場合、係数γc2と係数βc2を表す。すなわち、このように構成された第2変形例の音声信号変換モデル学習装置1では、音声変換を表す数理モデルに用いられるパラメータの数の増大を抑制する技術を提供することができる。
なお、第2変形例の生成部110は、敵対的生成ネットワーク(GAN)等の生成器及び識別器を備えそれらが学習により更新される装置であって生成器は変換先話者情報に基づき値を出力する装置(以下「汎生成ネットワーク」という。)であればどのような装置に適用されてもよい。このような場合、第2変形例の生成部110は汎生成ネットワークが有する生成部として動作する。例えば非特許文献1のStarGANは汎生成ネットワークの一例であり、非特許文献1のStarGANでは、非特許文献1のStarGANが有するGeneratorに代えて、第2変形例の生成部110が用いられてもよい。この場合、非特許文献1におけるattributeは、音声信号生成システム100における変換先話者情報である。
(第3変形例)
なお、ここまで音声信号の変換に関して話者を変換することについて音声信号生成システム100の説明をしてきたが、音声信号生成システム100の音声の変換は音声信号の属性を変換可能であれば必ずしも話者の変換でなくてもよい。このような場合、音声信号生成システム100では変換元話者情報に代えて変換元属性情報が用いられ、変換先話者情報に代えて変換先属性情報が用いられ、話者識別情報に代えて属性識別情報が用いられる。変換元属性情報は、第1学習用音声の属する属性を示す。変換先話者情報は、予め設定された属性であって第1種生成音声の属する属性を示す。属性識別情報は、予め設定された属性であって第2学習用音声が属する属性を示す。ランダム話者情報は、予め用意された複数の属性のうち決定部130によりランダムに決定された属性を示す情報である。また、このような場合、音声推定処理は、処理対象の属する属性の音声信号であって実際に発せられた音声を表す音声信号か否かを推定する処理である。
話者も属性の1つであるがその他の属性として、属性は例えば性別であってもよい。このような場合、音声信号生成システム100は例えば男性の音声の音声信号を女性の音声の音声信号に変換する。また、属性は例えば感情であってもよい。このような場合、音声信号生成システム100は例えば嬉しい感情を表す声を悲しい感情を表す声に変換する。また、属性は例えば発音のタイプあってもよい。このような場合、音声信号生成システム100は例えば非ネイティブの英語をネイティブの英語に変換する。属性は、音声の質に関する属性であってもよい。音声の質に関する属性は、例えば合成音声か自然音声かのいずれか一方を示す属性である。自然音声は実際に人が発した音であり、合成音声はコンピュータ等の装置によって生成された音声である。このような場合、音声信号生成システム100は、例えば合成音声を自然音声に変換する。
(実施形態、第1~第3変形例を組み合わせた音声信号生成システム100を用いた実験の実験結果)
図14は、音声信号変換モデルの学習に用いる目的関数の違いによる、メルケプストラム歪み(Mel-cepstral distortion : MCD)の違いと、変調スペクトル距離(modulation spectra distance : MSD)の違いとを示す実験(以下「第1実験」という。)の結果の図である。
第1実験においては、目的関数Lとして話者識別損失関数Lclsと敵対的損失関数Ladvと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させる実験(以下「第1-1実験」という。)が行われた。第1実験においては、目的関数Lとして敵対的損失関数Lt-advと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させること(以下「第1-2実験」という。)が行われた。第1実験においては、目的関数Lとして話者識別損失関数Lclsと敵対的損失関数Lt-advと循環型損失関数L´cycと恒等損失関数L´idとを用いて音声信号変換モデルを学習させること(以下「第1-3実験」という。)が行われた。第1実験においては、目的関数Lとして式(1)で表される関数を用いて音声信号変換モデルを学習させる実験(以下「第1-4実験」という。)が行われた。第1実験において、λcycは10であり、λidは1であった。
話者識別損失関数Lclsは以下の式(6)及び式(7)の和で表され、敵対的損失関数Ladvは以下の式(8)で表され、敵対的損失関数Lt-advは以下の式(9)で表され、循環型損失関数L´cycは式(10)で表され、恒等損失関数L´idは式(11)で表される。
Figure 0007492159000006
Figure 0007492159000007
Figure 0007492159000008
Figure 0007492159000009
Figure 0007492159000010
Figure 0007492159000011
なお式(6)の右辺のx、cは順に、第2学習用データのS´、C´を表す。なお、式(7)の右辺のx、cは順に、第1学習用データのS、Cを表す。なお式(8)の右辺第1項のxは、第2学習用データのS´を表す。なお式(8)の右辺第2項のx、cは順に、第1学習用データのS、Cを表す。なお式(9)の右辺第1項のx、cは順に、第2学習用データのS´、C´を表す。なお式(9)の右辺第2項のx、cは順に、第1学習用データのS、Cを表す。なお式(10)の右辺のx、c、cは順に、第1学習用データのS、C、Cを表す。なお式(11)の右辺のx、cは順に、第1学習用データのS、Cを表す。
図14は、第1-4実験の実験結果が最も小さいMCDと最も小さいMSDとであることを示す。これは式(1)で表される目的関数Lを用いた学習により得られる学習済みの音声信号変換モデルは、図14の他の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。なお、図14における“Lcls”は第1-1実験を表し、“Lt-adv”は第1-2実験を表し、“Lt-adv+Lcls(StarGAN-VC)”は第1-3実験を表し、“Lst-adv(StarGAN-VC2)”は第1-4実験を表す。
図15は、音声信号変換モデルの学習に用いる生成部110の機能構成の違いによる、MCDの違いとMSDの違いとを示す実験(以下「第2実験」という。)の結果の図である。
図15において、“Channel-wise (StarGAN-VC)”は、エンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う技術である。すなわち、“Channel-wise (StarGAN-VC)”の行の結果は、エンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う学習により得られた学習済み音声信号変換モデルのMSDとMCDとを示す。
図15において”Modulation-based(StarGAN-VC2)”は、図13に記載の処理により第1学習用データをエンコードする技術である。すなわち、”Modulation-based(StarGAN-VC2)”の行の結果は、第2変形例の生成部110を用いた学習により得られた学習済み音声信号変換モデルのMSDとMCDとを示す。
図15は、MCDの値は、”Channel-wise (StarGAN-VC)”と”Modulation-based(StarGAN-VC2)”とで略同一であることを示す。図15は、”Modulation-based(StarGAN-VC2)”のMSDの値の方が”Channel-wise (StarGAN-VC)”のMSDの値より小さいことを示す。このことから、図15は、”Modulation-based(StarGAN-VC2)”の学習により得られる学習済みの音声信号変換モデルの方が、“Channel-wise (StarGAN-VC)”の学習により得られる学習済みの音声信号変換モデルよりも変換先話者情報が示す話者の音声に近い音声を表す音声信号への変換が可能なことを示す。
図16は、音声信号変換モデルの学習に用いる目的関数と生成部110の機能構成との組合せの違いによる、MOS(mean opinion score)を示す実験(以下「第3実験」という。)の結果の図である。なお、MOSは最高評価が5であり最低評価が1のMOSであった。
図16の”StarGAN-VC2”は、目的関数が式(1)で表され生成部110が図13に記載の処理により第1学習用データをエンコードする機能部である音声信号変換モデル学習装置1が得た学習済みの音声信号変換モデルを表す。
図16の”StarGAN-VC”は、比較対象装置が得た学習済みの音声信号変換モデルを表す。比較対象装置は、目的関数が式(6)、式(7)、式(8)及び式(10)及び式(11)の線形和で表される点と、生成部110がエンコーダ111による畳み込みの処理の実行時に変換先話者情報も含めて畳み込みを行う点とで音声信号変換モデル学習装置1と異なる。
図16において”Inter gender”は、学習済み音声信号変換モデルによる異性間の音声信号の変換に対するMOSを示す。図16において”Intra gender”は、学習済み音声信号変換モデルによる同性間の音声信号の変換に対するMOSを示す。図16において“All”は、”Inter gender”の結果と”Intra gender”の結果との合計である。
図16は、”Inter gender”、 ”Intra gender”及び“All”の全てにおいて、”StarGAN-VC2”により得られた音声信号の方が”StarGAN-VC”により得られた音声信号よりも高いMOSであることを示す。
図17は、音声信号変換モデルの学習に用いる目的関数と生成部110の機能構成との組合せの違いによる、Average preference scores on speaker similarityを示す実験(以下「第4実験」という。)の結果の図である。Average preference scores on speaker similarityは、学習済みの音声信号変換モデルによって生成された音声が、音声信号の変換先の話者の実際の音声のどちらに似ているか、又は、どちらとも言えないかを被験者に判断してもらう実験である。
図17において”Fair”は、どちらとも言えないことを示す。図17は、”StarGAN-VC2”により得られた音声信号の音声の方が、”Inter gender”、 ”Intra gender”及び“All”の全てにおいて、変換先の話者に近い音声の音声信号を生成することを示す。
(第4変形例)
なお、識別部120は、更に話者識別処理を実行してもよい。話者識別処理は、識別部120に第2学習用データが入力された際に実行される。話者識別処理は、入力された第2学習用データの第2学習用音声信号S´について話者を推定する。話者識別処理は具体的には話者識別処理を実行するニューラルネットワークにより実行される。話者識別処理を実行するニューラルネットワークは、損失取得部140が取得した式(6)又は式(7)の値に基づき更新される。より具体的には、話者識別処理を実行するニューラルネットワークは、第2学習用データが識別部120に入力された場合には、損失取得部140が取得する式(6)の値に基づき式(6)の値を小さくするように更新される。そして、話者識別処理を実行するニューラルネットワークは、第1学習用データが生成部110に入力された場合には、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように更新される。また、第1学習用データが生成部110に入力された場合には、生成部110は、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように学習する。なお式(6)におけるCで表される関数は、話者識別処理を表す。また、話者識別処理を実行する場合、識別部120は変換元話者情報又は変換先話者情報のいずれか又は両方を用いてもよいし用いなくてもよい。変換元話者情報又は変換先話者情報のいずれか又は両方を用いない場合、識別部120は、変換元話者情報又は変換先話者情報のいずれか又は両方を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
(第5変形例)
なお、生成部110については必ずしも変換元話者情報も用いなくてもいい旨を第2変形例で説明した。生成部110が変換元話者情報を用いない場合、識別部120は変換元話者情報を用いてもよいし用いなくてもよい。変換元話者情報を用いない場合、識別部120は、変換元話者情報を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
(第6変形例)
なお、第2特性抽出処理で実行される処理は必ずしも畳み込みの処理である必要は無い。第2特性抽出処理で実行される処理は、ニューラルネットワークによる処理であればどのような処理であってもよく、例えば、Recurrent Neural Networkであってもよいし、Fully Connected Neural Networkであってもよい。なお、第2特性抽出処理は特性処理の一例である。
(第7変形例)
第1種データ生成処理は、生成処理の一例である。第1学習用データは、入力音声信号の一例である。第1種生成データは変換先音声信号の一例である。自然音声推定処理は音声推定処理の一例である。話者推定処理は属性推定処理の一例である。第1種生成音声は変換先音声の一例である。なお、第1学習用音声は入力音声の一例である。
音声信号変換モデル学習装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
音声信号変換装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置2が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、音声信号生成システム100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…音声信号生成システム、 1…音声信号変換モデル学習装置、 2…音声信号変換装置、 10…制御部、 11…入力部、 12…インタフェース部、 13…記憶部、 14…出力部、 101…被管理部、 102…管理部、 110…生成部、 120…識別部、 130…決定部、 140…損失取得部、 20…制御部、 21…入力部、 22…インタフェース部、 23…記憶部、 24…出力部、 201…変換対象取得部、 202…変換部、 203…音声信号出力制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ

Claims (7)

  1. 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、
    処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、
    を備え、
    前記変換先音声信号は前記識別部に入力され、
    前記処理対象は前記識別部に入力される音声信号であり、
    前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、
    音声信号変換モデル学習装置。
  2. 前記生成部及び前記識別部は、前記音声推定処理の推定結果と、前記処理対象について実際に人が発した音声か否かを示す情報との違いを示す値を含む損失に基づき学習する、
    請求項1に記載の音声信号変換モデル学習装置。
  3. 前記損失は、前記入力音声信号と、前記変換先音声信号を入力音声信号とし前記変換先属性情報を変換元属性情報とし前記変換元属性情報を変換先属性情報とするデータである逆生成用データに対して生成処理を実行した結果と、の違いを示す値をさらに含む、
    請求項2に記載の音声信号変換モデル学習装置。
  4. 前記損失は、前記変換元属性情報が示す属性と前記変換先属性情報が示す属性とが同一である場合に、前記入力音声と前記変換先音声信号が表す音声とが同一になるよう制約をかける関数の値をさらに含む、
    請求項2又は3に記載の音声信号変換モデル学習装置。
  5. 変換対象の音声信号である変換対象音声信号を取得する取得部と、
    入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置、が得た前記変換対象音声信号を変換する機械学習のモデルを用いて前記変換対象音声信号を変換する変換部、
    を備える音声信号変換装置。
  6. 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置が実行する音声信号変換モデル学習方法であって、
    入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成ステップと、
    処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別ステップと、
    前記生成部及び前記識別部が前記音声推定処理の推定結果に基づき学習する学習ステップと、
    を有する
    音声信号変換モデル学習方法。
  7. 請求項1から4のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2022539804A 2020-07-27 2020-07-27 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Active JP7492159B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/028717 WO2022024183A1 (ja) 2020-07-27 2020-07-27 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022024183A1 JPWO2022024183A1 (ja) 2022-02-03
JP7492159B2 true JP7492159B2 (ja) 2024-05-29

Family

ID=80037819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022539804A Active JP7492159B2 (ja) 2020-07-27 2020-07-27 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Country Status (3)

Country Link
US (1) US20230274751A1 (ja)
JP (1) JP7492159B2 (ja)
WO (1) WO2022024183A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342256A1 (en) 2017-05-24 2018-11-29 Modulate, LLC System and Method for Voice-to-Voice Conversion
JP2019101391A (ja) 2017-12-07 2019-06-24 日本電信電話株式会社 系列データ変換装置、学習装置、及びプログラム
WO2019163848A1 (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2020036178A1 (ja) 2018-08-13 2020-02-20 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342256A1 (en) 2017-05-24 2018-11-29 Modulate, LLC System and Method for Voice-to-Voice Conversion
JP2019101391A (ja) 2017-12-07 2019-06-24 日本電信電話株式会社 系列データ変換装置、学習装置、及びプログラム
WO2019163848A1 (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
WO2020036178A1 (ja) 2018-08-13 2020-02-20 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2022024183A1 (ja) 2022-02-03
WO2022024183A1 (ja) 2022-02-03
US20230274751A1 (en) 2023-08-31

Similar Documents

Publication Publication Date Title
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US11315570B2 (en) Machine learning-based speech-to-text transcription cloud intermediary
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6989951B2 (ja) スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
US11031028B2 (en) Information processing apparatus, information processing method, and recording medium
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
JP2020027193A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US11929078B2 (en) Method and system for user voice identification using ensembled deep learning algorithms
KR20220148245A (ko) 스트리밍 시퀀스 모델에 대한 일관성 예측
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2020134657A (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
Horiguchi et al. Online neural diarization of unlimited numbers of speakers using global and local attractors
JP7492159B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
KR20210045217A (ko) 감정 이식 장치 및 감정 이식 방법
Xue A novel english speech recognition approach based on hidden Markov model
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
JPWO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
WO2022024187A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
US20230386489A1 (en) Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program
JP7318062B1 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221215

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20221215

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20221215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240429

R150 Certificate of patent or registration of utility model

Ref document number: 7492159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150