JP7469698B2 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDF

Info

Publication number
JP7469698B2
JP7469698B2 JP2022522103A JP2022522103A JP7469698B2 JP 7469698 B2 JP7469698 B2 JP 7469698B2 JP 2022522103 A JP2022522103 A JP 2022522103A JP 2022522103 A JP2022522103 A JP 2022522103A JP 7469698 B2 JP7469698 B2 JP 7469698B2
Authority
JP
Japan
Prior art keywords
target
sequence
speech feature
training
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022522103A
Other languages
English (en)
Other versions
JPWO2021229643A1 (ja
Inventor
宏 田中
弘和 亀岡
卓弘 金子
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021229643A1 publication Critical patent/JPWO2021229643A1/ja
Application granted granted Critical
Publication of JP7469698B2 publication Critical patent/JP7469698B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

特許法第30条第2項適用 “ATTS2S-VC:Sequence-to-sequence Voice Conversion with Attention and Context Preservation Mechanisms”の論文が公開されたウェブサイトのアドレス https://ieeexplore.ieee.org/xpl/conhome/8671773/proceeding 掲載日 2019年5月12日 https://ieeexplore.ieee.org/document/8683282 掲載日 2019年5月12日
本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。
近年、アニメやオンラインでの動画配信等の普及により自身の声に代えてキャラクターの声でしゃべる音声変換の技術への需要が高まっている。また音声変換の技術は、話者性変換、発声支援、音声強調、訛り変換などへの応用も期待されている。このような音声変換の技術は、具体的には入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術である。音声変換は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数を推定する回帰分析の問題として定式化される。従来の音声変換の技術の中では、混合ガウス分布モデル(Gaussian Mixture Model:GMM)を用いた手法が、その有効性と汎用性から広く用いられている。また、近年では、ニューラルネットワーク(Neural Network; NN)を用いた手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF)などを用いた事例ベースの手法の検討も進められている。
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Nobukatsu Hojo," ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS" [online]、[令和2年4月24日検索]、インターネット〈URL:https://arxiv.org/pdf/1811.04076.pdf > Hiroyuki Miyoshi, Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari,"Voice conversion using sequence-to-sequence learning of context posterior probabilities,"2017 Annual Conference of the Inter-national Speech Communication Association (INTERSPEECH), pp.1268-1272, 2017. Jing-Xuan Zhang, Zhen-Hua Ling, Li-Juan Liu, Yuan Jiang, and Li-Rong Dai, "Sequence-to-sequence acoustic modeling for voice conversion," IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol.27, no.3, pp.631-644, 2019.
しかしながら、このような従来の技術はいずれも声質の変換を目的としている。そのためこのような従来の技術は基本周波数パターン、話速、発話リズムなどの韻律的特徴(超分節的特徴)の変換を適切に実行できず、従来の技術により変換された音声と目標とする音声との違いは大きい場合があった。
上記事情に鑑み、本発明は、目標とする音声により近づけることができる技術を提供することを目的としている。
本発明の一態様は、音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理、前記系列長調整処理及び前記第2目標側デコード処理をこの順に実行した結果である第2目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記第2目標側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第1目標側デコード部、前記第2目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習する、音声信号変換モデル学習装置である。
本発明により、目標とする音声により近づけることが可能となる。
第1実施形態の音声信号変換システム100の概要を説明する説明図。 第1実施形態における音声信号変換モデル学習装置1の概要を説明する説明図。 第1実施形態における順方向注意行列AX→Yを説明する説明図。 第1実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図。 第1実施形態における制御部10の機能構成の一例を示す図。 第1実施形態における音声信号変換装置2のハードウェア構成の一例を示す図。 第1実施形態における制御部20の機能構成の一例を示す図。 第1実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャート。 第1実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャート。 第2実施形態の音声信号変換システム100aの概要を説明する説明図。 第2実施形態における循環注意損失項を説明する説明図。 第2実施形態における制御部10aの機能構成の一例を示す図。 第2実施形態における音声信号変換システム100aが実行する処理の流れの一例を示すフローチャート。 第3実施形態の音声信号変換システム100bを説明する説明図。 第3実施形態における音声信号変換システム100bが実行する処理の流れの一例を示すフローチャート。 第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第1実験の結果を示す第1の図。 第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第1実験の結果を示す第2の図。 第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第2実験の結果を示す第1の図。 第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第2実験の結果を示す第2の図。
(第1実施形態)
図1及び図2を用いて、第1実施形態の音声信号変換システム100の概要を説明する。図1は、第1実施形態の音声信号変換システム100の概要を説明する説明図である。音声信号変換システム100は、変換対象の音声信号(以下「変換対象音声信号」という。)を変換する。以下、変換後の変換対象音声信号を被変換音声信号という。例えば変換対象音声信号は実際に人が発した音声の信号である。例えば被変換音声信号は、動画配信で用いるキャラクターの音声の信号である。
音声信号変換システム100は、音声信号変換モデル学習装置1及び音声信号変換装置2を備える。音声信号変換モデル学習装置1は、変換対象特徴量時系列を被変換特徴量時系列に変換する学習済みのモデル(以下「音声信号変換モデル」という。)を機械学習によって得る。
変換対象特徴量時系列は、変換対象音声信号を表す音声特徴量の時系列である。以下、音声特徴量の時系列を音声特徴量時系列という。音声特徴量は、音声信号から得られる情報のうち所定の条件を満たす情報である。音声特徴量は、例えば音声信号の位相スペクトルであってもよいし、音声信号の振幅スペクトルであってもよいし、音声信号の波形であってもよい。
変換対象特徴量時系列は変換対象音声信号に対する時系列変換処理の実行によって取得される。時系列変換処理は、時系列変換処理の実行対象の音声信号の対象期間における音声特徴量、を取得する処理を、複数の対象期間に対して実行する処理である。対象期間は、音声特徴量を取得する処理の対象となる期間である。このような時系列変換処理は、例えば短時間フーリエ変換である。このような場合、音声特徴量は位相スペクトルの時系列又は振幅スペクトルの時系列である。
被変換特徴量時系列は、被変換音声信号を表す音声特徴量時系列である。被変換特徴量時系列は、変換対象音声信号に対する時系列変換処理の実行によって取得される。
以下説明の簡単のため、機械学習を行うことを学習という。なお、機械学習を行うとは、機械学習のモデル(以下「機械学習モデル」という。)におけるパラメータの値を好適に調整することを意味する。以下の説明において、Aであるように学習するとは、機械学習モデルにおけるパラメータの値がAを満たすように調整されることを意味する。Aは予め定められた条件を表す。
音声信号変換モデル学習装置1は、学習済みモデルを得るためのデータ(以下「学習用データ」という。)を用いて学習を行う。学習用データは、具体的には複数の特徴対データを含む。特徴対データは、学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yの対である。
学習用入力音声特徴量系列Xは、音声信号変換モデル学習装置1が学習済みモデルを得る際の説明変数として用いられる音声特徴量時系列である。学習用入力音声特徴量系列Xは、例えば以下の式(1)で表される。
Figure 0007469698000001
式(1)におけるデータ点xは、i番目の時刻における学習用入力音声特徴量系列Xの音声特徴量である(iは1以上I以下の整数。Iは1以上の整数)。すなわち集合論の言葉を用いれば、学習用入力音声特徴量系列Xは、データ点xを元としデータ点x間の順序関係が時刻の速さで定義された順序集合である。
学習用目標音声特徴量系列Yは、音声信号変換モデル学習装置1が学習済みモデルを得る際の目的変数として用いられる時系列である。学習用目標音声特徴量系列Yは、例えば以下の式(2)で表される。
Figure 0007469698000002
式(2)におけるyは、j番目の時刻における学習用目標音声特徴量系列Yの音声特徴量である(jは1以上J以下の整数。Jは1以上の整数)。すなわち集合論の言葉を用いれば、学習用目標音声特徴量系列Yは、データ点yを元としデータ点y間の順序関係が時刻の速さで定義された順序集合である。
学習用データは、目標話者識別情報S及び入力話者識別情報Sを含む。目標話者識別情報Sは、学習用目標音声特徴量系列Yが表す音声信号の発話者(以下「目標話者」という。)を示す情報である。入力話者識別情報Sは、学習用入力音声特徴量系列Xが表す音声信号の発話者(以下「入力話者」という。)を示す情報である。以下、目標話者識別情報Sと入力話者識別情報Sとをそれぞれ区別しない場合、話者情報という。
図2は、第1実施形態における音声信号変換モデル学習装置1の概要を説明する説明図である。音声信号変換モデル学習装置1は、エンコード部110、系列長調整部120、目標側デコード部130、入力側デコード部140及び損失取得部150を備える。
エンコード部110、系列長調整部120、目標側デコード部130及び入力側デコード部140は学習する機能部である。音声信号変換モデル学習装置1においては、エンコード部110、系列長調整部120、目標側デコード部130、入力側デコード部140及び損失取得部150が協働して学習済みモデルを得るための学習を実行する。
エンコード部110は、特徴対データに対してエンコード処理を実行する。エンコード処理は学習用入力音声特徴量系列Xのデータ点xごとに各データ点xをエンコードする処理(以下「入力側エンコード処理」という。)を含む。入力側エンコード処理は、例えば次元を圧縮する処理である。次元の圧縮とは高い次元の情報を低い次元の情報に変換する処理である。次元の圧縮は、例えば3次元ベクトルで表現される情報を2次元ベクトルで表現される情報に変換する処理である。
以下、入力側エンコード処理による変換後の学習用入力音声特徴量系列Xを埋め込み入力系列Kという。埋め込み入力系列Kは、学習用入力音声特徴量系列Xの各音声特徴量がエンコードされた量の時系列である。そのため、埋め込み入力系列Kは音声特徴量時系列の1つである。以下、入力側エンコード処理によるエンコード後のデータ点xをデータ点kという。埋め込み入力系列Kは、例えば以下の式(3)で表される。
Figure 0007469698000003
このように、埋め込み入力系列Kは、集合論の言葉を用いれば、データ点kを元としデータ点k間の順序関係が時刻の速さで定義された順序集合であって元の数が学習用入力音声特徴量系列Xに同一の順序集合である。
また、エンコード処理は学習用目標音声特徴量系列Yのデータ点yごとに各データ点yをエンコードする処理(以下「目標側エンコード処理」という。)を含む。目標側エンコード処理は、例えば次元を圧縮する処理を含む。以下、目標側エンコード処理による変換後の学習用目標音声特徴量系列Yを、埋め込み目標系列Qという。埋め込み目標系列Qは、学習用目標音声特徴量系列Yの各音声特徴量がエンコードされた量の時系列である。そのため、埋め込み目標系列Qは音声特徴量時系列の1つである。以下、目標側エンコード処理によるエンコード後のデータ点yをデータ点qという。埋め込み目標系列Qは、例えば以下の式(4)で表される。
Figure 0007469698000004
このように、埋め込み目標系列Qは、集合論の言葉を用いれば、データ点qを元としデータ点q間の順序関係が時刻の速さで定義された順序集合であって元の数が学習用目標音声特徴量系列Yに同一の順序集合である。
エンコード部110は、エンコード処理を表現する機械学習モデルを学習によって更新する。エンコード部110は、学習によってエンコード処理を表現する機械学習モデルを更新可能であればどのようなものであってもよい。エンコード部110は、例えばエンコード処理を表現するニューラルネットワークである。エンコード部110は、例えばエンコード処理を表現する長短期記憶ネットワーク(Long Short-Term Memory:LSTM)等の再帰型ネットワーク(Convolutional Neural Network:CNN)であってもよい。
系列長調整部120は、第1系列長調整処理を実行する。第1系列長調整処理は、埋め込み入力系列Kの系列長を調整する処理である。具体的には、第1系列長調整処理は、埋め込み入力系列Kの系列の長さ(以下「系列長」という。)を埋め込み目標系列Qの系列長に一致させる処理である。系列長は系列が含む元の数である。
第1系列長調整処理は、より具体的には、系列長が埋め込み目標系列Qの系列長に同一の系列である被調整入力系列Rに埋め込み入力系列Kを変換する処理である。被調整入力系列Rは、埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させる変換を行った時系列である。そのため、被調整入力系列Rは音声特徴量時系列の1つである。以下、被調整入力系列Rの元をデータ点rという。被調整入力系列Rは、例えば以下の式(5)で表される。
Figure 0007469698000005
このように、被調整入力系列Rは、集合論の言葉を用いれば、データ点rを元としデータ点r間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Qに同一の順序集合である。
以下、一対の音声特徴量信号の一方の系列長を他方の系列長に一致させる変換を表す行列を注意行列Aという。特に、埋め込み入力系列Kから被調整入力系列Rへの変換を表す行列を順方向注意行列AX→Yという。順方向注意行列AX→Yは、列数が埋め込み入力系列Kに等しく行数が埋め込み目標系列Qに等しい行列であって、埋め込み入力系列Kから被調整入力系列Rへの変換を表す行列である。順方向注意行列AX→Yの要素は、例えば以下の式(6)及び(7)で表される。式(6)の左辺が順方向注意行列AX→Yの要素を表す。
Figure 0007469698000006
Figure 0007469698000007
式(6)の左辺は、順方向注意行列AX→Yにおけるi行j列の要素を表す。式(7)におけるfFFNNはフィード・フォワード・ニューラルネットワークを用いた学習によって取得された値であることを意味する。なお、順方向注意行列AX→Yの要素とデータ点rとの関係は、以下の式(8)で表される。
Figure 0007469698000008
このように、系列長調整部120は、一対のエンコードされた音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する。
系列長調整部120は、第1系列長調整処理を表現する機械学習モデルを学習によって更新する。系列長調整部120は、第1系列長調整処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。系列長調整部120は、例えば第1系列長調整処理を表現するニューラルネットワークである。系列長調整部120は、例えば第1系列長調整処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。
目標側デコード部130は、埋め込み目標系列Qに対して第1目標側デコード処理を実行する。第1目標側デコード処理は、埋め込み目標系列Qをデコードする処理である。以下、第1目標側デコード処理によってデコードされたデコード後の埋め込み目標系列Qを第1目標側推定系列Y{^}という。以下、U{^}は記号Uの上にハットが位置する記号を表す。
以下、第1目標側推定系列Y{^}の元をデータ点y{^}という。第1目標側推定系列Y{^}は、例えば以下の式(9)で表される。
Figure 0007469698000009
第1目標側推定系列Y{^}は、集合論の言葉を用いれば、データ点y{^}を元としデータ点y{^}間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Qに同一の順序集合である。
第1目標側デコード処理は、例えば以下の式(10)で表される処理によって第1目標側推定系列Y{^}を取得する処理である。
Figure 0007469698000010
式(10)は、データ点rと、データ点qと、目標話者識別情報Sとに基づいてデータ点y{^}を推定する処理を表す。式(10)の具体的な処理(すなわち式(10)の右辺の関数fTarDecARの形)は、目標側デコード部130の学習により更新される。
目標側デコード部130は、被調整入力系列Rに対して第2目標側デコード処理を実行する。第2目標側デコード処理は、被調整入力系列Rをデコードする処理である。以下、第2目標側デコード処理によってデコードされたデコード後の被調整入力系列Rを第2目標側推定系列Y{~}という。以下、U{~}は記号Uの上にチルダが位置する記号を表す。
以下、第2目標側推定系列Y{~}の元をデータ点y{~}という。第2目標側推定系列Y{~}は、集合論の言葉を用いれば、データ点y{~}を元としデータ点y{~}間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み目標系列Qに同一の順序集合である。
第2目標側デコード処理は、例えば以下の式(11)で表される処理によって第2目標側推定系列Y{~}を取得する処理である。
Figure 0007469698000011
式(11)は、被調整入力系列Rと目標話者識別情報Sとに基づいて第2目標側推定系列Y{~}を取得する処理を表す。式(11)の具体的な処理(すなわち式(11)の右辺の関数fTarDecの形)は、目標側デコード部130の学習により更新される。
目標側デコード部130は、第1目標側デコード処理を表現する機械学習モデルと、第2目標側デコード処理を表現する機械学習モデルとを学習によって更新する。目標側デコード部130は、第1目標側デコード処理を表現する機械学習モデルと、第2目標側デコード処理を表現する機械学習モデルとを学習によって更新可能であればどのようなものであってもよい。
目標側デコード部130は、例えば第1目標側デコード処理及び第2目標側デコード処理を表現するニューラルネットワークである。目標側デコード部130は、例えば第1目標側デコード処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。
入力側デコード部140は、埋め込み入力系列Kに対して入力側デコード処理を実行する。入力側デコード処理は、埋め込み入力系列Kをデコードする処理である。以下、入力側デコード処理によってデコードされたデコード後の埋め込み入力系列Kを入力側推定系列X{~}という。
以下、入力側推定系列X{~}の元をデータ点x{~}という。入力側推定系列X{~}は、集合論の言葉を用いれば、データ点x{~}を元としデータ点x{~}間の順序関係が時刻の速さで定義された順序集合であって元の数が埋め込み入力系列Kに同一の順序集合である。
入力側デコード処理は、例えば以下の式(12)で表される処理によって入力側推定系列X{~}を取得する処理である。
Figure 0007469698000012
式(12)は、埋め込み入力系列Kと入力話者識別情報Sとに基づいて入力側推定系列X{~}を取得する処理を表す。式(12)の具体的な処理(すなわち式(12)の右辺の関数fSrcDecの形)は、入力側デコード部140の学習により更新される。
入力側デコード部140は、入力側デコード処理を表現する機械学習モデルを学習によって更新する。入力側デコード部140は、入力側デコード処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。入力側デコード部140は、例えば入力側デコード処理を表現するニューラルネットワークである。入力側デコード部140は、例えば入力側デコード処理長短期記憶ネットワーク等の再帰型ネットワークであってもよい。
損失取得部150は、第1損失取得処理を実行する。第1損失取得処理は、第1目標側推定系列Y{^}、第2目標側推定系列Y{~}、入力側推定系列X{~}、学習用入力音声特徴量系列X及び学習用目標音声特徴量系列Yに基づき損失関数の値を取得する処理である。
第1損失取得処理における損失関数(以下「第1損失関数」という。)は、基本損失項と、文脈損失項とを含む。基本損失項は、第1目標側推定系列Y{^}と学習用目標音声特徴量系列Yとの間の違いを表す。文脈損失項は、文脈情報の損失を表す。
文脈情報とは音声信号が表す内容の履歴である。そのため文脈情報は、音声特徴量の時系列そのものである。文脈情報は、音声特徴量の時系列であればどのような情報であってもよい。そのため、入力音声特徴量系列X、学習用目標音声特徴量系列Y、埋め込み入力系列K及び被調整入力系列Rはそれぞれ文脈情報の一例である。
文脈損失項は、具体的には入力側推定系列X{~}と学習用入力音声特徴量系列Xとの間の違いと、第2目標側推定系列Y{~}と学習用目標音声特徴量系列Yとの間の違いとを表す項である。
第1損失関数は、例えば以下の式(13)で表される。式(13)の左辺は第1損失関数を表す。
Figure 0007469698000013
Figure 0007469698000014
Figure 0007469698000015
式(13)の左辺は第1損失関数を表す。式(14)は基本損失項の一例である。式(15)の右辺第1項は、入力側推定系列X{~}と学習用入力音声特徴量系列Xとの間の違いを表す。式(15)の右辺第2項は、第2目標側推定系列Y{~}と学習用目標音声特徴量系列Yとの間の違いを表す。そのため、式(15)が文脈損失項の一例である。式(13)のλcpは第1損失関数における文脈損失項の重みを表す。
なお、式(14)においてノルムはLノルムであるが、必ずしもLノルムである必要はなく、Lノルムであってもよい(Pは、2以上の整数)。また、式(15)においてノルムはLノルムであるが、必ずしもLノルムである必要はなく、Lノルムであってもよい。
損失取得部150は取得した第1損失関数の値(すなわち損失)を、エンコード部110、系列長調整部120、目標側デコード部130及び入力側デコード部140に出力する。
エンコード部110、系列長調整部120、目標側デコード部130及び入力側デコード部140は損失取得部150が取得した損失に基づき損失を小さくするように学習する。単位学習処理が所定の終了条件が満たされるまで繰り返されることで得られる機械学習モデルが音声信号変換モデルである。単位学習処理は、取得した損失に基づき損失を小さくするようにエンコード部110、系列長調整部120、目標側デコード部130及び入力側デコード部140が学習する処理である。所定の終了条件は、例えば繰り返しの回数が所定の回数に達したという条件である。
なお、系列長調整部120による学習は、具体的には、損失取得部150が取得した損失に基づき、損失取得部150が取得する損失を小さくするという条件と式(6)及び式(7)を満たすという条件とを満たすように順方向注意行列AX→Yを更新する処理である。系列長調整部120による学習結果の順方向注意行列AX→Yは記憶部13に記録される。
音声信号変換装置2は、音声信号変換モデルを用いて変換対象音声信号を被変換音声信号に変換する。
<順方向注意行列AX→Yについて>
ここで順方向注意行列AX→Yについて説明する。
図3は、第1実施形態における順方向注意行列AX→Yを説明する説明図である。図3の横軸は順方向注意行列AX→Yの行番号を表し、図3の縦軸は順方向注意行列AX→Yの列番号を表す。順方向注意行列AX→Yにおけるi行j列の要素の値は、データ点kとデータ点qとの類似の度合の期待値を表す。順方向注意行列AX→Yの各要素の値は以下の第1確率分布条件と第2確率分布条件と満たす。第1確率分布条件は、説明変数を確率変数qとし目的変数を順方向注意行列AX→Yのi行j列目の要素の値とする関数は確率変数をqとする確率分布を表すという条件である。第2確率分布条件は、説明変数を確率変数kとし目的変数を順方向注意行列AX→Yのi行j列目の要素の値とする関数は確率変数をkとする確率分布を表すという条件である。このように、順方向注意行列AX→Yは2つの音声特徴量時系列の時刻間の類似の度合の期待値を示す情報である。
音声信号変換モデル学習装置1にとって、埋め込み入力系列Kと埋め込み目標系列Qとは類似の度合が高いほど望ましい。そのため図3に示すように、学習による音声信号変換モデルの更新とともに順方向注意行列AX→Yは対角行列に近づく。
図4は、第1実施形態における音声信号変換モデル学習装置1のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部10を備え、プログラムを実行する。音声信号変換モデル学習装置1は、プログラムの実行によって制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。より具体的には、プロセッサ91が記憶部13に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置1は、制御部10、入力部11、インタフェース部12、記憶部13及び出力部14を備える装置として機能する。
制御部10は、音声信号変換モデル学習装置1が備える各種機能部の動作を制御する。制御部10は、例えば単位学習処理を実行する。
入力部11は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部11は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部11は、自装置に対する各種情報の入力を受け付ける。入力部11は、例えば学習の開始を指示する入力を受け付ける。入力部11は、例えば学習用データの入力を受け付ける。
インタフェース部12は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して外部装置と通信する。外部装置は、例えばUSB(Universal Serial Bus)メモリ等の記憶装置であってもよい。外部装置が例えば学習用データを出力する場合、インタフェース部12は外部装置との通信によって外部装置が出力する学習用データを取得する。
インタフェース部12は、自装置を音声信号変換装置2に接続するための通信インタフェースを含んで構成される。インタフェース部12は、有線又は無線を介して音声信号変換装置2と通信する。インタフェース部12は、音声信号変換装置2との通信により、音声信号変換装置2に音声信号変換モデルを出力する。
記憶部13は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部13は音声信号変換モデル学習装置1に関する各種情報を記憶する。記憶部13は、例えば予め順方向注意行列AX→Yの各要素の初期値を記憶する。記憶部13は、例えば音声信号変換モデルを記憶する。
出力部14は、各種情報を出力する。出力部14は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部14は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部14は、例えば入力部11に入力された情報を出力する。
図5は、第1実施形態における制御部10の機能構成の一例を示す図である。制御部10は、被管理部101及び管理部102を備える。被管理部101は、エンコード部110、系列長調整部120、目標側デコード部130、入力側デコード部140及び損失取得部150を備える。
被管理部101は、単位学習処理を繰り返すことで音声信号変換モデルを得る。音声信号変換モデルは具体的には、エンコード部110、系列長調整部120及び目標側デコード部130による学習用入力音声特徴量系列Xを第2目標側推定系列Y{~}に変換する処理を表す学習済みのモデルである。
エンコード部110は、入力側エンコード部111及び目標側エンコード部112を備える。入力側エンコード部111は、入力側エンコード処理を実行する。
目標側デコード部130は、第1目標側デコード部131及び第2目標側デコード部132を備える。第1目標側デコード部131は、第1目標側デコード処理を実行する。第2目標側デコード部132は、第2目標側デコード処理を実行する。
管理部102は、被管理部101の動作を制御する。管理部102は、被管理部101の動作の制御として、例えば単位学習処理の実行を制御する。
管理部102は、例えば入力部11、インタフェース部12、記憶部13及び出力部14の動作を制御する。管理部102は、例えば記憶部13から各種情報を読み出し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し被管理部101に出力する。管理部102は、例えば入力部11に入力された情報を取得し記憶部13に記録する。管理部102、例えばインタフェース部12に入力された情報を取得し被管理部101に出力する。管理部102、例えばインタフェース部12に入力された情報を取得し記憶部13に記録する。管理部102は、例えば入力部11に入力された情報を出力部14に出力させる。
管理部102は、例えば単位学習処理の実行に用いられる情報と単位学習処理の実行によって生じた情報とを記憶部13に記録する。
図6は、第1実施形態における音声信号変換装置2のハードウェア構成の一例を示す図である。音声信号変換装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部20を備え、プログラムを実行する。音声信号変換装置2は、プログラムの実行によって制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。より具体的には、プロセッサ93が記憶部23に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、音声信号変換装置2は、制御部20、入力部21、インタフェース部22、記憶部23及び出力部24を備える装置として機能する。
制御部20は、音声信号変換装置2が備える各種機能部の動作を制御する。制御部20は、例えば音声信号変換モデル学習装置1が得た音声信号変換モデルを用いて変換対象音声信号を被変換音声信号に変換する。
入力部21は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部21は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部21は、自装置に対する各種情報の入力を受け付ける。入力部21は、例えば変換対象音声信号を被変換音声信号に変換する処理の開始を指示する入力を受け付ける。入力部21は、例えば変換対象の変換対象音声信号の入力を受け付ける。
インタフェース部22は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して外部装置と通信する。外部装置は、例えば被変換音声信号の出力先である。このような場合、インタフェース部22は、外部装置との通信によって外部装置に被変換音声信号を出力する。被変換音声信号の出力際の外部装置は、例えばスピーカー等の音声出力装置である。
外部装置は、例えば音声信号変換モデルを記憶したUSBメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、インタフェース部22は外部装置との通信によって音声信号変換モデルを取得する。
外部装置は、例えば変換対象音声信号の出力元である。このような場合、インタフェース部22は、外部装置との通信によって外部装置から変換対象音声信号を取得する。
インタフェース部22は、自装置を音声信号変換モデル学習装置1に接続するための通信インタフェースを含んで構成される。インタフェース部22は、有線又は無線を介して音声信号変換モデル学習装置1と通信する。インタフェース部22は、音声信号変換モデル学習装置1との通信により、音声信号変換モデル学習装置1から音声信号変換モデルを取得する。
記憶部23は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部23は音声信号変換装置2に関する各種情報を記憶する。記憶部13は、例えばインタフェース部22を介して取得した音声信号変換モデルを記憶する。
出力部24は、各種情報を出力する。出力部24は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部24は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部24は、例えば入力部21に入力された情報を出力する。
図7は、第1実施形態における制御部20の機能構成の一例を示す図である。制御部20は、変換対象取得部201、系列エンコード部202、変換部203、系列デコード部204及び音声信号出力制御部205を備える。
変換対象取得部201は、変換対象音声信号を取得する。変換対象取得部201は、例えば入力部21に入力された変換対象音声信号を取得する。変換対象取得部201は、例えばインタフェース部22に入力された変換対象音声信号を取得する。
系列エンコード部202は、変換対象取得部201が取得した変換対象音声信号に対して時系列変換処理を実行することで変換対象音声信号を変換対象特徴量時系列に変換する。変換対象特徴量時系列は変換部203に出力される。
変換部203は、音声信号変換モデルを用い、系列エンコード部202が取得した変換対象特徴量時系列を被変換特徴量時系列に変換する。被変換特徴量時系列は系列デコード部204に出力される。
系列デコード部204は、変換部203によって取得された被変換特徴量時系列に対して信号化処理を実行することで被変換特徴量時系列を被変換音声信号に変換する。信号化処理は、被変換特徴量時系列を被変換音声信号に変換可能な処理であればどのような処理であってもよい。信号化処理は、例えばボコーダである。ボコーダは、例えばParametric vocoderの方法であってもよいし、Phase vocoderの方法であってもよいし、Neural vocoderの方法であってもよい。Parametric vocoderは、例えばWORLD vocoderであってもよいし、STRAIGHT vocoderであってもよい。Phase vocoderは、例えばGiriffin-limである。Neural vocoderは、例えばWaveNetであってもよいし、WaveGlowであってもよい。被変換音声信号は音声信号出力制御部205に出力される。
音声信号出力制御部205は、インタフェース部22の動作を制御する。音声信号出力制御部205は、インタフェース部22の動作を制御することでインタフェース部22に被変換音声信号を出力させる。
図8は、第1実施形態における音声信号変換モデル学習装置1が実行する処理の流れの一例を示すフローチャートである。より具体的には、図8は単位学習処理の流れの一例を示すフローチャートである。音声信号変換モデル学習装置1は、図8に示す単位学習処理を繰り返し実行することで音声信号変換モデルを得る。
入力部11又はインタフェース部12に学習用データが入力される(ステップS101)。次にエンコード部110が入力側エンコード処理及び目標側エンコード処理を実行する(ステップS102)。次に系列長調整部120が第1系列長調整処理を実行する(ステップS103)。次に目標側デコード部130が第1目標側デコード処理及び第2目標側デコード処理を実行する(ステップS104)。次に入力側デコード部140が入力側デコード処理を実行する(ステップS105)。
次に損失取得部150がステップS104及びステップS105の結果に基づき、第1損失関数の値を損失として取得する(ステップS106)。次に、ステップS106で取得された損失に基づき、損失を小さくするように、エンコード部110、系列長調整部120、目標側デコード部130及び入力側デコード部140による学習が実行される(ステップS107)。
図9は、第1実施形態における音声信号変換装置2が実行する処理の流れの一例を示すフローチャートである。
変換対象取得部201が、入力部21又はインタフェース部22に入力された変換対象音声信号を取得する(ステップS201)。次に系列エンコード部202が変換対象音声信号に対して時系列変換処理を実行し、変換対象特徴量時系列を取得する(ステップS202)。次に変換部203が、音声信号変換モデルを用い、変換対象特徴量時系列を被変換特徴量時系列に変換する(ステップS203)。次に系列デコード部204が、信号化処理の実行により、ステップS203で取得された被変換特徴量時系列を被変換音声信号に変換する(ステップS204)。次に、音声信号出力制御部205が、インタフェース部22の動作を制御することでインタフェース部22に被変換音声信号を出力させる(ステップS205)。
このように構成された第1実施形態の音声信号変換システム100は、埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させる処理を有する。仮に、音声信号変換システム100が埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させない場合、埋め込み入力系列Kの各音声特徴量の出現のタイミングが埋め込み目標系列Qと異なるまま学習が行われる。
これは、埋め込み入力系列Kが表す音声信号の韻律的特徴を埋め込み目標系列Qの韻律的特徴と異なるまま学習が行われることを意味し、このようにして得られた音声信号変換モデルは韻律的特徴を適切に変換できない場合があることを意味する。そのため、埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させる処理を有する音声信号変換システム100は、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。なお、韻律的特徴とは、基本周波数パターン、話速、発話リズム等の発話のタイミングを示す情報である。
また音声信号変換システム100は、音声特徴量の時系列である入力音声特徴量系列Xを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Yに近づけるように学習する。この際、音声信号変換システム100は学習用入力音声特徴量系列Xの系列長を学習用目標音声特徴量系列Yに一致させた後、文脈損失項を含む第1損失関数の値を小さくするように学習する。文脈損失項は文脈情報の損失を表す項であるため、第1損失関数の値に基づいて学習する音声信号変換システム100は、学習用目標音声特徴量系列Yの韻律的特徴との違いを小さくすることができる。そのため音声信号変換システム100は、変換対象音声信号を目標とする音声により近づけることができる。
また音声信号変換システム100は、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。ここで、以下の仮想場面における問題点を説明する。仮想場面は、音声特徴量時系列が文字時系列情報に変換された後、文字時系列情報を用いて音声信号変換システム100が学習する場面である。文字時系列情報は、音声特徴量時系列が表す音声信号の各音を、各音を表現する文字で表す情報である。文字時系列情報は、例えば音声特徴量時系列が表す音声信号が笑い声である場合に、「ははは」という「は」の文字の羅列を示す情報である。しかしながら、笑い声は複雑な音声信号であり必ずしも「ははは」と表現できない。例えば人によっては「は」と「へ」の中間的な音声で笑う人もいる。この例からわかるように、文字時系列情報を用いて学習を行う仮想場面では、適切な文字に変換できない音声信号を適切に学習することができない場合がある。適切な文字に変換できない音声信号の例は、笑い声の他には例えばフィラーがある。
一方、音声特徴量時系列のまま学習に用いる音声信号変換システム100であれば、文字時系列情報を用いず音声特徴量時系列のまま学習を行うため、適切な文字に変換できない音声信号であっても適切に学習することができる。そのため、音声信号変換システム100は、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。
また音声信号変換システム100はデコードの際に話者情報を用いる。一般に、異なる話者の音声特徴量時系列は、たとえ内容が同一であったとしても異なる。一方、同一の話者の音声特徴量時系列は、たとえ内容が異なっていたとしても共通点を有する。そのため、話者情報を用いずに複数の話者の音声特徴量時系列を用いて学習を行った場合、音声信号変換システム100は音声特徴量の違いと共通点とが話者に依存するものか否かを判定できない。その結果、音声信号変換システム100は学習用に入力された音声特徴量時系列を適切に分類することができない状態で学習済みモデルを得てしまう場合がある。このようにして得られた学習済みモデルを用いる場合、音声信号変換システム100は入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが大きい音声特徴量時系列に変換してしまう場合がある。以下、話者情報を用いないで得られた学習済みモデルを話者情報非使用モデルという。
一方、話者情報を用いる場合、複数の話者の音声特徴量時系列を用いて学習を行ったとしても、音声信号変換システム100は音声特徴量の違いと共通点とが話者に依存するものか否かを判定できる。その結果、音声信号変換システム100は学習用に入力された音声特徴量時系列を適切に分類することができる状態で学習済みモデルを得る。このようにして得られた学習済みモデルを用いる場合、音声信号変換システム100は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。
また、話者情報を用いることで目標とする音声特徴量時系列との差がより小さい音声特徴量時系列に変換される理由の1つは以下の保持理由である。保持理由は、異なる話者が発した音声の音声特徴量時系列を用いても、入力側デコード部140の存在により、入力側エンコード部111が学習用入力音声特徴量系列Xの言語情報を保持するように学習するという理由を含む。保持理由は、目標側デコード部130の存在により入力側エンコード部111が学習用入力音声特徴量系列Xを学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yとの共通空間へ射影するように学習するという理由を含む。
(第2実施形態)
図10及び図11を用いて、第2実施形態の音声信号変換システム100aの概要を説明する。図10は、第2実施形態の音声信号変換システム100aの概要を説明する説明図である。図11は、後述する循環注意損失項を説明する説明図である。音声信号変換システム100aは、音声信号変換モデル学習装置1に代えて音声信号変換モデル学習装置1aを備える点で音声信号変換システム100と異なる。以下、音声信号変換システム100が備える機能部と同様の機能を有するものについては図1と同じ符号を付すことで説明を省略する。
音声信号変換モデル学習装置1aは、系列長調整部120に代えて系列長調整部120aを備える点で音声信号変換モデル学習装置1と異なる。また、音声信号変換モデル学習装置1aは、損失取得部150が取得する損失関数が第1損失関数に代えて第2損失関数である点で音声信号変換モデル学習装置1と異なる。第2損失関数は、基本損失項と、循環注意損失項とを含む損失関数である。
循環注意損失項は、順方向注意行列Ax→Yと逆方向注意行列AY→Xとの行列の積と単位行列との違い、を表す。逆方向注意行列AY→Xは第2系列長調整処理において用いられる注意行列Aである。第2系列長調整処理は、埋め込み目標系列Kの系列長を学習用入力音声特徴量系列Xの系列長に一致させる処理である。
埋め込み目標系列Kは、逆入力が行われた場合に、第2目標側推定系列Y{~}を入力側エンコード処理によって変換した結果である。逆入力は、学習用入力音声特徴量系列Xに代えて第2目標側推定系列Y{~}がエンコード部110に入力されることを意味する。そのため、埋め込み目標系列Kは音声特徴量時系列の1つである。
第2系列長調整処理も第1系列長調整処理と同様に、一対の音声特徴量信号の一方の系列長を他方の系列長に一致させる変換である。循環注意損失項は、例えば以下の式(16)で表される。式(16)の左辺は循環注意損失項を表す。
Figure 0007469698000016
式(16)は近似的には例えば以下の式(17)で表される。
Figure 0007469698000017
式(17)においてGはペナルティ行列であり、各要素gi、jはハイパーパラメータσを用いて以下の式(18)で定義される。
Figure 0007469698000018
式(16)又は式(17)の損失関数を最小することは、順方向注意行列Ax→Yと逆方向注意行列AY→Xとの行列の積と、単位行列と、の違いを最小にすることを意味する。なお、式(17)においてノルムはLノルムであるが、必ずしもLノルムである必要はなく、Lノルムであってもよい。
系列長調整部120aは、系列長調整部120aは、逆入力の場合には第2系列長調整処理も実行する点で系列長調整部120と異なるものの、第1系列長調整処理も第2系列長調整処理も、一対の音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する処理である。そのため系列長調整部120aは系列長調整部120同様、一対の音声特徴量時系列の一方を系列長が他方の系列長に一致するように変換する機能部の一例である。
また系列長調整部120aは、取得された損失に基づき、損失を小さくするという条件と式(6)及び式(7)を満たすという条件とを満たすように順方向注意行列Ax→Yだけでなく逆方向注意行列AY→Xも学習する点で系列長調整部120と異なる。
そのため系列長調整部120aは、第1系列長調整処理及び第2系列長調整処理を表現する機械学習モデルを学習によって更新する。系列長調整部120aは、第1系列長調整処理及び第2系列長調整処理を表現する機械学習モデルを学習によって更新可能であればどのようなものであってもよい。系列長調整部120aは、例えば第1系列長調整処理及び第2系列長調整処理を表現するニューラルネットワークである。系列長調整部120aは、例えば第1系列長調整処理及び第2系列長調整処理を表現する長短期記憶ネットワーク等の再帰型ネットワークであってもよい。
音声信号変換モデル学習装置1aは、制御部10に代えて後述する制御部10aを備える点で音声信号変換モデル学習装置1と異なる。
図12は、第2実施形態における制御部10aの機能構成の一例を示す図である。以下、制御部10と同様の機能を備えるものについては、図5と同じ符号を付すことで説明を省略する。制御部10aは、管理部102に代えて管理部102aを備える点と、被管理部101に代えて被管理部101aを備える点とで制御部10と異なる。管理部102aは、被管理部101に代えて被管理部101aの動作を制御する点で管理部102と異なる。管理部102aは、被管理部101の動作の制御として、学習用入力音声特徴量系列X及び学習用目標音声特徴量系列Yに基づく第1目標側推定系列Y{^}、第2目標側推定系列Y{~}及び入力推定系列X{~}の取得後に逆入力を被管理部101に実行させる。
被管理部101は、系列長調整部120に代えて系列長調整部120aを備える点で被管理部101と異なる。
図13は、第2実施形態における音声信号変換システム100aが実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため図8と同様の処理については同じ符号を付すことで説明を省略する。
ステップS101~ステップS104の処理の実行の次に、逆入力が実行される(ステップS108)。すなわち入力側エンコード部111にステップS104で取得された第2目標側推定系列Y{~}が入力される。
ステップS108の次に、入力側エンコード部111が第2目標側推定系列Y{~}に対して入力側エンコード処理を実行する(ステップS109)。ステップS109の入力側エンコード処理によって第2目標側推定系列Y{~}が埋め込み目標系列Kに変換される。
次に系列長調整部120aが埋め込み目標系列Kに対して第2系列長調整処理を実行する(ステップS110)。次に第1目標側デコード部131が、第2系列長調整処理の実行結果の系列に対して、第2目標側デコード処理を実行する(ステップS111)。ステップS111によって取得される系列は、以下の式(19)で表される。
Figure 0007469698000019
次に損失取得部150がステップS104及びステップS111の結果に基づき、第2損失関数の値を損失として取得する(ステップS112)。次に、ステップS112で取得された損失に基づき、損失を小さくするように、エンコード部110、系列長調整部120a、目標側デコード部130及び入力側デコード部140による学習が実行される(ステップS113)。
このように音声信号変換モデル学習装置1aは、第2目標側推定系列Y{~}に対して入力側エンコード処理と系列長を調整する処理と第2目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列と、の違いを用いて学習を行う。上述したように、第2目標側推定系列Y{~}に対して入力側エンコード処理と系列長を調整する処理と第2目標側デコード処理とを実行した結果の系列は式(19)で表される系列である。そして式(19)は式(16)の右辺第1項である。そのため、式(16)又は式(17)は、第2目標側推定系列Y{~}に対して入力側エンコード処理と系列長を調整する処理と第2目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列Xと、の違いを表す。
このように構成された第2実施形態の音声信号変換システム100aは、音声信号変換システム100と同様に、埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させる処理を有する。そのため音声信号変換システム100と同様に、音声信号変換システム100aは、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。
また音声信号変換システム100aは、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。そのため音声信号変換システム100と同様に、音声信号変換システム100aは、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。
また音声信号変換システム100aはデコードの際に話者情報を用いる。そのため音声信号変換システム100と同様に、音声信号変換システム100は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。
また音声信号変換システム100aは、音声特徴量の時系列である入力音声特徴量系列Xを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Yに近づけるように学習する。この際、音声信号変換システム100aは学習用入力音声特徴量系列Xの系列長を学習用目標音声特徴量系列Yと同一にした後、循環注意損失項を含む第2損失関数の値を小さくするように学習する。
上述したように循環注意損失項は、第2目標側推定系列Y{~}に対して入力側エンコード処理と系列長を調整する処理と第2目標側デコード処理とを実行した結果の系列と、学習用入力音声特徴量系列と、の違いを示す。したがって音声信号変換モデル学習装置1aは入力音声特徴量系列Xをまず学習用目標音声特徴量系列Yに近づくように変換し次に入力音声特徴量系列Xに近づくように変換した結果の音声特徴量時系列を入力音声特徴量系列Xに近づけるように学習する。仮に入力音声特徴量系列Xが学習用目標音声特徴量系列Yに一致するように変換された場合、第1目標側推定系列Y{^}を入力音声特徴量系列Xに近づくように変換すれば入力音声特徴量系列Xに一致する音声特徴量時系列が得られる。そのため、循環注意損失項を含む第2損失関数の値を小さくするように学習する音声信号変換システム100aは変換対象音声信号を目標とする音声により近づけることができる。
また、このことは、循環注意損失項を用いれば、たとえ雑音が多い環境で録音されたデータを用いて学習を行う場合であっても、雑音の影響が軽減された学習が行われることを意味する。
(第3実施形態)
図14は、第3実施形態の音声信号変換システム100bを説明する説明図である。音声信号変換システム100bは、音声信号変換モデル学習装置1aに代えて音声信号変換モデル学習装置1bを備える点で音声信号変換システム100aと異なる。以下、音声信号変換システム100aが備える機能部と同様の機能を有するものについては図10と同じ符号を付すことで説明を省略する。
音声信号変換モデル学習装置1bは、制御部10aに代えて後述する制御部10bを備える点で音声信号変換モデル学習装置1aと異なる。制御部10bは、損失取得部150が第1損失関数に代えて以下の第3損失関数を用いる点で、制御部10aと異なる。第3損失関数は、基本損失項と、注意考慮型コントラスティブ損失項とを含む。
注意考慮型コントラスティブ損失項は、注意行列Aの要素のうち最大要素以外の各要素の値について0との違いを表す。最大要素とは、注意行列Aの各列の最大値を与える要素である。そのため、1つのI行J列の注意行列Aにおいて最大要素はJ個存在する。注意考慮型コントラスティブ損失項は、例えば以下の式(20)で表される。式(20)の左辺は、注意考慮型コントラスティブ損失項を表す。
Figure 0007469698000020
式(20)において、aは、順方向注意行列AX→Yのj番目の列を表す。すなわちaはa1、jからaI、jまでのI個の要素を有するベクトルである。εは、乱数ベクトルである。Cはマージンを表す定数である。埋め込み入力系列Kは、入力側エンコード処理による変換後の学習用目標音声特徴量系列Yである。
なお、式(20)においてノルムはLノルムであるが、必ずしもLノルムである必要はなく、Lノルムであってもよい。
<<注意考慮型コントラスティブ損失項の役割>>
注意考慮型コントラスティブ損失項の説明にあたり注意行列Aについてこれまでと異なる観点から説明する。注意行列Aは、上述したように、2つの音声特徴量時系列の時刻間の類似の度合の期待値を示す。そのため、j番目の列における最大値は2つの音声特徴量時系列が類似していることを示す。またこのことは、j番目の列における最大値を与える行をi行として、j番目の列におけるi行以外の行は類似度が低いことを意味する。そのため、注意行列Aは以下の局在条件を満たすことが望ましい。局在条件は、注意行列Aの各列の最大要素以外の要素(以下「非最大要素」という。)の値が0に略同一であるという条件である。次に注意考慮型コントラスティブ損失項が奏する効果について説明する。
第3損失関数に注意考慮型コントラスティブ損失項が無い場合、たとえ学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yとが同一の事象を表す互いに異なる表現であったとしても、局在条件を満たさない注意行列Aが学習されてしまう場合がある。これを誤学習という。局在条件を満たさないということは、非最大要素が0に略同一ではないことを意味する。このことは、学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yとが同一の事象を表していないことを意味する。
式(20)の損失を小さくするということは、非最大要素の値を0に近づけることを意味する。そのため、注意考慮型コントラスティブ損失項を用いることで、音声信号変換モデル学習装置1bは誤学習の発生の頻度を抑制することができる。
また、入力音声特徴量系列Xには例えば背景雑音が重畳するが、一方、目標音声特徴量系列Yは理想環境下でのクリーンな音声である。そこで、音声信号変換システム100bは、注意考慮型コントラスティブ損失項を用いてクリーンな音声より抽出された埋め込み入力系列Kと埋め込み入力系列Kとの間の距離を制約とすることで、所望の文脈情報を抽出することができる。このように、注意考慮型コントラスティブ損失項は、学習において、雑音が多い環境で録音されたデータから雑音の影響を軽減する効果を有する。
図15は、第3実施形態における音声信号変換システム100bが実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため図13と同様の処理については同じ符号を付すことで説明を省略する。ステップS101~ステップS111の処理の次に、損失取得部150がステップS104及びステップS111の結果に基づき、第3損失関数の値を損失として取得する(ステップS112b)。次に、ステップS112bで取得された損失に基づき、損失を小さくするように、エンコード部110、系列長調整部120a、目標側デコード部130及び入力側デコード部140による学習が実行される(ステップS113b)。
このように構成された第3実施形態の音声信号変換システム100bは、音声信号変換システム100と同様に、埋め込み入力系列Kの系列長を埋め込み目標系列Qの系列長に一致させる処理を有する。そのため音声信号変換システム100と同様に、音声信号変換システム100bは、韻律的特徴も含めて音声信号の変換を適切に行うことができ、変換対象音声信号を目標とする音声により近づけることができる。
また音声信号変換システム100bは、音声特徴量時系列を音声特徴量時系列のまま学習に用いる。そのため音声信号変換システム100と同様に、音声信号変換システム100bは、文字時系列情報を用いて得られた音声信号変換モデルを用いた音声信号の変換よりも、目標とする音声により近い音声信号に変換対象音声信号を変換することができる。
また音声信号変換システム100bはデコードの際に話者情報を用いる。そのため音声信号変換システム100と同様に、音声信号変換システム100は、入力された音声特徴量の時系列を、目標とする音声特徴量時系列との違いが話者情報非使用モデルを用いる場合よりも小さい音声特徴量時系列に変換することができる。
また音声信号変換システム100bは、音声特徴量の時系列である入力音声特徴量系列Xを目標とする音声特徴量の時系列である学習用目標音声特徴量系列Yに近づけるように学習する。この際、音声信号変換システム100bは学習用入力音声特徴量系列Xの系列長を学習用目標音声特徴量系列Yと同一にした後、注意考慮型コントラスティブ損失項を含む第3損失関数の値を小さくするように学習する。
上述したように、注意考慮型コントラスティブ損失項があることで音声信号変換システム100bが誤学習する頻度が抑制される。そのため、音声信号変換システム100bは、変換対象音声信号を目標とする音声により近づけることができる。
(第1変形例)
なお、音声信号変換システム100、音声信号変換システム100a及び音声信号変換システム100bは、音声信号変換モデルを得るための学習に際して必ずしも話者情報を用いる必要は無い。たとえ話者情報を用いなくとも、学習において用いる複数の特徴対データの入力話者と目標話者とが特徴対データに依らず同一である場合には、話者情報を用いても用いなくても同様の音声信号変換モデルが得られる。また、学習において用いる複数の特徴対データの1つが他の特徴対データと異なる入力話者及び目標話者の場合であっても、話者情報を用いない場合よりは変換の精度が下がるが音声信号を目標とする音声信号に近づける音声信号変換モデルを得ることはできる。
(第2変形例)
なお、第1損失関数、第2損失関数、第3損失関数は、注意行列損失項を含んでもよい。注意逆損失項は、順方向注意行列AX→Yと対角行列との違いを表す。注意行列損失項は、例えば以下の式(21)で表される。式(21)の左辺は、注意行列損失項を表す。
Figure 0007469698000021
式(21)の損失を小さくする処理は、順方向注意行列AX→Yを対角行列に近づける処理に同値である。学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yとの類似の度合が高い場合、データ点xとデータ点yとは類似の度合が高い。Wは、iにI/Jを掛け算した値に最も近い整数である。
そのため、学習用入力音声特徴量系列Xと学習用目標音声特徴量系列Yとの類似の度合が高いことが予め知られている場合、順方向注意行列AX→Yは対角行列に近づくことが望ましい(参考文献1参照)。
参考文献1:Hideyuki Tachibana, Katsuya Uenoyama, and Shunsuke Aihara, “Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4784-4788, 2018.
なお、式(21)においてノルムはLノルムであるが、必ずしもLノルムである必要はなく、Lノルムであってもよい。
(第3変形例)
第2損失関数は、基本損失項と循環注意損失項とにくわえて、さらに文脈損失項を含んでもよい。第2損失関数は、基本損失項と循環注意損失項とにくわえて、さらに注意考慮型コントラスティブ損失項を含んでもよい。第2損失関数は、基本損失項と循環注意損失項とにくわえて、さらに文脈損失項及び注意考慮型コントラスティブ損失項を含んでもよい。基本損失項、循環注意損失項、注意行列損失項、文脈損失項及び注意考慮型コントラスティブ損失項を含む第2損失関数は、例えば以下の式(22)で表される統合損失関数である。式(22)の左辺が、統合損失関数を表す。
Figure 0007469698000022
式(22)のλgaは、統合損失関数における注意行列損失項の重みを表す。式(22)のλcpは、統合損失関数における文脈損失項の重みを表す。式(22)のλcalは、統合損失関数における循環注意損失項の重みを表す。式(22)のλclは、統合損失関数における注意考慮型コントラスティブ損失項の重みを表す。
第3損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに文脈損失項を含んでもよい。第3損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに循環注意損失項を含んでもよい。第3損失関数は、基本損失項と注意考慮型コントラスティブ損失項とにくわえて、さらに文脈損失項及び循環注意損失項を含んでもよい。すなわち第3損失関数は、統合損失関数であってもよい。
(第1実験の結果)
以下、図16及び図17を用いて第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第1実験の結果を示す。
図16は、第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第1実験の結果を示す第1の図である。第1実験は、参考文献2の英語音声データセットにおける1132文を用いて行われた。1132文のうち1000文(約1時間に相当)が学習用データとして用いられた。1132文のうち132文が学習済みモデルの評価のために用いられた。第1実験は、音声の自然性及び話者類似性に関する比較実験であった。第1実験において入力話者は男女1名であり、目標話者も男女1名であった。図16におけるrms及びclbは入力話者の名前である。bld及びsltは目標話者の名前である。音声のサンプリングレートは16kHzであった。
参考文献2:John Kominek and Alan W. Black, “The CMU Arctic speech databases,” 2004 ISCA Speech Synthesis Workshop (SSW), pp.223-224, 2004.
図16は第1実験の実験結果は、15名の被験者それぞれに、3つの学習方法に4通りの学習用データを適用した結果得られた合計12の学習済みモデルについて各80回ずつ、人の声か否かを判定してもらった結果を示す。4通りの学習用データの違いは、入力話者と目標話者との組合せの違いである。
4通りの学習用データの1つは、入力話者がrmsであり目標話者がbdlの学習用データである。図16において、入力話者がrmsであり目標話者がbdlの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“rms-bld”のグラフである。
4通りの学習用データの1つは、入力話者がrmsであり目標話者がsltの学習用データである。図16において、入力話者がrmsであり目標話者がsltの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“rms-slt”のグラフである。
4通りの学習用データの1つは、入力話者がclbであり目標話者がbdlの学習用データである。図16において、入力話者がclbであり目標話者がbdlの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“clb-bdl”のグラフである。
4通りの学習用データの1つは、入力話者がclbであり目標話者がsltの学習用データである。図16において、入力話者がclbであり目標話者がsltの学習用データを用いて得られた学習済みモデルに対する被験者の判定の結果は、“clb-slt”のグラフである。
図16において“summary”のグラフは、4通りの学習用データそれぞれの結果を平均した結果を示す。図16において、横軸は、“summary”のグラフと、rms-bld”のグラフと、“rms-slt”のグラフと、“clb-bdl”のグラフと、“clb-slt”のグラフとの図16上の位置を示す。
図16において、“Proposed”は、第2実施形態の音声信号変換システム100aで得られた音声信号変換モデルを用いた音声変換を表す。図16において、“GMM-VC-wGV”は、参考文献3に記載の技術で得られた音声信号変換モデルを用いた音声変換を表す。学習は参考文献4に記載のオープンソースツールキットを用いて行われた。
参考文献3:Tomoki Toda, Alan W. Black, and Keiichi Tokuda, “Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory,” IEEE Transactions on Audio, Speech and Language Processing (TASLP), vol.15, no.8, pp.2222-2235, 2007.
参考文献4:Kazuhiro Kobayashi and Tomoki Toda, “sprocket: Open-source voice conversion software,” Proc. Odyssey 2018 The Speaker and Language Recognition Workshop, pp.203-210, 2018.
図16において、“LSTM-TTS”は、非特許文献2及び3に記載の技術で得られた音声信号変換モデルを用いた音声変換を表す。学習は、音声認識モジュールが完璧に動作したと仮定した場合に、テキスト音声合成モジュールのみに着目できるため、テキスト音声合成により生成される音声との比較により行われた。コンテキスト情報は、参考文献5に記載のオープンソースツールキットに従って抽出された。音声特徴量は、参考文献6に記載のシステムにより抽出された60次元のメルケプストラムと、対数Fと、音声信号に含まれる成分のうち空気の震え等の雑音成分である非周期成分とが用いられた。Fは周期信号成分の基本周波数である。継続長モデルとして、256次元のセルを持つ3層の長・短期記憶モデル(Long Short-Term Memory: LSTM)及び線形射影が用いられた。音響特徴量モデルとして、256次元のセルを持つ3層の双方向LSTM及び線形射影が用いられた。
参考文献5:Zhizheng Wu, Oliver Watts, and Simon King, “Merlin: An open source neural network speech synthesis system,”2016 ISCA Speech Synthesis Workshop (SSW), pp.202-207, 2016.
参考文献6:Masanori. Morise, Fumiya. Yokomori, and Kenji. Ozawa, “WORLD: a vocoder-based high-quality speech synthesis system for real-time applications,” IEICE Transactions on Information and Systems,vol.99, no.7, pp.1877-1884, 2016.
図16の縦軸は、“Proposed”が人の声に近いと判定された割合と、“GMM-VC-wGV”が人の声に近いと判定された割合と、“LSTM-TTS”が人の声に近いと判定された割合と、第1非判定割合(図16における“Fair”)とを示す。第1非判定割合は、人の声の近さについて“Proposed”と、“GMM-VC-wGV”と、“LSTM-TTS”との間に優劣はつけられないと判定された割合である。
図17は、第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第1実験の結果を示す第2の図である。
図17の実験結果は、15名の被験者に各学習済みによる音声変換の結果は目標話者の音声に近いか否かを判定してもらった結果である。図17の横軸の意味は、図16の横軸の意味と同じである。図17の縦軸は、“Proposed”による音声変換の結果は目標話者の音声に近いと判定された割合と、“GMM-VC-wGV” による音声変換の結果は目標話者の音声に近いと判定された割合と、“LSTM-TTS” による音声変換の結果は目標話者の音声に近いと判定された割合と、第2非判定割合(図17における“Fair”)とを示す。第2非判定割合は、目標話者の音声への近さについて“Proposed”と、“GMM-VC-wGV”と、“LSTM-TTS”との間に優劣はつけられないと判定された割合である。
図16及び図17は、“GMM-VC-wGV”よりも“Proposed”の方が、自然性(すなわち人の声に近い度合)及び話者類似性の両方が向上していることを示す。話者類似性は、具体的には目標話者に近い度合である。この結果は、声質や抑揚、話速といった様々な特徴量を同時に変換できる“Proposed”が音声変換において有効であることを示す。
図16及び図17は、“Proposed”が“LSTM-TTS”と同程度の性能を達成していることを示す。この結果は、“Proposed”がテキストラベルを使わず音声データのみから文脈情報に相当する情報を抽出し、話者性を変更する支配的な要素を学習できたことを示す。
なお、第1実験では環境雑音が無い収録室で録音した実験データが用いられた。ここで非特許文献1に記載の実験(以下「先行実験」という。)の結果と第1実験の結果とを比較すると、両者には差が無いことがわかる。先行実験と第1実験との違いは循環注意損失項及び注意考慮型コントラスティブ損失項を用いるか否かの違いであり、循環注意損失項及び注意考慮型コントラスティブ損失項を用いた学習では雑音が多い環境で録音されたデータを用いても雑音の影響が軽減される。第1実験では、先行実験と異なり循環注意損失項及び注意考慮型コントラスティブ損失項を用いているものの、環境雑音が無い収録室で録音した実験データが用いられた。そのため、第1実験の結果と先行実験の結果には差が無い。
(第2実験の結果)
以下、図18及び図19を用いて第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第2実験の結果を示す。第2実験は、自己や病気により生体を含む喉頭摘出をし、通常発声が困難になった人に音声信号変換システム100aを適用した結果を示す。このような人は、電気式人工喉頭と呼ばれる外部音源を用いて音声(電気音声信号)を発生する。第2実験では、音声信号変換システム100aが、このような電気音声信号から健常者の音声を予測する。電気音声信号は、電気式人工喉頭と呼ばれる外部音源を用いて発生された音声である。
電気音声信号は、音源を生成する電気式人工喉頭に起因して、抑揚成分がフラットな抑揚(例えば、100Hz固定など)となってしまう音声である。従来の音声変換の技術では、抑揚成分が無い場合に予測は困難であったため、抑揚成分が欠落した音声から抑揚成分を含めて通常音声を予測できるか、という点が実験の肝の1つであった。なお、モデルは話者情報を用いた学習によって得られた。
図18は、第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第2実験の結果を示す第1の図である。
第2実験は、参考文献7の日本語音声データセットにおける503文を用いて行われた。503文のうち450文が学習用データとして用いられた。503文のうち53文が学習済みモデルの評価のために用いられた。図18の縦軸は、目標音声の基本周波数と変換音声の基本周波数との相関係数を示す。相関係数は、音声信号変換装置2による基本周波数の予測精度を示す。図18の横軸は目標話者を示す。
参考文献7:John Kominek and Alan W. Black, “The CMU Arctic speech databases,” 2004 ISCA Speech Synthesis Workshop (SSW), pp.223-224, 2004.
第2実験における変換対象音声信号は、アナウンサー又はナレータである男性6人(M1~M6)と女性4人(F1~F4)とにより発生された通常音声の音声信号と、男性健常者1名により模擬発声された電気音声信号(EL)とであった。音声のサンプリングレートは16kHzであった。
図19は、第2損失関数が統合損失関数である第2実施形態の音声信号変換システム100aを用いた音声変換の第2実験の結果を示す第2の図である。
図19の縦軸は、目標音声の基本周波数と変換音声の基本周波数との相関係数を示す。図19の横軸は入力話者を示す。
図18及び図19は、入力音声が通常音声ではなく電気音声の時に劣化が生じていることを示す。通常音声から通常音声への変換の場合には、入力特徴量に基本周波数の情報が入り込むため、電気音声を入力とした時と比べて予測のために韻律成分が含まれた通常音声は有利な特徴量である可能性が高い。
仮に、入力音声の基本周波数のみを手掛かりに音声信号変換装置2が予測を行なった場合、入力話者と目標話者が同じ話者である場合の予測精度が最も高くなるはずである。しかし、図18及び図19の実験結果はそうではないことを示す。この結果は、基本周波数成分を予測するのに、ある程度、入力音声の音韻情報を手掛かりに予測できていることを示す。それゆえに、図18及び図19では、電気音声信号を入力とした際の劣化度合いが、目標話者に依存せず一定量である確率が高い。逆に電気音声信号を入力音声とした際の予測精度が通常音声を入力とした際の予測精度と同等になることは、中間表現として音韻情報を正確に学習できていることを示す。また、図18及び図19は、話者には依存せず、目標話者としてモデル化が難しい話者(例えば、M5)が存在することを示す。
(第4変形例)
なお、音声信号変換装置2は、順方向注意行列AX→Yに代えて予め記憶部23に記録された対角行列を用いて音声の変換を行ってもよい。上述したように順方向注意行列AX→Yのi行j列の要素はデータ点kとデータ点qとの類似の度合の期待値を表す。そのため、順方向注意行列AX→Yを用いて音声の変換を行う場合、変換対象音声信号の全てが音声信号変換装置2に入力されてからでないと音声信号変換装置2は音声変換を実行することができない。一方、予め用意された対角行列を用いる場合、変換対象音声信号の一部が音声信号変換装置2に入力されていれば音声変換を実行することができる。そのため、予め用意された対角行列を用いる場合、音声信号変換装置2は、変換対象音声信号が全て入力されるまで待機する必要がなく、音声変換のリアルタイム性を向上させることができる。
なお、注意行列Aの生成時に埋め込み目標系列Kにおいて該当時間の直近のデータ点のみを用い、セグメント化するなどして未来のデータ点を用いないことでも、音声信号変換装置2による音声変換のリアルタイム性を向上させることができる。
(第5変形例)
なお、音声信号変換モデル学習装置1、1a及び1bは、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音声信号変換モデル学習装置1、1a及び1bが備える各機能部は、複数の情報処理装置に分散して実装されてもよい。なお、音声信号変換装置2は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。音声信号変換モデル学習装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、音声信号変換モデル学習装置1、1a又は1bと音声信号変換装置2とは、必ずしも異なる装置として実装される必要は無い。音声信号変換モデル学習装置1、1a又は1bと音声信号変換装置2とは、例えば両者の機能を併せ持つ1つの装置として実装されてもよい。
なお、音声信号変換モデル学習装置1、1a及び1bと音声信号変換装置2の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100、100a、100b…音声信号変換システム、 1、1a、1b…音声信号変換モデル学習装置、 2…音声信号変換装置、 10、10a、10b…制御部、 11…入力部、 12…インタフェース部、 13…記憶部、 14…出力部、 101、101a…被管理部、 102、102a…管理部、 110…エンコード部、 111…入力側エンコード部、 112…目標側エンコード部、 120、120a…系列長調整部、 130…目標側デコード部、 131…第1目標側デコード部、 132…第2目標側デコード部、 140…入力側デコード部、 150…損失取得部、 20…制御部、 21…入力部、 22…インタフェース部、 23…記憶部、 24…出力部、 201…変換対象取得部、 202…系列エンコード部、 203…変換部、 204…系列デコード部、 205…音声信号出力制御部

Claims (19)

  1. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
    一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、
    前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、
    前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、
    文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
    前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果である第2目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、
    前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコード部、前記系列長調整部、前記第1目標側デコード部、前記第2目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習し、
    前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
    音声信号変換モデル学習装置。
  2. 前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列の各列の最大値を与える要素を最大要素として、前記注意行列の要素のうち最大要素以外の各要素の値について0との違いを表す、注意考慮型コントラスティブ損失項をさらに含む、
    請求項1に記載の音声信号変換モデル学習装置。
  3. 前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
    請求項1又は2のいずれか一項に記載の音声信号変換モデル学習装置。
  4. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
    一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、
    前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、
    循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
    前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果を第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、
    前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコード部、前記系列長調整部、前記第1目標側デコード部及び前記第2目標側デコード部は前記損失関数の値に基づいて学習する、
    音声信号変換モデル学習装置。
  5. 前記学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部、
    を備え、
    前記損失関数は、前記第2目標側推定系列と前記学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いとを表す文脈損失項、をさらに含む、
    請求項4に記載の音声信号変換モデル学習装置。
  6. 前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列の各列の最大値を与える要素を最大要素として、前記注意行列の要素のうち最大要素以外の各要素の値について0との違いを表す、注意考慮型コントラスティブ損失項をさらに含む、
    請求項4又は5に記載の音声信号変換モデル学習装置。
  7. 前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
    請求項4から6のいずれか一項に記載の音声信号変換モデル学習装置。
  8. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコード部と、
    一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、
    前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、
    注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、
    前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について0との違いを表し、
    前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコード部、前記系列長調整部、前記第1目標側デコード部及び前記第2目標側デコード部は前記損失関数の値に基づいて学習する、
    音声信号変換モデル学習装置。
  9. 前記学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部、
    を備え、
    前記損失関数は、前記第2目標側推定系列と前記学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いとを表す文脈損失項、をさらに含む、
    請求項8に記載の音声信号変換モデル学習装置。
  10. 前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
    請求項8又は9に記載の音声信号変換モデル学習装置。
  11. 前記損失関数は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と対角行列との違いを表す注意逆損失項をさらに含む、
    請求項8から10のいずれか一項に記載の音声信号変換モデル学習装置。
  12. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコード部によってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコード部と、文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果である第2目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第1目標側デコード部、前記第2目標側デコード部及び前記入力側デコード部は前記損失関数の値に基づいて学習し、前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
    を備える音声信号変換装置。
  13. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果を第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第1目標側デコード部及び前記第2目標側デコード部は前記損失関数の値に基づいて学習する音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
    を備える音声信号変換装置。
  14. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習装置であって、音声特徴量時系列に対してエンコード処理を実行するエンコード部と、一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整部と、前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコード部と、前記系列長調整部により系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコード部と、注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得部と、を備え、前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果を第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について0との違いを表し、前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、前記エンコード部、前記系列長調整部、前記第1目標側デコード部及び前記第2目標側デコード部は前記損失関数の値に基づいて学習する音声信号変換モデル学習装置、が得た学習済みモデルを用いて入力された音声信号を変換する変換部、
    を備える音声信号変換装置。
  15. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
    一対の音声特徴量時系列の一方を、系列の長さが他方の系列の長さに一致するように変換する系列長調整処理を実行する系列長調整ステップと、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコードステップと、
    前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコードステップと、
    前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列が前記エンコードステップによってエンコードされた時系列に対して入力側デコード処理を実行する入力側デコードステップと、
    文脈損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
    前記文脈損失項は、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果である第2目標側推定系列と前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列との間の違いと、前記学習用入力音声特徴量系列に対して前記エンコード処理及び前記入力側デコード処理をこの順に実行した結果である入力側推定系列と前記学習用入力音声特徴量系列との間の違いと、を表し、
    前記基本損失項は、前記学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコードステップ、前記系列長調整ステップ、前記第1目標側デコードステップ、前記第2目標側デコードステップ及び前記入力側デコードステップは前記損失関数の値に基づいて学習し、
    前記損失関数は、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表す循環注意損失項、をさらに含む、
    音声信号変換モデル学習方法。
  16. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
    一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整ステップと、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコードステップと、
    前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコードステップと、
    循環注意損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
    前記循環注意損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果を第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との行列の積と単位行列との違いを表し、
    前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコードステップ、前記系列長調整ステップ、前記第1目標側デコードステップ及び前記第2目標側デコードステップは前記損失関数の値に基づいて学習する、
    音声信号変換モデル学習方法。
  17. 音声信号から得られる情報のうち所定の条件を満たす情報である音声特徴量時系列を用いて音声信号を変換する機械学習のモデルを学習する音声信号変換モデル学習方法であって、
    音声特徴量時系列に対してエンコード処理を実行するエンコードステップと、
    一対の音声特徴量時系列の一方を他方に一致させる系列長調整処理を実行する系列長調整ステップと、
    前記他方の音声特徴量時系列に対して第1目標側デコード処理を実行する第1目標側デコードステップと、
    前記系列長調整ステップにより系列の長さが調整された前記一方の音声特徴量時系列に対して第2目標側デコード処理を実行する第2目標側デコードステップと、
    注意考慮型コントラスティブ損失項及び基本損失項を含む損失関数の値を取得する損失取得ステップと、を有し、
    前記注意考慮型コントラスティブ損失項は、前記モデルを得る際の説明変数として用いられる学習用入力音声特徴量系列に対して前記エンコード処理と、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した結果を第2目標側推定系列として、前記第2目標側推定系列に対して前記エンコード処理と、前記学習用入力音声特徴量系列に対する前記系列長調整処理と、前記第1目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列と、前記学習用入力音声特徴量系列に対して前記エンコード処理と、前記学習用目標音声特徴量系列に対して前記エンコード処理を実行した結果に対する前記系列長調整処理と、前記第2目標側デコード処理と、をこの順に実行した際の前記系列長調整処理における変換を表す注意行列との各注意行列の各列の最大値を与える要素を最大要素として、各前記注意行列の要素のうち最大要素以外の各要素の値について0との違いを表し、
    前記基本損失項は、前記モデルを得る際の目的変数として用いられる学習用目標音声特徴量系列に対して前記エンコード処理及び前記第1目標側デコード処理をこの順に実行した結果である第1目標側推定系列と前記学習用目標音声特徴量系列との間の違いを表し、
    前記エンコードステップ、前記系列長調整ステップ、前記第1目標側デコードステップ及び前記第2目標側デコードステップは前記損失関数の値に基づいて学習する、
    音声信号変換モデル学習方法。
  18. 請求項1から11のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
  19. 請求項12から14のいずれか一項に記載の音声信号変換装置としてコンピュータを機能させるためのプログラム。
JP2022522103A 2020-05-11 2020-05-11 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Active JP7469698B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/018828 WO2021229643A1 (ja) 2020-05-11 2020-05-11 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021229643A1 JPWO2021229643A1 (ja) 2021-11-18
JP7469698B2 true JP7469698B2 (ja) 2024-04-17

Family

ID=78525434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022522103A Active JP7469698B2 (ja) 2020-05-11 2020-05-11 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7469698B2 (ja)
WO (1) WO2021229643A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023132018A1 (ja) * 2022-01-05 2023-07-13 日本電信電話株式会社 学習装置、信号処理装置、学習方法及び学習プログラム
CN115620748B (zh) * 2022-12-06 2023-03-28 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144402A (ja) 2018-02-20 2019-08-29 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TANAKA, Kou et al.,AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms,arXiv,2018年11月09日,DOI: 10.48550/arXiv.1811.04076

Also Published As

Publication number Publication date
JPWO2021229643A1 (ja) 2021-11-18
WO2021229643A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
Valle et al. Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis
CN106688034B (zh) 具有情感内容的文字至语音转换
CN111837178A (zh) 语音处理系统和处理语音信号的方法
Liu et al. Recent progress in the cuhk dysarthric speech recognition system
CN107408384A (zh) 部署的端对端语音识别
CN107077842A (zh) 用于语音转录的系统和方法
CN112712813B (zh) 语音处理方法、装置、设备及存储介质
CN109903750B (zh) 一种语音识别方法及装置
Kameoka et al. Many-to-many voice transformer network
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
JP7469698B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP2020034883A (ja) 音声合成装置及びプログラム
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Hu et al. Whispered and Lombard neural speech synthesis
Himawan et al. Speaker adaptation of a multilingual acoustic model for cross-language synthesis
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Ling et al. Minimum Kullback–Leibler divergence parameter generation for HMM-based speech synthesis
JP2022548574A (ja) シーケンス-シーケンス・ニューラル・モデルにおける構造保持注意機構
Effendi et al. End-to-end image-to-speech generation for untranscribed unknown languages
Choi et al. SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
Gref et al. Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech Recognition in Real-World Applications--A Case Study on German Oral History Interviews

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221014

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20221014

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20221014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7469698

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150