JP2021033129A - 音声変換装置、音声変換方法及び音声変換プログラム - Google Patents

音声変換装置、音声変換方法及び音声変換プログラム Download PDF

Info

Publication number
JP2021033129A
JP2021033129A JP2019154703A JP2019154703A JP2021033129A JP 2021033129 A JP2021033129 A JP 2021033129A JP 2019154703 A JP2019154703 A JP 2019154703A JP 2019154703 A JP2019154703 A JP 2019154703A JP 2021033129 A JP2021033129 A JP 2021033129A
Authority
JP
Japan
Prior art keywords
voice
conversion
feature amount
unit
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019154703A
Other languages
English (en)
Inventor
慎之介 高道
Shinnosuke Takamichi
慎之介 高道
陸 荒川
Riku Arakawa
陸 荒川
洋 猿渡
Hiroshi Saruwatari
洋 猿渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2019154703A priority Critical patent/JP2021033129A/ja
Publication of JP2021033129A publication Critical patent/JP2021033129A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】ニューラルネットワークを用いたリアルタイム音声変換を行う音声変換装置等を提供する。【解決手段】音声変換装置10は、対象者の音声から複数の部分音声の信号を取得する取得部11と、信号に基づいて、部分音声の高さを表す第1特徴量、部分音声の強さを表す第2特徴量及び部分音声の声色を表す第3特徴量を算出する算出部12と、第1変換モデル13aによって、第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部13と、第2変換モデル14aによって、第2特徴量をターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部14と、第1ニューラルネットワーク15aによって、第3特徴量をターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部15と、第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成する生成部17と、を備える。【選択図】図1

Description

本発明は、音声変換装置、音声変換方法及び音声変換プログラムに関する。
従来、対象者の音声を変換し、異なる人物が話しているような合成音声を生成する研究が行われている。例えば、下記非特許文献1及び2には、混合ガウスモデル(Gaussian Mixture Model, GMM)を用いたリアルタイム音声変換の技術が記載されている。
T. Toda et al., "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory," IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 8, pp. 2222-2235, 2007. T. Toda et al., "Implementation of computationally efficient real-time voice conversion," in Proc. INTERSPEECH, Portland, U.S.A., Sep. 2012.
GMMを用いた音声変換は、演算量が比較的少なく、高速に動作するため、遅延時間が50ms程度での音声変換を実現することができる。しかしながら、GMMによる音声変換の品質は必ずしも高くない場合がある。
一方、ニューラルネットワークを用いた音声変換の試みが知られている。ニューラルネットワークを用いた音声変換は、品質が比較的高いものの、演算量が比較的多かったり、音声全体を一括して処理する必要があったりして、遅延時間が50ms程度でのリアルタイム動作が困難であった。
そこで、本発明は、ニューラルネットワークを用いたリアルタイム音声変換を行う音声変換装置、音声変換方法及び音声変換プログラムを提供する。
本発明の一態様に係る音声変換装置は、対象者の音声から複数の部分音声の信号を取得する取得部と、信号に基づいて、部分音声の高さを表す第1特徴量、部分音声の強さを表す第2特徴量及び部分音声の声色を表す第3特徴量を算出する算出部と、第1変換モデルによって、第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、第2変換モデルによって、第2特徴量をターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、第1ニューラルネットワークによって、第3特徴量をターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成する生成部と、を備える。
この態様によれば、音声の高さを表す第1特徴量及び音声の強さを表す第2特徴量を、任意のモデルでターゲットの音声の高さを表す第1変換特徴量及びターゲットの音声の強さを表す第2変換特徴量にそれぞれ変換し、音声の声色を表す第3特徴量を、ニューラルネットワークによって、ターゲットの音声の声色を表す第3変換特徴量に変換することで、高い品質と短い遅延時間を両立させた音声変換を行うことができる。
上記態様において、第2ニューラルネットワークによって、第3特徴量をターゲットの音声のかすれ具合を表す第4変換特徴量に変換する第4変換部をさらに備え、生成部は、第1変換特徴量、第2変換特徴量、第3変換特徴量及び第4変換特徴量に基づいて、合成音声を生成してもよい。
この態様によれば、音声の声色を表す第3特徴量を、ニューラルネットワークによって、ターゲットの音声のかすれ具合を表す第4変換特徴量に変換することで、より自然な合成音声を生成することができ、音声変換の品質をより向上させることができる。
上記態様において、第3変換部は、第1ニューラルネットワークによって、複数の部分音声の声色を表す複数の第3特徴量を平滑化した値を第3変換特徴量に変換してもよい。
この態様によれば、複数の第3特徴量を平滑化した値を用いることで、音声知覚に対する影響が小さい成分を除去することができ、第1ニューラルネットワークの演算負荷を低減させ、音声変換をより高速に行えるようにすることができる。
上記態様において、算出部は、部分音声より長いターゲットの音声の信号に基づいて、ターゲットの音声の声色を表す第5特徴量を算出し、第5特徴量と第3変換特徴量との差異を小さくするように、第1ニューラルネットワークのパラメータを更新することで第1ニューラルネットワークを学習させる第1学習部をさらに備えてもよい。
この態様によれば、ターゲットの音声の声色を表す第5特徴量を学習データとして、第3特徴量を適切な第3変換特徴量に変換する第1ニューラルネットワークを構築することができる。
上記態様において、第1学習部は、平均及び分散を規格化した第3特徴量を第1ニューラルネットワークによって変換して得られる第3変換特徴量と、平均及び分散を規格化した第5特徴量との差異を小さくするように、第1ニューラルネットワークのパラメータを更新することで第1ニューラルネットワークを学習させてもよい。
この態様によれば、対象者の部分音声と、ターゲットの音声との長さが揃わない場合であっても、第3変換特徴量と第5特徴量が共通の尺度で表され、適切に比較できるようになる。
上記態様において、算出部は、区間が重畳する複数の部分音声の声色を表す複数の第3特徴量を算出し、第1学習部は、第5特徴量と複数の第3変換特徴量それぞれとの差異を小さくするように、第1ニューラルネットワークのパラメータを更新することで第1ニューラルネットワークを学習させてもよい。
この態様によれば、部分音声を切り出す区間をずらすデータ拡張によって、第1ニューラルネットワークの汎化性能を向上させることができる。
上記態様において、算出部は、ターゲットの音声の信号に基づいて、ターゲットの音声のかすれ具合を表す第6特徴量を算出し、第6特徴量と第4変換特徴量との差異を小さくするように、第2ニューラルネットワークのパラメータを更新することで第2ニューラルネットワークを学習させる第2学習部をさらに備えてもよい。
この態様によれば、ターゲットの音声のかすれ具合を表す第6特徴量を学習データとして、第3特徴量を適切な第4変換特徴量に変換する第2ニューラルネットワークを構築することができる。
上記態様において、第1変換モデルは、第1特徴量を第1変換特徴量に線形変換してもよい。
この態様によれば、第1変換特徴量を高速に算出することができる。
上記態様において、第2変換モデルは、第2特徴量を第2変換特徴量に線形変換してもよい。
この態様によれば、第2変換特徴量を高速に算出することができる。
上記態様において、第1特徴量は、部分音声をフーリエ変換した場合の基本周波数であってもよい。
この態様によれば、対象者の音声の高さを適切に捉えることができる。
上記態様において、第2特徴量は、部分音声をフーリエ変換した場合のパワーであってもよい。
この態様によれば、対象者の音声の強さを適切に捉えることができる。
上記態様において、第3特徴量は、部分音声のメル周波数ケプストラムであってもよい。
この態様によれば、対象者の音声の声色を適切に捉えることができる。
上記態様において、第4変換特徴量は、ターゲットの音声の帯域平均化非周期性指標であってもよい。
この態様によれば、対象者の音声のかすれ具合を適切に捉えることができる。
本発明の他の態様に係る音声変換方法は、対象者の音声から複数の部分音声の信号を取得する取得部と、信号に基づいて、部分音声の高さを表す第1特徴量、部分音声の強さを表す第2特徴量及び部分音声の声色を表す第3特徴量を算出する算出部と、第1変換モデルによって、第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、第2変換モデルによって、第2特徴量をターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、第1ニューラルネットワークによって、第3特徴量をターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成する生成部と、を含む音声変換方法。
この態様によれば、音声の高さを表す第1特徴量及び音声の強さを表す第2特徴量を、任意のモデルでターゲットの音声の高さを表す第1変換特徴量及びターゲットの音声の強さを表す第2変換特徴量にそれぞれ変換し、音声の声色を表す第3特徴量を、ニューラルネットワークによって、ターゲットの音声の声色を表す第3変換特徴量に変換することで、高い品質と短い遅延時間を両立させた音声変換を行うことができる。
本発明の他の態様に係る音声変換プログラムは、音声変換装置に備えられた演算部を、対象者の音声から複数の部分音声の信号を取得する取得部、信号に基づいて、部分音声の高さを表す第1特徴量、部分音声の強さを表す第2特徴量及び部分音声の声色を表す第3特徴量を算出する算出部、第1変換モデルによって、第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部、第2変換モデルによって、第2特徴量をターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部、第1ニューラルネットワークによって、第3特徴量をターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部、及び第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成する生成部、として機能させる音声変換プログラム。
この態様によれば、音声の高さを表す第1特徴量及び音声の強さを表す第2特徴量を、任意のモデルでターゲットの音声の高さを表す第1変換特徴量及びターゲットの音声の強さを表す第2変換特徴量にそれぞれ変換し、音声の声色を表す第3特徴量を、ニューラルネットワークによって、ターゲットの音声の声色を表す第3変換特徴量に変換することで、高い品質と短い遅延時間を両立させた音声変換を行うことができる。
本発明によれば、ニューラルネットワークを用いたリアルタイム音声変換を行う音声変換装置、音声変換方法及び音声変換プログラムを提供することができる。
本発明の実施形態に係る音声変換装置の機能ブロックを示す図である。 本実施形態に係る音声変換装置の物理的構成を示す図である。 本実施形態に係る音声変換装置によって実行される処理の概要を示す図である。 本実施形態に係る音声変換装置によって実行される音声変換処理のフローチャートである。 本実施形態に係る音声変換装置によって実行される学習処理のフローチャートである。
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
図1は、本発明の実施形態に係る音声変換装置10の機能ブロックを示す図である。音声変換装置10は、取得部11、算出部12、第1変換部13、第2変換部14、第3変換部15、第4変換部16、生成部17、第1学習部18及び第2学習部19を備える。
取得部11は、対象者の音声から複数の部分音声の信号を取得する。取得部11は、マイク20により電気信号に変換された対象者の音声から、所定の時間間隔の部分音声を取得する。取得部11は、例えば、対象者の音声を5ms毎に区切って、複数の部分音声としてよい。
算出部12は、部分音声の信号に基づいて、部分音声の高さを表す第1特徴量、部分音声の強さを表す第2特徴量及び部分音声の声色を表す第3特徴量を算出する。ここで、第1特徴量は、部分音声をフーリエ変換した場合の基本周波数であってよく、第2特徴量は、部分音声をフーリエ変換した場合のパワーであってよく、第3特徴量は、部分音声のメル周波数ケプストラムであってよい。なお、第1特徴量は、基本周波数の対数であってよく、パワーは、メル周波数ケプストラムの0次係数によって算出してよい。また、第3特徴量は、部分音声の音色を表すものであってよい。このような第1特徴量によって、対象者の音声の高さを適切に捉えることができる。また、第2特徴量によって、対象者の音声の強さを適切に捉えることができる。さらに、第3特徴量によって、対象者の音声の声色を適切に捉えることができる。
第1変換部13は、第1変換モデル13aによって、第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する。第1変換モデル13aは、第1特徴量を第1変換特徴量に線形変換するモデルであってよい。より具体的には、第1変換モデル13aは、対象者の部分音声をフーリエ変換して得られる基本周波数を、ターゲットの音声をフーリエ変換して得られると想定される基本周波数に線形変換するモデルであってよい。第1変換モデル13aを線形変換モデルとすることで、第1変換特徴量を高速に算出することができる。
第2変換部14は、第2変換モデル14aによって、第2特徴量をターゲットの音声の強さを表す第2変換特徴量に変換する。第2変換モデル14aは、第2特徴量を第2変換特徴量に線形変換するモデルであってよい。より具体的には、第2変換モデル14aは、対象者の部分音声をフーリエ変換して得られるパワーを、ターゲットの音声をフーリエ変換して得られると想定されるパワーに線形変換するモデルであってよい。第2変換モデル14aを線形変換モデルとすることで、第2変換特徴量を高速に算出することができる。
第3変換部15は、第1ニューラルネットワーク15aによって、第3特徴量をターゲットの音声の声色を表す第3変換特徴量に変換する。ここで、第1ニューラルネットワーク15aの入力は、注目する区間の部分音声に関するメル周波数ケプストラムと、その前後複数の区間(例えば前後2つの区間)の部分音声に関するメル周波数ケプストラムであってよい。そして、第1ニューラルネットワーク15aの出力は、注目する区間に対応するターゲットの音声のメル周波数ケプストラムであってよい。
第1ニューラルネットワーク15aの構成は、例えば、500次元の隠れ層を2層含む全結合ニューラルネットワークであってよいが、他の構成であってもよい。本実施形態では、活性化関数としてLeaky ReLUを用いたが、他の活性化関数を用いてもよい。また、本実施形態では、活性化関数の直後にBatch Normalizationを適用している。
第3変換部15は、第1ニューラルネットワーク15aによって、複数の部分音声の声色を表す複数の第3特徴量を平滑化した値を第3変換特徴量に変換してよい。第3変換部15は、例えばFIR(Finite Impulse Response)フィルタを用いて、注目する区間の部分音声と、その前の区間の部分音声とを平滑化してよい。複数の第3特徴量を平滑化した値を用いることで、音声知覚に対する影響が小さい成分を除去することができ、第1ニューラルネットワーク15aの演算負荷を低減させ、音声変換をより高速に行えるようにすることができる。
第4変換部16は、第2ニューラルネットワーク16aによって、第3特徴量をターゲットの音声のかすれ具合を表す第4変換特徴量に変換する。ここで、第4変換特徴量は、ターゲットの音声の帯域平均化非周期性指標であってよく、帯域平均化非周期性指標は、M. Morise, "D4C, a band-aperiodicity estimator for high-quality speech synthesis," Speech Communication, vol. 84, pp. 57-65, 2016.に記載されたband aperiodicityであってよい。第4変換特徴量によって、対象者の音声のかすれ具合を適切に捉えることができる。
生成部17は、第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成する。生成部17は、M. Morise et al., "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems, vol. E99.D, no. 7, pp. 1877-1884, 2016.にて提案された音声合成システム「WORLD」を用いて、第1変換特徴量、第2変換特徴量及び第3変換特徴量に基づいて、合成音声を生成してよい。生成部17により生成された合成音声は、スピーカー30によって出力される。
本実施形態に係る音声変換装置10によれば、音声の高さを表す第1特徴量及び音声の強さを表す第2特徴量を、任意のモデルでターゲットの音声の高さを表す第1変換特徴量及びターゲットの音声の強さを表す第2変換特徴量にそれぞれ変換し、音声の声色を表す第3特徴量を、第1ニューラルネットワーク15aによって、ターゲットの音声の声色を表す第3変換特徴量に変換することで、高い品質と短い遅延時間を両立させた音声変換を行うことができる。
生成部17は、第1変換特徴量、第2変換特徴量、第3変換特徴量及び第4変換特徴量に基づいて、合成音声を生成してもよい。この場合も、生成部17は、「WORLD」を用いて、第1変換特徴量、第2変換特徴量、第3変換特徴量及び第4変換特徴量に基づいて、合成音声を生成してよい。音声の声色を表す第3特徴量を、第2ニューラルネットワーク16aによって、ターゲットの音声のかすれ具合を表す第4変換特徴量に変換することで、より自然な合成音声を生成することができ、音声変換の品質をより向上させることができる。
第1学習部18は、第5特徴量と第3変換特徴量との差異を小さくするように、第1ニューラルネットワーク15aのパラメータを更新することで第1ニューラルネットワーク15aを学習させる。ここで、第5特徴量は、ターゲットの音声の声色を表す特徴量であり、算出部12によって、部分音声より長いターゲットの音声の信号に基づいて算出されてよい。第5特徴量と第3変換特徴量との差異は、二乗誤差で測られてよく、第1学習部18は、二乗誤差を第1ニューラルネットワーク15aのパラメータで偏微分した値を算出し、誤差逆伝播法によって第1ニューラルネットワーク15aのパラメータを更新してよい。第1学習部18によれば、ターゲットの音声の声色を表す第5特徴量を学習データとして、第3特徴量を適切な第3変換特徴量に変換する第1ニューラルネットワーク15aを構築することができる。
第1学習部18は、平均及び分散を規格化した第3特徴量を第1ニューラルネットワーク15aによって変換して得られる第3変換特徴量と、平均及び分散を規格化した第5特徴量との差異を小さくするように、第1ニューラルネットワーク15aのパラメータを更新することで第1ニューラルネットワーク15aを学習させてよい。このような規格化によって、対象者の部分音声と、ターゲットの音声との長さが揃わない場合であっても、第3変換特徴量と第5特徴量が共通の尺度で表され、適切に比較できるようになる。
算出部12は、区間が重畳する複数の部分音声の声色を表す複数の第3特徴量を算出し、第1学習部18は、第5特徴量と複数の第3変換特徴量それぞれとの差異を小さくするように、第1ニューラルネットワーク15aのパラメータを更新することで第1ニューラルネットワーク15aを学習させてもよい。ここで、区間が重畳する複数の部分音声は、例えば、部分音声の長さが5msである場合、部分音声の始点を±2.5msの範囲でランダムに変化させることで生成してよい。このように、部分音声を切り出す区間をずらすデータ拡張によって、第1ニューラルネットワーク15aの汎化性能を向上させることができる。
第2学習部19は、第6特徴量と第4変換特徴量との差異を小さくするように、第2ニューラルネットワーク16aのパラメータを更新することで第2ニューラルネットワーク16aを学習させる。ここで、第6特徴量は、ターゲットの音声のかすれ具合を表す特徴量であり、算出部12によって、部分音声より長いターゲットの音声の信号に基づいて算出されてよい。第6特徴量と第4変換特徴量との差異は、二乗誤差で測られてよく、第2学習部19は、二乗誤差を第2ニューラルネットワーク16aのパラメータで偏微分した値を算出し、誤差逆伝播法によって第2ニューラルネットワーク16aのパラメータを更新してよい。第2学習部19によれば、ターゲットの音声のかすれ具合を表す第6特徴量を学習データとして、第3特徴量を適切な第4変換特徴量に変換する第2ニューラルネットワーク16aを構築することができる。
図2は、本実施形態に係る音声変換装置10の物理的構成を示す図である。音声変換装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音声変換装置10が一台のコンピュータで構成される場合について説明するが、音声変換装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、音声変換装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、対象者の音声に関する複数の特徴量を算出し、当該複数の特徴量をターゲットの音声に対応する複数の変換特徴量に変換して、複数の変換特徴量に基づいて合成音声を生成するプログラム(音声変換装置プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、対象者の音声、ターゲットの音声といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば音声変換プログラムや、書き換えが行われないデータを記憶してよい。
通信部10dは、音声変換装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、対象者の音声の波形を表示したり、合成音声の波形を表示したりしてよい。
音声変換プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。音声変換装置10では、CPU10aが音声変換プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音声変換装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
図3は、本実施形態に係る音声変換装置10によって実行される処理の概要を示す図である。音声変換装置10によって実行される処理は、分析(Analysis)、変換(Conversion)及び合成(Synthesis)の3つに分かれている。
音声変換装置10により実行される分析処理は、同図の右上に波形を示した対象者の音声を5ms毎の部分音声に分割して、それぞれの部分音声について、基本周波数の対数log F0(第1特徴量)、部分音声をフーリエ変換した場合のパワーPower(第2特徴量)及び部分音声のメル周波数ケプストラムFFT MCEP(第3特徴量)を算出する処理を含む。分析処理は、約10msで実行することができる。
音声変換装置10により実行される変換処理は、注目する部分音声の第1特徴量を第1変換特徴量に線形変換し、注目する部分音声の第2特徴量を第2変換特徴量に線形変換し、注目する部分音声及びその前後2区間の部分音声の第3特徴量を、第1ニューラルネットワーク15aによって第3変換特徴量に変換し、注目する部分音声及びその前後2区間の部分音声の第3特徴量を、第2ニューラルネットワーク16aによって第4変換特徴量に変換する処理を含む。ここで、第4変換特徴量は、帯域平均化非周期性指標であり、同図においてBap(Band Averaged Aperiodicity)と表されている。変換処理は、約10msで実行することができる。
音声変換装置10により実行される合成処理は、注目する区間及びその前3区間に関する第1変換特徴量、第2変換特徴量、第3変換特徴量及び第4変換特徴量に対して再帰的最尤パラメータ生成(Recursive Maximum Likelihood Parameter Generation)を適用し、「WORLD」の再帰的波形生成アルゴリズムを用いて、合成音声を生成する処理を含む。合成処理は、約30msで実行することができる。
このように、本実施形態に係る音声変換装置10によれば、分析処理、変換処理及び合成処理を合計50ms程度で実行することができ、人の音声知覚においてほとんど遅延を感じない速さで対象者の音声をターゲットの音声に変換することができる。また、メル周波数ケプストラム及び帯域平均化非周期性指標を、それぞれニューラルネットワークを用いて算出することで、より品質の高い音声変換を実現することができる。
図4は、本実施形態に係る音声変換装置10によって実行される音声変換処理のフローチャートである。はじめに、音声変換装置10は、マイク20によって、対象者の音声を取得する(S10)。
次に、音声変換装置10は、対象者の音声から複数の部分音声の信号を取得し(S11)、信号をフーリエ変換し、基本周波数(第1特徴量)、パワー(第2特徴量)及びメル周波数ケプストラム(第3特徴量)を算出する(S12)。また、音声変換装置10は、第3特徴量の時系列を平滑化する(S13)。
音声変換装置10は、第1特徴量を、ターゲットの音声の高さを表す第1変換特徴量に線形変換し(S14)、第2特徴量を、ターゲットの音声の強さを表す第2変換特徴量に線形変換する(S15)。また、音声変換装置10は、平滑化した第3特徴量の時系列を、第1ニューラルネットワーク15aによってターゲットの音声の声色を表す第3変換特徴量に変換する(S16)。さらに、音声変換装置10は、平滑化した第3特徴量の時系列を、第2ニューラルネットワーク16aによってターゲットの音声のかすれ具合を表す第4変換特徴量に変換する(S17)。
その後、音声変換装置10は、第1変換特徴量、第2変換特徴量、第3変換特徴量及び第4変換特徴量に基づいて、合成音声を生成し、スピーカー30に出力する(S18)。
音声変換処理を終了しない場合(S19:NO)、音声変換装置10は。処理S10〜S18を再び実行する。一方、音声変換処理を終了する場合(S19:YES)、処理を終了する。なお、音声変換処理を終了するか否かは、音声変換装置10の入力部により受け付けた操作に基づいて判定したり、音声変換処理を開始してから所定時間が経過したか否かによって判定したりしてよい。
図5は、本実施形態に係る音声変換装置10によって実行される学習処理のフローチャートである。はじめに、音声変換装置10は、部分音声より長いターゲットの音声の信号に基づいて、ターゲットの音声の声色を表す第5特徴量を算出する(S20)。また、音声変換装置10は、ターゲットの音声の信号に基づいて、ターゲットの音声のかすれ具合を表す第6特徴量を算出する(S21)。
その後、音声変換装置10は、対象者の音声を取得し(S22)、対象者の音声から複数の部分音声の信号を取得し、切り出し区間をシフトして部分音声の信号をデータ拡張する(S23)。ここで、対象者の音声は、リアルタイムにマイク20で録音したものであってもよいし、過去に録音したものであってもよい。
音声変換装置10は、部分音声の信号をフーリエ変換し、メル周波数ケプストラム(第3特徴量)を算出し(S24)、第3特徴量の時系列を平滑化する(S25)。
その後、音声変換装置10は、平滑化した第3特徴量の時系列を、第1ニューラルネットワーク15aによってターゲットの音声の声色を表す第3変換特徴量に変換する(S26)。また、音声変換装置10は、平滑化した第3特徴量の時系列を、第2ニューラルネットワーク16aによってターゲットの音声のかすれ具合を表す第4変換特徴量に変換する(S27)。
そして、音声変換装置10は、第5特徴量と第3変換特徴量の誤差、第6特徴量と第4変換特徴量の誤差を算出する(S28)。ここで、誤差は、二乗誤差であってよいが、他の関数であってもよい。
音声変換装置10は、誤差逆伝播法により、第1ニューラルネットワーク15aのパラメータと、第2ニューラルネットワーク16aのパラメータとを更新する(S29)。なお、音声変換装置10は、第1ニューラルネットワーク15aのパラメータの更新と、第2ニューラルネットワーク16aのパラメータの更新とを、必ずしも同時に行わなくてもよく、それぞれ独立に行ってよい。
学習終了条件を満たさない場合(S30:NO)、音声変換装置10は、処理S22〜S29を再び実行する。一方、学習終了条件を満たす場合(S30:YES)、学習処理を終了する。ここで、第1ニューラルネットワーク15aに関する学習終了条件は、第5特徴量と第3変換特徴量の誤差が所定値以下となることであってよく、第2ニューラルネットワーク16aに関する学習終了条件は、第6特徴量と第4変換特徴量の誤差が所定値以下となることであってよい。また、学習終了条件は、学習処理の経過時間が所定時間以上となることであったり、学習処理の繰り返し回数が所定回数以上となることであったりしてもよい。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
10…音声変換装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…算出部、13…第1変換部、13a…第1変換モデル、14…第2変換部、14a…第2変換モデル、15…第3変換部、15a…第1ニューラルネットワーク、16…第4変換部、16a…第2ニューラルネットワーク、17…生成部、18…第1学習部、19…第2学習部、20…マイク、30…スピーカー

Claims (15)

  1. 対象者の音声から複数の部分音声の信号を取得する取得部と、
    前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部と、
    第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、
    第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、
    第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、
    前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部と、
    を備える音声変換装置。
  2. 第2ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声のかすれ具合を表す第4変換特徴量に変換する第4変換部をさらに備え、
    前記生成部は、前記第1変換特徴量、前記第2変換特徴量、前記第3変換特徴量及び前記第4変換特徴量に基づいて、前記合成音声を生成する、
    請求項1に記載の音声変換装置。
  3. 前記第3変換部は、前記第1ニューラルネットワークによって、前記複数の部分音声の声色を表す複数の第3特徴量を平滑化した値を前記第3変換特徴量に変換する、
    請求項1又は2に記載の音声変換装置。
  4. 前記算出部は、前記部分音声より長い前記ターゲットの音声の信号に基づいて、前記ターゲットの音声の声色を表す第5特徴量を算出し、
    前記第5特徴量と前記第3変換特徴量との差異を小さくするように、前記第1ニューラルネットワークのパラメータを更新することで前記第1ニューラルネットワークを学習させる第1学習部をさらに備える、
    請求項1から3のいずれか一項に記載の音声変換装置。
  5. 前記第1学習部は、平均及び分散を規格化した前記第3特徴量を前記第1ニューラルネットワークによって変換して得られる前記第3変換特徴量と、平均及び分散を規格化した前記第5特徴量との差異を小さくするように、前記第1ニューラルネットワークの前記パラメータを更新することで前記第1ニューラルネットワークを学習させる、
    請求項4に記載の音声変換装置。
  6. 前記算出部は、区間が重畳する前記複数の部分音声の声色を表す複数の第3特徴量を算出し、
    前記第1学習部は、前記第5特徴量と前記複数の第3変換特徴量それぞれとの差異を小さくするように、前記第1ニューラルネットワークの前記パラメータを更新することで前記第1ニューラルネットワークを学習させる、
    請求項4又は5に記載の音声変換装置。
  7. 前記算出部は、前記ターゲットの音声の信号に基づいて、前記ターゲットの音声のかすれ具合を表す第6特徴量を算出し、
    前記第6特徴量と前記第4変換特徴量との差異を小さくするように、前記第2ニューラルネットワークのパラメータを更新することで前記第2ニューラルネットワークを学習させる第2学習部をさらに備える、
    請求項2に記載の音声変換装置。
  8. 前記第1変換モデルは、前記第1特徴量を前記第1変換特徴量に線形変換する、
    請求項1から7のいずれか一項に記載の音声変換装置。
  9. 前記第2変換モデルは、前記第2特徴量を前記第2変換特徴量に線形変換する、
    請求項1から8のいずれか一項に記載の音声変換装置。
  10. 前記第1特徴量は、前記部分音声をフーリエ変換した場合の基本周波数である、
    請求項1から9のいずれか一項に記載の音声変換装置。
  11. 前記第2特徴量は、前記部分音声をフーリエ変換した場合のパワーである、
    請求項1から10のいずれか一項に記載の音声変換装置。
  12. 前記第3特徴量は、前記部分音声のメル周波数ケプストラムである、
    請求項1から11のいずれか一項に記載の音声変換装置。
  13. 前記第4変換特徴量は、前記ターゲットの音声の帯域平均化非周期性指標である、
    請求項2に記載の音声変換装置。
  14. 対象者の音声から複数の部分音声の信号を取得する取得部と、
    前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部と、
    第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、
    第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、
    第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、
    前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部と、
    を含む音声変換方法。
  15. 音声変換装置に備えられた演算部を、
    対象者の音声から複数の部分音声の信号を取得する取得部、
    前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部、
    第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部、
    第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部、
    第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部、及び
    前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部、
    として機能させる音声変換プログラム。
JP2019154703A 2019-08-27 2019-08-27 音声変換装置、音声変換方法及び音声変換プログラム Pending JP2021033129A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019154703A JP2021033129A (ja) 2019-08-27 2019-08-27 音声変換装置、音声変換方法及び音声変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019154703A JP2021033129A (ja) 2019-08-27 2019-08-27 音声変換装置、音声変換方法及び音声変換プログラム

Publications (1)

Publication Number Publication Date
JP2021033129A true JP2021033129A (ja) 2021-03-01

Family

ID=74675795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154703A Pending JP2021033129A (ja) 2019-08-27 2019-08-27 音声変換装置、音声変換方法及び音声変換プログラム

Country Status (1)

Country Link
JP (1) JP2021033129A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JPH1097287A (ja) * 1996-07-30 1998-04-14 Atr Ningen Joho Tsushin Kenkyusho:Kk 周期信号変換方法、音変換方法および信号分析方法
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
WO2018159612A1 (ja) * 2017-02-28 2018-09-07 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2019035902A (ja) * 2017-08-18 2019-03-07 日本電信電話株式会社 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097287A (ja) * 1996-07-30 1998-04-14 Atr Ningen Joho Tsushin Kenkyusho:Kk 周期信号変換方法、音変換方法および信号分析方法
JPH1097267A (ja) * 1996-09-24 1998-04-14 Hitachi Ltd 声質変換方法および装置
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2018136430A (ja) * 2017-02-21 2018-08-30 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
WO2018159612A1 (ja) * 2017-02-28 2018-09-07 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP2019035902A (ja) * 2017-08-18 2019-03-07 日本電信電話株式会社 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP3266819B2 (ja) 周期信号変換方法、音変換方法および信号分析方法
CN111833843A (zh) 语音合成方法及系统
JP6821970B2 (ja) 音声合成装置および音声合成方法
Hayes et al. A review of differentiable digital signal processing for music and speech synthesis
CN112837670A (zh) 语音合成方法、装置及电子设备
JP3014177B2 (ja) 話者適応音声認識装置
JP2018077283A (ja) 音声合成方法
JP2021033129A (ja) 音声変換装置、音声変換方法及び音声変換プログラム
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
JPH0777979A (ja) 音声制御音響変調装置
JP6831767B2 (ja) 音声認識方法、装置およびプログラム
JP7334942B2 (ja) 音声変換装置、音声変換方法及び音声変換プログラム
JP7421827B2 (ja) 音声変換装置、音声変換方法及び音声変換プログラム
CN116189705A (zh) 音频节奏点提取方法、基于节奏点的控制方法及电子装置
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
CN113113033A (zh) 一种音频处理方法、设备及可读存储介质
Yoneyama et al. High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks
Hanna et al. Time scale modification of noises using a spectral and statistical model
JP6764843B2 (ja) 信号解析装置、方法、及びプログラム
WO2020032177A1 (ja) 時系列データの周波数成分ベクトルを生成する方法及び装置
JP2020204651A (ja) 音声処理装置、および音声処理方法
WO2020171034A1 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
Su et al. A new automatic IIR analysis/synthesis technique for plucked-string instruments
JP2018077281A (ja) 音声合成方法

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20190924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231120