JP7421827B2

JP7421827B2 - 音声変換装置、音声変換方法及び音声変換プログラム

Info

Publication number: JP7421827B2
Application number: JP2022500378A
Authority: JP
Inventors: 慎之介高道; 佑樹齋藤; 高明佐伯; 洋猿渡
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2020-02-13
Filing date: 2021-02-05
Publication date: 2024-01-25
Anticipated expiration: 2041-02-05
Also published as: US20230086642A1; WO2021161924A1; JPWO2021161924A1

Description

関連出願の相互参照

本出願は、２０２０年２月１３日に出願された日本特許出願２０２０－０２２３３４号に基づくもので、ここにその記載内容を援用する。

本発明は、音声変換装置、音声変換方法及び音声変換プログラムに関する。

従来、対象者の音声を変換し、異なる人物が話しているような合成音声を生成する研究が行われている。例えば、下記非特許文献１には、変換元となる対象者の包絡スペクトル成分と、変換先の話者の包絡スペクトル成分との差に相当するフィルタを推定し、対象者の音声に当該フィルタを適用することで変換先の合成音声を生成する技術（差分スペクトル法等ともいう）が記載されている。
差分スペクトル法に基づく声質変換では、下記非特許文献２に記載されるように、最小位相フィルタを用いることによって、従来から用いられているＭＬＳＡ（Mel-Log Spectrum Approximation）よりも高品質な変換音声が得られることが知られている。

また、差分スペクトル法に基づく声質変換において、フィルタの算出に必要となる計算量を抑制しながら合成音声の品質の劣化を防止する手法が下記非特許文献３に記載されている。具体的には、下記非特許文献３では、フィルタが固定タップ長で打ち切られることを条件とし、その条件下で実ケプストラムの推定誤差が最小となるように、実ケプストラムに施すヒルベルト変換のリフタを音声データから学習することが記載されている。

Kazuhiro Kobayashi, Tomoki Toda and Satoshi Nakamura, "Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential," Speech Communication, Volume 99, May 2018, Pages 211-220. Hitoshi Suda, Gaku Kotani, Shinnosuke Takamichi, and Daisuke Saito, "A Revisit to Feature Handling for High-quality Voice Conversion," Proceedings, APSIPA Annual Summit and Conference Nov 2018, Pages 816-822. 佐伯高明、齋藤佑樹、高道慎之介及び猿渡洋，"差分スペクトル法に基づくＤＮＮ声質変換の計算量削減に向けたフィルタ推定"，音講論（秋），number 2-4-1,滋賀，September 2019

一般に、音声品質を向上させるためには、声質変換の対象となる帯域を拡大させることが望ましい。しかしながら、広帯域（例えば、４８ｋＨｚ等）のサンプリング音声の変換に上記差分スペクトル法をそのまま適用すると、高域のランダム変動によりモデル化性能が低下し得るため、声質変換の対象となる帯域を拡張したにも関わらず、変換音声の品質が大きく向上しない恐れがある。また、当該帯域の拡張に伴いフィルタリングに要する計算量が増加し、リアルタイム性に影響を与える恐れがあった。

そこで、本発明は、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供する。

本発明の一つの態様に係る音声変換装置は、対象者の音声の信号を取得する取得部と、前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部と、前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換する変換部と、変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部と、を備える。

この態様によれば、対象者の音声を分割した複数のサブバンド信号のうちで、低域の一つ又は複数のサブバンド信号のみを変換することで、高域のランダム変動による影響を低減でき、かつ、変換による計算量を削減できる。よって、広帯域においても、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

上記態様において、前記信号のサンプリング周波数は、４４．１ｋＨｚ以上であり、前記低域の１又は複数のサブバンド信号は、少なくとも２ｋＨｚから４ｋＨｚの周波数帯に関するサブバンド信号を含んでもよい。

この態様によれば、一般に、声質変換における個人性が現れる２～４ｋＨｚを考慮できるので、音声品質を向上できる。

上記態様において、前記変換部は、前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含んでもよい。

この態様によれば、学習済みの変換モデルによって特徴量を変換するだけでなく、学習済みのリフタを用いて短縮フィルタを算出することで、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

上記態様において、前記短縮フィルタをフーリエ変換したスペクトルを前記低域の一つ又は複数のサブバンド信号のスペクトルに掛けて、前記変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備えてもよい。

この態様によれば、学習済みの変換モデル及び学習済みのリフタを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。

前記変換モデルは、ニューラルネットワークで構成され、前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成してもよい。

本発明の一つの態様に係る音声変換方法は、音声変換装置に備えられたプロセッサによって、対象者の音声の信号を取得することと、前記信号を、複数の周波数帯に関するサブバンド信号に分割することと、前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換することと、変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成することと、を実行する。

本発明の一つの態様に係る音声変換プログラムは、音声変換装置に備えられたプロセッサを、対象者の音声の信号を取得する取得部、前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部、前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換する変換部、及び、変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部、として機能させる。

本発明によれば、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供することができる。

本発明の実施形態に係る音声変換装置の機能ブロックを示す図である。本実施形態に係る音声変換装置の物理的構成を示す図である。本実施形態に係る音声変換装置によって実行されるサブバンド信号を用いた声質変換の概念図である。本実施形態に係る音声変換装置１０によって実行される低域サブバンド信号の変換及び学習処理の概要を示す図である。本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置によって実行される音声変換処理のフローチャートである。本実施形態に係る音声変換装置によって実行される学習処理のフローチャートである。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

図１は、本発明の実施形態に係る音声変換装置１０の機能ブロックを示す図である。音声変換装置１０は、取得部１１、分割部１２、フィルタ算出部１３、短縮フィルタ算出部１４、生成部１５、合成部１６及び学習部１７を備える。

取得部１１は、対象者の音声の信号を取得する。取得部１１は、マイク２０により電気信号に変換された対象者の音声を、所定期間にわたって取得する。

分割部１２は、取得部１１によって取得された単一の周波数帯の音声の信号（フルバンド信号、ワイドバンド信号等ともいう）を、複数の周波数帯に関するサブバンド信号に分割する。具体的には、分割部１２は、サブバンドマルチレート処理によって変換元話者の音声を帯域分割する。

分割部１２は、対象者の音声をＮ個のサブバンド信号に帯域分割し、Ｎ個のサブバンド信号の各々を変調して、Ｎ個のサブバンドのベースバンド信号を生成して、周波数シフトする。例えば、分割部１２は、以下の式（１）に示すように、所定期間内の総フレーム数Ｔの中のｔ（１≦ｔ≦Ｔ）番目のフレームにおける対象者の音声の信号ｘ（ｔ）から、ｎ番目のサブバンドのベースバンド信号ｘ_ｎ（ｔ）を生成してもよい。

ここで、ｎ＝１，２，…，Ｎであり、Ｗ_Ｎ＝ｅｘｐ（ｊ２π／２Ｎ）であってもよい。

また、分割部１２は、上記ｎ番目のサブバンドのベースバンド信号ｘ_ｎ（ｔ）に対して、全帯域で共通（すなわち、Ｎ個のサブバンドで共通）のローパスフィルタｆ（ｔ）を適用することにより、当該ベースバンド信号ｘ_ｎ（ｔ）を所定の帯域（例えば、［－π／２Ｎ，π／２Ｎ］）に制限してもよい。例えば、ｎ番目のサブバンドのベースバンド信号ｘ_ｎ（ｔ）が所定の帯域に帯域制限された信号は、下記式（２）で示される。
式（２）
ｘ_ｎ，ｐｐ（ｔ）＝ｆ（ｔ）＊ｘ_ｎ（ｔ）
ここで、＊は、畳み込みの演算子である。当該信号ｘ_ｎ，ｐｐ（ｔ）は、複素数値として得られる。

また、分割部１２は、複素数値として得られる上記信号ｘ_ｎ，ｐｐ（ｔ）を実数値ｘ_{ｎ，ＳＳＢ}（ｔ）に変換する。例えば、分割部１２は、Single Sideband（ＳＳＢ）変調法を用いて、下記式（３）により、実数値ｘ_{ｎ，ＳＳＢ}（ｔ）を取得してもよい。

ここで、・^＊は、複素共役を表す。

また、分割部１２は、上記実数値ｘ_{ｎ，ＳＳＢ}（ｔ）を間引率Ｍで間引く（decimate）ことにより、ｎ番目のサブバンド信号ｘ_ｎ（ｋ）を生成する。当該ｎ番目のサブバンド信号ｘ_ｎ（ｋ）は、例えば、下記式（４）により示される。
式（４）
ｘ_ｎ（ｋ）＝ｘ_{ｎ，ＳＳＢ}（ｋＭ）

以下、分割部１２によって生成されたＮ個のサブバンド信号のうち、低域の１又は複数のサブバンド信号を「低域サブバンド信号」と呼び、低域サブバンド信号以外の高域の一つ又は複数のサブバンド信号を「高域サブバンド信号」と呼ぶ。なお、低域サブバンド信号は、低周波数帯域のサブバンド信号、低帯域サブバンド信号、低周波数サブバンド信号等と呼ばれてもよい。同様に、高域サブバンド信号は、高周波数帯域のサブバンド信号、高帯域サブバンド信号、高周波数サブバンド信号等と呼ばれてもよい。

フィルタ算出部１３は、低域サブバンド信号について、音声の声色を表す特徴量を学習済みの変換モデル１３ａによって変換し、変換後の特徴量に学習済みのリフタ（lifter）１３ｂを掛けて、フィルタ（差分フィルタとも呼ばれる）のスペクトルを算出する。ここで、音声の声色を表す特徴量は、音声のメル周波数ケプストラムであってよい。メル周波数ケプストラムを特徴量として用いることで、対象者の音声の声色を適切に捉えることができる。

フィルタ算出部１３は、所定期間内のｔ（１≦ｔ≦Ｔ）番目のフレームの低域サブバンド信号をフーリエ変換した複素スペクトル系列Ｆ_ｔ ^（Ｘ）から低次（例えば１０～１００次）の実ケプストラム系列Ｃ_ｔ ^（Ｘ）を算出する。そして、フィルタ算出部１３は、実ケプストラム系列Ｃ_ｔ ^（Ｘ）を学習済みの変換モデル１３ａによって変換し、変換後の特徴量Ｃ_ｔ ^（Ｄ）を算出する。

さらに、フィルタ算出部１３は、変換後の特徴量Ｃ_ｔ ^（Ｄ）に学習済みのリフタ１３ｂを掛けて、フィルタのスペクトルを算出する。より具体的には、学習済みのリフタ１３ｂをｕと表すとき、フィルタ算出部１３は、ｕＣ_ｔ ^（Ｄ）という積を算出し、逆フーリエ変換して指数関数（exp）を取ることで、フィルタの複素スペクトル系列Ｆ_ｔ ^（Ｄ）を算出する。

本実施形態に係る音声変換装置１０で用いる学習済みのリフタ１３ｂの値は、後述する学習処理によって定められる値である。学習処理において、リフタ１３ｂの値は、変換モデル１３ａのパラメータとともに更新され、合成音声によってターゲット音声がより良く再現されるように決定される。

短縮フィルタ算出部１４は、フィルタの複素スペクトル系列Ｆ_ｔ ^（Ｄ）を逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する。より具体的には、短縮フィルタ算出部１４は、フィルタの複素スペクトル系列Ｆ_ｔ ^（Ｄ）を逆フーリエ変換して時間領域の値ｆ_ｔ ^（Ｄ）（時間領域の差分フィルタとも呼ばれる）とする。例えば、短縮フィルタ算出部１４は、式（５）に示すように、当該値ｆ_ｔ ^（Ｄ）に対して、時刻ｌ以前について１、時刻ｌより後について０となる窓関数ｗを適用することでカットし、フーリエ変換することで、タップ長ｌの短縮フィルタの複素スペクトル系列Ｆ_ｔ ^（ｌ）を算出する。

なお、式（５）におけるＮは、周波数ビン数であり、Ｔは所定期間内の総フレーム数であり、ｌは、タップ長（ｌ番目のフレーム）である。

生成部１５は、短縮フィルタをフーリエ変換したスペクトルを低域サブバンド信号のスペクトルに掛けて、逆フーリエ変換することで、変換音声を生成する。生成部１５は、短縮フィルタをフーリエ変換したスペクトルＦ_ｔ ^（ｌ）と、低域サブバンド信号のスペクトルＦ_ｔ ^（Ｘ）との積Ｆ_ｔ ^（Ｙ）を算出し、スペクトルＦ_ｔ ^（Ｙ）を逆フーリエ変換することで、低域サブバンド信号の変換音声を生成する。なお、フィルタ算出部１３、短縮フィルタ算出部１４及び生成部１５は、「変換部」と総称されてもよい。

合成部１６は、生成部１５によって生成された低域サブバンド信号の変換音声の信号（すなわち、変換後の一つ又は複数のサブバンド信号）と、分割部１２によって分離された高域サブバンド信号（すなわち、変換していない残りのサブバンド信号）と、を合成する。

合成部１６は、例えば、式（６）に示すように、ｎ（１≦ｎ≦Ｎ）番目のサブバンド信号Ｘ_ｎ（ｔ）を間引率Ｍでアップサンプリングして、変換音声の信号の実数値Ｘ_{ｎ，ＳＳＢ}（ｔ）を取得する。なお、ｎ番目のサブバンド信号Ｘ_ｎ（ｔ）は、分割部１２によって生成した低域サブバンド信号ｘ_ｎ（ｋ）を変換した後の変換音声の信号、又は、分割部１２によって生成した高域サブバンド信号ｘ_ｎ（ｋ）と同一の信号（未変換の信号）である。例えば、フルバンド内の複数のサブバンドに低域から先にインデックスｎを昇順に付与する場合、ｎ＝１から所定数（例えば、１）のサブバンドのサブバンド信号Ｘ_１（ｔ）は、低域サブバンド信号ｘ_１（ｋ）を変換した後の変換音声の信号である。一方、ｎ＝２，３，…，Ｎのサブバンド信号Ｘ_２（ｔ），Ｘ_３（ｔ），…，Ｘ_Ｎ（ｔ）は、高域サブバンド信号ｘ_２（ｋ），ｘ_３（ｋ），…，ｘ_Ｎ（ｋ）と同一の信号（未変換の信号）であってもよい。

また、合成部１６は、例えば、式（７）に示すように、エイリアシングを避けるために、上記実数値Ｘ_{ｎ，ＳＳＢ}（ｔ）をベースバンドに周波数シフトし、ローパスフィルタｇ（ｔ）によって帯域制限して、複素数値Ｘ_ｎ，ｐｐ（ｔ）を得る。

また、合成部１６は、例えば、式（８）に示すように、フルバンドの変換音声Ｘ（ｔ）を取得する。

学習部１７は、短縮フィルタをフーリエ変換したスペクトルを、低域サブバンド信号のスペクトルに掛けて、変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、変換モデル及びリフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する。本実施形態において、変換モデル１３ａは、ニューラルネットワークで構成される。変換モデル１３ａは、例えば、ＭＬＰ（Multi-Layer Perceptron）、Feedforward Neural Networkで構成されてよく、隠れ層の活性化関数としてSigmoid関数、tanh関数からなるGated Linear Unitを用い、各活性化関数の前にBatch Normalizationを適用してよい。

学習部１７は、パラメータが未定の変換モデル１３ａ及びリフタ１３ｂによって、短縮フィルタをフーリエ変換したスペクトルＦ_ｔ ^（ｌ）を算出し、低域サブバンド信号のスペクトルＦ_ｔ ^（Ｘ）に掛けてスペクトルＦ_ｔ ^（Ｙ）を算出して、特徴量としてメル周波数ケプストラムＣ_ｔ ^（Ｙ）を算出する。そして、算出したケプストラムＣ_ｔ ^（Ｙ）と、学習データであるターゲット音声のケプストラムＣ_ｔ ^（Ｔ）との誤差を、Ｌ_ｔ＝（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））^Ｔ（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））／Ｔによって算出する。以降、√Ｌの値をＲＭＳＥ（Rooted Mean Squared Error）と呼ぶ。

学習部１７は、誤差Ｌ_ｔ＝（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））^Ｔ（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））／Ｔを変換モデル及びリフタのパラメータで偏微分し、誤差逆伝播法によって変換モデル及びリフタのパラメータを更新する。なお、学習処理は、例えばＡｄａｍ（Adaptive moment estimation）を用いて行ってよい。このようにして学習済みの変換モデル１３ａ及び学習済みのリフタ１３ｂを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。

本実施形態に係る音声変換装置１０によれば、対象者の音声の信号を複数のサブバンド信号に分割して構成される一つ又は複数の低域サブバンド信号について、学習済みの変換モデル１３ａを用いて特徴量を変換し、学習済みのリフタ１３ｂを用いて短縮フィルタを算出する。このため、広帯域の声質変換においても、高域のランダムな変動によるモデル化性能の低下を防止でき、帯域拡張による変換音声の品質の向上効果を適切に得ることができる。また、低域サブバンド信号に対してのみリフタ１３ｂを学習することで、当該帯域拡張による計算量の増加を緩和できる。したがって、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

図２は、本実施形態に係る音声変換装置１０の物理的構成を示す図である。音声変換装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音声変換装置１０が一台のコンピュータで構成される場合について説明するが、音声変換装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図２で示す構成は一例であり、音声変換装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、対象者の音声に関する複数の特徴量を算出し、当該複数の特徴量をターゲットの音声に対応する複数の変換特徴量に変換して、複数の変換特徴量に基づいて合成音声を生成するプログラム（音声変換プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、対象者の音声、ターゲットの音声といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば音声変換プログラムや、書き換えが行われないデータを記憶してよい。

通信部１０ｄは、音声変換装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆは、対象者の音声の波形を表示したり、合成音声の波形を表示したりしてよい。

音声変換プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。音声変換装置１０では、ＣＰＵ１０ａが音声変換プログラムを実行することにより、図１を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音声変換装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

図３は、本実施形態に係る音声変換装置１０によって実行されるサブバンド信号を用いた声質変換の概念図である。図３では、一例として、声質変換の対象となる帯域（サンプリング周波数等ともいう）が４８ｋＨｚ、サブバンド数Ｎ＝３、間引率Ｍ＝３とするが、これに限られないの。

図３に示すように、音声変換装置１０の分割部１２は、対象者の音声のフルバンド信号（ここでは、４８ｋＨｚの音声の信号）から、０～８ｋＨｚ、８～１６ｋＨｚ、１６～２４ｋＨｚの３つのサブバンド信号を生成する（サブバンド符号化）。

音声変換装置１０の生成部１５は、分割部１２によって生成された３つのサブバンド信号のうち、０～８ｋＨｚの低域サブバンド信号のスペクトルに、短縮フィルタ算出部１４によって算出される短縮フィルタを適用して、変換音声を生成する。一方、音声変換装置１０は、８～１６ｋＨｚ、１６～２４ｋＨｚの２つの高域サブバンド信号には、上記短縮フィルタを適用せずに、未変換のままとする。

音声変換装置１０の合成部１６は、０～８ｋＨｚの低域サブバンド信号の変換音声と、未変換の８～１６ｋＨｚ、１６～２４ｋＨｚの２つの高域サブバンド信号とを再合成して、フルバンドの合成音声を生成する。合成部１６は、生成した合成音声を出力する（サブバンド復号）。

図４は、本実施形態に係る音声変換装置１０によって実行される低域サブバンド信号の変換及び学習処理の概要を示す図である。音声変換装置１０は、対象者の音声のフルバンド信号を複数のサブバンド信号に分割し、当該複数のサブバンド信号の中から低域サブバンド信号（例えば、図３の０～８ｋＨｚのサブバンド信号）を取得し、フーリエ変換した複素スペクトル系列Ｆ_ｔ ^（Ｘ）を算出する。そして、複素スペクトル系列Ｆ_ｔ ^（Ｘ）から実ケプストラム系列Ｃ_ｔ ^（Ｘ）を算出して学習済みの変換モデル１３ａに入力する。同図において、変換モデル１３ａはニューラルネットワークの模式図によって表されている。

音声変換装置１０は、変換後の特徴量Ｃ_ｔ ^（Ｄ）に学習済みのリフタ１３ｂ（ｕ）を掛けて、フーリエ変換することで、フィルタの複素スペクトル系列Ｆ_ｔ ^（Ｄ）を算出する。

その後、音声変換装置１０は、フィルタの複素スペクトル系列Ｆ_ｔ ^（Ｄ）を逆フーリエ変換して時間領域の値ｆ_ｔ ^（Ｄ）として、時刻ｌ以前について１、時刻ｌより後について０となる窓関数を適用することでカットした（truncation、打ち切り等ともいう）ｆ_ｔ ^（ｌ）をフーリエ変換することで、短縮フィルタの複素スペクトル系列Ｆ_ｔ ^（ｌ）を算出する。

音声変換装置１０は、このようにして算出した短縮フィルタの複素スペクトル系列Ｆ_ｔ ^（ｌ）を低域サブバンド信号のスペクトルＦ_ｔ ^（Ｘ）に掛けて、変換音声のスペクトルＦ_ｔ ^（Ｙ）を算出する。音声変換装置１０は、変換音声のスペクトルＦ_ｔ ^（Ｙ）を逆フーリエ変換することで、変換音声Ｃ_ｔ ^（Ｙ）を生成する。

変換モデル１３ａ及びリフタ１３ｂの学習処理を行う場合、変換音声のスペクトルＦ_ｔ ^（Ｙ）から実ケプストラム系列Ｃ_ｔ ^（Ｙ）を算出し、学習データであるターゲット音声のケプストラムＣ_ｔ ^（Ｔ）との誤差を、Ｌ_ｔ＝（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））^Ｔ（Ｃ_ｔ ^（Ｔ）－Ｃ_ｔ ^（Ｙ））／Ｔによって算出する。そして、誤差逆伝播法によって、変換モデル１３ａ及びリフタ１３ｂのパラメータを更新する。

図５Ａは、本実施形態に係る音声変換装置１０及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。話者類似性に関する主観評価の結果は、本実施形態に係る音声変換装置１０により生成された合成音声、従来例に係る装置により生成された合成音声及びターゲット音声（正解となる音声）を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらがターゲット音声に類似しているか評価してもらった結果である。

図５Ａでは、本実施形態のタップ長ｌ＝３２、従来法におけるタップ長ｌ＝２０４８を用いる場合の評価値（スコア）が「本実施形態のスコアｖｓ従来法のスコア」の形式で示される。従来法では、最小位相フィルタが用いられ、本実施形態では、上記低域サブバンド信号を用いて学習された変換モデル１３ａ及びリフタ１３bにより算出される短縮フィルタが用いられるものとする。また、男性話者から男性話者（ｍ２ｍ）、女性話者から女性話者（ｆ２ｆ）２種類の変換について、４８ｋＨｚサンプリング音声を用いている。

図５Ａに示すように、本実施形態のタップ長ｌが３２であり、従来法のタップ長ｌが２０４８である場合、ｍ２ｍにおける本実施形態の話者類似性のスコアは０．５３７である一方、従来法の話者類似性のスコアは０．４６３である。同様に、ｆ２ｆにおける本実施形態の話者類似性のスコアは０．５１６である一方、従来法の話者類似性のスコアは０．４８４である。

図５Ａにおける本実施形態のタップ長ｌ（＝３２）は、従来法のタップ長ｌ（＝２０４８）の１／６４倍であるので、フィルタの短縮により音声変換装置１０の計算量を削減できる。また、上記の通り、話者類似性のスコアも従来法よりも向上できる。

図５Ｂは、本実施形態に係る音声変換装置１０及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。音声品質に関する主観評価の結果は、本実施形態に係る音声変換装置１０により生成された合成音声及び従来例に係る装置により生成された合成音声を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらが自然な音声に聞こえるか評価してもらった結果である。図５Ｂにおける前提条件は、図５Ａと同様である。

図５Ｂに示すように、本実施形態のタップ長ｌが３２であり、従来法のタップ長ｌが２０４８である場合、ｍ２ｍにおける本実施形態の話者類似性のスコアは０．８４０である一方、従来法の話者類似性のスコアは０．１６０である。同様に、ｆ２ｆにおける本実施形態の話者類似性のスコアは０．８１０である一方、従来法の話者類似性のスコアは０．１９０である。

このように、本実施形態に係る音声変換装置１０により生成される合成音声は、従来例に係る装置により生成される合成音声よりも自然に聞こえると評価されている。なお、本評価に関するｐ値は１０のー１０乗よりも小さかった。

図６は、本実施形態に係る音声変換装置１０によって実行される音声変換処理のフローチャートである。はじめに、音声変換装置１０は、マイク２０によって、対象者の音声を取得する（Ｓ１０１）。

音声変換装置１０は、Ｓ１０１で取得された対象者の音声の信号（フルバンド信号）を、複数のサブバンド信号の分割する（Ｓ１０２）。また、音声変換装置１０は、サブバンドのインデックスｎを所定値（例えば、１）に初期化する。

音声変換装置１０は、サブバンド＃ｎのサブバンド信号（サブバンド信号＃ｎ）が低域サブバンド信号であるか否かを判定する（Ｓ１０３）。サブバンド信号＃ｎが低域サブバンド信号ではない場合（高域サブバンド信号である場合）（Ｓ１０３：Ｎｏ）、本動作は、Ｓ１０３～Ｓ１０８をスキップして、Ｓ１０９に進む。

サブバンド信号＃ｎが低域サブバンド信号である場合（Ｓ１０３：Ｙｅｓ）、音声変換装置１０は、当該サブバンド信号＃ｎをフーリエ変換し、メル周波数ケプストラム（特徴量）を算出し（Ｓ１０４）、特徴量を学習済みの変換モデル１３ａで変換する（Ｓ１０５）。

さらに、音声変換装置１０は、変換後の特徴量に学習済みのリフタ１３ｂを掛けて、フィルタのスペクトルを算出し（Ｓ１０６）、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する（Ｓ１０７）。

そして、音声変換装置１０は、短縮フィルタをフーリエ変換したスペクトルをサブバンド信号＃ｎのスペクトルに掛けて、逆フーリエ変換し、サブバンド信号＃ｎの変換音声を生成する（Ｓ１０８）。

音声変換装置１０は、サブバンドのインデックスｎをカウントアップし（Ｓ１０９）、カウントアップされたｎがサブバンドの総数Ｎより大きいか否かを判定する（Ｓ１１０）。カウントアップされたｎがサブバンドの総数Ｎ以下である場合（Ｓ１１０：Ｎｏ）、本動作は、Ｓ１０３に戻る。

Ｓ１０９でカウントアップされたｎがサブバンドの総数Ｎより大きい場合（Ｓ１１０；Ｙｅｓ）、音声変換装置１０は、Ｎ個のサブバンド信号を合成してフルバンド変換音声を生成し、生成されたフルバンド変換音声をスピーカーから出力する（Ｓ１１１）。

音声変換処理を終了しない場合（Ｓ１１２：ＮＯ）、音声変換装置１０は、処理Ｓ１０１～Ｓ１１１を再び実行する。一方、音声変換処理を終了する場合（Ｓ１１２：ＹＥＳ）、音声変換装置１０は、処理を終了する。

図７は、本実施形態に係る音声変換装置１０によって実行される学習処理のフローチャートである。はじめに、音声変換装置１０は、マイク２０によって、対象者の音声を取得する（Ｓ２０１）。なお、音声変換装置１０は、予め録音した音声の信号を取得してもよい。

音声変換装置１０は、Ｓ２０１で取得された対象者の音声の信号（フルバンド信号）を、複数のサブバンド信号の分割する（Ｓ２０２）。また、音声変換装置１０は、サブバンドのインデックスｎを所定値（例えば、１）に初期化する。

音声変換装置１０は、サブバンド＃ｎのサブバンド信号（サブバンド信号＃ｎ）が低域サブバンド信号であるか否かを判定する（Ｓ２０３）。サブバンド信号＃ｎが低域サブバンド信号ではない場合（高域サブバンド信号である場合）（Ｓ２０３：Ｎｏ）、本動作は、Ｓ２０４～Ｓ１１１をスキップして、Ｓ２１２に進む。

サブバンド信号＃ｎが低域サブバンド信号である場合（Ｓ２０３：Ｙｅｓ）、音声変換装置１０は、対象者の音声の信号をフーリエ変換し、メル周波数ケプストラム（特徴量）を算出し（Ｓ２０４）、特徴量を学習中の変換モデル１３ａで変換する（Ｓ２０５）。

さらに、音声変換装置１０は、変換後の特徴量に学習中のリフタ１３ｂを掛けて、フィルタのスペクトルを算出し（Ｓ２０６）、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する（Ｓ２０７）。

そして、音声変換装置１０は、短縮フィルタをフーリエ変換したスペクトルをサブバンド信号＃ｎのスペクトルに掛けて、逆フーリエ変換し、サブバンド信号＃ｎの変換音声を生成する（Ｓ２０８）。

その後、音声変換装置１０は、サブバンド信号＃ｎの変換音声のメル周波数ケプストラム（特徴量）を算出し（Ｓ２０９）、合成音声の特徴量と、ターゲット音声の特徴量の誤差を算出する（Ｓ２１０）。そして、音声変換装置１０は、誤差逆伝播法によって、変換モデル１３ａとリフタ１３ｂのパラメータを更新する（Ｓ２１１）。

音声変換装置１０は、サブバンドのインデックスｎをカウントアップし（Ｓ２１２）、カウントアップされたｎがサブバンドの総数Ｎより大きいか否かを判定する（Ｓ２１３）。カウントアップされたｎがサブバンドの総数Ｎ以下である場合（Ｓ２１３：Ｎｏ）、本動作は、Ｓ２０３に戻る。Ｓ２１２でカウントアップされたｎがサブバンドの総数Ｎより大きい場合（Ｓ２１３；Ｙｅｓ）、音声変換装置１０は、学習終了要件を満たすか否かを判定する（Ｓ２１４）。

学習終了条件を満たさない場合（Ｓ２１４：ＮＯ）、音声変換装置１０は、処理Ｓ２０１～Ｓ２１３を再び実行する。一方、学習終了条件を満たす場合（Ｓ２１４：ＹＥＳ）、音声変換装置１０は、処理を終了する。なお、学習終了条件は、合成音声の特徴量とターゲット音声の特徴量の誤差が所定値以下になることであったり、学習処理のエポック数が所定回数に達することであったりしてよい。

以上のように、本実施形態に係る音声変換装置１０によれば、対象者の音声のフルバンド信号を分割した複数のサブバンド信号のうちで、低域の一つ又は複数のサブバンド信号のみを変換することで、高域のランダム変動による影響を低減でき、かつ、変換による計算量を削減できる。よって、広帯域においても、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１０…音声変換装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…取得部、１２…分割部、１３…フィルタ算出部、１３ａ…変換モデル、１３ｂ…リフタ、１４…短縮フィルタ算出部、１５…生成部、１６…合成部、１７…学習部、２０…マイク、３０…スピーカー

Claims

対象者の音声の信号を取得する取得部と、
前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部と、
前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換する変換部と、
変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部と、
を備え、
前記変換部は、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
音声変換装置。
前記信号のサンプリング周波数は、４４．１ｋＨｚ以上であり、
前記低域の１又は複数のサブバンド信号は、少なくとも２ｋＨｚから４ｋＨｚの周波数帯に関するサブバンド信号を含む、
請求項１に記載の音声変換装置。
前記短縮フィルタをフーリエ変換したスペクトルを前記低域の一つ又は複数のサブバンド信号のスペクトルに掛けて、前記変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備える、
請求項１又は請求項２に記載の音声変換装置。
前記変換モデルは、ニューラルネットワークで構成され、
前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する、
請求項３に記載の音声変換装置。
音声変換装置に備えられたプロセッサによって、
対象者の音声の信号を取得することと、
前記信号を、複数の周波数帯に関するサブバンド信号に分割することと、
前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換することと、
変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成することと、
を実行し、
前記低域の一つ又は複数のサブバンド信号を変換することを実行することは、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出し、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出し、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成することと、を含む、
音声変換方法。
音声変換装置に備えられたプロセッサを、
対象者の音声の信号を取得する取得部、
前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部、
前記複数の周波数帯に関するサブバンド信号のうち、低域の１又は複数のサブバンド信号を変換する変換部、及び
変換後の前記１又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部、
として機能させ、
前記変換部は、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
音声変換プログラム。