JP2023005191A - Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method - Google Patents
Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method Download PDFInfo
- Publication number
- JP2023005191A JP2023005191A JP2021106955A JP2021106955A JP2023005191A JP 2023005191 A JP2023005191 A JP 2023005191A JP 2021106955 A JP2021106955 A JP 2021106955A JP 2021106955 A JP2021106955 A JP 2021106955A JP 2023005191 A JP2023005191 A JP 2023005191A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- encoder
- decoder
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理プログラム、音声処理装置及び音声処理方法に関する。 The present invention relates to a speech processing learning program, a speech processing learning device, a speech processing learning method, a speech processing program, a speech processing device and a speech processing method.
任意の話者が発声した音声を別の話者の声質を有する音声に変換する音声処理装置が開発されている。例えば、画像変換の技術であるCycleGANを音声変換に応用した技術が開示されている(非特許文献1)。 A speech processing device has been developed that converts speech uttered by an arbitrary speaker into speech having the voice quality of another speaker. For example, a technique is disclosed in which CycleGAN, which is an image conversion technique, is applied to audio conversion (Non-Patent Document 1).
元の話者から別の話者の音声を合成して出力する音声処理装置では、合成された音声の声質や言い回しをできるだけ自然なものにすることが要求されている。しかしながら、従来の音声処理装置の学習方法では、合成された音声を十分に自然なものとすることができない場合があった。 2. Description of the Related Art In a speech processing device that synthesizes and outputs the speech of another speaker from the original speaker, it is required to make the voice quality and phrasing of the synthesized speech as natural as possible. However, in some cases, the conventional learning method of the speech processing apparatus cannot make the synthesized speech sufficiently natural.
本発明の1つの態様は、コンピュータを、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、入力音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備えた音声処理学習装置として機能させ、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラムである。 According to one aspect of the present invention, a computer comprises an acoustic feature extractor that converts speech into an input acoustic feature, a speaker encoder that converts a speaker label of the speech into a speaker feature, and an input acoustic feature. a speech encoder including a variational autoencoder having two or more sampling hierarchies for converting speaker features into latent representations; and generating acoustic features using at least the latent representations and speaker features. and a speech decoder comprising a variational autoencoder having two or more sampling hierarchies, wherein the speech encoder, the speech decoder, and the speaker encoder are configured to: A speech processing learning program characterized by learning so as to reduce the distance between an input acoustic feature quantity input to a speech encoder and an output acoustic feature quantity generated in the speech decoder.
ここで、前記音声デコーダは、前記2以上のサンプリング階層において話者特徴量を入力する階層が限定されていることが好適である。 Here, it is preferable that the speech decoder has a limited number of layers for inputting the speaker feature amount in the two or more sampling layers.
また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することが好適である。 Further, the speech decoder does not input the speaker feature amount to a layer preceding a predetermined layer in the two or more sampling layers, and inputs the speaker feature amount to a layer following the predetermined layer. is preferred.
また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。 In addition, it is preferable that the audio decoder performs sampling from the posterior distribution in the hierarchy preceding the predetermined hierarchy in the two or more sampling hierarchies, and performs sampling from the prior distribution in the hierarchy following the predetermined hierarchy. .
また、前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することが好適である。 Moreover, it is preferable that the speech decoder inputs the speaker feature amount to a conditional instance normalization layer.
本発明の別の態様は、コンピュータを、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置として機能させることを特徴とする音声処理プログラムである。 According to another aspect of the present invention, a computer comprises an acoustic feature extractor that converts speech into an acoustic feature, a speaker encoder that converts a speaker label of speech into a speaker feature, and the acoustic feature extractor. and the source speaker feature obtained by converting the speaker label of the source speaker in the speaker encoder into a latent representation. a latent representation and a target speaker obtained by transforming the speaker label of the target speaker in the speaker encoder. a speech decoder including a variational autoencoder having two or more sampling hierarchies that generates target acoustic features using at least features; A voice processing program characterized by functioning as a voice processing device comprising a vocoder that converts into
ここで、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される音響特徴量と前記音声デコーダにおいて生成される音響特徴量との距離を小さくするように学習させたものであることを特徴とする音声処理プログラム。 Here, the speech encoder, the speech decoder, and the speaker encoder are learned so as to reduce the distance between the acoustic features input to the speech encoder and the acoustic features generated by the speech decoder. A voice processing program characterized by:
また、前記音声デコーダは、前記2以上のサンプリング階層において前記ターゲット話者特徴量を入力する階層が限定されていることが好適である。 Further, it is preferable that the speech decoder has a limited number of layers for inputting the target speaker feature amount in the two or more sampling layers.
また、前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には前記ターゲット話者特徴量を入力せず、前記所定の階層より後段の階層には前記ターゲット話者特徴量を入力することが好適である。 Further, the speech decoder does not input the target speaker feature quantity to a hierarchy preceding a predetermined hierarchy among the two or more sampling hierarchies, and inputs the target speaker feature quantity to a hierarchy succeeding the predetermined hierarchy. is preferably entered.
また、前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことが好適である。 In addition, it is preferable that the audio decoder performs sampling from the posterior distribution in the hierarchy preceding the predetermined hierarchy in the two or more sampling hierarchies, and performs sampling from the prior distribution in the hierarchy following the predetermined hierarchy. .
また、前記音声デコーダは、前記ターゲット話者特徴量を条件付きインスタンス正規化層に入力することが好適である。 Also, it is preferable that the speech decoder inputs the target speaker features to a conditional instance normalization layer.
本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備え、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置である。 Another aspect of the present invention is an acoustic feature extractor that converts speech into input acoustic features, a speaker encoder that converts speaker labels of speech into speaker features, and acoustic features and speaker features. a speech encoder comprising a variational autoencoder having two or more sampling hierarchies that transforms into latent representations, and two or more speech encoders that generate acoustic features using at least the latent representations and speaker features a speech decoder comprising a variational autoencoder having a sampling hierarchy, wherein the speech encoder, the speech decoder and the speaker encoder are adapted to input acoustic features input to the speech encoder and the A speech processing learning device characterized by learning so as to reduce the distance from an output acoustic feature quantity generated in a speech decoder.
本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備えることを特徴とする音声処理装置である。 Another aspect of the present invention is an acoustic feature extractor that converts speech into acoustic features, a speaker encoder that converts speaker labels of speech into speaker features, and a source speech in the acoustic feature extractor. converting a source acoustic feature obtained by converting a speaker's speech and a source speaker feature obtained by converting a speaker label of the source speaker in the speaker encoder into a latent expression. a speech encoder comprising a variational autoencoder having a sampling hierarchy of , a latent representation, and a target speaker feature obtained by transforming the speaker label of the target speaker in the speaker encoder, a speech decoder comprising: a variational autoencoder having two or more sampling hierarchies for generating target acoustic features using at least; and converting the target acoustic features generated by the speech decoder into speech. and a vocoder.
本発明の別の態様は、音声を入力音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、を備える音声処理学習装置において、前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法である。 Another aspect of the present invention is an acoustic feature extractor that converts speech into input acoustic features, a speaker encoder that converts speaker labels of speech into speaker features, and acoustic features and speaker features. a speech encoder comprising a variational autoencoder having two or more sampling hierarchies that transforms into latent representations, and two or more speech encoders that generate acoustic features using at least the latent representations and speaker features and a speech decoder comprising a variational autoencoder having a sampling hierarchy, wherein the speech encoder, the speech decoder and the speaker encoder are inputs to the speech encoder. A speech processing learning method characterized by learning so as to reduce the distance between an acoustic feature quantity and an output acoustic feature quantity generated in the speech decoder.
本発明の別の態様は、音声を音響特徴量に変換する音響特徴量抽出器と、音声の話者ラベルを話者特徴量に変換する話者エンコーダと、前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、を備える音声処理装置を用いて、前記ソース話者の音声を前記ターゲット話者の音声に変換することを特徴とする音声処理方法である。 Another aspect of the present invention is an acoustic feature extractor that converts speech into acoustic features, a speaker encoder that converts speaker labels of speech into speaker features, and a source speech in the acoustic feature extractor. converting a source acoustic feature obtained by converting a speaker's speech and a source speaker feature obtained by converting a speaker label of the source speaker in the speaker encoder into a latent expression. a speech encoder comprising a variational autoencoder having a sampling hierarchy of , a latent representation, and a target speaker feature obtained by transforming the speaker label of the target speaker in the speaker encoder, a speech decoder comprising: a variational autoencoder having two or more sampling hierarchies for generating target acoustic features using at least; and converting the target acoustic features generated by the speech decoder into speech. and a vocoder, converting the speech of the source speaker into the speech of the target speaker.
本発明によれば、任意の話者が発した音声を目標とする話者が発した音声に適切に変換する音声処理学習プログラム、音声処理学習装置、音声処理学習方法、音声処理学習プログラム、音声処理学習装置及び音声処理学習方法を提供することができる。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。 According to the present invention, a speech processing learning program, a speech processing learning device, a speech processing learning method, a speech processing learning program, and speech for appropriately converting speech uttered by an arbitrary speaker into speech uttered by a target speaker. A processing learning device and a speech processing learning method can be provided. Other objects of embodiments of the present invention will become apparent by reference to the specification as a whole.
本発明の実施の形態における音声処理装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている音声処理学習プログラムを実行することによって、本実施の形態における音声処理の学習を行う。また、処理部10は、記憶部12に記憶されている音声処理プログラムを実行することによって、本実施の形態における音声処理に関する機能を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、音声処理学習プログラム、音声処理プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、使用者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。また、入力部14は、任意の話者及び目標となる所定の話者の音声の入力を受ける音声入力手段を備える。音声入力手段は、例えば、マイク、増幅回路等を含む構成とすればよい。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)や処理結果を出力する手段を含む。出力部16は、例えば、画像を呈示するディスプレイを備える。また、出力部16は、音声処理装置100によって生成された合成音声を出力する音声出力手段を備える。音声出力手段は、例えば、スピーカ、増幅器等を含む構成とすればよい。通信部18は、ネットワーク102を介して、外部端末(図示しない)との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。なお、音声処理に供される音声情報は通信部18を介して外部端末から取得してもよい。
A
音声処理装置100は、任意の話者が発した音声を所定の話者(目標話者)の音声の音質に変換する音声処理を行う。また、音声処理装置100は、当該音声処理のための学習を行う音声処理学習装置としても機能する。
The
[音声学習処理]
図2は、音声処理学習時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及び学習器28として機能する。具体的には、音声処理装置100は、音声処理学習プログラムを実行することによって以下の音声学習方法を実現する音声処理学習装置として機能する。
[Voice learning process]
FIG. 2 is a functional block diagram showing the configuration of the
音声分析部20は、音声データを取得し、音声データから音響特徴量を抽出する音響特徴量抽出器として機能する。すなわち、音声処理装置100の処理部10は、音声分析部20として機能する。音声データは、入力部14を構成するマイクを用いて話者の音声を音声データに変換して取得すればよい。また、通信部18を介して、外部のコンピュータ等に予め記録されている音声データを受信するようにしてもよい。取得された音声データは、記憶部12に記憶される。
The
音声データの取得処理は、任意の話者の発する音声について行われる。音声学習処理では、多数の話者からの音声を用いて音声エンコーダ24及び音声デコーダ26の学習処理が行われる。各話者から得る音声は、同一の内容である必要はない。
Acquisition processing of speech data is performed for speech uttered by an arbitrary speaker. In the speech learning process, the
また、音声分析部20は、さらに音声処理に必要な音声分析を行う。例えば、音声分析部20は、入力された音声の周波数特性に基づいて音声のケプストラム解析を行い、スペクトルの包絡線(声の太さ等を示す情報)及び微細構造の情報を含むメル周波数ケプストラム係数(MFCC)、音声の基本周波数や共鳴周波数(声の高さ、声のかすれ等を示す情報)等の音響特徴量を求める。音響特徴量は、例えば、音声セグメントの長さTに対して(80×T)次元のユークリッド空間とすることができる。具体的には、音声分析部20は、話者ID(話者ラベル)がiの話者が発した音声から音響特徴量xiを生成して出力する。音声分析部20で抽出された音響特徴量は音声エンコーダ24及び学習器28へ入力される。
In addition, the
話者エンコーダ22は、音声分析部20に入力された音声の発話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、発話者のIDを話者特徴量に変換して出力する埋込モジュールを含んで構成することができる。例えば、話者エンコーダ22は、話者IDがiの話者である場合、話者特徴量yiを生成して出力する。話者エンコーダ22で生成された話者特徴量は音声エンコーダ24及び音声デコーダ26へ入力される。
The
音声処理装置100の学習では、複数の話者が発した音声から得られた音響特徴量xiと話者特徴量yiの組み合わせ(xi,yi)のセットが用いられる。
In the training of the
音声エンコーダ24は、音響特徴量及び話者特徴量の入力を受けて、音響特徴量及び話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及び話者特徴量の入力を受けて、潜在表現及び話者特徴量を音響特徴量に変換する処理を行う。潜在表現は、入力された音声データの言語的な特徴を表す。
The
音声エンコーダ24及び音声デコーダ26は、図2に示すように、音声分析部20から音響特徴量xiの入力を受けて、音声エンコーダ24において潜在表現zに変換し、さらに音声デコーダ26において潜在表現zから音響特徴量xi^に再構成し、出力の音響特徴量xi^が入力の音響特徴量xiを復元するように学習される。
As shown in FIG. 2, the
本実施の形態では、音声エンコーダ24及び音声デコーダ26は、バリエーショナル・オート-エンコーダ(VAE:Variational Auto-Encoder)によって構成される。バリエーショナル・オート-エンコーダは、変分自己符号化器の一種であり、図3に示すように、潜在表現を確率分布に基づいたサンプリングによって生成する。確率分布は、平均μと分散σで規定される正規分布と仮定する。バリエーショナル・オート-エンコーダは、入力Xに対して平均μと分散σに基づいたサンプリングによって潜在表現zを生成するエンコーダと、潜在表現zから出力X^を生成するデコーダと、の組み合わせからなる。バリエーショナル・オート-エンコーダでは、入力Xと出力X^との復元誤差(復元距離)Eが小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26の学習が行われる。
In this embodiment,
図4に示すように、一般的なバリエーショナル・オート-エンコーダは一階層のニューラルネットワークで構成されるが、本実施の形態では2階層以上の複数階層のニューラルネットワークで構成されたヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)とすることが好適である。すなわち、ヌーヴォー・バリエーショナル・オート-エンコーダは、2以上のサンプリング階層を有する変分自己符号化器を含んで構成される。例えば、音声処理装置100では、音声エンコーダ24及び音声デコーダ26をn=35階層のニューラルネットワークでそれぞれ構成することが好適である。
As shown in FIG. 4, a general variational auto-encoder is composed of a single-layer neural network, but in this embodiment, a nouveau variational auto-encoder is composed of two or more hierarchical neural networks. • It is preferably an auto-encoder (NVAE: Nouveau Variational Auto-Encoder). That is, the Nouveau Variational Auto-encoder consists of a variational autoencoder with two or more sampling hierarchies. For example, in the
音声エンコーダ24及び音声デコーダ26のヌーヴォー・バリエーショナル・オート-エンコーダの各層は、図5に示すように、Conditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。CIN層は、一般的なヌーヴォー・バリエーショナル・オート-エンコーダにおけるバッチ正規仮想(BN層)の代わりに設けられる層である。CIN層は、正規化層の1つであり、スタイル毎に異なるパラメータを設定して正規化を行う条件付きインスタンス正規化層である。本実施の形態では、CIN層は、話者特徴量を入力の1つとして、入力された話者特徴量によって条件付けられた正規化を行う。また、Swish活性化関数はf(x)=x/(1+e-βx)と表される活性化関数である。Convolution層は、入力に対して畳み込み演算を適用して次の層に演算結果を出力する層である。SE層は、入力に対してチャンネル間の関係に基づいて適応的にattentionをかけて重み付きの特徴を出力する層である。
Each layer of the Nouveau Variational Auto-Encoder of the
図6を参照して、音声処理装置100における音声学習処理について説明する。音声エンコーダ24及び音声デコーダ26は、それぞれ階層数nのニューラルネットワークで構成された例を示している。階層数nは、例えば、35階層とすることができる。各階層は、それぞれ図5に示したConditional-Instance-Normalization層(CIN層)、Convolution層(CONV層)、Squeeze-and-Excitation層(SE層)を組み合わせて構成される。なお、音声エンコーダ24の階層k(ただし、kは1~nの階層数を示す)から出力される潜在表現をhkで示し、音声デコーダ26の階層数kで表される階層から出力される潜在表現をzkで示している。
The speech learning process in
音声エンコーダ24では、階層nに対して音響特徴量xi及び話者特徴量yiが入力され、潜在表現hnが出力される。次の階層n-1では、前段である階層nから出力された潜在表現hn及び話者特徴量yiが入力され、潜在表現hn-1が出力される。以下、同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及び話者特徴量yiが入力され、潜在表現hkが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h2及び話者特徴量yiが入力され、潜在表現h1が出力される。当該潜在表現h1から音声デコーダ26の初段である階層1の潜在表現z1がサンプリングされる。このように、音声エンコーダ24においては、すべての階層1~nにおいて話者特徴量yiを入力に含めることが好適である。
In the
音声デコーダ26では、初段である階層1に対して潜在表現z1が入力され、潜在表現z2が出力される。また、音声デコーダ26の階層kにおける潜在表現zkは、音声デコーダ26において前段の階層k-1の潜在表現zk-1、音声エンコーダ24のk階層目の潜在表現hk及び話者特徴量yiに基づく事前分布p(zk|zk-1,hk,yi)からサンプリングして得ることが可能である。また、潜在表現zkは、音声デコーダ26のより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z1及び音声エンコーダ24のk階層目の潜在表現hkに基づく事後分布p(zk|zk-1,zk-2・・・z1,hk)からサンプリングして得ることも可能である。なお、分布p(a|b)は、bを前提条件としてaが出力とされる尤もらしさを示す尤度関数である。
In the
音声学習処理では、音声デコーダ26の出力に近い階層から遠い階層に亘って音声エンコーダ24からサンプリングを行う。すなわち、図6に示すように、すべての階層1~階層nにおいて音声エンコーダ24のk階層目の潜在表現hkからサンプリングを行うことが好適である。また、事後分布からのサンプリングには話者特徴量yiを入力に含めないことが好適である。
In the speech learning process, sampling is performed from the
すなわち、音声デコーダ26では出力に近い階層のみに話者特徴量yiを入力に含め、出力から遠い階層には話者特徴量yiを入力に含めないことが好適である。このとき、音声エンコーダ24からサンプリングを行わず、事前分布からサンプリングを行う階層では話者特徴量yiを入力に含め、音声エンコーダ24からサンプリングを行い、事後分布からサンプリングを行う階層では話者特徴量yiを入力に含めないようにすることが好適である。
That is, it is preferable that the
なお、サンプリングには話者特徴量yiを含めない階層では、Conditional-Instance-Normalization層(CIN層)に話者特徴量yiを入力しない。 Note that, in layers in which the speaker feature y i is not included in the sampling, the speaker feature y i is not input to the Conditional-Instance-Normalization layer (CIN layer).
このような構成において、学習器28では、音声デコーダ26に入力される音響特徴量xiと音声デコーダ26から出力される再構築された音響特徴量xi^との誤差(距離)が小さくなるように話者エンコーダ22、音声エンコーダ24及び音声デコーダ26に含まれる各階層のニューラルネットワークの各種パラメータ(各ニューロンの重み係数又はバイアス等)を調整する。
With such a configuration, in the
ここで、音声デコーダ26に入力される音響特徴量xiと音声デコーダ26から出力される再構築された音響特徴量xi^との誤差(距離)が小さくなるように、音声デコーダ26において話者特徴量yiを考慮した事前分布からサンプリングを行う階層と、話者特徴量yiを考慮しない事後分布からサンプリングを行う階層との境界となる階層を適宜設定すればよい。
Here, the
以上のように、音声エンコーダ24に入力される音響特徴量xiによって表現される音声と、音声デコーダ26において再構築される音響特徴量xi^によって表現される音声とが近づくように音声エンコーダ24及び音声デコーダ26が学習される。
As described above, the speech encoder is arranged so that the speech represented by the acoustic feature quantity x i input to the
[音声処理]
図7は、ソース話者が発した音声をターゲット話者が発した音声のように変換する音声処理時における音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、話者エンコーダ22、音声エンコーダ24、音声デコーダ26及びボコーダ30として機能する。具体的には、音声処理装置100は、音声処理プログラムを実行することによって以下の音声処理を実現する音声処理装置として機能する。
[Voice processing]
FIG. 7 is a functional block diagram showing the configuration of the
音声分析部20は、ソース話者が発した音声の音声データを取得し、音声処理に必要な音声分析を行う。音声分析部20で抽出された音響特徴量は音声エンコーダ24へ入力される。
The
話者エンコーダ22は、ソース話者及びターゲット話者のIDを音声処理に利用できる話者特徴量に変換して出力する。話者エンコーダ22は、ソース話者IDがsの話者である場合、ソース話者特徴量ysを生成して音声エンコーダ24へ出力する。また、話者エンコーダ22は、ターゲット話者IDがtの話者である場合、ターゲット話者特徴量ytを生成して音声デコーダ26へ出力する。
The
音声エンコーダ24は、ソース話者の音声から得られた音響特徴量及びソース話者特徴量の入力を受けて、当該音響特徴量及び当該ソース話者特徴量を潜在表現に変換する処理を行う。音声デコーダ26は、音声エンコーダ24によって得られた潜在表現及びターゲット話者特徴量の入力を受けて、当該潜在表現及び当該ターゲット話者特徴量から音響特徴量を再構築する処理を行う。
The
図8を参照して、音声処理装置100における音声処理について説明する。音声処理では、上記の音声学習処理において学習された音声エンコーダ24及び音声デコーダ26を用いて行われる。
Audio processing in the
音声エンコーダ24では、階層nに対してソース話者の音声から得られた音響特徴量xs及びソース話者特徴量ysが入力され、潜在表現hnが出力される。以下、学習時と同様に、階層kでは、前段である階層k+1から出力された潜在表現hk+1及びソース話者特徴量ysが入力され、潜在表現hkが出力される。最終段である階層1では、前段である階層2から出力された潜在表現h2及びソース話者特徴量ysが入力され、潜在表現h1が出力される。当該潜在表現h1から音声デコーダ26の初段である階層1の潜在表現z1がサンプリングされる。
In the
音声デコーダ26では、初段である階層1に対して潜在表現z1が入力され、潜在表現z2が出力される。音声デコーダ26の出力から遠い階層では、ターゲット話者特徴量ytを入力に含めず、音声デコーダ26においてより前段の階層k-1、階層k-2・・・階層1の潜在表現zk-1、潜在表現zk-2・・・潜在表現z1及び音声エンコーダ24のk階層目の潜在表現hkに基づく事後分布p(zk|zk-1,zk-2・・・z1,hk)からサンプリングを行う。音声デコーダ26の出力に近い階層では音声エンコーダ24からサンプリングを行わず、直前の階層k-1の潜在表現zk-1及びターゲット話者特徴量ytに基づく事前分布p(zk|zk-1,yt)からサンプリングを行う。図8では、音声デコーダ26の階層n-1及び階層nにおいて事前分布からサンプリングを行う例を示している。このとき、事前分布からのサンプリングにはソース話者特徴量ysではなく、ターゲット話者特徴量ytを入力に含めることが好適である。
In the
音声エンコーダ24及び音声デコーダ26における音声処理によって、音声デコーダ26の最終段である階層nからソース話者の音声から得られた音響特徴量xsをターゲット話者の音声に合わせた音響特徴量xtが構築されて出力される。
Acoustic feature x s obtained from the source speaker's speech from layer n, which is the final stage of the
ボコーダ30は、音声デコーダ26から出力された音響特徴量xtを音声データに変換して出力する。ボコーダ30は、音声分析部20における音声データから音響特徴量を抽出する処理の逆の処理を行うことによって音響特徴量xtを音声データに変換することができる。
The
以上のように、本実施の形態の音声処理装置100によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置、音声処理プログラム及び音声処理方法並びに音声学習処理装置、音声学習処理プログラム及び音声学習処理方法を提供することができる。すなわち、学習された音声エンコーダ24及び音声デコーダ26を含む音声処理装置100によって、ソース話者が発した音声をターゲット話者が発したような音声に変換する音声処理を実現することができる。
As described above, according to the
特に、音声エンコーダ24及び音声デコーダ26に対してヌーヴォー・バリエーショナル・オート-エンコーダ(NVAE:Nouveau Variational Auto-Encoder)を適用することによって、従来よりもソース話者の音声をターゲット話者が発した自然な感じの音声に変換することができる。
In particular, by applying a Nouveau Variational Auto-Encoder (NVAE) to the
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 音声分析部、22 話者エンコーダ、24 音声エンコーダ、26 音声デコーダ、28 学習器、30 ボコーダ、100 音声処理装置、102 ネットワーク。 10 processing unit, 12 storage unit, 14 input unit, 16 output unit, 18 communication unit, 20 speech analysis unit, 22 speaker encoder, 24 speech encoder, 26 speech decoder, 28 learning device, 30 vocoder, 100 speech processing device, 102 network.
Claims (15)
音声を入力音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
入力音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備えた音声処理学習装置として機能させ、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習プログラム。 the computer,
an acoustic feature quantity extractor that converts speech into an input acoustic feature quantity;
a speaker encoder that converts speaker labels of speech into speaker features;
a speech encoder comprising a variational autoencoder having two or more sampling hierarchies for converting input acoustic features and speaker features into latent representations;
a speech decoder comprising a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least latent expressions and speaker features;
function as a speech processing learning device equipped with
The speech encoder, the speech decoder, and the speaker encoder are characterized by learning so as to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated in the speech decoder. A speech processing learning program.
前記音声デコーダは、前記2以上のサンプリング階層において話者特徴量を入力する階層が限定されていることを特徴とする音声処理学習プログラム。 The speech processing learning program according to claim 1,
A speech processing learning program, wherein said speech decoder is characterized in that the hierarchy for inputting the speaker feature amount is limited in said two or more sampling hierarchies.
前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には話者特徴量を入力せず、前記所定の階層より後段の階層には話者特徴量を入力することを特徴とする音声処理学習プログラム。 The speech processing learning program according to claim 2,
The speech decoder is characterized in that, among the two or more sampling hierarchies, the speaker feature amount is not input to a hierarchy prior to a predetermined hierarchy, and the speaker feature amount is input to a hierarchy subsequent to the predetermined hierarchy. A speech processing learning program.
前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことを特徴とする音声処理学習プログラム。 A speech processing learning program according to claim 3,
The audio decoder performs sampling from the posterior distribution in the hierarchy preceding the predetermined hierarchy in the two or more sampling hierarchies, and performs sampling from the prior distribution in the hierarchy following the predetermined hierarchy. learning program.
前記音声デコーダは、話者特徴量を条件付きインスタンス正規化層に入力することを特徴とする音声処理学習プログラム。 The speech processing learning program according to any one of claims 1 to 4,
A speech processing learning program, wherein the speech decoder inputs the speaker feature amount to a conditional instance normalization layer.
音声を音響特徴量に変換する音響特徴量抽出器と、
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備える音声処理装置として機能させることを特徴とする音声処理プログラム。 the computer,
an acoustic feature extractor that converts speech into acoustic features;
a speaker encoder that converts speaker labels of speech into speaker features;
A source acoustic feature obtained by converting the speech of the source speaker in the acoustic feature extractor, and a source speaker feature obtained by converting the speaker label of the source speaker in the speaker encoder. a speech encoder comprising a variational autoencoder having two or more sampling hierarchies that transforms into a latent representation;
A variational self-code having two or more sampling hierarchies that generates a target acoustic feature using at least a latent representation and a target speaker feature obtained by transforming a speaker label of the target speaker in the speaker encoder. an audio decoder comprising a decoder;
a vocoder that converts the target acoustic features generated by the speech decoder into speech;
A speech processing program characterized by functioning as a speech processing device comprising:
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される音響特徴量と前記音声デコーダにおいて生成される音響特徴量との距離を小さくするように学習させたものであることを特徴とする音声処理プログラム。 The speech processing program according to claim 6,
The speech encoder, the speech decoder, and the speaker encoder are trained so as to reduce the distance between the acoustic features input to the speech encoder and the acoustic features generated by the speech decoder. A speech processing program characterized by:
前記音声デコーダは、前記2以上のサンプリング階層において前記ターゲット話者特徴量を入力する階層が限定されていることを特徴とする音声処理学習プログラム。 The speech processing program according to claim 6 or 7,
A speech processing learning program, wherein said speech decoder is characterized in that the hierarchy into which said target speaker feature quantity is input is limited in said two or more sampling hierarchies.
前記音声デコーダは、前記2以上のサンプリング階層において所定の階層より前段の階層には前記ターゲット話者特徴量を入力せず、前記所定の階層より後段の階層には前記ターゲット話者特徴量を入力することを特徴とする音声処理プログラム。 The speech processing program according to claim 8,
The speech decoder does not input the target speaker feature quantity to a hierarchy preceding a predetermined hierarchy among the two or more sampling hierarchies, and inputs the target speaker feature quantity to a hierarchy succeeding the predetermined hierarchy. A speech processing program characterized by:
前記音声デコーダは、前記2以上のサンプリング階層において前記所定の階層より前段の階層では事後分布からサンプリングを行い、前記所定の階層より後段の階層では事前分布からサンプリングを行うことを特徴とする音声処理プログラム。 The speech processing program according to claim 9,
The audio decoder performs sampling from the posterior distribution in the hierarchy preceding the predetermined hierarchy in the two or more sampling hierarchies, and performs sampling from the prior distribution in the hierarchy following the predetermined hierarchy. program.
前記音声デコーダは、前記ターゲット話者特徴量を条件付きインスタンス正規化層に入力することを特徴とする音声処理プログラム。 The speech processing program according to any one of claims 6 to 10,
A speech processing program, wherein the speech decoder inputs the target speaker features to a conditional instance normalization layer.
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備え、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習装置。 an acoustic feature quantity extractor that converts speech into an input acoustic feature quantity;
a speaker encoder that converts speaker labels of speech into speaker features;
a speech encoder comprising a variational autoencoder having two or more sampling hierarchies for converting acoustic features and speaker features into latent representations;
a speech decoder comprising a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least latent expressions and speaker features;
with
The speech encoder, the speech decoder, and the speaker encoder are characterized by learning so as to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated in the speech decoder. A speech processing learning device.
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備えることを特徴とする音声処理装置。 an acoustic feature extractor that converts speech into acoustic features;
a speaker encoder that converts speaker labels of speech into speaker features;
A source acoustic feature obtained by converting the speech of the source speaker in the acoustic feature extractor, and a source speaker feature obtained by converting the speaker label of the source speaker in the speaker encoder. a speech encoder comprising a variational autoencoder having two or more sampling hierarchies that transforms into a latent representation;
A variational self-code having two or more sampling hierarchies that generates a target acoustic feature using at least a latent representation and a target speaker feature obtained by transforming a speaker label of the target speaker in the speaker encoder. an audio decoder comprising a decoder;
a vocoder that converts the target acoustic features generated by the speech decoder into speech;
A speech processing device comprising:
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
音響特徴量と話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と話者特徴量を少なくとも用いて音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
を備える音声処理学習装置において、
前記音声エンコーダ、前記音声デコーダ及び前記話者エンコーダは、前記音声エンコーダに入力される入力音響特徴量と前記音声デコーダにおいて生成される出力音響特徴量との距離を小さくするように学習させることを特徴とする音声処理学習方法。 an acoustic feature quantity extractor that converts speech into an input acoustic feature quantity;
a speaker encoder that converts speaker labels of speech into speaker features;
a speech encoder comprising a variational autoencoder having two or more sampling hierarchies for converting acoustic features and speaker features into latent representations;
a speech decoder comprising a variational autoencoder having two or more sampling hierarchies that generates acoustic features using at least latent expressions and speaker features;
In a speech processing learning device comprising
The speech encoder, the speech decoder, and the speaker encoder are characterized by learning so as to reduce the distance between an input acoustic feature input to the speech encoder and an output acoustic feature generated in the speech decoder. A speech processing learning method that
音声の話者ラベルを話者特徴量に変換する話者エンコーダと、
前記音響特徴量抽出器においてソース話者の音声を変換して得られたソース音響特徴量と、前記話者エンコーダにおいて前記ソース話者の話者ラベルを変換して得られたソース話者特徴量とを潜在表現に変換する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声エンコーダと、
潜在表現と、前記話者エンコーダにおいてターゲット話者の話者ラベルを変換して得られたターゲット話者特徴量を少なくとも用いてターゲット音響特徴量を生成する2以上のサンプリング階層を有する変分自己符号化器を含んで構成される音声デコーダと、
前記音声デコーダで生成された前記ターゲット音響特徴量を音声に変換するボコーダと、
を備える音声処理装置を用いて、
前記ソース話者の音声を前記ターゲット話者の音声に変換することを特徴とする音声処理方法。 an acoustic feature extractor that converts speech into acoustic features;
a speaker encoder that converts speaker labels of speech into speaker features;
A source acoustic feature obtained by converting the speech of the source speaker in the acoustic feature extractor, and a source speaker feature obtained by converting the speaker label of the source speaker in the speaker encoder. a speech encoder comprising a variational autoencoder having two or more sampling hierarchies that transforms into a latent representation;
A variational self-code having two or more sampling hierarchies that generates a target acoustic feature using at least a latent representation and a target speaker feature obtained by transforming a speaker label of the target speaker in the speaker encoder. an audio decoder comprising a decoder;
a vocoder that converts the target acoustic features generated by the speech decoder into speech;
using an audio processor comprising
A speech processing method, characterized in that the speech of the source speaker is transformed into the speech of the target speaker.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106955A JP2023005191A (en) | 2021-06-28 | 2021-06-28 | Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106955A JP2023005191A (en) | 2021-06-28 | 2021-06-28 | Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023005191A true JP2023005191A (en) | 2023-01-18 |
Family
ID=85108336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021106955A Pending JP2023005191A (en) | 2021-06-28 | 2021-06-28 | Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023005191A (en) |
-
2021
- 2021-06-28 JP JP2021106955A patent/JP2023005191A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6989951B2 (en) | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method | |
CN110223705B (en) | Voice conversion method, device, equipment and readable storage medium | |
JP6903611B2 (en) | Signal generators, signal generators, signal generators and programs | |
Wali et al. | Generative adversarial networks for speech processing: A review | |
CN111899719A (en) | Method, apparatus, device and medium for generating audio | |
CN112289299B (en) | Training method and device of speech synthesis model, storage medium and electronic equipment | |
JP7228998B2 (en) | speech synthesizer and program | |
Eskimez et al. | Adversarial training for speech super-resolution | |
CN111161695B (en) | Song generation method and device | |
CN113205793B (en) | Audio generation method and device, storage medium and electronic equipment | |
KR102272554B1 (en) | Method and system of text to multiple speech | |
KR20190135853A (en) | Method and system of text to multiple speech | |
WO2020136948A1 (en) | Speech rhythm conversion device, model learning device, methods for these, and program | |
Saleem et al. | NSE-CATNet: deep neural speech enhancement using convolutional attention transformer network | |
CN113077783A (en) | Method and device for amplifying Chinese speech corpus, electronic equipment and storage medium | |
JP7360814B2 (en) | Audio processing device and audio processing program | |
CN113314097B (en) | Speech synthesis method, speech synthesis model processing device and electronic equipment | |
JP2023005191A (en) | Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method | |
CN114822497A (en) | Method, apparatus, device and medium for training speech synthesis model and speech synthesis | |
CN113870827A (en) | Training method, device, equipment and medium of speech synthesis model | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP2021189402A (en) | Voice processing program, voice processing device and voice processing method | |
CN115798453A (en) | Voice reconstruction method and device, computer equipment and storage medium | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
WO2023157207A1 (en) | Signal analysis system, signal analysis method, and program |