JP2023171108A - Voice conversion device, voice conversion method and program - Google Patents
Voice conversion device, voice conversion method and program Download PDFInfo
- Publication number
- JP2023171108A JP2023171108A JP2022083351A JP2022083351A JP2023171108A JP 2023171108 A JP2023171108 A JP 2023171108A JP 2022083351 A JP2022083351 A JP 2022083351A JP 2022083351 A JP2022083351 A JP 2022083351A JP 2023171108 A JP2023171108 A JP 2023171108A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- voice
- feature amount
- speaker
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 227
- 238000000034 method Methods 0.000 title claims description 17
- 230000006870 function Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Abstract
Description
本開示は、入力された話者の音声の発声スキルを変換する音声変換装置、音声変換方法及び、プログラムに関する。 The present disclosure relates to a voice conversion device, a voice conversion method, and a program that convert the voice pronunciation skill of an input speaker.
従来、アナウンサー、声優等の発声の専門家と、それ以外の素人とでは、発声スキルが大きく異なる。本開示において、発声スキルとは、話者により発声される音声の聞き取りやすさを示す指標をいう。たとえば、駅の構内放送、建物の館内放送等において、素人が発声したアナウンスは、聞き取りづらい等の課題があるため、発声した音声の話者性を変えずに、発声スキルのみを変換する技術が必要とされている。本開示において、話者性とは、音声に含まれるスペクトルに代表される音響特徴、音高、発話リズム等に代表される韻律特徴を合わせて指す。 Traditionally, the vocal skills of vocal experts such as announcers and voice actors differ greatly from those of other amateurs. In the present disclosure, the vocalization skill refers to an index indicating the ease of audibility of the voice uttered by the speaker. For example, announcements made by amateurs on station announcements, building announcements, etc. can be difficult to hear, so technology that converts only the vocal skill without changing the identity of the speaker of the voice is needed. is necessary. In the present disclosure, speaker characteristics collectively refer to acoustic features represented by a spectrum included in speech, and prosodic features represented by pitch, speech rhythm, and the like.
図6は、従来の音声変換装置の構成例を示すブロック図である。従来、音声(声質)変換とは、入力された変換元話者の音声特徴量を、目標とする変換対象話者の音声特徴量へ変換する技術とされる。図6に示すように、変換元話者の音声特徴量から変換対象話者の音声特徴量への変換は、音声変換アルゴリズムを用いて学習された音声変換モデルに、変換元話者の音声特徴量を入力することにより行われる。たとえば、非特許文献1には、ベクトル量子化を用いて任意の2名の話者間で音声を変換する音声変換アルゴリズムが記載されている。また、非特許文献2には、人工ニューラルネットワーク(ANN)を用いて任意の2名の話者間で音声を変換する音声変換アルゴリズムが記載されている。非特許文献1及び非特許文献2に開示されたアルゴリズムを用いる場合、2名の話者の音声はパラレルデータ(2名の話者が同一の発話を発声した音声をいう。)である必要がある。一方、非特許文献3には、2名の話者の音声がパラレルデータであることを必要としない音声を活用できる、VAE(バリエーショナル・オートエンコーダ)を用いた音声変換アルゴリズムが記載されている。 FIG. 6 is a block diagram showing an example of the configuration of a conventional speech conversion device. Conventionally, speech (voice quality) conversion is a technique for converting input speech features of a source speaker into speech features of a target speaker. As shown in Figure 6, the conversion from the voice features of the source speaker to the voice features of the target speaker is performed using a voice conversion model trained using a voice conversion algorithm. This is done by entering the amount. For example, Non-Patent Document 1 describes a speech conversion algorithm that converts speech between two arbitrary speakers using vector quantization. Furthermore, Non-Patent Document 2 describes a speech conversion algorithm that converts speech between two arbitrary speakers using an artificial neural network (ANN). When using the algorithms disclosed in Non-Patent Document 1 and Non-Patent Document 2, the voices of two speakers need to be parallel data (sounds produced by two speakers uttering the same utterance). be. On the other hand, Non-Patent Document 3 describes a voice conversion algorithm using VAE (variational autoencoder) that can utilize voices that do not require the voices of two speakers to be parallel data. .
つぎに、図6に示すように、音声合成アルゴリズムを用いて、変換対象話者の音声特徴量から音声波形を生成する。非特許文献4には、メル対数スペクトル近似(MLSA(Mel-Log Spectrum Approximatation))フィルタを用いた音声合成アルゴリズムが記載されている。 Next, as shown in FIG. 6, a speech waveform is generated from the speech features of the conversion target speaker using a speech synthesis algorithm. Non-Patent Document 4 describes a speech synthesis algorithm using a Mel-Log Spectrum Approximation (MLSA) filter.
さらに、本開示で用い得るアルゴリズムとして、非特許文献5には、動的特徴を用いたパラメータ生成アルゴリズムが、非特許文献6には、重回帰混合正規分布モデルが記載されている。 Further, as algorithms that can be used in the present disclosure, Non-Patent Document 5 describes a parameter generation algorithm using dynamic features, and Non-Patent Document 6 describes a multiple regression mixed normal distribution model.
しかし、非特許文献1又は非特許文献2に開示された音声変換アルゴリズムを用いた、従来の音声変換装置によると、変換元話者の話者性もが、変換対象話者の話者性に変換されてしまい、変換元話者の話者性を保持したまま発声スキルのみを変換することが出来ないという課題があった。 However, according to the conventional speech conversion device using the speech conversion algorithm disclosed in Non-Patent Document 1 or Non-Patent Document 2, the speaker characteristics of the conversion source speaker are not the same as the speaker characteristics of the conversion target speaker. There was a problem in that it was not possible to convert only the vocal skills of the original speaker while preserving the speaker characteristics of the original speaker.
そこで、本開示では、発声スキルを滑舌の良し悪しと捉え、素人の話者の音声の音声特徴量の時間的変動のみを、専門家のものへと変換することにより、発声スキルのみを変換する技術に着目した。 Therefore, in the present disclosure, only the vocal skill is converted by considering the vocal skill as the quality of the smooth tongue and converting only the temporal fluctuation of the voice feature amount of the voice of an amateur speaker to that of an expert. We focused on the technology to do this.
かかる事情に鑑みてなされた本開示の目的は、音声特徴量の時間的変動(動的特徴量)のみを変換することにより、話者性を保持したまま発声スキルのみを変換する音声変換装置、音声変換方法、及びプログラムを提供することにある。 The present disclosure was made in view of the above circumstances, and an object of the present disclosure is to provide a speech conversion device that converts only the vocal skill while preserving the speaker characteristics by converting only the temporal fluctuations (dynamic features) of the speech features; The purpose of this invention is to provide a voice conversion method and program.
上記課題を解決するため、本実施形態に係る音声変換装置は、話者の音声特徴量の動的特徴量を変換する音声変換装置であって、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、前記変換後音声特徴量から音声波形を生成する音声波形生成部と、を備える。 In order to solve the above problems, the speech conversion device according to the present embodiment is a speech conversion device that converts the dynamic feature amount of the speech feature amount of the speaker, and converts the speech feature amount of the source speaker into the speech feature amount of the conversion target. a model learning unit that learns a voice conversion model to convert into voice features of the speaker; and a model learning unit that learns a voice conversion model that converts the voice features of the conversion source speaker into the learned voice conversion model, and inputs the voice features of the conversion source speaker to the trained voice conversion model to generate voice features of the conversion target speaker. A speech conversion unit that converts the speech of the conversion source speaker into The apparatus includes a dynamic feature converter that converts a feature into a converted audio feature, and an audio waveform generator that generates an audio waveform from the converted audio feature.
上記課題を解決するため、本実施形態に係る音声変換方法は、話者の音声特徴量の動的特徴量を変換する音声変換方法であって、音声変換装置により、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを入力して、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、前記変換後音声特徴量から音声波形を生成するステップと、を含む。 In order to solve the above problems, the voice conversion method according to the present embodiment is a voice conversion method that converts the dynamic feature amount of the voice feature amount of the speaker. a step of learning a speech conversion model that converts the voice features of the conversion target speaker into speech features of the conversion target speaker; a step of converting the speech feature into a voice feature, inputting the dynamic feature of the voice feature of the conversion source speaker and the dynamic feature of the voice feature of the conversion target speaker; The method includes the steps of converting the voice feature amount into a converted voice feature amount, and generating a voice waveform from the converted voice feature amount.
上記課題を解決するため、本実施形態に係るプログラムは、コンピュータを、上記音声変換装置として機能させる。 In order to solve the above problem, a program according to this embodiment causes a computer to function as the above speech conversion device.
本開示によれば、音声特徴量の時間変動(動的特徴量)のみを変換することにより、話者性を保持したまま発声スキルのみを変換することが可能となる。 According to the present disclosure, by converting only the temporal variation of the voice feature amount (dynamic feature amount), it is possible to convert only the vocal skill while retaining speaker characteristics.
以下、本発明を実施するための形態が、図面を参照しながら詳細に説明される。本発明は、以下の実施形態に限定されるものではなく、その要旨の範囲内で種々変形して実施することができる。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. The present invention is not limited to the following embodiments, and can be implemented with various modifications within the scope of the gist.
(第1の実施形態)
図1は、第1の実施形態に係る音声変換装置1の構成例を示すブロック図である。図1に示すように、第1の実施形態に係る音声変換装置1は、モデル学習部11と、音声変換部12と、動的特徴量変換部13と、音声波形生成部14と、を備える。音声変換装置1は、話者の音声特徴量の動的特徴量を変換する。モデル学習部11、音声変換部12、動的特徴量変換部13及び音声波形生成部14により制御演算回路(コントローラ)が構成される。該制御演算回路は、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
(First embodiment)
FIG. 1 is a block diagram showing a configuration example of a speech conversion device 1 according to the first embodiment. As shown in FIG. 1, the speech conversion device 1 according to the first embodiment includes a
モデル学習部11は、予め音声記憶部15に保存されている変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習する。モデル学習部11は、非特許文献1に記載されたベクトル量子化を用いた音声変換アルゴリズム、非特許文献2に記載された人工ニューラルネットワーク(ANN)を用いた音声変換アルゴリズム、又は非特許文献3に記載されたVAE(バリエーショナル・オートエンコーダ)を用いた音声変換アルゴリズムを、学習アルゴリズムとして用いてもよい。
The
モデル学習部11が扱う音声は、音声信号に対してフーリエ変換、信号処理等を行った結果、得られる音声特徴量(音高パラメータ(基本周波数等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))として音声記憶部15に保持されている。本開示では、フーリエ変換、信号処理等により得られた音声特徴量(一般的に静的特徴量ともいう。)は、静的特徴量のみではなく、各時刻における1フレーム(音声フレーム)前から1フレーム後への時間的変動を捉えた動的特徴量も含んでいるものとする。上述した非特許文献1又は非特許文献2に記載された音声変換アルゴリズムを使用する場合、音声はパラレルデータ(2名の話者が同一発話を発声した音声)である必要がある。また、上記のアルゴリズムを用いる場合は、各話者の音声はあらかじめDPマッチング(DTW; Dynamic Time Warping)等により、音声の時間情報の対応関係をとる必要がある。一方、非特許文献3に記載された音声変換アルゴリズムを使用する場合は、音声はパラレルデータである必要はなく、時間情報の対応付けも必要とされない。
The voice handled by the
音声変換部12は、変換元話者の音声特徴量21を、モデル学習部11により生成された学習済みの音声変換モデル11aへ入力して、変換対象話者の音声特徴量22に変換する。
The
動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
The
動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量を、変換対象話者の音声特徴量22の動的特徴量と差し替えて、変換対象話者の音声特徴量22の動的特徴量を、変換元話者の音声特徴量21の動的特徴量として取り扱うことにより、変換後の動的特徴量を生成してもよい。また、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量との重み付き和を音声フレームごとに求めることにより、変換後動的特徴量を生成してもよい。後者の場合、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量との重み付けにより、変換対象話者の発声スキルをどれだけ重視した変換を行うかを指定することができる。その後、たとえば非特許文献5に記載された動的特徴を用いたパラメータ生成アルゴリズム等により、変換元話者の音声特徴量21は、変換後動的特徴量を用いて、変換対象話者の音声特徴量22の動的特徴量を反映した変換後音声特徴量23に変換される。
The dynamic feature
音声波形生成部14は、変換後音声特徴量23から音声波形24を生成する。音声波形生成部14は、非特許文献4に記載されたメル対数スペクトル近似(MLSA(Mel-Log Spectrum Approximatation))フィルタ等を用いた音声合成アルゴリズムを用いて、音声波形24を生成してもよい。
The audio
音声記憶部15は、変換の対象となる2名の話者が発話した音声を音声特徴量として収録(保持)しており、音声学習部11の要求に応じ、音声特徴量を音声学習部11へ出力する。
The
図2は、第1の実施形態に係る音声変換装置1が実行する音声変換方法の一例を示すフローチャートである。 FIG. 2 is a flowchart illustrating an example of a voice conversion method executed by the voice conversion device 1 according to the first embodiment.
ステップS101では、モデル学習部11が、変換元話者の音声特徴量21を変換対象話者の音声特徴量22へ変換する音声変換モデル11aを学習する。
In step S101, the
ステップS102では、音声変換部12が、学習済みの音声変換モデル11aへ変換元話者の音声特徴量21を入力して、変換対象話者の音声特徴量22に変換する。
In step S102, the
ステップS103では、動的特徴量変換部13が、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
In step S103, the dynamic feature
ステップS104では、音声波形生成部14が、変換後音声特徴量23から音声波形24を生成する。
In step S104, the audio
本実施形態に係る音声変換装置1は、非特許文献1~非特許文献3に記載された従来技術が、音声特徴量全体を変換するのとは異なり、音声特徴量の動的特徴量(時間変動)のみを変換対象とする。これにより、音声変換装置1によれば、音声の話者性を変更することなく、滑舌の良し悪し等、発声スキルのみを変換することが可能になる。また、変換元話者を発声の素人、変換対象話者をアナウンサー、声優等の発声の専門家とすることにより、素人(変換元話者)の発声スキルを専門家(変換対象話者)の発声スキルへと近づけることが可能になる。 Unlike the conventional techniques described in Non-Patent Documents 1 to 3, which convert the entire audio feature amount, the audio conversion device 1 according to the present embodiment converts the dynamic feature amount (temporal feature amount) of the audio feature amount. (variation) is subject to conversion. Thereby, according to the voice conversion device 1, it is possible to convert only the pronunciation skill, such as the quality of the tongue, without changing the speaker characteristics of the voice. In addition, by setting the conversion source speaker to be a vocal amateur and the conversion target speaker to be a vocal expert such as an announcer or voice actor, it is possible to improve the vocal skills of the amateur (conversion source speaker) to that of an expert (conversion target speaker). It will be possible to get closer to vocal skills.
(第2の実施形態)
図3は、第2の実施形態に係る音声変換装置1′の構成例を示すブロック図である。図3に示すように、第2の実施形態に係る音声変換装置1′は、モデル学習部11′と、音声変換部12′と、動的特徴量変換部13と、音声波形生成部14と、を備える。音声変換装置1′は、話者の音声特徴量の動的特徴量を変換する。本実施形態に係る音声変換装置1′は、第1の実施形態に係る音声変換装置1と比較して、モデル学習部11′と、音声変換部12′とが有する機能が異なるが、動的特徴量変換部13及び音声波形生成部14の機能は同じである。第1の実施形態と同一の構成については、第1の実施形態と同一の参照番号を付して適宜説明を省略する。モデル学習部11′、音声変換部12′、動的特徴量変換部13及び音声波形生成部14により制御演算回路(コントローラ)が構成される。該制御演算回路は、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
(Second embodiment)
FIG. 3 is a block diagram showing a configuration example of a speech conversion device 1' according to the second embodiment. As shown in FIG. 3, the speech conversion device 1' according to the second embodiment includes a model learning section 11', a speech conversion section 12', a dynamic feature
モデル学習部11′は、複数の話者の音声特徴量と、各話者に付与された発声スキルとを入力して、任意に変換元話者に定めた1名の話者の音声特徴量を、変換対象話者に定めた他の複数の話者の音声特徴量にそれぞれ変換する複数の音声変換モデルを学習する。モデル学習部11′は、複数の音声変換モデルのうち、変換元話者に定めた1名の話者の音声特徴量21を、任意に定めた目標発声スキル25に合致する発声スキルを有する1名の変換対象話者の音声特徴量22に変換する一つの音声変換モデル11a′を保持する。たとえば、10名の話者が発話した音声の音声特徴量と、10名の話者のそれぞれに付与された発声スキルが入力される場合、モデル学習部11′は、任意に定めた1名の変換元話者の音声特徴量を、その他の9名の変換対象話者の音声特徴量に変換する9通りの音声変換モデルを学習し、次に該1名の変換元話者の音声特徴量21を、9名のうち別途任意に定めた目標発声スキル25に合致する発声スキルを有する1名の変換対象話者の音声特徴量22に変換する一つの音声変換モデル11a′のみを保持する。学習アルゴリズムは、非特許文献6に記載された重回帰混合正規分布モデルを用いてもよい。非特許文献6に記載された重回帰混合正規分布モデルでは、従来の音声変換の拡張として、任意の声質(太い声から細い声等)へと変換する技術を提案しているが、本実施例では、声質の代わりに発声スキルを付与して学習することにより、任意の発声スキルへの変換を行う。
The model learning unit 11' inputs the voice features of a plurality of speakers and the pronunciation skills assigned to each speaker, and arbitrarily selects the voice features of one speaker determined as the conversion source speaker. A plurality of speech conversion models are learned that convert the speech features of a plurality of other speakers determined as conversion target speakers, respectively. The model learning unit 11' converts the
音声変換部12′は、変換元話者の音声特徴量21と、目標発声スキル25とをモデル学習部11′により学習済みの音声変換モデル11a′へ入力して、変換元話者の音声特徴量21を、目標発声スキル25に合致する発声スキルを有する変換対象話者の音声特徴量22に変換する。
The voice conversion unit 12' inputs the voice features 21 of the conversion source speaker and the
音声変換装置1′が備える動的特徴量変換部13及び音声波形生成部14は、第1の実施形態に係る音声変換装置1が備える動的特徴量変換部13及び音声波形生成部14と同一である。動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。音声波形生成部14は、変換後音声特徴量23から音声波形24を生成する。
The dynamic feature
音声記憶部15′は、第1の実施形態に係る音声記憶部15が2名の話者が発話した音声の音声特徴量を収録しているのに対し、複数の話者(たとえば、10名等より多くの話者)が発話した音声の音声特徴量と、各話者に付与された発声スキルを収録している。発声スキルは、評価者の聴取により各話者に付与された主観スコアを数値表現したもの(たとえば、1:スキルが著しく低い...5:スキルが著しく高い)を使用することが望ましい。音声記憶部15′は、変換の対象となる複数の話者が発話した音声の音声特徴量と、各話者に付与された発声スキルとを収録(保持)しており、音声学習部11′の要求に応じ、音声特徴量と発声スキルとを音声学習部11′へ出力する。
While the
図4は、第2の実施形態に係る音声変換装置1′が実行する音声変換方法の一例を示すフローチャートである。 FIG. 4 is a flowchart illustrating an example of a voice conversion method executed by the voice conversion device 1' according to the second embodiment.
ステップS201では、モデル学習部11′が、変換元話者の音声特徴量21を、他の複数の変換対象話者の音声特徴量22へ変換する、複数の音声変換モデル11a′を学習する。さらに、モデル学習部11′は、変換元話者の音声特徴量21を、目標発声スキル25に合致した発声スキルを有する変換対象話者の音声特徴量22へ変換する一つの音声変換モデル11a′のみを保持する。
In step S201, the model learning unit 11' learns a plurality of
ステップS202では、音声変換部12′が、学習済みの音声変換モデル11a′へ変換元話者の音声特徴量21と目標発声スキル25とを入力して、変換元話者の音声特徴量21を目標発声スキル25に合致する発声スキルを有する変換対象話者の音声特徴量22に変換する。
In step S202, the voice conversion unit 12' inputs the
ステップS203では、動的特徴量変換部13が、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
In step S203, the dynamic feature
ステップS204では、音声波形生成部14が、変換後音声特徴量23から音声波形24を生成する。
In step S204, the audio
第1の実施形態に係る音声変換装置1によれば、発声スキルが高い話者を発声の専門家であると仮定して、一方の話者(発声の素人)の発声スキルを、もう一方の話者(発声の専門家)の発声スキルに変換する。しかし、実際には発声の素人の中にも発声スキルが高い話者もいれば、発声の専門家の中でもそれぞれの発声スキルは異なる。本開示に係る音声変換装置1′によれば、複数の話者の音声特徴量と、各話者に付与された発声スキルとを用いることにより、任意に定めた変換元話者の音声特徴量を、任意の目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量へ変換することが可能となる。 According to the speech conversion device 1 according to the first embodiment, it is assumed that a speaker with a high pronunciation skill is an expert in pronunciation, and the pronunciation skill of one speaker (amateur in pronunciation) is compared with that of the other speaker. Convert to the vocal skills of the speaker (pronunciation expert). However, in reality, some vocal amateurs have high vocal skills, and even vocal experts have different vocal skills. According to the speech conversion device 1' according to the present disclosure, the speech features of the conversion source speaker are arbitrarily determined by using the speech features of a plurality of speakers and the vocalization skills assigned to each speaker. can be converted into the voice feature amount of a conversion target speaker who has a vocalization skill that matches an arbitrary target vocalization skill.
上記の音声変換装置1及び1′を機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。図5は、音声変換装置として機能するコンピュータの概略構成を示すブロック図である。ここで、音声変換装置1及び1′として機能するコンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッド等であってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメント等であってもよい。 It is also possible to use a computer capable of executing program instructions in order to function the above-mentioned speech conversion devices 1 and 1'. FIG. 5 is a block diagram showing a schematic configuration of a computer functioning as a voice conversion device. Here, the computers functioning as the voice conversion devices 1 and 1' may be general-purpose computers, special-purpose computers, workstations, PCs (Personal Computers), electronic notepads, or the like. Program instructions may be program code, code segments, etc. to perform necessary tasks.
図5に示すように、コンピュータ100は、プロセッサ110と、記憶部としてROM(Read Only Memory)120、RAM(Random Access Memory)130、及びストレージ140と、入力部150と、出力部160と、通信インターフェース(I/F)170と、を備える。各構成は、バス180を介して相互に通信可能に接続されている。
As shown in FIG. 5, the
ROM120は、各種プログラム及び各種データを保存する。RAM130は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ140は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを保存する。本開示では、ROM120又はストレージ140に、本開示に係るプログラムが保存されている。
The
プロセッサ110は、具体的にはCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサ110は、ROM120又はストレージ140からプログラムを読み出し、RAM130を作業領域としてプログラムを実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。
Specifically, the
プログラムは、音声変換装置1及び1′が読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、音声変換装置1及び1′にインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性(non-transitory)の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリ等であってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。 The program may be recorded on a recording medium readable by the speech conversion devices 1 and 1'. By using such a recording medium, it is possible to install it in the voice conversion devices 1 and 1'. Here, the recording medium on which the program is recorded may be a non-transitory recording medium. The non-transitory recording medium is not particularly limited, and may be, for example, a CD-ROM, a DVD-ROM, a USB (Universal Serial Bus) memory, or the like. Further, this program may be downloaded from an external device via a network.
上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。たとえば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。 Although the embodiments described above have been described as representative examples, it will be apparent to those skilled in the art that many modifications and substitutions can be made within the spirit and scope of this disclosure. Therefore, the present invention should not be construed as being limited to the above-described embodiments, and various modifications and changes can be made without departing from the scope of the claims. For example, it is possible to combine a plurality of configuration blocks described in the configuration diagram of the embodiment into one, or to divide one configuration block.
1, 1′ 音声変換装置
11, 11′ モデル学習部
11a,11a′ 音声変換モデル
12, 12′ 音声変換部
13 動的特徴量変換部
14 音声波形生成部
15, 15′ 音声記憶部
21 変換元話者の音声特徴量
22 変換対象話者の音声特徴量
23 変換後音声特徴量
24 音声波形
25 目標発声スキル
100 コンピュータ
110 プロセッサ
120 ROM
130 RAM
140 ストレージ
150 入力部
160 出力部
170 通信インターフェース(I/F)
180 バス
1, 1' Voice conversion device
11, 11' Model learning section
11a, 11a' Voice conversion model
12, 12' Voice converter
13 Dynamic feature converter
14 Audio
21 Voice features of conversion source speaker
22 Voice features of conversion target speaker
23 Post-conversion
130 RAM
180 bus
Claims (6)
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、
前記変換後音声特徴量から音声波形を生成する音声波形生成部と、
を備える音声変換装置。 A voice conversion device that converts a dynamic feature of a speaker's voice feature,
a model learning unit that learns a voice conversion model that converts voice features of a conversion source speaker to voice features of a conversion target speaker;
a voice conversion unit that inputs voice features of the conversion source speaker into a trained voice conversion model and converts them into voice features of the conversion target speaker;
Using the dynamic feature amount of the voice feature amount of the conversion source speaker and the dynamic feature amount of the voice feature amount of the conversion target speaker, the voice feature amount of the conversion source speaker is converted into a post-conversion voice feature amount. a dynamic feature conversion unit that converts into
an audio waveform generation unit that generates an audio waveform from the converted audio feature;
A voice conversion device comprising:
前記音声変換部は、前記変換元話者の音声特徴量と、目標発声スキルとを学習済みの音声変換モデルへ入力して、前記変換元話者の音声特徴量を、前記目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量に変換する、請求項1から3のいずれか1項に記載の音声変換装置。 The model learning unit inputs the voice features of a plurality of speakers and the pronunciation skills assigned to each speaker, and calculates the voice features of one speaker arbitrarily determined as the conversion source speaker. , learn multiple voice conversion models that each convert to the voice features of multiple other speakers determined as the conversion target speaker,
The voice conversion unit inputs the voice features of the conversion source speaker and the target vocalization skill into a trained voice conversion model, and converts the voice features of the conversion source speaker into a match with the target voice skill. 4. The speech conversion device according to claim 1, wherein the speech conversion device converts into a voice feature amount of a conversion target speaker who has a vocalization skill of .
音声変換装置により、
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、
前記変換後音声特徴量から音声波形を生成するステップと、
を含む音声変換方法。 A voice conversion method for converting a dynamic feature of a speaker's voice feature, the method comprising:
With the voice conversion device,
learning a speech conversion model that converts the speech features of the conversion source speaker into the speech features of the conversion target speaker;
inputting the voice features of the conversion source speaker into a trained voice conversion model and converting them into the voice features of the conversion target speaker;
Using the dynamic feature amount of the voice feature amount of the conversion source speaker and the dynamic feature amount of the voice feature amount of the conversion target speaker, the voice feature amount of the conversion source speaker is converted into a post-conversion voice feature amount. and the step of converting it to
generating a speech waveform from the converted speech feature amount;
Voice conversion methods including.
A program for causing a computer to function as the speech conversion device according to any one of claims 1 to 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022083351A JP2023171108A (en) | 2022-05-20 | 2022-05-20 | Voice conversion device, voice conversion method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022083351A JP2023171108A (en) | 2022-05-20 | 2022-05-20 | Voice conversion device, voice conversion method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023171108A true JP2023171108A (en) | 2023-12-01 |
Family
ID=88927893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022083351A Pending JP2023171108A (en) | 2022-05-20 | 2022-05-20 | Voice conversion device, voice conversion method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023171108A (en) |
-
2022
- 2022-05-20 JP JP2022083351A patent/JP2023171108A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN111048064B (en) | Voice cloning method and device based on single speaker voice synthesis data set | |
US10176797B2 (en) | Voice synthesis method, voice synthesis device, medium for storing voice synthesis program | |
US20240144945A1 (en) | Signal processing apparatus and method, training apparatus and method, and program | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
WO2022203699A1 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
US10854182B1 (en) | Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same | |
JP2014123072A (en) | Voice synthesis system and voice synthesis method | |
JP6821970B2 (en) | Speech synthesizer and speech synthesizer | |
Aryal et al. | Articulatory-based conversion of foreign accents with deep neural networks | |
Obin et al. | On the generalization of Shannon entropy for speech recognition | |
WO2019181767A1 (en) | Sound processing method, sound processing device, and program | |
WO2020136948A1 (en) | Speech rhythm conversion device, model learning device, methods for these, and program | |
JP2016151736A (en) | Speech processing device and program | |
JP2019008120A (en) | Voice quality conversion system, voice quality conversion method and voice quality conversion program | |
KR20220134347A (en) | Speech synthesis method and apparatus based on multiple speaker training dataset | |
JP6594251B2 (en) | Acoustic model learning device, speech synthesizer, method and program thereof | |
KR102198598B1 (en) | Method for generating synthesized speech signal, neural vocoder, and training method thereof | |
JP6433063B2 (en) | Audio processing apparatus and program | |
JP2023171108A (en) | Voice conversion device, voice conversion method and program | |
JP7339151B2 (en) | Speech synthesizer, speech synthesis program and speech synthesis method | |
JP7028311B2 (en) | Learning audio data generator, its method, and program | |
CN115798453A (en) | Voice reconstruction method and device, computer equipment and storage medium | |
Cen et al. | Generating emotional speech from neutral speech | |
KR20200092500A (en) | Neural vocoder and training method of neural vocoder for constructing speaker-adaptive model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220523 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230629 |