JP2021189402A - Voice processing program, voice processing device and voice processing method - Google Patents
Voice processing program, voice processing device and voice processing method Download PDFInfo
- Publication number
- JP2021189402A JP2021189402A JP2020097784A JP2020097784A JP2021189402A JP 2021189402 A JP2021189402 A JP 2021189402A JP 2020097784 A JP2020097784 A JP 2020097784A JP 2020097784 A JP2020097784 A JP 2020097784A JP 2021189402 A JP2021189402 A JP 2021189402A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- phoneme
- posterior probability
- feature amount
- phoneme posterior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 45
- 238000004458 analytical method Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 38
- 238000000034 method Methods 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 3
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100072002 Arabidopsis thaliana ICME gene Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 208000002173 dizziness Diseases 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Abstract
Description
本発明は、音声処理プログラム、音声処理装置及び音声処理方法に関する。 The present invention relates to a voice processing program, a voice processing device, and a voice processing method.
任意の話者が発声した音声を別の話者の声質を有する音声に変換する音声処理装置が開発されている。 A voice processing device has been developed that converts a voice uttered by an arbitrary speaker into a voice having the voice quality of another speaker.
例えば、目標話者の音声信号と同一又は類似の発声内容であるパラレルデータを使ってモデル学習を行って合成音を作成する技術が開示されている(特許文献1)。また、機械学習を適用することによって任意の話者の声を目標話者の声質に変換する技術が開示されている(非特許文献1)。 For example, a technique for creating a synthetic sound by performing model learning using parallel data having the same or similar utterance content as the voice signal of the target speaker is disclosed (Patent Document 1). Further, a technique for converting the voice of an arbitrary speaker into the voice quality of a target speaker by applying machine learning is disclosed (Non-Patent Document 1).
ところで、従来技術では、合成された音声の声質や言い回しが元話者に依存してしまうことがあった。すなわち、任意の話者の音声データから目的話者の声質に十分に似通った音声を合成することができていなかった点が課題の一例としてあげられる。 By the way, in the prior art, the voice quality and wording of the synthesized voice may depend on the original speaker. That is, one example of the problem is that it was not possible to synthesize a voice sufficiently similar to the voice quality of the target speaker from the voice data of any speaker.
本発明の1つの態様は、コンピュータに、第1音声を受ける第1ステップと、前記第1音声に基づいて、第1音素事後確率を抽出する第2ステップと、前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する第3ステップと、前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する第4ステップと、前記特徴量に基づいて第2音声を生成する第5ステップと、を実行させることを特徴とする音声処理プログラムである。 One aspect of the present invention is a first step of receiving a first voice from a computer, a second step of extracting a first phoneme posterior probability based on the first voice, and a time of the first phoneme posterior probability. The third step of generating the second phoneme posterior probability normalized for each, the fourth step of generating the feature amount of the first voice based on the second phoneme posterior probability, and the second step based on the feature amount. It is a voice processing program characterized by executing a fifth step of generating voice.
ここで、前記第3ステップは、前記第1音素事後確率を時間毎に音素の確率の最大値、平均値及び分散値の少なくとも1つが一定値となるように前記第2音素事後確率を生成することが好適である。 Here, in the third step, the second phoneme posterior probability is generated so that at least one of the maximum value, the average value, and the variance value of the phoneme probability becomes a constant value for the first phoneme posterior probability every hour. Is preferable.
また、前記特徴量は、スペクトル包絡であることが好適である。 Further, it is preferable that the feature amount is a spectral envelope.
また、前記第1音声から第1基本周波数を抽出する第6ステップを備え、前記第4ステップは、前記第2音素事後確率及び前記第1基本周波数に基づいて前記特徴量を生成することが好適である。 Further, it is preferable to include a sixth step of extracting the first fundamental frequency from the first voice, and the fourth step preferably generates the feature amount based on the second phoneme posterior probability and the first fundamental frequency. Is.
また、前記第1基本周波数の傾きに基づいて前記第1基本周波数から第2基本周波数を算出し、前記第2音素事後確率及び前記第2基本周波数に基づいて前記特徴量を生成することが好適である。 Further, it is preferable to calculate the second fundamental frequency from the first fundamental frequency based on the gradient of the first fundamental frequency and generate the feature amount based on the second fundamental posterior probability and the second fundamental frequency. Is.
本発明の1つの態様は、第1音声を受ける音声取得手段と、前記第1音声に基づいて、第1音素事後確率を抽出する音素事後確率抽出手段と、前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する正規化手段と、前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する特徴量生成手段と、前記特徴量に基づいて第2音声を生成する音声生成手段と、を備えることを特徴とする音声処理装置である。 One aspect of the present invention is a voice acquisition means for receiving the first voice, a phoneme post-probability extraction means for extracting the first phoneme post-probability based on the first voice, and the first phoneme post-probability for each hour. A normalization means for generating the second phoneme post-probability normalized to, a feature amount generating means for generating the feature amount of the first voice based on the second phoneme post-probability, and a second feature amount based on the feature amount. It is a voice processing apparatus including a voice generation means for generating voice.
本発明の1つの態様は、第1音声を受ける第1ステップと、前記第1音声に基づいて、第1音素事後確率を抽出する第2ステップと、前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する第3ステップと、前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する第4ステップと、前記特徴量に基づいて第2音声を生成する第5ステップと、を備えることを特徴とする音声処理方法である。 One aspect of the present invention is a first step of receiving a first voice, a second step of extracting a first phoneme posterior probability based on the first voice, and a normal first phoneme posterior probability for each hour. The third step of generating the converted second phoneme posterior probability, the fourth step of generating the feature amount of the first voice based on the second phoneme posterior probability, and the second voice generation based on the feature amount. This is a voice processing method characterized by comprising the fifth step.
本発明によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理プログラム、音声処理装置及び音声処理方法を提供することができる。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide a voice processing program, a voice processing device, and a voice processing method for appropriately converting a voice uttered by an arbitrary speaker into the sound quality of a voice uttered by a target speaker. Other objects of the embodiments of the present invention will become apparent by reference to the entire specification.
本発明の実施の形態における音声処理装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている音声処理プログラムを実行することによって、本実施の形態における音声処理に関する機能を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、音声処理プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、使用者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。また、入力部14は、任意の話者及び目標となる所定の話者の音声の入力を受ける音声入力手段を備える。音声入力手段は、例えば、マイク、増幅回路等を含む構成とすればよい。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)や処理結果を出力する手段を含む。出力部16は、例えば、画像を呈示するディスプレイを備える。また、出力部16は、音声処理装置100によって生成された合成音声を出力する音声出力手段を備える。音声出力手段は、例えば、スピーカ、増幅器等を含む構成とすればよい。通信部18は、ネットワーク102を介して、外部端末(図示しない)との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。なお、音声処理に供される音声情報は通信部18を介して外部端末から取得してもよい。
As shown in FIG. 1, the
本実施の形態では、複数の話者が発した音声を所定の話者(目標話者)の音声の音質に変換する音声処理を行う。図2は、音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、抑揚抽出部22、音素変換部24、正規化部26、特徴量変換部28及び音声生成部30として機能する。
In the present embodiment, voice processing is performed to convert the voices emitted by a plurality of speakers into the sound quality of the voices of a predetermined speaker (target speaker). FIG. 2 is a functional block diagram showing the configuration of the
音声分析部20は、音声データを取得する処理を行う。すなわち、音声処理装置100の処理部10は、音声分析部20として機能する。音声データは、入力部14を構成するマイクを用いて話者の音声をデータに変換して取得すればよい。また、通信部18を介して、外部のコンピュータ等に予め記録されている音声データを受信するようにしてもよい。取得された音声データは、記憶部12に記憶される。
The
音声データの取得処理は、任意の話者の発する音声及び目標話者の発する音声の両方について行われる。任意の話者からの音声と目標話者からの音声は、同一の内容(いわゆる、パラレルトレーニングデータ)である必要はない。ただし、任意の話者からの音声と目標話者からの音声が同一の内容(パラレルトレーニングデータ)である場合には音声変換の処理がより適切に行われる可能性が高くなる。 The voice data acquisition process is performed on both the voice emitted by an arbitrary speaker and the voice emitted by the target speaker. The voice from any speaker and the voice from the target speaker do not have to have the same content (so-called parallel training data). However, if the voice from any speaker and the voice from the target speaker have the same content (parallel training data), there is a high possibility that the voice conversion process will be performed more appropriately.
また、音声分析部20は、さらに音声処理に必要な音声分析を行う。例えば、音声分析部20は、入力された音声の周波数特性に基づいて音声のケプストラム解析を行い、スペクトルの包絡線(声の太さ等を示す情報)及び微細構造の情報を含むメタ周波数ケプストラム係数(MFCC)、音声の基本周波数や共鳴周波数(声の高さ、声のかすれ等を示す情報)等の音声データを求める。以降、音声分析部20で求められた音声データの基本周波数を第1基本周波数F0とする。
In addition, the
抑揚抽出部22は、音声分析部20で音声から求められた第1基本周波数F0の傾きΔF0を算出する。図3は、時間フレーム毎に音声から抽出された第1基本周波数F0の例を示す。抑揚抽出部22は、音声から抽出された第1基本周波数F0の傾きΔF0を算出する。第1基本周波数F0の傾きΔF0は、特徴量変換部28へ入力される。第1基本周波数F0の傾きΔF0は、後述する特徴量変換部28における第2基本周波数F1の算出方法の一つとして利用される。
The
音素変換部24は、音声データから発話情報を抽出する処理を行う。すなわち、音声処理装置100の処理部10は、音声分析部20から出力された音声データから発話情報を抽出する処理を行うことによって音素変換部24として機能する。ここで、発話情報は、音素事後確率(PPG:Phonetic PosteriorGrams)又は音素(Phoneme)を含む情報である。
The
処理部10は、音声データから音素事後確率又は音素を抽出して出力する音素変換部24となるように機械学習を行って音素変換部24を構成する。より具体的には、時刻に応じて変化する時系列情報である音声データを入力データとして、図4に例示するような当該音声データの音素事後確率又は音素を抽出して出力するように学習器を学習させる。図4に示すように、音素事後確率は、時間フレーム毎の音素の確率を示す情報である。
The
例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)を適用して入力音声データから音素事後確率又は音素を抽出して出力する音素変換部24を構成する。畳み込みニューラルネットワークは、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現したものである。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用して入力音声データから音素事後確率又は音素を抽出して出力する音素変換部24を構成してもよい。また、音素変換部24には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。
For example, a convolutional neural network (CNN) is applied to configure a sound
また、参考文献1:「齋藤 佑樹,阿久澤 圭, 橘 健太郎, “音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習,“日本音響学会 2019年秋季研究発表会 講演論文集, 2−4−2, pp. 963−−966, 2019年9月 “http://sython.org/papers/ASJ/saito2019asja_dena.pdf”」に記載のネットワークアーキテクチャを適用してもよい。すなわち、デーブ・ニューラル・ネットワーク(DNN)を適用して、MFCC等の音声データに含まれる入力音声特徴量系列から音素ラベル系列を予測するように学習される。入力音声特徴量と音素ラベルのペアは、多数話者を含む音声コーパスから抽出される。音素事後確率系列は、入力音声特徴量が与えられたもとでの音素ラベルの事後確率を表す。音素変換部24は、音素ラベルと音素事後確率のsoftmax cross−entropy LSCEとして定義される音素認識誤差を最小化するように学習される。このとき、Domain−adversarial training(DAT)に基づき、音素変換部24に入力される音素事後確率の話者不変性を向上させる学習法を適用することが好適である。すなわち、音素変換部24の学習に用いた音声コーパスをそれぞれ多数話者ドメインと目的話者ドメインとして定義し、DATによってこの2つのドメインの違いを緩和することが好適である。具体的には、参考文献1のテーブル1に記載の音声認識モデルのDNNのアーキテクチャを適用すればよい。(参考文献2:CLDNN:Tara N. Sainath, Oriol Vinyals, Andrew Senior, and Hasim Sak. Convolutional, Long ShortTerm Memory, Fully Connected Deep Neural Networks. In IEEE International Conference on Acoustics, Speech and Signal Processing, 2015. 参考文献3:LAS:Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2015). Listen, attend and spell. arXiv preprint arXiv:1508.01211. 参考文献4:Transformer-ASR: Karita, S., Chen, N., Hayashi, T., Hori, T., Inaguma, H., Jiang, Z., ... & Watanabe, S. (2019). A comparative study on transformer vs rnn in speech applications. arXiv preprint arXiv:1909.06317.)
Reference 1: "Yuki Saito, Kei Akuzawa, Kentaro Tachibana," Simultaneous hostile learning of speech recognition and generative models for many-to-one speech conversion using phoneme posterior probabilities, "Acoustical Society of Japan 2019 Fall Study" Presentation Proceedings, 2-4-2, pp. 963--966, September 2019 "http: // sound. org / papers / ASJ / saito2019 asja_dena. The network architecture described in "pdf" may be applied. That is, it is learned to apply a Dave neural network (DNN) to predict a phoneme label sequence from an input speech feature quantity sequence included in speech data such as MFCC. The pair of input voice features and phoneme labels is extracted from a voice corpus containing a large number of speakers. The phoneme posterior probability series represents the phoneme posterior probabilities given the input speech features.
畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。また、活性化関数に合わせて損失関数を適用してもよい。損失関数としては、ソフトマックス関数やConnectionist Temporal Classification (CTC)損失関数を用いてもよい。 It is preferable to apply the activation function to convolutional neural networks, recurrent neural networks, or combinations thereof. As the activation function, for example, ReLU, sigmoid function, softmax function, polynomial and the like can be applied. Further, the loss function may be applied according to the activation function. As the loss function, a softmax function or a connectionist temporal classification (CTC) loss function may be used.
正規化部26は、音素変換部24で抽出された発話情報を正規化する処理を行う。すなわち、音声処理装置100の処理部10は、音素変換部24から出力された発話情報を正規化することによって正規化部26として機能する。
The
処理部10は、単位毎における各音素に対する確率を示す音素事後確率(PPG)を第1音素事後確率として正規化することによって第2音素事後確率を生成する。図5は、異なる2人の女性の音声から抽出された第1音素事後確率の例を示す。各時間フレームにおける第1音素事後確率の最大値は異なる。すなわち、図に示すように、女性1の発する音声から得られた第1音素事後確率の最大値と女性2の発する音声から得られた第1音素事後確率の最大値は異なる。このように、各時間フレームにおいて事後確率が揃えられていないことによって、複数の話者が発した音声を所定の話者(目標話者)の音声の音質に変換した際に音声の品質が劣化を招く要因となると考えられる。
The
そこで、本実施の形態では、音素変換部24で抽出された発話情報を正規化する処理を行う。例えば、時間フレーム毎の音素の事後確率の最大値が所定の一定値となるように正規化することが好適である。具体的には、時間フレーム毎に、各音素の事後確率を最大値で除算することによって時間フレーム毎の音素の最大値が1となるように正規化することができる。また、例えば、時間フレーム毎の音素の事後確率の平均値が所定の一定値となるように正規化することが好適である。また、例えば、時間フレーム毎の音素の事後確率の分散値が所定の一定値となるように正規化することが好適である。具体的には、時間フレーム毎に、各音素の事後確率Xに対してその平均値μ及び標準偏差σを用いて数式(1)の変換を適用して事後確率Yを算出することによって事後確率Yの平均値が0及び分散値が1となるように正規化することができる。
Therefore, in the present embodiment, the processing for normalizing the utterance information extracted by the
(数1)
Y=(X−μ)/σ・・・(1)
(Number 1)
Y = (X−μ) / σ ・ ・ ・ (1)
このように、正規化部26において第1音素事後確率を正規化して第2音素事後確率を算出することによって、話者によらず同じように正規化された第2音素事後確率を特徴量変換部28に入力することができる。すなわち、異なる話者間において事後確率分布を似通らせた第2音素事後確率に基づいて音声を生成することができる。
In this way, by normalizing the first phoneme posterior probability in the
特徴量変換部28は、抑揚抽出部22で得られた第1基本周波数F0の傾きΔF0及び音素変換部24で生成された発話情報を入力データとして目標話者の音声データを生成する処理を行う。すなわち、音声処理装置100の処理部10は、音素変換部24で生成された音素事後確率(PPG:Phonetic PosteriorGrams)又は音素(Phoneme)を含む発話情報及び第1基本周波数F0の傾きΔF0から音声データを再構築する処理を行うことによって特徴量変換部28として機能する。
The feature
なお、傾きΔF0以外に、平均値が0及び分散値が1となるように標準化された第1基本周波数F0や量子化された第1基本周波数F0を適用してもよい。量子化処理には、μ−lawといった既存の符号化アルゴリズムを用いてもよいし、第1基本周波数F0の累積密度関数に基づき分割されたものでもよい。また、動的な値を示す傾きΔF0に限らず、静的な値を示す第1基本周波数F0のみを用いてもよいし、または共に用いてもよい。 In addition to the slope ΔF0, a standardized first fundamental frequency F0 or a quantized first fundamental frequency F0 may be applied so that the average value is 0 and the variance value is 1. For the quantization process, an existing coding algorithm such as μ-law may be used, or the algorithm may be divided based on the cumulative density function of the first fundamental frequency F0. Further, the slope ΔF0 indicating a dynamic value is not limited, and only the first fundamental frequency F0 indicating a static value may be used, or both may be used.
処理部10は、第1基本周波数F0の傾きΔF0及び第2音素事後確率の時系列情報に基づいて目標話者の声質の音声データを生成するように機械学習を行って特徴量変換部28を構成する。例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)を適用して第1基本周波数F0の傾きΔF0及び第2音素事後確率の時系列情報を入力データとして目標話者の声質を有する音声の音声データを生成して出力する特徴量変換部28を構成する。畳み込みニューラルネットワークは、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現したものである。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用して特徴量変換部28を構成してもよい。また、特徴量変換部28には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。
The
また、上記参考文献1に記載の技術を適用して特徴量変換部28を構成してもよい。具体的には、参考文献1のテーブル1に記載の音声生成モデルのアーキテクチャを適用すればよい。
Further, the feature
学習に用いられる音声損失関数は、特徴量変換部28によって生成された音声データが目標話者の音声から生成された音声データであるか否かを示す真偽値(例えば、目標話者の音声データであれば1、目標話者の音声データでなければ0)であってもよいし、特徴量変換部28によって生成された音声データが目標話者の音声データである確からしさを示す尤度値であってもよい。
The voice loss function used for learning is a boolean value indicating whether or not the voice data generated by the feature
処理部10は、生成された音声データと目標話者の音声から予め抽出された音声データとを入力データとして、特徴量変換部28によって生成された音声データが目標話者の音声から抽出された音声データであるかを示す音声損失関数を用いて特徴量変換部28の機械学習を行う。音声損失関数の生成には、畳み込みニューラルネットワーク(Conv:Convolution Neural Network)を適用することができる。畳み込みニューラルネットワーク層は、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現した層である。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用してよい。また、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。また、音声損失関数としては、生成された特徴量と肉声から抽出した特徴量の誤差のL1ノルムまたはL2ノルムを用いることが好適である。また、GANを適用した場合、敵対損失関数は、最小二乗誤差に基づいてもよいし、シグモイド関数としてもよい。このとき、上記参考文献1のテーブル1に記載の話者認証モデルのアーキテクチャを適用してもよい。
The
なお、第2音素事後確率の時系列情報に基づいて生成された音声データ及び基本周波数F0の傾きΔF0又は第1基本周波数F0に基づいて生成された第2基本周波数F1を組み合わせて特徴量変換部28によって生成された音声データが目標話者からの音声から生成された音声データであるかを示す音声損失関数を出力する処理としたが、これに限定されるものではない。すなわち、第2音素事後確率の時系列情報に基づいて生成された音声データと目標話者からの音声から生成された音声データとの差から真偽値や尤度値を算出するようにしてもよい。そして、特徴量変換部28は、音声損失関数のフィードバックを受けて、当該音声損失関数を入力データの1つとして当該音声損失関数が小さくなるように第2音素事後確率の時系列情報に基づいて目標話者の声質に合わせた音声データを生成するように特徴量変換部28の機械学習を行うようにしてもよい。また、基本周波数F0の傾きΔF0又は第1基本周波数F0に基づいて生成された第2基本周波数F1と目標話者からの音声から得られた基本周波数F0との差から真偽値や尤度値を算出するようにしてもよい。そして、特徴量変換部28は、話者照合識別部32から出力された一致度を示す音声損失関数のフィードバックを受けて、当該音声損失関数を入力データの1つとして当該音声損失関数が小さくなるように第1基本周波数F0の傾きΔF0に基づいて目標話者の声質に合わせた第2基本周波数F1の情報を含む音声データを生成するように特徴量変換部28の機械学習を行うようにしてもよい。このように、第2音素事後確率の時系列情報から得られた音声データと第1基本周波数F0の傾きΔF0に基づいて目標話者の声質に合わせた第2基本周波数F1の情報を含む音声データを組み合わせて音声生成部30へ出力するようにしてもよい。
It should be noted that the feature quantity conversion unit is a combination of the voice data generated based on the time series information of the second phoneme posterior probability and the second fundamental frequency F1 generated based on the gradient ΔF0 of the fundamental frequency F0 or the first fundamental frequency F0. The process is defined as a process of outputting a voice loss function indicating whether the voice data generated by 28 is voice data generated from the voice from the target speaker, but the present invention is not limited to this. That is, even if the truth value or the likelihood value is calculated from the difference between the voice data generated based on the time series information of the second phoneme posterior probability and the voice data generated from the voice from the target speaker. good. Then, the feature
また、目標話者の音声の基本周波数に対して任意の話者の音声から抽出された第1基本周波数F0の傾きΔF0に基づいた変化量を加算することによって第2基本周波数F1を算術的に算出するようにしてもよい。また、傾きΔF0に代えて、平均値が0及び分散値が1となるように標準化された第1基本周波数F0や量子化された第1基本周波数F0を用いてもよい。量子化処理には、μ−lawといった既存の符号化アルゴリズムを用いてもよいし、第1基本周波数F0の累積密度関数に基づき分割されたものでもよい。また、動的な値を示す傾きΔF0に限らず、静的な値を示す第1基本周波数F0のみを用いてもよいし、または共に用いてもよい。そして、当該第2基本周波数F1を第2音素事後確率の時系列情報と共に特徴量変換部28へ入力データとして入力することによって目標話者の音声データを生成するようにしてもよい。
In addition, the second fundamental frequency F1 is arithmetically calculated by adding the amount of change based on the slope ΔF0 of the first fundamental frequency F0 extracted from the voice of an arbitrary speaker to the fundamental frequency of the target speaker's voice. It may be calculated. Further, instead of the slope ΔF0, a standardized first fundamental frequency F0 or a quantized first fundamental frequency F0 may be used so that the average value is 0 and the variance value is 1. For the quantization process, an existing coding algorithm such as μ-law may be used, or the algorithm may be divided based on the cumulative density function of the first fundamental frequency F0. Further, the slope ΔF0 indicating a dynamic value is not limited, and only the first fundamental frequency F0 indicating a static value may be used, or both may be used. Then, the voice data of the target speaker may be generated by inputting the second fundamental frequency F1 as input data to the feature
音声生成部30は、特徴量変換部28によって生成された音声データを音声に変換して出力する。特徴量変換部28は、話者照合識別部32との敵対的生成ネットワーク(GANs)によって音素変換部24において抽出された発話情報を目標話者の声質の音声データに変換するように学習されているので、音声生成部30で生成される音声は目標話者の声質をもつ音声となる。
The
以上のように、本実施の形態の音声処理装置100によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置及び音声処理プログラムを提供することができる。
As described above, according to the
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 音声分析部、22 抑揚抽出部、24 音素変換部、26 正規化部、28 特徴量変換部、30 音声生成部、100 音声処理装置、102 ネットワーク。
10 Processing unit, 12 Storage unit, 14 Input unit, 16 Output unit, 18 Communication unit, 20 Speech analysis unit, 22 Inflection extraction unit, 24 Phoneme conversion unit, 26 Normalization unit, 28 Feature quantity conversion unit, 30 Speech generation unit , 100 voice processors, 102 networks.
Claims (7)
第1音声を受ける第1ステップと、
前記第1音声に基づいて、第1音素事後確率を抽出する第2ステップと、
前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する第3ステップと、
前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する第4ステップと、
前記特徴量に基づいて第2音声を生成する第5ステップと、
を実行させることを特徴とする音声処理プログラム。 On the computer
The first step of receiving the first voice and
The second step of extracting the first phoneme posterior probability based on the first voice, and
The third step of generating the second phoneme posterior probability obtained by normalizing the first phoneme posterior probability for each hour,
The fourth step of generating the feature amount of the first voice based on the second phoneme posterior probability, and
The fifth step of generating the second voice based on the feature amount, and
A voice processing program characterized by executing.
前記第3ステップは、前記第1音素事後確率を時間毎に音素の確率の最大値、平均値及び分散値の少なくとも1つが一定値となるように前記第2音素事後確率を生成することを特徴とする音声処理プログラム。 The voice processing program according to claim 1.
The third step is characterized in that the second phoneme posterior probability is generated so that at least one of the maximum value, the average value, and the variance value of the phoneme probability becomes a constant value for the first phoneme posterior probability every hour. Voice processing program.
前記特徴量は、スペクトル包絡であることを特徴とする音声処理プログラム。 The voice processing program according to claim 1 or 2.
The feature quantity is a speech processing program characterized by being a spectral envelope.
前記第1音声から第1基本周波数を抽出する第6ステップを備え、
前記第4ステップは、前記第2音素事後確率及び前記第1基本周波数に基づいて前記特徴量を生成することを特徴とする音声処理プログラム。 The voice processing program according to any one of claims 1 to 3.
A sixth step of extracting the first fundamental frequency from the first voice is provided.
The fourth step is a speech processing program characterized in that the feature amount is generated based on the second phoneme posterior probability and the first fundamental frequency.
前記第1基本周波数の傾きに基づいて前記第1基本周波数から第2基本周波数を算出し、前記第2音素事後確率及び前記第2基本周波数に基づいて前記特徴量を生成することを特徴とする音声処理プログラム。 The voice processing program according to claim 4.
It is characterized in that a second fundamental frequency is calculated from the first fundamental frequency based on the gradient of the first fundamental frequency, and the feature amount is generated based on the second phoneme posterior probability and the second fundamental frequency. Voice processing program.
前記第1音声に基づいて、第1音素事後確率を抽出する音素事後確率抽出手段と、
前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する正規化手段と、
前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する特徴量生成手段と、
前記特徴量に基づいて第2音声を生成する音声生成手段と、
を備えることを特徴とする音声処理装置。 The voice acquisition means for receiving the first voice,
A phoneme posterior probability extraction means for extracting a first phoneme posterior probability based on the first voice,
A normalization means for generating a second phoneme posterior probability in which the first phoneme posterior probability is normalized for each hour,
A feature amount generating means for generating a feature amount of the first voice based on the second phoneme posterior probability, and a feature amount generating means.
A voice generation means for generating a second voice based on the feature amount,
A voice processing device characterized by being provided with.
前記第1音声に基づいて、第1音素事後確率を抽出する第2ステップと、
前記第1音素事後確率を時間毎に正規化した第2音素事後確率を生成する第3ステップと、
前記第2音素事後確率に基づいて前記第1音声の特徴量を生成する第4ステップと、
前記特徴量に基づいて第2音声を生成する第5ステップと、
を備えることを特徴とする音声処理方法。
The first step of receiving the first voice and
The second step of extracting the first phoneme posterior probability based on the first voice, and
The third step of generating the second phoneme posterior probability obtained by normalizing the first phoneme posterior probability for each hour,
The fourth step of generating the feature amount of the first voice based on the second phoneme posterior probability, and
The fifth step of generating the second voice based on the feature amount, and
A voice processing method characterized by comprising.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020097784A JP2021189402A (en) | 2020-06-04 | 2020-06-04 | Voice processing program, voice processing device and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020097784A JP2021189402A (en) | 2020-06-04 | 2020-06-04 | Voice processing program, voice processing device and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021189402A true JP2021189402A (en) | 2021-12-13 |
Family
ID=78849393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020097784A Pending JP2021189402A (en) | 2020-06-04 | 2020-06-04 | Voice processing program, voice processing device and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021189402A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102579130B1 (en) * | 2023-01-30 | 2023-09-18 | 주식회사 퍼즐에이아이 | System and method that support voice recognition and identity verification based on multi-path CTC alignment |
-
2020
- 2020-06-04 JP JP2020097784A patent/JP2021189402A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102579130B1 (en) * | 2023-01-30 | 2023-09-18 | 주식회사 퍼즐에이아이 | System and method that support voice recognition and identity verification based on multi-path CTC alignment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6989951B2 (en) | Speech chain device, computer program and DNN speech recognition / synthesis mutual learning method | |
JP6903611B2 (en) | Signal generators, signal generators, signal generators and programs | |
Lee et al. | Many-to-many voice conversion using conditional cycle-consistent adversarial networks | |
JP2020027193A (en) | Voice conversion learning device, voice conversion device, method, and program | |
WO2019116889A1 (en) | Signal processing device and method, learning device and method, and program | |
WO2019240228A1 (en) | Voice conversion learning device, voice conversion device, method, and program | |
WO2017146073A1 (en) | Voice quality conversion device, voice quality conversion method and program | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
JP7329393B2 (en) | Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program | |
WO2000022607A1 (en) | Learning device and method, recognizing device and method, and recording medium | |
JP7192882B2 (en) | Speech rhythm conversion device, model learning device, methods therefor, and program | |
JP3014177B2 (en) | Speaker adaptive speech recognition device | |
JP7360814B2 (en) | Audio processing device and audio processing program | |
JP2020140244A (en) | Data conversion leaning apparatus, data conversion apparatus, method and program | |
JP2021189402A (en) | Voice processing program, voice processing device and voice processing method | |
Sakamoto et al. | StarGAN-VC+ ASR: Stargan-based non-parallel voice conversion regularized by automatic speech recognition | |
JP2017194510A (en) | Acoustic model learning device, voice synthesis device, methods therefor and programs | |
CN114822497A (en) | Method, apparatus, device and medium for training speech synthesis model and speech synthesis | |
JP2005196020A (en) | Speech processing apparatus, method, and program | |
CN112951270A (en) | Voice fluency detection method and device and electronic equipment | |
JP6220733B2 (en) | Voice classification device, voice classification method, and program | |
WO2022101967A1 (en) | Voice signal conversion model learning device, voice signal conversion device, voice signal conversion model learning method, and program | |
JP2023171025A (en) | Training device, training method, and training program | |
JP2023005191A (en) | Voice processing learning program, voice processing learning device, voice processing learning method, voice processing program, voice processor and voice processing method | |
WO2022085197A1 (en) | Voice signal conversion model learning device, voice signal conversion device, voice signal conversion model learning method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230403 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240402 |