JP6864322B2 - Voice processing device, voice processing program and voice processing method - Google Patents

Voice processing device, voice processing program and voice processing method Download PDF

Info

Publication number
JP6864322B2
JP6864322B2 JP2018135609A JP2018135609A JP6864322B2 JP 6864322 B2 JP6864322 B2 JP 6864322B2 JP 2018135609 A JP2018135609 A JP 2018135609A JP 2018135609 A JP2018135609 A JP 2018135609A JP 6864322 B2 JP6864322 B2 JP 6864322B2
Authority
JP
Japan
Prior art keywords
data
speech
voice
style
mixing ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018135609A
Other languages
Japanese (ja)
Other versions
JP2020013008A (en
Inventor
大和 大谷
大和 大谷
悟行 松永
悟行 松永
平井 啓之
啓之 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Inc
Original Assignee
AI Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Inc filed Critical AI Inc
Priority to JP2018135609A priority Critical patent/JP6864322B2/en
Publication of JP2020013008A publication Critical patent/JP2020013008A/en
Application granted granted Critical
Publication of JP6864322B2 publication Critical patent/JP6864322B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音声処理装置、音声処理プログラムおよび音声処理方法に関し、特にたとえば、感情表現を伴って発話することができる、音声処理装置、音声処理プログラムおよび音声処理方法に関する。 The present invention relates to a voice processing device, a voice processing program and a voice processing method, and more particularly to a voice processing device, a voice processing program and a voice processing method capable of speaking with emotional expression.

この発明の背景となる音声合成装置の一例が、特許文献1に開示されている。特許文献1の技術は、ある発話者の発声スタイルや話者性を任意の制御則に基づいて変形可能な、ニューラルネットワークに基づく発話スタイル変換システムを提供することができる。 An example of a speech synthesizer that is the background of the present invention is disclosed in Patent Document 1. The technique of Patent Document 1 can provide a utterance style conversion system based on a neural network, which can transform the utterance style and speaker character of a certain speaker based on an arbitrary control law.

特開2017−32839号広報[G10L 13/06]Japanese Patent Application Laid-Open No. 2017-32839 [G10L 13/06]

特許文献1の技術では、音声合成用のニューラルネットワーク音響モデルの入力部に発話者の特徴を表した数値データを利用することで様々な話者性を再現しようとしているが、発話者の特徴データを変化させた際の内部の挙動を考慮して学習をしていないため、必ずしも所望の話者性を再現できる保証がない、という問題がある。 In the technique of Patent Document 1, various speaker characteristics are reproduced by using numerical data representing the characteristics of the speaker in the input unit of the neural network acoustic model for speech synthesis. Since the learning is not performed in consideration of the internal behavior when the above is changed, there is a problem that there is no guarantee that the desired speaker character can be reproduced.

それゆえに、この発明の主たる目的は、新規な、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。 Therefore, a main object of the present invention is to provide a novel voice processing device, a voice processing program and a voice processing method.

この発明の他の目的は、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。 Another object of the present invention is to provide a speech processing device, a speech processing program, and a speech processing method capable of optimally setting a change in the speech style of the output speech with respect to the input speech.

この発明の他の目的は、容易に所望の話者性を実現できる、音声処理装置、音声処理プログラムおよび音声処理方法を提供することである。 Another object of the present invention is to provide a voice processing device, a voice processing program, and a voice processing method that can easily realize a desired speaker character.

第1の発明は、平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパス、平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成部、平静の発話スタイル音声の特徴量データおよび第1混合割合を含む制御パラメータを含む入力データの学習データおよび平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の特徴量データから第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する学習データ生成部、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部を備える、音声処理装置である。 A first aspect of the present invention is undisturbed speech style voice and at least one speech corpus including the feature quantity data based on the audio data calm than the speech style voice, calm the speech style voice and at least one undisturbed other speech style voice control parameter generation unit for setting a control parameter including a first mixing ratio is mixing ratio, learning data and calm speech style of the input data including control parameters, including the feature amount data and the first mixing ratio of undisturbed speech style voice A training data generator that generates training data for output data including a conversion filter calculated by a control parameter that includes a first mixing ratio from voice and at least one non-quiet speech style voice feature data, and input data. It is a voice processing device including a learning unit that learns an input-output conversion model based on training data of training data and output data.

第1の発明では、音声処理装置(10:実施例において相当する部分を示す参照符号。以下、同様。)は、音声コーパス記憶部(20、101)に、平静音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスが記憶される。制御パラメータ生成部(S5、107)は、たとえば制御則記憶部(109)に設定されている制御則の定義域内において、平静音声と少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを生成する。学習データ生成部(S7、105)は、平静の発話スタイル音声の特徴量データおよび第1混合割合を含む制御パラメータを含む入力データの学習データおよび平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の特徴量データから第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する。そして、学習部(S9‐S15、111)が、入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する。 In the first invention, a voice processing device (10: a reference reference numeral indicating a corresponding portion in an embodiment; the same applies hereinafter) is used in a voice corpus storage unit (20, 101) other than a calm voice and at least one calm. A voice corpus including feature data based on the voice data of the speech style voice is stored. The control parameter generation unit (S5, 107) is, for example, a first mixing ratio of the calm voice and at least one non-quiet speech style voice within the definition area of the control law set in the control law storage unit (109). Generate control parameters including mixing ratio. The learning data generation unit (S7, 105) includes learning data of input data including feature data of calm utterance style voice and control parameters including a first mixing ratio, calm utterance style voice, and at least one non-quiet utterance. From the feature amount data of the style voice, the training data of the output data including the conversion filter calculated by the control parameter including the first mixing ratio is generated. Then, the learning unit (S9-S15, 111) learns the input-output conversion model based on the learning data of the input data and the learning data of the output data.

第1の発明によれば、感情音声(平静以外の発話スタイル音声)および平静のスタイル音声の音声データに基づいて学習する際に平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声を混合する割合を変更させることによって学習データを作成するので、変換モデルにおいて、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる。 According to the first invention, when learning based on the voice data of emotional speech (speech style speech other than calm) and calm style speech, the calm speech style speech and at least one non-calm speech style speech are mixed. Since the training data is created by changing the ratio of the speech, it is possible to optimally set the change of the utterance style in the output speech with respect to the input speech in the conversion model.

第2の発明は、第1の発明に従属し、音声コーパスは異なる複数の発話者のそれぞれについて平静音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含み、制御パラメータは複数の発話者の同一の発話スタイル音声に対する混合割合である第2混合割合を含み、学習データ生成部は発話スタイルおよび発話者のそれぞれの第1混合割合および第2混合割合を含む制御データに従って学習データを生成する、音声処理装置である。 The second invention is dependent on the first invention, the voice corpus contains feature data based on the voice data of a calm voice and at least one non-quiet speech style voice for each of the different speakers, control parameters. Includes a second mixing ratio, which is a mixing ratio of multiple speakers to the same speech style voice , and the learning data generator follows control data including the first mixing ratio and the second mixing ratio of the speaking style and the speaker, respectively. It is a voice processing device that generates training data.

第2の発明では、音声コーパス記憶部(20、101)に記憶される音声コーパスは、異なる複数の発話者のそれぞれについて平静音声および少なくとも1つの平静以外の発話スタイル音声の音声データの特徴量を含み、制御パラメータ生成部(S5、107)が生成する制御パラメータは複数の発話者の同一の発話スタイル音声の混合割合である第2混合割合を含む。そのため、学習データ生成部は発話スタイル発話者のそれぞれの混合割合を含む制御データに従って学習データを生成する。 In the second invention, the voice corpus stored in the voice corpus storage units (20, 101) provides features of voice data of calm voice and at least one non-quiet speech style voice for each of a plurality of different speakers. The control parameter generated by the control parameter generation unit (S5, 107) includes a second mixing ratio, which is a mixing ratio of the same speech style voice of a plurality of speakers. Therefore, the learning data generating unit generates the learning data according to the control data including the respective mixture ratio of the speech style and a speaker.

第2の発明によれば、複数の発話者のそれぞれの感情音声(平静以外の発話スタイル音声)を平静の発話スタイル音声の音声データに基づいて学習すれば、所望の話者性の出力音声を容易に出力することができる。 According to the second invention, if each emotional voice ( speech style voice other than calm) of a plurality of speakers is learned based on the voice data of the calm utterance style voice, the output voice of the desired speaker character can be obtained. It can be easily output.

第3の発明は、第1の発明または第2の発明の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する変換フィルタ予測部、および変換フィルタを用いて入力波形を変換する波形変換部を備える、音声処理装置。 The third invention is a conversion filter prediction unit that predicts a conversion filter using the input-output conversion model learned by the speech processing apparatus of the first invention or the second invention, and a conversion filter that converts an input waveform. A voice processing device including a waveform conversion unit.

第3の発明では、変換フィルタ予測部(S27、209)は、第1の発明または第2の発明の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する。波形変換部(S29、211)は、変換フィルタを用いて入力波形を変換する。 In the third invention, the conversion filter prediction unit (S27, 209) predicts the conversion filter using the input-output conversion model learned by the speech processing apparatus of the first invention or the second invention. The waveform conversion unit (S29, 211) converts the input waveform using the conversion filter.

第3の発明によれば、波形変換部からは、所望の発話スタイルおよび/または話者性の音声波形を出力することができる。 According to the third invention, a desired speech style and / or speaker-like voice waveform can be output from the waveform conversion unit.

第4の発明は、コンピュータによって実行され、平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理プログラムであって、コンピュータのプロセサを、平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成部、平静の発話スタイル音声の特徴量データおよび第1混合割合を含む制御パラメータを含む入力データの学習データおよび平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の特徴量データから第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する学習データ生成部、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部として機能させる、音声処理プログラムである。 A fourth invention is a computer processor that is executed by a computer and uses a voice corpus that includes feature data based on calm speech style voice and at least one non-quiet speech style voice voice data. A control parameter generator that sets a control parameter including a first mixing ratio, which is a mixing ratio of a calm speech style voice and at least one non- quiet speech style voice, a feature amount data of a calm speech style voice, and a first. training data and serenity of speech style voice input data including control parameters, including the mixing ratio with a conversion filter which is calculated by the control parameters including a first mixing ratio of the feature data of the at least one undisturbed other speech style voice It is a voice processing program that functions as a learning data generation unit that generates training data of the including output data, and a learning unit that learns an input-output conversion model based on the training data of the input data and the training data of the output data.

第5の発明は、コンピュータによって実行され、平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理方法であって、平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成ステップ、平静の発話スタイル音声の特徴量データおよび第1混合割合を含む制御パラメータを含む入力データの学習データおよび平静の発話スタイル音声と少なくとも1つの平静以外の発話スタイル音声の特徴量データから第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する学習データ生成ステップ、および入力データの学習データおよび出力データの学習データに基づいて入力‐出力変換モデルを学習する学習ステップを含む、音声処理方法である。 A fifth invention is a voice processing method executed by a computer and using a voice corpus containing feature data based on voice data of a calm speech style voice and at least one non-quiet speech style voice, wherein the calm speech is performed. Control parameter generation step to set the control parameter including the first mixing ratio which is the mixing ratio of the style voice and at least one non-quiet speech style voice, the control including the feature amount data of the calm speech style voice and the first mixing ratio. Training of input data including parameters and learning of output data including conversion filters calculated by control parameters including a first mixing ratio from feature data of calm speech style speech and at least one non-quiet speech style speech. It is a voice processing method including a learning data generation step for generating data and a learning step for learning an input-output conversion model based on training data of input data and training data of output data.

第4の発明または第5の発明によっても、第1の発明と同様の効果が期待できる。 The same effect as that of the first invention can be expected by the fourth invention or the fifth invention.

この発明によれば、同一発話者の異なる感情音声(発話スタイル音声)を平静音声とは別に録取し、それぞれの音声データに基づいて学習する際に発話スタイル音声を混合する割合を変更させることによって学習データを作成するので、変換モデルにおいて、出力音声における発話スタイルの入力音声に対する変化を最適に設定することができる。 According to the present invention, different emotional voices (speech style voices) of the same speaker are recorded separately from the calm voices, and the ratio of mixing the speech style voices when learning based on each voice data is changed. Since the training data is created by the above, the change of the utterance style in the output speech with respect to the input speech can be optimally set in the conversion model.

さらに、複数の発話者のそれぞれの感情音声(発話スタイル音声)を平静音声の音声データに基づいて学習すれば、所望の話者性の出力音声を容易に出力することができる。 Further, if the emotional voice (speech style voice) of each of the plurality of speakers is learned based on the voice data of the calm voice, the output voice of a desired speaker can be easily output.

この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above-mentioned objectives, other objectives, features and advantages of the present invention will become more apparent from the detailed description of the following examples made with reference to the drawings.

図1はこの発明の一実施例の音声処理装置の電気的な構成の一例を示すブロック図である。FIG. 1 is a block diagram showing an example of an electrical configuration of an audio processing device according to an embodiment of the present invention. 図2は図1実施例の音声コーパスの一例を示す図解図である。FIG. 2 is an illustrated diagram showing an example of the voice corpus of the embodiment of FIG. 図3は図1実施例のメモリのメモリマップの一例を示す図解図である。FIG. 3 is an illustrated diagram showing an example of a memory map of the memory of the embodiment of FIG. 図4は図1実施例の学習動作の一例を示すフロー図である。FIG. 4 is a flow chart showing an example of the learning operation of the embodiment of FIG. 図5は図4実施例に適用する学習パラメータの一例を示す図解図である。FIG. 5 is an illustrated diagram showing an example of learning parameters applied to the embodiment of FIG. 図6は図1実施例における図4のフロー図に相当する機能ブロック図である。FIG. 6 is a functional block diagram corresponding to the flow diagram of FIG. 4 in the embodiment of FIG. 図7は図1実施例における変換特性の一例を従来との比較で示すグラフである。FIG. 7 is a graph showing an example of conversion characteristics in the embodiment of FIG. 1 in comparison with the conventional one. 図8は図1実施例における出力動作の一例を示すフロー図である。FIG. 8 is a flow chart showing an example of the output operation in the embodiment of FIG. 図9は図1実施例における図8のフロー図に相当する機能ブロック図である。FIG. 9 is a functional block diagram corresponding to the flow diagram of FIG. 8 in the embodiment of FIG.

図1を参照して、この実施例の音声処理装置10は基本的には汎用コンピュータであり、CPU(プロセサ)12を備え、CPU12は、バス14を通して通信モジュール16に接続され、したがって、CPU12は、必要なとき、通信モジュール16を介して、ネットワーク(図示せず)に通信可能に接続される。 With reference to FIG. 1, the voice processing device 10 of this embodiment is basically a general-purpose computer, includes a CPU (processor) 12, the CPU 12 is connected to the communication module 16 through the bus 14, and therefore the CPU 12 , When necessary, is communicably connected to a network (not shown) via the communication module 16.

CPU12はまた、バス14を通してメモリ18およびHDD20にアクセスでき、HDD20やメモリ18に設定されているプログラムやデータ(後述)に従って、音声処理、たとえばディープニューラルネットワーク(DNN)に従った変換モデルを構築し、および/またはそのような変換モデルを利用して入力音声波形を出力音声波形に変換する。つまり、この実施例の音声処理装置10の音声出力機構は、波形接続型音声合成であり、発話スタイルに応じて収録した音声波形を、たとえば音素ごとに、接続しながら出力音声波形を生成する。 The CPU 12 can also access the memory 18 and the HDD 20 through the bus 14, and constructs a conversion model according to voice processing, for example, a deep neural network (DNN) according to the programs and data (described later) set in the HDD 20 and the memory 18. , And / or use such a conversion model to convert the input audio waveform to the output audio waveform. That is, the voice output mechanism of the voice processing device 10 of this embodiment is a waveform connection type voice synthesis, and generates an output voice waveform while connecting voice waveforms recorded according to the utterance style, for example, for each phoneme.

その出力音声波形は、CPU12から、適宜のインタフェース(図示せず)を介して、スピーカ22にアナログ音声信号として与えられる。したがって、入力音声を変換モデルで変換した出力音声がスピーカ22から出力される。 The output voice waveform is given to the speaker 22 as an analog voice signal from the CPU 12 via an appropriate interface (not shown). Therefore, the output voice obtained by converting the input voice by the conversion model is output from the speaker 22.

さらに、音声処理装置10は、たとえばLCDのようなディスプレイ23を備える。 Further, the audio processing device 10 includes a display 23 such as an LCD.

図1におけるHDD20は、データベースとして使用され、ここでは音声コーパス記憶部として機能する。ただし、HDDは大容量記憶装置の一例として便宜上挙げただけであり、USBのような他の半導体記憶装置や、光学記憶装置が用いられてもよい。 The HDD 20 in FIG. 1 is used as a database, and here functions as a voice corpus storage unit. However, the HDD is only given as an example of a large-capacity storage device for convenience, and another semiconductor storage device such as USB or an optical storage device may be used.

音声コーパス記憶部は、同一発話内容の発話スタイル音声および平静音声で構成される。発話スタイル音声は、「明るい」、「暗い」、「かわいい」などの声の印象や、「驚」、「怒」、「喜」などの人の感情を表した声質を持つ音声ことを指す。この実施例では、発話スタイルのうち「怒」、「悲」および「喜」の3つを採用した。発明者等の実験では、4名の発話者の音声を録取して、図2に示すようなコーパスを作成した。ただし、発話スタイル音声または平静音声のうち、同一発話がない場合には、合成音声から作成する。 The voice corpus storage unit is composed of a speech style voice and a calm voice having the same speech content. Speaking style voice refers to voice that has a voice impression such as "bright", "dark", and "cute", and a voice quality that expresses human emotions such as "surprise", "anger", and "joy". In this embodiment, three of the utterance styles, "angry", "sad" and "joy", were adopted. In the experiments of the inventors, the voices of four speakers were recorded to create a corpus as shown in FIG. However, if there is no same utterance among the utterance style voice and the calm voice, it is created from the synthetic voice.

生成するパラメータはスペクトル包絡、基本周波数、非同期指標、残差ベクトル、位相特徴量などや、それらの時間変動を表したデルタ成分に関するパラメータが挙げられる。そして、スペクトル包絡に関するパラメータの例としては、FFT(高速フーリエ変換)スペクトル、ケプストラム、メルケプトラム、線スペクトル対、メル線スペクトル対、メル一般化スペクトラム、自己符号化器の符号化成分などがある。 The parameters to be generated include the spectral envelope, the fundamental frequency, the asynchronous index, the residual vector, the phase feature, and the parameters related to the delta component representing their time variation. And examples of parameters related to spectrum envelope include FFT (Fast Fourier Transform) spectrum, cepstrum, melkeptrum, line spectrum pair, mel line spectrum pair, mel generalized spectrum, coding component of self-encoder and the like.

実施例では、メルケプトラム(人間の聴覚特性を考慮したケプストラム(音声のスペクトルをフーリエ変換したもの))を採用する。図2は、平静音声および発話スタイル音声の内の「怒」の発話スタイル音声をそれぞれ、たとえば5ms(1フレーム)毎に区切ってFFT)して作成したコーパスを示す。つまり、入力音声の1フレームに含まれる特徴量を示すデータをコーパスとして生成する。ただし、同一発話者の平静音声と各発話スタイル音声のパラメータは時間軸方向に整合している必要がある。 In the embodiment, a cepstrum (a cepstrum (Fourier-transformed voice spectrum) in consideration of human auditory characteristics) is adopted. FIG. 2 shows a corpus created by dividing the “angry” utterance-style voice among the calm voice and the utterance-style voice into, for example, every 5 ms (1 frame) and FFT). That is, data indicating the feature amount included in one frame of the input voice is generated as a corpus. However, the parameters of the calm voice of the same speaker and each utterance style voice must be consistent in the time axis direction.

図2において縦長の短冊が1つの特徴データを図解していて、平静音声の特徴データと各発話スタイル音声の特徴データはそれぞれマッチングが判断され、平静音声の特徴データと同じ発話スタイル音声の特徴データは、省略される。なお、この実施例では、後述のように、発話者IDを示すパラメータを平静音声の特徴データから計算することにしているため、平静音声の音声特徴データを省略することはない。 In FIG. 2, a vertically long strip illustrates one feature data, and matching is determined between the feature data of the calm voice and the feature data of each utterance style voice, and the feature data of the utterance style voice is the same as the feature data of the calm voice. Is omitted. In this embodiment, as will be described later, since the parameter indicating the speaker ID is calculated from the characteristic data of the quiet voice, the voice characteristic data of the quiet voice is not omitted.

実施例においては、このような、複数の発話者のそれぞれの平静音声と複数の発話スタイル音声を録取した音声コーパスを予め準備しておき、図4に示すモデル学習処理を実行し、変換(入力‐出力変換)モデルを構築し、それをたとえば図1に示すHDD20のような、モデル記憶部に格納する。 In the embodiment, a voice corpus in which the calm voices of the plurality of speakers and the voices of the plurality of utterance styles are recorded is prepared in advance, and the model learning process shown in FIG. 4 is executed and converted ( (Input-output conversion) model is constructed and stored in a model storage unit such as HDD 20 shown in FIG.

実施例では複数(たとえば4人)の発話者の、それぞれの平静音声と3つの発話スタイル音声の発話を用いて音声コーパスを作成した。しかしながら、発話者の数は1人でもよいし、発話スタイル音声の数は、1つ以上であればよいし、もっと多くてもよい。 In the embodiment, a voice corpus was created using the utterances of each of a plurality of (for example, four) speakers, each of which is a calm voice and three utterance style voices. However, the number of speakers may be one, and the number of speech-style voices may be one or more, or more.

図3に示すように、図1のメモリ18には、プログラム記憶部24およびデータ記憶部26が設けられる。 As shown in FIG. 3, the memory 18 of FIG. 1 is provided with a program storage unit 24 and a data storage unit 26.

プログラム記憶部24には、図4に示す学習処理のための学習プログラム24aおよび図8に示す出力変換処理のための変換プログラム24bが予め設定される。ただし、実施例の音声処理装置10が、モデル構築のためにだけ使用される場合には、学習プログラム24aだけが設定されていればよく、音声処理装置10が、出力音声変換のためにだけ使用される場合には、変換プログラム24bだけが設定されていればよい。 The learning program 24a for the learning process shown in FIG. 4 and the conversion program 24b for the output conversion process shown in FIG. 8 are preset in the program storage unit 24. However, when the voice processing device 10 of the embodiment is used only for model construction, only the learning program 24a needs to be set, and the voice processing device 10 is used only for output voice conversion. If so, only the conversion program 24b needs to be set.

データ記憶部26には、それぞれ後述するが、学習処理に使われる学習パラメータ、制御パラメータ、制御則および学習データをそれぞれ記憶するための学習パラメータ記憶領域26a、制御パラメータ記憶領域26b、制御則記憶領域26cおよび学習データ記憶領域26dが形成される。 Although will be described later, the data storage unit 26 has a learning parameter storage area 26a, a control parameter storage area 26b, and a control law storage area for storing learning parameters, control parameters, control rules, and learning data used in the learning process, respectively. 26c and the learning data storage area 26d are formed.

さらに、変換処理に使われる入力音声波形、入力パラメータおよび変換モデルをそれぞれ記憶する入力音声波形記憶領域26e、入力パラメータ記憶領域26fおよびモデル記憶領域26gが形成される。 Further, an input audio waveform storage area 26e, an input parameter storage area 26f, and a model storage area 26g for storing the input audio waveform, the input parameter, and the conversion model used for the conversion process are formed.

また、このデータ記憶領域26には、後述の学習の繰り返し回数iをカウントするためのカウンタ(図示せず)などの領域を含む。 Further, the data storage area 26 includes an area such as a counter (not shown) for counting the number of times i of learning to be repeated, which will be described later.

図4を参照して、学習処理の最初のステップS1では、図5に示すような学習用パラメータを生成する。つまり、CPU12(図1)が実行するステップS1は、学習用パラメータ生成部として機能する。 With reference to FIG. 4, in the first step S1 of the learning process, the learning parameters as shown in FIG. 5 are generated. That is, the step S1 executed by the CPU 12 (FIG. 1) functions as a learning parameter generation unit.

ここでの学習パラメータは、入力音声パラメータおよび出力音声パラメータを含む。ここで、入力音声パラメータは、図2に示す音声の特徴量のデータであり、音声コーパスである。発話スタイルは怒、悲、喜を示す。この学習用パラメータ生成部はさらに、入力発話者(実施例では4人)のID(識別記号)を表すパラメータおよび出力音声の発話スタイルのIDを表すパラメータを生成する。出力音声パラメータは、出力音声の発話スタイルのパラメータのことであり、出力音声の発話スタイル音声を示すパラメータである。 The learning parameters here include input voice parameters and output voice parameters. Here, the input voice parameter is the data of the feature amount of the voice shown in FIG. 2, and is a voice corpus. The speaking style shows anger, sadness, and joy. The learning parameter generation unit further generates a parameter representing the ID (identification symbol) of the input speaker (four people in the embodiment) and a parameter representing the ID of the utterance style of the output voice. The output voice parameter is a parameter of the utterance style of the output voice, and is a parameter indicating the utterance style voice of the output voice.

入力発話者のIDを表すパラメータは、当該発話者の平静音声の音声コーパスから計算したものを採用する。ただし、計算には、たとえばone hot(ワンホット)ベクトル、i-vectorのコンポーネント、主成分分析の主成分スコア(類似度、計算インデックス)、autoencoderのエンコード部の出力係数などの公知のものを採用することができるが、実施例では、主成分分析の主成分スコアを用いる。 As the parameter representing the ID of the input speaker, the parameter calculated from the voice corpus of the calm voice of the speaker is adopted. However, for the calculation, for example, one hot vector, i-vector component, principal component score (similarity, calculation index) of principal component analysis, output coefficient of the encoder of autoencoder, etc. are used. However, in the examples, the principal component score of the principal component analysis is used.

出力音声の発話スタイルのパラメータは、ワンホットベクトルや主成分分析の主成分スコアを想定できるが、実施例ではワンホットベクトルを用いる。 As the utterance style parameter of the output voice, the one-hot vector or the principal component score of the principal component analysis can be assumed, but in the embodiment, the one-hot vector is used.

次のステップS3において、メモリ18のデータ記憶領域26に形成しているカウンタi(図示せず)を初期化(i=1)する。これは、ステップS5以降の学習プロセスを繰り返した回数をカウントするためである。 In the next step S3, the counter i (not shown) formed in the data storage area 26 of the memory 18 is initialized (i = 1). This is to count the number of times the learning process after step S5 is repeated.

図4の次のステップS5では、制御パラメータを生成する。つまり、CPU1が実行するステップS5は制御パラメータ生成部として、機能する。制御パラメータは、この実施例の特徴の1つである、上記の3つの発話スタイル音声をどのような割合で混合するかを示す混合割合(第1混合割合)のパラメータである。このステップS5では、変換モデルを作成する毎に1つの設定ファイルとして、制御パラメータ生成条件を設定(記憶)しておく。 In the next step S5 of FIG. 4, a control parameter is generated. That is, the step S5 executed by the CPU 1 functions as a control parameter generation unit. The control parameter is a parameter of a mixing ratio (first mixing ratio) indicating the ratio of mixing the above three utterance style voices, which is one of the features of this embodiment. In this step S5, control parameter generation conditions are set (stored) as one setting file each time a conversion model is created.

制御パラメータを生成する条件としては、1度に生成するパラメータの数の他に、各制御パラメータを生成する方法(固定値または乱数)がある。1度に生成するパラメータの数は、一例として、上述の音声コーパス内の発話者数(実施例では、「4」)+発話スタイル数(実施例では、「3」)を用いる。 As a condition for generating control parameters, in addition to the number of parameters to be generated at one time, there is a method (fixed value or random number) for generating each control parameter. As an example, the number of speakers generated at one time is the number of speakers in the above-mentioned voice corpus (“4” in the example) + the number of utterance styles (“3” in the example).

制御パラメータの生成方法(制御則)は、上述の混合割合を固定値で設定するのか、あるいは乱数を用いて決めるのかを示すものである。固定値の場合、各パラメータを固定値で指定する。乱数で指定する場合、発話者用の乱数は「0」から「1」までの合計が「1」になる実数とし、発話スタイル用の乱数は「0」から「1」までの実数とする。前者は各発話者の割合(第2混合割合)を設定するものであるため、合計を「1」とする必要があるが、後者(第1混合割合)の場合そのような規制は必要ない。ただし、発話者の割合は固定値としておき、発話スタイルだけを乱数で変更するようにしてもよい。制御パラメータを生成するためのこのような制御則は、この音声処理装置10の設計者によって予め設定されているものである。 The control parameter generation method (control rule) indicates whether the above-mentioned mixing ratio is set with a fixed value or is determined by using a random number. For fixed values, specify each parameter with a fixed value. When specified by a random number, the random number for the speaker is a real number in which the total of "0" to "1" is "1", and the random number for the utterance style is a real number from "0" to "1". Since the former sets the ratio of each speaker (second mixing ratio), the total needs to be "1", but in the latter case (first mixing ratio), such regulation is not necessary. However, the ratio of speakers may be set to a fixed value, and only the utterance style may be changed by random numbers. Such control rules for generating control parameters are preset by the designer of the voice processing device 10.

そして、この制御パラメータ生成部では、このような生成条件に基づいて、混合割合を示す制御パラメータを生成し、制御パラメータ記憶部に記憶(設定)しておく。ただし、生成された制御パラメータは、上記制御パラメータ生成条件設定ファイルと紐付けされて記憶される。 Then, this control parameter generation unit generates a control parameter indicating the mixing ratio based on such a generation condition, and stores (sets) it in the control parameter storage unit. However, the generated control parameter is stored in association with the control parameter generation condition setting file.

続くステップS7では、CPU12は、ステップS5で生成された制御パラメータと、データ記憶領域26の制御則記憶領域26cから読み出した制御則に基づいて、学習データを生成する。つまり、CPU12が実行するステップS7は学習データ生成部として機能する。このステップS7では、制御則、制御パラメータ値に従って図5に示す学習用パラメータを変形して学習用データを生成する。 In the following step S7, the CPU 12 generates learning data based on the control parameters generated in step S5 and the control rule read from the control rule storage area 26c of the data storage area 26. That is, the step S7 executed by the CPU 12 functions as a learning data generation unit. In this step S7, the learning parameters shown in FIG. 5 are transformed according to the control law and the control parameter values to generate learning data.

学習データ生成部すなわちステップS7では、先に説明したように、制御パラメータおよび制御則に従って学習データを生成するのであるが、ここでは一例として、制御則が線形結合(直線的に制御する)である場合の学習データの生成過程を説明する。ただし、発話内容はすべて同一であると仮定している。 In the learning data generation unit, that is, step S7, as described above, the learning data is generated according to the control parameters and the control law, but here, as an example, the control law is a linear combination (control linearly). The process of generating the training data in the case will be described. However, it is assumed that all the utterances are the same.

数1は入力音声パラメータであり、たとえば25次元データである。 The number 1 is an input voice parameter, for example, 25-dimensional data.

Figure 0006864322
Figure 0006864322

ここで、vnはn番目の発話者のための制御パラメータ(第2混合割合)であり、xt (n)は当該n番目の発話者の平静音声を示す。 Here, v n is a control parameter (second mixing ratio) for the nth speaker, and x t (n) indicates the calm voice of the nth speaker.

数2は出力音声のパラメータであり,たとえば25次元データである。 Equation 2 is a parameter of the output voice, for example, 25-dimensional data.

Figure 0006864322
Figure 0006864322

ここで、umはm番目の発話スタイルのための制御パラメータ(第1混合割合)であり、yt (m)は当該m番目の発話スタイルを示すパラメータである。 Here, u m is a control parameter (first mixing ratio) for the m-th utterance style, and y t (m) is a parameter indicating the m-th utterance style.

数3は出力音声の発話スタイルのIDを示すパラメータであり、たとえば3次元ベクトルである。 Equation 3 is a parameter indicating the ID of the utterance style of the output voice, and is, for example, a three-dimensional vector.

Figure 0006864322
Figure 0006864322

ここで、enはn番目の発話スタイルのIDを示すパラメータである。 Here, e n is a parameter indicating an ID of the n-th speech style.

数4はn番目の発話者のIDを表すパラメータであり、たとえば3次元ベクトルである。 The number 4 is a parameter representing the ID of the nth speaker, and is, for example, a three-dimensional vector.

Figure 0006864322
Figure 0006864322

ここで、Snはn番目の発話者のIDを表すパラメータである。 Here, S n is a parameter representing the ID of the nth speaker.

この数1から数4の処理によって得られたデータの内、数5で表される31次元ベクトルを入力データの学習データとし、数6を出力データの学習データとして用いる。 Of the data obtained by the processes of Equations 1 to 4, the 31-dimensional vector represented by Equation 5 is used as the training data of the input data, and Equation 6 is used as the training data of the output data.

Figure 0006864322
Figure 0006864322

ここでTは転置を表す。 Where T represents transpose.

Figure 0006864322
Figure 0006864322

ここで、dtは出力データの学習データである。Here, dt is the learning data of the output data.

このようにして、ステップS7で、学習データを生成し、次のステップS9で、CPU12は、変換モデルを学習する。つまり、CPU12が実行するステップS9がモデル学習部として機能する。 In this way, in step S7, the training data is generated, and in the next step S9, the CPU 12 learns the conversion model. That is, step S9 executed by the CPU 12 functions as a model learning unit.

ただし、出力データの学習データとしては、数6のdtの代わりにこれを量子化したVQ(dt)を用いてもよい。 However, as the training data of the output data, VQ (d t ) obtained by quantizing this may be used instead of the d t of the equation 6.

ここで構築するモデルはディープニューラルネットワーク(DNN)を想定している。また、ネットワークの種類としては、フィードフォワードネットワーク、畳み込みネットワーク、リカレントネットワークを想定などがあるが、実施例では、フィードフォワードネットワークを採用した。 The model constructed here assumes a deep neural network (DNN). Further, as the type of network, a feedforward network, a convolutional network, a recurrent network, etc. are assumed, but in the embodiment, the feedforward network is adopted.

さらに、このステップS9でのモデル学習方法は、DNNで一般的に使われている確率的勾配法やこれに付随する正規化や学習率のスケジュール手法、敵対的学習を利用することができるものであり、その手法自体が特徴ではないので、ここではそれ以上の説明は省略する。 Further, the model learning method in step S9 can utilize the stochastic gradient descent method generally used in DNN, the normalization and learning rate scheduling method associated therewith, and hostile learning. Yes, the method itself is not a feature, so further explanation is omitted here.

次のステップS11で繰返し回数iをインクリメントし、続くステップS13で、CPU12は誤差(出力と同じフレーム予測との)が収束したかどうか判断する。そして、ステップS13で“YES”を判断したとき、この学習処理は終了する。 In the next step S11, the number of repetitions i is incremented, and in the following step S13, the CPU 12 determines whether or not the error (with the same frame prediction as the output) has converged. Then, when "YES" is determined in step S13, this learning process ends.

ただし、ステップS13で“NO”を判断したときには、ステップS15では、繰返し回数iが規定値に達したかどうか判断する。このステップS15で“NO”なら、プロセスは先のステップS5に戻って、上で説明したステップS5‐S13の処理を繰り返す。ステップS15で“YES”なら、そのまま学習処理を終了する。 However, when "NO" is determined in step S13, in step S15, it is determined whether or not the number of repetitions i has reached the specified value. If "NO" in this step S15, the process returns to the previous step S5 and repeats the process of steps S5-S13 described above. If "YES" in step S15, the learning process ends as it is.

この学習処理で学習した変換モデルは、図1のHDD20に、図2のような音声コーパスと紐付けされて、記憶される。ただし、後述の出力音声の変換処理に使うときには、データ記憶領域26のモデル記憶領域26g(図3)に記憶される。 The conversion model learned by this learning process is stored in the HDD 20 of FIG. 1 in association with the voice corpus as shown in FIG. However, when it is used for the conversion process of the output voice described later, it is stored in the model storage area 26g (FIG. 3) of the data storage area 26.

図6は、図4に示す各部を機能ブロック図として表現したものであり、音声コーパス記憶部101およびモデル記憶部113は、図1の実施例でいうとHDD20に相当する。制御則記憶部109は、図3の制御則記憶領域26cに相当する。 FIG. 6 shows each part shown in FIG. 4 as a functional block diagram, and the voice corpus storage unit 101 and the model storage unit 113 correspond to the HDD 20 in the embodiment of FIG. The control rule storage unit 109 corresponds to the control rule storage area 26c in FIG.

図4のステップS1が学習用パラメータ生成部103に相当し、ステップS5が制御パラメータ生成部107に相当し、ステップS7が学習データ生成部105に相当する。そして、ステップS9がモデル学習部111に相当する。 Step S1 of FIG. 4 corresponds to the learning parameter generation unit 103, step S5 corresponds to the control parameter generation unit 107, and step S7 corresponds to the learning data generation unit 105. Then, step S9 corresponds to the model learning unit 111.

図6のこれらの機能部103、105、107および111の動作は、対応する各ステップS1、S7、S5およびS9で説明した通りであり、ここでは重複する説明は省略する。 The operations of these functional units 103, 105, 107 and 111 in FIG. 6 are as described in the corresponding steps S1, S7, S5 and S9, and duplicate description will be omitted here.

上述の実施例においては、音声コーパスとして、複数(4人)の発話者のそれぞれ複数(4つ)の発話スタイルの音声データに基づく特徴量データを予め準備しておき、出力音声における複数の発話スタイルの混合割合である制御パラメータuおよびvを設定を用いて数1‐数6に従って学習データを生成するようにしたので、制御パラメータuおよびvを適宜設定することにより、図7の線Eで示すように、入力感情の重みに対する出力特徴量の感情の度合い(発話スタイル)を、たとえば直線的に変化するように設計することができる。したがって、出力音声の所望の発話スタイルを容易に設計することができる。これに対して、従来では、線Cで示すように、入力感情の重みに対する出力特徴量の感情の度合い(発話スタイル)が急激に変化してしまうので、出力音声の所望の発話スタイルを設計することは容易ではなかった。 In the above embodiment, as the voice corpus, feature amount data based on the voice data of a plurality of (4) utterance styles of each of a plurality of (4) speakers is prepared in advance, and a plurality of utterances in the output voice are prepared. since so as to generate training data in accordance with the number 1 6 with a set of control parameters u m and v n is the mixing ratio of styles, by appropriately setting the control parameter u m and v n, 7 As shown by the line E of, the degree of emotion (speech style) of the output feature amount with respect to the weight of the input emotion can be designed to change linearly, for example. Therefore, the desired utterance style of the output voice can be easily designed. On the other hand, conventionally, as shown by the line C, the emotional degree (utterance style) of the output feature amount with respect to the weight of the input emotion changes abruptly, so a desired utterance style of the output voice is designed. That was not easy.

ただし、上述の実施例では複数の発話者の複数の発話スタイルの音声データを含む音声コーパスを準備し、発話者の混合割合vnおよび発話スタイルの混合割合umを含む制御パラメータを用いて入力データの学習データ(数5)および出力データの学習データ(数6)を生成(ステップS7)し、その学習データを用いてステップS9で変換モデルを学習するようにした。しかしながら、発話スタイルの混合割合だけを含む制御パラメータを用いて学習データを生成するようにしてもよい。その場合には、発話スタイルの混合割合umだけを用いて数5の入力データの学習データおよび数6の出力データの学習データを生成することになるが、その場合でも出力音声における発話スタイルを設計することができる。 However, in the above embodiment, a voice corpus containing voice data of a plurality of utterance styles of a plurality of speakers is prepared, and input is performed using a control parameter including the speaker mixing ratio v n and the utterance style mixing ratio u m. Data training data (Equation 5) and output data training data (Equation 6) were generated (step S7), and the conversion model was trained in step S9 using the training data. However, the learning data may be generated using a control parameter that includes only the mixing ratio of the utterance styles. In that case, the training data of the input data of the number 5 and the training data of the output data of the number 6 are generated by using only the mixing ratio u m of the utterance style, but even in that case, the utterance style in the output voice is generated. Can be designed.

上述のようにして出力音声の変換モデルを学習することができ、この出力変換モデルをそのまま利用して、あるいは他の音声処理装置で構築した出力変換モデルを導入することによって、図8で示すように、入力音声データをその変換モデルに従って変換した出力音声を得ることができる。 The output voice conversion model can be learned as described above, and as shown in FIG. 8, the output conversion model can be used as it is, or by introducing an output conversion model constructed by another voice processing device. In addition, it is possible to obtain an output voice obtained by converting the input voice data according to the conversion model.

変換プログラム24b(図3)に従った、図8の最初のステップS21では、CPU12は、入力音声波形を取り込むとともに、ユーザが所望する出力音声の発話スタイルのパラメータuおよびvを取り込む。ステップS21を実行するCPU12は、波形、パラメータ入力部として機能する。取り込んだ入力波形は図3に示すメモリ18のデータ記憶領域26の入力音声波形記憶領域26eに記憶される。入力音声波形は、ユーザ自身の音声をそのまま波形信号として入力してもよいし、音声合成によって作成した音声の波形信号を入力するようにしてもよい。さらに、入力方法としては、リアルタイムにマイク(図示せず)などから入力する場合と、たとえばUSBのようなメモリからいっぺんに取り込む方法がある。 In the first step S21 of FIG. 8, according to the conversion program 24b (FIG. 3), the CPU 12 captures the input voice waveform and also captures the utterance style parameters u m and v n of the output voice desired by the user. The CPU 12 that executes step S21 functions as a waveform and parameter input unit. The captured input waveform is stored in the input voice waveform storage area 26e of the data storage area 26 of the memory 18 shown in FIG. As the input voice waveform, the user's own voice may be input as it is as a waveform signal, or the waveform signal of the voice created by voice synthesis may be input. Further, as an input method, there are a case of inputting from a microphone (not shown) in real time and a method of inputting from a memory such as USB at once.

また、発話スタイルのパラメータuおよびvの入力のためには、CPU12が図示しないUI(ユーザインタフェース)をディスプレイ23(図1)に表示して、ユーザからの入力を受け付けるようにしてもよいし、たとえば上述したUSBに入力音声波形とともに所望の発話スタイルのパラメータuおよびvも設定しておき、そのUSBから取り込むようにすることもできる。 Further, in order to input the utterance style parameters u m and v n , the CPU 12 may display a UI (user interface) (not shown) on the display 23 (FIG. 1) to accept input from the user. and, for example, the parameters u m and v n of the desired speech style together with the input voice waveform on the USB described above also may be set, it is also possible to capture from the USB.

続くステップS23では、先の図4のステップS5と同じような手法で、音声コーパスから音声パラメータ(図5)を生成するとともに、ステップS1と同じような手法で、発話者IDのパラメータSを生成する。ステップS23を実行するCPU12は、音声パラメータ生成部として機能する。 In step S23, in a similar manner as step S5 in the previous figures 4, it generates the speech parameters (FIG. 5) from the speech corpus, in a similar manner as step S1, the parameter S n of a speaker ID Generate. The CPU 12 that executes step S23 functions as a voice parameter generation unit.

次のステップS25では、図4のステップS7と同じような手法で、音声パラメータ、発話スタイルパラメータおよび発話者IDパラメータを結合した、数5のような入力パラメータを生成する。ステップS25を実行するCPU12は、入力パラメータ生成部として機能する。生成した入力パラメータは、図3に示すメモリ18のデータ記憶領域26の入力パラメータ記憶領域26fに記憶される。 In the next step S25, an input parameter such as Equation 5 is generated by combining the voice parameter, the utterance style parameter, and the speaker ID parameter by the same method as in step S7 of FIG. The CPU 12 that executes step S25 functions as an input parameter generation unit. The generated input parameters are stored in the input parameter storage area 26f of the data storage area 26 of the memory 18 shown in FIG.

そして、ステップS27で、先に獲得した変換モデルを使って、変換フィルタを予測する。ステップS27を実行するCPU12は、変換フィルタ予測部として機能する。 Then, in step S27, the conversion filter is predicted using the conversion model acquired earlier. The CPU 12 that executes step S27 functions as a conversion filter prediction unit.

ステップS29では、その変換フィルタを用いて、波形を変換して、スピーカ22(図1)に出力する。ステップS29を実行するCPU12は、波形変換、出力部として機能する。ただし、波形変換の方法としては、入力波形に対して畳み込みする方法、または入力波形を上述のような音声パラメータに分解した後にその変換フィルタを適用し、ボコーダを通じて波形を再編成する方法を適用する。 In step S29, the conversion filter is used to convert the waveform and output it to the speaker 22 (FIG. 1). The CPU 12 that executes step S29 functions as a waveform conversion and output unit. However, as a waveform conversion method, a method of convolving the input waveform or a method of decomposing the input waveform into the above-mentioned audio parameters, applying the conversion filter, and reorganizing the waveform through the vocoder is applied. ..

この実施例によれば、ステップS21でユーザが所望する発話スタイルのパラメータvおよびuを設定できるようにしているので、ユーザが所望する発話スタイルの出力音声を出力することができる。 According to this embodiment, since at step S21 the user is to set the parameters v n and u m of the desired speech style, it is possible to output the output sound from the speech style desired by the user.

図9は、図8に示す各ステップを機能ブロック図として表現したものであり、モデル記憶部26gは、図3のデータ記憶領域26に含まれる。図8のステップS21が波形、パラメータ入力部201に相当し、ステップS23が音声パラメータ生成部203に相当し、ステップS25が入力パラメータ生成部205に相当する。そして、テップS27が変換フィルタ予測部209に相当し、ステップS29が波形変換部211に相当する。 FIG. 9 shows each step shown in FIG. 8 as a functional block diagram, and the model storage unit 26g is included in the data storage area 26 of FIG. Step S21 in FIG. 8 corresponds to the waveform and parameter input unit 201, step S23 corresponds to the voice parameter generation unit 203, and step S25 corresponds to the input parameter generation unit 205. Then, Tep S27 corresponds to the conversion filter prediction unit 209, and step S29 corresponds to the waveform conversion unit 211.

ただし、図9のこれらの機能部201、203、205、209および111の動作は、対応する各ステップS21、S23、S25、S27およびS29で既に説明した通りであり、ここでは重複する説明は省略する。 However, the operations of these functional units 201, 203, 205, 209 and 111 in FIG. 9 are as already described in the corresponding steps S21, S23, S25, S27 and S29, and duplicate description is omitted here. To do.

10 …音声処理装置
12 …CPU
18 …メモリ
20 …HDD
22 …スピーカ
24 …プログラム記憶領域
26 …データ記憶領域
10 ... Voice processing device 12 ... CPU
18 ... Memory 20 ... HDD
22 ... Speaker 24 ... Program storage area 26 ... Data storage area

Claims (5)

平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパス、
前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成部、
前記平静の発話スタイル音声の特徴量データおよび前記第1混合割合を含む制御パラメータを含む入力データの学習データおよび前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の特徴量データから前記第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する学習データ生成部、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部を備える、音声処理装置。
A voice corpus containing feature data based on the voice data of a calm speech style speech and at least one non-quiet speech style speech,
A control parameter generator that sets a control parameter including a first mixing ratio, which is a mixing ratio of the calm utterance style voice and at least one non-quiet utterance style voice.
From the calm speech style speech feature data and the feature amount of the first input data including control parameters, including the mixing ratio learning data and the undisturbed speech style speech and said at least one undisturbed other speech style audio data A training data generator that generates training data for output data including a conversion filter calculated by a control parameter that includes the first mixing ratio , and input based on the training data for the input data and the training data for the output data. A voice processing device including a learning unit for learning an output conversion model.
前記音声コーパスは異なる複数の発話者のそれぞれについて前記平静の発話スタイル音声および前記少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含み、
前記制御パラメータは前記複数の発話者の同一の発話スタイル音声に対する混合割合である第2混合割合を含み、
前記学習データ生成部は前記発話スタイル前記発話者のそれぞれの第1混合割合および第2混合割合を含む制御データに従って前記学習データを生成する、請求項1記載の音声処理装置。
The speech corpus includes feature data based on the audio data of the undisturbed speech style voice and the at least one undisturbed except for the speech style speech for each of a plurality of different speakers,
The control parameter includes a second mixing ratio, which is a mixing ratio of the plurality of speakers to the same speech style voice.
The learning data generating unit generates the learning data and respective first mixing ratio and second mixing ratio of the speaker and the speech style in accordance including control data, the sound processing apparatus according to claim 1.
請求項1または請求項2の音声処理装置で学習した入力‐出力変換モデルを用いて変換フィルタを予測する変換フィルタ予測部、および
前記変換フィルタを用いて入力波形を変換する波形変換部を備える、音声処理装置。
A conversion filter prediction unit that predicts a conversion filter using the input-output conversion model learned by the speech processing device of claim 1 or 2, and a waveform conversion unit that converts an input waveform using the conversion filter are provided. Voice processing device.
コンピュータによって実行され、平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理プログラムであって、前記コンピュータのプロセサを、
前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成部、
前記平静の発話スタイル音声の特徴量データおよび前記第1混合割合を含む制御パラメータを含む入力データの学習データおよび前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の特徴量データから前記第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力データの学習データを生成する学習データ生成部、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習部として機能させる、音声処理プログラム。
A voice processing program that is executed by a computer and uses a voice corpus that includes feature data based on the voice data of a calm speech style speech and at least one non-quiet speech style speech, the processor of the computer.
A control parameter generator that sets a control parameter including a first mixing ratio, which is a mixing ratio of the calm utterance style voice and at least one non-quiet utterance style voice.
From the calm speech style speech feature data and the feature amount of the first input data including control parameters, including the mixing ratio learning data and the undisturbed speech style speech and said at least one undisturbed other speech style audio data A training data generator that generates training data for output data including a conversion filter calculated by a control parameter that includes the first mixing ratio , and input based on the training data for the input data and the training data for the output data. A voice processing program that functions as a learning unit for learning an output conversion model.
コンピュータによって実行され、平静の発話スタイル音声および少なくとも1つの平静以外の発話スタイル音声の音声データに基づく特徴量データを含む音声コーパスを用いる音声処理方法であって、
前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の混合割合である第1混合割合を含む制御パラメータを設定する制御パラメータ生成ステップ、
前記平静の発話スタイル音声の特徴量データおよび前記第1混合割合を含む制御パラメータを含む入力データの学習データおよび前記平静の発話スタイル音声と前記少なくとも1つの平静以外の発話スタイル音声の特徴量データから前記第1の混合割合を含む制御パラメータによって計算される変換フィルタを含む出力の学習データを生成する学習データ生成ステップ、および
前記入力データの学習データおよび前記出力データの学習データに基づいて入力‐出力変換モデルを学習する学習ステップを含む、音声処理方法。
A speech processing method that is performed by a computer and uses a speech corpus that contains feature data based on speech data of calm speech style speech and at least one non-quiet speech style speech.
A control parameter generation step of setting a control parameter including a first mixing ratio, which is a mixing ratio of the calm utterance style voice and the at least one non-quiet utterance style voice.
From the calm speech style speech feature data and the feature amount of the first input data including control parameters, including the mixing ratio learning data and the undisturbed speech style speech and said at least one undisturbed other speech style audio data A training data generation step that generates training data for output including a conversion filter calculated by a control parameter that includes the first mixing ratio , and input-output based on the training data for the input data and the training data for the output data. A voice processing method that includes learning steps to train a transformation model.
JP2018135609A 2018-07-19 2018-07-19 Voice processing device, voice processing program and voice processing method Active JP6864322B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018135609A JP6864322B2 (en) 2018-07-19 2018-07-19 Voice processing device, voice processing program and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018135609A JP6864322B2 (en) 2018-07-19 2018-07-19 Voice processing device, voice processing program and voice processing method

Publications (2)

Publication Number Publication Date
JP2020013008A JP2020013008A (en) 2020-01-23
JP6864322B2 true JP6864322B2 (en) 2021-04-28

Family

ID=69169582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018135609A Active JP6864322B2 (en) 2018-07-19 2018-07-19 Voice processing device, voice processing program and voice processing method

Country Status (1)

Country Link
JP (1) JP6864322B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023017582A1 (en) * 2021-08-11 2023-02-16 日本電信電話株式会社 Voice generation method, voice generation device, and voice generation program
WO2023238339A1 (en) * 2022-06-09 2023-12-14 日本電信電話株式会社 Sound generation method, sound generation device, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription

Also Published As

Publication number Publication date
JP2020013008A (en) 2020-01-23

Similar Documents

Publication Publication Date Title
US10186252B1 (en) Text to speech synthesis using deep neural network with constant unit length spectrogram
WO2020215666A1 (en) Speech synthesis method and apparatus, computer device, and storage medium
JP2022107032A (en) Text-to-speech synthesis method using machine learning, device and computer-readable storage medium
CN111276120B (en) Speech synthesis method, apparatus and computer-readable storage medium
JP4125362B2 (en) Speech synthesizer
JP7228998B2 (en) speech synthesizer and program
JP3660937B2 (en) Speech synthesis method and speech synthesis apparatus
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
DE202017106303U1 (en) Determine phonetic relationships
JPWO2018159612A1 (en) Voice conversion device, voice conversion method and program
CN111968618A (en) Speech synthesis method and device
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
KR102272554B1 (en) Method and system of text to multiple speech
CN112599113A (en) Dialect voice synthesis method and device, electronic equipment and readable storage medium
JP6864322B2 (en) Voice processing device, voice processing program and voice processing method
CN112820268A (en) Personalized voice conversion training method and device, computer equipment and storage medium
Přibil et al. GMM-based speaker gender and age classification after voice conversion
KR20190135853A (en) Method and system of text to multiple speech
JP2016151736A (en) Speech processing device and program
WO2015025788A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
RU2754920C1 (en) Method for speech synthesis with transmission of accurate intonation of the cloned sample
CN114464163A (en) Method, device, equipment, storage medium and product for training speech synthesis model
JP7339151B2 (en) Speech synthesizer, speech synthesis program and speech synthesis method
JP7357518B2 (en) Speech synthesis device and program
TW200935399A (en) Chinese-speech phonologic transformation system and method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210325

R150 Certificate of patent or registration of utility model

Ref document number: 6864322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250