JP6741051B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents
情報処理方法、情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP6741051B2 JP6741051B2 JP2018169304A JP2018169304A JP6741051B2 JP 6741051 B2 JP6741051 B2 JP 6741051B2 JP 2018169304 A JP2018169304 A JP 2018169304A JP 2018169304 A JP2018169304 A JP 2018169304A JP 6741051 B2 JP6741051 B2 JP 6741051B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- neural network
- data
- frequency
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 50
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 188
- 238000000034 method Methods 0.000 claims description 90
- 238000012545 processing Methods 0.000 claims description 72
- 238000004148 unit process Methods 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 description 65
- 239000013598 vector Substances 0.000 description 51
- 238000006243 chemical reaction Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 20
- 230000001537 neural effect Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/08—Instruments in which the tones are synthesised from a data store, e.g. computer organs by calculating functions or polynomial approximations to evaluate amplitudes at successive sample points of a tone waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/221—Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
- G10H2250/225—MDCT [Modified discrete cosine transform], i.e. based on a DCT of overlapping data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
Description
1.1 発明の好適な態様
本発明の好適な態様は、
単位時間毎に1個以上のベクトルを入力し1個以上のベクトルを出力する主ニューラルネットワークと、
前記単位時間毎に、主ニューラルネットワークの出力を入力の一部もしくは全部として、一般の系列データの当該時刻における、周波数成分ベクトルの一つ以上の要素値もしくはその要素値の確率分布もしくはその確率分布を表現するパラメタ群を出力する一つ以上の副ニューラルネットワークとを備え、
それら副ニューラルネットワーク群のうちの少なくとも一つが、当該時刻における副ニューラルネットワーク群のうち少なくとも一つの計算によって得られた値に依存して当該時刻の値を出力するように構成されたニューラルネットワーク
である。
(1)周波数成分ベクトルとして、離散コサイン変換(DCT; Discrete Cosine Transform)の係数によって成るベクトルを利用する形態。
(2)周波数成分ベクトルとして、離散サイン変換(DST; Discrete Sine Transform)の係数によって成るベクトルを利用する形態。
(3)周波数成分ベクトルとして、修正離散コサイン変換(MDCT; Modified Discrete Cosine Transform)の係数によって成るベクトルを利用する形態。
(4)周波数成分ベクトルとして、レート変換フィルタバンクの一時刻における出力に相当するベクトルを利用する形態。
(5)高い周波数に対応する係数が、低い周波数に対応する係数の計算によって得られた値に依存して出力される形態。
(6)主ニューラルネットワークが大規模であり、各副ニューラルネットワークが小規模あるいは学習可能な係数をもたない関数である形態。
(7)各副ニューラルネットワークの規模が、それぞれに対応する周波数成分に対して要求される精度に基づいて異なるものとする形態。
(8)特に、高い周波数成分に対応する副ニューラルネットワークほど規模を小さくする形態。
(9)係数の確率分布を出力する形態。
(10)特に、その確率分布の表現方法を、各周波数成分の統計的性質に基づいて異なるものとする形態。
(11)特に、その確率分布から係数値を得る方法を、各周波数成分の性質に基づいて異なるものとする形態。
2.1 ハードウェア構成
図1は、本発明の好適な形態に係る情報処理装置100の構成を例示するブロック図である。図1に例示される通り、本実施形態の情報処理装置100は、制御装置11と記憶装置12と放音装置13とを具備するコンピュータシステムである。例えば携帯電話機、スマートフォンまたはパーソナルコンピュータ等の情報端末が、情報処理装置100として好適に利用される。
図3は、記憶装置12に記憶されたプログラムを制御装置11が実行することで実現される情報処理部22の具体的な構成を例示するブロック図である。図3に例示される通り、本実施形態の情報処理部22は、第1処理部31と第2処理部32とを含んで構成される。第1処理部31は、時間軸上の複数の単位ステップの各々において第1処理を実行する。第1処理は、第1データxの代替表現を表す中間データqを生成する処理である。第1処理には、第1データxと中間データqとの関係を学習した1個の主ニューラルネットワークM(主NN)が利用される。中間データqは、第1データxの特徴量(特に第1データxと第2データyとの関係に寄与する特徴量)を表す特徴量ベクトルである。主ニューラルネットワークMは、第1ニューラルネットワークの例示である。
推論において、主ニューラルネットワークMは、単位ステップ毎に中間データqを出力する。各副ニューラルネットワークQnは、第2データyのN個の成分値y1〜yNのうち一つ以上の成分値yn毎に、その値もしくはその値の確率分布もしくはその確率分布を表現するパラメタ群を出力する。ここで、N個の副ニューラルネットワークQ1〜QNのうち少なくとも一つは、少なくとも一つの他の副ニューラルネットワークQnによる計算で算定された成分値ynに依存して当該単位ステップの成分値ynを出力する。各副ニューラルネットワークQnが確率分布pnを出力する場合は、その分布に従う擬似乱数を生成することで、目標とする成分値ynを得る。
図5は、学習の手順を例示するフローチャートである。主ニューラルネットワークMとN個の副ニューラルネットワークQ1〜QNは同時に学習させることが可能である。学習において、主ニューラルネットワークMには推論時の入力として想定される第1データxを入力する。図3に示した構成のように、N個の副ニューラルネットワークQ1〜QNのうち一つ以上が、他の副ニューラルネットワークQnの出力によって得られた成分値ynを入力の一部とする場合、当該成分値ynの正解値と主ニューラルネットワークMが生成した中間データqとを当該副ニューラルネットワークの入力とする。図3に示した構成とは異なり、副ニューラルネットワークQとしてRNNやLSTMのように計算の結果を内部状態に記憶して次回の計算に用いる種のニューラルネットワークを用いる場合には、各単位ステップについて用意された第2データyの正解値を、当該副ニューラルネットワークQが推論すべき第2データyの正解値として用いる。以上のように第1データxと第2データyの正解値とが組になるように用意した学習データを多数用いて誤差逆伝播法を適用することで、ニューラルネットワーク群を学習させることができる。すなわち、誤差逆伝播法によりニューラルネットワークの全体の係数Kが反復的に更新される。前述の通り、学習による更新後の係数Kが記憶装置12に記憶される。誤差逆伝播法により最小化する対象は、各副ニューラルネットワークQnが第2データyの一つ以上の成分値ynそのものを出力する場合には例えば正解値との2乗平均誤差、確率分布pnを出力する場合には例えば当該確率分布pnに対する正解値の対数尤度の符号を反転したものを用いることができる。
本実施形態では、時間領域の一般の系列データ(すなわち、時間軸上の相異なる時点に対応する複数のデータの時系列)と周波数領域の第2データyとが相互に変換できることを利用する。このような変換には大きく分けて二つの方法があり、一つは周波数基底に対する係数への変換およびその逆変換を用いる方法であり、もう一つはフィルタバンクを用いる方法である。
周波数基底に対応する係数が、第2データyの各成分値ynとして好適である。周波数基底の選び方には任意性があり、また一般の系列データを複数の周波数基底に対する係数からなるベクトルに変換もしくはその逆の変換をする方法は多数ある。例えば離散フーリエ変換(DFT; Discrete Fourier Transform)、離散コサイン変換(DCT; Discrete Cosine Transform)、離散サイン変換(DST; Discrete Sine Transform)、ウェーブレット変換、定Q変換などである。DFTでは複素正弦関数、DCTでは余弦関数、離散サイン変換では正弦関数が基底となり、ウェーブレット変換や定Q変換では特定の要件を満たす任意の基底が用いられる。なお、離散時間上の系列データに対してこの種の変換を考えるとき、基底の選び方と変換方法は必ずしも一対一に対応しない。例えばDCTには境界条件やその他の前提条件の設定方法に応じて多くの種類があり、これらの変換によって系列データから得られる係数は何れも余弦関数を基底とする係数であるにも関わらず、それぞれ異なった値となる。基底は直交基底に限らず、例えばウェーブレット変換や定Q変換を利用する場合には非直交基底も取り得る。何れの変換においても基底は一般の系列データの周波数成分に関係する。ただし、ここでいう周波数とはフーリエ変換の基底である複素正弦関数における周波数に限定せず、時間軸方向への基底の拡大縮小を制御する数一般を指す。
第2データyの各成分値yn(周波数成分)の別の一種として、系列データに対するレート変換フィルタバンク出力値がある。フィルタバンクとは、種々の通過周波数域をもつフィルタの集合体であり、系列データの間引きまたは内挿を伴うフィルタバンクをここではレート変換フィルタバンクとよぶ。さらに間引きを伴うフィルタバンクを分析フィルタバンク、内挿を伴うフィルタバンクを合成フィルタバンクとよぶ。一般の系列データに分析フィルタバンクを適用すると、各周波数帯域のフィルタ出力値がもとの系列データよりも低いサンプリング周波数で出力され(ダウンサンプリング)、各出力時刻における各周波数帯域のフィルタ出力値をベクトルとして構成すれば、本実施形態における第2データy(周波数成分ベクトル)として用いることができる。分析フィルタバンクが出力した系列データに合成フィルタバンクを適用すると、もとの系列データと同一もしくはほぼ同一の系列データが、もとの系列データのサンプリング周波数で出力される。
3.1 計算量の削減
本実施形態において出力系列データはフレーム単位のベクトル系列であって主ニューラルネットワークMはこのフレームの単位ステップ毎に計算される。したがって、主ニューラルネットワークMの規模を大きく、副ニューラルネットワークQnの規模を十分に小さくした本実施形態によれば、例えばWaveNetにおいて本実施形態の主ニューラルネットワークMと同規模のニューラルネットワークを用いてオーディオサンプルなどの系列データを直接推論するよりも計算量が小さくなる。
有限長の系列データを扱うニューラルネットワークにおいて、単位時間あたりの出力値の推論に利用できる入力系列の長さを受容野とよぶ。目標とする時系列データの、継時的な変動構造を正確に反映した推論を実現するためには、その構造が表されるのに十分な長さの受容野が必要である。
ニューラルネットワークにおいては、出力として期待する値が本来連続的なものであっても、量子化して取り得る値の何れかを出力する構成にする方が誤差の小さい推論が可能になる場合がある。WaveNetでは、音声波形をmu-law量子化して扱うことが提案されている。ただしこのとき、ニューラルネットワークの推論の誤差に加えて、量子化による誤差が発生する。一般に時系列データを直接量子化するよりも、いったん周波数領域の第2データyに変換してそれを量子化してから再度時系列データに変換する方が誤差が小さくなる。例えば音声や画像などの信号においては、この方法で量子化された信号は、直接量子化された信号に比べて誤差が知覚されにくい。この傾向から、最終的に時系列データを得るためには、本実施形態のように周波数基底係数を量子化したものに対するニューラルネットワークを利用する方が、WaveNetのように時系列データを直接量子化したものに対するニューラルネットワークを利用するよりも、量子化によって加わる誤差が知覚されにくい。
系列データには、周波数帯域毎に異なる特性をもつものがある。例えば人間の音声はおおよそ4kHz以下の周波数帯域にエネルギーの大部分が集中しており、これより高い周波数域で急激にエネルギーが小さくなる。また4kHz以下では概ね周期的な経時変動をするのに対して、それ以上の周波数帯域では非周期的な経時変動をする傾向がある。また4kHzより高い周波数帯域においては、人間の聴覚による感度が徐々に低下する。
スカラ値であるオーディオサンプルの時系列のみを対象としたWaveNetや、ベクトルの時系列を対象とするものの次元間の関係性をもった推論ができないNPSSと異なり、本実施形態はベクトルの次元間の関係性とそのベクトルの時系列構造または空間系列構造の双方を同時に加味した推論が可能であるので、より一般のベクトル系列データに対して直ちに応用が可能である。
4.1 ニューラルボコーダとしての実施例
4.1.1 概要
主に振幅スペクトルに関係する低次元の音声の特徴量を入力として、それに対応する波形を出力するニューラルネットワークが、ニューラルボコーダと呼ばれている。ニューラルボコーダに入力される音声の特徴量は、例えばメルケプストラムの低次係数と基本周波数情報との組み合わせやメルスペクトログラムなどである。これらの特徴量は、公知の変換技術によって、例えばテキスト情報をもとに生成される。そのような変換技術とニューラルボコーダとを組み合わせれば、情報処理装置100は、テキスト情報から音声波形を得る音声合成システムとして機能する。なお、振幅スペクトルは位相の情報をもたないため、これを低次元表現に圧縮した特徴量も、逆フーリエ変換などの簡単な関数では波形に変換できない。そこでニューラルボコーダでは、このような関数の代わりに、現実に生起する音声特徴量と波形との組みを事前に学習したニューラルネットワークを用意し、そのニューラルネットワークを用いて振幅スペクトルに関係する特徴量を波形に変換する。
学習に用いる音声の任意の時間範囲における第2データyの正解値とそれに対応する入力データDin(特徴量ベクトルの系列データ)とを入力とし、入力とした時間範囲の次の単位ステップにおけるMDCT係数ベクトルを最終的な出力の目標値としてニューラルネットワーク全体を学習する。実際に各副ニューラルネットワークQnが出力するのはMDCTの各基底に対する係数に対する確率分布であるので、この確率分布に対する目標値の対数尤度関数の符号を反転した値を最小化するように誤差逆伝搬法を適用することで、ニューラルネットワーク全体がもつ重み係数Kを更新する。学習に用いる多数の音声に対してこの手順を繰り返すことで、ニューラルネットワーク全体が持つ重み係数Kは徐々に最適化される。前述の通り、学習による更新後の係数Kが記憶装置12に記憶される。
本実施形態のニューラルネットワークを、各時刻の直前における出力ベクトルを最新の入力値とするように自己回帰的に用いれば、所望の時間範囲(以下「合成範囲」という)にわたる目標とする音声の入力データDin(特徴量ベクトル)に対応する第2データyを得ることができ、それに対して逆MDCTを適用すれば目標とする音声の波形を得ることができる。より具体的には以下の手順を実行すればよい。
[手順2]制御装置11は、主ニューラルネットワークMが出力する中間データqを、最低周波数域(n=1)のMDCT係数に対応する副ニューラルネットワークQ1に入力し、当該帯域のMDCT係数の確率分布を得る。手順2は、図4のステップSb1_1に相当する。
[手順3]前の手順で得られた確率分布に従う擬似乱数を生成することで、当該帯域のMDCT係数ynを得る。手順3は、図4のステップSbn_2に相当する。
[手順4]制御装置11は、主ニューラルネットワークMが出力する中間データqと、前の手順までに推論された低周波数域のMDCT係数ynのうち1つ以上とを別の副ニューラルネットワークQnに入力し、当該MDCT係数の確率分布を得る。手順3は、図4のステップSbn_1に相当する。
[手順5]当該単位ステップのMDCT係数の全てに対して手順4および手順3が反復されることで、、MDCT係数ベクトルyが生成される。
[手順6]制御装置11は、以上の手順で得られたMDCT係数ベクトルを当該単位ステップの最終的な出力値として出力するとともに、これを第2データyの最新の単位ステップの値として記録する。
[手順7]制御装置11は、処理対象となる単位ステップを1個進め、直前の1以上の単位ステップについて出力された1以上の第2データyと、目標とする音声の特徴を表す入力データDinとを含む第1データxを主ニューラルネットワークMに入力する。
[手順8]制御装置11は、手順7,2〜6を、合成範囲内の音声の合成に十分な回数にわたり繰り返す。
[手順9]制御装置11は、第2データyの時系列に対して逆MDCTを適用することで、合成範囲内の音声波形を得る。手順9で得られた音声波形を表す音響信号Aが放音装置13に供給される。音響信号Aに対応する音が放音装置13から放音される。手順9は、図4のステップScに相当する。
前記ニューラルボコーダで用いた音声に対応する特徴量ベクトルの代わりに、離散化した音素シンボルの系列データを入力データDinとして用いたり、さらに高度な例ではアルファベットまたは漢字などの一般的な書き文字の系列データを入力データDinとして用いることで、音素シンボルまたは書き文字に対応する音声を生成する、より直接的な音声合成器として実施することが可能である。
入力オーディオ信号に対応するMDCT係数ベクトル系列データに、任意の変換(例えばピッチチェンジャーまたはマルチバンドコンプレッサー等)を加えて、出力オーディオ信号に対応するMDCT係数ベクトル系列データを得る。前記ニューラルボコーダで用いた音声に対応する特徴量ベクトルの代わりに、その変換の性質に関する情報を与えて学習および推論する。本実施例の場合、出力ベクトルを入力として回帰せず、代わりに、入力オーディオ信号に対応するMDCT係数ベクトル系列データを入力とすることでも実施が可能である。
前述の形態に係る情報処理装置100の機能は、コンピュータ(例えば制御装置11)とプログラムとの協働により実現される。本発明の好適な態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。
以上に例示した形態から、例えば以下の構成が把握される。なお、各態様の理解を容易にするために、以下の記載では、前述の形態で使用した符号を便宜的に括弧書で併記するが、本発明を、前述の形態の限定する趣旨ではない。
本発明の第1態様に係る情報処理方法は、時間軸上の複数の単位ステップの各々において、第1データ(x)から当該第1データ(x)の代替表現を表す中間データ(q)を第1ニューラルネットワーク(主NN)により生成する第1処理と、複数の周波数にそれぞれ対応する複数の成分値(y1〜yN)を含む第2データ(y)を前記中間データ(q)から生成する第2処理とを実行し、前記第2処理は、前記複数の成分値をそれぞれ生成する複数の単位処理を含み、前記複数の単位処理の各々は、前記中間データ(q)が入力される第2ニューラルネットワーク(副NN)による推定を含み、前記複数の単位処理のうち第1周波数に対応する第1成分値(yn1)を生成する第1単位処理においては、前記第1単位処理とは相違する第2単位処理により前記第1周波数以外の第2周波数について生成された第2成分値(yn2)または当該第2単位処理の過程で生成される中間値が、前記中間データ(q)とともに前記第2ニューラルネットワーク(副NN)に入力される。
第1態様の好適例(第2態様)において、前記複数の単位処理のうち第1周波数に対応する第1成分値(yn1)を生成する第1単位処理においては、前記第2単位処理を含む2以上の単位処理により生成された2以上の成分値、または当該2以上の単位処理の過程で生成される中間値が、前記中間データ(q)とともに前記第2ニューラルネットワーク(副NN)に入力される。
第1態様の好適例(第3態様)において、前記複数の単位処理は、N個の単位処理であり、第n番目(n=2〜N)の単位処理では、第1番目から第(n−1)番目の単位処理により生成された(n−1)個の成分値、または当該各単位処理の過程で生成される中間値が、前記中間データ(q)とともに前記第2ニューラルネットワーク(副NN)に入力される。
第1態様から第3態様の何れかの好適例(第4態様)において、前記成分値は、離散コサイン変換(DCT)または離散サイン変換(DST)の係数に相当する。
第1態様から第3態様の何れかの好適例(第5態様)において、前記成分値は、修正離散コサイン変換(MDCT)の係数に相当する。
第1態様から第3態様の何れかの好適例(第6態様)において、前記成分値は、前記複数の成分値にそれぞれ対応し、ダウンサンプリングを伴う複数のフィルタを含むフィルタバンクの出力値に相当する。
第1態様から第6態様の何れかの好適例(第7態様)において、前記第2周波数は前記第1周波数を下回る。
第7態様の好適例(第8態様)において、前記複数の単位処理の各々は、相異なる第2ニューラルネットワークによる推定を含み、前記第2周波数に対応する前記第2ニューラルネットワークの規模は、前記第1周波数に対応する前記第2ニューラルネットワークの規模よりも大きい。なお、ニューラルネットワークの規模とは、例えば層数、1層内のノード数またはチャネル数である。また、畳み込みニューラルネットワークにおいては、畳み込みに適用されるカーネルのサイズも、当該ニューラルネットワークの規模として観念される。
第1態様から第8態様の何れかの好適例(第9態様)において、前記第2ニューラルネットワークの規模は、前記第1ニューラルネットワークの規模よりも小さい。
Claims (16)
- 時間軸上の複数の単位ステップの各々において、
第1データから当該第1データの代替表現を表す中間データを第1ニューラルネットワークにより生成する第1処理と、
複数の周波数にそれぞれ対応する複数の成分値を含む第2データを前記中間データから生成する第2処理と
を実行する、コンピュータにより実現される情報処理方法であって、
前記第2処理は、前記複数の成分値をそれぞれ生成する複数の単位処理を含み、
前記複数の単位処理の各々は、前記中間データが入力される第2ニューラルネットワークによる推定を含み、
前記複数の単位処理のうち第1周波数に対応する第1成分値を生成する第1単位処理においては、前記第1単位処理とは相違する第2単位処理により前記第1周波数以外の第2周波数について生成された第2成分値または当該第2単位処理の過程で生成される中間値と、前記中間データとが、前記第2ニューラルネットワークに入力される、
情報処理方法。 - 前記第1単位処理においては、前記第2単位処理を含む2以上の単位処理により生成された2以上の成分値、または当該2以上の単位処理の過程で生成される2以上の中間値が、前記中間データとともに前記第2ニューラルネットワークに入力される
請求項1の情報処理方法。 - 前記複数の単位ステップの各々において、前記第2単位処理は、前記第1単位処理の実行前に実行される
請求項1の情報処理方法。 - 前記複数の単位ステップの各々において、前記2以上の単位処理は、前記第1単位処理の実行前に実行される
請求項2の情報処理方法。 - 前記成分値は、離散コサイン変換または離散サイン変換の係数である
請求項1から請求項4の何れかの情報処理方法。 - 前記成分値は、修正離散コサイン変換の係数である
請求項1から請求項4の何れかの情報処理方法。 - 前記成分値は、ダウンサンプリングフィルタを含むフィルタバンクの出力値である
請求項1から請求項4の何れかの情報処理方法。 - 前記第2周波数は前記第1周波数を下回る
請求項1から請求項6の何れかの情報処理方法。 - 前記第2ニューラルネットワークは、前記複数の単位処理にそれぞれ対応する複数の副ニューラルネットワークを含み、
前記複数の単位処理の各々は、当該単位処理に対応する副ニューラルネットワークによる推定を含む
請求項1から請求項8の何れかの情報処理方法。 - 前記第2周波数に対応する前記副ニューラルネットワークの規模は、前記第1周波数に対応する前記副ニューラルネットワークの規模よりも大きい
請求項9の情報処理方法。 - 前記第2ニューラルネットワークは、ひとつのニューラルネットワークであり、
前記複数の単位処理の各々は、前記第2ニューラルネットワークによる推定を含む
請求項1から請求項8の何れかの情報処理方法。 - 前記第2ニューラルネットワークの規模は、前記第1ニューラルネットワークの規模よりも小さい
請求項1から請求項8の何れかの情報処理方法。 - 前記第2データの時系列から、波形を表す信号を生成する
請求項1から請求項12の何れかの情報処理方法。 - 第1データから当該第1データの代替表現を表す中間データを第1ニューラルネットワークにより生成する第1処理を実行する第1処理部と、
複数の周波数にそれぞれ対応する複数の成分値を含む第2データを前記中間データから生成する第2処理を実行する第2処理部とを具備する情報処理装置であって、
前記第1処理および前記第2処理は、時間軸上の複数の単位ステップの各々において実行され、
前記第2処理は、前記複数の成分値をそれぞれ生成する複数の単位処理を含み、
前記複数の単位処理の各々は、前記中間データが入力される第2ニューラルネットワークによる推定を含み、
前記複数の単位処理のうち第1周波数に対応する第1成分値を生成する第1単位処理においては、前記第1単位処理とは相違する第2単位処理により前記第1周波数以外の第2周波数について生成された第2成分値または当該第2単位処理の過程で生成される中間値と、前記中間データとが、前記第2ニューラルネットワークに入力される、
情報処理装置。 - 前記第2データの時系列から、波形を表す信号を生成する波形生成部
を具備する請求項14の情報処理装置。 - 第1データから当該第1データの代替表現を表す中間データを第1ニューラルネットワークにより生成する第1処理と、
複数の周波数にそれぞれ対応する複数の成分値を含む第2データを前記中間データから生成する第2処理と
をコンピュータに実行させるプログラムであって、
前記第1処理および前記第2処理は、時間軸上の複数の単位ステップの各々において実行され、
前記第2処理は、前記複数の成分値をそれぞれ生成する複数の単位処理を含み、
前記複数の単位処理の各々は、前記中間データが入力される第2ニューラルネットワークによる推定を含み、
前記複数の単位処理のうち第1周波数に対応する第1成分値を生成する第1単位処理においては、前記第1単位処理とは相違する第2単位処理により前記第1周波数以外の第2周波数について生成された第2成分値または当該第2単位処理の過程で生成される中間値と、前記中間データとが、前記第2ニューラルネットワークに入力される、
プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19847694.7A EP3836027A4 (en) | 2018-08-10 | 2019-08-08 | METHOD AND APPARATUS FOR GENERATION OF FREQUENCY COMPONENT VECTOR OF TIME SERIES DATA |
CN201980052374.9A CN112534444B (zh) | 2018-08-10 | 2019-08-08 | 信息处理方法及信息处理装置 |
PCT/JP2019/031380 WO2020032177A1 (ja) | 2018-08-10 | 2019-08-08 | 時系列データの周波数成分ベクトルを生成する方法及び装置 |
US17/171,453 US20210166128A1 (en) | 2018-08-10 | 2021-02-09 | Computer-implemented method and device for generating frequency component vector of time-series data |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018151748 | 2018-08-10 | ||
JP2018151748 | 2018-08-10 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020125440A Division JP7103390B2 (ja) | 2018-08-10 | 2020-07-22 | 音響信号生成方法、音響信号生成装置およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020027245A JP2020027245A (ja) | 2020-02-20 |
JP2020027245A5 JP2020027245A5 (ja) | 2020-05-07 |
JP6741051B2 true JP6741051B2 (ja) | 2020-08-19 |
Family
ID=69620126
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018169304A Active JP6741051B2 (ja) | 2018-08-10 | 2018-09-11 | 情報処理方法、情報処理装置およびプログラム |
JP2020125440A Active JP7103390B2 (ja) | 2018-08-10 | 2020-07-22 | 音響信号生成方法、音響信号生成装置およびプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020125440A Active JP7103390B2 (ja) | 2018-08-10 | 2020-07-22 | 音響信号生成方法、音響信号生成装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210166128A1 (ja) |
JP (2) | JP6741051B2 (ja) |
CN (1) | CN112534444B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023042377A1 (ja) * | 2021-09-17 | 2023-03-23 | 日本電信電話株式会社 | 学習装置、変換装置、学習方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3548230B2 (ja) * | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JPH0993135A (ja) * | 1995-09-26 | 1997-04-04 | Victor Co Of Japan Ltd | 発声音データの符号化装置及び復号化装置 |
KR101315075B1 (ko) * | 2005-02-10 | 2013-10-08 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 사운드 합성 |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP5817250B2 (ja) * | 2011-06-27 | 2015-11-18 | 富士通株式会社 | ニューラルネットワーク設計方法及びプログラム |
JP6628350B2 (ja) * | 2015-05-11 | 2020-01-08 | 国立研究開発法人情報通信研究機構 | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 |
DE112016006218B4 (de) | 2016-02-15 | 2022-02-10 | Mitsubishi Electric Corporation | Schallsignal-Verbesserungsvorrichtung |
US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
-
2018
- 2018-09-11 JP JP2018169304A patent/JP6741051B2/ja active Active
-
2019
- 2019-08-08 CN CN201980052374.9A patent/CN112534444B/zh active Active
-
2020
- 2020-07-22 JP JP2020125440A patent/JP7103390B2/ja active Active
-
2021
- 2021-02-09 US US17/171,453 patent/US20210166128A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7103390B2 (ja) | 2022-07-20 |
CN112534444A (zh) | 2021-03-19 |
JP2020194558A (ja) | 2020-12-03 |
CN112534444B (zh) | 2024-09-10 |
US20210166128A1 (en) | 2021-06-03 |
JP2020027245A (ja) | 2020-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7213913B2 (ja) | ニューラルネットワークを使用したオーディオの生成 | |
Wang et al. | Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis | |
WO2022017040A1 (zh) | 语音合成方法及系统 | |
Saito et al. | Specmurt analysis of polyphonic music signals | |
Wu et al. | Quasi-periodic WaveNet: An autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network | |
US11735197B2 (en) | Machine-learned differentiable digital signal processing | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
Yoneyama et al. | Unified source-filter GAN: Unified source-filter network based on factorization of quasi-periodic parallel WaveGAN | |
Wu et al. | Quasi-periodic WaveNet vocoder: A pitch dependent dilated convolution model for parametric speech generation | |
JP2024129003A (ja) | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル | |
JP6741051B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
WO2020032177A1 (ja) | 時系列データの周波数成分ベクトルを生成する方法及び装置 | |
WO2021104189A1 (zh) | 一种高采样率语音波形生成方法、装置、设备及存储介质 | |
WO2021033685A1 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
JP7120573B2 (ja) | 推定装置、その方法、およびプログラム | |
Yoneyama et al. | High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks | |
RU2823017C1 (ru) | Неконтролируемое восстановление голоса с использованием модели безусловной диффузии без учителя | |
JP2010197596A (ja) | 信号解析装置、信号解析方法、プログラム、及び記録媒体 | |
WO2024184745A1 (en) | Unsupervised voice restoration with unconditional diffusion model | |
JP2021033129A (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
Zhang et al. | Iterative Noisy-Target Approach: Speech Enhancement Without Clean Speech | |
CN113160849A (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
Lependin et al. | Speech Enhancement Based on Two-Stage Neural Network with Structured State Space for Sequence Transformation | |
Iqbal et al. | Speech enhancement using deep complex convolutional neural network (DCCNN) model | |
WO2024086012A1 (en) | End-to-end general audio synthesis with generative networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200323 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200323 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200323 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200618 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200623 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200706 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6741051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |