JP7209275B2 - オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム - Google Patents

オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム Download PDF

Info

Publication number
JP7209275B2
JP7209275B2 JP2018158152A JP2018158152A JP7209275B2 JP 7209275 B2 JP7209275 B2 JP 7209275B2 JP 2018158152 A JP2018158152 A JP 2018158152A JP 2018158152 A JP2018158152 A JP 2018158152A JP 7209275 B2 JP7209275 B2 JP 7209275B2
Authority
JP
Japan
Prior art keywords
subband
processing
data
signal
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018158152A
Other languages
English (en)
Other versions
JP2019045856A (ja
Inventor
拓磨 岡本
健太郎 橘
智基 戸田
芳則 志賀
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to US16/117,002 priority Critical patent/US20190066657A1/en
Publication of JP2019045856A publication Critical patent/JP2019045856A/ja
Application granted granted Critical
Publication of JP7209275B2 publication Critical patent/JP7209275B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオデータ処理技術に関する。特に、ニューラルネットワーク型波形直接生成モデルを用いたオーディオデータ処理技術に関する。
テキスト音声合成技術において、素片を合成する技術よりも制御が容易である統計的音声合成技術が主流であったが、統計的音声合成技術では、コンテキストラベルから音響モデルへの変換でのモデル誤差や、音響モデルから音声波形へ変換するボコーダの分析誤差や様々な仮定や近似を行うことに起因して、統計的音声合成技術により取得される合成音声の音質には改善の余地があった。統計的音声合成技術よりも高音質化を実現する技術として、近年、ニューラルネットワーク型波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)が登場し注目されている(例えば、非特許文献1、2を参照)。
このような波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)は、当該波形直接生成モデルにより生成した過去の波形サンプルデータとコンテキストラベルデータとを入力し処理することで次の波形データを生成するニューラルネットワークによる処理を行う。そのため、波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、音響モデルの推定やボコーダが不要であり、従来の統計的音声合成技術よりも高音質な音声合成処理を実現することができる。また、波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、波形(オーディオ信号波形)そのものの値を用いて処理するのではなく、μ-law圧縮を適用し、波形(オーディオ信号波形)を例えば256個の離散値のいずれか1つの値をとるものとして扱う。これにより、波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、波形(オーディオ信号波形)を上記の離散値のいずれかに分類する分類問題とみなすことができる。そして、波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、当該分類問題に最適解を与えるようにニューラルネットワークを用いて学習することで、学習済み波形直接生成モデルを取得する。そして、波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、取得した学習済み波形直接生成モデルにより、波形(オーディオ信号波形)を処理することで、従来の統計的音声合成技術よりも高音質な音声合成処理(オーディオ信号処理)を実現することができる。
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WaveNet: A generative model for raw audio," arXiv preprint arXiv:1609.03499, Sept. 2016. S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. Courville, and Y. Bengio, "SampleRNN: An unconditional end-to-end neural audio generation model," in Proc. ICLR, Apr. 2017.
しかしながら、上記の波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、当該波形直接生成モデルにより生成した過去の波形サンプルデータが次の波形データを予測するために必要であり、サンプルごとに複雑なニューラルネットワーク演算が必要となる。その結果、上記の波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では並列処理を行うことが困難であり、音声合成処理に莫大な時間を要するという問題がある。また、上記の波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、時系列の波形データ(オーディオ信号)を用いて、当該波形データ(オーディオ信号)のS/N比が最大となるように学習される。このため、上記の波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)では、周波数領域において、取得される波形データ(オーディオ信号)の誤差は全周波数に対して均一となる。このため、上記の波形直接生成モデルを用いた音声合成技術(オーディオデータ処理技術)を使った場合、高周波数領域ではランダム性が大きくなり、結果として取得される波形データ(オーディオ信号)において音質劣化が生ずるという問題がある。
そこで本発明は、上記問題点に鑑み、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ学習装置、オーディオデータ推論装置、およびプログラムを実現することを目的とする。
上記課題を解決するための第1の発明(請求項1に対応)は、サブバンド分割部と、ダウンサンプリング処理部と、サブバンド学習モデル部と、を備えるオーディオデータ学習装置である。
サブバンド分割部は、オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得する。
ダウンサンプリング処理部は、サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、サブバンド信号に対してダウンサンプリング処理を実行する。
サブバンド学習モデル部は、補助入力データと、ダウンサンプリング処理部により取得されたサブバンド信号とを用いて波形直接生成モデルの学習を行う。
このオーディオデータ学習装置では、オーディオデータ(例えば、フルバンドの波形データ)をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部によりモデルの学習(最適化)を行うことができる。サブバンド学習モデル部では、例えば、N個のモデル(第1サブバンド学習モデル~第Nサブバンド学習モデル)により並列にサブバンド信号を用いたモデルの学習(最適化)を行うことができる。すなわち、このオーディオデータ学習装置では、波形直接生成モデルの学習(最適化)を並列処理により実現することができる。
なお、「オーディオデータ」とは、音声データ、音楽データ、オーディオ信号のデータ等を含む概念である。
また、サブバンド学習モデル部において、補助入力データは省略してもよい。
また、「波形直接生成モデル」とは、学習用データとして、オーディオ信号の信号波形のデータを入力し、当該信号波形の過去の複数のサンプルデータ(例えば、現時刻をtとすると、時刻0から時刻t-1までの全てのサンプルデータ(x(0)~x(t-1)))から、現時刻tのデータ(例えば、x(t))を取得するモデルである。
また、第1の発明において、オーディオデータのサンプリング周波数をfsとし、オーディオデータの全周波数帯域幅をfs/2とすると、サブバンド分割部は、対象周波数領域幅Δfを
Δf=fs/(2N)
N:自然数
としたとき、設定した対象周波数領域幅Δfにおいて、ゲインが-1dB以上である周波数領域がΔf/2以下であるフィルタ特性を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行して、サブバンド信号を取得してもよい。
これにより、このオーディオデータ学習装置では、強制的に周波数的な「色」が付けられた(周波数特性が平坦ではない)サブバンド信号、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。
第2の発明は、第1の発明であって、サブバンド分割部は、N個(N:自然数)のサブバンド信号を、第1サブバンド信号x_sub、・・・、第kサブバンド信号x_sub(k:自然数、1≦k≦N)、・・・、第Nサブバンド信号x_subとして取得する。
ダウンサンプリング処理部は、第1サブバンド信号x_sub、・・・、第kサブバンド信号x_sub(k:自然数、1≦k≦N)、・・・、第Nサブバンド信号x_subに対してダウンサンプリング処理を実行することで取得された信号を、それぞれ、第1ダウンサンプリング・サブバンド信号x_d、・・・、第kダウンサンプリング・サブバンド信号x_d、・・・、第Nダウンサンプリング・サブバンド信号x_dとして取得する。
サブバンド学習モデル部は、N個のサブバンド学習モデルである、第1サブバンド学習モデル~第Nサブバンド学習モデルを用いた処理を実行する。
第kサブバンド学習モデル(k:自然数、1≦k≦N)は、補助入力データと、第kダウンサンプリング・サブバンド信号x_dとを入力とする。
N個のサブバンド学習モデルのうち、少なくとも1つは、位相補償用サブバンド学習モデルであり、第mサブバンド学習モデル(m:自然数、1≦m≦N)が位相補償用サブバンド学習モデルであるものとし、自然数mとは異なる自然数をn(n:自然数、1≦n≦N、n≠m)とすると、第mサブバンド学習モデルは、(1)補助入力データと、(2)第mダウンサンプリング・サブバンド信号x_dと、(3)第nダウンサンプリング・サブバンド信号x_dとを入力する。
このオーディオデータ学習方法では、N個のサブバンド学習モデルのうち、少なくとも1つは、位相補償用サブバンド学習モデルであり、他のサブバンド学習モデル用のダウンサンプリング・サブバンド信号を入力して、学習処理を実行するため、適切な位相補償を実現できる。つまり、このオーディオデータ学習方法では、複数帯域入力型の構成により、適切な位相補償を実現できるので、このオーディオデータ学習方法を用いたオーディオデータ処理システムでは、さらに高品質なオーディオデータを取得することができる。
第2の発明を以下のように変形し、第1変形例の発明としてもよい。
第1変形例の発明は、第2の発明であって、サブバンド学習モデルは、複数層からなるニューラルネットワークによるモデルである。
サブバンド学習モデルの入力層である第1層は、補助入力データと、第kダウンサンプリング・サブバンド信号x_dとを入力とする。
そして、サブバンド学習モデルの入力層である第1層は、補助入力データ用変換部と、サブバンド信号用変換部と、1×1コンボリューション処理部と、重み付け加算部と、活性化処理部と、を備える。
補助入力データ用変換部は、補助入力データを2L-1個(L:自然数)のサンプルからなる2組のデータh1とh1とに変換する。
サブバンド信号用変換部は、第kダウンサンプリング・サブバンド信号x_dを2L-1個のサンプルからなる2組のデータx1とx1とに変換する。
1×1コンボリューション処理部は、データh1、h1、x1、x1に対して、1×1コンボリューション処理を実行し、処理後のデータを、それぞれ、データh、h、x、xとして取得する。
重み付け加算部は、データh、h、x、xに対して
z=(W×x+W×x)+(V×h+V×h
:重み行列
:重み行列
:重み行列
:重み行列
に相当する処理を実行し、データzを取得する。
活性化処理部は、データzに対して、
out_L=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層の出力データout_Lを取得する。
そして、サブバンド学習モデルの第K+1層(K:自然数)は、第K層からの出力データout_Lを入力する。
サブバンド学習モデルの第K+1層(K:自然数)は、データ変換部と、1×1コンボリューション処理部と、重み付け加算部と、第K+1層活性化処理部と、を備える。
データ変換部は、第K層からの出力データout_Lを2L-K-1個(L:自然数)のサンプルからなる2組のデータx’1とx’1とに変換する。
1×1コンボリューション処理部は、データx’1、x’1に対して、1×1コンボリューション処理を実行し、処理後のデータを、それぞれ、データx’、x’として取得する。
重み付け加算部は、データx’、x’に対して
z’=W’×x’+W’×x’
W’:重み行列
W’:重み行列
に相当する処理を実行し、データz’を取得する。
第K+1層活性化処理部は、データz’に対して、
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層の出力データout_LK+1を取得する。
これにより、このオーディオデータ学習方法では、FFTNetによるモデルを用いた処理(学習処理)を実行することができる。
第1変形例の発明を以下のように変形し、第2変形例の発明としてもよい。
第2変形例の発明は、第1変形例の発明であって、サブバンド学習モデルの第1層は、重み付け加算部から出力されるデータzと、活性化処理部から出力されるout_Lとを含むデータを生成し、生成したデータを、第1層の出力データとして、出力する。
これにより、このオーディオデータ学習方法では、サブバンド学習モデルの第1層において、残差接続(Residual connection)を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。
これにより、このオーディオデータ学習方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
第1変形例の発明を以下のように変形し、第3変形例の発明としてもよい。
第3変形例の発明は、第1変形例の発明であって、サブバンド学習モデルの第K+1層は、重み付け加算部から出力されるデータz’と、第K+1層活性化処理部から出力されるout_LK+1とを含むデータを生成し、生成したデータを、第K+1層の出力データとして、出力する。
これにより、このオーディオデータ学習方法では、サブバンド学習モデルの第K+1層において、残差接続(Residual connection)を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。
これにより、このオーディオデータ学習方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
第3の発明は、第1の発明であって、オーディオデータに対して時不変ノイズシェーピング法により取得したフィルタ処理を実行して取得したデータを学習用データとして学習処理に使用する。
これにより、このオーディオデータ学習方法では、時不変ノイズシェーピング処理を適用して学習処理を実行することができ、その結果、高品質のオーディオデータを取得することができる。
第4の発明(請求項2に対応)は、第1の発明であって、サブバンド分割部は、角周波数をωとし、オーディオデータのサンプリング角周波数を2πとしたとき、
(1)-π/(N-1)≦ω≦π/(N-1)のとき
Figure 0007209275000001

(2)ω<-π/(N-1)またはω>π/(N-1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行することで、サブバンド信号を取得する。
これにより、このオーディオデータ学習装置では、強制的に「色」が付けられたサブバンド信号(2乗根cos特性の帯域制限フィルタ処理により取得されたサブバンド信号)、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。
第5の発明(請求項3に対応)は、サブバンド学習済モデル部と、アップサンプリング処理部と、サブバンド合成部と、備えるオーディオデータ推論装置である。
サブバンド学習済モデル部は、補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったN個(N:自然数)の学習済モデルを含む。サブバンド学習済モデル部は、補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、N個の学習済モデルによる処理を実行し、N個の推論処理済みサブバンド信号を出力する。
アップサンプリング処理部は、N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得する。
サブバンド合成部は、N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得する。
このオーディオデータ推論装置では、補助入力hおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部により、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部では、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)により並列にサブバンド信号を用いた推論処理を行うことができる。そして、このオーディオデータ推論装置では、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)の推論結果データに対してアップサンプリング処理を行った後、サブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。
すなわち、このオーディオデータ推論装置では、波形直接生成モデルの推論処理を並列処理により実現することができる。その結果、このオーディオデータ推論装置では、従来技術のようにフルバンドの波形データを用いた波形直接生成モデルによる推論処理に対して遙かに高速に推論処理を実行することができる。
したがって、このオーディオデータ推論装置では、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができる。
また、第5の発明において、オーディオデータのサンプリング周波数をfsとし、オーディオデータの全周波数帯域幅をfs/2とすると、サブバンド合成部は、対象周波数領域幅Δfを
Δf=fs/(2N)
N:自然数
としたとき、設定した対象周波数領域幅Δfにおいて、ゲインが-1dB以上である周波数領域がΔf/2以下であるフィルタ特性を有する帯域制限フィルタにより、N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行して、出力データを取得するようにしてもよい。
これにより、このオーディオデータ推論装置では、学習時に強制的に「色」が付けるために用いられた帯域制限フィルタのフィルタ特性に応じて、上記帯域制限フィルタのフィルタ特性を調整することができる。そして、このオーディオデータ推論装置では、N個のアップサンプリング処理後のサブバンド信号に対して、当該フィルタ特性により帯域制限フィルタ処理を実行することができる。したがって、帯域制限フィルタ処理後のサブバンド信号を合成することで、出力データのエネルギーを、原信号(本来あるべき信号)と同等にすることができる。その結果、このオーディオデータ推論装置では、高品質のオーディオデータ(出力データ)を取得することができる。
なお、このオーディオデータ推論装置から出力されるデータ(信号)のレベル(信号レベル)を調整するためのゲイン調整部を設けるようにしてもよい。
第6の発明(請求項4に対応)は、第5の発明であって、サブバンド学習済モデル部は、N個のサブバンド信号を、第1サブバンド信号xa、・・・、第kサブバンド信号xa(k:自然数、1≦k≦N)、・・・、第Nサブバンド信号xaとすると、N個の学習済モデルである、第1サブバンド学習済モデル~第Nサブバンド学習済モデルを用いた処理を実行する。
第kサブバンド学習済モデル(k:自然数、1≦k≦N)は、補助入力データと、第kサブバンド信号xaとを入力とする。
N個のサブバンド学習済モデルのうち、少なくとも1つは、位相補償用サブバンド学習済モデルであり、第mサブバンド学習済モデル(m:自然数、1≦m≦N)が位相補償用サブバンド学習済モデルであるものとし、自然数mとは異なる自然数をn(n:自然数、1≦n≦N、n≠m)とすると、第mサブバンド学習済モデルは、(1)補助入力データと、(2)第mサブバンド信号xaと、(3)第nサブバンド信号xaとを入力する。
このオーディオデータ推論方法では、N個のサブバンド学習済モデルのうち、少なくとも1つは、位相補償用サブバンド学習済モデルであり、他のサブバンド学習済モデル用のサブバンド信号を入力して、推論処理を実行するため、適切な位相補償を実現できる。つまり、このオーディオデータ推論方法では、複数帯域入力型の構成により、適切な位相補償を実現できるので、このオーディオデータ推論方法を用いたオーディオデータ処理システムでは、さらに高品質なオーディオデータを取得することができる。
第6の発明を以下のように変形し、第4変形例の発明としてもよい。
第4変形例の発明は、第6の発明であって、サブバンド学習済モデルは、複数層からなるニューラルネットワークによるモデルである。
サブバンド学習済モデルの入力層である第1層は、補助入力データと、前記第kサブバンド信号xaとを入力とし、補助入力データ用変換部と、サブバンド信号用変換部と、1×1コンボリューション処理部と、重み付け加算部と、活性化処理部と、を備える。
補助入力データ用変換部は、補助入力データを2L-1個(L:自然数)のサンプルからなる2組のデータh1とh1とに変換する。
サブバンド信号用変換部は、第kサブバンド信号xaを2L-1個のサンプルからなる2組のデータx1とx1とに変換する。
1×1コンボリューション処理部は、データh1、h1、x1、x1に対して、1×1コンボリューション処理を実行し、処理後のデータを、それぞれ、データh、h、x、xとして取得する。
重み付け加算部は、データh、h、x、xに対して
z=(W×x+W×x)+(V×h+V×h
:重み行列
:重み行列
:重み行列
:重み行列
に相当する処理を実行し、データzを取得する。
活性化処理部は、データzに対して、
out_L=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層の出力データout_Lを取得する。
サブバンド学習済モデルの第K+1層(K:自然数)は、第K層からの出力データout_Lを入力し、データ変換部と、1×1コンボリューション処理部と、重み付け加算部と、第K+1層活性化処理部と、を備える。
データ変換部は、第K層からの出力データout_Lを2L-K-1個(L:自然数)のサンプルからなる2組のデータx’1とx’1とに変換する。
1×1コンボリューション処理部は、データx’1、x’1に対して、1×1コンボリューション処理を実行し、処理後のデータを、それぞれ、データx’、x’として取得する。
重み付け加算部は、データx’、x’に対して
z’=W’×x’+W’×x’
W’:重み行列
W’:重み行列
に相当する処理を実行し、データz’を取得する。
第K+1層活性化処理部は、データz’に対して、
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層の出力データout_LK+1を取得する。
これにより、このオーディオデータ推論方法では、FFTNetによるモデルを用いた処理(推論処理)を実行することができる。
第4変形例の発明を以下のように変形し、第5変形例の発明としてもよい。
第5変形例の発明は、第4変形例の発明であって、サブバンド学習済モデルの第1層は、重み付け加算部から出力されるデータzと、活性化処理部から出力されるout_Lとを含むデータを生成し、生成したデータを、第1層の出力データとして、出力する。
これにより、このオーディオデータ推論方法では、サブバンド学習済モデルの第1層において、残差接続(Residual connection)を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。
これにより、このオーディオデータ推論方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
第4変形例の発明を以下のように変形し、第6変形例の発明としてもよい。
第6変形例の発明は、第4変形例の発明であって、サブバンド学習済モデルの第K+1層は、重み付け加算部から出力されるデータz’と、第K+1層活性化処理部から出力されるout_LK+1とを含むデータを生成し、生成したデータを、第K+1層の出力データとして、出力する。
これにより、このオーディオデータ推論方法では、サブバンド学習済モデルの第K+1層において、残差接続(Residual connection)を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。
これにより、このオーディオデータ推論方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
第7の発明は、第5の発明であって、オーディオデータに対して時不変ノイズシェーピング法により取得したフィルタ処理を実行して取得したデータを学習用データとして学習処理に使用した場合、推論処理において、フィルタ処理と逆特性のフィルタ処理を実行することで、出力データを取得する。
これにより、このオーディオデータ推論方法では、時不変ノイズシェーピング処理を適用して推論処理を実行することができ、その結果、高品質のオーディオデータを取得することができる。
第8の発明(請求項5に対応)は、第5または第6の発明であって、サブバンド合成部は、角周波数をωとし、オーディオデータのサンプリング角周波数を2πとしたとき、
(1)-π/(N-1)≦ω≦π/(N-1)のとき
Figure 0007209275000002

(2)ω<-π/(N-1)またはω>π/(N-1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行することで、出力データを取得する。
これにより、このオーディオデータ推論装置では、学習時に強制的に「色」が付けるために用いられた帯域制限フィルタのフィルタ特性(2乗根cos特性)に応じて、上記帯域制限フィルタのフィルタ特性を2乗根cos特性のフィルタ特性に設定することができる。そして、このオーディオデータ推論装置では、N個のアップサンプリング処理後のサブバンド信号に対して、当該フィルタ特性により帯域制限フィルタ処理を実行することができる。したがって、帯域制限フィルタ処理後のサブバンド信号を合成することで、出力データのエネルギーを、原信号(本来あるべき信号)と同等にすることができる。その結果、このオーディオデータ推論装置では、高品質のオーディオデータ(出力データ)を取得することができる。
第9の発明(請求項6に対応)は、サブバンド分割ステップと、ダウンサンプリング処理ステップと、サブバンド学習モデルステップと、を備えるオーディオデータ学習方法をコンピュータに実行させるためのプログラムである。
サブバンド分割ステップは、オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得する。
ダウンサンプリング処理ステップは、サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、サブバンド信号に対してダウンサンプリング処理を実行する。
サブバンド学習モデルステップは、補助入力データと、ダウンサンプリング処理ステップにより取得されたサブバンド信号とを用いて波形直接生成モデルの学習を行う。
これにより、第1の発明と同様の効果を奏するオーディオデータ学習方法をコンピュータに実行させるプログラムを実現することができる。
第10の発明(請求項7に対応)は、サブバンド学習済モデルステップと、アップサンプリング処理ステップと、サブバンド合成ステップと、を備えるオーディオデータ推論方法をコンピュータに実行させるためのプログラムである。
サブバンド学習済モデルステップは、補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったN個(N:自然数)の学習済モデルを含む。
サブバンド学習済モデルステップは、補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、N個の学習済モデルによる処理を実行し、N個の推論処理済みサブバンド信号を出力する。
アップサンプリング処理ステップは、N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得する。
サブバンド合成ステップは、N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得する。
これにより、第5の発明と同様の効果を奏するオーディオデータ推論方法をコンピュータに実行させるプログラムを実現することができる。
本発明によれば、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ学習装置、オーディオデータ推論装置、およびプログラムを実現することができる。
第1実施形態に係るオーディオデータ処理システム1000の概略構成図。 第1実施形態に係るオーディオデータ処理システム1000のオーディオデータ学習装置DLの概略構成図。 第1実施形態に係るオーディオデータ学習装置DLのサブバンド分割部1の概略構成図。 第1実施形態に係るオーディオデータ処理システム1000のオーディオデータ推論装置INFの概略構成図。 第1実施形態に係るオーディオデータ推論装置INFのサブバンド合成部5の概略構成図。 オーディオデータ学習装置DLによる学習処理のフローチャート。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。 オーディオデータ推論装置INFによる推論処理のフローチャート。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。 入力データx(入力信号x(t))の周波数スペクトルと、サブバンド信号を取得するときに対象とする周波数領域と、フィルタの周波数特性とを説明するための図。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。 オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。 オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。 k=1~3(処理対象領域R1~R3)のときの周波数シフト処理後の信号xc_shftk(t)を示す図。 オーディオデータ推論装置INFにより出力された音声データのスペクトログラムを示す図。 第3実施形態に係るオーディオデータ処理システム3000の概略構成図。 第3実施形態に係るオーディオデータ処理システム3000のオーディオデータ学習装置DLaの概略構成図。 第3実施形態に係るオーディオデータ処理システム3000のオーディオデータ推論装置INFaの概略構成図。 FFTNetモデル6の概略構成図。 FFTNetモデル6の第1層の概略構成図。 FFTNetモデル6の第K+1層(K:自然数)の概略構成図。 第3実施形態の第2変形例のFFTNetモデル6の第1層FL_1aの概略構成図。 第3実施形態の第2変形例のFFTNetモデル6の第K+1層(K:自然数)FL_K+1aの概略構成図。 第3実施形態の第3変形例のオーディオデータ処理システムの概略構成図。 本発明に係るオーディオデータ推論装置及びオーディオデータ学習装置を実現するコンピュータのハードウェア構成を示すブロック図。
[第1実施形態]
第1実施形態について、図面を参照しながら、以下説明する。
<1.1:オーディオデータ処理システムの構成>
図1は、第1実施形態に係るオーディオデータ処理システム1000の概略構成図である。
図2は、第1実施形態に係るオーディオデータ処理システム1000のオーディオデータ学習装置DLの概略構成図である。
図3は、第1実施形態に係るオーディオデータ学習装置DLのサブバンド分割部1の概略構成図である。
図4は、第1実施形態に係るオーディオデータ処理システム1000のオーディオデータ推論装置INFの概略構成図である。
図5は、第1実施形態に係るオーディオデータ推論装置INFのサブバンド合成部5の概略構成図である。
オーディオデータ処理システム1000は、図1に示すように、オーディオデータ学習装置DLとオーディオデータ推論装置INFとを備える。
(1.1.1:オーディオデータ学習装置の構成)
オーディオデータ学習装置DLは、図2に示すように、サブバンド分割部1と、ダウンサンプリング処理部2と、サブバンド学習モデル部3とを備える。
サブバンド分割部1は、入力データx(例えば、フルバンドの波形のデータ)を入力し、入力データxに対してサブバンド分割処理を実行し、N個のサブバンド信号データx_sub~x_subを取得し、取得したN個のサブバンド信号データx_sub~x_subを、それぞれ、N個のダウンサンプリング処理部21~2Nに出力する。
サブバンド分割部1は、図3に示すように、第1周波数シフト処理部111~第N周波数シフト処理部11Nと、第1帯域制限フィルタ処理部121~第N帯域制限フィルタ処理部12Nと、第1実数化処理部131~第N実数化処理部13Nとを備える。
第k周波数シフト処理部11k(k:自然数、1≦k≦N)は、入力データx(例えば、フルバンドの波形のデータ)を入力し、入力データxに対して周波数シフト処理を実行し、処理後のデータをデータx_shftとして、第k帯域制限フィルタ処理部12kに出力する。
第k帯域制限フィルタ処理部12kは、第k周波数シフト処理部11kから出力されるデータx_shftを入力し、入力されたデータx_shftに対して帯域制限フィルタ処理を実行し、処理後のデータをデータx_ftとして、第k実数化処理部13kに出力する。
第k実数化処理部13kは、第k帯域制限フィルタ処理部12kから出力されるデータx_ftを入力し、入力されたデータx_ftに対して実数化処理(例えば、SSB(Single-sideband)変調処理)を実行し、処理後のデータをデータx_subとして、ダウンサンプリング処理部2の第kダウンサンプリング処理部2kに出力する。
ダウンサンプリング処理部2は、図2に示すように、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2N(N:自然数)を備える。第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nは、それぞれ、サブバンド分割部1から出力されるN個のサブバンド信号データx_sub~x_subを入力し、入力したサブバンド信号データに対して、間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を行い、ダウンサンプリング処理後のサブバンド信号データx_d~x_dを取得する。そして、ダウンサンプリング処理部21~2Nは、取得したダウンサンプリング処理後のサブバンド信号データx_d~x_dをサブバンド学習モデル部3に出力する。つまり、第kダウンサンプリング処理部2k(k:自然数、1≦k≦N)は、サブバンド分割部1から出力されるサブバンド信号データx_subを入力し、入力したサブバンド信号データに対して、間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を行い、ダウンサンプリング処理後のサブバンド信号データx_dを取得する。そして、第kダウンサンプリング処理部2kは、取得したダウンサンプリング処理後のサブバンド信号データx_dを第kサブバンド学習モデル3kに出力する。
サブバンド学習モデル部3は、図2に示すように、第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nを備える。第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nは、それぞれ、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d~x_dと、補助入力hとを入力する。そして、第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nでは、それぞれ、入力されたデータと補助入力hとを用いてモデルの学習を行い、各モデルを最適化する(各モデルを最適化するパラメータを取得する)。なお、第kサブバンド学習モデル3k(k:自然数、1≦k≦N)において、補助入力hの入力を省略し、入力データ(サブバンド信号データx_d)のみを用いてモデルの学習を行うようにしてもよい。
(1.1.2:オーディオデータ推論装置の構成)
オーディオデータ推論装置INFは、図4に示すように、サブバンド学習済モデル部3Aと、アップサンプリング処理部4と、サブバンド合成部5とを備える。
サブバンド学習済モデル部3Aは、図4に示すように、第1サブバンド学習済モデル3A1~第Nサブバンド学習済モデル3ANを備える。サブバンド学習済モデル部3A1~第Nサブバンド学習済モデル3ANは、それぞれ、第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nによりモデル学習し最適化されたモデルである(モデル学習により取得された最適化パラメータを設定されたモデルである)。
第kサブバンド学習済モデル3Ak(k:自然数、1≦k≦N)は、図4に示すように、補助入力hと、推論時の入力データx’を構成するサブバンド信号データxaを入力し、入力されたデータに対して、第kサブバンド学習済モデル3Akを用いた処理を実行し、処理後のデータをデータxbkとして、第kアップサンプリング処理部4kに出力する。なお、第kサブバンド学習済モデル3Akに入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータである。
アップサンプリング処理部4は、図4に示すように、第1アップサンプリング処理部41~第Nアップサンプリング処理部4N(N:自然数)を備える。それぞれ、第1サブバンド学習済モデル3A1~第Nサブバンド学習済モデル3ANから出力されるデータxb~xbを入力する。そして、第1アップサンプリング処理部41~第Nアップサンプリング処理部4N(N:自然数)は、それぞれ、入力されたデータに対して間引き率Mでオーバサンプリングを行うことでアップサンプリング処理を実行し、当該処理後のデータをデータxc~xcとして、サブバンド合成部5に出力する。
サブバンド合成部5は、第1アップサンプリング処理部41~第Nアップサンプリング処理部4N(N:自然数)からそれぞれ出力されるデータxc~xcを入力し、入力されたデータxc~xcに対して合成処理(加算処理)を行うことで、出力データxoを取得する。
サブバンド合成部5は、図5に示すように、第1ベースバンドシフト処理部511~第Nベースバンドシフト処理部51Nと、第1帯域制限フィルタ処理部521~第N帯域制限フィルタ処理部52Nと、第1周波数シフト処理部531~第N周波数シフト処理部53Nと、サブバンド合成処理部54とを備える。
第kベースバンドシフト処理部51k(k:自然数、1≦k≦N)は、入力データxcを入力し、入力データxcに対してベースバンドシフト処理を実行し、処理後のデータをデータxc_bsとして、第k帯域制限フィルタ処理部52kに出力する。
第k帯域制限フィルタ処理部52kは、第kベースバンドシフト処理部51kから出力されるデータxc_bsを入力し、入力されたデータxc_bsに対して帯域制限フィルタ処理を実行し、処理後のデータをデータxc_ftとして、第k周波数シフト処理部53kに出力する。
第k周波数シフト処理部53kは、第k帯域制限フィルタ処理部52kから出力されるデータxc_ftを入力し、入力されたデータxc_ftに対して周波数シフト処理を実行し、処理後のデータをデータxc_shftとして、サブバンド合成処理部54に出力する。
サブバンド合成処理部54は、第1周波数シフト処理部531~第N周波数シフト処理部53Nから出力されるデータxc_shft~xc_shftを入力し、入力されたデータxc_shft~xc_shftに対して合成処理(加算処理)を行うことで、出力データxoを取得する。
<1.2:オーディオデータ処理システムの動作>
以上のように構成されたオーディオデータ処理システム1000の動作について以下説明する。
以下では、オーディオデータ処理システム1000の動作を、(1)オーディオデータ学習装置DLによる学習処理と、(2)オーディオデータ推論装置INFによる推論処理とに分けて説明する。
(1.2.1:学習処理)
まず、オーディオデータ学習装置DLによる学習処理について、説明する。
図6は、オーディオデータ学習装置DLによる学習処理のフローチャートである。
図7、図8は、オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である。図7、図8において、横軸は周波数であり、縦軸は周波数スペクトルの大きさをdB値で示しているものとする。
なお、以下では説明便宜のため、信号を4個(N=4)のサブバンド信号に分解(分割)する場合を例に説明する。
以下では、図6のフローチャートを参照しながら説明する。
(ステップS1):
オーディオデータ学習装置DLのサブバンド分割部1に入力データx(例えば、フルバンドのオーディオ信号の波形のデータ)が入力される。具体的には、入力データxは、図3に示すように、サブバンド分割部1の第1周波数シフト処理部111~第N周波数シフト処理部11Nにそれぞれ入力される。なお、以下では入力データxに対応する信号を信号x(t)と表記する。つまり、入力データx(ベクトルデータx)は、信号x(t)のT個(T:自然数)のサンプルデータからなり、このことを以下のように表記する。
x=[x(1),・・・,x(T)]
なお、x(t)は、例えば、入力されるオーディオ信号をμ-law圧縮し、例えば、0~255の離散値をとるサンプルとして取得されたデータであるものとする。
また、以下では説明便宜のため、サンプル数がTであるものとして説明する。
なお、入力される信号x(t)の周波数スペクトルは、一例として、図7(a)のものであるとする。
(ステップS2):
次に、第1周波数シフト処理部111~第N周波数シフト処理部11Nでは、それぞれ入力された信号x(t)に対して周波数シフト処理が実行される。
具体的には、第k周波数シフト処理部11kでは、
(t)=x(t)×W -t(k-1/2)
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号x(t)を取得する。これにより、第k周波数シフト処理部11kは、周波数シフト処理後のデータx_shft
x_shft=[x(1),・・・,x(T)]
として取得する。そして、第k周波数シフト処理部11kは、取得したデータx_shftを第k帯域制限フィルタ処理部12kに出力する。
なお、図7(b)に、k=1のときの周波数シフト処理後の信号x(t)の周波数スペクトルを示す。k=1のときの周波数シフト処理は、第1周波数シフト処理部111により実行される。k=2のときの周波数シフト処理は、第2周波数シフト処理部112により実行される。以下同様である。第k周波数シフト処理部11kでの周波数シフト量は、W -t(k-1/2)となるので、分割された周波数帯域(図7(a)の周波数領域R1~R4(N=4の場合)の各周波数領域)の中心周波数がf=0となるように周波数シフト処理が実行される。
(ステップS3):
次に、第1帯域制限フィルタ処理部121~第N帯域制限フィルタ処理部12Nでは、それぞれ入力されたデータx_shft(信号x(t))に対して帯域制限フィルタ処理が実行される。
具体的には、第k帯域制限フィルタ処理部12kでは、カットオフ周波数π/(2N)の帯域制限フィルタで帯域制限を行う。なお、当該帯域制限フィルタのインパルス応答をh(t)とする。つまり、第k帯域制限フィルタ処理部12kは、
k,pp(t)=h(t)*x(t)
に相当する処理を実行し、帯域制限処理後の信号xk,pp(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
これにより、第k帯域制限フィルタ処理部12kは、帯域制限処理後のデータx_ft
x_ft=[xk,pp(1),・・・,xk,pp(T)]
として取得する。そして、第k帯域制限フィルタ処理部12kは、取得したデータx_ftを第k実数化処理部13kに出力する。
なお、図7(c)に、帯域制限フィルタの周波数特性(一例)を示す。この帯域制限フィルタは、-π/(2N)≦f≦π/(2N)において、ゲインが0dBであり、それ以外の周波数領域では、ゲインが略0(例えば、-60dB以下)であるものとする。なお、周波数fは、規格化した周波数であり、サンプリング周波数fsと同一のときf=2πであるものとする。
図7(d)は、図7(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xk,pp(t)の周波数スペクトルである。
(ステップS4):
次に、第1実数化処理部131~第N実数化処理部13Nでは、それぞれ入力されたデータx_ft(信号xk,pp(t))に対して実数化処理が実行される。
具体的には、第k実数化処理部13kでは、SSB変調処理を実行する。つまり、第k実数化処理部13kは、
k,SSB(t)=xk,pp(t)×W t/2+x k,pp(t)×W -t/2
に相当する処理を実行し、実数化処理後の信号xk,SSB(t)を取得する。なお、「x k,pp(t)」は「xk,pp(t)」の複素共役の信号である。
これにより、第k実数化処理部13kは、実数化処理後のデータx_sub
x_sub=[xk,SSB(1),・・・,xk,SSB(T)]
として取得する。そして、第k実数化処理部13kは、取得したデータx_subを第kダウンサンプリング処理部2kに出力する。
なお、図8(a)に、実数化処理後の信号xk,SSB(t)の周波数スペクトルを示す。
(ステップS5):
次に、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nは、それぞれ入力されたデータx_sub(信号xk,SSB(t))に対して間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を実行し、処理後のデータx_dを取得する。なお、本実施形態では、一例としてM=4として説明する。
これにより、第kダウンサンプリング処理部2kは、ダウンサンプリング処理後のデータx_d
x_d=[xk,SSB(M),・・・,xk,SSB(T×M)]
として取得する。そして、第kダウンサンプリング処理部2kは、取得したデータx_d
を第kサブバンド学習モデル3kに出力する。
なお、図8(b)に、ダウンサンプリング処理後の信号xk,SSB(t×M)の周波数スペクトルを示す。
(ステップS6):
次に、サブバンド学習モデル部3の第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nでは、それぞれ、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d~x_dと、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
従来技術において、コンテキストラベル等の補助入力hが与えられたもとで、オーディオ信号の波形x=[x(1),・・・,x(T)]の条件付き確率分布を拡張型畳み込み層の積み重ねにより、以下のようにモデル化する。
Figure 0007209275000003

そして、上記条件付き確率が最大となるように、上記モデルのパラメータを最適化する。つまり、上記モデルにおいて、
Figure 0007209275000004

により、最適化パラメータθoptを取得することで、モデルの最適化処理(モデル学習)を実行することができる。
しかしながら、上記モデルでは、条件付き確率p(x|h)を求めるためには、過去の全てのサンプルデータ、すなわち、x(1)~x(t-1)が必要となるため、サンプル数Tが大きくなる程、計算量が多くなる。
これに対処するために、オーディオデータ学習装置DLでは、入力されるフルバンドの波形信号から、上記処理によりサブバンド分割したサブバンド信号を用いることで、並列処理を実行しやすくし、高速化処理を実現させる。
つまり、第kサブバンド学習モデル3kでは、コンテキストラベル等の補助入力hと、第kダウンサンプリング処理部2kにより取得されたデータx_dとを用いて条件付き確率p(x_d|h)を以下のように設定されたモデルを用いてモデルの学習を行う。
Figure 0007209275000005
なお、t=1のとき、p(x_d(t)|x_d(1),・・・,x_d(t-1),h)は、p(x_d(1)|h)とすればよい。
また、x_d(1)=xk,SSB(M)であり、x_d(t)=xk,SSB(t×M)である。つまり、第kサブバンド学習モデル3kでは、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率p(x_d|h)を求めるための対象データが1/Mで済む。
そして、第kサブバンド学習モデル3kでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第kサブバンド学習モデル3kでは、
Figure 0007209275000006

により、最適化パラメータθopt_kを取得することで、モデルの最適化処理(モデル学習)を実行する。なお、パラメータθは、スカラー、ベクトル、またはテンソルである。
以上のようにして、サブバンド学習モデル部3の第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nにおいて、学習処理が実行される。
(1.2.2:推論処理)
次に、オーディオデータ推論装置INFによる推論処理について、説明する。
図9は、オーディオデータ推論装置INFによる推論処理のフローチャートである。
図10、図11は、オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である。図10、図11において、横軸は周波数であり、縦軸は周波数スペクトルの大きさをdB値で示しているものとする。
なお、以下では説明便宜のため、信号を4個(N=4)のサブバンド信号に分解(分割)する場合を例に説明する。
以下では、図9のフローチャートを参照しながら説明する。
(ステップS21):
オーディオデータ推論装置INFのサブバンド学習済モデル部3Aに、推論時の入力データx’を構成するサブバンド信号データxaおよび補助入力hが入力される。
なお、サブバンド信号データxaは、入力データx’(信号x’(t))に対してサブバンド分割部1、ダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データx’(信号x’(t))をサブバンド分割部1に入力し、サブバンド分割部1およびダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号(ダウンサンプリング処理部2から出力される信号)をサブバンド信号データxaとして、サブバンド学習済モデル部3Aに入力させるようにしてもよい。
なお、第kサブバンド学習済モデル3Akに入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータである。
(ステップS22):
サブバンド学習済モデル部3Aは、補助入力hと、サブバンド信号データxaに対して、第kサブバンド学習済モデル3Akを用いた処理を実行し、処理後のデータをデータxbとして取得する。
具体的には、xa(t)が0~255のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率p(xa|h)が最大となる値をxa(t)の値に決定する。
Figure 0007209275000007

なお、t=1のとき、p(xa(t)|xa(1),・・・,xa(t-1),h)は、p(xa(1)|h)とすればよい。
例えば、xa(t)=200としたとき、第kサブバンド学習済モデル3Akで求められる条件付き確率p(xa|h)が最大値となるとき、xa(t)=200に決定する。
このように処理することで、第kサブバンド学習済モデル3Ak(k:自然数、1≦k≦N)では、第kサブバンド学習済モデル3Akの出力データxb(信号xb(t))を取得する。
なお、第kサブバンド学習済モデル3Akを用いた処理(推論処理)は、フルバンドの波形データに対して間引き率Mでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。したがって、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率p(xa|h)を求めるための対象データが1/Mで済む。
したがって、N個のサブバンド学習済モデルを用いた処理(推論処理)では、従来技術のようにフルバンドの波形データを用いる場合に対して約M倍の速さで処理を実行することができる。
そして、第1サブバンド学習済モデル3A1~第Nサブバンド学習済モデル3ANは、図4に示すように、並列処理することができるので、サブバンド学習済モデル部での推論処理は、従来技術のようにフルバンドの波形データを用いる場合に対して約M倍の速さで処理することができる。
以上のようにして、第1サブバンド学習済モデル3A1~第Nサブバンド学習済モデル3ANで取得されたデータxb(信号xb(t))~xb(信号xb(t))は、サブバンド学習済モデル部3Aからアップサンプリング処理部4に出力される。
(ステップS23):
次に、第1アップサンプリング処理部41~第Nアップサンプリング処理部4Nは、それぞれ入力されたデータxb(信号xb(t))に対して間引き率Mでオーバサンプリングを行うことで、アップサンプリング処理を実行し(例えば、ゼロ挿入によりアップサンプリング処理を実行し)、アップサンプリング処理後のデータxc(信号xc(t))を取得する。
図10(a)に、アップサンプリング処理後の信号xc(t)の周波数スペクトルを示す。図10(a)に示すように、アップサンプリング処理後の信号xc(t)は、折り返し歪みが発生している状態であるので、ベースバンドにシフトし、折り返し歪みが発生しないように帯域制限を行う必要がある。
(ステップS24):
次に、サブバンド合成部5の第1ベースバンドシフト処理部511~第Nベースバンドシフト処理部51Nでは、それぞれ入力されたアップサンプリング処理後のデータxc(信号xc(t))に対して、ベースバンドシフト処理が実行される。
具体的には、第kベースバンドシフト処理部51kでは、
xc_bs(t)=xc(t)×W -1/2
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、ベースバンドシフト処理後の信号xc_bs(t)を取得する。そして、第kベースバンドシフト処理部51kは、取得したデータxc_bs(信号xc_bs(t))を第k帯域制限フィルタ処理部52kに出力する。
図10(b)に、ベースバンドシフト処理後の信号xc_bs(t)の周波数スペクトルを示す。
(ステップS25):
次に、第1帯域制限フィルタ処理部521~第N帯域制限フィルタ処理部52Nでは、それぞれ入力されたデータxc_bs(信号xc_bs(t))に対して帯域制限フィルタ処理が実行される。
具体的には、第k帯域制限フィルタ処理部52kでは、カットオフ周波数π/(2N)の帯域制限フィルタで帯域制限を行う。なお、当該帯域制限フィルタのインパルス応答をh(t)とする。つまり、第k帯域制限フィルタ処理部52kは、
xc_ft(t)=h(t)*xc_bs(t)
に相当する処理を実行し、帯域制限処理後の信号xc_ft(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
そして、第k帯域制限フィルタ処理部52kは、取得したデータxc_ft(信号xc_ft(t))を第k周波数シフト処理部53kに出力する。
なお、図10(c)に、帯域制限フィルタの周波数特性(一例)を示す。この帯域制限フィルタは、-π/(2N)≦f≦π/(2N)において、ゲインが0dBであり、それ以外の周波数領域では、ゲインが略0(例えば、-60dB以下)であるものとする。なお、周波数fは、規格化した周波数であり、サンプリング周波数fsと同一のときf=2πであるものとする。
図10(d)は、図10(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xc_ft(t)の周波数スペクトルである。
(ステップS26):
次に、第1周波数シフト処理部531~第N周波数シフト処理部53Nでは、それぞれ入力された信号xc_ft(t)に対して周波数シフト処理が実行される。
具体的には、第k周波数シフト処理部53kでは、
xc_shft(t)=xc_ft(t)×W t(k-1/2)
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xc_shft(t)を取得する。そして、第k周波数シフト処理部53kは、取得したデータxc_shft(信号xc_shft(t))をサブバンド合成処理部54に出力する。
図11(a)は、周波数シフト処理前の信号xc_ft(t)の周波数スペクトルである。
なお、図11(b)に、k=1のときの周波数シフト処理後の信号xc_shft(t)の周波数スペクトルを示す。k=1のときの周波数シフト処理は、第1周波数シフト処理部531により実行される。第k周波数シフト処理部53kでの周波数シフト量は、W t(k-1/2)となるので、第k周波数シフト処理部53kでの処理後の信号の周波数スペクトルは、元のサブバンド信号(原信号)の周波数スペクトルの位置に戻る。
図11(c)の領域R1~R4の周波数スペクトルは、N=4の場合において、第1周波数シフト処理部531~第4周波数シフト処理部534により取得された信号xc_shft(t)~xc_shft(t)の周波数スペクトルである。
(ステップS27):
サブバンド合成処理部54は、第1周波数シフト処理部531~第N周波数シフト処理部53Nから出力されるデータxc_shft~xc_shftを入力し、入力されたデータxc_shft~xc_shftに対して合成処理(加算処理)を行うことで、出力データxo(信号xo(t))を取得する。
図11(c)に、サブバンド合成処理部54によるサブバンド合成処理後の信号xo(t)の周波数スペクトルを示す。図11(c)から分かるように、上記処理によりサブバンド信号からフルバンド信号が適切に復元されている。
以上のように、オーディオデータ処理システム1000のオーディオデータ学習装置DLでは、フルバンドの波形データ(フルバンドのオーディオ信号)をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部3によりモデルの学習(最適化)を行うことができる。サブバンド学習モデル部3では、N個のモデル(第1サブバンド学習モデル~第Nサブバンド学習モデル)により並列にサブバンド信号を用いたモデルの学習(最適化)を行うことができる。すなわち、オーディオデータ学習装置DLでは、波形直接生成モデルの学習(最適化)を並列処理により実現することができる。
また、オーディオデータ処理システム1000のオーディオデータ推論装置INFでは、補助入力hおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部3Aにより、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部3Aでは、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)により並列にサブバンド信号を用いた推論処理を行うことができる。そして、オーディオデータ推論装置INFでは、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)の推論結果データに対してアップサンプリング処理を行った後、サブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。
すなわち、オーディオデータ推論装置INFでは、波形直接生成モデルの推論処理を並列処理により実現することができる。その結果、オーディオデータ推論装置INFでは、従来技術のようにフルバンドの波形データを用いた波形直接生成モデルによる推論処理に対して遙かに高速に推論処理を実行することができる。
以上の通り、オーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができる。
[第2実施形態]
次に、第2実施形態について説明する。
第1実施形態では、N=M=4、すなわち、Nの値(サブバンド分割数)とMの値(間引き率)が同じである場合であって、サブバンド分割部1およびサブバンド合成部5において、理想的な帯域制限フィルタによる帯域制限フィルタ処理を行う場合について説明した。第2実施形態では、Nの値(サブバンド分割数)とMの値(間引き率)が異なる場合であって、さらに、サブバンド分割部1およびサブバンド合成部5において、2乗根cos特性を有するフィルタ(2乗根Hann窓型フィルタ)による帯域制限フィルタ処理を行う場合について説明する。
なお、第2実施形態において、第1実施形態と同様の部分については、詳細な説明を省略する。また、第2実施形態のオーディオデータ処理システム、オーディオデータ学習装置DL、オーディオデータ推論装置INFの構成は、第1実施形態と同様である。
本実施形態においても、第1実施形態と同様に、図12(a)に示す周波数スペクトルを有する波形データ(オーディオ信号)について処理が実行される場合について説明する。
また、本実施形態において、N=9(サブバンド分割数)、M=4(間引き率)の場合について説明する。
図12(a)は、入力データx(入力信号x(t))の周波数スペクトルと、サブバンド信号を取得するときに対象とする周波数領域とを示す図である。図12(a)において、サブバンド信号x_sub(k:自然数、1≦k≦N)を取得するときの処理対象とする周波数領域を周波数領域Rk(R1~R9)として示している。図12(a)に示すように、周波数領域Rk(R1~R9)は、π/(N-1)(N=9のときはπ/8)ずつ中心周波数がシフトするように設定されている。そして、周波数領域R1、R9は、周波数幅がπ/(N-1)である周波数帯域であり、それ以外の周波数領域R2~R8は、それぞれ周波数幅が2π/(N-1)である周波数帯域である。
図12(b)は、以下の伝達関数を有するフィルタの周波数特性を周波数軸においてπ/(N-1)ずつ周波数が高くなる方向にずらしたときに得られるフィルタ(2乗根Hann窓型フィルタ)の周波数特性を示している。
(1)-π/(N-1)≦ω≦π/(N-1)のとき
Figure 0007209275000008

(2)ω<-π/(N-1)またはω>π/(N-1)のとき
H(ω)=0
ω:角周波数
つまり、オーディオデータ処理システムにおいて、学習処理時と推論処理時の両方で、信号に対して、サブバンド信号を取得するときの帯域制限フィルタ処理と、サブバンド信号を合成するときの帯域制限フィルタ処理とを実行することで、信号に対してcos特性(2乗根cos特性のフィルタ処理を2回実行したときの特性)の帯域制限フィルタ処理を施したことと等価となる。そして、図12に示すようにサブバンド分割される周波数領域はπ/(N-1)ずつシフトしながら、かつ、隣接するサブバンド分割領域(サブバンド周波数領域)と周波数幅π/(N-1)の重複領域を有している。したがって、サブバンド分割した信号をサブバンド合成して取得される信号は、元の信号(原信号)に対してエネルギー損失が殆どなく適切に原信号を復元(推定)することができる。
つまり、サブバンド合成部から出力される信号は、以下の成分を含む信号と等価となる。
(1)0≦f<π/8の周波数領域の周波数成分に対して、フィルタ特性f_R1のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R2のフィルタ処理を2回実行して取得される信号成分。
(2)π/8≦f<2π/8の周波数領域の周波数成分に対して、フィルタ特性f_R2のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R3のフィルタ処理を2回実行して取得される信号成分。
(3)2π/8≦f<3π/8の周波数領域の周波数成分に対して、フィルタ特性f_R3のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R4のフィルタ処理を2回実行して取得される信号成分。
(4)3π/8≦f<4π/8の周波数領域の周波数成分に対して、フィルタ特性f_R4のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R5のフィルタ処理を2回実行して取得される信号成分。
(5)4π/8≦f<5π/8の周波数領域の周波数成分に対して、フィルタ特性f_R5のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R6のフィルタ処理を2回実行して取得される信号成分。
(6)5π/8≦f<6π/8の周波数領域の周波数成分に対して、フィルタ特性f_R6のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R7のフィルタ処理を2回実行して取得される信号成分。
(7)6π/8≦f<7π/8の周波数領域の周波数成分に対して、フィルタ特性f_R7のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R8のフィルタ処理を2回実行して取得される信号成分。
(8)7π/8≦f<πの周波数領域の周波数成分に対して、フィルタ特性f_R8のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R9のフィルタ処理を2回実行して取得される信号成分。
したがって、サブバンド分割した信号をサブバンド合成して取得される信号は、元の信号(原信号)に対して原信号を劣化なく復元(推定)することができる。
以下では、図13~図25に示した各信号の周波数スペクトルを示した図を参照しながら本実施形態について説明する。
図13、図14は、オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。
図15、図16は、オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R1、k=1)。
図17、図18は、オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。
図19、図20は、オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R2、k=2)。
図21、図22は、オーディオデータ学習装置DLにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。
図23、図24は、オーディオデータ推論装置INFにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である(周波数領域R3、k=3)。
以下では、図6のフローチャートを参照しながら説明する。
≪学習処理≫
(ステップS1):
オーディオデータ学習装置DLのサブバンド分割部1に入力データx(例えば、フルバンドのオーディオ信号の波形のデータ)が入力される。具体的には、入力データx(信号x(t))は、図3に示すように、サブバンド分割部1の第1周波数シフト処理部111~第N周波数シフト処理部11Nにそれぞれ入力される。
(ステップS2):
次に、第1周波数シフト処理部111~第N周波数シフト処理部11Nでは、それぞれ入力された信号x(t)に対して周波数シフト処理が実行される。
具体的には、第k周波数シフト処理部11kでは、
(t)=x(t)×W -t((k-1)/2)
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号x(t)を取得する。
なお、k=1の場合、W -t((k-1)/2)=0なので、x(t)=x(t)となる。
図13(b)は、k=1(処理対象領域R1)のときの周波数シフト処理後の信号x(t)のスペクトルを示す図である。
図17(b)は、k=2(処理対象領域R2)のときの周波数シフト処理後の信号x(t)のスペクトルを示す図である。
図21(b)は、k=3(処理対象領域R3)のときの周波数シフト処理後の信号x(t)のスペクトルを示す図である。
(ステップS3):
次に、第1帯域制限フィルタ処理部121~第N帯域制限フィルタ処理部12Nでは、それぞれ入力されたデータx_shft(信号x(t))に対して帯域制限フィルタ処理が実行される。
具体的には、第k帯域制限フィルタ処理部12kでは、下記で表される2乗根cos特性の帯域制限フィルタで帯域制限を行う。
(1)-π/(N-1)≦ω≦π/(N-1)のとき
Figure 0007209275000009

(2)ω<-π/(N-1)またはω>π/(N-1)のとき
H(ω)=0
ω:角周波数
なお、上記2乗根cos特性の帯域制限フィルタのインパルス応答をh(t)とすると、第k帯域制限フィルタ処理部12kは、
k,pp(t)=h(t)*x(t)
に相当する処理を実行し、帯域制限処理後の信号xk,pp(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
これにより、第k帯域制限フィルタ処理部12kは、帯域制限処理後のデータx_ft
x_ft=[xk,pp(1),・・・,xk,pp(T)]
として取得する。そして、第k帯域制限フィルタ処理部12kは、取得したデータx_ftを第k実数化処理部13kに出力する。
図13(c)に、上記帯域制限フィルタの周波数特性を示す。なお、周波数fは、規格化した周波数であり、サンプリング周波数fsと同一のときf=2πであるものとする。
図13(d)は、k=1(処理対象領域R1)の場合において、図13(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xk,pp(t)の周波数スペクトル(実線部分)である。
図17(d)は、k=2(処理対象領域R2)の場合において、図17(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xk,pp(t)の周波数スペクトル(実線部分)である。
図21(d)は、k=3(処理対象領域R3)の場合において、図21(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xk,pp(t)の周波数スペクトル(実線部分)である。
(ステップS4):
次に、第1実数化処理部131~第N実数化処理部13Nでは、それぞれ入力されたデータx_ft(信号xk,pp(t))に対して実数化処理が実行される。
具体的には、第k実数化処理部13kでは、SSB変調処理を実行する。つまり、第k実数化処理部13kは、
k,SSB(t)=xk,pp(t)×W t/2+x k,pp(t)×W -t/2
に相当する処理を実行し、実数化処理後の信号xk,SSB(t)を取得する。
これにより、第k実数化処理部13kは、実数化処理後のデータx_sub
x_sub=[xk,SSB(1),・・・,xk,SSB(T)]
として取得する。そして、第k実数化処理部13kは、取得したデータx_subを第kダウンサンプリング処理部2kに出力する。
図14(a)に、k=1(処理対象領域R1)のときの実数化処理後の信号xk,SSB(t)の周波数スペクトルを示す。
図18(a)に、k=2(処理対象領域R2)のときの実数化処理後の信号xk,SSB(t)の周波数スペクトルを示す。
図22(a)に、k=3(処理対象領域R3)のときの実数化処理後の信号xk,SSB(t)の周波数スペクトルを示す。
(ステップS5):
次に、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nは、それぞれ入力されたデータx_sub(信号xk,SSB(t))に対して間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を実行し、処理後のデータx_dを取得する。
これにより、第kダウンサンプリング処理部2kは、ダウンサンプリング処理後のデータx_d
x_d=[xk,SSB(M),・・・,xk,SSB(T×M)]
として取得する。そして、第kダウンサンプリング処理部2kは、取得したデータx_d
を第kサブバンド学習モデル3kに出力する。
図14(b)に、k=1(処理対象領域R1)のときのダウンサンプリング処理後の信号xk,SSB(t×M)の周波数スペクトルを示す。
図18(b)に、k=2(処理対象領域R2)のときのダウンサンプリング処理後の信号xk,SSB(t×M)の周波数スペクトルを示す。
図22(b)に、k=3(処理対象領域R3)のときのダウンサンプリング処理後の信号xk,SSB(t×M)の周波数スペクトルを示す。
(ステップS6):
次に、サブバンド学習モデル部3の第1サブバンド学習モデル31~第Nサブバンド学習モデル3Nでは、それぞれ、第1ダウンサンプリング処理部21~第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d~x_dと、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
ステップS6での処理は、第1実施形態での処理と同様である。ただし、第1実施形態ではN=4であったが、本実施形態ではN=9である。
≪推論処理≫
本実施形態において、推論処理においても、第1実施形態と同様の信号がオーディオデータ推論装置INFに入力されるものとして以下図9のフローチャートを参照しながら説明する。
(ステップS21):
オーディオデータ推論装置INFのサブバンド学習済モデル部3Aに、推論時の入力データx’を構成するサブバンド信号データxaおよび補助入力hが入力される。
なお、サブバンド信号データxaは、入力データx’(信号x’(t))に対してサブバンド分割部1、ダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データx’(信号x’(t))をサブバンド分割部1に入力し、サブバンド分割部1およびダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号(ダウンサンプリング処理部2から出力される信号)をサブバンド信号データxaとして、サブバンド学習済モデル部3Aに入力させるようにしてもよい。
なお、第kサブバンド学習済モデル3Akに入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータである。
(ステップS22):
第kサブバンド学習済モデル3Ak(k:自然数、1≦k≦N)は、補助入力hと、サブバンド信号データxaに対して、第kサブバンド学習済モデル3Akを用いた処理を実行し、処理後のデータをデータxbkとして取得する。第2実施形態の第kサブバンド学習済モデル3Akの処理内容は、第1実施形態のものと同様である。なお、第2実施形態ではN=9である。
第1サブバンド学習済モデル3A1~第Nサブバンド学習済モデル3ANで取得されたデータxb(信号xb(t))~xb(信号xb(t))は、サブバンド学習済モデル部3Aからアップサンプリング処理部4に出力される。
(ステップS23):
次に、第1アップサンプリング処理部41~第Nアップサンプリング処理部4Nは、それぞれ入力されたデータxb(信号xb(t))に対して間引き率Mでオーバサンプリングを行うことで、アップサンプリング処理を実行し(例えば、ゼロ挿入によりアップサンプリング処理を実行し)、アップサンプリング処理後のデータxc(信号xc(t))を取得する。
図15(a)に、k=1(処理対象領域R1)のときのアップサンプリング処理後の信号xc(t)の周波数スペクトルを示す。
図19(a)に、k=2(処理対象領域R2)のときのアップサンプリング処理後の信号xc(t)の周波数スペクトルを示す。
図23(a)に、k=3(処理対象領域R3)のときのアップサンプリング処理後の信号xc(t)の周波数スペクトルを示す。
(ステップS24):
次に、サブバンド合成部5の第1ベースバンドシフト処理部511~第Nベースバンドシフト処理部51Nでは、それぞれ入力されたアップサンプリング処理後のデータxc(信号xc(t))に対して、ベースバンドシフト処理が実行される。
具体的には、第kベースバンドシフト処理部51kでは、
xc_bs(t)=xc(t)×W -1/2
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、ベースバンドシフト処理後の信号xc_bs(t)を取得する。そして、第kベースバンドシフト処理部51kは、取得したデータxc_bs(信号xc_bs(t))を第k帯域制限フィルタ処理部52kに出力する。
図15(b)に、k=1(処理対象領域R1)のときのベースバンドシフト処理後の信号xc_bs(t)の周波数スペクトルを示す。
図19(b)に、k=2(処理対象領域R2)のときのベースバンドシフト処理後の信号xc_bs(t)の周波数スペクトルを示す。
図23(b)に、k=3(処理対象領域R3)のときのベースバンドシフト処理後の信号xc_bs(t)の周波数スペクトルを示す。
(ステップS25):
次に、第1帯域制限フィルタ処理部521~第N帯域制限フィルタ処理部52Nでは、それぞれ入力されたデータxc_bs(信号xc_bs(t))に対して帯域制限フィルタ処理が実行される。
具体的には、第k帯域制限フィルタ処理部52kでは、下記で表される2乗根cos特性の帯域制限フィルタで帯域制限を行う。
(1)-π/(N-1)≦ω≦π/(N-1)のとき
Figure 0007209275000010

(2)ω<-π/(N-1)またはω>π/(N-1)のとき
H(ω)=0
ω:角周波数
なお、上記2乗根cos特性の帯域制限フィルタのインパルス応答をh(t)とすると、第k帯域制限フィルタ処理部52kは、
xc_ft(t)=h(t)*xc_bs(t)
に相当する処理を実行し、帯域制限処理後の信号xc_ft(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
そして、第k帯域制限フィルタ処理部52kは、取得したデータxc_ft(信号xc_ft(t))を第k周波数シフト処理部53kに出力する。
図15(c)に、上記帯域制限フィルタの周波数特性を示す。
図15(d)は、k=1(処理対象領域R1)の場合において、図15(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xc_ft(t)の周波数スペクトルである。
図19(d)は、k=2(処理対象領域R2)の場合において、図19(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xc_ft(t)の周波数スペクトルである。
図23(d)は、k=3(処理対象領域R2)の場合において、図23(c)の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号xc_ft(t)の周波数スペクトルである。
(ステップS26):
次に、第1周波数シフト処理部531~第N周波数シフト処理部53Nでは、それぞれ入力された信号xc_ft(t)に対して周波数シフト処理が実行される。
具体的には、第k周波数シフト処理部53kでは、
xc_shft(t)=xc_ft(t)×W t((k-1)/2)
=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xc_shft(t)を取得する。そして、第k周波数シフト処理部53kは、取得したデータxc_shft(信号xc_shft(t))をサブバンド合成処理部54に出力する。
なお、図16(b)に、k=1(処理対象領域R1)のときの周波数シフト処理後の信号xc_shft(t)の周波数スペクトルを示す。k=1のときの周波数シフト処理は、第1周波数シフト処理部531により実行される。第k周波数シフト処理部53kでの周波数シフト量は、W t((k-1)/2)となるので、第k周波数シフト処理部53kでの処理後の信号の周波数スペクトルは、元のサブバンド信号(原信号)の周波数スペクトルの位置に戻る。
図20(b)に、k=2(処理対象領域R2)のときの周波数シフト処理後の信号xc_shft(t)の周波数スペクトルを示す。
図24(b)に、k=3(処理対象領域R3)のときの周波数シフト処理後の信号xc_shft(t)の周波数スペクトルを示す。
(ステップS27):
サブバンド合成処理部54は、第1周波数シフト処理部531~第N周波数シフト処理部53Nから出力されるデータxc_shft~xc_shftを入力し、入力されたデータxc_shft~xc_shftに対して合成処理(加算処理)を行うことで、出力データxo(信号xo(t))を取得する。
図25(a)に、k=1(処理対象領域R1)のときの周波数シフト処理後の信号xc_shft(t)を示す。
図25(b)に、k=2(処理対象領域R2)のときの周波数シフト処理後の信号xc_shft(t)を示す。
図25(c)に、k=3(処理対象領域R3)のときの周波数シフト処理後の信号xc_shft(t)を示す。
同様に、k=4~9(処理対象領域R4~R9)のときの周波数シフト処理後の信号xc_shft(t)が取得される。
そして、サブバンド合成処理部54により、以下の数式に相当する処理を実行することで、出力データxo(出力信号xo(t))が取得される。
Figure 0007209275000011

以上のように、本実施形態のオーディオデータ処理システムのオーディオデータ学習装置DLでは、フルバンドの波形データ(フルバンドのオーディオ信号)を2乗根cos特性を有するフィルタにより帯域制限フィルタ処理を行うことでサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部3によりモデルの学習(最適化)を行うことができる。サブバンド学習モデル部3では、N個のモデル(第1サブバンド学習モデル~第Nサブバンド学習モデル)により並列にサブバンド信号を用いたモデルの学習(最適化)を行うことができる。すなわち、オーディオデータ学習装置DLでは、波形直接生成モデルの学習(最適化)を並列処理により実現することができる。
また、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置INFでは、補助入力hおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部3Aにより、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部3Aでは、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)により並列にサブバンド信号を用いた推論処理を行うことができる。そして、オーディオデータ推論装置INFでは、N個のサブバンド学習済モデル(第1サブバンド学習済モデル~第Nサブバンド学習済モデル)の推論結果データに対してアップサンプリング処理を行った後、2乗根cos特性を有するフィルタにより帯域制限フィルタ処理を含むサブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。
すなわち、オーディオデータ推論装置INFでは、波形直接生成モデルの推論処理を並列処理により実現することができる。その結果、オーディオデータ推論装置INFでは、従来技術のようにフルバンドの波形データを用いた波形直接生成モデルによる推論処理に対して遙かに高速に推論処理を実行することができる。
さらに、本実施形態のオーディオデータ処理システムでは、フルバンドの波形データ(フルバンドのオーディオ信号)を2乗根cos特性を有するフィルタにより帯域制限フィルタ処理を行うことで取得したサブバンド信号を用いてモデルの学習を行うため、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。これは、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合、時系列のデータ(信号)に対してS/N比が最大となるように学習を行うため、誤差は全周波数に対して均一となり音質劣化を招く。特に、フルバンドの波形データを用いてモデルの学習を行う場合、高周波数領域での誤差が大きくなる傾向があり、その結果、フルバンドの波形データを用いて学習したモデルを用いて推論処理を行って取得される波形データ(オーディオ信号)は、その高周波領域のスペクトルが本来あるべき波形データ(オーディオ信号)のスペクトルから大きくずれる。これが音質劣化を招く。
それに対して、本実施形態のオーディオデータ処理システムでは、フルバンドの波形データ(フルバンドのオーディオ信号)を2乗根cos特性を有するフィルタにより帯域制限フィルタ処理を行うことで取得したサブバンド信号を用いてモデルの学習を行う。つまり、本実施形態のオーディオデータ処理システムでは、強制的に「色」が付けられたサブバンド信号、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。
そして、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置INFでは、上記のようにして取得された学習済みモデルを用いて推論処理を行うため、推論処理を行って取得される波形データ(オーディオ信号)は、その高周波領域のスペクトルが本来あるべき波形データ(オーディオ信号)のスペクトルから大きくずれることがない。その結果、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置INFにより取得される波形データ(オーディオ信号)は、非常に高品質の波形データ(オーディオ信号)となる。
また、本実施形態のオーディオデータ処理システムでは、学習時と推論時において、図12に示した各周波数領域ごとに、図12で示した2乗根cos特性のフィルタによる帯域制限フィルタ処理を行いサブバンド合成処理を行うので、元の信号(原信号)に対してエネルギー損失が殆どなく適切に原信号を復元(推定)することができる。
図26に、(1)原信号のスペクトログラム(図26(a))、(2)サブバンド分割を行わずフルバンドの波形データをそのまま学習させた学習済みモデルによる出力信号(推論処理後の信号)のスペクトログラム(図26(b))、および、(3)本実施形態のオーディオ処理システムによる出力信号(推論処理後の信号)のスペクトログラム(図26(c))を示す。
なお、図26のデータは、以下の条件により取得したデータである。
(1)日本語女性話者7242文(約4.8時間)および男性話者5697文(約3.7時間)を学習セット、それぞれ100文ずつをテストセットとした。サンリング周波数fs=48kHz収録音声を32kHzにダウンサンプリングした。
(2)条件なしの波形直接生成モデルによる学習、生成(推論)を行う。補助入力hは用いず、正解入力[x(1),・・・,x(t-1)]から、x’(t)を推定し、生成サンプルx’=[x’(1),・・・,x’(T)]を出力とする。
図26から分かるように、フルバンドの波形データをそのまま学習させた学習済みモデルによる出力信号(推論処理後の信号)のスペクトログラム(図26(b))では、原信号のスペクトログラム(図26(a))に比較して、高周波領域(例えば、10kHz以上の領域)において、大きな誤差を生じている(高周波領域のスペクトル成分が原信号に比べて大きくなりすぎている)。これが音質劣化を招いている。
それに対して、本実施形態のオーディオ処理システムによる出力信号(推論処理後の信号)のスペクトログラム(図26(c))は、原信号のスペクトログラム(図26(a))と非常に近いものとなっている。すなわち、本実施形態のオーディオ処理システムによる出力信号(推論処理後の信号)は、原信号(正解データ)に非常に近く、極めて優れた推論処理を実行できていることが分かる。
以上の通り、本実施形態のオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができるとともに、非常に高品質なオーディオデータを取得することができる。
[第3実施形態]
次に、第3実施形態について、説明する。
なお、本実施形態において、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。
サブバンド処理を用いたオーディオデータ処理システムでは、推論処理時(例えば、音声生成時)のランダムサンプリングにより、帯域間での位相のズレが問題となる。
第3実施形態のオーディオデータ処理システム3000では、複数帯域入力型の構成により、帯域間での位相のズレの発生を適切に抑制する。
<3.1:オーディオデータ処理システムの構成>
図27は、第3実施形態に係るオーディオデータ処理システム3000の概略構成図である。
図28は、第3実施形態に係るオーディオデータ処理システム3000のオーディオデータ学習装置DLaの概略構成図である。
図29は、第3実施形態に係るオーディオデータ処理システム3000のオーディオデータ推論装置INFaの概略構成図である。
(3.1.1:オーディオデータ学習装置の構成)
オーディオデータ処理システム3000は、図27に示すように、オーディオデータ学習装置DLaとオーディオデータ推論装置INFaとを備える。
オーディオデータ学習装置DLaは、図28に示すように、第1実施形態のオーディオデータ学習装置DLにおいて、サブバンド学習モデル部3を、サブバンド学習モデル部3Cに置換した構成を有している。
サブバンド学習モデル部3Cは、図28に示すように、第1サブバンド学習モデル31C~第Nサブバンド学習モデル3NCを備える。
第1サブバンド学習モデル31Cは、第1ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_dと、補助入力hとを入力する。
第2サブバンド学習モデル32C~第Nサブバンド学習モデル3NCは、それぞれ、第2ダウンサンプリング処理部22~第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d~x_dと、補助入力hと入力することができる。さらに、第2サブバンド学習モデル32C~第Nサブバンド学習モデル3NCのそれぞれには、第1ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_dが入力される。
そして、第1サブバンド学習モデル31C~第Nサブバンド学習モデル3NCでは、それぞれ、入力されたデータと補助入力hとを用いてモデルの学習を行い、各モデルを最適化する(各モデルを最適化するパラメータを取得する)。つまり、第kサブバンド学習モデル3kC(k:自然数、1≦k≦N)では、(1)サブバンド信号データx_dと、(2)サブバンド信号データx_dと、(3)補助入力hとを用いて、モデルの学習を行い、各モデルを最適化する。
なお、第kサブバンド学習モデル3kC(k:自然数、1≦k≦N)において、補助入力hの入力を省略し、入力データ(サブバンド信号データx_dおよびサブバンド信号データx_d)のみを用いてモデルの学習を行うようにしてもよい。
(3.1.2:オーディオデータ推論装置の構成)
オーディオデータ推論装置INFaは、図29に示すように、サブバンド学習済モデル部3Bと、アップサンプリング処理部4と、サブバンド合成部5とを備える。
オーディオデータ推論装置INFaは、図29に示すように、第1実施形態のオーディオデータ推論装置INFにおいて、サブバンド学習済モデル部3Aを、サブバンド学習済モデル部3Bに置換した構成を有している。
サブバンド学習済モデル部3Bは、図29に示すように、第1サブバンド学習済モデル3B1~第Nサブバンド学習済モデル3BNを備える。サブバンド学習済モデル3B1~第Nサブバンド学習済モデル3BNは、それぞれ、第1サブバンド学習モデル31C~第Nサブバンド学習モデル3NCによりモデル学習し最適化されたモデルである(モデル学習により取得された最適化パラメータを設定されたモデルである)。
第1サブバンド学習済モデル3B1は、図29に示すように、補助入力hと、推論時の入力データx’を構成するサブバンド信号データxaを入力し、入力されたデータに対して、第1サブバンド学習済モデル3B1を用いた処理を実行し、処理後のデータをデータxbとして、第1アップサンプリング処理部41に出力する。なお、第1サブバンド学習済モデル3B1に入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータである。
第kサブバンド学習済モデル3Bk(k:自然数、2≦k≦N)は、図29に示すように、(1)補助入力hと、(2)推論時の入力データx’を構成するサブバンド信号データxaと、(3)推論時の入力データx’を構成するサブバンド信号データxaとを入力し、入力されたデータに対して、第kサブバンド学習済モデル3Bkを用いた処理を実行し、処理後のデータをデータxbkとして、第kアップサンプリング処理部4kに出力する。なお、第kサブバンド学習済モデル3Bkに入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータと、サブバンド信号データxaとしてもよい。
<3.2:オーディオデータ処理システムの動作>
以上のように構成されたオーディオデータ処理システム3000の動作について以下説明する。
以下では、オーディオデータ処理システム3000の動作を、(1)オーディオデータ学習装置DLaによる学習処理と、(2)オーディオデータ推論装置INFaによる推論処理とに分けて説明する。
(3.2.1:学習処理)
オーディオデータ処理システム3000において、第1実施形態と同様に、図6のステップS1~S5の処理が実行される。
(ステップS6):
ステップS6において、サブバンド学習モデル部3Cの第1サブバンド学習モデル31Cでは、第1ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_dと、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
サブバンド学習モデル部3Cの第kサブバンド学習モデル3kC(k:自然数、2≦k≦N)では、(1)第kダウンサンプリング処理部2kから出力されるダウンサンプリング処理後のサブバンド信号データx_dと、(2)補助入力hと、(3)第1ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_dと、を用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
本実施形態のオーディオデータ学習装置DLaでは、第1実施形態と同様に、入力されるフルバンドの波形信号から、上記処理によりサブバンド分割したサブバンド信号を用いることで、並列処理を実行しやすくし、高速化処理を実現させる。
第1サブバンド学習モデル31Cでは、コンテキストラベル等の補助入力hと、第1ダウンサンプリング処理部21により取得されたデータx_dとを用いて条件付き確率p(x_d|h)を以下のように設定されたモデルを用いてモデルの学習を行う。
Figure 0007209275000012

なお、t=1のとき、p(x_d(t)|x_d(1),・・・,x_d(t-1),h)は、p(x_d(1)|h)とすればよい。
また、x_d(1)=x1,SSB(M)であり、x_d(t)=x1,SSB(t×M)である。つまり、第1サブバンド学習モデル31Cでは、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率p(x_d|h)を求めるための対象データが1/Mで済む。
そして、第1サブバンド学習モデル31Cでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第1サブバンド学習モデル31Cでは、
Figure 0007209275000013

により、最適化パラメータθopt_1を取得することで、モデルの最適化処理(モデル学習)を実行する。パラメータθは、スカラー、ベクトル、またはテンソルである。
なお、最適化パラメータθopt_1を取得するために、上記数式による処理(argmaxによる処理)ではなく、条件付き確率p(x_d|h)に基づいて、ランダムサンプリングを行うことで、出力データを取得し(例えば、p(x_d|h)が所定の値以上である複数のデータから、ランダムサンプリングにより、出力データを選択し)、当該出力データを、例えば、所定の評価関数により評価することで、最適化パラメータθopt_1を取得するようにしてもよい。
以上のようにして、サブバンド学習モデル部3Cの第1サブバンド学習モデル31Cにおいて、学習処理が実行される。
第kサブバンド学習モデル3kC(k:自然数、2≦k≦N)では、コンテキストラベル等の補助入力hと、第kダウンサンプリング処理部2kにより取得されたデータx_dと、第1ダウンサンプリング処理部21により取得されたデータx_dとを用いて条件付き確率p(x_d|h)を以下のように設定されたモデルを用いてモデルの学習を行う。
Figure 0007209275000014

なお、t=1のとき、p(x_d(t)|x_d(1),・・・,x_d(t-1),h,x_d(1),・・・,x_d(t-1))は、p(x_d(1)|h)とすればよい。
また、x_d(1)=xk,SSB(M)であり、x_d(t)=xk,SSB(t×M)である。
そして、第kサブバンド学習モデル3kCでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第kサブバンド学習モデル3kCでは、
Figure 0007209275000015
により、最適化パラメータθopt_kを取得することで、モデルの最適化処理(モデル学習)を実行する。パラメータθは、スカラー、ベクトル、またはテンソルである。
なお、最適化パラメータθopt_kを取得するために、上記数式による処理(argmaxによる処理)ではなく、条件付き確率p(x_d|h)に基づいて、ランダムサンプリングを行うことで、出力データを取得し(例えば、p(x_d|h)が所定の値以上である複数のデータから、ランダムサンプリングにより、出力データを選択し)、当該出力データを、例えば、所定の評価関数により評価することで、最適化パラメータθopt_kを取得するようにしてもよい。
以上のようにして、サブバンド学習モデル部3Cの第kサブバンド学習モデル3kCにおいて、学習処理が実行される。
(3.2.2:推論処理)
次に、オーディオデータ推論装置INFaによる推論処理について、説明する。
以下では、第1実施形態と同様に、信号を4個(N=4)のサブバンド信号に分解(分割)する場合を例として、図9のフローチャートを参照しながら説明する。
(ステップS21):
ステップS21において、オーディオデータ推論装置INFaのサブバンド学習済モデル部3Bの第1サブバンド学習済モデル3B1に、推論時の入力データx’を構成するサブバンド信号データxaおよび補助入力hが入力される。
なお、サブバンド信号データxaは、入力データx’(信号x’(t))に対してサブバンド分割部1、ダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データx’(信号x’(t))をサブバンド分割部1に入力し、サブバンド分割部1およびダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号(ダウンサンプリング処理部2から出力される信号)をサブバンド信号データxaとして、サブバンド学習済モデル部3Bに入力させるようにしてもよい。
なお、第1サブバンド学習済モデル3B1に入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータである。
また、オーディオデータ推論装置INFaのサブバンド学習済モデル部3Bの第kサブバンド学習済モデル3Bk(k:自然数、2≦k≦N)に、(1)推論時の入力データx’を構成するサブバンド信号データxaと、(2)補助入力hと、(3)推論時の入力データx’を構成するサブバンド信号データxaと、が入力される。
なお、サブバンド信号データxaは、入力データx’(信号x’(t))に対してサブバンド分割部1、ダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データx’(信号x’(t))をサブバンド分割部1に入力し、サブバンド分割部1およびダウンサンプリング処理部2で上記と同様の処理を行うことで取得される信号(ダウンサンプリング処理部2から出力される信号)をサブバンド信号データxaとして、サブバンド学習済モデル部3Bに入力させるようにしてもよい。
なお、第kサブバンド学習済モデル3Bkに入力されるデータは、補助入力hおよびサブバンド信号データxaの少なくとも一方のデータと、サブバンド信号データxaであってもよい。
(ステップS22):
ステップS22において、サブバンド学習済モデル部3Bの第1サブバンド学習済モデル3B1は、補助入力hと、サブバンド信号データxaに対して、第1サブバンド学習済モデル3B1を用いた処理を実行し、処理後のデータをデータxbとして取得する。
具体的には、xa(t)が0~255のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率p(xa|h)が最大となる値をxa(t)の値に決定する。あるいは、下記数式で求められる条件付き確率p(xa|h)が所定の値よりも大きな値をとるデータの中から、ランダムサンプリングにより、1つのデータを選択し、選択した当該データをxa(t)の値に決定する。
Figure 0007209275000016

なお、t=1のとき、p(xa(t)|xa(1),・・・,xa(t-1),h)は、p(xa(1)|h)とすればよい。
例えば、xa(t)=200としたとき、第1サブバンド学習済モデル3B1で求められる条件付き確率p(xa|h)が最大値となるとき、xa(t)=200に決定する。
あるいは、第1サブバンド学習済モデル3B1で求められる条件付き確率p(xa|h)の値が所定の値よりも大きな値をとる複数のデータの中から、ランダムサンプリングにより、1つのデータを選択し、選択した当該データをxa(t)に決定するようにしてもよい。
上記のように処理することで、第1サブバンド学習済モデル3B1は、第1サブバンド学習済モデル3B1の出力データxb(信号xb(t))を取得し、取得したデータxb(信号xb(t))を第1アップサンプリング処理部41に出力する。
なお、第1サブバンド学習済モデル3B1を用いた処理(推論処理)は、フルバンドの波形データに対して間引き率Mでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。したがって、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率p(xa|h)を求めるための対象データが1/Mで済む。
したがって、N個のサブバンド学習済モデルを用いた処理(推論処理)では、従来技術のようにフルバンドの波形データを用いる場合よりも高速で処理を実行することができる。
また、サブバンド学習済みモデル部3Bの第kサブバンド学習済モデル3Bk(k:自然数、1≦k≦N)は、(1)補助入力hと、(2)サブバンド信号データxaと、(3)サブバンド信号データxaとを入力し、当該入力データに対して、第kサブバンド学習済モデル3Bkを用いた処理を実行し、処理後のデータをデータxbとして取得する。
具体的には、xa(t)およびxa(t)が0~255のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率p(xa|h)が最大となる値をxa(t)の値に決定する。あるいは、下記数式で求められる条件付き確率p(xa|h)が所定の値よりも大きな値をとるデータの中から、ランダムサンプリングにより、1つのデータを選択し、選択した当該データをxa(t)の値に決定する。
Figure 0007209275000017

なお、t=1のとき、p(xa(t)|xa(1),・・・,xa(t-1),h,xa(1),・・・,xa(t-1))は、p(xa(1)|h)とすればよい。
例えば、xa(t)=200としたとき、第kサブバンド学習済モデル3Bkで求められる条件付き確率p(xa|h)が最大値となるとき、xa(t)=200に決定する。
あるいは、第1サブバンド学習済モデル3B1で求められる条件付き確率p(xa|h)の値が所定の値よりも大きな値をとる複数のデータの中から、ランダムサンプリングにより、1つのデータを選択し、選択した当該データをxa(t)に決定するようにしてもよい。
上記のように処理することで、第kサブバンド学習済モデル3Ckは、第kサブバンド学習済モデル3Bkの出力データxb(信号xb(t))を取得し、取得したデータxb(信号xb(t))を第kアップサンプリング処理部4kに出力する。
なお、第kサブバンド学習済モデル3Bkを用いた処理(推論処理)は、フルバンドの波形データに対して間引き率Mでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。
したがって、N個のサブバンド学習済モデルを用いた処理(推論処理)では、従来技術のようにフルバンドの波形データを用いる場合よりも高速で処理を実行することができる。
(ステップS23~S27):
ステップS23~S27では、オーディオデータ推論装置INFaにおいて、第1実施形態と同様の処理が実行される。
以上のように、オーディオデータ処理システム3000のオーディオデータ学習装置DLaでは、フルバンドの波形データ(フルバンドのオーディオ信号)をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部3Cによりモデルの学習(最適化)を行うことができる。さらに、サブバンド学習モデル部3Cの第2サブバンド学習モデル32C~第Nサブバンド学習モデル3NCには、ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_dが共通して入力されており、第2サブバンド学習モデル32C~第Nサブバンド学習モデル3NCは、当該ダウンサンプリング処理後のサブバンド信号データx_dを用いて、学習を行う。つまり、サブバンド学習モデル部3Cでは、N個の学習モデルにおいて、共通して入力されるダウンサンプリング処理後のサブバンド信号データx_dを用いて、学習が実行されるため、帯域間での位相のズレの発生を抑制した信号を出力する学習済モデルを取得することが可能となる。
また、オーディオデータ処理システム3000のオーディオデータ推論装置INFaでは、サブバンド学習済モデル部3Bにおいて、第1サブバンド学習済モデル3B1には、補助入力hおよびサブバンド信号xaが入力され、第kサブバンド学習済モデル3Bk(k:自然数、1≦k≦N)には、(1)補助入力hと、(2)サブバンド信号xaと、(3)サブバンド信号xaとが入力される。つまり、オーディオデータ推論装置INFaのサブバンド学習済モデル部3Bでは、N個の学習済モデルに共通してサブバンド信号データxaが入力されて、推論処理が実行されるため、帯域間での位相のズレの発生を抑制した信号を出力することが可能となる。
このように、オーディオデータ処理システム3000では、複数帯域入力型の構成により、帯域間での位相のズレの発生を適切に抑制することができる。つまり、オーディオデータ処理システム3000では、複数帯域入力型の構成により、適切な位相補償を実現できる。その結果、オーディオデータ処理システム3000では、さらに高品質なオーディオデータを取得することができる。
なお、上記では、サブバンド学習モデル部3CのN個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データがデータx_dである場合について、説明したが、これに限定されることはなく、例えば、サブバンド学習モデル部3CのN個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データは、データx_d~x_dの中の任意のデータであってもよい。また、サブバンド学習モデル部3CのN-1個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データの数は「1」に限定されず、任意の数Num1(Num1:自然数、2≦Num1≦N)であってもよい。
また、上記では、サブバンド学習済モデル部3BのN個の学習済モデルに共通して入力されるサブバンド信号データがデータxaである場合について、説明したが、これに限定されることはなく、例えば、サブバンド学習済モデル部3BのN個の学習済モデルに共通して入力されるサブバンド信号データは、データxa~xaの中の任意のデータであってもよい。また、サブバンド学習済モデル部3BのN個の学習済モデルに共通して入力されるサブバンド信号データの数は「1」に限定されず、任意の数Num2(Num2:自然数、2≦Num2≦N)であってもよい。
また、オーディオデータ処理システム3000において、サブバンド学習モデル部3CのN個のモデル、および、サブバンド学習済モデル部3BのN個のモデルとして、非特許文献1に開示されているWaveNetによるモデルを採用してもよい。
また、オーディオデータ処理システム3000において、サブバンド学習モデル部3CのN個のモデル、および、サブバンド学習済モデル部3BのN個のモデルとして、下記文献1に開示されているFFTNetによるモデルを採用してもよい。
(文献1):
Z. Jin et al., “FFTNet: A real-time speaker-dependent neural vocoder,” in Proc. ICASSP, Apr. 2018, pp. 2251-2255.
≪第1変形例≫
次に、第3実施形態の第1変形例について、説明する。
なお、本変形例において、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。
第3実施形態の第1変形例のオーディオデータ処理システムでは、サブバンド学習モデル部3CのN個のモデル、および、サブバンド学習済モデル部3BのN個のモデルとして、文献1に開示されているFFTNetによるモデル(FFTNetモデル)を採用する場合について説明する。
図30は、FFTNetモデル6の概略構成図である。
図31は、FFTNetモデル6の第1層の概略構成図である。
図32は、FFTNetモデル6の第K+1層(K:自然数)の概略構成図である。
FFTNetモデル6は、図30に示すように、第1層FL_1と、第2層FL_2~第P+1層FL_P+1(P:自然数)の中間層と、全結合層FL_fullと、出力層FL_outとを備える。
第1層FL_1は、図31に示すように、埋込処理部611と、データ保持部612、613と、コンボリューション部614,615と、重み付け加算部616と、転置コンボリューション処理部617と、データ保持部618、619と、コンボリューション部620,621と、重み付け加算部622と、加算部623と、活性化処理部624とを備える。
埋込処理部611は、例えば、オーディオ信号をμ-law圧縮し、例えば、0~255の離散値をとるサンプルとして取得したデータであり、2個(L:自然数)のサンプルからなるデータx_inを入力する。埋込処理部611は、データx_inの各サンプルを0~255ビット目の中の1つだけ「1」とし、他を「0」とするone-hotベクトルに変換する。
データ保持部612は、埋込処理部611により取得されたone-hotベクトルのうち、1番目から2L-1番目までの2L-1個のサンプルを、Dx(1),Dx(2),・・・,Dx(2L-1)として保持する。
データ保持部613は、埋込処理部611により取得されたone-hotベクトルのうち、2L-1+1番目から2番目までの2L-1個のサンプルを、Dx(2L-1+1),・・・,Dx(2)として保持する。
コンボリューション部614は、データ保持部612に保持されているデータDx(1),Dx(2),・・・,Dx(2L-1)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データxを取得する。
コンボリューション部615は、データ保持部613に保持されているデータDx(2L-1+1),・・・,Dx(2)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データxを取得する。
重み付け加算部616は、コンボリューション結果データxと、コンボリューション結果データxとに対して、重み付け加算処理、すなわち、
xo=W×x+W×x
:重み行列
:重み行列
に相当する処理を実行し、重み付け加算処理データxoを取得する。
転置コンボリューション処理部617は、補助入力hに対して、補助入力hをアップサンプリングするための処理である転置コンボリューション処理(例えば、非特許文献1に開示されている処理)を実行することで、補助入力hから導出された2個(L:自然数)のサンプルからなるデータを取得する。
データ保持部618は、転置コンボリューション処理部617により取得された2個のサンプルのうち、1番目から2L-1番目までの2L-1個のサンプルを、Dh(1),Dh(2),・・・,Dh(2L-1)として保持する。
データ保持部619は、転置コンボリューション処理部617により取得された2個のサンプルのうち、2L-1+1番目から2番目までの2L-1個のサンプルを、Dh(2L-1+1),・・・,Dh(2)として保持する。
コンボリューション部620は、データ保持部618に保持されているデータDh(1),Dh(2),・・・,Dh(2L-1)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データhを取得する。
コンボリューション部621は、データ保持部619に保持されているデータDh(2L-1+1),・・・,Dh(2)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データhを取得する。
重み付け加算部622は、コンボリューション結果データhと、コンボリューション結果データhとに対して、重み付け加算処理、すなわち、
ho=V×h+V×h
:重み行列
:重み行列
に相当する処理を実行し、重み付け加算処理データhoを取得する。
加算部623は、重み付け加算処理データxoと、重み付け加算処理データhoとに対して、加算処理、すなわち、
z=xo+ho=(W×x+W×x)+(V×h+V×h
に相当する処理を実行し、データzを取得する。
活性化処理部624は、加算部623により取得されたデータzに対して、
out_L=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層FL_1の出力データout_Lを取得する。
上記のようにして取得された第1層FL_1の出力データout_Lは、第1層から第2層FL_2に出力される。
第K+1層FL_K+1は、図32に示すように、データ保持部630、631と、コンボリューション部632,633と、重み付け加算部634と、活性化処理部635とを備える。
データ保持部630は、第K層からの出力データout_Lの1番目から2L-K―1番目までの2L-K-1個のサンプルを、DxK+1(1),・・・,DxK+1(2L-K-1)として保持する。
データ保持部631は、第K層からの出力データout_Lの2L-K-1+1番目から2L―K番目までの2L-K-1個のサンプルを、DxK+1(2L-K-1+1),・・・,DxK+1(2L―K)として保持する。
コンボリューション部632は、データ保持部630に保持されているデータDxK+1(1),・・・,DxK+1(2L-K-1)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データx’を取得する。
コンボリューション部633は、データ保持部631に保持されているデータDxK+1(2L-K-1+1),・・・,DxK+1(2L―K)に対して、1×1のコンボリューション(畳み込み処理)を実行し、コンボリューション結果データx’を取得する。
重み付け加算部634は、コンボリューション結果データx’と、コンボリューション結果データx’とに対して、重み付け加算処理、すなわち、
z’=W’×x’+W’×x’
W’:重み行列
W’:重み行列
に相当する処理を実行し、重み付け加算処理データz’を取得する。
活性化処理部635は、重み付け加算部634により取得されたデータz’に対して、
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層FL_K+1の出力データout_LK+1を取得する。
上記のようにして取得された第K+1層FL_K+1の出力データout_LK+1は、第K+1層から第K+2層に出力される。
図30の第2層~第P+1層のそれぞれは、上記(第K+1層の構成)と同様の構成を有している。
そして、図30に示すように、第P+1層FL_P+1の出力が全結合層FL_fullに出力される。全結合層FL_fullに含まれるノード(シナプス)は、第P+1層FL_P+1の出力ノードの全てに結合されており、全結合層FL_fullでは、上記のように構成されたニューラルネットワークによる処理が実行され、全結合層FL_fullの出力データが取得される。そして、全結合層FL_fullの出力データは、出力層に出力される。
出力層は、例えば、ソフトマックス層であり、出力層では、各ノードの出力値の合計が「1」となるように正規化され、各ノードの出力値が事後確率分布の確率を示すデータx_out(例えば、256個のサンプルからなるデータ)が取得される。
本変形例のオーディオデータ処理システムでは、上記のように構成されたFFTNetモデル6を、サブバンド学習モデル部3CのN個のモデル、および、サブバンド学習済モデル部3BのN個のモデルとして採用し、第1実施形態~第3実施形態で説明した処理を実行する。
上記のように、FFTNetモデル6は、非常にシンプルな構成を有しているため、本変形例のオーディオデータ処理システムにおいて、FFTNetモデル6を採用することで、ネットワークパラメータ数を増加させることなく、高速処理(例えば、リアルタイム処理)を実現する波形生成モデルを構築することができる。
これにより、本変形例のオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
≪第2変形例≫
次に、第3実施形態の第2変形例について、説明する。
なお、本変形例において、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。
図33は、第3実施形態の第2変形例のFFTNetモデル6の第1層FL_1aの概略構成図である。
図34は、第3実施形態の第2変形例のFFTNetモデル6の第K+1層(K:自然数)FL_K+1aの概略構成図である。
第3実施形態の第2変形例のオーディオデータ処理システムでは、ネットワークパラメータ数を増加させずに、モデル精度を向上させるために、残差接続(Residual connection)を採用する。
具体的には、図33に示すように、第1層FL_1aに合成部625を追加し、合成部625にて、加算部623の出力と、活性化処理部624の出力との両方を合成したデータを生成し、当該データ(加算部623の出力と、活性化処理部624の出力との両方を含むデータ)が上位の層に出力されるようにする。
また、図34に示すように、第K+1層FL_K+1aに合成部636を追加し、合成部636にて、重み付け加算部634の出力と、活性化処理部635の出力との両方を合成したデータを生成し、当該データ(重み付け加算部634の出力と、活性化処理部635の出力との両方を含むデータ)が上位の層に出力されるようにする。
このようにすることで、層が深くなった場合に、下位の層の出力の微小変化が上位層に伝搬されず、学習が効率的に進まなくなることを防止することができる。
したがって、上記のように、本変形例のオーディオデータ処理システムでは、各層において、残差接続(Residual connection)(例えば、図33のパスR_connect_L、図34のR_connect_LK+1を含む構成)を採用することで、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。
これにより、本変形例のオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。
なお、本変形例のオーディオデータ処理システムにおいて、一部の層においてのみ、残差接続(Residual connection)を採用するようにしてもよい。
≪第3変形例≫
次に、第3実施形態の第3変形例について、説明する。
なお、本変形例において、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。
図35は、第3実施形態の第3変形例のオーディオデータ処理システムの概略構成図である。
WaveNetを用いたシステムでは,予測誤差により発生する雑音成分により高域の周波数特性が劣化し、音質が劣化する問題がある。これに対して、聴覚特性を考慮した時不変ノイズシェーピング法が提案され,音質の改善を実現している。したがって、この方式はFFTNetを用いたシステムにもそのまま適用できる。第3実施形態の第3変形例では、第3実施形態の第1変形例、第2変形例と同様に、サブバンド学習モデル部3CのN個のモデル、および、サブバンド学習済モデル部3BのN個のモデルとして、FFTNetモデルを採用する。
本変形例のオーディオデータ処理システムは、図35に示すように、学習処理用の機能部として、スピーチコーパスDB1と、時不変ノイズシェーピングフィルタ算出部71と、フィルタ格納部72と、音響特徴量抽出部73と、フィルタ処理部74と、量子化部75と、オーディオデータ学習装置DLbとを備える。
また、本変形例のオーディオデータ処理システムは、図35に示すように、推論処理用の機能部として、オーディオデータ推論装置INFbと、逆量子化部81と、逆フィルタ処理部82とを備える。
スピーチコーパスDB1は、音声波形データを格納するためのコーパスであり、例えば、データベースにより実現される。
時不変ノイズシェーピングフィルタ算出部71は、スピーチコーパスDB1に格納されている学習用データ全体からメルケプストラムの平均値を算出し、以下のように設計された伝達関数によりフィルタを特定(算出)する。
Figure 0007209275000018
γ(m):m次のメルケプストラム
γ:m次のメルケプストラムのパワー係数
β:ノイズエネルギー制御係数
Mc:メルケプストラム次数
α:重み係数
フィルタ格納部72は、時不変ノイズシェーピングフィルタ算出部71により特定(算出)されたフィルタに関するデータを格納する。
音響特徴量抽出部73は、スピーチコーパスDB1に格納されている学習用データから音響特徴量hを抽出し、オーディオデータ学習装置DLbに出力する。
フィルタ処理部74は、スピーチコーパスDB1から出力される学習用データxに対して、フィルタ格納部72に格納されているフィルタに関するデータに基づくフィルタ処理を実行し、フィルタ処理後のデータx_eqを取得する。そして、フィルタ処理部74は、フィルタ処理後のデータx_eqを量子化部75に出力する。
量子化部75は、フィルタ処理部74から出力されるデータx_eqに対して量子化処理を実行し、量子化処理後のデータをデータxqとして、オーディオデータ学習装置DLbに出力する。
オーディオデータ学習装置DLbは、上記実施形態(変形例を含む)で示したオーディオデータ学習装置DL、DLaと同様の構成を有しており、音響特徴量h(補助入力h)およびデータxqを入力として、上記実施形態(変形例を含む)と同様の学習処理を実行する。オーディオデータ学習装置DLbは、上記学習処理により、オーディオデータx_learned(例えば、音声波形データの学習済みデータ)を取得する。
オーディオデータ推論装置INFbは、音響特徴量h(補助入力h)およびデータx_learnedを入力とし、上記実施形態(変形例を含む)と同様の推論処理を実行し、データxq’を取得する。そして、オーディオデータ推論装置INFbは、取得したデータxq’を逆量子化部81に出力する。
逆量子化部81は、オーディオデータ推論装置INFbから出力されるデータxq’に対して、逆量子化処理を実行し、データx_eq’を取得する。そして、逆量子化部81は、取得したデータx_eq’を逆フィルタ処理部82に出力する。
逆フィルタ処理部82は、フィルタ格納部72から取得したフィルタに関するデータに基づいて、フィルタ処理部74と逆特性となる逆フィルタを決定(算出)する。逆フィルタ処理部82は、逆量子化部81から出力されるデータx_eq’に対して、上記により決定した逆フィルタによる処理(逆フィルタ処理)を実行し、データx’を取得する。
このようにして、取得されたデータx’は、時不変ノイズシェーピング処理が実行されたものとなるので、その音質が改善されたものとなる。
このように、本変形例のオーディオデータ処理システムでは、時不変ノイズシェーピング処理を適用して学習処理、推論処理を実行するので、さらに、高品質のオーディオデータを取得することができる。
[他の実施形態]
上記実施形態、および/または、変形例を任意に組み合わせて、オーディオデータ処理システム、オーディオデータ学習装置、および/または、オーディオデータ推論装置を構成するようにしてもよい。
また、上記実施形態、および/または、変形例の一部を組み合わせて、オーディオデータ処理システム、オーディオデータ学習装置、および/または、オーディオデータ推論装置を構成するようにしてもよい。
上記実施形態のオーディオデータ処理システム1000、オーディオデータ学習装置DL、オーディオデータ推論装置INFは、それぞれ複数の装置により実現されるものであってもよい。
また、上記実施形態のオーディオデータ学習装置DL、オーディオデータ推論装置INFにおいて、共有できる機能部の全部または一部は、共有にしてもよい。
また、上記実施形態では、オーディオデータ学習装置DLのサブバンド分割部1で周波数シフト処理を実行した後、帯域制限フィルタ処理を実行する場合について説明したが、これに限定されることはなく、例えば、オーディオデータ学習装置DLのサブバンド分割部1で帯域制限フィルタ処理を実行した後、周波数シフト処理を実行するようにしてもよい。この場合、第1帯域制限フィルタ処理部121~第N帯域制限フィルタ処理部12Nは、例えば、図12(b)に示したフィルタ特性を有するフィルタによる処理を実行するようにすればよい(フィルタバンク構成)。
また、上記実施形態のオーディオデータ学習装置DLにおいて、補助入力hをコンテキストラベルのデータとし、当該コンテキストラベルに対応するオーディオデータ(オーディオ信号)をオーディオデータ学習装置DLに入力し、学習処理を行うことで、TTS(Text to Speech)システムの学習処理を実行するようにしてもよい。
そして、オーディオデータ推論装置INFでは、補助入力hをコンテキストのデータとすることで、当該コンテキストに対応する音声データ(音声信号)を推論(出力)させることができる。
なお、上記において、補助入力hをコンテキストラベルのデータの代わりに音響特徴量のデータとしてもよい。
また、上記実施形態のオーディオデータ学習装置DLにおいて、補助入力hを話者を特定するデータとし、当該話者の音声データ(オーディオ信号)をオーディオデータ学習装置DLに入力し、学習処理を行うようにしてもよい。
そして、オーディオデータ推論装置INFでは、補助入力hを話者を特定するデータとすることで、当該話者に対応する音声データ(音声信号)(当該話者が話しているような音声)を推論(出力)させることができる。
また、上記実施形態のオーディオデータ学習装置DLにおいて、補助入力hを音楽関連のデータ(例えば、楽器を特定するデータ)とし、当該音楽関連のデータに対応するオーディオデータ(オーディオ信号)をオーディオデータ学習装置DLに入力し、学習処理を行うようにしてもよい。
そして、オーディオデータ推論装置INFでは、補助入力hを音楽関連のデータとすることで、当該音楽関連のデータに対応するオーディオデータ(例えば、音楽関連のデータを「ピアノ」とすることで、ピアノの音の信号)を推論(出力)させることができる。
また上記実施形態で説明したオーディオデータ処理システム1000、オーディオデータ学習装置DL、オーディオデータ推論装置INFにおいて、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部または全部を含むように1チップ化されても良い。
なおここではLSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。
また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。
例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図36に示したハードウェア構成(例えばCPU、ROM、RAM、入力部、出力部、通信部、記憶部(例えば、HDD、SSD等により実現される記憶部)、外部メディア用ドライブ等をバスBusにより接続したハードウェア構成)を用いて各機能部をソフトウェア処理により実現するようにしてもよい。
また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図36に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。
また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。
前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、大容量DVD、次世代DVD、半導体メモリを挙げることができる。
上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。
本発明によれば、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ処理システムを実現するができる。このため本発明は、オーディオデータ処理関連産業分野において有用であり、当該分野において実施することができる。
1000 オーディオデータ処理システム
DL オーディオデータ学習装置
1 サブバンド分割部
2 ダウンサンプリング処理部
3 サブバンド学習モデル部
INF オーディオデータ推論装置
3A サブバンド学習済モデル部
4 アップサンプリング処理部
5 サブバンド合成部

Claims (7)

  1. オーディオデータに対して周波数帯域を制限する処理を実行することでN個(N:自然数、N≧2)のサブバンド信号を取得するサブバンド分割部と、
    前記N個のサブバンド信号の信号値のそれぞれに対して、所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記N個のサブバンド信号のそれぞれに対してダウンサンプリング処理を実行し、N個のダウンサンプリング処理後サブバンド信号である第1ダウンサンプリング処理後サブバンド信号~第Nダウンサンプリング処理後サブバンド信号を取得するダウンサンプリング処理部と、
    N個(N:自然数、N≧2)の学習可能モデルである第1サブバンド学習モデル~第Nサブバンド学習モデルを含み、補助入力データを前記第1サブバンド学習モデル~前記第Nサブバンド学習モデルに入力させるとともに、前記ダウンサンプリング処理部により取得された前記第1ダウンサンプリング処理後サブバンド信号~前記第Nダウンサンプリング処理後サブバンド信号を、それぞれ、前記N個の学習可能モデルである前記第1サブバンド学習モデル~前記第Nサブバンド学習モデルに入力させることで、前記第1サブバンド学習モデル~前記第Nサブバンド学習モデルの学習を行うサブバンド学習モデル部と、
    を備えるオーディオデータ学習装置。
  2. 前記サブバンド分割部は、
    オーディオデータに対して周波数帯域を制限する処理を実行することで取得する前記サブバンド信号の数をNとし、
    角周波数をωとし、前記オーディオデータのサンプリング角周波数を2πとしたとき、
    (1)-π/(N-1)≦ω≦π/(N-1)のとき
    Figure 0007209275000019
    (2)ω<-π/(N-1)またはω>π/(N-1)のとき
    H(ω)=0
    となる伝達関数H(ω)を有する帯域制限フィルタにより、前記オーディオデータに対して帯域制限フィルタ処理を実行することで、前記サブバンド信号を取得する、
    請求項1に記載のオーディオデータ学習装置。
  3. 補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したN個(N:自然数、N≧2)のサブバンド信号である第1サブバンド信号~第Nサブバンド信号を用いて、N個(N:自然数、N≧2)の学習モデルである第1サブバンド学習モデル~第Nサブバンド学習モデルに対して学習を行うことで取得したN個(N:自然数、N≧2)の学習済モデルである第1サブバンド学習済モデル~第Nサブバンド学習済モデルを含むサブバンド学習済モデル部であって、
    (1)前記補助入力データおよび前記第1サブバンド信号~前記第Nサブバンド信号が入力されたとき、前記補助入力データを前記N個の学習済モデルである前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力するとともに、前記第1サブバンド信号~前記第Nサブバンド信号を、それぞれ、前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力することで、推論処理を実行し、N個の推論処理済みサブバンド信号を出力し、
    (2)前記第1サブバンド信号~前記第Nサブバンド信号が入力されたとき、前記第1サブバンド信号~前記第Nサブバンド信号を、それぞれ、前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力することで、推論処理を実行し、N個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデル部と、
    前記N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理部と、
    前記N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成部と、
    を備えるオーディオデータ推論装置。
  4. 前記サブバンド学習済モデル部は、
    前記N個の前記サブバンド信号を、第1サブバンド信号xa、・・・、第kサブバンド信号xa(k:自然数、1≦k≦N)、・・・、第Nサブバンド信号xaとすると、
    前記N個の学習済モデルである、第1サブバンド学習済モデル~第Nサブバンド学習済モデルを用いた処理を実行し、
    第kサブバンド学習済モデル(k:自然数、1≦k≦N)は、前記補助入力データと、前記第kサブバンド信号xaとを入力とし、
    前記N個のサブバンド学習済モデルのうち、少なくとも1つは、位相補償用サブバンド学習済モデルであり、第mサブバンド学習済モデル(m:自然数、1≦m≦N)が位相補償用サブバンド学習済モデルであるものとし、自然数mとは異なる自然数をn(n:自然数、1≦n≦N、n≠m)とすると、前記第mサブバンド学習済モデルは、(1)前記補助入力データと、(2)第mサブバンド信号xaと、(3)第nサブバンド信号xaとを入力する、
    請求項3に記載のオーディオデータ推論装置。
  5. 前記サブバンド合成部は、
    角周波数をωとし、前記オーディオデータのサンプリング角周波数を2πとしたとき、
    (1)-π/(N-1)≦ω≦π/(N-1)のとき
    Figure 0007209275000020
    (2)ω<-π/(N-1)またはω>π/(N-1)のとき
    H(ω)=0
    となる伝達関数H(ω)を有する帯域制限フィルタにより、前記N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、前記合成処理を実行することで、前記出力データを取得する、
    請求項3または4に記載のオーディオデータ推論装置。
  6. オーディオデータに対して周波数帯域を制限する処理を実行することでN個(N:自然数、N≧2)のサブバンド信号を取得するサブバンド分割ステップと、
    前記N個のサブバンド信号の信号値のそれぞれに対して、所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記N個のサブバンド信号のそれぞれに対してダウンサンプリング処理を実行し、N個のダウンサンプリング処理後サブバンド信号である第1ダウンサンプリング処理後サブバンド信号~第Nダウンサンプリング処理後サブバンド信号を取得するダウンサンプリング処理ステップと、
    補助入力データをN個(N:自然数、N≧2)の学習可能モデルである第1サブバンド学習モデル~第Nサブバンド学習モデルに入力させるとともに、前記ダウンサンプリング処理ステップにより取得された第1ダウンサンプリング処理後サブバンド信号~前記第Nダウンサンプリング処理後サブバンド信号を、それぞれ、前記N個の学習可能モデルである前記第1サブバンド学習モデル~前記第Nサブバンド学習モデルに入力させることで、前記第1サブバンド学習モデル~前記第Nサブバンド学習モデルの学習を行うサブバンド学習モデルステップと、
    を備えるオーディオデータ学習方法をコンピュータに実行させるためのプログラム。
  7. 補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したN個(N:自然数、N≧2)のサブバンド信号である第1サブバンド信号~第Nサブバンド信号を用いて、N個(N:自然数、N≧2)の学習モデルである第1サブバンド学習モデル~第Nサブバンド学習モデルに対して学習を行うことで取得したN個(N:自然数、N≧2)の学習済モデルである第1サブバンド学習済モデル~第Nサブバンド学習済モデルに対する処理を行うサブバンド学習済モデルステップであって、
    (1)前記補助入力データおよび前記第1サブバンド信号~前記第Nサブバンド信号が入力されたとき、前記補助入力データを前記N個の学習済モデルである前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力するとともに、前記第1サブバンド信号~前記第Nサブバンド信号を、それぞれ、前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力することで、推論処理を実行し、N個の推論処理済みサブバンド信号を出力し、
    (2)前記第1サブバンド信号~前記第Nサブバンド信号が入力されたとき、前記第1サブバンド信号~前記第Nサブバンド信号を、それぞれ、前記第1サブバンド学習済モデル~前記第Nサブバンド学習済モデルに入力することで、推論処理を実行し、N個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデルステップと、
    前記N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理ステップと、
    前記N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成ステップと、
    を備えるオーディオデータ推論方法をコンピュータに実行させるためのプログラム。

JP2018158152A 2017-08-31 2018-08-27 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム Active JP7209275B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/117,002 US20190066657A1 (en) 2017-08-31 2018-08-30 Audio data learning method, audio data inference method and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017166495 2017-08-31
JP2017166495 2017-08-31

Publications (2)

Publication Number Publication Date
JP2019045856A JP2019045856A (ja) 2019-03-22
JP7209275B2 true JP7209275B2 (ja) 2023-01-20

Family

ID=65816445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018158152A Active JP7209275B2 (ja) 2017-08-31 2018-08-27 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7209275B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151003A (zh) 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 并行语音合成方法、装置、设备以及计算机可读存储介质
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
JPWO2023281555A1 (ja) * 2021-07-05 2023-01-12
JP2023030349A (ja) * 2021-08-23 2023-03-08 国立研究開発法人情報通信研究機構 オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013539558A (ja) 2011-08-10 2013-10-24 ゴーアテック インコーポレイテッド パラメータ音声の合成方法及びシステム
JP2014109669A (ja) 2012-11-30 2014-06-12 Kddi Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2019532349A (ja) 2016-09-06 2019-11-07 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013539558A (ja) 2011-08-10 2013-10-24 ゴーアテック インコーポレイテッド パラメータ音声の合成方法及びシステム
JP2014109669A (ja) 2012-11-30 2014-06-12 Kddi Corp 音声合成装置、音声合成方法および音声合成プログラム
JP2019532349A (ja) 2016-09-06 2019-11-07 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成

Also Published As

Publication number Publication date
JP2019045856A (ja) 2019-03-22

Similar Documents

Publication Publication Date Title
JP7209275B2 (ja) オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
Caillon et al. RAVE: A variational autoencoder for fast and high-quality neural audio synthesis
Wang et al. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
KR20230109630A (ko) 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기
Hao et al. Time-domain neural network approach for speech bandwidth extension
JP2023545820A (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
US20190066657A1 (en) Audio data learning method, audio data inference method and recording medium
Ueda et al. Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization
Jaitly et al. A new way to learn acoustic events
JP7019138B2 (ja) 符号化装置、符号化方法およびプログラム
JP7421827B2 (ja) 音声変換装置、音声変換方法及び音声変換プログラム
CN112863539B (zh) 一种高采样率语音波形生成方法、装置、设备及存储介质
Funaki Sparse Time-Varying Complex AR (TV-CAR) speech analysis based on Adaptive LASSO
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP6741051B2 (ja) 情報処理方法、情報処理装置およびプログラム
Heymans et al. Efficient acoustic feature transformation in mismatched environments using a Guided-GAN
JP2020030373A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
CN113470616B (zh) 语音处理方法和装置以及声码器和声码器的训练方法
WO2020032177A1 (ja) 時系列データの周波数成分ベクトルを生成する方法及び装置
WO2023026654A1 (ja) オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム
WO2022145262A1 (ja) 信号生成処理装置
TW202333140A (zh) 多頻帶寫碼的系統和方法
WO2020121860A1 (ja) 音響信号処理装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221102

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221102

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221122

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R150 Certificate of patent or registration of utility model

Ref document number: 7209275

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150