JP2019045856A

JP2019045856A - オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム

Info

Publication number: JP2019045856A
Application number: JP2018158152A
Authority: JP
Inventors: 拓磨岡本; Takuma Okamoto; 橘　健太郎; Kentaro Tachibana; 健太郎橘; 戸田　智基; Tomoki Toda; 智基戸田; 芳則志賀; Yoshinori Shiga; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2017-08-31
Filing date: 2018-08-27
Publication date: 2019-03-22
Anticipated expiration: 2038-08-27
Also published as: JP7209275B2

Abstract

【課題】波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ処理システムを実現する。【解決手段】オーディオデータ処理システム１０００のオーディオデータ学習装置ＤＬでは、フルバンドの波形データをサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部３によりモデルの学習（最適化）を行う。オーディオデータ推論装置ＩＮＦでは、補助入力ｈおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部３Ａにより、並列処理による推論処理を実行し、処理後のサブバンド信号をサブバンド合成部５により合成する。したがって、オーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができる。【選択図】図１

Description

本発明は、オーディオデータ処理技術に関する。特に、ニューラルネットワーク型波形直接生成モデルを用いたオーディオデータ処理技術に関する。

テキスト音声合成技術において、素片を合成する技術よりも制御が容易である統計的音声合成技術が主流であったが、統計的音声合成技術では、コンテキストラベルから音響モデルへの変換でのモデル誤差や、音響モデルから音声波形へ変換するボコーダの分析誤差や様々な仮定や近似を行うことに起因して、統計的音声合成技術により取得される合成音声の音質には改善の余地があった。統計的音声合成技術よりも高音質化を実現する技術として、近年、ニューラルネットワーク型波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）が登場し注目されている（例えば、非特許文献１、２を参照）。

このような波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）は、当該波形直接生成モデルにより生成した過去の波形サンプルデータとコンテキストラベルデータとを入力し処理することで次の波形データを生成するニューラルネットワークによる処理を行う。そのため、波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、音響モデルの推定やボコーダが不要であり、従来の統計的音声合成技術よりも高音質な音声合成処理を実現することができる。また、波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、波形（オーディオ信号波形）そのものの値を用いて処理するのではなく、μ−ｌａｗ圧縮を適用し、波形（オーディオ信号波形）を例えば２５６個の離散値のいずれか１つの値をとるものとして扱う。これにより、波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、波形（オーディオ信号波形）を上記の離散値のいずれかに分類する分類問題とみなすことができる。そして、波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、当該分類問題に最適解を与えるようにニューラルネットワークを用いて学習することで、学習済み波形直接生成モデルを取得する。そして、波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、取得した学習済み波形直接生成モデルにより、波形（オーディオ信号波形）を処理することで、従来の統計的音声合成技術よりも高音質な音声合成処理（オーディオ信号処理）を実現することができる。

A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WaveNet: A generative model for raw audio," arXiv preprint arXiv:1609.03499, Sept. 2016. S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. Courville, and Y. Bengio, "SampleRNN: An unconditional end-to-end neural audio generation model," in Proc. ICLR, Apr. 2017.

しかしながら、上記の波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、当該波形直接生成モデルにより生成した過去の波形サンプルデータが次の波形データを予測するために必要であり、サンプルごとに複雑なニューラルネットワーク演算が必要となる。その結果、上記の波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では並列処理を行うことが困難であり、音声合成処理に莫大な時間を要するという問題がある。また、上記の波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、時系列の波形データ（オーディオ信号）を用いて、当該波形データ（オーディオ信号）のＳ／Ｎ比が最大となるように学習される。このため、上記の波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）では、周波数領域において、取得される波形データ（オーディオ信号）の誤差は全周波数に対して均一となる。このため、上記の波形直接生成モデルを用いた音声合成技術（オーディオデータ処理技術）を使った場合、高周波数領域ではランダム性が大きくなり、結果として取得される波形データ（オーディオ信号）において音質劣化が生ずるという問題がある。

そこで本発明は、上記問題点に鑑み、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ学習装置、オーディオデータ推論装置、およびプログラムを実現することを目的とする。

上記課題を解決するための第１の発明（請求項１に対応）は、サブバンド分割部と、ダウンサンプリング処理部と、サブバンド学習モデル部と、を備えるオーディオデータ学習装置である。

サブバンド分割部は、オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得する。

ダウンサンプリング処理部は、サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、サブバンド信号に対してダウンサンプリング処理を実行する。

サブバンド学習モデル部は、補助入力データと、ダウンサンプリング処理部により取得されたサブバンド信号とを用いて波形直接生成モデルの学習を行う。

このオーディオデータ学習装置では、オーディオデータ（例えば、フルバンドの波形データ）をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部によりモデルの学習（最適化）を行うことができる。サブバンド学習モデル部では、例えば、Ｎ個のモデル（第１サブバンド学習モデル〜第Ｎサブバンド学習モデル）により並列にサブバンド信号を用いたモデルの学習（最適化）を行うことができる。すなわち、このオーディオデータ学習装置では、波形直接生成モデルの学習（最適化）を並列処理により実現することができる。

なお、「オーディオデータ」とは、音声データ、音楽データ、オーディオ信号のデータ等を含む概念である。

また、サブバンド学習モデル部において、補助入力データは省略してもよい。

また、「波形直接生成モデル」とは、学習用データとして、オーディオ信号の信号波形のデータを入力し、当該信号波形の過去の複数のサンプルデータ（例えば、現時刻をｔとすると、時刻０から時刻ｔ−１までの全てのサンプルデータ（ｘ（０）〜ｘ（ｔ−１）））から、現時刻ｔのデータ（例えば、ｘ（ｔ））を取得するモデルである。

また、第１の発明において、オーディオデータのサンプリング周波数をｆｓとし、オーディオデータの全周波数帯域幅をｆｓ／２とすると、サブバンド分割部は、対象周波数領域幅Δｆを
Δｆ＝ｆｓ／（２Ｎ）
Ｎ：自然数
としたとき、設定した対象周波数領域幅Δｆにおいて、ゲインが−１ｄＢ以上である周波数領域がΔｆ／２以下であるフィルタ特性を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行して、サブバンド信号を取得してもよい。

これにより、このオーディオデータ学習装置では、強制的に周波数的な「色」が付けられた（周波数特性が平坦ではない）サブバンド信号、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。

第２の発明は、第１の発明であって、サブバンド分割部は、Ｎ個（Ｎ：自然数）のサブバンド信号を、第１サブバンド信号ｘ＿ｓｕｂ_１、・・・、第ｋサブバンド信号ｘ＿ｓｕｂ_ｋ（ｋ：自然数、１≦ｋ≦Ｎ）、・・・、第Ｎサブバンド信号ｘ＿ｓｕｂ_Ｎとして取得する。

ダウンサンプリング処理部は、第１サブバンド信号ｘ＿ｓｕｂ_１、・・・、第ｋサブバンド信号ｘ＿ｓｕｂ_ｋ（ｋ：自然数、１≦ｋ≦Ｎ）、・・・、第Ｎサブバンド信号ｘ＿ｓｕｂ_Ｎに対してダウンサンプリング処理を実行することで取得された信号を、それぞれ、第１ダウンサンプリング・サブバンド信号ｘ＿ｄ_１、・・・、第ｋダウンサンプリング・サブバンド信号ｘ＿ｄ_ｋ、・・・、第Ｎダウンサンプリング・サブバンド信号ｘ＿ｄ_Ｎとして取得する。

サブバンド学習モデル部は、Ｎ個のサブバンド学習モデルである、第１サブバンド学習モデル〜第Ｎサブバンド学習モデルを用いた処理を実行する。

第ｋサブバンド学習モデル（ｋ：自然数、１≦ｋ≦Ｎ）は、補助入力データと、第ｋダウンサンプリング・サブバンド信号ｘ＿ｄ_ｋとを入力とする。

Ｎ個のサブバンド学習モデルのうち、少なくとも１つは、位相補償用サブバンド学習モデルであり、第ｍサブバンド学習モデル（ｍ：自然数、１≦ｍ≦Ｎ）が位相補償用サブバンド学習モデルであるものとし、自然数ｍとは異なる自然数をｎ（ｎ：自然数、１≦ｎ≦Ｎ、ｎ≠ｍ）とすると、第ｍサブバンド学習モデルは、（１）補助入力データと、（２）第ｍダウンサンプリング・サブバンド信号ｘ＿ｄ_ｍと、（３）第ｎダウンサンプリング・サブバンド信号ｘ＿ｄ_ｎとを入力する。

このオーディオデータ学習方法では、Ｎ個のサブバンド学習モデルのうち、少なくとも１つは、位相補償用サブバンド学習モデルであり、他のサブバンド学習モデル用のダウンサンプリング・サブバンド信号を入力して、学習処理を実行するため、適切な位相補償を実現できる。つまり、このオーディオデータ学習方法では、複数帯域入力型の構成により、適切な位相補償を実現できるので、このオーディオデータ学習方法を用いたオーディオデータ処理システムでは、さらに高品質なオーディオデータを取得することができる。

第２の発明を以下のように変形し、第１変形例の発明としてもよい。
第１変形例の発明は、第２の発明であって、サブバンド学習モデルは、複数層からなるニューラルネットワークによるモデルである。

サブバンド学習モデルの入力層である第１層は、補助入力データと、第ｋダウンサンプリング・サブバンド信号ｘ＿ｄ_ｋとを入力とする。

そして、サブバンド学習モデルの入力層である第１層は、補助入力データ用変換部と、サブバンド信号用変換部と、１×１コンボリューション処理部と、重み付け加算部と、活性化処理部と、を備える。

補助入力データ用変換部は、補助入力データを２^Ｌ−１個（Ｌ：自然数）のサンプルからなる２組のデータｈ１_Ｌとｈ１_Ｒとに変換する。

サブバンド信号用変換部は、第ｋダウンサンプリング・サブバンド信号ｘ＿ｄ_ｋを２^Ｌ−１個のサンプルからなる２組のデータｘ１_Ｌとｘ１_Ｒとに変換する。

１×１コンボリューション処理部は、データｈ１_Ｌ、ｈ１_Ｒ、ｘ１_Ｌ、ｘ１_Ｒに対して、１×１コンボリューション処理を実行し、処理後のデータを、それぞれ、データｈ_Ｌ、ｈ_Ｒ、ｘ_Ｌ、ｘ_Ｒとして取得する。

重み付け加算部は、データｈ_Ｌ、ｈ_Ｒ、ｘ_Ｌ、ｘ_Ｒに対して
ｚ＝（Ｗ_Ｌ×ｘ_Ｌ＋Ｗ_Ｒ×ｘ_Ｒ）＋（Ｖ_Ｌ×ｈ_Ｌ＋Ｖ_Ｒ×ｈ_Ｒ）
Ｗ_Ｌ：重み行列
Ｗ_Ｒ：重み行列
Ｖ_Ｌ：重み行列
Ｖ_Ｒ：重み行列
に相当する処理を実行し、データｚを取得する。

活性化処理部は、データｚに対して、
ｏｕｔ＿Ｌ_１＝ＲｅＬＵ（ｃｏｎｖ１ｘ１（ＲｅＬＵ（ｚ）））
ＲｅＬＵ（）：正規化線形関数（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）
ｃｏｎｖ１ｘ１（）：１×１のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第１層の出力データｏｕｔ＿Ｌ_１を取得する。

そして、サブバンド学習モデルの第Ｋ＋１層（Ｋ：自然数）は、第Ｋ層からの出力データｏｕｔ＿Ｌ_Ｋを入力する。

サブバンド学習モデルの第Ｋ＋１層（Ｋ：自然数）は、データ変換部と、１×１コンボリューション処理部と、重み付け加算部と、第Ｋ＋１層活性化処理部と、を備える。

データ変換部は、第Ｋ層からの出力データｏｕｔ＿Ｌ_Ｋを２^{Ｌ−Ｋ−１}個（Ｌ：自然数）のサンプルからなる２組のデータｘ’１_Ｌとｘ’１_Ｒとに変換する。

１×１コンボリューション処理部は、データｘ’１_Ｌ、ｘ’１_Ｒに対して、１×１コンボリューション処理を実行し、処理後のデータを、それぞれ、データｘ’_Ｌ、ｘ’_Ｒとして取得する。

重み付け加算部は、データｘ’_Ｌ、ｘ’_Ｒに対して
ｚ’＝Ｗ’_Ｌ×ｘ’_Ｌ＋Ｗ’_Ｒ×ｘ’_Ｒ
Ｗ’_Ｌ：重み行列
Ｗ’_Ｒ：重み行列
に相当する処理を実行し、データｚ’を取得する。

第Ｋ＋１層活性化処理部は、データｚ’に対して、
ｏｕｔ＿Ｌ_Ｋ＋１＝ＲｅＬＵ（ｃｏｎｖ１ｘ１（ＲｅＬＵ（ｚ’）））
ＲｅＬＵ（）：正規化線形関数（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）
ｃｏｎｖ１ｘ１（）：１×１のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第Ｋ＋１層の出力データｏｕｔ＿Ｌ_Ｋ＋１を取得する。

これにより、このオーディオデータ学習方法では、ＦＦＴＮｅｔによるモデルを用いた処理（学習処理）を実行することができる。

第１変形例の発明を以下のように変形し、第２変形例の発明としてもよい。
第２変形例の発明は、第１変形例の発明であって、サブバンド学習モデルの第１層は、重み付け加算部から出力されるデータｚと、活性化処理部から出力されるｏｕｔ＿Ｌ_１とを含むデータを生成し、生成したデータを、第１層の出力データとして、出力する。

これにより、このオーディオデータ学習方法では、サブバンド学習モデルの第１層において、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。

これにより、このオーディオデータ学習方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。

第１変形例の発明を以下のように変形し、第３変形例の発明としてもよい。
第３変形例の発明は、第１変形例の発明であって、サブバンド学習モデルの第Ｋ＋１層は、重み付け加算部から出力されるデータｚ’と、第Ｋ＋１層活性化処理部から出力されるｏｕｔ＿Ｌ_Ｋ＋１とを含むデータを生成し、生成したデータを、第Ｋ＋１層の出力データとして、出力する。

これにより、このオーディオデータ学習方法では、サブバンド学習モデルの第Ｋ＋１層において、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。

第３の発明は、第１の発明であって、オーディオデータに対して時不変ノイズシェーピング法により取得したフィルタ処理を実行して取得したデータを学習用データとして学習処理に使用する。

これにより、このオーディオデータ学習方法では、時不変ノイズシェーピング処理を適用して学習処理を実行することができ、その結果、高品質のオーディオデータを取得することができる。

第４の発明（請求項２に対応）は、第１の発明であって、サブバンド分割部は、角周波数をωとし、オーディオデータのサンプリング角周波数を２πとしたとき、
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
となる伝達関数Ｈ（ω）を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行することで、サブバンド信号を取得する。

これにより、このオーディオデータ学習装置では、強制的に「色」が付けられたサブバンド信号（２乗根ｃｏｓ特性の帯域制限フィルタ処理により取得されたサブバンド信号）、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。

第５の発明（請求項３に対応）は、サブバンド学習済モデル部と、アップサンプリング処理部と、サブバンド合成部と、備えるオーディオデータ推論装置である。

サブバンド学習済モデル部は、補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったＮ個（Ｎ：自然数）の学習済モデルを含む。サブバンド学習済モデル部は、補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、Ｎ個の学習済モデルによる処理を実行し、Ｎ個の推論処理済みサブバンド信号を出力する。

アップサンプリング処理部は、Ｎ個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、Ｎ個のアップサンプリング処理後のサブバンド信号を取得する。

サブバンド合成部は、Ｎ個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得する。

このオーディオデータ推論装置では、補助入力ｈおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部により、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部では、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）により並列にサブバンド信号を用いた推論処理を行うことができる。そして、このオーディオデータ推論装置では、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）の推論結果データに対してアップサンプリング処理を行った後、サブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。

すなわち、このオーディオデータ推論装置では、波形直接生成モデルの推論処理を並列処理により実現することができる。その結果、このオーディオデータ推論装置では、従来技術のようにフルバンドの波形データを用いた波形直接生成モデルによる推論処理に対して遙かに高速に推論処理を実行することができる。

したがって、このオーディオデータ推論装置では、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができる。

また、第５の発明において、オーディオデータのサンプリング周波数をｆｓとし、オーディオデータの全周波数帯域幅をｆｓ／２とすると、サブバンド合成部は、対象周波数領域幅Δｆを
Δｆ＝ｆｓ／（２Ｎ）
Ｎ：自然数
としたとき、設定した対象周波数領域幅Δｆにおいて、ゲインが−１ｄＢ以上である周波数領域がΔｆ／２以下であるフィルタ特性を有する帯域制限フィルタにより、Ｎ個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行して、出力データを取得するようにしてもよい。

これにより、このオーディオデータ推論装置では、学習時に強制的に「色」が付けるために用いられた帯域制限フィルタのフィルタ特性に応じて、上記帯域制限フィルタのフィルタ特性を調整することができる。そして、このオーディオデータ推論装置では、Ｎ個のアップサンプリング処理後のサブバンド信号に対して、当該フィルタ特性により帯域制限フィルタ処理を実行することができる。したがって、帯域制限フィルタ処理後のサブバンド信号を合成することで、出力データのエネルギーを、原信号（本来あるべき信号）と同等にすることができる。その結果、このオーディオデータ推論装置では、高品質のオーディオデータ（出力データ）を取得することができる。
なお、このオーディオデータ推論装置から出力されるデータ（信号）のレベル（信号レベル）を調整するためのゲイン調整部を設けるようにしてもよい。

第６の発明（請求項４に対応）は、第５の発明であって、サブバンド学習済モデル部は、Ｎ個のサブバンド信号を、第１サブバンド信号ｘａ_１、・・・、第ｋサブバンド信号ｘａ_ｋ（ｋ：自然数、１≦ｋ≦Ｎ）、・・・、第Ｎサブバンド信号ｘａ_Ｎとすると、Ｎ個の学習済モデルである、第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデルを用いた処理を実行する。

第ｋサブバンド学習済モデル（ｋ：自然数、１≦ｋ≦Ｎ）は、補助入力データと、第ｋサブバンド信号ｘａ_ｋとを入力とする。

Ｎ個のサブバンド学習済モデルのうち、少なくとも１つは、位相補償用サブバンド学習済モデルであり、第ｍサブバンド学習済モデル（ｍ：自然数、１≦ｍ≦Ｎ）が位相補償用サブバンド学習済モデルであるものとし、自然数ｍとは異なる自然数をｎ（ｎ：自然数、１≦ｎ≦Ｎ、ｎ≠ｍ）とすると、第ｍサブバンド学習済モデルは、（１）補助入力データと、（２）第ｍサブバンド信号ｘａ_ｍと、（３）第ｎサブバンド信号ｘａ_ｎとを入力する。

このオーディオデータ推論方法では、Ｎ個のサブバンド学習済モデルのうち、少なくとも１つは、位相補償用サブバンド学習済モデルであり、他のサブバンド学習済モデル用のサブバンド信号を入力して、推論処理を実行するため、適切な位相補償を実現できる。つまり、このオーディオデータ推論方法では、複数帯域入力型の構成により、適切な位相補償を実現できるので、このオーディオデータ推論方法を用いたオーディオデータ処理システムでは、さらに高品質なオーディオデータを取得することができる。

第６の発明を以下のように変形し、第４変形例の発明としてもよい。
第４変形例の発明は、第６の発明であって、サブバンド学習済モデルは、複数層からなるニューラルネットワークによるモデルである。

サブバンド学習済モデルの入力層である第１層は、補助入力データと、前記第ｋサブバンド信号ｘａ_ｋとを入力とし、補助入力データ用変換部と、サブバンド信号用変換部と、１×１コンボリューション処理部と、重み付け加算部と、活性化処理部と、を備える。

サブバンド信号用変換部は、第ｋサブバンド信号ｘａ_ｋを２^Ｌ−１個のサンプルからなる２組のデータｘ１_Ｌとｘ１_Ｒとに変換する。

サブバンド学習済モデルの第Ｋ＋１層（Ｋ：自然数）は、第Ｋ層からの出力データｏｕｔ＿Ｌ_Ｋを入力し、データ変換部と、１×１コンボリューション処理部と、重み付け加算部と、第Ｋ＋１層活性化処理部と、を備える。

これにより、このオーディオデータ推論方法では、ＦＦＴＮｅｔによるモデルを用いた処理（推論処理）を実行することができる。

第４変形例の発明を以下のように変形し、第５変形例の発明としてもよい。
第５変形例の発明は、第４変形例の発明であって、サブバンド学習済モデルの第１層は、重み付け加算部から出力されるデータｚと、活性化処理部から出力されるｏｕｔ＿Ｌ_１とを含むデータを生成し、生成したデータを、第１層の出力データとして、出力する。

これにより、このオーディオデータ推論方法では、サブバンド学習済モデルの第１層において、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。

これにより、このオーディオデータ推論方法を用いたオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。

第４変形例の発明を以下のように変形し、第６変形例の発明としてもよい。
第６変形例の発明は、第４変形例の発明であって、サブバンド学習済モデルの第Ｋ＋１層は、重み付け加算部から出力されるデータｚ’と、第Ｋ＋１層活性化処理部から出力されるｏｕｔ＿Ｌ_Ｋ＋１とを含むデータを生成し、生成したデータを、第Ｋ＋１層の出力データとして、出力する。

これにより、このオーディオデータ推論方法では、サブバンド学習済モデルの第Ｋ＋１層において、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用することができ、その結果、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。

第７の発明は、第５の発明であって、オーディオデータに対して時不変ノイズシェーピング法により取得したフィルタ処理を実行して取得したデータを学習用データとして学習処理に使用した場合、推論処理において、フィルタ処理と逆特性のフィルタ処理を実行することで、出力データを取得する。

これにより、このオーディオデータ推論方法では、時不変ノイズシェーピング処理を適用して推論処理を実行することができ、その結果、高品質のオーディオデータを取得することができる。

第８の発明（請求項５に対応）は、第５または第６の発明であって、サブバンド合成部は、角周波数をωとし、オーディオデータのサンプリング角周波数を２πとしたとき、
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
となる伝達関数Ｈ（ω）を有する帯域制限フィルタにより、Ｎ個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行することで、出力データを取得する。

これにより、このオーディオデータ推論装置では、学習時に強制的に「色」が付けるために用いられた帯域制限フィルタのフィルタ特性（２乗根ｃｏｓ特性）に応じて、上記帯域制限フィルタのフィルタ特性を２乗根ｃｏｓ特性のフィルタ特性に設定することができる。そして、このオーディオデータ推論装置では、Ｎ個のアップサンプリング処理後のサブバンド信号に対して、当該フィルタ特性により帯域制限フィルタ処理を実行することができる。したがって、帯域制限フィルタ処理後のサブバンド信号を合成することで、出力データのエネルギーを、原信号（本来あるべき信号）と同等にすることができる。その結果、このオーディオデータ推論装置では、高品質のオーディオデータ（出力データ）を取得することができる。

第９の発明（請求項６に対応）は、サブバンド分割ステップと、ダウンサンプリング処理ステップと、サブバンド学習モデルステップと、を備えるオーディオデータ学習方法をコンピュータに実行させるためのプログラムである。

サブバンド分割ステップは、オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得する。

ダウンサンプリング処理ステップは、サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、サブバンド信号に対してダウンサンプリング処理を実行する。

サブバンド学習モデルステップは、補助入力データと、ダウンサンプリング処理ステップにより取得されたサブバンド信号とを用いて波形直接生成モデルの学習を行う。

これにより、第１の発明と同様の効果を奏するオーディオデータ学習方法をコンピュータに実行させるプログラムを実現することができる。

第１０の発明（請求項７に対応）は、サブバンド学習済モデルステップと、アップサンプリング処理ステップと、サブバンド合成ステップと、を備えるオーディオデータ推論方法をコンピュータに実行させるためのプログラムである。

サブバンド学習済モデルステップは、補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったＮ個（Ｎ：自然数）の学習済モデルを含む。

サブバンド学習済モデルステップは、補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、Ｎ個の学習済モデルによる処理を実行し、Ｎ個の推論処理済みサブバンド信号を出力する。

アップサンプリング処理ステップは、Ｎ個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、Ｎ個のアップサンプリング処理後のサブバンド信号を取得する。

サブバンド合成ステップは、Ｎ個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得する。

これにより、第５の発明と同様の効果を奏するオーディオデータ推論方法をコンピュータに実行させるプログラムを実現することができる。

本発明によれば、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ学習装置、オーディオデータ推論装置、およびプログラムを実現することができる。

第１実施形態に係るオーディオデータ処理システム１０００の概略構成図。第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ学習装置ＤＬの概略構成図。第１実施形態に係るオーディオデータ学習装置ＤＬのサブバンド分割部１の概略構成図。第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ推論装置ＩＮＦの概略構成図。第１実施形態に係るオーディオデータ推論装置ＩＮＦのサブバンド合成部５の概略構成図。オーディオデータ学習装置ＤＬによる学習処理のフローチャート。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。オーディオデータ推論装置ＩＮＦによる推論処理のフローチャート。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図。入力データｘ（入力信号ｘ（ｔ））の周波数スペクトルと、サブバンド信号を取得するときに対象とする周波数領域と、フィルタの周波数特性とを説明するための図。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。ｋ＝１〜３（処理対象領域Ｒ１〜Ｒ３）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔｋ（ｔ）を示す図。オーディオデータ推論装置ＩＮＦにより出力された音声データのスペクトログラムを示す図。第３実施形態に係るオーディオデータ処理システム３０００の概略構成図。第３実施形態に係るオーディオデータ処理システム３０００のオーディオデータ学習装置ＤＬａの概略構成図。第３実施形態に係るオーディオデータ処理システム３０００のオーディオデータ推論装置ＩＮＦａの概略構成図。ＦＦＴＮｅｔモデル６の概略構成図。ＦＦＴＮｅｔモデル６の第１層の概略構成図。ＦＦＴＮｅｔモデル６の第Ｋ＋１層（Ｋ：自然数）の概略構成図。第３実施形態の第２変形例のＦＦＴＮｅｔモデル６の第１層ＦＬ＿１ａの概略構成図。第３実施形態の第２変形例のＦＦＴＮｅｔモデル６の第Ｋ＋１層（Ｋ：自然数）ＦＬ＿Ｋ＋１ａの概略構成図。第３実施形態の第３変形例のオーディオデータ処理システムの概略構成図。本発明に係るオーディオデータ推論装置及びオーディオデータ学習装置を実現するコンピュータのハードウェア構成を示すブロック図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：オーディオデータ処理システムの構成＞
図１は、第１実施形態に係るオーディオデータ処理システム１０００の概略構成図である。

図２は、第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ学習装置ＤＬの概略構成図である。

図３は、第１実施形態に係るオーディオデータ学習装置ＤＬのサブバンド分割部１の概略構成図である。

図４は、第１実施形態に係るオーディオデータ処理システム１０００のオーディオデータ推論装置ＩＮＦの概略構成図である。

図５は、第１実施形態に係るオーディオデータ推論装置ＩＮＦのサブバンド合成部５の概略構成図である。

オーディオデータ処理システム１０００は、図１に示すように、オーディオデータ学習装置ＤＬとオーディオデータ推論装置ＩＮＦとを備える。

（１．１．１：オーディオデータ学習装置の構成）
オーディオデータ学習装置ＤＬは、図２に示すように、サブバンド分割部１と、ダウンサンプリング処理部２と、サブバンド学習モデル部３とを備える。

サブバンド分割部１は、入力データｘ（例えば、フルバンドの波形のデータ）を入力し、入力データｘに対してサブバンド分割処理を実行し、Ｎ個のサブバンド信号データｘ＿ｓｕｂ_１〜ｘ＿ｓｕｂ_Ｎを取得し、取得したＮ個のサブバンド信号データｘ＿ｓｕｂ_１〜ｘ＿ｓｕｂ_Ｎを、それぞれ、Ｎ個のダウンサンプリング処理部２１〜２Ｎに出力する。

サブバンド分割部１は、図３に示すように、第１周波数シフト処理部１１１〜第Ｎ周波数シフト処理部１１Ｎと、第１帯域制限フィルタ処理部１２１〜第Ｎ帯域制限フィルタ処理部１２Ｎと、第１実数化処理部１３１〜第Ｎ実数化処理部１３Ｎとを備える。

第ｋ周波数シフト処理部１１ｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、入力データｘ（例えば、フルバンドの波形のデータ）を入力し、入力データｘに対して周波数シフト処理を実行し、処理後のデータをデータｘ＿ｓｈｆｔ_ｋとして、第ｋ帯域制限フィルタ処理部１２ｋに出力する。

第ｋ帯域制限フィルタ処理部１２ｋは、第ｋ周波数シフト処理部１１ｋから出力されるデータｘ＿ｓｈｆｔ_ｋを入力し、入力されたデータｘ＿ｓｈｆｔ_ｋに対して帯域制限フィルタ処理を実行し、処理後のデータをデータｘ＿ｆｔ_ｋとして、第ｋ実数化処理部１３ｋに出力する。

第ｋ実数化処理部１３ｋは、第ｋ帯域制限フィルタ処理部１２ｋから出力されるデータｘ＿ｆｔ_ｋを入力し、入力されたデータｘ＿ｆｔ_ｋに対して実数化処理（例えば、ＳＳＢ（Ｓｉｎｇｌｅ−ｓｉｄｅｂａｎｄ）変調処理）を実行し、処理後のデータをデータｘ＿ｓｕｂ_ｋとして、ダウンサンプリング処理部２の第ｋダウンサンプリング処理部２ｋに出力する。

ダウンサンプリング処理部２は、図２に示すように、第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎ（Ｎ：自然数）を備える。第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎは、それぞれ、サブバンド分割部１から出力されるＮ個のサブバンド信号データｘ＿ｓｕｂ_１〜ｘ＿ｓｕｂ_Ｎを入力し、入力したサブバンド信号データに対して、間引き率Ｍ（Ｍ：自然数）のダウンサンプリング処理（間引き処理）を行い、ダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１〜ｘ＿ｄ_Ｎを取得する。そして、ダウンサンプリング処理部２１〜２Ｎは、取得したダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１〜ｘ＿ｄ_Ｎをサブバンド学習モデル部３に出力する。つまり、第ｋダウンサンプリング処理部２ｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、サブバンド分割部１から出力されるサブバンド信号データｘ＿ｓｕｂ_ｋを入力し、入力したサブバンド信号データに対して、間引き率Ｍ（Ｍ：自然数）のダウンサンプリング処理（間引き処理）を行い、ダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_ｋを取得する。そして、第ｋダウンサンプリング処理部２ｋは、取得したダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_ｋを第ｋサブバンド学習モデル３ｋに出力する。

サブバンド学習モデル部３は、図２に示すように、第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎを備える。第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎは、それぞれ、第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎから出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１〜ｘ＿ｄ_Ｎと、補助入力ｈとを入力する。そして、第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎでは、それぞれ、入力されたデータと補助入力ｈとを用いてモデルの学習を行い、各モデルを最適化する（各モデルを最適化するパラメータを取得する）。なお、第ｋサブバンド学習モデル３ｋ（ｋ：自然数、１≦ｋ≦Ｎ）において、補助入力ｈの入力を省略し、入力データ（サブバンド信号データｘ＿ｄ_ｋ）のみを用いてモデルの学習を行うようにしてもよい。

（１．１．２：オーディオデータ推論装置の構成）
オーディオデータ推論装置ＩＮＦは、図４に示すように、サブバンド学習済モデル部３Ａと、アップサンプリング処理部４と、サブバンド合成部５とを備える。

サブバンド学習済モデル部３Ａは、図４に示すように、第１サブバンド学習済モデル３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮを備える。サブバンド学習済モデル部３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮは、それぞれ、第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎによりモデル学習し最適化されたモデルである（モデル学習により取得された最適化パラメータを設定されたモデルである）。

第ｋサブバンド学習済モデル３Ａｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、図４に示すように、補助入力ｈと、推論時の入力データｘ’を構成するサブバンド信号データｘａ_ｋを入力し、入力されたデータに対して、第ｋサブバンド学習済モデル３Ａｋを用いた処理を実行し、処理後のデータをデータｘｂ_kとして、第ｋアップサンプリング処理部４ｋに出力する。なお、第ｋサブバンド学習済モデル３Ａｋに入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_ｋの少なくとも一方のデータである。

アップサンプリング処理部４は、図４に示すように、第１アップサンプリング処理部４１〜第Ｎアップサンプリング処理部４Ｎ（Ｎ：自然数）を備える。それぞれ、第１サブバンド学習済モデル３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮから出力されるデータｘｂ_１〜ｘｂ_Ｎを入力する。そして、第１アップサンプリング処理部４１〜第Ｎアップサンプリング処理部４Ｎ（Ｎ：自然数）は、それぞれ、入力されたデータに対して間引き率Ｍでオーバサンプリングを行うことでアップサンプリング処理を実行し、当該処理後のデータをデータｘｃ_１〜ｘｃ_Ｎとして、サブバンド合成部５に出力する。

サブバンド合成部５は、第１アップサンプリング処理部４１〜第Ｎアップサンプリング処理部４Ｎ（Ｎ：自然数）からそれぞれ出力されるデータｘｃ_１〜ｘｃ_Ｎを入力し、入力されたデータｘｃ_１〜ｘｃ_Ｎに対して合成処理（加算処理）を行うことで、出力データｘｏを取得する。

サブバンド合成部５は、図５に示すように、第１ベースバンドシフト処理部５１１〜第Ｎベースバンドシフト処理部５１Ｎと、第１帯域制限フィルタ処理部５２１〜第Ｎ帯域制限フィルタ処理部５２Ｎと、第１周波数シフト処理部５３１〜第Ｎ周波数シフト処理部５３Ｎと、サブバンド合成処理部５４とを備える。

第ｋベースバンドシフト処理部５１ｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、入力データｘｃ_ｋを入力し、入力データｘｃ_ｋに対してベースバンドシフト処理を実行し、処理後のデータをデータｘｃ＿ｂｓ_ｋとして、第ｋ帯域制限フィルタ処理部５２ｋに出力する。

第ｋ帯域制限フィルタ処理部５２ｋは、第ｋベースバンドシフト処理部５１ｋから出力されるデータｘｃ＿ｂｓ_ｋを入力し、入力されたデータｘｃ＿ｂｓ_ｋに対して帯域制限フィルタ処理を実行し、処理後のデータをデータｘｃ＿ｆｔ_ｋとして、第ｋ周波数シフト処理部５３ｋに出力する。

第ｋ周波数シフト処理部５３ｋは、第ｋ帯域制限フィルタ処理部５２ｋから出力されるデータｘｃ＿ｆｔ_ｋを入力し、入力されたデータｘｃ＿ｆｔ_ｋに対して周波数シフト処理を実行し、処理後のデータをデータｘｃ＿ｓｈｆｔ_ｋとして、サブバンド合成処理部５４に出力する。

サブバンド合成処理部５４は、第１周波数シフト処理部５３１〜第Ｎ周波数シフト処理部５３Ｎから出力されるデータｘｃ＿ｓｈｆｔ_１〜ｘｃ＿ｓｈｆｔ_Ｎを入力し、入力されたデータｘｃ＿ｓｈｆｔ_１〜ｘｃ＿ｓｈｆｔ_Ｎに対して合成処理（加算処理）を行うことで、出力データｘｏを取得する。

＜１．２：オーディオデータ処理システムの動作＞
以上のように構成されたオーディオデータ処理システム１０００の動作について以下説明する。

以下では、オーディオデータ処理システム１０００の動作を、（１）オーディオデータ学習装置ＤＬによる学習処理と、（２）オーディオデータ推論装置ＩＮＦによる推論処理とに分けて説明する。

（１．２．１：学習処理）
まず、オーディオデータ学習装置ＤＬによる学習処理について、説明する。

図６は、オーディオデータ学習装置ＤＬによる学習処理のフローチャートである。

図７、図８は、オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である。図７、図８において、横軸は周波数であり、縦軸は周波数スペクトルの大きさをｄＢ値で示しているものとする。

なお、以下では説明便宜のため、信号を４個（Ｎ＝４）のサブバンド信号に分解（分割）する場合を例に説明する。

以下では、図６のフローチャートを参照しながら説明する。

（ステップＳ１）：
オーディオデータ学習装置ＤＬのサブバンド分割部１に入力データｘ（例えば、フルバンドのオーディオ信号の波形のデータ）が入力される。具体的には、入力データｘは、図３に示すように、サブバンド分割部１の第１周波数シフト処理部１１１〜第Ｎ周波数シフト処理部１１Ｎにそれぞれ入力される。なお、以下では入力データｘに対応する信号を信号ｘ（ｔ）と表記する。つまり、入力データｘ（ベクトルデータｘ）は、信号ｘ（ｔ）のＴ個（Ｔ：自然数）のサンプルデータからなり、このことを以下のように表記する。
ｘ＝［ｘ（１），・・・，ｘ（Ｔ）］
なお、ｘ（ｔ）は、例えば、入力されるオーディオ信号をμ−ｌａｗ圧縮し、例えば、０〜２５５の離散値をとるサンプルとして取得されたデータであるものとする。

また、以下では説明便宜のため、サンプル数がＴであるものとして説明する。

なお、入力される信号ｘ（ｔ）の周波数スペクトルは、一例として、図７（ａ）のものであるとする。

（ステップＳ２）：
次に、第１周波数シフト処理部１１１〜第Ｎ周波数シフト処理部１１Ｎでは、それぞれ入力された信号ｘ（ｔ）に対して周波数シフト処理が実行される。

具体的には、第ｋ周波数シフト処理部１１ｋでは、
ｘ_ｋ（ｔ）＝ｘ（ｔ）×Ｗ_Ｎ ^{−ｔ（ｋ−１／２）}
Ｗ_Ｎ＝ｅｘｐ（ｊ×２π／（２Ｎ））
ｋ：自然数、１≦ｋ≦Ｎ
ｊ：虚数単位
に相当する処理を実行し、周波数シフト処理後の信号ｘ_ｋ（ｔ）を取得する。これにより、第ｋ周波数シフト処理部１１ｋは、周波数シフト処理後のデータｘ＿ｓｈｆｔ_ｋを
ｘ＿ｓｈｆｔ_ｋ＝［ｘ_ｋ（１），・・・，ｘ_ｋ（Ｔ）］
として取得する。そして、第ｋ周波数シフト処理部１１ｋは、取得したデータｘ＿ｓｈｆｔ_ｋを第ｋ帯域制限フィルタ処理部１２ｋに出力する。

なお、図７（ｂ）に、ｋ＝１のときの周波数シフト処理後の信号ｘ_ｋ（ｔ）の周波数スペクトルを示す。ｋ＝１のときの周波数シフト処理は、第１周波数シフト処理部１１１により実行される。ｋ＝２のときの周波数シフト処理は、第２周波数シフト処理部１１２により実行される。以下同様である。第ｋ周波数シフト処理部１１ｋでの周波数シフト量は、Ｗ_Ｎ ^{−ｔ（ｋ−１／２）}となるので、分割された周波数帯域（図７（ａ）の周波数領域Ｒ１〜Ｒ４（Ｎ＝４の場合）の各周波数領域）の中心周波数がｆ＝０となるように周波数シフト処理が実行される。

（ステップＳ３）：
次に、第１帯域制限フィルタ処理部１２１〜第Ｎ帯域制限フィルタ処理部１２Ｎでは、それぞれ入力されたデータｘ＿ｓｈｆｔ_ｋ（信号ｘ_ｋ（ｔ））に対して帯域制限フィルタ処理が実行される。

具体的には、第ｋ帯域制限フィルタ処理部１２ｋでは、カットオフ周波数π／（２Ｎ）の帯域制限フィルタで帯域制限を行う。なお、当該帯域制限フィルタのインパルス応答をｈ（ｔ）とする。つまり、第ｋ帯域制限フィルタ処理部１２ｋは、
ｘ_ｋ，ｐｐ（ｔ）＝ｈ（ｔ）＊ｘ_ｋ（ｔ）
に相当する処理を実行し、帯域制限処理後の信号ｘ_ｋ，ｐｐ（ｔ）を取得する。なお、「＊」は畳み込み総和をとる演算子である。

これにより、第ｋ帯域制限フィルタ処理部１２ｋは、帯域制限処理後のデータｘ＿ｆｔ_ｋを
ｘ＿ｆｔ_ｋ＝［ｘ_ｋ，ｐｐ（１），・・・，ｘ_ｋ，ｐｐ（Ｔ）］
として取得する。そして、第ｋ帯域制限フィルタ処理部１２ｋは、取得したデータｘ＿ｆｔ_ｋを第ｋ実数化処理部１３ｋに出力する。

なお、図７（ｃ）に、帯域制限フィルタの周波数特性（一例）を示す。この帯域制限フィルタは、−π／（２Ｎ）≦ｆ≦π／（２Ｎ）において、ゲインが０ｄＢであり、それ以外の周波数領域では、ゲインが略０（例えば、−６０ｄＢ以下）であるものとする。なお、周波数ｆは、規格化した周波数であり、サンプリング周波数ｆｓと同一のときｆ＝２πであるものとする。

図７（ｄ）は、図７（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘ_ｋ，ｐｐ（ｔ）の周波数スペクトルである。

（ステップＳ４）：
次に、第１実数化処理部１３１〜第Ｎ実数化処理部１３Ｎでは、それぞれ入力されたデータｘ＿ｆｔ_ｋ（信号ｘ_ｋ，ｐｐ（ｔ））に対して実数化処理が実行される。

具体的には、第ｋ実数化処理部１３ｋでは、ＳＳＢ変調処理を実行する。つまり、第ｋ実数化処理部１３ｋは、
ｘ_{ｋ，ＳＳＢ}（ｔ）＝ｘ_ｋ，ｐｐ（ｔ）×Ｗ_Ｎ ^ｔ／２＋ｘ^＊ _ｋ，ｐｐ（ｔ）×Ｗ_Ｎ ^−ｔ／２
に相当する処理を実行し、実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）を取得する。なお、「ｘ^＊ _ｋ，ｐｐ（ｔ）」は「ｘ_ｋ，ｐｐ（ｔ）」の複素共役の信号である。

これにより、第ｋ実数化処理部１３ｋは、実数化処理後のデータｘ＿ｓｕｂ_ｋを
ｘ＿ｓｕｂ_ｋ＝［ｘ_{ｋ，ＳＳＢ}（１），・・・，ｘ_{ｋ，ＳＳＢ}（Ｔ）］
として取得する。そして、第ｋ実数化処理部１３ｋは、取得したデータｘ＿ｓｕｂ_ｋを第ｋダウンサンプリング処理部２ｋに出力する。

なお、図８（ａ）に、実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）の周波数スペクトルを示す。

（ステップＳ５）：
次に、第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎは、それぞれ入力されたデータｘ＿ｓｕｂ_ｋ（信号ｘ_{ｋ，ＳＳＢ}（ｔ））に対して間引き率Ｍ（Ｍ：自然数）のダウンサンプリング処理（間引き処理）を実行し、処理後のデータｘ＿ｄ_ｋを取得する。なお、本実施形態では、一例としてＭ＝４として説明する。

これにより、第ｋダウンサンプリング処理部２ｋは、ダウンサンプリング処理後のデータｘ＿ｄ_ｋを
ｘ＿ｄ_ｋ＝［ｘ_{ｋ，ＳＳＢ}（Ｍ），・・・，ｘ_{ｋ，ＳＳＢ}（Ｔ×Ｍ）］
として取得する。そして、第ｋダウンサンプリング処理部２ｋは、取得したデータｘ＿ｄ_ｋ
を第ｋサブバンド学習モデル３ｋに出力する。

なお、図８（ｂ）に、ダウンサンプリング処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）の周波数スペクトルを示す。

（ステップＳ６）：
次に、サブバンド学習モデル部３の第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎでは、それぞれ、第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎから出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１〜ｘ＿ｄ_Ｎと、補助入力ｈとを用いたモデル学習が実行される。なお、補助入力ｈの入力を省略しても良い。

従来技術において、コンテキストラベル等の補助入力ｈが与えられたもとで、オーディオ信号の波形ｘ＝［ｘ（１），・・・，ｘ（Ｔ）］の条件付き確率分布を拡張型畳み込み層の積み重ねにより、以下のようにモデル化する。

そして、上記条件付き確率が最大となるように、上記モデルのパラメータを最適化する。つまり、上記モデルにおいて、

により、最適化パラメータθ_ｏｐｔを取得することで、モデルの最適化処理（モデル学習）を実行することができる。

しかしながら、上記モデルでは、条件付き確率ｐ（ｘ｜ｈ）を求めるためには、過去の全てのサンプルデータ、すなわち、ｘ（１）〜ｘ（ｔ−１）が必要となるため、サンプル数Ｔが大きくなる程、計算量が多くなる。

これに対処するために、オーディオデータ学習装置ＤＬでは、入力されるフルバンドの波形信号から、上記処理によりサブバンド分割したサブバンド信号を用いることで、並列処理を実行しやすくし、高速化処理を実現させる。

つまり、第ｋサブバンド学習モデル３ｋでは、コンテキストラベル等の補助入力ｈと、第ｋダウンサンプリング処理部２ｋにより取得されたデータｘ＿ｄ_ｋとを用いて条件付き確率ｐ（ｘ＿ｄ_ｋ｜ｈ）を以下のように設定されたモデルを用いてモデルの学習を行う。
なお、ｔ＝１のとき、ｐ（ｘ＿ｄ_ｋ（ｔ）｜ｘ＿ｄ_ｋ（１），・・・，ｘ＿ｄ_ｋ（ｔ−１），ｈ）は、ｐ（ｘ＿ｄ_ｋ（１）｜ｈ）とすればよい。

また、ｘ＿ｄ_ｋ（１）＝ｘ_{ｋ，ＳＳＢ}（Ｍ）であり、ｘ＿ｄ_ｋ（ｔ）＝ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）である。つまり、第ｋサブバンド学習モデル３ｋでは、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率ｐ（ｘ＿ｄ_ｋ｜ｈ）を求めるための対象データが１／Ｍで済む。

そして、第ｋサブバンド学習モデル３ｋでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第ｋサブバンド学習モデル３ｋでは、

により、最適化パラメータθ_{ｏｐｔ＿ｋ}を取得することで、モデルの最適化処理（モデル学習）を実行する。なお、パラメータθ_ｋは、スカラー、ベクトル、またはテンソルである。

以上のようにして、サブバンド学習モデル部３の第１サブバンド学習モデル３１〜第Ｎサブバンド学習モデル３Ｎにおいて、学習処理が実行される。

（１．２．２：推論処理）
次に、オーディオデータ推論装置ＩＮＦによる推論処理について、説明する。

図９は、オーディオデータ推論装置ＩＮＦによる推論処理のフローチャートである。

図１０、図１１は、オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である。図１０、図１１において、横軸は周波数であり、縦軸は周波数スペクトルの大きさをｄＢ値で示しているものとする。

以下では、図９のフローチャートを参照しながら説明する。

（ステップＳ２１）：
オーディオデータ推論装置ＩＮＦのサブバンド学習済モデル部３Ａに、推論時の入力データｘ’を構成するサブバンド信号データｘａ_ｋおよび補助入力ｈが入力される。

なお、サブバンド信号データｘａ_ｋは、入力データｘ’（信号ｘ’（ｔ））に対してサブバンド分割部１、ダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データｘ’（信号ｘ’（ｔ））をサブバンド分割部１に入力し、サブバンド分割部１およびダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号（ダウンサンプリング処理部２から出力される信号）をサブバンド信号データｘａ_ｋとして、サブバンド学習済モデル部３Ａに入力させるようにしてもよい。

なお、第ｋサブバンド学習済モデル３Ａｋに入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_ｋの少なくとも一方のデータである。

（ステップＳ２２）：
サブバンド学習済モデル部３Ａは、補助入力ｈと、サブバンド信号データｘａ_ｋに対して、第ｋサブバンド学習済モデル３Ａｋを用いた処理を実行し、処理後のデータをデータｘｂ_ｋとして取得する。

具体的には、ｘａ_ｋ（ｔ）が０〜２５５のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率ｐ（ｘａ_ｋ｜ｈ）が最大となる値をｘａ_ｋ（ｔ）の値に決定する。

なお、ｔ＝１のとき、ｐ（ｘａ_ｋ（ｔ）｜ｘａ_ｋ（１），・・・，ｘａ_ｋ（ｔ−１），ｈ）は、ｐ（ｘａ_ｋ（１）｜ｈ）とすればよい。

例えば、ｘａ_ｋ（ｔ）＝２００としたとき、第ｋサブバンド学習済モデル３Ａｋで求められる条件付き確率ｐ（ｘａ_ｋ｜ｈ）が最大値となるとき、ｘａ_ｋ（ｔ）＝２００に決定する。

このように処理することで、第ｋサブバンド学習済モデル３Ａｋ（ｋ：自然数、１≦ｋ≦Ｎ）では、第ｋサブバンド学習済モデル３Ａｋの出力データｘｂ_ｋ（信号ｘｂ_ｋ（ｔ））を取得する。

なお、第ｋサブバンド学習済モデル３Ａｋを用いた処理（推論処理）は、フルバンドの波形データに対して間引き率Ｍでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。したがって、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率ｐ（ｘａ_ｋ｜ｈ）を求めるための対象データが１／Ｍで済む。

したがって、Ｎ個のサブバンド学習済モデルを用いた処理（推論処理）では、従来技術のようにフルバンドの波形データを用いる場合に対して約Ｍ倍の速さで処理を実行することができる。

そして、第１サブバンド学習済モデル３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮは、図４に示すように、並列処理することができるので、サブバンド学習済モデル部での推論処理は、従来技術のようにフルバンドの波形データを用いる場合に対して約Ｍ倍の速さで処理することができる。

以上のようにして、第１サブバンド学習済モデル３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮで取得されたデータｘｂ_１（信号ｘｂ_１（ｔ））〜ｘｂ_Ｎ（信号ｘｂ_Ｎ（ｔ））は、サブバンド学習済モデル部３Ａからアップサンプリング処理部４に出力される。

（ステップＳ２３）：
次に、第１アップサンプリング処理部４１〜第Ｎアップサンプリング処理部４Ｎは、それぞれ入力されたデータｘｂ_ｋ（信号ｘｂ_ｋ（ｔ））に対して間引き率Ｍでオーバサンプリングを行うことで、アップサンプリング処理を実行し（例えば、ゼロ挿入によりアップサンプリング処理を実行し）、アップサンプリング処理後のデータｘｃ_ｋ（信号ｘｃ_ｋ（ｔ））を取得する。

図１０（ａ）に、アップサンプリング処理後の信号ｘｃ_ｋ（ｔ）の周波数スペクトルを示す。図１０（ａ）に示すように、アップサンプリング処理後の信号ｘｃ_ｋ（ｔ）は、折り返し歪みが発生している状態であるので、ベースバンドにシフトし、折り返し歪みが発生しないように帯域制限を行う必要がある。

（ステップＳ２４）：
次に、サブバンド合成部５の第１ベースバンドシフト処理部５１１〜第Ｎベースバンドシフト処理部５１Ｎでは、それぞれ入力されたアップサンプリング処理後のデータｘｃ_ｋ（信号ｘｃ_ｋ（ｔ））に対して、ベースバンドシフト処理が実行される。

具体的には、第ｋベースバンドシフト処理部５１ｋでは、
ｘｃ＿ｂｓ_ｋ（ｔ）＝ｘｃ_ｋ（ｔ）×Ｗ_Ｎ ^−１／２
Ｗ_Ｎ＝ｅｘｐ（ｊ×２π／（２Ｎ））
ｋ：自然数、１≦ｋ≦Ｎ
ｊ：虚数単位
に相当する処理を実行し、ベースバンドシフト処理後の信号ｘｃ＿ｂｓ_ｋ（ｔ）を取得する。そして、第ｋベースバンドシフト処理部５１ｋは、取得したデータｘｃ＿ｂｓ_ｋ（信号ｘｃ＿ｂｓ_ｋ（ｔ））を第ｋ帯域制限フィルタ処理部５２ｋに出力する。

図１０（ｂ）に、ベースバンドシフト処理後の信号ｘｃ＿ｂｓ_ｋ（ｔ）の周波数スペクトルを示す。

（ステップＳ２５）：
次に、第１帯域制限フィルタ処理部５２１〜第Ｎ帯域制限フィルタ処理部５２Ｎでは、それぞれ入力されたデータｘｃ＿ｂｓ_ｋ（信号ｘｃ＿ｂｓ_ｋ（ｔ））に対して帯域制限フィルタ処理が実行される。

具体的には、第ｋ帯域制限フィルタ処理部５２ｋでは、カットオフ周波数π／（２Ｎ）の帯域制限フィルタで帯域制限を行う。なお、当該帯域制限フィルタのインパルス応答をｈ（ｔ）とする。つまり、第ｋ帯域制限フィルタ処理部５２ｋは、
ｘｃ＿ｆｔ_ｋ（ｔ）＝ｈ（ｔ）＊ｘｃ＿ｂｓ_ｋ（ｔ）
に相当する処理を実行し、帯域制限処理後の信号ｘｃ＿ｆｔ_ｋ（ｔ）を取得する。なお、「＊」は畳み込み総和をとる演算子である。

そして、第ｋ帯域制限フィルタ処理部５２ｋは、取得したデータｘｃ＿ｆｔ_ｋ（信号ｘｃ＿ｆｔ_ｋ（ｔ））を第ｋ周波数シフト処理部５３ｋに出力する。

なお、図１０（ｃ）に、帯域制限フィルタの周波数特性（一例）を示す。この帯域制限フィルタは、−π／（２Ｎ）≦ｆ≦π／（２Ｎ）において、ゲインが０ｄＢであり、それ以外の周波数領域では、ゲインが略０（例えば、−６０ｄＢ以下）であるものとする。なお、周波数ｆは、規格化した周波数であり、サンプリング周波数ｆｓと同一のときｆ＝２πであるものとする。

図１０（ｄ）は、図１０（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘｃ＿ｆｔ_ｋ（ｔ）の周波数スペクトルである。

（ステップＳ２６）：
次に、第１周波数シフト処理部５３１〜第Ｎ周波数シフト処理部５３Ｎでは、それぞれ入力された信号ｘｃ＿ｆｔ_ｋ（ｔ）に対して周波数シフト処理が実行される。

具体的には、第ｋ周波数シフト処理部５３ｋでは、
ｘｃ＿ｓｈｆｔ_ｋ（ｔ）＝ｘｃ＿ｆｔ_ｋ（ｔ）×Ｗ_Ｎ ^{ｔ（ｋ−１／２）}
Ｗ_Ｎ＝ｅｘｐ（ｊ×２π／（２Ｎ））
ｋ：自然数、１≦ｋ≦Ｎ
ｊ：虚数単位
に相当する処理を実行し、周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）を取得する。そして、第ｋ周波数シフト処理部５３ｋは、取得したデータｘｃ＿ｓｈｆｔ_ｋ（信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ））をサブバンド合成処理部５４に出力する。

図１１（ａ）は、周波数シフト処理前の信号ｘｃ＿ｆｔ_ｋ（ｔ）の周波数スペクトルである。
なお、図１１（ｂ）に、ｋ＝１のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）の周波数スペクトルを示す。ｋ＝１のときの周波数シフト処理は、第１周波数シフト処理部５３１により実行される。第ｋ周波数シフト処理部５３ｋでの周波数シフト量は、Ｗ_Ｎ ^{ｔ（ｋ−１／２）}となるので、第ｋ周波数シフト処理部５３ｋでの処理後の信号の周波数スペクトルは、元のサブバンド信号（原信号）の周波数スペクトルの位置に戻る。

図１１（ｃ）の領域Ｒ１〜Ｒ４の周波数スペクトルは、Ｎ＝４の場合において、第１周波数シフト処理部５３１〜第４周波数シフト処理部５３４により取得された信号ｘｃ＿ｓｈｆｔ_１（ｔ）〜ｘｃ＿ｓｈｆｔ_４（ｔ）の周波数スペクトルである。

（ステップＳ２７）：
サブバンド合成処理部５４は、第１周波数シフト処理部５３１〜第Ｎ周波数シフト処理部５３Ｎから出力されるデータｘｃ＿ｓｈｆｔ_１〜ｘｃ＿ｓｈｆｔ_Ｎを入力し、入力されたデータｘｃ＿ｓｈｆｔ_１〜ｘｃ＿ｓｈｆｔ_Ｎに対して合成処理（加算処理）を行うことで、出力データｘｏ（信号ｘｏ（ｔ））を取得する。

図１１（ｃ）に、サブバンド合成処理部５４によるサブバンド合成処理後の信号ｘｏ（ｔ）の周波数スペクトルを示す。図１１（ｃ）から分かるように、上記処理によりサブバンド信号からフルバンド信号が適切に復元されている。

以上のように、オーディオデータ処理システム１０００のオーディオデータ学習装置ＤＬでは、フルバンドの波形データ（フルバンドのオーディオ信号）をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部３によりモデルの学習（最適化）を行うことができる。サブバンド学習モデル部３では、Ｎ個のモデル（第１サブバンド学習モデル〜第Ｎサブバンド学習モデル）により並列にサブバンド信号を用いたモデルの学習（最適化）を行うことができる。すなわち、オーディオデータ学習装置ＤＬでは、波形直接生成モデルの学習（最適化）を並列処理により実現することができる。

また、オーディオデータ処理システム１０００のオーディオデータ推論装置ＩＮＦでは、補助入力ｈおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部３Ａにより、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部３Ａでは、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）により並列にサブバンド信号を用いた推論処理を行うことができる。そして、オーディオデータ推論装置ＩＮＦでは、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）の推論結果データに対してアップサンプリング処理を行った後、サブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。

すなわち、オーディオデータ推論装置ＩＮＦでは、波形直接生成モデルの推論処理を並列処理により実現することができる。その結果、オーディオデータ推論装置ＩＮＦでは、従来技術のようにフルバンドの波形データを用いた波形直接生成モデルによる推論処理に対して遙かに高速に推論処理を実行することができる。

以上の通り、オーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができる。

［第２実施形態］
次に、第２実施形態について説明する。

第１実施形態では、Ｎ＝Ｍ＝４、すなわち、Ｎの値（サブバンド分割数）とＭの値（間引き率）が同じである場合であって、サブバンド分割部１およびサブバンド合成部５において、理想的な帯域制限フィルタによる帯域制限フィルタ処理を行う場合について説明した。第２実施形態では、Ｎの値（サブバンド分割数）とＭの値（間引き率）が異なる場合であって、さらに、サブバンド分割部１およびサブバンド合成部５において、２乗根ｃｏｓ特性を有するフィルタ（２乗根Ｈａｎｎ窓型フィルタ）による帯域制限フィルタ処理を行う場合について説明する。

なお、第２実施形態において、第１実施形態と同様の部分については、詳細な説明を省略する。また、第２実施形態のオーディオデータ処理システム、オーディオデータ学習装置ＤＬ、オーディオデータ推論装置ＩＮＦの構成は、第１実施形態と同様である。

本実施形態においても、第１実施形態と同様に、図１２（ａ）に示す周波数スペクトルを有する波形データ（オーディオ信号）について処理が実行される場合について説明する。

また、本実施形態において、Ｎ＝９（サブバンド分割数）、Ｍ＝４（間引き率）の場合について説明する。

図１２（ａ）は、入力データｘ（入力信号ｘ（ｔ））の周波数スペクトルと、サブバンド信号を取得するときに対象とする周波数領域とを示す図である。図１２（ａ）において、サブバンド信号ｘ＿ｓｕｂ_ｋ（ｋ：自然数、１≦ｋ≦Ｎ）を取得するときの処理対象とする周波数領域を周波数領域Ｒｋ（Ｒ１〜Ｒ９）として示している。図１２（ａ）に示すように、周波数領域Ｒｋ（Ｒ１〜Ｒ９）は、π／（Ｎ−１）（Ｎ＝９のときはπ／８）ずつ中心周波数がシフトするように設定されている。そして、周波数領域Ｒ１、Ｒ９は、周波数幅がπ／（Ｎ−１）である周波数帯域であり、それ以外の周波数領域Ｒ２〜Ｒ８は、それぞれ周波数幅が２π／（Ｎ−１）である周波数帯域である。

図１２（ｂ）は、以下の伝達関数を有するフィルタの周波数特性を周波数軸においてπ／（Ｎ−１）ずつ周波数が高くなる方向にずらしたときに得られるフィルタ（２乗根Ｈａｎｎ窓型フィルタ）の周波数特性を示している。
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
ω：角周波数
つまり、オーディオデータ処理システムにおいて、学習処理時と推論処理時の両方で、信号に対して、サブバンド信号を取得するときの帯域制限フィルタ処理と、サブバンド信号を合成するときの帯域制限フィルタ処理とを実行することで、信号に対してｃｏｓ特性（２乗根ｃｏｓ特性のフィルタ処理を２回実行したときの特性）の帯域制限フィルタ処理を施したことと等価となる。そして、図１２に示すようにサブバンド分割される周波数領域はπ／（Ｎ−１）ずつシフトしながら、かつ、隣接するサブバンド分割領域（サブバンド周波数領域）と周波数幅π／（Ｎ−１）の重複領域を有している。したがって、サブバンド分割した信号をサブバンド合成して取得される信号は、元の信号（原信号）に対してエネルギー損失が殆どなく適切に原信号を復元（推定）することができる。

つまり、サブバンド合成部から出力される信号は、以下の成分を含む信号と等価となる。
（１）０≦ｆ＜π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ１のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ２のフィルタ処理を２回実行して取得される信号成分。
（２）π／８≦ｆ＜２π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ２のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ３のフィルタ処理を２回実行して取得される信号成分。
（３）２π／８≦ｆ＜３π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ３のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ４のフィルタ処理を２回実行して取得される信号成分。
（４）３π／８≦ｆ＜４π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ４のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ５のフィルタ処理を２回実行して取得される信号成分。
（５）４π／８≦ｆ＜５π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ５のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ６のフィルタ処理を２回実行して取得される信号成分。
（６）５π／８≦ｆ＜６π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ６のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ７のフィルタ処理を２回実行して取得される信号成分。
（７）６π／８≦ｆ＜７π／８の周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ７のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ８のフィルタ処理を２回実行して取得される信号成分。
（８）７π／８≦ｆ＜πの周波数領域の周波数成分に対して、フィルタ特性ｆ＿Ｒ８のフィルタ処理を２回（学習時と推論時）実行することで取得される信号成分、および、フィルタ特性ｆ＿Ｒ９のフィルタ処理を２回実行して取得される信号成分。

したがって、サブバンド分割した信号をサブバンド合成して取得される信号は、元の信号（原信号）に対して原信号を劣化なく復元（推定）することができる。

以下では、図１３〜図２５に示した各信号の周波数スペクトルを示した図を参照しながら本実施形態について説明する。

図１３、図１４は、オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。

図１５、図１６は、オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ１、ｋ＝１）。

図１７、図１８は、オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。

図１９、図２０は、オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ２、ｋ＝２）。

図２１、図２２は、オーディオデータ学習装置ＤＬにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。

図２３、図２４は、オーディオデータ推論装置ＩＮＦにより実行される処理を説明するための図であり、各処理段階での信号の周波数スペクトルを模式的に示す図である（周波数領域Ｒ３、ｋ＝３）。

以下では、図６のフローチャートを参照しながら説明する。
≪学習処理≫
（ステップＳ１）：
オーディオデータ学習装置ＤＬのサブバンド分割部１に入力データｘ（例えば、フルバンドのオーディオ信号の波形のデータ）が入力される。具体的には、入力データｘ（信号ｘ（ｔ））は、図３に示すように、サブバンド分割部１の第１周波数シフト処理部１１１〜第Ｎ周波数シフト処理部１１Ｎにそれぞれ入力される。

具体的には、第ｋ周波数シフト処理部１１ｋでは、
ｘ_ｋ（ｔ）＝ｘ（ｔ）×Ｗ_Ｎ ^{−ｔ（（ｋ−１）／２）}
Ｗ_Ｎ＝ｅｘｐ（ｊ×２π／（２Ｎ））
ｋ：自然数、１≦ｋ≦Ｎ
ｊ：虚数単位
に相当する処理を実行し、周波数シフト処理後の信号ｘ_ｋ（ｔ）を取得する。

なお、ｋ＝１の場合、Ｗ_Ｎ ^{−ｔ（（ｋ−１）／２）}＝０なので、ｘ_ｋ（ｔ）＝ｘ（ｔ）となる。

図１３（ｂ）は、ｋ＝１（処理対象領域Ｒ１）のときの周波数シフト処理後の信号ｘ_ｋ（ｔ）のスペクトルを示す図である。

図１７（ｂ）は、ｋ＝２（処理対象領域Ｒ２）のときの周波数シフト処理後の信号ｘ_ｋ（ｔ）のスペクトルを示す図である。

図２１（ｂ）は、ｋ＝３（処理対象領域Ｒ３）のときの周波数シフト処理後の信号ｘ_ｋ（ｔ）のスペクトルを示す図である。

具体的には、第ｋ帯域制限フィルタ処理部１２ｋでは、下記で表される２乗根ｃｏｓ特性の帯域制限フィルタで帯域制限を行う。
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
ω：角周波数
なお、上記２乗根ｃｏｓ特性の帯域制限フィルタのインパルス応答をｈ（ｔ）とすると、第ｋ帯域制限フィルタ処理部１２ｋは、
ｘ_ｋ，ｐｐ（ｔ）＝ｈ（ｔ）＊ｘ_ｋ（ｔ）
に相当する処理を実行し、帯域制限処理後の信号ｘ_ｋ，ｐｐ（ｔ）を取得する。なお、「＊」は畳み込み総和をとる演算子である。

図１３（ｃ）に、上記帯域制限フィルタの周波数特性を示す。なお、周波数ｆは、規格化した周波数であり、サンプリング周波数ｆｓと同一のときｆ＝２πであるものとする。

図１３（ｄ）は、ｋ＝１（処理対象領域Ｒ１）の場合において、図１３（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘ_ｋ，ｐｐ（ｔ）の周波数スペクトル（実線部分）である。

図１７（ｄ）は、ｋ＝２（処理対象領域Ｒ２）の場合において、図１７（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘ_ｋ，ｐｐ（ｔ）の周波数スペクトル（実線部分）である。

図２１（ｄ）は、ｋ＝３（処理対象領域Ｒ３）の場合において、図２１（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘ_ｋ，ｐｐ（ｔ）の周波数スペクトル（実線部分）である。

具体的には、第ｋ実数化処理部１３ｋでは、ＳＳＢ変調処理を実行する。つまり、第ｋ実数化処理部１３ｋは、
ｘ_{ｋ，ＳＳＢ}（ｔ）＝ｘ_ｋ，ｐｐ（ｔ）×Ｗ_Ｎ ^ｔ／２＋ｘ^＊ _ｋ，ｐｐ（ｔ）×Ｗ_Ｎ ^−ｔ／２
に相当する処理を実行し、実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）を取得する。

図１４（ａ）に、ｋ＝１（処理対象領域Ｒ１）のときの実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）の周波数スペクトルを示す。

図１８（ａ）に、ｋ＝２（処理対象領域Ｒ２）のときの実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）の周波数スペクトルを示す。

図２２（ａ）に、ｋ＝３（処理対象領域Ｒ３）のときの実数化処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ）の周波数スペクトルを示す。

（ステップＳ５）：
次に、第１ダウンサンプリング処理部２１〜第Ｎダウンサンプリング処理部２Ｎは、それぞれ入力されたデータｘ＿ｓｕｂ_ｋ（信号ｘ_{ｋ，ＳＳＢ}（ｔ））に対して間引き率Ｍ（Ｍ：自然数）のダウンサンプリング処理（間引き処理）を実行し、処理後のデータｘ＿ｄ_ｋを取得する。

図１４（ｂ）に、ｋ＝１（処理対象領域Ｒ１）のときのダウンサンプリング処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）の周波数スペクトルを示す。

図１８（ｂ）に、ｋ＝２（処理対象領域Ｒ２）のときのダウンサンプリング処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）の周波数スペクトルを示す。

図２２（ｂ）に、ｋ＝３（処理対象領域Ｒ３）のときのダウンサンプリング処理後の信号ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）の周波数スペクトルを示す。

ステップＳ６での処理は、第１実施形態での処理と同様である。ただし、第１実施形態ではＮ＝４であったが、本実施形態ではＮ＝９である。

≪推論処理≫
本実施形態において、推論処理においても、第１実施形態と同様の信号がオーディオデータ推論装置ＩＮＦに入力されるものとして以下図９のフローチャートを参照しながら説明する。

（ステップＳ２２）：
第ｋサブバンド学習済モデル３Ａｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、補助入力ｈと、サブバンド信号データｘａ_ｋに対して、第ｋサブバンド学習済モデル３Ａｋを用いた処理を実行し、処理後のデータをデータｘｂ_kとして取得する。第２実施形態の第ｋサブバンド学習済モデル３Ａｋの処理内容は、第１実施形態のものと同様である。なお、第２実施形態ではＮ＝９である。

第１サブバンド学習済モデル３Ａ１〜第Ｎサブバンド学習済モデル３ＡＮで取得されたデータｘｂ_１（信号ｘｂ_１（ｔ））〜ｘｂ_Ｎ（信号ｘｂ_Ｎ（ｔ））は、サブバンド学習済モデル部３Ａからアップサンプリング処理部４に出力される。

図１５（ａ）に、ｋ＝１（処理対象領域Ｒ１）のときのアップサンプリング処理後の信号ｘｃ_ｋ（ｔ）の周波数スペクトルを示す。

図１９（ａ）に、ｋ＝２（処理対象領域Ｒ２）のときのアップサンプリング処理後の信号ｘｃ_ｋ（ｔ）の周波数スペクトルを示す。

図２３（ａ）に、ｋ＝３（処理対象領域Ｒ３）のときのアップサンプリング処理後の信号ｘｃ_ｋ（ｔ）の周波数スペクトルを示す。

図１５（ｂ）に、ｋ＝１（処理対象領域Ｒ１）のときのベースバンドシフト処理後の信号ｘｃ＿ｂｓ_ｋ（ｔ）の周波数スペクトルを示す。

図１９（ｂ）に、ｋ＝２（処理対象領域Ｒ２）のときのベースバンドシフト処理後の信号ｘｃ＿ｂｓ_ｋ（ｔ）の周波数スペクトルを示す。

図２３（ｂ）に、ｋ＝３（処理対象領域Ｒ３）のときのベースバンドシフト処理後の信号ｘｃ＿ｂｓ_ｋ（ｔ）の周波数スペクトルを示す。

具体的には、第ｋ帯域制限フィルタ処理部５２ｋでは、下記で表される２乗根ｃｏｓ特性の帯域制限フィルタで帯域制限を行う。
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
ω：角周波数
なお、上記２乗根ｃｏｓ特性の帯域制限フィルタのインパルス応答をｈ（ｔ）とすると、第ｋ帯域制限フィルタ処理部５２ｋは、
ｘｃ＿ｆｔ_ｋ（ｔ）＝ｈ（ｔ）＊ｘｃ＿ｂｓ_ｋ（ｔ）
に相当する処理を実行し、帯域制限処理後の信号ｘｃ＿ｆｔ_ｋ（ｔ）を取得する。なお、「＊」は畳み込み総和をとる演算子である。

図１５（ｃ）に、上記帯域制限フィルタの周波数特性を示す。

図１５（ｄ）は、ｋ＝１（処理対象領域Ｒ１）の場合において、図１５（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘｃ＿ｆｔ_ｋ（ｔ）の周波数スペクトルである。

図１９（ｄ）は、ｋ＝２（処理対象領域Ｒ２）の場合において、図１９（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘｃ＿ｆｔ_ｋ（ｔ）の周波数スペクトルである。

図２３（ｄ）は、ｋ＝３（処理対象領域Ｒ２）の場合において、図２３（ｃ）の周波数特性を有する帯域制限フィルタにより帯域制限フィルタ処理を行った後の信号ｘｃ＿ｆｔ_ｋ（ｔ）の周波数スペクトルである。

具体的には、第ｋ周波数シフト処理部５３ｋでは、
ｘｃ＿ｓｈｆｔ_ｋ（ｔ）＝ｘｃ＿ｆｔ_ｋ（ｔ）×Ｗ_Ｎ ^{ｔ（（ｋ−１）／２）}
Ｗ_Ｎ＝ｅｘｐ（ｊ×２π／（２Ｎ））
ｋ：自然数、１≦ｋ≦Ｎ
ｊ：虚数単位
に相当する処理を実行し、周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）を取得する。そして、第ｋ周波数シフト処理部５３ｋは、取得したデータｘｃ＿ｓｈｆｔ_ｋ（信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ））をサブバンド合成処理部５４に出力する。

なお、図１６（ｂ）に、ｋ＝１（処理対象領域Ｒ１）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）の周波数スペクトルを示す。ｋ＝１のときの周波数シフト処理は、第１周波数シフト処理部５３１により実行される。第ｋ周波数シフト処理部５３ｋでの周波数シフト量は、Ｗ_Ｎ ^{ｔ（(ｋ−１)／２）}となるので、第ｋ周波数シフト処理部５３ｋでの処理後の信号の周波数スペクトルは、元のサブバンド信号（原信号）の周波数スペクトルの位置に戻る。

図２０（ｂ）に、ｋ＝２（処理対象領域Ｒ２）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）の周波数スペクトルを示す。

図２４（ｂ）に、ｋ＝３（処理対象領域Ｒ３）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）の周波数スペクトルを示す。

図２５（ａ）に、ｋ＝１（処理対象領域Ｒ１）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）を示す。

図２５（ｂ）に、ｋ＝２（処理対象領域Ｒ２）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）を示す。

図２５（ｃ）に、ｋ＝３（処理対象領域Ｒ３）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）を示す。

同様に、ｋ＝４〜９（処理対象領域Ｒ４〜Ｒ９）のときの周波数シフト処理後の信号ｘｃ＿ｓｈｆｔ_ｋ（ｔ）が取得される。

そして、サブバンド合成処理部５４により、以下の数式に相当する処理を実行することで、出力データｘｏ（出力信号ｘｏ（ｔ））が取得される。

以上のように、本実施形態のオーディオデータ処理システムのオーディオデータ学習装置ＤＬでは、フルバンドの波形データ（フルバンドのオーディオ信号）を２乗根ｃｏｓ特性を有するフィルタにより帯域制限フィルタ処理を行うことでサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部３によりモデルの学習（最適化）を行うことができる。サブバンド学習モデル部３では、Ｎ個のモデル（第１サブバンド学習モデル〜第Ｎサブバンド学習モデル）により並列にサブバンド信号を用いたモデルの学習（最適化）を行うことができる。すなわち、オーディオデータ学習装置ＤＬでは、波形直接生成モデルの学習（最適化）を並列処理により実現することができる。

また、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置ＩＮＦでは、補助入力ｈおよびサブバンド信号の少なくとも一方を入力とするサブバンド学習済モデル部３Ａにより、並列処理による推論処理を実現することができる。つまり、サブバンド学習済モデル部３Ａでは、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）により並列にサブバンド信号を用いた推論処理を行うことができる。そして、オーディオデータ推論装置ＩＮＦでは、Ｎ個のサブバンド学習済モデル（第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデル）の推論結果データに対してアップサンプリング処理を行った後、２乗根ｃｏｓ特性を有するフィルタにより帯域制限フィルタ処理を含むサブバンド合成処理を行うことで、フルバンドのオーディオデータに対する推論処理の処理結果データを取得することができる。

さらに、本実施形態のオーディオデータ処理システムでは、フルバンドの波形データ（フルバンドのオーディオ信号）を２乗根ｃｏｓ特性を有するフィルタにより帯域制限フィルタ処理を行うことで取得したサブバンド信号を用いてモデルの学習を行うため、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。これは、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合、時系列のデータ（信号）に対してＳ／Ｎ比が最大となるように学習を行うため、誤差は全周波数に対して均一となり音質劣化を招く。特に、フルバンドの波形データを用いてモデルの学習を行う場合、高周波数領域での誤差が大きくなる傾向があり、その結果、フルバンドの波形データを用いて学習したモデルを用いて推論処理を行って取得される波形データ（オーディオ信号）は、その高周波領域のスペクトルが本来あるべき波形データ（オーディオ信号）のスペクトルから大きくずれる。これが音質劣化を招く。

それに対して、本実施形態のオーディオデータ処理システムでは、フルバンドの波形データ（フルバンドのオーディオ信号）を２乗根ｃｏｓ特性を有するフィルタにより帯域制限フィルタ処理を行うことで取得したサブバンド信号を用いてモデルの学習を行う。つまり、本実施形態のオーディオデータ処理システムでは、強制的に「色」が付けられたサブバンド信号、すなわち、予測しやすい信号を用いてモデルの学習を実行することができるので、従来技術のようにフルバンドの波形データを用いてモデルの学習を行う場合よりも適切なモデル学習を行うことができる。

そして、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置ＩＮＦでは、上記のようにして取得された学習済みモデルを用いて推論処理を行うため、推論処理を行って取得される波形データ（オーディオ信号）は、その高周波領域のスペクトルが本来あるべき波形データ（オーディオ信号）のスペクトルから大きくずれることがない。その結果、本実施形態のオーディオデータ処理システムのオーディオデータ推論装置ＩＮＦにより取得される波形データ（オーディオ信号）は、非常に高品質の波形データ（オーディオ信号）となる。

また、本実施形態のオーディオデータ処理システムでは、学習時と推論時において、図１２に示した各周波数領域ごとに、図１２で示した２乗根ｃｏｓ特性のフィルタによる帯域制限フィルタ処理を行いサブバンド合成処理を行うので、元の信号（原信号）に対してエネルギー損失が殆どなく適切に原信号を復元（推定）することができる。

図２６に、（１）原信号のスペクトログラム（図２６（ａ））、（２）サブバンド分割を行わずフルバンドの波形データをそのまま学習させた学習済みモデルによる出力信号（推論処理後の信号）のスペクトログラム（図２６（ｂ））、および、（３）本実施形態のオーディオ処理システムによる出力信号（推論処理後の信号）のスペクトログラム（図２６（ｃ））を示す。

なお、図２６のデータは、以下の条件により取得したデータである。
（１）日本語女性話者７２４２文（約４．８時間）および男性話者５６９７文（約３．７時間）を学習セット、それぞれ１００文ずつをテストセットとした。サンリング周波数ｆｓ＝４８ｋＨｚ収録音声を３２ｋＨｚにダウンサンプリングした。
（２）条件なしの波形直接生成モデルによる学習、生成（推論）を行う。補助入力ｈは用いず、正解入力［ｘ（１），・・・，ｘ（ｔ−１）］から、ｘ’（ｔ）を推定し、生成サンプルｘ’＝［ｘ’（１），・・・，ｘ’（Ｔ）］を出力とする。

図２６から分かるように、フルバンドの波形データをそのまま学習させた学習済みモデルによる出力信号（推論処理後の信号）のスペクトログラム（図２６（ｂ））では、原信号のスペクトログラム（図２６（ａ））に比較して、高周波領域（例えば、１０ｋＨｚ以上の領域）において、大きな誤差を生じている（高周波領域のスペクトル成分が原信号に比べて大きくなりすぎている）。これが音質劣化を招いている。

それに対して、本実施形態のオーディオ処理システムによる出力信号（推論処理後の信号）のスペクトログラム（図２６（ｃ））は、原信号のスペクトログラム（図２６（ａ））と非常に近いものとなっている。すなわち、本実施形態のオーディオ処理システムによる出力信号（推論処理後の信号）は、原信号（正解データ）に非常に近く、極めて優れた推論処理を実行できていることが分かる。

以上の通り、本実施形態のオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行することができるとともに、非常に高品質なオーディオデータを取得することができる。

［第３実施形態］
次に、第３実施形態について、説明する。

なお、本実施形態において、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

サブバンド処理を用いたオーディオデータ処理システムでは、推論処理時（例えば、音声生成時）のランダムサンプリングにより、帯域間での位相のズレが問題となる。

第３実施形態のオーディオデータ処理システム３０００では、複数帯域入力型の構成により、帯域間での位相のズレの発生を適切に抑制する。

＜３．１：オーディオデータ処理システムの構成＞
図２７は、第３実施形態に係るオーディオデータ処理システム３０００の概略構成図である。

図２８は、第３実施形態に係るオーディオデータ処理システム３０００のオーディオデータ学習装置ＤＬａの概略構成図である。

図２９は、第３実施形態に係るオーディオデータ処理システム３０００のオーディオデータ推論装置ＩＮＦａの概略構成図である。

（３．１．１：オーディオデータ学習装置の構成）
オーディオデータ処理システム３０００は、図２７に示すように、オーディオデータ学習装置ＤＬａとオーディオデータ推論装置ＩＮＦａとを備える。

オーディオデータ学習装置ＤＬａは、図２８に示すように、第１実施形態のオーディオデータ学習装置ＤＬにおいて、サブバンド学習モデル部３を、サブバンド学習モデル部３Ｃに置換した構成を有している。

サブバンド学習モデル部３Ｃは、図２８に示すように、第１サブバンド学習モデル３１Ｃ〜第Ｎサブバンド学習モデル３ＮＣを備える。

第１サブバンド学習モデル３１Ｃは、第１ダウンサンプリング処理部２１から出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１と、補助入力ｈとを入力する。

第２サブバンド学習モデル３２Ｃ〜第Ｎサブバンド学習モデル３ＮＣは、それぞれ、第２ダウンサンプリング処理部２２〜第Ｎダウンサンプリング処理部２Ｎから出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_２〜ｘ＿ｄ_Ｎと、補助入力ｈと入力することができる。さらに、第２サブバンド学習モデル３２Ｃ〜第Ｎサブバンド学習モデル３ＮＣのそれぞれには、第１ダウンサンプリング処理部２１から出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１が入力される。

そして、第１サブバンド学習モデル３１Ｃ〜第Ｎサブバンド学習モデル３ＮＣでは、それぞれ、入力されたデータと補助入力ｈとを用いてモデルの学習を行い、各モデルを最適化する（各モデルを最適化するパラメータを取得する）。つまり、第ｋサブバンド学習モデル３ｋＣ（ｋ：自然数、１≦ｋ≦Ｎ）では、（１）サブバンド信号データｘ＿ｄ_ｋと、（２）サブバンド信号データｘ＿ｄ_１と、（３）補助入力ｈとを用いて、モデルの学習を行い、各モデルを最適化する。

なお、第ｋサブバンド学習モデル３ｋＣ（ｋ：自然数、１≦ｋ≦Ｎ）において、補助入力ｈの入力を省略し、入力データ（サブバンド信号データｘ＿ｄ_ｋおよびサブバンド信号データｘ＿ｄ_１）のみを用いてモデルの学習を行うようにしてもよい。

（３．１．２：オーディオデータ推論装置の構成）
オーディオデータ推論装置ＩＮＦａは、図２９に示すように、サブバンド学習済モデル部３Ｂと、アップサンプリング処理部４と、サブバンド合成部５とを備える。

オーディオデータ推論装置ＩＮＦａは、図２９に示すように、第１実施形態のオーディオデータ推論装置ＩＮＦにおいて、サブバンド学習済モデル部３Ａを、サブバンド学習済モデル部３Ｂに置換した構成を有している。

サブバンド学習済モデル部３Ｂは、図２９に示すように、第１サブバンド学習済モデル３Ｂ１〜第Ｎサブバンド学習済モデル３ＢＮを備える。サブバンド学習済モデル３Ｂ１〜第Ｎサブバンド学習済モデル３ＢＮは、それぞれ、第１サブバンド学習モデル３１Ｃ〜第Ｎサブバンド学習モデル３ＮＣによりモデル学習し最適化されたモデルである（モデル学習により取得された最適化パラメータを設定されたモデルである）。

第１サブバンド学習済モデル３Ｂ１は、図２９に示すように、補助入力ｈと、推論時の入力データｘ’を構成するサブバンド信号データｘａ_１を入力し、入力されたデータに対して、第１サブバンド学習済モデル３Ｂ１を用いた処理を実行し、処理後のデータをデータｘｂ_１として、第１アップサンプリング処理部４１に出力する。なお、第１サブバンド学習済モデル３Ｂ１に入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_１の少なくとも一方のデータである。

第ｋサブバンド学習済モデル３Ｂｋ（ｋ：自然数、２≦ｋ≦Ｎ）は、図２９に示すように、（１）補助入力ｈと、（２）推論時の入力データｘ’を構成するサブバンド信号データｘａ_ｋと、（３）推論時の入力データｘ’を構成するサブバンド信号データｘａ_１とを入力し、入力されたデータに対して、第ｋサブバンド学習済モデル３Ｂｋを用いた処理を実行し、処理後のデータをデータｘｂ_kとして、第ｋアップサンプリング処理部４ｋに出力する。なお、第ｋサブバンド学習済モデル３Ｂｋに入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_ｋの少なくとも一方のデータと、サブバンド信号データｘａ_１としてもよい。

＜３．２：オーディオデータ処理システムの動作＞
以上のように構成されたオーディオデータ処理システム３０００の動作について以下説明する。

以下では、オーディオデータ処理システム３０００の動作を、（１）オーディオデータ学習装置ＤＬａによる学習処理と、（２）オーディオデータ推論装置ＩＮＦａによる推論処理とに分けて説明する。

（３．２．１：学習処理）
オーディオデータ処理システム３０００において、第１実施形態と同様に、図６のステップＳ１〜Ｓ５の処理が実行される。

（ステップＳ６）：
ステップＳ６において、サブバンド学習モデル部３Ｃの第１サブバンド学習モデル３１Ｃでは、第１ダウンサンプリング処理部２１から出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１と、補助入力ｈとを用いたモデル学習が実行される。なお、補助入力ｈの入力を省略しても良い。

サブバンド学習モデル部３Ｃの第ｋサブバンド学習モデル３ｋＣ（ｋ：自然数、２≦ｋ≦Ｎ）では、（１）第ｋダウンサンプリング処理部２ｋから出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_ｋと、（２）補助入力ｈと、（３）第１ダウンサンプリング処理部２１から出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１と、を用いたモデル学習が実行される。なお、補助入力ｈの入力を省略しても良い。

本実施形態のオーディオデータ学習装置ＤＬａでは、第１実施形態と同様に、入力されるフルバンドの波形信号から、上記処理によりサブバンド分割したサブバンド信号を用いることで、並列処理を実行しやすくし、高速化処理を実現させる。

第１サブバンド学習モデル３１Ｃでは、コンテキストラベル等の補助入力ｈと、第１ダウンサンプリング処理部２１により取得されたデータｘ＿ｄ_１とを用いて条件付き確率ｐ（ｘ＿ｄ_１｜ｈ）を以下のように設定されたモデルを用いてモデルの学習を行う。

なお、ｔ＝１のとき、ｐ（ｘ＿ｄ_１（ｔ）｜ｘ＿ｄ_１（１），・・・，ｘ＿ｄ_１（ｔ−１），ｈ）は、ｐ（ｘ＿ｄ_１（１）｜ｈ）とすればよい。

また、ｘ＿ｄ_１（１）＝ｘ_{１，ＳＳＢ}（Ｍ）であり、ｘ＿ｄ_１（ｔ）＝ｘ_{１，ＳＳＢ}（ｔ×Ｍ）である。つまり、第１サブバンド学習モデル３１Ｃでは、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率ｐ（ｘ＿ｄ_１｜ｈ）を求めるための対象データが１／Ｍで済む。

そして、第１サブバンド学習モデル３１Ｃでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第１サブバンド学習モデル３１Ｃでは、

により、最適化パラメータθ_{ｏｐｔ＿１}を取得することで、モデルの最適化処理（モデル学習）を実行する。パラメータθ_１は、スカラー、ベクトル、またはテンソルである。

なお、最適化パラメータθ_{ｏｐｔ＿１}を取得するために、上記数式による処理（ａｒｇｍａｘによる処理）ではなく、条件付き確率ｐ（ｘ＿ｄ_１｜ｈ）に基づいて、ランダムサンプリングを行うことで、出力データを取得し（例えば、ｐ（ｘ＿ｄ_１｜ｈ）が所定の値以上である複数のデータから、ランダムサンプリングにより、出力データを選択し）、当該出力データを、例えば、所定の評価関数により評価することで、最適化パラメータθ_{ｏｐｔ＿１}を取得するようにしてもよい。

以上のようにして、サブバンド学習モデル部３Ｃの第１サブバンド学習モデル３１Ｃにおいて、学習処理が実行される。

第ｋサブバンド学習モデル３ｋＣ（ｋ：自然数、２≦ｋ≦Ｎ）では、コンテキストラベル等の補助入力ｈと、第ｋダウンサンプリング処理部２ｋにより取得されたデータｘ＿ｄ_ｋと、第１ダウンサンプリング処理部２１により取得されたデータｘ＿ｄ_１とを用いて条件付き確率ｐ（ｘ＿ｄ_ｋ｜ｈ）を以下のように設定されたモデルを用いてモデルの学習を行う。

なお、ｔ＝１のとき、ｐ（ｘ＿ｄ_ｋ（ｔ）｜ｘ＿ｄ_ｋ（１），・・・，ｘ＿ｄ_ｋ（ｔ−１），ｈ，ｘ＿ｄ_１（１），・・・，ｘ＿ｄ_１（ｔ−１））は、ｐ（ｘ＿ｄ_ｋ（１）｜ｈ）とすればよい。

また、ｘ＿ｄ_ｋ（１）＝ｘ_{ｋ，ＳＳＢ}（Ｍ）であり、ｘ＿ｄ_ｋ（ｔ）＝ｘ_{ｋ，ＳＳＢ}（ｔ×Ｍ）である。

そして、第ｋサブバンド学習モデル３ｋＣでは、上記条件付き確率が最大となるように、モデルのパラメータを最適化する。つまり、第ｋサブバンド学習モデル３ｋＣでは、
により、最適化パラメータθ_{ｏｐｔ＿ｋ}を取得することで、モデルの最適化処理（モデル学習）を実行する。パラメータθ_ｋは、スカラー、ベクトル、またはテンソルである。

なお、最適化パラメータθ_{ｏｐｔ＿ｋ}を取得するために、上記数式による処理（ａｒｇｍａｘによる処理）ではなく、条件付き確率ｐ（ｘ＿ｄ_ｋ｜ｈ）に基づいて、ランダムサンプリングを行うことで、出力データを取得し（例えば、ｐ（ｘ＿ｄ_ｋ｜ｈ）が所定の値以上である複数のデータから、ランダムサンプリングにより、出力データを選択し）、当該出力データを、例えば、所定の評価関数により評価することで、最適化パラメータθ_{ｏｐｔ＿ｋ}を取得するようにしてもよい。

以上のようにして、サブバンド学習モデル部３Ｃの第ｋサブバンド学習モデル３ｋＣにおいて、学習処理が実行される。

（３．２．２：推論処理）
次に、オーディオデータ推論装置ＩＮＦａによる推論処理について、説明する。

以下では、第１実施形態と同様に、信号を４個（Ｎ＝４）のサブバンド信号に分解（分割）する場合を例として、図９のフローチャートを参照しながら説明する。

（ステップＳ２１）：
ステップＳ２１において、オーディオデータ推論装置ＩＮＦａのサブバンド学習済モデル部３Ｂの第１サブバンド学習済モデル３Ｂ１に、推論時の入力データｘ’を構成するサブバンド信号データｘａ_１および補助入力ｈが入力される。

なお、サブバンド信号データｘａ_１は、入力データｘ’（信号ｘ’（ｔ））に対してサブバンド分割部１、ダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データｘ’（信号ｘ’（ｔ））をサブバンド分割部１に入力し、サブバンド分割部１およびダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号（ダウンサンプリング処理部２から出力される信号）をサブバンド信号データｘａ_１として、サブバンド学習済モデル部３Ｂに入力させるようにしてもよい。

なお、第１サブバンド学習済モデル３Ｂ１に入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_１の少なくとも一方のデータである。

また、オーディオデータ推論装置ＩＮＦａのサブバンド学習済モデル部３Ｂの第ｋサブバンド学習済モデル３Ｂｋ（ｋ：自然数、２≦ｋ≦Ｎ）に、（１）推論時の入力データｘ’を構成するサブバンド信号データｘａ_ｋと、（２）補助入力ｈと、（３）推論時の入力データｘ’を構成するサブバンド信号データｘａ_１と、が入力される。

なお、サブバンド信号データｘａ_ｋは、入力データｘ’（信号ｘ’（ｔ））に対してサブバンド分割部１、ダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号と同様のものである。したがって、入力データｘ’（信号ｘ’（ｔ））をサブバンド分割部１に入力し、サブバンド分割部１およびダウンサンプリング処理部２で上記と同様の処理を行うことで取得される信号（ダウンサンプリング処理部２から出力される信号）をサブバンド信号データｘａ_ｋとして、サブバンド学習済モデル部３Ｂに入力させるようにしてもよい。

なお、第ｋサブバンド学習済モデル３Ｂｋに入力されるデータは、補助入力ｈおよびサブバンド信号データｘａ_ｋの少なくとも一方のデータと、サブバンド信号データｘａ_１であってもよい。

（ステップＳ２２）：
ステップＳ２２において、サブバンド学習済モデル部３Ｂの第１サブバンド学習済モデル３Ｂ１は、補助入力ｈと、サブバンド信号データｘａ_１に対して、第１サブバンド学習済モデル３Ｂ１を用いた処理を実行し、処理後のデータをデータｘｂ_１として取得する。

具体的には、ｘａ_１（ｔ）が０〜２５５のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率ｐ（ｘａ_１｜ｈ）が最大となる値をｘａ_１（ｔ）の値に決定する。あるいは、下記数式で求められる条件付き確率ｐ（ｘａ_１｜ｈ）が所定の値よりも大きな値をとるデータの中から、ランダムサンプリングにより、１つのデータを選択し、選択した当該データをｘａ_１（ｔ）の値に決定する。

なお、ｔ＝１のとき、ｐ（ｘａ_１（ｔ）｜ｘａ_１（１），・・・，ｘａ_１（ｔ−１），ｈ）は、ｐ（ｘａ_１（１）｜ｈ）とすればよい。

例えば、ｘａ_１（ｔ）＝２００としたとき、第１サブバンド学習済モデル３Ｂ１で求められる条件付き確率ｐ（ｘａ_１｜ｈ）が最大値となるとき、ｘａ_１（ｔ）＝２００に決定する。

あるいは、第１サブバンド学習済モデル３Ｂ１で求められる条件付き確率ｐ（ｘａ_１｜ｈ）の値が所定の値よりも大きな値をとる複数のデータの中から、ランダムサンプリングにより、１つのデータを選択し、選択した当該データをｘａ_１（ｔ）に決定するようにしてもよい。

上記のように処理することで、第１サブバンド学習済モデル３Ｂ１は、第１サブバンド学習済モデル３Ｂ１の出力データｘｂ_１（信号ｘｂ_１（ｔ））を取得し、取得したデータｘｂ_１（信号ｘｂ_１（ｔ））を第１アップサンプリング処理部４１に出力する。

なお、第１サブバンド学習済モデル３Ｂ１を用いた処理（推論処理）は、フルバンドの波形データに対して間引き率Ｍでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。したがって、従来技術のようにフルバンドの波形データを用いる場合に対して、条件付き確率ｐ（ｘａ_１｜ｈ）を求めるための対象データが１／Ｍで済む。

したがって、Ｎ個のサブバンド学習済モデルを用いた処理（推論処理）では、従来技術のようにフルバンドの波形データを用いる場合よりも高速で処理を実行することができる。

また、サブバンド学習済みモデル部３Ｂの第ｋサブバンド学習済モデル３Ｂｋ（ｋ：自然数、１≦ｋ≦Ｎ）は、（１）補助入力ｈと、（２）サブバンド信号データｘａ_ｋと、（３）サブバンド信号データｘａ_１とを入力し、当該入力データに対して、第ｋサブバンド学習済モデル３Ｂｋを用いた処理を実行し、処理後のデータをデータｘｂ_ｋとして取得する。

具体的には、ｘａ_１（ｔ）およびｘａ_ｋ（ｔ）が０〜２５５のいずれかの離散値をとるものとし、下記数式で求められる条件付き確率ｐ（ｘａ_ｋ｜ｈ）が最大となる値をｘａ_ｋ（ｔ）の値に決定する。あるいは、下記数式で求められる条件付き確率ｐ（ｘａ_ｋ｜ｈ）が所定の値よりも大きな値をとるデータの中から、ランダムサンプリングにより、１つのデータを選択し、選択した当該データをｘａ_ｋ（ｔ）の値に決定する。

なお、ｔ＝１のとき、ｐ（ｘａ_ｋ（ｔ）｜ｘａ_ｋ（１），・・・，ｘａ_ｋ（ｔ−１），ｈ，ｘａ_１（１），・・・，ｘａ_１（ｔ−１））は、ｐ（ｘａ_ｋ（１）｜ｈ）とすればよい。

例えば、ｘａ_ｋ（ｔ）＝２００としたとき、第ｋサブバンド学習済モデル３Ｂｋで求められる条件付き確率ｐ（ｘａ_ｋ｜ｈ）が最大値となるとき、ｘａ_ｋ（ｔ）＝２００に決定する。

あるいは、第１サブバンド学習済モデル３Ｂ１で求められる条件付き確率ｐ（ｘａ_１｜ｈ）の値が所定の値よりも大きな値をとる複数のデータの中から、ランダムサンプリングにより、１つのデータを選択し、選択した当該データをｘａ_ｋ（ｔ）に決定するようにしてもよい。

上記のように処理することで、第ｋサブバンド学習済モデル３Ｃｋは、第ｋサブバンド学習済モデル３Ｂｋの出力データｘｂ_ｋ（信号ｘｂ_ｋ（ｔ））を取得し、取得したデータｘｂ_ｋ（信号ｘｂ_ｋ（ｔ））を第ｋアップサンプリング処理部４ｋに出力する。

なお、第ｋサブバンド学習済モデル３Ｂｋを用いた処理（推論処理）は、フルバンドの波形データに対して間引き率Ｍでダウンサンプリング処理して取得されたサブバンド信号を用いた処理である。

（ステップＳ２３〜Ｓ２７）：
ステップＳ２３〜Ｓ２７では、オーディオデータ推論装置ＩＮＦａにおいて、第１実施形態と同様の処理が実行される。

以上のように、オーディオデータ処理システム３０００のオーディオデータ学習装置ＤＬａでは、フルバンドの波形データ（フルバンドのオーディオ信号）をサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部３Ｃによりモデルの学習（最適化）を行うことができる。さらに、サブバンド学習モデル部３Ｃの第２サブバンド学習モデル３２Ｃ〜第Ｎサブバンド学習モデル３ＮＣには、ダウンサンプリング処理部２１から出力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１が共通して入力されており、第２サブバンド学習モデル３２Ｃ〜第Ｎサブバンド学習モデル３ＮＣは、当該ダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１を用いて、学習を行う。つまり、サブバンド学習モデル部３Ｃでは、Ｎ個の学習モデルにおいて、共通して入力されるダウンサンプリング処理後のサブバンド信号データｘ＿ｄ_１を用いて、学習が実行されるため、帯域間での位相のズレの発生を抑制した信号を出力する学習済モデルを取得することが可能となる。

また、オーディオデータ処理システム３０００のオーディオデータ推論装置ＩＮＦａでは、サブバンド学習済モデル部３Ｂにおいて、第１サブバンド学習済モデル３Ｂ１には、補助入力ｈおよびサブバンド信号ｘａ_１が入力され、第ｋサブバンド学習済モデル３Ｂｋ（ｋ：自然数、１≦ｋ≦Ｎ）には、（１）補助入力ｈと、（２）サブバンド信号ｘａ_ｋと、（３）サブバンド信号ｘａ_１とが入力される。つまり、オーディオデータ推論装置ＩＮＦａのサブバンド学習済モデル部３Ｂでは、Ｎ個の学習済モデルに共通してサブバンド信号データｘａ_１が入力されて、推論処理が実行されるため、帯域間での位相のズレの発生を抑制した信号を出力することが可能となる。

このように、オーディオデータ処理システム３０００では、複数帯域入力型の構成により、帯域間での位相のズレの発生を適切に抑制することができる。つまり、オーディオデータ処理システム３０００では、複数帯域入力型の構成により、適切な位相補償を実現できる。その結果、オーディオデータ処理システム３０００では、さらに高品質なオーディオデータを取得することができる。

なお、上記では、サブバンド学習モデル部３ＣのＮ個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データがデータｘ＿ｄ_１である場合について、説明したが、これに限定されることはなく、例えば、サブバンド学習モデル部３ＣのＮ個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データは、データｘ＿ｄ_１〜ｘ＿ｄ_Ｎの中の任意のデータであってもよい。また、サブバンド学習モデル部３ＣのＮ−１個の学習モデルに共通して入力されるダウンサンプリング処理後のサブバンド信号データの数は「１」に限定されず、任意の数Ｎｕｍ１（Ｎｕｍ１：自然数、２≦Ｎｕｍ１≦Ｎ）であってもよい。

また、上記では、サブバンド学習済モデル部３ＢのＮ個の学習済モデルに共通して入力されるサブバンド信号データがデータｘａ_１である場合について、説明したが、これに限定されることはなく、例えば、サブバンド学習済モデル部３ＢのＮ個の学習済モデルに共通して入力されるサブバンド信号データは、データｘａ_１〜ｘａ_Ｎの中の任意のデータであってもよい。また、サブバンド学習済モデル部３ＢのＮ個の学習済モデルに共通して入力されるサブバンド信号データの数は「１」に限定されず、任意の数Ｎｕｍ２（Ｎｕｍ２：自然数、２≦Ｎｕｍ２≦Ｎ）であってもよい。

また、オーディオデータ処理システム３０００において、サブバンド学習モデル部３ＣのＮ個のモデル、および、サブバンド学習済モデル部３ＢのＮ個のモデルとして、非特許文献１に開示されているＷａｖｅＮｅｔによるモデルを採用してもよい。

また、オーディオデータ処理システム３０００において、サブバンド学習モデル部３ＣのＮ個のモデル、および、サブバンド学習済モデル部３ＢのＮ個のモデルとして、下記文献１に開示されているＦＦＴＮｅｔによるモデルを採用してもよい。
（文献１）：
Z. Jin et al., “FFTNet: A real-time speaker-dependent neural vocoder,” in Proc. ICASSP, Apr. 2018, pp. 2251-2255.
≪第１変形例≫
次に、第３実施形態の第１変形例について、説明する。
なお、本変形例において、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

第３実施形態の第１変形例のオーディオデータ処理システムでは、サブバンド学習モデル部３ＣのＮ個のモデル、および、サブバンド学習済モデル部３ＢのＮ個のモデルとして、文献１に開示されているＦＦＴＮｅｔによるモデル（ＦＦＴＮｅｔモデル）を採用する場合について説明する。

図３０は、ＦＦＴＮｅｔモデル６の概略構成図である。

図３１は、ＦＦＴＮｅｔモデル６の第１層の概略構成図である。

図３２は、ＦＦＴＮｅｔモデル６の第Ｋ＋１層（Ｋ：自然数）の概略構成図である。

ＦＦＴＮｅｔモデル６は、図３０に示すように、第１層ＦＬ＿１と、第２層ＦＬ＿２〜第Ｐ＋１層ＦＬ＿Ｐ＋１（Ｐ：自然数）の中間層と、全結合層ＦＬ＿ｆｕｌｌと、出力層ＦＬ＿ｏｕｔとを備える。

第１層ＦＬ＿１は、図３１に示すように、埋込処理部６１１と、データ保持部６１２、６１３と、コンボリューション部６１４，６１５と、重み付け加算部６１６と、転置コンボリューション処理部６１７と、データ保持部６１８、６１９と、コンボリューション部６２０，６２１と、重み付け加算部６２２と、加算部６２３と、活性化処理部６２４とを備える。

埋込処理部６１１は、例えば、オーディオ信号をμ−ｌａｗ圧縮し、例えば、０〜２５５の離散値をとるサンプルとして取得したデータであり、２^Ｌ個（Ｌ：自然数）のサンプルからなるデータｘ＿ｉｎを入力する。埋込処理部６１１は、データｘ＿ｉｎの各サンプルを０〜２５５ビット目の中の１つだけ「１」とし、他を「０」とするｏｎｅ−ｈｏｔベクトルに変換する。

データ保持部６１２は、埋込処理部６１１により取得されたｏｎｅ−ｈｏｔベクトルのうち、１番目から２^Ｌ−１番目までの２^Ｌ−１個のサンプルを、Ｄｘ_１（１），Ｄｘ_１（２），・・・，Ｄｘ_１（２^Ｌ−１）として保持する。

データ保持部６１３は、埋込処理部６１１により取得されたｏｎｅ−ｈｏｔベクトルのうち、２^Ｌ−１＋１番目から２^Ｌ番目までの２^Ｌ−１個のサンプルを、Ｄｘ_１（２^Ｌ−１＋１），・・・，Ｄｘ_１（２^Ｌ）として保持する。

コンボリューション部６１４は、データ保持部６１２に保持されているデータＤｘ_１（１），Ｄｘ_１（２），・・・，Ｄｘ_１（２^Ｌ−１）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｘ_Ｌを取得する。

コンボリューション部６１５は、データ保持部６１３に保持されているデータＤｘ_１（２^Ｌ−１＋１），・・・，Ｄｘ_１（２^Ｌ）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｘ_Ｒを取得する。

重み付け加算部６１６は、コンボリューション結果データｘ_Ｌと、コンボリューション結果データｘ_Ｒとに対して、重み付け加算処理、すなわち、
ｘｏ＝Ｗ_Ｌ×ｘ_Ｌ＋Ｗ_Ｒ×ｘ_Ｒ
Ｗ_Ｌ：重み行列
Ｗ_Ｒ：重み行列
に相当する処理を実行し、重み付け加算処理データｘｏを取得する。

転置コンボリューション処理部６１７は、補助入力ｈに対して、補助入力ｈをアップサンプリングするための処理である転置コンボリューション処理（例えば、非特許文献１に開示されている処理）を実行することで、補助入力ｈから導出された２^Ｌ個（Ｌ：自然数）のサンプルからなるデータを取得する。

データ保持部６１８は、転置コンボリューション処理部６１７により取得された２^Ｌ個のサンプルのうち、１番目から２^Ｌ−１番目までの２^Ｌ−１個のサンプルを、Ｄｈ（１），Ｄｈ（２），・・・，Ｄｈ（２^Ｌ−１）として保持する。

データ保持部６１９は、転置コンボリューション処理部６１７により取得された２^Ｌ個のサンプルのうち、２^Ｌ−１＋１番目から２^Ｌ番目までの２^Ｌ−１個のサンプルを、Ｄｈ（２^Ｌ−１＋１），・・・，Ｄｈ（２^Ｌ）として保持する。

コンボリューション部６２０は、データ保持部６１８に保持されているデータＤｈ（１），Ｄｈ（２），・・・，Ｄｈ（２^Ｌ−１）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｈ_Ｌを取得する。

コンボリューション部６２１は、データ保持部６１９に保持されているデータＤｈ（２^Ｌ−１＋１），・・・，Ｄｈ（２^Ｌ）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｈ_Ｒを取得する。

重み付け加算部６２２は、コンボリューション結果データｈ_Ｌと、コンボリューション結果データｈ_Ｒとに対して、重み付け加算処理、すなわち、
ｈｏ＝Ｖ_Ｌ×ｈ_Ｌ＋Ｖ_Ｒ×ｈ_Ｒ
Ｖ_Ｌ：重み行列
Ｖ_Ｒ：重み行列
に相当する処理を実行し、重み付け加算処理データｈｏを取得する。

加算部６２３は、重み付け加算処理データｘｏと、重み付け加算処理データｈｏとに対して、加算処理、すなわち、
ｚ＝ｘｏ＋ｈｏ＝（Ｗ_Ｌ×ｘ_Ｌ＋Ｗ_Ｒ×ｘ_Ｒ）＋（Ｖ_Ｌ×ｈ_Ｌ＋Ｖ_Ｒ×ｈ_Ｒ）
に相当する処理を実行し、データｚを取得する。

活性化処理部６２４は、加算部６２３により取得されたデータｚに対して、
ｏｕｔ＿Ｌ_１＝ＲｅＬＵ（ｃｏｎｖ１ｘ１（ＲｅＬＵ（ｚ）））
ＲｅＬＵ（）：正規化線形関数（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）
ｃｏｎｖ１ｘ１（）：１×１のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第１層ＦＬ＿１の出力データｏｕｔ＿Ｌ_１を取得する。

上記のようにして取得された第１層ＦＬ＿１の出力データｏｕｔ＿Ｌ_１は、第１層から第２層ＦＬ＿２に出力される。

第Ｋ＋１層ＦＬ＿Ｋ＋１は、図３２に示すように、データ保持部６３０、６３１と、コンボリューション部６３２，６３３と、重み付け加算部６３４と、活性化処理部６３５とを備える。

データ保持部６３０は、第Ｋ層からの出力データｏｕｔ＿Ｌ_Ｋの１番目から２^{Ｌ−Ｋ―１}番目までの２^{Ｌ−Ｋ−１}個のサンプルを、Ｄｘ_Ｋ＋１（１），・・・，Ｄｘ_Ｋ＋１（２^{Ｌ−Ｋ−１}）として保持する。

データ保持部６３１は、第Ｋ層からの出力データｏｕｔ＿Ｌ_Ｋの２^{Ｌ−Ｋ−１}＋１番目から２^Ｌ―Ｋ番目までの２^{Ｌ−Ｋ−１}個のサンプルを、Ｄｘ_Ｋ＋１（２^{Ｌ−Ｋ−１}＋１），・・・，Ｄｘ_Ｋ＋１（２^Ｌ―Ｋ）として保持する。

コンボリューション部６３２は、データ保持部６３０に保持されているデータＤｘ_Ｋ＋１（１），・・・，Ｄｘ_Ｋ＋１（２^{Ｌ−Ｋ−１}）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｘ’_Ｌを取得する。

コンボリューション部６３３は、データ保持部６３１に保持されているデータＤｘ_Ｋ＋１（２^{Ｌ−Ｋ−１}＋１），・・・，Ｄｘ_Ｋ＋１（２^Ｌ―Ｋ）に対して、１×１のコンボリューション（畳み込み処理）を実行し、コンボリューション結果データｘ’_Ｒを取得する。

重み付け加算部６３４は、コンボリューション結果データｘ’_Ｌと、コンボリューション結果データｘ’_Ｒとに対して、重み付け加算処理、すなわち、
ｚ’＝Ｗ’_Ｌ×ｘ’_Ｌ＋Ｗ’_Ｒ×ｘ’_Ｒ
Ｗ’_Ｌ：重み行列
Ｗ’_Ｒ：重み行列
に相当する処理を実行し、重み付け加算処理データｚ’を取得する。

活性化処理部６３５は、重み付け加算部６３４により取得されたデータｚ’に対して、
ｏｕｔ＿Ｌ_Ｋ＋１＝ＲｅＬＵ（ｃｏｎｖ１ｘ１（ＲｅＬＵ（ｚ’）））
ＲｅＬＵ（）：正規化線形関数（ＲｅＬＵ：Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）
ｃｏｎｖ１ｘ１（）：１×１のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第Ｋ＋１層ＦＬ＿Ｋ＋１の出力データｏｕｔ＿Ｌ_Ｋ＋１を取得する。

上記のようにして取得された第Ｋ＋１層ＦＬ＿Ｋ＋１の出力データｏｕｔ＿Ｌ_Ｋ＋１は、第Ｋ＋１層から第Ｋ＋２層に出力される。

図３０の第２層〜第Ｐ＋１層のそれぞれは、上記（第Ｋ＋１層の構成）と同様の構成を有している。

そして、図３０に示すように、第Ｐ＋１層ＦＬ＿Ｐ＋１の出力が全結合層ＦＬ＿ｆｕｌｌに出力される。全結合層ＦＬ＿ｆｕｌｌに含まれるノード（シナプス）は、第Ｐ＋１層ＦＬ＿Ｐ＋１の出力ノードの全てに結合されており、全結合層ＦＬ＿ｆｕｌｌでは、上記のように構成されたニューラルネットワークによる処理が実行され、全結合層ＦＬ＿ｆｕｌｌの出力データが取得される。そして、全結合層ＦＬ＿ｆｕｌｌの出力データは、出力層に出力される。

出力層は、例えば、ソフトマックス層であり、出力層では、各ノードの出力値の合計が「１」となるように正規化され、各ノードの出力値が事後確率分布の確率を示すデータｘ＿ｏｕｔ（例えば、２５６個のサンプルからなるデータ）が取得される。

本変形例のオーディオデータ処理システムでは、上記のように構成されたＦＦＴＮｅｔモデル６を、サブバンド学習モデル部３ＣのＮ個のモデル、および、サブバンド学習済モデル部３ＢのＮ個のモデルとして採用し、第１実施形態〜第３実施形態で説明した処理を実行する。

上記のように、ＦＦＴＮｅｔモデル６は、非常にシンプルな構成を有しているため、本変形例のオーディオデータ処理システムにおいて、ＦＦＴＮｅｔモデル６を採用することで、ネットワークパラメータ数を増加させることなく、高速処理（例えば、リアルタイム処理）を実現する波形生成モデルを構築することができる。

これにより、本変形例のオーディオデータ処理システムでは、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得することができる。

≪第２変形例≫
次に、第３実施形態の第２変形例について、説明する。
なお、本変形例において、上記実施形態（変形例を含む）と同様の部分については、同一符号を付し、詳細な説明を省略する。

図３３は、第３実施形態の第２変形例のＦＦＴＮｅｔモデル６の第１層ＦＬ＿１ａの概略構成図である。

図３４は、第３実施形態の第２変形例のＦＦＴＮｅｔモデル６の第Ｋ＋１層（Ｋ：自然数）ＦＬ＿Ｋ＋１ａの概略構成図である。

第３実施形態の第２変形例のオーディオデータ処理システムでは、ネットワークパラメータ数を増加させずに、モデル精度を向上させるために、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用する。

具体的には、図３３に示すように、第１層ＦＬ＿１ａに合成部６２５を追加し、合成部６２５にて、加算部６２３の出力と、活性化処理部６２４の出力との両方を合成したデータを生成し、当該データ（加算部６２３の出力と、活性化処理部６２４の出力との両方を含むデータ）が上位の層に出力されるようにする。

また、図３４に示すように、第Ｋ＋１層ＦＬ＿Ｋ＋１ａに合成部６３６を追加し、合成部６３６にて、重み付け加算部６３４の出力と、活性化処理部６３５の出力との両方を合成したデータを生成し、当該データ（重み付け加算部６３４の出力と、活性化処理部６３５の出力との両方を含むデータ）が上位の層に出力されるようにする。

このようにすることで、層が深くなった場合に、下位の層の出力の微小変化が上位層に伝搬されず、学習が効率的に進まなくなることを防止することができる。

したがって、上記のように、本変形例のオーディオデータ処理システムでは、各層において、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）（例えば、図３３のパスＲ＿ｃｏｎｎｅｃｔ＿Ｌ_１、図３４のＲ＿ｃｏｎｎｅｃｔ＿Ｌ_Ｋ＋１を含む構成）を採用することで、ネットワークパラメータ数を増加させずに、モデル精度を向上させることができる。

なお、本変形例のオーディオデータ処理システムにおいて、一部の層においてのみ、残差接続（Ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）を採用するようにしてもよい。

≪第３変形例≫
次に、第３実施形態の第３変形例について、説明する。
なお、本変形例において、上記実施形態（変形例を含む）と同様の部分については、同一符号を付し、詳細な説明を省略する。

図３５は、第３実施形態の第３変形例のオーディオデータ処理システムの概略構成図である。

ＷａｖｅＮｅｔを用いたシステムでは，予測誤差により発生する雑音成分により高域の周波数特性が劣化し、音質が劣化する問題がある。これに対して、聴覚特性を考慮した時不変ノイズシェーピング法が提案され，音質の改善を実現している。したがって、この方式はＦＦＴＮｅｔを用いたシステムにもそのまま適用できる。第３実施形態の第３変形例では、第３実施形態の第１変形例、第２変形例と同様に、サブバンド学習モデル部３ＣのＮ個のモデル、および、サブバンド学習済モデル部３ＢのＮ個のモデルとして、ＦＦＴＮｅｔモデルを採用する。

本変形例のオーディオデータ処理システムは、図３５に示すように、学習処理用の機能部として、スピーチコーパスＤＢ１と、時不変ノイズシェーピングフィルタ算出部７１と、フィルタ格納部７２と、音響特徴量抽出部７３と、フィルタ処理部７４と、量子化部７５と、オーディオデータ学習装置ＤＬｂとを備える。

また、本変形例のオーディオデータ処理システムは、図３５に示すように、推論処理用の機能部として、オーディオデータ推論装置ＩＮＦｂと、逆量子化部８１と、逆フィルタ処理部８２とを備える。

スピーチコーパスＤＢ１は、音声波形データを格納するためのコーパスであり、例えば、データベースにより実現される。

時不変ノイズシェーピングフィルタ算出部７１は、スピーチコーパスＤＢ１に格納されている学習用データ全体からメルケプストラムの平均値を算出し、以下のように設計された伝達関数によりフィルタを特定（算出）する。
ｃ_γ（ｍ）：ｍ次のメルケプストラム
γ：ｍ次のメルケプストラムのパワー係数
β：ノイズエネルギー制御係数
Ｍｃ：メルケプストラム次数
α：重み係数
フィルタ格納部７２は、時不変ノイズシェーピングフィルタ算出部７１により特定（算出）されたフィルタに関するデータを格納する。

音響特徴量抽出部７３は、スピーチコーパスＤＢ１に格納されている学習用データから音響特徴量ｈを抽出し、オーディオデータ学習装置ＤＬｂに出力する。

フィルタ処理部７４は、スピーチコーパスＤＢ１から出力される学習用データｘに対して、フィルタ格納部７２に格納されているフィルタに関するデータに基づくフィルタ処理を実行し、フィルタ処理後のデータｘ＿ｅｑを取得する。そして、フィルタ処理部７４は、フィルタ処理後のデータｘ＿ｅｑを量子化部７５に出力する。

量子化部７５は、フィルタ処理部７４から出力されるデータｘ＿ｅｑに対して量子化処理を実行し、量子化処理後のデータをデータｘｑとして、オーディオデータ学習装置ＤＬｂに出力する。

オーディオデータ学習装置ＤＬｂは、上記実施形態（変形例を含む）で示したオーディオデータ学習装置ＤＬ、ＤＬａと同様の構成を有しており、音響特徴量ｈ（補助入力ｈ）およびデータｘｑを入力として、上記実施形態（変形例を含む）と同様の学習処理を実行する。オーディオデータ学習装置ＤＬｂは、上記学習処理により、オーディオデータｘ＿ｌｅａｒｎｅｄ（例えば、音声波形データの学習済みデータ）を取得する。

オーディオデータ推論装置ＩＮＦｂは、音響特徴量ｈ（補助入力ｈ）およびデータｘ＿ｌｅａｒｎｅｄを入力とし、上記実施形態（変形例を含む）と同様の推論処理を実行し、データｘｑ’を取得する。そして、オーディオデータ推論装置ＩＮＦｂは、取得したデータｘｑ’を逆量子化部８１に出力する。

逆量子化部８１は、オーディオデータ推論装置ＩＮＦｂから出力されるデータｘｑ’に対して、逆量子化処理を実行し、データｘ＿ｅｑ’を取得する。そして、逆量子化部８１は、取得したデータｘ＿ｅｑ’を逆フィルタ処理部８２に出力する。

逆フィルタ処理部８２は、フィルタ格納部７２から取得したフィルタに関するデータに基づいて、フィルタ処理部７４と逆特性となる逆フィルタを決定（算出）する。逆フィルタ処理部８２は、逆量子化部８１から出力されるデータｘ＿ｅｑ’に対して、上記により決定した逆フィルタによる処理（逆フィルタ処理）を実行し、データｘ’を取得する。

このようにして、取得されたデータｘ’は、時不変ノイズシェーピング処理が実行されたものとなるので、その音質が改善されたものとなる。

このように、本変形例のオーディオデータ処理システムでは、時不変ノイズシェーピング処理を適用して学習処理、推論処理を実行するので、さらに、高品質のオーディオデータを取得することができる。

［他の実施形態］
上記実施形態、および／または、変形例を任意に組み合わせて、オーディオデータ処理システム、オーディオデータ学習装置、および／または、オーディオデータ推論装置を構成するようにしてもよい。

また、上記実施形態、および／または、変形例の一部を組み合わせて、オーディオデータ処理システム、オーディオデータ学習装置、および／または、オーディオデータ推論装置を構成するようにしてもよい。

上記実施形態のオーディオデータ処理システム１０００、オーディオデータ学習装置ＤＬ、オーディオデータ推論装置ＩＮＦは、それぞれ複数の装置により実現されるものであってもよい。

また、上記実施形態のオーディオデータ学習装置ＤＬ、オーディオデータ推論装置ＩＮＦにおいて、共有できる機能部の全部または一部は、共有にしてもよい。

また、上記実施形態では、オーディオデータ学習装置ＤＬのサブバンド分割部１で周波数シフト処理を実行した後、帯域制限フィルタ処理を実行する場合について説明したが、これに限定されることはなく、例えば、オーディオデータ学習装置ＤＬのサブバンド分割部１で帯域制限フィルタ処理を実行した後、周波数シフト処理を実行するようにしてもよい。この場合、第１帯域制限フィルタ処理部１２１〜第Ｎ帯域制限フィルタ処理部１２Ｎは、例えば、図１２（ｂ）に示したフィルタ特性を有するフィルタによる処理を実行するようにすればよい（フィルタバンク構成）。

また、上記実施形態のオーディオデータ学習装置ＤＬにおいて、補助入力ｈをコンテキストラベルのデータとし、当該コンテキストラベルに対応するオーディオデータ（オーディオ信号）をオーディオデータ学習装置ＤＬに入力し、学習処理を行うことで、ＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）システムの学習処理を実行するようにしてもよい。

そして、オーディオデータ推論装置ＩＮＦでは、補助入力ｈをコンテキストのデータとすることで、当該コンテキストに対応する音声データ（音声信号）を推論（出力）させることができる。

なお、上記において、補助入力ｈをコンテキストラベルのデータの代わりに音響特徴量のデータとしてもよい。

また、上記実施形態のオーディオデータ学習装置ＤＬにおいて、補助入力ｈを話者を特定するデータとし、当該話者の音声データ（オーディオ信号）をオーディオデータ学習装置ＤＬに入力し、学習処理を行うようにしてもよい。

そして、オーディオデータ推論装置ＩＮＦでは、補助入力ｈを話者を特定するデータとすることで、当該話者に対応する音声データ（音声信号）（当該話者が話しているような音声）を推論（出力）させることができる。

また、上記実施形態のオーディオデータ学習装置ＤＬにおいて、補助入力ｈを音楽関連のデータ（例えば、楽器を特定するデータ）とし、当該音楽関連のデータに対応するオーディオデータ（オーディオ信号）をオーディオデータ学習装置ＤＬに入力し、学習処理を行うようにしてもよい。

そして、オーディオデータ推論装置ＩＮＦでは、補助入力ｈを音楽関連のデータとすることで、当該音楽関連のデータに対応するオーディオデータ（例えば、音楽関連のデータを「ピアノ」とすることで、ピアノの音の信号）を推論（出力）させることができる。

また上記実施形態で説明したオーディオデータ処理システム１０００、オーディオデータ学習装置ＤＬ、オーディオデータ推論装置ＩＮＦにおいて、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図３６に示したハードウェア構成（例えばＣＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図３６に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

本発明によれば、波形直接生成モデルを用いたオーディオデータ処理において、高速に処理を実行するとともに、高品質のオーディオデータを取得するオーディオデータ処理システムを実現するができる。このため本発明は、オーディオデータ処理関連産業分野において有用であり、当該分野において実施することができる。

１０００オーディオデータ処理システム
ＤＬオーディオデータ学習装置
１サブバンド分割部
２ダウンサンプリング処理部
３サブバンド学習モデル部
ＩＮＦオーディオデータ推論装置
３Ａサブバンド学習済モデル部
４アップサンプリング処理部
５サブバンド合成部

Claims

オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得するサブバンド分割部と、
前記サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記サブバンド信号に対してダウンサンプリング処理を実行するダウンサンプリング処理部と、
補助入力データと、前記ダウンサンプリング処理部により取得された前記サブバンド信号とを用いて波形直接生成モデルの学習を行うサブバンド学習モデル部と、
を備えるオーディオデータ学習装置。
前記サブバンド分割部は、
角周波数をωとし、前記オーディオデータのサンプリング角周波数を２πとしたとき、
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
となる伝達関数Ｈ（ω）を有する帯域制限フィルタにより、前記オーディオデータに対して帯域制限フィルタ処理を実行することで、前記サブバンド信号を取得する、
請求項１に記載のオーディオデータ学習装置。
補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったＮ個（Ｎ：自然数）の学習済モデルを含むサブバンド学習済モデル部であって、前記補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、前記Ｎ個の学習済モデルによる処理を実行し、Ｎ個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデル部と、
前記Ｎ個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、Ｎ個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理部と、
前記Ｎ個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成部と、
を備えるオーディオデータ推論装置。
前記サブバンド学習済モデル部は、
前記Ｎ個の前記サブバンド信号を、第１サブバンド信号ｘａ_１、・・・、第ｋサブバンド信号ｘａ_ｋ（ｋ：自然数、１≦ｋ≦Ｎ）、・・・、第Ｎサブバンド信号ｘａ_Ｎとすると、
前記Ｎ個の学習済モデルである、第１サブバンド学習済モデル〜第Ｎサブバンド学習済モデルを用いた処理を実行し、
第ｋサブバンド学習済モデル（ｋ：自然数、１≦ｋ≦Ｎ）は、前記補助入力データと、前記第ｋサブバンド信号ｘａ_ｋとを入力とし、
前記Ｎ個のサブバンド学習済モデルのうち、少なくとも１つは、位相補償用サブバンド学習済モデルであり、第ｍサブバンド学習済モデル（ｍ：自然数、１≦ｍ≦Ｎ）が位相補償用サブバンド学習済モデルであるものとし、自然数ｍとは異なる自然数をｎ（ｎ：自然数、１≦ｎ≦Ｎ、ｎ≠ｍ）とすると、前記第ｍサブバンド学習済モデルは、（１）前記補助入力データと、（２）第ｍサブバンド信号ｘａ_ｍと、（３）第ｎサブバンド信号ｘａ_ｎとを入力する、
請求項３に記載のオーディオデータ推論装置。
前記サブバンド合成部は、
角周波数をωとし、前記オーディオデータのサンプリング角周波数を２πとしたとき、
（１）−π／（Ｎ−１）≦ω≦π／（Ｎ−１）のとき

（２）ω＜−π／（Ｎ−１）またはω＞π／（Ｎ−１）のとき
Ｈ（ω）＝０
となる伝達関数Ｈ（ω）を有する帯域制限フィルタにより、前記Ｎ個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、前記合成処理を実行することで、前記出力データを取得する、
請求項３または４に記載のオーディオデータ推論装置。
オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得するサブバンド分割ステップと、
前記サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記サブバンド信号に対してダウンサンプリング処理を実行するダウンサンプリング処理ステップと、
補助入力データと、前記ダウンサンプリング処理ステップにより取得された前記サブバンド信号とを用いて波形直接生成モデルの学習を行うサブバンド学習モデルステップと、
を備えるオーディオデータ学習方法をコンピュータに実行させるためのプログラム。
補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったＮ個（Ｎ：自然数）の学習済モデルを含むサブバンド学習済モデルステップであって、前記補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、前記Ｎ個の学習済モデルによる処理を実行し、Ｎ個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデルステップと、
前記Ｎ個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、Ｎ個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理ステップと、
前記Ｎ個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成ステップと、
を備えるオーディオデータ推論方法をコンピュータに実行させるためのプログラム。