JP2019045856A - オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム - Google Patents
オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム Download PDFInfo
- Publication number
- JP2019045856A JP2019045856A JP2018158152A JP2018158152A JP2019045856A JP 2019045856 A JP2019045856 A JP 2019045856A JP 2018158152 A JP2018158152 A JP 2018158152A JP 2018158152 A JP2018158152 A JP 2018158152A JP 2019045856 A JP2019045856 A JP 2019045856A
- Authority
- JP
- Japan
- Prior art keywords
- subband
- data
- processing
- audio data
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Δf=fs/(2N)
N:自然数
としたとき、設定した対象周波数領域幅Δfにおいて、ゲインが−1dB以上である周波数領域がΔf/2以下であるフィルタ特性を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行して、サブバンド信号を取得してもよい。
第1変形例の発明は、第2の発明であって、サブバンド学習モデルは、複数層からなるニューラルネットワークによるモデルである。
z=(WL×xL+WR×xR)+(VL×hL+VR×hR)
WL:重み行列
WR:重み行列
VL:重み行列
VR:重み行列
に相当する処理を実行し、データzを取得する。
out_L1=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層の出力データout_L1を取得する。
z’=W’L×x’L+W’R×x’R
W’L:重み行列
W’R:重み行列
に相当する処理を実行し、データz’を取得する。
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層の出力データout_LK+1を取得する。
第2変形例の発明は、第1変形例の発明であって、サブバンド学習モデルの第1層は、重み付け加算部から出力されるデータzと、活性化処理部から出力されるout_L1とを含むデータを生成し、生成したデータを、第1層の出力データとして、出力する。
第3変形例の発明は、第1変形例の発明であって、サブバンド学習モデルの第K+1層は、重み付け加算部から出力されるデータz’と、第K+1層活性化処理部から出力されるout_LK+1とを含むデータを生成し、生成したデータを、第K+1層の出力データとして、出力する。
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、オーディオデータに対して帯域制限フィルタ処理を実行することで、サブバンド信号を取得する。
Δf=fs/(2N)
N:自然数
としたとき、設定した対象周波数領域幅Δfにおいて、ゲインが−1dB以上である周波数領域がΔf/2以下であるフィルタ特性を有する帯域制限フィルタにより、N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行して、出力データを取得するようにしてもよい。
なお、このオーディオデータ推論装置から出力されるデータ(信号)のレベル(信号レベル)を調整するためのゲイン調整部を設けるようにしてもよい。
第4変形例の発明は、第6の発明であって、サブバンド学習済モデルは、複数層からなるニューラルネットワークによるモデルである。
z=(WL×xL+WR×xR)+(VL×hL+VR×hR)
WL:重み行列
WR:重み行列
VL:重み行列
VR:重み行列
に相当する処理を実行し、データzを取得する。
out_L1=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層の出力データout_L1を取得する。
z’=W’L×x’L+W’R×x’R
W’L:重み行列
W’R:重み行列
に相当する処理を実行し、データz’を取得する。
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層の出力データout_LK+1を取得する。
第5変形例の発明は、第4変形例の発明であって、サブバンド学習済モデルの第1層は、重み付け加算部から出力されるデータzと、活性化処理部から出力されるout_L1とを含むデータを生成し、生成したデータを、第1層の出力データとして、出力する。
第6変形例の発明は、第4変形例の発明であって、サブバンド学習済モデルの第K+1層は、重み付け加算部から出力されるデータz’と、第K+1層活性化処理部から出力されるout_LK+1とを含むデータを生成し、生成したデータを、第K+1層の出力データとして、出力する。
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、合成処理を実行することで、出力データを取得する。
第1実施形態について、図面を参照しながら、以下説明する。
図1は、第1実施形態に係るオーディオデータ処理システム1000の概略構成図である。
オーディオデータ学習装置DLは、図2に示すように、サブバンド分割部1と、ダウンサンプリング処理部2と、サブバンド学習モデル部3とを備える。
オーディオデータ推論装置INFは、図4に示すように、サブバンド学習済モデル部3Aと、アップサンプリング処理部4と、サブバンド合成部5とを備える。
以上のように構成されたオーディオデータ処理システム1000の動作について以下説明する。
まず、オーディオデータ学習装置DLによる学習処理について、説明する。
オーディオデータ学習装置DLのサブバンド分割部1に入力データx(例えば、フルバンドのオーディオ信号の波形のデータ)が入力される。具体的には、入力データxは、図3に示すように、サブバンド分割部1の第1周波数シフト処理部111〜第N周波数シフト処理部11Nにそれぞれ入力される。なお、以下では入力データxに対応する信号を信号x(t)と表記する。つまり、入力データx(ベクトルデータx)は、信号x(t)のT個(T:自然数)のサンプルデータからなり、このことを以下のように表記する。
x=[x(1),・・・,x(T)]
なお、x(t)は、例えば、入力されるオーディオ信号をμ−law圧縮し、例えば、0〜255の離散値をとるサンプルとして取得されたデータであるものとする。
次に、第1周波数シフト処理部111〜第N周波数シフト処理部11Nでは、それぞれ入力された信号x(t)に対して周波数シフト処理が実行される。
xk(t)=x(t)×WN −t(k−1/2)
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xk(t)を取得する。これにより、第k周波数シフト処理部11kは、周波数シフト処理後のデータx_shftkを
x_shftk=[xk(1),・・・,xk(T)]
として取得する。そして、第k周波数シフト処理部11kは、取得したデータx_shftkを第k帯域制限フィルタ処理部12kに出力する。
次に、第1帯域制限フィルタ処理部121〜第N帯域制限フィルタ処理部12Nでは、それぞれ入力されたデータx_shftk(信号xk(t))に対して帯域制限フィルタ処理が実行される。
xk,pp(t)=h(t)*xk(t)
に相当する処理を実行し、帯域制限処理後の信号xk,pp(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
x_ftk=[xk,pp(1),・・・,xk,pp(T)]
として取得する。そして、第k帯域制限フィルタ処理部12kは、取得したデータx_ftkを第k実数化処理部13kに出力する。
次に、第1実数化処理部131〜第N実数化処理部13Nでは、それぞれ入力されたデータx_ftk(信号xk,pp(t))に対して実数化処理が実行される。
xk,SSB(t)=xk,pp(t)×WN t/2+x* k,pp(t)×WN −t/2
に相当する処理を実行し、実数化処理後の信号xk,SSB(t)を取得する。なお、「x* k,pp(t)」は「xk,pp(t)」の複素共役の信号である。
x_subk=[xk,SSB(1),・・・,xk,SSB(T)]
として取得する。そして、第k実数化処理部13kは、取得したデータx_subkを第kダウンサンプリング処理部2kに出力する。
次に、第1ダウンサンプリング処理部21〜第Nダウンサンプリング処理部2Nは、それぞれ入力されたデータx_subk(信号xk,SSB(t))に対して間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を実行し、処理後のデータx_dkを取得する。なお、本実施形態では、一例としてM=4として説明する。
x_dk=[xk,SSB(M),・・・,xk,SSB(T×M)]
として取得する。そして、第kダウンサンプリング処理部2kは、取得したデータx_dk
を第kサブバンド学習モデル3kに出力する。
次に、サブバンド学習モデル部3の第1サブバンド学習モデル31〜第Nサブバンド学習モデル3Nでは、それぞれ、第1ダウンサンプリング処理部21〜第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d1〜x_dNと、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
そして、上記条件付き確率が最大となるように、上記モデルのパラメータを最適化する。つまり、上記モデルにおいて、
により、最適化パラメータθoptを取得することで、モデルの最適化処理(モデル学習)を実行することができる。
により、最適化パラメータθopt_kを取得することで、モデルの最適化処理(モデル学習)を実行する。なお、パラメータθkは、スカラー、ベクトル、またはテンソルである。
次に、オーディオデータ推論装置INFによる推論処理について、説明する。
オーディオデータ推論装置INFのサブバンド学習済モデル部3Aに、推論時の入力データx’を構成するサブバンド信号データxakおよび補助入力hが入力される。
サブバンド学習済モデル部3Aは、補助入力hと、サブバンド信号データxakに対して、第kサブバンド学習済モデル3Akを用いた処理を実行し、処理後のデータをデータxbkとして取得する。
なお、t=1のとき、p(xak(t)|xak(1),・・・,xak(t−1),h)は、p(xak(1)|h)とすればよい。
次に、第1アップサンプリング処理部41〜第Nアップサンプリング処理部4Nは、それぞれ入力されたデータxbk(信号xbk(t))に対して間引き率Mでオーバサンプリングを行うことで、アップサンプリング処理を実行し(例えば、ゼロ挿入によりアップサンプリング処理を実行し)、アップサンプリング処理後のデータxck(信号xck(t))を取得する。
次に、サブバンド合成部5の第1ベースバンドシフト処理部511〜第Nベースバンドシフト処理部51Nでは、それぞれ入力されたアップサンプリング処理後のデータxck(信号xck(t))に対して、ベースバンドシフト処理が実行される。
xc_bsk(t)=xck(t)×WN −1/2
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、ベースバンドシフト処理後の信号xc_bsk(t)を取得する。そして、第kベースバンドシフト処理部51kは、取得したデータxc_bsk(信号xc_bsk(t))を第k帯域制限フィルタ処理部52kに出力する。
次に、第1帯域制限フィルタ処理部521〜第N帯域制限フィルタ処理部52Nでは、それぞれ入力されたデータxc_bsk(信号xc_bsk(t))に対して帯域制限フィルタ処理が実行される。
xc_ftk(t)=h(t)*xc_bsk(t)
に相当する処理を実行し、帯域制限処理後の信号xc_ftk(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
次に、第1周波数シフト処理部531〜第N周波数シフト処理部53Nでは、それぞれ入力された信号xc_ftk(t)に対して周波数シフト処理が実行される。
xc_shftk(t)=xc_ftk(t)×WN t(k−1/2)
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xc_shftk(t)を取得する。そして、第k周波数シフト処理部53kは、取得したデータxc_shftk(信号xc_shftk(t))をサブバンド合成処理部54に出力する。
なお、図11(b)に、k=1のときの周波数シフト処理後の信号xc_shftk(t)の周波数スペクトルを示す。k=1のときの周波数シフト処理は、第1周波数シフト処理部531により実行される。第k周波数シフト処理部53kでの周波数シフト量は、WN t(k−1/2)となるので、第k周波数シフト処理部53kでの処理後の信号の周波数スペクトルは、元のサブバンド信号(原信号)の周波数スペクトルの位置に戻る。
サブバンド合成処理部54は、第1周波数シフト処理部531〜第N周波数シフト処理部53Nから出力されるデータxc_shft1〜xc_shftNを入力し、入力されたデータxc_shft1〜xc_shftNに対して合成処理(加算処理)を行うことで、出力データxo(信号xo(t))を取得する。
次に、第2実施形態について説明する。
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
ω:角周波数
つまり、オーディオデータ処理システムにおいて、学習処理時と推論処理時の両方で、信号に対して、サブバンド信号を取得するときの帯域制限フィルタ処理と、サブバンド信号を合成するときの帯域制限フィルタ処理とを実行することで、信号に対してcos特性(2乗根cos特性のフィルタ処理を2回実行したときの特性)の帯域制限フィルタ処理を施したことと等価となる。そして、図12に示すようにサブバンド分割される周波数領域はπ/(N−1)ずつシフトしながら、かつ、隣接するサブバンド分割領域(サブバンド周波数領域)と周波数幅π/(N−1)の重複領域を有している。したがって、サブバンド分割した信号をサブバンド合成して取得される信号は、元の信号(原信号)に対してエネルギー損失が殆どなく適切に原信号を復元(推定)することができる。
(1)0≦f<π/8の周波数領域の周波数成分に対して、フィルタ特性f_R1のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R2のフィルタ処理を2回実行して取得される信号成分。
(2)π/8≦f<2π/8の周波数領域の周波数成分に対して、フィルタ特性f_R2のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R3のフィルタ処理を2回実行して取得される信号成分。
(3)2π/8≦f<3π/8の周波数領域の周波数成分に対して、フィルタ特性f_R3のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R4のフィルタ処理を2回実行して取得される信号成分。
(4)3π/8≦f<4π/8の周波数領域の周波数成分に対して、フィルタ特性f_R4のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R5のフィルタ処理を2回実行して取得される信号成分。
(5)4π/8≦f<5π/8の周波数領域の周波数成分に対して、フィルタ特性f_R5のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R6のフィルタ処理を2回実行して取得される信号成分。
(6)5π/8≦f<6π/8の周波数領域の周波数成分に対して、フィルタ特性f_R6のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R7のフィルタ処理を2回実行して取得される信号成分。
(7)6π/8≦f<7π/8の周波数領域の周波数成分に対して、フィルタ特性f_R7のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R8のフィルタ処理を2回実行して取得される信号成分。
(8)7π/8≦f<πの周波数領域の周波数成分に対して、フィルタ特性f_R8のフィルタ処理を2回(学習時と推論時)実行することで取得される信号成分、および、フィルタ特性f_R9のフィルタ処理を2回実行して取得される信号成分。
≪学習処理≫
(ステップS1):
オーディオデータ学習装置DLのサブバンド分割部1に入力データx(例えば、フルバンドのオーディオ信号の波形のデータ)が入力される。具体的には、入力データx(信号x(t))は、図3に示すように、サブバンド分割部1の第1周波数シフト処理部111〜第N周波数シフト処理部11Nにそれぞれ入力される。
次に、第1周波数シフト処理部111〜第N周波数シフト処理部11Nでは、それぞれ入力された信号x(t)に対して周波数シフト処理が実行される。
xk(t)=x(t)×WN −t((k−1)/2)
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xk(t)を取得する。
次に、第1帯域制限フィルタ処理部121〜第N帯域制限フィルタ処理部12Nでは、それぞれ入力されたデータx_shftk(信号xk(t))に対して帯域制限フィルタ処理が実行される。
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
ω:角周波数
なお、上記2乗根cos特性の帯域制限フィルタのインパルス応答をh(t)とすると、第k帯域制限フィルタ処理部12kは、
xk,pp(t)=h(t)*xk(t)
に相当する処理を実行し、帯域制限処理後の信号xk,pp(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
x_ftk=[xk,pp(1),・・・,xk,pp(T)]
として取得する。そして、第k帯域制限フィルタ処理部12kは、取得したデータx_ftkを第k実数化処理部13kに出力する。
次に、第1実数化処理部131〜第N実数化処理部13Nでは、それぞれ入力されたデータx_ftk(信号xk,pp(t))に対して実数化処理が実行される。
xk,SSB(t)=xk,pp(t)×WN t/2+x* k,pp(t)×WN −t/2
に相当する処理を実行し、実数化処理後の信号xk,SSB(t)を取得する。
x_subk=[xk,SSB(1),・・・,xk,SSB(T)]
として取得する。そして、第k実数化処理部13kは、取得したデータx_subkを第kダウンサンプリング処理部2kに出力する。
次に、第1ダウンサンプリング処理部21〜第Nダウンサンプリング処理部2Nは、それぞれ入力されたデータx_subk(信号xk,SSB(t))に対して間引き率M(M:自然数)のダウンサンプリング処理(間引き処理)を実行し、処理後のデータx_dkを取得する。
x_dk=[xk,SSB(M),・・・,xk,SSB(T×M)]
として取得する。そして、第kダウンサンプリング処理部2kは、取得したデータx_dk
を第kサブバンド学習モデル3kに出力する。
次に、サブバンド学習モデル部3の第1サブバンド学習モデル31〜第Nサブバンド学習モデル3Nでは、それぞれ、第1ダウンサンプリング処理部21〜第Nダウンサンプリング処理部2Nから出力されるダウンサンプリング処理後のサブバンド信号データx_d1〜x_dNと、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
本実施形態において、推論処理においても、第1実施形態と同様の信号がオーディオデータ推論装置INFに入力されるものとして以下図9のフローチャートを参照しながら説明する。
オーディオデータ推論装置INFのサブバンド学習済モデル部3Aに、推論時の入力データx’を構成するサブバンド信号データxakおよび補助入力hが入力される。
第kサブバンド学習済モデル3Ak(k:自然数、1≦k≦N)は、補助入力hと、サブバンド信号データxakに対して、第kサブバンド学習済モデル3Akを用いた処理を実行し、処理後のデータをデータxbkとして取得する。第2実施形態の第kサブバンド学習済モデル3Akの処理内容は、第1実施形態のものと同様である。なお、第2実施形態ではN=9である。
次に、第1アップサンプリング処理部41〜第Nアップサンプリング処理部4Nは、それぞれ入力されたデータxbk(信号xbk(t))に対して間引き率Mでオーバサンプリングを行うことで、アップサンプリング処理を実行し(例えば、ゼロ挿入によりアップサンプリング処理を実行し)、アップサンプリング処理後のデータxck(信号xck(t))を取得する。
次に、サブバンド合成部5の第1ベースバンドシフト処理部511〜第Nベースバンドシフト処理部51Nでは、それぞれ入力されたアップサンプリング処理後のデータxck(信号xck(t))に対して、ベースバンドシフト処理が実行される。
xc_bsk(t)=xck(t)×WN −1/2
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、ベースバンドシフト処理後の信号xc_bsk(t)を取得する。そして、第kベースバンドシフト処理部51kは、取得したデータxc_bsk(信号xc_bsk(t))を第k帯域制限フィルタ処理部52kに出力する。
次に、第1帯域制限フィルタ処理部521〜第N帯域制限フィルタ処理部52Nでは、それぞれ入力されたデータxc_bsk(信号xc_bsk(t))に対して帯域制限フィルタ処理が実行される。
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
ω:角周波数
なお、上記2乗根cos特性の帯域制限フィルタのインパルス応答をh(t)とすると、第k帯域制限フィルタ処理部52kは、
xc_ftk(t)=h(t)*xc_bsk(t)
に相当する処理を実行し、帯域制限処理後の信号xc_ftk(t)を取得する。なお、「*」は畳み込み総和をとる演算子である。
次に、第1周波数シフト処理部531〜第N周波数シフト処理部53Nでは、それぞれ入力された信号xc_ftk(t)に対して周波数シフト処理が実行される。
xc_shftk(t)=xc_ftk(t)×WN t((k−1)/2)
WN=exp(j×2π/(2N))
k:自然数、1≦k≦N
j:虚数単位
に相当する処理を実行し、周波数シフト処理後の信号xc_shftk(t)を取得する。そして、第k周波数シフト処理部53kは、取得したデータxc_shftk(信号xc_shftk(t))をサブバンド合成処理部54に出力する。
サブバンド合成処理部54は、第1周波数シフト処理部531〜第N周波数シフト処理部53Nから出力されるデータxc_shft1〜xc_shftNを入力し、入力されたデータxc_shft1〜xc_shftNに対して合成処理(加算処理)を行うことで、出力データxo(信号xo(t))を取得する。
以上のように、本実施形態のオーディオデータ処理システムのオーディオデータ学習装置DLでは、フルバンドの波形データ(フルバンドのオーディオ信号)を2乗根cos特性を有するフィルタにより帯域制限フィルタ処理を行うことでサブバンド信号に分割し、分割したサブバンド信号を用いてサブバンド学習モデル部3によりモデルの学習(最適化)を行うことができる。サブバンド学習モデル部3では、N個のモデル(第1サブバンド学習モデル〜第Nサブバンド学習モデル)により並列にサブバンド信号を用いたモデルの学習(最適化)を行うことができる。すなわち、オーディオデータ学習装置DLでは、波形直接生成モデルの学習(最適化)を並列処理により実現することができる。
(1)日本語女性話者7242文(約4.8時間)および男性話者5697文(約3.7時間)を学習セット、それぞれ100文ずつをテストセットとした。サンリング周波数fs=48kHz収録音声を32kHzにダウンサンプリングした。
(2)条件なしの波形直接生成モデルによる学習、生成(推論)を行う。補助入力hは用いず、正解入力[x(1),・・・,x(t−1)]から、x’(t)を推定し、生成サンプルx’=[x’(1),・・・,x’(T)]を出力とする。
次に、第3実施形態について、説明する。
図27は、第3実施形態に係るオーディオデータ処理システム3000の概略構成図である。
オーディオデータ処理システム3000は、図27に示すように、オーディオデータ学習装置DLaとオーディオデータ推論装置INFaとを備える。
オーディオデータ推論装置INFaは、図29に示すように、サブバンド学習済モデル部3Bと、アップサンプリング処理部4と、サブバンド合成部5とを備える。
以上のように構成されたオーディオデータ処理システム3000の動作について以下説明する。
オーディオデータ処理システム3000において、第1実施形態と同様に、図6のステップS1〜S5の処理が実行される。
ステップS6において、サブバンド学習モデル部3Cの第1サブバンド学習モデル31Cでは、第1ダウンサンプリング処理部21から出力されるダウンサンプリング処理後のサブバンド信号データx_d1と、補助入力hとを用いたモデル学習が実行される。なお、補助入力hの入力を省略しても良い。
なお、t=1のとき、p(x_d1(t)|x_d1(1),・・・,x_d1(t−1),h)は、p(x_d1(1)|h)とすればよい。
により、最適化パラメータθopt_1を取得することで、モデルの最適化処理(モデル学習)を実行する。パラメータθ1は、スカラー、ベクトル、またはテンソルである。
なお、t=1のとき、p(x_dk(t)|x_dk(1),・・・,x_dk(t−1),h,x_d1(1),・・・,x_d1(t−1))は、p(x_dk(1)|h)とすればよい。
次に、オーディオデータ推論装置INFaによる推論処理について、説明する。
ステップS21において、オーディオデータ推論装置INFaのサブバンド学習済モデル部3Bの第1サブバンド学習済モデル3B1に、推論時の入力データx’を構成するサブバンド信号データxa1および補助入力hが入力される。
ステップS22において、サブバンド学習済モデル部3Bの第1サブバンド学習済モデル3B1は、補助入力hと、サブバンド信号データxa1に対して、第1サブバンド学習済モデル3B1を用いた処理を実行し、処理後のデータをデータxb1として取得する。
なお、t=1のとき、p(xa1(t)|xa1(1),・・・,xa1(t−1),h)は、p(xa1(1)|h)とすればよい。
なお、t=1のとき、p(xak(t)|xak(1),・・・,xak(t−1),h,xa1(1),・・・,xa1(t−1))は、p(xak(1)|h)とすればよい。
ステップS23〜S27では、オーディオデータ推論装置INFaにおいて、第1実施形態と同様の処理が実行される。
(文献1):
Z. Jin et al., “FFTNet: A real-time speaker-dependent neural vocoder,” in Proc. ICASSP, Apr. 2018, pp. 2251-2255.
≪第1変形例≫
次に、第3実施形態の第1変形例について、説明する。
なお、本変形例において、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。
xo=WL×xL+WR×xR
WL:重み行列
WR:重み行列
に相当する処理を実行し、重み付け加算処理データxoを取得する。
ho=VL×hL+VR×hR
VL:重み行列
VR:重み行列
に相当する処理を実行し、重み付け加算処理データhoを取得する。
z=xo+ho=(WL×xL+WR×xR)+(VL×hL+VR×hR)
に相当する処理を実行し、データzを取得する。
out_L1=ReLU(conv1x1(ReLU(z)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第1層FL_1の出力データout_L1を取得する。
z’=W’L×x’L+W’R×x’R
W’L:重み行列
W’R:重み行列
に相当する処理を実行し、重み付け加算処理データz’を取得する。
out_LK+1=ReLU(conv1x1(ReLU(z’)))
ReLU():正規化線形関数(ReLU:Rectified linear unit)
conv1x1():1×1のコンボリューション処理の出力を返す関数
に相当する処理を実行し、第K+1層FL_K+1の出力データout_LK+1を取得する。
次に、第3実施形態の第2変形例について、説明する。
なお、本変形例において、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。
次に、第3実施形態の第3変形例について、説明する。
なお、本変形例において、上記実施形態(変形例を含む)と同様の部分については、同一符号を付し、詳細な説明を省略する。
γ:m次のメルケプストラムのパワー係数
β:ノイズエネルギー制御係数
Mc:メルケプストラム次数
α:重み係数
フィルタ格納部72は、時不変ノイズシェーピングフィルタ算出部71により特定(算出)されたフィルタに関するデータを格納する。
上記実施形態、および/または、変形例を任意に組み合わせて、オーディオデータ処理システム、オーディオデータ学習装置、および/または、オーディオデータ推論装置を構成するようにしてもよい。
DL オーディオデータ学習装置
1 サブバンド分割部
2 ダウンサンプリング処理部
3 サブバンド学習モデル部
INF オーディオデータ推論装置
3A サブバンド学習済モデル部
4 アップサンプリング処理部
5 サブバンド合成部
Claims (7)
- オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得するサブバンド分割部と、
前記サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記サブバンド信号に対してダウンサンプリング処理を実行するダウンサンプリング処理部と、
補助入力データと、前記ダウンサンプリング処理部により取得された前記サブバンド信号とを用いて波形直接生成モデルの学習を行うサブバンド学習モデル部と、
を備えるオーディオデータ学習装置。 - 前記サブバンド分割部は、
角周波数をωとし、前記オーディオデータのサンプリング角周波数を2πとしたとき、
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、前記オーディオデータに対して帯域制限フィルタ処理を実行することで、前記サブバンド信号を取得する、
請求項1に記載のオーディオデータ学習装置。 - 補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったN個(N:自然数)の学習済モデルを含むサブバンド学習済モデル部であって、前記補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、前記N個の学習済モデルによる処理を実行し、N個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデル部と、
前記N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理部と、
前記N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成部と、
を備えるオーディオデータ推論装置。 - 前記サブバンド学習済モデル部は、
前記N個の前記サブバンド信号を、第1サブバンド信号xa1、・・・、第kサブバンド信号xak(k:自然数、1≦k≦N)、・・・、第Nサブバンド信号xaNとすると、
前記N個の学習済モデルである、第1サブバンド学習済モデル〜第Nサブバンド学習済モデルを用いた処理を実行し、
第kサブバンド学習済モデル(k:自然数、1≦k≦N)は、前記補助入力データと、前記第kサブバンド信号xakとを入力とし、
前記N個のサブバンド学習済モデルのうち、少なくとも1つは、位相補償用サブバンド学習済モデルであり、第mサブバンド学習済モデル(m:自然数、1≦m≦N)が位相補償用サブバンド学習済モデルであるものとし、自然数mとは異なる自然数をn(n:自然数、1≦n≦N、n≠m)とすると、前記第mサブバンド学習済モデルは、(1)前記補助入力データと、(2)第mサブバンド信号xamと、(3)第nサブバンド信号xanとを入力する、
請求項3に記載のオーディオデータ推論装置。 - 前記サブバンド合成部は、
角周波数をωとし、前記オーディオデータのサンプリング角周波数を2πとしたとき、
(1)−π/(N−1)≦ω≦π/(N−1)のとき
(2)ω<−π/(N−1)またはω>π/(N−1)のとき
H(ω)=0
となる伝達関数H(ω)を有する帯域制限フィルタにより、前記N個のアップサンプリング処理後のサブバンド信号に対して帯域制限フィルタ処理を実行した後、前記合成処理を実行することで、前記出力データを取得する、
請求項3または4に記載のオーディオデータ推論装置。 - オーディオデータに対して周波数帯域を制限する処理を実行することでサブバンド信号を取得するサブバンド分割ステップと、
前記サブバンド信号の信号値を所定のサンプリング周波数でサンプリングしたサンプルデータを間引くことで、前記サブバンド信号に対してダウンサンプリング処理を実行するダウンサンプリング処理ステップと、
補助入力データと、前記ダウンサンプリング処理ステップにより取得された前記サブバンド信号とを用いて波形直接生成モデルの学習を行うサブバンド学習モデルステップと、
を備えるオーディオデータ学習方法をコンピュータに実行させるためのプログラム。 - 補助入力データとオーディオデータに対して周波数帯域を制限する処理を実行することで取得したサブバンド信号とを用いて波形直接生成モデルの学習を行ったN個(N:自然数)の学習済モデルを含むサブバンド学習済モデルステップであって、前記補助入力データおよびサブバンド信号の少なくとも一方が入力されたとき、前記N個の学習済モデルによる処理を実行し、N個の推論処理済みサブバンド信号を出力する前記サブバンド学習済モデルステップと、
前記N個の推論処理済みサブバンド信号に対して、アップサンプリング処理を実行することで、N個のアップサンプリング処理後のサブバンド信号を取得するアップサンプリング処理ステップと、
前記N個のアップサンプリング処理後のサブバンド信号に対して周波数帯域を制限する処理を実行した後、合成処理を実行することで出力データを取得するサブバンド合成ステップと、
を備えるオーディオデータ推論方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/117,002 US20190066657A1 (en) | 2017-08-31 | 2018-08-30 | Audio data learning method, audio data inference method and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017166495 | 2017-08-31 | ||
JP2017166495 | 2017-08-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019045856A true JP2019045856A (ja) | 2019-03-22 |
JP7209275B2 JP7209275B2 (ja) | 2023-01-20 |
Family
ID=65816445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018158152A Active JP7209275B2 (ja) | 2017-08-31 | 2018-08-27 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7209275B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021006897A (ja) * | 2019-06-27 | 2021-01-21 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
JP2022530797A (ja) * | 2019-09-20 | 2022-07-01 | テンセント・アメリカ・エルエルシー | マルチバンド同期ニューラルボコーダ |
WO2023281555A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 生成方法、生成プログラム及び生成装置 |
WO2023026654A1 (ja) * | 2021-08-23 | 2023-03-02 | 国立研究開発法人情報通信研究機構 | オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013539558A (ja) * | 2011-08-10 | 2013-10-24 | ゴーアテック インコーポレイテッド | パラメータ音声の合成方法及びシステム |
JP2014109669A (ja) * | 2012-11-30 | 2014-06-12 | Kddi Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP2019532349A (ja) * | 2016-09-06 | 2019-11-07 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したオーディオの生成 |
-
2018
- 2018-08-27 JP JP2018158152A patent/JP7209275B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013539558A (ja) * | 2011-08-10 | 2013-10-24 | ゴーアテック インコーポレイテッド | パラメータ音声の合成方法及びシステム |
JP2014109669A (ja) * | 2012-11-30 | 2014-06-12 | Kddi Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP2019532349A (ja) * | 2016-09-06 | 2019-11-07 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したオーディオの生成 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021006897A (ja) * | 2019-06-27 | 2021-01-21 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声を並行して合成する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 |
US11289068B2 (en) | 2019-06-27 | 2022-03-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, device, and computer-readable storage medium for speech synthesis in parallel |
JP2022530797A (ja) * | 2019-09-20 | 2022-07-01 | テンセント・アメリカ・エルエルシー | マルチバンド同期ニューラルボコーダ |
JP7154679B2 (ja) | 2019-09-20 | 2022-10-18 | テンセント・アメリカ・エルエルシー | マルチバンド同期ニューラルボコーダ |
WO2023281555A1 (ja) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | 生成方法、生成プログラム及び生成装置 |
WO2023026654A1 (ja) * | 2021-08-23 | 2023-03-02 | 国立研究開発法人情報通信研究機構 | オーディオデータ生成装置、オーディオデータ生成装置の敵対的学習方法、オーディオデータ生成装置の学習方法、および、音声合成処理システム |
Also Published As
Publication number | Publication date |
---|---|
JP7209275B2 (ja) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7209275B2 (ja) | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム | |
Caillon et al. | RAVE: A variational autoencoder for fast and high-quality neural audio synthesis | |
Wang et al. | Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis | |
TWI324335B (en) | Methods of signal processing and apparatus for wideband speech coding | |
US20130024191A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
Tachibana et al. | An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation | |
CA2578610A1 (en) | Voice encoding device, voice decoding device, and methods therefor | |
Li et al. | Artificial bandwidth extension using deep neural network‐based spectral envelope estimation and enhanced excitation estimation | |
KR20230109630A (ko) | 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기 | |
JP2019078864A (ja) | 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム | |
JP6484325B2 (ja) | 復号方法、復号装置、プログラム及び記録媒体 | |
Hao et al. | Time-domain neural network approach for speech bandwidth extension | |
US20190066657A1 (en) | Audio data learning method, audio data inference method and recording medium | |
JP4857468B2 (ja) | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 | |
JP2023545820A (ja) | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル | |
TW202333140A (zh) | 多頻帶寫碼的系統和方法 | |
CN112863539B (zh) | 一种高采样率语音波形生成方法、装置、设备及存储介质 | |
JP7421827B2 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
JPH09127985A (ja) | 信号符号化方法及び装置 | |
JP4857467B2 (ja) | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 | |
JPH09127987A (ja) | 信号符号化方法及び装置 | |
Funaki | Sparse Time-Varying Complex AR (TV-CAR) speech analysis based on Adaptive LASSO | |
CN113470616B (zh) | 语音处理方法和装置以及声码器和声码器的训练方法 | |
JP2021033466A (ja) | 符号化装置、復号装置、パラメータ学習装置、およびプログラム | |
JPH09127998A (ja) | 信号量子化方法及び信号符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180827 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210806 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220920 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221102 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20221102 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221122 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7209275 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |