JP2021076831A

JP2021076831A - 電子機器、方法およびコンピュータプログラム

Info

Publication number: JP2021076831A
Application number: JP2020175094A
Authority: JP
Inventors: ウーリッヒステファン; Ulrich Stephan; イネンクルミハエル; Inencl Michael
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-10-21
Filing date: 2020-10-19
Publication date: 2021-05-20
Also published as: CN112767964A; TW202135047A

Abstract

【課題】音楽ソース分離のための機器、方法およびコンピュータプログラムを提供する。
【解決手段】電子機器は、複数のソースを含むオーディオ混合信号を、ディープニューラルネットワークに入力して、イコライジングパラメータを取得し、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいて、オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するように構成された回路を備える。
【選択図】図１

Description

本開示は概して、オーディオ処理の分野に関し、特に、音楽ソース（音源）分離のための機器、方法、およびコンピュータプログラムに関する。

一般に、音楽ソース分離（MSS）は、音楽を個々の楽器トラックに分離することを意味する。

従来、音楽ソースの分離は、オーディオ信号に短時間フーリエ変換（STFT）を適用することにより、周波数領域で実行されていた。例えば、Uhlich、Stefan＆Giron、Franck＆Mitsufuji、Yukiは、「音楽からのディープニューラルネットワークベースの楽器抽出」、2015、10.1109 / ICASSP.2015.7178348で、ディープニューラルネットワークを使用した音楽からの楽器の抽出を開示している。
さらに、Uhlich、Stefan＆Porcu、Marcello＆Giron、Franck＆Enenkl、Michael＆Kemp、Thomas＆Takahashi、Naoya＆Mitsufuji、Yukiは、「データ拡張とネットワークブレンディングによるディープニューラルネットワークに基づく音楽ソース分離の改善」、2017年、10.1109 / ICASSP.2017.7952158で、このタスクにおける2つの異なるディープニューラルネットワークアーキテクチャ、フィードフォワードおよびリカレント（繰り返し）アーキテクチャについて説明している。

上記の方法は、STFT（短時間フーリエ変換）のブロック単位の処理に依存しているため、遅延（レイテンシ）が発生する。例えば、上記のアプローチに従って選択されたSTFTフレームサイズの一般的な値は、2048サンプルであり、これは、44.1kHzのサンプリングレートで2048/44100 s = 46.44msのアルゴリズムレイテンシに相当する。

ディープニューラルネットワーク（DNN）に依存する、音楽ソース分離への時間領域アプローチが説明されている。例えば、Stoller、Danielらは、「Wave-U-Net：エンドツーエンドのオーディオソース分離のためのマルチスケールニューラルネットワーク」ISMIR（2018）で、時間領域でのエンドツーエンドのソース分離を研究している。これにより、位相情報のモデリングが可能になり、固定スペクトル変換が回避される。
さらに、Venkataramani、Shrikant＆Smaragdisは、2017年のパリの「AdaptiveFront-Endsによるエンドツーエンドのソース分離」で、短時間のフロントエンド変換と同等に機能できるオートエンコーダニューラルネットワークを提示している。ただし、これらのアプローチでは、計算が非常に複雑になる。

音楽ソース分離処理のための技術は存在するが、音楽ソース分離のための機器および方法を改善することが一般に望ましい。

第1の態様によれば、本開示は、複数のソースを備えるオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得し、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいて、オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するように構成された回路を具備する電子機器を提供する。

第2の態様によれば、本開示は、複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得するステップと、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいて、オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するステップとを含む方法を提供する。

第3の態様によれば、本開示は、命令を含むコンピュータプログラムを提供し、命令はプロセッサ上で実行されると、プロセッサに、複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力させて、イコライジングパラメータを取得し、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいて、オーディオ混合信号に対してオーディオイコライゼーションを実行させて、分離されたソースを取得させる。

さらなる態様が、従属請求項、以下の説明および図面に記載される。

本開示における実施形態は、添付の図面を参照して例として説明される。
音楽ソース分離を実行するためにパラメトリックイコライザ3(EQ)を制御するディープニューラルネットワーク2(DNN)を使用する時間領域音楽ソース分離(MSS)のプロセスを示す。図1のパラメトリックイコライザ3(EQ)によって実行されるプロセスをより詳細に示す。各パラメトリックフィルタiについて、混合オーディオ信号のパラメトリックイコライゼーションを実行するための、ゲインパラメータgi(x(n);θ)、帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)を推定する人工ニューラルネットワーク、ここでは訓練されたDNNのプロセスを示す。混合オーディオ信号のグラフィックイコライゼーションを実行するために、ゲインパラメータg_iを推定するために使用される人工ニューラルネットワーク、ここでは訓練されたDNNのプロセスを示す。音楽ソース分離プロセスを制御するように構成されたDNNの一実施形態を示したものであり、DNNは、長短期メモリ(LSTM)層で実現される。図5のLSTM51によって実行されるプロセスをより詳細に示す。複数のソース(または楽器)を含む混合信号から特定のソースを分離するための方法を視覚化したフロー図を示す。事前に決定されたイコライジングパラメータを推定するために、深層再帰的ニューラルネットワーク、すなわちLSTMを訓練するための方法を視覚化したフロー図を示す。パラメトリック/グラフィックEQに基づいて対象楽器を推定する処理を実施することができる電子機器の一実施形態を概略的に説明する。

図１〜図９を参照して実施形態を詳細に説明する前に、いくつかの一般的な説明を行う。

本実施形態は、複数のソースを含むオーディオ混合信号を、ディープニューラルネットワークに入力して、イコライジングパラメータを取得し、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいてオーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するように構成された回路を備える電子機器を開示する。

電子装置の回路は、プロセッサ(CPU)、メモリ(RAM、ROM等)、メモリおよび／またはストレージ、インターフェース、オーディオレシーバ、アップミキシングシステム等を含むことができる。回路は入力手段(マウス、キーボード、カメラ等)、出力手段(ディスプレイ(例えば、液晶、(有機)発光ダイオード等))、スピーカ等、(無線)インターフェース等を備えてもよく、またはこれらと接続されてもよく、これらは、電子機器(コンピュータ、スマートフォン等)として一般的に知られている。
また回路は、単一のデバイス、複数のデバイス、チップセットなどであってもよい。さらに、回路は、ディープニューラルネットワーク(DNN)を実装することができ、それは、受信オーディオ入力信号に対して信号解析を実行して、少なくとも1つの最適信号パラメータを推定することができる。

オーディオ混合信号は、任意の種類のオーディオ信号、例えば、複数のサウンドソースを含む音信号などであってよい。これはアナログ信号、デジタル信号の形態であってもよいし、ハードディスク、ボイスレコーダ、コンパクトディスク、デジタルビデオディスクなどに由来してもよいし、ウェーブファイル、mp3ファイルなどのデータファイルであってもよく、本開示は入力オーディオコンテンツの特定のフォーマットに限定されない。
入力オーディオコンテンツは例えば、第1のチャネル入力オーディオ信号および第2のチャネル入力オーディオ信号を有するステレオオーディオ信号であってもよく、本開示は、2つのオーディオチャネルを有する入力オーディオコンテンツに限定されない。

イコライジングパラメータは、最適な信号パラメータ、例えば、オーディオ混合信号に関連する任意の種類のパラメータなどであってよい。最適な信号パラメータは例えば、ゲインパラメータ、帯域幅パラメータ、周波数パラメータなどであってよい。最適信号パラメータは、トレーニングされた再帰型ニューラルネットワーク(RNN)、ロングショートタームメモリネットワーク(LSTM)、ゲート再帰型ユニット(GRU)、畳み込みニューラルネットワーク(CNN)などのトレーニングされたディープニューラルネットワーク(DNN)を使用して推定することができ、これらは、オーディオ混合入力信号を分析するようにトレーニングされる。
ディープニューラルネットワークは例えば、ソフトウェアでまたはハードウェアで実装されてよく、例えば、フィールドプログラマブルゲートアレイ(FPGA)などによって、以下の実施形態で説明されるようなDNNの特定の実装のためにカスタマイズされた特定用途向け集積回路(ASIC)を使用して実装されてもよい。

オーディオイコライゼーションを実行することは、訓練されたニューラルネットワークから推定された最適な信号パラメータを使用して、オーディオ混合入力信号のフィルタリングを実行することを含むことができる。
イコライジングプロセスは時間領域プロセスであってもよく、また、例えば、ボーカル、ドラム、またはベースなどを推定するための、対象楽器、すなわち、混合信号の分離されたソースの推定処理であってもよい。オーディオイコライジング処理は、以下の実施形態で説明するようなアルゴリズムを使用して実施することができる。

オーディオイコライジングは例えば、グラフィックイコライザ、パラメトリックイコライザ等によって実現されてもよい。

いくつかの実施形態では、ディープニューラルネットワークがオーディオソース分離のための最適パラメータを推定するように訓練されてもよい。最適パラメータはイコライザ（等化）パラメータなどであってもよく、これらのパラメータは、オーディオ混合信号を分析することによって推定され、最適な所定パラメータを推定するなどの望ましいイコライザ設定を推定してもよい。
信号分析は例えば、訓練されたディープニューラルネットワーク、または長短期メモリモデルのような訓練された再帰型ニューラルネットワークによって実行されてもよい。

いくつかの実施形態では、分離された音源がボーカルであってもよい。分離されたソースは、ドラム、ベース等の他の種類の分離されたソースであってもよい。分離されたソースは、分離されたソースの混合であってもよく、例えば、いくつかの実施形態では、分離されたソースが、ボーカルが抑制された（抑えられた）混合であってもよい。

いくつかの実施形態では、オーディオイコライゼーションを実行することはパラメトリックイコライザを実行することを含んでもよく、またはグラフィックイコライザ等を実行することを含んでもよい。パラメトリックイコライザを実行すること、またはグラフィックイコライザを実行することは、例えば、以下の実施形態で説明されるようなアルゴリズムを使用して実装されてもよい。
オーディオイコライジングは、パラレル構造またはカスケード構造を有するグラフィックイコライザまたはパラメトリックイコライザによって実行されてもよい。パラレル構造のグラフィック・オーディオイコライザでは、ゲインパラメータをコントロールするだけで十分である。カスケード構造ではゲインパラメータがすべてのフィルタ係数に影響するため、カスケード構造ではゲインの変更毎にすべての係数を再計算する必要がある場合がある。

いくつかの実施形態では、少なくとも1つの推定最適信号パラメータが、ゲインパラメータ、周波数パラメータ、または帯域幅パラメータなどとすることができる。

いくつかの実施形態では、パラメトリックイコライザを実行することは、例えばピーキングイコライザなどの所定の固定パラメータに基づいて、受信オーディオ入力信号に対してバンドパス（帯域通過）フィルタリングを行うことを含むことができる。
受信オーディオ入力信号に対して帯域フィルタリングを実行することは、例えば、以下の実施形態で説明されるようなアルゴリズムを使用して実施されてもよい。あるいは、バンドパスフィルタリングが例えば、帯域ピークフィルタリングまたはシェルビングフィルタリングであってもよい。また、API(Application-Programming-Interface)は、フィルタバンクの帯域数を設定することができる。

いくつかの実施形態では、パラメトリックイコライザを実行することは、受信したオーディオ入力信号を、複数のバンドパスフィルタに割り振って、複数のバンドパスフィルタされた信号を得ることをさらに含むことができる。

いくつかの実施形態では、パラメトリックイコライザを実行することは、各バンドパスフィルタされた信号に対応するゲインパラメータを乗算して、複数の増幅された信号を得ることをさらに含むことができる。

いくつかの実施形態において、グラフィックイコライゼーションを実行することは、バンドノッチフィルタリング、バンドピークフィルタリング、またはシェルビングフィルタリングなどを実行することを含むことができる。

いくつかの実施形態は、本明細書で説明される電子機器、または任意の他の電子機器、プロセッサ、もしくは他のコンピューティング手段などによって実行され得る方法に関する。この方法は、複数のソースを含むオーディオ混合信号を、ディープニューラルネットワークに入力して、イコライジングパラメータを取得するステップと、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいてオーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するステップとを含む。

いくつかの実施形態はコンピュータプログラムに関し、コンピュータプログラムは命令を含み、命令はプロセッサ上で実行されると、プロセッサに、複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力させて、イコライジングパラメータを取得し、ディープニューラルネットワークから取得されたイコライジングパラメータに基づいてオーディオ混合信号に対して音声イコライゼーションを実行させて、分離ソースを取得する。

以下、図面を参照して本実施形態について説明する。

図1は、パラメトリックイコライザ3(EQ)を制御するディープニューラルネットワーク2(DNN)を使用する時間領域音楽ソース分離(MSS)のプロセスを示す。DNN 2には、混合信号x(n)が入力される。混合信号x(n)は、例えばオーディオインターフェースから得られる時間領域ステレオオーディオ信号であり、例えばドラム、ベース、ボーカル等の複数のオーディオソースを含む。
ディープニューラルネットワーク2は、特定の対象楽器を混合信号x(n)、例えばボーカルから分離するために、パラメトリックイコライザ3(EQ)を制御するための最適パラメータを推定するように訓練される。
DNN2は混合信号x(n)を分析し、混合信号x(n)のパラメトリックイコライゼーションを実行するための所定のイコライジングパラメータの最適値、すなわち、ゲインパラメータgi(x(n);θ)(「ゲイン」とも呼ばれる)、帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)を推定する。ここで、θはDNN 2の重みを表し、したがって、ネットワーク構成および入力混合から得られるイコライジングパラメータの依存性を表す。
インデックスiは以下の図2に関してより詳細に説明するように、パラメトリックイコライザ3(EQ)の特定のフィルタを表している。

DNN 2への送信と同時に、混合信号x(n)は、パラメトリックイコライザ3へも送信される。
パラメトリックイコライザ3は、DNN2から得られたイコライジングパラメータgi(x(n);θ)、bwi(x(n);θ)およびfi(x(n);θ)に基づいて、混合信号x(n)をフィルタリングし、対象楽器(以下では「分離ソース」と呼ぶ)の推定値s（caret）(n)を取得する。これは、DNNが混合信号x(n)から抽出するように訓練された楽器（ここでは例えばボーカル）を示すステレオオーディオ信号である。

図1のDNN 2は例えば、再帰的長短期メモリ(LSTM)モデル、ゲート再帰型ユニット(GRU)、畳み込みニューラルネットワーク(CNN)、もしくは、各入力サンプルに対して出力を生成するか、またはサンプルのブロックを処理した後に出力を生成する任意の他のタイプのニューラルネットワークとすることができる。
イコライザ3による大きさの変更に加えて、特定の周波数帯域の群遅延を変更する群遅延イコライザを使用することもできる。群遅延とは、狭帯域信号に対するフィルタによる信号の遅延のことである。例えば、群遅延イコライザを使用すると、信号の残響を減らしたり、信号に残響を追加したりできる。

図2は、図1のパラメトリックイコライザ3によって実行されるプロセスをより詳細に示したものである。
パラメトリックイコライザ3は、複数のバンドパスフィルタ31-1〜31-N、ここでは並列バイカッド・フィルタ(または「バイカッド」フィルタ)を備える。混合信号x(n)は、複数のバンドパスフィルタ31-1〜31-Nの各々に伝送される。
バンドパスフィルタ31-1〜31-Nの各々は、それぞれの帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)(ここで、指数i∈{1, ...,N}は、バンドパスフィルタ31-1〜31-Nの設定における固有のバンドパスフィルタを示す)によって定義されるように、混合信号x(n)の特定の周波数を通過させる。
複数の並列バンドパスフィルタ31から得られた各バンドパスフィルタリングされた信号は、対応するゲインパラメータgi(x(n);θ)に従って増幅され、増幅された信号を得る。ミキサー33は、複数の増幅された信号をミックスして、対象楽器の推定値s（caret）(n)を得る。
したがって、バンドパスフィルタ31-1〜31-Nは所望の対象楽器、ここではボーカルに一致する所定の周波数範囲を分離するために、DNN(図1の2)の制御下で混合信号x(n)をフィルタリングする。

図2において、パラメトリックイコライザ3は、複数のバンドパスフィルタを備える。あるいは、パラメトリックイコライザは例えば、バンドノッチ、バンドピーク、シェルビングフィルタのカスケード構造によって実現することができる。

図3は、人工ニューラルネットワークのプロセス、ここでは訓練されたDNNを示しており、これは、図1に詳細に記載されているように、混合オーディオ信号のパラメトリックイコライゼーションを実行するために、各パラメトリックフィルタiについて、ゲインパラメータgi(x(n);θ)、帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)を推定する。

連続時間入力信号x(t)および出力y(t)とすると、伝達関数H(s)は、入力のラプラス変換

の出力のラプラス変換

への線形マッピングであり、すなわち

である。

デジタルバイカッドフィルタ(または離散時間システム)の伝達関数は、z領域で表され、連続時間システムの伝達関数は上述のように、s領域で表される。
したがって、入力信号と出力との間の関係は、次の変換方程式を用いてs領域からz領域に変換される。

ここで、Tはサンプリング周期であり、1/Tはサンプリング周波数である。

上記の図2に記載された実施形態の信号処理で使用されるようなデジタルバイカッドフィルタ(または「バイカッド」フィルタ)は、２極および２つの零点を含む2次回帰線形フィルタである。このバイカッドの態様は、フィルタの伝達関数が2つの二次関数の比であるという事実を指す。このバイカッド伝達関数は、次式で与えられる。

ここで、[b₀, b₁, b₂, a₁, a₂]はデジタルバイカッドフィルタの連続係数である。

連続係数[b₀, b₁, b₂, a₁, a₂]と混合オーディオ信号のパラメトリックイコライゼーションを実行するためのパラメータ、すなわちゲインパラメータgi(x(n);θ)、帯域幅パラメータbwi(x(n);θ)、周波数パラメータfi(x(n);θ)の間の相関は、一連のバイカッドフィルタの場合に対して、以下のように与えられる。
式５は、次の形式で表すことができる。

式６からわかるように、a₀を1に正規化すると、伝達関数の特性を制御する5つのパラメータ[b₀, b₁, b₂, a₁, a₂]が効果的に得られる。

図2の実施形態では混合信号x(n)が、複数の並列バイカッド31-1〜31-Nに送信され、各バイクワッドフィルタは、フィルタパラメータのそれぞれの設定[b₀ ⁽ⁱ⁾, b₁ ⁽ⁱ⁾, b₂ ⁽ⁱ⁾, a₁ ⁽ⁱ⁾, a₂ ⁽ⁱ⁾]によって定義され、ここで、インデックス（指数）iは、特定のバイクワッドフィルタを示す。
DNNは、各バイカッドの帯域幅パラメータbwi(x(n);θ)および中心周波数fi(x(n);θ)を制御するように構成され、DNNは、それぞれのパラメータgi(x(n);θ)も制御する。

典型的には、パラメトリックイコライゼーションを実行するために、連続係数をこれらのパラメータと接続する中間パラメータαが導入される。中間パラメータαの数学的関数は、以下の式によって与えられる。

ここで、

であり、fi(x(n);θ)は、どの種類のフィルタが使用されるかに応じた、中心周波数またはコーナ周波数またはシェルフ中間点周波数であり、Fsは所定のサンプリング周波数であり、bwi(x(n);θ)は例えば、オクターブで表される帯域幅パラメータである。例えば、グラフィックイコライザには、典型的には3分の1オクターブのバンドパスフィルタが使用される。

なお、上記式(７)において、周波数fi(x(n);θ)は、一般的にシェルビングフィルタを用いている最低帯域と最高帯域に対して「シェルフ中間点周波数」と呼ぶ。その他の場合のバンドパスフィルタでは、周波数fi(x(n);θ)を「中心周波数」と呼ぶ。

特に、S領域における2次バンドパスフィルタの伝達関数から開始する

ここで、ω_o ⁽ⁱ⁾, Q⁽ⁱ⁾およびH_o ⁽ⁱ⁾は、それぞれi ^thバンドパスフィルタの中心角周波数、選択度、およびゲインである。式(４)からアナログ・デジタル・フィルタ変換を使用して、式(６)のような2次のデジタル・フィルタ、すなわちバイカッドフィルタを得る。ここで、フィルタ係数は、次式で与えられる。

ここで、f_s=1/Tは、サンプリング周波数を表す。バイカッドフィルタ係数を計算するためには、ω_o ⁽ⁱ⁾, Q⁽ⁱ⁾およびH_o ⁽ⁱ⁾が必要である。パラメトリックEQの場合、それらは、以下の関係を有するように、fi(x(n);θ)、bwi(x(n);θ)およびgi(x(n);θ)によるDNNによって直接提供される

グラフィックEQの場合、ω_o ⁽ⁱ⁾およびQ⁽ⁱ⁾は固定され、DNNは、

によってフィルタゲインH_o ⁽ⁱ⁾のみを制御する。

最後に、バンドパス/ローパス/ハイパスフィルタの場合、ゲインH_o ⁽ⁱ⁾ = 1の固定フィルタを設計することもでき、すなわち、フィルタ係数[b₀ ⁽ⁱ⁾, b₁ ⁽ⁱ⁾, b₂ ⁽ⁱ⁾, a₁ ⁽ⁱ⁾, a₂ ⁽ⁱ⁾]が固定され、事前計算され、ここでは、図2に示すように、フィルタの出力にゲインを乗算するだけであることに留意されたい。

図4は、音楽ソース分離を実行するための、混合オーディオ信号のイコライゼーションを制御するために使用される人工ニューラルネットワーク、ここでは訓練されたDNNのプロセスの別の実施形態を示す。本実施形態によれば、DNNは、混合オーディオ信号のグラフィックイコライゼーションを実行するために、イコライザのゲインパラメータg_iのみを制御する。
すなわち、「グラフィック」イコライザとして動作するこの実施形態によるイコライザは、ゲインgi(x(n);θ)がDNNによって制御されるいくつかのイコライザユニットiを備える(ここで、インデックスi∈{1,...,N}は、一連のイコライザユニットにおける特定のイコライザユニットを示す)。グラフィックイコライザのイコライザユニットiは例えば、混合信号をフィルタリングし、ゲインパラメータgi(x(n);θ)がDNNによって制御され、帯域幅および周波数パラメータbwi(x(n);θ)および中心周波数fi(x(n);θ)が、設計選択に従って選択され得る固定パラメータであるバイカッドとして実現され得る。
例えば、ほとんどのグラフィックイコライザは、7〜31の帯域を有する。各バンドの中心周波数は固定されている。業務用のサウンド補強グラフィックイコライザには、一般的に31バンドあり、各バンドの中心周波数は、隣接するバンドの中心周波数から1/3オクターブ離れている。そのため、3バンド(フロントパネルの3つのスライダ)で1オクターブの組み合わせ帯域幅をカバーする。
１オクターブあたり半分の帯域を持つグラフィックイコライザは、精度があまり必要でない場合に一般的に使用される。図4の実施形態のように、グラフィックイコライザは、人間ではなくDNNによって制御されるが、しかしながら、熟練者は、一般的なイコライザ設計に頼らなければならないが、熟練者のニーズに応じて、事前に定義された中心周波数および帯域幅を選択することができる。

上述の図1〜図4の実施形態は、音楽ソース分離（MSS）を実行するためにパラメトリックイコライザ(図1の参照番号3および図3を参照)またはグラフィックイコライザ(図4を参照)を制御するディープニューラルネットワーク(DNN)(図1の参照番号2を参照)を使用する時間領域音楽ソース分離(MSS)のプロセスを示す。

図5は、上記の図1〜4に記載された音楽ソース分離プロセスを制御するように構成されたDNNの実施形態をより詳細に説明したものであり、DNNは、長短期記憶(LSTM)として実現される。
長・短期記憶(LSTM)は、ディープラーニングの分野で使用される人工再帰型ニューラルネットワーク(RNN)アーキテクチャである。RNNは、センサから発せられる数値時系列データ、例えば、オーディオ信号をサンプリングすることによって得られるオーディオサンプルなどのデータシーケンス中のパターンを認識するように設計された人工ニューラルネットワークの一種である。
時間およびシーケンスを考慮に入れることによって、RNNアルゴリズムは、時間次元を有する。一般的なフィードフォワードニューラルネットワークとは異なり、LSTMは、長期依存性の学習を可能にするフィードバック接続を有する。

LSTMは、ゲートと呼ばれる構造によって調整される、いわゆるセル状態に情報を除去または追加する能力を有する。特に、LSTMは複数のLSTMユニットを含み、ここで、典型的なLSTMユニットは、入力ゲート、出力ゲート、忘却ゲート、およびセルを含む。セル状態は任意の時間隔にわたる値を記憶し、したがって、LSTMの長期記憶の態様を実施する。3つのゲートは、セルに出入りする情報の流れを調整する。

より詳細には、この場合、長短期記憶(LSTM)として実現されるDNNは時間領域において、サンプルの窓（ウィンドウ）上で、または代替的に、サンプルの処理されたバージョン、すなわち特徴上で動作する。
例えば、最後の512個のサンプル[x(n-511),..., x(n)]をDNN/LSTMへの入力ベクトルとして使用することができる。出力は、グラフィックカスケードイコライザを使用した場合の予測ゲインパラメータ(ゲイン)である。あるいは、(レイテンシを導入しないために)現在の時間ステップ（インスタンス）で使用すべきゲイン、帯域幅、中心周波数は、パラメトリック並列イコライザを使用する場合のDNN/LSTMの出力である。
さらに、将来のゲイン、帯域幅、周波数パラメータを予測することができ、その結果、大きなレイテンシを必要とすることなく、さらに大きな値を使用することができる。

次に、DNN/LSTMの出力を使用して、上述のようにフィルタ係数またはゲインを計算する。特に、パラメトリック並列イコライザを用いる場合、フィルタ係数の計算とゲインの調整にDNN / LSTMの出力を用いた。
さらに、音楽的ノイズを避けるために、512サンプルごとに計算される異なるフィルタ係数間のスムーズな遷移のために、線形補間が実行される。

この実施形態では、混合信号x(n)の前処理が実行される。混合信号x(n)は、任意のサンプリングレート、例えば、44.1kHz、48kHz、高解像度(Hi-Res)オーディオ用の96kHz、2.8224MHz(DSD)などを有する未加工のオーディオ混合信号データとすることができる。

準備段階として、ウィンドウ処理50が混合信号x(n)に適用され、オーディオウィンドウx₁, x₂,---,x_Tのシーケンスが得られる。オーディオウィンドウx₁, x₂, ---, x _Tのシーケンスは例えば、128個のオーディオサンプルのウィンドウサイズと64個のオーディオサンプルのホッピング距離に基づいて得られる。
この一連のオーディオウィンドウx₁, x ₂, ---, x_Tは、LSTM 51に入力され、t = 1, 2,..., Tであるx_tごとに出力o_tを得る。LSTMが反復する一連のオーディオウィンドウx₁, x₂, ---, x_Tは例えば、T=8のオーディオウィンドウの長さを有することができる。LSTM 51の出力oは、マッピング部52に供給され、各時間ステップtにおいて、所定のパラメータ、すなわち、ゲインパラメータgi(x(n);θ)、帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)の最適値を、LSTM 51の出力に基づいて計算する。

既に述べたように、一連のオーディオウィンドウは、128オーディオサンプルのウィンドウサイズと、64オーディオサンプルのホッピング距離、すなわち、典型的な値である50パーセント(50%)のオーバーラップとに基づいて得ることができる。
あるいは、入力領域内で重複し、ネットワークをより多くの順方向通過を行う代わりに、より高いホッピング距離を使用し、フィルタ係数の線形補間を行ってもよい。したがって、より少ない前方パス（フォワードパス）、したがって計算を含めて、より小さい時間分解能を達成することができる。

図6は、図5のLSTM51によって実行されるプロセスをより詳細に示したものである。LSTM51には、混合信号x(n)のウィンドウが入力される。

オーディオウィンドウは、LSTMに反復的に入力される一連のT特徴ベクトルx₁, x₂, ---, x_Tを構成する。LSTMは、入力特徴ベクトルx₁, x₂, ---, x_Tに対して反復処理を行い、一連の隠れ状態ベクトルh₁, h₂,..., h_Tを計算する。1 < t < Tである時間ステップtで、h_Tは以下の式で計算される。

ここで、Hは、隠れ層機能を表す。例えば、ゲート付き回帰型ユニット(GRU)セルは、Huy Phanらによって「Label-Tree Embeddings and Convolutional Neural Networks IEEE/ACM Transactions On Audio, Speech, And Language Processing, 2017に基づく改善されたオーディオシーン分類」に記載されているように適用される。

複数のRNN隠れ層、すなわち、レイヤ1〜レイヤLが積層されており、各層は、上述の図5で説明したように、複数の回帰型ユニットを含み、ディープRNNが合計でL個のレイヤを有すると仮定すると、下位レイヤの隠れ状態系列は、上位レイヤの入力系列として扱われる。
したがって、隠れ状態系列は、次式によって与えられる。

ここで、1 <l < L、特に、h⁰ _t = x_tは、最初のレイヤである。

すなわち、各層、ここではレイヤ1からレイヤLの各回帰型ユニットは、前のユニットから隠れ状態を受け、その隠れ状態自体と同様に出力を生成する。次いで、ディープRNNの出力o_tは、x_tごとに最後のレイヤLの隠れ状態h^L _tから決定される。

ここで、W_hyはLSTMの重み行列を示し、b_yはバイアスベクトルを示し、LはLSTM51の全層数である。

上述したように、DNN/LSTMの出力は、全てのバイカッドに対する3つのパラメータとすることができる。トレーニング中、DNN出力と最適フィルタ値(目標)との間の平均二乗誤差が最小化される。

次に、イコライジングパラメータの最適値、すなわち、ゲインパラメータgi(x(n);θ)、帯域幅パラメータbwi(x(n);θ)および周波数パラメータfi(x(n);θ)に、回路網出力o_tがマッピングされる(図5の計算ユニット52参照)。

前述のように、ネットワーク出力o_tは、アルゴリズム的待ち時間が低減されるように、LSTM51に入力される各オーディオウィンドウx₁、--、x_Tに対するL番目の層の出力である。
このような場合では、任意の時点ステップtでプロセスを停止し、その時間ステップまで出力o_tを使用してイコライジングパラメータを得ることができるが、これは、イコライジングパラメータの結果に不正確さを招く可能性がある。

あるいは、ワイドウィンドウを使用してフルソングを入力し、アウトプットを１つのo_tに取得してから、イコライジングパラメータを取得することもできる。

図7は、複数のソース(または楽器)を含む混合信号から、特定のソースを分離するための方法を視覚化するフロー図を示したものである。
ステップ70において、複数のソースを含む混合信号(図1のx(n)参照)が、オーディオインターフェースを介して受信される。ステップ71では、DNN(図1の参照番号2)が、混合信号に対して動作し、パラメトリックイコライザを制御するための最適なパラメータを推定する(図1参照)。
ステップ72において、ステップ71においてDNNによって得られたイコライジングパラメータに基づいて混合信号に対してパラメータイコライゼーションが実行され、イコライジングされた信号、ここでは例えばボーカルである対象ソースs(caret)(n)の推定値が得られる。

図8は、事前に決定されるイコライジングパラメータを推定するために、深層再帰型ニューラルネットワーク、すなわちLSTMをトレーニングするための方法を視覚化したフロー図を示したものである。
ステップ80において、分離された音源、例えば、ボーカルおよび楽器、すなわち、ボーカル、ベース、ドラム、その他の複数のサウンド信号が、独立して記録されるか、またはデータベースから独立して取得され、データベースに記憶され、したがって、混合物のグランドトゥルース（根本的な真実）分離が得られる。
ステップ81において、楽曲(図1参照)のような音声信号の混合物が、ステップ80において得られた分離ソースの音声信号を混合物することによって、または、例えばデータベースに記憶された楽曲のような混合物によって直接取得される。ステップ82において、得られた混合物およびグランドトゥルース分離されたソースに基づいて、学習データセットが生成される。
ステップ83において、人工ニューラルネットワーク、ここではDNN/LSTMを、学習データセットを用いてトレーニングする。任意のDNNトレーニング手順、例えば、確率的勾配降下(SGD)を使用して、選択された損失関数が最小化されるように、DNN/LSTMの最適重みを学習することができる。例えば、損失関数は、図1の現行のs（caret）(n)とグランドトゥルースs(n)との間の平均二乗誤差(MSE)とすることができる。

図９は、上述したようなパラメトリック/グラフィックEQに基づいて対象楽器を推定するプロセスを実装することができる電子機器の一実施形態を概略的に描写している。
電子機器700は、プロセッサとしてのCPU701を備える。電子機器700はさらに、プロセッサ701に接続されたマイクロフォン711、スピーカ710、および畳み込みニューラルネットワーク（またはRNN）部708を備える。プロセッサ701は例えば、図1および図4に関してより詳細に説明したプロセスを実現するパラメータおよび/またはグラフィックEQを実装することができる。
RNN部は例えば、ハードウェア内の人工ニューラルネットワーク、例えば、GPU上のニューラルネットワーク、または図1のLSTM 2などの人工ニューラルネットワークを実装する目的に特化された他の任意のハードウェアとしてもよい。ラウドスピーカ710は、所定の空間にわたって分散され、オーディオをレンダリングするように構成された1つ以上のラウドスピーカからなる。
電子機器700は、プロセッサ701に接続されたオーディオインターフェース706をさらに備える。オーディオインターフェース706は、ユーザがオーディオ信号を入力することができる入力インターフェースとして機能する。さらに、電子機器700は、プロセッサ701に接続されたユーザインタフェース709をさらに備える。このユーザインタフェース709は、マンマシンインタフェースとして機能し、管理者と電子システムとの間の対話を可能にする。
例えば、管理者は、このユーザインタフェース709を使用してシステムを構成することができる。電子機器701はさらに、イーサネット（登録商標）インターフェース707、Bluetooth（登録商標）インターフェース704、およびWLANインターフェース705を含む。これらのユニット704、705は、外部機器とのデータ通信のための入出力インターフェースとして機能する。
例えば、イーサネット(登録商標)、WLANまたはBluetooth（登録商標）接続を備えた、追加のラウドスピーカ、マイクロフォン、およびビデオカメラが、これらのインターフェース707、704、および705を介してプロセッサ701に連結されてもよい。

電子システム700は、データ記憶装置702とデータメモリ703(ここではRAM)とをさらに備える。データメモリ703は、プロセッサ701による処理のために、データまたはコンピュータ命令を一時的に保存またはキャッシュするように配置される。データ記憶装置702は、例えばマイクロフォン711から得られたセンサデータを記録するための、長期記憶装置として配置され、このデータは、CNN部708に提供され、すなわち、CNN部708から読み出される。
また、データ記憶装置702は、音声メッセージを表す音声データを記憶することができ、この音声データは、公共アナウンスシステムが、所定の空間内を移動する人に転送することができる。

なお、上記の説明は単なる構成例である。代替の構成は、追加のまたは他のセンサ、記憶装置、インターフェースなどを用いて実装されてもよい。

本実施形態は、方法ステップの例示的な順序付けを伴う方法を説明することを理解されたい。しかしながら、方法ステップの特定の順序付けは、例示のみを目的として与えられており、結合力のあるものとして解釈されるべきではない。

図9の電子システムをユニットに分割することは例示の目的のためだけに行われ、本開示は特定のユニットにおける機能のいかなる特定の分割にも限定されないことに留意されたい。例えば、回路の少なくとも一部は、それぞれのプログラムされたプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)等によって実現することができる。

本明細書に記載され、添付の特許請求の範囲に請求されるすべてのユニットおよびエンティティは別段の記載がない限り、例えばチップ上の集積回路ロジックとして実装することができ、そのようなユニットおよびエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実装することができる。

上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、および、そのようなコンピュータプログラムが提供される伝送、記憶装置、または他の媒体が、本開示の態様として想定されることが理解される。

なお、本技術は以下のような構成も取ることができる。
（１）複数のソースを備えるオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得し、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得する
ように構成された回路を具備する
電子機器。
（２）（１）に記載の電子機器であって、
前記ディープニューラルネットワークは、オーディオソース分離用の最適なパラメータを推定するために訓練されている
電子機器。
（３）（１）または（２）に記載の電子機器であって、
前記分離されたソースは、ボーカルである
電子機器。
（４）（１）から（３）のいずれか１つに記載の電子機器であって、
前記分離されたソースは、抑えられたボーカルを含む混合物である
電子機器。
（５）（１）から（４）のいずれか１つに記載の電子機器であって、
オーディオイコライゼーションを実行することは、パラメトリックイコライゼーションを実行することを含む
電子機器。
（６）（１）から（５）のいずれか１つに記載の電子機器であって、
オーディオイコライゼーションを実行することは、グラフィックイコライゼーションを実行することを含む
電子機器。
（７）（１）から（６）のいずれか１つに記載の電子機器であって、
最適な信号パラメータは、ゲインパラメータおよび／または周波数パラメータ、および／または帯域幅パラメータを含む
電子機器。
（８）（５）に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、前記イコライジングパラメータに基づいて、受信したオーディオ入力信号をバンドパスフィルタリングすることを含む
電子機器。
（９）（５）に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、受信したオーディオ入力信号を、複数のバンドパスフィルタに割り振って、複数のバンドパスフィルタされた信号を得ることをさらに含む
電子機器。
（１０）（９）に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、各バンドパスフィルタされた信号に、対応するゲインパラメータを乗算して、複数の増幅された信号を得ることをさらに含む
電子機器。
（１１）（６）に記載の電子機器であって、
グラフィックイコライゼーションを実行することは、バンドノッチフィルタリング、バンドピークフィルタリング、またはシェルビングフィルタリングを実行することを含む
電子機器。
（１２）複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得するステップと、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するステップと
を含む
方法。
（１３）命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに、
複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力させて、イコライジングパラメータを取得し、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行させて、分離されたソースを取得させる
コンピュータプログラム。

Claims

複数のソースを備えるオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得し、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得する
ように構成された回路を具備する
電子機器。
請求項１に記載の電子機器であって、
前記ディープニューラルネットワークは、オーディオソース分離用の最適なパラメータを推定するために訓練されている
電子機器。
請求項１に記載の電子機器であって、
前記分離されたソースは、ボーカルである
電子機器。
請求項１に記載の電子機器であって、
前記分離されたソースは、抑えられたボーカルを含む混合物である
電子機器。
請求項１に記載の電子機器であって、
オーディオイコライゼーションを実行することは、パラメトリックイコライゼーションを実行することを含む
電子機器。
請求項１に記載の電子機器であって、
オーディオイコライゼーションを実行することは、グラフィックイコライゼーションを実行することを含む
電子機器。
請求項１に記載の電子機器であって、
最適な信号パラメータは、ゲインパラメータおよび／または周波数パラメータ、および／または帯域幅パラメータを含む
電子機器。
請求項５に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、前記イコライジングパラメータに基づいて、受信したオーディオ入力信号をバンドパスフィルタリングすることを含む
電子機器。
請求項５に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、受信したオーディオ入力信号を、複数のバンドパスフィルタに割り振って、複数のバンドパスフィルタされた信号を得ることをさらに含む
電子機器。
請求項９に記載の電子機器であって、
パラメトリックイコライゼーションを実行することは、各バンドパスフィルタされた信号に、対応するゲインパラメータを乗算して、複数の増幅された信号を得ることをさらに含む
電子機器。
請求項６に記載の電子機器であって、
グラフィックイコライゼーションを実行することは、バンドノッチフィルタリング、バンドピークフィルタリング、またはシェルビングフィルタリングを実行することを含む
電子機器。
複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力して、イコライジングパラメータを取得するステップと、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行して、分離されたソースを取得するステップと
を含む
方法。
命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに、
複数のソースを含むオーディオ混合信号をディープニューラルネットワークに入力させて、イコライジングパラメータを取得し、
前記ディープニューラルネットワークから取得された前記イコライジングパラメータに基づいて、前記オーディオ混合信号に対してオーディオイコライゼーションを実行させて、分離されたソースを取得させる
コンピュータプログラム。