JP2021526334A

JP2021526334A - オーディオコンテンツの適応的なリミキシング

Info

Publication number: JP2021526334A
Application number: JP2020566904A
Authority: JP
Inventors: ステファンウーリッヒ; フランクギロン; ミハエルエネクル; トーマスケンプ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-06-01
Filing date: 2019-05-29
Publication date: 2021-09-30
Anticipated expiration: 2039-05-29
Also published as: CN112205006A; WO2019229199A1; CN112205006B; JP7036234B2

Abstract

本発明の電子機器は、オーディオソース分離に基づいて、入力信号（１）からの分離（２）を決定するように構成されたオーディオソース分離部（２０１）と、機械学習に基づいて、上記分離（２）および上記入力信号（１）からの上記オーディオソース分離の評価結果（３）を決定するように構成された評価部（２０３）と、上記分離（２）に基づいて、かつ、上記評価結果（３）に基づいて、出力信号（４）を決定するように構成された適応的なリミキシング／アップミキシング部（２０２）とを具備する。【選択図】図２

Description

本開示は概して、オーディオ処理の分野に関し、特に、オーディオソース分離および適応的なアップミキシング／リミキシングのための方法および装置に関する。

例えば、コンパクトディスク（CD）、テープ、インターネットからダウンロード可能なオーディオデータファイルの方式だけでなく、例えばデジタルビデオディスク等に記憶されたビデオのサウンドトラックの方式で、利用可能な多くのオーディオ（音声）コンテンツがある。典型的には、オーディオコンテンツは例えば、モノラルまたはステレオ設定用に、オーディオコンテンツの生成のために使用されたオリジナルオーディオソースからのオリジナルオーディオソース信号を保持することなく、既にミックスされている。
しかしながら、オーディオコンテンツのリミキシングまたはアップミキシングが想定される状況またはアプリケーションが存在する。例えば、オーディオコンテンツが提供するよりも多くの利用可能なオーディオチャンネルを有するデバイス上で、オーディオコンテンツが再生される状況では、例えば、ステレオデバイス上で再生されるモノラルオーディオコンテンツ、6つのオーディオチャンネルを有するサラウンドサウンドデバイス上で再生されるステレオオーディオコンテンツなどが挙げられる。
他の状況においては、オーディオソースの認識される空間的位置および広がりは修正されるべきであり、またはオーディオソースの認識される音量は修正されるべきである。

オーディオコンテンツをリミックス（リミキシング）するための技術は一般に存在するが、オーディオコンテンツをリミックスするための方法および装置を改善することが一般に望ましい。

第1の態様によれば、本開示は、オーディオソース分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離部と、機械学習に基づいて、上記分離および上記入力信号からの上記オーディオソース分離の評価結果を決定するように構成された評価部と、上記分離に基づいて、かつ、上記評価結果に基づいて、出力信号を決定するように構成された適応的なリミキシング／アップミキシング部とを具備する、電子機器を提供する。

さらなる態様によると、本開示は、オーディオソース分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離プロセスと、機械学習に基づいて、上記分離および上記入力信号からの上記オーディオソース分離の評価結果を決定するように構成された評価プロセスと、上記分離に基づいて、かつ、上記評価結果に基づいて、出力信号を決定するように構成された適応的なリミキシング／アップミキシングプロセスと、を含む方法を提供する。

さらなる態様によれば、本開示は命令を含むコンピュータプログラムを提供し、上記命令は、プロセッサ上で実行されると、上記プロセッサに、オーディオソース分離に基づいて入力信号からの分離を決定させ、機械学習に基づいて、上記分離および上記入力信号からの上記オーディオソース分離の評価結果を決定させ、適応的なリミキシング／アップミキシングによって、上記分離に基づいて、かつ、上記評価結果に基づいて、出力信号を決定させる。

本開示における実施形態は、添付の図面を参照して例として説明される。
オーディオソース分離(BSS)によるオーディオアップミキシング／リミキシングの一般的なアプローチを概略的に示す。ブラインド評価に基づく適応的なリミキシング／アップミキシングの方法を概略的に示す。ブラインド評価のプロセスを視覚化したものである。ソース分離プロセスのブラインド評価を実行するために、CNN（畳み込みニューラルネットワーク）をトレーニングするプロセスを概略的に示す。適応的な信号のリミキシング／アップミキシングの第1の実施形態を視覚化したものである。第1の実施形態による適応的な信号リミキシング／アップミキシングの方法を可視化したフロー図である。適応的な信号のリミキシング／アップミキシングの第2の実施形態を示す。適応的な信号のリミキシング／アップミキシングの第2の実施形態を示す。デジタル化モノポール合成アルゴリズムを適用したシステムの模式図である。適応的なリミキシング／アップミキシングシステムとして機能することができる電子システムの一実施形態を概略的に示す。

図１〜図６を参照して実施形態を詳細に説明する前に、いくつかの一般的な説明を行う。

本実施形態は、オーディオソースの分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離部と、機械学習に基づいて、上記分離および上記入力信号からのブラインドソース分離の評価結果を決定するように構成された評価部と、上記分離に基づいて、かつ、上記評価結果に基づいて、出力信号を決定するように構成された適応的なリミキシング／アップミキシング部とを含む、電子機器を開示する。

オーディオソースの分離では、多数のソース(例えば、楽器、音声等)を含む入力信号が分離するように分解される。オーディオソースの分離は、管理されていない(「ブラインドソース分離」と呼ばれる)場合もあれば、部分的に管理されている場合もある。「ブラインド」とは、ブラインドソース分離が、必ずしも元のソースに関する情報を持っているとは限らないことを意味する。
例えば、元の信号がいくつのオーディオソースを含んでいるか、または、入力信号のどの音情報がどの元のオーディオソースに属しているかを必ずしも知る必要はない。ブラインドソース分離の目的は、以前の分離を知らずに、元の信号が分離するように分解することである。ブラインドソース分離部は、当業者に知られている任意のブラインドソース分離技術を使用することができる。
(ブラインド)オーディオソース分離では、確率論的または情報理論的な意味で、またはオーディオオーディオソース信号に対する非負行列因数分解構造制約に基づいて、最小限に相関する、すなわち最大限に独立したオーディオソース信号を探索することができる。(ブラインド)ソース分離を実行するための方法は、当業者に知られており、例えば、主成分分析、特異値分解(独立成分分析、非負行列因数分解、人工ニューラルネットワークなど)に基づく。

いくつかの実施形態は、分離されたオーディオソース信号を生成するために、ブラインドソース分離を使用するが、本開示は、オーディオソース信号の分離のために、さらなる情報が使用されない実施形態に限定されず、いくつかの実施形態では、分離されたオーディオソース信号の生成のために、さらなる情報が使用される。
このようなさらなる情報は例えば、ミキシング処理に関する情報、入力オーディオコンテンツに含まれるオーディオソースのタイプに関する情報、入力オーディオコンテンツに含まれるオーディオソースの空間的位置に関する情報などである。

入力信号は、どのようなタイプのオーディオ信号でも構わない。入力信号は、アナログ信号、デジタル信号の形態であってもよいし、ハードディスク、コンパクトディスク、デジタルビデオディスク等から生じてもよいし、ウェーブファイル、mp3ファイル等のようなデータファイルであってもよく、本開示は、入力オーディオコンテンツにおいて特定のフォーマットに限定されない。
入力オーディオコンテンツは例えば、第1のチャンネル入力オーディオ信号および第2のチャンネル入力オーディオ信号を有するステレオオーディオ信号であってもよく、本開示は、2つのオーディオチャンネルを有する入力オーディオコンテンツに限定されない。他の実施形態では、入力オーディオコンテンツが5.1オーディオ信号のリミックスなど、任意の数のチャンネルを含むことができる。

入力信号は、1つ以上のソース信号を含み得る。特に、入力信号は、いくつかのオーディオソースを含み得る。オーディオソースは、音波を生成する任意のエンティティ、例えば、楽器、音声、複数のボーカル、例えば、シンセサイザから生じる人工的に生成されたサウンドなどであり得る。
入力オーディオコンテンツは、ミックスされたオーディオソースを表しすなわち含むことができ、これは、その音声情報が入力オーディオコンテンツの全てのオーディオソースに対して個別に利用可能ではないが、異なるオーディオソース用の音声情報が、例えば、少なくとも部分的にオーバーラップしているか、またはミックスされていることを意味する。

入力信号からのブラインドソース分離によって生成される分離は、例えば、ボーカル分離、低音（ベース）分離、ドラム分離、及び他の分離を含むことができる。ボーカル分離には人間の声に属する全ての音が含まれてもよく、低音分離には所定の閾値周波数未満の全てのノイズが含まれてもよく、ドラム分離には歌／楽曲のドラムに属する全てのノイズが含まれてもよく、他の分離には全ての残りの音が含まれてもよい。

また、この分離は、未処理のもの（残余）を含んでいてもよい。

オーディオソース分離、例えばブラインドソース分離(BSS)及びその後のリミキシング／アップミキシングを行うとき、評価部は、BSSがどの程度良好に作業するかを評価する。ブラインドオーディオソース分離の分離結果がわるい場合、最初に共に属する音(例えば、歌手の声)は、別の出力チャンネルで音声が誤って分離されているので、部屋内の異なるスピーカによって再生される異なる音節につながるように分割されることがある。
これが起こり、加えて、部屋のスピーカが異なる位置(例えば、サラウンドシステム)にある場合、出力音を聞いているユーザは、異なる方向から同じ音声の異なる音節を聞くことができる。これは歌手が動くか、または予期せぬ不思議な方向から音が来ると、ユーザが考えるという効果につながる可能性がある。

リミキシング／アップミキシングでは、ブラインドソース分離から得られた分離部が処理される。本実施形態におけるリミキシング／アップミキシングは、ブラインド評価によって提供される評価結果によって影響されるため、適応的である。例えば、「良好な」分離を表すと考えられる推定分離の場合、リミキシング／アップミキシングは、「不良な」分離と考えられる推定分離の場合よりも広範囲に及ぶ可能性がある。
本開示は、特定の数のオーディオチャンネルに限定されず、あらゆる種類のリミキシング、アップミキシング、およびダウンミキシングを実現することができる。

アップミキシング／リミキシングの質は、ソース分離の質に依存し得る。「低音」、「ドラム」、「その他」、および「ボーカル」などの機器へのオーディオソース分離の共通の問題の１つは、「その他」および「ボーカル」が明確に分離されていないことである。例えば、フルートまたはシンセサイザ信号の一部が、「ボーカル」に誤って分離される可能性がある。
分離が失敗したことにリミキシング／アップミキシングシステムが気付かない場合、聴取者は迷惑なアーチファクト（加工）を知覚する。例えば、「ボーカル」が聴取者の前に配置され、「その他」が聴取者の後ろに配置される場合、フルート／シンセサイザは、前後に移動していると知覚される可能性がある。

評価部は例えば、人工ニューラルネットワーク(ANN)を含むことができる。評価部は例えば、当業者に知られているすべての構築方法によって実現することができる人工ニューラルネットワークを含むことができる。人工ニューラルネットワークANNは例えば、畳み込みニューラルネットワーク(CNN)であってもよい。あるいは、人工ニューラルネットワーク(ANN)が、反復ニューラルネットワーク、または全結合型ニューラルネットワークなどであってもよい。
特に、ANNは、CMOS(Complementary metal-oxide-semiconductor)、ナノデバイス、GPU(Graphics processing unit)、トランジスタなどで作成された1つまたは複数の計算デバイスとして実現することができる。

評価部は、オーディオソース分離を評価するように訓練されていてもよい。評価部の訓練は例えば、機械学習プロセスによって、例えば、当業者に知られている任意の技法または方法、特に、教師あり学習、教師なし学習(ヘビアン学習)、強化学習などに従って実行することができる。
評価部は、評価結果として、推定信号歪み比(SDR)、推定画像空間歪み比(ISR)、推定信号干渉比(SIR)および／または推定信号アーチファクト比(SAR)を決定するように構成されてもよい。あるいは、評価部が、人間によって知覚される分離の質の推定値である主観的な品質尺度、例えば、人間の意見スコアを決定するように構成されてもよい。

適応的なリミキシング／アップミキシング部は、評価結果に従ってリミキシング／アップミキシングの程度を決定するように構成されてもよい。例えば、以下に記載される実施形態は、スピーカを動的に異なるように駆動するために、分離の程度を評価し、それから追従することを可能にする。
例えば、分離がわるい場合、リスニングシステムは、すべての音がすべての方向から来るので、同じ音量ですべてのスピーカを駆動することによって、誤った方向からの聴覚音の影響を抑え、そのサラウンド効果を減らすことができる。

リミキシング／アップミキシング性能は、ソース分離が評価された場合に上がり得る。オーディオソース分離が良好である場合、リミキシング／アップミキシングは、より積極的であり得る(すなわち、分離をさらに離して配置し、音に包まれた感じを増大させる)。ソース分離が不十分である場合、リミキシング／アップミキシングは、より保守的であり得る。

例えば、適応的なリミキシング／アップミキシング部は、上記評価結果に基づいて仮想サウンドソースの位置を決定するように構成されてもよい。リミキシング／アップミキシングは例えば、機器を新しい位置に配置することを含んでもよい。例えば、ステレオの歌は、「低音」、「ドラム」、「その他」、および「ボーカル」に分離され、5.1システムにアップミックスされ、ここで、例えばピアノ、ギター、シンセサイザ等を含む「その他」が聴者の背中に配置される。
これにより、聴者の音に包まれた感じを増大させることができる。

適応的なリミキシング／アップミキシング部は、上記評価結果に基づいて、上記分離のうちの１つ以上に適用されるオーディオ効果の量を決定するように構成され得る。

適応的なリミキシング／アップミキシング部は、上記評価結果に基づいて、出力信号をレンダリングするために使用される出力チャンネルの数を決定するように構成され得る。

また、本実施形態は、オーディオソース分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離プロセスと、機械学習に基づいて、上記分離および上記入力信号からの上記オーディオソース分離の評価結果を決定するように構成された評価プロセスと、上記分離に基づいて、かつ上記評価結果に基づいて出力信号を決定するように構成された適応的なリミキシング／アップミキシングプロセスとを含む方法を開示する。
また、本実施形態は、上記および以下に詳細に記載される同図に記載されるすべてのプロセス態様を有する方法を含む。

さらなる態様によれば、本開示は、命令を含むコンピュータプログラムを提供し、上記命令は、プロセッサ上で実行されると、上記プロセッサに、オーディオソース分離に基づいて入力信号からの分離を決定させ、機械学習に基づいて、上記分離および上記入力信号からの上記オーディオソース分離の評価結果を決定させ、適応的なリミキシング／アップミキシングによって、上記分離に基づいて、かつ、上記評価結果に基づいて、出力信号を決定させる。
また、本実施形態は、上記および以下でより詳細に説明される図において説明されるすべてのプロセス態様を実装するコンピュータプログラムを備える。そのようなプログラムは、コンピュータ、プロセッサ、タブレット、スマートフォン、ハイファイユニット、または当業者が選択したい任意の他のデバイス上で実行することができる。

本明細書で使用される「信号」という用語は、任意の特定のフォーマットに限定されず、アナログ信号、デジタル信号、またはデータファイルに記憶される信号、または任意の他のフォーマットとすることができる。

以下、図面を参照して実施の形態について説明する。

＜ブラインドソース分離(BSS)によるオーディオアップミキシング／リミキシング＞
図1は、ブラインドソース分離(BSS)によるオーディオアップミキシング／リミキシングの一般的なアプローチを概略的に示したものである。

第1に、2つのチャンネル1a、1bを含むステレオソースオーディオ信号1と、複数のオーディオソース1、ソース2、…ソースK(例えば、楽器、音声など)からのオーディオとを「分離」するように分解するソース分離(「デミキシング」とも呼ばれる)が実行される。ここでは、ソース推定値2a〜2dに分解され、ここで、Kは整数であり、オーディオソースの数を示す。
オーディオソース信号の分離は例えば、オーディオソースのミキシングのために不完全であり得るので、分離されたオーディオソース信号2a、…、2dに加えて残留信号3(r(n))が生成される。この残留信号は例えば、入力オーディオコンテンツと、全ての分離されたオーディオソース信号の和との間の差を表すことができる。
各オーディオソースによって発せられるオーディオ信号は、入力オーディオコンテンツ1において、そのそれぞれの記録された音波によって表される。ステレオまたはサラウンドサウンド入力オーディオコンテンツなど、2つ以上のオーディオチャンネルを有する入力オーディオコンテンツの場合、オーディオソースのための空間情報も、典型的には、入力オーディオコンテンツ（例えば、異なるオーディオチャンネルに含まれるオーディオソース信号の割合に）に含まれるか、または、によって表される。
入力オーディオコンテンツ1の分離されたオーディオソース信号2a〜2dおよび残留信号3への分離は、ブラインドソース分離、またはオーディオソースを分離することができる他の技法に基づいて実行される。

第2のステップでは、分離2a〜dおよび実行可能な残留信号3がリミキシングされ、新たなラウドスピーカ信号4、ここでは5つのチャンネル4a、…4eを含む信号にレンダリング（書き出し）される。分離したオーディオソース信号および残留信号に基づいて、空間情報に基づいて分離したオーディオソース信号および残留信号をミックスすることにより、出力オーディオコンテンツが生成される。
出力オーディオコンテンツは、図1に例示的に示され、参照番号4で示されている。

以下では、入力オーディオコンテンツの音声チャンネル数をM_jnと呼び、出力オーディオコンテンツの音声チャンネル数をM_outとする。図1の例における入力オーディオコンテンツ1は、2チャンネルlaおよびlbを有し、かつ、図1の例における出力オーディオコンテンツ4は、5チャンネル4a、・・・、4eを有するので、M_jn = 2及びM_out = 5である。
図1の手法は一般に、リミキシング（リミックス）と呼ばれ、特に、M_jn < M_outであればアップミキシングと呼ばれる。図1の例では、入力オーディオコンテンツ1の音声チャンネル数M_in = 2が出力オーディオコンテンツ4の音声チャンネル数M_out = 5よりも少ないため、ステレオ入力オーディオコンテンツ1から5.0サラウンド音声出力オーディオコンテンツ4へのアップミキシングとなる。

＜ブラインド評価に基づく適応的なリミキシング／アップミキシング＞
図2は、ブラインド評価に基づく適応的なリミキシング／アップミキシングの方法を概略的に示したものである。この方法は、オーディオソース分離の処理201、ブラインド評価の処理203、および適応的なリミキシング／アップミキシングの処理202を含む。
M_inチャンネルの入力信号は、上記の図1に関して説明したように、ソース分離201に入力され、M_sepに分離するように分解される。分離された信号2は、適応的なリミキシング／アップミキシング202およびブラインド評価203に伝送される。

ブラインド評価203は、入力信号1と分離信号2とを入力として受信するように構成されている。

分離された信号2と入力信号1とを比較することによって、ブラインド評価203は、ソース分離プロセスの質を推定する。ブラインド評価203の質は、推定値、すなわち、ここでは、推定された信号対歪み比SDRによって表される。適応的なリミキシング／アップミキシング202は、推定されたSDRに基づいて、分離された信号をリミキシング／アップミキシングして、M_outチャンネルを有する出力信号4を得る。
すなわち、リミキシング／アップミキシング202は、ブラインド評価203によって推定されるオーディオソース分離202の質に順応する。すなわち、適応的なリミキシング／アップミキシング202は、推定されたSDRに従ってリミキシング／アップミキシングのパラメータを決定することができる。
したがって、図2のプロセスは適応的であり、ブラインド評価器を使用してその設定を決定するオーディオリミキシング／アップミキシングシステムを提供する。例えば、(4つの楽器全てにわたって平均される)平均SDRが低い場合、分離は、より密接に一緒に配置され得る。さらに、アーチファクト(例えば、音楽ノイズ)の知覚は、分離に残響（リバーブ）を加えることによって低減することができる。
さらなる例として、いくつかのソース分離アルゴリズムからの分離を選択利用することができるリミキシング／アップミキシングシステムが提供され得る。このシナリオでは、いくつかのソース分離アルゴリズムを並列に実行することができ、ブラインド展開の評価結果に従って、最良のものを選択することができる。

図2の実施形態において、ブラインド評価203の結果は、信号対歪み比SDRである。

加えて、または代替的に、ブラインド評価203の処理は、画像空間歪み比(ISR)、信号対干渉比(SIR)および／または信号対アーチファクト比(SAR)を決定することができる。さらに、時間または周波数領域における平均二乗誤差が、別の客観的な品質尺度として使用されてもよい。また、主観的スコアは、評価者によって推定され得る。これらのメカニズムは当業者に知られている。

＜人工ニューラルネットワーク(ANN)を用いたブラインド評価＞
図3は、ブラインド評価のプロセスを視覚化したものである。ブラインド評価のために、人工ニューラルネットワーク(ANN)203、ここでは例えば畳み込みニューラルネットワーク(CNN)が使用されるが、これはCNNがパターン認識および値推定の良好な能力を有するからである。CNN 203は、評価結果3として、信号対アーチファクト比(SAR)、信号対歪比(SDR)、画像対空間歪比(ISR)、および信号対干渉比(SIR)を推定するために訓練されている。
CNN 203は、(図2のブラインドソース分離202から)入力信号1(複数ミックス)および分離2を入力として受信する。分離2は例えば、楽器として、4つの信号、音声信号、ドラム信号、低音信号、および残留が含まれる他の信号を含むことができる。評価結果として、CNN 203は、推定信号対アーチファクト比SAR、推定信号対歪比SDR、推定画像対空間歪比ISR、および推定信号対干渉比SIRの少なくとも1つを、各機器に対して出力する。
ブラインド評価器203の出力を使用して、リミキシング／アップミキシングシステムは、上記の図2に記載されるように適合され得る。

図4は、ソース分離プロセスのブラインド評価を実行するためにCNNをトレーニングするプロセスを概略的に示したものである。
CNN 203は、ブラインド分離プロセス201の結果2の信号対歪み比SDR 3を推定するように訓練される。トレーニング位相では、ブラインドソース分離201の全体的な性能測定として信号対歪比SDR 3を使用する。
トレーニング位相の間、CNN 203は、真のソースS_ij(t)が既知である多数の入力信号1(ミックス)でトレーニングされる。例えば、入力信号1(ミックス)は、予め定義された個数の真のソースS_ij(t)(楽器)をミキシング204することによって生成される。ブラインドソース推定201は、推定された分離2(推定されたソース信号S(caret)_ij(t))を得るために、入力信号1(ミックス)に対して実行される。

真のオーディオソースS_ij(t)(機器)および推定されたオーディオソース信号S(caret)_ij(t)に基づいて、ブラインドオーディオソース分離の質が処理205で決定され、この質は、ここでは信号対歪み比SDR 3として表される。

iがチャンネルインデックスであり、かつ、jが機器／ソースインデックスであると仮定すると、信号対歪み比SDR 3は以下の式で定められる。

ここで、S_ij(t)およびS(caret)_ij(t)が、真のおよび推定されたソース信号であり、M_in は総チャンネル数である。通常、M_jn = 2 である。つまり、ソース分離の入力ミックスはステレオである。
算出された信号対歪み比SDR 3は、学習データとしてブラインド評価CNN 203に送られる。すなわち、訓練中に、CNN 203は、入力として、ブラインドソース分離201から得られた入力信号1(ミックス)および推定ソース信号S(caret)ij(t)を受信する。
十分な学習データが使用される場合、CNNは、上記の図2および3の実施形態に記載されるように、未知の分離(未知のS(caret)ij)についてのSDRを確実に推定することができる。したがって、ブラインド評価器を実装するCNNは、ミックス信号および正解の（Ground Truth）分離からトレーニングフェーズ中に学習される。

トレーニングされたCNN 203を使用してブラインド評価を実行する場合、トレーニング後の真のソースSijが未知であるため、上記の式は、ブラインド評価には使用されない。

＜適用＞
図5aは、適応的な信号リミキシング／アップミキシングの実施形態を視覚化したものである。
2つの仮想サウンドソース51、52を有するサウンドシステムが提供され、仮想サウンドソース51はユーザ31の前に位置し、仮想サウンドソース52はユーザ31の後ろに位置する。本実施の形態では、wo出力チャンネル(M_out = 2)が定義されている。
適応的なリミキシング／アップミキシング処理(図2の202)は、「低音（ベース）」チャンネル、「ボーカル」チャンネル、および「ドラム」チャンネルを、ユーザ31の前の第1のサウンドソース51に送信する。また、ユーザ31の背後の仮想サウンドソース52に「その他」のチャンネルを送信する。

ブラインド評価(図2の203)によって提供される推定SDR値に従って、仮想サウンドソース51と仮想サウンドソース52との間の仮想距離dは、図5bに示される関数に従って決定される。仮想サウンドソースとユーザ31との間の仮想距離は、距離dに従ってそれぞれの仮想サウンドソースを配置することによって達成することができる。
仮想サウンドソースは例えば、図8に関して以下により詳細に説明されるように、3D音声レンダリング技術によって生成されてもよい。

図5bは、適応的な信号のリミキシング／リミキシングのために図5aの実施形態によって使用される関数を視覚化したものである。

この関数は、推定されたSDRの関数として図5aの2つの仮想サウンドソース51および52の距離dを示す。高いSDR値の場合、距離dは、低いSDR値の場合よりも大きく選択される。

図6は、第1の実施形態による適応的な信号リミキシング／アップミキシングの方法を可視化したフロー図である。
ステップS601では、入力信号と、ブラインドオーディオソース分離から得られた機器／オーディオソースの推定分離とが受信される。ステップS602において、ブラインド分離結果は、受信された入力信号および推定された分離に基づいて推定されたSDRを決定することによって評価される。
ステップS603において、機器／オーディオソースの位置が、SDRに従って決定される。ステップS604において、推定された分離は、機器／ソースの計算された位置に基づいてリミックス／アップミックスされる。ステップS605では、リミックス／アップミックスされた信号は、3Dサウンドシステムでレンダリングされる。

図7a、7b、7c及び7dは、適応的な信号リミキシング／アップミキシングのさらなる実施形態を示したものである。
この実施形態における適応的な信号リミキシング／アップミキシングでは、適応的なリミキシング／アップミキシングが、ブラインド評価によって得られる特定のSDR値に反応するより多くの選択肢を有する。

図7aは、良好な(高い)推定SDR値に対するサウンドミキシングを示す。
図7aに示すように、適応的なリミキシング／アップミキシング(図2の202)は、音が4つの異なる方向から来るであろう印象を与える出力信号を計算する。この場合、適応的なリミキシング／アップミキシングは、前方の音の方向を使ってボーカルを出力し、後方の方向を使って低音およびその他を出力し、その一方で、横の音方向を使ってドラムを出力する。
図7aの場合、ブラインド評価(図3の203)によって得られる推定SDR値は高く、これにより、各分離チャンネルに誤って帰するノイズは実質的に存在しないと仮定できる。そして、適応的なリミキシング／アップミキシングは、4つの仮想サウンドソースすべてを、互いにd₁、d ₂、d ₃およびd₄の長い距離にセットすることを決定する。

図7bの場合は、ブラインド評価によって与えられた推定SDR値は低く、適応的なリミキシング／アップミキシングは、4つの仮想サウンドソースすべてを、互いに短い距離d₁、d₂、d₃およびd₄にセットすることを決定する。

図7cは、小さな推定SDRに対する代替の可能な反応を示す。
前述のように、適応的なリミキシング／アップミキシングは、音が4つの異なる方向から来る印象を与える出力信号を生成する。推定されたSDRが小さい場合、全てのボーカル−サウンドが実際にボーカル分離に分離されるかどうかは不確定である。ソース分離がわるい場合、他のチャンネルとボーカルチャンネルとは、両方が同様の周波数を有するので、重なり合うことがある。
したがって、BSSが低い推定SDRで評価される場合、音の方向の切り替えまたは移動の影響を回避することができるように、同じ方向／仮想サウンドソースから他のチャンネルおよびボーカルチャンネルを出力することが推奨され得る。図7cに示すように、適応的なリミキシング／アップミキシングは、ブラインド評価結果に基づいて決定され、ユーザの前方から出てくるドラム、その他およびボーカル、ならびに、後方から出てくる低音だけの、2つの異なる方向からしか音が出ない印象を与える出力信号を生成する。

図7dは、小さいSDR値に対する異なる可能な反応を示す。前述したように、他のチャンネルとボーカルのチャンネルが重なっていることがあり、歌手が歌いながらステージに進む印象があり、ときには前方から、ときには後から声が聞こえてくることもある。この印象は、ボーカルに対する残響（リバーブ）またはエコー効果を使用することによって低減することができる。
残響またはエコーは、ボーカルに空間を追加し、ボーカルをより広くし、したがって、ユーザがボーカルが来る方向を決定することをより困難にする(残響は、反射によって引き起こされる他の空間の方向から音声が来る印象を与える)。この効果は、誤ったオーディオソース分離から生じる効果をマスクする（隠す）ことができる。
したがって、適応的なリミキシング／アップミキシングは、ブラインド推定で得られた推定SDRに基づいて、ボーカルの残響量を適応させることができる。

＜デジタル化されたモノポール合成のためのシステム＞
図8は、整数遅延の場合にデジタル化されたモノポール合成アルゴリズムに基づく方法を実施するシステムの実施形態を提供する。

このシステムの理論的背景は、参照により本明細書に組み込まれる米国特許出願公開第2016/0037282号明細書により詳細に記載されている。

米国特許出願公開第2016/0037282号明細書の実施形態において実施される技術は、定義された音場を生成するために制限された数の音響エンクロージャ（包囲）を使用する、ウェーブフィールド（波動場）合成に概念的に類似している。しかしながら、実施形態の生成原理の基本的な基礎は、合成が音場を正確にモデル化することを試みるのではなく、最小二乗法に基づくので、具体的である。

目標音場は、定義された目標位置に配置された少なくとも1つのターゲットモノポールとしてモデル化される。一実施形態では、目標音場が1つの単一のターゲットモノポールとしてモデル化される。他の実施形態では、目標音場がそれぞれの定義されたターゲット位置に配置された複数のターゲットモノポールとしてモデル化される。ターゲットモノポールの位置は、移動していてもよい。
例えば、ターゲットモノポールは、減衰されるべきノイズ源の動きに適応し得る。目標音場を表すために複数のターゲットモノポールが使用される場合、以下に記載されるような定義された合成モノポールの設定に基づいて、ターゲットモノポールの音を合成する方法が、各ターゲットモノポールに対して独立して適用されてもよく、各ターゲットモノポールに対して得られた合成モノポールの寄与が、目標音場を再構成するために合計されてもよい。

ソース信号x(n)は、z^-n Pでラベル付けされた遅延部、アンプユニット（増幅部）に供給される。ここで、p =1,.., Nは、ターゲットモノポール信号を合成するために使用されるそれぞれの合成モノポールのインデックスである。
この実施形態による遅延部および増幅部は、米国特許出願公開第2016/0037282号明細書の式(117)を適用して、ターゲットモノポール信号を合成するために使用される結果の信号y_p(n)=s_p(n)を計算することができる。結果として生じる信号s_p(n)は、電力増幅され、スピーカに供給される。

したがって、この実施形成態では、合成がソース信号xの遅延・増幅された成分の形式で実行される。

この実施形態によれば、合成モノポールインデックスpに対する遅延n_pは、ターゲットモノポールr ₀ と生成器r _p の間のユークリッド距離r=R_po=| r_p - r |に対する音の伝搬時間に対応している。

また、本実施の形態によれば、増幅率a_p=ρc／R_poは、距離r = R_poに反比例する。

このシステムの代替実施形態では、米国特許出願公開第2016/0037282号明細書の式(118)による修正増幅率を使用することができる。

このシステムのさらなる別の実施形態では、増幅を修正するために、米国特許出願公開第2016/0037282号明細書の図9に関して記載されているマッピング因子を使用することができる。

＜実装＞
図9は、上述のブラインド評価に基づく適応的なリミキシング／アップミキシングのプロセスを実施することができる電子システムの実施形態を概略的に示したものである。
電子システム900は、プロセッサとしてのCPU 901を備える。電子機器900は、マイクロホンアレイ910、ラウドスピーカアレイ911、およびプロセッサ901に接続される畳み込みニューラルネットワーク部920をさらに備える。プロセッサ901は例えば、図2に関してより詳細に説明したプロセスを実現するブラインドソース分離部、適応的なリミキシング／アップミキシング部、および／またはブラインド評価部を実装することができる。
CNN部は例えば、ハードウェア内の人工ニューラルネットワーク、例えば、GPU上のニューラルネットワーク、または人工ニューラルネットワークを実装する目的に特化された任意の他のハードウェアであってもよい。ラウドスピーカアレイ911は、所定の空間上に分散され、上述の実施形態で説明したように3Dオーディオをレンダリングするように構成された1つ以上のラウドスピーカから構成される。
電子機器900はさらに、プロセッサ901に接続されるユーザインタフェース912を備える。このユーザインタフェース912は、マンマシンインタフェースとして機能し、管理者と電子システムとの間の対話を可能にする。例えば、管理者は、このユーザインタフェース912を使用してシステムを構成することができる。
電子システム900はさらに、イーサネット(登録商標)インタフェース921、Bluetooth(登録商標)インタフェース904、およびWLANインタフェース905を含む。これらのユニット（部）904、905は、外部機器とのデータ通信のための1／Oインタフェースとして働く。例えば、イーサネット(登録商標)、WLANまたはBluetooth(登録商標)接続を有する追加のスピーカ、マイクロフォン、およびビデオカメラを、これらのインタフェース921、904、および905を介してプロセッサ901に連結することができる。

電子機器900は、データ記憶装置902と、データメモリ903(ここではRAM)とをさらに備える。データメモリ903は、プロセッサ901による処理のために、データまたはコンピュータ命令を一時的に保存またはキャッシュするように配置される。
データ記憶装置902は長期記憶装置として、例えば、マイクロホンアレイ910から得られたセンサデータを記録し、CNN部920に提供またはCNN部920から検索されるために、配置される。また、データ記憶装置902は、公告システムが予め定義された空間内を移動する人に転送することができる音声メッセージを表す音声データを記憶することができる。

畳み込みニューラルネットワークを使用するブラインド評価のプロセスは、ニューラルネットワーク920によって実施することができ、あるいは、プロセッサ901上で、畳み込みニューラルネットワークのソフトウェア実現を使用して実施することができる。
人工ニューラルネットワークは上記の実施形態で説明したように、畳み込みニューラルネットワークとして、または深層ニューラルネットワーク、反復ニューラルネットワークなどのニューラルネットワークによって実現することができる。

なお、上記の説明は単なる構成例である。代替の構成は、追加のまたは他のセンサ、記憶デバイス、インタフェースなどを用いて実装されてもよい。

実施形態は、方法ステップの例示的な順序付けを伴う方法を説明することを理解されたい。しかしながら、方法ステップの特定の順序付けは、例示の目的のみのために与えられ、拘束力のあるものとして解釈されるべきではない。

また、図9の電子システムをユニットに分割することは、例示の目的のためだけに行われ、本開示は、特定のユニットにおける機能のいかなる特定の分割にも限定されないことにも留意されたい。例えば、回路の少なくとも一部は、それぞれプログラムされたプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、専用回路等によって実現することができる。

本明細書に記載され、添付の特許請求の範囲に記載されたすべてのユニットおよびエンティティは別段の記載がない限り、例えばチップ上の集積回路ロジックとして実装することができ、そのようなユニットおよびエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実装することができる。

上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、およびそのようなコンピュータプログラムが提供される伝送、記憶、または他の媒体が、本開示の態様として想定されることが理解される。

なお、本技術は以下のような構成も取ることができる。
（１）オーディオソース分離に基づいて、入力信号（１）からの分離（２）を決定するように構成されたオーディオソース分離部（２０１）と、
機械学習に基づいて、前記分離（２）および前記入力信号（１）からの前記オーディオソース分離の評価結果（３）を決定するように構成された評価部（２０３）と、
前記分離（２）に基づいて、かつ、前記評価結果（３）に基づいて、出力信号（４）を決定するように構成された適応的なリミキシング／アップミキシング部（２０２）と
を具備する
電子機器。
（２）（１）に記載の電子機器であって、
前記評価部（２０３）は、人工ニューラルネットワークを含む
電子機器。
（３）（１）または（２）に記載の電子機器であって、
前記評価部（２０３）は、オーディオソース分離を評価するために訓練されている
電子機器。
（４）（１）から（３）のいずれか１つに記載の電子機器であって、
前記評価部（２０３）は、評価結果（３）として、推定信号対歪み比(SDR)、推定画像空間対歪み比(ISR)、推定信号対干渉比(SIR)および／または推定信号対アーチファクト比(SAR)を決定するように構成されている
電子機器。
（５）（１）から（４）のいずれか１つに記載の電子機器であって、
前記評価部（２０３）は、評価結果（３）として、人間の意見スコアで推定するように構成されている
電子機器。
（６）（１）から（５）のいずれか１つに記載の電子機器であって、
前記評価結果（２０３）は、いくつかのソース分離アルゴリズムから特定のソース分離アルゴリズムを選択するように用いられる
電子機器。
（７）（１）から（６）のいずれか１つに記載の電子機器であって、
前記入力信号（１）は、１つ以上のソース信号（S_ij(t)）を含む
電子機器。
（８）（１）から（７）のいずれか１つに記載の電子機器であって、
前記ソース信号（S_ij(t)）は、ボーカルの信号、低音の信号、またはドラムの信号のうちの少なくとも１つを含む
電子機器。
（９）（１）から（８）のいずれか１つに記載の電子機器であって、
前記評価部（２０３）は、

に基づいて、推定信号歪み比（SDR）を決定するように構成されており、
ここで、iはチャンネルインデックスであり、jはソースインデックスであり、S_ij(t)およびS(caret)_ij(t)は、真のおよび推定されたソース信号であり、M_in は総チャンネル数である
電子機器。
（１０）（１）から（９）のいずれか１つに記載の電子機器であって、
前記分離（２）は残留を含む
電子機器。
（１１）（１）から（１０）のいずれか１つに記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部（２０２）は、前記評価結果（３）に従ってリミキシング／アップミキシングの程度を決定するように構成されている
電子機器。
（１２）（１）から（１１）のいずれか１つに記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部（２０２）は、前記評価結果（３）に基づいて、仮想サウンドソース（５１、５２）の位置を決定するように構成されている
電子機器。
（１３）（１）から（１２）のいずれか１つに記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部（２０２）は、前記評価結果（３）に基づいて、前記分離（２）のうちの１つ以上に適用されるオーディオ効果の量を決定するように構成されている
電子機器。
（１４）（１）から（１３）のいずれか１つに記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部（２０２）は、前記評価結果（３）に基づいて、前記出力信号（４）をレンダリングするために使用される出力チャンネルの数を決定するように構成されている
電子機器。
（１５）（１）から（１４）のいずれか１つに記載の電子機器であって、
前記オーディオソース分離は、ブラインドソース分離に基づいたものである
電子機器。
（１６）オーディオソース分離に基づいて、入力信号（１）からの分離（２）を決定するように構成されたオーディオソース分離プロセス（２０１）と、
機械学習に基づいて、前記分離（２）および前記入力信号（１）からの前記オーディオソース分離の評価結果（３）を決定するように構成された評価プロセス（２０３）と、
前記分離（２）に基づいて、かつ、前記評価結果（３）に基づいて、出力信号（４）を決定するように構成された適応的なリミキシング／アップミキシングプロセス（２０２）と
を含む
方法。
（１７）命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに、
オーディオソース分離に基づいて入力信号（１）からの分離（２）を決定させ、
機械学習に基づいて、前記分離（２）および前記入力信号（１）からの前記オーディオソース分離の評価結果（３）を決定させ、
適応的なリミキシング／アップミキシングによって、前記分離（２）に基づいて、かつ、前記評価結果（３）に基づいて、出力信号（４）を決定させる
コンピュータプログラム。

Claims

オーディオソース分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離部と、
機械学習に基づいて、前記分離および前記入力信号からの前記オーディオソース分離の評価結果を決定するように構成された評価部と、
前記分離に基づいて、かつ、前記評価結果に基づいて、出力信号を決定するように構成された適応的なリミキシング／アップミキシング部と
を具備する
電子機器。
請求項１に記載の電子機器であって、
前記評価部は、人工ニューラルネットワークを含む
電子機器。
請求項１に記載の電子機器であって、
前記評価部は、オーディオソース分離を評価するために訓練されている
電子機器。
請求項１に記載の電子機器であって、
前記評価部は、評価結果として、推定信号対歪み比(SDR)、推定画像空間対歪み比(ISR)、推定信号対干渉比(SIR)および／または推定信号対アーチファクト比(SAR)を決定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記評価部は、評価結果として、人間の意見スコアで推定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記評価結果は、いくつかのソース分離アルゴリズムから特定のソース分離アルゴリズムを選択するように用いられる
電子機器。
請求項１に記載の電子機器であって、
前記入力信号は、１つ以上のソース信号を含む
電子機器。
請求項７に記載の電子機器であって、
前記ソース信号は、ボーカルの信号、低音の信号、またはドラムの信号のうちの少なくとも１つを含む
電子機器。
請求項１に記載の電子機器であって、
前記評価部は、

に基づいて、推定信号歪み比SDRを決定するように構成されており、
ここで、iはチャンネルインデックスであり、jはソースインデックスであり、S_ij(t)およびS(caret)_ij(t)は、真のおよび推定されたソース信号であり、M_in は総チャンネル数である
電子機器。
請求項１に記載の電子機器であって、
前記分離は残留を含む
電子機器。
請求項１に記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部は、前記評価結果に従ってリミキシング／アップミキシングの程度を決定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部は、前記評価結果に基づいて、仮想サウンドソースの位置を決定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部は、前記評価結果に基づいて、前記分離のうちの１つ以上に適用されるオーディオ効果の量を決定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記適応的なリミキシング／アップミキシング部は、前記評価結果に基づいて、前記出力信号をレンダリングするために使用される出力チャンネルの数を決定するように構成されている
電子機器。
請求項１に記載の電子機器であって、
前記オーディオソース分離は、ブラインドソース分離に基づいたものである
電子機器。
オーディオソース分離に基づいて、入力信号からの分離を決定するように構成されたオーディオソース分離プロセスと、
機械学習に基づいて、前記分離および前記入力信号からの前記オーディオソース分離の評価結果を決定するように構成された評価プロセスと、
前記分離に基づいて、かつ、前記評価結果に基づいて、出力信号を決定するように構成された適応的なリミキシング／アップミキシングプロセスと
を含む
方法。
命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに、
オーディオソース分離に基づいて入力信号からの分離を決定させ、
機械学習に基づいて、前記分離および前記入力信号からの前記オーディオソース分離の評価結果を決定させ、
適応的なリミキシング／アップミキシングによって、前記分離に基づいて、かつ、前記評価結果に基づいて、出力信号を決定させる
コンピュータプログラム。