JP2017511896A

JP2017511896A - スパイキングニューラルネットワークにおける聴覚ソース分離

Info

Publication number: JP2017511896A
Application number: JP2016551305A
Authority: JP
Inventors: クリシュナン、ラクシュミ; キャンポス、マイケル
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-02-14
Filing date: 2015-02-12
Publication date: 2017-04-27
Also published as: US20150235125A1; KR20160123312A; US9269045B2; CN105981056A; EP3105717A1; WO2015123460A1

Abstract

オーディオソース分離の方法は、オーディオ信号のオーディオ属性を選択することを含む。本方法はまた、単一のソースによって支配されるオーディオ属性の一部をソーススパイキング事象として表すことを含む。さらに、本方法は、オーディオ信号の残りの部分をオーディオ信号スパイキング事象として表すことを含む。本方法は、ソーススパイキング事象とオーディオ信号スパイキング事象との一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定することをさらに含む。

Description

関連出願の相互参照
[0001]本出願は、２０１４年２月１４日に出願された、「ＡＵＤＩＴＯＲＹＳＯＵＲＣＥＳＥＰＡＲＡＴＩＯＮＩＮＡＳＰＩＫＩＮＧＮＥＵＲＡＬＮＥＴＷＯＲＫ」と題する米国仮特許出願第６１／９４０，２８１号の利益を主張し、その開示は参照によりその全体が本明細書に明確に組み込まれる。

[0002]本開示のいくつかの態様は、一般にニューラルシステムエンジニアリングに関し、より詳細には、スパイキングニューラルネットワークにおける聴覚ソース分離のためのシステムおよび方法に関する。

[0003]人工ニューラルネットワークは、人工ニューロン（すなわち、ニューロンモデル）の相互結合されたグループを備え得、計算デバイスであるか、または計算デバイスによって実行される方法を表す。人工ニューラルネットワークは、生物学的ニューラルネットワークにおける対応する構造および／または機能を有し得る。しかしながら、人工ニューラルネットワークは、従来の計算技法が扱いにくい、実行不可能または不適切であるいくつかの適用例に革新的で有用な計算技法を提供することができる。人工ニューラルネットワークが観測から機能を推論することができるので、そのようなネットワークは、タスクまたはデータの複雑さが従来の技法による機能の設計を面倒にする適用例において、特に有用である。

[0004]本開示のある態様では、オーディオソース分離の方法が開示される。本方法は、オーディオ信号のオーディオ属性を選択することを含む。本方法はまた、単一のソースによって支配されるオーディオ属性の一部をソーススパイキング事象として表すことを含む。さらに、本方法は、オーディオ信号の残りの部分をオーディオ信号スパイキング事象として表すことを含む。本方法は、ソーススパイキング事象とオーディオ信号スパイキング事象との一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定することをさらに含む。

[0005]本開示の別の態様では、オーディオソース分離のための装置が開示される。本装置は、メモリと、少なくとも１つのプロセッサとを有する。本プロセッサはメモリに結合され、またオーディオ信号のオーディオ属性を選択するように構成される。本プロセッサはまた、単一のソースによって支配されるオーディオ属性の一部をソーススパイキング事象として表すように構成される。さらに、本プロセッサは、オーディオ信号の残りの部分をオーディオ信号スパイキング事象として表すように構成される。本プロセッサは、ソーススパイキング事象とオーディオ信号スパイキング事象との一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するようにさらに構成される。

[0006]本開示の別の態様では、オーディオソース分離ための装置が開示される。本装置は、オーディオ信号のオーディオ属性を選択するための手段を含む。本装置はまた、単一のソースによって支配されるオーディオ属性の一部をソーススパイキング事象として表すための手段を含む。本装置は、オーディオ信号の残りの部分をオーディオ信号スパイキング事象として表すための手段をさらに含む。本装置は、ソーススパイキング事象とオーディオ信号スパイキング事象との一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するための手段をさらに含む。

[0007]本開示の別の態様では、オーディオソース分離のためのコンピュータプログラム製品が開示される。本コンピュータプログラム製品は、プログラムコードを符号化した非一時的コンピュータ可読媒体を有する。本プログラムコードは、オーディオ信号のオーディオ属性を選択するためのプログラムコードを含む。本プログラムコードはまた、単一のソースによって支配されるオーディオ属性の一部をソーススパイキング事象として表すためのプログラムコードを含む。さらに、本プログラムコードは、オーディオ信号の残りの部分をオーディオ信号スパイキング事象として表すためのプログラムコードを含む。本プログラムコードは、ソーススパイキング事象とオーディオ信号スパイキング事象との一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するためのプログラムコードをさらに含む。

[0008]これは、以下の詳細な説明がさらに良く理解され得るように、本開示の特徴および技術的利点をむしろ広く概説したものである。本開示のさらなる特徴および利点は、以下に説明される。本開示の同じ目的を実行するために他の構造を変更または設計するための基礎として本開示が容易に利用され得ることは、当業者によって理解されるはずである。また、そのような等価の構成は、添付の特許請求の範囲に明記されている本開示の教示から逸脱しないことが、当業者によって認識されるはずである。構成および動作方法の両方に関して本開示の特徴であると考えられる新規性のある特徴は、添付の図面とともに考慮されると、さらなる目的および利点とともに以下の説明からより良く理解されよう。しかしながら、図面の各々は、例示および説明の目的のみに与えられており、本開示の限定の定義として意図されていないことを明確に理解されたい。

[0009]本開示の特徴、性質、および利点は、同様の参照文字が全体を通して相応して識別する図面を考慮した場合、以下に示される詳細な説明から、より明らかになるだろう。

[0010]本開示のいくつかの態様によるニューロンの例示的なネットワークを示す図。 [0011]本開示のいくつかの態様による、計算ネットワーク（ニューラルシステムまたはニューラルネットワーク）の処理ユニット（ニューロン）の一例を示す図。 [0012]本開示のいくつかの態様によるスパイクタイミング依存可塑性（ＳＴＤＰ）曲線の一例を示す図。 [0013]本開示のいくつかの態様による、ニューロンモデルの挙動を定義するための正レジームおよび負レジームの一例を示す図。 [0014]本開示のある態様による、汎用プロセッサを使用してニューラルネットワークを設計することの例示的な実装形態を示す図。 [0015]本開示のいくつかの態様による、メモリが個々の分散処理ユニットとインターフェースされ得るニューラルネットワークを設計する例示的な実装形態を示す図。 [0016]本開示のいくつかの態様による、分散メモリおよび分散処理ユニットに基づいてニューラルネットワークを設計する例示的な実装形態を示す図。 [0017]本開示のいくつかの態様による、ニューラルネットワークの例示的な実装形態を示す図。 [0018]本開示の態様による、聴覚ソース分離のための例示的なアーキテクチャを示すブロック図。本開示の態様による、聴覚ソース分離のための例示的なアーキテクチャを示すブロック図。 [0019]本開示のある態様による、聴覚ソース分離のための方法を示すブロック図。

[0020]添付の図面に関連して以下に示される詳細な説明は、様々な構成の説明として意図されたものであり、本明細書において説明される概念が実現され得る唯一の構成を表すことを意図されるものではない。詳細な説明は、様々な概念の完全な理解を提供する目的で、具体的な詳細を含む。しかしながら、これらの概念がこれらの具体的な詳細なしで実施され得ることは、当業者にとっては明らかであろう。いくつかの事例では、よく知られている構造および構成要素が、そのような概念を曖昧にするのを避けるために、ブロック図形式で示される。

[0021]本教示に基づいて、本開示の範囲は、本開示の任意の他の態様とは無関係に実装されるにせよ、本開示の任意の他の態様と組み合わされるにせよ、本開示のいかなる態様をもカバーするものであることを、当業者なら諒解されたい。たとえば、記載される態様をいくつ使用しても、装置は実装され得、または方法は実施され得る。さらに、本開示の範囲は、記載される本開示の様々な態様に加えてまたはそれらの態様以外に、他の構造、機能、または構造および機能を使用して実施されるそのような装置または方法をカバーするものとする。開示する本開示のいずれの態様も、請求項の１つまたは複数の要素によって実施され得ることを理解されたい。

[0022]「例示的」という単語は、本明細書では「例、事例、または例示の働きをすること」を意味するために使用される。「例示的」として本明細書で説明するいかなる態様も、必ずしも他の態様よりも好ましいまたは有利であると解釈されるべきであるとは限らない。

[0023]本明細書では特定の態様について説明するが、これらの態様の多くの変形および置換は本開示の範囲内に入る。好ましい態様のいくつかの利益および利点が説明されるが、本開示の範囲は特定の利益、使用、または目的に限定されるものではない。むしろ、本開示の態様は、様々な技術、システム構成、ネットワーク、およびプロトコルに広く適用可能であるものとし、そのうちのいくつかを例として図および好ましい態様についての以下の説明で示す。発明を実施するための形態および図面は、本開示を限定するものではなく説明するものにすぎず、本開示の範囲は添付の特許請求の範囲およびそれの均等物によって定義される。

例示的なニューラルシステム、トレーニングおよび動作
[0024]図１は、本開示のいくつかの態様による、複数のレベルのニューロンをもつ例示的な人工ニューラルシステム１００を示す。ニューラルシステム１００は、シナプス結合のネットワーク１０４（すなわち、フィードフォワード結合）を介してニューロンの別のレベル１０６に結合されたニューロンのあるレベル１０２を有し得る。簡単のために、図１には２つのレベルのニューロンのみが示されているが、ニューラルシステムには、より少ないまたはより多くのレベルのニューロンが存在し得る。ニューロンのいくつかは、ラテラル結合を介して同じ層の他のニューロンに結合し得ることに留意されたい。さらに、ニューロンのいくつかは、フィードバック結合を介して前の層のニューロンに戻る形で結合し得る。

[0025]図１に示すように、レベル１０２における各ニューロンは、前のレベル（図１に図示せず）のニューロンによって生成され得る入力信号１０８を受信し得る。信号１０８は、レベル１０２のニューロンの入力電流を表し得る。この電流は、膜電位を充電するためにニューロン膜上に蓄積され得る。膜電位がそれのしきい値に達すると、ニューロンは、発火し、ニューロンの次のレベル（たとえば、レベル１０６）に転送されるべき出力スパイクを生成し得る。いくつかのモデリング手法では、ニューロンは、信号をニューロンの次のレベルに継続的に転送し得る。この信号は、典型的には膜電位の関数である。そのような挙動は、以下で説明するものなどのアナログおよびデジタル実装形態を含むハードウェアおよび／またはソフトウェアでエミュレートまたはシミュレートされ得る。

[0026]生物学的ニューロンでは、ニューロンが発火するときに生成される出力スパイクは、活動電位と呼ばれる。電気信号は、約１００ｍＶの振幅と約１ｍｓの持続時間とを有する比較的急速で、一時的な神経インパルスである。一連の結合されたニューロンを有するニューラルシステムの特定の実施形態（たとえば、図１におけるあるレベルのニューロンから別のレベルのニューロンへのスパイクの転送）では、あらゆる活動電位が基本的に同じ振幅と持続時間とを有するので、信号における情報は、振幅によってではなく、スパイクの周波数および数、またはスパイクの時間によってのみ表され得る。活動電位によって搬送される情報は、スパイク、スパイクしたニューロン、および他の１つまたは複数のスパイクに対するスパイクの時間によって決定され得る。以下で説明するように、スパイクの重要性は、ニューロン間の接続に適用される重みによって決定され得る。

[0027]図１に示されるように、ニューロンのあるレベルから別のレベルへのスパイクの移動は、シナプス結合（または、単純に「シナプス」）１０４のネットワークを介して達成され得る。シナプス１０４に関して、レベル１０２のニューロンはシナプス前ニューロンと考えられ得、レベル１０６のニューロンはシナプス後ニューロンと考えられ得る。シナプス１０４は、レベル１０２のニューロンから出力信号（すなわち、スパイク）を受信して、調整可能なシナプスの重みｗ_１ ^{（ｉ，ｉ＋１）}，．．．，ｗ_Ｐ ^{（ｉ，ｉ＋１）}に従ってそれらの信号をスケーリングすることができ、ここで、Ｐはレベル１０２のニューロンとレベル１０６のニューロンとの間のシナプス結合の総数であり、ｉはニューロンレベルの指標である。図１の例では、ｉはニューロンレベル１０２を表し、ｉ＋１は、ニューロンレベル１０６を表す。さらに、スケーリングされた信号は、レベル１０６における各ニューロンの入力信号として合成され得る。レベル１０６におけるあらゆるニューロンは、対応する合成された入力信号に基づいて、出力スパイク１１０を生成し得る。出力スパイク１１０は、シナプス結合の別のネットワーク（図１には図示せず）を使用して、別のレベルのニューロンに転送され得る。

[0028]生物学的シナプスは、シナプス後ニューロンにおける興奮性活動または抑制性（過分極化）活動のいずれかを調停することができ、ニューロン信号を増幅する役目を果たすことができる。興奮性信号は、膜電位を脱分極する（すなわち、静止電位に対して膜電位を増加させる）。しきい値を超えて膜電位を脱分極するために十分な興奮性信号が一定の時間期間内に受信された場合、シナプス後ニューロンに活動電位が生じる。対照的に、抑制性信号は一般に、膜電位を過分極する（すなわち、低下させる）。抑制性信号は、十分に強い場合、興奮性信号のすべてを相殺し、膜電位がしきい値に達するのを防止することができる。シナプス興奮を相殺することに加えて、シナプス抑制は、自然に活発なニューロンに対して強力な制御を行うことができる。自然に活発なニューロンは、たとえば、それのダイナミクスまたはフィードバックに起因するさらなる入力なしにスパイクするニューロンを指す。これらのニューロンにおける活動電位の自然な生成を抑圧することによって、シナプス抑制は、ニューロンの発火のパターンを形成することができ、それは、一般にスカルプチャリングと呼ばれる。様々なシナプス１０４は、望まれる挙動に応じて、興奮性シナプスまたは抑制性シナプスの任意の組合せとして働き得る。

[0029]ニューラルシステム１００は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、プロセッサによって実行されるソフトウェアモジュール、またはそれらの任意の組合せによってエミュレートされ得る。ニューラルシステム１００は、たとえば画像およびパターン認識、機械学習、モータ制御、および似ているなど、かなりの適用範囲において利用され得る。ニューラルシステム１００における各ニューロンは、ニューロン回路として実装され得る。出力スパイクを開始するしきい値まで充電されるニューロン膜は、たとえば、そこを通って流れる電流を積分するキャパシタとして実装され得る。

[0030]一態様では、キャパシタは、ニューロン回路の電流積分デバイスとして除去され得、その代わりにより小さいメモリスタ（memristor）要素が使用され得る。この手法は、ニューロン回路において、ならびにかさばるキャパシタが電流積分器として利用される様々な他の適用例において適用され得る。さらに、シナプス１０４の各々は、メモリスタ要素に基づいて実装され得、シナプス重みの変化は、メモリスタ抵抗の変化に関係し得る。ナノメートルの特徴サイズのメモリスタを用いると、ニューロン回路およびシナプスの面積が大幅に低減され得、それによって、大規模なニューラルシステムハードウェア実装形態の実装がより実用的になり得る。

[0031]ニューラルシステム１００をエミュレートするニューラルプロセッサの機能は、シナプス結合の重みに依存し得、それはニューロン間の結合の強さを制御し得る。シナプス重みは、パワーダウン後にプロセッサの機能を維持するために、不揮発性メモリに記憶され得る。一態様では、シナプス重みメモリは、主たるニューラルプロセッサチップとは別個の外部チップ上に実装され得る。シナプス重みメモリは、交換可能メモリカードとしてニューラルプロセッサチップとは別個にパッケージ化され得る。これは、ニューラルプロセッサに多様な機能を提供することができ、特定の機能は、ニューラルプロセッサに現在取り付けられているメモリカードに記憶されたシナプス重みに基づき得る。

[0032]図２は、本開示のいくつかの態様による、計算ネットワーク（たとえば、ニューラルシステムまたはニューラルネットワーク）の処理ユニット（たとえば、ニューロンまたはニューロン回路）２０２の例示的な図２００を示す。たとえば、ニューロン２０２は、図１のレベル１０２のニューロンおよび１０６のニューロンのうちのいずれかに対応し得る。ニューロン２０２は、複数の入力信号２０４₁〜２０４_Nを受信し得、それらは、ニューラルシステムの外部にある信号、または同じニューラルシステムの他のニューロンによって生成された信号、またはその両方であり得る。入力信号は、電流、コンダクタンス、電圧、実数値および／または複素数値であり得る。入力信号は、固定小数点表現または浮動小数点表現をもつ数値を備え得る。これらの入力信号は、調整可能なシナプス重み２０６１〜２０６Ｎ（ｗ₁〜ｗ_N）に従って信号をスケーリングするシナプス結合を通してニューロン２０２に伝えられ得、ここで、Ｎはニューロン２０２の入力接続の総数であり得る。

[0033]ニューロン２０２は、スケーリングされた入力信号を合成し、合成された、スケーリングされた入力を使用して、出力信号２０８（すなわち、信号ｙ）を生成し得る。出力信号２０８は、電流、コンダクタンス、電圧、実数値および／または複素数値であり得る。出力信号は、固定小数点表現または浮動小数点表現をもつ数値であり得る。出力信号２０８は、次いで、同じニューラルシステムの他のニューロンへの入力信号として、または同じニューロン２０２への入力信号として、またはニューラルシステムの出力として伝達され得る。

[0034]処理ユニット（ニューロン）２０２は電気回路によってエミュレートされ得、それの入力接続および出力接続は、シナプス回路をもつ電気接続によってエミュレートされ得る。処理ユニット２０２ならびにそれの入力接続および出力接続はまた、ソフトウェアコードによってエミュレートされ得る。処理ユニット２０２はまた、電気回路によってエミュレートされ得るが、それの入力接続および出力接続はソフトウェアコードによってエミュレートされ得る。一態様では、計算ネットワーク中の処理ユニット２０２はアナログ電気回路であり得る。別の態様では、処理ユニット２０２はデジタル電気回路であり得る。さらに別の態様では、処理ユニット２０２は、アナログ構成要素とデジタル構成要素の両方をもつ混合信号電気回路であり得る。計算ネットワークは、上述の形態のいずれかにおける処理ユニットを含み得る。そのような処理ユニットを使用した計算ネットワーク（ニューラルシステムまたはニューラルネットワーク）は、たとえば画像およびパターン認識、機械学習、モータ制御など、かなりの適用範囲において利用され得る。

[0035]ニューラルネットワークをトレーニングする過程で、シナプス重み（たとえば、図１の重みｗ_１ ^{（ｉ，ｉ＋１）}，．．．，ｗ_Ｐ ^{（ｉ，ｉ＋１）}および／または図２の重み２０６₁〜２０６_N）がランダム値により初期化され得、学習ルールに従って増加または減少し得る。学習ルールの例は、これに限定されないが、スパイクタイミング依存可塑性（ＳＴＤＰ）学習ルール、Ｈｅｂｂ則、Ｏｊａ則、Ｂｉｅｎｅｎｓｔｏｃｋ−Ｃｏｐｐｅｒ−Ｍｕｎｒｏ（ＢＣＭ）則等を含むことを当業者は理解するだろう。いくつかの態様では、重みは、２つの値のうちの１つに安定または収束し得る（すなわち、重みの双峰分布）。この効果が利用されて、シナプス重みごとのビット数を低減し、シナプス重みを記憶するメモリとの間の読取りおよび書込みの速度を上げ、シナプスメモリの電力および／またはプロセッサ消費量を低減し得る。

シナプスタイプ
[0036]ニューラルネットワークのハードウェアおよびソフトウェアモデルでは、シナプス関係機能の処理がシナプスタイプに基づき得る。シナプスタイプは、非塑性シナプス（non-plastic synapse）（重みおよび遅延の変化がない）と、可塑性シナプス（重みが変化し得る）と、構造遅延可塑性シナプス（重みおよび遅延が変化し得る）と、完全可塑性シナプス（重み、遅延および結合性が変化し得る）と、それの変形（たとえば、遅延は変化し得るが、重みまたは結合性の変化はない）であり得る。複数のタイプの利点は、処理が再分割され得ることである。たとえば、非塑性シナプスは、実行する可塑性機能を（またはそのような機能が完了するのを待つ）使用しない場合がある。同様に、遅延および重み可塑性は、一緒にまたは別々に、順にまたは並列に動作し得る動作に再分割され得る。異なるタイプのシナプスは、適用される異なる可塑性タイプの各々の異なるルックアップテーブルまたは式およびパラメータを有し得る。したがって、本方法は、シナプスのタイプについての関連する表、式、またはパラメータにアクセスする。

[0037]スパイクタイミング依存構造可塑性がシナプス可塑性とは無関係に実行され得るという事実のさらなる含意がある。構造可塑性は、重みの大きさに変化がない場合（たとえば、重みが最小値または最大値に達したか、あるいはそれが何らかの他の理由により変更されない場合）ｓ構造可塑性（すなわち、遅延量の変化）は前後スパイク時間差（pre-post spike time difference）の直接関数であり得ても実行され得る。代替的に、構造可塑性は、重み変化量に応じて、または重みもしくは重み変化の限界に関係する条件に基づいて設定され得る。たとえば、重み変化が生じたとき、または重みが最大値になるのではなく、重みがゼロに達した場合のみ、シナプス遅延が変化し得る。しかしながら、これらのプロセスが並列化され、メモリアクセスの数および重複を低減し得るように、独立した機能を有することが有利であり得る。

シナプス可塑性の決定
[0038]神経可塑性（または単に「可塑性」）は、脳内のニューロンおよびニューラルネットワークがそれらのシナプス結合と挙動とを新しい情報、感覚上の刺激、発展、損傷または機能不全に応答して変える能力である。可塑性は、生物学における学習および記憶にとって、また計算論的神経科学およびニューラルネットワークにとって重要である。（たとえば、Ｈｅｂｂ則理論に従う）シナプス可塑性、スパイクタイミング依存可塑性（ＳＴＤＰ）、非シナプス可塑性、活性依存可塑性、構造可塑性および恒常的可塑性など、様々な形の可塑性が研究されている。

[0039]ＳＴＤＰは、ニューロン間のシナプス結合の強さを調整する学習プロセスである。結合強度は、特定のニューロンの出力スパイクおよび受信入力スパイク（すなわち、活動電位）の相対的タイミングに基づいて調整される。ＳＴＤＰプロセスの下で、あるニューロンに対する入力スパイクが、平均して、そのニューロンの出力スパイクの直前に生じる傾向がある場合、長期増強（ＬＴＰ）が生じ得る。その場合、その特定の入力はいくらか強くなる。一方、入力スパイクが、平均して、出力スパイクの直後に生じる傾向がある場合、長期抑圧（ＬＴＤ）が生じ得る。その場合、その特定の入力はいくらか弱くなるので、「スパイクタイミング依存可塑性」と呼ばれる。したがって、シナプス後ニューロンの興奮の原因であり得る入力は、将来的に寄与する可能性がさらに高くなる一方、シナプス後スパイクの原因ではない入力は、将来的に寄与する可能性が低くなる。結合の初期セットのサブセットが残る一方で、その他の部分すべての影響がわずかなレベルまで低減されるまで、このプロセスは続く。

[0040]ニューロンは一般に出力スパイクを、それの入力の多くが短い期間内に生じる（すなわち、出力をもたらすのに十分な累積がある）ときに生成するので、通常残っている入力のサブセットは、時間的に相関する傾向のあった入力を含む。さらに、出力スパイクの前に生じる入力は強化されるので、最も早い十分に累積的な相関の表示を提供する入力は結局、ニューロンへの最終入力となる。

[0041]ＳＴＤＰ学習ルールは、シナプス前ニューロンのスパイク時間ｔ_preとシナプス後ニューロンのスパイク時間ｔ_postとの間の時間差（すなわち、ｔ＝ｔ_post−ｔ_pre）に応じて、シナプス前ニューロンをシナプス後ニューロンに結合するシナプスのシナプス重みを効果的に適合させ得る。ＳＴＤＰの通常の公式化は、時間差が正である（シナプス前ニューロンがシナプス後ニューロンの前に発火する）場合にシナプス重みを増加させ（すなわち、シナプスを増強し）、時間差が負である（シナプス後ニューロンがシナプス前ニューロンの前に発火する）場合にシナプス重みを減少させる（すなわち、シナプスを抑制する）ことである。

[0042]ＳＴＤＰプロセスでは、経時的なシナプス重みの変化は通常、以下に与えられるように、指数関数的減衰を使用して達成され得る。

ここで、ｋ₊およびｋ_-τ_sign(Δt)はそれぞれ、正の時間差および負の時間差の時間定数であり、ａ₊およびａ_-は対応するスケーリングの大きさであり、μは正の時間差および／または負の時間差に適用され得るオフセットである。

[0043]図３は、ＳＴＤＰによる、シナプス前スパイクおよびシナプス後スパイクの相対的タイミングに応じたシナプス重み変化の例示的な図３００を示す。シナプス前ニューロンがシナプス後ニューロンの前に発火する場合、グラフ３００の部分３０２に示すように、対応するシナプス重みは増加し得る。この重み増加は、シナプスのＬＴＰと呼ばれ得る。グラフ部分３０２から、シナプス前スパイク時間とシナプス後スパイク時間との間の時間差に応じて、ＬＴＰの量がほぼ指数関数的に減少し得ることが観測され得る。グラフ３００の部分３０４に示すように、発火の逆の順序は、シナプス重みを減少させ、シナプスのＬＴＤをもたらし得る。

[0044]図３のグラフ３００に示すように、ＳＴＤＰグラフのＬＴＰ（原因）部分３０２に負のオフセットμが適用され得る。ｘ軸の交差３０６のポイント（ｙ＝０）は、層ｉ−１からの原因入力の相関を考慮して、最大タイムラグと一致するように構成され得る。フレームベースの入力（すなわち、スパイクまたはパルスを備える特定の持続時間のフレームの形態である入力）の場合、オフセット値μは、フレーム境界を反映するように計算され得る。直接的にシナプス後電位によってモデル化されるように、またはニューラル状態に対する影響の点で、フレームにおける第１の入力スパイク（パルス）が経時的に減衰することが考慮され得る。フレームにおける第２の入力スパイク（パルス）が特定の時間フレームの相関したまたは関連したものと考えられる場合、フレームの前および後の関連する時間は、その時間フレーム境界で分離され、関連する時間の値が異なり得る（たとえば、１つのフレームよりも大きい場合は負、１つのフレームよりも小さい場合は正）ように、ＳＴＤＰ曲線の１つまたは複数の部分をオフセットすることによって、可塑性の点で別様に扱われ得る。たとえば、曲線が、フレーム時間よりも大きい前後の時間で実際にゼロよりも下になり、結果的にＬＴＰの代わりにＬＴＤの一部であるようにＬＴＰをオフセットするために負のオフセットμが設定され得る。

ニューロンモデルおよび演算
[0045]有用なスパイキングニューロンモデルを設計するための一般的原理がいくつかある。良いニューロンモデルは、２つの計算レジーム、すなわち、一致検出および関数計算の点で豊かな潜在的挙動を有し得る。その上、良いニューロンモデルは、時間コーディングを可能にするための２つの要素を有する必要がある：入力の到着時間は出力時間に影響を与え、一致検出は狭い時間ウィンドウを有し得る。最終的に、計算上魅力的であるために、良いニューロンモデルは、連続時間に閉形式解と、ニアアトラクター（near attractor）と鞍点とを含む安定した挙動とを有し得る。言い換えれば、有用なニューロンモデルは、実用的なニューロンモデルであり、豊かで、現実的で、生物学的に一貫した挙動をモデル化するために使用され得、神経回路のエンジニアリングとリバースエンジニアリングの両方を行うために使用され得るニューロンモデルである。

[0046]ニューロンモデルは事象、たとえば入力の到着、出力スパイク、または内部的であるか外部的であるかを問わず他の事象に依存し得る。豊かな挙動レパートリーを実現するために、複雑な挙動を示すことができる状態機械が望まれ得る。入力寄与（ある場合）とは別個の事象の発生自体が状態機械に影響を与え、事象の後のダイナミクスを制限し得る場合、システムの将来の状態は、単なる状態および入力の関数ではなく、むしろ状態、事象および入力の関数である。

[0047]一態様では、ニューロンｎは、下記のダイナミクスによって決定される膜電圧ｖ_n（ｔ）によるスパイキングリーキー積分発火ニューロンとしてモデル化され得る。

ここでαおよびβはパラメータであり、ｗ_m,nは、シナプス前ニューロンｍをシナプス後ニューロンｎに結合するシナプスのシナプス重みであり、ｙ_m（ｔ）は、ニューロンｎの細胞体に到着するまでΔｔ_m,nに従って樹状遅延または軸索遅延によって遅延し得るニューロンｍのスパイキング出力である。

[0048]シナプス後ニューロンへの十分な入力が達成された時間からシナプス後ニューロンが実際に発火する時間までの遅延があることに留意されたい。イジケヴィッチの単純モデルなど、動的スパイキングニューロンモデルでは、脱分極しきい値ｖ_tとピークスパイク電圧ｖ_peakとの間に差がある場合、時間遅延が生じ得る。たとえば、単純モデルでは、電圧および復元のための１対の微分方程式、すなわち、

によってニューロン細胞体ダイナミクス（neuron soma dynamics）が決定され得る。ここでｖは膜電位であり、ｕは、膜復元変数であり、ｋは、膜電位ｖの時間スケールを記述するパラメータであり、ａは、復元変数ｕの時間スケールを記述するパラメータであり、ｂは、膜電位ｖのしきい値下変動に対する復元変数ｕの感度を記述するパラメータであり、ｖ_rは、膜静止電位であり、Ｉは、シナプス電流であり、Ｃは、膜のキャパシタンスである。このモデルによれば、ニューロンはｖ＞ｖ_peakのときにスパイクすると定義される。

ＨｕｎｚｉｎｇｅｒＣｏｌｄモデル
[0049]ＨｕｎｚｉｎｇｅｒＣｏｌｄニューロンモデルは、豊かな様々な神経挙動を再生し得る最小二重レジームスパイキング線形動的モデルである。モデルの１次元または２次元の線形ダイナミクスは２つのレジームを有することができ、時間定数（および結合）はレジームに依存し得る。しきい値下レジームでは、時間定数は、慣例により負であり、一般に生物学的に一貫した線形方式で静止状態に細胞を戻す役目を果たすリーキーチャネルダイナミクスを表す。しきい値上レジームにおける時間定数は、慣例により正であり、一般にスパイク生成のレイテンシを生じさせる一方でスパイク状態に細胞を駆り立てる反リーキーチャネルダイナミクスを反映する。

[0050]図４に示すように、モデル４００のダイナミクスは２つの（またはそれよりも多くの）レジームに分割され得る。これらのレジームは、負のレジーム（ｎｅｇａｔｉｖｅｒｅｇｉｍｅ）４０２（ｌｅａｋｙ−ｉｎｔｅｇｒａｔｅ−ａｎｄ−ｆｉｒｅ（ＬＩＦ）ニューロンモデルと混同されないように、交換可能にＬＩＦレジームとも呼ばれる）、および正のレジーム（ｐｏｓｉｔｉｖｅｒｅｇｉｍｅ）４０４（ａｎｔｉ−ｌｅａｋｙ−ｉｎｔｅｇｒａｔｅ−ａｎｄ−ｆｉｒｅ（ＡＬＩＦ）ニューロンモデルと混同されないように、交換可能にＡＬＩＦレジームとも呼ばれる）と呼ばれ得る。負レジーム４０２では、状態は将来の事象の時点における静止（ｖ_-）に向く傾向がある。この負レジームでは、モデルは一般に、時間的入力検出特性と他のしきい値下挙動とを示す。正レジーム４０４では、状態はスパイキング事象（ｖ_s）に向く傾向がある。この正レジームでは、モデルは、後続の入力事象に応じてスパイクにレイテンシを生じさせるなどの計算特性を示す。事象の点からのダイナミクスの公式化およびこれら２つのレジームへのダイナミクスの分離は、モデルの基本的特性である。

[0051]線形二重レジーム２次元ダイナミクス（状態ｖおよびｕの場合）は、慣例により次のように定義され得る。

ここでｑ_ρおよびｒは、結合のための線形変換変数である。

[0052]シンボルρは、ダイナミクスレジームを示すためにここで使用され、特定のレジームの関係を論述または表現するときに、それぞれ負レジームおよび正レジームについて符号「−」または「＋」にシンボルρを置き換える慣例がある。

[0053]モデル状態は、膜電位（電圧）ｖおよび復元電流ｕによって定義される。基本形態では、レジームは基本的にモデル状態によって決定される。正確で一般的な定義の微妙だが重要な側面があるが、差し当たり、モデルが、電圧ｖがしきい値（ｖ₊）を上回る場合に正レジーム４０４にあり、そうでない場合に負レジーム４０２にあると考える。

[0054]レジーム依存時間定数は、負レジーム時間定数であるτ_-と正レジーム時間定数であるτ₊とを含む。復元電流時間定数τ_uは通常、レジームから独立している。便宜上、τ_uと同様に、指数およびτ₊が一般に正となる正レジームの場合に、電圧発展（voltage evolution）に関する同じ表現が使用され得るように、減衰を反映するために負の量として負レジーム時間定数τ_-が一般に指定される。

[0055]２つの状態要素のダイナミクスは、事象において、ヌルクライン（null-cline）から状態をオフセットする変換によって結合され得、ここで変換変数は、
ｑ_ρ＝−τ_ρβｕ−ｖ_ρ （７）
ｒ＝δ（ｖ＋ε）（８）
であり、δ、ε、βおよびｖ_-、ｖ₊はパラメータである。ｖ_ρのための２つの値は、２つのレジームのための参照電圧のベースである。パラメータｖ_-は、負レジームのためのベース電圧であり、膜電位は一般に、負レジームにおいてｖ_-に減衰する。パラメータｖ₊は、正レジームのためのベース電圧であり、膜電位は一般に、正レジームにおいてｖ₊から離れる傾向となる。

[0056]ｖおよびｕのためのヌルクラインは、それぞれ変換変数ｑ_ρおよびｒの負によって与えられる。パラメータδは，ｕヌルクラインの傾きを制御するスケール係数である。パラメータεは通常、−ｖ_-に等しく設定される。パラメータβは、両方のレジームにおいてｖヌルクラインの傾きを制御する抵抗値である。τ_ρ時間定数パラメータは、指数関数的減衰だけでなく、各レジームにおいて別個にヌルクラインの傾きを制御する。

[0057]モデルは、電圧ｖが値ｖ_sに達したときにスパイクするように定義され得る。続いて、状態は（スパイク事象と同じ１つのものであり得る）リセット事象でリセットされ得る。

ここで、

およびΔｕはパラメータである。リセット電圧

は通常、ｖ_-にセットされる。

[0058]瞬時結合の原理によって、状態について（また、単一の指数項による）だけではなく、特定の状態に到達するための時間についても、閉形式解が可能である。閉形式状態解は、次のとおりである。

[0059]したがって、モデル状態は、入力（シナプス前スパイク）または出力（シナプス後スパイク）などの事象に伴ってのみ更新され得る。また、演算が（入力があるか、出力があるかを問わず）任意の特定の時間に実行され得る。

[0060]その上、瞬時結合の原理によって、反復的技法または数値解法（たとえば、オイラー数値解法）なしに、特定の状態に到達する時間が事前に決定され得るように、シナプス後スパイクの時間が予想され得る。前の電圧状態ｖ₀を踏まえ、電圧状態ｖ_fに到達するまでの時間遅延は、次の式によって与えられる。

[0061]スパイクが、電圧状態ｖがｖ_sに到達する時間に生じると定義される場合、電圧が所与の状態ｖにある時間から測定されたスパイクが生じるまでの時間量、または相対的遅延に関する閉形式解は、次のとおりである。

ここで、

は通常、パラメータｖ₊にセットされるが、他の変形も可能であり得る。

[0062]モデルダイナミクスの上記の定義は、モデルが正レジームにあるか、それとも負レジームにあるかに依存する。上述のように、結合およびレジームρは、事象に伴って計算され得る。状態の伝搬のために、レジームおよび結合（変換）変数は、最後の（前の）事象の時間における状態に基づいて定義され得る。続いてスパイク出力時間を予想するために、レジームおよび結合変数は、次の（最新の）事象の時間における状態に基づいて定義され得る。

[0063]Ｃｏｌｄモデルの、適時にシミュレーション、エミュレーションまたはモデルを実行するいくつかの可能な実装形態がある。これは、たとえば、事象更新モード、ステップ事象更新モード、およびステップ更新モードを含む。事象更新は、（特定の瞬間における）事象または「事象更新」に基づいて状態が更新される更新である。ステップ更新は、間隔（たとえば、１ｍｓ）をおいてモデルが更新される更新である。これは必ずしも、反復的技法または数値解法を利用するとは限らない。また、事象がステップもしくはステップ間で生じる場合または「ステップ事象」更新によってモデルを更新するのみによって、ステップベースのシミュレータにおいて限られた時間分解能で事象ベースの実装形態が可能である。

スパイキングニューラルネットワークにおける聴覚ソース分離
[0064]聴覚ソースに従う混合信号の分離は、有益であり広範囲に適用可能である。たとえば、聴覚ソース分離は、音声分離を提供して、音声強調に役立ち、また音声アクティビティ検出に役立ち得る。しかしながら、モノラルの、監視されていない、オンライン聴覚ソース分離は、コンピュータオーディション（ｃｏｍｐｕｔｅｒａｕｄｉｔｉｏｎ）の課題である。したがって、本開示の態様は、時間的コヒーレンスベースのソース分離のベースのスパイクベースの実装形態を対象とする。

[0065]図５は、本開示のいくつかの態様による、上述の汎用プロセッサ５０２を使用する聴覚ソース分離の例示的な実装形態５００を示している。変数（ニューラル信号）、シナプス重み、計算ネットワーク（ニューラルネットワーク）に関連付けられるシステムパラメータ、遅延、および周波数ビン情報はメモリブロック５０４に記憶され得、汎用プロセッサ５０２で実行される命令はプログラムメモリ５０６からロードされ得る。本開示のある態様では、汎用プロセッサ５０２にロードされた命令は、オーディオ信号のオーディオ属性を選択して、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表して、オーディオ信号の残りの部分をスパイキング事象として表して、および／または、スパイキング事象の一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するためのコードを備え得る。

[0066]図６は、本開示のいくつかの態様による、メモリ６０２が相互接続ネットワーク６０４を介して計算ネットワーク（ニューラルネットワーク）の個々の（分散型）処理ユニット（ニューラルプロセッサ）６０６とインターフェースされ得る上述した聴覚ソース分離の例示的な実装形態６００を示す。変数（ニューラル信号）、シナプス重み、計算ネットワーク（ニューラルネットワーク）遅延に関連付けられるシステムパラメータ、周波数ビン情報、オーディオ信号および／またはオーディオ属性情報はメモリ６０２に記憶され得、相互接続ネットワーク６０４の接続を介してメモリ６０２から各処理ユニット（ニューラルプロセッサ）６０６にロードされ得る。本開示のある態様では、処理ユニット６０６は、オーディオ信号のオーディオ属性を選択して、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表して、オーディオ信号の残りの部分をスパイキング事象として表して、および／または、スパイキング事象の一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するように構成され得る。

[0067]図７は、上述の聴覚ソース分離の例示的な実装形態７００を示している。図７に示すように、１つのメモリバンク７０２が、計算ネットワーク（ニューラルネットワーク）の１つの処理ユニット７０４と直接インターフェースされ得る。各メモリバンク７０２は、対応する処理ユニット（神経プロセッサ）７０４遅延、周波数ビン情報、オーディオ信号、および／またはオーディオの属性情報に関連付けられる変数（ニューラル信号）、シナプス重み、および／またはシステムパラメータを記憶し得る。本開示のある態様では、処理ユニット７０４は、オーディオ信号のオーディオ属性を選択して、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表して、オーディオ信号の残りの部分をスパイキング事象として表して、および／または、スパイキング事象の一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するように構成され得る。

[0068]図８は、本開示のいくつかの態様による、ニューラルネットワーク８００の例示的な実装形態を示す。図８に示すように、ニューラルネットワーク８００は、本明細書において説明される方法の様々な動作を実行し得る複数のローカル処理ユニット８０２を有することができる。各ローカル処理ユニット８０２は、ニューラルネットワークのパラメータを記憶する、ローカルステートメモリ８０４およびローカルパラメータメモリ８０６を備え得る。また、ローカル処理ユニット８０２は、ローカルモデルプログラムを記憶するためのローカル（ニューロン）モデルプログラム（ＬＭＰ）メモリ８０８、ローカル学習プログラムを記憶するためのローカル学習プログラム（ＬＬＰ）メモリ８１０、およびローカル接続メモリ８１２を有し得る。さらに、図８に示されるように、各ローカル処理ユニット８０２は、ローカル処理ユニットのローカルメモリの構成を提供するために構成プロセッサユニット８１４と、またローカル処理ユニット８０２間のルーティングを提供するルーティングユニット８１６とインターフェースされ得る。

[0069]一構成では、ニューロンモデルは、オーディオ信号のオーディオ属性を選択し、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表し、オーディオ信号の残りの部分をスパイキング事象として表し、および／または、スパイキング事象の一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定するように構成される。ニューロンモデルは、選択手段と、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表すための手段と、オーディオ信号の残りの部分をスパイキング事象として表すための手段と、決定手段とを備え得る。一態様では、選択手段、オーディオ属性の一部を表すための手段、オーディオ信号の残りの部分を表すための手段、および／または決定手段は、汎用プロセッサ５０２、プログラムメモリ５０６、メモリブロック５０４、メモリ６０２、相互接続ネットワーク６０４、処理ユニット６０６、処理ユニット７０４、ローカル処理ユニット８０２、およびまたは列挙した機能を実行するように構成されたルーティング接続処理要素８１６であり得る。別の構成では、上述の手段は、上記の手段によって記載された機能を実行するように構成された任意のモジュールまたは任意の装置であり得る。

[0070]本開示のいくつかの態様に従えば、各ローカル処理ユニット８０２は、ニューラルネットワークの所望の１つまたは複数の機能的特徴に基づいて、ニューラルネットワークのパラメータを決定して、決定されたパラメータがさらに適応され、同調され、更新されるにつれて、所望の機能的特徴に向けて１つまたは複数の機能的特徴を開発するように構成され得る。

[0071]図９は、本開示の態様による、聴覚ソース分離のための例示的なアーキテクチャ９００を示すブロック図である。本アーキテクチャは、オーディオ信号を供給するための入力９０２を含む。オーディオ信号は、アナログでもデジタルでもよい。いくつかの態様では、オーディオ信号は、たとえば、マイクロホンなどのオーディオ入力デバイス、デジタルオーディオテープ（ＤＡＴ）、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク（ＢＤ）などのストレージデバイスを介して、またはストリーミングメディアを介して提供され得る。

[0072]いくつかの態様では、オーディオ信号は、皮質の機能の混合物（ｃｏｒｔｉｃａｌｆｅａｔｕｒｅｍｉｘｔｕｒｅ）を備え得る。皮質の機能の混合物は、異なる出力周波数に関連付けられる異なる出力チャネルを含み得る。たとえば、オーディオ信号は、１人または複数の話者からの音声の混合物、および／または、聴覚シーン（たとえば、混雑したバス、またはスポーツイベント）の他の音（たとえば、背景雑音、音楽、または動物音）を含み得る。

[0073]オーディオ信号は、オーディオプロセッサ９０４に供給され得る。いくつかの態様では、オーディオプロセッサは、単一のソースまたはターゲットソースによって支配されるオーディオ属性を決定するためにオーディオ信号を処理し得る。オーディオ属性は、たとえば、ピッチ、音色、高調波、リズム、音の大きさ、速度（話す速度）、空間的位置などを備え得る。一例では、オーディオプロセッサ９０４は、中心周波数があらかじめ定められた範囲に及ぶバンドパスフィルタのバンクを備え得る。オーディオプロセッサ９０４は、ターゲットソース（たとえば、男性の話者または女性の話者の声）によって支配されるピッチ（すなわち、オーディオ属性）を識別し得る。この例では、支配されるオーディオ属性またはアンカーは、所与の範囲（たとえば、ある時点（たとえば、２５ミリ秒ごと）に対して１８０〜２００ヘルツの間の中心周波数を有する）内の最高周波数を有するピッチとして識別され得る。アンカーは、特定のソースのオーディオ信号のチャネルの表示を提供し得る。ピッチトラックは、オーディオ信号の表示されたチャネルに対応する未処理の電力値の集合に基づいて生成され得る。

[0074]いくつかの態様では、オーディオ信号および／または支配されるオーディオ属性（たとえば、ピッチトラック）に対応するオーディオ信号の一部は、整流および正規化処理の対象となる場合がある。たとえば、支配されるオーディオ属性部分は、全区間（たとえば、所与の範囲）に対してあらかじめ定められた未処理の電力値（たとえば、最大電力値）で未処理の電力値を除算することによって正規化され得る。別の例では、支配されるオーディオ属性部分は、すべての負の値を０に設定することによって整流され得る。

[0075]支配されるオーディオ属性部分（たとえば、ピッチトラック）は、オーディオ信号とともにニューロン９０６の層に供給され得る。ある例示的な態様では、ニューロン９０６の層は、リーキー積分発火（ＬＩＦ）ニューロンを備え得る。ニューロン９０６は、支配されるオーディオ属性部分とオーディオ信号とを、スパイクまたはスパイク事象として表すように構成され得る。たとえば、ＬＩＦニューロンは振動ごとにスパイクするように構成され得る。さらなる例では、ＬＩＦニューロンのための時定数（たとえば、τ＋）は、入力の正の振動が、振動のピークで１つまたは複数のスパイクを生成するように設定され得る。

[0076]支配されるオーディオ属性部分（たとえば、ピッチトラック）を表す出力スパイクと、オーディオ信号を表す出力スパイクとが、一致検出オブジェクト（ＣＤＯ）ニューロン９０８の層に入力として供給され得る。ＣＤＯニューロン９０８の層は、支配されるオーディオ属性を表すスパイクのタイミングと、オーディオ信号を表すスパイクのタイミングとを比較するように構成され得る。支配されるオーディオ属性を表すスパイクと、オーディオ信号を表すスパイクとが一致する、または合致する場合、ＣＤＯニューロン９０８がスパイクし得る。いくつかの態様では、ＣＤＯニューロン９０８はまた、支配されるオーディオ属性を表すスパイクと、オーディオ信号を表すスパイクとの間のタイミング差があらかじめ定められたしきい値（たとえば、タイミングまたは時間ウィンドウ内）を下回る場合、スパイクし得る。ＣＤＯニューロン９０８の出力スパイクは、ターゲットソースに起因するオーディオ信号の一部を表し得る。このようにして、ＣＤＯニューロン９０８は、ターゲットソースに起因するオーディオ信号の一部を検索して分離するために使用され得る。

[0077]したがって、ターゲットソースに起因するオーディオ信号の一部は、ターゲットソースの事前の知識なしにオンザフライで複数の音源を有するオーディオ信号または聴覚シーンから抽出または分離され得る。これは、雑音背景上のトレーニングの利益なしに達成され得る。

[0078]図１０は、本開示の態様による、聴覚ソース分離のための例示的なアーキテクチャを示すブロック図１０００である。本アーキテクチャは、オーディオ信号に含まれる複数のソースからオーディオを分離するように構成され得る。図１０を参照すると、アーキテクチャは、音声信号を提供するための入力デバイス１００６を含み得る。本アーキテクチャはまた、音源Ａに関連付けられるオーディオ属性を提供するための入力デバイス１００２と、音源Ｂに関連付けられるオーディオ属性を提供するための入力デバイス１００４とを含み得る。３つの別個の入力が示されているが、これは単に説明を容易にするためであり、任意の数の入力デバイスが使用され得る。たとえば、単一の入力はまた、入力信号の各々を提供するために使用され得る。

[0079]いくつかの態様では、話者Ａのオーディオ属性と音源Ｂのオーディオ属性とは、話者の事前の知識なしに、オンザフライで決定され得る。もちろん、これは単なる例示であり、いくつかの態様では、音源Ａと音源Ｂとのオーディオ属性はあらかじめ決定されて、ストレージデバイスに記憶され得る。さらに、音源Ａのオーディオ属性と音源Ｂのオーディオ属性とは異なり得る。たとえば、音源Ａのオーディオ属性は音声の位置であり得、音源Ｂのオーディオ属性は音の大きさであり得る。

[0080]図１０に示されるように、オーディオ信号は入力デバイス１００６を介して提供され得る。オーディオ信号は、皮質の機能の混合物を備え得る。皮質の機能の混合物は、異なる出力周波数に関連付けられる異なる出力チャネルを含み得る。たとえば、いくつかの態様では、オーディオ信号は、１人または複数の話者からの音声の混合物、および／または、聴覚シーンの他の音（たとえば、背景雑音、音楽、または動物音）を含み得る。聴覚シーンは、たとえば、混雑したバスまたはスポーツイベントの音の混合物を備え得る。例示的な構成では、オーディオソースは、ある範囲にわたる中心周波数を有するバンドパスフィルタの帯域を経由したプロセスである。出力は、スペクトログラムに収集され得、それは、多重解像度表現を生成するために複数のスケールの周波数軸に沿ってフィルタリングされ得る。

[0081]音源Ａと音源Ｂのオーディオ属性（たとえば、ピッチ）は、入力デバイス１００２および１００４を介して供給される。いくつかの態様では、音源のオーディオ属性の推定値が使用され得る。たとえば、ピッチ抽出のためのテンプレート技法が適され得る。

[0082]一構成では、オーディオ属性は、ある時間期間（たとえば、２５ミリ秒）に対して指定された範囲内（たとえば、１８０〜２００ヘルツの間の中心周波数を有する）で最も高いバンドパスフィルタ出力として識別される。識別されたピッチチャネルごとに、未処理の電力値が、スペクトグラムにおける対応するチャネルから、および対応する時間で収集され得、１次元配列を生成する。識別されたピッチチャネルがまったくない時点では、配列は０の値を有する。ピッチトラックは、新たな速度（たとえば、２ヘルツ）でバンドパスフィルタでさらに処理され得る。値は、全体の音声間隔のあらかじめ定められた値（たとえば、最大値）ですべての値を除算することによって正規化され得る。さらに、出力が整流され得、すなわち、すべての負の値が０に設定される。フィルタリングは他の周波数（たとえば、４ヘルツ、８ヘルツ、１６ヘルツ）で繰り返され得る。出力は、スペクトログラムに収集され得、それは、複数のスケールの周波数軸に沿ってフィルタリングされ得る。図１０は、２つの音源のオーディオ属性を示しているが、これは単に例示であり、限定するものではない。むしろ、任意の数の音源の任意の数のオーディオ属性が利用され得る。

[0083]オーディオ属性は、オーディオ信号のチャネルを備え得る。いくつかの態様では、オーディオ属性は、ピッチ、音色、高調波、リズム、音の大きさ、速度（話す速度）、音声の位置などを備え得る。いくつかの態様では、音源および／または音声信号のオーディオ属性が、整流および正規化され得る。

[0084]オーディオ属性および音声信号は、ニューロン１００８の層に供給され得る。ニューロン１００８の層は、オーディオ属性およびオーディオ信号の各々をスパイクとして表すように構成され得る。いくつかの態様では、ニューロンの層は、たとえば、リーキー積分発火（ＬＩＦ）ニューロンを備え得る。

[0085]オーディオ属性のスパイク表現は、それぞれ、ＣＤＯニューロン１０１０、１０１２の対応する層に第１の入力として供給され得る。オーディオ信号のスパイク表現は、ＣＤＯニューロン１０１０、１０１２の層の各々に第２の入力として供給され得る。ニューロンモデルは、入力の正の振動が、振動のピークで１つまたは複数のスパイクを生成するように設定された時定数を有し得る。振動は、第２のフィルタの周波数（たとえば、２ヘルツ）で発生する。プロセスは、他のフィルタ周波数（たとえば、４ヘルツ、８ヘルツ、１６ヘルツ）ごとに繰り返し得る。

[0086]次に、ＣＤＯニューロン（１０１０、１０１２）は、オーディオ信号と、音源Ａのオーディオ属性および／または音源Ｂのオーディオ属性との間に相関があるかどうかを決定し得る。すなわち、ＣＤＯニューロン１０１０、１０１２は、オーディオ属性を表すスパイクが、オーディオ信号を表すスパイクと一致するかどうかを決定するように構成され得る。スパイクが一致するか、または相互のあらかじめ定められた範囲内にある場合、ＣＤＯニューロンはスパイクを出力し得る。したがって、ＣＤＯニューロンは、音源のオーディオ属性がオーディオ信号内に存在するかどうかの表示を提供し得る。さらに、音源のオーディオ属性がオーディオ信号内に存在する場合、その音源に起因するオーディオ信号の一部が、オーディオ信号から抽出または分離され得る。

[0087]図１０は、２つの音源および２つのＣＤＯニューロンのオーディオ属性（たとえば、ピッチ）を含むアーキテクチャを示しているが、これは例示と説明を簡単にするための単なる例示であり、アーキテクチャは任意の数のソースを混合物から分離するように構成され得る。すなわち、アーキテクチャは、１つまたは複数のソースを、複数のソースを含むオーディオ信号から分離するように構成され得る。たとえば、アーキテクチャは、１つまたは複数の音声を、混雑したレストランまたはバスから供給される雑音の多いオーディオ信号から分離するように構成され得る。

[0088]さらに、本開示は音源分離に関連する態様を強調したが、他の用途は、本明細書に開示されたアーキテクチャおよび機能を使用して実現され得る。これらの用途は、音声アクティビティ検出、音声認識、音声コーディング、音声強調を含むが、これらに限定されない。たとえば、いくつかの態様では、図１０に示される音源Ａと音源Ｂの分離されたオーディオ信号が、背景雑音などの入力音声信号に他の音声を含まずに合成オーディオストリームを生成するために再結合および復号化され得る。このようにして、雑音低減などの音声強化が実現され得る。

[0089]図１１は、本開示の態様による聴覚ソース分離のための例示的な方法１１００を示す。ブロック１１０２で、ニューロンモデルがオーディオ信号のオーディオ属性を選択する。いくつかの態様では、オーディオ属性は、ピッチ、音量、空間的位置、音色、トーン、話す速度、または任意の他のオーディオ属性であり得る。

[0090]ブロック１１０４で、ニューロンモデルは、単一のソースによって支配されるオーディオ属性の一部をスパイキング事象として表す。いくつかの態様では、複数のソースによって支配されるオーディオ属性も、スパイク事象として表され得る。

[0091]ブロック１１０６で、ニューロンモデルは、オーディオ信号の残りの部分をスパイキング事象として表す。さらに、ブロック１１０８で、ニューロンモデルは、スパイキング事象の一致に基づいて、残りの部分が単一のソースと一致するかどうかを決定する。

[0092]いくつかの態様では、単一のソースはアンカーソースであり得る。アンカーは、ソースによって支配される任意のオーディオ機能またはチャネルであり得る。アンカーは、指定された範囲内のフィルタ出力を識別するためにバンドパスフィルタを使用して処理され得る。さらに、処理することは定期的に行われ得る。

[0093]上述した方法の様々な動作は、対応する機能を実行することが可能な任意の好適な手段によって実行され得る。それらの手段は、限定はしないが、回路、特定用途向け集積回路（ＡＳＩＣ）、またはプロセッサを含む、様々なハードウェアおよび／またはソフトウェア構成要素および／またはモジュールを含み得る。概して、図に示されている動作がある場合、それらの動作は、同様の番号をもつ対応するカウンターパートのミーンズプラスファンクション構成要素を有し得る。

[0094]本明細書で使用する「決定」という用語は、多種多様なアクションを包含する。たとえば、「決定」は、計算すること、算出すること、処理すること、導出すること、調査すること、ルックアップすること（たとえば、テーブル、データベースまたは別のデータ構造においてルックアップすること）、確認することなどを含み得る。さらに、「決定」は、受信すること（たとえば、情報を受信すること）、アクセスすること（たとえば、メモリ中のデータにアクセスすること）などを含み得る。さらに、「決定」は、解決すること、選択すること、選定すること、確立することなどを含み得る。

[0095]本明細書で使用する、項目のリスト「のうちの少なくとも１つ」を指す句は、単一のメンバーを含む、それらの項目の任意の組合せを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ−ｂ、ａ−ｃ、ｂ−ｃ、およびａ−ｂ−ｃを包含するものとする。

[0096]本開示に関連して説明した様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ信号（ＦＰＧＡ）または他のプログラマブル論理デバイス（ＰＬＤ）、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいは本明細書で説明した機能を実行するように設計されたそれらの任意の組合せを用いて実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラまたは状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。

[0097]本開示に関連して説明した方法またはアルゴリズムのステップは、ハードウェアで直接実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその２つの組合せで実施され得る。ソフトウェアモジュールは、当技術分野で知られている任意の形式の記憶媒体で存在し得る。使用され得る記憶媒体のいくつかの例は、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、フラッシュメモリ、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭなどを含む。ソフトウェアモジュールは、単一の命令、または多数の命令を備えることができ、いくつかの異なるコードセグメント上で、異なるプログラム間で、複数の記憶媒体にわたって分散され得る。記憶媒体は、プロセッサがその記憶媒体から情報を読み取ることができ、その記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。代替として、記憶媒体はプロセッサと一体化され得る。

[0098]本明細書で開示する方法は、説明した方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく互いに交換され得る。言い換えれば、ステップまたはアクションの特定の順序が指定されない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲から逸脱することなく変更され得る。

[0099]本明細書で説明される機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ハードウェアで実装される場合、例示的なハードウェア構成はデバイス中に処理システムを備え得る。処理システムは、バスアーキテクチャを用いて実装され得る。バスは、処理システムの特定の適用例および全体的な設計制約に応じて、任意の数の相互接続バスとブリッジとを含み得る。バスは、プロセッサと、機械可読媒体と、バスインターフェースとを含む様々な回路を互いにリンクし得る。バスインターフェースは、ネットワークアダプタを、特に、バスを介して処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を実装するために使用され得る。いくつかの態様では、ユーザインターフェース（たとえば、キーパッド、ディスプレイ、マウス、ジョイスティックなど）もバスに接続され得る。バスはまた、タイミングソース、周辺機器、電圧調整器、電力管理回路などの様々な他の回路にリンクし得るが、それらは当技術分野でよく知られており、したがってこれ以上は説明されない。

[0100]プロセッサは、機械可読媒体に記憶されたソフトウェアの実行を含む、バスおよび一般的な処理を管理することを担当し得る。プロセッサは、１つまたは複数の汎用および／または専用プロセッサを用いて実装され得る。例としては、マイクロプロセッサ、マイクロコントローラ、ＤＳＰプロセッサ、およびソフトウェアを実行し得る他の回路を含む。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語などの名称にかかわらず、命令、データ、またはそれらの任意の組合せを意味すると広く解釈されたい。機械可読媒体は、一例として、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読出し専用メモリ（ＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラム可能読出し専用メモリ（ＥＥＰＲＯＭ）、レジスタ、磁気ディスク、光ディスク、ハードドライブ、または他の任意の適切な記憶媒体、あるいはそれらの任意の組合せを含み得る。機械可読媒体はコンピュータプログラム製品において実施され得る。コンピュータプログラム製品はパッケージング材料を備え得る。

[0101]ハードウェア実装形態では、機械可読媒体は、プロセッサとは別個の処理システムの一部であり得る。しかしながら、当業者なら容易に理解するように、機械可読媒体またはその任意の部分は処理システムの外部にあり得る。例として、機械可読媒体は、すべてバスインターフェースを介してプロセッサによってアクセスされ得る、伝送線路、データによって変調された搬送波、および／またはデバイスとは別個のコンピュータ製品を含み得る。代替的に、または追加で、機械可読媒体またはその任意の部分は、キャッシュおよび／または汎用レジスタファイルがそうであり得るように、プロセッサに統合され得る。論じた様々な構成要素は、ローカル構成要素などの特定の位置を有するものとして説明され得るが、それらはまた、分散コンピューティングシステムの一部として構成されているいくつかの構成要素などの様々な方法で構成され得る。

[0102]処理システムは、すべて外部バスアーキテクチャを介して他のサポート回路と互いにリンクされる、プロセッサ機能を提供する１つまたは複数のマイクロプロセッサと、機械可読媒体の少なくとも一部分を提供する外部メモリとをもつ汎用処理システムとして構成され得る。あるいは、処理システムは、本明細書に記載のニューロンモデルとニューラルシステムのモデルとを実装するための１つまたは複数のニューロモルフィックプロセッサを備え得る。別の代替として、処理システムは、プロセッサを有する特定用途向け集積回路（ＡＳＩＣ）と、バスインターフェースと、ユーザインターフェースと、サポート回路と、単一のチップに統合された機械可読媒体の少なくとも一部とを用いて、あるいは１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理デバイス（ＰＬＤ）、コントローラ、状態機械、ゲート論理、個別ハードウェア構成要素、または他の任意の適切な回路、あるいは本開示全体を通じて説明した様々な機能を実行し得る回路の任意の組合せを用いて実装され得る。当業者なら、特定の適用例と、全体的なシステムに課される全体的な設計制約とに応じて、どのようにしたら処理システムについて説明した機能を最も良く実装し得るかを理解されよう。

[0103]機械可読媒体はいくつかのソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されたときに、処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュールと受信モジュールとを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス中に常駐するか、または複数の記憶デバイスにわたって分散され得る。例として、トリガイベントが発生したとき、ソフトウェアモジュールがハードドライブからＲＡＭにロードされ得る。ソフトウェアモジュールの実行中、プロセッサは、アクセス速度を高めるために、命令のいくつかをキャッシュにロードし得る。次いで、１つまたは複数のキャッシュラインが、プロセッサによる実行のために汎用レジスタファイルにロードされ得る。以下でソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールからの命令を実行したときにプロセッサによって実装されることが理解されよう。

[0104]ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気記憶デバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体を適切に名づけられる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線（ＩＲ）、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は非一時的コンピュータ可読媒体（たとえば、有形媒体）を備え得る。さらに、他の態様では、コンピュータ可読媒体は一時的コンピュータ可読媒体（たとえば、信号）を備え得る。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0105]したがって、いくつかの態様は、本明細書で提示する動作を実行するためのコンピュータプログラム製品を備え得る。たとえば、そのようなコンピュータプログラム製品は、本明細書で説明する動作を実行するために１つまたは複数のプロセッサによって実行可能である命令を記憶した（および／または符号化した）コンピュータ可読媒体を備え得る。いくつかの態様では、コンピュータプログラム製品はパッケージング材料を含み得る。

[0106]さらに、本明細書で説明した方法および技法を実行するためのモジュールおよび／または他の適切な手段は、適用可能な場合にユーザ端末および／または基地局によってダウンロードされ、および／または他の方法で取得され得ることを諒解されたい。たとえば、そのようなデバイスは、本明細書で説明した方法を実施するための手段の転送を可能にするためにサーバに結合され得る。代替的に、本明細書で説明した様々な方法は、ユーザ端末および／または基地局が記憶手段をデバイスに結合または提供すると様々な方法を得ることができるように、記憶手段（たとえば、ＲＡＭ、ＲＯＭ、コンパクトディスク（ＣＤ）またはフロッピーディスクなどの物理記憶媒体など）によって提供され得る。その上、本明細書で説明した方法および技法をデバイスに与えるための任意の他の好適な技法が利用され得る。

[0107]特許請求の範囲は、上記で示した厳密な構成および構成要素に限定されないことを理解されたい。上記で説明した方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。

[0107]特許請求の範囲は、上記で示した厳密な構成および構成要素に限定されないことを理解されたい。上記で説明した方法および装置の構成、動作および詳細において、特許請求の範囲から逸脱することなく、様々な改変、変更および変形が行われ得る。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
オーディオソース分離の方法であって、
オーディオ信号のオーディオ属性を選択することと、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すことと、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表すことと、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定することと、
を備える、方法。
［Ｃ２］
前記決定することが、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づく、Ｃ１に記載の方法。
［Ｃ３］
前記オーディオ属性がピッチである、Ｃ１に記載の方法。
［Ｃ４］
前記オーディオ属性が空間的位置である、Ｃ１に記載の方法。
［Ｃ５］
前記決定することが、話す速度に少なくとも部分的に基づく、Ｃ１に記載の方法。
［Ｃ６］
前記単一のソースがアンカーを備え、前記アンカーが、指定された範囲内のバンドパスフィルタ出力を識別するために、少なくとも１つのバンドパスフィルタを使用して処理される、Ｃ１に記載の方法。
［Ｃ７］
前記処理することが定期的に行われる、Ｃ６に記載の方法。
［Ｃ８］
オーディオソース分離のための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサとを備え、前記少なくとも１つのプロセッサが、
オーディオ信号のオーディオ属性を選択し、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表し、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表し、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定する、
ように構成される、装置。
［Ｃ９］
前記少なくとも１つのプロセッサが、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するようにさらに構成される、Ｃ８に記載の装置。
［Ｃ１０］
前記オーディオ属性がピッチである、Ｃ８に記載の装置。
［Ｃ１１］
前記オーディオ属性が空間的位置である、Ｃ８に記載の装置。
［Ｃ１２］
前記少なくとも１つのプロセッサが、話す速度に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するようにさらに構成される、Ｃ８に記載の装置。
［Ｃ１３］
前記単一のソースがアンカーを備え、前記少なくとも１つのプロセッサが、指定された範囲内のバンドパスフィルタ出力を識別するために、少なくとも１つのバンドパスフィルタを使用して前記アンカーを処理するようにさらに構成される、Ｃ８に記載の装置。
［Ｃ１４］
前記少なくとも１つのプロセッサが、前記アンカーを定期的に処理するようにさらに構成される、Ｃ１３に記載の装置。
［Ｃ１５］
オーディオソース分離のための装置であって、
オーディオ信号のオーディオ属性を選択するための手段と、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すための手段と、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表すための手段と、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するための手段と、
を備える、装置。
［Ｃ１６］
決定する前記手段が、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかをさらに決定する、Ｃ１５に記載の装置。
［Ｃ１７］
前記オーディオ属性がピッチである、Ｃ１５に記載の装置。
［Ｃ１８］
オーディオソース分離のためのコンピュータプログラム製品であって、
プログラムコードを符号化した非一時的コンピュータ可読媒体を備え、前記プログラムコードが、
オーディオ信号のオーディオ属性を選択するためのプログラムコードと、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すためのプログラムコードと、
前記オーディオ信号の残りの部分を、少なくとも１つのオーディオ信号スパイキング事象として表すためのプログラムコードと、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するためのプログラムコードと、
を備える、コンピュータプログラム製品。
［Ｃ１９］
時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するためのプログラムコードをさらに備える、Ｃ１８に記載のコンピュータプログラム製品。
［Ｃ２０］
前記オーディオ属性がピッチである、Ｃ１８に記載のコンピュータプログラム製品。

Claims

オーディオソース分離の方法であって、
オーディオ信号のオーディオ属性を選択することと、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すことと、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表すことと、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定することと、
を備える、方法。
前記決定することが、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づく、請求項１に記載の方法。
前記オーディオ属性がピッチである、請求項１に記載の方法。
前記オーディオ属性が空間的位置である、請求項１に記載の方法。
前記決定することが、話す速度に少なくとも部分的に基づく、請求項１に記載の方法。
前記単一のソースがアンカーを備え、前記アンカーが、指定された範囲内のバンドパスフィルタ出力を識別するために、少なくとも１つのバンドパスフィルタを使用して処理される、請求項１に記載の方法。
前記処理することが定期的に行われる、請求項６に記載の方法。
オーディオソース分離のための装置であって、
メモリと、
前記メモリに結合された少なくとも１つのプロセッサとを備え、前記少なくとも１つのプロセッサが、
オーディオ信号のオーディオ属性を選択し、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表し、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表し、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定する、
ように構成される、装置。
前記少なくとも１つのプロセッサが、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するようにさらに構成される、請求項８に記載の装置。
前記オーディオ属性がピッチである、請求項８に記載の装置。
前記オーディオ属性が空間的位置である、請求項８に記載の装置。
前記少なくとも１つのプロセッサが、話す速度に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するようにさらに構成される、請求項８に記載の装置。
前記単一のソースがアンカーを備え、前記少なくとも１つのプロセッサが、指定された範囲内のバンドパスフィルタ出力を識別するために、少なくとも１つのバンドパスフィルタを使用して前記アンカーを処理するようにさらに構成される、請求項８に記載の装置。
前記少なくとも１つのプロセッサが、前記アンカーを定期的に処理するようにさらに構成される、請求項１３に記載の装置。
オーディオソース分離のための装置であって、
オーディオ信号のオーディオ属性を選択するための手段と、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すための手段と、
前記オーディオ信号の残りの部分を少なくとも１つのオーディオ信号スパイキング事象として表すための手段と、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するための手段と、
を備える、装置。
決定する前記手段が、時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかをさらに決定する、請求項１５に記載の装置。
前記オーディオ属性がピッチである、請求項１５に記載の装置。
オーディオソース分離のためのコンピュータプログラム製品であって、
プログラムコードを符号化した非一時的コンピュータ可読媒体を備え、前記プログラムコードが、
オーディオ信号のオーディオ属性を選択するためのプログラムコードと、
単一のソースによって支配される前記オーディオ属性の一部を、少なくとも１つのソーススパイキング事象として表すためのプログラムコードと、
前記オーディオ信号の残りの部分を、少なくとも１つのオーディオ信号スパイキング事象として表すためのプログラムコードと、
前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象との一致に少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するためのプログラムコードと、
を備える、コンピュータプログラム製品。
時間ウィンドウ内に発生する前記少なくとも１つのソーススパイキング事象と、前記少なくとも１つのオーディオ信号スパイキング事象とに少なくとも部分的に基づいて、前記残りの部分が前記単一のソースと一致するかどうかを決定するためのプログラムコードをさらに備える、請求項１８に記載のコンピュータプログラム製品。
前記オーディオ属性がピッチである、請求項１８に記載のコンピュータプログラム製品。