JP6163211B2 - 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法 - Google Patents

少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法 Download PDF

Info

Publication number
JP6163211B2
JP6163211B2 JP2015548194A JP2015548194A JP6163211B2 JP 6163211 B2 JP6163211 B2 JP 6163211B2 JP 2015548194 A JP2015548194 A JP 2015548194A JP 2015548194 A JP2015548194 A JP 2015548194A JP 6163211 B2 JP6163211 B2 JP 6163211B2
Authority
JP
Japan
Prior art keywords
signal
signals
value
mixing ratio
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015548194A
Other languages
English (en)
Other versions
JP2016504622A (ja
Inventor
コトゥッラ・ダーニエール
Original Assignee
エイエスケイ・インダストリーズ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エイエスケイ・インダストリーズ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング filed Critical エイエスケイ・インダストリーズ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
Publication of JP2016504622A publication Critical patent/JP2016504622A/ja
Application granted granted Critical
Publication of JP6163211B2 publication Critical patent/JP6163211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Complex Calculations (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、請求項1の前提部分に記載の少なくとも二つの個別信号を算出する方法に関する。
二つ以上の音源を録音することでステレオ信号を生成できることが公知である。これには、レベル差や到達時間差が利用される。ステレオ信号を用いることで、立体的な音の感じが生まれることになる。
公知のステレオ技術は、AB−法、XY−法やMS−法の形式のインテンシティ・ステレオ並びにORTF−法やOSS−法のような折衷型の技術である。
近年、二つよりも多くのスピーカを備えた音響システムが、市場において徐々にその数を増してきている。特に、このような音響システムは、例えば自動車の中には既に何年も前から在って、そのような自動車は、側方ドアの中に少なくとも二つのスピーカ、さらに、自動車の車内に二つのスピーカを有している。
こういうわけで、ステレオの場合がそうであるように、二つよりも多くの個別信号を使えるようにするためにいくつかの方法が開発されている。この場合、概ね二つの異なるアプローチがある。
先ず、多数の出力信号からそれぞれの源信号を算出できる方法が存在する。この場合、それぞれの楽器、それぞれの歌声や話し声が、源信号と解される。コーラスの場合や、複数人の歌手もまた、一つの源信号として捉えることができ、例えば20人の女性歌手がいても、「ソプラノ」は例えば一つの歌声として把握することができる。
総じて見れば、問題は、ステレオ信号において存在するような、二つの出力信号から、あるいはまた、それより多くの出力信号から、任意の数の源信号を抽出することにある。
信号源分離のためのこのような方法は、いわゆる「ブラインド分離」のキャッチフレーズのもとに行われる。この方法には、大きく二種類の方法がある。その方法は、一方では、独立成分分析、主成分分析、最大事後確率法、最尤法等の統計学的な方法を用いて行われる。他方では、再帰最適化法を利用することもまた公知である。公知の方法は、その際、任意の源信号を、より少ない数の出力信号から高い計算コストを払って算出可能にするか、実時間計算のために源信号の数より多いか又は同じ数の出力信号を必要とする。
したがって、本発明の課題は、請求項1の前提部分の特徴を有する方法を発展させ、源信号の数より少ない数の出力信号の場合でも実時間内で信号源分離を可能とすることにある。
この課題は、請求項1の特徴部分によって解決される。本発明の有利な発展態様は、下位請求項から与えられる。
本発明の核心は、出力信号から減算信号が算出され、当該減算信号がフーリエ変換され、このようにして得られた変換信号において個別信号が算出される点である。これにより、統計学的な方法及び再帰法は不要とされ、実時間内の個別信号の算出が達成される。ここで、実時間というのは、入って来るデータストリーム(Datenstrom)が、信号の最初のブロックを計算する際に生じる限界的な時間のずれを有しつつ再生すべき信号が中断なく提供され得ることを意味する。従って、例えば、録音から、或る特定の歌声と例えばピアノとを引き出して、選択すべき混合比率で特定のスピーカに割り当て、その際に出力信号が事前に処理されていなくてもよいようにできる。こうして、例えば、自動車の中でCDをセットし、歌および場合によっては引き出すべき信号の配分や引き出すべき信号そのものを決め、遅れを気付かせることなく歌やCDの再生を開始できるようになるはずである。
出力信号上での源信号の混合比率は、方向を特定することで算出することができる。そのために、出力信号はフーリエ変換され、振幅値が計算される。これら振幅値は、一つのヒストグラムにまとめられる。そのために、フーリエ変換された出力信号からポイント対が作られ、その際に、ヒストグラムにおけるポイント対は、得られる角度によってまとめることができる。ポイント対の角度は、このとき、0°から90°の間の値を取り、次のように求められる。
Figure 0006163211
ここで、X 1,orgは、フーリエ変換された第1の出力信号Xを、X 2,orgは、フーリエ変換された第2の出力信号Xを示し、a及びaは、ベクトルを示し、このベクトルには大きさが含まれる。綴りのlは、出力信号X,Xないしフーリエ変換された出力信号X 1,org,X 2,orgの項数インデックスであり、これに基づいてポイント対が突き止められる。フーリエ変換された出力信号X 1,orgの第1の数値とフーリエ変換された出力信号X 2,orgの第1の数値はベクトルに他ならないが、これらの第1の数値は、したがってl=1の第1のポイント対を形成する。もちろん、項数インデックスlは0から始まってもよく、その場合、項数インデックスはL−1まで続く。ここで、Lは、各出力信号X,Xのフーリエ変換されたポイントの数(例えば4096点)を示す。θは、0°から90°の間の角度であり、Ψは、インデックスlを持つポイント対の大きさである。
ベクトルΨは、ベクトルa及びaの大きさの和を内容とする。
Figure 0006163211
フーリエ変換はブロックで実行される。入力信号として、それぞれ2のべき乗、つまり、2を累乗したものが用いられる。10乗、11乗又は12乗、つまり、1024、2048又は4096のデータポイントが特に効率的であることが判明した。特に好ましくは、4096のデータポイントであり、その理由は、計算コストを考慮すると計算時間が最適であるからである。
ヒストグラムの区分けは、好ましくは1°単位で行われる。すなわち、ヒストグラムは90の区間を含む。角度θの値はこのとき、ヒストグラムの数値範囲を区切るために整数値に丸められる(gerundet)。
最後に、ヒストグラムは、最大(複数の最大)が分かりやすくなるように平坦化される。平坦化関数として、次の関数が用いられる。
Figure 0006163211
パラメータTは、整数であり、隣接ポイントが平坦化に幾つ組み込まれるかを与える。したがって、複数のデータポイントに亘る平均が行われる。S隣接ポイントが存在しないようなヒストグラムの端では、補足すべき相応の位置に0の値が用いられる。ヒストグラムの一番目の度数(Zahlenwert)を計算する際には、したがって、片側では0の値を8回適用されるべきで、その一方、他側では既存の度数が用いられる。平坦化されたヒストグラムにおいて、全ての局所的な極値が特定され、度数の高さ、つまりは頻度により仕分けされる。ヒストグラムにおける各所は、上述のとおり一つの角度に対応しており、その結果、各極値に一つの角度が対応する。見出された最大(複数の最大)に対応する角度が特定され、予め設定された数の最大が用いられるか、又は、予め設定された閾値を頻度が超えるもの全ての最大が用いられる。
平坦化されたヒストグラム‐ベクトルは、こうして次のようになる。
Figure 0006163211
ここで、i=0,…,90である。ここで、生じ得る問題は、源信号は、出力信号における全ての期間に亘っては現れないということである。例えば、特定の楽器や歌声は休止する。この休止が、角度を特定する際のエラーを引き起こさないように、二つないしそれより多くのヒストグラムを求めた後、並びに、それに対応する角度を特定した後に、次のヒストグラムに、例えばローパスといった重み関数を掛け合わせることができる。ローパスは、次式で表すことができる。
Figure 0006163211
ここで、a=0.1及びb=0.9である。インデックスnは、ヒストグラムのインデックスであり、具体的には、最初のヒストグラムないし最初の4096データポイントではn=1である。ローパスを用いることで、ヒストグラムhgl_TPが得られる。
この重み付けにより、角度の識別が安定化される。
算出された角度をもとにして二つの源信号の混合比率が決まるが、その場合、角度として、
Figure 0006163211
が次式に代入される。
Figure 0006163211
ヒストグラムの最大が、例えば18°のところにあるとすると、混合比率としてV=0.325が得られる。
混合比率をもとに、減算信号が計算され、二つの出力信号の場合には次のように与えられる。
Figure 0006163211
ここで、N=1,2,…である。Nは、フィルターで取り去るべき(auszufilternden)源信号のインデックスである。
混合比率が1より大きいか小さいかに応じて、それに応じた減算信号が計算される。このとき、二つよりも多くの出力信号を用いることもできるが、しかしそれをすると単に計算コストが高くなるという結果になる。ステレオ信号の場合のように二つの出力信号だけでなく、それより多い出力信号が存在する場合、それゆえ好適には、源信号を抽出するために、源信号が最も強く表れているような二つの出力信号が選択される。
このように算出された減算信号では、いずれにおいても一つの源信号が遮蔽されている。
これらの減算信号は、次にフーリエ変換される。これはブロック式に行われ、その際に、後続するブロックは、常に、先に変換しているデータポイントの半分の大きさに相当する幅を有して始まる。このことはすなわち、一つのブロックの前半部分は、先行するブロックの第二部分として既にフーリエ変換済みであることを意味する。
この方法は、連続的な信号処理を可能とし、重畳加算法の名で知られている。
リーケージ効果を最小化するために、入力ブロックに窓(例えばハニング窓(Hanning−Fenster))が掛け合わされる。Nのデータポイントのための窓関数f(n)は、以下のものである。
Figure 0006163211
フーリエ変換された減算信号X(以下、「変換信号」と称する。)から、剰余信号が算出される。二つの変換信号Xに対し、剰余信号は、第1の変換信号から第2の変換信号を単純に減算したものとして与えられる。すなわち、
Figure 0006163211
以下においては、引き続き二つの変換信号X ,X と一つの剰余信号X からスタートして、これが全部で三つの信号を生じさせる。そのようなわけで、一つの個別信号を抽出するために、これら三つの信号が互いに比較される。
信号X ,X ,X の各データポイントについては、通常は、各信号が4096のデータポイントを有し、三つの信号の振幅から極値が計算される。
3x4096のデータポイントを持つアレイから開始される。数字の3が変換信号と剰余信号の数を示し、4096が一つのブロック内のフーリエ変換されたデータポイントの数を示している。ベクトルX ,X ,X の最初の周波数ビンないし最初のデータポイントに注目すると、比較するための三つの度数が決まる。これら三つの値の最小の値のところで、他の二つの値のうち最大の方の値が設定されるとともに、他の値はゼロに設定される。
このことをはっきり説明するために、数値例を示す。
位置X の第1の値が5、X の第1の値が10、そしてX の第1の値が15とする。すると、5のところに数値15が設定されるとともに、X 及びX の第1の数値が0に設定される。かくして、数値は、列ごとに検討される。4096の列と三つの行からなるアレイが得られ、このアレイでは、3分の2の値がゼロである。ゼロに等しくない値は、個別ベクトルに亘って不規則に配分されている。X 及びX に対する個別ベクトルは、S 及びS と称し、計算処理後の源信号S,Sがフーリエ変換されたものである。出来た剰余信号 のベクトルは、それ以上は重要でない。
及びS の算出は、次の式により与えられている。
Figure 0006163211
ここで、kは、データポイントないし周波数ビンの項数インデックスであり、データポイントの場合では値が1から2048に及ぶ。周波数ビンの半分しか及ばないはずであるのは、対称性の理由からフーリエ変換に伴ってデータポイントが二重に発生しているからである。上記の例ではk=1であった。
このように転換された行(これらは信号X ,X に対応していたものである。)、つまりは個別信号S ,S を用いると、これをもとに、計算処理された源信号S1,S2を逆フーリエ変換により算出することができる。位相として、信号X ,X の位相もまたそのまま考慮することができる。S 及びS にはしたがって、ベクトルX ,X からの各位相が割り当てられる。この割り当ては、当然のことながら項数インデックスkに基づいて行われる。
個別信号S ,S ないしフーリエ変換された個別信号S,Sは、計算精度や計算誤差のために源信号とは少し異なったものになり得る。すなわち、源信号を完全に再生することは確かに達成されないものの、しかしその違いは僅かなもので、通常はその違いに気づくことはない程である。
個別信号の分離を改善するために、以下の工程が可能である。
最小を見分けるのに飛びがないようにするために、先に行った最小の見分けに応じて信号X ,X ,X の最小を確定することが行われてもよい。例えば、条件付きのローパスフィルタ(bedingter Tiefpassfilter)が用いられてもよい。
Figure 0006163211
hold(k)は、周波数ビンkの注目対象の値であり、このkはここでもまた項数インデックスである。パラメータbは、0と1の間で自由に設定可能であり、b=0のときに周波数の感知は遮断されている。
及びS の算出は、次に以下の式により行われる。
Figure 0006163211
パラメータη(0≦η≦1)は、ローパスフィルタを通された信号がいかなる強度で個別信号S ,m=1,2,3,…に入り込むかを与える。
さらに、変換信号X ,m=1,2,4,5,…の最小は、別々に剰余信号 と比較することができ、つまりは、最小の特定Emin(k)、0又は列の最大値Emax(k)をあてがあうこと等は、変換信号X 剰余信号の間でそれぞれ実行される。このようにして、ベクトルEmin1,Emin2,Emax1,Emax2が算出される。最小値には、因子β(0≦β≦2)が掛け合わされる。因子の選択次第で、異なる効果が生じる。β<1に関しては、望ましくない周波数は抑えられ、β>1に関しては、調和した音調形成が得られる。
個別信号は、以下のものとなる。
Figure 0006163211
加えて、信号は、位相状態をもとに分離することができる。変換信号X (k)の振幅が略同じでかつ剰余信号 (k)に最小値があるときには、位相が考慮される。これらの位相が同じであると、最大値がS (k)に割り当てられ、そうでなければS (k)及びS (k)に割り当てられる。この考え方は、もちろん、各周波数ビンkに対し別々に実行可能である。
以下が適宜成り立つ。
Figure 0006163211
加えて、フーリエ変換された出力信号X m,orgをさらに考慮することができる。最小値がX 1,org(k)にあるとき、これらが、同じようにS (k)に割り振られる。
Figure 0006163211
本発明は、図面に記載された実施形態に基づいてより詳細に説明される。
ステレオ信号に関する本願発明による方法のブロック図である。 第二の実施形態における本願発明による方法のブロック図である。 混合比率を特定するためのフロー図である。 信号源分離のためのフロー図である。 ステレオ信号を収録するための構成を示す図である。 データ対の散布図である。 FTデータ対の散布図である。 ヒストグラムを示す図である。 重畳加算法を説明するための図である。 二つの変換信号と一つの剰余信号の3D振幅スペクトルを示す図である。 個別信号の3D振幅スペクトルを示す図である。 変換信号と個別信号をベクトル形式で示す図である。
図5は、ステレオ信号を録音するための構成を示す。単なる一例として、XY−ステレオ法により源信号を収録するための構成が示されているのであって、基本的には、本発明による方法はしかし他の全てのステレオ技術において使用できるだけでなく、二つよりも多くの出力信号が生成されるような方法においても適用できる。
図示されているのは四つの信号源であり、これら信号源がそれぞれ一つの源信号1,2,3,4を生成する。源信号1は、例えば単一の歌声、つまり一人の男性ないし女性歌手についてのものであり、源信号2は、大勢の男性ないし女性の歌い手からなるバックコーラスについてのもので、ただしコーラスでは同じ歌詞と同じ楽譜が演じられるものであり、源信号3は、楽器、例えばピアノについてのものであり、源信号4は、一群の楽器についてのもの、とはいえコーラス同様に同じ楽譜が演じられるものである。この場合の一例は、同じ旋律を奏でるバイオリンのユニットでもよい。この例が示しているのは、一つの源信号が、一人の単独の男性歌手や一人の単独の女性歌手から構成できたり、あるいは、単独の楽器から構成できたりするのではなく、歌手や楽器の多数から構成され得るということである。マイクロフォン5,6の広がりのある指向性により、源信号1,2,3,4は異なったレベルで収録され、そのために源信号1,2,3,4の混合比率は常に異なっている。
源信号1,2,3,4から、かくしてステレオ信号の二つの出力信号が得られる。これらの出力信号が、まさに本願発明による方法の出発点となる信号であり、したがって元の源信号はそれ以上は使用されない。
もちろん、もっと多くの源信号も出力信号Xを生成するのに用いることができ、本方法を実行するには、有意義には、しかし少なくとも二つの源信号は必要である。
以下において、二つの出力信号X,Xが何度も引き合いに出される。しかし、本発明による方法は、ステレオ信号に限定されるものではなく、基本的には任意の多数の出力信号X,m=1,2,3,…に使用できる。
図1は、本願発明による方法の第一の実施形態によるブロック図を示す。本実施形態においては、二つの出力信号X,Xが考慮されて、二つの源信号(例えば源信号1,2)に対する混合比率が特定される。混合比率を特定するための一つの可能な方法は、後に詳述する。源信号1について例えば混合比率Vが生じ、源信号2について混合比率Vが生じる。出力信号X,Xから次に減算信号X^,X^が計算され、その際には、出力信号X,Xが以下のようにして混合比率に基づき減算される:
Figure 0006163211
ここで、Nは源信号の各指標を表す。
このように計算された減算信号X^,X^は、重畳加算法によりフーリエ変換される。
出力信号X,Xは、もちろんデジタルデータで、相応に数値やデータポイントが単に並んだものに対応する。出力信号は、数値を極めて多数(通常、数万個)持つベクトルとしても表現することができよう。このことは、減算信号に対しても同じように該当する。計算に対する要求を低く抑えるため、そして、とりわけ最初の個別信号が得られるまでの時間を短く保つため、出力信号X,Xないし減算信号は、ブロックにより後続の処理がなされる。フーリエ変換は、例えば減算信号X^ないしX^の最初の4096個のデータポイントに対して適用される。好適には、2のべき乗のデータポイントがフーリエ変換される。それは、本例では、高速フーリエ変換(FFT)が適用できるからである。4096という数は、このとき、消費される計算時間と計算資源を考慮すると、理想的な数である。もっと小さいデータブロック又はもっと大きいデータブロック(例えば、1024ないし2048個のデータポイントのデータブロック)を採用することもできる。この場合、もちろん連続するデータポイントのことを常に意味する。減算信号X^,X^をフーリエ変換することにより、変換信号X ,X が得られる。変換信号X から変換信号X を減算することにより、剰余信号X が得られる。
剰余信号X は、変換信号X ,X と同程度に多くのデータポイント(例えば、4096個のデータポイント)を含んでいる。これらのデータポイントは周波数ドメインにあるので、通常これらは周波数ビンとも呼ばれる。周波数ビンは、したがって変換信号ないし剰余信号のデータポイントである。具体的な場合では、各変換信号・剰余信号は、したがって4096個の周波数ビンを有している。
次に、信号X ,X ,X の中で最小が探されるが、これは、これらが遮蔽された信号と同じ意味を持つからである。そのために、各周波数ビンに関して、信号X ,X ,X の振幅から最小が計算され、その最小のところで、それぞれの周波数ビンのうちの最大の値が設定され、これらの周波数ビンについての他の値がゼロに設定される。ゼロとは異なる値に対する位相を得て、かくして個別信号S ,S を得る。これらの個別信号は、計算処理された源信号S,Sを得るために、時間領域に逆変換されなければならない。
図2は、計算された二つの源信号S,Sよりも多くの源信号を算出するための実施形態を示す。本実施形態に関しては、出力信号X,X,X,Xから二つよりも多くの混合比率が特定され、これにより、より多くの減算信号,それに伴いより多くの変換信号が得られる。このようにして得られた変換信号X ,X ,X ,X 及びこれらから算出される剰余信号X においてもまた、最小を特定することが行なわれ、それにより個別信号S ,S ,S ,S が算出され、これらから、計算された源信号S,S,S,Sの計算が行なわれる。
以下に、混合比率を特定するための一つの可能な方法を示す。基本的には、混合比率を特定するためにあらゆる方法を用いることができる。
図3は、方向の特定に基づいて混合比率を特定するためのフロー図を示す。ここで、ステップS1では、出力信号X,Xがフーリエ変換され、これにより変換された出力信号X 1,org,X 2,orgが得られる。ステップS2では、フーリエ変換された出力信号X 1,org,X 2,orgのそれぞれのデータポイントないし周波数ビンに対して以下の式に基づき振幅値が算出される。
Figure 0006163211
次のステップS3では、先に計算された値から角度θと大きさΨの計算が行なわれる。このとき、フーリエ変換された出力信号X 1,org,X 2,orgの大きさの計算は、データポイントにより、あるいは、ベクトルとして行なわれるが、いずれにしても、これから角度θと大きさΨの値の対を算出することができる。
ステップS4では、θ及びΨの値の対からヒストグラムが計算され、このヒストグラムがステップS5では平坦化される。
ステップS6では、予め決めておいた数だけ、あるいは閾値を超える全ての最大を取り上げることで、ヒストグラムの最大をいくつか特定することが行なわれる。
これらの最大のそれぞれには、上の方で与えられた式により最大の値からそれぞれ計算される一つの角度が割り当てられている。ステップS7では、次に、算出された角度に基づいて、求められる混合比率の特定が行なわれる。
図4は、信号源分離のためのフロー図を示す。変換信号X ,X 及び場合によってはさらにX 及びX 並びに剰余信号 の場合に、それぞれの周波数ビンに対して最小と最大が計算される(ステップS8)。他の実施形態においては、さらにフーリエ変換された出力信号X 1,org,X 2,org及び場合によってはX 3,org及びX 4,orgが考慮される。
ステップS9では、上述したように、各周波数ビンにおいて、最小となるところに、周波数ビンないし各列の最大の値が設定され、他の全ての値には、ゼロ又はホールド値P holdが割り当てられる。
ステップ10によれば、個別信号S ,S ,S ,S のゼロと異なるそれぞれの値に対して、変換信号X ,X ,X ,X のそれぞれの位相が割り当てられる。
このとき、割り当ては、周波数ビンの番号付けに基づいて行なわれる。個別信号S の周波数ビン28がゼロとは異なる値を有するときには、個別信号は変換信号X の周波数ビン28の位相を得ることになる。各周波数ビンにおいて最小の値のところに最大の値を移して残りの値をゼロにするため、個別信号のどの値も、割り当てられた変換信号の値と同じにならない。それでも位相は引き継ぐことができる。
最小ではないところでのゼロへの設定に代えて、ホールド値ηPholdを設定することもできる。これにより、個別信号に飛んだ箇所がないようにする。
図6は、混合状態にある二つの出力信号X,Xの振幅の散布図を示し、この例では、出力信号X,Xは、互いにずれた正弦波信号である。散布図は、各々が値の対(2項目の値)を表し、このとき値の対は、データポイントの番号、いわばデータ−ビンの番号をもとに形成される。出力信号Xのデータポイントの第1のポイントは、第1の振幅を有し、出力信号Xの第1のデータポイントは、同じか又は別の振幅を有する。これら二つの振幅は、散布図9に一つの点をプロットするのに用いられる。出力信号Xと出力信号Xの各データポイントについて複数用いることで、同じだけの数のデータポイント対が生じる。このとき、軸10に出力信号Xの振幅が表示され、軸11に出力信号Xの振幅が表示されている。例えば出力信号X出力信号X上の4096のデータポイントを用いることで、4096のデータポイント対が得られる。これらは、散布図内にポイントクラウド12を形成し、このポイントクラウドは、個々のデータポイント対から求められた複数の点13から形成される。
図7は、対応して形成された散布図14を示すが、ただし出力信号X,Xは、フーリエ変換された上に、信号の振幅は以下のように計算された。
Figure 0006163211
これに応じて、軸15には、X 1,orgの、つまりは出力信号X1がフーリエ変換されたものの振幅の大きさが表示され、軸16には、X 2,orgの振幅の大きさが表示されている。直線17ないし18の傾きを計算することにより、それぞれについて混合比率が得られる。
このように単純なやり方で、実際の収録においてこうは完全でない正弦波信号のときだけはしかし混合比率が算出できる。散布図を作成して得られた直線の傾きを求める代わりに、出力信号X1,X2をフーリエ変換した後で、フーリエ変換された出力信号X 1,org,X 2,orgのポイント対から、それぞれ角度θとベクトルΨが計算される。散布図の代わりに、角度θとベクトルΨからなる対からヒストグラムが求められ、そのヒストグラムで角度は整数値に縮められ、そこから角度における対応する頻度が算出される。各ポイント対から、ヒストグラムに関する個々の頻度が生じる。
このヒストグラムは、平坦化関数を用いて平坦化されることで、局所的な最小の値及び最大の値の数が減らされる。平坦化関数としては、例えば、既に上述した以下の関数を当てることができる。
Figure 0006163211
このように平坦化されたヒストグラムが図8に示されている。軸19には角度が度により示され、つまりは0°から90°まで表示され、他方、軸20には、それぞれ頻度が示されている。ヒストグラム21は、絶対的な真の最大22と、複数の局所的な最大23,24及び25を有する。
頻度の数にしたがって並べると、最大22が最も大きな値を有し、その後に最大25,24及び23が続く。これらの最大の中から、最も頻度の大きい最大について頭の方から予め決めた数だけ選択され、例えば二つの最大、最大22及び25が選択されるか、あるいはまた、頻度か閾値を超えている限り最大を選択し続けることもできる。この閾値を例えば10に設定すると、その後の計算で最大22,25及び24が該当するが、閾値を下回る最大23は該当しない。
それぞれの最大には一つの角度がある。最大22は、例えば18°であるし、最大25は、72°である。
このとき、角度は以下の式により与えられる。
Figure 0006163211
このようにして特定された角度から、それぞれの角度に対してそれぞれ一つの混合比率が以下の式により得られる。
Figure 0006163211
Nは、引き抜くべき源信号のインデックスである。これにより、方向の情報に基づいた混合比率の特定は終了する。
減算信号X^,X^の算出は、ずっと上の方で述べた式により行われる。特に、減算信号X^,X^は、ブロックで算出することもできる。したがってデータポイントについて予め決められたセットごとに行なうことができ、例えば出力信号X,Xの4096のデータポイントのそれぞれが混合比率を用いることで減算信号X^,X^に計算される。減算信号X^,X^は、図9に示されているような重畳加算法によりフーリエ変換される。
図示されているのは、それぞれ減算信号X^ないしは減算信号X^の2048のデータポイントからなるデータブロック26,27,28,29である。ここで、2048という数値は、フーリエ変換に使用されたデータポイントの半分であるところから出てくる。データブロック26〜29のデータポイントの数は、したがって、データブロック30〜33のデータポイントの数から出てくる。
データブロック30は、データブロック26,27から構成され、それに対応してデータブロック26又は27のデータポイントの2倍の数を有している。このデータブロック30は、フーリエ変換されるデータブロックである。データブロック31は、データブロック27,28からなり、データブロック32は、データブロック28とそれに続くデータブロックからなる。データブロック27は、データブロック30,31に含まれ、データブロック28は、データブロック31,32に含まれる。
フーリエ変換に先立ち、データブロック30,31,32,33は、さらにハニング窓が掛け合わされる。これにより、フーリエ変換の際のリーケージ効果を最小限にすることができる。
図10は、変換信号X ,X 剰余信号 の3D−振幅スペクトルを示す。軸35上には、周波数ビンの各番号、つまり信号のベクトルにおける通し番号が付されたポイントが示されている一方、軸36には大きさが表示されている。軸37には、それぞれの大きさが表示されている。位置38には信号|X |が、位置39には信号|X |が、そして位置40には信号|X |がある。
図10に示された信号は、二つの純粋な正弦波信号から求められた。実際の信号では、多かれ少なかれ全ての周波数ビンが一杯になっているが、ただ見やすくするには、正弦波信号が特に適している。図10に示されていることから直ぐに分かるように、信号|X |,|X |,|X |はそれぞれたったの三つの異なる高さのピークしか持たず、他方それ以外ではただのゼロの状態しか持たない。
図11は、個別信号S ,S 剰余信号混合S の3D−振幅スペクトルを示す。軸35は、再び周波数ビンを表示し、軸36は大きさを表示する。軸42上には、これに対し、含まれる個別信号が与えられている。位置43には、個別信号|S |があり、位置44には、剰余信号|S |があり、そして位置45には、個別信号|S |がある。個別信号|S |,|S |を逆フーリエ変換できるようにするため、個別信号|S |,|S |のゼロとは異なる位置のそれぞれに、変換信号X ,X からさらにそれぞれ位相を当てることができる。
図12は、変換信号X ,X 及び剰余信号 から個別信号を取得する点を概略的に示す。ベクトル46は、この例では、変換信号X のものをここでも部分的に示しており、これに対応してベクトル47は、変換信号X の数値を、ベクトル48は、剰余信号X の値を、そしてベクトル49は、対応する周波数ビンを示している。
これらから、ベクトル50に示された個別信号S 、ベクトル51に示された個別信号S 、そしてベクトル52に示された剰余信号 が以下のようにして出てくる。
周波数ビン1に関して、5及び7の数は1より大きいから最小はベクトル48にある。周波数ビン1では、対応するベクトル50,51,52は、したがって次の値が設定される。すなわち、最小値1の位置では、最大値7が設定される。この値は、したがってベクトル52の周波数ビン1に設定されなければならない。周波数ビン1のその余の値、つまりベクトル50,51における値は、ゼロに設定される。最小を見ていくのは、こうして列ごとに、データポイントごとないし周波数ビンごとに、行なわれる。これらの表現は同じものである。
相応して、周波数ビン2,3,4,5,等々に対する列の値が計算される結果、図12に示された値がそれぞれ出てくる。
ベクトル50には、ベクトル46に対する値ないし最小値が集められ、ベクトル51には、ベクトル47に対するものが、そして、ベクトル52には、ベクトル48に対するものが集められる。
個別信号S ,S のベクトル50,51に対しては、さらに続けてまだ変換信号X ,X の位相が割り当てられる。この点を単に一例としてベクトル50の周波数ビン4について述べる。ベクトル50の周波数ビン4については、ベクトル46から周波数ビン4の位相が取得される。これは、ベクトル50がベクトル46の最小を形成し、それゆえにそこに数値が存在しているからである。相応して、同じ周波数ビンの位相が受け渡される。
図の全ての実施形態において、明示された上述の二つの出力信号、二つの変換信号あるいは個別信号に代えて、二つよりも多くの信号を用いることができ、さらに、明細書冒頭で述べた全ての実施形態も、図に関する記載に鑑み用いることができ、それゆえにこの点は明確には排除されていない。
1 源信号
2 源信号
3 源信号
4 源信号
5 マイクロフォン
6 マイクロフォン
7 混合比率特定
8 信号分離
9 散布図
10 軸
11 軸
12 ポイントクラウド
13 点
14 散布図
15 軸
16 軸
17 直線
18 直線
19 軸
20 軸
21 ヒストグラム
22 最大
23 最大
24 最大
25 最大
26 データブロック
27 データブロック
28 データブロック
29 データブロック
30 データブロック
31 データブロック
32 データブロック
33 データブロック
34 3D−振幅スペクトル
35 軸
36 軸
37 軸
38 位置
39 位置
40 位置
41 3D−振幅スペクトル
42 軸
43 位置
44 位置
45 位置
46 ベクトル
47 ベクトル
48 ベクトル
49 周波数ビン
50 ベクトル
51 ベクトル
52 ベクトル

Claims (19)

  1. 二つの源信号(1,)から形成されている二つの、ステレオ信号の出力信号(X,X から二つの個別信号(S ,S を算出する方法において、
    a)前記出力信号(X,X 上での二つの源信号(1,2の混合比率(V,V が特定され、
    b)前記出力信号(X,X に、前記混合比率(V,V から形成された因子が掛け合わされ、減算信号(X^,X^)のそれぞれにおいて一つの源信号(1,2)が消去されるように、前記出力信号(X,X から二つの減算信号(X^,X^ が算出され、
    c)前記減算信号(X^,X^ がフーリエ変換されることにより変換信号(X ,X が生じ、
    d)前記変換信号(X ,X から剰余信号(X )が定められ、
    e)前記変換信号(X ,X 及び前記剰余信号(X )に基づいて、前記変換信号(X ,X )と前記剰余信号(X )内で、前記個別信号(S ,S )を生成するために、各周波数ビン(49)について、最小値が見出され、その最小値に代えて、各周波数ビン(49)のうちの最大値が設定されるとともに、残りの値がゼロに設定されることで、二つの個別信号(S ,S が計算され、
    f)前記個別信号(S ,S が、逆フーリエ変換により、計算処理された源信号(S,S に変換されることを特徴とする方法。
  2. 請求項1に記載の方法において、
    前記混合比率(V,V の特定は、方向特定により行うことを特徴とする方法。
  3. 請求項1又は2に記載の方法において、
    前記混合比率(V,V の特定は、
    前記出力信号(X,X をフーリエ変換するステップと、
    前記フーリエ変換された出力信号(X 1,org,X 2,org の振幅値を計算するステップと、
    前記振幅値からヒストグラム(21)を求めるか、又は、散布図(14)における振幅値の直線(17,18)の傾きを特定するステップと、
    を有していることを特徴とする方法。
  4. 請求項3に記載の方法において、
    前記ヒストグラム(21)は、平坦化関数が掛け合わされることを特徴とする方法。
  5. 請求項4に記載の方法において、
    平坦化関数として、特に、
    Figure 0006163211
    のハニング窓が用いられることを特徴とする方法。
  6. 請求項3乃至5のいずれか1項に記載の方法において、
    前記ヒストグラム(21)における角度間隔が1°であることを特徴とする方法。
  7. 請求項3乃至6のいずれか1項に記載の方法において、
    前記ヒストグラム(21)の局所的な極値、特に局所的な最大(22,23,24,25)が特定されることを特徴とする方法。
  8. 請求項7に記載の方法において、
    絶対的な真の最大(22)から始めて各最大(22,23,24,25)に一つの角度が割り当てられることを特徴とする方法。
  9. 請求項8に記載の方法において、
    前記角度の割り当ては、予め決められた数で終了するか、閾値を下回るときに終了することを特徴とする方法。
  10. 請求項3乃至9のいずれか1項の記載の方法において、
    ヒストグラム(21)がローパスにより重み付けされることを特徴とする方法。
  11. 請求項10に記載の方法において、
    前記ローパスは、時間的に以前に求められたヒストグラムから特定されることを特徴とする方法。
  12. 請求項1乃至11のいずれか1項に記載の方法において、
    二つの出力信号(X,X)のときに減算信号(X^,X^ が算出され、前記混合比率が1より小さいときに、前記混合比率(V)が掛け合わされた第2の前記出力信号(X)が第1の前記出力信号(X)から引かれ、それ以外のときに、前記第1の出力信号(X)に前記混合比率の逆数(1/V)が掛け合わされてそれが前記第2の出力信号(X)から引かれることを特徴とする方法。
  13. 請求項1乃至12のいずれか1項に記載の方法において、
    前記フーリエ変換のために、データポイントについて2のべき乗、特に1024,2048又は4096のデータポイントが用いられることを特徴とする方法。
  14. 請求項13のいずれか1項に記載の方法において、
    前記フーリエ変換のための前記データポイントは、準連続的かつ重畳加算法にしたがって考慮されることを特徴とする方法。
  15. 請求項1乃至14のいずれか1項に記載の方法において、
    前記変換信号の減算信号として剰余信号(X )が定められることを特徴とする方法。
  16. 請求項1乃至15のいずれか1項に記載の方法において、
    少なくとも一つの変換信号(X ,X 及び/又は剰余信号(X )の極値の特定により個別信号(S ,S が定められることを特徴とする方法。
  17. 請求項1乃至16のいずれか1項に記載の方法において、
    前記個別信号(S ,S の周波数は、最小を特定することで識別されることを特徴とする方法。
  18. 請求項16又は17に記載の方法において、
    前記個別信号(S ,S 振幅値に対して、前記変換信号(X ,X の位相値が求められることを特徴とする方法。
  19. 請求項1乃至18のいずれか1項に記載の方法において、
    前記計算すべき源信号(S,S の数、及び/又は、一つ又は複数の前記源信号(1,2そのものが予め与えられていることを特徴とする方法。
JP2015548194A 2012-12-20 2013-12-10 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法 Active JP6163211B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102012025016.9A DE102012025016B3 (de) 2012-12-20 2012-12-20 Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen
DE102012025016.9 2012-12-20
PCT/DE2013/000788 WO2014094709A2 (de) 2012-12-20 2013-12-10 Verfahren zur ermittlung wenigstens zweier einzelsignale aus wenigstens zwei ausgangssignalen

Publications (2)

Publication Number Publication Date
JP2016504622A JP2016504622A (ja) 2016-02-12
JP6163211B2 true JP6163211B2 (ja) 2017-07-12

Family

ID=49999650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015548194A Active JP6163211B2 (ja) 2012-12-20 2013-12-10 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法

Country Status (3)

Country Link
JP (1) JP6163211B2 (ja)
DE (1) DE102012025016B3 (ja)
WO (1) WO2014094709A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017106048A1 (de) 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Erzeugung und Ausgabe eines akustischen Mehrkanalsignals
DE102017106022A1 (de) 2017-03-21 2018-09-27 Ask Industries Gmbh Verfahren zur Ausgabe eines Audiosignals in einen Innenraum über eine einen linken und einen rechten Ausgabekanal umfassende Ausgabeeinrichtung
CN110278721B (zh) 2018-01-18 2021-10-12 Ask工业有限公司 用于将描绘音乐作品的音频信号经由输出装置输出到内部空间中的方法
CN111972928B (zh) * 2020-08-21 2023-01-24 浙江指云信息技术有限公司 一种具有环绕音场的助睡眠枕头及其调控方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870480A (en) * 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
JP2009282536A (ja) * 2003-05-30 2009-12-03 National Institute Of Advanced Industrial & Technology 既知音響信号除去方法及び装置
JP4580210B2 (ja) * 2004-10-19 2010-11-10 ソニー株式会社 音声信号処理装置および音声信号処理方法
US7912232B2 (en) * 2005-09-30 2011-03-22 Aaron Master Method and apparatus for removing or isolating voice or instruments on stereo recordings

Also Published As

Publication number Publication date
WO2014094709A3 (de) 2014-08-14
JP2016504622A (ja) 2016-02-12
WO2014094709A2 (de) 2014-06-26
DE102012025016B3 (de) 2014-05-08

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
JP6981417B2 (ja) 音源分離装置および方法、並びにプログラム
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
EP2633524B1 (en) Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal
Kim et al. KUIELab-MDX-Net: A two-stream neural network for music demixing
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
Miron et al. Score‐Informed Source Separation for Multichannel Orchestral Recordings
JP2010134231A (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
JP6163211B2 (ja) 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法
JP5127982B2 (ja) 音楽検索装置
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
JP2015118361A (ja) 情報処理装置、情報処理方法、及びプログラム
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
JP2007333895A (ja) 和音推定装置及び方法
Hung et al. Transcription is all you need: Learning to separate musical mixtures with score as supervision
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Marxer et al. Low-latency instrument separation in polyphonic audio using timbre models
KR102018286B1 (ko) 음원 내 음성 성분 제거방법 및 장치
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Ye et al. Lavss: Location-guided audio-visual spatial audio separation
CN115699160A (zh) 电子设备、方法和计算机程序
KR20100000265A (ko) 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치
EP3860156A1 (en) Information processing device, method, and program
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170616

R150 Certificate of patent or registration of utility model

Ref document number: 6163211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250