JP2012523579A

JP2012523579A - 混合信号を形成する方法及び装置、信号を分離する方法及び装置、並びに対応する信号

Info

Publication number: JP2012523579A
Application number: JP2012504047A
Authority: JP
Inventors: パーヴェクス、マチュー; ギリン、ローラン; − マルクブロッシエール、ジャン; マルシャン、シルバン
Original assignee: アンスティテュポリテク二ックドゥグルノーブル; ユニヴェルスィテボルドー１
Priority date: 2009-04-10
Filing date: 2010-03-30
Publication date: 2012-10-04
Also published as: US20120203362A1; EP2417597A1; WO2010116068A1; FR2944403B1; KR20120006050A; FR2944403A1

Abstract

本発明は、少なくとも２つのデジタル・ソース信号（Ｓ_１、Ｓ_２）、特に、オーディオ信号から１つ以上の混合信号（Ｓ_ｏｕｔ）を形成する方法に関し、ソース信号（Ｓ_１、Ｓ_２）を混合することにより混合信号（Ｓ_ｏｕｔ）が形成される。具体的には、ソース信号又は混合の特徴の大きさが予め決定され、特徴の大きさの値（Ｗ_１、Ｗ_２）が信号（Ｓ_１、Ｓ_２、Ｓ_ｏｕｔ）の少なくとも１つに入れ込まれる。本発明は、入れ込まれたソース信号又は混合の特徴の大きさの値を含む１つ以上の混合信号に含まれる少なくとも１つのデジタル・ソース信号を少なくとも部分的に分離する分離方法にも関する。この方法に従って、入れ込まれた値及びソース信号又は混合の特徴の大きさが決定され、次に前記ソース信号を少なくとも部分的に得るために前記値に基づいて１つ以上の混合信号が処理される。本発明は、対応する混合信号（Ｓ_ｏｕｔ）のほか対応する装置にも関する。

Description

本発明は、グローバル信号を構成するコンポーネント・ソース信号の少なくとも１つを分離するための方法に関する。本発明は、その少なくとも１つのコンポーネント・ソース信号を後で分離できるようにグローバル信号を形成する方法にも関する。最後に、本発明は、これらの方法を実現するための装置にも関する。

信号の混合は、ソース信号と呼ばれるいくつかの信号を加算して、混合信号と呼ばれる１つ以上のコンポジット信号を得ることである。具体的には、オーディオ応用では、混合は、ソース信号を加算する単純なステップにより構成することができ、あるいは、加算前及び／又は後に信号をフィルタリングするステップを含むこともできる。さらに、オーディオ・コンパクト・ディスク等の特定の応用に対して、ソース信号を異なる方法で混合して、ステレオ信号の２つの径路（左及び右）に対応する２つの混合信号を形成してよい。

ソースの分離は、同じソース信号に基づいて形成された一定数の異なる混合信号の観測に基づいてソース信号を推定することである。一般的に、その目的は、１つ以上のターゲット・ソース信号を増強するか、実際に可能ならば完全に抽出することである。混合信号内に存在するソース信号の数よりも少ない数の混合信号が利用可能ないわゆる「未決定（ｕｎｄｅｒ−ｄｅｔｅｒｍｉｎｅｄ）」の場合、ソースの分離は特に困難である。この場合、ソース信号内に存在する情報について、これらの混合信号内の利用可能な情報量は僅かであるため、抽出は、非常に困難か実際には不可能である。一般的に、非常に冗長性の高い２つのステレオ径路（すなわち２つの混合信号）だけが多数の潜在的なソース信号に対して利用可能なため、オーディオ・コンパクト・ディスク上の音楽信号は、特にその代表例である。

ブラインド（ｂｌｉｎｄ）分離、コンピュータによる聴覚情景分析、及びモデルに基づく分離を含むいくつかのタイプのソース信号分離手法が存在する。ブラインド分離は、最も一般的な形式であり、ソース信号に関する情報又は混合信号の性質に関する情報は、事前に知られていない。その結果、これらのソース信号及び混合信号について一定数の仮定（例えば、ソース信号は統計的に独立）がなされ、これらの仮定に基づく基準を最大化（例えば、分離装置により得られる信号の独立性を最大化）することにより分離システムのパラメータが推定される。しかし、一般的に、この手順は、多数（少なくとも、ソース信号と同じ数）の混合信号を利用可能な場合に使用されるので、混合信号の数がソース信号の数よりも少ない未決定の場合には適用できない。

コンピュータによる聴覚情景分析は、ソース信号を高調波パーシャル（ｐａｒｔｉａｌ）としてモデル化するものであるが、混合信号がはっきりとは分解されない。この手順は、我々の耳が行うのと同様にソース信号を分離する人間の聴覚系の機構に基づく。詳細については、非特許文献１、非特許文献２、非特許文献３を引用する。しかし、一般的に、コンピュータによる聴覚情景分析は、ソース信号の分離について悪い結果をもたらし、特にオーディオ信号の場合にそうである。

分離の別の形式は、適応した関数の基底上でのミクスチュア（ｍｉｘｔｕｒｅ）の分解に依存する。時間パーシモニアス分解（ｔｅｍｐｏｒａｌｐａｒｓｉｍｏｎｉｏｕｓｄｅｃｏｍｐｏｓｉｔｉｏｎ）及び周波数によるパーシモニアス分解（ｐａｒｓｉｍｏｎｉｏｕｓｄｅｃｏｍｐｏｓｉｔｉｏｎｂｙｆｒｅｑｕｅｎｃｙ）という２つの大きなカテゴリがある。

前者は、ミクスチュアの波形の分解を伴い、後者は、そのスペクトル表現の「アトム」と呼ばれる初等関数、辞書の要素の和への分解を伴う。多様なアルゴリズムにより辞書のタイプ及び最も可能性の高い対応する分解を選択することができる。時間ドメインの詳細については、非特許文献４又は５を引用する。非特許文献６により提案された手順では、分解アトム（ｄｅｃｏｍｐｏｓｉｔｉｏｎａｔｏｍｓ）を独立サブスペースに分類することによって、高調波パーシャル群を抽出することができるようになる。この手順の制限の１つは、信号に適応していない、例えばガボール（Ｇａｂｏｒ）・アトム等のアトムの一般的な辞書が良い結果を与えないことである。さらに、これらの分解が有効であるためには、辞書が各タイプの楽器の波形の全ての変形された（ｔｒａｎｓｌａｔｅｄ）形式を含む必要がある。その結果、分解辞書は、投影したがって分離が有効であるためには非常に膨大でなければならない。

時間ケースにみられる変形におけるこの不変性(ｉｎｖｒｉａｎｃｅ)の問題を緩和するために、周波数によるパーシモニアス分解手法が存在する。詳細については、独立サブスペース分析（ＩＳＡ）を紹介した非特許文献７を引用する。この分析は、アトムの基底上で（短時間フーリエ変換（ＳＴＦＴ）により計算される）混合信号の短時間振幅スペクトルを分解し、その後独立サブスペースにアトムをグループ分けし、各サブスペースは、あるソースに固有であり、その後ソースを別々に再合成するものである。しかし、一般的に、この手法は、ＳＴＦＴによるスペクトル分析の分解能、このスペクトル・ドメイン内のソースの重ね合わせ、及び振幅へのスペクトル分離の制限（信号の再合成フェーズは混合信号のそれである）といういくつかの要因により制限される。したがって、一般的に、混合信号を独立サブスペースの和として表わすことは、スペクトル・ドメイン内のサウンド・シーンの複雑さ（様々なコンポーネントの強力なインブリケーション：ｉｍｂｒｉｃａｔｉｏｎ）や混合信号内の各コンポーネントの寄与の時間の関数としての変化のため、困難である。実際は、良く管理された「単純化された」混合信号（ソース信号が数のかなり少ないＭＩＤＩ楽器又は比較的よく分離可能な楽器）により手順が評価されることが多い。

様々なソースの統計的モデルを使用する非特許文献８も引用する。しかし、これらのモデル・パラメータは、分離対象の様々な楽器のオーディオ・トラックの例に基づいて調整される。

非特許文献９は、多様な楽器の特性を「学ぶ」のにニューラル・ネットを使用する。これは、聴覚イメージ・モデルによりピアノの音色の聴覚特性を抽出し、次にピアノを分離するためにミクスチュア内のこれらの特性を強調しようとする。

非特許文献１０は、ミクスチュアのヒルベルト・スペクトルの独立サブスペースへの分解により、ソースの分離に取り組んでおり、ヒルベルト変換は、様々なソースの判別についてフーリエ変換よりも良い結果を提供する。

非特許文献１１は、特定の楽器、及びこの楽器の様々な音符に対して学んだガボール・アトムの基底上でのミクスチュアの分解による分離を提案している。「マッチング追求」技術により、これらアトムの一部は、保持され、次に抽出した音符に適応したサブスペース内に集められる。

最後に、非特許文献１２は、ソース信号から生じるソース信号の識別でソース信号をマークすることを提案している。具体的には、マーキングは、混合信号の周波数スペクトル内で各ソース信号から生じる周波数を分離するために行われる。しかし、このようにして分離することができるソースの数は制限される。さらに、ソース信号に含まれる全ての周波数をマークすることは考えられず、あるソース信号のマークされない周波数と他のソース信号のマークされた周波数とが重なることがある。

これら全ての研究に対して、応用される実際のケースについて非常に管理された条件下でかなり非現実的な人工的ミクスチュアについてテストが行われている。

さらに、混合信号自体により提供されるもの以外の利用可能な情報を欠くため、未決定ミクスチュアに基づく分離手順は限られた有効性を示す。

Ｐ．Ｂｏｕｒｃｅｔ，Ｄ．ＭａｓｓｅａｎｄＢ．Ｊａｈａｎ：Ｓｙｓｔｅｍｅｄｅｄｉｆｆｕｓｉｏｎｄｅｄｏｎｎｅｅｓ［Ｄａｔａｂｒｏａｄｃａｓｔｉｎｇｓｙｓｔｅｍ］，１９９５．ＰａｔｅｎｔｏｆＩｎｖｅｎｔｉｏｎ９５０６７２７，ＴｅｌｅｄｉｆｆｕｓｉｏｎｄｅＦｒａｎｃｅ

Ｄ．Ｐ．Ｗ．Ｅｌｌｉｓ，Ｕｓｉｎｇｋｎｏｗｌｅｄｇｅｔｏｏｒｇａｎｉｚｅｓｏｕｎｄ：Ｔｈｅｐｒｅｄｉｃｔｉｏｎ−ｄｒｉｖｅｎａｐｐｒｏａｃｈｔｏｃｏｍｐｕｔａｔｉｏｎａｌａｕｄｉｔｏｒｙｓｃｅｎｅａｎａｌｙｓｉｓ，ａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｓｐｅｅｃｈ／ｎｏｎ−ｓｐｅｅｃｈｍｉｘｔｕｒｅ（ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，２７（３），ｐｐ．２８１−２９８，１９９９）Ｄ．ＧｏｄｓｍａｒｋａｎｄＧ．Ｊ．Ｂｒｏｗｎ，Ａｂｌａｃｋｂｏａｒｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｃｏｍｕｔａｔｉｏｎａｌａｕｄｉｔｏｒｙｓｃｅｎｅａｎａｌｙｓｉｓ（ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，２７（３），ｐｐ．３５１−３６６，１９９９）Ｔ．Ｋｉｎｏｓｈｉｔａ，Ｓ．ＳａｋａｉａｎｄＨ．Ｔａｎａｋａ，Ｍｕｓｉｃａｌｓｏｕｎｄｓｏｕｒｃｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｆｒｅｑｕｅｎｃｙｃｏｍｐｏｎｅｎｔａｄａｐｔａｔｉｏｎ（ＩｎＰｒｏｃ．ＩＪＣＡＩＷｏｒｋｓｈｏｐｏｎＣＡＳＡ，ｐｐ．１８−２４，１９９９）Ｌ．Ｂｅｎａｒｏｙａ，Ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｐａｒｃｉｍｏｎｉｅｕｓｅｓｐｏｕｒｌａｓｅｐａｒａｔｉｏｎｄｅｓｏｕｒｃｅｓａｖｅｃｕｎｓｅｕｌｃａｐｔｅｕｒ［Ｐａｒｓｉｍｏｎｉｏｕｓｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｔｈｅｓｅｐａｒａｔｉｏｎｏｆｓｏｕｒｃｅｓｗｉｔｈａｓｉｎｇｌｅｓｅｎｓｏｒ］（Ｐｒｏｃ．ＧＲＥＴＳＩ，２００１）Ｐ．Ｊ．ＷｏｌｆｅａｎｄＳ．Ｊ．Ｇｏｄｓｉｌｌ，ＡＧａｂｏｒｒｅｇｒｅｓｓｉｏｎｓｃｈｅｍｅｆｏｒａｕｄｉｏｓｉｇｎａｌａｎａｌｙｓｉｓ（Ｐｒｏｃ．ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，ｐｐ．１０３−１０６，２００３）Ｒ．ＧｒｉｂｏｎｖａｌａｎｄＥ．Ｂａｃｒｙ，ＨａｒｍｏｎｉｃＤｅｃｏｍｐｏｓｉｔｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓＷｉｔｈＭａｔｃｈｉｎｇＰｕｒｓｕｉｔ，ＩＥＥＥＴｒａｎｓ．ＳｉｇｎａｌＰｒｏｃ．，５１（１），ｐｐ．１０１−１１２，２００３Ｍ．Ａ．ＣａｓｅｙａｎｄＡ．Ｗｅｓｔｎｅｒ，Ｓｅｐａｒａｔｉｏｎｏｆｍｉｘｅｄａｕｄｉｏｓｏｕｒｃｅｓｂｙｉｎｄｅｐｅｎｄｅｎｔｓｕｂｓｐａｃｅａｎａｌｙｓｉｓ，Ｐｒｏｃ．Ｉｎｔ．ＣｏｍｐｕｔｅｒＭｕｓｉｃＣｏｎｆ．，２０００Ｌ．Ｂｅｎａｒｏｙａ，Ｆ．ＢｉｍｂｏｔａｎｄＲ．ＧｒｉｖｏｎｖａｌＡｕｄｉｏｓｏｕｒｃｅｓｓｅｐａｒａｔｉｏｎｗｉｔｈａｓｉｎｇｌｅｓｅｎｓｏｒ（ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，＆ＬａｎｇｕａｇｅＰｒｏｃ．，１４（１），２００６）Ｓ．Ｄ．ＴｅｄｄｙａｎｄＥ．Ｌａｉ，Ｍｏｄｅｌ−ｂａｓｅｄａｐｐｒｏａｃｈｔｏｓｅｐａｒａｔｉｎｇｉｎｓｔｒｕｍｅｎｔａｌｍｕｓｉｃｆｒｏｍｓｉｎｇｌｅｔｒａｃｋｒｅｃｏｒｄｉｎｇｓ（Ｉｎｔ．Ｃｏｎｆ．Ｃｏｎｔｒｏｌ，Ａｕｔｏｍａｔｉｏｎ，ＲｏｂｏｔｉｃｓａｎｄＶｉｓｉｏｎ，Ｋｕｎｍｉｎｇ，Ｃｈｉｎａ，２００４）Ｋ．Ｉ．ＭｏｌｌａａｎｄＫ．Ｈｉｒｏｓｅ，Ｓｉｎｇｌｅ−ＭｉｘｔｕｒｅａｕｄｉｏｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｂｙｓｕｂｓｐａｃｅｄｅｃｏｍｐｏｓｉｔｉｏｎｏｆＨｉｌｂｅｒｔｓｐｅｃｔｒｕｍ（ＩＥＥＥＴｒａｎｓ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，＆ＬａｎｇｕａｇｅＰｒｏｃ．，１５（３），２００７）Ｎ．Ｃｈｏ，Ｙ．ＳｈｉｕａｎｄＣ．−Ｃ．Ｊ．Ｋｕｏ，Ａｕｄｉｏｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｗｉｔｈｍａｔｃｈｉｎｇｐｕｒｓｕｉｔａｎｄｃｏｎｔｅｎｔ−ａｄａｐｔｉｖｅｄｉｃｔｉｏｎａｒｉｅｓ（ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ，２００７）Ｙ．−Ｗ．Ｌｉｕ，Ｓｏｕｎｄｓｏｕｒｃｅｓｅｇｒｅｇａｔｉｏｎａｓｓｉｓｔｅｄｂｙａｕｄｉｏｗａｔｅｒｍａｒｋｉｎｇ（ＩＥＥＥ，Ｉｎｔ．Ｃｏｎｆ．ＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐｏ．，ｐａｇｅｓ２００−２０３，２００７）Ｒ．Ｇａｒｃｉａ：Ｄｉｇｉｔａｌｗａｔｅｒｍａｒｋｉｎｇｏｆａｕｄｉｏｓｉｇｎａｌｓｕｓｉｎｇｐｓｙｃｈｏａｃｏｕｓｔｉｃａｕｄｉｔｏｒｙｍｏｄｅｌａｎｄｓｐｒｅａｄｓｐｅｃｔｒｕｍｔｈｅｏｒｙ，１０７ｔｈＣｏｎｖｅｎｔｉｏｎｏｆＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ（ＡＥＳ），１９９９Ｃｏｘ，Ｉ．Ｊ．，Ｋｉｌｉａｎ，Ｊ．，Ｌｅｉｇｈｔｏｎ，Ｆ．Ｔ．，Ｓｈａｍｏｏｎ，Ｔ．：Ｓｅｃｕｒｅｓｐｒｅａｄｓｐｅｃｔｒｕｍｗａｔｅｒｍａｒｋｉｎｇｆｏｒｍｕｌｔｉｍｅｄｉａ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，６（１２），ｐｐ．１６７３−１６８７，１９９７Ｉ．Ｊ．Ｃｏｘ，Ｍ．Ｌ．ＭｉｌｌｅｒａｎｄＡ．Ｌ．ＭｃＫｅｌｌｉｐｓ，Ｗａｔｅｒｍａｒｋｉｎｇａｓｃｏｍｍｕｎｉｃａｔｉｏｎｓｗｉｔｈｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ，ＩＥＥＥＰｒｏｃ．，８７（７），ｐｐ．１１２７−１１４１，１９９９ＲｙｕｋｉＴａｃｈｉｂａｎａ：Ａｕｄｉｏｗａｔｅｒｍａｒｋｉｎｇｆｏｒｌｉｖｅｐｅｒｆｏｒｍａｎｃｅ，ＳＰＩＥＥｌｅｃｔｒｏｎｉｃＩｍａｇｉｎｇ：ＳｅｃｕｒｉｔｙａｎｄＷａｔｅｒｍａｒｋｉｎｇｏｆＭｕｌｔｉｍｅｄｉａＣｏｎｔｅｎｔＶ，ｖｏｌｕｍｅ５０２０，ｐｐ．３２−４３，２００３Ｔ．Ｎａｋａｍｕｒａ，Ｒ．Ｔａｃｈｉｂａｎａ＆Ｓ．Ｋｏｂａｙａｓｈｉ，Ａｕｔｏｍａｔｉｃｍｕｓｉｃｍｏｎｉｔｏｒｉｎｇａｎｄｂｏｕｎｄａｒｙｄｅｔｅｃｔｉｏｎｆｏｒｂｒｏａｄｃａｓｔｕｓｉｎｇａｕｄｉｏｗａｔｅｒｍａｒｋｉｎｇ，ＳＰＩＥＥｌｅｃｔｒｏｎｉｃＩｍａｇｉｎｇ：ＳｅｃｕｒｉｔｙａｎｄＷａｔｅｒｍａｒｋｉｎｇｏｆＭｕｌｔｉｍｅｄｉａＣｏｎｔｅｎｔＩＶ，ｖｏｌ．４６７５，ｐｐ．１７０−１８０，２００２Ｂ．ＣｈｅｎａｎｄＣ．−Ｅ．Ｗ．Ｓｕｎｄｂｅｒｇ：Ｄｉｇｉｔａｌａｕｄｉｏｂｒｏａｄｃａｓｔｉｎｇｉｎｔｈｅｆｍｂａｎｄｂｙｍｅａｎｓｏｆｃｏｎｔｉｇｕｏｕｓｂａｎｄｉｎｓｅｒｔｉｏｎａｎｄｐｒｅｃａｎｃｅｌｉｎｇｔｅｃｈｎｉｑｕｅｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，４８（１０），ｐｐ．１６３４−１６３７，２０００Ｂ．Ｃｈｅｎ＆Ｇ．Ｗｏｒｎｅｌｌ，Ｑｕａｎｔｉｚａｔｉｏｎｉｎｄｅｘｍｏｄｕｌａｔｉｏｎ：ａｃｌａｓｓｏｆｐｒｏｖａｂｌｙｇｏｏｄｍｅｔｈｏｄｓｆｏｒｄｉｇｉｔａｌｗａｔｅｒｍａｒｋｉｎｇａｎｄｉｎｆｏｒｍａｔｉｏｎｅｍｂｅｄｄｉｎｇ．ＩＥＥＥＴｒａｎｓ．ＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，４７，ｐｐ．１４２３−１４４３，２００１Ｍ．Ｃｏｓｔａ，Ｗｒｉｔｉｎｇｏｎｄｉｒｔｙｐａｐｅｒ，ＩＥＥＥＴｒａｎｓ．ＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，２９，ｐｐ．４３９−４４１，１９８３

したがって、本発明の目的は、より有効なやり方によって、混合信号に含まれるソース信号を分離できるようにする方法を提案することである。特に、本発明の目的は、混合信号の数がソース信号の数よりも小さい、いわゆる「未決定」の場合にソース信号を分離する方法を提供することである。

そのために、一実施例では、少なくとも２つのデジタル・ソース信号、特にオーディオ信号に基づく１つ以上の混合信号の形成方法が提案され、混合信号は、ソース信号を混合することにより形成される。特に、ソース信号又は混合の特徴を示す量が決定され、信号の少なくとも１つに前記特徴量（ｃｈａｒａｃｔｅｒｉｓｔｉｃｑｕａｎｔｉｔｙ）の値が透かしとして入れられる。

また、ソース信号を混合することにより得られ、ソース信号又は混合の特徴を示す量の透かし値（ｗａｔｅｒｍａｒｋｅｄｖａｌｕｅ）を含む１つ以上の混合信号に含まれる少なくとも１つのデジタル・ソース信号を少なくとも部分的に分離するための分離方法も提案される。この方法に従って、ソース信号又は混合の特徴を示す量の透かし値が決定され、次に前記ソース信号を少なくとも部分的に得るために混合信号が前記値の関数として処理される。

一般的に、透かしは、二値情報をデジタル信号に加えることである。特に、透かしは、信号により表わされるコンテンツに関する情報を挿入するのに使用される。したがって、信号が写真や歌を表わす場合、透かし情報は、例えば、写真や歌の作者でよい。

以後、オーディオ透かしの技術について考える。ここでは、信号の透かしとして、好ましくは人間の知覚システムの欠陥を利用して知覚できない、すなわち不可聴情報をオーディオ信号である信号に挿入する。典型的に採用される技術は、スペクトル拡散タイプである（非特許文献１３、非特許文献１４）。一般的に、オーディオ透かしは、デジタル媒体上の作品に対する著作権の保護及び管理（「デジタル権利管理」）のフレームワーク、より一般的には、このタイプの媒体上の情報のトレーサビリティのフレームワークで使用される。このように、歌にその作者又は所有者を識別できるようにする情報を透かしとして入れることができる。この場合、その目的は、非常にロバストな（ｒｏｂｕｓｔ）やり方（すなわち起こり得る多少とも合法的な信号の操作に抵抗力のある方法）で、比較的少量の情報を信号の広い時間−周波数スパンに亘って拡散し次に歌に付加して挿入することにより、それを分離・削除することを非常に困難にすることである。

（透かしが形成される）エミッタにおいてホスト信号が既知であれば、「情報に基づく透かし」（「サイド情報を入れた透かし」）について論じてよい。この場合の目的は、それが挿入される信号に適応した最適透かしを選択することである（非特許文献１５）。満足させるべき制約は、可能な限り高い伝送スループットが得られるが透かしが可聴でないこと、さらに伝送の可能な限りの信頼性（伝送の過程で発生するエラーが僅か）を確保することである。したがって、データ伝送に対する透かしは、特に、例えばデータベースのインデクスを作成する目的の文書の注釈（非特許文献１６）又はこの文書のブロードキャストに関する統計をまとめる目的の文書識別（非特許文献１７）のために使用される。データ伝送に対する透かしのフレームワークで、ホスト信号の特性が透かしのそれと置換される置換透かし技術を引用することもできる。置換透かしの例は、Ｃｈｅｎ（非特許文献１８）又はＢｏｕｒｃｅｔ（特許文献１）に記述されている。

この場合、Ｃｈｅｎ及びＷｏｒｎｅｌｌの研究により触発された透かし方式を使用することができる（非特許文献１９）。これらの研究において、透かしは、量子化により導入される。簡略化された方法では、透かしは、ホスト信号の表現の１つ（時間、スペクトル、又はスペクトル−時間表現）における量子化レベルの変更によって入れる。この技術の理論的性能は、Ｃｏｓｔａのモデルに匹敵し（非特許文献２０）、エミッタにおいて信号が事前に知られていれば、Ｃｏｓｔａのモデルが伝送チェーンの伝送容量の理論的限界を定める。

この場合、透かしは、信号自体に関する情報を挿入するのに使用され、混合信号に基づいてソース信号の分離を可能にする。ここでは、挿入される情報は、ソース信号自体（例えば、時間上、周波数内、又は時間−周波数平面内のエネルギ分布）、ソース信号及び混合信号（例えば、時間−周波数平面内における多少ローカルな規模での混合信号内の各ソース信号の寄与）、又は混合方法自体（混合信号をもたらす混合ステップのパラメータ）に関連している。したがって、それは、ソース信号及び／又は混合の特徴を示す量、すなわちソース信号及び／又は信号処理という意味の混合の特徴を示す記述子を伴い、これらの記述子が信号の分離を助けることができるようにしなければならない。したがって、ここでは、これは、比較的多量であると同時にオプションとして時間−周波数平面内においてよくローカライズされよく管理された方法で分布された情報を伴う。一方、透かしは、特に、信号が受けるかもしれない不正操作について、特定のロバストネス（ｒｏｂｕｓｔｎｅｓｓ）を示す必要はない。このように、非セキュアタイプの手順、すなわち信号の操作に対して非常にロバストではないが大量の情報を透かしとして入れることができるようにする手順を透かし手順としてよい。

透かし方法とソースを分離する方法の結合は、分離の瞬間に、混合前の少なくとも１つのソース信号又は混合方法自体のパラメータに関する情報が知られているような情報に基づく分離を伴う限り、混合信号に基づくソース信号の分離の有効性を改善することができる。特に、いわゆる「未決定」の場合、単一の混合信号であっても、ソース信号自体に関する情報を混合信号内に透かしとして入れて、分離を可能にできる。言い換えると、たとえソース信号の数が多くても、透かしは、有効な分離を得るのに必要な情報を提供する。

特徴量は、信号をほとんど変更せずそのフォーマットを変更しないように、信号内に透かしとして入れられる。特に、オーディオ信号の場合、透かしをいれた混合信号は、コンパクト・ディスクの従来のリーダと互換性を保ったまま、透かし値がほとんど可聴ではないように挿入される。この結果、信号分離は、たとえ既知の方法により処理されないにしても、混合信号は、既知の方法により読み取ることができる。

好ましくは、特徴量は、少なくとも１つのソース信号の時間、スペクトル、又はスペクトル−時間エネルギ分布を表わす。この場合、この量は、少なくとも１つのソース信号の特徴を示す。それは、混合信号に透かしとして入れられる情報の量を制限しながら有効な分離ができるように選択される。したがって、同じような分離を得るのに、特徴量は、ソース信号の特徴に従って多少正確になり多量になる。

その代わりに、特徴量は、混合信号内のソース信号の少なくとも１つの、少なくとも１つの決定した瞬間における、振幅又はエネルギ・スペクトルの寄与を表すことができる。この場合、それは、ソース信号と混合信号との間の相対量を伴い、この量は、混合信号に関するソース信号の特徴を示す。

最後に、特徴量は、混合信号を得るためのソース信号混合用パラメータを表すことができる。それは、例えば重み付けパラメータ及び適切であれば混合ステップの間に各ソース信号と関連付けられたフィルタリング・パラメータのセットを含んでよい。この場合、この量は、このように得られた混合信号を決定する混合中にソース信号を重み付け又はフィルタリングするための様々なパラメータを表し、この量は、混合の特徴を示す。特に、ステレオ信号に対しては、分離問題の未決定文字があったとしても、混合方法の知識を利用してソース信号を少なくとも部分的に分離できる場合がある。

前記特徴量の値は、混合前にソース信号に及び／又は混合後に混合信号に、透かしとして入れてよい。いずれの場合も、この特徴量の決定及び透かしには、ソース信号及び／又は混合信号及び／又は混合方法の知識が必要である。

別の特徴に従って、少なくとも２つのデジタル・ソース信号、特にオーディオ信号に基づいて１つ以上の混合信号を形成する装置であって、混合信号を形成するために前記ソース信号を混合する手段を備える装置が提案される。この装置は、ソース信号又は混合の特徴を示す量を決定する手段、及び前記特徴量の値を信号の少なくとも１つに透かしとして入れる手段も備える。

また、ソース信号を混合することにより得られ、ソース信号又は混合の特徴を示す量の透かし値を含む１つ以上の混合信号に含まれる少なくとも１つのデジタル・ソース信号を少なくとも部分的に分離するための分離装置も提案される。この装置は、ソース信号又は混合の特徴を示す量の透かし値を決定する手段と、混合信号を前記値の関数として処理する手段とを備え、前記ソース信号を少なくとも部分的に得ることができる。

形成装置の一実施例により、透かし手段は、混合手段の上流に備えられ、特徴量の値をソース信号に透かしとして入れることができる。

形成装置の別の実施例により、透かし手段は、混合手段の下流に備えられ、特徴量の値を混合信号に透かしとして入れることができる。

形成装置は、信号の表現を量子化する手段も備え、透かし手段は、信号の表現の量子化のオーバーレベルを使用して特徴量の値をマークすることができる。信号の表現は、信号のスペクトル又はスペクトル−時間表現でよい。

特に、量子化手段は、信号の表現内に導入してよい変更の大きさを、従来の読取装置又は本発明に従った分離装置により信号が復元される時にこれらの変更が信号の知覚量を変えないように、また、これらの変更を本発明に従った分離装置により検出できるように、決定することを可能にする。

このように、この透かし信号により表されるサウンド・コンテンツの品質が、初期信号により表されるサウンド・コンテンツの品質に対してほとんど劣化しないように、特徴量を透かしとして入れた信号を得ることができる。既知の装置による透かし信号の復元により、ほとんど変更されないサウンド・コンテンツ品質を得ることができ、透かしを入れた信号の本発明に従った装置による処理により、信号に入れた透かし値を決定することができる。

別の特徴に従って、少なくとも２つのソース信号を混合することにより得られ、ソース信号又は混合の特徴を示す量の透かし値を含む混合信号、特にオーディオ信号が提案される。

前記混合信号を含む情報媒体、特にオーディオ・コンパクト・ディスクも提案される。

本発明に従った混合信号を形成する装置の第１実施例の略図である。本発明に従った分離装置の第１実施例の略図である。本発明に従った混合信号を形成する装置の第２実施例の略図である。本発明に従った分離装置の第２実施例の略図である。本発明に従った混合信号を形成する方法のフロー・チャートである。透かしを入れる方法のフロー・チャートである。本発明に従った分離方法のフロー・チャートである。

完全に非制約的例として添付図に例示された特定の実施例を検討すれば、本発明はより良く理解される。図１は、混合信号を形成する装置１の第１実施例の略図である。形成装置１は、入力としてソース信号Ｓ_１及びＳ_２を受信し、混合信号Ｓ_ｏｕｔを送出する。ここでは、簡単にするために、ソース信号の数は２に制限されている。しかし、当然、ソース信号の数は遥かに多くてよい。さらに、後の説明では、信号は、オーディオ信号とする。形成装置１の目的は、ソース信号Ｓ_１及びＳ_２に基づいて形成され、ソース信号の少なくとも１つの特徴を示す量の透かし値を含む混合信号Ｓ_ｏｕｔを送出することである。

この装置は、混合手段２を備える。また、混合手段は、入力としてソース信号Ｓ_１及びＳ_２を受信し、出力としてソース信号の結合の結果得られる初期混合信号Ｓ_ｍｉｘを送出する。具体的には、混合は、単純な和でできる。また、それは、各ソース信号に割り当てられたその和の係数が時間の経過とともに変化する和、又は１つ以上のフィルタに関連づけられた和でもできる。

この実施例では、混合信号Ｓ_ｏｕｔは、ソース信号Ｓ_１、Ｓ_２の少なくとも１つの特徴を示す量の透かし値を含む。後の説明では、混合信号Ｓ_ｏｕｔは、各ソース信号の特徴を示す量の透かし値を含むものとする。

このように、形成装置１は、信号特徴量を決定する手段３を含む。決定手段３は、入力として、特徴量の値を決定したいソース信号、この場合２つの信号Ｓ１及びＳ２を受信する。

後の説明では、特徴量として当該信号のスペクトル−時間エネルギ分布を決定することができる決定手段３が選択される。したがって、決定手段３は、信号の時間−周波数平面内での表現を得るためにソース信号を変換する手段４を備える。信号の時間−周波数変換は、１組のＭＤＣＴ（「修正離散コサイン変換」）係数への分解、又は短時間フーリエ変換により行ってよい。後の説明では、ソース信号を１組のＭＤＣＴ係数に分解する手段は、変換手段４とする。その結果、ソース信号の表現は、マトリクス形式で得られる。この時間−周波数表現に基づいて、ソース信号の特徴を示す量の値が決定される。具体的には、決定手段３は、検出手段５及び評価手段６を備え、得られたマトリクスを量Ｗで特徴付けることができるようにする。

検出手段５は、例えば、各ソース信号Ｓ_１、Ｓ_２に対して、マトリクス時間−周波数表現のＭＤＣＴ係数を、以下、分子という隣接係数のグループにグループ分けすることができる。手段５により検出された一組の分子によって、ソース信号のマトリクス表現が検索できるようになる。

評価手段６によって、各ソース信号に対して特徴量Ｗ_１、Ｗ_２をその一組の分子に基づいて決定できるようになる。特に、この量の値は、各ソース信号の各分子に対して決定してよい。その結果、この値は、分子によりカバーされる時間−周波数ゾーン内のソース信号のエネルギを特徴付ける。

このように、ソース信号Ｓ_１の特徴を示す量の値Ｗ_１及びソース信号Ｓ_２の特徴を示す量の値Ｗ_２が、評価手段６、したがって決定手段３の出力として得られる。値Ｗ_１及びＷ_２は、最初に混合信号Ｓ_ｏｕｔを形成するために初期混合信号Ｓ_ｍｉｘに透かしとして入れられ、後で混合信号Ｓ_ｏｕｔのソース信号Ｓ_１、Ｓ_２を分離するのに使用される。

形成手段１は、透かし手段７も備える。透かし手段７は、入力として、混合信号Ｓ_ｍｉｘ及びソース信号Ｓ_１、Ｓ_２の特徴を示す量の値Ｗ_１、Ｗ_２を受信する。透かし及び透かし値の回復を改善するために、透かし手段７は、ソース信号Ｓ_１及びＳ_２を分解するのに使用されるのと同じＭＤＣＴ時間−周波数表現に従って初期混合信号Ｓ_ｍｉｘを分解できるようにする変換手段８を備えることができる。

分解された初期混合信号は、次に、第１量子化手段９へ送信される。第１量子化手段９は、所望品質の信号を復元するために、ＭＤＣＴ係数、すなわち初期混合信号のマトリクス時間−周波数表現を選択された第１ソリューションで量子化可能にする。第１ソリューションは、初期混合信号のＭＤＣＴ係数を２つの値間の最小間隔で量子化するものである。最小間隔は、量子化の知覚の関数として選択される。オーディオ信号の場合、２つの値間の最小不一致が大きすぎれば、量子化された混合信号は、人間の耳では初期混合信号とは違って知覚される。一方、２つの値間の最小不一致が十分小さければ、人間の耳は、量子化された混合信号と初期混合信号との間の違いを識別することができない。

一方、第１量子化の間隔内に透かしが挿入されるので、これらの間隔は、最大量の透かし情報がそこに挿入できるように十分広く選択しなければならない。

その後、量子化されたＭＤＣＴ係数は、検出手段１０により分子にグループ分けされる。ここで、ＭＤＣＴ係数を分子にグループ分けすることによって、単一のＭＤＣＴ係数上よりも非常に多量の情報をその上に符号化可能な透かしのための基本サポート媒体（ｅｌｅｍｅｎｔａｒｙｓｕｐｐｏｒｔｉｎｇｍｅｄｉｕｍ）を得ることができる。したがって、量子化された混合信号の分子に、ソース信号の分子の特徴を示す量の値Ｗ_１、Ｗ_２が透かしとして入れられる。

特に、ソース信号のＭＤＣＴ係数のグループ分けに類似している初期混合信号のＭＤＣＴ係数の分子へのグループ分けを選択することができる、すなわち検出手段５及び１０は類似してよい。この場合、値Ｗ_１、Ｗ_２が各ソース信号の特定分子のエネルギを表わせば、初期混合信号の対応する分子（すなわち時間−周波数平面の同じゾーンをカバーするもの）にこれらの値を透かしとして入れることができる。さらに、この場合、値Ｗ_１、Ｗ_２は、対応する混合信号の分子に関するソース信号の分子の各々の相対エネルギ、すなわちエネルギ比を表すことができる。次に、混合信号分子のエネルギの値は、検出手段１０により評価手段６へ送信されるので、後者がエネルギ比を計算できる。分離に有用な他の情報は、利用可能な場所（ｒｏｏｍ）、例えば、ソース信号の分子の「形式」、すなわち分子内のＭＤＣＴ係数の値の多少正確な配置に従って符号化してもよい。

次に、透かし手段７は、混合信号の分子にグループ分けされ、量子化されたＭＤＣＴ係数及び値Ｗ_１、Ｗ_２を受信する第２量子化手段１１を備える。第２量子化手段１１によって、ソース信号の分離中に検出できるように選択された第２ソリューションで混合信号のマトリクス表現を量子化できるようになる。第２ソリューションは、第１量子化の最小間隔を第２最小間隔で量子化するもの、すなわち第１量子化のレベルにオーバレベルを導入するものである。第２最小間隔は、ソース分離中に検出の関数として選択される。第２最小間隔が小さすぎると、第２量子化中に入れた透かし値は、正しく検出できない。

一方、透かしは、第２量子化のオーバレベルにより符号化されるので、これらのオーバレベル間の間隔も十分小さく選択して可能な限り多量の情報を透かしとして入れることができるようにしなければならない。したがって、透かしに入れることができる情報量は、第１及び第２量子化に依存する。

したがって、透かしの原理は、混合信号分子を構成するＭＤＣＴ係数の量子化レベルの変更である。量子化レベルの変更は、第１量子化の決定された間隔内で行われるため不可聴又はほとんど可聴ではないが、第２量子化の決定された間隔で行われるためソースの分離のためには検出可能なままである。

最後に、透かし手段７は、逆変換手段１２を備える。逆変換手段１２は、変換手段４により行われるものとは逆の変換を行う。この場合、手段１２は、逆ＭＤＣＴ分解（ＩＭＤＣＴ）により変換を行う。次に、透かしを入れた混合信号の時間表現が得られ、それは混合信号Ｓ_ｏｕｔを構成する。したがって、初期混合信号Ｓ_ｍｉｘと同じ時間表現を有するが、ほとんど可聴できず、ソース分離のためには検出可能な透かしを含む混合信号出力Ｓ_ｏｕｔが形成手段１の出力において得られる。その後、混合信号Ｓ_ｏｕｔを記録媒体に送信又は加えることができる。例えば、コンパクト・ディスクの場合、混合信号Ｓ_ｏｕｔは、最初に１６ビット（オーディオＣＤフォーマットに対応）で一様スカラ量子化を受け、次に、コンパクト・ディスクに加えられる。１６ビットでの一様スカラ量子化は、透かし手段により行われる第２量子化の検出を制限する典型的な処理である。

このように、少なくとも２つのソース信号を混合することにより得られ、ソース信号の少なくとも１つの特徴を示す量の透かし値を含む混合信号Ｓ_ｏｕｔが、形成手段１の出力において得られる。混合信号Ｓ_ｏｕｔは、初期混合信号Ｓ_ｍｉｘと同じ時間表現を示し、特徴量の値は、ほとんど可聴ではないように透かしとして入れられるので、従来の装置では、混合信号Ｓ_ｏｕｔを任意の混合信号と同様に処理することができ、後で説明するような本発明に従った分離装置では、補助的に、ソース信号の１つを混合信号Ｓ_ｏｕｔから少なくとも部分的に分離することができる。

図２は、前の段落で定義したような混合信号Ｓ_ｏｕｔに含まれるソース信号を分離する装置の第１実施例の略図である。分離装置１３は、入力として混合信号Ｓ_ｏｕｔを受信し、この場合、２つの少なくとも部分的に分離されたソース信号Ｓ’_１及びＳ’_２を送出する。分離装置１３の目的は、特徴量の透かし値を含む混合信号Ｓ_ｏｕｔに含まれる１つ以上のソース信号を少なくとも部分的に送出することである。

分離装置１３は、分離対象信号の特徴を示す量の透かし値Ｗ_１、Ｗ_２を決定する手段１４を備える。手段１４は、入力として混合信号Ｓ_ｏｕｔを受信し、出力として透かし値Ｗ_１、Ｗ_２を送出する。この場合、手段１４は、混合信号Ｓ_ｏｕｔのＭＤＣＴ係数も送出する。

決定手段１４は、図１で説明した手段４に類似した変換手段１５を備える。変換手段１５によって、混合信号Ｓ_ｏｕｔをＭＤＣＴ係数のマトリクスに分解できるようになる。

その後、ＭＤＣＴ係数は、図１で説明した手段９に類似した第１量子化手段１６へ送信される。量子化手段１６によって、混合信号Ｓ_ｏｕｔのＭＤＣＴ係数を第１ソリューションで量子化できるようになる。

その後、量子化された係数は、図１で説明した手段１０に類似した検出手段１７へ送信される。検出手段１７は、量子化されたＭＤＣＴ係数を分子にグループ分けし、具体的には、前に説明した手段１０により作り出されたのと同じ分子に係数をグループ分けする。

次に、前記分子上の透かし値を検出し決定することができる。このように、手段１７により形成された分子は、これらの分子を構成する係数の量子化をより高い第２分解能で行う第２量子化手段１８へ送信される。具体的には、第２分解能によって、係数の第２量子化のレベルを読み取りこれらのレベルに関連する値を復号化することにより、透かし値Ｗ_１、Ｗ_２を決定できるようになる。

したがって、決定手段１４は、出力として特徴量の値Ｗ_１、Ｗ_２を送出し、これらの値はソースの分離に使用してよい。

分離装置１３は、決定手段１４から生じる量の特徴量の値の他に手段１４により決定された分子にグループ分けされた係数も受信する処理手段１９も備える。

処理手段１９は、少なくとも部分的に混合信号のソース信号を分離することができる第１分離手段２０を備える。具体的には、分子にグループ分けされたＭＤＣＴ係数に特徴量の値を使用して、分離手段２０により行われるソース信号の分離を改善する。特徴量がソース信号のＭＤＣＴ係数に基づいて決定されている限り、混合信号Ｓ_ｏｕｔのＭＤＣＴ係数に基づいて、ソース信号のＭＤＣＴ係数を検索することができ、したがってソース信号の分離が行われる。例えば、分離対象の各ソース信号の各分子は、透かし値の検出中に決定される当該ソース信号の分子の相対エネルギ・レベル（特徴量の値）を割り当てられた混合信号の分子により推定される。特に、ソース信号の分子の形式を特徴付ける情報も符号化されていれば、オプションとして他の透かし情報が介在してソース信号の分子の推定を改良することができる。

次に、分離手段２０により分離されたＭＤＣＴ係数は、図１で説明した手段１２に類似した逆変換手段２１へ送信される。手段２１によって、分離されたＭＤＣＴ係数を少なくとも部分的にソース信号Ｓ_１、Ｓ_２に対応する時間信号Ｓ’_１、Ｓ_２’に変換できるようになる。

図３には、本発明に従った形成装置２２の第２実施例が示されている。この実施例では、第１実施例の要素と同じものは同じ参照番号で識別されている。形成装置２２は、入力として少なくとも２つのソース信号Ｓ_１、Ｓ_２を受信し、出力として、ステレオ信号に対応する２つの異なる混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２を提供する。

装置２２は、２つのソース信号Ｓ_１、Ｓ_２を受信し、第１初期混合信号Ｓ_ｍｉｘ１及び第２初期混合信号Ｓ_ｍｉｘ２を提供する混合手段２３を備える。特に、混合手段２３は、音響空間効果を付与する２つのステレオ径路を得るために異なる混合操作を行って２つの信号Ｓ_ｍｉｘ１及びＳ_ｍｉｘ２を形成する。この空間効果は、特に、２つの径路上で異なる乗法因子及び遅延の導入を伴う。その結果、２つのソース信号への混合操作は、信号の周波数変換を適用後の周波数ドメイン内の混合マトリクスの形で表すことができる。混合操作は、ソース信号ベクトル（成分として２つのソース信号を含む）に混合マトリクスを乗じて初期混合信号ベクトル（成分として２つの初期混合信号を含む）を得ることを含む。当該ケースでは、混合マトリクスは、各々が周波数の各値に対して、初期混合信号の内の１つのソース信号の１つの寄与を表す４つの成分を含む。これらのコンポーネントは、時間とともに変化できる。

装置２２は、第１決定手段２４を備える。ここで、第１決定手段２４は、混合信号Ｓ_ｍｉｘ１に対応する混合マトリクスの成分を決定する。これらの成分は、ソース信号Ｓ_１、Ｓ_２に基づいて初期混合信号Ｓ_ｍｉｘ１を得ることができるようにする混合パラメータである。したがって、これらの成分は、混合信号Ｓ_ｏｕｔ１をもたらす混合の特徴を示す量の値Ｗ_１、すなわち混合信号Ｓ_ｏｕｔ１を得ることができるようにする混合パラメータを表す。

装置２２は、第２決定手段２５を備える。ここで、第２決定手段２５は、混合信号Ｓ_ｍｉｘ２に対応する混合マトリクスの成分を決定する。これらの成分は、ソース信号Ｓ_１、Ｓ_２に基づいて初期混合信号Ｓ_ｍｉｘ２を得ることができるようにする混合パラメータである。したがって、これらの成分は、混合信号Ｓ_ｏｕｔ２をもたらす混合の特徴を示す量の値Ｗ_２、すなわち混合信号Ｓ_ｏｕｔ２を得ることができるようにする混合パラメータを表す。

形成装置２２は、透かし手段２６も備える。透かし手段２６は、入力として初期混合信号Ｓ_ｍｉｘ１及びＳ_ｍｉｘ２、及び値Ｗ_１及びＷ_２を受信し、出力として混合信号Ｓ_ｏｕｔ１及びＳ_ｏｕｔ２を提供する。

透かし手段２６は、一連の変換手段８、第１量子化手段９及び検出手段１０を備える。初期混合信号は、２つの信号Ｓ_ｍｉｘ１及びＳ_ｍｉｘ２の各々に対して、分子にグループ分けされたＭＤＣＴ係数を得るためにこれらの一連の手段により処理される。

透かし手段２２は、分子にグループ分けされたＭＤＣＴ係数及び値Ｗ_１、Ｗ_２を受信する第２量子化手段１１を備える。透かし手段２２によって、値Ｗ_１及びＷ_２を信号Ｓ_ｍｉｘ１のＭＤＣＴ係数及び信号Ｓ_ｍｉｘ２のＭＤＣＴ係数に挿入できるようになる。このように、混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２にそれらに対応する特徴量の値を透かしとして入れる。その結果、２つの混合信号は異なるので、この違いや、Ｗ_１及びＷ_２により運ばれる混合パラメータの知識を利用して、ソース信号をＳ_ｏｕｔ１及びＳ_ｏｕｔ２に基づいて少なくとも部分的に分離することができる。

このように、少なくとも２つのソース信号を混合することにより得られ、各々が前記混合信号の特徴を示す量の透かし値を含む混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２、すなわち前記混合信号を形成するのに使用される混合マトリクスの成分が形成装置２２の出力において得られる。混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２が初期混合信号Ｓ_ｍｉｘ１、Ｓ_ｍｉｘ２と同じ時間表現を示し、特徴量の値がほとんど可聴ではないように透かしとして入れられるので、従来の装置では、任意の混合信号、特にステレオ信号のように混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２を処理することができ、後で説明するような本発明に従った分離装置では、補助的に、ソース信号の１つを混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２に基づいて少なくとも部分的に分離することができる。

図４には、本発明に従った分離装置２７の第２実施例が示されている。この実施例では、第１実施例の要素と同じものは同じ番号で識別されている。分離装置２７は、入力として２つの混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２を受信し、出力として、少なくとも部分的にソース信号Ｓ_１、Ｓ_２に対応する２つの信号Ｓ’_１、Ｓ_２’を提供する。

分離装置２７は、透かし値を決定する手段２８を備える。手段２８は、入力として信号Ｓ_ｏｕｔ１及びＳ_ｏｕｔ２を受信し、出力として透かし値Ｗ_１、Ｗ_２を提供する。手段２８は、一連の変換手段１５、第１量子化手段１６及び検出手段１７を備える。混合信号Ｓ_ｏｕｔ１、Ｓ_ｏｕｔ２は、その各々についてグループ分けされたＭＤＣＴ係数を得るために手段１５、１６及び１７により別々に処理される。

最後に、手段２８は、第２量子化手段２９を備える。第２量子化手段２９によって、混合信号Ｓ_ｏｕｔ１内の透かし値Ｗ_１、及び混合信号Ｓ_ｏｕｔ２内の透かし値Ｗ_２を決定できるようになる。値Ｗ_１、Ｗ_２及び混合信号Ｓ_ｏｕｔ１及びＳ_ｏｕｔ２は、分離手段３２を備える処理手段３１へ送信される。

分離手段３２によって、値Ｗ_１、Ｗ_２及び混合信号Ｓ_ｏｕｔ１及びＳ_ｏｕｔ２に基づいてソース信号を少なくとも部分的に検索できるようになる。実際は、３つ以上のソース信号がある時にたとえ混合マトリクスが可逆的でなくても、一定の条件下で、混合手段２３により使用される混合マトリクスの知識を利用して、ソース信号ベクトルの推定を混合信号ベクトルに基づいて得ることができる。特に、分離手段３２は、値Ｗ_１及びＷ_２により混合マトリクスを決定することができ、この混合マトリクスの知識により分離手段３２は、混合マトリクスの知識の無い同じタスクについて、ソース信号をたとえ部分的ではあってもより良く分離することができる。

図５には、本発明に従った混合信号を形成する方法の様々なステップを表すフロー・チャートが示されている。

この方法は、その間に特徴量の値Ｗが決定される第１ステップ３３を含む。次に、ステップ３４の間に、初期混合信号を得るためにソース信号の混合が行われる。最後に、ステップ３４において、混合信号を得るために特徴量の値Ｗが初期混合信号に透かしとして入れられる。

混合ステップ３４の前に透かしステップ３５を行うこともできる。この場合、特徴量の値Ｗがソース信号の少なくとも１つに透かしとして入れられ、混合ステップによって、混合信号を得ることができるようになる。

図６には、透かしステップ３５の実行モードの様々なステップのフロー・チャートが示されている。

透かしは、ステップ３６で開始され、その間に初期混合信号がＭＤＣＴ係数に分解される。次に、ＭＤＣＴ係数は、ステップ３７の間に第１量子化を受け、ステップ３８の間に分子にグループ分けされる。しかし、ステップ３７及び３８は逆であってもよい。

その後、グループ分けされた係数は、ステップ３９の間に第２量子化を受け、その間に特徴量の値Ｗは、混合信号内に挿入される。

最後に、透かし値Ｗを含むＭＤＣＴ係数は、出力として混合信号の時間表現を得るために逆分解ＩＭＤＣＴを受ける。

図７には、本発明に従った分離方法の様々なステップを表すフロー・チャートが示されている。

この方法は、その間に混合信号がＭＤＣＴ係数に分解される第１ステップ４１を含む。次に、ＭＤＣＴ係数は、ステップ４２の間に初めて量子化され、ステップ４３の間に分子にグループ分けされる。

次に、グループ分けされたＭＤＣＴ係数が第２量子化を受けることによって、混合信号の透かし値Ｗを決定できるようになる。最後に、ステップ４４において決定された値Ｗに基づいて、少なくとも部分的なソース信号の分離がステップ４５において行われる。

このように、オーディオ信号の場合、サウンド・シーンの様々な要素（分離装置により得られる楽器及び音声）に独立に、オーディオ・リスニング中の一定数の主要なコントロール（音量、音質、効果）を行うことができる。さらに、提案した技術の重要な利点の１つは、オーディオＣＤフォーマットと完全に互換性があること、すなわち不可聴又は準不可聴透かしにより、提案した方法で透かしを入れたＣＤは従来のＣＤとの区別なく任意の従来のリーダ上でも使用することができる（分離機能の利益は無いが）。その代わりに、もちろん、本発明に従った分離方法において、オーディオ・リスニング中にコントロールを行えるようにするために、特定のリーダ・ビルディング（ｒｅａｄｅｒｂｕｉｌｄｉｎｇ）が必要である。

通信システムにおける音声の抽出及び増強に関する他の応用も想定できる。例えば、音声を劣化させる（又は他の信号と混合する）かもしれないチャネルで伝送する前に、エミッタ段階で音声信号に透かしを入れて（それが良い条件下で生成される場合）、レシーバ段階でこの音声信号をその劣化又は混合した形式に基づいて回復することができる。

Claims

少なくとも２つのデジタル・ソース信号（Ｓ_１、Ｓ_２）、特に、オーディオ信号に基づく１つ以上の混合信号（Ｓ_ｏｕｔ）の形成方法であって、前記混合信号が前記ソース信号を混合することにより形成され、ソース信号（Ｓ_１、Ｓ_２）又は前記混合の特徴を示す量が決定され、前記信号（Ｓ_１、Ｓ_２、Ｓ_ｏｕｔ）の少なくとも１つに前記特徴量の値（Ｗ_１、Ｗ_２）が透かしとして入れられることを特徴とする方法。
請求項１記載の形成方法であって、前記特徴量は、少なくとも１つのソース信号（Ｓ_１、Ｓ_２）の時間、スペクトル、又はスペクトル−時間エネルギ分布を表す方法。
請求項１記載の形成方法であって、前記特徴量は、前記混合信号（Ｓ_ｏｕｔ）内の前記ソース信号（Ｓ_１、Ｓ_２）の少なくとも１つの、少なくとも１つの決められた瞬間における振幅又はエネルギ・スペクトルの寄与を表す方法。
請求項１記載の形成方法であって、前記特徴量は、前記混合信号を得るための前記ソース信号（Ｓ_１、Ｓ_２）の前記混合用パラメータを表す方法。
請求項１−４のいずれかに記載の形成方法であって、混合前に前記ソース信号に及び／又は混合後に前記混合信号に、前記特徴量の前記値（Ｗ_１、Ｗ_２）が透かしとして入れられる方法。
請求項１−５のいずれかに従って得られた１つ以上の混合信号に含まれる少なくとも１つのデジタル・ソース信号を少なくとも部分的に分離するための分離方法であって、前記ソース信号又は前記混合の特徴を示す量の前記透かし値（Ｗ_１、Ｗ_２）が決定され、次に前記ソース信号（Ｓ’_１、Ｓ’_２）を少なくとも部分的に得るために前記混合信号（Ｓ_ｏｕｔ）が前記値の関数として処理される方法。
少なくとも２つのデジタル・ソース信号、特に、オーディオ信号に基づいて１つ以上の混合信号を形成する装置であって、前記混合信号を形成するために前記ソース信号を混合する手段（２）を備える装置において、前記装置は、ソース信号又は前記混合の特徴を示す量を決定する手段（３）、及び前記信号の少なくとも１つに前記特徴量の前記値を透かしとして入れる手段（７）をさらに備えることを特徴とする装置。
請求項７記載の形成装置であって、前記透かし手段（７）は、前記混合手段（２）の上流に備えられ、前記ソース信号に前記特徴量の前記値を透かしとして入れることができる装置。
請求項７記載の形成装置であって、前記透かし手段は、前記混合手段の下流に備えられ、前記混合信号に前記特徴量の前記値を透かしとして入れることができる装置。
請求項７−９のいずれかに記載の装置から出力される一つ以上の混合信号に含まれる少なくとも１つのデジタル・ソース信号を少なくとも部分的に分離するための分離装置であって、前記ソース信号又は前記混合の特徴を示す前記量の前記透かし値を決定する手段（１４）と、前記値の関数として前記混合信号を処理する手段（１９）とを備え、前記ソース信号を少なくとも部分的に得ることができる分離装置。
少なくとも２つのソース信号を混合することにより得られ、ソース信号又は前記混合の特徴を示す量の透かし値を含む混合信号、特に、オーディオ信号。
請求項１−１１のいずれかに記載の前記混合信号（Ｓ_ｏｕｔ）を含む情報媒体、特に、オーディオ・コンパクト・ディスク。