JP4418748B2

JP4418748B2 - ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法

Info

Publication number: JP4418748B2
Application number: JP2004518194A
Authority: JP
Inventors: ハーリーコーマック
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-07-01
Filing date: 2003-06-30
Publication date: 2010-02-24
Anticipated expiration: 2023-06-30
Also published as: TW200402654A; KR100988996B1; US7461392B2; CN100531362C; AU2003280514A1; US20040001160A1; KR100957987B1; TWI333380B; TW200405980A; US20040001161A1; CN1666520A; KR20050027219A; WO2004004345A1; US20050063667A1; KR20050014859A; US7523474B2; TWI329455B; JP2006515721A

Description

本発明は、メディアストリームの識別およびセグメント化に関し、詳細には、例えば、ラジオ局またはテレビ局によって放送されたメディアストリームなどのメディアの１つまたは複数のストリームから繰り返し埋め込まれたオーディオオブジェクトおよび／またはビデオオブジェクトを識別し、抽出するためのシステムおよび方法に関する。

オーディオストリームに埋め込まれた特定の広告、局のジングル（ｊｉｎｇｌｅ）、若しくは歌、またはビデオストリームに埋め込まれた広告若しくはその他のビデオなどのオーディオオブジェクトおよび／若しくはビデオオブジェクトを識別するための多くの既存のスキームが存在する。例えば、オーディオ識別に関して、そのようなスキームの多くは、「オーディオフィンガープリント（ｆｉｎｇｅｒｐｒｉｎｔｉｎｇ）」スキームと呼ばれる。通常、オーディオフィンガープリントスキームは、既知のオブジェクトを取り込み、そのオブジェクトを、例えば、周波数内容、エネルギーレベルなどのパラメータの集合に変える。次に、これらのパラメータは、既知のオブジェクトのデータベースの中に格納される。次に、ストリーミングメディアのサンプリングされた部分が、識別するためにデータベースの中のフィンガープリントと比較される。

このため、一般に、そのようなスキームは、以前に識別済みのメディアオブジェクトの大型のデータベースとのメディアストリームの比較に依拠することとなる。動作の際、そのようなスキームは、多くの場合、何らかの種類のスライドウィンドウ構成を使用して所望の期間にわたってメディアストリームをサンプリングし、潜在的な合致を得るためにサンプリングされたデータをデータベースと比較する。このようにして、メディアストリーム内の個々のオブジェクトを識別することができる。この識別情報は、通常、メディアストリームを個々のオブジェクトにセグメント化すること、またはメディアストリームのカタログを作るために再生リストなどを作成することを含む、いずれかの目的のために使用される。

しかし、前述したとおり、そのようなスキームを、機能させるためには、あらかじめ識別されたメディアオブジェクトの既存のデータベースを使用する必要がある。前述した従来のスキームを使用している場合、そのような既存のデータベースなしでは、メディアストリームの識別および／またはセグメント化は、不可能である。

したがって、あらかじめ識別されたメディアオブジェクトの既存のデータベースを必ずしも使用することなく、配信されたラジオ信号またはテレビ信号などのメディアストリームから、繰り返すメディアオブジェクトを効率的に識別し、抽出し、またはセグメント化するためのシステムおよび方法が必要とされている。

本明細書で説明する「オブジェクト抽出器（ｅｘｔｒａｃｔｏｒ）」が、繰り返し埋め込まれたオブジェクトと繰り返し埋め込まれないオブジェクトとから成るメディアストリーム内の、繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化する。「オブジェクト」とは、人間の聴取者または観覧者によって論理的単位として識別される場合に論理的単位と見なされる無視することのできない持続時間の任意のセクションと定義される。例えば、人間の聴取者が、ラジオ局を聴取し、あるいはテレビ局または他のメディア放送ストリームを視聴して、繰り返されない番組と、広告、ジングル、およびその他の頻繁に繰り返し埋め込まれるオブジェクトとを容易に区別することができる。しかし、メディアストリーム内で、自動的に同一の、例えば、繰り返すコンテンツを自動的に区別することは、一般に、困難な問題である。

例えば、通常のポピュラー音楽のラジオ局からのオーディオストリームは、時間の経過とともに、例えば、歌、ジングル、広告、および局名アナウンス（ｓｔａｔｉｏｎｉｄｅｎｔｉｆｉｅｒ）を含め、同一のオブジェクトが多数回繰り返し含まれる。同様に、通常のテレビ局からのオーディオ／ビデオメディアストリームは、時間の経過とともに、例えば、コマーシャル、広告、局名アナウンス、番組「テーマ曲」、または緊急放送信号を含め、同一オブジェクトが多数回繰り返し含まれる。しかし、これらのオブジェクトは、通常、メディアストリーム内の予測できない時点で現れ、および多くの場合、メディアストリームのキャプチャ、または記録のに使用される獲得プロセスによって生じる雑音により損なわれる。

さらに、ラジオ放送などの通常のメディアストリーム内のオブジェクトは、多くの場合、各オブジェクトの開始点および／または終了点におけるボイスオーバー（ｖｏｉｃｅ−ｏｖｅｒ）によって損なわれる。さらに、そのようなオブジェクトは、多くの場合、短縮される。すなわち、先頭から完全に、または終端までずっと再生されない。さらに、そのようなオブジェクトは、多くの場合、意図的に歪められる。例えば、ラジオ局を介するオーディオ放送は、多くの場合、コンプレッサ、イコライザ、またはいくつかの他の時間／周波数効果のいずれかを使用して処理される。さらに、通常のラジオ局で放送される音楽または歌などのオーディオオブジェクトは、多くの場合、先行する音楽または歌、および後続の音楽または歌とクロスフェードさせられ、オーディオオブジェクトの開始点と終了点が不明瞭になり、オブジェクトの歪み、または雑音が増加する。メディアストリームのそのような操作は、当業者に周知である。最後に、そのような破損または歪みのいずれか、またはすべてが、個々に、または組合せで生じる可能性があり、以下の説明で、個別に明示的に述べる場合を除き、一般的に「雑音」と呼ばれることに留意されたい。したがって、そのような雑音の多い環境において、そのようなオブジェクトを識別し、そのようなオブジェクトの端点を位置決めすることは、困難な問題である。

本明細書で説明するオブジェクト抽出器は、多くの利点を提供しながら、上記の問題、およびその他の問題にうまく対処する。例えば、メディアストリーム内のメディアオブジェクトに関する統計情報を収集するための有用な技術を提供することに加え、メディアストリームの自動的な識別およびセグメント化により、ユーザが、ストリーム内の所望のコンテンツに自動的にアクセスするか、または逆に、メディアストリーム内の不要なコンテンツを自動的に回避することができるようになる。さらなる利点には、メディアストリームから望ましいコンテンツだけを識別し、格納する能力、識別の処理のために目標とされるコンテンツを識別する能力、雑音を除去する（ｄｅ−ｎｏｉｓｅ）、または任意の複数箇所で検出されたオブジェクトを解消する（ｃｌｅａｒｕｐ）能力、および複数箇所で検出されたオブジェクトの単一のコピーだけを格納することにより、ストリームをより効率的に保存する能力が含まれる。

前述したとおり、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法は、ストリームを検査して、以前に発見されたオブジェクトが出現したか否かを判定することにより、そのようなオブジェクトを識別する。例えば、オーディオのケースでは、これは、歌をストリーム内で以前に出現したオブジェクトであると識別することを意味する。同様に、テレビストリームに由来するビデオのケースでは、これには、識別の広告、ならびに局の「ジングル」、およびその他の頻繁に繰り返されるオブジェクトを識別することが関わる場合がある。さらに、そのようなオブジェクトは、多くの場合、ストリームに関する重要な同期情報を伝える。例えば、ニュース局のテーマ音楽が、時刻、およびニュースレポートが始まろうとしていること、または終わったばかりであることを伝える。

例えば、繰り返し埋め込まれたオブジェクト、および繰り返し埋め込まれないオブジェクトを含むオーディオストリームを所与として、本明細書で説明するシステムおよび方法は、メディアストリームの合致する部分、または合致する繰り返し埋め込まれたオブジェクトとの比較によってオブジェクトの端点を識別しながら、メディアストリーム内の繰り返し埋め込まれたメディアオブジェクトを自動的に識別し、セグメント化する。放送されるオーディオ、すなわち、ラジオを例として使用して、繰り返し埋め込まれた「オブジェクト」には、例えば、ラジオ音楽局の歌、コールサイン（ｃａｌｌｓｉｇｎａｌ）、ジングル、および広告が含まれることある。

繰り返し埋め込まれないオブジェクトの例には、例えば、ディスクジョッキーのライブチャット、ニュース速報および交通速報、１回だけ流される番組または歌が含まれることができる。上記の異なるタイプのオブジェクトは、メディアストリームからの識別およびセグメント化を可能にする異なる特性を有する。例えば、ポピュラー音楽のラジオ局における広告は、一般に、長さが３０秒未満であり、音声が伴うジングルから成る。局のジングルは、一般に、２秒ないし１０秒の長さであり、おおむね音楽と音声であり、１日中、頻繁に繰り返される。例えば、クラシック、ジャズ、またはその他の音楽（オルタナティブ）とは異なり、「ポピュラー」音楽の局における歌は、一般に、２分ないし７分の長さであり、殆どの場合、音声と音楽を含む。

一般に、繰り返すメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分の位置決めを行うことによって達せられる。試験された実施形態では、繰り返し埋め込まれたオブジェクトの識別およびセグメント化は、メディアストリームの諸セクションを直接比較して、ストリームの合致する部分を識別した後、その合致する部分を整列させてオブジェクトの端点を識別することによって達せられる。関連する実施形態では、セグメントをまず試験して、探索されているタイプのオブジェクトがそのセグメント内に存在する可能性があるか否かが推定される。存在する可能性がある場合、メディアストリームの他のセグメントとの比較が行われるが、存在する可能性がない場合、セグメントのさらなる処理は、効率を向上させるために無視することができる。

別の実施形態では、繰り返すメディアオブジェクトの自動的な識別およびセグメント化は、１組のオブジェクト依存アルゴリズムを使用して、可能性のあるオブジェクトを識別するために、オーディオメディアおよび／またはビデオメディアの異なる態様を目標にすることによって達せられる。ストリーム内で可能性のあるオブジェクトが識別されると、繰り返し埋め込まれたオブジェクトとしてのオブジェクトの確認は、自動的にインスタンス化された動的オブジェクトデータベースの中で合致する可能性のあるオブジェクトを自動的に探索し、次に、考え得るオブジェクトと、合致する可能性のあるオブジェクトの１つまたは複数を詳細に比較することによって達せられる。次に、オブジェクトの端点が、そのオブジェクトの他の繰り返し行われるコピーとの自動的な整列および比較によって自動的に識別される。

具体的には、オブジェクトの繰り返されるインスタンスを識別することは、例えば、メディアストリーム内のメディアオブジェクトの位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどの情報を格納するために空の「オブジェクトデータベース」をまずインスタンス化する、または初期設定することを含む。以上の情報のいずれか、またはすべてを単一のオブジェクトデータベースの中、または任意の数のデータベースまたはコンピュータファイルの中に保持できることに留意されたい。次のステップは、所望の期間にわたって少なくとも１つのメディアストリームをキャプチャし、格納することに関わる。所望の期間は、数分間から数時間、または数日間から数週間、またはそれより長期間のどのような期間とすることも可能である。しかし、基本的な要件は、サンプル期間が、ストリーム内でオブジェクトが繰り返し始めるだけ十分に長くなければならないということである。オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。

前述したとおり、一実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分を探し出すことによって達せられる。具体的には、この実施形態では、メディアストリームのある部分、またはあるウィンドウがメディアストリームから選択される。ウィンドウの長さは、任意の所望の長さとすることが可能であるが、通常、ほとんど、またはまったく有用な情報を提供しないほど短く、あるいはあまりにも多くのメディアオブジェクトを包含する可能性があるほど長くすることはできない。一実施形態による試験では、探索されるクラスなどの平均的オブジェクトの長さのおよそ２倍ないし５倍程度のウィンドウまたはセグメントが、良好な結果をもたらすことが認められた。この部分またはウィンドウは、メディアストリームのどちらの端からでも選ぶこともでき、あるいはメディアストリームからランダムに選択することもできる。

次に、メディアストリームの合致するセクションを探し出すために、メディアストリームの選択された部分が、メディアストリームの類似したサイズの部分と直接に比較される。この比較は、合致を探し出すためにメディアストリーム全体が探索されるか、または合致が実際に探し出されるかのいずれか、先に生じる時点まで続けられる。メディアストリームと比較するための部分を選択する場合と同様に、選択されるセグメントまたはウィンドウと比較される部分は、メディアストリームのいずれかの端から始めて順次選択することができ、またはメディアストリームからランダムに選択することもできる。

本実施形態による試験では、メディアストリームの諸部分の直接比較によって合致が識別されると、次に、合致する部分を整列させてオブジェクト端点の位置決めを行うことにより、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。前述したとおり、各オブジェクトは、雑音を含み、先頭または終端で短縮され、または切り落とされている可能性があるため、オブジェクト端点は、常に明確に画されているわけではないことに留意されたい。しかし、そのような雑音の多い環境でも、単純なパターンマッチング、合致する部分間で相互相関ピークを整列させることにより、または合致する信号を整列させるための他の任意の従来技術など、いくつかの従来技術のいずれかを使用して合致する部分を整列させることにより、適切な端点の位置決めを行うことができる。整列されると、端点は、メディアストリームを逆方向、および順方向に辿り、合致する部分の境界を過ぎて、メディアストリームのその２つの部分が分岐する時点を探し出すことによって識別される。繰り返し埋め込まれたメディアオブジェクトは、通常、放送されるたびに毎回、まったく同一の順序で再生されるわけではないため、メディアストリーム内の端点の位置決めを行うためのこの技術は、メディアストリーム内のメディアオブジェクトの先頭および端点の位置決めを十分に行えるように観測が行われている。

またはこれに替えて、前述したとおり、一実施形態では、メディアストリーム内のオブジェクトを識別するのに役立つパラメータ情報を計算するため、オーディオメディアおよび／またはビデオメディアの異なる態様を目標として１組のアルゴリズムが使用される、。このパラメータ情報には、特定のオブジェクトを識別するのに役立つパラメータが含まれ、このため、計算されるパラメータ情報のタイプは、探索されているオブジェクトのクラスに依存する。分析されているメディアストリームのタイプに依存して、メディアオブジェクトの類似性を比較するためのいくつかのよく知られた従来の周波数、時間、イメージ、またはエネルギーに基づく技術を使用して、潜在的なオブジェクトの合致を識別することができることに留意されたい。例えば、オーディオストリーム内の音楽または歌に関して、これらのアルゴリズムには、例えば、短いウィンドウ内の毎分の拍子（ｂｅａｔｓ）数、ステレオ情報、短い間隔にわたるチャネル別のエネルギー比、および識別の周波数帯域の周波数内容など、メディアストリーム内の容易に計算されるパラメータを計算すること、スペクトルの実質的な類似性についてメディアのより大きいセグメントを比較すること、可能な候補オブジェクトのサンプルを格納すること、およびあらゆる繰り返し埋め込まれるオブジェクトを識別することを学習することが含まれる。

この実施形態では、メディアストリームが獲得されると、格納されたメディアストリームを検査して、探索されるクラスのオブジェクト、すなわち、歌、ジングル、ビデオ、広告などが、検査されているストリームの部分に存在する確率が算出される。探索されるオブジェクトが存在するという確率が所定の閾値に達すると、ストリーム内の予想される（ｐｒｏｂａｂｌｅ）オブジェクトの位置が、前述したデータベース内で自動的に記録される。この検出閾値または類似度閾値は、ストリーム内のオブジェクト検出の感度を調整するために、所望に応じて高くすること、または低くすることができることに留意されたい。

この実施形態を所与として、ストリーム内で予想されるオブジェクトが識別されると、予想されるオブジェクトを特徴付けるためのパラメータ情報が計算され、データベースクエリまたはデータベース探索において使用されて、以前に識別された予想されるオブジェクトとの潜在的な（ｐｏｔｅｎｔｉａｌ）オブジェクトの合致が識別される。データベースクエリの目的は、単に、ストリームの２つの部分がほぼ同一であるか否かを判定することである。つまり、ストリーム内の２つの時間的に異なる位置にあるオブジェクトが、ほぼ同一であるか否かである。さらに、データベースは最初、空であるため、潜在的な合致を識別する可能性は、時間が経過して、より多くの考え得るオブジェクトが識別され、データベースに追加されるにつれ、当然、高くなる。

予想されるオブジェクトに対する潜在的な合致が戻されると、予想されるオブジェクトと潜在的な合致の１つまたは複数のより詳細な比較が、予想されるオブジェクトをより確実に識別するために実行される。この時点で、予想されるオブジェクトが、可能性のある合致の１つを繰り返していることが判明した場合、そのオブジェクトは、繰り返し埋め込まれたオブジェクトであると識別され、ストリーム内のそのオブジェクトの位置が、データベースに保存される。逆に、詳細な比較により、予想されるオブジェクトが潜在的な合致の１つの繰り返しではないことが示された場合、そのオブジェクトは、データベースの中で新たなオブジェクトであると識別され、ストリーム内のそのオブジェクトの位置、およびパラメータ情報が、前述したとおり、データベースに保存される。

さらに、前述した実施形態の場合と同様に、繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点が、自動的に識別される。例えば、識別のオブジェクトのＮ個のインスタンスが存在する場合、それらのインスタンスのすべてが、正確に同じ長さではない可能性がある。したがって、端点の決定には、１つのインスタンスに対して様々なインスタンスを整列させた後、整列されたオブジェクトのそれぞれの中を逆方向、および順方向に辿って、インスタンスのそれぞれが依然として、その他のインスタンスにほぼ等しいさらなる範囲を識別することが関わる。

探索されるクラスのオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、ストリームの２つの部分がほぼ同一であるか否かを試験するための方法はともに、探索されているオブジェクトのタイプ（例えば、音楽、発話、広告、ジングル、局名アナウンス、ビデオなど）に大きく依存し、他方、ストリーム内の端点の位置のデータベースおよび識別は、どのような種類のオブジェクトが探索されているかにかかわらず、非常に類似していることに留意されたい。

前述した実施形態のそれぞれのさらなる変形形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、劇的に向上する。

さらに、関連する実施形態では、メディアストリームは、ストリーム内の少なくとも最も多く見られる繰り返し埋め込まれたオブジェクトの、繰り返しを含むのに十分な大きさを有するストリームの一部をまず分析することにより、分析される。ストリームのこの第１の部分で繰り返し埋め込まれたオブジェクトのデータベースが保持される。次に、セグメントがデータベースの中のいずれかのオブジェクトに合致するか否かをまず判定した後、ストリームの残りの部分に照らして調べることにより、ストリームの残りの部分が分析される。

前述した利点に加えて、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法のその他の利点は、以下の詳細な説明を添付の図面と併せて理解することで明白となろう。

メディアオブジェクト抽出器の識別の特徴、態様、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面に関連してよりよく理解されよう。

本発明を実行するためのモード：
本発明の好ましい実施形態の以下の説明では、添付の図面を参照して、本明細書の一部を成し、本発明を実施することができる特定の実施形態の例を示す。本発明の範囲を逸脱することなく、他の実施形態を利用することができ、構造上の変更を行うことができることを理解されたい。

１．０例示的な動作環境
図１は、本発明を実施することができる適切なコンピューティングシステム環境１００の例を示している。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例に過ぎず、本発明の用途または機能の範囲について何ら限定を示唆するものではない。また、コンピューティング環境１００が、例示的な動作環境１００に示したコンポーネントのいずれの１つ、または組合せに関連する依存関係または要件を有するものとも解釈してはならない。

本発明は、他の多数の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成で機能する。本発明で使用するのに適している可能性がある周知のコンピューティングシステム、コンピューティング環境、および／またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、セル電話機およびＰＤＡなどのハンドヘルド、ラップトップ、またはモバイルのコンピュータまたは通信装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたは装置のいずれかを含む分散コンピューティング環境などが含まれるが、これらには限定されない。

本発明は、コンピュータによって実行されるプログラムモジュール群などのコンピュータ実行可能な命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、識別のタスクを実行し、または識別の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。また、本発明は、通信ネットワークを介してリンクされたリモート処理装置群によってタスクが実行される分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、プログラムモジュール群は、メモリ記憶装置を含むローカルコンピュータ記憶メディアとリモートコンピュータ記憶メディアの両方の中に配置することができる。図１を参照すると、本発明を実施するための例示的なシステムが、コンピュータ１１０の形態で汎用コンピューティング装置を含んでいる。

コンピュータ１１０のコンポーネント群には、処理装置１２０、システムメモリ１３０、ならびにシステムメモリから処理装置１２０までを含む様々なシステムコンポーネントを結合するシステムバス１２１が含まれることが可能であるが、これらには限定されない。システムバス１２１は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含め、いくつかのタイプのバス構造のいずれであってもよい。限定としてではなく例として、そのようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびメザニン（Ｍｅｚｚａｎｉｎｅ）バスとしても知られるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスが含まれる。

コンピュータ１１０は、通常、様々なコンピュータ読取り可能なメディアを含む。コンピュータ読取り可能なメディアは、コンピュータ１１０がアクセスすることができる任意の利用可能なメディアであることが可能であり、揮発性メディアと不揮発性メディア、リムーバブルなメディアと固定のメディアがともに含まれる。例として、限定としてではなく、コンピュータ読取り可能なメディアは、コンピュータ記憶メディア、および通信メディアを含むことが可能である。コンピュータ記憶メディアには、コンピュータ読取り可能な命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するために任意の方法または技術で実装された揮発性および不揮発性のリムーバブルなメディア、および固定のメディアが含まれる。コンピュータ記憶メディアには、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディスク（ＤＶＤ）または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは所望の情報を格納するのに使用することができ、コンピュータ１１０がアクセスすることができる他の任意のメディアが含まれるが、これらには限定されない。通信メディアは、通常、搬送波などの変調されたデータ信号、またはその他のトランスポート機構でコンピュータ読取り可能な命令、データ構造、プログラムモジュール、またはその他のデータを具現化し、あらゆる情報配信メディアが含まれる。「変調されたデータ信号」という用語は、信号内に情報を符号化するような形で特性の１つまたは複数が設定または変更されている信号を意味する。限定としてではなく例として、通信メディアには、有線ネットワークまたは直接有線接続などの有線メディア、ならびに音響メディア、ＲＦメディア、赤外線メディア、およびその他の無線メディアなどの無線メディアが含まれる。また、前述したメディアのいずれの組合せも、コンピュータ読取り可能なメディアの範囲に含められるべきである。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性メモリおよび／または不揮発性メモリの形態でコンピュータ記憶メディアを含む。始動中などにコンピュータ１１０内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム１３３（ＢＩＯＳ）が、通常、ＲＯＭ１３１の中に格納される。ＲＡＭ１３２は、通常、処理装置１２０が即時にアクセスすることができ、かつ／または処理装置１２０が現在、処理しているデータおよび／またはプログラムモジュール群を含む。限定としてではなく例として、図１は、オペレーティングシステム１３４、アプリケーションプログラム群１３５、その他のプログラムモジュール群１３６、およびプログラムデータ１３７を示している。

コンピュータ１１０は、他のリムーバブルな／固定の、揮発性／不揮発性のコンピュータ記憶メディアも含むことが可能である。単に例として、図１は、固定の不揮発性の磁気メディアに対して読み取りまたは書き込みを行うハードディスクドライブ１４１、リムーバブルな不揮発性の磁気ディスク１５２に対して読み取りまたは書き込みを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたは他の光メディアなどのリムーバブルな不揮発性の光ディスク１５６に対して読み取りまたは書き込みを行う光ディスクドライブ１５５を示している。例示的な動作環境において使用することができるその他のリムーバブルな／固定の、揮発性／不揮発性のコンピュータ記憶メディアには、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、固体ＲＡＭ、固体ＲＯＭなどが含まれるが、以上には限定されない。ハードディスクドライブ１４１は、通常、インターフェース１４０のような固定のメモリのインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０のようなリムーバブルなメモリのインターフェースでシステムバス１２１に接続される。

前述し、図１に示すドライブ群、および関連するコンピュータ記憶メディアにより、コンピュータ読取り可能な命令、データ構造、プログラムモジュール、およびその他のデータのストレージがコンピュータ１１０に提供される。図１では、例えば、ハードディスクドライブ１４１が、オペレーティングシステム１４４、アプリケーションプログラム群１４５、その他のプログラムモジュール群１４６、およびプログラムデータ１４７を格納していることを示している。上記のコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム群１３５、その他のプログラムモジュール群１３６、およびプログラムデータ１３７と同一であることも、異なることも可能であることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム群１４５、その他のプログラムモジュール群１４６、およびプログラムデータ１４７には、少なくともそれらが異なるコピーであることを示すために、ここでは異なる番号を与えている。ユーザは、キーボード１６２や、マウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス１６２などの入力装置群を介して、コマンドおよび情報をコンピュータ１１０に入力することができる。

その他の入力装置群（図示せず）には、マイク、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナ、ラジオ受信機、またはテレビ受信機、または放送ビデオ受信機などが含まれることが可能である。上記の入力装置群、およびその他の入力装置群は、多くの場合、システムバス１２１に結合されたユーザ入力インターフェース１６０を介して処理装置１２０に接続されるが、例えば、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造で接続してもよい。モニタ１９１、または他のタイプのディスプレイ装置も、ビデオインターフェース１９０のようなインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース１９５を介して接続することができるスピーカ１９７やプリンタ１９６などの他の周辺出力装置群も含むことが可能である。

コンピュータ１１０は、リモートコンピュータ１８０のような１つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境で動作することもできる。リモートコンピュータ１８０は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他の共通ネットワークノードであることが可能であり、通常、コンピュータ１１０に関連して前述した要素の多く、またはすべてを含むが、メモリ記憶装置１８１だけを図１に示している。図１に示した論理接続には、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３が含まれるが、その他のネットワークも含まれることが可能である。そのようなネットワーキング環境は、オフィス、企業規模のコンピュータ網、イントラネット、およびインターネットで一般的である。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、ネットワークインターフェースまたはネットワークアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、通常、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２または他の手段を含む。内蔵も、外付けも可能なモデム１７２は、ユーザ入力インターフェース１６０、またはその他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関連して示したプログラムモジュール群、またはプログラムモジュール群の諸部分は、リモートメモリ記憶装置の中に格納することができる。限定としてではなく例として、図１は、リモートアプリケーションプログラム群１８５がメモリ装置１８１上に存在していることを示している。図示したネットワーク接続は例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。

例示的な動作環境を以上に説明したので、後述する説明は、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法を実施するプログラムモジュール群およびプロセス群の説明に当てる。

２．０概説
本明細書で説明する「オブジェクト抽出器」が、繰り返し埋め込まれたオブジェクトおよび繰り返し埋め込まれないオブジェクトから成るメディアストリーム内で繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化する。「オブジェクト」とは、人間の聴取者または視聴者によって論理的単位として識別される場合に論理的単位と見なされる、無視することのできない持続時間の任意のセクションと定義される。例えば、人間の聴取者は、ラジオ局を聴取し、あるいはテレビ局または他のメディア放送ストリームを視聴して、繰り返し埋め込まれない番組と、広告、ジングル、またはその他の頻繁に繰り返し埋め込まれるオブジェクトとを容易に区別することができる。しかし、メディアストリームの中で、自動的に同一の、例えば、繰り返すコンテンツを自動的に区別することは、一般に困難な問題である。

例えば、通常のポピュラー音楽のラジオ局に由来するオーディオストリームでは、時間の経過とともに、例えば、歌、ジングル、広告、および局名アナウンスを含め、同一のオブジェクトの多数回の繰り返しを含む。同様に、通常のテレビ局から配信されるオーディオ／ビデオメディアストリームには、時間の経過とともに、例えば、コマーシャル、広告、局名アナウンス、または緊急放送信号を含め、同一オブジェクトが多数回繰り返し含まれる。しかし、これらのオブジェクトは、通常、メディアストリーム内の予測できない時点で現れ、多くの場合、メディアストリームをキャプチャし、または記録するのに使用される獲得プロセスに起因する雑音により、損なわれる。

さらに、ラジオ放送などの通常のメディアストリーム内のオブジェクトは、多くの場合、各オブジェクトの開始点および／または終了点におけるボイスオーバーによって損なわれる。さらに、そのようなオブジェクトは、多くの場合、短縮される。すなわち、先頭から完全に、または終端まで連続して再生されない。さらに、そのようなオブジェクトは、多くの場合、意図的に歪められる。例えば、ラジオ局を介するオーディオ放送は、多くの場合、コンプレッサ、イコライザ、またはいくつかの他の時間／周波数効果のいずれかを使用して処理される。さらに、通常のラジオ局で放送される音楽または歌などのオーディオオブジェクトは、多くの場合、先行する音楽または歌、および後続の音楽または歌とクロスフェードされ、オーディオオブジェクトの開始点と終了点が不明瞭になり、オブジェクトの歪み、または雑音が増加する。メディアストリームのそのような操作は、当業者に周知である。最後に、そのような破損または歪みのいずれか、またはすべてが、個々に、または組合せで生じる可能性があり、以下の説明で、個別に明示的に述べる場合を除き、一般的に「雑音」と呼ばれることに留意されたい。したがって、そのような雑音の多い環境において、そのようなオブジェクトを識別し、そのようなオブジェクトの端点の位置決めを行うことは、困難な問題である。

本明細書で説明するオブジェクト抽出器は、多くの利点を提供しながら、以上の問題、およびその他の問題にうまく対処する。例えば、メディアストリーム内のメディアオブジェクトに関する統計情報を収集するための有用な技術を提供することに加え、メディアストリームの自動的な識別およびセグメント化により、ユーザが、ストリーム内の所望のコンテンツに自動的にアクセスするか、または逆に、メディアストリーム内の不要なコンテンツを自動的に回避することができるようになる。さらなる利点には、メディアストリームから望ましいコンテンツだけを識別し、格納する能力、識別の処理のために目標とされるコンテンツを識別する能力、雑音を除去し、または任意の複数で検出されたオブジェクトを解消する能力、および複数で検出されたオブジェクトの単一のコピーだけを格納することにより、ストリームをより効率的にアーカイブする能力が含まれる。

一般に、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分の位置決めを行うことによって達せられる。一実施形態による試験では、繰り返し埋め込まれたオブジェクトの識別およびセグメント化は、メディアストリームの諸セクションを直接に比較して、ストリームの合致する部分を識別した後、その合致する部分を整列させてオブジェクト端点を識別することによって達せられる。

別の実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、１組のオブジェクト依存アルゴリズムを使用して、考え得るオブジェクトを識別するためにオーディオメディアおよび／またはビデオメディアの異なる態様を目標にすることによって達せられる。ストリーム内で考え得るオブジェクトが識別されると、繰り返し埋め込まれたオブジェクトとしてのオブジェクトの確認が、自動的にインスタンス化された動的オブジェクトデータベースの中で合致する可能性のあるオブジェクトを自動的に探索し、次に、考え得るオブジェクトと、合致する可能性のあるオブジェクトの１つまたは複数を詳細に比較することによって達せられる。次に、オブジェクト端点が、そのオブジェクトの他の繰り返すコピーとの自動的な整列および比較によって自動的に識別される。

以下に説明する様々な代替の実施形態は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、メディアストリーム内のメディアオブジェクト識別の速度を劇的に向上させるのに使用される。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの１つまたは複数の繰り返されるインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に必要な場合、メディアストリームの探索が行われる。

２．１システムの概要：
一般に、オブジェクトの繰り返されるインスタンスを識別することは、例えば、メディアストリーム内のメディアオブジェクトの位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどの情報を格納するために空の「オブジェクトデータベース」をまずインスタンス化し、または初期設定することを含む。以上の情報のいずれか、またはすべてを単一のオブジェクトデータベースの中、または任意の数のデータベースまたはコンピュータファイルの中に保持できることに留意されたい。しかし、説明を簡明にするため、前述した情報として以下の説明の全体で単一のデータベースについて述べる。代替の実施形態では、空のデータベースの代わりに、あらかじめ識別されたオブジェクトを特徴付けるためのパラメータ情報を含む既存のデータベースが使用されることに留意されたい。ただし、そのような既存のデータベースは、最初はオブジェクト識別を迅速化するが、時間が経過すると、ストリーム内でオブジェクトが探索されるにつれてパラメータ情報が入力される、最初は空のデータベースより大幅に良好なパフォーマンスを提供することはない。

いずれの場合も、空の、または既存のオブジェクトデータベースが用意されると、次のステップは、所望の期間にわたって少なくとも１つのメディアストリームをキャプチャするステップ、および格納するステップを含む。所望の期間は、数分間から数時間、または数日から数週間またはそれより長期間のどのような期間とすることも可能である。しかし、基本的な要件は、サンプル期間が、ストリーム内でオブジェクトが繰り返し始めるのに十分な長さでなければならないということである。オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。ここで述べるとおり、オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。別の実施形態では、格納要件を最小限に抑えるため、格納済みのメディアストリームは、オーディオコンテンツおよび／またはビデオコンテンツを圧縮するための任意の所望される従来の圧縮方法を使用して圧縮される。そのような圧縮技術は、当業者には周知であり、本明細書では説明しない。

前述したとおり、一実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分を探し出すことによって達せられる。具体的には、この実施形態では、メディアストリームのある部分、またはあるウィンドウがメディアストリームから選択される。ウィンドウの長さは、任意の所望の長さであることが可能であるが、通常、ほとんど、またはまったく有用な情報を提供しないほど短くてはならず、あるいはあまりにも多くのメディアオブジェクトを包含する可能性があるほど長くてはならない。試験された実施形態では、探索されるタイプの平均的の繰り返されるオブジェクトの長さのおよそ２倍ないし５倍程度のウィンドウまたはセグメントが、良好な結果をもたらすことが認められた。この部分またはウィンドウは、メディアストリームのどちらの端からも選ぶことができ、あるいはメディアストリームからランダムに選択することもできる。

次に、メディアストリームの合致するセクションを探し出そうとして、メディアストリームの選択された部分が、メディアストリームの類似したサイズの部分と直接に比較される。この比較は、合致を探し出すためにメディアストリーム全体が探索されるか、または合致が実際に探し出されるかのいずれか、先に生じた時点まで続けられる。メディアストリームと比較するための部分を選択する場合と同様に、選択されるセグメントまたはウィンドウと比較される部分は、メディアストリームのいずれかの端から始めて順次選択し、またはメディアストリームからランダムに取り上げることもでき、あるいは、探索されるクラスのオブジェクトが現行のセクション内に存在する蓋然性をアルゴリズムが示す場合に選択することができる。

本実施形態による試験では、メディアストリームの諸部分の直接比較によって合致が識別されると、次に、合致する部分を整列させてオブジェクト端点の位置決めを行うことにより、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。前述したとおり、各オブジェクトは雑音を含み、先頭または終端で短縮されている、または切り落とされている可能性があるため、オブジェクト端点は、常に明確に画されているわけではないことに留意されたい。しかし、そのような雑音の多い環境でも、単純なパターン合致、合致する部分の間で相互相関ピークを整列させること、または合致する信号を整列させるための他の任意の従来技術など、いずれかの従来技術を使用して合致する部分を整列させることにより、適切な端点の位置決めを行うことができる。整列されると、端点は、メディアストリームを逆方向、および順方向に辿り、合致する部分の境界を過ぎて、メディアストリームのその２つの部分が分岐する時点を探し出すことによって識別される。繰り返すメディアオブジェクトは、通常、放送されるたびに毎回、まったく同一の順序で再生されるわけではないため、メディアストリーム内の端点の位置決めを行うためのこの技術は、メディアストリーム内のメディアオブジェクトの先頭および端点を満足のいく形で位置識別することが確かめられている。

またはこれに替えて、前述したとおり、一実施形態では、メディアストリーム内のオブジェクトを識別するのに役立つパラメータ情報を計算するため、１組のアルゴリズムを使用して、オーディオメディアおよび／またはビデオメディアの異なる態様が目標とされる。このパラメータ情報には、識別のオブジェクトを識別するのに役立つパラメータが含まれ、このため、計算されるパラメータ情報のタイプは、探索されているオブジェクトのクラスに依存する。分析されているメディアストリームのタイプに依存して、メディアオブジェクトの類似性を比較するためのいくつかのよく知られた従来の周波数、時間、イメージ、またはエネルギーに基づくの技術を使用して、潜在的なオブジェクトの合致を識別することができることに留意されたい。例えば、オーディオストリーム内の音楽または歌に関して、これらのアルゴリズムには、例えば、短いウィンドウ内の毎分の拍子数、ステレオ情報、短い間隔にわたるチャネル別のエネルギー比、および識別の周波数帯域の周波数内容など、メディアストリーム内の容易に計算されるパラメータを計算すること、スペクトルの実質的な類似性についてメディアのより大きいセグメントを比較すること、考え得る候補オブジェクトのサンプルを格納すること、およびあらゆる繰り返し埋め込まれるオブジェクトを識別することを学習することが含まれる。

この実施形態では、メディアストリームが獲得されると、格納されたメディアストリームを検査して、探索されるクラスのオブジェクト、すなわち、歌、ジングル、ビデオ、広告などが、検査されているストリームの部分に存在する確率が算出される。ただし、代替の実施形態では、メディアストリームは、格納されるにつれ、リアルタイムで検査されて、ストリーム内の現時点における探索されるオブジェクトの存在の確率が算出されることに留意されたい。リアルタイムのメディアストリーム検査または格納後のメディアストリーム検査は、実質的に同一の形で扱われることに留意されたい。探索されるオブジェクトが存在するという確率が所定の閾値に達すると、ストリーム内の予想されるオブジェクトの位置が、前述したデータベース内で自動的に記録される。この検出閾値または類似度閾値は、ストリーム内のオブジェクト検出の感度を調整するために、要望どおり高くすること、または低くすることができることに留意されたい。

この実施形態を所与として、ストリーム内で予想されるオブジェクトが識別されると、予想されるオブジェクトを特徴付けるためのパラメータ情報が計算され、データベースクエリまたはデータベース探索において使用されて、以前に識別された予想されるオブジェクトとの潜在的なオブジェクトの合致が識別される。データベースクエリの目的は、単に、ストリームの２つの部分がほぼ同一であるか否かを判定することである。つまり、ストリーム内の２つの時間的に異なる位置にあるオブジェクトが、ほぼ同一であるか否かである。さらに、データベースは最初、空であるため、潜在的な合致を識別する可能性は、時間が経過して、より多くの考え得るオブジェクトが識別され、データベースに追加されるにつれ、当然、高くなる。

代替の実施形態では、データベースクエリによって戻される潜在的な合致の数は、システムオーバーヘッドを減らすために所望の最大数に制限されることに留意されたい。さらに、前述したとおり、データベースの中のオブジェクトに対する予想されるオブジェクトの比較に関する類似度閾値は、所望に応じて潜在的な合致の可能性を高くする、または低くするように調整可能である。さらに別の関連する実施形態では、メディアストリーム内でより頻繁に繰り返し埋め込まれたことが確認されたオブジェクトにより大きい重みを付けて、それらのオブジェクトが、それほど頻繁に繰り返し埋め込まれないオブジェクトより、潜在的な合致として識別される可能性がより高くなるようにする。さらに別の実施形態では、あまりにも多くの潜在的な合致がデータベース探索によって戻された場合、類似度閾値を高くして、より少ない潜在的な合致しか戻されないようにする。

予想されるオブジェクトに対する潜在的な合致が戻されると、予想されるオブジェクトをより確実に識別するため、予想されるオブジェクトと潜在的な合致の１つまたは複数の間でより詳細な比較が実行される。その時点で、予想されるオブジェクトが、潜在的な合致の１つの繰り返しであると確認された場合、そのオブジェクトは、繰り返しオブジェクトとして識別され、ストリーム内のそのオブジェクトの位置が、データベースに保存される。逆に、詳細な比較により、予想されるオブジェクトが潜在的な合致の１つの繰り返しではないことが示された場合、そのオブジェクトは、データベースの中で新たなオブジェクトとして識別され、前述したとおり、ストリーム内のそのオブジェクトの位置、およびパラメータ情報がデータベースに保存される。しかし、代替の実施形態では、オブジェクトが繰り返し埋め込まれたオブジェクトとして識別されない場合、より低い類似度閾値を使用して新たなデータベース探索を行って、比較のための追加のオブジェクトが識別される。この場合も、予想されるオブジェクトが繰り返し埋め込まれたと判定された場合、そのオブジェクトは、繰り返し埋め込まれたオブジェクトとして識別され、それ以外の場合、そのオブジェクトは、前述したとおり、新たなオブジェクトとしてデータベースに追加される。

さらに、前述した実施形態の場合と同様に、繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点が、自動的に決定される。例えば、識別のオブジェクトのＮ個のインスタンスが存在する場合、それらのインスタンスのすべてが、正確に同じ長さではない可能性がある。したがって、端点の決定には、１つのインスタンスに対して様々なインスタンスを整列させた後、整列されたオブジェクトのそれぞれの中を逆方向、および順方向に辿って、インスタンスのそれぞれが依然として、その他のインスタンスとほぼ等しいさらなる範囲を決定するステップが関わる。

探索されるクラスのオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、ストリームの２つの部分がほぼ同一であるか否かを試験するための方法はともに、探索されているオブジェクトのタイプ（例えば、音楽、発話、広告、ジングル、局名アナウンス、ビデオなど）に大きく依存し、他方、ストリーム内の端点の位置のデータベースおよび決定は、どのような種類のオブジェクトが探索されているかにかかわらず、非常に類似していることに留意されたい。

前述した実施形態のそれぞれのさらなる変形形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、劇的に向上する。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの１つまたは複数の繰り返しインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に、必要な場合、メディアストリームの探索が行われる。

最後に、別の実施形態では、前述したとおり端点が決定されると、オーディオストリームからオブジェクトが抽出され、個々のファイルの中に格納される。またはこれに替えて、メディアストリーム内のオブジェクト端点に対するポインタが、データベースの中に格納される。

２．２システムアーキテクチャ
図２の全体的なシステム図は、前述のプロセスを示している。詳細には、図２のシステム図は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するための「オブジェクト抽出器」を実装するためのプログラムモジュール間における相互関係を示している。図２に破線または点線で表すボックス、およびボックス間の相互接続は、本発明の代替の実施形態を表しており、前述したとおり、それらの代替の実施形態のいずれか、またはすべてを、本明細書全体で説明されている他の代替の実施形態と組み合わせて使用することもできることに留意されたい。

詳細には、図２に示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法は、オーディオ情報および／またはビデオ情報を含むメディアストリームをキャプチャするためにメディアキャプチャモジュール２００を使用することで開始する。メディアキャプチャモジュール２００は、いくつかの従来技術のいずれかを使用して、ラジオまたはテレビ／ビデオの放送メディアストリームをキャプチャする。そのようなメディアキャプチャ技術は、当業者には周知であり、本明細書で説明しない。キャプチャされると、メディアストリーム２１０は、コンピュータファイルまたはデータベースの中に格納される。さらに、一実施形態では、メディアストリーム２１０は、オーディオメディアおよび／またはビデオメディアを圧縮するための従来技術を使用して圧縮される。

一実施形態では、オブジェクト検出モジュール２２０が、メディアストリームからあるセグメントまたはウィンドウを選択し、そのセグメントまたはウィンドウをオブジェクト比較モジュール２４０に提供し、メディアストリームの合致する部分を探し出そうとして、そのセクションとメディアストリーム２１０の他のセクションまたはウィンドウの間で直接の比較が実行される。前述したとおり、オブジェクト比較モジュール２４０は、合致を探し出すようにメディアストリーム２１０全体が探索されるか、または合致が実際に探し出されるまでかのいずれか、先に生じた時点まで比較を続ける。

この実施形態では、オブジェクト比較モジュール２４０によるメディアストリームの諸部分の直接の比較によって合致が識別されると、オブジェクト整列−端点決定モジュール２５０を使用して、メディアストリームの合致する部分を整列させた後、メディアストリームの部分間の整列の中心から逆方向、および順方向に探索を行って、各オブジェクトがほぼ等しいさらなる範囲を識別して、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。一実施形態では、次に、この端点情報が、オブジェクトデータベース２３０の中に格納される。

またはこれに替えて、別の実施形態では、比較の目的でメディアストリームのあるウィンドウまたはセグメントを単に選択するのではなく、オブジェクト検出モジュールはまず、メディアストリーム内に埋め込まれた可能なメディアオブジェクトを識別しようとして、メディアストリーム２１０を検査する。メディアストリーム２１０のこの検査は、メディアストリームの一部分を表すウィンドウを検査することによって達せられる。前述したとおり、考え得るオブジェクトを検出するメディアストリーム２１０の検査は、検査されているメディアコンテンツのタイプに合わされた１つまたは複数の検出アルゴリズムを使用する。一般に、それらの検出アルゴリズムは、分析されているメディアストリームの部分を特徴付けるためのパラメータ情報を計算する。可能なメディアオブジェクトの検出を以下に、セクション３．１．１でさらに詳細に説明する。

オブジェクト検出モジュール２２０が考え得るオブジェクトを識別すると、メディアストリーム２１０内のその考え得るオブジェクトの場所または位置が、オブジェクトデータベース２３０の中で記録される。さらに、オブジェクト検出モジュール２２０によって計算されたその考え得るオブジェクトを特徴付けるためのパラメータ情報も、オブジェクトデータベース２３０の中に格納される。このオブジェクトデータベースは最初、空であり、オブジェクトデータベース２３０の最初のエントリは、オブジェクト検出モジュール２２０によって検出された最初の考え得るオブジェクトに対応することに留意されたい。またはこれに替えて、オブジェクトデータベースには、以前にキャプチャされたメディアストリームの分析または探索の結果があらかじめ埋められる。オブジェクトデータベースを以下に、セクション３．１．３でさらに詳細に説明する。

メディアストリーム２１０内の考え得るオブジェクトの検出の後、次に、オブジェクト比較モジュール２４０が、オブジェクトデータベース２３０にクエリを行い、その考え得るオブジェクトに関する潜在的な合致、すなわち、繰り返されるインスタンスを探し出す。１つまたは複数の潜在的な合致が識別されると、オブジェクト比較モジュール２４０は、次に、その考え得るオブジェクトと、合致する可能性のあるオブジェクトの１つまたは複数の詳細な比較を実行する。この詳細な比較には、その考え得るオブジェクトを表すメディアストリームの諸部分と潜在的な合致の直接の比較、またはその考え得るオブジェクトを表すメディアストリームの諸部分のより小さいサイズの（ｌｏｗｅｒｄｉｍｅｎｓｉｏｎ）バージョンと潜在的な合致との比較が含まれる。この比較プロセスを以下に、セクション３．１．２でさらに詳細に説明する。

次に、オブジェクト比較モジュール２４０が、潜在的なオブジェクトの合致または繰り返されるインスタンスを識別すると、考え得るオブジェクトには、繰り返し埋め込まれたオブジェクトとしてオブジェクトデータベース２３０の中でフラグが付けられる。次に、オブジェクト整列−端点決定モジュール２５０が、新たに識別された繰り返しオブジェクトを、そのオブジェクトの各々の以前に識別済みの繰り返されるインスタンスと整列させて、それらのオブジェクトのそれぞれの間で逆方向、および順方向に探索を行い、各オブジェクトがほぼ等しいさらなる範囲を識別する。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。次に、この端点情報が、オブジェクトデータベース２３０の中に格納される。オブジェクト端点の整列および識別を以下に、セクション３．１．４でさらに詳細に説明する。

最後に、別の実施形態では、オブジェクト整列−端点決定モジュール２５０によってオブジェクト端点が識別されると、オブジェクト抽出モジュール２６０が、その端点情報を使用して、それらの端点に対応するメディアストリームのセクションを、個々のメディアオブジェクト２７０の別個のファイルまたはデータベースにコピーする。別の実施形態では、考え得るオブジェクトのより小さいサイズのバージョンと潜在的な合致の前述した比較のために、考え得るオブジェクトに対する潜在的な合致を表すメディアストリームの諸部分の代わりに、メディアオブジェクト２７０が使用されることにも留意されたい。

前述したプロセスは、例えば、スライドするウィンドウを使用すること、または最後に検出されたメディアオブジェクトの計算済みの端点にウィンドウの始まりを移動することなどにより、オブジェクト検出モジュール２２０によって分析されているメディアストリーム２１０の部分が増分されて、繰り返される。上記のプロセスは、メディアストリーム全体が検査されるまで、またはユーザが検査を終了させるまで続く。ストリーム内で繰り返し埋め込まれたオブジェクトをリアルタイムで探索する場合、探索プロセスは、所定の時間が費やされた時点で終了させることができる。

３．０動作の概要
前述したプログラムモジュール群が、メディアストリーム内で繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するための「オブジェクト抽出器」において使用される。このプロセスを、前述したプログラムモジュール群を実装するための例示的な方法の詳細な働きの説明に続き、オブジェクト抽出器の代替の実施形態を表す図３Ａないし図５の流れ図に示す。

３．１動作上の諸要素
前述したとおり、オブジェクト抽出器は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するように動作する。オブジェクトの繰り返されるインスタンスを識別する一般的な方法の実用例は、一般に下記の要素を含む。

１．メディアストリームの２つの部分がほぼ同一であるか否かを判定するための技術。つまり、メディアストリーム内でそれぞれほぼ時間的な位置ｔ_ｉおよびｔ_ｊに位置するメディアオブジェクトが、ほぼ同一であるか否かを判定するための技術。さらなる詳細については、セクション３．１．２を参照されたい。関連する実施形態では、メディアストリームの２つの部分がほぼ同一であるか否かを判定するための技術には、探索されるクラスのメディアオブジェクトが、検査されているメディアストリームの部分に存在する確率を算出するための技術が先立つことに留意されたい。さらなる詳細については、セクション３．１．１を参照されたい。

２．識別の繰り返し埋め込まれたオブジェクトのそれぞれの探し出されたインスタンスを記述するための情報を格納するためのオブジェクトデータベース。オブジェクトデータベースは、例えば、メディアストリーム内のメディアオブジェクト位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどのレコードを含む。この場合も、前述したとおり、オブジェクトデータベースは、実際には、要望どおり１つまたは複数のデータベースであることが可能である。さらなる詳細については、セクション３．１．２を参照されたい。

３．識別済みの繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点を決定するための技術。一般に、この技術はまず、各々の合致するセグメントまたはメディアオブジェクトを整列させ、次に、時間を逆方向、および順方向に辿って、インスタンスの各々が依然として、その他のインスタンスにほぼ等しいさらなる範囲を決定する。それらのさらなる範囲が、一般に、繰り返すメディアオブジェクトの端点に相当する。さらなる詳細については、セクション３．１．４を参照されたい。

探索されるクラスのメディアオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、メディアストリームの２つの部分がほぼ同一であるか否かを判定するための方法はともに、探索されているオブジェクトのタイプ（例えば、オブジェクトが音楽であるか、発話であるか、ビデオであるかなど）に大きく依存し、他方、識別済みの繰り返しオブジェクトの様々なインスタンスの端点を決定するためのオブジェクトデータベースおよび技術は、探索されているオブジェクトのタイプまたはクラスにかかわらず、極めて似通っていることが可能であることに留意されたい。

以下の説明は、オブジェクト抽出器を文脈に置くために、オーディオメディアストリーム内の音楽または歌の検出について述べることに留意されたい。しかし、前述したとおり、本明細書で説明する同一の一般的なアプローチは、例えば、音声、ビデオ、イメージシーケンス、局のジングル、広告などの他のクラスのオブジェクトにも同様にうまく適用される。

３．１．１オブジェクト検出確率
前述したとおり、一実施形態では、メディアストリームの２つの部分がほぼ同一であるか否かを判定するための技術には、探索されるクラスのメディアオブジェクトが、検査されているメディアストリームの部分に存在する確率を算出するための技術が先立つ。この算出は、メディアストリームのセクション間で直接の比較が行われる実施形態（セクション３．１．２参照）では必要ない。しかし、この計算は、探索の効率を大幅に高めることができる。つまり、探索されるクラスのオブジェクトを含む可能性が低いと判定されたセクションを、その他のセクションと比較する必要がない。探索されるクラスのメディアオブジェクトがメディアストリーム内に存在する確率を算出することは、まず、メディアストリームをキャプチャし、検査することで始まる。例えば、１つのアプローチは、目標メディアストリームの中を進みながら、容易に計算されるパラメータのベクトル、すなわち、パラメータ情報を継続的に計算することである。前述したとおり、識別のメディアオブジェクトタイプまたはメディアオブジェクトクラスを特徴付けるのに必要とされるパラメータ情報は、探索が実行されている識別のオブジェクトタイプまたはオブジェクトクラスに完全に依存する。

探索されるクラスのメディアオブジェクトがメディアストリームの中に存在する確率を算出するための技術は、通常、信頼できないことに留意されたい。つまり、その技術は、多くのセクションを予想され、または考え得る探索されるオブジェクトとして分類することを、それらのセクションがそのようなオブジェクトではない場合に行い、このため、オブジェクトデータベースの中で役に立たないエントリが生じる。同様に、本質的に信頼できないため、その技術は、多くの実際に探索されているオブジェクトを予想されるオブジェクト、または考え得るオブジェクトとして分類することにも失敗する。しかし、より効率的な比較技術を使用することはできるが、初期の予想される、または可能な検出を、繰り返しオブジェクトを識別するための潜在的な合致の後の詳細な比較と組み合わせることは、ストリーム内の探索されるオブジェクトのほとんどの場所を迅速に識別するのに役立つ。

明らかに、実質的にあらゆるタイプのパラメータ情報を使用して、メディアストリーム内の考え得るオブジェクトを探し出すことができる。例えば、放送されたビデオストリームまたはテレビストリームの中で頻繁に繰り返されるコマーシャル、またはその他のビデオセグメントまたはオーディオセグメントに関して、考え得るオブジェクトまたは予想されるオブジェクトは、ストリームのオーディオ部分、ストリームのビデオ部分、あるいはその両方を検査することによって探し出すことができる。さらに、そのようなオブジェクトの特性に関する既知の情報を使用して、初期の検出アルゴリズムを調整することができる。例えば、テレビコマーシャルは、１５秒から４５秒までの長さである傾向があり、３分ないし５分のブロックでグループ化される傾向がある。ビデオストリーム内またはテレビストリーム内でコマーシャルブロックまたは広告ブロックを探し出す際に、この情報を使用することができる。

オーディオメディアストリームに関して、例えば、歌、音楽、または繰り返される発話を探索することが所望される場合、メディアストリーム内の考え得るオブジェクトを探し出すのに使用されるパラメータ情報は、例えば、短いウィンドウにわたって計算されるメディアストリームの毎分の拍子数（ＢＰＭ）、相対的なステレオ情報（例えば、差信号（ｄｉｆｆｅｒｅｎｃｅｃｈａｎｎｅｌ）のエネルギー対和信号（ｓｕｍｃｈａｎｎｅｌ）のエネルギーの比）、短い間隔にわたって平均したある周波数帯域のエネルギー占有率（ｏｃｃｕｐａｎｃｙ）などの情報から成る。

さらに、あるパラメータ情報の連続性に特に注意が払われる。例えば、オーディオメディアストリームのＢＰＭが、３０秒以上の間隔にわたってほぼ同一のままである場合、これは、歌オブジェクトがストリーム内のその場所におそらく存在することを示すものと解釈することができる。より短い持続時間にわたって不変のＢＰＭにより、ストリーム内の所定の場所にオブジェクトが存在するより低い確率が与えられる。同様に、長い期間にわたる大量のステレオ情報の存在により、歌が再生されている可能性が示されることが可能である。

おおよそのＢＰＭを計算する様々なやり方が存在する。例えば、オブジェクト抽出器の実用例では、オーディオストリームがフィルタリングされ、ダウンサンプリングされて、元のストリームのより小さいサイズのバージョンが生成される。試験された実施形態では、オーディオストリームをフィルタリングして、０−２２０Ｈｚの範囲内の情報だけを含むストリームを生成することにより、良好なＢＰＭ結果がもたらされることが確認されている。しかし、メディアストリームからどのような情報が抽出されるべきかに応じて、任意の周波数範囲を検査できることを認識されたい。ストリームがフィルタリングされ、ダウンサンプリングされると、次に、１回につきおよそ１０秒のウィンドウのウィンドウの自己相関を使用して低レートストリームの中で優勢なピークの探索を実行して、最大の２つのピーク、ＢＰＭ１およびＢＰＭ２が保持される。試験された実施形態においてこの技術を使用して、ＢＰＭ１またはＢＰＭ２が１分間以上にわたってほぼ連続的である場合、探索されるオブジェクト（この場合は、歌）が存在するという判定が行われる。中央値フィルタリングを使用して偽の（ｓｐｕｒｉｏｕｓ）ＢＰＭ数が除去される。

以上の説明では、予想され、または考え得る探索されるオブジェクトの識別は、特徴のベクトルまたはパラメータ情報だけを使用して達せられたことに留意されたい。しかし、さらなる実施形態では、見つかったオブジェクトに関する情報を使用して、この基本的な探索が変更される。例えば、オーディオストリームの例に戻ると、見つかったオブジェクトと局のジングルの間の４分の間隙が、探索されている予想されるオブジェクトとして初期の探索によってフラグが付けられなかった場合でも、そのようなオブジェクトとしてデータベースに追加するのに非常に良い候補である。

３．１．２オブジェクトの類似度の試験
前述したとおり、メディアストリームの２つの部分がほぼ同一であるか否かの判定には、メディアストリーム内の２つの位置、すなわち、それぞれｔ_ｉおよびｔ_ｊに位置するメディアストリームの２つ以上の部分の比較を伴う。試験された実施形態では、比較されるべきウィンドウまたはセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きいように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体またはウィンドウ全体ではなく、メディアストリームの比較されるセクションの諸部分だけが、実際に合致するものと予期されよう。

一実施形態では、この比較には、単に、メディアストリームの異なる部分を直接に比較して、メディアストリーム内のあらゆる合致を識別することを伴う。メディアストリーム内の前述したソースのいずれかからの雑音の存在に起因して、メディアストリームの２つの繰り返されるセクションまたは複製のセクションが完全に合致する可能性は低いことに留意されたい。しかし、雑音の多い信号が複製または繰り返されるインスタンスであるか否かを判定するためにそのような信号を比較するための従来の技術は、当業者に周知であり、本明細書でさらに詳細に説明することはしない。さらに、そのような直接の比較は、信号またはメディアストリームを特徴付けるためのパラメータ情報をまず計算する必要なしに、任意の信号タイプに適用可能である。

別の実施形態では、前述したとおり、この比較には、メディアストリームの諸部分に関するパラメータ情報をまず比較して、メディアストリームの現在のセグメントまたはウィンドウに対する可能な、または潜在的な合致を識別するステップが含まれる。

メディアストリームの諸部分を直接に比較しているか、またはパラメータ情報を比較しているかにかかわらず、メディアストリームの２つの部分がほぼ同一であるか否かの判定は、考え得るオブジェクトの基本的な検出だけよりも本質的により信頼できる（セクション３．１．１参照）。つまり、この判定は、メディアストリームの２つの似通っていない区間（ｓｔｒｅｔｃｈ）を同一であると誤って分類する確率が比較的低い。したがって、データベースの中のレコードの２つのインスタンスが類似していると判定され、またはメディアストリームの２つのセグメントまたはウィンドウが十分に類似していると判定された場合、これは、メディアストリームのそれらのレコードまたは部分が実際に繰り返し埋め込まれたオブジェクトを表していることの確証であると解釈される。

これは、考え得るオブジェクトを探し出すようにメディアストリームがまず検査される実施形態では、考え得るオブジェクトの単純な検出が、信頼できない、すなわち、オブジェクトと見なされているが、実際にはオブジェクトではないエントリがデータベースに行われている可能性があるために、重要である。このため、データベースの内容を検査する際、１つだけのコピーが見つかっているレコードは、探索されている予想されるオブジェクト、または考え得るオブジェクト（すなわち、歌、ジングル、広告、ビデオ、コマーシャルなど）に過ぎないが、２つ以上のコピーが見つかっているレコードは、より高い確度で探索されているオブジェクトであると見なされる。このため、オブジェクトの第２のコピー、および以降のコピーを見つけることは、メディアストリーム内の考え得る、または予想されるオブジェクトを単に検出することの信頼性の欠如に起因する不確実性を取り除くのに大いに役立つ。

例えば、オーディオメディアストリームを使用する試験された実施形態では、直接の比較を実行するのではなく、パラメータ情報を比較する場合、オーディオストリーム内の２つの位置が、その位置のバーク（Ｂａｒｋ）バンドの１つまたは複数を比較することによって比較される。位置ｔ_ｉとｔ_ｊがほぼ同一であるという推測を検定するのに、それらの位置のそれぞれを中心とする探索されるクラスの平均的オブジェクトの長さの２倍ないし５倍の間隔に関してバークスペクトルが計算される。この時間は、単に便宜上、選択している。次に、それらの帯域の１つまたは複数の帯域の相互相関が計算され、ピークの探索が実行される。それらのバークスペクトルが実質的に同一であることを示すのに十分なピークの強さがある場合、それらのスペクトルが由来するオーディオのセクションも実質的に同一であると推測される。

さらに、別の実施形態による試験では、単一のバークスペクトル帯域ではなく、いくつかのバークスペクトル帯域を使用してこの相互相関試験を実行することにより、比較の堅牢性が向上する。具体的には、複数帯域の相互相関の比較により、オブジェクト抽出器が、２つの位置ｔ_ｉとｔ_ｊがほぼ同一のオブジェクトを表す場合をほとんど常に正しく識別することができる一方で、非常に稀にしかその２つの位置が同一であると誤って示すことがないようになる。放送オーディオストリームからキャプチャされたオーディオデータの試験は、７００Ｈｚないし１２００Ｈｚの範囲内の信号情報を含むバークスペクトル帯域が、上記の目的で特に堅牢であり、信頼できることを示した。ただし、オーディオメディアストリームを検査する際、他の周波数帯域にわたる相互相関も、オブジェクト抽出器によってうまく使用されることが可能であることに留意されたい。

位置ｔ_ｉとｔ_ｊが同一のオブジェクトを表すと判定されると、バークスペクトル帯域の相互相関のピーク位置間の差、および帯域の１つの自己相関により、別々のオブジェクトの整列の計算が可能になる。このため、ｔ_ｉが対応するのと同一の曲内の位置に対応する調整された位置ｔ_ｊ'が計算される。つまり、比較の計算と整列の計算はともに、ｔ_ｉを中心とするオーディオとｔ_ｊを中心とするオーディオが同一のオブジェクトを表すが、ｔ_ｉとｔ_ｊ'はそのオブジェクト内のほぼ同一の位置を表すことを示す。つまり、例えば、ｔ_ｉが６分間のオブジェクトが開始してから２分経過した位置であり、ｔ_ｊが同一のオブジェクトが開始してから４分経過した位置であった場合、オブジェクトの比較および整列により、オブジェクトが同一のオブジェクトであるか否かの判定が可能になり、オブジェクトの第２のインスタンスが開始してから２分経過した位置を表すｔ_ｊ'も戻される。

直接比較のケースも同様である。例えば、直接比較のケース、例えば、メディアストリームの異なる部分間の相互相関を実行するなどの従来の比較技術を使用して、メディアストリームの合致する領域が識別される。前の例と同様に、一般的な考え方は、単に、位置ｔ_ｉおよびｔ_ｊそれぞれにおけるメディアストリームの２つの部分がほぼ同一であるか否かを判定することである。さらに、直接比較のケースは、実際には、前の実施形態より実施するのがはるかに容易である。というのは、直接比較は、メディアに依存しないからである。例えば、前述したとおり、識別の信号タイプまたはメディアタイプの分析に必要とされるパラメータ情報は、特徴付けられている信号オブジェクトまたはメディアオブジェクトのタイプに依存する。しかし、直接比較法では、それらのメディア依存の特徴付けは、比較の目的で決定される必要がない。

３．１．３オブジェクトデータベース
前述したとおり、代替の実施形態では、例えば、以下のいずれか、またはすべてなどの情報を格納するのにオブジェクトデータベースが使用される。すなわち、メディアストリーム内のメディアオブジェクト位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、メディアオブジェクトのコピー、および個々のメディアオブジェクトが格納されているファイルまたは他のデータベースに対するポインタである。さらに、一実施形態では、このオブジェクトデータベースは、オブジェクトの繰り返されるインスタンスが見つかると、それらのインスタンスに関する統計情報も格納する。「データベース」という用語を、ここでは、一般的な意味で使用していることに留意されたい。詳細には、代替の実施形態では、本明細書で説明するシステムおよび方法は、独自のデータベースを構築するか、オペレーティングシステムのファイルシステムを使用するか、または、例えば、ＳＱＬサーバまたはＭｉｃｒｏｓｏｆｔ（登録商標）Ａｃｃｅｓｓのような市販のデータベースパッケージを使用する。さらに、やはり前述したとおり、前述した情報のいずれか、またはすべてを格納するために、代替の実施形態において１つまたは複数のデータベースが使用される。

一実施形態による試験では、オブジェクトデータベースは、最初、空である。探索されるクラスのメディアオブジェクトがメディアストリーム内に存在すると判定された場合、エントリがオブジェクトデータベースの中に格納される（例えば、セクション３．１．１およびセクション３．１．２参照）。別の実施形態では、直接比較を実行する場合、オブジェクト合致を探し出すのに、メディアストリーム自体を探索するのに先立って、オブジェクトデータベースにクエリが行われることに留意されたい。この実施形態は、メディアストリーム内で識別のメディアオブジェクトが認められると、その識別のメディアオブジェクトがそのメディアストリーム内で繰り返される可能性がより高いという前提に基づいて機能する。したがって、オブジェクトデータベースにまずクエリを行って合致するメディアオブジェクトを探し出すことは、合致するメディアオブジェクトを識別するのに必要とされる全体的な時間および計算費用を減らすのに役立つ。以上の実施形態を以下にさらに詳細に説明する。

データベースは、２つの基本的な機能を実行する。第１に、データベースは、あるメディアオブジェクト、若しくは特徴またはパラメータ情報のある集合に合致する、または部分的に合致する１つまたは複数のオブジェクトがオブジェクトデータベースの中に存在するか否かを判定するためのクエリに応答する。このクエリに応答して、オブジェクトデータベースは、前述したとおり、合致する可能性のあるオブジェクトのストリーム名および位置のリストを戻すか、または単に合致するメディアオブジェクトの名前および位置を戻す。一実施形態では、特徴のリストに合致する現在のエントリがまったく存在しない場合、オブジェクトデータベースは、そのようなエントリを作成し、そのストリーム名および位置を新たな予想される、または考え得るオブジェクトとして追加する。

一実施形態では、合致する可能性のあるレコードを戻す場合、オブジェクトデータベースは、合致の最も高確率で予想されるレコードと判定した順にレコードを提示することに留意されたい。例えば、考え得るオブジェクトと可能性のある合致の間の以前に計算された類似度などのパラメータに基づいて、その確率を算出することが可能である。またはこれに替えて、オブジェクトデータベースの中に既にいくつかのコピーを有するレコードに関して、より高い確率の合致を戻すことができる。というのは、そのようなレコードは、オブジェクトデータベースの中に１つのコピーだけしか有さないレコードより、合致することがより強く予想されるからである。最も高確率で予想されるオブジェクト合致から前述したオブジェクト比較を始めることにより、全体的なシステムパフォーマンスを向上させながら、計算時間が短縮される。というのは、そのような合致は、通常、それほど詳細でない比較で識別されるからである。

データベースの第２の基本的な機能は、オブジェクト端点の決定を含む。詳細には、オブジェクト端点を決定しようと試みる場合、オブジェクトデータベースは、オブジェクトの繰り返しコピーまたは繰り返しインスタンスのそれぞれのストリーム名、およびストリーム内の位置を戻して、以下のセクションで説明するとおり、オブジェクトを整列させ、比較することができるようにする。

３．１．４オブジェクト端点の決定
時間が経過し、メディアストリームが処理されるとともに、オブジェクトデータベースには、当然、オブジェクト、繰り返し埋め込まれたオブジェクト、およびストリーム内のおおよそのオブジェクト位置がますます入力される。前述したとおり、考え得るオブジェクトの複数のコピーまたはインスタンスを含むデータベースの中のレコードが、探索されるオブジェクトであるものと考えられる。データベースの中のそのようなレコードの数は、目標ストリーム内で探索されるオブジェクトが繰り返される頻度、および分析されているストリームの長さに依存するレートで増加する。データベースの中のレコードが探索されるオブジェクトを表しているか、または単に分類の誤りであるかについて確実に認識することに加え、探索されるオブジェクトの第２のコピーを見つけることは、ストリーム内のオブジェクトの端点を決定するのに役立つ。

具体的には、データベースに繰り返し埋め込まれたメディアオブジェクトが入力されるにつれ、それらのメディアオブジェクトの端点を決定することがますます容易になる。一般に、メディアオブジェクトの端点の決定は、メディアストリーム内で識別されるメディアオブジェクトを比較し、整列させた後、識別のメディアオブジェクトの様々なインスタンスがどこで分岐するかを決定することによって達せられる。セクション３．１．２で前述したとおり、考え得るオブジェクトの比較により、メディアストリーム内の異なる位置に同一のオブジェクトが存在することが確認されるが、この比較自体は、それらのオブジェクトの境界を確定しない。しかし、それらの境界は、メディアストリーム、またはそれらの位置におけるメディアストリームのより小さいサイズのバージョンを比較した後、メディアストリームのそれらの部分を整列させ、メディアストリーム内を逆方向、および順方向に辿って、メディアストリームが分岐するメディアストリーム内の時点を識別することによって決定可能である。

例えば、データベースレコードの中にオブジェクトのＮ個のインスタンスを有するオーディオメディアストリームのケースでは、オーディオストリーム内でそのオブジェクトが出現するＮ個の位置が存在する。一般に、放送オーディオストリームの直接比較の場合、波形データは、一部のケースでは、様々なコピーがどこでほぼ一致し、どこで分岐しはじめるかの信頼できる指示をもたらすには雑音が多過ぎる場合があることが確認されている。ストリームがそのような直接比較には雑音が多過ぎる場合、より小さいサイズのバージョン、または識別の特性情報の比較が、満足のいく結果をもたらすことが確認されている。例えば、雑音の多いオーディオストリームのケースでは、バークスペクトル表現などの識別の周波数または周波数帯域の比較が、比較の目的および整列の目的でうまくいくことが確認されている。

具体的には、オーディオストリームからメディアオブジェクトを抽出するための一実施形態による試験では、メディアオブジェクトのＮ個のコピーの各々に関して、オブジェクトより相対的に長いオーディオデータのウィンドウから１つまたは複数のバークスペクトル表現が導出される。前述したとおり、複数の代表的なバークバンドの使用によって、より信頼できる比較が達せられる。オーディオストリームに適用されたオブジェクト抽出器の実用例では、７００Ｈｚないし１２００Ｈｚの範囲内の情報を表すバークバンドが、特に堅牢であり、オーディオオブジェクトを比較するのに役立つことが認められたことに留意されたい。明らかに、比較のために選択される周波数帯域は、オーディオストリーム内の音楽、発話、または他のオーディオオブジェクトのタイプに合わせられなければならない。一実施形態では、選択された帯域のフィルタリング済みのバージョンを使用して、堅牢性がさらに高められる。

上記の例を所与として、選択されたバークスペクトルがすべてのコピーに関してほぼ同一である限り、基礎にあるオーディオデータもほぼ同一であるものと考えられる。逆に、選択されたバークスペクトルがすべてのコピーに関して十分に異なる場合、基礎にあるオーディオデータは、もはや問題のオブジェクトに属していないものと考えられる。このようにして、選択されたバークスペクトルをストリーム内で逆方向、および順方向に辿って、オブジェクトの境界を決定するために分岐が出現する位置が決定される。

詳細には、一実施形態では、バークスペクトル分解（臨界帯域としても知られる）を使用して、データベースの中のオブジェクトの小さいサイズのバージョンが計算される。この分解は、当業者には周知である。この分解は、信号をいくつかの異なる帯域に分解する。個々の帯域は、狭い周波数範囲を占めるため、それらの帯域が表す信号よりもはるかに低いレートでサンプリングすることができる。したがって、オブジェクトデータベースの中のオブジェクトに関して計算された特性情報は、それらの帯域の１つまたは複数のサンプリングされたバージョンから成るようにすることが可能である。例えば、一実施形態では、特性情報は、８４０Ｈｚを中心とするバーク帯域７のサンプリングされたバージョンから成る。

別の実施形態では、オーディオメディアストリームの目標部分がデータベースの中のある要素に合致するという判定は、オーディオストリームの目標部分の小さいサイズのバージョンに対するデータベースオブジェクトの小さいサイズのバージョンの相互相関を計算することによって行われる。相互相関のピークは、一般に、２つの波形が、全長の少なくとも一部分に関してほぼ等しいことを暗示する。当業者には周知のとおり、偽のピークを受け入れることを回避する様々な技術が存在する。例えば、相互相関の識別の局所極大が候補のピークである場合、そのピークの値が、そのピークのまわりの（ただし、必ずしもピークを含まない）値のウィンドウ内の平均値より高い標準偏差の閾値数を超えるものであることを要求することができる。

さらに別の実施形態では、見つかったオブジェクトの範囲または端点は、繰り返し埋め込まれたオブジェクトの２つ以上のコピーを整列させることによって決定される。例えば、合致が見つかると（相互相関のピークを検出することにより）、オーディオストリームの目標部分のより小さいサイズのバージョンと、ストリームの別のセクション、またはデータベースエントリのより小さいサイズのバージョンが整列させられる。それらのバージョンの整列がずれている量が、相互相関ピークの位置によって算出される。次に、小さいサイズのバージョンの１つが正規化されて、値がほぼ一致するようになる。つまり、オーディオストリームの目標部分がＳであり、合致する部分（ストリームの別のセクション、またはデータベースからの）がＧであり、相互相関から、ＧとＳがオフセットｏで合致すると判定されている場合、ｔがオーディオストリーム内の時間的位置であるＳ（ｔ）が、Ｇ（ｔ＋ｏ）と比較される。ただし、Ｓ（ｔ）がＧ（ｔ＋ｏ）にほぼ等しくなるにはまず、正規化が必要である場合がある。次に、オブジェクトの開始点が、ｔ＞ｔ_ｂの場合、Ｓ（ｔ）がＧ（ｔ＋ｏ）とほぼ等しくなるような最小のｔ_ｂを求めることによって算出される。同様に、オブジェクトの端点が、ｔ＜ｔ_ｅの場合、Ｓ（ｔ）がＧ（ｔ＋ｏ）にほぼ等しくなるような最大のｔ_ｅを求めることによって算出される。これが終了すると、ｔ_ｂ＜ｔ＜ｔ_ｅの場合、Ｓ（ｔ）は、ほぼＧ（ｔ＋ｏ）に等しく、ｔ_ｂおよびｔ_ｅをオブジェクトのおおよその端点と見なすことができる。一部の事例では、端点を算出する前により小さいサイズのバージョンをフィルタリングする必要がある場合がある。

一実施形態では、ｔ＞ｔ_ｂの場合、Ｓ（ｔ）がＧ（ｔ＋ｏ）にほぼ等しいと判定することは、二分法によって行われる。ｔ_１＜ｔ_０である場合に、Ｓ（ｔ_０）とＧ（ｔ_ｏ＋ｏ）がほぼ等しい位置ｔ_０が求められ、Ｓ（ｔ_１）とＧ（ｔ_１＋ｏ）が等しくない位置ｔ_１が求められる。次に、オブジェクトの先頭が、二分法によって算出されたｔの様々な値に関して、Ｓ（ｔ）の小さいセクションとＧ（ｔ＋ｏ）の小さいセクションを比較することによって算出される。オブジェクトの終りが、ｔ_２＞ｔ_０である場合に、Ｓ（ｔ_０）とＧ（ｔ_０＋ｏ）がほぼ等しいｔ_０をまず求め、Ｓ（ｔ_２）とＧ（ｔ_２＋ｏ）が等しくないｔ_２を求めることによって算出される。最後に、オブジェクトの端点が、二分法によって算出されたｔの様々な値に関してＳ（ｔ）のセクションとＧ（ｔ＋ｏ）のセクションを比較することによって算出される。

さらに別の実施形態では、ｔ＞ｔ_ｂの場合、Ｓ（ｔ）がＧ（ｔ＋ｏ）にほぼ等しいと判定することが、Ｓ（ｔ_０）とＧ（ｔ_０＋ｏ）がほぼ等しいｔ_０を求め、次に、Ｓ（ｔ）とＧ（ｔ＋ｏ）がもはやほぼ等しくなくなるまでｔをｔ_０から減少させることによって行われる。Ｓ（ｔ）およびＧ（ｔ＋ｏ）の絶対差（ａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅ）が、ｔの単一の値における何らかの閾値を超えた場合にＳ（ｔ）とＧ（ｔ＋ｏ）がもはやほぼ等しくないと判断するのではなく、絶対差が、ある最小範囲の値に関する何らかの閾値を超えた場合、または累積の絶対差が何らかの閾値を超えた場合にその判定を行う方が、一般に、より堅牢である。同様に、端点は、Ｓ（ｔ）とＧ（ｔ＋ｏ）がもはやほぼ等しくなくなるまでｔをｔ_０から増加させることによって算出される。

動作の際、ラジオ局またはＴＶ局からの放送オーディオなどのオブジェクトのいくつかのインスタンスの間で、オブジェクトのすべてが正確に同じ長さであるのは稀であることが認められた。例えば、６分間のオブジェクトのケースでは、オブジェクトは、ときとして、先頭から終端まで連続して再生される可能性があり、ときとして、先頭および／または終端において短縮される可能性があり、ときとして、紹介のボイスオーバー、または前のオブジェクトまたは次のオブジェクトのフェードアウトまたはフェードインによって損なわれている可能性がある。

繰り返すし埋め込まれたオブジェクトの長さのこの不一致の可能性を考えると、各コピーが、コンパニオンコピー（ｃｏｍｐａｎｉｏｎｃｏｐｉｅｓ）と分岐する時点を決定する必要がある。前述したとおり、一実施形態では、これは、オーディオストリームのケースでは、各コピーの選択されたバークバンドをすべてのコピーの選択されたバークバンドの中央値と比較することによって達せられる。時間的に逆方向に進んで、１つのコピーが、十分に長い間隔にわたって中央値から十分に分化する（ｄｉｖｅｒｇｅ）場合、オブジェクトのそのインスタンスは、そこから始まったものと判断される。すると、そのインスタンスは、中央値の計算から除外され、その時点で、オブジェクトコピー内を時間的に逆方向に進みつづけることにより、分化する次のコピーの探索が実行される。このようにして、最終的に、２つのコピーだけが残っている時点に達する。同様に、時間的に順方向に進んで、２つのコピーが残っている時点に達するために、コピーのそれぞれが中央値から分化する時点を決定する。

オブジェクトのインスタンスの端点を決定する１つの単純なアプローチは、次に単に、インスタンスの中から、右端点および左端点が最大であるインスタンスを選択することである。これは、オブジェクトの代表的なコピーの役割を担うことができる。ただし、歌の２つの異なるインスタンスの前に出現する局のジングルをオブジェクトの一部として含めないように注意を払うことが必要である。明らかに、見つかったＮ個のコピーから代表的なコピーを抽出するのに、より洗練されたアルゴリズムを使用することができ、前述した方法は、単に例示し、説明することを目的としている。次に、識別された最良のインスタンスをすべての他のインスタンスの代表として使用することができる。

関連する実施形態では、ストリームの目標セグメントとストリームの別のセグメントの間で合致が見つかり、セグメント化が実行された後、ストリームの残りの部分内でオブジェクトの他のインスタンスの探索が続けられる。試験された実施形態では、ストリームの目標セグメントを、セグメント化済みのオブジェクトのすべてを含み、それ以外の箇所ではゼロであるセグメントで置き換えることが有利であると判明した。これにより、ストリームの残りの部分の内で合致を探している際、偽のピークの確率が低くなる。例えば、ｔ_ｉにおけるセグメントとｔ_ｊにおけるセグメントが一致すると判定された場合、そのオブジェクトの端点の一方または他方が、ｔ_ｉを中心とするセグメント、およびｔ_ｊを中心とするセグメントの外にある可能性があり、これらのセグメントが、そのオブジェクトの一部ではないデータを含む可能性がある。オブジェクト全体を含み、他には何も含まないセグメントに対して比較することが、後続の合致判定の信頼性を向上させる。

歌などのオーディオオブジェクト以外のメディアオブジェクトの比較および整列も、非常に似通った形で実行されることに留意されたい。具体的には、メディアストリームは、雑音が多過ぎない限り、直接に比較されるか、またはメディアストリームのより小さいサイズのバージョン、またはフィルタリング済みのバージョンが直接に比較される。次に、合致することが分かったメディアストリームのセグメントが、前述したとおり、端点識別の目的で整列させられる。

さらなる実施形態では、様々な計算効率の問題に対処する。詳細に説明すると、オーディオストリームのケースでは、セクション３．１．１、セクション３．１．２、およびセクション３．１．４で前述した技術はすべて、バークスペクトルなどのオーディオの周波数選択的な表現（ｆｒｅｑｕｅｎｃｙｓｅｌｅｃｔｉｖｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を使用する。その表現を毎回、再計算することは可能であるが、セクション３．１．１で説明したとおり、ストリームが最初に処理される際に周波数表現を計算し、次に、選択されたバークバンドのコンパニオンストリームを後に使用するためにオブジェクトデータベースの中、またはそれ以外の場所に格納する方がより効率的である。バークバンドは、通常、元のオーディオレートよりはるかに低いレートでサンプリングされるため、以上により、通常、非常に少量のストレージで効率を大幅に向上させることになる。テレビ放送などのオーディオ／ビデオタイプのメディアストリームに埋め込まれたビデオタイプまたはイメージタイプのメディアオブジェクトのケースでも、同様の処理が行われる。

さらに、前述したとおり、一実施形態では、メディアストリーム内のメディアオブジェクト識別の速度が、メディアストリームの以前に識別済みの部分の探索を制限することによって劇的に向上する。例えば、ｔ_ｊを中心とするストリームのセグメントが、探索のより早期の部分から、１つまたは複数のオブジェクトを含むと既に判定されている場合、そのセグメントは、後続の検査から除外することができる。例えば、探索が、平均の探索されるオブジェクトの長さの２倍の長さを有するセグメントにわたり、２つのオブジェクトが既にｔ_ｊにおけるセグメント内で探し出されている場合、明らかに、そこに別のオブジェクトも位置している可能性はまったく存在せず、そのセグメントは、探索から除外することができる。

別の実施形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことによって向上させられる。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの１つまたは複数の繰り返しインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に、必要な場合、メディアストリームの探索が行われる。これらの代替の実施形態のそれぞれの動作を、以下のセクションでより詳細に説明する。

さらに、関連する実施形態では、メディアストリームは、ストリーム内の少なくとも最も多く見られる繰り返し埋め込まれたオブジェクトの繰り返しを含むのに十分な大きさを有するストリームの部分をまず分析することにより、分析される。ストリームのこの第１の部分で繰り返し埋め込まれたオブジェクトのデータベースが保持される。次に、セグメントがデータベースの中のいずれかのオブジェクトに合致するか否かをまず判定した後、ストリームの残りの部分に照らして調べることにより、ストリームの残りの部分が分析される。

３．２システム動作
前述したとおり、図２を参照してセクション２．０で説明し、セクション３．１で提供するより詳細な説明を考慮したプログラムモジュール群が、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するために使用される。そのプロセスを、オブジェクト抽出器の代替の実施形態を表す図３Ａ、図３Ｂ、図３Ｃ、図４、および図５の流れ図に示している。図３Ａ、図３Ｂ、図３Ｃ、図４、および図５に破線または点線で示すボックス、およびボックス間の相互接続は、オブジェクト抽出器のさらなる代替の実施形態を表し、それらの代替の実施形態のいずれか、またはすべてを、以下に説明するとおり、組合せで使用してもよいことに留意されたい。

３．２．１基本的なシステム動作
次に図３Ａないし図５を図２と併せて参照すると、一実施形態では、プロセスは、メディアストリーム２１０からメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として全体的に説明することができる。一般に、メディアストリームの第１の部分またはセグメントｔ_ｉが選択される。次に、このセグメントｔ_ｉが、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントｔ_ｊと順次に比較される。ストリームの終端に達した時点で、前のｔ_ｉの後に続くメディアストリームの新たなｔ_ｉセグメントが選択され、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントｔ_ｊと再び比較される。以上のステップは、ストリーム全体が分析されて、メディアストリームで繰り返し埋め込まれたメディアオブジェクトが探し出され、識別されるまで繰り返される。さらに、以下に説明するとおり、図３Ａ、図３Ｂ、図３Ｃ、図４、および図５に関して、メディアストリーム内の繰り返し埋め込まれたオブジェクトの探索を実施し、加速させるためのいくつかの代替の実施形態が存在する。

詳細には、図３Ａに示すとおり、オーディオ情報および／またはビデオ情報を含むメディアストリーム２１０内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、ストリーム内の位置ｔ_ｉにあるメディアストリームのセグメントと、位置ｔ_ｊにあるメディアストリームのセグメントが同一のオブジェクトを表しているか否かを判定すること（ステップ３１０）から始まる。前述したとおり、比較のために選択されるセグメントは、メディアストリームのいずれの終端から始めて選択することも、ランダムに選択することもできる。ただし、単にメディアストリームの先頭から始めて、時刻ｔ_ｉ＝ｔ_０における最初のセグメントを選択することが、比較のために時刻ｔ_ｊ＝ｔ_１から始まるメディアストリームのセグメントを後続で選択する場合に、効率的な選択であることが分かっている。

いずれにしても、この判定（ステップ３１０）は、位置ｔ_ｉにおけるメディアストリームのセグメントと、位置ｔ_ｊにおけるメディアストリームのセグメントを単に比較することによって行われる。２つのセグメント、ｔ_ｉとｔ_ｊが、同一のメディアオブジェクトを表していると判定された（ステップ３１０）場合、それらのオブジェクトの端点が、前述したとおり、自動的に決定される（ステップ３６０）。端点が見つかると（ステップ３６０）、次に、時刻ｔ_ｉの周囲に位置するメディアオブジェクト、および時刻ｔ_ｊの周囲に位置する、合致するオブジェクトの端点が、オブジェクトデータベース２３０の中に格納されるか（ステップ３７０）、あるいはメディアオブジェクト自体、またはそれらのメディアオブジェクトに対するポインタが、オブジェクトデータベースの中に格納される。この場合も、前述したとおり、比較されるメディアストリームのセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きいように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体ではなく、メディアストリームの比較されるセグメントの諸部分だけが、実際に合致するものと予期されよう。

位置ｔ_ｉおよびｔ_ｊにおけるメディアストリームの２つのセグメントが同一のメディアオブジェクトを表していないと判定され（ステップ３１０）、メディアストリームのさらなる未選択のセグメントが用意されている場合（ステップ３２０）、位置ｔ_ｊ＋１におけるメディアストリームの新たなセグメントまたは次のセグメント（ステップ３３０）が新たなｔ_ｊとして選択される。次に、メディアストリームのこの新たなｔ_ｊセグメントが、既存のセグメントｔ_ｉと比較されて、前述したとおり、２つのセグメントが同一のメディアオブジェクトを表しているか否かが判定される（ステップ３１０）。この場合も、セグメントが同一のメディアオブジェクトを表していると判定された（ステップ３１０）場合、前述したとおり、それらのオブジェクトの端点が自動的に決定され（ステップ３６０、その情報がオブジェクトデータベース２３０に格納される（ステップ３７０）。

逆に、位置ｔ_ｉおよびｔ_ｊにおけるメディアストリームの２つのセグメントが同一のメディアオブジェクトを表しておらず、メディアストリームの未選択のセグメントがもはやまったく用意されていない（ステップ３２０）（メディアストリーム全体が、ｔ_ｉによって表されるメディアストリームのセグメントとの比較のために既に選択済みであるため）と判定された３１０場合には、メディアストリームの終端にまだ達しておらず、さらなるセグメントｔ_ｉが用意されていれば３４０、位置ｔ_ｉ＋１におけるメディアストリームの新たなセグメントまたは次のセグメント３５０が、新たなｔ_ｉとして選択される。次に、メディアストリームのこの新たなｔ_ｉセグメントが、次のセグメントｔ_ｊと比較されて、前述したとおり、２つのセグメントが同一のメディアオブジェクトを表しているか否かが判定される（ステップ３１０）。例えば、最初の比較が時刻ｔ_０におけるセグメントｔ_ｉと時刻ｔ_１におけるセグメントｔ_ｊから始めて行われたものと想定すると、第２回の比較は、時刻ｔ_１におけるｔ_ｉ＋１を時刻ｔ_２におけるｔ_ｊ＋１と比較することで始まり、メディアストリームの終端に達するまで以下同様に行われ、終端に達した時点で、時刻ｔ_２における新たなｔ_ｉが選択される。この場合も、セグメントが同一のメディアオブジェクトを表していると判定された（ステップ３１０）場合、前述したとおり、それらのオブジェクトの端点が自動的に決定され（ステップ３６０）、その情報がオブジェクトデータベース（ステップ２３０）に格納される（ステップ３７０）。

やはり図３Ａに示す関連する実施形態では、セグメントをストリーム内の他のオブジェクトと比較することに先立ち、すべてのセグメントがまず検査されて、セグメントが探索されるタイプのオブジェクトを含んでいる確率が算出される。その確率が所定の閾値より高いと考えられる場合、比較が進められる。しかし、その確率が閾値を下回っている場合、そのセグメントは、効率のために飛ばして進むことができる。

詳細には、この代替の実施形態では、新たなｔ_ｊが選択される（ステップ３３０）か、または新たなｔ_ｉが選択される（ステップ３５０）度ごとに毎回、次のステップは、特定のｔ_ｊが考え得るオブジェクトを表しているか否かを判定すること（ステップ３３５）、または特定のｔ_ｉが考え得るオブジェクトを表しているか否かを判定すること（ステップ３５５）である。前述したとおり、メディアストリームの特定のセグメントが考え得るオブジェクトを表しているか否かを判定するための手続きは、１組のオブジェクト依存のアルゴリズムを使用して、メディアストリーム内の考え得るオブジェクトを識別するためにメディアストリームの異なる態様を目標にすることを含む。特定のセグメントｔ_ｊが考え得るオブジェクトを表していると判定された（ステップ３３５）場合、または特定のセグメントｔ_ｉが考え得るオブジェクトを表していると判定された（ステップ３５５）場合、ｔ_ｉとｔ_ｊの前述した比較（ステップ３１０）が前述したとおり行われる。しかし、特定のセグメントｔ_ｊが考え得るオブジェクトを表していないと判定された（ステップ３３５）場合、または特定のセグメントｔ_ｉが考え得るオブジェクトを表していないと判定された（ステップ３５５）場合、前述したとおり、新たなセグメントが選択される（ステップ３２０／３３０、または３４０／３５０）。この実施形態は、メディアストリームの現在のセグメント内にメディアオブジェクトが存在するかもしれない確率を算出することに関連する比較的高い計算費用のかかる比較を回避するという点で有利である。

どの実施形態においても、前述したステップは、メディアストリーム内の繰り返すメディアオブジェクトを識別する目的で、メディアストリームのすべてのセグメントが、メディアストリームのその他すべての後続セグメントと比較されるまで繰り返される。

図３Ｂは、関連する実施形態を示している。全体として、図３Ｂに示した実施形態は、繰り返し埋め込まれたオブジェクトの端点の決定が、メディアストリーム全体の各回のパスが完了するまで延期されるという点で、図３Ａに示した実施形態とは異なっている。

具体的には、前述したとおり、プロセスは、ストリームの終端に達するまで、メディアストリーム２１０のセグメントｔ_ｉをメディアストリーム内の後続のセグメントｔ_ｊと順次に比較することによって機能する。この場合も、終端に達した時点で、前のｔ_ｉに続くメディアストリームの新たなｔ_ｉセグメントが選択され、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントｔ_ｊと再び比較される。以上のステップは、ストリーム全体が分析されて、メディアストリームで繰り返すメディアオブジェクトが探し出され、識別されるまで繰り返される。

しかし、図３Ａに関連して説明した実施形態では、ｔ_ｉとｔ_ｊの比較３１０が合致を示すとすぐに、合致するオブジェクトの端点が決定され（ステップ３６０）、オブジェクトデータベース２３０の中に格納される（ステップ３７０）。これとは対照的に、図３Ｂで示される実施形態では、ゼロに初期設定されたオブジェクトカウンタ３１５が、ｔ_ｉとｔ_ｊの比較（ステップ３１０）が合致を示すたびに毎回、増分される。その時点で、合致するオブジェクトの端点を決定する代わりに、次のｔ_ｊが比較のために選択され（ステップ３２０／３３０／３３５）、現在のｔ_ｉと再び比較される。以上が、ストリーム全体が分析されるまで、メディアストリーム内のすべてのｔ_ｊセグメントに関して繰り返され、ストリーム全体が分析された時点で、合致するオブジェクトのカウントがゼロより大きい場合（ステップ３２５）、現在のセグメントｔ_ｉに合致するオブジェクトを表しているすべてのセグメントｔ_ｊについて端点が決定される（ステップ３６０）。次に、オブジェクト端点、またはオブジェクト自体が、前述したとおり、オブジェクトデータベース２３０の中に格納される（ステップ３７０）。

その時点で、前述したとおり、後続のｔ_ｊセグメントに対する新たな回の比較３１０のため、次のセグメントｔ_ｉが選択される（ステップ３４０／３５０／３５５）。次に、メディアストリーム内の繰り返すメディアオブジェクトを識別する目的で、メディアストリームのすべてのセグメントが、メディアストリームのその他すべての後続セグメントと比較されるまで、前述したステップが繰り返される。

しかし、本セクションで説明した実施形態は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを識別するのに役立つが、多数回の不必要な比較が、依然として行われる。例えば、所与のオブジェクトがメディアストリーム内で既に識別済みである場合、そのオブジェクトがメディアストリーム内で繰り返される可能性が高い。したがって、代替の実施形態では、セグメントｔ_ｉとｔ_ｊを比較する（ステップ３１０）前に、現在のセグメントｔ_ｉをデータベースの中のオブジェクトのそれぞれとまず比較することを使用して、特定のメディアストリームを完全に分析するのに必要とされる比較的計算費用のかかる比較の一部を減らす、またはなくす。したがって、以下のセクションで説明するとおり、メディアストリーム２１０の各セグメントｔ_ｉが選択されるたびに、データベース２３０が、最初の比較のために使用される。

３．２．２初期データベース比較を伴うシステム動作
図３Ｃで示す別の関連する実施形態では、以前に識別済みのメディアオブジェクトのデータベース２３０にまずクエリを行うことにより、メディアストリーム２１０内のセグメント間の比較（ステップ３１０）の回数が減らされる。詳細には、図３Ｃで示す実施形態は、メディアストリーム２１０の各セグメントｔ_ｉが、選択された後、オブジェクトデータベース２３０とまず比較されて（ステップ３０５）、現在のセグメントがデータベースの中のオブジェクトに合致するか否かが判定されるという点で、図３Ａで示した実施形態とは異なる。現在のセグメントとデータベース２３０の中のオブジェクトとの間で合致が明らかになった場合（ステップ３０５）、現在のセグメントｔ_ｉによって表されるオブジェクトの端点が決定される（ステップ３６０）。次に、前述したとおり、オブジェクト端点、またはオブジェクト自体が、オブジェクトデータベース２３０の中に格納される（ステップ３７０）。したがって、合致するオブジェクトを探し出すようにオブジェクトデータベース２３０に単にクエリを行うことにより、メディアストリームの徹底的な探索なしに、現在のセグメントｔ_ｉが識別される。

次に、一実施形態では、オブジェクトデータベース２３０の中で合致が識別されなかった場合（ステップ３０５）、現在のセグメントｔ_ｉを後続のセグメントｔ_ｊと比較（ステップ３１０）するためのプロセス（ステップ３２０／３３０／３３５）が、前述したとおり、ストリームの終端に達するまで行われ、終端に達した時点で、新たなセグメントｔ_ｉが選択されて（ステップ３４０／３５０／３５５）、プロセスが再び開始される。逆に、現在のセグメントｔ_ｉに関してオブジェクトデータベース２３０の中で合致が識別される場合（ステップ３０５）、前述したとおり、端点が決定され（ステップ３６０）、格納され（ステップ３７０）、続いて、新たなｔ_ｉの選択が行われて（ステップ３４０／３５０／３５５）、プロセスが再び開始される。次に、上記のステップが、メディアストリーム２１０内のすべてのセグメントｔ_ｉが分析されて、セグメント_ｉが繰り返し埋め込まれたオブジェクトを表すか否かが判定されるまで繰り返される。

さらなる関連する実施形態では、初期データベースクエリ（ステップ３０５）は、データベースが、少なくとも部分的に識別済みのオブジェクトで埋まる時点まで遅延される。例えば、特定のメディアストリームが、長い期間にわたって記録された、またはそれ以外の形でキャプチャされた場合、図３Ａまたは図３Ｂに関連して前述したとおり、メディアストリームの一部分の初期分析が実行され、続いて、初期データベースクエリが関与する前述の実施形態が行われる。この実施形態は、メディアストリーム内でオブジェクトが頻繁に繰り返し埋め込まれる環境においてうまく機能する。というのは、データベースを最初に埋めることが、繰り返し埋め込まれたオブジェクトを識別するための比較的良好なデータ集合を提供する役割をするからである。また、データベース２３０が埋まるにつれ、メディアストリームに埋め込まれた、繰り返し埋め込まれたオブジェクトを、メディアストリーム内の合致の徹底的な探索ではなく、データベースクエリだけで識別することができる可能性もより高くなることにも留意されたい。

さらに別の関連する実施形態では、既知のオブジェクトがあらかじめ入力されているデータベース２３０を使用して、メディアストリーム内の繰り返し埋め込まれたオブジェクトが識別される。このデータベース２３０は、前述した実施形態のいずれかを使用して準備することも、他の従来のソースからインポートされること、または他の従来のソースによって提供されることも可能である。

しかし、本セクションで説明する実施形態により、特定のメディアストリームを完全に分析するために実行される比較の回数が減ることが示されたが、多数回の不必要な比較が、依然として行われる。例えば、時刻ｔ_ｉまたはｔ_ｊにおけるメディアストリームの所与のセグメントが、特定のメディアオブジェクトに属することが既に明らかにされている場合、既に識別済みのセグメントをその他のセグメントと再比較することは、まったく実際の役に立たない。したがって、以下のセクションで説明するとおり、メディアストリームのいずれの部分に関連する情報が既に識別済みであるかを使用して、合致するセクションの探索をまだ識別されていないメディアストリームのセクションに制限することにより、探索時間が急速に縮められる。

３．２．３漸進ストリーム探索制限を伴うシステム動作
次に、図２と併せて図４を参照すると、一実施形態では、プロセスは、一般に、メディアストリームの以前に識別済みの部分にフラグを付けて、それらの部分が何回も繰り返し探索されないようにしながら、メディアストリームからメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として全体的に説明することができる。

詳細には、図４に示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、オーディオ情報および／またはビデオ情報を含むメディアストリーム２１０の第１のウィンドウまたは第１のセグメントを選択すること４００で始まる。次に、一実施形態では、メディアストリームが探索されて４１０、選択されたセグメントまたはウィンドウ４００の一部分に合致する部分を有するメディアストリームのすべてのウィンドウまたはセグメントが識別される。関連する実施形態では、以下にさらに詳細に説明するとおり、メディアストリームは、合致するセグメントを求めてメディアストリーム全体を探索する４１０のではなく、メディアオブジェクトの１つまたは複数の繰り返しインスタンスを許すのに十分なだけの期間にわたるセグメント単位で分析されることに留意されたい。例えば、メディアストリームが、１週間にわたって記録された場合、メディアストリームの最初の探索の期間は、１日とすることが可能である。この場合も、この実施形態におけるメディアストリームが探索される期間は、単に、メディアオブジェクトの１つまたは複数の繰り返されるインスタンスを許すのに十分な期間である。

いずれにしても、メディアストリームのすべて、または一部が探索されて（ステップ４１０）、選択されたウィンドウまたはセグメント４００の一部分に合致するメディアストリームのすべての部分が識別されると（ステップ４２０）、合致する部分が整列させられ（ステップ４３０）、その整列が、前述したとおり、オブジェクト端点を決定する（ステップ４４０）ために使用される。端点が決定されると（ステップ４４０）、合致するメディアオブジェクトの端点がオブジェクトデータベース２３０の中に格納されるか、あるいはメディアオブジェクト自体、またはそれらのメディアオブジェクトに対するポインタが、オブジェクトデータベースの中に格納される。

さらに、一実施形態では、既に識別済みであるメディアストリームの部分にフラグが付けられて、再び探索されることが禁止される（ステップ４６０）。この特定の実施形態は、繰り返しオブジェクトが識別されるにつれ、メディアストリームの選択可能な探索領域を迅速に短縮するのに役立つ。この場合も、前述したとおり、比較されるべきメディアストリームのセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きくなるように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体ではなく、メディアストリームの比較されるセグメントの諸部分だけが、実際に合致するものと予期されよう。

したがって、一実施形態では、メディアストリームの各セグメントの実際に識別された部分だけにフラグが付けられる（ステップ４６０）。しかし、メディアオブジェクトが頻繁に繰り返されることが分かっているメディアストリームでは、単に、セグメント全体がさらに探索されないように制限することが、依然、メディアストリーム内の繰り返し埋め込まれたオブジェクトの大多数の識別を許すことが確認されている。特定のセグメントの極わずかな部分だけが未識別のままである別の関連する実施形態では、それらの極わずかな部分は、単に無視される。さらに別の関連する実施形態では、さらに探索されないようにセグメントの諸部分を制限した（ステップ４６０）後に残された部分的セグメントは、新たに選択されたセグメント４００との比較の目的で、先行するセグメント、または後続のセグメントと単に結合される。以上の実施形態の各々が、メディアストリーム内の合致の探索をより効率的にすることにより、全体的なシステムパフォーマンスを向上させる。

オブジェクト端点が決定されると（ステップ４４０）、合致がまったく識別されていない場合（ステップ４２０）、またはメディアストリームの諸部分に、それらの部分のさらなる探索を防止するフラグが付けられた（ステップ４６０）後、メディアストリームの現在、選択されているセグメント４００が、メディアストリームの終端を表しているか否かを調べる検査が行われる（ステップ４５０）。メディアストリームの現在、選択されているセグメント４００が、メディアストリームの終端を表している場合（ステップ４５０）、プロセスは完了し、探索が開始される。しかし、メディアストリームの終端に達していない場合（ステップ４５０）、メディアストリームの次のセグメントが選択され、合致するセグメントを探し出すようにメディアストリームの中を探索すること（ステップ４１０）により、メディアストリームの残りの部分と比較される。次に、前述した、合致を識別するためのステップ４２０、合致するセグメントを整列させるためのステップ４３０、端点を決定するためのステップ４４０、および端点情報またはオブジェクト情報をオブジェクトデータベース２３０の中に格納するためのステップが、前述したとおり、メディアストリームの終端に達するまで繰り返される。

以前に選択されたセグメントは、現在、選択されているセグメントと既に比較済みであるため、メディアストリーム内を逆方向に探索する必要はまったくないことに留意されたい。さらに、メディアストリームの特定のセグメントまたは部分に、識別済みのフラグが付けられている実施形態（ステップ４６０）では、それらのセグメントは、探索において飛ばされる（ステップ４１０）。前述したとおり、ストリーム内でさらなるメディアオブジェクトが識別されるにつれ、メディアストリームの識別済みの部分を飛ばして進むことは、選択可能な探索空間を急速に短縮するのに役立ち、セクション３．２．１で説明する基本的な総当たり（ｂｒｕｔｅｆｏｒｃｅ）アプローチと比べて、システム効率を劇的に向上させる。

別の実施形態では、メディアストリーム内の繰り返し埋め込まれたオブジェクトを識別する速度および効率は、オブジェクトデータベース２３０をまず探索して４７０合致するオブジェクトを識別することにより、さらに向上させられる。詳細には、その実施形態では、メディアストリームのセグメントが選択されると４００、メディアオブジェクトがメディアストリーム内で繰り返されることが見られると、そのオブジェクトは、そのメディアストリーム内で再び繰り返される可能性がより高いという理論に基づき、そのセグメントがまず、以前に識別済みのセグメントと比較される。オブジェクトデータベース２３０の中で合致が認識される場合（ステップ４８０）、前述した、合致するセグメントを整列させるステップ４３０、端点を決定するためのステップ４４０、および端点情報またはオブジェクト情報をオブジェクトデータベース２３０の中に格納するためのステップが、前述したとおり、メディアストリームの終端に達するまで繰り返される。

前述のような探索の実施形態（例えば、ステップ４１０、４７０、および４６０）の各々は、合致するセグメントを求めてメディアストリーム全体を探索する４１０のではなく、メディアオブジェクトの１つまたは複数の繰り返されるインスタンスを許すのに十分な期間にわたるセグメント単位でメディアストリームが分析される実施形態と組み合わせた場合、さらに改良される。例えば、メディアストリームが１週間にわたって記録された場合、メディアストリームの最初の探索の期間は、１日とすることが可能である。このため、その実施形態では、メディアストリームは、第１の期間、すなわち１週間の長さのメディア記録からの第１日にわたって先ず探索され（ステップ４１０）、合致するメディアオブジェクトの端点、またはオブジェクト自体が、前述したとおり、オブジェクトデータベース２３０の中に格納される。メディアストリームの残りの部分、またはメディアストリームの後続の区間（すなわち、メディアストリームの１週間の長さの記録の第２日または後続の日）の後続の探索は、前述したとおり、合致を調べるようにオブジェクトデータベース（４７０および２３０）についてまず行われる。

３．２．４予想されるオブジェクトの初期検出を伴うシステム動作
次に、図２と併せて図５を参照すると、一実施形態では、プロセスは、全体的に、メディアストリーム内の予想されるオブジェクト、または考え得るオブジェクトをまず識別することにより、メディアストリームからメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として説明することができる。詳細には、図５で示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、オーディオ情報および／またはビデオ情報を含むメディアストリーム２１０をキャプチャすること５００から始まる。メディアストリーム２１０は、例えば、ラジオまたはテレビ／ビデオの放送メディアストリームをキャプチャするためにコンピュータに接続されたオーディオキャプチャ装置またはビデオキャプチャ装置など、いくつかの従来の技術のいずれかを使用してキャプチャされる。そのようなメディアキャプチャ技術は、当業者には周知であり、本明細書では説明することはしない。メディアストリーム２１０は、キャプチャされると、コンピュータファイルまたはデータベースの中に格納される。一実施形態では、メディアストリーム２１０は、オーディオメディアおよび／またはビデオメディアを圧縮するための従来の技術を使用して圧縮される。

次に、メディアストリームに埋め込まれたと考えられるメディアオブジェクト、または予想されるメディアオブジェクトを識別しようとして、メディアストリーム２１０が検査される。メディアストリーム２１０のこの検査は、メディアストリームの一部分を表すウィンドウを検査することによって達せられる（ステップ５０５）。前述したとおり、考え得るオブジェクトを検出するためのメディアストリーム２１０の検査は、検査されているメディアコンテンツのタイプに合わされた１つまたは複数の検出アルゴリズムを使用する。一般に、詳細に前述したとおり、それらの検出アルゴリズムは、分析されているメディアストリームの部分を特徴付けるためのパラメータ情報を計算する。代替の実施形態では、メディアストリームは、キャプチャされ５００、格納される２１０につれて、リアルタイムで検査される５０５。

分析されているメディアストリーム２１０の現在のウィンドウ内または現在の部分内で考え得るオブジェクトが識別されなかい場合、ウィンドウを増やして５１５、考え得るオブジェクトを識別しようとしてメディアストリームの次のセクションが検査される。考え得るオブジェクト、または予想されるオブジェクトが識別される５１０場合、メディアストリーム２１０内のその考え得るオブジェクトの場所または位置が、オブジェクトデータベース２３０の中に格納される５２５。加えて、その考え得るオブジェクトを特徴付けるためのパラメータ情報も、オブジェクトデータベース２３０の中に格納される５２５。前述したとおり、このオブジェクトデータベース２３０は、最初は空であり、オブジェクトデータベースの中の最初のエントリは、メディアストリーム２１０内で検出された最初の考え得るオブジェクトに対応することに留意されたい。またはこれに替えて、オブジェクトデータベース２３０には、以前にキャプチャ済みのメディアストリームの分析または探索の結果が、あらかじめ入力される。ウィンドウ５１５の増分、ウィンドウの検査５０５は、メディアストリームの終端に達する５２０まで続けられる。

メディアストリーム２１０内の考え得るオブジェクトの検出に続き、オブジェクトデータベース２３０が探索されて５３０、考え得るオブジェクトに関する潜在的な合致、すなわち、繰り返しインスタンスが識別される。一般に、このデータベースクエリは、考え得るオブジェクトを特徴付けるためのパラメータ情報を使用して行われる。潜在的な合致を識別するために、厳密な合致は要求されないか、または見込まれてもいないことに留意されたい。実際、潜在的な合致のこの初期探索を実行するために類似度閾値が使用される。この類似度閾値、または「検出閾値」は、考え得るオブジェクトを特徴付けるためのパラメータ情報の１つまたは複数の特徴と潜在的な合致との間の任意の所望されるパーセンテージ合致に設定することができる。

潜在的な合致がまったく識別されない場合（ステップ５３５）、考え得るオブジェクトには、オブジェクトデータベース２３０の中で新たなオブジェクト５４０としてフラグが付けられる。またはこれに替えて、別の実施形態では、潜在的な合致がまったく識別されない、またはあまりにも識別される潜在的な合致が少ない場合（ステップ５３５）、データベース探索（ステップ５３０）によって識別される潜在的な合致の数を増やすために、検出閾値が下げられる（ステップ５４５）。逆に、さらに別の実施形態では、あまりにも多くの潜在的な合致が識別される場合（ステップ５３５）、検出閾値を高くして、実行される比較の回数を制限するようにする。

１つまたは複数の潜在的な合致が識別されると（ステップ５３５）、考え得るオブジェクト、潜在的な合致するオブジェクトの１つまたは複数の間の詳細な比較（ステップ５５０）が実行される。この詳細な比較には、考え得るオブジェクトを表すメディアストリーム２１０の部分と潜在的な合致の直接比較、または考え得るオブジェクトを表すメディアストリームの部分のより小さいサイズのバージョンと潜在的な合致の比較が含まれる。この比較は、格納済みのメディアストリームを利用するが、比較は、以前に探し出され、格納されたメディアオブジェクト２７０を使用して行うこともできることに留意されたい。

詳細な比較（ステップ５５０）によってもがオブジェクト合致を探し出すことに失敗した場合（ステップ５５５）、考え得るオブジェクトには、オブジェクトデータベース２３０の中で新たなオブジェクト５４０としてフラグが付けられる。またはこれに替えて、別の実施形態では、オブジェクト合致がまったく識別されない場合（ステップ５５５）、検出閾値が下げられ（ステップ５４５）、追加の潜在的な合致を識別するように新たなデータベース探索が実行される（ステップ５３０）。この場合も、あらゆる潜在的な合致が、考え得るオブジェクトと比較されて（ステップ５５０）、考え得るオブジェクトがオブジェクトデータベース２３０の中に既にあるいずれかのオブジェクトに合致するか否かが判定される。

詳細な比較により、潜在的なオブジェクトの合致または繰り返しインスタンスが識別されると、考え得るオブジェクトには、オブジェクトデータベース２３０の中で繰り返し埋め込まれたオブジェクトとしてフラグが付けられる。次に、それぞれの繰り返し埋め込まれたオブジェクトが、そのオブジェクトのそれぞれの以前に識別済みの繰り返しインスタンスと整列させられる（ステップ５６０）。詳細に前述したとおり、次に、各オブジェクトがほぼ等しいさらなる範囲を識別するように、繰り返し埋め込まれたオブジェクトインスタンスのそれぞれの間で逆方向、および順方向に探索することにより、オブジェクト端点が決定される（ステップ５６５）。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。次に、そのメディアオブジェクト端点情報が、オブジェクトデータベース２３０の中に格納される。

最後に、さらに別の実施形態では、オブジェクト端点が識別されると（ステップ５６５）、端点情報を使用して、それらの端点に対応するメディアストリームのセクションが、個々のメディアオブジェクト２７０の別個のファイルまたはデータベースにコピーされるか、または保存される（ステップ５７０）。

前述したとおり、メディアストリーム全体が検査される（ステップ５２０）まで、またはユーザが検査を終了させるまで、検査されるメディアストリーム２１０の部分が常に増やされながら、前述したプロセスが繰り返される。

４．０追加の実施形態
前述したとおり、メディアストリーム内のメディアオブジェクトをセグメント化する目的、および識別する目的でキャプチャされるメディアストリームは、例えば、ラジオ、テレビ、インターネット、またはその他のネットワークを介するオーディオ放送、ビデオ放送、またはオーディオ／ビデオ放送など、任意の従来の放送ソースからのものであると考えられる。テレビタイプの放送で通常、そうであるように、合成のオーディオ／ビデオ放送に関して、合成のオーディオ／ビデオ放送のオーディオ部分は、ビデオ部分と同期されることに留意されたい。つまり、周知のとおり、オーディオ／ビデオ放送のオーディオ部分は、放送のビデオ部分と一致する。したがって、合成のオーディオ／ビデオストリーム内の繰り返し埋め込まれたオーディオオブジェクトを識別することは、そのオーディオ／ビデオストリーム内の繰り返し埋め込まれたビデオオブジェクトを識別する便利で計算費用の安いやり方である。

詳細には、一実施形態では、オーディオストリーム内の繰り返し埋め込まれたオーディオオブジェクトをまず識別し、それらのオーディオオブジェクトが開始する時点ｔ_ｂと終了する時点ｔ_ｅ（すなわち、オーディオオブジェクトの端点）を識別し、次に、それらの時点でオーディオ／ビデオストリームをセグメント化することにより、合成のオーディオ／ビデオストリームからオーディオオブジェクトとともに、ビデオオブジェクトも識別され、セグメント化される。

例えば、通常のコマーシャルまたは広告は、多くの場合、任意の所与のテレビ局で任意の所与の曜日に頻繁に繰り返すように思われる。そのテレビ局のオーディオ／ビデオストリームを記録し、次に、テレビ放送のオーディオ部分を処理することは、それらの繰り返される広告のオーディオ部分を識別するのに役立つ。さらに、オーディオは、そのストリームのビデオ部分と同期されているため、テレビ放送内の繰り返す広告の位置を前述したやり方で容易に決定することができる。位置が識別されると、そのような広告には、所望される任意の特殊な処理のためにフラグを付けることができる。

本発明の以上の説明は、例示および説明の目的で提示してきた。以上の説明は、すべてを網羅すること、または本発明を開示した形態そのものに限定することは意図していない。以上の教示に鑑みて、多数の変更形態および変形形態が可能である。さらに、前述した代替の実施形態のいずれか、またはすべてを所望される任意の組合せで使用して、本明細書で説明したオブジェクト抽出器のさらなる組み合わせの実施形態を形成してもよいことに留意されたい。本発明の範囲は、以上の詳細な説明によってではなく、特許請求の範囲によって限定されるものとする。

メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するための例示的なシステムを構成する汎用コンピューティング装置を示す全体的なシステム図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するための例示的なプログラムモジュール群を示す例示的なアーキテクチャ図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する例示的なシステム流れ図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する図３Ａの例示的なシステム流れ図の代替の実施形態を示す図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する図３Ａの例示的なシステム流れ図の代替の実施形態を示す図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する代替の例示的なシステム流れ図である。メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する代替の例示的なシステム流れ図である。

Claims

プログラムされたコンピュータによってメディアストリーム内のメディアオブジェクトを探し出し、各メディアオブジェクトの時間的端点を決定する方法であって、
メディアストリームの少なくとも１つのセグメントに関する特性情報を計算するステップと、
前記特性情報を分析して、前記メディアストリームのいずれかのセグメント内にメディアオブジェクトが存在する可能性があるか否かを判定するステップと、
前記特性情報の前記分析により、メディアオブジェクトの少なくとも一部が前記メディアストリームのいずれかのセグメント内に存在する可能性があることが示されると、前記メディアストリームの該セグメントの前記位置および前記特性情報をオブジェクトデータベースに格納するステップと、
前記オブジェクトデータベースにクエリを行って、前記メディアストリームの合致する可能性があるセクションを探し出すステップと、
前記メディアストリームの合致する可能性があるセグメントを比較して、前記メディアストリーム内の繰り返されるセグメントを識別するステップと、
前記メディアストリームのそれぞれの繰り返されるセグメントを中心とする前記メディアストリームの諸部分を自動的に整列させ、比較して、前記メディアストリーム内の各メディアオブジェクトの時間的端点を決定するステップと
を含むことを特徴とする方法。
前記メディアストリームの諸部分を自動的に整列させ、比較するステップは、前記諸部分を整列させ、前記整列された諸部分の各々の中を逆方向、および順方向に辿って、各整列された部分が依然として他の整列された諸部分にほぼ等しい開始点および終了点を決定することを特徴とする請求項１に記載の方法。
前記開始点および前記終了点は、各メディアオブジェクトの前記時間的端点を表すことを特徴とする請求項１に記載の方法。
前記メディアストリームは、オーディオメディアストリームであることを特徴とする請求項１に記載の方法。
前記メディアストリームは、ビデオメディアストリームであることを特徴とする請求項１に記載の方法。
前記メディアストリームは、合成のオーディオ−ビデオメディアストリームであることを特徴とする請求項１に記載の方法。
前記メディアオブジェクトは、歌、音楽、広告、ビデオクリップ、局名アナウンス、発話、イメージ、およびイメージシーケンスのいずれかであることを特徴とする請求項１に記載の方法。
前記メディアストリームは、前記メディアストリームの少なくとも１つのセグメントに関する特性情報を計算することに先立って、放送メディアストリームからキャプチャされ、コンピュータ読取り可能な媒体に格納されることを特徴とする請求項１に記載の方法。
前記特性情報を分析して、前記メディアストリームのいずれかのセグメント内にメディアオブジェクトが存在する可能性があるか否かを判定するステップは、前記特性情報を、前記ストリーム内で探索されているメディアオブジェクトの少なくとも１つのタイプに対応する特性の所定の集合と比較するステップであって、前記比較により、前記特性情報が特性の前記所定の集合に少なくとも部分的に合致することが示されると、メディアオブジェクトは、存在する可能性があると判定するステップを含むことを特徴とする請求項１に記載の方法。
前記オブジェクトデータベースにクエリを行って、前記メディアストリームの合致する可能性があるセクションを探し出すステップは、各々の考え得るオブジェクトに関する前記特性情報を前記オブジェクトデータベース中の以前のエントリと比較して、類似の考え得るオブジェクトを探し出すステップを含むことを特徴とする請求項１に記載の方法。
前記メディアストリームの合致する可能性があるセグメントを比較して、前記メディアストリーム内の繰り返されるセグメントを識別するステップは、各々の合致する可能性があるセグメントの位置を中心とする前記メディアストリームの一部分と各々の可能なメディアオブジェクトの位置を中心とする前記メディアストリームの一部分とを比較するステップであって、合致する可能性があるセグメントが、所定の閾値レベル内で前記セグメントが類似している前記メディアストリーム内の繰り返されるセグメントを表していると判定するステップを含むことを特徴とする請求項１に記載の方法。
メディアストリーム内の繰り返し埋め込まれたメディアオブジェクトの範囲を決定するための方法であって、コンピュータを用いて実行させる、
比較のためにメディアストリームのセグメントを選択するステップと、
前記選択されたセグメントを前記メディアストリームと比較して、前記メディアストリームの前記選択されたセグメントの少なくとも１つの部分に合致する少なくとも１つの部分を有する前記メディアストリーム内のセグメントを識別するステップと、
前記選択されたセグメントと前記合致するセグメントとを整列させるステップと
前記選択されたセグメントおよび前記合致するセグメントによって表されるメディアオブジェクトの範囲を、前記選択されたセグメントと前記合致するセグメントとの前記整列を使用して、前記整列されたセグメントがもはやほぼ等しくない位置における前記メディアオブジェクトの端点を識別することによって決定するステップと
を備えたことを特徴とする方法。
各メディアオブジェクトに関する端点情報をオブジェクトデータベース中に格納するステップをさらに備えたことを特徴とする請求項１２に記載の方法。
前記端点情報を使用して、前記メディアストリームから繰り返されるメディアオブジェクトの各々を抽出するステップをさらに備えたことを特徴とする請求項１２に記載の方法。
各々の抽出された繰り返すメディアオブジェクトをコンピュータ読取り可能な媒体上に格納するステップをさらに備えたことを特徴とする請求項１４に記載の方法。
前記整列されたセグメントがもはやほぼ等しくない位置における前記メディアオブジェクトの端点を識別するステップは、前記選択されたセグメントおよび前記合致するセグメントの各々に対応する前記メディアストリーム内の位置の周囲で前記メディアストリーム内を逆方向、および順方向に辿って、各々の整列されたセグメントが分岐しはじめる前記メディアストリーム内の位置を決定するステップを含むことを特徴とする請求項１２に記載の方法。
比較のために前記メディアストリームのセグメントを選択するステップは、前記メディアストリームの終端に達するまで、比較のために前記メディアストリームの順次のセグメントを選択するステップを含むことを特徴とする請求項１２に記載の方法。
前記メディアストリーム内のメディアオブジェクトの前記範囲を使用して、前記ストリームに以前に配置された前記メディアオブジェクトを繰り返し探索することを防止されることを特徴とする請求項１７に記載の方法。
前記選択されたセグメントを前記メディアストリームと比較することに先立ち、前記メディアストリーム内で識別される以前に識別済みの繰り返し埋め込まれたオブジェクトのデータベースを探索して、比較のために選択されたメディアストリームの前記セグメントに対する合致が識別され、および前記データベースの探索において合致するメディアオブジェクトが識別される場合、前記メディアストリームは、前記メディアストリームの前記選択されたセグメントの少なくとも１つの部分に合致する少なくとも１つの部分を有する前記メディアストリーム内のセグメントを識別するために探索されないことを特徴とする請求項１２に記載の方法。
前記メディアストリームは、オーディオメディアストリームであることを特徴とする請求項１２に記載の方法。
前記メディアストリームは、ビデオメディアストリームであることを特徴とする請求項１２に記載の方法。
前記メディアストリームは、合成のオーディオ／ビデオメディアストリームであることを特徴とする請求項１２に記載の方法。
前記メディアオブジェクトは、歌、音楽、広告、ビデオクリップ、局名アナウンス、発話、イメージ、およびイメージシーケンスのいずれかであることを特徴とする請求項１２に記載の方法。
放送メディアストリームを受信し、格納することによって前記メディアストリームをキャプチャするステップをさらに備えたことを特徴とする請求項１２に記載の方法。
各メディアオブジェクトの少なくとも１つの代表的なコピーをコンピュータ読取り可能な媒体上に格納するステップをさらに備えたことを特徴とする請求項１２に記載の方法。