JP4418748B2 - ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法 - Google Patents

ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法 Download PDF

Info

Publication number
JP4418748B2
JP4418748B2 JP2004518194A JP2004518194A JP4418748B2 JP 4418748 B2 JP4418748 B2 JP 4418748B2 JP 2004518194 A JP2004518194 A JP 2004518194A JP 2004518194 A JP2004518194 A JP 2004518194A JP 4418748 B2 JP4418748 B2 JP 4418748B2
Authority
JP
Japan
Prior art keywords
media stream
media
stream
objects
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004518194A
Other languages
English (en)
Other versions
JP2006515721A (ja
Inventor
ハーリー コーマック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006515721A publication Critical patent/JP2006515721A/ja
Application granted granted Critical
Publication of JP4418748B2 publication Critical patent/JP4418748B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H40/00Arrangements specially adapted for receiving broadcast information
    • H04H40/18Arrangements characterised by circuits or components specially adapted for receiving
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal

Description

本発明は、メディアストリームの識別およびセグメント化に関し、詳細には、例えば、ラジオ局またはテレビ局によって放送されたメディアストリームなどのメディアの1つまたは複数のストリームから繰り返し埋め込まれたオーディオオブジェクトおよび/またはビデオオブジェクトを識別し、抽出するためのシステムおよび方法に関する。
オーディオストリームに埋め込まれた特定の広告、局のジングル(jingle)、若しくは歌、またはビデオストリームに埋め込まれた広告若しくはその他のビデオなどのオーディオオブジェクトおよび/若しくはビデオオブジェクトを識別するための多くの既存のスキームが存在する。例えば、オーディオ識別に関して、そのようなスキームの多くは、「オーディオフィンガープリント(fingerprinting)」スキームと呼ばれる。通常、オーディオフィンガープリントスキームは、既知のオブジェクトを取り込み、そのオブジェクトを、例えば、周波数内容、エネルギーレベルなどのパラメータの集合に変える。次に、これらのパラメータは、既知のオブジェクトのデータベースの中に格納される。次に、ストリーミングメディアのサンプリングされた部分が、識別するためにデータベースの中のフィンガープリントと比較される。
このため、一般に、そのようなスキームは、以前に識別済みのメディアオブジェクトの大型のデータベースとのメディアストリームの比較に依拠することとなる。動作の際、そのようなスキームは、多くの場合、何らかの種類のスライドウィンドウ構成を使用して所望の期間にわたってメディアストリームをサンプリングし、潜在的な合致を得るためにサンプリングされたデータをデータベースと比較する。このようにして、メディアストリーム内の個々のオブジェクトを識別することができる。この識別情報は、通常、メディアストリームを個々のオブジェクトにセグメント化すること、またはメディアストリームのカタログを作るために再生リストなどを作成することを含む、いずれかの目的のために使用される。
しかし、前述したとおり、そのようなスキームを、機能させるためには、あらかじめ識別されたメディアオブジェクトの既存のデータベースを使用する必要がある。前述した従来のスキームを使用している場合、そのような既存のデータベースなしでは、メディアストリームの識別および/またはセグメント化は、不可能である。
したがって、あらかじめ識別されたメディアオブジェクトの既存のデータベースを必ずしも使用することなく、配信されたラジオ信号またはテレビ信号などのメディアストリームから、繰り返すメディアオブジェクトを効率的に識別し、抽出し、またはセグメント化するためのシステムおよび方法が必要とされている。
本明細書で説明する「オブジェクト抽出器(extractor)」が、繰り返し埋め込まれたオブジェクトと繰り返し埋め込まれないオブジェクトとから成るメディアストリーム内の、繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化する。「オブジェクト」とは、人間の聴取者または観覧者によって論理的単位として識別される場合に論理的単位と見なされる無視することのできない持続時間の任意のセクションと定義される。例えば、人間の聴取者が、ラジオ局を聴取し、あるいはテレビ局または他のメディア放送ストリームを視聴して、繰り返されない番組と、広告、ジングル、およびその他の頻繁に繰り返し埋め込まれるオブジェクトとを容易に区別することができる。しかし、メディアストリーム内で、自動的に同一の、例えば、繰り返すコンテンツを自動的に区別することは、一般に、困難な問題である。
例えば、通常のポピュラー音楽のラジオ局からのオーディオストリームは、時間の経過とともに、例えば、歌、ジングル、広告、および局名アナウンス(station identifier)を含め、同一のオブジェクトが多数回繰り返し含まれる。同様に、通常のテレビ局からのオーディオ/ビデオメディアストリームは、時間の経過とともに、例えば、コマーシャル、広告、局名アナウンス、番組「テーマ曲」、または緊急放送信号を含め、同一オブジェクトが多数回繰り返し含まれる。しかし、これらのオブジェクトは、通常、メディアストリーム内の予測できない時点で現れ、および多くの場合、メディアストリームのキャプチャ、または記録のに使用される獲得プロセスによって生じる雑音により損なわれる。
さらに、ラジオ放送などの通常のメディアストリーム内のオブジェクトは、多くの場合、各オブジェクトの開始点および/または終了点におけるボイスオーバー(voice−over)によって損なわれる。さらに、そのようなオブジェクトは、多くの場合、短縮される。すなわち、先頭から完全に、または終端までずっと再生されない。さらに、そのようなオブジェクトは、多くの場合、意図的に歪められる。例えば、ラジオ局を介するオーディオ放送は、多くの場合、コンプレッサ、イコライザ、またはいくつかの他の時間/周波数効果のいずれかを使用して処理される。さらに、通常のラジオ局で放送される音楽または歌などのオーディオオブジェクトは、多くの場合、先行する音楽または歌、および後続の音楽または歌とクロスフェードさせられ、オーディオオブジェクトの開始点と終了点が不明瞭になり、オブジェクトの歪み、または雑音が増加する。メディアストリームのそのような操作は、当業者に周知である。最後に、そのような破損または歪みのいずれか、またはすべてが、個々に、または組合せで生じる可能性があり、以下の説明で、個別に明示的に述べる場合を除き、一般的に「雑音」と呼ばれることに留意されたい。したがって、そのような雑音の多い環境において、そのようなオブジェクトを識別し、そのようなオブジェクトの端点を位置決めすることは、困難な問題である。
本明細書で説明するオブジェクト抽出器は、多くの利点を提供しながら、上記の問題、およびその他の問題にうまく対処する。例えば、メディアストリーム内のメディアオブジェクトに関する統計情報を収集するための有用な技術を提供することに加え、メディアストリームの自動的な識別およびセグメント化により、ユーザが、ストリーム内の所望のコンテンツに自動的にアクセスするか、または逆に、メディアストリーム内の不要なコンテンツを自動的に回避することができるようになる。さらなる利点には、メディアストリームから望ましいコンテンツだけを識別し、格納する能力、識別の処理のために目標とされるコンテンツを識別する能力、雑音を除去する(de−noise)、または任意の複数箇所で検出されたオブジェクトを解消する(clear up)能力、および複数箇所で検出されたオブジェクトの単一のコピーだけを格納することにより、ストリームをより効率的に保存する能力が含まれる。
前述したとおり、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法は、ストリームを検査して、以前に発見されたオブジェクトが出現したか否かを判定することにより、そのようなオブジェクトを識別する。例えば、オーディオのケースでは、これは、歌をストリーム内で以前に出現したオブジェクトであると識別することを意味する。同様に、テレビストリームに由来するビデオのケースでは、これには、識別の広告、ならびに局の「ジングル」、およびその他の頻繁に繰り返されるオブジェクトを識別することが関わる場合がある。さらに、そのようなオブジェクトは、多くの場合、ストリームに関する重要な同期情報を伝える。例えば、ニュース局のテーマ音楽が、時刻、およびニュースレポートが始まろうとしていること、または終わったばかりであることを伝える。
例えば、繰り返し埋め込まれたオブジェクト、および繰り返し埋め込まれないオブジェクトを含むオーディオストリームを所与として、本明細書で説明するシステムおよび方法は、メディアストリームの合致する部分、または合致する繰り返し埋め込まれたオブジェクトとの比較によってオブジェクトの端点を識別しながら、メディアストリーム内の繰り返し埋め込まれたメディアオブジェクトを自動的に識別し、セグメント化する。放送されるオーディオ、すなわち、ラジオを例として使用して、繰り返し埋め込まれた「オブジェクト」には、例えば、ラジオ音楽局の歌、コールサイン(call signal)、ジングル、および広告が含まれることある。
繰り返し埋め込まれないオブジェクトの例には、例えば、ディスクジョッキーのライブチャット、ニュース速報および交通速報、1回だけ流される番組または歌が含まれることができる。上記の異なるタイプのオブジェクトは、メディアストリームからの識別およびセグメント化を可能にする異なる特性を有する。例えば、ポピュラー音楽のラジオ局における広告は、一般に、長さが30秒未満であり、音声が伴うジングルから成る。局のジングルは、一般に、2秒ないし10秒の長さであり、おおむね音楽と音声であり、1日中、頻繁に繰り返される。例えば、クラシック、ジャズ、またはその他の音楽(オルタナティブ)とは異なり、「ポピュラー」音楽の局における歌は、一般に、2分ないし7分の長さであり、殆どの場合、音声と音楽を含む。
一般に、繰り返すメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分の位置決めを行うことによって達せられる。試験された実施形態では、繰り返し埋め込まれたオブジェクトの識別およびセグメント化は、メディアストリームの諸セクションを直接比較して、ストリームの合致する部分を識別した後、その合致する部分を整列させてオブジェクトの端点を識別することによって達せられる。関連する実施形態では、セグメントをまず試験して、探索されているタイプのオブジェクトがそのセグメント内に存在する可能性があるか否かが推定される。存在する可能性がある場合、メディアストリームの他のセグメントとの比較が行われるが、存在する可能性がない場合、セグメントのさらなる処理は、効率を向上させるために無視することができる。
別の実施形態では、繰り返すメディアオブジェクトの自動的な識別およびセグメント化は、1組のオブジェクト依存アルゴリズムを使用して、可能性のあるオブジェクトを識別するために、オーディオメディアおよび/またはビデオメディアの異なる態様を目標にすることによって達せられる。ストリーム内で可能性のあるオブジェクトが識別されると、繰り返し埋め込まれたオブジェクトとしてのオブジェクトの確認は、自動的にインスタンス化された動的オブジェクトデータベースの中で合致する可能性のあるオブジェクトを自動的に探索し、次に、考え得るオブジェクトと、合致する可能性のあるオブジェクトの1つまたは複数を詳細に比較することによって達せられる。次に、オブジェクトの端点が、そのオブジェクトの他の繰り返し行われるコピーとの自動的な整列および比較によって自動的に識別される。
具体的には、オブジェクトの繰り返されるインスタンスを識別することは、例えば、メディアストリーム内のメディアオブジェクトの位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどの情報を格納するために空の「オブジェクトデータベース」をまずインスタンス化する、または初期設定することを含む。以上の情報のいずれか、またはすべてを単一のオブジェクトデータベースの中、または任意の数のデータベースまたはコンピュータファイルの中に保持できることに留意されたい。次のステップは、所望の期間にわたって少なくとも1つのメディアストリームをキャプチャし、格納することに関わる。所望の期間は、数分間から数時間、または数日間から数週間、またはそれより長期間のどのような期間とすることも可能である。しかし、基本的な要件は、サンプル期間が、ストリーム内でオブジェクトが繰り返し始めるだけ十分に長くなければならないということである。オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。
前述したとおり、一実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分を探し出すことによって達せられる。具体的には、この実施形態では、メディアストリームのある部分、またはあるウィンドウがメディアストリームから選択される。ウィンドウの長さは、任意の所望の長さとすることが可能であるが、通常、ほとんど、またはまったく有用な情報を提供しないほど短く、あるいはあまりにも多くのメディアオブジェクトを包含する可能性があるほど長くすることはできない。一実施形態による試験では、探索されるクラスなどの平均的オブジェクトの長さのおよそ2倍ないし5倍程度のウィンドウまたはセグメントが、良好な結果をもたらすことが認められた。この部分またはウィンドウは、メディアストリームのどちらの端からでも選ぶこともでき、あるいはメディアストリームからランダムに選択することもできる。
次に、メディアストリームの合致するセクションを探し出すために、メディアストリームの選択された部分が、メディアストリームの類似したサイズの部分と直接に比較される。この比較は、合致を探し出すためにメディアストリーム全体が探索されるか、または合致が実際に探し出されるかのいずれか、先に生じる時点まで続けられる。メディアストリームと比較するための部分を選択する場合と同様に、選択されるセグメントまたはウィンドウと比較される部分は、メディアストリームのいずれかの端から始めて順次選択することができ、またはメディアストリームからランダムに選択することもできる。
本実施形態による試験では、メディアストリームの諸部分の直接比較によって合致が識別されると、次に、合致する部分を整列させてオブジェクト端点の位置決めを行うことにより、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。前述したとおり、各オブジェクトは、雑音を含み、先頭または終端で短縮され、または切り落とされている可能性があるため、オブジェクト端点は、常に明確に画されているわけではないことに留意されたい。しかし、そのような雑音の多い環境でも、単純なパターンマッチング、合致する部分間で相互相関ピークを整列させることにより、または合致する信号を整列させるための他の任意の従来技術など、いくつかの従来技術のいずれかを使用して合致する部分を整列させることにより、適切な端点の位置決めを行うことができる。整列されると、端点は、メディアストリームを逆方向、および順方向に辿り、合致する部分の境界を過ぎて、メディアストリームのその2つの部分が分岐する時点を探し出すことによって識別される。繰り返し埋め込まれたメディアオブジェクトは、通常、放送されるたびに毎回、まったく同一の順序で再生されるわけではないため、メディアストリーム内の端点の位置決めを行うためのこの技術は、メディアストリーム内のメディアオブジェクトの先頭および端点の位置決めを十分に行えるように観測が行われている。
またはこれに替えて、前述したとおり、一実施形態では、メディアストリーム内のオブジェクトを識別するのに役立つパラメータ情報を計算するため、オーディオメディアおよび/またはビデオメディアの異なる態様を目標として1組のアルゴリズムが使用される、。このパラメータ情報には、特定のオブジェクトを識別するのに役立つパラメータが含まれ、このため、計算されるパラメータ情報のタイプは、探索されているオブジェクトのクラスに依存する。分析されているメディアストリームのタイプに依存して、メディアオブジェクトの類似性を比較するためのいくつかのよく知られた従来の周波数、時間、イメージ、またはエネルギーに基づく技術を使用して、潜在的なオブジェクトの合致を識別することができることに留意されたい。例えば、オーディオストリーム内の音楽または歌に関して、これらのアルゴリズムには、例えば、短いウィンドウ内の毎分の拍子(beats)数、ステレオ情報、短い間隔にわたるチャネル別のエネルギー比、および識別の周波数帯域の周波数内容など、メディアストリーム内の容易に計算されるパラメータを計算すること、スペクトルの実質的な類似性についてメディアのより大きいセグメントを比較すること、可能な候補オブジェクトのサンプルを格納すること、およびあらゆる繰り返し埋め込まれるオブジェクトを識別することを学習することが含まれる。
この実施形態では、メディアストリームが獲得されると、格納されたメディアストリームを検査して、探索されるクラスのオブジェクト、すなわち、歌、ジングル、ビデオ、広告などが、検査されているストリームの部分に存在する確率が算出される。探索されるオブジェクトが存在するという確率が所定の閾値に達すると、ストリーム内の予想される(probable)オブジェクトの位置が、前述したデータベース内で自動的に記録される。この検出閾値または類似度閾値は、ストリーム内のオブジェクト検出の感度を調整するために、所望に応じて高くすること、または低くすることができることに留意されたい。
この実施形態を所与として、ストリーム内で予想されるオブジェクトが識別されると、予想されるオブジェクトを特徴付けるためのパラメータ情報が計算され、データベースクエリまたはデータベース探索において使用されて、以前に識別された予想されるオブジェクトとの潜在的な(potential)オブジェクトの合致が識別される。データベースクエリの目的は、単に、ストリームの2つの部分がほぼ同一であるか否かを判定することである。つまり、ストリーム内の2つの時間的に異なる位置にあるオブジェクトが、ほぼ同一であるか否かである。さらに、データベースは最初、空であるため、潜在的な合致を識別する可能性は、時間が経過して、より多くの考え得るオブジェクトが識別され、データベースに追加されるにつれ、当然、高くなる。
予想されるオブジェクトに対する潜在的な合致が戻されると、予想されるオブジェクトと潜在的な合致の1つまたは複数のより詳細な比較が、予想されるオブジェクトをより確実に識別するために実行される。この時点で、予想されるオブジェクトが、可能性のある合致の1つを繰り返していることが判明した場合、そのオブジェクトは、繰り返し埋め込まれたオブジェクトであると識別され、ストリーム内のそのオブジェクトの位置が、データベースに保存される。逆に、詳細な比較により、予想されるオブジェクトが潜在的な合致の1つの繰り返しではないことが示された場合、そのオブジェクトは、データベースの中で新たなオブジェクトであると識別され、ストリーム内のそのオブジェクトの位置、およびパラメータ情報が、前述したとおり、データベースに保存される。
さらに、前述した実施形態の場合と同様に、繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点が、自動的に識別される。例えば、識別のオブジェクトのN個のインスタンスが存在する場合、それらのインスタンスのすべてが、正確に同じ長さではない可能性がある。したがって、端点の決定には、1つのインスタンスに対して様々なインスタンスを整列させた後、整列されたオブジェクトのそれぞれの中を逆方向、および順方向に辿って、インスタンスのそれぞれが依然として、その他のインスタンスにほぼ等しいさらなる範囲を識別することが関わる。
探索されるクラスのオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、ストリームの2つの部分がほぼ同一であるか否かを試験するための方法はともに、探索されているオブジェクトのタイプ(例えば、音楽、発話、広告、ジングル、局名アナウンス、ビデオなど)に大きく依存し、他方、ストリーム内の端点の位置のデータベースおよび識別は、どのような種類のオブジェクトが探索されているかにかかわらず、非常に類似していることに留意されたい。
前述した実施形態のそれぞれのさらなる変形形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、劇的に向上する。
さらに、関連する実施形態では、メディアストリームは、ストリーム内の少なくとも最も多く見られる繰り返し埋め込まれたオブジェクトの、繰り返しを含むのに十分な大きさを有するストリームの一部をまず分析することにより、分析される。ストリームのこの第1の部分で繰り返し埋め込まれたオブジェクトのデータベースが保持される。次に、セグメントがデータベースの中のいずれかのオブジェクトに合致するか否かをまず判定した後、ストリームの残りの部分に照らして調べることにより、ストリームの残りの部分が分析される。
前述した利点に加えて、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法のその他の利点は、以下の詳細な説明を添付の図面と併せて理解することで明白となろう。
メディアオブジェクト抽出器の識別の特徴、態様、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面に関連してよりよく理解されよう。
本発明を実行するためのモード:
本発明の好ましい実施形態の以下の説明では、添付の図面を参照して、本明細書の一部を成し、本発明を実施することができる特定の実施形態の例を示す。本発明の範囲を逸脱することなく、他の実施形態を利用することができ、構造上の変更を行うことができることを理解されたい。
1.0 例示的な動作環境
図1は、本発明を実施することができる適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の用途または機能の範囲について何ら限定を示唆するものではない。また、コンピューティング環境100が、例示的な動作環境100に示したコンポーネントのいずれの1つ、または組合せに関連する依存関係または要件を有するものとも解釈してはならない。
本発明は、他の多数の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成で機能する。本発明で使用するのに適している可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、セル電話機およびPDAなどのハンドヘルド、ラップトップ、またはモバイルのコンピュータまたは通信装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたは装置のいずれかを含む分散コンピューティング環境などが含まれるが、これらには限定されない。
本発明は、コンピュータによって実行されるプログラムモジュール群などのコンピュータ実行可能な命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、識別のタスクを実行し、または識別の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。また、本発明は、通信ネットワークを介してリンクされたリモート処理装置群によってタスクが実行される分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、プログラムモジュール群は、メモリ記憶装置を含むローカルコンピュータ記憶メディアとリモートコンピュータ記憶メディアの両方の中に配置することができる。図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティング装置を含んでいる。
コンピュータ110のコンポーネント群には、処理装置120、システムメモリ130、ならびにシステムメモリから処理装置120までを含む様々なシステムコンポーネントを結合するシステムバス121が含まれることが可能であるが、これらには限定されない。システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含め、いくつかのタイプのバス構造のいずれであってもよい。限定としてではなく例として、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ読取り可能なメディアを含む。コンピュータ読取り可能なメディアは、コンピュータ110がアクセスすることができる任意の利用可能なメディアであることが可能であり、揮発性メディアと不揮発性メディア、リムーバブルなメディアと固定のメディアがともに含まれる。例として、限定としてではなく、コンピュータ読取り可能なメディアは、コンピュータ記憶メディア、および通信メディアを含むことが可能である。コンピュータ記憶メディアには、コンピュータ読取り可能な命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するために任意の方法または技術で実装された揮発性および不揮発性のリムーバブルなメディア、および固定のメディアが含まれる。コンピュータ記憶メディアには、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは所望の情報を格納するのに使用することができ、コンピュータ110がアクセスすることができる他の任意のメディアが含まれるが、これらには限定されない。通信メディアは、通常、搬送波などの変調されたデータ信号、またはその他のトランスポート機構でコンピュータ読取り可能な命令、データ構造、プログラムモジュール、またはその他のデータを具現化し、あらゆる情報配信メディアが含まれる。「変調されたデータ信号」という用語は、信号内に情報を符号化するような形で特性の1つまたは複数が設定または変更されている信号を意味する。限定としてではなく例として、通信メディアには、有線ネットワークまたは直接有線接続などの有線メディア、ならびに音響メディア、RFメディア、赤外線メディア、およびその他の無線メディアなどの無線メディアが含まれる。また、前述したメディアのいずれの組合せも、コンピュータ読取り可能なメディアの範囲に含められるべきである。
システムメモリ130は、読み取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ記憶メディアを含む。始動中などにコンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム133(BIOS)が、通常、ROM131の中に格納される。RAM132は、通常、処理装置120が即時にアクセスすることができ、かつ/または処理装置120が現在、処理しているデータおよび/またはプログラムモジュール群を含む。限定としてではなく例として、図1は、オペレーティングシステム134、アプリケーションプログラム群135、その他のプログラムモジュール群136、およびプログラムデータ137を示している。
コンピュータ110は、他のリムーバブルな/固定の、揮発性/不揮発性のコンピュータ記憶メディアも含むことが可能である。単に例として、図1は、固定の不揮発性の磁気メディアに対して読み取りまたは書き込みを行うハードディスクドライブ141、リムーバブルな不揮発性の磁気ディスク152に対して読み取りまたは書き込みを行う磁気ディスクドライブ151、およびCD−ROMまたは他の光メディアなどのリムーバブルな不揮発性の光ディスク156に対して読み取りまたは書き込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができるその他のリムーバブルな/固定の、揮発性/不揮発性のコンピュータ記憶メディアには、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、固体RAM、固体ROMなどが含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インターフェース140のような固定のメモリのインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150のようなリムーバブルなメモリのインターフェースでシステムバス121に接続される。
前述し、図1に示すドライブ群、および関連するコンピュータ記憶メディアにより、コンピュータ読取り可能な命令、データ構造、プログラムモジュール、およびその他のデータのストレージがコンピュータ110に提供される。図1では、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム群145、その他のプログラムモジュール群146、およびプログラムデータ147を格納していることを示している。上記のコンポーネントは、オペレーティングシステム134、アプリケーションプログラム群135、その他のプログラムモジュール群136、およびプログラムデータ137と同一であることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム群145、その他のプログラムモジュール群146、およびプログラムデータ147には、少なくともそれらが異なるコピーであることを示すために、ここでは異なる番号を与えている。ユーザは、キーボード162や、マウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス162などの入力装置群を介して、コマンドおよび情報をコンピュータ110に入力することができる。
その他の入力装置群(図示せず)には、マイク、ジョイスティック、ゲームパッド、パラボラアンテナ、スキャナ、ラジオ受信機、またはテレビ受信機、または放送ビデオ受信機などが含まれることが可能である。上記の入力装置群、およびその他の入力装置群は、多くの場合、システムバス121に結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、例えば、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造で接続してもよい。モニタ191、または他のタイプのディスプレイ装置も、ビデオインターフェース190のようなインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース195を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力装置群も含むことが可能である。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境で動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア装置、または他の共通ネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含むが、メモリ記憶装置181だけを図1に示している。図1に示した論理接続には、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、その他のネットワークも含まれることが可能である。そのようなネットワーキング環境は、オフィス、企業規模のコンピュータ網、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインターフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172または他の手段を含む。内蔵も、外付けも可能なモデム172は、ユーザ入力インターフェース160、またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関連して示したプログラムモジュール群、またはプログラムモジュール群の諸部分は、リモートメモリ記憶装置の中に格納することができる。限定としてではなく例として、図1は、リモートアプリケーションプログラム群185がメモリ装置181上に存在していることを示している。図示したネットワーク接続は例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。
例示的な動作環境を以上に説明したので、後述する説明は、メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法を実施するプログラムモジュール群およびプロセス群の説明に当てる。
2.0 概説
本明細書で説明する「オブジェクト抽出器」が、繰り返し埋め込まれたオブジェクトおよび繰り返し埋め込まれないオブジェクトから成るメディアストリーム内で繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化する。「オブジェクト」とは、人間の聴取者または視聴者によって論理的単位として識別される場合に論理的単位と見なされる、無視することのできない持続時間の任意のセクションと定義される。例えば、人間の聴取者は、ラジオ局を聴取し、あるいはテレビ局または他のメディア放送ストリームを視聴して、繰り返し埋め込まれない番組と、広告、ジングル、またはその他の頻繁に繰り返し埋め込まれるオブジェクトとを容易に区別することができる。しかし、メディアストリームの中で、自動的に同一の、例えば、繰り返すコンテンツを自動的に区別することは、一般に困難な問題である。
例えば、通常のポピュラー音楽のラジオ局に由来するオーディオストリームでは、時間の経過とともに、例えば、歌、ジングル、広告、および局名アナウンスを含め、同一のオブジェクトの多数回の繰り返しを含む。同様に、通常のテレビ局から配信されるオーディオ/ビデオメディアストリームには、時間の経過とともに、例えば、コマーシャル、広告、局名アナウンス、または緊急放送信号を含め、同一オブジェクトが多数回繰り返し含まれる。しかし、これらのオブジェクトは、通常、メディアストリーム内の予測できない時点で現れ、多くの場合、メディアストリームをキャプチャし、または記録するのに使用される獲得プロセスに起因する雑音により、損なわれる。
さらに、ラジオ放送などの通常のメディアストリーム内のオブジェクトは、多くの場合、各オブジェクトの開始点および/または終了点におけるボイスオーバーによって損なわれる。さらに、そのようなオブジェクトは、多くの場合、短縮される。すなわち、先頭から完全に、または終端まで連続して再生されない。さらに、そのようなオブジェクトは、多くの場合、意図的に歪められる。例えば、ラジオ局を介するオーディオ放送は、多くの場合、コンプレッサ、イコライザ、またはいくつかの他の時間/周波数効果のいずれかを使用して処理される。さらに、通常のラジオ局で放送される音楽または歌などのオーディオオブジェクトは、多くの場合、先行する音楽または歌、および後続の音楽または歌とクロスフェードされ、オーディオオブジェクトの開始点と終了点が不明瞭になり、オブジェクトの歪み、または雑音が増加する。メディアストリームのそのような操作は、当業者に周知である。最後に、そのような破損または歪みのいずれか、またはすべてが、個々に、または組合せで生じる可能性があり、以下の説明で、個別に明示的に述べる場合を除き、一般的に「雑音」と呼ばれることに留意されたい。したがって、そのような雑音の多い環境において、そのようなオブジェクトを識別し、そのようなオブジェクトの端点の位置決めを行うことは、困難な問題である。
本明細書で説明するオブジェクト抽出器は、多くの利点を提供しながら、以上の問題、およびその他の問題にうまく対処する。例えば、メディアストリーム内のメディアオブジェクトに関する統計情報を収集するための有用な技術を提供することに加え、メディアストリームの自動的な識別およびセグメント化により、ユーザが、ストリーム内の所望のコンテンツに自動的にアクセスするか、または逆に、メディアストリーム内の不要なコンテンツを自動的に回避することができるようになる。さらなる利点には、メディアストリームから望ましいコンテンツだけを識別し、格納する能力、識別の処理のために目標とされるコンテンツを識別する能力、雑音を除去し、または任意の複数で検出されたオブジェクトを解消する能力、および複数で検出されたオブジェクトの単一のコピーだけを格納することにより、ストリームをより効率的にアーカイブする能力が含まれる。
一般に、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分の位置決めを行うことによって達せられる。一実施形態による試験では、繰り返し埋め込まれたオブジェクトの識別およびセグメント化は、メディアストリームの諸セクションを直接に比較して、ストリームの合致する部分を識別した後、その合致する部分を整列させてオブジェクト端点を識別することによって達せられる。
別の実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、1組のオブジェクト依存アルゴリズムを使用して、考え得るオブジェクトを識別するためにオーディオメディアおよび/またはビデオメディアの異なる態様を目標にすることによって達せられる。ストリーム内で考え得るオブジェクトが識別されると、繰り返し埋め込まれたオブジェクトとしてのオブジェクトの確認が、自動的にインスタンス化された動的オブジェクトデータベースの中で合致する可能性のあるオブジェクトを自動的に探索し、次に、考え得るオブジェクトと、合致する可能性のあるオブジェクトの1つまたは複数を詳細に比較することによって達せられる。次に、オブジェクト端点が、そのオブジェクトの他の繰り返すコピーとの自動的な整列および比較によって自動的に識別される。
以下に説明する様々な代替の実施形態は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、メディアストリーム内のメディアオブジェクト識別の速度を劇的に向上させるのに使用される。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの1つまたは複数の繰り返されるインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に必要な場合、メディアストリームの探索が行われる。
2.1 システムの概要:
一般に、オブジェクトの繰り返されるインスタンスを識別することは、例えば、メディアストリーム内のメディアオブジェクトの位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどの情報を格納するために空の「オブジェクトデータベース」をまずインスタンス化し、または初期設定することを含む。以上の情報のいずれか、またはすべてを単一のオブジェクトデータベースの中、または任意の数のデータベースまたはコンピュータファイルの中に保持できることに留意されたい。しかし、説明を簡明にするため、前述した情報として以下の説明の全体で単一のデータベースについて述べる。代替の実施形態では、空のデータベースの代わりに、あらかじめ識別されたオブジェクトを特徴付けるためのパラメータ情報を含む既存のデータベースが使用されることに留意されたい。ただし、そのような既存のデータベースは、最初はオブジェクト識別を迅速化するが、時間が経過すると、ストリーム内でオブジェクトが探索されるにつれてパラメータ情報が入力される、最初は空のデータベースより大幅に良好なパフォーマンスを提供することはない。
いずれの場合も、空の、または既存のオブジェクトデータベースが用意されると、次のステップは、所望の期間にわたって少なくとも1つのメディアストリームをキャプチャするステップ、および格納するステップを含む。所望の期間は、数分間から数時間、または数日から数週間またはそれより長期間のどのような期間とすることも可能である。しかし、基本的な要件は、サンプル期間が、ストリーム内でオブジェクトが繰り返し始めるのに十分な長さでなければならないということである。オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。ここで述べるとおり、オブジェクトの繰り返しにより、ストリーム内でオブジェクトが探し出された場合に、オブジェクトの端点を識別することが可能になる。別の実施形態では、格納要件を最小限に抑えるため、格納済みのメディアストリームは、オーディオコンテンツおよび/またはビデオコンテンツを圧縮するための任意の所望される従来の圧縮方法を使用して圧縮される。そのような圧縮技術は、当業者には周知であり、本明細書では説明しない。
前述したとおり、一実施形態では、繰り返し埋め込まれたメディアオブジェクトの自動的な識別およびセグメント化は、メディアストリームの諸部分を比較して、メディアコンテンツが繰り返されているメディアストリーム内の領域または部分を探し出すことによって達せられる。具体的には、この実施形態では、メディアストリームのある部分、またはあるウィンドウがメディアストリームから選択される。ウィンドウの長さは、任意の所望の長さであることが可能であるが、通常、ほとんど、またはまったく有用な情報を提供しないほど短くてはならず、あるいはあまりにも多くのメディアオブジェクトを包含する可能性があるほど長くてはならない。試験された実施形態では、探索されるタイプの平均的の繰り返されるオブジェクトの長さのおよそ2倍ないし5倍程度のウィンドウまたはセグメントが、良好な結果をもたらすことが認められた。この部分またはウィンドウは、メディアストリームのどちらの端からも選ぶことができ、あるいはメディアストリームからランダムに選択することもできる。
次に、メディアストリームの合致するセクションを探し出そうとして、メディアストリームの選択された部分が、メディアストリームの類似したサイズの部分と直接に比較される。この比較は、合致を探し出すためにメディアストリーム全体が探索されるか、または合致が実際に探し出されるかのいずれか、先に生じた時点まで続けられる。メディアストリームと比較するための部分を選択する場合と同様に、選択されるセグメントまたはウィンドウと比較される部分は、メディアストリームのいずれかの端から始めて順次選択し、またはメディアストリームからランダムに取り上げることもでき、あるいは、探索されるクラスのオブジェクトが現行のセクション内に存在する蓋然性をアルゴリズムが示す場合に選択することができる。
本実施形態による試験では、メディアストリームの諸部分の直接比較によって合致が識別されると、次に、合致する部分を整列させてオブジェクト端点の位置決めを行うことにより、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。前述したとおり、各オブジェクトは雑音を含み、先頭または終端で短縮されている、または切り落とされている可能性があるため、オブジェクト端点は、常に明確に画されているわけではないことに留意されたい。しかし、そのような雑音の多い環境でも、単純なパターン合致、合致する部分の間で相互相関ピークを整列させること、または合致する信号を整列させるための他の任意の従来技術など、いずれかの従来技術を使用して合致する部分を整列させることにより、適切な端点の位置決めを行うことができる。整列されると、端点は、メディアストリームを逆方向、および順方向に辿り、合致する部分の境界を過ぎて、メディアストリームのその2つの部分が分岐する時点を探し出すことによって識別される。繰り返すメディアオブジェクトは、通常、放送されるたびに毎回、まったく同一の順序で再生されるわけではないため、メディアストリーム内の端点の位置決めを行うためのこの技術は、メディアストリーム内のメディアオブジェクトの先頭および端点を満足のいく形で位置識別することが確かめられている。
またはこれに替えて、前述したとおり、一実施形態では、メディアストリーム内のオブジェクトを識別するのに役立つパラメータ情報を計算するため、1組のアルゴリズムを使用して、オーディオメディアおよび/またはビデオメディアの異なる態様が目標とされる。このパラメータ情報には、識別のオブジェクトを識別するのに役立つパラメータが含まれ、このため、計算されるパラメータ情報のタイプは、探索されているオブジェクトのクラスに依存する。分析されているメディアストリームのタイプに依存して、メディアオブジェクトの類似性を比較するためのいくつかのよく知られた従来の周波数、時間、イメージ、またはエネルギーに基づくの技術を使用して、潜在的なオブジェクトの合致を識別することができることに留意されたい。例えば、オーディオストリーム内の音楽または歌に関して、これらのアルゴリズムには、例えば、短いウィンドウ内の毎分の拍子数、ステレオ情報、短い間隔にわたるチャネル別のエネルギー比、および識別の周波数帯域の周波数内容など、メディアストリーム内の容易に計算されるパラメータを計算すること、スペクトルの実質的な類似性についてメディアのより大きいセグメントを比較すること、考え得る候補オブジェクトのサンプルを格納すること、およびあらゆる繰り返し埋め込まれるオブジェクトを識別することを学習することが含まれる。
この実施形態では、メディアストリームが獲得されると、格納されたメディアストリームを検査して、探索されるクラスのオブジェクト、すなわち、歌、ジングル、ビデオ、広告などが、検査されているストリームの部分に存在する確率が算出される。ただし、代替の実施形態では、メディアストリームは、格納されるにつれ、リアルタイムで検査されて、ストリーム内の現時点における探索されるオブジェクトの存在の確率が算出されることに留意されたい。リアルタイムのメディアストリーム検査または格納後のメディアストリーム検査は、実質的に同一の形で扱われることに留意されたい。探索されるオブジェクトが存在するという確率が所定の閾値に達すると、ストリーム内の予想されるオブジェクトの位置が、前述したデータベース内で自動的に記録される。この検出閾値または類似度閾値は、ストリーム内のオブジェクト検出の感度を調整するために、要望どおり高くすること、または低くすることができることに留意されたい。
この実施形態を所与として、ストリーム内で予想されるオブジェクトが識別されると、予想されるオブジェクトを特徴付けるためのパラメータ情報が計算され、データベースクエリまたはデータベース探索において使用されて、以前に識別された予想されるオブジェクトとの潜在的なオブジェクトの合致が識別される。データベースクエリの目的は、単に、ストリームの2つの部分がほぼ同一であるか否かを判定することである。つまり、ストリーム内の2つの時間的に異なる位置にあるオブジェクトが、ほぼ同一であるか否かである。さらに、データベースは最初、空であるため、潜在的な合致を識別する可能性は、時間が経過して、より多くの考え得るオブジェクトが識別され、データベースに追加されるにつれ、当然、高くなる。
代替の実施形態では、データベースクエリによって戻される潜在的な合致の数は、システムオーバーヘッドを減らすために所望の最大数に制限されることに留意されたい。さらに、前述したとおり、データベースの中のオブジェクトに対する予想されるオブジェクトの比較に関する類似度閾値は、所望に応じて潜在的な合致の可能性を高くする、または低くするように調整可能である。さらに別の関連する実施形態では、メディアストリーム内でより頻繁に繰り返し埋め込まれたことが確認されたオブジェクトにより大きい重みを付けて、それらのオブジェクトが、それほど頻繁に繰り返し埋め込まれないオブジェクトより、潜在的な合致として識別される可能性がより高くなるようにする。さらに別の実施形態では、あまりにも多くの潜在的な合致がデータベース探索によって戻された場合、類似度閾値を高くして、より少ない潜在的な合致しか戻されないようにする。
予想されるオブジェクトに対する潜在的な合致が戻されると、予想されるオブジェクトをより確実に識別するため、予想されるオブジェクトと潜在的な合致の1つまたは複数の間でより詳細な比較が実行される。その時点で、予想されるオブジェクトが、潜在的な合致の1つの繰り返しであると確認された場合、そのオブジェクトは、繰り返しオブジェクトとして識別され、ストリーム内のそのオブジェクトの位置が、データベースに保存される。逆に、詳細な比較により、予想されるオブジェクトが潜在的な合致の1つの繰り返しではないことが示された場合、そのオブジェクトは、データベースの中で新たなオブジェクトとして識別され、前述したとおり、ストリーム内のそのオブジェクトの位置、およびパラメータ情報がデータベースに保存される。しかし、代替の実施形態では、オブジェクトが繰り返し埋め込まれたオブジェクトとして識別されない場合、より低い類似度閾値を使用して新たなデータベース探索を行って、比較のための追加のオブジェクトが識別される。この場合も、予想されるオブジェクトが繰り返し埋め込まれたと判定された場合、そのオブジェクトは、繰り返し埋め込まれたオブジェクトとして識別され、それ以外の場合、そのオブジェクトは、前述したとおり、新たなオブジェクトとしてデータベースに追加される。
さらに、前述した実施形態の場合と同様に、繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点が、自動的に決定される。例えば、識別のオブジェクトのN個のインスタンスが存在する場合、それらのインスタンスのすべてが、正確に同じ長さではない可能性がある。したがって、端点の決定には、1つのインスタンスに対して様々なインスタンスを整列させた後、整列されたオブジェクトのそれぞれの中を逆方向、および順方向に辿って、インスタンスのそれぞれが依然として、その他のインスタンスとほぼ等しいさらなる範囲を決定するステップが関わる。
探索されるクラスのオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、ストリームの2つの部分がほぼ同一であるか否かを試験するための方法はともに、探索されているオブジェクトのタイプ(例えば、音楽、発話、広告、ジングル、局名アナウンス、ビデオなど)に大きく依存し、他方、ストリーム内の端点の位置のデータベースおよび決定は、どのような種類のオブジェクトが探索されているかにかかわらず、非常に類似していることに留意されたい。
前述した実施形態のそれぞれのさらなる変形形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームの以前に識別された部分の探索を制限することにより、またはメディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことにより、劇的に向上する。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの1つまたは複数の繰り返しインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に、必要な場合、メディアストリームの探索が行われる。
最後に、別の実施形態では、前述したとおり端点が決定されると、オーディオストリームからオブジェクトが抽出され、個々のファイルの中に格納される。またはこれに替えて、メディアストリーム内のオブジェクト端点に対するポインタが、データベースの中に格納される。
2.2 システムアーキテクチャ
図2の全体的なシステム図は、前述のプロセスを示している。詳細には、図2のシステム図は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するための「オブジェクト抽出器」を実装するためのプログラムモジュール間における相互関係を示している。図2に破線または点線で表すボックス、およびボックス間の相互接続は、本発明の代替の実施形態を表しており、前述したとおり、それらの代替の実施形態のいずれか、またはすべてを、本明細書全体で説明されている他の代替の実施形態と組み合わせて使用することもできることに留意されたい。
詳細には、図2に示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法は、オーディオ情報および/またはビデオ情報を含むメディアストリームをキャプチャするためにメディアキャプチャモジュール200を使用することで開始する。メディアキャプチャモジュール200は、いくつかの従来技術のいずれかを使用して、ラジオまたはテレビ/ビデオの放送メディアストリームをキャプチャする。そのようなメディアキャプチャ技術は、当業者には周知であり、本明細書で説明しない。キャプチャされると、メディアストリーム210は、コンピュータファイルまたはデータベースの中に格納される。さらに、一実施形態では、メディアストリーム210は、オーディオメディアおよび/またはビデオメディアを圧縮するための従来技術を使用して圧縮される。
一実施形態では、オブジェクト検出モジュール220が、メディアストリームからあるセグメントまたはウィンドウを選択し、そのセグメントまたはウィンドウをオブジェクト比較モジュール240に提供し、メディアストリームの合致する部分を探し出そうとして、そのセクションとメディアストリーム210の他のセクションまたはウィンドウの間で直接の比較が実行される。前述したとおり、オブジェクト比較モジュール240は、合致を探し出すようにメディアストリーム210全体が探索されるか、または合致が実際に探し出されるまでかのいずれか、先に生じた時点まで比較を続ける。
この実施形態では、オブジェクト比較モジュール240によるメディアストリームの諸部分の直接の比較によって合致が識別されると、オブジェクト整列−端点決定モジュール250を使用して、メディアストリームの合致する部分を整列させた後、メディアストリームの部分間の整列の中心から逆方向、および順方向に探索を行って、各オブジェクトがほぼ等しいさらなる範囲を識別して、繰り返し埋め込まれたオブジェクトの識別およびセグメント化が達せられる。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。一実施形態では、次に、この端点情報が、オブジェクトデータベース230の中に格納される。
またはこれに替えて、別の実施形態では、比較の目的でメディアストリームのあるウィンドウまたはセグメントを単に選択するのではなく、オブジェクト検出モジュールはまず、メディアストリーム内に埋め込まれた可能なメディアオブジェクトを識別しようとして、メディアストリーム210を検査する。メディアストリーム210のこの検査は、メディアストリームの一部分を表すウィンドウを検査することによって達せられる。前述したとおり、考え得るオブジェクトを検出するメディアストリーム210の検査は、検査されているメディアコンテンツのタイプに合わされた1つまたは複数の検出アルゴリズムを使用する。一般に、それらの検出アルゴリズムは、分析されているメディアストリームの部分を特徴付けるためのパラメータ情報を計算する。可能なメディアオブジェクトの検出を以下に、セクション3.1.1でさらに詳細に説明する。
オブジェクト検出モジュール220が考え得るオブジェクトを識別すると、メディアストリーム210内のその考え得るオブジェクトの場所または位置が、オブジェクトデータベース230の中で記録される。さらに、オブジェクト検出モジュール220によって計算されたその考え得るオブジェクトを特徴付けるためのパラメータ情報も、オブジェクトデータベース230の中に格納される。このオブジェクトデータベースは最初、空であり、オブジェクトデータベース230の最初のエントリは、オブジェクト検出モジュール220によって検出された最初の考え得るオブジェクトに対応することに留意されたい。またはこれに替えて、オブジェクトデータベースには、以前にキャプチャされたメディアストリームの分析または探索の結果があらかじめ埋められる。オブジェクトデータベースを以下に、セクション3.1.3でさらに詳細に説明する。
メディアストリーム210内の考え得るオブジェクトの検出の後、次に、オブジェクト比較モジュール240が、オブジェクトデータベース230にクエリを行い、その考え得るオブジェクトに関する潜在的な合致、すなわち、繰り返されるインスタンスを探し出す。1つまたは複数の潜在的な合致が識別されると、オブジェクト比較モジュール240は、次に、その考え得るオブジェクトと、合致する可能性のあるオブジェクトの1つまたは複数の詳細な比較を実行する。この詳細な比較には、その考え得るオブジェクトを表すメディアストリームの諸部分と潜在的な合致の直接の比較、またはその考え得るオブジェクトを表すメディアストリームの諸部分のより小さいサイズの(lower dimension)バージョンと潜在的な合致との比較が含まれる。この比較プロセスを以下に、セクション3.1.2でさらに詳細に説明する。
次に、オブジェクト比較モジュール240が、潜在的なオブジェクトの合致または繰り返されるインスタンスを識別すると、考え得るオブジェクトには、繰り返し埋め込まれたオブジェクトとしてオブジェクトデータベース230の中でフラグが付けられる。次に、オブジェクト整列−端点決定モジュール250が、新たに識別された繰り返しオブジェクトを、そのオブジェクトの各々の以前に識別済みの繰り返されるインスタンスと整列させて、それらのオブジェクトのそれぞれの間で逆方向、および順方向に探索を行い、各オブジェクトがほぼ等しいさらなる範囲を識別する。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。次に、この端点情報が、オブジェクトデータベース230の中に格納される。オブジェクト端点の整列および識別を以下に、セクション3.1.4でさらに詳細に説明する。
最後に、別の実施形態では、オブジェクト整列−端点決定モジュール250によってオブジェクト端点が識別されると、オブジェクト抽出モジュール260が、その端点情報を使用して、それらの端点に対応するメディアストリームのセクションを、個々のメディアオブジェクト270の別個のファイルまたはデータベースにコピーする。別の実施形態では、考え得るオブジェクトのより小さいサイズのバージョンと潜在的な合致の前述した比較のために、考え得るオブジェクトに対する潜在的な合致を表すメディアストリームの諸部分の代わりに、メディアオブジェクト270が使用されることにも留意されたい。
前述したプロセスは、例えば、スライドするウィンドウを使用すること、または最後に検出されたメディアオブジェクトの計算済みの端点にウィンドウの始まりを移動することなどにより、オブジェクト検出モジュール220によって分析されているメディアストリーム210の部分が増分されて、繰り返される。上記のプロセスは、メディアストリーム全体が検査されるまで、またはユーザが検査を終了させるまで続く。ストリーム内で繰り返し埋め込まれたオブジェクトをリアルタイムで探索する場合、探索プロセスは、所定の時間が費やされた時点で終了させることができる。
3.0 動作の概要
前述したプログラムモジュール群が、メディアストリーム内で繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するための「オブジェクト抽出器」において使用される。このプロセスを、前述したプログラムモジュール群を実装するための例示的な方法の詳細な働きの説明に続き、オブジェクト抽出器の代替の実施形態を表す図3Aないし図5の流れ図に示す。
3.1 動作上の諸要素
前述したとおり、オブジェクト抽出器は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するように動作する。オブジェクトの繰り返されるインスタンスを識別する一般的な方法の実用例は、一般に下記の要素を含む。
1.メディアストリームの2つの部分がほぼ同一であるか否かを判定するための技術。つまり、メディアストリーム内でそれぞれほぼ時間的な位置tおよびtに位置するメディアオブジェクトが、ほぼ同一であるか否かを判定するための技術。さらなる詳細については、セクション3.1.2を参照されたい。関連する実施形態では、メディアストリームの2つの部分がほぼ同一であるか否かを判定するための技術には、探索されるクラスのメディアオブジェクトが、検査されているメディアストリームの部分に存在する確率を算出するための技術が先立つことに留意されたい。さらなる詳細については、セクション3.1.1を参照されたい。
2.識別の繰り返し埋め込まれたオブジェクトのそれぞれの探し出されたインスタンスを記述するための情報を格納するためのオブジェクトデータベース。オブジェクトデータベースは、例えば、メディアストリーム内のメディアオブジェクト位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、またはオブジェクト自体のコピーなどのレコードを含む。この場合も、前述したとおり、オブジェクトデータベースは、実際には、要望どおり1つまたは複数のデータベースであることが可能である。さらなる詳細については、セクション3.1.2を参照されたい。
3.識別済みの繰り返し埋め込まれたオブジェクトの様々なインスタンスの端点を決定するための技術。一般に、この技術はまず、各々の合致するセグメントまたはメディアオブジェクトを整列させ、次に、時間を逆方向、および順方向に辿って、インスタンスの各々が依然として、その他のインスタンスにほぼ等しいさらなる範囲を決定する。それらのさらなる範囲が、一般に、繰り返すメディアオブジェクトの端点に相当する。さらなる詳細については、セクション3.1.4を参照されたい。
探索されるクラスのメディアオブジェクトが検査されているストリームの部分に存在する確率を算出するための方法と、メディアストリームの2つの部分がほぼ同一であるか否かを判定するための方法はともに、探索されているオブジェクトのタイプ(例えば、オブジェクトが音楽であるか、発話であるか、ビデオであるかなど)に大きく依存し、他方、識別済みの繰り返しオブジェクトの様々なインスタンスの端点を決定するためのオブジェクトデータベースおよび技術は、探索されているオブジェクトのタイプまたはクラスにかかわらず、極めて似通っていることが可能であることに留意されたい。
以下の説明は、オブジェクト抽出器を文脈に置くために、オーディオメディアストリーム内の音楽または歌の検出について述べることに留意されたい。しかし、前述したとおり、本明細書で説明する同一の一般的なアプローチは、例えば、音声、ビデオ、イメージシーケンス、局のジングル、広告などの他のクラスのオブジェクトにも同様にうまく適用される。
3.1.1 オブジェクト検出確率
前述したとおり、一実施形態では、メディアストリームの2つの部分がほぼ同一であるか否かを判定するための技術には、探索されるクラスのメディアオブジェクトが、検査されているメディアストリームの部分に存在する確率を算出するための技術が先立つ。この算出は、メディアストリームのセクション間で直接の比較が行われる実施形態(セクション3.1.2参照)では必要ない。しかし、この計算は、探索の効率を大幅に高めることができる。つまり、探索されるクラスのオブジェクトを含む可能性が低いと判定されたセクションを、その他のセクションと比較する必要がない。探索されるクラスのメディアオブジェクトがメディアストリーム内に存在する確率を算出することは、まず、メディアストリームをキャプチャし、検査することで始まる。例えば、1つのアプローチは、目標メディアストリームの中を進みながら、容易に計算されるパラメータのベクトル、すなわち、パラメータ情報を継続的に計算することである。前述したとおり、識別のメディアオブジェクトタイプまたはメディアオブジェクトクラスを特徴付けるのに必要とされるパラメータ情報は、探索が実行されている識別のオブジェクトタイプまたはオブジェクトクラスに完全に依存する。
探索されるクラスのメディアオブジェクトがメディアストリームの中に存在する確率を算出するための技術は、通常、信頼できないことに留意されたい。つまり、その技術は、多くのセクションを予想され、または考え得る探索されるオブジェクトとして分類することを、それらのセクションがそのようなオブジェクトではない場合に行い、このため、オブジェクトデータベースの中で役に立たないエントリが生じる。同様に、本質的に信頼できないため、その技術は、多くの実際に探索されているオブジェクトを予想されるオブジェクト、または考え得るオブジェクトとして分類することにも失敗する。しかし、より効率的な比較技術を使用することはできるが、初期の予想される、または可能な検出を、繰り返しオブジェクトを識別するための潜在的な合致の後の詳細な比較と組み合わせることは、ストリーム内の探索されるオブジェクトのほとんどの場所を迅速に識別するのに役立つ。
明らかに、実質的にあらゆるタイプのパラメータ情報を使用して、メディアストリーム内の考え得るオブジェクトを探し出すことができる。例えば、放送されたビデオストリームまたはテレビストリームの中で頻繁に繰り返されるコマーシャル、またはその他のビデオセグメントまたはオーディオセグメントに関して、考え得るオブジェクトまたは予想されるオブジェクトは、ストリームのオーディオ部分、ストリームのビデオ部分、あるいはその両方を検査することによって探し出すことができる。さらに、そのようなオブジェクトの特性に関する既知の情報を使用して、初期の検出アルゴリズムを調整することができる。例えば、テレビコマーシャルは、15秒から45秒までの長さである傾向があり、3分ないし5分のブロックでグループ化される傾向がある。ビデオストリーム内またはテレビストリーム内でコマーシャルブロックまたは広告ブロックを探し出す際に、この情報を使用することができる。
オーディオメディアストリームに関して、例えば、歌、音楽、または繰り返される発話を探索することが所望される場合、メディアストリーム内の考え得るオブジェクトを探し出すのに使用されるパラメータ情報は、例えば、短いウィンドウにわたって計算されるメディアストリームの毎分の拍子数(BPM)、相対的なステレオ情報(例えば、差信号(difference channel)のエネルギー対和信号(sum channel)のエネルギーの比)、短い間隔にわたって平均したある周波数帯域のエネルギー占有率(occupancy)などの情報から成る。
さらに、あるパラメータ情報の連続性に特に注意が払われる。例えば、オーディオメディアストリームのBPMが、30秒以上の間隔にわたってほぼ同一のままである場合、これは、歌オブジェクトがストリーム内のその場所におそらく存在することを示すものと解釈することができる。より短い持続時間にわたって不変のBPMにより、ストリーム内の所定の場所にオブジェクトが存在するより低い確率が与えられる。同様に、長い期間にわたる大量のステレオ情報の存在により、歌が再生されている可能性が示されることが可能である。
おおよそのBPMを計算する様々なやり方が存在する。例えば、オブジェクト抽出器の実用例では、オーディオストリームがフィルタリングされ、ダウンサンプリングされて、元のストリームのより小さいサイズのバージョンが生成される。試験された実施形態では、オーディオストリームをフィルタリングして、0−220Hzの範囲内の情報だけを含むストリームを生成することにより、良好なBPM結果がもたらされることが確認されている。しかし、メディアストリームからどのような情報が抽出されるべきかに応じて、任意の周波数範囲を検査できることを認識されたい。ストリームがフィルタリングされ、ダウンサンプリングされると、次に、1回につきおよそ10秒のウィンドウのウィンドウの自己相関を使用して低レートストリームの中で優勢なピークの探索を実行して、最大の2つのピーク、BPM1およびBPM2が保持される。試験された実施形態においてこの技術を使用して、BPM1またはBPM2が1分間以上にわたってほぼ連続的である場合、探索されるオブジェクト(この場合は、歌)が存在するという判定が行われる。中央値フィルタリングを使用して偽の(spurious)BPM数が除去される。
以上の説明では、予想され、または考え得る探索されるオブジェクトの識別は、特徴のベクトルまたはパラメータ情報だけを使用して達せられたことに留意されたい。しかし、さらなる実施形態では、見つかったオブジェクトに関する情報を使用して、この基本的な探索が変更される。例えば、オーディオストリームの例に戻ると、見つかったオブジェクトと局のジングルの間の4分の間隙が、探索されている予想されるオブジェクトとして初期の探索によってフラグが付けられなかった場合でも、そのようなオブジェクトとしてデータベースに追加するのに非常に良い候補である。
3.1.2 オブジェクトの類似度の試験
前述したとおり、メディアストリームの2つの部分がほぼ同一であるか否かの判定には、メディアストリーム内の2つの位置、すなわち、それぞれtおよびtに位置するメディアストリームの2つ以上の部分の比較を伴う。試験された実施形態では、比較されるべきウィンドウまたはセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きいように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体またはウィンドウ全体ではなく、メディアストリームの比較されるセクションの諸部分だけが、実際に合致するものと予期されよう。
一実施形態では、この比較には、単に、メディアストリームの異なる部分を直接に比較して、メディアストリーム内のあらゆる合致を識別することを伴う。メディアストリーム内の前述したソースのいずれかからの雑音の存在に起因して、メディアストリームの2つの繰り返されるセクションまたは複製のセクションが完全に合致する可能性は低いことに留意されたい。しかし、雑音の多い信号が複製または繰り返されるインスタンスであるか否かを判定するためにそのような信号を比較するための従来の技術は、当業者に周知であり、本明細書でさらに詳細に説明することはしない。さらに、そのような直接の比較は、信号またはメディアストリームを特徴付けるためのパラメータ情報をまず計算する必要なしに、任意の信号タイプに適用可能である。
別の実施形態では、前述したとおり、この比較には、メディアストリームの諸部分に関するパラメータ情報をまず比較して、メディアストリームの現在のセグメントまたはウィンドウに対する可能な、または潜在的な合致を識別するステップが含まれる。
メディアストリームの諸部分を直接に比較しているか、またはパラメータ情報を比較しているかにかかわらず、メディアストリームの2つの部分がほぼ同一であるか否かの判定は、考え得るオブジェクトの基本的な検出だけよりも本質的により信頼できる(セクション3.1.1参照)。つまり、この判定は、メディアストリームの2つの似通っていない区間(stretch)を同一であると誤って分類する確率が比較的低い。したがって、データベースの中のレコードの2つのインスタンスが類似していると判定され、またはメディアストリームの2つのセグメントまたはウィンドウが十分に類似していると判定された場合、これは、メディアストリームのそれらのレコードまたは部分が実際に繰り返し埋め込まれたオブジェクトを表していることの確証であると解釈される。
これは、考え得るオブジェクトを探し出すようにメディアストリームがまず検査される実施形態では、考え得るオブジェクトの単純な検出が、信頼できない、すなわち、オブジェクトと見なされているが、実際にはオブジェクトではないエントリがデータベースに行われている可能性があるために、重要である。このため、データベースの内容を検査する際、1つだけのコピーが見つかっているレコードは、探索されている予想されるオブジェクト、または考え得るオブジェクト(すなわち、歌、ジングル、広告、ビデオ、コマーシャルなど)に過ぎないが、2つ以上のコピーが見つかっているレコードは、より高い確度で探索されているオブジェクトであると見なされる。このため、オブジェクトの第2のコピー、および以降のコピーを見つけることは、メディアストリーム内の考え得る、または予想されるオブジェクトを単に検出することの信頼性の欠如に起因する不確実性を取り除くのに大いに役立つ。
例えば、オーディオメディアストリームを使用する試験された実施形態では、直接の比較を実行するのではなく、パラメータ情報を比較する場合、オーディオストリーム内の2つの位置が、その位置のバーク(Bark)バンドの1つまたは複数を比較することによって比較される。位置tとtがほぼ同一であるという推測を検定するのに、それらの位置のそれぞれを中心とする探索されるクラスの平均的オブジェクトの長さの2倍ないし5倍の間隔に関してバークスペクトルが計算される。この時間は、単に便宜上、選択している。次に、それらの帯域の1つまたは複数の帯域の相互相関が計算され、ピークの探索が実行される。それらのバークスペクトルが実質的に同一であることを示すのに十分なピークの強さがある場合、それらのスペクトルが由来するオーディオのセクションも実質的に同一であると推測される。
さらに、別の実施形態による試験では、単一のバークスペクトル帯域ではなく、いくつかのバークスペクトル帯域を使用してこの相互相関試験を実行することにより、比較の堅牢性が向上する。具体的には、複数帯域の相互相関の比較により、オブジェクト抽出器が、2つの位置tとtがほぼ同一のオブジェクトを表す場合をほとんど常に正しく識別することができる一方で、非常に稀にしかその2つの位置が同一であると誤って示すことがないようになる。放送オーディオストリームからキャプチャされたオーディオデータの試験は、700Hzないし1200Hzの範囲内の信号情報を含むバークスペクトル帯域が、上記の目的で特に堅牢であり、信頼できることを示した。ただし、オーディオメディアストリームを検査する際、他の周波数帯域にわたる相互相関も、オブジェクト抽出器によってうまく使用されることが可能であることに留意されたい。
位置tとtが同一のオブジェクトを表すと判定されると、バークスペクトル帯域の相互相関のピーク位置間の差、および帯域の1つの自己相関により、別々のオブジェクトの整列の計算が可能になる。このため、tが対応するのと同一の曲内の位置に対応する調整された位置t'が計算される。つまり、比較の計算と整列の計算はともに、tを中心とするオーディオとtを中心とするオーディオが同一のオブジェクトを表すが、tとt'はそのオブジェクト内のほぼ同一の位置を表すことを示す。つまり、例えば、tが6分間のオブジェクトが開始してから2分経過した位置であり、tが同一のオブジェクトが開始してから4分経過した位置であった場合、オブジェクトの比較および整列により、オブジェクトが同一のオブジェクトであるか否かの判定が可能になり、オブジェクトの第2のインスタンスが開始してから2分経過した位置を表すt'も戻される。
直接比較のケースも同様である。例えば、直接比較のケース、例えば、メディアストリームの異なる部分間の相互相関を実行するなどの従来の比較技術を使用して、メディアストリームの合致する領域が識別される。前の例と同様に、一般的な考え方は、単に、位置tおよびtそれぞれにおけるメディアストリームの2つの部分がほぼ同一であるか否かを判定することである。さらに、直接比較のケースは、実際には、前の実施形態より実施するのがはるかに容易である。というのは、直接比較は、メディアに依存しないからである。例えば、前述したとおり、識別の信号タイプまたはメディアタイプの分析に必要とされるパラメータ情報は、特徴付けられている信号オブジェクトまたはメディアオブジェクトのタイプに依存する。しかし、直接比較法では、それらのメディア依存の特徴付けは、比較の目的で決定される必要がない。
3.1.3 オブジェクトデータベース
前述したとおり、代替の実施形態では、例えば、以下のいずれか、またはすべてなどの情報を格納するのにオブジェクトデータベースが使用される。すなわち、メディアストリーム内のメディアオブジェクト位置に対するポインタ、それらのメディアオブジェクトを特徴付けるためのパラメータ情報、そのようなオブジェクトを記述するためのメタデータ、オブジェクト端点情報、メディアオブジェクトのコピー、および個々のメディアオブジェクトが格納されているファイルまたは他のデータベースに対するポインタである。さらに、一実施形態では、このオブジェクトデータベースは、オブジェクトの繰り返されるインスタンスが見つかると、それらのインスタンスに関する統計情報も格納する。「データベース」という用語を、ここでは、一般的な意味で使用していることに留意されたい。詳細には、代替の実施形態では、本明細書で説明するシステムおよび方法は、独自のデータベースを構築するか、オペレーティングシステムのファイルシステムを使用するか、または、例えば、SQLサーバまたはMicrosoft(登録商標)Accessのような市販のデータベースパッケージを使用する。さらに、やはり前述したとおり、前述した情報のいずれか、またはすべてを格納するために、代替の実施形態において1つまたは複数のデータベースが使用される。
一実施形態による試験では、オブジェクトデータベースは、最初、空である。探索されるクラスのメディアオブジェクトがメディアストリーム内に存在すると判定された場合、エントリがオブジェクトデータベースの中に格納される(例えば、セクション3.1.1およびセクション3.1.2参照)。別の実施形態では、直接比較を実行する場合、オブジェクト合致を探し出すのに、メディアストリーム自体を探索するのに先立って、オブジェクトデータベースにクエリが行われることに留意されたい。この実施形態は、メディアストリーム内で識別のメディアオブジェクトが認められると、その識別のメディアオブジェクトがそのメディアストリーム内で繰り返される可能性がより高いという前提に基づいて機能する。したがって、オブジェクトデータベースにまずクエリを行って合致するメディアオブジェクトを探し出すことは、合致するメディアオブジェクトを識別するのに必要とされる全体的な時間および計算費用を減らすのに役立つ。以上の実施形態を以下にさらに詳細に説明する。
データベースは、2つの基本的な機能を実行する。第1に、データベースは、あるメディアオブジェクト、若しくは特徴またはパラメータ情報のある集合に合致する、または部分的に合致する1つまたは複数のオブジェクトがオブジェクトデータベースの中に存在するか否かを判定するためのクエリに応答する。このクエリに応答して、オブジェクトデータベースは、前述したとおり、合致する可能性のあるオブジェクトのストリーム名および位置のリストを戻すか、または単に合致するメディアオブジェクトの名前および位置を戻す。一実施形態では、特徴のリストに合致する現在のエントリがまったく存在しない場合、オブジェクトデータベースは、そのようなエントリを作成し、そのストリーム名および位置を新たな予想される、または考え得るオブジェクトとして追加する。
一実施形態では、合致する可能性のあるレコードを戻す場合、オブジェクトデータベースは、合致の最も高確率で予想されるレコードと判定した順にレコードを提示することに留意されたい。例えば、考え得るオブジェクトと可能性のある合致の間の以前に計算された類似度などのパラメータに基づいて、その確率を算出することが可能である。またはこれに替えて、オブジェクトデータベースの中に既にいくつかのコピーを有するレコードに関して、より高い確率の合致を戻すことができる。というのは、そのようなレコードは、オブジェクトデータベースの中に1つのコピーだけしか有さないレコードより、合致することがより強く予想されるからである。最も高確率で予想されるオブジェクト合致から前述したオブジェクト比較を始めることにより、全体的なシステムパフォーマンスを向上させながら、計算時間が短縮される。というのは、そのような合致は、通常、それほど詳細でない比較で識別されるからである。
データベースの第2の基本的な機能は、オブジェクト端点の決定を含む。詳細には、オブジェクト端点を決定しようと試みる場合、オブジェクトデータベースは、オブジェクトの繰り返しコピーまたは繰り返しインスタンスのそれぞれのストリーム名、およびストリーム内の位置を戻して、以下のセクションで説明するとおり、オブジェクトを整列させ、比較することができるようにする。
3.1.4 オブジェクト端点の決定
時間が経過し、メディアストリームが処理されるとともに、オブジェクトデータベースには、当然、オブジェクト、繰り返し埋め込まれたオブジェクト、およびストリーム内のおおよそのオブジェクト位置がますます入力される。前述したとおり、考え得るオブジェクトの複数のコピーまたはインスタンスを含むデータベースの中のレコードが、探索されるオブジェクトであるものと考えられる。データベースの中のそのようなレコードの数は、目標ストリーム内で探索されるオブジェクトが繰り返される頻度、および分析されているストリームの長さに依存するレートで増加する。データベースの中のレコードが探索されるオブジェクトを表しているか、または単に分類の誤りであるかについて確実に認識することに加え、探索されるオブジェクトの第2のコピーを見つけることは、ストリーム内のオブジェクトの端点を決定するのに役立つ。
具体的には、データベースに繰り返し埋め込まれたメディアオブジェクトが入力されるにつれ、それらのメディアオブジェクトの端点を決定することがますます容易になる。一般に、メディアオブジェクトの端点の決定は、メディアストリーム内で識別されるメディアオブジェクトを比較し、整列させた後、識別のメディアオブジェクトの様々なインスタンスがどこで分岐するかを決定することによって達せられる。セクション3.1.2で前述したとおり、考え得るオブジェクトの比較により、メディアストリーム内の異なる位置に同一のオブジェクトが存在することが確認されるが、この比較自体は、それらのオブジェクトの境界を確定しない。しかし、それらの境界は、メディアストリーム、またはそれらの位置におけるメディアストリームのより小さいサイズのバージョンを比較した後、メディアストリームのそれらの部分を整列させ、メディアストリーム内を逆方向、および順方向に辿って、メディアストリームが分岐するメディアストリーム内の時点を識別することによって決定可能である。
例えば、データベースレコードの中にオブジェクトのN個のインスタンスを有するオーディオメディアストリームのケースでは、オーディオストリーム内でそのオブジェクトが出現するN個の位置が存在する。一般に、放送オーディオストリームの直接比較の場合、波形データは、一部のケースでは、様々なコピーがどこでほぼ一致し、どこで分岐しはじめるかの信頼できる指示をもたらすには雑音が多過ぎる場合があることが確認されている。ストリームがそのような直接比較には雑音が多過ぎる場合、より小さいサイズのバージョン、または識別の特性情報の比較が、満足のいく結果をもたらすことが確認されている。例えば、雑音の多いオーディオストリームのケースでは、バークスペクトル表現などの識別の周波数または周波数帯域の比較が、比較の目的および整列の目的でうまくいくことが確認されている。
具体的には、オーディオストリームからメディアオブジェクトを抽出するための一実施形態による試験では、メディアオブジェクトのN個のコピーの各々に関して、オブジェクトより相対的に長いオーディオデータのウィンドウから1つまたは複数のバークスペクトル表現が導出される。前述したとおり、複数の代表的なバークバンドの使用によって、より信頼できる比較が達せられる。オーディオストリームに適用されたオブジェクト抽出器の実用例では、700Hzないし1200Hzの範囲内の情報を表すバークバンドが、特に堅牢であり、オーディオオブジェクトを比較するのに役立つことが認められたことに留意されたい。明らかに、比較のために選択される周波数帯域は、オーディオストリーム内の音楽、発話、または他のオーディオオブジェクトのタイプに合わせられなければならない。一実施形態では、選択された帯域のフィルタリング済みのバージョンを使用して、堅牢性がさらに高められる。
上記の例を所与として、選択されたバークスペクトルがすべてのコピーに関してほぼ同一である限り、基礎にあるオーディオデータもほぼ同一であるものと考えられる。逆に、選択されたバークスペクトルがすべてのコピーに関して十分に異なる場合、基礎にあるオーディオデータは、もはや問題のオブジェクトに属していないものと考えられる。このようにして、選択されたバークスペクトルをストリーム内で逆方向、および順方向に辿って、オブジェクトの境界を決定するために分岐が出現する位置が決定される。
詳細には、一実施形態では、バークスペクトル分解(臨界帯域としても知られる)を使用して、データベースの中のオブジェクトの小さいサイズのバージョンが計算される。この分解は、当業者には周知である。この分解は、信号をいくつかの異なる帯域に分解する。個々の帯域は、狭い周波数範囲を占めるため、それらの帯域が表す信号よりもはるかに低いレートでサンプリングすることができる。したがって、オブジェクトデータベースの中のオブジェクトに関して計算された特性情報は、それらの帯域の1つまたは複数のサンプリングされたバージョンから成るようにすることが可能である。例えば、一実施形態では、特性情報は、840Hzを中心とするバーク帯域7のサンプリングされたバージョンから成る。
別の実施形態では、オーディオメディアストリームの目標部分がデータベースの中のある要素に合致するという判定は、オーディオストリームの目標部分の小さいサイズのバージョンに対するデータベースオブジェクトの小さいサイズのバージョンの相互相関を計算することによって行われる。相互相関のピークは、一般に、2つの波形が、全長の少なくとも一部分に関してほぼ等しいことを暗示する。当業者には周知のとおり、偽のピークを受け入れることを回避する様々な技術が存在する。例えば、相互相関の識別の局所極大が候補のピークである場合、そのピークの値が、そのピークのまわりの(ただし、必ずしもピークを含まない)値のウィンドウ内の平均値より高い標準偏差の閾値数を超えるものであることを要求することができる。
さらに別の実施形態では、見つかったオブジェクトの範囲または端点は、繰り返し埋め込まれたオブジェクトの2つ以上のコピーを整列させることによって決定される。例えば、合致が見つかると(相互相関のピークを検出することにより)、オーディオストリームの目標部分のより小さいサイズのバージョンと、ストリームの別のセクション、またはデータベースエントリのより小さいサイズのバージョンが整列させられる。それらのバージョンの整列がずれている量が、相互相関ピークの位置によって算出される。次に、小さいサイズのバージョンの1つが正規化されて、値がほぼ一致するようになる。つまり、オーディオストリームの目標部分がSであり、合致する部分(ストリームの別のセクション、またはデータベースからの)がGであり、相互相関から、GとSがオフセットoで合致すると判定されている場合、tがオーディオストリーム内の時間的位置であるS(t)が、G(t+o)と比較される。ただし、S(t)がG(t+o)にほぼ等しくなるにはまず、正規化が必要である場合がある。次に、オブジェクトの開始点が、t>tの場合、S(t)がG(t+o)とほぼ等しくなるような最小のtを求めることによって算出される。同様に、オブジェクトの端点が、t<tの場合、S(t)がG(t+o)にほぼ等しくなるような最大のtを求めることによって算出される。これが終了すると、t<t<tの場合、S(t)は、ほぼG(t+o)に等しく、tおよびtをオブジェクトのおおよその端点と見なすことができる。一部の事例では、端点を算出する前により小さいサイズのバージョンをフィルタリングする必要がある場合がある。
一実施形態では、t>tの場合、S(t)がG(t+o)にほぼ等しいと判定することは、二分法によって行われる。t<tである場合に、S(t)とG(t+o)がほぼ等しい位置tが求められ、S(t)とG(t+o)が等しくない位置tが求められる。次に、オブジェクトの先頭が、二分法によって算出されたtの様々な値に関して、S(t)の小さいセクションとG(t+o)の小さいセクションを比較することによって算出される。オブジェクトの終りが、t>tである場合に、S(t)とG(t+o)がほぼ等しいtをまず求め、S(t)とG(t+o)が等しくないtを求めることによって算出される。最後に、オブジェクトの端点が、二分法によって算出されたtの様々な値に関してS(t)のセクションとG(t+o)のセクションを比較することによって算出される。
さらに別の実施形態では、t>tの場合、S(t)がG(t+o)にほぼ等しいと判定することが、S(t)とG(t+o)がほぼ等しいtを求め、次に、S(t)とG(t+o)がもはやほぼ等しくなくなるまでtをtから減少させることによって行われる。S(t)およびG(t+o)の絶対差(absolute difference)が、tの単一の値における何らかの閾値を超えた場合にS(t)とG(t+o)がもはやほぼ等しくないと判断するのではなく、絶対差が、ある最小範囲の値に関する何らかの閾値を超えた場合、または累積の絶対差が何らかの閾値を超えた場合にその判定を行う方が、一般に、より堅牢である。同様に、端点は、S(t)とG(t+o)がもはやほぼ等しくなくなるまでtをtから増加させることによって算出される。
動作の際、ラジオ局またはTV局からの放送オーディオなどのオブジェクトのいくつかのインスタンスの間で、オブジェクトのすべてが正確に同じ長さであるのは稀であることが認められた。例えば、6分間のオブジェクトのケースでは、オブジェクトは、ときとして、先頭から終端まで連続して再生される可能性があり、ときとして、先頭および/または終端において短縮される可能性があり、ときとして、紹介のボイスオーバー、または前のオブジェクトまたは次のオブジェクトのフェードアウトまたはフェードインによって損なわれている可能性がある。
繰り返すし埋め込まれたオブジェクトの長さのこの不一致の可能性を考えると、各コピーが、コンパニオンコピー(companion copies)と分岐する時点を決定する必要がある。前述したとおり、一実施形態では、これは、オーディオストリームのケースでは、各コピーの選択されたバークバンドをすべてのコピーの選択されたバークバンドの中央値と比較することによって達せられる。時間的に逆方向に進んで、1つのコピーが、十分に長い間隔にわたって中央値から十分に分化する(diverge)場合、オブジェクトのそのインスタンスは、そこから始まったものと判断される。すると、そのインスタンスは、中央値の計算から除外され、その時点で、オブジェクトコピー内を時間的に逆方向に進みつづけることにより、分化する次のコピーの探索が実行される。このようにして、最終的に、2つのコピーだけが残っている時点に達する。同様に、時間的に順方向に進んで、2つのコピーが残っている時点に達するために、コピーのそれぞれが中央値から分化する時点を決定する。
オブジェクトのインスタンスの端点を決定する1つの単純なアプローチは、次に単に、インスタンスの中から、右端点および左端点が最大であるインスタンスを選択することである。これは、オブジェクトの代表的なコピーの役割を担うことができる。ただし、歌の2つの異なるインスタンスの前に出現する局のジングルをオブジェクトの一部として含めないように注意を払うことが必要である。明らかに、見つかったN個のコピーから代表的なコピーを抽出するのに、より洗練されたアルゴリズムを使用することができ、前述した方法は、単に例示し、説明することを目的としている。次に、識別された最良のインスタンスをすべての他のインスタンスの代表として使用することができる。
関連する実施形態では、ストリームの目標セグメントとストリームの別のセグメントの間で合致が見つかり、セグメント化が実行された後、ストリームの残りの部分内でオブジェクトの他のインスタンスの探索が続けられる。試験された実施形態では、ストリームの目標セグメントを、セグメント化済みのオブジェクトのすべてを含み、それ以外の箇所ではゼロであるセグメントで置き換えることが有利であると判明した。これにより、ストリームの残りの部分の内で合致を探している際、偽のピークの確率が低くなる。例えば、tにおけるセグメントとtにおけるセグメントが一致すると判定された場合、そのオブジェクトの端点の一方または他方が、tを中心とするセグメント、およびtを中心とするセグメントの外にある可能性があり、これらのセグメントが、そのオブジェクトの一部ではないデータを含む可能性がある。オブジェクト全体を含み、他には何も含まないセグメントに対して比較することが、後続の合致判定の信頼性を向上させる。
歌などのオーディオオブジェクト以外のメディアオブジェクトの比較および整列も、非常に似通った形で実行されることに留意されたい。具体的には、メディアストリームは、雑音が多過ぎない限り、直接に比較されるか、またはメディアストリームのより小さいサイズのバージョン、またはフィルタリング済みのバージョンが直接に比較される。次に、合致することが分かったメディアストリームのセグメントが、前述したとおり、端点識別の目的で整列させられる。
さらなる実施形態では、様々な計算効率の問題に対処する。詳細に説明すると、オーディオストリームのケースでは、セクション3.1.1、セクション3.1.2、およびセクション3.1.4で前述した技術はすべて、バークスペクトルなどのオーディオの周波数選択的な表現(frequency selective representation)を使用する。その表現を毎回、再計算することは可能であるが、セクション3.1.1で説明したとおり、ストリームが最初に処理される際に周波数表現を計算し、次に、選択されたバークバンドのコンパニオンストリームを後に使用するためにオブジェクトデータベースの中、またはそれ以外の場所に格納する方がより効率的である。バークバンドは、通常、元のオーディオレートよりはるかに低いレートでサンプリングされるため、以上により、通常、非常に少量のストレージで効率を大幅に向上させることになる。テレビ放送などのオーディオ/ビデオタイプのメディアストリームに埋め込まれたビデオタイプまたはイメージタイプのメディアオブジェクトのケースでも、同様の処理が行われる。
さらに、前述したとおり、一実施形態では、メディアストリーム内のメディアオブジェクト識別の速度が、メディアストリームの以前に識別済みの部分の探索を制限することによって劇的に向上する。例えば、tを中心とするストリームのセグメントが、探索のより早期の部分から、1つまたは複数のオブジェクトを含むと既に判定されている場合、そのセグメントは、後続の検査から除外することができる。例えば、探索が、平均の探索されるオブジェクトの長さの2倍の長さを有するセグメントにわたり、2つのオブジェクトが既にtにおけるセグメント内で探し出されている場合、明らかに、そこに別のオブジェクトも位置している可能性はまったく存在せず、そのセグメントは、探索から除外することができる。
別の実施形態では、メディアストリーム内のメディアオブジェクト識別の速度は、メディアストリームを探索することに先立って、以前に識別されたメディアオブジェクトのデータベースにまずクエリを行うことによって向上させられる。さらに、関連する実施形態では、メディアストリームは、メディアオブジェクトの1つまたは複数の繰り返しインスタンスを許すのに十分な期間に対応するセグメント単位で分析され、その後、データベースクエリが行われ、次に、必要な場合、メディアストリームの探索が行われる。これらの代替の実施形態のそれぞれの動作を、以下のセクションでより詳細に説明する。
さらに、関連する実施形態では、メディアストリームは、ストリーム内の少なくとも最も多く見られる繰り返し埋め込まれたオブジェクトの繰り返しを含むのに十分な大きさを有するストリームの部分をまず分析することにより、分析される。ストリームのこの第1の部分で繰り返し埋め込まれたオブジェクトのデータベースが保持される。次に、セグメントがデータベースの中のいずれかのオブジェクトに合致するか否かをまず判定した後、ストリームの残りの部分に照らして調べることにより、ストリームの残りの部分が分析される。
3.2 システム動作
前述したとおり、図2を参照してセクション2.0で説明し、セクション3.1で提供するより詳細な説明を考慮したプログラムモジュール群が、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するために使用される。そのプロセスを、オブジェクト抽出器の代替の実施形態を表す図3A、図3B、図3C、図4、および図5の流れ図に示している。図3A、図3B、図3C、図4、および図5に破線または点線で示すボックス、およびボックス間の相互接続は、オブジェクト抽出器のさらなる代替の実施形態を表し、それらの代替の実施形態のいずれか、またはすべてを、以下に説明するとおり、組合せで使用してもよいことに留意されたい。
3.2.1 基本的なシステム動作
次に図3Aないし図5を図2と併せて参照すると、一実施形態では、プロセスは、メディアストリーム210からメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として全体的に説明することができる。一般に、メディアストリームの第1の部分またはセグメントtが選択される。次に、このセグメントtが、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントtと順次に比較される。ストリームの終端に達した時点で、前のtの後に続くメディアストリームの新たなtセグメントが選択され、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントtと再び比較される。以上のステップは、ストリーム全体が分析されて、メディアストリームで繰り返し埋め込まれたメディアオブジェクトが探し出され、識別されるまで繰り返される。さらに、以下に説明するとおり、図3A、図3B、図3C、図4、および図5に関して、メディアストリーム内の繰り返し埋め込まれたオブジェクトの探索を実施し、加速させるためのいくつかの代替の実施形態が存在する。
詳細には、図3Aに示すとおり、オーディオ情報および/またはビデオ情報を含むメディアストリーム210内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、ストリーム内の位置tにあるメディアストリームのセグメントと、位置tにあるメディアストリームのセグメントが同一のオブジェクトを表しているか否かを判定すること(ステップ310)から始まる。前述したとおり、比較のために選択されるセグメントは、メディアストリームのいずれの終端から始めて選択することも、ランダムに選択することもできる。ただし、単にメディアストリームの先頭から始めて、時刻t=tにおける最初のセグメントを選択することが、比較のために時刻t=tから始まるメディアストリームのセグメントを後続で選択する場合に、効率的な選択であることが分かっている。
いずれにしても、この判定(ステップ310)は、位置tにおけるメディアストリームのセグメントと、位置tにおけるメディアストリームのセグメントを単に比較することによって行われる。2つのセグメント、tとtが、同一のメディアオブジェクトを表していると判定された(ステップ310)場合、それらのオブジェクトの端点が、前述したとおり、自動的に決定される(ステップ360)。端点が見つかると(ステップ360)、次に、時刻tの周囲に位置するメディアオブジェクト、および時刻tの周囲に位置する、合致するオブジェクトの端点が、オブジェクトデータベース230の中に格納されるか(ステップ370)、あるいはメディアオブジェクト自体、またはそれらのメディアオブジェクトに対するポインタが、オブジェクトデータベースの中に格納される。この場合も、前述したとおり、比較されるメディアストリームのセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きいように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体ではなく、メディアストリームの比較されるセグメントの諸部分だけが、実際に合致するものと予期されよう。
位置tおよびtにおけるメディアストリームの2つのセグメントが同一のメディアオブジェクトを表していないと判定され(ステップ310)、メディアストリームのさらなる未選択のセグメントが用意されている場合(ステップ320)、位置tj+1におけるメディアストリームの新たなセグメントまたは次のセグメント(ステップ330)が新たなtとして選択される。次に、メディアストリームのこの新たなtセグメントが、既存のセグメントtと比較されて、前述したとおり、2つのセグメントが同一のメディアオブジェクトを表しているか否かが判定される(ステップ310)。この場合も、セグメントが同一のメディアオブジェクトを表していると判定された(ステップ310)場合、前述したとおり、それらのオブジェクトの端点が自動的に決定され(ステップ360、その情報がオブジェクトデータベース230に格納される(ステップ370)。
逆に、位置tおよびtにおけるメディアストリームの2つのセグメントが同一のメディアオブジェクトを表しておらず、メディアストリームの未選択のセグメントがもはやまったく用意されていない(ステップ320)(メディアストリーム全体が、tによって表されるメディアストリームのセグメントとの比較のために既に選択済みであるため)と判定された310場合には、メディアストリームの終端にまだ達しておらず、さらなるセグメントtが用意されていれば340、位置ti+1におけるメディアストリームの新たなセグメントまたは次のセグメント350が、新たなtとして選択される。次に、メディアストリームのこの新たなtセグメントが、次のセグメントtと比較されて、前述したとおり、2つのセグメントが同一のメディアオブジェクトを表しているか否かが判定される(ステップ310)。例えば、最初の比較が時刻tにおけるセグメントtと時刻tにおけるセグメントtから始めて行われたものと想定すると、第2回の比較は、時刻tにおけるti+1を時刻tにおけるtj+1と比較することで始まり、メディアストリームの終端に達するまで以下同様に行われ、終端に達した時点で、時刻tにおける新たなtが選択される。この場合も、セグメントが同一のメディアオブジェクトを表していると判定された(ステップ310)場合、前述したとおり、それらのオブジェクトの端点が自動的に決定され(ステップ360)、その情報がオブジェクトデータベース(ステップ230)に格納される(ステップ370)。
やはり図3Aに示す関連する実施形態では、セグメントをストリーム内の他のオブジェクトと比較することに先立ち、すべてのセグメントがまず検査されて、セグメントが探索されるタイプのオブジェクトを含んでいる確率が算出される。その確率が所定の閾値より高いと考えられる場合、比較が進められる。しかし、その確率が閾値を下回っている場合、そのセグメントは、効率のために飛ばして進むことができる。
詳細には、この代替の実施形態では、新たなtが選択される(ステップ330)か、または新たなtが選択される(ステップ350)度ごとに毎回、次のステップは、特定のtが考え得るオブジェクトを表しているか否かを判定すること(ステップ335)、または特定のtが考え得るオブジェクトを表しているか否かを判定すること(ステップ355)である。前述したとおり、メディアストリームの特定のセグメントが考え得るオブジェクトを表しているか否かを判定するための手続きは、1組のオブジェクト依存のアルゴリズムを使用して、メディアストリーム内の考え得るオブジェクトを識別するためにメディアストリームの異なる態様を目標にすることを含む。特定のセグメントtが考え得るオブジェクトを表していると判定された(ステップ335)場合、または特定のセグメントtが考え得るオブジェクトを表していると判定された(ステップ355)場合、tとtの前述した比較(ステップ310)が前述したとおり行われる。しかし、特定のセグメントtが考え得るオブジェクトを表していないと判定された(ステップ335)場合、または特定のセグメントtが考え得るオブジェクトを表していないと判定された(ステップ355)場合、前述したとおり、新たなセグメントが選択される(ステップ320/330、または340/350)。この実施形態は、メディアストリームの現在のセグメント内にメディアオブジェクトが存在するかもしれない確率を算出することに関連する比較的高い計算費用のかかる比較を回避するという点で有利である。
どの実施形態においても、前述したステップは、メディアストリーム内の繰り返すメディアオブジェクトを識別する目的で、メディアストリームのすべてのセグメントが、メディアストリームのその他すべての後続セグメントと比較されるまで繰り返される。
図3Bは、関連する実施形態を示している。全体として、図3Bに示した実施形態は、繰り返し埋め込まれたオブジェクトの端点の決定が、メディアストリーム全体の各回のパスが完了するまで延期されるという点で、図3Aに示した実施形態とは異なっている。
具体的には、前述したとおり、プロセスは、ストリームの終端に達するまで、メディアストリーム210のセグメントtをメディアストリーム内の後続のセグメントtと順次に比較することによって機能する。この場合も、終端に達した時点で、前のtに続くメディアストリームの新たなtセグメントが選択され、ストリームの終端に達するまで、メディアストリーム内の後続のセグメントtと再び比較される。以上のステップは、ストリーム全体が分析されて、メディアストリームで繰り返すメディアオブジェクトが探し出され、識別されるまで繰り返される。
しかし、図3Aに関連して説明した実施形態では、tとtの比較310が合致を示すとすぐに、合致するオブジェクトの端点が決定され(ステップ360)、オブジェクトデータベース230の中に格納される(ステップ370)。これとは対照的に、図3Bで示される実施形態では、ゼロに初期設定されたオブジェクトカウンタ315が、tとtの比較(ステップ310)が合致を示すたびに毎回、増分される。その時点で、合致するオブジェクトの端点を決定する代わりに、次のtが比較のために選択され(ステップ320/330/335)、現在のtと再び比較される。以上が、ストリーム全体が分析されるまで、メディアストリーム内のすべてのtセグメントに関して繰り返され、ストリーム全体が分析された時点で、合致するオブジェクトのカウントがゼロより大きい場合(ステップ325)、現在のセグメントtに合致するオブジェクトを表しているすべてのセグメントtについて端点が決定される(ステップ360)。次に、オブジェクト端点、またはオブジェクト自体が、前述したとおり、オブジェクトデータベース230の中に格納される(ステップ370)。
その時点で、前述したとおり、後続のtセグメントに対する新たな回の比較310のため、次のセグメントtが選択される(ステップ340/350/355)。次に、メディアストリーム内の繰り返すメディアオブジェクトを識別する目的で、メディアストリームのすべてのセグメントが、メディアストリームのその他すべての後続セグメントと比較されるまで、前述したステップが繰り返される。
しかし、本セクションで説明した実施形態は、メディアストリーム内の繰り返し埋め込まれたオブジェクトを識別するのに役立つが、多数回の不必要な比較が、依然として行われる。例えば、所与のオブジェクトがメディアストリーム内で既に識別済みである場合、そのオブジェクトがメディアストリーム内で繰り返される可能性が高い。したがって、代替の実施形態では、セグメントtとtを比較する(ステップ310)前に、現在のセグメントtをデータベースの中のオブジェクトのそれぞれとまず比較することを使用して、特定のメディアストリームを完全に分析するのに必要とされる比較的計算費用のかかる比較の一部を減らす、またはなくす。したがって、以下のセクションで説明するとおり、メディアストリーム210の各セグメントtが選択されるたびに、データベース230が、最初の比較のために使用される。
3.2.2 初期データベース比較を伴うシステム動作
図3Cで示す別の関連する実施形態では、以前に識別済みのメディアオブジェクトのデータベース230にまずクエリを行うことにより、メディアストリーム210内のセグメント間の比較(ステップ310)の回数が減らされる。詳細には、図3Cで示す実施形態は、メディアストリーム210の各セグメントtが、選択された後、オブジェクトデータベース230とまず比較されて(ステップ305)、現在のセグメントがデータベースの中のオブジェクトに合致するか否かが判定されるという点で、図3Aで示した実施形態とは異なる。現在のセグメントとデータベース230の中のオブジェクトとの間で合致が明らかになった場合(ステップ305)、現在のセグメントtによって表されるオブジェクトの端点が決定される(ステップ360)。次に、前述したとおり、オブジェクト端点、またはオブジェクト自体が、オブジェクトデータベース230の中に格納される(ステップ370)。したがって、合致するオブジェクトを探し出すようにオブジェクトデータベース230に単にクエリを行うことにより、メディアストリームの徹底的な探索なしに、現在のセグメントtが識別される。
次に、一実施形態では、オブジェクトデータベース230の中で合致が識別されなかった場合(ステップ305)、現在のセグメントtを後続のセグメントtと比較(ステップ310)するためのプロセス(ステップ320/330/335)が、前述したとおり、ストリームの終端に達するまで行われ、終端に達した時点で、新たなセグメントtが選択されて(ステップ340/350/355)、プロセスが再び開始される。逆に、現在のセグメントtに関してオブジェクトデータベース230の中で合致が識別される場合(ステップ305)、前述したとおり、端点が決定され(ステップ360)、格納され(ステップ370)、続いて、新たなtの選択が行われて(ステップ340/350/355)、プロセスが再び開始される。次に、上記のステップが、メディアストリーム210内のすべてのセグメントtが分析されて、セグメントが繰り返し埋め込まれたオブジェクトを表すか否かが判定されるまで繰り返される。
さらなる関連する実施形態では、初期データベースクエリ(ステップ305)は、データベースが、少なくとも部分的に識別済みのオブジェクトで埋まる時点まで遅延される。例えば、特定のメディアストリームが、長い期間にわたって記録された、またはそれ以外の形でキャプチャされた場合、図3Aまたは図3Bに関連して前述したとおり、メディアストリームの一部分の初期分析が実行され、続いて、初期データベースクエリが関与する前述の実施形態が行われる。この実施形態は、メディアストリーム内でオブジェクトが頻繁に繰り返し埋め込まれる環境においてうまく機能する。というのは、データベースを最初に埋めることが、繰り返し埋め込まれたオブジェクトを識別するための比較的良好なデータ集合を提供する役割をするからである。また、データベース230が埋まるにつれ、メディアストリームに埋め込まれた、繰り返し埋め込まれたオブジェクトを、メディアストリーム内の合致の徹底的な探索ではなく、データベースクエリだけで識別することができる可能性もより高くなることにも留意されたい。
さらに別の関連する実施形態では、既知のオブジェクトがあらかじめ入力されているデータベース230を使用して、メディアストリーム内の繰り返し埋め込まれたオブジェクトが識別される。このデータベース230は、前述した実施形態のいずれかを使用して準備することも、他の従来のソースからインポートされること、または他の従来のソースによって提供されることも可能である。
しかし、本セクションで説明する実施形態により、特定のメディアストリームを完全に分析するために実行される比較の回数が減ることが示されたが、多数回の不必要な比較が、依然として行われる。例えば、時刻tまたはtにおけるメディアストリームの所与のセグメントが、特定のメディアオブジェクトに属することが既に明らかにされている場合、既に識別済みのセグメントをその他のセグメントと再比較することは、まったく実際の役に立たない。したがって、以下のセクションで説明するとおり、メディアストリームのいずれの部分に関連する情報が既に識別済みであるかを使用して、合致するセクションの探索をまだ識別されていないメディアストリームのセクションに制限することにより、探索時間が急速に縮められる。
3.2.3 漸進ストリーム探索制限を伴うシステム動作
次に、図2と併せて図4を参照すると、一実施形態では、プロセスは、一般に、メディアストリームの以前に識別済みの部分にフラグを付けて、それらの部分が何回も繰り返し探索されないようにしながら、メディアストリームからメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として全体的に説明することができる。
詳細には、図4に示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、オーディオ情報および/またはビデオ情報を含むメディアストリーム210の第1のウィンドウまたは第1のセグメントを選択すること400で始まる。次に、一実施形態では、メディアストリームが探索されて410、選択されたセグメントまたはウィンドウ400の一部分に合致する部分を有するメディアストリームのすべてのウィンドウまたはセグメントが識別される。関連する実施形態では、以下にさらに詳細に説明するとおり、メディアストリームは、合致するセグメントを求めてメディアストリーム全体を探索する410のではなく、メディアオブジェクトの1つまたは複数の繰り返しインスタンスを許すのに十分なだけの期間にわたるセグメント単位で分析されることに留意されたい。例えば、メディアストリームが、1週間にわたって記録された場合、メディアストリームの最初の探索の期間は、1日とすることが可能である。この場合も、この実施形態におけるメディアストリームが探索される期間は、単に、メディアオブジェクトの1つまたは複数の繰り返されるインスタンスを許すのに十分な期間である。
いずれにしても、メディアストリームのすべて、または一部が探索されて(ステップ410)、選択されたウィンドウまたはセグメント400の一部分に合致するメディアストリームのすべての部分が識別されると(ステップ420)、合致する部分が整列させられ(ステップ430)、その整列が、前述したとおり、オブジェクト端点を決定する(ステップ440)ために使用される。端点が決定されると(ステップ440)、合致するメディアオブジェクトの端点がオブジェクトデータベース230の中に格納されるか、あるいはメディアオブジェクト自体、またはそれらのメディアオブジェクトに対するポインタが、オブジェクトデータベースの中に格納される。
さらに、一実施形態では、既に識別済みであるメディアストリームの部分にフラグが付けられて、再び探索されることが禁止される(ステップ460)。この特定の実施形態は、繰り返しオブジェクトが識別されるにつれ、メディアストリームの選択可能な探索領域を迅速に短縮するのに役立つ。この場合も、前述したとおり、比較されるべきメディアストリームのセグメントのサイズは、メディアストリーム内の予期されるメディアオブジェクトより大きくなるように選択されることに留意されたい。したがって、メディアオブジェクトが、メディアストリーム内で一貫して同一の順序で再生されるのでない限り、セグメント全体ではなく、メディアストリームの比較されるセグメントの諸部分だけが、実際に合致するものと予期されよう。
したがって、一実施形態では、メディアストリームの各セグメントの実際に識別された部分だけにフラグが付けられる(ステップ460)。しかし、メディアオブジェクトが頻繁に繰り返されることが分かっているメディアストリームでは、単に、セグメント全体がさらに探索されないように制限することが、依然、メディアストリーム内の繰り返し埋め込まれたオブジェクトの大多数の識別を許すことが確認されている。特定のセグメントの極わずかな部分だけが未識別のままである別の関連する実施形態では、それらの極わずかな部分は、単に無視される。さらに別の関連する実施形態では、さらに探索されないようにセグメントの諸部分を制限した(ステップ460)後に残された部分的セグメントは、新たに選択されたセグメント400との比較の目的で、先行するセグメント、または後続のセグメントと単に結合される。以上の実施形態の各々が、メディアストリーム内の合致の探索をより効率的にすることにより、全体的なシステムパフォーマンスを向上させる。
オブジェクト端点が決定されると(ステップ440)、合致がまったく識別されていない場合(ステップ420)、またはメディアストリームの諸部分に、それらの部分のさらなる探索を防止するフラグが付けられた(ステップ460)後、メディアストリームの現在、選択されているセグメント400が、メディアストリームの終端を表しているか否かを調べる検査が行われる(ステップ450)。メディアストリームの現在、選択されているセグメント400が、メディアストリームの終端を表している場合(ステップ450)、プロセスは完了し、探索が開始される。しかし、メディアストリームの終端に達していない場合(ステップ450)、メディアストリームの次のセグメントが選択され、合致するセグメントを探し出すようにメディアストリームの中を探索すること(ステップ410)により、メディアストリームの残りの部分と比較される。次に、前述した、合致を識別するためのステップ420、合致するセグメントを整列させるためのステップ430、端点を決定するためのステップ440、および端点情報またはオブジェクト情報をオブジェクトデータベース230の中に格納するためのステップが、前述したとおり、メディアストリームの終端に達するまで繰り返される。
以前に選択されたセグメントは、現在、選択されているセグメントと既に比較済みであるため、メディアストリーム内を逆方向に探索する必要はまったくないことに留意されたい。さらに、メディアストリームの特定のセグメントまたは部分に、識別済みのフラグが付けられている実施形態(ステップ460)では、それらのセグメントは、探索において飛ばされる(ステップ410)。前述したとおり、ストリーム内でさらなるメディアオブジェクトが識別されるにつれ、メディアストリームの識別済みの部分を飛ばして進むことは、選択可能な探索空間を急速に短縮するのに役立ち、セクション3.2.1で説明する基本的な総当たり(brute force)アプローチと比べて、システム効率を劇的に向上させる。
別の実施形態では、メディアストリーム内の繰り返し埋め込まれたオブジェクトを識別する速度および効率は、オブジェクトデータベース230をまず探索して470合致するオブジェクトを識別することにより、さらに向上させられる。詳細には、その実施形態では、メディアストリームのセグメントが選択されると400、メディアオブジェクトがメディアストリーム内で繰り返されることが見られると、そのオブジェクトは、そのメディアストリーム内で再び繰り返される可能性がより高いという理論に基づき、そのセグメントがまず、以前に識別済みのセグメントと比較される。オブジェクトデータベース230の中で合致が認識される場合(ステップ480)、前述した、合致するセグメントを整列させるステップ430、端点を決定するためのステップ440、および端点情報またはオブジェクト情報をオブジェクトデータベース230の中に格納するためのステップが、前述したとおり、メディアストリームの終端に達するまで繰り返される。
前述のような探索の実施形態(例えば、ステップ410、470、および460)の各々は、合致するセグメントを求めてメディアストリーム全体を探索する410のではなく、メディアオブジェクトの1つまたは複数の繰り返されるインスタンスを許すのに十分な期間にわたるセグメント単位でメディアストリームが分析される実施形態と組み合わせた場合、さらに改良される。例えば、メディアストリームが1週間にわたって記録された場合、メディアストリームの最初の探索の期間は、1日とすることが可能である。このため、その実施形態では、メディアストリームは、第1の期間、すなわち1週間の長さのメディア記録からの第1日にわたって先ず探索され(ステップ410)、合致するメディアオブジェクトの端点、またはオブジェクト自体が、前述したとおり、オブジェクトデータベース230の中に格納される。メディアストリームの残りの部分、またはメディアストリームの後続の区間(すなわち、メディアストリームの1週間の長さの記録の第2日または後続の日)の後続の探索は、前述したとおり、合致を調べるようにオブジェクトデータベース(470および230)についてまず行われる。
3.2.4 予想されるオブジェクトの初期検出を伴うシステム動作
次に、図2と併せて図5を参照すると、一実施形態では、プロセスは、全体的に、メディアストリーム内の予想されるオブジェクト、または考え得るオブジェクトをまず識別することにより、メディアストリームからメディアオブジェクトを探し出し、識別し、セグメント化するオブジェクト抽出器として説明することができる。詳細には、図5で示すとおり、メディアストリーム内の繰り返し埋め込まれたオブジェクトを自動的に識別し、セグメント化するためのシステムおよび方法が、オーディオ情報および/またはビデオ情報を含むメディアストリーム210をキャプチャすること500から始まる。メディアストリーム210は、例えば、ラジオまたはテレビ/ビデオの放送メディアストリームをキャプチャするためにコンピュータに接続されたオーディオキャプチャ装置またはビデオキャプチャ装置など、いくつかの従来の技術のいずれかを使用してキャプチャされる。そのようなメディアキャプチャ技術は、当業者には周知であり、本明細書では説明することはしない。メディアストリーム210は、キャプチャされると、コンピュータファイルまたはデータベースの中に格納される。一実施形態では、メディアストリーム210は、オーディオメディアおよび/またはビデオメディアを圧縮するための従来の技術を使用して圧縮される。
次に、メディアストリームに埋め込まれたと考えられるメディアオブジェクト、または予想されるメディアオブジェクトを識別しようとして、メディアストリーム210が検査される。メディアストリーム210のこの検査は、メディアストリームの一部分を表すウィンドウを検査することによって達せられる(ステップ505)。前述したとおり、考え得るオブジェクトを検出するためのメディアストリーム210の検査は、検査されているメディアコンテンツのタイプに合わされた1つまたは複数の検出アルゴリズムを使用する。一般に、詳細に前述したとおり、それらの検出アルゴリズムは、分析されているメディアストリームの部分を特徴付けるためのパラメータ情報を計算する。代替の実施形態では、メディアストリームは、キャプチャされ500、格納される210につれて、リアルタイムで検査される505。
分析されているメディアストリーム210の現在のウィンドウ内または現在の部分内で考え得るオブジェクトが識別されなかい場合、ウィンドウを増やして515、考え得るオブジェクトを識別しようとしてメディアストリームの次のセクションが検査される。考え得るオブジェクト、または予想されるオブジェクトが識別される510場合、メディアストリーム210内のその考え得るオブジェクトの場所または位置が、オブジェクトデータベース230の中に格納される525。加えて、その考え得るオブジェクトを特徴付けるためのパラメータ情報も、オブジェクトデータベース230の中に格納される525。前述したとおり、このオブジェクトデータベース230は、最初は空であり、オブジェクトデータベースの中の最初のエントリは、メディアストリーム210内で検出された最初の考え得るオブジェクトに対応することに留意されたい。またはこれに替えて、オブジェクトデータベース230には、以前にキャプチャ済みのメディアストリームの分析または探索の結果が、あらかじめ入力される。ウィンドウ515の増分、ウィンドウの検査505は、メディアストリームの終端に達する520まで続けられる。
メディアストリーム210内の考え得るオブジェクトの検出に続き、オブジェクトデータベース230が探索されて530、考え得るオブジェクトに関する潜在的な合致、すなわち、繰り返しインスタンスが識別される。一般に、このデータベースクエリは、考え得るオブジェクトを特徴付けるためのパラメータ情報を使用して行われる。潜在的な合致を識別するために、厳密な合致は要求されないか、または見込まれてもいないことに留意されたい。実際、潜在的な合致のこの初期探索を実行するために類似度閾値が使用される。この類似度閾値、または「検出閾値」は、考え得るオブジェクトを特徴付けるためのパラメータ情報の1つまたは複数の特徴と潜在的な合致との間の任意の所望されるパーセンテージ合致に設定することができる。
潜在的な合致がまったく識別されない場合(ステップ535)、考え得るオブジェクトには、オブジェクトデータベース230の中で新たなオブジェクト540としてフラグが付けられる。またはこれに替えて、別の実施形態では、潜在的な合致がまったく識別されない、またはあまりにも識別される潜在的な合致が少ない場合(ステップ535)、データベース探索(ステップ530)によって識別される潜在的な合致の数を増やすために、検出閾値が下げられる(ステップ545)。逆に、さらに別の実施形態では、あまりにも多くの潜在的な合致が識別される場合(ステップ535)、検出閾値を高くして、実行される比較の回数を制限するようにする。
1つまたは複数の潜在的な合致が識別されると(ステップ535)、考え得るオブジェクト、潜在的な合致するオブジェクトの1つまたは複数の間の詳細な比較(ステップ550)が実行される。この詳細な比較には、考え得るオブジェクトを表すメディアストリーム210の部分と潜在的な合致の直接比較、または考え得るオブジェクトを表すメディアストリームの部分のより小さいサイズのバージョンと潜在的な合致の比較が含まれる。この比較は、格納済みのメディアストリームを利用するが、比較は、以前に探し出され、格納されたメディアオブジェクト270を使用して行うこともできることに留意されたい。
詳細な比較(ステップ550)によってもがオブジェクト合致を探し出すことに失敗した場合(ステップ555)、考え得るオブジェクトには、オブジェクトデータベース230の中で新たなオブジェクト540としてフラグが付けられる。またはこれに替えて、別の実施形態では、オブジェクト合致がまったく識別されない場合(ステップ555)、検出閾値が下げられ(ステップ545)、追加の潜在的な合致を識別するように新たなデータベース探索が実行される(ステップ530)。この場合も、あらゆる潜在的な合致が、考え得るオブジェクトと比較されて(ステップ550)、考え得るオブジェクトがオブジェクトデータベース230の中に既にあるいずれかのオブジェクトに合致するか否かが判定される。
詳細な比較により、潜在的なオブジェクトの合致または繰り返しインスタンスが識別されると、考え得るオブジェクトには、オブジェクトデータベース230の中で繰り返し埋め込まれたオブジェクトとしてフラグが付けられる。次に、それぞれの繰り返し埋め込まれたオブジェクトが、そのオブジェクトのそれぞれの以前に識別済みの繰り返しインスタンスと整列させられる(ステップ560)。詳細に前述したとおり、次に、各オブジェクトがほぼ等しいさらなる範囲を識別するように、繰り返し埋め込まれたオブジェクトインスタンスのそれぞれの間で逆方向、および順方向に探索することにより、オブジェクト端点が決定される(ステップ565)。このようにして各オブジェクトの範囲を識別することは、オブジェクト端点を識別するのに役立つ。次に、そのメディアオブジェクト端点情報が、オブジェクトデータベース230の中に格納される。
最後に、さらに別の実施形態では、オブジェクト端点が識別されると(ステップ565)、端点情報を使用して、それらの端点に対応するメディアストリームのセクションが、個々のメディアオブジェクト270の別個のファイルまたはデータベースにコピーされるか、または保存される(ステップ570)。
前述したとおり、メディアストリーム全体が検査される(ステップ520)まで、またはユーザが検査を終了させるまで、検査されるメディアストリーム210の部分が常に増やされながら、前述したプロセスが繰り返される。
4.0 追加の実施形態
前述したとおり、メディアストリーム内のメディアオブジェクトをセグメント化する目的、および識別する目的でキャプチャされるメディアストリームは、例えば、ラジオ、テレビ、インターネット、またはその他のネットワークを介するオーディオ放送、ビデオ放送、またはオーディオ/ビデオ放送など、任意の従来の放送ソースからのものであると考えられる。テレビタイプの放送で通常、そうであるように、合成のオーディオ/ビデオ放送に関して、合成のオーディオ/ビデオ放送のオーディオ部分は、ビデオ部分と同期されることに留意されたい。つまり、周知のとおり、オーディオ/ビデオ放送のオーディオ部分は、放送のビデオ部分と一致する。したがって、合成のオーディオ/ビデオストリーム内の繰り返し埋め込まれたオーディオオブジェクトを識別することは、そのオーディオ/ビデオストリーム内の繰り返し埋め込まれたビデオオブジェクトを識別する便利で計算費用の安いやり方である。
詳細には、一実施形態では、オーディオストリーム内の繰り返し埋め込まれたオーディオオブジェクトをまず識別し、それらのオーディオオブジェクトが開始する時点tと終了する時点t(すなわち、オーディオオブジェクトの端点)を識別し、次に、それらの時点でオーディオ/ビデオストリームをセグメント化することにより、合成のオーディオ/ビデオストリームからオーディオオブジェクトとともに、ビデオオブジェクトも識別され、セグメント化される。
例えば、通常のコマーシャルまたは広告は、多くの場合、任意の所与のテレビ局で任意の所与の曜日に頻繁に繰り返すように思われる。そのテレビ局のオーディオ/ビデオストリームを記録し、次に、テレビ放送のオーディオ部分を処理することは、それらの繰り返される広告のオーディオ部分を識別するのに役立つ。さらに、オーディオは、そのストリームのビデオ部分と同期されているため、テレビ放送内の繰り返す広告の位置を前述したやり方で容易に決定することができる。位置が識別されると、そのような広告には、所望される任意の特殊な処理のためにフラグを付けることができる。
本発明の以上の説明は、例示および説明の目的で提示してきた。以上の説明は、すべてを網羅すること、または本発明を開示した形態そのものに限定することは意図していない。以上の教示に鑑みて、多数の変更形態および変形形態が可能である。さらに、前述した代替の実施形態のいずれか、またはすべてを所望される任意の組合せで使用して、本明細書で説明したオブジェクト抽出器のさらなる組み合わせの実施形態を形成してもよいことに留意されたい。本発明の範囲は、以上の詳細な説明によってではなく、特許請求の範囲によって限定されるものとする。
メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するための例示的なシステムを構成する汎用コンピューティング装置を示す全体的なシステム図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化するための例示的なプログラムモジュール群を示す例示的なアーキテクチャ図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する例示的なシステム流れ図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する図3Aの例示的なシステム流れ図の代替の実施形態を示す図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する図3Aの例示的なシステム流れ図の代替の実施形態を示す図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する代替の例示的なシステム流れ図である。 メディアストリーム内の繰り返すメディアオブジェクトを自動的に識別し、セグメント化することに関する代替の例示的なシステム流れ図である。

Claims (25)

  1. プログラムされたコンピュータによってメディアストリーム内のメディアオブジェクトを探し出し、各メディアオブジェクトの時間的端点を決定する方法であって、
    メディアストリームの少なくとも1つのセグメントに関する特性情報を計算するステップと、
    前記特性情報を分析して、前記メディアストリームのいずれかのセグメント内にメディアオブジェクトが存在する可能性があるか否かを判定するステップと、
    前記特性情報の前記分析により、メディアオブジェクトの少なくとも一部が前記メディアストリームのいずれかのセグメント内に存在する可能性があることが示されると、前記メディアストリームの該セグメントの前記位置および前記特性情報をオブジェクトデータベースに格納するステップと、
    前記オブジェクトデータベースにクエリを行って、前記メディアストリームの合致する可能性があるセクションを探し出すステップと、
    前記メディアストリームの合致する可能性があるセグメントを比較して、前記メディアストリーム内の繰り返されるセグメントを識別するステップと、
    前記メディアストリームのそれぞれの繰り返されるセグメントを中心とする前記メディアストリームの諸部分を自動的に整列させ、比較して、前記メディアストリーム内の各メディアオブジェクトの時間的端点を決定するステップと
    含むことを特徴とする方法
  2. 前記メディアストリームの諸部分を自動的に整列させ、比較するステップは、前記諸部分を整列させ、前記整列された諸部分の各々の中を逆方向、および順方向に辿って、各整列された部分が依然として他の整列された諸部分にほぼ等しい開始点および終了点を決定することを特徴とする請求項1に記載の方法
  3. 前記開始点および前記終了点は、各メディアオブジェクトの前記時間的端点を表すことを特徴とする請求項1に記載の方法
  4. 前記メディアストリームは、オーディオメディアストリームであることを特徴とする請求項1に記載の方法
  5. 前記メディアストリームは、ビデオメディアストリームであることを特徴とする請求項1に記載の方法
  6. 前記メディアストリームは、合成のオーディオ−ビデオメディアストリームであることを特徴とする請求項1に記載の方法
  7. 前記メディアオブジェクトは、歌、音楽、広告、ビデオクリップ、局名アナウンス、発話、イメージ、およびイメージシーケンスのいずれかであることを特徴とする請求項1に記載の方法
  8. 前記メディアストリームは、前記メディアストリームの少なくとも1つのセグメントに関する特性情報を計算することに先立って、放送メディアストリームからキャプチャされ、コンピュータ読取り可能な媒体に格納されることを特徴とする請求項1に記載の方法
  9. 前記特性情報を分析して、前記メディアストリームのいずれかのセグメント内にメディアオブジェクトが存在する可能性があるか否かを判定するステップは、前記特性情報を、前記ストリーム内で探索されているメディアオブジェクトの少なくとも1つのタイプに対応する特性の所定の集合と比較するステップであって、前記比較により、前記特性情報が特性の前記所定の集合に少なくとも部分的に合致することが示されると、メディアオブジェクトは、存在する可能性があると判定するステップを含むことを特徴とする請求項1に記載の方法
  10. 前記オブジェクトデータベースにクエリを行って、前記メディアストリームの合致する可能性があるセクションを探し出すステップは、各々の考え得るオブジェクトに関する前記特性情報を前記オブジェクトデータベース中の以前のエントリと比較して、類似の考え得るオブジェクトを探し出すステップを含むことを特徴とする請求項1に記載の方法
  11. 前記メディアストリームの合致する可能性があるセグメントを比較して、前記メディアストリーム内の繰り返されるセグメントを識別するステップは、各々の合致する可能性があるセグメントの位置を中心とする前記メディアストリームの一部分と各々の可能なメディアオブジェクトの位置を中心とする前記メディアストリームの一部分とを比較するステップであって、合致する可能性があるセグメントが、所定の閾値レベル内で前記セグメントが類似している前記メディアストリーム内の繰り返されるセグメントを表していると判定するステップを含むことを特徴とする請求項1に記載の方法
  12. メディアストリーム内の繰り返し埋め込まれたメディアオブジェクトの範囲を決定するための方法であって、コンピュータを用いて実行させる、
    比較のためにメディアストリームのセグメントを選択するステップと、
    前記選択されたセグメントを前記メディアストリームと比較して、前記メディアストリームの前記選択されたセグメントの少なくとも1つの部分に合致する少なくとも1つの部分を有する前記メディアストリーム内のセグメントを識別するステップと、
    前記選択されたセグメントと前記合致するセグメントとを整列させるステップと
    前記選択されたセグメントおよび前記合致するセグメントによって表されるメディアオブジェクトの範囲を、前記選択されたセグメントと前記合致するセグメントとの前記整列を使用して、前記整列されたセグメントがもはやほぼ等しくない位置における前記メディアオブジェクトの端点を識別することによって決定するステップと
    を備えたことを特徴とする方法。
  13. 各メディアオブジェクトに関する端点情報をオブジェクトデータベース中に格納するステップをさらに備えたことを特徴とする請求項12に記載の方法。
  14. 前記端点情報を使用して、前記メディアストリームから繰り返されるメディアオブジェクトの各々を抽出するステップをさらに備えたことを特徴とする請求項12に記載の方法。
  15. 各々の抽出された繰り返すメディアオブジェクトをコンピュータ読取り可能な媒体上に格納するステップをさらに備えたことを特徴とする請求項14に記載の方法。
  16. 前記整列されたセグメントがもはやほぼ等しくない位置における前記メディアオブジェクトの端点を識別するステップは、前記選択されたセグメントおよび前記合致するセグメントの各々に対応する前記メディアストリーム内の位置の周囲で前記メディアストリーム内を逆方向、および順方向に辿って、各々の整列されたセグメントが分岐しはじめる前記メディアストリーム内の位置を決定するステップを含むことを特徴とする請求項12に記載の方法。
  17. 比較のために前記メディアストリームのセグメントを選択するステップは、前記メディアストリームの終端に達するまで、比較のために前記メディアストリームの順次のセグメントを選択するステップを含むことを特徴とする請求項12に記載の方法。
  18. 前記メディアストリーム内のメディアオブジェクトの前記範囲を使用して、前記ストリームに以前に配置された前記メディアオブジェクトを繰り返し探索することを防止されることを特徴とする請求項17に記載の方法。
  19. 前記選択されたセグメントを前記メディアストリームと比較することに先立ち、前記メディアストリーム内で識別される以前に識別済みの繰り返し埋め込まれたオブジェクトのデータベースを探索して、比較のために選択されたメディアストリームの前記セグメントに対する合致が識別され、および前記データベースの探索において合致するメディアオブジェクトが識別される場合、前記メディアストリームは、前記メディアストリームの前記選択されたセグメントの少なくとも1つの部分に合致する少なくとも1つの部分を有する前記メディアストリーム内のセグメントを識別するために探索されないことを特徴とする請求項12に記載の方法。
  20. 前記メディアストリームは、オーディオメディアストリームであることを特徴とする請求項12に記載の方法。
  21. 前記メディアストリームは、ビデオメディアストリームであることを特徴とする請求項12に記載の方法。
  22. 前記メディアストリームは、合成のオーディオ/ビデオメディアストリームであることを特徴とする請求項12に記載の方法。
  23. 前記メディアオブジェクトは、歌、音楽、広告、ビデオクリップ、局名アナウンス、発話、イメージ、およびイメージシーケンスのいずれかであることを特徴とする請求項12に記載の方法。
  24. 放送メディアストリームを受信し、格納することによって前記メディアストリームをキャプチャするステップをさらに備えたことを特徴とする請求項12に記載の方法。
  25. 各メディアオブジェクトの少なくとも1つの代表的なコピーをコンピュータ読取り可能な媒体上に格納するステップをさらに備えたことを特徴とする請求項12に記載の方法。
JP2004518194A 2002-07-01 2003-06-30 ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法 Expired - Fee Related JP4418748B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/187,774 US7461392B2 (en) 2002-07-01 2002-07-01 System and method for identifying and segmenting repeating media objects embedded in a stream
PCT/US2003/020772 WO2004004345A1 (en) 2002-07-01 2003-06-30 A system and method for identifying and segmenting repeating media objects embedded in a stream

Publications (2)

Publication Number Publication Date
JP2006515721A JP2006515721A (ja) 2006-06-01
JP4418748B2 true JP4418748B2 (ja) 2010-02-24

Family

ID=29780073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004518194A Expired - Fee Related JP4418748B2 (ja) 2002-07-01 2003-06-30 ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法

Country Status (7)

Country Link
US (3) US7461392B2 (ja)
JP (1) JP4418748B2 (ja)
KR (2) KR100988996B1 (ja)
CN (1) CN100531362C (ja)
AU (1) AU2003280514A1 (ja)
TW (2) TWI329455B (ja)
WO (1) WO2004004345A1 (ja)

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060280437A1 (en) * 1999-01-27 2006-12-14 Gotuit Media Corp Methods and apparatus for vending and delivering the content of disk recordings
ATE556404T1 (de) * 2002-10-24 2012-05-15 Nat Inst Of Advanced Ind Scien Wiedergabeverfahren für musikalische kompositionen und einrichtung und verfahren zum erkennen eines repräsentativen motivteils in musikkompositionsdaten
US7809154B2 (en) 2003-03-07 2010-10-05 Technology, Patents & Licensing, Inc. Video entity recognition in compressed digital video streams
US20050177847A1 (en) * 2003-03-07 2005-08-11 Richard Konig Determining channel associated with video stream
US20050149968A1 (en) * 2003-03-07 2005-07-07 Richard Konig Ending advertisement insertion
US7738704B2 (en) * 2003-03-07 2010-06-15 Technology, Patents And Licensing, Inc. Detecting known video entities utilizing fingerprints
US7694318B2 (en) * 2003-03-07 2010-04-06 Technology, Patents & Licensing, Inc. Video detection and insertion
US7761795B2 (en) * 2003-05-22 2010-07-20 Davis Robert L Interactive promotional content management system and article of manufacture thereof
CN1820511A (zh) 2003-07-11 2006-08-16 皇家飞利浦电子股份有限公司 用于生成并探测多媒体信号中起到触发标记作用的指纹的方法和设备
EP1652385B1 (en) * 2003-07-25 2007-09-12 Koninklijke Philips Electronics N.V. Method and device for generating and detecting fingerprints for synchronizing audio and video
CA2539442C (en) * 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
US20050267750A1 (en) * 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
US20150051967A1 (en) 2004-05-27 2015-02-19 Anonymous Media Research, Llc Media usage monitoring and measurment system and method
CA2574998C (en) * 2004-07-23 2011-03-15 Nielsen Media Research, Inc. Methods and apparatus for monitoring the insertion of local media content into a program stream
US7335610B2 (en) * 2004-07-23 2008-02-26 Macronix International Co., Ltd. Ultraviolet blocking layer
US7826708B2 (en) * 2004-11-02 2010-11-02 Microsoft Corporation System and method for automatically customizing a buffered media stream
US8107010B2 (en) 2005-01-05 2012-01-31 Rovi Solutions Corporation Windows management in a television environment
US9082456B2 (en) * 2005-01-31 2015-07-14 The Invention Science Fund I Llc Shared image device designation
US8090579B2 (en) 2005-02-08 2012-01-03 Landmark Digital Services Automatic identification of repeated material in audio signals
US20060195860A1 (en) * 2005-02-25 2006-08-31 Eldering Charles A Acting on known video entities detected utilizing fingerprinting
US20060195859A1 (en) * 2005-02-25 2006-08-31 Richard Konig Detecting known video entities taking into account regions of disinterest
US20070008326A1 (en) * 2005-06-02 2007-01-11 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Dual mode image capture technique
US20070222865A1 (en) * 2006-03-15 2007-09-27 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Enhanced video/still image correlation
US9967424B2 (en) * 2005-06-02 2018-05-08 Invention Science Fund I, Llc Data storage usage protocol
US9621749B2 (en) * 2005-06-02 2017-04-11 Invention Science Fund I, Llc Capturing selected image objects
US20070098348A1 (en) * 2005-10-31 2007-05-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Degradation/preservation management of captured data
US10003762B2 (en) 2005-04-26 2018-06-19 Invention Science Fund I, Llc Shared image devices
US9191611B2 (en) * 2005-06-02 2015-11-17 Invention Science Fund I, Llc Conditional alteration of a saved image
US9167195B2 (en) * 2005-10-31 2015-10-20 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US8964054B2 (en) 2006-08-18 2015-02-24 The Invention Science Fund I, Llc Capturing selected image objects
US9942511B2 (en) 2005-10-31 2018-04-10 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US9451200B2 (en) * 2005-06-02 2016-09-20 Invention Science Fund I, Llc Storage access technique for captured data
US20070139529A1 (en) * 2005-06-02 2007-06-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Dual mode image capture technique
US9076208B2 (en) * 2006-02-28 2015-07-07 The Invention Science Fund I, Llc Imagery processing
US20070109411A1 (en) * 2005-06-02 2007-05-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Composite image selectivity
US7690011B2 (en) 2005-05-02 2010-03-30 Technology, Patents & Licensing, Inc. Video stream modification to defeat detection
US20060288036A1 (en) * 2005-06-17 2006-12-21 Microsoft Corporation Device specific content indexing for optimized device operation
US20070120980A1 (en) 2005-10-31 2007-05-31 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Preservation/degradation of video/audio aspects of a data stream
US8763022B2 (en) 2005-12-12 2014-06-24 Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
US9015740B2 (en) 2005-12-12 2015-04-21 The Nielsen Company (Us), Llc Systems and methods to wirelessly meter audio/visual devices
KR100774194B1 (ko) * 2006-02-24 2007-11-08 엘지전자 주식회사 방송 재생 장치 및 방송 재생 방법
US20070250856A1 (en) * 2006-04-02 2007-10-25 Jennifer Leavens Distinguishing National and Local Broadcast Advertising and Other Content
US7921116B2 (en) * 2006-06-16 2011-04-05 Microsoft Corporation Highly meaningful multimedia metadata creation and associations
US20080240227A1 (en) * 2007-03-30 2008-10-02 Wan Wade K Bitstream processing using marker codes with offset values
WO2009100093A1 (en) * 2008-02-05 2009-08-13 Dolby Laboratories Licensing Corporation Associating information with media content
US10216761B2 (en) * 2008-03-04 2019-02-26 Oath Inc. Generating congruous metadata for multimedia
WO2009157402A1 (ja) 2008-06-26 2009-12-30 日本電気株式会社 コンテンツ再生制御システムと、その方法及びプログラム
CN102067228B (zh) 2008-06-26 2013-04-24 日本电气株式会社 内容再现顺序决定系统及其方法和程序
JP5231130B2 (ja) * 2008-08-13 2013-07-10 日本放送協会 キーフレーズ抽出装置、シーン分割装置およびプログラム
US20100057938A1 (en) * 2008-08-26 2010-03-04 John Osborne Method for Sparse Object Streaming in Mobile Devices
US8254678B2 (en) * 2008-08-27 2012-08-28 Hankuk University Of Foreign Studies Research And Industry-University Cooperation Foundation Image segmentation
US7994410B2 (en) * 2008-10-22 2011-08-09 Classical Archives, LLC Music recording comparison engine
US9124769B2 (en) * 2008-10-31 2015-09-01 The Nielsen Company (Us), Llc Methods and apparatus to verify presentation of media content
KR101129974B1 (ko) * 2008-12-22 2012-03-28 (주)오디즌 객체 기반 오디오 컨텐츠 생성/재생 방법 및 그 장치
US8271871B2 (en) * 2009-04-30 2012-09-18 Xerox Corporation Automated method for alignment of document objects
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US8892541B2 (en) * 2009-12-01 2014-11-18 Topsy Labs, Inc. System and method for query temporality analysis
US8457771B2 (en) * 2009-12-10 2013-06-04 At&T Intellectual Property I, L.P. Automated detection and filtering of audio advertisements
US8606585B2 (en) * 2009-12-10 2013-12-10 At&T Intellectual Property I, L.P. Automatic detection of audio advertisements
US8560583B2 (en) 2010-04-01 2013-10-15 Sony Computer Entertainment Inc. Media fingerprinting for social networking
US9264785B2 (en) 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
CA2798072C (en) 2010-05-04 2017-02-14 Shazam Entertainment Ltd. Methods and systems for synchronizing media
US20110276882A1 (en) 2010-05-04 2011-11-10 Kai Buehler Automatic grouping for users experiencing a specific broadcast media
WO2011140269A1 (en) 2010-05-04 2011-11-10 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US9832441B2 (en) 2010-07-13 2017-11-28 Sony Interactive Entertainment Inc. Supplemental content on a mobile device
US9814977B2 (en) 2010-07-13 2017-11-14 Sony Interactive Entertainment Inc. Supplemental video content on a mobile device
US8730354B2 (en) 2010-07-13 2014-05-20 Sony Computer Entertainment Inc Overlay video content on a mobile device
US9143699B2 (en) 2010-07-13 2015-09-22 Sony Computer Entertainment Inc. Overlay non-video content on a mobile device
US9159165B2 (en) 2010-07-13 2015-10-13 Sony Computer Entertainment Inc. Position-dependent gaming, 3-D controller, and handheld as a remote
US20120240177A1 (en) * 2011-03-17 2012-09-20 Anthony Rose Content provision
FR2974297B1 (fr) 2011-04-21 2013-10-04 Sederma Sa Nouvelle utilisation cosmetique ou therapeutique du tripeptide ghk
US8732739B2 (en) 2011-07-18 2014-05-20 Viggle Inc. System and method for tracking and rewarding media and entertainment usage including substantially real time rewards
US9093056B2 (en) 2011-09-13 2015-07-28 Northwestern University Audio separation system and method
TWI483613B (zh) * 2011-12-13 2015-05-01 Acer Inc 視訊播放裝置及其操作方法
CN102567528B (zh) * 2011-12-29 2014-01-29 东软集团股份有限公司 一种读取海量数据的方法及装置
JP2013174965A (ja) * 2012-02-23 2013-09-05 Toshiba Corp 電子機器、電子機器の制御システム、及びサーバ
US20140193084A1 (en) * 2013-01-09 2014-07-10 Wireless Ronin Technologies, Inc. Content validation analysis method and apparatus
US9792350B2 (en) * 2013-01-10 2017-10-17 International Business Machines Corporation Real-time classification of data into data compression domains
US9564918B2 (en) 2013-01-10 2017-02-07 International Business Machines Corporation Real-time reduction of CPU overhead for data compression
US9053121B2 (en) 2013-01-10 2015-06-09 International Business Machines Corporation Real-time identification of data candidates for classification based compression
US9942334B2 (en) 2013-01-31 2018-04-10 Microsoft Technology Licensing, Llc Activity graphs
US9451048B2 (en) 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
US9773058B2 (en) 2013-03-15 2017-09-26 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US9390170B2 (en) 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US10007897B2 (en) * 2013-05-20 2018-06-26 Microsoft Technology Licensing, Llc Auto-calendaring
KR101456926B1 (ko) * 2013-06-14 2014-10-31 (주)엔써즈 핑거프린트에 기반한 광고 검출 시스템 및 방법
US9456014B2 (en) * 2014-12-23 2016-09-27 Teradata Us, Inc. Dynamic workload balancing for real-time stream data analytics
US9471272B2 (en) * 2015-01-27 2016-10-18 Lenovo (Singapore) Pte. Ltd. Skip of a portion of audio
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US9924222B2 (en) 2016-02-29 2018-03-20 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on location
TWI626548B (zh) * 2017-03-31 2018-06-11 東森信息科技股份有限公司 資料收集與儲存系統及其方法
US10931968B2 (en) 2017-07-31 2021-02-23 Nokia Technologies Oy Method and apparatus for encoding or decoding video content including regions having looping videos of different loop lengths
CN108153882A (zh) * 2017-12-26 2018-06-12 中兴通讯股份有限公司 一种数据处理方法及装置
CN109547850B (zh) * 2018-11-22 2021-04-06 杭州秋茶网络科技有限公司 视频拍摄纠错方法及相关产品
JP6642755B1 (ja) * 2019-03-29 2020-02-12 株式会社セガゲームス 音声処理装置
KR102305852B1 (ko) * 2019-08-23 2021-09-29 주식회사 예간아이티 3d 컨텐츠에서 객체를 이용하여 광고 컨텐츠를 제공하는 광고 제공 방법 및 광고 제공 장치
US11616797B2 (en) 2020-04-30 2023-03-28 Mcafee, Llc Large scale malware sample identification
CN111901649B (zh) * 2020-08-13 2022-03-25 海信视像科技股份有限公司 视频播放方法和显示设备
US11806577B1 (en) 2023-02-17 2023-11-07 Mad Dogg Athletics, Inc. Programmed exercise bicycle with computer aided guidance

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3919479A (en) * 1972-09-21 1975-11-11 First National Bank Of Boston Broadcast signal identification system
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4697209A (en) 1984-04-26 1987-09-29 A. C. Nielsen Company Methods and apparatus for automatically identifying programs viewed or recorded
US4677466A (en) * 1985-07-29 1987-06-30 A. C. Nielsen Company Broadcast program identification method and apparatus
US4739398A (en) * 1986-05-02 1988-04-19 Control Data Corporation Method, apparatus and system for recognizing broadcast segments
US6553178B2 (en) * 1992-02-07 2003-04-22 Max Abecassis Advertisement subsidized video-on-demand system
US5436653A (en) * 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5442390A (en) * 1993-07-07 1995-08-15 Digital Equipment Corporation Video on demand with memory accessing and or like functions
KR0132858B1 (ko) * 1993-11-30 1998-04-18 김광호 비디오 반복 재생 방법
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
AU5197998A (en) 1996-11-01 1998-05-29 Jerry Iggulden Method and apparatus for automatically identifying and selectively altering segments of a television broadcast signal in real-time
US6014706A (en) * 1997-01-30 2000-01-11 Microsoft Corporation Methods and apparatus for implementing control functions in a streamed video display system
CA2196930C (en) * 1997-02-06 2005-06-21 Nael Hirzalla Video sequence recognition
GB2327167A (en) 1997-07-09 1999-01-13 Register Group Limited The Identification of television commercials
US5996015A (en) * 1997-10-31 1999-11-30 International Business Machines Corporation Method of delivering seamless and continuous presentation of multimedia data files to a target device by assembling and concatenating multimedia segments in memory
US6173287B1 (en) * 1998-03-11 2001-01-09 Digital Equipment Corporation Technique for ranking multimedia annotations of interest
US6628824B1 (en) * 1998-03-20 2003-09-30 Ken Belanger Method and apparatus for image identification and comparison
US6452609B1 (en) 1998-11-06 2002-09-17 Supertuner.Com Web application for accessing media streams
GB9916459D0 (en) 1999-07-15 1999-09-15 Pace Micro Tech Plc Improvements relating to television programme viewing system
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6469749B1 (en) 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
US6577346B1 (en) * 2000-01-24 2003-06-10 Webtv Networks, Inc. Recognizing a pattern in a video segment to identify the video segment
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
AU2002346116A1 (en) * 2001-07-20 2003-03-03 Gracenote, Inc. Automatic identification of sound recordings

Also Published As

Publication number Publication date
TW200402654A (en) 2004-02-16
KR100988996B1 (ko) 2010-10-20
US7461392B2 (en) 2008-12-02
CN100531362C (zh) 2009-08-19
AU2003280514A1 (en) 2004-01-19
US20040001160A1 (en) 2004-01-01
KR100957987B1 (ko) 2010-05-17
TWI333380B (en) 2010-11-11
TW200405980A (en) 2004-04-16
US20040001161A1 (en) 2004-01-01
CN1666520A (zh) 2005-09-07
KR20050027219A (ko) 2005-03-18
WO2004004345A1 (en) 2004-01-08
US20050063667A1 (en) 2005-03-24
KR20050014859A (ko) 2005-02-07
US7523474B2 (en) 2009-04-21
TWI329455B (en) 2010-08-21
JP2006515721A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
JP4418748B2 (ja) ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法
US6766523B2 (en) System and method for identifying and segmenting repeating media objects embedded in a stream
EP1518409B1 (en) A system and method for providing user control over repeating objects embedded in a stream
US7333864B1 (en) System and method for automatic segmentation and identification of repeating objects from an audio stream
US9225444B2 (en) Method and apparatus for identification of broadcast source
US7877438B2 (en) Method and apparatus for identifying new media content
Herley ARGOS: Automatically extracting repeating objects from multimedia streams
EP1524857A2 (en) Inferring information about media stream objects
US20030117530A1 (en) Family histogram based techniques for detection of commercials and other video content
US20060080356A1 (en) System and method for inferring similarities between media objects
US20140161263A1 (en) Facilitating recognition of real-time content
CN1426563A (zh) 使用音频类别界定节目边界和商业广告边界的系统和方法
KR20080075896A (ko) 매스 미디어를 위한 사회적 및 상호작용 애플리케이션
Zhang et al. Detecting sound events in basketball video archive
US10178415B2 (en) Chapter detection in multimedia streams via alignment of multiple airings
CN115527149A (zh) 电视剧剧集的片头、片尾识别方法和设备
Herley Extracting repeats from media streams

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091130

R150 Certificate of patent or registration of utility model

Ref document number: 4418748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees