JP2009118461A - ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法 - Google Patents

ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法 Download PDF

Info

Publication number
JP2009118461A
JP2009118461A JP2008218850A JP2008218850A JP2009118461A JP 2009118461 A JP2009118461 A JP 2009118461A JP 2008218850 A JP2008218850 A JP 2008218850A JP 2008218850 A JP2008218850 A JP 2008218850A JP 2009118461 A JP2009118461 A JP 2009118461A
Authority
JP
Japan
Prior art keywords
features
event
given
dissimilarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008218850A
Other languages
English (en)
Other versions
JP5255372B2 (ja
Inventor
Luo Gang
ガング・ルオ
Long Yang
ロン・ヤン
Shilung Yu Philip
フィリップ・シラン・ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2009118461A publication Critical patent/JP2009118461A/ja
Application granted granted Critical
Publication of JP5255372B2 publication Critical patent/JP5255372B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4542Blocking scenes or portions of the received content, e.g. censoring scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4545Input to filtering algorithms, e.g. filtering a region of the image
    • H04N21/45452Input to filtering algorithms, e.g. filtering a region of the image applied to an object-based stream, e.g. MPEG-4 streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】リアル・タイムでの改善された検出効率をもたらす、ビデオ・ストリーム内の新規イベントを検出する技法を提供すること。
【解決手段】例えば、方法は、所与のイベントがビデオ・ストリーム内の新規イベントであるかどうかを判定する。ビデオ・ストリームは、複数のイベントを含む。第1ステップは、所与のイベントから特徴の第1集合(例えば、テキスト特徴)を抽出する。特徴の第1集合は、所与のイベントに関連する特徴の第2集合(例えば、イメージ特徴)と比較して、処理するのが計算的により安価である。第2ステップは、1つまたは複数の第1相違度判断基準が存在するときに、特徴の第1集合だけを使用して、所与のイベントとビデオ・ストリーム内の1つまたは複数の以前のイベントとの間の1つまたは複数の第1相違度値を計算する。第3ステップは、1つまたは複数の計算された第1相違度値に基づいて、所与のイベントが新規イベントであるかどうかを判定する。
【選択図】図4

Description

本発明は、全般的にはビデオ・ストリーム処理に関し、より具体的には、ビデオ・ストリーム内の新規イベントを検出する技法に関する。
ストリーミング・ビデオについて、新規イベント検出(NED)は、以前に見たことのないイベントを提示する最初のビデオ・クリップを取り込むタスクである。このタスクは、情報収集(例えば、反テロ目的)、金融市場分析、およびニュース分析など、有用な情報が通常は時間に伴ってすばやく増加する大量のデータに埋もれている複数の領域での実用的応用例を有する。これらの応用例は、しばしば、時間にクリティカルであり、高速のターンアラウンドを必要とするので、オンライン新規イベント検出(ONED)システムを実際に開発することが非常に望ましい。
約10年前に、文書ストリームに対するONEDが、テキスト処理コミュニティでますます関心を集め始めた。そのテキスト対応物の拡張として、ビデオ・ストリームに対するONEDも、テキスト情報とビジュアル情報との両方を活用することによって、ビデオ処理コミュニティで高まる注意を引いた。ビデオONEDシステムの基本的なアイデアは、新規クリップを過去に到着したすべてのクリップと比較することである。テキスト特徴およびビジュアル特徴に基づく類似度値のすべてが、あるしきい値未満である場合に、新規クリップは、新規イベントを提示すると予測される。
いままでの作業は、追加のイメージ情報が、関連するビデオ・クリップの識別およびよりよいトピック追跡結果の達成において重要な役割を演じることを示した。しかし、ビデオONEDに関するこれらの努力のすべてが、主に、検出効率ではなく検出精度の最適化に焦点を合わせている。実際には、これらの方法は、クリップの個数に関して2次式のオーダーの時間複雑さを生じる。したがって、これらの方法は、特に大規模なビデオ・コレクションに関して、リアル・タイム環境で新規ビデオ・イベントを検出するのに十分に効率的ではない。
W. Hsu, and S. Chang, "Topic Trackingacross Broadcast News Videos with Visual Duplicates and SemanticConcepts," IEEE International Conference on Image Processing (ICIP), 2006:141-144 M. Campbell, S. Ebadollahi, and D.Joshi et al., "IBM Research TRECVID-2006 Video Retrieval System,"NIST TRECVID workshop, 2006 R. Peterson, "IBM Strives forSuper Human Speech," http://www.accessible-devices.com/superspeech.html,2006
例えば、数万個のテレビジョン・チャネルを同時に監視することを要求される情報収集システムでは、既存のONEDシステムが、そのような集約された極端に高帯域幅のビデオ・ストリームをリアル・タイムで処理することは、非常にむずかしい。したがって、一部の既存NEDシステムは、オンラインで使用可能と言われているが、これらは、実際にはリアル・タイム応用例に十分に効率的ではない。
本発明の原理は、リアル・タイムでの改善された検出効率をもたらす、ビデオ・ストリーム内で新規イベントを検出する技法を提供する。
例えば、本発明の一態様で、方法は、所与のイベントがビデオ・ストリーム内の新規イベントであるかどうかを判定する。ビデオ・ストリームは、複数のイベントを含む。第1ステップは、所与のイベントから特徴の第1集合(例えば、テキスト特徴)を抽出する。特徴の第1集合は、所与のイベントに関連する特徴の第2集合(例えば、イメージ特徴)と比較して、処理するのが計算的により安価である。第2ステップは、1つまたは複数の第1相違度判断基準が存在するときに、特徴の第1集合だけを使用して、所与のイベントとビデオ・ストリーム内の1つまたは複数の以前のイベントとの間の1つまたは複数の第1相違度値を計算する。第3ステップは、1つまたは複数の計算された第1相違度値に基づいて、所与のイベントが新規イベントであるかどうかを判定する。
本発明のもう1つの態様で、ビデオ・ストリーミング環境内で以前に見られていないイベントを提示する新規イベント・ビデオ・クリップを取り込むためのリアル・タイム新規イベント検出方法は、マルチステージ・シーケンシャル・フィルタリング・プロセスを含む。このプロセスは、関連する特徴を識別することと、特徴を導出するか抽出するための計算的労力に基づいて特徴をランキングすることと、ランキングされた特徴に基づいて1つまたは複数のマルチステージ・シーケンシャル・フィルタを形成することであって、より簡単に計算される特徴は、よりむずかしく計算される特徴の前に使用される、形成することとを含む。一特定の実施形態で、マルチステージ・シーケンシャル・フィルタリング・プロセスの1ステージは、新規イベントを検出するためにフィルタとしてテキスト特徴のみを使用することであり、後続ステージは、検出プロセスを補足するためにフィルタとしてイメージ特徴を使用することである。
本発明の上記および他の目的、特徴、および利点は、添付図面とともに、本発明の例示的実施形態の以下の詳細な説明を参照することによって、明白になるであろう。
本発明を、下では、例示的なタイプのビデオ・ストリームベースのデータの文脈で説明する。しかし、本発明が、どの特定のタイプのビデオ・データ・ストリームにも限定されないことを理解されたい。そうではなく、本発明は、ビデオ・データ・ストリーム内の新規イベントの検出効率を改善することが望ましいすべてのビデオ・データ・ストリームに、より一般的に適用可能である。
図1に、時間軸に沿ってビデオ・ストリーム内のイベント(102、104、106、108、110、および112)を示す。異なる形状は、異なるイベントに対応する。塗り潰された形状は、取り込まれる必要があるクリップ(すなわち、新規クリップ)を表す。句「ビデオ・クリップ」(またはより単純に「クリップ」)が、ビデオ・ストリームの少なくとも1つの部分を指すことを意図され、用語「イベント」が、ビデオ・データ・ストリーム内の対象クリップの出現または存在に対応することを理解されたい。また、「クリップ」(または、より一般的にビデオ・ストリームの対象部分)が、1つまたは複数のイメージを含むことができることを理解されたい。下でさらに説明するように、「クリップ」を「ショット」とすることもできる。また、用語「オンライン」は、用語「リアル・タイム」と交換可能に使用される場合があり、一般に、ビデオ・ストリーム内の新規イベントまたは新規クリップの受け取りと実質的に同時に実行されるステップ/動作を記述することを理解されたい。これを、ステップ/動作がある後の時刻に実行される「オフライン」または「非リアル・タイム」と比較されたい。
本発明の原理によれば、前述の効率問題に対処し、実質的な検出精度を犠牲にせずにONEDシステムのビデオ処理速度を数桁改善する技法が提供される。イメージ特徴に対する計算は、どちらかといえば時間がかかるので、我々は、できる限りイメージ特徴の処理を遅延させることによって、我々のONEDシステムの効率を最大にする。より具体的には、我々は、次の複数の最適化ステップを提案する。まず、我々は、テキスト特徴だけを使用して、非新規イベント・クリップのほとんどをフィルタ・アウトし、その結果、これらのクリップの高価なイメージ特徴抽出ステップを避ける。次に、新規クリップを古いクリップと比較するときに、我々は、まず、そのテキスト類似度を計算し、テキストが十分に異なる場合に、コストの高いイメージ類似度計算をスキップする。最後に、我々は、インデクシング法および圧縮法の組合せを使用して、テキスト処理を高速化する。イメージ類似度計算中に、我々は、アンカ・イメージの除去も行って、ONEDシステムの検出精度を改善する。
最適化された技法を詳細に述べる前に、我々は、まず、ONEDシステムの1つの例示的実施形態(本明細書では「ベースライン・システム」と称する)を説明する。このベースライン・システムが、TF−IDF(単語頻度−逆文書頻度(Inverse Document Frequency))テキスト特徴および2進イメージ複製特徴を含む、HsuおよびChang(W.Hsu, and S. Chang, "Topic Tracking across Broadcast News Videos with VisualDuplicates and Semantic Concepts," IEEE International Conference on ImageProcessing (ICIP), 2006: 141-144)で報告された技術的現状のONEDシステムで提案された2つの最も影響力のある情報ソースを組み合わせると仮定する。本発明の原理を示すために、検出技法を、このベースライン・システムの上で構築されるものとして本明細書で例示的に説明する。
図2に、ビデオ・ストリームが、例えば1つまたは複数の多言語ビデオ・チャネル201(C、C、...、C)から来る可能性がある、ベースラインONEDシステム200のアーキテクチャを示す。これらのストリームは、「ショット」に区分される。区分するブロックは、明示的には示されていない。各ショットは、おおむね数秒(例えば、3秒)の長さであり、編集者のカット、フェード、またはディゾルブ(dissolve)のない、単一の連続したカメラ操作と定義される。ショットごとに、特徴抽出モジュール202は、そのキーフレームからのイメージ特徴抽出(204)と自動音声認識(206)およびその後の機械翻訳(208)を使用することによる英語テキスト特徴の入手との両方を実行し、その結果、異なる言語のオリジナル・ビデオ・クリップが比較可能になる。「キーフレーム」は、ビデオ内の後続イメージの基準として使用される完全な(おそらくは圧縮された)イメージである。次に、ONEDコンポーネント210が、テキスト特徴およびイメージ特徴を使用して、以前に見られていないイベントを提示する新規イベント・ショットを識別し、これらのショットをコンシューマ212に送り、コンシューマ212は、人または例えばより深い分析を行うコンピュータ・プログラムのいずれかとすることができる。我々は、この例示的実施形態で、基本的なNED単位としてビデオ・ショットを使用するが、本発明の原理は、この適用例に限定されるものではなく,したがって、本発明の原理が、ニュース記事などの他の単位にあまねく適用可能であることに留意されたい。
ベースライン・システムは、伝統的なtf・idf単語重さをテキスト特徴として使用する。各ショットSは、意味のあるテキスト類似度を計算するのに十分なテキストを含むには短すぎる(下を参照されたい)ので、我々は、前のm=5個のショットのテキストと次のm個のショットのテキストとの両方を用いてSのテキストを拡張する(これらのショットのすべてが同一チャネルから来ることに留意されたい)。情報検索の慣例に従い、我々は、単語を一意の語と定義し、語彙をすべての一意の語の集合と定義する。語彙内の各単語tおよびショット集合E内のショットSについて、ベースライン・システムは、次の式を使用して、単語重さを計算する。
(f1)単語頻度(tf)重さwtf=ln(tf+1)
(f2)逆数文書頻度(idf:inverse document frequency)重さ
idf=ln[(N+1)/(df+0.5)]
(f3)単語(tf・idf)重さw=wtf×widf
ここで、tfは、Sのテキストにおける単語tの頻度(すなわち、出現の回数)であり、Nは、Eのショットの総数であり、dfは、そのテキストがtを含む、Eのショットの個数である。
実際には、複製に近いイメージを検出するのに(ほぼ同等に)適するイメージ特徴を抽出する多数の異なる形がある。ベースライン・システムは、Campbell他(M. Campbell, S. Ebadollahi, and D. Joshi et al., "IBMResearch TRECVID-2006 Video Retrieval System," NIST TRECVID workshop, 2006)に記載のカラー・モーメント(colormoment)特徴を使用し、ここで、局所化された色統計が、キーフレーム・イメージの3×3グリッドから抽出され、Lab色空間内の各グリッドの最初の3つのモーメントが、Sのn=81個のイメージ特徴f(1≦i≦n)を構成するのに使用される。しかし、本発明は、この特定の技法に限定されない。
もう1つの例として、IBM Corporation社のTranslingualAutomatic Language Exploitation(TALES)システム(R. Peterson, "IBM Strives forSuper Human Speech," http://www.accessible-devices.com/superspeech.html,2006)は、コンピュータ・クラスタを使用して、約4分の遅延を伴って(ほぼリアル・タイムで)同時に数千個のチャネルからビデオ・フレームに対してイメージ特徴抽出とテキスト特徴抽出との両方を実行することができる。
やはり、上で説明したイメージ特徴抽出技法およびテキスト特徴抽出技法は、単に、使用できる従来の技法の例であり、したがって、他の適切な技法を使用できることを理解されたい。本発明の原理の焦点が、既存システムがリアル・タイムで満足には完了できないONEDコンポーネント(210)であることを理解されたい。
ビデオONEDシステムで新規イベント・ショットを検出するために、我々は、2つのショットSとSとの間の相違度を、そのテキスト特徴およびイメージ特徴を使用して計算する。相違度が小さいほど、SおよびSが同一イベントを提示する可能性が高い。相違度計算法を次に示す。まず、テキスト相違度値を、(f4)および(f5)を使用して入手する。
(f4)正規化テキスト点乗積値
Figure 2009118461
(f5)テキスト相違度値
Figure 2009118461
ただし、wi,j(j=1,2)は、Sの単語重さである。表記t∈Sは、単語tがSのテキストに現れることを意味する。次に、(f6)および(f7)を使用してイメージ相違度値を入手する。
(f6)正規化イメージ相違度値
Figure 2009118461
(f7)2進化イメージ相違度値
Figure 2009118461
ただし、fi,j(j=1,2)は、Sのイメージ特徴であり、Timageは、イメージ相違度を2進化するためのしきい値であり、Iは、インジケータ関数である。すなわち、2進化イメージ相違度は、正規化イメージ相違度がTimageより大きい場合に1であり、そうでない場合には0である。最後に、SおよびSの総合相違度値を、(f8)に従ってテキスト相違度値と2進化イメージ相違度値との線形組合せとして入手する。
Figure 2009118461
ただし、wimageは、ビジュアル・モダリティの線形重さである。そのような線形融合モデルは、ビデオONEDシステムでビジュアル・モダリティおよびテキスト・モダリティを融合する最も効果的な手法の1つである。
ここで、ベースライン・システムの詳細を提示する。我々は、各ショットのテキストに関する情報検索で通常の前処理動作に従う、すなわち、(1)ステミング(語幹の抽出)を標準Porter stemmerを使用して実行し、(2)ストップワードを、標準SMARTストップワード・リストを使用することによって除去する。「ステミング」とは、語形変化(または時々派生)した語をその語幹、基本型、または原型、一般には書き言葉の形に変換するプロセスである。「ストップワード」とは、テキストの処理の前または後にフィルタ・アウトされる単語に与えられる名前である。
ショット集合Eは、新規ショットがビデオ・ストリーミング環境内で到着し続けるときに変化し続けることに留意されたい。ONEDのためには、tf重さおよびidf重さの計算を、Eに類似する特性を有する静的ショット集合E‘に基づくものとすることができる。E’のテキストに存在しない単語について、そのdfは、1と仮定される。統計Nおよびdfを増分式に更新する方法と比較して、この静的方法は、はるかに少ないオーバーヘッドを有するが、検出精度はほぼ同一のままである。
ショットSが到着するときに、Sは、まず、前処理され、その特徴がメモリに保存される。次に、Sは、Sの前に同一チャネルから到着したばかりのL=50個のショットを除く、過去に到着したすべての古いショットと比較される。というのは、これらのL個のショットが、Sと同一のニュース記事セグメントに含まれる可能性が高いからである。Sと古いショットとの間のすべての総合相違度値が、しきい値Tを超える場合に、Sは、新規イベント・ショットであると予測される。そうではなく、Sと古いショットSoldとの間の総合相違度値が、T未満である場合には、Sは、Soldと同一のイベントを提示すると予測される。
テキスト特徴が、新規イベントの検出において最も有効なコンポーネントであるが、視覚的に近い複製が、それでも、テキスト・ベースラインの検出精度を一貫して高めることができることを示すことができる。より具体的には、テキスト特徴とイメージ特徴との両方を使用することによって、テキスト・ベースラインの検出精度を25%まで改善することができる。これは、2つのショット内の類似するイメージが、それらに関連する音声トランスクリプトが言い換えまたは音声認識/翻訳エラーに起因して十分に似てはいない可能性がある場合であっても、しばしば、それらが同一イベントを表すことの証拠を提供するという事実によって説明することができる。すなわち、テキスト特徴自体は、これらの2つのショットが同一イベントを提示していることを正しく検出することができない。しかし、イメージ特徴からの追加の証拠を考慮することによって、このシステムは、正しい予測を作ることができる。
総合相違度値に対するさらなる洞察を提供するために、我々は、オリジナルの相違度式(f8)を、テキスト特徴とイメージ特徴とを非対称に扱う同等の形に書き直す。我々は、さらに、この代替の形を分析して、NEDプロセスをどのようにしてより効率的にすることができるかを示す。まず、式(f5)および(f7)を(f8)に代入し、SおよびSの総合相違度を
Figure 2009118461
に書き直す。我々は、2つの可能なケースを考慮することによって(f9)を分析するが、この両方のケースが、2つのサブケースを有する。
(1)SおよびSのキーフレームが、近い複製イメージであるとき、すなわち
Figure 2009118461
であるときに、
Figure 2009118461
を得る。したがって、次を予測することができる。
(i)サブケース1:SおよびSは、
Figure 2009118461
である場合に同一イベントを表し、
(ii)サブケース2:SおよびSは、
Figure 2009118461
である場合に異なるイベントを表す。
(2)SおよびSのキーフレームが、近い複製イメージではないとき、すなわち
Figure 2009118461
であるときに、
Figure 2009118461
を得る。
したがって、次を予測することができる。
(i)サブケース3:SおよびSは、
Figure 2009118461
である場合に同一イベントを表し、
(ii)サブケース4:SおよびSは、
Figure 2009118461
である場合に異なるイベントを表す。
図3に、上の4つのサブケースを示す。
任意の2つのショットSおよびSについて、それらが同一イベントを表すかどうかを判定するために、そのテキスト/イメージ特徴の両方を使用し、上の4つのサブケースのすべてをチェックしなければならないと思われる。しかし、これは、多くの場合に不必要であることがわかる。テキストとイメージとを非対称に扱うことによって、我々は、上の4つのサブケースを次の同等な3つのケースに書き直すことによってNED動作を大幅に単純化することができ、次の3つのケースの中では、ケース2だけが、2つのサブケースを有する。
(1)ケース1:
Figure 2009118461
。この場合に、我々は、SおよびSが、正規化イメージ相違度
Figure 2009118461
にかかわりなく、異なるイベントを提示すると予測する。
(2)ケース2:
Figure 2009118461
この場合には、次の2つのサブケースがある。
(i)サブケース1:
Figure 2009118461
の場合に、我々は、SおよびSが、同一イベントを提示すると予測する。
(ii)サブケース2:
Figure 2009118461
の場合に、我々は、SおよびSが、異なるイベントを提示すると予測する。
(3)ケース3:
Figure 2009118461
。この場合に、我々は、SおよびSが、正規化イメージ相違度
Figure 2009118461
にかかわりなく、同一イベントを提示すると予測する。
上のケースでは、ケース1とケース3との両方が、ショットSおよびSのテキスト特徴だけを必要とする。したがって、ONEDのためには、テキスト特徴およびイメージ特徴を非対称に扱うことができる、すなわち、我々は、プレフィルタとしてテキスト特徴を使用して、イメージ特徴に対する不必要な動作のほとんどをフィルタ・アウトすることができる。これは、検出効率に対する膨大な利益をもたらすことができる。というのは、ほとんどのショット対のテキスト類似度が低く、したがって、ケース1が最も頻繁に発生するケースであるからである。その一方で、テキスト特徴の前にイメージ特徴を処理することは、望ましくない。というのは、イメージ特徴の使用だけでは、SおよびSが同一イベントを提示するかどうかを判定できないからである。
ここで、上の分析に基づくONEDシステムの効率を改善する例示的技法を説明する。まず、我々の最適化されたONEDシステムの高水準の概要を与え、次に、個々の技法を詳しく述べる。
図4に、例示的実施形態による最適化されたONEDシステム400のアーキテクチャを示す。1つまたは複数のチャネル401(C、C、...、C)からのビデオ・ストリームが、ショット(明示的には図示せず)に分割される。ショットSごとに、音声認識(403)技法ならびに機械翻訳(404)技法を使用することによって、テキスト特徴を抽出する(402)。テキスト特徴は、非ニュース・ショットを識別し、除去する(406)のに使用される。残りのニュース・ショットが、ONEDコンポーネント412に供給され、ここで、新規イベント・ショットが識別され、コンシューマ(414)に送られる。ONEDプロセス中に、我々は、Sのキーフレームがアンカ・イメージであるかどうかを判定すること(410)およびSと古いショットとの間のイメージ類似度を計算することが必要であるときに限って、Sのイメージ特徴を抽出する(408)。
図5に、ONEDシステム400に従って使用されるアルゴリズムの説明を示す。このアルゴリズムの詳細は、下で説明する。当業者は、アルゴリズム500内の擬似コードの諸部分が、ONEDコンポーネントによって実行されるステップに関係することを簡単に認めるであろう。
放送ビデオでは、非ニュース・ビデオ・セグメント(例えば、コマーシャル、TV番組)が、通常、ニュース記事と混合されている。ONEDのためには、類似するショットが前に現れていない場合であっても、非ニュース・ショットを新規イベント・ショットとして扱ってはならない。これらのショットの除去は、ONEDコンポーネントによって処理する必要があるショットの数を減らすだけではなく、ONEDシステムの効率および検出精度をも改善することができる。
このために、単純な方法は、ニュース・ビデオが放送される定期的な時間期間を手動で指定することである。しかし、そのような方法は、ONEDシステムが処理する必要がある通常のケースの数万チャネルにスケーラブルではない。さらに、我々の目的には、コマーシャルだけではなくすべての非ニュース・ショットを除去することが好ましい。代替案として、我々は、単純なテキストベースの方法を適用して、非ニュース・ショットを除去する。その基本的なアイデアは、非ニュース・ショット(例えば、コマーシャル)が、しばしば、ニュース・ショットより大きい背景雑音を有し、これが、音声リコグナイザが非ニュース・ビデオでテキストを認識することをむずかしくすることである。また、ニュース・ショットでは、アンカ・パーソンが、非ニュース・ショット(例えば、TV番組)より速いペースで話す傾向がある。この2つのプロパティに基づいて、我々は、ショットSの認識されたテキストがJ個未満の別個の単語を含む場合に、Sがニュースではないと予測し、ここで、Jは所定の定数である。この方法は、どちらかといえば単純であるが、非常に正確であり、低いオーバーヘッドを有し、これは、ONEDシステムの効率を改善するのを助ける。また、高価なイメージ特徴抽出ステップは、捨てられる非ニュース・ショットについてもはや不要である。
上で述べたように、できる限りイメージ特徴の処理を遅延させることが望ましい。図4および5に示されているように、新規ショットSを処理するときには、まず、そのイメージ特徴ではなくテキスト特徴を抽出する。Sを古いショットSoldと比較するときには、まず、それらのイメージ相違度ではなく、それらの正規化テキスト点乗積を計算する。
Figure 2009118461
(上のケース1)の場合には、SおよびSoldが異なるイベントを提示すると予測する。
Figure 2009118461
(上のケース3)の場合には、SおよびSoldが同一のイベントを提示すると予測する。ケース1とケース3との両方で、高コストであるが不必要なイメージ相違度計算ステップをスキップする。ケース2(
Figure 2009118461
のとき)に限って、イメージ相違度を計算する必要がある。ショットのほとんどの対のテキスト点乗積は、小さいので、ケース2は、通常、ケース1およびケース3よりはるかに低い頻度で発生する。その結果、ほとんどのイメージ相違度計算を、節約することができる。
さらに、新規ショットが新規イベントではないと予測されるときに、比較されたすべての古いショットがケース1またはケース3のいずれかに属する場合には、高価なイメージ特徴抽出ステップをスキップすることができる。言い換えると、Sが新規イベント・ショットであると予測されるときまたはいくつかのSoldについて
Figure 2009118461
を有するときのいずれかに限って、新規ショットSについてイメージ特徴を抽出すればよい。実際には、多数のチャネルの存在下で、ほとんどのショットは、異なるチャネルにまたがる同一イベントと同一チャネル内の同一イベントとの両方の繰り返される言及に起因して、既存イベントを提示している。また、ケース1およびケース3は、ケース2よりはるかに頻繁に発生する。したがって、ショットの大きい分数について、高価なイメージ特徴抽出ステップをスキップすることができる。
ニュース・ビデオでは、ニュース記事が、通常はアンカ・パーソンによって放送される。同一チャネルからの2つのニュース・ショットは、しばしば、同一のアンカ・パーソンを有するキーフレームを有するが、異なるイベントを提示する。しかし、この場合には、類似するキーフレームが、この2つのショットが同一イベントを提示することのヒントとして扱われてはならない。この要因を考慮に入れるために、我々は、次の方法を使用する。Campbell他(M. Campbell, S. Ebadollahi, and D. Joshi et al., "IBMResearch TRECVID-2006 Video Retrieval System," NIST TRECVID workshop, 2006)に記載のアンカ・イメージ検出方法を使用して、どのキーフレームがアンカ・イメージであるかを検出する。そのような既知のアンカ・イメージ検出方法では、サポート・ベクトル・マシン(SVM)および低水準色コレログラム特徴(low-levelcolor correlogram feature)に基づいて、どのキーフレームがアンカ・イメージであるかに関する判定を行う。他の既知のアンカ・イメージ検出方法を使用することができる。次に、2つのショットを比較するときに、いずれかのショットのキーフレームがアンカ・フレームである場合には、2進化イメージ相違度に1をセットする。すなわち、我々は、キーフレームのいずれかがアンカ・ショットである場合に、それらを異なるものとして扱う。これは、ONEDシステムの検出精度に対するアンカ・ショットの誤った証拠の影響を減らすことができる。
通常、あるイベントの議論は、ニュース・ビデオ内で有限の時間の間だけ続き、新規ショットは、かなり古いショットと同一のイベントを提示する可能性が低い。したがって、我々は、最後のW日などのスライディング・ウィンドウ内の古いショットの情報だけをメモリに保つ。ここで、Wは、所定の定数である。ショットSについて保たれる情報は、そのテキスト特徴とイメージ特徴との両方を含む(上を参照されたい)が、これらの特徴だけが将来のショットとのSの比較に必要なので、ビデオ・イメージは含まない。古いショットがスライディング・ウィンドウから満了したならば、その情報は即座に捨てられる。図示のように、図8は、本発明の実施形態よるスライディング時間ウィンドウを示す。
通常、イベントは、多数のショットによって提示される。これらのショットのうちの1つだけが、新規イベント・ショットである。同一イベントを提示するすべてのショットが、互いに類似する傾向がある。したがって、新規ショットを、同一イベントを提示するすべての古いショットと比較することは、やりすぎである。その代わりに、我々は、新規イベント・ショットの情報だけを保つ。新規ショットSが到着するときに、Sを、古い新規イベント・ショットと比較する。Sが、新規イベントを提示する新規イベント・ショットであると予測される場合には、Sの情報をメモリに保存する。そうでない場合には、Sを破棄する。
あるショットのテキストのすべての単語を、その単語重さの降順でソートすることができる。一般に、より大きい重さを有する単語は、NEDにとってより重要である。したがって、保存されたショットごとに、我々は、すべての単語ではなく、最大の重さを有する上位K個の単語だけを保つ。ここで、Kは、所定の定数である。上位K個の単語だけが、テキスト点乗積の計算に使用される。
相違度値計算のオーバーヘッドを減らすために、新規ショットと異なるイベントを提示するショットのほとんどをすばやくフィルタ・アウトするのに低オーバーヘッド法を使用することによって、プレフィルタリング技法を開発する。この形で、我々は、計算する必要がある相違度値の個数を実質的に減らすことができる。2つのショットSおよびSを検討されたい。SおよびSが同一イベントを提示する場合に、そのテキストの上位単語は、あるオーバーラップを有する傾向がある。すなわち、いくつかの単語が、SのテキストとSのテキストとの両方の上位単語に現れる可能性が高い。したがって、これらの上位単語を使用して、不必要な計算をすばやくフィルタ・アウトすることができる。より具体的には、我々は、所定の定数M(M≦K)を有する。SおよびSのテキスト点乗積を計算する前に、まず、SおよびSの上位M個の単語が交差するかどうかをチェックする。そうである場合には、SおよびSのテキスト点乗積の計算を継続する。そうでない場合には、我々は、SおよびSが異なるイベントを提示すると予測し、そのテキスト点乗積を計算しない。
我々は、プレフィルタ・アウトされたショットの不必要な処理を避けるためにインデックスを構築する。語彙内の各単語は、単語idを有する。各ショットは、その到着時刻に対応するショットidを有する。2つのインデックスすなわち順方向インデックスおよび逆インデックスが、保存されたすべてのショットについて保たれる。順方向インデックスは、保存されたショットごとに1エントリを有する。これらのエントリは、ショットの到着時刻の降順でソートされる。これは、最後のW日のスライディング・ウィンドウから満了したショットの情報をすばやく識別し、捨てることを可能にする(上を参照されたい)。保存されたショットごとに、対応するエントリは、イメージ特徴と単語重さに関連する上位K個の単語との両方を保つ。これらの単語は、その単語idの昇順でソートされる。その結果、2つのショットのテキスト点乗積を、その単語リストの効率的な「マージ」を介して計算することができる。
保存されたショットごとに、その上位M個の単語だけが、逆インデックスによって追跡される。逆インデックスは、語彙内の単語ごとに1エントリを有する。単語tのエントリは、その上位M個の単語がtを含むすべてのショットのショットidのポスティング・リスト(posting list)(リンク・リスト)である。これらのショットidは、降順でソートされ、その結果、ポスティング・リストのマージを効率的に行えるようになっている。新規ショットSが到着するときには、Sの上位M個の単語に対応するM個のポスティング・リストだけをスキャンする。これらのM個のポスティング・リストを一緒にマージして、Sと同一のイベントを提示する可能性がある候補ショットのショットidを見つける。これが、上で説明したプレフィルタリング技法である。次に、そのような候補ショットSごとに、順方向インデックスを使用して、SおよびSのテキスト点乗積およびイメージ相違度(必要な場合に)を計算する。この計算は、候補ショットidが生成されるのと同時に実行される。この形で、Sおよび古いショットの総合相違度値が、しきい値Tより小さい場合に、Sは、非新規イベント・ショットであると予測され、Sの処理は、即座に停止する。そうではなく、Sが新規イベント・ショットであると予測される場合には、Sのショットidが、保存されたショットのショットidより大きいので、Sの情報を、逆インデックスに簡単に追加することができる。
図6に、本発明のもう1つの実施形態によるオンライン新規イベント検出方法論を示す。この方法は、ONEDシステム400内で実施することができる。図示のように、方法600は、所与のイベントがビデオ・ストリーム内の新規イベントであるかどうかを判定する。ビデオ・ストリームは、複数のイベントを含む。ステップ602は、所与のイベントから特徴の第1集合(例えば、テキスト特徴)を抽出する。特徴の第1集合は、所与のイベントに関連する特徴の第2集合(例えば、イメージ特徴)と比較して、処理するのが計算的により安価である。ステップ604は、1つまたは複数の第1相違度判断基準が存在するときに、特徴の第1集合だけを使用して、所与のイベントとビデオ・ストリーム内の1つまたは複数の以前のイベントとの間の1つまたは複数の第1相違度値を計算する。ステップ606は、1つまたは複数の計算された第1相違度値に基づいて、所与のイベントが新規イベントであるかどうかを判定する。
図7に、本発明のもう1つの実施形態によるオンライン新規イベント検出方法論を示す。この方法は、ONEDシステム400内で実施することができる。図示されているように、方法610は、は、ビデオ・ストリーミング環境内で以前に見られていないイベントを提示する新規イベント・ビデオ・クリップを取り込むリアル・タイム新規イベント検出プロセスである。この方法は、マルチステージ・シーケンシャル・フィルタリング・プロセスを含む。このプロセスは、関連する特徴を識別すること(ステップ612)と、特徴を導出するか抽出するための計算労力に基づいて特徴をランキングすること(ステップ614)と、ランキングされた特徴に基づいて1つまたは複数のマルチステージ・シーケンシャル・フィルタを形成することであって、より簡単に計算される特徴が、よりむずかしく計算される特徴の前に使用される、形成すること(ステップ616)とを含む。一特定の実施形態で、マルチステージ・シーケンシャル・フィルタリング・プロセスの1ステージは、新規イベントを検出するためにフィルタとしてテキスト特徴だけを使用することであり、後続ステージは、検出プロセスを補足するためにフィルタとしてイメージ特徴を使用することである。
最後に図9を参照すると、オンライン新規イベント検出の技法を本発明の実施形態に従って実施できるコンピュータ・システムが示されている。すなわち、図9は、本発明の実施形態による、それに従ってONED技法の1つまたは複数のコンポーネント/ステップ(例えば、上で図1から7の文脈で説明したコンポーネントおよび方法論)を実施できるコンピュータ・システムを示す。個々のコンポーネント/ステップを、1つのそのようなコンピュータ・システム上で、または複数のそのようなコンピュータ・システム上で実施できることを理解されたい。分散コンピューティング・システム上での実施の場合に、個々のコンピュータ・システムまたはデバイスあるいはその両方を、適切なネットワーク、例えばインターネットまたはワールド・ワイド・ウェブを介して接続することができる。しかし、このシステムを、私設ネットワークまたはローカル・ネットワークを介して実現することができる。どの場合でも、本発明は、どの特定のネットワークにも限定されない。
したがって、図9に示されたコンピュータ・システムは、本明細書で説明する機能のすべてまたは一部を提供できる1つまたは複数のサーバあるいは1つまたは複数の他の処理デバイスを表すことができる。例えば、図9は、図2または図4のONEDシステムのコンポーネントを実施するコンピュータ・アーキテクチャを表す。
図示されているように、コンピュータ・システム700は、コンピュータ・バス710または代替接続配置を介して結合された、プロセッサ702、メモリ704、入出力(I/O)デバイス706、およびネットワーク・インターフェース708を含む。
本明細書で使用される用語「プロセッサ」が、例えばCPUまたは他の処理回路あるいはその両方を含むものなど、任意の処理デバイスを含むことを意図されていることを了解されたい。また、単語「プロセッサ」が、複数の処理デバイスを指す場合があることと、処理デバイスに関連する様々な要素が他の処理デバイスによって共用される場合があることを理解されたい。
本明細書で使用される用語「メモリ」は、例えばRAM、ROM、固定メモリ・デバイス(例えば、ハード・ドライブ)、取り外し可能メモリ・デバイス(例えば、ディスケット)、フラッシュ・メモリなど、プロセッサまたはCPUに関連するメモリを含むことが意図されている。メモリは、コンピュータ可読記憶媒体と考えることができる。
さらに、本明細書で使用される句「入出力デバイス」または「I/Oデバイス」は、例えば、処理ユニットにデータを入力する1つもしくは複数の入力デバイス(例えば、キーボード、マウスなど)または処理ユニットに関連する結果を提示する1つもしくは複数の出力デバイス(例えば、ディスプレイなど)あるいはその両方を含むことが意図されている。
さらに、本明細書で使用される句「ネットワーク・インターフェース」は、例えば、コンピュータ・システムが適当な通信プロトコルを介して別のコンピュータ・システムと通信することを可能にする1つまたは複数のトランシーバを含むことが意図されている。
したがって、本明細書で説明する方法論を実行する命令またはコードを含むソフトウェア・コンポーネントを、関連するメモリ・デバイス(例えば、ROM、固定メモリ、または取り外し可能メモリ)のうちの1つまたは複数に格納し、利用の準備ができたときに、部分的にまたは全体をロードし(例えば、RAMに)、CPUによって実行することができる。
どの場合でも、本明細書で説明し、添付図面に示した本発明の技法は、例えば、関連するメモリを伴う1つまたは複数の動作可能にプログラムされた汎用デジタル・コンピュータ、実施態様固有集積回路(1つまたは複数)、機能回路網など、様々な形のハードウェア、ソフトウェア、またはその組合せで実施することができる。本明細書で提供した本発明の技法を与えられれば、当業者は、本発明の技法の他の実施形態を企図することができるであろう。
本発明の例示的実施形態を、添付図面を参照して本明細書で説明したが、本発明が、これらの正確な実施形態に限定されず、様々な他の変更および修正を、当業者が本発明の範囲または趣旨から逸脱せずに行うことができることを理解されたい。
本発明の実施形態によるビデオ・データ・ストリーム内のイベントを示す図である。 本発明の実施形態によるオンライン新規イベント検出システムを示す図である。 本発明の実施形態による様々なビデオ・ストリーム類似度シナリオを示す図である。 本発明のもう1つの実施形態によるオンライン新規イベント検出システムを示す図である。 本発明の実施形態によるオンライン新規イベント検出方法論を示す図である。 本発明のもう1つの実施形態によるオンライン新規イベント検出方法論を示す図である。 本発明のもう1つの実施形態によるオンライン新規イベント検出方法論を示す図である。 本発明の実施形態によるスライディング時間ウィンドウを示す図である。 本発明の実施形態による、オンライン新規イベント検出の技法を実施できるコンピュータ・システムを示す図である。
符号の説明
102 イベント
104 イベント
106 イベント
108 イベント
110 イベント
112 イベント
200 ベースラインONEDシステム
201 多言語ビデオ・チャネル
202 特徴抽出モジュール
204 イメージ特徴抽出
206 自動音声認識
208 機械翻訳
210 ONEDコンポーネント
212 コンシューマ
400 ONEDシステム
401 チャネル
402 テキスト特徴抽出モジュール
403 音声認識
404 機械翻訳
406 非ニュース・ショット除去
408 イメージ特徴抽出
410 アンカ検出
412 ONEDコンポーネント
414 コンシューマ
500 アルゴリズム
600 方法
610 方法
700 コンピュータ・システム
702 プロセッサ
704 メモリ
706 入出力(I/O)デバイス
708 ネットワーク・インターフェース
710 コンピュータ・バス

Claims (20)

  1. 所与のイベントが複数のイベントを含むビデオ・ストリーム内の新規イベントであるかどうかを判定する方法であって、
    前記所与のイベントから特徴の第1集合を抽出するステップであって、特徴の前記第1集合は、前記所与のイベントに関連する特徴の第2集合と比較して、処理するのが計算的により安価であるステップと、
    1つまたは複数の第1相違度判断基準が存在するときに、特徴の前記第1集合だけを使用して、前記所与のイベントと前記ビデオ・ストリーム内の1つまたは複数の以前のイベントとの間の1つまたは複数の第1相違度値を計算するステップと、
    前記1つまたは複数の計算された第1相違度値に基づいて、前記所与のイベントが新規イベントであるかどうかを判定するステップと
    を含む方法。
  2. 前記所与のイベントから特徴の前記第2集合を抽出するステップと、
    1つまたは複数の第2相違度判断基準が存在するときに、特徴の前記第2集合を使用して、前記所与のイベントと前記ビデオ・ストリーム内の前記1つまたは複数の以前のイベントとの間の1つまたは複数の第2相違度値を計算するステップと、
    前記1つまたは複数の計算された第1相違度値および前記1つまたは複数の第2相違度値に基づいて、前記所与のイベントが新規イベントであるかどうかを判定するステップと
    をさらに含む、請求項1に記載の方法。
  3. 特徴の前記第1集合は、テキスト特徴の集合を含み、特徴の前記第2集合は、イメージ特徴の集合を含む、請求項1に記載の方法。
  4. 所与の時間ウィンドウ内の以前のイベントだけを含むために、前記所与のイベントと比較される1つまたは以前のイベントの個数を制限するステップをさらに含む、請求項1に記載の方法。
  5. 前記1つまたは複数の第1相違度値を計算する前に、前記所与のイベントと前記1つまたは複数の以前のイベントとの間の前記1つまたは複数の第1相違度値を計算するのに使用される前記以前のイベントをプレフィルタリングするステップをさらに含み、前記プレフィルタリングするステップは、前記所与のイベント内の単語と前記1つまたは複数の以前のイベント内の単語との間のオーバーラップの判定に基づく、請求項1に記載の方法。
  6. 前記複数のイベントのうちのどれが、前記所与のイベントが新規イベントであるかどうかの判定に使用されるのかを追跡するために1つまたは複数のインデックスを構築するステップをさらに含む、請求項1に記載の方法。
  7. 前記1つまたは複数の第1相違度判断基準は、テキスト相違度しきい値が所与の値未満である、前記所与の値を超える、または前記所与の値と等しいことを含む、請求項1に記載の方法。
  8. 前記1つまたは複数の第2相違度判断基準は、イメージ相違度しきい値が所与の値未満である、前記所与の値を超える、または前記所与の値と等しいことを含む、請求項1に記載の方法。
  9. 所与のイベントが、複数のイベントを含むビデオ・ストリーム内の新規イベントであるかどうかを判定するプログラムであって、コンピュータによって実行されるときに請求項1に記載のステップを実行する1つまたは複数のプログラム・モジュールを含む、プログラム.
  10. ビデオ・ストリーミング環境内で以前に見られていないイベントを提示する新規イベント・ビデオ・クリップを取り込むためのリアル・タイム新規イベント検出の方法であって、前記方法は、マルチステージ・シーケンシャル・フィルタリング・プロセスを提供するステップを含み、前記プロセスは、
    関連する特徴を識別するステップと、
    前記特徴を導出するか抽出するための計算的労力に基づいて前記特徴をランキングするステップと、
    前記ランキングされた特徴に基づいて1つまたは複数のマルチステージ・シーケンシャル・フィルタを形成するステップであって、より簡単に計算される特徴は、よりむずかしく計算される特徴の前に使用されるステップと
    を含む方法。
  11. 1つまたは複数のインデックスが、処理速度を高めるために構築される、請求項10に記載の方法。
  12. 最後のW日以内に識別された新規イベント・クリップに関する情報だけが、メモリに格納される、請求項10に記載の方法。
  13. 各クリップの上位K個の最も重要な単語に関する情報だけが、メモリに格納される、請求項10に記載の方法。
  14. 前記クリップ内の上位M個の最も重要な単語は、新規クリップと同一イベントを提示する可能性が低い古いクリップをフィルタ・アウトするのに使用される、請求項10に記載の方法。
  15. テキスト特徴だけが、非新規イベント・クリップの大多数をフィルタ・アウトするのに使用され、その結果、これらのクリップに対するイメージ特徴抽出が、回避されるようになる、請求項10に記載の方法。
  16. 前記新規クリップを古いクリップと比較するときに、そのテキスト類似度が、まず計算され、イメージ類似度計算は、そのテキストが十分に異なる場合にスキップされる、請求項10に記載の方法。
  17. 所与のイベントが複数のイベントを含むビデオ・ストリーム内の新規イベントであるかどうかを判定する装置であって、
    メモリと、
    前記メモリに結合され、(i)前記所与のイベントから特徴の第1集合を抽出することであって、特徴の前記第1集合は、前記所与のイベントに関連する特徴の第2集合と比較して、処理するのが計算的により安価である、抽出することと、(ii)1つまたは複数の第1相違度判断基準が存在するときに、特徴の前記第1集合だけを使用して、前記所与のイベントと前記ビデオ・ストリーム内の1つまたは複数の以前のイベントとの間の1つまたは複数の第1相違度値を計算することと、(iii)前記1つまたは複数の計算された第1相違度値に基づいて、前記所与のイベントが新規イベントであるかどうかを判定することとを行うように動作可能である少なくとも1つのプロセッサと
    を含む装置。
  18. 前記プロセッサは、
    前記所与のイベントから特徴の前記第2集合を抽出し、
    1つまたは複数の第2相違度判断基準が存在するときに、特徴の前記第2集合を使用して、前記所与のイベントと前記ビデオ・ストリーム内の前記1つまたは複数の以前のイベントとの間の1つまたは複数の第2相違度値を計算し、
    前記1つまたは複数の計算された第1相違度値および前記1つまたは複数の第2相違度値に基づいて、前記所与のイベントが新規イベントであるかどうかを判定する
    ようにさらに動作可能である、請求項17に記載の装置。
  19. 特徴の前記第1集合は、テキスト特徴の集合を含み、特徴の前記第2集合は、イメージ特徴の集合を含む、請求項17に記載の装置。
  20. 前記プロセッサは、所与の時間ウィンドウ内の以前のイベントだけを含むために、前記所与のイベントと比較される1つまたは以前のイベントの個数を制限するようにさらに動作可能である、請求項17に記載の装置。
JP2008218850A 2007-11-01 2008-08-27 ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法 Active JP5255372B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/933,775 US8428360B2 (en) 2007-11-01 2007-11-01 System and method for real-time new event detection on video streams
US11/933775 2007-11-01

Publications (2)

Publication Number Publication Date
JP2009118461A true JP2009118461A (ja) 2009-05-28
JP5255372B2 JP5255372B2 (ja) 2013-08-07

Family

ID=40615740

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008218850A Active JP5255372B2 (ja) 2007-11-01 2008-08-27 ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法

Country Status (4)

Country Link
US (2) US8428360B2 (ja)
JP (1) JP5255372B2 (ja)
CN (1) CN101425135B (ja)
TW (1) TWI436226B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US9443147B2 (en) * 2010-04-26 2016-09-13 Microsoft Technology Licensing, Llc Enriching online videos by content detection, searching, and information aggregation
CN103891272B (zh) * 2011-10-24 2018-09-07 英特尔公司 用于视频分析和编码的多个流处理
US9053194B2 (en) * 2012-02-01 2015-06-09 Sri International Method and apparatus for correlating and viewing disparate data
US10469624B2 (en) * 2013-10-07 2019-11-05 Bose Corporation User interface control in a networked audio system
US10505883B1 (en) * 2014-04-16 2019-12-10 Google Llc Re-engagement notifications
KR102210075B1 (ko) * 2016-01-05 2021-02-02 그레이스노트, 인코포레이티드 채널 변화 기반 트리거 피처를 갖는 컴퓨팅 시스템
US10812495B2 (en) * 2017-10-06 2020-10-20 Uvic Industry Partnerships Inc. Secure personalized trust-based messages classification system and method
KR102504321B1 (ko) * 2020-08-25 2023-02-28 한국전자통신연구원 온라인 행동 탐지 장치 및 방법
CN113792654A (zh) * 2021-09-14 2021-12-14 湖南快乐阳光互动娱乐传媒有限公司 视频片段的整合方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270006A (ja) * 1996-04-03 1997-10-14 Toshiba Corp 動画像処理方法
JP2005080169A (ja) * 2003-09-03 2005-03-24 Sony Corp 監視システム、情報処理装置および方法、記録媒体、並びにプログラム
WO2007029489A1 (ja) * 2005-09-07 2007-03-15 Pioneer Corporation コンテンツリプレイ装置、コンテンツ再生装置、コンテンツリプレイ方法、コンテンツ再生方法、プログラム、および記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6492998B1 (en) * 1998-12-05 2002-12-10 Lg Electronics Inc. Contents-based video story browsing system
US6744922B1 (en) * 1999-01-29 2004-06-01 Sony Corporation Signal processing method and video/voice processing device
US6646676B1 (en) * 2000-05-17 2003-11-11 Mitsubishi Electric Research Laboratories, Inc. Networked surveillance and control system
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
KR100799557B1 (ko) * 2005-10-27 2008-01-31 한국전자통신연구원 동영상의 비주얼 특징을 이용한 유해 동영상 판별함수 생성및 판별 방법 그리고 그 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270006A (ja) * 1996-04-03 1997-10-14 Toshiba Corp 動画像処理方法
JP2005080169A (ja) * 2003-09-03 2005-03-24 Sony Corp 監視システム、情報処理装置および方法、記録媒体、並びにプログラム
WO2007029489A1 (ja) * 2005-09-07 2007-03-15 Pioneer Corporation コンテンツリプレイ装置、コンテンツ再生装置、コンテンツリプレイ方法、コンテンツ再生方法、プログラム、および記録媒体

Also Published As

Publication number Publication date
CN101425135A (zh) 2009-05-06
US9215479B2 (en) 2015-12-15
US8428360B2 (en) 2013-04-23
US20140344845A1 (en) 2014-11-20
JP5255372B2 (ja) 2013-08-07
TW200925895A (en) 2009-06-16
US20100329563A1 (en) 2010-12-30
TWI436226B (zh) 2014-05-01
CN101425135B (zh) 2013-08-14

Similar Documents

Publication Publication Date Title
JP5255372B2 (ja) ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN107430687B (zh) 视频流的基于实体的时间分割
Jain Prediction of movie success using sentiment analysis of tweets
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
US8503523B2 (en) Forming a representation of a video item and use thereof
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
KR102034346B1 (ko) 학습 기반의 비속어 탐지 장치 및 방법
CN113613065B (zh) 视频编辑方法、装置、电子设备以及存储介质
Le et al. NII-HITACHI-UIT at TRECVID 2016.
US10733454B2 (en) Transformation of video streams
Singh et al. KidsGUARD: fine grained approach for child unsafe video representation and detection
WO2013097101A1 (zh) 分析视频文件的方法和装置
CN112733660A (zh) 一种视频拆条的方法和装置
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
Radarapu et al. Video summarization and captioning using dynamic mode decomposition for surveillance
Seroyizhko et al. A sentiment and emotion annotated dataset for bitcoin price forecasting based on reddit posts
CN111949820B (zh) 视频关联兴趣点的处理方法、装置及电子设备
CN115379233B (zh) 一种大数据视频信息分析方法和系统
KR102504321B1 (ko) 온라인 행동 탐지 장치 및 방법
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
CN113361462A (zh) 视频处理和字幕检测模型的方法及装置
Singh et al. An efficient keyframes selection based framework for video captioning
CN110019942B (zh) 一种视频鉴别方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130419

R150 Certificate of patent or registration of utility model

Ref document number: 5255372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3