JP5351958B2 - デジタルコンテンツ記録のための意味論的イベント検出 - Google Patents

デジタルコンテンツ記録のための意味論的イベント検出 Download PDF

Info

Publication number
JP5351958B2
JP5351958B2 JP2011512451A JP2011512451A JP5351958B2 JP 5351958 B2 JP5351958 B2 JP 5351958B2 JP 2011512451 A JP2011512451 A JP 2011512451A JP 2011512451 A JP2011512451 A JP 2011512451A JP 5351958 B2 JP5351958 B2 JP 5351958B2
Authority
JP
Japan
Prior art keywords
event
concept
semantic
image
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011512451A
Other languages
English (en)
Other versions
JP2011525012A5 (ja
JP2011525012A (ja
Inventor
アレクサンダー シー ルイ
ウェイ ジアン
Original Assignee
インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテレクチュアル ベンチャーズ ファンド 83 エルエルシー filed Critical インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Publication of JP2011525012A publication Critical patent/JP2011525012A/ja
Publication of JP2011525012A5 publication Critical patent/JP2011525012A5/ja
Application granted granted Critical
Publication of JP5351958B2 publication Critical patent/JP5351958B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Description

本発明は、デジタル静止画像又はビデオのようなデジタルコンテンツ記録のカテゴリ化に関している。特に、本発明は、意味論的イベント(semantic events)の検出に基づいたデジタルコンテンツ記録のカテゴリ化に関している。
低コストの電子消費者撮像技術の出現は、平均的な消費者によって獲得されるデジタル画像の数の顕著な増加をもたらす結果となっている。実際、様々な形態の電子メモリが時間とともにますます安価になっているので、消費者は、より一層多くのデジタル静止画像及びビデオを撮影するとともに、以前には廃棄したであろうデジタル静止画像及びビデオも保持する傾向にある。結果として、平均的な消費者は、記憶及び後の検索のためにデジタル画像を適切に識別及びカタログ化するにあたって、ますます困難な問題に直面している。一般的に、そのような識別及びカタログ化は通常は手作業で実行され、これは消費者にとって極端に時間を消費するプロセスになることがある。
単なる一つの描写として、消費者は1回の休暇の間にいくつもの異なる場所に旅行するかもしれない。消費者は、特定の場所の各々で、ならびに他の主題カテゴリ又はイベントに関係している場所の各々で、画像を撮影し得る。例えば、消費者は、それらの場所の各々で家族メンバの画像を撮影し、それらの場所の各々で特定のイベントの画像を撮影し、それらの場所の各々で歴史的な建造物の画像を撮影し得る。旅行から戻ると、消費者は、デジタル画像を人物、誕生日、博物館などの様々なグループ分けに基づいて分類し、デジタル画像をそのグループ分けに基づいて電子アルバムに記憶したいと思うかもしれない。消費者は、現在のところ、何百というデジタル静止画像及びビデオセグメントを特定のイベントで識別するために、それらを手作業で分類するということに直面している。
上記のことを考慮して、最近、消費者の写真及びビデオの自動アルバム化が大きな関心を集めている。自動アルバム化に対する一つの人気のあるアプローチは、デジタル画像及びビデオを日付順及び画像コンテンツ内の視覚的な類似性によるイベントに従って組織化することである。例えば、非特許文献1には、デジタル画像のグループがどのようにして自動的にイベントにクラスタ化されることができるかが記載されている。
A.C.Loui及びA.Savakis,「Automated event clustering and quality screening of consumer pictures for digital albuming(デジタルアルバム化のための消費者写真の自動イベントクラスタ化及び質のスクリーニング)」,IEEE Trans. on Multimedia,2003年,Vol.5,No.3,p.390−402
画像の基本的なクラスタ化は単一のイベントに関連しているように見える画像をグループ化することができるが、自動アルバム化プロセスを改善するために、クラスタ化されたイベントに意味論的意味(semantic meanings)のタグ付けをすることができることが望ましいであろう。しかし、意味論的イベントの検出は、基本的な問題を提示する。第1に、実用的なシステムは、デジタル静止画像及びビデオを同時に処理することができる必要がある。これは、しばしば両方が、実際の消費者画像コレクションに存在するからである。第2に、実用的なシステムは実際の消費者コレクション内の様々な意味論的コンテンツを収容し、それによって、各々の特定の意味論的イベントを検出する特定の個別の方法の代わりに、異なる意味論的イベントを検出する包括的な方法を組み込んだシステムを提供することを望ましくする必要がある。最後に、実用的なシステムは、識別及び分類における誤りを防ぐために、ロバストである必要がある。
本発明は、デジタル画像コンテンツ記録における意味論的イベント検出のためのシステム及び方法を提供する。特に、イベントレベルの「Bag−of−Features(特徴のバッグ)」(BOF)表現がイベントをモデル化するために使用され、包括的な意味論的イベントが、BOF表現に基づいて、元の低レベルの視覚的特徴空間の代わりに概念空間で検出される。
好適な実施形態では、イベントレベル表現が開発され、そこでは各イベントがBOF特徴ベクトルによってモデル化され、BOF特徴ベクトルに基づいて意味論的イベント検出器が直接的に構築される。分類器の訓練のために画像レベル特徴ベクトルが使用される単純なアプローチに比べて、本発明は、イベント内の難しい画像又は誤って組織化された画像に対して、よりロバストである。例えば、任意の所与のイベントにおいて、いくつかの画像は分類が難しいことがある。これらの困難な画像は、通常、決定境界を複雑にし、モデル化を困難にする。イベントレベル特徴表現を適用することによって、イベントレベルの測定における困難な又は誤ったデジタル静止画像及びビデオセグメントの影響を減らすことによって、感度の問題を避けることができる。後述のように、良好な検出性能が、サポートベクトルマシン(Support Vector Machine,SVM)分類器に対する少数のサポートベクトルで達成され得る。すなわち、分類の問題が、イベントレベル表現によって顕著に単純化され得る。
好適な実施形態では、あるイベントに関連した画像記録のグループの意味論的イベント分類を容易にする方法が提供され、その方法は、画像記録の各々から複数の視覚的特徴を抽出するステップと、それらの視覚的特徴を使用して画像記録の各々に対して複数の概念スコアを生成するステップであって、各概念スコアが視覚的概念に対応し、且つ各概念スコアは画像記録がその視覚的概念を含む確率を示す、ステップと、画像記録の概念スコアに基づいてそのイベントに対応する特徴ベクトルを生成するステップと、イベント分類器に特徴ベクトルを供給するステップであって、当該イベント分類器は、当該イベントに対応する少なくとも一つの意味論的イベント分類器を特定する、ステップと、を含む。
画像記録は、少なくとも一つのデジタル静止画像及び少なくとも一つのビデオセグメントを含み得る。したがって、このシステムは、通常はデジタル静止画像及びビデオセグメントの両方を含む実生活の消費者画像データセットを取り扱うことができる。
複数の視覚的特徴の抽出は、ビデオセグメントからのキーフレームの抽出、ならびにキーフレーム及びデジタル静止画像の両方からの複数の視覚的特徴の抽出を含む。それから初期概念スコアが、抽出された視覚的特徴の各々に対応する各キーフレーム及び各デジタル静止画像に対して生成される。それから好ましくは、アンサンブル概念スコアが、初期概念スコアに基づいて各キーフレーム及び各デジタル静止画像に対して生成される。
アンサンブル概念スコアは好ましくは、所与のキーフレーム又は所与のデジタル静止画像に対する各々の抽出された視覚的特徴に対する個別の概念スコアを融合することによって生成される。
意味論的イベント分類器がひとたび特定されると、デジタル静止画像及びビデオセグメントは、画像及びビデオセグメントの適切な分類、記憶、及び検索を容易にするためにタグ付けされることができる。
本発明に従った意味論的イベント検出システムの模式的ブロック図である。 図1に描かれた意味論的イベント検出システムによって利用される処理モジュールを描いた流れ図である。 意味論的イベント検出のために図1に描かれたシステムを訓練するために利用される処理モジュールを描いた流れ図である。 図1に描かれたシステムで使用される概念検出器を訓練するために利用される処理モジュールを描いた流れ図である。 テストプロセスで使用される異なる意味論的イベントを、それらの詳細な定義を含めて描いた表である。 図1に描かれたシステムの結果と、BOF特徴ベクトルが元の低レベルの視覚的特徴に基づいて構築される従来のアプローチとの比較を描いたグラフである。 本発明の結果を、ベースラインイベント検出器の結果、及び画像レベル概念スコア表現を直接的に使用するSVM検出器(SVM−Direct)の結果と比較するグラフである。 SVM−Direct方法と比較して本発明によって要求されるサポートベクトルの数を比較するグラフである。
本発明は、ある好適な実施形態及び添付の図面を参照して記述される。
複雑な意味論的イベントは通常は初歩的な視覚的概念の同時発生によって生成される。例えば、「結婚」は、「人々」「花」「公園」などのような視覚的概念に関連した意味論的イベントであり、あるパターンで進展する。一般的に、視覚的概念は、画像の画像コンテンツ特性として定義されることができ、通常は、特定のイベントを識別するために使用されるワード(word)よりも広いワードによって意味論的に表現される。したがって、視覚的概念は、特定のイベントに与えられることができる画像コンテンツ特性のサブセットを形成する。
本発明では、初歩的な視覚的概念が最初に画像から検出され、意味論的イベント検出器が、元の低レベルの特徴空間の代わりに概念空間に構築される。そのようなアプローチからの恩恵は、少なくとも2つの局面を含む。第1に、視覚的概念は、元の低レベルの特徴よりも高レベルであり、且つより直観的である。S.EbadollahiらのIEEE ICME(2006)「Visual event detection using multi dimensional concept dynamics(多次元概念ダイナミクスを使用する視覚的イベント検出)」に記述されているように、概念スコアは、意味論的イベントをモデル化するために強力である。第2に、本発明における概念空間は、好ましくは、例えばS.F.ChangらのACM MIR(2007)「Multimodal semantic concept detection for consumer video benchmark(消費者ビデオベンチマークのための多モード意味論的概念検出)」に記述されているように、意味論的概念検出器によって形成され、例えばA.C.LouiらのACM MIR(2007)「Kodak consumer video benchmark data set: concept definition and annotation(コダック消費者ビデオベンチマークデータセット:概念の定義と注釈付け)」に記述されたタイプの既知の消費者電子画像データセットで訓練される。これらの意味論的概念検出器は、以前の画像データセットから付加的な情報を組み込む重要な役割を果たし、現在の画像データセットにおける意味論的イベントを検出する手助けをする。
例えば、上述のデータセットが実際の消費者からのデジタル静止画像及びビデオセグメントを含むと仮定すると、データセット全体が最初にマクロイベントのセットに区分され、各マクロイベントがさらにイベントのセットに区分されることが望ましい。この区分は、好ましくは、上述の以前に開発されたイベントクラスタ化アルゴリズムを使用することによって、ビデオセグメントの各デジタル静止画像の撮影時間及びそれらの間の色の類似性に基づく。例えば、Etがt番目のイベントを指し、mp t個の写真及びmv t個のビデオを含むとする。Ii t及びVj tは、Etにおけるi番目の写真及びj番目のビデオを指す。画像はこのアルゴリズムを使用してイベントにグループ化又はクラスタ化されることができるが、イベント自身は、意味論的な意味で識別されたり関連付けられたりはしない。したがって、本発明のゴールは、特定の意味論的意味、すなわち、特定のイベントEt及びそのイベントに対応する画像記録に対して、「結婚」及び「誕生日」のような意味論的イベントSEのタグ付けをすることである。
「人々」「公園」及び「花」のような、同時に発生する視覚的概念によって意味論的イベントが生成されることが仮定されるであろう。ここでC1、…、CNはN個の視覚的概念を示す。上述の視覚的概念検出器を使用して、21個(N=21)のSVMベースの概念検出器が、適用されたデータセットに対して、好ましくは低レベルの色、テクスチャ、及びエッジの視覚的特徴を使用して形成される。これらの意味論的概念検出器は、各画像Ii tに対する21個の個別の概念スコアp(C1,Ii t),…,p(CN,Ii t)を生成するために適用されることができる。これらの概念スコアはそれから、以下により詳細に記述されるように、概念空間における画像Ii t
Figure 0005351958
と表現するための特徴ベクトルを形成するために使用される。
実際の消費者からのビデオセグメントは、通常は一つの長い撮影映像(ロングショット)からの様々な視覚的コンテンツを有するので、各ビデオVj tは、好ましくはセグメントVt j,1,…,Vt j,mjのセットに区分される。各セグメントは所与の長さ(例えば5秒)を有する。それからキーフレームが、ビデオセグメントから一様に周期的にサンプリングされる(例えば0.5秒ごとに)。例えば、It j,k,lがk番目のセグメントVt j,kのl番目のキーフレームであるとすると、そのときには、It j,k,lはまた、デジタル静止画像と同じように概念空間内の特徴ベクトル
Figure 0005351958
によっても表現されることができる。上述されたものとは異なるサンプリングレートが容易に使用され得ることが理解されるであろう。
デジタル静止画像及びビデオセグメントの両方が、xによって表されるデータポイントとして定義されることができる。例えば、イベントEtは合計で、
Figure 0005351958
のデータ点を含み、
Figure 0005351958
はEtにおけるmv t個のビデオクリップからのビデオセグメントの全数である。意味論的イベント検出器がそれから、これらのデータ点、及び概念スコアから開発された対応する特徴ベクトルに基づいて、実行される。
BOF表現は、画像に対する包括的概念を検出するために有効であることが証明されてきている。例えば、J.Sivic及びA.Zisserman,「Video google: a text retrieval approach to object matching in videos(ビデオグーグル:ビデオにおけるオブジェクトマッチングに対するテキスト検索アプローチ)」,ICCV,pp.1470-1477(2003)を参照のこと。BOFでは、画像は、順序なしのローカル記述子のセットによって表現される。クラスタ化技術を通して、中レベルの視覚的語彙が構築され、そこでは各々の視覚的ワードがローカル記述子のグループによって形成される。各々の視覚的ワードは、画像を記述するためのロバストで且つノイズが除去された視覚的用語であるとみなされる。
例えば、SEが意味論的イベント、例えば「結婚」を指し、E1,…,EMがこの意味論的イベントを含むM個のイベントを指すとする。各Etは、mt p個の写真及び
Figure 0005351958
個のビデオセグメントによって形成されている。視覚的語彙と同様に、概念語彙が、これら
Figure 0005351958
のデータ点(ここで、
Figure 0005351958
)をn個の概念ワードにクラスタ化することによって構築されることができる。各概念ワードは、SEを含む全てのイベントを記述するための共通の特性である概念同時発生のパターンとして取り扱われることができる。特に、静止ビデオ画像及びビデオデータ点の両方を収納するために、スペクトルクラスタ化アルゴリズム(例えばA.Y.Ng,M.Jordan及びY.Weiss,「On spectral clustering: analysis and an algorithm(スペクトルクラスタ化について:分析及びアルゴリズム)」,Advances in NIPS(2001)を参照のこと)が適用されて、アースムーバーの距離(Earth Mover’s Distance,EMD)によって測定されたペアワイズ類似性(pairwise similarity)に基づいて概念語彙を構築する。EMDは、Y.Rubner,C.Tomasi及びL.Guibas,「The earth mover's distance as a metric for image retrieval(画像検索のための指標としてのアースムーバーの距離)」,IJCV(2000)に記述されている。
各データ点は画像のセットとして取り扱われる。すなわち、静止ビデオ画像に対して一つの画像、及びビデオセグメントに対して複数の画像である。それから、2つのデータ点(画像セット)の間の類似性を測定するためにEMDが使用される。2つの画像セットの間の距離を計算するためには多くの方法があり、例えば、これら2つのセットにおける画像の間の最大/最小/平均距離がある。これらの方法は雑音の多い異常画像(outlier images)によって容易に影響されるが、EMDは、よりロバストな距離指標を提供する。EMDは、重み正規化された制約の対象となる2つの画像セットの間の対距離(pairwise distance)の全てにおいて最小の重み付け距離を見出し、データ点の間の部分的なマッチングを許容し、異常画像の影響を低減することができる。
2つのデータ点の間のEMDは、以下のようにして計算される。データ点x1及びx2にそれぞれn1個及びn2個の画像があるとする。x1及びx2の間のEMDは、任意の2つの画像I1 p∈x1及びI2 q∈x2の間のフローf(Ip 1,Iq 2)によって重み付けされたグラウンド距離d(Ip 1,Iq 2)の線形組み合わせである。
Figure 0005351958
ここで、最適フローマトリクスf(Ip 1,Iq 2)は、以下の線形プログラムから得られる。
Figure 0005351958
ここで、w1 p及びw2 qはそれぞれデータ点x1及びx2における画像Ip 1及びIq 2の重みである。ここで、等しい重みw1 p=1/n1及びw2 q=1/n2を取る。概念スコア特徴に対するユークリッド距離が、距離d(Ip 1,Ip 2)として使用される。式(1)より、EMDは、2つのデータ点における最もマッチする画像の対を見出す。重み正規化制約は、各画像が他のセットで十分なマッチングを有することを確実にする。x1及びx2の両方が写真であるときには、EMDは単にユークリッド距離である。この対のEMDはそれから、ガウス関数S(x1,x2)=exp(−D(x1,x2)/r)によって、ペアワイズ類似性に変換される。ここで、rは全訓練データ点の間の全ての対の距離の平均である。
上記で言及したスペクトルクラスタ化は、データ点の対の間の類似性からなるデータセットにおけるグループを見出すための技術である。ここで、エング(Ng)らにより開発されたアルゴリズムが適用され、以下のように記述されることができる。類似性マトリクスS(xi,xj)が与えられると、
・アフィンマトリクスAij=S(xi,xj) (i≠jの場合),かつAii=0を得る。
・対角線マトリクスDij=Σjijを定義する。L=D-1/2AD-1/2を得る。
・最大のものから順にn個の固有値に対応するLの固有ベクトル
Figure 0005351958
を見出し、
Figure 0005351958
を得る。ここで、nは、保持すべき固有値のエネルギー比によって決定される。
・Uの行が単位長さを有するように再正規化することによって、UからマトリクスVを得る。
・Vにおける各行をRn(元のi番目のデータ点に対応するi番目の行)における点として取扱い、K−meansアルゴリズムを介して全ての点をn個のクラスタにクラスタ化する。
スペクトルクラスタ化アルゴリズムによって得られる各データクラスタは概念ワードと呼ばれ、全てのクラスタは、意味論的イベントを表し且つ検出するための概念語彙を形成する。Wj iが意味論的イベントSEiに対して学習されたj番目のワードを表し、S(x,Wj i)が、xとWj iにおけるメンバ・データ点(member data points)との間の最大類似性として計算されたワードWj iに対するデータxの類似性を指すとする。
Figure 0005351958
であり、ここで、S(xk,x)は上記と同じように定義される。各データxに対して、ベクトル[S(x,W1 i),…,S(x,Wn i)]Tが、xに対するBOF特徴ベクトルとして取り扱われることができる。イベントEtがmt個のデータ点を含むとし、上記のBOF特徴ベクトルに基づいて、イベントEtはまた、BOF特徴ベクトル
Figure 0005351958
によって、
Figure 0005351958
として表されることもできる。最後に、BOF特徴
Figure 0005351958
を使用すると、二値化された一対全SVM分類器が、意味論的イベントSEiを検出するために学習されることができる。
ここで図1を参照すると、本発明のある実施形態に従ったデジタルコンテンツ記録のための意味論的イベント検出のためのシステム100が描かれている。このシステム100は、データ処理ユニット110、周辺ユニット120、ユーザインターフェースユニット130、及びメモリユニット140を含む。メモリユニット140、周辺ユニット120、及びユーザインターフェースユニット130は、データ処理システム110に通信的に接続されている。
データ処理システム110は一以上のデータ処理装置を含み、このデータ処理装置が、ここで記述される図2〜4の例示的なプロセスを含む本発明の様々な実施形態のプロセスを実現する。「データ処理装置」又は「データプロセッサ」という表現は、中央処理装置(CPU)、デスクトップコンピュータ、ラップトップコンピュータ、メインフレームコンピュータ、個人デジタル端末、ブラックベリーTM、デジタルカメラ、携帯電話、あるいは、電気的、磁気的、光学的、生物学的構成要素とともに実現されるか又はその他の方法で実現された任意の他のデータ処理、データ管理、又はデータ取扱いのための装置のような任意のタイプのデータ処理装置を含むことが意図されている。
メモリユニット140は情報を記憶するように構成された一以上のメモリ装置を含み、記憶される情報は、ここで記述される図2〜4の例示的なプロセスを含む本発明の様々な実施形態のプロセスを実行するために必要とされる情報を含む。メモリユニット140は分散プロセッサアクセス可能メモリシステムであってもよく、これは、複数のコンピュータ及び/又は装置を介してデータ処理システム110に通信的に接続された複数プロセッサアクセス可能メモリを含む。一方、メモリユニット140は、分散プロセッサアクセス可能メモリシステムである必要は無く、したがって単一のデータプロセッサ又は装置内に配置された一以上のプロセッサがアクセス可能なメモリを含み得る。さらに、「メモリユニット」という表現は、揮発性又は不揮発性、電子的、磁気的、光学的、又はその他のものであってもよい任意のプロセッサアクセス可能データ記憶装置を含むことが意図されており、これは、フロッピー(登録商標)ディスク、ハードディスク、コンパクトディスク、DVD、フラッシュメモリ、ROM、及びRAM、又は任意の他のデジタル記憶媒体を含むが、これらに限定されるものではない。
「通信的に接続された」という表現は、有線であっても無線であっても、データが通信され得る装置、データプロセッサ、又はプログラムの間の任意のタイプの接続を含むことが意図されている。さらに、「通信的に接続された」という表現は、単一のデータプロセッサ内の装置又はプログラム間の接続、異なるデータプロセッサに配置された装置又はプログラム間の接続、及びデータプロセッサには全く配置されていない装置間の接続を含むことが意図されている。この点に関して、メモリユニット140はデータ処理システム110から離れて示されているが、当業者は、メモリユニット140がデータ処理システム110内に完全に又は部分的に実現され得ることを理解するであろう。さらに、この点に関して、周辺システム120及びユーザインターフェースシステム130がデータ処理システム110から離れて示されているが、当業者は、それらのシステムの一方又は両方がデータ処理システム110内に完全に又は部分的に実現され得ることを理解するであろう。
周辺システム120は、データ処理システム110にデジタルコンテンツ記録を提供するように構成された一以上の装置を含み得る。例えば、周辺システム120はデジタルビデオカメラ、携帯電話、通常のデジタルカメラ、又はその他のデータプロセッサを含み得る。加えて、周辺システム120は、データ処理システム110を離れたデータ源に接続するために必要な機器、装置、回路などを含み得る。例えば、システム100は、インターネットを介して、データセットが記憶されるサーバーにリンクされ得る。データセットは、システム100を訓練するために使用されるデジタルコンテンツ記録のデータセット、あるいは、システム100によって分析されるべきデジタルコンテンツ記録を含むデータセットを含み得る。データ処理システム110は、周辺システム120内の装置からデジタルコンテンツ記録を受領すると、そのようなデジタルコンテンツ記録を、さらなる処理のためにプロセッサアクセス可能メモリシステム140に記憶し得て、あるいは、十分な処理パワーが利用可能であれば、受領したデータストリームとしてリアルタイムでデジタルコンテンツ記録を分析し得る。
ユーザインターフェースシステム130は、マウス、キーボード、他のコンピュータ、又はデータがそこからデータ処理システム110に入力される任意の装置又は複数の装置の組み合わせを含み得る。これに関して、周辺システム120がユーザインターフェースシステム130から離れて示されているが、当業者は、周辺システム120がユーザインターフェースシステム130の一部として含まれ得ることを理解するであろう。
ユーザインターフェースシステム130はまた、ディスプレー装置、プロセッサアクセス可能メモリ、又はデータ処理システム110によってデータがそこに出力される任意の装置又は複数の装置の組み合わせを含み得る。これに関して、ユーザインターフェースシステム130がプロセッサアクセス可能メモリを含むならば、そのようなメモリは、ユーザインターフェースシステム130及びメモリユニット140が図1では離れて示されているが、メモリユニット140の一部であり得る。
システムの基本的な動作がここで図2を参照して記述される。これは図1に描かれたユニットの一以上によって実現される処理モジュールを描く流れ図である。処理モジュールがシステム100に設けられたユニットの一以上によって実行される指示を含むことが理解されるべきである。図示されている例では新しいイベント(E0)がデータエントリモジュール200を介してシステム100に与えられる。ここではE0が特定の意味論的イベントに属する確率が決定されることが望ましい。例えば、ユーザインターフェースユニット130を介して受領されたオペレータ指示に基づいて、データ処理ユニット110は、E0に対応するデータをメモリユニット140にダウンロードするように周辺ユニット120の動作を制御する。各イベントは、複数のデジタルコンテンツ記録を含み、図示されている例ではデジタル静止画像m0,p及びビデオコンテンツm0,vを含む。これらのデジタルコンテンツ記録は、撮影時刻及び色の類似性にしたがって、先に記述されたクラスタ化方法を利用して一緒にグループ化される。クラスタ化方法は、システム100への提出に先立って、静止デジタル画像及びビデオセグメントのデータセットに適用されることができる。あるいは、データセットがシステム100に与えられて、データエントリモジュール200が、E0を生成するためにデータ処理ユニット110の一つの動作要素としてクラスタ化動作を実行してもよい。
例えば、消費者は電子カメラを使用して、複数の異なるイベントの100個のデジタル静止画像及びビデオからなるデータセットを撮影し得る。電子カメラからのメモリカードが、周辺ユニット120の一部としてのカードリーダーユニットに提供される。ユーザインターフェースユニット130を介してユーザによって入力された制御指示に反応して、データ処理ユニット110は、データセットをメモリカードからメモリユニット140にダウンロードするように、周辺ユニット120の動作を制御する。データ処理ユニット110はそれから先に進んで、デジタル静止画像及びビデオを複数のイベントに対応する複数のクラスタにグループ化するために、データセットに対してクラスタ化アルゴリズムを実行する。これにより、データエントリモジュール200内に提供された指示の機能が完了し、ある数のデジタル静止画像及びビデオ(例えば元の100個のうちの10個)が、E0に関連しているとして識別される。この時点で、10個のデジタル静止画像及びビデオがE0に関連付けられるが、E0は、「結婚」のような特定の意味論的イベントにはまだ関連付けられていない。
視覚的特徴抽出モジュール210がそれから使用されて、E0内のビデオセグメントからキーフレームを獲得し、キーフレーム及びE0内に含まれるデジタル静止画像の両方から視覚的特徴が抽出される。図示されている例では、視覚的特徴抽出モジュール210は、格子ベースの色モーメント、ガボール・テクスチャ(Gabor texture)、及びエッジ方向性ヒストグラムを、デジタル静止画像及びビデオの各々に対して決定する。しかし、図示されている例で使用されているもの以外の視覚的特徴が容易に利用され得ることが、理解されるであろう。
データ処理ユニット110は、視覚的特徴抽出モジュール210内に提供された指示にしたがって、E0とともに含まれるデジタル静止画像及びビデオの各々に対して、従来の技術を利用して必要なキーフレーム及び視覚的特徴の抽出を実行する。したがって、E0に対応する10個のデジタル静止画像及びビデオの各々についての3つの視覚的特徴表現が、さらなる分析のためにここでは利用可能である。
特徴抽出モジュール210によって抽出された3つの視覚的特徴は、概念検出モジュール220によって使用されて、特定のキーフレーム又は静止デジタル画像が特定の意味論的イベントに関係している確率を反映した概念スコアを生成する。概念検出モジュール220は、好ましくは、2ステップのプロセスを使用して概念スコアを決定する。第1に、概念スコア検出モジュール222が設けられ、これは、21個の上記のSVM意味論的概念決定子(データ処理ユニット110によって実現される)を利用して、各デジタル静止画像及びキーフレームに対する各視覚的特徴空間における各々の個別の分類器に基づいて、概念スコアを生成する。第2に、個々の概念スコアがそれから融合モジュール224(データ処理ユニット110によって実現される)によって融合され、特定のデジタル静止画像及びキーフレームに対するアンサンブル概念検出スコアを生成し、それによって、さらに処理されるべきデータ量を低減する。
好適な実施形態では、融合モジュール224は最初に、異なる特徴からの異なる分類出力を、シグモイド関数1/(1+exp(−D))によって正規化する。ここで、Dは、決定境界までの距離を表すSVM分類器の出力である。融合は、21個の概念の各々に対する異なる視覚的特徴からの分類出力の平均を取ることによって完了されて、アンサンブル概念検出スコアを生成する。
簡単化された例では、3つの概念「人々」「公園」及び「花」が議論される。「人々」「公園」及び「花」に対する概念スコアが、E0の10個の画像の各々の3つの視覚的特徴表現の各々について生成される。例えば、10個の画像のグループの最初の画像の色の特徴表現は、人々を含む確率が90%、公園を含む確率が5%、及び花を含む確率が5%であり得て、最初の画像のテクスチャの特徴表現は、人々を含む確率が5%、公園を含む確率が80%、及び花を含む確率が15%であり得て、最初の画像のエッジ方向の特徴表現は、人々を含む確率が10%、公園を含む確率が50%、及び花を含む確率が40%であり得る。
10個の画像の3つの視覚的特徴表現が与えられると、30セットの概念スコアが生成され(各視覚的特徴表現に対して一つ)、各セットは3つの個別の概念スコア(「人々」に対して一つ、「公園」に対して一つ、及び「花」に対して一つ)を含む。最初の画像に対するアンサンブル概念スコアを生成するために、視覚的表現の各々に対する概念の各々についての確率が平均され、第1の画像のアンサンブル概念スコアは、人々を含む確率が35%(人々の確率として色90%、テクスチャ5%、エッジ5%の平均)、公園を含む確率が30%(公園の確率として色5%、テクスチャ80%、エッジ5%の平均)、及び花を含む確率が20%(花の確率として色5%、テクスチャ15%、エッジ40%の平均)となる。
アンサンブル概念スコアは引き続いてBOFモジュール230に与えられ、これがE0に対するBOFベクトルを決定する。E0に対するBOF特徴ベクトルは、最初に、各々の各デジタル静止画像及びビデオセグメントのアンサンブル概念スコアを使用してE0内に含まれるデジタル静止画像及びビデオセグメントの各々に対する個別の特徴ベクトルを決定することによって得られる。好適な実施形態では、各デジタル静止画像又はビデオセグメントはデータ点として扱われて、E0内の各データ点のアンサンブル概念スコアの間のペアワイズ類似性、及び所与の意味論的イベント(SE)、例えば「結婚」に対する各々の予め定められた正の訓練データ点のアンサンブル概念スコアが、それからEMDを使用して類似性検出モジュール232によって計算される。効果的には、個別の特徴ベクトルは、E0内に含まれるデジタル静止画像及びビデオセグメントの各々に対して得られる。マッピングモジュール234がそれから、E0の個別の特徴ベクトルの各々を意味論的イベントのコードブック(以下により詳細に記述される訓練プロセスの間に先に開発されている)にマッピングするために使用され、E0に対するイベント特徴ベクトルが、マッピングされた類似性に基づいて生成される。
イベント特徴ベクトルが、ここで分類器モジュール240に供給されることができる。描かれている例では、分類器モジュール240はSVM分類器を使用して、E0に対するイベント検出スコアを生成する。イベント検出スコアは、新しいイベントE0が「結婚」のような所与の意味論的イベントに対応する最終的な確率を表す。イベント検出スコアはそれから、好ましくは予め定められた閾値と比較され、E0が結婚イベントとしてカテゴリ化されるべきかどうかが決定される。予め定められた閾値は、所与のアプリケーションにてシステム100によって要求される正確さのレベルに依存して変化してもよい。
ひとたびE0が適切にカテゴリ化されると、E0に対応する静止デジタル画像及びビデオセグメントが、適切な意味論的イベント分類器でタグ付けされ、適切なアルバムフォルダ又はファイルに分類されて、後の検索のためにメモリユニット140内に記憶されることができる。あるいは、タグ付けされた静止デジタル画像及びビデオセグメントは、周辺ユニット120を介して画像記憶媒体に書き込まれることができる。静止デジタル画像及びビデオセグメントの意味論的イベント分類器によるタグ付けは、画像及びビデオセグメントがサーチエンジンによって容易に検索されることを可能にするという付加的な効果を提供する。
システム100の訓練が、ここで図3を参照して記述される。最初に、T個の正の訓練イベントE1,…,ETが、データエントリモジュール200を使用して入力される。各イベントEtは、mt,p個の写真及びmt,v個のビデオを含み、これらは、先に記述されたクラスタ化方法によって、撮影時間及び色の類似性にしたがってグループ化されている。視覚的抽出モジュール210がそれから使用されて、ビデオセグメントからキーフレームを抽出し、キーフレーム及びデジタル静止画像の両方から視覚的特徴が抽出される。上述の動作の場合と同様に、視覚的特徴は、格子ベースの色モーメント、ガボール・テクスチャ、及びエッジ方向性ヒストグラムを含む。概念検出モジュール220がそれから使用されて、上述のようにキーフレーム及びデジタル画像に対するアンサンブル概念スコアを生成する。
BOF学習モジュール250がそれから使用されて、システム100を訓練する。最初に、各デジタル画像又はビデオセグメントがデータ点として取り扱われて、データ点の各々の対の間のペアワイズ類似性が、先に記述された類似性検出モジュール232を使用してEMDによって計算される。ペアワイズ類似性マトリクスに基づいて、スペクトルクラスタ化モジュール252が使用されてスペクトルクラスタ化を適用し、データ点を異なるクラスタにグループ化する。ここで、各クラスタは一つのコードワードに対応する。意味論的イベントSEを検出するために分類器を訓練するために、全ての訓練イベントEi(EiはSEに対する正の訓練イベント及び負の訓練イベントの両方を含む)が上述のコードブックにマッピングされて、マッピングモジュール254によって各訓練イベントに対するBOF特徴ベクトルが生成される。BOF特徴ベクトルに基づいて、分類器訓練モジュール260が使用されて、特定の意味論的イベントSEを検出するように二値化SVM分類器を訓練する。
図4は、概念スコア検出モジュール222で使用されるビデオ概念検出器のための訓練プロセスの詳細を描いている。概念Cに対して、ベンチマーク消費者ビデオデータセットからN個の正の訓練ビデオがデータエントリモジュール200を介して提供される。キーフレームがビデオから得られて、視覚的特徴が、先の例におけるように視覚的特徴抽出モジュール210を使用してキーフレームから得られる。視覚的特徴は、格子ベースの色モーメント、ガボール・テクスチャ、及びエッジ方向性ヒストグラムを含む。概念訓練モジュール270がそれから使用されて、概念決定子を訓練する。すなわち、視覚的特徴の各タイプに基づいて、各キーフレームは特徴ベクトルとして表されて、二値化SVM分類器が概念Cを検出するように訓練される。特徴の個々のタイプに対するこれらの分類器の判別機能が一緒に平均されて、概念Cに対するアンサンブル概念検出器を生成する。
上述された意味論的決定システム及び方法のテストが、コダックの消費者データセットから1972個の消費者イベントを評価することによって実行された。イベントは10個の異なる意味論的イベントにラベルされ、その詳細な定義が、図5に与えられた表に示されている。合計1261個のイベントが訓練のためにランダムに選択され、残りはテストのために使用された。訓練及びテストデータはマクロイベントレベルで区分された。すなわち、同じマクロイベントからのイベントが、訓練又はテストデータとして一緒に扱われた。これは、同じマクロイベントからの類似のイベントが分離されることを避けるためであり、分類問題を単純化する。
平均精度(average precision,AP)が性能の指標として使用されたが、これは、ビデオ概念検出のための公式指標として使用されている。例えば、ニスト(Nist)の「ツリービデオ検索評価(Tree video retrieval evaluation (treevid))」,2001−2006,http://www--nlpir.nist.gov/projects/treevidを参照のこと。これは、精度−再生曲線における異なる再生点での精度値の平均を計算し、これにより特定の意味論的イベントを検出する際の分類器の有効性を評価する。複数の意味論的イベントを考慮するときには、APの平均(mean of APs,MAP)が使用される。
意味論的イベント検出アルゴリズムにおける概念スコア表現の有効性を示すために、本発明の方法とBOF特徴ベクトルが元の低レベルの視覚的特徴に基づいて構築されるアプローチとを比較する実験が行われた。具体的には、上述のS.F.Changらに記述されたものと同じ低レベルの視覚的特徴が使用された。図6は、性能の比較を与える。図6に示されるように、両方の方法は、一致してランダム推測よりも性能がよい。しかし、概念スコアを伴うSE検出は、大抵の概念について、APに関して低レベル特徴を伴うSE検出よりも性能がよく、MAPに関しては20.7%よい。この結果は、意味論的イベントの検出を手助けするために先の概念検出モデルを使用するパワーを確かめるものである。
第2の実験が行われ、イベントレベル表現対画像レベル表現の比較を行った。この実験では、本発明の意味論的検出方法(SE検出)と2つの他の検出器、すなわち(1)ベースラインイベント検出器(ベースライン)及び(2)画像レベル概念スコア表現を直接的に使用するSVM検出器(SVMダイレクト)との間の比較が行われた。図7は、異なる方法のAP比較を与える。示されるように、提案されるSE検出は意味論的イベントの大抵に対して最も良く機能し、「結婚」「クリスマス」及び「学校活動」のような多くの意味論的イベントに対して、2番目に良い方法に比べて20%より多くの顕著な性能の改善を得ている。この結果は、イベントレベルBOF表現の成功を確かめるものである。加えて図8は、異なるアルゴリズムからのサポートベクトルの数の比較を与える。一般的に、サポートベクトルが少ないほど、決定境界が単純になる。図より、決定境界は、イベントレベル表現によって顕著に単純化され、SVM分類器は意味論的イベントを非常によく分離することができている。さらに、ベースライン検出器及びSE検出による「動物」に対するトップ5個の検出イベントの比較は、SE検出方法が100%の精度を達成することができるのに対して、画像ベースのSVMダイレクト方法は20%の精度しか得ることができないことを示した。

Claims (2)

  1. イベントに関連する画像記録のグループの意味論的イベント分類を容易にする方法であって、
    前記画像記録の各々から複数の視覚的特徴を抽出するステップと、
    前記視覚的特徴を使用して前記画像記録の各々に対する複数の概念スコアを生成するステップと
    前記画像記録の前記概念スコアに基づいて、各イベントを記述するためのBOF特徴ベクトルを、意味論的イベントに対応する予め定められたコードブックに前記イベントの前記画像記録の前記概念スコアをマッピングすることにより生成するステップと、
    前記イベントに意味論的イベントが現れる確率の指標である検出スコアを生成する意味論的イベント分類器に前記マッピングされた特徴ベクトルを供給するステップと、
    を包含し、
    各前記概念スコアは、視覚的概念に対応し、前記画像記録が前記視覚的概念を含む確率の指標であることを特徴とする方法。
  2. 請求項1に記載のイベントに関連する画像記録のグループの意味論的イベント分類を容易にする方法であって、
    前記画像記録の対の間のペアワイズ類似性を決定するステップと、
    スペクトルクラスタ化を適用して、前記決定されたペアワイズ類似性に基づいて、前記意味論的イベントの訓練画像記録を各クラスタが一つのコードワードに対応する異なるクラスタにグループ化することによって各前記意味論的イベントの前記コードブックを生成するステップと、
    前記訓練イベントの前記画像記録の前記概念スコア意味論的イベントに対応する前記コードブックにマッピングして、各前記訓練イベントを記述するためのBOF特徴ベクトルを生成するステップと、
    前記イベント分類器を前記訓練イベントに対応する前記BOF特徴ベクトルに基づいて訓練するステップと、
    を包含する訓練プロセスを有することを特徴とする方法。
JP2011512451A 2008-06-02 2009-05-22 デジタルコンテンツ記録のための意味論的イベント検出 Expired - Fee Related JP5351958B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5820108P 2008-06-02 2008-06-02
US61/058,201 2008-06-02
US12/331,927 US8358856B2 (en) 2008-06-02 2008-12-10 Semantic event detection for digital content records
US12/331,927 2008-12-10
PCT/US2009/003160 WO2009148518A2 (en) 2008-06-02 2009-05-22 Semantic event detection for digital content records

Publications (3)

Publication Number Publication Date
JP2011525012A JP2011525012A (ja) 2011-09-08
JP2011525012A5 JP2011525012A5 (ja) 2012-05-17
JP5351958B2 true JP5351958B2 (ja) 2013-11-27

Family

ID=41379891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011512451A Expired - Fee Related JP5351958B2 (ja) 2008-06-02 2009-05-22 デジタルコンテンツ記録のための意味論的イベント検出

Country Status (4)

Country Link
US (1) US8358856B2 (ja)
EP (1) EP2289021B1 (ja)
JP (1) JP5351958B2 (ja)
WO (1) WO2009148518A2 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100052676A (ko) * 2008-11-11 2010-05-20 삼성전자주식회사 컨텐츠 앨범화 장치 및 그 방법
US8611677B2 (en) * 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
US8406460B2 (en) 2010-04-27 2013-03-26 Intellectual Ventures Fund 83 Llc Automated template layout method
US8406461B2 (en) 2010-04-27 2013-03-26 Intellectual Ventures Fund 83 Llc Automated template layout system
US8970720B2 (en) 2010-07-26 2015-03-03 Apple Inc. Automatic digital camera photography mode selection
JP5598159B2 (ja) * 2010-08-23 2014-10-01 株式会社ニコン 画像処理装置、撮像システム、画像処理方法、およびプログラム
US20130132377A1 (en) * 2010-08-26 2013-05-23 Zhe Lin Systems and Methods for Localized Bag-of-Features Retrieval
JP5649425B2 (ja) * 2010-12-06 2015-01-07 株式会社東芝 映像検索装置
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8635197B2 (en) 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US20120275714A1 (en) * 2011-04-27 2012-11-01 Yuli Gao Determination of an image selection representative of a storyline
US9055276B2 (en) 2011-07-29 2015-06-09 Apple Inc. Camera having processing customized for identified persons
US8983940B2 (en) 2011-09-02 2015-03-17 Adobe Systems Incorporated K-nearest neighbor re-ranking
US8634660B2 (en) * 2011-09-07 2014-01-21 Intellectual Ventures Fund 83 Llc Event classification method using lit candle detection
US8634661B2 (en) 2011-09-07 2014-01-21 Intellectual Ventures Fund 83 Llc Event classification method using light source detection
US20130058577A1 (en) * 2011-09-07 2013-03-07 Peter O. Stubler Event classification method for related digital images
US8805116B2 (en) 2011-09-17 2014-08-12 Adobe Systems Incorporated Methods and apparatus for visual search
EA201590485A1 (ru) * 2012-09-05 2015-12-30 Элемент, Инк. Система и способ биометрической аутентификации с использованием устройств, снабженных камерами
US8880563B2 (en) 2012-09-21 2014-11-04 Adobe Systems Incorporated Image search by query object segmentation
US9898685B2 (en) 2014-04-29 2018-02-20 At&T Intellectual Property I, L.P. Method and apparatus for analyzing media content
US9451335B2 (en) 2014-04-29 2016-09-20 At&T Intellectual Property I, Lp Method and apparatus for augmenting media content
US9913135B2 (en) 2014-05-13 2018-03-06 Element, Inc. System and method for electronic key provisioning and access management in connection with mobile devices
JP6415607B2 (ja) 2014-06-03 2018-10-31 エレメント,インク. モバイル・デバイスに関連する出退認証および管理
CN105335595A (zh) 2014-06-30 2016-02-17 杜比实验室特许公司 基于感受的多媒体处理
CN104133917B (zh) * 2014-08-15 2018-08-10 百度在线网络技术(北京)有限公司 照片的分类存储方法及装置
AU2014218444B2 (en) 2014-08-29 2017-06-15 Canon Kabushiki Kaisha Dynamic feature selection for joint probabilistic recognition
US10572735B2 (en) * 2015-03-31 2020-02-25 Beijing Shunyuan Kaihua Technology Limited Detect sports video highlights for mobile computing devices
CN104915685A (zh) * 2015-07-02 2015-09-16 北京联合大学 基于多矩形划分的图像表示方法
KR102225088B1 (ko) * 2015-10-26 2021-03-08 에스케이텔레콤 주식회사 상황 정보 기반의 태그 생성 방법 및 장치
US9961202B2 (en) * 2015-12-31 2018-05-01 Nice Ltd. Automated call classification
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20190019107A1 (en) * 2017-07-12 2019-01-17 Samsung Electronics Co., Ltd. Method of machine learning by remote storage device and remote storage device employing method of machine learning
MX2020002941A (es) 2017-09-18 2022-05-31 Element Inc Métodos, sistemas y medios para la detección de suplantación de identidad en la autenticación móvil.
CN108090199B (zh) * 2017-12-22 2020-02-21 浙江大学 一种大型图像集的语义信息提取和可视化方法
EP3938953A4 (en) 2019-03-12 2022-12-28 Element, Inc. FACIAL RECOGNITION SPOOFING DETECTION WITH MOBILE DEVICES
US11586861B2 (en) 2019-09-13 2023-02-21 Toyota Research Institute, Inc. Embeddings + SVM for teaching traversability
CN110781963B (zh) * 2019-10-28 2022-03-04 西安电子科技大学 基于K-means聚类的空中目标分群方法
US11507248B2 (en) 2019-12-16 2022-11-22 Element Inc. Methods, systems, and media for anti-spoofing using eye-tracking
CN111221984B (zh) * 2020-01-15 2024-03-01 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
US20230036109A1 (en) * 2020-02-27 2023-02-02 Panasonic Intellectual Property Management Co., Ltd. Image processing device and image processing method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6832006B2 (en) * 2001-07-23 2004-12-14 Eastman Kodak Company System and method for controlling image compression based on image emphasis
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US20030233232A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for measuring domain independence of semantic classes
US7383260B2 (en) * 2004-08-03 2008-06-03 International Business Machines Corporation Method and apparatus for ontology-based classification of media content
US7545978B2 (en) * 2005-07-01 2009-06-09 International Business Machines Corporation Methods and apparatus for filtering video packets for large-scale video stream monitoring
JP2007317077A (ja) * 2006-05-29 2007-12-06 Fujifilm Corp 画像分類装置および方法ならびにプログラム
US8165406B2 (en) * 2007-12-12 2012-04-24 Microsoft Corp. Interactive concept learning in image search

Also Published As

Publication number Publication date
US20090297032A1 (en) 2009-12-03
EP2289021A2 (en) 2011-03-02
JP2011525012A (ja) 2011-09-08
WO2009148518A2 (en) 2009-12-10
EP2289021B1 (en) 2013-01-02
US8358856B2 (en) 2013-01-22
WO2009148518A3 (en) 2010-01-28

Similar Documents

Publication Publication Date Title
JP5351958B2 (ja) デジタルコンテンツ記録のための意味論的イベント検出
US8213725B2 (en) Semantic event detection using cross-domain knowledge
Ali et al. A novel image retrieval based on visual words integration of SIFT and SURF
US20230376527A1 (en) Generating congruous metadata for multimedia
US9317781B2 (en) Multiple cluster instance learning for image classification
US8548256B2 (en) Method for fast scene matching
Quelhas et al. A thousand words in a scene
Galleguillos et al. Weakly supervised object localization with stable segmentations
US8837820B2 (en) Image selection based on photographic style
US8533204B2 (en) Text-based searching of image data
US20100226582A1 (en) Assigning labels to images in a collection
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
Amores et al. Context-based object-class recognition and retrieval by generalized correlograms
Abdullah et al. Fixed partitioning and salient points with MPEG-7 cluster correlograms for image categorization
Demirkus et al. Hierarchical temporal graphical model for head pose estimation and subsequent attribute classification in real-world videos
Jiang Super: towards real-time event recognition in internet videos
Abraham et al. Automatically classifying crime scene images using machine learning methodologies
Oussama et al. A fast weighted multi-view Bayesian learning scheme with deep learning for text-based image retrieval from unlabeled galleries
Wu et al. Discriminative two-level feature selection for realistic human action recognition
Jiang et al. Semantic event detection for consumer photo and video collections
Tao Visual concept detection and real time object detection
Borovikov et al. Face matching for post-disaster family reunification
Chen et al. An efficient framework for location-based scene matching in image databases
Jain Enhanced image and video representation for visual recognition
Shiue et al. Image retrieval using a scale-invariant feature transform bag-of-features model with salient object detection

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130311

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees