CN102414680A - 利用跨域知识的语义事件检测 - Google Patents

利用跨域知识的语义事件检测 Download PDF

Info

Publication number
CN102414680A
CN102414680A CN2010800128804A CN201080012880A CN102414680A CN 102414680 A CN102414680 A CN 102414680A CN 2010800128804 A CN2010800128804 A CN 2010800128804A CN 201080012880 A CN201080012880 A CN 201080012880A CN 102414680 A CN102414680 A CN 102414680A
Authority
CN
China
Prior art keywords
incident
semantic
notion
scoring
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800128804A
Other languages
English (en)
Other versions
CN102414680B (zh
Inventor
A·C·路易
W·江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mau new gate Venture Capital Co., Ltd.
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Priority to CN201810034963.1A priority Critical patent/CN108090232A/zh
Publication of CN102414680A publication Critical patent/CN102414680A/zh
Application granted granted Critical
Publication of CN102414680B publication Critical patent/CN102414680B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本发明涉及一种利于对与事件相关的一组图像记录进行语义事件分类的方法。该方法利用事件检测器系统提供:从每个图像记录中提取多个视觉特征;其中,所述视觉特征包括将图像记录分割成许多区域,在所述许多区域中提取所述视觉特征;利用所述视觉特征为每个图像记录生成多个概念评分,其中每个概念评分对应于视觉概念,并且每个概念评分表示图像记录包括视觉概念的概率;基于所述图像记录的概念评分生成对应于事件的特征向量;和提供所述特征向量给事件分类器,该事件分类器识别对应于所述事件的至少一个语义事件分类器。

Description

利用跨域知识的语义事件检测
技术领域
本发明涉及分类数字内容记录,例如数字静止图像或视频。具体地,本发明涉及基于语义事件(semantic event)检测对数字内容记录的分类。
背景技术
低成本的电子消费品成像技术的出现已经导致由普通用户捕获的数字图像数显著增加。事实上,随着时间的推移各种形式的电子存储器已经越来越便宜,用户已经倾向于拍摄更多的数字静止图像和视频,并且保留他们之前会丢弃的数字静止图像和视频。因此,普通用户面临着为了存储和稍后检索而适当地识别和分类数字图像的逐渐增加的难题。一般地,这种识别和分类通常是手动执行的,对用户而言这是极其耗时的过程。
仅仅作为一个示例,用户可以在假期期间去许多不同的地点旅游。用户可以在每个具体地点拍摄图像,并且在与其他主题类别或事件相关的每个地点拍摄图像。例如,用户可以在每个地点拍摄家庭成员图像、在每个地点拍摄具体事件图像并且在每个地点拍摄历史建筑图像。一旦从旅途返回,用户可以期望基于诸如人物、生日、博物馆等的各种分组整理数字图像,并基于分组将数字图像存储在电子相册中。目前用户面临着手动整理数百张数字静止图像和视频片段,为的是通过具体事件识别图像和视频。
考虑到以上问题,近年来用户照片和视频的自动归类已经获得了巨大的兴趣。自动归类的一个受欢迎的方法是根据事件按照时间顺序和图像内容的视觉相似度来组织数字图像和视频。例如,2003年,IEEETrans.on Multimedia,5(3):390-402,A.C.Loui和A.Savakis的“Automated event clustering and quality screening of consumer picturesfor digital albuming”中讨论了一组数字图像如何自动群集为事件,其内容被并入本发明作为参考。
尽管图像的基本群集可以将看起来与单个事件相关的图像分组,但是期望的是能够将语义的含义标注在群集的事件从而改善自动归类过程。然而,语义事件检测存在以下基本问题:首先,实际系统需要能够同时处理数字静止图像和视频,因为数字静止图像和视频两者通常存在于实际用户的图像全集中;第二,实际系统需要容纳实际用户全集中的不同语义内容,因而使其理想地提供包含检测不同的语义事件的一般方法而不是检测每个具体语义事件的具体的单独方法的系统;最后,实际系统需要是稳健的,可以预防识别和分类中的错误。
发明内容
根据本发明提供一种利于对与事件相关的一组图像记录进行语义事件分类的方法,所述方法利用事件检测器系统,以提供:
从每个图像记录中提取多个视觉特征;
其中,视觉特征包括将图像记录分割成许多区域,在区域中提取视觉特征;
利用视觉特征为每个图像记录生成多个概念评分,其中每个概念评分对应于视觉概念,每个概念评分表明图像记录包括视觉概念的概率;
基于图像记录的概念评分生成对应于事件的特征向量;以及
将特征向量供应给识别至少一个对应于该事件的语义事件分类器的事件分类器。
本发明提供一种数字图像内容记录中的语义事件检测的系统和方法。具体地,事件层次“特征包(Bag-of-Features)”(BOF)表示用于模拟(model)事件,基于BOF表示在概念空间而不是原始的低层次视觉特征空间中检测一般/通用语义事件(generic semantic event)。
本发明的一个特征是视觉特征包括将图像记录分割成许多区域,提取区域中的视觉特征。这提供了更多描述内容的信息,并提高了语义理解。
本发明的另一个特征是用于生成特征向量的跨域学习。跨域学习基于图像层次或区域层次特征。这提供提高语义理解的一组更丰富的概念检测。
在优选的实施例中,开发了事件层次表示(event-levelrepresentation),其中由BOF特征向量模拟每个事件,基于BOF特征向量直接建立语义事件检测器。与图像层次特征向量用于训练分类器的过于简单的方法相比较,本发明对于事件内复杂的图像或错误地组织的图像方面更加稳健。例如,在任何给定的事件中,某些图像是很难去分类的。这些复杂图像通常使得判别边界复杂且难以模拟。通过采用事件层次特征表示,通过在测量事件层次的相似度时降低难懂的或错误的数字静止图像和视频片段的影响,能够避免敏感性问题。如将要示出的,利用支持向量机(SVM)分类器的少量的支持向量可以实现良好的检测性能,即,通过事件层次表示可以显著地简化分类问题。
附图说明
将参考本发明的某些优选实施例和附图描述本发明,在附图中:
图1是根据本发明的语义事件检测系统的示意性的方框图;
图2是示出生成由图1中所示的语义事件检测系统使用的基于词汇的事件表示的处理模块的流程图;
图3是示出生成用于训练图1中示出的语义事件检测系统的BOF事件词汇的处理模块的流程图;
图4是示出用于训练图1中所示系统中使用的概念检测器的处理模块的流程图;
图5是示出用于测试过程和包括详细定义的不同语义事件的表格;
图6是示出用于训练图1中所示的语义事件检测系统的处理模块的流程图;
图7是示出由图1中所示的语义事件检测系统使用的处理模块的流程图;
图8是示出用于训练区域层次概念检测器的处理模块的图;
图9是比较本发明中不同的单独类型的事件层次BOF表示在检测语义事件方面的性能的图表;
图10是比较合并不同类型的事件层次BOF表示与最好的单独类型的事件层次BOF表示在检测语义事件方面的结果的图表。
零件列表
100  系统
110  数据处理单元
120  外围单元
130  用户接口单元
140  存储器单元
200  数据输入模块
210  视觉特征提取模块
220  概念检测模块
222  概念评分检测模块
224  合并模块
230  bof模块
232  相似度检测模块
234  映射模块
241  分类器模块
250  特征包BOF事件层次表示(event-level representation)学习模块
252  谱群集(spectral clustering)模块
254  映射模块
260  分类器训练模块
270  概念训练模块
280  图像分割模块
290  区域层次视觉特征提取模块
300  区域层次概念检测模块
311  利用图像层次视觉特征模块的bog学习
312  利用图像层次概念评分模块的bof学习
313  利用区域层次概念评分模块的bof学习
314  利用区域层次视觉特征模块的bof学习
321  处理模块
322  模块
323  模块
324  处理模块
330  分类器训练模块
340  分类模块
350  区域层次概念训练模块
具体实施方式
复杂的语义事件通常由基本的视觉概念的同时存在而产生。例如,“婚礼”是与某些模式形成的(诸如“人”、“鲜花”、“公园”等)视觉概念相关联的语义事件。视觉概念一般被定义为图像的图像内容特性,且通常由比用于识别具体事件的字更广义的字来语义表示。因此,视觉概念形成可以有助于具体事件的图像内容特性的子集。
在本发明中,首先从图像检测基本的视觉概念,并且在概念空间中而不是原始低层次特征空间中建立语义事件检测器。这种方法的益处包括至少两个方面。第一,视觉概念是比原始低层次特征更高层次且更直观的描述符。正如S.Ebadollai等人2006年在IEEE ICME发表的“Visual event detection using multi-dimensional concept dynamics”中描述的(其内容被并入本发明作为参考),概念评分(concept score)在模拟(model)语义事件方面是强大的。第二,本发明中的概念空间优选地由语义概念检测器形成,这在例如S.F.Chang等人2007年在ACM MIR发表的“Multimodal semantic concept detection for consumervideo benchmark”中有所描述(其内容被并入本文作为参考),并且该语义检测器通过例如A.C.Loui等人2007年在ACM MIR的“Kodakconsumer video benchmark data set:concept definition and annotation”中描述的类型的已知用户电子图像数据集来训练,该文章的内容被并入本文作为参考。这些语义概念检测器在从先前图像数据集并入额外的信息以帮助检测当前图像数据集中的语义事件方面发挥重要的作用。
例如,假定以上描述的数据集包括来自真实用户的数字静止图像和视频片段,期望整个数据集首先被划分为一组宏观事件,且每个宏观事件进一步被划分为一组事件。通过利用以上描述的先前开发的事件群集算法(event clustering algorithm),划分优选地基于视频片段的每个数字静止图像的捕获时间和每个静止图像之间的颜色相似度。例如,假设Et表示含有
Figure BPA00001440159000061
张照片和
Figure BPA00001440159000062
个视频的第t个事件。
Figure BPA00001440159000064
表示Et中的第i张照片和第j个视频。尽管使用该算法将图像分组或群集成事件,事件本身并不由语义的含义识别或不与语义含义相关联。因此,本发明的目标是将具体的语义含义,即语义事件SE(诸如“婚礼”、“生日”)标注/加标签(tag)到具体的事件Et和对应于事件的图像记录。
将假定语义事件是由例如“人”、“公园”和“花”等同时发生的视觉概念产生的,其中C1,...,CN表示N个视觉概念。利用以上描述的语义概念检测器,通过在应用的数据集上采用低层次的颜色、纹理和边缘视觉特征,优选地开发21个(N=21)基于SVM的概念检测器。应用这些语义概念检测器生成每个图像
Figure BPA00001440159000065
的21个单独的概念评分
Figure BPA00001440159000066
然后这些概念评分用于形成特征向量,以将概念空间的图像
Figure BPA00001440159000067
表示为: f ( I i t ) = [ p ( C 1 , I i t ) , . . . , p ( C N , I i t ) ] T , 以下将更详细地描述。
由于来自真实用户的视频片段通常具有来自一次长拍的不同的视觉内容,每个视频优选地被划分为一组片段
Figure BPA000014401590000610
其中每个片段具有给定长短(例如五秒钟)。然后从视频片段中周期性均匀地(例如每半秒钟)采样关键帧。例如,假设
Figure BPA000014401590000611
是第k个片段中的第l帧,那么
Figure BPA000014401590000613
也可以由概念空间中的特征向量
Figure BPA000014401590000614
以相同的方式表示为数字静止图像。应当理解的是,可以容易地使用与以上所述不同的采样率。
数字静止图像和视频片段都被定义为由x表示的数据点。例如,事件Et包含总共
Figure BPA000014401590000615
个数据点,其中是来自Et
Figure BPA000014401590000617
个视频剪辑的整个视频片段数。然后基于这些数据点和由概念评分开发的相应的特征向量来执行语义事件检测。
已经证实BOF表示在检测图像的一般/通用概念(generic concept)方面是有效的。可以参考例如J.Sivic和A.Zisserman在2003年的“Videogoogle:a text retrieval approach to object matching in videos”,ICCV,pp 1470-1477,其内容被并入本发明作为参考。在BOF中,图像由一组无序的局部描述符来表示。通过群集技术(clustering technique),构建中等层次视觉词汇,其中每个视觉词汇都由一组局部描述符形成。每个视觉词汇被认为是用于描述图像的稳健的且无噪声的视觉词语。
例如,假设SE表示语义事件,如“婚礼”,并假设E1,...,EM表示含有该语义事件的M个事件。每个Et张照片和
Figure BPA00001440159000072
个视频片段形成。与视觉词汇相似,通过将这些
Figure BPA00001440159000073
(其中
Figure BPA00001440159000074
)数据点群集成n个概念字来构建概念词汇。每个概念字被视为用于描述含有SE的所有事件的共同特性的概念共同发生模式。具体地,为了同时容纳静止视频图像和视频数据点,采用谱群集算法(参考,例如,A.Y.Ng,M.Jordan和Y.Weiss,“On spectral clustering:analysis and algorithm,”Advances inNIPS,2001年,其内容并入本文以供参考)基于Earth Mover’s Distance(堆土机距离EMD)测量的成对相似度构建概念词汇,EMD在Y.Rubner,C.Tomasi和L.Guibas于2000年在IJCV的“The earth mover’s distance as ametric for image retrieval”中有所描述,其内容被并入本文作为参考。
每个数据点被视为一组图像,即静止视频图像的一个图像和视频片段的多个图像。然后EMD用于测量这两个数据点(图像组)之间的相似度。存在许多方法计算两个图像组之间的距离,如在这两组图像之间的最大/最小/平均距离。这些方法很容易受有噪声的异常值(noisyoutlier)图像影响,而EMD提供更加稳健的距离测度。EMD在受到权数标准化约束的两个图像组之间的所有成对距离之中找出最小加权距离,并允许数据点之间局部匹配,还可以减轻异常值图像的影响。
两组数据点之间的EMD计算方法如下。假定在数据点x1和x2中分别存在n1和n2个图像。x1和x2之间的EMD是由任何两个图像
Figure BPA00001440159000075
Figure BPA00001440159000076
之间的流
Figure BPA00001440159000077
加权的水平距离(ground distance)的线性组合。
D ( x 1 , x 2 ) = Σ p = 1 n 1 Σ q = 1 n 2 d ( I p 1 , I q 2 ) f ( I p 1 , I q 2 ) Σ p = 1 n 1 Σ q = 1 n 2 f ( I p 1 , I q 2 ) - - - ( 1 )
其中,最佳流矩阵
Figure BPA00001440159000081
是由下面的线性程序获得:
min Σ p = 1 n 1 Σ q = 1 n 2 d ( I p 1 , I q 2 ) f ( I p 1 , I q 2 )
w . r . tf ( I p 1 , I q 2 ) , 1 ≤ p ≤ n 1 , 1 ≤ q ≤ n 2
s . t . f ( I p 1 , I q 2 ) ≥ 0 , Σ q = 1 n 2 f ( I p 1 , I q 2 ) ≤ w p 1 , Σ p = 1 n 1 f ( I p 1 , I q 2 ) ≤ w q 2
Σ p = 1 n 1 Σ q = 1 n 2 f ( I p 1 , I q 2 ) = min { Σ p = 1 n 1 w p 1 , Σ q = 1 n 2 w q 2 }
其中,
Figure BPA00001440159000088
分别是数据点x1和x2中的图像
Figure BPA000014401590000810
的权数。这时可以使用相等权数:
Figure BPA000014401590000812
Figure BPA000014401590000813
关于概念评分特征的欧几里得距离(Euclidean distance)用作距离
Figure BPA000014401590000814
根据公式(1),EMD找出两个数据点中的最佳匹配图像对。权数标准化约束确保每个图像具有在其他数据集中的足够的匹配者。当x1和x2都是照片时,EMD仅仅是欧几里得距离。然后成对EMD由高斯函数(Gaussian function)被转换为成对相似度:S(x1,x2)=exp(-D(x1,x2)/r),其中r是所有训练的数据点之间的所有成对距离的平均值。
上面描述的谱群集是用于找出由一对数据点之间的相似度构成的数据集中的分组的技术。此处Ng等人开发的算法被采用并且被描述如下。给定相似度矩阵S(xi,xj):
得到仿射矩阵(affine matrix)Aij=S(xi,xj),如果i≠j,那么Aii=0。
定义对角矩阵Dii=∑jAij。使得L=D-1/2AD-1/2
找出对应于n个最大特征值(eigenvalue)的L的特征向量u1,...,un,并得到U=[u1,...,un],其中n是由要保持的特征值的能量比确定的。
通过重新标准化U的行,使其具有单位长度而从U得到矩阵V。
将V中的每行视为Rn中的点(对应于原始的第i个数据点的第i行),并通过K平均算法将所有点群集成n个簇。
由谱群集算法获得的每个数据簇被称为概念字,并且所有簇形成表示和检测语义事件的概念词汇。假设
Figure BPA000014401590000815
表示语义事件SEi得知的第j个词,
Figure BPA000014401590000816
表示数据x和字
Figure BPA000014401590000817
的相似度,其被计算为x和
Figure BPA000014401590000818
中的元数据点之间的最大相似度:
Figure BPA00001440159000091
其中以上面描述的相同方式定义S(xk,x)。对于每个数据x,向量
Figure BPA00001440159000092
被视为x的BOF特征向量。假定事件Et含有mt个数据点,并基于上述BOF特征向量,事件Et也可以由BOF特征向量fbof(Et)表示为: f bof ( E t ) = [ max x ∈ E t S ( x , W 1 i ) , . . . , max x ∈ E t S ( x , W n i ) ] T . 最后,利用BOF特征fbof,二进制1对所有的SVM分类器学会检测语义事件SEi
现在参考图1,示出根据本发明实施例的数字内容记录的语义事件检测的系统100。系统100包括数据处理单元110、外围设备单元120、用户接口单元130和存储器单元140。存储器单元140、外围设备单元120和用户接口单元130通信连接到数据处理系统110。
数据处理系统110包括实现本发明各种实施例的过程的一个或多个数据处理设备,包括这里描述的图2-4中的实例过程。术语“数据处理设备”或“数据处理器”意在包括任何类型的数据处理设备,例如中央处理单元(“CPU”)、台式计算机、笔记本电脑、大型计算机、个人数字助理、黑莓TM、数码相机、手机或用于处理数据、管理数据或操作数据的任何其他的设备,无论是用电子的、磁的、光的、生物的部件实现,或用其他方式。
存储器单元140包括配置为存储信息的一个或多于一个存储器设备,该信息包括执行本发明的各种实施例的过程所需的信息,各种实施例的过程包括本文描述的图2-4中的实例过程。存储器单元140可以是分布式处理器可存取的存储器系统,其包括通过多个计算机和/或设备通信连接到数据处理系统110的多个处理器可存取的存储器。另一方面,存储器单元140不需要是分布式处理器可存取的存储器系统,因此可以包括位于单个数据处理器或设备内的一个或多于一个处理器可存取的存储器。此外,术语“存储器单元”意在包括任何处理器可存取的数据存储设备,无论是易失性的或非易失性的、电子的、磁的、光的数据存储设备,或其他方式,包括但不限于,软盘、硬盘、光盘、DVD、闪存、ROM和RAM或任何其他的数字存储介质。
术语“通信连接”意在包括设备、数据处理器或可以通信数据的程序之间的任何类型的连接,无论是有线的或无线的。此外,术语“通信连接”意在包括单个数据处理器内的设备或程序之间的连接、位于不同的数据处理器的设备或程序之间的连接和根本不位于数据处理器内的设备之间的连接。就这一点而言,尽管示出的存储器单元140与数据处理系统110分离,本领域的技术人员将理解,存储器单元140可以实现为完全或部分位于数据处理系统110内。进一步就这一点而言,尽管示出的外围系统120和用户接口系统130与数据处理系统110分离,本领域的技术人员将理解,这些系统的一个或两者可以实现为完全或部分位于数据处理系统110内。
外围系统120可以包括配置为提供数字内容记录给数据处理系统110的一个或多个设备。例如,外围系统120可以包数码摄像机、手机、普通的数码相机或其他的数据处理器。此外,外围系统120可以包括必要的器械、设备、电路等用于将数据处理系统110连接至远程的数据源。例如,系统100可以通过因特网被连接至存储数据集的服务器。数据集可以包括用于训练系统100的数字内容记录的数据集或包括由系统100分析的数字内容记录的数据集。一旦接收到来自外围系统120中设备的数字内容记录后,数据处理系统110可以将这些数字内容记录存储在处理器可存取的存储器系统140中用于将来的处理,或如果有充足的处理能力,那么作为接收的数据流实时分析数字内容记录。
用户接口系统130可以包括鼠标、键盘、另一个计算机或数据从其中输入至数据处理系统110的任何设备或设备的组合。就这一点而言,尽管示出的外围系统120与用户接口系统130分离,外围系统120可以作为用户接口系统130的部分包括在用户接口系统130内。
用户接口系统130还可以包括显示设备、处理器可存取的存储器或数据由数据处理系统110输出至其中的任何设备或设备的组合。就这一点而言,如果用户接口系统130包括处理器可存取的存储器,尽管在图1中示出的用户接口系统130和存储器单元140是分离的,但是这种存储器可以是存储器单元140的部分。
现在将参考图2描述系统的基本操作,图2是示出由图1中所示的一个或多个单元实现的处理模块的流程图。应当理解,处理模块包含由系统100中提供的一个或多个单元实现的指令。在所示实例中,新事件(E0)通过数据输入模块200提供给系统100,其中希望确定E0属于具体的语义事件的概率。例如,基于经由用户接口单元130接收的操作员指令,数据处理单元110控制外围单元120的操作以将对应于E0的数据下载至存储器单元140。在所示的实例中,每个事件包含多个数字内容记录,静止数字图像m0,p和视频片段m0,v,利用先前描述的群集方法根据捕获时间和颜色相似度将多个数字内容记录分组在一起。在静止数字图像和视频片段的数据集被提交给系统100之前,群集方法被应用于静止数字图像和视频片段的数据集。可替换地,数据集被提供给系统100,数据输入模块200作为数据处理单元110的一个操作元件执行群集操作,以便生成E0
例如,用户可使用电子照相机捕获由多种不同事件的一百张数字静止图像和视频构成的数据集。电子照相机的存储卡被提供给作为外围单元120一部分的读卡器单元。响应于由用户通过用户接口单元130输入的控制指令,数据处理单元110控制外围单元120的操作以将数据集从存储卡下载至存储器单元140。然后数据处理单元110继续执行对数据集的群集算法,以便将数字静止图像和视频分组成对应于多个事件的多个簇。因此,完成了数据输入模块200内提供的指令功能,并且许多数字静止图像和视频(例如100张原始图像中的10张)被识别为与E0相关联。此时,尽管10张数字静止图像和视频已经与E0相关联,但是E0还要与诸如“婚礼”的具体语义事件相关联。
然后利用视觉特征提取模块210从E0的视频片段中获取关键帧,从同时包含在E0中的关键帧和数字静止图像中提取视觉特征。在所示的实例中,视觉特征提取模块210确定每个数字静止图像和视频的基于网格的颜色矩(moment)、Gabor纹理和边缘方向直方图。然而,应当理解,除了在所示的实例中使用的视觉特征以外,可以容易地使用其他的视觉特征。
根据视觉特征提取模块210内提供的指令,数据处理单元110利用常规技术对于包含在E0中的每个数字静止图像和视频执行必要的关键帧和视觉特征提取。因此,现在对应于E0的10张数字静止图像和视频中每个的三种视觉特征表示可用于进一步的分析。
特性提取模块210提取的三种视觉特征被概念检测模块220用来生成反映具体的关键帧或静止数字图像与具体的语义事件相关的概率的概念评分(concept score)。概念检测模块220利用两个步骤过程优选地确定概念评分。首先,提供概念评分检测模块220,其利用21个上述的SVM语义概念检测器(由数据处理单元110实现)为每个数字静止图像和关键帧生成基于每个视觉特征空间中的每个单独的分类器的概念评分。第二,然后通过合并模块(fuse module)224合并单独的概念评分(由数据处理单元110实现),以生成具体的数字静止图像或关键帧的整体概念检测评分,因而降低了要进一步处理的数据量。
在优选的实施例中,合并模块224首先利用S形函数1/(1+exp(-D))标准化来自不同特性的不同分类输出,其中D是表示到判别边界的距离的SVM分类器的输出。通过对来自21个概念中每个概念的不同视觉特征的分类输出求平均,完成合并,从而生成整体概念检测评分。
在简化的实例中,将讨论三个概念“人”、“公园”和“花”。为10张E0图像中每张的三种视觉特征表示中的每种生成“人”、“公园”和“花”的概念评分。例如,10张图像组中第一张图像的颜色特征表示可以具有90%的概率包含人、5%的概率包含公园和5%的概率包含花,第一张图像的纹理特征表示具有5%的概率包含人、80%的概率包含公园和15%的概率包含花,以及第一张图像的边缘检测特征具有10%的概率包含人、50%的概率包含公园和40%的概率包含鲜花。
假设10张图像三种视觉特征表示,将会生成30组概念评分(每个视觉特征表示一个概念评分),其中每一组包含三个单独的概念评分(一个针对“人”、一个针对“公园”和一个针对“花”)。为了生成第一张图像的整体概念评分,每种视觉表示的每个概念的概率是均等的,这样使得第一张图像的整体概念评分将会是35%的概率包含人(人的概率的平均值,颜色90%、纹理5%和边缘5%)、30%的概率包含公园(公园的概率的平均值,颜色5%、纹理80%和边缘20%)和20%的概率包含鲜花(鲜花的概率的平均值,颜色5%、纹理15%和边缘40%)。
接着整体概念评分被提供给确定E0的BOF向量的BOF模块230。通过首先利用各个数字静止图像和视频片段的整体概念评分确定包含在E0内的每个数字静止图像和视频片段的单独的特征向量,获得E0的BOF特征向量。在优选的实施例中,每个数字静止图像或视频片段被视为数据点,然后通过相似度检测模块232利用EMD来计算E0中每个数据点的整体概念评分和给定语义事件(SE)(例如“婚礼”)的每个预先确定的正的训练数据点的整体概念评分之间的成对相似度。有效地获取包含在E0内的每个数字静止图像和视频片段的单独的特征向量。然后映射模块234用于将E0的每个单独的特征向量映射到语义事件的代码本(在下面更详细描述的训练过程期间先前开发的),并基于映射的相似度生成E0的事件特征向量。
现在事件特征向量可以供应到分类器模块241。在所示的实例中,分类器模块241使用SVM分类器生成E0的事件检测评分。事件检测评分表示新事件E0对应于给定的语义事件(诸如“婚礼”)的最终概率。然后事件检测评分优选地与预定阈值相比较,从而确定E0是否应当归类为婚礼事件。预定阈值可以变化,这取决于在给定应用中系统100所需的准确度水平。
一旦E0被适当地归类,用适当的语义事件分类器标注对应于E0的静止数字图像和视频片段(或对其加标签),并且对应于E0的静止数字图像和视频片段被分类到合适的相册文件夹或文件中,并存储在存储器单元140中用于稍后的检索。可替换地,标注的/加标签的静止数字图像和视频片段通过外围单元120被写入图像存储介质中。用语义事件分类器标注静止数字图像和视频片段提供了能够通过搜索引擎容易地检索图像和视频片段的额外优势。
现在将参考图3描述系统100的训练。首先,利用数据输入模块200输入T个正的训练事件E1,...,ET。每个事件Et包含通过先前描述的群集方法根据捕获时间和颜色相似度分组到一起的mt,p张照片和mt,v个视频。然后视觉提取模块210用于从视频片段中提取关键帧,并且从关键帧和数字静止图像中提取视觉特征。如在以上描述的操作的情形中,视觉特征包括基于网格的颜色矩、Gabor纹理和边缘方向直方图。然后如以上所讨论的,概念检测模块220(由以上描述的概念评分检测模块222和合并模块224构成)用于生成关键帧和数字静止图像的整体概念评分。
接着BOF学习模块250用于训练系统100。首先,每个数字图像或视频片段被视为数据点,通过EMD利用先前描述的相似度检测模块232来计算每对数据点之间的成对相似度。基于该成对相似度矩阵,谱群集模块252用于应用谱群集将数据点分组成不同的簇,其中每簇对应于一个码字。为了训练用于检测语义事件SE的分类器,所有的训练事件Ei(Ei同时包含SE的正的训练事件和负的训练事件)都映射到上面的代码本,从而通过映射模块254生成每个训练事件的BOF特征向量。基于该BOF特征向量,分类器训练模块260用于训练二进制SVM分类器检测具体的语义事件SE。
图4描述了在概念评分检测模块222(图3中所示)中使用的视频概念检测器的训练过程的细节。对于概念C,通过数据输入模块200提供了来自基准用户视频数据集的N个正的训练视频。从视频中获取关键帧,并从关键帧中提取视觉特征,这如同利用视觉特征提取模块210的先前的实例。视觉特征包括基于网格的颜色矩、Gabor纹理和边缘方向直方图。然后概念训练模块270用于训练概念检测器。即,基于每种类型的视觉特征,每个关键帧都被表示为特征向量,并且二进制SVM分类器被训练为检测概念C。对在不同单独类型的特征的这些分类器的判别函数共同求平均,从而生成概念C的整体概念检测器。
区域层次表示提供有用的详细信息来描述图像内容,其是全局图像层次特征的补充。图6描述了用于学习图2中所示的语义事件检测系统的详细训练过程,其同时包括图像层次和区域层次学习模块。在区域方法中,每个图像被分割成一组区域r1,...,rn,如在图像分割模块280中描述的。每个区域由或是概念空间(通过利用区域层次概念检测模块300)或是低层次视觉空间(通过利用区域层次视觉特征提取模块290)中的特征向量来表示。通过简明的概括,在图3中的BOF学习模块250中描述的先前的特征包BOF事件层次表示学习框架使用区域层次特征来生成事件层次BOF表示,用于帮助语义事件检测。
如上所述,每个图像(静止照片或视频的关键帧)被视为单点特征组,其中在该单点组中的特征向量由整个图像上的概念检测分来形成。如果为每个分割区域提取特征向量,那么每个图像被视为由多个区域特征向量构成的多点组。仍可以应用相同的特征包BOF事件层次表示学习模块250,来获取语义事件检测的事件层次BOF特征向量,如描述在利用区域层次概念评分模块313的BOF学习和利用区域层次视觉特征模块314的BOF学习。
随着数码照片和视频的激增,未标记的测试数据量很大且在增长,同时可用的标记训练组的大小是固定的且很小。为了能够使在相对较少的数据上训练的事件检测器很好地用于大量未标记的数据,跨域学习(或域适应)技术被并入本系统,跨域学习在例如H.DauméIII于2007年在Annual Meeting of the Association of Computational Linguistics发表的“Frustratingly easy domain adaptation”中有所描述。
假定已被很好研究的旧域Do(例如,一组广播新闻视频)和要分析的当前域Dc(例如,用户事件全集)根据本发明跨域学习,对接/移植(port)来自Do的信息有助于分析Dc,通过借用来自旧域Do的信息起到增加Dc的基本训练数据的作用。域适应的实例如下:基于旧域Do建立一组模型,其生成当前域Dc中的数据的预测。然后预测用作在Dc中学习的特征,其中来自Do的预测担任将信息移植到Dc中的角色。
与用户事件全集极其不同的两个外部数据源用于提供额外的知识帮助语义事件检测任务。第一个数据源是NIST TRECVID 2005广播新闻视频集。449个检测器在该数据集上训练,从而检测来自LSCOM本体(ontology)的449个概念。“LSCOM lexicon definitions andannotations V1.0”DTO Challenge Workshop on Large Scale ConceptOntology for Multimedia,Columbia Univ.ADVENT Tech.Report,2006中描述了LSCOM本体。在这些449个检测器中,对应于374个最频繁出现的概念的374个检测器被用作在旧TRECVID 2005域中建立的模型,其应用于用户事件数据从而通过利用图6中的图像层次概念检测模块220生成预测评分。这些跨域概念预测评分被输入特征包BOF事件层次表示学习框架中,以生成BOF事件层次特征(ELF),如利用图像层次概念评分模块312的BOF学习中所描述。这些特征与从用户视频全集习得的原始的BOF事件层次特征(其描述在2007年,ACMMIR,A.Loui等人的“Kodak consumer video benchmark data set:Conceptdefinition and annotation”)相结合,从而有助于进行语义事件检测。在图3中描述了获取从这些用户视频中生成的BOF事件层次特征(ELF)的学习过程,在图3中概念检测模块220使用通过利用图4中的训练框架与用户视频一起训练的概念检测器。
第二个外部数据源是LHI图像分析地面实况数据集(免费版本),这在2007年,EMMCVPR,B.Yao等人的“Introduction to a large scalegeneral purpose ground truth dataset:methodology,annotation tool&benchmark”的论文中有所描述。该数据集包含6种图像:人造对象、自然对象、场景中的对象、运输工具、空间图像和体育活动。这些图像被手动分割,并且区域被标记成247个概念。图8描述了学习区域层次概念检测器的训练过程。如在区域层次视觉特征提取模块290中所描述的,从每个区域中提取低层次视觉特征,如颜色矩、Gabor纹理和边缘方向直方图,并通过将每个区域用作检测247个区域层次概念的一个数据点来训练SVM分类器,如在区域层次概念训练模块350中描述。另一方面,通过利用图像分割模块280,我们的事件数据集中的图像被自动分割成基于颜色和纹理的均匀性的图像区域,并且通过利用区域层次视觉特征提取模块290,低层次视觉特征也被从所分割区域中提取出。然后应用通过区域层次概念检测模块300从LHI集所学的区域层次概念检测器,归类事件数据中的每个图像区域,这导致产生每个图像区域的一组概念检测评分。这些区域层次跨域概念预测评分也可以被提供到特征包BOF事件层次表示学习框架用于生成事件层次BOF特征,如在利用区域层次概念评分模块313的BOF学习中描述的。
以上描述了从通过概念检测器从诸如LSCOM和LHI的其他域中生成的图像层次或区域层次概念评分中习得的几种类型的事件层次BOF特征。在图像层次和区域层次两者上的低层次特征也可以用于将我们的事件数据中的图像(静止照片或视频的关键帧)描述为单点数据集或多点数据集。利用相同的特征包BOF事件层次表示学习框架,基于在利用图像层次视觉特征模块311的BOF学习中描述的简明(straightforward)的低层次图像层次特征,或基于在利用区域层次视觉特征模块314的BOF学习中描述的简明的低层次区域层次特征,生成事件层次BOF表示。所有这些事件层次BOF特征被合并在一起用于训练语义概念检测器,如在分类器训练模块330中描述的。
图7中描述了由图2中所示的语义事件检测系统使用用于分类新来临的事件的语义事件检测过程的细节。给定新事件E0,通过图像层次视觉特征提取模块210,提取E0中每个图像(照片或视频的关键帧)的图像层次特征。而且,应用图像分割模块280生成每个图像的区域,并使用区域层次视觉特征提取模块290获取一组区域层次特征。然后分别通过处理模块321和324,利用简明的图像层次视觉特征和区域层次视觉特征生成BOF事件层次特征。此外,应用图像层次概念检测模块220和区域层次概念检测模块300,分别获取图像层次概念检测评分和区域层次概念检测评分。然后通过分别利用模块322和323,利用图像层次概念评分和区域层次概念评分生成BOF事件层次特征。最后所有不同类型的BOF事件层次特征被合并在一起,提供到分类模块340,从而产生语义事件检测结果。
通过评估来自由A.Loui等人创建的上述用户数据集的1972个用户事件,来进行以上描述的语义检测系统和方法的测试,1972个用户事件被标记为10种不同的语义事件,其详细定义在图5中提供的表格中示出。随机选择总共1261个事件用于训练,剩下的事件则用于测试。训练数据和测试数据在宏观事件层次进行划分,即,来自相同宏观事件的事件共同被视为训练数据或测试数据。这避免了来自相同宏观事件的相似事件被分离的情况,这将简化分类问题。
平均精确度(AP)用作性能度量,其已经用作视频概念检测的官方度量。该指标计算在精确度-召回率曲线上的不同召回率点的平均精确度值,因此评估检测具体语义事件中的分类器的有效性。当考虑多个语义事件时,使用AP的平均值(MAP)。
利用不同的单独类型的事件层次BOF表示进行对语义事件检测的实验。图9给出了AP和MAP的比较。一般地,每种类型的事件层次BOF特征在检测不同的语义事件方面都有优势,且没有单个类型的事件层次BOF特征可以在性能上始终如一地胜过其他类型的事件层次BOF特征。从概念评分中习得的事件层次BOF表示很好地运行在由许多简单概念组成的复杂语义事件例如“游行”上,例如,游行是由人、街道、人群等构成。另一方面,从视觉特征中习得的事件层次BOF表示非常好地运行在由只有一个或几个概念(诸如“动物”)确定的语义事件上,对其他的构建概念的检测评分不是很有用。在图像层次概念评分方面,虽然采用与训练LSCOM检测器的TRECVID新数据相比与我们的用户事件数据更相似的用户视频来训练小型本体的概念检测器,但是大型本体(LSCOM)比小型本体执行得更好。
图10示出了最佳的单独类型的事件层次BOF方法和4种不同的合并方法的AP和MAP。在早期的合并中,所有类型的事件层次BOF特征连结到长向量用于训练SVM分类器。在后期的合并中,基于每种类型的事件层次BOF表示单独地训练SVM分类器,然后对来自不同类型的SVM的输出分类结果一起取平均,从而给出最终的检测结果。在选择性的早期合并中,通过顺向选择(forward selection)技术选择最佳类型的事件层次BOF特征用于生成连结的长特征向量。即,首先确定单个最佳类型,从所有剩余的类型中选择具有与第一种类型最佳组合性能的最佳类型,并从剩余类型中选择用于与前两个组合的最佳类型等。在选择性的后期合并中,选择最佳类型的单独的SVM分类结果,以类似的顺向选择技术方式进行组合。根据结果,当或是通过早期合并或通过后期合并组合不同类型的事件层次BOF表示时,实现每个语义事件的一致的性能改进。例如,与最佳执行的单独类型相比较,在相对基础上获得大约35%的MAP增加。此外,当选择性地组合这些不同类型的事件层次BOF特征时,获得进一步的性能提高。与最佳的单独类型的事件层次BOF表示相比较,选择性的合并方法在MAP方面获得多于70%的性能改进。
应当理解,示例性的实施例仅仅是为了说明本发明,以及在不偏离本发明的范畴的情况下,可以由本领域的技术人员对以上描述的实施例做出许多改变。因此,所有这些改变都包括在权利要求及其等价物的范畴内。

Claims (12)

1.一种利于对与事件相关的一组图像记录进行语义事件分类的方法,所述方法利用事件检测器系统提供:
从每个所述图像记录中提取多个视觉特征;
其中,所述视觉特征包括将图像记录分割成许多区域,在所述许多区域中提取所述视觉特征;
利用所述视觉特征为每个所述图像记录生成多个概念评分,其中每个概念评分对应于视觉概念,并且每个概念评分表示所述图像记录包括所述视觉概念的概率;
基于所述图像记录的所述概念评分生成对应于所述事件的特征向量;以及
提供所述特征向量给事件分类器,所述事件分类器识别对应于所述事件的至少一个语义事件分类器。
2.根据权利要求1中所述的利于语义事件分类的方法,其中利用跨域学习生成所述特征向量。
3.根据权利要求2中所述的利于语义事件分类的方法,其中所述跨域学习基于图像层次特征或区域层次特征。
4.根据权利要求1中所述的利于语义事件分类的方法,其中所述图像记录包括至少一个数字静止图像和至少一个视频片段。
5.根据权利要求4中所述的利于语义事件分类的方法,其中提取多个视觉特征包括从所述视频片段中提取关键帧和从所述关键帧和所述数字静止图像两者中提取所述多个视觉特征。
6.根据权利要求5中所述的利于语义事件分类的方法,其中生成所述概念评分包括为对应于每个提取的视觉特征的每个关键帧和每个数字静止图像生成初始的概念评分。
7.根据权利要求6中所述的利于语义事件分类的方法,其中生成所述概念评分进一步包括基于所述初始的概念评分为每个关键帧和每个数字静止图像生成整体概念评分。
8.根据权利要求7中所述的利于语义事件分类的方法,其中所述整体概念评分是通过合并给定的关键帧或给定的数字静止图像的每个提取的视觉特征的单独概念评分生成的。
9.根据权利要求1中所述的利于语义事件分类的方法,进一步包含用所述语义事件分类器标注每个所述图像记录。
10.根据权利要求1中所述的利于语义事件分类的方法,其中生成所述特征向量包括计算所述图像记录的概念评分和预先确定的训练数据点的概念评分之间的成对相似度,从而生成每个所述图像记录的单独的特征向量。
11.根据权利要求10中所述的利于语义事件分类的方法,进一步包含将所述单独的向量映射到预先确定的语义事件代码本中。
12.根据权利要求11中所述的利于语义事件分类的方法,进一步包含:
确定对应于训练事件的多对数据点之间的成对相似度;通过应用谱群集基于所述预先确定的成对相似度将所述数据点分成不同的簇从而生成代码本,其中每簇对应于一个码字;
将所述训练事件映射到所述代码本,从而生成对应于每个训练事件的BOF特征向量;以及
基于所述对应于所述训练事件的BOF特征向量训练所述事件分类器。
CN201080012880.4A 2009-03-20 2010-03-09 利用跨域知识的语义事件检测 Expired - Fee Related CN102414680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810034963.1A CN108090232A (zh) 2009-03-20 2010-03-09 利用跨域知识的语义事件检测

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/408,140 2009-03-20
US12/408,140 US8213725B2 (en) 2009-03-20 2009-03-20 Semantic event detection using cross-domain knowledge
PCT/US2010/000697 WO2010107471A1 (en) 2009-03-20 2010-03-09 Semantic event detection using cross-domain knowledge

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201810034963.1A Division CN108090232A (zh) 2009-03-20 2010-03-09 利用跨域知识的语义事件检测

Publications (2)

Publication Number Publication Date
CN102414680A true CN102414680A (zh) 2012-04-11
CN102414680B CN102414680B (zh) 2018-02-13

Family

ID=42184068

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810034963.1A Pending CN108090232A (zh) 2009-03-20 2010-03-09 利用跨域知识的语义事件检测
CN201080012880.4A Expired - Fee Related CN102414680B (zh) 2009-03-20 2010-03-09 利用跨域知识的语义事件检测

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810034963.1A Pending CN108090232A (zh) 2009-03-20 2010-03-09 利用跨域知识的语义事件检测

Country Status (4)

Country Link
US (1) US8213725B2 (zh)
EP (1) EP2409250A1 (zh)
CN (2) CN108090232A (zh)
WO (1) WO2010107471A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239360A (zh) * 2013-06-24 2014-12-24 富士通株式会社 多模态特征的融合方法以及装置
CN104239359A (zh) * 2013-06-24 2014-12-24 富士通株式会社 基于多模态的图像标注装置以及方法
CN104520848A (zh) * 2012-06-25 2015-04-15 谷歌公司 按照出席者搜索事件
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN106028134A (zh) * 2015-03-31 2016-10-12 泽普实验室公司 针对移动计算设备检测体育视频精彩部分
CN103678472B (zh) * 2012-09-24 2017-04-12 国际商业机器公司 用于经由社交媒体内容检测事件的方法和系统
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
CN107644194A (zh) * 2016-07-21 2018-01-30 韩华泰科株式会社 提供监控数据的系统和方法
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7088872B1 (en) 2002-02-14 2006-08-08 Cogent Systems, Inc. Method and apparatus for two dimensional image processing
US8131477B2 (en) 2005-11-16 2012-03-06 3M Cogent, Inc. Method and device for image-based biological data quantification
US8275179B2 (en) 2007-05-01 2012-09-25 3M Cogent, Inc. Apparatus for capturing a high quality image of a moist finger
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
US8391618B1 (en) * 2008-09-19 2013-03-05 Adobe Systems Incorporated Semantic image classification and search
KR20100052676A (ko) * 2008-11-11 2010-05-20 삼성전자주식회사 컨텐츠 앨범화 장치 및 그 방법
US8611677B2 (en) * 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
US8442309B2 (en) * 2009-06-04 2013-05-14 Honda Motor Co., Ltd. Semantic scene segmentation using random multinomial logit (RML)
US9384214B2 (en) * 2009-07-31 2016-07-05 Yahoo! Inc. Image similarity from disparate sources
US8428345B2 (en) * 2010-03-03 2013-04-23 Honeywell International Inc. Meta-classifier system for video analytics
US9443147B2 (en) * 2010-04-26 2016-09-13 Microsoft Technology Licensing, Llc Enriching online videos by content detection, searching, and information aggregation
US8660371B2 (en) * 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
US8386490B2 (en) * 2010-10-27 2013-02-26 Eastman Kodak Company Adaptive multimedia semantic concept classifier
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN102622302B (zh) * 2011-01-26 2014-10-29 中国科学院高能物理研究所 碎片数据类型的识别方法
US8737817B1 (en) * 2011-02-08 2014-05-27 Google Inc. Music soundtrack recommendation engine for videos
US9870376B2 (en) * 2011-04-01 2018-01-16 Excalibur Ip, Llc Method and system for concept summarization
US8983940B2 (en) 2011-09-02 2015-03-17 Adobe Systems Incorporated K-nearest neighbor re-ranking
US8805116B2 (en) * 2011-09-17 2014-08-12 Adobe Systems Incorporated Methods and apparatus for visual search
US8867891B2 (en) 2011-10-10 2014-10-21 Intellectual Ventures Fund 83 Llc Video concept classification using audio-visual grouplets
US8699852B2 (en) * 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
US8891883B2 (en) 2012-05-15 2014-11-18 Google Inc. Summarizing a photo album in a social network system
US20140233811A1 (en) * 2012-05-15 2014-08-21 Google Inc. Summarizing a photo album
US8880563B2 (en) 2012-09-21 2014-11-04 Adobe Systems Incorporated Image search by query object segmentation
CN102968618A (zh) * 2012-10-24 2013-03-13 浙江鸿程计算机系统有限公司 一种融合BoF模型和谱聚类算法的静态手势识别方法
US9648075B1 (en) * 2012-12-18 2017-05-09 Google Inc. Systems and methods for providing an event map
US9026551B2 (en) * 2013-06-25 2015-05-05 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications
US9275306B2 (en) * 2013-11-13 2016-03-01 Canon Kabushiki Kaisha Devices, systems, and methods for learning a discriminant image representation
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US9544361B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Event detection through text analysis using dynamic self evolving/learning module
US9619571B2 (en) 2013-12-02 2017-04-11 Qbase, LLC Method for searching related entities through entity co-occurrence
US9223833B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Method for in-loop human validation of disambiguated features
CN106164890A (zh) 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于消除非结构化文本中的特征的歧义的方法
US9208204B2 (en) 2013-12-02 2015-12-08 Qbase, LLC Search suggestions using fuzzy-score matching and entity co-occurrence
US9922032B2 (en) 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US9223875B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Real-time distributed in memory search architecture
US9348573B2 (en) 2013-12-02 2016-05-24 Qbase, LLC Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes
WO2015084726A1 (en) 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis template models
US9177262B2 (en) 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
US9542477B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
JP2017504874A (ja) 2013-12-02 2017-02-09 キューベース リミテッド ライアビリティ カンパニー クラスター化されたインメモリデータベースの設計及び実施
US9317565B2 (en) 2013-12-02 2016-04-19 Qbase, LLC Alerting system based on newly disambiguated features
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9336280B2 (en) 2013-12-02 2016-05-10 Qbase, LLC Method for entity-driven alerts based on disambiguated features
US9984427B2 (en) 2013-12-02 2018-05-29 Qbase, LLC Data ingestion module for event detection and increased situational awareness
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9361317B2 (en) 2014-03-04 2016-06-07 Qbase, LLC Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US9898685B2 (en) 2014-04-29 2018-02-20 At&T Intellectual Property I, L.P. Method and apparatus for analyzing media content
US9451335B2 (en) 2014-04-29 2016-09-20 At&T Intellectual Property I, Lp Method and apparatus for augmenting media content
CN104268546A (zh) * 2014-05-28 2015-01-07 苏州大学 一种基于主题模型的动态场景分类方法
WO2015200350A1 (en) 2014-06-24 2015-12-30 Google Inc. Ranking and selecting images for display from a set of images
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
US10963504B2 (en) * 2016-02-12 2021-03-30 Sri International Zero-shot event detection using semantic embedding
KR101911604B1 (ko) * 2016-10-21 2018-10-25 한국과학기술원 이벤트 검출을 위한 학습형 시스템 트레이닝장치 및 그 방법
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107480194B (zh) * 2017-07-13 2020-03-13 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
CN108268581A (zh) 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN110070031A (zh) * 2019-04-18 2019-07-30 哈尔滨工程大学 一种基于emd和随机森林的海底底质声呐回波特征提取融合方法
CN110889430A (zh) * 2019-10-24 2020-03-17 中国科学院计算技术研究所 基于多域视觉特征的新闻图像检测方法及系统、装置
CN110826726B (zh) * 2019-11-08 2023-09-08 腾讯科技(深圳)有限公司 目标处理方法、目标处理装置、目标处理设备及介质
CN111460971B (zh) * 2020-03-27 2023-09-12 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111611858B (zh) * 2020-04-21 2023-04-25 国网四川省电力公司 一种基于多角度判别的倾轧轨迹面自动检测方法和装置
CN111797326B (zh) * 2020-05-27 2023-05-12 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN113157859B (zh) * 2021-04-06 2023-04-18 北京理工大学 一种基于上位概念信息的事件检测方法
US11914506B2 (en) * 2022-02-23 2024-02-27 Optum, Inc. Machine learning techniques for performing predictive anomaly detection
CN115761239B (zh) * 2023-01-09 2023-04-28 深圳思谋信息科技有限公司 一种语义分割方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681374A (zh) * 2007-05-18 2010-03-24 伊斯曼柯达公司 基于事件的数字内容记录组织

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US7383260B2 (en) * 2004-08-03 2008-06-03 International Business Machines Corporation Method and apparatus for ontology-based classification of media content
CN101093500B (zh) * 2007-07-16 2010-05-19 武汉大学 视频中事件语义识别方法
US8165406B2 (en) * 2007-12-12 2012-04-24 Microsoft Corp. Interactive concept learning in image search

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681374A (zh) * 2007-05-18 2010-03-24 伊斯曼柯达公司 基于事件的数字内容记录组织

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUSTAVO CARNEIRO等: "Supervised Learning of Semantic Classes for Image Annotation and Retrieval", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
WEI JIANG ETC.: "CROSS-DOMAIN LEARNING METHODS FOR HIGH-LEVEL VISUAL CONCEPT CLASSIFICATION", 《ICIP 2008》 *
WEI JIANG ETC.: "SEMANTIC EVENT DETECTION FOR CONSUMER PHOTO AND VIDEO COLLECTIONS", 《ICME 2008》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104520848A (zh) * 2012-06-25 2015-04-15 谷歌公司 按照出席者搜索事件
CN104520848B (zh) * 2012-06-25 2018-01-23 谷歌公司 按照出席者搜索事件
CN103678472B (zh) * 2012-09-24 2017-04-12 国际商业机器公司 用于经由社交媒体内容检测事件的方法和系统
US10032113B2 (en) 2012-09-24 2018-07-24 International Business Machines Corporation Social media event detection and content-based retrieval
US9830380B2 (en) 2013-06-24 2017-11-28 Fujitsu Limited Multimodality-based image tagging apparatus and method
CN104239359B (zh) * 2013-06-24 2017-09-01 富士通株式会社 基于多模态的图像标注装置以及方法
CN104239360A (zh) * 2013-06-24 2014-12-24 富士通株式会社 多模态特征的融合方法以及装置
CN104239359A (zh) * 2013-06-24 2014-12-24 富士通株式会社 基于多模态的图像标注装置以及方法
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
CN106028134A (zh) * 2015-03-31 2016-10-12 泽普实验室公司 针对移动计算设备检测体育视频精彩部分
US10572735B2 (en) 2015-03-31 2020-02-25 Beijing Shunyuan Kaihua Technology Limited Detect sports video highlights for mobile computing devices
CN104965819B (zh) * 2015-07-12 2017-12-26 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN107644194A (zh) * 2016-07-21 2018-01-30 韩华泰科株式会社 提供监控数据的系统和方法
CN107644194B (zh) * 2016-07-21 2022-12-16 韩华泰科株式会社 提供监控数据的系统和方法
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN109726726B (zh) * 2017-10-27 2023-06-20 北京邮电大学 视频中的事件检测方法及装置

Also Published As

Publication number Publication date
US8213725B2 (en) 2012-07-03
US20090299999A1 (en) 2009-12-03
CN108090232A (zh) 2018-05-29
CN102414680B (zh) 2018-02-13
EP2409250A1 (en) 2012-01-25
WO2010107471A1 (en) 2010-09-23

Similar Documents

Publication Publication Date Title
CN102414680A (zh) 利用跨域知识的语义事件检测
US8358856B2 (en) Semantic event detection for digital content records
Galleguillos et al. Weakly supervised object localization with stable segmentations
Yanagawa et al. Columbia university’s baseline detectors for 374 lscom semantic visual concepts
CN102663015B (zh) 基于特征袋模型和监督学习的视频语义标注方法
US20180293313A1 (en) Video content retrieval system
Chang et al. Columbia University/VIREO-CityU/IRIT TRECVID2008 high-level feature extraction and interactive video search
Li et al. Bootstrapping visual categorization with relevant negatives
US20100226582A1 (en) Assigning labels to images in a collection
Aytar et al. Utilizing semantic word similarity measures for video retrieval
CN106951498A (zh) 文本聚类方法
Yuan et al. Mining compositional features from GPS and visual cues for event recognition in photo collections
Cao et al. Annotating collections of photos using hierarchical event and scene models
JP2008123486A (ja) デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム
Liu et al. Robust semantic sketch based specific image retrieval
Imran et al. Event recognition from photo collections via pagerank
Zhao et al. Query expansion for object retrieval with active learning using BoW and CNN feature
CN116524263A (zh) 一种细粒度图像半自动标注方法
Liang et al. THU and ICRC at TRECVID 2008.
Diou et al. Vitalas at trecvid-2008
Chatzilari et al. Multi-modal region selection approach for training object detectors
CN108875800B (zh) 一种基于rfid卡的行为特征提取方法
Bouguila et al. Learning concepts from visual scenes using a binary probabilistic model
Carlow-BSc Automatic Detection of Brand Logos Final Report
Derakhshan et al. A Review of Methods of Instance-based Automatic Image Annotation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: GAOZHI 83 FOUNDATION LLC

Free format text: FORMER OWNER: EASTMAN KODAK COMPANY (US) 343 STATE STREET, ROCHESTER, NEW YORK

Effective date: 20130401

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130401

Address after: Nevada, USA

Applicant after: Gaozhi 83 Foundation Co.,Ltd.

Address before: American New York

Applicant before: Eastman Kodak Co.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180521

Address after: Texas, USA

Patentee after: Mau new gate Venture Capital Co., Ltd.

Address before: Nevada, USA

Patentee before: Gaozhi 83 Foundation Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180213

Termination date: 20190309