CN102156686A - 基于组示多示例学习模型的视频特定包含语义检测方法 - Google Patents

基于组示多示例学习模型的视频特定包含语义检测方法 Download PDF

Info

Publication number
CN102156686A
CN102156686A CN2011100874153A CN201110087415A CN102156686A CN 102156686 A CN102156686 A CN 102156686A CN 2011100874153 A CN2011100874153 A CN 2011100874153A CN 201110087415 A CN201110087415 A CN 201110087415A CN 102156686 A CN102156686 A CN 102156686A
Authority
CN
China
Prior art keywords
video
descriptor
group
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100874153A
Other languages
English (en)
Other versions
CN102156686B (zh
Inventor
蒋兴浩
孙锬锋
沈楚雄
吴斌
张善丰
储曦庆
樊静文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201110087415.3A priority Critical patent/CN102156686B/zh
Publication of CN102156686A publication Critical patent/CN102156686A/zh
Application granted granted Critical
Publication of CN102156686B publication Critical patent/CN102156686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机视频处理技术领域的基于组示多示例学习模型的视频特定包含语义检测方法,包括:对视频按镜头进行连续分割,得到若干视频片段;使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子;使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度;对于每一组描述子,对其进行机器学习;前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度。

Description

基于组示多示例学习模型的视频特定包含语义检测方法
技术领域
本发明涉及的是一种计算机视频处理技术领域的方法,具体是一种基于MGIL(Multiple Grouped Instance Learning组示多示例学习)模型的视频特定包含语义检测方法。
背景技术
在当今网络盛行的大环境下,网络视频已经成为了众多网络用户生活中必不可少的部分。在网络上,土豆、优酷、Youtube等视频网站为用户提供了各种五彩斑斓的视频节目;电影电视已经成为了全世界人们最不可或缺的休闲方式,已经形成的良好的经济循环。但是,在实际操作中,有些视频不适合在网站发布。这些视频以及电视节目对于青少年的发展可能会产生不利的影响。同时,由于有些视频是受版权保护的,这些视频需要特殊处理,以防止网站的版权侵犯。基于文字的内容筛选以及相似性判断已经比较成熟,但不借助于文字描述,直接根据视频内容本身判断该内容是否与给定的视频组有相似的内容还尚且没有高效而又准确的方法进行判断。
机器学习是人工智能的一个领域,主要是开发一些让计算机自己“学习”的技术。通过学习,可以部分程度上代替人类来做出判断。而从例子中学习(Learning From Examples)被很多专家认为是最有潜力的一种机器学习方法。
多示例学习是在包的粒度对样本进行标记,而每个包中包含若干个示例,示例并无标记。若某个包被标记为正包数据,则该包中至少有一个正示例;反之,若某个包被标记为负包,则该包中的所有示例为负示例。多示例学习的目的就是通过对这些标注的包学习,尽可能准确地对新的包做出判断。由于多示例学习具有独特的性质和广泛的应用前景,因此在国际机器学习和人工智能领域引起了极大的反响,被认为是很有潜力的学习框架。
LR-MD-EMDD(Labeled with Ranking-Multiple Distance-Expectation Maximization-Diversity Density基于排名的多距离期望最大化多样性密度算法)是一个多示例学习算法,输入为正包数据于反包数据的多个种类的描述子,以及各个正包数据的权重。输出为每个描述子的概念点以及该概念点在每个维度上所占的比重(EMDD),以及每个描述子在整个描述子群中所占的比例。该算法接受描述同一段视频的不同种类描述子,输出为该种类描述子的概念点(Concept Point)以及该描述子在整体描述子中所占的比重。不同于标准的EMDD算法,该算法使用数字量化的正包数据学习,而不是单纯的使用正负来表示是否含有该特征。
经对现有文献检索发现,中国专利申请号03148305.4,名称为“一种基于内容的视频片段检索方法”使用了相似片段的检测,通过最大匹配的Hungarian算法,完成对相似片段的匹配。该方法是一种视频的相似性判断方法,并且包含了检索功能,但是,该方法对于视频的声音部分没有经过考虑,同时,该方法由于用来检测以及检索视频,没有提供一种有效的方法为视频自动分类。
中国专利申请号200610140834.8,名称为“视频内容分析系统”该方法接受了提取出镜头信息、镜头关键帧信息、场景信息、场景关键帧信息、关键帧图像信息以及人脸信息。该方法对于视频这一种格式没有进行进一步优化,而将主要精力放在了存储格式上。同时该方法使用了关键帧的处理方法,这样有可能会导致有效信息的丢失。
发明内容
本发明针对现有技术存在的上述不足,提供一种基于组示多示例学习模型的视频特定包含语义检测方法,使用多示例学习的方法,将多示例学习的算法EMDD为视频这种复杂的数据结构进行优化。通过对源视频的处理和学习,使得对于每一个输入的目标视频,都可以自动得到该视频与源视频的相似性数据。该发明可以自动的生成相似性数据报告,据此告诉使用者输入的源视频组和目标视频在内容上有多相似。
本发明是通过以下技术方案实现的,本发明通过接受一组源视频以及一个目标视频,通过对这些视频进行分割,截取描述子,学习,以及学习结果与目标视频描述子进行比对,得到目标视频与原视频组在内容上的相似度。该方法通过对使用了LR-MD-EMDD算法,该算法接受描述同一事物的多个描述子,这些描述子从不同方面描述了该事物的特征。该算法能够在不显著增加EMDD运算时间的情况下,综合不同描述子所给出的数据,能够给出一个全方位的,更为准确的概念点数据。
本发明具体包括以下步骤:
第一步:对视频按场景进行连续分割,得到若干视频片段,具体步骤包括:
1.1)将源视频组重新命名,对其中的第i个场景命名为Vi(Video)。
1.2)目标视频重新命名为T(Test Video)。
1.3)格式化视频,使用ffmpeg工具,使得源视频组和目标视频都转化为25帧每秒的avi格式视频。
1.4)根据镜头的连续性,将源视频组Vi和目标视频T都按照镜头的连续性分割,当被分割的数据段不到一秒,将该视频数据与前一个镜头合并。该步所得到的视频,重命名为Sij(Scene)
所述的源视频组,为选定的基础视频组,这些视频包含了相似的内容,根据这些视频来判断目标视频是不是包含同样的内容。
所述的目标视频,为未知内容的一个视频,该视频将会被用来判断与源视频组在内容上的相关性以及相似性,从而确定该视频在内容上包含什么样的内容。
第二步:使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子。
所述的图片以Jpeg格式保存。
第三步:使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度(Motion Level)。
所述的特征Fi(Feature),1≤I≤n,通过标准MPEG描述子生成软件提取,该描述子使用等长的向量来表示,一个描述子表示为一个n维空间中的一个点。
第四步,对于每一组描述子,对其进行机器学习,具体步骤包括:
4.1)将提取的描述子向量作为正包数据,随机生成描述子向量作为反包数据,将随机10%的正包数据描述子向量作为起始点,计算通过这些起始点,正包数据,反包数据,调用LR-MD-EMDD算法,能够得到一组源视频的特征点。该特征点集为改组视频所包含的共同特征。
所述的正包数据是指:符合特征视频按照该特征出现的程度大小来打分,并标记为正包数据。
所述的反包数据是指:多种已经标记了的视频的特征,标记指的是将不符合某种特征的视频。
4.2)输出为对于每一个特征Fi(Feature)所对应的特征点集(Point Set)Xi(1≤I≤20)的欧氏距离Di,对于每个Di,对应的一个权重μi(Weight)。
4.3)系统存储该数据,为下一步作比对。
第五步:前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度,具体步骤包括:
5.1)对应有n个描述子。取10%的正包数据的特征点为起始点,调用EMDD算法,计算第i个特征的最大DD(Diverse Density分布密度)点集。该点集表示为maxDDj[k]。
5.2)对于第i个示例(Instance)的第j个特征点Xij,计算该特征点与该特征空间最大DD(Diverse Density分布密度)点的欧氏距离,这些距离的最小值为
d ij = min 0 ≤ k ≤ n ED ( x ij , max D D j [ k ] )
其中,dij表示xij与最大多样性密度点之间的欧氏距离。
5.3)确定K,定义Aj(Average Value)为最小的k个dij的平均值。在以下的使用中如无特殊说明,k=1。
对于第i个示例组(Grouped Instance),定义一个变量Di,定义为:
D i = Σ p = 1 N μ p * A p
其中μ={μ1,...,μN}为权重系数,通过最大拟合,选定μi使得该值在进行测试检验时能够使得整个测试集。
5.4)重复步骤5.1-步骤5.3若干次,调整变量maxDDj[k],μj使得多次的方差收敛,输出为:dij,μi
附图说明
图1是使用本发明的步骤说明。
图2是本发明源视频组学习过程的步骤说明。
图3是本发明目标视频的相似性判断过程的步骤说明。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1-如图3所示,本实施例包括以下步骤:
第一步,划分视频。具体步骤为:
i.制作数据库
该步骤本质上就是选取拥有相同内容的视频。在本实施例中,选取了250个经调查和统计包含有特定语义的视频,以改组视频为例,比较一些未知的目标视频,它们与这部分视频的接近程度。
第二步:视频转图像
由于视频的格式各不相同,首先先使用ffmpeg进行格式的转换,可以得到所选的视频的统一格式文件。在本发明中,使用了avi格式作为本步操作的目标文件。
本步使用工具:ffmpeg使用代码行:ffmpeg-i[SRC][DEST]
按照场景将视频分割成若干段(不超过15)。
对于每一个小段,保证长度超过一秒,当一个场景不超过1秒就与前面或后面的场景相连。(本步骤的特例在于保证每一个视频小段超过25帧)。
第三步,提取描述子
使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度(Motion Level)。描述子提取工具:在本发明中使用标准MPEG描述子生成软件,提取了所有能够使用的描述子,作为以后的测试凭据。
描述子有:
a)Dominant Color(主导颜色)
b)Color Layout(颜色分布)
c)Color Structure(颜色结构)
d)Scalable Color(可测量颜色)
e)Homogeneous Texture(相同纹理)
f)Edge Histogram(边缘直方图)
g)Audio Fundamental Frequency(音频基础频率)
h)Audio Harmonicity(音频调和)
i)Audio Signature(音频签名)
j)Audio Spectrum Centroid(音频频谱中心)
k)Audio Spectrum Distribution(音频频谱分布)
l)Audio Spectrum Spread(音频频谱扩散)
m)Background Noise Level(背景声强度)
n)Band Width(带宽)
o)Dc Offset(直流偏置校正)
p)Harmonic Spectral Centroid(谐波频谱质心)
q)Harmonic Spectral Deviation(谐波频谱偏差)
r)Harmonic Spectral Spread(谐波频谱扩散)
s)Harmonic Spectral Variation(谐波频谱变化)
t)运动程度(Motion Level)(运动)
第四步:调用LR-MD-EMDD算法。具体过程是:
i.获取EMDD算法(获取地址:lamda.nju.edu.cn)
ii.为该程序增加接口,从文本中得到关于描述子的内容以便机器学习过程。
最后将EMDD算法所得出的概念点储存入文件中。使用类似SVM文件的存储格式。具体为:
“[标号][p][Maxpoint][数据][s][Maxscale][数据]”
第五步:相似性比较。具体过程是:
i.筛选所使用的描述子。挑选5个效果好的描述子作为最终数据库的入选描述子。
经过测试这五个描述子作为最终测试使用的描述子:
a)Motion(运动程度)
b)Color structure(颜色)
c)Audio Signature(音频特征)
d)Audio Fundametal Frequency(音频基础)
e)Audio Spectrum Spread(音频频谱宽度)
ii.对于每一个描述子,读取所有学习到的Concept Point并且对每一个视频小段,计算小段视频与概念点的欧式距离。取最小的n个距离储存。在本实施例中取n=3。将最小的n个距离取平均值。将该值作为该目标视频与源视频组在该描述子下的相似程度。通过对多段目标视频的测试,对于每一组描述子Di,进行规格化处理:将其中的最大值作为1,其余的值按照该比例进行规格化,对于这五个描述子,以均匀的权重进行加权处理,所得到的规格化后的值为总体视频相似度。
本实施例中的视频相似性比较主要基于视频内容的内在相似性。对于其他主题的视频,可以使用相同的方法,采取不同的数据库,进行学习。使用该方法,可以获得较高的正确率,并且性能相对SVM更好,能够得到与EMDD相似的时间效率。
在学习的过程中,本实施例使用了所有的MPEG-7所规定的描述子。经过多种测试,最终确定了效果最好的多个描述子。优化了结果。
本实施例中使用了基于多示例学习的方法,可以不用为视频中的每个示例做标记,从而降低了人工时间的消耗。随着数据库的增大,所消耗的时间增加幅度不大。保证了更新数据库学习新概念点的时间消耗的长度。
本实施例中,由于使用以一个场景作为一个组来处理,这样就避免有一些细节的丢失,同时也尽量的缩减了需要查看的帧数。同时,由于这个部分的处理与整体是分离的,可以不用担心由于这一步的改动而产生的不同影响。
由于本身不加入人工检验的因素,所以不会因为人认知能力的局限而造成误判,并且,该方案的改进潜力巨大。

Claims (7)

1.一种基于组示多示例学习模型的视频特定包含语义检测方法,其特征在于,包括以下步骤:
第一步:对视频按镜头进行连续分割,得到若干视频片段;
第二步:使用ffmpeg工具,对每一个视频片段Sij,平均每段视频在相同的时间间隔中截取25张图片,用来截取图像描述子;
第三步:使用视频的音频轨道提取有关音频的描述子,使用视频的截图组截取视频描述子,使用视频本身截取运动程度;
第四步,对于每一组描述子,对其进行机器学习;
第五步:前一步得到了经过机器学习之后的结果,将该学习结果与每一个目标视频的某一描述子进行欧式距离的计算,将所得到的最小值作为目标视频在该描述子的描述下,与源视频的接近程度。
2.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第一步,具体步骤包括:
1.1)将源视频组重新命名,对其中的第i个场景命名为Vi
1.2)目标视频重新命名为T;
1.3)格式化视频,使用ffmpeg工具,使得源视频组和目标视频都转化为25帧每秒的avi格式视频;
1.4)根据镜头的连续性,将源视频组Vi和目标视频T都按照镜头的连续性分割,当被分割的数据段不到一秒,将该视频数据与前一个镜头合并;该步所得到的视频,重命名为Sij
3.根据权利要求2所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的源视频组,为选定的基础视频组,这些视频包含了相似的内容,根据这些视频来判断目标视频是不是包含同样的内容;所述的目标视频,为未知内容的一个视频,该视频将会被用来判断与源视频组在内容上的相关性以及相似性,从而确定该视频在内容上包含什么样的内容。
4.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的描述子为Di,1≤I≤n,通过标准MPEG描述子生成软件提取,该描述子使用等长的向量来表示,一个描述子表示为一个n维空间中的一个点。
5.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第四步具体步骤包括:
4.1)将提取的描述子向量作为正包数据,随机生成描述子向量作为反包数据,将随机10%的正包数据描述子向量作为起始点,计算通过这些起始点,正包数据,反包数据,调用LR-MD-EMDD算法,能够得到一组源视频的特征点;该特征点集为改组视频所包含的共同特征;
4.2)输出为对于每一个特征Fi(Feature)所对应的特征点集(Point Set)Xi(1≤I≤20)的欧氏距离Di,对于每个Di,对应的一个权重μi
4.3)系统存储该数据,为下一步作比对。
6.根据权利要求5所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的正包数据是指:符合特征视频按照该特征出现的程度大小来打分,并标记为正包数据;所述的反包数据是指:多种已经标记了的视频的描述子,标记指的是将不符合某种特征的视频。
7.根据权利要求1所述的基于组示多示例学习模型的视频特定包含语义检测方法,其特征是,所述的第五步具体步骤包括:
5.1)对应有n个描述子;取10%的正包数据的特征点为起始点,调用EMDD算法,计算第i个描述子的最大分布密度点集;该点集表示为maxDDj[k];
5.2)对于第i个示例的第j个特征点Xij,计算该特征点与该特征空间最大分布密度点集的欧氏距离,这些距离的最小值为:
d ij = min 0 ≤ k ≤ n ED ( x ij , max D D j [ k ] )
其中,dij表示xij与最大多样性密度点之间的欧氏距离;
5.3)确定K,定义Aj(AverageValue)为最小的k个dij的平均值,k=1;对于第i个示例组(Grouped Instance),定义一个变量Di,定义为:
D i = Σ p = 1 N μ p * A p
其中:μ={μ1,...,μN}为权重系数,通过最大拟合,选定μi使得该值在进行测试检验时能够使得整个测试集;
5.4)重复步骤5.1-步骤5.3若干次,调整变量maxDDj[k],μj使得多次的平均错误最小,输出为:dij,μi
CN201110087415.3A 2011-04-08 2011-04-08 基于组示多示例学习模型的视频特定包含语义检测方法 Active CN102156686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110087415.3A CN102156686B (zh) 2011-04-08 2011-04-08 基于组示多示例学习模型的视频特定包含语义检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110087415.3A CN102156686B (zh) 2011-04-08 2011-04-08 基于组示多示例学习模型的视频特定包含语义检测方法

Publications (2)

Publication Number Publication Date
CN102156686A true CN102156686A (zh) 2011-08-17
CN102156686B CN102156686B (zh) 2014-08-20

Family

ID=44438188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110087415.3A Active CN102156686B (zh) 2011-04-08 2011-04-08 基于组示多示例学习模型的视频特定包含语义检测方法

Country Status (1)

Country Link
CN (1) CN102156686B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855486A (zh) * 2012-08-20 2013-01-02 北京理工大学 一种广义图像目标检测方法
CN104520875A (zh) * 2012-07-11 2015-04-15 意大利广播电视股份公司 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
CN104579521A (zh) * 2014-12-25 2015-04-29 中国科学院信息工程研究所 基于谱质心的视频泄漏信号自动检测方法及系统
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN108701118A (zh) * 2016-02-11 2018-10-23 电子湾有限公司 语义类别分类
CN109634700A (zh) * 2018-11-26 2019-04-16 维沃移动通信有限公司 一种音频的文本内容显示方法及终端设备
CN111368917A (zh) * 2020-03-04 2020-07-03 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937506A (zh) * 2010-05-06 2011-01-05 复旦大学 近拷贝视频检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937506A (zh) * 2010-05-06 2011-01-05 复旦大学 近拷贝视频检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
施智平等: "视频数据库的聚类索引方法", 《计算机学报》 *
纪华等: "结合全局信息的SIFT特征匹配算法", 《光学精密工程》 *
陈斌等: "基于融合MPEG-7描述子和二次预测机制的视频自动分类算法", 《上海交通大学学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104520875B (zh) * 2012-07-11 2019-06-07 意大利广播电视股份公司 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
CN104520875A (zh) * 2012-07-11 2015-04-15 意大利广播电视股份公司 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
CN102855486B (zh) * 2012-08-20 2015-02-11 北京理工大学 一种广义图像目标检测方法
CN102855486A (zh) * 2012-08-20 2013-01-02 北京理工大学 一种广义图像目标检测方法
CN104579521A (zh) * 2014-12-25 2015-04-29 中国科学院信息工程研究所 基于谱质心的视频泄漏信号自动检测方法及系统
CN105138953A (zh) * 2015-07-09 2015-12-09 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN105138953B (zh) * 2015-07-09 2018-09-21 浙江大学 一种基于连续的多实例学习的视频中动作识别的方法
CN108701118A (zh) * 2016-02-11 2018-10-23 电子湾有限公司 语义类别分类
US11227004B2 (en) 2016-02-11 2022-01-18 Ebay Inc. Semantic category classification
CN108701118B (zh) * 2016-02-11 2022-06-24 电子湾有限公司 语义类别分类
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
CN109634700A (zh) * 2018-11-26 2019-04-16 维沃移动通信有限公司 一种音频的文本内容显示方法及终端设备
CN111368917A (zh) * 2020-03-04 2020-07-03 西安邮电大学 一种用于刑侦图像分类的多示例集成学习方法

Also Published As

Publication number Publication date
CN102156686B (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN102156686B (zh) 基于组示多示例学习模型的视频特定包含语义检测方法
Tan et al. Group emotion recognition with individual facial emotion CNNs and global image based CNNs
US20200012674A1 (en) System and methods thereof for generation of taxonomies based on an analysis of multimedia content elements
US10831814B2 (en) System and method for linking multimedia data elements to web pages
US8499008B2 (en) Mixing knowledge sources with auto learning for improved entity extraction
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
US9031999B2 (en) System and methods for generation of a concept based database
US20070294295A1 (en) Highly meaningful multimedia metadata creation and associations
US8451292B2 (en) Video summarization method based on mining story structure and semantic relations among concept entities thereof
US20120321201A1 (en) Using near-duplicate video frames to analyze, classify, track, and visualize evolution and fitness of videos
CN105144141A (zh) 用于使用距离关联性散列法对媒体数据库定址的系统和方法
CN115443490A (zh) 影像审核方法及装置、设备、存储介质
US20110022598A1 (en) Mixing knowledge sources for improved entity extraction
Sebyakin et al. Spatio-temporal deepfake detection with deep neural networks
Kil et al. Discovering the unknown knowns: Turning implicit knowledge in the dataset into explicit training examples for visual question answering
Lv et al. Storyrolenet: Social network construction of role relationship in video
Papagiannopoulou et al. Concept-based image clustering and summarization of event-related image collections
Anand et al. Multimodal language modelling on knowledge graphs for deep video understanding
Patel et al. Content based video retrieval
Zhang et al. On the Importance of Spatial Relations for Few-shot Action Recognition
Song et al. Exploring explicit and implicit visual relationships for image captioning
Huang et al. Tag refinement of micro-videos by learning from multiple data sources
Shrivastav et al. Towards an ontology based framework for searching multimedia contents on the web
Maliatski et al. Hardware-driven adaptive k-means clustering for real-time video imaging
CN117648504A (zh) 媒体资源序列的生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant