CN102332031A - 一种基于视频集合层级主题结构的检索结果聚类方法 - Google Patents

一种基于视频集合层级主题结构的检索结果聚类方法 Download PDF

Info

Publication number
CN102332031A
CN102332031A CN201110316563A CN201110316563A CN102332031A CN 102332031 A CN102332031 A CN 102332031A CN 201110316563 A CN201110316563 A CN 201110316563A CN 201110316563 A CN201110316563 A CN 201110316563A CN 102332031 A CN102332031 A CN 102332031A
Authority
CN
China
Prior art keywords
video
theme
video set
level
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110316563A
Other languages
English (en)
Other versions
CN102332031B (zh
Inventor
徐常胜
桑基韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 201110316563 priority Critical patent/CN102332031B/zh
Publication of CN102332031A publication Critical patent/CN102332031A/zh
Application granted granted Critical
Publication of CN102332031B publication Critical patent/CN102332031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明是一种基于视频集合层级主题结构的检索结果聚类方法,是通过扩充相关的上位词、同义词以及语义关联词,对输入的搜索句子进行查询拓展,得到一个种子词集;根据输入的搜索句子进行检索,返回一个视频集合,再对视频集合进行重复检测,得到每对视频的重复关系;对得到的视频集合的内容进行层级主题建模,通过层级主题模型挖掘视频集合中潜在的层级主题关系;利用搜索句子与父主题的对应关系,将得到的种子词集作为监督信息,利用关联监督层级主题模型对得到的视频集合内容进行建模;并将视频进行重复检测的每对视频的重复关系作为约束,通过关联监督层级主题模型进行建模,实现基于关联监督层级主题模型的主题树发现和视频聚类。

Description

一种基于视频集合层级主题结构的检索结果聚类方法
技术领域
本发明属于视频搜索技术领域,涉及一种基于视频集合层级主题结构的检索结果聚类方法。
背景技术
随着社会媒体(social media)的流行,互联网上的视频数量呈爆炸式增长,用户在享受丰富资源的同时也面临信息过载的困扰,如何将用户查询时所返回的成百上千的检索结果进行有效组织,帮助用户快速定位感兴趣的视频,已成为学术界和工业界共同关心的课题。比较常见的视频搜索引擎采用基于列表的浏览方式返回检索结果,使得用户只能顺序查找,冗长的列表式显示降低了用户体验,且不利于定位和查找感兴趣的目标视频;另外,该方式在某种程度上忽视了检索结果的多样性。基于对搜索结果进行聚类的浏览方式可以从多个方面描述检索结果,从而改善这一不足。
目前针对检索结果进行聚类的方法多专注于解决检索词的歧义性问题,通过对结果进行聚类来区分检索词的多个含义,比如“苹果”(apple),产生的聚类包括“苹果水果”(apple fruit)、“苹果电脑”(apple computer)、“苹果智能手机”(apple smartphone)等对“苹果”apple的不同解释。而还有很多情况,用户的检索词意义是明确的,并不存在歧义性问题,比如“北京奥运会”(Beijing Olympics)、“美国总统大选”(US president election)、“9/11袭击”(9-11attack),用户想了解的是关于这一搜索词的详细内容。针对这类情况,如果能挖掘出检索结果所包含的多个方面(facet),为用户提供一个基于聚类-层级的浏览方式,则可以帮助用户概要了解搜索结果所涉及的主题/方面,从而有助于用户逐步细化检索目标,准确定位感兴趣的视频。
在基于不同模态信息融合的视频聚类方法中,不同模态(文本信息:题目、标注、描述;视觉信息:颜色、边缘、纹理)被连成长向量,转换为一般的聚类问题,采用传统的标准割(Normalized Cut)或者信念传播(Affinity Propagation)作为聚类方法。该方法有如下两个问题:首先,在子主题聚类时没有将与搜索词关联的父主题单独考虑,容易将子主题与父主题相混;其次,对于视觉信息的利用不合理,文本和视觉信息应该分别进行建模。
发明内容
(一)要解决的技术问题
本发明的目的是提供能挖掘出检索结果所包含的多个方面,为用户提供一个基于聚类-层级的浏览方式,则可以帮助用户概要了解搜索结果所涉及的主题/方面,从而有助于用户逐步细化检索目标,准确定位感兴趣的视频,为此提出一种基于视频集合层级主题结构的检索结果聚类方法。
(二)技术方案
为实现上述目的,本发明提供基于视频集合层级主题结构的检索结果聚类方法包括步骤如下:
步骤S1:通过扩充相关的上位词、同义词以及语义关联词,对输入的搜索句子进行查询拓展,得到一个种子词集;
步骤S2:根据输入的搜索句子进行检索,返回一个视频集合,再对视频集合进行重复检测,得到每对视频的重复关系;
步骤S3:对得到的视频集合的内容进行层级主题建模,通过层级主题模型挖掘视频集合中潜在的层级主题关系;利用搜索句子与父主题的对应关系,将得到的种子词集作为监督信息,利用关联监督层级主题模型对得到的视频集合内容进行建模;并将视频进行重复检测的每对视频的重复关系作为约束,通过关联监督层级主题模型进行建模,实现基于关联监督层级主题模型的主题树发现和视频聚类。
优选实施例,所述查询拓展包含基于词网(WordNet)的查询拓展,以及基于关联规则的查询拓展,将与搜索句子相关的词汇扩充到主题树的父主题中。
优选实施例,所述基于词网(WordNet)的查询拓展是将词网(WordNet)概念树中的上位词和同义词作为扩充词,填加入种子词集。
优选实施例,所述基于关联规则的查询拓展为弥补词网(WordNet)领域词汇的狭义性,进一步将视频集合的文本元数据中具有最大置信度和支持度的词汇作为扩充词,填加入种子词集。
优选实施例,所述重复检测是根据视频边缘和纹理的局部特征索引对抽样得到的代表某个视频片段的关键帧进行匹配;利用时空一致性信息滤除匹配噪声,并归一化得到视频层的匹配分数。
本发明的有益效果:本发明采用了基于词网(WordNet)概念树和关联规则的查询拓展方法,以及视频重复检测方法,最终提出一种基于关联监督层级主题模型的主题树发现和视频聚类方法。该发明解决了视频检索结果的层级浏览问题,其中使用查询拓展的结果做为模型的监督信息,可以大大提高主题抽取的质量,从而更准确的提供检索结果的类别标签;使用视频重复检测作为对约束可以增强检索结果的多样性。
附图说明
图1是本发明面向视频搜索结果的层级主题挖掘及聚类浏览的流程图;
图2是本发明中词网(WordNet)概念关系图;
图3a至图3c是本发明中主题模型的图表示;
图4是本发明的方法在“9/11恐怖袭击”主题下与其他技术的对比结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1示出本发明面向视频搜索结果的层级主题挖掘及聚类浏览的流程图,本发明实现一种基于视频集合层级主题结构的检索结果聚类方法,并对每个聚类自动生成类别标签。相比现有的聚类显示方法,一方面通过挖掘潜在的层级主题结构,可以有效地归纳出搜索关键词主题/事件的子方面主题(faceted subtopic);另一方面,通过主题-词分布的形式,可以更好地描述和刻画类标签。本发明的结构图如图1显示,其包含三个组成部分:1)搜索词的查询拓展(query expansion),2)视频集合的重复检测(duplicate detection),3)基于关联监督层级主题模型(RelationalSupervised hLDA)的主题树发现和视频聚类。
1查询拓展
方法的输入是搜索句子,视频分享网站会返回一个视频集合,包括视频以及文本元数据(标题、描述、标注等)。对于搜索词,首先进行查询拓展,利用词网(WordNet)上的概念关系以及视频集合的关联规则挖掘,得到种子词集,种子词集会作为监督信息加入到后续的层级主题建模中。
1.1基于词网(WordNet)概念关系的查询拓展
如图2示出词网(WordNet)概念关系图,其中词网(WordNet)上对于每个词条,有三个维度的概念关系:上位词、同义词和下位词,例如图2所示,“攻击”的词性有两种,分为动词和名词。针对名词词性,上位词是比“攻击”含义更广的词语,例如包括“操作”、“方法”、“事件”;同义词是意思相近的词语,例如包含“突击”、“攻击”、“进攻”;下位词是词义更特殊的词语,可以理解为某一种特殊的攻击,例如包括“轰炸”、“地面袭击”、“自杀性袭击”、“反攻”。针对动词词性,类似的,上位词包含“战斗”、“打仗”、“斗争”;同义词包括“袭击”、“进攻”、“攻击”;方式词可以理解为下位词的一种,例如包括“水下攻击”、“空袭”、“反击”。主题模型建模过程对词库中没有的噪声词不敏感,因此对于搜索句子中的每个搜索词,过滤掉下位词,将词网(WordNet)上的上位词(hypernym)和同义词(synonym)扩充到种子词集里。
1.2基于关联规则的查询拓展
考虑到词网(WordNet)对于领域词汇的狭义性,我们同时考虑搜索词在视频集合里的关联挖掘。与搜索词具有较大置信度(confidence)和支持度(support)的词也扩充到种子词集里。这里我们选定为每个搜索词挑选前10个具有最大置信度和支持度的词进行拓展。通过以上两步得到的种子词集记为S。
2重复检测
为同时在层级建模过程中考虑视频集合的文本元数据和视觉信息,视觉信息以关联约束的形式加入到主题建模中,即:如果两个视频被检测是重复(duplicate)的,则其一定属于同一子主题,进而归到同一聚类中。视频d与视频d’的重复检测结果由一个二进制变量yd,d′表示,若d与d’重复,则yd,d′=1;否则yd,d′=0。
我们采用最近提出的一种基于关键帧匹配的重复检测算法。抽样的关键帧首先根据局部特征索引进行匹配,时空一致性信息用来滤除匹配噪声,并归一化得到视频层的匹配分数。这一方法对视频的平移等变换不敏感,且具有低存储、运行时间短的优点。
3基于关联监督层级主题模型的主题树发现和视频聚类
我们发现一个搜索句子返回的视频集合共享某个与搜索句子相关的主题,这表明视频集合有一种潜在的层级主体结构,父主题即是与搜索句子相关的主题,每个子主题描述父主题的一个方面(facet)。如果我们能发现这种结构,将每个视频映射到一个子主题上,一个子主题即对应于一个视频聚类,通过这种方法就可以实现对结果的聚类显示。
图3a至图3c示出本发明中主题模型的图表示:图3a提出了传统的层级主题模型(Hierarchical Latent Dirichlet Allocation,hLDA)可以用来挖掘数据集合中的层级主题结构,图3a中所有标记在本发明中的含义及标记含义之间的关系将在3.1节中详细说明。在层级主题模型的基础上,搜索句子经过查询拓展得到的种子词集作为监督信息引导主题的发现过程,图3b提出了本发明监督层级主题模型(ShLDA),图3b中所有标记在本发明中的含义及标记含义之间的关系将在3.2节中说明。更进一步,为了结合文本元数据和视觉信息,视觉重复检测的结果被作为对约束(pair-wiseconstraint),图3c又提出了本发明的一种能够结合多模态的关联监督层级主题模型(RShLDA),图3c中所有标记在本发明中的含义及标记含义之间的关系将在3.3节中说明。
3.1层级主题模型
层级主题模型假设所有的主题按树结构组织,每个树节点对应一个主题,每个文档被分配到由根节点到叶节点的一条路径上。层级主题模型的优点在于树结构和主题内容可以同时从文档集合中学习得到,只需设定很少的参数。在视频聚类的背景下,一个搜索句子返回的视频集合对应于文档集合,每个视频的文本元数据对应一个文档。
在层级主题模型的假设下,文档集合中的每个文档生成式过程如下:
●由中国餐馆过程(nested Chinese Restaurant Process,nCRP)抽样选择一条路径cd,该抽样服从参数为γ的中国餐馆过程,记为cd~nCRP(γ),其中γ是中国餐馆过程控制树结构的参数。
抽样主题分布向量θd~GEM(m,π),其中GEM(·)表示木棍分割分布(Stick-Breaking constructions),参数m,π决定了文档-主题分布的趋势,m是均值,决定主题数的密度,π是方差,控制收敛速度。对一个文档wd中的每个词wdn∈wd
■首先根据上一步抽样得到的θd,抽样wd,n所在的层(视频d代表第d个文档,n代表第n个词),即根据多项式分布zd,n~Discrete(θd)进行抽样;其中zd,n表示抽样wd,n所在主题层数,Discrete(·)表示多项式分布。
■然后抽样
Figure BDA0000099764110000061
其中
Figure BDA0000099764110000062
是控制主题-词多项式分布的变量,需要从建模过程求得。
其中,T表示了由中国餐馆过程生成的树结构,c是文档抽样得到的路径,z代表给定路径上的层分布,超参数η控制主题-词分布的平滑/稀疏性,θ、β分别是得到的文档-主题分布和主题-词分布,M代表文档数量,N表示文档中的词数量。
3.2监督层级主题模型
为了利用搜索句子与父主题的关系引导主题树的发现过程,查询拓展得到的种子词集S被作为监督信息加入到层级主题模型中,我们提出了监督层级主题模型。在监督层级主题模型的假设下,文档集合中的每个文档生成式过程如下:
●由中国餐馆过程抽样选择一条路径cd~nCRP(γ)。
●抽样主题分布向量θd~GEM(m,π)。
●对每个词wd,n∈wd
■选择词所在的层zd,n~Discrete(θd);
■抽样 w d , n ~ Constraint ( μ , z d , n ) · Discrete ( β c d | z d , n ) .
其中Constraint(μ,zd,n)是种子词集决定的约束方程,定义如下:
Constraint ( μ , z d , n ) = μ | w d , n ∈ S | z d , n = 1 μ | w d , n ∉ S | z d , n ≠ 1 - - - ( 1 )
其中|·|是指示函数,μ是决定监督信息强度的权重参数。
3.3关联监督层级主题模型
监督层级主题模型中无法考虑视觉信息,而视觉信息对视频聚类的效果有重要作用。在关联监督层级主题模型中,视觉重复检测的结果被作为对约束加入到主题建模过程中。在关联监督层级主题模型的假设下,文档集合的生成式过程如下:
●对于文档集合中的每个文档d:生成式过程与监督层级主题模型一致;
●对于每个文档对d,d′:
■抽样得到重复检测的二进制变量关联概率函数
Figure BDA0000099764110000073
定义了两个文档之间视觉重复的分布,它依赖于路径分配抽样选择的路径为cd,cd′以及主题分布抽样主题分布的向量为θd,θd′
Figure BDA0000099764110000074
其中τ是权重系数,ο表示点积,σ(·)是Sigmoid函数。关联监督层级主题模型的图模型如图3c所示。
生成式模型的推断过程实际上将生成式过程进行反推,对于提出的关联监督层级主题模型,可由经典的吉布斯采样方法推断求解。
在得到主题树后,每个子主题即对应于一个视频聚类。每个视频相对于各个聚类的概率由路径的后验分配cd决定。每个聚类内视频的排序由其在当前子主题的分布计算:
Σ w d , n ∈ w d | z d , n = 2 | N d - - - ( 3 )
其中Nd是分配到页节点的文档总个数。
5实施效果
为了评估本发明,我们从谷歌时代(Google Zeitgeist)选择了7个热门主题作为搜索句子,从视频分享网站Youtube、Metcafe以及Vimeo为每个搜索句子爬取了前800个视频作为视频结合。图4显示了本发明的方法在“911恐怖袭击”主题相关的视频集合得到的主题树,主题树以及对应子主题聚类的视频显示。
从图4可以看出,本发明的方法在“9/11恐怖袭击”主题下与其他技术的对比结果,相比平级结构的主题模型LDA,利用层级主题模型可以获得更紧致的子主题描述。在加入了种子词集的监督信息后,本发明的监督层级主题模型ShLDA比传统的层级主题模型hLDA能得到更好的父主题描述,而融合了视觉重复检测结果的本发明关联监督层级主题模型RShLDA能处理本发明的监督层级主题模型ShLDA文本信息无法分析的情况。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于视频集合层级主题结构的检索结果聚类方法,其特征在于,该方法包括步骤如下:
步骤S1:通过扩充相关的上位词、同义词以及语义关联词,对输入的搜索句子进行查询拓展,得到一个种子词集;
步骤S2:根据输入的搜索句子进行检索,返回一个视频集合,再对视频集合进行重复检测,得到每对视频的重复关系;
步骤S3:对得到的视频集合的内容进行层级主题建模,通过层级主题模型挖掘视频集合中潜在的层级主题关系;利用搜索句子与父主题的对应关系,将得到的种子词集作为监督信息,利用关联监督层级主题模型对得到的视频集合内容进行建模;并将视频进行重复检测的每对视频的重复关系作为约束,通过关联监督层级主题模型进行建模,实现基于关联监督层级主题模型的主题树发现和视频聚类。
2.根据权利要求1所述的基于视频集合层级主题结构的检索结果聚类方法,其特征在于,所述查询拓展包含基于词网的查询拓展,以及基于关联规则的查询拓展,将与搜索句子相关的词汇扩充到主题树的父主题中。
3.根据权利要求2所述的基于视频集合层级主题结构的检索结果聚类方法,其特征在于,所述基于词网的查询拓展是将词网概念树中的上位词和同义词作为扩充词,填加入种子词集。
4.根据权利要求2所述的基于视频集合层级主题结构的检索结果聚类方法,其特征在于,所述基于关联规则的查询拓展为弥补词网领域词汇的狭义性,进一步将视频集合的文本元数据中具有最大置信度和支持度的词汇作为扩充词,填加入种子词集。
5.根据权利要求1所述的基于视频集合层级主题结构的检索结果聚类方法,其特征在于,所述重复检测是根据视频边缘和纹理的局部特征索引对抽样得到的代表某个视频片段的关键帧进行匹配;利用时空一致性信息滤除匹配噪声,并归一化得到视频层的匹配分数。
CN 201110316563 2011-10-18 2011-10-18 一种基于视频集合层级主题结构的检索结果聚类方法 Active CN102332031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110316563 CN102332031B (zh) 2011-10-18 2011-10-18 一种基于视频集合层级主题结构的检索结果聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110316563 CN102332031B (zh) 2011-10-18 2011-10-18 一种基于视频集合层级主题结构的检索结果聚类方法

Publications (2)

Publication Number Publication Date
CN102332031A true CN102332031A (zh) 2012-01-25
CN102332031B CN102332031B (zh) 2013-03-27

Family

ID=45483807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110316563 Active CN102332031B (zh) 2011-10-18 2011-10-18 一种基于视频集合层级主题结构的检索结果聚类方法

Country Status (1)

Country Link
CN (1) CN102332031B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020206A (zh) * 2012-12-05 2013-04-03 北京海量融通软件技术有限公司 基于知识网络的搜索结果聚焦系统及聚焦方法
CN103559510A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103870476A (zh) * 2012-12-12 2014-06-18 百度在线网络技术(北京)有限公司 检索方法及设备
CN103970865A (zh) * 2014-05-08 2014-08-06 清华大学 基于种子词的微博文本层次主题发现方法及系统
CN103970813A (zh) * 2013-12-27 2014-08-06 乐视网信息技术(北京)股份有限公司 多媒体内容的搜寻方法与系统
CN104216938A (zh) * 2013-05-31 2014-12-17 三星Sds株式会社 图像检索装置及方法
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN107784118A (zh) * 2017-11-14 2018-03-09 北京林业大学 一种针对用户兴趣语义的视频关键信息提取系统
CN108268554A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种生成垃圾短信过滤策略的方法和装置
CN108304519A (zh) * 2018-01-24 2018-07-20 西安交通大学 一种基于图数据库的知识森林构建方法
CN112235599A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 一种视频处理方法及系统
WO2021161202A1 (en) * 2020-02-15 2021-08-19 International Business Machines Corporation Graph convolutional networks for video grounding
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281520A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 基于非监督学习和语义匹配特征交互式体育视频检索方法
CN101359368A (zh) * 2008-09-09 2009-02-04 华为技术有限公司 一种视频图像聚类方法及系统
CN101419614A (zh) * 2008-12-03 2009-04-29 深圳市迅雷网络技术有限公司 视频资源聚类方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281520A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 基于非监督学习和语义匹配特征交互式体育视频检索方法
CN101359368A (zh) * 2008-09-09 2009-02-04 华为技术有限公司 一种视频图像聚类方法及系统
CN101419614A (zh) * 2008-12-03 2009-04-29 深圳市迅雷网络技术有限公司 视频资源聚类方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO WU: "Practical Elimination of Near-Duplicates from Web Video Search", 《MULTIMEDIA "07 PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
刘守群等: "一种基于内容相似性的重复视频片段检测方法", 《中国科学技术大学学报》 *
施智平等: "视频数据库的聚类索引方法", 《计算机学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020206A (zh) * 2012-12-05 2013-04-03 北京海量融通软件技术有限公司 基于知识网络的搜索结果聚焦系统及聚焦方法
CN103870476A (zh) * 2012-12-12 2014-06-18 百度在线网络技术(北京)有限公司 检索方法及设备
CN104216938A (zh) * 2013-05-31 2014-12-17 三星Sds株式会社 图像检索装置及方法
CN103559510A (zh) * 2013-11-12 2014-02-05 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103559510B (zh) * 2013-11-12 2017-01-18 中国科学院自动化研究所 一种利用相关主题模型识别社会群体行为的方法
CN103970813A (zh) * 2013-12-27 2014-08-06 乐视网信息技术(北京)股份有限公司 多媒体内容的搜寻方法与系统
CN103970865A (zh) * 2014-05-08 2014-08-06 清华大学 基于种子词的微博文本层次主题发现方法及系统
CN103970865B (zh) * 2014-05-08 2017-04-19 清华大学 基于种子词的微博文本层次主题发现方法及系统
CN106529492A (zh) * 2016-11-17 2017-03-22 天津大学 面向网络查询基于多图融合视频主题分类与描述方法
CN108268554A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种生成垃圾短信过滤策略的方法和装置
CN107784118A (zh) * 2017-11-14 2018-03-09 北京林业大学 一种针对用户兴趣语义的视频关键信息提取系统
CN107784118B (zh) * 2017-11-14 2020-08-28 北京林业大学 一种针对用户兴趣语义的视频关键信息提取系统
CN108304519A (zh) * 2018-01-24 2018-07-20 西安交通大学 一种基于图数据库的知识森林构建方法
CN108304519B (zh) * 2018-01-24 2020-08-18 西安交通大学 一种基于图数据库的知识森林构建方法
WO2021161202A1 (en) * 2020-02-15 2021-08-19 International Business Machines Corporation Graph convolutional networks for video grounding
US11442986B2 (en) 2020-02-15 2022-09-13 International Business Machines Corporation Graph convolutional networks for video grounding
GB2608529A (en) * 2020-02-15 2023-01-04 Ibm Graph convolutional networks for video grounding
CN112235599A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 一种视频处理方法及系统
CN113553429A (zh) * 2021-07-07 2021-10-26 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法
CN113553429B (zh) * 2021-07-07 2023-09-29 北京计算机技术及应用研究所 一种规范化标签体系构建及文本自动标注方法

Also Published As

Publication number Publication date
CN102332031B (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN102332031B (zh) 一种基于视频集合层级主题结构的检索结果聚类方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
Hou et al. Newsminer: Multifaceted news analysis for event search
US10614138B2 (en) Taste extraction curation and tagging
Ma et al. Natural disaster topic extraction in sina microblogging based on graph analysis
CN103455487A (zh) 一种搜索词的提取方法及装置
Xu et al. Wikipedia‐based topic clustering for microblogs
Tajbakhsh et al. Semantic knowledge LDA with topic vector for recommending hashtags: Twitter use case
Zheng et al. Collecting event‐related tweets from twitter stream
Ballatore et al. Linking geographic vocabularies through WordNet
Habib et al. TwitterNEED: A hybrid approach for named entity extraction and disambiguation for tweet
Tanev et al. Enhancing event descriptions through twitter mining
Zhao et al. Dynamic theme tracking in Twitter
Zhao et al. Towards events detection from microblog messages
Wang et al. A hierarchical dirichlet model for taxonomy expansion for search engines
Xu et al. Building spatial temporal relation graph of concepts pair using web repository
Li et al. Modeling topic and community structure in social tagging: The TTR‐LDA‐Community model
Shannag et al. Lessons learned from event detection from Arabic tweets: the case of Jordan flash floods near dead sea
Hamzehei et al. Scalable sentiment analysis for microblogs based on semantic scoring
Luo et al. THUSAM at NTCIR-11 IMine Task.
Yamamoto Disputed sentence suggestion towards credibility-oriented web search
Gupta et al. Document summarisation based on sentence ranking using vector space model
Anoop et al. A distributional semantics-based information retrieval framework for online social networks
Reuben et al. Iterative query selection for opaque search engines with pseudo relevance feedback

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant