CN111259218A - 一种原创新闻信息识别方法 - Google Patents

一种原创新闻信息识别方法 Download PDF

Info

Publication number
CN111259218A
CN111259218A CN202010022507.2A CN202010022507A CN111259218A CN 111259218 A CN111259218 A CN 111259218A CN 202010022507 A CN202010022507 A CN 202010022507A CN 111259218 A CN111259218 A CN 111259218A
Authority
CN
China
Prior art keywords
news
target
webpage
target news
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010022507.2A
Other languages
English (en)
Other versions
CN111259218B (zh
Inventor
高山
汪高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinaso Information Technology Co ltd
Original Assignee
Chinaso Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinaso Information Technology Co ltd filed Critical Chinaso Information Technology Co ltd
Priority to CN202010022507.2A priority Critical patent/CN111259218B/zh
Publication of CN111259218A publication Critical patent/CN111259218A/zh
Application granted granted Critical
Publication of CN111259218B publication Critical patent/CN111259218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Abstract

本发明公开了一种原创新闻信息识别方法,包括如下步骤,S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;S3、计算每个目标新闻网页的SimHash;S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。优点是:对新闻页面进行准确的分类和抽取,增加了文本的价值性;通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,提高了识别的效率,减少了干扰项。

Description

一种原创新闻信息识别方法
技术领域
本发明涉及新闻信息识别领域,尤其涉及一种原创新闻信息识别方法。
背景技术
近年来,网络新闻快速发展,网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。相比于传统媒体新闻,网络新闻具有快速、灵活、便捷等优点。正是这些优点,让网络原创新闻如何在假新闻、机器自动生成新闻以及转载新闻中得到保护显得尤为迫切和重要。利用一定的提取识别技术自动地对大量新闻进行爬取,在保证新闻覆盖面的同时,如何有效快速的进行原创新闻的筛选,准确的保护原创新闻的版权,从而保护创新的积极性是当前研究的主要困难。原创新闻识别涉及页面核心内容准确提取、相似新闻聚合、高质量新闻鉴别等多个技术方面的方法,在保护原创新闻、优化信息检索等领域有着广泛的需求和应用前景。
现有网络新闻领域,对假新闻的识别算法比较丰富和完善,对原创新闻的识别还比较落后。无论是从页面提取不够精细,还是原创新闻潜在数据源获取以及打分鉴别等方面,都不够细致和全面,最终都会干扰到原创新闻的识别质量,影响原创的积极性。
发明内容
本发明的目的在于提供一种原创新闻信息识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种原创新闻信息识别方法,所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;
S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。
优选的,步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
优选的,步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;
S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
优选的,所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash 相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间;时间权值依据发布时间由早到晚递减。
优选的,步骤S44中,各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。
优选的,步骤S44中,根据各目标新闻网页的转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值;若站点提供评论功能,则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值。
优选的,步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值;所述视频音频权值依据有效图片和视频的数量由多到少递减。
本发明的有益效果是:1、对新闻页面进行准确的分类和抽取,大大增加了文本的价值性。2、通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,大大提高了识别的效率,并减少了干扰项。3、通过完善的原创新闻识别算法,基于准确的信息提取,包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判,极大的减少了原创新闻误判的情况出现,增加准确性。
附图说明
图1是本发明实施例中所述方法的流程示意图;
图2是本发明实施例中目标新闻网页的SimHash计算流程示意图;
图3是本发明实施例中原创新闻判定流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中提供了一种原创新闻信息识别方法,所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;
S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。
本实施例中,步骤S1中需要对爬虫抓取的新闻库中的新闻网页进行网页类型识别,如果页面类型不是内容页,或者文本长度较短,没有实质内容等,予以丢弃不再进行下一步计算;若符合要求,则进行步骤S2。步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
本实施例中,对筛选出的符合要求的新闻内容页进行内容解析,抽取出标题、正文、来源、作者、发布时间、评论、转发、点赞等信息;为后续的处理做准备。
本实施例中,计算每个符合要求的新闻网页的SimHash。步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;其中,分词结果集表示为T={t1,t2,…,tn};ti为分词结果集中的第i个分词结果;i=1,2,…,n,n为分词结果集中的分析结果个数。
S32、计算分词结果集中各个分词结果ti的64位的hash值,并将64位的hash 值对应为64维数组;该64维数组表示为hi=[bi,0,bi,1,…,bi,63],其中bi,j为0或1, i=1,2,…,n,j=0,1,…,63,n为分词结果集中的分析结果个数;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;所述判定数组表示为
Figure RE-GDA0002424923370000051
其中wi为ti的逆文本频率。
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;也就是说,目标新闻网页的SimHash的第j位为
Figure RE-GDA0002424923370000052
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
本实施例中,对所有内容页计算完成SimHash后,对于所有具有某一相同 SimHash的目标新闻网页集S={s1,s2,…,sk}(k为集合中的文章数);开始分析,以下的计算流程涉及各种权重,本实施例中,设置来源权值ω,发布时间权值η,权威度权值λ,传播力权值ξ,图片视频权值υ。所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash 相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
本实施例中,对目标新闻网页来源分析,如果目标新闻网页有来源,且超过半数的来源指向同一处,且源url在集合S中,则该目标新闻网页被判定为原创新闻,结束;如果不满足上述条件,则对每个目标新闻网页的来源在集合S中的进行加权。
本实施例中,步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
本实施例中,步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间。按照发布时间先后排序,时间权值η依据发布时间由早到晚递减。
本实施例中,步骤S44中,各目标新闻网页的站点权威度权值λ由历史原创新闻站点打分积累所得。
本实施例中,步骤S44中,根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值ξ。如果站点提供评论功能,则将评论也纳入传播力权值的计算范围。
本实施例中,步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值υ;基于以下假设,原创新闻正文中的图片数量或视频数量不会少于转载后文章,因此,所述视频音频权值依据有效图片和视频的数量由多到少递减。
本实施例中,所述方法对通过对非新闻报道属性的网页进行初步过滤,对通过初步过滤的新闻网页计算SimHash;对拥有相同SimHash的新闻网页通过分析来源关系、判定站点权威性、传播力检测以及图片视频检测找出原创新闻,或者给出未找到原创新闻的结果。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种原创新闻信息识别方法,本方法对新闻页面进行准确的分类和抽取,大大增加了文本的价值性;通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,大大提高了识别的效率,并减少了干扰项。本方法通过完善的原创新闻识别算法,基于准确的信息提取,包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判,极大的减少了原创新闻误判的情况出现,增加准确性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (9)

1.一种原创新闻信息识别方法,其特征在于:所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。
2.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
3.根据权利要求2所述的原创新闻信息识别方法,其特征在于:步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;
S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
4.根据权利要求3所述的原创新闻信息识别方法,其特征在于:所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
5.根据权利要求4所述的原创新闻信息识别方法,其特征在于:步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
6.根据权利要求4所述的原创新闻信息识别方法,其特征在于:步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间;时间权值依据发布时间由早到晚递减。
7.根据权利要求4所述的原创新闻信息识别方法,其特征在于:步骤S44中,各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。
8.根据权利要求4所述的原创新闻信息识别方法,其特征在于:步骤S44中,根据各目标新闻网页的转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值;若站点提供评论功能,则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值。
9.根据权利要求4所述的原创新闻信息识别方法,其特征在于:步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值;所述视频音频权值依据有效图片和视频的数量由多到少递减。
CN202010022507.2A 2020-01-09 2020-01-09 一种原创新闻信息识别方法 Active CN111259218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010022507.2A CN111259218B (zh) 2020-01-09 2020-01-09 一种原创新闻信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010022507.2A CN111259218B (zh) 2020-01-09 2020-01-09 一种原创新闻信息识别方法

Publications (2)

Publication Number Publication Date
CN111259218A true CN111259218A (zh) 2020-06-09
CN111259218B CN111259218B (zh) 2020-10-27

Family

ID=70946814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010022507.2A Active CN111259218B (zh) 2020-01-09 2020-01-09 一种原创新闻信息识别方法

Country Status (1)

Country Link
CN (1) CN111259218B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110020A (zh) * 2006-07-21 2008-01-23 国际商业机器公司 维护关于可编辑对象中的元素的与原创性有关的信息的方法和系统
CN104572787A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 伪原创网站的识别方法及装置
US20180052904A1 (en) * 2016-08-18 2018-02-22 International Business Machines Corporation Matching a first collection of strings with a second collection of strings
CN108009599A (zh) * 2017-12-27 2018-05-08 福建中金在线信息科技有限公司 一种原创文档判断方法、装置、电子设备及存储介质
CN108959515A (zh) * 2018-06-28 2018-12-07 网易传媒科技(北京)有限公司 原创数据保护方法、介质、装置和计算设备
CN110321466A (zh) * 2019-06-14 2019-10-11 广发证券股份有限公司 一种基于语义分析的证券资讯查重方法及系统
US20190334723A1 (en) * 2018-04-30 2019-10-31 Merck Patent Gmbh Methods and systems for automatic object recognition and authentication

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110020A (zh) * 2006-07-21 2008-01-23 国际商业机器公司 维护关于可编辑对象中的元素的与原创性有关的信息的方法和系统
CN104572787A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 伪原创网站的识别方法及装置
US20180052904A1 (en) * 2016-08-18 2018-02-22 International Business Machines Corporation Matching a first collection of strings with a second collection of strings
CN108009599A (zh) * 2017-12-27 2018-05-08 福建中金在线信息科技有限公司 一种原创文档判断方法、装置、电子设备及存储介质
US20190334723A1 (en) * 2018-04-30 2019-10-31 Merck Patent Gmbh Methods and systems for automatic object recognition and authentication
CN108959515A (zh) * 2018-06-28 2018-12-07 网易传媒科技(北京)有限公司 原创数据保护方法、介质、装置和计算设备
CN110321466A (zh) * 2019-06-14 2019-10-11 广发证券股份有限公司 一种基于语义分析的证券资讯查重方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法
CN113094382B (zh) * 2021-04-02 2022-12-06 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法

Also Published As

Publication number Publication date
CN111259218B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US10922350B2 (en) Associating still images and videos
Chakrabarti et al. Page-level template detection via isotonic smoothing
Wang et al. Mining correlated bursty topic patterns from coordinated text streams
CN105095368B (zh) 一种对新闻信息进行排序的方法及装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
US20080275901A1 (en) System and method for detecting a web page
CN105279277A (zh) 知识数据的处理方法和装置
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
Tong et al. CNN-based shot boundary detection and video annotation
JP6280323B2 (ja) キャプチャしたイメージを用いた動画分析装置、方法およびコンピュータ読み取り可能な記録媒体
CN101038596A (zh) 一种网站分类方法及系统
CN101894125A (zh) 一种基于内容的视频分类方法
CN105808722B (zh) 一种信息判别方法和系统
CN101944111B (zh) 新闻视频的搜索方法和装置
Tan et al. Efficient mining of multiple partial near-duplicate alignments by temporal network
Roopalakshmi et al. A novel spatio-temporal registration framework for video copy localization based on multimodal features
CN111259218B (zh) 一种原创新闻信息识别方法
KR100896336B1 (ko) 영상 정보 기반의 동영상 연관 검색 시스템 및 방법
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及系统
Hong et al. Exploring large scale data for multimedia QA: an initial study
CN114048389B (zh) 一种面向工程机械行业的内容推荐方法及系统
CN108694325B (zh) 指定类型网站的辨别方法和指定类型网站的辨别装置
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
Liang et al. Design of video retrieval system using MPEG-7 descriptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant