CN110781497A - 网页链接的检测方法及存储介质 - Google Patents
网页链接的检测方法及存储介质 Download PDFInfo
- Publication number
- CN110781497A CN110781497A CN201911001562.7A CN201911001562A CN110781497A CN 110781497 A CN110781497 A CN 110781497A CN 201911001562 A CN201911001562 A CN 201911001562A CN 110781497 A CN110781497 A CN 110781497A
- Authority
- CN
- China
- Prior art keywords
- link
- webpage
- unknown
- web page
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种网页链接的检测方法及存储介质,方法包括:获取待检测的未知网页链接信息,根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息;根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别。本申请提供的方法,基于已知网页链接的质量信息,根据网页之间的链接关系和关联值,计算未知网页链接的评分,根据未知网页链接的评分判断未知网页链接的质量,判断准确率高,误判率低,可以很好地满足网页链接质量检测的工程需要。
Description
技术领域
本申请涉及网络安全技术领域,具体涉及一种网页链接的检测方法及存储介质。
背景技术
目前,互联网已经成为人们日常工作、学习、生活中不可或缺的技术之一。人们在使用互联网的时候经常会受到未知网页链接质量问题的困扰,一些低质量的网页链接不仅会浪费人们的时间而且可能会带来网络安全问题,例如,在浏览或搜索网络信息时,经常会出现恶意网络链接,点进恶意链接后,计算机或智能手机会中病毒或被自动安装许多流氓软件,这些恶意链接给用户带来了极大的信息安全风险,降低了用户的互联网使用体验好感。目前常用的大部分网页链接的检测方法,只能在发现可疑链接之后,根据规则提取关键字符,然后进行哈希匹配进行检测,其只对链接本身进行分析,难以得到链接具体信息,检测效率低下,准确率低,且依赖于规则库和恶意链接数据库,依赖于规则的正确和恶意链接数据库的信息完整,如果达不到以上条件则会产生大量误判和漏判。
发明内容
本申请的目的是提供一种网页链接的检测方法及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种网页链接的检测方法,包括:
获取待检测的未知网页链接信息,根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息;
根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别;
其中,所述已知网页链接信息包括:自身网页质量评价信息、与自身网页链接存在访问关系的其他已知网页链接的关联值。
进一步地,在所述根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息之前,所述方法还包括:
查找出与所述未知网页链接存在访问关系的已知网页链接;
获取所述未知网页链接信息与各所述已知网页链接的关联值;
获取所述已知网页链接信息。
进一步地,所述查找出与所述未知网页链接存在访问关系的已知网页链接,包括:
获取若干第一网页链接,获取与各所述第一网页链接直接相链接和间接相链接的第二网页链接;
从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接;所述第一网页链接和所述第二网页链接为已知的网页链接;所述关联网页链接为与所述未知网页链接存在访问关系的已知网页链接。
进一步地,所述从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接,包括:
以所述第一网页链接和所述第二网页链接作为顶点,以两顶点之间的链接路径作为边,构建图模型;
从所述图模型中查找出与所述未知网页链接直接相链接的顶点;所述与所述未知网页链接直接相链接的顶点包括所述未知网页链接的链入顶点和所述未知网页链接的链出顶点。
进一步地,所述方法还包括:将质量级别被确定的网页链接作为顶点加入所述图模型中。
进一步地,所述根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别,包括:
调取所述关联网页链接的质量评价信息,利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息;
根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定。
进一步地,所述调取所述关联网页链接的质量评价信息,包括:从所述图模型中的顶点的质量评分数据中调取所述链入顶点的质量评分数据和所述链出顶点的质量评分数据;其中,所述质量评价信息包括质量评分数据。
进一步地,所述获取所述未知网页链接信息与各所述已知网页链接的关联值,包括:计算所述未知网页链接的链入边权重值,计算所述未知网页链接的链出边权重值。
进一步地,所述利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息,包括:
将所述链入顶点的质量评分数据与所述链入边权重值的乘积累加起来,得到链入乘积和;
将所述链出顶点的质量评分数据与所述链出边权重值的乘积累加起来,得到链出乘积和;
对所述链入乘积和与所述链出乘积和进行加权求和,得到评分。
进一步地,所述计算所述未知网页链接的链入边权重值,包括:计算所述未知网页链接的链入边的链入次数与所述未知网页链接的链接发生总次数的比值,得到链入边权重值。
进一步地,所述计算所述未知网页链接的链出边权重值,包括:计算所述未知网页链接的链入边的链出次数与所述未知网页链接的链接发生总次数的比值,得到链出边权重值。
进一步地,所述根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定,包括:
将所述未知网页链接的质量评价信息与各个质量级别的预设条件进行比较,查找出所述未知网页链接的质量评价信息所符合的预设条件,用所述所符合的预设条件所对应的质量级别标记所述未知网页链接。
根据本申请实施例的另一个方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现所述的网页链接的检测方法。
本申请实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供的网页链接的检测方法,基于已知网页链接的质量信息,根据网页链接之间的链接关系和关联值,计算未知网页链接的评分,根据未知网页链接的评分判断未知网页链接的质量,例如是否为恶意链接等,判断准确率高,误判率低,可以很好地满足网页链接质量检测的工程需要。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的一个实施例的网页链接的检测方法的流程图;
图2为本申请的一实施例的图模型的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
互联网是一张巨大的网,不同的网页之间存在不同的关联关系,该关联关系包括直接相链接和间接相链接的关系,可以根据已知网页链接的质量信息和网页链接之间关联性分析网页链接的质量,例如该网页链接是否为恶意链接等。
“图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。通常,在图计算中,基本的数据结构表达就是:G=(V,E,D),V=vertex(顶点或者节点),E=edge(边),D =data(权重)。比如说:对于一个消费者的原始购买行为,有两类节点:用户和产品,边就是购买行为,权重是边上的一个数据结构,可以是购买次数和最后购买时间。对于物理世界的许多数据问题,都可以利用图结构来抽象表达,比如社交网络、网页链接关系、用户传播网络、用户网络点击、浏览和购买行为,甚至消费者评论内容、内容分类标签、产品分类标签等等。图数据结构很好地表达了数据之间的关联性(dependencies between data),关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。比如,通过为购物者之间的关系建模,就能很快找到口味相似的用户,并为之推荐商品;或者在社交网络中,通过传播关系发现意见领袖。
将网页链接视为“顶点”而将网页链接之间的关联性视为“边”,不同于传统图模型的地方是,在图模型中,顶点之间的边是有方向的,反应链接的方向关系;而各网页之间关联性大小(由链接次数反映)则视为“权重”,以此为依据建立网页链接库的图模型。
如图1所示,本申请的一个实施例提供了一种网页链接的检测方法,包括:
S1、获取待检测的未知网页链接信息。
S2、查找出与所述未知网页链接存在访问关系的已知网页链接。
S3、获取所述未知网页链接信息与各所述已知网页链接的关联值。
S4、获取所述已知网页链接信息。
S5、根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息。
S6、根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别;
其中,所述已知网页链接信息包括:自身网页质量评价信息、与自身网页链接存在访问关系的其他已知网页链接的关联值。
在某些实施方式中,所述未知网页链接信息可以为网页的网址。
所述已知网页链接信息的质量评价信息即自身网页质量评价信息,例如可以为质量评分数据。
获取待检测的未知网页链接信息,例如可以为,获取到第一网页链接A为www.xxxxxxxxxxxxxxxxxx.xxx.html。
在某些实施方式中,所述查找出与所述未知网页链接存在访问关系的已知网页链接,包括:
S201、获取若干第一网页链接,获取与各所述第一网页链接直接相链接和间接相链接的第二网页链接;所述第一网页链接和所述第二网页链接为已知的网页链接;
与第一网页链接直接相链接的第二网页链接是指内嵌于第一网页链接中的网页链接,两个网页链接之间通过一次链接关系即可实现跳转,例如,第一网页链接A为www.xxxxxxxxxxxxxxxxxx.xxx.html,网页链接B为 www.xxx11xxxxxxxxxxxxxxx.xxx.html,访问A时会自动跳转到网页链接B为 www.xxx11xxxxxxxxxxxxxxx.xxx.html,则网页链接B与网页链接A为直接相链接的关系,网页链接B属于第二网页链接;如果网页链接C为B的内嵌链接,网页链接D为C的内嵌链接,即从网页链接A跳转到网页链接C和D分别需要经过两次和三次链接跳转,则网页链接C和D与网页链接A是间接相链接的关系,网页链接C和D均属于与网页链接A间接相链接的第二网页链接。
如果网页链接A与网页链接B之间的链接关系是由网页链接A跳转到网页链接B,则称网页链接A是网页链接B的链入链接,称网页链接B是网页链接A的链出链接;
所述第一网页链接和所述第二网页链接所对应的网页质量信息(即该网页的质量级别或评分数据)可以是已知的,或者可以是可获取的;
获取第一网页链接和第二网页链接包括收集若干已知的网页链接,可以收集10万数量级的已知的网页链接作为第一网页链接,然后收集与每一个第一网页链接直接相链接和间接相链接的第二网页链接,这样能够构成一个足够大的网页链接数据库。
在某些实施例中,可以通过网页抓取工具来收集与每一所述第一网页链接直接相链接或间接相链接的第二网页链接。
S202、从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接;所述第一网页链接和所述第二网页链接为已知的网页链接;所述关联网页链接为与所述未知网页链接存在访问关系的已知网页链接。
在某些实施方式中,所述从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接,包括:
S2021、以所述第一网页链接和所述第二网页链接作为顶点,以两顶点之间的链接路径作为边,构建图模型;
如果顶点A与顶点B之间的链接关系是由顶点A跳转到顶点B,则称顶点 A是顶点B的链入顶点,称顶点B是顶点A的链出顶点;顶点A与顶点B之间的边为有向边,该有向边的方向为链接路径的方向,即有向边的方向为由顶点A指向顶点B;且该有向边称之为顶点A的链出边,该有向边称之为顶点B 的链入边;
所述图模型以所有的第一网页链接和所有的第二网页链接作为顶点,顶点之间的链接关系作为顶点之间的边,所述的边是有方向的,边的方向与链接关系的方向相同;该图模型复杂度低,覆盖面广,可以很好地满足网页链接质量检测的工程需要。
由于构建该图模型的所有网页链接之间均存在直接相链接或者间接相链接的链接关系,因此,在不考虑边的方向的前提下,该图模型为连通图;
某实施方式中的图模型如图2所示,顶点V1~V6为已知的顶点,V7代表未知网页链接,顶点V2具有一个链入顶点V1和两个链出顶点V3和V5,顶点V2 的链入边的方向是V1链入V2的方向,V2的链入次数为3次,V2的链出次数为 8次,其中包括由V2链出到V5的6次和由V2链出到V3的2次;V2有两条链出边,一条链入边;
S2022、从所述图模型中查找出与所述未知网页链接直接相链接的顶点;所述与所述未知网页链接直接相链接的顶点包括所述未知网页链接的链入顶点和所述未知网页链接的链出顶点。
所述与自身网页链接存在访问关系的其他已知网页链接即所述链入顶点和所述链出顶点所对应的网页链接。所述关联网页链接即所述链入顶点和所述链出顶点所对应的网页链接。
以图2所示为例,未知网页链接V7的链入顶点包括V5和V3,链出顶点包括V5、V4和V6。
在某些实施方式中,所述方法还包括:S7、将质量级别被确定的网页链接作为顶点加入所述图模型中。
所述经过质量级别标定的网页链接是所述未知网页链接经过质量级别标定之后得到的。经过质量级别标定的网页链接的网页质量级别以及评分等数据为已知的,加入所述图模型中,可以扩大图模型的规模,提高对未知网页的质量检测能力和检测准确度,实用性更强。
在某些实施方式中,所述根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别,包括:
S601、调取所述关联网页链接的质量评价信息,利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息;
S602、根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定。
在某些实施方式中,所述调取所述关联网页链接的质量评价信息,包括:从所述图模型中的顶点的质量评分数据中调取所述链入顶点的质量评分数据和所述链出顶点的质量评分数据;其中,所述质量评价信息包括质量评分数据。
所述自身网页质量评价信息对应于顶点的评分数据。
获取顶点的评分数据可以是直接调用已有的现成数据,或者也可以是可以通过网页评分数据获取方法实现的;在某些实施方式中,所述网页评分数据获取方法包括:统计网页的页面停留时间和/或查阅网页的违规纪录,根据停留时间的长度和/或网页的违规纪录给网页打分。网页的违规纪录包括网页被举报或投诉的次数;对于已知的网页来说,页面停留时间以及违规纪录等数据均是可获取的;打分标准是预先设定的,例如,在某些实施例中,设定页面停留时间在0~2s范围内的网页分值为-5分,设定页面停留时间在2s~5s 范围内的网页分值为-4分,设定页面停留时间在30s以上的网页分值为5 分,……;设定存在举报或投诉纪录的网页分值为-5分,等等;
在某些实施方式中,评分数据的取值范围为[-5,5];
在某些实施方式中,可以通过网页抓取工具来收集所述图模型中的每一顶点的评分数据。
在某些实施方式中,所述获取所述未知网页链接信息与各所述已知网页链接的关联值,包括:计算所述未知网页链接的链入边权重值,计算所述未知网页链接的链出边权重值。
在某些实施方式中,所述计算所述未知网页链接的链入边权重值,包括:计算所述未知网页链接的链入边的链入次数与所述未知网页链接的链接发生总次数的比值,得到链入边权重值。
在某些实施方式中,所述计算所述未知网页链接的链出边权重值,包括:计算所述未知网页链接的链入边的链出次数与所述未知网页链接的链接发生总次数的比值,得到链出边权重值。
以图2所示为例,未知网页链接V7有两条链入边,三条链出边,链入边包括由V5链入V7的链接路径(发生4次链接)和由V3链入V7的链接路径 (发生2次链接),链出边包括由V7链出到V5(3次)、由V7链出到V4(8 次)以及由V7链出到V6(2次)的链接路径;
发生在V7上的链接发生总次数为3+4+2+8+2=19次;
计算每一条链入边的权重值,例如,由V5链入V7的链入边权重值为4/19,由V7链出到V4的链出边权重值为8/19,V3链入V7的链入边权重值为2/19,由V7链出到V5的链出边权重值为3/19,由V7链出到V6的链出边权重值为 2/19。
在某些实施方式中,所述利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息,包括:
1)将所述链入顶点的质量评分数据与所述链入边权重值的乘积累加起来,得到链入乘积和;
2)将所述链出顶点的质量评分数据与所述链出边权重值的乘积累加起来,得到链出乘积和;
3)对所述链入乘积和与所述链出乘积和进行加权求和,得到评分。
所述未知网页链接的质量评价信息为未知网页链接的评分。
计算所述未知网页链接的评分,公式如下:
未知网页链接的评分=α*∑(链入顶点的评分*链入边权重值)+β*∑(链出顶点的评分*链出边权重值);其中,α代表未知网页链接的链入权重,β代表未知网页链接的链出权重,0≤α≤1,0≤β≤1,α+β=1;其中,∑(链入顶点的评分*链入边权重值)代表的是将所述未知网页链接的每一链入顶点的评分与对应于该链入顶点的链入边权重值的积全部加起来得到的和,即所述链入乘积和;∑(链出顶点的评分*链出边权重值)代表的是将所述未知网页链接的每一链出顶点的评分与该链出顶点的链出边权重值的积全部加起来得到的和,即所述链出乘积和;∑代表的是求和操作;
例如,设置α=0.8,β=0.2,某未知网页链接评分=0.8*∑(链入网页评分*链入边权重值)+0.2*∑(链出网页评分*链出边权重值);
以图2所示为例,未知网页链接V7的评分=0.8*(V5评分*4/19+V3评分 *2/19)+0.2*(V5评分*3/19+V4评分*8/19+V6评分*2/19)。
在某些实施方式中,所述根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定,包括:
将所述未知网页链接的质量评价信息与各个质量级别的预设条件进行比较,查找出所述未知网页链接的质量评价信息所符合的预设条件,用所述所符合的预设条件所对应的质量级别标记所述未知网页链接。
例如,预设条件为预设阈值范围,将所述未知网页链接的质量评价数据与各个质量级别的预设阈值范围进行比较,查找出所述未知网页链接的质量评价数据所属的预设阈值范围,用所述所属的预设阈值范围所对应的质量级别标记所述未知网页链接。
例如,设定三个质量级别:优秀级别、一般级别和危险级别;优秀级别的预设阈值范围为大于或等于50分,一般级别为0~50分,危险级别为小于0分,如果一个网页链接的评分为30分,则该网页链接的质量属于一般级别;如果一个网页链接的评分小于0分,则该网页链接属于危险级别,可能为恶意网页链接。也可以只设定正常级别和恶意级别两个质量级别,正常级别的预设阈值范围为大于等于0分,恶意级别的预设阈值范围为小于0分。质量级别的设定可以根据实际需要随意调整。
本申请另一实施例提供一种网页链接的检测方法,包括:
获取待检测的未知网页链接信息,根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息;
根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别;
其中,所述已知网页链接信息包括:自身网页质量评价信息、与自身网页链接存在访问关系的其他已知网页链接的关联值。
本申请的实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现所述的网页链接的检测方法。
本申请实施例提供的网页链接质量检测方法,基于若干已知网页链接的信息,根据网页链接之间的链接关系,建立了网页数据的图模型,继而根据各网页的评分,利用图模型计算未知网页链接的评分,根据未知网页链接的评分可以准确地判断未知网页链接是否为恶意链接,判断准确率高,误判率低,可以很好地满足网页链接质量检测的工程需要。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序 (例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (13)
1.一种网页链接的检测方法,其特征在于,包括:
获取待检测的未知网页链接信息,根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息;
根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别;
其中,所述已知网页链接信息包括:自身网页质量评价信息、与自身网页链接存在访问关系的其他已知网页链接的关联值。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述未知网页链接信息与各已知网页链接的关联值,确定与所述未知网页链接信息相关联的已知网页链接信息之前,所述方法还包括:
查找出与所述未知网页链接存在访问关系的已知网页链接;
获取所述未知网页链接信息与各所述已知网页链接的关联值;
获取所述已知网页链接信息。
3.根据权利要求2所述的方法,其特征在于,所述查找出与所述未知网页链接存在访问关系的已知网页链接,包括:
获取若干第一网页链接,获取与各所述第一网页链接直接相链接和间接相链接的第二网页链接;
从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接;所述第一网页链接和所述第二网页链接为已知的网页链接;所述关联网页链接为与所述未知网页链接存在访问关系的已知网页链接。
4.根据权利要求3所述的方法,其特征在于,所述从所述第一网页链接和所述第二网页链接中查找出所述未知网页链接的关联网页链接,包括:
以所述第一网页链接和所述第二网页链接作为顶点,以两顶点之间的链接路径作为边,构建图模型;
从所述图模型中查找出与所述未知网页链接直接相链接的顶点;所述与所述未知网页链接直接相链接的顶点包括所述未知网页链接的链入顶点和所述未知网页链接的链出顶点。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将质量级别被确定的网页链接作为顶点加入所述图模型中。
6.根据权利要求4所述的方法,其特征在于,所述根据所述相关联的已知网页链接信息的质量评价信息,确定所述未知网页链接信息所对应的未知网页链接的质量级别,包括:
调取所述关联网页链接的质量评价信息,利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息;
根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定。
7.根据权利要求6所述的方法,其特征在于,所述调取所述关联网页链接的质量评价信息,包括:从所述图模型中的顶点的质量评分数据中调取所述链入顶点的质量评分数据和所述链出顶点的质量评分数据;其中,所述质量评价信息包括质量评分数据。
8.根据权利要求7所述的方法,其特征在于,所述获取所述未知网页链接信息与各所述已知网页链接的关联值,包括:计算所述未知网页链接的链入边权重值,计算所述未知网页链接的链出边权重值。
9.根据权利要求8所述的方法,其特征在于,所述利用所述关联网页链接的质量评价信息和所述关联值,获取所述未知网页链接的质量评价信息,包括:
将所述链入顶点的质量评分数据与所述链入边权重值的乘积累加起来,得到链入乘积和;
将所述链出顶点的质量评分数据与所述链出边权重值的乘积累加起来,得到链出乘积和;
对所述链入乘积和与所述链出乘积和进行加权求和,得到评分。
10.根据权利要求8所述的方法,其特征在于,所述计算所述未知网页链接的链入边权重值,包括:计算所述未知网页链接的链入边的链入次数与所述未知网页链接的链接发生总次数的比值,得到链入边权重值。
11.根据权利要求8所述的方法,其特征在于,所述计算所述未知网页链接的链出边权重值,包括:计算所述未知网页链接的链入边的链出次数与所述未知网页链接的链接发生总次数的比值,得到链出边权重值。
12.根据权利要求6所述的方法,其特征在于,所述根据所述未知网页链接的质量评价信息,对所述未知网页链接进行质量级别标定,包括:
将所述未知网页链接的质量评价信息与各个质量级别的预设条件进行比较,查找出所述未知网页链接的质量评价信息所符合的预设条件,用所述所符合的预设条件所对应的质量级别标记所述未知网页链接。
13.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-12中任一项所述的网页链接的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001562.7A CN110781497B (zh) | 2019-10-21 | 2019-10-21 | 网页链接的检测方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001562.7A CN110781497B (zh) | 2019-10-21 | 2019-10-21 | 网页链接的检测方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781497A true CN110781497A (zh) | 2020-02-11 |
CN110781497B CN110781497B (zh) | 2022-03-29 |
Family
ID=69386178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911001562.7A Active CN110781497B (zh) | 2019-10-21 | 2019-10-21 | 网页链接的检测方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781497B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656671A (zh) * | 2021-06-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 模型训练方法、链接评分方法、装置、设备、介质和产品 |
CN114662110A (zh) * | 2022-05-18 | 2022-06-24 | 杭州海康威视数字技术股份有限公司 | 一种网站检测方法、装置及电子设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510887A (zh) * | 2009-03-27 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
CN102316081A (zh) * | 2010-06-30 | 2012-01-11 | 北京启明星辰信息技术股份有限公司 | 一种相似网页的识别方法及装置 |
US20130073568A1 (en) * | 2011-09-21 | 2013-03-21 | Vladimir Federov | Ranking structured objects and actions on a social networking system |
CN103617225A (zh) * | 2013-11-25 | 2014-03-05 | 北京奇虎科技有限公司 | 一种关联网页搜索方法和系统 |
CN104462246A (zh) * | 2014-11-19 | 2015-03-25 | 北京奇虎科技有限公司 | 链接与网页关联的方法和装置 |
CN105488065A (zh) * | 2014-09-19 | 2016-04-13 | 小米科技有限责任公司 | 网页访问方法、装置及终端 |
CN107948168A (zh) * | 2017-11-29 | 2018-04-20 | 四川无声信息技术有限公司 | 网页检测方法及装置 |
CN108874802A (zh) * | 2017-05-09 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 网页检测方法和装置 |
US10164995B1 (en) * | 2014-08-14 | 2018-12-25 | Pivotal Software, Inc. | Determining malware infection risk |
CN109522473A (zh) * | 2018-09-30 | 2019-03-26 | 连尚(新昌)网络科技有限公司 | 一种推荐关联信息的方法及其终端、服务器 |
CN109977327A (zh) * | 2019-03-20 | 2019-07-05 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
-
2019
- 2019-10-21 CN CN201911001562.7A patent/CN110781497B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510887A (zh) * | 2009-03-27 | 2009-08-19 | 腾讯科技(深圳)有限公司 | 鉴别网站的方法及装置 |
CN102316081A (zh) * | 2010-06-30 | 2012-01-11 | 北京启明星辰信息技术股份有限公司 | 一种相似网页的识别方法及装置 |
CN102254014A (zh) * | 2011-07-21 | 2011-11-23 | 华中科技大学 | 一种网页特征自适应的信息抽取方法 |
US20130073568A1 (en) * | 2011-09-21 | 2013-03-21 | Vladimir Federov | Ranking structured objects and actions on a social networking system |
CN103617225A (zh) * | 2013-11-25 | 2014-03-05 | 北京奇虎科技有限公司 | 一种关联网页搜索方法和系统 |
US10164995B1 (en) * | 2014-08-14 | 2018-12-25 | Pivotal Software, Inc. | Determining malware infection risk |
CN105488065A (zh) * | 2014-09-19 | 2016-04-13 | 小米科技有限责任公司 | 网页访问方法、装置及终端 |
CN104462246A (zh) * | 2014-11-19 | 2015-03-25 | 北京奇虎科技有限公司 | 链接与网页关联的方法和装置 |
CN108874802A (zh) * | 2017-05-09 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 网页检测方法和装置 |
CN107948168A (zh) * | 2017-11-29 | 2018-04-20 | 四川无声信息技术有限公司 | 网页检测方法及装置 |
CN109522473A (zh) * | 2018-09-30 | 2019-03-26 | 连尚(新昌)网络科技有限公司 | 一种推荐关联信息的方法及其终端、服务器 |
CN109977327A (zh) * | 2019-03-20 | 2019-07-05 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
AOMAOJU6169: "《恶意代码检测--已看梳理》", 《HTTPS://BLOG.CSDN.NET/AOMAOJU6169/ARTICLE/DETAILS/101713896》 * |
SANTA AGRESTE等: "《An Empirical Comparison of Algorithms to Find Communities in Directed Graphs and Their Application in Web Data Analytics》", 《IEEE TRANSACTIONS ON BIG DATA》 * |
孙尚勇等: "《基于快速卷积方法实现广义频分复用系统的研究》", 《计算机应用研究》 * |
滕雯静: "《基于链接分析的钓鱼网站检测方法[》", 《万方数据》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656671A (zh) * | 2021-06-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 模型训练方法、链接评分方法、装置、设备、介质和产品 |
CN113656671B (zh) * | 2021-06-16 | 2024-05-24 | 北京百度网讯科技有限公司 | 模型训练方法、链接评分方法、装置、设备、介质和产品 |
CN114662110A (zh) * | 2022-05-18 | 2022-06-24 | 杭州海康威视数字技术股份有限公司 | 一种网站检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110781497B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121737B (zh) | 一种业务对象属性标识的生成方法、装置和系统 | |
CN102663025B (zh) | 一种违规在线商品检测方法 | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN106022800A (zh) | 一种用户特征数据的处理方法和装置 | |
CN103617213B (zh) | 识别新闻网页属性特征的方法和系统 | |
TW201513019A (zh) | 基於用戶行爲的特徵提取、個性化推薦方法和系統 | |
CN105095411B (zh) | 一种基于app质量的app排名预测方法及系统 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103544436A (zh) | 一种钓鱼网站鉴别系统和方法 | |
CN101894134A (zh) | 一种基于空间布局的钓鱼网页检测及其实现方法 | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
CN108415913A (zh) | 基于不确定邻居的人群定向方法 | |
CN110390044A (zh) | 一种相似网络页面的搜索方法及设备 | |
CN105023178B (zh) | 一种基于本体的电子商务推荐方法 | |
CN110781497B (zh) | 网页链接的检测方法及存储介质 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN109815381A (zh) | 用户画像构建方法、系统、计算机设备及存储介质 | |
CN106033445A (zh) | 获取文章关联度数据的方法和装置 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
CN107104875B (zh) | 信息推送的方法和装置 | |
Gopal et al. | Machine learning based classification of online news data for disaster management | |
CN103544257A (zh) | 网页质量检测方法和装置 | |
CN107784507A (zh) | 疑似侵权商品预警方法及装置、计算机存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |