CN104572787B

CN104572787B - 伪原创网站的识别方法及装置

Info

Publication number: CN104572787B
Application number: CN201310522517.2A
Authority: CN
Inventors: 陈志高
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2019-03-15
Anticipated expiration: 2033-10-29
Also published as: CN104572787A

Abstract

本发明实施例公开了一种伪原创网站的识别方法及装置，涉及信息技术领域，可以提高伪原创网站的识别准确率。所述方法包括：首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹，然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离，再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量，若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

Description

伪原创网站的识别方法及装置

技术领域

本发明涉及信息技术领域，特别涉及一种伪原创网站的识别方法及装置。

背景技术

随着网络技术的不断发展，通过网络获取信息的用户人数也越来越多，能够为用户提供信息的网站也随之增多。然而随着网站数量的不断增多，不同网站之间信息的重复率也随之增加，因此出现了伪原创网站，伪原创网站中的网页通常为对原创网站中的网页进行再加工生成的。

目前，对伪原创网站的识别方式通常为首先挖掘伪原创特征词，若某一个网页包含有伪原创特征词，则确定该网页为伪原创网页，并且当一个网站包含有大量伪原创网页时，确定该网站为伪原创网站。然而由于自然语言中词语存在多义性的问题，因此现有伪原创特征词的挖掘准确率较低，从而造成基于伪原创特征词识别伪原创网站的准确率较低。

发明内容

本发明实施例提供一种伪原创网站的识别方法及装置，可以提高伪原创网站的识别准确率。

本发明实施例采用的技术方案为：

一种伪原创网站的识别方法，包括：

提取网站中包含的各个网页和所述各个网页分别对应的样式指纹；

分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离；

统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量；

若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

一种伪原创网站的识别装置，包括：

提取单元，用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹；

计算单元，用于分别计算所述提取单元提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离；

统计单元，用于统计所述计算单元计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量；

确定单元，用于若所述统计单元统计所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

本发明实施例提供的伪原创网站的识别方法及装置，首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹，然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离，再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量，若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比，本发明实施例通过网页的样式指纹识别伪原创网站，可以提高伪原创网站的识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种伪原创网站的识别方法流程图；

图2为本发明实施例提供的另一种伪原创网站的识别方法流程图；

图3为本发明实施例提供的一种伪原创网站的识别装置结构示意图；

图4为本发明实施例提供的另一种伪原创网站的识别装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

本发明实施例提供一种伪原创网站的识别方法，如图1所示，所述方法包括：

101、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

其中，每一个网站下都会包含有多个网页，每一个网页对应的样式指纹为一种标识该网页的64位数字码，是基于网页html（网页超文本标记语言）源代码的dom树结构中的各个节点生成的。

102、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。

其中，数据库中保存有预先挖掘的大量伪原创样式指纹。

具体地，依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的64位数字码，并且统计相同位上数字码不同的次数，将所述次数作为网页对应的样式指纹与伪原创样式指纹之间的海明距离。例如，网页对应的样式指纹与伪原创样式指纹的第24位、第50位对应的数字码不同，则网页对应的样式指纹与伪原创样式指纹之间的海明距离为2。

103、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

其中，第一预设阈值为海明距离上限值，可以为3、5、6等，具体可以根据实际需求进行配置，本发明实施例不做限定。

104、若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

其中，第二预设阈值为网页数量上限值，可以根据实际需求进行配置，本发明实施例不做限定。当网页数量大于或等于第二预设阈值时，说明该网站包含的网页中，伪原创网页的数量过多，从而确定该网站为伪原创网站，提高了伪原创网站的识别准确率。

本发明实施例提供的一种伪原创网站的识别方法，首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹，然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离，再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量，若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比，本发明实施例通过网页的样式指纹识别伪原创网站，可以提高伪原创网站的识别准确率。

本发明实施例提供另一种伪原创网站的识别方法，如图2所示，所述方法包括：

201、计算各个网站中包含的网页对应的样式指纹，并且建立样式指纹与网页之间的对应关系。

其中，通常可以对用户近期浏览网站中的全部网页进行样式指纹的获取。一个样式指纹可以对应一个或多个网页，每一个网页分别对应一个URL（Uniform ResourceLocator，统一资源定位符），URL用于标识网页对应的网站链接地址。

对于本发明实施例，步骤201具体可以包括：首先创建网页节点样式集合，然后根据所述各个节点分别对应的字符串，生成所述网页对应的样式字符串，最后计算所述网页对应的样式字符串的simhash（局部敏感哈希）值，并将所述simhash值作为所述网页对应的样式指纹。

其中，网页节点样式集合中包含有网页的各个节点分别对应的字符串，所述各个节点用于标识网页各个区域的显示方式，所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值。节点样式属性具体可以为颜色、字体大小、显示范围等，节点样式属性值为各个节点样式属性的具体配置，例如，对于节点样式属性颜色，节点样式属性值可以为红色、蓝色等；对于节点样式属性字体大小，节点样式属性值可以为字体大小的具体赋值。

对于本发明实施例，创建网页节点样式集合的步骤具体可以包括：首先获取所述网页对应的html源代码，并根据所述网页对应的html源代码，构建所述网页对应的dom树结构，然后提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值，最后根据所述各个节点分别对应的节点名称、节点属性、和节点属性值，生成所述各个节点分别对应的字符串，并保存在所述网页节点样式集合中。例如，某一个节点的节点名称为节点1，则节点1对应的字符串的形式可以为（节点1颜色红色字体大小小四）。

对于本发明实施例，根据网页的各个节点分别对应的字符串，生成所述网页对应的样式字符串的步骤具体可以包括：首先生成空字符串S，然后判断所述网页节点样式集合包含的字符串中是否存在相同字符串，若不存在相同字符串，则将所述各个节点分别对应的字符串依次添加到所述空字符串S，若存在相同字符串，则从所述相同字符串中提取任意一个字符串，并将去重后的各个字符串依次添加到所述空字符串S。

其中，由于网页对应的各个节点中，可能存在相同的节点，因此网页节点样式集合包含的字符串中，可能存在重复的字符串。本发明实施例通过对网页节点样式集合包含的字符串进行去重操作后，再生成该网页的样式字符串，可以进一步提高伪原创网站的识别准确率。对于上述将所述各个节点分别对应的字符串依次添加到所述空字符串S的方式，具体可以为将所述各个节点分别对应的字符串依次添加到所述空字符串S的末尾或开头，本发明实施例不做限定。

对于本发明实施例，计算所述网页对应的样式字符串的simhash值的步骤具体可以包括：首先将网页对应的样式字符串进行分词，然后将样式字符串中每3个字母为一组依次计算各组hash值，最后将所有的hash值融合，获得最终的hash值为simhash值。其中，还可以根据网页对应的样式字符串，采用其他hash算法计算网页对应的样式指纹，本发明实施例不做限定。

202、根据样式指纹与网页之间的对应关系，获取样式指纹对应的URL数量。

其中，数据库中保存有样式指纹对应的网页和各个网页分别对应的URL,根据样式指纹与网页之间的对应关系可以获取到样式指纹对应的网页，再根据各个网页分别对应的URL，从而可以获取到样式指纹对应的URL数量。

203、根据所述样式指纹对应的URL数量，确定与所述样式指纹对应的网站数量。

其中，由于不同网站对应的URL不同，因此根据样式指纹对应的URL数量，可以确定样式指纹对应的网站数量，即将样式指纹对应的URL数量作为样式指纹对应的网站数量。

204、若所述样式指纹对应的网站数量大于或等于第三预设阈值时，确定所述样式指纹为伪原创样式指纹。

其中，第三预设阈值为网站数量上限值，具体可以根据实际需求进行配置，例如为10，本发明实施例不做限定。

205、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

206、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。

其中，数据库中保存有预先挖掘的大量伪原创样式指纹。

具体地，依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的64位数字码，并且统计相同位上数字码不同的次数，将所述次数作为网页对应的样式指纹与伪原创样式指纹之间的海明距离。例如，网页对应的样式指纹与伪原创样式指纹的第16位、第20位、和第40位对应的数字码不同，则网页对应的样式指纹与伪原创样式指纹之间的海明距离为3。

207、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

其中，第一预设阈值为海明距离上限值，可以为4、8、9等，具体可以根据实际需求进行配置，本发明实施例不做限定。

208、若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

本发明实施例提供的另一种伪原创网站的识别方法，首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹，然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离，再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量，若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比，本发明实施例通过网页的样式指纹识别伪原创网站，可以提高伪原创网站的识别准确率。

进一步地，作为图1所示方法的具体实现，本发明实施例提供一种伪原创网站的识别装置，如图3所示，所述装置的实体可以为服务器，所述装置可以包括：提取单元31、计算单元32、统计单元33、确定单元34。

提取单元31，可以用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

计算单元32，可以用于分别计算所述提取单元31提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。

统计单元33，可以用于统计所述计算单元32计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

确定单元34，可以用于若所述统计单元33统计所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

需要说明的是，本发明实施例提供的装置所涉及各功能单元的对应描述，可以参考图1中的相应描述，在此不再赘述。

再进一步地，作为图2所示方法的具体实现，本发明实施例提供另一种伪原创网站的识别装置，如图4所示，所述装置的实体可以为服务器，所述装置可以包括：提取单元41、计算单元42、统计单元43、确定单元44。

提取单元41，可以用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。

计算单元42，可以用于分别计算所述提取单元41提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。

统计单元43，可以用于统计所述计算单元42计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。

确定单元44，可以用于若所述统计单元43统计所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。

所述装置还可以包括：获取单元45。

获取单元45，可以用于获取伪原创样式指纹。

获取单元45可以包括：第一计算模块4501、建立模块4502、获取模块4503、确定模块4504。

第一计算模块4501，可以用于计算各个网站中包含的网页对应的样式指纹。

建立模块4502，可以用于建立样式指纹与网页之间的对应关系。

获取模块4503，可以用于根据样式指纹与网页之间的对应关系，获取样式指纹对应的统一资源定位符（URL）数量，其中，每一个网页对应一个URL。

确定模块4504，可以用于根据所述样式指纹对应的URL数量，确定与所述样式指纹对应的网站数量。

确定模块4504，还可以用于若所述样式指纹对应的网站数量大于或等于第三预设阈值时，确定所述样式指纹为伪原创样式指纹。

计算单元42可以包括：创建模块4201、生成模块4202、第二计算模块4203。

创建模块4201，可以用于创建网页节点样式集合，所述网页节点样式集合中包含有网页的各个节点分别对应的字符串，所述各个节点用于标识网页各个区域的显示方式，所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值。

生成模块4202，可以用于根据所述各个节点分别对应的字符串，生成所述网页对应的样式字符串。

第二计算模块4203，可以用于计算所述网页对应的样式字符串的simhash值，并将所述simhash值作为所述网页对应的样式指纹。

创建模块4201，可以用于获取所述网页对应的html源代码，并根据所述网页对应的html源代码，构建所述网页对应的dom树结构；提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值；根据所述各个节点分别对应的节点名称、节点属性、和节点属性值，生成所述各个节点分别对应的字符串，并保存在所述网页节点样式集合中。

生成模块4202，可以用于生成空字符串S；判断所述网页节点样式集合包含的字符串中是否存在相同字符串；若不存在相同字符串，则将所述各个节点分别对应的字符串依次添加到所述空字符串S；若存在相同字符串，则从所述相同字符串中提取任意一个字符串，并将去重后的各个字符串依次添加到所述空字符串S。

需要说明的是，本发明实施例提供的装置所涉及各功能单元的对应描述，可以参考图2中的相应描述，在此不再赘述。

本发明实施例提供的伪原创网站的识别装置，首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹，然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离，再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量，若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比，本发明实施例通过网页的样式指纹识别伪原创网站，可以提高伪原创网站的识别准确率。

本发明实施例提供的伪原创网站的识别装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的伪原创网站的识别方法及装置可以适用于信息技术领域，但不仅限于此。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种伪原创网站的识别方法，其特征在于，包括:

若所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站；

所述提取网站中包含的各个网页和所述各个网页分别对应的样式指纹的步骤之前，还包括：

获取伪原创样式指纹；

所述获取伪原创样式指纹的步骤包括：

计算各个网站中包含的网页对应的样式指纹，并且建立样式指纹与网页之间的对应关系；

根据样式指纹与网页之间的对应关系，获取样式指纹对应的统一资源定位符(URL)数量，其中，每一个网页对应一个URL；

根据所述样式指纹对应的URL数量，确定与所述样式指纹对应的网站数量；

若所述样式指纹对应的网站数量大于或等于第三预设阈值时，确定所述样式指纹为伪原创样式指纹。

2.根据权利要求1所述的伪原创网站的识别方法，其特征在于，所述计算网页对应的样式指纹的步骤包括：

创建网页节点样式集合，所述网页节点样式集合中包含有网页的各个节点分别对应的字符串，所述各个节点用于标识网页各个区域的显示方式，所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值；

根据所述各个节点分别对应的字符串，生成所述网页对应的样式字符串；

计算所述网页对应的样式字符串的局部敏感哈希(simhash)值，并将所述simhash值作为所述网页对应的样式指纹。

3.根据权利要求2所述的伪原创网站的识别方法，其特征在于，所述创建网页节点样式集合的步骤包括：

获取所述网页对应的超文本标记语言(html)源代码，并根据所述网页对应的html源代码，构建所述网页对应的文件对象模型(dom)树结构；

提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值；

根据所述各个节点分别对应的节点名称、节点属性、和节点属性值，生成所述各个节点分别对应的字符串，并保存在所述网页节点样式集合中。

4.根据权利要求2所述的伪原创网站的识别方法，其特征在于，根据网页的各个节点分别对应的字符串，生成所述网页对应的样式字符串的步骤包括：

生成空字符串S；

判断所述网页节点样式集合包含的字符串中是否存在相同字符串；

若不存在相同字符串，则将所述各个节点分别对应的字符串依次添加到所述空字符串S；

若存在相同字符串，则从所述相同字符串中提取任意一个字符串，并将去重后的各个字符串依次添加到所述空字符串S。

5.一种伪原创网站的识别装置，其特征在于，包括：

确定单元，用于若所述统计单元统计所述网页数量大于或等于第二预设阈值，则确定所述网站为伪原创网站；

所述装置还包括：获取单元：

所述获取单元，用于获取伪原创样式指纹；

所述获取单元包括：

第一计算模块，用于计算各个网站中包含的网页对应的样式指纹；

建立模块，用于建立样式指纹与网页之间的对应关系；

获取模块，用于根据样式指纹与网页之间的对应关系，获取样式指纹对应的统一资源定位符(URL)数量，其中，每一个网页对应一个URL；

确定模块，用于根据所述样式指纹对应的URL数量，确定与所述样式指纹对应的网站数量；

所述确定模块，还用于若所述样式指纹对应的网站数量大于或等于第三预设阈值时，确定所述样式指纹为伪原创样式指纹。

6.根据权利要求5所述的伪原创网站的识别装置，其特征在于，所述计算单元包括：

创建模块，用于创建网页节点样式集合，所述网页节点样式集合中包含有网页的各个节点分别对应的字符串，所述各个节点用于标识网页各个区域的显示方式，所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值；

生成模块，用于根据所述各个节点分别对应的字符串，生成所述网页对应的样式字符串；

第二计算模块，用于计算所述网页对应的样式字符串的局部敏感哈希(simhash)值，并将所述simhash值作为所述网页对应的样式指纹。

7.根据权利要求6所述的伪原创网站的识别装置，其特征在于，

所述创建模块，用于获取所述网页对应的超文本标记语言(html)源代码，并根据所述网页对应的html源代码，构建所述网页对应的文件对象模型(dom)树结构；提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值；根据所述各个节点分别对应的节点名称、节点属性、和节点属性值，生成所述各个节点分别对应的字符串，并保存在所述网页节点样式集合中。

8.根据权利要求6所述的伪原创网站的识别装置，其特征在于，

所述生成模块，用于生成空字符串S；判断所述网页节点样式集合包含的字符串中是否存在相同字符串；若不存在相同字符串，则将所述各个节点分别对应的字符串依次添加到所述空字符串S；若存在相同字符串，则从所述相同字符串中提取任意一个字符串，并将去重后的各个字符串依次添加到所述空字符串S。