CN104572787B - 伪原创网站的识别方法及装置 - Google Patents

伪原创网站的识别方法及装置 Download PDF

Info

Publication number
CN104572787B
CN104572787B CN201310522517.2A CN201310522517A CN104572787B CN 104572787 B CN104572787 B CN 104572787B CN 201310522517 A CN201310522517 A CN 201310522517A CN 104572787 B CN104572787 B CN 104572787B
Authority
CN
China
Prior art keywords
webpage
character string
node
website
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310522517.2A
Other languages
English (en)
Other versions
CN104572787A (zh
Inventor
陈志高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310522517.2A priority Critical patent/CN104572787B/zh
Publication of CN104572787A publication Critical patent/CN104572787A/zh
Application granted granted Critical
Publication of CN104572787B publication Critical patent/CN104572787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种伪原创网站的识别方法及装置,涉及信息技术领域,可以提高伪原创网站的识别准确率。所述方法包括:首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。

Description

伪原创网站的识别方法及装置
技术领域
本发明涉及信息技术领域,特别涉及一种伪原创网站的识别方法及装置。
背景技术
随着网络技术的不断发展,通过网络获取信息的用户人数也越来越多,能够为用户提供信息的网站也随之增多。然而随着网站数量的不断增多,不同网站之间信息的重复率也随之增加,因此出现了伪原创网站,伪原创网站中的网页通常为对原创网站中的网页进行再加工生成的。
目前,对伪原创网站的识别方式通常为首先挖掘伪原创特征词,若某一个网页包含有伪原创特征词,则确定该网页为伪原创网页,并且当一个网站包含有大量伪原创网页时,确定该网站为伪原创网站。然而由于自然语言中词语存在多义性的问题,因此现有伪原创特征词的挖掘准确率较低,从而造成基于伪原创特征词识别伪原创网站的准确率较低。
发明内容
本发明实施例提供一种伪原创网站的识别方法及装置,可以提高伪原创网站的识别准确率。
本发明实施例采用的技术方案为:
一种伪原创网站的识别方法,包括:
提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
一种伪原创网站的识别装置,包括:
提取单元,用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
计算单元,用于分别计算所述提取单元提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
统计单元,用于统计所述计算单元计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
确定单元,用于若所述统计单元统计所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
本发明实施例提供的伪原创网站的识别方法及装置,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种伪原创网站的识别方法流程图;
图2为本发明实施例提供的另一种伪原创网站的识别方法流程图;
图3为本发明实施例提供的一种伪原创网站的识别装置结构示意图;
图4为本发明实施例提供的另一种伪原创网站的识别装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供一种伪原创网站的识别方法,如图1所示,所述方法包括:
101、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。
其中,每一个网站下都会包含有多个网页,每一个网页对应的样式指纹为一种标识该网页的64位数字码,是基于网页html(网页超文本标记语言)源代码的dom树结构中的各个节点生成的。
102、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。
其中,数据库中保存有预先挖掘的大量伪原创样式指纹。
具体地,依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的64位数字码,并且统计相同位上数字码不同的次数,将所述次数作为网页对应的样式指纹与伪原创样式指纹之间的海明距离。例如,网页对应的样式指纹与伪原创样式指纹的第24位、第50位对应的数字码不同,则网页对应的样式指纹与伪原创样式指纹之间的海明距离为2。
103、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。
其中,第一预设阈值为海明距离上限值,可以为3、5、6等,具体可以根据实际需求进行配置,本发明实施例不做限定。
104、若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
其中,第二预设阈值为网页数量上限值,可以根据实际需求进行配置,本发明实施例不做限定。当网页数量大于或等于第二预设阈值时,说明该网站包含的网页中,伪原创网页的数量过多,从而确定该网站为伪原创网站,提高了伪原创网站的识别准确率。
本发明实施例提供的一种伪原创网站的识别方法,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
本发明实施例提供另一种伪原创网站的识别方法,如图2所示,所述方法包括:
201、计算各个网站中包含的网页对应的样式指纹,并且建立样式指纹与网页之间的对应关系。
其中,通常可以对用户近期浏览网站中的全部网页进行样式指纹的获取。一个样式指纹可以对应一个或多个网页,每一个网页分别对应一个URL(Uniform ResourceLocator,统一资源定位符),URL用于标识网页对应的网站链接地址。
对于本发明实施例,步骤201具体可以包括:首先创建网页节点样式集合,然后根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串,最后计算所述网页对应的样式字符串的simhash(局部敏感哈希)值,并将所述simhash值作为所述网页对应的样式指纹。
其中,网页节点样式集合中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值。节点样式属性具体可以为颜色、字体大小、显示范围等,节点样式属性值为各个节点样式属性的具体配置,例如,对于节点样式属性颜色,节点样式属性值可以为红色、蓝色等;对于节点样式属性字体大小,节点样式属性值可以为字体大小的具体赋值。
对于本发明实施例,创建网页节点样式集合的步骤具体可以包括:首先获取所述网页对应的html源代码,并根据所述网页对应的html源代码,构建所述网页对应的dom树结构,然后提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值,最后根据所述各个节点分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所述网页节点样式集合中。例如,某一个节点的节点名称为节点1,则节点1对应的字符串的形式可以为(节点1颜色红色字体大小小四)。
对于本发明实施例,根据网页的各个节点分别对应的字符串,生成所述网页对应的样式字符串的步骤具体可以包括:首先生成空字符串S,然后判断所述网页节点样式集合包含的字符串中是否存在相同字符串,若不存在相同字符串,则将所述各个节点分别对应的字符串依次添加到所述空字符串S,若存在相同字符串,则从所述相同字符串中提取任意一个字符串,并将去重后的各个字符串依次添加到所述空字符串S。
其中,由于网页对应的各个节点中,可能存在相同的节点,因此网页节点样式集合包含的字符串中,可能存在重复的字符串。本发明实施例通过对网页节点样式集合包含的字符串进行去重操作后,再生成该网页的样式字符串,可以进一步提高伪原创网站的识别准确率。对于上述将所述各个节点分别对应的字符串依次添加到所述空字符串S的方式,具体可以为将所述各个节点分别对应的字符串依次添加到所述空字符串S的末尾或开头,本发明实施例不做限定。
对于本发明实施例,计算所述网页对应的样式字符串的simhash值的步骤具体可以包括:首先将网页对应的样式字符串进行分词,然后将样式字符串中每3个字母为一组依次计算各组hash值,最后将所有的hash值融合,获得最终的hash值为simhash值。其中,还可以根据网页对应的样式字符串,采用其他hash算法计算网页对应的样式指纹,本发明实施例不做限定。
202、根据样式指纹与网页之间的对应关系,获取样式指纹对应的URL数量。
其中,数据库中保存有样式指纹对应的网页和各个网页分别对应的URL,根据样式指纹与网页之间的对应关系可以获取到样式指纹对应的网页,再根据各个网页分别对应的URL,从而可以获取到样式指纹对应的URL数量。
203、根据所述样式指纹对应的URL数量,确定与所述样式指纹对应的网站数量。
其中,由于不同网站对应的URL不同,因此根据样式指纹对应的URL数量,可以确定样式指纹对应的网站数量,即将样式指纹对应的URL数量作为样式指纹对应的网站数量。
204、若所述样式指纹对应的网站数量大于或等于第三预设阈值时,确定所述样式指纹为伪原创样式指纹。
其中,第三预设阈值为网站数量上限值,具体可以根据实际需求进行配置,例如为10,本发明实施例不做限定。
205、提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。
其中,每一个网站下都会包含有多个网页,每一个网页对应的样式指纹为一种标识该网页的64位数字码,是基于网页html(网页超文本标记语言)源代码的dom树结构中的各个节点生成的。
206、分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。
其中,数据库中保存有预先挖掘的大量伪原创样式指纹。
具体地,依次比对网页对应的样式指纹的64位数字码与伪原创样式指纹的64位数字码,并且统计相同位上数字码不同的次数,将所述次数作为网页对应的样式指纹与伪原创样式指纹之间的海明距离。例如,网页对应的样式指纹与伪原创样式指纹的第16位、第20位、和第40位对应的数字码不同,则网页对应的样式指纹与伪原创样式指纹之间的海明距离为3。
207、统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。
其中,第一预设阈值为海明距离上限值,可以为4、8、9等,具体可以根据实际需求进行配置,本发明实施例不做限定。
208、若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
其中,第二预设阈值为网页数量上限值,可以根据实际需求进行配置,本发明实施例不做限定。当网页数量大于或等于第二预设阈值时,说明该网站包含的网页中,伪原创网页的数量过多,从而确定该网站为伪原创网站,提高了伪原创网站的识别准确率。
本发明实施例提供的另一种伪原创网站的识别方法,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
进一步地,作为图1所示方法的具体实现,本发明实施例提供一种伪原创网站的识别装置,如图3所示,所述装置的实体可以为服务器,所述装置可以包括:提取单元31、计算单元32、统计单元33、确定单元34。
提取单元31,可以用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。
计算单元32,可以用于分别计算所述提取单元31提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。
统计单元33,可以用于统计所述计算单元32计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。
确定单元34,可以用于若所述统计单元33统计所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
需要说明的是,本发明实施例提供的装置所涉及各功能单元的对应描述,可以参考图1中的相应描述,在此不再赘述。
再进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种伪原创网站的识别装置,如图4所示,所述装置的实体可以为服务器,所述装置可以包括:提取单元41、计算单元42、统计单元43、确定单元44。
提取单元41,可以用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹。
计算单元42,可以用于分别计算所述提取单元41提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离。
统计单元43,可以用于统计所述计算单元42计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量。
确定单元44,可以用于若所述统计单元43统计所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。
所述装置还可以包括:获取单元45。
获取单元45,可以用于获取伪原创样式指纹。
获取单元45可以包括:第一计算模块4501、建立模块4502、获取模块4503、确定模块4504。
第一计算模块4501,可以用于计算各个网站中包含的网页对应的样式指纹。
建立模块4502,可以用于建立样式指纹与网页之间的对应关系。
获取模块4503,可以用于根据样式指纹与网页之间的对应关系,获取样式指纹对应的统一资源定位符(URL)数量,其中,每一个网页对应一个URL。
确定模块4504,可以用于根据所述样式指纹对应的URL数量,确定与所述样式指纹对应的网站数量。
确定模块4504,还可以用于若所述样式指纹对应的网站数量大于或等于第三预设阈值时,确定所述样式指纹为伪原创样式指纹。
计算单元42可以包括:创建模块4201、生成模块4202、第二计算模块4203。
创建模块4201,可以用于创建网页节点样式集合,所述网页节点样式集合中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值。
生成模块4202,可以用于根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串。
第二计算模块4203,可以用于计算所述网页对应的样式字符串的simhash值,并将所述simhash值作为所述网页对应的样式指纹。
创建模块4201,可以用于获取所述网页对应的html源代码,并根据所述网页对应的html源代码,构建所述网页对应的dom树结构;提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值;根据所述各个节点分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所述网页节点样式集合中。
生成模块4202,可以用于生成空字符串S;判断所述网页节点样式集合包含的字符串中是否存在相同字符串;若不存在相同字符串,则将所述各个节点分别对应的字符串依次添加到所述空字符串S;若存在相同字符串,则从所述相同字符串中提取任意一个字符串,并将去重后的各个字符串依次添加到所述空字符串S。
需要说明的是,本发明实施例提供的装置所涉及各功能单元的对应描述,可以参考图2中的相应描述,在此不再赘述。
本发明实施例提供的伪原创网站的识别装置,首先提取网站中包含的各个网页和所述各个网页分别对应的样式指纹,然后分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离,再统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量,若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站。与目前基于伪原创特征词识别伪原创网站相比,本发明实施例通过网页的样式指纹识别伪原创网站,可以提高伪原创网站的识别准确率。
本发明实施例提供的伪原创网站的识别装置可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的伪原创网站的识别方法及装置可以适用于信息技术领域,但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种伪原创网站的识别方法,其特征在于,包括:
提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
分别计算所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
统计所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
若所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站;
所述提取网站中包含的各个网页和所述各个网页分别对应的样式指纹的步骤之前,还包括:
获取伪原创样式指纹;
所述获取伪原创样式指纹的步骤包括:
计算各个网站中包含的网页对应的样式指纹,并且建立样式指纹与网页之间的对应关系;
根据样式指纹与网页之间的对应关系,获取样式指纹对应的统一资源定位符(URL)数量,其中,每一个网页对应一个URL;
根据所述样式指纹对应的URL数量,确定与所述样式指纹对应的网站数量;
若所述样式指纹对应的网站数量大于或等于第三预设阈值时,确定所述样式指纹为伪原创样式指纹。
2.根据权利要求1所述的伪原创网站的识别方法,其特征在于,所述计算网页对应的样式指纹的步骤包括:
创建网页节点样式集合,所述网页节点样式集合中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值;
根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串;
计算所述网页对应的样式字符串的局部敏感哈希(simhash)值,并将所述simhash值作为所述网页对应的样式指纹。
3.根据权利要求2所述的伪原创网站的识别方法,其特征在于,所述创建网页节点样式集合的步骤包括:
获取所述网页对应的超文本标记语言(html)源代码,并根据所述网页对应的html源代码,构建所述网页对应的文件对象模型(dom)树结构;
提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值;
根据所述各个节点分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所述网页节点样式集合中。
4.根据权利要求2所述的伪原创网站的识别方法,其特征在于,根据网页的各个节点分别对应的字符串,生成所述网页对应的样式字符串的步骤包括:
生成空字符串S;
判断所述网页节点样式集合包含的字符串中是否存在相同字符串;
若不存在相同字符串,则将所述各个节点分别对应的字符串依次添加到所述空字符串S;
若存在相同字符串,则从所述相同字符串中提取任意一个字符串,并将去重后的各个字符串依次添加到所述空字符串S。
5.一种伪原创网站的识别装置,其特征在于,包括:
提取单元,用于提取网站中包含的各个网页和所述各个网页分别对应的样式指纹;
计算单元,用于分别计算所述提取单元提取的所述各个网页分别对应的样式指纹与伪原创样式指纹之间的海明距离;
统计单元,用于统计所述计算单元计算的所述各个网页中与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
确定单元,用于若所述统计单元统计所述网页数量大于或等于第二预设阈值,则确定所述网站为伪原创网站;
所述装置还包括:获取单元:
所述获取单元,用于获取伪原创样式指纹;
所述获取单元包括:
第一计算模块,用于计算各个网站中包含的网页对应的样式指纹;
建立模块,用于建立样式指纹与网页之间的对应关系;
获取模块,用于根据样式指纹与网页之间的对应关系,获取样式指纹对应的统一资源定位符(URL)数量,其中,每一个网页对应一个URL;
确定模块,用于根据所述样式指纹对应的URL数量,确定与所述样式指纹对应的网站数量;
所述确定模块,还用于若所述样式指纹对应的网站数量大于或等于第三预设阈值时,确定所述样式指纹为伪原创样式指纹。
6.根据权利要求5所述的伪原创网站的识别装置,其特征在于,所述计算单元包括:
创建模块,用于创建网页节点样式集合,所述网页节点样式集合中包含有网页的各个节点分别对应的字符串,所述各个节点用于标识网页各个区域的显示方式,所述字符串包括所述各个节点分别对应的节点名称、节点样式属性、和节点样式属性值;
生成模块,用于根据所述各个节点分别对应的字符串,生成所述网页对应的样式字符串;
第二计算模块,用于计算所述网页对应的样式字符串的局部敏感哈希(simhash)值,并将所述simhash值作为所述网页对应的样式指纹。
7.根据权利要求6所述的伪原创网站的识别装置,其特征在于,
所述创建模块,用于获取所述网页对应的超文本标记语言(html)源代码,并根据所述网页对应的html源代码,构建所述网页对应的文件对象模型(dom)树结构;提取所述dom树结构上各个节点分别对应的节点名称、节点属性、和节点属性值;根据所述各个节点分别对应的节点名称、节点属性、和节点属性值,生成所述各个节点分别对应的字符串,并保存在所述网页节点样式集合中。
8.根据权利要求6所述的伪原创网站的识别装置,其特征在于,
所述生成模块,用于生成空字符串S;判断所述网页节点样式集合包含的字符串中是否存在相同字符串;若不存在相同字符串,则将所述各个节点分别对应的字符串依次添加到所述空字符串S;若存在相同字符串,则从所述相同字符串中提取任意一个字符串,并将去重后的各个字符串依次添加到所述空字符串S。
CN201310522517.2A 2013-10-29 2013-10-29 伪原创网站的识别方法及装置 Active CN104572787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310522517.2A CN104572787B (zh) 2013-10-29 2013-10-29 伪原创网站的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310522517.2A CN104572787B (zh) 2013-10-29 2013-10-29 伪原创网站的识别方法及装置

Publications (2)

Publication Number Publication Date
CN104572787A CN104572787A (zh) 2015-04-29
CN104572787B true CN104572787B (zh) 2019-03-15

Family

ID=53088861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310522517.2A Active CN104572787B (zh) 2013-10-29 2013-10-29 伪原创网站的识别方法及装置

Country Status (1)

Country Link
CN (1) CN104572787B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN110245314A (zh) * 2019-05-31 2019-09-17 江苏百达智慧网络科技有限公司 一种网页指纹生成方法
CN110263283A (zh) * 2019-06-19 2019-09-20 郑州悉知信息科技股份有限公司 网站检测方法和装置
CN111259218B (zh) * 2020-01-09 2020-10-27 中国搜索信息科技股份有限公司 一种原创新闻信息识别方法
CN113641933B (zh) * 2021-06-30 2023-10-20 北京百度网讯科技有限公司 异常网页识别方法、异常站点识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952947A (zh) * 2005-10-17 2007-04-25 左其其 一种网站反克隆的系统和方法
CN101894134B (zh) * 2010-06-21 2012-04-11 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN103023874A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 一种钓鱼网站检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952947A (zh) * 2005-10-17 2007-04-25 左其其 一种网站反克隆的系统和方法
CN101894134B (zh) * 2010-06-21 2012-04-11 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN103023874A (zh) * 2012-11-21 2013-04-03 北京航空航天大学 一种钓鱼网站检测方法

Also Published As

Publication number Publication date
CN104572787A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN102184189B (zh) 基于dom节点文本密度的网页核心块确定方法
CN104572787B (zh) 伪原创网站的识别方法及装置
US9639631B2 (en) Converting XML to JSON with configurable output
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN108021692B (zh) 一种监控网页的方法、服务器及计算机可读存储介质
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN103136358B (zh) 一种自动抽取论坛数据的方法
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN104361081A (zh) 一种基于web文档的自动摘要方法
CN110059085B (zh) 一种面向Web 2.0的JSON数据解析与建模方法
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
CN103810251A (zh) 一种文本提取方法及装置
CN105677638A (zh) Web信息抽取方法
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN107220250A (zh) 一种模板配置方法及系统
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统
CN102654861A (zh) 网页抽取准确性计算方法及系统
CN114398138A (zh) 界面生成方法、装置、计算机设备和存储介质
JP2004220251A (ja) 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant