CN107463571A - 网页消重方法 - Google Patents

网页消重方法 Download PDF

Info

Publication number
CN107463571A
CN107463571A CN201610391118.0A CN201610391118A CN107463571A CN 107463571 A CN107463571 A CN 107463571A CN 201610391118 A CN201610391118 A CN 201610391118A CN 107463571 A CN107463571 A CN 107463571A
Authority
CN
China
Prior art keywords
text
webpage
segmentation
feature
color method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610391118.0A
Other languages
English (en)
Other versions
CN107463571B (zh
Inventor
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610391118.0A priority Critical patent/CN107463571B/zh
Publication of CN107463571A publication Critical patent/CN107463571A/zh
Application granted granted Critical
Publication of CN107463571B publication Critical patent/CN107463571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网页消重方法方法,包括:网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。

Description

网页消重方法
技术领域
本发明涉及一种网页消重方法,特别涉及基于段落的网页消重方法。
背景技术
随着Internet的发展及其广泛应用,网络上的信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了帮助人们快速找到所需要的信息,搜索引擎技术就应运而生了。搜索引擎方便了人们查找自己所需要的信息,节省了处理时间,已经成为了人们使用频繁的网上服务。
但是据互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,Internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。
当前,高质量的网页消重都是将网页正文文本作为消重对象的,是基于内容的文本复制检测。两个网页之间存在重复,表现为网页正文文本间内容完全相同或部分相同。网页消重的核心任务是判断网页正文文本之间的相似度,所谓相似度是指网页正文文本内容相同和相关的比例,文本间相似度越大,文本复制的可能性越大,相似度越小,文本复制的可能性越小。网页消重技术一般不是将整个网页作为处理对象的,而是从网页中抽取足以代表该网页的特征,然后对这些特征进行相似度的计算,关键技术就是网页正文内容的特征提取算法及特征相似度比较算法。
现有技术方案中,主要有基于特征句和基于标点的消重算法。
在基于特征句的消重算法中,首先,提取网页正文,对网页正文进行分词。其次,为了抽取出每个网页文本的特征词,而要考虑每个词语的词频信息(Frequency)、位置信息(Location)、是否在标题中出现(Title)以及其他一些特殊的标识性信息。然后,综合考虑上述四个选项,分别赋予不同的比例,计算得到特征词的权值,并从中找出权值最大的特征词。接着,在网页正文中寻找该特征词第一次出现的位置,以其第一次出现所在的句子作为该网页的特征句。然后,将两篇网页的比较转换为两个句子的最长公共子序列的比较。当匹配度达到设定的阈值时,则认为该网页与重复网页数据库中的网页重复,将该网页与原网页合并,如果整个网页数据库中都没有与之重复的网页,则将该网页加入到网页数据库中。
另外,网页正文部分一般都会包含标点符号。基于标点的网页消重算法就是利用标点符号出现在网页文本中的特点,在文章中特定的位置提取出一些字符,将这些字符组成代表该字符串的字符串来唯一的标识网页。然后比较字符串之间的相似度来判断是否为重复网页。
然而,现有技术中均存在一定的技术问题。
例如,基于特征词的网页消重算法,特征的选取比较复杂,需要考虑较多的因素,同时特征词的比较算法时间复杂度较高,当网页规模达到几十万的时候,由于需要与网页集合中的特征句两两比较会导致时间复杂度急剧增加。
例如,基于标点的网页消重算法只适用于网页正文含有标点符号,且内容不会改变的情况,如果网页正文内容发生变化(语句前后顺序变化等),会导致抽取的标点特征字符串发生变化导致判断错误。同时也存在比较特征字符串时间复杂度高的问题。
由此可见,现有方案的比较对象都是网页正文文本,如果网页正文文本提取不准确,存在网页噪声,会导致判断准确度不高。基于特征句的方法由于需要将待判断的网页特征句与网页集合中的特征句集合两两比较,当集合规模较大时,时间复杂度会很高。基于标点的消重算法适用范围有限,当网页正文语句顺序发生变化时,标点特征字符串会发生较大的变化,导致准确度下降,同时由于也需要与网页集合中的标点特征字符串集合两两比较,时间复杂度较高。
发明内容
本发明是鉴于现有技术的上述这样的问题而做出的,其目的在于提供一种方便、快捷、高效的网页消重方法。本发明的一个方面的网页消重方法,包括:网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。
根据本发明的一个方面的网页消重方法,所述段落中心句是所述段落中最长的句子。
根据本发明的一个方面的网页消重方法,所述分段是通过html中的在网页渲染时会另起新行的块级元素来实现的。
根据本发明的一个方面的网页消重方法,所述块级元素包括html的如下标签:P、DIV、TABLE、TR、TD、以及ess中具有换行样式的语句。
根据本发明的一个方面的网页消重方法,在所述正文特征提取步骤(S2)中,在所述分段之后,是按照段落文本长度从大到小进行排序,且取段落长度前N个的自然段来进行分段特征的抽取的,其中N为大于0的整数。
根据本发明的一个方面的网页消重方法,所述N为预先设定的阈值。
根据本发明的一个方面的网页消重方法,作为所述分段特征的所述段落中心句是被去掉所有标点符号且将全角变换为半角后得到的句子。
根据本发明的一个方面的网页消重方法,所述消重步骤(S3)中的相似度计算是通过哈希算法来实现的。
根据本发明的一个方面的网页消重方法,在所述消重步骤(S3)中,在判断完所有的分段特征的哈希值是否在哈希表中存在之后,还要计算在哈希表中存在的分段特征是否属于同一篇网页,只有当属于同一篇网页的分段特征对应的段落长度之和大于预先设定的阈值的时候,才判断为重复网页。
根据本发明的一个方面的网页消重方法,在所述步骤(S3)中,将判断为存在于所述哈希表分段构成分段集合,并计算所述分段集合的幂集合,且遍历所述幂集合来进行重复网页的判定。
根据本发明的一个方面的网页消重方法,在所述网页正文抽取步骤(S1)中,是将网页的html源代码初始化为dom树来进行分析的。
根据本发明的一个方面的网页消重方法,在所述网页正文抽取步骤(S1)中,包括:基于dom树,通过title标签来提取网页的标题,将所提取的所述标题进行分词,并去掉对于该标题无实际意义的停用词,得到分词数组作为判断正文的基准的步骤。
根据本发明的一个方面的网页消重方法,所述停用词包括:数词、量词、代词、方位词、拟声词、叹词、及没有实际意义的动词、以及太过于常用的名词。
综上所述,根据本发明的网页消重方法的上述技术方案,实现了一种方便、快捷、高效的网页消重方法。
附图说明
图1是本发明的网页消重方法的概要流程图。
图2是本发明的网页消重方法的网页正文抽取步骤S1的流程图。
图3是本发明的网页消重方法的消重处理步骤S3的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进行详细说明。
图1是本发明的网页消重方法的概要流程图。如图1所示,上述网页消重方法包括:网页正文抽取步骤S1;正文特征提取步骤S2;以及消重处理步骤S3。
在网页正文抽取步骤S1中,对作为消重对象的网页的html源代码进行分析,提取网页的正文内容。
在正文特征提取步骤S2中,对所提取出的正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为该正文内容的正文特征。
在消重处理步骤S3中,将所提取出的正文特征与既存网页的既存正文特征进行相似度计算,在相似度超过阈值时,判定为重复网页,而与已存网页合并,以实现消重。
以下,对本发明的网页消重方法的上述步骤分别进行详细说明。
首先,介绍网页正文抽取的背景。
网页作为信息的载体,目前绝大多数均采用html超文本标识语言进行编写。为了增加网页的美观,通常使用javascript,css等对显示效果进行处理,同时为了一些商业利益,页面上也呈现了很多广告信息,使得网页的主题信息隐藏在大量无关的信息之中。在此,将与网页主题内容无关的信息称之为“噪声”。
在搜索引擎的检索结果中,目前的消重技术都是通过用户的查询词是否出现在文档中,来判断用户的查询词是否和某篇文章相关来决定是否返回该篇文章。而由于噪声的存在,用户的查询词可能存在于噪声中,但是并没有出现在网页的正文中,从而导致了无效的结果。对网页消重而言,噪声的存在影响了特征的提取,进而导致相似度计算出现误差。所以高质量的网页消重都是基于网页正文的。如果不对噪声进行删除就直接对网页进行消重,对消重的准确性有很大的影响,同时噪声的存在也降低了处理的速度。
为此,作为本发明的一种优选实施方式,采用一种基于dom树的办法来提取网页正文。此处要注意,本发明的实施方式是优选的,当然也可以采用现有的其他办法来提取网页正文。
图2是本发明的网页消重方法的网页正文抽取步骤S1的流程图。如图2所示,首先,在步骤S1-1中,将网页的html源代码初始化为dom树。
接着,在步骤S1-2中,基于dom树,通过“title”标签来提取网页的标题,将所提取的标题进行分词,并去掉停用词,得到分词数组Array作为判断正文的基准,分词数组Array的大小为size。其中,停用词是指对于标题无实际意义的词,例如,包括:数词、量词、代词、方位词、拟声词、叹词等、及例如“可能”等没有实际意义的动词、以及例如“操作”等这样的太过于常用的名词。
然后,在步骤S1-3中,遍历html源代码,找到除了“title”之外的标题第一次出现的位置作为假定文本位置。
接着,在步骤S1-4中,根据在步骤S1-3所得到的假定文本位置,找到包含标题的html标签,并设为待扫描标签Tag_A。
然后,在步骤S1-5中,扫描待扫描标签Tag_A的父标签,将得到的父标签设为假定文本标签Tag_B。
接着,在步骤S1-6中,遍历假定文本标签Tag_B的所有子标签Tag_child,提取子标签Tag_child的文本文字Text。
然后,在步骤S1-7中,判断文本文字Text中是否包含Array。如果包含,则转移至步骤S1-8。如果所有子标签Tag_child的文本文字text都不包含Array,则将假定文本标签Tag_B的父标签设为待扫描标签Tag_A,并返回至步骤S1-5。
在步骤S1-8中,基于网页正文具有相同的显示样式,将与子标签Tag_child具有相同css样式的其它同级子标签作为包含网页正文的标签集合Tag_set,Tag_set集合中所有标签的文本文字即可作为网页正文。
接下来,说明本发明的正文特征提取步骤S2。
首先,介绍本发明的正文特征提取步骤S2的背景。
本发明的主要发明宗旨在于,基于分段的网页消重算法保留网页正文文本的文本结构,以自然段为标准对正文文本进行分段,然后从每一段提取出该段的特征,根据这些特征进行网页消重。
在html语言中,包含的元素主要分为“块级元素”和“文本级元素”两种。前者主要包括如下标签:P、DIV、TABLE、TR、TD、以及ess中具有换行样式的语句等,除此之外的html元素均属于“文本级元素”。
两者的区别在于,相对于文本级元素来说,块级元素通常对应于较大的结构单元,通常情况下,浏览器在渲染块级元素时会另起新行,而文本级元素通常嵌套于块级元素之中,不会另起新行,所以也叫做“内联元素”。本发明提出的正文分段的算法充分利用了这两种html元素的区别,因而更能准确地理解网页作者在结构设计上的意图。
由于该算法依赖于网页的页面结构,所以在提取网页正文文本的时候,要根据html的标签规则对网页正文进行分段。通过对网页结构的观察,大部分网页的分段都是通过上文提及的“块级元素”来实现的。
具体而言,在本发明的正文特征提取步骤S2中,遍历在上述中得到Tag_set结合中的标签,根据“块级元素”对应的标签进行分段。
接着,经过正文分段后,按照段落文本长度从大到小进行排序,取段落长度前N个的自然段进行分段特征的抽取,段落个数不足N的就保留全部的段落。其中,N为预先设定的阈值。N为大于0的整数。
分段特征应尽量能唯一代表该段,算法采用的是提取段中最长的句子,例如,通过句号进行判断,两个句号之间的部分为一个句子。设最长的句子长度为MAX,初始为第一个句子的长度,设最长的句子为Str,初始为第一个句子。然后顺序扫描,找到下一个句子,计算其长度length。如果length>MAX,则MAX=Length,Str=该句子的文本,否则继续扫描下一个句子,直到扫描结束。如果该段文字不包含句号,那么就将整段文字作为代表该段的句子。
此外,要对每段最长的句子去掉所有标点符号。因为不同的网页所使用的标点可能有所不同。同时考虑数字、字母半角全角的格式,全部转换为半角的格式。由于在以下的本发明的优选的相似度算法中需要对每段最长的句子进行HASH运算,如果不消除标点、全角对HASH值的影响,会对最后网页相似度的计算产生较大的影响。
接下来,说明本发明的消重处理步骤S3。
假设作为消重对象的网页为P1,文档编号为NUM,前N个分段按照长度降序排列为L(L1,L2,....,Ln),前N个自然段文本总长度设为DocLength,对应的分段特征为W(W1,W2,W3,……,Wn)。
首先,对它的每个分段特征Wi(i=1,……,n),通过HASH(哈希)函数来计算其在HASH表中的位置,如果该位置为空,则将L中对应位置i的长度置为0,同时将该网页的文档编号NUM保存到该位置i。重复以上过程,直到W中每个分段特征都处理完毕。
为了准确率的提高,不能直接统计L中非零的个数是否大于阈值,因为如果分段内容较大的分段在HASH表中不存在,L中对应的位置被置为零,而该段在正文中所占的比重较大,并且L中非零个数大于预先设定的阈值,则容易被误判为是重复网页。所以,在进行判断的时候,需要考虑各个分段文本长度。只有当所有分段(分段特征存在HASH表中)长度之和与正文长度的比值大于预先设定的阈值的时候,才认为是重复网页。
本发明人,在分段消重中,还发现了这么一个事实:一篇网页中的段落可能是其它多篇网页内容的综合,计算该网页的分段特征HASH值的时候,其实是和多篇网页的HASH值进行比较,这样就形成了一对多的关系。
例如,网页P1有二个自然段Pa、Pb,它们的分段特征分别为V1、V2,V1存在于HASH表中,且是由网页P2提供的,即V1也属于P2的分段特征,同时V2存在于HASH表中,且是由网页P3提供的,即V2也属于P3的分段特征。如果直接判断一个网页的分段特征是否存在于HASH表中,那么P1的两个分段特征V1、V2都存在于HASH表中,则V1、V2对应的分段长度之和与所有分段(Pa、Pb)长度之和的比值为1,大于预先设定的阈值,P1就会被判断为重复网页。
但是,网页消重处理针对的是“一对一”的关系,所以,在对一篇网页进行分段消重时,判断完所有的分段特征HASH值是否在HASH表中存在之后,还要计算在HASH表中存在的分段特征是否属于同一篇网页。只有当属于同一篇网页的分段特征对应的段落长度之和大于预先设定的阈值的时候,才能判断为重复网页。
如果不进行“一对一”判断,那么在上述情况中,V1、V2是属于不同网页P2,P3的特征,即使V1对应的分段长度与所有分段(Pa、Pb)长度之和的比值小于预先设定的阈值,V2对应的分段长度与所有分段(Pa、Pb)长度之和的比值也小于预先设定的阈值,那么P1仍然会被判断为重复网页,所以进行“一对一”的判断是有必要的。
图3是本发明的网页消重方法的消重处理步骤S3的流程图。
如图3所示,首先,在步骤S3-1中,将网页的文档编号设为docid,针对由上述步骤S2所得到的正文特征中的每个分段特征Wi(i=1,……,n),通过哈希算法计算其在HASH表中的位置,如果该位置为空,则对应分段的长度L设置为0,同时将该网页的文档编号docid保存到该位置,重复以上过程,直到W中每个分段特征都处理完毕,就转移至步骤S3-2。其中,上述HASH表是基于既存网页的既存正文特征而建立并预先存储的散列表。
接着,在步骤S3-2中,对L进行扫描时,找出长度没有被置为零的分段,且将这些分段构成集合U。
然后,在步骤S3-3中,计算上述集合U的幂集合。
接着,在步骤S3-4中,遍历上述幂集合。
然后,在步骤S3-5中,查找是否还有未判断的子集合(这是由于初始状态,所有子集合都未判断)。如果上述幂集合还有未判断的子集合,则转移至步骤S3-6;否则意味着上述幂集合都计算完毕,则判定为非重复网页,予以保留,同时将该网页的文档标号NUM添加到各个分段特征对应的HASH表位置上,处理结束。
在步骤S3-6中,选取上述幂集合中的一个子集合,计算其各个分段的长度之和length,比较length/DocLength的比值是否大于预先设定的阈值,如果大于,则转移至步骤S3-7;如果小于,则转移至步骤S3-4。
在步骤S3-7中,判断该子集合中的分段特征是否都属于同一网页。如果“否”,则转移至步骤S3-4;如果“是”,则判定为重复网页,进行网页合并,处理结束。具体而言,通过对分段特征所属的文档编号作交集,若交集为空,说明不属于同一网页,则转移至步骤S3-4;若交集不为空,说明属于重复网页,同时将该网页的分段特征在HASH表的位置添加该网页的文档编号,处理结束。
由此,根据本发明的网页消重方法的上述技术方案,通过基于dom树的网页正文提取方法,从而提高了提取的准确性及效率,通过基于段落的特征句的提取,从而使得正文特征的提取更加方便快速,且通过基于哈希表来对特征句进行判断,从而提高了算法效率,降低了特征串两两比较的时间复杂度。
这样,在将本发明应用到搜索引擎中时,可以在搜索结果中去掉重复的网页,展示更多的搜索结果。同时去掉重复网页,能够节省存储空间、并降低运营成本。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体示例而已,并不用于限制本发明。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种网页消重方法,包括:
网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;
正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及
消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。
2.根据权利要求1所述的网页消重方法,其特征在于,
所述段落中心句是所述段落中最长的句子。
3.根据权利要求1所述的网页消重方法,其特征在于,
所述分段是通过html中的在网页渲染时会另起新行的块级元素来实现的。
4.根据权利要求3所述的网页消重方法,其特征在于,
所述块级元素包括html的如下标签:P、DIV、TABLE、TR、TD、以及css中具有换行样式的语句。
5.根据权利要求1所述的网页消重方法,其特征在于,
在所述正文特征提取步骤(S2)中,在所述分段之后,是按照段落文本长度从大到小进行排序,且取段落长度前N个的自然段来进行分段特征的抽取的,其中N为大于0的整数。
6.根据权利要求5所述的网页消重方法,其特征在于,
所述N为预先设定的阈值。
7.根据权利要求1所述的网页消重方法,其特征在于,
作为所述分段特征的所述段落中心句是被去掉所有标点符号且将全角变换为半角后得到的句子。
8.根据权利要求7所述的网页消重方法,其特征在于,
所述消重步骤(S3)中的相似度计算是通过哈希算法来实现的。
9.根据权利要求7所述的网页消重方法,其特征在于,
在所述消重步骤(S3)中,在判断完所有的分段特征的哈希值是否在哈希表中存在之后,还要计算在哈希表中存在的分段特征是否属于同一篇网页,只有当属于同一篇网页的分段特征对应的段落长度之和大于预先设定的阈值的时候,才判断为重复网页。
10.根据权利要求9所述的网页消重方法,其特征在于,
在所述步骤(S3)中,
将判断为存在于所述哈希表中的分段构成分段集合,并计算所述分段集合的幂集合,且遍历所述幂集合来进行重复网页的判定。
11.根据权利要求1至10任一项所述的网页消重方法,其特征在于,
在所述网页正文抽取步骤(S1)中,是将网页的html源代码初始化为dom树来进行分析的。
12.根据权利要求1至10任一项所述的网页消重方法,其特征在于,
在所述网页正文抽取步骤(S1)中,包括:
基于dom树,通过title标签来提取网页的标题,将所提取的所述标题进行分词,并去掉对于该标题无实际意义的停用词,得到分词数组作为判断正文的基准的步骤。
13.根据权利要求12所述的网页消重方法,其特征在于,
所述停用词包括:数词、量词、代词、方位词、拟声词、叹词、及没有实际意义的动词、以及太过于常用的名词。
CN201610391118.0A 2016-06-03 2016-06-03 网页消重方法、装置及存储介质 Active CN107463571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610391118.0A CN107463571B (zh) 2016-06-03 2016-06-03 网页消重方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610391118.0A CN107463571B (zh) 2016-06-03 2016-06-03 网页消重方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107463571A true CN107463571A (zh) 2017-12-12
CN107463571B CN107463571B (zh) 2020-03-31

Family

ID=60545857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610391118.0A Active CN107463571B (zh) 2016-06-03 2016-06-03 网页消重方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107463571B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108829659A (zh) * 2018-05-04 2018-11-16 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质
CN108897793A (zh) * 2018-06-12 2018-11-27 佛山市灏金赢科技有限公司 一种从收藏网页中消除重复网页的方法及系统
CN109002517A (zh) * 2018-07-06 2018-12-14 佛山市灏金赢科技有限公司 一种网页内容展示方法及系统
CN110244886A (zh) * 2019-05-20 2019-09-17 北京百度网讯科技有限公司 信息显示方法、装置、计算机设备及存储介质
CN113905033A (zh) * 2021-10-25 2022-01-07 北京知道创宇信息技术股份有限公司 一种网页跳转处理方法、装置、存储介质及电子设备
CN114021542A (zh) * 2021-11-02 2022-02-08 北京库睿科技有限公司 一种文本信息的重复检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050040638A (ko) * 2003-10-29 2005-05-03 한국전자통신연구원 음성지원 브라우저의 웹 문서 본문 추출방법
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
US20120110437A1 (en) * 2010-10-28 2012-05-03 Microsoft Corporation Style and layout caching of web content
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050040638A (ko) * 2003-10-29 2005-05-03 한국전자통신연구원 음성지원 브라우저의 웹 문서 본문 추출방법
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
US20120110437A1 (en) * 2010-10-28 2012-05-03 Microsoft Corporation Style and layout caching of web content
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周建: "基于DOM结构树和特征词的Web内容提取研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
祁琛: "网页消重技术的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
赵欣欣等: "基于标记窗的网页正文信息提取方法", 《计算机应用研究》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829659A (zh) * 2018-05-04 2018-11-16 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质
CN108897793A (zh) * 2018-06-12 2018-11-27 佛山市灏金赢科技有限公司 一种从收藏网页中消除重复网页的方法及系统
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN109002517A (zh) * 2018-07-06 2018-12-14 佛山市灏金赢科技有限公司 一种网页内容展示方法及系统
CN110244886A (zh) * 2019-05-20 2019-09-17 北京百度网讯科技有限公司 信息显示方法、装置、计算机设备及存储介质
CN110244886B (zh) * 2019-05-20 2022-05-27 北京百度网讯科技有限公司 信息显示方法、装置、计算机设备及存储介质
CN113905033A (zh) * 2021-10-25 2022-01-07 北京知道创宇信息技术股份有限公司 一种网页跳转处理方法、装置、存储介质及电子设备
CN114021542A (zh) * 2021-11-02 2022-02-08 北京库睿科技有限公司 一种文本信息的重复检测方法及装置

Also Published As

Publication number Publication date
CN107463571B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN107463571A (zh) 网页消重方法
US9514216B2 (en) Automatic classification of segmented portions of web pages
Gatterbauer et al. Towards domain-independent information extraction from web tables
EP1038239B1 (en) Identifying language and character set of data representing text
CN102930031B (zh) 由网页中提取双语平行正文的方法和系统
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN104598577B (zh) 一种网页正文的提取方法
CN107590219A (zh) 网页人物主题相关信息提取方法
Chen et al. Template detection for large scale search engines
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN106407195B (zh) 用于网页消重的方法和系统
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN109857912A (zh) 一种字形识别方法、电子设备及存储介质
Zhu et al. Webpage understanding: an integrated approach
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
Zhou et al. Web content extraction through machine learning
Fan et al. Article clipper: a system for web article extraction
Skylaki et al. Legal entity extraction using a pointer generator network
Can et al. Postal address detection fromweb documents
Shekhar et al. Linguistic structural framework for encoding transliteration variants for word origin detection using bilingual lexicon
Han et al. An automatic web news article contents extraction system based on RSS feeds
Akbar Table Extraction from Web Pages Using Conditional Random Fields to Extract Toponym Related Data
Win et al. Web page segmentation and informative content extraction for effective information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant