CN106708816A - 网页解析中网页正文重复内容的处理方法及装置 - Google Patents

网页解析中网页正文重复内容的处理方法及装置 Download PDF

Info

Publication number
CN106708816A
CN106708816A CN201510419835.5A CN201510419835A CN106708816A CN 106708816 A CN106708816 A CN 106708816A CN 201510419835 A CN201510419835 A CN 201510419835A CN 106708816 A CN106708816 A CN 106708816A
Authority
CN
China
Prior art keywords
text
pending
sentence
position data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510419835.5A
Other languages
English (en)
Other versions
CN106708816B (zh
Inventor
何鑫
崔维福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510419835.5A priority Critical patent/CN106708816B/zh
Publication of CN106708816A publication Critical patent/CN106708816A/zh
Application granted granted Critical
Publication of CN106708816B publication Critical patent/CN106708816B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页解析中网页正文重复内容的处理方法及装置。该方法包括:确定待处理文本;获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数;获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。通过本发明,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题。

Description

网页解析中网页正文重复内容的处理方法及装置
技术领域
本发明涉及网页解析技术领域,具体而言,涉及一种网页解析中网页正文重复内容的处理方法及装置。
背景技术
页面解析,例如,Html页面解析,是互联网数据挖掘技术中的重要环节。通过Html页面解析在网页页面中准确地抽取出各种特征,是后续数据挖掘中其它任务的前提,其中,网页正文是网页页面特征中重要的特征。由于网页格式千变万化,导致抽取网页正文非常困难。通常,相关技术是通过合并网页中文本段落来抽取网页正文,然而带有评论的网站具有一个明显的特点,即每一条评论内容中都带有指向正文的节点,如果通过上述网页正文的抽取方法,抽取网页正文的结果是:正文+(评论1+正文)+(评论2+正文)+…+(评论n+正文)+…。即抽取的网页正文中含有大量重复的正文内容。在后续数据挖掘的其它任务中,直接调用网页正文的抽取结果进行分析处理。由于网页页面解析中网页正文存在重复内容会直接影响网页分析的结果,因此造成后续其它任务输出结果会一系列的出错。
针对相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页解析中网页正文重复内容的处理方法及装置,以解决相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页解析中网页正文重复内容的处理方法。该方法包括:确定待处理文本,其中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本包括多个基本语句,待处理文本中内容相同的语句为同一基本语句;获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数;获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。
进一步地,多个待处理语句包括第一待处理语句和第二待处理语句,获取多个待处理语句的信息包括:确定第一位置数据,其中,第一位置数据为第一待处理语句在待处理文本中第一次出现时开始位置的数据;确定第二位置数据,其中,第二位置数据为第二待处理语句在待处理文本中第一次出现时开始位置的数据;以及将第一位置数据和第二位置数据作为多个待处理语句的信息。
进一步地,根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理包括:判断第一位置数据是否小于第二位置数据;如果第一位置数据小于第二位置数据,确定第三位置数据,其中,第三位置数据为第一待处理语句在待处理文本中的第二次出现时开始位置的数据;以及根据第一位置数据和第三位置数据对网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,第一候选网页正文为待处理文本中第一位置数据与第三位置数据之间的文本。
进一步地,在判断第一位置数据是否小于第二位置数据之后,该方法还包括:如果第一位置数据大于第二位置数据,确定第四位置数据,其中,第四位置数据为第二待处理语句在待处理文本中的第二次出现时开始位置的数据;以及根据第二位置数据和第四位置数据对网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,第二候选网页正文为待处理文本中第二位置数据与第四位置数据之间的文本。
进一步地,确定待处理文本包括:获取候选待处理文本,其中,候选待处理文本为网页页面解析中网页正文的文本;按照预设条件将候选待处理文本分割为多个分割语句;确定多个分割语句中的多个待判断语句,其中,多个分割语句中内容相同的语句为同一待判断语句;获取多个第一频率,其中,多个第一频率分别为多个待判断语句在候选待处理文本中出现的频率;根据多个第一频率判断候选待处理文本中是否含有重复内容;以及如果候选待处理文本中含有重复内容,将候选待处理文本作为待处理文本。
为了实现上述目的,根据本发明的另一方面,提供了一种网页解析中网页正文重复内容的处理装置。该装置包括:第一确定单元,用于确定待处理文本,其中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本包括多个基本语句,待处理文本中内容相同的语句为同一基本语句;第一获取单元,用于获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;第二获取单元,用于获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数;第三获取单元,用于获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及第一处理单元,用于根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。
进一步地,多个待处理语句包括第一待处理语句和第二待处理语句,第三获取单元包括:第一确定模块,用于确定第一位置数据,其中,第一位置数据为第一待处理语句在待处理文本中第一次出现时开始位置的数据;第二确定模块,用于确定第二位置数据,其中,第二位置数据为第二待处理语句在待处理文本中第一次出现时开始位置的数据;以及第三确定模块,用于将第一位置数据和第二位置数据作为多个待处理语句的信息。
进一步地,第一处理单元包括:第一判断模块,用于判断第一位置数据是否小于第二位置数据;第四确定模块,用于在第一位置数据小于第二位置数据的情况下,确定第三位置数据,其中,第三位置数据为第一待处理语句在待处理文本中的第二次出现时开始位置的数据;以及处理模块,用于根据第一位置数据和第三位置数据对网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,第一候选网页正文为待处理文本中第一位置数据与第三位置数据之间的文本。
进一步地,该装置还包括:第二确定单元,用于在第一位置数据大于第二位置数据的情况下,确定第四位置数据,其中,第四位置数据为第二待处理语句在待处理文本中的第二次出现时开始位置的数据;以及第二处理单元,用于根据第二位置数据和第四位置数据对网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,第二候选网页正文为待处理文本中第二位置数据与第四位置数据之间的文本。
进一步地,第一确定单元包括:第一获取模块,用于获取候选待处理文本,其中,候选待处理文本为网页页面解析中网页正文的文本;分割模块,用于按照预设条件将候选待处理文本分割为多个分割语句;第五确定模块,用于确定多个分割语句中的多个待判断语句,其中,多个分割语句中内容相同的语句为同一待判断语句;第二获取模块,用于获取多个第一频率,其中,多个第一频率分别为多个待判断语句在候选待处理文本中出现的频率;第二判断模块,用于根据多个第一频率判断候选待处理文本中是否含有重复内容;以及第六确定模块,用于在候选待处理文本中含有重复内容的情况下,将候选待处理文本作为待处理文本。
在本发明实施例中,通过确定待处理文本;获取多个语句频次;获取多个频次次数;获取多个待处理语句的信息;以及根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题,达到了有效的过滤掉网页页面解析网页正文中的重复内容的效果,保障了后续网页页面解析中网页正文分析结果的准确性。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页解析中网页正文重复内容的处理方法的流程图;以及
图2是根据本发明实施例的网页解析中网页正文重复内容的处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种网页解析中网页正文重复内容的处理方法。
图1是根据本发明实施例的网页解析中网页正文重复内容的处理方法的流程图。如图1所示,该方法包括如下的步骤S101至步骤S105:
步骤S101,确定待处理文本。
具体地,在上述步骤S101中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本中包括多个基本语句。确定网页页面解析中网页正文含有重复内容的文本有多种方式,例如,通过网页页面解析中网页正文中的多个基本语句在文本中出现的频率进行判定网页页面解析中网页正文是否含有重复内容,确定网页页面解析中网页正文含有重复内容的文本为本发明实施例中的待处理文本。需要说明的是,待处理文本中内容相同的语句为同一基本语句,各个基本语句之间内容各不相同。
步骤S102,获取多个语句频次。
具体地,在上述步骤S102中,多个语句频次分别为多个基本语句在待处理文本中出现的次数。即待处理文本中多个基本语句在在待处理文本中出现的次数。例如,基本语句A,在待处理文本中出现的次数为5,获取到基本语句A的语句频次为5;基本语句B,在待处理文本中出现的次数为8,获取到基本语句B的语句频次为8。
步骤S103,获取多个频次次数。
具体地,在上述步骤S103中,多个频次次数分别为多个语句频次出现的次数。需要说明的是,多个语句频次中出现次数相同的语句频次为同一语句频次。
例如,在上一步骤中获取到基本语句A的语句频次为5,5在多个语句频次中出现的次数为3次,获取到基本语句A的频次次数为3;在上一步骤中获取到基本语句B的语句频次为8,8在多个语句频次中出现的次数为5次,获取到基本语句B的频次次数为5。
步骤S104,获取多个待处理语句的信息。
具体地,在上述步骤S104中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息。例如,获取到频次次数为3对应的基本语句A的信息,获取到频次次数为5对应的基本语句B的信息。
步骤S105,根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。
根据上述获取到的多个待处理语句的信息对网页正文中的重复内容进行过滤处理有多种方式,例如,可以根据上述获取到的多个待处理语句的信息确定该网页正文中的重复内容,在网页正文中过滤掉重复内容。
通过以上步骤,有效的过滤掉网页页面解析网页正文中的重复内容,保障了后续网页分析结果的准确性。
本发明实施例提供的网页解析中网页正文重复内容的处理方法,通过确定待处理文本,其中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本包括多个基本语句;获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;获取多个频次次数,其中,多个频次次数分别为多个语句频次出现的次数;获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题,达到了有效的过滤掉网页页面解析网页正文中的重复内容的效果,保障了后续网页页面解析中网页正文分析结果的准确性。
具体地,在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,多个待处理语句包括第一待处理语句和第二待处理语句,获取多个待处理语句的信息包括:确定第一位置数据,其中,第一位置数据为第一待处理语句在待处理文本中第一次出现时开始位置的数据;确定第二位置数据,其中,第二位置数据为第二待处理语句在待处理文本中第一次出现时开始位置的数据;以及将第一位置数据和第二位置数据作为多个待处理语句的信息。
位置数据用于标示待处理语句在待处理文本中出现时的开始位置。通常,通过遍历待处理文本以获取位置数据。在遍历到待处理文本中的待处理语句时,记录下遍历的次序,将遍历的次序作为待处理语句的位置数据。例如,待处理文本的长度为100,通过for(i=0,i++,i<99)对待处理文本进行遍历,当i=11时,遍历到待处理语句,将待处理语句的位置数据记录为11。通过以上步骤,快速的获取到位置数据,保证了后续过滤网页页面解析网页正文中的重复内容的效率。
在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,上述的根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理,还可以通过以下步骤实现:判断第一位置数据是否小于第二位置数据;如果第一位置数据小于第二位置数据,确定第三位置数据,其中,第三位置数据为第一待处理语句在待处理文本中的第二次出现时开始位置的数据;以及根据第一位置数据和第三位置数据对网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,第一候选网页正文为待处理文本中第一位置数据与第三位置数据之间的文本。
在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,在判断第一位置数据是否小于第二位置数据之后,该方法还包括:如果第一位置数据大于第二位置数据,确定第四位置数据,其中,第四位置数据为第二待处理语句在待处理文本中的第二次出现时开始位置的数据;以及根据第二位置数据和第四位置数据对网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,第二候选网页正文为待处理文本中第二位置数据与第四位置数据之间的文本。
在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,上述的确定待处理文本,还可以通过以下步骤实现:获取候选待处理文本,其中,候选待处理文本为网页页面解析中网页正文的文本;按照预设条件将候选待处理文本分割为多个分割语句;确定多个分割语句中的多个待判断语句,其中,多个分割语句中内容相同的语句为同一待判断语句;获取多个第一频率,其中,多个第一频率分别为多个待判断语句在候选待处理文本中出现的频率;根据多个第一频率判断候选待处理文本中是否含有重复内容;以及如果候选待处理文本中含有重复内容,将候选待处理文本作为待处理文本。
为了提升获取多个第一频率的准确性,在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,上述的获取多个语句频次,还可以通过以下步骤实现:分别计算多个基本语句的哈希值;以及分别统计多个基本语句的哈希值出现的次数,得到多个语句频次,其中,多个语句频次分别对应于多个基本语句的哈希值出现的频率。通过以上步骤,将多个语句频次分别对应于多个基本语句的哈希值出现的频率,保证了确定多个语句频次的准确性。
上述描述的方案具体描述,如下所示:
计算各基本语句的hash值。常用的,通过HashTable的结构用计数器对待处理文本中的基本语句列表遍历一次即可得到各基本语句的hash值。根据hash值统计各个基本语句出现的频率,相同的基本语句出现的次数记为Frequencies,并以键值对的方式存储,记为(SentenceHash,Frequencies)。通过该步骤输出的结果形式为:{(A,fa),(B,fb),…,},其中,fa表示基本语句A出现的次数,另外,fa可能等于fb,即表示基本语句A和基本语句B出现的次数相等,且均为fa或fb次。
统计各个语句频次(Frequencies)出现的次数(Hit Count),记为(Frequencies,Hit)。例如,如果一篇文章是ABCDABCEABCFABCGABC,经过统计各个基本语句在文章中出现的语句频次的结果是{(A,5),(B,5),(C,5),(D,1),(E,1),(F,1),(G,1)},对5551111进行频数统计,即获取次数频率,得到键值对(Frequencies,Hit),即{(5,3),(1,4)}。
在统计出次数频率之后,获取预先设置的阈值,该阈值表示重复内容出现的最少次数,取Hit数大于该阈值的统计结果。通常,阈值的设定是基于经验或者阈值由多次测试总结得出的数值。在本发明实施例中的阈值,即表示允许基本语句重复次数的安全值,如果基本语句的重复次数不大于该阈值,则认为基本语句不是重复内容中出现的基本语句。假设阈值是2,那么一篇文章形如ABCDAEF,则不认为是包含有重复内容的文章。反之,基本语句重复次数大于阈值,则认为基本语句出现在了重复的内容中。例如,获取到待处理文本中对应的频次次数{(5,3),(1,4)},阈值是2,与Frequencies相比,则剔除(1,4),保留(5,3)。
保留的记录数有时也不止一项,若保留的记录数大于一项,则对Hit进行降序排列。如文章ABBCDABBCEABBCF…,得到的(SentenceHash,Frequencies)为{(A,3),(B,6),(C,3),(D,1),(E,1),(F,1)},若阈值为2,则(SentenceHash,Frequencies)为{(3,2),(6,1)}。过滤文本内的重复部分,可通过取最大Hit值的键值对(Frequencies,Hit),并取出其中的Frequencies数;并取得第一个被统计出现Frequencies次的SentenceHash,遍历多个基本语句,截取两个SentenceHash之间的部分作为正文内容输出。以ABBCDABBCEABBCF…为例,上述得到的(Frequencies,Hit)为{(3,2),(6,1)},不是空集,则表示文本包含重复内容,Hit最高的数值是2,对应的Frequencies数为3,因此,要回到(SentenceHash,Frequencies)表中查询Frequencies为3的SentenceHash,分别为A、C,其中,较早出现的基本语句是A。此时,重新遍历待处理文本中的多个基本语句,当第一次出现基本语句A时,开始记录,至下一次出现基本语句A时结束,期间包含的全部基本语句,合并成文本,即ABBCD,在待处理文本中保留合成的文本(即ABBCD),将其它内容过滤掉。
在本发明实施例提供的网页解析中网页正文重复内容的处理方法中,对于如ABBCDABBCEABBCF…这样的待处理文本,正文部分是ABBC,另外D、E、F应看作是对于正文内容的评论,而非正文内容本身,通过本发明实施例提供的网页解析中网页正文重复内容的处理方法可以有效的做到过滤文本至ABBCD。通过以上步骤,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题,有效的过滤掉网页页面解析网页正文中的重复内容的效果,保障了后续网页页面解析中网页正文分析结果的准确性。
需要说明的是,在本发明实施例提供的网页解析中网页正文重复内容的处理方法中的重复内容,可以为重复语句,也可以为重复段落。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例还提供了一种网页解析中网页正文重复内容的处理装置,需要说明的是,本发明实施例的网页解析中网页正文重复内容的处理装置可以用于执行本发明实施例所提供的用于网页解析中网页正文重复内容的处理方法。以下对本发明实施例提供的网页解析中网页正文重复内容的处理装置进行介绍。
图2是根据本发明实施例的网页解析中网页正文重复内容的处理装置的示意图。如图2所示,该装置包括:第一确定单元10、第一获取单元20、第二获取单元30、第三获取单元40和第一处理单元50。
第一确定单元10,用于确定待处理文本,其中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本包括多个基本语句,待处理文本中内容相同的语句为同一基本语句。
第一获取单元20,用于获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数。
第二获取单元30,用于获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数。
第三获取单元40,用于获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息。
第一处理单元50,用于根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理。
本发明实施例提供的网页解析中网页正文重复内容的处理装置,通过第一确定单元10确定待处理文本,其中,待处理文本为网页页面解析中网页正文含有重复内容的文本,待处理文本包括多个基本语句;第一获取单元20获取多个语句频次,其中,多个语句频次分别为多个基本语句在待处理文本中出现的次数;第二获取单元30获取多个频次次数,其中,多个语句频次中出现次数相同的语句频次为同一计数频次,每个计数频次在多个语句频次中出现的次数为一个频次次数;第三获取单元40获取多个待处理语句的信息,其中,多个待处理语句的信息分别为多个频次次数对应基本语句的信息;以及第一处理单元50根据多个待处理语句的信息对网页正文中的重复内容进行过滤处理,解决了相关技术中由于网页页面解析中网页正文存在重复内容影响网页分析结果的问题,达到了有效的过滤掉网页页面解析网页正文中的重复内容的效果,保障了后续网页页面解析中网页正文分析结果的准确性。
优选地,在本发明实施例提供的网页解析中网页正文重复内容的处理装置中,多个待处理语句包括第一待处理语句和第二待处理语句,上述的第三获取单元40还包括:第一确定模块,用于确定第一位置数据,其中,第一位置数据为第一待处理语句在待处理文本中第一次出现时开始位置的数据;第二确定模块,用于确定第二位置数据,其中,第二位置数据为第二待处理语句在待处理文本中第一次出现时开始位置的数据;以及第三确定模块,用于将第一位置数据和第二位置数据作为多个待处理语句的信息。
优选地,为了提高对网页正文中的重复内容进行过滤处理准确性,在本发明实施例提供的网页解析中网页正文重复内容的处理装置中,上述的第一处理单元50还包括:第一判断模块,用于判断第一位置数据是否小于第二位置数据;第四确定模块,用于在第一位置数据小于第二位置数据的情况下,确定第三位置数据,其中,第三位置数据为第一待处理语句在待处理文本中的第二次出现时开始位置的数据;以及处理模块,用于根据第一位置数据和第三位置数据对网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,第一候选网页正文为待处理文本中第一位置数据与第三位置数据之间的文本。
可选地,在本发明实施例提供的网页解析中网页正文重复内容的处理装置中,该装置还包括:第二确定单元,用于在第一位置数据大于第二位置数据的情况下,确定第四位置数据,其中,第四位置数据为第二待处理语句在待处理文本中的第二次出现时开始位置的数据;以及第二处理单元,用于根据第二位置数据和第四位置数据对网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,第二候选网页正文为待处理文本中第二位置数据与第四位置数据之间的文本。
可选地,在本发明实施例提供的网页解析中网页正文重复内容的处理装置中,上述的第一确定单元10还包括:第一获取模块,用于获取候选待处理文本,其中,候选待处理文本为网页页面解析中网页正文的文本;分割模块,用于按照预设条件将候选待处理文本分割为多个分割语句;第五确定模块,用于确定多个分割语句中的多个待判断语句,其中,多个分割语句中内容相同的语句为同一待判断语句;第二获取模块,用于获取多个第一频率,其中,多个第一频率分别为多个待判断语句在候选待处理文本中出现的频率;第二判断模块,用于根据多个第一频率判断候选待处理文本中是否含有重复内容;以及第六确定模块,用于在候选待处理文本中含有重复内容的情况下,将候选待处理文本作为待处理文本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页解析中网页正文重复内容的处理方法,其特征在于,包括:
确定待处理文本,其中,所述待处理文本为网页页面解析中网页正文含有重复内容的文本,所述待处理文本包括多个基本语句,所述待处理文本中内容相同的语句为同一基本语句;
获取多个语句频次,其中,所述多个语句频次分别为所述多个基本语句在所述待处理文本中出现的次数;
获取多个频次次数,其中,所述多个语句频次中出现次数相同的语句频次为同一计数频次,每个所述计数频次在所述多个语句频次中出现的次数为一个频次次数;
获取多个待处理语句的信息,其中,所述多个待处理语句的信息分别为所述多个频次次数对应基本语句的信息;以及
根据所述多个待处理语句的信息对所述网页正文中的重复内容进行过滤处理。
2.根据权利要求1所述的方法,其特征在于,所述多个待处理语句包括第一待处理语句和第二待处理语句,获取多个待处理语句的信息包括:
确定第一位置数据,其中,所述第一位置数据为所述第一待处理语句在所述待处理文本中第一次出现时开始位置的数据;
确定第二位置数据,其中,所述第二位置数据为所述第二待处理语句在所述待处理文本中第一次出现时开始位置的数据;以及
将所述第一位置数据和所述第二位置数据作为所述多个待处理语句的信息。
3.根据权利要求2所述的方法,其特征在于,根据所述多个待处理语句的信息对所述网页正文中的重复内容进行过滤处理包括:
判断所述第一位置数据是否小于所述第二位置数据;
如果所述第一位置数据小于所述第二位置数据,确定第三位置数据,其中,所述第三位置数据为所述第一待处理语句在所述待处理文本中第二次出现时开始位置的数据;以及
根据所述第一位置数据和所述第三位置数据对所述网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,所述第一候选网页正文为所述待处理文本中所述第一位置数据与所述第三位置数据之间的文本。
4.根据权利要求3所述的方法,其特征在于,在判断所述第一位置数据是否小于所述第二位置数据之后,所述方法还包括:
如果所述第一位置数据大于所述第二位置数据,确定第四位置数据,其中,所述第四位置数据为所述第二待处理语句在所述待处理文本中的第二次出现时开始位置的数据;以及
根据所述第二位置数据和所述第四位置数据对所述网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,所述第二候选网页正文为所述待处理文本中所述第二位置数据与所述第四位置数据之间的文本。
5.根据权利要求1所述的方法,其特征在于,确定所述待处理文本包括:
获取候选待处理文本,其中,所述候选待处理文本为所述网页页面解析中网页正文的文本;
按照预设条件将所述候选待处理文本分割为多个分割语句;
确定所述多个分割语句中的多个待判断语句,其中,所述多个分割语句中内容相同的语句为同一个待判断语句;
获取多个第一频率,其中,所述多个第一频率分别为所述多个待判断语句在所述候选待处理文本中出现的频率;
根据所述多个第一频率判断所述候选待处理文本中是否含有重复内容;以及
如果所述候选待处理文本中含有重复内容,将所述候选待处理文本作为所述待处理文本。
6.一种网页解析中网页正文重复内容的处理装置,其特征在于,包括:
第一确定单元,用于确定待处理文本,其中,所述待处理文本为网页页面解析中网页正文含有重复内容的文本,所述待处理文本包括多个基本语句,所述待处理文本中内容相同的语句为同一基本语句;
第一获取单元,用于获取多个语句频次,其中,所述多个语句频次分别为所述多个基本语句在所述待处理文本中出现的次数;
第二获取单元,用于获取多个频次次数,其中,所述多个语句频次中出现次数相同的语句频次为同一计数频次,每个所述计数频次在所述多个语句频次中出现的次数为一个频次次数;
第三获取单元,用于获取多个待处理语句的信息,其中,所述多个待处理语句的信息分别为所述多个频次次数对应基本语句的信息;以及
第一处理单元,用于根据所述多个待处理语句的信息对所述网页正文中的重复内容进行过滤处理。
7.根据权利要求6所述的装置,其特征在于,所述多个待处理语句包括第一待处理语句和第二待处理语句,所述第三获取单元包括:
第一确定模块,用于确定第一位置数据,其中,所述第一位置数据为所述第一待处理语句在所述待处理文本中第一次出现时开始位置的数据;
第二确定模块,用于确定第二位置数据,其中,所述第二位置数据为所述第二待处理语句在所述待处理文本中第一次出现时开始位置的数据;以及
第三确定模块,用于将所述第一位置数据和所述第二位置数据作为所述多个待处理语句的信息。
8.根据权利要求7所述的装置,其特征在于,所述第一处理单元包括:
第一判断模块,用于判断所述第一位置数据是否小于所述第二位置数据;
第四确定模块,用于在所述第一位置数据小于所述第二位置数据的情况下,确定第三位置数据,其中,所述第三位置数据为所述第一待处理语句在所述待处理文本中的第二次出现时开始位置的数据;以及
处理模块,用于根据所述第一位置数据和所述第三位置数据对所述网页正文中的重复内容进行过滤处理,得到第一候选网页正文,其中,所述第一候选网页正文为所述待处理文本中所述第一位置数据与所述第三位置数据之间的文本。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于在所述第一位置数据大于所述第二位置数据的情况下,确定第四位置数据,其中,所述第四位置数据为所述第二待处理语句在所述待处理文本中的第二次出现时开始位置的数据;以及
第二处理单元,用于根据所述第二位置数据和所述第四位置数据对所述网页正文中的重复内容进行过滤处理,得到第二候选网页正文,其中,所述第二候选网页正文为所述待处理文本中所述第二位置数据与所述第四位置数据之间的文本。
10.根据权利要求6所述的装置,其特征在于,所述第一确定单元包括:
第一获取模块,用于获取候选待处理文本,其中,所述候选待处理文本为所述网页页面解析中网页正文的文本;
分割模块,用于按照预设条件将所述候选待处理文本分割为多个分割语句;
第五确定模块,用于确定所述多个分割语句中的多个待判断语句,其中,所述多个分割语句中内容相同的语句为同一待判断语句;
第二获取模块,用于获取多个第一频率,其中,所述多个第一频率分别为所述多个待判断语句在所述候选待处理文本中出现的频率;
第二判断模块,用于根据所述多个第一频率判断所述候选待处理文本中是否含有重复内容;以及
第六确定模块,用于在所述候选待处理文本中含有重复内容的情况下,将所述候选待处理文本作为所述待处理文本。
CN201510419835.5A 2015-07-16 2015-07-16 网页解析中网页正文重复内容的处理方法及装置 Active CN106708816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510419835.5A CN106708816B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510419835.5A CN106708816B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的处理方法及装置

Publications (2)

Publication Number Publication Date
CN106708816A true CN106708816A (zh) 2017-05-24
CN106708816B CN106708816B (zh) 2019-12-10

Family

ID=58895054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510419835.5A Active CN106708816B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106708816B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221558A (zh) * 2008-01-22 2008-07-16 安徽科大讯飞信息科技股份有限公司 句子模板自动提取的方法
CN101526956A (zh) * 2009-03-30 2009-09-09 清华大学 基于内容引用的网页搜索结果排序方法
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102710795A (zh) * 2012-06-20 2012-10-03 奇智软件(北京)有限公司 热点聚合方法及装置
US20130031461A1 (en) * 2011-07-29 2013-01-31 Hewlett-Packard Development Company, L.P. Detecting repeat patterns on a web page
CN103455572A (zh) * 2013-08-20 2013-12-18 北京奇虎科技有限公司 获取网页中影视主体的方法及装置
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221558A (zh) * 2008-01-22 2008-07-16 安徽科大讯飞信息科技股份有限公司 句子模板自动提取的方法
CN101526956A (zh) * 2009-03-30 2009-09-09 清华大学 基于内容引用的网页搜索结果排序方法
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
US20130031461A1 (en) * 2011-07-29 2013-01-31 Hewlett-Packard Development Company, L.P. Detecting repeat patterns on a web page
CN102710795A (zh) * 2012-06-20 2012-10-03 奇智软件(北京)有限公司 热点聚合方法及装置
CN103455572A (zh) * 2013-08-20 2013-12-18 北京奇虎科技有限公司 获取网页中影视主体的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633351A (zh) * 2018-05-30 2019-12-31 北京百度网讯科技有限公司 用于处理评论的方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN106708816B (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110717049B (zh) 一种面向文本数据的威胁情报知识图谱构建方法
KR102431549B1 (ko) 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램
US10372739B2 (en) Corpus search systems and methods
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN104408102B (zh) 用于网络热词与对象的关联度的数据处理方法和装置
CN103853760B (zh) 一种网页正文内容提取方法和装置
CN111324797B (zh) 一种高速精准获取数据的方法和装置
CN104618132B (zh) 一种应用程序识别规则生成方法和装置
EP3107009A1 (en) Self-learning based crawling and rule-based data mining for automatic information extraction
CN102567337B (zh) 一种通过链接快速识别网页类型的方法及系统
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
CN108090104A (zh) 用于获取网页信息的方法和装置
CN106777190A (zh) 识别兴趣点的wifi名称的方法和装置
Mehta et al. DOM tree based approach for web content extraction
CN101895517A (zh) 一种脚本语义提取方法和提取装置
CN102779172A (zh) 一种网页中非正文文本的识别系统及方法
CN106503244A (zh) 一种统一资源定位符相似度的处理方法
CN106708816A (zh) 网页解析中网页正文重复内容的处理方法及装置
CN106033444B (zh) 文本内容的聚类方法和装置
CN109889471B (zh) 结构化查询语句sql注入检测方法和系统
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN108694192B (zh) 网页类型的判断方法及装置
JP6021079B2 (ja) 文書要約装置、方法、及びプログラム
CN106611176A (zh) 异常中文字符串的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant