CN106354730B - 网页解析中网页正文重复内容的识别方法及装置 - Google Patents

网页解析中网页正文重复内容的识别方法及装置 Download PDF

Info

Publication number
CN106354730B
CN106354730B CN201510419890.4A CN201510419890A CN106354730B CN 106354730 B CN106354730 B CN 106354730B CN 201510419890 A CN201510419890 A CN 201510419890A CN 106354730 B CN106354730 B CN 106354730B
Authority
CN
China
Prior art keywords
processed
text
fine
statements
grained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510419890.4A
Other languages
English (en)
Other versions
CN106354730A (zh
Inventor
何鑫
崔维福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510419890.4A priority Critical patent/CN106354730B/zh
Publication of CN106354730A publication Critical patent/CN106354730A/zh
Application granted granted Critical
Publication of CN106354730B publication Critical patent/CN106354730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页解析中网页正文重复内容的识别方法及装置。该方法包括:获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个分割语句;确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容。通过本发明,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题。

Description

网页解析中网页正文重复内容的识别方法及装置
技术领域
本发明涉及网页解析技术领域,具体而言,涉及一种网页解析中网页正文重复内容的识别方法及装置。
背景技术
页面解析,例如,Html页面解析,是互联网数据挖掘技术中的重要环节。通过Html页面解析在网页页面中准确地抽取出各种特征,是后续数据挖掘中其它任务的前提。其中,网页正文是网页页面特征中重要的特征。由于网页格式千变万化,导致抽取网页正文非常困难。通常,相关技术是通过合并网页中文本段落来抽取网页正文,然而带有评论的网站具有一个明显的特点,即每一条评论内容中都带有指向正文的节点,如果通过上述网页正文的抽取方法,抽取网页正文的结果是:正文+(评论1+正文)+(评论2+正文)+…+(评论n+正文)+…,即抽取的网页正文中含有大量重复的正文内容。然而,由于无法识别网页正文中是否含有重复内容,在后续数据挖掘的其它任务中,直接调用网页正文的抽取结果进行分析处理,导致后续其它任务输出结果会一系列的出错。
针对相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页解析中网页正文重复内容的识别方法及装置,以解决相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页解析中网页正文重复内容的识别方法。该方法包括:获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个分割语句;确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容。
进一步地,根据多个第一频率识别网页解析中网页正文的重复内容包括:分别判断多个第一频率是否大于第一预设频率;获取大于第一预设频率的第一频率;以及将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。
进一步地,获取多个第一频率包括:分别计算多个分割语句的哈希值;以及分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。
进一步地,按照第一预设条件将待处理文本分割为多个分割语句包括:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:获取多个待处理细粒度语句的频率中的最大频率;以及根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。
进一步地,按照第一预设条件将待处理文本分割为多个分割语句包括:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:分别判断多个待处理细粒度语句的频率是否大于第二预设频率;获取大于第二预设频率的待处理细粒度语句的频率;以及根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。
为了实现上述目的,根据本发明的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的网页解析中网页正文重复内容的识别方法。
为了实现上述目的,根据本发明的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的网页解析中网页正文重复内容的识别方法。
为了实现上述目的,根据本发明的另一方面,提供了一种网页解析中网页正文重复内容的识别装置。该装置包括:第一获取单元,用于获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;分割单元,用于按照第一预设条件将待处理文本分割为多个分割语句;确定单元,用于确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;第二获取单元,用于获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及识别单元,用于根据多个第一频率识别网页解析中网页正文的重复内容。
进一步地,识别单元包括:第一判断模块,用于分别判断多个第一频率是否大于第一预设频率;第一获取模块,用于获取大于第一预设频率的第一频率;以及第一确定模块,用于将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。
进一步地,第二获取单元包括:计算模块,用于分别计算多个分割语句的哈希值;以及统计模块,用于分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。
进一步地,分割单元还包括:第一切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元还包括:第二确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。
进一步地,分割单元还包括:第二切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元还包括:第三确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元还包括:第二判断模块,用于分别判断多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。
在本发明实施例中,由于通过获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网页解析中网页正文重复内容的识别方法的流程图;以及
图2是根据本发明实施例的网页解析中网页正文重复内容的识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种网页解析中网页正文重复内容的识别方法。
图1是根据本发明实施例的网页解析中网页正文重复内容的识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本。
步骤S102,按照第一预设条件将待处理文本分割为多个分割语句。
将上述获取的待处理文本按照预设条件分割为多个分割语句。其中,该第一预设条件可以为特定的符号,例如,句号,逗号或者换行符等等,即按照待处理文本中某一特定符号将待处理文本分割为多个分割语句。
步骤S103,确定多个分割语句中的多个待处理语句。
将多个分割语句中内容相同的语句视为同一个待处理语句,确定多个分割语句中的多个待处理语句。
例如,待处理文本中包括:A,B,C,E,A,C,F等多个分割语句,将多个分割语句中内容相同的语句视为同一个待处理语句,即将重复出现的A视为同一待处理语句,将重复出现的C视为同一个待处理语句。确定多个分割语句中的多个待处理语句,即确定出A,B,C,E,F等多个待处理语句。
步骤S104,获取多个第一频率。
具体地,在上述步骤S104中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率。例如,待处理语句A在待处理文本中出现的频率为0.15,那么0.15即为待处理语句A在待处理文本中的第一频率。待处理语句B在待处理文本中出现的频率为0.35,那么0.35即为待处理语句B在待处理文本中的第一频率。
步骤S105,根据多个第一频率识别网页解析中网页正文的重复内容。
通过获取到的多个第一频率识别出网页解析中网页正文的重复内容有多种方式,例如,将多个第一频率中最大的频率对应的待处理语句视为网页解析中网页正文的重复内容,也可以将多个第一频率中超过某一阈值的频率对应的待处理语句视为网页解析中网页正文的重复内容。通过以上步骤,根据待处理语句在待处理文本中的频率来识别待处理文本中(即网页解析中网页正文)的重复内容,实现了能够识别出网页页面解析过程中网页正文是否含有重复内容,为后续网页正文的分析工作提前做好准备。
本发明实施例提供的网页解析中网页正文重复内容的识别方法,通过获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果,为后续网页正文的分析工作提前做好准备。
优选地,为了快速的识别网页解析中网页正文的重复内容,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,根据多个第一频率识别网页解析中网页正文的重复内容,还可以通过以下步骤实现:分别判断多个第一频率是否大于第一预设频率;获取大于第一预设频率的第一频率;以及将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。
通过以上步骤,快速的识别出网页解析中网页正文的重复内容,达到了提升识别出网页解析中网页正文的重复内容的效率。
可选地,为了提升获取多个第一频率的准确性,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的获取多个第一频率,还可以通过以下步骤实现:分别计算多个分割语句的哈希值;以及分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。
通过以上步骤,将每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率分别作为多个第一频率,保证了确定多个第一频率的准确性。在根据多个第一频率识别网页解析中网页正文的重复内容中,即根据多个待处理语句对应的哈希值出现的频率识别网页解析中网页正文的重复内容。
优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的按照第一预设条件将待处理文本分割为多个待处理语句,还可以通过以下步骤实现:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:获取多个待处理细粒度语句的频率中的最大频率;以及根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。
可选地,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的按照第一预设条件将待处理文本分割为多个待处理语句,还可以通过以下步骤实现:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:分别判断多个待处理细粒度语句的频率是否大于第二预设频率;获取大于第二预设频率的待处理细粒度语句的频率;以及根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。
具体地,设A,B,C,D,E,F……分别代表某一个待处理语句,多个待处理语句对应的文本可以表示成ABCDE……,而包含重复内容的待处理文本中则可以表示成ABCDABCEABCFABCGABC……,其中,ABC是网页正文的原文内容。D,E,F……是回复原文内容的评论。假设网页正文内容和非网页正文的内容都是由这样的细粒度组合而成,采用细粒度组合的处理方法,将待处理文本切分为多个细粒度语句,如,A,B,C,D,E……。统计分割后的多个细粒度语句在待处理文本中出现的频率。例如,“我早上吃了面包。吃了鸡蛋。还吃了香肠。真是丰盛。我早上吃了面包。吃了鸡蛋。还吃了香肠。真是羡慕……”,采用以句号进行分割的方式,进行分割后,得到:我早上吃了面包。吃了鸡蛋。还吃了香肠等多个语句。统计以句号分割后的多个语句在待处理文本中出现的频率,根据分割后的多个语句在待处理文本中出现的频率识别网页解析中网页正文的重复内容。
识别网页解析中网页正文的重复内容,可以通过以下步骤实现:确定多个第二频率中的最大频率,然后确定多个第二频率中的最大频率对应的细粒度语句,如确定出ABC为最大频率对应的细粒度语句。根据ABC识别网页解析中网页正文的重复内容。即识别出ABC为网页解析中网页正文的重复内容。
识别网页解析中网页正文的重复内容,还可以通过以下步骤实现:分别判断多个第二频率是否大于第二预设频率,获取大于第二预设频率的第二频率,如确定ABC在待处理文本中出现的频率大于第二预设频率,根据ABC识别网页解析中网页正文的重复内容。即识别出ABC为网页解析中网页正文的重复内容。
需要说明的是,本发明实施例提供的网页解析中网页正文重复内容的识别方法可以用于识别网页解析过程中网页正文中原文内容的重复段落,也可以用于识别网页解析过程中网页正文中原文内容的全文重复。
为了实现上述目的,根据本发明的另一方面,本发明实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的网页解析中网页正文重复内容的识别方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的网页解析中网页正文重复内容的识别方法。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例还提供了一种网页解析中网页正文重复内容的识别装置,需要说明的是,本发明实施例的网页解析中网页正文重复内容的识别装置可以用于执行本发明实施例所提供的用于网页解析中网页正文重复内容的识别方法。以下对本发明实施例提供的网页解析中网页正文重复内容的识别装置进行介绍。
图2是根据本发明实施例的网页解析中网页正文重复内容的识别装置的示意图。如图2所示,该装置包括:第一获取单元10、分割单元20、确定单元30、第二获取单元40和识别单元50。
第一获取单元10,用于获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本。
分割单元20,用于按照第一预设条件将待处理文本分割为多个分割语句。
确定单元30,用于确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句。
第二获取单元40,用于获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率。
识别单元50,用于根据多个第一频率识别网页解析中网页正文的重复内容。
本发明实施例提供的网页解析中网页正文重复内容的识别装置,由于通过第二获取单元40获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率,识别单元50根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果。
优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,识别单元50包括:第一判断模块,用于分别判断多个第一频率是否大于第一预设频率;第一获取模块,用于获取大于第一预设频率的第一频率;以及第一确定模块,用于将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。
可选地,为了提升获取多个第一频率的准确率,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,第二获取单元40还包括:计算模块,用于分别计算多个分割语句的哈希值;以及统计模块,用于分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。
优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,分割单元20还包括:第一切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元30还包括:第二确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元40还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元50还包括:第三获取模块,用于获取多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。
可选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,分割单元20还包括:第二切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元30还包括:第三确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元40还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元50还包括:第二判断模块,用于分别判断多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种网页解析中网页正文重复内容的识别方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本为网页页面解析中网页正文的文本;
按照第一预设条件将所述待处理文本分割为多个分割语句;
确定所述多个分割语句中的多个待处理语句,其中,所述多个分割语句中内容相同的语句为同一个待处理语句;
获取多个第一频率,其中,所述多个第一频率分别为所述多个待处理语句在所述待处理文本中出现的频率;以及
根据所述多个第一频率识别所述网页解析中网页正文的重复内容;
其中,根据所述多个第一频率识别所述网页解析中网页正文的重复内容包括:分别判断所述多个第一频率是否大于第一预设频率;获取大于所述第一预设频率的第一频率;以及将大于所述第一预设频率的第一频率对应的待处理语句作为所述网页解析中网页正文的重复内容;
其中,获取多个第一频率包括:分别计算所述多个分割语句的哈希值;以及分别统计每个所述待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到所述多个第一频率。
2.根据权利要求1所述的方法,其特征在于,
按照第一预设条件将所述待处理文本分割为多个分割语句包括:对所述待处理文本进行细粒度切分得到多个细粒度语句,
确定所述多个分割语句中的多个待处理语句包括:确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,
获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,
根据所述多个第一频率识别所述网页解析中网页正文的重复内容还包括:获取所述多个待处理细粒度语句的频率中的最大频率;以及
根据所述多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别所述网页解析中网页正文的重复内容。
3.根据权利要求1所述的方法,其特征在于,
按照第一预设条件将所述待处理文本分割为多个分割语句包括:对所述待处理文本进行细粒度切分得到多个细粒度语句,
确定所述多个分割语句中的多个待处理语句包括:确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,
获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,
根据所述多个第一频率识别所述网页解析中网页正文的重复内容还包括:分别判断所述多个待处理细粒度语句的频率是否大于第二预设频率;
获取大于所述第二预设频率的待处理细粒度语句的频率;以及
根据大于所述第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别所述网页解析中网页正文的重复内容。
4.一种网页解析中网页正文重复内容的识别装置,其特征在于,包括:
第一获取单元,用于获取待处理文本,其中,所述待处理文本为网页页面解析中网页正文的文本;
分割单元,用于按照第一预设条件将所述待处理文本分割为多个分割语句;
确定单元,用于确定所述多个分割语句中的多个待处理语句,其中,所述多个分割语句中内容相同的语句为同一个待处理语句;
第二获取单元,用于获取多个第一频率,其中,所述多个第一频率分别为所述多个待处理语句在所述待处理文本中出现的频率;以及
识别单元,用于根据所述多个第一频率识别所述网页解析中网页正文的重复内容;
其中,所述识别单元包括:第一判断模块,用于分别判断所述多个第一频率是否大于第一预设频率;第一获取模块,用于获取大于所述第一预设频率的第一频率;以及第一确定模块,用于将大于所述第一预设频率的第一频率对应的待处理语句作为所述网页解析中网页正文的重复内容;
其中,所述第二获取单元包括:计算模块,用于分别计算所述多个分割语句的哈希值;以及统计模块,用于分别统计每个所述待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到所述多个第一频率。
5.根据权利要求4所述的装置,其特征在于,
所述分割单元还包括:第一切分模块,用于对所述待处理文本进行细粒度切分得到多个细粒度语句,
所述确定单元还包括:第二确定模块,用于确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,
所述第二获取单元还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,
所述识别单元还包括:第三获取模块,用于获取所述多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据所述多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别所述网页解析中网页正文的重复内容。
6.根据权利要求4所述的装置,其特征在于,
所述分割单元还包括:第二切分模块,用于对所述待处理文本进行细粒度切分得到多个细粒度语句,
所述确定单元还包括:第三确定模块,用于确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,
所述第二获取单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,
所述识别单元还包括:第二判断模块,用于分别判断所述多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于所述第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于所述第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别所述网页解析中网页正文的重复内容。
CN201510419890.4A 2015-07-16 2015-07-16 网页解析中网页正文重复内容的识别方法及装置 Active CN106354730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510419890.4A CN106354730B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510419890.4A CN106354730B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的识别方法及装置

Publications (2)

Publication Number Publication Date
CN106354730A CN106354730A (zh) 2017-01-25
CN106354730B true CN106354730B (zh) 2019-12-10

Family

ID=57842356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510419890.4A Active CN106354730B (zh) 2015-07-16 2015-07-16 网页解析中网页正文重复内容的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106354730B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442803A (zh) * 2019-08-09 2019-11-12 网易传媒科技(北京)有限公司 由计算设备执行的数据处理方法、装置、介质和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671684B1 (en) * 2000-09-01 2003-12-30 Ricoh Co., Ltd. Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
CN101315622B (zh) * 2007-05-30 2010-06-09 香港中文大学 检测文件相似度的系统及方法
US8300917B2 (en) * 2007-11-29 2012-10-30 Wells Fargo Bank N.A. Remote deposit capture for the gaming industry
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN102779188B (zh) * 2012-06-29 2015-11-25 北京奇虎科技有限公司 文本消重系统和方法
US20140280147A1 (en) * 2013-03-15 2014-09-18 Knarig Arabshian Database ontology creation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置

Also Published As

Publication number Publication date
CN106354730A (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
US11397778B2 (en) Method and device for mining an enterprise relationship
US10645105B2 (en) Network attack detection method and device
US20150169511A1 (en) System and method for identifying floor of main body of webpage
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN110991171A (zh) 敏感词检测方法及装置
CN105022803A (zh) 一种提取网页正文内容的方法及系统
GB2576659A (en) Entity model establishment
US9507761B2 (en) Comparing webpage elements having asynchronous functionality
CN111782907B (zh) 新闻分类方法、装置及电子设备
CN102314520A (zh) 基于统计回溯定位的网页正文提取方法和装置
CN104750663B (zh) 页面中文本乱码的识别方法及装置
CN108073589B (zh) 网页页面元素的获取方法及装置
CN106354730B (zh) 网页解析中网页正文重复内容的识别方法及装置
CN108694192B (zh) 网页类型的判断方法及装置
CN111966901B (zh) 政策类网页正文提取方法、系统、设备及存储介质
US10559223B2 (en) Food description processing methods and apparatuses
CN111160445B (zh) 投标文件相似度计算方法及装置
CN106339381B (zh) 一种信息处理方法及装置
CN106919603B (zh) 计算查询词模式中分词权重的方法和装置
CN110795933A (zh) 一种网页正文的识别处理方法及装置
CN115841334A (zh) 异常账户识别方法和装置、电子设备及存储介质
CN106708816B (zh) 网页解析中网页正文重复内容的处理方法及装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN111367962B (zh) 数据库的更新方法及装置、计算机可读存储介质、电子设备
CN108491414A (zh) 一种融合话题特征的新闻内容在线抽取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant