CN107193870B - 网页内容的提取方法和系统 - Google Patents

网页内容的提取方法和系统 Download PDF

Info

Publication number
CN107193870B
CN107193870B CN201710236399.7A CN201710236399A CN107193870B CN 107193870 B CN107193870 B CN 107193870B CN 201710236399 A CN201710236399 A CN 201710236399A CN 107193870 B CN107193870 B CN 107193870B
Authority
CN
China
Prior art keywords
content
target
uniform resource
resource locator
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710236399.7A
Other languages
English (en)
Other versions
CN107193870A (zh
Inventor
陈鹏
林少刚
张伟力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Infinite Information Technology Co ltd
Original Assignee
Guangdong Infinite Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Infinite Information Technology Co ltd filed Critical Guangdong Infinite Information Technology Co ltd
Priority to CN201710236399.7A priority Critical patent/CN107193870B/zh
Publication of CN107193870A publication Critical patent/CN107193870A/zh
Application granted granted Critical
Publication of CN107193870B publication Critical patent/CN107193870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网页内容的提取方法和系统,上述网页内容的提取方法,包括:从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。其在剔除相应URL对应的目标区域内容中过滤内容的基础上,可以保证对相应网页内容的提取效率。

Description

网页内容的提取方法和系统
技术领域
本发明涉及互联网技术领域,特别是涉及一种网页内容的提取方法和系统。
背景技术
在智能语义知识图谱项目等互联网技术领域中,经常需要对采集的内容进行过滤、筛选或者敏感内容拦截等操作,再提取经过过滤、筛选或者拦截处理之后的内容,以保证用户所获取的网页内容的质量。
传统方案中,在对网页内容进行提取时,需要采用人工过滤的方式对采集到的内容进行甄别,以剔除相应网页中的广告内容、重复内容、有敏感信息内容等等,这样容易导致网页内容的提取效率低。
发明内容
基于此,有必要针对传统方案容易导致网页内容的提取效率低的技术问题,提供一种网页内容的提取方法和系统。
一种网页内容的提取方法,包括:
从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;
根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;
利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。
一种网页内容的提取系统,包括:
读取模块,用于从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;
第一提取模块,用于根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
剔除模块,用于根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;
更新模块,用于利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
第二提取模块,用于在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。
上述网页内容的提取方法和系统,可以从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页,从目标网页显示内容中提取目标区域内容,对所述目标区域内容进行过滤,剔除过滤内容,以更新上述目标区域的目标网页,将其保存在相应的数据库中;并在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,实现上述目标网页页面内容的获取,在剔除上述目标区域内容中广告内容、重复内容、有敏感信息内容等过滤内容的基础上,可以保证对相应网页内容的提取效率。
附图说明
图1为一个实施例的网页内容的提取方法流程图;
图2为一个实施例的网页内容的提取系统结构示意图。
具体实施方式
下面结合附图对本发明的网页内容的提取方法和系统的具体实施方式作详细描述。
参考图1,图1所示为一个实施例的网页内容的提取方法流程图,包括如下步骤:
S10,从预设的待爬取队列(待爬取URL队列)中读取目标统一资源定位符(URL,Uniform Resource Locator),下载目标统一资源定位符对应的目标网页;
在计算机等智能设备读取到用户输入的URL时,可以将上述URL存入预设的待爬取队列;这样,上述待爬取队列内存放若干个用户预备访问的URL。这时,可以从上述待爬取队列中选择一个URL,将其确定为目标URL。可选地,上述目标URL可以确定为待爬取队列中的首个URL。若上述待爬取队列中所存放的URL具有重要性标识符,则可以将其中重要性程度最高的URL确定为目标URL。
S20,根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
上述步骤中,可以从目标URL中读取目标网页上的目标区域。还可以在用户输入URL之后,继续读取用户针对该URL所输入的目标区域标识参数(如区域名称或者区域坐标范围等),根据上述目标区域标识参数确定用户在该URL对应的网页上所选择的目标区域。
S30,根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;
上述过滤规则可以包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则等,其可以根据目标URL的相关特征以及相应用户的访问需求预先设置。根据上述过滤规则对目标区域内容进行过滤,得到区域更新内容,使上述区域更新内容中不包括重复内容、广告内容和/或敏感内容(存在敏感信息的内容)。
S40,利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
根据区域更新内容更新所述目标区域的目标网页,使目标网页中目标区域的内容不包括重复内容、广告内容和/或敏感内容,在将上述目标网页保存在本地的数据库中后,用户在上述目标URL对应的网页没有在服务器端被重新编辑之前,对上述目标URL进行访问,所获取的网页内容便为对目标区域内容进行过滤处理后的网页内容。
S50,在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。
上述步骤在接收到用户对所述目标统一资源定位符的访问请求时,便可以根据上述访问请求从所述数据库中提取更新后的目标网页,获取相应目标网页的页面内容,这样便能快速从本地的数据库中提取对目标区域内容进行过滤处理后的网页内容供用户访问。
本实施例提供的网页内容的提取方法,可以从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页,从目标网页显示内容中提取目标区域内容,对所述目标区域内容进行过滤,剔除过滤内容,以更新上述目标区域的目标网页,将其保存在相应的数据库中;并在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,实现上述目标网页页面内容的获取,在剔除上述目标区域内容中广告内容、重复内容、有敏感信息内容等过滤内容的基础上,可以保证对相应网页内容的提取效率。
在一个实施例中,上述从预设的待爬取队列中读取目标统一资源定位符的过程可以包括:
读取用户输入的统一资源定位符,将所述统一资源定位符存入待爬取队列;
从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符。
用户在本地输入URL之后,上述URL首先存入上述待爬取队列,这样,URL在上述待爬取队列可以被确定为目标URL,在确定为目标URL后,便可以对其目标区域的目标区域内容进行过滤处理,更新相应的网页内容,使用户可以从保存更新后的目标网页的数据库中快速对过滤处理后的网页内容进行访问。
可选地,在读取用户输入的统一资源定位符之前,可以预先设置待爬取队列,以及已爬取队列。上述待爬取队列用于存储需要对其网页内容进行过滤处理的URL,上述已爬取队列用于存储已对相应的网页内容进行过滤处理后的URL。可选的,若已爬取队列中存放的某个URL为时效性要求较高的URL,则在一定时间后,可以将该URL移动至待爬取队列,使其在待爬取队列中重新被确定为目标URL,以对其网页内容重新进行过滤处理。
作为一个实施例,上述从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符的过程之后,还可以包括:
读取用户分别针对各个统一资源定位符输入的区域标识参数,在所述待爬取队列建立所述统一资源定位符与区域标识参数的对应关系;
在选取目标统一资源定位符时,获取所述目标统一资源定位符对应的区域标识参数,根据所述区域标识参数确定用户在所述目标网页上选择的目标区域。
本实施例可以读取用户分别针对各个统一资源定位符输入的区域标识参数(如区域名称或者区域坐标范围等参数),并在所述待爬取队列建立所述统一资源定位符与区域标识参数的对应关系,以便在选取目标统一资源定位符时,获取所述目标统一资源定位符对应的区域标识参数,从而可以根据所述区域标识参数确定用户在所述目标网页上选择的目标区域,以保证所选择的目标区域的准确性。
在一个实施例中,上述根据预设的过滤规则对所述目标区域内容进行过滤的过程可以包括:
在所述目标内容中识别重复内容、广告内容和/或敏感内容,将识别得到的重复内容、广告内容和/或敏感内容确定为过滤内容。
作为一个实施例,上述在所述目标内容中识别重复内容的过程包括:
在所述目标内容中,将任意相邻两个标点符号之间的内容确定为目标字段,在所述目标字段中识别多组相同的重复字段;将各组重复字段中除第一个字段以外的各个字段确定为重复内容。
上述重复字段为文字完全相同的字段(包括字数,相同字词在字段中的位置等等)。
本实施例可以对目标内容中各组相同的重复字段进行识别,将各组重复字段中除第一个字段以外的各个字段确定为重复内容,即仅在目标内容中保留各组重复字段中的一个字段,以避免该字段在上述目标内容中重复出现,可以使上述目标内容更为简洁,提高后续用户对该目标内容进行访问时的信息获取效率。
作为一个实施例,上述在所述目标内容中识别广告内容和/或敏感内容的过程包括:
在所述目标内容中根据预设的广告字词库识别广告字段,将所述广告字段所在的语句确定为广告内容;
和/或,
在所述目标内容中根据预设的敏感字词库识别敏感字段,将所述敏感字段所在的语句确定为敏感内容。
上述广告字词库可以根据常见的商家名、广告术语以及相关宣传链接建立。通常情况下,上述广告字词库可以包括商家名、宣传频率较高的商品名以及购物链接等等。若目标内容中的某个字段与上述广告字词库中存储的某一字词或者网络链接完全一致,则可以将目标内容中的该字段确定为广告字段,那么包括上述广告字段的语句极有可能为广告内容,将上述广告内容进行过滤(剔除)后,可以避免该广告内容对相应目标内容造成的干扰。
上述敏感字词库可以根据相应URL所处环境中的相关规定以及上述URL针对的用户群特征确定。通常情况下,上述敏感字词库可以包括被禁止出现的字词,以及出现之后可能使上述URL所针对的用户明显不适的字词。上述敏感字词库可以根据相关规定以及用户需求进行更新,具体地,可以将敏感字词库记录的字词进行移除,也可以向上述敏感字词库添加新的字词。若目标内容中的某个字段与上述敏感字词库中存储的某一字词完全一致,则可以将目标内容中的该字段确定为敏感字段,那么包括上述敏感字段的语句极有可能为包括敏感信息的敏感内容,将上述敏感内容进行过滤后,可以避免该敏感内容对相应目标内容造成的干扰。
在一个实施例中,上述在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容的过程之后,还可以包括:
将当前的目标统一资源定位符从所述待爬取队列移动至已爬取队列,并从所述待爬取队列存储的统一资源定位符中重新选取目标统一资源定位符。
本实施例在对当前的目标URL对应的目标网页中目标区域内的目标区域内容进行过滤处理,将目标区域进行过滤处理后的目标网页保存在数据库中后,将当前的目标URL从所述待爬取队列移动至已爬取队列,表面该URL对于的网页内容已经进行过滤;再继续从待爬取队列存储的URL中重新选取其他URL作为目标URL,以对下载重新选取后的目标URL对应的目标网页,从目标网页显示内容中提取相应目标区域对应的目标区域内容,对目标区域内容进行过滤,得到区域更新内容,再利用区域更新内容更新所述目标区域的目标网页,保存在数据库中,以便在接收到用户对新的目标URL的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容;再将上述目标URL存入已读取队列,重新从待读取队列中选取目标URL。以此循环执行在对当前的目标URL对应的网页内容完成过滤处理后,将其移动至已读取队列,重新从待读取队列中选取目标URL,对上述目标URL对应的网页内容进行过滤处理的过程,直至对上述待爬取队列中的所有URL对应的网页内容实现过滤处理。
作为一个实施例,上述网页内容的提取方法,还可以包括:
识别所述已爬取队列中各个统一资源定位符对应的网页内容在设定时间段被编辑的频率;
获取被编辑频率大于频率阈值的网页内容所对应的统一资源定位符,得到高频更新资源定位符(高频更新URL);
将所述高频更新资源定位符从所述已爬取队列移动至待爬取队列。
上述设定时间段可以根据相应及时性要求高的网页(如时事新闻网页等)的更新特征进行确定,如确定为某一天或者当前时刻的前5个小时等时间段。上述频率阈值可以根据及时性要求高的网页的相关更新特征进行确定,比如设置为5或者4等值。
某URL对应的网页内容在设定时间段被编辑的频率大于频率阈值,表明该URL对于的网页内容在相应服务器端被编辑的频率较高(相应的及时性要求高),在对该URL对应的网页内容进行过滤处理后,其网页内容有可能在服务器端被相关工作人员重新编辑,此时需要对重新编辑之后的网页内容再次进行过滤处理,以保证上述过滤处理的有效性。
本实施例将已爬取队列中,网页内容被编辑的频率较高,即及时性要求高的高频更新URL移动至待爬取队列,使上述高频更新URL重新在待爬取队列中被确定为目标URL,对其对应的网页内容重新信息过滤处理,可以进一步保证对网页内容进行过滤处理的效果,从而提高了网页内容的提取效果。
参考图2所示,图2所示为一个实施例的网页内容的提取系统结构示意图,包括:
读取模块10,用于从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;
在计算机等智能设备读取到用户输入的URL时,可以将上述URL存入预设的待爬取队列;这样,上述待爬取队列内存放若干个用户预备访问的URL。这时,可以从上述待爬取队列中选择一个URL,将其确定为目标URL。可选地,上述目标URL可以确定为待爬取队列中的首个URL。若上述待爬取队列中所存放的URL具有重要性标识符,则可以将其中重要性程度最高的URL确定为目标URL。
第一提取模块20,用于根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
上述第一提取模块中,可以从目标URL中读取目标网页上的目标区域。还可以在用户输入URL之后,继续读取用户针对该URL所输入的目标区域标识参数(如区域名称或者区域坐标范围等),根据上述目标区域标识参数确定用户在该URL对应的网页上所选择的目标区域。
剔除模块30,用于根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;
上述过滤规则可以包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则等,其可以根据目标URL的相关特征以及相应用户的访问需求预先设置。根据上述过滤规则对目标区域内容进行过滤,得到区域更新内容,使上述区域更新内容中不包括重复内容、广告内容和/或敏感内容(存在敏感信息的内容)。
更新模块40,用于利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
根据区域更新内容更新所述目标区域的目标网页,使目标网页中目标区域的内容不包括重复内容、广告内容和/或敏感内容,在将上述目标网页保存在本地的数据库中后,用户在上述目标URL对应的网页没有在服务器端被重新编辑之前,对上述目标URL进行访问,所获取的网页内容便为对目标区域内容进行过滤处理后的网页内容。
第二提取模块50,用于在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。
上述第二提取模块中,在接收到用户对所述目标统一资源定位符的访问请求时,便可以根据上述访问请求从所述数据库中提取更新后的目标网页,获取相应目标网页的页面内容,这样便能快速从本地的数据库中提取对目标区域内容进行过滤处理后的网页内容供用户访问。
本实施例提供的网页内容的提取系统,可以从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页,从目标网页显示内容中提取目标区域内容,对所述目标区域内容进行过滤,剔除过滤内容,以更新上述目标区域的目标网页,将其保存在相应的数据库中;并在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,实现上述目标网页页面内容的获取,在剔除上述目标区域内容中广告内容、重复内容、有敏感信息内容的基础上,可以保证对相应网页内容的提取效率。
在一个实施例中,上述读取模块进一步用于:
读取用户输入的统一资源定位符,将所述统一资源定位符存入待爬取队列;
从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符。
用户在本地输入URL之后,上述URL首先存入上述待爬取队列,这样,URL在上述待爬取队列可以被确定为目标URL,在确定为目标URL后,便可以对其目标区域的目标区域内容进行过滤处理,更新相应的网页内容,使用户可以从保存更新后的目标网页的数据库中快速对过滤处理后的网页内容进行访问。
可选地,在读取用户输入的统一资源定位符之前,可以预先设置待爬取队列,以及已爬取队列。上述待爬取队列用于存储需要对其网页内容进行过滤处理的URL,上述已爬取队列用于存储已对相应的网页内容进行过滤处理后的URL。可选的,若已爬取队列中存放的某个URL为时效性要求较高的URL,则在一定时间后,可以将该URL移动至待爬取队列,使其在待爬取队列中重新被确定为目标URL,以对其网页内容重新进行过滤处理。
作为一个实施例,上述读取模块进一步用于:
读取用户分别针对各个统一资源定位符输入的区域标识参数,在所述待爬取队列建立所述统一资源定位符与区域标识参数的对应关系;
在选取目标统一资源定位符时,获取所述目标统一资源定位符对应的区域标识参数,根据所述区域标识参数确定用户在所述目标网页上选择的目标区域。
本实施例可以读取用户分别针对各个统一资源定位符输入的区域标识参数(如区域名称或者区域坐标范围等参数),并在所述待爬取队列建立所述统一资源定位符与区域标识参数的对应关系,以便在选取目标统一资源定位符时,获取所述目标统一资源定位符对应的区域标识参数,从而可以根据所述区域标识参数确定用户在所述目标网页上选择的目标区域,以保证所选择的目标区域的准确性。
在一个实施例中,上述剔除模块可以进一步用于:
在所述目标内容中识别重复内容、广告内容和/或敏感内容,将识别得到的重复内容、广告内容和/或敏感内容确定为过滤内容。
作为一个实施例,上述剔除模块可以进一步用于:
在所述目标内容中,将任意相邻两个标点符号之间的内容确定为目标字段,在所述目标字段中识别多组相同的重复字段;将各组重复字段中除第一个字段以外的各个字段确定为重复内容。
上述重复字段为文字完全相同的字段(包括字数,相同字词在字段中的位置等等)。
本实施例可以对目标内容中各组相同的重复字段进行识别,将各组重复字段中除第一个字段以外的各个字段确定为重复内容,即仅在目标内容中保留各组重复字段中的一个字段,以避免该字段在上述目标内容中重复出现,可以使上述目标内容更为简洁,提高后续用户对该目标内容进行访问时的信息获取效率。
作为一个实施例,上述剔除模块可以进一步用于:
在所述目标内容中根据预设的广告字词库识别广告字段,将所述广告字段所在的语句确定为广告内容;
和/或,
在所述目标内容中根据预设的敏感字词库识别敏感字段,将所述敏感字段所在的语句确定为敏感内容。
上述广告字词库可以根据常见的商家名、广告术语以及相关宣传链接建立。通常情况下,上述广告字词库可以包括商家名、宣传频率较高的商品名以及购物链接等等。若目标内容中的某个字段与上述广告字词库中存储的某一字词或者网络链接完全一致,则可以将目标内容中的该字段确定为广告字段,那么包括上述广告字段的语句极有可能为广告内容,将上述广告内容进行过滤(剔除)后,可以避免该广告内容对相应目标内容造成的干扰。
上述敏感字词库可以根据相应URL所处环境中的相关规定以及上述URL针对的用户群特征确定。通常情况下,上述敏感字词库可以包括被禁止出现的字词,以及出现之后可能使上述URL所针对的用户明显不适的字词。上述敏感字词库可以根据相关规定以及用户需求进行更新,具体地,可以将敏感字词库记录的字词进行移除,也可以向上述敏感字词库添加新的字词。若目标内容中的某个字段与上述敏感字词库中存储的某一字词完全一致,则可以将目标内容中的该字段确定为敏感字段,那么包括上述敏感字段的语句极有可能为包括敏感信息的敏感内容,将上述敏感内容进行过滤后,可以避免该敏感内容对相应目标内容造成的干扰。
在一个实施例中,上述网页内容的提取系统,还可以包括:
第一移动模块,用于将当前的目标统一资源定位符从所述待爬取队列移动至已爬取队列,并从所述待爬取队列存储的统一资源定位符中重新选取目标统一资源定位符。
本实施例在对当前的目标URL对应的目标网页中目标区域内的目标区域内容进行过滤处理,将目标区域进行过滤处理后的目标网页保存在数据库中后,将当前的目标URL从所述待爬取队列移动至已爬取队列,表面该URL对于的网页内容已经进行过滤;再继续从待爬取队列存储的URL中重新选取其他URL作为目标URL,以对下载重新选取后的目标URL对应的目标网页,从目标网页显示内容中提取相应目标区域对应的目标区域内容,对目标区域内容进行过滤,得到区域更新内容,再利用区域更新内容更新所述目标区域的目标网页,保存在数据库中,以便在接收到用户对新的目标URL的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容;再将上述目标URL存入已读取队列,重新从待读取队列中选取目标URL。以此循环执行在对当前的目标URL对应的网页内容完成过滤处理后,将其移动至已读取队列,重新从待读取队列中选取目标URL,对上述目标URL对应的网页内容进行过滤处理的过程,直至对上述待爬取队列中的所有URL对应的网页内容实现过滤处理。
作为一个实施例,上述网页内容的提取系统,还可以包括:
识别模块,用于识别所述已爬取队列中各个统一资源定位符对应的网页内容在设定时间段被编辑的频率;
获取模块,用于获取被编辑频率大于频率阈值的网页内容所对应的统一资源定位符,得到高频更新资源定位符;
第二移动模块,用于将所述高频更新资源定位符从所述已爬取队列移动至待爬取队列。
上述设定时间段可以根据相应及时性要求高的网页(如时事新闻网页等)的更新特征进行确定,如确定为某一天或者当前时刻的前5个小时等时间段。上述频率阈值可以根据及时性要求高的网页的相关更新特征进行确定,比如设置为5或者4等值。
某URL对应的网页内容在设定时间段被编辑的频率大于频率阈值,表明该URL对于的网页内容在相应服务器端被编辑的频率较高(相应的及时性要求高),在对该URL对应的网页内容进行过滤处理后,其网页内容有可能在服务器端被相关工作人员重新编辑,此时需要对重新编辑之后的网页内容再次进行过滤处理,以保证上述过滤处理的有效性。
本实施例将已爬取队列中,网页内容被编辑的频率较高,即及时性要求高的高频更新URL移动至待爬取队列,使上述高频更新URL重新在待爬取队列中被确定为目标URL,对其对应的网页内容重新信息过滤处理,可以进一步保证对网页内容进行过滤处理的效果,从而提高了网页内容的提取效果。
本发明提供的网页内容的提取系统与本发明提供的网页内容的提取方法一一对应,在所述网页内容的提取方法的实施例阐述的技术特征及其有益效果均适用于网页内容的提取系统的实施例中,特此声明。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网页内容的提取方法,其特征在于,包括:
读取用户输入的统一资源定位符,将所述统一资源定位符存入待爬取队列;
从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;
根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;所述预设的过滤规则包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则;所述预设的过滤规则根据所述目标网页的内容以及所述用户的访问需求预先设置;
利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容;
还包括:
识别已爬取队列中各个统一资源定位符对应的网页内容在设定时间段被编辑的频率;
获取被编辑频率大于频率阈值的网页内容所对应的统一资源定位符,得到高频更新资源定位符;
将所述高频更新资源定位符从所述已爬取队列移动至待爬取队列;
对所述高频更新资源定位符对应的网页内容重新进行过滤处理。
2.根据权利要求1所述的网页内容的提取方法,其特征在于,所述从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符的过程包括:
将所述待爬取队列中的首个统一资源定位符,确定为目标统一资源定位符;
或者,将所述待爬取队列中的具有重要性标识符且重要性程度最高的统一资源定位符,确定为目标统一资源定位符。
3.根据权利要求1所述的网页内容的提取方法,其特征在于,所述从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符的过程之后,还包括:
读取用户分别针对各个统一资源定位符输入的区域标识参数,在所述待爬取队列建立所述统一资源定位符与区域标识参数的对应关系;
在选取目标统一资源定位符时,获取所述目标统一资源定位符对应的区域标识参数,根据所述区域标识参数确定用户在所述目标网页上选择的目标区域。
4.根据权利要求1至3任一项所述的网页内容的提取方法,其特征在于,所述根据预设的过滤规则对所述目标区域内容进行过滤的过程包括:
在所述目标内容中识别重复内容、广告内容和/或敏感内容,将识别得到的重复内容、广告内容和/或敏感内容确定为过滤内容;其中,
所述在所述目标内容中识别重复内容的过程包括:
在所述目标内容中,将任意相邻两个标点符号之间的内容确定为目标字段,在所述目标字段中识别多组相同的重复字段;将各组重复字段中除第一个字段以外的各个字段确定为重复内容。
5.根据权利要求4所述的网页内容的提取方法,其特征在于,所述在所述目标内容中识别广告内容和/或敏感内容的过程包括:
在所述目标内容中根据预设的广告字词库识别广告字段,将所述广告字段所在的语句确定为广告内容;
和/或,
在所述目标内容中根据预设的敏感字词库识别敏感字段,将所述敏感字段所在的语句确定为敏感内容。
6.根据权利要求1至3任一项的网页内容的提取方法,其特征在于,所述在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容的过程之后,还包括:
将当前的目标统一资源定位符从所述待爬取队列移动至已爬取队列,并从所述待爬取队列存储的统一资源定位符中重新选取目标统一资源定位符。
7.根据权利要求1的网页内容的提取方法,其特征在于,所述频率阈值为4或5。
8.一种网页内容的提取系统,其特征在于,包括:
读取模块,用于读取用户输入的统一资源定位符,将所述统一资源定位符存入待爬取队列;从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符,下载目标统一资源定位符对应的目标网页;
第一提取模块,用于根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;
剔除模块,用于根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;所述预设的过滤规则包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则;所述预设的过滤规则根据所述目标网页的内容以及所述用户的访问需求预先设置;
更新模块,用于利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;
第二提取模块,用于在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容;
识别模块,用于识别已爬取队列中各个统一资源定位符对应的网页内容在设定时间段被编辑的频率;
获取模块,用于获取被编辑频率大于频率阈值的网页内容所对应的统一资源定位符,得到高频更新资源定位符;
第二移动模块,用于将所述高频更新资源定位符从所述已爬取队列移动至待爬取队列;对所述高频更新资源定位符对应的网页内容重新进行过滤处理。
9.根据权利要求8所述的网页内容的提取系统,其特征在于,所述读取模块进一步用于:
读取用户输入的统一资源定位符,将所述统一资源定位符存入待爬取队列;
从所述待爬取队列存储的统一资源定位符中选取目标统一资源定位符。
10.根据权利要求8所述的网页内容的提取系统,其特征在于,所述剔除模块进一步用于:
在所述目标内容中识别重复内容、广告内容和/或敏感内容,将识别得到的重复内容、广告内容和/或敏感内容确定为过滤内容。
CN201710236399.7A 2017-04-12 2017-04-12 网页内容的提取方法和系统 Active CN107193870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710236399.7A CN107193870B (zh) 2017-04-12 2017-04-12 网页内容的提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710236399.7A CN107193870B (zh) 2017-04-12 2017-04-12 网页内容的提取方法和系统

Publications (2)

Publication Number Publication Date
CN107193870A CN107193870A (zh) 2017-09-22
CN107193870B true CN107193870B (zh) 2020-12-04

Family

ID=59871079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710236399.7A Active CN107193870B (zh) 2017-04-12 2017-04-12 网页内容的提取方法和系统

Country Status (1)

Country Link
CN (1) CN107193870B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967290A (zh) * 2017-10-09 2018-04-27 国家计算机网络与信息安全管理中心 一种基于海量科研资料的知识图谱网络构建方法及系统、介质
CN108090809A (zh) * 2017-12-18 2018-05-29 赣州欧唯科技有限公司 一种手机贴膜选择方法、系统、介质及设备
CN109902243A (zh) * 2019-03-04 2019-06-18 广州博士信息技术研究院有限公司 一种带有初次筛选功能的数据过滤挖掘方法
CN110929128A (zh) * 2019-12-11 2020-03-27 北京启迪区块链科技发展有限公司 一种数据爬取方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982069A (zh) * 2012-10-25 2013-03-20 北京奇虎科技有限公司 推荐数据显示方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7401072B2 (en) * 2003-06-10 2008-07-15 Google Inc. Named URL entry
US8037093B2 (en) * 2006-09-12 2011-10-11 Facebook, Inc. Feeding updates to landing pages of users of an online social network from external sources
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN103838728B (zh) * 2012-11-21 2018-01-09 腾讯科技(深圳)有限公司 网页信息的处理方法及浏览器
US9679062B2 (en) * 2013-09-18 2017-06-13 Excalibur Ip, Llc Local recommendation engine
CN104008131B (zh) * 2014-04-30 2018-07-13 广州市动景计算机科技有限公司 一种网页数据处理方法及装置
CN106033450B (zh) * 2015-03-17 2020-02-14 中兴通讯股份有限公司 一种广告拦截的方法、装置和浏览器
CN106326316B (zh) * 2015-07-08 2022-11-29 腾讯科技(深圳)有限公司 一种网页广告过滤方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982069A (zh) * 2012-10-25 2013-03-20 北京奇虎科技有限公司 推荐数据显示方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Nutch的学术搜索引擎的研究与实现;夏树倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140715;I138-982 *

Also Published As

Publication number Publication date
CN107193870A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107193870B (zh) 网页内容的提取方法和系统
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103646078B (zh) 一种实现互联网宣传监测目标评估的方法及装置
WO2018001078A1 (zh) 一种url匹配方法、装置及存储介质
CN105373590A (zh) 知识数据的处理方法及装置
CN108494728B (zh) 防止流量劫持的黑名单库创建方法、装置、设备及介质
CN106250402B (zh) 一种网站分类方法及装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN108255870B (zh) 一种网站数据爬取方法及装置
CN106611029B (zh) 提高网站站内搜索效率的方法和装置
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置
CN107590233B (zh) 一种文件管理方法及装置
CN106897297B (zh) 网站栏目间访问路径的确定方法及装置
CN110825947B (zh) Url去重方法、装置、设备与计算机可读存储介质
JP2012129982A (ja) 推定装置、推定方法、並びにプログラム
CN113806647A (zh) 识别开发框架的方法及相关设备
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
CN104408188B (zh) 数据处理方法和装置
CN116166867A (zh) 用于网络采集的内容过滤方法、装置、设备及存储介质
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN104636384B (zh) 一种处理文档的方法及装置
CN108228609B (zh) 信息过滤方法和装置
CN102902737B (zh) 一种网络图像自主收集与筛选方法
CN106815247B (zh) 统一资源定位符获取方法及装置
CN107577667A (zh) 一种实体词处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant