CN106021582B - 位置信息过滤的方法、提取有效网页信息的方法及装置 - Google Patents

位置信息过滤的方法、提取有效网页信息的方法及装置 Download PDF

Info

Publication number
CN106021582B
CN106021582B CN201610387640.1A CN201610387640A CN106021582B CN 106021582 B CN106021582 B CN 106021582B CN 201610387640 A CN201610387640 A CN 201610387640A CN 106021582 B CN106021582 B CN 106021582B
Authority
CN
China
Prior art keywords
information
webpage
website
group
webpages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610387640.1A
Other languages
English (en)
Other versions
CN106021582A (zh
Inventor
马莘权
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610387640.1A priority Critical patent/CN106021582B/zh
Publication of CN106021582A publication Critical patent/CN106021582A/zh
Application granted granted Critical
Publication of CN106021582B publication Critical patent/CN106021582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种位置信息过滤的方法,包括:针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,针对同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,同一位置为同一位置信息所标记的位置;针对每种类型,过滤掉次数小于预设阈值的位置信息,得到每种类型信息块的有效位置信息。本发明实施例提供的位置信息过滤的方法,可以过滤掉网页中各种类型信息块的不合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。

Description

位置信息过滤的方法、提取有效网页信息的方法及装置
技术领域
本发明涉及信息处理技术领域,具体涉及一种位置信息过滤的方法、从网页中提取有效网页信息的方法、相关装置及系统。
背景技术
当前因特网上的各种网页中,通常都伴随有大量的广告和无关链接。尤其是例如小说等用户阅读类的网页,大量的广告和无关链接不仅浪费流量,还给用户带来了很大的干扰。
若能提取出网页中的有用信息,排除干扰,就可以避免流量浪费和用户干扰问题。
提取出网页中有用信息的关键是要确定这些有用信息的位置,现有技术中通常都是由人工定位,人工定位虽然准确度高,但是效率低下。
发明内容
为了解决现有技术中网页中干扰信息过多的问题,本发明实施例提供一种位置信息过滤的方法,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。本发明实施例还提供了从网页中提取有效网页信息的方法,相应装置及系统。
本发明第一方面提供一种位置信息过滤的方法,包括:
针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;
针对同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
针对每种类型,过滤掉所述次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
本发明第二方面提供一种从网页中提取有效网页信息的方法,包括:
接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;
根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
向所述终端设备发送所述应输出的网页。
本发明第三方面提供一种位置信息过滤的装置,包括:
分组单元,用于针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;
确定单元,用于针对所述分组单元分组后的同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
过滤单元,用于针对每种类型,过滤掉所述确定单元所确定的次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
本发明第四方面提供一种从网页中提取有效网页信息的装置,包括:
接收单元,用于接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
确定单元,用于根据所述接收单元接收的所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;
提取单元,用于根据所述确定单元确定的所述所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
发送单元,用于向所述终端设备发送所述提取单元得到的所述应输出的网页。
本发明第五方面提供一种网页处理系统,包括:终端设备和服务器,
所述终端设备用于向所述服务器发送网页请求,所述网页请求中携带所请求网页的网址信息;
所述服务器用于:
在接收终端设备发送的网页请求后,根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;
根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
向所述终端设备发送所述应输出的网页;
所述终端设备还用于显示从所述服务器接收到的所述应输出的网页。
与现有技术中要实现网页中有用信息的提取,只能依靠人工定位网页中的有用信息块的位置信息相比,本发明实施例提供一种位置信息过滤的方法,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中位置信息过滤的方法的一实施例示意图;
图2是本发明实施例中网页分组的一示例图;
图3是本发明实施例中网页分组的另一示例图;
图4是本发明实施例中网页处理系统的一实施例示意图;
图5是本发明实施例中从网页中提取有效网页信息的方法的一实施例示意图;
图6是本发明实施例中位置信息过滤的装置的一实施例示意图;
图7是本发明实施例中位置信息过滤的装置的另一实施例示意图;
图8是本发明实施例中从网页中提取有效网页信息的装置的一实施例示意图;
图9是本发明实施例中从网页中提取有效网页信息的装置的另一实施例示意图;
图10是本发明实施例中服务器的一实施例示意图。
具体实施方式
本发明实施例提供一种位置信息过滤的方法,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。本发明实施例还提供了从网页中提取有效网页信息的方法,相应装置及系统。以下分别进行详细说明。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
网页中通常都会包括一些与网页主体内容无关的干扰信息,这些干扰信息例如可以是广告,以及一些无关连接等。
要排除这些干扰信息,就需要准确定位出网页中各类型信息块的位置,网页中各类型的信息块,以文本类网页为例,可以包括正文、标题、目录和简介等几种类型的信息块。
针对各类型信息块的位置信息,本发明实施例提供了一种位置信息过滤的方法,可以将相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征,然后针对同一组中的网页进行处理,得到该分组中每种类型信息块的有效位置信息。关键特征可以是网页中的标题,每个网页都会有标题。因为是对大量的网页进行处理得到的,所以这种方案得到的有效位置信息的准确度非常高。
结合上述方案得到的有效位置信息,本发明实施例还提供了一种从网页中提取有效网页信息的方法,可以为用户所请求的网页进行干扰信息排除处理,只向用户输出有效网页信息,这样在终端设备中展示出的网页就是只包含有效网页信息的网页,不光节省了用户侧的流量,还不会对用户造成干扰,提供了用户与网页沟通的效率。
本发明实施例中位置信息过滤的方法是在服务器端完成的,服务器可以是一个独立的物理主机,也可以是一个主机集群,或者在硬件资源池中通过配置虚拟机的方式配置的虚拟机。
图1为本发明实施例中位置信息过滤的方法的一实施例示意图。
参与图1,本发明实施例中位置信息过滤的方法的一实施例包括:
101、针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组。
其中,关键特征为每个网页中都包含的特征。
网址信息包括统一资源定位符(Uniform Resource Locator,URL),URL例如可以表达为:url=http://www.demo.com/book/1.html。
网络中会有大量的网页,这些网页的网址有些相似度很高,有些相差较远,例如:针对同一部小说的不同章节,网址的相似度就会很高,不同网站上的不同小说,网址的相似度就会相差很远。所以本发明实施例中按照网址信息相似度进行分组。
关于网址信息相似度是可以预先定义的,例如:将网址信息划分为两个部分,最后一个“/”前面的信息为一部分,最后一个“/”后面的为一部分,若最后一个“/”前面的信息相同,最后一个“/”后面的信息相近,则认为相似度满足预置条件。
例如网址url=http://www.demo.com/book/1234.html,以及网址url=http://www.mono.com/intro/1.html,两个网址最后一个“/”前面的信息都不相同,所以被分别划分到两个不同的组中,如图2所示,url=http://www.demo.com/book/1234.html被划分到组一中,url=http://www.mono.com/intro/1.html被划分到组二中。
例如网址:url=http://www.demo.com/book/1234.html,以及网址url=http://www.demo.com/book/1.html,两个网址最后一个“/”前面的信息都为http://www.demo.com/book,只有最后一个“/”后面的信息一个是1234.html,一个是1.html,只是数字差异,两者非常相似。因此这两个网址可以划分到同一组,都划分到图3所示的组一中。
102、针对同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置。
信息块的类型指的是网页中所包含的信息的种类,以文本类内容为例,信息块的类型可以包括目录、文章标题、文章正文、作者简介以及索引介绍等。
每个网页中不同类型的信息块与各自的位置信息会有一个对应关系,该对应关系可以是之前预先建立好的。
信息块的类型与该种类型信息块的位置信息之间的对应关系可以参阅表1进行理解。
表1:信息块的类型与该种类型信息块的位置信息之间的对应关系
信息块的类型 该种类型信息块的位置信息
标题 /html/body/div[4]/
正文 /html/body/div[8]/
简介 /html/body/div[5]/
以上表1只是列举了几种类型进行说明,并没有穷举信息块的类型与该种类型信息块的位置信息之间的全部对应关系,因此,以上表1的内容不应理解为是对信息块的类型与该种类型信息块的位置信息的对应关系所包含的内容的限定。
根据例如表1所示的对应关系表,就可以确定出同一网页中每种类型信息块的位置信息。例如:可以确定标题信息块的位置信息是/html/body/div[4]/。
例如:该组中有500个网页,通过步骤102确定出每个网页中各种类型的信息块的位置信息后,就可以针对同一种类型的信息块进行统计,如:针对标题类型的信息块逐个统计,如:在500个网页中,有450个网页的标题信息块是出现在/html/body/div[4]/这个位置的,则该标题信息块在/html/body/div[4]/这个位置出现的次数则为450。
103、针对每种类型,过滤掉所述次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
例如:在上述500个网页中,标题信息块在/html/body/div[4]/这个位置出现的次数为450,在/html/body/div[6]/这个位置出现的次数为15次,如预设预置阈值为300,则可以过滤掉/html/body/div[6]/这个标题信息块的位置信息。过滤后剩余的/html/body/div[4]/则为该分组中标题信息块的有效位置信息。
该预设阈值也可以是通过分组中网页数量与预置比例的乘积得到的。
与现有技术中要实现网页中有用信息的提取,只能依靠人工定位网页中的有用信息块的位置信息相比,本发明实施例提供一种位置信息过滤的方法,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。
可选地,所述针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件且关键特征相同的网页划分到同一组,包括:
获取待处理的多个网页中每个网页的网址,将网址按目录分隔符“/”切分成网址树的各级节点,所述网址树上包含具有子节点的非叶子节点和不具有子节点的叶子节点;
将所述非叶子节点信息相同且叶子节点信息相似度满足所述预置条件,以及网页内容中的关键特征相同的网页划分到同一组。
本发明实施例中,可以按网址信息中的目录分隔符“/”,将网址信息拆分为网址树,包括非叶子节点和叶子节点。最后一个“/”前面的信息为非叶子节点,最后一个“/”后面的信息为叶子节点。
在本发明实施例的分组中,非叶子节点相同,叶子节点相似的网址信息的网页可以划分到一个分组中。
例如网址url=http://www.demo.com/book/1234.html,以及网址url=http://www.mono.com/intro/1.html,两个网址最后一个“/”前面的信息都不相同,所以被分别划分到两个不同的组中,如图2所示,url=http://www.demo.com/book/1234.html被划分到组一中,url=http://www.mono.com/intro/1.html被划分到组二中。
例如网址:url=http://www.demo.com/book/1234.html,以及网址url=http://www.demo.com/book/1.html,两个网址最后一个“/”前面的信息都为http://www.demo.com/book,只有最后一个“/”后面的信息一个是1234.html,一个是1.html,只是数字差异,两者非常相似。因此这两个网址可以划分到同一组,都划分到图3所示的组一中。
可选地,在上述位置信息过滤的方法的实施例的基础上,本发明实施例提供的位置信息过滤的方法的另一可选实施例还包括:
将同一组中每个网页的网址信息转换成网址正则表达式,所述网址正则表达式用于描述所述同一组中网址范围,所述网址范围用于为待分组的网页提供分组参考。
将同一组中每个网页的网址信息转换成网址正则表达式可以参阅表2进行理解。
表2:同一组中网页的网址信息转换成网址正则表达式
Figure BDA0001008071580000081
表2中所未写出的网址信息都是满足分组划分条件的网址信息,只是最后一个“/”后面的信息略有差异,数字略有不同,这样,就可以按照转换规则转换成表2中的网址正则表达式,网址正则表达式中的[0-9]+表示0到9中的任何数字或组合数字。
上述只是列出了一个网页分组的网址正则表达式,实际上,每个网页分组都有针对该分组的网址正则表达式。
在后续有新网页要分组时,就可以判断新网页的网址信息落入到了哪个分组的网址正则表达式所覆盖的范围。从而确定该网页的分组。
可选地,所述统计每种类型信息块在不同网页的同一位置出现的次数,可以包括:
确定每个网页中的位置配置信息,所述每个网页中的位置配置信息包括所述每个网页中每种类型信息块的位置信息;
按照信息块的类型,统计相同位置信息出现的次数。
本发明实施例中,位置配置信息可以是XPATH配置信息,实施例中将网页中类型信息块的类型与XPATH配置信息放在一起,用“=”连接,如表1所示的对应关系。
根据表1所示的对应关系,统计每种类型信息块在相同位置信息出现的次数,例如:可以统计出如表3所示的信息块类型与位置信息的次数及说明。
表3:信息块类型与位置信息的次数及说明
Figure BDA0001008071580000091
表3中所未列出的信息块类型与位置信息的次数以及相关说明都可以参照表3中的内容进行理解。其中,title为标题,content为正文内容,intro为简介。
按照当前表3中的内容过滤掉次数小于预设预置阈值的位置信息,例如:过滤后的结果可以用表4表达。
表4:过滤后的每种类型信息块的有效位置信息对应关系表
信息块类型 有效位置信息
title /html/body/div[4]/h1
content /html/body/div[5]
intro /html/body/div[6]/div
表4所列出的只是部分信息块类型和有效位置信息的对应关系,针对其他信息块类型和有效位置信息都可以参阅表4中的表示方式进行理解。
以上所描述的是位置信息过滤的方法,最终得到每种类型信息块的有效位置信息。这些有效位置信息是通过对同一组中大量网页的分析得到的,所以这些有效位置信息的稳定性是很好的,准确度也是非常高的。
而且,本申请所提供的位置信息过滤的方法,不仅能剔除网页中的错误信息,而且针对个别网页特征太弱的情况,也可以直接以大量的同一位置的有效位置信息作为这些特征弱的网页同种类型信息块的位置信息。
例如:有30个网页没有标题,可以拿其他300个在同一位置出现次数达300次的标题的位置信息作为这30个网页的标题的位置信息。
下面结合图4,介绍本发明实施例中,在网页处理系统中结合上述实施例所产生的有效位置信息从网页中提取有效网页信息的过程。
图4为本发明实施例中网页处理系统的一实施例示意图。
如图4所示,本发明实施例提供的网页处理系统包括终端设备10、网络20和服务器30,终端设备10和服务器30通过网络20通信。
用户在浏览网页时,终端设备10会通过网络20向服务器30发送网页请求,该网页请求中携带所请求网页的网址信息。例如:用户在浏览小说时,该所请求网页的网址信息可以是http://www.demo.com/book/1234.html。
服务器30接收到该网页请求后,会根据所请求网页的网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,该过程例如可以为根据http://www.demo.com/book/1234.html确定该网址信息位于网址正则表达式http://www\.demo\.com/book/[0-9]+\.html中,则可以确定所请求的网页属于图3所示的组一中。
服务器30确定所请求网页所属的分组后,会确定该分组每种类型信息块的有效位置信息,例如:该分组的每种类型信息块的有效位置信息可以是表4所列出的信息。
服务器30查找到网络侧存储的所请求的网页后,会根据每种类型信息块的有效位置信息提取出该网页中的每种类型信息块。例如:从/html/body/div[4]/h1位置提取出标题信息块,从/html/body/div[5]位置提取出正文信息块,从/html/body/div[6]/div位置提取出简介信息块,从而得到应输出的网页。
服务器30通过网络20向终端设备10发送该应输出的网页。
终端设备10显示从所述服务器接收到的所述应输出的网页。
终端设备10最终显示的网页只包含了每种信息块的有效网页信息,不包含广告等干扰信息。不仅节省了流量,也不会对用户浏览网页造成干扰。
而且,本发明实施例所提供的这种网页处理的方案,当所请求的网页的信息块的特征信息比较弱时,也可以直接以该分组中的对应类型的有效位置信息作为该网页的同类型信息块的位置信息。
本发明实施例中的终端设备10不限于图4所画出的手机,还可以是笔记本电脑和台式电脑等终端设备。
基于上述图4部分所描述的网页处理系统,结合图5,介绍本发明实施例所提供的从网页中提取有效网页信息的方法。
图5为本发明实施例中从网页中提取有效网页信息的方法的一实施例示意图。
参阅图5,本发明实施例提供的从网页中提取有效网页信息的方法的一实施例包括:
201、终端设备向服务器发送网页请求,所述网页请求中携带所请求网页的网址信息。
用户在浏览网页时,终端设备会通过网页链接向服务器发送网页请求,该网页请求中携带所请求网页的网址信息。例如:用户在浏览小说时,该所请求网页的网址信息可以是http://www.demo.com/book/1234.html。
202、服务器接收该网页请求后,根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组。
处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围。
可选地,所述根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,可以包括:
确定所述网址信息所属的网址范围所对应的网页分组;
将所述所对应的网页分组确定为所述所请求网页所属的分组。
服务器接收到该网页请求后,会根据所请求网页的网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,该过程例如可以为根据http://www.demo.com/book/1234.html确定该网址信息位于网址正则表达式http://www\.demo\.com/book/[0-9]+\.html中,则可以确定所请求的网页属于图3所示的组一中。
203、服务器根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页。
服务器确定所请求网页所属的分组后,会确定该分组每种类型信息块的有效位置信息,例如:该分组的每种类型信息块的有效位置信息可以是表4所列出的信息。
服务器查找到网络侧存储的所请求的网页后,会根据每种类型信息块的有效位置信息提取出该网页中的每种类型信息块。例如:从/html/body/div[4]/h1位置提取出标题信息块,从/html/body/div[5]位置提取出正文信息块,从/html/body/div[6]/div位置提取出简介信息块,从而得到应输出的网页。
可选地,所述根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块时,所述方法还可以包括:
排除所述所请求的网页中的干扰信息。
204、服务器向所述终端设备发送所述应输出的网页。
205、终端设备接收服务器发送的该应输出的网页后,展示该网页。
终端设备最终显示的网页只包含了每种信息块的有效网页信息,不包含广告等干扰信息。不仅节省了流量,也不会对用户浏览网页造成干扰。
而且,本发明实施例所提供的这种网页处理的方案,当所请求的网页的信息块的特征信息比较弱时,也可以直接以该分组中的对应类型的有效位置信息作为该网页的同类型信息块的位置信息。
以上所描述的是位置信息过滤的方法以及从网页中提取有效网页信息的方法,下面基于上述方法实施例,介绍本发明实施例中的位置信息过滤的装置和从网页中提取有效网页信息的装置。
参阅图6,本发明实施例所提供的位置信息过滤的装置30的一实施例包括:
分组单元301,用于针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;
确定单元302,用于针对所述分组单元301分组后的同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
过滤单元303,用于针对每种类型,过滤掉所述统计单元303所统计的次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
本发明实施例中,分组单元301针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;确定单元302针对所述分组单元301分组后的同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;过滤单元303针对每种类型,过滤掉所述确定单元302所确定次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。与现有技术中要实现网页中有用信息的提取,只能依靠人工定位网页中的有用信息块的位置信息相比,本发明实施例提供一种位置信息过滤的装置,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。
可选地,所述分组单元301用于:
获取待处理的多个网页中每个网页的网址信息,所述每个网页的网址信息所构成的信息树都包括非叶子节点信息和叶子节点信息;
将非叶子节点信息相同和叶子节点信息相似度满足所述预置条件的网页划分到同一组。
可选地,参阅图7,本发明实施例提供的位置信息过滤的装置30的另一实施例还包括转换单元304,
所述转换单元304,用于将所述分组单元301分组后的同一组中每个网页的网址信息转换成网址正则表达式,所述网址正则表达式所描述的是所述同一组中网址范围,所述网址范围用于为待分组的网页提供分组参考。
可选地,所述确定单元302用于:
确定每个网页中的位置配置信息,所述每个网页中的位置配置信息包括所述每个网页中每种类型信息块的位置信息;
按照信息块的类型,统计相同位置信息出现的次数。
以上位置信息过滤的装置30可以参阅图1至图3部分的相应描述进行理解,本处不做过多赘述。
参阅图8,本发明实施例提供的从网页中提取有效网页信息的装置40的一实施例包括:
接收单元401,用于接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
确定单元402,用于根据所述接收单元401接收的所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;
提取单元403,用于根据所述确定单元402确定的所述所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
发送单元404,用于向所述终端设备发送所述提取单元403得到的所述应输出的网页。
本发明实施例中,接收单元401接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;确定单元402根据所述接收单元401接收的所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;提取单元403根据所述确定单元402确定的所述所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;发送单元404向所述终端设备发送所述提取单元403得到的所述应输出的网页。与现有技术中要实现网页中有用信息的提取,只能依靠人工定位网页中的有用信息块的位置信息相比,本发明实施例提供一种从网页中提取有效网页信息的装置,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。
可选地,所述确定单元402用于:
确定所述网址信息所属的网址范围所对应的网页分组;
将所述所对应的网页分组确定为所述所请求网页所属的分组。
可选地,参阅图9,发明实施例提供的从网页中提取有效网页信息的装置40还包括排除单元405,
所述排除单元405,用于在所述提取单元403提取有效位置信息所指示位置的信息块时,排除所述所请求的网页中的干扰信息。
本发明实施例所提供的位置信息过滤的装置以及从网页中提取有效网页信息的装置都可以通过服务器或者物理主机来实现,下面以服务器为例,介绍确定信息块的位置信息的方法依靠服务器实现的过程。
图10是本发明实施例提供的服务器60的结构示意图。所述服务器60包括处理器610、存储器650和收发器630,存储器650可以包括只读存储器和随机存取存储器,并向处理器610提供操作指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器650存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本发明实施例中,当服务器执行位置信息过滤的装置的功能时,通过调用存储器650存储的操作指令(该操作指令可存储在操作系统中),
针对待处理的多个网页,按照网页的网址信息进行分组,将网址信息相似度满足预置条件的网页划分到同一组;
针对同一组中的网页,确定每个网页中不同类型信息块各自的位置信息;
统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
针对每种类型,过滤掉所述次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
与现有技术中要实现网页中有用信息的提取,只能依靠人工定位网页中的有用信息块的位置信息相比,本发明实施例提供的服务器,可以过滤掉网页中各种类型信息块的不合理的位置信息,保留合理的位置信息,从而实现网页中有用信息的提取,排除网页中的干扰信息,提高了网页中干扰信息处理的效率。
处理器610控制服务器60的操作,处理器610还可以称为CPU(Central ProcessingUnit,中央处理单元)。存储器650可以包括只读存储器和随机存取存储器,并向处理器610提供指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中服务器60的各个组件通过总线系统620耦合在一起,其中总线系统620除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统620。
上述本发明实施例揭示的方法可以应用于处理器610中,或者由处理器610实现。处理器610可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器610可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器650,处理器610读取存储器650中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器610用于:
获取待处理的多个网页中每个网页的网址信息,所述每个网页的网址信息所构成的信息树都包括非叶子节点信息和叶子节点信息;
将非叶子节点信息相同和叶子节点信息相似度满足所述预置条件的网页划分到同一组。
可选地,处理器610还用于:
将同一组中每个网页的网址信息转换成网址正则表达式,所述网址正则表达式用于描述所述同一组中网址范围,所述网址范围用于为待分组的网页提供分组参考。
可选地,处理器610用于:
确定每个网页中的位置配置信息,所述每个网页中的位置配置信息包括所述每个网页中每种类型信息块的位置信息;
按照信息块的类型,统计相同位置信息出现的次数。
在本发明实施例中,当服务器执行从网页中提取有效网页信息的装置的功能时,通过调用存储器650存储的操作指令(该操作指令可存储在操作系统中),
通过收发器630接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围;
根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
通过收发器630向所述终端设备发送所述应输出的网页。
可选地,处理器610用于:
确定所述网址信息所属的网址范围所对应的网页分组;
将所述所对应的网页分组确定为所述所请求网页所属的分组。
可选地,处理器610还用于排除所述所请求的网页中的干扰信息。
以上的服务器60可以参阅图1至图5部分的相关描述进行理解,本处不做过多赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例所提供的一种位置信息过滤的方法、从网页中提取有效网页信息的方法以及相关装置及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种位置信息过滤的方法,其特征在于,包括:
针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;
针对同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
针对每种类型,过滤掉所述次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
2.根据权利要求1所述的方法,其特征在于,所述针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件且关键特征相同的网页划分到同一组,包括:
获取待处理的多个网页中每个网页的网址,将网址按目录分隔符“/”切分成网址树的各级节点,所述网址树上包含具有子节点的非叶子节点和不具有子节点的叶子节点;
将所述非叶子节点信息相同且叶子节点信息相似度满足所述预置条件,以及网页内容中的关键特征相同的网页划分到同一组。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将同一组中每个网页的网址信息转换成网址正则表达式,所述网址正则表达式用于描述所述同一组中网址范围,所述网址范围用于为待分组的网页提供分组参考。
4.根据权利要求1-3任一所述的方法,其特征在于,所述统计每种类型信息块在不同网页的同一位置出现的次数,包括:
确定每个网页中的位置配置信息,所述每个网页中的位置配置信息包括所述每个网页中每种类型信息块的位置信息;
按照信息块的类型,统计相同位置信息出现的次数。
5.一种从网页中提取有效网页信息的方法,其特征在于,包括:
接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围,所述各网页分组的建立过程包括:针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组;
根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
向所述终端设备发送所述应输出的网页。
6.根据权利要求5所述的方法,其特征在于,所述根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,包括:
确定所述网址信息所属的网址范围所对应的网页分组;
将所述所对应的网页分组确定为所述所请求网页所属的分组。
7.根据权利要求5或6所述的方法,其特征在于,所述根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块时,所述方法还包括:
排除所述所请求的网页中的干扰信息。
8.一种位置信息过滤的装置,其特征在于,包括:
分组单元,用于针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组,所述关键特征为每个网页中都包含的特征;
确定单元,用于针对所述分组单元分组后的同一组中的网页,根据已经确定的各个网页中不同类型信息块各自的位置信息,统计每种类型信息块在不同网页的同一位置出现的次数,所述同一位置为同一位置信息所标记的位置;
过滤单元,用于针对每种类型,过滤掉所述确定单元所确定的次数小于预设阈值的位置信息,得到所述每种类型信息块的有效位置信息。
9.根据权利要求8所述的装置,其特征在于,
所述分组单元用于:
获取待处理的多个网页中每个网页的网址,将网址按目录分隔符“/”切分成网址树的各级节点,所述网址树上包含具有子节点的非叶子节点和不具有子节点的叶子节点;
将所述非叶子节点信息相同且叶子节点信息相似度满足所述预置条件,以及网页内容中的关键特征相同的网页划分到同一组。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括转换单元,
所述转换单元,用于将所述分组单元分组后的同一组中每个网页的网址信息转换成网址正则表达式,所述网址正则表达式所描述的是所述同一组中网址范围,所述网址范围用于为待分组的网页提供分组参考。
11.根据权利要求8-10任一所述的装置,其特征在于,
所述确定单元用于:
确定每个网页中的位置配置信息,所述每个网页中的位置配置信息包括所述每个网页中每种类型信息块的位置信息;
按照信息块的类型,确定相同位置信息出现的次数。
12.一种从网页中提取有效网页信息的装置,其特征在于,包括:
接收单元,用于接收终端设备发送的网页请求,所述网页请求中携带所请求网页的网址信息;
确定单元,用于根据所述接收单元接收的所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围,所述各网页分组的建立过程包括:针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组;
提取单元,用于根据所述确定单元确定的所述所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
发送单元,用于向所述终端设备发送所述提取单元得到的所述应输出的网页。
13.根据权利要求12所述的装置,其特征在于,
所述确定单元用于:
确定所述网址信息所属的网址范围所对应的网页分组;
将所述所对应的网页分组确定为所述所请求网页所属的分组。
14.根据权利要求12或13所述的装置,其特征在于,所述装置还包括排除单元,
所述排除单元,用于在所述提取单元提取有效位置信息所指示位置的信息块时,排除所述所请求的网页中的干扰信息。
15.一种网页处理系统,其特征在于,包括:终端设备和服务器,
所述终端设备用于向所述服务器发送网页请求,所述网页请求中携带所请求网页的网址信息;
所述服务器用于:
在接收终端设备发送的网页请求后,根据所述网址信息,以及预先建立的各网页分组的网址正则表达式,确定出所述所请求网页所属的分组,处于同一组中网页的网址信息相似度满足预置条件,所述网址正则表达式用于描述所述同一组中网址的范围,所述各网页分组的建立过程包括:针对待处理的多个网页,按照网页的网址信息及关键特征进行分组,将网址信息相似度满足预置条件,且关键特征相同的网页划分到同一组;
根据所属的分组中每种类型信息块的有效位置信息,从所述所请求的网页中提取出所述有效位置信息所指示位置的信息块,得到应输出的网页;
向所述终端设备发送所述应输出的网页;
所述终端设备还用于显示从所述服务器接收到的所述应输出的网页。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至4任一项所述的位置信息过滤的方法,和/或,如上权利要求5至7任一项所述的从网页中提取有效网页信息的方法。
CN201610387640.1A 2016-06-02 2016-06-02 位置信息过滤的方法、提取有效网页信息的方法及装置 Active CN106021582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610387640.1A CN106021582B (zh) 2016-06-02 2016-06-02 位置信息过滤的方法、提取有效网页信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610387640.1A CN106021582B (zh) 2016-06-02 2016-06-02 位置信息过滤的方法、提取有效网页信息的方法及装置

Publications (2)

Publication Number Publication Date
CN106021582A CN106021582A (zh) 2016-10-12
CN106021582B true CN106021582B (zh) 2020-06-05

Family

ID=57089448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610387640.1A Active CN106021582B (zh) 2016-06-02 2016-06-02 位置信息过滤的方法、提取有效网页信息的方法及装置

Country Status (1)

Country Link
CN (1) CN106021582B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009171B (zh) * 2016-10-27 2020-06-30 腾讯科技(北京)有限公司 一种提取内容数据的方法和装置
TWI611308B (zh) * 2016-11-03 2018-01-11 財團法人資訊工業策進會 網頁資料擷取裝置及其網頁資料擷取方法
CN110781258B (zh) * 2019-09-16 2021-07-09 北京三快在线科技有限公司 分组查询方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN104102636A (zh) * 2013-04-02 2014-10-15 阿里巴巴集团控股有限公司 一种页面数据的统计、呈现方法及装置
CN104219230A (zh) * 2014-08-21 2014-12-17 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278853A1 (en) * 2014-04-01 2015-10-01 DoubleVerify, Inc. System And Method For Identifying Hidden Content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN104102636A (zh) * 2013-04-02 2014-10-15 阿里巴巴集团控股有限公司 一种页面数据的统计、呈现方法及装置
CN104219230A (zh) * 2014-08-21 2014-12-17 腾讯科技(深圳)有限公司 识别恶意网站的方法及装置
CN104462532A (zh) * 2014-12-23 2015-03-25 北京奇虎科技有限公司 网页正文提取的方法和装置

Also Published As

Publication number Publication date
CN106021582A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN109190024B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN107908694A (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
US20120284270A1 (en) Method and device to detect similar documents
CN103425644B (zh) 网页正文中图片的提取方法及装置
CN106021582B (zh) 位置信息过滤的方法、提取有效网页信息的方法及装置
CN101963965A (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
US20160306893A1 (en) Url purification method and url purification apparatus
CN107404486A (zh) 解析Http数据的方法、装置、终端设备及存储介质
CN108536489B (zh) 匹配资源环境的方法、装置和计算机可读存储介质
CN105550359A (zh) 一种基于垂直搜索的网页排序方法、装置及服务器
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN111368227A (zh) 一种url处理方法以及装置
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN103914479A (zh) 资源请求的匹配方法和装置
CN108287831B (zh) 一种url分类方法和系统、数据处理方法和系统
CN103354546A (zh) 报文过滤方法与装置
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN107784054B (zh) 一种页面发布方法和装置
CN106095854B (zh) 一种确定信息块的位置信息的方法及装置
CN103778117B (zh) 一种移动终端信息加载的方法及系统
CN105589870B (zh) 网页广告的过滤方法和系统
CN114020610A (zh) 基于图挖掘的接口分析方法、装置及相关设备
CN109002446A (zh) 一种智能排序方法、终端与计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221201

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.