CN105808644A - 一种确定正文节点的方法及装置 - Google Patents
一种确定正文节点的方法及装置 Download PDFInfo
- Publication number
- CN105808644A CN105808644A CN201610104993.6A CN201610104993A CN105808644A CN 105808644 A CN105808644 A CN 105808644A CN 201610104993 A CN201610104993 A CN 201610104993A CN 105808644 A CN105808644 A CN 105808644A
- Authority
- CN
- China
- Prior art keywords
- node
- web page
- nodal information
- density ratio
- corresponding respectively
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Abstract
本发明提供了一种确定正文节点的方法及装置,其中,方法包括:形成至少一个网页模板;获取对应目标网页模板的至少两个目标网页;获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。通过本发明的技术方案,可准确确定多个网页的正文节点。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种确定正文节点的方法及装置。
背景技术
网页作为网络信息的载体,可以包括多个网页节点,其中一个网页节点为正文节点,用于负载对应网络信息的网页正文,其他非正文节点可用于负载广告连接、导航栏以及版权信息等;在针对网页进行信息采集的过程中,首先需要确定网页中用于负载网页正文的正文节点。
目前,确定正文节点的方法,主要是通过对一个网页的多个网页节点分别对应的节点信息进行分析,以获取每一个网页节点分别对应的文字密度比(即当前网页节点对应的节点信息中文字数量与字符总数的比值),进而将对应文字密度比最高的一个网页节点确定为正文节点。
但是,上述技术方案,基于单个网页的统计特性,不适用于大规模的数据采集场景,当任一网页的正文节点对应的文字内容较少时,其文字密度比可能小于非正文节点的文字密度比,进而导致非正文节点被确定为正文节点,准确性较低。
发明内容
本发明实施例提供了一种确定正文节点的方法及装置,可准确确定多个网页的正文节点。
第一方面,本发明提供了一种确定正文节点的方法,包括:
S1:形成至少一个网页模板;
S2:获取对应目标网页模板的至少两个目标网页;
S3:获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
S4:根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;
S5:根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
S6:根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
进一步的,
在所述获取所述至少两个目标网页中每一个网页节点分别对应的节点信息之后,进一步包括:
定义每一个节点信息分别对应的唯一标识;
所述根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比,包括:
根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式计算每一个网页节点分别对应的文字密度比:
A=B/C;
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。
进一步的,所述定义每一个节点信息分别对应的唯一标识,包括:
通过如下公式定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
进一步的,
还包括:预先设置非链接文字下限阈值;
所述计算每一个网页节点分别对应的文字密度比,包括:
分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;
确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值;
计算每一个目标网页节点分别对应的文字密度比。
进一步的,在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后,还包括:
根据确定的正文节点抽取对应网页下的网页正文。
第二方面,本发明提供了一种确定正文节点的装置,包括:
构建模块,用于形成至少一个网页模板;
第一获取模块,用于获取对应目标网页模板的至少两个目标网页;
第二获取模块,用于获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
计算模块,用于根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
确定模块,用于根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
进一步的,还包括:
配置模块,用于定义每一个节点信息分别对应的唯一标识;
所述计算模块,用于根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式计算每一个网页节点分别对应的文字密度比:
A=B/C;
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。8、根据权利要求7所述的确定正文节点的装置,其特征在于,
所述配置模块,用于通过如下公式定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
以及,用于计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
进一步的,还包括:
设置模块,用于设置非链接文字下限阈值;
所述计算模块,包括:
计算子单元,用于分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;计算每一个目标网页节点分别对应的文字密度比;
确定子单元,用于确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值。
进一步的,还包括:
处理模块,用于根据确定的正文节点抽取对应网页下的网页正文。
本发明实施例提供了一种确定正文节点的方法及装置,通过对具备相同目标网页模板的多个目标网页进行统计分析,而不是只分析单个网页的特性,适用于大规模数据采集任务中确定多个网页分别对应的正文节点;通过计算多个目标网页中,每一组相互对应的网页节点的平均文字密度比,根据平均文字密度最高的一组网页节点,确定每一个对应目标网页模板的网页分别对应的正文节点,可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时,该网页下的非正文节点被错误的确定为正文节点;可见,通过本发明的技术方案,可准确确定多个网页的正文节点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种确定正文节点的方法流程图;
图2是本发明一实施例提供的另一种确定正文节点的方法流程图;
图3是本发明一实施例提供的一种确定正文节点的装置结构图;
图4是本发明一实施例提供的另一种确定正文节点的装置结构图。
具体实施方法
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种确定正文节点的方法,该方法可以包括以下步骤:
S1:形成至少一个网页模板;
S2:获取对应目标网页模板的至少两个目标网页;
S3:获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
S4:根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;
S5:根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
S6:根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
本发明一实施例中,通过对具备相同目标网页模板的多个目标网页进行统计分析,而不是只分析单个网页的特性,适用于大规模数据采集任务中确定多个网页分别对应的正文节点;通过计算多个目标网页中,每一组相互对应的网页节点的平均文字密度比,根据平均文字密度最高的一组网页节点,确定每一个对应目标网页模板的网页分别对应的正文节点,可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时,该网页下的非正文节点被错误的确定为正文节点;可见,通过本发明实施例所述的方案,可准确确定多个网页的正文节点。
本发明一实施例中,确定正文节点的方法应用到大规模数据采集场景时,通常需要对具备不同业务功能的任务作分布式部署,举例来说,可以将执行计算功能的任务与执行获取、存储节点信息的任务作分布式部署,即计算任务与获取、存储节点信息的任务分别在不同的计算节点和存储节点中进行,可提高各个任务的处理速度。
可见,计算节点需要遍历存储节点中的每一个节点信息以执行相应的计算任务,同时,存储节点中可能存在完全相同的节点信息;因此,为了区别存储节点中相同的节点信息,使得计算节点启动计算任务后能够遍历存储节点中的每一个节点信息,本发明一个优选实施例中,在所述获取所述至少两个目标网页中每一个网页节点分别对应的节点信息之后,进一步包括:
定义每一个节点信息分别对应的唯一标识;
所述根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比,包括:
根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式(1)计算每一个网页节点分别对应的文字密度比:
A=B/C;(1)
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。
具体地,本发明一个优选实施例中,可通过一下步骤定义每一个节点信息分别对应的唯一标识:
通过如下公式(2)定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];(2)
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
需要说明的是,每一个节点信息的路径dX(n)也可以作为当前节点信息的唯一标识;但是,由上述公式可见,dX(n)中包含了所有父亲节点的所有属性,路径过长,即dX(n)对应一个特别长的字符串,如果将dX(n)作为当前节点的唯一标识,计算任务在遍历每一个节点信息时会浪费大量的带宽;因此,将dX(n)对应的特征值作为对应节点的唯一标识。
本发明一实施例中,特征值可以包括通过消息摘要算法对dX(n)加密后的摘要值。
进一步的,为了实现根据网页正文中非链接文字数量应远高于对应的文字总量等通用特性对网页节点设置硬性过滤条件,本发明一个优选实施例中,还包括:预先设置非链接文字下限阈值;
所述计算每一个网页节点分别对应的文字密度比,包括:
分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;
确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值;
计算每一个目标网页节点分别对应的文字密度比。
本发明一实施例中,非链接文字下限阈值的大小可结合实际业务需求合理设置,一般来说,非链接文字下限阈值应不小于60%。
进一步的,本发明一个优选实施例中,在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后,还包括:
根据确定的正文节点抽取对应网页下的网页正文。
如图2所示,本发明实施例提供了一种确定正文节点的方法,以确定目标站点下多个网页的正文节点,并根据正文节点抽取多个网页的网页正文为例,该方法可以包括以下步骤:
步骤201,预先设置非链接文字下限阈值。
本发明一实施例中,可将非链接文字下限阈值设置为60%;当然,非链接文字下限阈值可结合实际业务需求合理设置。
步骤202,获取目标站点的任一网页,分析该网页的数据结构,形成对应该网页的目标网页模板。
步骤203,获取目标站点下对应该目标网页模板的目标网页A1、A2、A3。
步骤204,获取A1、A2、A3下每一个网页节点分别对应的节点信息。
本发明一实施例中,可根据步骤202中形成的目标网页模版获取A1、A2、A3下的每一个网页节点分别对应的节点信息。
本发明实施例下述各步骤中,以A1、A2、A3分别包括如下节点信息为例:A1(a1、b1、c1),A2(a2、b2、c2),A3(a3、b3、c3)。
步骤205,定义每一个节点信息的路径。
本发明一实施例中,可通过如下公式(2)定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];(2)
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息。
本发明一实施例中,每一个节点信息的路径dX(n)可以包括当前节点信息在目标站点下的绝对路径,相应的,父亲节点可以包括对应当前节点信息的网页节点所在目标网页的网页地址,即P(n)可以是A1、A2、或A3的网页地址。
本发明实施例中,以每一个节点信息对应的网页节点与其父亲节点具备如下对应关系为例:
a1对应的网页节点为A1的第1个孩子节点、b1对应的网页节点为A1的第2个孩子节点、c1对应的网页节点为A1的第3个孩子节点;
a2对应的网页节点为A2的第1个孩子节点、b2对应的网页节点为A2的第2个孩子节点、c2对应的网页节点为A2的第3个孩子节点;
a3对应的网页节点为A3的第1个孩子节点、b3对应的网页节点为A1的第2个孩子节点、c3对应的网页节点为A1的第3个孩子节点。
本发明一实施例中,节点名称即当前节点信息对应的网页节点的标签名称。
步骤206,通过消息摘要算法计算每一个dX(n)的摘要值。
步骤207,将每一个dX(n)的摘要值定义为对应节点信息的唯一标识。
步骤208,根据摘要值查询每一个节点信息,计算每一个网页节点分别对应的节点信息中非链接文字个数与文字总数的百分比。
步骤209,根据预先设置的非链接文字下限阈值确定至少一个目标网页节点,计算每一个目标网页节点分别对应的文字密度比。
这里,即在计算每一个节点信息中非链接文字个数与文字总数的百分比之后,只有在当前节点信息中非链接文字个数与文字总数的百分比不小于预先设置的60%的非链接文字下限阈值时,才继续计算当前节点信息的文字密度比。
本发明一实施例中,可通过如下公式(1)计算每一个目标网页节点分别对应的文字密度比:
A=B/C;(1)
其中,A表征当前目标网页节点对应的文字密度比、B表征当前目标网页节点对应的节点信息中文字个数、C表征当前目标网页节点对应的节点信息中字符总数。
步骤210,根据目标网页模板及每一个目标网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点。
本发明一实施例中,可通过每一个节点信息分别对应的路径dX(n)来确定每一组相互对应的网页节点,举例来说,当两个节点信息分别对应的dX(n)中i值相同且n.name完全相同时,可确定这两个节点信息分别对应的网页节点为相互对应的一组网页节点。
由上述步骤205可见,节点信息a1、a2、a3分别对应的网页节点为一组相互对应的网页节点,节点信息b1、b2、b3分别对应的网页节点为一组相互对应的网页节点,节点信息c1、c2、c3分别对应的网页节点为一组相互对应的网页节点。
这里以节点信息c1、c2、c3分别对应的一组网页节点的平均文字密度最大为例,即可确定c1、c2、c3分别对应的网页节点为A1、A2、A3的正文节点,相应的,c1、c2、c3分别为A1、A2、A3的网页正文。
步骤211,根据平均文字密度比最大的一组网页节点确定对应所述目标网页模板的每一个网页分别对应的正文节点。
通过上述步骤205和步骤210可见,对应相同网页模板的每一个网页下第三个孩子节点(网页节点)为正文节点,进而确定对应目标网页模板的每一个网页下第三个孩子节点均为正文节点。
步骤212,根据确定的正文节点分别抽取对应网页下的网页正文。
这里,即抽取对应目标网页模板的每一个网页的第三个孩子节点(网页节点)中的节点信息,被抽取的节点信息即对应的网页正文。
需要说明的是,这里对目标站点进行大规模数据采集时,可通过依次加载该站点下的每一个网页,针对与目标网页模板不匹配的全部网页,可再次构建对应的网页模板,通过执行与上述各步骤相似的方法抽取对应网页的网页正文。
如图3所示,本发明实施例提供了一种确定正文节点的装置,包括:
构建模块301,用于形成至少一个网页模板;
第一获取模块302,用于获取对应目标网页模板的至少两个目标网页;
第二获取模块303,用于获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
计算模块304,用于根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
确定模块305,用于根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
本发明一实施例中,用于确定正文节点的装置下用于执行个任务的模块可作分布式部署,以提高各任务的处理速度,举例来说,可将计算模块与第二获取模块分别部署在不同的计算节点和存储节点中。
进一步的,为了区别相同的节点信息,使得计算任务能够遍历每一个节点信息,实现对每一个节点信息执行相应的计算任务,如图4所示,本发明一个优选实施例中,还包括:
配置模块401,用于定义每一个节点信息分别对应的唯一标识;
所述计算模块304,用于根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式计算每一个网页节点分别对应的文字密度比:
A=B/C;
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。
具体地,本发明一个优选实施例中,所述配置模块401,用于通过如下公式定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
以及,用于计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
进一步的,为了实现根据网页正文中非链接文字数量应远高于对应的文字总量等通用特性对网页节点设置硬性过滤指标,如图4所示,本发明一个优选实施例中,还包括:
设置模块402,用于设置非链接文字下限阈值;
所述计算模块304,包括:
计算子单元3041,用于分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;计算每一个目标网页节点分别对应的文字密度比;
确定子单元3042,用于确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值。
进一步的,如图4所示,本发明一个优选实施例中,还包括:
处理模块403,用于根据确定的正文节点抽取对应网页下的网页正文。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明各个实施例至少具有如下有益效果:
1、通过对具备相同目标网页模板的多个目标网页进行统计分析,而不是只分析单个网页的特性,适用于大规模数据采集任务中确定多个网页分别对应的正文节点;通过计算多个目标网页中,每一组相互对应的网页节点的平均文字密度比,根据平均文字密度最高的一组网页节点,确定每一个对应目标网页模板的网页分别对应的正文节点,可避免具备相同目标网页模板的多个网页中存在任一网页的网页正文较少时,该网页下的非正文节点被错误的确定为正文节点;可见,通过本发明实施例所述的方案,可准确确定多个网页的正文节点。
2、本发明实施例提供的确定正文节点的方法适用于大规模数据采集场景,利用平均文字密度比最大的一组网页节点,以及对应的目标网页模板生成数据采集模板,可利用该数据采集模板分别抽取对应该目标网页模板的每一个网页的网页正文。
3、本发明实施例提供的确定正文节点的装置,执行计算功能的任务和执行获取、存储节点信息功能的任务可作分布式部署,以提高各任务的处理速度;同时,通过将每一个节点信息的路径的特征值作为当前节点的唯一标识,使得计算节点可根据特征值遍历每一个节点信息,且避免计算任务在各节点间传递时浪费大量带宽。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种确定正文节点的方法,其特征在于,包括:
形成至少一个网页模板;
获取对应目标网页模板的至少两个目标网页;
获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;
根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
2.根据权利要求1所述的确定正文节点的方法,其特征在于,
在所述获取所述至少两个目标网页中每一个网页节点分别对应的节点信息之后,进一步包括:
定义每一个节点信息分别对应的唯一标识;
所述根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比,包括:
根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式计算每一个网页节点分别对应的文字密度比:
A=B/C;
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。
3.根据权利要求2所述的确定正文节点的方法,其特征在于,所述定义每一个节点信息分别对应的唯一标识,包括:
通过如下公式定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
4.根据权利要求1所述的确定正文节点的方法,其特征在于,
还包括:预先设置非链接文字下限阈值;
所述计算每一个网页节点分别对应的文字密度比,包括:
分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;
确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值;
计算每一个目标网页节点分别对应的文字密度比。
5.根据权利要求1至4中任一所述的确定正文节点的方法,其特征在于,在所述确定对应所述目标网页模板的每一个网页分别对应的正文节点之后,还包括:
根据确定的正文节点抽取对应网页下的网页正文。
6.一种确定正文节点的装置,其特征在于,包括:
构建模块,用于形成至少一个网页模板;
第一获取模块,用于获取对应目标网页模板的至少两个目标网页;
第二获取模块,用于获取所述至少两个目标网页中每一个网页节点分别对应的节点信息;
计算模块,用于根据每一个网页节点分别对应的节点信息,计算每一个网页节点分别对应的文字密度比;根据所述目标网页模板及每一个网页节点分别对应的文字密度比,计算每一组相互对应的网页节点分别对应的平均文字密度比,确定平均文字密度比最大的一组网页节点;
确定模块,用于根据所述平均文字密度比最大的一组网页节点,确定对应所述目标网页模板的每一个网页分别对应的正文节点。
7.根据权利要求6所述的确定正文节点的装置,其特征在于,还包括:
配置模块,用于定义每一个节点信息分别对应的唯一标识;
所述计算模块,用于根据每一个节点信息分别对应的唯一标识查询每一个节点信息,并通过如下公式计算每一个网页节点分别对应的文字密度比:
A=B/C;
其中,A表征当前网页节点对应的文字密度比、B表征当前网页节点对应的节点信息中文字个数、C表征当前网页节点对应的节点信息中字符总数。
8.根据权利要求7所述的确定正文节点的装置,其特征在于,
所述配置模块,用于通过如下公式定义每一个节点信息的路径:
dX(n)=X(P(n))+“/”+n.name+[“+i+”][“+n.attr+”];
其中,dX(n)表征当前网页节点的路径、X(n)表征当前网页节点、p(n)表征当前网页节点的父亲节点、X(P(n))表征当前网页节点的父亲节点P(n)的路径、n.name表征当前网页节点的名称、i表征当前网页节点X(n)为其父亲节点p(n)的第i个孩子节点、n.attr表征当前网页节点的节点信息;
以及,用于计算每一个节点信息的路径dX(n)分别对应的特征值,并将特征值定义为对应节点信息的唯一标识。
9.根据权利要求6所述的确定正文节点的装置,其特征在于,还包括:
设置模块,用于设置非链接文字下限阈值;
所述计算模块,包括:
计算子单元,用于分别计算每一个网页节点对应的节点信息中非链接文字个数与文字总数的百分比;计算每一个目标网页节点分别对应的文字密度比;
确定子单元,用于确定至少一个目标网页节点,其中,所述目标网页节点对应的节点信息中非链接文字个数与文字总数的百分比不小于所述非链接文字下限阈值。
10.根据权利要求6至9中任一所述的确定正文节点的装置,其特征在于,还包括:
处理模块,用于根据确定的正文节点抽取对应网页下的网页正文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610104993.6A CN105808644A (zh) | 2016-02-25 | 2016-02-25 | 一种确定正文节点的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610104993.6A CN105808644A (zh) | 2016-02-25 | 2016-02-25 | 一种确定正文节点的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105808644A true CN105808644A (zh) | 2016-07-27 |
Family
ID=56466478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610104993.6A Pending CN105808644A (zh) | 2016-02-25 | 2016-02-25 | 一种确定正文节点的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808644A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951401A (zh) * | 2017-03-14 | 2017-07-14 | 深圳市茁壮网络股份有限公司 | 一种文档正文识别方法及装置 |
CN110020296A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种提取新闻网页正文的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6245283B1 (en) * | 1997-09-25 | 2001-06-12 | Ishikawajima-Harima Heavy Industries | Method for production of fiber-bond type ceramic material and engine parts formed thereof |
CN102314520A (zh) * | 2011-10-24 | 2012-01-11 | 莫雅静 | 基于统计回溯定位的网页正文提取方法和装置 |
CN102541874A (zh) * | 2010-12-16 | 2012-07-04 | 中国移动通信集团公司 | 网页正文内容提取方法及装置 |
CN102810097A (zh) * | 2011-06-02 | 2012-12-05 | 高德软件有限公司 | 网页正文内容提取方法及装置 |
CN103020179A (zh) * | 2012-11-28 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页内容的提取方法、装置和设备 |
-
2016
- 2016-02-25 CN CN201610104993.6A patent/CN105808644A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6245283B1 (en) * | 1997-09-25 | 2001-06-12 | Ishikawajima-Harima Heavy Industries | Method for production of fiber-bond type ceramic material and engine parts formed thereof |
CN102541874A (zh) * | 2010-12-16 | 2012-07-04 | 中国移动通信集团公司 | 网页正文内容提取方法及装置 |
CN102810097A (zh) * | 2011-06-02 | 2012-12-05 | 高德软件有限公司 | 网页正文内容提取方法及装置 |
CN102314520A (zh) * | 2011-10-24 | 2012-01-11 | 莫雅静 | 基于统计回溯定位的网页正文提取方法和装置 |
CN103020179A (zh) * | 2012-11-28 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页内容的提取方法、装置和设备 |
Non-Patent Citations (1)
Title |
---|
马刚主: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951401A (zh) * | 2017-03-14 | 2017-07-14 | 深圳市茁壮网络股份有限公司 | 一种文档正文识别方法及装置 |
CN110020296A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种提取新闻网页正文的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881488B (zh) | 基于关系表的可配置信息抽取方法 | |
CN102831121B (zh) | 一种网页信息抽取的方法和系统 | |
CN103514234B (zh) | 一种页面信息提取方法和装置 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN101251855A (zh) | 一种互联网网页清洗方法、系统及设备 | |
CN101650715B (zh) | 一种筛选网页上链接的方法和装置 | |
CN103246732B (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN103544176A (zh) | 用于生成多个页面所对应的页面结构模板的方法和设备 | |
CN103544178A (zh) | 一种用于提供与目标页面相对应的重构页面的方法和设备 | |
CN103136358B (zh) | 一种自动抽取论坛数据的方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN103810251B (zh) | 一种文本提取方法及装置 | |
CN102915361B (zh) | 一种基于文字分布特征的网页正文提取方法 | |
CN104572934B (zh) | 一种基于dom的网页关键内容抽取方法 | |
CN101706812B (zh) | 一种文档的检索方法和装置 | |
CN102314494B (zh) | 一种用于处理网页内容的方法和设备 | |
CN104063401A (zh) | 一种网页样式地址合并的方法和装置 | |
CN105740370B (zh) | 一种在线Web新闻内容抽取系统 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN109933786A (zh) | 基于编译规则的应答器报文工具的构建方法 | |
CN101894109A (zh) | 一种数据库建立方法和装置 | |
CN105528357A (zh) | 一种基于url和网页文档结构的相似性的网页内容提取方法 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160727 |