CN108241680B - 获取网页的阅读量的方法和装置 - Google Patents

获取网页的阅读量的方法和装置 Download PDF

Info

Publication number
CN108241680B
CN108241680B CN201611219659.1A CN201611219659A CN108241680B CN 108241680 B CN108241680 B CN 108241680B CN 201611219659 A CN201611219659 A CN 201611219659A CN 108241680 B CN108241680 B CN 108241680B
Authority
CN
China
Prior art keywords
webpage
feature tag
feature
tag
reading amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611219659.1A
Other languages
English (en)
Other versions
CN108241680A (zh
Inventor
朱波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611219659.1A priority Critical patent/CN108241680B/zh
Publication of CN108241680A publication Critical patent/CN108241680A/zh
Application granted granted Critical
Publication of CN108241680B publication Critical patent/CN108241680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取网页的阅读量的方法和装置。其中,该方法包括:识别网页页面中的至少一个文本对象;将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签,前特征标签用于表征网页页面中位于阅读量的显示区域之前的特征词,后特征标签用于表征网页页面中位于阅读量的显示区域之后的特征词;在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值;根据网页页面中所显示的数字的特征值确定网页页面的阅读量。本发明解决了由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的技术问题。

Description

获取网页的阅读量的方法和装置
技术领域
本发明涉及网页技术领域,具体而言,涉及一种获取网页的阅读量的方法和装置。
背景技术
信息抽取是从自然语言文本中抽取指定信息。随着大数据时代的到来,大量的网络文本里包含的信息也越来越多,如何在大量的网页信息中快速有效的提取出有用的信息是目前急需解决的事情。网页的阅读量是反映网络文章内容价值的重要指标,并且可以进一步反映不同网站之间访问量的差异,所以从网页中有效的提取出网页的阅读量也是网页信息抽取任务中的一部分。目前,在网页信息抽取任务中,一般利用HtmlParser、Dom等方式解析Html页面标签,并通过具体的标签来提取出所需的信息。由于提取的内容主要是通过Html页面标签来完成的,所以在众多不同的网站上对同一页面信息进行提取时,需要对不同的网站配置独有的解析规则,该过程需要投入大量的人力,并且提取网页信息的效率比较低。
针对上述由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种获取网页的阅读量的方法和装置,以至少解决由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的技术问题。
根据本发明实施例的一个方面,提供了一种获取网页的阅读量的方法,包括:识别网页页面中的至少一个文本对象;将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签,前特征标签用于表征网页页面中位于阅读量的显示区域之前的特征词,后特征标签用于表征网页页面中位于阅读量的显示区域之后的特征词;在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值;根据网页页面中所显示的数字的特征值确定网页页面的阅读量。
根据本发明实施例的另一方面,还提供了一种获取网页的阅读量的装置,包括:识别模块,用于识别网页页面中的至少一个文本对象;匹配模块,用于将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签,前特征标签用于表征网页页面中位于阅读量的显示区域之前的特征词,后特征标签用于表征网页页面中位于阅读量的显示区域之后的特征词;第一获取模块,用于在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值;第二获取模块,用于根据网页页面中所显示的数字的特征值确定网页页面的阅读量。
在本发明实施例中,采用标签匹配的方式,通过识别网页页面中的文本对象,并将该文本对象与网页页面中的特征标签进行匹配,在匹配成功的情况下,获取网页页面中数字的特征值,根据该数字特征值确定网页页面的阅读量,达到了无需对不同网站的页面进行Html标签解析,自动识别不同网站页面阅读量,从而实现了快速高效获取网页页面阅读量的技术效果,进而解决了由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种获取网页的阅读量的方法流程图;
图2是根据本发明实施例的一种可选的网页页面的示意图;
图3是根据本发明实施例的一种可选的Dom树的节点示意图;
图4是根据本发明实施例的一种可选的获取网页页面中数字的特征值的发放流程图;
图5(a)是根据本发明实施例的一种可选的Dom树的节点示意图;
图5(b)是根据本发明实施例的一种可选的Dom树的节点示意图;
图6是根据本发明实施例的一种可选的获取网页页面中数字的特征值的发放流程图;
图7是根据本发明实施例的一种可选的确定网页页面的阅读量的方法流程图;
图8是根据本发明实施例的一种可选的确定数字的权重值的方法流程图;以及
图9是根据本发明实施例的一种获取网页的阅读量的装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
Dom树(Document Object Model Tree,简称为Dom树),是一种以层次结构组织的节点或信息片段的集合,该层次结构可以允许软件开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,之后才可以工作。由于Dom树是基于信息层次的,所以可以认为它是基于树或基于对象的。
实施例1
根据本发明实施例,提供了一种识别网页阅读量的方法实施例。
图1是根据本发明实施例的识别网页阅读量的方法流程图,如图1所示,该方法包括如下步骤:
步骤S102,识别网页页面中的至少一个文本对象。
在上述步骤中,可以通过网页页面后台的运行程序获取网页页面中的文本对象,其中,上述文本对象为网页页面中所有的文本,包括数字和文字,如图2示出的一个网页页面的示意图,该页面上的网页文本对象为“阅读:”、“27469”、“0”、“好文”、“0”、“太水”、“分享”。具体的,运行程序可以先获取得到该Html页面,然后再加载该Html页面的JavaScript函数,并将Html页面转换成Dom树,同时删除Dom树中文本标签为空的节点以及包含子节点的节点。
通过上述步骤,可以得到不同网站上同一网页页面上的所有文本对象,便于后续在文本对象中提取阅读量,而且由于删除掉了Dom树中节点为空以及包含有子节点的节点,因此可以节省遍历Dom树的运行时间,进一步加快了获取网页页面的阅读量的速度。
步骤S104,将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签,前特征标签用于表征网页页面中位于阅读量的显示区域之前的特征词,后特征标签用于表征网页页面中位于阅读量的显示区域之后的特征词。
在上述步骤中,由于不同的网页页面可能有不同的特征标签,所以上述特征标签可以由人工来确定。上述特征标签可以包括前特征标签和后特征标签,也可以只包含其中的一个。具体的,前特征标签为网页页面阅读量之前的提示词,而后特征标签为网页页面阅读量之后的提示词。在一种可选的实施例中,如图2所示,阅读量“27469”的前特征标签为“阅读:”,后特征标签为“分享:”。当文本对象和网页页面的特征标签进行匹配之后,可以获得前特征标签或后特征标签在Dom树中的节点的位置。
需要说明的是,特征标签的选择需要兼顾不同网页表示阅读量的方式,一般情况下,网页页面通过“阅读:”、“阅读量:”等提示词作为网页页面阅读量的前特征标签,而阅读量后面大多有“分享”、“评论”等内容,这些提示词可作为网页页面阅读量的后特征标签。
通过上述步骤,可以确定前特征标签以及后特征标签在Dom树中的节点位置,而阅读量的节点位置一般位于前特征标签对应的节点之后,后特征标签对应的节点之前,因此,根据前特征标签以及后特征标签对应的节点位置来查找阅读量所对应的节点可以进一步提高了获取网页页面的阅读量的速度。
步骤S106,在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值。
在上述步骤中,上述网页页面中所显示的数字的特征值可以为网页页面中的数字在Dom树中的节点的位置。图3示出了一种可选的基于图2的Dom树中文本标签的节点示意图。在网页页面中包含前特征标签和后特征标签的情况下,根据前特征标签和后特征标签在Dom树中的节点位置,得到网页页面中数字的节点位置,例如,在图3中,假设图中各个节点的位置分别为:1,2,3,4,5,6和7,节点1的文本标签“阅读:”的标签类型为前特征标签,节点7的文本标签“分享:”对应的特征标签为后特征标签,然后保存节点1至节点7中所有数字对应的标签的位置,即保存“27469”的节点位置2、“0”的节点位置3和“0”的节点位置5。
通过上述步骤,可以根据前特征标签和后特征标签的位置参数筛选出网页页面中数字以及数字对应的节点位置,对网页页面中的信息进行了更进一步地筛选,提高了获取网页页面阅读量的精度。
步骤S108,根据网页页面中所显示的数字的特征值确定网页页面的阅读量。
在上述步骤中,上述网页页面中所显示的数字的特征值可以数字在Dom树中节点的位置参数,根据数字的节点的位置参数得到阅读量的权重,然后根据阅读量的权重可以得到网页页面的阅读量。在一种可选的实施例中,当网页页面中包含多个数字时,可以分别求取每个数字的权重,然后选取权重值最大的数字作为网页的阅读量。
基于上述实施例步骤S102至步骤S108所公开的方案中,可以获知通过获取网页页面中的文本对象,并将文本对象与网页页面的特征标签进行匹配,从而得到网页页面中的数字的特征值,根据数字的特征值可以得到网页页面的阅读量,容易注意到的是,由于将网页页面中的文本对象与网页页面的特征标签进行了匹配,得到了网页页面的数字的特征,又根据网页页面的数字的特征进一步得到了网页页面的阅读量,因此,对网页页面的文本对象进行了多次筛选,从而提高了获取网页页面阅读量的速度及精度,因此,通过网页页面中的文本对象的特征构建了一个能够适用于所有网站的网页页面的阅读量抽取方法,该方法达到了无需对不同网站的页面进行Html标签解析,自动识别不同网站页面阅读量,从而实现了快速高效获取网页页面阅读量的技术效果,进而解决了由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的技术问题。
可选的,图4示出了根据特征标签获取网页页面中所显示的数字的特征值的方法,包括如下步骤:
步骤S402,如果至少一个文本对象与前特征标签或后特征标签匹配,获取前特征标签或后特征标签的位置参数。
步骤S404,判断前特征标签的位置参数之后的N个文本对象中是否存在数字或后特征标签的位置参数之前的N个文本对象中是否存在数字。
步骤S406,在存在数字的情况下,保存网页页面中所显示的数字的特征值。
作为一种可选的实施例,在网页页面只存在前特征标签的情况下,如图5(a)所示的Dom树的节点示意图,首先获取前特征标签的位置参数,例如,获取前特征标签“阅读:”的节点位置为1,由于没有后特征标签,所以可以选取前特征标签之后的100个文本对象,判断其是否为数字,如果为数字,则保存该数字以及该数字所对应的节点位置,例如,在前特征标签之后的100个文本对象中只有三个文本对象为数字:“27469”所对应的节点位置为2,“0”所对应的节点位置为3,“1”所对应的节点位置为5。则保存上述三个文本对象以及其对应的节点位置。
作为另一种可选的实施例,在网页页面只存在后特征标签的情况下,如图5(b)所示的Dom树的节点示意图,首先获取后特征标签的位置参数,例如,假设后特征标签“分享:”的节点为107,由于没有前特征标签,所以可以选取后特征标签之前的100个文本对象,判断其是否为数字,如果为数字,则保存该数字以及该数字所对应的节点位置,例如,在后特征标签之前的100个文本对象中同样只有三个文本对象为数字:“27469”所对应的节点位置为102,“0”所对应的节点位置为103,“1”所对应的节点位置为105。则保存上述三个文本对象以及其对应的节点位置。
可选的,图6示出了网页页面中同时存在前特征标签和后特征标签时,根据特征标签获取网页页面中所显示的数字的特征值的方法,包括如下步骤:
步骤S602,如果至少一个文本对象与网页页面的前特征标签和网页页面的后特征标签相匹配,获取前特征标签的位置参数和后特征标签的位置参数。
步骤S604,判断前特征标签的最小位置与后特征标签的最大位置之间的至少一个文本对象是否存在数字。
步骤S606,如果存在数字,保存网页页面中所显示的数字的特征值。
在上述步骤S602至步骤S606中,在网页页面既存在前特征标签又存在后特征标签的情况下,分别获取前特征标签和后特征标签的位置参数,一般情况下,前特征标签的节点位置比后特征标签的节点位置小,所以可以从节点位置最小的前特征标签开始对Dom树中的每个节点进行遍历,如果文本对象为数字,则将该数字及其节点位置进行保存,直至遍历到节点位置最大的后特征标签。
可选的,图7示出了根据网页页面中所显示的数字的特征值确定网页页面的阅读量的方法,包括如下步骤:
步骤S702,根据数字的特征值确定数字的权重值。
步骤S704,获取在预设范围内的权重值对应的数字的特征值,其中,该数字为网页页面的阅读量。
在上述步骤S702至步骤S704中,上述数字的权重值是根据网页页面上的数字的特征值得到的,不同的数字其权重值是不相同的。当得到数字的权重值之后,对数字的权重值进行排序,将最大的权重值对应的数字作为网页页面的阅读量,例如,在图3所示Dom树中,数字“27469”所对应的权重值为1.2,数字“0”所对应的权重值为0.75,数字“1”所对应的权重值为“0.75”,则三个数字中权重值最大为1.2,其所对应的数字为“27469”,所以该网页页面的阅读量为27469。
可选的,图8示出了根据数字的特征值确定数字的权重值的方法,具体包括如下步骤:
步骤S802,计算数字的特征值与前特征标签,和/或后特征标签之间的距离。
步骤S804,根据距离确定数字的权重值。
在上述步骤S802至步骤S804中,在网页页面只存在前特征标签或后特征标签时,计算每一个数字在Dom树中的节点位置与前特征标签或后特征标签之间的距离,该距离的倒数即为数字的权重值。例如,如图5(a)所示的只有前特征标签的Dom树中,“27469”的节点位置为2,其权重值为1;“0”的节点位置为3,其权重值为0.5;“1”的节点位置为5,其权重值为0.25。
在另一种可选的实施例中,当网页页面同时存在前特征标签和后特征标签时,将该数字与前特征标签和后特征标签的权重值相加作为最终的权重值,例如,如图3所示的Dom树中,前特征标签的节点位置为1,后特征标签的节点位置为7,“27469”的节点位置为2,则其权重值d为:
Figure BDA0001192523760000071
同样的,“0”的节点位置为3,其权重值为0.75;“1”的节点位置为5,其权重值为0.75。
对三个数字对应的权重值进行由大到小的排序,最大但不小于0.3的权重值为1.2,其对应的数字为“27469”,该数字即为该网页页面的阅读量。
实施例2
根据本发明实施例,提供了一种获取网页的阅读量的装置实施例。本发明实施例1中的获取网页的阅读量的方法可以在本发明实施例2的装置中执行。
图9是根据本发明实施例的获取网页的阅读量的装置结构示意图,如图9所示,该装置包括:识别模块901、匹配模块903、第一获取模块905和第二获取模块907。其中,
识别模块901,用于识别网页页面中的至少一个文本对象。
在上述识别模块中,可以通过网页页面后台的运行程序获取网页页面中的文本对象,其中,上述文本对象为网页页面中所有的文本,包括数字和文字,如图2示出的一个网页页面的示意图,该页面上的网页文本对象为“阅读:”、“27469”、“0”、“好文”、“0”、“太水”、“分享”。具体的,运行程序可以先获取得到该Html页面,然后再加载该Html页面的JavaScript函数,并将Html页面转换成Dom树,同时删除Dom树中文本标签为空的节点以及包含子节点的节点。
通过上述识别模块,可以得到不同网站上同一网页页面上的所有文本对象,便于后续在文本对象中提取阅读量,而且由于删除掉了Dom树中节点为空以及包含有子节点的节点,因此可以节省遍历Dom树的运行时间,进一步加快了获取网页页面的阅读量的速度。
匹配模块903,用于将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签,前特征标签用于表征网页页面中位于阅读量的显示区域之前的特征词,后特征标签用于表征网页页面中位于阅读量的显示区域之后的特征词。
在上述匹配模块中,由于不同的网页页面可能有不同的特征标签,所以上述特征标签可以有人工来确定。上述特征标签可以包括前特征标签和后特征标签,也可以只包含其中的一个。具体的,前特征标签为网页页面阅读量之前的提示词,而后特征标签为网页页面阅读量之后的提示词。在一种可选的实施例中,如图2所示,阅读量“27469”的前特征标签为“阅读:”,后特征标签为“分享:”。当文本对象和网页页面的特征标签进行匹配之后,可以获得前特征标签或后特征标签在Dom树中的节点的位置。
需要说明的是,特征标签的选择需要兼顾不同网页表示阅读量的方式,一般情况下,网页页面通过“阅读:”、“阅读量:”等提示词作为网页页面阅读量的前特征标签,而阅读量后面大多有“分享”、“评论”等内容,这些提示词可作为网页页面阅读量的后特征标签。
通过上述匹配模块,可以确定前特征标签以及后特征标签在Dom树中的节点位置,而阅读量的节点位置一般位于前特征标签对应的节点之后,后特征标签对应的节点之前,因此,根据前特征标签以及后特征标签对应的节点位置来查找阅读量所对应的节点可以进一步提高了获取网页页面的阅读量的速度。
第一获取模块905,用于在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值。
在上述第一获取模块中,上述网页页面中所显示的数字的特征值可以为网页页面中的数字在Dom树中的节点的位置。图3示出了一种可选的基于图2的Dom树中文本标签的节点示意图。在网页页面中包含前特征标签和后特征标签的情况下,根据前特征标签和后特征标签在Dom树中的节点位置,得到网页页面中数字的节点位置,例如,在图3中,假设图中各个节点的位置分别为:1,2,3,4,5,6和7,节点1的文本标签“阅读:”的标签类型为前特征标签,节点7的文本标签“分享:”对应的特征标签为后特征标签,然后保存节点1至节点7中所有数字对应的标签的位置,即保存“27469”的节点位置2、“0”的节点位置3和“0”的节点位置5。
通过上述第一获取模块,可以根据前特征标签和后特征标签的位置参数筛选出网页页面中数字以及数字对应的节点位置,对网页页面中的信息进行了更进一步地筛选,提高了获取网页页面阅读量的精度。
第二获取模块907,用于根据网页页面中所显示的数字的特征值确定网页页面的阅读量。
在上述第二获取模块中,上述网页页面中所显示的数字的特征值可以数字在Dom树中节点的位置参数,根据数字的节点的位置参数得到阅读量的权重,然后根据阅读量的权重可以得到网页页面的阅读量。在一种可选的实施例中,当网页页面中包含多个数字时,可以分别求取每个数字的权重,然后选取权重值最大的数字作为网页的阅读量。
由上可知,通过获取网页页面中的文本对象,并将文本对象与网页页面的特征标签进行匹配,从而得到网页页面中的数字的特征值,根据数字的特征值可以得到网页页面的阅读量,容易注意到的是,由于将网页页面中的文本对象与网页页面的特征标签进行了匹配,得到了网页页面的数字的特征,又根据网页页面的数字的特征进一步得到了网页页面的阅读量,因此,对网页页面的文本对象进行了多次筛选,从而提高了获取网页页面阅读量的速度及精度,因此,通过网页页面中的文本对象的特征构建了一个能够适用于所有网站的网页页面的阅读量抽取方法,该方法达到了无需对不同网站的页面进行Html标签解析,自动识别不同网站页面阅读量,从而实现了快速高效获取网页页面阅读量的技术效果,进而解决了由于对不同网站提取同一页面信息需要配置不同的解析规则而造成的获取网页信息工作量大、效率低的技术问题。
需要说明的是,上述识别模块901、匹配模块903、第一获取模块905和第二获取模块907对应于实施例1中的步骤S102至步骤S108,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第一获取模块包括:第一匹配模块、第一判断模块和第一保存模块。其中,第一匹配模块用于如果至少一个文本对象与前特征标签或后特征标签匹配,获取前特征标签或后特征标签的位置参数;第一判断模块用于判断前特征标签的位置参数之后的N个文本对象中是否存在数字或后特征标签的位置参数之前的N个文本对象中是否存在数字;第一保存模块用于在存在数字的情况下,保存网页页面中所显示的数字的特征值。
作为一种可选的实施例,在网页页面只存在前特征标签的情况下,首先获取前特征标签的位置参数,例如,获取前特征标签“阅读:”的节点位置为1,由于没有后特征标签,所以可以选取前特征标签之后的100个文本对象,判断其是否为数字,如果为数字,则保存该数字以及该数字所对应的节点位置,例如,在前特征标签之后的100个文本对象中只有三个文本对象为数字:“27469”所对应的节点位置为2,“0”所对应的节点位置为3,“1”所对应的节点位置为5。则保存上述三个文本对象以及其对应的节点位置。
作为另一种可选的实施例,在网页页面只存在后特征标签的情况下,如图5(b)所示的Dom树的节点示意图,首先获取后特征标签的位置参数,例如,假设后特征标签“分享:”的节点为107,由于没有前特征标签,所以可以选取后特征标签之前的100个文本对象,判断其是否为数字,如果为数字,则保存该数字以及该数字所对应的节点位置,例如,在后特征标签之前的100个文本对象中同样只有三个文本对象为数字:“27469”所对应的节点位置为102,“0”所对应的节点位置为103,“1”所对应的节点位置为105。则保存上述三个文本对象以及其对应的节点位置。
需要说明的是,上述第一匹配模块、第一判断模块以及第一保存模块对应于实施例1中的步骤S402至步骤S408,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,在网页页面中同时存在前特征标签和后特征标签时,第一获取模块还包括:第二匹配模块、第二判断模块以及第二保存模块。其中,第二匹配模块用于如果至少一个文本对象与网页页面的前特征标签和后特征标签相匹配,获取前特征标签的位置参数和后特征标签的位置参数;第二判断模块用于判断前特征标签的最小位置与后特征标签的最大位置之间的至少一个文本对象是否存在数字;第二保存模块用于如果存在数字,保存网页页面中所显示的数字的特征值。
作为一种可选的实施例,在网页页面既存在前特征标签又存在后特征标签的情况下,分别获取前特征标签和后特征标签的位置参数,一般情况下,前特征标签的节点位置比后特征标签的节点位置小,所以可以从节点位置最小的前特征标签开始对Dom树中的每个节点进行遍历,如果文本对象为数字,则将该数字及其节点位置进行保存,直至遍历到节点位置最大的后特征标签。
需要说明的是,上述第二匹配模块、第二判断模块以及第二保存模块对应于实施例1中的步骤S602至步骤S608,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,第二获取模块包括:权重获取模块以及特征值获取模块。其中,权重获取模块用于根据数字的特征值确定数字的权重值;特征值获取模块用于获取在预设范围内的权重值对应的数字的特征值,其中,数字为网页页面的阅读量。
作为一种可选的实施例,上述数字的权重值是根据网页页面上的数字的特征值得到的,不同的数字其权重值是不相同的。当得到数字的权重值之后,对数字的权重值进行排序,将最大的权重值对应的数字作为网页页面的阅读量,例如,在图3所示Dom树中,数字“27469”所对应的权重值为1.2,数字“0”所对应的权重值为0.75,数字“1”所对应的权重值为“0.75”,则三个数字中权重值最大为1.2,其所对应的数字为“27469”,所以该网页页面的阅读量为27469。
需要说明的是,上述权重获取模块以及对应于实施例1中的步骤S702至步骤S704,两个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,权重获取模块包括:第一计算模块以及第二计算模块。其中,第一计算模块用于计算数字的特征值与前特征标签,和/或后特征标签之间的距离;第二计算模块用于根据距离确定数字的权重值。
作为一种可选的实施例,在网页页面只存在前特征标签或后特征标签时,计算每一个数字在Dom树中的节点位置与前特征标签或后特征标签之间的距离,该距离的倒数即为数字的权重值。例如,如图5(a)所示的只有前特征标签的Dom树中,“27469”的节点位置为2,其权重值为1;“0”的节点位置为3,其权重值为0.5;“1”的节点位置为5,其权重值为0.25。在另一种可选的实施例中,当网页页面同时存在前特征标签和后特征标签时,将该数字与前特征标签和后特征标签的权重值相加作为最终的权重值,例如,如图3所示的Dom树中,前特征标签的节点位置为1,后特征标签的节点位置为7,“27469”的节点位置为2,则其权重值d为:
Figure BDA0001192523760000111
同样的,“0”的节点位置为3,其权重值为0.75;“1”的节点位置为5,其权重值为0.75。
对三个数字对应的权重值进行由大到小的排序,最大但不小于0.3的权重值为1.2,其对应的数字为“27469”,该数字即为该网页页面的阅读量。
需要说明的是,上述第一计算模块以及第二计算模块对应于实施例1中的步骤S802至步骤S804,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
上述获取网页的阅读量的装置包括处理器和存储器,上述识别模块、匹配模块、第一获取模块。第二获取模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器张广宁的上述程序单元。上述特征标签、数字的特征值等都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:识别网页页面中的至少一个文本对象;将至少一个文本对象与网页页面的至少一个特征标签进行匹配,其中,特征标签包括如下至少之一:前特征标签和后特征标签;在匹配成功的情况下,根据特征标签获取网页页面中所显示的数字的特征值;根据网页页面中所显示的数字的特征值确定网页页面的阅读量。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种获取网页的阅读量的方法,其特征在于,包括:
识别网页页面中的至少一个文本对象;
将所述至少一个文本对象与所述网页页面的至少一个特征标签进行匹配,其中,所述特征标签包括如下至少之一:前特征标签和后特征标签,所述前特征标签用于表征所述网页页面中位于阅读量的显示区域之前的特征词,所述后特征标签用于表征所述网页页面中位于所述阅读量的显示区域之后的特征词;
在匹配成功的情况下,根据所述特征标签获取所述网页页面中所显示的数字的特征值;
根据所述网页页面中所显示的数字的特征值确定所述网页页面的阅读量;
根据所述网页页面中所显示的数字的特征值确定所述网页页面的阅读量,包括:根据所述数字的特征值确定所述数字的权重值;获取在预设范围内的所述权重值对应的所述数字的特征值,其中,所述数字为所述网页页面的阅读量。
2.根据权利要求1所述的方法,其特征在于,根据所述特征标签获取所述网页页面中所显示的数字的特征值,包括:
如果所述至少一个文本对象与所述前特征标签或所述后特征标签匹配,获取所述前特征标签或所述后特征标签的位置参数;
判断所述前特征标签的位置参数之后的N个所述文本对象中是否存在所述数字或所述后特征标签的位置参数之前的N个所述文本对象中是否存在所述数字;
在存在所述数字的情况下,保存所述网页页面中所显示的数字的特征值。
3.根据权利要求1所述的方法,其特征在于,根据所述特征标签获取所述网页页面中所显示的数字的特征值,还包括:
如果所述至少一个文本对象与所述网页页面的前特征标签和所述后特征标签相匹配,获取所述前特征标签的位置参数和所述后特征标签的位置参数;
判断所述前特征标签的最小位置与所述后特征标签的最大位置之间的所述至少一个文本对象是否存在数字;
如果存在所述数字,保存所述网页页面中所显示的数字的特征值。
4.根据权利要求3所述的方法,其特征在于,根据所述数字的特征值确定所述数字的权重值,包括:
计算所述数字的特征值与所述前特征标签,和/或所述后特征标签之间的距离;
根据所述距离确定所述数字的权重值。
5.一种获取网页的阅读量的装置,其特征在于,包括:
识别模块,用于识别网页页面中的至少一个文本对象;
匹配模块,用于将所述至少一个文本对象与所述网页页面的至少一个特征标签进行匹配,其中,所述特征标签包括如下至少之一:前特征标签和后特征标签,所述前特征标签用于表征所述网页页面中位于阅读量的显示区域之前的特征词,所述后特征标签用于表征所述网页页面中位于所述阅读量的显示区域之后的特征词;
第一获取模块,用于在匹配成功的情况下,根据所述特征标签获取所述网页页面中所显示的数字的特征值;
第二获取模块,用于根据所述网页页面中所显示的数字的特征值确定所述网页页面的阅读量;
所述第二获取模块包括:权重获取模块,用于根据所述数字的特征值确定所述数字的权重值;特征值获取模块,用于获取在预设范围内的所述权重值对应的所述数字的特征值,其中,所述数字为所述网页页面的阅读量。
6.根据权利要求5所述的装置,其特征在于,所述第一获取模块包括:
第一匹配模块,用于如果所述至少一个文本对象与所述前特征标签或所述后特征标签匹配,获取所述前特征标签或所述后特征标签的位置参数;
第一判断模块,用于判断所述前特征标签的位置参数之后的N个所述文本对象中是否存在所述数字或所述后特征标签的位置参数之前的N个所述文本对象中是否存在所述数字;
第一保存模块,用于在存在所述数字的情况下,保存所述网页页面中所显示的数字的特征值。
7.根据权利要求5所述的装置,其特征在于,所述第一获取模块还包括:
第二匹配模块,用于如果所述至少一个文本对象与所述网页页面的前特征标签和所述后特征标签相匹配,获取所述前特征标签的位置参数和所述后特征标签的位置参数;
第二判断模块,用于判断所述前特征标签的最小位置与所述后特征标签的最大位置之间的所述至少一个文本对象是否存在数字;
第二保存模块,用于如果存在所述数字,保存所述网页页面中所显示的数字的特征值。
8.根据权利要求7所述的装置,其特征在于,所述权重获取模块包括:
第一计算模块,用于计算所述数字的特征值与所述前特征标签,和/或所述后特征标签之间的距离;
第二计算模块,用于根据所述距离确定所述数字的权重值。
CN201611219659.1A 2016-12-26 2016-12-26 获取网页的阅读量的方法和装置 Active CN108241680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611219659.1A CN108241680B (zh) 2016-12-26 2016-12-26 获取网页的阅读量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611219659.1A CN108241680B (zh) 2016-12-26 2016-12-26 获取网页的阅读量的方法和装置

Publications (2)

Publication Number Publication Date
CN108241680A CN108241680A (zh) 2018-07-03
CN108241680B true CN108241680B (zh) 2020-10-13

Family

ID=62702015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611219659.1A Active CN108241680B (zh) 2016-12-26 2016-12-26 获取网页的阅读量的方法和装置

Country Status (1)

Country Link
CN (1) CN108241680B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103020266A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 对网页文本内容进行提取的方法和装置
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103020266A (zh) * 2012-12-25 2013-04-03 北京奇虎科技有限公司 对网页文本内容进行提取的方法和装置
CN105653668A (zh) * 2015-12-29 2016-06-08 武汉理工大学 云环境中基于DOMTree的网页内容分析提取优化方法

Also Published As

Publication number Publication date
CN108241680A (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN110765770A (zh) 一种合同自动生成方法及装置
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110110577B (zh) 识别菜名的方法及装置、存储介质、电子装置
CN109710771B (zh) 表格信息提取方法、装置和存储介质
CN107633062B (zh) 敏感词查找方法、装置及电子设备
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN112732893B (zh) 文本信息的提取方法和装置、存储介质和电子设备
CN106250402B (zh) 一种网站分类方法及装置
CN114942971B (zh) 一种结构化数据的抽取方法及装置
CN109165373B (zh) 一种数据处理方法及装置
CN112395418A (zh) 网页中的目标对象提取方法、装置、电子设备
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN111160445B (zh) 投标文件相似度计算方法及装置
CN107368500A (zh) 数据抽取方法及系统
CN108073589B (zh) 网页页面元素的获取方法及装置
CN108241680B (zh) 获取网页的阅读量的方法和装置
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN110019702B (zh) 数据挖掘方法、装置和设备
CN115796146A (zh) 一种文件对比方法及装置
CN106815196B (zh) 软文展现次数统计方法和装置
CN105677827B (zh) 一种表单的获取方法及装置
CN110874398B (zh) 违禁词处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant