CN108121729A - 一种基于页面标题的网页流量数据的统计方法及装置 - Google Patents

一种基于页面标题的网页流量数据的统计方法及装置 Download PDF

Info

Publication number
CN108121729A
CN108121729A CN201611076612.4A CN201611076612A CN108121729A CN 108121729 A CN108121729 A CN 108121729A CN 201611076612 A CN201611076612 A CN 201611076612A CN 108121729 A CN108121729 A CN 108121729A
Authority
CN
China
Prior art keywords
data
flows
page
title
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611076612.4A
Other languages
English (en)
Inventor
王科
王晓
刘荣明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201611076612.4A priority Critical patent/CN108121729A/zh
Publication of CN108121729A publication Critical patent/CN108121729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于页面标题的网页流量数据的统计方法及装置,其中,该方法包括:采集该网页的包括页面标题的流量数据;根据该页面标题,对该流量数据进行分组统计。通过本发明提供的基于页面标题的网页流量数据的统计方法及装置,能够通过页面标题直观的了解当前统计的流量数据的页面内容,如果一个目标网页存在对应多个URL的情况,还可以从整体上对目标网页进行流量聚合统计,以达到全面知晓目标网页的流量数据。

Description

一种基于页面标题的网页流量数据的统计方法及装置
技术领域
本发明涉及计算机软件领域,具体涉及一种基于页面标题的网页流量数据的统计方法及装置。
背景技术
在现有技术中,对网页的流量数据的浏览通常是通过URL来查看流量数据,而对流量数据的统计方法则是首先通过埋点采集流量数据,然后识别数据库中的URL对应的流量数据,最后在前端页面实现相关流量数据的统计信息的展示。
由于网页URL完全是由字母数字符号等组成,并且没有实际的意义,因此对于查询和浏览流量数据的人员来说,这些人员无法仅仅通过URL得知具体对应的是哪个网页的流量数据。如果想知道一个URL对应的网页内容,通常需要浏览人员把这个URL粘贴至浏览器查看这个URL是针对什么页面进行的流量统计。
此外,如果一个网页从不同的渠道引流过来往往对应多个URL,而目前的统计方法不会针对多个URL进行聚合统计,从而能够直观反映一个网页的整体实际流量情况。即使通过人工或者正则表达式对所有的情况后枚举完才能确保完全统计,但是这种方法十分费时并且依然存在遗漏的可能。
发明内容
有鉴于此,本发明的目的在于提供一种基于页面标题的网页流量数据的统计方法及装置,以解决现有技术中存在的上述缺陷。
本发明的技术方案是提供一种基于页面标题的网页流量数据的统计方法,该方法包括:
采集所述网页的包括页面标题的流量数据;
根据所述页面标题,对所述流量数据进行分组统计。
可选地,该方法还包括:通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
可选地,该方法还包括:在采集所述网页的包括页面标题的流量数据之后,将所述流量数据存储至数据库中。
可选地,该方法还包括:当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
可选地,该方法还包括:在根据所述页面标题,对所述流量数据进行分组统计的步骤之后,对所述页面标题的所述流量数据进行展示。
本发明还提供一种基于页面标题的网页流量数据的统计装置,该装置包括:
数据采集模块,用于采集所述网页的包括页面标题的流量数据;
数据统计模块,用于根据所述页面标题,对所述流量数据进行分组统计。
可选地,所述数据采集模块还用于:通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
可选地,该装置还包括:数据存储模块,用于将所述流量数据存储至数据库中。
可选地,该装置还包括:数据查询模块,用于当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
可选地,该装置还包括:数据展示模块,用于对所述页面标题的所述流量数据进行展示。
通过本发明提供的基于页面标题的网页流量数据的统计方法及装置,能够通过页面标题直观的了解当前统计的流量数据的页面内容,如果一个目标网页存在对应多个URL的情况,还可以从整体上对目标网页进行流量聚合统计,以达到全面知晓目标网页的流量数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明一实施例的基于页面标题的网页流量数据的统计方法的流程示意图;
图2为本发明一实施例的基于页面标题的网页流量数据的统计装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,所涉及的术语中:
URL:“统一资源定位符”是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
Html<title>标签:<title>元素可定义文档的标题,浏览器会以特殊的方式来使用标题,并且通常把它放置在浏览器窗口的标题栏或状态栏上。同样,当把文档加入用户的链接列表或者收藏夹或书签列表时,标题将成为该文档链接的默认名称。
正则表达式:Regular Expression,又称规则表达式,在代码中常简写为regex、regexp或RE。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
GROUP BY语句:GROUP BY语句用于结合合计函数,根据一个或多个列对结果集进行分组。
下面参考图1对本发明示例性实施方式的基于页面标题的网页流量数据的统计方法的流程示意图进行介绍,其中,该方法包括:
步骤S101:采集所述网页的包括页面标题的流量数据;
步骤S102:根据所述页面标题,对所述流量数据进行分组统计。
可选地,该方法还包括:通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
可选地,该方法还包括:在采集所述网页的包括页面标题的流量数据之后,将所述流量数据存储至数据库中。
可选地,该方法还包括:当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
可选地,该方法还包括:在根据所述页面标题,对所述流量数据进行分组统计的步骤之后,对所述页面标题的所述流量数据进行展示。
实施例
下面结合一个具体实施例对本发明进行具体描述,然而值得注意的是该具体实施例仅是为了更好地描述本发明,并不构成对本发明的不当限定。
步骤S101:采集所述网页的包括页面标题的流量数据。
具体来说,本发明是通过埋点或无埋点方式采集网页的流量数据,其中,该流量数据包括但不限于页面浏览量(PV)以及独立访客数(UV),并且通过提取网页的HTML源码中的title标签中的页面标题。
另外,将采集网页的流量数据保存至数据库中,该数据库中不仅保存有网页的流量数据,还包括网页的URL和标题对。
特别的是,当请求异常只获取到页面URL或所述页面标题,获取所述页面标题或所述页面URL失败的时候,通过查询之前存储在所述数据库中的URL和标题对,用所述页面URL或所述页面标题进行匹配来补充未获取的所述页面标题或所述页面URL。
例如,根据访问过“www.abc.com”网址,获取的该网页的标题为“环境的变化”。在采集网页的流量数据的时候,如果只获取了“www.abc.com”或“环境的变化”两者中任一项数据,那么就可以通过查询据库里中的相关信息,例如查询“www.abc.com”或“环境的变化”将未获取的对应的页面标题或URL数据补充完整。
步骤S102:根据该页面标题,对该流量数据进行分组统计。
下面对访问某一网页进行详细描述。
例如,对于访问“京东商城”的首页来说,一种方法就是通过直接输入网页的URL:“https://www.jd.com/”进行访问,此时就产生了对这个页面的一个访问事件,也就是说,该URL的页面浏览量(PV)为1;
而另一种访问该网页的方法是通过任一搜索引擎访问“京东商城”的主站,例如,在百度搜索引擎中输入“京东商城”这样的查询参数可以获得“京东商城”的首页的URL如下:
“https//www.jd.com/?cu=true&utm_source=baidu-pinzhuan&utm_medium=cpc&utm_campaign=t_288551095_baidupinzhuan&utm_term=0f3d30c8dba7459bb52f2eb5eba8ac7d_0_b0f9e151db8a4f3d9cb246bc5df737d3”,点击该URL同样可以访问“京东商城”的首页,此时针对该URL同样产生了对这个页面的一个访问事件,也就是说,该URL的页面浏览量(PV)为1。
通过上述内容可知,我们两次通过不同的URL访问了京东主站,并且可以从html的页面标题的</title>“京东(JD.COM)-综合网购首选-正品低价、品质保障、配送及时、轻松购物!”中获取了相同的页面标题。由此我们可以将同一个页面标题为“京东(JD.COM)-综合网购首选-正品低价、品质保障、配送及时、轻松购物!”的页面浏览量(PV)等于通过第一种方法产生的页面浏览量1与通过第二种方法产生的页面浏览量1之和为2。
由于网页流量数据统计的指标包括但不限于:页面浏览数(PV)、独立访问者数量(UV)、重复访问者数量(RV)等,因此根据实际业务需求进行分组统计,具体的计算方法可以通过SQL提供的group by语句进行分组统计,由于该统计方式为本领域普通技术人员能够轻易知晓的内容,故在此不赘述。
最后,在分组统计相同所述页面标题的不同所述URL的流量数据的步骤之后,对页面标题对应的不同所述URL的流量数据进行展示。
图2为本发明一实施例的基于页面标题的网页流量数据的统计装置的结构示意图,其中,该统计装置2包括:
数据采集模块21,用于采集所述网页的包括页面标题的流量数据;
数据统计模块22,用于根据所述页面标题,对所述流量数据进行分组统计。
可选地,所述数据采集模块21还用于:通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
可选地,该装置2还包括:数据存储模块23,用于将所述流量数据存储至数据库中。
可选地,该装置2还包括:数据查询模块24,用于当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
可选地,该装置2还包括:数据展示模块25,用于对所述页面标题的所述流量数据进行展示。
由于本发明提供的基于页面标题的网页流量数据的统计装置是上述方法对应的装置,故不在此赘述。
通过本发明提供的基于页面标题的网页流量数据的统计方法及装置,能够通过页面标题直观的了解当前统计的流量数据的页面内容,如果一个目标网页存在对应多个URL的情况,还可以从整体上对目标网页进行流量聚合统计,以达到全面知晓目标网页的流量数据。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于页面标题的网页流量数据的统计方法,其特征在于,所述方法包括:
采集所述网页的包括页面标题的流量数据;
根据所述页面标题,对所述流量数据进行分组统计。
2.根据权利要求1所述的统计方法,其特征在于,还包括:
通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
3.根据权利要求1所述的统计方法,其特征在于,还包括:
在采集所述网页的包括页面标题的流量数据的步骤之后,将所述流量数据存储至数据库中。
4.根据权利要求1所述的统计方法,其特征在于,还包括:
当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
5.根据权利要求1所述的统计方法,其特征在于,还包括:
在根据所述页面标题,对所述流量数据进行分组统计的步骤之后,对所述页面标题的所述流量数据进行展示。
6.一种基于页面标题的网页流量数据的统计装置,其特征在于,所述装置包括:
数据采集模块,用于采集所述网页的包括页面标题的流量数据;
数据统计模块,用于根据所述页面标题,对所述流量数据进行分组统计。
7.根据权利要求6所述的统计装置,其特征在于,所述数据采集模块还用于:
通过埋点或无埋点方式采集所述网页的流量数据,并且提取所述网页的HTML源码中的title标签中的所述页面标题。
8.根据权利要求6所述的统计装置,其特征在于,还包括:
数据存储模块,用于将所述流量数据存储至数据库中。
9.根据权利要求8所述的统计装置,其特征在于,还包括:
数据查询模块,用于当请求出现异常只获得页面URL或页面标题其中之一时,通过查询先前存储在数据库中的URL和标题对,找出与已获取的页面URL或页面标题相对应的页面标题或页面URL。
10.根据权利要求6所述的统计装置,其特征在于,还包括:
数据展示模块,用于对所述页面标题的所述流量数据进行展示。
CN201611076612.4A 2016-11-29 2016-11-29 一种基于页面标题的网页流量数据的统计方法及装置 Pending CN108121729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611076612.4A CN108121729A (zh) 2016-11-29 2016-11-29 一种基于页面标题的网页流量数据的统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611076612.4A CN108121729A (zh) 2016-11-29 2016-11-29 一种基于页面标题的网页流量数据的统计方法及装置

Publications (1)

Publication Number Publication Date
CN108121729A true CN108121729A (zh) 2018-06-05

Family

ID=62226000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611076612.4A Pending CN108121729A (zh) 2016-11-29 2016-11-29 一种基于页面标题的网页流量数据的统计方法及装置

Country Status (1)

Country Link
CN (1) CN108121729A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582827A (zh) * 2018-11-30 2019-04-05 深圳市小牛普惠投资管理有限公司 无埋点数据采集方法、装置、计算机设备以及存储介质
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102377583A (zh) * 2010-08-09 2012-03-14 百度在线网络技术(北京)有限公司 统计网站流量的方法及系统
CN105100246A (zh) * 2015-07-30 2015-11-25 北京慧点科技有限公司 一种基于下载资源名称的网络流量管控方法
CN106021583A (zh) * 2016-06-02 2016-10-12 北京京东尚科信息技术有限公司 页面流量数据的统计方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102377583A (zh) * 2010-08-09 2012-03-14 百度在线网络技术(北京)有限公司 统计网站流量的方法及系统
CN105100246A (zh) * 2015-07-30 2015-11-25 北京慧点科技有限公司 一种基于下载资源名称的网络流量管控方法
CN106021583A (zh) * 2016-06-02 2016-10-12 北京京东尚科信息技术有限公司 页面流量数据的统计方法及其系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582827A (zh) * 2018-11-30 2019-04-05 深圳市小牛普惠投资管理有限公司 无埋点数据采集方法、装置、计算机设备以及存储介质
CN113094382A (zh) * 2021-04-02 2021-07-09 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法
CN113094382B (zh) * 2021-04-02 2022-12-06 南开大学 一种面向多来源数据管理的半自动化数据采集更新方法

Similar Documents

Publication Publication Date Title
CN104462156B (zh) 一种基于用户行为的特征提取、个性化推荐方法和系统
KR101168705B1 (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
US20120047180A1 (en) Method and system for processing a group of resource identifiers
US9141697B2 (en) Method, system and computer-readable storage medium for detecting trap of web-based perpetual calendar and building retrieval database using the same
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN106021583B (zh) 页面流量数据的统计方法及其系统
US20160103861A1 (en) Method and system for establishing a performance index of websites
US20090083266A1 (en) Techniques for tokenizing urls
CN103279567A (zh) 一种基于AJAX的Web数据采集方法及系统
CN112486708B (zh) 页面操作数据的处理方法和处理系统
CN103297469A (zh) 一种网站数据的采集方法及装置
Thakur et al. Quantitative measurement and comparison of effects of various search engine optimization parameters on Alexa Traffic Rank
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
CN107835132B (zh) 一种流量来源跟踪的方法及装置
WO2017124692A1 (zh) 查找表单页面和目标页面转化关系的方法和装置
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN103970800B (zh) 网页相关关键词的抽取处理方法和系统
CN103778217A (zh) 基于当前网页列表进行推荐的方法和系统
CN104391953B (zh) 检测网页更新的方法及装置
US8140508B2 (en) System and method for contextual commands in a search results page
CN103678628B (zh) 信息推送方法及系统
US20110197133A1 (en) Methods and apparatuses for identifying and monitoring information in electronic documents over a network
CN103617225B (zh) 一种关联网页搜索方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605

RJ01 Rejection of invention patent application after publication