CN106528556B - 网站访问数据的分析方法及装置 - Google Patents

网站访问数据的分析方法及装置 Download PDF

Info

Publication number
CN106528556B
CN106528556B CN201510573667.5A CN201510573667A CN106528556B CN 106528556 B CN106528556 B CN 106528556B CN 201510573667 A CN201510573667 A CN 201510573667A CN 106528556 B CN106528556 B CN 106528556B
Authority
CN
China
Prior art keywords
configuration information
url
matching
matching rule
mapping table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510573667.5A
Other languages
English (en)
Other versions
CN106528556A (zh
Inventor
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510573667.5A priority Critical patent/CN106528556B/zh
Publication of CN106528556A publication Critical patent/CN106528556A/zh
Application granted granted Critical
Publication of CN106528556B publication Critical patent/CN106528556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站访问数据的分析方法及装置,涉及信息技术领域,解决了无法根据归类的URL分析网站访问数据。本发明的主要技术方案为:首先获取统一资源定位符URL;然后将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则;若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,最后将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。本发明主要用于分析网站访问数据。

Description

网站访问数据的分析方法及装置
技术领域
本发明涉及信息技术领域,特别是涉及一种网站访问数据的分析方法及装置。
背景技术
随着信息技术的迅猛发展,越来越多的用户通过使用网站进行访问数据,然而为了掌握网站的各个指标数据,在对这些网站被访问数据进行分析时,通常以URL(UniformResource Locator,统一资源定位符)目录层级为维度对网站各个指标进行剖析,如统计网站的访问人数和综合浏览量等指标。根据URL目录层级对网站各个指标进行分析,可以很直观的展现各个URL目录层级的访问状况。但是,由于不同的URL地址会存在着链接到同一类功能页面的情况,或是由于链接到同一类功能页面的URL地址信息会出现变化。因此,需要一个有效的目录层级划分方法对具有相同业务意义的URL进行归类或合并。
目前,现有URL中的目录层级均按照符号“/”进行划分,如按照符号“/”可将URL为http://shop/2189023/menu划分成三个目录层级,划分的三个目录层级分别为shop、2189023、menu,因此按照符号“/”划分出的URL目录层级中的内容固定,从而无法根据现有的目录层级对相似的URL进行归类,进而无法根据归类的URL分析网站访问数据。
发明内容
有鉴于此,本发明实施例提供一种网站访问数据的分析方法及装置,主要目的是根据归类的URL分析网站访问数据。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种网站访问数据的分析方法,该方法包括:
获取统一资源定位符URL;
将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则;
若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL;
将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
另一方面,本发明实施例还提供一种网站访问数据的分析装置,该装置包括:
获取单元,用于获取统一资源定位符URL;
匹配单元,用于将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则;
提取单元,用于若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL;
分析单元,用于将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供了一种网站访问数据的分析方法及装置,首先将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与配置信息对应的各个URL,然后根据所述URL和从预置映射表中提取的URL进行归类分析网站访问数据,与目前按照符号“/”划分出的目录层级中的内容固定,无法对归类的URL分析网站访问数据相比,本发明实施例将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则根据所述URL和从预置映射表中提取的与配置信息对应的URL进行归类分析网站访问数据,从而实现了根据归类的URL分析网站访问数据。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种网站访问数据的分析方法流程图;
图2为本发明实施例提供的另一种网站访问数据的分析方法流程图;
图3为本发明实施例提供的一种网站访问数据的分析装置的结构示意图;
图4为本发明实施例提供的另一种网站访问数据的分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本实施例提供一种网站访问数据的分析方法,如图1所示,所述方法包括:
101、获取统一资源定位符URL。
其中,所述统一资源定位符URL可以通过日志信息获取,所述日志信息具体可以为各个网站的访问日志信息。
102、将所述URL与配置信息中的匹配规则分别进行匹配。
其中,所述配置信息中至少包括一个匹配规则,可以根据用户实际需求设置URL各个目录层级的配置信息。需要说明的是,配置信息中包括匹配规则、配置信息的标识信息,所述匹配规则包括匹配类型和匹配内容,配置信息的标识信息包括配置信息ID和配置信息名称,所述配置信息ID用于唯一标识所述配置信息,用于区分各个目录层级的配置信息,所述配置信息名称用于表示所述配置信息的层级意义。所述匹配类型可以为左匹配、右匹配、包含匹配、正则匹配等,所述匹配内容可以为一个字符串或者正则表达式,本发明实施例不做具体限定。对于本发明实施例,匹配规则当中设置的不同匹配类型和匹配内容,且所述匹配规则和匹配内容组合使用可以灵活的匹配获取的URL,从而提高了匹配URL的效率。
例如,对于URL为http://www.gov.cn/guowuyuan/gwy_hy.htm来说,可以根据需要将国务院层级的匹配规则中的匹配类型设置为左匹配,匹配内容设置为http://www.gov.cn/guowuyuan;将国务院会议层级的匹配规则中的匹配类型设置为左匹配,匹配内容设置为http://www.gov.cn/guowuyuan/gwy_hy,国务院会议层级的父层级为国务院层级。
103、若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL。
其中,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL。对于本发明实施例,所述配置信息的标识信息包括配置信息ID和配置信息名称,所述配置信息ID用于唯一标识所述配置信息,所述配置信息名称用于表示所述配置信息的层级意义,配置信息名称的内容具体可以根据实际需要进行设置,如可将配置信息中的匹配类型为左匹配、匹配内容为http://www.gov.cn/guowuyuan的匹配规则对应的配置信息名称设置为国务院,本发明实施例不做具体限定。在本发明实施例中,所述配置信息的标识信息中的配置信息名称可直观的表现出配置信息的真正意义,从而可使用户快速的了解到所述配置信息的层级意义,进而提高了用户体验。
例如,获取的URL为http://123/abc/3.htm,配置信息中存在两条匹配规则,匹配类型和匹配内容分别为左匹配、http://123,左匹配、http://124,将获取的URL和配置信息中的匹配规则分别进行匹配,经匹配所述URL能够和匹配类型和匹配内容分别为左匹配、http://123的匹配规则匹配成功,因此需要从预置映射表中提取与所述配置信息中的任一匹配规则匹配成功的所有的URL。
104、将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
其中,所述分析网络访问数据具体可以分析网站的访问人数和网站的综合浏览量等数据,本发明实施例不做具体限定。在本发明实施例中,由于配置信息中设置的多个匹配规则,可以实现相似的URL与同一个配置信息中的匹配规则分别匹配,从而可将相似的URL与同一配置信息匹配,进而可对与同一配置信息匹配成功的URL进行归类分析网站访问数据。由此,解决了不同的URL地址链接到同一类功能页面时,无法对不同的URL进行归类分析同一个功能页面的访问情况。
例如,存在两个相似的URL分别为http://123/abc/1/2、http://456/abc/2/5,并且两个URL均链接到同一类功能页面,若需要将两个URL进行归类分析对应功能页面的访问情况,则可以在配置信息中设置两个匹配规则,这两个匹配规则对应的匹配类型和匹配规则分别为左匹配、http://123,左匹配、http://456。则URL为http://123/abc/1/2能够和配置信息中匹配类型和匹配规则分别为左匹配、http://123的匹配规则匹配成功,URL为http://456/abc/2/5能够和配置信息中匹配类型和匹配规则分别为左匹配、http://456的匹配规则匹配成功。从而提取与所述配置信息匹配成功的URL,可以对相似的URL进行归类分析。
本发明实施例提供了一种网站访问数据的分析方法,首先将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与配置信息对应的各个URL,然后根据所述URL和从预置映射表中提取的URL进行归类分析网站访问数据,与目前按照符号“/”划分出的目录层级中的内容固定,无法对归类的URL分析网站访问数据相比,本发明实施例将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则根据所述URL和从预置映射表中提取的与配置信息对应的URL进行归类分析网站访问数据,从而实现了根据归类的URL分析网站访问数据。
本实施例提供另一种网站访问数据的分析方法,如图2所示,所述方法包括:
201、获取统一资源定位符URL。
其中,所述统一资源定位符URL可以通过日志信息获取,所述日志信息具体可以为各个网站的访问日志信息。
202、将所述URL与配置信息中的匹配规则分别进行匹配。
其中,所述配置信息中至少包括一个匹配规则。对于本发明实施例,所述将所述URL与配置信息中的匹配规则分别进行匹配之前,还包括:配置各个目录层级分别对应的配置信息,每个所述配置信息中包括匹配规则、配置信息的标识信息,所述匹配规则包括匹配类型和匹配内容,所述配置信息的标识信息包括配置信息ID和配置信息名称;将所述各个目录层级的配置信息进行保存。在本发明实施例中,可以根据实际需要预置URL各个目录层级的配置信息,如可对URL中重要的目录层级或是用户比较关注的目录层级预置配置信息,本发明实施例不做具体限定。
需要说明的是,所述配置信息ID是唯一标识的,用于区分各个目录层级的配置信息。所述匹配类型可以为左匹配、右匹配、包含匹配、正则匹配等,所述匹配内容可以为一个字符串或者正则表达式,本发明实施例不做具体限定。对于本发明实施例,匹配规则当中设置的不同匹配类型和匹配内容,且所述匹配规则和匹配内容组合使用可以灵活的匹配获取的URL,从而提高了匹配URL的效率。
例如,若需要对URL中的用户分析页面、电子商务分析页面和网站用户分析页面三个相似功能页面进行归类分析,可以将这三个页面的URL对应设置一个配置信息,以一个配置信息中的多个匹配规则分别匹配三个功能页面URL的方式实现相似URL的归类分析。根据上述需求,所述配置信息的标识信息对应的配置信息名称具体可以为“数据分析”,以“数据分析”直观的展现目录层级的意义,配置信息对应的配置信息ID可以为“Analysis1”,以“Analysis1”唯一标识所述配置信息,所述配置信息中的匹配规则对应的匹配类型和匹配内容具体可以为:左匹配、http://user Analysis,左匹配、http://business Analysis,左匹配、http://Web Analysis。
203、若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL。
其中,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL,对于本发明实施例,所述配置信息的标识信息包括配置信息ID和配置信息名称,所述配置信息ID用于唯一标识所述配置信息,而配置信息名称用于表示配置信息的名称,配置信息名称的内容具体可以根据实际需要进行设置,也可以根据配置信息中的匹配规则进行设置,本发明实施例不做具体限定。在本发明实施例中,所述配置信息的标识信息包括的配置信息名称可直观的表现出配置信息的真正意义,从而可使用户快速的了解到所述配置信息的层级意义,进而提高了用户体验。
对于本发明实施例,若所述配置信息不是目录层级中的最低级的配置信息,所述配置信息中还包括子级配置信息ID,所述从预置映射表中提取与所述配置信息对应的各个URL之前,还包括:获取所述配置信息中子级配置信息ID对应的子级配置信息;将所述URL与子级配置信息中的匹配规则分别进行匹配,所述子级配置信息中至少包括一个匹配规则;若所述URL与子级配置信息中的任一匹配规则匹配成功,则获取所述子级配置信息中子级配置信息ID对应的子级配置信息。其中,所述子级配置信息ID是唯一标识的,用于获取所述配置信息对应的子级的配置信息。
例如,如表1所示,获取的URL为http://books/chinese/tutoring/1.htm,则首先将所述URL和表1中当前规则配置信息ID为NO.1的配置信息中对应的匹配规则进行匹配,即和目录层级中最高级别的配置信息中的匹配规则进行匹配,若所述URL与当前规则配置信息ID为NO.1中的任一匹配规则匹配成功,则获取当前规则配置信息ID为NO.1对应的子级配置信息ID,在本例中所述URL能够和当前规则配置信息ID为NO.1中的匹配类型和匹配内容分别为左匹配、http://books的匹配规则匹配成功,因此获取当前规则配置信息ID为NO.1对应的子级配置信息ID为NO.2,然后根据获取的子级配置信息ID为NO.2,获取配置信息ID为NO.2对应的配置信息,再继续将所述URL和配置信息ID为NO.2的配置信息中对应的匹配规则进行匹配,若所述URL与当前规则配置信息ID为NO.2中的任一匹配规则匹配成功,则获取当前规则配置信息ID为NO.2对应的子级配置信息ID,在本例中所述URL能够和当前规则配置信息ID为NO.2中的匹配类型和匹配内容分别为左匹配、http://books/chinese的匹配规则匹配成功,因此获取当前规则配置信息ID为NO.2对应的子级配置信息ID为NO.3,根据子级配置信息ID为NO.3获取配置信息ID为NO.3的配置信息,再将所述URL和配置信息ID为NO.3的配置信息中匹配规则进行匹配,直到匹配完所有包含子级配置信息ID的配置信息或者所述URL与某一级别所有规则都不匹配。
表1
对于本发明实施例,所述若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL包括:获取与所述URL匹配成功的各个目录层级的配置信息;从所述预置映射表中提取与所述各个目录层级的配置信息均匹配成功的各个URL,所述预置映射表中保存有与各个目录层级的配置信息分别对应的标识信息和与所述各个目录层级的配置信息分别匹配成功的各个URL。
例如,如表1所示,获取的URL为http://books/chinese/tutoring/1.htm,所述URL能够和表中的配置信息ID为NO.1、NO.2和NO.3对应的匹配规则匹配成功,因此获取与所述URL匹配成功的配置信息ID为NO.1、NO.2和NO.3对应的配置信息,然后从预置映射表中提取能够和配置信息ID为NO.1、NO.2和NO.3对应的配置信息全部匹配成功的URL。在本发明实施例中,将所述URL与目录层级配置信息进行逐级匹配,然后根据匹配成功的各个目录层级的配置信息,从预置映射表中提取与各个目录层级的配置信息均匹配成功的URL,然后根据提取的与各个目录层级的配置信息均匹配成功的URL和获取的URL进行归类分析网站访问数据,可以进一步地提高分析网站访问数的精度。
204、将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
其中,所述分析网络访问数据具体可以分析网站的访问人数和网站的综合浏览量等数据,本发明实施例不做具体限定。在本发明实施例中,由于配置信息中设置的多个匹配规则,可以实现相似的URL与同一个配置信息中的匹配规则分别匹配,从而可将相似的URL与同一配置信息匹配,进而可对与同一配置信息匹配成功的URL进行归类分析网站访问数据。由此,解决了不同的URL地址链接到同一个功能页面时,无法对不同的URL进行归类分析同一个功能页面的访问情况。
对于本发明实施例,所述将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据包括:将所述URL和从所述预置映射表中提取的与所述各个目录层级的配置信息均匹配成功的URL进行归类分析网站访问数据。在本发明实施例中,将所述URL与目录层级配置信息进行逐级匹配,然后根据匹配成功的各个目录层级的配置信息,从预置映射表中提取与各个目录层级的配置信息均匹配成功的URL,然后根据提取的与各个目录层级的配置信息均匹配成功的URL和获取的URL进行归类分析网站访问数据,可以进一步地提高分析网站访问数的精度。
205、判断所述URL中的不同目录层级中是否存在与同一配置信息匹配成功的目录层级。
其中,所述URL中的不同目录层级是以符号“/”划分的目录层级,如可将URL为http://shop/2189023/menu划分为三个目录层级,分别为shop、2189023和menu层级。再将这三个目录层级与同一配置信息中的匹配规则进行匹配。如该配置信息中的匹配规则对应的匹配类型和匹配内容分别为左匹配、http://shop,左匹配、http://shop/2189023,在本例中,URL目录层级shop能够和配置信息中匹配类型和匹配内容为左匹配、http://shop的匹配规则匹配成功,URL目录层级2189023能够和配置信息中匹配类型和匹配内容为左匹配、http://shop/2189023的匹配规则匹配成功。
206、若存在,则将与同一配置信息匹配成功的目录层级进行合并。
在本发明实施例中,若URL中的不同目录层级中存在与同一配置信息匹配成功的目录层级,则将与同一配置信息匹配成功的目录层级进行合并。例如,URL为http://shop/2189023/menu对应的三个目录层级分别为shop、189023和menu,若配置信息中匹配规则对应的匹配类型和匹配内容分别为左匹配、http://shop,左匹配、http://shop/2189023。则URL目录层级shop能够和配置信息中匹配类型和匹配内容为左匹配、http://shop的匹配规则匹配成功,URL目录层级2189023能够和配置信息中匹配类型和匹配内容为左匹配、http://shop/2189023的匹配规则匹配成功。则将URL与同一配置信息匹配成功的目录层级shop和2189023进行合并。
对于本发明实施例,判断所述URL中的不同目录层级中是否存在与同一配置信息匹配成功的目录层级,若存在,则将与同一配置信息匹配成功的目录层级进行合并,从而可将URL中具有相同意义的目录层级进行合并,因此,解决了同一功能页面中的URL的目录层级在发生变化时,无法准确统计该功能页面的访问数据的问题。
207、将所述URL和与所述URL匹配成功的各个目录层级的配置信息分别对应的标识信息,保存在预置映射表中。
对于本发明实施例,将所述URL和与所述URL匹配成功的各个目录层级的配置信息分别对应的标识信息,保存在预置映射表中,可以实时对预置映射表中保存的内容进行更新,从而提高了分析网站访问数据的准确率。
对于本发明实施例,应用的场景可以具体可以为,但不仅限于此,获取的URL为http://phone/iphone/iphone6,配置信息中的匹配规则对应的匹配类型和匹配内容分别为左匹配、http://phone,左匹配、http://phone/iphone和左匹配、http://telephone,配置信息的标识信息对应的配置信息名称和配置信息ID分别为“电话”和“101”,所述配置信息对应的子级配置信息ID为“102”;配置信息ID为“102”的配置信息中的匹配规则对应的匹配类型和匹配内容分别为左匹配、http://phone/iphone。则首先将获取的URL与配置信息ID为“101”的配置信息中的匹配规则进行匹配,若所述URL与配置信息ID为“101”的配置信息中的任一匹配规则匹配成功,则获取配置信息ID为“101”的配置信息对应的子级配置信息ID,然后获取子级配置信息ID对应的配置信息,再将所述URL与子级配置信息ID对应的配置信息中的匹配规则继续进行匹配,直到匹配完所有包含子级配置信息ID的配置信息或者所述URL与某一级别所有规则都不匹配。在本应用场景中所述URL能够和配置信息ID为“101”的配置信息的匹配规则匹配成功,所以将所述URL和配置信息ID为“101”对应的子级配置信息中的匹配规则继续匹配,直到匹配完所有包含子级配置信息ID的配置信息或者所述URL与某一级别所有规则都不匹配。最后获取与所述URL匹配成功的各个目录层级的配置信息,从所述预置映射表中提取与各个目录层级的配置信息均匹配成功的URL,将所述URL和从所述预置映射表中提取的与各个目录层级的配置信息均对应的各个URL进行归类分析网站访问数据。
本发明实施例提供了另一种网站访问数据的分析方法,首先将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与配置信息对应的各个URL,然后根据所述URL和从预置映射表中提取的URL进行归类分析网站访问数据,与目前按照符号“/”划分出的目录层级中的内容固定,无法对归类的URL分析网站访问数据相比,本发明实施例将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则根据所述URL和从预置映射表中提取的与配置信息对应的URL进行归类分析网站访问数据,从而实现了根据归类的URL分析网站访问数据。
进一步地,作为对图1所示方法实施例的实现,本实施例还提供了一种网站访问数的分析装置,用以实现图1所示的方法实施例。如图3所示,所述装置包括:获取单元31、匹配单元32、提取单元33、分析单元34。
获取单元31,用于获取统一资源定位符URL。
匹配单元32,用于将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则。
提取单元33,用于若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL。
分析单元34,用于将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
需要说明的是,本发明实施例提供的一种网站访问数的分析装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
本发明实施例提供了一种网站访问数据的分析装置,首先将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与配置信息对应的各个URL,然后根据所述URL和从预置映射表中提取的URL进行归类分析网站访问数据,与目前按照符号“/”划分出的目录层级中的内容固定,无法对归类的URL分析网站访问数据相比,本发明实施例将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则根据所述URL和从预置映射表中提取的与配置信息对应的URL进行归类分析网站访问数据,从而实现了根据归类的URL分析网站访问数据。
进一步地,作为对图2所示方法实施例的实现,本实施例还提供了另一种网站访问数的分析装置,用以实现图2所示的方法实施例。如图4所示,所述装置包括:获取单元41、匹配单元42、提取单元43、分析单元44。
获取单元41,用于获取统一资源定位符URL。
匹配单元42,用于将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则。
提取单元43,用于若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL。
分析单元44,用于将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
进一步地,所述装置还包括:
配置单元45,用于配置各个目录层级分别对应的配置信息,每个所述配置信息中包括匹配规则、配置信息的标识信息,所述匹配规则包括匹配类型和匹配内容,所述配置信息的标识信息包括配置信息ID和配置信息名称。
保存单元46,用于将所述各个目录层级的配置信息进行保存。
进一步地,若所述配置信息不是目录层级中的最低级的配置信息。
所述配置单元45,还用于配置所述配置信息中的子级配置信息ID。
所述获取单元41,还用于获取所述配置信息中子级配置信息ID对应的子级配置信息。
所述匹配单元42,还用于将所述URL与子级配置信息中的匹配规则分别进行匹配,所述子级配置信息中至少包括一个匹配规则。
所述获取单元41,具体还用于若所述URL与子级配置信息中的任一匹配规则匹配成功,则获取所述子级配置信息中子级配置信息ID对应的子级配置信息。
进一步地,所述提取单元43包括:获取模块431、提取模块432。
所述获取模块431,用于获取与所述URL匹配成功的各个目录层级的配置信息。
所述提取模块432,用于从所述预置映射表中提取与所述各个目录层级的配置信息均匹配成功的URL,所述预置映射表中保存有与各个目录层级的配置信息分别对应的标识信息和与所述各个目录层级的配置信息分别匹配成功的各个URL。
所述分析单元44,具体用于将所述URL和从所述预置映射表中提取的与各个目录层级的配置信息均匹配成功的URL进行归类分析网站访问数据。
进一步地,所述装置还包括:
判断单元47,用于判断所述URL中的不同目录层级中是否存在与同一配置信息匹配成功的目录层级。
合并单元48,用于若存在与同一配置信息匹配成功的目录层级,则将与同一配置信息匹配成功的目录层级进行合并。
所述保存单元46,还用于将所述URL和与所述URL匹配成功的各个目录层级的配置信息分别对应的标识信息,保存在预置映射表中。
需要说明的是,本发明实施例提供的另一种网站访问数的分析装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述。
本发明实施例提供了另一种网站访问数据的分析装置,首先将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与配置信息对应的各个URL,然后根据所述URL和从预置映射表中提取的URL进行归类分析网站访问数据,与目前按照符号“/”划分出的目录层级中的内容固定,无法对归类的URL分析网站访问数据相比,本发明实施例将获取的URL与配置信息中匹配规则分别进行匹配,若所述URL与配置信息中的任一匹配规则匹配成功,则根据所述URL和从预置映射表中提取的与配置信息对应的URL进行归类分析网站访问数据,从而实现了根据归类的URL分析网站访问数据。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种网站访问数据的分析方法,其特征在于,包括:
获取统一资源定位符URL;
将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则,其中,所述匹配规则包括匹配类型和匹配内容,所述匹配内容包括字符串;
若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL;
将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
2.根据权利要求1所述的网站访问数据的分析方法,其特征在于,所述将所述URL与配置信息中的匹配规则分别进行匹配之前,还包括:
配置各个目录层级分别对应的配置信息,每个所述配置信息中包括匹配规则、配置信息的标识信息,所述匹配规则包括匹配类型和匹配内容,所述配置信息的标识信息包括配置信息ID和配置信息名称;
将所述各个目录层级的配置信息进行保存。
3.根据权利要求2所述的网站访问数据的分析方法,其特征在于,若所述配置信息不是目录层级中的最低级的配置信息,所述配置信息中还包括所述配置信息对应的子级配置信息ID,所述从预置映射表中提取与所述配置信息对应的各个URL之前,还包括:
获取所述配置信息中子级配置信息ID对应的子级配置信息;
将所述URL与子级配置信息中的匹配规则分别进行匹配,所述子级配置信息中至少包括一个匹配规则;
若所述URL与子级配置信息中的任一匹配规则匹配成功,则获取所述子级配置信息中子级配置信息ID对应的子级配置信息。
4.根据权利要求3所述的网站访问数据的分析方法,其特征在于,所述若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL包括:
获取与所述URL匹配成功的各个目录层级的配置信息;
从所述预置映射表中提取与所述各个目录层级的配置信息均匹配成功的URL,所述预置映射表中保存有与各个目录层级的配置信息分别对应的标识信息和与所述各个目录层级的配置信息分别匹配成功的各个URL;
所述将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据包括:
将所述URL和从所述预置映射表中提取的与所述各个目录层级的配置信息均匹配成功的URL进行归类分析网站访问数据。
5.根据权利要求1-4中任一所述的网站访问数据的分析方法,其特征在于,所述将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据之后,还包括:
判断所述URL中的不同目录层级中是否存在与同一配置信息匹配成功的目录层级;
若存在,则将与同一配置信息匹配成功的目录层级进行合并。
6.根据权利要求5中所述的网站访问数据的分析方法,其特征在于,所述将与同一配置信息匹配成功的目录层级进行合并之后,还包括:
将所述URL和与所述URL匹配成功的各个目录层级的配置信息分别对应的标识信息,保存在预置映射表中。
7.一种网站访问数据的分析装置,其特征在于,包括:
获取单元,用于获取统一资源定位符URL;
匹配单元,用于将所述URL与配置信息中的匹配规则分别进行匹配,所述配置信息中至少包括一个匹配规则,其中,所述匹配规则包括匹配类型和匹配内容,所述匹配内容包括字符串;
提取单元,用于若所述URL与所述配置信息中的任一匹配规则匹配成功,则从预置映射表中提取与所述配置信息对应的各个URL,所述预置映射表中保存有所述配置信息的标识信息和与所述配置信息匹配成功的各个URL;
分析单元,用于将所述URL和从预置映射表中提取的各个URL进行归类分析网站访问数据。
8.根据权利要求7所述的网站访问数据的分析装置,其特征在于,所述装置还包括:
配置单元,用于配置各个目录层级分别对应的配置信息,每个所述配置信息中包括匹配规则、配置信息的标识信息,所述匹配规则包括匹配类型和匹配内容,所述配置信息的标识信息包括配置信息ID和配置信息名称;
保存单元,用于将所述各个目录层级的配置信息进行保存。
9.根据权利要求8所述的网站访问数据的分析装置,其特征在于,若所述配置信息不是目录层级中的最低级的配置信息,
所述配置单元,还用于配置所述配置信息中对应的子级配置信息ID;
所述获取单元,还用于获取所述配置信息中子级配置信息ID对应的子级配置信息;
所述匹配单元,还用于将所述URL与子级配置信息中的匹配规则分别进行匹配,所述子级配置信息中至少包括一个匹配规则;
所述匹配单元,具体还用于若所述URL与子级配置信息中的任一匹配规则匹配成功,则获取所述子级配置信息中子级配置信息ID对应的子级配置信息。
10.根据权利要求9所述的网站访问数据的分析装置,其特征在于,所述提取单元包括:获取模块、提取模块,
所述获取模块,用于获取与所述URL匹配成功的各个目录层级的配置信息;
所述提取模块,用于从所述预置映射表中提取与所述各个目录层级的配置信息均匹配成功的各个URL,所述预置映射表中保存有与各个目录层级的配置信息分别对应的标识信息和与所述各个目录层级的配置信息分别匹配成功的各个URL;
所述分析单元,具体用于将所述URL和从所述预置映射表中提取的与所述各个目录层级的配置信息均匹配成功的URL进行归类分析网站访问数据。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的网站访问数据的分析方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求6中任意一项所述的网站访问数据的分析方法。
CN201510573667.5A 2015-09-10 2015-09-10 网站访问数据的分析方法及装置 Active CN106528556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510573667.5A CN106528556B (zh) 2015-09-10 2015-09-10 网站访问数据的分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510573667.5A CN106528556B (zh) 2015-09-10 2015-09-10 网站访问数据的分析方法及装置

Publications (2)

Publication Number Publication Date
CN106528556A CN106528556A (zh) 2017-03-22
CN106528556B true CN106528556B (zh) 2019-07-30

Family

ID=58346278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510573667.5A Active CN106528556B (zh) 2015-09-10 2015-09-10 网站访问数据的分析方法及装置

Country Status (1)

Country Link
CN (1) CN106528556B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908632B (zh) * 2017-07-26 2020-04-28 深圳壹账通智能科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102789502A (zh) * 2012-07-17 2012-11-21 北京奇虎科技有限公司 网站的扫描方法和装置
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN103324669A (zh) * 2013-05-20 2013-09-25 北京奇虎科技有限公司 一种对网页书签进行处理的方法和客户端
CN103701765A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 一种短域名的监控方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN102955810A (zh) * 2011-08-26 2013-03-06 中国移动通信集团公司 一种网页分类方法和设备
CN102789502A (zh) * 2012-07-17 2012-11-21 北京奇虎科技有限公司 网站的扫描方法和装置
CN103701765A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 一种短域名的监控方法、装置和系统
CN103324669A (zh) * 2013-05-20 2013-09-25 北京奇虎科技有限公司 一种对网页书签进行处理的方法和客户端

Also Published As

Publication number Publication date
CN106528556A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
US10592515B2 (en) Surfacing applications based on browsing activity
US8898583B2 (en) Systems and methods for providing information regarding semantic entities included in a page of content
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN110059255A (zh) 一种浏览器导航方法、装置及介质
CN106528894B (zh) 设置标签信息的方法及装置
CN105868290B (zh) 一种展现搜索结果的方法及装置
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
US20130110818A1 (en) Profile driven extraction
US11748429B2 (en) Indexing native application data
CN106446113A (zh) 移动大数据解析方法及装置
US10073900B2 (en) Presenting a trusted tag cloud
CN104123321B (zh) 一种确定推荐图片的方法及装置
US20140351681A1 (en) Method, apparatus and system for controlling address input
CN106919593B (zh) 一种搜索的方法和装置
CN106528556B (zh) 网站访问数据的分析方法及装置
CN108108381B (zh) 页面的监测方法及装置
CN104834467A (zh) 纸质页面中的笔迹分享方法和系统
CN106611022B (zh) 提高网站站内搜索效率的方法和装置
US20180081884A1 (en) Method and apparatus for processing input sequence, apparatus and non-volatile computer storage medium
CN104462151B (zh) 评估网页发布时间的方法和相关装置
US10037550B2 (en) System and method for identifying offline consumer interests for online personalization by leveraging multimedia inputs
US9094452B2 (en) Method and apparatus for locating phishing kits
WO2014161454A1 (zh) 一种用于半封闭数据环境下的数据搜索的方法和装置
JP2013254366A (ja) 情報処理装置および関連語判断方法
US9830375B2 (en) Apparatus for selecting and providing media content on social network service and method thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant