CN107066510A

CN107066510A - 一种信息处理方法及装置

Info

Publication number: CN107066510A
Application number: CN201710047526.9A
Authority: CN
Inventors: 骆宗伟; 韩帅; 王博仁; 黄志云; 刘金群
Original assignee: Shenzhen Aotian Technology Co ltd; Southern University of Science and Technology
Current assignee: Shenzhen Aotian Technology Co ltd; Southern University of Science and Technology
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-08-18
Anticipated expiration: 2037-01-22
Also published as: CN107066510B

Abstract

本发明公开了一种信息处理方法及装置。该方法包括：根据样本URL确定基于多媒体资源存放路径的特征库；按照分隔符分割目标URL获得所述目标URL的特征字符串；将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。本发明提供的方法可快速高效地识别网关数据所记录的与多媒体资源相关的URL，进而实现快速高效地对网关数据中的URL进行清洗。

Description

一种信息处理方法及装置

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种信息处理方法及装置。

背景技术

随着互联网的快速发展，运营商所拥有的网关数据越来越多，从网关数据中挖掘出有价值的信息已经成为当下的一个研究热点。其中，网关数据为客户端与服务器通信过程中网关产生的日志记录，网关数据中会记录源互联网协议(Internet Protocol，IP)地址、统一资源定位符(Uniform Resource Locator，URL)、目标互联网协议(InternetProtocol，IP)地址、操作系统、操作系统版本、设备信息、用户代理(User Agent，UA)和请求时间等信息。

目前网关数据挖掘中数据清洗的方法，主要是通过网络爬虫获取所有网站的网页，建立一个有效URL库，并将网关数据中的URL与建立的有效URL库进行匹配，若匹配成功，则网关数据中的URL为有效URL，若未匹配成功，则网关数据中的URL为无效URL。

然而，由于网页的URL不是固定不变的，有的网页对应的URL经常更新，经过一段时间后，根据建立的有效URL库，无法满足对网关数据进行数据清洗需求。若通过在有效URL库中不断增加更新的URL，实现通过不断更新有效URL库来解决上述问题，则随着有效URL库中有效URL的数量的增加，匹配效率会大幅下降，由此，无法根据有效URL库高效地确定网关数据中的有效URL。

发明内容

本发明提供一种信息处理方法及装置，以实现快速高效地对网关数据进行清洗。

第一方面，本发明实施例提供了一种信息处理方法，该方法包括：

根据样本URL确定基于多媒体资源存放路径的特征库；

按照分隔符分割目标URL获得所述目标URL的特征字符串；

将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。

第二方面，本发明实施例还提供了一种信息处理装置，该装置包括：

特征库建立模块，用于根据样本URL确定基于多媒体资源存放路径的特征库；

字符串获取模块，用于按照分隔符分割目标URL获得所述目标URL的特征字符串；

URL标记模块，用于将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。

本发明通过根据样本URL确定基于多媒体资源存放路径的特征库；按照分隔符分割目标URL获得目标URL的特征字符串；将目标URL的特征字符串与特征库进行匹配，标记匹配成功的特征字符串对应的目标URL，可快速高效地识别并滤除网关数据所记录的与多媒体资源相关的URL，进而实现快速高效地对网关数据中URL进行清洗。

附图说明

图1是本发明实施例一中的一种信息处理方法的流程图；

图2是本发明实施例二中的一种信息处理方法的流程图；

图3是本发明实施例二中的网站拓扑连接结构的示意图；

图4是本发明实施例三中的一种信息处理装置的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种信息处理方法的流程图，本实施例可适用于需对网关数据进行清洗情况，该方法可以由信息处理装置来执行。参见图1，本实施例提供的方法具体包括如下步骤：

步骤110、根据样本URL确定基于多媒体资源存放路径的特征库。

其中，样本URL为统计用户某一特定上网行为所确定的一个或多个网站的URL，如若需统计具有购车意愿的用户，则可将汽车之家、易车网和\或太平洋汽车网等网站的URL作为样本URL。

对于样本URL的获取方式本发明不做限定，如可通过抓包软件抓取网站的URL作为样本URL，或通过客户端访问网站，查看源代码获取网站的URL作为样本URL等。

在用户通过终端上安装的客户端进行网站的页面的访问时，如浏览器客户端或新闻客户端等，需要先向服务器发送超文本标记语言(HyperText Mark-up Language，HTML)请求，从服务器下载HTML文档，并从该HTML文档中解析出多媒体资源请求，再依据多媒体资源请求，从服务器下载所需要的多媒体资源，最后利用HTML文档和该多媒体资源进行页面展现，从而实现页面的完全加载。然而，多媒体资源为访问页面过程中页面自动加载的资源，为网关数据中与统计用户行为无关的信息，因此，需将网关数据中与多媒体资源相关的URL滤除。

其中，多媒体资源包括页面所展现的图片信息、视频信息和音频信息等，还可包括脚本语言,如JavaScript(JS)和Hypertext Preprocessor(PHP)等。

基于网站中多媒体资源存放的路径比较固定，因此在获取样本URL后，可对获取的样本URL进行分析，根据获取的样本URL分析网站的多媒体资源存放路径，从而根据多媒体资源存放路径确定特征库。

示例性的，以样本URL来源于汽车之家网站为例，利用抓包软件抓取汽车之家网站的URL作为样本URL，通过对样本URL分析，可确定在访问汽车之家网站的页面时，页面自动加载的图片信息全部存放在automing路径下，如http://x.autoimg.cn/news/index/img/ 20110803/lazyload140.png，又如http://car1.m.autoimg.cn/logo/fct/100/ 129302271108651250.jpg，因此，可将automing字符串作为特征放入特征库，还可根据其他多媒体资源，如脚本语言，确定JavaScript(JS)和Hypertext Preprocessor(PHP)脚本语言存放的路径中均包括字符串JS或php，因此，将JS和php字符串作为特征放入特征库中，另外根据对样本URL的分析，确定存放路径中包括Ajax、ahsx、admaster和Deliver字符串的URL均为与统计用户行为无关的URL，因此，还可将Ajax、ahsx、admaster和Deliver字符串作为特征放入特征库中，由此，建立基于多媒体资源存放路径的特征库。

步骤120、按照分隔符分割目标URL获得目标URL的特征字符串。

示例性的，可按照分割符“://”、“.”和“/”分割目标URL，从而获得目标URL的多个特征字符串。

如目标URL为http://x.autoimg.cn/news/js/jserror.js？t＝20151124，则按照分割符“://”、“.”和“/”分割，可获得http、x、autoimg、cn、news、js、jserror、和js？t＝20151124多个特征字符串。

步骤130、将目标URL的特征字符串与特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。

将分割后得到的目标URL的特征字符串与特征库中的字符串进行匹配，若特征库中存在与目标URL的特征字符串相同的字符串，则匹配成功，标记或删除匹配成功的特征字符串对应的目标URL，以滤除访问网站页面时，与页面自动加载的多媒体资源相关的URL。

示例性的，按照分割顺序，依次将分割后得到的目标URL的特征字符串与特征库进行匹配，如依次将http、x、autoimg、cn、news、js、jserror、和js？t＝20151124和特征库中的automing、JS、php、Ajax、ahsx、admaster和Deliver字符串进行匹配，若某一特征字符串与特征库中的字符串匹配成功，则停止后面特征字符串与特征库的匹配，并标记或删除该目标URL。

优选的，特征库为哈希表，通过建立哈希表，在哈希表中查询目标URL的特征字符串，可大大降低匹配的查询复杂度。

本发明实施例通过根据样本URL确定基于多媒体资源存放路径的特征库；按照分隔符分割目标URL获得目标URL的特征字符串；将目标URL的特征字符串与特征库进行匹配，标记匹配成功的特征字符串对应的目标URL，可快速高效地识别网关数据所记录的与多媒体资源相关的URL，进而实现快速高效地对网关数据中URL进行清洗。

实施例二

图2为本发明实施例二提供的一种信息处理方法的流程图，本实施例为在实施例一的基础上进行进一步优化。参见图2，本实施例提供的方法包括：

步骤210、根据样本URL确定基于多媒体资源存放路径的特征库。

步骤220、若网关数据中URL缺失，则根据网站拓扑连接结构填充URL。

在通过客户端访问网站的页面时，有可能由于解析失败或其他原因，导致网关数据中出现URL缺失的情况，可根据网站拓扑连接结构填充缺失的URL。

网站的各页面会存在超连接，将不同的页面联系起来。图3为某一网站的拓扑连接结构的示意图。如图3所示，用有向图表示网站拓扑连接结构，结点表示网站中的页面，有向边表示页面超链接。如图3所示，页面A与页面B存在超链接，则可从页面A中直接访问页面B，页面C与页面B不存在超链接，若从页面C访问页面B，需从页面C返回页面A再进入页面B。则若根据网关数据中，缺失URL的前后超链接页面的URL所对应的页面在网站拓扑连接结构中的位置，确定缺失URL在网站拓扑连接结构中的位置，则可将该位置所对应的URL确定为缺失的URL，实现缺失URL的填充。从而，通过填充缺失的URL，使得网关数据中的信息更加完整，在网关数据挖掘过程中的用户行为分析或用户会话识别等方面可进行更加准确地分析和识别。

示例性的，若在网关数据中，缺失URL的下一超链接页面的URL对应页面E，则根据网站拓扑连接结构确定缺失URL为页面B对应的URL。若网关数据中缺失URL的下一超链接页面的URL对应页面H，则根据网站拓扑连接结构可确定缺失URL可能为页面F或页面G对应的URL，则可在缺失URL之前的预设个数的超链接页面URL中确定与页面F和页面G具有超链接关系的URL，若有多个与页面F和页面G具有超链接关系的URL，如在预设个数的超链接页面URL中包括页面B、页面C和页面D对应的URL，则将页面B、页面C和页面D对应的URL所对应的请求时间与缺失URL对应的请求时间最接近的作为缺失URL的来源，如若页面C的请求时间与缺失URL对应的请求时间最接近，则根据网站拓扑连接结构可确定缺失URL为页面F对应的URL。

其中，超链接页面为网站拓扑连接结构中所对应的页面，即网站页面的源代码中a标签内的URL对应的页面。

步骤230、按照分隔符分割目标URL获得目标URL的特征字符串。

步骤240、将目标URL的特征字符串与特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。

步骤250、若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且目标URL不是超链接页面，则标记目标URL。

优选的，为了保证将与自动加载的多媒体资源相关的URL尽可能滤除，在通过特征库匹配进行滤除后，可通过若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且目标URL不是超链接页面，则标记目标URL，进行进一步优化，对与自动加载的多媒体资源相关的URL进行进一步滤除。

若目标URL的请求时间与其前一URL的请求时间的时间间隔小于第三时间阈值，则可认为目标URL为页面加载过程中与自动加载的多媒体资源相关的URL，然而若在上一页面加载过程中，用户通过加载的页面点击了下一个页面，则下一页面的URL的请求时间与其前一URL的请求时间可能小于第三时间阈值，但下一页面的URL为用户点击的页面，不是自动加载的页面，不应进行滤除，因此可根据网站拓扑连接结构，确定目标URL是否为网站拓扑连接结构中对应的页面，即是否为超链接页面，若目标URL不是超链接页面，则认为该目标URL为与自动加载的多媒体资源相关的URL，标记该目标URL。由此，在与特征库进行匹配之后，可进一步滤除部分与多媒体资源相关的URL。

示例性的，第三时间阈值可为0.5秒、1秒或2秒。

步骤260、获取目标URL的页面停留时间。

根据网关数据中记录的目标URL对应的请求时间以及该目标URL的下一目标URL对应的请求时间的差，可获取目标URL的页面停留时间。

步骤270、若页面停留时间小于第一时间阈值或大于第二时间阈值，则标记目标URL。

若目标URL的页面停留时间小于第一时间阈值，则确定该目标URL对应的页面不是用户的目的页面，若检测到的URL的页面停留时间大于第二时间阈值，则认为用户已经终止对该页面的访问，如用户已离开设备，也可认为该页面不是用户的目的页面，则若页面停留时间小于第一时间阈值或大于第二时间阈值，对该目标URL标记或删除，滤除不是用户目的页面的目标URL。

其中，目的页面指根据用户需求用户所访问的页面。页面停留时间小于第一时间阈值或大于第二时间阈值，认为该页面不符合用户需求，不是用户的目的页面。

示例性的，第一时间阈值可为5秒、10秒或15秒，第二时间阈值可为60分钟、1小时或2小时。

由此，在通过将目标URL的特征字符串与特征库进行匹配，标记匹配成功的特征字符串对应的目标URL，实现滤除网关数据中记录的访问页面过程中自动加载的多媒体资源相关的URL后，再次通过确定页面停留时间小于第一时间阈值或大于第二时间阈值，进一步滤除非用户目的页面。

步骤280、根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数的设备。

步骤290、若是，则对IP地址进行标记。

由于同一路由设备下的不同设备，网关数据中所记录的源IP地址为同一IP地址，则在公共IP地址下可能存在较多用户，在统计用户行为过程中，会将同一公共IP地址均视为同一用户，则可根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数设备，进而确定该IP地址是否为公共IP地址。

示例性的，若在源IP地址相同的网关数据中，具有超过预设个数的不同的用户代理，则确定该源IP地址下存在超过预设个数的设备，将该源IP地址进行标记，确定其为公共IP地址。

其中，用户代理是一个特殊字符串头，使得服务器能够识别客户端使用的操作系统及版本、CPU类型和浏览器及版本等。

示例性的，若在源IP地址相同的网关数据中，具有超过预设个数的不同的设备信息，则确定该源IP地址下存在超过预设个数的设备，则将该源IP地址进行标记，将其确定为公共IP地址。

示例性的，预设个数可为20、50或100。

本发明实施例通过根据网站拓扑连接结构填充网关数据中缺失的URL，使得网关数据中的URL更加完善；通过若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且目标URL不是超链接页面，则标记目标URL，实现对与自动加载的多媒体资源相关的URL进行进一步地滤除；通过若页面停留时间小于第一时间阈值或大于第二时间阈值，则标记目标URL，实现在滤除与自动加载的多媒体资源相关的URL后，进一步滤除不是用户的目的页面；通过根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数的设备，若是，则对IP地址进行标记，实现在滤除与自动加载的多媒体资源相关的URL后，进一步对公共IP地址进行识别。

实施例三

图4为本发明实施例三提供的一种信息处理装置的结构框图。该装置可由软件和/或硬件实现。如图4所示，该装置包括：特征库建立模块310、字符串获取模块320和URL标记模块330。

特征库建立模块310，用于根据样本URL确定基于多媒体资源存放路径的特征库；

字符串获取模块320，用于按照分隔符分割目标URL获得所述目标URL的特征字符串；

URL标记模块330，用于将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL。

上述方案中，可选的是，还包括：

时间获取模块，用于获取目标URL的页面停留时间；

目标标记模块，用于若所述页面停留时间小于第一时间阈值或大于第二时间阈值，则标记所述目标URL。

上述方案中，可选的是，还包括：请求时间标记模块：

若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且检测到的所述目标URL不是超链接页面，则标记所述目标URL。

上述方案中，可选的是，还包括：IP地址标记模块，具体用于：

根据网关数据中的日志信息确定同一IP地址下是否存在超过预设个数的设备；

若是，则对所述IP地址进行标记。

上述方案中，可选的是，还包括：URL填充模块，具体用于：

若网关数据中URL缺失，则根据网站拓扑连接结构填充所述URL。

上述装置可执行本发明实施例一和实施例二所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例一和实施例二所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息处理方法，其特征在于，包括：

根据样本URL确定基于多媒体资源存放路径的特征库；

按照分隔符分割目标URL获得所述目标URL的特征字符串；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL之后，还包括：

获取目标URL的页面停留时间；

若所述页面停留时间小于第一时间阈值或大于第二时间阈值，则标记所述目标URL。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL之后，还包括：

若目标URL的请求时间与前一URL的请求时间的时间间隔小于第三时间阈值且所述目标URL不是超链接页面，则标记所述目标URL。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标URL的特征字符串与所述特征库进行匹配，标记匹配成功的特征字符串对应的目标URL之后，还包括：

若是，则对所述IP地址进行标记。

5.根据权利要求1所述的方法，其特征在于，所述按照分隔符分割目标URL获得所述目标URL的特征字符串之前，还包括：

6.一种信息处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

时间获取模块，用于获取目标URL的页面停留时间；

8.根据权利要求6所述的装置，其特征在于，还包括请求时间标记模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，还包括IP地址标记模块，具体用于：

若是，则对所述IP地址进行标记。

10.根据权利要求6所述的装置，其特征在于，还包括URL填充模块，具体用于：