CN107590169A

CN107590169A - 一种运营商网关数据的预处理方法及系统

Info

Publication number: CN107590169A
Application number: CN201710245857.3A
Authority: CN
Inventors: 骆宗伟; 韩帅; 李斌; 刘金群; 王博仁; 陈圣铎; 周兴友; 杨谦
Original assignee: Shenzhen Aotain Technology Co Ltd; Southwest University of Science and Technology
Current assignee: Shenzhen Aotain Technology Co Ltd; Southwest University of Science and Technology
Priority date: 2017-04-14
Filing date: 2017-04-14
Publication date: 2018-01-16
Anticipated expiration: 2037-04-14
Also published as: CN107590169B

Abstract

本发明属于数据处理技术领域，提出一种运营商网关数据的预处理方法及系统。所述预处理方法包括：获取运营商网关的日志数据；根据预设的过滤规则对所述日志数据进行过滤；利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；对所述目标数据集进行结构化处理，得到结构化的目标数据集；将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。与传统的数据预处理方法相比，本发明提出的数据预处理方法对运营商网关服务器的日志数据的处理效果获得大幅提升。

Description

一种运营商网关数据的预处理方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种运营商网关数据的预处理方法及系统。

背景技术

随着互联网技术的高速发展，对各个运营商的网关服务器中存在的日志数据进行挖掘分析，成为相关技术人员的重要工作。对日志数据进行挖掘分析有助于改进互联网站点结构，获取用户的访问行为特点，进而确定用户的访问兴趣所在。

所述日志数据的挖掘过程主要包括数据预处理、数据建模、人群分类和用户画像等多个步骤，其中数据预处理效果的好坏直接影响后续步骤能否顺利执行。然而，运营商网关服务器的日志数据与普通的web站点数据相比存在大量各种类型的干扰数据，传统的数据预处理方法对运营商网关服务器的日志数据的处理效果不佳，无法满足实际需求。

发明内容

有鉴于此，本发明实施例提供了一种运营商网关数据的预处理方法及系统，旨在解决目前的数据预处理方法对运营商网关服务器的日志数据的处理效果不佳的问题。

本发明实施例的第一方面提供了一种运营商网关数据的预处理方法，包括：

获取运营商网关的日志数据；

根据预设的过滤规则对所述日志数据进行过滤；

利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；

对所述目标数据集进行结构化处理，得到结构化的目标数据集；

将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。

本发明实施例的第二方面提供了一种运营商网关数据的预处理系统，包括：

数据获取模块，用于获取运营商网关的日志数据；

数据过滤模块，用于根据预设的过滤规则对所述日志数据进行过滤；

数据提取模块，用于利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；

结构化模块，用于对所述目标数据集进行结构化处理，得到结构化的目标数据集；

目标用户确定模块，用于将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。

本发明实施例中，获取运营商网关的日志数据；根据预设的过滤规则对所述日志数据进行过滤；利用正则表达式从所述过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；对所述目标数据集进行结构化处理，得到结构化的目标数据集；将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。上述过程针对运营商网关日志数据的特点作了针对性的处理，首先对日志数据中存在的各类干扰URL进行过滤，然后从日志数据中提取出包含搜索关键词字段的目标数据集，对目标数据集进行了结构化处理，能大幅提高与目标字符串进行匹配时的准确度，进而获取到准确的目标用户。与传统的数据预处理方法相比，本发明实施例提出的运营商网关数据的预处理方法对运营商网关服务器的日志数据的处理效果获得大幅提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例提供的一种运营商网关数据的预处理方法的一个实施例的流程图；

图1B是图1A中步骤102的一个实施例的流程图；

图1C是图1A中步骤104的一个实施例的流程图；

图1D是图1A中步骤105的一个实施例的流程图；

图2是本发明实施例提供的一种运营商网关数据的预处理方法的另一个实施例的流程图；

图3是本发明实施例提供的一种运营商网关数据的预处理系统的一个实施例的结构图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例提供了一种运营商网关数据的预处理方法及系统，旨在解决目前的数据预处理方法对运营商网关服务器的日志数据的处理效果不佳的问题。

请参阅图1A，本发明实施例中一种运营商网关数据的预处理方法的一个实施例包括：

101、获取运营商网关的日志数据；

运营商网关的日志数据与传统的Web日志数据相比主要存在以下几点不同：(1)在对于用户的描述上，Web站点端数据以IP的形式对于用户进行锁定，而运营商网关数据通过用户名的形式锁定用户端的出口设备；(2)在对于站点的描述上，Web站点端数据仅包含该站点域名相关的URL，具有相对统一的格式，而运营商网关数据中则包含向不同域名下不同URL的请求，不同站点的URL还具有不同的格式，同一URL被反复访问的概率低；(3)在对于访问信息的描述上，Web站点端数据可以包含用户对于某页面的访问起始及终止时间，而运营商网关数据中仅包含对于特定URL的请求时间；(4)运营商网关数据中包含大量的广告信息URL、恶意URL、多媒体资源URL以及爬虫程序产生的URL等无法利用的日志数据。请参阅表1，示出了运营商网关日志数据包含的主要信息字段。

表1

比如，以下是一条从运营商网关中获取的深圳某用户于2016年1月访问“爱奇异”的日志数据：

44306|075500000XXX@163.gd|183.14.67.XXX|msg.iqiyi.com|http://msg.iqiyi.com/b？t＝11pf＝201p＝11p1＝114s1＝0ct＝140819_adsynadsyn＝1brinfo＝IE_IE8_8.0.6001.18702_1os＝Windows％20XPrn＝4738u＝stpibdrs7xfin627eh3wwl5d7gr4apxhv＝5.1.9.1812||null|null|null|null|null|20160110013344|||0||0|Qiyi List Client PC 5.1.9.1812|106.38.219.49|10d8|50|shenzhen|20160110

可见，上述记录中包含了表1中所列举的所有属性字段，以分隔符|对各个属性字段进行分隔，比如44306代表区域码，183.14.67.XXX代表源IP等等，其中还存在很多字段的值为空值或者“null”值。

步骤101中将运营商网关中保存的日志数据获取过来，以进行后续的数据预处理步骤。

102、根据预设的过滤规则对所述日志数据进行过滤；

由于运营商网关的日志数据中包含大量的干扰数据，在数据预处理过程中首先需要对所述日志数据进行过滤，所采用的过滤规则根据干扰数据的种类和特点合理设置。

进一步的，请参阅图1B，步骤102具体可以包括：

1021、过滤所述日志数据中的无效URL，所述无效URL为对应网页页面不存在的URL或者由于软件和操作系统自动下载更新而产生的URL；

针对对应网页页面不存在的URL，可以设定一个自动读取URL内容的程序脚本，计算所述URL内容中的字符串数量，如果所述字符串数量小于一定的阈值(比如100)则将对应的URL判定为对应网页页面不存在的无效URL，将其过滤。针对由于软件和操作系统自动下载更新而产生的无效URL，可以采用以下基于时间建库的方法进行过滤：统计凌晨时间段1:00至5:00内整个运营商网关中日志数据的URL分布情况，找出其中访问频次高的URL，将这些于凌晨时段访问频次高的URL视作由于软件和操作系统自动下载更新而产生的无效URL；建立过滤库，将完整时间段(24小时)的日志数据中的无效URL过滤。上述过程中，在找到凌晨时间段访问频次高的URL后，获取这些URL的前缀信息，所述前缀信息可以是网页地址中最后一个斜杠之前的部分。在进行过滤时，可以设置一个相同前缀数量阈值(比如10、20或30等)，将完整时间段内相同前缀信息的网页地址超过所述数量阈值的日志信息视作无效URL进行过滤。

1022、过滤所述日志数据中的恶意URL；

经过统计分析，日志数据中的恶意URL一般具有较多的下划线“划线、连接符“接符或斜杠“/”等符号，因此可以将这些符号视为恶意字符。当某条日志数据的网页地址中出现超过一定数量(可设为10、20或30等)的恶意字符时，可将该条日志数据作为恶意URL进行过滤。

1023、过滤所述日志数据中由爬虫程序产生的URL；

由于互联网中存在大量的爬虫程序，它们会产生大量的干扰URL，给后续的数据预处理过程带来不良影响。针对爬虫程序产生URL的特点，可以查询哪些IP地址访问了站点robot.txt文件，将访问了站点robot.txt文件的IP地址对应的相关URL视作由爬虫程序产生的URL，对这些URL进行过滤。

1024、过滤所述日志数据中由于自动下载多媒体资源而产生的URL。

用户在打开网页请求时，很多网页会根据HTML超文本标记自动下载包含图像、声音、动画或视频等多媒体附属文件。然而，下载这些文件时所产生的URL非但不是有用的数据信息，还会对后续的站点频次统计带来不利影响，因此需要将这些URL过滤。由于自动下载多媒体资源而产生的URL中包含的文件名后缀一般为gif、jpeg、swf、css、js、cgi或map等各类多媒体文件后缀，因此可以将包含这些文件名后缀的URL视作由于自动下载多媒体资源而产生的URL进行过滤。

更进一步的，由于大多数网站的多媒体资源的存放路径地址是相对固定的，还可以利用以下基于网站多媒体资源存放路径的过滤方法进行过滤，步骤1024具体可以包括：

(1)将所述日志数据按照分隔符进行分割，得到对应的字符串；

(2)将所述对应的字符串与预设的过滤字符串作匹配，将匹配成功的所述字符串所对应的日志数据确定为由于自动下载多媒体资源而产生的URL，所述过滤字符串包括多媒体资源的存放路径信息；

(3)过滤所述由于自动下载多媒体资源而产生的URL。

首先将日志数据按照分隔符进行分割，得到对应的多个字符串，这些字符串可以称作特征；所述过滤字符串包含多媒体资源的存放路径信息，可以称作过滤特征，将所述特征与过滤特征进行匹配，若匹配成功，则将对应的日志数据视作由于自动下载多媒体资源而产生的URL进行过滤。

比如，通过抓包软件分析网站汽车之家的URL时发现汽车之家网站把全部图片资源都存放在autoimg路径下，利用同样方法可以发现Ajax、ahsx、JS、admaster、Deliver和php等其它多媒体资源的存放路径。把这些路径作为过滤字符串，几乎能够过滤访问汽车之家网站时由于自动下载多媒体资源而产生的全部URL。

需要说明的是，上述步骤1021至1024可以按照任意的顺序执行。

103、利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；

在对所述日志数据进行过滤之后，利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集，所述目标数据集指从过滤后的日志数据中提取出的包含用户搜索关键词字段的一部分日志数据所构成的数据集合。例如，用户使用百度搜索引擎搜索“复兴之路”之后会在运营商网关中产生如下所示的包含用户搜索关键词字段(复兴之路)的URL：

https://www.baidu.com/s？ie＝utf-8&f＝8&rsv_bp＝0&rsv_idx＝1&tn＝baidu&wd＝复兴之路&rsv_pq＝969232fc00062f92&rsv_t＝6ec1u0Kr3xODnOPq2％2BsZ3jZYsVdXoKsYI％2FY87bUqw％2Fg1％2Fc5stCARyPA0rzw&rqlang＝cn&rsv_enter＝1&rsv_sug3＝8&rsv_sug1＝4&rsv_sug7＝100

它能直接的反应用户的兴趣所在，通过研究用户的历史搜索，不仅能够得到与用户对某项业务的潜在需求，更可以挖掘出用户自身的偏好以及业务的潜在关联项目。

104、对所述目标数据集进行结构化处理，得到结构化的目标数据集；

获取到所述目标数据集之后，由于所述目标数据集中可能还存在很多与后续操作无关的干扰数据，需要对所述目标数据集进行结构化处理，删除其中的干扰数据，得到结构化的目标数据集。

进一步的，如图1C所示，步骤104具体可以包括：

1041、将所述目标数据集中单独成行的数据删除；

所述目标数据集中单独成行的数据通常为干扰数据，需要进行删除。

1042、将所述目标数据集中不含指定符号的数据删除；

所述指定符号指干扰数据相对于正常数据所不具备的符号，可以是一个，也可以有多个。比如，可以将符号“‘,’”作为指定符号，将所述目标数据集中不含符号“‘,’”的数据删除。

1043、根据所述目标数据集的编码格式确定对应的编码区间，利用正则表达式删除所述目标数据集中位于所述编码区间之外的数据；

比如，假设目标数据集的编码格式是UTF-8格式，而UTF-8格式对应的编码区间是u4e00-u9fa5，则可以通过正则表达式来删除所述目标数据集中编码值位于区间u4e00-u9fa5之外的数据。

1044、利用正则表达式和预设的干扰字符串删除所述目标数据集中的各种数字符号干扰数据，获得结构化的目标数据集，所述干扰字符串包括字母、符号和/或数字。

目标数据集中还可能存在各种数字符号干扰数据，可以设置包含字母、符号和/或数字等各种干扰字符的字符串，然后利用正则表达式和所述字符串删除所述目标数据集中的各种数字符号干扰数据，获得结构化的目标数据集。以下为一个干扰字符串的实例：

[A-Za-z0-9\[\`\～\！\@\#\$\^\&\*\＝\|\{\}\'\:\；\"\,\[\]\.\<\>\/\？\～\！\@\#\\\&\+\_\-\*\％\"‘’“”：()；，？「」《》。【】、…·￥！]

在完成目标数据集进行结构化处理，得到结构化的目标数据集之后，就可以进行用户画像和人群细分等后续工作。

105、将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。

所述用户信息为所述目标数据集中用于确定用户身份的信息，比如目标数据集中的IP地址或用户名等。所述目标字符串为预设的包含目标用户相关信息的字符串，假设想找出具有购车意愿的目标用户，可以将各种汽车的名字作为所述目标字符串，然后将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，如果匹配成功，则说明相应的用户输入的关键词字段与汽车名字相关，将这些用户视作具有购车意愿的目标用户，可以通过目标数据集中的用户信息定位追踪到相应的目标用户。

然而，由于用户输入的关键词字段可能不是一个词组，而是一个句子，比如“去哪购买性价比高的比亚迪汽车”，即使目标字符串中包含“比亚迪”也很可能出现匹配失败的结果，造成目标用户的丢失。

进一步的，为了提高字符串匹配时的准确率，如图1D所示，步骤105具体可以包括：

1051、对所述结构化的目标数据集中的关键词字段进行基于字符串匹配的分词处理，得到源字符串；

分词指将输入文本划分为各种意义单元(比如词组、句子或主题)的过程，对于中文文本的分词主要包括基于字符串匹配的词分割、基于语义学理解的词分割和基于统计概率的词分割3种。在步骤1051中，可以使用结巴分词工具进行分词。结巴分词是基于trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，采用动态规划查找最大概率路径，找出基于词频的最大切分组合。结巴分词自带一个叫做dict.txt的词典,里面有2万多条词,包含了词条出现的次数(这个次数是基于人民日报语料等资源训练得出来的)和词性。2万多条词语放到一个trie树中，若具有相同的前缀就可以使用trie树来存储,具有查找速度快的优势。而对于未录入词典的词，可以采用基于汉字成词能力的HMM模型，使用Viterbi算法。具体地，若采用HMM模型,中文词汇将按照BEMS四个状态来标记，B是开始位置,E是结束位置,M是中间位置,S是单独成词的位置。比如北京可以标注为BE，表示北是开始位置,京是结束位置；中华民族可以标注为BMME,就是开始、中间、中间、结束。

利用上述分词方法对所述结构化的目标数据集中的关键词字段进行分词处理后，将得到源字符串，所述源字符串可以是多个具有特定含义的词组。

1052、将所述源字符串与预设的目标字符串进行匹配，得到匹配结果；

在获得源字符串之后，将所述源字符串与预设的目标字符串进行匹配，得到匹配结果。然而，可能存在一些无关的字符串会导致匹配结果的错误，比如某些用户输入的“车站”、“客车”或“努比亚”等，由于这些字符串与相关的字符串“汽车”，“比亚迪”较为相似，这些用户容易被误当作具有购车意愿的目标用户。

因此，更进一步的，为了进一步提高匹配结果的准确性，步骤1052具体可以包括：

(1)将所述源字符串与预设的第一目标字符串进行匹配计算，得到第一相似度；

所述第一目标字符串为与目标用户相关的字符串，将所述源字符串与预设的第一目标字符串进行匹配计算，得到第一相似度。假设需要查找的目标用户为具有购车意愿的用户，则可以设置以下第一目标字符串：汽车、二手车、汽车论坛、大众、起亚、丰田、奥迪、宝马、本田、福特等等；为便于区分，还可以将上述第一目标字符串进行归类，比如将汽车、二手车、汽车论坛归类为word，大众、起亚、丰田、奥迪、宝马、本田、福特归类为car等。

(2)将所述源字符串与预设的第二目标字符串进行匹配计算，得到第二相似度；

所述第二目标字符串为与目标用户无关的字符串，将所述源字符串与预设的第二目标字符串进行匹配计算，得到第二相似度。假设需要查找的目标用户为具有购车意愿的用户，则可以设置以下第二目标字符串：汽车站、车站、汽车旅馆、旅馆、利比亚、努比亚、公司、长途、客车、汽车模型、纳米比亚、车模、收购、飞机、客运、装卸、制造、维修、租车等等。

(3)若所述第一相似度大于预设的第一阈值且所述第二相似度小于预设的第二阈值，则确定所述匹配结果为成功。

若所述第一相似度大于预设的第一阈值且所述第二相似度小于预设的第二阈值，则确定所述匹配结果为成功。在上述过程中，通过相关词及无关词的双重筛选，能大大提高获取目标用户的准确性。

1053、根据匹配结果为成功的源字符串所对应的第一用户信息确定所述目标字符串对应的目标用户，所述第一用户信息为所述匹配结果为成功的源字符串对应的目标数据集所对应的用户信息。

若匹配结果为成功，则视作该源字符串对应的目标数据集是由目标用户访问网页时生成的，此时可以根据目标数据集中包含的用户信息确定所述目标用户。

请参阅图2，本发明实施例中一种运营商网关数据的预处理方法的另一个实施例包括：

201、获取运营商网关的日志数据；

步骤201与步骤101相同，具体请参照步骤101的相关说明。

202、根据预设的过滤规则对所述日志数据进行过滤；

步骤202与步骤102相同，具体请参照步骤102的相关说明。

203、删除所述日志数据中非用户真实意愿产生的日志数据；

网页上的信息只有部分是相关的或者说是有用的，用户一般只关心网页上很小的一部分信息。然而由于许多用户不了解信息网络结构，或者是搜索引擎检索信息资源能力的不足，亦或是搜索引擎按照竞价排名引导用户到非目的资源网址，虚假网络广告超链接引导用户到不感兴趣网页，都会产生相应的日志数据。尽管这些日志数据确实是用户自身操作时产生的，但并不能代表用户的真实意图，因此需要将这些日志数据删除。

在用户搜索目标资源时，浏览路径中打开的任何网页都视作不属于用户真实意愿而打开的网页。可以定义时间T1、T2，若用户在某一个页面的停留时间小于T1，将此页面视为非用户真实意愿打开的页面；若用户在另一个页面的停留时间大于T2，则视为用户已经终止某次会话，将此页面视为用户真实意愿打开的页面。根据上述方法可以方便地将非用户真实意愿打开页面时产生的日志数据删除。

另外，针对用户打开网页的点击流过程中产生的自动请求数据可以采用步骤1024提出的方法进行过滤，也可以采用定义一个时间T3，将时间间隔小于T3的两个请求中的后请求视为自动请求予以过滤的方法进行过滤。

204、识别所述日志数据中的用户；

步骤204为运营商网关日志数据的用户识别操作，然而由于存在网络代理服务器、因特网提供商或隐私工具给同一用户的每一个请求随机分配不同的IP地址、同一用户使用不同的设备访问互联网、不同用户使用同一设备访问互联网、同一用户使用多种不同浏览器上网等多种情况，使得用户识别操作变得十分困难。

可以通过设计如下的启发性规则解决用户识别十分困难的问题：如果IP地址相同，但是代理信息变了，表明用户可能是在防火墙内网的不同用户，标记为不同用户；将访问信息、站点拓扑结构结合，构造出用户浏览路径，如果当前请求的页面同用户已经浏览页面没有链接关系，则认为存在IP地址相同的多个用户；如果IP相同，但是浏览器和操作系统版本不一致，则视为相同IP下有不同用户。

另一方面，针对挖掘网关数据过程中数据可能存在缺失值的问题，可以设计启发规则，通过路径补充完成缺失值填充的问题，进而解决部分会话识别问题。如果当前请求的页面与用户上一次请求的页面没有超文本链接，用户很可能使用了浏览器上的回退键调用了本机缓存，此时可以利用站点的拓扑结构信息确定当前请求来自哪一页，如果在用户的历史访问记录中多个页面都包含当前请求页面的链接，则将请求时间最接近的那个页面作为当前请求的来源，以补充缺失的访问路径。

进一步的，还可以按照时间规则进行部分会话识别工作，用户会话为一个用户一次访问一个web网站时所浏览的所有页面的引用集合。用户会话识别是一段较长时间跨度的日志记录，识别一个用户对某一网站的访问序列。可以设定一个时间阈值，若一个用户前后访问不同页面的时间差大于这个时间阈值，则认定用户开展了一次新的会话。

更进一步的，上述会话识别过程中还可以加入事务识别操作，目的是对每一个用户访问的页面建立粒度合理的页面组合。用户访问页面包括辅助页面和内容页面，需要区分内容页面和辅助页面，找出用户真正感兴趣的内容页面，忽略辅助页面。首先可以对页面内容进行抽取并表征成矢量的形式，然后根据访问页面的时间、频率、页面被访问的链接与未被访问的链接比、驻留时间等参数来计算用户对内容的兴趣值。

205、统计用户访问指定站点的频次和用户使用APP的类别；

用户访问指定站点的频次统计主要是通过统计用户访问某个一级域名的数量来实现的，由于已经过滤掉了各种干扰URL，此时进行频次统计的准确性得以保证。

由于APP中数据通信是加密的，无法解析其中的内容，因此用户使用APP类别的统计方法与频次统计方法存在差别。虽然在APP的通信过程中产生的大量URL没有有效的方法进行过滤，但是APP的类别可以通过程序识别。比如，用户在使用APP“知乎”时，产生的URL中会包含“zhihu”字符串。以此类推，用户在使用其他APP时产生的URL也会包含特定的字符串，因此可以通过这些特定字符串判断出所述APP的类别。统计完访问频次和APP类型等数据之后，可以利用这些统计数据进行建模分析，实现用户画像和人群分类等后续处理。

206、利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；

步骤206与步骤103相同，具体请参照步骤103的相关说明。

207、对所述目标数据集进行结构化处理，得到结构化的目标数据集；

步骤207与步骤104相同，具体请参照步骤104的相关说明。

208、将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。

步骤208与步骤105相同，具体请参照步骤105的相关说明。

在本发明实施例中，获取运营商网关的日志数据；根据预设的过滤规则对所述日志数据进行过滤；删除所述日志数据中非用户真实意愿产生的日志数据；识别所述日志数据中的用户；统计用户访问指定站点的频次和用户使用APP的类别；利用正则表达式从所述过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；对所述目标数据集进行结构化处理，得到结构化的目标数据集；将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。上述过程针对运营商网关日志数据的特点作了针对性的处理，首先对日志数据中存在的各类干扰URL进行过滤，删除所述日志数据中非用户真实意愿产生的日志数据，然后从日志数据中提取出包含搜索关键词字段的目标数据集，对目标数据集进行了结构化处理，能大幅提高与目标字符串进行匹配时的准确度，进而获取到准确的目标用户。另一方面，在进行用户访问指定站点的频次和用户使用APP的类别统计之前已经过滤掉大多数的干扰数据，因此能获得比较准确的数据统计结果。与传统的数据预处理方法相比，本发明实施例提出的运营商网关数据的预处理方法对运营商网关服务器的日志数据的处理效果获得大幅提升。

上面主要描述了一种运营商网关数据的预处理方法，下面将对一种运营商网关数据的预处理系统进行详细描述。

请参阅图3，本发明实施例中一种运营商网关数据的预处理系统的一个实施例包括：

数据获取模块301，用于获取运营商网关的日志数据；

数据过滤模块302，用于根据预设的过滤规则对所述日志数据进行过滤；

数据提取模块303，用于利用正则表达式从过滤后的日志数据中提取出包含用户搜索关键词字段的目标数据集；

结构化模块304，用于对所述目标数据集进行结构化处理，得到结构化的目标数据集；

目标用户确定模块305，用于将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户，所述用户信息为所述目标数据集中用于确定用户身份的信息。

进一步的，所述目标用户确定模块具体可以包括：

分词单元，用于对所述结构化的目标数据集中的关键词字段进行基于字符串匹配的分词处理，得到源字符串；

匹配单元，用于将所述源字符串与预设的目标字符串进行匹配，得到匹配结果；

确定单元，用于根据匹配结果为成功的源字符串所对应的第一用户信息确定所述目标字符串对应的目标用户，所述第一用户信息为所述匹配结果为成功的源字符串对应的目标数据集所对应的用户信息。

更进一步的，所述匹配单元具体可以包括：

第一匹配模块，用于将所述源字符串与预设的第一目标字符串进行匹配计算，得到第一相似度；

第二匹配模块，用于将所述源字符串与预设的第二目标字符串进行匹配计算，得到第二相似度；

匹配结果确定模块，用于若所述第一相似度大于预设的第一阈值且所述第二相似度小于预设的第二阈值，则确定所述匹配结果为成功。

进一步的，所述数据过滤模块具体可以包括：

无效URL过滤单元，用于过滤所述日志数据中的无效URL，所述无效URL为对应网页页面不存在的URL或者由于软件和操作系统自动下载更新而产生的URL；

恶意URL过滤单元，用于过滤所述日志数据中的恶意URL；

爬虫URL过滤单元，用于过滤所述日志数据中由爬虫程序产生的URL；

多媒体URL过滤单元，用于过滤所述日志数据中由于自动下载多媒体资源而产生的URL；

其中，所述多媒体URL过滤单元具体可以包括：

数据分割模块，用于将所述日志数据按照分隔符进行分割，得到对应的字符串；

字符串匹配模块，用于将所述对应的字符串与预设的过滤字符串作匹配，将匹配成功的所述字符串所对应的日志数据确定为由于自动下载多媒体资源而产生的URL，所述过滤字符串包括多媒体资源的存放路径信息；

多媒体URL过滤模块，用于过滤所述由于自动下载多媒体资源而产生的URL。

进一步的，所述结构化模块具体可以包括：

第一删除单元，用于将所述目标数据集中单独成行的数据删除；

第二删除单元，用于将所述目标数据集中不含指定符号的数据删除；

第三删除单元，用于根据所述目标数据集的编码格式确定对应的编码区间，利用正则表达式删除所述目标数据集中位于所述编码区间之外的数据；

第四删除单元，用于利用正则表达式和预设的干扰字符串删除所述目标数据集中的各种数字符号干扰数据，获得结构化的目标数据集，所述干扰字符串包括字母、符号和/或数字。

进一步的，所述运营商网关数据的预处理系统还可以包括：

非真实意愿数据删除模块，用于删除所述日志数据中非用户真实意愿产生的日志数据；

用户识别模块，用于识别所述日志数据中的用户；

频次与类别统计模块，用于统计用户访问指定站点的频次和用户使用APP的类别。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种运营商网关数据的预处理方法，其特征在于，包括：

获取运营商网关的日志数据；

根据预设的过滤规则对所述日志数据进行过滤；

2.如权利要求1所述的运营商网关数据的预处理方法，其特征在于，所述将所述结构化的目标数据集中的关键词字段与预设的目标字符串进行匹配，根据匹配结果以及所述目标数据集对应的用户信息确定所述目标字符串对应的目标用户具体包括：

对所述结构化的目标数据集中的关键词字段进行基于字符串匹配的分词处理，得到源字符串；

将所述源字符串与预设的目标字符串进行匹配，得到匹配结果；

根据第一用户信息确定所述目标字符串对应的目标用户，所述第一用户信息为所述匹配结果为成功的源字符串对应的目标数据集所对应的用户信息。

3.如权利要求2所述的运营商网关数据的预处理方法，其特征在于，所述将所述源字符串与预设的目标字符串进行匹配，得到匹配结果具体包括：

将所述源字符串与预设的第一目标字符串进行匹配计算，得到第一相似度；

将所述源字符串与预设的第二目标字符串进行匹配计算，得到第二相似度；

若所述第一相似度大于预设的第一阈值且所述第二相似度小于预设的第二阈值，则确定所述匹配结果为成功。

4.如权利要求1所述的运营商网关数据的预处理方法，其特征在于，所述根据预设的过滤规则对所述日志数据进行过滤具体包括：

过滤所述日志数据中的无效URL，所述无效URL为对应网页页面不存在的URL或者由于软件和操作系统自动下载更新而产生的URL；

过滤所述日志数据中的恶意URL；

过滤所述日志数据中由爬虫程序产生的URL；

过滤所述日志数据中由于自动下载多媒体资源而产生的URL；

其中，所述过滤所述日志数据中由于自动下载多媒体资源而产生的URL具体包括：

将所述日志数据按照分隔符进行分割，得到对应的字符串；

将所述对应的字符串与预设的过滤字符串作匹配，将匹配成功的所述字符串所对应的日志数据确定为由于自动下载多媒体资源而产生的URL，所述过滤字符串包括多媒体资源的存放路径信息；

过滤所述由于自动下载多媒体资源而产生的URL。

5.如权利要求1至4中任一项所述的运营商网关数据的预处理方法，其特征在于，所述对所述目标数据集进行结构化处理，得到结构化的目标数据集具体包括：

将所述目标数据集中单独成行的数据删除；

将所述目标数据集中不含指定符号的数据删除；

根据所述目标数据集的编码格式确定对应的编码区间，利用正则表达式删除所述目标数据集中位于所述编码区间之外的数据；

利用正则表达式和预设的干扰字符串删除所述目标数据集中的各种数字符号干扰数据，获得结构化的目标数据集，所述干扰字符串包括字母、符号和/或数字。

6.一种运营商网关数据的预处理系统，其特征在于，包括：

数据获取模块，用于获取运营商网关的日志数据；

7.如权利要求6所述的运营商网关数据的预处理系统，其特征在于，所述目标用户确定模块具体包括：

确定单元，用于根据第一用户信息确定所述目标字符串对应的目标用户，所述第一用户信息为所述匹配结果为成功的源字符串对应的目标数据集所对应的用户信息。

8.如权利要求7所述的运营商网关数据的预处理系统，其特征在于，所述匹配单元具体包括：

9.如权利要求6所述的运营商网关数据的预处理系统，其特征在于，所述数据过滤模块具体包括：

恶意URL过滤单元，用于过滤所述日志数据中的恶意URL；

其中，所述多媒体URL过滤单元具体包括：

10.如权利要求6至9中任一项所述的运营商网关数据的预处理系统，其特征在于，所述结构化模块具体包括：