CN107330090A

CN107330090A - 一种信息处理方法及装置

Info

Publication number: CN107330090A
Application number: CN201710538891.XA
Authority: CN
Inventors: 白晨旭
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-11-07

Abstract

本发明公开了一种信息处理方法及装置。该方法包括：将获取的用户日志数据与预先建立的规则数据库进行匹配，所述规则数据库中包含至少一条样本日志数据、及与所述样本日志数据相关的识别信息；若匹配成功，则使用所述识别信息对所述用户日志数据进行标记。本发明提供的信息处理方法可自动对用户日志数据进行标记，丰富用户日志数据。

Description

一种信息处理方法及装置

技术领域

本发明实施例涉及数据挖掘技术领域，尤其涉及一种信息处理方法及装置。

背景技术

随着物联网发展，以及大量新技术、服务理念应用于信息化变革之中，各种服务平台已经从幕后走到台前，通过物联网技术，可以实现将传统以操作型为核心的服务变为以营销为核心的新型智能服务。

目前，电信运营商除面临竞争对手的压力，更要面对众多新兴替代业务的冲击，新兴业务大量分流传统主营业务。运营商在岌岌可危的境遇下也在想方设法优化自己的业务，提高自身的业务转化率。而电信运营商拥有大量的用户上网信息，这些用户上网信息都是杂乱无章的，并没有得到很好的应用和转化。

发明内容

本发明提供一种信息处理方法，以实现自动为用户日志数据进行标记，丰富用户日志数据。

第一方面，本发明实施例提供了一种信息处理方法，该方法包括：

将获取的用户日志数据与预先建立的规则数据库进行匹配，所述规则数据库中包含至少一条样本日志数据、及与所述样本日志数据相关的识别信息；

若匹配成功，则使用所述识别信息对所述用户日志数据进行标记。

第二方面，本发明实施例还提供了一种信息处理装置，该装置包括：

数据匹配模块，用于将获取的用户日志数据与预先建立的规则数据库进行匹配，所述规则数据库中包含至少一条样本日志数据、及与所述样本日志数据相关的识别信息；

数据标记模块，用于若匹配成功，则使用所述识别信息对所述用户日志数据进行标记。

本发明通过将获取的用户日志数据与预先建立的规则数据库进行匹配，其中规则数据库中包含至少一条样本日志数据、及与样本日志数据相关的识别信息；若匹配成功，则使用识别信息对用户日志数据进行标记，可自动对用户日志数据进行标记，丰富用户日志数据，从而使得电信运营商可基于用户日志数据优化自己的业务，提高营销效率。

附图说明

图1是本发明实施例一中的一种信息处理方法的流程图；

图2是本发明实施例一中的一种采集用户日志数据的结构示意图；

图3是本发明实施例二中的一种信息处理方法的流程图；

图4是本发明实施例三中的一种信息处理装置的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种信息处理方法的流程图，本实施例可适用于需对用户日志数据进行处理的情况，该方法可以由信息处理装置来执行，具体包括如下步骤：

步骤110、将获取的用户日志数据与预先建立的规则数据库进行匹配，规则数据库中包含至少一条样本日志数据、及与样本日志数据相关的识别信息。

用户日志数据为记录用户操作的日志数据，每条用户日志数据中会包括日期、时间、用户的互联网协议地址(Internet Protocol Address，IP Address)以及统一资源定位符(Uniform Resource Locator，URL)等日志数据。

获取用户日志数据的方式有很多，本发明对此不做限定。如图1为一种采集用户日志数据的结构示意图，通过至少一个采集服务器220向具有用户日志数据的信息服务器210采集用户日志数据，如信息服务器210可为FTP(File Transfer Protocol，文件传输协议)服务器，并将采集的用户日志数据发送至少一个采集节点服务器230以从采集节点服务器230获取用户日志数据。

示例性的，获取的用户日志数据可为对原始用户日志数据经过预处理的用户日志数据，以滤除原始用户日志数据中无用的日志数据。优选的，可依不同的应用需求滤除原始用户日志数据中不同的日志数据。

其中，与样本日志数据相关的识别信息可为任何与样本日志数据中所记录的日志数据相关的识别信息。

示例性的，与样本日志数据相关的识别信息为与样本日志数据中的时间相关的识别信息，如识别信息可包括上午、下午和晚上，又如与样本日志数据相关的识别信息为与样本日志数据中的URL中的内容相关的识别信息，如识别信息可包括汽车、音乐、新闻和天气等。

将获取的用户日志数据按照预设规则与预先建立的规则数据库进行匹配，如将获取的用户日志数据在预先建立的规则数据中查找是否与用户日志数据相同的样本日志数据，若有，则匹配成功；又如将获取的用户日志数据在预先建立的规则数据中查找是否与用户日志数据属于相同类别的样本日志数据，若有，则匹配成功。

步骤120、若匹配成功，则使用识别信息对用户日志数据进行标记。

若获取的用户日志数据与预先建立的规则数据库匹配成功，则可使用识别信息对获取的用户日志数据进行标记，如若预先建立的规则数据库中存在与用户日志数据相同的样本日志数据，则将与该样本日志数据相关的识别信息添加至用户日志数据或将与该样本日志数据相关的识别信息相对应的信息添加至用户日志数据，以对用户日志数据进行标记，丰富用户日志数据。

优选的，对用户日志数据进行标记后，则不同的平台可基于标记后的用户日志数据对该平台的服务进行进一步优化。如若为用户日志数据添加与URL的内容相关的识别信息，可统计预设时间间隔内某一用户的用户日志数据中识别信息中天气的次数，若超过预设阈值，则移动、联通或电信等电信运营商可为该用户推送天气信息或推送天气预报套餐信息，从而基于用户日志数据有针对性为用户提供服务，提高营销效率与用户体验。

本发明实施例通过将获取的用户日志数据与预先建立的规则数据库进行匹配，其中规则数据库中包含至少一条样本日志数据、及与样本日志数据相关的识别信息；若匹配成功，则使用识别信息对用户日志数据进行标记，可自动对用户日志数据进行标记，丰富用户日志数据，从而使得电信运营商可基于用户日志数据优化自己的业务，提高营销效率。

实施例二

图3为本发明实施例提供的一种信息处理方法的流程示意图。本实施例为在实施例一的基础上进行进一步优化。参见图3，本实施例提供的方法具体包括如下步骤：

步骤310、采集历史日志数据，并统计各条历史日志数据的流量。

优选的，可采集大量不同用户的历史日志数据，各条历史日志数据中均包括有该条历史日志数据对应的流量，从而根据采集的历史日志数据可统计各条历史日志数据的流量，以基于对大量用户的历史日志数据中各条历史日志数据的流量的统计对用户日志数据进行标记。

步骤320、按照流量由大到小的顺序抽取预设个数历史日志数据作为样本日志数据，或将流量超过预设阈值的历史日志数据作为样本日志数据。

优选的，由于获取的历史日志数据过大，不利于信息处理，因此，可按照预设规则将获取的大量的历史日志数据进行处理以得到样本日志数据，提高后续信息处理效率。

如可首先将每条历史日志数据按照流量由大到小的顺序排序，然后根据流量由大到小的顺序抽取预设个数历史日志数据作为样本日志数据，或将流量超过预设阈值的历史日志数据作为样本日志数据，滤除流量较小的历史日志数据。

优选的，根据流量按照大小对历史日志数据进行排序包括：

步骤321、提取各条历史日志数据的URL、上行流量、和/或下行流量；

优选的，获取的历史日志数据可为经过原始历史数据预处理后得到的历史日志数据，如将历史日志数据中各条历史日志数据中的日期和时间等日志数据滤除，保留各条历史日志数据的URL、上行流量、和/或下行流量，以提高信息处理的效率。

根据获取的历史日志数据，可提取各条历史日志数据的URL、上行流量、和/或下行流量，从而可得该条历史日志数据所记录的用户访问的网站以及访问该网站所对应的上行流量、和/或下行流量。

其中，上行流量为用户向网络发送的字节数，下行流量为从网络中下载的字节数。则上行流量可作为用户访问网站频率的参考，下行流量可作为用户通过网站下载次数的参考，因此，可根据不同的应用需求将上行流量、下行流量或上行流量与下行流量之和作为历史日志数据的流量。则可根据不用的应用需求，提取各条历史日志数据的URL和上行流量，或提取各条历史日志数据的URL和下行流量，又或提取各条历史日志数据的URL、上行流量以及下行流量。

步骤322、根据URL、上行流量、和/或下行流量对历史日志数据进行排序。

示例性的，可根据提取的各条历史日志数据的上行流量、下行流量或上行流量与下行流量之和将各条历史日志数据的URL按照上行流量、下行流量或上行流量与下行流量之和由大到小的顺序排列。

优选的，可将各条历史日志数据中，具有相同的URL的历史日志数据分为同一类别，并统计同一类别的历史日志数据的上行流量、下行流量或上行流量与下行流量之和，以作为同一类别的历史日志数据的流量，按照同一类别的历史日志数据的流量由大到小的顺序排列各类别的历史日志数据的URL。

优选的，将各类别的历史日志数据的URL排序后，可按照同一类别的历史日志数据的流量由大到小的顺序将各类别的历史日志数据的流量相加，将相加后的流量之和超过预设阈值的各类别的历史日志数据作为样本日志数据，如将相加后的流量之和超过所有类别的历史日志数据的流量之和80％的各类别的历史日志数据的URL作为样本日志数据。

示例性的，以上行流量作为历史日志数据的流量为例，使用mapreduce程序对历史日志数据进行排序。mapreduce程序主要包括map和reduce两个阶段，在mapreduce程序的map阶段，将各条历史日志数据的URL作为key，将各条历史日志数据的上行流量作为value存放入map结构中，将相同的URL的历史日志数据分为同一类别；在mapreduce程序的reduce阶段，统计每个类别的历史日志数据的上行流量，即每个类别中的各条历史日志数据的上行流量之和；将每个类别的历史日志数据的上行流量作为key，将每个类别的历史日志数据的URL作为value,存入treemap数据结构中，从而实现按照每个类别的历史日志数据的上行流量的大小对每个类别的历史日志数据的URL排序。

其中，由于treemap数据结构是按照key由小到大进行排序，且在以每个类别的历史日志数据的上行流量作为key的情况下，若多个类别的历史日志数据的上行流量相同，则出现覆盖数据的情况。因此，可将统计每个类别的历史日志数据的上行流量封装成一个类，并重写该类中的compareTo方法，使得按照key由大到小进行排序，并将该类作为treemap的key，将每个类别的历史日志数据的URL作为value，从而实现每个类别的历史日志数据的URL按照每个类别的历史日志数据的上行流量由大到小的顺序排列。

优选的，按照同一类别的历史日志数据的上行流量由大到小的顺序将各类别的历史日志数据的上行流量相加，将相加后的上行流量之和超过预设阈值的各类别的历史日志数据的URL作为样本日志数据，如将相加后的流量之和超过所有类别的历史日志数据的流量之和的80％的各类别的历史日志数据的URL作为样本日志数据。由此，若将上行流量作为用户访问网站的频率的参考，则实现根据用户访问网站的频率由高到低，排列各类别的历史日志数据的URL，基于大量的历史日志数据可得到用户经常访问的网站，即URL，并滤除掉历史日志数据中用户较少访问的网站。

步骤330、建立规则数据库。

将获取的样本日志数据放入规则数据库中，并为规则数据库中的样本日志数据添加对应的识别信息，以根据识别信息对用户日志数据进行标记。

优选的，建立规则数据库包括：

对获取的样本日志数据进行识别，为各条样本日志数据添加对应的识别信息；

或者，对获取的样本日志数据进行识别分类，并为各个类别的样本日志数据添加对应的识别信息。

如以将相加后的流量之和超过所有类别的历史日志数据的流量之和80％的各类别的历史日志数据的URL作为样本日志数据为例，每个类别的历史日志数据的URL均为一条样本日志数据，则可根据预设方法为每条样本日志数据添加对应的识别信息，如以使用模板匹配或语义解析等方法识别每条样本日志数据的URL中的内容信息，以得到样本日志数据相关的识别信息。

优选的，采用人工识别的方式来识别数据库中每条样本日志数据的识别信息，如若样本日志数据中的某一URL的内容信息为天气查询，则其识别信息可为天气，并将识别信息保存至建立的规则数据库，从而规则数据库中包含样本日志数据以及与每条样本日志数据相关的识别信息。

优选的，还可对获取的样本日志数据进行识别分类，并为每个类别的样本日志数据添加对应的识别信息。如将样本日志数据中，内容为与视频相关的URL分为同一类别，并为该类别的样本日志数据添加识别信息为视频，内容为与音乐相关的URL分为同一类别，并为该类别的样本日志数据添加识别信息为音乐。

步骤340、将获取的用户日志数据与预先建立的规则数据库进行匹配，规则数据库中包含至少一条样本日志数据、及与样本日志数据相关的识别信息。

步骤350、若匹配成功，则使用识别信息对用户日志数据进行标记。

示例性的，若用户日志数据中的URL可在预先建立的规则数据库中查找到与其相同或属于同一类别的样本日志数据URL，则将与该样本日志数据URL对应的识别信息添加至该用户日志数据的预设位置，实现对该用户日志数据进行标记。

优选的，根据标记后的用户日志数据可进行后续服务。如可统计标记后用户日志数据中的识别信息，若某一识别信息在用户日志数据中的次数超过预设阈值，则电信运营商为该用户推送与该识别信息相关的服务信息，如若识别信息为天气，可为用户推送天气预报，若识别信息为新闻，可为用户推送新闻手机报，询问用户是否开通新闻手机报业务等。

步骤360、若不匹配，则输出用户日志数据至待识别列表。

若用户日志数据与规则数据库中样本日志数据不匹配，则将用户日志数据输出至待识别列表。

优选的，输出待识别列表后，按照预设方法为该用户日志数据添加对应的识别信息。

如若用户日志数据中的URL在建立的规则数据库中没有与其相同的URL，则不匹配，可将用户日志数据中的URL输出至待识别列表，并通过预设规则方法对待识别列表中的URL进行识别，如通过爬虫爬取网页的信息或通过模板匹配或语义解析等方法获取识别信息。获取识别信息后，将待识别列表中的用户日志数据以及对应的识别信息保存至预先建立的规则数据库。

优选的，还可将待识别列表中的用户日志数据以及对应的识别信息保存至另一规则数据库，以和预先建立的规则数据库进行区分。在另一规则数据库建立后，则可将获取的用户日志数据与预先建立的规则数据库以及该另一规则数据库进行匹配，若匹配成功，则使用识别信息对用户日志数据进行标记，若不匹配，则输出用户日志数据至待识别列表。

需要说明的是，本实施例中预先建立的规则数据库中包含的样本日志数据为以同一类别的历史日志数据的URL为例，在其他实施例中还可选样本日志数据为包括其他日志数据的样本日志数据，本发明对此不做限定。

本发明实施例通过采集历史日志数据，并统计各条历史日志数据的流量；按照流量由大到小的顺序抽取预设个数历史日志数据作为样本日志数据，或将流量超过预设阈值的历史日志数据作为样本日志数据，实现根据历史日志数据按照预设规则滤除部分历史日志数据得到样本日志数据，提高后续信息处理效率；通过对获取的样本日志数据进行识别，为各条样本日志数据添加对应的识别信息；或者，对获取的样本日志数据进行识别分类，并为各个类别的样本日志数据添加对应的识别信息，从而建立规则数据库，从而根据规则数据库为用户日志数据对进行标记；通过提取各条历史日志数据的URL、上行流量、和/或下行流量；根据URL、上行流量、和/或下行流量对历史日志数据进行排序，实现对历史日志数据排序；通过若获取的用户日志数据与预先建立的规则数据库不匹配，则输出用户日志数据至待识别列表，可待识别列表中的用户日志数据处理。本实施例提供的方法，可自动对用户日志数据进行标记，丰富用户日志数据。

实施例三

图4为本发明实施例提供的一种信息处理装置的结构框图。其中该装置可由软件和/或硬件实现。参加图4，该装置包括：数据匹配模块410和数据标记模块420，其中，

数据匹配模块410，用于将获取的用户日志数据与预先建立的规则数据库进行匹配，所述规则数据库中包含至少一条样本日志数据、及与所述样本日志数据相关的识别信息；

数据标记模块420，用于若匹配成功，则使用所述识别信息对所述用户日志数据进行标记。

上述方案中，可选的是，还包括：规则数据库建立模块，所述规则数据库建立模块用于：对获取的样本日志数据进行识别，为各条样本日志数据添加对应的识别信息；

上述方案中，可选的是，还包括：

流量统计模块，用于采集历史日志数据，并统计各条历史日志数据的流量；

样本获取模块，用于按照流量由大到小的顺序抽取预设个数历史日志数据作为样本日志数据，或将所述流量超过预设阈值的历史日志数据作为样本日志数据。

上述方案中，可选的是，还包括流量排序模块，具体用于：

提取各条历史日志数据的URL、上行流量、和/或下行流量；

根据所述URL、上行流量、和/或下行流量对历史日志数据进行排序。

上述方案中，可选的是，还包括：

列表输出模块，用于若不匹配，则输出所述用户日志数据至待识别列表。

上述装置可执行本发明实施例一和实施例二所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例一和实施例二所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，建立规则数据库包括：对获取的样本日志数据进行识别，为各条样本日志数据添加对应的识别信息；

3.根据权利要求2所述的方法，其特征在于，对获取的样本日志数据进行识别之前还包括：

采集历史日志数据，并统计各条历史日志数据的流量；

按照流量由大到小的顺序抽取预设个数历史日志数据作为样本日志数据，或将所述流量超过预设阈值的历史日志数据作为样本日志数据。

4.根据权利要求3所述的方法，其特征在于，根据流量按照大小对历史日志数据进行排序包括：

提取各条历史日志数据的URL、上行流量、和/或下行流量；

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

若不匹配，则输出所述用户日志数据至待识别列表。

6.一种信息处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，其特征在于，还包括：规则数据库建立模块，所述规则数据库建立模块用于：对获取的样本日志数据进行识别，为各条样本日志数据添加对应的识别信息；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，还包括流量排序模块，具体用于：

提取各条历史日志数据的URL、上行流量、和/或下行流量；

10.根据权利要求6-9任一项所述的装置，其特征在于，还包括：