CN117349126B

CN117349126B - 一种基于大数据的实时信息网络日志分析方法及系统

Info

Publication number: CN117349126B
Application number: CN202311647757.5A
Authority: CN
Inventors: 栾敬钊; 王磊; 刘林; 王玮; 孙耀; 徐铭阳; 王保力; 祁广源; 李若斌
Original assignee: State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Liaoning Electric Power Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-02-09
Anticipated expiration: 2043-12-05
Also published as: CN117349126A

Abstract

本发明提供了一种基于大数据的实时信息网络日志分析方法及系统，涉及网络日志数据处理技术领域，包括获取待检测网络日志信息；对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据；提取网络日志特征数据中的第一类别数据和第二类别数据；进行灰色关联分析，得到第一类别数据和第二类别数据的关联度；结合遗传算法模型，选择合适的启发式算法，得到实时信息网络日志分析的最优特征数据组合。本发明的有益效果为通过对于网络日志内容可以了解到每个用户连接服务器时的大致需求，进行挖掘和分析用户的喜好以及用户行为习惯，以此实现提供给用户有用的访问信息，从而提高了网络日志的测试分析的效率。

Description

一种基于大数据的实时信息网络日志分析方法及系统

技术领域

本发明涉及网络日志数据处理技术领域，具体而言，涉及一种基于大数据的实时信息网络日志分析方法及系统。

背景技术

随着互联网上信息服务的发展，许多政府部门、公司、大专院校、科研院所等都已经拥有或正在建设自己的网站。每个网站的后面都运行着一个Web服务器，Web服务器是一个用于管理Web页面的软件，并使这些页面通过本地网络或Internet供客户浏览器使用。随着网络安全技术的发展，网络安全日志的分析成为较为热门的研究之一，网络日志包含着丰富的数据信息，大部分以文字为主，结合了文字、图像、其他博客或网站的链接或者及其它与主题相关的媒体。

对网站的管理要求不仅仅关注服务器每天的吞吐量，还要了解网站各页面的访问情况，根据各页面的点击频率来改善网页的内容和质量、提高内容的可读性，跟踪包含有商业交易的步骤以及管理Web网站“幕后”的数据等。用户单位在连接服务器的过程中，对于用户在使用互联网的过程中的相关选择情况都有详细的记录，因此通过对于网络日志内容进行分析可以有效的了解到每个用户连接服务器时的大致需求，对这些数据信息进行挖掘和分析有助于通过网络日志发现用户在访问服务器的时候的喜好以及用户行为习惯，以此实现在用户访问服务器时提供给用户有用的访问信息。然而，网站的内容总是在不断地更新和变化中，因此，网站管理人员需要及时地获知日志文件的分析结果，但是由于网络日志中各种信息混杂在一起，并且单用户的信息是分散的，有些参数也需要人为去设定和筛选，Web服务器的日志文件的数据量也从几十MB到几十GB，甚至达到TB的数量级，而相应的对日志文件的统计和分析的时间要求却并没有降低，因此导致分析效率低下，如何及时有效地对不断增加以及实时信息网络日志进行分析，就成为本领域技术人员所必需面临的问题。

发明内容

本发明的目的在于提供一种基于大数据的实时信息网络日志分析方法及系统，以改善上述问题。为了实现上述目的，本发明采取的技术方案如下：

第一方面，本申请提供了一种基于大数据的实时信息网络日志分析方法，包括：

获取待检测网络日志信息，所述待检测网络日志信息为所使用的用户网络特征数据，其中，用户网络特征数据包括用户的行为检测信息、兴趣爱好、文字数据、图像数据、评论数据以及消费数据；

对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据；

提取网络日志特征类别数据中的第一类别数据和第二类别数据，其中，所述第一类别数据为用户控制能力相关特征数据，所述第二类别数据为用户人际关系相关特征数据；

将所述第一类别数据和所述第二类别数据进行灰色关联分析，得到所述第一类别数据和所述第二类别数据的关联度；

通过用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，结合遗传算法模型，采用贪心方法和轮盘赌方法，基于启发式算法，经过迭代计算，从而得到实时信息网络日志分析的最优特征数据组合，记作最具有区分度的特征维度组合；

其中，将所述第一类别数据和所述第二类别数据分别基于距离类算法进行聚类处理，得到至少两个关于用户控制能力数据信息的子类别和至少两个关于用户人际关系数据信息的子类别，其中所述用户控制能力数据信息的子类别包括消费频率以及消费金额，所述用户人际关系数据信息的子类别包括与朋友聊天频率以及周期性聚会频率；

建立Bert模型，将所述用户控制能力数据信息的子类别发送至所述Bert模型中进行训练，生成每个用户所对应的控制特征数据，并进行标记；

将所有标记后的所述用户控制能力数据信息和用户人际关系数据信息进行灰色关联分析，其中将所述第一类别数据和所述第二类别数据进行无纲量化处理，得到所述第一类别数据和所述第二类别数据的关联度；其中，用户人际关系数据信息包括使用中心度、聚类系数、介数中心性以及接近中心性，所述使用中心度为聊天的朋友个数、所述聚类系数为用户的两个朋友之间也存在朋友关系的比例、所述介数中心性为用户产生朋友之间桥梁的关键程度以及所述接近中心性为用户与其余用户之间的接近程度；

其中，求解第一距离，所述第一距离包括所述第一类别数据和所述第二类别数据之间的距离；

求解第二距离，所述第二距离包括至少两个关于用户控制能力数据信息的子类别之间的距离以及至少两个关于用户人际关系数据信息的子类别之间的距离；

通过所述第一距离和所述第二距离求得类内散布矩阵、类间散布矩阵以及适应度函数；

选取贪心方法和轮盘赌方法，将适应度函数最优的个体保留至下一代迭代群体中，经过迭代计算，使得群体所含的解空间范围最大，从而得到实时信息网络日志分析的最优特征数据组合。

优选地，所述对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据，其中包括：

将所述待检测网络日志信息进行预处理，所述预处理包括数据整合、数据转换和数据归一化，得到整理后的第一网络日志信息；

对所述第一网络日志信息进行缺失数据的填充以及对重复数据的过滤，得到整理后的第二网络日志信息；

基于朴素贝叶斯分类器，将所述第二网络日志信息分为先验概率和条件概率，基于独立假设，通过贝叶斯定理对后验概率进行计算求解，得到所述后验概率中值最大的类别作为类别结果进行输出，即得到网络日志特征类别数据，所述后验概率P（Y/X）是通过贝叶斯定理计算得到的，其中，P（Y）为先验概率，P（X/Y）为条件概率，P（X）为类别概率，其计算公式如下：

。

优选地，所述提取所述网络日志特征类别数据中的第一类别数据和第二类别数据，其中包括：

将预设的类别数据作为样例集，将样例投影到一条直线上，从而使得同样样例的投影点接近，不同样例的投影点远离，其中预设的类别数据为符合预设类别条件的给定的训练样例集，其中预设类别条件包括关键类别和紧急类别；

将所述网络日志特征类别数据作为训练样例集进行分类，将其投影在上述同样的直线上，再根据投影点的位置确定所述第一类别数据和所述第二类别数据，进而确定用户控制能力相关特征数据以及人际关系相关特征数据；

将确定好的所述第一类别数据和所述第二类别数据进行降维处理，得到处理后最终的第一类别数据和第二类别数据。

第二方面，本申请还提供了一种基于大数据的实时信息网络日志分析系统，包括获取模块、处理模块、提取模块、分析模块和计算模块，其中：

获取模块：用于获取待检测网络日志信息，所述待检测网络日志信息为所使用的用户网络特征数据，其中，用户网络特征数据包括用户的行为检测信息、兴趣爱好、文字数据、图像数据、评论数据以及消费数据；

处理模块：用于对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据；

提取模块：用于提取网络日志特征类别数据中的第一类别数据和第二类别数据，第一类别数据为用户控制能力相关特征数据，所述第二类别数据为用户人际关系相关特征数据；

分析模块：用于将所述第一类别数据和所述第二类别数据进行灰色关联分析，得到所述第一类别数据和所述第二类别数据的关联度；

计算模块：用于通过用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，结合遗传算法模型，采用贪心方法和轮盘赌方法，基于启发式算法，经过迭代计算，从而得到实时信息网络日志分析的最优特征数据组合，记作最具有区分度的特征维度组合。

第三方面，本申请还提供了一种基于大数据的实时信息网络日志分析设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现所述基于大数据的实时信息网络日志分析方法的步骤。

第四方面，本申请还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于大数据的实时信息网络日志分析方法的步骤。

本发明的有益效果为：本发明通过利用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，能够全面地反映上网用户的上网行为特征，再通过结合遗传算法能够从广阔的网路日志特征空间中，寻找最适合实时信息网络日志分析的最优特征数据组合，从而达到降低特征维度，提高模型精度的要求；本发明通过对于网络日志内容进行分析可以有效的了解到每个用户连接服务器时的大致需求，对这些数据信息进行挖掘和分析有助于通过网络日志发现用户在访问服务器的时候的喜好以及用户行为习惯，以此实现在用户访问服务器时提供给用户有用的访问信息，从而提高了网络日志的测试分析的效率，降低了对测试人员的要求。本发明采用朴素贝叶斯分类器假设样本的每个特征之间都是独立的，与其他特征互不相关，且计算速度快分类效果好。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中所述的基于大数据的实时信息网络日志分析方法流程示意图；

图2为本发明实施例中所述的基于大数据的实时信息网络日志分析系统结构示意图；

图3为本发明实施例中所述的基于大数据的实时信息网络日志分析设备结构示意图。

图中：701、获取模块；702、处理模块；7021、预处理单元；7022、第一处理单元；7023、求解单元；703、提取模块；7031、投影单元；7032、分类单元；7033、第二处理单元；704、分析模块；7041、第三处理单元；7042、训练单元；7043、关联单元；705、计算模块；7051、第一求解单元；7052、第二求解单元；7053、第三求解单元；7054、计算单元；800、基于大数据的实时信息网络日志分析设备；801、处理器；802、存储器；803、多媒体组件；804、I/O接口；805、通信组件。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1：本实施例提供了一种基于大数据的实时信息网络日志分析方法。参见图1，图中示出了本方法包括步骤S100、步骤S200、步骤S300、步骤S400和步骤S500。

S100、获取待检测网络日志信息，所述待检测网络日志信息为所使用的用户网络特征数据，其中，用户网络特征数据包括用户的行为检测信息、兴趣爱好、文字数据、图像数据、评论数据以及消费数据。

可以理解的是，在本步骤中，对这些用户的行为检测信息、兴趣爱好、文字数据、图像数据、评论数据以及消费数据进行分析，对这些数据信息进行挖掘和分析有助于通过网络日志发现用户在访问服务器的时候的喜好以及用户行为习惯，以此实现在用户访问服务器时提供给用户有用的访问信息。本实施是依据这些信息进行判断，判断用户控制能力相关特征数据和用户人际关系相关特征数据之间的关联性。

S200、对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据。

可以理解的是，在本S200步骤中包括S201、S202和S203，其中：

S201、将所述待检测网络日志信息进行预处理，所述预处理包括数据整合、数据转换和数据归一化，得到整理后的第一网络日志信息；

S202、对所述第一网络日志信息进行缺失数据的填充以及对重复数据的过滤，得到整理后的第二网络日志信息；

S203、基于朴素贝叶斯分类器，将所述第二网络日志信息分为先验概率和条件概率，基于独立假设，通过贝叶斯定理对后验概率进行计算求解，得到所述后验概率中值最大的类别作为类别结果进行输出，即得到网络日志特征类别数据，所述后验概率P（Y/X）是通过贝叶斯定理计算得到的，其中，P（Y）为先验概率，P（X/Y）为条件概率，P（X）为类别概率，其计算公式如下：

。

需要说明的是，采用朴素贝叶斯分类器假设样本的每个特征之间都是独立的，与其他特征互不相关，且计算速度快分类效果好。首先将第二网络日志信息进行分类，划分为不同类别，再统计分析在训练样本集合之中各个类别的概率，以及不同的特征属性对于不同类别的条件概率估计，从而生成分类器。最后使用训练阶段得到的分类器对需要分类的数据进行分类，最后输出后验概率中值最大的类别作为类别结果，即得到网络日志特征类别数据。

S300、提取网络日志特征类别数据中的第一类别数据和第二类别数据，其中，所述第一类别数据为用户控制能力相关特征数据，所述第二类别数据为用户人际关系相关特征数据。

可以理解的是，在本步骤S300中包括S301、S302和S303，其中：

S301、将预设的类别数据作为样例集，将样例投影到一条直线上，从而使得同样样例的投影点接近，不同样例的投影点远离，其中预设的类别数据为符合预设类别条件的给定的训练样例集，其中预设类别条件包括关键类别和紧急类别；

S302、将所述网络日志特征类别数据作为训练样例集进行分类，将其投影在上述同样的直线上，再根据投影点的位置确定所述第一类别数据和所述第二类别数据，进而确定用户控制能力相关特征数据以及人际关系相关特征数据；

S303、将确定好的所述第一类别数据和所述第二类别数据进行降维处理，得到处理后最终的第一类别数据和第二类别数据。

需要说明的是，采用线性判别分析可以在数据降维的过程中，可以使用类别的先验知识，在样本分类信息依赖均值而不是方差的情况下，比PCA算法的效果更有，因此，可以运用在多个领域中。

S400、将所述第一类别数据和所述第二类别数据进行灰色关联分析，得到所述第一类别数据和所述第二类别数据的关联度；

可以理解的是，在本步骤S400中包括S401、S402和S403，其中：

S401、将所述第一类别数据和所述第二类别数据分别基于距离类算法进行聚类处理，得到至少两个关于用户控制能力数据信息的子类别和至少两个关于用户人际关系数据信息的子类别，其中所述用户控制能力数据信息的子类别包括消费频率以及消费金额，所述用户人际关系数据信息的子类别包括与朋友聊天频率以及周期性聚会频率；

需要说明的是，利用聚类处理确定每个类别下的子类别，并将不同类别的特征信息建立集合中的变量,其中/>表示第n个特征，每个特征对应在集合的概率分别是/> ，其中/>表示第n个特征对应在集合的概率。

S402、建立Bert模型，将所述用户控制能力数据信息的子类别发送至所述Bert模型中进行训练，生成每个用户所对应的控制特征数据，并进行标记；

需要说明的是，本步骤中通过Bert模型进行特征语句提取，其中用户控制能力数据信息的子类别包括等特征。

S403、将所有标记后的所述用户控制能力数据信息和用户人际关系数据信息进行灰色关联分析，其中将所述第一类别数据和所述第二类别数据进行无纲量化处理，得到所述第一类别数据和所述第二类别数据的关联度；其中，用户人际关系数据信息包括使用中心度、聚类系数、介数中心性以及接近中心性，所述使用中心度为聊天的朋友个数、所述聚类系数为用户的两个朋友之间也存在朋友关系的比例、所述介数中心性为用户产生朋友之间桥梁的关键程度以及所述接近中心性为用户与其余用户之间的接近程度。

需要说明的是，本步骤通过灰色关联分析法对所有标记后的所述用户控制能力数据信息和用户人际关系数据信息进行分析，确定用户控制能力数据信息和用户人际关系数据信息之间的关联度。其中，用户人际关系数据信息包括使用中心度、聚类系数、介数中心性以及接近中心性；在网络中，一个节点的连边个数也就是一个节点的朋友数，就是节点的度，度也就代表着用户的个数，随着一个节点的度的值的增大，该节点的度中心性值也就随之提升，度中心性对于一个节点而言就是该节点与其余节点之间存在联系的程度。对于用户的人际关系网络而言，接近中心性越大的用户与其他朋友之间的平均距离越短，通过上述四种特征进行描述用户的人际关系特征向量，并将人际关系特征向量进行归一化，分别统计在四个不同特征上的平均值与自我控制能力弱的用户进行比较，继而可以说明相互的关联度。

S500、通过用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，结合遗传算法模型，采用贪心方法和轮盘赌方法，基于启发式算法，经过迭代计算，从而得到实时信息网络日志分析的最优特征数据组合，记作最具有区分度的特征维度组合。

可以理解的是，在本步骤S500中包括S501、S502、S503和S504，其中：S501、求解第一距离，所述第一距离包括所述第一类别数据和所述第二类别数据之间的距离；

S502、求解第二距离，所述第二距离包括至少两个关于用户控制能力数据信息的子类别之间的距离以及至少两个关于用户人际关系数据信息的子类别之间的距离；

S503、通过所述第一距离和所述第二距离求得类内散布矩阵、类间散布矩阵以及适应度函数；

需要说明的是，基于遗传算法的分析模型，其训练方法主要是依据适应度函数的计算值以及选择策略的结果对有标记的样本进行有限次的迭代操作，从而选出最合适的最优特征数据组合，并记作最具有区分度的特征维度组合，其中包括计算类内散布矩阵、类间散布矩阵。具体地，对于同类样本来说，比如子类别之间的距离越小越好。那么对于第一类别数据和第二类别数据来说，样本之间的距离越大越好，也就是说，同类样本的距离越小，异类样本的距离越大，模型的分类效果就越好。故今儿给出的类间-类内距离判据越大，类别可分性就越好。

S504、选取贪心方法和轮盘赌方法，将适应度函数最优的个体保留至下一代迭代群体中，经过迭代计算，使得群体所含的解空间范围最大，从而得到实时信息网络日志分析的最优特征数据组合。

需要说明的是，具体地，使用轮盘赌和贪心方法，每次迭代时，采用/>贪心方法选择价值最大的启发式算法，/>的概率进行轮盘赌选择。如果选中的启发式算法没有改善当前解时，从剩下的启发式算法中重新选择，直到找到所有启发式算法都无法改进当前解或达到迭代次数。采用轮盘赌是一种有放回的随机采样方法，根据每个个体适应度函数的计算值占群体适应度函数值之和的比值作为其能够被选中进入下一代的概率，所以适应度函数计算值越高的个体越容易被保留下来。

需要说明的是，通过利用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，能够全面地反映上网用户的上网行为特征，再通过结合遗传算法能够从广阔的网路日志特征空间中，寻找最适合实时信息网络日志分析的最优特征数据组合，从而达到降低特征维度，提高模型精度的要求，提高了网络日志的测试分析的效率，降低了对测试人员的要求。

实施例2：如图2所示，本实施例提供了一种基于大数据的实时信息网络日志分析系统，参见图2所述系统包括获取模块、处理模块、提取模块、分析模块和计算模块，其中：

具体地，所述处理模块，其中包括预处理单元、第一处理单元和求解单元，其中：

预处理单元：用于将所述待检测网络日志信息进行预处理，所述预处理包括数据整合、数据转换和数据归一化，得到整理后的第一网络日志信息；

第一处理单元：用于对所述第一网络日志信息进行缺失数据的填充以及对重复数据的过滤，得到整理后的第二网络日志信息；

求解单元：用于基于朴素贝叶斯分类器，将所述第二网络日志信息分为先验概率和条件概率，基于独立假设，通过贝叶斯定理对后验概率进行计算求解，得到所述后验概率中值最大的类别作为类别结果进行输出，即得到网络日志特征类别数据，所述后验概率P（Y/X）是通过贝叶斯定理计算得到的，其中，P（Y）为先验概率，P（X/Y）为条件概率，P（X）为类别概率，其计算公式如下：。

具体地，所述提取模块，其中包括投影单元、分类单元和第二处理单元，其中：

投影单元：用于将预设的类别数据作为样例集，将样例投影到一条直线上，从而使得同样样例的投影点接近，不同样例的投影点远离，其中预设的类别数据为符合预设类别条件的给定的训练样例集，其中预设类别条件包括关键类别和紧急类别；

分类单元：用于将所述网络日志特征类别数据作为训练样例集进行分类，将其投影在上述同样的直线上，再根据投影点的位置确定所述第一类别数据和所述第二类别数据，进而确定用户控制能力相关特征数据以及人际关系相关特征数据；

第二处理单元：用于将确定好的所述第一类别数据和所述第二类别数据进行降维处理，得到处理后最终的第一类别数据和第二类别数据。

具体地，所述分析模块，其中包括第三处理单元、训练单元和关联单元，其中：第三处理单元：用于将所述第一类别数据和所述第二类别数据分别基于距离类算法进行聚类处理，得到至少两个关于用户控制能力数据信息的子类别和至少两个关于用户人际关系数据信息的子类别，其中所述用户控制能力数据信息的子类别包括消费频率以及消费金额，所述用户人际关系数据信息的子类别包括与朋友聊天频率以及周期性聚会频率；

训练单元：用于建立Bert模型，将所述用户控制能力数据信息的子类别发送至所述Bert模型中进行训练，生成每个用户所对应的控制特征数据，并进行标记；

关联单元：用于将所有标记后的所述用户控制能力数据信息和用户人际关系数据信息进行灰色关联分析，其中将所述第一类别数据和所述第二类别数据进行无纲量化处理，得到所述第一类别数据和所述第二类别数据的关联度；其中，用户人际关系数据信息包括使用中心度、聚类系数、介数中心性以及接近中心性，所述使用中心度为聊天的朋友个数、所述聚类系数为用户的两个朋友之间也存在朋友关系的比例、所述介数中心性为用户产生朋友之间桥梁的关键程度以及所述接近中心性为用户与其余用户之间的接近程度。

具体地，所述计算模块，其中包括第一求解单元、第二求解单元、第三求解单元和计算单元，其中：

第一求解单元：用于求解第一距离，所述第一距离包括所述第一类别数据和所述第二类别数据之间的距离；

第二求解单元：用于求解第二距离，所述第二距离包括至少两个关于用户控制能力数据信息的子类别之间的距离以及至少两个关于用户人际关系数据信息的子类别之间的距离；

第三求解单元：用于通过所述第一距离和所述第二距离求得类内散布矩阵、类间散布矩阵以及适应度函数；

计算单元：用于选取贪心方法和轮盘赌方法，将适应度函数最优的个体保留至下一代迭代群体中，经过迭代计算，使得群体所含的解空间范围最大，从而得到实时信息网络日志分析的最优特征数据组合。

需要说明的是，关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例3：对应于上面的方法实施例，本实施例中还提供了一种基于大数据的实时信息网络日志分析设备，下文描述的一种基于大数据的实时信息网络日志分析设备与上文描述的一种基于大数据的实时信息网络日志分析方法可相互对应参照。

图3是根据示例性实施例示出的一种基于大数据的实时信息网络日志分析设备800的框图。如图3所示，该基于大数据的实时信息网络日志分析设备800包括：处理器801和存储器802。该基于大数据的实时信息网络日志分析设备800还包括多媒体组件803，I/O接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该基于大数据的实时信息网络日志分析设备800的整体操作，以完成上述的基于大数据的实时信息网络日志分析方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该基于大数据的实时信息网络日志分析设备800的操作，这些数据例如可以包括用于在该基于大数据的实时信息网络日志分析设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘、鼠标或按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该基于大数据的实时信息网络日志分析设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi、蓝牙、近场通信(Near FieldCommunication，简称NFC)、2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件805可以包括：Wi-Fi模块、蓝牙模块或NFC模块。

在一示例性实施例中，基于大数据的实时信息网络日志分析设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital SignalProcessing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的基于大数据的实时信息网络日志分析方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的基于大数据的实时信息网络日志分析方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由基于大数据的实时信息网络日志分析设备800的处理器801执行以完成上述的基于大数据的实时信息网络日志分析方法。

实施例4：相应于上面的方法实施例，本实施例中还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种基于大数据的实时信息网络日志分析方法可相互对应参照。

可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的基于大数据的实时信息网络日志分析方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的实时信息网络日志分析方法，其特征在于，包括：

使用轮盘赌和贪心方法，每次迭代时，采用/>贪心方法选择价值最大的启发式算法，的概率进行轮盘赌选择，如果选中的启发式算法没有改善当前解时，从剩下的启发式算法中重新选择，直到找到所有启发式算法都无法改进当前解或达到迭代次数；

2.根据权利要求1所述的基于大数据的实时信息网络日志分析方法，其特征在于，所述对待检测网络日志信息进行过滤、筛选、分类并进行缺失数据的补全，得到网络日志特征类别数据，其中包括：

。

3.根据权利要求1所述的基于大数据的实时信息网络日志分析方法，其特征在于，所述提取所述网络日志特征类别数据中的第一类别数据和第二类别数据，其中包括：

4.一种基于大数据的实时信息网络日志分析系统，其特征在于，包括：

计算模块：用于通过用所述第一类别数据、所述第二类别数据和所述第一类别数据和所述第二类别数据的关联度作为分析模型的输入，结合遗传算法模型，采用心方法和轮盘赌方法，基于启发式算法，经过迭代计算，从而得到实时信息网络日志分析的最优特征数据组合，记作最具有区分度的特征维度组合；

所述分析模块，其中包括：第三处理单元：用于将所述第一类别数据和所述第二类别数据分别基于距离类算法进行聚类处理，得到至少两个关于用户控制能力数据信息的子类别和至少两个关于用户人际关系数据信息的子类别，其中所述用户控制能力数据信息的子类别包括消费频率以及消费金额，所述用户人际关系数据信息的子类别包括与朋友聊天频率以及周期性聚会频率；

关联单元：用于将所有标记后的所述用户控制能力数据信息和用户人际关系数据信息进行灰色关联分析，其中将所述第一类别数据和所述第二类别数据进行无纲量化处理，得到所述第一类别数据和所述第二类别数据的关联度；其中，用户人际关系数据信息包括使用中心度、聚类系数、介数中心性以及接近中心性，所述使用中心度为聊天的朋友个数、所述聚类系数为用户的两个朋友之间也存在朋友关系的比例、所述介数中心性为用户产生朋友之间桥梁的关键程度以及所述接近中心性为用户与其余用户之间的接近程度；

所述计算模块，其中包括：

计算单元：用于选取贪心方法和轮盘赌方法，将适应度函数最优的个体保留至下一代迭代群体中，经过迭代计算，使得群体所含的解空间范围最大，从而得到实时信息网络日志分析的最优特征数据组合；

使用轮盘赌和贪心方法，每次迭代时，采用/>贪心方法选择价值最大的启发式算法，的概率进行轮盘赌选择，如果选中的启发式算法没有改善当前解时，从剩下的启发式算法中重新选择，直到找到所有启发式算法都无法改进当前解或达到迭代次数。

5.根据权利要求4所述的基于大数据的实时信息网络日志分析系统，其特征在于，所述处理模块，其中包括：

6.根据权利要求4所述的基于大数据的实时信息网络日志分析系统，其特征在于，所述提取模块，其中包括：