CN108229564A

CN108229564A - 一种数据的处理方法、装置及设备

Info

Publication number: CN108229564A
Application number: CN201810011299.9A
Authority: CN
Inventors: 郑岩; 冯健
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced Nova Technology Singapore Holdings Ltd
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2018-06-29
Anticipated expiration: 2038-01-05
Also published as: CN108229564B

Abstract

本申请实施例公开了一种数据的处理方法、装置及设备，该方法包括：从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量，然后，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。利用本申请实施例，可以简化了数据处理的复杂度，提高了数据处理效率。

Description

一种数据的处理方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据的处理方法、装置及设备。

背景技术

随着网络技术和终端技术的不断发展，电子商务得到了快速发展，为了给电子商务的商户提供较好的商户服务，帮助商户拓展市场份额，发展会员体系，使得整个会员营销过程能够自动化并且实时化，人们开发了营销系统。而为了保证营销系统每日稳定运行，就需要对营销系统运行日志进行实时监控，及时定位运行异常，以便做到实时异常发现，实时进行代码调整和发布。

从规模性的预料信息中找到异常的信息，通常的实现方式是分析日志内容，查找到存在异常的日志，也即是在海量的正确数据中，找到很少的异常数据过程，具体地，通常可以采用朴素贝叶斯模型实现，通过朴素贝叶斯模型直接计算统计结果和人工标注数据之间的关联性，其中具体可以包括通过各种链接检测工具和代码检查工具在内的工程集合对网站进行评分，通过评分结果来判断是否为异常数据。

然后，通过上述方式从海量的正确数据中找到很少的异常数据，需要设置各种链接检测工具和代码检查工具，而且需要对待测样本中的所有数据进行人工标注，从而使得数据处理的复杂度很高，数据处理效率低下。

发明内容

本申请实施例的目的是提供一种数据的处理方法、装置及设备，以实现仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练，并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类，保证了分类结果的准确性，简化了数据处理的复杂度，提高了数据处理效率。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供的一种数据的处理方法，所述方法包括：

从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果；所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量；

基于所述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

可选地，所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前，还包括：

从待测样本中选取第二预定数量的业务日志集作为计算样本；

获取所述计算样本的预分类结果；

基于所述预分类结果，通过所述计算样本对所述第一分类器进行训练，得到训练后的第一分类器。

可选地，所述获取所述计算样本的预分类结果，包括：

根据预设的分类规则对所述计算样本进行分类，得到所述预分类结果。

可选地，所述业务日志集由一个或多个业务日志组合形成的集合，每个业务日志集中包含的业务日志具有相同的业务标识。

获取待解析的业务日志；

对所述业务日志的正文进行向量化，得到向量化的日志正文；

对所述向量化的日志正文进行聚类，得到所述业务日志所属的服务类别；

通过预定的业务标识，对所述业务日志进行合并，生成业务日志集；

将生成的业务日志集作为所述待测样本。

可选地，所述第二分类器为支持向量机分类器，

所述通过预定的业务标识，对所述业务日志进行合并，生成业务日志集之后，还包括：

针对每个业务日志集，将包含的不同服务类别的业务日志的数量作为统计特征；

所述基于所述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，包括：

基于所述分类结果，以及计算样本中每个业务日志集的统计特征，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

可选地，所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器，所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。

可选地，所述从待测样本中选取第一预定数量的业务日志集加入到计算样本中，将计算样本输入到第一分类器中，得到计算样本的分类结果，包括：

当计算样本中包含的业务日志集的数量达到预定的数量阈值时，将待测样本中的业务日志集加入到计算样本中，通过第一分类器对计算样本进行分类，得到计算样本的分类结果。

本申请实施例提供的一种数据的处理装置，所述装置包括：

分类结果确定模块，用于从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果；所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量；

目标日志集确定模块，用于基于所述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

可选地，还包括：

计算样本确定模块，用于从待测样本中选取第二预定数量的业务日志集作为计算样本；

预分类结果获取模块，用于获取所述计算样本的预分类结果；

训练模块，用于基于所述预分类结果，通过所述计算样本对所述第一分类器进行训练，得到训练后的第一分类器。

可选地，所述预分类结果获取模块，用于根据预设的分类规则对所述计算样本进行分类，得到所述预分类结果。

可选地，还包括：

日志获取模块，用于获取待解析的业务日志；

向量化模块，用于对所述业务日志的正文进行向量化，得到向量化的日志正文；

服务类别确定模块，用于对所述向量化的日志正文进行聚类，得到所述业务日志所属的服务类别；

日志集生成模块，用于通过预定的业务标识，对所述业务日志进行合并，生成业务日志集；

待测样本确定模块，用于将生成的业务日志集作为所述待测样本。

可选地，所述第二分类器为支持向量机分类器，还包括：

特征确定模块，用于针对每个业务日志集，将包含的不同服务类别的业务日志的数量作为统计特征；

所述目标日志集确定模块，用于基于所述分类结果，以及计算样本中每个业务日志集的统计特征，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

可选地，所述目标日志集确定模块，用于当计算样本中包含的业务日志集的数量达到预定的数量阈值时，将待测样本中的业务日志集加入到计算样本中，通过第一分类器对计算样本进行分类，得到计算样本的分类结果。

本申请实施例提供的一种数据的处理设备，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

由以上本申请实施例提供的技术方案可见，本申请实施例通过从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量，然后，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，这样，仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练，并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类，保证了分类结果的准确性，而不需要设置各种链接检测工具和代码检查工具，也不需要对待测样本中的所有数据进行人工标注，从而简化了数据处理的复杂度，提高了数据处理效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种数据的处理方法实施例；

图2为本申请另一种数据的处理方法实施例；

图3为本申请一种分类规则的设置界面示意图；

图4为本申请另一种分类规则的设置界面示意图；

图5为本申请一种数据的处理装置实施例；

图6为本申请一种数据的处理设备实施例。

具体实施方式

本申请实施例提供一种数据的处理方法、装置及设备。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一

如图1所示，本申请实施例提供一种数据的处理方法，该方法的执行主体可以为终端设备或服务器，其中的终端设备可以是如手机、平板电脑等移动终端设备，还可以是如个人计算机等终端设备，服务器可以是独立的一个服务器，也可以是由多个服务器组成的服务器集群。本申请实施例中为了提高数据的处理效率，该方法的执行主体以服务器为例进行详细说明，对于终端设备的情况，可以参照下述服务器的具体处理执行，在此不再赘述。该方法具体可以包括以下步骤：

在步骤S102中，从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果；该计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量。

其中，待测样本可以是由多个业务日志集的组合，待测样本可以是需要检测其中是否包含某一种或多种指定的业务日志集的样本。第一预定数量可以根据实际情况设定，具体如待测样本和计算样本中包含的业务日志集总数量的10％或15％等。计算样本可以是由多个业务日志集构成，计算样本的数据量较少、且用于确定其中是否包含某一种或多种指定的业务日志集。计算样本中包含的业务日志集的数量可以根据实际情况设定，例如，计算样本中包含的业务日志集的数量可以是待测样本和计算样本中包含的业务日志集总数量的10％或8％等。第一分类器可以是用于划分样本中包含的目标业务日志集的分类器，具体可以如朴素贝叶斯分类器或基于Rocchio算法的分类器等。其中的业务日志集可以是由一个或多个业务日志构成的集合，且同一个业务日志集中的业务日志具有相同的预定标识(如用户标识等)。

在实施中，随着网络技术和终端技术的不断发展，电子商务得到了快速发展，为了给电子商务的商户提供较好的商户服务，帮助商户拓展市场份额，发展会员体系，使得整个会员营销过程能够自动化并且实时化，人们开发了营销系统。而为了保证营销系统每日稳定运行，就需要对营销系统运行日志进行实时监控，及时定位运行异常，以便做到实时异常发现，实时进行代码调整和发布。从规模性的预料信息中找到异常的信息，比较常见的场景是分析网页内容，找到欺诈的网页，也即是在海量的正确数据中，找到很少的异常数据过程。对于欺诈网页的识别，通常可以采用的方法是朴素贝叶斯模型，直接计算统计结果和人工标注数据之间的关联性，具体可以包括各种链接检测工具和代码检查工具在内的工程集合对网站评分，此方式输入结果可靠，但是复杂度很高。为此，本申请实施例提供一种实现方式，具体可以参见下述内容：

可以从上述营销系统或存储业务日志集的存储设备中获取需要进行分析的所有业务日志集，为了对业务日志集进行分类，可以先根据实际情况设定不同类别的划分规则，然后，可以依据划分规则对每个业务日志集进行分类，得到所有业务日志集中每个业务日志集所属的类别。需要说明的是，通过划分规则得到的业务日志的类别的准确性较差，需要进一步通过其它分类方式准确判定每个业务日志的类别，为此，可以预先选择一种分类器，该分类器可以是通常使用的一种分类器，例如，上述贝叶斯分类器或基于Rocchio算法的分类器等，选择一种分类器(即第一分类器)之后，可以对该第一分类器进行训练。为此，可以从所有的业务日志集构成的待测样本中抽取一定数量的业务日志集作为计算样本。该计算样本中包括通过上述划分规则确定的各个不同类别的业务日志集。

需要说明的是，可以不对上述所有业务日志集所属的类别进行划分，而是仅对计算样本中的业务日志集所属的类别进行划分，具体的分类方式除了可以通过上述划分规则的方式实现外，还可以通过标注的方式实现，具体地，可以读取该计算样本中的每个业务日志集的内容，对每个业务日志集的内容进行分析后，可以判定该业务日志集所属的类别，并为该业务日志集设置相应的标注，通过上述方式可以对计算样本中的每个业务日志集进行标识，得到每个业务日志集所属的分类，例如，如果分类的类别包括两种，可以为正样本和负样本，其中负样本中可以包括目标业务日志集，正样本可以是不包括目标业务日志集的集合，则可以判断每个业务日志集属于正样本还是属于负样本，如果分类的类别包括两种以上，以包括三种为例，可以为第一样本、第二样本和第三样本，其中三个样本中的任一样本中可以包括目标业务日志集，其它样本中包含的业务日志集可以根据实际情况设定，则可以判断每个业务日志集属于第一样本、第二样本和第三样本中的哪一个样本。

可以将标注完成的计算样本代入到上述选择的第一分类器中，以对第一分类器进行训练，最终得到该第一分类器的相关参数，基于得到的相关参数可以得到训练的第一分类器。

可以从待测样本中剩余的业务日志集中抽取预定数量的业务日志集，具体可以是从待测样本中剩余的业务日志集中抽取待测样本和计算样本中包含的业务日志集总数量的10％的业务日志集作为上述抽取的预定数量的业务日志集等。可以将抽取的业务日志集添加到上述计算样本中，以更新计算样本，此时计算样本中包括两次从待测样本中抽取的业务日志集，相应的待测样本中会减少相应数量的业务日志集。可以将更新的计算样本输入到上述预先训练的第一分类器中，以对更新的计算样本进行分类，得到更新的计算样本的分类结果。

在步骤S104中，基于上述分类结果，通过预定的第二分类器对更新的计算样本进行分类，确定更新的计算样本中包含的目标业务日志集。

其中，预定的第二分类器可以是用于对更新的计算样本进一步进行分类的分类器，具体可以如SVM(Support Vector Machine，支持向量机)分类器或基于EM(ExpectationMaximization，期望最大化)算法的分类器等。目标业务日志集可以是需要从所有的业务日志集中查找的业务日志集，目标业务日志集可以如上述异常数据或异常业务日志集等。

在实施中，通过上述步骤S102的处理得到计算样本的分类结果后，为了使得计算样本的分类结果的准确度较高，还可以再选择一个分类器(即第二分类器)，通过该第二分类器再次对计算样本进行分类，以提高计算样本的分类准确度，具体地，基于上述步骤S102得到的分类结果，可以将计算样本输入到第二分类器中进行计算，得到计算样本中包含的业务日志集所属的类别，从而可以确定计算样本中包含的目标业务日志集。

由于通过上述方式，仅是将待测样本中的一部分业务日志集进行了分类，而待测样本中仍然存在没有进行精确分类的业务日志集，因此，可以再次从待测样本中选取一定数量的业务日志集加入到计算样本中，然后，可以使用上述第一分类器对计算样本进行分类，得到相应的分类结果，最后，再基于上述分类结果，通过第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，通过上述方式循环执行上述步骤S102和步骤S104的处理过程，直到待测样本中不存在业务日志集为止。

本申请实施例提供一种数据的处理方法，通过从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量，然后，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，这样，仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练，并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类，保证了分类结果的准确性，而不需要设置各种链接检测工具和代码检查工具，也不需要对待测样本中的所有数据进行人工标注，从而简化了数据处理的复杂度，提高了数据处理效率。

实施例二

如图2所示，本申请实施例提供了一种数据的处理方法，该方法的执行主体可以为终端设备或服务器，其中的终端设备可以是如手机、平板电脑等移动终端设备，还可以是如个人计算机等终端设备，服务器可以是独立的一个服务器，也可以是由多个服务器组成的服务器集群。本申请实施例中为了提高数据的处理效率，该方法的执行主体以服务器为例进行详细说明，对于终端设备的情况，可以参照下述服务器的具体处理执行，在此不再赘述。该方法具体可以包括以下步骤：

在步骤S202中，获取待解析的业务日志。

其中，业务日志可以是某一项业务或多项业务中产生的日志，其中的业务可以包括如信息推荐业务、网络支付业务和网络通信业务等，业务日志中可以包括某一项或多项业务为用户提供服务的过程中产生的数据，例如，用户发送的数据的相关信息、检测用户身份过程中产生的数据和用户的终端设备反馈或回流的信息等。

在实施中，可以在业务系统或上述营销系统中设置相应的日志获取端口，通过该端口可以实时获取业务系统或上述营销系统产生的实时事件的业务日志流，可以将获取的实时事件的业务日志流中的业务日志作为待解析的业务日志。

需要说明的是，获取的业务日志可以是业务系统或上述营销系统中的全量业务日志，其中可以包括本申请实施例中需要得到的某一种或多种业务日志，或者，其中的内容中包括指定数据的业务日志等。例如，可以包括如“fail”、“error”或“exception”等关键字的业务日志等。

在步骤S204中，对上述业务日志的正文进行向量化，得到向量化的日志正文。

在实施中，通过上述处理方式得到业务日志后，可以按照业务日志通常的标准格式将每个业务日志进行解析，将每个业务日志划分为时间、程序类名和正文等多个不同的部分。其中，对于时间和程序类名，由于其内容较简单，能够表达的意义有限，而业务日志的正文中包含的内容往往较多，因此，可以从业务日志的正文中分析相应的业务日志的主要内容，为此，可以对业务日志的正文进行聚类。在进行聚类之前需要先对业务日志的正文进行向量化，得到向量化的日志正文。下面以示例来说明向量化的日志正文，如下表1所示

表1

时间	日志标识	列1	列2	列3	列4	列5	列6	…
									20171022 10:01:01	1	1	0	0	0	0	1	0
20171022 10:01:02	2	0	1	1	0	1	0	1
									20171022 10:01:03	3	1	1	0	1	0	1	1
20171022 10:01:04	4	0	1	1	1	1	0	1
									20171022 10:01:05	5	1	0	0	1	0	1
20171022 10:01:06	6	0	1	0	1	1	1	0
									20171022 10:01:07	7	1	1	1	1	0	0	1
20171022 10:01:08	8	0	1	0	1	1	1	1
									20171022 10:01:09	9	1	0	1	0	0	0	1
20171022 10:01:10	10	0	1	0	1	1	1	0
									20171022 10:01:011	11	1	1	1	1	0	1	0

在步骤S206中，对上述向量化的日志正文进行聚类，得到该业务日志所属的服务类别。

其中，服务类别可以根据实际情况设定，例如，根据每项业务中的不同服务进行分类，例如某一项服务中包括检验过程、预处理过程、执行过程和回流反馈过程等，可以针对该服务中的不同处理过程设置相应的服务类别，基于上述多个过程，可以相应的设置检验类、预处理类、执行类和回流反馈类等。

在实施中，用户可以根据实际需要设置多个不同的服务类别，设置完成后，可以将上述得到的向量化的日志正文代入到预先选择的聚类算法中，其中，聚类算法可以包括多种，例如邻近算法，具体如K最近邻(即kNN，k-NearestNeighbor)算法，其中的KNN算法具有处理速度快和实现简单等特点，本申请实施例中的聚类算法可以采用无监督式聚类算法(如上述的KNN算法等)。通过聚类算法可以对得到的每个向量化的日志正文进行聚类计算，得到每个向量化的日志正文对应的业务日志所属的服务类别。

基于上述表1所示的示例，对上述表1所述的向量化的日志正文进行聚类，得到相应的业务日志所属的服务类别，可以如下表2所示。

表2

在步骤S208中，通过预定的业务标识，对上述业务日志进行合并，生成业务日志集。

其中，业务标识可以是相应的业务的名称、编码，也可以是业务日志中包含的与用户相关的信息，如用户的姓名、账号或用户名等用户标识，还可以是业务日志中包含的其它相关信息等，本申请实施例对此不做限定。

在实施中，考虑到业务系统或上述营销系统中包含的业务日志的数量往往较多，为了简化后续的处理过程，提高数据的处理效率，通过上述步骤S206的处理得到每个业务日志所属的服务类别后，可以对上述大量的业务日志进行合并。具体地，为了时后续处理过程简单有效，可以根据实际情况预先定义用于合并业务日志的唯一主键(也即是业务标识)，设定后，可以从每个业务日志中提取其中包含的主键，可以将具有相同主键的业务日志合并，得到相应的业务日志集。例如，预先定义的主键为用户标识，则可以从每个业务日志中提取其中包含的用户标识，如果共有四个业务日志，即业务日志1、业务日志2、业务日志3和业务日志4，从业务日志1中提取出的用户标识为A，从业务日志2中提取出的用户标识为B，业务日志3中提取出的用户标识为B，业务日志4中提取出的用户标识为B，则可以将业务日志1作为一个业务日志集，可以将业务日志2、业务日志3和业务日志4进行合并，得到一个业务日志集，即得到两个业务日志集。基于上相关内容可知，该业务日志集由一个或多个业务日志组合形成的集合，每个业务日志集中包含的业务日志具有相同的业务标识。

需要说明的是，由于需要对得到业务日志进行合并得到相应的业务日志集，因此，在上述步骤S202中获取待解析的业务日志后，还可以对获取到的业务日志进行预处理，即检测每个业务日志中是否包括上述主键的相关信息，并将不包括主键的相关信息的业务日志删除，而只保留包括主键的相关信息的业务日志，例如，如果主键为用户标识，则可以检测每个业务日志中是否包括userid＝xxx格式的数据，将不包括userid＝xxx格式的数据的业务日志删除。

在步骤S210中，将生成的业务日志集作为待测样本。

在步骤S212中，从待测样本中选取第二预定数量的业务日志集作为计算样本。

其中，第二预定数量可以是相对于待测样本和计算样本中包含的业务日志集总数量较小的数值，第二预定数量可以根据实际情况设定，具体如待测样本和计算样本中包含的业务日志集总数量的10％或15％等。第二预定数量可以与上述第一预定数量相同，也可以与上述第一预定数量不同，本申请实施例对此不做限定。

在实施中，可以将上述得到的业务日志集作为待测样本，为了后续对第一分类器进行训练，可以从待测样本中选取一定数量(即第二预定数量)的业务日志集作为计算样本。例如，可以从待测样本中选取其中包含的业务日志集的总数量的10％的业务日志集作为计算样本。

在步骤S214中，获取上述计算样本的预分类结果。

在实施中，通过上述处理过程得到计算样本后，可以获取计算样本中的每个业务日志集中包含的内容，可以基于每个业务日志集中包含的内容确定相应的业务日志集所属的类别，从而得到计算样本的预分类结果。其中的类别与上述服务类别不同，该类别可以是用户需要从计算样本中获取其中包含某一种或多种数据的业务日志对应的类别，例如，该类别可以包括正样本和负样本，负样本可以是用户需要查找的包含异常信息的业务日志组成的集合，正样本为不包含异常信息的业务日志组成的集合，其中的异常信息可以包括如“fail”、“error”或“exception”等关键字的信息等。

在实际应用中，除了可以通过上述方式获取计算样本的预分类结果外，还可以通过多种方式获取计算样本的预分类结果，以下再提供一种可选的处理方式，具体可以包括以下内容：根据预设的分类规则对上述计算样本进行分类，得到预分类结果。

在实施中，预设的分类规则可以根据实际情况设定，例如基于上述正样本和负样本的示例，如图3或图4所示，可以设置正样本的分类规则为“用户登录行为出现1次”、“用户搜索行为出现1～3次”、“调用远程系统出现1～2次”和“用户发奖行为出现0～1次”等中的一项或多项的组合，这样，当业务日志集满足正样本的分类规则时，可以将该业务日志集作为正样本，否则，可以将该业务日志集作为负样本。或者，如图4所示，可以设置负样本的分类规则为包括“fail”、“error”或“exception”等关键字，这样，当业务日志集满足负样本的分类规则时，可以将该业务日志集作为负样本，否则，可以将该业务日志集作为正样本。

在步骤S216中，基于上述预分类结果，通过上述计算样本对第一分类器进行训练，得到训练后的第一分类器。

其中，第一分类器可以为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器等。

在实施中，通过上述方式得到的计算样本的预分类结果的准确性较差，需要进一步通过其它分类方式准确判定每个业务日志集的类别，为此，可以预先选择一种分类器(即第一分类器)，可以对该第一分类器进行训练，具体地，可以基于上述预分类结果，将计算样本(其中可以包括正样本和负样本)输入到第一分类器中进行计算，以对第一分类器进行训练，得到训练后的第一分类器。这样，通过将待测样本中很少一部分业务日志集作为计算样本训练第一分类器，得到第一分类器的相关参数，以便为后续的业务日志集进行分类。由于仅是从待测样本中选取很少一部分业务日志集训练第一分类器，因此，选取的很少一部分业务日志集中包含的用户需要的某一种或多种业务日志集的情况并不全面，例如，用户需要查找其中包括“fail”、“error”或“exception”等关键字的负样本，由于选取的业务日志集数量较少，其中包含的负样本的关键字可能并不能够全面体现，如选取的业务日志集中仅包含关键字“error”的业务日志集，因此，对于关键字为“fail”或“exception”等的业务日志集，上述第一分类器可能无法对其进行正确分类，为了可以通过多次分类的方式提高分类的准确度。

在步骤S218中，针对每个业务日志集，将包含的不同服务类别的业务日志的数量作为统计特征。

在实施中，为了后续对计算样本进行分类，可以设置每个业务日志集的统计特征，具体地，如表3所示，可以使用业务标识关联业务日志集中的各个部分，每个业务标识作为数据表的一行，统计业务日志的每个分类出现的次数，作为统计特征。

表3

业务标识	业务日志数量	类1数量	类2数量	类3数量	类4数量
						1	10	5	3	1	1
2	11	6	3	1	1
						3	5	1	1	1	2

在步骤S220中，从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果。

其中，第一预定数量可以与上述第二预定数量相同，也可以与上述第二预定数量不同，而且，如果两者不同，第一预定数量可以大于第二预定数量，或者，也可以是第一预定数量小于第二预定数量，具体可以根据实际情况设定，本申请实施例对此不做限定。

上述步骤S220的步骤内容与上述实施例一中的步骤S102的步骤内容相同，步骤S220的具体处理过程可以参见上述步骤S102的相关内容，在此不再赘述。

在步骤S222中，基于上述分类结果，以及计算样本中每个业务日志集的统计特征，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

其中，第二分类器可以为支持向量机分类器、EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器等。

在实施中，基于上述提供的第二分类器，需要对计算样本中的每个业务日志集进行向量化，具体可以参见上述相关内容，在此不再赘述。另外，为了对计算样本中的业务日志集进行分类，除了对业务日志集进行向量化外，还可以确定每个业务日志集的统计特征，可以在上述分类结果的基础上，将计算样本中每个业务日志集的统计特征和相应的业务日志集输入到第二分类器，通过第二分类器可以对计算样本中的业务日志集再次进行分类，确定计算样本中每个业务日志集所属的类别，从而可以确定计算样本中包含的目标业务日志集，例如，包括“fail”、“error”或“exception”等关键字的业务日志集等。

通过将第一分类器与第二分类器相结合，可以将计算样本中包含的少量业务日志集进行分类，从而从中选取出目标业务日志集，分类的精确度较高，可以满足检测的要求。

由于通过上述方式，仅是将待测样本中的一部分业务日志集进行了分类，而待测样本中仍然存在没有进行精确分类的业务日志集，因此，可以再次从待测样本中选取一定数量的业务日志集加入到计算样本中，然后，可以使用上述第一分类器对计算样本进行分类，得到相应的分类结果，最后，再基于上述分类结果，通过第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，通过上述方式循环执行上述步骤S220和步骤S222的处理过程，直到待测样本中不存在业务日志集为止。

需要说明的是，通过上述步骤S222的处理之后，得到了计算样本中的业务日志集的较准确的分类结果，为了保证计算样本的分类结果的准确性，可以对计算样本中的分类结果进行排查，如果在分类结果中发现分类错误的业务日志集，可以将该业务日志集调整到正确的类别下，例如，基于上述正样本和负样本的示例，可以对负样本中的业务日志集进行排查，如果发现负样本中存在满足正样本的分类规则的业务日志集，可以将该业务日志集从负样本中移除，并将该业务日志集加入到正样本中，然后，可以再对调整后的计算样本真行上述步骤S220和步骤S222的处理，或下述步骤S224和步骤S226的处理。

另外，考虑到当计算样本中包含的业务日志集的数量达到一定的数量时，通常业务日志集中可能包含的情况基本都已经出现，此时，通过计算样本训练的第一分类器和第二分类器的分类精度已基本稳定或精度较高，此时，可以不需要每次只选取一定数量的业务日志集加入到计算样本，进而确定计算样本中包含的目标业务日志集，而是在计算样本中包含的业务日志集的数量达到一定的数量时，可以对待测样本中剩余的所有业务日志集进行分类，以提高分类效率和信息检测效率，具体可以参见下述步骤S224和步骤S226。

在步骤S224中，当计算样本中包含的业务日志集的数量达到预定的数量阈值时，将待测样本中的业务日志集加入到计算样本中，通过第一分类器对计算样本进行分类，得到计算样本的分类结果。

其中，预定的数量阈值可以根据实际情况设定，具体如待测样本和计算样本中包含的业务日志集总数量的40％或50％等。

在实施中，可以根据实际情况，预先设定数量阈值。通过上述步骤S220和步骤S222的循环执行，可以确定每次计算样本中包含的目标业务日志集，同时，在每执行完成上述步骤S222后，可以统计计算样本中包含的业务日志集的数量，如果统计的数量达到预定的数量阈值，则将待测样本中剩余的所有业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，对于通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果可以参见上述步骤S220或上述实施例一中的相关内容，在此不再赘述。如果统计的数量未达到预定的数量阈值，则可以继续执行上述步骤S220和步骤S222。

在步骤S226中，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

上述步骤S226的处理过程可以参见上述步骤S222的相关内容，在此不再赘述。通过上述步骤S226的处理之后，已完成对待测样本中所有业务日志集的分类，从而得到待测样本中所有业务日志集中包含的目标业务日志集。

实施例三

以上为本申请实施例提供的数据的处理方法，基于同样的思路，本申请实施例还提供一种数据的处理装置，如图5所示。

所述数据的处理装置包括：分类结果确定模块501和目标日志集确定模块502，其中：

分类结果确定模块501，用于从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果；所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量；

目标日志集确定模块502，用于基于所述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集。

本申请实施例中，还包括：

本申请实施例中，所述预分类结果获取模块，用于根据预设的分类规则对所述计算样本进行分类，得到所述预分类结果。

本申请实施例中，所述业务日志集由一个或多个业务日志组合形成的集合，每个业务日志集中包含的业务日志具有相同的业务标识。

本申请实施例中，还包括：

日志获取模块，用于获取待解析的业务日志；

本申请实施例中，所述第二分类器为支持向量机分类器，还包括：

本申请实施例中，所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器，所述第二分类器为支持向量机分类器、EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。

本申请实施例中，所述目标日志集确定模块502，用于当计算样本中包含的业务日志集的数量达到预定的数量阈值时，将待测样本中的业务日志集加入到计算样本中，通过第一分类器对计算样本进行分类，得到计算样本的分类结果。

本申请实施例提供一种数据的处理装置，通过从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量，然后，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，这样，仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练，并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类，保证了分类结果的准确性，而不需要设置各种链接检测工具和代码检查工具，也不需要对待测样本中的所有数据进行人工标注，从而简化了数据处理的复杂度，提高了数据处理效率。

实施例四

基于同样的思路，本申请实施例还提供一种数据的处理设备，如图6所示。

该数据的处理设备可以为上述实施例提供的服务器等。

数据的处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器601和存储器602，存储器602中可以存储有一个或一个以上存储应用程序或数据。其中，存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对数据的处理设备中的一系列计算机可执行指令。更进一步地，处理器601可以设置为与存储器602通信，在数据的处理设备上执行存储器602中的一系列计算机可执行指令。数据的处理设备还可以包括一个或一个以上电源603，一个或一个以上有线或无线网络接口604，一个或一个以上输入输出接口605，一个或一个以上键盘606。

具体在本实施例中，数据的处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对数据的处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

可选地，程序中还包含用于进行以下计算机可执行指令：

获取所述计算样本的预分类结果；

可选地，程序中还包含用于进行以下计算机可执行指令：

获取待解析的业务日志；

将生成的业务日志集作为所述待测样本。

可选地，程序中还包含用于进行以下计算机可执行指令：

所述第二分类器为支持向量机分类器，

可选地，程序中还包含用于进行以下计算机可执行指令：

本申请实施例提供一种数据的处理设备，通过从待测样本中选取第一预定数量的业务日志集加入到计算样本中，通过预定的第一分类器对计算样本进行分类，得到计算样本的分类结果，其中，计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量，然后，基于上述分类结果，通过预定的第二分类器对计算样本进行分类，确定计算样本中包含的目标业务日志集，这样，仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练，并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类，保证了分类结果的准确性，而不需要设置各种链接检测工具和代码检查工具，也不需要对待测样本中的所有数据进行人工标注，从而简化了数据处理的复杂度，提高了数据处理效率。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前，还包括：

获取所述计算样本的预分类结果；

3.根据权利要求2所述的方法，其特征在于，所述获取所述计算样本的预分类结果，包括：

4.根据权利要求1或2所述的方法，其特征在于，所述业务日志集由一个或多个业务日志组合形成的集合，每个业务日志集中包含的业务日志具有相同的业务标识。

5.根据权利要求4所述的方法，其特征在于，所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前，还包括：

获取待解析的业务日志；

将生成的业务日志集作为所述待测样本。

6.根据权利要求5所述的方法，其特征在于，所述第二分类器为支持向量机分类器，

7.根据权利要求1所述的方法，其特征在于，所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器，所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。

8.根据权利要求1所述的方法，其特征在于，所述从待测样本中选取第一预定数量的业务日志集加入到计算样本中，将计算样本输入到第一分类器中，得到计算样本的分类结果，包括：

9.一种数据的处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求10所述的装置，其特征在于，所述预分类结果获取模块，用于根据预设的分类规则对所述计算样本进行分类，得到所述预分类结果。

12.根据权利要求9或10所述的装置，其特征在于，所述业务日志集由一个或多个业务日志组合形成的集合，每个业务日志集中包含的业务日志具有相同的业务标识。

13.根据权利要求12所述的装置，其特征在于，还包括：

日志获取模块，用于获取待解析的业务日志；

14.根据权利要求13所述的装置，其特征在于，所述第二分类器为支持向量机分类器，还包括：

15.根据权利要求9所述的装置，其特征在于，所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器，所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。

16.根据权利要求9所述的装置，其特征在于，所述目标日志集确定模块，用于当计算样本中包含的业务日志集的数量达到预定的数量阈值时，将待测样本中的业务日志集加入到计算样本中，通过第一分类器对计算样本进行分类，得到计算样本的分类结果。

17.一种数据的处理设备，所述设备包括：

处理器；以及