CN112269879A

CN112269879A - 基于k-means算法的中台日志分析方法及设备

Info

Publication number: CN112269879A
Application number: CN202011204400.6A
Authority: CN
Inventors: 谢帆; 杨毅; 贺珊
Original assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26
Anticipated expiration: 2040-11-02
Also published as: CN112269879B

Abstract

本发明实施例提供了一种基于k‑means算法的中台日志分析方法及设备。所述方法包括：获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。本发明实施例提供的基于k‑means算法的中台日志分析方法及设备，可以较为精确地定位调用频率较高的接口，并对接口进行相应调整，显著提升了系统的稳定性。

Description

基于k-means算法的中台日志分析方法及设备

技术领域

本发明实施例涉及中台数据挖掘技术领域，尤其涉及一种基于k-means算法的中台日志分析方法及设备。

背景技术

业务中台将已经在互联网行业大规模推行和应用的中台技术引入到传统的特定系统中来，通过将不同种类应用中通用的模块沉淀出可以复用的通用模块组件，将通用能力从解决方案中抽离出来,与业务场景进行解耦，来形成统一的平台体系，使得不同场景化的应用产品可以共用一个公共底座。业务中台的上层应用会调用中台接口，但是具体调用哪个接口较多，即哪个接口的使用频率较高还是无法精确得知的信息，如果对接口不加区分的使用，会造成使用频率较高的接口给与的通量较低，而使用频率较低的接口给与的通量较高的问题，这回造成系统的稳定性较差，系统资源分配不合理的问题。因此，开发一种基于k-means算法的中台日志分析方法及设备，可以有效克服上述相关技术中的缺陷，就成为业界亟待解决的技术问题。

发明内容

针对现有技术存在的上述问题，本发明实施例提供了一种基于k-means算法的中台日志分析方法及设备。

第一方面，本发明的实施例提供了一种基于k-means算法的中台日志分析方法，包括：获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述获取一时长段内的调用接口的第一日志信息集，包括：对于上层应用在一时长段内的日志信息定期存储，日志记录上层应用的ID，调用的接口的种类，调用接口的方式，调用时间以及调用是否成功。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述全部聚类簇中每一聚类簇的权重为：

其中，n_i为第i个聚类簇中聚类点的个数；x_ij为第i个聚类簇中的第j个聚类点；M_i为每一聚类簇的权重。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述全部聚类簇中心的均值为：

其中，k为全部聚类簇的个数；

为全部聚类簇中心的均值。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性包括确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差，相应地，所述方差为：

其中，

为全部聚类簇中心的第一属性相对所述均值的第一属性的方差；m_il为第i个聚类簇中心第一属性；

为所述均值的第一属性。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，在所述确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差之后，还包括确定所述第一属性的权重，相应地，所述第一属性的权重为：

其中，w_l为所述第一属性的权重；P为所述第一属性的个数。

在上述方法实施例内容的基础上，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整，包括：若所述第一属性的权重超过权重阈值，则确定相应的聚类簇中心的相似性超过预设阈值，并对相应接口进行调整。

第二方面，本发明的实施例提供了一种基于k-means算法的中台日志分析装置，包括：

日志信息集获取模块，用于获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；

相似性获取模块，用于采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。

第三方面，本发明的实施例提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种实现方式中任一种实现方式所提供的基于k-means算法的中台日志分析方法。

第四方面，本发明的实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种实现方式中任一种实现方式所提供的基于k-means算法的中台日志分析方法。

本发明实施例提供的基于k-means算法的中台日志分析方法及设备，通过获取日志信息集，并通过k-means算法对日志信息集进行聚类，并对聚类簇的中心与全部聚类簇中心的均值进行相似性判定，根据相似性对相应接口进行调整，可以较为精确地定位调用频率较高的接口，并对接口进行相应调整，显著提升了系统的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于k-means算法的中台日志分析方法流程图；

图2为本发明实施例提供的基于k-means算法的中台日志分析装置结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

首先需要收集大量的日志数据，这些日志主要记录接口调用的类、方法、调用时间、是否请求成功等信息，完成日志数据的收集工作，收集到这些数据之后，需要对这些数据做预处理，通过一定的方法，清洗掉一些冗余或者有误的脏数据，在开始计算之前，需要确定相似度度量，因为相似度度量是一个非常重要的参数，在计算对象的距离之前，要对各变量的性值做进一步的处理，最后K-means算法将对象划分为K个类聚，其中类聚的数量K由用户自己决定，实验应该多次运行，每次使用不同的随机初始点的方法，计算聚类的目标函数SSE，取SSE最小的一次作为最终的聚类结果。基于这种思想，本发明实施例提供了一种基于k-means算法的中台日志分析方法，参见图1，该方法包括：

101、获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；

102、采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。

具体地，K-means算法将对象划分为K个类聚，其中类聚的数量K由用户自己决定，实验应该多次运行，每次使用不同的随机初始点的方法，计算聚类的目标函数SSE，取SSE最小的一次作为最终的聚类结果。K-means算法属于现有技术，其具体计算过程不再赘述。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述获取一时长段内的调用接口的第一日志信息集，包括：对于上层应用在一时长段内的日志信息定期存储，日志记录上层应用的ID，调用的接口的种类，调用接口的方式，调用时间以及调用是否成功。具体地，对于上层应用在一段时间内的日志的记录，应定期存储，方便对日志进行类聚分析时调用查看，日志需要记录上层应用的ID，调用的接口的类，调用的接口的方法，调用时间，调用时候成功等等信息。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述全部聚类簇中每一聚类簇的权重为：

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述全部聚类簇中心的均值为：

其中，k为全部聚类簇的个数；

为全部聚类簇中心的均值。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性包括确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差，相应地，所述方差为：

其中，

为所述均值的第一属性。

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，在所述确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差之后，还包括确定所述第一属性的权重，相应地，所述第一属性的权重为：

其中，w_l为所述第一属性的权重；P为所述第一属性的个数。

具体地，若某变量与聚类中心的方差较大时，该变量会对聚类的结果有较大的影响，因此赋予较大的权重，反之权重越小，就可以用加权的距离来度量任意两个对象之间的相似性，以十个类聚数目，选取样本规模为日志总量1/5的不同的样本数据对此运行，可以得到结果如表1。

表1

基于上述方法实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析方法，所述对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整，包括：若所述第一属性的权重超过权重阈值，则确定相应的聚类簇中心的相似性超过预设阈值，并对相应接口进行调整。

本发明实施例提供的基于k-means算法的中台日志分析方法，通过获取日志信息集，并通过k-means算法对日志信息集进行聚类，并对聚类簇的中心与全部聚类簇中心的均值进行相似性判定，根据相似性对相应接口进行调整，可以较为精确地定位调用频率较高的接口，并对接口进行相应调整，显著提升了系统的稳定性。基于K-means算法的中台日志分析方法，智能化、高效化等优点，能够分析出上层应用对哪些接口的调用频率更高，从而让中台更加有针对性地去优化那些接口。

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中，可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况，在上述各实施例的基础上，本发明的实施例提供了一种基于k-means算法的中台日志分析装置，该装置用于执行上述方法实施例中的基于k-means算法的中台日志分析方法。参见图2，该装置包括：

日志信息集获取模块201，用于获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；

相似性获取模块202，用于采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。

本发明实施例提供的基于k-means算法的中台日志分析装置，采用日志信息集获取模块和相似性获取模块，通过获取日志信息集，并通过k-means算法对日志信息集进行聚类，并对聚类簇的中心与全部聚类簇中心的均值进行相似性判定，根据相似性对相应接口进行调整，可以较为精确地定位调用频率较高的接口，并对接口进行相应调整，显著提升了系统的稳定性。

需要说明的是，本发明提供的装置实施例中的装置，除了可以用于实现上述方法实施例中的方法外，还可以用于实现本发明提供的其他方法实施例中的方法，区别仅仅在于设置相应的功能模块，其原理与本发明提供的上述装置实施例的原理基本相同，只要本领域技术人员在上述装置实施例的基础上，参考其他方法实施例中的具体技术方案，通过组合技术特征获得相应的技术手段，以及由这些技术手段构成的技术方案，在保证技术方案具备实用性的前提下，就可以对上述装置实施例中的装置进行改进，从而得到相应的装置类实施例，用于实现其他方法类实施例中的方法。例如：

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析装置，还包括：第二模块，用于对于上层应用在一时长段内的日志信息定期存储，日志记录上层应用的ID，调用的接口的种类，调用接口的方式，调用时间以及调用是否成功。

基于上述装置实施例的内容，作为一种可选的实施例，本发明实施例中提供的基于k-means算法的中台日志分析装置，还包括：第三模块，用于若所述第一属性的权重超过权重阈值，则确定相应的聚类簇中心的相似性超过预设阈值，并对相应接口进行调整。

本发明实施例的方法是依托电子设备实现的，因此对相关的电子设备有必要做一下介绍。基于此目的，本发明的实施例提供了一种电子设备，如图3所示，该电子设备包括：至少一个处理器(processor)301、通信接口(Communications Interface)304、至少一个存储器(memory)302和通信总线303，其中，至少一个处理器301，通信接口304，至少一个存储器302通过通信总线303完成相互间的通信。至少一个处理器301可以调用至少一个存储器302中的逻辑指令，以执行前述各个方法实施例提供的方法的全部或部分步骤。

此外，上述的至少一个存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本专利中，术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于k-means算法的中台日志分析方法，其特征在于，包括：

获取一时长段内的调用接口的第一日志信息集，将所述第一日志信息集中的错误信息及冗余信息进行剔除，得到第二日志信息集；

采用k—means算法对所述第二日志信息集中的全部日志信息进行聚类，得到全部聚类簇，根据所述全部聚类簇中心的均值，确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性，对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整。

2.根据权利要求1所述的基于k-means算法的中台日志分析方法，其特征在于，所述获取一时长段内的调用接口的第一日志信息集，包括：对于上层应用在一时长段内的日志信息定期存储，日志记录上层应用的ID，调用的接口的种类，调用接口的方式，调用时间以及调用是否成功。

3.根据权利要求1所述的基于k-means算法的中台日志分析方法，其特征在于，所述全部聚类簇中每一聚类簇的权重为：

4.根据权利要求3所述的基于k-means算法的中台日志分析方法，其特征在于，所述全部聚类簇中心的均值为：

其中，k为全部聚类簇的个数；

为全部聚类簇中心的均值。

5.根据权利要求4所述的基于k-means算法的中台日志分析方法，其特征在于，所述确定全部聚类簇中心的第一属性与所述均值的第一属性的相似性包括确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差，相应地，所述方差为：

其中，

为所述均值的第一属性。

6.根据权利要求5所述的基于k-means算法的中台日志分析方法，其特征在于，在所述确定全部聚类簇中心的第一属性相对所述均值的第一属性的方差之后，还包括确定所述第一属性的权重，相应地，所述第一属性的权重为：

其中，w_l为所述第一属性的权重；P为所述第一属性的个数。

7.根据权利要求6所述的基于k-means算法的中台日志分析方法，其特征在于，所述对相似性超过预设阈值的聚类簇中心对应的接口进行相应调整，包括：若所述第一属性的权重超过权重阈值，则确定相应的聚类簇中心的相似性超过预设阈值，并对相应接口进行调整。

8.一种基于k-means算法的中台日志分析装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器和通信接口；其中，

所述处理器、存储器和通信接口相互间进行通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以执行权利要求1至7任一项权利要求所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至7中任一项权利要求所述的方法。