CN118051361A - 数据处理方法、装置、设备、产品及存储介质 - Google Patents

数据处理方法、装置、设备、产品及存储介质 Download PDF

Info

Publication number
CN118051361A
CN118051361A CN202211435000.5A CN202211435000A CN118051361A CN 118051361 A CN118051361 A CN 118051361A CN 202211435000 A CN202211435000 A CN 202211435000A CN 118051361 A CN118051361 A CN 118051361A
Authority
CN
China
Prior art keywords
information
service call
text feature
abnormal
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211435000.5A
Other languages
English (en)
Inventor
周雨豪
蒙锐
马靖波
张越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211435000.5A priority Critical patent/CN118051361A/zh
Publication of CN118051361A publication Critical patent/CN118051361A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、设备、产品及存储介质,方法包括:获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据,上述过程可以实现对批量的异常调用信息进行聚类处理得到至少一个异常信息集合,根据每一个异常信息集合生成该异常信息集合对应的模式序列数据,从而达到提升运维效率的目的。

Description

数据处理方法、装置、设备、产品及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备、产品及存储介质。
背景技术
随着互联网架构的扩展,分布式系统变得日趋复杂,越来越多的组件开始走向分布式化,这些组件共同构成了复杂的分布式网络。然而,在一个请求经过分布式网络的多个服务后,若出现了调用失败的问题,需要逐一对每一个服务的服务调用日志数据中的相应字段数据进行查验,以进行故障排除。然而,在面对十分复杂的分布式网络和/或海量的服务调用日志数据时,发明人发现,这种故障排除方式,故障排除效率十分低下,进而导致运维效率十分低下。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备、产品及存储介质,可以提升运维效率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
第二方面,本申请实施例提供了一种数据处理装置,包括:
获取模块,用于获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
处理模块,用于对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
所述处理模块,还用于根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
第三方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法的步骤。
综上所述,计算机设备可以获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;对M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成异常信息集合Pi的模式序列数据,从而达到提升运维效率尤其是提升对服务调用异常的问题排查的效率的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2A是本申请实施例提供的一种展示异常描述信息的界面示意图;
图2B是本申请实施例提供的再一种展示异常描述信息的界面示意图;
图3A是本申请实施例提供的再一种数据处理方法的流程示意图;
图3B是本申请实施例提供的一种数据处理过程的示意图;
图4A是本申请实施例提供的再一种数据处理方法的流程示意图;
图4B是本申请实施例提供的再一种数据处理过程的示意图;
图5是本申请实施例提供的一种数据处理装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
而本申请依托于云计算相关技术提出了一种数据处理方法。该数据处理方法可以应用于计算机设备。该计算机设备可以为智能终端。具体地,智能终端可以是车载终端、台式电脑、笔记本电脑、可穿戴设备,等等。计算机设备还可以为服务器。具体地,服务器可以是独立的一个物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一个实施例中,该数据处理方法也可以集成于一个运维客户端中,该运维客户端可以运行于所述的计算机设备。该数据处理方法可以用于对医疗系统、金融系统、征信系统、银行系统;政务系统、游戏系统、教育系统、安防系统、游戏系统、交通系统、物联系统等系统的运维管理过程。
其中,所述的数据处理方法,大致内容如下:一方面,对属于同一调用异常类别的多条服务调用异常信息进行聚类,能够达到将多条服务调用异常信息中较为相似的服务调用异常信息归为一类,得到同一异常调用类别下的至少一个异常信息集合的目的。异常信息集合包括至少一条服务调用异常信息。再一方面,针对每一个异常信息集合,生成该异常信息集合对应的模式序列数据,能够达到对同一异常信息集合中的各个服务调用异常信息进行合并的目的。可见,该数据处理方法可以实现对海量异常信息分类整合的过程。该采用能够极大的需要排查的异常数据的数量,从而提升错误排查的效率,进而提升运维效率。
其中,本申请实施例提及的调用异常类别为在服务调用过程中由服务产生的服务调用异常信息所属的异常类别。示例性地,调用异常类别可以为访问数据过大、访问端口超时、访问的客户端出错,等等。需要说明的是,根据服务的不同,该调用异常类别还可以为其他的类别,本申请实施例在此不一一列举。
其中,本申请实施例提及的服务调用异常信息为在服务调用过程中由服务产生的错误信息,错误信息描述了错误详情。示例性地,在服务调用异常类别为访问端口超时,服务调用异常信息可以为端口不可用、相关资源耗尽,等等。
其中,本申请实施例提及的模式序列数据描述了同一个异常信息集合中信息来源相同的服务调用异常信息之间的关键的异常内容。一个异常信息集合对应的模式序列数据具体反映了该异常信息集合内的服务调用异常信息对应的调用行为属于异常子类别的原因。其中,异常子类别是根据异常信息集合内的服务调用异常信息得到的对异常调用类别更细化的类别表示。
其中,本申请实施例提及的服务调用日志数据为用于记录对应服务的服务调用情况的数据。其中,服务调用日志数据可以包括服务调用异常信息以及该服务调用异常信息对应的调用异常类别等信息。
在一个应用场景中,服务调用日志数据可以为span数据。一个服务的span数据是在该服务被调用时,由该服务生成的。
其中,span数据包括的调用异常类型,为span数据包括的span.event.attributes.exception.type字段的字段值,或为span数据包括的exception.type字段的字段值。当然,调用异常类型所在的字段还可以为其它表现形式,本申请对此不做限制。
其中,span数据包括的服务调用异常信息,为span数据包括的span.event.attributes.exception.message字段的字段值,或为span数据包括的exception.message字段的字段值。当然,服务调用异常信息所在的字段还可以为其它表现形式,本申请对此不做限制。
此外,span数据还可以包括的除调用异常类型和服务调用异常信息之外的其它信息,如指示服务调用异常信息来源的信息。
在一个应用场景中,计算机设备可以获取一个或多个分布式链路产生的服务调用异常信息。具体来讲,该一个或多个分布式链路中的各个服务可以将自己生成的服务调用日志数据发送至指定服务器,如消息服务器。计算机设备可以从消息服务器如kafka服务器,消费由各个服务生成的服务调用日志数据,从而实现计算机设备获取一个或多个分布式链路产生的服务调用异常信息目的。该过程相当于说,计算机设备可以搜集由各个服务生成的服务调用日志数据。由于各个服务生成的服务调用日志数据中可能存在包含有服务调用异常信息的服务调用日志数据,计算机设备可以从各个服务生成的服务调用日志数据中,筛选出存在服务调用异常信息的服务调用日志数据。然后,计算机设备可以对筛选出的服务调用日志数据中的服务调用异常信息,按照该服务调用异常信息对应的服务调用异常类别进行分类,得到至少一个服务调用异常类别对应的至少一个服务调用异常信息。假设计算机设备可以获取到属于目标异常调用类别的调用行为所生成的M条服务调用异常信息。计算机设备在获取M条服务调用异常信息之后,可以对M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成异常信息集合Pi的模式序列数据,从而实现对批量的服务调用异常信息进行分类整合的过程。
请参见图1,为本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法,包括如下步骤:
S101、获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息。
本申请实施例中,计算机设备可以获取服务调用过程发生目标异常调用类别的异常时产生的M条服务调用异常信息。此处,目标异常调用类别可以理解为M条服务调用异常信息共同对应的异常调用类别。M为大于1的整数。该过程相当于说,计算机设备可以获取目标异常调用类别对应的M条服务调用异常信息。
在一个实施例中,计算机设备可以获取多个服务调用日志数据,根据多个服务调用日志数据分别包括的异常调用类别,获得至少一种异常调用类别,将至少一种异常调用类别中的任一种异常调用类别作为目标异常调用类别。本申请实施例中,目标异常调用类别可以为一个或多个。该过程,并未区分M条服务调用异常信息可能是由多个服务生成的情况。也就是说,M条服务调用异常信息可能来自于多个服务。
示例性地,假设多个服务调用日志数据包括span数据1、span数据2、span数据3、span数据4、span数据5,span数据1包括异常调用类别a、span数据2包括异常调用类别b、span数据3包括异常调用类别a、span数据4包括异常调用类别b、span数据5包括的异常调用类别c。计算机设备可以根据span数据1、span数据2、span数据3、span数据4以及span数据5分别包括的异常调用类别,统计得到3种异常调用类别,分别为异常调用类别a、异常调用类别b以及异常调用类别c,计算机设备可以从异常调用类别a、异常调用类别b以及异常调用类别c选取任一种或多种异常调用类别作为目标异常调用类别。
在一个实施例中,计算机设备可以获取多个服务调用日志数据,根据多个服务调用日志数据包括的服务的标识信息以及异常调用类别,得到至少一个服务中每个服务对应的至少一种异常调用类别;计算机设备可以从至少一个服务中中确定出任一个服务作为目标服务,并将目标服务对应的至少一种异常调用类别中的任一种异常调用类别,确定为目标异常调用类别。在一个实施例中,所述的M条服务调用异常信息为由关于目标服务的调用过程目标服务生成服务调用异常信息。该过程,区分了M条服务调用异常信息是由目标服务生成的情况。也就是说,M条服务调用异常信息来自于目标服务。
示例性地,假设多个服务调用日志数据包括span数据1、span数据2、span数据3、span数据4、span数据5,span数据1包括服务A和异常调用类别a、span数据2包括服务A和异常调用类别b、span数据3包括服务A和异常调用类别a、span数据4包括服务A和异常调用类别b、span数据5包括服务B和异常调用类别c。计算机设备可以根据span数据1、span数据2、span数据3、span数据4以及span数据5分别包括的服务的标识信息和异常调用类别,统计得到服务A对应有异常类别a和b,服务B对应有异常调用类别c。计算机设备可以从服务A和服务B中确定出服务A,然后从服务A对应的异常调用类别a和异常调用类别b中选取任一种异常调用类别作为目标异常调用类别。
在一个实施例中,计算机设备可以若M大于或等于第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤;若M小于所述第三数量阈值,且直到属于所述目标异常调用类别的调用行为所生成的服务调用异常信息的数量大于或等于所述第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤。通过执行该步骤,可以使得聚类处理过程更加集中不分散。
S102、对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合。
本申请实施例中,计算机设备可以采用聚类算法对M条服务调用异常信息进行聚类处理,得到N个异常信息集合,从而达到对目标异常调用类别对应的M条服务调用异常信息进行进一步分类的目的。其中,聚类算法可以包括层次聚类的方法、密度聚类的方法、流式聚类的方法。层次聚类的方法可以基于层次聚类模型实现。密度聚类的方法可以基于DBSCAN模型实现。流式聚类的方法可以通过单遍聚类Single Pass Clustering实现。其中,同一异常信息集合内的服务调用异常信息均对应目标异常调用类别下的同一个异常调用子类别。其中,N为小于或等于M的正整数。
在一个实施例中,计算机设备对M条服务调用异常信息进行聚类处理,得到N个异常信息集合的方式可以如下:计算机设备对M条服务调用异常信息进行文本特征提取,得到M条服务调用异常信息分别对应的文本特征;对M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合;根据N个文本特征集合,将M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务调用异常信息,确定为同一个异常信息集合,得到N个异常信息集合。上述聚类处理过程,根据M条服务调用异常信息分别对应的文本特征,将M条服务调用异常信息划分至各自所属的组别,使得同一组的服务调用异常信息相似性较大,而不同组服务调用异常信息之间差异性较大。本申请采用该过程,达到了对目标异常调用类别对应的M条服务调用异常信息进行进一步细分的目的。
在一个实施例中,计算机设备可以采用文本特征提取算法来对M条服务调用异常信息进行文本特征提取,得到M条服务调用异常信息分别对应的文本特征。其中,文本特征提取算法包括但不限于TF-IDF方法、one-hot编码方法、基于词袋模型的方法、基于N-Gram语言模型的方法、基于Word2Vec词嵌入模型的方法。其中,词频率-逆文本频率(TermFrequency–Inverse Document Frequency,TF-IDF)方法是一种用于信息检索与文本挖掘的常用加权技术,用以评估单一字词对于一个文本集或一个语料库中的其中一份文本的重要程度。TF-IDF方法遵循一个基本思想,即字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在一份给定的文本里,词频(Term Frequency,TF)指某一个给定的词语在该文本中出现的频率。逆文本频率(InverseDocument Frequency,IDF)是一个对所述给定的词语普遍重要性的度量。下面对本申请实施例结合TF-IDF方法进行文本特征提取进行阐述。
在一个实施例中,计算机设备对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征的方式如下:计算机设备对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;j为小于或等于M的正整数;对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj。其中,过滤处理包括去除停用词处理。停用词指在处理文本时出现频率高但没有统计意义的字词。例如,停用词至少可以为标点符号。在得到过滤处理后的服务调用异常信息Hj之后,确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;根据所述分词结果Kj中的分词的影响因子,确定所述服务调用异常信息Hj对应的文本特征。
举例来说,假设将过滤后的服务调用异常信息Hj,表示为文本dv,该过滤后的服务调用异常信息Hj对应的分词结果Kj中的任一个词语,表示为词语tu
词语tu的词频tfu,v可表示为:
其中,上式中分子nu,v是词语tu在文本dv中的出现次数,分母则是在文本dv中所有词语的总数量。其中,nk,v表示的为文本dv包括的词语tk的数量。词语tu的逆文本频率idfu可表示为:
其中,D表示,|{v:tu∈dv}|表示。公式2表示由语料库的总文本数目除以语料库中包含该词语的文本数目,再取标准对数得到。其中,语料库包括多条过滤后的服务调用异常信息。
本申请实施例中,在得到词语tu的词频和逆文件频率后,则该词语对应的特征值可以通过如下方式计算得到:
tfidfu,v=tfu,v×idfu公式3;
由上式可知,根据某一特定文本内的词语的高词频,以及该词语在整个文本集合中的低逆文本频率,可以得到高权重的TF-IDF值。即,一个词语的词频高,且该词语的低逆文本频率,便可以得到该词语对应的高权重的TF-IDF值。
从而,计算机设备可以根据分词结果Kj中的每个分词对应的TF-IDF值,生成该过滤后的服务调用异常信息Hj对应的文本特征。过滤后的服务调用异常信息Hj对应的文本特征包括每个分词对应的TF-IDF值。
S103、根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据。
此处,模式序列数据用于描述异常信息集合Pi的服务调用异常信息对应的调用行为属于异常子类别Mi的原因。异常子类别Mi为所述异常信息集合Pi对应的异常子类别。异常信息集合Pi属于所述N个异常信息集合。i为小于或等于N的正整数。
在一个实施例中,计算机设备根据所述异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据的方式可以如下:从所述异常信息集合Pi中,确定出S个子异常信息集合;S为正整数;对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据;a为小于或等于S的正整数;若获取到所述S个子异常信息集合分别对应的模式序列数据,则将S个子异常信息集合分别对应的模式序列数据确定为所述异常信息集合Pi的模式序列数据。其中,同一个子异常信息集合内的服务调用异常信息属于同一个信息来源。即,同一个子异常信息集合内的服务调用异常信息,对应同一个信息来源指示信息。一条信息来源指示信息,用于反映对应服务调用异常信息的生成位置。信息来源指示信息包括以下至少一项:对应服务调用异常信息所属服务的标识信息、所述所属服务中生成所述对应服务调用异常信息的代码片段的标识信息。服务的标识信息包括但不限于服务的名称或ID等用于标识该服务的信息。代码片段的标识信息包括但不限于代码片段的名称或ID等用于标识该代码片段的信息。在一个实施例中,所述信息来源指示信息还包括所述所属服务所在服务链路的标识信息。服务链路的标识信息包括但不限于服务链路的名称或ID等用于标识该服务链路的标识信息。
在一个实施例中,计算机设备对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据的方式可以为:计算机设备对子异常信息集合Sa内的服务调用异常信息进行求交集处理,得到子异常信息集合Sa内的服务调用异常信息之间的公共字符串;根据子异常信息集合Ha内的服务调用异常信息之间的公共字符串,生成所述子异常信息集合Sa对应的模式序列数据。可见,计算机设备在对M条服务调用异常信息进行聚类处理后,可以得到一簇簇的服务调用异常信息。而一簇服务调用异常信息对应的模式序列数据(signature),是对这一簇的服务调用异常信息进行求交集得到的。
在一个实施例中,计算机设备对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据的方式可以为:计算机设备对所述子异常信息集合Sa的服务调用异常信息进行求交集处理,得到所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串;获取所述子异常信息集合Sa内的服务调用异常信息之间的替换字符串;所述替换字符串用于反映所述子异常信息集合Sa内的任一服务调用异常信息中被省略的字符,所述被省略的字符为对应服务调用异常信息中除所述公共字符串以外的非公共字符串;根据所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串和替换字符串,生成所述子异常信息集合Sa对应的模式序列数据。
在一个实施例中,计算机设备根据所述子异常信息集合Ha内的服务调用异常信息之间的公共字符串,确定所述子异常信息集合Ha内的第一服务调用异常信息中除所述公共字符串以外的字符;将所述第一服务调用异常信息中除所述公共字符串以外的字符替换为指定字符,得到替换后的服务调用异常信息,对替换后的服务调用异常信息中连续的多个指定字符进行合并(如将多个指定字符合并为一个),可以得到第二服务调用异常信息;将所述第二服务调用异常信息,确定为所述子异常信息集合Ha对应的模式序列数据。其中,上述过程可以理解为根据所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串和替换字符串,生成所述子异常信息集合Sa对应的模式序列数据的过程。其中,上述的第二服务调用异常信息包括的除公共字符串外的字符串即是上述提及的替换字符串进行表示的。其中,所述的指定字符可以为任一能够区别于服务调用异常信息中各个字符的字符。例如,所述的指定字符可以为通配符,如*、~、^、$,或还可以为图形符,如○、☆、△。上述过程通过公共字符串的保留以及指定字符的替换操作,能够得到更易区分子异常信息集合中的差异性信息和公共性信息的模式序列数据,并且得到包括公共字符串和指定字符的模式序列数据,而不是仅得到包括公共字符串的模式序列数据,也使得模式序列数据在语句的表达上更加准确连贯易于理解。此外,上述过程考虑到如果直接将第二服务调用异常信息作为子异常信息集合对应的模式序列数据,该模式序列数据可能存在多个连续的指定字符,而该多个连续的指定字符在语义上并无不同,反而会导致模式序列数据比较冗余。该过程通过将所述至少多个连续的指定字符合并为一个,可以得到更为有效的模式序列数据,并且模式序列数据更加简洁。
示例性地,假设子异常信息集合包括服务调用异常信息“ABCDF”和“ABCEF”,并且服务调用异常信息“ABCDF”和“ABCEF”在聚类后属于同一子类别,计算机设备可以对服务调用异常信息“ABCDF”和“ABCEF”进行求交集处理,得到子异常信息集合对应的模式序列数据“ABC*F”。具体地,计算机设备可以确定服务调用异常信息“ABCDF”和“ABCEF”之间的公共字符串“ABCF”,并确定服务调用异常信息“ABCDF”中除“ABCF”之外的字符为“D”,计算机设备可以将服务调用异常信息“ABCDF”中的“D”替换为“*”,从而得到模式序列数据“ABC*F”。或者,假设子异常信息集合包括服务调用异常信息“ABCCDF”和“ABCCEF”,并且服务调用异常信息“ABCCDF”和“ABCCEF”在聚类后属于同一子类别,计算机设备可以对服务调用异常信息“ABCDWF”和“ABCEZF”进行求交集处理,得到子异常信息集合对应的模式序列数据“ABC*F”。具体地,计算机设备可以确定服务调用异常信息“ABCDWF”和“ABCEZF”之间的公共字符串“ABCF”,并确定服务调用异常信息“ABCDWF”中除公共字符串“ABCF”之外的字符为“DW”,计算机设备可以将服务调用异常信息“ABCDWF”中“DW”替换为“**”,然后再将服务调用异常信息“ABC**F”中的“*”删除至只剩一个,从而得到模式序列数据“ABC*F”。
在一个实施例中,计算机设备在获得所述子异常信息集合Sa的模式序列数据之后,可以对所述子异常信息集合Sa的模式序列数据、所述子异常信息集合Sa对应的信息来源指示信息、所述目标调用异常类别进行拼接处理,得到拼接后的字符串;对所述拼接后的字符串进行编码处理,得到所述拼接后的字符串对应的指纹信息。在一个实施例中,在得到所述拼接后的字符串对应的指纹信息后,计算机设备可以根据所述子异常信息集合Sa对应的模式序列数据和所述指纹信息、所述子异常信息集合Sa内的服务调用异常信息所属的服务调用日志数据,生成所述子异常信息集合Sa对应的异常描述信息。示例性地,假设下面示例的代码由上至下,依次表示子异常信息集合S1内的服务调用异常信息来自于的服务的标识信息、子异常信息集合S1内的服务调用异常信息来自于的服务的标识信息来自于的代码段的标识信息、目标调用异常类别、子异常信息集合S1对应的模式序列数据。计算机设备可以对下面代码所示的数据进行拼接处理,然后针对拼接后的数据采用MD5算法,编码得到的32位字符串4ed65fb63c292168fb1267be92565ee8,以作为拼接后的数据对应的指纹信息。
“{GET}/api/xxx/repository/files”+“k8s-pro-tgit-web-api”+“org.springframework.web.client.HttpClientErrorException$NotFound”+“404Not Found modelnull code 10301 message xxx.GitServerExceptionproject*access commit xxx-branch not exist.at xxx...11151bytes”
在一个实施例中,计算机设备可以将拼接后的数据对应的指纹信息,确定为子异常信息集合S1对应的指纹信息。之后,计算机设备根据子异常信息集合S1对应的模式序列数据和指纹信息、所述子异常信息集合S1内的服务调用异常信息所属的服务调用日志数据,生成所述子异常信息集合S1对应的异常描述信息。
在一个实施例中,子异常信息集合Sa对应的异常描述信息可以包括子异常信息集合Sa对应的模式序列数据、子异常信息集合Sa对应的信息来源指示信息。在一个实施例中,子异常信息集合Sa对应的异常描述信息除包括子异常信息集合包括Sa对应的模式序列数据、子异常信息集合Sa对应的信息来源指示信息之外,还可以包括目标异常调用类别。例如,参见图2A,图2A中包括了多行异常描述信息。其中,子异常信息集合Sa对应的异常描述信息例如可以为图2A所示的第一行异常描述信息。在一个实施例中,子异常信息集合Sa对应的异常描述信息除包括子异常信息集合包括Sa对应的模式序列数据、子异常信息集合Sa对应的信息来源指示信息之外,还可以包括目标异常调用类别、子异常信息集合Sa内的服务调用异常信息的数量。其中,该子异常信息集合Sa内的服务调用异常信息的数量也可以替换为子异常信息集合Sa内的服务调用异常信息所属的服务调用日志数据的数量。例如,参见图2B,图2B中同样也包括了多行异常描述信息,与图2A不同的是,图2B还展示了每一个子异常信息集合内的服务调用异常信息的数量以及每一个子异常信息集合的数量随时间变化的图像。
在一个实施例中,计算机设备还可以接收终端发送的异常情况查看指令,所述异常情况查看指令携带所述目标异常调用类型;根据所述异常信息集合Pi内的子异常信息集合对应异常描述信息发送至所述终端;所述终端用于按照所述异常信息集合Pi内的子异常信息集合,展示所述异常信息集合Pi内的子异常信息集合对应异常描述信息。在实际的应用场景中,若目标调用异常类别为多个,且多个异常调用类别不同,则计算机设备可以检索出如图2A或图2B所示的异常描述信息。
在一个实施例中,计算机设备可以将子异常信息集合S1对应的指纹信息、目标调用异常类别、子异常信息集合S1对应的模式序列数据、子异常信息集合S1对应的信息来源指示信息、子异常信息集合S1内的服务调用信息分别所在的服务调用日志数据进行关联存储,子异常信息集合S1对应的指纹信息可以用于实现对目标调用异常类别、子异常信息集合S1对应的模式序列数据、子异常信息集合S1对应的信息来源指示信息、子异常信息集合S1内的服务调用信息分别所在的服务调用日志数据进行分组管理的过程。在一个实施例中,计算机设备可以将所述子异常信息集合S1对应的模式序列数据和所述指纹信息分别添加至子异常信息集合S1对的服务调用异常信息分别所属的服务调用日志数据、从而得到添加了所述子异常信息集合S1对应的模式序列数据和所述指纹信息的服务调用日志数据,后续基于子异常信息集合S1对应的指纹信息可以实现对目标调用异常类别、子异常信息集合S1对应的模式序列数据、子异常信息集合S1对应的信息来源指示信息、子异常信息集合S1内的服务调用信息分别所在的服务调用日志数据进行分组管理的过程。
可见,图1所示的实施例中,计算机设备可以获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;对M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成异常信息集合Pi的模式序列数据,从而达到提升运维效率尤其是提升对服务调用异常的问题排查的效率的目的。
请参阅图3A,为本申请实施例提供的另一种数据处理方法的流程示意图。该数据处理方法可以应用于前述提及的计算机设备中。具体的,该方法可以包括如下步骤:
S301、获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息。
其中,步骤S301可以参见图1实施例的步骤S101,本申请实施例在此不做赘述。
本申请实施例中,在获得M条服务调用异常信息后,计算机设备可以在对M条服务调用异常信息进行预处理后再进行文本特征提取。下面结合步骤S302和步骤S303对预处理和文本特征提取的步骤进行阐述。
S302、对M条服务调用异常信息进行预处理,得到M条服务调用异常信息分别对应的预处理数据。
S303、对M条服务调用异常信息分别对应的预处理数据进行文本特征提取,得到M条服务调用异常信息分别对应的文本特征。
其中,预处理可以包括过滤处理和分词处理。
下面以M条服务调用异常信息中的服务调用异常信息Hj为例,对服务调用异常信息Hj进行预处理的过程进行阐述。具体如下:计算机设备对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;j为小于或等于M的正整数;对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj。此处,所述服务调用异常信息Hj对应的分词结果Kj即为服务调用异常信息Hj对应的预处理数据。需要说明的是,计算机设备针对M条服务调用异常信息中的每一条调用异常信息进行预处理的过程,可以参见上述对服务调用异常信息Hj进行预处理的过程,本申请实施例在此不一一赘述。
下面以M条服务调用异常信息中的服务调用异常信息Hj为例,对服务调用异常信息Hj对应的预处理数据进行文本特征提取的过程进行阐述。具体如下:计算机设备确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;根据所述分词结果Kj中的分词的影响因子,确定所述过滤后的服务调用异常信息Hj对应的文本特征。需要说明的是,计算机设备针对M条服务调用异常信息中的每一条调用异常信息对应的预处理数据进行文本特征提取的过程,可以参见上述对服务调用异常信息Hj对应的预处理数据进行文本特征提取的过程,本申请实施例在此不一一赘述。
本申请实施例,在得到M条服务调用异常信息分别对应的文本特征后,计算机设备可以对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合。而本申请实施例具体采用基于DBSCAN模型的方法对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合。其中,DBSCAN是一种经典聚类分析算法。
下面结合步骤S304-步骤S309阐述对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合的过程。
S304、确定所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的特征距离。
本申请实施例中,计算机设备可以计算所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的余弦距离,从而将每两条服务调用异常信息对应的文本特征之间的余弦距离,确定为每两条服务调用异常信息对应的文本特征之间的特征距离。
或者,计算机设备可以计算所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的欧氏距离,从而将每两条服务调用异常信息对应的文本特征之间的欧氏距离,确定为每两条服务调用异常信息对应的文本特征之间的特征距离。
需要说明的是,除了通过计算文本特征间的余弦距离或欧氏距离获得文本特征间的特征距离之外,也可以采用其它方式获得文本特征间的特征距离,本申请实施例在此不一一列举。
S305、依次遍历所述M条服务调用异常信息对应的M个文本特征中未被聚类到文本特征集合的文本特征。
S306、若遍历到文本特征Lk,则从第一剩余文本特征中,确定出与所述文本特征Lk之间的特征距离小于距离阈值的文本特征,作为第一目标文本特征。
在步骤S305-步骤S306中,计算机设备可以依次遍历所述M条服务调用异常信息对应的M个文本特征中未被聚类到文本特征集合的文本特征;若遍历到文本特征Lk,则从第一剩余文本特征中,确定出与所述文本特征Lk之间的特征距离小于距离阈值的文本特征,作为第一目标文本特征。该过程相当于说,计算机设备可以在遍历到文本特征Lk时,确定与文本特征Lk之间的特征距离在密度邻域半径内的文本特征,作为第一目标文本特征,此处提及的密度邻域半径即为距离阈值。
其中,所述文本特征Lk属于所述M个文本特征。其中,k为小于或等于M的正整数。第一剩余文本特征为所述M个文本特征中,未被聚类到文本特征集合的文本特征,且所述第一剩余文本特征不包括所述文本特征Lk。示例性地,若M个文本特征全部都未被聚类到文本特征集合,则此处的第一剩余文本特征为所述M条文本特征除文本特征Lk之外的文本特征。若M条文本特征存在部分文本特征未被聚类到文本特征集合,则此处的第一剩余文本特征为这部分文本特征中除文本特征Lk之外的文本特征。
S307、若所述第一目标文本特征的数量大于或等于第一数量阈值,则从第二剩余文本特征中,确定出与所述第一目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第二目标文本特征,根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合。
在步骤S307中,计算机设备可以在所述第一目标文本特征的数量大于或等于第一数量阈值时,从第二剩余文本特征中,确定出与所述第一目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第二目标文本特征。其中,第二剩余文本特征为所述第一剩余文本特征中,除所述第一目标文本特征之外的文本特征。在获得第二目标文本特征后,计算机设备可以将第一目标文本特征、第二目标文本特征、文本特征Lk划分至同一文本特征集合。其中,在第一目标文本特征的数量大于或等于第一数量阈值时,文本特征Lk则可以作为核心文本特征,而第一目标文本特征则可以作为文本特征Lk直接密度可达的文本特征。
在一个实施例中,计算机设备根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合的方式可以如下:计算机设备获取所述第二目标文本特征的数量;若所述第二目标文本特征的数量大于或等于第二数量阈值,则从第三剩余文本特征集合中,确定与所述第二目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第三目标文本特征;根据所述第一目标文本特征、所述第二目标文本特征、所述第三目标文本特征以及所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第三剩余文本特征集合为所述第二剩余文本特征集合中除所述第二目标文本特征以外的文本特征;若所述第二目标文本特征的数量小于所述第二数量阈值,则根据所述第一目标文本特征和所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合,遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合,将所述第一目标文本特征以及所述文本特征Lk,聚类到同一个文本特征集合。其中,第二数量阈值与第一数量阈值相同。其它可行的实施方式中,第二数量阈值可以与第一数量阈值不同。其中,在第二目标文本特征的数量大于或等于第二数量阈值时,第一目标文本特征可以作为核心文本特征,第二目标文本特征可以作为第一目标文本特征直接密度可达的文本特征,同时第二目标文本特征可以作为文本特征Lk密度可达的文本特征,这种情况下计算机设备可以将第一目标文本特征、第二目标文本特征、第三目标文本特征划分至同一文本特征集合。在第二目标文本特征的数量小于第二数量阈值时,表明第一目标文本特征不为核心文本特征,这种情况下第二目标文本特征也并非是第一目标文本特征直接密度可达的特征,同时第二目标文本特征也并非是文本特征Lk密度可达的文本特征,这种情况下计算机设备可以将第一目标文本特征和文本特征Lk划分至同一文本特征集合。
需要说明的是,当第三目标文本特征的数量大于或等于第四数量阈值时,具体如何确定所述文本特征Lk对应的文本特征集合可以参考上述根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合的方式,本申请实施例在此不一一阐明。
S308、若所述第一目标文本特征的数量小于所述第一数量阈值,则遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合。
在步骤S308中,在第一目标文本特征的数量小于第一数量阈值时,表明文本特征Lk不是核心文本特征,因此计算机设备不会将文本特征Lk与第一目标文本特征划分至同一文本特征集合。之后,计算机设备可以继续执行遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征的操作,从而获取N个文本特征集合。
S309、根据所述N个文本特征集合,将所述M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务调用异常信息,确定为同一个异常信息集合,得到N个异常信息集合。
S310、根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据。
其中,步骤S310可以参见步骤S103,本申请实施例在此不做赘述。
在一个实施例中,计算机设备可以从M条服务调用异常信息对应的文本特征中,确定出Q个核心文本特征;Q为正整数;所述核心文本特征,为满足以下预设条件的文本特征:所述文本特征在所述M个文本特征中对应有直接密度可达的文本特征,且所述文本特征对应的直接密度可达的文本特征的数量大于或等于指定数量(如可以对应于前述提及的第一数量阈值),直接密度可达指特征距离小于或等于指定距离(如可以对应于前述提及的距离阈值);从所述Q个核心文本特征中选取待划分集合的核心文本特征Qb;根据所述指定距离和所述指定数量,从M个文本特征中,确定出核心文本特征Qb密度可达的文本特征,将核心文本特征Qb、核心文本特征Qb直接密度可达的文本特征、核心文本特征Qb密度可达的文本特征划分至同一文本特征集合;重复执行从所述Q个核心文本特征中选择待划分集合的核心文本特征Qb的操作,直到所述Q个核心文本特征中不存在待划分集合的核心文本特征为止,得到N个文本特征集合。
需要说明的是,如果选取的一个文本特征在小于或等于指定距离ε的范围内有至少(指定数量+1)个文本特征,即如果选取的一个文本特征在小于或等于的ε范围内有minPts个文本特征(包括文本特征自身),则该选取的文本特征被称为核心文本特征,ε范围内的其它文本特征则被称为由文本特征P直接密度可达的文本特征。没有任何文本特征是由非核心文本特征直接密度可达的。如果存在一个文本特征序列p1,...,pn,有p1=p和pn=q,n为大于1的整数。该文本特征序列中的每个文本特征Pc+1都是由文本特征pc直接密度可达的(道路上除了文本特征q以外所有文本特征都一定是核心文本特征),c为小于或等于n的正整数,则称文本特征p是由文本特征P密度可达的。所有不由任何文本特征可达的文本特征都被称为局外文本特征。如果文本特征p是核心文本特征,则文本特征p与所有由文本特征p直接密度可达的文本特征以及密度可达的文本特征形成一个文本特征集合,每个文本特征集合拥有最少一个核心文本特征,非核心文本特征也可以是文本特征集合的一部分,但非核心文本特征是在文本特征集合的边缘位置。
在一个实施例中,考虑到DBSCAN模型需要一定的数据量才能进行聚类计算,所以需要设定一个阈值,需待从上游每收集一定量的服务调用异常信息后再进行聚类。若span数量不满足阈值条件,则继续收集,不进行聚类。计算机设备还可以执行以下操作:若M大于或等于第三数量阈值,则执行所述对所述M条服务调用异常信息进行文本特征提取的步骤;若M小于第三数量阈值,则获取新的服务调用异常信息,以更新至M条服务调用异常信息中,直到M大于或等于第三数量阈值,执行所述对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征的步骤。
下面结合图3B的数据处理过程来上述提及的数据处理方法进行阐述。
首先,计算机设备可以从消息服务器如kafka服务器获取服务调以异常信息。也就是说,计算机设备可以从kafka服务获取前述提及的M条服务调用异常信息。然后,计算机设备可以判断获取的服务调用异常信息是否达到阈值。即,计算机设备可以判断M是否大于或等于第三数量阈值。若确定获取的服务调用异常信息达到阈值,则对获取的服务调用异常信息进行前述提及的预处理操作。即,若M大于或等于第三数量阈值,则对M条服务调用异常信息执行前述提及的预处理操作。在对获取的服务调用异常信息进行预处理后,便可以对得到的预处理数据进行文本特征提取,从而得到服务调用异常信息对应的文本特征。相当于说在分别对M条服务调用异常信息进行数据预处理后再进行文本特征提取,便可以得到M条服务调用异常信息分别对应的文本特征。在得到服务调用异常信息对应的文本特征之后,计算机设备可以采用基于DBSCAN模型的方法对服务调用异常信息对应的文本特征进行聚类处理,从而得到至少一个文本特征集合。相当于说,在得到M条服务调用异常信息分别对应的文本特征之后,计算机设备可以采用基于DBSCAN模型的方法对M条服务调用异常信息分别对应的文本特征进行聚类处理,从而得到N个文本特征集合。之后,计算机设备可以根据每一个文本特征集合,生成该文本特征集合对应的模式序列数据,该文本特征集合对应的模式序列数据包括该文本特征集合中的各个子文本特征集合对应的模式序列数据。此外,计算机设备还可以根据子文本特征集合对应的模式序列数据、该子文本特征集合对应的信息来源指示信息、该子异常信息集合对应的异常调用类别生成相应指纹信息。后续,计算机设备可以将子异常信息集合对应的模式序列数据等数据,如对应指纹信息存储至数据库中。
可见,图3A所示的实施例中,计算机设备可以获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;对M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成异常信息集合Pi的模式序列数据,从而达到提升运维效率尤其是提升对服务调用异常的问题排查的效率的目的,并且计算机设备在对M条服务调用异常信息进行聚类处理的过程,通过引入基于DBSAN模型的方法以进行聚类,能够实现对任意形状的稠密数据进行聚类,并且还可以滤除M条服务调用异常信息中的噪声数据,从而提升聚类过程的可靠性。
请参阅图4A,为本申请实施例提供的另一种数据处理方法的流程示意图。该数据处理方法可以应用于前述提及的计算机设备。具体的,该数据处理方法可以包括以下步骤:
S401、获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息。
其中,步骤S401可以参见步骤S101,本申请实施例在此不做赘述。
本申请实施例中,在获得M条服务调用异常信息后,计算机设备可以在对M条服务调用异常信息进行预处理后再进行文本特征提取。下面结合步骤S402和步骤S403对预处理和文本特征提取的步骤进行阐述。
S402、对M条服务调用异常信息进行预处理,得到M条服务调用异常信息分别对应的预处理数据。
S403、对M条服务调用异常信息分别对应的预处理数据进行文本特征提取,得到M条服务调用异常信息分别对应的文本特征。
其中,预处理可以包括过滤处理和分词处理。
下面以M条服务调用异常信息中的服务调用异常信息Hj为例,对服务调用异常信息Hj进行预处理的过程进行阐述。具体如下:计算机设备对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj。此处,所述服务调用异常信息Hj对应的分词结果Kj即为服务调用异常信息Hj对应的预处理数据。需要说明的是,计算机设备针对M条服务调用异常信息中的每一条调用异常信息进行预处理的过程,可以参见上述对服务调用异常信息Hj进行预处理的过程,本申请实施例在此不一一赘述。
下面以M条服务调用异常信息中的服务调用异常信息Hj为例,对服务调用异常信息Hj对应的预处理数据进行文本特征提取的过程进行阐述。具体如下:计算机设备确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;根据所述分词结果Kj中的分词的影响因子,确定所述过滤后的服务调用异常信息Hj对应的文本特征。需要说明的是,计算机设备针对M条服务调用异常信息中的每一条调用异常信息对应的预处理数据进行文本特征提取的过程,可以参见上述对服务调用异常信息Hj对应的预处理数据进行文本特征提取的过程,本申请实施例在此不一一赘述。
本申请实施例,在得到M条服务调用异常信息分别对应的文本特征后,计算机设备可以对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合。而本申请实施例具体采用Single Pass Clustering的方法对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合。其中,Single PassClustering的思想是:按一定顺序依次读取数据,每次读取的新数据与已经聚类完毕的数据进行比较,如果按照一定规则找到该新数据的近似组别,则将这个新数据归入这个近似组别中;如果没有,则将这个新数据视为一个新的组别。整个过程对每一个数据分别执行一次读取操作即可。下面结合步骤S404-步骤S410阐述对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合的过程。
S404、获取已聚类得到的R个初始文本特征集合。
其中,R个初始文本特征集合是对历史获取的多条服务调用异常信息聚类得到的。R为正整数。一个初始文本特征集合包括至少一个文本特征。该至少一个文本特征是根据历史获取的至少一条服务调用异常信息聚类得到的。
S405、从所述M条服务调用异常信息对应的文本特征选取待划分集合的文本特征Tr
本申请实施例中,计算机设备可以从所述M条服务调用异常信息对应的文本特征中任选一个待划分集合的文本特征,作为待划分集合的文本特征Tr。其中,r为小于或等于M的正整数。
S406、从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的初始文本特征集合,作为目标文本特征集合。
本申请实施例中,计算机设备可以计算文本特征Tr与R个初始文本特征集合中每一个初始文本特征集合之间的相似度,然后从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的初始文本特征集合,作为目标文本特征集合。
具体地,计算机设备可以计算文本特征Tr与所述每一个初始文本特征集合对应的聚类中心特征之间的相似度,然后从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的聚类中心特征,从而将确定出的聚类中心特征所对应的初始文本特征集合,作为目标文本特征集合。
需要说明的是,计算机设备在执行步骤S406后,可以并列执行步骤S407和步骤S408。
S407、若所述目标文本特征集合与所述文本特征Tr之间的相似度大于相似度阈值,则将所述文本特征Tr添加至所述目标文本特征集合,得到包含所述文本特征Tr的文本特征集合。
该过程相当于说,在文本特征Tr与目标文本特征集合之间的相似度最大且该相似度大于相似度阈值时,表明文本特征Tr与目标文本特征集合中的文本特征之间的相似性大差异性较小,因此可以将所述文本特征Tr划分至所述目标文本特征集合。此外,在文本特征Tr与目标文本特征集合之间的相似度最大且该相似度大于相似度阈值时,还表明相对于文本特征Tr与剩余文本特征集合之间的相似度而言,文本特征Tr与目标文本特征集合中的文本特征之间的相似性更大,因此可以,因此可以将所述文本特征Tr划分至所述目标文本特征集合。该过程,实现了依据数据与已有簇之间的相似度,将数据划分至已有簇的过程。
需要说明的是,计算机设备在执行步骤S407后,可以对包含所述文本特征Tr的文本特征集合对应的聚类中心特征进行更新处理,以便用于后续的聚类处理过程。
S408、若所述目标文本特征集合与所述文本特征Tr之间的相似度小于或等于所述相似度阈值,则生成包括所述文本特征Tr的文本特征集合。
本申请实施例中,计算机设备可以采用余弦相似度(Cosine similarity)或编辑距离(Levenshtein Distance)等相似度度量方法以计算目标文本特征集合与所述文本特征Tr之间的相似度。所述目标文本特征集合与所述文本特征Tr之间的相似度小于或等于所述相似度阈值,则生成包括所述文本特征Tr的文本特征集合。
该过程相当于说,在文本特征Tr与目标文本特征集合之间的相似度最大且该相似度小于或等于相似度阈值时,表明文本特征Tr与目标文本特征集合中的文本特征之间的相似性较小差异性较大,因此可以将所述文本特征Tr划分至新的文本特征集合。此外,在文本特征Tr与目标文本特征集合之间的相似度最大且该相似度小于或等于相似度阈值时,还表明文本特征Tr与剩余初始文本特征集合中的文本特征之间的相似性更小差异性更大,因此不会将所述文本特征Tr划分至所述剩余初始文本特征集合,因此可以将所述文本特征Tr划分至新的文本特征集合。该过程,实现了依据数据与已有簇之间的相似度,为数据生成新的簇的过程。
需要说明的是,计算机设备在执行步骤S408后,可以将包括文本特征Tr的文本特征集合确定为初始文本特征集合,以便用于后续的聚类处理过程。
S409、直到所述M条服务调用异常信息均被划分至对应的文本特征集合,得到N个文本特征集合。
计算机设备可以重复执行S404的步骤,直到所述M条服务调用异常信息均被划分至对应的文本特征集合,得到N个文本特征集合。
S410、根据所述N个文本特征集合,将所述M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务调用异常信息,确定为同一个异常信息集合,得到N个异常信息集合。
S411、根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据。
其中,步骤S411可以参见步骤S103,本申请实施例在此不做赘述。
需要指出的是,随着聚类过程的进行,可能会导致现有的文本特征集合的数量越来越多,而文本特征集合逐渐变多,计算文本相似度的耗时也会逐渐增加,相应的计算机设备的内存压力也会变大。因此,为了解决该问题,计算机设备实现了一个聚类更新机制,保证聚类得到的文本特征集合的数量在一定范围。
在一个实施例中,本申请实施例可以基于LRU(Least Recently Used)算法设定一个聚类更新机制来限制最大聚类数目,具体流程可以如下:计算机设备可以对所述N个文本特征集合进行存储处理,并记录所述N个文本特征集合分别对应的存储时长;在所述N个文本特征集合存在目标文本特征集合的存储时长大于或等于时长阈值时,对所述目标文本特征集合进行删除处理。其中,存储时长可以反映该文本特征集合的存在时长,即生成时长,存储时长是基于该文本特征集合的生成时间统计得到的。也就是说,计算机设备可以每聚类得到一个新的文本特征集合,便开始记录该文本特征集合的生成时长,在N个文本特征集合存在目标文本特征集合的生成时长大于或等于时长阈值时,对所述目标文本特征集合进行删除处理,从而保留最新更新的文本特征集合,进而达到限制最大聚类数目的。示例性地,计算机设备可以在每次聚类完成后,记录每个文本特征集合的存储时长;每隔一定时间(例如一分钟)对现有的所有文本特征集合进行检查,如果现有的所有文本特征集合中存在存储时长超过时长阈值(例如五分钟)的文本特征集合,则删除该存储时长超过时长阈值的文本特征集合,从而保留存储时长小于或等于时长阈值的文本特征集合。
在一个实施例中,本申请实施例基于LRU算法设定一个聚类更新机制来限制最大聚类数目,具体流程还可以如下:获取已聚类得到的R个初始文本特征集合中的服务调用异常信息的存储时长;删除所述R个初始文本特征集合中存储时长大于时长阈值的服务调用异常信息;采用所述N个文本特征集合对删除处理后的R个初始文本特征集合进行更新。在一个实施例中,采用所述N个文本特征集合对删除处理后的R个初始文本特征集合进行更新的方式,可以为利用N个文本特征集合替换删除处理后的R个初始文本特征集合。
下面结合图4B的数据处理过程对上述提及的一种数据处理方法进行阐述。
首先,计算机设备可以从消息服务器如kafka服务器获取服务调用异常信息。也就是说,计算机设备可以从kafka服务获取前述提及的M条服务调用异常信息。然后,计算机设备可以在对获取的服务调用异常信息进行预处理后,进一步对得到的预处理数据进行文本特征提取,从而得到服务调用异常信息对应的文本特征。相当于说,计算机设备在分别对M条服务调用异常信息进行预处理后再进行文本特征提取,便可以得到M条服务调用异常信息分别对应的文本特征。在得到服务调用异常信息对应的文本特征之后,计算机设备可以采用基于Single Pass Clustering的方法对服务调用异常信息对应的文本特征进行聚类处理,从而得到至少一个文本特征集合。相当于说,在得到M条服务调用异常信息分别对应的文本特征之后,计算机设备可以采用基于Single Pass Clustering的方法对M条服务调用异常信息分别对应的文本特征进行聚类处理,从而得到N个文本特征集合。简单来说,在基于Single Pass Clustering的方法对M条服务调用异常信息分别对应的文本特征进行聚类处理的过程中,计算机设备可以判断服务调用异常信息对应的文本特征是否与已聚类得到的文本特征集合之间相似。若相似,则将该服务调用异常信息添加至该文本特征集合。若不相似,则将该服务调用异常信息添加至新的文本特征集合,从而根据得到的N个文本特征集合。之后,计算机设备可以根据每一个文本特征集合,生成该文本特征集合对应的模式序列数据,该文本特征集合对应的模式序列数据包括该文本特征集合中的各个子文本特征集合对应的模式序列数据。此外,计算机设备还可以根据子文本特征集合对应的模式序列数据、该子文本特征集合对应的信息来源指示信息、该子异常信息集合对应的异常调用类别生成相应指纹信息。后续,计算机设备可以将子异常信息集合对应的模式序列数据等数据,如对应指纹信息存储至数据库中。
请参阅图5,为本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以应用于前述提及的计算机设备。具体地,该数据处理装置可以包括获取模块501和处理模块502:
获取模块,用于获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
处理模块,用于对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
处理模块,还用于根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
在一个实施例中,处理模块对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合,具体为:
对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征;
对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合;
根据所述N个文本特征集合,将所述M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务异常信息,确定为同一个异常信息集合,得到N个异常信息集合。
在一个实施例中,处理模块对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征,具体为:
对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;j为小于或等于M的正整数;
对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj
确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;
根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;
根据所述分词结果Kj中的分词的影响因子,确定所述服务调用异常信息Hj对应的文本特征。
在一个实施例中,处理模块对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合,具体为:
确定所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的特征距离;
依次遍历所述M条服务调用异常信息对应的M个文本特征中未被聚类到文本特征集合的文本特征;
若遍历到文本特征Lk,则从第一剩余文本特征中,确定出与所述文本特征Lk之间的特征距离小于距离阈值的文本特征,作为第一目标文本特征;所述文本特征Lk属于所述M个文本特征;k为小于或等于M的正整数,所述第一剩余文本特征为所述M个文本特征中,未被聚类到文本特征集合的文本特征,且所述第一剩余文本特征不包括所述文本特征Lk
若所述第一目标文本特征的数量大于或等于第一数量阈值,则从第二剩余文本特征中,确定出与所述第一目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第二目标文本特征,根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第二剩余文本特征为所述第一剩余文本特征中,除所述第一目标文本特征之外的文本特征;
若所述第一目标文本特征的数量小于所述第一数量阈值,则遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合。
在一个实施例中,处理模块根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合,具体为:
获取所述第二目标文本特征的数量;
若所述第二目标文本特征的数量大于或等于第二数量阈值,则从第三剩余文本特征集合中,确定与所述第二目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第三目标文本特征;
根据所述第一目标文本特征、所述第二目标文本特征、所述第三目标文本特征以及所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第三剩余文本特征集合为所述第二剩余文本特征集合中除所述第二目标文本特征以外的文本特征;
若所述第二目标文本特征的数量小于所述第二数量阈值,则根据所述第一目标文本特征和所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合,遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合,将所述第一目标文本特征以及所述文本特征Lk,聚类到同一个文本特征集合。
在一个实施例中,处理模块对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合,具体为:
获取已聚类得到的R个初始文本特征集合;所述R个初始文本特征集合是对历史获取的多条服务调用异常信息聚类得到的;R为正整数;
从所述M条服务调用异常信息对应的文本特征选取待划分集合的文本特征Tr;r为小于或等于M的正整数;
从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的初始文本特征集合,作为目标文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度大于相似度阈值,则将所述文本特征Tr添加至所述目标文本特征集合,得到包含所述文本特征Tr的文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度小于或等于所述相似度阈值,则生成包括所述文本特征Tr的文本特征集合;
直到所述M条服务调用异常信息均被划分至对应的文本特征集合,得到N个文本特征集合。
在一个实施例中,处理模块,还用于:
获取已聚类得到的R个初始文本特征集合中的服务调用异常信息的存储时长;
删除所述R个初始文本特征集合中存储时长大于时长阈值的服务调用异常信息;
采用所述N个文本特征集合对删除处理后的R个初始文本特征集合进行更新。
在一个实施例中,处理模块,还用于:
若M大于或等于第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤;
若M小于所述第三数量阈值,且直到属于所述目标异常调用类别的调用行为所生成的服务调用异常信息的数量大于或等于所述第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤。
在一个实施例中,处理模块根据所述异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据,具体为:
从所述异常信息集合Pi中,确定出S个子异常信息集合;同一个子异常信息集合内的服务调用异常信息属于同一个信息来源;S为正整数;
对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据;所述子异常信息集合Sa属于S个子异常信息集合,a为小于或等于S的正整数;
若获取到所述S个子异常信息集合分别对应的模式序列数据,则将所述S个子异常信息集合分别对应的模式序列数据,确定为所述异常信息集合Pi的模式序列数据。
在一个实施例中,处理模块对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据,具体为:
对所述子异常信息集合Sa的服务调用异常信息进行求交集处理,得到所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串;
获取所述子异常信息集合Sa内的服务调用异常信息之间的替换字符串;所述替换字符串用于反映所述子异常信息集合Sa内的任一服务调用异常信息中被省略的字符,所述被省略的字符为对应服务调用异常信息中除所述公共字符串以外的非公共字符串;
根据所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串和替换字符串,生成所述子异常信息集合Sa对应的模式序列数据。
在一个实施例中,处理模块,还用于:
对所述子异常信息集合Sa的模式序列数据、所述子异常信息集合Sa对应的信息来源指示信息、所述目标调用异常类别进行拼接处理,得到拼接后的字符串;
对所述拼接后的字符串进行编码处理,得到所述拼接后的字符串对应的指纹信息;
根据所述子异常信息集合Sa对应的模式序列数据和所述指纹信息,所述子异常信息集合Sa内的服务调用异常信息所属的服务调用日志数据,生成所述子异常信息集合Sa对应的异常描述信息。
在一个实施例中,处理模块,还用于:
接收终端发送的异常情况查看指令,所述异常情况查看指令携带所述目标异常调用类型;
根据所述异常信息集合Pi内的子异常信息集合对应的异常描述信息发送至所述终端;所述终端用于按照所述异常信息集合Pi内的子异常信息集合,展示所述异常信息集合Pi内的子异常信息集合对应的异常描述信息。
图5所示的实施例中,数据处理装置可以获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;对M条服务调用异常信息进行聚类处理,得到N个异常信息集合;根据异常信息集合Pi内的服务调用异常信息,生成异常信息集合Pi的模式序列数据,从而达到提升运维效率尤其是提升对服务调用异常的问题排查的效率的目的。
请参阅图6,为本申请实施例提供的一种计算机设备的结构示意图。如图6所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:至少一个通信总线1002和用户接口1003。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard)、用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图6所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的计算机设备1000中,网络接口1004可进行数据的收发如进行请求的接收或内容的推送等;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
在一个实施例中,在对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征;
对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合;
根据所述N个文本特征集合,将所述M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务异常信息,确定为同一个异常信息集合,得到N个异常信息集合。
在一个实施例中,在对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;j为小于或等于M的正整数;
对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj
确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;
根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;
根据所述分词结果Kj中的分词的影响因子,确定所述服务调用异常信息Hj对应的文本特征。
在一个实施例中,在对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
确定所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的特征距离;
依次遍历所述M条服务调用异常信息对应的M个文本特征中未被聚类到文本特征集合的文本特征;
若遍历到文本特征Lk,则从第一剩余文本特征中,确定出与所述文本特征Lk之间的特征距离小于距离阈值的文本特征,作为第一目标文本特征;所述文本特征Lk属于所述M个文本特征;k为小于或等于M的正整数,所述第一剩余文本特征为所述M个文本特征中,未被聚类到文本特征集合的文本特征,且所述第一剩余文本特征不包括所述文本特征Lk
若所述第一目标文本特征的数量大于或等于第一数量阈值,则从第二剩余文本特征中,确定出与所述第一目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第二目标文本特征,根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第二剩余文本特征为所述第一剩余文本特征中,除所述第一目标文本特征之外的文本特征;
若所述第一目标文本特征的数量小于所述第一数量阈值,则遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合。
在一个实施例中,在根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取所述第二目标文本特征的数量;
若所述第二目标文本特征的数量大于或等于第二数量阈值,则从第三剩余文本特征集合中,确定与所述第二目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第三目标文本特征;
根据所述第一目标文本特征、所述第二目标文本特征、所述第三目标文本特征以及所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第三剩余文本特征集合为所述第二剩余文本特征集合中除所述第二目标文本特征以外的文本特征;
若所述第二目标文本特征的数量小于所述第二数量阈值,则根据所述第一目标文本特征和所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合,遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合,将所述第一目标文本特征以及所述文本特征Lk,聚类到同一个文本特征集合。
在一个实施例中,在对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取已聚类得到的R个初始文本特征集合;所述R个初始文本特征集合是对历史获取的多条服务调用异常信息聚类得到的;R为正整数;
从所述M条服务调用异常信息对应的文本特征选取待划分集合的文本特征Tr;r为小于或等于M的正整数;
从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的初始文本特征集合,作为目标文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度大于相似度阈值,则将所述文本特征Tr添加至所述目标文本特征集合,得到包含所述文本特征Tr的文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度小于或等于所述相似度阈值,则生成包括所述文本特征Tr的文本特征集合;
直到所述M条服务调用异常信息均被划分至对应的文本特征集合,得到N个文本特征集合。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,还实现:
获取已聚类得到的R个初始文本特征集合中的服务调用异常信息的存储时长;
删除所述R个初始文本特征集合中存储时长大于时长阈值的服务调用异常信息;
采用所述N个文本特征集合对删除处理后的R个初始文本特征集合进行更新。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,还实现:
若M大于或等于第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤;
若M小于所述第三数量阈值,且直到属于所述目标异常调用类别的调用行为所生成的服务调用异常信息的数量大于或等于所述第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤。
在一个实施例中,在根据所述异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
从所述异常信息集合Pi中,确定出S个子异常信息集合;同一个子异常信息集合内的服务调用异常信息属于同一个信息来源;S为正整数;
对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据;所述子异常信息集合Sa属于S个子异常信息集合,a为小于或等于S的正整数;
若获取到所述S个子异常信息集合分别对应的模式序列数据,则将所述S个子异常信息集合分别对应的模式序列数据,确定为所述异常信息集合Pi的模式序列数据。
在一个实施例中,在对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据时,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
对所述子异常信息集合Sa的服务调用异常信息进行求交集处理,得到所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串;
获取所述子异常信息集合Sa内的服务调用异常信息之间的替换字符串;所述替换字符串用于反映所述子异常信息集合Sa内的任一服务调用异常信息中被省略的字符,所述被省略的字符为对应服务调用异常信息中除所述公共字符串以外的非公共字符串;
根据所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串和替换字符串,生成所述子异常信息集合Sa对应的模式序列数据。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,还实现:
对所述子异常信息集合Sa的模式序列数据、所述子异常信息集合Sa对应的信息来源指示信息、所述目标调用异常类别进行拼接处理,得到拼接后的字符串;
对所述拼接后的字符串进行编码处理,得到所述拼接后的字符串对应的指纹信息;
根据所述子异常信息集合Sa对应的模式序列数据和所述指纹信息,所述子异常信息集合Sa内的服务调用异常信息所属的服务调用日志数据,生成所述子异常信息集合Sa对应的异常描述信息。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的设备控制应用程序,还实现:
接收终端发送的异常情况查看指令,所述异常情况查看指令携带所述目标异常调用类型;
根据所述异常信息集合Pi内的子异常信息集合对应的异常描述信息发送至所述终端;所述终端用于按照所述异常信息集合Pi内的子异常信息集合,展示所述异常信息集合Pi内的子异常信息集合对应的异常描述信息。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图1或图3A实施例或图4A实施例中对数据处理方法的描述,也可执行前文图5所对应实施例中对数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的内容处理装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图1、图3A或图4A实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署在一个地点的至少两个计算机设备上执行,又或者,在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行,分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的中部存储单元,例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本申请实施例还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现前文图1、图3A或图4A实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
2.根据权利要求1所述的方法,其特征在于,所述对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合,包括:
对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征;
对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合;
根据所述N个文本特征集合,将所述M条服务调用异常信息中对应文本特征属于同一个文本特征集合的服务异常信息,确定为同一个异常信息集合,得到N个异常信息集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述M条服务调用异常信息进行文本特征提取,得到所述M条服务调用异常信息分别对应的文本特征,包括:
对服务调用异常信息Hj进行过滤处理,得到过滤处理后的服务调用异常信息Hj;所述服务调用异常信息Hj属于所述M条服务调用异常信息;j为小于或等于M的正整数;
对所述过滤处理后的服务调用异常信息Hj进行分词处理,得到所述服务调用异常信息Hj对应的分词结果Kj
确定所述分词结果Kj中的分词的词频和权重参数;所述分词结果Kj中的分词的词频用于反映分词在所述过滤处理后的服务调用异常信息Hj中出现的次数;
根据所述分词结果Kj中的分词的词频和权重参数,确定所述分词结果Kj中的分词的影响因子;所述影响因子用于反映所述分词结果Kj中的分词,对所述过滤处理后的服务调用异常信息Hj的影响程度;
根据所述分词结果Kj中的分词的影响因子,确定所述服务调用异常信息Hj对应的文本特征。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合,包括:
确定所述M条服务调用异常信息中每两条服务调用异常信息对应的文本特征之间的特征距离;
依次遍历所述M条服务调用异常信息对应的M个文本特征中未被聚类到文本特征集合的文本特征;
若遍历到文本特征Lk,则从第一剩余文本特征中,确定出与所述文本特征Lk之间的特征距离小于距离阈值的文本特征,作为第一目标文本特征;所述文本特征Lk属于所述M个文本特征;k为小于或等于M的正整数,所述第一剩余文本特征为所述M个文本特征中,未被聚类到文本特征集合的文本特征,且所述第一剩余文本特征不包括所述文本特征Lk
若所述第一目标文本特征的数量大于或等于第一数量阈值,则从第二剩余文本特征中,确定出与所述第一目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第二目标文本特征,根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第二剩余文本特征为所述第一剩余文本特征中,除所述第一目标文本特征之外的文本特征;
若所述第一目标文本特征的数量小于所述第一数量阈值,则遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一目标文本特征、所述第二目标文本特征以及文本特征Lk,确定所述文本特征Lk对应的文本特征集合,包括:
获取所述第二目标文本特征的数量;
若所述第二目标文本特征的数量大于或等于第二数量阈值,则从第三剩余文本特征集合中,确定与所述第二目标文本特征之间的特征距离小于所述距离阈值的文本特征,作为第三目标文本特征;
根据所述第一目标文本特征、所述第二目标文本特征、所述第三目标文本特征以及所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合;所述第三剩余文本特征集合为所述第二剩余文本特征集合中除所述第二目标文本特征以外的文本特征;
若所述第二目标文本特征的数量小于所述第二数量阈值,则根据所述第一目标文本特征和所述文本特征Lk,确定所述文本特征Lk对应的文本特征集合,遍历所述M个文本特征中下一个未被聚类到文本特征集合的文本特征,以获取N个文本特征集合,将所述第一目标文本特征以及所述文本特征Lk,聚类到同一个文本特征集合。
6.根据权利要求2或3所述的方法,其特征在于,所述对所述M条服务调用异常信息分别对应的文本特征进行聚类处理,得到N个文本特征集合,包括:
获取已聚类得到的R个初始文本特征集合;所述R个初始文本特征集合是对历史获取的多条服务调用异常信息聚类得到的;R为正整数;
从所述M条服务调用异常信息对应的文本特征选取待划分集合的文本特征Tr;r为小于或等于M的正整数;
从所述R个初始文本特征集合中,确定出与所述文本特征Tr之间具有最大相似度的初始文本特征集合,作为目标文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度大于相似度阈值,则将所述文本特征Tr添加至所述目标文本特征集合,得到包含所述文本特征Tr的文本特征集合;
若所述目标文本特征集合与所述文本特征Tr之间的相似度小于或等于所述相似度阈值,则生成包括所述文本特征Tr的文本特征集合;
直到所述M条服务调用异常信息均被划分至对应的文本特征集合,得到N个文本特征集合。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取已聚类得到的R个初始文本特征集合中的服务调用异常信息的存储时长;
删除所述R个初始文本特征集合中存储时长大于时长阈值的服务调用异常信息;
采用所述N个文本特征集合对删除处理后的R个初始文本特征集合进行更新。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若M大于或等于第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤;
若M小于所述第三数量阈值,且直到属于所述目标异常调用类别的调用行为所生成的服务调用异常信息的数量大于或等于所述第三数量阈值,则执行对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合的步骤。
9.根据权利要求1所述的方法,其特征在于,所述根据所述异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据,包括:
从所述异常信息集合Pi中,确定出S个子异常信息集合;同一个子异常信息集合内的服务调用异常信息属于同一个信息来源;S为正整数;
对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据;所述子异常信息集合Sa属于S个子异常信息集合,a为小于或等于S的正整数;
若获取到所述S个子异常信息集合分别对应的模式序列数据,则将所述S个子异常信息集合分别对应的模式序列数据,确定为所述异常信息集合Pi的模式序列数据。
10.根据权利要求9所述的方法,其特征在于,所述对子异常信息集合Sa内的服务调用异常信息进行模式匹配,得到所述子异常信息集合Sa对应的模式序列数据,包括:
对所述子异常信息集合Sa的服务调用异常信息进行求交集处理,得到所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串;
获取所述子异常信息集合Sa内的服务调用异常信息之间的替换字符串;所述替换字符串用于反映所述子异常信息集合Sa内的任一服务调用异常信息中被省略的字符,所述被省略的字符为对应服务调用异常信息中除所述公共字符串以外的非公共字符串;
根据所述子异常信息集合Sa内的服务调用异常信息之间的公共字符串和替换字符串,生成所述子异常信息集合Sa对应的模式序列数据。
11.根据权利要求9或10所述的方法,其特征在于,所述方法还包括:
对所述子异常信息集合Sa的模式序列数据、所述子异常信息集合Sa对应的信息来源指示信息、所述目标调用异常类别进行拼接处理,得到拼接后的字符串;
对所述拼接后的字符串进行编码处理,得到所述拼接后的字符串对应的指纹信息;
根据所述子异常信息集合Sa对应的模式序列数据和所述指纹信息,所述子异常信息集合Sa内的服务调用异常信息所属的服务调用日志数据,生成所述子异常信息集合Sa对应的异常描述信息。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
接收终端发送的异常情况查看指令,所述异常情况查看指令携带所述目标异常调用类型;
根据所述异常信息集合Pi内的子异常信息集合对应的异常描述信息发送至所述终端;所述终端用于按照所述异常信息集合Pi内的子异常信息集合,展示所述异常信息集合Pi内的子异常信息集合对应的异常描述信息。
13.一种数据处理装置,其特征在于,包括:
获取模块,用于获取属于目标异常调用类别的调用行为所生成的M条服务调用异常信息;所述M为大于1的整数;
处理模块,用于对所述M条服务调用异常信息进行聚类处理,得到N个异常信息集合;一个异常信息集合内包括至少一条服务调用异常信息,同一个异常信息集合内的服务调用异常信息均对应所述目标异常调用类别下的同一个异常调用子类别;N为小于或等于M的正整数;
所述处理模块,还用于根据异常信息集合Pi内的服务调用异常信息,生成所述异常信息集合Pi的模式序列数据;所述模式序列数据用于描述所述异常信息集合Pi内的服务调用异常信息对应的调用行为属于异常子类别Qi的原因,所述异常子类别Qi为所述异常信息集合Pi对应的异常子类别;所述异常信息集合Pi属于所述N个异常信息集合,i为小于或等于N的正整数。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202211435000.5A 2022-11-16 2022-11-16 数据处理方法、装置、设备、产品及存储介质 Pending CN118051361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211435000.5A CN118051361A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、设备、产品及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211435000.5A CN118051361A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、设备、产品及存储介质

Publications (1)

Publication Number Publication Date
CN118051361A true CN118051361A (zh) 2024-05-17

Family

ID=91045515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211435000.5A Pending CN118051361A (zh) 2022-11-16 2022-11-16 数据处理方法、装置、设备、产品及存储介质

Country Status (1)

Country Link
CN (1) CN118051361A (zh)

Similar Documents

Publication Publication Date Title
US10387455B2 (en) On-the-fly pattern recognition with configurable bounds
CN109034993A (zh) 对账方法、设备、系统及计算机可读存储介质
EP3161635B1 (en) Machine learning service
CN111177319A (zh) 风险事件的确定方法、装置、电子设备和存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN109146152A (zh) 一种线上事故等级预测方法和装置
CN113791586A (zh) 一种新型的工业app与标识注册解析集成方法
CN113535677B (zh) 数据分析查询管理方法、装置、计算机设备及存储介质
Sun et al. Design and Application of an AI‐Based Text Content Moderation System
WO2022072237A1 (en) Lifecycle management for customized natural language processing
CN110110153A (zh) 一种节点搜索的方法和装置
CN114491184B (zh) 一种数据处理方法及装置、存储介质及电子设备
CN118051361A (zh) 数据处理方法、装置、设备、产品及存储介质
US20220277176A1 (en) Log classification using machine learning
CN117009832A (zh) 异常命令的检测方法、装置、电子设备及存储介质
CN111563178A (zh) 规则逻辑图对比方法、装置、介质及电子设备
CN114492413B (zh) 文本校对方法、装置和电子设备
US20230289252A1 (en) Intelligent grouping of events in computing system event and computing system incident management domains
CN113377741A (zh) 铁路工程设计元数据管理方法及装置
CN117032789A (zh) 业务规则配置和执行方法、系统、计算机设备及存储介质
CN114254081A (zh) 企业大数据搜索系统、方法及电子设备
Lai et al. An online and highly-scalable streaming platform for filtering trolls with transfer learning
FENG et al. Incident and Problem Ticket Clustering and Classification Using Deep Learning
CN113901206A (zh) 一种基于词嵌入的设备失联预测方法、装置和电子设备
CN116541482A (zh) 文本对象索引方法、对象存储系统及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication