CN108710562B

CN108710562B - 异常记录的合并方法、装置及设备

Info

Publication number: CN108710562B
Application number: CN201810442490.9A
Authority: CN
Inventors: 吴创
Original assignee: Shenzhen Tencent Network Information Technology Co Ltd
Current assignee: Shenzhen Tencent Network Information Technology Co Ltd
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2023-03-31
Anticipated expiration: 2038-05-10
Also published as: CN108710562A

Abstract

本申请实施例提供了一种异常记录的合并方法、装置及设备。该方法包括：获取目标对象的n条异常记录；对于n条异常记录中的第一异常记录和第二异常记录，根据第一异常记录中的字符和第二异常记录中的字符，获取第一异常记录和第二异常记录之间的相似度；若第一异常记录和第二异常记录之间的相似度大于第一阈值，则将第一异常记录和第二异常记录合并为同一类异常记录。本申请实施例提供的方案将相似的异常记录确定为同一类异常记录，能够避免相似的异常记录被分散统计，使得最终的分类结果更为集中，相似的异常记录所反映的问题不会被忽略。

Description

异常记录的合并方法、装置及设备

技术领域

本申请实施例涉及数据统计技术领域，特别涉及一种异常记录的合并方法、装置及设备。

背景技术

应用程序在运行过程中会出现各种异常，通过采集相应的异常记录，对异常记录进行分析，能及时对应用程序进行优化。

目前，应用程序的异常记录中记录有该应用程序出现异常时的堆栈信息。堆栈信息用于反映应用程序出现异常时的函数调用关系。相关技术中，异常记录分析平台在获取到某一应用程序的多条异常记录之后，将堆栈信息完全一致的异常记录合并为同一类异常记录，并统计出每一类异常记录中所包含的异常记录的数量。

上述异常记录的合并方法，最终得到的类较多，异常记录会分布于上述多个类中，导致最终的分类结果较为分散，从而容易忽略掉一部分异常记录所反映的问题。

发明内容

本申请实施例提供了一种异常记录的合并方法、装置及设备，可用于解决相关技术提供的异常记录的合并方法，所存在的分类结果较为分散的问题。

一方面，本申请实施例提供了一种异常记录的合并方法，所述方法包括：

获取目标对象的n条异常记录，所述异常记录用于记录所述目标对象在运行时发生的异常状况，所述n为大于1的整数；

对于所述n条异常记录中的第一异常记录和第二异常记录，根据所述第一异常记录和所述第二异常记录内的字符，获取所述第一异常记录和所述第二异常记录之间的相似度；其中，所述第一异常记录和所述第二异常记录中存在至少一个字符不相同；

若所述第一异常记录和所述第二异常记录之间的相似度大于第一阈值，则将所述第一异常记录和所述第二异常记录合并为同一类异常记录。

另一方面，本申请实施例提供了一种异常记录的合并装置，所述装置包括：

记录获取模块，用于获取目标对象的n条异常记录，所述异常记录用于记录所述目标对象在运行时发生的异常状况，所述n为大于1的整数；

相似度获取模块，用于对于所述n条异常记录中的第一异常记录和第二异常记录，根据所述第一异常记录和所述第二异常记录内的字符，获取所述第一异常记录和所述第二异常记录之间的相似度；其中，所述第一异常记录和所述第二异常记录中存在至少一个字符不相同；

合并模块，用于若所述第一异常记录和所述第二异常记录之间的相似度大于第一阈值，则将所述第一异常记录和所述第二异常记录合并为同一类异常记录。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的异常记录的合并方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的异常记录的合并方法。

又一方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的异常记录的合并方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过计算两条异常记录之间的相似度，并在上述相似度大于第一阈值时，将上述两条异常记录合并为同一类异常记录；相较于将相同的异常记录确定为同一类异常记录，本申请实施例提供的方案将相似的异常记录确定为同一类异常记录，能够避免相似的异常记录被分散统计，使得最终的分类结果更为集中，相似的异常记录所反映的问题不会被忽略。

附图说明

图1示例性示出了一种异常记录的分类结果的示意图；

图2示例性示出了两条异常记录的示意图；

图3是本申请一个实施例提供的实施环境的示意图；

图4是本申请一个实施例提供的异常记录的合并方法的流程图；

图5示例性示出了两条异常记录的相似度的示意图；

图6示例性示出了若干条异常记录的相似度的示意图；

图7是本申请一个实施例提供的计算相似度的示意图；

图8是本申请另一个实施例提供的计算相似度的示意图；

图9是本申请另一个实施例提供的计算相似度的示意图；

图10是本申请另一个实施例提供的异常记录的合并方法的流程图；

图11是本申请另一个实施例提供的异常记录的合并方法的示意图；

图12是本申请另一个实施例提供的异常记录的合并方法的框图；

图13和图14是本申请一个实施例提供的分类结果的示意图；

图15示例性示出了各个应用程序的异常记录影响面的示意图；

图16是本申请一个实施例提供的异常记录的合并装置的框图；

图17本申请一个实施例提供的电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对本申请实施例进行描述之前，先对本申请实施例涉及的相关名词进行介绍。

Stack Text：堆栈信息，Crash文件中保存的应用程序崩溃时的函数调用关系。

Crash文件：应用程序崩溃后生成的记录有程序执行状态的文件。

Crash影响面：单位时间内某个Crash的发生次数，与所有Crash的发生总次数之间的百分比。

Crash优先级：其可以根据Crash影响面确定。Crash影响面越高，则Crash优先级越高；Crash影响面越低，则Crash优先级越低。其中，优先级高于一定影响面的Crash可以称之为高优先级Crash。

异常记录分析平台：一种用于对Crash进行统计、分析的平台。例如，Game Baby平台。

编辑距离(Edit Distance)算法：一种用来计算两个字符串之间的编辑距离，量化评估两个字符串之间相似度的算法，也称Levenshtein距离。

请参考图1，其示出了采用相关技术提供的异常记录合并方法，所得到的分类结果的示意图。如图1所示，将相同的异常记录合并为同一类，图1中每一个条目代表一条异常记录。以第一个条目11为例，其表示异常记录“GDPSSdk+0x37843”的日影响用户的数量为6138、该异常记录的日影响用户的数量占日影响用户的总数量的百分比为4.43％、发生次数为8862次，该异常记录的发生次数占总发生次数的百分比为4.4％。

采用上述相关技术提供的异常记录的合并方法，由于分类粒度大，导致差异性较小的同类问题被分散统计，后续技术人员基于异常记录的影响面来对应用程序进行优化时，可能会忽略上述同类问题，进而导致优化效果不佳。以图2所示的两条异常记录为例，异常记录1的栈顶21与异常记录2的栈顶22不相同，而其它栈帧完全一致，这两条异常记录应当反映的是相同或类似的问题，但如图1所示，采用相关技术提供的异常记录的合并方法，这两条异常记录并不会被合并至同一类异常记录中。

请参考图3，其示出了本申请一个实施例示出的实施环境的示意图。该实施环境包括至少一个终端31和服务器32。

至少一个终端31中运行有目标对象，可选地，目标对象是应用程序、数据库、进程等。终端31可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、膝上型便携计算机等电子设备。

服务器32具有对异常记录进行统计、分析的功能。可选地，服务器32是异常记录分析平台中的服务器。可选地，服务器32还具有异常记录采集功能。在上述至少一个终端31运行目标对象的过程中发生异常时，服务器32从上述至少一个终端31中获取异常记录。服务器32可以是一台服务器，也可以包括由多台服务器组成的服务器集群。

至少一个终端31与第一服务器32之间建立有通信连接。上述通信连接可以基于有线网络或无线网络建立。

本申请实施例提供的技术方案，通过计算两条异常记录之间的相似度，并在上述相似度大于第一阈值时，将上述两条异常记录合并为同一类异常记录；相较于将相同的异常记录确定为同一类异常记录，本申请实施例提供的方案将相似的异常记录确定为同一类异常记录，能够避免相似的异常记录被分散统计，使得最终的分类结果更为集中，相似的异常记录所反映的问题不会被忽略。

本申请实施例提供的技术方案，可以应用于各类对象的优化任务中，比如，应用程序的更新。下面以该技术方案应用于游戏应用程序的更新中为例进行讲解。当终端中运行的游戏应用程序发生异常时，终端向异常记录分析平台中的服务器上报记录有堆栈信息的Crash文件，上述服务器按照本技术方案提供的合并方法对各个终端上报的Crash文件进行合并，并最终统计出影响面较大的Crash文件，之后技术人员修复该Crash文件中的异常状况后，由服务器向安装有该游戏应用程序的终端发送游戏更新通知，及修复后的游戏应用程序安装包。

请参考图4，其示出了本申请一个实施例提供的异常记录的合并方法的流程图。该方法包括如下步骤：

步骤401，获取目标对象的n条异常记录，n为大于1的整数。

目标对象是存在优化需求的对象。目标对象可以是软件，例如应用程序、进程、数据库等；目标对象也可以是硬件，例如服务器、主机、网络设备等硬件设备，或者是硬件设备中的硬件元器件，本申请实施例对此不作限定。在本申请实施例中，仅以目标对象为应用程序为例进行解释说明。例如，目标对象为游戏应用程序。

异常记录用于记录目标对象在运行时发生的异常状况，异常记录中包括描述上述异常状况的字符串。异常状况可以是目标对象在未接收到关闭指令时停止运行，异常状况也可以是目标对象不再响应其他对象(例如用户)触发的操作指令等，本申请实施例对此不作限定。上述异常状况也可以称之为崩溃。可选地，异常记录中记录有堆栈信息(StackText)，上述堆栈信息用于指示目标对象出现异常状况时的函数调用关系。n条异常记录可以是第一时段内采集的异常记录，上述第一时段可以根据目标对象的更新需求进行设定，本申请实施例对此不作限定。示例性地，上述第一时段可以是最近一个星期、最近一个月、最近半年等等。

计算机设备可以从异常记录的采集设备中获取异常记录。上述异常记录的采集设备可以是运行有目标对象的终端，也可以是目标对象对应的后台服务器。另外，计算机设备可以在接收到对应于异常记录的分析指令之前获取异常记录，也可以预先获取异常记录，本申请实施例对获取异常记录的时机不作限定。

步骤402，对于n条异常记录中的第一异常记录和第二异常记录，根据所述第一异常记录和所述第二异常记录内的字符，获取第一异常记录和第二异常记录之间的相似度。

第一异常记录和第二异常记录中存在至少一个字符不相同。第一异常记录与第二异常记录之间的相似度用于指示第一异常记录所包括的内容与第二异常记录所包括的内容之间的相似程度。在本申请实施例中，获取第一异常记录和第二异常记录之间的相似度所采用的算法可以是欧氏距离(euclidean distance)算法、余弦相似性(cosinesimilarity)算法、编辑距离算法、海明距离(hamming distance)算法等等，本申请实施例对此不作限定。

可选地，在获取第一异常记录和第二异常记录之间的相似度之前，还可以对第一异常记录与第二异常记录进行预处理。预处理的过程如下：将第一异常记录中的冗长字符串替换为简化字符串，以及将第二异常记录中的冗长字符串替换为简化字符串，冗长字符串的字符串长度大于简化字符串的字符串长度。

冗长字符串通常不描述异常状况，而是描述目标对象的基础信息，比如进程名称、应用程序名称等等。可选地，冗长字符串为字符串长度大于长度阈值的字符串，长度阈值可以根据实际需求设定，本申请实施例对此不作限定。

简化字符串与冗长字符串对应的含义相同。冗长字符串的字符串长度大于简化字符串长度的字符串长度。例如，对于冗长字符串“league of legends”，其可以被替换为简化字符串“LOL”。再例如，对于冗长字符串“Cross Fire”，其可以替换为简化字符串“CF”。

在本申请实施例中，通过对异常记录中的冗长字符串做替换处理，从而避免冗长字符串对第一异常记录与第二异常记录之间的相似度造成干扰，提高获取相似度的准确度。

步骤403，若第一异常记录和第二异常记录之间的相似度大于第一阈值，则将第一异常记录和第二异常记录合并为同一类异常记录。

在本申请实施例中，若第一异常记录和第二异常记录之间的相似度超过第一阈值，则第一异常记录和第二异常记录进行合并为同一类异常记录，后续统计得到异常记录的影响面时，计算机设备仅统计同一类异常记录的影响面，从而使相似的异常记录不会因为分散统计而被技术人员忽略。

结合参考图5，其示出了两条异常记录的示意图。在该图中，加粗且加有下划线的部分为两条异常记录的区别部分。计算机设备计算上述两条异常记录之间的相似度为97.4％，若第一阈值为90％，则计算机设备会将上述两条异常记录合并。而在相关技术中，上述两条异常记录并不会被合并。

结合参考图6，其示出几组异常记录之间的相似度的示意图，其中，异常记录“League_of_Legends+0x1389b6”与异常记录“League_of_Legends+0x1389a2”之间的相似度为0.99，异常记录“League_of_Legends+0x1389b6”与异常记录“League_of_Legends+0x138983”之间的相似度为0.98，异常记录“League_of_Legends+0x1389b6”与异常记录“League_of_Legends+0x1389a2”之间的相似度为0.90，异常记录“League_of_Legends+0x1389b6”与异常记录“League_of_Legends+0x1389a2”之间的相似度为0.99。

另外，需要说明的是，第一阈值可以由技术人员根据目标对象，以及不同阈值下的合并效果，以及对分类结果的后续验证情况来选定。

综上所述，本申请实施例提供的技术方案，通过计算两条异常记录之间的相似度，并在上述相似度大于第一阈值时，将上述两条异常记录合并为同一类异常记录；相较于将相同的异常记录确定为同一类异常记录，本申请实施例提供的方案将相似的异常记录确定为同一类异常记录，能够避免相似的异常记录被分散统计，使得最终的分类结果更为集中，相似的异常记录所反映的问题不会被忽略。

另外，还通过在计算相似度之前，将冗长字符串替换为简化字符串，从而使计算异常记录时的相似度能更准确地表示异常信息之间的相似度。

下面对获取第一异常记录和第二异常记录之间的相似度的第一种可能的实现方式进行讲解。该种实现方式可以包括如下步骤：

步骤701，获取第一异常记录和第二异常记录之间的编辑距离。

上述编辑距离用于指示第一异常记录所包括的字符串转换成第二异常记录所包括的字符串所需的编辑操作的最小次数，或者，第二异常记录所包括的字符串转换成第一异常记录所包括的字符串所需的编辑操作的最小次数。编辑操作包括删除操作、插入操作、替换操作等。

当第一异常记录的字符串长度为0，且第二异常记录的字符串长度也为0时，第一异常记录和第二异常记录之间的编辑距离为0；当第一异常记录的字符串长度为i，第二异常记录的字符串长度为0时，第一异常记录和第二异常记录之间的编辑距离为i；当第一异常记录的字符串长度为0，第二异常记录的字符串长度为j时，第一异常记录和第二异常记录之间的编辑距离为j；当第一异常记录的字符串长度为i，第二异常记录的字符串长度为j时，第一异常距离与第二异常记录之间的编辑距离edit[i，j]可以通过如下公式计算得到：

edit[i，j]＝min(edit[i-1][j]+1,edit[i][j-1]+1,edit[i-1][j-1]+flag)；

其中，edit[i-1][j]+1表示插入操作，edit[i][j-1]+1表示删除操作，edit[i-1][j-1]+flag表示替换操作。

flag的数值可以根据第一异常记录与第二异常记录当前字符的比较结果来确定，若第一异常记录的当前字符与第二异常记录的当前字符相同，则flag为0，若第一异常记录当前字符与第二异常记录的当前字符不同，则flag为1。

可选地，计算机设备通过矩阵的方式获取第一异常记录和第二异常记录之间的编辑距离。该过程具体如下：

首先，根据第一异常记录的字符串长度与第二异常记录的字符串长度创建m×n矩阵。m表示该矩阵的行数，其可以是第一异常记录的字符串长度与1的和，也可以是第二异常记录的字符串长度与1的和；n表示该矩阵的列数，其可以是第一异常记录的字符串长度与1的和，也可以是第二异常记录的字符串长度与1的和。若m为第一异常记录的字符串长度与1的和，则n为第二异常记录的字符串长度与1的和；若m为第二异常记录的字符串长度与1的和，则n为第二异常记录的字符串长度与1的和。

其次，为第一行以及第一列的元素赋值。具体地，计算机设备为第一行及第一列的元素从零开始递增赋值。其中，第1行第j列的数值为j-1，第i行第1列的数值为i-1。

之后通过如下公式计算该m×n矩阵中每一行每一列的数值：

其中，d_[i,j]表示该m×n矩阵中第i+1行第j+1列的数值，x_j表示第1行第j+1列的数值，y_j表示第j+1行第1列的数值。

最后，将该m×n矩阵中第m行第n列的数值确定为第一异常记录和第二异常记录之间的编辑距离。

步骤702，获取编辑距离与目标异常记录的字符串长度之间的比值。

目标异常字符串可以是第一异常记录，也可以是第二异常记录。可选地，目标异常记录是第一异常记录和第二异常记录中字符串长度较大的异常记录。当第一异常记录的字符串长度大于第二异常记录的字符串长度时，目标异常记录为第一异常记录。当第二异常记录的字符串长度大于第一异常记录的字符串长度时，目标异常记录为第二异常记录。

步骤703，根据编辑距离与目标异常记录的字符串长度之间的比值，确定第一异常记录和第二异常记录之间的相似度。

上述比值与相似度呈负相关关系，也即，编辑距离与目标异常记录的字符串长度之间的比值越大，则第一异常记录和第二异常记录之间的相似度越小，编辑距离与目标异常记录的字符串长度之间的比值越小，则第一异常记录和第二异常记录之间的相似度越大。

在一种可能的实现方式中，计算机设备将预设常数与上述比值之间的差值确定为确定第一异常记录和第二异常记录之间的相似度。预设常数可以是1。也即，第一异常记录和第二异常记录之间的相似度similar rate可以采用如下公式表示：

Similar rate＝1-d/max[Length(s)，Length(t)]；

其中，d是第一异常记录和第二异常记录之间的编辑距离，Length(s)是第一异常记录的字符串长度，Length(t)是第二异常记录的字符串长度，max[Length(s)，Length(t)]是上述两个字符串长度之间的最大值。

结合参考图7，其示出了本申请一个实施例示出的计算相似度的示意图。计算机设备统计将第一异常记录转换成第二异常记录所需的编辑操作的次数，也即编辑距离d，之后计算编辑距离与第一异常记录或第二异常记录的字符串长度之间的比值d/L，最后计算第一异常记录与第二异常记录之间的相似度s＝1-d/L。

下面对获取第一异常记录和第二异常记录之间的相似度的第二种可能的实现方式进行讲解。该种实现方式可以包括如下步骤：

步骤704，获取第一异常记录对应的第一向量，以及第二异常记录对应的第二向量。

第一异常记录对应的第一向量是采用向量形式表示的第一异常记录，第二异常记录对应的第二向量是采用向量形式表示的第二异常记录。

在本申请实施例中，通过词袋模型(Bag of Words，BoW)来获取第一向量以及第二向量。具体地，计算机设备先确定出第一异常记录与第二异常记录对应的字符合集，该字符合集中包括第一异常记录与第二异常记录中出现过的全部字符，之后依次判断该字符合集所包括的字符是否出现在第一异常记录中，若该字符出现在第一异常记录中，则表示为1，若没有出现在第一异常记录中，则表示为0，当遍历该字符合集中的全部字符后即可得到第一向量。第二向量也可以采用上述方式获得，此处不再赘述。

示例性地，第一异常记录所包括的字符串为“apple”，第二异常记录所包括的字符串为“app”，第一异常记录与第二异常记录对应的字符合集为{a，p，l，e}，则第一向量可以表示为[1，1，1，1]；第二向量可以表示为[1，1，0，0]。

另外，本申请实施例对获取第一向量与第二向量的顺序不作限定，终端可以先获取第一向量，再获取第二向量；也可以先获取第二向量，再获取第一向量；还可以同时获取第一向量与第二向量。

步骤705，将第一向量与第二向量之间的余弦距离确定为第一异常记录和第二异常记录之间的相似度。

第一向量与第二向量之间的余弦距离cosθ可以通过如下公式计算得到：

其中，n是第一向量与第二向量的维度，A_i是第一向量，B_i是第二向量，

是第一向量的大小，/>

是第二向量的大小。

结合参考图8，其示出了本申请一个实施例示出的计算相似度的示意图。计算机设备对第一异常记录进行向量化处理，得到第一向量，对第二异常记录进行向量化处理，得到第二向量，之后计算第一向量与第二向量之间的余弦距离，并将上述余弦距离确定为第一异常记录与第二异常记录之间的相似度。

下面对获取第一异常记录和第二异常记录之间的相似度的第三种可能的实现方式进行讲解。该种实现方式可以包括如下步骤：

步骤706，将第一异常记录划分为m个第一字符串，以及将第二异常记录划分为m个第二字符串，m为大于1的整数。

在本申请实施例中，第一异常记录可以包括多条子异常记录，第二异常记录也可以包括多条子异常记录。计算机设备基于子异常记录对第一异常记录进行划分，每个第一字符串用于表示第一异常记录中的一条子异常记录。计算机设备基于子异常记录对第二异常记录进行划分，每个第二字符串用于表示第二异常记录中的一条子异常记录。

第一异常记录所包括的子异常记录的数量与第二异常记录所包括的子异常记录的数量可以相同，也可以不相同。

当第一异常记录所包括的子异常记录的数量与第二异常记录所包括的子异常记录的数量相同时，m即为子异常记录的数量。

当第一异常记录所包括的子异常记录的数量与第二异常记录所包括的子异常记录的数量不相同时，m可以是第一异常记录所包括的子异常记录的数量，也可以是第二异常记录所包括的子异常记录的数量。若第一异常记录所包括的子异常记录的数量大于第二异常记录所包括的子异常记录的数量，则m为第一异常记录所包括的子异常记录的数量；若第一异常记录所包括的子异常记录的数量小于第二异常记录所包括的子异常记录的数量，则m为第二异常记录所包括的子异常记录的数量。

另外，当第一异常记录所包括的子异常记录的数量与第二异常记录所包括的子异常记录的数量不相同时，m组对应字符串中存在至少一组对应字符串中的第一字符串或第二字符串为空。例如，第一异常记录包括8条子异常记录，第二异常记录包括6条子异常记录，则第7组和第8组对应字符串中第二字符串均为空。

步骤707，计算m组对应字符串的相似度。

其中，m组对应字符串中的第i组对应字符串包括第i个第一字符串和第i个第二字符串，i为正整数。计算m组对应字符串的相似度所采用的算法可以是欧氏距离算法、余弦相似性算法、编辑距离算法、海明距离算法等等，本申请实施例对此不作限定。

在第一种可能的实现方式中，步骤701可以实现为：获取第一字符串和第二字符串之间的第一编辑距离；获取上述第一编辑距离与目标字符串的字符串长度之间的比值，目标字符串是第一字符串或第二字符串；根据上述第一编辑距离与目标字符串的字符串长度之间的比值，确定第一字符串和第二字符串之间的相似度。对于该种实现方式的解释说明，可以参考步骤701至步骤703，此处不再赘述。

在第二种可能的方式中，步骤707可以具体实现为：获取第一字符串对应的第三向量，以及第二字符串对应的第四向量；将第三向量与第四向量之间的余弦距离确定为第一字符串和第二字符串之间的相似度。对于该种实现方式的解释说明，可以参考步骤704至步骤705，此处不再赘述。

另外，当第一异常记录所包括的子异常记录的数量与第二异常记录所包括的子异常记录的数量不相同时，m组对应字符串中存在至少一组对应字符串中的第一字符串或第二字符串为空。存在第一字符串或第二字符串为空的对应字符串的相似度为0。例如，第一异常记录包括8条子异常记录，第二异常记录包括6条子异常记录，则第7组和第8组对应字符串中第二字符串均为空，此时第7组和第8组对应字符串的相似度均为0。

步骤708，根据m组对应字符串的相似度，确定第一异常记录和第二异常记录之间的相似度。

计算机设备计算得到m组对应字符串的相似度，还需要对上述m组对应字符串的相似度进行统计处理，以确定第一异常记录和第二异常记录之间的相似度。

在第一种可能的实现方式中，步骤708具体实现为：对于m组对应字符串中的第i组对应字符串，将第i组对应字符串的相似度与第i组对应字符串对应的权值相乘，得到第i组对应字符串的加权相似度；将m组对应字符串的加权相似度累加，得到第一异常记录和第二异常记录之间的相似度。

第i组对应字符串对应的权值可以根据第i组第一字符串在第一异常记录中的位置信息，以及第i组第二字符串在第二异常记录中的位置信息等确定。

可选地，第i组第一字符串在第一异常记录中的位置与第i组第二字符串在第二异常记录中的位置越靠前，则第i组对应字符串对应的权值越高，第i组第一字符串在第一异常记录中的位置与第i组第二字符串在第二异常记录中的位置越靠后，则第i组对应字符串对应的权值越低。可选地，当异常记录记录有堆栈信息时，计算机设备根据栈将第一异常记录以及第二异常记录划分为m条子异常记录，每条子异常记录包括一个栈内存储的信息。在该示例中，距离栈顶越近的栈对应的子异常记录的权值越高，距离栈顶越远的栈对应的子异常记录的权值越低。

在第二种可能的实现方式中，步骤708具体实现为：将m组对应字符串的相似度的平均值，确定为第一异常记录和第二异常记录之间的相似度。

在第三种可能的实现方式中，步骤708具体实现为：将m组对应字符串的相似度中的最小值，确定为第一异常记录和第二异常记录之间的相似度。

结合参考图9，其示出了本申请一个实施例示出的计算相似度的示意图。计算机设备将第一异常记录划分为m个第一字符串，第二异常记录划分为m个第二字符串，之后将上述m个第一字符串中第i个第一字符串与上述m个第二字符串中第i个第二字符串组合成第i组对应字符串，之后计算每组对应字符串的相似度，并根据每组对应字符串的相似度确定第一异常记录和第二异常记录之间的相似度。具体地，计算机设备可以对各组对应字符串的相似度加权求和得到第一异常记录和第二异常记录之间的相似度，图8中的k1为第1组对应字符串的权值，k2为第2组对应字符串的权值，km为第m组对应字符串的权值；计算机设备还可以将各组对应字符串的相似度的平均值作为第一异常记录和第二异常记录之间的相似度；计算机设备还可以将各组对应字符串的相似度中的最小值作为第一异常记录和第二异常记录之间的相似度。

请参考图10，其示出了本申请另一个实施例提供的异常记录的合并方法的流程图。该方法包括如下步骤：

步骤1001，获取目标对象的n条异常记录。

异常记录用于记录目标对象在运行时发生的异常状况。该步骤与步骤401类似，此处不再赘述

步骤1002，对n条异常记录进行预合并，得到k个类，k为正整数。

k个类中的每一个类中包含至少一条相同的异常记录，且k个类中任意两个类所包含的异常记录不同。另外，k是小于n的正整数。

在本申请实施例中，获取异常记录之后，先对获取到的异常记录进行预合并，也即将相同的异常记录合并为同一类异常记录。

步骤1003，对于k个类中的每两个类，计算上述两个类中的两条异常记录之间的相似度。

与图3所示实施例不同的是，此处的两条异常记录并非是n条异常记录中的任意两条异常记录，而是分属两个类的异常记录。例如，第一异常记录属于第一类，第二异常记录属于第二类，第一类与第二类不相同。

步骤1004，将相似度大于第一阈值的两个类，合并为同一个类。

在本实施例中，若计算出上述两个类中的两条异常记录之间的相似度大于第一阈值，则将上述两类合并成同一类。该过程可以称之为“二次合并”。通过上述方式，可以减小计算获取到的异常记录之间的相似度所需的计算量，提升统计分析效率。

例如，第一类异常记录包括A、B、C三条异常记录，第二类异常记录包括E、F、G，若异常记录A与异常记录E之间的相似度大于第一阈值，则计算机设备将异常记录A、B、C、E、F、G确定为同一类异常记录。

结合参考图11，计算机设备先对n条异常记录进行与合并，得到k个类，之后对上述k个类进行二次合并，得到第一类和第二类。

在一个具体的例子中，结合参考图12，计算机设备拉取各个应用程序上报的源数据，先对上述源数据进行首次合并，然后对首次合并后的源数据进行预处理，之后对预处理后得到的数据进行相似度比对，最后根据相似度对预处理后得到的数据进行二次合并。其中，首次合并的标准是将堆栈信息完全一致的Crash进行合并，从而确保实时获取的Crash不会被遗漏。预处理是指将Crash中的冗长字符串替换为简化字符串。

计算机设备可以对经过两次合并后的每类异常记录进行统计分析，以确定每类异常记录的影响面，从而使目标对象的技术人员能合理确定每类异常记录的处理顺序。可选地，在步骤1004之后，还包括如下步骤：计算每一类异常记录的数量与目标对象的异常记录的总数量之间的比值；根据每一类异常记录对应的比值，对各类异常记录进行优先级排序。

上述比值也即是各类异常记录的影响面。上述比值与优先级之间呈正相关关系。也即，比值越大，优先级就越高，比值越小，优先级就越低。计算机设备将上述比值按照大小顺次排序，该排列顺序也即各类异常记录的优先级顺序。后续目标对象的技术人员可以基于上述优先级顺序对目标对象进行优化，从而及时解决影响面较大的异常记录。

综上所述，本申请实施例提供的技术方案，通过计算两条异常记录之间的相似度，并在上述相似度大于第一阈值时，将上述两条异常记录合并为同一类异常记录；后续异常记录分析平台统计合并结果时，由于相似的异常记录被确定为一类异常记录，该类异常记录中包括的异常记录的数量较多，因此该类异常记录被技术人员优先处理的概率较大，从而使应用程序的优化过程更准确。

下面对本申请实施例提供的异常记录的合并方法的合并效果进行讲解。

结合参考图13，其示出了本申请一个实施例提供的异常记录的统计结果的示意图，该统计结果中包括应用程序A在一天内影响面排在前10位的异常记录的标识、错误地址、模块名、影响的用户数量、影响的用户数量与所有的异常记录影响的用户总数量之间的比值、发生次数、发生次数与所述异常记录的总发生次数之间的比值。

结合参考图14，其示出了本申请一个实施例提供的异常记录的统计结果的示意图，该统计结果中包括应用程序B在一天内影响面排在前10位的异常记录的标识、错误地址、模块名、影响的用户数量、影响的用户数量与所有的异常记录影响的用户总数量之间的比值、发生次数、发生次数与所述异常记录的总发生次数之间的比值。

结合参考图15，其示出了本申请一个实施例提供的异常记录的影响面的示意图。该图中包括应用程序A、B以及C在一段时间内的影响面曲线，应用程序A、B和C在该段时间的影响面曲线均在80％上下浮动。相较于现有技术的方案，提高了高优先级的异常记录的识别效率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图16，其示出了本申请一个实施例提供的数据包重传装置的框图。该装置具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：记录获取模块1601、相似度获取模块1602和合并模块1603。

记录获取模块1601，用于获取目标对象的n条异常记录，所述异常记录用于记录所述目标对象在运行时发生的异常状况，所述n为大于1的整数。

相似度获取模块1602，用于对于所述n条异常记录中的第一异常记录和第二异常记录，根据所述第一异常记录和所述第二异常记录内的字符，获取所述第一异常记录和所述第二异常记录之间的相似度；其中，所述第一异常记录和所述第二异常记录中存在至少一个字符不相同。

合并模块1603，用于若所述第一异常记录和所述第二异常记录之间的相似度大于第一阈值，则将所述第一异常记录和所述第二异常记录合并为同一类异常记录。

在基于图16所示实施例提供的一个可选实施例中，所述相似度获取模块1602，用于：

将所述第一异常记录划分为m个第一字符串，以及将所述第二异常记录划分为m个第二字符串，所述m为大于1的整数；

计算m组对应字符串的相似度，其中，所述m组对应字符串中的第i组对应字符串包括第i个第一字符串和第i个第二字符串，所述i为正整数；

根据所述m组对应字符串的相似度，确定所述第一异常记录和所述第二异常记录之间的相似度。

可选地，所述相似度获取模块1602，用于：

对于所述m组对应字符串中的第i组对应字符串，将所述第i组对应字符串的相似度与所述第i组对应字符串对应的权值相乘，得到所述第i组对应字符串的加权相似度；

将所述m组对应字符串的加权相似度累加，得到所述第一异常记录和所述第二异常记录之间的相似度。

可选地，所述相似度获取模块1602，用于将所述m组对应字符串的相似度的平均值，确定为所述第一异常记录和所述第二异常记录之间的相似度。

可选地，所述相似度获取模块1602，用于将所述n组对应字符串的相似度中的最小值，确定为所述第一异常记录和所述第二异常记录之间的相似度。

在基于图16所示实施例提供的另一个可选实施例中，所述相似度获取模块1602，用于：

获取所述第一异常记录和所述第二异常记录之间的编辑距离；

获取所述编辑距离与目标异常记录的字符串长度之间的比值，所述目标异常记录是所述第一异常记录或所述第二异常记录；

根据所述编辑距离与所述目标异常记录的字符串长度之间的比值，确定所述第一异常记录和所述第二异常记录之间的相似度。

获取所述第一异常记录对应的第一向量，以及所述第二异常记录对应的第二向量；

将所述第一向量与所述第二向量之间的余弦距离确定为所述第一异常记录和第二异常记录之间的相似度。

在基于图16所示实施例提供的另一个可选实施例中，所述装置还包括：预合并模块(图中未示出)。

预合并模块，用于对所述n条异常记录进行预合并，得到k个类，所述k个类中的每一个类中包含至少一条相同的异常记录，且所述k个类中任意两个类所包含的异常记录不同，所述k为正整数；其中，所述第一异常记录属于所述k个类中的第一类，所述第二异常记录属于所述k个类中的第二类，所述第一类和所述第二类为两个不同的类。

在基于图16所示实施例提供的另一个可选实施例中，所述装置还包括：字符串替换模块(图中未示出)。

字符串替换模块，用于将所述第一异常记录中的冗长字符串替换为简化字符串，以及将所述第二异常记录中的冗长字符串替换为简化字符串，所述冗长字符串的字符串长度大于所述简化字符串长度的字符串长度。

在基于图16所示实施例提供的另一个可选实施例中，所述装置还包括：比值计算模块和优先级排序模块(图中未示出)。

比值计算模块，用于计算每一类异常记录的数量与所述目标对象的异常记录的总数量之间的比值；

优先级排序模块，用于根据每一类异常记录对应的比值，对各类异常记录进行优先级排序。

请参考图17，其示出了本发明一个实施例提供的电子设备的结构示意图。该电子设备可以是服务器。该电子设备用于实施上述实施例中提供的异常记录的合并方法。具体来讲：

电子设备1700包括中央处理单元(CPU)1701、包括随机存取存储器(RAM)1702和只读存储器(ROM)1703的系统存储器1704，以及连接系统存储器1704和中央处理单元1701的系统总线1705。电子设备1700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1706，和用于存储操作系统1713、应用程序1717和其他程序模块1715的大容量存储设备1707。

基本输入/输出系统1706包括有用于显示信息的显示器1708和用于用户输入信息的诸如鼠标、键盘之类的输入设备1709。其中显示器1708和输入设备1709都通过连接到系统总线1705的输入输出控制器1710连接到中央处理单元1701。基本输入/输出系统1706还可以包括输入输出控制器1710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1707通过连接到系统总线1705的大容量存储控制器(未示出)连接到中央处理单元1701。大容量存储设备1707及其相关联的计算机可读介质为电子设备1700提供非易失性存储。也就是说，大容量存储设备1707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1704和大容量存储设备1707可以统称为存储器。

根据本发明的各种实施例，电子设备1700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即电子设备1700可以通过连接在系统总线1705上的网络接口单元1711连接到网络1712，或者说，也可以使用网络接口单元1711来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述异常记录的合并方法的指令。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由电子设备的处理器加载并执行以实现上述方法实施例中的异常记录的合并方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种异常记录的合并方法，其特征在于，所述方法包括：

对所述n条异常记录进行预合并，得到k个类，所述k个类中的每一个类中包含的至少一条异常记录相同，且所述k个类中任意两个类所包含的异常记录不同，所述k为正整数；其中，第一异常记录属于所述k个类中的第一类，第二异常记录属于所述k个类中的第二类，所述第一类和所述第二类为两个不同的类，所述第一异常记录和所述第二异常记录中存在至少一个字符不相同；

对于k个类中的每两个类，将所述第一异常记录中的冗长字符串替换为简化字符串，以及将所述第二异常记录中的冗长字符串替换为简化字符串，所述冗长字符串的字符串长度大于所述简化字符串的字符串长度，所述冗长字符串用于描述所述目标对象的基础信息；

获取所述编辑距离与目标异常记录的字符串长度之间的比值，所述目标异常记录是所述第一异常记录和所述第二异常记录中字符串长度较大的异常记录；

根据所述编辑距离与所述目标异常记录的字符串长度之间的比值，确定所述第一异常记录和所述第二异常记录之间的相似度；

若所述第一异常记录和所述第二异常记录之间的相似度大于第一阈值，则将所述第一异常记录所属的类和所述第二异常记录所属的类合并为同一类异常记录。

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一异常记录和所述第二异常记录之间的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述m组对应字符串的相似度，确定所述第一异常记录和所述第二异常记录之间的相似度，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述m组对应字符串的相似度，确定所述第一异常记录和所述第二异常记录之间的相似度，包括：

将所述m组对应字符串的相似度的平均值，确定为所述第一异常记录和所述第二异常记录之间的相似度。

5.根据权利要求2所述的方法，其特征在于，所述根据所述m组对应字符串的相似度，确定所述第一异常记录和所述第二异常记录之间的相似度，包括：

将所述m组对应字符串的相似度中的最小值，确定为所述第一异常记录和所述第二异常记录之间的相似度。

6.根据权利要求1所述的方法，其特征在于，所述确定所述第一异常记录和所述第二异常记录之间的相似度，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

计算每一类异常记录的数量与所述目标对象的异常记录的总数量之间的比值；

根据每一类异常记录对应的比值，对各类异常记录进行优先级排序。

8.一种异常记录的合并装置，其特征在于，所述装置包括：

预合并模块，用于对所述n条异常记录进行预合并，得到k个类，所述k个类中的每一个类中包含的至少一条异常记录相同，且所述k个类中任意两个类所包含的异常记录不同，所述k为正整数；其中，第一异常记录属于所述k个类中的第一类，第二异常记录属于所述k个类中的第二类，所述第一类和所述第二类为两个不同的类，所述第一异常记录和所述第二异常记录中存在至少一个字符不相同；

字符替换模块，用于对于k个类中的每两个类，将所述第一异常记录中的冗长字符串替换为简化字符串，以及将所述第二异常记录中的冗长字符串替换为简化字符串，所述冗长字符串的字符串长度大于所述简化字符串的字符串长度，所述冗长字符串用于描述所述目标对象的基础信息；

相似度获取模块，用于获取所述第一异常记录和所述第二异常记录之间的编辑距离；获取所述编辑距离与目标异常记录的字符串长度之间的比值，所述目标异常记录是所述第一异常记录和所述第二异常记录中字符串长度较大的异常记录；根据所述编辑距离与所述目标异常记录的字符串长度之间的比值，确定所述第一异常记录和所述第二异常记录之间的相似度；

合并模块，用于若所述第一异常记录和所述第二异常记录之间的相似度大于第一阈值，则将所述第一异常记录所属的类和所述第二异常记录所属的类合并为同一类异常记录。

9.根据权利要求8所述的装置，其特征在于，所述相似度获取模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述相似度获取模块，用于：

11.根据权利要求9所述的装置，其特征在于，所述相似度获取模块，用于：

12.根据权利要求9所述的装置，其特征在于，所述相似度获取模块，用于：

13.根据权利要求8所述的装置，其特征在于，所述相似度获取模块，用于：

14.根据权利要求8至13任一项所述的装置，其特征在于，所述装置还包括比值计算模块和优先级排序模块；

所述比值计算模块，用于计算每一类异常记录的数量与所述目标对象的异常记录的总数量之间的比值；

所述优先级排序模块，用于根据每一类异常记录对应的比值，对各类异常记录进行优先级排序。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的异常记录的合并方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的异常记录的合并方法。