CN111459797B

CN111459797B - 开源社区中开发者行为的异常检测方法、系统及介质

Info

Publication number: CN111459797B
Application number: CN202010124140.5A
Authority: CN
Inventors: 曹健; 童兰轩; 钱诗友
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-04-28
Anticipated expiration: 2040-02-27
Also published as: CN111459797A

Abstract

本发明提供了一种开源社区中开发者行为的异常检测方法、系统及介质，包括：构建序列步骤：根据开发者行为构建不同的行为次数时间序列；行为数据离散化步骤：对行为次数时间序列进行划分成区间内差异低于预设范围，区间之间差异高于预设范围的不同类别，并达到预设类别数量；行为频繁序列挖掘步骤：在其他人员的行为序列和待检测者的历史行为序列上均进行行为频繁序列挖掘；行为异常性判断步骤：判断开发者的行为是否存在异常。本发明提高了开源项目的确定性，减少了项目进度风险；本发明可以追溯历史数据，对过去异常数据进行标识。

Description

开源社区中开发者行为的异常检测方法、系统及介质

技术领域

本发明涉及行为异常检测技术领域，具体地，涉及一种开源社区中开发者行为的异常检测方法、系统及介质。

背景技术

开源软件已经成为了目前的软件开发的主流方式。开发者在这些开源社区中以各种方式作出贡献，推动着开源软件的发展。与此同时，许多开发者参与的积极性并不稳定，开发者的开发行为常常出现一些异常现象。这些异常带来了开源项目的不确定性，往往导致项目进度风险；另一方面有些异常也意味着对项目及时调整的机会，因此需要及时检测开发者的开发行为异常。在开源社区中开发者的行为具有多种类型，同时，也缺乏对过去异常数据的标识。目前还没有针对开源社区中开发者的多维度开发行为进行无监督的异常识别方法。

专利文献CN105677572B(申请号：201610077926.X)公开了一种基于自组织映射模型的云软件性能异常错误诊断方法，包括：追踪记录待检测的软件在云环境中运行时的系统调用信息；分析出现性能异常的虚拟机上软件运行时系统调用序列，划分每个进程对应的系统调用序列；根据划分得到的进程系统调用序列建立检测模型，并对可疑进程进行异常检测；计算出现异常的进程中最相关的系统调用，排序后输出。本发明能够准确完整地记录软件运行时的行为，能够自动化建模并且检测出异常的系统运行过程，能够更准确地定位异常运行过程相关的系统调用。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种开源社区中开发者行为的异常检测方法、系统及介质。

根据本发明提供的开源社区中开发者行为的异常检测方法，包括：

构建序列步骤：根据开发者行为构建不同的行为次数时间序列；

行为数据离散化步骤：对行为次数时间序列进行划分成区间内差异低于预设范围，区间之间差异高于预设范围的不同类别，并达到预设类别数量；

行为频繁序列挖掘步骤：在其他人员的行为序列和待检测者的历史行为序列上均进行行为频繁序列挖掘；

行为异常性判断步骤：判断开发者的行为是否存在异常。

优选地，所述行为次数时间序列包括：

次数序列：由一段时间内的行为总数量表示，所有类型的行为次数序列记为X，某类型的行为j的次数序列记为C^j；

趋势序列：由相邻两端时间内的行为总数变化量表示，所有类型的行为趋势序列记为X’，行为j的趋势序列记为C^j’；

比例序列：由一段时间内某一行为的次数占这段时间内行为总数的占比表示，行为j的比例序列记为P^j。

优选地，所述行为数据离散化步骤包括：

步骤A1：将每一个不同值的数据放入一个类别；

步骤A2：找到一组差异最小的相邻类别，将这两个类别合并；

步骤A3：返回步骤2继续执行，当数据分成预设类别数量时终止。

优选地，所述行为频繁序列挖掘步骤包括：

步骤B1：寻找置信度为s下的m项频繁项或长度为m的频繁序列；

步骤B2：若频繁集为空集，则缩短项数或序列长度到m-1，引入在置信度上的惩罚项，返回在置信度为2s下的m-1项频繁项或长度为m-1的频繁序列；

步骤B3：返回步骤B2继续执行，若得到置信度为(1+i)s的m-i项频繁项或长度为m-i的频繁序列时终止；

步骤B4：若到i＝m时，都没有得到频繁集，则在置信度为s下，m项频繁项或长度为m的频繁序列为空集。

优选地，对于相同长度的序列或项，采用闵氏距离计算方法，对于不同长度的序列，进行基于最长公共子序列的序列长度调整，再采用闵氏距离计算。

优选地，所述行为异常性判断步骤包括：

对于想要检测的开发者的行为，对当前行为子序列，与历史序列中的频繁序列、与其他开发者的频繁行为序列进行距离计算，若高于预设异常阈值，则判定为疑似异常。

优选地，所述开发者行为包括代码提交，代码审查和发表评论。

根据本发明提供的开源社区中开发者行为的异常检测系统，包括：

构建序列模块：根据开发者行为构建不同的行为次数时间序列；

行为数据离散化模块：对行为次数时间序列进行划分成区间内差异低于预设范围，区间之间差异高于预设范围的不同类别，并达到预设类别数量；

行为频繁序列挖掘模块：在其他人员的行为序列和待检测者的历史行为序列上均进行行为频繁序列挖掘；

行为异常性判断模块：判断开发者的行为是否存在异常。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提高了开源项目的确定性，减少了项目进度风险；

2、本发明可以追溯历史数据，对过去异常数据进行标识。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1所示的是本发明的结构示意图；

图2所示的是本发明的序列长度调整的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

请参考图1，本发明通过以下技术方案实现：

一种开源社区中开发者行为的异常预测方法，主要包括：其他开发者和待检测开发者多维度行为序列的形成，行为序列数据离散化，频繁项集、频繁序列集的挖掘过程、检测序列与频繁集的距离计算，基于异常距离阈值的行为序列异常判断。

其中包括：

(1)其他开发者和待检测开发者多维度行为序列的形成

行为序列主要有次数序列、趋势序列及比例序列三种：

次数序列，由一段时间内的行为总数量表示，所有类型的行为次数序列记为X，行为j的次数序列记为C^j；

X＝{x₁，x₂，…，x_m}

趋势序列，由相邻两端时间内的行为总数变化量表示，所有类型的行为趋势序列记为X’，行为j的趋势序列记为C^j’；

X′＝{x′₁，x′₂，…，x′_m-1}

其中x’_i＝x_i+1-x_i，c’^j _i＝c^j _i+1-c^j _i

比例序列，由一段时间内某一行为的次数占这段时间内行为总数的占比表示，行为j的比例序列记为P^j；

(2)行为数据离散化

行为数据离散化中，将数据分成区间内差异小，区间之间差异大的不同类别，需要一个最大的类别数量B，行为数据的离散化具体步骤为：

S1、将每一个不同值的数据放入一个类别；

S2、找到一组差异最小的相邻类别，将这两个类别合并；

S3、重复S2，直到将数据分为B个类别。

具体实施时建议B＝3，当分箱结果小于3个时，可以添加(0，0)，(∞，∞)的类别。

(3)行为序列数上的频繁集挖掘

在其他人员的行为序列和待检测者行为的历史序列上均进行行为频繁序列挖掘。

在频繁序列挖掘时，需要一个能支持的最长序列长度或最大项数m，和一个置信度s。

在挖掘频繁项、频繁序列时，需要保证得到的频繁集中都是长度最长的项或序列，在计算与频繁集距离时不会受到频繁子项、频繁子序列的影响。频繁集挖掘过程为：

S4、首先，我们寻找在支持度为s下的m项频繁项或长度为m的频繁序列；

S5、如果这样的频繁集为空集，那么缩短项数或序列长度到m-1，引入在支持度上的惩罚项，返回在支持度为2s下的m-1项频繁项或长度为m-1的频繁序列；

S6、重复S5，直到得到支持度为(1+i)s的m-i项频繁项或长度为m-i的频繁序列；

S7、如若直到i＝m时，都没有得到频繁集，那么在支持度为s下，m项频繁项或长度为m的频繁序列为空集。

具体实施时m＝4，s＝0.1。

如图2所示，是基于最长公共子序列的序列长度调整方法。假设长度分别为m，n的离散化后的序列为X＝{x₁，x₂，…，x_m}及Y＝{y₁，y₂，…，y_n}，C＝{c₁，c₂，…，c_k}为长度为k的最长公共子序列，且C在X、Y中的位置如下：

X＝{x₁，…，x_m-k-1，c₁，x_m-k，c₂，…，c_k}

Y＝{y₁，…，y_n′，c₁，y_n′+₁，c₂，…，c_k，y_n′+2，…，y_n-k}

假设m-k+1＞n’。考虑X、Y在被C分割开的对应片段：

A、如果X、Y中对应位置一条序列中有元素，另一条没有，如在上例中{x_n’+2，…，x_n-k}的部分，则序列X对应位置填充n-k-n’-1个0；

B、如果X、Y中对应位置均有元素且长度相等，如在上例中x_{m_k}、y_n’+1的部分，则不进行填充；

C、如果X、Y中对应位置均有元素且长度不等，如在上例中x₁，…，x_m-k-1、y₁，…，y_n’的部分，则在较长序列中最大的m-k+1-n’个元素的对应位置填充0。

对于相同长度的序列或项，采用闵氏距离计算方法，对于不同长度的序列，进行基于最长公共子序列的序列长度调整方法。

(4)基于异常阈值的行为序列异常判断

判断如下三类行为异常：

行为的点异常，定义为在当前行为序列值中的不同类别行为与以往相差非常大的数据点，这需要对xⁱ，xⁱ’，形成的项与先前每一个序列值挖掘出的频繁项进行距离计算。

行为的片段异常，定义为开发者当前行为的次数序列、趋势序列、比例序列与对应序列上的频繁序列相差非常大的片段。这需要对xⁱ，xⁱ’，中每一项分别进行频繁序列挖掘，计算当前序列与频繁序列的距离。

行为的序列异常，指在同一个项目中，与其他开发者行为非常不同的开发者。这需要对该项目中每个开发者的xⁱ，xⁱ’，中每一项分别进行频繁序列挖掘，计算该开发者的当前序列与项目中所有人的频繁序列的距离。

当计算得到当前行为序列与频繁集之间的距离高于异常阈值，则为疑似异常的。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种开源社区中开发者行为的异常检测方法，其特征在于，包括：

行为异常性判断步骤：判断开发者的行为是否存在异常；

所述行为频繁序列挖掘步骤包括：

2.根据权利要求1所述的开源社区中开发者行为的异常检测方法，其特征在于，所述行为次数时间序列包括：

3.根据权利要求1所述的开源社区中开发者行为的异常检测方法，其特征在于，所述行为数据离散化步骤包括：

步骤A1：将每一个不同值的数据放入一个类别；

4.根据权利要求1所述的开源社区中开发者行为的异常检测方法，其特征在于，对于相同长度的序列或项，采用闵氏距离计算方法，对于不同长度的序列，进行基于最长公共子序列的序列长度调整，再采用闵氏距离计算。

5.根据权利要求1所述的开源社区中开发者行为的异常检测方法，其特征在于，所述行为异常性判断步骤包括：

6.根据权利要求1所述的开源社区中开发者行为的异常检测方法，其特征在于，所述开发者行为包括代码提交，代码审查和发表评论。

7.一种开源社区中开发者行为的异常检测系统，其特征在于，包括：

行为异常性判断模块：判断开发者的行为是否存在异常；

行为频繁序列挖掘包括：

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。