CN111651163B

CN111651163B - Api指令检测方法、装置

Info

Publication number: CN111651163B
Application number: CN202010356444.4A
Authority: CN
Inventors: 张静宣; 邹卫琴; 陶传奇; 黄志球
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-05-02
Anticipated expiration: 2040-04-29
Also published as: CN111651163A

Abstract

本发明公开了一种API指令检测方法、装置，所述方法包括：对API文档中的语句进行划分，得到API指令语句和普通语句；将API指令语句分别和普通语句组成多个类平衡训练子集；其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值；API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练；使用训练完成的API指令检测模型进行API指令检测。采用上述技术方案，可以有效、准确且高效率地从API文档中检测识别API指令。

Description

API指令检测方法、装置

技术领域

本发明涉及数据处理领域，尤其涉及一种API指令检测方法、装置。

背景技术

应用程序编程接口(API)类库被现代软件行业的开发人员广泛使用。开发人员必须特别注意API指令才能正确调用API编程并避免致命错误。API指令是指在API文档中描述调用API时必须满足的约束和限制的语句。但是，由于API指令在API文档中的数量非常少，而且形态各异，开发人员人工识别所有相关的API指令非常耗时且容易出错。

由于从API文档中识别API指令的任务面临两个挑战，其一是多形态挑战，针对不同的API粒度(例如，类，接口，方法和字段)，API指令从不同方面描述了API约束的不同特征和模式；其二是类不平衡挑战，API指令和非指令之间存在极不平衡的分布，API指令在API文档中占比极低，且并非所有解释单元都包含API指令。因此，现有技术中采用的技术方案难以准确地从API文档中检测识别API指令。

发明内容

发明目的：本发明旨在提供一种API指令检测方法、装置。

技术方案：本发明实施例中提供一种API指令检测方法，包括：对API文档中的语句进行划分，得到API指令语句和普通语句；将API指令语句分别和普通语句组成多个类平衡训练子集；其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值；API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练；使用训练完成的API指令检测模型进行API指令检测。

具体的，类平衡训练子集的数量是，普通语句的数量除以API指令语句的数量得到的商。

具体的，普通语句按照类平衡训练子集的数量划分为不相交的多个部分，每个部分和API指令语句组成类平衡训练子集。

具体的，所述预设的平衡数值为50％。

具体的，所述API特征标准包括以下至少一种：句法、结构和语义。

具体的，所述句法包括以下至少一种标准：情态动词、否定词、以at开头、数字、被动语态、条件句、错误句、鼓励句、比较词、复合词和继承句。

具体的，所述结构包括以下至少一种标准：粒度、位置、长度、长度比例、重要性、信息熵、前信息熵、后信息熵和相似度。

具体的，所述语义标准为语句的主题概率分布。

具体的，若待检测语句被超过预设比例的API指令检测模型认定为API指令，则所述待检测语句确认是API指令。

本发明实施例中提供一种API指令检测装置，包括：标记单元、训练集组成单元、训练单元和检测单元，其中：

所述标记单元，用于对API文档中的语句进行划分，得到API指令语句和普通语句；

所述训练集组成单元，用于将API指令语句分别和普通语句组成多个类平衡训练子集；其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值；

所述训练单元，用于API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练；

所述检测单元，用于使用训练完成的API指令检测模型进行API指令检测。

有益效果：与现有技术相比，本发明具有如下显著优点：有效、准确且高效率地从API文档中检测识别API指令。

附图说明

图1为本发明实施例中提供的API指令检测方法的流程示意图；

图2为本发明实施例中提供的API指令检测方法的模型构建和检测的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参阅图1，其为本发明实施例中提供的API指令检测方法的流程示意图，包括具体步骤。

步骤S101，对API文档中的语句进行划分，得到API指令语句和普通语句。

在具体实施中，API指令语句指包括API指令的语句，普通语句指不包括API指令的语句。

步骤S102，将API指令语句分别和普通语句组成多个类平衡训练子集。

步骤S103，API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练。

本发明实施例中，其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值。

在具体实施中，平衡数值表明API指令语句的占比和普通语句的占比相平衡，没有出现某一方所占比例的数值远远超过另一方的情形。

本发明实施例中，所述预设的平衡数值为50％。

本发明实施例中，类平衡训练子集的数量是，普通语句的数量除以API指令语句的数量得到的商。

本发明实施例中，普通语句按照类平衡训练子集的数量划分为不相交的多个部分，每个部分和API指令语句组成类平衡训练子集。

在具体实施中，按照既定计算方式确定类平衡训练子集的数量，克服类不平衡挑战，即API指令和非指令之间存在极不平衡的分布，API指令在API文档中占比极低，且并非所有解释单元都包含API指令。可以实现每个类平衡训练子集中的API指令和非指令之间平衡分布，提升作为训练集的有效训练。

在具体实施中，API指令仅占API文档中的极小部分，因此直接将API文档作为训练集，API指令和非指令之间的极端不平衡对分类器的性能有严重的负面影响，因为少数类(API指令)可能被忽略，尽管它比多数类(非指令)更重要。因此采用了“欠采样”方式进行训练集设置。

在具体实施中，欠采样方式是，给定少数训练集(即标记为API指令语句)表示为P，多数训练集(即标记为普通语句)表示为N，确定需要划分成的不相交的子集(类平衡训练子集)T的数目，等于N的数值除以P的数值；然后，从N采样T个不相交的子集{N₁，N₂，…，N_T}；接下来，将每个子集Ni与P组合成T个新子集{S₁，S₂，…，S_T}，并基于生成的新子集(类平衡训练子集)训练T个对应的分类器(API指令检测模型){C₁，C₂，…，C_T}；最后，训练完成的T个分类器可以作为欠采样的输出。

使用欠采样方式的优势在于，第一，不会丢弃任何可能有用的训练数据，可以保留所有的信息；第二，分类器(API指令检测模型)是在类平衡训练子集上训练的，因此不会被多数类(即普通语句)所淹没；第三，可以组合训练的多个分类器以对待测语句进行投票确定是否包括API指令，从而减少单个分类器的误差以实现更好的检测结果。

参阅图2，其为本发明实施例中提供的API指令检测方法的模型构建和检测的流程示意图。

在具体实施中，为了克服多形态挑战，即针对不同的API粒度(例如，类，接口，方法和字段)，API指令从不同方面描述了API约束的不同特征和模式。API指令检测模型基于API特征标准，即从类平衡训练子集中按照特定的特征进行训练学习，进行API指令语句的判定。

本发明实施例中，所述API特征标准包括以下至少一种：句法、结构和语义。

本发明实施例中，所述句法包括以下至少一种标准：情态动词、否定词、以at(@)开头、数字、被动语态、条件句、错误句、鼓励句、比较词、复合词和继承句。

本发明实施例中，所述结构包括以下至少一种标准：粒度、位置、长度、长度比例、重要性、信息熵、前信息熵、后信息熵和相似度。

本发明实施例中，所述语义标准为语句的主题概率分布。

在具体实施中，不同粒度的API指令具有不同的形态，因此采用的特征标准应度量和覆盖多种粒度以解决多形态挑战。设计和提取的多个特征来度量和刻画API文档中的语句，特征可以分为三组，即句法组，结构组和语义组。句法组试图从词汇和语法的角度来判断语句是否属于API指令语句，结构组和语义组分别度量语句的结构和语义特征，其中一些特征是布尔值，其他特征是浮点值。

句法组的特征中包括：情态动词：测量语句是否包含情态动词。包含情态动词的语句较为可能是属于API指令语句，因为API指令通常使用情态动词说明开发人员允许使用什么和不允许使用什么。

否定词：检测语句是否包含否定动词。API指令中的否定动词通常用于表示API的不允许行为，例如，非空指令和非本地一致性子类指令。

以@开头：检测语句是否以注释标记@开头，注释标记@是表示Javadoc注释的前缀。例如，“@return”用于解释方法的返回值。

数字：检测语句是否包含数字。API文档中的数字通常用于描述API必须满足的特定值或范围。

被动：检测语句是否以被动语态表达，这可以通过分析语句中单词的依赖性来检测。如果任何两个单词之间的依赖关系由“nsubjpass”(表示被动名词主语的标签)标记，则该句子被认为是被动语态。

条件句：检测线索词“if”和“whether”来检测语句是否是条件语句。条件语句通常用于指定允许开发人员使用API编程的条件。

错误句：检测语句是否包含错误描述的单词，即“error”，“bug”，“exception”，“incorrect”，“failure”，“problem”，以及“invalid”。API指令通常包括不正当调用API时可能出现的错误。

鼓励句：检测语句是否包含鼓励性词语，即“desirable”，“recommend”和“expect”。API指令通常使用鼓励性词语建议或推荐开发人员以适当的方式使用API。

比较：检测语句是包含比较级和最高级。从词性的角度讲，比较级和最高级用“JJR”(形容词比较级)，“JJS”(形容词最高级)，“RBR”(副词比较级)，“RBS”(副词最高级)来标记。

组成：检测语句是否包含复合词，这些复合词通常用于源代码和API，但很少用于自然语言。

继承：检测语句是否包含描述继承的单词，即“subclass”，“inherit”和“super”。子类化API指令通常利用这些词语来陈述子类化类时需要满足的标准。

结构组的特征中包括：粒度：检测语句属于哪个粒度，即类，接口，方法和字段。

位置：检测语句在解释单元中的位置。

长度：检测语句的单词计数。

长度比例：计算语句长度占其解释单元长度的比例。

重要性：计算语句中所有单词的词频-逆文本频率指数(TF-IDF)的总和来测量语句的重要性。TF-IDF加权方案广泛用于信息检索(IR)中以测量单词或语句的重要性。

信息熵：检测语句的信息熵。熵是信息理论中广泛使用的度量标准，用于评估消息中包含的平均信息。句子的信息熵可以按如下方式进行计算：

前信息熵：检测语句在同一解释单元之前的语句的信息熵。

后信息熵：检测语句在同一解释单元之后的语句的信息熵。

相似度：检测语句与同一解释单元中其余语句之间的余弦相似度。余弦相似度是在通过一系列自然语言处理步骤将句子表示为向量之后，内积空间中两个向量之间的夹角。

语义组的特征中包括：语义组检测语句的语义特征。可以通过使用主题模型来获取语义特征。主题模型是发现文本中潜在语义结构的方案，可以用于生成出现在文档集合中的一系列主题。主题具有更高的抽象度，因此可以提供新的角度来理解非结构化的文档。

在具体实施中，可以将API文档拆分为语句并将语句输入主题模型。因此，主题模型将为API文档生成一系列主题，并为每个语句生成主题概率分布。Stanford TMT可用于运行主题模型。可以设置生成的主题数，优选地为30。在训练完成主题模型之后，获得每个语句的主题概率分布，将生成的主题概率分布视为表征每个语句的语义特征。

步骤S104，使用训练完成的API指令检测模型进行API指令检测。

本发明实施例中，若待检测语句被超过预设比例的API指令检测模型认定为API指令，则所述待检测语句确认是API指令。

在具体实施中，训练完成的基于随机森林算法的分类器(API指令检测模型)，针对待检测语句通过投票来确定其标签(API指令语句或普通语句)。在本发明实施例中，如果不少于预设比例的分类器将待检测语句检测为API指令语句，否则，被归类为普通语句，据此确定语句标签。这种投票方案可以有效地减少误报以平衡精确率和召回率，因此可以获得更准确的检测结果。

在具体实施中，可以使用Wilcoxon符号秩检验来检测本发明实施例中提供的本发明实施例与基准方法之间的性能(即精确率，召回率和F值)的统计显著性差异。显著性水平设定为5％，意味如果p-value小于5％，则可以检测到本技术方案和基准方法的性能之间的显著性差异。

上述显示了两种方案之间的详细比较结果。在每个粒度后的括号中显示指令语句和普通语句的数量。另外，也针对三个指标说明了本发明实施例中提供的技术方案针对基准方法的提升程度。就所有评估指标而言，本发明实施例中提供的技术方案优于基准方法。例如，在commons.collections项目的混合粒度下，基准方法仅获得49.37％的精确率。相比之下，本技术方案可以达到81.25％。此外，本技术方案的平均召回率和平均F值也分别高于基准方法2.36％和11.18％。就F值而言，本技术方案优于基准方法最高达29.67％(在JFace项目的接口粒度上)。

Wilcoxon符号秩检验表明两种方法的精确率之间存在显著性差异(p-value＝0.0026)。至于召回率和F值，p-value分别为0.2078和0.0084。这意味着两种方法的精确率和F值之间存在显著性差异。结合评估指标的平均值，可以得出结论，本技术方案在统计上比基准方法表现更好。

本技术方案是基于训练学习的技术方案，可以基于训练集准确地学习API指令语句和普通语句之间的分类边界。相反，基准方法仅依赖于一组语法模式，并且不利用其他语句的有价值的信息(类标签)。其次，API指令的性质使它们在API文档中极为稀缺，采用欠采样策略来有效地处理指令和非指令之间的不平衡。第三，提取三组特征来表征每个语句，这些特征组相互配合，相互补充，以达到更好的训练学习效果，实现更加准确的API指令检测。

在具体实施中，可以使用十折交叉验证来验证本技术方案。十折交叉验证的工作原理如下。首先，基于解释单元将整个数据集以相同的粒度划分为10个相同大小的单位。在10个单位中，1个单位被视为测试集，其余9个单位被用作训练集。当每个单位被选为一次测试集并且该过程重复10次时，用10个检测结果的平均值来评估本技术方案的性能。

在评估基准方法时，可以对数据集中的每个句子依次应用已识别的语法模式集，基准方法可以决定每个语句是否是API指令。在检测完数据集中的所有语句之后，可以获得基准方法的结果。

可以引入三种评估指标，即精确率，召回率和F值，评估不同方案的性能。可以为测试集中的语句获得四种可能的结果。一个语句被检测为API指令并且它实际上是一个API指令(TP)；一个语句被检测为API指令实际上它是一个非指令(FP)；一个语句被检测为非指令实际上它是一个API指令(FN)；一个语句被检测为非指令实际上它真的是非指令(TN)。根据以上可能的输出，精确率，召回率和F值可以如下计算：

精确率测量可以用于检测API指令检测方案的准确性，召回率可以用于评估API指令检测方案的完整性，F值是综合考虑精确率和召回率的综合指标，因为精确率和召回率之间存在权衡。

本发明实施例中还提供一种API指令检测装置，包括：标记单元、训练集组成单元、训练单元和检测单元，其中：

本发明实施例中，所述训练集组成单元，用于普通语句按照类平衡训练子集的数量划分为不相交的多个部分，每个部分和API指令语句组成类平衡训练子集。

本发明实施例中，所述预设的平衡数值为50％。

本发明实施例中，所述句法包括以下至少一种标准：情态动词、否定词、以at开头、数字、被动语态、条件句、错误句、鼓励句、比较词、复合词和继承句。

本发明实施例中，所述语义标准为语句的主题概率分布。

本发明实施例中，所述检测单元，用于若待检测语句被超过预设比例的API指令检测模型认定为API指令，则所述待检测语句确认是API指令。

Claims

1.一种API指令检测方法，其特征在于，包括：

对API文档中的语句进行划分，得到API指令语句和普通语句；

将API指令语句分别和普通语句组成多个类平衡训练子集；其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值；

API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练；所述API特征标准包括以下至少一种：句法、结构和语义；所述句法包括以下至少一种标准：情态动词、否定词、以at开头、数字、被动语态、条件句、错误句、鼓励句、比较词、复合词和继承句；所述结构包括以下至少一种标准：粒度、位置、长度、长度比例、重要性、信息熵、前信息熵、后信息熵和相似度；所述语义标准为语句的主题概率分布；

使用训练完成的API指令检测模型进行API指令检测。

2.根据权利要求1所述的API指令检测方法，其特征在于，所述将API指令语句分别和普通语句组成多个类平衡训练子集，包括：

类平衡训练子集的数量是，普通语句的数量除以API指令语句的数量得到的商。

3.根据权利要求2所述的API指令检测方法，其特征在于，所述将API指令语句分别和普通语句组成多个类平衡训练子集，包括：

普通语句按照类平衡训练子集的数量划分为不相交的多个部分，每个部分和API指令语句组成类平衡训练子集。

4.根据权利要求2所述的API指令检测方法，其特征在于，所述预设的平衡数值为50％。

5.根据权利要求1所述的API指令检测方法，其特征在于，使用训练完成的API指令检测模型进行API指令检测，包括：

若待检测语句被超过预设比例的API指令检测模型认定为API指令，则所述待检测语句确认是API指令。

6.一种API指令检测装置，其特征在于，包括：标记单元、训练集组成单元、训练单元和检测单元，其中：

所述训练单元，用于API指令检测模型基于API特征标准，以类平衡训练子集作为训练集进行训练；所述API特征标准包括以下至少一种：句法、结构和语义；所述句法包括以下至少一种标准：情态动词、否定词、以at开头、数字、被动语态、条件句、错误句、鼓励句、比较词、复合词和继承句；所述结构包括以下至少一种标准：粒度、位置、长度、长度比例、重要性、信息熵、前信息熵、后信息熵和相似度；所述语义标准为语句的主题概率分布；