CN109933660B - 面向自然语言形式基于讲义和网站的api信息检索方法 - Google Patents
面向自然语言形式基于讲义和网站的api信息检索方法 Download PDFInfo
- Publication number
- CN109933660B CN109933660B CN201910228664.6A CN201910228664A CN109933660B CN 109933660 B CN109933660 B CN 109933660B CN 201910228664 A CN201910228664 A CN 201910228664A CN 109933660 B CN109933660 B CN 109933660B
- Authority
- CN
- China
- Prior art keywords
- api
- handout
- natural language
- answer
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息检索领域,公开了一种面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法,构建API与知识项的API‑KI库;API‑KI库包含API与讲义段的API‑段对、API与问答帖的API‑Q&A对,并进行提取;对自然语言形式的提问进行分析,获取与问题对应的潜在API;使用相关性鉴别模型TDML对相关的API‑KI对进行鉴别;将潜在API与相关的API‑KI对匹配生成候选列表,并根据排序策略对候选列表进行降序排列,最后返回排序后的API‑KI列表作为问题的解答。本发明提出的检索方法整合了API讲义和SO的信息,有效提高了检索精度,并能为开发者提供更多更有用的API相关知识。
Description
技术领域
本发明属于信息检索领域,尤其涉及一种面向自然语言形式的基于讲义和StackOverflow的API信息检索方法。
背景技术
目前,业内常用的现有技术是这样的:
现有的方法大多基于全文检索,比如利用基于VSM的Lucene全文检索引擎包,直接根据自然语言问题在文档库中进行关键词的检索和匹配,以及使用基于神经网络的Word2Vec词向量模型可以很好的挖掘词之间的上下文关系,因此可以先将问题和文档分别进行词向量表示,再根据两者之间的相似性返回结果。除此之外,CK方法则利用了源码中软件领域的概念知识,通过提取API图谱进行API相关文档推荐。
开发者们通常使用API来加速软件开发进程或提高软件质量。但随着API库规模的扩大和API数目的增加,开发者们往往会遇到不熟悉的API或是新的API库。此时,他们需要知道用什么API和怎样使用它们,而现实中一些学习资料和论坛比如API讲义和StackOverflow(SO)能够帮助查找和使用API。前者整合了用于解释API的文字描述和代码实例,并按编程任务进行分组。后者是一个供开发者们学习和分享编程知识的问答(Q&A)网站,汇集的大量问答帖可以被认为是群智的一种,作为官方文档(比如API讲义)的补充。有研究表明,API讲义能够帮助开发者们理解泛型编程环境中API的某些行为,而SO中的问答帖则倾向于对特定编程环境中的API用法进行解释,将两者结合能够提供更多类型的API相关信息。
现有的方法不能为开发者们同时提供两种资料上的API相关信息检索。为了尽快的使用多种资料对API进行熟悉,开发者们不得不使用SO自带的搜索引擎检索所需的API或浏览相关的问答帖人工对有用的API进行识别,或是使用先进的API讲义推荐工具(例如FRAPT)查找API相关的讲义片段,两个过程往往不能同步进行。这样的检索方法不仅效率不高,而且将两种资料分开处理可能导致返回的结果不相关。
另一个影响检索精度的因素是问题的质量。例如,SO的搜索引擎关于某个问题会返回大量问答帖,问题中包含的API名称和关键词有助于提升问答帖的相关度。但实际应用中,开发者们有可能对能够使用什么API不了解,也不知道具体的API名称,这种情况下,他们会将与API相关的问题用自然语言描述,而SO返回的问答帖和API就需要人工进一步筛选。
综上所述,现有技术存在的问题是:
(1)现有的方法不能为开发者们同时提供两种资料上的API相关信息检索。比如FRAPT方法只提供API讲义的推荐,或是根据Stack Overflow的搜索引擎进行检索。检索方法不仅效率不高,而且将两种资料分开处理可能导致返回的结果不相关。
(2)现有的方法没有深入挖掘提问语义层的信息,基于关键字匹配的方法容易造成大量有用信息的丢失,最终导致检索精度的损失。特别是在自然语言形式下,提问可能并不直接包含API名称,直接计算问题和文档之间关键词相关度的方法如VSM只能利用了极少的文字信息。
(3)现有的方法不能构建同时包含API讲义和Stack Overflow上问答帖知识项库。两种信息之间不但具有互补性,例如讲义提供了更多关于类型,功能等概念类型的信息,而Stack Overflow上公布了更多关于控制流、结构和代码示例等信息,而且具有高度的异构性。已有的方法不能将信息进行融合,只能判断单一数据来源与API的相关性,构造单一的知识项库,不能为API提供更全面,准确的信息推荐。
解决上述技术问题的难度:
对于自然语言形式的提问,如何对语义层次的信息进行深入挖掘,特别是在问题中并未显示提及API名称时,仅根据提问者关于功能或其他特征的描述,得到潜在的相关API。
如何同时建立API与两种异构知识项的相关关系。由于讲义和Stack Overflow网站上能够较小重叠的对API的相关问题进行解答,意味着两者融合能够为提问的开发者更丰富更全面的API相关信息,因此需要将两种信息来源的知识项作为整体,在同一个检索空间内进行推荐。
API相关信息推荐的结果往往是相关文档按照排序结果,依次进行推荐。排序策略对推荐的准确率有着不可忽视的影响,所以应考虑如何设计排序策略使其更好的刻画文档的相似程度。
解决上述技术问题的意义:
能够更好地理解开发者自然语言形式的关于API的提问,从问题中挖掘语义层次的潜在API,并将其作为连接问题与候选文档库之间相似性的重要中间项。
融合了两种API相关信息的知识项,不仅包含API讲义知识,还包含了来自StackOverflow网站上的与API相关的问答帖知识,包含这两类信息的检索空间能够考虑到多种来源上的API相关信息,对知识项进行特征提取,主成分分析,以及度量学习,能够使两者充分融合,更好的解决开发者对于API的疑问。
排序策略能够刻画问题与API,问题与知识项,API与知识项三者之间的相似度关系,通过API建立问题与知识项之间的相似度的方法,能够消除两者之间的语义鸿沟。合理的排序规则能够根据提问筛选出更加相关的知识项信息,使得相关度越高的信息排在越靠前的位置,也越早被推荐,从而提升推荐的准确率。
发明内容
针对现有技术存在的问题,本发明提供了一种面向自然语言形式的基于讲义和Stack Overflow的API信息检索方法。本发明基于迁移的深度度量学习同时利用API讲义和SO问答帖两种不同的学习资料,不仅提高了检索准确率,还能为开发者提供多种API相关的信息。
本发明是这样实现的,
一种面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法包括以下步骤:
步骤一,构建API与知识项API-KI的库;API-KI库包含API与讲义段API-段对、API与问答帖API-Q&A知识,并进行提取;
步骤二,对自然语言形式的提问进行分析,获取与问题相应的潜在API;
步骤三,使用相关性鉴别模型TDML对相关的API-KI对进行鉴别;
步骤四,使用步骤二的潜在API在相关的API-KI对中挑选并生成候选列表,候选列表由生成的潜在API和相关的API-KI对匹配得到,选择API与潜在API相同的相关API-KI对作为问题的候选结果。
进一步,步骤一中,从API讲义中提取API-段对包括:
对API讲义划分为多个段,每段内容紧密相关并集中于某一个主题;采用相同的分段策略,提取<href>标签中的内容来获取该段的API,将API与对应段相连结为API-段对;对于没有被<href>标签链接的API,将段打散为多个标记,并使API与每个词相匹配,从匹配的上下文中根据关键词查找API,同样生成API-段对;
从SO问答帖中提取API-Q&A对包括:根据问题的标签收集与API相关的问答帖;
构造正例时,挑选的问答对中所提问题包括至少三个回答且有一个被接受的回答作为最终结果;被接受的问题包含代码;将回答中的代码进行分词处理,并与该问题标签类的讲义中的各API进行匹配,得到问答帖对应的API;正例API-Q&A对标记为相关。
未被接受的答案中的API由于不能很好地解决该问题,API与问答对组成API-Q&A对的负例;构造负例时,收集含有未接受回答的问题;每个未接受回答的分数小于0;提取未接受回答中的API,并与问答对组成API-Q&A对的负例;随机选取的负例数目和正例相同,负例API-Q&A对标记为不相关。
进一步,步骤二中,先将问题转化为数个潜在的API,再用API检索相关文档;使用Javadoc对自然语言问题进行分析并转化为潜在的API,具体包括:
Jsoup从在线文档中提取API相应的Javadoc;提取出的API规范包括API全称和API描述;
Word2Vec对问题、API全称、API描述三种语料进行训练,得到语料库中每个词的词向量;再分别计算各文档中向量的均值,整个文档的向量,vi表示第i个文档向量;
vq作为自然语言形式问题的向量;和分别作为第i个API全称;表示vq和之间的余弦相似性,表示vq和之间的余弦相似性;
将和降序排列,选择API描述和API全名相似性排名前m的API作为初始的API候选,分别用APId和APIn表示;同时出现在这两个集合中的API更有可能成为潜在的API;将API分为子集1、子集2、子集3,然后使用公式1为每个候选API打分;子集1为同时出现在APId和APIn中的API,子集2为只出现在的APId中的API,子集3为只出现在APIn中的API;η作为调整因子用来确保子集1的分数要比其他子集高;η为0.1;
公式(1)遵循两个规则:子集1中的API要比其他子集中的API排名高;相似度值高的API要比相似度值低的API排名更高;
对三个子集中的所有API的分数进行排序,选择m个最高的分数对应的API作为潜在API列表;m值为20。
进一步,步骤三中,基于迁移的深度度量学习方法TDML对相关的API-KI对进行鉴别包括:
为API-段对的训练集,xiT为第i个带标签的API-段对样本,NT是API-KI库中API-段对的数;
为API-Q&A对的训练集,包含NS的API-Q&A对,其中xiS为第i个带标签的API-SO对样本;X=[x1,...,xi,...,xN]为API-KI对的总集合,其中X是既包含API-段对又包含API-Q&A对的N个API-KI对集合,xi表示第i个带标签的API-KI对;
将XT和XS映射至共同的特征空间,同时两者的分布也会趋于相似;生成的特征空间使非线性相关系数最大化,非线性相关系数如下:
其中cov(·)表示协方差,var(·)表示自方差,(·)T表示矩阵的转置;和φ(XS)表示两个非线性映射,将XT和XS映射至非线性的特征空间中;WT和WS分别为投影方向;公式(2)使用不完全的Cholesky分解计算求得的投影方向WT和WS使得和φ(XS)分别投影至相同的特征空间,并且映射后的样例和WSφ(XS)相关性最大;X′表示X映射后的新的训练样本集合,包含新的XT′即和新的XS′即WSφ(XS);
将新的训练集X′作为TDML的输入,其中TDML为一个三层的深度神经网络,包括输入层、隐藏层和输出层,对应神经节点的数量分别为d,d-1和d-3;对于输入的x′,经过前向传播,在第m层的输出为:
其中f(m)(x′)为由第m层的权重矩阵W(m)和偏差b(m)决定;为激活函数,此处为tanh函数;深度神经网络学习到所有的权重W(m)和偏差b(m);输入层设置h(0)=x′;
基于极小极大原理,TDML将同时最小化类内API-KI对的距离以及最大化类间API-KI对的距离;输出层的目标函数为:
其中g(W(m),b(m),X′)为判定项,γ(γ>0)为可调的正归一化参数;||·||F表示Frobenius范数;判定项g(W(m),b(m),X′)如下:
其中若xj′为xi′的k1个类内最近邻,Pij为1,否则为0;若xj′为xi′的k2个类间最近邻,Qij为1,否则为0;α(α>0)作为类内耦合和类间分散的重要性平衡参数;
将公式(5)带入,将TDML方法的目标函数(4)整理为:
公式(4)通过梯度下降的方法计算最优权重矩阵W(m)和偏差b(m);此处k1、k2、α和γ经验性的设置为(27,45)、(5,10)、0.1和0.1;
根据学习到的权重矩阵W(m)和偏差b(m),鉴别相关API-KI对首先根据W(m)和b(m),计算公式(3)中f(m)(x′),然后通过公式计算xi′和xj′之间的距离,并对相关的API-KI对进行鉴别。
进一步,步骤四中,候选列表中API-KI对与所提与API相关自然语言形式问题越相关,在返回的最终列表中的排名越高;基于三种相似度和评估相关的API-KI对是否与问题有关,提问与第i个可能的结果之间总相似度Ci计算公式如下:
其中是问题和潜在API之间的相似度,值由公式(1)计算;表示潜在API与API-KI对的语义相似度;表示问题与API-KI对的语义相似度,值由Word2Vec和余弦相似度计算;
根据总的相似度Ci对候选列表中的结果进行降序排序,排序后的API-KI列表将作为问题的解答返回给开发者,相似度越高的API-KI对在最终返回的列表中排名也将越高。
本发明的另一目的在于提供一种实现所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法的计算机程序。
本发明的另一目的在于提供一种终端,所述终端搭载实现所述基于讲义和StackOverflow的API相关信息检索方法的信息处理器。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法。
本发明的另一目的在于提供一种实现所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法的面向自然语言形式问题的基于讲义和StackOverflow的API相关信息检索系统。
本发明的另一目的在于提供一种实现所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法的面向自然语言形式问题的基于讲义和StackOverflow的API相关信息检索网络平台。
综上所述,本发明的优点及积极效果为:
本发明该方法构造了以API相关的讲义段和SO论坛上的问答帖为知识项(KI)的库,并根据自然语言形式的问题在库中进行API相关知识项的检索,后者包括自然语言问题的分析、API相关知识项(KI)的识别和API相关知识项的检索三个步骤。其中:
本发明对自然语言形式的问题从语义层次上进行分析,深度挖掘了问题中的潜在API,利用词向量模型与API全称和描述两方面匹配,能够更好地理解问题中上下词的关系,提供更加深度,有效的API相关信息搜索。
本发明设计了一种基于迁移的深度度量学习方法TDML用于KI的识别,能够同时在知识库中预测两种异源知识项与API的相关性,并通过神经网络学习样本之间的距离度量,使得相关的API-KI类尽可能靠近,不相关的API-KI类尽可能远离,既缩小了异构数据之间的鸿沟,又增加了数据本身对于相关性的鉴别性。
本发明提出的检索方法整合了API讲义和Stack Overflow网站的问答信息,有效提高了检索精度,基于两种来源信息具有良好的互补性和较小的重叠性,基于排序策略的检索结果,能确保为开发者提供高效、精确的API相关知识。
本发明包含改进自然语言形式问题的分析、基于TDML的相关性鉴别和排序策略三个阶段的PLAN方法能够取得比最先进的检索方法更好的结果。
为了对PLAN与其他相关方法之间的差异性进行评估,使用威尔科克森符号秩检验计算统计显著性。当返回的API-KI对的结果数为5,10,15时,计算得到的p值都少于0.03,证明使用本发明所提PLAN方法能够在P@k和MRR指标上取得检索效率的提升。
附图说明
图1是本发明实施例提供的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法流程图。
图2是本发明实施例提供的基准方法和发明所提PLAN在两个API-KI库上的平均结果图。
图3是本发明方法PLAN在真实场景下使用时提交问题和返回的结果列表的示例图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有的方法不能为开发者们同时提供两种资料上的API相关信息检索。检索方法不仅效率不高,而且将两种资料分开处理可能导致返回的结果不相关。
现有技术检索中,SO返回的问答帖和API就需要人工进一步筛选。
为解决上述技术问题,下面结合具体方案对本发明作详细描述。
如图1所示,本发明实施例提出的面向自然语言形式问题的基于讲义和StackOverflow的API相关信息检索方法包括以下步骤:
步骤1、构建API与知识项(即API-KI)的库。API-KI库包含API与讲义段(API-段对)、API与问答帖(API-Q&A)两种知识,需要分别提取。
步骤2、对自然语言形式的提问进行分析,找出与问题相应的潜在API。
步骤3、使用相关性鉴别模型(TDML)对相关的API-KI对进行鉴别。由于从知识项提取出的API并不一定与知识项相关,所以在根据潜在API进行检索之前,需要挑选出API与知识项相关的对作为检索库。
步骤4、使用步骤2的潜在API在相关的API-KI对中挑选并生成候选列表,候选列表由前两个步骤分别生成的潜在API和相关的API-KI对匹配得到,选择API与潜在API相同的相关API-KI对作为问题的候选结果。
下面结合
在本发明实施例的步骤1中,从API讲义中提取API-段对。首先,为了帮助开发者高效地查找与API相关的有用信息,检索结果简洁、有用,API讲义被划分为多个段,每段内容紧密相关并集中于某一个主题。本发明方法采用分段策略,即先将讲义分为若干自然段落,再逐步将段落集中成为特定长度(100到300词)的段。由于大多数讲义遵循W3C准则,即讲义段存储在HTML文件中,而API通常被链接在HTML的<href>标签中,因此可以通过提取<href>标签中的内容来获取该段的API,进而将API与对应段相连结为API-段对。对于没有被<href>标签链接的API,则将段打散为多个标记,这里标记可以为词,并使API与每个词相匹配,然后从匹配的上下文中根据关键词(如class,interface等)查找API,同样生成API-段对。
从SO问答帖中提取API-Q&A对。由于SO采用标签机制,因此可以根据问题的标签收集与API相关的问答帖。例如带#jodatime标签的问题可能与Java集的Jodatime子集中的某个API有关。在SO中,提出的问题往往是对编程任务需求的描述,被提问者接受的回答中的API被认为是该问题的一个有效解答,即问题与被接受回答组成的问答对表示一个特定编程任务下的与某个API相关的信息。从而被接受答案的代码中提取的API与该问答对组成API-Q&A对的正例。
构造正例时,挑选的问答对中所提问题包括至少3个回答且有一个被接受的回答作为最终结果,这样能够保证该问题是经过充分考虑并被成功解决的;被接受的问题应包含代码,方便API提取;将回答中的代码进行分词处理,并与该问题标签类的讲义中的各API进行匹配,最后得到问答帖对应的API。正例API-Q&A对标记为相关。
相应地,未被接受的答案中的API由于不能很好地解决该问题,API与问答对组成API-Q&A对的负例。构造负例时,收集含有未接受回答的问题;每个未接受回答的分数必须小于0,这样才能保证低质量未接受回答的确缺少API的相关解释;与构造正例类似,提取未接受回答中的API,并与问答对组成API-Q&A对的负例。随机选取的负例数目和正例相同,负例API-Q&A对标记为不相关。
在本发明实施例的步骤2中,步骤2、对自然语言形式的提问进行分析,找出与问题相应的潜在API。开发者往往以自然语言的形式提出与API相关的问题,而这些自然语言形式的问题和API文档之间存在着较大的语义鸿沟,直接检索的结果往往不理想。所以需要先将问题转化为数个潜在的API,再用API检索相关文档。API作为特定的软件概念,有助于减少自然语言形式的问题与API文档之间的差异。
这里使用Javadoc对自然语言问题进行分析并将它们转化为潜在的API。Jsoup能够从在线文档中提取API相应的Javadoc(例如JodaTime的Javadoc能够从JodaTime的在线文档中获取)。提取出的API规范包括API全称和API描述。对问题、API全称和API描述首先使用自然语言处理中常用的方法进行预处理,即分词、去停用词和词干化。
Word2Vec对问题、API全称、API描述三种语料进行训练,得到语料库中每个词的词向量。再分别计算各文档中向量的均值,即整个文档的向量,vi表示第i个文档向量。
相应的,vq作为自然语言形式问题的向量。和分别作为第i个API全称的和它的描述。表示vq和之间的余弦相似性,表示vq和之间的余弦相似性。
将和降序排列,选择API描述和API全名相似性排名前m的API作为初始的API候选,分别用APId和APIn表示。一般同时出现在这两个集合中的API更有可能成为潜在的API。因此将API分为3个子集(子集1:同时出现在APId和APIn中的API,子集2:只出现在的APId中的API,子集3:只出现在APIn中的API)然后使用公式1为每个候选API打分。η作为调整因子用来确保子集1的分数要比其他子集高。这里将η设定为0.1。
公式(1)遵循了两个规则:子集1中的API要比其他子集中的API排名高。相似度值高的API要比相似度值低的API排名更高。
最后,对三个子集中的所有API的分数进行排序,选择m个最高的分数对应的API作为潜在API列表。这里m值为20。识别潜在的API能够帮助自然语言形式的问题和潜在API文档在语义上进行对应和理解,而使用word2vec则充分考虑语料上下词之间的联系,更好地表现他们在语义层面的关系。
在本发明实施例的步骤3中,步骤3、使用相关性鉴别模型(TDML)对相关的API-KI对进行鉴别。由于从知识项提取出的API并不一定与知识项相关,所以在根据潜在API进行检索之前,需要挑选出API与知识项相关的对作为检索库。
与一般的机器学习方法相比,深度度量学习能够更好的解决API-KI对是否相关这样一个二分类问题。由步骤1构造API-KI对的检索库可知,检索库中存在两种不同的API-KI对,即API-段对和API-Q&A对。它们的类型、特征数量和特征向量的数量不尽相同。以JodaTime为例,API-段对的特征向量的维度为17,API-Q&A对的维度为21;API-段对的数量为68,而API-Q&A对的数量为124等等。迁移学习则能够将两种不同类型的训练数据映射至同一空间中同时进行考虑和比较。其中文献41所述代价敏感的迁移核典型相关分析CTKCCA方法在此应用场景下有出色的表现。采用23个特征度量分别对这两种待学习的数据进行特征提取,使得相关性鉴别模型能顾直接训练包含两种不同维度特征的API-KI对。
基于上述方法,本发明设计了基于迁移的深度度量学习方法(TDML)对相关的API-KI对进行鉴别。假设为API-段对的训练集,xiT为第i个带标签的API-段对样本,NT是API-KI库中API-段对的数量。同样的为API-Q&A对的训练集,包含NS的API-Q&A对,其中xiS为第i个带标签的API-SO对样本。X=[x1,...,xi,...,xN]为API-KI对的总集合,其中X是既包含API-段对又包含API-Q&A对的N个API-KI对集合,xi表示第i个带标签的API-KI对。
在CTKCCA模型维度参数的基础上,将XT和XS映射至共同的特征空间,同时两者的分布也会趋于相似。生成的特征空间需要使得非线性相关系数最大化,非线性相关系数的定义如下:
其中cov(·)表示协方差,var(·)表示自方差,(·)T表示矩阵的转置。和φ(XS)表示两个非线性映射,能够将XT和XS映射至非线性的特征空间中。WT和WS分别为投影方向。例如,aT和aS分别为API-段对和API-Q&A对的投影变换。公式(2)使用不完全的Cholesky分解计算。求得的投影方向WT和WS使得和φ(XS)分别投影至相同的特征空间,并且映射后的样例和WSφ(XS)相关性最大。X′表示X映射后的新的训练样本集合,包含新的XT′即和新的XS′即WSφ(XS)。
将新的训练集X′作为TDML的输入,其中TDML为一个三层的深度神经网络,包括输入层、隐藏层和输出层,对应神经节点的数量分别为d,d-1和d-3。对于输入的x′,经过前向传播,在第m层的输出为:
其中f(m)(x′)为由第m层的权重矩阵W(m)和偏差b(m)决定。为激活函数,此处为tanh函数。最终,深度神经网络学习到所有的权重W(m)和偏差b(m)。输入层设置h(0)=x′。
基于极小极大原理,TDML将同时最小化类内API-KI对的距离(例如同属相关的API-KI对或同属不相关的API-KI对)以及最大化类间API-KI对的距离(例如相关和不相关的API-KI对)。输出层的目标函数为:
其中g(W(m),b(m),X′)为判定项,γ(γ>0)为可调的正归一化参数。||·||F表示Frobenius范数。判定项g(W(m),b(m),X′)定义如下:
其中若xj′为xi′的k1个类内最近邻,Pij为1,否则为0。若xj′为xi′的k2个类间最近邻,Qij为1,否则为0。α(α>0)作为类内耦合和类间分散的重要性平衡参数。
将公式(5)带入,将TDML方法的目标函数(4)整理为:
公式(4)可以通过梯度下降的方法计算最优权重矩阵W(m)和偏差b(m)。此处k1、k2、α和γ经验性的设置为(27,45)、(5,10)、0.1和0.1。
根据学习到的权重矩阵W(m)和偏差b(m),鉴别相关API-KI对首先根据W(m)和b(m),计算公式(3)中f(m)(x′),然后通过公式计算xi′和xj′之间的距离,并对相关的API-KI对进行鉴别。
在本发明实施例的步骤4中,使用步骤2的潜在API在相关的API-KI对中挑选并生成候选列表,候选列表由前两个步骤分别生成的潜在API和相关的API-KI对匹配得到,选择API与潜在API相同的相关API-KI对作为问题的候选结果。
候选列表中API-KI对与所提与API相关自然语言形式问题越相关,其在返回的最终列表中的排名越高。为了评估相关的API-KI对是否与问题有关,基于三种相似度和提问与第i个可能的结果之间总相似度Ci计算公式如下:
其中是问题和潜在API之间的相似度,值由公式(1)计算;表示潜在API与API-KI对的语义相似度;表示问题与API-KI对的语义相似度,值由Word2Vec和余弦相似度计算;
最后,根据总的相似度Ci对候选列表中的结果进行降序排序,排序后的API-KI列表将作为问题的解答返回给开发者,相似度越高的API-KI对在最终返回的列表中排名也将越高。
下面结合效果对本发明作进一步描述。
首先,本发明对所提方法在关于API的自然语言形式问题的检索高效性进行了验证。
待检索的270个自然语言形式的问题都取自真实应用场景,且都为McGill库和Android库中关于API的函数功能、概念和目标的提问(例如,关于Joda-Time中Period、Interval和Duration的区别)以及关于API的控制流、结构和模式(例如,怎样使用smack给多用户聊天室的所有人发送信息)的提问等等。
对比方法包括一些典型的检索方法Lucene、W2V、CK和先进的检索方法SOTU。
实验使用检索结果前k项的准确度P@k和MRR作为评价指标,这里k分别取5,10,20。
表1 McGill库中基准方法和PLAN分别在P@k和MRR上的结果
表2 Android库中基准方法和PLAN分别在P@k和MRR上的结果
表1和表2的实验结果显示,本发明所提方法PLAN能够在所有评价指标上都优于基准方法。特别在Math和Graphics库上,PLAN能够分别达到最优P@5值48.00%和43.33%,以及在Math和Graphics库上,能够达到最优MRR值71.70%和55.62%。
图2为各方法在McGill库和Android库中的平均结果。与改进后的检索方法CK相比,PLAN在McGill库上,分别将P@5和MRR平均提高了16.80%(37.20%-20.40%)和13.51%(53.16%-39.66%);PLAN在Android库上,分别将P@5和MRR平均提高了14.33%(30.17%-15.84%)和14.45%(47.79%-33.34%)。与SOTU的比较结果显示,PLAN在McGill库上,分别将P@5和MRR平均提高了11.33%(37.20%-25.87%)和12.21%(53.16%-40.96%);在PLAN在Android库上,分别将P@5和MRR平均提高了8.33%(30.17%-21.84%)和9.78%(47.79%-38.01%)。
在本发明实施例中,包含改进自然语言形式问题的分析、基于TDML的相关性鉴别和排序策略三个阶段的PLAN方法能够取得比最先进的检索方法更好的结果。
为了对PLAN与其他相关方法之间的差异性进行评估,使用威尔科克森符号秩检验计算统计显著性。当返回的API-KI对的结果数为5,10,15时,计算得到的p值都少于0.03,证明使用本发明所提PLAN方法能够在P@k和MRR指标上取得检索效率的提升。
其次,验证本发明基于多种信息源的知识库,能够在检索性能上优于仅基于单一信息源的知识库。
分别在讲义知识项、Stack Overflow问答帖知识项和包含前两种知识项的三个不同知识库上进行检索,待验证的方法仍然是本发明方法PLAN和其他四种对比方法Lucene、W2V、CK和SOTU,并用“方法”加“使用的知识库”表示,比如“PLAN-TU”表示基于讲义知识项库的PLAN方法。最后P@k和MRR作为评价指标,在McGill库和Android库上的实验结果如表3和表4所示。不同知识库被同一种方法检索后得到的评价指标的最优值加粗显示。
表3McGill数据库上各方法基于不同知识库的P@k和MRR结果
表4Android数据库上各方法基于不同知识库的P@k和MRR结果
表3和表4上的结果表明,比如与PLAN-TU和PLAN-SO相比,PLAN方法的P@5指标在McGill库上分别提升了13.47%(37.20%-23.73%)和9.60%(37.20%-27.60%),在Android库上分别提升了15.17%(30.17%-15.00%)and 4.78%(30.17%-25.39%)。同样地,PLAN方法的MRR指标在McGill库上提升了9.33%(53.16%-43.84%)和7.60%(53.16%-45.57%),在Android库上分别提升了16.24%(47.79%-31.55%)and 4.98%(47.79%-42.80%)。
下面结合使用本发明方法PLAN进行API相关信息推荐的示例对本发明作进一步描述。
图3表示使用本发明方法PLAN进行API相关信息推荐的示例。在这个示例中,开发者提出了一个时间计算的API相关的问题,问题由自然语言表述为“How are timescalculated internally”。提交后,PLAN会返回一个API和与其相关知识项的列表,表中的每条信息由推荐的API的名称和描述该API的知识项组成。开发者可以依次浏览每一条的内容,快速得到符合其问题的解。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法,其特征在于,所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法包括以下步骤:
步骤一,构建API与知识项的API-KI库;API-KI库包含API与讲义段的API-段对、API与问答帖的API-Q&A对,并进行提取;
步骤二,对自然语言形式的提问进行分析,获取与问题相应的潜在API;
步骤三,基于迁移的深度度量学习方法TDML对相关的API-KI对进行鉴别;
为API-讲义段对的训练集,xiT为第i个带标签的API-讲义段对样本,NT是API-KI库中API-讲义段对的数目;
为API-Q&A对的训练集,包含NS的API-Q&A对,其中xiS为第i个带标签的API-Q&A对样本;X=[x1,…,xi,…,xN]为API-KI对的总集合,其中X是既包含API-讲义段对又包含API-Q&A对的N个API-KI对集合,xi表示第i个带标签的API-KI对;
将XT和XS映射至共同的特征空间,同时两者的分布也会趋于相似;生成的特征空间使非线性相关系数最大化,非线性相关系数如下:
其中cov(·)表示协方差,var(·)表示自方差,(·)T表示矩阵的转置;和φ(XS)表示两个非线性映射,将XT和XS映射至非线性的特征空间中;WT和WS分别为投影方向;公式(2)使用不完全的Cholesky分解计算求得的投影方向WT和WS使得和φ(XS)分别投影至相同的特征空间,并且映射后的样例和WSφ(XS)相关性最大;X′表示X经过映射后的新的训练样本集合,包含新的XT′即和新的XS′即WSφ(XS);
将新的训练集X′作为TDML的输入,其中TDML为一个三层的深度神经网络,包括输入层、隐藏层和输出层,对应神经节点的数量分别为d,d-1和d-3;对于输入的x′,经过前向传播,在第m层的输出为:
其中f(m)(x′)为由第m层的权重矩阵W(m)和偏差b(m)决定;为激活函数,此处为tanh函数;深度神经网络学习到所有的权重W(m)和偏差b(m);输入层设置h(0)=x′;
基于极小极大原理,TDML将同时最小化类内API-KI对的距离以及最大化类间API-KI对的距离;输出层的目标函数为:
其中g(W(m),b(m),X′)为判定项,γ(γ>0)为可调的正归一化参数;||·||F表示Frobenius范数;判定项g(W(m),b(m),X′)如下:
其中若xj′为xi′的k1个类内最近邻,Pij为1,否则为0;若xj′为xi′的k2个类间最近邻,Qij为1,否则为0;α(α>0)作为类内耦合和类间分散的重要性平衡参数;
将公式(5)带入,将TDML方法的目标函数(4)整理为:
公式(4)通过梯度下降的方法计算最优权重矩阵W(m)和偏差b(m);此处k1、k2、α和γ经验性的设置为(27,45)、(5,10)、0.1和0.1;
根据学习到的权重矩阵W(m)和偏差b(m),鉴别相关API-KI对首先根据W(m)和b(m),计算公式(3)中f(m)(x′),然后通过公式||f(2)(xi′)-f(2)(xj′)||22计算xi′和xj′之间的距离,并对相关的API-KI对进行鉴别;
步骤四,将潜在API与相关的API-KI对匹配生成候选列表,并根据排序策略对候选列表进行降序排列,最后返回排序后的API-KI列表作为问题的解答。
2.如权利要求1所述的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法,其特征在于,步骤一中,从API讲义中提取API-段对包括:
对API讲义划分为多个段,每段内容紧密相关并集中于某一个主题;采用相同的分段策略,提取<href>标签中的内容来获取该段的API,将API与对应段相连结为API-段对;对于没有被<href>标签链接的API,将段打散为多个标记,并使API与每个词相匹配,从匹配的上下文中根据关键词查找API,同样生成API-段对;
从SO问答帖中提取API-Q&A对包括:根据问题的标签收集与API相关的问答帖;
构造正例时,挑选的问答对中所提问题包括至少三个回答且有一个被接受的回答作为最终结果;被接受的问题包含代码;将回答中的代码进行分词处理,并与该问题标签类的讲义中的各API进行匹配,得到问答帖对应的API;正例API-Q&A对标记为相关;
未被接受的答案中的API由于不能很好地解决该问题,API与问答对组成API-Q&A对的负例;构造负例时,收集含有未接受回答的问题;每个未接受回答的分数小于0;提取未接受回答中的API,并与问答对组成API-Q&A对的负例;随机选取的负例数目和正例相同,负例API-Q&A对标记为不相关。
3.如权利要求1所述的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法,其特征在于,步骤二中,先将问题转化为数个潜在的API,再用API检索相关文档;使用Javadoc对自然语言问题进行分析并转化为潜在的API,具体包括:
Jsoup从在线文档中提取API相应的Javadoc;提取出的API规范包括API全称和API描述;
Word2Vec对问题、API全称、API描述三种语料进行训练,得到语料库中每个词的词向量;再分别计算各文档中向量的均值,整个文档的向量,vi表示第i个文档向量;
vq作为自然语言形式问题的向量;和分别作为第i个API全称和API描述;表示vq和之间的余弦相似性,表示vq和之间的余弦相似性;
将和降序排列,选择API描述和API全称相似性排名前m的API作为初始的API候选,分别用APId和APIn表示;同时出现在这两个集合中的API更有可能成为潜在的API;将API分为子集1、子集2、子集3,然后使用公式(1)为每个候选API打分;子集1为同时出现在APId和APIn中的API,子集2为只出现在的APId中的API,子集3为只出现在APIn中的API;η作为调整因子用来确保子集1的分数要比其他子集高;η为0.1;
公式(1)遵循两个规则:子集1中的API要比其他子集中的API排名高;相似度值高的API要比相似度值低的API排名更靠前;
对三个子集中的所有API的分数进行排序,选择m个最高的分数对应的API作为潜在API列表;m值为20。
4.如权利要求1所述的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法,其特征在于,步骤四中,候选列表中API-KI对与所提与API相关自然语言形式问题越相关,在返回的最终列表中的排名越高;基于三种相似度和评估相关的API-KI对是否与问题有关,提问与第i个可能的结果之间总相似度Ci计算公式如下:
其中是问题和潜在API之间的相似度,值由公式(1)计算;表示潜在API与API-KI对的语义相似度;表示问题与API-KI对的语义相似度,值由Word2Vec和余弦相似度计算;
根据总的相似度Ci对候选列表中的结果进行降序排序,排序后的API-KI列表将作为问题的解答返回给开发者,相似度越高的API-KI对在最终返回的列表中排名也将越高。
5.一种终端,其特征在于,所述终端搭载实现权利要求1~4任意一项所述基于讲义和Stack Overflow的API相关信息检索方法信息处理器。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法。
7.一种面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索系统,其特征在于,实现权利要求1~4任意一项所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法。
8.一种的面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索网络平台,其特征在于,实现权利要求1~4任意一项所述面向自然语言形式问题的基于讲义和Stack Overflow的API相关信息检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910228664.6A CN109933660B (zh) | 2019-03-25 | 2019-03-25 | 面向自然语言形式基于讲义和网站的api信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910228664.6A CN109933660B (zh) | 2019-03-25 | 2019-03-25 | 面向自然语言形式基于讲义和网站的api信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933660A CN109933660A (zh) | 2019-06-25 |
CN109933660B true CN109933660B (zh) | 2019-11-12 |
Family
ID=66988113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910228664.6A Active CN109933660B (zh) | 2019-03-25 | 2019-03-25 | 面向自然语言形式基于讲义和网站的api信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933660B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110505276B (zh) * | 2019-07-17 | 2022-05-06 | 北京三快在线科技有限公司 | 对象匹配方法、装置及系统、电子设备及存储介质 |
CN110806861B (zh) * | 2019-10-10 | 2021-10-08 | 南京航空航天大学 | 一种结合用户反馈信息的api推荐方法及终端 |
CN110990003B (zh) * | 2019-11-15 | 2021-11-23 | 南通大学 | 一种基于词嵌入技术的api推荐方法 |
CN111538807B (zh) * | 2020-04-16 | 2023-04-07 | 上海交通大学 | 基于Stack Overflow网站获取Web API知识的系统和方法 |
CN112100314B (zh) * | 2020-08-16 | 2022-07-22 | 复旦大学 | 一种基于软件开发问答网站的api教程汇编生成方法 |
CN112181389B (zh) * | 2020-09-28 | 2021-07-13 | 广东石油化工学院 | 生成教程片段的api标记的方法、系统及计算机设备 |
CN113064579B (zh) * | 2021-03-24 | 2022-05-17 | 浙江大学 | 一种基于异构语言信息的系统设计方法 |
CN114661872B (zh) * | 2022-02-25 | 2023-07-21 | 北京大学 | 一种面向初学者的api自适应推荐方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915340A (zh) * | 2014-03-10 | 2015-09-16 | 北京大学 | 自然语言问答方法及装置 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN107038225A (zh) * | 2017-03-31 | 2017-08-11 | 江苏飞搏软件股份有限公司 | 信息智能检索系统的检索方法 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844368B (zh) * | 2015-12-03 | 2020-06-16 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
US10353935B2 (en) * | 2016-08-25 | 2019-07-16 | Lakeside Software, Inc. | Method and apparatus for natural language query in a workspace analytics system |
CN109241258B (zh) * | 2018-08-23 | 2022-09-06 | 江苏索迩软件技术有限公司 | 一种应用税务领域的深度学习智能问答系统 |
CN109284363B (zh) * | 2018-12-03 | 2023-03-14 | 北京羽扇智信息科技有限公司 | 一种问答方法、装置、电子设备及存储介质 |
-
2019
- 2019-03-25 CN CN201910228664.6A patent/CN109933660B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915340A (zh) * | 2014-03-10 | 2015-09-16 | 北京大学 | 自然语言问答方法及装置 |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
CN107038225A (zh) * | 2017-03-31 | 2017-08-11 | 江苏飞搏软件股份有限公司 | 信息智能检索系统的检索方法 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109933660A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933660B (zh) | 面向自然语言形式基于讲义和网站的api信息检索方法 | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN102855268B (zh) | 基于属性关系进行图像排序的方法和系统 | |
CN103026356B (zh) | 语义内容搜索 | |
CN105653562B (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN107818105A (zh) | 应用程序的推荐方法及服务器 | |
EP2973038A1 (en) | Classifying resources using a deep network | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN112380453B (zh) | 物品推荐方法、装置、存储介质及设备 | |
CN110008309A (zh) | 一种短语挖掘方法及装置 | |
CN110163376A (zh) | 样本检测方法、媒体对象的识别方法、装置、终端及介质 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN105164672A (zh) | 内容分类 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN116521906A (zh) | 元描述生成方法及其装置、设备、介质 | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN112598405B (zh) | 一种基于大数据的商业项目数据管理方法及系统 | |
Park et al. | Automatic extraction of user’s search intention from web search logs | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
Chang et al. | Efficient graph-based word sense induction by distributional inclusion vector embeddings | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
Zan et al. | S 2 ql: Retrieval augmented zero-shot question answering over knowledge graph | |
US20210173857A1 (en) | Data generation device and data generation method | |
Li et al. | Label aggregation for crowdsourced triplet similarity comparisons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |