CN111159223A - 一种基于结构化嵌入的交互式代码搜索方法及装置 - Google Patents

一种基于结构化嵌入的交互式代码搜索方法及装置 Download PDF

Info

Publication number
CN111159223A
CN111159223A CN201911420354.0A CN201911420354A CN111159223A CN 111159223 A CN111159223 A CN 111159223A CN 201911420354 A CN201911420354 A CN 201911420354A CN 111159223 A CN111159223 A CN 111159223A
Authority
CN
China
Prior art keywords
code
model
query
interactive
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911420354.0A
Other languages
English (en)
Other versions
CN111159223B (zh
Inventor
彭敏
黎芮彤
胡刚
刘进
崔晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201911420354.0A priority Critical patent/CN111159223B/zh
Publication of CN111159223A publication Critical patent/CN111159223A/zh
Application granted granted Critical
Publication of CN111159223B publication Critical patent/CN111159223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages

Abstract

本发明提供了一种基于结构化嵌入的交互式代码搜索方法,首先从收集的原始数据中抽取出软件存储库以及代码‑描述匹配对的模型语料,然后对代码存储库及模型语料的分词,接着采用预设工具构建预训练的结构化嵌入;接下来抽取高质量模型语料并划分;然后构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数;再将预训练结构化词嵌入加载至交互式代码搜索NICS模型,并对NICS模型进行训练,最后利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。本发明可以有效地检索代码片段,并在所有基准测试中取得最先进的性能。

Description

一种基于结构化嵌入的交互式代码搜索方法及装置
技术领域
本发明涉及软件工程的代码技术领域,具体涉及一种基于结构化嵌入的交互式代码搜索方法及装置。
背景技术
代码搜索是软件开发实践中常见的开发人员活动,几十年来一直是软件开发的重要组成部分。先前的研究显示,超过60%的开发者每天搜索源代码。由于在线公共代码存储库(例如,StackOverflow,GitHub,Krugle)包含数百万个开源项目,许多设计的搜索引擎可帮助开发人员用自然语言在软件问答社区中查询相关的代码片段用以维护或修复代码。但不幸的是,即使重构这些查询的描述,大多数现有的搜索引擎也会经常会返回不相关代码或示例代码。因而目前在学术领域和工业界越来越关注代码搜索技术。
早期方法是应用信息检索(IR)技术,但大多数方法在很大程度上依赖于自然语言查询和源代码中包含的术语匹配的质量。但是,由于自然语言查询和源代码是异构的,因此它们可能无法共享足够的通用标识符来有效地匹配术语,尤其是在文本较短的代码查询中。尽管一些现有方法为查询重构提供了有效的方法(例如,查询扩展,文本重构),但过于具体查询的文本匹配仍然不会返回相应的结果。此外,这些抽取式的代码搜索方法无法有效地处理查询中不相关关键字。事实上,自然语言查询和源代码作为异构语言可能是语义相关的,就像机器翻译一样。因此,在近期的工作中,引入了神经方法来解决在理解自然语言查询和源代码语义方面的困难。
在以前的工作中,许多基于深度学习的方法被应用于查询和源代码的统一表示学习任务,如代码摘要,代码缺陷定位,代码克隆监测等等。同样,对于代码搜索,最近有研究提出了一个用于搜索Java方法体的双模式深度神经网络模型(CODEnn),它能将代码以及其自然语言描述映射对统一转换到高维矢量空间以进行相似匹配。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
CODEnn依赖于代码分解,需要从受限的方法类型代码段中提取子元素(包括方法名称、token和API序列)。而每个子元素需要单独嵌入到神经网络中,然后合并到一个表示代码的矢量中。但是,这种基于代码拆分的嵌入方法可能不适合其他程序类型或多结构代码片段。因而最近提出了一些有监督的双模式神经代码搜索方法如CoaCor,NCS,UNIF等模型,这些模型可学习到了自然语言查询和整体代码片段的联合嵌入表示,以进一步扩展其应用的代码类型范围。但这些模型大多简单的采用Word2Vec或One-Hot词嵌入,在网络的预训练中并没有融入额外的结构化嵌入信息。
由此可知,现有技术中的方法存在搜索性能不够的技术问题。
发明内容
有鉴于此,本发明提供了一种基于结构化嵌入的交互式代码搜索方法及装置,用以解决或者至少部分解决现有技术中的方法存在搜索性能不够的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于结构化嵌入的交互式代码搜索方法,包括:
步骤S1:收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值;
步骤S2:对模型语料进行结构化分词以及预处理,得到处理后的语料;
步骤S3:采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入;
步骤S4:对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集;
步骤S5:构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;
步骤S6:将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型;
步骤S7:利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
在一种实施方式中,步骤S1中抽取出的软件存储库包含不同的程序语言,步骤S1具体包括:
步骤S1.1:收集原始数据,原始数据包括软件问答社区的问答帖子;
步骤S1.2:根据收集的程序问答帖子,对C#、Java、SQL和Python四种程序语言类型的代码库进行解析与匹配,抽取出四种不同程序语言类型的软件存储库及代码-描述匹配对的模型语料。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:采用不同的程序语法解析器对软件存储库及代码-描述匹配对的模型语料中的文本进行解析,实现结构化分词;
步骤S2.2:依次对分词后的文本进行词还原、词统一化以及去冗余处理。
在一种实施方式中,步骤S3具体包括:
采用基于Word2Vec工具实现的负采样的Skip-Gram模型,在三种代码粒度中训练代码的结构化嵌入。
在一种实施方式中,步骤S4具体包括:
步骤S4.1:依次采用小波时频变换、EM融合、小波逆变换操作,对所有匹配对语料的社交属性值进行融合评分;
步骤S4.2:根据融合评分值对每条语料进行分值排序,筛选出预设数量的语料进行采样作为代码搜索模型的语料;
步骤S4.3:将筛选出的语料按照预设比例进行划分。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:构建特征抽取模块;
在给定代码段C=c1,...,c|C|和相应的查询Q=q1,...,q|C|时,首先在步骤S2中得到的处理后的语料查询相应的编码向量,查询公式如下:
Figure BDA0002352217490000031
其中,E∈Rd×V是预训练的结构嵌入的矩阵,
Figure BDA0002352217490000032
Figure BDA0002352217490000033
是单词qi和ci的嵌入矢量,其中V是固定大小的词汇,d是单词嵌入的维度,改进后的Bi-LSTM包含正向LSTM和反向LSTM,从两个方向捕获每个步骤的历史和未来信息,顺序输入向量的正向和向后隐藏状态可以按如下方式表示:
Figure BDA0002352217490000041
最后,将两种隐藏状态
Figure BDA0002352217490000042
Figure BDA0002352217490000043
串联,以形成最终隐藏状态ht
Figure BDA0002352217490000044
其中
Figure BDA0002352217490000045
表示两个向量的串联,让每个单向LSTM的隐藏单位编号为u,基于Bi-LSTM的嵌入矢量从长度的为n的输入xt更新的公式写作H∈Rn×2u
H=[h1,...ht,...,hn]
按照将长度为n的输入向量转换为嵌入向量序列H的过程,这些基于BiLSTM的嵌入式矢量集
Figure BDA0002352217490000046
Figure BDA0002352217490000047
被表示为H∈R|C|×2u,用于保留更多的历史信息;
步骤S5.2:构建交互注意力模块;
采用双向交互方法来进行交互信息抽取,给定在每个时间步t上查询序列HQ中的嵌入矢量
Figure BDA0002352217490000048
以及给定每个时间步t上的代码序列HC中的嵌入矢量
Figure BDA0002352217490000049
使用注意机制为QC的交互表示构造注意矩阵M,注意矩阵如下:
Figure BDA00023522174900000410
其中,Wq∈R2u×a,Wc∈R2u×a,V∈Ra是注意力参数,a是注意力维度,矩阵M∈R|Q|×|C|中包含了查询Q和代码C之间的交互信息;
接下来,采用注意力池化操作,从代码方向和查询方向推导出基于池的投影向量,使用按行和按列值在M上的最大池,可以分别获取重要的分数向量mQ∈R|Q|和mC∈R|C|,矢量mq和mc的第k个元素的计算方式如下:
Figure BDA00023522174900000411
每个
Figure BDA00023522174900000412
元素被视为第k个“查询-代码”单词对的重要性分数,同样,每个
Figure BDA00023522174900000413
元素都被视为第k个“代码-查询”单词对的重要性分数,为给查询与代码分配特定的权重,计算权重向量δQ∈R|Q|和δC∈R|C|如下所示:
δQ=softmax(mQ);δC=softmax(mC)
最后,本发明通过权重向量δQ∈R|Q|和δC∈R|C|以及基于BiLSTM的嵌入矢量HC和HQ的计算得到交互向量表示VQ∈R2u和VC∈R2u
VQ=δQHQ;VC=δCHC
步骤S5.3:构建相似度匹配模块;
使用cosine相似度cos(VQ,VC)测量源代码和自然查询之间的相关性,并共同嵌入其向量表示,cosine相似度的计算方式为:
Figure BDA0002352217490000051
其中的
Figure BDA0002352217490000052
表示两个矩阵通过其转置的乘法,相似性越高,代码片段与自然查询的关系越大,本发明以查询代码对<Q,C>作为输入,并预测其cosine相似度cos(VQ,VC);
步骤S5.4:构建网络的合页损失函数,构造一个三元组样本对<Q,C+,C->作为训练实例,该实例由一个查询以及对应的正代码C+和负代码C-组成,C+表示Q对应的正确的代码,C-表示Q对应的不正确的代码,三元组来自本发明收集的语料,目标是学习一个具有可训练参数的函数f,使得这个函数能够实现对<Q,C+>的评分高于<Q,C->:
Figure BDA0002352217490000053
当在一组<Q,C+,C->三元组训练时,本发明分别预测<Q,C+>和<Q,C->样本对的cosine相似度,并减少损失函数的值:
Figure BDA0002352217490000054
其中,θ表示模型参数,ε>0是边距超参数,λ∈[0,1]是正则化参数,
Figure BDA0002352217490000055
Figure BDA0002352217490000056
分别是Q,C+和C-的交互式表示形式。
在一种实施方式中,在步骤S6之后,所述方法还包括:
保存训练得到的NICS模型超参数文件,并在测试集上进行模型性能验证。
基于同样的发明构思,本发明第二方面提供了一种基于结构化嵌入的交互式代码搜索方法,包括:
收集模块,用于收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值;
结构化分词模块,用于对模型语料进行结构化分词以及预处理,得到处理后的语料;
结构化词嵌入模块,用于采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入;
高质量语料抽取及划分模块,用于对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集;
交互式代码搜索模型构建模块,用于构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;
训练模块,用于将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型;
搜索模块,用于利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于结构化嵌入的交互式代码搜索方法,首先从收集的原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,然后对代码存储库及模型语料的分词,接着采用预设工具构建预训练的结构化嵌入;接下来抽取高质量模型语料并划分;然后构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;再将预训练结构化词嵌入加载至交互式代码搜索NICS模型,并对NICS模型进行训练,最后利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
通过这种结构化嵌入以及交互信息相结合的方法,本发明将自然查询和对应的代码片段映射到高位向量空间中的相邻位置,根据相似度分数度量自然查询与代码片段在高维空间中的距离,最终得到训练好的基于结构化嵌入的交互式代码搜索模型,从而可以提高代码搜索的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于结构化嵌入的交互式代码搜索方法的实现流程图;
图2(包括a和b)为发明实施例的模型结构主框架图及细节结构图;
图3(包括a、b、c和d)为发明实施例的不同程序语言的结构化词嵌入的二维展示图;
图4为本发明实施例的结构化词嵌入与其他词嵌入在验证集上的效果比较图;
图5为本发明实施例中基于结构化嵌入的交互式代码搜索装置的结构框图;
图6为本发明实施例中一种计算机可读存储介质的结构框图;
图7为本发明实施例中计算机设备的结构图。
具体实施方式
本申请发明人通过大量的研究与实践发现:
现有技术中的一些有监督的双模式神经代码搜索方法如CoaCor,NCS,UNIF等模型,大多简单的采用Word2Vec或One-Hot词嵌入,在网络的预训练中并没有融入额外的结构化嵌入信息。但实际上,代码存储库中包含大量的结构化源代码语料,类似于自然语言处理中的Bert或XLNet预训练模型,训练和融入代码的结构化嵌入能够提升软件任务甚至代码搜索的性能。
另外,CoaCor,NCS,UNIF这些现有的神经代码搜索方法,大多复用了自然语言处理中一些现有的双模式神经网络模型,而不是专门为自然查询和源代码交互式搜索建模而设计的。这些模型仅利用LSTM(长短期记忆网络)或CNN(卷积神经网络)网络框架来联合学习自然查询和源代码嵌入的序列文本表示并训练两者的语义相似性。但它们无法融合代码及其查询描述的交互信息,从而有效地捕获异构语言中更深层次的语义匹配信号。同时自然语言查询中不同的词对于搜索的代码片段中不同令牌的关注程度是不同,通常称之为注意力机制。而事实证明,在大多数自然语言处理及程序语言理解任务中,如机器翻译和代码自动摘要研究中,注意力机制在代码搜索中能够捕获更多查询所关注代码不同部分的信息。
整体来说,现有的这些提取方法受到自然查询和代码片段之间的术语不匹配的影响,因为它们主要依赖于文本相似性。此外,大多数现有的神经方法没有考虑到源代码的结构信息,这些结构信息除了词汇术语之外,还带有额外的语义信息。
基于以上考虑,本发明提出了基于结构化嵌入的交互代码搜索方法,它是一种用于检索代码片段的新型双向交互神经网络,它动态的匹配查询与相应的代码的结构性信息较多的部分,并嵌入到相应的向量表示中。本发明首先使用基于LSTM的双向神经网络,以及预定义的代码结构将自然查询及其对应的代码映射到统一矢量表示。然后学习查询代码交互的对齐注意矩阵,最后得到不同方向的注意力投影向量,从而引导查询与代码之间的嵌入表示学习。本发明根据从StackOverflow收集的四种大规模代码库进行实证评估。结果表明,本发明可以有效地检索代码片段,并在所有基准测试中取得最先进的性能。
本发明的创新点包括:
1)基于注意力机制的交互嵌入方法;与传统的基于表示的模型不同,本发明采用基于双向交互的网络,而不是基于LSTM的RNN来对匹配信号进行足够完善的建模。同时,本发明使用注意力机制来训练并学习代码和查询的重要性权重。这种新颖的权值加权模型能够对自然语言查询和代码术语在各自的方向上给予不同的关注,从而对自然语言查询描述产生不同的关注。
2)基于代码结构序列的代码嵌入方法;与文本文档相比,源代码具有它们自己的唯一属性,如代码结构和代码标识符。大多数C#片段包含循环和条件,SQL查询通常包含一个或多个子查询。此外,大多数标记(如表示其类型的变量名称)通常对代码的语义表达式没有意义。因此,本发明将代码片段规范化为一个结构序列,以减少数据的稀疏性并维护代码片段的同源性。
3)基于代码结构嵌入的神经网络模型训练方法;Word2vec和BERT在自然语言处理中取得了巨大成功,提高了下游学习任务(如答案选择和机器翻译)的准确性。本发明受到自然语言处理领域的启发创新性的使用了基于代码结构嵌入的神经网络模型训练方法,与使用标准的one-hot编码嵌入或word2vec词嵌入学习到的代码序列的表示形式相比,本发明的代码向量表示会提高代码搜索的性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于结构化嵌入的交互式代码搜索方法,请参见图1,该方法包括:
步骤S1:收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值。
具体来说,原始数据可以来自于不同的开源数据库,软件存储库可以为不同的程序语言,例如从软件问答社区中StackOverflow爬取包含C#、Java、SQL和Python四种程序语言类型的软件存储库及代码-描述匹配对的模型语料。
步骤S2:对模型语料进行结构化分词以及预处理,得到处理后的语料。
具体来说,S2是对代码存储库及模型语料的分词。具体可以采用程序序列化语法解析器对步骤1中获取的不同软件存储库中的代码及其描述文本实现结构化分词,并依次进行词还原、词统一化及其他去冗处理。
步骤S3:采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入。
具体来说,S3是构建预训练的结构化嵌入,预设工具为词向量嵌入工具,例如Word2Vec工具等。
步骤S4:对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集。
具体来说,S4是抽取高质量模型语料并进行数据集划分,预设数量和划分比例可以根据情况设置。
步骤S5:构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度。
具体来说,S5是构建交互式代码搜索模型NICS。如图2所示,本发明提供的基于结构化嵌入的交互式代码搜索方法,整体结构如图2的a部分所示,包括结构化嵌入模块、特征抽取模块、交互注意力模块、相似度匹配模块;细节结构如图2的b部分所示,其中结构化嵌入模块用于训练针对软件存储库的结构化词嵌入;特征抽取模块用于捕获并编码代码段和查询的特征信息;交互注意力模块用于捕获并编码代码段和查询的交互信息;相似度匹配模块用于计算查询与代码段之间的相似度。
步骤S6:将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型。
具体来说,S6是训练NICS模型的超参数,利用验证集进行模型性能的验证。
步骤S7:利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
具体来说,步骤S7是对模型的应用,得到训练好的模型后,则可以对待处理的查询进行代码预测,得到与查询对应的代码段。
在一种实施方式中,步骤S1中抽取出的软件存储库包含不同的程序语言,步骤S1具体包括:
步骤S1.1:收集原始数据,原始数据包括软件问答社区的问答帖子;
步骤S1.2:根据收集的程序问答帖子,对C#、Java、SQL和Python四种程序语言类型的代码库进行解析与匹配,抽取出四种不同程序语言类型的软件存储库及代码-描述匹配对的模型语料。
具体来说,本实施例以在StackOverflow问答社区为例,通过其收集的程序问答帖子来解析C#、Java、SQL和Python四种程序语言类型的代码库,而匿名版本的帖子可以从StackExchange免费下载。使用正则表达式(例如,Tags=“.*c#.*”)来匹配不同的标记(C#、Java、SQL、Python),可解析四种不同程序语言类型的软件存储库及代码-描述匹配对的模型语料。另外,在解析代码-描述匹配对的模型语料时同时获取每条匹配对的所有社交属性值(如评论量、浏览量、点赞量等社交指标)。
在一种实施方式中,步骤S2具体包括:
步骤S2.1:采用不同的程序语法解析器对软件存储库及代码-描述匹配对的模型语料中的文本进行解析,实现结构化分词;
步骤S2.2:依次对分词后的文本进行词还原、词统一化以及去冗余处理。
具体实施过程中,分别采用不同的程序语法解析器(ANTLR解析器、Python-sqlparse解析器、Python内置解析器)对解析软件存储库及代码-描述匹配对的模型语料中的文本实现结构化分词,并依次进行词还原、词统一化及其他去冗处理。如附表1所示,本发明分别为C#、SQL、Java、Python软件存储库保留了642662、602405、699700、434597对分词后的问答文本对,总计包含词的词典大小为238344608、234480598、180891654、178602792,可覆盖所有代码-描述匹配对的模型语料,以作为训练代码结构化词嵌入的语料。如附表2所示,是一个Python语言问答对用于结构化词嵌入训练语料库的示例,其中标识符“[c]...[/c]”表示代码片段,标识符“\n”表示换行符。
表1不同语言结构化词嵌入训练语料库
Figure BDA0002352217490000111
Figure BDA0002352217490000121
表2用于结构化词嵌入训练的Python语言问答文本对示例
Figure BDA0002352217490000122
在一种实施方式中,步骤S3具体包括:
采用基于Word2Vec工具实现的负采样的Skip-Gram模型,在三种代码粒度中训练代码的结构化嵌入。
在具体的实施过程中,收集C#、Java、SQL和Python四种程序语言类型的嵌入语料库后,本发明使用Word2Vec工具实现的SGNS(使用负采样的Skip-Gram)模型,在三种代码粒度(即类、包和库级别)中训练代码的结构化嵌入。如附表3所示,本发明列出的结构化词嵌入训练时的超参数设置,其中窗口大小10表示距离10内的所有单词都被视为附近的单词。此外,本发明收集的代码搜索语料库也来自这四个代码库,所以这些嵌入语料库可以完全覆盖后续的语料。
表3结构化词嵌入训练时的超参数
窗口大小 迭代次数 维度
10 20 300
下采样值 最小词频数 负采样个数
1e-5 2 5
由于本发明的嵌入空间包含数十亿个点(词典中的每个词),为了探索每个词及其局部邻域的空间分布,本发明使用t-SNE将嵌入空间投影到两个维度中,t-SNE是一种尺寸缩减技术,旨在保留点之间的局部距离。为了更好地呈现结构嵌入的分布效果,本发明选择一些特定的标识符来展示这种效果,例如Python的关键字("lambda"、"while"、"break")。如图3所示,展示了C#、Java、SQL和Python的代码结构嵌入的2D可视化示例。图3的(d)部分中的两组关键字("while"、"break"和"continue")以及("if"、"elif"和"else")是非常接近的邻域,在程序或自然描述中经常一起使用。本发明能够将含义相近的程序关键词结构化地映射到高维空间的邻域。
在一种实施方式中,步骤S4具体包括:
步骤S4.1:依次采用小波时频变换、EM融合、小波逆变换操作,对所有匹配对语料的社交属性值进行融合评分;
步骤S4.2:根据融合评分值对每条语料进行分值排序,筛选出预设数量的语料进行采样作为代码搜索模型的语料;
步骤S4.3:将筛选出的语料按照预设比例进行划分。
在具体的实施过程中,对代码-描述匹配对的模型语料中社交属性值,依次采用小波时频变换、EM融合、小波逆变换操作(又称小波时频特征融合算法),对所有匹配对语料的社交属性值进行融合打分,并依据打分值对每条语料进行分值排序,作为语料质量的评估标准。在代码-描述匹配对的模型语料中去除长度小于20的代码片段以及一些没有查询描述或代码片段的帖子,最后分别抽取C#、Java、SQL、Python的前Top-K(K=237078、210904、256602、279695)条融合打分值的语料作为模型的数据集,且按8:1:1划分训练集、验证集和测试集。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:构建特征抽取模块;
在给定代码段C=c1,...,c|C|和相应的查询Q=q1,...,q|C|时,首先在步骤S2中得到的处理后的语料查询相应的编码向量,查询公式如下:
Figure BDA0002352217490000131
其中,E∈Rd×V是预训练的结构嵌入的矩阵,
Figure BDA0002352217490000132
Figure BDA0002352217490000133
是单词qi和ci的嵌入矢量,其中V是固定大小的词汇,d是单词嵌入的维度,改进后的Bi-LSTM包含正向LSTM和反向LSTM,从两个方向捕获每个步骤的历史和未来信息,顺序输入向量的正向和向后隐藏状态可以按如下方式表示:
Figure BDA0002352217490000134
最后,将两种隐藏状态
Figure BDA0002352217490000135
Figure BDA0002352217490000136
串联,以形成最终隐藏状态ht
Figure BDA0002352217490000137
其中
Figure BDA0002352217490000141
表示两个向量的串联,让每个单向LSTM的隐藏单位编号为u,基于Bi-LSTM的嵌入矢量从长度的为n的输入xt更新的公式写作H∈Rn×2u
H=[h1,...ht,...,hn]
按照将长度为n的输入向量转换为嵌入向量序列H的过程,这些基于BiLSTM的嵌入式矢量集
Figure BDA0002352217490000142
Figure BDA0002352217490000143
被表示为H∈R|C|×2u,用于保留更多的历史信息;
步骤S5.2:构建交互注意力模块;
采用双向交互方法来进行交互信息抽取,给定在每个时间步t上查询序列HQ中的嵌入矢量
Figure BDA0002352217490000144
以及给定每个时间步t上的代码序列HC中的嵌入矢量
Figure BDA0002352217490000145
使用注意机制为QC的交互表示构造注意矩阵M,注意矩阵如下:
Figure BDA0002352217490000146
其中,Wq∈R2u×a,Wc∈R2u×a,V∈Ra是注意力参数,a是注意力维度,矩阵M∈R|Q|×|C|中包含了查询Q和代码C之间的交互信息;
接下来,采用注意力池化操作,从代码方向和查询方向推导出基于池的投影向量,使用按行和按列值在M上的最大池,可以分别获取重要的分数向量mQ∈R|Q|和mC∈R|C|,矢量mq和mc的第k个元素的计算方式如下:
Figure BDA0002352217490000147
每个
Figure BDA0002352217490000148
元素被视为第k个“查询-代码”单词对的重要性分数,同样,每个
Figure BDA0002352217490000149
元素都被视为第k个“代码-查询”单词对的重要性分数,为给查询与代码分配特定的权重,计算权重向量δQ∈R|Q|和δC∈R|C|如下所示:
δQ=softmax(mQ);δC=softmax(mC)
最后,本发明通过权重向量δQ∈R|Q|和δC∈R|C|以及基于BiLSTM的嵌入矢量HC和HQ的计算得到交互向量表示VQ∈R2u和VC∈R2u
VQ=δQHQ;VC=δCHC
步骤S5.3:构建相似度匹配模块;
使用cosine相似度cos(VQ,VC)测量源代码和自然查询之间的相关性,并共同嵌入其向量表示,cosine相似度的计算方式为:
Figure BDA0002352217490000151
其中的
Figure BDA0002352217490000152
表示两个矩阵通过其转置的乘法,相似性越高,代码片段与自然查询的关系越大,本发明以查询代码对<Q,C>作为输入,并预测其cosine相似度cos(VQ,VC);
步骤S5.4:构建网络的合页损失函数,构造一个三元组样本对<Q,C+,C->作为训练实例,该实例由一个查询以及对应的正代码C+和负代码C-组成,C+表示Q对应的正确的代码,C-表示Q对应的不正确的代码,三元组来自本发明收集的语料,目标是学习一个具有可训练参数的函数f,使得这个函数能够实现对<Q,C+>的评分高于<Q,C->:
Figure BDA0002352217490000153
当在一组<Q,C+,C->三元组训练时,本发明分别预测<Q,C+>和<Q,C->样本对的cosine相似度,并减少损失函数的值:
Figure BDA0002352217490000154
其中,θ表示模型参数,ε>0是边距超参数,λ∈[0,1]是正则化参数,
Figure BDA0002352217490000155
和VC-分别是Q,C+和C-的交互式表示形式。
具体来说,步骤S5.1中采用了改进后的Bi-LSTM(双向长期短期记忆),由于以往的研究通常采用双向长期短期记忆(LSTM)为基础的循环神经网络(RNN),通过总结两个方向的上下文信息来学习基础表示。但是LSTM的隐藏状态只能从历史获取信息,对未来一无所知。与LSTM相比,本发明改进后的Bi-LSTM包含正向LSTM和反向LSTM,可以从两个方向捕获每个步骤的历史和未来信息。通过特征抽取模块,将基于BiLSTM的嵌入式矢量集
Figure BDA0002352217490000156
Figure BDA0002352217490000157
表示为H∈R|C|×2u,从而可以保留更多的历史信息。
步骤S5.2中,采用双向交互方法来进行交互信息抽取。由于代码片段的结构复杂性和代码片段长度过长,BiLSTM模型面临着长序列依赖性和固定宽度隐藏矢量编码的挑战。本发明引入注意力机制,通过动态对齐代码和查询向量相应的部分来解决此问题。此策略已用于其他自然语言处理任务,如机器翻译和非事实问题选择。在平均池化或最大池化操作之前,基于注意力的BiLSTM输出的嵌入矢量将乘以经过softmax操作的权重,该权重由BiLSM中嵌入矢量序列确定。
在模型的训练过程中,首先将S3中预训练得到的代码结构化词嵌入加载到步骤S5中的交互式代码搜索NICS模型。然后在模型参数初始化中,设置查询和代码的最大长度分别20和200,填充的词或不在词表中的词嵌入的服从<-0.25,025>均匀分布,双向LSTM的隐藏层大小为128,注意力维度为200,匹配模块中的正则化参数设为0.02,边距超参数设为0.5,按照0.5的概率在嵌入映射层和双向LSTM编码层中进行采样。最后,根据S4中得到训练集,按照学习率为0.002和SGD随机梯度下降法来训练拟合NICS模型的超参数,直到在验证集迭达50次后停止训练,并保存模型的超参数文件。
在一种实施方式中,在步骤S6之后,所述方法还包括:
保存训练得到的NICS模型超参数文件,并在测试集上进行模型性能验证。
为说明本发明NICS模型在软件问答社区代码搜索上的实验效果,根据训练得到的NICS模型超参数文件,在S4中得到的测试集上进行模型性能验证,以给出相应的MRR和Recall代码搜索性能评价指标,并将其与现有的基准模型CodeATT、CodeLSTM、CodeCNN、CodeRCNN、UNIF、DeepCS进行比较,来说明本发明NICS代码搜索模型的性能。实验结果如表4所示,本发明的实验效果要优于其他6种基准模型。结果表明,本发明的方法,因融合的代码结构化嵌入及交互式注意力信息后比其他方法更优越地代表了代码段和查询的潜在信息。因此,给定一个查询,本发明可以在软件问答社区中搜索更相关的代码。
表4不同模型的性能指标
Figure BDA0002352217490000161
Figure BDA0002352217490000171
除此之外,为了比较NICS模型中采用结构化嵌入方法的有效性,本发明将结构化嵌入方法与其他词嵌入方法(随机初始化方法One-Hot、普通词向量嵌入方法Word2vec)在Python验证数据集上对比,实验曲线如附图4所示。结果表明,本发明的结构化嵌入方法在验证集上的表现基本要优于其他词嵌入方法,因而能更好的捕获代码的结构信息,且取得最佳性能。
本发明的创新点包括:
1)基于注意力机制的交互嵌入方法;与传统的基于表示的模型不同,本发明采用基于双向交互的网络,而不是基于LSTM的RNN来对匹配信号进行足够完善的建模。同时,本发明使用注意力机制来训练并学习代码和查询的重要性权重。这种新颖的权值加权模型能够对自然语言查询和代码术语在各自的方向上给予不同的关注,从而对自然语言查询描述产生不同的关注。
2)基于代码结构序列的代码嵌入方法;与文本文档相比,源代码具有它们自己的唯一属性,如代码结构和代码标识符。大多数C#片段包含循环和条件,SQL查询通常包含一个或多个子查询。此外,大多数标记(如表示其类型的变量名称)通常对代码的语义表达式没有意义。因此,本发明将代码片段规范化为一个结构序列,以减少数据的稀疏性并维护代码片段的同源性。
3)基于代码结构嵌入的神经网络模型训练方法;Word2vec和BERT在自然语言处理中取得了巨大成功,提高了下游学习任务(如答案选择和机器翻译)的准确性。本发明受到自然语言处理领域的启发创新性的使用了基于代码结构嵌入的神经网络模型训练方法,与使用标准的one-hot编码嵌入或word2vec词嵌入学习到的代码序列的表示形式相比,本发明的代码向量表示会提高代码搜索的性能。
此外,需要说明是,本实施例中对于代码的搜索还可以采用其他的神经网络架构,而本实施例对此不作具体的限定和说明。
实施例二
基于同样的发明构思,本实施例提供了,请参见图5,该装置包括:
收集模块201,用于收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值;
结构化分词模块202,用于对模型语料进行结构化分词以及预处理,得到处理后的语料;
结构化词嵌入模块203,用于采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入;
高质量语料抽取及划分模块204,用于对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集;
交互式代码搜索模型构建模块205,用于构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;
训练模块206,用于将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型;
搜索模块207,用于利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于结构化嵌入的交互式代码搜索方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
请参见图6,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于结构化嵌入的交互式代码搜索方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图7,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于结构化嵌入的交互式代码搜索方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于结构化嵌入的交互式代码搜索方法,其特征在于,包括:
步骤S1:收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值;
步骤S2:对模型语料进行结构化分词以及预处理,得到处理后的语料;
步骤S3:采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入;
步骤S4:对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集;
步骤S5:构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;
步骤S6:将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型;
步骤S7:利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
2.如权利要求1所述的方法,其特征在于,步骤S1中抽取出的软件存储库包含不同的程序语言,步骤S1具体包括:
步骤S1.1:收集原始数据,原始数据包括软件问答社区的问答帖子;
步骤S1.2:根据收集的程序问答帖子,对C#、Java、SQL和Python四种程序语言类型的代码库进行解析与匹配,抽取出四种不同程序语言类型的软件存储库及代码-描述匹配对的模型语料。
3.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:采用不同的程序语法解析器对软件存储库及代码-描述匹配对的模型语料中的文本进行解析,实现结构化分词;
步骤S2.2:依次对分词后的文本进行词还原、词统一化以及去冗余处理。
4.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
采用基于Word2Vec工具实现的负采样的Skip-Gram模型,在三种代码粒度中训练代码的结构化嵌入。
5.如权利要求1所述的方法,其特征在于,步骤S4具体包括:
步骤S4.1:依次采用小波时频变换、EM融合、小波逆变换操作,对所有匹配对语料的社交属性值进行融合评分;
步骤S4.2:根据融合评分值对每条语料进行分值排序,筛选出预设数量的语料进行采样作为代码搜索模型的语料;
步骤S4.3:将筛选出的语料按照预设比例进行划分。
6.如权利要求1所述的方法,其特征在于,步骤S5具体包括:
步骤S5.1:构建特征抽取模块;
在给定代码段C=c1,...,c|C|和相应的查询Q=q1,...,q|C|时,首先在步骤S2中得到的处理后的语料查询相应的编码向量,查询公式如下:
Figure FDA0002352217480000021
其中,E∈Rd×V是预训练的结构嵌入的矩阵,
Figure FDA0002352217480000022
Figure FDA0002352217480000023
是单词qi和ci的嵌入矢量,其中V是固定大小的词汇,d是单词嵌入的维度,改进后的Bi-LSTM包含正向LSTM和反向LSTM,从两个方向捕获每个步骤的历史和未来信息,顺序输入向量的正向和向后隐藏状态可以按如下方式表示:
Figure FDA0002352217480000024
最后,将两种隐藏状态
Figure FDA0002352217480000025
Figure FDA0002352217480000026
串联,以形成最终隐藏状态ht
Figure FDA0002352217480000027
其中
Figure FDA0002352217480000028
表示两个向量的串联,让每个单向LSTM的隐藏单位编号为u,基于Bi-LSTM的嵌入矢量从长度的为n的输入xt更新的公式写作H∈Rn×2u
H=[h1,...ht,...,hn]
按照将长度为n的输入向量转换为嵌入向量序列H的过程,这些基于BiLSTM的嵌入式矢量集
Figure FDA0002352217480000029
Figure FDA00023522174800000210
被表示为H∈R|C|×2u,用于保留更多的历史信息;
步骤S5.2:构建交互注意力模块;
采用双向交互方法来进行交互信息抽取,给定在每个时间步t上查询序列HQ中的嵌入矢量
Figure FDA0002352217480000031
以及给定每个时间步t上的代码序列HC中的嵌入矢量
Figure FDA0002352217480000032
使用注意机制为QC的交互表示构造注意矩阵M,注意矩阵如下:
Figure FDA0002352217480000033
其中,Wq∈R2u×a,Wc∈R2u×a,V∈Ra是注意力参数,a是注意力维度,矩阵M∈R|Q|×|C|中包含了查询Q和代码C之间的交互信息;
接下来,采用注意力池化操作,从代码方向和查询方向推导出基于池的投影向量,使用按行和按列值在M上的最大池,可以分别获取重要的分数向量mQ∈R|Q|和mC∈R|C|,矢量mq和mc的第k个元素的计算方式如下:
Figure FDA0002352217480000034
每个
Figure FDA0002352217480000035
元素被视为第k个“查询-代码”单词对的重要性分数,同样,每个
Figure FDA0002352217480000036
元素都被视为第k个“代码-查询”单词对的重要性分数,为给查询与代码分配特定的权重,计算权重向量δQ∈R|Q|和δC∈R|C|如下所示:
δQ=soft max(mQ);δC=soft max(mC)
最后,本发明通过权重向量δQ∈R|Q|和δC∈R|C|以及基于BiLSTM的嵌入矢量HC和HQ的计算得到交互向量表示VQ∈R2u和VC∈R2u
VQ=δQHQ;VC=δCHC
步骤S5.3:构建相似度匹配模块;
使用cosine相似度cos(VQ,VC)测量源代码和自然查询之间的相关性,并共同嵌入其向量表示,cosine相似度的计算方式为:
Figure FDA0002352217480000037
其中的
Figure FDA0002352217480000038
表示两个矩阵通过其转置的乘法,相似性越高,代码片段与自然查询的关系越大,本发明以查询代码对<Q,C>作为输入,并预测其cosine相似度cos(VQ,VC);
步骤S5.4:构建网络的合页损失函数,构造一个三元组样本对<Q,C+,C->作为训练实例,该实例由一个查询以及对应的正代码C+和负代码C-组成,C+表示Q对应的正确的代码,C-表示Q对应的不正确的代码,三元组来自本发明收集的语料,目标是学习一个具有可训练参数的函数f,使得这个函数能够实现对<Q,C+>的评分高于<Q,C->:
Figure FDA0002352217480000041
当在一组<Q,C+,C->三元组训练时,本发明分别预测<Q,C+>和<Q,C->样本对的cosine相似度,并减少损失函数的值:
Figure FDA0002352217480000042
其中,θ表示模型参数,ε>0是边距超参数,λ∈[0,1]是正则化参数,VQ,
Figure FDA0002352217480000043
Figure FDA0002352217480000044
分别是Q,C+和C-的交互式表示形式。
7.如权利要求1所述的方法,其特征在于,在步骤S6之后,所述方法还包括:
保存训练得到的NICS模型超参数文件,并在测试集上进行模型性能验证。
8.一种基于结构化嵌入的交互式代码搜索方法,其特征在于,包括:
收集模块,用于收集原始数据,对原始数据中抽取出软件存储库以及代码-描述匹配对的模型语料,在抽取过程中获取每条代码-描述匹配对的社交属性值;
结构化分词模块,用于对模型语料进行结构化分词以及预处理,得到处理后的语料;
结构化词嵌入模块,用于采用预设工具对处理后的语料进行词嵌入训练,构建预训练的结构化词嵌入;
高质量语料抽取及划分模块,用于对模型语料进行结构化分词以及预处理后,根据代码-描述匹配对的社交属性值筛选出预设数量的语料进行采样作为代码搜索模型的语料,并划分为训练集、验证集和测试集;
交互式代码搜索模型构建模块,用于构建依次包含特征抽取模块、交互注意力抽取模块和相似度匹配模块的交互式代码搜索模型NICS,并设置训练网络的合页损失函数,其中,所述特征抽取模块用于捕获并编码代码段和自然查询的序列信息;所述交互注意力模块用于捕获并编码代码段和自然查询的交互信息;所述相似度匹配模块用于计算查询与代码段之间的相似度;
训练模块,用于将预训练结构化词嵌入加载至交互式代码搜索NICS模型,设置初始化参数并利用训练集来训练拟合模型的参数,在验证集上迭代预设次直到合页损失函数收敛,得到训练好的NICS模型;
搜索模块,用于利用训练好的NICS模型对待处理的查询进行预测,获得与查询对应的代码搜索结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
CN201911420354.0A 2019-12-31 2019-12-31 一种基于结构化嵌入的交互式代码搜索方法及装置 Active CN111159223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911420354.0A CN111159223B (zh) 2019-12-31 2019-12-31 一种基于结构化嵌入的交互式代码搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911420354.0A CN111159223B (zh) 2019-12-31 2019-12-31 一种基于结构化嵌入的交互式代码搜索方法及装置

Publications (2)

Publication Number Publication Date
CN111159223A true CN111159223A (zh) 2020-05-15
CN111159223B CN111159223B (zh) 2021-09-03

Family

ID=70560362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911420354.0A Active CN111159223B (zh) 2019-12-31 2019-12-31 一种基于结构化嵌入的交互式代码搜索方法及装置

Country Status (1)

Country Link
CN (1) CN111159223B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115253A (zh) * 2020-08-17 2020-12-22 北京计算机技术及应用研究所 基于多视角注意力机制的深度文本排序方法
CN112346974A (zh) * 2020-11-07 2021-02-09 重庆大学 基于深度特征嵌入的跨移动应用程序即时缺陷预测方法
CN112507065A (zh) * 2020-11-18 2021-03-16 电子科技大学 一种基于注释语义信息的代码搜索方法
CN112800172A (zh) * 2021-02-07 2021-05-14 重庆大学 一种基于两阶段注意力机制的代码搜索方法
CN112965968A (zh) * 2021-03-04 2021-06-15 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN113204679A (zh) * 2021-04-13 2021-08-03 武汉大学 一种代码查询模型的生成方法和计算机设备
CN113268740A (zh) * 2021-05-27 2021-08-17 四川大学 一种网站系统的输入约束完备性检测方法
CN113449076A (zh) * 2021-06-23 2021-09-28 武汉大学 基于全局信息和局部信息的代码搜索嵌入方法及装置
CN113761163A (zh) * 2021-08-18 2021-12-07 浙江大学 基于代码结构语义信息的深度代码搜索方法、系统及装置
CN113901177A (zh) * 2021-10-27 2022-01-07 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN113986345A (zh) * 2021-11-01 2022-01-28 天津大学 一种预训练增强的代码克隆检测方法
CN114186017A (zh) * 2021-11-02 2022-03-15 武汉大学 基于多维度匹配的代码搜索方法
CN114528015A (zh) * 2022-04-24 2022-05-24 湖南泛联新安信息科技有限公司 二进制可执行文件同源分析方法、计算机设备及存储介质
CN115017294A (zh) * 2022-05-31 2022-09-06 武汉大学 代码搜索方法
CN117112851A (zh) * 2023-10-24 2023-11-24 北京航空航天大学 一种基于后交互机制的代码搜索方法
CN117349453A (zh) * 2023-12-04 2024-01-05 武汉大学 一种基于扩展代码的深度学习代码搜索模型的加速方法
CN117421392A (zh) * 2023-12-15 2024-01-19 武汉大学 一种基于词级对齐的代码搜索方法及装置
CN117556033A (zh) * 2024-01-11 2024-02-13 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0686931B1 (en) * 1994-06-06 2000-03-08 Xerox Corporation Searching and matching unrecognized handwriting
AU3636600A (en) * 1992-12-09 2000-07-27 Sedna Patent Services, Llc Network controller for cable television delivery systems
US7062509B1 (en) * 2000-05-22 2006-06-13 Instill Corporation System and method for product data standardization
US20100179950A1 (en) * 2006-03-31 2010-07-15 Imagini Holdings Limited System and Method of Segmenting and Tagging Entities based on Profile Matching Using a Multi-Media Survey
US8193980B2 (en) * 2008-03-10 2012-06-05 Texas Instruments Incorporated Doppler and code phase searches in a GNSS receiver
US20160127398A1 (en) * 2014-10-30 2016-05-05 The Johns Hopkins University Apparatus and Method for Efficient Identification of Code Similarity
CN106033469A (zh) * 2014-11-14 2016-10-19 塔塔顾问服务有限公司 用于大数据的结构化查询的高效性能预测的方法和系统
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法
CN107562919A (zh) * 2017-09-13 2018-01-09 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
CN108491407A (zh) * 2018-01-24 2018-09-04 大连理工大学 一种面向代码检索的查询扩展方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108932229A (zh) * 2018-06-13 2018-12-04 北京信息科技大学 一种金融新闻倾向性分析方法
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN110399162A (zh) * 2019-07-09 2019-11-01 北京航空航天大学 一种源代码注释自动生成方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3636600A (en) * 1992-12-09 2000-07-27 Sedna Patent Services, Llc Network controller for cable television delivery systems
EP0686931B1 (en) * 1994-06-06 2000-03-08 Xerox Corporation Searching and matching unrecognized handwriting
US7062509B1 (en) * 2000-05-22 2006-06-13 Instill Corporation System and method for product data standardization
US20100179950A1 (en) * 2006-03-31 2010-07-15 Imagini Holdings Limited System and Method of Segmenting and Tagging Entities based on Profile Matching Using a Multi-Media Survey
US8193980B2 (en) * 2008-03-10 2012-06-05 Texas Instruments Incorporated Doppler and code phase searches in a GNSS receiver
US20160127398A1 (en) * 2014-10-30 2016-05-05 The Johns Hopkins University Apparatus and Method for Efficient Identification of Code Similarity
CN106033469A (zh) * 2014-11-14 2016-10-19 塔塔顾问服务有限公司 用于大数据的结构化查询的高效性能预测的方法和系统
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法
CN107562919A (zh) * 2017-09-13 2018-01-09 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
CN108491407A (zh) * 2018-01-24 2018-09-04 大连理工大学 一种面向代码检索的查询扩展方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108932229A (zh) * 2018-06-13 2018-12-04 北京信息科技大学 一种金融新闻倾向性分析方法
CN110399162A (zh) * 2019-07-09 2019-11-01 北京航空航天大学 一种源代码注释自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫鑫: ""基于序列到序列模型的代码片段推荐"", 《计算机科学与探索》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115253A (zh) * 2020-08-17 2020-12-22 北京计算机技术及应用研究所 基于多视角注意力机制的深度文本排序方法
CN112115253B (zh) * 2020-08-17 2023-02-03 北京计算机技术及应用研究所 基于多视角注意力机制的深度文本排序方法
CN112346974A (zh) * 2020-11-07 2021-02-09 重庆大学 基于深度特征嵌入的跨移动应用程序即时缺陷预测方法
CN112346974B (zh) * 2020-11-07 2023-08-22 重庆大学 基于深度特征嵌入的跨移动应用程序即时缺陷预测方法
CN112507065B (zh) * 2020-11-18 2022-07-12 电子科技大学 一种基于注释语义信息的代码搜索方法
CN112507065A (zh) * 2020-11-18 2021-03-16 电子科技大学 一种基于注释语义信息的代码搜索方法
CN112800172A (zh) * 2021-02-07 2021-05-14 重庆大学 一种基于两阶段注意力机制的代码搜索方法
CN112800172B (zh) * 2021-02-07 2022-07-12 重庆大学 一种基于两阶段注意力机制的代码搜索方法
CN112965968A (zh) * 2021-03-04 2021-06-15 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN112965968B (zh) * 2021-03-04 2023-10-24 湖南大学 一种基于注意力机制的异构数据模式匹配方法
CN113204679A (zh) * 2021-04-13 2021-08-03 武汉大学 一种代码查询模型的生成方法和计算机设备
CN113268740A (zh) * 2021-05-27 2021-08-17 四川大学 一种网站系统的输入约束完备性检测方法
CN113449076A (zh) * 2021-06-23 2021-09-28 武汉大学 基于全局信息和局部信息的代码搜索嵌入方法及装置
CN113761163A (zh) * 2021-08-18 2021-12-07 浙江大学 基于代码结构语义信息的深度代码搜索方法、系统及装置
CN113761163B (zh) * 2021-08-18 2024-02-02 浙江大学 基于代码结构语义信息的深度代码搜索方法、系统及装置
CN113901177B (zh) * 2021-10-27 2023-08-08 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN113901177A (zh) * 2021-10-27 2022-01-07 电子科技大学 一种基于多模态属性决策的代码搜索方法
CN113986345A (zh) * 2021-11-01 2022-01-28 天津大学 一种预训练增强的代码克隆检测方法
CN113986345B (zh) * 2021-11-01 2024-05-07 天津大学 一种预训练增强的代码克隆检测方法
CN114186017B (zh) * 2021-11-02 2024-02-27 武汉大学 基于多维度匹配的代码搜索方法
CN114186017A (zh) * 2021-11-02 2022-03-15 武汉大学 基于多维度匹配的代码搜索方法
CN114528015A (zh) * 2022-04-24 2022-05-24 湖南泛联新安信息科技有限公司 二进制可执行文件同源分析方法、计算机设备及存储介质
CN115017294A (zh) * 2022-05-31 2022-09-06 武汉大学 代码搜索方法
CN117112851A (zh) * 2023-10-24 2023-11-24 北京航空航天大学 一种基于后交互机制的代码搜索方法
CN117112851B (zh) * 2023-10-24 2024-04-02 北京航空航天大学 一种基于后交互机制的代码搜索方法
CN117349453A (zh) * 2023-12-04 2024-01-05 武汉大学 一种基于扩展代码的深度学习代码搜索模型的加速方法
CN117349453B (zh) * 2023-12-04 2024-02-23 武汉大学 一种基于扩展代码的深度学习代码搜索模型的加速方法
CN117421392B (zh) * 2023-12-15 2024-03-08 武汉大学 一种基于词级对齐的代码搜索方法及装置
CN117421392A (zh) * 2023-12-15 2024-01-19 武汉大学 一种基于词级对齐的代码搜索方法及装置
CN117556033B (zh) * 2024-01-11 2024-03-29 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备
CN117556033A (zh) * 2024-01-11 2024-02-13 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备

Also Published As

Publication number Publication date
CN111159223B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN109255031B (zh) 基于知识图谱的数据处理方法
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
Wang et al. Cocosum: Contextual code summarization with multi-relational graph neural network
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
US20210350125A1 (en) System for searching natural language documents
EP3864565A1 (en) Method of searching patent documents
Thirumuruganathan et al. Data curation with deep learning [vision]
Nabati et al. Multi-sentence video captioning using content-oriented beam searching and multi-stage refining algorithm
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111344695B (zh) 促进特定于域和客户端的应用程序接口推荐
CN115017294A (zh) 代码搜索方法
CN114237621A (zh) 一种基于细粒度共注意机制的语义代码搜索方法
Qin et al. A survey on text-to-sql parsing: Concepts, methods, and future directions
CN111597316A (zh) 融合语义与问题关键信息的多阶段注意力答案选取方法
CN114841353A (zh) 一种融合句法信息的量子语言模型建模系统及其应用
CN116661852B (zh) 一种基于程序依赖图的代码搜索方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
Meng An intelligent code search approach using hybrid encoders
Cífka et al. Black-box language model explanation by context length probing
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant