CN113901177A

CN113901177A - 一种基于多模态属性决策的代码搜索方法

Info

Publication number: CN113901177A
Application number: CN202111254147.XA
Authority: CN
Inventors: 陈爱国; 朱大勇; 赵太银; 秦科; 罗光春; 尹佳; 胡鑫源
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-07
Anticipated expiration: 2041-10-27
Also published as: CN113901177B

Abstract

本发明涉及数据搜索查询技术，其公开了一种基于多模态属性决策的代码搜索方法，提高组件代码块的搜索的准确率和效率。该方法包括：S1、对查询语句分别与数据库中的每个组件代码块组成待匹配数据对；S2、对各个待匹配数据对进行预处理，获得元组词向量；S3、通过基于BERT的注意力网络提取各个元组的序列特征；S4、利用skip‑gram网络提取各个元组的结构特征；S5、针对每一元组的序列特征和结构特征，采用多模态向量匹配模型进行相似度匹配，得到相似度匹配结果；S6、针对每一元组，基于获得的相似度匹配结果，利用门控机制对多属性得分进行输出控制，获得各元组的最终得分，并从高至低进行排序；S7、选出排序靠前的最终得分对应的组件代码块组成候选组件代码块集反馈用户。

Description

一种基于多模态属性决策的代码搜索方法

技术领域

本发明涉及数据搜索查询技术，具体涉及一种基于多模态属性决策的代码搜索方法。

背景技术

传统技术中，对于组件代码块的搜索通常基于余弦相似度实现，具体介绍如下：

组件代码块搜索的任务目标：给定一个包含海量组件代码块的数据库，用户输入一个查询语句，搜索系统从数据库中匹配最符合用户期望的组件代码块并返回给用户。

输入：组件代码块数据库DB＝{c₁，c₂，...，c_N}，其中，c_N表示第N个组件代码块；用户查询语句q＝{w₁，w₂，...，w_m}，其中，w_m表示第m个单词；候选数K。

输出：最优的K个组件代码块。

包括如下步骤：

步骤1：对查询语句q分词、统一小写字母，并截断到固定长度；

步骤2：对组件代码块数据库DB中的任意一个组件代码块c_i分词、统一小写字母，并截断到固定长度；

步骤3：将查询语句q的每个单词表示为向量形式Q＝{e₁，e₂，...，e_m}，其中，向量e_m表示第m个单词W_m的词向量；

步骤4：将组件代码块c_i表示为向量形式

其中，

表示c_i中第n_i个单词的词向量，n_i表示c_i中单词的数量；

步骤5：将查询语句向量Q输入到LSTM网络(长短期记忆人工神经网络)，得到最后一个隐状态，表示为

步骤6：将DB中的每个组件代码块向量C_i均输入到LSTM，得到最后一个隐状态，表示为

步骤7：计算

与

的余弦相似度：

步骤8：按照步骤3至7计算所有N个(组件代码块的个数)相似度，组成集合cosine：

cosine＝{cosine₁，cosine₂，...，cosine_N}

步骤9：取cosine中最大的K个相似度对应的组件代码块返回给用户。

上述方案存在的缺陷是：

1、LSTM是一种串行编码器，且存在梯度消失现象。对于长文本的组件代码块序列来说，LSTM的串行解码会消耗线性复杂度的时间来进行计算，并且LSTM会存在遗忘信息的现象，尤其在最开始的组件代码块文本和最后的组件代码块文本之间，信息的交互会存在遗忘。

2、上述方案忽略了组件代码块的多模态特性，相似度比较的方式只在文本层面进行了比较。但组件代码块是一种结构化数据，只将组件代码块视为普通文本则忽视了组件代码块结构上的信息，无法保证搜索结果能满足用户的需求。

发明内容

本发明所要解决的技术问题是：提出一种基于多模态属性决策的代码搜索方法，提高组件代码块的搜索的准确率和效率。

本发明解决上述技术问题采用的技术方案是：

一种基于多模态属性决策的代码搜索方法，包括以下步骤：

S1、对查询语句分别与数据库中的每个组件代码块组成待匹配数据对；

S2、对各个待匹配数据对进行预处理，获得元组词向量；

S3、通过基于BERT的注意力网络提取各个元组的序列特征；

S4、利用skip-gram网络提取各个元组的结构特征；

S5、针对每一元组的序列特征和结构特征，采用多模态向量匹配模型进行相似度匹配，得到相似度匹配结果；

S6、针对每一元组，基于获得的相似度匹配结果，利用门控机制对多属性得分进行输出控制，获得各元组的最终得分，并从高至低进行排序；

S7、选出排序靠前的K个最终得分对应的组件代码块组成候选组件代码块集反馈给用户，所述K≥1。

作为进一步优化，步骤S2具体包括：

S21、对查询语句文本序列按照空格进行分词处理，获得查询语句的词向量Q；

S22、对组件代码块文本序列按照空格进行分词处理，获得所有组件代码块的词向量{C₁，C₂，...，C_N}，其中C_N表示第N个组件代码块的词向量；

S23、对组件代码块方法名按照下划线、驼峰命名法和大小写进行分词处理，获得所有组件代码块方法名的词向量{M₁，M₂，...，M_N}，其中M_N表示第N个组件代码块方法名的词向量；

S24、对组件代码块调用的API(应用程序编程接口)序列按照下划线、驼峰命名法和大小写进行分词处理，获得所有组件代码块调用的API序列的词向量{A₁，A₂，...，A_N}，其中A_N表示第N个组件代码块调用的API序列的词向量；

S25、将查询语句的词向量Q、组件代码块的词向量{C₁，C₂，...，C_N}、组件代码块方法名的词向量{M₁,M₂,...,M_N}、组件代码块调用的API序列的词向量{A₁,A₂,...,A_N}组成待匹配数据对，作为元组词向量：S＝(Q,C₁,M₁,A₁),(Q,C₂,M₂,A₂),...,(Q,C_N,M_N,A_N)。

作为进一步优化，步骤S3中，所述基于BERT的注意力网络由多个网络结构块堆叠而成，每个所述网络结构块均包括输入层、注意力表示层和前馈神经网络层：

输入层，用于对输入的词向量与对应的位置向量按位相加，获得输入层词表示；

注意力表示层，用于通过多头注意力机制对输入层表示进行处理，获取多个注意力输出并对所有注意力输出进行拼接，将拼接后的多个注意力头部输出压缩至输入的维度；

前馈神经网络层，用于调节注意力表示层中每个注意力头的权重矩阵。

作为进一步优化，步骤S3中，所述提取各个元组的序列特征具体包括：

S31、针对各元组中的元素(以第i个元组为例)C_i、M_i、A_i的词向量根据上下文进行[CLS]表示，输入注意力网络后，获得经过[CLS]表示的词向量

S32、针对每一个元组，对经过[CLS]表示的词向量

进行平均池化处理，获得第i个元组的序列表示，作为该元组的序列特征

S33、将查询语句的词向量Q根据上下文进行[CLS]表示，输入注意力网络后，获得经过[CLS]表示的词向量Q¹；

S34、对经过[CLS]表示的词向量Q¹进行平均池化处理，获得Q的序列表示，作为Q的序列特征Q²。

作为进一步优化，步骤S4具体包括：

S41、利用python工具包javalang将所有组件代码块转换为抽象语法树；

S42、对抽象语法树采样T条路径，得到路径向量P＝{p₁,...,p_T}，其中p_T表示第T条路径，T表示该语法抽象数从根节点到叶子节点不重复路径的数量；

S43、将路径向量P输入skip-gram模型，得到路径向量P的嵌入向量表示P^nodes,对于任一路径表示

其表示的路径是p_i，其中node_l表示第l个节点的嵌入向量，l是该路径的长度，p_i是P中的任意一条路径；

S44、对于任一路径表示

使用LSTM从前向编码得到隐状态表示序列：

其中

表示前向LSTM第l个节点的隐状态表示，即前向LSTM最后一个隐状态，

表示前向LSTM；

S45、对于任一路径表示

使用LSTM从后向编码得到隐状态表示序列：

其中

表示后向LSTM第1个节点的隐状态表示，即后向LSTM最后一个隐状态，

表示后向LSTM；

S46、拼接前向和后向二者的最后一个隐状态，得到任一路径p_i的节点向量表示：

其中，

是前向LSTM得到的最后一个隐状态输出，对应路径的尾节点；

是后向LSTM得到的最后一个隐状态输出，对应路径的头结点；

S47、取路径p_i上首尾节点的token w₁、w_l，其中l是该路径的长度；利用驼峰命名法显式切割首尾token，得到首尾子词向量

其长度为子词数量，子词通过one-hot表示为词向量形式；

S48、加和子词向量获取token的向量表示；

其中，split(·)表示驼峰命名法的显式切割操作，w^subtokens表示子词向量，w^subtokens[s]表示取w^subtokens中子词s对应的词向量；

S49、拼接首尾token的子词向量得到路径p_i上token的向量表示：

S410、将路径节点向量表示和token向量表示进行拼接，得到完整的路径表示：

encoded_path(p_i)＝[encoded_path_lstm(p_i)；encoded_tokens(p_i)]

S411、通过全连接层融合两部分特征，得到路径的融合表示：

z_i＝tanh(W_in1(encoded_path(p_i)))

其中，W_in1表示全连接层，tanh表示双切正切曲线激活函数；

S412、对T条路径的融合表示求和得到最终的抽象语法树向量表示G：

作为进一步优化，步骤S5具体包括：

S51、确定每一元组的特征九元组

其中，Q¹为查询语句向量Q的特征向量，Q²为查询语句向量Q的序列特征向量，G_i表示元组的结构特征向量；

S52、将

分别视为匹配对，对每个匹配对独立计算余弦相似度，最终得到六个余弦相似度得分的六元组V_i＝(score₁，...，score₆)；

S53、将查询语句向量Q输入skip-gram模型，得到Q的嵌入向量表示Q^nodes＝{node₁，node₂，...，node_l}，通过LSTM得到查询文本的双向表示：

S54、拼接两个方向的LSTM的最后一个隐状态得到一个长256的向量表示，得到：

S55、通过全连接层混合两个方向的特征：

Q³＝tanh(W_in2(h_Q))

其中，W_in2表示全连接层。

S56、计算G_i与Q³的余弦相似度，最终得到一个相似度匹配得分score₇，用Q³替换U_i中的G_i、将score₇加入V_i，得到特征九元组U_i和得分七元组V_i：

V_i＝(score₁，...，score₇)

作为进一步优化，步骤S6具体包括：

S61、拼接九元组特征U_i得到门控输入：

其中

是长256*9＝2304的向量，“；”表示向量拼接；

S62、利用全连接网络混合9种特征，得到混合特征

其中W_f是2304×256的权重矩阵，Relu为线性整流激活函数；

S63、通过全连接网络得到门控输入向量

其中W_out是256×7的权重矩阵，将混合特征

通过全连接网络计算，得到长度为7的门控输入

分别对应7个专家得分的门控输入；

S64、利用sigmoid激活函数完成门控制，得到分数权重

其中，σ为sigmoid激活函数；

S65、基于分数权重

利用点积算子融合7个分数，获得相似度匹配分数ScOre_final：

其中score^T表示score的转置。

本发明的有益效果是：

(1)额外使用了组件代码块结构这一特征进行匹配，在组件代码块特征上更加完备，信息更多；使用了更深的注意力网络，网络的表达能力强于LSTM，且不存在梯度消失现象，组件代码块的序列表示能力更有效，从而使得搜索更加准确；

(2)使用了多属性决策模型，从多个维度考虑各个属性的优先级，并允许使用网络参数进行属性权重的优化，从而使得搜索更加准确；

(3)使用了注意力网络进行序列编码，允许模型并行进行序列的编码，提升了搜索效率。

附图说明

图1为本发明中的基于多模态属性决策的代码搜索方法流程图；

图2为block结构示意图；

图3为skip-gram网络结构图。

具体实施方式

本发明旨在提出一种基于多模态属性决策的代码搜索方法，提高组件代码块搜索的准确率和效率。其实现流程如图1所示，包括：S1、对查询语句分别与数据库中的每个组件代码块组成待匹配数据对；S2、对各个待匹配数据对进行预处理，获得元组词向量；S3、通过基于BERT的注意力网络提取各个元组词向量的序列特征；S4、利用skip-gram网络提取各个元组词向量的结构特征；S5、针对每一元组词向量的序列特征和结构特征，采用多模态向量匹配模型进行相似度匹配，得到相似度匹配结果；S6、针对每一元组词向量，基于获得的相似度匹配结果，利用门控机制对多属性得分进行输出控制，获得各元组词向量的最终得分，并从高至低进行排序；S7、选出排序靠前的K个最终得分对应的组件代码块组成候选组件代码块集反馈给用户。

实施例：

S100：准备数据，包括组件代码块数据库、该数据库上的网络训练数据集、真实的组件代码块查询语句。

S200：事先使用训练数据集中的所有组件代码块查询语句训练skip-gram模型，为S500提取组件代码块的结构特征做准备。

S300：数据预处理，将各个组件代码块从组件代码块文本、组件代码块方法名和组件代码块调用API序列三个方面表示为向量形式。

S400：构造基于BERT的注意力网络，并提取组件代码块的序列特征。

S500：利用Python工具包javalang与S200训练好的skip-gram模型提取组件代码块的结构特征。

S600：使用组件代码块的序列特征、组件代码块的结构特征与组件代码块查询语句组成匹配元组向量。在匹配元组向量之上进行多模态向量匹配，得到特征九元组与得分七元组。

S700：使用特征九元组与得分七元组进行多属性决策，得到最终得分，取得分最高的几个组件代码作为候选组件代码块集合。

S800：将S600至S700视为整体，即一种基于多模态属性决策的代码搜索模型，其输入是组件代码块查询语句、组件代码块的序列特征和组件代码块的结构特征，输出是候选组件代码块集合。用S100准备的数据集Train训练该模型，即可得到一个可用模型。

S900：将真实的组件代码块查询语句输入可用模型，即可得到基于组件代码块数据库DB的候选组件代码块集合。

具体实施时，所述S100中准备数据的具体步骤为：

S101：准备组件代码块数据库DB＝{c₁，c₂，...，c_N}，其中，c_N表示第N个组件代码块。

S102：准备数据库DB上的网络训练数据集Train，Train由若干个(q，e)组件代码块查询语句与查询结果组成的匹配对组成，其中e表示由q查询的正确结果，即对应的候选组件代码块。需要保证Train中至少有两个不同的e。

S103：准备真实的组件代码块查询语句q^true，q^true需要在S800之后输入模型，即输入训练完成后的模型才能得到正确的结果。

S104：指定查询候选组件代码块集合的数量K，用于S705及后续的排名截取操作。

S105：指定模型学习率α、训练轮次epoch，用于S806及后续的模型训练操作。

具体实施时，所述S200中训练skip-gram模型的具体步骤为：

S201：提取Train所有第一个关键词组成查询语句序列{q₁，q₂，...，q_{train_length}}，其中q₁表示Train中第一个查询语句，train_length表示Train中匹配对的数量。

S202：将{q₁，q₂，...，q_{train_length}}作为数据集，训练skip-gram模型，skip-gram的网络结构图见附图3，将skip-gram模型的输出长度调整为128。

具体实施时，所述S300中数据预处理的具体步骤为：

S301：以组件代码块数据库DB中的任意一个组件代码块c_i为例。

S302：将c_i的文本序列按照空格进行分词处理，得到c_i的文本序列词向量C_i。

S303：将c_i的方法名按照下划线、驼峰命名法、大小写分词，得到c_i的方法名词向量M_i。

S304：将c_i的调用的API(应用程序编程接口)序列按照下划线、驼峰命名法、大小写分词，得到c_i的API序列词向量A_i。

S305：对DB中所有组件代码块都进行S302至S304的操作，得到所有组件代码块的文本序列词向量C、方法名词向量M和序列词向量A，并组成元组词向量(C，M，A)。

S306：对Train中的组件代码块查询语句按照空格进行分词并截断到固定长度200(不够则补充占位符)，获得查询语句的词向量Q＝{e₁，e₂，...，e₂₀₀}，为S600的使用做预处理，其中e₁表示第一个单词对应的词向量，Q表示Train中任一组件代码块查询语句对应的词向量。对真实的组件代码块查询语句按照空格进行分词并截断到固定长度200(不够则补充占位符)，获得查询语句的词向量

为S900的使用做预处理，其中

表示第一个单词对应的词向量。

具体实施时，所述S400中构造基于BERT的注意力网络的具体步骤为：

S401：构造输入层X。其维度表示为

S402：构造注意力表示层Attention，令注意力头部为12。注意力表示层有三个输入通道Q′、K′、V′，具体公式如下：

其中，W^Q′，W^K′，W^V′分别为三个通道Q′、K′、V的权重矩阵，权重矩阵的维度表示为

最后缩放Q′和K′的点积大小，再利用softmax计算注意力分布，与V点乘得到单头注意力表示Z_i，具体公式如下：

其中上标T为矩阵转置操作，Z_i的维度表示为

最后拼接12个头的注意力表示，再通过

将维度线性缩放至

具体公式如下：

Z＝[z₁；z₂；...；z₁₂])

其中“；”表示拼接操作。

S403：构造前馈神经网络层FFN。每层多头注意力层都需要再通过一层的前馈神经网络将输出维度缩放至

S404：将S401至S403的三层结构合并为一个网络模块block，block结构如附图2所示。堆叠3个同样的block组成注意力网络。

具体实施时，所述S400中提取组件代码块的序列特征的具体步骤为：

S405：词向量的[CLS]表示。将任一组件代码块的元组词向量(C_i，M_i，A_i)为例，根据上下文进行[CLS]表示，即句子的开始插入符合BERT规定的[CLS](句首标识符)，在分隔、结尾处插入[SEP](分隔符)。

S406：词向量的BERT词向量表示。将进行[CLS]表示的(C_i，M_i，A_i)输入在codesearchnet 1.0上训练的BERT模型，得到(C_i，M_i，A_i)的BERT词向量表示，需要调整BERT模型输出维度为

S407：将(C_i，M_i，A_i)的BERT词向量表示输入S404获得的注意力网络，得到输出后，取[CLS]对应的输出向量作为特征向量

S408：将特征向量

进行平均池化处理，得到序列特征向量

具体实施时，所述S500中提取组件代码块的结构特征的具体步骤为：

S501：利用python工具包javalang将所有组件代码块转换为抽象语法树；

S502：以其中一个组件代码块对应的抽象语法树为例，采样T条路径，得到路径向量P＝{p₁，...，p_T}，其中p_T表示第T条路径，T表示该语法抽象数从根节点到叶子节点不重复路径的数量；

S503：将路径向量P输入S202训练好的skip-gram模型，得到路径向量P的嵌入向量表示P^nodes。任一路径的嵌入向量

表示的是路径p_i，即P中任意一条路径，其中node_l表示第l个节点的嵌入向量，l是该路径的长度；

S504：对于任一路径的嵌入向量表示

使用LSTM从前向编码得到隐状态表示序列：

其中

表示前向LSTM，并调整LSTM的输出维度为

S505：对于任一路径表示

使用LSTM从后向编码得到隐状态表示序列：

其中

定示后向LSTM第1个节点的隐状态表示，即后向LSTM最后一个隐状态，

表示后向LSTM，并调整LSTM的输出维度为

S506：拼接前向和后向二者的最后一个隐状态得到任一路径p_i的节点向量表示：

其中，

是S504前向LSTM得到的最后一个隐状态输出，对应路径的尾节点；

是S505后向LSTM得到的最后一个隐状态输出，对应路径的头结点；

的维度为

S507：取路径p_i上的首节点token w₁和尾节点token w_l，其中l是该路径的长度；

S508：利用驼峰命名法显式切割首尾token，得到首尾子词向量

子词向量的长度为子词数量，子词使用长度200的one-hot表示为词向量形式；

S509：加和子词向量获取token的向量表示；

其中，split(·)表示驼峰命名法的显式切割操作，w^subtokens表示子词向量，w^subtokens[s]表示取w^subtokens中子词s对应的词向量；对首尾子词向量都进行如上操作，即

S510：拼接首尾token的子词向量得到路径p_i上token的向量表示：

encoded_tokens(p_i)的维度为

S511：将路径节点向量表示和token向量表示进行拼接，得到完整的路径表示：

encoded_path(p_i)＝[encoded_path_lstm(p_i)；encoded_tokens(p_i)]

encoded_path(p_i)的维度为

S512：通过全连接层融合两部分特征，得到路径的融合表示：

z_i＝tanh(W_in1(encoded_path(p_i)))

其中，W_in1表示全连接层，其维度为

tanh表示双切正切曲线激活函数；

S513、对T条路径的融合表示求和得到最终的抽象语法树的结构特征，其公式为：

其中，G表示的是S502中其中一个组件代码块的结构特征。

具体实施时，所述S600中进行多模态向量匹配的具体步骤为：

S601：以任一Q为例，将Q进行S405至S408的操作，获得Q的特征向量Q¹与序列特征向量Q²。

S602：复制Q¹与Q²，与来自S408的所有

和S513的所有G_i，组成特征九元组

其中G_i与S513中的G同义；U_i表示任一组件代码块与查询语句组成的特征九元组，共有N个；这些特征九元组中的Q¹与Q²都是相同的。

S603：将

分别视为匹配对，对每个匹配对独立计算余弦相似度，最终得到六个余弦相似度的得分六元组V_i＝(score₁，...，score₆)。

S604：将查询语句向量Q＝{e₁，e₂，...，e₂₀₀}输入skip-gram模型，得到Q的嵌入向量表示Q^nodes＝{node₁，node₂，...，node₂₀₀}，通过LSTM得到查询文本的双向表示：

S605：拼接两个方向的LSTM的最后一个隐状态得到一个

向量表示：

S606：通过全连接层混合两个方向的特征：

Q³＝tanh(W_in2(h_Q))

S607：将G_i与Q³进行余弦相似度计算，得到一个相似度匹配得分score₇，用Q³替换U_i中的G_i、将score₇加入V_i，得到新的特征九元组U_i和得分七元组V_i：

V_i＝(score₁，...，score₇)

具体实施时，所述S700中进行多属性决策的具体步骤为：

S701：将S607中的特征九元组U_i拼接，得到门控输入

其中

的维度为

S702：利用全连接网络混合9种特征：

其中W_f是维度为

的权重矩阵，Relu(·)为线性整流激活函数，

的维度为

S703：将混合后的特征

通过全连接计算得到长度为7的门控输入，分别对应7个专家得分的门控输入

其中W_out是维度为

的权重矩阵。

S703：利用sigmoid激活函数完成门控制，得到分数权重

其中，σ为sigmoid激活函数。

S704：利用点积融合7个分数，具体公式如下：

score＝[score₁；...；score₇]

其中score^r表示score的转置，score是S701中特征九元组U_i的得分。

S705：循环S602至S704，直至计算完N个

得分，取最高的K个候选组件代码块作为结果。

具体实施时，所述S800中进行练该模型的具体步骤为：

S801：S800系列步骤属于训练模型操作，K值需要保持与S601中e的长度一致(一般取1)，即训练时K需要匹配训练集中e的长度，而预测时(S900系列步骤)不需要。

S802：取训练集中任意一个匹配的正样本(Q，e)，从Train中随机采样一个不匹配的负样本

若

与e相同，则重新抽取，其中Q表示经S306处理的q。

S803：将S601至S704视为整体，是训练一种基于多模态属性决策的代码搜索模型的一部分步骤。

S804：将S802中的两种样本输入S803中的整体，计算MarginRankingLoss损失函数：

其中θ为模型网络参数，即LSTM的模型参数与各权重矩阵的集合，δ是边界排序损失的边界参数。

S805：对

计算关于θ的梯度g。

S806：更新模型网络参数θ：

θ＝θ-α·g

其中α为学习率。

S807：如果

收敛，则继续。

未收敛，则重复执行步骤S802至S806，最多重复执行epoch次。

S808：得到了一个可用的模型网络参数θ。

具体实施时，所述S900中输入可用模型的具体步骤为：

S901：恢复S800系列操作对K值的修改。

S902：将Q^true作为S601的输入，执行S601至S705，得到得分最高的K个候选组件代码块。此时其中的各网络参数是S808中已经训练完成的模型网络参数θ。

S903：将S902得到的K个候选组件代码块组合为候选组件代码块集合CAND：

CAND＝(cand₁，cand₂，...，cand_K)

其中cand₁表示得分第一的候选组件代码块。

S904：将CAND返回给用户。

Claims

1.一种基于多模态属性决策的代码搜索方法，其特征在于，包括以下步骤：

S2、对各个待匹配数据对进行预处理，获得元组词向量；

S3、通过基于BERT的注意力网络提取各个元组的序列特征；

S4、利用skip-gram网络提取各个元组的结构特征；

2.如权利要求1所述的一种基于多模态属性决策的代码搜索方法，其特征在于，

步骤S2具体包括：

S24、对组件代码块调用的API序列按照下划线、驼峰命名法和大小写进行分词处理，获得所有组件代码块调用的API序列的词向量{A₁，A₂，...，A_N}，其中A_N表示第N个组件代码块调用的API序列的词向量；

S25、将查询语句的词向量Q、组件代码块的词向量{C₁，C₂，...，C_N}、组件代码块方法名的词向量{M₁，M₂，...，M_N}、组件代码块调用的API序列的词向量{A₁，A₂，...，A_N}组成待匹配数据对，作为元组词向量：S＝(Q，C₁，M₁，A₁)，(Q，C₂，M₂，A₂)，...，(Q，C_N，M_N，A_N)。

3.如权利要求1所述的一种基于多模态属性决策的代码搜索方法，其特征在于，

步骤S3中，所述基于BERT的注意力网络由多个网络结构块堆叠而成，每个所述网络结构块均包括输入层、注意力表示层和前馈神经网络层：

4.如权利要求3所述的一种基于多模态属性决策的代码搜索方法，其特征在于，

步骤S3中，所述提取各个元组的序列特征具体包括：

S31、针对各元组中的元素C_i、M_i、A_i的词向量根据上下文进行[CLS]表示，输入注意力网络后，获得经过[CLS]表示的词向量