CN116302953A - 一种基于增强嵌入向量语义表示的软件缺陷定位方法 - Google Patents

一种基于增强嵌入向量语义表示的软件缺陷定位方法 Download PDF

Info

Publication number
CN116302953A
CN116302953A CN202310034262.9A CN202310034262A CN116302953A CN 116302953 A CN116302953 A CN 116302953A CN 202310034262 A CN202310034262 A CN 202310034262A CN 116302953 A CN116302953 A CN 116302953A
Authority
CN
China
Prior art keywords
source code
code file
defect
embedded vector
enhanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310034262.9A
Other languages
English (en)
Inventor
鞠小林
石翔宇
王皓晨
陈翔
彭志娟
周建美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202310034262.9A priority Critical patent/CN116302953A/zh
Publication of CN116302953A publication Critical patent/CN116302953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于增强嵌入向量语义表示的软件缺陷定位方法,属于计算机技术领域,解决了多模态嵌入向量语义信息表示不足的技术问题。其技术方案为:包括以下步骤:S1:对源代码进行数据增强;S2:构造模态之间和模态内部的正负样本对;S3:对缺陷报告进行文本预处理,得到文本序列;S4:文本序列输入CodeBert预训练模型得到嵌入向量表示;S5:学习模态内部和模态之间的相似性;S6:联合检索任务和二元分类任务微调预训练模型。S7:对源代码文件进行排序得到预测结果。本发明的有益效果为:通过对比学习,获得更好的嵌入向量表示,联合检索模型和分类模型对源代码文件进行排序,进一步提高缺陷定位的有效性。

Description

一种基于增强嵌入向量语义表示的软件缺陷定位方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于增强嵌入向量语义表示的软件缺陷定位方法。
背景技术
缺陷定位是指在给定缺陷报告的软件项目中定位潜在的有错误的源代码文件的任务。开发人员必须仔细分析错误报告并检查大量的源代码文件,手动识别所有传入的错误报告需要花费巨大的人力物力。因此,缺陷文件的自动定位可以显著提高软件缺陷修复的效率,以及软件维护的效率。
许多用于生成文本嵌入向量的技术被提出,但是这些方法无论是在表示自然语言编写的缺陷报告,还是程序语言编写的源代码文件时,总是把他们当作同一个模态(自然语言文本)处理。实际上程序语言有着不同于自然语言的书写风格,其中,包含大量的结构性信息,不应当被看作与自然语言共同处于同一个模态。目前的一些缺陷定位方法,通过使用大型的预训练模型来获得高质量的嵌入向量表示,但是如何进一步的微调预训练模型,在自己的任务上获得更可靠的嵌入表示还未被广泛研究。
如何解决上述技术问题成为本发明面临的课题。
发明内容
本发明的目的在于提供一种基于增强嵌入向量语义表示的软件缺陷定位方法,该方法可以根据缺陷报告描述的内容标记出对应的缺陷文件,解决了无法充分表示程序语言特有的语义信息的问题。
本发明的思想为:本发明提出了一种基于增强嵌入向量语义表示的软件缺陷定位方法,即通过对比学习的目标函数,学习自然语言和程序语言之间以及自然语言和程序语言内部的相似性,进一步微调预训练模型CodeBERT的模型参数,从而得到语义信息更丰富的嵌入向量表示,然后联合检索模型和二元分类模型,加权检索分数和分类分数得到相似度评分,对源代码文件进行相关性排序。
本发明是通过如下措施实现的:一种基于增强嵌入向量语义表示的软件缺陷定位方法,其中,包括以下步骤:
(1)对源代码文件进行数据增强,具体包括如下步骤:
(1-1)首先将源代码文件s中的函数依次转换为抽象语法树AST;
(1-2)然后遍历抽象语法树中的节点,找到函数定义和变量赋值的节点;
(1-3)找到目标节点之后,用func标记替换函数名,用vari标记替换函数中出现的第i个变量名得到增强后的源代码文件s′
(2)将缺陷报告和源代码文件以及数据增强后的源代码文件配对,构造模态之间和模态内部的正负样本对,具体包括如下步骤:
(2-1)将缺陷报告bi及其对应的源代码文件si,缺陷报告bi及其对应的增强之后的源代码文件si'视为模态之间的正样本对(bi,si),(bi,si′);
(2-2)将缺陷报告bi及其不对应的源代码文件sj视为模态之间的负样本对(bi,sj),其中下标i≠j;
(2-3)将源代码文件si和它增强之后的源代码文件si'视为模态内部的正样本对(si,si′);
(2-4)将源代码文件si和batch中出现的其他源代码文件sj,缺陷报告bi和batch中的缺陷报告bj视为模态内部的负样本对(si,sj),(bi,bj),其中Batch大小设置为16;
(3)对构造的正负样本训练数据对做文本预处理操作生成文本序列,具体包括如下步骤:
(3-1)使用RobertaTokenizer分词器将缺陷报告,源代码文件以及增强的源代码文件分割成标记序列,每一个标记序列是用空格分隔开的单词组成的列表;
(3-2)在token序列的开头位置插入一个[CLS]标记,在标记序列的末尾位置连接一个[SEP]标记得到新的{bi},{si},{si′}序列;
(4)将预处理生成的文本序列输入CodeBERT预训练模型,获得包含上下文语义信息的词嵌入向量表示,具体包括如下步骤:使用CodeBERT预训练模型将{bi},{si},{si′}序列编码到嵌入空间中,取[CLS]标记的嵌入向量作为整个序列的嵌入向量,其中嵌入向量的维度是1×768。
(5)根据对比学习的目标函数,学习模态内部和模态之间的相似性,微调CodeBERT预训练模型的参数,具体包括如下步骤:首先定义单个缺陷报告bi的跨模态对比损失函数为:
Figure BDA0004048077030000021
定义单个源代码文件si的跨模态对比损失函数为:
Figure BDA0004048077030000022
其中,分子是与当前bi或者si相关的正样本数据对,分母是所有正样本和负样本的数据对,λ和μ为权重参数,
Figure BDA0004048077030000023
t为标量温度参数。最终的跨模态对比学习损失函数是所有缺陷报告和源代码文件的损失值的算术平均,定义为:
Figure BDA0004048077030000031
其中N为batch size的大小。
(6)联合检索任务和二元分类任务微调预训练模型,具体包括如下步骤:
(6-1)在检索任务中,通过向量点积计算缺陷报告与源代码文件之间的相似度得分。检索模型训练的最终目标是最大化正样本对之间的点积,同时最小化负样本对之间的点积。
信息检索模型训练的损失函数定义为:
Figure BDA0004048077030000032
其中N为batch size的大小,exp(·)表示指数函数。
(6-2)分类任务中,首先将缺陷报告bi和源代码文件si进行向量拼接,然后将向量差bi-si和向量积bi⊙si也一起拼接到原始向量上,然后再输入一层前馈神经网络,公式如下:
ri=tanh(W1·concat(bi,si,bi-si,bi⊙si))
其中W1为前馈神经网络的参数,tanh(·)为激活函数。再把输出ri输入一层感知机分类器:
si=sigmoid(W2·ri)
其中W2为一层感知机分类器的参数。最后用于分类的训练目标函数被定义为二元交叉熵损失函数:
Figure BDA0004048077030000033
其中N为batch size的大小。
(6-3)在优化阶段,将7.1中得到的检索模型训练目标、7.2中得到的分类模型训练目标和6.1中得到的跨模态对比学习训练目标结合起来。得到最终的微调目标函数,定义如下:L=αL检索模型+βL对比学习+γL分类模型
其中,α,β,γ为不同损失的权重系数。
(7)根据检索分数和分类分数加权得到的相似度评分,对源代码文件进行相关性排序,具体包括如下步骤:在预测阶段,使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序,得到最终预测结果,最终相似度得分计算如下:sim(bi,si)=ω1·sim1(bi,si)+ω2·sim2(bi,si)
其中sim1为检索相似度,sim2为分类相似度,ω1和ω2为权重参数。
与现有技术相比,本发明的有益效果为:
(1)使用包含上下文语义信息的预训练模型CodeBERT,来提供缺陷报告和源代码文件的嵌入向量表示,丰富的上下文信息可以帮助学习缺陷报告和源代码文件之间的相关性。
(2)为了减轻函数和变量名编辑的敏感性,使用代码增强,来将函数和变量重命名为无意义的标记;生成更多的代码片段,同时尽可能保持代码片段的功能不变,组建跨模态的正负训练样本对用于学习模态内部和模态之间的相似性。
(3)构建对比学目标函数,通过拉近正样本之间的距离,推开负样本之间的距离来微调预训练模型的嵌入向量,以获得更好的嵌入表示。
(4)在微调阶段,结合了检索训练目标、分类目标和跨模态对比学习目标,使用检索分数和分类分数加权的相似分数对源代码文件进行排名,进一步提高缺陷定位的有效性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的一种基于增强嵌入向量语义表示的软件缺陷定位方法的框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1所示,本发明提供了一种基于增强嵌入向量语义表示的软件缺陷定位方法,具体包括以下内容:
(1)从原始数据集中取出一个batch数量的源代码文件进行代码的数据增强:
(1-1)首先将源代码文件s中的函数转换为抽象语法树(AST);
(1-2)然后遍历AST中的节点,找到函数定义和变量赋值的节点;
(1-3)找到目标节点之后,用func标记替换函数名,用vari标记替换函数中出现的第i个变量名得到增强后的源代码文件s′
(2)将一个batch中的缺陷报告bi,其中i∈(1,batch),和源代码文件si以及数据增强后的源代码文件si'配对,构造模态之间和模态内部的正负样本对。
(2-1)将缺陷报告bi及其对应的源代码文件si,缺陷报告bi及其对应的增强之后的源代码文件si'视为模态之间的正样本对(bi,si),(bi,si′);
(2-2)将缺陷报告bi及其不对应的源代码文件sj视为模态之间的负样本对(bi,sj),其中下标i≠j;
(2-3)将源代码文件si和它增强之后的源代码文件si'视为模态内部的正样本对(si,si′);
(2-4)将源代码文件si和batch中出现的其他源代码文件sj,缺陷报告bi和batch中的缺陷报告bj视为模态内部的负样本对(si,sj),(bi,bj);
(3)将文本数据预处理成可以输入预训练模型的格式。
(3-1)将bi,si,si′使用分词器模块分割成单词的token序列。
(3-2)在token序列的开头位置连接一个[CLS]标记,在token序列的末尾位置连接一个[SEP]标记得到{bi},{si},{si′}序列。
(4)将新生成的token序列输入预训练模型,取出[CLS]标记的词嵌入向量作为整个序列的此嵌入向量表示。
(5)将嵌入向量输入对比学习模块,通过最小化对比学习损失函数进行对比学习。
(6)联合检索任务和二元分类任务进一步微调预训练模型
(6-1)在检索任务中,计算缺陷报告与源代码文件之间的向量点积作为相似度得分。检索模型训练的最终目标是最大化正样本对之间的点积,同时最小化负样本对之间的点积。
信息检索模型训练的损失函数定义为:
Figure BDA0004048077030000051
其中N为batch size的大小。
(6-2)在分类任务中,首先将缺陷报告bi和源代码文件si进行向量拼接,然后将向量差bi-si和向量积bi⊙si也一起拼接到原始向量上,然后再输入一层前馈神经网络,公式如下:
ri=tanh(W1·concat(bi,si,bi-si,bi⊙si))
其中W1为前馈神经网络的参数,tanh(·)为激活函数。再把输出ri输入一层感知机分类器:
si=sigmoid(W2·ri)
其中W2为一层感知机分类器的参数。最后用于分类的训练目标函数被定义为二元交叉熵损失函数:
Figure BDA0004048077030000061
其中,N为batch size的大小。
(6-3)在优化阶段,将7.1中得到的检索模型训练目标、7.2中得到的分类模型训练目标和6.1中得到的跨模态对比学习训练目标结合起来。得到最终的微调目标函数,定义如下:
L=αL检索模型+βL对比学习+γL分类模型
其中,α,β,γ为不同损失的权重系数。
(7)在预测阶段,使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序,得到最终预测结果,最终相似度得分计算如下:
sim(bi,si)=ω1·sim1(bi,si)+ω2·sim2(bi,si)
其中sim1为检索相似度,sim2为分类相似度,ω1和ω2为权重参数。
(9)在相同的数据集上对本发明方法和已有缺陷方法进行评估,使用信息检索任务经常使用的的三个性能指标(即Accuracy、MAP和MRR)来自动评估本方法的质量:
表1本发明方法和其余方法的结果对照表
Figure BDA0004048077030000062
经实验表明,本发明提出的基于增强嵌入向量语义表示的软件缺陷定位方法相较于baseline方法,能实现更高准确率的缺陷定位。具体来说,本发方法通过对比学习,微调预训练模型的参数,同时融合检索模型和二元分类模型,可以在性能上超过这些Baseline方法。其中,对于Accuracy@1而言,本发明方法在各软件项目上能提高17%~20%的性能;对于MAP而言,本发明方法提高了8%~17%的性能;对于MRR而言,本发明方法至少可以提高3%~11%的性能;实验结果表明了本发明方法的有效性。这些结果表明了本发明所提方法具有较高的竞争力和优势。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,包括以下步骤:
1.1:对源代码文件进行数据增强;
1.2:将缺陷报告和源代码文件以及数据增强后的源代码文件配对,构造模态之间和模态内部的正负样本对;
1.3:对构造的正负样本训练数据对做文本预处理操作生成文本序列;
1.4:将预处理生成的文本序列输入CodeBert预训练模型,获得包含上下文语义信息的词嵌入向量表示;
1.5:设计用于对比学习的目标函数,使得在微调预训练模型的过程中,能够同时考虑模态内部和模态之间的相似性;
1.6:联合检索任务和二元分类任务微调预训练模型;
1.7:根据检索分数和分类分数加权得到的相似度评分,对源代码文件进行相关性排序。
2.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.1对源代码文件进行数据增强,具体包括如下步骤:
2.1:首先将源代码文件s中的函数转换为抽象语法树AST;
2.2:然后遍历AST中的节点,找到函数定义和变量赋值的节点;
2.3:找到目标节点之后,用func标记替换函数名,用vari标记替换函数中出现的第i个变量名得到增强后的源代码文件s′。
3.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.2构造模态之间和模态内部的正负样本对,具体包括如下步骤:
3.1:将缺陷报告bi及其对应的源代码文件si,缺陷报告bi及其对应的增强之后的源代码文件si'视为模态之间的正样本对(bi,si),(bi,si′);
3.2:将缺陷报告bi及其不对应的源代码文件sj视为模态之间的负样本对(bi,sj),其中下标i≠j;
3.3:将源代码文件si和它增强之后的源代码文件si'视为模态内部的正样本对(si,si′);
3.4:将源代码文件si和batch中出现的其他源代码文件sj,缺陷报告bi和batch中的缺陷报告bj视为模态内部的负样本对(si,sj),(bi,bj)。
4.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.3对训练数据做文本预处理操作,具体包括如下步骤:
4.1:使用RobertaTokenizer分词器将缺陷报告,源代码文件以及增强的源代码文件分割成token序列;
4.2:在token序列的开头位置连接一个[CLS]标记,在token序列的末尾位置连接一个[SEP]标记得到{bi},{si},{si′}序列。
5.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.4送入CodeBERT以获得词嵌入向量表示,具体包括如下步骤:使用CodeBERT预训练模型将{bi},{si},{si′}序列编码到嵌入空间中,取[CLS]标记的嵌入向量作为整个序列的嵌入向量。
6.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.5通过对比学习的目标函数来跨模态微调预训练模型,具体包括如下步骤:
6.1:为了更好地表示缺陷报告和源代码文件,需要考虑缺陷报告和源代码文件之间的相似性和缺陷报告及源代码文件内部的相似性;
定义单个缺陷报告bi的跨模态对比损失函数为:
Figure FDA0004048077020000021
其中,λ和μ为权重参数,
Figure FDA0004048077020000022
t为标量温度参数;
定义单个源代码文件si的跨模态对比损失函数为:
Figure FDA0004048077020000023
其中,分子是与当前bi或者si相关的正样本数据对,分母是所有正样本和负样本的数据对,λ和μ为权重参数,
Figure FDA0004048077020000024
t为标量温度参数,最终的跨模态对比学习损失函数是所有缺陷报告和源代码文件的损失值的算术平均,定义为:
Figure FDA0004048077020000025
其中N为batch size的大小。
7.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.7联合检索任务和二元分类任务微调预训练模型,具体包括如下步骤:
7.1:在检索任务中,通过向量点积计算缺陷报告与源代码文件之间的相似度得分,检索模型训练的最终目标是最大化正样本对之间的点积,同时最小化负样本对之间的点积;
信息检索模型训练的损失函数定义为:
Figure FDA0004048077020000026
其中N为batch size的大小;
7.2:在分类任务中,首先将缺陷报告bi和源代码文件si进行向量拼接,然后将向量差bi-si和向量积bi⊙si一起拼接到原始向量上,然后再输入一层前馈神经网络,公式如下:
ri=tanh(W1·concat(bi,si,bi-si,bi⊙si))
其中,W1为前馈神经网络的参数,⊙为向量点乘,tanh(·)为激活函数,再把输出ri输入一层感知机分类器:
si=sigmoid(W2·ri)
其中,W2为一层感知机分类器的参数,sigmoid为激活函数;
最后用于分类的训练目标函数被定义为二元交叉熵损失函数:
Figure FDA0004048077020000031
其中,N为batch size的大小;
7.3:在优化阶段,将步骤7.1中得到的检索模型训练目标、步骤7.2中得到的分类模型训练目标和步骤6.1中得到的跨模态对比学习训练目标结合起来,得到最终的微调目标函数,定义如下:
L=αL检索模型+βL对比学习+γL分类模型
其中,α,β,γ为不同损失的权重系数。
8.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法,其特征在于,所述步骤1.7根据检索分数和分类分数加权得到的相似度评分对源代码文件进行相关性排序,具体包括如下步骤:在预测阶段,使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序,得到最终预测结果,最终相似度得分计算如下:
sim(bi,si)=ω1·sim1(bi,si)+ω2·sim2(bi,si)
其中,sim1为检索相似度,sim2为分类相似度,ω1和ω2为权重参数。
CN202310034262.9A 2023-01-10 2023-01-10 一种基于增强嵌入向量语义表示的软件缺陷定位方法 Pending CN116302953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310034262.9A CN116302953A (zh) 2023-01-10 2023-01-10 一种基于增强嵌入向量语义表示的软件缺陷定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310034262.9A CN116302953A (zh) 2023-01-10 2023-01-10 一种基于增强嵌入向量语义表示的软件缺陷定位方法

Publications (1)

Publication Number Publication Date
CN116302953A true CN116302953A (zh) 2023-06-23

Family

ID=86833132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310034262.9A Pending CN116302953A (zh) 2023-01-10 2023-01-10 一种基于增强嵌入向量语义表示的软件缺陷定位方法

Country Status (1)

Country Link
CN (1) CN116302953A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349186A (zh) * 2023-12-04 2024-01-05 山东大学 一种基于语义流图的程序语言缺陷定位方法、系统及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349186A (zh) * 2023-12-04 2024-01-05 山东大学 一种基于语义流图的程序语言缺陷定位方法、系统及介质
CN117349186B (zh) * 2023-12-04 2024-03-05 山东大学 一种基于语义流图的程序语言缺陷定位方法、系统及介质

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111694924B (zh) 一种事件抽取方法和系统
US11625540B2 (en) Encoder, system and method for metaphor detection in natural language processing
CN110647619A (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
CN112800776A (zh) 双向gru关系抽取数据处理方法、系统、终端、介质
WO2023151314A1 (zh) 基于预训练语言模型的蛋白质构象感知表示学习方法
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN113868432A (zh) 一种用于钢铁制造企业的知识图谱自动构建方法和系统
US20230014904A1 (en) Searchable data structure for electronic documents
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN116302953A (zh) 一种基于增强嵌入向量语义表示的软件缺陷定位方法
CN111581466A (zh) 特征信息存在噪声的偏多标记学习方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114048314A (zh) 一种自然语言隐写分析方法
CN111723021B (zh) 一种基于知识库和表示学习的缺陷报告自动分派方法
Chefrour et al. A Novel Incremental Learning Algorithm Based on Incremental Vector Support Machina and Incremental Neural Network Learn++.
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination