CN113886520A - 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质 - Google Patents

一种基于图神经网络的代码检索方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN113886520A
CN113886520A CN202110989902.2A CN202110989902A CN113886520A CN 113886520 A CN113886520 A CN 113886520A CN 202110989902 A CN202110989902 A CN 202110989902A CN 113886520 A CN113886520 A CN 113886520A
Authority
CN
China
Prior art keywords
code
neural network
graph
natural language
graph neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110989902.2A
Other languages
English (en)
Other versions
CN113886520B (zh
Inventor
张凡龙
陈宇琛
车毅
周玉奇
陈晓茵
林翠盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110989902.2A priority Critical patent/CN113886520B/zh
Publication of CN113886520A publication Critical patent/CN113886520A/zh
Application granted granted Critical
Publication of CN113886520B publication Critical patent/CN113886520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的代码检索方法、系统及计算机可读存储介质,方法包括:S1:获取代码数据,进行代码完整性预处理;S2:分别提取预处理后代码的序列信息、控制流图信息、程序依赖图信息;S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。本发明代码语义和结构特征提取更完整,同时采用单个图神经网络结构,缩短了模型的训练时间,减少了参数的调节,提高了检索的准确度。

Description

一种基于图神经网络的代码检索方法、系统及计算机可读存 储介质
技术领域
本发明涉及神经网络技术领域,更具体地,涉及一种基于图神经网络的代码检索方法、系统及计算机可读存储介质。
背景技术
传统的通过自然语言进行代码检索的方法,通常是单独地使用代码的序列信息或者代码的图结构信息,并没有完整地得到代码的语义与结构信息。在其他的对于通过自然语言进行代码检索的方法中,多数使用的是时序神经网络和树状神经网络,而忽略了代码图结构的特点。
现有技术中,公开号为CN107015905A的中国发明专利,于2017年8月4日公开了一种查询源代码的方法和装置,该查询源代码的方法,预先建立有软件模型中的功能单元的标识信息与源代码的内容标识之间的对应关系,所述方法包括:获取软件模型中的功能单元的标识信息;根据所述对应关系,确定所获取的功能单元的标识信息对应的源代码的内容标识。该方案需要预先建立功能单元的标识信息和源代码内容的标识信息的对应关系,无法实现自然语言的直接代码检索。
发明内容
本发明为克服上述现有的通过自然语言进行代码检索没有考虑完整的代码的语义与结构信息,特征提取不完整,准确度不佳的缺陷,提供一种基于图神经网络的代码检索方法、系统及计算机可读存储介质。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于图神经网络的代码检索方法,包括以下步骤:
S1:获取代码数据,进行代码完整性预处理;
S2:分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息;
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
进一步地,所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。
进一步地,所述图神经网络的代码检索模型包括:代码特征提取部分和自然语言描述特征提取部分,所述代码特征提取部分的输入为基于代码序列的代码图,所述代码特征提取部分的输出为一维代码特征向量;所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token,所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。
进一步地,所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括:
通过代码特征提取部分和自然语言描述特征提取部分分别输出一维代码特征向量和一维自然语言描述特征向量;
计算一维代码特征向量和一维自然语言描述特征向量的余弦相似度;
利用余弦相似度得到训练损失,根据训练损失进行反向传播更新图神经网络的代码检索模型参数,得到训练后的图神经网络的代码检索模型。
进一步地,所述代码特征提取部分包括:第一Embedding模块、图神经网络、attention模块,所述第一Embedding模块输入端用于接收基于代码序列的代码图,所述第一Embedding模块的输出端连接至图神经网络的输入端,所述图神经网络的输出端连接至attention模块,所述attention模块输出一维代码特征向量。
进一步地,所述自然语言描述特征提取部分包括:第二Embedding模块、双向时序神经网络,所述第二Embedding模块输入为自然语言描述分词处理后的token,所述第二Embedding模块输出连接至双向时序神经网络输入端,所述双向时序神经网络输出端输出一维自然语言描述特征向量。
进一步地,步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为:
输入自然语言描述并进行分词处理得到每个词的Token;
将所有分词处理得到的Token利用自然语言描述特征提取部分提取一维自然语言描述特征向量。
将一维自然语言描述特征向量分别与预设的代码库中一维代码特征向量计算余弦相似度,其中余弦相识度最大的一维代码特征向量对应的代码输出为代码检索结果。
本发明第二方面提供了一种基于图神经网络的代码检索系统,该系统包括:存储器、处理器,所述存储器中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤:
S1:获取代码数据,进行代码完整性预处理;
S2:分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息;
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
进一步地,所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被处理器执行时,实现所述的一种基于图神经网络的代码检索方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明利用代码的序列信息结合控制流图信息、程序依赖图信息构建代码序列的代码图,使得代码的语义和结构信息能够充分表达,特征提取更完整,同时采用单个图神经网络结构,缩短了模型的训练时间,减少了参数的调节,提高了检索的准确度。
附图说明
图1为本发明一种基于图神经网络的代码检索方法流程图。
图2为本发明基于图神经网络的代码检索模型框架图。
图3为本发明一种基于图神经网络的代码检索系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种基于图神经网络的代码检索方法,包括以下步骤:
S1:获取代码数据,进行代码完整性预处理;
需要说明的是,所述代码完整性预处理将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。所述的代码数据可以为java代码。
S2:分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息;
需要说明的是,对于预处理后的完整代码分别提取序列信息、控制流图信息、程序依赖图信息。
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
需要说明的是,获取了序列信息、控制流图信息、程序依赖图信息,将序列信息分别与图结构信息(即控制流图信息、程序依赖图信息)相应节点嵌入即得到基于代码序列的代码图。
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
需要说明的是,如图2所示,所述基于图神经网络的代码检索模型包括两部分:代码特征提取部分和自然语言描述特征提取部分,所述代码特征提取部分的输入为基于代码序列的代码图,所述代码特征提取部分的输出为一维代码特征向量;所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token,所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。
进一步地,所述代码特征提取部分包括:第一Embedding模块、图神经网络、attention模块,所述第一Embedding模块输入端用于接收基于代码序列的代码图,所述第一Embedding模块的输出端连接至图神经网络的输入端,所述图神经网络的输出端连接至attention模块,所述attention模块输出一维代码特征向量。其中,所述第一Embedding模块输入端用于接收基于代码序列的代码图并将其处理为基于代码序列的代码图的嵌入表示,第一Embedding模块将基于代码序列的代码图的嵌入表示输入至图神经网络,图神经网络输出多维的代码特征向量,根据多维数据中每个维度不同的重要性分配不同权重,attention模块将多维代码特征向量压缩成一维代码向量。
进一步地,所述自然语言描述特征提取部分包括:第二Embedding模块、双向时序神经网络,所述第二Embedding模块的输入为自然语言描述分词处理后的token,所述第二Embedding模块输出连接至双向时序神经网络输入端,所述双向时序神经网络输出端输出一维自然语言描述特征向量。其中,将自然语言描述分词处理后得到的Token输入至第二Embedding模块,经过第二Embedding模块的处理,每个Token得到一个对应的向量,将第二Embedding模块处理得到的所有向量输入至双向时序神经网络,双向时序神经网络输出一维自然语言描述特征向量。
所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括:
通过代码特征提取部分和自然语言描述特征提取部分分别输出一维代码特征向量和一维自然语言描述特征向量;
计算一维代码特征向量和一维自然语言描述特征向量的余弦相似度;
利用余弦相似度得到训练损失,根据训练损失进行反向传播更新图神经网络的代码检索模型参数,得到训练后的基于图神经网络的代码检索模型。
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为:
输入自然语言描述并进行分词处理得到每个词的Token;
将所有分词处理得到的Token利用自然语言描述特征提取部分提取一维自然语言描述特征向量。
将一维自然语言描述特征向量分别与预设的代码库中一维代码特征向量计算余弦相似度,其中余弦相识度最大的一维代码特征向量对应的代码输出为代码检索结果。
如图3所示,本发明第二方面提供了一种基于图神经网络的代码检索系统,该系统包括:存储器、处理器,所述存储器中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤:
S1:获取代码数据,进行代码完整性预处理;
S2:分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息;
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
进一步地,所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被处理器执行时,实现所述的一种基于图神经网络的代码检索方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于图神经网络的代码检索方法,其特征在于,包括以下步骤:
S1:获取代码数据,进行代码完整性预处理;
S2:分别提取预处理后代码的序列信息、控制流图信息、程序依赖图信息;
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
2.根据权利要求1所述的一种基于图神经网络的代码检索方法,其特征在于,所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。
3.根据权利要求1所述的一种基于图神经网络的代码检索方法,其特征在于,所述图神经网络的代码检索模型包括:代码特征提取部分和自然语言描述特征提取部分,所述代码特征提取部分的输入为基于代码序列的代码图,所述代码特征提取部分的输出为一维代码特征向量;所述自然语言描述特征提取部分的输入为自然语言描述分词处理后的Token,所述自然语言描述特征提取部分的输出为一维自然语言描述特征向量。
4.根据权利要求3所述的一种基于图神经网络的代码检索方法,其特征在于,所述利用基于代码序列的代码图和自然语言描述训练图神经网络的代码检索模型具体包括:
通过代码特征提取部分和自然语言描述特征提取部分分别输出一维代码特征向量和一维自然语言描述特征向量;
计算一维代码特征向量和一维自然语言描述特征向量的余弦相似度;
利用余弦相似度得到训练损失,根据训练损失进行反向传播更新图神经网络的代码检索模型参数,得到训练后的图神经网络的代码检索模型。
5.根据权利要求3所述的一种基于图神经网络的代码检索方法,其特征在于,所述代码特征提取部分包括:第一Embedding模块、图神经网络、attention模块,所述第一Embedding模块输入端用于接收基于代码序列的代码图,所述第一Embedding模块的输出端连接至图神经网络的输入端,所述图神经网络的输出端连接至attention模块,所述attention模块输出一维代码特征向量。
6.根据权利要求3所述的一种基于图神经网络的代码检索方法,其特征在于,所述自然语言描述特征提取部分包括:第二Embedding模块、双向时序神经网络,所述第二Embedding模块输入为自然语言描述分词处理后的Token,所述第二Embedding模块输出连接至双向时序神经网络输入端,所述双向时序神经网络输出端输出一维自然语言描述特征向量。
7.根据权利要求6所述的一种基于图神经网络的代码检索方法,其特征在于,步骤S5所述的利用训练完毕的图神经网络的代码检索模型进行代码检索具体过程为:
输入自然语言描述并进行分词处理得到每个词的Token;
将所有分词处理得到的Token利用自然语言描述特征提取部分提取一维自然语言描述特征向量。
将一维自然语言描述特征向量分别与预设的代码库中一维代码特征向量计算余弦相似度,其中余弦相识度最大的一维代码特征向量对应的代码输出为代码检索结果。
8.一种基于图神经网络的代码检索系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被所述处理器执行时实现如下步骤:
S1:获取代码数据,进行代码完整性预处理;
S2:分别提取预处理后的代码的序列信息、控制流图信息、程序依赖图信息;
S3:利用代码的序列信息、控制流图信息、程序依赖图信息构建代码序列的代码图;
S4:构建基于图神经网络的代码检索模型,利用基于代码序列的代码图和自然语言描述训练基于图神经网络的代码检索模型;
S5:利用训练完毕的基于图神经网络的代码检索模型进行代码检索。
9.根据权利要求8所述的一种基于图神经网络的代码检索系统,其特征在于,所述代码完整性预处理即将不完整的代码片段使用代码插桩的方式进行补全,得到可以通过编译的完整代码。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于图神经网络的代码检索方法程序,所述基于图神经网络的代码检索方法程序被处理器执行时,实现如权利要求1至7中任一项所述的一种基于图神经网络的代码检索方法的步骤。
CN202110989902.2A 2021-08-26 2021-08-26 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质 Active CN113886520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110989902.2A CN113886520B (zh) 2021-08-26 2021-08-26 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110989902.2A CN113886520B (zh) 2021-08-26 2021-08-26 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113886520A true CN113886520A (zh) 2022-01-04
CN113886520B CN113886520B (zh) 2024-05-14

Family

ID=79011114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110989902.2A Active CN113886520B (zh) 2021-08-26 2021-08-26 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113886520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577075A (zh) * 2022-10-18 2023-01-06 华中师范大学 一种基于关系图卷积网络的深度代码搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502361A (zh) * 2019-08-29 2019-11-26 扬州大学 面向bug报告的细粒度缺陷定位方法
CN110673840A (zh) * 2019-09-23 2020-01-10 山东师范大学 一种基于标签图嵌入技术的自动代码生成方法及系统
US20200293617A1 (en) * 2019-03-14 2020-09-17 International Business Machines Corporation Predictive natural language rule generation
CN111950728A (zh) * 2020-08-17 2020-11-17 珠海格力电器股份有限公司 图像特征提取模型的构建方法、图像检索方法及存储介质
CN112507065A (zh) * 2020-11-18 2021-03-16 电子科技大学 一种基于注释语义信息的代码搜索方法
CN112733156A (zh) * 2021-01-29 2021-04-30 中国人民解放军国防科技大学 基于代码属性图的软件脆弱性智能检测方法、系统及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293617A1 (en) * 2019-03-14 2020-09-17 International Business Machines Corporation Predictive natural language rule generation
CN110502361A (zh) * 2019-08-29 2019-11-26 扬州大学 面向bug报告的细粒度缺陷定位方法
CN110673840A (zh) * 2019-09-23 2020-01-10 山东师范大学 一种基于标签图嵌入技术的自动代码生成方法及系统
CN111950728A (zh) * 2020-08-17 2020-11-17 珠海格力电器股份有限公司 图像特征提取模型的构建方法、图像检索方法及存储介质
CN112507065A (zh) * 2020-11-18 2021-03-16 电子科技大学 一种基于注释语义信息的代码搜索方法
CN112733156A (zh) * 2021-01-29 2021-04-30 中国人民解放军国防科技大学 基于代码属性图的软件脆弱性智能检测方法、系统及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张凡龙;苏小红;李智超;马培军;: "基于支持向量机的克隆代码有害性评价方法", 智能计算机与应用, no. 04, 28 August 2016 (2016-08-28) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577075A (zh) * 2022-10-18 2023-01-06 华中师范大学 一种基于关系图卷积网络的深度代码搜索方法
CN115577075B (zh) * 2022-10-18 2024-03-12 华中师范大学 一种基于关系图卷积网络的深度代码搜索方法

Also Published As

Publication number Publication date
CN113886520B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111858843B (zh) 一种文本分类方法及装置
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN115982403B (zh) 一种多模态哈希检索方法及装置
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN110738059A (zh) 一种文本相似度计算方法及系统
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113761124B (zh) 文本编码模型的训练方法、信息检索方法及设备
CN114492429A (zh) 文本主题的生成方法、装置、设备及存储介质
CN113886520B (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant