CN113703773A - 一种基于nlp的二进制代码相似性比对方法 - Google Patents

一种基于nlp的二进制代码相似性比对方法 Download PDF

Info

Publication number
CN113703773A
CN113703773A CN202110988539.2A CN202110988539A CN113703773A CN 113703773 A CN113703773 A CN 113703773A CN 202110988539 A CN202110988539 A CN 202110988539A CN 113703773 A CN113703773 A CN 113703773A
Authority
CN
China
Prior art keywords
function
code
vector
nlp
binary code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110988539.2A
Other languages
English (en)
Other versions
CN113703773B (zh
Inventor
贾张涛
付修锋
李雅斯
杨铁湃
邵飒
金玉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202110988539.2A priority Critical patent/CN113703773B/zh
Publication of CN113703773A publication Critical patent/CN113703773A/zh
Application granted granted Critical
Publication of CN113703773B publication Critical patent/CN113703773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于NLP的二进制代码相似性比对方法,属于代码比对领域。本发明利用代码中的跳转标识将汇编样本切分多个函数块,并利用NLP的方式将函数代码映射成函数特征向量,同时设计了以函数为基本分析单元的工程相似计算方法,从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求,且有着较高的准确率和召回率。

Description

一种基于NLP的二进制代码相似性比对方法
技术领域
本发明属于代码比对领域,具体涉及一种基于NLP的二进制代码相似性比对方法。
背景技术
开源复用是重要的软件开发模式,开源软件复用有助于缩减软件开发成本,提高了开发效率。但开源代码侵权与代码抄袭同样成为了当前软件行业的两个主问题,现有二进制代码相似性解决方案存在精确度和召回率低等问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何提供一种基于NLP的二进制代码相似性比对方法,以解决二进制代码相似性比对精确度不高的问题。
(二)技术方案
为了解决上述技术问题,本发明提出一种基于NLP的二进制代码相似性比对方法,该方法包括如下步骤:
第一步:二进制代码反汇编
将二进制代码文件Bin_0转换为汇编文件Asm_0;
第二步:汇编文件切分
Asm_0可视为二进制代码函数的集合,对Asm_0进行函数、代码块提取,函数是多个代码块的集合;
第三步:特征提取
依据拆分好的代码块序列,利用NLP算法,结合函数特征信息,对二进制代码的文件、函数块、代码块分别进行编码,获得函数的特征向量;
第四步:相似度计算
通过计算函数特征向量之间的距离来获取函数的相似情况,根据函数的相似情况判断二进制代码工程的相似度。
如权利要求1所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述第一步具体包括:通过二进制代码反汇编工具,将二进制代码文件Bin_0转换为汇编文件Asm_0。
进一步地,所述第二步具体包括:
S21、根据函数开始标识和函数结束标识,对汇编文件进行切分,提取汇编文件中的函数信息;函数用P表示,一个汇编代码S由S={P_1,P_2,……,P_n}表示;
S22、每一个函数由多个代码基本块组成,并通过分支指令标记,代码块用L表示,每个函数表示为多个代码块的集合P={L_1,L_2,……,L_m};
S23、对汇编文件中的函数标识、偏移地址、分支指令、函数地址、跳转地址和立即数进行标准化处理。
进一步地,分支指令标记包括jnz和jmp。
进一步地,所述第三步具体包括如下步骤:
S31、函数块P表示为代码块的集合,P={L_1,L_2,……,L_m};
S32、对于代码块L_k进行分词处理:根据汇编语言的特征,对代码块的文本进行分词处理;
S33、将代码块L_k序列映射成特征向量:使用哈希函数将每个代码块生成一组长度为64位向量,得到代码块L_k对应的哈希向量Hash_k;
S34、分词词频统计,代码块L_k的各个分词进行词频统计,以每个分词出现的频度作为该分词权值,T_k={…,mov:X,…},X为mov出现的频度。
S35、赋权,根据分词权值对代码块L_k对应的哈希向量Hash_k根据特定规则赋予权重值,输出该代码块各分词的加权向量;
S36、函数P处理:对函数P中每个代码块进行处理,得到每个代码块包含分词的加权向量;
S37、合并:将函数P中所有代码块中同一分词的向量进行加权合并,以对数据进行压缩,得到函数P中每个分词的加权向量;
S38、降维:将函数块P每个分词的加权向量进行相加,进行降维操作,得到函数P的64位加权向量。
进一步地,所述步骤S32中汇编语言的特征包括Mov、add和Sub。
进一步地,所述步骤S35具体包括:根据分词权值与代码块的哈希向量相乘获得加权向量,若哈希向量的第i位为1,则用“1”与分词权值相乘获得该位的向量值,若哈希向量的第i位为0,则用“-1”与分词权值相乘获得该位的向量值。
进一步地,所述步骤S38还包括:对函数P的64位加权向量进行处理,若第j位的数值大于0,1<=j<=64,则取值为1,否则取值0,获得最终计算出得到的特征向量Hash_P。
进一步地,所述第四步具体包括:
S41、首先通过调用代码特征的提取方法获取两个工程的函数特征向量Hash_P,并分别统计函数总数目;
S42、以距离S为阈值,根据函数特征向量Hash_P对函数进行分类,特征向量相同记为相同函数,特征向量不同且向量距离小于S记为相似函数,其他记为不同函数,统计每个二进制文件函数相似情况;
S43、以相同、相似函数数量之和占函数总数的百分比作为工程相似度。
进一步地,所述距离S为3。
(三)有益效果
本发明提出一种基于NLP的二进制代码相似性比对方法,利用代码中的跳转标识将汇编样本切分多个函数块,并利用NLP的方式将函数代码映射成函数特征向量,同时设计了以函数为基本分析单元的工程相似计算方法,从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求,且有着较高的准确率和召回率。
附图说明
图1为本发明的二进制代码特征提取示意图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明主要面向二进制代码相似性比对领域,提出了一种基于NLP框架的二进制代码相似性比对方案,结合现有人工智能NLP框架,重点解决二进制代码相似性比对精确度不高的问题,具有较高的创新价值,该方案能够进一步二进制代码相似性比对的精确度和召回率。
本文利用NLP相关技术提出了一个新颖的代码精准快速溯源方法。利用代码中的跳转标识将汇编样本切分多个函数块,并利用NLP的方式将函数代码映射成函数特征向量,同时设计了以函数为基本分析单元的工程相似计算方法,从而完成代码溯源。该方法能满足二进制代码相似性对比中相似度检测的需求,且有着较高的准确率和召回率。
本发明针对目前二进制代码相似性检测遇到的相关问题,提出了一种以二进制代码函数为基本分析单元的程序比对分析技术。
(1)提出了代码复用形式和代码语法规则,提出以函数为基本分析单元的程序比对分析方法,将二进制代码看作是代码文件的集合,将文件看作是函数的集合。根据二进制代码语法规则,设计并实现了相关语法分析器,用作函数特征提取。
(2)提出了二进制代码相似性比对分析方法,提出了一种基于代码语义处理汇编函数特征提取的算法,此种比对分析模式使用函数指纹代替原有函数,加快了代码比对速度,有效降面向开源代码复用的程序比对分析技术研究低了中间结果的存储规模,适用于海量数据分析。
(3)提出了代码相似度判定方法,提出了基于算法的函数指纹检索方式,可以从海量代码中高效地检索出目标函数。
本发明主要面向二进制代码相似性比对领域,重点解决二进制代码相似性比对精确度不高的问题,将单个二进制文件拆分成由多个代码文件和函数块组成的集合,通过如下方法和步骤实现了基于NLP(Neuro-Linguistic Programming:自然语言处理)的二进制代码相似性比对:
第一步:通过二进制代码反汇编工具将二进制执行文件(标记为Bin_0)转换成汇编代码(标记为Asm_0);
第二步:将汇编代码(Asm_0)以函数为基本单元进行切分,提取函数特征信息;
第三步:特征提取,基于NLP模型,将两个对比函数映射到同一个潜在空间,分别得到两个包含函数特征的二进制向量(标记为NLP_Vector_01、NLP_Vector_02);
第四步:相似度计算,对NLP_Vector_01、NLP_Vector_02进行判定,判定两个函数之间是否存在复用关系。
本发明的目的在于提供一种高效的二进制代码相似性比对方案,结合现有人工智能NLP框架,重点解决二进制代码相似性比对精确度不高的问题。实施步骤如下:
第一步:二进制代码反汇编
通过二进制代码反汇编工具,将二进制代码文件(标记为Bin_0)转换为汇编文件(标记为Asm_0)。
第二步:汇编文件切分
Asm_0可视为二进制代码函数的集合,对Asm_0进行函数、代码块提取,详见图1,主要实现步骤如下:
S21、根据函数开始标识、函数结束标识等信息,对汇编文件进行切分,提取汇编文件中的函数信息。而得到了多个函数代码块的集合,函数用P表示。由此一个汇编代码S可以由S={P_1,P_2,……,P_n}表示。
S22、每一个函数由多个代码基本块组成,并通过分支指令标记,如jnz、jmp等,代码块用L表示,每个函数表示为多个代码块的集合P={L_1,L_2,……,L_m}。
S23、对汇编文件中的函数标识、偏移地址、分支指令、函数地址、跳转地址、立即数等进行标准化处理。
第三步:特征提取
依据拆分好的代码块序列,利用NLP算法,结合函数特征信息,对二进制代码的文件、函数块、代码块分别进行编码,获得函数的特征向量;具体实现步骤可如下:
输入:函数块P
输出:结合函数特征信息和代码语义特征,构造代码块对应的函数特征向量。
S31、函数块P可表示为代码块的集合,P={L_1,L_2,……,L_m};
S32、对于代码块L_k进行分词处理:根据汇编语言的特征(包括Mov、add、Sub等),对代码块的文本进行分词处理;
S33、将代码块L_k序列映射成特征向量:使用哈希函数将每个代码块生成一组长度为64位向量,得到代码块L_k对应的哈希向量Hash_k;
S34、分词词频统计,代码块L_k的各个分词进行词频统计,以每个分词出现的频度作为该分词权值,T_k={…,mov:X,…},X为mov出现的频度。
S35、赋权,根据分词权值对代码块L_k对应的哈希向量Hash_k根据特定规则赋予权重值,典型做法是根据分词权值与代码块的哈希向量相乘获得加权向量,若哈希向量的第i位为1,则用“1”与分词权值相乘获得该位的向量值,若哈希向量的第i位为0,则用“-1”与分词权值相乘获得该位的向量值。此部分输出是该代码块各分词的加权向量,例如,代码块L_k的特征向量为{101101……},其中分词Mov出现了X次,赋权获得的加权向量为“Vect_k_mov={X,-X,X,X,-X,X,……}”;
S36、函数P处理:对函数P中每个代码块进行处理,得到每个代码块包含分词的加权向量;
S37、合并,将函数块P中所有代码块中同一分词(比如:mov)的向量进行加权合并,对数据进行压缩,函数P中分词mov对应加权向量Vect_mov={……+Vect_k_mov+……},得到函数P中每个分词的加权向量;
S38、降维,将函数块P每个分词的加权向量进行相加,进行降维操作,得到函数P的64位加权向量Vect_P={……+Vect_mov+Vect_add……},对Vect_P进行处理,若第j位(1<=j<=64)的数值大于0,则取值为1,否则取值0,获得最终计算出得到的特征向量Hash_P。
第四步:相似度计算
本发明通过计算向量距离实现相似度比对的方案,通过计算函数特征向量之间的距离来获取函数的相似情况,根据函数的相似情况判断二进制代码工程的相似度。
S41、首先通过调用代码特征的提取方法获取两个工程的函数特征向量Hash_P,并分别统计函数总数目。
S42、以距离S(通常取值为3)为阈值,根据函数特征向量Hash_P对函数进行分类,特征向量相同记为相同函数,特征向量不同且向量距离小于S记为相似函数,其他记为不同函数,统计每个二进制文件函数相似情况。
S43、以相同、相似函数数量之和占函数总数的百分比作为工程相似度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于NLP的二进制代码相似性比对方法,其特征在于,该方法包括如下步骤:
第一步:二进制代码反汇编
将二进制代码文件Bin_0转换为汇编文件Asm_0;
第二步:汇编文件切分
Asm_0可视为二进制代码函数的集合,对Asm_0进行函数、代码块提取,函数是多个代码块的集合;
第三步:特征提取
依据拆分好的代码块序列,利用NLP算法,结合函数特征信息,对二进制代码的文件、函数块、代码块分别进行编码,获得函数的特征向量;
第四步:相似度计算
通过计算函数特征向量之间的距离来获取函数的相似情况,根据函数的相似情况判断二进制代码工程的相似度。
2.如权利要求1所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述第一步具体包括:通过二进制代码反汇编工具,将二进制代码文件Bin_0转换为汇编文件Asm_0。
3.如权利要求1所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述第二步具体包括:
S21、根据函数开始标识和函数结束标识,对汇编文件进行切分,提取汇编文件中的函数信息;函数用P表示,一个汇编代码S由S={P_1,P_2,……,P_n}表示;
S22、每一个函数由多个代码基本块组成,并通过分支指令标记,代码块用L表示,每个函数表示为多个代码块的集合P={L_1,L_2,……,L_m};
S23、对汇编文件中的函数标识、偏移地址、分支指令、函数地址、跳转地址和立即数进行标准化处理。
4.如权利要求3所述的基于NLP的二进制代码相似性比对方法,其特征在于,分支指令标记包括jnz和jmp。
5.如权利要求1-4任一项所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述第三步具体包括如下步骤:
S31、函数块P表示为代码块的集合,P={L_1,L_2,……,L_m};
S32、对于代码块L_k进行分词处理:根据汇编语言的特征,对代码块的文本进行分词处理;
S33、将代码块L_k序列映射成特征向量:使用哈希函数将每个代码块生成一组长度为64位向量,得到代码块L_k对应的哈希向量Hash_k;
S34、分词词频统计,代码块L_k的各个分词进行词频统计,以每个分词出现的频度作为该分词权值,T_k={…,mov:X,…},X为mov出现的频度。
S35、赋权,根据分词权值对代码块L_k对应的哈希向量Hash_k根据特定规则赋予权重值,输出该代码块各分词的加权向量;
S36、函数P处理:对函数P中每个代码块进行处理,得到每个代码块包含分词的加权向量;
S37、合并:将函数P中所有代码块中同一分词的向量进行加权合并,以对数据进行压缩,得到函数P中每个分词的加权向量;
S38、降维:将函数块P每个分词的加权向量进行相加,进行降维操作,得到函数P的64位加权向量。
6.如权利要求5所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述步骤S32中汇编语言的特征包括Mov、add和Sub。
7.如权利要求5所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述步骤S35具体包括:根据分词权值与代码块的哈希向量相乘获得加权向量,若哈希向量的第i位为1,则用“1”与分词权值相乘获得该位的向量值,若哈希向量的第i位为0,则用“-1”与分词权值相乘获得该位的向量值。
8.如权利要求5所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述步骤S38还包括:对函数P的64位加权向量进行处理,若第j位的数值大于0,1<=j<=64,则取值为1,否则取值0,获得最终计算出得到的特征向量Hash_P。
9.如权利要求5所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述第四步具体包括:
S41、首先通过调用代码特征的提取方法获取两个工程的函数特征向量Hash_P,并分别统计函数总数目;
S42、以距离S为阈值,根据函数特征向量Hash_P对函数进行分类,特征向量相同记为相同函数,特征向量不同且向量距离小于S记为相似函数,其他记为不同函数,统计每个二进制文件函数相似情况;
S43、以相同、相似函数数量之和占函数总数的百分比作为工程相似度。
10.如权利要求9所述的基于NLP的二进制代码相似性比对方法,其特征在于,所述距离S为3。
CN202110988539.2A 2021-08-26 2021-08-26 一种基于nlp的二进制代码相似性比对方法 Active CN113703773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988539.2A CN113703773B (zh) 2021-08-26 2021-08-26 一种基于nlp的二进制代码相似性比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988539.2A CN113703773B (zh) 2021-08-26 2021-08-26 一种基于nlp的二进制代码相似性比对方法

Publications (2)

Publication Number Publication Date
CN113703773A true CN113703773A (zh) 2021-11-26
CN113703773B CN113703773B (zh) 2022-07-19

Family

ID=78655247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988539.2A Active CN113703773B (zh) 2021-08-26 2021-08-26 一种基于nlp的二进制代码相似性比对方法

Country Status (1)

Country Link
CN (1) CN113703773B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995880A (zh) * 2022-05-23 2022-09-02 北京计算机技术及应用研究所 一种基于SimHash的二进制代码相似性比对方法
CN115016843A (zh) * 2022-05-23 2022-09-06 北京计算机技术及应用研究所 一种高精度的二进制代码相似性比对方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126235A (zh) * 2016-06-24 2016-11-16 中国科学院信息工程研究所 一种复用代码库构建方法、复用代码快速溯源方法及系统
CN106295335A (zh) * 2015-06-11 2017-01-04 中国科学院信息工程研究所 一种面向嵌入式设备的固件漏洞检测方法及系统
CN107357566A (zh) * 2017-06-06 2017-11-17 上海交通大学 多架构二进制相似代码检测系统及方法
CN109445834A (zh) * 2018-10-30 2019-03-08 北京计算机技术及应用研究所 基于抽象语法树的程序代码相似性快速比较方法
CN110569629A (zh) * 2019-09-10 2019-12-13 北京计算机技术及应用研究所 二进制代码文件溯源方法
CN112733137A (zh) * 2020-12-24 2021-04-30 哈尔滨工业大学 一种面向漏洞检测的二进制代码相似性分析方法
US11042637B1 (en) * 2018-02-01 2021-06-22 EMC IP Holding Company LLC Measuring code sharing of software modules based on fingerprinting of assembly code

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295335A (zh) * 2015-06-11 2017-01-04 中国科学院信息工程研究所 一种面向嵌入式设备的固件漏洞检测方法及系统
CN106126235A (zh) * 2016-06-24 2016-11-16 中国科学院信息工程研究所 一种复用代码库构建方法、复用代码快速溯源方法及系统
CN107357566A (zh) * 2017-06-06 2017-11-17 上海交通大学 多架构二进制相似代码检测系统及方法
US11042637B1 (en) * 2018-02-01 2021-06-22 EMC IP Holding Company LLC Measuring code sharing of software modules based on fingerprinting of assembly code
CN109445834A (zh) * 2018-10-30 2019-03-08 北京计算机技术及应用研究所 基于抽象语法树的程序代码相似性快速比较方法
CN110569629A (zh) * 2019-09-10 2019-12-13 北京计算机技术及应用研究所 二进制代码文件溯源方法
CN112733137A (zh) * 2020-12-24 2021-04-30 哈尔滨工业大学 一种面向漏洞检测的二进制代码相似性分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
乔延臣 等: "基于simhash 与倒排索引的复用代码快速溯源方法", 《通信学报》 *
颜颖等: "基于基本块指纹的二进制代码同源性分析", 《网络安全技术与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995880A (zh) * 2022-05-23 2022-09-02 北京计算机技术及应用研究所 一种基于SimHash的二进制代码相似性比对方法
CN115016843A (zh) * 2022-05-23 2022-09-06 北京计算机技术及应用研究所 一种高精度的二进制代码相似性比对方法
CN115016843B (zh) * 2022-05-23 2024-03-26 北京计算机技术及应用研究所 一种高精度的二进制代码相似性比对方法
CN114995880B (zh) * 2022-05-23 2024-04-05 北京计算机技术及应用研究所 一种基于SimHash的二进制代码相似性比对方法

Also Published As

Publication number Publication date
CN113703773B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN112765358B (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN113703773B (zh) 一种基于nlp的二进制代码相似性比对方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
WO2023226292A1 (zh) 从文本中进行关系抽取的方法、关系抽取模型及介质
CN112199938A (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN111309607A (zh) 一种代码方法级别的软件缺陷定位方法
CN108205524B (zh) 文本数据处理方法和装置
CN114491034B (zh) 一种文本分类方法及智能设备
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN116882701A (zh) 一种基于零碳模式的电力物资智能调度系统及其方法
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN112528674B (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN114661684A (zh) 基于条件随机场的日志报错信息处理方法及装置
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN115221045A (zh) 一种基于多任务多视角学习的多目标软件缺陷预测方法
CN114116616A (zh) 用于挖掘pdf文件的方法、设备和介质
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN109145293B (zh) 一种面向案情的关键词提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant