CN116804980A - 一种二进制组件检索方法及装置 - Google Patents
一种二进制组件检索方法及装置 Download PDFInfo
- Publication number
- CN116804980A CN116804980A CN202310751534.7A CN202310751534A CN116804980A CN 116804980 A CN116804980 A CN 116804980A CN 202310751534 A CN202310751534 A CN 202310751534A CN 116804980 A CN116804980 A CN 116804980A
- Authority
- CN
- China
- Prior art keywords
- component
- fingerprint
- function
- version
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000036541 health Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 164
- 238000004364 calculation method Methods 0.000 claims description 61
- 230000001419 dependent effect Effects 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008676 import Effects 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000000712 assembly Effects 0.000 claims description 2
- 238000000429 assembly Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种二进制组件检索方法及装置,包括:提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;根据三种特征计算文件与公共指纹数据库的公共指纹相似度,得到公共组件类别;将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。本发明不仅能够有效地增强不同组件间的指纹差异,还能精确识别组件内的具体版本,而且能够快速、准确地检索出二进制文件所使用的组件详细信息。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种二进制组件检索方法及装置。
背景技术
公共组件库因其强大的API功能被广泛使用于软件开发过程中,使用公共组件库能显著地降低开发的难度,提高软件开发效率,但是,公共组件库存在大量的缺陷,甚至存在潜在的安全漏洞,例如windows10上存在编号为CVE-2020-1362的非法获取管理员权限高危漏洞,该漏洞是由二进制动态链接库WalletService.dll引起的。软件成分分析(Software Component Analysis,SCA)是一种开源组件分析方法,该方法分为SCA源代码分析和SCA二进制分析,而公开组件库通常不公开源代码,因此只能进行二进制组件成分分析。
现有的技术大多聚焦公共组件库类别的识别问题,没有进行或者缺乏深入地探索组件的精确版本识别问题,目前虽然有基于交叉指纹分析的公共组件库特征提取方法,但是该方法需要源代码构建特征库,面对海量的二进制公共组件库,实际使用情况受限且不具有普适性,则必须对二进制文件公共组件的具体版本进行精确定位,因此,在缺失源代码情况下,如何定位到公共组件的精确版本,是目前需要解决的一个问题。
需要说明的是,在上述背景技术部分公开的信息只用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种二进制组件检索方法及装置,解决了目前在缺失源代码的情况下,不能定位到公共组件的精确版本的问题。
本发明的目的通过以下技术方案来实现:一种二进制组件检索方法,所述检索方法包括:
S1、提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;
S2、根据语义特征、函数特征和依赖特征计算文件与公共指纹数据库的公共指纹相似度,得到公共组件类别;
S3、将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;
S4、通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。
所述S1步骤具体包括:通过反汇编工具编写插件对组件集合的每个二进制文件提取IR信息,并将IR信息作为线性序列IR文本并通过深度学习模型BERT提取语义特征,提取二进制的函数方法变量、导入导出表以及二进制头文件信息,通过MD5算法转换为函数特征和依赖特征。
所述S2步骤中通过语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个公共组件的聚类中心的余弦距离,计算规则如下:
其中,component_mi表示第i个公共组件语义指纹聚类中心,余弦距离越低,说明语义向量越接近,则与该组件指纹越相似;
所述S2步骤中通过函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,计算规则如下:
其中component_funci表示第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数,n(component_funci)表示第i个公共组件函数指纹个数,函数指纹重复度越高,则与该组件指纹越相似;
通过依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,计算规则如下:
其中component_replyi表示第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数,n(component_replyi)表示第i个公共组件依赖指纹个数,依赖指纹重复度越高,则与该组件指纹越相似。
所述S2步骤中得到与m个公共组件相似度为:
其中,α,β,γ为设定的参数,根据实际需求,可返回top-k个相似度最高的组件。
所述组件精确版本相似度包括版本语义特征相似度和版本函数特征相似度;通过语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本的向量余弦距离,计算规则如下:
余弦距离越低,则语义向量越近,与版本指纹越相似;
通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本的函数指纹重复度,计算规则如下:
其中version_funci表示第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数,n(version_funci)表示第i个版本函数指纹个数,私有函数指纹重复度越高,则与该版本指纹越相似。
所述组件精确版本相似度计算规则为:
其中,δ,ε为设定的参数根据实际需求,可返回top-k个相似度最高的组件版本。
一种二进制组件检索装置,它包括特征提取模块、相似度计算模块、版本匹配模块和解析获取模块;
所述特征提取模块:用于提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;
所述相似度计算模块:用于根据语义特征、函数特征和依赖特征计算文件与公共指纹数据库的公共指纹相似度,得到公共组件类别;
所述版本匹配模块:用于将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;
所述解析获取模块:用于通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。
所述相似度计算模块包括公共组件语义指纹相似度计算单元、公共组件函数指纹相似度计算单元、公共组件依赖指纹相似度计算单元和公共组件相似度计算单元;
所述公共组件语义指纹相似度计算单元:用于通过根据语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个公共组件的聚类中心的余弦距离,其中,component_mi表示第i个公共组件语义指纹聚类中心,余弦距离越低,说明语义向量越接近,则与该组件指纹越相似;
所述公共组件函数指纹相似度计算单元:用于通过根据函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,其中component_funci表示第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数,n(component_funci)表示第i个公共组件函数指纹个数,函数指纹重复度越高,则与该组件指纹越相似;
所述公共依赖指纹相似计算单元:用于通过 根据依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,其中component_replyi表示第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数,n(component_replyi)表示第i个公共组件依赖指纹个数,依赖指纹重复度越高,则与该组件指纹越相似;
所述公共组件相似度计算单元:用于通过 计算与m个公共组件的相似度,其中,α,β,β为设定的参数,根据实际需求,可返回top-k个相似度最高的组件。
所述版本匹配模块包括版本语义特征相似度计算单元、版本函数特征相似度计算单元和组件精确版本计算单元;
所述版本语义特征相似度计算单元:用于通过 根据语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本的向量余弦距离;
所述版本函数特征相似计算单元:用于通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本的函数指纹重复度,其中version_funci表示第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数,n(version_funci)表示第i个版本函数指纹个数,私有函数指纹重复度越高,则与该版本指纹越相似;
所述组件精确版本相似度计算单元:用于通过 计算组件精确版本相似度,其中,δ,ε为设定的参数根据实际需求,可返回top-k个相似度最高的组件版本。
本发明具有以下优点:一种二进制组件检索方法及装置,通过对不同版本不同架构的组件二进制集合提取组件公共指纹集合,并利用二进制文件的私有指纹定位精确版本,不仅能够有效地增强不同组件间的指纹差异,还能精确识别组件内的具体版本,而且能够快速、准确地检索出二进制文件所使用的组件详细信息。
附图说明
图1为本发明方法的流程示意图;
图2为公共组件指纹提取示意图;
图3为组件的具体版本指纹提取示意图;
图4为本发明装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。
本发明其中一种实施方式涉及一种基于语义、函数以及依赖指纹的二进制组件检索方法,通过对不同版本不同架构的组件二进制集合提取组件公共指纹集合,并利用二进制文件的版本私有指纹定位精确版本。该方法不仅能有效地增强不同组件间的指纹差异,还能精确识别公共组件具体版本。在得到的公开组件的精确版本库之后,根据漏洞知识图谱或者软件基因库查询到历史漏洞信息,从而发现二进制文件中潜在的安全漏洞与风险,及时采取对应措施,提高软件安全性。
如图1所示,具体包括以下内容:
S0、构建公共组件指纹数据库和私有版本指纹数据库,分别服务于步骤S2公共组件指纹匹配和步骤S3私有版本指纹匹配检索。
S1、提取二进制文件的中间表示IR文本、函数方法变量等字符串、二进制导入导出表,分别计算语义特征、函数特征、依赖特征。除此之外,还需提取二进制头文件信息。
S2、通过上述三种特征,计算文件与公共指纹数据库的公共指纹相似度,获取公共组件类别。
S3、确定二进制所属公共组件后,与私有指纹库进行匹配,获取组件对应的私有版本。
S4、通过解析二进制头文件得到该文件的架构及操作系统。并结合组件知识图谱,获取二进制对应的组件健康度和漏洞等详细信息。
进一步地,S1步骤中利用反汇编工具IDA Pro的扩展功能,编写插件对组件集合的每个二进制文件提取LLVM IR的信息。IR信息,简单说就是介于高级语言(例如C+、JAVA)和机器语言(例如二进制可执行文件)之间的等效内部表示代码,IR在编译过程中起着桥梁作用。在本发明中,将IR看作线性序列IR文本并通过重新预训练深度学习模型BERT提取语义特征Embedding。除此之外,还需要提取该二进制的函数方法变量等字符串和导入导出表通过MD5算法转换为函数特征function和依赖特征reply。
公共组件指纹数据库需要储存海量组件的公共组件指纹。为了详细说明组件数据库的构建过程,本发明以m种不同版本不同架构的二进制组件集合S作为说明(其中,在集合S中具有n个二进制文件),海量组件的指纹提取可采用spark等大数据平台并发提取。数据库构建如图2所示。公共指纹包含组件公共组件语义指纹、组件公共函数指纹及组件公共依赖指纹三部分组成,即形成《组件S,语义指纹,函数指纹,依赖指纹》。所述三部分指纹构建具体流程如下:
组件公共组件语义指纹:由于二进制文件的反汇编指令受CPU及架构影响,易造成OOV问题,导致深度学习模型难以收敛,因此本发明对中间表示IR提取语义信息。对二进制集合S中的每一个文件的中间表示IR文本,通过BERT模型转换为语义向量集合Embeddings。BERT是一种双向的transformer的双向编码,能够保留更多的语义信息。本发明将向量集合Embeddings的聚类中心(一个聚类中心)作为该组件的公共组件语义指纹,则会生成m个语义向量聚类中心。
组件公共函数指纹:本发明通过对函数方法变量等字符串进行组件公共函数指纹提取,需事先构造组件字符串并集{doc|doci=s1∪s2…∪sn,i=1,2,…m}。
进一步地,首先提取组件内的指纹,即计算组件内每个字符串在二进制文件中的次数d_cnt(d_cnt∈[1,n],其中n为集合s中二进制文件的个数),当d_cnt超过某一阈值p1*n时,提取字符串的MD5作为指纹。接着,对上一步提取的指纹计算组件间的tf_idf值,删除阈值小于p2的指纹。进一步地,上述阈值p1、p2可根据实际情况,分别选取为30%、40%、50%、60%、70%、80%及90%。
组件公共依赖指纹:将n个二进制文件的导入表和导出表分别计算交集,并根据导入导出表中函数的类型和名称拼接后计算MD5值作为指纹。例如,二进制集合S中,导入表具有函数func1,导出表具有函数func2。则该集合的依赖指纹分别为import_func1和export_func2对应的MD5值。
进一步地,私有版本指纹数据库需要每个文件的私有特征。为了详细说明组件数据库的构建过程,本发明同样以m种不同版本不同架构的二进制组件集合S作为说明(其中,在集合S中具有n个二进制文件),海量组件的指纹提取可采用spark等大数据平台并发提取。本发明所述的私有版本指纹数据库构建如图3所示。私有指纹主要包括私有语义指纹和私有函数指纹。
进一步地,将集合S中n个文件提取中间表示IR文本和函数方法变量等字符串。中间表示IR文本通过BERT模型转化语义向量得到私有语义指纹,函数方法变量等字符串通过去除公共组件指纹后得到私有函数指纹。
本发明S2步骤中需利用S1中的特征,计算公共指纹相似度,获取公共组件类别。以下以m种不同版本不同架构的二进制组件集合S作为说明(其中,在集合S中具有n个二进制文件)为例。
所述的公共组件指纹相似度由语义特征相似度、函数特征相似度和依赖相似度三部分构成。
进一步的,通过语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个聚类中心(m个组件具有m个聚类中心)的余弦距离。匹配规则如下:
其中component_mi代表着第i个公共组件语义指纹聚类中心。余弦距离越低,说明语义向量越接近,则与该组件指纹越相似。
进一步的,通过函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,匹配规则如下:
其中component_funci代表着第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数。n(component_funci)表示第i个公共组件函数指纹个数。函数指纹重复度越高,则与该组件指纹越相似。
进一步的,通过依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,匹配规则如下:
其中component_replyi代表着第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数。n(component_replyi)表示第i个公共组件依赖指纹个数。依赖指纹重复度越高,则与该组件指纹越相似。
进一步的,得到与m个公共组件相似度为:
其中,α,β,γ都是可认为设定的参数。根据实际需求,可返回top-k个相似度最高的组件。
确定公共组件后,在S3步骤中需确定公共组件的精确版本。
所述组件精确版本相似度由版本语义特征相似度和版本函数特征相似度两部分构成。
进一步的,通过语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本向量(组件内含有n个向量)的余弦距离。匹配规则如下:
余弦距离越低,说明语义向量越接近,则与该版本指纹越相似。
进一步的,通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本函数指纹重复度,匹配规则如下:
其中version_funci代表着第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数。n(version_funci)表示第i个版本函数指纹个数。私有函数指纹重复度越高,则与该版本指纹越相似。
进一步的,组件的精确版本相似度为:
其中,δ,ε都是可认为设定的参数。根据实际需求,可返回top-k个相似度最高的组件版本。
进一步的,步骤S4中可根据二进制头文件信息获取二进制文件构架及操作系统等信息,结合S3步骤分析的公开组件的精确版本,则可实现二进制文件使用的公开组件的精确版本、架构、编译参数等详细信息。并结合组件知识图谱,可实现二进制组件健康度和漏洞等详细信息。
如图4所示,本发明另一实施方式涉及一种基于语义、函数以及依赖指纹的二进制组件检索装置,它包括特征提取模块、相似度计算模块、版本匹配模块和解析获取模块;
所述特征提取模块:用于提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;
所述相似度计算模块:用于根据语义特征、函数特征和依赖特征计算文件与公共指纹数据库的公共指纹相似度,得到公共组件类别;
所述版本匹配模块:用于将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;
所述解析获取模块:用于通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。
所述相似度计算模块包括公共组件语义指纹相似度计算单元、公共组件函数指纹相似度计算单元、公共组件依赖指纹相似度计算单元和公共组件相似度计算单元;
所述公共组件语义指纹相似度计算单元:用于通过根据语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个公共组件的聚类中心的余弦距离,其中,component_mi表示第i个公共组件语义指纹聚类中心,余弦距离越低,说明语义向量越接近,则与该组件指纹越相似;
所述公共组件函数指纹相似度计算单元:用于通过根据函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,其中component_funci表示第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数,n(component_funci)表示第i个公共组件函数指纹个数,函数指纹重复度越高,则与该组件指纹越相似;
所述公共依赖指纹相似计算单元:用于通过 根据依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,其中component_replyi表示第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数,n(component_replyi)表示第i个公共组件依赖指纹个数,依赖指纹重复度越高,则与该组件指纹越相似;
所述公共组件相似度计算单元:用于通过 计算与m个公共组件的相似度,其中,α,β,γ为设定的参数,根据实际需求,可返回top-k个相似度最高的组件。
所述版本匹配模块包括版本语义特征相似度计算单元、版本函数特征相似度计算单元和组件精确版本计算单元;
所述版本语义特征相似度计算单元:用于通过 根据语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本的向量余弦距离;
所述版本函数特征相似计算单元:用于通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本的函数指纹重复度,其中version_funci表示第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数,n(version_funci)表示第i个版本函数指纹个数,私有函数指纹重复度越高,则与该版本指纹越相似;
所述组件精确版本相似度计算单元:用于通过 计算组件精确版本相似度,其中,δ,ε为设定的参数根据实际需求,可返回top-k个相似度最高的组件版本。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种二进制组件检索方法,其特征在于:所述检索方法包括:
S1、提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;
S2、根据语义特征、函数特征和依赖特征计算文件与公共组件指纹数据库的公共组件指纹相似度,得到公共组件类别;
S3、将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;
S4、通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。
2.根据权利要求1所述的一种二进制组件检索方法,其特征在于:所述S1步骤具体包括:通过反汇编工具编写插件对组件集合的每个二进制文件提取IR信息,并将IR信息作为线性序列IR文本并通过深度学习模型BERT提取语义特征,提取二进制的函数方法变量、导入导出表以及二进制头文件信息,通过MD5算法转换为函数特征和依赖特征。
3.根据权利要求1所述的一种二进制组件检索方法,其特征在于:所述S2步骤中通过语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个公共组件的聚类中心的余弦距离,计算规则如下:
其中,component_mi表示第i个公共组件语义指纹聚类中心,余弦距离越低,说明语义向量越接近,则与该组件指纹越相似;
所述S2步骤中通过函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,计算规则如下:
其中component_funci表示第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数,n(component_funci)表示第i个公共组件函数指纹个数,函数指纹重复度越高,则与该组件指纹越相似;
通过依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,计算规则如下:
其中component_replyi表示第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数,n(component_replyi)表示第i个公共组件依赖指纹个数,依赖指纹重复度越高,则与该组件指纹越相似。
4.根据权利要求3所述的一种二进制组件检索方法,其特征在于:所述S2步骤中得到与m个公共组件指纹相似度为:
其中,α,β,γ为设定的参数,根据实际需求,可返回top-k个相似度最高的组件。
5.根据权利要求1所述的一种二进制组件检索方法,其特征在于:所述组件精确版本相似度包括版本语义特征相似度和版本函数特征相似度;通过语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本的向量余弦距离,计算规则如下:
余弦距离越低,则语义向量越近,与版本指纹越相似;
通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本的函数指纹重复度,计算规则如下:
其中version_funci表示第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数,n(version_funci)表示第i个版本函数指纹个数,私有函数指纹重复度越高,则与该版本指纹越相似。
6.根据权利要求5所述的一种二进制组件检索方法,其特征在于:所述组件精确版本相似度计算规则为:
其中,δ,ε为设定的参数根据实际需求,可返回top-k个相似度最高的组件版本。
7.一种二进制组件检索装置,其特征在于:它包括特征提取模块、相似度计算模块、版本匹配模块和解析获取模块;
所述特征提取模块:用于提取二进制文件的中间表示IR文本、函数方法变量、二进制导入导出表以及二进制头文件信息,并分别计算语义特征、函数特征和依赖特征;
所述相似度计算模块:用于根据语义特征、函数特征和依赖特征计算文件与公共指纹数据库的公共指纹相似度,得到公共组件类别;
所述版本匹配模块:用于将确定的二进制所属的公共组件后与私有指纹库进行匹配,得到组件精确版本相似度,进而获取组件对应的精确版本;
所述解析获取模块:用于通过解析二进制头文件信息得到该文件的架构以及操作系统,并结合组件知识图谱获取二进制对应的组件健康度和漏洞信息。
8.根据权利要求7所述的一种二进制组件检索装置,其特征在于:所述相似度计算模块包括公共组件语义指纹相似度计算单元、公共组件函数指纹相似度计算单元、公共组件依赖指纹相似度计算单元和公共组件相似度计算单元;
所述公共组件语义指纹相似度计算单元:用于通过根据语义特征计算公共组件语义指纹相似度,即语义特征Embedding与m个公共组件的聚类中心的余弦距离,其中,component_mi表示第i个公共组件语义指纹聚类中心,余弦距离越低,说明语义向量越接近,则与该组件指纹越相似;
所述公共组件函数指纹相似度计算单元:用于通过根据函数特征计算公共组件函数指纹相似度,即函数特征func与m个公共组件函数指纹重复度,其中component_funci表示第i个公共组件函数指纹,n(func∩component_funci)表示第i个公共组件函数指纹与函数特征func重复的个数,n(component_funci)表示第i个公共组件函数指纹个数,函数指纹重复度越高,则与该组件指纹越相似;
所述公共依赖指纹相似计算单元:用于通过 根据依赖特征计算公共组件依赖指纹相似度,即依赖特征reply与m个公共组件依赖指纹重复度,其中component_replyi表示第i个公共组件依赖指纹,n(reply∩component_replyi)表示第i个公共组件依赖指纹与依赖特征reply重复的个数,n(component_replyi)表示第i个公共组件依赖指纹个数,依赖指纹重复度越高,则与该组件指纹越相似;
所述公共组件相似度计算单元:用于通过 计算与m个公共组件的相似度,其中,α,β,γ为设定的参数,根据实际需求,可返回top-k个相似度最高的组件。
9.根据权利要求7所述的一种二进制组件检索装置,其特征在于:所述版本匹配模块包括版本语义特征相似度计算单元、版本函数特征相似度计算单元和组件精确版本计算单元;
所述版本语义特征相似度计算单元:用于通过 根据语义特征计算版本语义特征相似度,即语义特征Embedding与n个版本的向量余弦距离;
所述版本函数特征相似计算单元:用于通过去除公共指纹的私有函数特征计算版本函数指纹相似度,即私有函数特征func_c与n个版本的函数指纹重复度,其中version_funci表示第i个版本函数指纹,n(func_c∩version_funci)表示第i个版本函数指纹与私有函数特征func_c重复的个数,n(version_funci)表示第i个版本函数指纹个数,私有函数指纹重复度越高,则与该版本指纹越相似;
所述组件精确版本相似度计算单元:用于通过 计算组件精确版本相似度,其中,δ,ε为设定的参数根据实际需求,可返回top-k个相似度最高的组件版本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310751534.7A CN116804980A (zh) | 2023-06-25 | 2023-06-25 | 一种二进制组件检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310751534.7A CN116804980A (zh) | 2023-06-25 | 2023-06-25 | 一种二进制组件检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116804980A true CN116804980A (zh) | 2023-09-26 |
Family
ID=88080435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310751534.7A Pending CN116804980A (zh) | 2023-06-25 | 2023-06-25 | 一种二进制组件检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116804980A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436086A (zh) * | 2023-10-26 | 2024-01-23 | 华中科技大学 | 一种基于知识图谱的软件供应链安全分析方法及系统 |
CN117707953A (zh) * | 2023-12-13 | 2024-03-15 | 湖北天融信网络安全技术有限公司 | 二进制软件成分分析方法、装置、电子设备及存储介质 |
-
2023
- 2023-06-25 CN CN202310751534.7A patent/CN116804980A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436086A (zh) * | 2023-10-26 | 2024-01-23 | 华中科技大学 | 一种基于知识图谱的软件供应链安全分析方法及系统 |
CN117707953A (zh) * | 2023-12-13 | 2024-03-15 | 湖北天融信网络安全技术有限公司 | 二进制软件成分分析方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116804980A (zh) | 一种二进制组件检索方法及装置 | |
US9031935B2 (en) | Search system, search method, and program | |
US8140267B2 (en) | System and method for identifying similar molecules | |
Hetzner | A simple method for citation metadata extraction using hidden markov models | |
US9489414B2 (en) | Prefix burrows-wheeler transformations for creating and searching a merged lexeme set | |
CN113127339B (zh) | 一种Github开源平台数据的获取方法及源代码缺陷修复系统 | |
CN115576984A (zh) | 中文自然语言生成sql语句及跨数据库查询方法 | |
Chen et al. | BibPro: A citation parser based on sequence alignment | |
Valarakos et al. | Enhancing ontological knowledge through ontology population and enrichment | |
US20240311432A1 (en) | System and method for search discovery | |
CN111857660B (zh) | 一种基于查询语句的情境感知api推荐方法及终端 | |
US10558739B2 (en) | Prefix table generation for prefix burrows-wheeler transformation with fast operations on compressed data | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN118013526A (zh) | 一种基于llm多源异构信息融合的二进制漏洞数据集构建方法和装置 | |
CN117390130A (zh) | 一种基于多模态表示的代码搜索方法 | |
Khan et al. | A Review on Various Plagiarism Detection Systems Based on Exterior and Interior Method | |
CN118427842B (zh) | 基于llm的sast漏洞快速分析方法、装置及设备 | |
Kunjir et al. | Developing Machine Learning Coding Similarity Indicators for C and C++ Corpuses | |
CN115640577B (zh) | 一种针对二进制物联网固件程序的漏洞检测方法和系统 | |
Peterson et al. | A generalized bio-inspired method for discovering sequence-based signatures | |
Xia et al. | Design and implementation of a web news extraction system | |
CN116881642A (zh) | 一种基于深度学习的检测数据分析方法和系统 | |
CN117312707A (zh) | 一种基于动静特征结合的网站指纹生成方法 | |
CN115993972A (zh) | 敏感信息识别方法、系统、可读存储介质及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |