CN113723100B - 一种基于指纹特征的开源组件识别方法及装置 - Google Patents

一种基于指纹特征的开源组件识别方法及装置 Download PDF

Info

Publication number
CN113723100B
CN113723100B CN202111054962.1A CN202111054962A CN113723100B CN 113723100 B CN113723100 B CN 113723100B CN 202111054962 A CN202111054962 A CN 202111054962A CN 113723100 B CN113723100 B CN 113723100B
Authority
CN
China
Prior art keywords
source code
project
words
fingerprint feature
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111054962.1A
Other languages
English (en)
Other versions
CN113723100A (zh
Inventor
祁剑伟
张宾
刘明
马占祥
马大伟
靳晓雨
李志伟
李凯强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Digital Technology Holdings Co ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid Digital Technology Holdings Co ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Digital Technology Holdings Co ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid Digital Technology Holdings Co ltd
Priority to CN202111054962.1A priority Critical patent/CN113723100B/zh
Publication of CN113723100A publication Critical patent/CN113723100A/zh
Application granted granted Critical
Publication of CN113723100B publication Critical patent/CN113723100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本申请提供了一种基于指纹特征的开源组件识别方法及装置,该方法通过确定排列在前设定个数的目标源码单词和/或每个目标源码单词的出现频率,得到第一源码指纹特征和/或第二源码指纹特征,及通过确定排列在前设定个数的目标项目单词和/或每个目标项目单词的出现频率,得到第一项目指纹特征和/或第二项目指纹特征,基于第一源码指纹特征和/或第二源码指纹特征及第一项目指纹特征和/或第二项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,并保证开源组件识别的准确性。

Description

一种基于指纹特征的开源组件识别方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种基于指纹特征的开源组件识别方法及装置。
背景技术
目前,在开源项目开发过程中,一般会引用第三方开源组件,其中,在一些场景中,需要识别开源项目中的第三方开源组件。
但是,如何识别开源项目中的第三方开源组件成为问题。
发明内容
为解决上述技术问题,本申请实施例提供一种基于指纹特征的开源组件识别方法及装置,以达到保证开源组件识别的准确性的目的,技术方案如下:
一种基于指纹特征的开源组件识别方法,包括:
获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
可选的,所述从多个所述源码单词中,获取排列在前设定个数的所述目标源码单词,包括:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词;
所述从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,包括:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
可选的,所述基于所述第一源码指纹特征和/或所述第二源码指纹特征与所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度,包括:
确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果;
确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果;
和/或,
基于所述第一匹配结果和/或所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
可选的,所述方法还包括:
基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
可选的,所述方法还包括:
基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
一种基于指纹特征的开源组件识别装置,包括:
第一分词模块,用于获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
第一确定模块,用于从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
第二分词模块,用于获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
第二确定模块,用于从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
第三确定模块,用于基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
第四确定模块,用于若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
第五确定模块,用于在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
可选的,所述第一分词模块,具体用于:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词;
所述第二分词模块,具体用于:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
可选的,所述第三确定模块,具体用于:
确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果;
确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果;
和/或,
基于所述第一匹配结果和/或所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
可选的,所述装置还包括:
查询模块,用于基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
可选的,所述装置还包括:
生成模块,用于基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
与现有技术相比,本申请的有益效果为:
在本申请中,通过确定排列在前设定个数的目标源码单词和/或每个目标源码单词的出现频率,得到第一源码指纹特征和/或第二源码指纹特征,及通过确定排列在前设定个数的目标项目单词和/或每个目标项目单词的出现频率,得到第一项目指纹特征和/或第二项目指纹特征,基于第一源码指纹特征和/或第二源码指纹特征及第一项目指纹特征和/或第二项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,并保证开源组件识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1提供的一种基于指纹特征的开源组件识别方法的流程图;
图2是本申请实施例2提供的一种基于指纹特征的开源组件识别方法的流程图;
图3是本申请实施例3提供的一种基于指纹特征的开源组件识别方法的流程图;
图4是本申请实施例4提供的一种基于指纹特征的开源组件识别方法的流程图;
图5是本申请实施例5提供的一种基于指纹特征的开源组件识别方法的流程图;
图6是本申请实施例6提供的一种基于指纹特征的开源组件识别方法的流程图;
图7是本申请提供的一种基于指纹特征的开源组件识别装置的逻辑结构示意图。
实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,为本申请实施例1提供的一种基于指纹特征的开源组件识别方法的流程图,如图1所示,该方法可以包括但并不局限于以下步骤:
步骤S11、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词。
开源组件包括至少一个源码文件,如,*.war或*.jar格式的源码文件。
本实施例中,对所述开源组件中每个源码文件进行分词,可以包括:基于源码文件的语法(如,Java语言的关键词和/或符号),对所述开源组件中每个源码文件进行分词。
步骤S12、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征。
从多个所述源码单词中,获取排列在前设定个数的目标源码单词,可以理解为:从多个所述源码单词中,获取排列在前设定个数的源码单词,将获取到的排列在前设定个数的每个源码单词分别作为目标源码单词。
所述从多个所述源码单词中,获取排列在前设定个数的所述目标源码单词的过程,可以包括:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词。
冗余数据可以包括但不局限于:JAVA文件中的注释类信息(例如//,/* */部分),以及JAVA文件中的说明类信息(例如以@开头的信息)。
设定个数可以根据需要进行设置,在本申请中不做限制。设定个数可以为但不局限于:100个。
确定每个所述目标源码单词的出现频率,可以包括:
S121、确定每个所述目标源码单词在排列在前设定个数的目标源码单词中出现的次数;
S122、将每个所述目标源码单词在排列在前设定个数的目标源码单词中出现的次数除以设定个数,得到每个所述目标源码单词的出现频率。
步骤S13、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词。
项目程序包括至少一个项目文件,如,*.war或*.jar格式的项目文件。
对所述项目程序中每个项目文件进行分词,可以包括:基于项目文件的语法(如,Java语言的关键词和/或符号),对所述项目程序中每个项目文件进行分词。
步骤S14、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征。
从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,可以理解为:从多个所述项目单词中,获取排列在前所述设定个数的项目单词,将获取到的排列在前设定个数的每个项目单词分别作为目标项目单词。
所述从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词的过程,可以包括:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
冗余数据可以包括但不局限于:JAVA文件中的注释类信息(例如//,/* */部分),以及JAVA文件中的说明类信息(例如以@开头的信息)。
本步骤中设定个数与步骤S12中设定个数相同。
步骤S15、基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度。
本实施例中,可以通过比较所述第一源码指纹特征和/或所述第二源码指纹特征与所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度。
步骤S16、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件。
设定阈值可以根据需要进行设置,在本申请中不做限制。
步骤S17、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
设定文件个数阈值可以根据需要进行设置,在本申请中不做限制。
现举例对步骤S15-S17进行说明,例如,开源组件包括A1文件、A2文件、A3文件和A4文件,项目程序包括:B1文件、B2文件、B3文件和B4文件;
利用A1文件的第一指纹特征分别与和B1文件的第二指纹特征、B2文件的第二指纹特征、B3文件的第三指纹特征或B4的第四指纹特征,确定A1文件与B1文件、B2文件、B3文件或B4文件的相似度;
利用A2文件的第一指纹特征分别与和B1文件的第二指纹特征、B2文件的第二指纹特征、B3文件的第三指纹特征或B4的第四指纹特征,确定A1文件与B1文件、B2文件、B3文件或B4文件的相似度;
利用A3文件的第一指纹特征分别与和B1文件的第二指纹特征、B2文件的第二指纹特征、B3文件的第三指纹特征或B4的第四指纹特征,确定A1文件与B1文件、B2文件、B3文件或B4文件的相似度;
利用A4文件的第一指纹特征分别与和B1文件的第二指纹特征、B2文件的第二指纹特征、B3文件的第三指纹特征或B4的第四指纹特征,确定A1文件与B1文件、B2文件、B3文件或B4文件的相似度;
若A1文件和B1文件的相似度达到设定阈值,且A2文件和B2文件的相似度达到设定阈值,且A3文件和B3文件的相似度达到设定阈值,则可以确定属于开源组件的项目文件的个数为3,在设定文件个数阈值为3的情况下,则确定开源组件为项目程序引用的组件。
需要说明的是,该举例仅是对步骤S15-S17的其中一种示例,并不作为对步骤S15-S17的限制。
在本申请中,通过确定排列在前设定个数的目标源码单词和/或每个目标源码单词的出现频率,得到第一源码指纹特征和/或第二源码指纹特征,及通过确定排列在前设定个数的目标项目单词和/或每个目标项目单词的出现频率,得到第一项目指纹特征和/或第二项目指纹特征,基于第一源码指纹特征和/或第二源码指纹特征及第一项目指纹特征和/或第二项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,并保证开源组件识别的准确性。
作为本申请另一可选实施例,参照图2,为本申请实施例2提供的一种基于指纹特征的开源组件识别方法的流程图,本实施例主要是对上述实施例1描述的基于指纹特征的开源组件识别方法的细化方案,如图2所示,该方法可以包括但并不局限于以下步骤:
步骤S21、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词。
步骤S22、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,将所述目标源码单词作为第一源码指纹特征。
步骤S22为实施例1中步骤S11的一种具体实施方式。
步骤S23、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词。
步骤S24、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,将所述目标项目单词作为第一项目指纹特征。
步骤S24为实施例1中步骤S14的一种具体实施方式。
步骤S25、确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果。
本实施例中,可以分别确定每个所述第一源码指纹特征与每个所述第一项目指纹特征是否匹配,得到第一匹配结果。
步骤S26、基于所述第一匹配结果,确定所述源码文件和所述项目文件的相似度。
基于所述第一匹配结果,可以统计第一匹配结果为匹配的个数,将第一匹配结果为匹配的个数作为第一目标个数,将第一目标个数乘以设定分数(如,0.5分),得到第一目标分数,将第一目标分数作为源码文件和项目文件的相似度。
步骤S25-S26为实施例1中步骤S15的一种具体实施方式。
步骤S27、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件。
相似度达到设定阈值,可以包括:第一目标分数达到第一设定分数阈值。
步骤S28、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
步骤S27-S28的详细过程可以参见实施例1中步骤S16-S17的相关介绍,在此不再赘述。
在本申请中,通过确定排列在前设定个数的目标源码单词,得到第一源码指纹特征,及通过确定排列在前设定个数的目标项目单词,得到第一项目指纹特征,基于第一源码指纹特征及第一项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,并保证开源组件识别的准确性。
作为本申请另一可选实施例,参照图3,为本申请实施例3提供的一种基于指纹特征的开源组件识别方法的流程图,本实施例主要是对上述实施例1描述的基于指纹特征的开源组件识别方法的细化方案,如图3所示,该方法可以包括但并不局限于以下步骤:
步骤S31、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词。
步骤S32、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,并确定每个所述目标源码单词的出现频率,将所述目标源码单词的出现频率作为第二源码指纹特征。
步骤S32为实施例1中步骤S11的一种具体实施方式。
步骤S33、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词。
步骤S34、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,并确定每个所述目标项目单词的出现频率,将所述目标项目单词的出现频率作为第二项目指纹特征。
步骤S34为实施例1中步骤S14的一种具体实施方式。
步骤S35、确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果。
本实施例中,可以分别确定每个所述第二源码指纹特征与每个所述第二项目指纹特征是否匹配,得到第二匹配结果。
步骤S36、基于所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
基于所述第二匹配结果,可以统计第二匹配结果为匹配的个数,将第二匹配结果为匹配的个数作为第二目标个数,将第二目标个数乘以设定分数(如,0.5分),得到第二目标分数,将第二目标分数作为源码文件和项目文件的相似度。
步骤S25-S26为实施例1中步骤S15的一种具体实施方式。
步骤S27、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件。
相似度达到设定阈值,可以包括:第二目标分数达到第二设定分数阈值。
步骤S28、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
步骤S27-S28的详细过程可以参见实施例1中步骤S16-S17的相关介绍,在此不再赘述。
在本申请中,通过确定排列在前设定个数的目标源码单词,确定每个所述目标源码单词的出现频率,得到第二源码指纹特征,及通过确定排列在前设定个数的目标项目单词,确定每个所述目标项目单词的出现频率,得到第二项目指纹特征,基于第二源码指纹特征及第二项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,并保证开源组件识别的准确性。
作为本申请另一可选实施例,参照图4,为本申请实施例4提供的一种基于指纹特征的开源组件识别方法的流程图,本实施例主要是对上述实施例1描述的基于指纹特征的开源组件识别方法的细化方案,如图4所示,该方法可以包括但并不局限于以下步骤:
步骤S41、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词。
步骤S42、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,确定每个所述目标源码单词的出现频率,将所述目标源码单词的出现频率作为第二源码指纹特征。
步骤S42为实施例1中步骤S12的一种具体实施方式。
步骤S43、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词。
步骤S44、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,确定每个所述目标项目单词的出现频率,将所述目标项目单词的出现频率作为第二项目指纹特征。
步骤S44为实施例1中步骤S14的一种具体实施方式。
步骤S45、确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果。
本实施例中,可以分别确定每个所述第一源码指纹特征与每个所述第一项目指纹特征是否匹配,得到第一匹配结果。
步骤S46、确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果。
步骤S47、基于所述第一匹配结果和所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
基于所述第一匹配结果和所述第二匹配结果,确定所述源码文件和所述项目文件的相似度,可以包括:
统计第一匹配结果为匹配的个数,将第一匹配结果为匹配的个数作为第一目标个数,并统计第一匹配结果和第二匹配结果均为匹配的个数;
将第一匹配结果和第二匹配结果均为匹配的个数作为第二目标个数,将第一目标个数乘以第一设定分数(如,0.5分),得到第一分数,将第二目标个数乘以第二设定分数(如,1分),得到第二分数,将第一分数与第二分数之和作为第三目标分数;
将第三目标分数作为源码文件和项目文件的相似度。
步骤S45-S47为实施例1中步骤S15的一种具体实施方式。
步骤S48、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件。
相似度达到设定阈值,可以包括:第三目标分数达到第三设定分数阈值。第三设定分数阈值可以根据需要进行设置,在本申请中不做限制。第三设定分数阈值可以为但不局限于:85分。
步骤S49、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
步骤S48-S49的详细过程可以参见实施例1中步骤S16-S17的相关介绍,在此不再赘述。
在本申请中,通过确定排列在前设定个数的目标源码单词和每个目标源码单词的出现频率,得到第一源码指纹特征和第二源码指纹特征,及通过确定排列在前设定个数的目标项目单词和每个目标项目单词的出现频率,得到第一项目指纹特征和第二项目指纹特征,基于第一源码指纹特征和第二源码指纹特征及第一项目指纹特征和第二项目指纹特征,确定源码文件和项目文件的相似度,进而确定开源组件是否属于项目程序引用的程序,完成对开源组件的识别,可以进一步提高开源组件识别的准确性。
作为本申请另一可选实施例,参照图5,为本申请实施例5提供的一种基于指纹特征的开源组件识别方法的流程图,本实施例主要是对上述实施例1描述的基于指纹特征的开源组件识别方法的扩展方案,如图5所示,该方法可以包括但并不局限于以下步骤:
步骤S51、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
步骤S52、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
步骤S53、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
步骤S54、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
步骤S55、基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
步骤S56、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
步骤S57、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
步骤S51-S57的详细过程可以参见实施例1中步骤S11-S17的相关介绍,在此不再赘述。
步骤S58、基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
本实施例中,项目程序的关键信息可以包括但不局限于:项目名称及公司名称。
安全漏洞数据库可以为:线上数据库(如,安全漏洞网站)或本地数据库。
基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞,可以及时发现项目程序存在的安全漏洞,保证项目程序的安全性。
作为本申请另一可选实施例,参照图6,为本申请实施例6提供的一种基于指纹特征的开源组件识别方法的流程图,本实施例主要是对上述实施例5描述的基于指纹特征的开源组件识别方法的扩展方案,如图6所示,该方法可以包括但并不局限于以下步骤:
步骤S61、获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
步骤S62、从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
步骤S63、获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
步骤S64、从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
步骤S65、基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
步骤S66、若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
步骤S67、在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
步骤S68、基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
步骤S61-S68的详细过程可以参见实施例5中步骤S51-S58的相关介绍,在此不再赘述。
步骤S69、基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
本实施例中,可以对所述项目程序进行软件成分分析,生成软件成分分析报告。软件成分分析报告可以为但不局限于:可视化的软件成分分析报告。
本实施例中,基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告,可以更直观的展示项目程序,提高对项目程序维护的便利性。
接下来对本申请提供的基于指纹特征的开源组件识别装置进行介绍,下文介绍的基于指纹特征的开源组件识别装置与上文介绍的基于指纹特征的开源组件识别方法可相互对应参照。
请参见图7,基于指纹特征的开源组件识别装置包括:第一分词模块100、第一确定模块200、第二分词模块300、第二确定模块400、第三确定模块500、第四确定模块600和第五确定模块700。
第一分词模块100,用于获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
第一确定模块200,用于从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
第二分词模块300,用于获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
第二确定模块400,用于从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
第三确定模块500,用于基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
第四确定模块600,用于若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
第五确定模块700,用于在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
本实施例中,所述第一分词模块100,具体可以用于:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词;
所述第二分词模块300,具体可以用于:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
本实施例中,所述第三确定模块500,具体可以用于:
确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果;
确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果;
和/或,
基于所述第一匹配结果和/或所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
本实施例中,上述装置还可以包括:
查询模块,用于基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
本实施例中,上述装置还可以包括:
生成模块,用于基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者电子设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种基于指纹特征的开源组件识别方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于指纹特征的开源组件识别方法,其特征在于,包括:
获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
2.根据权利要求1所述的方法,其特征在于,所述从多个所述源码单词中,获取排列在前设定个数的所述目标源码单词,包括:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词;
所述从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,包括:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一源码指纹特征和/或所述第二源码指纹特征与所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度,包括:
确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果;
确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果;
和/或,
基于所述第一匹配结果和/或所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
6.一种基于指纹特征的开源组件识别装置,其特征在于,包括:
第一分词模块,用于获取开源组件,对所述开源组件中每个源码文件进行分词,得到多个源码单词;
第一确定模块,用于从多个所述源码单词中,获取排列在前设定个数的目标源码单词,和/或,确定每个所述目标源码单词的出现频率,将所述目标源码单词作为第一源码指纹特征,将所述目标源码单词的出现频率作为第二源码指纹特征;
第二分词模块,用于获取项目程序,对所述项目程序中每个项目文件进行分词,得到多个项目单词;
第二确定模块,用于从多个所述项目单词中,获取排列在前所述设定个数的目标项目单词,和/或,确定每个所述目标项目单词的出现频率,将所述目标项目单词作为第一项目指纹特征,将所述目标项目单词的出现频率作为第二项目指纹特征;
第三确定模块,用于基于所述第一源码指纹特征和/或所述第二源码指纹特征及所述第一项目指纹特征和/或所述第二项目指纹特征,确定所述源码文件和所述项目文件的相似度;
第四确定模块,用于若所述相似度达到设定阈值,则确定所述项目文件属于所述开源组件;
第五确定模块,用于在属于所述开源组件的所述项目文件的个数达到设定文件个数阈值的情况下,确定所述开源组件为所述项目程序引用的组件。
7.根据权利要求6所述的装置,其特征在于,所述第一分词模块,具体用于:
去除多个所述源码单词中的冗余数据,从去除所述冗余数据后的源码单词中获取排列在前设定个数的所述目标源码单词;
所述第二分词模块,具体用于:
去除多个所述项目单词中的冗余数据,从去除所述冗余数据后的项目单词中获取排列在前所述设定个数的目标项目单词。
8.根据权利要求6所述的装置,其特征在于,所述第三确定模块,具体用于:
确定每个所述第一源码指纹特征,与每个所述第一项目指纹特征之间的第一匹配结果;
确定每个所述第二源码指纹特征,与每个所述第二项目指纹特征之间的第二匹配结果;
和/或,
基于所述第一匹配结果和/或所述第二匹配结果,确定所述源码文件和所述项目文件的相似度。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
查询模块,用于基于所述项目程序的关键信息,在安全漏洞数据库中查询所述项目程序对应的安全漏洞。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
生成模块,用于基于所述项目程序,生成软件成分分析报告,及基于所述项目程序对应的安全漏洞,生成漏洞报告。
CN202111054962.1A 2021-09-09 2021-09-09 一种基于指纹特征的开源组件识别方法及装置 Active CN113723100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111054962.1A CN113723100B (zh) 2021-09-09 2021-09-09 一种基于指纹特征的开源组件识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111054962.1A CN113723100B (zh) 2021-09-09 2021-09-09 一种基于指纹特征的开源组件识别方法及装置

Publications (2)

Publication Number Publication Date
CN113723100A CN113723100A (zh) 2021-11-30
CN113723100B true CN113723100B (zh) 2023-10-13

Family

ID=78682937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111054962.1A Active CN113723100B (zh) 2021-09-09 2021-09-09 一种基于指纹特征的开源组件识别方法及装置

Country Status (1)

Country Link
CN (1) CN113723100B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825941A (zh) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 一种内容管理系统识别方法、装置和存储介质
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
CN111367566A (zh) * 2019-06-27 2020-07-03 北京关键科技股份有限公司 混源代码特征提取与匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018207068A1 (en) * 2017-01-11 2019-07-25 Magic Leap, Inc. Medical assistant

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367566A (zh) * 2019-06-27 2020-07-03 北京关键科技股份有限公司 混源代码特征提取与匹配方法
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
CN110825941A (zh) * 2019-10-17 2020-02-21 北京天融信网络安全技术有限公司 一种内容管理系统识别方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于源码与二进制文件的漏洞挖掘技术;傅涛;;软件(第07期);全文 *

Also Published As

Publication number Publication date
CN113723100A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US20230334254A1 (en) Fact checking
US11716349B2 (en) Machine learning detection of database injection attacks
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
US8442926B2 (en) Information filtering system, information filtering method and information filtering program
AU2013329525C1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
Rajalakshmi et al. A Naive Bayes approach for URL classification with supervised feature selection and rejection framework
US20120124064A1 (en) Transformation of regular expressions
CN105378731A (zh) 从被回答问题关联语料库/语料值
CN113656807B (zh) 一种漏洞管理方法、装置、设备及存储介质
WO2009087996A1 (ja) 情報抽出装置及び情報抽出システム
US20120179658A1 (en) Cleansing a Database System to Improve Data Quality
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN107180084A (zh) 词库更新方法及装置
Tao et al. Logstamp: Automatic online log parsing based on sequence labelling
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
Chen et al. Label distribution‐based noise correction for multiclass crowdsourcing
US11604923B2 (en) High volume message classification and distribution
CN113268630B (zh) 一种音频检索方法、设备及介质
CN114372267A (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
CN116662555B (zh) 一种请求文本处理方法、装置、电子设备及存储介质
CN113723100B (zh) 一种基于指纹特征的开源组件识别方法及装置
JP2023145767A (ja) 語彙抽出支援システムおよび語彙抽出支援方法
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
Zhang et al. Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100032 room 8018, 8 / F, building 7, Guangyi street, Xicheng District, Beijing

Applicant after: State Grid Digital Technology Holdings Co.,Ltd.

Applicant after: State Grid E-Commerce Technology Co.,Ltd.

Address before: Xianglong business building, 311 guang'anmennei street, Xicheng District, Beijing 100032

Applicant before: STATE GRID ELECTRONIC COMMERCE Co.,Ltd.

Applicant before: State Grid E-Commerce Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant