CN108710564A

CN108710564A - 基于大数据的源代码综合评测平台

Info

Publication number: CN108710564A
Application number: CN201710835154.6A
Authority: CN
Inventors: 罗峋; 陈虹兵; 但吉兵
Original assignee: Suzhou Prism Colorful Mdt Infotech Ltd
Current assignee: Suzhou Prism Colorful Mdt Infotech Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2018-10-26
Anticipated expiration: 2037-09-15
Also published as: CN108710564B

Abstract

本发明涉及一种本发明的基于大数据的源代码综合评测平台，包括有前端系统、后端系统、检测系统、数据获取与存储系统四个子系统，前端系统，用于数据展示和用户交互；后端系统，用于系统配置、任务调度、检测结果分析、存储与交换；检测系统，用于各种系统检测功能和算法的实现及检测分析，并能进行定制扩展；数据获取与存储系统，用于数据获取、清洗、更新、备份、同步和存储。由此，本平台能部署在计算机集群中，或是部署在单机中。通过大数据平台建立海量源代码知识库，能利用多种专门的检测算法和加速算法，可全面解决源代码克隆、静态检测、漏洞检测、木马后门检测、工作量评估、科技含量评估、知识产权保护等需求。

Description

基于大数据的源代码综合评测平台

技术领域

本发明涉及一种评测平台，尤其涉及一种基于大数据的源代码综合评测平台。

背景技术

随着时代发展，IT行业日新月异，但软件源代码黑匣子问题一直困扰着整个软件行业。

由于软件源代码具有一定专业门槛，深奥且晦涩，导致源代码对于项目作者以外的人而言，其构成来源未知、安全漏洞未知、科技含量未知、实际(工作量)成本未知、知识侵权风险未知等等问题。这将在信息安全、研发管理、软件测试、知识产权等多方面给软件工程带来诸多隐患。而随着开源项目的发展，现在90％的软件开发项目中都会用到开源组件和第三方组件，开源组件和第三方组件的成分、漏洞及许可证情况犹如黑匣子般无从知晓，给软件开发和集成带来了潜在风险。

对于国防、国安、军工、航天等关键行业和特殊行业，开源软件成分和漏洞情况需要进行评估和审查，避免有漏洞、木马或者后门，而源代码的复杂性使得人工评估和审查工作量巨大，甚至对于某些大型项目的完全评估和审查是不可行的。

在大型软件系统中，代码的雷同、抄袭现象频发，人们维权意识增强，一些代码克隆侵犯了其他软件公司的知识产权。为保护软件产权，软件公司提前做好软件技术秘密的认定、保密措施，申请专利权、软件著作权登记。但是在发生侵权行为后，需要对软件产品进行判定，以维护自己的权利，现阶段没有快速有效的技术手段进行抄袭判断，使得维权困难。

另外，在软件开发管理中，开发人员的工作量预估及软件开发完成后所花工时与软件工作含量是否匹配，目前还没有客观的评测手段和评测数据作为参考；在软件型企业并购中，被并购企业的软件是否具有自主知识产权和技术含量，目前也没有相应的评价措施。

面对以上应用需求，目前国内还没有有效的技术方案全面解决这些需求。目前有一些研究机构对部分需求(如克隆检测)进行了初步研究，但研究较为初级和单一。

本发明通过大数据平台建立海量项目知识库，利用多种专门的检测算法和加速算法，可全面解决源代码克隆、静态检测、漏洞检测、木马后门检测、工作量评估、科技含量评估、知识产权保护等需求。

有鉴于上述的缺陷，本设计人，积极加以研究创新，以期创设一种基于大数据的源代码综合评测平台，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于大数据的源代码综合评测平台。

本发明的基于大数据的源代码综合评测平台，包括有前端系统、后端系统、检测系统、数据获取与存储系统四个子系统，其中：

所述前端系统，用于数据展示和用户交互；

所述后端系统，用于系统配置、任务调度、检测结果分析、存储与交换；

所述检测系统，用于各种系统检测功能和算法的实现及检测分析，并能进行定制扩展；

所述数据获取与存储系统，用于数据获取、清洗、更新、备份、同步和存储；

本平台能部署在计算机集群中，或是部署在单机中。

进一步地，上述的基于大数据的源代码综合评测平台，其中，所述前端系统为网站、客户端和APP中的一种或是多种结合。

更进一步地，上述的基于大数据的源代码综合评测平台，其中，所述后端系统，包括任务调度模块、系统配置模块、结果分析存储模块，

所述任务调度模块，用于平台执行任务的分配调度；

所述系统配置模块，用于平台参数和功能设置；

所述结果分析存储模块，用于分析和存储检测结果。

更进一步地，上述的基于大数据的源代码综合评测平台，其中，所述检测系统，包括预处理模块、代码成分检测模块、相似度检测模块、许可证检测模块、组件检测模块、通信协议检测模块、加密算法检测模块、漏洞检测模块、木马后门检测模块和静态检测模块；

所述预处理模块，用于将源代码转换为指纹信息、并提取指纹信息特征值并存储在指纹数据库中；

所述代码成分检测模块，用于检测项目中的代码成分；

所述相似度检测模块，用于检测项目与知识库中已有项目或文件的相似度信息或者克隆度信息；

所述许可证检测模块，用于检测项目的许可证种类及版权要求信息；

所述组件检测模块，用于检测项目中的组件信息；

所述通信协议检测模块，用于检测项目中所使用的通信协议种类；

所述加密算法检测模块，用于检测项目中使用的加密算法；

所述漏洞检测模块，用于检测项目自身或是使用的组件的漏洞信息；

所述木马后门检测模块，用于检测项目中的木马后门信息；

所述静态检测模块，用于对源代码进行静态分析检测。

更进一步地，上述的基于大数据的源代码综合评测平台，其中，所述代码成分为编程语言种类、代码行数、文件夹数量、文件数量、文件大小信息、文件后缀种类；所述检测项目中的组件信息包括使用的组件的名称、版本。

更进一步地，上述的基于大数据的源代码综合评测平台，其中，

所述知识库存储模块，用于存储已搜集和已检测的所有开源项目和已检测项目的信息；

所述知识库获取模块用于搜集全球开源项目的源代码、许可证信息、漏洞信息、木马后门信息、加密信息及已检测的源代码项目等并存入知识库存储模块，所述知识库获取模块支持自动更新和人工更新；

所述同步与备份模块用于同步和备份检测系统和数据获取与存储系统的数据信息；

所述文件管理模块用于管理平台所有的文件及数据信息。

再进一步地，上述的基于大数据的源代码综合评测平台，其中，所述所有开源项目和已检测项目的信息包括项目名、组件名、版本、源文件、许可证、漏洞、木马后门、通信协议、加密算法、静态检测规则信息。

借由上述方案，本发明至少具有以下优点：

通过大数据平台建立海量项目知识库，能利用多种专门的检测算法和加速算法，可全面解决源代码克隆、静态检测、漏洞检测、木马后门检测、加密检测、通信协议检测、工作量评估、科技含量评估、知识产权保护等需求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是基于大数据的源代码综合评测平台的架构示意图。

图2是基于大数据的源代码综合评测平台的应用构架示意图。

图3是基于大数据的源代码综合评测平台的软件前端系统界面示意图。

图4是检测系统的构架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示基于大数据的源代码综合评测平台，从其框架图可以看出，包含前端系统1、后端系统2、检测系统3、数据获取与存储系统4四个子功能系统，可部署在分布式集群或者单机系统中。为了便于实施，使用Spark搭建分布式服务器集群，使用Hbase作为存储方案。本发明为基于大数据架构平台，包括但不限于Hadoop、Spark、Storm、Hive和结合使用方案。

结合本发明一较佳的实施方式来看，前端系统1采用网站方式，构建后的网站界面可如图2所示。同时，后端系统2能用于系统配置、任务调度、结果分析存储模块。

具体来说，采用任务调度模块201用于平台执行任务的分配调度。任务调度包括，预处理任务、成分检测任务、相似度检测模块任务、许可证检测任务、组件检测任务、通信协议检测任务、加密算法检测检测任务、漏洞检测任务、木马后门检测任务、静态检测任务、结果分析任务、数据更新任务、数据同步与存储任务、数据展示任务等多种方式。

通过系统配置模块202用于平台参数和功能设置，可包括源代码种类设置、文件级检测设置、代码级检测设置、检测细粒度设置、结果分析阈值设置、用户管理及权限设置、静态检测设置、检测报告设置等。

考虑到数据实际处理的需要，可依托于分析存储模块203来分析和存储检测结果。所涉及的内容，可包括被检测源代码文件数量、编程语言种类及数量、许可证种类和数量、漏洞情况、相似开源项目、静态分析结果、木马后门检测结果、加密算法等。

如图4所示，考虑到处理期间拥有较佳的算法，避免出现无效数据堆积，检测系统3主要包含一系列检测和分析算法，包括预处理模块301、代码成分检测模块302、相似度检测模块303、许可证检测模块304、组件检测模块305、通信协议检测模块306、加密算法检测模块307、漏洞检测模块308、木马后门检测模块309和静态检测模块310。

为了使平台不用提供源码也可进行检测，可采用预处理模块301将源代码转换为指纹信息和特征值并进行存储，转换方法可以采用多语言词法分析器和哈希算法共同完成源代码指纹信息的生成。并且，可采用成分检测模块302来分析被检测项目的编程语言种类、每种编程语言的文件数量、大小。

考虑到相似度或是克隆度的判别，采用相似度检测模块303来检测被检测项目和文件与知识库中项目或文件的相似度或者克隆度。这样，能够利用预处理模块的指纹信息及特征值信息，与知识库中的指纹信息比对分析。在实际实施期间，知识库存储了待检测源代码和平台所有源代码的指纹数据及指纹特征数据，可以使用Hbase作为数据库。

进一步来看，许可证检测模块304能用于检测源代码许可证种类及版权要求信息，通过被检项目使用的开源项目信息，匹配该开源项目所使用的所有许可证信息，并对许可证风险进行警示，提升实施安全性。与之对应的是，可利用组件检测模块305来检测源代码中使用的组件种类、版本、数量。

考虑到各类数据通讯的安全性，采用通信协议检测模块306来检测源代码中使用的通信协议种类。同时，利用加密算法检测模块307来检测源代码中使用的加密方式和加密算法。为了能够检测项目自身或者使用的组件的漏洞信息，设置有独立的漏洞检测模块308。

并且，本发明采用的木马后门检测模块309可用于对源代码中的木马后门信息进行检测，使用自研的木马后门特征检测算法。可通过静态检测模块310用于对源代码进行静态分析检测。在实际实施期间，该模块可以使用自研模块，也可接入第三方静态检测系统，如Fortify。

再进一步来看，本发明采用的数据获取与存储系统4包括知识库存储模块401、知识库获取模块402、同步与备份模块403和文件管理模块404。

具体来说，知识库存储模块401，能用于存储已搜集和已检测的所有开源项目和已检测项目的信息，包括项目名、组件名、版本、源文件、许可证、漏洞、木马后门、通信协议、加密算法、静态检测规则等信息，数据库可以采用Hbase。

知识库获取模块402，可用于搜集全球开源项目的源代码、许可证信息、漏洞信息、木马后门信息、加密信息及已检测的源代码项目等并存入知识库存储模块，所述知识库获取模块支持自动更新和人工更新，主要获取的开源项目来源包括但不限于Github、Sourceforge等。

同步与备份模块403，可用于同步和备份检测系统和数据获取与存储系统的数据信息。同时，能利用文件管理模块404来管理平台所有的文件及数据信息。

结合图2来看，其是在图1架构图的基础上的应用实施。

前端系统采用Web网站，用户1、用户2、用户3、用户4可通过计算机访问平台系统，上传项目、配置系统、查询结果等。前端系统对后台系统输出系统配置信息，对检测系统输出待检测项目数据信息。

后台系统包含系统配置模块、任务调度模块、结果分析存储模块。实施期间，后台系统对前端系统输出结果数据进行结果展示，对检测系统和数据获取系统输出任务配置与调度信息。

检测系统主要包含各做计算和检测算法模块。预处理模块包含指纹生成、指纹特征提取和指纹数据存储，检测算法包括成分检测、相似度检测模块、许可证检测、组件检测、通信协议检测、加密算法检测、漏洞检测、木马后门检测和静态检测。检测系统对后台系统输出检测结果，对存储系统输出项目信息，包括代码文本、代码指纹、许可证信息、漏洞信息、木马后门信息、加密算法、通信协议等。

再者，数据获取与存储系统包含互联网获取数据和人工获取数据两种方式，存储系统包含项目代码库、项目漏洞库、木马后门库、代码指纹库和许可证库，数据获取系统对检测系统输出获取的项目信息，存储系统对检测系统输出参考比对项目信息。

再实际实施时候，可如图3所示，将本发明通过软件来执行，这个软件的执行界面简洁明了，易于操作。

本发明的工作原理如下：

用户上传待检测项目，经过成分检测模块检测出项目信息，如项目名称、文件数量、编程语言及种类等。同时，基于项目源代码可同时进行静态检测、木马后门检测、通信协议检测、加密算法检测，检测出被检项目的代码缺陷、木马后门、通信协议、加密算法。预处理模块将源代码转换为代码指纹信息，在进一步通过相似度检测模块和组件检测模块，检测出被检项目与知识库中项目的相似度信息和使用的组件信息。然后，再进行许可证检测和漏洞检测，检测出被检测项目中包含的许可证信息和漏洞信息。从而综合评判被检测项目的安全性和知识产权信息。

通过上述的文字表述并结合附图可以看出，采用本发明后，拥有如下优点：

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.基于大数据的源代码综合评测平台，包括有前端系统(1)、后端系统(2)、检测系统(3)、数据获取与存储系统(4)四个子系统，其特征在于：

所述前端系统(1)，用于数据展示和用户交互；

所述后端系统(2)，用于系统配置、任务调度、检测结果分析、存储与交换；

所述检测系统(3)，用于各种系统检测功能和算法的实现及检测分析，并能进行定制扩展；

所述数据获取与存储系统(4)，用于数据获取、清洗、更新、备份、同步和存储；

本平台能部署在计算机集群中，或是部署在单机中。

2.根据权利要求1所述的基于大数据的源代码综合评测平台，其特征在于：所述前端系统(1)为网站(101)、客户端(102)和APP(103)中的一种或是多种结合。

3.根据权利要求1所述的基于大数据的源代码综合评测平台，其特征在于：所述后端系统(2)，包括任务调度模块(201)、系统配置模块(202)、结果分析存储模块(203)，

所述任务调度模块(201)，用于平台执行任务的分配调度；

所述系统配置模块(202)，用于平台参数和功能设置；

所述结果分析存储模块(203)，用于分析和存储检测结果。

4.根据权利要求1所述的基于大数据的源代码综合评测平台，其特征在于：所述检测系统(3)，包括预处理模块(301)、代码成分检测模块(302)、相似度检测模块(303)、许可证检测模块(304)、组件检测模块(305)、通信协议检测模块(306)、加密算法检测模块(307)、漏洞检测模块(308)、木马后门检测模块(309)和静态检测模块(310)；

所述预处理模块(301)，用于将源代码转换为指纹信息、并提取指纹信息特征值并存储在指纹数据库中；

所述代码成分检测模块(302)，用于检测项目中的代码成分；

所述相似度检测模块(303)，用于检测项目与知识库中已有项目或文件的相似度信息或者克隆度信息；

所述许可证检测模块(304)，用于检测项目的许可证种类及版权要求信息；

所述组件检测模块(305)，用于检测项目中的组件信息；

所述通信协议检测模块(306)，用于检测项目中所使用的通信协议种类；

所述加密算法检测模块(307)，用于检测项目中使用的加密算法；

所述漏洞检测模块(308)，用于检测项目自身或是使用的组件的漏洞信息；

所述木马后门检测模块(309)，用于检测项目中的木马后门信息；

所述静态检测模块(310)，用于对源代码进行静态分析检测。

5.根据权利要求4所述的基于大数据的源代码综合评测平台，其特征在于：所述代码成分为编程语言种类、代码行数、文件夹数量、文件数量、文件大小信息、文件后缀种类；所述检测项目中的组件信息包括使用的组件的名称、版本。

6.根据权利要求1所述的基于大数据的源代码综合评测平台，其特征在于：所述数据获取与存储系统(4)，包括知识库存储模块(401)、知识库获取模块(402)、同步与备份模块(403)和文件管理模块(404)；

所述知识库存储模块(401)，用于存储已搜集和已检测的所有开源项目和已检测项目的信息；

所述知识库获取模块(402)用于搜集全球开源项目的源代码、许可证信息、漏洞信息、木马后门信息、加密信息及已检测的源代码项目等并存入知识库存储模块(401)，所述知识库获取模块(402)支持自动更新和人工更新；

所述同步与备份模块(403)用于同步和备份检测系统(3)和数据获取与存储系统(4)的数据信息；

所述文件管理模块(404)用于管理平台所有的文件及数据信息。

7.根据权利要求6所述的基于大数据的源代码综合评测平台，其特征在于：所述所有开源项目和已检测项目的信息包括项目名、组件名、版本、源文件、许可证、漏洞、木马后门、通信协议、加密算法、静态检测规则信息。