CN114417422A

CN114417422A - 一种代码仓库中敏感信息的自动保护方法和装置

Info

Publication number: CN114417422A
Application number: CN202210095770.3A
Authority: CN
Inventors: 肖宝粮; 叶静涛
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-29

Abstract

本申请公开了一种代码仓库中敏感信息的自动保护方法和装置，具体为当代码仓库中有新提交的代码文件时，获取代码文件和代码文件的提交记录；对代码文件进行智能识别，识别出其中的敏感信息；对代码文件和提交记录进行脱敏处理；对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将交付物提交到代码仓库。通过该方案即可自动完成对敏感信息的脱敏处理，而无需开发人员通过手工方式对敏感信息的处理，从而降低了程序开发的人工成本。

Description

一种代码仓库中敏感信息的自动保护方法和装置

技术领域

本申请涉及程序开发技术领域，更具体地说，涉及一种代码仓库中敏感信息的自动保护方法和装置。

背景技术

代码仓库用于存储在程序开发过程中重复应用于的程序代码，能够减轻开发人员的工作量。原则上开发人员上传的代码中不能包括敏感信息，但因为人员素质参差不齐或者其他因素，导致敏感信息的误提交是一个很常见的问题，因此经常出现需要清理敏感信息的情况。

目前对代码仓库中敏感信息的发现和处理都是人工方式处理的，开发人员发现代码仓库中存在敏感信息后，需要手动清理代码，然后重新提交到代码仓库，还需要在提交历史记录中手动清理历史记录中的敏感信息才能完成本次敏感信息的清理工作，需要耗费开发人员的大量工作量，相应增加了程序开发的人工成本。

发明内容

有鉴于此，本申请提供一种代码仓库中敏感信息的自动保护方法和装置，用于自动理代码仓库中的敏感信息，以降低程序开发的人工成本。

为了实现上述目的，现提出的方案如下：

一种代码仓库中敏感信息的自动保护方法，所述自动保护方法包括步骤：

当所述代码仓库中有新提交的代码文件时，获取所述代码文件和所述代码文件的提交记录；

对所述代码文件进行智能识别，识别出其中的敏感信息；

对所述代码文件和所述提交记录进行脱敏处理；

对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将所述交付物提交到所述代码仓库。

可选的，所述获取所述代码文件和所述代码文件的提交记录，包括步骤：

响应所述代码仓库触发的Webhook事件，从所述代码仓库获取所述代码文件和所述提交记录，并将所述代码文件和所述提交记录记录于本地。

可选的，所述对所述代码文件进行智能识别，识别出其中的敏感信息，包括步骤：

对所述代码文件进行逐行解析，从中得到多个源码段；

依次对每个所述源码段进行源码分析，识别出其中的敏感信息。

可选的，所述依次对每个所述源码段进行源码分析，识别出其中的敏感信息，包括步骤：

对所述源码段进行逐行处理，获取对应其中每个字符的ASC码；

基于所述ASC码做计算字母、数字、符号间的相邻数计算，得到所述源码段的非相邻随机率；

对所述非相邻随机率与预设的随机率阈值进行比较，如果所述非相邻随机率高于所述随机率阈值则确定所述源码段为所述敏感信息，反之则为正常信息。

可选的，所述对所述代码文件和所述提交记录进行脱敏处理，包括步骤：

清理所述代码仓库中存在所述敏感信息的代码文件的提交记录；

使用唯一标识处理敏感信息或者对所述敏感信息进行加密处理。

一种代码仓库中敏感信息的自动保护装置，所述自动保护装置包括：

文件获取模块，被配置为当所述代码仓库中有新提交的代码文件时，获取所述代码文件和所述代码文件的提交记录；

智能识别模块，被配置为对所述代码文件进行智能识别，识别出其中的敏感信息；

脱敏处理模块，被配置为对所述代码文件和所述提交记录进行脱敏处理；

组装提交模块，被配置为对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将所述交付物提交到所述代码仓库。

可选的，所述文件获取模块被陪着为响应所述代码仓库触发的Webhook事件，从所述代码仓库获取所述代码文件和所述提交记录，并将所述代码文件和所述提交记录记录于本地。

可选的，所述智能识别模块包括：

文件解析单元，被配置为对所述代码文件进行逐行解析，从中得到多个源码段；

识别执行单元，被配置为依次对每个所述源码段进行源码分析，识别出其中的敏感信息。

可选的，所述识别执行单元包括：

码值获取子单元，用于对所述源码段进行逐行处理，获取对应其中每个字符的ASC码；

随机率计算子单元，用于基于所述ASC码做字母、数字、符号间的相邻数计算，得到所述源码段的非相邻随机率；

信息确定子单元，用于对所述非相邻随机率与预设的随机率阈值进行比较，如果所述非相邻随机率高于所述随机率阈值则确定所述源码段为所述敏感信息，反之则为正常信息。

可选的，所述脱敏处理模块包括：

第一脱敏单元，被配置为清理所述代码仓库中存在所述敏感信息的代码文件的提交记录；

第二脱敏单元，被配置为使用唯一标识处理敏感信息或者对所述敏感信息进行加密处理。

从上述的技术方案可以看出，本申请公开了一种代码仓库中敏感信息的自动保护方法和装置，具体为当代码仓库中有新提交的代码文件时，获取代码文件和代码文件的提交记录；对代码文件进行智能识别，识别出其中的敏感信息；对代码文件和提交记录进行脱敏处理；对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将交付物提交到代码仓库。通过该方案即可自动完成对敏感信息的脱敏处理，而无需开发人员通过手工方式对敏感信息的处理，从而降低了程序开发的人工成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种代码仓库中敏感信息的自动保护方法的流程图；

图2为本申请实施例的一种代码仓库中敏感信息的自动保护装置的框图；

图3为本申请实施例的另一种代码仓库中敏感信息的自动保护装置的框图；

图4为本申请实施例的又一种代码仓库中敏感信息的自动保护装置的框图；

图5为本申请实施例的又一种代码仓库中敏感信息的自动保护装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本申请实施例的一种代码仓库中敏感信息的自动保护方法的流程图。

如图1所示，本实施例提供的自动保护方法用于对代码仓库中的敏感信息进行自动处理，该代码仓库中一般包括接收开发人员上传的代码文件的源码仓库和用于发布的交付仓库，该自动保护方法具体包括如下步骤：

S1、获取代码文件和代码文件的提交记录。

即该源码仓库中有新提交的代码文件时，此时该代码仓库产生Webhook事件，此时通过响应该事件执行预先设定的获取操作，通过获取操作从该源码仓库中获取新提交的代码文件和该代码文件的提交记录，并将该代码文件和提交记录存储与本地供后续执行检测和脱敏。

S2、对代码文件进行智能识别，从中识别出敏感信息。

即在完成新提交的代码文件的获取后，对该代码文件进行智能识别，如果其中不存在敏感信息则不做其他操作，如果该代码文件中存在敏感信息，则识别并标志出该敏感信息。

本申请的发明人认为，敏感信息的判定与字符间的随机率紧密相关，密钥敏感信息具备"随机"的特性。例如，本平台的代码若需要接入其他平台，则需要其他平台给本平台提供token或者是accessKey、accessSecret等鉴权信息，它属于敏感信息。这些信息作为密钥，它不会是一段纯粹的数字，或者纯粹的字母，它可能会是一段数字与字母结合，甚至夹杂一些特殊符号。比如字符串"String"，由于其字符相邻全为字母，故认为此字符串只是一个普通字符串，不是敏感信息。而字符串"ni_D9]Xap3A＝＝"，其字符相邻有数字、字母、符号，那本申请就视其为敏感信息，对其做加密处理。

这些数据各自都有特点，我们将字符串内部字符的随机率定义为非相邻随机率，由于敏感信息相邻字符间的随机率差距比较大，所以本方案认为，可以根据非相邻随机率得到敏感信息。基于上述描述，本实施例通过如下步骤实现敏感信息的识别：

首先，对代码文件进行逐行解析，得到多个源码段。每个源码段一般会包括形影的字母、数字和符号。

然后，依次对每个源码段进行源码分析，如果存在敏感信息则识别并标定出该敏感信息。具体通过如下步骤实现敏感信息的确定：

1)对每个源码段进行逐行处理，获取出其中每个字符的ASC码。这里的字符包括上述的字母、数字和符号。

2)基于该ASC码做每个字符之间的相邻数计算，得到该源码段的非相邻随机率。

字符串"String"的ASC码对应值分别为：83、84、82、73、78、71，字符串"ni_D9]Xap3A＝＝"，它的ASC码对应值分别为：110、105、95、68、57...，由此，凭借基础ASC码就可以勉强区分字符的连续性。

再扩展一下实现方式，可以参照ASC码的排序规则，可以将这种连续性进行放大。比如将数字、符号，重新定义一段区间，将数字1～9定义为1000～1009，特殊符号定义为10000～10020。此时，字符串"String"它的ASC对应值依旧不变，而字符串"ni_D9]Xap3A＝＝"它就可能变成了：110、105、10010、68、1009...，字符间的相邻随机性就很明显。

由此便可以得出非相邻随机率，这里提供一种简单的方式，直接使用后面值除以前面值求和即可。那么，字符串"String"非相邻随机率为：(84/83)+(82/84)+...，字符串"ni_D9]Xap3A＝＝"的非相邻随机率为：(105/110)+(10010/105)+...，可以直接看出，两者的差距比较明显。3)将该非相邻随机率与预设的随机率阈值进行比较，如果非相邻随机数低于该随机率阈值则确定该源码段不是敏感信息；反之，如果该非相邻随机数高于该随机率阈值，则确定该源码段为敏感信息。

其中，随机率阈值可以自行制造一部分代码数据，进行多次识别得出。即通过对敏感信息计算出来的非相邻随机率和普通字符串的非相邻随机率进行确定。

S3、对包含敏感信息的代码文件和提交记录进行脱敏处理。

具体来说，可以利用git filter-branch工具对代码文件和提交记录实现脱敏处理。具体来说，脱敏过程如下：

首先，清理源码仓库中包含敏感信息的代码文件的提交记录。

然后，使用唯一标识处理代码文件中的敏感信息，或者对敏感信息进行加密处理。

S4、对经过脱敏处理的代码文件进行组装处理。

即对包含敏感信息的代码文件进行脱敏处理后，对其进行组装处理。具体来说，可以以Jenkins为集成工具编写pipeline脚本或shell脚本，在pipeline中获取源码仓库中经过脱敏处理的代码文件，对经过脱敏处理后的唯一标识或者加密字符串进行重新覆盖或解密，本地形成完整的源码内容，执行构建操作产生交付包，将交付包提交给交付仓库。

从上述技术方案可以看出，本实施例提供了一种代码仓库中敏感信息的自动保护方法，具体为当代码仓库中有新提交的代码文件时，获取代码文件和代码文件的提交记录；对代码文件进行智能识别，识别出其中的敏感信息；对代码文件和提交记录进行脱敏处理；对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将交付物提交到代码仓库。通过该方案即可自动完成对敏感信息的脱敏处理，而无需开发人员通过手工方式对敏感信息的处理，从而降低了程序开发的人工成本。

实施例二

图2为本申请实施例的一种代码仓库中敏感信息的自动保护装置的框图。

如图2所示，本实施例提供的自动保护装置用于对代码仓库100中的敏感信息进行自动处理，该代码仓库中一般包括接收开发人员上传的代码文件的源码仓库101和用于发布的交付仓库102，该自动保护装置具体包括文件获取模块10、智能识别模块20、脱敏处理模块30、组装提交模块40。

文件获取模块用于获取代码文件和代码文件的提交记录。

智能识别模块用于对代码文件进行智能识别，从中识别出敏感信息。

即在完成新提交的代码文件的获取后，对该代码文件进行智能识别，如果其中不存在敏感信息则不做其他操作，如果该代码文件中存在敏感信息，则识别并标志出该敏感信息。具体来说，该模块包括文件解析单元21和识别执行单元22，如图3所示。

文件解析单元用于对代码文件进行逐行解析，得到多个源码段。每个源码段一般会包括形影的字母、数字和符号。

识别执行单元用于依次对每个源码段进行源码分析，如果存在敏感信息则识别并标定出该敏感信息。该单元具体包括码值获取子单元221、随机率计算子单元222和信息确定子单元223，如图4所示。

映射值获取子单元用于对每个源码段进行逐行处理，获取出其中每个字符的ASC码。这里的字符包括上述的字母、数字和符号。

随机率计算子单元用于基于该ASC码做每个字符之间的相邻数计算，得到该源码段的非相邻随机率。

信息确定子单元用于将该非相邻随机率与预设的随机率阈值进行比较，如果非相邻随机数低于该随机率阈值则确定该源码段不是敏感信息；反之，如果该非相邻随机数高于该随机率阈值，则确定该源码段为敏感信息。

脱敏处理模块用于对包含敏感信息的代码文件和提交记录进行脱敏处理。

具体来说，可以利用git filter-branch工具对代码文件和提交记录实现脱敏处理。具体来说，该模块包括第一脱敏单元31和第二脱敏单元32，如图5所示。

第一脱敏单元用于清理源码仓库中包含敏感信息的代码文件的提交记录。

第二脱敏单元用于使用唯一标识处理代码文件中的敏感信息，或者对敏感信息进行加密处理。

组装提交模块用于对经过脱敏处理的代码文件进行组装处理。

从上述技术方案可以看出，本实施例提供了一种代码仓库中敏感信息的自动保护装置，具体用于当代码仓库中有新提交的代码文件时，获取代码文件和代码文件的提交记录；对代码文件进行智能识别，识别出其中的敏感信息；对代码文件和提交记录进行脱敏处理；对经过脱敏处理的代码文件进行组装处理，得到完整的交付物，并将交付物提交到代码仓库。通过该方案即可自动完成对敏感信息的脱敏处理，而无需开发人员通过手工方式对敏感信息的处理，从而降低了程序开发的人工成本。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种代码仓库中敏感信息的自动保护方法，其特征在于，所述自动保护方法包括步骤：

对所述代码文件进行智能识别，识别出其中的敏感信息；

对所述代码文件和所述提交记录进行脱敏处理；

2.如权利要求1所述的自动保护方法，其特征在于，所述获取所述代码文件和所述代码文件的提交记录，包括步骤：

3.如权利要求1所述的自动保护方法，其特征在于，所述对所述代码文件进行智能识别，识别出其中的敏感信息，包括步骤：

对所述代码文件进行逐行解析，从中得到多个源码段；

4.如权利要求3所述的自动保护方法，其特征在于，所述依次对每个所述源码段进行源码分析，识别出其中的敏感信息，包括步骤：

基于所述ASC码做字母、数字、符号间的相邻数计算，得到所述源码段的非相邻随机率；

5.如权利要求1所述的自动保护方法，其特征在于，所述对所述代码文件和所述提交记录进行脱敏处理，包括步骤：

6.一种代码仓库中敏感信息的自动保护装置，其特征在于，所述自动保护装置包括：

7.如权利要求6所述的自动保护装置，其特征在于，所述文件获取模块被陪着为响应所述代码仓库触发的Webhook事件，从所述代码仓库获取所述代码文件和所述提交记录，并将所述代码文件和所述提交记录记录于本地。

8.如权利要求6所述的自动保护装置，其特征在于，所述智能识别模块包括：

9.如权利要求8所述的自动保护装置，其特征在于，所述识别执行单元包括：

10.如权利要求6所述的自动保护装置，其特征在于，所述脱敏处理模块包括：