CN114021556A

CN114021556A - 基于自然语言处理技术的日志敏感数据检测方法及系统

Info

Publication number: CN114021556A
Application number: CN202111321888.5A
Authority: CN
Inventors: 王椭; 冯耀; 陆恒宇; 陈娜; 赵权有
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-08

Abstract

本发明涉及一种基于自然语言处理技术的日志敏感数据检测方法及系统，所述方法包括以下步骤：S1：获取日志数据；S2：构建关键词库，基于关键词库对日志数据进行过滤，获取含关键词库中关键词的日志数据；S3：构建多个正则表达式，对筛选出的日志数据进行提取，获取不同类型的待检测信息；S4：构建敏感数据规则库，基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测，获取敏感数据；S5：构建敏感信息识别模型，基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测，获取敏感数据。与现有技术相比，本发明具有检测效率高，准确性高，可扩展性强等优点。

Description

基于自然语言处理技术的日志敏感数据检测方法及系统

技术领域

本发明涉及敏感数据检测领域，尤其是涉及一种基于自然语言处理技术的日志敏感数据检测方法及系统。

背景技术

数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私，数据安全，作为信息安全领域的重要领域正越来越受到关注。数据安全涵盖了防泄漏、防丢失、防滥用三个方面，其中防泄露是当前最为突出的热点问题。

现有的敏感数据检测技术，从检测对象来说，主要对敏感数据泄露的关键节点进行检测，如邮件内容、文档、数据库等；从检测手段来说，主要有以下三种方法：1)根据敏感数据的数据格式、结构设计正则表达式，通过正则表达式对检测数据进行匹配，满足正则表达式的数据判断为敏感数据；2)采用深度学习技术学习敏感数据的特征，通过深度学习模型判断数据是否属于敏感数据，3)基于规则、经验或知识库判断敏感数据，如涉及含敏感数据表的特定操作产出的数据判断为敏感数据。

随着软件系统的日益复杂化，为了确保软件系统在出现故障时能快速准确的定位问题解决问题，每个软件系统都会产出大量应用日志，理论上，软件系统运行中的一切信息都可以在应用日志中进行展示，其中也包括敏感数据，而现有的敏感数据检测技术的检测对象往往不包含应用日志，因此应用日志实质上已成为数据防泄漏的盲点与风险点；

大型软件系统每天产出的日志量可达到GB级甚至TB级，现有的敏感数据检测技术，无法实现在低成本的情况下对海量日志进行全面检测，如果采用抽样的方式进行检测，由于日志量太大，极易遗漏敏感数据；采用正则表达式检测敏感数据相对而言效率更高，但是仍然难以满足GB/TB级的敏感数据检测需求，并且正则表达式的维护成本较高，需要花费大量人力设计正则表达式，若正则表达式设计不合理，则容易产生误判或遗漏。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自然语言处理技术的日志敏感数据检测方法及系统。

本发明的目的可以通过以下技术方案来实现：

一种基于自然语言处理技术的日志敏感数据检测方法，包括以下步骤：

S1：获取日志数据；

S2：构建关键词库，基于关键词库对日志数据进行过滤，获取含关键词库中关键词的日志数据；

S3：构建多个正则表达式，对筛选出的日志数据进行提取，获取不同类型的待检测信息；

S4：构建敏感数据规则库，基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测，获取敏感数据；

S5：构建敏感信息识别模型，基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测，获取敏感数据。

优选地，所述的关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。

优选地，述的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。

优选地，所述的身份证号正则表达式为：

[^0-9](\d{6}(18|19|20|21)\d{2}(0[1-9]|10|11|12)([0-2][1-9]|10|20|30|31)\d{3}[0-9xX])[^0-9]；

所述的卡号正则表达式为：[^0-9](\d{16})[^0-9]；

所述的手机号正则表达式为：

[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9]；

所述的姓名正则表达式为：([\u4E00-\u9FA5]{2,4})[^\*]。

优选地，所述的敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则。

优选地，当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时，所述待检测信息为身份证号码，所述的身份证号校验规则为：

其中，i表示身份证号从右至左的位置序号，a_i为第i为数值，w_i＝2^i-1(mod 11)；

当所述银行卡号正则表达式提取的待检测信息满足银行卡号校验规则时，所述待检测信息为银行卡号，所述的银行卡号校验规则为Luhn算法校验规则。

优选地，所述的手机号校验规则为：

获取手机号正则表达式提取的待检测信息在日志数据中前、后预设字节阈值的日志数据作为手机号校验数据，判断手机号校验数据中是否包括手机号校验关键字符，若包括则提取的待检测信息为手机号，否则待检测信息不是手机号。

优选地，所述的敏感信息识别模型为中文实体识别模型，对根据姓名正则表达式获取的待检测信息进行识别，判断待检测信息是否为姓名信息或地址信息。

优选地，所述的中文实体识别模型BiLSTM-CRF模型，基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。

一种基于自然语言处理技术的日志敏感数据检测系统，包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块，

所述的日志获取模块用于获取日志数据；

所述的日志过滤模块用于构建关键词库，基于关键词库对日志数据进行过滤，获取含关键词库中关键词的日志数据；

所述的正则提取模块用于构建多个正则表达式，对筛选出的日志数据进行提取，获取不同类型的待检测信息；

所述的敏感信息规则模块用于构建敏感数据规则库，基于敏感数据规则库中的规则对正则提取模块中提取到的待检测信息进行敏感检测，获取敏感数据；

所述的敏感信息识别模块用于构建敏感信息识别模型，基于敏感信息识别模型对正则提取模块中提取到的检测信息进行敏感检测，获取敏感数据。

与现有技术相比，本发明具有如下优点：

(1)与现有技术相比，本发明适用于大型软件系统的应用日志敏感数据检测场景，能够高效准确的检测海量应用日志中是否存在敏感数据；

(2)本发明由于引入自然语言处理技术，检测准确性更高，同时不需要花费大量人力设计与维护正则表达式；本发明虽然也采用了正则表达式，但是仅用于提取疑似是敏感数据的日志内容，不需要精准匹配到敏感数据，因此对正则表达式设计和维护的要求更低；

(3)与基于规则/经验/知识库的敏感数据检测方案相比，本发明可以通过对关键词库、正则表达式、敏感数据规则库、敏感信息识别模块的扩展对更多类型的敏感数据进行检测，可拓展性更强，维护成本更低；

(4)本发明通过关键词库对日志数据进行过滤，与正则匹配模块大幅降低了实际需要模型处理的数据体量，因此检测效率更高。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

一种基于自然语言处理技术的日志敏感数据检测方法，如图1所示，包括以下步骤：

S1：获取日志数据；

S2：构建关键词库，基于关键词库对日志数据进行过滤，获取含关键词库中关键词的日志数据。关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。

S3：构建多个正则表达式，对筛选出的日志数据进行提取，获取不同类型的待检测信息。

本实施例中，对日志数据中所包含的姓氏、银行卡号、手机号、身份证号敏感数据进行检测，对应的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。

具体地，身份证号正则表达式为：

卡号正则表达式为：[^0-9](\d{16})[^0-9]；

手机号正则表达式为：

[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9]；

姓名正则表达式为：([\u4E00-\u9FA5]{2,4})[^\*]。

S4：构建敏感数据规则库，基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测，获取敏感数据。

具体地，敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则，能够判断提取出的银行卡号、手机号、身份证号对应待检测信息进行敏感检测，判断其是否为敏感信息。

当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时，所述待检测信息为身份证号码，身份证号校验规则为：

当所述银行卡号正则表达式提取的待检测信息满足银行卡号校验规则时，所述待检测信息为银行卡号，银行卡号校验规则为Luhn算法校验规则：

1)从右边第一个数字开始，偶数位数字乘以2；

2)把步骤1中获得的乘积的各位数字与原号码中未乘2的各位数字相加；

3)如果步骤2的结果模10为0，则校验通过，属于银行卡号。

手机号校验规则为：

获取手机号正则表达式提取的待检测信息在日志数据中前、后预设字节阈值的日志数据作为手机号校验数据，判断手机号校验数据中是否包括手机号校验关键字符，若包括则提取的待检测信息为手机号，否则待检测信息不是手机号。本实施例中，手机号校验关键字符包括中英文“手机”“手机号”，中文字符包括“手机”、“手机号”，英文字符包括“phone”、“phone numbe”、“mobile number”。

S5：构建敏感信息识别模型，基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测，获取敏感数据。敏感信息识别模型为中文实体识别模型，对根据姓名正则表达式获取的待检测信息进行识别，判断待检测信息是否为姓名信息或地址信息。本实施例中，中文实体识别模型BiLSTM-CRF模型，基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。

基于同一发明构思，本发明实施例还提供了一种基于自然语言处理技术的日志敏感数据检测系统，由于这些设备解决问题的原理与一种基于自然语言处理技术的日志敏感数据检测方法相似，可参见方法的实施，重复之处不再赘述。

一种基于自然语言处理技术的日志敏感数据检测系统，包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块，日志获取模块用于获取日志数据；日志过滤模块用于构建关键词库，基于关键词库对日志数据进行过滤，获取含关键词库中关键词的日志数据；正则提取模块用于构建多个正则表达式，对筛选出的日志数据进行提取，获取不同类型的待检测信息；敏感信息规则模块用于构建敏感数据规则库，基于敏感数据规则库中的规则对正则提取模块中提取到的待检测信息进行敏感检测，获取敏感数据；敏感信息识别模块用于构建敏感信息识别模型，基于敏感信息识别模型对正则提取模块中提取到的检测信息进行敏感检测，获取敏感数据。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，包括以下步骤：

S1：获取日志数据；

2.根据权利要求1所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。

3.根据权利要求2所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。

4.根据权利要求3所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的身份证号正则表达式为：

所述的卡号正则表达式为：[^0-9](\d{16})[^0-9]；

所述的手机号正则表达式为：

[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9]；

所述的姓名正则表达式为：([\u4E00-\u9FA5]{2,4})[^\*]。

5.根据权利要求3所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则。

6.根据权利要求5所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时，所述待检测信息为身份证号码，所述的身份证号校验规则为：

7.根据权利要求5所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的手机号校验规则为：

8.根据权利要求1所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的敏感信息识别模型为中文实体识别模型，对根据姓名正则表达式获取的待检测信息进行识别，判断待检测信息是否为姓名信息或地址信息。

9.根据权利要求8所述的一种基于自然语言处理技术的日志敏感数据检测方法，其特征在于，所述的中文实体识别模型BiLSTM-CRF模型，基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。

10.一种基于自然语言处理技术的日志敏感数据检测系统，其特征在于，包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块，

所述的日志获取模块用于获取日志数据；