CN114021556A - 基于自然语言处理技术的日志敏感数据检测方法及系统 - Google Patents

基于自然语言处理技术的日志敏感数据检测方法及系统 Download PDF

Info

Publication number
CN114021556A
CN114021556A CN202111321888.5A CN202111321888A CN114021556A CN 114021556 A CN114021556 A CN 114021556A CN 202111321888 A CN202111321888 A CN 202111321888A CN 114021556 A CN114021556 A CN 114021556A
Authority
CN
China
Prior art keywords
information
sensitive
log
data
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111321888.5A
Other languages
English (en)
Inventor
王椭
冯耀
陆恒宇
陈娜
赵权有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202111321888.5A priority Critical patent/CN114021556A/zh
Publication of CN114021556A publication Critical patent/CN114021556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于自然语言处理技术的日志敏感数据检测方法及系统,所述方法包括以下步骤:S1:获取日志数据;S2:构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;S3:构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;S4:构建敏感数据规则库,基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测,获取敏感数据;S5:构建敏感信息识别模型,基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测,获取敏感数据。与现有技术相比,本发明具有检测效率高,准确性高,可扩展性强等优点。

Description

基于自然语言处理技术的日志敏感数据检测方法及系统
技术领域
本发明涉及敏感数据检测领域,尤其是涉及一种基于自然语言处理技术的日志敏感数据检测方法及系统。
背景技术
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私,数据安全,作为信息安全领域的重要领域正越来越受到关注。数据安全涵盖了防泄漏、防丢失、防滥用三个方面,其中防泄露是当前最为突出的热点问题。
现有的敏感数据检测技术,从检测对象来说,主要对敏感数据泄露的关键节点进行检测,如邮件内容、文档、数据库等;从检测手段来说,主要有以下三种方法:1)根据敏感数据的数据格式、结构设计正则表达式,通过正则表达式对检测数据进行匹配,满足正则表达式的数据判断为敏感数据;2)采用深度学习技术学习敏感数据的特征,通过深度学习模型判断数据是否属于敏感数据,3)基于规则、经验或知识库判断敏感数据,如涉及含敏感数据表的特定操作产出的数据判断为敏感数据。
随着软件系统的日益复杂化,为了确保软件系统在出现故障时能快速准确的定位问题解决问题,每个软件系统都会产出大量应用日志,理论上,软件系统运行中的一切信息都可以在应用日志中进行展示,其中也包括敏感数据,而现有的敏感数据检测技术的检测对象往往不包含应用日志,因此应用日志实质上已成为数据防泄漏的盲点与风险点;
大型软件系统每天产出的日志量可达到GB级甚至TB级,现有的敏感数据检测技术,无法实现在低成本的情况下对海量日志进行全面检测,如果采用抽样的方式进行检测,由于日志量太大,极易遗漏敏感数据;采用正则表达式检测敏感数据相对而言效率更高,但是仍然难以满足GB/TB级的敏感数据检测需求,并且正则表达式的维护成本较高,需要花费大量人力设计正则表达式,若正则表达式设计不合理,则容易产生误判或遗漏。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自然语言处理技术的日志敏感数据检测方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于自然语言处理技术的日志敏感数据检测方法,包括以下步骤:
S1:获取日志数据;
S2:构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;
S3:构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;
S4:构建敏感数据规则库,基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测,获取敏感数据;
S5:构建敏感信息识别模型,基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测,获取敏感数据。
优选地,所述的关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。
优选地,述的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。
优选地,所述的身份证号正则表达式为:
[^0-9](\d{6}(18|19|20|21)\d{2}(0[1-9]|10|11|12)([0-2][1-9]|10|20|30|31)\d{3}[0-9xX])[^0-9];
所述的卡号正则表达式为:[^0-9](\d{16})[^0-9];
所述的手机号正则表达式为:
[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9];
所述的姓名正则表达式为:([\u4E00-\u9FA5]{2,4})[^\*]。
优选地,所述的敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则。
优选地,当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时,所述待检测信息为身份证号码,所述的身份证号校验规则为:
Figure BDA0003345826380000031
其中,i表示身份证号从右至左的位置序号,ai为第i为数值,wi=2i-1(mod 11);
当所述银行卡号正则表达式提取的待检测信息满足银行卡号校验规则时,所述待检测信息为银行卡号,所述的银行卡号校验规则为Luhn算法校验规则。
优选地,所述的手机号校验规则为:
获取手机号正则表达式提取的待检测信息在日志数据中前、后预设字节阈值的日志数据作为手机号校验数据,判断手机号校验数据中是否包括手机号校验关键字符,若包括则提取的待检测信息为手机号,否则待检测信息不是手机号。
优选地,所述的敏感信息识别模型为中文实体识别模型,对根据姓名正则表达式获取的待检测信息进行识别,判断待检测信息是否为姓名信息或地址信息。
优选地,所述的中文实体识别模型BiLSTM-CRF模型,基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。
一种基于自然语言处理技术的日志敏感数据检测系统,包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块,
所述的日志获取模块用于获取日志数据;
所述的日志过滤模块用于构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;
所述的正则提取模块用于构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;
所述的敏感信息规则模块用于构建敏感数据规则库,基于敏感数据规则库中的规则对正则提取模块中提取到的待检测信息进行敏感检测,获取敏感数据;
所述的敏感信息识别模块用于构建敏感信息识别模型,基于敏感信息识别模型对正则提取模块中提取到的检测信息进行敏感检测,获取敏感数据。
与现有技术相比,本发明具有如下优点:
(1)与现有技术相比,本发明适用于大型软件系统的应用日志敏感数据检测场景,能够高效准确的检测海量应用日志中是否存在敏感数据;
(2)本发明由于引入自然语言处理技术,检测准确性更高,同时不需要花费大量人力设计与维护正则表达式;本发明虽然也采用了正则表达式,但是仅用于提取疑似是敏感数据的日志内容,不需要精准匹配到敏感数据,因此对正则表达式设计和维护的要求更低;
(3)与基于规则/经验/知识库的敏感数据检测方案相比,本发明可以通过对关键词库、正则表达式、敏感数据规则库、敏感信息识别模块的扩展对更多类型的敏感数据进行检测,可拓展性更强,维护成本更低;
(4)本发明通过关键词库对日志数据进行过滤,与正则匹配模块大幅降低了实际需要模型处理的数据体量,因此检测效率更高。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于自然语言处理技术的日志敏感数据检测方法,如图1所示,包括以下步骤:
S1:获取日志数据;
S2:构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据。关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。
S3:构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息。
本实施例中,对日志数据中所包含的姓氏、银行卡号、手机号、身份证号敏感数据进行检测,对应的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。
具体地,身份证号正则表达式为:
[^0-9](\d{6}(18|19|20|21)\d{2}(0[1-9]|10|11|12)([0-2][1-9]|10|20|30|31)\d{3}[0-9xX])[^0-9];
卡号正则表达式为:[^0-9](\d{16})[^0-9];
手机号正则表达式为:
[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9];
姓名正则表达式为:([\u4E00-\u9FA5]{2,4})[^\*]。
S4:构建敏感数据规则库,基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测,获取敏感数据。
具体地,敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则,能够判断提取出的银行卡号、手机号、身份证号对应待检测信息进行敏感检测,判断其是否为敏感信息。
当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时,所述待检测信息为身份证号码,身份证号校验规则为:
Figure BDA0003345826380000051
其中,i表示身份证号从右至左的位置序号,ai为第i为数值,wi=2i-1(mod 11);
当所述银行卡号正则表达式提取的待检测信息满足银行卡号校验规则时,所述待检测信息为银行卡号,银行卡号校验规则为Luhn算法校验规则:
1)从右边第一个数字开始,偶数位数字乘以2;
2)把步骤1中获得的乘积的各位数字与原号码中未乘2的各位数字相加;
3)如果步骤2的结果模10为0,则校验通过,属于银行卡号。
手机号校验规则为:
获取手机号正则表达式提取的待检测信息在日志数据中前、后预设字节阈值的日志数据作为手机号校验数据,判断手机号校验数据中是否包括手机号校验关键字符,若包括则提取的待检测信息为手机号,否则待检测信息不是手机号。本实施例中,手机号校验关键字符包括中英文“手机”“手机号”,中文字符包括“手机”、“手机号”,英文字符包括“phone”、“phone numbe”、“mobile number”。
S5:构建敏感信息识别模型,基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测,获取敏感数据。敏感信息识别模型为中文实体识别模型,对根据姓名正则表达式获取的待检测信息进行识别,判断待检测信息是否为姓名信息或地址信息。本实施例中,中文实体识别模型BiLSTM-CRF模型,基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。
基于同一发明构思,本发明实施例还提供了一种基于自然语言处理技术的日志敏感数据检测系统,由于这些设备解决问题的原理与一种基于自然语言处理技术的日志敏感数据检测方法相似,可参见方法的实施,重复之处不再赘述。
一种基于自然语言处理技术的日志敏感数据检测系统,包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块,日志获取模块用于获取日志数据;日志过滤模块用于构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;正则提取模块用于构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;敏感信息规则模块用于构建敏感数据规则库,基于敏感数据规则库中的规则对正则提取模块中提取到的待检测信息进行敏感检测,获取敏感数据;敏感信息识别模块用于构建敏感信息识别模型,基于敏感信息识别模型对正则提取模块中提取到的检测信息进行敏感检测,获取敏感数据。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,包括以下步骤:
S1:获取日志数据;
S2:构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;
S3:构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;
S4:构建敏感数据规则库,基于敏感数据规则库中的规则对S3中提取到的待检测信息进行敏感检测,获取敏感数据;
S5:构建敏感信息识别模型,基于敏感信息识别模型对S3中提取到的检测信息进行敏感检测,获取敏感数据。
2.根据权利要求1所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的关键词库中的关键词类型包括姓氏关键词、银行卡号关键词、手机号关键词、身份证号关键词。
3.根据权利要求2所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的正则表达式包括身份证号正则表达式、卡号正则表达式、手机号正则表达式、姓名正则表达式。
4.根据权利要求3所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的身份证号正则表达式为:
[^0-9](\d{6}(18|19|20|21)\d{2}(0[1-9]|10|11|12)([0-2][1-9]|10|20|30|31)\d{3}[0-9xX])[^0-9];
所述的卡号正则表达式为:[^0-9](\d{16})[^0-9];
所述的手机号正则表达式为:
[^0-9]((13\d|14[5|7]|15\d|166|17[3|6|7]|18\d)\d{8})[^0-9];
所述的姓名正则表达式为:([\u4E00-\u9FA5]{2,4})[^\*]。
5.根据权利要求3所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的敏感数据规则库中包括身份证校验规则、银行卡号校验规则、手机号校验规则。
6.根据权利要求5所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,当所述身份证号正则表达式提取的待检测信息满足身份证号校验规则时,所述待检测信息为身份证号码,所述的身份证号校验规则为:
Figure FDA0003345826370000021
其中,i表示身份证号从右至左的位置序号,ai为第i为数值,wi=2i-1(mod 11);
当所述银行卡号正则表达式提取的待检测信息满足银行卡号校验规则时,所述待检测信息为银行卡号,所述的银行卡号校验规则为Luhn算法校验规则。
7.根据权利要求5所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的手机号校验规则为:
获取手机号正则表达式提取的待检测信息在日志数据中前、后预设字节阈值的日志数据作为手机号校验数据,判断手机号校验数据中是否包括手机号校验关键字符,若包括则提取的待检测信息为手机号,否则待检测信息不是手机号。
8.根据权利要求1所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的敏感信息识别模型为中文实体识别模型,对根据姓名正则表达式获取的待检测信息进行识别,判断待检测信息是否为姓名信息或地址信息。
9.根据权利要求8所述的一种基于自然语言处理技术的日志敏感数据检测方法,其特征在于,所述的中文实体识别模型BiLSTM-CRF模型,基于公开语料库训练中文实体识别模型判断待检测信息是否为姓名信息或地址信息。
10.一种基于自然语言处理技术的日志敏感数据检测系统,其特征在于,包括日志获取模块、日志过滤模块、正则提取模块、敏感信息规则模块、敏感信息识别模块,
所述的日志获取模块用于获取日志数据;
所述的日志过滤模块用于构建关键词库,基于关键词库对日志数据进行过滤,获取含关键词库中关键词的日志数据;
所述的正则提取模块用于构建多个正则表达式,对筛选出的日志数据进行提取,获取不同类型的待检测信息;
所述的敏感信息规则模块用于构建敏感数据规则库,基于敏感数据规则库中的规则对正则提取模块中提取到的待检测信息进行敏感检测,获取敏感数据;
所述的敏感信息识别模块用于构建敏感信息识别模型,基于敏感信息识别模型对正则提取模块中提取到的检测信息进行敏感检测,获取敏感数据。
CN202111321888.5A 2021-11-09 2021-11-09 基于自然语言处理技术的日志敏感数据检测方法及系统 Pending CN114021556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111321888.5A CN114021556A (zh) 2021-11-09 2021-11-09 基于自然语言处理技术的日志敏感数据检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111321888.5A CN114021556A (zh) 2021-11-09 2021-11-09 基于自然语言处理技术的日志敏感数据检测方法及系统

Publications (1)

Publication Number Publication Date
CN114021556A true CN114021556A (zh) 2022-02-08

Family

ID=80062783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111321888.5A Pending CN114021556A (zh) 2021-11-09 2021-11-09 基于自然语言处理技术的日志敏感数据检测方法及系统

Country Status (1)

Country Link
CN (1) CN114021556A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077207A (zh) * 2023-09-01 2023-11-17 广州世安智慧科技有限公司 一种敏感信息检测方法及系统
CN117421670A (zh) * 2023-11-16 2024-01-19 国网江苏省电力有限公司信息通信分公司 一种敏感信息识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077207A (zh) * 2023-09-01 2023-11-17 广州世安智慧科技有限公司 一种敏感信息检测方法及系统
CN117421670A (zh) * 2023-11-16 2024-01-19 国网江苏省电力有限公司信息通信分公司 一种敏感信息识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
CN107437038B (zh) 一种网页篡改的检测方法及装置
CA2743273C (en) Method and device for intercepting junk mail
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN103177128A (zh) 钞票冠字号信息的处理方法和系统
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN107895122A (zh) 一种专用敏感信息主动防御方法、装置及系统
CN106713579A (zh) 一种电话号码识别方法及装置
CN107239694A (zh) 一种基于用户评论的Android应用权限推理方法及装置
CN105792152A (zh) 伪基站短信识别方法和装置
CN110489745A (zh) 基于引文网络的论文文本相似性的检测方法
CN113065330A (zh) 一种从非结构化数据中提取敏感信息的方法
CN108509794A (zh) 一种基于分类学习算法的恶意网页防御检测方法
US20160283582A1 (en) Device and method for detecting similar text, and application
CN110110325A (zh) 一种重复案件查找方法和装置、计算机可读存储介质
Al-Wesabi A smart English text zero-watermarking approach based on third-level order and word mechanism of Markov model
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN112686026B (zh) 基于信息熵的关键词提取方法、装置、设备及介质
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
Peng et al. Mrml: Multimodal rumor detection by deep metric learning
US20150163183A1 (en) System and method for spam filtering using insignificant shingles
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
CN115034292A (zh) 一种基于多模态的内部威胁检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination