CN117421670A - 一种敏感信息识别方法、装置、设备及存储介质 - Google Patents
一种敏感信息识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117421670A CN117421670A CN202311529618.2A CN202311529618A CN117421670A CN 117421670 A CN117421670 A CN 117421670A CN 202311529618 A CN202311529618 A CN 202311529618A CN 117421670 A CN117421670 A CN 117421670A
- Authority
- CN
- China
- Prior art keywords
- data
- network traffic
- sensitive
- traffic data
- sensitive data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000004043 dyeing Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000000586 desensitisation Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013478 data encryption standard Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000002071 nanotube Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- REQCZEXYDRLIBE-UHFFFAOYSA-N procainamide Chemical compound CCN(CC)CCNC(=O)C1=CC=C(N)C=C1 REQCZEXYDRLIBE-UHFFFAOYSA-N 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种敏感信息识别方法、装置、设备及存储介质。所述方法包括:通过设置网络流量采集点采集初始网络流量数据;对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。该方法通过对初始网络流量数据进行采集并进行结构化,通过不同的算法识别出结构化后的网络流量数据中不同类型的敏感数据,能够准确地识别出敏感数据。
Description
技术领域
本发明实施例涉及敏感数据检测技术领域,尤其涉及一种敏感信息识别方法、装置、设备及存储介质。
背景技术
在数字化背景下,随着大数据技术的快速发展,企业处理的数据量越来越大,公开数据、业务数据、敏感数据交融传输,这些敏感数据包括用户和企业的个人信息,如果这些敏感数据被未经授权的人访问、窃取或利用,将会给个人或企业带来严重的影响,包括财务损失、声誉受损和法律诉讼等。
现有技术往往单纯靠传统的正则匹配识别敏感数据,但是当处理数据量大、结构复杂、类型多样的数据时,可能无法准确地识别出敏感数据。
发明内容
本发明提供了一种敏感信息识别方法、装置、设备及存储介质,以解决现有技术中无法准确地识别出敏感数据的问题。
根据本发明的一方面,提供了一种敏感信息识别方法,所述方法包括:
通过设置网络流量采集点采集初始网络流量数据;
对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;
通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
根据本发明的另一方面,提供了一种敏感信息识别装置,所述装置包括:
采集模块,用于通过设置网络流量采集点采集初始网络流量数据;
处理模块,用于对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;
识别模块,用于通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的敏感信息识别方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的敏感信息识别方法。
本发明实施例的一种敏感信息识别方法、装置、设备及存储介质,所述方法包括:通过设置网络流量采集点采集初始网络流量数据;对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。该方法通过对初始网络流量数据进行采集并进行结构化,通过不同的算法识别出结构化后的网络流量数据中不同类型的敏感数据,能够准确地识别出敏感数据。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种敏感信息识别方法的流程示意图;
图2为本发明实施例提供的一种采集网络流量数据的示意图;
图3为本发明实施例提供的一种识别敏感数据的示意图;
图4为本发明实施例提供的一种识别姓名的示意图;
图5为本发明实施例三提供的一种敏感信息识别装置的结构示意图;
图6为本发明实施例的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
实施例一
图1为本发明实施例一提供的一种敏感信息识别方法的流程示意图,该方法可适用于对网络流量数据中的敏感数据进行识别的情况,该方法可以由敏感信息识别装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上,在本实施例中电子设备包括但不限于:计算机等设备。
如图1所示,本发明实施例一提供的一种敏感信息识别方法,包括如下步骤:
S110、通过设置网络流量采集点采集初始网络流量数据。
其中,网络流量采集点可以是用于采集网络流量数据的采集点。初始网络流量数据可以是未经过处理的网络流量数据,网络流量数据可以是企业的业务数据或其他数据,本实施例对此不做限定。
在本实施例中,可以将通过网络流量采集点采集到的网络流量数据作为初始网络流量数据。网络流量采集点的设置可以是设置在企业的南北向网络流量的关键路径上,选择合适的交换机端口,进行网络流量数据的采集。采集网络流量数据的方式可以是拦截方式或旁路模式,其中拦截方式指的是先将采集到的网络流量数据进行脱敏或其他处理后才可以继续进行正常业务,旁路模式指的是在不影响正常业务的情况下进行采集。
示例性的,图2为本发明实施例提供的一种采集网络流量数据的示意图,如图2所示,可以在交换机或其他网络设备上启动端口镜像功能,将选择的需要镜像的端口的网络流量复制到镜像目标端口上,对于网络流量的采集,默认开启旁路模式,即进行网络流量端口镜像复制时,要确保不会对被监控的端口的正常业务产生影响,采集后的网络流量异步传输到后端的数据结构化分级集群。对于不同格式的数据,还可以采用不同的采集器,例如,对于南北向网络流量中涉及到各种格式的数据,对于不同的数据格式可以选择相应的采集器,从而适配数据格式进行解析。
S120、对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据。
其中,结构化处理可以是将数据处理为结构化数据的操作。结构化网络流量数据可以是结构化后的网络流量数据。
在本实施例中,可以先对不同格式的初始网络流量数据进行解析,本实施例支持JSON、XML、MIME、ASCII、HTML、特殊字符分割后的字符串等类型,同时也支持多种混合类型的数据格式解析,并对解析后的数据进行清洗、转换和富化。在对数据清洗过程中,需要对标准的参数进行转换,如时间格式、地域格式等转换成统一格式,提升数据的辨识度。本实施例通过对网络流量数据进行清洗,可以去除网络流量数据中重复的数据、失效数据、错误数据,保持数据的一致性,通过对网络流量数据进行转换,可以为网络流量数据增加公共参数,如采集的数据源、采集的时间、存储的时间、来源采集端口等,以丰富网络流量数据的维度和深度、便于网络流量数据的统一纳管,大幅提高网络流量数据的质量和可用性。
本实施例在对网络流量数据清洗、转换、富化之后,还可以将此类数据存储到缓存中,以备后续写入硬盘数据库;当缓存达到设置的量级之后,可以将缓存中的网络流量数据写入到硬盘数据库。
S130、通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
其中,敏感数据可以是指泄漏后可能会带来严重影响的数据,敏感数据可以包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP地址列表等。本实施例对此不做限定。
在本实施例中,结构化网络流量数据所包括的数据除了公开数据、业务信息数据等数据,还可能存在敏感数据,因此针对不同类型的敏感数据,可以通过不同的算法识别出结构化网络流量数据中不同类型的敏感数据。示例性的,可以先对结构化网络流量数据进行分类,初步确定出结构化网络流量数据中可能存在的敏感数据以及敏感数据对应的类型,从而根据该类型相对应的算法进一步确定该数据是否是敏感数据。或者,也可以将结构化网络流量数据通过不同的算法逐个进行识别,以确定结构化网络流量数据中是否存在敏感数据以及敏感数据的类型。本实施例对此不作限定,可以根据实际情况进行设置。
在一个实施例中,所述敏感数据的类型至少包括:身份证,银行卡号,姓名,手机号,邮箱以及地址信息。
在本实施例中,敏感数据的类型至少包括:身份证,银行卡号,姓名,手机号,邮箱以及地址信息。示例性的,图3为本发明实施例提供的一种识别敏感数据的示意图,可以通过不同算法识别不同类型的敏感数据。
针对手机号及邮箱的识别,本实施例对此不做限定,例如,可以基于高效的单模及多模的关键字匹配算法,支持正则表达式等方式进行识别,从而检查网络流量数据中的字符串是否包含某种子串,将匹配的子串进行替换或者从某个字符串中取出符合某个条件的子串。对于手机号码,通常为11位数字,以1开头,可以增加对运营商的前三位数字进行识别。
本发明实施例一提供的一种敏感信息识别方法,包括:通过设置网络流量采集点采集初始网络流量数据;对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。该方法通过对初始网络流量数据进行采集并进行结构化,通过不同的算法识别出结构化后的网络流量数据中不同类型的敏感数据,能够准确地识别出敏感数据。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在一个实施例中,当所述结构化网络流量数据的敏感数据类型为身份证或银行卡号时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
对所述结构化网络流量数据的数字串进行加权求和,得到求和结果;
若所述求和结果能够被预设的除数整除,则确定所述数字串有效,标记所属数字串为敏感数据。
其中,数字串可以是结构化网络流量数据中所包括的数字信息,数字串可以是预先从结构化网络流量数据中筛选出来可能是身份证或银行卡号的数字串,本实施例对此不做限定。求和结果可以是数字串的加权求和结果。
在本实施例中,对身份证或银行卡号进行识别时,可以采用Luhn算法识别。其中Luhn算法也被称为“Mod10算法”,可以快速地识别银行卡号、信用卡号、身份证号,算法原理是通过对数字串进行加权求和,进而判断求和的结果是否能被10整除,从而依次验证数字串的类型。
示例性的,针对银行卡号,可以采用Luhn算法校验位、银行卡号的正则匹配、银行卡发行卡标识以及银行卡的长度联合识别。对于数字串Nori=n1n2n3n4…ni(i%2=0),从数字串的右侧开始将偶数位的数字乘以2得到结果为2ni,如果得到的结果大于等于10,则将其拆分为两个数字并相加Si=ai+bi;将上一步得到的所有数字相加,得到一个总和Npro=S1S2S3…Si。如果总和Npro能被10进行整除,则Npro是有效的银行卡号,否则无效。
本实施例所采用的算法,时间复杂度较低、验证效率较高,适合大数据场景下的数据校验,同时支持数字字符的扩展,可以根据不同的需求进行拓展,具备了高效稳定的特性。
在一个实施例中,当所述结构化网络流量数据的敏感数据类型为姓名时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
将所述结构化网络流量数据输入分词器,得到姓氏分词结果;
通过朴素贝叶斯算法将所述姓氏分词结果与预先训练的百家姓分类器所输出的姓氏结果进行匹配,将匹配成功的结果作为候选姓氏;
基于所述候选姓氏确定至少一个候选姓名;
通过朴素贝叶斯算法计算每一个候选姓名的发生概率,将发生概率最大的候选姓名标记为敏感数据。
其中,分词器可以是专门处理分词的组件,本实施例所采用的分词器可以是Lucene分词器,本实施例对此不做限定。姓氏分词结果可以是分词器对结构化网络流量数据进行分词得到的结果。百家姓分类器可以是基于百家姓的基础训练得到的分类器。候选姓氏可以初步确定为姓氏的词。候选姓名可以是根据候选姓氏确定的姓名,一个候选姓氏可以确定出多个候选姓名。发生概率可以是候选姓名可能为姓名的概率。
在本实施例中,结构化网络流量数据中某个字符串可能包含姓名的敏感数据,这个字符串中字符分词组合都可能作为姓名,可以先通过分词器得到分词结果,对于分词结果可以利用朴素贝叶斯公式并结合百家姓分类器,确定候选姓氏并计算出每种候选姓氏的发生概率,最后取最大概率分词作为敏感数据;如果某一姓名是在字符长串的上下文出现,也可以根据上下文出现的概率确定该数据是否为敏感数据。
示例性的,利用Lucene分词器对结构化网络流量数据中的某个字符串进行分词,若结构化网络流量数据中的字符串为Sstr=a1a2a3…ai。(1≤i≤∞),使用Lucene分词之后得到分词结果Ssence=a1|a1a2|a3|a2a3|…|ai(1≤i≤∞),将字符串中的数据准确的切分成词语或者短语,便于接下来的算法处理。使用百家姓的基础数据进行数据集的训练,训练出基于贝叶斯的百家姓分类器,确定词语的权重及概率分布。Tname=aname1|aname2|aname3|…|anamei(1≤i≤∞)。
将结构化网络流量数据中的分词后的分词结果Ssence与百家姓分类器进行融合计算,将匹配成功的分词结果作为候选姓氏,同时对复姓进行匹配,匹配成功则作为候选姓氏。在确定候选姓氏后,增加姓氏后面的一个或者两个汉字作为候选人名称,即候选姓名Tcname=acname1|acname2|acname3|…|acnamei(1≤i≤∞)。对于候选姓名Tcname的每一个人名候选子集,使用贝叶斯算法进行概率计算,除去概率值小于阀值的候选子集。通过此计算进一步缩小候选人名称。
示例性的,图4为本发明实施例提供的一种识别姓名的示意图,如图4所示,对于剩余的候选子集进行组合,得到P(A1)P(A2),P(A3)P(A4),…P(A(i-1))P(Ai)。若P(A1)P(A2)>P(A1)P(A3)则排除后者的候选人名称,否则排除前者的候选人名称,对于识别出多字人名的候选人P(A(i-2))P(A(i-1))P(Ai),如果P(A(i-1))P(Ai)不是百家姓中的分类词,则可以结合上下文判断是否为人名。
本实施例还可以对于确定的分类结果(即敏感数据)进行评估、优化,优化指标可以包括百家姓覆盖率、对比的准确率、误判率等,并根据评估结果对朴素贝叶斯算法进行优化调整,提高识别的准确率。
在一个实施例中,当所述结构化网络流量数据的敏感数据类型为地址信息时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
将所述结构化网络流量数据输入分词器,得到地址分词结果;
基于自然语言处理工具包对所述地址分词结果进行比对,将匹配成功的结果作为地址信息;
将所述地址信息标记为敏感数据。
其中,分词器可以是专门处理分词的组件,本实施例所采用的分词器可以是Lucene分词器,本实施例对此不做限定。地址分词结果可以是对结构化网络流量数据中的地址数据进行分词得到的结果。自然语言处理工具包可以是用于对文本信息进行识别的工具包。地址信息可以是确定为地址类型的敏感数据。
在本实施例中,可以通过分词器对结构化网络流量数据进行分词,得到地址分词结果,基于自然语言处理工具包对所述地址分词结果进行比对,将匹配成功的结果作为地址信息,并将地址信息标记为敏感数据。
示例性的,将要识别的结构化网络流量数据进行Lucene分词,将结构化网络流量数据快速分解成单个词语或者短语,从分词中提取内容与地址库信息相关的特征,比如省市名称、路名、地名、门牌号等。其中,地址库信息可以预先设置的,地址库信息可以包括设置地址的地名库及地址要素库,地名词典库中可以存储多个地名,地址要素库可以存储多个地址要素。将地址分词结果与地名词典库中的地名进行匹配,若成功,将匹配成功的匹配子串与地址要素库中的地址要素进行比对;比对成功则将该分词结果作为地址信息。对于不能识别的地址名称,可以通过反向学习算法建立基于地址要素的未登录地址名称识别机制,进一步改进分词算法、丰富化地址要素库,达到精确识别地址的目的。
本实施例还可以利用机器学习算法,如朴素贝叶斯、支持向量机对分词器进行模型训练、地址信息识别,获取地址信息字符串。
在一个实施例中,当采集初始网络流量数据的方式为拦截模式时,则在识别到敏感数据后,通过覆盖、随机替换、加密和映射中任一方式对所述敏感数据进行脱敏处理。
其中,覆盖可以是指用特定的字符或字符串替换原始敏感数据,例如将手机号码的中间四位替换为特定字符或字符串,以达到保护个人隐私的目的。随机替换可以是指将敏感信息中的部分或全部字符替换为其他字符或数字,例如,将手机号码中的数字替换成星号或其他数字,将姓名中的姓氏替换成星号等。加密是一种更加安全的脱敏方法,利用密钥对敏感信息进行加密处理,只有具有解密密钥的人才能够解密,常用的加密算法有高级加密标准(Advanced Encryption Standard,AES)、分组加密算法(Data EncryptionStandard,DES)等。映射可以是指将敏感数据映射到脱敏后的数据的方法,通常是通过建立映射关系来实现,例如,将身份证号码中的出生年月日和顺序码映射为特定的字符串等。
在本实施例中,在识别到敏感信息后,若当前采集数据的方式为拦截模式,则可以对敏感信息进行动态脱敏,脱敏方式分为覆盖、随机替换、加密、映射等方式,从而可以保障个人敏感信息的安全性,避免数据泄露和滥用,同时保障企业的数据安全。
在一个实施例中,当识别到敏感数据后,所述方法还包括:
对敏感数据进行染色,为所述不同类别的敏感数据设置不同的访问权限;
对相关工作人员进行告警。
其中,染色可以是指对敏感信息进行分类和分级的方式。
在本实施例中,检测到敏感数据后,可以给不同类型和的敏感信息设置不同的访问权限,采用多因素认证,确保只有授权人员才能访问此类数据。并发起应急处置流程,以邮件、短信等形式对相关工作人员发起告警通知。
示例性的,当发现了敏感信息的泄露时,可以快速响应确认数据泄露的范围、内容以及严重程度;并立即向相关人员报告,相关人员可以包括安全团队、法律顾问、管理层等;针对收敛暴露面,采取紧急措施,如更改防火墙策略、暂停受影响的系统等阻止收敛数据泄露面;收集关于敏感信息泄露的信息,如泄露时间、涉及的业务系统、可能原因等,进而评估此次泄露对于企业或个人造成的损失;分析此次数据泄露事件的原因,分析存在的安全漏洞,并加以修复,形成闭环处置,以保护个人隐私及企业的信息安全。
实施例二
图5为本发明实施例二提供的一种敏感信息识别装置的结构示意图,该装置可适用于对网络流量数据中的敏感数据进行识别的情况,其中该装置可由软件和/或硬件实现,并一般集成在电子设备上。
如图5所示,该装置包括:
采集模块210,用于通过设置网络流量采集点采集初始网络流量数据;
处理模块220,用于对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;
识别模块230,用于通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
本实施例二提供了一种敏感信息识别装置,包括:采集模块,用于通过设置网络流量采集点采集初始网络流量数据;处理模块,用于对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;识别模块,用于通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。通过对初始网络流量数据进行采集并进行结构化,通过不同的算法识别出结构化后的网络流量数据中不同类型的敏感数据,能够准确地识别出敏感数据。
进一步的,所述敏感数据的类型至少包括:身份证,银行卡号,姓名,手机号,邮箱以及地址信息。
进一步的,当所述结构化网络流量数据的敏感数据类型为身份证或银行卡号时,识别模块230,包括:
对所述结构化网络流量数据的数字串进行加权求和,得到求和结果;
若所述求和结果能够被预设的除数整除,则确定所述数字串有效,标记所属数字串为敏感数据。
进一步的,当所述结构化网络流量数据的敏感数据类型为姓名时,识别模块230,包括:
将所述结构化网络流量数据输入分词器,得到姓氏分词结果;
通过朴素贝叶斯算法将所述姓氏分词结果与预先训练的百家姓分类器所输出的姓氏结果进行匹配,将匹配成功的结果作为候选姓氏;
基于所述候选姓氏确定至少一个候选姓名;
通过朴素贝叶斯算法计算每一个候选姓名的发生概率,将发生概率最大的候选姓名标记为敏感数据。
进一步的,当所述结构化网络流量数据的敏感数据类型为地址信息时,识别模块230,包括:
将所述结构化网络流量数据输入分词器,得到地址分词结果;
基于自然语言处理工具包对所述地址分词结果进行比对,将匹配成功的结果作为地址信息;
将所述地址信息标记为敏感数据。
进一步的,当采集初始网络流量数据的方式为拦截模式时,则在识别到敏感数据后,通过覆盖、随机替换、加密和映射中任一方式对所述敏感数据进行脱敏处理。
进一步的,当识别到敏感数据后,所述方法还包括:
对敏感数据进行染色,为所述不同类别的敏感数据设置不同的访问权限;
对相关工作人员进行告警。
上述敏感信息识别装置可执行本发明任意实施例所提供的敏感信息识别方法,具备执行方法相应的功能模块和有益效果。
实施例三
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如敏感信息识别方法。
在一些实施例中,敏感信息识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的敏感信息识别方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行敏感信息识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种敏感信息识别方法,其特征在于,所述方法包括:
通过设置网络流量采集点采集初始网络流量数据;
对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;
通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
2.根据权利要求1所述的方法,其特征在于,所述敏感数据的类型至少包括:身份证,银行卡号,姓名,手机号,邮箱以及地址信息。
3.根据权利要求2所述的方法,其特征在于,当所述结构化网络流量数据的敏感数据类型为身份证或银行卡号时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
对所述结构化网络流量数据的数字串进行加权求和,得到求和结果;
若所述求和结果能够被预设的除数整除,则确定所述数字串有效,标记所属数字串为敏感数据。
4.根据权利要求2所述的方法,其特征在于,当所述结构化网络流量数据的敏感数据类型为姓名时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
将所述结构化网络流量数据输入分词器,得到姓氏分词结果;
通过朴素贝叶斯算法将所述姓氏分词结果与预先训练的百家姓分类器所输出的姓氏结果进行匹配,将匹配成功的结果作为候选姓氏;
基于所述候选姓氏确定至少一个候选姓名;
通过朴素贝叶斯算法计算每一个候选姓名的发生概率,将发生概率最大的候选姓名标记为敏感数据。
5.根据权利要求2所述的方法,其特征在于,当所述结构化网络流量数据的敏感数据类型为地址信息时,通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据,包括:
将所述结构化网络流量数据输入分词器,得到地址分词结果;
基于自然语言处理工具包对所述地址分词结果进行比对,将匹配成功的结果作为地址信息;
将所述地址信息标记为敏感数据。
6.根据权利要求1所述的方法,其特征在于,当采集初始网络流量数据的方式为拦截模式时,则在识别到敏感数据后,通过覆盖、随机替换、加密和映射中任一方式对所述敏感数据进行脱敏处理。
7.根据权利要求1所述的方法,其特征在于,当识别到敏感数据后,所述方法还包括:
对敏感数据进行染色,为所述不同类别的敏感数据设置不同的访问权限;
对相关工作人员进行告警。
8.一种敏感信息识别装置,其特征在于,所述装置包括:
采集模块,用于通过设置网络流量采集点采集初始网络流量数据;
处理模块,用于对所述初始网络流量数据进行结构化处理,得到结构化网络流量数据;
识别模块,用于通过多种算法识别所述结构化网络流量数据中不同类型的敏感数据。
9.一种电子设备,其特征在于,所述设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的敏感信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的敏感信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529618.2A CN117421670A (zh) | 2023-11-16 | 2023-11-16 | 一种敏感信息识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311529618.2A CN117421670A (zh) | 2023-11-16 | 2023-11-16 | 一种敏感信息识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421670A true CN117421670A (zh) | 2024-01-19 |
Family
ID=89532519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311529618.2A Pending CN117421670A (zh) | 2023-11-16 | 2023-11-16 | 一种敏感信息识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421670A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN110472036A (zh) * | 2019-08-21 | 2019-11-19 | 恩亿科(北京)数据科技有限公司 | 一种基于大数据的敏感数据确定方法及装置 |
CN110851864A (zh) * | 2019-11-08 | 2020-02-28 | 国网浙江省电力有限公司信息通信分公司 | 一种敏感数据自动识别和处理方法及系统 |
CN112765655A (zh) * | 2021-01-07 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私数据外发的管控方法及装置 |
CN112783602A (zh) * | 2021-01-08 | 2021-05-11 | 韩浩 | 一种敏感数据发现与检测的方法及系统 |
CN113489704A (zh) * | 2021-06-29 | 2021-10-08 | 平安信托有限责任公司 | 基于流量的敏感数据识别方法、装置、电子设备及介质 |
CN113904828A (zh) * | 2021-09-29 | 2022-01-07 | 中国工商银行股份有限公司 | 接口的敏感信息检测方法、装置、设备、介质和程序产品 |
CN114021556A (zh) * | 2021-11-09 | 2022-02-08 | 上海浦东发展银行股份有限公司 | 基于自然语言处理技术的日志敏感数据检测方法及系统 |
CN114465823A (zh) * | 2022-04-08 | 2022-05-10 | 杭州海康威视数字技术股份有限公司 | 工业互联网终端加密流量数据安全检测方法、装置及设备 |
CN114707048A (zh) * | 2022-03-15 | 2022-07-05 | 瑞数信息技术(上海)有限公司 | 敏感信息检测方法、装置、电子设备及计算机可读存储介质 |
CN116361784A (zh) * | 2023-04-03 | 2023-06-30 | 上海观安信息技术股份有限公司 | 数据的检测方法、装置、存储介质及计算机设备 |
CN116545709A (zh) * | 2023-05-16 | 2023-08-04 | 上海观安信息技术股份有限公司 | 敏感数据的溯源方法、装置及设备 |
-
2023
- 2023-11-16 CN CN202311529618.2A patent/CN117421670A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN110472036A (zh) * | 2019-08-21 | 2019-11-19 | 恩亿科(北京)数据科技有限公司 | 一种基于大数据的敏感数据确定方法及装置 |
CN110851864A (zh) * | 2019-11-08 | 2020-02-28 | 国网浙江省电力有限公司信息通信分公司 | 一种敏感数据自动识别和处理方法及系统 |
CN112765655A (zh) * | 2021-01-07 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私数据外发的管控方法及装置 |
CN112783602A (zh) * | 2021-01-08 | 2021-05-11 | 韩浩 | 一种敏感数据发现与检测的方法及系统 |
CN113489704A (zh) * | 2021-06-29 | 2021-10-08 | 平安信托有限责任公司 | 基于流量的敏感数据识别方法、装置、电子设备及介质 |
CN113904828A (zh) * | 2021-09-29 | 2022-01-07 | 中国工商银行股份有限公司 | 接口的敏感信息检测方法、装置、设备、介质和程序产品 |
CN114021556A (zh) * | 2021-11-09 | 2022-02-08 | 上海浦东发展银行股份有限公司 | 基于自然语言处理技术的日志敏感数据检测方法及系统 |
CN114707048A (zh) * | 2022-03-15 | 2022-07-05 | 瑞数信息技术(上海)有限公司 | 敏感信息检测方法、装置、电子设备及计算机可读存储介质 |
CN114465823A (zh) * | 2022-04-08 | 2022-05-10 | 杭州海康威视数字技术股份有限公司 | 工业互联网终端加密流量数据安全检测方法、装置及设备 |
CN116361784A (zh) * | 2023-04-03 | 2023-06-30 | 上海观安信息技术股份有限公司 | 数据的检测方法、装置、存储介质及计算机设备 |
CN116545709A (zh) * | 2023-05-16 | 2023-08-04 | 上海观安信息技术股份有限公司 | 敏感数据的溯源方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11818170B2 (en) | Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications | |
CN105590055B (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
CN111327608B (zh) | 基于级联深度神经网络的应用层恶意请求检测方法及系统 | |
Guo et al. | Exsense: Extract sensitive information from unstructured data | |
WO2021135919A1 (zh) | 基于机器学习的sql语句安全检测方法、装置、设备及介质 | |
CN112581259A (zh) | 账户风险识别方法及装置、存储介质、电子设备 | |
CN115270996A (zh) | 一种dga域名检测方法、检测装置及计算机存储介质 | |
CN113221104A (zh) | 用户异常行为的检测方法及用户行为重构模型的训练方法 | |
CN114553456B (zh) | 数字身份网络警报 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
Xue | Machine Learning: Research on Detection of Network Security Vulnerabilities by Extracting and Matching Features | |
CN113742763A (zh) | 一种基于政务敏感数据混淆加密方法及系统 | |
CN117421640A (zh) | 一种api资产识别方法、装置、设备及存储介质 | |
CN117313159A (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
Lykousas et al. | Tales from the Git: Automating the detection of secrets on code and assessing developers’ passwords choices | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN116089985A (zh) | 一种分布式日志的加密存储方法、装置、设备及介质 | |
CN117421670A (zh) | 一种敏感信息识别方法、装置、设备及存储介质 | |
CN118103839A (zh) | 用于检测可疑网络活动的随机字符串分类 | |
CN115599345A (zh) | 一种基于知识图谱的应用安全需求分析推荐方法 | |
CN117009832A (zh) | 异常命令的检测方法、装置、电子设备及存储介质 | |
Azeez et al. | Approach for Identifying Phishing Uniform Resource Locators (URLs) | |
Canelón et al. | Unstructured data for cybersecurity and internal control | |
Adnaan et al. | A Detailed Study on Preventing the Malicious URLs from Cyber Attacks | |
Tran et al. | A Survey on Password Guessing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |