CN113472686B - 信息识别方法、装置、设备及存储介质 - Google Patents
信息识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113472686B CN113472686B CN202110761153.8A CN202110761153A CN113472686B CN 113472686 B CN113472686 B CN 113472686B CN 202110761153 A CN202110761153 A CN 202110761153A CN 113472686 B CN113472686 B CN 113472686B
- Authority
- CN
- China
- Prior art keywords
- preset
- text content
- text
- recognition
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000002265 prevention Effects 0.000 abstract description 8
- 239000002609 medium Substances 0.000 description 12
- 230000008901 benefit Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了信息识别方法、装置、设备及存储介质。该方法包括:将网络流量数据转换成文本内容;根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;若满足,则基于预设识别规则对所述文本内容进行针对预设信息的识别处理。本发明实施例通过采用上述技术方案,可以提高预设信息识别的时效性,且能够有效减少误报,提高信息防泄漏的运营效率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及信息识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,数据交互越来越便利,然而,网络流量数据中可能包含了用户敏感信息,需要有针对性地进行识别,防止发生网络数据泄露事件。
目前,国内外诸多网络数据防泄密方案,经常造成大量误报告警信息,使数据防泄露运营人员疲于处理误报,从而无法聚焦到真正的数据泄露事件。
因此,现有的基于网络流量数据的信息识别方案仍不够完善,需要改进。
发明内容
本发明实施例提供了信息识别方法、装置、设备及存储介质,可以优化现有的基于网络流量数据的信息识别方案。
第一方面,本发明实施例提供了一种信息识别方法,包括:
将网络流量数据转换成文本内容;
根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
若满足,则基于预设识别规则对所述文本内容进行针对预设信息的识别处理。
第二方面,本发明实施例提供了一种信息识别装置,包括:
文本转换模块,用于将网络流量数据转换成文本内容;
识别要求判定模块,用于根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
识别处理模块,用于在所述识别要求判定模块的判定结果为满足时,基于预设识别规则对所述文本内容进行针对预设信息的识别处理。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的信息识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的信息识别方法。
本发明实施例中提供的信息识别方案,先将网络流量数据转换成文本内容,然后根据文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定文本内容是否满足预设识别要求,若满足,则基于预设识别规则对文本内容进行针对预设信息的识别处理。通过采用上述技术方案,在对网络流量中包含的预设信息进行识别之前,先从多个维度判断文本内容是否满足预设识别要求,若满足,才会进行识别处理,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报,提高信息防泄漏的运营效率。
附图说明
图1为本发明实施例提供的一种信息识别方法的流程示意图;
图2为本发明实施例提供的又一种信息识别方法的流程示意图;
图3为本发明实施例提供的一种信息识别装置的结构框图;
图4为本发明实施例提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本发明实施例提供的一种信息识别方法的流程示意图,该方法可适用于对网络流量中的预设信息进行识别的场景,具体可以是防止预设信息泄漏的隐私保护场景,该方法可以由信息识别装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中。其中,预设信息可以是预设敏感信息,如包括用户敏感信息,例如可以包括但不限于用户姓名、身份证号、银行卡号、电话号码、手机号码、个人地址、家庭关系、学历、性别以及学校名称等等。
如图1所示,该方法包括:
步骤101、将网络流量数据转换成文本内容。
网络流量数据可以理解为网络上传输的数据,本发明实施例中,对网络流量数据的具体来源不做限定,可以从外部导入,也可主动获取等。在得到网络流量数据之后,可以将网络流量数据转换成文本内容,具体的换方式不做限定,单次进行转换的网络流量数据的数据量也可根据实际情况设置。
示例性的,不同的网络流量数据可能对应不同的网络协议,可以先识别当前需要进行文本转换的网络流量数据对应的目标协议类型,基于目标协议类型对网络流量数据进行解析,得到实际的传输内容,再将传输内容转换成文本内容。可选的,为了便于识别,可以将不同类型的传输内容或传输文件等转换成统一格式的文本内容,该统一格式可根据实际情况设置,例如可以是8位元(UTF-8)格式,其中,UTF全称为Unicode TransformationFormat。
示例性的,单次获取的网络流量数据较多时,例如包含一个文件,可以先将文件转换成统一格式的文件内容,再对文件内容进行划分,得到多个文本内容,再逐一针对每个文本内容进行识别,本发明实施例以针对单个文本内容进行预设信息的识别为例进行说明,例如,单个文本内容可以是一个或多个句子,具体不做限定。
步骤102、根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求。
示例性的,文本总长度可以是文本内容中包含的字符的总数量,也即字符总数量。预设字符数量可以是预设字符的数量,预设字符可以根据实际识别需求设置,例如可以包括美国标准信息交换码(American Standard Code for Information Interchange,ASCII)和汉字生僻字,还可以包括其他字符,具体不做限定。其中,ASCII是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。对于汉字生僻字的界定,可以根据中国国家标准总局1981年5月1日开始实施的一套国家标准来确定,标准号是GB2312—1980,GB2312共收录了6763个汉字,除此之外的字符可被认为是汉字生僻字。分词数量可以理解为对文本内容进行分词处理后,得到的分词的数量,具体采用的分词方式不做限定,例如可以是基于自然语言处理(Natural Language Processing,NLP)技术进行分词。命名实体数量可以理解为基于命名实体识别(Named Entity Recognition,NER)技术识别出来的命名实体的数量。
示例性的,可以结合上述多个维度来设定预设识别要求,利用预设识别要求初步判断文本内容中包含预设信息的概率,还可以初步判断文本内容为乱码的概率或者文本内容包含乱码的比例等。若文本内容中包含预设信息的概率较高,则可进行后续的识别,以准确识别出是否包含预设信息,若概率较小,则可认为进行后续识别的必要性较小,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报。若文本内容为乱码的概率较大或者文本内容包含乱码的比例较高,则可能是经过加密的密文,或其他无意义的乱码,可读性较差,携带明文敏感信息的可能性较小,一般不会涉及泄密敏感信息的问题,则可认为进行后续识别的必要性较小,反之,可认为需要进行后续的识别。预设识别要求可以根据实际情况来设置,例如网络流量数据的来源等,具体不做限定。本步骤可以视为是对文件内容进行降噪的过程,也即从整个文档内容中筛选出包含预设信息的概率较大的文本内容用于后续的精准识别。
可选的,在上述多个维度基础上,还可以结合其他维度来设定预设识别要求,例如可包括词性、词义、文档编码方式以及关键词等。
步骤103、若满足,则基于预设识别规则对所述文本内容进行针对预设信息的识别处理。
示例性的,在确定满足预设识别要求后,说明已经过降噪,此时可以进行细粒度的精准识别,以保证准确识别出文本内容中是否包含预设信息。需要说明的是,本步骤中可针对文本内容中的全部内容或部分内容进行针对预设信息的识别处理,例如,若文本内容中存在少量乱码或其他类型的不可读字符,则可对文本内容中除乱码和其他不可读字符之外的剩余字符进行针对预设信息的识别处理,以进一步提高识别效率。
可选的,若不满足,则确定所述文本内容不包含预设信息,也即,认为当前的文本内容中不涉及用户敏感信息,可以不进行后续的告警条件识别等操作。
可选的,在基于预设识别规则对所述文本内容进行针对预设信息的识别处理之后,还包括:若确定所述文本内容中包含预设信息,则判断是否满足预设告警条件,若满足,则针对所述网络流量数据进行告警处理。这样设置的好处在于,若确定包含预设信息,则说明可能存在敏感信息泄密的风险,需要进行告警判定,对于达到告警条件的情况,可以及时进行告警处理,对事件进行脱敏告警,实时通知运营人员进行事件响应,防止发生敏感信息泄漏。其中,告警条件可以根据实际情况设置,例如,可考虑包含预设信息的类型或包含预设信息的数量等进行设置。可选的,可以以文件内容为单位,结合文件内容中所有文本内容中包含预设信息的情况进行综合判断,进而决定是否触发告警。
本发明实施例中提供的信息识别方法,先将网络流量数据转换成文本内容,然后根据文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定文本内容是否满足预设识别要求,若满足,则基于预设识别规则对文本内容进行针对预设信息的识别处理。通过采用上述技术方案,在对网络流量中包含的预设信息进行识别之前,先从多个维度判断文本内容是否满足预设识别要求,若满足,才会进行识别处理,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报,提高信息防泄漏的运营效率。
在一些实施例中,预设字符包括ASCII字符和汉字生僻字。所述根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求,包括:根据以下至少一项确定所述文本内容是否满足预设识别要求:ASCII字符数量与文本总长度的比值、汉字生僻字数量与第一预设数值的比值、分词数量与所述第一预设数值的比值、以及命名实体数量,其中,所述第一预设数值为文本总长度与ASCII字符数量的差值。这样设置的好处在于,可以更加合理地设定预设识别要求,准确地进行数据降噪。可选的,可以针对上述中的一个或多个项目设置相应的阈值,通过各项目的取值与相应阈值的比较结果,进一步判断文本内容是否满足预设识别要求。
在一些实施例中,在满足以下至少一项时,确定所述文本内容满足预设识别要求:第一、ASCII字符数量与文本总长度的比值大于第一预设阈值,并且,命名实体数量大于第二预设阈值;第二、汉字生僻字数量与第一预设数值的比值小于第三预设阈值,并且,分词数量与所述第一预设数值的比值小于第四预设阈值。这样设置的好处在于,可以更加合理地设定预设识别要求,准确地进行数据降噪。其中,第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值可以根据实际情况设置,具体数值不做限定。
示例性的,在满足上述第一项时,ASCII字符数量占比较大,且命名实体数量较多,可以认为文本内容中存在预设信息的可能性较大;在满足上述第二项时,汉字生僻字占比较小,且分词数量占比也较小,可以认为包含乱码的可能性较小,也即可以认为文本内容中存在预设信息的可能性较大。由于两项从不同角度来评估存在预设信息的可能性,可以根据实际情况设置择一采用或结合采用。例如,在满足第一项或第二项时,可认为文本内容满足预设识别要求;又如,在同时满足第一项和第二项时,可认为文本内容满足预设识别要求,也即第一项不满足或第二项不满足时,可认为文本内容不满足预设识别要求。
在一些实施例中,所述预设信息包括姓名;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:利用命名实体识别技术判断对所述文本内容进行分词处理后得到的分词中是否包含人物实体,若包含,则确定所述文本内容中包含预设信息;其中,所述分词处理采用NLP技术进行。这样设置的好处在于,相比于相关技术中的仅依靠匹配姓氏关键字的识别方式来说,能够更加准确地识别出用户姓名。
相关技术中对于中文姓名的识别,普遍采用匹配姓氏开头的字符串为准的方案,由于中文姓氏有5000多种,常用汉字有6763(GB2312)个,导致大量中文语句都会夹杂姓氏,仅仅依靠匹配姓氏关键字就认为语句存在中文姓名的方案是不准确的,容易产生误报。而本发明实施例中,可以先采用NLP技术对文本内容进行分词处理,在对各分词进行NER处理,直接判断是否识别到人物(PERSON)实体,若识别到,则可准确地确定文本内容中包含姓名。
在一些实施例中,所述预设信息包括预设字符串,其中,预设字符串包括身份证号、银行卡号、电话号码和手机号码中的至少一个;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:利用预设信息对应的正则表达式识别所述文本内容中的目标内容,判断所述目标内容的相邻字符是否为数字或字母,若否,则确定所述文本内容中包含预设信息。这样设置的好处在于,可以更加准确地识别出一些表示用户敏感信息的字符串。
相关技术中,在对于上述预设字符串进行识别时,普遍仅采用正则表达式进行识别,然而,很多包含数字的字符串如圆周率或时间戳等,都有可能会与设定的正则表达式相匹配,这样就会出现大量误报。而本发明实施例中,在正则表达式基础上,增加了相邻字符的判定,可以大大提高识别准确度,降低误报率。其中,可以针对不同类型的预设字符串分别设定相应的正则表达式,目标内容可以理解为与正则表达式相匹配的内容,相邻字符可以包括与目标内容左邻接和/或右邻接的字符。
在一些实施例中,所述将网络流量数据转换成文本内容,包括:获取网络流量数据;根据网络流量数据对应的流量端口号确定目标协议类型;基于所述目标协议类型对所述网络流量数据进行解析,并识别其中包含的目标文件;根据所述目标文件对应的文件类型对所述目标文件进行内容识别,并根据内容识别结果将所述目标文件转换成预设文本格式的文件内容;采用预设划分方式对所述文件内容进行划分,得到文本内容。其中,预设划分方式例如可以是以预设数量的句子为单位进行划分,预设数量可以是一个或多个,可自由设置。
在一些实施例中,所述采用预设划分方式对所述文件内容进行划分,得到文本内容,包括:判断所述文件内容中包含的目标类型字符的数量与所述文件内容的总字符数量的比值是否超过预设比例值,若超过,则采用预设划分方式对所述文件内容进行划分,得到文本内容,其中,所述目标类型字符包括ASCII字符和汉字内码扩展规范字符。这样设置的好处在于,可以在数据降噪之前,进行初步的内容提取,快速过滤掉包含预设信息可能性很小的文件内容,进一步提高预设信息识别的时效性,且能够有效减少误报。
图2为本发明实施例提供的又一种信息识别方法的流程示意图,该方法在上述各可选实施例基础上进行优化,具体的,该方法包括如下步骤:
步骤201、获取网络流量数据,根据网络流量数据对应的流量端口号确定目标协议类型,基于目标协议类型对所述网络流量数据进行解析,并识别其中包含的目标文件。
示例性的,可以设置专门的流量接入模块来接收外部导入的流量信息,得到网络流量数据。例如,可以从高速网络出口或其他网络出口捕获通信流量,作为网络流量数据。为了便于说明,本发明实施例以单次的流量获取为例进行说明,在具体实施时,可以采用并行处理方式,例如可以并行地从多个网络出口捕获通信流量,并进行后续的并行识别处理等。在获取到网络流量数据后,可以先识别对应的网络协议,具体可以根据流量端口对对网络流量数据进行协议分拣,例如,可以根据端口号确定对应的协议标签,协议标签用于体现对应的协议类型。常见的协议类型可以包括如服务器信息块(Server Message Block,SMB)协议、文件传输协议(File Transfer Protocol,FTP)、简单邮件传输协议(Simple MailTransfer Protocol,SMTP)以及超文本传输协议(HyperText Transfer Protocol,HTTP)等。
示例性的,可以设置协议解析模块,该模块下可以设置多个协议解析子模块,不同的协议解析子模块对应不同的协议类型,在确定当前的网络流量数据对应的目标协议类型后,可以基于目标协议类型对应的协议解析子模块对网络流量数据进行解析,并识别其中包含的目标文件以及对应的目标文件类型。例如,识别结果可能是pdf、xlsx、txt、docx、html或二进制等文件类型。
示例性的,当执行完后续步骤再返回执行步骤201时,可以理解为获取新的网络流量数据,针对新的网络流量数据继续执行后续步骤,若无法继续获取到新的网络流量数据或由于用户主动关闭识别功能等,可结束流程。
步骤202、根据目标文件对应的文件类型对目标文件进行内容识别,并根据内容识别结果将目标文件转换成预设文本格式的文件内容。
示例性的,可以通过本步骤进行初步的内容识别,例如,文件的常见编码方式可以包括UTF-8、ASCII、GBK、Unicode(统一码)和GBK2312等,其中,GBK表示汉字内码扩展规范(Chinese Internal Code Specification),为了便于识别,可以统一转化为UTF-8文本格式输出,也即,预设文本格式可以是UTF-8。其中,对于pdf、jpg、jpeg或png等格式的文件,可以采用光学字符识别(Optical Character Recognition,OCR)技术进行识别。
步骤203、判断文件内容中包含的目标类型字符的数量与文件内容的总字符数量的比值是否超过预设比例值,若是,则执行步骤204;否则,返回执行步骤201。
示例性的,目标类型字符可理解为可读字符,具体可以是ASCII字符和GBK字符,如果存在大量可读字符,说明可以继续后面的识别,如果可读字符很少甚至没有,可初步认为该文件是非可读的或者是乱码,带有明文敏感信息的可能性微乎其微,可以返回执行步骤201。
步骤204、采用预设划分方式对所述文件内容进行划分,得到多个文本内容。
步骤205、针对当前文本内容,根据文本内容对应的文本总长度、ASCII字符数量以及命名实体数量确定文本内容是否满足第一预设识别要求,若是,则执行步骤207;否则,执行步骤206。
示例性的,文本总长度可以记为s(一般大于5),ASCII字符数量可以记为s1,汉字生僻字数量可以记为s2、分词数量可以记为s3(0<s3<=s)、命名实体数量可以记为s4。
第一预设识别要求对应的表达式可以表示为s1/s>X&&s4>1,其中,X表示包含可读信息的概率值,可记为第一预设阈值,其取值范围例如可以是0.5~0.8,上式中,第二预设阈值的取值为1,当然也可以是其他数值,如2。当上述表达式为真时,可以认为该字符串存在敏感内容的可能性较大,可以进行后续的识别,也即执行步骤207。当上述表达式为假时,可继续进行第二预设识别要求的判定。
步骤206、针对当前文本内容,根据文本内容对应的文本总长度、汉字生僻字数量以及分词数量确定文本内容是否满足第二预设识别要求,若是,则执行步骤207;否则,执行步骤208。
第二预设识别要求对应的表达式可以表示为s2/(s-s1)<A&&s3/(s-s1)<B,其中,A和B为文本包含乱码的概率值,可分别记为第三预设阈值和第四预设阈值。A和B的取值可以根据网络流量环境的不同而不同,一般的,A可设置为0.2,B可设置为0.3。当上述表达式为假时,可认为该段文本含有的生僻字较多、文本可读性较差,存在姓名、手机号、地址、身份证等敏感信息的可能性较低,可不需要进行后续的识别,继续判定下一个文本内容,也即执行步骤208。当上述表达式为真时,则可认为包含较多的可读性明文,需进一步进行识别,也即执行步骤207。
此外,也可设定表达式s2/(s-s1)>=A||s3/(s-s1)>=B,当该表达式为真时,执行步骤208,当该表达式为假时,执行步骤207。
需要说明的是,第一预设识别要求的判定以及第二预设识别要求的判定的顺序可以互换,例如,先判断是否满足第二预设识别要求,若满足,则执行步骤207,否则,继续判断是否满足第一预设识别要求,若满足,则执行步骤207,否则,执行步骤208。
步骤207、利用命名实体识别技术判断对当前文本内容进行分词处理后得到的分词中是否包含人物实体,利用预设信息对应的正则表达式识别文本内容中的目标内容,判断目标内容的相邻字符是否为数字或字母。
本步骤中,可以针对姓名、身份证号、银行卡号、电话号码和手机号码对当前文本内容进行敏感信息识别。
(1)对于中文姓氏的识别,首先根据NLP对当前文本内容的语句进行分词,再对各分词进行NER,直接取识别出的PERSON实体作为姓名。
(2)对于手机号的识别,目前公开的技术方案都是根据正则表达式获取,如:1[0-9]{10},该表达式验证以1开头的11位国内手机号,该表达式存在的明显问题是身份证、圆周率、时间戳等任何超大数字都可能被认为包含手机号,造成大量误报。发明人经过对大量网络流量中的敏感信息的规律研究得出,与手机号相邻的前后两个字符不应该是字母和数字,根据该特征结合手机号正则表达式即可大幅度提升手机号识别的准确性。电话号码的识别与手机号类似。
(3)对于身份证号的识别,其验证方式可以与手机号类似,可使用正则[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}进行匹配后,验证与身份证号(识别得到的目标内容)左右相邻的两个字符是否为数字或字母,若是,则不是身份证号,若不是,则认为是身份证号。
(4)对于银行卡号的识别,使用单一的正则表达式识别方案是不准确的,每个银行的储蓄卡号以及信用卡号都是不尽相同且有各自的特点,可搜集需要进行识别的银行的信用卡和储蓄卡制定相应的正则表达式,利用正则表达式进行提取。目前国内的金融卡种类有1万种左右,建立足够大的银行卡类正则识别库即可进行针对性的识别,最后验证与银行卡号相邻的两个字符是否为数字或字母,即可选出精准的银行卡号。
步骤208、判断是否存在未识别的文本内容,若是,则返回执行步骤205;否则,执行步骤209。
示例性的,若存在未识别的文本内容,则将下一个文本内容作为当前文本内容,并执行步骤205。
步骤209、根据所有文本内容的识别结果确定是否满足预设告警条件,若是,则执行步骤210;否则,返回执行步骤201。
需要说明的是,若在对所有文本内容进行识别之前,已识别的文本内容中已经包含较多的预设信息,为了提高告警的时效性,也可提前进行预设告警条件的判定,本发明实施例对此不做限定。可选的,每对一个文本内容进行针对预设信息的识别处理之后,根据已识别的文本内容的识别结果确定是否满足预设告警条件,若是,则执行步骤210;否则,返回执行步骤201,也即剩余未识别的文本内容也可不需要继续识别,继续获取新的网络流量数据进行识别,提高整体的识别效率。
步骤210、针对网络流量数据进行告警处理。
示例性的,可以根据实际需求设置告警处理方式,如向相关运营人员发送告警信息等。
本发明实施例提供的信息识别方法,基于自然语言处置和命名实体识别,结合乱码识别技术、编码识别技术、汉字姓名特征、电话和手机号特征、身份证号码特征、银行卡号和信用卡号特征等技术特征,运用到网络数据敏感内容识别领域,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报,大幅提升数据安全运营人员对网络数据防泄露的运营效率。
图3为本发明实施例提供的一种信息识别装置的结构框图,该装置可由软件和/或硬件实现,一般可集成在服务器等计算机设备中,可通过执行信息识别方法来进行信息识别。如图3所示,该装置包括:
文本转换模块301,用于将网络流量数据转换成文本内容;
识别要求判定模块302,用于根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
识别处理模块303,用于在所述识别要求判定模块的判定结果为满足时,基于预设识别规则对所述文本内容进行针对预设信息的识别处理。
本发明实施例中提供的信息识别装置,先将网络流量数据转换成文本内容,然后根据文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定文本内容是否满足预设识别要求,若满足,则基于预设识别规则对文本内容进行针对预设信息的识别处理。通过采用上述技术方案,在对网络流量中包含的预设信息进行识别之前,先从多个维度判断文本内容是否满足预设识别要求,若满足,才会进行识别处理,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报,提高信息防泄漏的运营效率。
可选的,预设字符包括美国标准信息交换码ASCII字符和汉字生僻字;
所述识别要求判定模块,具体用于:
根据以下至少一项确定所述文本内容是否满足预设识别要求:
ASCII字符数量与文本总长度的比值、汉字生僻字数量与第一预设数值的比值、分词数量与所述第一预设数值的比值、以及命名实体数量,其中,所述第一预设数值为文本总长度与ASCII字符数量的差值。
可选的,所述识别要求判定模块,具体用于:在满足以下至少一项时,确定所述文本内容满足预设识别要求:
ASCII字符数量与文本总长度的比值大于第一预设阈值,并且,命名实体数量大于第二预设阈值;以及,汉字生僻字数量与第一预设数值的比值小于第三预设阈值,并且,分词数量与所述第一预设数值的比值小于第四预设阈值。
可选的,所述预设信息包括姓名;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:
利用命名实体识别技术判断对所述文本内容进行分词处理后得到的分词中是否包含人物实体,若包含,则确定所述文本内容中包含预设信息;其中,所述分词处理采用自然语言处理NLP技术进行。
可选的,所述预设信息包括预设字符串,其中,预设字符串包括身份证号、银行卡号、电话号码和手机号码中的至少一个;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:
利用预设信息对应的正则表达式识别所述文本内容中的目标内容,判断所述目标内容的相邻字符是否为数字或字母,若否,则确定所述文本内容中包含预设信息。
可选的,所述文本转换模块,具体用于:
获取网络流量数据;
根据网络流量数据对应的流量端口号确定目标协议类型;
基于所述目标协议类型对所述网络流量数据进行解析,并识别其中包含的目标文件;
根据所述目标文件对应的文件类型对所述目标文件进行内容识别,并根据内容识别结果将所述目标文件转换成预设文本格式的文件内容;
采用预设划分方式对所述文件内容进行划分,得到文本内容;
其中,在基于预设识别规则对所述文本内容进行针对预设信息的识别处理之后,还包括:
若确定所述文本内容中包含预设信息,则判断是否满足预设告警条件,若满足,则针对所述网络流量数据进行告警处理。
可选的,所述采用预设划分方式对所述文件内容进行划分,得到文本内容,包括:
判断所述文件内容中包含的目标类型字符的数量与所述文件内容的总字符数量的比值是否超过预设比例值,若超过,则采用预设划分方式对所述文件内容进行划分,得到文本内容,其中,所述目标类型字符包括ASCII字符和汉字内码扩展规范字符。
本发明实施例提供了一种计算机设备,该计算机设备中可集成本发明实施例提供的信息识别装置。图4为本发明实施例提供的一种计算机设备的结构框图。计算机设备400可以包括:存储器401,处理器402及存储在存储器401上并可在处理器402运行的计算机程序,所述处理器402执行所述计算机程序时实现如本发明实施例所述的信息识别方法。
本发明实施例提供的计算机设备,在对网络流量中包含的预设信息进行识别之前,先从多个维度判断文本内容是否满足预设识别要求,若满足,才会进行识别处理,可以减少不必要的识别操作,提高预设信息识别的时效性,且能够有效减少误报,提高信息防泄漏的运营效率。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行信息识别方法,该方法包括:
将网络流量数据转换成文本内容;
根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
若满足,则基于预设识别规则对所述文本内容进行针对预设信息的识别处理。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的信息识别操作,还可以执行本发明任意实施例所提供的信息识别方法中的相关操作。
上述实施例中提供的信息识别装置、设备及存储介质可执行本发明任意实施例所提供的信息识别方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的信息识别方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种信息识别方法,其特征在于,包括:
将网络流量数据转换成文本内容;
根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
若满足,则基于预设识别规则对所述文本内容进行针对预设信息的识别处理;
所述预设字符包括美国标准信息交换码ASCII字符和汉字生僻字;
所述根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求,包括:
根据以下至少一项确定所述文本内容是否满足预设识别要求:
ASCII字符数量与文本总长度的比值、汉字生僻字数量与第一预设数值的比值、分词数量与所述第一预设数值的比值、以及命名实体数量,其中,所述第一预设数值为文本总长度与ASCII字符数量的差值;
在满足以下至少一项时,确定所述文本内容满足预设识别要求:
ASCII字符数量与文本总长度的比值大于第一预设阈值,并且,命名实体数量大于第二预设阈值;以及,
汉字生僻字数量与第一预设数值的比值小于第三预设阈值,并且,分词数量与所述第一预设数值的比值小于第四预设阈值。
2.根据权利要求1所述的方法,其特征在于,所述预设信息包括姓名;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:
利用命名实体识别NER技术判断对所述文本内容进行分词处理后得到的分词中是否包含人物实体,若包含,则确定所述文本内容中包含预设信息;其中,所述分词处理采用自然语言处理NLP技术进行。
3.根据权利要求1所述的方法,其特征在于,所述预设信息包括预设字符串,其中,预设字符串包括身份证号、银行卡号、电话号码和手机号码中的至少一个;所述基于预设识别规则对所述文本内容进行针对预设信息的识别处理,包括:
利用预设信息对应的正则表达式识别所述文本内容中的目标内容,判断所述目标内容的相邻字符是否为数字或字母,若否,则确定所述文本内容中包含预设信息。
4.根据权利要求1-3任一所述的方法,其特征在于,所述将网络流量数据转换成文本内容,包括:
获取网络流量数据;
根据网络流量数据对应的流量端口号确定目标协议类型;
基于所述目标协议类型对所述网络流量数据进行解析,并识别其中包含的目标文件;
根据所述目标文件对应的文件类型对所述目标文件进行内容识别,并根据内容识别结果将所述目标文件转换成预设文本格式的文件内容;
采用预设划分方式对所述文件内容进行划分,得到文本内容;
其中,在基于预设识别规则对所述文本内容进行针对预设信息的识别处理之后,还包括:
若确定所述文本内容中包含预设信息,则判断是否满足预设告警条件,若满足,则针对所述网络流量数据进行告警处理。
5.根据权利要求4所述的方法,其特征在于,所述采用预设划分方式对所述文件内容进行划分,得到文本内容,包括:
判断所述文件内容中包含的目标类型字符的数量与所述文件内容的总字符数量的比值是否超过预设比例值,若超过,则采用预设划分方式对所述文件内容进行划分,得到文本内容,其中,所述目标类型字符包括ASCII字符和汉字内码扩展规范字符。
6.一种信息识别装置,其特征在于,包括:
文本转换模块,用于将网络流量数据转换成文本内容;
识别要求判定模块,用于根据所述文本内容对应的文本总长度、预设字符数量、分词数量以及命名实体数量确定所述文本内容是否满足预设识别要求;
识别处理模块,用于在所述识别要求判定模块的判定结果为满足时,基于预设识别规则对所述文本内容进行针对预设信息的识别处理;
所述预设字符包括美国标准信息交换码ASCII字符和汉字生僻字;
所述识别要求判定模块,具体用于:
根据以下至少一项确定所述文本内容是否满足预设识别要求:
ASCII字符数量与文本总长度的比值、汉字生僻字数量与第一预设数值的比值、分词数量与所述第一预设数值的比值、以及命名实体数量,其中,所述第一预设数值为文本总长度与ASCII字符数量的差值;
所述识别要求判定模块,具体用于:
在满足以下至少一项时,确定所述文本内容满足预设识别要求:
ASCII字符数量与文本总长度的比值大于第一预设阈值,并且,命名实体数量大于第二预设阈值;以及,
汉字生僻字数量与第一预设数值的比值小于第三预设阈值,并且,分词数量与所述第一预设数值的比值小于第四预设阈值。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761153.8A CN113472686B (zh) | 2021-07-06 | 2021-07-06 | 信息识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761153.8A CN113472686B (zh) | 2021-07-06 | 2021-07-06 | 信息识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113472686A CN113472686A (zh) | 2021-10-01 |
CN113472686B true CN113472686B (zh) | 2024-03-08 |
Family
ID=77878400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110761153.8A Active CN113472686B (zh) | 2021-07-06 | 2021-07-06 | 信息识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113472686B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048907B (zh) * | 2022-05-31 | 2024-02-27 | 北京深言科技有限责任公司 | 文本数据质量确定的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209892A (zh) * | 2019-04-17 | 2019-09-06 | 深圳壹账通智能科技有限公司 | 敏感信息识别方法、装置、电子设备及存储介质 |
CN110222170A (zh) * | 2019-04-25 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN111539206A (zh) * | 2020-04-27 | 2020-08-14 | 中国银行股份有限公司 | 一种确定敏感信息的方法、装置、设备及存储介质 |
CN112434331A (zh) * | 2020-11-20 | 2021-03-02 | 百度在线网络技术(北京)有限公司 | 一种数据脱敏方法、装置、设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11159551B2 (en) * | 2019-04-19 | 2021-10-26 | Microsoft Technology Licensing, Llc | Sensitive data detection in communication data |
-
2021
- 2021-07-06 CN CN202110761153.8A patent/CN113472686B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209892A (zh) * | 2019-04-17 | 2019-09-06 | 深圳壹账通智能科技有限公司 | 敏感信息识别方法、装置、电子设备及存储介质 |
CN110222170A (zh) * | 2019-04-25 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN111539206A (zh) * | 2020-04-27 | 2020-08-14 | 中国银行股份有限公司 | 一种确定敏感信息的方法、装置、设备及存储介质 |
CN112434331A (zh) * | 2020-11-20 | 2021-03-02 | 百度在线网络技术(北京)有限公司 | 一种数据脱敏方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113472686A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582861B (zh) | 一种数据隐私信息检测系统 | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
US20170289082A1 (en) | Method and device for identifying spam mail | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN111553318A (zh) | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 | |
CN111586695B (zh) | 短信识别方法及相关设备 | |
CN112579931A (zh) | 网络访问分析方法、装置、计算机设备和存储介质 | |
CN113472686B (zh) | 信息识别方法、装置、设备及存储介质 | |
US11934556B2 (en) | Identifying sensitive content in electronic files | |
CN110972086A (zh) | 短信息处理方法、装置、电子设备及计算机可读存储介质 | |
US9584537B2 (en) | System and method for detecting mobile cyber incident | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN114363839B (zh) | 一种诈骗数据的预警方法、装置、设备及存储介质 | |
CN111083705A (zh) | 群发诈骗短信检测方法、装置、服务器及存储介质 | |
CN116055067A (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN113746814B (zh) | 邮件处理方法、装置、电子设备及存储介质 | |
US11681966B2 (en) | Systems and methods for enhanced risk identification based on textual analysis | |
CA3144052A1 (en) | Method and apparatus for recognizing new sql statements in database audit systems | |
CN113645222A (zh) | 报文流量检测方法、系统、装置及计算机可读存储介质 | |
CN107656909B (zh) | 一种基于文档混合特征的文档相似度判定方法和装置 | |
CN112199948A (zh) | 文本内容识别和违规广告识别方法、装置及电子设备 | |
CN111324732A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN111859896A (zh) | 配方文档检测方法、装置、计算机可读介质及电子设备 | |
KR101060122B1 (ko) | 스팸 메시지 처리 방법 및 장치 | |
US11941625B2 (en) | Systems and methods for real-time classification and verification of data using hierarchal state machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |