CN114330280A - 敏感数据识别方法及装置 - Google Patents

敏感数据识别方法及装置 Download PDF

Info

Publication number
CN114330280A
CN114330280A CN202111642180.XA CN202111642180A CN114330280A CN 114330280 A CN114330280 A CN 114330280A CN 202111642180 A CN202111642180 A CN 202111642180A CN 114330280 A CN114330280 A CN 114330280A
Authority
CN
China
Prior art keywords
sensitive
recognized
text
identified
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111642180.XA
Other languages
English (en)
Inventor
郭岩岭
喻波
王志海
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202111642180.XA priority Critical patent/CN114330280A/zh
Publication of CN114330280A publication Critical patent/CN114330280A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供了一种敏感数据识别方法及装置,本发明提供的方法应用于终端,包括:获取待识别文本的文本大小;在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片;将各待识别切片发送至服务端,以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果;接收服务端发送的每个待识别切片的敏感识别结果,敏感识别结果用于指示待识别切片是否包括敏感词;在各待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。本发明提高了敏感词识别效率。

Description

敏感数据识别方法及装置
技术领域
本发明涉及数据处理领域,特别涉及一种敏感数据识别方法及装置。
背景技术
随着终端数据防泄漏技术的广泛应用使得办公环境下的终端数据的安全性得到进一步保障。目前终端数据防泄漏技术的核心在于敏感词识别技术。然而,随着待识别文本的大小的增长,特别是待识别文本包括的图片数量的增加,对待识别文本进行敏感词识别处理的过程耗时增加,消耗终端的硬件资源越高。这就导致在终端的硬件资源受限的情况下,敏感词识别效率较低。
发明内容
有鉴于此,本发明旨在提出一种敏感数据识别方法及装置,以解决在终端的硬件资源受限的情况下,敏感词识别效率较低的问题。为达到上述目的,本发明的技术方案是这样实现的:
第一方面,一种敏感数据识别方法,应用于终端,所述方法包括:
获取待识别文本的文本大小;
在所述文本大小大于尺寸阈值时,将所述待识别文本进行切片处理得到多个待识别切片;
将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果;
接收所述服务端发送的每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
可选的,所述方法还包括:
针对每个所述待识别切片进行局部敏感哈希计算,得到每个所述待识别切片的第一哈希值;
所述将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,包括:
将各所述待识别切片的第一哈希值发送至服务端,以使得所述服务端针对多个所述待识别切片中任一目标待识别切片,计算所述目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,所述文件敏感库包括所述各文本的第二哈希值以及所述各文本的敏感识别结果,在各所述相似度中存在大于相似度阈值的目标相似度时,将所述目标相似度对应的第二哈希值的敏感识别结果,作为所述目标待识别切片的敏感识别结果。
可选的,在各所述相似度中不存在所述目标相似度时,所述目标待识别切片的敏感识别结果为所述服务端在从所述终端获取所述目标待识别切片后,对所述目标待识别切片进行敏感词识别得到。
可选的,所述方法还包括:
在所述文本大小小于或者等于所述尺寸阈值时,对所述待识别文本进行敏感词识别,得到所述待识别文本的敏感识别结果。
可选的,所述方法还包括:
对所述待识别文本进行局部敏感哈希计算,得到所述待识别文本的第二哈希值;
将所述待识别文本的第二哈希值以及敏感识别结果发送至所述服务端,以使得所述服务端向文件敏感库添加所述待识别文本的第二哈希值以及敏感识别结果。
第二方面,一种敏感数据识别方法,应用于服务端,所述方法包括:
接收终端发送的多个待识别切片,所述待识别切片为所述终端在待识别文本的文本大小大于尺寸阈值时,对所述待识别文本进行切片处理得到的切片;
针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
将所述敏感识别结果发送至所述终端,以使得所述终端在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
可选的,所述接收终端发送的多个待识别切片,包括:接收终端发送的多个待识别切片的第一哈希值,所述待识别切片的第一哈希值为所述终端对所述待识别切片进行局部敏感哈希计算得到;
所述针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,包括:
针对多个所述待识别切片中任一目标待识别切片,计算所述目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,所述文件敏感库包括所述各文本的第二哈希值以及所述各文本的敏感识别结果;
在各所述相似度中存在大于相似度阈值的目标相似度时,将所述目标相似度对应的第二哈希值的敏感识别结果,作为所述目标待识别切片的敏感识别结果。
可选的,所述针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,还包括:
在各所述相似度中不存在所述目标相似度时,从所述终端获取所述目标待识别切片,对所述目标待识别切片进行敏感词识别得到所述目标待识别切片的敏感识别结果。
第三方面,一种敏感数据识别装置,应用于终端,所述方法包括:
获取模块,用于获取待识别文本的文本大小;
切片处理模块,用于在所述文本大小大于尺寸阈值时,将所述待识别文本进行切片处理得到多个待识别切片;
发送模块,用于将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果;
接收模块,用于接收所述服务端发送的每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
确定模块,用于在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
第四方面,一种敏感数据识别装置,应用于服务端,所述方法包括:
接收模块,用于接收终端发送的多个待识别切片,所述待识别切片为所述终端在待识别文本的文本大小大于尺寸阈值时,对所述待识别文本进行切片处理得到的切片;
识别模块,用于针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
发送模块,用于将所述敏感识别结果发送至所述终端,以使得所述终端在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
第五方面,一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或者第二方面中任一所述的方法。
第六方面,一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或者第二方面中任一所述的方法。
第七方面,一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令实现如第一方面或者第二方面中任一所述的方法。
相对于现有技术,本发明所述的敏感数据识别方法具有以下优势:
终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
所述数据传输系统与上述敏感数据识别方法相对于现有技术所具有的优势相同,在此不再赘述。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例提供的一种敏感数据识别方法的实施环境示意图;
图2是本发明实施例提供的一种敏感数据识别方法的流程图;
图3是本发明实施例提供的另一种敏感数据识别方法的流程图;
图4是本发明实施例提供的又一种敏感数据识别方法的流程图;
图5是本发明实施例提供的再一种敏感数据识别方法的流程图;
图6是本发明实施例提供的一种敏感数据识别系统的结构示意图;
图7是本发明实施例提供的一种敏感数据识别装置的框图;
图8是本发明实施例提供的另一种敏感数据识别装置的框图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
随着终端数据防泄漏技术的广泛应用使得办公环境下的终端数据的安全性得到进一步保障。目前终端数据防泄漏技术的核心在于敏感词识别技术。然而,随着待识别文本的大小的增长,特别是待识别文本包括的图片数量的增加,对待识别文本进行敏感词识别处理的过程耗时增加,消耗终端的硬件资源越高。这就导致在终端的硬件资源受限的情况下,敏感词识别效率较低。
目前敏感词识别处理的实现方式有多种。例如,敏感词识别处理的过程可以包括:识别待识别文本的文本格式。基于文本格式提取待识别文本的文本内容。按照敏感信息规则判断提取的文本内容是否包括敏感词。从而可以在确定提取的文本内容包括敏感信息时,对待识别文本进行传输阻断。或者在确定提取的文本内容不包括敏感信息时,对待识别文本进行传输放行。其中,敏感信息规则用于反映文本内容中可能包括的敏感词。可选地,敏感信息规则可以包括:敏感词扫描规则以及包括多个敏感词的敏感词库。该敏感词库中多个敏感词可以是具有涉密或者涉嫌违规等指向性的敏感词,也可以是用户设定的针对某一情况下特定的敏感词等。敏感词规则可以是针对数据中各词与敏感词库中各敏感词的匹配规则。例如,该敏感词规则可以是基于正则表达式的匹配规则,或者也可以是基于多模式匹配算法的匹配规则等等。
其中,若将敏感词识别处理分为三个阶段,即识别待识别文本的文本格式的过程为第一阶段,基于文本格式提取待识别文本的文本内容的过程为第二阶段,按照敏感信息规则判断提取的文本内容是否包括敏感词的过程为第三阶段。则终端执行该三个阶段的消耗时长由短至长依次为:第一阶段、第二阶段以及第三阶段。终端执行该三个阶段时中央处理器(central processing unit,CPU)的消耗情况由低至高依次为:第一阶段、第二阶段以及第三阶段。终端执行该三个阶段时内存的消耗情况由低至高依次为:第一阶段、第二阶段以及第三阶段。因而,随着待识别文本的大小的增长,特别是待识别文本包括的图片数量的增加,待识别文本的文本内容的提取过程耗时越长,消耗终端的硬件资源(CPU和/内存)越高。这就导致在终端的硬件资源受限的情况下,待识别文本的文本内容的提取效率较低,进而导致敏感词识别效率较低。
请参考图1,其示出了本发明实施例提供的一种敏感数据识别方法的实施环境示意图。如图1所示,实施环境可以包括:服务端101以及至少一个终端102。服务端101和终端102可以通过网络连接。其中,网络可以包括有线网络或者无线网络。需要说明的是,图1中以实施环境包括一个终端102为例进行说明,图1所示的实施环境中包括的终端数量并不对本发明实施例提供的实施环境中可包括的终端的数量进行限定。
其中,终端102可以获取待识别文本的文本大小。在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片。将得到的各待识别切片发送至服务端101。服务端101可以在接收到终端102发送的多个待识别切片后,针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果。将每个待识别切片的敏感识别结果发送至终端102。其中,敏感识别结果用于指示待识别切片的文本内容是否包括敏感词。示例的,服务端101可以为一个服务器,或者由多个服务器构成的服务器集群等。终端102可以为个人电脑(Personal Computer,PC)、手机、平板电脑或者可穿戴设备等等。
本发明实施例中,终端102可以在接收到待识别切片的敏感识别结果后,在根据敏感识别结果确定待识别切片所属的待识别文本的文本内容包括敏感词时,对待识别文本执行传输阻断,以使得待识别文本无法向除服务端之外的其他设备传输。在根据敏感识别结果确定待识别切片所属的待识别文本的文本内容不包括敏感词时,对待识别文本执行传输放行,以使得待识别文本可以向除服务端之外的其他设备传输。其中,终端可以在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
在一种可选地应用场景下,服务端的数量也可以为多个。任一服务端对待识别切片进行敏感词识别的过程可以相同或者不同。终端可以与多个服务端均建立连接。终端可以向多个服务端中任一服务端发送待识别切片以接收该服务端发送的针对待识别切片的敏感识别结果。在此场景下,多个服务端可以构成分布式地多个服务节点,多个终端可以通过不同的服务节点确定待识别切片的敏感识别结果。实现了服务端的去中心化,避免了在服务端的数量为一个的情况下服务端因同时接收到多个终端发送的待识别切片,导致的处理压力过大的问题,提升了敏感词识别效率。
请参考图2,其示出了本发明实施例提供的一种敏感数据识别方法的流程图。该敏感数据识别方法可以应用于图1所示的实施环境。如图2所示,所述方法包括:
步骤201、终端获取待识别文本的文本大小。
本发明实施例中,待识别文本可以包括以下文字文本和/或图片文本等。待识别文本的格式为PDF、txt或者html等。可选地,终端可以读取待识别文本的文本属性,从文本属性中获取文件大小。
可选地,待识别文本可以为待传输的文本。终端可以在监测到针对待识别文本的传输操作时,获取待识别文本的文本大小。示例的,用户若想要通过目标应用程序中针对接收用户的发送窗口,将待标识文件发送至接收用户的终端。则针对待识别文本的传输操作可以为将待识别文本添加至发送窗口的加载操作。例如,加载操作可以为将待识别文本的文本标识移动至发送窗口的移动操作。用户可以将待识别文本的文本标识移动至发送窗口,以使得终端在发送窗口内接收到针对文本标识的移动操作,响应于移动操作,确定监测到针对待识别文本的传输操作。从而获取待识别文本的文本大小。
步骤202、终端在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片。
本发明实施例中,终端在获取到待识别文本的文本大小后,可以判断待识别文本的文本大小是否大于尺寸阈值,以确定待识别文本的文本大小是否较大,以影响终端的敏感词识别效率。也即是,确定待识别文本是否为大文件,终端对大文件进行敏感词识别的处理效率较低。其中,尺寸阈值可以根据终端进行敏感词识别的处理效率确定。可选地,尺寸阈值可以为终端以最大敏感词处理效率进行敏感词识别时待识别文本的文件大小。示例的,尺寸阈值可以为500千字节(Kbyte,KB)、1兆字节(MByte,MB)或者5M等。
在文本大小大于尺寸阈值时,表明待识别文本的文本大小较大。终端可以将待识别文本进行切片处理得到多个待识别切片,以将较大的待识别文本转换为多个较小的待识别切片。
在一种可选地实现方式中,终端将待识别文本进行切片处理得到多个待识别切片的过程可以包括:获取对待识别文本进行切片处理的切分长度。按照该切分长度采用N-gram算法对待识别文本进行切片处理,得到多个待识别切片。
其中,N-gram算法是一种基于统计语言模型的算法。采用N-gram算法可以将待识别文本的文本内容按照字节进行大小为N的滑动窗口操作,从而生成长度为N的字节切片序列。终端获取的切分长度即为N-gram算法中的N值。该切分长度可以是预先设定的,或者,也可以是根据待识别文本的文本大小动态确定,例如,待识别文本的文本大小越大,切分长度越大。
示例的,假设待识别文本为“我爱北京天安门”,且假设切分长度为3。则终端按照该切分长度采用N-gram算法对待识别文本进行切片处理可以得到5个待识别切片。该5个待识别切片分别为“我爱北”、“爱北京”、“北京天”、“京天安”及“天安门”。
在另一种可选地实现方式中,终端将待识别文本进行切片处理得到多个待识别切片的过程可以包括:将待识别文本转换为二进制文件。获取对待识别文本进行切片处理的切分长度。按照切分长度将二进制文件包括的二进制数切分为多个二进制切片,每个二进制切片包括的二进制数的个数为切分长度。针对每个二进制切片,将二进制切片转换为文本文件。
其中,终端获取的切分长度可以是预先设定的,或者,也可以是根据待识别文本的文本大小动态确定,例如,待识别文本的文本大小越大,切分长度越大。
示例的,假设待识别文本转为二进制文件为“011111111”,且假设切分长度为3。则终端按照切分长度可以将二进制文件包括的二进制数切分为3个二进制切片。该3个二进制切片分别为“011”、“111”及“111”。
本发明实施例中,在待识别文本包括图片时,终端在将待识别文本进行切片处理得到多个待识别切片之前,终端可以提取待识别文本中图片的文字信息,利用文字信息替换待识别文本中的图片,得到替换后的待识别文本。该替换后的待识别文本为文字文本。可选地,终端提取待识别文本中图片的文字信息可以指的是终端直接提取待识别文本中图片上的文字信息。或者,终端解析待识别文本中图片的语义信息,将语义信息作为图片的文字信息。
需要说明的是,在文本大小小于或者等于尺寸阈值时,表明待识别文本的文本大小较小。终端可以直接对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。待识别文本的敏感识别结果用于指示待识别文本是否包括敏感词。
在一种可选地实现方式中,终端存储有包括多个敏感词的敏感词库。终端对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果的过程可以包括:终端可以提取待识别文本包括的词语,将提取的词语与敏感词库中各敏感词进行匹配。若匹配成功,则生成指示待识别文本的文本内容包括敏感词的敏感识别结果。若匹配不成功,则生成指示待识别文本的文本内容不包括敏感词的敏感识别结果。
可选地,敏感识别结果可以为数字字符。示例的,敏感识别结果可以为1或者0。在敏感识别结果为1的情况下,敏感识别结果指示待识别文本的文本内容包括敏感词。在敏感识别结果为0的情况下,敏感识别结果指示待识别文本的文本内容不包括敏感词。
在另一种可选地实现方式中,终端存储有包括多个敏感词的敏感词库。终端对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果的过程可以包括:终端可以根据预先建立的决策树对待识别文本进行敏感词识别,得到敏感识别结果。其中,决策树是预先通过确定有穷自动机(Deterministic Finite Automaton,DFA)算法以及敏感词库建立的。
可选地,终端建立决策树的过程可以包括:建立根节点,并通过首字母建立分支(例如,可以按照从字母A至字母Z的顺序建立分支)。以敏感词库中的敏感词作为输入,将敏感词与决策树中的节点进行匹配,若匹配成功,则向下继续寻找,即继续匹配下一个敏感词。若未匹配成功,则建立新的节点,并将该未匹配成功的敏感词存储至该节点。重复执行上述匹配过程,直至将敏感词库中的敏感词全部匹配完成。其中,在敏感词为中文字符时,可以在决策树的节点中存储该中文字符对应的拼音。在敏感词为英文时,可以在决策树的节点中存储英文全称以及英文缩写。当然,若敏感词为其他语言种类时,可以按照类似的方式进行处理。
由于在实际应用中,在待识别文本中,可能存在通过敏感词对应的拼音代替敏感词本身的情况,因此,为了进一步提高敏感词识别结果的准确性,可通过决策树各个节点存储的敏感词本身以及该敏感词对应的拼音对待识别文本进行敏感词识别,从而获得敏感识别结果。
步骤203、终端将各待识别切片发送至服务端。
本发明实施例中,终端通过其与服务端建立的连接,将各待识别切片发送至服务端,以使得服务端可以接收到各待识别切片。
步骤204、服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果。
本发明实施例中,服务端在接收到各待识别切片后,可以针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果。可选的,服务端对待识别切片进行敏感词识别的实现方式可以与终端对待识别文本进行敏感词识别的方式相同。则终端针对每个待识别切片进行敏感词识别得到每个待识别切片的敏感识别结果的过程可以参考前述终端对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果的过程,本发明实施例在此不再赘述。
步骤205、服务端将敏感识别结果发送至终端。
本发明实施例中,服务端在得到每个待识别切片的敏感识别结果后,通过其与终端建立的连接,将每个待识别切片的敏感识别结果发送至服务端。
步骤206、终端在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
本发明实施例中,终端在接收到服务端发送的待识别文本的每个待识别切片的敏感识别结果后,可以判断各待识别切片的敏感识别结果是否均指示对应的待识别切片的文本内容不包括敏感词,以在确定待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词。在确定各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
综上所述,本发明实施例提供的敏感数据识别方法,终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图3,其示出了本发明实施例提供的另一种敏感数据识别方法的流程图。敏感数据识别方法可以应用于图1所示的实施环境。如图3所示,所述方法包括:
步骤301、终端获取待识别文本的文本大小。
该步骤的解释和实现方式可以参考前述步骤201的解释和实现方式,本发明实施例对此不做赘述。
本发明实施例中,终端在获取待识别文本的文本大小之后,可以判断待识别文本的文本大小是否大于尺寸阈值,以确定待识别文本的文本大小是否较大,以影响终端的敏感词识别效率。也即是,确定待识别文本是否为大文件,终端对大文件进行敏感词识别的处理效率较低。终端在确定文本大小大于尺寸阈值时可以执行步骤302;在确定文本大小小于或者等于尺寸阈值时可以执行步骤310。
步骤302、终端在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片。
该步骤的解释和实现方式可以参考前述步骤201的解释和实现方式,本发明实施例对此不做赘述。
步骤303、终端针对每个待识别切片进行局部敏感哈希计算,得到每个待识别切片的第一哈希值。
本发明实施例中,终端在将待识别文本进行切片处理得到多个待识别切片之后,终端可以针对每个待识别切片进行局部敏感哈希(Locality Sensitive Hashing,LSH)计算,得到每个待识别切片的第一哈希值。
步骤304、终端将各待识别切片的第一哈希值发送至服务端。
本发明实施例中,终端通过其与服务端建立的连接,将各待识别切片的第一哈希值发送至服务端,以使得服务端可以接收到各待识别切片的第一哈希值。
步骤305、服务端针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,文件敏感库包括各文本的第二哈希值以及各文本的敏感识别结果。
本发明实施例中,服务端连接有文件敏感库,该文件敏感库中存储有多个文本的第二哈希值以及敏感识别结果。其中,文件敏感库中文件的第二哈希值为对该文件进行LSH计算得到的哈希值。服务端可以将每个待识别切片依次作为目标待识别切片,计算该目标待识别切片与敏感库中每个文本的第二哈希值之间的相似度,得到各文本对应的相似度。
可选地,服务端计算目标待识别切片与敏感库中任一文本的第二哈希值之间的相似度的过程可以包括:服务端计算目标待识别切片的第一哈希值与第二哈希值之间的汉明距离,并根据汉明距离确定第一哈希值与第二哈希值之间的相似度。
其中,服务端根据汉明距离确定第一哈希值与第二哈希值之间的相似度的过程可以包括:服务端将第一哈希值与第二哈希值之间的汉明距离作为第一哈希值与第二哈希值之间的相似度。或者,服务端可以计算第一哈希值的字符数与汉明距离之间的差值,然后将第一哈希值的字符数与第一汉明距离之间的差值与第一哈希值的字符数相除后的结果作为第一哈希值与第二哈希值的相似度。
步骤306、服务端在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。
本发明实施例中,服务端可以判断各文本对应的相似度中是否存在大于相似度阈值的目标相似度,以确定是否存在与目标待识别切片高度相似的文本。可选地,服务端可以将各文本对应的相似度依次与目标相似度阈值比较,以确定文本对应的相似度是否大于目标相似度阈值。
在各相似度中存在大于相似度阈值的目标相似度时,表明文件敏感库中存在与目标待识别切片高度相似的文本,即确定与目标相似度对应的文本和目标待识别切片高度相似。服务端可以从文件敏感库中查找与第一哈希值的相似度为目标相似度的第二哈希值所对应的敏感识别结果。将该敏感识别结果作为目标待识别切片的敏感识别结果。
步骤307、服务端在各相似度中不存在目标相似度时,从终端获取目标待识别切片,对目标待识别切片进行敏感词识别得到目标待识别切片的敏感识别结果。
本发明实施例中,在各相似度中不存在大于相似度阈值的目标相似度时,表明文件敏感库中不存在与目标待识别切片高度相似的文本。则服务端可以对目标待识别切片进行敏感词识别得到目标待识别切片的敏感识别结果。其中,服务端从终端获取目标待识别切片的过程可以包括:服务端可以向终端发送切片请求,该切片请求可以包括目标待识别切片的切片标识。终端在接收到切片请求后,可以相应于切片请求,向服务端发送目标待识别切片,以使得服务端从终端获取目标待识别切片,并对目标待识别切片进行敏感词识别。服务端对目标待识别切片进行敏感词识别的过程可以参考前述步骤204中服务端针对每个待识别切片进行敏感词识别的过程,本发明实施例对此不做赘述。
需要说明的是,服务端通过执行步骤305至步骤307,可以得到待识别文本包括的每个待识别切片的敏感识别结果。
步骤308、服务端将每个待识别切片的敏感识别结果发送至终端。
本发明实施例中,服务端通过其与终端建立的连接,将待识别文本包括的每个待识别切片的敏感识别结果发送至终端。
步骤309、终端在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
本发明实施例中,终端在接收到服务端发送的待识别文本的每个待识别切片的敏感识别结果后,可以判断各待识别切片的敏感识别结果是否均指示对应的待识别切片的文本内容不包括敏感词,以在确定待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词。在确定各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
步骤310、终端在文本大小小于或者等于尺寸阈值时,对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。
本发明实施例中,终端获取到待识别文本的文本大小之后,可以判断待识别文本的文本大小是否大于尺寸阈值。在文本大小小于或者等于尺寸阈值时,表明待识别文本的文本大小较小。终端可以直接对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。其中,终端对待识别文本进行敏感词识别的过程可以参考前述步骤202中对待识别文本进行敏感词识别的过程,本发明实施例对此不做赘述。
步骤311、终端对待识别文本进行局部敏感哈希计算,得到待识别文本的第二哈希值。
本发明实施例中,终端可以对待识别文本进行LSH计算得到的待识别文本的第二哈希值,以将待识别文本的第二哈希值以及敏感识别结果进行本地存储,和/或发送至服务端,并存储于服务端的文件敏感库,便于充实文件敏感库的数据,提高对待识别文本敏感词识别效率。
需要说明的是,终端可以将其执行敏感词识别处理的文本的第二哈希值以及敏感识别结果进行本地存储。从而在待识别文本的文本大小小于或者等于尺寸阈值时,终端可以先对待识别文本进行LSH计算,得到待识别文本的哈希值。然后计算该待识别文本的哈希值与本地存储的各文本的第二哈希值之间的相似度。从而在各相似度中存在大于相似度阈值的第二目标相似度时,将第二目标相似度对应的第二哈希值的敏感识别结果,作为待识别文本的敏感识别结果。在各相似度中不存在第二目标相似度时,终端对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。这样,终端可以根据待识别文本的哈希值和本地存储的各文本的第二哈希值,优先从本地存储中进行文本匹配,以在匹配成功时将匹配文本的敏感识别结果直接确定为待识别文本的敏感识别结果。减少终端执行敏感词识别处理的次数,提升待识别文本的敏感识别效率。
步骤312、终端将待识别文本的第二哈希值以及敏感识别结果发送至服务端。
本发明实施例中,终端通过其与服务端建立的连接,将待识别文本的第二哈希值以及敏感识别结果发送至服务端。
步骤313、服务端向文件敏感库添加待识别文本的第二哈希值以及敏感识别结果。
服务端可以在接收到待识别文本的第二哈希值以及敏感识别结果后,将待识别文本的第二哈希值以及敏感识别结果添加至文件敏感库,丰富文件敏感库的数据,进一步提高对待识别文本敏感词识别效率。
综上所述,本发明实施例提供的敏感数据识别方法,在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图4,其示出了本发明实施例提供的又一种敏感数据识别方法的流程图。敏感数据识别方法可以应用于图1所示的实施环境,由终端执行。如图4所示,所述方法包括:
步骤401、获取待识别文本的文本大小。
步骤402、在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片。
步骤403、将各待识别切片发送至服务端,以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果。
步骤404、接收服务端发送的每个待识别切片的敏感识别结果,敏感识别结果用于指示待识别切片是否包括敏感词。
步骤405、在各待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
可选的,方法还包括:
针对每个待识别切片进行局部敏感哈希计算,得到每个待识别切片的第一哈希值;
将各待识别切片发送至服务端,以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,包括:
将各待识别切片的第一哈希值发送至服务端,以使得服务端针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,文件敏感库包括各文本的第二哈希值以及各文本的敏感识别结果,在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。
可选的,在各相似度中不存在目标相似度时,目标待识别切片的敏感识别结果为服务端在从终端获取目标待识别切片后,对目标待识别切片进行敏感词识别得到。
可选的,方法还包括:
在文本大小小于或者等于尺寸阈值时,对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。
可选的,方法还包括:
对待识别文本进行局部敏感哈希计算,得到待识别文本的第二哈希值;
将待识别文本的第二哈希值以及敏感识别结果发送至服务端,以使得服务端向文件敏感库添加待识别文本的第二哈希值以及敏感识别结果。
本发明实施例中各步骤的解释和实现方式可以参考前述图2或图3所示的实施例中相关步骤的解释和实现方式,本发明实施例对此不做赘述。
本发明实施例中,终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图5,其示出了本发明实施例提供的再一种敏感数据识别方法的流程图。敏感数据识别方法可以应用于图1所示的实施环境,由服务端执行。如图5所示,方法包括:
步骤501、接收终端发送的多个待识别切片,待识别切片为终端在待识别文本的文本大小大于尺寸阈值时,对待识别文本进行切片处理得到的切片。
步骤502、针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,敏感识别结果用于指示待识别切片是否包括敏感词。
步骤503、将敏感识别结果发送至终端,以使得终端在各待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
可选的,接收终端发送的多个待识别切片,包括:接收终端发送的多个待识别切片的第一哈希值,待识别切片的第一哈希值为终端对待识别切片进行局部敏感哈希计算得到;
针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,包括:
针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,文件敏感库包括各文本的第二哈希值以及各文本的敏感识别结果;
在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。
可选的,针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,还包括:
在各相似度中不存在目标相似度时,从终端获取目标待识别切片,对目标待识别切片进行敏感词识别得到目标待识别切片的敏感识别结果。
本发明实施例中各步骤的解释和实现方式可以参考前述图2或图3所示的实施例中相关步骤的解释和实现方式,本发明实施例对此不做赘述。
本发明实施例中,终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图6,其示出了本发明实施例提供的一个敏感数据识别系统的结构示意图。本发明实施例提供的敏感数据识别方法可以应用于图6所示的敏感数据识别系统。如图6所示,敏感数据识别系统包括:
客户端601和服务端602。客户端601和服务端602可以通过网络连接。其中,网络可以包括有线网络或者无线网络。示例的,客户端601可以为终端,该终端可以为个人电脑(Personal Computer,PC)、手机、平板电脑或者可穿戴设备等等。服务端602可以为一个服务器,或者由多个服务器构成的服务器集群等。
需要说明的是,图6中以敏感数据识别系统包括一个客户端601为例进行说明,图6所示的敏感数据识别系统中包括的客户端数量并不对本发明实施例提供的敏感数据识别系统中可包括的客户端的数量进行限定。
客户端601可以包括:文件内容解析与识别模块6011、文件切片与LSH信息计算模块6012以及敏感结果信息本地缓存与上报检索模块6013。服务端602可以包括:LSH/敏感结果信息存储集合模块6021、文件内容解析与识别模块6022以及LSH/敏感结果信息查询匹配模块6023。
其中,文件内容解析与识别模块6011可以用于在获取的待识别文本的文本大小小于或者等于尺寸阈值时,对待识别文本进行敏感词识别得到待识别文本的敏感识别结果。并将待识别文本以及待识别文本的敏感识别结果发送至文件切片与LSH信息计算模块6012。文件切片与LSH信息计算模块6012用于对待识别文本进行LSH计算,得到待识别文本的第二哈希值。并将待识别文本的第二哈希值以及敏感识别结果发送至服务端602的LSH/敏感结果信息存储集合模块6021。LSH/敏感结果信息存储集合模块6021用于存储文件敏感库,LSH/敏感结果信息存储集合模块6021将接收到待识别文本的第二哈希值以及敏感识别结果存储于文件敏感库。
文件切片与LSH信息计算模块6012还用于在获取的待识别文本的文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片。并针对每个待识别切片进行局部敏感哈希计算,得到每个待识别切片的第一哈希值。将每个待识别切片的第一哈希值发送至服务端602的LSH/敏感结果信息查询匹配模块6023。
LSH/敏感结果信息查询匹配模块6023针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度。在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。在各相似度中不存在目标相似度时,控制文件内容解析与识别模块6022从客户端获取目标待识别切片后,对目标待识别切片进行敏感词识别得到目标待识别切片的敏感识别结果。
LSH/敏感结果信息查询匹配模块6023在各相似度中存在大于相似度阈值的目标相似度时,将目标待识别切片的敏感识别结果发送至客户端。文件内容解析与识别模块6022在各相似度中不存在目标相似度时,将目标待识别切片的敏感识别结果发送至客户端。
本发明实施例中,在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图7,其示出了本发明实施例提供的一种敏感数据识别装置的框图。敏感数据识别装置可以应用于终端。如图7所示,敏感数据识别装置700包括:获取模块701、切片处理模块702、发送模块703、接收模块704和确定模块705。
获取模块701,用于获取待识别文本的文本大小;
切片处理模块702,用于在文本大小大于尺寸阈值时,将待识别文本进行切片处理得到多个待识别切片;
发送模块703,用于将各待识别切片发送至服务端,以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果;
接收模块704,用于接收服务端发送的每个待识别切片的敏感识别结果,敏感识别结果用于指示待识别切片是否包括敏感词;
确定模块705,用于在各待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
可选地,装置还包括:
计算模块,用于针对每个待识别切片进行局部敏感哈希计算,得到每个待识别切片的第一哈希值;
发送模块703,还用于:将各待识别切片的第一哈希值发送至服务端,以使得服务端针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,文件敏感库包括各文本的第二哈希值以及各文本的敏感识别结果,在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。
可选地,在各相似度中不存在目标相似度时,目标待识别切片的敏感识别结果为服务端在从终端获取目标待识别切片后,对目标待识别切片进行敏感词识别得到。
可选地,装置还包括:
识别模块,用于在文本大小小于或者等于尺寸阈值时,对待识别文本进行敏感词识别,得到待识别文本的敏感识别结果。
可选地,计算模块,还用于对待识别文本进行局部敏感哈希计算,得到待识别文本的第二哈希值;
发送模块703,还用于将待识别文本的第二哈希值以及敏感识别结果发送至服务端,以使得服务端向文件敏感库添加待识别文本的第二哈希值以及敏感识别结果。
综上所述,本发明实施例提供的敏感数据识别装置,终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
请参考图8,其示出了本发明实施例提供的一种敏感数据识别装置的框图。敏感数据识别装置可以应用于服务端。如图8所示,敏感数据识别装置800包括:接收模块801、识别模块802和发送模块803。
接收模块801,用于接收终端发送的多个待识别切片,待识别切片为终端在待识别文本的文本大小大于尺寸阈值时,对待识别文本进行切片处理得到的切片;
识别模块802,用于针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,敏感识别结果用于指示待识别切片是否包括敏感词;
发送模块803,用于将敏感识别结果发送至终端,以使得终端在各待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词,在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词。
可选地,接收模块801,还用于:接收终端发送的多个待识别切片的第一哈希值,待识别切片的第一哈希值为终端对待识别切片进行局部敏感哈希计算得到;
识别模块802,还用于:
针对多个待识别切片中任一目标待识别切片,计算目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,文件敏感库包括各文本的第二哈希值以及各文本的敏感识别结果;
在各相似度中存在大于相似度阈值的目标相似度时,将目标相似度对应的第二哈希值的敏感识别结果,作为目标待识别切片的敏感识别结果。
可选地,识别模块802,还用于在各相似度中不存在目标相似度时,从终端获取目标待识别切片,对目标待识别切片进行敏感词识别得到目标待识别切片的敏感识别结果。
综上所述,本发明实施例提供的敏感数据识别装置,终端在获取的待识别文本的文本大小大于尺寸阈值时,通过将待识别文本进行切片处理得到多个待识别切片,并将各待识别切片发送至服务端。以使得服务端针对每个待识别切片进行敏感词识别,得到每个待识别切片的敏感识别结果,并将待识别切片的敏感识别结果发送至终端。终端在接收到服务端发送的每个待识别切片的敏感识别结果后,在待识别文本的待识别切片的敏感识别结果中,任一敏感识别结果指示待识别切片包括敏感词时,确定待识别文本包括敏感词;在各待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定待识别文本不包括敏感词,实现对待识别文本的敏感词识别。该技术方案中,由于在待识别文本的体积较大时,可以将待识别文本切分为多个体积较小的待识别切片。从而通过对体积较小的待识别切片进行敏感词识别,以根据待识别切片的敏感识别结果确定待识别文本是否包括敏感词。因此,相较于相关技术,降低了进行敏感词识别的文本对象的大小,进而减少了敏感词识别处理过程的耗时,降低了敏感词识别处理过程中对终端的硬件资源的消耗。在终端的硬件资源受限的情况下,提升了敏感词识别效率。
本发明实施例还提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现本发明实施例提供的敏感数据识别方法中终端执行的步骤,或者,实现本发明实施例提供的敏感数据识别方法中服务端执行的步骤。
本发明实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现本发明实施例提供的敏感数据识别方法中终端执行的步骤,或者,实现本发明实施例提供的敏感数据识别方法中服务端执行的步骤。
本发明实施例还提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现本发明实施例提供的敏感数据识别方法中终端执行的步骤,或者,实现本发明实施例提供的敏感数据识别方法中服务端执行的步骤。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种敏感数据识别方法,其特征在于,应用于终端,所述方法包括:
获取待识别文本的文本大小;
在所述文本大小大于尺寸阈值时,将所述待识别文本进行切片处理得到多个待识别切片;
将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果;
接收所述服务端发送的每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个所述待识别切片进行局部敏感哈希计算,得到每个所述待识别切片的第一哈希值;
所述将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,包括:
将各所述待识别切片的第一哈希值发送至服务端,以使得所述服务端针对多个所述待识别切片中任一目标待识别切片,计算所述目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,所述文件敏感库包括所述各文本的第二哈希值以及所述各文本的敏感识别结果,在各所述相似度中存在大于相似度阈值的目标相似度时,将所述目标相似度对应的第二哈希值的敏感识别结果,作为所述目标待识别切片的敏感识别结果。
3.根据权利要求2所述的方法,其特征在于,在各所述相似度中不存在所述目标相似度时,所述目标待识别切片的敏感识别结果为所述服务端在从所述终端获取所述目标待识别切片后,对所述目标待识别切片进行敏感词识别得到。
4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
在所述文本大小小于或者等于所述尺寸阈值时,对所述待识别文本进行敏感词识别,得到所述待识别文本的敏感识别结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述待识别文本进行局部敏感哈希计算,得到所述待识别文本的第二哈希值;
将所述待识别文本的第二哈希值以及敏感识别结果发送至所述服务端,以使得所述服务端向文件敏感库添加所述待识别文本的第二哈希值以及敏感识别结果。
6.一种敏感数据识别方法,其特征在于,应用于服务端,所述方法包括:
接收终端发送的多个待识别切片,所述待识别切片为所述终端在待识别文本的文本大小大于尺寸阈值时,对所述待识别文本进行切片处理得到的切片;
针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
将所述敏感识别结果发送至所述终端,以使得所述终端在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
7.根据权利要求6所述的方法,其特征在于,所述接收终端发送的多个待识别切片,包括:接收终端发送的多个待识别切片的第一哈希值,所述待识别切片的第一哈希值为所述终端对所述待识别切片进行局部敏感哈希计算得到;
所述针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,包括:
针对多个所述待识别切片中任一目标待识别切片,计算所述目标待识别切片的第一哈希值与文件敏感库中各文本的第二哈希值之间的相似度,所述文件敏感库包括所述各文本的第二哈希值以及所述各文本的敏感识别结果;
在各所述相似度中存在大于相似度阈值的目标相似度时,将所述目标相似度对应的第二哈希值的敏感识别结果,作为所述目标待识别切片的敏感识别结果。
8.根据权利要求7所述的方法,其特征在于,所述针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,还包括:
在各所述相似度中不存在所述目标相似度时,从所述终端获取所述目标待识别切片,对所述目标待识别切片进行敏感词识别得到所述目标待识别切片的敏感识别结果。
9.一种敏感数据识别装置,其特征在于,应用于终端,所述方法包括:
获取模块,用于获取待识别文本的文本大小;
切片处理模块,用于在所述文本大小大于尺寸阈值时,将所述待识别文本进行切片处理得到多个待识别切片;
发送模块,用于将各所述待识别切片发送至服务端,以使得所述服务端针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果;
接收模块,用于接收所述服务端发送的每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
确定模块,用于在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
10.一种敏感数据识别装置,其特征在于,应用于服务端,所述方法包括:
接收模块,用于接收终端发送的多个待识别切片,所述待识别切片为所述终端在待识别文本的文本大小大于尺寸阈值时,对所述待识别文本进行切片处理得到的切片;
识别模块,用于针对每个所述待识别切片进行敏感词识别,得到每个所述待识别切片的敏感识别结果,所述敏感识别结果用于指示所述待识别切片是否包括敏感词;
发送模块,用于将所述敏感识别结果发送至所述终端,以使得所述终端在各所述待识别切片的敏感识别结果中,任一所述敏感识别结果指示待识别切片包括敏感词时,确定所述待识别文本包括敏感词,在各所述待识别切片的敏感识别结果均指示待识别切片不包括敏感词时,确定所述待识别文本不包括敏感词。
CN202111642180.XA 2021-12-29 2021-12-29 敏感数据识别方法及装置 Pending CN114330280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111642180.XA CN114330280A (zh) 2021-12-29 2021-12-29 敏感数据识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111642180.XA CN114330280A (zh) 2021-12-29 2021-12-29 敏感数据识别方法及装置

Publications (1)

Publication Number Publication Date
CN114330280A true CN114330280A (zh) 2022-04-12

Family

ID=81016150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111642180.XA Pending CN114330280A (zh) 2021-12-29 2021-12-29 敏感数据识别方法及装置

Country Status (1)

Country Link
CN (1) CN114330280A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663040A (zh) * 2023-07-24 2023-08-29 天津卓朗昆仑云软件技术有限公司 敏感数据的扫描方法、装置、电子设备及介质
CN117828659A (zh) * 2023-12-19 2024-04-05 慧之安信息技术股份有限公司 一种加强babac访问控制隐私性的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663040A (zh) * 2023-07-24 2023-08-29 天津卓朗昆仑云软件技术有限公司 敏感数据的扫描方法、装置、电子设备及介质
CN117828659A (zh) * 2023-12-19 2024-04-05 慧之安信息技术股份有限公司 一种加强babac访问控制隐私性的方法和系统
CN117828659B (zh) * 2023-12-19 2024-08-02 慧之安信息技术股份有限公司 一种加强babac访问控制隐私性的方法和系统

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US9910985B2 (en) Apparatus and method for identifying similarity via dynamic decimation of token sequence N-grams
CN110149266B (zh) 垃圾邮件识别方法及装置
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
CN114330280A (zh) 敏感数据识别方法及装置
US20170289082A1 (en) Method and device for identifying spam mail
CN111817984B (zh) 消息发送方法、装置、设备及存储介质
CN107085568B (zh) 一种文本相似度判别方法及装置
CN108268438B (zh) 一种页面内容提取方法、装置以及客户端
CN110019640B (zh) 涉密文件检查方法及装置
CN112765324B (zh) 一种概念漂移检测方法及装置
CN106569989A (zh) 一种用于短文本的去重方法及装置
CN113779481A (zh) 诈骗网站的识别方法、装置、设备及存储介质
CN112579931A (zh) 网络访问分析方法、装置、计算机设备和存储介质
CN114598597B (zh) 多源日志解析方法、装置、计算机设备及介质
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN113992625B (zh) 域名源站探测方法、系统、计算机及可读存储介质
CN107798004B (zh) 关键词查找方法、装置及终端
CN113449829B (zh) 基于光学字符识别技术的数据传输方法及相关装置
CN114244795A (zh) 一种信息的推送方法、装置、设备及介质
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
CN111368693A (zh) 一种身份证信息的识别方法和装置
CN112312590B (zh) 一种设备通信协议识别方法和装置
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination