CN109446837A - 基于敏感信息的文本审核方法、设备及可读存储介质 - Google Patents
基于敏感信息的文本审核方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN109446837A CN109446837A CN201811195376.7A CN201811195376A CN109446837A CN 109446837 A CN109446837 A CN 109446837A CN 201811195376 A CN201811195376 A CN 201811195376A CN 109446837 A CN109446837 A CN 109446837A
- Authority
- CN
- China
- Prior art keywords
- sensitive information
- text
- scanning rule
- information scanning
- pending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于敏感信息的文本审核方法,包括:当接收到客户端发送的文本审核请求时,从所述文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;依据所述敏感信息扫描结果,生成所述待审核文本的审核结果,并将所述审核结果返回所述客户端。本发明还公开了一种基于敏感信息的文本审核设备及计算机可读存储介质。本发明能够提高对资料文本的敏感信息审核效率和准确率。
Description
技术领域
本发明涉及信息安全的技术领域,尤其涉及一种基于敏感信息的文本审核方法、设备及可读存储介质。
背景技术
随着网络技术的广泛应用,对个人隐私和信息安全的重视程度越来越高,尤其是在电子商务领域中经常涉及到客户信息或交易信息等与隐私和安全相关的敏感信息,例如客户姓名、证件信息、联系地址和联系方式等。
目前,为防止敏感信息泄露,在获取资料文本之后,需要审核人员人工的对资料文本进行敏感信息审核,即判断资料文本中是否包含敏感信息,然而,在实际操作过程中,需要进行敏感信息审核的资料文本较多,需要耗费较多的人力对资料文本进行敏感信息审核,审核效率较低,且人工审核依赖经验,容易出现误判或漏判的情况,审核准确率较低。
因此,如何提高对资料文本的敏感信息审核效率和准确率是目前亟待解决的问题。
发明内容
本发明的主要目的在于提供一种基于敏感信息的文本审核方法、设备及计算机可读存储介质,旨在提高对资料文本的敏感信息审核效率和准确率。
为实现上述目的,本发明提供一种基于敏感信息的文本审核方法,所述基于敏感信息的文本审核方法包括以下步骤:
当接收到客户端发送的文本审核请求时,从所述文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;
依据所述敏感信息扫描结果,生成所述待审核文本的审核结果,并将所述审核结果返回所述客户端。
进一步地,所述确定敏感信息扫描规则组的步骤包括:
从所述文本审核请求中获取待扫描标签,并从预设敏感信息扫描规则组中获取与所述待扫描标签对应的若干敏感信息扫描规则;
将由所述若干敏感信息扫描规则组成的集合确定为敏感信息扫描规则组。
进一步地,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
监测文本抽样指令,并当监测到文本抽样指令时,对所述待审核文本进行抽样,以获取包含预设行数的待审核抽样文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核抽样文本进行敏感信息扫描。
进一步地,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
判断所述待审核文本的字节数是否大于或等于第一预设阈值;
若所述待审核文本的字节数大于或等于第一预设阈值,则依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述若干待审核子文本中的各待审核子文本同时进行敏感信息扫描。
进一步地,依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本的步骤包括:
查询预存的字节数与拆分行数的映射关系表,获取所述待审核文本的字节数对应的拆分行数;
依据所述待审核文本的字节数对应的拆分行数,将所述待审核文本拆分为若干待审核子文本。
进一步地,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
计算系统空闲资源,并判断所述系统空闲资源是否大于或等于第二预设阈值,且在所述系统空闲资源大于或等于第二预设阈值时,依据所述系统空闲资源,确定并行规则数量;
依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组;
依据所述若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对所述待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。
进一步地,依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组的步骤包括:
计算所述敏感信息扫描规则组的总规则数量,并用所述总规则数量除以所述并行规则数量,以获取扫描规则子组数;
将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
进一步地,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组的步骤包括:
获取所述敏感信息扫描规则组中各敏感信息扫描规则的扫描耗时;
依据各敏感信息扫描规则的扫描耗时,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
此外,为实现上述目的,本发明还提供一种基于敏感信息的文本审核设备,所述基于敏感信息的文本审核设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于敏感信息的文本审核程序,所述基于敏感信息的文本审核程序被所述处理器执行时实现如上所述的基于敏感信息的文本审核方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于敏感信息的文本审核程序,所述基于敏感信息的文本审核程序被处理器执行时实现如上所述的基于敏感信息的文本审核方法的步骤。
本发明提供一种基于敏感信息的文本审核方法、设备及计算机可读存储介质,本发明在接收到客户端发送的文本审核请求时,可以基于确定的敏感信息扫描规则组中的各敏感信息扫描规则,对文本审核请求中的待审核文本进行敏感信息扫描,以获取敏感信息扫描结果,并依据该敏感信息扫描结果,生成待审核文本的审核结果,且将该审核结果发送至客户端,由于整个敏感信息扫描过程是基于敏感信息扫描规则组进行的,不需要人工参与,可以有效的减少敏感信息的误判和漏判,极大的提高了对资料文本的敏感信息审核效率和准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于敏感信息的文本审核方法第一实施例的流程示意图;
图3为本发明第二实施例中步骤S102的细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例基于敏感信息的文本审核设备可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该基于敏感信息的文本审核设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的基于敏感信息的文本审核设备结构并不构成对基于敏感信息的文本审核设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于敏感信息的文本审核程序。
在图1所示的基于敏感信息的文本审核设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,并执行以下步骤:
当接收到客户端发送的文本审核请求时,从所述文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;
依据所述敏感信息扫描结果,生成所述待审核文本的审核结果,并将所述审核结果返回所述客户端。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
从所述文本审核请求中获取待扫描标签,并从预设敏感信息扫描规则组中获取与所述待扫描标签对应的若干敏感信息扫描规则;
将由所述若干敏感信息扫描规则组成的集合确定为敏感信息扫描规则组。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
监测文本抽样指令,并当监测到文本抽样指令时,对所述待审核文本进行抽样,以获取包含预设行数的待审核抽样文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核抽样文本进行敏感信息扫描。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
判断所述待审核文本的字节数是否大于或等于第一预设阈值;
若所述待审核文本的字节数大于或等于第一预设阈值,则依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述若干待审核子文本中的各待审核子文本同时进行敏感信息扫描。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
查询预存的字节数与拆分行数的映射关系表,获取所述待审核文本的字节数对应的拆分行数;
依据所述待审核文本的字节数对应的拆分行数,将所述待审核文本拆分为若干待审核子文本。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
计算系统空闲资源,并判断所述系统空闲资源是否大于或等于第二预设阈值,且在所述系统空闲资源大于或等于第二预设阈值时,依据所述系统空闲资源,确定并行规则数量;
依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组;
依据所述若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对所述待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
计算所述敏感信息扫描规则组的总规则数量,并用所述总规则数量除以所述并行规则数量,以获取扫描规则子组数;
将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
进一步地,处理器1001可以用于调用存储器1005中存储的基于敏感信息的文本审核程序,还执行以下步骤:
获取所述敏感信息扫描规则组中各敏感信息扫描规则的扫描耗时;
依据各敏感信息扫描规则的扫描耗时,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
本发明基于敏感信息的文本审核设备的具体实施例与下述基于敏感信息的文本审核方法的各具体实施例基本相同,在此不作赘述。
本发明提供一种基于敏感信息的文本审核方法。
参照图2,图2为本发明基于敏感信息的文本审核方法第一实施例的流程示意图。
本实施例中,基于敏感信息的文本审核方法包括:
步骤S101,当接收到客户端发送的文本审核请求时,从文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;
本实施例中,用户可以通过客户端向文本审核设备(服务端)发起文本审核请求,具体为当监测到文本审核指令时,客户端显示文本审核界面,并通过该文本审核界面接收用户上传的待审核文本,然后生成携带有待审核文本的文本审核请求,并将该文本审核请求发送至文本审核设备。需要说明的是,本实施例对文本审核,主要是检测待审核文本中是否包含有敏感信息。当文本审核设备接收到客户端发送的文本审核请求时,从该文本审核请求中获取待审核文本,并确定敏感信息扫描规则组。其中,敏感信息包括但不限于客户姓名、证件号码(身份证号码)、出生年月日、营业执照号、联系地址、联系电话、电子邮箱、银行卡号、社交账号、语音及影像类电子资料、车牌号码、房产登记号和客户联系人信息。开发人员通过对敏感信息进行分析,得到各类敏感信息的特点,然后基于各类敏感信息的特点得到对应的扫描规则,即正则表达式,并在文本审核设备中存储各敏感信息扫描规则,敏感信息扫描规则包括但不限于身份证号码扫描规则、银行卡号扫描规则、电子邮箱扫描规则、联系地址扫描规则和联系电话扫描规则。
其中,敏感信息扫描规则组的确定方式具体为从文本审核请求中获取待扫描标签,并从预设敏感信息扫描规则组中获取与待扫描标签对应的若干敏感信息扫描规则,且将由若干敏感信息扫描规则组成的集合确定为敏感信息扫描规则组。还具体为判断文本审核请求中是否携带有免扫描标签,如果文本审核请求中未携带有免扫描标签,则将预设敏感信息扫描规则组,确定为敏感信息扫描规则组,如果文本审核请求中携带有免扫描标签,则从该本审核请求内的免扫描信息中读取免扫描敏感字段,并从预设敏感信息扫描规则组中删除免扫描敏感字段对应的敏感信息扫描规则,以确定敏感信息扫描规则组。需要说明的是,免扫描敏感字段包括但不限于“身份证号码”、“银行卡号”、“电子邮箱”、“联系地址”和“联系电话”。
具体实施中,敏感信息扫描规则组的确定方式还可以为用户可以通过客户端申请免扫描的敏感信息,具体为当监测到免扫描权限申请指令时,显示免扫描权限申请界面,并通过免扫描权限申请界面接收免扫描信息(包括用户识别码和免扫描敏感字段),然后生成携带有该免扫描信息的免扫描权限申请请求,并将该免扫描权限申请请求发送至文件审核设备中(服务端),设备在接收到免扫描权限申请请求时,从所述免扫描权限申请请求中读取免扫描信息,并判断该免扫描信息中的用户识别码是否位于预设授权列表中,如果该免扫描信息中的用户识别码位于预设授权列表中,则生成包含免扫描敏感字段和用户识别码的免扫描权限,并将该免扫描权限存储至免扫描权限表中。
步骤S102,依据敏感信息扫描规则组中的各敏感信息扫描规则,对待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;
本实施例中,为对待审核文本进行审核,需要执行敏感信息扫描操作,即在确定敏感信息扫描规则组之后,设备依据敏感信息扫描规则组中的各敏感信息扫描规则,对待审核文本进行敏感信息扫描,以获取敏感信息扫描结果。其中,敏感信息扫描结果包含扫描到的敏感信息和对敏感信息有标注的已审核文本。值得说明的是,设备可以每次对待审核文本执行一条敏感信息扫描规则,直到敏感信息扫描规则组中的各敏感信息扫描规则均执行一次,还可以每次对待审核文件执行多条敏感信息扫描规则,直到敏感信息扫描规则组中的各敏感信息扫描规则均执行一次。
进一步地,在待审核文本较大时,需要耗费较多的时间执行敏感信息扫描操作,为此,可以对待审核文本进行抽样之后,对抽样得到的文本进行敏感信息扫描,可以提高敏感信息的扫描效率,减少耗费时间,具体地,设备监测文本抽样指令,并当监测到文本抽样指令时,对待审核文本进行抽样,以获取包含预设行数的待审核抽样文本,并依据敏感信息扫描规则组中的各敏感信息扫描规则,对待审核抽样文本进行敏感信息扫描,以获取敏感信息扫描结果。需要说明的是,上述预设行数可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。例如,预设行数为10000行,待审核文本的字节数为2GB,则从待审核文本随机抽样10000行文本信息,得到包含10000行文本信息的待审核抽样文本,并对该待审核抽样文本执行各敏感信息扫描规则。其中,当用户确定需要对待审核文本进行抽样扫描,则触发文本抽样指令。
步骤S103,依据敏感信息扫描结果,生成待审核文本的审核结果,并将审核结果返回客户端。
本实施例中,在获取到敏感信息扫描结果之后,依据敏感信息扫描结果,生成待审核文本的审核结果,并将审核结果返回客户端,即判断敏感信息扫描结果中是否存在敏感信息,如果该敏感信息扫描结果中存在敏感信息,则待审核文本的审核结果为审核未通过,即文本中包含有敏感信息,如果该敏感信息扫描结果中不存在敏感信息,待审核文本的审核结果为审核通过,即文本中未包含有敏感信息。其中,如果审核结果为审核未通过,则审核结果中包含有敏感信息和对敏感信息有标注的已审核文本。
进一步地,当设备确定待审核文本的审核结果为审核未通过时,给客户端下发携带有文本标识的脱敏指令,当客户端接收到设备发送的脱敏指令时,依据该脱敏指令中的文本标识,获取对应的待脱敏文本,并对该脱敏文本执行脱敏操作,即对该脱敏文本中的敏感信息进行掩码处理,或者对该脱敏文本中的敏感信息进行哈希,得到对应的哈希字符串,并将敏感信息替换为该哈希字符串。
具体实施中,当敏感信息扫描结果中存在敏感信息时,设备将包含敏感信息和对敏感信息有标注的已审核文本存储至数据库中,开发人员依据已审核文本,对扫描到的敏感信息进行随机抽样确认,核对是否已审核文本中是否有敏感信息误判或漏判,如果有敏感信息误判或漏判,则开发人员对误判或漏判的敏感信息进行分析,并依据分析结果,对敏感信息扫描规则进行优化,可以提高敏感信息的扫描准确率和覆盖率。
本实施例中,本发明在接收到客户端发送的文本审核请求时,可以基于确定的敏感信息扫描规则组中的各敏感信息扫描规则,对文本审核请求中的待审核文本进行敏感信息扫描,以获取敏感信息扫描结果,并依据该敏感信息扫描结果,生成待审核文本的审核结果,且将该审核结果发送至客户端,由于整个敏感信息扫描过程是基于敏感信息扫描规则组进行的,不需要人工参与,可以有效的减少敏感信息的误判和漏判,极大的提高了对资料文本的敏感信息审核效率和准确率。
进一步地,参照图3,基于上述第一或第二实施例,提出了本发明基于敏感信息的文本审核方法的第二实施例,与前述实施例的区别在于,步骤S102包括:
步骤S1021,判断待审核文本的字节数是否大于或等于第一预设阈值;
本实施例中,在待审核文本较大时,需要耗费较多的时间执行敏感信息扫描操作,为此,本实施例提出一种对敏感信息扫描的具体方式,具体为在确定敏感信息扫描规则组之后,判断待审核文本的字节数是否大于或等于第一预设阈值。需要说明的是,上述第一预设阈值可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
步骤S1022,若待审核文本的字节数大于或等于第一预设阈值,则依据待审核文本的字节数,将待审核文本拆分为若干待审核子文本;
本实施例中,如果待审核文本的字节数大于或等于第一预设阈值,则依据待审核文本的字节数,将待审核文本拆分为若干待审核子文本,即获取预设拆分行数,并依据预设拆分行数,将待审核文本拆分若干审核子文本。例如,预设拆分行数为2万行,且待审核文本包含10万行文本信息,则将待审核文本拆分为5个包含2万行文本信息的待审核子文本。
具体地,还可以查询预存的字节数与拆分行数的映射关系表,获取待审核文本的字节数对应的拆分行数,并依据待审核文本的字节数对应的拆分行数,将待审核文本拆分为若干待审核子文本。需要说明的是,上述字节数与拆分行数的映射关系表可由本领域技术人员具有实际情况进行设置,本实施例对此不作具体限定。
步骤S1023,依据敏感信息扫描规则组中的各敏感信息扫描规则,对若干待审核子文本中的各待审核子文本同时进行敏感信息扫描。
本实施例中,在将待审核文本拆分为若干待审核子文本之后,依据敏感信息扫描规则组中的各敏感信息扫描规则,对若干待审核子文本中的各待审核子文本同时进行敏感信息扫描,即依据敏感信息扫描规则组中各敏感信息扫描规则的扫描顺序,依次选择敏感信息扫描规则,并同时对若干待审核子文本中的各待审核子文本执行选择的敏感信息扫描规则。例如,待审核子文本为5个,且选择的敏感信息扫描规则为身份证号码扫描规则,则同时对5个待审核子文本执行身份证号码扫描规则。
本实施例中,本发明在待审核文本的较大时,将待审核文本拆分为若干待审核子文本,并依据各敏感信息扫描规则,对若干待审核子文本中的各待审核子文本同时进行敏感信息扫描,减少扫描耗费时间,可以有效的提高敏感信息扫描效率,进一步地提高对文本的敏感信息审核效率。
进一步地,基于上述第一、第二或第三实施例,提出了本发明基于敏感信息的文本审核方法的第三实施例,与前述实施例的区别在于,步骤S102包括:
步骤b1,计算系统空闲资源,并判断系统空闲资源是否大于或等于第二预设阈值,且在系统空闲资源大于或等于第二预设阈值时,依据系统空闲资源,确定并行规则数量;
本实施例中,设备在确定敏感信息扫描规则组之后,计算设备的系统空闲资源,并判断系统空闲资源是否大于或等于第二预设阈值,如果系统空闲资源大于或等于第二预设阈值,则依据系统空闲资源,确定并行规则数量,即查询预存的系统空闲资源与并行规则数量的映射关系表,获取系统空闲资源对应的并行规则数量。如果系统资源小于第二预设阈值,则依据该敏感信息扫描规则组中各敏感信息扫描规则的扫描顺序,依次选择敏感信息扫描规则,并对待审核文本执行选择的敏感信息扫描规则。需要说明的是,上述系统空闲资源与并行规则数量的映射关系表可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
步骤b2,依据并行规则数量,将敏感信息扫描规则组拆分为若干敏感信息扫描规则子组;
本实施例中,在确定并行规则数量之后,依据该并行规则数量,将该敏感信息扫描规则组拆分为若干敏感信息扫描规则子组,具体地,计算该敏感信息扫描规则组的总规则数量,即敏感信息扫描规则组包含的敏感信息扫描规则的数量,并用该总规则数量除以该并行规则数量,以获取扫描规则子组数,然后将该敏感信息扫描规则组拆分为与该扫描规则子组数对应的敏感信息扫描规则子组,且每两个敏感信息扫描规则子组之间的敏感信息扫描规则不同。例如,敏感信息扫描规则组包含的敏感信息扫描规则的数量为10条,且并行规则数量为2条,则将敏感信息扫描规则组拆分为5个敏感信息扫描规则子组,且每两个敏感信息扫描规则子组之间的敏感信息扫描规则不同。
具体地,获取敏感信息扫描规则组中各敏感信息扫描规则的扫描耗时,然后依据各敏感信息扫描规则的扫描耗时,将敏感信息扫描规则组拆分为与扫描规则子组数对应的敏感信息扫描规则子组,即构建空白的为与扫描规则子组数对应的敏感信息扫描规则子组,并按照扫描耗时的高低顺序,给敏感信息扫描规则分配排序编号(扫描耗时越高,排序编号越小,扫描耗时越低,排序编号越大),然后依据该排序编号的大小顺序,依次将各敏感信息扫描规则分配到每个空白的敏感信息扫描规则子组中。具体实施中,还可以将敏感信息扫描规则组中的敏感信息扫描规则随机的分配到各个扫描规则子组中,也可以将扫描耗时多的敏感信息扫描规则随机的分配到各个扫描规则子组中,然后再将扫描耗时少的敏感信息扫描规则随机的分配到各个扫描规则子组中。
步骤b3,依据若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。
本实施例中,在将敏感信息扫描规则组拆分为若干敏感信息扫描规则子组之后,依据若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。需要说明的是,敏感信息扫描规则子组的扫描顺序可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。例如,选择的敏感信息扫描规则子组包含3条规则,分别为身份证号码扫描规则、银行卡号扫描规则和电子邮箱扫描规则,则同时对待审核文本执行身份证号码扫描规则、银行卡号扫描规则和电子邮箱扫描规则。
本实施例中,本发明在系统空闲资源足够时,将敏感信息扫描规则组拆分为若干敏感信息扫描规则子组,然后同时对待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则,减少扫描耗费时间,可以有效的提高敏感信息扫描效率,进一步地提高对文本的敏感信息审核效率。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于敏感信息的文本审核程序,所述基于敏感信息的文本审核程序被处理器执行时,执行以下步骤:
当接收到客户端发送的文本审核请求时,从所述文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;
依据所述敏感信息扫描结果,生成所述待审核文本的审核结果,并将所述审核结果返回所述客户端。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
从所述文本审核请求中获取待扫描标签,并从预设敏感信息扫描规则组中获取与所述待扫描标签对应的若干敏感信息扫描规则;
将由所述若干敏感信息扫描规则组成的集合确定为敏感信息扫描规则组。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
监测文本抽样指令,并当监测到文本抽样指令时,对所述待审核文本进行抽样,以获取包含预设行数的待审核抽样文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核抽样文本进行敏感信息扫描。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
判断所述待审核文本的字节数是否大于或等于第一预设阈值;
若所述待审核文本的字节数大于或等于第一预设阈值,则依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述若干待审核子文本中的各待审核子文本同时进行敏感信息扫描。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
查询预存的字节数与拆分行数的映射关系表,获取所述待审核文本的字节数对应的拆分行数;
依据所述待审核文本的字节数对应的拆分行数,将所述待审核文本拆分为若干待审核子文本。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
计算系统空闲资源,并判断所述系统空闲资源是否大于或等于第二预设阈值,且在所述系统空闲资源大于或等于第二预设阈值时,依据所述系统空闲资源,确定并行规则数量;
依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组;
依据所述若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对所述待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
计算所述敏感信息扫描规则组的总规则数量,并用所述总规则数量除以所述并行规则数量,以获取扫描规则子组数;
将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
进一步地,所述基于敏感信息的文本审核程序被处理器执行时,还执行以下步骤:
获取所述敏感信息扫描规则组中各敏感信息扫描规则的扫描耗时;
依据各敏感信息扫描规则的扫描耗时,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
本发明计算机可读存储介质的具体实施例与上述基于敏感信息的文本审核方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于敏感信息的文本审核方法,其特征在于,所述基于敏感信息的文本审核方法包括以下步骤:
当接收到客户端发送的文本审核请求时,从所述文本审核请求中获取待审核文本,并确定敏感信息扫描规则组;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描,以获取敏感信息扫描结果;
依据所述敏感信息扫描结果,生成所述待审核文本的审核结果,并将所述审核结果返回所述客户端。
2.如权利要求1所述的基于敏感信息的文本审核方法,其特征在于,所述确定敏感信息扫描规则组的步骤包括:
从所述文本审核请求中获取待扫描标签,并从预设敏感信息扫描规则组中获取与所述待扫描标签对应的若干敏感信息扫描规则;
将由所述若干敏感信息扫描规则组成的集合确定为敏感信息扫描规则组。
3.如权利要求1所述的基于敏感信息的文本审核方法,其特征在于,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
监测文本抽样指令,并当监测到文本抽样指令时,对所述待审核文本进行抽样,以获取包含预设行数的待审核抽样文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核抽样文本进行敏感信息扫描。
4.如权利要求1-3中任一项所述的基于敏感信息的文本审核方法,其特征在于,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
判断所述待审核文本的字节数是否大于或等于第一预设阈值;
若所述待审核文本的字节数大于或等于第一预设阈值,则依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本;
依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述若干待审核子文本中的各待审核子文本同时进行敏感信息扫描。
5.如权利要求4所述的基于敏感信息的文本审核方法,其特征在于,依据所述待审核文本的字节数,将所述待审核文本拆分为若干待审核子文本的步骤包括:
查询预存的字节数与拆分行数的映射关系表,获取所述待审核文本的字节数对应的拆分行数;
依据所述待审核文本的字节数对应的拆分行数,将所述待审核文本拆分为若干待审核子文本。
6.如权利要求1-3中任一项所述的基于敏感信息的文本审核方法,其特征在于,依据所述敏感信息扫描规则组中的各敏感信息扫描规则,对所述待审核文本进行敏感信息扫描的步骤包括:
计算系统空闲资源,并判断所述系统空闲资源是否大于或等于第二预设阈值,且在所述系统空闲资源大于或等于第二预设阈值时,依据所述系统空闲资源,确定并行规则数量;
依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组;
依据所述若干敏感信息扫描规则子组中各敏感信息扫描规则子组的扫描顺序,依次选择敏感信息扫描规则子组,并同时对所述待审核文本执行选择的敏感信息扫描规则子组中的各敏感信息扫描规则。
7.如权利要求6所述的基于敏感信息的文本审核方法,其特征在于,依据所述并行规则数量,将所述敏感信息扫描规则组拆分为若干敏感信息扫描规则子组的步骤包括:
计算所述敏感信息扫描规则组的总规则数量,并用所述总规则数量除以所述并行规则数量,以获取扫描规则子组数;
将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
8.如权利要求7所述的基于敏感信息的文本审核方法,其特征在于,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组的步骤包括:
获取所述敏感信息扫描规则组中各敏感信息扫描规则的扫描耗时;
依据各敏感信息扫描规则的扫描耗时,将所述敏感信息扫描规则组拆分为与所述扫描规则子组数对应的敏感信息扫描规则子组。
9.一种基于敏感信息的文本审核设备,其特征在于,所述基于敏感信息的文本审核设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于敏感信息的文本审核程序,所述基于敏感信息的文本审核程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于敏感信息的文本审核方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于敏感信息的文本审核程序,所述基于敏感信息的文本审核程序被处理器执行时实现如权利要求1至8中任一项所述的基于敏感信息的文本审核方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811195376.7A CN109446837B (zh) | 2018-10-12 | 2018-10-12 | 基于敏感信息的文本审核方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811195376.7A CN109446837B (zh) | 2018-10-12 | 2018-10-12 | 基于敏感信息的文本审核方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446837A true CN109446837A (zh) | 2019-03-08 |
CN109446837B CN109446837B (zh) | 2022-04-26 |
Family
ID=65546725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811195376.7A Active CN109446837B (zh) | 2018-10-12 | 2018-10-12 | 基于敏感信息的文本审核方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446837B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
CN110110238A (zh) * | 2019-03-14 | 2019-08-09 | 厦门天锐科技股份有限公司 | 一种敏感信息展示方法及装置 |
CN111008401A (zh) * | 2019-12-10 | 2020-04-14 | 中国银行股份有限公司 | 一种文本保存方法及装置 |
CN112131376A (zh) * | 2019-06-24 | 2020-12-25 | 北京华雨天成文化传播有限公司 | 一种审核方法及装置 |
CN113219883A (zh) * | 2021-05-24 | 2021-08-06 | 广州穿越千机创新科技有限公司 | 一种户外led灯光幕墙内容集中监控方法、装置及系统 |
CN113538002A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 用于审核文本的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150503A (zh) * | 2011-12-07 | 2013-06-12 | 腾讯科技(深圳)有限公司 | 一种木马扫描方法及木马扫描装置 |
CN105224856A (zh) * | 2014-07-02 | 2016-01-06 | 腾讯科技(深圳)有限公司 | 计算机系统检测方法及装置 |
CN107633380A (zh) * | 2017-08-30 | 2018-01-26 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
CN107800690A (zh) * | 2017-10-09 | 2018-03-13 | 西安交大捷普网络科技有限公司 | 一种分布式漏洞扫描系统的任务分配方法 |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN108376317A (zh) * | 2018-02-13 | 2018-08-07 | 浙江知识产权交易中心有限公司 | 一种知识产权政策风险防范系统、基于该系统的知识产权交易系统和方法 |
-
2018
- 2018-10-12 CN CN201811195376.7A patent/CN109446837B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150503A (zh) * | 2011-12-07 | 2013-06-12 | 腾讯科技(深圳)有限公司 | 一种木马扫描方法及木马扫描装置 |
CN105224856A (zh) * | 2014-07-02 | 2016-01-06 | 腾讯科技(深圳)有限公司 | 计算机系统检测方法及装置 |
CN107633380A (zh) * | 2017-08-30 | 2018-01-26 | 北京明朝万达科技股份有限公司 | 一种数据防泄漏系统的任务审批方法和系统 |
CN107800690A (zh) * | 2017-10-09 | 2018-03-13 | 西安交大捷普网络科技有限公司 | 一种分布式漏洞扫描系统的任务分配方法 |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN108376317A (zh) * | 2018-02-13 | 2018-08-07 | 浙江知识产权交易中心有限公司 | 一种知识产权政策风险防范系统、基于该系统的知识产权交易系统和方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110238A (zh) * | 2019-03-14 | 2019-08-09 | 厦门天锐科技股份有限公司 | 一种敏感信息展示方法及装置 |
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
CN110046251B (zh) * | 2019-03-22 | 2023-12-08 | 创新先进技术有限公司 | 社区内容风险评估方法及装置 |
CN112131376A (zh) * | 2019-06-24 | 2020-12-25 | 北京华雨天成文化传播有限公司 | 一种审核方法及装置 |
CN111008401A (zh) * | 2019-12-10 | 2020-04-14 | 中国银行股份有限公司 | 一种文本保存方法及装置 |
CN113538002A (zh) * | 2020-04-14 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 用于审核文本的方法和装置 |
CN113219883A (zh) * | 2021-05-24 | 2021-08-06 | 广州穿越千机创新科技有限公司 | 一种户外led灯光幕墙内容集中监控方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109446837B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446837A (zh) | 基于敏感信息的文本审核方法、设备及可读存储介质 | |
US7260830B2 (en) | Method and apparatus for establishing a security policy, and method and apparatus for supporting establishment of security policy | |
CN106354634A (zh) | 接口测试方法及装置 | |
CN110378749B (zh) | 客户端相似性的评估方法、装置、终端设备及存储介质 | |
CN108829597A (zh) | 软件众测方法及装置、计算机装置及可读存储介质 | |
Ismail et al. | Towards establishing a framework for managing trusted records in the electronic environment | |
CN109840300A (zh) | 网络舆情分析方法、装置、设备及计算机可读存储介质 | |
CN109754327A (zh) | 虚假保函的识别方法、系统及计算机可读存储介质 | |
CN111045935B (zh) | 版本自动审核方法、装置、设备及存储介质 | |
CN111274149A (zh) | 测试数据的处理方法及装置 | |
CN111488603A (zh) | 一种识别打印文件的敏感内容的方法及装置 | |
CN114444131A (zh) | 文档审核方法及计算机存储介质 | |
US20130067581A1 (en) | Information security control self assessment | |
Murayama et al. | The structure of the sense of security, Anshin | |
Liao et al. | Problematic privacy policies of voice assistant applications | |
CN109726883A (zh) | 一种保险业务的风险管控方法、装置、设备及存储介质 | |
Ferreira et al. | Information security management practices: study of the influencing factors in a Brazilian Air Force institution | |
Vukovic et al. | An empirical investigation of software testing methods and techniques in the province of Vojvodina | |
CN112506765A (zh) | 软件测试方法、装置、设备及存储介质 | |
CN107665422A (zh) | 一种在线股权跟踪管理方法及终端 | |
CN114003916A (zh) | Web角色纵向越权漏洞的测试方法、系统、终端及存储介质 | |
Labunets | No search allowed: what risk modeling notation to choose? | |
Satybaldy | Usability Evaluation of SSI Digital Wallets | |
Velleman et al. | A unified Web evaluation methodology using WCAG | |
Das et al. | Short Paper: Organizational Security: Implementing a Risk-Reduction-Based Incentivization Model for MFA Adoption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |