CN112257106B - 一种数据检测方法及装置 - Google Patents

一种数据检测方法及装置 Download PDF

Info

Publication number
CN112257106B
CN112257106B CN202011122242.XA CN202011122242A CN112257106B CN 112257106 B CN112257106 B CN 112257106B CN 202011122242 A CN202011122242 A CN 202011122242A CN 112257106 B CN112257106 B CN 112257106B
Authority
CN
China
Prior art keywords
data
detection
detected
information
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011122242.XA
Other languages
English (en)
Other versions
CN112257106A (zh
Inventor
涂高元
邱志斌
郭永兴
陆云燕
时宜
杨其栓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIAMEN TIPRAY TECHNOLOGY CO LTD
Original Assignee
XIAMEN TIPRAY TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN TIPRAY TECHNOLOGY CO LTD filed Critical XIAMEN TIPRAY TECHNOLOGY CO LTD
Priority to CN202011122242.XA priority Critical patent/CN112257106B/zh
Publication of CN112257106A publication Critical patent/CN112257106A/zh
Application granted granted Critical
Publication of CN112257106B publication Critical patent/CN112257106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供了一种数据检测方法及装置,该方法包括终端获取策略信息和待检测数据,根据策略信息中的基础检测算法对待检测数据进行基础检测,并确定策略信息中是否存在高级策略的描述信息,若是,则将高级策略的描述信息和待检测数据发送给高级检测服务器,高级检测服务器用于根据高级策略的ID对应的高级检测算法对待检测数据进行高级检测。该处理方式是将基础检测算法对待检测数据的检测放在终端进行,将高级检测算法对待检测数据的检测放在高级检测服务器进行,如此可以避免对终端的CPU的长时间占用,减少对待检测数据进行检测的时间,并可以提高检测效率,从而可以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。

Description

一种数据检测方法及装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据检测方法及装置。
背景技术
在数据防泄密的产品中,使用到的内容识别检测算法,除了基础算法(如关键字算法等),还可能因为业务需求运用到数据库指纹、向量机检测等高级检测算法。在实际应用中,需要考虑不同的算法可能引起不同的检测效果与检测效率,以及策略本身的敏感性是否存在外泄的可能。
现有技术中,使用所有算法(包括基础算法和高级检测算法)对数据进行检测的过程都放在终端设备进行操作。然而,这种处理方式,由于高级检测算法的检测耗时一般较长,可能一次内容检测需要30秒或者更久,很难像基础算法那样快速即时反应,导致长时间占用CPU(Central Processing Unit,中央处理器),降低数据的检测效率,并影响终端设备的正常工作,再者,由于高级检测算法的规则文件本身携带的数据敏感度较高,导致该高级检测算法的规则文件被下载到终端设备存在数据泄露的风险。
综上,目前亟需一种数据检测方法,用以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。
发明内容
本申请实施例提供了一种数据检测方法及装置,用以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。
第一方面,本申请实施例提供了一种数据检测方法,包括:
终端获取策略信息和待检测数据;
所述终端根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,并确定所述策略信息中是否存在高级策略的描述信息;
若是,则所述终端将所述高级策略的描述信息和所述待检测数据发送给高级检测服务器,所述高级策略的描述信息包括高级策略的ID;所述高级检测服务器用于根据所述高级策略的ID对应的高级检测算法对所述待检测数据进行高级检测。
上述技术方案中,通过根据策略信息中的基础检测算法对待检测数据进行基础检测,并确定策略信息中是否存在高级策略的描述信息,在确定策略信息中存在高级策略的描述信息时将高级策略的描述信息和待检测数据发送给高级检测服务器,以便高级检测服务器根据高级策略的ID对应的高级检测算法对待检测数据进行高级检测。也就是说,该处理方式是将基础检测算法对待检测数据的检测放在终端进行,将高级检测算法对待检测数据的检测放在高级检测服务器进行,由于并非每个终端都需要对待检测数据进行高级检测,因此需要判断该终端的策略信息中是否存在高级策略的描述信息,如此可以避免不论待检测数据是否需要高级检测就直接将一些策略信息和待检测数据发送给高级检测服务器,并可以减轻高级检测服务器的数据处理压力。此外,根据高级策略的ID对应的高级检测算法对待检测数据进行高级检测,而不是运用高级检测服务器中的所有高级检测算法都对待检测数据进行高级检测,如此可以减轻高级检测服务器的数据处理压力以及运行负担,并可以提高对待检测数据进行检测的性能,如此可以避免对终端的CPU的长时间占用,有助于减轻终端处理数据的压力,可以使得终端能够正常工作,并有助于减少对待检测数据进行检测的时间,从而可以提高对待检测数据进行检测的效率,进而可以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。再者,由于基础检测算法本身携带的数据敏感度较低,而高级检测算法本身携带的数据敏感度较高,将高级检测算法对待检测数据的检测放在高级检测服务器进行,可以有效地避免高级检测算法本身携带的数据被下载到终端导致数据泄露的风险。
在一种可能的实现方式中,所述终端获取策略信息,包括:
所述终端向Web控制服务器发送策略信息请求,所述策略信息请求包括所述终端的标识,以使所述Web控制服务器根据所述终端的标识确定出与所述终端的标识对应的策略信息;
所述终端接收所述Web控制服务器发送的策略信息,并将所述策略信息存储在本地。
上述技术方案中,通过向Web控制服务器发送策略信息请求,以使Web控制服务器根据终端的标识可以准确地确定出与终端的标识对应的策略信息。由于每个终端所需的策略信息并非相同,因此根据终端的标识可以准确地将策略信息发送到对应的终端,以便终端根据对应的策略信息对待检测数据进行检测。
在一种可能的实现方式中,所述终端根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,包括:
所述终端根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息;
所述终端将所述待检测数据中的第一敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述终端根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息,包括:
所述终端根据所述基础检测算法中的关键字算法和/或正则表达式算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感数据以及所述敏感数据的位置信息。
上述技术方案中,通过根据基础检测算法(如关键字算法和/或正则表达式算法)对待检测数据进行内容匹配检测,可以快速准确地确定出待检测数据中的敏感数据以及敏感数据的位置信息,并将该待检测数据中的敏感数据以及敏感数据的位置信息发送给Web控制服务器进行存储,以便用户对该待检测数据进行核查。
第二方面,本申请实施例提供了一种数据检测方法,包括:
高级检测服务器获取终端发送的数据检测请求,所述数据检测请求包括高级策略的描述信息和待检测数据;
所述高级检测服务器根据所述高级策略的描述信息中高级策略的ID,确定出所述高级策略的ID对应的高级检测算法;
所述高级检测服务器根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测。
上述技术方案中,由于并非每个终端都会对待检测数据进行高级检测,且将高级检测算法对待检测数据的检测放在高级检测服务器进行,因此只有在需要对待检测数据进行高级检测的情况下,才将高级检测算法的具体ID以及待检测数据发送给高级检测服务器,以便高级检测服务器根据高级检测算法的具体ID对应的高级检测算法,对待检测数据进行高级检测,可以实现对待检测数据中的敏感数据进行更全面细致的检测,有助于检测出待检测数据中的所有敏感词组数据,如此可以减轻高级检测服务器的数据处理压力,并可以避免对终端的CPU的长时间占用,有助于减轻终端处理数据的压力,可以使得终端能够正常工作,也有助于减少对待检测数据进行检测的时间,从而可以提高对待检测数据进行检测的效率,进而可以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。此外,由于高级检测算法的相关信息(比如高级检测算法运行所依赖的规则文件)只被下载到高级检测服务器,并未被下载到终端,如此可以有效地避免高级检测算法本身携带的数据被下载到终端导致数据泄露的风险。
在一种可能的实现方式中,在所述高级检测服务器获取终端发送的数据检测请求之前,还包括:
所述高级检测服务器向Web控制服务器发送高级策略请求,所述高级策略请求包括所述高级检测服务器的标识,以使所述Web控制服务器根据所述高级检测服务器的标识确定出所述高级策略的描述信息和所述高级检测算法;
所述高级检测服务器接收所述Web控制服务器发送的所述高级策略的描述信息和所述高级检测算法,并将所述高级策略的描述信息和所述高级检测算法存储在本地。
上述技术方案中,通过向Web控制服务器发送高级策略请求,以使Web控制服务器根据高级检测服务器的标识确定出高级策略的描述信息和高级检测算法,即只将高级检测算法发送给高级检测服务器,如此可以有效地避免高级检测算法本身携带的数据被下载到终端导致数据泄露的风险。
在一种可能的实现方式中,所述高级检测服务器根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测,包括:
所述高级检测服务器根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息;
所述高级检测服务器将所述待检测数据中的第二敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述高级检测服务器根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息,包括:
所述高级检测服务器根据所述高级检测算法中的数据库指纹算法和/或向量机检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感词组数据以及所述敏感词组数据的位置信息。
上述技术方案中,通过根据高级检测算法(如数据库指纹算法和/或向量机检测算法)对待检测数据进行内容匹配检测,可以快速准确地确定出待检测数据中的敏感词组数据以及敏感词组数据的位置信息,并将该待检测数据中的敏感词组数据以及敏感词组数据的位置信息发送给Web控制服务器进行存储,以便用户对该待检测数据进行核查。
第三方面,本申请实施例还提供了一种数据检测装置,包括:
第一获取单元,用于获取策略信息和待检测数据;
第一处理单元,用于根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,并确定所述策略信息中是否存在高级策略的描述信息;若是,则将所述高级策略的描述信息和所述待检测数据发送给高级检测服务器,所述高级策略的描述信息包括高级策略的ID;所述高级检测服务器用于根据所述高级策略的ID对应的高级检测算法对所述待检测数据进行高级检测。
在一种可能的实现方式中,所述第一处理单元具体用于:
向Web控制服务器发送策略信息请求,所述策略信息请求包括所述终端的标识,以使所述Web控制服务器根据所述终端的标识确定出与所述终端的标识对应的策略信息;
接收所述Web控制服务器发送的策略信息,并将所述策略信息存储在本地。
在一种可能的实现方式中,所述第一处理单元具体用于:
根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息;
将所述待检测数据中的第一敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述第一处理单元具体用于:
根据所述基础检测算法中的关键字算法和/或正则表达式算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感数据以及所述敏感数据的位置信息。
第四方面,本申请实施例还提供了一种数据检测装置,包括:
第二获取单元,用于获取终端发送的数据检测请求,所述数据检测请求包括高级策略的描述信息和待检测数据;
第二处理单元,用于根据所述高级策略的描述信息中高级策略的ID,确定出所述高级策略的ID对应的高级检测算法;根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测。
在一种可能的实现方式中,所述第二处理单元还用于:
向Web控制服务器发送高级策略请求,所述高级策略请求包括所述高级检测服务器的标识,以使所述Web控制服务器根据所述高级检测服务器的标识确定出所述高级策略的描述信息和所述高级检测算法;
接收所述Web控制服务器发送的所述高级策略的描述信息和所述高级检测算法,并将所述高级策略的描述信息和所述高级检测算法存储在本地。
在一种可能的实现方式中,所述第二处理单元具体用于:
根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息;
将所述待检测数据中的第二敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述第二处理单元具体用于:
根据所述高级检测算法中的数据库指纹算法和/或向量机检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感词组数据以及所述敏感词组数据的位置信息。
第五方面,本申请实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行数据检测方法的步骤。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行数据检测方法的步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种系统架构示意图;
图2为本申请实施例提供的一种数据检测方法的流程示意图;
图3为本申请实施例提供的一种训练规则文件的流程示意图;
图4为本申请实施例提供的一种数据检测装置的结构示意图;
图5为本申请实施例提供的另一种数据检测装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
应当理解,本申请中所使用的“第一”、“第二”等,并非特别指先后次序或顺位的意思,也非用以限定本申请,在适当情况下可以互换,其仅为了区别以相同技术用语描述的元件或操作。
此外,本申请中所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。另外,本申请中所使用的“及/或”,包括所述事物的任一或全部组合。
图1为本申请实施例提供的一种可能的系统架构示意图,如图1所示,该系统架构中可以包括Web控制服务器110、高级检测服务器120和至少一个终端,比如终端130。其中,Web控制服务器110可以分别与高级检测服务器120和每个终端连接,高级检测服务器120与每个终端连接,比如可以通过有线方式连接,也可以通过无线方式连接,具体不作限定。
Web控制服务器110用于存储终端所需的基础检测算法以及高级检测算法的描述信息、高级检测算法运行所依赖的规则文件。其中,Web控制服务器110还用于根据实际应用场景的需求对训练样本进行训练得到高级检测算法运行所依赖的规则文件,以便高级检测服务器120进行下载使用。此外,Web控制服务器110还用于存储高级检测服务器120利用高级检测算法对待检测数据进行高级检测完成后上传的待核查数据(包含触发敏感的文本内容、触发的规则、文本中检测到敏感数据的位置信息等数据),以及存储终端130利用基础检测算法对待检测数据进行基础检测完成后上传的待核查数据(包含触发敏感的文本内容、触发的规则、文本中检测到敏感数据的位置信息等数据),并对这些待核查数据进行展示。
高级检测服务器120用于接收终端130的高级检测请求,并根据高级策略的ID对应的高级检测算法,对待检测数据进行高级检测,并将检测到敏感词组数据的待核查数据上传给Web控制服务器110。此外,高级检测服务器120根据实际应用场景的需求还可以实时从Web控制服务器110下载相应的高级检测算法的描述信息、高级检测算法运行所依赖的规则文件。
终端130是一种具有无线收发功能的设备,可以包括手机、平板电脑、笔记本电脑等,具体不作限制。其中,终端130可以根据用户的实际需求从Web控制服务器110实时下载相应的策略信息(包括基础检测算法),并利用基础检测算法对待检测数据进行基础检测,并将检测到敏感数据的待核查数据上传给Web控制服务器110。此外,在确定用户的实际需求存在对待检测数据进行高级检测时将该待检测数据和高级检测算法的描述信息打包在一起发送给高级检测服务器120。
需要说明的是,图1仅是一种示例性的简单说明,其所列举的架构仅是为了便于说明本申请的技术方案,并不构成对本申请的技术方案的限定。
图2示例性的示出了本申请实施例提供的一种数据检测方法的流程,该流程可以由数据检测装置执行。
如图2所示,该流程具体包括:
步骤201,终端获取策略信息和待检测数据。
步骤202,所述终端根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,并确定所述策略信息中是否存在高级策略的描述信息。
步骤203,所述终端在确定所述策略信息中存在高级策略的描述信息时,发送所述高级策略的描述信息和所述待检测数据给高级检测服务器。
步骤204,所述高级检测服务器根据所述高级策略的描述信息中高级策略的ID,确定出所述高级策略的ID对应的高级检测算法。
步骤205,所述高级检测服务器根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测。
在上述步骤201中,该待检测数据可以为某一产品业务的客户个人信息数据(比如姓名、年龄、家庭住址、家庭成员、电话、收入、职业等),或者可以为某一产品的消费者的消费明细数据,或者可以为某一产品的投资相关数据,或者可以为某一业务的合同内容,对此不作限制。此外,在对待检测数据进行检测之前,终端需要向Web控制服务器发送策略信息请求,策略信息请求包括终端的标识,以使Web控制服务器根据终端的标识确定出与终端的标识对应的策略信息,然后终端接收Web控制服务器发送的策略信息,并将策略信息进行解析存储在本地。其中,策略信息可以包括基础检测算法,或者策略信息可以包括基础检测算法和高级策略的描述信息。需要说明的是,利用基础检测算法对待检测数据的基础检测设计在终端进行,利用高级检测算法对待检测数据的高级检测设计在高级检测服务器进行,终端虽然不执行高级检测算法的运算,但是可以预先识别出该终端有无关联高级策略,如果有,具体关联了哪些高级策略(高级策略的ID集合),也就是说,终端下载的策略信息中有可能包含高级策略的描述信息(具体涉及到哪些高级策略,也即是高级策略的ID集合),也有可能没包含高级策略的描述信息,具体的以终端的实际需求来进行设置。另外,终端由于不执行高级检测算法的运算,也就不需要下载高级检测算法运行所依赖的规则文件。
在上述步骤202和步骤203中,终端根据策略信息中的基础检测算法对待检测数据进行基础检测,并确定策略信息中是否存在高级策略的描述信息,即,在终端对待检测数据执行基础策略检测时,同时一并识别出该终端的策略信息中否存在高级策略的描述信息,如果存在,则需要向高级检测服务器发起高级检测请求,并将高级策略的描述信息(具体涉及到哪些高级策略,也即是高级策略的ID集合)和待检测数据打包在一起发送给高级检测服务器,如果不存在,则在根据基础检测算法对待检测数据进行基础检测后,就完成了对待检测数据的检测,并将检测的结果(包含触发敏感的文本内容、触发的规则、文本中检测到敏感数据的位置信息等数据)上传给Web控制服务器。具体地,在根据策略信息中的基础检测算法对待检测数据进行基础检测时,根据基础检测算法中的关键字算法和/或正则表达式算法对待检测数据进行内容匹配检测,得到待检测数据中的第一敏感数据信息(待检测数据中的敏感数据以及敏感数据的位置信息),并将待检测数据中的第一敏感数据信息发送给Web控制服务器进行存储。
在上述步骤204和步骤205中,高级检测服务器在接收到终端发送的高级检测请求后,该高级检测请求包括高级策略的描述信息和待检测数据,根据高级策略的描述信息中高级策略的ID,确定出高级策略的ID对应的高级检测算法,也就是说,根据终端请求的高级策略的ID对应的高级检测算法对待检测数据进行检测,并不是运用高级检测服务器中的所有高级检测算法都对待检测数据进行高级检测,如此可以减轻高级检测服务器的数据处理压力以及运行负担,并可以提高对待检测数据进行检测的性能。再根据高级检测算法中的数据库指纹算法和/或向量机检测算法对待检测数据进行内容匹配检测,得到待检测数据中的第二敏感数据信息(待检测数据中的敏感词组数据以及敏感词组数据的位置信息),并将待检测数据中的第二敏感数据信息发送给Web控制服务器进行存储。之后在对待检测数据进行高级检测后将高级检测的结果(包含触发敏感的文本内容、触发的规则、文本中检测到敏感数据的位置信息等数据)上传给Web控制服务器。
其中,高级检测算法和基础检测算法相比,有一个很大的不同是,高级检测算法通常需要基于规则文件运行,无论是数据库指纹算法还是向量机算法,都需要加载比较复杂的数据,即规则文件。高级检测算法的规则描述采用规则文件形式,而非和简单规则类似的字符串形式,如数据库指纹算法、向量机检测算法。对于规则文件,是指基于一些复杂的数据文件,进行复杂的计算和抽象(可以描述为一种训练过程)得到的一组数据。数据库指纹本质上是多模式关键字组,可以理解为是对关键词组的扩展,但它是多行的关键词组集合生成的一个规则。比如多行多列的原始样本数据包含多个员工的个人信息(比如姓名、电话、住址等),当待检测数据触发其中任意一行(即任一员工的信息),即触发了该规则。向量机规则文件本质上是一个词典+一个词频高维向量,它是对有相似背景的一系列文档,通过算法提取得到文档特征(即提取文档词汇与计算词频)。
比如本申请实施例所采用的策略包含算法检测条件与规则信息,策略是以json串的格式存在,终端或高级检测服务器通过解析json串,对具体的算法信息进行编译,得到终端或高级检测服务器可以正常使用的对应算法。其中,该策略json串包含的策略描述信息有:strategy字段(即策略信息描述)、checkRule字段(即检测规则描述信息)、respondRule字段(即响应规则描述信息,触发了该规则描述的响应条件会做后续的阻断等响应动作)。例如对于一个策略json串,该策略json串中的strategy字段ID=40,即该策略的ID,它关联了ID为25与30的检测规则(classification字段中的checkExpr字段表示关联的检测规则ID)。检测规则ID=25中的ruleType=2表示关键字规则,检测规则ID=30中的ruleType=4表示数据库指纹规则,由于数据库指纹规则属于高级检测算法,由此可知该策略需要进行高级算法检测。其中,可以预先定义好ruleType=1表示正则表达式规则,ruleType=2表示关键字规则,ruleType=3表示向量机规则,ruleType=4表示数据库指纹规则。
此外,待检测任务json串格式(包含高级策略id集合与操作上下文信息)可以如表1所示。其中,strategyIds字段为高级策略id集合,该属性值中包含了策略id为40与45的两个策略;Properties字段为发生待检测任务的终端现场的一些信息描述,作用仅供在向Web端上报核查数据时提供现场信息描述,各字段可缺省,不影响算法检测过程与检测结果。
表1
Figure BDA0002732387380000131
Figure BDA0002732387380000141
再者,在高级检测服务器获取终端发送的数据检测请求之前,高级检测服务器向Web控制服务器发送高级策略请求,高级策略请求包括所述高级检测服务器的标识,以使Web控制服务器根据高级检测服务器的标识确定出高级策略的描述信息和高级检测算法。再接收Web控制服务器发送的高级策略的描述信息和高级检测算法,并将高级策略的描述信息和高级检测算法进行解析存储在本地。具体地,高级检测服务器在向Web控制服务器发送高级策略请求,即请求下载高级策略。该高级策略的构成主要分为两个部分,一是高级策略描述信息,声明终端关联了哪些高级策略(一般包括高级策略的ID、高级策略的类型、高级策略引用的规则文件名),一是高级策略算法具体运行需要依赖的规则文件。因此,高级策略的下载,也一般分为两个部分,一个是高级策略的描述信息的下载,一个是规则文件的下载。其中,高级策略的描述信息占用的空间内存一般较小,规则文件一般占用的空间内存一般较大(比如数据库指纹)。此外,高级检测服务器对下载的规则文件进行编译加载,并将编译解析后的规则文件存储在本地。
需要说明的是,由于高级策略的算法运行耗时一般较长,依赖的规则文件通常内部包括较多敏感度较高的信息,因此并不适合在终端侧直接加载运行,也会引起终端CPU长时间高占用,造成用户体验不好的问题。因此,为了避免过度占用终端的CPU资源(包括内存资源),考虑将内容识别高级检测算法的执行,从终端上转移到一组独立的服务器(即高级检测服务器)中执行。对于终端侧,只处理基础检测算法的内容检测,并向高级检测服务器发起高级检测请求。
此外,对于高级检测服务器侧,高级检测服务器一般配置性能较高,但由于高级检测服务器,需要为多个终端提供检测服务器,因此需要加载所有终端的策略配置。这一点将对高级策略的检测产生不利影响,由于通常不同的终端可能配置有不同组合的策略,因此终端服务器往往需要能够分辨对指定终端检测哪些高级策略。然而如果需要高级检测服务器来区分对不同终端,这给高级检测服务器带来了额外的运行负担,会进一步降低整体检测的性能。另外,也并非所有的终端,都会被分配高级策略,如果终端不加任何选择地将所有外发信息和文件的文本内容都转发到高级检测服务器上,则可能造成过大的不必要的流量占用。因此,为了解决这一问题,在终端对待检测数据执行基础策略检测时,一并识别出该终端有无高级策略需要检测,并在确定有高级策略需要检测时,才将高级策略的描述信息(具体涉及到哪些高级策略,也即是高级策略的ID集合)和待检测数据打包在一起发送给高级检测服务器,否则不会向高级检测服务器发送高级检测请求。
为了更好的解释本申请对规则文件进行训练的实施例,下面通过具体的实施场景描述本申请实施例提供的一种训练规则文件的流程。其中,规则文件的训练由独立的训练服务器与web控制台人工交互完成。
如图3所示,该流程包括以下步骤:
步骤301,Web前端向Web后台发送训练规则文件的任务。
管理工作人员根据实际业务场景的需求,通过javaweb控制台进行人工交互,即通过Web前端向Web后台发送训练针对实际业务场景所需高级检测算法的规则文件的任务。
步骤302,Web后台向训练服务器发起训练规则文件的任务请求。
Web后台在接收到训练规则文件的任务后,向训练服务器发起训练规则文件的任务请求。
步骤303,训练服务器响应Web后台发起的任务请求。
训练服务器在接收到训练规则文件的任务请求后,根据自身负载情况返回响应。
步骤304,训练服务器获取样本文件进行训练。
如果训练规则文件的任务请求被接受,则训练服务器从约定的目录中获取样本文件,开始对文件进行训练。
步骤305,训练服务器通知Web后台规则文件训练已完成。
训练服务器完成规则文件训练时,保存训练完的规则文件到约定目录,并向web后台发送完成规则文件训练完成的通知,web后台根据规则文件的训练结果做出不同响应。
步骤306,Web后台通知Web前端训练结果。
Web后台(异步)通知Web前端关于规则文件的训练结果。
步骤307,Web前端展示训练结果。
上述实施例表明,通过根据策略信息中的基础检测算法对待检测数据进行基础检测,并确定策略信息中是否存在高级策略的描述信息,在确定策略信息中存在高级策略的描述信息时将高级策略的描述信息和待检测数据发送给高级检测服务器,以便高级检测服务器根据高级策略的ID对应的高级检测算法对待检测数据进行高级检测。也就是说,该处理方式是将基础检测算法对待检测数据的检测放在终端进行,将高级检测算法对待检测数据的检测放在高级检测服务器进行,由于并非每个终端都需要对待检测数据进行高级检测,因此需要判断该终端的策略信息中是否存在高级策略的描述信息,如此可以避免不论待检测数据是否需要高级检测就直接将一些策略信息和待检测数据发送给高级检测服务器,并可以减轻高级检测服务器的数据处理压力。此外,根据高级策略的ID对应的高级检测算法对待检测数据进行高级检测,而不是运用高级检测服务器中的所有高级检测算法都对待检测数据进行高级检测,如此可以减轻高级检测服务器的数据处理压力以及运行负担,并可以提高对待检测数据进行检测的性能,如此可以避免对终端的CPU的长时间占用,有助于减轻终端处理数据的压力,可以使得终端能够正常工作,并有助于减少对待检测数据进行检测的时间,从而可以提高对待检测数据进行检测的效率,进而可以解决现有技术中存在检测时间过长导致数据的检测效率较低的问题。再者,由于基础检测算法本身携带的数据敏感度较低,而高级检测算法本身携带的数据敏感度较高,将高级检测算法对待检测数据的检测放在高级检测服务器进行,可以有效地避免高级检测算法本身携带的数据被下载到终端导致数据泄露的风险。
基于同样的技术构思,图4示例性的示出了本申请实施例提供的一种数据检测装置,该装置可以执行数据检测方法的流程。
如图4所示,该装置包括:
第一获取单元401,用于获取策略信息和待检测数据;
第一处理单元402,用于根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,并确定所述策略信息中是否存在高级策略的描述信息;若是,则将所述高级策略的描述信息和所述待检测数据发送给高级检测服务器,所述高级策略的描述信息包括高级策略的ID;所述高级检测服务器用于根据所述高级策略的ID对应的高级检测算法对所述待检测数据进行高级检测。
在一种可能的实现方式中,所述第一处理单元402具体用于:
向Web控制服务器发送策略信息请求,所述策略信息请求包括所述终端的标识,以使所述Web控制服务器根据所述终端的标识确定出与所述终端的标识对应的策略信息;
接收所述Web控制服务器发送的策略信息,并将所述策略信息存储在本地。
在一种可能的实现方式中,所述第一处理单元402具体用于:
根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息;
将所述待检测数据中的第一敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述第一处理单元402具体用于:
根据所述基础检测算法中的关键字算法和/或正则表达式算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感数据以及所述敏感数据的位置信息。
基于同样的技术构思,图5示例性的示出了本申请实施例提供的一种数据检测装置,该装置可以执行数据检测方法的流程。
如图5所示,该装置包括:
第二获取单元501,用于获取终端发送的数据检测请求,所述数据检测请求包括高级策略的描述信息和待检测数据;
第二处理单元502,用于根据所述高级策略的描述信息中高级策略的ID,确定出所述高级策略的ID对应的高级检测算法;根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测。
在一种可能的实现方式中,所述第二处理单元502还用于:
向Web控制服务器发送高级策略请求,所述高级策略请求包括所述高级检测服务器的标识,以使所述Web控制服务器根据所述高级检测服务器的标识确定出所述高级策略的描述信息和所述高级检测算法;
接收所述Web控制服务器发送的所述高级策略的描述信息和所述高级检测算法,并将所述高级策略的描述信息和所述高级检测算法存储在本地。
在一种可能的实现方式中,所述第二处理单元502具体用于:
根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息;
将所述待检测数据中的第二敏感数据信息发送给Web控制服务器进行存储。
在一种可能的实现方式中,所述第二处理单元502具体用于:
根据所述高级检测算法中的数据库指纹算法和/或向量机检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感词组数据以及所述敏感词组数据的位置信息。
基于同样的技术构思,本发明实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行数据检测方法的步骤。
基于同样的技术构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行数据检测方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种敏感数据检测方法,其特征在于,包括:
终端获取策略信息和待检测数据;
所述终端根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,并确定所述策略信息中是否存在高级策略的描述信息;
若是,则所述终端将所述高级策略的描述信息和所述待检测数据发送给高级检测服务器,所述高级策略的描述信息包括高级策略的ID;所述高级检测服务器用于根据所述高级策略的ID对应的高级检测算法对所述待检测数据进行高级检测;
终端根据策略信息中的基础检测算法对待检测数据进行基础检测,并确定策略信息中是否存在高级策略的描述信息,即,在终端对待检测数据执行基础策略检测时,同时一并识别出该终端的策略信息中否存在高级策略的描述信息;
高级检测算法需要基于规则文件运行,需加载规则文件;高级检测算法的规则描述采用规则文件形式。
2.如权利要求1所述的方法,其特征在于,所述终端获取策略信息,包括:
所述终端向Web控制服务器发送策略信息请求,所述策略信息请求包括所述终端的标识,以使所述Web控制服务器根据所述终端的标识确定出与所述终端的标识对应的策略信息;
所述终端接收所述Web控制服务器发送的策略信息,并将所述策略信息存储在本地。
3.如权利要求1所述的方法,其特征在于,所述终端根据所述策略信息中的基础检测算法对所述待检测数据进行基础检测,包括:
所述终端根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息;
所述终端将所述待检测数据中的第一敏感数据信息发送给Web控制服务器进行存储。
4.如权利要求3所述的方法,其特征在于,所述终端根据所述基础检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第一敏感数据信息,包括:
所述终端根据所述基础检测算法中的关键字算法和/或正则表达式算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感数据以及所述敏感数据的位置信息。
5.如权利要求1所述的方法,其特征在于,所述高级检测服务器根据所述高级策略的ID对应的高级检测算法,对所述待检测数据进行高级检测,包括:
所述高级检测服务器根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息;
所述高级检测服务器将所述待检测数据中的第二敏感数据信息发送给Web控制服务器进行存储。
6.如权利要求5所述的方法,其特征在于,所述高级检测服务器根据所述高级检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的第二敏感数据信息,包括:
所述高级检测服务器根据所述高级检测算法中的数据库指纹算法和/或向量机检测算法对所述待检测数据进行内容匹配检测,得到所述待检测数据中的敏感词组数据以及所述敏感词组数据的位置信息。
CN202011122242.XA 2020-10-20 2020-10-20 一种数据检测方法及装置 Active CN112257106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011122242.XA CN112257106B (zh) 2020-10-20 2020-10-20 一种数据检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011122242.XA CN112257106B (zh) 2020-10-20 2020-10-20 一种数据检测方法及装置

Publications (2)

Publication Number Publication Date
CN112257106A CN112257106A (zh) 2021-01-22
CN112257106B true CN112257106B (zh) 2022-06-17

Family

ID=74243928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011122242.XA Active CN112257106B (zh) 2020-10-20 2020-10-20 一种数据检测方法及装置

Country Status (1)

Country Link
CN (1) CN112257106B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569909A (zh) * 2021-06-24 2021-10-29 阿里巴巴新加坡控股有限公司 数据处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092832A (zh) * 2011-10-27 2013-05-08 腾讯科技(深圳)有限公司 网址风险检测的处理方法及装置
CN105912946A (zh) * 2016-04-05 2016-08-31 上海上讯信息技术股份有限公司 一种文件检测的方法与设备
CN108881219A (zh) * 2018-06-14 2018-11-23 郑州云海信息技术有限公司 一种基于强制访问控制的文件权限管理方法及系统
CN109995736A (zh) * 2017-12-31 2019-07-09 中国移动通信集团四川有限公司 检测威胁攻击的方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10911492B2 (en) * 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092832A (zh) * 2011-10-27 2013-05-08 腾讯科技(深圳)有限公司 网址风险检测的处理方法及装置
CN105912946A (zh) * 2016-04-05 2016-08-31 上海上讯信息技术股份有限公司 一种文件检测的方法与设备
CN109995736A (zh) * 2017-12-31 2019-07-09 中国移动通信集团四川有限公司 检测威胁攻击的方法、装置、设备和存储介质
CN108881219A (zh) * 2018-06-14 2018-11-23 郑州云海信息技术有限公司 一种基于强制访问控制的文件权限管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李自清.基于网络的数据库敏感数据加密模型研究.《计算机测量与控制》.2017,(第05期), *

Also Published As

Publication number Publication date
CN112257106A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN109901881B (zh) 应用程序的插件加载方法、装置、计算机设备及存储介质
CN112988284B (zh) 应用程序启动方法、装置、计算机设备和存储介质
CN113010892B (zh) 小程序恶意行为检测方法和装置
CN111428162A (zh) 一种页面截图方法及装置
CN110908837A (zh) 应用程序异常处理方法、装置、电子设备及存储介质
CN114996103A (zh) 页面异常检测方法、装置、电子设备和存储介质
CN112257106B (zh) 一种数据检测方法及装置
CN111552580A (zh) 分布式微服务决策方法、装置、设备及计算机存储介质
CN112231696A (zh) 恶意样本的识别方法、装置、计算设备以及介质
CN111191235A (zh) 可疑文件分析方法、装置和计算机可读存储介质
WO2022116587A1 (zh) Web端数据签名方法、装置及计算机设备
CN112817782B (zh) 一种数据采集上报方法、装置、电子设备和存储介质
CN111414525B (zh) 小程序的数据获取方法、装置、计算机设备和存储介质
CN114240132A (zh) 业务流程编排执行方法、装置、计算机设备及存储介质
CN113722225A (zh) 页面测试方法、装置、计算机设备和存储介质
CN114329149A (zh) 页面信息自动抓取的检测方法、装置、电子设备及可读存储介质
CN113268617A (zh) 论文元数据的检测方法及装置
CN112417324A (zh) 基于Chrome的URL拦截方法、装置及计算机设备
CN108509478B (zh) 规则引擎文件的拆分调用方法、电子装置及存储介质
CN107888445B (zh) 性能状态分析的方法、装置、计算机设备及存储介质
CN111914252A (zh) 文件安全性的检测方法、装置和电子设备
CN113127479A (zh) 一种Elasticsearch索引的加载方法、装置、计算机设备和存储介质
CN110908958B (zh) 一种文件处理方法、装置、终端及存储介质
CN111008048B (zh) 一种文件加载方法、装置及可读存储介质
CN114818645B (zh) 基于数据主体的自动化报告生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant