CN113946856B - 可编排插件化的大规模动态敏感数据审计方法及系统 - Google Patents
可编排插件化的大规模动态敏感数据审计方法及系统 Download PDFInfo
- Publication number
- CN113946856B CN113946856B CN202111553060.2A CN202111553060A CN113946856B CN 113946856 B CN113946856 B CN 113946856B CN 202111553060 A CN202111553060 A CN 202111553060A CN 113946856 B CN113946856 B CN 113946856B
- Authority
- CN
- China
- Prior art keywords
- sensitive data
- plug
- auditing
- audit
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本申请提供一种可编排插件化的大规模动态敏感数据审计方法及系统,该方法包括:当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果。该方法可以提高敏感数据审计的准确性,降低敏感数据的误报率和漏报率。
Description
技术领域
本申请涉及信息安全技术领域,尤其涉及一种可编排插件化的大规模动态敏感数据审计方法及系统。
背景技术
近年来,随着各领域数字化逐步推进,数据泄露问题的发生率呈现上升趋势。数据泄露问题严重危害公众隐私安全、挑战社会稳定。如何保障大数据环境下,结构化敏感信息的安全,构建第三方敏感数据发现与审计装置,成为亟需解决的问题。
目前,通过对各网页平台数据泄露问题的研究,设计与实现了基于自然语言处理的主动式敏感信息检测系统。该系统可以有效抓取网站的数据并进行分析判断是否存在隐私泄漏。
然而,当前的敏感信息检测系统大多依赖于规则集构建,而敏感信息结构与类型多种多样,并且不断丰富,仅采用规则集的方式,针对敏感信息的普适性差,漏报率、误报率高。
发明内容
有鉴于此,本申请提供一种可编排插件化的大规模动态敏感数据审计方法及系统。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种可编排插件化的大规模动态敏感数据审计方法,包括:
当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;所述目标插件集中包括从已有插件集中选择的插件,和/或,自定义插件;
依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;
依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果。
根据本申请实施例的第二方面,提供一种可编排插件化的大规模动态敏感数据审计系统,包括:
确定单元,用于当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;所述目标插件集中包括从已有插件集中选择的插件,和/或,自定义插件;
审计单元,用于依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;
依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果。
本申请实施例的可编排插件化的大规模动态敏感数据审计方法,在提交敏感数据审计任务时,可以从已有插件集中选择插件,和/或,自定义插件,以构成敏感数据审计任务关联的目标插件集,并依据目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,实现了可编排、插件化的动态敏感数据审计;对于任一插件,插件可以支持基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式中的至少两种敏感数据审计方式,对该至少两种敏感数据审计方式的审计结果进行融合,得到敏感数据审计结果,提高了敏感数据审计的准确性,降低了敏感数据的误报率和漏报率。
附图说明
图1为本申请一示例性实施例示出的一种可编排插件化的大规模动态敏感数据审计方法的流程示意图;
图2为本申请一示例性实施例示出的一种可编排插件化的大规模动态敏感数据审计系统的结构示意图;
图3为本申请一示例性实施例示出的另一种可编排插件化的大规模动态敏感数据审计系统的结构示意图;
图4为本申请一示例性实施例示出的另一种可编排插件化的大规模动态敏感数据审计系统的结构示意图;
图5为本申请一示例性实施例示出的另一种可编排插件化的大规模动态敏感数据审计系统的结构示意图;
图6为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种可编排插件化的大规模动态敏感数据审计方法的流程示意图,如图1所示,该可编排插件化的大规模动态敏感数据审计方法可以包括以下步骤:
步骤S100、当接收到敏感数据审计任务时,确定敏感数据审计任务关联的目标插件集;该目标插件集中包括从已有插件集中选择的插件,和/或,自定义插件。
本申请实施例中,为了实现动态化敏感数据审计,可以利用插件机制进行敏感数据审计。
对于接收到的敏感数据审计任务,可以确定执行该任务使用的插件集(本文中称为目标插件集),利用该插件集中的插件对待审计数据进行敏感数据审计。
示例性的,对于任一敏感数据审计任务,任务提交方可以从已有插件集中选择使用的插件(即敏感数据审计插件),也可以通过自定义的方式生成需要使用的插件(可以称为自定义插件)。
需要说明的是,已有插件集中的插件可以包括预先配置的插件,或者,当前敏感数据审计任务执行之前,新增的自定义插件。
此外,对于自定义插件,可以由自定义插件的编辑方确定是否允许其它任务提交方调用。
步骤S110、依据目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果。
本申请实施例中,在确定了敏感数据审计任务关联的目标插件集的情况下,可以依据目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果。
本申请实施例中,为了提高敏感数据审计的准确性,对待审计数据进行敏感数据审计时,不再局限于使用规则集,而是可以通过多种审计方式相结合的方式进行。
示例性的,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式。
示例性的,特征集可以包括但不限于关键词集和/或符号集等,通过对待审计数据中出现的与特征集中的特征匹配的数据进行检测,将其确定为敏感数据。
示例性的,模式集可以包括但不限于正则表达式集和/或结构模式集,通过对待审计数据中出现的与模式集中的正则表达式和/或结构模式匹配的数据进行检测,将其确定为敏感数据。
举例来说,以手机号检测为例,特征集中的特征可以为具体的11位的手机号,当依据该特征进行敏感数据审计时,可以将待审计数据中与该特征完全匹配的11位手机号确定为敏感数据。
又举例来说,模式集中的正则表达式可以为136开头的11位连续数字,当依据该正则表达式进行敏感数据审计时,可以将待审计数据中136开头的11位连续数字确定为敏感数据。
示例性的,机器学习模型集包括用于进行敏感数据审计的机器学习模型。
示例性的,利用机器学习模型进行敏感数据审计时,可以结合上下文信息进行敏感数据识别,其准确性更高。
例如,利用机器学习模型对待审计数据中的手机号进行识别时,其可以结合上下文将“手机:136***”中的11位数字识别为手机号,避免了将任务ID等长串数字误识别为手机号。
需要说明的是,利用机器学习模型进行敏感数据审计的准确性比较高,但是其性能消耗也比较高;而利用特征集或模式集进行敏感数据审计的准确性相对较低,但是其性能消耗也相对较低,在进行敏感数据审计时,可以根据需求选择组合不同的审计方式。
本申请实施例中,对于任一插件,依据该插件进行敏感数据审计的敏感数据审计结果可以包括该至少两种敏感数据审计方式的审计结果的融合结果。
例如,对于依据特征集审计处的待审计数据中的敏感数据,可以利用机器学习模型对其进行过滤,以滤除误检出的敏感数据,例如,对于将任务ID中的数字串误识别为手机号的情况,可以通过机器学习模型进行滤除,以提高敏感数据审计的准确性,降低误报率。
在一个示例中,对于任一插件,依据该插件对待审计数据进行敏感数据审计,包括:
利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对待审计数据进行敏感数据审计;
对于审计出的敏感数据,依据该敏感数据在待审计数据中的位置,获取该敏感数据的上下文信息,并利用基于机器学习模型集的敏感数据审计方式对该敏感数据进行校验。
示例性的,为了在保证审计结果准确性的情况下,减少敏感数据审计的性能消耗,可以先利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对待审计数据进行敏感数据审计,得到敏感数据审计结果。
示例性的,该敏感数据审计结果可以包括审计出的敏感数据,以及敏感数据在待审计数据中的位置等。
对于任一利用上述方式审计出的敏感数据,可以依据该敏感数据在待审计数据中的位置,获取该敏感数据的上下文信息,并利用基于机器学习模型集的审计方式,对该敏感数据进行校验,以滤除错误审计出的敏感数据,即可以不需要利用基于机器学习模型集的审计方式对完整的待审计数据进行审计,并保证审计出的敏感数据的准确性,从而,可以在保证审计结果准确性的情况下,减少敏感数据审计的性能消耗。
例如,仍以手机号审计为例,假设敏感数据为“136”开头的手机号,对于任一审计出的“136”开头的11位数字,可以获取其在待审计数据中的上下文信息,若其上下文信息中包括“任务ID”等信息,则可以确定该“136”开头的11位数字为任务ID或任务ID的一部分,被误审计为敏感数据,可以对该敏感数据进行滤除,以提高敏感数据审计的准确性。
在另一个示例中,对于任一插件,依据该插件对待审计数据进行敏感数据审计,包括:
利用基于机器学习模型集的敏感数据审计方式,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
对于任一敏感数据审计结果,利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,审计出该敏感数据审计结果中的敏感数据。
示例性的,考虑到基于机器学习模型的敏感数据审计方式审计出的敏感数据审计结果,通常会包括敏感数据在待审计数据中的上下文信息,导致得到的敏感数据审计结果的信息规模较大,不够精简,为了进一步定位基于机器学习模型集的敏感审计方式的敏感数据审计结果中的敏感数据,缩短其检出信息规模,对于基于机器学习模型的敏感数据审计方式得到的敏感数据审计结果,可以利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,进一步审计出该敏感数据审计结果中的敏感数据。
例如,仍以手机号审计为例,假设敏感数据为“136”开头的手机号,基于机器学习模型集的敏感数据审计方式的敏感数据审计结果可以为“手机号:136***”,可以利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对该敏感数据审计结果进一步审计,得出其中的敏感数据“136***”,缩短敏感数据的信息规模。
可见,在图1所示方法流程中,在提交敏感数据审计任务时,可以从已有插件集中选择插件,和/或,自定义插件,以构成敏感数据审计任务关联的目标插件集,并依据目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,实现了可编排、插件化的动态敏感数据审计;对于任一插件,插件可以支持基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式中的至少两种敏感数据审计方式,对该至少两种敏感数据审计方式的审计结果进行融合,得到敏感数据审计结果,提高了敏感数据审计的准确性,降低了敏感数据的误报率和漏报率。
在一些实施例中,自定义插件可以通过以下方式生成:
当检测到插件编辑请求时,输出插件在线编辑界面;其中,该插件在线编辑界面包括用于编辑插件基本信息的基本信息编辑表单、用于编辑特征集的特征集编辑表单、用于编辑模式集的编辑表单以及用于编辑模型集的编辑表单;
依据通过插件在线编辑界面输入的插件编辑指令生成敏感数据审计插件。
示例性的,为了实现插件自定义,可以预先构建插件编辑界面(本文中称为插件在线编辑界面),如插件web编辑界面。
相应地,当检测到插件编辑请求时,可以输出插件在线编辑界面。
示例性的,该插件在线编辑可以包括基本信息编辑表单、特征集编辑表单、模式集的编辑表单以及模型集编辑表单。
编辑人员可以通过基本信息编辑表单编辑插件的基本信息。
示例性的,插件的基本信息可以包括但不限于插件编号、插件依赖组件、该插件检测的敏感信息对象名称、类别、对应的敏感等级,对应的敏感信息合规要求、对应的危害、对应的防护要求等信息中的部分或全部。
编辑人员可以分别通过特征集编辑表单、模式集的编辑表单以及模型集编辑表单,编辑特征集、模式集以及模型集。
示例性的,在线编辑界面中的特征集/模式集/机器学习模型集可以预置参考编写格式及示例,便于用户顺利进行自定义,提高插件自定义的效率。
需要说明的是,在进行插件编辑时,可以根据需求选择编辑特征集、模式集以及模型集中的两个或三个。
在一个示例中,插件在线编辑界面中还包括:插件模板生成选项;
上述输出插件在线编辑界面之后,还包括:
当检测到针对插件模板生成选项的选择指令时,在插件在线编辑面中加载插件模板;
依据接收到的针对插件模板的编辑指令,对插件模板进行编辑,生成敏感数据审计插件。
示例性的,为了提高插件编辑效率,可以预先构建插件模板。
相应地,插件在线编辑界面中还可以包括插件模板生成选项,该选项用于触发插件在线编辑界面加载插件模板。
当检测到针对该插件模板生成选项的选择指令时,可以在插件在线编辑界面中加载插件模板,并依据接收到的针对插件模板的编辑指令,对该插件模板进行编辑,生成敏感数据审计插件。
在一个示例中,生成敏感数据审计插件之后,还可以包括:
构建敏感数据审计插件的运行环境;
调用敏感数据审计插件对测试数据进行敏感数据审计,并依据敏感数据审计结果对敏感数据审计插件进行调试,以使调试后的敏感数据审计插件满足预设条件。
示例性的,为了提高自定义插件的可靠性,对于通过在线编辑方式的生成的自定义插件,在用于执行敏感数据审计任务之前,还可以先进行调试。
示例性的,为了实现自定义插件的调试,在按照上述方式编辑得到敏感数据审计插件的情况下,可以构建敏感数据审计插件的运行环境,调用敏感数据审计插件对测试数据进行敏感数据审计,依据该敏感数据审计插件对测试数据进行敏感数据审计得到的敏感数据审计结果,对敏感数据审计插件进行调试,以使调试后的敏感数据审计插件满足预设条件。
例如,利用调试后的敏感数据审计插件对测试数据进行敏感数据审计的准确率超过预设准确率阈值。
在一些实施例中,步骤S110中,依据目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,可以包括:
确定敏感数据审计任务的优先级;其中,敏感数据审计任务的优先级与任务预计运行时间,和/或,敏感数据审计任务携带的紧急程度字段的值关联;
依据敏感数据审计任务的优先级,将敏感数据审计任务加入到与该优先级匹配的执行队列,由该执行队列对应的执行节点执行所述敏感数据审计任务;其中,执行队列对应的执行节点的数量与执行队列的优先级正相关。
示例性的,为了提高审计任务较多的情况下的敏感数据审计效率,可以对敏感数据审计任务进行优先级划分,且不同优先级的敏感数据审计任务可以加入不同的队列。
示例性的,敏感数据审计任务的优先级可以依据任务预计运行时间和/或敏感数据审计任务的紧急程度确定。
示例性的,敏感数据审计任务的任务预计运行时间可以依据插件集的规模评估。
例如,待审计数据(如待检测文本)规模越大,插件集中的插件数量越多、插件使用的特征集/模式集/机器学习模型集的规模越大,任务预计运行时间越长。
示例性的,敏感数据审计任务的紧急程度可以依据敏感数据审计任务携带的紧急程度字段的值确定。
例如,00为紧急程度高,01为紧急程度中,10为紧急程度低。
相应地,在接收到的敏感数据审计任务,并确定了该敏感数据审计任务关联的目标插件集的情况下,可以依据敏感数据审计任务的任务预计运行时间,和/或,敏感数据审计任务的紧急程序,确定该敏感数据审计任务的优先级,并依据敏感数据审计任务的优先级,将敏感数据审计任务加入到与该优先级匹配的执行队列,由该指定队列对应的执行节点执行该敏感数据库审计任务。
示例性的,执行队列对应的执行节点的数量与执行队列的优先级正相关,以提高高优先级的敏感数据审计任务的执行效率。
在一些实施例中,步骤S110中,依据目标插件集中的插件,对待审计数据进行敏感数据审计之后,还可以包括:
当检测到数据展示指令时,查询并展示与该敏感数据审计任务关联的审计数据;
其中,该审计数据包括任务运行状态、命中的敏感数据、敏感数据威胁等级、敏感数据位置中的一个或多个。
示例性的,为了更好地了解敏感数据审计任务的审计状态,可以通过数据展示指令,请求展示敏感数据审计任务关联的审计数据。
相应地,当检测到数据展示指令时,可以获取并展示与该敏感数据审计任务关联的审计数据。
示例性的,该审计数据可以包括但不限于任务运行状态、命中的敏感数据、敏感数据威胁等级、敏感数据位置中的部分或全部。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
本申请实施例中,基于插件化技术实现动态化数据审计、并且支持关键词、正则表达式、机器学习模型统一插件,解决传统规则集方式敏感数据审计检出率低,误报率高的问题。
通过设计实现大规模高并发审计任务调度框架,解决大规模检测难度大的问题,审计性能大大增加。
设计实现自定义插件编辑编排,支持动态下发加载与定制化审计,解决了业务化扫描的实际需求。
在该实施例中,可编排插件化的大规模动态敏感数据审计方案实现流程如下:
1、设计构建支持关键词特征、正则表达式、机器学习模型的统一插件编写规范模板(即上述插件模板)。
示例性的,插件模板可以包括:1)、插件基本信息,其可以包括但不限于插件编号、插件依赖组件、该插件检测的敏感信息对象名称、类别、对应的敏感等级,对应的敏感信息合规要求、对应的危害、对应的防护要求等描述信息;
2)、识别敏感信息的特征集,包括关键词集、符号集等;
3)、识别敏感信息的模式集,包括正则表达式集、结构模式集等;
4)、识别敏感信息的机器学习模型集;
5)、信息获取接口集,其可以包括基本信息获取接口、特征集/模式集/模型集获取接口等;
6)、插件调用接口集,其可以包括插件加载接口、插件运行接口、扫描结果获取接口等。
2、构建插件web编辑环境与界面。
示例性的,可以基于前端技术构建插件在线编辑器,该插件在线编辑器可以包括基本信息编辑表单、特征集编辑表单、模式集编辑表单、模型集编辑表单以及插件模板一键生成(即上述插件模板生成选项)等。
3、构建插件调试界面。
示例性的,插件调试界面可以包括测试敏感数据(即上述测试数据)输入表单(用于输入含有待检测敏感数据的文本数据)、插件运行环境动态构建(依据插件所写依赖组件自动构建运行环境)选项、插件加载选项、插件运行选项,以及插件检测结果回显(调用插件结果查询接口并回显在界面上)选项等。
示例性的,对于任一自定义插件,在调试过程中,可以通过插件调试界面,构建该自定义插件的运行环境,加载运行该插件,对测试数据进行敏感数据审计,并将审计结果显示在界面上,依据审计结果对该自定义插件进行调试。
4、依据业务场景以及敏感数据合规要求提炼扫描规则,编写敏感数据审计插件形成可自由编排的检测插件集,例如个人信息检测插件集(比如检测身份证信息或检测银行卡信息等,不同信息类型可以使用不同的插件)、企业信息检测插件集、敏感数据合规要求检测插件集等,并形成插件库,提供插件自选并自定义插件集功能。
5、构建高并发审计任务调度框架。
示例性的,依据敏感数据审计任务的预计运行时间(可以基于插件集规模评估)、紧急程度等确定敏感数据审计任务的优先级,依据优先级将任务分配到不同的执行队列进行排队。
示例性的,构建执行节点集群,以进行敏感数据审计,优先级越高的执行队列获得越多的执行节点,每个执行节点均到对应优先级的执行队列中拉取敏感数据审计任务,并调用敏感数据审计任务对应的插件集进行敏感数据审计,然后将审计结果存入数据库。
6、构建数据查询展示模块。
示例性的,数据查询展示模块用于获取数据库信息,如任务运行状态、命中的敏感信息、敏感信息威胁等级、敏感信息位置等内容并进行展示。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图2,为本申请实施例提供的一种可编排插件化的大规模动态敏感数据审计系统的结构示意图,如图2所示,该可编排插件化的大规模动态敏感数据审计系统可以包括:
确定单元210,用于当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;所述目标插件集中包括从已有插件集中选择的插件,和/或,自定义插件;
审计单元220,用于依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;
依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果。
在一些实施例中,如图3所示,所述可编排插件化的大规模动态敏感数据审计系统还包括:
插件生成单元230,用于通过以下方式生成自定义插件:
当检测到插件编辑请求时,输出插件在线编辑界面;其中,所述插件在线编辑界面包括用于编辑插件基本信息的基本信息编辑表单、用于编辑特征集的特征集编辑表单、用于编辑模式集的模式集编辑表单以及用于编辑模型集的模型集编辑表单;
依据通过所述插件在线编辑界面输入的插件编辑指令生成敏感数据审计插件。
在一些实施例中,所述插件在线编辑界面中还包括:插件模板生成选项;
所述插件生成单元230输出插件在线编辑界面之后,还包括:
当检测到针对所述插件模板生成选项的选择指令时,在所述插件在线编辑面中加载插件模板;
依据接收到的针对所述插件模板的编辑指令,对所述插件模板进行编辑,生成敏感数据审计插件。
在一些实施例中,如图4所示,所述可编排插件化的大规模动态敏感数据审计系统还包括:
调试单元240,用于构建所述敏感数据审计插件的运行环境;调用所述敏感数据审计插件对测试数据进行敏感数据审计,并依据敏感数据审计结果对所述敏感数据审计插件进行调试,以使调试后的敏感数据审计插件满足预设条件。
在一些实施例中,所述审计单元220依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,包括:
确定所述敏感数据审计任务的优先级;其中,敏感数据审计任务的优先级与任务预计运行时间,和/或,敏感数据审计任务携带的紧急程度字段的值关联;
依据所述敏感数据审计任务的优先级,将所述敏感数据审计任务加入到与该优先级匹配的执行队列,由该执行队列对应的执行节点执行所述敏感数据审计任务;其中,执行队列对应的执行节点的数量与执行队列的优先级正相关。
在一些实施例中,对于任一插件,所述审计单元220依据该插件对待审计数据进行敏感数据审计,包括:
利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对待审计数据进行敏感数据审计;
对于审计出的敏感数据,依据该敏感数据在待审计数据中的位置,获取该敏感数据的上下文信息,并利用基于机器学习模型集的敏感数据审计方式对该敏感数据进行校验。
在一些实施例中,对于任一插件,所述审计单元220依据该插件对待审计数据进行敏感数据审计,包括:
利用基于机器学习模型集的敏感数据审计方式,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
对于任一敏感数据审计结果,利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,审计出该敏感数据审计结果中的敏感数据。
在一些实施例中,如图5所示,所述可编排插件化的大规模动态敏感数据审计系统还包括:
数据展示单元250,用于当检测到数据展示指令时,获取并展示与所述敏感数据审计任务关联的审计数据;
其中,该审计数据包括任务运行状态、命中的敏感数据、敏感数据威胁等级、敏感数据位置中的一个或多个。
需要说明的是,上述确定单元210、审计单元220、插件生成单元230、调试单元240以及数据展示单元250可以集成部署在单个设备中,也可以分布式部署在不同设备上。
本申请实施例提供一种电子设备,包括处理器和存储器,其中,存储器存储有能够被所述处理器执行的机器可执行指令,处理器用于执行机器可执行指令,以实现上文描述的可编排插件化的大规模动态敏感数据审计方法。
请参见图6,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器601、存储有机器可执行指令的存储器602。处理器601与存储器602可经由系统总线603通信。并且,通过读取并执行存储器602中与可编排插件化的大规模动态敏感数据审计逻辑对应的机器可执行指令,处理器601可执行上文描述的可编排插件化的大规模动态敏感数据审计方法。
本文中提到的存储器602可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在一些实施例中,还提供了一种机器可读存储介质,如图6中的存储器602,该机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现上文描述的可编排插件化的大规模动态敏感数据审计方法。例如,所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机程序,存储于机器可读存储介质,例如图6中的存储器602,并且当处理器执行该计算机程序时,促使处理器601执行上文中描述的可编排插件化的大规模动态敏感数据审计方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (9)
1.一种可编排插件化的大规模动态敏感数据审计方法,其特征在于,包括:
当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;对于任一敏感数据审计任务,所述目标插件集中包括任务提交方从已有插件集中选择使用的插件,和/或,通过自定义的方式生成的需要使用的插件;对于自定义插件,由自定义插件的编辑方确定是否允许其它任务提交方调用;
依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;其中,由执行节点集群中的执行节点到执行队列中拉取敏感数据审计任务,并调用敏感数据审计任务对应的插件集进行敏感数据审计;
其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;
依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果;
其中,所述依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,包括:
确定所述敏感数据审计任务的优先级;其中,敏感数据审计任务的优先级与任务预计运行时间,和/或,敏感数据审计任务携带的紧急程度字段的值关联;敏感数据审计任务的任务预计运行时间依据插件集的规模评估;
依据所述敏感数据审计任务的优先级,将所述敏感数据审计任务加入到与该优先级匹配的执行队列,由该执行队列对应的执行节点执行所述敏感数据审计任务;其中,执行队列对应的执行节点的数量与执行队列的优先级正相关,每个执行节点均到对应优先级的执行队列中拉取敏感数据审计任务,并调用敏感数据审计任务对应的插件集进行敏感数据审计。
2.根据权利要求1所述的方法,其特征在于,所述自定义插件通过以下方式生成:
当检测到插件编辑请求时,输出插件在线编辑界面;其中,所述插件在线编辑界面包括用于编辑插件基本信息的基本信息编辑表单、用于编辑特征集的特征集编辑表单、用于编辑模式集的模式集编辑表单以及用于编辑模型集的模型集编辑表单;
依据通过所述插件在线编辑界面输入的插件编辑指令生成敏感数据审计插件。
3.根据权利要求2所述的方法,其特征在于,所述插件在线编辑界面中还包括:插件模板生成选项;
所述输出插件在线编辑界面之后,还包括:
当检测到针对所述插件模板生成选项的选择指令时,在所述插件在线编辑面中加载插件模板;
依据接收到的针对所述插件模板的编辑指令,对所述插件模板进行编辑,生成敏感数据审计插件。
4.根据权利要求2或3所述的方法,其特征在于,所述生成敏感数据审计插件之后,还包括:
构建所述敏感数据审计插件的运行环境;
调用所述敏感数据审计插件对测试数据进行敏感数据审计,并依据敏感数据审计结果对所述敏感数据审计插件进行调试,以使调试后的敏感数据审计插件满足预设条件。
5.根据权利要求1所述的方法,其特征在于,对于任一插件,依据该插件对待审计数据进行敏感数据审计,包括:
利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对待审计数据进行敏感数据审计;
对于审计出的敏感数据,依据该敏感数据在待审计数据中的位置,获取该敏感数据的上下文信息,并利用基于机器学习模型集的敏感数据审计方式对该敏感数据进行校验。
6.根据权利要求1所述的方法,其特征在于,对于任一插件,依据该插件对待审计数据进行敏感数据审计,包括:
利用基于机器学习模型集的敏感数据审计方式,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
对于任一敏感数据审计结果,利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,审计出该敏感数据审计结果中的敏感数据。
7.根据权利要求1所述的方法,其特征在于,所述依据所述目标插件集中的插件,对待审计数据进行敏感数据审计之后,还包括:
当检测到数据展示指令时,获取并展示与所述敏感数据审计任务关联的审计数据;
其中,该审计数据包括任务运行状态、命中的敏感数据、敏感数据威胁等级、敏感数据位置中的一个或多个。
8.一种可编排插件化的大规模动态敏感数据审计系统,其特征在于,包括:
确定单元,用于当接收到敏感数据审计任务时,确定所述敏感数据审计任务关联的目标插件集;对于任一敏感数据审计任务,所述目标插件集中包括任务提交方从已有插件集中选择使用的插件,和/或,通过自定义的方式生成的需要使用的插件;对于自定义插件,由自定义插件的编辑方确定是否允许其它任务提交方调用;
审计单元,用于依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果;其中,由执行节点集群中的执行节点到执行队列中拉取敏感数据审计任务,并调用敏感数据审计任务对应的插件集进行敏感数据审计;
其中,对于任一插件,该插件支持以下至少两种敏感数据审计方式:
基于特征集的敏感数据审计方式、基于模式集的敏感数据审计方式,以及基于机器学习模型集的敏感数据审计方式;
依据该插件进行敏感数据审计的敏感数据审计结果包括该至少两种敏感数据审计方式的审计结果的融合结果;
其中,所述审计单元依据所述目标插件集中的插件,对待审计数据进行敏感数据审计,得到敏感数据审计结果,包括:
确定所述敏感数据审计任务的优先级;其中,敏感数据审计任务的优先级与任务预计运行时间,和/或,敏感数据审计任务携带的紧急程度字段的值关联;敏感数据审计任务的任务预计运行时间依据插件集的规模评估;
依据所述敏感数据审计任务的优先级,将所述敏感数据审计任务加入到与该优先级匹配的执行队列,由该执行队列对应的执行节点执行所述敏感数据审计任务;其中,执行队列对应的执行节点的数量与执行队列的优先级正相关,每个执行节点均到对应优先级的执行队列中拉取敏感数据审计任务,并调用敏感数据审计任务对应的插件集进行敏感数据审计。
9.根据权利要求8所述的可编排插件化的大规模动态敏感数据审计系统,其特征在于,所述可编排插件化的大规模动态敏感数据审计系统还包括:
插件生成单元,用于通过以下方式生成自定义插件:
当检测到插件编辑请求时,输出插件在线编辑界面;其中,所述插件在线编辑界面包括用于编辑插件基本信息的基本信息编辑表单、用于编辑特征集的特征集编辑表单、用于编辑模式集的模式集编辑表单以及用于编辑模型集的模型集编辑表单;
依据通过所述插件在线编辑界面输入的插件编辑指令生成敏感数据审计插件;
其中,所述插件在线编辑界面中还包括:插件模板生成选项;
所述插件生成单元输出插件在线编辑界面之后,还包括:
当检测到针对所述插件模板生成选项的选择指令时,在所述插件在线编辑面中加载插件模板;
依据接收到的针对所述插件模板的编辑指令,对所述插件模板进行编辑,生成敏感数据审计插件;
其中,所述可编排插件化的大规模动态敏感数据审计系统还包括:
调试单元,用于构建所述敏感数据审计插件的运行环境;调用所述敏感数据审计插件对测试数据进行敏感数据审计,并依据敏感数据审计结果对所述敏感数据审计插件进行调试,以使调试后的敏感数据审计插件满足预设条件;
和/或,
对于任一插件,所述审计单元依据该插件对待审计数据进行敏感数据审计,包括:
利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,对待审计数据进行敏感数据审计;
对于审计出的敏感数据,依据该敏感数据在待审计数据中的位置,获取该敏感数据的上下文信息,并利用基于机器学习模型集的敏感数据审计方式对该敏感数据进行校验;
和/或,
对于任一插件,所述审计单元依据该插件对待审计数据进行敏感数据审计,包括:
利用基于机器学习模型集的敏感数据审计方式,对待审计数据进行敏感数据审计,得到敏感数据审计结果;
对于任一敏感数据审计结果,利用基于特征集的敏感数据审计方式和/或基于模式集的敏感数据审计方式,审计出该敏感数据审计结果中的敏感数据;
和/或,
所述可编排插件化的大规模动态敏感数据审计系统还包括:
数据展示单元,用于当检测到数据展示指令时,获取并展示与所述敏感数据审计任务关联的审计数据;
其中,该审计数据包括任务运行状态、命中的敏感数据、敏感数据威胁等级、敏感数据位置中的一个或多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111553060.2A CN113946856B (zh) | 2021-12-17 | 2021-12-17 | 可编排插件化的大规模动态敏感数据审计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111553060.2A CN113946856B (zh) | 2021-12-17 | 2021-12-17 | 可编排插件化的大规模动态敏感数据审计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113946856A CN113946856A (zh) | 2022-01-18 |
CN113946856B true CN113946856B (zh) | 2022-08-19 |
Family
ID=79339200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111553060.2A Active CN113946856B (zh) | 2021-12-17 | 2021-12-17 | 可编排插件化的大规模动态敏感数据审计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946856B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764704A (zh) * | 2009-12-10 | 2010-06-30 | 陕西鼎泰科技发展有限责任公司 | 一种互联网敏感内容审计的方法及其装置 |
CN105574168B (zh) * | 2015-12-17 | 2017-03-08 | 福建六壬网安股份有限公司 | 一种内存数据库的安全审计系统及审计方法 |
CN107330628A (zh) * | 2017-07-06 | 2017-11-07 | 云南电网有限责任公司 | 一种审计风险管理信息库的构建方法及装置 |
CN110543565A (zh) * | 2019-08-30 | 2019-12-06 | 广西电网有限责任公司南宁供电局 | 基于卷积神经网络模型的审计方法、系统和可读存储介质 |
CN111353146B (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 应用程序敏感权限的检测方法、装置、设备和存储介质 |
CN112270012B (zh) * | 2020-11-19 | 2022-04-12 | 北京炼石网络技术有限公司 | 一种用于分布式数据安全防护的装置、方法及其系统 |
-
2021
- 2021-12-17 CN CN202111553060.2A patent/CN113946856B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113946856A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102537275B1 (ko) | 구조화된 사용자 데이터 파일에서의 사용자 콘텐츠의 난독화 | |
CN110506271B (zh) | 针对隐私敏感用户内容的可配置注释 | |
US11263071B2 (en) | Enabling symptom verification | |
KR101694783B1 (ko) | 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 | |
US20180102998A1 (en) | Forgotten attachment detection | |
US9813450B1 (en) | Metadata-based verification of artifact quality policy compliance | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
US20120124422A1 (en) | Description language for identifying performance issues in event traces | |
CN109918678B (zh) | 一种字段含义识别方法和装置 | |
CN112363814A (zh) | 任务调度方法、装置、计算机设备及存储介质 | |
CN107920067B (zh) | 一种主动对象存储系统上的入侵检测方法 | |
CN110716866A (zh) | 代码质量扫描方法、装置、计算机设备及存储介质 | |
CN112069052A (zh) | 一种异常对象检测方法、装置、设备及存储介质 | |
CN113946856B (zh) | 可编排插件化的大规模动态敏感数据审计方法及系统 | |
CN117453437A (zh) | 数据库语句处理方法、装置、计算机设备和存储介质 | |
CN112997172A (zh) | 针对数据资产的计算高效的有效标签确定 | |
CN113641702B (zh) | 一种语句审计后与数据库客户端交互处理方法和装置 | |
US9286348B2 (en) | Dynamic search system | |
CN113806176B (zh) | 一种基于配置管理的数据对象识别方法和装置 | |
CN111538491B (zh) | 数据事件处理方法、装置、设备和存储介质 | |
JP2008171282A (ja) | 最適パラメータ探索プログラム、最適パラメータ探索装置および最適パラメータ探索方法 | |
CN113742116A (zh) | 一种异常定位方法及装置、设备、存储介质 | |
KR101694778B1 (ko) | 소스 코드의 오류 검출에 있어서 오경보 저감 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 | |
US20190294534A1 (en) | Program usability performance classification | |
CN111352824A (zh) | 测试方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |