CN113868697A

CN113868697A - 一种基于电信数据仓库实时分析数据脱敏的方法

Info

Publication number: CN113868697A
Application number: CN202110982939.2A
Authority: CN
Inventors: 鞠佳; 周钰; 任伟; 彭程
Original assignee: Chinaccs Information Industry Co ltd
Current assignee: Chinaccs Information Industry Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-12-31
Anticipated expiration: 2041-08-25
Also published as: CN113868697B

Abstract

本发明提供了一种基于电信数据仓库实时分析数据脱敏的方法，属于数据脱敏技术领域。其技术方案为：一种基于电信数据仓库实时分析数据脱敏的方法，根据电信数据仓库存储数据，将涉及敏感信息的数据实时扫描发现，进行敏感算法适配、敏感信息分析、脱敏算法适配、数据脱敏，实现数据仓库全量数据实时扫描脱敏。本发明的有益效果是：实时发现数据仓库敏感信息，敏感信息发现后进行实时脱敏，涉及敏感数据的模型进行数据溯源，保障数据安全的作用。

Description

一种基于电信数据仓库实时分析数据脱敏的方法

技术领域

本发明涉及数据脱敏技术领域，尤其涉及一种基于电信数据仓库实时分析数据脱敏的方法。

背景技术

随着在企业信息化发展，数据的使用场景越来越复杂，数据体量由TB发展到PB级别，由关系型数据库像大数据平台发展，数据存储带来的敏感数据泄露风险随之增加，为保障数据安全，防止隐私数据滥用及外泄，需要将企业数据仓库内的敏感数据进行脱敏变形，同时考虑到数据脱敏的实时性、高效性要求，需要将数据涉敏、脱敏流程及算法进行改进化。

发明内容

针对上述现有技术中的问题，本发明的目的在于提供一种基于电信数据仓库实时分析数据脱敏的方法。

本发明是通过如下技术方案实现的：一种基于电信数据仓库实时分析数据脱敏的方法，包括如下步骤：

S1、涉敏模型抓取：涉敏数据来源配置，实时扫描数据仓库表模型，根据历史扫描结果抓取从未扫描分析过的表模型，根据数据记录量抓取数据发生变化的表模型，从中抓取到的表模型中获取其中包含的模型字段及字段类型，生成待分析模型数据；不抓取已脱敏表且数据未发生变化的表模型(含例外表模型)，不抓取当日已记录表模型，不抓取数据量为0的模型，不同类型数据库抓取程序代码不同，抓取逻辑近似；

S2、涉敏算法适配：根据数据来源、表模型、字段类型实时对所述待分析模型数据适配涉敏分析算法，生成涉敏算法分析参数；

S3、涉敏算法执行：实时获取涉敏算法分析参数，并传入执行引擎，通过调用组件的方式执行涉敏分析算法，分析所述待分析模型数据是否涉及敏感信息，生成涉敏模型及未涉敏模型；

S4、脱敏算法适配：实时获取所述涉敏模型，根据涉敏模型，匹配脱敏分析算法，匹配成功后生成脱敏算法参数；

S5、脱敏算法执行：

将适配脱敏算法的涉敏模型结果传入执行引擎，调用组件，执行脱敏算法，生成已脱敏模型、未脱敏模型；

未适配脱敏算法的涉敏模型进行脱敏下线审批，进行涉敏模型下线处理，生成已脱敏模型、未脱敏模型；

S6、根据已脱敏模型结果、未脱敏模型结果，关联元数据进行溯源分析，生成溯源报告，进行模型整改。

进一步，所述待分析模型数据指：根据数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间等信息，生成待分析涉敏模型数据。

进一步，所述涉敏分析算法支持“姓名”、“地址”、“证件”、“电话号码”等敏感信息分析，支持一个字段存在多种敏感信息分析，将表模型中每个字段都进行算法分析匹配，匹配完成后生成涉敏算法执行参数；涉敏执行参数包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、抓取时间、创建时间、涉敏分析算法。

进一步，所述S3具体为，实时获取S2脱敏算法执行参数，执行参数传入算法执行引擎，算法引擎执行根据参数并行调用算法组件程序，按“姓名”、“地址”、“证件”、“电话号码”等进行分析，抓取全量或部分随机模型内数据，分析模型数据是否涉及敏感信息，分析完成后，生成包含敏感信息的表模型结果。

进一步，所述生成涉敏模型结果指按涉敏分析算法逻辑计算后，生成超过阈值的模型信息，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、分析时间、涉敏算法、涉敏类型、分析总量、匹配值、匹配阀值，其中一个模型只要有一个字段含有敏感信息，就纳入涉敏模型结果。

进一步，所述S5具体为，实时获取S4脱敏算法执行参数，参数主要包括“模型名称”，“字段名称”，“字段类型”，“脱敏模型算法”，根据“字段类型”、“脱敏模型算法”，执行引擎并行调用执行对应数据脱敏算法，使用数据替换脱敏方式，进行模型字段对应数据的全量脱敏，循环分批脱敏处理，脱敏后数据按照脱敏规则展示部分数据，不展示部分用*号代替，同一模型字段可以按不同脱敏规则进行多次脱敏，记录脱敏算法执行日志，如出现脱敏失败、无法匹配脱敏规则的情况，记录未脱敏数据模型。

进一步，所述生成已脱敏模型结果：按算法逻辑计算后，生成脱敏模型结果，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、脱敏时间、脱敏算法、脱敏状态。

进一步，所述脱敏下线审批的流程包括获取未脱敏数据模型、管理人员审核、生成模型下线算法参数、算法参数传入执行引擎、执行模型下线算法、生成已脱敏模型结果、记录组件执行日志。

进一步，所述元数据包括：“数据库名称”、“数据库用户名称”、“数据模型名称”、“来源系统”、“来源接口”、“来源负责人”、“数据库用户运营负责人”、“模型负责人”等信息。

进一步，所述溯源分析报告，按日、月周期进行溯源分析；所述溯源分析报告包括：分析内容和分析明细，所述分析内容包括模型来源系统、负责人，模型总量、涉敏模型总量、涉敏模型字段总量、脱敏模型总量、脱敏字段总量；所述分析明细包括：模型名称、模型字段、分析算法、脱敏算法、是否涉敏、是否脱敏、数据详情。

本发明的有益效果为：本发明支持企业数据仓库实时扫描分析涉敏数据，实现敏感模型数据实时发现；自动匹配涉敏分析算法，自动匹配脱敏算法，实时进行涉敏模型脱敏处理，实现数据仓库无敏感数据；每日出具敏感模型溯源报告，支撑数据脱敏整改工作开展。

附图说明

图1为本发明实施例的整体处理流程图。

图2为本发明实施例的涉敏模型抓取流程图。

图3为本发明实施例的涉敏算法适配流程图。

图4为本发明实施例的涉敏算法执行流程图。

图5为本发明实施例的脱敏算法适配流程图。

图6为本发明实施例的脱敏算法执行流程图。

图7为本发明实施例的涉敏下线审批流程图。

图8为本发明实施例的涉敏溯源分析流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

在本发明创造的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明创造的描述中，需要说明的是，除非另有明确的规定和限定，术语“实时”、“适配”、“算法”、“引擎”、“模型”、“字段”、“涉敏”、“脱敏”应做广义理解。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明创造中的具体含义。

为了便于理解，现对于本发明实施例中提到的一些名词进行解释。

数据仓库：是数据库一种概念上的升级，这个数据库需要容纳庞大的数据集，汇聚各类业务数据，进行周期性数据存储，用于数据挖掘和数据分析。

关系型数据库：采用了关系模型来组织数据的数据库，以行列的形式存储数据。

HADOOP数据库：大数据平台hive数据库。

适配：指根据数据源、模型、字段、字段类型等条件与算法进行映射，匹配生成映射关系的过程。

算法：本例中指数据涉敏计算逻辑、数据脱敏计算逻辑，模型下线计算逻辑。

模型：本例中指数据库表对象。

涉敏：包含敏感信息的数据，本例中敏感信息指包含姓名、地址、证件、电话号码、账号、账户、密码的数据。

脱敏：将敏感信息数据进行变形、隐藏、加密的过程。

实施例1

本发明提供一种基于电信数据仓库实时扫描数据脱敏的方法，主要流程分为，参照图1。

整体流程由七个子流程组成，流程一：涉敏模型抓取流程、流程二：涉敏算法适配流程、流程三：涉敏算法执行流程、流程四：脱敏算法适配流程、流程五：脱敏算法执行流程、流程六：涉敏下线审批流程、流程七：涉敏溯源分析流程。

流程一、涉敏模型抓取流程，包括数据来源配置、数据模型实时扫抓取、模型字段及字段类型抓取、生成待分析涉敏模型数据，参照图2

数据来源配置：配置关系型数据库地址、数据库连接、用户权限，配置hadoop数据库地址、数据库连接、用户权限。

数据模型实时扫描抓取：扫描程序实时连接数据库模型，实时扫描抓取从未扫描分析过的表模型(根据历史扫描结果判断)，抓取数据发生变化的表模型(根据数据记录量判断)，不抓取已脱敏表且数据未发生变化的表模型(含例外表模型)，不抓取当日已记录表模型，不抓取数据量为0的模型。不同类型数据库抓取程序代码不同，抓取逻辑近似。

模型字段及字段类型抓取：表模型抓取后，根据模型名称获取对应模型字段(从数据库模型字段表获取)。

生成待分析涉敏模型数据：根据数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间等信息，生成待分析涉敏模型数据。

流程二、涉敏算法适配流程，包括涉敏模型数据获取、匹配涉敏分析算法、生成涉敏分析参数、生成未匹配算法模型、涉敏算法优化匹配、人工分析处理，参照图3。

涉敏模型数据获取：获取流程一生成的待分析涉敏模型数据，标记涉敏数据状态已获取。

匹配涉敏分析算法：根据数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、抓取时间等信息匹配涉敏分析算法，涉敏分析算法详情见表1。

生成涉敏分析参数：匹配成功后生成涉敏执行参数，涉敏执行参数包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、抓取时间、创建时间、涉敏分析算法。

生成未匹配算法模型：匹配不成功记录未匹配算法模型结果，不成功记录数据模型，模型中只要有一个字段未匹配模型，就纳入未匹配算法模型结果中。

涉敏算法优化匹配：分析匹配不成功原因，扩展优化涉敏算法，优化完成后再次进行模型匹配，生成涉敏执行参数。

人工分析处理：优化算法无法匹配的参数，做人工分析，确认继续优化，还是纳入例外范围，此类型不再进行涉敏分析。

流程三、涉敏算法执行流程，包括获取涉敏分析参数、传入算法执行引擎、执行涉敏分析算法、模型内数据抓取、生成涉敏模型结果、生成未涉敏模型结果、记录组件执行日志，参照图4。

获取涉敏分析参数：获取流程二生成的涉敏执行参数，标记涉敏执行参数数据状态为已获取。

传入算法执行引擎：将获取的涉敏执行参数传入算法执行引擎，算法执行引擎根据算法参数，调用算法对应组件，将参数传入组件。

执行涉敏分析算法：通过调用组件的方式，实现涉敏分析算法执行，组件与算法为一一对应关系，执行一个组件就进行一次算法分析。

模型内数据抓取：组件连接数据仓库，抓取模型内数据，实现涉敏分析算法逻辑，根据匹配率判断模型字段是否涉敏。组件由脚本编写，支持关系型数据与hadoop数据库连接及模型内数据抓取，如果模型内数据体量大，则算法进行随机采样抓取分析方法，提升实时分析效率，降低数据库资源损耗。

生成涉敏模型结果：按算法逻辑计算后，生成超过阀值的模型信息，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、分析时间、涉敏算法、涉敏类型、分析总量、匹配值、匹配阀值。一个模型只要有一个字段含有敏感信息，就纳入涉敏模型结果。

涉敏类型主要包括姓名、地址、证件、电话号码、账号、密码等。

生成未涉敏模型结果：按算法逻辑计算后，生成未超过阀值的模型信息，当这些模型数据未发生变化时，流程一涉敏模型流程将不抓取这些已分析不涉敏模型。

记录组件执行日志：记录组件执行参数，开始时间、截止时间、执行状态。

流程四、脱敏算法适配流程，包括获取脱敏模型数据、匹配脱敏算法、生成脱敏参数、生成未脱敏数据模型、脱敏算法优化匹配，参照图5。

取脱敏模型数据：获取流程三生成的涉敏模型结果，标记涉敏数据状态已获取。

匹配脱敏算法：根据数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、抓取时间等信息匹配脱敏分析算法，脱敏分析算法详情见表1。

生成脱敏参数：匹配成功后生成脱敏执行参数，脱敏执行参数包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、抓取时间、脱敏分析算法。

生成未脱敏数据模型：匹配不成功记录未匹配算法模型结果，不成功记录数据模型，模型中只要有一个字段未匹配模型，就纳入未匹配算法模型结果中。

脱敏算法优化匹配：分析匹配不成功原因，扩展优化涉敏算法，优化完成后再次进行模型匹配，生成涉敏执行参数，如果再次匹配不成功，将未匹配算法模型记录后，启动脱敏下线审批流程。

流程五、脱敏算法执行流程，包括获取脱敏分析参数、传入算法执行引擎、执行脱敏分析算法、涉敏数据循环批量脱敏、生成已脱敏模型结果、记录组件执行日志，参照图6。

获取脱敏分析参数：获取流程四生成的脱敏执行参数，标记脱敏执行参数数据状态为已获取。

传入算法执行引擎：将获取的脱敏执行参数传入算法执行引擎，算法执行引擎根据算法参数，调用算法对应组件，将参数传入组件。

执行脱敏分析算法：通过并行调用组件的方式，实现脱敏分析算法执行，组件与算法为一一对应关系，执行一个组件就进行一次算法分析。同一模型字段对应的脱敏组件串行执行，不同模型字段对应的脱敏组件并行执行。

涉敏数据循环批量脱敏：组件连接数据仓库，获取模型内数据，实现脱敏算法逻辑，将模型内数据进行脱敏。组件由脚本编写，支持关系型数据与hadoop数据库连接及模型内数据的抓取、修改、删除。

生成已脱敏模型结果：按算法逻辑计算后，生成脱敏模型结果，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、脱敏时间、脱敏算法、脱敏状态。

流程六、脱敏下线审批流程，包括获取未脱敏数据模型、管理人员审核、生成模型下线算法参数、算法参数传入执行引擎、执行模型下线算法、生成已脱敏模型结果、记录组件执行日志，参照图7。

获取未脱敏数据模型：获取流程四生成的未脱敏数据模型，关联元数据集中展示。

管理人员审核：由管理人员审核判断是否下线，如下线，则将未脱敏模型进行脱敏下线处理，如无法界定，则进行涉敏溯源分析。

生成模型下线算法参数：将模型参数与下线算法匹配，匹配成功后生成脱敏下线执行参数，下线执行参数包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、抓取时间、模型创建时间、脱敏下线算法。

算法参数传入执行引擎：将获取的脱敏下线执行参数传入算法执行引擎，算法执行引擎根据算法参数，调用算法对应组件，将参数传入组件。下线组件直接将模型数据进行处理，不需要模型字段处理，处理方式包括删除模型、删除模型内所有数据、模型名称重命名。重命名模型纳入待清理下线计划，月内进行清理，重命名模型不再进行流程一涉敏模型抓取。

执行模型下线算法：通过并行调用组件的方式，实现脱敏分析算法执行，组件与算法为一一对应关系，执行一个组件就进行一次算法分析。

生成已脱敏模型结果：记录下线模型，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、抓取时间、模型创建时间、脱敏时间、脱敏下线算法、脱敏状态，模型对应元数据信息。

流程七、涉敏溯源分析流程，包括获取已脱敏、未脱敏数据模型、元数据关联分析、溯源分析报告、模型整改处理、模型例外处理，参照图8。

获取已脱敏、未脱敏数据模型：流程五生成的已脱敏数据模型及脱敏处理结果，获取流程六生成的未脱敏数据模型，已脱敏数据模型及脱敏下线处理结果。

元数据关联分析：将涉敏数据关联元数据进行分析，元数据包括：“数据库名称”、“数据库用户名称”、“数据模型名称”、“来源系统”、“来源接口”、“来源负责人”、“数据库用户运营负责人”、“模型负责人”等信息。

溯源分析报告：按日、月周期进行溯源分析。分析内容只要包括：模型来源系统，负责人，模型总量，涉敏模型总量，涉敏模型字段总量，脱敏模型总量，脱敏字段总量；可查看分析明细，分析明细主要包括：模型名称，模型字段，分析算法，脱敏算法，是否涉敏，是否脱敏，数据详情。

模型整改处理：根据溯源分析报告，进行模型整改，实现模型脱敏。

模型例外处理：根据溯源分析报告，对于无法整改的模型，进行例外处理，添加模型参数到例外库中，不再进行流程一涉敏模型抓取。对于数据仓库中无需抓取分析的模型，也可以纳入例外规则、例外模型清单中，不再进行流程一涉敏模型抓取。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

表1-算法说明表

Claims

1.一种基于电信数据仓库实时分析数据脱敏的方法，其特征在于，包括如下步骤：

S1、涉敏模型抓取：涉敏数据来源配置，实时扫描数据仓库表模型，根据历史扫描结果抓取从未扫描分析过的表模型，根据数据记录量抓取数据发生变化的表模型，从中抓取到的表模型中获取其中包含的模型字段及字段类型，生成待分析模型数据；

S3、涉敏算法执行：实时获取所述涉敏算法分析参数，并传入执行引擎，通过调用组件的方式执行所述涉敏分析算法，分析所述待分析模型数据是否涉及敏感信息，生成涉敏模型及未涉敏模型；

S4、脱敏算法适配：实时获取所述涉敏模型结果，根据所述涉敏模型，匹配脱敏分析算法，匹配成功后生成脱敏算法参数；

S5、脱敏算法执行：实时获取S4脱敏算法执行参数，将适配脱敏算法的涉敏模型传入执行引擎，调用组件，执行脱敏算法，生成已脱敏模型、未脱敏模型；未适配脱敏算法的涉敏模型进行脱敏下线审批，进行涉敏模型下线处理，生成已脱敏模型、未脱敏模型；

S6、根据已脱敏模型、未脱敏模型，关联元数据进行溯源分析，生成溯源报告，进行模型整改。

2.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述S1中的待分析模型数据指：根据数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间等信息，生成待分析涉敏模型数据。

3.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述涉敏分析算法支持“姓名”、“地址”、“证件”、“电话号码”等敏感信息分析，支持一个字段存在多种敏感信息分析，将表模型中每个字段都进行算法分析匹配，匹配完成后生成涉敏算法执行参数；所述涉敏执行参数包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、抓取时间、创建时间、涉敏分析算法。

4.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述S3中的所述生成涉敏模型指按涉敏分析算法逻辑计算后，生成超过阈值的模型信息，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、分析时间、涉敏算法、涉敏类型、分析总量、匹配值、匹配阀值，其中一个模型只要有一个字段含有敏感信息，就纳入涉敏模型。

5.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述S5中的所述生成已脱敏模型：按算法逻辑计算后，生成脱敏模型结果，包括数据库类型、用户名称、表模型英文名称、表模型中文名称、字段英文名称、字段中文名称、字段类型、字段长度、模型创建时间、脱敏时间、脱敏算法、脱敏状态。

6.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述S5中的脱敏下线审批的流程包括获取未脱敏数据模型、管理人员审核、生成模型下线算法参数、算法参数传入执行引擎、执行模型下线算法、生成已脱敏模型结果、记录组件执行日志。

7.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述元数据包括：“数据库名称”、“数据库用户名称”、“数据模型名称”、“来源系统”、“来源接口”、“来源负责人”、“数据库用户运营负责人”、“模型负责人”等信息。

8.根据权利要求1所述的基于电信数据仓库实时分析数据脱敏的方法，其特征在于，所述溯源分析报告，按日、月周期进行溯源分析；所述溯源分析报告包括：分析内容和分析明细，所述分析内容包括模型来源系统、负责人，模型总量、涉敏模型总量、涉敏模型字段总量、脱敏模型总量、脱敏字段总量；所述分析明细包括：模型名称、模型字段、分析算法、脱敏算法、是否涉敏、是否脱敏、数据详情。