CN115081025A - 基于数字中台的敏感数据管理方法、装置及电子设备 - Google Patents

基于数字中台的敏感数据管理方法、装置及电子设备 Download PDF

Info

Publication number
CN115081025A
CN115081025A CN202210997587.2A CN202210997587A CN115081025A CN 115081025 A CN115081025 A CN 115081025A CN 202210997587 A CN202210997587 A CN 202210997587A CN 115081025 A CN115081025 A CN 115081025A
Authority
CN
China
Prior art keywords
data
sensitive
clustering
attribute
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210997587.2A
Other languages
English (en)
Inventor
吴景文
张昆
叶祖焕
刘洋
黄睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Valin E Commerce Co ltd
Original Assignee
Hunan Valin E Commerce Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Valin E Commerce Co ltd filed Critical Hunan Valin E Commerce Co ltd
Priority to CN202210997587.2A priority Critical patent/CN115081025A/zh
Publication of CN115081025A publication Critical patent/CN115081025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术,公开了一种基于数字中台的敏感数据管理方法、装置及电子设备。所述方法包括:从数字中台中提取包括结构化数据集合及非结构化数据集合的业务周期数据集合,基于结构化数据集合中各数据属性的敏感度进行敏感聚类及敏感数据分级,得到结构数据敏感分级结果,提取非结构化数据集合中的数据特征,利用预设的分级标签对数据特征进行梯度聚类并进行分级标注,得到非结构数据敏感分级结果,将结构数据敏感分级结果及非结构数据敏感分级结果存储至数字中台,对用户实时敏感数据访问行为进行异常识别,根据异常识别结果从数字中台中获取敏感数据。本发明可以对数字中台中的敏感数据进行有效管理。

Description

基于数字中台的敏感数据管理方法、装置及电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于数字中台的敏感数据管理方法、装置及电子设备。
背景技术
数字中台是一套可持续“让企业的数据用起来”的机制,通过不断把业务数据变成资产并服务于业务,实现数据可见、可用、可运营。数字中台将分散割裂的海量数据做到集成,打破数据孤岛的现状,同时降低使用数据服务的门槛,实现数据“越用越多”的价值闭环,大大提高了数据利用效率。然而,由于数字中台集成了大量业务数据,会包含大量的敏感数据,如用户信息、合同文档、订单等,需要更好的对敏感数据进行管理的方法,从而提高数字中台数据使用的安全性。
敏感数据管理包括对敏感数据识别、存储、访问等,现有技术中,主要使用人工识别或字典匹配的方法进行敏感数据识别,并通过设置敏感数据权限的方法进行存储及访问,然而数字中台中数据量过大,会导致敏感数据识别准确率效率较低,且仅依靠数据权限也会使得敏感数据不安全,因此,亟需一种能够对数字中台中的敏感数据进行高效管理的方法。
发明内容
本发明提供一种基于数字中台的敏感数据管理方法、装置、电子设备及可读存储介质,其主要目的在于对数字中台中的敏感数据进行高效管理。
为实现上述目的,本发明提供的一种基于数字中台的敏感数据管理方法,包括:
获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台;
接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
可选地,所述计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果,包括:
利用预设的熵值敏感度计算公式计算所述结构化数据集合中各数据属性的敏感度;
利用k-means聚类算法对所述敏感度进行敏感聚类,得到所有数据属性的原始聚类结果;
基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果;
计算所述标准聚类结果中数据属性的互信息值,并基于所述互信息值的大小排序对所述结构化数据集合中的敏感数据进行分级,得到所述结构数据敏感分级结果。
可选地,所述原始聚类结果包括敏感聚类簇及疑似敏感聚类簇,以及所述基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果,包括:
基于所述Aprior 算法,建立所述疑似敏感聚类簇中数据属性至所述敏感聚类簇中数据属性的关联规则;
重新对关联规则建立成功的数据属性进行敏感度计算,并根据敏感度大小调整敏感聚类簇及疑似敏感聚类簇中的数据属性,将调整后的敏感属性集及非敏感属性集作为所述标准聚类结果。
可选地,所述重新对关联规则建立成功的数据属性进行敏感度计算,包括:
利用下述公式计算敏感度:
Figure 442641DEST_PATH_IMAGE001
其中,
Figure 310103DEST_PATH_IMAGE002
表示成功建立关联规则的第i个数据属性的敏感度,xi表示第i个成功建立关联规则的数据属性,
Figure 894668DEST_PATH_IMAGE003
表示第i个成功建立关联规则的数据属性的最大离散熵,
Figure 265607DEST_PATH_IMAGE004
表示第i个成功建立关联规则的数据属性的条件变化熵,
Figure 762578DEST_PATH_IMAGE005
表示数据属性xi及数据属性xj建立关联规则后的条件熵。
可选地,所述计算所述标准聚类结果中数据属性的互信息值,包括:
通过下述公式计算互信息值:
Figure 586178DEST_PATH_IMAGE006
其中,A,B表示敏感属性集中的两个数据属性,n表示数据属性的属性值个数,ai表示数据属性A中第i个属性值,bi表示数据属性B中第i个属性值,
Figure 974434DEST_PATH_IMAGE007
表示ai的先验概率,
Figure 199879DEST_PATH_IMAGE008
表示在bi条件时的后验概率。
可选地,所述基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果,包括:
对所述数据特征进行特征对齐及特征降维处理,得到标准数据特征;
选取预设个数的标准数据特征作为初始聚类中心,将所有标准数据特征划分至距离最近的初始聚类中心,得到所述预设个数的初始聚类簇;
计算所述预设个数的初始聚类簇的平方和;
依次增加所述初始聚类中心的个数,并返回所述将所有标准数据特征划分至距离最近的初始聚类中心的步骤,直到相邻两次初始聚类簇的平方和的梯度差值大于或等于预设的梯度阈值,并选取所述大于或等于预设的梯度阈值的梯度差值对应的初始聚类簇的初始聚类中心作为标准聚类中心;
基于所述标准聚类中心,利用k-means聚类算法对所有的标准数据特征进行聚类,得到包含多个收敛聚类簇的梯度聚类结果;
利用所述分级标签对所述多个收敛聚类簇进行分级标注,得到所述非结构数据敏感分级结果。
可选地,该方法还包括:
通过下述公式计算相邻两次初始聚类簇的平方和的梯度差值:
Figure 117019DEST_PATH_IMAGE009
其中,g为所述梯度差值,DK表示K个初始聚类簇的平方和,DK-1表示K-1个初始聚类簇的平方和,Ci表示第i个初始聚类簇,P表示第i个初始聚类簇内的某一个标准数据特征向量,Mi表示第i个初始聚类中心。
可选的,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别之前,所述方法还包括:
获取所述数字中台中的历史用户行为记录,利用局部离群因子算法计算所述历史用户行为记录中的离群点集合,并将所述离群点集合中的行为数据作为负样本,将非离群点集合中的行为数据作为正样本;
利用所述正样本及所述负样本训练预构建的神经网络,在所述神经网络的损失值大于预设的损失阈值时,调整所述神经网络中的模型参数,并返回所述利用所述正样本及所述负样本训练预构建的神经网络的步骤,直至损失值小于或等于所述损失阈值时,停止训练,得到所述异常访问识别模型。
为了解决上述问题,本发明还提供一种基于数字中台的敏感数据管理装置,所述装置包括:
业务数据提取模块,用于获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
结构数据敏感分级模块,用于计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
非结构数据敏感分级模块,用于利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
敏感数据获取模块,用于将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台,接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于数字中台的敏感数据管理方法。
本发明实施例通过用户信息从数字中台中提取业务周期数据集合,利用结构化数据集合中各数据属性的敏感度,并基于敏感度对结构化数据集合进行敏感聚类,再对聚类结果进行敏感数据分级,充分利用了结构化数据的数据属性,提高了对结构化数据中敏感数据识别的准确率及效率。同时,利用预构建的多元业务周期模型可以准确提取不同业务周期类型结构化数据的数据特征,基于平方和梯度下降法对数据特征进行梯度聚类,并对梯度聚类结果进行分级标注,提高了对非结构化数据中敏感数据识别的准确率及效率。并且,利用预构建的异常访问识别模型对用户实时敏感数据访问行为进行异常识别,根据异常识别结果从数字中台中获取敏感数据,从用户的行为出发,可以更准确的进行用户风险识别,从而提高敏感数据的安全性。因此本发明提出的基于数字中台的敏感数据管理方法、装置、电子设备及计算机可读存储介质,可以对数字中台中的敏感数据进行高效管理。
附图说明
图1为本发明一实施例提供的基于数字中台的敏感数据管理方法的流程示意图;
图2为本发明一实施例提供的基于数字中台的敏感数据管理装置的功能模块图;
图3为本发明一实施例提供的实现所述基于数字中台的敏感数据管理方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于数字中台的敏感数据管理方法。所述基于数字中台的敏感数据管理方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于数字中台的敏感数据管理方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于数字中台的敏感数据管理方法的流程示意图。在本实施例中,所述基于数字中台的敏感数据管理方法包括:
S1、获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合。
本发明实施例中,所述预构建的数字中台是指以双平台为核心构建的能力共享、数据共享、业务共享的运营平台,其中,所述双平台包括业务平台及数据平台,所述业务平台是指从业务全链路出发,汇总所有业务周期数据的业务应用中心的运营平台,所述业务应用中心主要包括用户中心、合同中心、交易中心、商品中心、物流中心等。所述数据平台是指统一处理业务平台中的业务数据的数据处理平台,主要进行标签画像、客商运营、风险监控、大屏展示及报表分析等。
详细地,所述获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,包括:
从所述数字中台中的用户中心获取预设数量目标用户的用户信息;
基于所述用户信息提取所述数字中台中用户信息对应的所有业务周期的数据,并利用预构建的业务标签对所述用户信息及对应的所有业务周期的数据进行标记,得到所述目标用户的业务周期数据集合。
本发明一可选实施例中,可以从用户中心中圈选一定数量的需要进行敏感数据管理的目标用户。进一步地,本发明实施例基于所述目标用户的用户信息提取不同业务周期的业务数据,例如,以钢铁等大宗商品交易为核心,基于用户信息提取目标用户在合同中心、交易中心、物流中心等的所有相关数据,并通过预设的业务标签进行标记,得到的业务周期数据包括:“用户中心数据”、“合同中心数据”、“交易中心数据”、“物流中心数据”等。由于数字平台中已经基于业务周期进行数据管理,因此可以方便快捷的通过用户信息提取所有业务周期数据。
本发明实施例中,所述业务周期数据中包括结构化数据集合及非结构化数据集合。其中,所述结构化数据是严格按照数据格式和长度规范由二维表结构逻辑表示和实现的数据,例如用户信息表格。非机构化数据是指无法通过二维表格存储的数据,例如合同文档,订单集合等。
本发明实施例中,由于目标用户的敏感数据主要集中在各业务周期中,而数字中台中包含了全业务流程的周期数据,因此基于目标用户的用户信息从数字中台获取业务周期信息进行敏感数据管理,提高了敏感数据管理的准确性。同时,由于非结构化数据和结构化数据的数据格式差距较大,因此需要分开进行敏感分级。
S2、计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果。
本发明实施例中,所述结构化数据的横向可表示为一条信息集合,记录了每个属性的值,所述结构化数据的纵向表示为数据的属性个数。
详细地,所述计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果,包括:
利用预设的熵值敏感度计算公式计算所述结构化数据集合中各数据属性的敏感度;
利用k-means聚类算法对所述敏感度进行敏感聚类,得到所有数据属性的原始聚类结果;
基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果;
计算所述标准聚类结果中数据属性的互信息值,并基于所述互信息值的大小排序对所述结构化数据集合中的敏感数据进行分级,得到所述结构数据敏感分级结果。
详细地,本发明实施例利用下述熵值敏感度计算公式计算各数据属性的敏感度:
Figure 942762DEST_PATH_IMAGE010
其中,SVi表示第i个数据属性的敏感度,xi表示第i个数据属性,
Figure 603550DEST_PATH_IMAGE011
表示第i个数据属性的最大离散熵,
Figure 683502DEST_PATH_IMAGE012
表示第i个数据属性的熵值,aj表示第i个数据属性中第j个属性值,n表示属性值的个数,
Figure 37123DEST_PATH_IMAGE013
表示第j个属性值的期望概率。
本发明一可选实施例中,敏感度
Figure 835314DEST_PATH_IMAGE014
,越小表示属性越敏感。数据属性的熵值是度量属性无序程度的指标,熵值越大,表示属性越无序,最大离散熵是属性不确定性最大的评价指标,根据数据属性熵值与最大离散熵之间的距离可以确定属性的敏感程度大小,若它们之间的距离越接近,则预示着该属性越敏感,反之越不敏感。例如银行卡号、身份证号码、电话号码这一类属性,它们的所有数据记录值都是唯一的,故其值出现的概率相等,不确定性较高,则这类属性的熵值越大,与最大离散熵之间的距离越小,属性越敏感。
本发明一可选实施例中,所述原始聚类结果包括敏感聚类簇及疑似敏感聚类簇。通过将各数据属性的敏感度看作结构化数据集合中的样本点,通过k-means聚类算法对样本点进行聚类分析,得到两个聚类簇作为原始聚类结果,其中,将敏感度较小的聚类簇作为敏感聚类簇,另一个作为疑似敏感聚类簇。同时,由于此处k-means聚类算法仅将数据属性分成两个聚类簇(即敏感聚类簇及疑似敏感聚类簇),未考虑两个聚类簇中数据属性的关联关系,因此分类不够准确,因此通过Aprior 算法构建关联规则,从而实现敏感数据的准确识别。
具体地,所述基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果,包括:
基于所述Aprior 算法,建立所述疑似敏感聚类簇中数据属性至所述敏感聚类簇中数据属性的关联规则;
重新对关联规则建立成功的数据属性进行敏感度计算,并根据敏感度大小调整敏感聚类簇及疑似敏感聚类簇中的数据属性,将调整后的敏感属性集及非敏感属性集作为所述标准聚类结果。
本发明一可选实施例中,利用Aprior 算法建立起两个数据属性间的关联规则,若建立成功,用关联规则表达式a
Figure 784947DEST_PATH_IMAGE015
b来标记每一条关联规则,表示两个数据属性a、b有关联。k-means聚类算法及Aprior 算法为现有公知技术,在此不再赘述。
具体地,本发明实施例利用下述公式重新对关联规则建立成功的数据属性进行敏感度计算:
Figure 984984DEST_PATH_IMAGE016
其中,
Figure 509506DEST_PATH_IMAGE017
表示成功建立关联规则的第i个数据属性的敏感度,xi表示第i个成功建立关联规则的数据属性,
Figure 529415DEST_PATH_IMAGE018
表示第i个成功建立关联规则的数据属性的最大离散熵,
Figure 797585DEST_PATH_IMAGE019
表示第i个成功建立关联规则的数据属性的条件变化熵,
Figure 361116DEST_PATH_IMAGE020
表示数据属性xi及数据属性xj建立关联规则后的条件熵。
本发明一可选实施例中,可以重新设置敏感度阈值,若重新计算的敏感度大于或等于敏感度阈值,则划分到非敏感属性集,若重新计算的敏感度小于敏感度阈值,则划分到敏感属性集中。
详细地,本发明实施例通过下述公式计算所述标准聚类结果中数据属性的互信息值,包括:
Figure 790961DEST_PATH_IMAGE021
其中,A,B表示敏感属性集中的两个数据属性,n表示数据属性的属性值个数,ai表示数据属性A中第i个属性值,bi表示数据属性B中第i个属性值,
Figure 829324DEST_PATH_IMAGE022
表示ai的先验概率,
Figure 635606DEST_PATH_IMAGE023
表示在bi条件时的后验概率。
本发明一可选实施例中,互信息值表示数据之间的关联程度,若数据属性的关联程度越高,则敏感级别越高,例如,数据属性的互信息值大小排序为:“姓名”、“手机号”、“地址”、“身份证号”、“银行卡号”及“性别”,则可以将“姓名”、“手机号”、“地址”、“身份证号”及“银行卡号”对应的数据作为一级敏感数据,“性别”对应的数据作为二级敏感数据。
本发明实施例中,根据结构化数据表中数据属性的熵与最大离散熵的来度量属性的敏感度,然后通过 k-means 聚类算法对属性敏感度聚类来实现敏感属性的初步识别,接着考虑属性间的关联关系强弱,从而实现敏感属性的分级识别。
S3、利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果。
本发明实施例中,所述预构建的多元业务周期模型包括多个预先训练的子模型,例如根据预设的业务标签的个数构建相应数量的中文语言模型(例如bert , RoBERTa等模型)作为子模型。由于不同业务周期的数据类型不同,例如合同文档、物流订单等,分别通过不同子模型来进行特征提取,从而提高数据特征提取的效率及准确率。
详细地,所述基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果,包括:
对所述数据特征进行特征对齐及特征降维处理,得到标准数据特征;
选取预设个数的标准数据特征作为初始聚类中心,将所有标准数据特征划分至距离最近的初始聚类中心,得到所述预设个数的初始聚类簇;
计算所述预设个数的初始聚类簇的平方和;
依次增加所述初始聚类中心的个数,并返回所述将所有标准数据特征划分至距离最近的初始聚类中心的步骤,直到相邻两次初始聚类簇的平方和的梯度差值大于或等于预设的梯度阈值,并选取所述大于或等于预设的梯度阈值的梯度差值对应的初始聚类簇的初始聚类中心作为标准聚类中心;
基于所述标准聚类中心,利用k-means聚类算法对所有的标准数据特征进行聚类,得到包含多个收敛聚类簇的梯度聚类结果;
利用所述分级标签对所述多个收敛聚类簇进行分级标注,得到所述非结构数据敏感分级结果。
本发明一可选实施例中,对于非结构化数据集合中提取的所有数据特征,可以采用数据分析工具 Pandas 进行特征对齐,以及使用非线性降维的算法 (UniformManifoldApproximation and Projection for dimension reduc-tion,UMAP) 降维数据特征得到标准数据特征集合Q,降低文档特征复杂性,提高聚类准确率。
详细地,本发明实施例可以通过下述公式计算相邻两次初始聚类簇的平方和的梯度差值:
Figure 295388DEST_PATH_IMAGE024
其中,g为所述梯度差值,DK表示K个初始聚类簇的平方和,DK-1表示K-1个初始聚类簇的平方和,Ci表示第i个初始聚类簇,P表示第i个初始聚类簇内的某一个标准数据特征向量,Mi表示第i个初始聚类中心。
本发明实施例中,由于k-means聚类算法难以确定一开始的聚类中心数量,随着K值增加,聚类的聚类簇越来越精细,每个聚类簇的内聚程度会越来越高,平方和也越来越小,当平方和下降梯度急剧下降时,表示类别增加会影响聚类准确度,因此通过平方和梯度下降法进行聚类,能够提高数据聚类的准确率,同时无需人工确定K值,也提高了数据聚类的效率。
本发明实施例中,例如,对于k-means聚类算法聚类得到的多个收敛聚类簇(即梯度聚类结果),可以利用分级标签“高风险”、“中风险”及“低风险”等进行敏感分级标注。
S4、将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台。
本发明实施例中,对于所述结构数据敏感分级结果及所述非结构数据敏感分级结果,可以根据分级设置不同权限并存储至数字中台对应业务应用中心,并通过数据平台进行处理及展示,从而提高数据利用的效率。
S5、接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
本发明实施例中,所述预构建的异常访问识别模型可以为预训练的分类模型,例如,支持向量机、神经网络等模型。所述用户实时敏感数据访问行为是指用户在数字中台中进行登录、文档查询、敏感数据请求等行为。
详细地,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别之前,所述方法还包括:
获取所述数字中台中的历史用户行为记录,利用局部离群因子算法计算所述历史用户行为记录中的离群点集合,并将所述离群点集合中的行为数据作为负样本,将非离群点集合中的行为数据作为正样本;
利用所述正样本及所述负样本训练预构建的神经网络,在所述神经网络的损失值大于预设的损失阈值时,调整所述神经网络中的模型参数,并返回所述利用所述正样本及所述负样本训练预构建的神经网络的步骤,直至损失值小于或等于所述损失阈值时,停止训练,得到所述异常访问识别模型。
本发明一可选实施例中,可以使用终端日志采集器,收集历史用户行为记录,如系统登录、文档操作等行为数据,所述局部离群因子(Local Outlier Factor,LOF)算法首先计算每个数据点的一个局部可达密度,然后通过局部可达密度进一步计算得到每个数据点的一个离群因子,该离群因子即标识了一个数据点的离群程度,因子值越大,表示离群程度越高,因子值越小,表示离群程度越低,最后,输出离群程度最大的top(n)个离群点。所述LOF算法为现有公知技术,在此不再赘述。
本发明一可选实施例中,通过下述损失函数计算损失值:
Figure 427292DEST_PATH_IMAGE025
其中,L表示损失值,
Figure 687373DEST_PATH_IMAGE026
表示正样本的概率,np表示正样本的数量,
Figure 77771DEST_PATH_IMAGE027
表示Sigmoid损失函数,
Figure 841328DEST_PATH_IMAGE028
表示神经网络,
Figure 144133DEST_PATH_IMAGE029
表示第i个正样本,
Figure 157089DEST_PATH_IMAGE030
表示神经网络中的模型参数,
Figure 852643DEST_PATH_IMAGE031
表示负样本的概率,
Figure 736286DEST_PATH_IMAGE031
表示负样本的数量,
Figure 459260DEST_PATH_IMAGE032
表示第i个负样本。
详细地,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据,包括:
利用所述异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别;
若异常识别结果为异常,则利用所述数字中台进行告警;
若异常识别结果为正常,则解析所述用户实时敏感数据访问行为对应的用户权限,基于所述用户权限从所述数字中台中获取敏感数据。
本发明实施例中,通过对用户行为进行异常识别,根据异常识别结果进行敏感数据访问,避免权限泄露导致的敏感数据安全问题,提高了敏感数据管理的安全性。例如,若用户A的实时敏感数据访问行为的异常识别结果为正常,则解析出实时敏感数据访问行为中的敏感数据请求,并根据用户A的权限获取所述敏感数据请求对应的敏感数据。
本发明实施例通过用户信息从数字中台中提取业务周期数据集合,利用结构化数据集合中各数据属性的敏感度,并基于敏感度对结构化数据集合进行敏感聚类,再对聚类结果进行敏感数据分级,充分利用了结构化数据的数据属性,提高了对结构化数据中敏感数据识别的准确率及效率。同时,利用预构建的多元业务周期模型可以准确提取不同业务周期类型结构化数据的数据特征,基于平方和梯度下降法对数据特征进行梯度聚类,并对梯度聚类结果进行分级标注,提高了对非结构化数据中敏感数据识别的准确率及效率。并且,利用预构建的异常访问识别模型对用户实时敏感数据访问行为进行异常识别,根据异常识别结果从数字中台中获取敏感数据,从用户的行为出发,可以更准确的进行用户风险识别,从而提高敏感数据的安全性。因此本发明提出的基于数字中台的敏感数据管理方法,可以对数字中台中的敏感数据进行高效管理。
如图2所示,是本发明一实施例提供的基于数字中台的敏感数据管理装置的功能模块图。
本发明所述基于数字中台的敏感数据管理装置100可以安装于电子设备中。根据实现的功能,所述基于数字中台的敏感数据管理装置100可以包括业务数据提取模块101、结构数据敏感分级模块102、非结构数据敏感分级模块103及敏感数据获取模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述业务数据提取模块101,用于获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
所述结构数据敏感分级模块102,用于计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
所述非结构数据敏感分级模块103,用于利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
所述敏感数据获取模块104,用于将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台,接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
详细地,所述基于数字中台的敏感数据管理装置100各模块的具体实施方式如下:
步骤一、所述业务数据提取模块101获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合。
本发明实施例中,所述预构建的数字中台是指以双平台为核心构建的能力共享、数据共享、业务共享的运营平台,其中,所述双平台包括业务平台及数据平台,所述业务平台是指从业务全链路出发,汇总所有业务周期数据的业务应用中心的运营平台,所述业务应用中心主要包括用户中心、合同中心、交易中心、商品中心、物流中心等。所述数据平台是指统一处理业务平台中的业务数据的数据处理平台,主要进行标签画像、客商运营、风险监控、大屏展示及报表分析等。
详细地,所述获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,包括:
从所述数字中台中的用户中心获取预设数量目标用户的用户信息;
基于所述用户信息提取所述数字中台中用户信息对应的所有业务周期的数据,并利用预构建的业务标签对所述用户信息及对应的所有业务周期的数据进行标记,得到所述目标用户的业务周期数据集合。
本发明一可选实施例中,可以从用户中心中圈选一定数量的需要进行敏感数据管理的目标用户。进一步地,本发明实施例基于所述目标用户的用户信息提取不同业务周期的业务数据,例如,以钢铁等大宗商品交易为核心,基于用户信息提取目标用户在合同中心、交易中心、物流中心等的所有相关数据,并通过预设的业务标签进行标记,得到的业务周期数据包括:“用户中心数据”、“合同中心数据”、“交易中心数据”、“物流中心数据”等。由于数字平台中已经基于业务周期进行数据管理,因此可以方便快捷的通过用户信息提取所有业务周期数据。
本发明实施例中,所述业务周期数据中包括结构化数据集合及非结构化数据集合。其中,所述结构化数据是严格按照数据格式和长度规范由二维表结构逻辑表示和实现的数据,例如用户信息表格。非机构化数据是指无法通过二维表格存储的数据,例如合同文档,订单集合等。
本发明实施例中,由于目标用户的敏感数据主要集中在各业务周期中,而数字中台中包含了全业务流程的周期数据,因此基于目标用户的用户信息从数字中台获取业务周期信息进行敏感数据管理,提高了敏感数据管理的准确性。同时,由于非结构化数据和结构化数据的数据格式差距较大,因此需要分开进行敏感分级。
步骤二、所述结构数据敏感分级模块102计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果。
本发明实施例中,所述结构化数据的横向可表示为一条信息集合,记录了每个属性的值,所述结构化数据的纵向表示为数据的属性个数。
详细地,所述计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果,包括:
利用预设的熵值敏感度计算公式计算所述结构化数据集合中各数据属性的敏感度;
利用k-means聚类算法对所述敏感度进行敏感聚类,得到所有数据属性的原始聚类结果;
基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果;
计算所述标准聚类结果中数据属性的互信息值,并基于所述互信息值的大小排序对所述结构化数据集合中的敏感数据进行分级,得到所述结构数据敏感分级结果。
详细地,本发明实施例利用下述熵值敏感度计算公式计算各数据属性的敏感度:
Figure 428353DEST_PATH_IMAGE033
其中,SVi表示第i个数据属性的敏感度,xi表示第i个数据属性,
Figure 645708DEST_PATH_IMAGE034
表示第i个数据属性的最大离散熵,
Figure 665748DEST_PATH_IMAGE035
表示第i个数据属性的熵值,aj表示第i个数据属性中第j个属性值,n表示属性值的个数,
Figure 575935DEST_PATH_IMAGE036
表示第j个属性值的期望概率。
本发明一可选实施例中,敏感度
Figure 297903DEST_PATH_IMAGE037
,越小表示属性越敏感。数据属性的熵值是度量属性无序程度的指标,熵值越大,表示属性越无序,最大离散熵是属性不确定性最大的评价指标,根据数据属性熵值与最大离散熵之间的距离可以确定属性的敏感程度大小,若它们之间的距离越接近,则预示着该属性越敏感,反之越不敏感。例如银行卡号、身份证号码、电话号码这一类属性,它们的所有数据记录值都是唯一的,故其值出现的概率相等,不确定性较高,则这类属性的熵值越大,与最大离散熵之间的距离越小,属性越敏感。
本发明一可选实施例中,所述原始聚类结果包括敏感聚类簇及疑似敏感聚类簇。通过将各数据属性的敏感度看作结构化数据集合中的样本点,通过k-means聚类算法对样本点进行聚类分析,得到两个聚类簇作为原始聚类结果,其中,将敏感度较小的聚类簇作为敏感聚类簇,另一个作为疑似敏感聚类簇。同时,由于此处k-means聚类算法仅将数据属性分成两个聚类簇(即敏感聚类簇及疑似敏感聚类簇),未考虑两个聚类簇中数据属性的关联关系,因此分类不够准确,因此通过Aprior 算法构建关联规则,从而实现敏感数据的准确识别。
具体地,所述基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果,包括:
基于所述Aprior 算法,建立所述疑似敏感聚类簇中数据属性至所述敏感聚类簇中数据属性的关联规则;
重新对关联规则建立成功的数据属性进行敏感度计算,并根据敏感度大小调整敏感聚类簇及疑似敏感聚类簇中的数据属性,将调整后的敏感属性集及非敏感属性集作为所述标准聚类结果。
本发明一可选实施例中,利用Aprior 算法建立起两个数据属性间的关联规则,若建立成功,用关联规则表达式a
Figure 302637DEST_PATH_IMAGE038
b来标记每一条关联规则,表示两个数据属性a、b有关联。k-means聚类算法及Aprior 算法为现有公知技术,在此不再赘述。
具体地,本发明实施例利用下述公式重新对关联规则建立成功的数据属性进行敏感度计算:
Figure 160872DEST_PATH_IMAGE039
其中,
Figure 710802DEST_PATH_IMAGE040
表示成功建立关联规则的第i个数据属性的敏感度,xi表示第i个成功建立关联规则的数据属性,
Figure 654487DEST_PATH_IMAGE041
表示第i个成功建立关联规则的数据属性的最大离散熵,
Figure 964377DEST_PATH_IMAGE042
表示第i个成功建立关联规则的数据属性的条件变化熵,
Figure 411539DEST_PATH_IMAGE043
表示数据属性xi及数据属性xj建立关联规则后的条件熵。
本发明一可选实施例中,可以重新设置敏感度阈值,若重新计算的敏感度大于或等于敏感度阈值,则划分到非敏感属性集,若重新计算的敏感度小于敏感度阈值,则划分到敏感属性集中。
详细地,本发明实施例通过下述公式计算所述标准聚类结果中数据属性的互信息值,包括:
Figure 397949DEST_PATH_IMAGE044
其中,A,B表示敏感属性集中的两个数据属性,n表示数据属性的属性值个数,ai表示数据属性A中第i个属性值,bi表示数据属性B中第i个属性值,
Figure 563351DEST_PATH_IMAGE045
表示ai的先验概率,
Figure 660620DEST_PATH_IMAGE046
表示在bi条件时的后验概率。
本发明一可选实施例中,互信息值表示数据之间的关联程度,若数据属性的关联程度越高,则敏感级别越高,例如,数据属性的互信息值大小排序为:“姓名”、“手机号”、“地址”、“身份证号”、“银行卡号”及“性别”,则可以将“姓名”、“手机号”、“地址”、“身份证号”及“银行卡号”对应的数据作为一级敏感数据,“性别”对应的数据作为二级敏感数据。
本发明实施例中,根据结构化数据表中数据属性的熵与最大离散熵的来度量属性的敏感度,然后通过 k-means 聚类算法对属性敏感度聚类来实现敏感属性的初步识别,接着考虑属性间的关联关系强弱,从而实现敏感属性的分级识别。
步骤三、所述非结构数据敏感分级模块103利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果。
本发明实施例中,所述预构建的多元业务周期模型包括多个预先训练的子模型,例如根据预设的业务标签的个数构建相应数量的中文语言模型(例如bert , RoBERTa等模型)作为子模型。由于不同业务周期的数据类型不同,例如合同文档、物流订单等,分别通过不同子模型来进行特征提取,从而提高数据特征提取的效率及准确率。
详细地,所述基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果,包括:
对所述数据特征进行特征对齐及特征降维处理,得到标准数据特征;
选取预设个数的标准数据特征作为初始聚类中心,将所有标准数据特征划分至距离最近的初始聚类中心,得到所述预设个数的初始聚类簇;
计算所述预设个数的初始聚类簇的平方和;
依次增加所述初始聚类中心的个数,并返回所述将所有标准数据特征划分至距离最近的初始聚类中心的步骤,直到相邻两次初始聚类簇的平方和的梯度差值大于或等于预设的梯度阈值,并选取所述大于或等于预设的梯度阈值的梯度差值对应的初始聚类簇的初始聚类中心作为标准聚类中心;
基于所述标准聚类中心,利用k-means聚类算法对所有的标准数据特征进行聚类,得到包含多个收敛聚类簇的梯度聚类结果;
利用所述分级标签对所述多个收敛聚类簇进行分级标注,得到所述非结构数据敏感分级结果。
本发明一可选实施例中,对于非结构化数据集合中提取的所有数据特征,可以采用数据分析工具 Pandas 进行特征对齐,以及使用非线性降维的算法 (UniformManifoldApproximation and Projection for dimension reduc-tion,UMAP) 降维数据特征得到标准数据特征集合Q,降低文档特征复杂性,提高聚类准确率。
详细地,本发明实施例可以通过下述公式计算相邻两次初始聚类簇的平方和的梯度差值:
Figure 962289DEST_PATH_IMAGE047
其中,g为所述梯度差值,DK表示K个初始聚类簇的平方和,DK-1表示K-1个初始聚类簇的平方和,Ci表示第i个初始聚类簇,P表示第i个初始聚类簇内的某一个标准数据特征向量,Mi表示第i个初始聚类中心。
本发明实施例中,由于k-means聚类算法难以确定一开始的聚类中心数量,随着K值增加,聚类的聚类簇越来越精细,每个聚类簇的内聚程度会越来越高,平方和也越来越小,当平方和下降梯度急剧下降时,表示类别增加会影响聚类准确度,因此通过平方和梯度下降法进行聚类,能够提高数据聚类的准确率,同时无需人工确定K值,也提高了数据聚类的效率。
本发明实施例中,例如,对于k-means聚类算法聚类得到的多个收敛聚类簇(即梯度聚类结果),可以利用分级标签“高风险”、“中风险”及“低风险”等进行敏感分级标注。
步骤四、所述敏感数据获取模块104将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台。
本发明实施例中,对于所述结构数据敏感分级结果及所述非结构数据敏感分级结果,可以根据分级设置不同权限并存储至数字中台对应业务应用中心,并通过数据平台进行处理及展示,从而提高数据利用的效率。
步骤五、所述敏感数据获取模块104接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
本发明实施例中,所述预构建的异常访问识别模型可以为预训练的分类模型,例如,支持向量机、神经网络等模型。所述用户实时敏感数据访问行为是指用户在数字中台中进行登录、文档查询、敏感数据请求等行为。
详细地,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别之前,所述方法还包括:
获取所述数字中台中的历史用户行为记录,利用局部离群因子算法计算所述历史用户行为记录中的离群点集合,并将所述离群点集合中的行为数据作为负样本,将非离群点集合中的行为数据作为正样本;
利用所述正样本及所述负样本训练预构建的神经网络,在所述神经网络的损失值大于预设的损失阈值时,调整所述神经网络中的模型参数,并返回所述利用所述正样本及所述负样本训练预构建的神经网络的步骤,直至损失值小于或等于所述损失阈值时,停止训练,得到所述异常访问识别模型。
本发明一可选实施例中,可以使用终端日志采集器,收集历史用户行为记录,如系统登录、文档操作等行为数据,所述局部离群因子(Local Outlier Factor,LOF)算法首先计算每个数据点的一个局部可达密度,然后通过局部可达密度进一步计算得到每个数据点的一个离群因子,该离群因子即标识了一个数据点的离群程度,因子值越大,表示离群程度越高,因子值越小,表示离群程度越低,最后,输出离群程度最大的top(n)个离群点。所述LOF算法为现有公知技术,在此不再赘述。
本发明一可选实施例中,通过下述损失函数计算损失值:
Figure 640307DEST_PATH_IMAGE048
其中,L表示损失值,
Figure 27426DEST_PATH_IMAGE049
表示正样本的概率,
Figure 928385DEST_PATH_IMAGE050
表示正样本的数量,S()表示Sigmoid损失函数,f()表示神经网络,
Figure 615719DEST_PATH_IMAGE051
表示第i个正样本,
Figure 429085DEST_PATH_IMAGE052
表示神经网络中的模型参数,
Figure 569079DEST_PATH_IMAGE053
表示负样本的概率,
Figure 742572DEST_PATH_IMAGE053
表示负样本的数量,
Figure 284412DEST_PATH_IMAGE054
表示第i个负样本。
详细地,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据,包括:
利用所述异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别;
若异常识别结果为异常,则利用所述数字中台进行告警;
若异常识别结果为正常,则解析所述用户实时敏感数据访问行为对应的用户权限,基于所述用户权限从所述数字中台中获取敏感数据。
本发明实施例中,通过对用户行为进行异常识别,根据异常识别结果进行敏感数据访问,避免权限泄露导致的敏感数据安全问题,提高了敏感数据管理的安全性。例如,若用户A的实时敏感数据访问行为的异常识别结果为正常,则解析出实时敏感数据访问行为中的敏感数据请求,并根据用户A的权限获取所述敏感数据请求对应的敏感数据。
本发明实施例通过用户信息从数字中台中提取业务周期数据集合,利用结构化数据集合中各数据属性的敏感度,并基于敏感度对结构化数据集合进行敏感聚类,再对聚类结果进行敏感数据分级,充分利用了结构化数据的数据属性,提高了对结构化数据中敏感数据识别的准确率及效率。同时,利用预构建的多元业务周期模型可以准确提取不同业务周期类型结构化数据的数据特征,基于平方和梯度下降法对数据特征进行梯度聚类,并对梯度聚类结果进行分级标注,提高了对非结构化数据中敏感数据识别的准确率及效率。并且,利用预构建的异常访问识别模型对用户实时敏感数据访问行为进行异常识别,根据异常识别结果从数字中台中获取敏感数据,从用户的行为出发,可以更准确的进行用户风险识别,从而提高敏感数据的安全性。因此本发明提出的基于数字中台的敏感数据管理装置,可以对数字中台中的敏感数据进行高效管理。
如图3所示,是本发明一实施例提供的实现所述基于数字中台的敏感数据管理方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于数字中台的敏感数据管理程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于数字中台的敏感数据管理程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于数字中台的敏感数据管理程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
所述总线13可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的基于数字中台的敏感数据管理程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台;
接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台;
接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于数字中台的敏感数据管理方法,其特征在于,所述方法包括:
获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台;
接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
2.如权利要求1中所述的基于数字中台的敏感数据管理方法,其特征在于,所述计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果,包括:
利用预设的熵值敏感度计算公式计算所述结构化数据集合中各数据属性的敏感度;
利用k-means聚类算法对所述敏感度进行敏感聚类,得到所有数据属性的原始聚类结果;
基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果;
计算所述标准聚类结果中数据属性的互信息值,并基于所述互信息值的大小排序对所述结构化数据集合中的敏感数据进行分级,得到所述结构数据敏感分级结果。
3.如权利要求2所述的基于数字中台的敏感数据管理方法,其特征在于,所述原始聚类结果包括敏感聚类簇及疑似敏感聚类簇,以及所述基于Aprior 算法构建所述原始聚类结果中数据属性的关联规则,并基于构建成功的关联规则对所述原始聚类结果重新进行划分,得到标准聚类结果,包括:
基于所述Aprior 算法,建立所述疑似敏感聚类簇中数据属性至所述敏感聚类簇中数据属性的关联规则;
重新对关联规则建立成功的数据属性进行敏感度计算,并根据敏感度大小调整敏感聚类簇及疑似敏感聚类簇中的数据属性,将调整后的敏感属性集及非敏感属性集作为所述标准聚类结果。
4.如权利要求3所述的基于数字中台的敏感数据管理方法,其特征在于,所述重新对关联规则建立成功的数据属性进行敏感度计算,包括:
利用下述公式计算敏感度:
Figure 732531DEST_PATH_IMAGE001
其中,
Figure 625401DEST_PATH_IMAGE002
表示成功建立关联规则的第i个数据属性的敏感度,xi表示第i个成功建立关联规则的数据属性,
Figure 602584DEST_PATH_IMAGE003
表示第i个成功建立关联规则的数据属性的最大离散熵,
Figure 264510DEST_PATH_IMAGE004
表示第i个成功建立关联规则的数据属性的条件变化熵,
Figure 183793DEST_PATH_IMAGE005
表示数据属性xi及数据属性xj建立关联规则后的条件熵。
5.如权利要求2所述的基于数字中台的敏感数据管理方法,其特征在于,所述计算所述标准聚类结果中数据属性的互信息值,包括:
通过下述公式计算互信息值:
Figure 32800DEST_PATH_IMAGE006
其中,A,B表示敏感属性集中的两个数据属性,n表示数据属性的属性值个数,ai表示数据属性A中第i个属性值,bi表示数据属性B中第i个属性值,
Figure 813674DEST_PATH_IMAGE007
表示ai的先验概率,
Figure 330106DEST_PATH_IMAGE008
表示在bi条件时的后验概率。
6.如权利要求1所述的基于数字中台的敏感数据管理方法,其特征在于,所述基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果,包括:
对所述数据特征进行特征对齐及特征降维处理,得到标准数据特征;
选取预设个数的标准数据特征作为初始聚类中心,将所有标准数据特征划分至距离最近的初始聚类中心,得到所述预设个数的初始聚类簇;
计算所述预设个数的初始聚类簇的平方和;
依次增加所述初始聚类中心的个数,并返回所述将所有标准数据特征划分至距离最近的初始聚类中心的步骤,直到相邻两次初始聚类簇的平方和的梯度差值大于或等于预设的梯度阈值,并选取所述大于或等于预设的梯度阈值的梯度差值对应的初始聚类簇的初始聚类中心作为标准聚类中心;
基于所述标准聚类中心,利用k-means聚类算法对所有的标准数据特征进行聚类,得到包含多个收敛聚类簇的梯度聚类结果;
利用所述分级标签对所述多个收敛聚类簇进行分级标注,得到所述非结构数据敏感分级结果。
7.如权利要求6所述的基于数字中台的敏感数据管理方法,其特征在于,该方法还包括:
通过下述公式计算相邻两次初始聚类簇的平方和的梯度差值:
Figure 921756DEST_PATH_IMAGE009
其中,g为所述梯度差值,Dk表示K个初始聚类簇的平方和,Dk-1表示(K-1)个初始聚类簇的平方和,Ci表示第i个初始聚类簇,P表示第i个初始聚类簇内的某一个标准数据特征向量,Mi表示第i个初始聚类中心。
8.如权利要求1-6中任一项所述的基于数字中台的敏感数据管理方法,其特征在于,所述利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别之前,所述方法还包括:
获取所述数字中台中的历史用户行为记录,利用局部离群因子算法计算所述历史用户行为记录中的离群点集合,并将所述离群点集合中的行为数据作为负样本,将非离群点集合中的行为数据作为正样本;
利用所述正样本及所述负样本训练预构建的神经网络,在所述神经网络的损失值大于预设的损失阈值时,调整所述神经网络中的模型参数,并返回所述利用所述正样本及所述负样本训练预构建的神经网络的步骤,直至损失值小于或等于所述损失阈值时,停止训练,得到所述异常访问识别模型。
9.一种基于数字中台的敏感数据管理装置,其特征在于,所述装置包括:
业务数据提取模块,用于获取预构建的数字中台中的用户信息,基于所述用户信息从所述数字中台中提取业务周期数据集合,其中,所述业务周期数据集合包括结构化数据集合及非结构化数据集合;
结构数据敏感分级模块,用于计算所述结构化数据集合中各数据属性的敏感度,基于所述敏感度对所述结构化数据集合进行敏感聚类,并对聚类结果进行敏感数据分级,得到结构数据敏感分级结果;
非结构数据敏感分级模块,用于利用预构建的多元业务周期模型提取所述非结构化数据集合中的数据特征,基于平方和梯度下降法对所述数据特征进行梯度聚类,并利用预设的分级标签对梯度聚类结果进行分级标注,得到非结构数据敏感分级结果;
敏感数据获取模块,用于将所述结构数据敏感分级结果及所述非结构数据敏感分级结果存储至所述数字中台,接收用户实时敏感数据访问行为,利用预构建的异常访问识别模型对所述用户实时敏感数据访问行为进行异常识别,根据异常识别结果从所述数字中台中获取敏感数据。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的基于数字中台的敏感数据管理方法。
CN202210997587.2A 2022-08-19 2022-08-19 基于数字中台的敏感数据管理方法、装置及电子设备 Pending CN115081025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210997587.2A CN115081025A (zh) 2022-08-19 2022-08-19 基于数字中台的敏感数据管理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210997587.2A CN115081025A (zh) 2022-08-19 2022-08-19 基于数字中台的敏感数据管理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115081025A true CN115081025A (zh) 2022-09-20

Family

ID=83245111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210997587.2A Pending CN115081025A (zh) 2022-08-19 2022-08-19 基于数字中台的敏感数据管理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115081025A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796206A (zh) * 2023-06-27 2023-09-22 北京中科聚网信息技术有限公司 基于一体化平台的运营数据处理方法及系统
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统
CN117540008A (zh) * 2024-01-09 2024-02-09 中国邮电器材集团有限公司 一种合同异常数据风险智能分析方法
CN117992809A (zh) * 2024-04-07 2024-05-07 江苏开博科技有限公司 一种用于银行多数据库运维信息的分级防护方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796290A (zh) * 2015-04-24 2015-07-22 广东电网有限责任公司信息中心 一种数据安全管控方法及平台
CN110134719A (zh) * 2019-05-17 2019-08-16 贵州大学 一种结构化数据敏感属性的识别与分类分级方法
CN110377605A (zh) * 2019-07-24 2019-10-25 贵州大学 一种结构化数据的敏感属性识别与分类分级方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104796290A (zh) * 2015-04-24 2015-07-22 广东电网有限责任公司信息中心 一种数据安全管控方法及平台
CN110134719A (zh) * 2019-05-17 2019-08-16 贵州大学 一种结构化数据敏感属性的识别与分类分级方法
CN110377605A (zh) * 2019-07-24 2019-10-25 贵州大学 一种结构化数据的敏感属性识别与分类分级方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
何文竹: "面向结构化数据集的敏感属性识别与分级算法", 《计算机应用研究》 *
刘忠雨等: "《深入浅出图神经网络 GNN原理解析》", 31 January 2020 *
喻波等: "非结构化文档敏感数据识别与异常行为分析", 《智能系统学报》 *
程东东等: "《基于自然邻居的聚类分析和离群检测算法研究》", 30 November 2019 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796206A (zh) * 2023-06-27 2023-09-22 北京中科聚网信息技术有限公司 基于一体化平台的运营数据处理方法及系统
CN116796206B (zh) * 2023-06-27 2024-04-16 北京中科聚网信息技术有限公司 基于一体化平台的运营数据处理方法及系统
CN116956097A (zh) * 2023-09-18 2023-10-27 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统
CN116956097B (zh) * 2023-09-18 2023-12-12 湖南华菱电子商务有限公司 基于K-means的专家画像分析方法及系统
CN117540008A (zh) * 2024-01-09 2024-02-09 中国邮电器材集团有限公司 一种合同异常数据风险智能分析方法
CN117540008B (zh) * 2024-01-09 2024-04-05 中国邮电器材集团有限公司 一种合同异常数据风险智能分析方法
CN117992809A (zh) * 2024-04-07 2024-05-07 江苏开博科技有限公司 一种用于银行多数据库运维信息的分级防护方法

Similar Documents

Publication Publication Date Title
CN115081025A (zh) 基于数字中台的敏感数据管理方法、装置及电子设备
CN113592019B (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN112883190A (zh) 文本分类方法、装置、电子设备及存储介质
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN115002200A (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN114612194A (zh) 产品推荐方法、装置、电子设备及存储介质
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN114781832A (zh) 课程推荐方法、装置、电子设备及存储介质
CN113313211B (zh) 文本分类方法、装置、电子设备及存储介质
CN117155771B (zh) 一种基于工业物联网的设备集群故障溯源方法及装置
CN111460293B (zh) 信息推送方法、装置及计算机可读存储介质
CN114708073B (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN113221888B (zh) 车牌号管理系统测试方法、装置、电子设备及存储介质
CN115168848A (zh) 基于大数据分析拦截的拦截反馈处理方法
CN114996386A (zh) 业务角色识别方法、装置、设备及存储介质
CN113888265A (zh) 产品推荐方法、装置、设备及计算机可读存储介质
CN113706019A (zh) 基于多维数据的业务能力分析方法、装置、设备及介质
CN113704407A (zh) 基于类别分析的投诉量分析方法、装置、设备及存储介质
CN113486646A (zh) 产品报告发布方法、装置、电子设备及可读存储介质
CN114781833B (zh) 基于业务人员的能力测评方法、装置、设备及存储介质
CN116991364B (zh) 基于大数据的软件开发系统管理方法
CN113486266B (zh) 页面标签添加方法、装置、设备及存储介质
CN114723488B (zh) 课程推荐方法、装置、电子设备及存储介质
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220920

RJ01 Rejection of invention patent application after publication