CN114969467A - 数据分析分类方法、装置、计算机设备及存储介质 - Google Patents
数据分析分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114969467A CN114969467A CN202210396257.8A CN202210396257A CN114969467A CN 114969467 A CN114969467 A CN 114969467A CN 202210396257 A CN202210396257 A CN 202210396257A CN 114969467 A CN114969467 A CN 114969467A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- result
- analysis
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了数据分析分类方法、装置、计算机设备及存储介质。所述方法包括:从企业数据源中提取数据对象属性;从企业数据源获取数据对象属性对应的数据内容;对所述数据内容进行识别以及分析,以得到分析结果;依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;根据所述归类结果生成数据对象可视化的分类分级报告。通过实施本发明实施例的方法可实现对企业数据进行识别、分析和分类,进而理清企业数据资产。
Description
技术领域
本发明涉及数据处理方法,更具体地说是指数据分析分类方法、装置、计算机设备及存储介质。
背景技术
当前正处于数字化变革时代,企业需要不断挖掘和利用数据,以其为核心展开商业运营从而创造价值带来营收。此时的数据已经转换成了数据资产,即企业拥有或控制的能在未来带来经济利益的数据资源。在数据资产化过程中,很多企业特别是中小型企业都会存在关于数据的很多困惑,一方面所有的企业都期望通过利用数据去变现去创造价值,同时又由于对自身数据的掌握和了解不够,无法将企业本身的数据创造出应有的价值。
企业内部的暗数据存在着巨大的潜在价值,但是在数据资产化过程中因为人、工具和技术的限制造成了很多的困难,数据孤岛的存在无法捕获全部信息、只依靠人力资源无法挖掘大量数据背后的联系和含义、缺乏高效和正确的数据处理工具从而难以便捷的获取大量数据的价值。
企业在发展过程中,业务种类不断增加,数据呈现出复杂性高、多样性强的特点。这就需要企业对数据进行分类分级,从而全面梳理企业拥有的数据资产,保障重要数据的安全。但是,现有的企业数据复杂性高、多样性强,现有技术并无法对其进行重要数据和敏感数据采用适当、合理的管理和安全防护措施及对数据资产进行规范化管理和保护,更加无法理清企业数据资产。
因此,有必要设计一种新的方法,实现对企业数据进行识别、分析和分类,进而理清企业数据资产。
发明内容
本发明的目的在于克服现有技术的缺陷,提供数据分析分类方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:数据分析分类方法,包括:
从企业数据源中提取数据对象属性;
从企业数据源获取数据对象属性对应的数据内容;
对所述数据内容进行识别以及分析,以得到分析结果;
依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;
根据所述归类结果生成数据对象可视化的分类分级报告。
其进一步技术方案为:所述数据对象属性包括数据的结构信息、表注释以及表关联关系。
其进一步技术方案为:所述从企业数据源获取数据对象属性对应的数据内容,包括:
按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容;
将所述数据内容保存在内存中。
其进一步技术方案为:所述对所述数据内容进行识别以及分析,以得到分析结果,包括:
初始化数据识别引擎;
通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
其进一步技术方案为:所述自动化识别算法对应的公式为Sn=(∑Fi(i=1→m),k),其中,Sn为第n个数据内容的分析结果;Fi表示识别引擎中的第i个自动化识别算法,默认自动化识别算法的个数为m;k为大于1的自然数,表示当前数据内容对应的分析结果的最小子集大小。
其进一步技术方案为:所述依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果,包括:
获取预设的分类分级标准策略配置表;
根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
其进一步技术方案为:所述根据所述归类结果生成数据对象可视化的分类分级报告,包括:
根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果;
根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
本发明还提供了数据分析分类装置,包括:
属性提取单元,用于从企业数据源中提取数据对象属性;
数据内容获取单元,用于从企业数据源获取数据对象属性对应的数据内容;
分析单元,用于对所述数据内容进行识别以及分析,以得到分析结果;
归类单元,用于依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;
报告生成单元,用于根据所述归类结果生成数据对象可视化的分类分级报告。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过从企业数据源内提取数据对象属性,再根据该属性获取对应的数据内容,对数据内容进行识别、分析和归类,并将归类结果采用可视化技术处理为数据对象可视化的分类分级报告,实现对企业数据进行识别、分析和分类,进而理清企业数据资产。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据分析分类方法的应用场景示意图;
图2为本发明实施例提供的数据分析分类方法的流程示意图;
图3为本发明实施例提供的数据分析分类方法的子流程示意图;
图4为本发明实施例提供的数据分析分类方法的子流程示意图;
图5为本发明实施例提供的数据分析分类方法的子流程示意图;
图6为本发明实施例提供的数据分析分类方法的子流程示意图;
图7为本发明实施例提供的数据分析分类装置的示意性框图;
图8为本发明实施例提供的数据分析分类装置的数据内容获取单元的示意性框图;
图9为本发明实施例提供的数据分析分类装置的分析单元的示意性框图;
图10为本发明实施例提供的数据分析分类装置的归类单元的示意性框图;
图11为本发明实施例提供的数据分析分类装置的报告生成单元的示意性框图;
图12为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的数据分析分类方法的应用场景示意图。图2为本发明实施例提供的数据分析分类方法的示意性流程图。该数据分析分类方法应用于服务器中。该服务器与终端进行数据交互,通过从企业数据源内提取不同的属性,再根据属性提取对应的数据内容,对数据内容进行识别分析和归类,再将归类结果生成报告,呈现在终端上,实现对企业数据进行识别、分析和分类,进而理清企业数据资产。
图2是本发明实施例提供的数据分析分类方法的流程示意图。如图2所示,该方法包括以下步骤S110至S150。
S110、从企业数据源中提取数据对象属性。
在本实施例中,数据对象属性包括数据的结构信息、表注释以及表关联关系。
具体地,可通过终端选择数据源类型填写连接信息,将企业内部的数据库、大数据平台或者云数据库等添加为系统数据源进行统一管理,支持手动添加、批量导入、数据源发现三种方式。根据数据源信息连接对应的数据源,从数据源中获取数据对象属性放入一个集合中。
数据的结构信息包括数据字段的名字、长度、类型、注释。
S120、从企业数据源获取数据对象属性对应的数据内容。
在本实施例中,数据内容是指数据对象属性对应的数据。
在一实施例中,请参阅图3,上述的步骤S120可包括步骤S121~S122。
S121、按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容。
S122、将所述数据内容保存在内存中。
根据数据对象属性将归属于该属性的数据对象对应的所有数据内容调取出来,以保存在内存内,进行下一步的分析。
S130、对所述数据内容进行识别以及分析,以得到分析结果。
在本实施例中,分析结果是指对数据内容进行识别分析,以确定对应的分类和分级信息。
在一实施例中,请参阅图4,上述的步骤S130可包括步骤S131~S132。
S131、初始化数据识别引擎。
在本实施例中,加载系统预置的自动化识别算法,初始化数据识别引擎。
S132、通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
所述自动化识别算法对应的公式为Sn=(∑Fi(i=1→m),k),其中,Sn为第n个数据内容的分析结果;Fi表示识别引擎中的第i个自动化识别算法,默认自动化识别算法的个数为m;k为大于1的自然数,表示当前数据内容对应的分析结果的最小子集大小。
通过数据识别引擎完成数据内容的识别后,会自动输出对应的分类和分级信息,实现对数据的分类和分级,明确数据按照业务的分类情况、按照重要程度和敏感程度的分级情况。
具体地,根据内置的数据标准,可以实现自动识别数据格式,在此基础之上,通过自然语言处理、特征分析等方法对扫描过的数据进行语义内容识别,分析字段的业务类型。
在完成字段业务类型的识别后,会自动输出对应的分类和分级信息,实现对数据的分类和分级,明确数据按照业务的分类情况、按照重要程度和敏感程度的分级情况。
具体地,上述的步骤S132的具体实现流程如下:对数据内容进行行业模板的表名、字段名进行精准匹配,字段名和字段注释匹配包括精确、模糊和正则,字段属性特征分析、数值和字符串以及日期的判断,若上述内容均成功,则可确定数据内容的类型;若没有均成,则进行数据内容的特征分析,确定是否是脏数据:数据内容条数不大于2;空数据:无数据内容;重复总数占比小于0.%且数据总行数不大于1000,则表明数据内容是字典表,并采用内容匹配的正则、字典和精准处理后,确定数据内容的类型,否则数据内容无法识别成功;重复复总数占比大于60%且数据内容是非数字,则数据内容属于字典表,并采用内容匹配的正则、字典和精准处理后,确定数据内容的类型,当内容匹配的正则、字典和精准处理无法成功时,则表明无法识别出数据内容的类型,同样的,重复复总数占比不大于60%或数据内容不是非数字,则表明无法识别出数据内容的类型;当数据内容是字符串类型且为正整数时,根据前缀判断确定可配置正则,当无法进行内容正则匹配时,生成自动正则,当可进行内容正则匹配时,则可确定数据内容的类型;当数据内容是整型时,样本连续比例不小于50%时,可根据数据库主键ID确定数据类型,当数据内容不是整型、或者样本连续比例小于50%,则表明无法识别数据内容。
S140、依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果。
在本实施例中,归类结果是指分析结果对应的资产类别。
在一实施例中,请参阅图5,上述的步骤S140可包括步骤S141~S142。
S141、获取预设的分类分级标准策略配置表。
在本实施例中,分类分级标准策略配置表是指企业数据分类和分级的标准。
具体地,通过对多个行业的分类分级标准的解读、整理,内置为系统的数据分类分级发现模版,能够实现对多个行业的自动分类分级梳理,包括医疗、金融、政府等多个行业模板;识别方法开始是依赖用户选择的行业模板,生成分类分级标准策略配置表。
S142、根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
在本实施例中,基于分析结果得出在分类分级标准中的输出结果,公式如下:Ln=(∑Cj(j=1→d),Sn);其中,Ln表示第n个样本的分类分级结果,Sn表示上一步S322的结果;Cj表示分类分级标准的第i个识别算法,d大于1的正整数表述算法个数。
具体的流程为:判断当前数据内容的分析结果内的敏感类型是否是配置过的分类分级信息,若否,则不存在分类,若是,则从配置表内读取分类分级结果。
S150、根据所述归类结果生成数据对象可视化的分类分级报告。
在一实施例中,分类分级报告是指敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果按照图形插件渲染形成的报告。
在一实施例中,请参阅图6,上述的步骤S150可包括步骤S151~S152。
S151、根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果。
在本实施例中,处理结果是指敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果。
具体地,采用以下公式进行处理:Rn=(∑Fx(x=1→t),Ln);其中,Rn表示第n个样本的分类分级报表,Ln表示归类结果;Fx表示报表生成函数,t大于1的正整数表示函数个数。
S152、根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
数据分类分级完成后会生成相应的数据分类分级报告,包括数据总览、数据分类统计、业务类型数量排序、数据分级统计等,通过可视化报表的方式帮助用户直观了解到数据分类和分级的信息。
本实施例的方法通过认识数据,识别数据格式和业务含义,并根据分类分级标准实现数据的分类分级,最终生成完整、多维、可视化的分析报告,帮助企业快速了解和认识数据,为企业开展数据资产管理、数据安全治理、数据安全防护等提供基础。能够对多种数据源进行接入和元数据扫描,按照发现模板对数据进行发现和分析,帮助用户将不可理解的数据自动化、智能化的转化为可认知的、分类有序的数据。支持全面捕获扫描数据、智能解析数据类型和含义、自动化分类分级,并以可视化的方式呈现资产发现和分类分级最终成果,支持用户对发现结果进行确认并同步到资产发现总览和分类分级总览。
在服务器内置了机器学习模型和丰富的语义资料,在面对不同行业多样化的数据时,可以自动适配进行分析、归类。可发现数据含义,将用户不理解的看似无用的数据变成分类完善、容易理解、有业务价值的数据,并通过可视化的方式呈现,将最基础的数据变成了优质的数字资产。对数据有一个更直观、清晰的认识,也可以对优质的数字资产进行数据分析、数据业务等更多的运用,从数据认识数据,实现暗数据资产化,扩大企业数据资产规模,在数据资产梳理的基础上更大程度的发挥企业数据价值。缩短数据建设周期,降低数据利用成本。数据自动化分类分级,满足政策和合规要求。
举个例子:从数据源即数据库、大数据平台或者云数据库中提取元数据对象,以数据库表作为维度,包括表格字段如名字、长度、类型、注释等信息、表注释和表的关联关系;具体地,根据用户提供的数据库ip地址,端口,用户名,密码等信息通过jdbc方式连接对应的数据源,jdbc是一个独立于特定数据库管理系统、通用的SQL数据库存取和操作的公共接口,执行sql语句查询数据库系统表获取S1中描述的元数据对象,并放入一个集合中。将上述的结果集按照表结构字段类型、字段注释、字段内容(抽取10条样本)3个类型做分类,并在系统内存进行存储;根据数据源信息连接对应的数据源,按照元数据对象信息分类按照表结构字段类型、字段注释、字段内容归类;将获取到的数据内容保存在内存中。对内存中的数据进行识别、分析,具体地,读取缓存在内存中的数据内容;依据自动化识别算法解析识别当前内容,得出分析结果,加载系统预置的自动化识别算法,初始化数据识别引擎;数据内容通过识别引擎,进行相关算法识别分析,公式如下:Sn=(∑Fi(i=1→m),k);其中,Sn表示第n个样本的识别结果;Fi表示识别引擎中的第i个识别算法,默认算法个数m;k大于1的自然数,表示当前样本识别结果的最小子集大小。依据分类分级标准对分析结果进行数据资产归类,具体地,读取分类分级标准策略配置表,通过对多个行业的分类分级标准的解读、整理,内置为系统的数据分类分级发现模版,能够实现对多个行业的自动分类分级梳理,包括医疗、金融、政府等多个行业模板;识别方法开始是依赖用户选择的行业模板,生成分类分级标准策略配置表;基于上一个步骤的识别结果集合,得出在分类分级标准中的输出结果,公式如下:Ln=(∑Cj(j=1→d),Sn),其中,Ln表示第n个样本的分类分级结果,Sn表示上一步的结果;Cj表示分类分级标准的第i个匹配算法,d大于1的正整数表述算法个数;生成数据对象可视化的分类分级报告,具体地,根据上一步骤结果生成分类分级报告,公式如下:Rn=(∑Fx(x=1→t),Ln),其中,Rn表示第n个样本的分类分级报告,Ln表示上一步S42的结果;x表示报告生成函数,t大于1的正整数表示函数个数;
通过本实施例的方法对数据有一个更直观、清晰的认识,也可以对优质的数字资产进行数据分析、数据业务等更多的运用,从数据认识数据,实现暗数据资产化,扩大企业数据资产规模,在数据资产梳理的基础上更大程度的发挥企业数据价值。
上述的数据分析分类方法,通过从企业数据源内提取数据对象属性,再根据该属性获取对应的数据内容,对数据内容进行识别、分析和归类,并将归类结果采用可视化技术处理为数据对象可视化的分类分级报告,实现对企业数据进行识别、分析和分类,进而理清企业数据资产。
图7是本发明实施例提供的一种数据分析分类装置300的示意性框图。如图7所示,对应于以上数据分析分类方法,本发明还提供一种数据分析分类装置300。该数据分析分类装置300包括用于执行上述数据分析分类方法的单元,该装置可以被配置于服务器中。具体地,请参阅图7,该数据分析分类装置300包括属性提取单元301、数据内容获取单元302、分析单元303、归类单元304以及报告生成单元305。
属性提取单元301,用于从企业数据源中提取数据对象属性;数据内容获取单元302,用于从企业数据源获取数据对象属性对应的数据内容;分析单元303,用于对所述数据内容进行识别以及分析,以得到分析结果;归类单元304,用于依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;报告生成单元305,用于根据所述归类结果生成数据对象可视化的分类分级报告。
在一实施例中,如图8所示,所述数据内容获取单元302包括内容获取子单元3021以及内存保存子单元3022。
内容获取子单元3021,用于按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容;内存保存子单元3022,用于将所述数据内容保存在内存中。
在一实施例中,如图9所示,所述分析单元303包括初始化子单元3031以及内容处理子单元3032。
初始化子单元3031,用于初始化数据识别引擎;内容处理子单元3032,用于通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
在一实施例中,如图10所示,所述归类单元304包括配置表获取子单元3041以及结果归类子单元3042。
配置表获取子单元3041,用于获取预设的分类分级标准策略配置表;结果归类子单元3042,用于根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
在一实施例中,如图11所示,所述报告生成单元305包括数据统计子单元3051以及可视化子单元3052。
数据统计子单元3051,用于根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果;可视化子单元3052,用于根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述数据分析分类装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述数据分析分类装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种数据分析分类方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种数据分析分类方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
从企业数据源中提取数据对象属性;从企业数据源获取数据对象属性对应的数据内容;对所述数据内容进行识别以及分析,以得到分析结果;依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;根据所述归类结果生成数据对象可视化的分类分级报告。
其中,所述数据对象属性包括数据的结构信息、表注释以及表关联关系。
在一实施例中,处理器502在实现所述从企业数据源获取数据对象属性对应的数据内容步骤时,具体实现如下步骤:
按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容;将所述数据内容保存在内存中。
在一实施例中,处理器502在实现所述对所述数据内容进行识别以及分析,以得到分析结果步骤时,具体实现如下步骤:
初始化数据识别引擎;通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
其中,所述自动化识别算法对应的公式为Sn=(∑Fi(i=1→m),k),其中,Sn为第n个数据内容的分析结果;Fi表示识别引擎中的第i个自动化识别算法,默认自动化识别算法的个数为m;k为大于1的自然数,表示当前数据内容对应的分析结果的最小子集大小。
在一实施例中,处理器502在实现所述依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果步骤时,具体实现如下步骤:
获取预设的分类分级标准策略配置表;根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
在一实施例中,处理器502在实现所述根据所述归类结果生成数据对象可视化的分类分级报告步骤时,具体实现如下步骤:
根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果;根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
从企业数据源中提取数据对象属性;从企业数据源获取数据对象属性对应的数据内容;对所述数据内容进行识别以及分析,以得到分析结果;依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;根据所述归类结果生成数据对象可视化的分类分级报告。
其中,所述数据对象属性包括数据的结构信息、表注释以及表关联关系。
在一实施例中,所述处理器在执行所述计算机程序而实现所述从企业数据源获取数据对象属性对应的数据内容步骤时,具体实现如下步骤:
按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容;将所述数据内容保存在内存中。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述数据内容进行识别以及分析,以得到分析结果步骤时,具体实现如下步骤:
初始化数据识别引擎;通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
其中,所述自动化识别算法对应的公式为Sn=(∑Fi(i=1→m),k),其中,Sn为第n个数据内容的分析结果;Fi表示识别引擎中的第i个自动化识别算法,默认自动化识别算法的个数为m;k为大于1的自然数,表示当前数据内容对应的分析结果的最小子集大小。
在一实施例中,所述处理器在执行所述计算机程序而实现所述依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果步骤时,具体实现如下步骤:
获取预设的分类分级标准策略配置表;根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述归类结果生成数据对象可视化的分类分级报告步骤时,具体实现如下步骤:
根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果;根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.数据分析分类方法,其特征在于,包括:
从企业数据源中提取数据对象属性;
从企业数据源获取数据对象属性对应的数据内容;
对所述数据内容进行识别以及分析,以得到分析结果;
依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;
根据所述归类结果生成数据对象可视化的分类分级报告。
2.根据权利要求1所述的数据分析分类方法,其特征在于,所述数据对象属性包括数据的结构信息、表注释以及表关联关系。
3.根据权利要求1所述的数据分析分类方法,其特征在于,所述从企业数据源获取数据对象属性对应的数据内容,包括:
按照数据对象属性从企业数据源内确定对应的数据对象,并获取对应的数据对象的数据内容;
将所述数据内容保存在内存中。
4.根据权利要求1所述的数据分析分类方法,其特征在于,所述对所述数据内容进行识别以及分析,以得到分析结果,包括:
初始化数据识别引擎;
通过数据识别引擎内的自动化识别算法对所述数据内容进行处理,以得到分析结果。
5.根据权利要求4所述的数据分析分类方法,其特征在于,所述自动化识别算法对应的公式为Sn=(∑Fi(i=1→m),k),其中,Sn为第n个数据内容的分析结果;Fi表示识别引擎中的第i个自动化识别算法,默认自动化识别算法的个数为m;k为大于1的自然数,表示当前数据内容对应的分析结果的最小子集大小。
6.根据权利要求1所述的数据分析分类方法,其特征在于,所述依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果,包括:
获取预设的分类分级标准策略配置表;
根据预设的分类分级标准策略配置表确定所述分析结果对应的类别和级别,以得到归类结果。
7.根据权利要求1所述的数据分析分类方法,其特征在于,所述根据所述归类结果生成数据对象可视化的分类分级报告,包括:
根据所述归类结果确定敏感数据占比、数据分级分布、数据分类统计结果、业务类型数量统计结果以及数据库表敏感指数统计结果,以得到处理结果;
根据所述处理结果采用图形插件渲染技术生成数据对象可视化的分类分级报告。
8.数据分析分类装置,其特征在于,包括:
属性提取单元,用于从企业数据源中提取数据对象属性;
数据内容获取单元,用于从企业数据源获取数据对象属性对应的数据内容;
分析单元,用于对所述数据内容进行识别以及分析,以得到分析结果;
归类单元,用于依据分类分级标准对所述分析结果进行数据资产归类,以得到归类结果;
报告生成单元,用于根据所述归类结果生成数据对象可视化的分类分级报告。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396257.8A CN114969467A (zh) | 2022-04-15 | 2022-04-15 | 数据分析分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396257.8A CN114969467A (zh) | 2022-04-15 | 2022-04-15 | 数据分析分类方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969467A true CN114969467A (zh) | 2022-08-30 |
Family
ID=82976939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210396257.8A Pending CN114969467A (zh) | 2022-04-15 | 2022-04-15 | 数据分析分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969467A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659407A (zh) * | 2022-12-15 | 2023-01-31 | 北京市大数据中心 | 数据资产处理方法、设备、介质 |
CN117763080A (zh) * | 2023-11-14 | 2024-03-26 | 苏州云智度科技服务有限公司 | 一种技术属性多重相关度计算方法及系统 |
CN117763080B (zh) * | 2023-11-14 | 2024-06-25 | 苏州云智度科技服务有限公司 | 一种技术属性多重相关度计算方法及系统 |
-
2022
- 2022-04-15 CN CN202210396257.8A patent/CN114969467A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659407A (zh) * | 2022-12-15 | 2023-01-31 | 北京市大数据中心 | 数据资产处理方法、设备、介质 |
CN117763080A (zh) * | 2023-11-14 | 2024-03-26 | 苏州云智度科技服务有限公司 | 一种技术属性多重相关度计算方法及系统 |
CN117763080B (zh) * | 2023-11-14 | 2024-06-25 | 苏州云智度科技服务有限公司 | 一种技术属性多重相关度计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210366055A1 (en) | Systems and methods for generating accurate transaction data and manipulation | |
Sneed | Extracting business logic from existing COBOL programs as a basis for redevelopment | |
CA3177671A1 (en) | Enquiring method and device based on vertical search, computer equipment and storage medium | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN111462752B (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
TW201421414A (zh) | 文件管理系統及文件管理方法以及文件管理程式 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
WO2023241519A1 (zh) | Bim构件创建方法、数字设计资源库应用方法和装置 | |
CN111178701B (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN114969467A (zh) | 数据分析分类方法、装置、计算机设备及存储介质 | |
CN117150138B (zh) | 一种基于高维空间映射的科技资源组织方法及系统 | |
US20220156611A1 (en) | Method and apparatus for entering information, electronic device, computer readable storage medium | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
Yan et al. | Research on Application Value Analysis of Real Estate Registration Based on Big Data Mining | |
CN113297289A (zh) | 从数据库提取业务数据的方法、装置和电子设备 | |
CN112182218A (zh) | 文本数据的分类方法及装置 | |
JP6496078B2 (ja) | 分析支援装置、分析支援方法、および分析支援プログラム | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 | |
CN117473510B (zh) | 一种基于图神经网络和漏洞补丁关系的自动化漏洞挖掘技术 | |
CN117648635B (zh) | 敏感信息分类分级方法及系统、电子设备 | |
CN115617983A (zh) | 基于文本的缺陷分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |