CN115858883A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115858883A CN115858883A CN202211691410.6A CN202211691410A CN115858883A CN 115858883 A CN115858883 A CN 115858883A CN 202211691410 A CN202211691410 A CN 202211691410A CN 115858883 A CN115858883 A CN 115858883A
- Authority
- CN
- China
- Prior art keywords
- data
- data field
- characteristic dimension
- field
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据处理方法、装置、存储介质及电子设备,以提高主数据确定的准确性。该方法包括:获取数据库中的多个数据域,每个所述数据域对应有数据信息;基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数;针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域的类型为主数据。
Description
技术领域
本公开涉及数据库技术领域,具体地,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息,主数据是核心业务实体的最权威、最准确、价值最大的数据,也是公司生产运行和经营管理业务进行的基础,具有高业务价值。
在进行主数据管理时,第一步就是识别主数据。然而从海量的数据域中识别确定出主数据是一项非常复杂的工程。相关技术中,主要结合丰富的主数据工作经验并参考实践案例进行识别,使得对主数据识别人员的能力要求较高,并且具有很强的主观性,降低主数据确定的准确性。
发明内容
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备,以提高主数据确定的准确性。
为了实现上述目的,第一方面,本公开提供一种数据处理方法,所述方法包括:
获取数据库中的多个数据域,每个所述数据域对应有数据信息;
基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数;
针对多个所述数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域的类型为主数据。
可选地,所述针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,包括:
针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,以及各个特性维度分别对应的权重,确定该数据域对应的融合数据值;
在该数据域对应的融合数据值大于预设阈值的情况下,确定该数据域为目标数据域。
可选地,所述方法还包括:
获取所述各个特性维度分别对应的权重的和值;
将所述和值与所述各个特性维度分别对应的权重中的最大权重值的差值,确定为所述预设阈值。
可选地,所述各个特性维度包括以下至少两个:表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。
可选地,所述各个特性维度包括表征数据域在业务系统内的共享程度的第一特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,获取该数据域存在的业务系统的数量;
将该数据域存在的业务系统的数量,确定为该数据域对应在第一特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的唯一性的第二特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,基于该数据域包括的字段数量以及各个字段的属性信息,构造该数据域对应的特征向量;
将该数据域的特征向量与其他数据域的特征向量的相似度的倒数,确定为该数据域对应在第二特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域的稳定性的第三特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
获取各个数据域对应的创建时间、终止时间以及版本数量;
针对多个所述数据域中任一个数据域,基于该数据域对应的创建时间以及终止时间,确定该数据域对应的使用时长;
将该数据域对应的使用时长以及该数据域对应的版本数量的比值,作为该数据域对应的版本变化周期;
基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的一致性的第四特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量;
基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的重要性的第五特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
将每个数据域分别作为随机森林模型的一个特征;
针对每一个数据域特征,确定该数据域特征在各颗决策树中存在的各个节点;
基于该数据域特征在对应的各个节点的分支前后的基尼指数变化量,得到该数据域特征对应的基尼指数;
基于所述各个数据域特征分别对应的基尼指数,得到所述各个数据域分别对应在第五特性维度下的数据值。
第二方面,本公开提供一种数据处理装置,所述装置包括:
获取模块,用于获取数据库中的多个数据域,每个数据域对应有数据信息;
第一确定模块,用于基于所述多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个特性维度下的数据值为该数据域对主数据的一种特性的满足程度的量化参数;
第二确定模块,用于针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,确定该数据域的类型,所述类型包括主数据。
第三方面,本公开提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
通过上述技术方案,获取数据库中的多个数据域,基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数,针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域的类型为主数据。通过对数据域满足主数据的特性维度的程度进行量化计算,相较于通过人为主观确定主数据更加客观,排除人为主观因素对主数据确定的影响,提高主数据确定的准确性,并且,由于是基于数据域对应在所述多个特性维度下的数据值,确定的数据域的类型,因此,可以同时考虑主数据的多个特性维度,进一步提高主数据确定的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一示例性实施例示出的一种数据处理方法的流程图;
图2是根据本公开一示例性实施例示出的一种数据处理装置的框图;
图3是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
请参阅图1,图1是根据本公开一示例性实施例示出的一种数据处理方法的流程图。该方法可以应用于电子设备,如图1所示,该数据处理方法包括:
S110,获取数据库中的多个数据域,每个数据域对应有数据信息。
其中,数据域是联系较为紧密的数据主题的集合,通常可以根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起,形成数据域。
示例性地,数据库中可以存储各个业务系统的数据,例如人力系统、财务系统等,其中,在人力系统下例如可以包括员工数据域、岗位数据域、职务数据域等,在财务系统下例如可以包括客户数据域、供应商数据域、结算方式数据域、银行账户数据域等。
在一些情况下,一个数据域可以对应数据库中的一张数据表。
本公开实施例中,可以通过数据库查询的方式获取到数据库中的多个数据域。可选地,这多个数据域可以是数据库中的部分或者全部数据域。
其中,数据域对应的数据信息可以理解为与数据域相关的信息。例如,数据域存在的业务系统的数量,数据域包括的数据字段以及各个数据字段的属性信息,数据域对应的创建时间、终止时间以及版本数量,数据域在不同业务系统内对应的字段数量以及各个字段的属性信息等。
S120,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值指示该数据域对主数据的一种特性维度的满足程度的量化参数。
可以理解的是,一个数据域要成为主数据,是需要满足一些特性的,因此,本公开实施例中,可以通过将数据域对主数据的各种特性维度的满足程度分别进行量化,从而得到各个数据域分别对应在各个特性维度下的量化数据值。
在一些实施方式中,可以根据主数据的定义以及特点,预先归纳出主数据满足的特性,然后根据主数据满足的特性,确定主数据的特性维度。例如,主数据一般需要满足共享性、唯一性、稳定性、在不同业务系统内特征一致性以及重要性,其中,稳定性也可以理解为变化频率低的特性,重要性也可以理解为核心程度。从而,根据上述特性,确定主数据的特性维度可以包括表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。其中,数据域对应在上述五个特性维度中的每一个特性维度下的数据值越大,对对应的特性的满足程度越高。
在一些实施方式中,主数据的各个特性维度可以包括以下至少两个:表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。
S130,针对多个数据域中每一个数据域,基于该数据域对应在各个特性维度下的数据值,在多个数据域中确定目标数据域,目标数据域的类型为主数据。
本公开实施例中,在得到各个数据域分别对应在各个特性维度下的数据值之后,针对各个数据域中的每一个数据域,便可以基于该数据域对应在各个特性维度下的数据值,进行综合考虑,从而分析得到该数据域是否为目标数据域,从而实现在多个所述数据域中确定目标数据域,也即,从多个所述数据域中确定主数据。
需要说明的是,本公开实施的方法确定的目标数据域可以是一个或者多个。
采用上述方法,获取数据库中的多个数据域,基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数,针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域类型为主数据。通过对数据域满足主数据的特性维度的程度进行量化计算,相较于通过人为主观确定主数据更加客观,排除人为主观因素对主数据确定的影响,提高主数据确定的准确性,并且,由于是基于数据域对应在所述多个特性维度下的数据值,确定的数据域的类型,因此,可以同时考虑主数据的多个特性维度,进一步提高主数据确定的准确性。
本公开实施例中,针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,可以有多种方式。
在一些实施方式中,可以为该数据域对应在每一个特性维度下的数据值分别设置一个阈值,从而当该数据域对应在每一个特性维度下的数据值均大于对应的阈值时,确定该数据域为目标数据域。
沿用前述示例,假设存在第一特性维度、第二特性维度、第三特性维度、第四特性维度以及第五特性维度,可以分别为第一特性维度、第二特性维度、第三特性维度、第四特性维度以及第五特性维度设置对应的阈值,从而在数据域对应在第一特性维度下的数据值大于对应的阈值,对应在第二特性维度下的数据值大于对应的阈值,对应在第三特性维度下的数据值大于对应的阈值,对应在第四特性维度下的数据值大于对应的阈值,对应在第五特性维度下的数据值大于对应的阈值时,确定该数据域为目标数据域。
在另一些实施方式中,针对多个数据域中每一个数据域,基于该数据域对应在各个特性维度下的数据值,在多个所述数据域中确定目标数据域,可以包括以下步骤:
针对多个数据域中每一个数据域,基于该数据域对应在各个特性维度下的数据值,以及各个特性维度分别对应的权重,确定该数据域对应的融合数据值;
在该数据域对应的融合数据值大于预设阈值的情况下,确定该数据域为目标数据域。
本公开实施例中,可以预先为每个特性维度设置对应的权重,从而,在得到某个数据域对应在各个特性维度下的数据值之后,可以将各个特性维度下的数据值分别与对应的权重先进行加权求和取平均处理,得到该数据域对应的融合数据值。在一些实施方式中,该过程可以通过以下公式表示:
其中,f(x)表示融合数据值,f(n)表示第n特性维度,λn表示第n特性维度对应的权重。
其中,在得到该数据域对应的融合数据值之后,若融合数据值大于预设阈值,则确定该数据域为目标数据域。
在一些实施方式中,可以将各个特性维度对应的权重值取为相同值,示例性地,当存在5个特性维度时,每个特性维度对应的权重为20。此时,5个权重和为100。
在另一些实施方式中,可以根据主数据实际使用的场景以及业务情况,来综合分析得到各个特性维度对应的权重。例如,在一些业务场景下,如果作为主数据,在业务系统内的不一致性接受程度较高,则可以将第四特性维度的权重相对设置的小一些。又例如,在一些业务场景下,如果作为主数据,在业务系统内的唯一性要求较高,则可以将第二特性维度的权重相对设置的大一些。
在一些实施方式中,本公开实施例的数据处理方法还可以包括以下步骤:
获取各个特性维度分别对应的权重的和值;
将和值与各个特性维度分别对应的权重中的最大权重值的差值,确定为预设阈值。
本公开实施例中,可以将各个特性维度分别对应的权重的和值与各个特性维度分别对应的权重中的最大权重值的差值,确定为预设阈值,这样取值表明阈值的约束是权重值最大的因素不满足条件,或者表明多个因素的权重值和等同于最大权重值不满足条件,从而,可以进一步提高后续确定的主数据的准确性。
示例性地,假设共有5个特性维度,分别为第一特性维度、第二特性维度、第三特性维度、第四特性维度以及第五特性维度,并且假设第一特性维度对应的权重为15、第二特性维度对应的权重为20、第三特性维度对应的权重为27、第四特性维度对应的权重为18以及第五特性维度对应的权重为20,此时,预设阈值可以设置为73,即15+20+27+18+20-27=73。
结合前述内容可知,各个特性维度包括以下至少两个:表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。下面分别对数据域对应在各个特性维度下的数据值的计算方法进行说明。
在一些实施方式中,各个特性维度包括表征数据域在业务系统内的共享程度的第一特性维度,这种情况下,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个数据域中任一个数据域,获取该数据域存在的业务系统的数量;
将该数据域存在的业务系统的数量,确定为该数据域对应在第一特性维度下的数据值。
可以理解的是,主数据可以满足跨部门、跨系统使用,超越流程和主题,可以在企业内跨越各个业务部门被重复使用的数据才符合认定为主数据的标准。因此,本公开实施例中,通过查询数据库的方式获取数据域存在于哪些业务系统,从而针对多个数据域中任一个数据域,可以得到该数据域存在的业务系统的数量,存在的业务系统的额数量越多,共享程度越高,因此,可以进一步该数据域存在的业务系统的数量,确定为该数据域对应在第一特性维度下的数据值。在一些实施方式中,该过程可以通过求和公式表示:
f(1)=P1+P2+P3···PT
其中,f(1)表示第一特性维度下的数据值,P1+P2+P3···PT分别表示不同的系统。
在一些实施方式中,各个特性维度包括表征数据域在业务系统内的唯一性的第二特性维度,这种情况下,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个数据域中任一个数据域,基于该数据域包括的字段数量以及各个字段的属性信息,构造该数据域对应的特征向量;
将该数据域的特征向量与其他数据域的特征向量的相似度的倒数,确定为该数据域对应在第二特性维度下的数据值。
可以理解的是,主数据可以满足唯一性要求。在一些实施方式中,可以通过比对各个数据域之间的相似度,从而来判断数据域的唯一性。
本公开实施例中,针对多个数据域中任一个数据域,可以基于该数据域包括的字段数量以及各个字段的属性信息,构造该数据域对应的特征向量。示例性地,假设对于数据域A,包括3个字段,其中,第一个字段包括3个字段属性,分别为字段长度为3,数值不能为负数以及默认值为1,此时可以构造该数据域对应的特征向量为(3,3,1,1),其中,向量中第一位的3表示字段数,向量中第二位的3表示第一个字段属性对应的字段长度为3,向量中第三位的1表示第二个字段属性对应的参数不能为负数,向量中第四位的1表示第三个字段属性对应的默认值为1。
需要说明的是,上述基于数据域包括的字段数量以及各个字段的属性信息,构造数据域对应的特征向量的方法只是一种示例性的表示,可以根据实际需要进行改变。本公开实施例中不对构造数据域对应的特征向量的方法进行限制。
可以理解的是,两个向量之间的相似度越大,说明向量对应的数据域之间的相似度越大,因此,为了量化数据域的唯一性,本公开实施例中,可以进一步将该数据域的特征向量与其他数据域的特征向量的相似度的倒数,确定为该数据域对应在第二特性维度下的数据值。
可选地,向量之间的相似度可以是欧几里得距离、余弦相似度等。当向量之间的相似度可以是余弦相似度时,上述过程可以通过以下公式表示:
其中,f(2)表示第二特性维度下的数据值,A、B分别表示不同的数据域对应的特征向量。
在一些实施方式中,各个特性维度包括表征数据域的稳定性的第三特性维度,这种情况下,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
获取各个数据域对应的创建时间、终止时间以及版本数量;
针对多个数据域中任一个数据域,基于该数据域对应的创建时间以及终止时间,确定该数据域对应的使用时长;
将该数据域对应的使用时长以及该数据域对应的版本数量的比值,作为该数据域对应的版本变化周期;
基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
可以理解的是,主数据可以满足变化少,数据不应频繁对其进行修订或删除的特性。因此,本公开实施例中,通过计算得到数据域对应的版本的变化周期,并进一步基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
本公开实施例中,可以从数据库中查询得到各个数据域对应的创建时间以及版本数量,其中,数据域对应的终止时间可以是执行本公开实施例的数据处理方法的时间,例如查询数据域对应的创建时间的时间,从而针对多个数据域中任一个数据域,基于该数据域对应的创建时间以及终止时间,可以确定该数据域对应的使用时长,并进一步将该数据域对应的使用时长以及该数据域对应的版本数量的比值,作为该数据域对应的版本变化周期,接着便可以基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
在一些实施方式中,可以直接将数据域对应的版本变化周期,确定为该数据域对应在第三特性维度下的数据值。可以理解的是,版本变化周期越长,版本变化频率越低,从而数据域的稳定性越强,版本变化周期越短,版本变化频率越高,数据域的稳定性越弱。
在另一些实施方式中,也可以通过如下公式表示数据域对应在第三特性维度下的数据值的计算过程:
其中,f(3)表示第三特性维度下的数据值,T表示版本变化周期,t2表示数据域对应的终止时间,t1表示数据域对应的创建时间,S表示版本数量。
在一些实施方式中,各个特性维度包括表征数据域在业务系统内的一致性的第四特性维度,这种情况下,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个数据域中任一个数据域,基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量;
基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值。
可以理解的是,主数据可以满足跨部门业务协同需要,超越主题,不依赖特定业务、服务于所有业务,不同应用、不同系统中的高度一致。因此,本公开实施例中,通过对比不同业务系统内同一数据域的相似程度,则可以得到该数据域对应在第四特性维度下的数据值。
同样地,为了对比不同业务系统内同一数据域的相似程度,本公开实施例中,针对多个数据域中任一个数据域,可以基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量。
其中,基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量可以参考前述实施例,此处不再赘述。
可以理解的是,两个向量之间的相似度越大,说明向量对应的数据域之间的相似度越大,因此,为了量化同一个数据域在业务系统内的一致性,本公开实施例中,可以进一步基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值。
此外,考虑到同一个数据域可能存在于多个业务系统中,因此,在一些实施方式中,基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值的步骤可以是:获取该数据域对应在各个业务系统中的每组特征向量之间的相似度,然后将获取的每组相似度的平均值确定为该数据域对应在第四特性维度下的数据值。
在一些实施方式中,各个特性维度包括表征数据域在业务系统内的重要性的第五特性维度,这种情况下,基于多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
将每个数据域分别作为随机森林模型的一个特征;
针对每一个数据域特征,确定该数据域特征在各颗决策树中存在的各个节点;
基于该数据域特征在对应的各个节点的分支前后的基尼指数变化量,得到该数据域特征对应的基尼指数;
基于各个数据域特征分别对应的基尼指数,得到各个数据域分别对应在第五特性维度下的数据值。
可以理解的是,可以通过随机森林模型来进行重要特征的筛选,也即,通过随机森林模型计算每个数据域特征在所有决策树中节点分裂不纯度的平均改变量。因此,本公开实施例中,可以将每个数据域分别作为随机森林模型的一个特征,从而便可以通过随机森林模型来对各个数据域进行特征重要性评估,得到各个数据域分别对应在第五特性维度下的数据值。
也即,本公开实施例中,可以针对每一个数据域特征,确定该数据域特征在各颗决策树中存在的各个节点,基于该数据域特征在对应的各个节点的分支前后的基尼指数变化量,得到该数据域特征对应的基尼指数,基于各个数据域特征分别对应的基尼指数,得到各个数据域分别对应在第五特性维度下的数据值。
示例性地,假设共有C个数据域特征,分别表示为X1,X2,X3···Xc,上述过程可以包括以下过程:
其中,表示数据域特征Xj在节点m的重要性或者基尼指数,GIm表示数据域特征Xj在节点m的基尼指数,GIl以及GIr分别表示节点m分支之后两个新节点的基尼指数,K表示类别总数,k表示K中第k个类别,pmk表示节点m中类别k所占的比例。
最后,便可以基于各个数据域特征分别对应的基尼指数,即各个数据域特征分别对应的重要性,得到各个数据域分别对应在第五特性维度下的数据值,例如第j个数据域特征对应的第五特性维度下的数据值可以表示为:
需要说明的是,本公开实施例中,除了可以选择基尼指数作为测量指标来对通过随机森林模型计算每个数据域特征在所有决策树中节点分裂不纯度的平均改变量外,还可以选择袋外数据作为测量指标。
另外应当理解的是,对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受上文所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,上文所描述的实施例属于优选实施例,所涉及的步骤并不一定是本公开所必须的。
基于同一构思,本公开还提供一种数据处理装置,该装置可以通过软件、硬件或者两者结合的方式成为电子设备的部分或全部。参照图2,该数据处理装置200可以包括:
获取模块210,用于获取数据库中的多个数据域,每个所述数据域对应有数据信息;
第一确定模块220,用于基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数;
第二确定模块230,用于针对多个所述数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域为主数据。
可选地,第二确定模块230,包括:
融合数据值确定子模块,用于针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,以及各个特性维度分别对应的权重,确定该数据域对应的融合数据值;
主数据确定子模块,用于在该数据域对应的融合数据值大于预设阈值的情况下,确定该数据域为目标数据域。
可选地,装置200还包括:
阈值确定模块,用于获取所述各个特性维度分别对应的权重的和值;将所述和值与所述各个特性维度分别对应的权重中的最大权重值的差值,确定为所述预设阈值。
可选地,所述各个特性维度包括以下至少两个:表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。
可选地,所述各个特性维度包括表征数据域在业务系统内的共享程度的第一特性维度,第一确定模块220包括:
第一获取子模块,用于针对多个所述数据域中任一个数据域,获取该数据域存在的业务系统的数量;
第一确定子模块,用于将该数据域存在的业务系统的数量,确定为该数据域对应在第一特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的唯一性的第二特性维度,第一确定模块220包括:
第一特征向量构造子模块,用于针对多个所述数据域中任一个数据域,基于该数据域包括的字段数量以及各个字段的属性信息,构造该数据域对应的特征向量;
第二确定子模块,用于将该数据域的特征向量与其他数据域的特征向量的相似度的倒数,确定为该数据域对应在第二特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域的稳定性的第三特性维度,第一确定模块220包括:
第二获取子模块,用于获取各个数据域对应的创建时间、终止时间以及版本数量;
使用时长确定子模块,用于针对多个所述数据域中任一个数据域,基于该数据域对应的创建时间以及终止时间,确定该数据域对应的使用时长;
版本变化周期确定子模块,用于将该数据域对应的使用时长以及该数据域对应的版本数量的比值,作为该数据域对应的版本变化周期;
第三确定子模块,用于基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的一致性的第四特性维度,第一确定模块220包括:
第二特征向量构造子模块,用于针对多个所述数据域中任一个数据域,基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量;
第四确定子模块,用于基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值。
可选地,所述各个特性维度包括表征数据域在业务系统内的重要性的第五特性维度,第一确定模块220包括:
特征确定子模块,用于将每个数据域分别作为随机森林模型的一个特征;
节点确定子模块,用于针对每一个数据域特征,确定该数据域特征在各颗决策树中存在的各个节点;
基尼指数确定子模块,用于基于该数据域特征在对应的各个节点的分支前后的基尼指数变化量,得到该数据域特征对应的基尼指数;
第五确定子模块,用于基于所述各个数据域特征分别对应的基尼指数,得到所述各个数据域分别对应在第五特性维度下的数据值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本公开还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一数据处理方法的步骤。
在可能的方式中,该电子设备的框图可以如图3所示。参照图3,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出(I/O)接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的数据处理方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器302,上述程序指令可由电子设备300的处理器301执行以完成上述的数据处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (12)
1.一种数据处理方法,其特征在于,包括:
获取数据库中的多个数据域,每个所述数据域对应有数据信息;
基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个数据域在一个特性维度下的数据值用于指示该数据域对主数据的一种特性维度的满足程度的量化参数;
针对多个所述数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,所述目标数据域的类型为主数据。
2.根据权利要求1所述的方法,其特征在于,所述针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,在多个所述数据域中确定目标数据域,包括:
针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,以及各个特性维度分别对应的权重,确定该数据域对应的融合数据值;
在该数据域对应的融合数据值大于预设阈值的情况下,确定该数据域为目标数据域。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述各个特性维度分别对应的权重的和值;
将所述和值与所述各个特性维度分别对应的权重中的最大权重值的差值,确定为所述预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括以下至少两个:表征数据域在业务系统内的共享程度的第一特性维度,表征数据域在业务系统内的唯一性的第二特性维度,表征数据域的稳定性的第三特性维度,表征数据域在业务系统内的一致性的第四特性维度,以及表征数据域在业务系统内的重要性的第五特性维度。
5.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括表征数据域在业务系统内的共享程度的第一特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,获取该数据域存在的业务系统的数量;
将该数据域存在的业务系统的数量,确定为该数据域对应在第一特性维度下的数据值。
6.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括表征数据域在业务系统内的唯一性的第二特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,基于该数据域包括的字段数量以及各个字段的属性信息,构造该数据域对应的特征向量;
将该数据域的特征向量与其他数据域的特征向量的相似度的倒数,确定为该数据域对应在第二特性维度下的数据值。
7.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括表征数据域的稳定性的第三特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
获取各个数据域对应的创建时间、终止时间以及版本数量;
针对多个所述数据域中任一个数据域,基于该数据域对应的创建时间以及终止时间,确定该数据域对应的使用时长;
将该数据域对应的使用时长以及该数据域对应的版本数量的比值,作为该数据域对应的版本变化周期;
基于该数据域对应的版本变化周期,得到该数据域对应在第三特性维度下的数据值。
8.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括表征数据域在业务系统内的一致性的第四特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
针对多个所述数据域中任一个数据域,基于该数据域在不同业务系统内对应的字段数量以及各个字段的属性信息,构造该数据域对应在不同业务系统内的特征向量;
基于该数据域对应在不同业务系统内的特征向量的相似度,确定该数据域对应在第四特性维度下的数据值。
9.根据权利要求1所述的方法,其特征在于,所述各个特性维度包括表征数据域在业务系统内的重要性的第五特性维度,所述基于多个所述数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,包括:
将每个数据域分别作为随机森林模型的一个特征;
针对每一个数据域特征,确定该数据域特征在各颗决策树中存在的各个节点;
基于该数据域特征在对应的各个节点的分支前后的基尼指数变化量,得到该数据域特征对应的基尼指数;
基于所述各个数据域特征分别对应的基尼指数,得到所述各个数据域分别对应在第五特性维度下的数据值。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取数据库中的多个数据域,每个数据域对应有数据信息;
第一确定模块,用于基于所述多个数据域分别对应的数据信息,得到各个数据域分别对应在各个特性维度下的数据值,一个特性维度下的数据值为该数据域对主数据的一种特性的满足程度的量化参数;
第二确定模块,用于针对所述多个数据域中每一个数据域,基于该数据域对应在所述各个特性维度下的数据值,确定该数据域的类型,所述类型包括主数据。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691410.6A CN115858883A (zh) | 2022-12-27 | 2022-12-27 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211691410.6A CN115858883A (zh) | 2022-12-27 | 2022-12-27 | 数据处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115858883A true CN115858883A (zh) | 2023-03-28 |
Family
ID=85655265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211691410.6A Pending CN115858883A (zh) | 2022-12-27 | 2022-12-27 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115858883A (zh) |
-
2022
- 2022-12-27 CN CN202211691410.6A patent/CN115858883A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102067106B (zh) | 通过确定子节点和父节点的度量值进行的数据质量跟踪 | |
CN111061833A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN116909534B (zh) | 算子流的生成方法、算子流的生成装置及存储介质 | |
US11227288B1 (en) | Systems and methods for integration of disparate data feeds for unified data monitoring | |
CN110825929B (zh) | 一种业务权限推荐方法及装置 | |
CN111680895A (zh) | 数据自动标注方法、装置、计算机设备及存储介质 | |
CN111611230A (zh) | 主数据系统的建立方法、装置、计算机设备及存储介质 | |
CN112988698A (zh) | 一种数据处理方法以及装置 | |
CN115858883A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US8832110B2 (en) | Management of class of service | |
CN115511644A (zh) | 用于目标保单的处理方法、电子设备和可读存储介质 | |
KR20190010091A (ko) | 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법 | |
CN114238280A (zh) | 构建金融敏感信息标准库的方法、装置及电子设备 | |
CN113901046A (zh) | 虚拟维度表构建方法及装置 | |
CN113935788A (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
Chakraborty et al. | Searching for heavy-tailed probability distributions for modeling real-world complex networks | |
CN113868141A (zh) | 数据测试方法、装置、电子设备及存储介质 | |
CN110765303A (zh) | 一种更新数据库的方法及系统 | |
CN110765118B (zh) | 一种数据的修订方法、修订装置及可读存储介质 | |
CN112214387B (zh) | 基于知识图谱的用户操作行为预测方法及装置 | |
CN115062019A (zh) | 确定主数据的方法、电子设备和计算机可读存储介质 | |
CN116860649A (zh) | 目标对象关联条件的处理方法、装置、计算机设备 | |
CN114841302A (zh) | 指标编码方法和装置、电子设备、计算机可读介质 | |
CN117743730A (zh) | 一种基于维度树自动指标关联计算的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |