CN115495503A - 数据处理方法、装置和电子设备 - Google Patents

数据处理方法、装置和电子设备 Download PDF

Info

Publication number
CN115495503A
CN115495503A CN202211230628.1A CN202211230628A CN115495503A CN 115495503 A CN115495503 A CN 115495503A CN 202211230628 A CN202211230628 A CN 202211230628A CN 115495503 A CN115495503 A CN 115495503A
Authority
CN
China
Prior art keywords
data
processed
quality
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211230628.1A
Other languages
English (en)
Inventor
吴高
张成松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202211230628.1A priority Critical patent/CN115495503A/zh
Publication of CN115495503A publication Critical patent/CN115495503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Abstract

本申请公开一种数据处理方法、装置和电子设备,该方法包括:获取待处理数据,提取待处理数据的数据特性信息,对待处理数据执行与其数据特性信息相关的质量判定处理,得到待处理数据的第一质量确定结果,并确定用户对待处理数据的需求信息,根据用户对待处理处理的需求信息和待处理处理的第一质量确定结果,确定待处理数据的数据质量,得到待处理数据的第二质量确定结果。

Description

数据处理方法、装置和电子设备
技术领域
本申请属于数据分析与挖掘技术领域,尤其涉及一种数据处理方法、装置和电子设备。
背景技术
随着数据作为第五大生产要素,越来越多的企业将数据作为一种战略资产,但是数据质量的好坏严重影响了数据价值的挖掘和数据要素的流通,因此,如何科学、合理的判定数据资产的质量成为一个亟需解决的问题。
发明内容
为此,本申请公开如下技术方案:
一种数据处理方法,所述方法包括:
获取待处理数据;
提取所述待处理数据的数据特性信息;
对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果;
确定用户对所述待处理数据的需求信息;
根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果。
可选的,所述待处理数据的数据特性信息,包括所述待处理数据的不同维度数据特征;
所述对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果,包括:
根据预设的数据质量评分规则,确定所述待处理数据的不同维度数据特征分别对应的质量评分;根据所述不同维度数据特征分别对应的质量评分,确定所述待处理数据对应的综合得分;
和/或,根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级;所述相似数据的质量等级为通过结合业务场景需求对所述相似数据的不同维度数据特征的质量评分进行处理所得的结果;
其中,所述第一质量确定结果包括所述综合得分和所述待处理数据的质量等级中的至少一种。
可选的,所述待处理数据包括待处理数据表中的数据,所述待处理数据表包括至少一个字段;
所述待处理数据的不同维度数据特征包括:所述待处理数据表和/或所述待处理数据表的字段在数据的完整性、唯一性、有效性、一致性、准确性和及时性中至少部分维度对应的特征;
所述数据质量评分规则包括表级规则、字段级规则、跨表规则和跨字段规则中的至少部分规则;其中,所述表级规则和所述跨表规则用于对所述待处理数据表的相应维度数据特征进行评分,所述字段级规则和所述跨字段规则用于对所述待处理数据表的字段的相应维度数据特征进行评分。
可选的,所述根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级,包括:
获取所述待处理数据的预设类型数据信息和质量评价数据;
将所述待处理数据的预设类型数据信息和质量评价数据输入预先构建的第一处理模型,得到所述第一处理模型基于所述待处理数据的相似数据的质量等级输出的所述待处理数据的质量等级;
其中,所述待处理数据的相似数据为:与所述待处理数据在对应的预设类型数据信息和质量评价数据方面满足相似性要求的数据。
可选的,所述确定用户对所述待处理数据的需求信息,包括:
获取所述用户在所述待处理数据所属应用系统中的行为信息;
将所述行为信息输入预先构建的第二处理模型,得到所述第二处理模型输出的所述用户对所述待处理数据的需求场景类型预测结果,作为所述用户对所述待处理数据的需求信息;
其中,不同的需求场景类型表征用户在使用所述待处理数据时对所述待处理数据的数据质量的不同要求。
可选的,所述行为信息包括所述用户在所述待处理数据所属系统的数据访问日志、数据开发日志、功能使用日志、系统登录日志和历史评价数据中的至少部分信息。
可选的,所述根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果,包括:
将所述需求场景类型和所述待处理数据的第一质量确定结果输入预先构建的第三处理模型,得到所述第三处理模型输出的所述待处理数据的质量等级,作为所述第二质量确定结果;
其中,所述需求场景类型对所述第三处理模型的用于产生输出结果的处理过程的影响,与所述需求场景类型表征的用户在使用所述待处理数据时对所述待处理数据的数据质量要求的高低程度相关。
可选的,在得到所述待处理数据的第二质量确定结果之后,还包括:
生成对应于所述第二质量确定结果的提示信息,并向所述用户反馈所述提示信息;
或,根据不同待处理数据分别对应的第二质量确定结果,从所述不同待处理数据中选取满足质量条件的目标数据,以向用户推送所述目标数据。
一种数据处理装置,所述装置包括:
获取单元,用于获取待处理的待处理数据;
提取单元,用于提取所述待处理数据的数据特性信息;
第一质量确定单元,用于对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果;
需求确定单元,用于确定用户对所述待处理数据的需求信息;
第二质量确定单元,用于根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果。
一种电子设备,包括:
存储器,用于至少存储一组计算机指令集;
处理器,用于通过调用并执行所述存储器中存储的所述指令集,实现如上文任一项所述的数据处理方法。
由以上方案可知,本申请公开的数据处理方法、装置和电子设备,提取获取的待处理数据的数据特性信息,对待处理数据执行与其数据特性信息相关的质量判定处理,得到待处理数据的第一质量确定结果,并确定用户对待处理数据的需求信息,根据用户对待处理处理的需求信息和待处理处理的第一质量确定结果,确定待处理数据的数据质量,得到待处理数据的第二质量确定结果。可见,在对待处理数据进行质量判定时,本申请除了执行与待处理数据的数据特性信息相关的质量判定处理,还将用户需求引入待处理数据的质量判定中,结合用户对待处理数据的实际使用需求,动态判定待处理数据的质量,从而能够帮助用户结合自身需求真正了解待处理数据相比于其实际需求情况下的质量状况,提升了数据挖掘的准确率与效率,进而能够改善数据价值的挖掘和数据要素的流通情况,促进数据资产消费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的数据处理方法的一种流程示意图;
图2是本申请提供的数据资产质量的动态判定流程图;
图3是本申请提供的不同质量评分规则对应的计算方式示意图;
图4是本申请提供的数据处理方法的另一种流程示意图;
图5是本申请提供的数据处理装置的组成结构图;
图6是本申请提供的电子设备的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
已知技术通常是基于数据记录缺失、数据重复、数据错误等数据资产本身特性,去衡量数据质量的好坏,然而,此种方式下的质量判定结果在数据挖掘、数据推荐等应用中的效果不够理想,影响了数据价值的挖掘和数据要素的流通。申请人发现,合理的数据质量判定,应该是满足用户需求、与用户需求情况相符的判定,基于此,从用户的实际需求场景出发,将数据质量定义为“适合使用”,即数据质量不是追求100%,而是从数据使用者的角度定义,只要是能够满足用户使用需求的可信数据即可判定为高质量数据。比如用户地址数据,如果用于人口普查,目标若是汇总全国人口总数,那么地址数据的完整性或准确性将不那么重要,但是如果用于订单发货,那么地址的准确性就会要求很高,因此数据质量的好坏应该和用户的实际需求场景结合。
基于此,本申请公开一种数据处理方法、装置和电子设备,主要通过提供一种基于用户场景的数据资产质量动态判定方式,实现结合用户对数据的实际需求进行数据资产质量判定。该方法可应用于但不限于众多通用或专用的计算装置环境或配置下的电子设备,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置等等。
参见图1所示的数据处理方法流程图,本申请实施例公开的数据处理方法至少包括以下处理:
步骤101、获取待处理数据。
其中,待处理数据为待进行质量判定的数据,可以但不限于是各类业务场景下的数据湖或数据仓库中的数据资产。
可选的,待处理数据包括待处理数据表中的数据,待处理数据表包括至少一个字段。
本申请实施例将主要以待处理数据为待处理数据表为例进行说明。
步骤102、提取待处理数据的数据特性信息。
待处理数据的数据特性信息,为能用于反映待处理数据自身数据特性的相关信息,可以包括待处理数据的不同维度数据特征。
其中,待处理数据的不同维度数据特征,包括但不限于待处理数据在数据的完整性、唯一性、有效性、一致性、准确性和及时性中至少部分维度对应的特征。
针对待处理数据为包括至少一个字段的待处理数据表的情况,待处理数据的不同维度数据特征可以包括但不限于:待处理数据表和/或待处理数据表的字段在数据的完整性、唯一性、有效性、一致性、准确性和及时性中至少部分维度对应的特征。
从而对于待处理数据表等待处理数据,具体可提取数据表和/或表中字段在上述各维度的特征,作为待处理数据的数据特性信息。
步骤103、对待处理数据执行与待处理数据执行的数据特性信息相关的质量判定处理,得到待处理数据的第一质量确定结果。
本步骤对待处理数据的质量判定,本质是基于待处理数据的记录缺失、数据重复、数据错误等数据资产本身,来衡量待处理数据质量的好坏。可以包括基于数据质量评分规则对待处理数据进行质量评分判定,和基于相似数据的质量等级对待处理数据进行质量等级判定中的至少一种。
优选的,本申请实施例结合上述两种判定方式,即基于数据质量评分规则的质量评分判定的方式,以及基于相似数据的质量等级进行质量等级判定的方式,来实现对待处理数据执行与其数据特性信息相关的质量判定处理,具体如下:
(一)基于数据质量评分规则的质量评分判定
该方式下,根据预设的数据质量评分规则,确定待处理数据的不同维度数据特征分别对应的质量评分;根据所述不同维度数据特征分别对应的质量评分,确定待处理数据对应的综合得分。
针对数据湖或数据仓库等中的数据库表、字段,可预先为其设置对应的数据质量评分规则,可选的,可以为每个表、字段分别构建一条或多条质量评分规则,并可设置各质量评分规则的权重,以用于基于加权方式平衡各规则的评分分值,得到数据表等待处理数据的综合得分,其中,可以但不限于在构建质量稽核任务时同时设置各规则的权重。
可选的,针对数据表形式的待处理数据,为其设置的数据质量评分规则,包括但不限于表级规则、字段级规则、跨表规则和跨字段规则中的至少部分规则。其中,表级规则和跨表规则用于对待处理数据表的相应维度数据特征进行评分,字段级规则和跨字段规则用于对待处理数据表的字段的相应维度数据特征进行评分。
结合参见图2所示的数据资产质量动态判定流程图,所设置的表级规则、跨表规则可以包括但不限于针对数据表在数据的完整性、唯一性、有效性、一致性、准确性和及时性等方面的质量评分规则;所设置的字段级规则、跨字段规则,可以包括但不限于针对数据表中的字段在完整性、唯一性、有效性、一致性、准确性和及时性等方面的质量评分规则。
基于所设置的字段级及表级相关评分规则,在对待处理数据表进行基于数据质量评分规则的质量判定时,可首先基于字段级规则和跨字段规则对待处理数据表中的字段进行质量评分,其中,具体使用针对字段所设置的评分规则,确定待处理数据表中满足该规则的字段条数,本实施例称其为“有效行数”,并基于待数据处理表的总行数,确定出字段在该规则下的评分,如具体为X/Y,通过遍历针对字段设置的每条规则,得到字段在其对应的每条规则下的质量得分,当每个字段有多条质量规则时,可对各条规则下的数据质量评分进行加权平均得到字段的总得分。待处理数据表的综合得分,可进一步结合字段的评分及对应的针对数据表的质量评分规则来确定,一张表有多个字段时,可通过在字段的评分基础上再加权平均,得到待处理数据表的综合得分。
参见图3,示出了不同评分规则对应的具体计算式,其中,“列”是指数据表的字段,e表示对应规则的权重。
(二)基于相似数据的质量等级进行质量等级判定
申请人发现,质量分数越高并不一定代表数据质量越好,比如用于邮件快递的地址准确率90%,而用于公司员工性别比例分析的性别字段准确率60%,实际需求60%可能还优于90%。因此,本申请实施例在基于数量质量评分规则的数据质量判定基础上,还基于算法模型综合相似表的质量评分及质量等级判定,为待处理数据如待处理数据表确定其对应的数据质量等级,而不仅仅使用质量评分指标。
该方式下,根据待处理数据的相似数据的质量等级,确定待处理数据的质量等级;待处理数据的相似数据的质量等级为通过结合业务场景需求(如用于邮件快递的地址准确率90%,可能仍不能满足要求)对所述相似数据的不同维度数据特征的质量评分进行处理所得的结果。
该根据待处理数据的相似数据的质量等级,确定待处理数据的质量等级过程,可进一步实现为:
11)获取待处理数据的预设类型数据信息和质量评价数据。
待处理数据的预设类型数据信息,可以包括但不限于待数据数据表的表信息、字段信息,以及业务元数据等信息。
其中,待数据数据表的表信息,包括但不限于表名、创建时间、类型等信息;字段信息包括但不限于字段名、类型、精度、长度等信息;业务元数据包括但不限于来源系统、管理部门、负责人、业务含义等信息。
待处理数据的质量评价数据,可以包括但不限于待处理数据表的基于质量评分规则的质量评分和/或用户对该数据表中数据资产的评价反馈等信息。
12)将待处理数据的预设类型数据信息和质量评价数据输入预先构建的第一处理模型,得到第一处理模型基于待处理数据的相似数据的质量等级输出的待处理数据的质量等级。
其中,待处理数据的相似数据为:与待处理数据在对应的预设类型数据信息和质量评价数据方面满足相似性要求的数据。
所述的相似性要求,可以但不限于是指,待处理数据与其相似数据在表类型与业务元数据的业务含义等方面的相似度达到第一阈值,并在质量评分/用户给出的质量评价反馈等方面的相似度达到第二阈值。第一阈值与第二阈值可以相同或不同,不做限制。
该实施方式下,可预先根据数据湖或数据仓库等中的表信息、字段信息、业务元数据、质量评分、相似表的质量等级、用户对数据资产的评价等信息,利用机器学习算法进行表相似性模型训练,得到第一处理模型,使得该第一处理模型能用于基于待处理数据表在样本数据中对应的相似表的质量等级,给出待处理数据表的质量等级。
从而在基于步骤11)获取待处理数据的预设类型数据信息和质量评价数据后,如获取待数据处理表的表信息、字段信息、业务元数据,以及质量评分、用户对该数据表数据资产的评价反馈等信息后,可进一步调用第一处理模型即表相似性模型,并将这些信息输入该模型,相应得到该模型输出的待数据处理表的质量等级。
待处理数据的第一质量确定结果,相应可以包括待处理数据基于数据质量评分规则所得的综合得分,和/或基于待处理数据的相似数据为待处理数据所确定的质量等级。
步骤104、确定用户对所述待处理数据的需求信息。
其中,可首先获取用户在待处理数据如待处理数据表所属应用系统中的行为信息,结合参见图2,所获取的行为信息,包括但不限于用户在待处理数据所属系统的数据访问日志、数据开发日志、功能使用日志、系统登录日志和历史评价数据中的至少部分信息。
在此基础上,进一步将获取的用户行为信息,输入预先构建的第二处理模型,得到第二处理模型输出的用户对待处理数据的需求场景类型预测结果,作为用户对待处理数据的需求信息。
其中,不同的需求场景类型表征用户在使用待处理数据时对待处理数据的数据质量高低程度的不同要求。
以下举例说明:
比如,针对人口统计/人口地域分布普查、邮件快递、发订单等场景,将不同场景进行对数据质量要求程度的划分,比如人口统计/人口地域分布普查等场景对数据质量的要求相对较低,有70%的精度就能大致满足需求,邮件快递/发订单则要求高,90%都不算高质量,鉴于此,本申请实施例基于不同场景对数据质量的要求高低,对不同场景进行需求场景类型划分,例如具体划分为1/2/3/4四种需求场景类型,且1/2/3/4各需求场景类型对数据质量要求的高低程度依次降低。该划分方式下,邮件快递/发订单等对数据质量要求较高的场景,可划分为属于第1类场景,而人口统计/人口地域分布普查等对数据质量要求较低的场景,则可划分为属于其他类别场景,如第4类场景。
本申请实施例预先根据用户的数据访问日志、用户数据开发日志、用户功能使用日志、用户系统登录日志、用户历史对数据的评价等数据,并结合上述的需求场景类型划分策略,利用机器学习算法构建用户需求场景预测模型,本实施例将这里所构建的模型称为第二处理模型,该模型能够根据输入的用户行为信息,如用户的数据访问日志、数据开发日志、用户功能使用日志、用户系统登录日志等,预测得到用户对待处理数据的需求场景类型,如属于上述的第1类,还是属于其他类别需求场景等。以通过模型输出的需求场景类型预测结果,来表征用户对待处理数据如待处理需求表的数据质量要求的高低程度。
步骤105、根据所述需求信息和所述第一质量确定结果,确定待处理数据的数据质量,得到待处理数据的第二质量确定结果。
在得到用户对待处理数据的需求信息之后,本申请结合用户对待处理数据的需求信息,以及基于数据自身特性所得的待数据处理的第一质量确定结果,来对待处理数据的质量进行综合判定,相应得到待处理数据的第二质量确定结果。
容易理解,该第二质量确定结果中融入了用户对待处理数据的需求因素,能够帮助用户真正了解待处理数据相对于用户自身需求情况下的质量状况。
该步骤中,可选的,具体可将第二处理模型输出的需求场景类型和待处理数据的第一质量确定结果,输入预先构建的第三处理模型,得到第三处理模型输出的待处理数据的质量等级,作为第二质量确定结果。
其中,用户对待处理数据的需求场景类型对第三处理模型的用于产生输出结果的处理过程的影响,与所述需求场景类型表征的用户在使用待处理数据时对待处理数据的数据质量要求的高低程度相关。
例如,假设第三处理模型输出的数据质量等级共分为三种:高、中、低,并假设待处理数据的基于规则的质量评分为90分,该假定前提下,如果用户的需求场景类型为1(如对应邮件快递/发订单等对数据质量要求较高的场景),则第三处理模型输出的该待处理数据的数据质量等级可以为“中”,具体表征90分的评分分值对于邮件快递/发订单等对数据质量要求较高的场景来说,质量一般,不足够精准;如果用户的需求场景类型为4(如对应人口统计/人口地域分布普查等场景),则第三处理模型输出的该待处理数据的数据质量等级可以为“高”,相应表征90分的评分分值对于人口统计/人口地域分布普查等对数据质量要求较低的场景来说,质量足够优良。
满足用户需求的数据质量判定结果,才是合理的数据质量判定结果。本申请实施例根据大量数据样本的基于规则的数据质量评分、基于相似数据给出的数据质量等级,并结合用户需求场景类型,预先构建数据质量等级动态判定模型,即上述的第三处理模型,并基于该模型动态判定当前用户对每个数据资产的质量等级,以此使得能够帮助用户真正了解待处理数据相对于用户自身需求情况下的质量状况。
由以上方案可知,本申请公开的数据处理方法,提取获取的待处理数据的数据特性信息,对待处理数据执行与其数据特性信息相关的质量判定处理,得到待处理数据的第一质量确定结果,并确定用户对待处理数据的需求信息,根据用户对待处理处理的需求信息和待处理处理的第一质量确定结果,确定待处理数据的数据质量,得到待处理数据的第二质量确定结果。可见,在对待处理数据进行质量判定时,本申请除了执行与待处理数据的数据特性信息相关的质量判定处理,还将用户需求引入待处理数据的质量判定中,结合用户对待处理数据的实际使用需求,动态判定待处理数据的质量,从而能够帮助用户结合自身需求真正了解待处理数据相比于其实际需求情况下的质量状况,提升了数据挖掘的准确率与效率,进而能够改善数据价值的挖掘和数据要素的流通情况,促进数据资产消费。
在一实施例中,参见图4示出的数据处理方法流程图,本申请提供的数据处理方法,在步骤105之后,还可以包括以下处理:
步骤106、生成对应于所述第二质量确定结果的提示信息,并向用户反馈所述提示信息;或,根据不同待处理数据分别对应的第二质量确定结果,从不同待处理数据中选取满足质量条件的目标数据,以向用户推送所述目标数据。
可选的,在一实施方式中,在得到待处理数据的第二质量确定结果后,可生成与第二质量确定相匹配的提示信息,示例性地,结合参见图2,针对第三处理模型提供的高、中、低三种质量等级,可分别对应作出以下提示:
高:绿灯,质量良好,建议使用;
中:黄灯,质量合格,可以使用;
低:红灯,质量较差,不建议使用。
通过上述的提示处理,便于用户动态、直观的获知数据资产相对于其实际需求情况下的质量高低。
但不限于此,在其他实施方式中,也可以根据多个不同待处理数据分别对应的第二质量确定结果,从多个不同的待处理数据中选取满足质量条件的目标数据,并向用户推送选取的目标数据。
该质量条件可以设定为:数据的质量等级达到预设等级,如数据的质量等级至少为“中”,或数据的质量等级达到“高”等。
该实施方式下,可从多个不同待处理数据中,择优筛选出相对于用户实际使用需求来说,质量等级相对较高的目标数据推荐给用户,供用户使用。
本申请实施例通过生成对应于待处理数据的第二质量确定结果的提示信息并向用户反馈,或者,通过根据不同待处理数据分别对应的第二质量确定结果,从不同待处理数据中择优选取满足质量条件的目标数据向用户推送,能够便于用户动态、直观的获知对于其实际需求而言数据质量较高的数据加以使用,从而能够进一步改善数据价值的挖掘和数据要素的流通情况,促进数据资产消费。
对应于上述的数据处理方法,本申请实施例还提供一种数据处理装置,参见图5,提供了该装置的组成结构,具体包括:
获取单元501,用于获取待处理的待处理数据;
提取单元502,用于提取所述待处理数据的数据特性信息;
第一质量确定单元503,用于对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果;
需求确定单元504,用于确定用户对所述待处理数据的需求信息;
第二质量确定单元505,用于根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果。
在一实施方式中,待处理数据的数据特性信息,包括所述待处理数据的不同维度数据特征;
第一质量确定单元503,具体用于:
根据预设的数据质量评分规则,确定所述待处理数据的不同维度数据特征分别对应的质量评分;根据所述不同维度数据特征分别对应的质量评分,确定所述待处理数据对应的综合得分;
和/或,根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级;所述相似数据的质量等级为通过结合业务场景需求对所述相似数据的不同维度数据特征的质量评分进行处理所得的结果;
其中,所述第一质量确定结果包括所述综合得分和所述待处理数据的质量等级中的至少一种。
在一实施方式中,待处理数据包括待处理数据表中的数据,所述待处理数据表包括至少一个字段;
所述待处理数据的不同维度数据特征包括:所述待处理数据表和/或所述待处理数据表的字段在数据的完整性、唯一性、有效性、一致性、准确性和及时性中至少部分维度对应的特征;
所述数据质量评分规则包括表级规则、字段级规则、跨表规则和跨字段规则中的至少部分规则;其中,所述表级规则和所述跨表规则用于对所述待处理数据表的相应维度数据特征进行评分,所述字段级规则和所述跨字段规则用于对所述待处理数据表的字段的相应维度数据特征进行评分。
在一实施方式中,第一质量确定单元503,在根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级时,具体用于:
获取所述待处理数据的预设类型数据信息和质量评价数据;
将所述待处理数据的预设类型数据信息和质量评价数据输入预先构建的第一处理模型,得到所述第一处理模型基于所述待处理数据的相似数据的质量等级输出的所述待处理数据的质量等级;
其中,所述待处理数据的相似数据为:与所述待处理数据在对应的预设类型数据信息和质量评价数据方面满足相似性要求的数据。
在一实施方式中,需求确定单元504,具体用于:
获取所述用户在所述待处理数据所属应用系统中的行为信息;
将所述行为信息输入预先构建的第二处理模型,得到所述第二处理模型输出的所述用户对所述待处理数据的需求场景类型预测结果,作为所述用户对所述待处理数据的需求信息;
其中,不同的需求场景类型表征用户在使用所述待处理数据时对所述待处理数据的数据质量的不同要求。
在一实施方式中,所述行为信息包括所述用户在所述待处理数据所属系统的数据访问日志、数据开发日志、功能使用日志、系统登录日志和历史评价数据中的至少部分信息。
在一实施方式中,第二质量确定单元505,具体用于:
将所述需求场景类型和所述待处理数据的第一质量确定结果输入预先构建的第三处理模型,得到所述第三处理模型输出的所述待处理数据的质量等级,作为所述第二质量确定结果;
其中,所述需求场景类型对所述第三处理模型的用于产生输出结果的处理过程的影响,与所述需求场景类型表征的用户在使用所述待处理数据时对所述待处理数据的数据质量要求的高低程度相关。
在一实施方式中,上述装置还包括如下的任意一种:
提示单元,用于生成对应于所述第二质量确定结果的提示信息,并向所述用户反馈所述提示信息;
推送单元,用于根据不同待处理数据分别对应的第二质量确定结果,从所述不同待处理数据中选取满足质量条件的目标数据,以向用户推送所述目标数据。
对于本申请实施例公开的数据处理装置而言,由于其与上文方法实施例公开的数据处理方法相对应,所以描述的比较简单,相关相似之处请参见上文方法实施例的说明即可,此处不再详述。
本申请实施例还公开一种电子设备,电子设备的组成结构,如图6所示,至少包括:
存储器10,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器20,用于通过执行计算机指令集,实现如上文任一方法实施例公开的数据处理方法。
处理器20可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。
电子设备具备显示装置和/或具备显示接口、能外接显示装置。
可选的,电子设备还包括摄像头组件,和/或连接有外置摄像头组件。
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
综上所述,本申请实施例公开的数据处理方法、装置和电子设备,至少具备以下技术优势:
a、数据质量的定量判定:已有方案的数据质量评估,主要依据数据表的本身缺陷,比如数据重复、数据缺失、数据不一致、数据等信息,通过数据探查后让用户感知数据质量情况,本申请提供了定量的数据质量评分模式,让用户更容易了解数据质量情况;
2)在基于数据自身特性的质量判定中结合使用质量等级而非仅使用质量评分:质量分数越高并不一定代表数据质量越好,本申请在数据质量定量判定的基础上,还基于算法模型综合了相似表的质量评分及质量等级情况,来为待处理数据推荐数据质量等级,而不仅仅使用质量评分指标;
3)数据质量判定结合了用户的需求场景:不同的需求场景对质量的要求是不同的,本申请还结合用户需求场景因素,通过用户需求场景预测,将用户需求和数据质量评分、相似表质量等级结合,动态计算当前用户的数据资产质量等级,更直观的满足实际业务需求。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据处理方法,所述方法包括:
获取待处理数据;
提取所述待处理数据的数据特性信息;
对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果;
确定用户对所述待处理数据的需求信息;
根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果。
2.根据权利要求1所述的方法,所述待处理数据的数据特性信息,包括所述待处理数据的不同维度数据特征;
所述对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果,包括:
根据预设的数据质量评分规则,确定所述待处理数据的不同维度数据特征分别对应的质量评分;根据所述不同维度数据特征分别对应的质量评分,确定所述待处理数据对应的综合得分;
和/或,根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级;所述相似数据的质量等级为通过结合业务场景需求对所述相似数据的不同维度数据特征的质量评分进行处理所得的结果;
其中,所述第一质量确定结果包括所述综合得分和所述待处理数据的质量等级中的至少一种。
3.根据权利要求2所述的方法,所述待处理数据包括待处理数据表中的数据,所述待处理数据表包括至少一个字段;
所述待处理数据的不同维度数据特征包括:所述待处理数据表和/或所述待处理数据表的字段在数据的完整性、唯一性、有效性、一致性、准确性和及时性中至少部分维度对应的特征;
所述数据质量评分规则包括表级规则、字段级规则、跨表规则和跨字段规则中的至少部分规则;其中,所述表级规则和所述跨表规则用于对所述待处理数据表的相应维度数据特征进行评分,所述字段级规则和所述跨字段规则用于对所述待处理数据表的字段的相应维度数据特征进行评分。
4.根据权利要求2所述的方法,所述根据所述待处理数据的相似数据的质量等级,确定所述待处理数据的质量等级,包括:
获取所述待处理数据的预设类型数据信息和质量评价数据;
将所述待处理数据的预设类型数据信息和质量评价数据输入预先构建的第一处理模型,得到所述第一处理模型基于所述待处理数据的相似数据的质量等级输出的所述待处理数据的质量等级;
其中,所述待处理数据的相似数据为:与所述待处理数据在对应的预设类型数据信息和质量评价数据方面满足相似性要求的数据。
5.根据权利要求1所述的方法,所述确定用户对所述待处理数据的需求信息,包括:
获取所述用户在所述待处理数据所属应用系统中的行为信息;
将所述行为信息输入预先构建的第二处理模型,得到所述第二处理模型输出的所述用户对所述待处理数据的需求场景类型预测结果,作为所述用户对所述待处理数据的需求信息;
其中,不同的需求场景类型表征用户在使用所述待处理数据时对所述待处理数据的数据质量的不同要求。
6.根据权利要求5所述的方法,所述行为信息包括所述用户在所述待处理数据所属系统的数据访问日志、数据开发日志、功能使用日志、系统登录日志和历史评价数据中的至少部分信息。
7.根据权利要求5所述的方法,所述根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果,包括:
将所述需求场景类型和所述待处理数据的第一质量确定结果输入预先构建的第三处理模型,得到所述第三处理模型输出的所述待处理数据的质量等级,作为所述第二质量确定结果;
其中,所述需求场景类型对所述第三处理模型的用于产生输出结果的处理过程的影响,与所述需求场景类型表征的用户在使用所述待处理数据时对所述待处理数据的数据质量要求的高低程度相关。
8.根据权利要求1所述的方法,在得到所述待处理数据的第二质量确定结果之后,还包括:
生成对应于所述第二质量确定结果的提示信息,并向所述用户反馈所述提示信息;
或,根据不同待处理数据分别对应的第二质量确定结果,从所述不同待处理数据中选取满足质量条件的目标数据,以向用户推送所述目标数据。
9.一种数据处理装置,所述装置包括:
获取单元,用于获取待处理的待处理数据;
提取单元,用于提取所述待处理数据的数据特性信息;
第一质量确定单元,用于对所述待处理数据执行与所述数据特性信息相关的质量判定处理,得到所述待处理数据的第一质量确定结果;
需求确定单元,用于确定用户对所述待处理数据的需求信息;
第二质量确定单元,用于根据所述需求信息和所述第一质量确定结果,确定所述待处理数据的数据质量,得到所述待处理数据的第二质量确定结果。
10.一种电子设备,包括:
存储器,用于至少存储一组计算机指令集;
处理器,用于通过调用并执行所述存储器中存储的所述指令集,实现如权利要求1-8任一项所述的数据处理方法。
CN202211230628.1A 2022-09-30 2022-09-30 数据处理方法、装置和电子设备 Pending CN115495503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211230628.1A CN115495503A (zh) 2022-09-30 2022-09-30 数据处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211230628.1A CN115495503A (zh) 2022-09-30 2022-09-30 数据处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN115495503A true CN115495503A (zh) 2022-12-20

Family

ID=84474925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211230628.1A Pending CN115495503A (zh) 2022-09-30 2022-09-30 数据处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN115495503A (zh)

Similar Documents

Publication Publication Date Title
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
US11960471B2 (en) Using lineage to infer data quality issues
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN105247507A (zh) 品牌的影响力得分
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
CN106874253A (zh) 识别敏感信息的方法及装置
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111612581A (zh) 一种物品推荐的方法、装置、设备及存储介质
CN114330752A (zh) 排序模型训练方法和排序方法
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN115174250A (zh) 网络资产安全评估方法、装置、电子设备及存储介质
CN110858368A (zh) 一种数据评估服务价值确定系统和方法
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置
Ponelis et al. A descriptive framework of business intelligence derived from definitions by academics, practitioners and vendors
CN111859146B (zh) 信息挖掘方法、装置及电子设备
JP6048691B2 (ja) 不満抽出装置,不満抽出方法および不満抽出プログラム
CN115495503A (zh) 数据处理方法、装置和电子设备
CN108629506A (zh) 风控模型的建模方法、装置、计算机设备和存储介质
CN113850523A (zh) 基于数据补全的esg指数确定方法及相关产品
CN114334696A (zh) 质量检测方法及装置、电子设备和计算机可读存储介质
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
KR20190104745A (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
CN110941714A (zh) 分类规则库构建方法、应用分类方法及装置
CN113704103B (zh) 测试用例推荐方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination