CN112613764A - 数据处理方法、装置以及电子设备 - Google Patents

数据处理方法、装置以及电子设备 Download PDF

Info

Publication number
CN112613764A
CN112613764A CN202011573215.4A CN202011573215A CN112613764A CN 112613764 A CN112613764 A CN 112613764A CN 202011573215 A CN202011573215 A CN 202011573215A CN 112613764 A CN112613764 A CN 112613764A
Authority
CN
China
Prior art keywords
data
source field
detected
determining
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011573215.4A
Other languages
English (en)
Inventor
任亮
傅雨梅
王超
曹丙杰
刘书杰
赵大卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyin Intelligent Technology Co ltd
Original Assignee
Beijing Zhiyin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyin Intelligent Technology Co ltd filed Critical Beijing Zhiyin Intelligent Technology Co ltd
Priority to CN202011573215.4A priority Critical patent/CN112613764A/zh
Publication of CN112613764A publication Critical patent/CN112613764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本申请提供了一种数据处理方法、装置以及电子设备,涉及数据处理技术领域,缓解了人工分析数据导致数据质量较差的技术问题。该方法包括:根据预设数据标准模板生成数据标准规则;根据所述数据标准规则确定第一待检测数据中的第一源字段;当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。

Description

数据处理方法、装置以及电子设备
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种数据处理方法、装置以及电子设备。
背景技术
目前,无论是基于银行风险业务的基础内部数据还是第三方厂商提供的互联网上舆情司法等外部数据,都需要进行相关数据梳理分析及数据质量管理工作,所以,现有的分析方法主要是通过数据质量标准设计、数据差异分析、数据质量评估和数据质量提升等方面分析数据,发现风险数据。分析数据时,主要都是人工制定数据质量标准,进而对数据进行数据差异分析、数据质量评估和数据质量提升等操作。
但是,由于数据越来越多元化,例如,数据除了数字或字母等组成的结构化数据,还多了许多如图像、语音及视频等半结构化数据或非结构化数据,所以,针对多元化数据,当前人工制定的数据质量标准已经不能适用于对多元化数据进行分析,导致人工分析多元化数据的准确率较低。
发明内容
本申请的目的在于提供一种数据处理方法、装置以及电子设备,以缓解人工分析数据导致数据质量较差的技术问题。
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
根据预设数据标准模板生成数据标准规则;
根据所述数据标准规则确定第一待检测数据中的第一源字段;
当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
在一个可能的实现中,当确定所述第一待检测数据中无所述第一风险数据时,所述方法还包括:
基于所述数据标准规则,确定所述第一源字段对应的第二待检测数据中的第二源字段;
当所述第二源字段缺失时,确定缺失的所述第二源字段对应的第二数据为第二风险数据;
将所述第一源字段对应的所述第一数据确定为所述第二数据。
在一个可能的实现中,所述数据标准规则的类型包括:预设基本属性、预设业务属性、预设技术属性及预设管控属性;所述根据所述数据标准规则确定第一待检测数据中的第一源字段的步骤,包括:
依次根据所述预设基本属性、所述预设业务属性、所述预设技术属性及所述预设管控属性确定第一待检测数据中的第一源字段。
在一个可能的实现中,所述当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据的步骤,包括:
当根据所述数据标准规则中的任一个类型确定第一待检测数据中的第一源字段,所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
在一个可能的实现中,所述方法还包括:
通过自动调度方法对所述第一待检测数据和/或所述第二待检测数据进行检测,并根据检测得到的所述第一风险数据和/或所述第二风险数据生成数据质量报告。
在一个可能的实现中,所述方法还包括:
如果所述第一待检测数据中存在所述数据标准规则之外的第三源字段,判断所述第三源字段是否符合所述数据标准规则的预设范围;
如果所述第三源字段符合所述预设范围,根据所述第三源字段更新所述数据标准规则。
在一个可能的实现中,所述方法还包括:
确定所述第一待检测数据及所述第二待检测数据的优先级,并根据所述优先级对所述第一待检测数据及所述第二待检测数据进行检测。
在一个可能的实现中,包括:
生成模块,用于根据预设数据标准模板生成数据标准规则;
第一确定模块,用于根据所述数据标准规则确定第一待检测数据中的第一源字段;
第二确定模块,用于当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种数据处理方法、装置及电子设备,能够根据预设数据标准模板生成数据标准规则;根据数据标准规则确定第一待检测数据中的第一源字段;当第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。本方案中,电子设备先通过预设数据标准模板生成统一的数据标准规则,然后根据数据标准规则确定第一待检测数据中的第一源字段,当第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。所以,根据统一的数据标准规则确定待检测数据中的源字段,可以自动分析出待检测数据中的风险数据,提高了分析风险数据的准确率与效率,进而可以提升数据质量,缓解了人工分析数据导致数据质量较差的技术问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据处理方法的流程示意图;
图2为本申请实施例提供的数据处理装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,无论是基于银行风险业务的基础内部数据还是第三方厂商提供的互联网上舆情司法等外部数据,都需要进行相关数据梳理分析及数据质量管理工作,所以,现有的分析方法主要是通过数据质量标准设计、数据差异分析、数据质量评估和数据质量提升等方面分析数据,发现风险数据,并且,主要都是人工制定数据质量标准,进而对数据进行数据差异分析、数据质量评估和数据质量提升等操作。但是,由于数据越来越多元化,例如,数据除了数字或字母等组成的结构化数据,还多了许多如图像、语音及视频等半结构化数据或非结构化数据,所以,针对多元化数据,当前人工制定的数据质量标准已经不能适用于对多元化数据进行分析,导致人工分析多元化数据的准确率较低。
基于此,本申请实施例提供了一种数据处理方法、装置以及电子设备,通过该方法可以缓解人工分析数据导致数据质量较差的技术问题。
下面结合附图对本申请实施例进行进一步地介绍。
图1为本申请实施例提供的一种数据处理方法的流程示意图。其中,该方法应用于电子设备,如图1所示,该方法包括:
步骤S110,根据预设数据标准模板生成数据标准规则;
需要说明的是,预设数据标准模板是预先设定的包含多种数据标准信息的模板,例如,预设数据标准模板是设定的包含银行数据标准信息的模板,根据预设数据标准模板可以生成关于银行的数据标准规则。
在本步骤中,电子设备可以根据预设数据标准模板生成统一的数据标准规则,进而,根据数据标准规则执行下列步骤,避免信息遗漏。
步骤S120,根据数据标准规则确定第一待检测数据中的第一源字段;
需要说明的是,第一待检测数据可以是多种业务系统内的数据,第一待检测数据中的每项第一源字段均代表各自的数据,例如,第一待检测数据是第一银行业务系统内的数据,根据数据标准规则确定第一待检测数据中的第一源字段时,可以将数据标准规则与多个第一源字段逐一进行匹配,当数据标准规则匹配到对应的第一源字段,则说明该第一源字段对应的数据是正常数据,当数据标准规则没有匹配到对应的第一源字段,则说明该第一源字段缺失。
具体的,在匹配时,针对多元化数据,可以利用智能化的技术和工具,如机器学习、自然语义分析、图像识别、语音识别等,所以能够有效地识别出风险数据,进而解放人力,提高识别风险数据的效率和精确度。
步骤S130,当第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。
本申请实施例可以根据预设数据标准模板生成数据标准规则;根据数据标准规则确定第一待检测数据中的第一源字段;当第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。本方案中,电子设备先通过预设数据标准模板生成统一的数据标准规则,然后根据数据标准规则确定第一待检测数据中的第一源字段,当第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。所以,根据统一的数据标准规则确定待检测数据中的源字段,可以自动分析出待检测数据中的风险数据,提高了分析风险数据的准确率与效率,进而可以提升数据质量,缓解了人工分析数据导致数据质量较差的技术问题,并且该分析风险数据的方法更容易维护管理及更新迭代。
下面对上述步骤进行详细介绍。
在一些实施例中,可以将两份待检测数据中的源字段进行对比,确定风险数据及确定风险数据对应的正常数据,进而可以根据正常数据修改风险数据。作为一个示例,当确定第一待检测数据中无第一风险数据时,该方法还包括:
步骤a),基于数据标准规则,确定第一源字段对应的第二待检测数据中的第二源字段;
步骤b),当第二源字段缺失时,确定缺失的第二源字段对应的第二数据为第二风险数据;
步骤c),将第一源字段对应的第一数据确定为第二数据。
对于上述步骤a),需要说明的是,当确定第一待检测数据中无第一风险数据时,说明第一待检测数据中的第一数据均正常。示例性的,第一待检测数据包括用户1的身份数据,即包括该身份数据的第一源字段,第二待检测数据也包括用户1的身份数据,即包括该身份数据的第二源字段,基于数据标准规则,将第一待检测数据中的第一源字段与第二待检测数据中的第二源字段进行匹配,如果第一源字段匹配到对应的第二源字段,则说明该第二源字段对应的数据是正常数据,当数据标准规则没有匹配到对应的第二源字段,则说明该第二源字段缺失。
对于上述步骤c),需要说明的是,由于第一源字段对应的第一数据与第二源字段对应的第二数据相同,所以,当第二源字段缺失时,可以将第一源字段对应的第一数据确定为第二源字段对应的第二数据,进而可以根据第一数据修改第二数据。
在本发明实施例中,基于数据标准规则,确定第一源字段对应的第二待检测数据中的第二源字段;当第二源字段缺失时,确定缺失的第二源字段对应的第二数据为第二风险数据;将第一源字段对应的第一数据确定为第二源字段对应的第二数据。所以,当第二源字段缺失时,电子设备可以将第一源字段对应的第一数据作为第二源字段的修改方案,将第二源字段对应的第二数据修改为第一数据,因此,可以快速的针对风险数据确定出修改方案,实现了不同待检测数据之间的信息共通和共享。
在一些实施例中,基于上述步骤S110,可以生成包含多种类型的数据标准规则。作为一个示例,数据标准规则的类型包括:预设基本属性、预设业务属性、预设技术属性及预设管控属性;上述步骤S120包括以下步骤:
步骤d),依次根据预设基本属性、预设业务属性、预设技术属性及预设管控属性确定第一待检测数据中的第一源字段。
需要说明的是,数据包括数据项,数据标准规则的类型包括:预设基本属性、预设业务属性、预设技术属性及预设管控属性,其中,预设基本属性是对标准化数据项的分类,主要包括:标准项编号、所属表编号、风险类别、信息大类、信息小类、标准化数据项的标识项及标准化数据项名称等;预设业务属性是对数据业务含义的统一解释及要求,主要包括:业务定义、业务规则、监管要求及用途等;预设技术属性是在应用环境中对数据的统一技术要求,主要包括:数据类型及数据长度等;预设管控属性是对数据项应用及维护的归口部门及状态的描述,主要包括:数据项的数据标准管理部门、数据标准制定依据、是否存在源系统、存在源系统的名称、源表名、源字段名及合规修改建议等。
所以,可以依次根据预设基本属性、预设业务属性、预设技术属性及预设管控属性确定第一待检测数据中的第一源字段。具体的,先根据预设基本属性确定第一待检测数据中的第一源字段,当确定第一源字段无缺失时,继续根据预设业务属性确定第一待检测数据中的第一源字段,如果第一源字段缺失,确定缺失的第一源字段对应的第一数据为第一风险数据并标记,然后继续根据预设技术属性确定第一待检测数据中的第一源字段,最后根据预设管控属性确定第一待检测数据中的第一源字段。
本申请实施例可以依次根据预设基本属性、预设业务属性、预设技术属性及预设管控属性确定第一待检测数据中的第一源字段。所以,电子设备可以根据数据标准规则的多种类型确定第一待检测数据中的第一源字段,进而,可以确定出第一风险数据,避免第一待检测数据中的第一风险数据遗漏。
在一些实施例中,当根据数据标准规则中的每一个类型确定第一待检测数据中的第一源字段时,在每一个类型都有可能出现风险数据。作为一个示例,上述步骤S130可以包括如下步骤:
步骤e),当根据数据标准规则中的任一个类型确定第一待检测数据中的第一源字段,第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。
在本发明实施例中,当根据数据标准规则中的任一个类型确定第一待检测数据中的第一源字段,第一源字段缺失时,确定缺失的第一源字段对应的第一数据为第一风险数据。所以,在根据任一个类型确定第一待检测数据中的第一源字段时,均可能出现第一风险数据,电子设备确定并标记第一风险数据,以便最后生成包含第一风险数据的数据表。
在一些实施例中,可以通过自动调度方法对第一待检测数据和/或第二待检测数据进行检测,并生成数据质量报告。作为一个示例,该方法还可以包括如下步骤:
步骤f),通过自动调度方法对第一待检测数据和/或第二待检测数据进行检测,并根据检测得到的第一风险数据和/或第二风险数据生成数据质量报告。
需要说明的是,自动调度方法是指以电子计算机为核心的控制系统和远动技术,具体的,可以设置检测周期,例如,设置每经过一星期自动对第一待检测数据和/或第二待检测数据检测一次,所以能够每一星期得到一份数据质量报告,并能对发现的风险数据的质量问题进行全流程管控。
电子设备可以采用业界主流的商业智能BI等技术进行数据质量管理的多维度分析,展示数据质量报告时,可以通过多种维度展示发现的数据质量问题,例如,可以根据统计图进行展示,可以根据风险管理数据的数据资产全景视图进行展示,可以根据企业数据资产库进行展示,还能根据数据质量分析过程中的风险数据历史分布情况进行展示,以便用户可以直观地看到统计情况。
本申请实施例中,电子设备能够通过自动调度方法对第一待检测数据和/或第二待检测数据进行检测,并根据检测得到的第一风险数据和/或第二风险数据生成数据质量报告。所以,可以根据得到的数据质量报告确定风险数据。
在一些实施例中,如果待检测数据中存在数据标准规则之外的第三源字段,可以根据第三源字段判断是否更新数据标准规则。作为一个示例,该方法可以包括如下步骤:
步骤g),如果第一待检测数据中存在数据标准规则之外的第三源字段,判断第三源字段是否符合数据标准规则的预设范围;
步骤h),如果第三源字段符合预设范围,根据第三源字段更新数据标准规则。
对于上述步骤g),需要说明的是,如果根据数据标准规则确定第一待检测数据中的第一源字段后,第一待检测数据中还存在第三源字段,即数据标准规则之外的第三源字段,对第三源字段进行分析,判断第三源字段是否符合数据标准规则的预设范围。
对于上述步骤h),需要说明的是,如果第三源字段符合预设范围,将第三源字段加入数据标准规则,根据第三源字段更新数据标准规则,如果第三源字段不符合预设范围,则不更新数据标准规则,对第三源字段可以不做处理。
本申请实施例中,如果第一待检测数据中存在数据标准规则之外的第三源字段,判断第三源字段是否符合数据标准规则的预设范围;如果第三源字段符合预设范围,根据第三源字段更新数据标准规则。所以,可以根据数据标准规则之外的源字段更新数据标准规则,进而得到标准最全的数据标准规则。
在一些实施例中,可以先确定第一待检测数据及第二待检测数据的优先级,并根据优先级对第一待检测数据及第二待检测数据进行检测。作为一个示例,该方法还可以包括以下步骤:
步骤i),确定第一待检测数据及第二待检测数据的优先级,并根据优先级对第一待检测数据及第二待检测数据进行检测。
需要说明的是,同一用户的信息可以同时出现在第一待检测数据及第二待检测数据中,例如,用户1在第一银行业务系统中办理开通银行卡业务,所以在第一待检测数据中有用户1的基本信息,用户1在第二银行业务系统中办理贷款业务,所以在第二待检测数据中仍有用户1的基本信息。确定优先级时,对同一业务系统内的待检测数据进行检测的优先级高,对不同业务系统之间进行检测的优先级低,例如,优先对同一银行业务系统中的待检测数据进行检测,当检测完毕后,会对其他的银行业务系统中的待检测数据进行检测。
本申请实施例能够确定第一待检测数据及第二待检测数据的优先级,并根据优先级对第一待检测数据及第二待检测数据进行检测。所以,先确定待检测数据的优先级,并根据优先级对待检测数据进行检测,可以区分待检测数据的紧迫程度,有效率的对待检测数据进行检测,实现了在低成本高效益情况下对待检测数据的数据质量进行提升。
在上述实施例的基础上,由于风险数据质量分析过程是对风险数据在规划和生命周期各阶段中引发的各类风险数据质量问题进行的管理活动,可以满足用户对风险数据的质量要求,所以,主要在三个阶段执行根据统一的数据标准规则确定待检测数据中的风险数据的步骤,具体的包括:
1).数据质量问题的事前预防阶段:该阶段主要针对业务提交之前(数据进入业务审批流程之前),即数据质量问题出现之前做好防范,预防错误的风险数据进入系统。
2).数据质量问题的事中识别阶段:该阶段主要针对业务审批阶段,即业务审批过程中,识别出进入系统的错误风险数据,预防风险数据进入事后分析阶段。
3).数据质量问题的事后分析阶段:该阶段主要针对业务审批完成的后期管理阶段,即业务审批完成后定期对风险数据使用风险数据检验程序进行检验,及时发现风险数据质量问题,防止错误数据影响风险分析结果。
因此,通过以上三个阶段分别执行根据统一的数据标准规则确定待检测数据中的风险数据的步骤,能最大程度的发现风险数据,进而可以提升待检测数据的质量,得出准确的风险分析结果,本申请利用完全基于DAMA国际标准的数据管理体系,还能大幅降低企业实施数据质量分析管理的实施周期和人力投入成本。
图2提供了一种数据处理装置的结构示意图。该装置可以应用于电子设备。如图2所示,该数据处理装置200包括:
生成模块201,用于根据预设数据标准模板生成数据标准规则;
第一确定模块202,用于根据所述数据标准规则确定第一待检测数据中的第一源字段;
第二确定模块203,用于当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
在一些实施例中,当确定所述待检测数据中无所述第一风险数据时,该数据处理装置用于:
基于所述数据标准规则,确定所述第一源字段对应的第二待检测数据中的第二源字段;
当所述第二源字段缺失时,确定缺失的所述第二源字段对应的第二数据为第二风险数据;
将所述第一源字段对应的所述第一数据确定为所述第二源字段对应的所述第二数据。
在一些实施例中,所述数据标准规则的类型包括:预设基本属性、预设业务属性、预设技术属性及预设管控属性;第一确定模块用于:
依次根据所述预设基本属性、所述预设业务属性、所述预设技术属性及所述预设管控属性确定第一待检测数据中的第一源字段。
在一些实施例中,第二确定模块用于:
当根据所述数据标准规则中的任一个类型确定第一待检测数据中的第一源字段,所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
在一些实施例中,该数据处理装置还用于:
通过自动调度方法对所述第一待检测数据和/或所述第二待检测数据进行检测,并根据检测得到的所述第一风险数据和/或所述第二风险数据生成数据质量报告。
在一些实施例中,该数据处理装置还用于:
如果所述第一待检测数据中存在所述数据标准规则之外的第三源字段,判断所述第三源字段是否符合所述数据标准规则的预设范围;
如果所述第三源字段符合所述预设范围,根据所述第三源字段更新所述数据标准规则。
在一些实施例中,该数据处理装置还用于:
确定所述第一待检测数据及所述第二待检测数据的优先级,并根据所述优先级对所述第一待检测数据及所述第二待检测数据进行检测。
本申请实施例提供的数据处理装置,与上述实施例提供的数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例提供的一种电子设备,如图3所示,电子设备300包括存储器301、处理器302,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图3,电子设备还包括:总线303和通信接口304,处理器302、通信接口304和存储器301通过总线303连接;处理器302用于执行存储器301中存储的可执行模块,例如计算机程序。
其中,存储器301可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口304(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线303可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器301用于存储程序,所述处理器302在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器302中,或者由处理器302实现。
处理器302可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301,处理器302读取存储器301中的信息,结合其硬件完成上述方法的步骤。
对应于上述数据处理方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述数据处理方法的步骤。
本申请实施例所提供的数据处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述数据处理方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
根据预设数据标准模板生成数据标准规则;
根据所述数据标准规则确定第一待检测数据中的第一源字段;
当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
2.根据权利要求1所述的数据处理方法,其特征在于,当确定所述第一待检测数据中无所述第一风险数据时,所述方法还包括:
基于所述数据标准规则,确定所述第一源字段对应的第二待检测数据中的第二源字段;
当所述第二源字段缺失时,确定缺失的所述第二源字段对应的第二数据为第二风险数据;
将所述第一源字段对应的所述第一数据确定为所述第二数据。
3.根据权利要求1所述的数据处理方法,其特征在于,所述数据标准规则的类型包括:预设基本属性、预设业务属性、预设技术属性及预设管控属性;所述根据所述数据标准规则确定第一待检测数据中的第一源字段的步骤,包括:
依次根据所述预设基本属性、所述预设业务属性、所述预设技术属性及所述预设管控属性确定第一待检测数据中的第一源字段。
4.根据权利要求3所述的数据处理方法,其特征在于,所述当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据的步骤,包括:
当根据所述数据标准规则中的任一个类型确定第一待检测数据中的第一源字段,所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
5.根据权利要求1-2任一项所述的数据处理方法,其特征在于,所述方法还包括:
通过自动调度方法对所述第一待检测数据和/或所述第二待检测数据进行检测,并根据检测得到的所述第一风险数据和/或所述第二风险数据生成数据质量报告。
6.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
如果所述第一待检测数据中存在所述数据标准规则之外的第三源字段,判断所述第三源字段是否符合所述数据标准规则的预设范围;
如果所述第三源字段符合所述预设范围,根据所述第三源字段更新所述数据标准规则。
7.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
确定所述第一待检测数据及所述第二待检测数据的优先级,并根据所述优先级对所述第一待检测数据及所述第二待检测数据进行检测。
8.一种数据处理装置,其特征在于,包括:
生成模块,用于根据预设数据标准模板生成数据标准规则;
第一确定模块,用于根据所述数据标准规则确定第一待检测数据中的第一源字段;
第二确定模块,用于当所述第一源字段缺失时,确定缺失的所述第一源字段对应的第一数据为第一风险数据。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。
CN202011573215.4A 2020-12-25 2020-12-25 数据处理方法、装置以及电子设备 Pending CN112613764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011573215.4A CN112613764A (zh) 2020-12-25 2020-12-25 数据处理方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011573215.4A CN112613764A (zh) 2020-12-25 2020-12-25 数据处理方法、装置以及电子设备

Publications (1)

Publication Number Publication Date
CN112613764A true CN112613764A (zh) 2021-04-06

Family

ID=75248032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011573215.4A Pending CN112613764A (zh) 2020-12-25 2020-12-25 数据处理方法、装置以及电子设备

Country Status (1)

Country Link
CN (1) CN112613764A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232159A1 (en) * 2015-02-09 2016-08-11 Ca, Inc. System and method of reducing data in a storage system
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN110377633A (zh) * 2019-06-21 2019-10-25 深圳壹账通智能科技有限公司 报表数据处理方法、装置、计算机设备和存储介质
CN111079186A (zh) * 2019-12-20 2020-04-28 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
CN111090641A (zh) * 2019-11-25 2020-05-01 南京医渡云医学技术有限公司 数据处理方法及装置、电子设备、存储介质
CN111143390A (zh) * 2019-12-30 2020-05-12 北京每日优鲜电子商务有限公司 更新元数据的方法及装置
CN111680029A (zh) * 2020-06-12 2020-09-18 普元信息技术股份有限公司 基于数据标准系统落标的优化管理方法
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232159A1 (en) * 2015-02-09 2016-08-11 Ca, Inc. System and method of reducing data in a storage system
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN110377633A (zh) * 2019-06-21 2019-10-25 深圳壹账通智能科技有限公司 报表数据处理方法、装置、计算机设备和存储介质
CN111090641A (zh) * 2019-11-25 2020-05-01 南京医渡云医学技术有限公司 数据处理方法及装置、电子设备、存储介质
CN111079186A (zh) * 2019-12-20 2020-04-28 百度在线网络技术(北京)有限公司 数据分析的方法、装置、设备和存储介质
CN111143390A (zh) * 2019-12-30 2020-05-12 北京每日优鲜电子商务有限公司 更新元数据的方法及装置
CN111680029A (zh) * 2020-06-12 2020-09-18 普元信息技术股份有限公司 基于数据标准系统落标的优化管理方法
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程旺编著: "《企业数据治理与SAP MDG实现》", 机械工业出版社, pages: 28 - 29 *

Similar Documents

Publication Publication Date Title
CN109934268B (zh) 异常交易检测方法及系统
CN112214418A (zh) 一种应用程序的合规检测方法、装置和电子设备
CN107316156B (zh) 一种数据处理方法、装置、服务器及存储介质
WO2018069950A1 (ja) ログ分析方法、システムおよびプログラム
CN112187914A (zh) 一种远程控制机器人管理方法及系统
CN112256635A (zh) 一种识别文件类型的方法及装置
CN113723467A (zh) 用于缺陷检测的样本收集方法、装置和设备
CN112637888B (zh) 覆盖空洞区域识别方法、装置、设备及可读存储介质
CN111784246B (zh) 物流路径的估测方法
CN113886373A (zh) 一种数据处理方法、装置及电子设备
CN112613764A (zh) 数据处理方法、装置以及电子设备
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN112363893B (zh) 时序指标异常检测方法、设备及装置
CN112698883A (zh) 一种配置数据处理方法、装置、终端和存储介质
CN113284141A (zh) 用于缺陷检测的模型确定方法、装置和设备
CN111736848A (zh) 包冲突定位方法、装置、电子设备及可读存储介质
CN106055625B (zh) 一种执行业务的方法及装置
CN113076451A (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN111045849A (zh) 核对异常原因的识别方法、装置、服务器和存储介质
CN113806196B (zh) 根因分析方法及系统
CN115562968A (zh) 链路数据一致性的检测方法、装置及服务器
CN112000709B (zh) 一种社交媒体信息的总曝光量批量挖掘方法及装置
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111858619B (zh) 一种数据自流转的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination