CN115578027A - 一种数据质量评估方法、装置、电子设备及存储介质 - Google Patents

一种数据质量评估方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115578027A
CN115578027A CN202211190013.0A CN202211190013A CN115578027A CN 115578027 A CN115578027 A CN 115578027A CN 202211190013 A CN202211190013 A CN 202211190013A CN 115578027 A CN115578027 A CN 115578027A
Authority
CN
China
Prior art keywords
data
evaluation
evaluation index
field
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211190013.0A
Other languages
English (en)
Inventor
刘培
马振伟
连玉强
周皓
杨帆
章明
肖鹰东
李芸弨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202211190013.0A priority Critical patent/CN115578027A/zh
Publication of CN115578027A publication Critical patent/CN115578027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种数据质量评估方法、装置、电子设备及存储介质,其中,该方法包括:获取针对外部数据源的至少一种数据评估指标,所述至少一种数据评估指标包括用于评估所述外部数据源可用性的第一评估指标、用于评估所述外部数据源可靠性的第二评估指标、以及用于评估所述外部数据源对于目标业务适用性的第三评估指标中的至少一种;基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。本公开构建了用于进行质量评估的多维度指标体系,能够更为客观的评估数源质量,具有更佳的适用性。

Description

一种数据质量评估方法、装置、电子设备及存储介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种数据质量评估方法、装置、电子设备及存储介质。
背景技术
随着信息技术的飞速发展,各行各业产生了爆炸式的数据流量。以金融行业为例,在如今大数据技术及人工智能技术的快速发展时代中产生了大量的金融数据以支持自身的金融业务。
为了满足业务发展与监管合规等多重需求,越来越多的金融机构选择吸收一些外部数据源来支持自身的金融业务,这些外部数据源在服务金融机构数字化转型过程中的重要性愈加凸显。
从现有金融行业外部数据源的应用情况来看,往往采用人工方式来评判外部数据源的质量好坏,这里多是基于自身的业务经验判断数据源质量的好与坏,或仅根据成本价格等少数参考因素进行简单评判。
发明内容
本公开实施例至少提供一种数据质量评估方法、装置、电子设备及存储介质,以进行多角度、全方位的数据质量评估,适用性更佳。
第一方面,本公开实施例提供了一种数据质量评估方法,包括:
获取针对外部数据源的至少一种数据评估指标,所述至少一种数据评估指标包括用于评估所述外部数据源可用性的第一评估指标、用于评估所述外部数据源可靠性的第二评估指标、以及用于评估所述外部数据源对于目标业务适用性的第三评估指标中的至少一种;
基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。
在一种可能的实施方式中,在至少一种数据评估指标为多种数据评估指标的情况下,所述基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果,包括:
获取所述多种数据评估指标中每种数据评估指标的总评估权重;
基于所述多种数据评估指标及所述每种数据评估指标的总评估权重之间的加权求和,得到数据质量评估结果。
在一种可能的实施方式中,按照如下步骤确定所述每种数据评估指标的总评估权重:
获取针对所述目标业务的业务偏好信息;
基于所述业务偏好信息确定所述每种数据评估指标的总评估权重的大小。
在一种可能的实施方式中,按照如下步骤获取所述第一评估指标:
获取所述外部数据源包括的多条数据样本,每条所述数据样本包括多个字段;
确定所述多个字段在所述多条数据样本中的至少一种字段评估指标,所述至少一种字段评估指标包括字段饱和度及字段丰富度中的至少一种;
基于所述至少一种字段评估指标,得到所述第一评估指标。
在一种可能的实施方式中,在所述至少一种字段评估指标包括多种字段评估指标的情况下,所述基于所述至少一种字段评估指标,得到所述第一评估指标,包括:
获取所述多种字段评估指标中每种字段评估指标的分评估权重;
基于所述多种字段评估指标及所述每种字段评估指标的分评估权重之间的加权求和,得到所述第一评估指标。
在一种可能的实施方式中,按照如下步骤确定所述字段饱和度:
针对所述多个字段中的每个字段,基于所述字段对应的预设填补规则确定所述字段在所述多条数据样本中的字段饱和度;
基于所述多个字段分别确定的字段饱和度及所述每个字段对应的第一子评估权重之间的加权求和,确定所述多个字段在所述多条数据样本中的字段饱和度。
在一种可能的实施方式中,按照如下步骤确定所述字段丰富度:
针对所述多个字段中的每个字段,确定所述字段对应的多个字段值中不同字段值的个数,并作为所述字段在所述多条数据样本中的字段丰富度;
基于所述多个字段分别确定的字段丰富度及所述每个字段对应的第二子评估权重之间的加权求和,确定所述多个字段在所述多条数据样本中的字段丰富度。
在一种可能的实施方式中,按照如下步骤获取所述第二评估指标:
获取针对外部数据源的至少一种可靠性评估指标,所述至少一种可靠性评估指标包括所述外部数据源在单位时间内的超时响应次数、所述外部数据源单位时间内的失败应答次数、以及针对所述外部数据源的每秒事务处理量TPS中的至少一种;
基于所述至少一种可靠性评估指标,得到所述第二评估指标。
在一种可能的实施方式中,在所述至少一种可靠性评估指标包括多种可靠性评估指标的情况下,所述基于所述至少一种可靠性评估指标,得到所述第二评估指标,包括:
获取所述多种可靠性评估指标中每种可靠性评估指标的分评估权重;
基于所述多种可靠性评估指标及所述每种可靠性评估指标的分评估权重之间的加权求和,得到所述第二评估指标。
在一种可能的实施方式中,按照如下步骤获取所述第三评估指标:
获取所述外部数据源包括的多条数据样本;
从所述多条数据样本中查找与所述目标业务匹配的目标数据样本;
确定针对所述目标数据样本的至少一种数据评估指标,所述至少一种数据评估指标包括目标数据占比及目标数据完整度中的至少一种;
基于所述至少一种数据评估指标,得到所述第三评估指标。
在一种可能的实施方式中,在所述至少一种数据评估指标包括多种数据评估指标的情况下,所述基于所述至少一种数据评估指标,得到所述第三评估指标,包括:
获取所述多种数据评估指标中每种数据评估指标的分评估权重;
基于所述多种数据评估指标及所述每种数据评估指标的分评估权重之间的加权求和,得到所述第三评估指标。
在一种可能的实施方式中,按照如下步骤确定所述目标数据占比:
将所述目标数据样本的个数与所述多条数据样本的总个数进行比值运算,确定所述目标数据占比。
在一种可能的实施方式中,在所述目标数据样本包括多个字段的情况下,按照如下步骤确定所述目标数据完整度:
从所述目标数据样本包括的多个字段中确定目标字段,所述目标字段为符合预设字段完整度要求的字段;
将所述目标字段的个数与所述多个字段的总个数进行比值运算,确定所述目标数据完整度。
第二方面,本公开实施例还提供了一种数据质量评估装置,包括:
获取模块,用于获取针对外部数据源的至少一种数据评估指标,所述至少一种数据评估指标包括用于评估所述外部数据源可用性的第一评估指标、用于评估所述外部数据源可靠性的第二评估指标、以及用于评估所述外部数据源对于目标业务适用性的第三评估指标中的至少一种;
评估模块,用于基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。
第三方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式中任一项所述的数据质量评估方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式中任一项所述的数据质量评估方法。
采用上述数据质量评估方法、装置、电子设备及存储介质,在获取到针对外部数据源的至少一种数据评估指标的情况下,基于至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。其中,上述数据评估指标包括用于评估外部数据源可用性的第一评估指标、用于评估外部数据源可靠性的第二评估指标、以及用于评估外部数据源对于目标业务适用性的第三评估指标。可知的是,本公开提供了一种多维度的指标构建体系,能够更为客观的评估数源质量,具有更佳的适用性。
本公开的其他优点将配合以下的说明和附图进行更详细的解说。
应当理解,上述说明仅是本公开技术方案的概述,以便能够更清楚地了解本公开的技术手段,从而可依照说明书的内容予以实施。为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本公开的具体实施方式。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1示出了本公开实施例所提供的一种数据质量评估方法的流程图;
图2示出了本公开实施例所提供的一种数据质量评估装置的示意图;
图3示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本公开实施方式的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个这一特征。在本公开实施方式的描述中,除非另有说明,“多个”的含义是两个或两个以上。
经研究发现,越来越多商业银行、互联网金融公司、保险理财等机构选择采购外部数据源,并广泛应用于营销获客、运营管理、风险管控、营销决策等核心业务场景。据中国信息通信研究院统计数据显示,银行业外部采购需求中,数据应用采购占比达到了87.1%;保险业数据应用采购占比也达到了87.2%。金融机构在充分挖掘内部数据价值的基础上,通过采购外部数据源可以起到较好的补充、辅助作用,一定程度上解决了数据获取片面、单一的问题,在企业构筑竞争优势的过程中发挥重要价值。
近年来,随着数据渠道及种类逐渐增多,各大商业银行、保险行业不断新增引入外部数据,并积累了大量的数据资源。从现有金融行业外部数据源的应用情况来看,往往采用人工方式来评判外部数据源的质量好坏,这里多是基于自身的业务经验判断数据源质量的好与坏,或仅根据成本价格等少数参考因素进行简单评判。
但由于外部数据源的数据可用程度、通道传输性能、业务适用情况等参差不齐,仅根据业务经验或简单的参考因素进行判断,容易导致选择不合适的数据提供商,不仅耗费人力、财力且影响业务应用。此外,同一公司不同业务部门基于自身业务需求制订各自的数据评估标准,未建立统一、客观的数据质量评价体系,难以实现数据的整合共享,造成数据资源的重复引入。
基于此,如何综合评价外部数据源的质量,将引入的数据精确匹配业务诉求,成为亟需解决的问题之一。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开提供了至少一种数据质量评估方案,以从数据源的数据可用性、传输可靠性、业务适用性三个方面分别建立评估指标体系,并提出一种外部数据源质量综合评估模型,该模型可多角度、全方位地评估数据源质量,为商业银行、互联网金融公司、保险理财等金融机构筛选优质的外部数据源提供决策方法与工具。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据质量评估方法进行详细介绍,本公开实施例所提供的数据质量评估方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端等。在一些可能的实现方式中,该数据质量评估方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的数据质量评估方法的流程图,所述方法包括步骤S101~S102,其中:
S101:获取针对外部数据源的至少一种数据评估指标,至少一种数据评估指标包括用于评估外部数据源可用性的第一评估指标、用于评估外部数据源可靠性的第二评估指标、以及用于评估外部数据源对于目标业务适用性的第三评估指标中的至少一种;
S102:基于至少一种数据评估指标对外部数据源进行质量评估,得到数据质量评估结果。
为了便于理解本公开实施例提供的数据质量评估方法,接下来首先对该方法的应用场景进行详细介绍。本公开实施例中的数据质量评估方法普遍适用于金融行业引入外部数据源开展业务应用的场景,例如,可以应用于目标银行引入其他银行的外部数据的质量评估,还可以应用于目标银行引入诸如征信机构的外部数据的质量评估。除此之外,还可以适应于其他任何需要引入外部数据源的相关行业,对此不做具体的限制。
在实际应用中,结合不同的行业以及对应行业的业务场景需求可以确定针对不同外部数据源的质量评估结果。这里的质量评估结果可以是以具体的评估分值,也可以是评估等级,还可以是其他评估方式,对此不做具体的限制。
为了实现针对外部数据源的质量评估,这里提供了一种基于外数据源的数据可用性、传输可靠性、业务适用性三个方面的评估指标进行质量评估的方案,该方案系统性地设计并建立了外部数据源质量的多维量化评估模型,相比现有的人工评估方式,更加适用于对不同类型数据进行全面、高效地动态评估,提高数据评估效率,降低数据筛选成本。
其中,本公开实施例首创性地提出了外部数据源的可用性评估指标(对应第一评估指标),通过对数据样本字段的量化处理,设计数据饱和度、数据丰富度分析模型客观且量化的评判数据源质量,避免主观因素导致数据源评价不符合实际情况。
其次,本公开实施例首创性地提出外部数据源的可靠性评估指标(对应第二评估指标),基于数据稳定传输涉及的重要影响因素,从超时响应率、失败应答率、每秒处理事务数(Transactions Per Second,TPS)限流等维度全面评判数据通道的稳定性,更加准确且真实的刻画外部数据的可靠性程度。
再者,本公开实施例首创性地提出外部数据源的业务适用性评估指标 (对应第三评估指标),将主观评价标准转换为客观分析模型,从业务适用度维度评判数据与业务的匹配程度,更好满足业务应用需求。
在实际应用中,可以单独利用上述评估指标中的任意一种进行质量评估,还可以采用任意两种评估指标的组合方式进行质量评估,还可以采用三种评估指标一同进行质量评估,对此不做具体的限制。为了实现全方位的质量评估,本公开实施例提供的数据质量评估方法可以连同上述三种评估指标进行质量评估,以得到更为准确的质量评估结果。接下来多以三种评估指标的连同评估方式进行示例说明。
考虑到针对不同的业务场景,不同的数据评估指标对于质量评估的影响程度并不相同,例如,有的业务场景更偏向于数据源的可靠性,再如,有的业务场景更偏向于业务适用性,基于此,可以为不同的数据评估指标分配不同的总评估权重,对于业务偏好较强的数据评估指标可以分配更大的权重,对于业务偏好较弱的数据评估指标可以分配更小的权重,而后,基于多种数据评估指标及每种数据评估指标的总评估权重之间的加权求和,得到数据质量评估结果。
考虑到三个数据评估指标的确定对于本公开实施例提供的数据质量评估方法的关键作用,接下来可以结合以下三个方面分别进行描述说明。
第一方面,可以按照如下步骤确定第一评估指标:
步骤一、获取外部数据源包括的多条数据样本,每条数据样本包括多个字段;
步骤二、确定多个字段在多条数据样本中的至少一种字段评估指标,至少一种字段评估指标包括字段饱和度及字段丰富度中的至少一种;
步骤三、基于至少一种字段评估指标,得到第一评估指标。
同理,在基于多种字段评估指标确定第一评估指标的过程中,也可以分别为不同的字段评估指标分配不同的分评估权重,并能够基于多种字段评估指标及每种字段评估指标的分评估权重之间的加权求和,得到第一评估指标。
其中,上述字段饱和度这一评估指标的设置主要是考虑到金融交易数据、保险案例数据等都会存在缺失值、默认值等情况,一条交易数据中,真实有效、具有业务价值的数据占比多少,决定了数据的可用性价值,正是基于上述考虑,才设置了字段饱和度这一指标。具体可以按照如下步骤来确定:
步骤一、针对多个字段中的每个字段,基于字段对应的预设填补规则确定字段在多条数据样本中的字段饱和度;
步骤二、基于多个字段分别确定的字段饱和度及每个字段对应的第一子评估权重之间的加权求和,确定多个字段在多条数据样本中的字段饱和度。
为了便于理解上述字段饱和度的确定过程,可以结合公式进行具体说明。
下面以某种数据格式为Xi=[x1,x2,...,xn],i=1,2,...N的外部数据源为例,即有N条数据样本,每条有n个字段,每个字段有对应的默认值或缺失值填补规则(如补填-1或nan),统计默认值或缺失值的个数,计算数据样本中第i个字段的饱和度:
Figure BDA0003868941210000111
其中mi为第i个字段默认值或缺失值个数,N为数据样本条数,即在全部N条数据样本中,字段i的饱和度为Saturi
一般在数据筛选中,不同字段的饱和度有着不同的重要程度,可以用权重s1,s2...,sn(对应第一子评估权重)表示,全部N条数据样本中,n个字段的饱和度指标为:
Figure BDA0003868941210000112
其中,上述字段丰富度这一评估指标的设置主要是考虑到数据应用方往往希望尽可能通过一次数据采购获取多种类型、满足多种场景、多类客户群体的数据,这就需要统计数据的丰富度,正是基于上述考虑,才设置了字段丰富度这一指标。具体可以按照如下步骤来确定:
步骤一、针对多个字段中的每个字段,确定字段对应的多个字段值中不同字段值的个数,并作为字段在多条数据样本中的字段丰富度;
步骤二、基于多个字段分别确定的字段丰富度及每个字段对应的第二子评估权重之间的加权求和,确定多个字段在多条数据样本中的字段丰富度。
为了便于理解上述字段丰富度的确定过程,可以结合公式进行具体说明。下面仍以某种数据格式为Xi=[x1,x2,...,xn],i=1,2,...N的外部数据源为例,即有N条数据样本,每条有n个字段,统计第i个字段不同值的个数,计算数据样本中第i个字段的丰富度:
Figure BDA0003868941210000121
其中uniq(x1i,x2i,...,xNi)为第i个字段不同值的个数,N为数据样本条数,即在全部N条数据样本中,字段i的丰富度为Varusi
一般在数据筛选中,不同字段的丰富度有着不同的重要程度,可以用权重v1,v2...,vn(对应第二子评估权重)表示,全部N条数据样本中,n 个字段的丰富度指标为:
Figure BDA0003868941210000122
综合考量外部数据源的字段饱和度、字段丰富度等因素,可以制定第i个外部数据的可用性评估指标(即第一评估指标):
Gi=α1 Saturi2 Vartusi
其中,α1,α2(对应字段评估指标的分评估权重)为值在0到1之间的权重系数,且α12=1,α1,α2的取值可根据不同业务应用受上述因素的影响程度进行自主设定。
可知的是,Gi值在0到1之间,Gi值越大,表明外部数据源的数据可用性就越高。
第二方面,可以按照如下步骤确定第二评估指标:
步骤一、获取针对外部数据源的至少一种可靠性评估指标,至少一种可靠性评估指标包括外部数据源在单位时间内的超时响应次数、外部数据源单位时间内的失败应答次数、以及针对外部数据源的每秒事务处理量TPS 中的至少一种;
步骤二、基于至少一种可靠性评估指标,得到第二评估指标。
同理,在基于多种可靠性评估指标确定第一评估指标的过程中,也可以分别为不同的可靠性评估指标分配不同的分评估权重,并能够基于多种可靠性评估指标及每种可靠性评估指标的分评估权重之间的加权求和,得到第二评估指标。
其中,在获取外部数据时,超时响应是影响数据使用的重要因素,超时响应率过高会导致用户体验差、客户活跃度下降等问题。这里可以设置针对超时响应次数的初始阈值(最低容忍值),用来监测外部数据获取时的超时响应情况。
这里,用Oi表示第i个外部数据源单位时间内的超时响应次数,O0表示预设的超时响应初始阈值,
Figure BDA0003868941210000131
表示实际发生的单位时间内超时响应次数与预设阈值的接近程度,同等条件下,Oi0值越小,外部数据源的可靠性就越高。
另外,在获取外部数据时,失败应答往往会影响系统和业务的正常运转,造成业务失败、客户投诉等问题事件。这里可以设置针对失败应答次数的初始阈值,用来监测外部数据获取时的失败应答情况。
这里,用Fi表示第i个外部数据源单位时间内的失败应答次数,F0表示预设的失败应答初始阈值,
Figure BDA0003868941210000132
表示实际发生的单位时间内失败应答次数与预设阈值的接近程度,同等条件下,Fi0值越小,外部数据源的可靠性就越高。
此外,在获取外部数据时,TPS是需要重点考虑的问题,它直接影响系统处理业务量,控制不好会导致业务中断、系统异常等问题。这里可以设置针对TPS的初始阈值,用来监测外部数据获取时的TPS变化情况。
其中,Ti表示第i个外部数据源的TPS,T0表示预设的TPS初始阈值,
Figure BDA0003868941210000141
表示实际发生的TPS与预设阈值的接近程度,同等条件下,Ti0值越小,外部数据源的可靠性就越高。
综合考量单位时间内超时响应次数、单位时间内失败应答次数,TPS 限制等因素,可以制定第i个外部数据源传输可靠性的评估指标(即第二评估指标):
Figure BDA0003868941210000142
其中,w1,w2,w3为值在0到1之间的权重系数,且w1+w2+w3=1,w1,w2,w3的取值可根据不同业务应用受上述因素的影响程度进行自主设定。
可知的是,Pi值在0到1之间,Pi值越大,表明外部数据源的可靠性程度就越高。
第三方面,可以按照如下步骤确定第三评估指标:
步骤一、获取外部数据源包括的多条数据样本;
步骤二、从多条数据样本中查找与目标业务匹配的目标数据样本;
步骤三、确定针对目标数据样本的至少一种数据评估指标,至少一种数据评估指标包括目标数据占比及目标数据完整度中的至少一种;
步骤四、基于至少一种数据评估指标,得到第三评估指标。
同理,在基于多种数据评估指标确定第三评估指标的过程中,也可以分别为不同的数据评估指标分配不同的分评估权重,并能够基于多种数据评估指标及每种数据评估指标的分评估权重之间的加权求和,得到第三评估指标。
这里的数据评估指标是针对目标数据样本而言的评估指标,目标数据样本即是从多条数据样本中查找到的与目标业务匹配的数据样本。例如,针对金融类业务中,需要关注的欺诈、违约等情况,涵盖这些情况的数据样本可以作为目标数据样本;再如,信贷业务中需要考虑违约率、客户数据完整度等情况,涵盖这些情况的数据样本也可以作为目标数据样本。
在实际应用中,可以结合目标业务来确定目标数据样本以及针对目标样本数据的目标数据占比及目标数据完整度,从而判断外部数据与自身业务的适配程度。
其中,上述目标数据占比可以是基于目标数据样本的个数与多条数据样本的总个数之间的比值运算确定的,目标数据完整度可以是在从目标数据样本包括的多个字段中确定符合预设字段完整度要求的目标字段(如缺失字段)后,基于目标字段的个数与多个字段的总个数之间的比值运算确定的。
为了便于进一步理解上述目标数据占比及目标数据完整度的确定过程,可以结合公式进行如下示例说明。
其中,Ls表示目标数据占比(可以是包含欺诈率、违约率等的目标样本数据的占比),用Lw表示目标数据完整度,即数据样本中缺失或者默认的字段个数与字段的总个数的比值。
其中,
Figure BDA0003868941210000151
其中n为目标数据样本的个数,N为全部数据样本的总个数;
此外,
Figure BDA0003868941210000152
其中n为目标数据样本的个数,k为每个数据样本字段个数,mi为第i个目标数据样本中缺失字段的个数。
综合考量外部数据源的业务匹配程度等因素,可以制定第i个外部数据源的适用性评估指标(第三评估指标):
Figure BDA0003868941210000153
其中,λ1,λ2(对应数据评估指标的分评估权重)为值在0到1之间的权重系数,且λ12=1,λ1,λ2的取值可根据不同业务应用受上述因素的影响程度进行自主设定。Ls0,Lw0分别为业务制定的数据源最低占比和最低缺失值占比,若
Figure BDA0003868941210000161
大于1,则说明数据源的目标数据样本占比、缺失值占比较好地满足了业务需求。Li值越大,表明外部数据源的适用性程度就越高。
此外,在实际应用中,有关业务适用性还可以综合考虑数据的应用难易程度,如传输中数据格式的转换,重复冗余数据的筛选等,除此之外,还可以考虑政策法规的影响,如涉及敏感数据,用户隐私等。这些难以量化,可通过人工辅助判断外部数据源的适用性程度。
基于外部数据源的可用性、可靠性、适用性等评估指标,可以建立如下的综合质量评估模型:
Figure BDA0003868941210000162
其中,v1,v2,v3(对应数据评估指标的总评估权重)为值在0到1之间的权重系数,取值可根据不同业务应用受上述因素的影响程度进行自主设定。Si值越大,表示第i个外部数据源的综合质量就越高。
为了便于进一步理解本公开实施例提供的数据质量评估方法,接下来可以结合银联的一个具体项目进行说明。基于银联可信数字身份核验平台已对接的外部数据源,包括:公安部一所、全国公民号码查询中心、企业工商信息、水晶球风险标签、银联商务商户风险标签等,这里提取了2022 年7月25日各数据源信道的报文数据,对样本缺失值、字段个数、字段内容维度、正样本、负样本、超时响应次数、失败应答次数、TPS值等进行统计和分析,具体见下表:
Figure BDA0003868941210000171
Figure BDA0003868941210000181
首先,选取如下参数计算样本字段饱和度:
s_w=[0.4,0.2,0.5,0.4,0.05,0.05,0.7,0.6,0.2,0.2,0.6,0.6,0.2,0 .2,0.4,0.8,0.7,0.2,0.6,0.7]
选取如下参数计算样本字段丰富度:
v_w=[0.2,0.3,0.5,0.2,0.1,0.1,0.6,0.8,0.4,0.3,0.7,0.7,0.3,0.3 ,0.2,0.8,0.6,0.3,0.7,0.7]
考虑到样本饱和度更重要,对数据验证有很大帮助,选取权重参数如下:
w1=[0.65,0.35]
计算得到的可用性评估指标值为:
数据源名称 可用性评估指标值
公安部一所 6.501624
公民号码查询中心 6.345461
企业工商信息 5.750212
水晶球风险标签 5.752546
银联商务商户风险分级标签 5.750352
其次,选取如下参数计算单位时间内超时响应次数,单位时间内失败应答次数,TPS等:
w_2=[0.2,0.4,0.4];OFT_0=[500,60,1000]
计算得到的可靠性评估指标值为:
Figure BDA0003868941210000182
Figure BDA0003868941210000191
最后,选取如下参数计算欺诈率、欺诈交易完整度等指标:
r_w=[0.8,0.2];L0=[0.6,0.2]
计算得到的适用性评估指标值为:
数据源名称 适用性评估指标值
公安部一所 0.307599
公民号码查询中心 0.086726
企业工商信息 0.265418
水晶球风险标签 0.844898
银联商务商户风险分级标签 2.155660
结合数据源可用性、可靠性、适用性等指标,计算得到的综合评估指标值为:
数据源名称 综合评估指标值
公安部一所 3.131045
公民号码查询中心 3.046269
企业工商信息 2.821302
水晶球风险标签 2.880245
银联商务商户风险分级标签 3.012395
基于本公开实施例提供的数据质量评估方法对对外部数据源的综合评价与商户入网审查环节的认知基本一致,即:
(1)商户法人身份信息认证是商户入网审查的必要环节,是收单机构落实“KYC”监管要求的重要内容,因此相较于工商信息及风险标签的查验,信源质量的综合性评价分数更高;
(2)公安部一所与公民号码查询中心均提供商户法人信息的身份认证服务,相较于公民号码查询中心,公安部一所数据覆盖面全、数据更新及时、数据报文格式规范,因此数据源质量综合性评价更佳;
(2)企业工商信息数据查询及风险标签验证也是商户入网环境风险筛查的重要数据源,其中银联商务商户风险分级标签包含涉赌、涉诈等监管重点关注的合规标签更受收单机构青睐,且数据也更加真实,因此整体评分高于水晶球标签及企业工商信息数据。
(3)相较于企业工商信息数据,水晶球提供个人及企业维度的风险标签且支持银行卡号、身份证号、手机号、商户号、组织机构代码等作为主键查询风险信息,可靠性更高且适用性更广,因此综合性评价分数要高于企业工商数据。
综上分析,上述数据源的综合性评价排序依次为:
公安部一所->公民号码查询中心->银联商务商户风险分级标签->水晶球风险标签->企业工商信息。
综上,本公开实施例提供了一种可实时、动态地评价外部数据源质量的评估模型,从数据可用程度、传输可靠程度、业务适用程度等多维度建立评估指标体系,可以横向评估不同外部数据源的数据质量,从而帮助企业快速完成数据源与业务的匹配对接。
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
关于本公开实施方式的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据质量评估方法对应的数据质量评估装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据质量评估方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图2所示,为本公开实施例提供的一种数据质量评估装置的示意图,装置包括:获取模块201、评估模块202;其中,
获取模块201,用于获取针对外部数据源的至少一种数据评估指标,至少一种数据评估指标包括用于评估外部数据源可用性的第一评估指标、用于评估外部数据源可靠性的第二评估指标、以及用于评估外部数据源对于目标业务适用性的第三评估指标中的至少一种;
评估模块202,用于基于至少一种数据评估指标对外部数据源进行质量评估,得到数据质量评估结果。
在一种可能的实施方式中,在至少一种数据评估指标为多种数据评估指标的情况下,评估模块202,用于按照如下步骤基于至少一种数据评估指标对外部数据源进行质量评估,得到数据质量评估结果:
获取多种数据评估指标中每种数据评估指标的总评估权重;
基于多种数据评估指标及每种数据评估指标的总评估权重之间的加权求和,得到数据质量评估结果。
在一种可能的实施方式中,评估模块202,用于按照如下步骤确定每种数据评估指标的总评估权重:
获取针对目标业务的业务偏好信息;
基于业务偏好信息确定每种数据评估指标的总评估权重的大小。
在一种可能的实施方式中,获取模块201,用于按照如下步骤获取第一评估指标:
获取外部数据源包括的多条数据样本,每条数据样本包括多个字段;
确定多个字段在多条数据样本中的至少一种字段评估指标,至少一种字段评估指标包括字段饱和度及字段丰富度中的至少一种;
基于至少一种字段评估指标,得到第一评估指标。
在一种可能的实施方式中,在至少一种字段评估指标包括多种字段评估指标的情况下,获取模块201,用于按照如下步骤基于至少一种字段评估指标,得到第一评估指标:
获取多种字段评估指标中每种字段评估指标的分评估权重;
基于多种字段评估指标及每种字段评估指标的分评估权重之间的加权求和,得到第一评估指标。
在一种可能的实施方式中,获取模块201,用于按照如下步骤确定字段饱和度:
针对多个字段中的每个字段,基于字段对应的预设填补规则确定字段在多条数据样本中的字段饱和度;
基于多个字段分别确定的字段饱和度及每个字段对应的第一子评估权重之间的加权求和,确定多个字段在多条数据样本中的字段饱和度。
在一种可能的实施方式中,获取模块201,用于按照如下步骤确定字段丰富度:
针对多个字段中的每个字段,确定字段对应的多个字段值中不同字段值的个数,并作为字段在多条数据样本中的字段丰富度;
基于多个字段分别确定的字段丰富度及每个字段对应的第二子评估权重之间的加权求和,确定多个字段在多条数据样本中的字段丰富度。
在一种可能的实施方式中,获取模块201,用于按照如下步骤获取第二评估指标:
获取针对外部数据源的至少一种可靠性评估指标,至少一种可靠性评估指标包括外部数据源在单位时间内的超时响应次数、外部数据源单位时间内的失败应答次数、以及针对外部数据源的每秒事务处理量TPS中的至少一种;
基于至少一种可靠性评估指标,得到第二评估指标。
在一种可能的实施方式中,在至少一种可靠性评估指标包括多种可靠性评估指标的情况下,获取模块201,用于按照如下步骤基于至少一种可靠性评估指标,得到第二评估指标:
获取多种可靠性评估指标中每种可靠性评估指标的分评估权重;
基于多种可靠性评估指标及每种可靠性评估指标的分评估权重之间的加权求和,得到第二评估指标。
在一种可能的实施方式中,获取模块201,用于按照如下步骤获取第三评估指标:
获取外部数据源包括的多条数据样本;
从多条数据样本中查找与目标业务匹配的目标数据样本;
确定针对目标数据样本的至少一种数据评估指标,至少一种数据评估指标包括目标数据占比及目标数据完整度中的至少一种;
基于至少一种数据评估指标,得到第三评估指标。
在一种可能的实施方式中,在至少一种数据评估指标包括多种数据评估指标的情况下,获取模块201,用于按照如下步骤基于至少一种数据评估指标,得到第三评估指标:
获取多种数据评估指标中每种数据评估指标的分评估权重;
基于多种数据评估指标及每种数据评估指标的分评估权重之间的加权求和,得到第三评估指标。
在一种可能的实施方式中,获取模块201,用于按照如下步骤确定目标数据占比:
将目标数据样本的个数与多条数据样本的总个数进行比值运算,确定目标数据占比。
在一种可能的实施方式中,在目标数据样本包括多个字段的情况下,获取模块201,用于按照如下步骤确定目标数据完整度:
从目标数据样本包括的多个字段中确定目标字段,目标字段为符合预设字段完整度要求的字段;
将目标字段的个数与多个字段的总个数进行比值运算,确定目标数据完整度。
采用上述数据质量评估装置,在获取到针对外部数据源的至少一种数据评估指标的情况下,基于至少一种数据评估指标对外部数据源进行质量评估,得到数据质量评估结果。其中,上述数据评估指标包括用于评估外部数据源可用性的第一评估指标、用于评估外部数据源可靠性的第二评估指标、以及用于评估外部数据源对于目标业务适用性的第三评估指标。可知的是,本公开提供了一种多维度的指标构建体系,能够更为客观的评估数源质量,具有更佳的适用性。
需要说明的是,本申请实施方式中的装置可以实现前述方法的实施方式的各个过程,并达到相同的效果和功能,这里不再赘述。
本公开实施例还提供了一种电子设备,如图3所示,为本公开实施例提供的电子设备结构示意图,包括:处理器301、存储器302、和总线303。存储器302存储有处理器301可执行的机器可读指令(比如,图2中的装置中获取模块201、评估模块202对应的执行指令等),当电子设备运行时,处理器301与存储器302之间通过总线303通信,机器可读指令被处理器301执行时执行如下处理:
获取针对外部数据源的至少一种数据评估指标,至少一种数据评估指标包括用于评估外部数据源可用性的第一评估指标、用于评估外部数据源可靠性的第二评估指标、以及用于评估外部数据源对于目标业务适用性的第三评估指标中的至少一种;
基于至少一种数据评估指标对外部数据源进行质量评估,得到数据质量评估结果。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据质量评估方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据质量评估方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
本申请中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置、设备和计算机可读存储介质实施方式而言,由于其基本相似于方法实施方式,所以其描述进行了简化,相关之处可参见方法实施方式的部分说明即可。
本申请实施方式提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
本领域内的技术人员应明白,本公开的实施方式可提供为方法、装置 (设备或系统)、或计算机可读存储介质。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机可读存储介质的形式。
本公开是参照根据本公开实施方式的方法、装置(设备或系统)、和计算机可读存储介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (16)

1.一种数据质量评估方法,其特征在于,包括:
获取针对外部数据源的至少一种数据评估指标,所述至少一种数据评估指标包括用于评估所述外部数据源可用性的第一评估指标、用于评估所述外部数据源可靠性的第二评估指标、以及用于评估所述外部数据源对于目标业务适用性的第三评估指标中的至少一种;
基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。
2.根据权利要求1所述的方法,其特征在于,在至少一种数据评估指标为多种数据评估指标的情况下,所述基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果,包括:
获取所述多种数据评估指标中每种数据评估指标的总评估权重;
基于所述多种数据评估指标及所述每种数据评估指标的总评估权重之间的加权求和,得到数据质量评估结果。
3.根据权利要求2所述的方法,其特征在于,按照如下步骤确定所述每种数据评估指标的总评估权重:
获取针对所述目标业务的业务偏好信息;
基于所述业务偏好信息确定所述每种数据评估指标的总评估权重的大小。
4.根据权利要求1至3中任一项所述的方法,其特征在于,按照如下步骤获取所述第一评估指标:
获取所述外部数据源包括的多条数据样本,每条所述数据样本包括多个字段;
确定所述多个字段在所述多条数据样本中的至少一种字段评估指标,所述至少一种字段评估指标包括字段饱和度及字段丰富度中的至少一种;
基于所述至少一种字段评估指标,得到所述第一评估指标。
5.根据权利要求4所述的方法,其特征在于,在所述至少一种字段评估指标包括多种字段评估指标的情况下,所述基于所述至少一种字段评估指标,得到所述第一评估指标,包括:
获取所述多种字段评估指标中每种字段评估指标的分评估权重;
基于所述多种字段评估指标及所述每种字段评估指标的分评估权重之间的加权求和,得到所述第一评估指标。
6.根据权利要求4所述的方法,其特征在于,按照如下步骤确定所述字段饱和度:
针对所述多个字段中的每个字段,基于所述字段对应的预设填补规则确定所述字段在所述多条数据样本中的字段饱和度;
基于所述多个字段分别确定的字段饱和度及所述每个字段对应的第一子评估权重之间的加权求和,确定所述多个字段在所述多条数据样本中的字段饱和度。
7.根据权利要求4所述的方法,其特征在于,按照如下步骤确定所述字段丰富度:
针对所述多个字段中的每个字段,确定所述字段对应的多个字段值中不同字段值的个数,并作为所述字段在所述多条数据样本中的字段丰富度;
基于所述多个字段分别确定的字段丰富度及所述每个字段对应的第二子评估权重之间的加权求和,确定所述多个字段在所述多条数据样本中的字段丰富度。
8.根据权利要求1至3中任一项所述的方法,其特征在于,按照如下步骤获取所述第二评估指标:
获取针对外部数据源的至少一种可靠性评估指标,所述至少一种可靠性评估指标包括所述外部数据源在单位时间内的超时响应次数、所述外部数据源单位时间内的失败应答次数、以及针对所述外部数据源的每秒事务处理量TPS中的至少一种;
基于所述至少一种可靠性评估指标,得到所述第二评估指标。
9.根据权利要求8所述的方法,其特征在于,在所述至少一种可靠性评估指标包括多种可靠性评估指标的情况下,所述基于所述至少一种可靠性评估指标,得到所述第二评估指标,包括:
获取所述多种可靠性评估指标中每种可靠性评估指标的分评估权重;
基于所述多种可靠性评估指标及所述每种可靠性评估指标的分评估权重之间的加权求和,得到所述第二评估指标。
10.根据权利要求1至3中任一项所述的方法,其特征在于,按照如下步骤获取所述第三评估指标:
获取所述外部数据源包括的多条数据样本;
从所述多条数据样本中查找与所述目标业务匹配的目标数据样本;
确定针对所述目标数据样本的至少一种数据评估指标,所述至少一种数据评估指标包括目标数据占比及目标数据完整度中的至少一种;
基于所述至少一种数据评估指标,得到所述第三评估指标。
11.根据权利要求10所述的方法,其特征在于,在所述至少一种数据评估指标包括多种数据评估指标的情况下,所述基于所述至少一种数据评估指标,得到所述第三评估指标,包括:
获取所述多种数据评估指标中每种数据评估指标的分评估权重;
基于所述多种数据评估指标及所述每种数据评估指标的分评估权重之间的加权求和,得到所述第三评估指标。
12.根据权利要求10所述的方法,其特征在于,按照如下步骤确定所述目标数据占比:
将所述目标数据样本的个数与所述多条数据样本的总个数进行比值运算,确定所述目标数据占比。
13.根据权利要求10所述的方法,其特征在于,在所述目标数据样本包括多个字段的情况下,按照如下步骤确定所述目标数据完整度:
从所述目标数据样本包括的多个字段中确定目标字段,所述目标字段为符合预设字段完整度要求的字段;
将所述目标字段的个数与所述多个字段的总个数进行比值运算,确定所述目标数据完整度。
14.一种数据质量评估装置,其特征在于,包括:
获取模块,用于获取针对外部数据源的至少一种数据评估指标,所述至少一种数据评估指标包括用于评估所述外部数据源可用性的第一评估指标、用于评估所述外部数据源可靠性的第二评估指标、以及用于评估所述外部数据源对于目标业务适用性的第三评估指标中的至少一种;
评估模块,用于基于所述至少一种数据评估指标对所述外部数据源进行质量评估,得到数据质量评估结果。
15.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至13中任一项所述的数据质量评估方法。
16.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至13中任一项所述的数据质量评估方法。
CN202211190013.0A 2022-09-28 2022-09-28 一种数据质量评估方法、装置、电子设备及存储介质 Pending CN115578027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211190013.0A CN115578027A (zh) 2022-09-28 2022-09-28 一种数据质量评估方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211190013.0A CN115578027A (zh) 2022-09-28 2022-09-28 一种数据质量评估方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115578027A true CN115578027A (zh) 2023-01-06

Family

ID=84582370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211190013.0A Pending CN115578027A (zh) 2022-09-28 2022-09-28 一种数据质量评估方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115578027A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861734A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN117709906A (zh) * 2024-02-04 2024-03-15 杭银消费金融股份有限公司 一种外部数据源查询决策方法与装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861734A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN111861734B (zh) * 2020-07-31 2024-05-03 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN117709906A (zh) * 2024-02-04 2024-03-15 杭银消费金融股份有限公司 一种外部数据源查询决策方法与装置
CN117709906B (zh) * 2024-02-04 2024-05-14 杭银消费金融股份有限公司 一种外部数据源查询决策方法与装置

Similar Documents

Publication Publication Date Title
Asongu et al. Determinants of foreign direct investment in fast-growing economies: evidence from the BRICS and MINT countries
Rodano et al. Bankruptcy law and bank financing
Cenciarelli et al. External audit and bankruptcy prediction
Solarin et al. ICT, financial development, economic growth and electricity consumption: New evidence from Malaysia
CN115578027A (zh) 一种数据质量评估方法、装置、电子设备及存储介质
US20060100957A1 (en) Electronic data processing system and method of using an electronic data processing system for automatically determining a risk indicator value
Firestone et al. Are banks’ internal risk parameters consistent? Evidence from syndicated loans
Bee et al. Realized peaks over threshold: A time-varying extreme value approach with high-frequency-based measures
Milani Borrower–lender distance and loan default rates: Macro evidence from the Italian local markets
Lundtofte et al. The effect of stricter capital regulation on banks’ risk‐taking: Theory and evidence
Chen et al. The economic value of blockchain applications: Early evidence from asset-backed securities
Wang et al. Measuring systemic risk: Capital shortfall and CSRISK
Ivanov et al. Bank supervision and corporate credit supply
Novotný et al. Testing for co-jumps in financial markets
Kijkasiwat et al. Financial inclusion in the industry 4.0: the effects of financial inclusion on electronic payments in Thailand
Schmid et al. A structured comparison of the corporate information security maturity level
Francq et al. Testing hypotheses on the innovations distribution in semi-parametric conditional volatility models
CN114444120A (zh) 一种基于区块链的融资方法、装置、电子设备和存储介质
Mouteyica et al. Health expenditure convergence and the roles of trade and governance in Africa
Chen Exceedance correlation tests for financial returns
Ciechan-Kujawa The business audit as an alternative to discriminant analysis in assessing risks of going concern
Gai et al. Operational drivers affecting credit risk of mutual guarantee institutions
TWM581728U (zh) Credit risk stress test system
Spader Beyond disparate impact: Risk-based pricing and disparity in consumer credit history scores
AFFANDI et al. Role of ABAS and bureaucratic reformation in improving governmental financial performance through financial decision making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination