CN116245422A - 外部数据质量的评价方法、装置和电子设备 - Google Patents
外部数据质量的评价方法、装置和电子设备 Download PDFInfo
- Publication number
- CN116245422A CN116245422A CN202310328295.4A CN202310328295A CN116245422A CN 116245422 A CN116245422 A CN 116245422A CN 202310328295 A CN202310328295 A CN 202310328295A CN 116245422 A CN116245422 A CN 116245422A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- matrix
- index
- weight
- external data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 267
- 239000011159 matrix material Substances 0.000 claims abstract description 173
- 239000013598 vector Substances 0.000 claims abstract description 85
- 230000002087 whitening effect Effects 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 81
- 238000005259 measurement Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000013523 data management Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供了一种外部数据质量的评价方法、装置和电子设备,该方法包括:获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,指标矩阵用于表征需要对外部数据评价的指标,外部数据至少包括各企业的资产信息;采用灰类白化函数准则,获取权向量矩阵,权向量矩阵用于表征多个评价者对各指标的评价结果的权向量关系;根据指标矩阵和权向量矩阵,得到评价结果,评价结果为多个评价等级中的一个评价等级。采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种外部数据质量的评价方法、装置和电子设备。
背景技术
现有方案对于外部数据质量评价处理仅采用熵权法计算权重以考量外部数据质量,人为干预因素较多,需要投入人力;各指标人工赋权重,导致上下游各指标对数据影响有异议;通过算法直接计算各指标权重会忽略各指标在不同数据场景下影响的不同。
基于目前方法的不足,为了全面提升全行使用外部数据的数据质量(现有方案评价准确度较低),减少后续数据使用导致的问题,亟需一种外部数据质量的评价方法。
发明内容
本申请的主要目的在于提供一种外部数据质量的评价方法、装置和电子设备,以至少解决现有方案评价外部数据质量的准确度较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种外部数据质量的评价方法,该方法包括:获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,所述指标矩阵用于表征需要对所述外部数据评价的指标,所述外部数据至少包括各企业的资产信息,所述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;采用灰类白化函数准则,获取权向量矩阵,所述权向量矩阵用于表征多个评价者对各所述指标的评价结果的权向量关系;根据所述指标矩阵和所述权向量矩阵,得到评价结果,所述评价结果为多个评价等级中的一个所述评价等级。
可选地,采用熵权法对外部数据进行处理,得到指标矩阵,包括:根据所述外部数据,确定多个指标的第一评分,构建评价矩阵,所述第一评分为所述外部数据在各所述指标上的评分,所述评价矩阵的元素与所述第一评分一一对应;根据所述评价矩阵中的所有的所述第一评分,确定各所述指标的熵,所述指标的熵用于表征所述指标在所有的所述指标中的度量;根据各所述指标的熵,确定各所述指标的熵权,所述指标的熵权用于表征所述指标的熵在所有的所述指标的熵中的权重;根据所有的所述指标的熵权,构建所述指标矩阵,所述指标矩阵的元素与所述指标的熵权一一对应。
可选地,根据所述评价矩阵中的所有的所述第一评分,确定各所述指标的熵,包括:
可选地,根据各所述指标的熵,确定各所述指标的熵权,包括:
其中,n、m、j均为常数,Ej为第j个所述指标的熵,ωj为第j个所述指标的熵权。
可选地,采用灰类白化函数准则,获取权向量矩阵,包括:接收多个第二评分,并根据所有的所述第二评分,构建灰色判断矩阵,并根据所述灰色判断矩阵,构建各评价等级的白化权函数,所述灰色判断矩阵为各评价者对所述外部数据在各指标上的评价结果的矩阵,所述灰色判断矩阵的元素与所述第二评分一一对应;根据各所述评价等级的白化权函数,确定各所述评价等级的评价系数;根据所有的所述评价等级的评价系数和所有的所述评价等级的白化权函数,确定灰色权向量,并根据所有的所述灰色权向量,得到所述权向量矩阵,所述灰色权向量为各所述评价者对各所述指标的所述评价结果的权重向量,所述权向量矩阵的元素与所述灰色权向量一一对应。
可选地,在所述评价等级的数量有五个,分别为第一评价等级、第二评价等级、第三评价等级、第四评价等级、第五评价等级的情况下,根据所述灰色判断矩阵,构建各评价等级的白化权函数,包括:。
根据所述灰色判断矩阵的元素,
其中,所述第一评价等级、所述第二评价等级、所述第三评价等级、所述第四评价等级、所述第五评价等级的评价质量依次降低,f1(x)为所述第一评价等级的所述白化权函数,xaj为第a个所述评价者对第j个所述指标的所述评价结果;
根据所述灰色判断矩阵的元素,
其中,f2(x)为所述第二评价等级的所述白化权函数;
根据所述灰色判断矩阵的元素,
f3(x)为所述第三评价等级的所述白化权函数;
根据所述灰色判断矩阵的元素,
f4(x)为所述第四评价等级的所述白化权函数;
根据所述灰色判断矩阵的元素,
其中,f5(x)为所述第五评价等级的所述白化权函数。
可选地,根据所有的所述评价等级的评价系数和所有的所述评价等级的白化权函数,确定灰色权向量,包括:
根据确定所述灰色权向量;其中,yak为第a个所述评价者对第j个所述指标的所述评价结果的所述灰色权向量,/>为第a个所述评价者对第j个所述指标的所述评价等级的评价系数,p为常数,xaj为第a个所述评价者对第j个所述指标的所述评价结果,根据/>确定所述第a个所述评价者对第j个所述指标的所述评价等级的评价系数。
可选地,根据所述指标矩阵和所述权向量矩阵,得到评价结果,包括:
根据Z=WY,确定评价概率矩阵,所述评价概率矩阵用于表征各所述评价等级所对应的概率,Z为所述评价概率矩阵,W为所述指标矩阵,Y为所述权向量矩阵;根据所述评价概率矩阵,确定目标评价等级概率,所述目标评价等级概率为所述评价概率矩阵中的所有的评价等级所对应的概率中的最大值;将所述目标评价等级概率所对应的所述评价等级作为所述评价结果。
根据本申请的另一方面,提供了一种外部数据质量的评价装置,该装置包括获取单元、第一处理单元和第二处理单元;获取单元用于获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,所述指标矩阵用于表征需要对所述外部数据评价的指标,所述外部数据至少包括各企业的资产信息,所述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;第一处理单元用于采用灰类白化函数准则,获取权向量矩阵,所述权向量矩阵用于表征多个评价者对各所述指标的评价结果的权向量关系;第二处理单元用于根据所述指标矩阵和所述权向量矩阵,得到评价结果,所述评价结果为多个评价等级中的一个所述评价等级。
根据本申请的另一方面,提供了一种电子设备,电子设备包括一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的外部数据质量的评价方法。
应用本申请的技术方案,采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例中提供的一种执行外部数据质量的评价方法的移动终端的硬件结构框图;
图2示出了根据本申请的实施例提供的一种外部数据质量的评价方法的流程示意图;
图3示出了根据本申请的实施例提供的一种外部数据质量的评价装置的结构框图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
外部数据:指通过采购、合作等形式引入我行的,包括以数据形式(简称数据类),以及以研究报告、终端账号等形式引入的数据或服务(简称信息资源类)。
数据质量:按照国际数据管理协会(DAMA)的《数据管理知识手册》中规定,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程”。
数据管理:国际数据管理协会(DAMA)把数据管理定义为“制定和执行用来获取、控制、保护、提供和增强数据的价值的计划、策略、实践和项目的业务职能”。因此启动一个数据项目时,必须要评估数据的状况,并且具备改进和测量的方法来追踪项目的进展程度。
正如背景技术中所介绍的,现有方案对于外部数据质量评价处理仅采用熵权法计算权重以考量外部数据质量,人为干预因素较多,需要投入人力;各指标人工赋权重,导致上下游各指标对数据影响有异议;通过算法直接计算各指标权重会忽略各指标在不同数据场景下影响的不同,为解决现有方案评价外部数据质量的准确度较低的问题,本申请的实施例提供了一种外部数据质量的评价方法、装置和电子设备。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种外部数据质量的评价方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的外部数据质量的评价方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请的实施例提供的一种外部数据质量的评价方法的流程示意图。
如图2所示,该方法包括以下步骤:
步骤S201,获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,上述指标矩阵用于表征需要对上述外部数据评价的指标,上述外部数据至少包括各企业的资产信息,上述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;
外部数据还可以为地理信息、产品性能等,熵权法用于描述信源的不确定程度,根据指标变异性程度确定客观权重。指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。
指标可以为:
准确性:区间准确性、数据模型准确性、字段顺序不匹配等;
完整性:记录完整性、文件完整性、数据值完整性等;
一致性:数据格式一致性、数据值一致性等;
可信度:来源可信度、数据值可信度等;
时效性:更新时效性、更新及时度等;
易访问性:数据格式易访问性等;
唯一性:主键重复等;
保密性:加密等;
精确性:字段长度、数据精度等;
可追溯性:数据值的可追溯等;
效率性:数据更新及时性、使用效率性等;
可用性:数据可用比等;
一致性:多数据源数据一致性等;
易恢复性:数据恢复率等;
依从性:数据值的依从性等。
本申请可以选择精准度(精准度为指标的类别,其中,包括精度、格式、长度)、完整度(完整度为指标的类别,其中,包括记录完整和数据完整)、一致性(一致性为指标的类别,其中,包括逻辑一致性和相同数据参照一致性)、及时性(及时性为指标的类别,其中,包括数据更新一致性)、冗余性(冗余性为指标的类别,其中,包括记录冗余性)。
步骤S201包括以下步骤(采用熵权法对外部数据进行处理,得到指标矩阵,包括以下步骤):
步骤S2011,根据上述外部数据,确定多个指标的第一评分,构建评价矩阵,上述第一评分为上述外部数据在各上述指标上的评分,上述评价矩阵的元素与上述第一评分一一对应;
其中,评价矩阵是由所有的第一评分构成的,第一评分是采用简单的比率法得到的,比率法为所有符合规则的数据占所有源数据的比率。
步骤S2012,根据上述评价矩阵中的所有的上述第一评分,确定各上述指标的熵,上述指标的熵用于表征上述指标在所有的上述指标中的度量;
根据上述评价矩阵中的所有的上述第一评分,确定各上述指标的熵,包括:
具体地,Ej越小,则其变异程度越大,提供的信息量越多,在综合评价中所能起到的作用越大,相应的权重也就越大。n为指标的类别总数、m为指标总数,构成n×m阶上述评价矩阵。
步骤S2013,根据各上述指标的熵,确定各上述指标的熵权,上述指标的熵权用于表征上述指标的熵在所有的上述指标的熵中的权重;
根据各上述指标的熵,确定各上述指标的熵权,包括:
其中,n、m、j均为常数,j为指标的总数,Ej为第j个上述指标的熵,ωj为第j个上述指标的熵权。ωj的取值在0至1之间,Ej的取值在0至1之间,K=1/lnn。
步骤S2014,根据所有的上述指标的熵权,构建上述指标矩阵,上述指标矩阵的元素与上述指标的熵权一一对应。
即指标矩阵是由所有的上述指标的熵权构成的矩阵。外部数据从表的维度计算出准确性,完整性,一致性,冗余性和及时性等五个指标计算出相应的结果,代入到上方的公式中,得到指标矩阵。
步骤S202,采用灰类白化函数准则,获取权向量矩阵,上述权向量矩阵用于表征多个评价者对各上述指标的评价结果的权向量关系;
在灰色系统理论中发展起来的灰色评价方法,可以针对预定目标,对评价对象在某一阶段所处的状态进行评价,其核心环节是确定灰类的等级数及白化权函数。白化权函数可定量描述某评估对象隶属于某灰类的程度。
步骤S202包括以下步骤(即采用灰类白化函数准则,获取权向量矩阵,包括以下步骤):
步骤S2021,接收多个第二评分,并根据所有的上述第二评分,构建灰色判断矩阵,并根据上述灰色判断矩阵,构建各评价等级的白化权函数,上述灰色判断矩阵为各评价者对上述外部数据在各指标上的评价结果的矩阵,上述灰色判断矩阵的元素与上述第二评分一一对应;
由评价者针对外部数据每个表的字段重要性做一个评估,并给不同的权重,在此基础上得出每个表有一个总的质量的第二评分,对所有第二评分进行标准化使得第二评分的区间在[0-10]之间,得到灰色判断矩阵。
步骤S2022,根据各上述评价等级的白化权函数,确定各上述评价等级的评价系数;
根据所有的上述评价等级的评价系数和所有的上述评价等级的白化权函数,确定灰色权向量,包括:
根据确定上述灰色权向量;其中,yak为第a个上述评价者对第j个上述指标的上述评价结果的上述灰色权向量,/>为第a个上述评价者对第j个上述指标的上述评价等级的评价系数,p为常数,xaj为第a个上述评价者对第j个上述指标的上述评价结果,根据/>确定上述第a个上述评价者对第j个上述指标的上述评价等级的评价系数。
步骤S2023,根据所有的上述评价等级的评价系数和所有的上述评价等级的白化权函数,确定灰色权向量,并根据所有的上述灰色权向量,得到上述权向量矩阵,上述灰色权向量为各上述评价者对各上述指标的上述评价结果的权重向量,上述权向量矩阵的元素与上述灰色权向量一一对应。
其中,例如在上述评价等级的数量有五个,分别为第一评价等级、第二评价等级、第三评价等级、第四评价等级、第五评价等级(五个评价等级对应数据质量依次递减)的情况下,根据上述灰色判断矩阵,构建各评价等级的白化权函数,包括:。
根据上述灰色判断矩阵的元素,
构建上述第一评价等级的上述白化权函数其中,上述第一评价等级、上述第二评价等级、上述第三评价等级、上述第四评价等级、上述第五评价等级的评价质量依次降低,f1(x)为上述第一评价等级的上述白化权函数,xaj为第a个上述评价者对第j个上述指标的上述评价结果;
根据上述灰色判断矩阵的元素,
根据上述灰色判断矩阵的元素,
根据上述灰色判断矩阵的元素,
根据上述灰色判断矩阵的元素,
在灰色系统理论中发展起来的灰色评价方法,可以针对预定目标,对评价对象在某一阶段所处的状态进行评价,其核心环节是确定灰类的等级数及白化权函数。白化权函数可定量描述某评估对象隶属于某灰类的程度。
步骤S203,根据上述指标矩阵和上述权向量矩阵,得到评价结果,上述评价结果为多个评价等级中的一个上述评价等级。
例如,根据上述指标矩阵和上述权向量矩阵,得到评价结果,包括:
根据Z=WY,确定评价概率矩阵,上述评价概率矩阵用于表征各上述评价等级所对应的概率,Z为上述评价概率矩阵,W为上述指标矩阵,Y为上述权向量矩阵;根据上述评价概率矩阵,确定目标评价等级概率,上述目标评价等级概率为上述评价概率矩阵中的所有的评价等级所对应的概率中的最大值;将上述目标评价等级概率所对应的上述评价等级作为上述评价结果。
具体地,例如,评价概率矩阵的参数依次为20%、30%、10%、18%、22%,分别对应第一评价等级、第二评价等级、第三评价等级、第四评价等级、第五评价等级的概率,即目标评价等级概率为30%,评价结果为第二评价等级。
通过上述实施例,采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种外部数据质量的评价装置,需要说明的是,本申请实施例的外部数据质量的评价装置可以用于执行本申请实施例所提供的用于外部数据质量的评价方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
以下对本申请实施例提供的外部数据质量的评价装置进行介绍。
图3是根据本申请的实施例提供的一种外部数据质量的评价装置的结构框图。如图3所示,该装置包括获取单元31、第一处理单元32和第二处理单元33;获取单元31用于获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,上述指标矩阵用于表征需要对上述外部数据评价的指标,上述外部数据至少包括各企业的资产信息,上述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;第一处理单元32用于采用灰类白化函数准则,获取权向量矩阵,上述权向量矩阵用于表征多个评价者对各上述指标的评价结果的权向量关系;第二处理单元33用于根据上述指标矩阵和上述权向量矩阵,得到评价结果,上述评价结果为多个评价等级中的一个上述评价等级。
上述装置中,采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
在本申请的一种实施例中,获取单元包括第一确定模块、第二确定模块、第三确定模块和第一处理模块,第一确定模块用于根据上述外部数据,确定多个指标的第一评分,构建评价矩阵,上述第一评分为上述外部数据在各上述指标上的评分,上述评价矩阵的元素与上述第一评分一一对应;第二确定模块用于根据上述评价矩阵中的所有的上述第一评分,确定各上述指标的熵,上述指标的熵用于表征上述指标在所有的上述指标中的度量;第三确定模块用于根据各上述指标的熵,确定各上述指标的熵权,上述指标的熵权用于表征上述指标的熵在所有的上述指标的熵中的权重;第一处理模块用于根据所有的上述指标的熵权,构建上述指标矩阵,上述指标矩阵的元素与上述指标的熵权一一对应。
在本申请的一种实施例中,第二确定模块包括第一确定子模块;
在本申请的一种实施例中,第三确定模块包括第二确定子模块;
其中,n、m、j均为常数,Ej为第j个上述指标的熵,ωj为第j个上述指标的熵权。
在本申请的一种实施例中,第一处理单元包括接收模块、第四确定模块和第五确定模块,接收模块用于接收多个第二评分,并根据所有的上述第二评分,构建灰色判断矩阵,并根据上述灰色判断矩阵,构建各评价等级的白化权函数,上述灰色判断矩阵为各评价者对上述外部数据在各指标上的评价结果的矩阵,上述灰色判断矩阵的元素与上述第二评分一一对应;第四确定模块用于根据各上述评价等级的白化权函数,确定各上述评价等级的评价系数;第五确定模块用于根据所有的上述评价等级的评价系数和所有的上述评价等级的白化权函数,确定灰色权向量,并根据所有的上述灰色权向量,得到上述权向量矩阵,上述灰色权向量为各上述评价者对各上述指标的上述评价结果的权重向量,上述权向量矩阵的元素与上述灰色权向量一一对应。
在本申请的一种实施例中,在上述评价等级的数量有五个,分别为第一评价等级、第二评价等级、第三评价等级、第四评价等级、第五评价等级的情况下,接收模块包括第一构建子模块、第二构建子模块、第三构建子模块、第四构建子模块和第五构建子模块。
第一构建子模块用于根据上述灰色判断矩阵的元素,
构建上述第一评价等级的上述白化权函数其中,上述第一评价等级、上述第二评价等级、上述第三评价等级、上述第四评价等级、上述第五评价等级的评价质量依次降低,f1(x)为上述第一评价等级的上述白化权函数,xaj为第a个上述评价者对第j个上述指标的上述评价结果;
第二构建子模块用于根据上述灰色判断矩阵的元素,
第三构建子模块用于根据上述灰色判断矩阵的元素,
第四构建子模块用于根据上述灰色判断矩阵的元素,
第五构建子模块用于根据上述灰色判断矩阵的元素,
在本申请的一种实施例中,第五确定模块包括第三确定子模块;
第三确定子模块用于根据确定上述灰色权向量;其中,yak为第a个上述评价者对第j个上述指标的上述评价结果的上述灰色权向量,/>为第a个上述评价者对第j个上述指标的上述评价等级的评价系数,p为常数,xaj为第a个上述评价者对第j个上述指标的上述评价结果,根据/>确定上述第a个上述评价者对第j个上述指标的上述评价等级的评价系数。
在本申请的一种实施例中,第二处理单元包括第六确定模块;
第六确定模块用于根据Z=WY,确定评价概率矩阵,上述评价概率矩阵用于表征各上述评价等级所对应的概率,Z为上述评价概率矩阵,W为上述指标矩阵,Y为上述权向量矩阵;根据上述评价概率矩阵,确定目标评价等级概率,上述目标评价等级概率为上述评价概率矩阵中的所有的评价等级所对应的概率中的最大值;将上述目标评价等级概率所对应的上述评价等级作为上述评价结果。
上述外部数据质量的评价装置包括处理器和存储器,上述获取单元、第一处理单元和第二处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有方案评价外部数据质量的准确度较低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述外部数据质量的评价方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述外部数据质量的评价方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,上述指标矩阵用于表征需要对上述外部数据评价的指标,上述外部数据至少包括各企业的资产信息,上述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;采用灰类白化函数准则,获取权向量矩阵,上述权向量矩阵用于表征多个评价者对各上述指标的评价结果的权向量关系;根据上述指标矩阵和上述权向量矩阵,得到评价结果,上述评价结果为多个评价等级中的一个上述评价等级。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,上述指标矩阵用于表征需要对上述外部数据评价的指标,上述外部数据至少包括各企业的资产信息,上述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;采用灰类白化函数准则,获取权向量矩阵,上述权向量矩阵用于表征多个评价者对各上述指标的评价结果的权向量关系;根据上述指标矩阵和上述权向量矩阵,得到评价结果,上述评价结果为多个评价等级中的一个上述评价等级。
本申请还提供了一种电子设备,电子设备包括一个或多个处理器,存储器,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的外部数据质量的评价方法。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的外部数据质量的评价方法,采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
2)、本申请的外部数据质量的评价装置,采用熵权法度量大数据多维指标的重要性程度,再应用灰类评估与最大隶属度原则最终得到待评价数据的质量评估结果,从而提高了对外部数据评价的准确度,进而解决了现有方案评价外部数据质量的准确度较低的问题。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种外部数据质量的评价方法,其特征在于,包括:
获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,所述指标矩阵用于表征需要对所述外部数据评价的指标,所述外部数据至少包括各企业的资产信息,所述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;
采用灰类白化函数准则,获取权向量矩阵,所述权向量矩阵用于表征多个评价者对各所述指标的评价结果的权向量关系;
根据所述指标矩阵和所述权向量矩阵,得到评价结果,所述评价结果为多个评价等级中的一个所述评价等级。
2.根据权利要求1所述的方法,其特征在于,采用熵权法对外部数据进行处理,得到指标矩阵,包括:
根据所述外部数据,确定多个指标的第一评分,构建评价矩阵,所述第一评分为所述外部数据在各所述指标上的评分,所述评价矩阵的元素与所述第一评分一一对应;
根据所述评价矩阵中的所有的所述第一评分,确定各所述指标的熵,所述指标的熵用于表征所述指标在所有的所述指标中的度量;
根据各所述指标的熵,确定各所述指标的熵权,所述指标的熵权用于表征所述指标的熵在所有的所述指标的熵中的权重;
根据所有的所述指标的熵权,构建所述指标矩阵,所述指标矩阵的元素与所述指标的熵权一一对应。
5.根据权利要求1所述的方法,其特征在于,采用灰类白化函数准则,获取权向量矩阵,包括:
接收多个第二评分,并根据所有的所述第二评分,构建灰色判断矩阵,并根据所述灰色判断矩阵,构建各评价等级的白化权函数,所述灰色判断矩阵为各评价者对所述外部数据在各指标上的评价结果的矩阵,所述灰色判断矩阵的元素与所述第二评分一一对应;
根据各所述评价等级的白化权函数,确定各所述评价等级的评价系数;
根据所有的所述评价等级的评价系数和所有的所述评价等级的白化权函数,确定灰色权向量,并根据所有的所述灰色权向量,得到所述权向量矩阵,所述灰色权向量为各所述评价者对各所述指标的所述评价结果的权重向量,所述权向量矩阵的元素与所述灰色权向量一一对应。
6.根据权利要求5所述的方法,其特征在于,在所述评价等级的数量有五个,分别为第一评价等级、第二评价等级、第三评价等级、第四评价等级、第五评价等级的情况下,根据所述灰色判断矩阵,构建各评价等级的白化权函数,包括:
根据所述灰色判断矩阵的元素,构建所述第一评价等级的所述白化权函数其中,所述第一评价等级、所述第二评价等级、所述第三评价等级、所述第四评价等级、所述第五评价等级的评价质量依次降低,f1(x)为所述第一评价等级的所述白化权函数,xaj为第a个所述评价者对第j个所述指标的所述评价结果;
根据所述灰色判断矩阵的元素,构建所述第二评价等级的所述白化权函数其中,f2(x)为所述第二评价等级的所述白化权函数;根据所述灰色判断矩阵的元素,构建所述第三评价等级的所述白化权函数/>f3(x)为所述第三评价等级的所述白化权函数;
8.根据权利要求1至7中任一项所述的方法,其特征在于,根据所述指标矩阵和所述权向量矩阵,得到评价结果,包括:
根据Z=WY,确定评价概率矩阵,所述评价概率矩阵用于表征各所述评价等级所对应的概率,Z为所述评价概率矩阵,W为所述指标矩阵,Y为所述权向量矩阵;
根据所述评价概率矩阵,确定目标评价等级概率,所述目标评价等级概率为所述评价概率矩阵中的所有的评价等级所对应的概率中的最大值;
将所述目标评价等级概率所对应的所述评价等级作为所述评价结果。
9.一种外部数据质量的评价装置,其特征在于,包括:
获取单元,用于获取外部数据,并采用熵权法对外部数据进行处理,得到指标矩阵,所述指标矩阵用于表征需要对所述外部数据评价的指标,所述外部数据至少包括各企业的资产信息,所述资产信息包括以下参数中至少一个:固定资产信息、非固定资产信息;
第一处理单元,用于采用灰类白化函数准则,获取权向量矩阵,所述权向量矩阵用于表征多个评价者对各所述指标的评价结果的权向量关系;
第二处理单元,用于根据所述指标矩阵和所述权向量矩阵,得到评价结果,所述评价结果为多个评价等级中的一个所述评价等级。
10.一种电子设备,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至8中任意一项所述的外部数据质量的评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328295.4A CN116245422A (zh) | 2023-03-29 | 2023-03-29 | 外部数据质量的评价方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328295.4A CN116245422A (zh) | 2023-03-29 | 2023-03-29 | 外部数据质量的评价方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116245422A true CN116245422A (zh) | 2023-06-09 |
Family
ID=86631428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310328295.4A Pending CN116245422A (zh) | 2023-03-29 | 2023-03-29 | 外部数据质量的评价方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245422A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
-
2023
- 2023-03-29 CN CN202310328295.4A patent/CN116245422A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117709906A (zh) * | 2024-02-04 | 2024-03-15 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
CN117709906B (zh) * | 2024-02-04 | 2024-05-14 | 杭银消费金融股份有限公司 | 一种外部数据源查询决策方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8099311B2 (en) | System and method for routing tasks to a user in a workforce | |
Ersoy | Selecting the best normalization technique for ROV method: Towards a real life application | |
CN110288350A (zh) | 用户价值预测方法、装置、设备及存储介质 | |
CN116245422A (zh) | 外部数据质量的评价方法、装置和电子设备 | |
CN111242425A (zh) | 电力数据处理方法和装置 | |
Ghafori et al. | Best cloud provider selection using integrated ANP-DEMATEL and prioritizing SMI attributes | |
CN106993296A (zh) | 终端的性能评估方法及装置 | |
US20210004722A1 (en) | Prediction task assistance apparatus and prediction task assistance method | |
CN117172593A (zh) | 人岗适配方法、装置、终端及电子设备 | |
CN112598526A (zh) | 资产数据的处理方法及装置 | |
Abdelaziz et al. | An enhanced mcdm model for cloud service provider selection | |
CN107423982A (zh) | 基于账户的业务实现方法和装置 | |
CN116629612A (zh) | 一种风险预测的方法、装置、存储介质及电子设备 | |
CN115238903B (zh) | 模型压缩方法、系统、电子设备及存储介质 | |
Sakhrawi et al. | Software enhancement effort estimation using machine learning regression methods | |
CN113704236A (zh) | 政务系统数据质量评估方法、装置、终端及存储介质 | |
CN112150276A (zh) | 一种机器学习模型的训练方法、使用方法、装置和设备 | |
CN113822464A (zh) | 用户信息的处理方法及装置、电子设备、存储介质 | |
CN111967938A (zh) | 云资源推荐方法、装置、计算机设备及可读存储介质 | |
CN113159537A (zh) | 电网新技术项目的评估方法、装置和计算机设备 | |
CN106997472A (zh) | 用户信用模型的用户特征分类方法、用户信用评估方法及装置 | |
Thalia et al. | Towards quantification of information system security | |
CN118822644A (zh) | 站点评分方法、装置 | |
CN117454198A (zh) | 策略匹配度的确定方法、装置、设备及存储介质 | |
US20240184812A1 (en) | Distributed active learning in natural language processing for determining resource metrics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |