CN116663990A - 一种指标数据质量评估方法、装置、电子设备及存储介质 - Google Patents
一种指标数据质量评估方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116663990A CN116663990A CN202310645490.XA CN202310645490A CN116663990A CN 116663990 A CN116663990 A CN 116663990A CN 202310645490 A CN202310645490 A CN 202310645490A CN 116663990 A CN116663990 A CN 116663990A
- Authority
- CN
- China
- Prior art keywords
- index
- unknown
- indexes
- attribute
- data quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000001303 quality assessment method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000013441 quality evaluation Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000011157 data evaluation Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种指标数据质量评估方法、装置、电子设备及存储介质,用于解决现有的指标数据评估方法容易出现错漏的技术问题。本发明包括:获取未知指标的属性信息;根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离;根据所述距离在所述已知指标中确定若干个目标指标;获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量。本发明通过计算未知指标与已知指标的距离,来判断未知指标归属于哪一类分类标签,从而根据分类标签确定数据质量,无需人工参与,减少了评估错漏的情况。
Description
技术领域
本发明涉及质量评估技术领域,尤其涉及一种指标数据质量评估方法、装置、电子设备及存储介质。
背景技术
在企业运营中,需要从产品的发展、收入、活跃、使用、支撑营销等维度采集相应数据,完成公司级、和集团级数据的汇聚,以实现公司内部的数据共建共享。
而在企业层面中,汇聚得到的数据量是庞大的,且在采集得到的数据中,存在了各式各样的指标数据。不同的指标数据的质量良莠不齐,通常需要市场部门根据经验分辨各个指标的数据质量。
然而,依据员工经验来分辨指标的数据质量容易出现错漏的情况,导致对市场决策产生负面影响。
发明内容
本发明提供了一种指标数据质量评估方法、装置、电子设备及存储介质,用于解决现有的指标数据评估方法容易出现错漏的技术问题。
本发明提供了一种指标数据质量评估方法,包括:
获取未知指标的属性信息;
根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离;
根据所述距离在所述已知指标中确定若干个目标指标;
获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量。
可选地,所述属性信息包括若干个指标属性;所述指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值。
可选地,所述根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离的步骤,包括:
获取与所述指标属性对应的所述已知指标的目标属性;
分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
将所述未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
对所述属性差和进行开平方,得到所述未知指标与所述已知指标之间的距离。
可选地,所述获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量的步骤,包括:
获取各所述目标指标的分类标签,将数量最多的分类标签对应的数据质量作为所述未知指标的数据质量。
本发明还提供了一种指标数据质量评估装置,包括:
属性信息获取模块,用于获取未知指标的属性信息;
距离计算模块,用于根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离;
目标指标确定模块,用于根据所述距离在所述已知指标中确定若干个目标指标;
数据质量确定模块,用于获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量。
可选地,所述属性信息包括若干个指标属性;所述指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值。
可选地,所述距离计算模块,包括:
目标属性获取子模块,用于获取与所述指标属性对应的所述已知指标的目标属性;
属性差计算子模块,用于分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
属性差和计算子模块,用于将所述未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
距离计算子模块,用于对所述属性差和进行开平方,得到所述未知指标与所述已知指标之间的距离。
可选地,所述数据质量确定模块,包括:
数据质量确定子模块,用于获取各所述目标指标的分类标签,将数量最多的分类标签对应的数据质量作为所述未知指标的数据质量。
本发明还提供了一种电子设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上任一项所述的指标数据质量评估方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的指标数据质量评估方法。
从以上技术方案可以看出,本发明具有以下优点:本发明提供了一种指标数据质量评估方法,包括:获取未知指标的属性信息;根据属性信息分别计算未知指标与多个预设的已知指标的距离;根据距离在已知指标中确定若干个目标指标;获取各目标指标的分类标签,根据分类标签确定未知指标的数据质量。
本发明通过计算未知指标与已知指标的距离,来判断未知指标归属于哪一类分类标签,从而根据分类标签确定数据质量,无需人工参与,减少了评估错漏的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种指标数据质量评估方法的步骤流程图;
图2为本发明另一实施例提供的一种指标数据质量评估方法的步骤流程图;
图3为本发明实施例提供的一种指标数据质量评估装置的结构框图。
具体实施方式
本发明实施例提供了一种指标数据质量评估方法、装置、电子设备及存储介质,用于解决现有的指标数据评估方法容易出现错漏的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种指标数据质量评估方法的步骤流程图。
本发明提供的一种指标数据质量评估方法,具体可以包括以下步骤:
步骤101,获取未知指标的属性信息;
在本发明实施例中,可以根据指标数据的属性信息来对未知指标进行类型划分。其中,指标数据的属性信息可以包括准确性指标、一致性指标、完整性指标和即时性指标。
步骤102,根据属性信息分别计算未知指标与多个预设的已知指标的距离;
在本发明实施例中,可以采用k近邻法计算得到与未知指标最接近的若干个目标指标,首先可以先根据属性信息分别计算未知指标与多个预设的已知指标之间的距离。
未知指标与已知指标之间的距离可以为两者之间的欧氏距离。
已知指标可以为与未知指标具有相同属性信息的指标。通过计算未知指标与各已知指标之间的距离,可以判断未知指标与已知指标之间的相似性,从而可以基于未知指标与各已知指标之间的相似性来对未知指标进行质量评估。
步骤103,根据距离在已知指标中确定若干个目标指标;
由于参与距离计算的已知指标数量较多,各指标与未知指标的相似性存在区别。与未知指标距离较远的已知指标容易对已知指标的分类判定造成干扰。因此在本发明实施例中,可以根据距离在已知指标中确定若干个目标指标参与未知指标的数据质量评估。
在一个示例中,可以通过交叉验证的方式来确定目标指标的数量。
步骤104,获取各目标指标的分类标签,并根据分类标签确定未知指标的数据质量。
在获取到各目标指标的分类标签后,可以根据分类标签来确定未知指标的数据质量。
本发明通过计算未知指标与已知指标的距离,来判断未知指标归属于哪一类分类标签,从而根据分类标签确定数据质量,无需人工参与,减少了评估错漏的情况。
请参阅图2,图2为本发明另一实施例提供的一种指标数据质量评估方法的步骤流程图。具体可以包括以下步骤:
步骤201,获取未知指标的属性信息;
在本发明实施例中,未知指标的属性信息可以包括准确性指标、一致性指标、完整性指标和知识性指标。其中,准确性指标可以包括指标同比、指标环比、指标均值、指标中位数、指标方差和指标标准差;一致性指标可以包括指标值类型是否标准、是否满足指标编码规则校验;完整性可以包括指标省份数、指标值是否为空(指标空值)、指标缺失率;即时性指标值指标生成的间隔周期。
在实际应用中,可以采用上述属性中的若干项来计算未知指标与已知指标之间的距离。
在一个示例中,可以采用指标环比、指标同比、指标均值、指标中位数、指标方差、指标标准差和指标空值等数值化的指标属性来计算未知指标与已知指标之间的距离。
步骤202,根据属性信息分别计算未知指标与多个预设的已知指标的距离;
在本发明实施例中,可以采用k近邻法计算得到与未知指标最接近的若干个目标指标,首先可以先根据属性信息分别计算未知指标与多个预设的已知指标之间的距离。
在一个示例中,根据属性信息分别计算未知指标与多个预设的已知指标的距离的步骤,可以包括以下子步骤:
S21,获取与指标属性对应的已知指标的目标属性;
S22,分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
S23,将未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
S24,对属性差和进行开平方,得到未知指标与已知指标之间的距离。
在本发明实施例中,未知指标与已知指标之间的距离可以为欧式距离。
假设二维空间中存在两个点,则两个点的欧式距离的计算公式如下:
其中,d12为两个点之间的欧式距离;(x1,y1)为第一个点的二维坐标,(x2,y2)为第二个点的二维坐标。
拓展到三维空间,则公式演变为:
其中,(x1,y1,z1)为第一个点的三维坐标,(x2,y2,z2)为第二个点的三维坐标。
拓展到n维空间,则公式演变为:
其中,x1i为第一个点第i个维度的维度坐标,x2i为第二个点第i个维度的维度坐标,n为维度数。本发明的每一个参与计算的指标属性对应一个维度,即n的值取决于参与计算的指标属性的数量。
以指标属性为指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值为例,假设训练样本集中包含了指标A-指标L共12个已知指标,计算样本集中包含了指标M-指标O共3个未知指标,且未知指标各指标属性及对应的已知指标的目标属性的参数值如下表1所示:
表1
根据上表1可以计算未知指标M与已知指标A的距离为:
dMA=sqrt((指标M环比-指标A环比)2+(指标M同比-指标A同比)2+(指标M均值-指标A均值)2+(指标M中位值-指标A中位值)2+(指标M方差-指标A方差)2+(指标M标准差-指标A标准差)2+(指标M空值-指标A空值)2)=sqrt((-0.3-0.3)2+(-0.3-0.4)2+(65-100)2+(65-100)2+(65-100)2+(65-100)2+(0-0)2)=sqrt(-0.36 -0.49-1225-1225-1225-1225)=70.006。
同理可以计算得到未知指标M与已知指标B-L之间的距离,以及未知指标N、O与已知指标A-L之间的距离,如表2所示:
表2
步骤203,根据距离在已知指标中确定若干个目标指标;
在计算得到未知指标与已知指标之间的距离之后,可以在其中确定若干个目标指标。
需要说明的是,k近邻法的k值(本发明指目标指标的个数)选取对近邻算法的结果会产生重大影响;如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,k值的减小就意味着整体模型变得复杂,容易发生过拟合;
如果选择较大的k值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
在本发明实施例中,k值可以先去一个比较小的数值,然后采用交叉验证法计算方差后,来得到最优的k值。选择k值时,一般取一个较大的临界点,当它继续增大或减小的时候,错误率都会上升。
以最优的k值为4举例,其表征目标指标为与未知指标距离最大的4个已知指标。
步骤204,获取各目标指标的分类标签,将数量最多的分类标签对应的数据质量作为未知指标的数据质量。
在确定了目标指标的数量后,可以获取目标指标的分类标签,将数量最多的分类标签对应的数据质量作为未知指标的数据质量。
以表1和表2中的已知指标A-L为例。假设指标A-C的分类标签为数据质量优秀,指标D-F的分类标签为数据质量良好,指标G-I的分类标签为数据质量一般,指标J-L的分类标签为数据质量差,取k=4,则未知指标M-O的数量质量如下表3所示:
表3
如表3所示,未知指标对应的目标指标为已知指标A、C、E、F,其中指标A、C为数量质量优秀,指标E、F为数据质量良好,但指标E、F距离未知指标M更近,因此未知指标M的数据质量为数据质量良好。
根据指标评估分析结果可知:市场人员在使用指标M数据时,可放心使用,但在使用指标N数据时,需要慎重考虑,尽量不使用指标N的数据,使用指标O时,最好结合其他参考数据一起使用。
本发明通过计算未知指标与已知指标的距离,来判断未知指标归属于哪一类分类标签,从而根据分类标签确定数据质量,无需人工参与,减少了评估错漏的情况。
请参阅图3,图3为本发明实施例提供的一种指标数据质量评估装置的结构框图。
本发明实施例提供了一种指标数据质量评估装置,包括:
属性信息获取模块301,用于获取未知指标的属性信息;
距离计算模块302,用于根据属性信息分别计算未知指标与多个预设的已知指标的距离;
目标指标确定模块303,用于根据距离在已知指标中确定若干个目标指标;
数据质量确定模块304,用于获取各目标指标的分类标签,并根据分类标签确定未知指标的数据质量。
在本发明实施例中,属性信息包括若干个指标属性;指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值。
在本发明实施例中,距离计算模块302,包括:
目标属性获取子模块,用于获取与指标属性对应的已知指标的目标属性;
属性差计算子模块,用于分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
属性差和计算子模块,用于将未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
距离计算子模块,用于对属性差和进行开平方,得到未知指标与已知指标之间的距离。
在本发明实施例中,数据质量确定模块304,包括:
数据质量确定子模块,用于获取各目标指标的分类标签,将数量最多的分类标签对应的数据质量作为未知指标的数据质量。
本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行本发明实施例的指标数据质量评估方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的指标数据质量评估方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种指标数据质量评估方法,其特征在于,包括:
获取未知指标的属性信息;
根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离;
根据所述距离在所述已知指标中确定若干个目标指标;
获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量。
2.根据权利要求1所述的方法,其特征在于,所述属性信息包括若干个指标属性;所述指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值。
3.根据权利要求2所述的方法,其特征在于,所述根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离的步骤,包括:
获取与所述指标属性对应的所述已知指标的目标属性;
分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
将所述未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
对所述属性差和进行开平方,得到所述未知指标与所述已知指标之间的距离。
4.根据权利要求1所述的方法,其特征在于,所述获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量的步骤,包括:
获取各所述目标指标的分类标签,将数量最多的分类标签对应的数据质量作为所述未知指标的数据质量。
5.一种指标数据质量评估装置,其特征在于,包括:
属性信息获取模块,用于获取未知指标的属性信息;
距离计算模块,用于根据所述属性信息分别计算所述未知指标与多个预设的已知指标的距离;
目标指标确定模块,用于根据所述距离在所述已知指标中确定若干个目标指标;
数据质量确定模块,用于获取各所述目标指标的分类标签,并根据所述分类标签确定所述未知指标的数据质量。
6.根据权利要求5所述的装置,其特征在于,所述属性信息包括若干个指标属性;所述指标属性包括指标环比、指标同比、指标均值、指标中位值、指标方差、指标标准差和指标空值。
7.根据权利要求6所述的装置,其特征在于,所述距离计算模块,包括:
目标属性获取子模块,用于获取与所述指标属性对应的所述已知指标的目标属性;
属性差计算子模块,用于分别计算各指标属性与对应的目标属性之间的差值的平方,得到属性差;
属性差和计算子模块,用于将所述未知指标的所有指标属性与目标属性对应的属性差相加,得到属性差和;
距离计算子模块,用于对所述属性差和进行开平方,得到所述未知指标与所述已知指标之间的距离。
8.根据权利要求5所述的装置,其特征在于,所述数据质量确定模块,包括:
数据质量确定子模块,用于获取各所述目标指标的分类标签,将数量最多的分类标签对应的数据质量作为所述未知指标的数据质量。
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的指标数据质量评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的指标数据质量评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645490.XA CN116663990A (zh) | 2023-06-01 | 2023-06-01 | 一种指标数据质量评估方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310645490.XA CN116663990A (zh) | 2023-06-01 | 2023-06-01 | 一种指标数据质量评估方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663990A true CN116663990A (zh) | 2023-08-29 |
Family
ID=87723806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310645490.XA Pending CN116663990A (zh) | 2023-06-01 | 2023-06-01 | 一种指标数据质量评估方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663990A (zh) |
-
2023
- 2023-06-01 CN CN202310645490.XA patent/CN116663990A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190166024A1 (en) | Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof | |
KR20160011776A (ko) | 다중 의사 결정 문제 해결을 위한 계층적 분석 기법, 회색수 및 엔트로피 기반의 해법 연산 방법 | |
CN106021298B (zh) | 一种基于非对称加权相似度的协同过滤推荐方法及系统 | |
CN110852755A (zh) | 针对交易场景的用户身份识别方法和装置 | |
CN109685104B (zh) | 一种识别模型的确定方法和装置 | |
CN109615080B (zh) | 无监督模型评估方法、装置、服务器及可读存储介质 | |
Blanco et al. | An alternative to the Mahalanobis distance for determining optimal correspondences in data association | |
US20220222581A1 (en) | Creation method, storage medium, and information processing apparatus | |
CN111914903A (zh) | 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备 | |
JP6627496B2 (ja) | 管理装置、コンピュータに実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Pugelj et al. | Predicting structured outputs k-nearest neighbours method | |
US20220230027A1 (en) | Detection method, storage medium, and information processing apparatus | |
Olukanmi et al. | Automatic detection of outliers and the number of clusters in k-means clustering via Chebyshev-type inequalities | |
Deutsch et al. | Ties matter: Meta-evaluating modern metrics with pairwise accuracy and tie calibration | |
Li et al. | Data imputation for sparse radio maps in indoor positioning | |
Huang et al. | A multi-attribute decision-making model for the robust classification of multiple inputs and outputs datasets with uncertainty | |
CN116663990A (zh) | 一种指标数据质量评估方法、装置、电子设备及存储介质 | |
CN113868597B (zh) | 一种用于年龄估计的回归公平性度量方法 | |
CN113642029B (zh) | 一种度量数据样本与模型决策边界相关性的方法及系统 | |
CN115730248A (zh) | 一种机器账号检测方法、系统、设备及存储介质 | |
CN105183804A (zh) | 一种基于本体的聚类服务方法 | |
CN114330090A (zh) | 一种缺陷检测方法、装置、计算机设备和存储介质 | |
CN112861689A (zh) | 一种基于nas技术的坐标识别模型的搜索方法及装置 | |
CN109255079B (zh) | 一种基于稀疏线性方法的云服务个性推荐系统及方法 | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |