CN117808337A - 一种数据处理的方法、装置、电子设备及介质 - Google Patents
一种数据处理的方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN117808337A CN117808337A CN202311618349.7A CN202311618349A CN117808337A CN 117808337 A CN117808337 A CN 117808337A CN 202311618349 A CN202311618349 A CN 202311618349A CN 117808337 A CN117808337 A CN 117808337A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- model
- items
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000013210 evaluation model Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000000875 corresponding effect Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000008451 emotion Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种数据处理的方法、装置、电子设备及介质,所述方法包括:获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。通过本发明实施例,实现了对企业相关数据的质量优化,能够筛选出真正有效的数据。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理的方法、装置、电子设备及介质。
背景技术
随着计算机技术的发展,人工智能技术的被大规模应用。在微服务架构体系中,为了保证各层功能运行正常,通常采用巡检方式对各层进行监控及定期巡检,使微服务架构体系的物理设备层、应用层健康问题得到有效解决。
在巡检的过程中,采集的监控数据的质量直接影响着数据的价值,且还影响着数据分析的结果以及依此作出决策的质量,进而会影响企业的经营管理等决策,而现有技术中缺少对数据质量的优化,导致数据质量较低。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法、装置、电子设备及介质,包括:
一种数据处理的方法,所述方法包括:
获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;
按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;
结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
可选地,在所述按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合之后,还包括:
根据所述多个第一指标项对应的数据指标集合,生成所述多个第一指标项对应的数据指标子矩阵;
在所述按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合之后,还包括:
根据所述多个第二指标项对应的模型指标集合,生成所述多个第二指标项对应的模型指标子矩阵;
所述结合所述数据指标集合和所述模型指标集合,生成拟合值,包括:
结合所述数据指标子矩阵和所述模型指标子矩阵,生成拟合值。
可选地,所述拟合值与所述数据指标子矩阵和所述模型指标子矩阵的差异程度正相关。
可选地,还包括:
根据筛选的企业相关数据,对所述数据指标子矩阵进行更新,并根据更新后的数据指标子矩阵和所述模型指标子矩阵,获得最优解。
可选地,所述根据所述拟合值,对所述企业相关数据进行筛选,包括:
按照所述拟合值从大到小的顺序,对所述企业相关数据进行排序;
从所述企业相关数据中,去除排序在前的部分数据。
可选地,所述多个第一指标项包括以下任一项或多项:
数据的准确性、数据的精确性、数据的真实性、数据的及时性、数据的即时性、数据的完整性、数据的全面性、数据的关联性。
可选地,所述多个第二指标项包括以下任一项或多项:
模型的正确率、模型的错误率、模型的灵敏性、模型的特效性、模型的精度、模型的情正率、模型的负元正确率、模型的正元错误率。
一种数据处理的装置,所述装置用于:
获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;
按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;
结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理的方法。
本发明实施例具有以下优点:
在本发明实施例中,通过获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合,按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合,结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选,实现了对企业相关数据的质量优化,能够筛选出真正有效的数据。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种数据处理的方法的步骤流程图;
图2是本发明一实施例提供的一种第一指标项的示意图;
图3是本发明一实施例提供的另一种数据处理的方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明一实施例提供的一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合。
在本发明一些实施例中,企业相关数据可以为企业经营数据,企业相关数据可以按照公司内部各个职能部门分四类:人力资源、财务数据、生产数据、销售数据。
在实际应用中,可以预先设置多个用于评价数据质量的第一指标项,然后可以按照第一指标项的指示,对企业相关数据进行分析,得到多个第一指标项对应的数据指标集合,通过设置多个评价数据质量的第一指标项,可以有针对性地采取相应的措施提高企业的数据质量。
在本发明一些实施例中,所述多个第一指标项包括以下任一项或多项:
数据的准确性、数据的精确性、数据的真实性、数据的及时性、数据的即时性、数据的完整性、数据的全面性、数据的关联性。
如图2,呈现上述八个第一指标项及第一指标项之间的关系,通过按照上述八个第一指标项的指示,对企业相关数据进行分析,得到多个第一指标项对应的数据指标集合可以包括如下:
数据的准确性集合
数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。
数据的精确性集合
数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。
例如,在测量人的身高时,可以精确到厘米,多次测量结果之间的误差只会在厘米级别在测量北京到上海的距离时,可以精确到千米,多次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度时,可以精确到1/50毫米,多次测量结果之间的误差也只会在1/50毫米级别。因此,可以说采用的测量方法和手段直接影响着数据的精确性。
数据的真实性集合
数据的真实性,也叫数据的正确性(Rightness),数据的正确性取决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况好,数据的真实性就容易得到保证,而可控程度低或者无法追溯,则数据的真实性就难以得到保证。
为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少数据造假,从而让数据更加准确地反映客观事物。
数据的及时性集合
数据的及时性(In-time)是指能否在需要的时候获到数据。例如企业在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是数据分析和挖掘及时性的保障。如果企业的财务核算流程复杂,核算速度缓慢,上个月的数据在本月月中才能统计汇总完成,那么等需要调整财务策略的时候,已经到月底了。特别是对于大型企业,业务覆盖多个市场、多个国家,如果数据不能及时汇总,则会影响到高层决策的及时性。
数据的及时性与企业的数据处理速度及效率有直接的关系,为了提高数据的及时性,越来越多的企业采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝大部分报表,从而提高了数据处理的效率。使用计算机自动处理中间层数据是提高企业数据处理效率的有效手段。
企业除要保证数据采集的及时性和数据处理的效率外,还需要从制度和流程上保证数据传的及时性。数据报表制作完成后,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间中,经营数据分析。
数据的即时性集合
数据的即时性包括数据采集的时间节点和数据传输的时间节点,在数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。
例如,一个生产设备的仪表即时地反映了设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作即时数据。而当将设备的即时运行数据存储下来,用来分析设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。
数据的完整性集合
数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。例如在采集员工信息数据时,要求员工填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间共12项信息,而某个员工仅仅填写了部分信息,例如只填写了其中的6项,则该员工所填写数据的完整性只有一半。
企业中的数据的完整性体现着这家企业对数据的重视程度。要求采集的数据在实际中并未完整采集,这就是不完整的数据,这往往是企业对数据采集质量要求不到位导致的。
另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成24个数据点,记录为24条数据,但是如果只记录了20条数据,那么这个数据也是不完整的。
数据的全面性集合
数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。
例如,要采集员工行为数据,而实际中只采集了员工上班打卡和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到合适的方法来采集,那么这个数据集就是不全面的。
又如,部分用户数据记录了客户的交流沟通数据,部分的用户数据记录了用户的交易数据,部分记录了用户的出行数据,部分记录了客户的餐饮娱乐数据。对全面描述一个人的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。
数据的关联性集合
数据的关联性是指各个数据集之间的关联关系。例如员工的工资数据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来的。
在本发明一些实施例中,在所述按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合之后,还包括:
根据所述多个第一指标项对应的数据指标集合,生成所述多个第一指标项对应的数据指标子矩阵。
在实际应用中,可以通过K最近邻算法将多个第一指标项对应的数据指标集合进行分类后组成数据指标子矩阵,用于后续的计算分析过程,每个数据指标集合和对应一个数据指标子矩阵。
对于K最近邻算法,具体描述:基本思想是给定一个未确定类别的样本x,在样本空间搜索,找出与未确定类别样本距离最近的k个样本xi(i=1,2,…,k),待分类的样本属于哪一类由k个近邻中的样本大多数所属的类别确定。从中可以看出,k最近邻分类主要的问题是确定合适的样本集、距离函数、组合函数和k值。对于多种类型的属性,距离函数可参照聚类分析中样本相似性的度量公式,而组合函数可以用简单无加权投票(voting)或加权投票的方法。在简单无加权投票中,每个近邻x1对x分类的影响都被认为是相同的。通过对k个近邻x所属的类别计数,把x归为计数最多的类。
其中:n表示计数函数,如果xi∈Cj,则η(xi∈Cj)=1,否则η(xi∈Cj)=0。当所属分类计数相同时,为x随机选取一个类别。加权投票对每个计数加权。
其中,权值一般定义为wi=1/d(x,xi)2,d(x,xi)表示样本x与近邻xi的距离。
k最近邻分类器基于局部的数据进行预测,对噪声比较敏感。k值的选择与数据有关。过大的k值可以减小噪声的影响,但使未确定类别样本点的近邻样本数量很大,可能导致分类错误。而过小的k值可能导致投票失效或者受噪声影响。一个较好的k值可通过各种启发式技术来获取。
找出某样本的最近邻样本可能计算所有样本对之间的距离。为有效地发现最近邻,可以利用聚类算法对训样集进行类,如果两个的中心相距比较远,则对应簇中的样本一般不可能成为近邻。只要计算相邻簇的样本之间的距离即可寻找某样本的近邻。
步骤102,按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合。
在本发明一些实施例中,在所述按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合之后,还包括:根据所述多个第二指标项对应的模型指标集合,生成所述多个第二指标项对应的模型指标子矩阵。
其中,模型评测,即对模型的泛化能力(性能)进行评估,一方面可以从实验角度进行比较,如交叉验证等,另一方面可以利用具体的性能评价标准,如测试集准确率等。模型的好坏不仅取决于算法和数据,还取决于任务需求。因此,不同的任务往往对应不同的评价指标,如分类任务下的准确率,回归任务下的均方根误差。
在实际应用中,可以预先设置多个第二指标项,然后可以按照多个第二指标项的指示,对当前评测模型进行分析(模型评测),得到模型指标集合。
在本发明实施例中,一方面,采用K最近邻算法从8个维度聚合成8个数据指标子矩阵,另一方面,对K最近邻算法模型也从模型评测8个指标进行分析,看是否K最近邻算法这个模型是否强壮,有没有缺陷,进而实现从而不经从数据上进行模型运算结果的检查,也从模型本身进行模型的检查。模型也会随着数据的不断训练越来越强壮,运算结果也更准确。
在本发明一些实施例中,所述多个第二指标项包括以下任一项或多项:
模型的正确率、模型的错误率、模型的灵敏性、模型的特效性、模型的精度、模型的情正率、模型的负元正确率、模型的正元错误率。
模型的正确率(Accuracy):模型总体的正确率,是指模型能正确预测、识别1和0的对象数量与预测对象总数的比值,公式如下::
模型的错误率(JErrorrate):模型总体的错误率,是指模型错误预测、错误识别1和0观察对象的数量与预测对象总数的比值,也即1减去正确率的差,公式如下:
模型的灵敏性(Sensitivity):又击中率或真正率,模型正确识别为正(1)的对象占全部观察对象中实际为正(1)的对象数量的比值,公式如下:
模型的特效性(Speciticity);又叫真负率,模型正确识别为负(0)的对象占全部观察对象中实际为负(0)的对象数量的比值,公式如下:
模型的精度(Precision):模型的精度是指模型正确识别为正(1)的对象占模型识别为正(1)的观察对象总数的比值,公式如下:
模型的情正率(False PositiveRate):又叫假正率,模型错误地识别为正(1)的对象数量占实际为负(0)的对象数量的比值,即1减去真负率Specificity,公式如下:
模型的负元正确率(O Negative Predictive Value):模型正确识别为负(0)的对象数量占模型识别为负(0)的观察对象总数的比值,公式如下:
模型的正元错误率(a False DiscoveryRate):模型错误识别为正(1)的对象数量占模型识别为正(1)的观察对象总数的比值,公式如下:
可以很容易地发现,正确率是灵敏性和特效性的函数:
需要说明的是,TruePositive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。True Negative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。False Positive(FP):指模型预测为正(1)的,但是实际上是负(0)的观察对象的数量。False Negative(FN):指模型预测为负(0)的,但是实际上是正(1)的观察对象的数量。
上各种基本指标,从各个度对模型的表现进行评估,在实际业务应用场景中可以有选择地采用其中某些指标(不一定全都采用),关键要看具体的项目背景和业务场景针对其侧重点来选择。
步骤103,结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
在本发明一些实施例中,所述结合所述数据指标集合和所述模型指标集合,生成拟合值,包括:结合所述数据指标子矩阵和所述模型指标子矩阵,生成拟合值。
在实际应用中,可以将数据指标矩阵从AI模型的角度进行回归函数计算获得各指标实际参与企业经营有效数据。具体的,可以通过岭回归算法分别将数据指标集合和模型指标集合,联合代入运算获得拟合值,然后可以根据拟合值,对企业相关数据进行筛选,得到有效数据。
其中,岭回归(ridge regression,Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
岭回归方法模型公式:||Xθ-y||2+||Γθ||2
X=输入;y=输出(预测结果);||=正则
其中,定义r=aI(客观的训练结果=拟合值),
防止过拟合运算过程:θ(a)=(XTX+aI)-1XTy,Ⅰ是单位矩阵。
运算结果即:拟合值10%及以下则表示当前有效训练数据在90%,10%的数据差异化较大属于无效训练数据。
在本发明一些实施例中,所述根据所述拟合值,对所述企业相关数据进行筛选,包括:
按照所述拟合值从大到小的顺序,对所述企业相关数据进行排序;从所述企业相关数据中,去除排序在前的部分数据。
在本发明一些实施例中,所述拟合值与所述数据指标子矩阵和所述模型指标子矩阵的差异程度正相关。
例如,如果拟合值在10%以内表示数据差异化较小,反之差异化较大,通过按照拟合值从大到小的顺序,对所述企业相关数据进行排序,然后可以剔除10%无效训练数据,得到最终的有效数据。
在本发明一些实施例中,还包括:
根据筛选的企业相关数据,对所述数据指标子矩阵进行更新,并根据更新后的数据指标子矩阵和所述模型指标子矩阵,获得最优解。
在实际应用中,将有效数据更新到数据子矩阵,并将模型评测的模型指标组成模型子矩阵,组织当前部门数据集合结合模型子矩阵从数据和矩阵两方面训练,获得企业经营数据最优解。
在一示例中,通过提取历史数据中,每个企业核心部门最佳的企业经营数据对应的数据子矩阵中的指标项,做为初始最优评测指标组合进行数据提取依据。例如,财务数据最佳月份采用的是数据子矩阵的(精确性、真实性和完整性)三个指标和模型子矩阵的正确率、正元错误率两个指标。作为初始最优评测指标(数据和模型指标),如果本月财务数据超预期,但初始最优评测组合运算结果没有高于超预期,则对组合指标进行更换,直到超预期后替换现有初始最优评测指标(数据和模型指标)。
在本发明实施例中,通过获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合,按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合,结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选,实现了对企业相关数据的质量优化,能够筛选出真正有效的数据。
针对企业经营数据分析重视数据而忽略模型准确度和精度的问题,结合实践场景产生的历史数据结合AI算法,对企业经营数据按公司内部各个职能部门分四类:人力资源、财务数据、生产数据、销售数据。通过评价数据质量的八个指标,生产八个数据集合可以有针对性地采取相应的措施提高企业的数据质量。并通过K最近邻算法将八个指标数据分类后组成指标矩阵分别对应一个部门并对分类数据依据业务影响最重要的指标权重进行排序,企业经营可自行配置指标权重。其次,对上一步的指标矩阵内8个子矩阵从AI模型的角度进行回归函数计算获得各指标实际参与企业经营有效数据。通过岭回归算法分别将企业经营数据质量计算得到的有效数据更新到数据子矩阵并将模型评测8个指标组成模型子矩阵。采用矩阵数据智能配置方法组织当前部门数据集合结合模型子矩阵从数据和矩阵二方面训练获得企业经营数据最优解。
参照图3,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合。
步骤302,根据所述多个第一指标项对应的数据指标集合,生成所述多个第一指标项对应的数据指标子矩阵。
步骤303,按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合。
步骤304,根据所述多个第二指标项对应的模型指标集合,生成所述多个第二指标项对应的模型指标子矩阵。
步骤305,结合所述数据指标子矩阵和所述模型指标子矩阵,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明一实施例提供的一种数据处理的装置,具体可以用于:
获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;
按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;
结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
在本发明一些实施例中,在所述按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合之后,还用于:
根据所述多个第一指标项对应的数据指标集合,生成所述多个第一指标项对应的数据指标子矩阵;
在本发明一些实施例中,在所述按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合之后,还用于:
根据所述多个第二指标项对应的模型指标集合,生成所述多个第二指标项对应的模型指标子矩阵;
在本发明一些实施例中,所述结合所述数据指标集合和所述模型指标集合,生成拟合值,包括:
结合所述数据指标子矩阵和所述模型指标子矩阵,生成拟合值。
在本发明一些实施例中,所述拟合值与所述数据指标子矩阵和所述模型指标子矩阵的差异程度正相关。
在本发明一些实施例中,还用于:
根据筛选的企业相关数据,对所述数据指标子矩阵进行更新,并根据更新后的数据指标子矩阵和所述模型指标子矩阵,获得最优解。
在本发明一些实施例中,所述根据所述拟合值,对所述企业相关数据进行筛选,包括:
按照所述拟合值从大到小的顺序,对所述企业相关数据进行排序;
从所述企业相关数据中,去除排序在前的部分数据。
在本发明一些实施例中,所述多个第一指标项包括以下任一项或多项:
数据的准确性、数据的精确性、数据的真实性、数据的及时性、数据的即时性、数据的完整性、数据的全面性、数据的关联性。
在本发明一些实施例中,所述多个第二指标项包括以下任一项或多项:
模型的正确率、模型的错误率、模型的灵敏性、模型的特效性、模型的精度、模型的情正率、模型的负元正确率、模型的正元错误率。
在本发明实施例中,通过获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合,按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合,结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选,实现了对企业相关数据的质量优化,能够筛选出真正有效的数据。
本发明一实施例还提供了一种电子设备,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种数据处理的方法、装置、电子设备及介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理的方法,其特征在于,所述方法包括:
获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;
按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;
结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
2.根据权利要求1所述的方法,其特征在于,在所述按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合之后,还包括:
根据所述多个第一指标项对应的数据指标集合,生成所述多个第一指标项对应的数据指标子矩阵;
在所述按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合之后,还包括:
根据所述多个第二指标项对应的模型指标集合,生成所述多个第二指标项对应的模型指标子矩阵;
所述结合所述数据指标集合和所述模型指标集合,生成拟合值,包括:
结合所述数据指标子矩阵和所述模型指标子矩阵,生成拟合值。
3.根据权利要求2所述的方法,其特征在于,所述拟合值与所述数据指标子矩阵和所述模型指标子矩阵的差异程度正相关。
4.根据权利要求2所述的方法,其特征在于,还包括:
根据筛选的企业相关数据,对所述数据指标子矩阵进行更新,并根据更新后的数据指标子矩阵和所述模型指标子矩阵,获得最优解。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述拟合值,对所述企业相关数据进行筛选,包括:
按照所述拟合值从大到小的顺序,对所述企业相关数据进行排序;
从所述企业相关数据中,去除排序在前的部分数据。
6.根据权利要求1所述的方法,其特征在于,所述多个第一指标项包括以下任一项或多项:
数据的准确性、数据的精确性、数据的真实性、数据的及时性、数据的即时性、数据的完整性、数据的全面性、数据的关联性。
7.根据权利要求1所述的方法,其特征在于,所述多个第二指标项包括以下任一项或多项:
模型的正确率、模型的错误率、模型的灵敏性、模型的特效性、模型的精度、模型的情正率、模型的负元正确率、模型的正元错误率。
8.一种数据处理的装置,其特征在于,所述装置用于:
获取企业相关数据,并按照预设的多个第一指标项,对所述企业相关数据进行分析,得到所述多个第一指标项对应的数据指标集合;
按照预设的多个第二指标项,对当前评测模型进行分析,得到所述多个第二指标项对应的模型指标集合;
结合所述数据指标集合和所述模型指标集合,生成拟合值,并根据所述拟合值,对所述企业相关数据进行筛选。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311618349.7A CN117808337A (zh) | 2023-11-29 | 2023-11-29 | 一种数据处理的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311618349.7A CN117808337A (zh) | 2023-11-29 | 2023-11-29 | 一种数据处理的方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117808337A true CN117808337A (zh) | 2024-04-02 |
Family
ID=90424320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311618349.7A Pending CN117808337A (zh) | 2023-11-29 | 2023-11-29 | 一种数据处理的方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808337A (zh) |
-
2023
- 2023-11-29 CN CN202311618349.7A patent/CN117808337A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951984B (zh) | 一种系统健康度动态分析预测方法及装置 | |
US10031829B2 (en) | Method and system for it resources performance analysis | |
EP1361526A1 (en) | Electronic data processing system and method of using an electronic processing system for automatically determining a risk indicator value | |
KR20160104064A (ko) | 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템 | |
CN111612627A (zh) | 一种评估债券风险影响指标的方法 | |
CA3053894A1 (en) | Defect prediction using historical inspection data | |
CN112488496A (zh) | 一种财务指标预测方法及装置 | |
CN112330095A (zh) | 一种基于决策树算法的质量管理方法 | |
Chatagnier et al. | Scale and zonation effects on internal migration indicators in the United Kingdom | |
CN114118793A (zh) | 一种地方交易所风险预警方法、装置及设备 | |
CN117291428B (zh) | 一种基于企业管理app的数据后台管理系统 | |
CN116992265B (zh) | 碳排放量估算方法、装置、设备和存储介质 | |
Theron | The use of data mining for predicting injuries in professional football players | |
CN117808337A (zh) | 一种数据处理的方法、装置、电子设备及介质 | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
CN113393169B (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN114511250A (zh) | 一种基于机器学习的企业外迁风险预警方法及系统 | |
CN113537759A (zh) | 一种基于权重自适应的用户体验度量模型 | |
Cheng et al. | Evaluation of the impact of traffic volume on site ranking | |
WO2020045106A1 (ja) | 評価装置、方法、及びプログラム | |
CN113920366A (zh) | 一种基于机器学习的综合加权主数据识别方法 | |
CN113011748A (zh) | 推荐效果的评估方法、装置、电子设备及可读存储介质 | |
CN112926816B (zh) | 供应商评价方法、装置、计算机设备和存储介质 | |
Hong et al. | Aspects of Data Quality in Psychology: Missing Data and Aberrant Responses | |
Gath et al. | Potential for admin data to provide country of birth and years since arrival in New Zealand information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |