CN113112178A - 基于机器学习的数据处理方法、装置、设备及存储介质 - Google Patents

基于机器学习的数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113112178A
CN113112178A CN202110482299.9A CN202110482299A CN113112178A CN 113112178 A CN113112178 A CN 113112178A CN 202110482299 A CN202110482299 A CN 202110482299A CN 113112178 A CN113112178 A CN 113112178A
Authority
CN
China
Prior art keywords
man
hour
working
data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110482299.9A
Other languages
English (en)
Inventor
王齐琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202110482299.9A priority Critical patent/CN113112178A/zh
Publication of CN113112178A publication Critical patent/CN113112178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能领域,公开了一种基于机器学习的数据处理方法、装置、设备及存储介质。该方法包括:获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;将所述第一工时分布向量输入预置工时数据处理模型进行工作饱和度计算,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。本发明通过机器学习方式进行工作饱和度计算,大大提高了工作饱和度的计算效率。

Description

基于机器学习的数据处理方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于机器学习的数据处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的高速发展,计算机技术被应用于生活的各个方面,工时记录和工作状态监测也广泛采用计算机技术。工时记录和工作状态监测的检测结果常用工作饱和度表示,工作饱和度是指员工的有效工作时间与规定的工作时间之比。在正常的工作日采用8小时工作制,有的员工可能无所事事,而有的员工一直在从事与工作相关的事情,后者的工作饱和度自然就比后者高很多。
传统的工时管理技术无法将工时自动记入工时系统,造成工时数据分析的不全面,工时的记录需要人工每日花费不少时间进行编辑,在项目执行本身外额外增加工时录入增加人工负担,使得工作效率降低。通常在计算工作饱和度时主要依赖于人工,但是人工计算的工作饱和度错误率很高,而且计算效率很低。
发明内容
本发明的主要目的在于解决目前工作饱和度的计算效率低的技术问题。
本发明第一方面提供了一种基于机器学习的数据处理方法,所述基于机器学习的数据处理方法包括:
获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;
根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
可选的,在本发明第一方面的第一种实现方式中,所述方法还包括:训练所述工时数据处理模型,具体包括如下步骤:
获取多个考核对象的工时数据样本,并对所述工时数据样本进行预处理,得到第二实际工时数据;
对所述第二实际工时数据进行工作量积分计算,得到第二工作量积分;
根据所述第二工作量积分,构建所述待考核对象平均工时分布的第二工时分布向量;
将所述第二工时分布向量输入所述嵌入层进行向量转换,得到第一工时编码向量;
将所述第一工时编码向量输入所述GRU网络进行特征提取,得到第一工时特征向量;
将所述第一工时特征向量输入所述全连接层进行分类整合,得到第二工作饱和度;
根据所述第二工作饱和度,调用预置损失函数对所述GRU网络进行参数优化,直至所述GRU网络收敛,得到所述工时数据处理模型。
可选的,在本发明第一方面的第二种实现方式中,所述获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据包括:
获取待考核对象的工时数据;
基于预置无操作定义,提取所述工时数据中的无操作工时数据;
删除所述工时数据中的无操作工时数据,得到标准工时数据;
对所述标准工时数据进行误差值删除,得到第一实际工时数据。
可选的,在本发明第一方面的第三种实现方式中,所述对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分包括:
提取所述第一实际工时数据中各项工作任务对应的分布时长,得到各项工作任务对应的时间数据;
分别计算所述各项工作任务对应的时间数据和所述第一实际工时数据的比值,得到多个工时数据比值;
分别计算所述各工时数据比值和预置工作量评分标准分值的乘积,得到多个标准分值;
对所述各标准分值进行加权求和,得到所述待考核对象的第一工作量积分。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量包括:
提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据;
分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据;
分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值;
按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量。
可选的,在本发明第一方面的第五种实现方式中,所述将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度包括:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
本发明第二方面提供了一种基于机器学习的数据处理装置,所述基于机器学习的数据处理装置包括:
获取模块,用于获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
积分计算模块,用于对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
向量构建模块,用于根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
模型处理模块,用于将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度;
输出模块,用于根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
可选的,在本发明第二方面的第一种实现方式中,所述基于机器学习的数据处理装置还包括:
模型训练模块,用于获取多个考核对象的工时数据样本,并对所述工时数据样本进行预处理,得到第二实际工时数据;对所述第二实际工时数据进行工作量积分计算,得到第二工作量积分;根据所述第二工作量积分,构建所述待考核对象平均工时分布的第二工时分布向量;将所述第二工时分布向量输入所述嵌入层进行向量转换,得到第一工时编码向量;将所述第一工时编码向量输入所述GRU网络进行特征提取,得到第一工时特征向量;将所述第一工时特征向量输入所述全连接层进行分类整合,得到第二工作饱和度;根据所述第二工作饱和度,调用预置损失函数对所述GRU网络进行参数优化,直至所述GRU网络收敛,得到所述工时数据处理模型。
可选的,在本发明第二方面的第二种实现方式中,所述获取模块具体用于:
获取待考核对象的工时数据;
基于预置无操作定义,提取所述工时数据中的无操作工时数据;
删除所述工时数据中的无操作工时数据,得到标准工时数据;
对所述标准工时数据进行误差值删除,得到第一实际工时数据。
可选的,在本发明第二方面的第三种实现方式中,所述积分计算模块具体用于:
提取所述第一实际工时数据中各项工作任务对应的分布时长,得到各项工作任务对应的时间数据;
分别计算所述各项工作任务对应的时间数据和所述第一实际工时数据的比值,得到多个工时数据比值;
分别计算所述各工时数据比值和预置工作量评分标准分值的乘积,得到多个标准分值;
对所述各标准分值进行加权求和,得到所述待考核对象的第一工作量积分。
可选的,在本发明第二方面的第四种实现方式中,所述向量构建模块具体用于:
提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据;
分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据;
分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值;
按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量。
可选的,在本发明第二方面的第五种实现方式中,所述模型处理模块具体用于:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
本发明第三方面提供了一种基于机器学习的数据处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于机器学习的数据处理设备执行上述的基于机器学习的数据处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于机器学习的数据处理方法。
本发明提供的技术方案中,鉴于现有工作饱和度的计算方式依赖于人工,导致计算的效率低而且错误率较高,因此引入了机器学习方式生成了可用于对工作饱和度进行自动计算的模型,首先对考核对象的工时数据进行预处理,得到时间工时数据,通过时间工时数据计算考核对象的工作量积分,根据工作量积分构建工时分布向量,通过工时数据分析模型对工时分布向量进行处理得到工作饱和度,以及通过比较工作饱和度和饱和度阈值,直接输出考核结果。本发明通过机器学习方式进行基于机器学习的数据处理,大大提高了工作饱和度的计算效率。
附图说明
图1为本发明实施例中基于机器学习的数据处理方法的第一个实施例示意图;
图2为本发明实施例中基于机器学习的数据处理方法的第二个实施例示意图;
图3为本发明实施例中基于机器学习的数据处理方法的第三个实施例示意图;
图4为本发明实施例中基于机器学习的数据处理装置的一个实施例示意图;
图5为本发明实施例中基于机器学习的数据处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于机器学习的数据处理方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于机器学习的数据处理方法的第一个实施例包括:
101、获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
可以理解的是,本发明的执行主体可以为基于机器学习的数据处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,获取待考核对象的工时数据,可以通过查询待考核对象的考勤记录、员工信息得到。其中工时数据可以通过当前时间点-上班时间点得到。工时数据的预处理包括:对无操作工时数据的删除和误差值的删除。
可选的,在一实施例中,上述步骤101包括:
获取待考核对象的工时数据;
基于预置无操作定义,提取所述工时数据中的无操作工时数据;
删除所述工时数据中的无操作工时数据,得到标准工时数据;
对所述标准工时数据进行误差值删除,得到第一实际工时数据。
本实施例中,定义超过X min无任何输入动作的时长为无操作。例如:当X为15时,即超过15分钟无任何输入动作时就视为无操作。然后将待考核对象的工时数据中无操作的工时数据删除,得到标准工时数据。误差值是工时数据中的超过正常数据0.5倍的数据,删除掉这些误差较大的数据得到待考核对象的实际工时数据。
102、对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
本实施例中,实际工时数据中每项工作任务对应一条业务数据,每项工作任务对应一项评分标准,由此工作量的量化实现标准化。标准化的过程是反复递进修编,即需要多次应用校验后才能达到一个科学稳定的量化值,从而得到工作量积分。
可选的,在一实施例中,上述步骤102包括:
提取所述第一实际工时数据中各项工作任务对应的分布时长,得到各项工作任务对应的时间数据;
分别计算所述各项工作任务对应的时间数据和所述第一实际工时数据的比值,得到多个工时数据比值;
分别计算所述各工时数据比值和预置工作量评分标准分值的乘积,得到多个标准分值;
对所述各标准分值进行加权求和,得到第一工作量积分。
本实施例中,提取实际工时数据中各项工作任务对应的分布时长,例如:某微信小程序开发周期对应的时长为148小时。例如:会议报告的上传对应的时长为3小时。计算所述分布时长与实际工时数据的比值,得到多个工时数据比值,例如:当各项工作任务对应的分布时长为:10、12、15、34、48、18、63时,实际工时数据为200,则比值依次为0.05,0.06,0.075,0.17,0.24,0.09,0.315。工作量评分标准分值是对每一项工作任务的标准评分标准,例如:会议记录对应的工作量评分标准分值为2分,处理客户投诉对应的工作量评分标准分值为1.5分。最后对工时数据的比值和对应工作量评分标准分值相乘,得到多个标准分值,对这些标准分值进行求和,得到工作量积分。
103、根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
本实施例中,工时分布向量的构建过程是由工时数据库中各项工作任务对应的平均工时数据和工作量积分的乘积,得到有效工时数据,再将有效工时数据减去平均工时数据的差值进行平方运算,得到多个差值平方值,再按照差值平方值对应的工作任务的时间序列进行编码,得到工时分布向量。
例如:时间序列的差值平方值为4、9、1、1、16时,工时分布向量为[4,9,1,1,16]。
104、将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;
本实施例中,工时数据处理模型包括嵌入层、GRU网络和全连接层,其中,嵌入层的作用是对工时分布向量进行编码的转换,转换为模型能够识别的向量,GRU网络是对编码向量进行特征提取,全连接层的作用是对特征向量进行分类整合,全连接层的输出即为工作饱和度。
可选的,在一实施例中,上述步骤104包括:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
本实施例中,将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量,通过嵌入层对工时分布向量进行embedding向量编码,例如:工时分布向量为[3,6,7,4,0],嵌入层编码后得到的工时编码向量为:[1,0,0,1,3]。
本实施例中,GRU网络为双向GRU网络,双向GRU神经网络的前向输出一个前向隐藏状态向量,后向输出一个后向隐藏状态向量,对前向隐藏状态向量和后向隐藏状态向量进行拼接,得到工时特征向量。
例如:前向隐藏状态向量为[0,1,2],后向隐藏状态向量为[1,0,0],拼接后得到的工时特征向量为[0,1,2,1,0,0]。
本实施例中,全连接层将GRU网络处理得到的特征向量输入第一层全连接层进行分类处理,得到的结果直接输入第二层全连接层进行整合,得到工作饱和度。
105、根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
本实施例中,判断所述第一工作饱和度是否超过预置饱和度阈值,若是,则输出考核结果为通过。饱和度阈值一般设为1.2。当工作饱和度超过1.2时,则考核结果为通过,当工作饱和度小于1.2,则考核为不通过。
本发明实施例中,鉴于现有工作饱和度的计算方式依赖于人工,导致计算的效率低而且错误率较高,因此引入了机器学习方式生成了可用于对工作饱和度进行自动计算的模型,首先对考核对象的工时数据进行预处理,得到时间工时数据,通过时间工时数据计算考核对象的工作量积分,根据工作量积分构建工时分布工时分布向量,通过工时数据分析模型对工时分布向量进行处理得到工作饱和度,以及通过比较工作饱和度和饱和度阈值,直接输出考核结果。本发明通过机器学习方式进行工作饱和度计算,大大提高了工作饱和度的计算效率。
请参阅图2,本发明实施例中基于机器学习的数据处理方法的第二个实施例包括:
201、获取多个考核对象的工时数据样本,并对所述工时数据样本进行预处理,得到第二实际工时数据;
本实施例中,工时数据处理模型由嵌入层、GRU网络和全连接层组成。
202、对所述第二实际工时数据进行工作量积分计算,得到第二工作量积分;
203、根据所述第二工作量积分,构建所述待考核对象平均工时分布的第二工时分布向量;
204、将所述第二工时分布向量输入所述嵌入层进行向量转换,得到第一工时编码向量;
本实施例中,嵌入层是对工时分布向量进行转换,是转换后的工时分布向量可以让模型识别出来。
例如:工时分布向量为[3,6,7,4,0],嵌入层编码后得到的工时编码向量为:[1,0,0,1,3]。
205、将所述第一工时编码向量输入所述GRU网络进行特征提取,得到第一工时特征向量;
本实施例中,GRU网络为双向GRU网络,双向GRU神经网络的前向输出一个前向隐藏状态向量,后向输出一个后向隐藏状态向量,对前向隐藏状态向量和后向隐藏状态向量进行拼接,得到工时特征向量。
例如:前向隐藏状态向量为[0,1,2],后向隐藏状态向量为[1,0,0],拼接后得到的工时特征向量为[0,1,2,1,0,0]。
206、将所述第一工时特征向量输入所述全连接层进行分类整合,得到第二工作饱和度;
本实施例中,将所述工时特征向量输入第一层全连接层,通过所述第一层全连接层对所述工时特征向量进行ReLU函数运算,输出工时特征值;将所述工时特征值输入第二层全连接层,对所述工时特征值进行sigmiod函数运算,输出工作饱和度,其中,所述第一层全连接层采用ReLU函数,第一层全连接层的计算公式为:D1=tanh(Wd1ht+bd1),D1表示第一层全连接层的输出结果,tanh表示双曲正切函数,ht为GRU网络的输出向量,Wd1、bd1为训练参数,所述第二层全连接层采用sigmiod函数,第二层全连接层的计算公式为:D2=σ(Wd2D1+bd2),D2表示第二层全连接层的输出结果,即工作饱和度,其中,σ表示sigmoid函数,Wd2、bd2为训练参数。
207、根据所述第二工作饱和度,调用预置损失函数对所述GRU网络进行参数优化,直至所述GRU网络收敛,得到所述工时数据处理模型;
本实施例中,损失函数为MSE,通过计算标准工作饱和度和第二工作饱和度的均值方差,对GRU网络的参数进行调整,使所述GRU网络收敛,得到所述工时数据处理模型。
208、获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
209、对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
210、根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
211、将所述第一工时分布向量输入工时数据处理模型进行基于机器学习的数据处理,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;
212、根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
本发明实施例中,详细描述了工时数据处理模型的训练过程,通过对工时数据样本进行预处理得到实际工时数据,再将实际工时数据得到的工时分布向量输入嵌入层进行向量转换,得到编码向量,将编码向量输入GRU网络进行特征提取,加快GRU网络的收敛,调用损失函数MSE计算损失值,对GRU网络的参数进行优化,使GRU网络收敛,得到工时数据处理模型,当模型收敛时即可判定模型训练完成。
请参阅图3,本发明实施例中基于机器学习的数据处理方法的第三个实施例包括:
301、获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
302、对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
303、提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据;
本实施例中,工时数据库可以通过互联网,移动互联网,物联网获取,可对包括图片、视频、文字信息在内的数据进行处理以获得,可以采用开源的Storm(一种分布式的、容错的实时计算系统)进行大数据处理,从而获得取与所述待考核对象的工作岗位相同且就职时间相同的员工的平均工时数据。
304、分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据;
305、分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值;
306、按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量;
本实施例中,工时分布向量的构建过程是由工时数据库中各项工作任务对应的平均工时数据和工作量积分的乘积,得到有效工时数据,例如:平均工时数据为60,工作量积分为0.3,得到的有效工时数据为18。再将有效工时数据减去平均工时数据的差值进行平方运算,得到多个差值平方值,例如:有效工时数据为18,平均工时数据为17,得到的差值平方值为1。再按照差值平方值对应的工作任务的时间序列进行编码,得到工时分布向量。
例如:时间序列的差值平方值为4、9、1、1、16时,工时分布向量为[4,9,1,1,16]。
307、将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;
308、根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
本发明实施例中,向量的构建过程是对工作量积分和工时数据的进一步关联,首先提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据,再分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值,最后按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量,使最终计算得到的工作饱和度更加真实,而且构建的向量经过模型的处理,可以更加快速的计算出工作饱和度。
上面对本发明实施例中基于机器学习的数据处理方法进行了描述,下面对本发明实施例中基于机器学习的数据处理装置进行描述,请参阅图4,本发明实施例中基于机器学习的数据处理装置一个实施例包括:
获取模块401,用于获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
积分计算模块402,用于对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
向量构建模块403,用于根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
模型处理模块404,用于将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度;
输出模块405,用于根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
可选的,在一实施例中,所述基于机器学习的数据处理装置还包括:
模型训练模块406,用于获取多个考核对象的工时数据样本,并对所述工时数据样本进行预处理,得到第二实际工时数据;对所述第二实际工时数据进行工作量积分计算,得到第二工作量积分;根据所述第二工作量积分,构建所述待考核对象平均工时分布的第二工时分布向量;将所述第二工时分布向量输入所述嵌入层进行向量转换,得到第一工时编码向量;将所述第一工时编码向量输入所述GRU网络进行特征提取,得到第一工时特征向量;将所述第一工时特征向量输入所述全连接层进行分类整合,得到第二工作饱和度;根据所述第二工作饱和度,调用预置损失函数对所述GRU网络进行参数优化,直至所述GRU网络收敛,得到所述工时数据处理模型。
可选的,在一实施例中,所述获取模块401具体用于:
获取待考核对象的工时数据;
基于预置无操作定义,提取所述工时数据中的无操作工时数据;
删除所述工时数据中的无操作工时数据,得到标准工时数据;
对所述标准工时数据进行误差值删除,得到第一实际工时数据。
可选的,在一实施例中,所述积分计算模块402具体用于:
提取所述第一实际工时数据中各项工作任务对应的分布时长,得到各项工作任务对应的时间数据;
分别计算所述各项工作任务对应的时间数据和所述第一实际工时数据的比值,得到多个工时数据比值;
分别计算所述各工时数据比值和预置工作量评分标准分值的乘积,得到多个标准分值;
对所述各标准分值进行加权求和,得到所述待考核对象的第一工作量积分。
可选的,在一实施例中,所述向量构建模块403具体用于:
提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据;
分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据;
分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值;
按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量。
可选的,在一实施例中,所述模型处理模块404具体用于:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
本发明实施例中,鉴于现有工作饱和度的计算方式依赖于人工,导致计算的效率低而且错误率较高,因此引入了机器学习方式生成了可用于对工作饱和度进行自动计算的模型,首先对考核对象的工时数据进行预处理,得到时间工时数据,通过时间工时数据计算考核对象的工作量积分,根据工作量积分构建工时分布工时分布向量,通过工时数据分析模型对工时分布向量进行处理得到工作饱和度,以及通过比较工作饱和度和饱和度阈值,直接输出考核结果。本发明通过机器学习方式进行工作饱和度计算,大大提高了工作饱和度的计算效率。
上面图4从模块化功能实体的角度对本发明实施例中的基于机器学习的数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于机器学习的数据处理设备进行详细描述。
图5是本发明实施例提供的一种基于机器学习的数据处理设备的结构示意图,该基于机器学习的数据处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于机器学习的数据处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于机器学习的数据处理设备500上执行存储介质530中的一系列指令操作。
基于机器学习的数据处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于机器学习的数据处理设备结构并不构成对基于机器学习的数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于机器学习的数据处理设备,所述基于机器学习的数据处理设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于机器学习的数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于机器学习的数据处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于机器学习的数据处理方法,其特征在于,所述基于机器学习的数据处理方法包括:
获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度,其中,所述工时数据处理模型包括嵌入层、GRU网络和全连接层;
根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
2.根据权利要求1所述的基于机器学习的数据处理方法,其特征在于,所述方法还包括:训练所述工时数据处理模型,具体包括如下步骤:
获取多个考核对象的工时数据样本,并对所述工时数据样本进行预处理,得到第二实际工时数据;
对所述第二实际工时数据进行工作量积分计算,得到第二工作量积分;
根据所述第二工作量积分,构建所述待考核对象平均工时分布的第二工时分布向量;
将所述第二工时分布向量输入所述嵌入层进行向量转换,得到第一工时编码向量;
将所述第一工时编码向量输入所述GRU网络进行特征提取,得到第一工时特征向量;
将所述第一工时特征向量输入所述全连接层进行分类整合,得到第二工作饱和度;
根据所述第二工作饱和度,调用预置损失函数对所述GRU网络进行参数优化,直至所述GRU网络收敛,得到所述工时数据处理模型。
3.根据权利要求1所述的基于机器学习的数据处理方法,其特征在于,所述获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据包括:
获取待考核对象的工时数据;
基于预置无操作定义,提取所述工时数据中的无操作工时数据;
删除所述工时数据中的无操作工时数据,得到标准工时数据;
对所述标准工时数据进行误差值删除,得到第一实际工时数据。
4.根据权利要求1所述的基于机器学习的数据处理方法,其特征在于,所述对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分包括:
提取所述第一实际工时数据中各项工作任务对应的分布时长,得到各项工作任务对应的时间数据;
分别计算所述各项工作任务对应的时间数据和所述第一实际工时数据的比值,得到多个工时数据比值;
分别计算所述各工时数据比值和预置工作量评分标准分值的乘积,得到多个标准分值;
对所述各标准分值进行加权求和,得到第一工作量积分。
5.根据权利要求4所述的基于机器学习的数据处理方法,其特征在于,所述根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量包括:
提取预置工时数据库中各项工作任务的平均工时数据,得到多个工作任务的平均工时数据;
分别计算所述第一工作量积分和所述各工作任务的平均工时数据的乘积,得到多个工作任务的有效工时数据;
分别计算所述各工作任务的平均工时数据和所述各工作任务的有效工时数据的差值平方,得到各工作任务的差值平方值;
按照各工作任务对应的时间序列,对所述各工作任务的差值平方值进行编码,生成所述待考核对象的第一工时分布向量。
6.根据权利要求1-5任一项所述的基于机器学习的数据处理方法,其特征在于,所述将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度包括:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
7.一种基于机器学习的数据处理装置,其特征在于,所述基于机器学习的数据处理装置包括:
获取模块,用于获取待考核对象的工时数据,并对所述工时数据进行预处理,得到第一实际工时数据;
积分计算模块,用于对所述第一实际工时数据进行工作量积分计算,得到第一工作量积分;
向量构建模块,用于根据所述第一工作量积分,构建所述待考核对象平均工时分布的第一工时分布向量;
模型处理模块,用于将所述第一工时分布向量输入工时数据处理模型进行工作饱和度计算,得到第一工作饱和度;
输出模块,用于根据所述第一工作饱和度,生成所述待考核对象的工作饱和度考核结果。
8.根据权利要求7所述的基于机器学习的数据处理装置,其特征在于,所述模型处理模块具体用于:
将所述第一工时分布向量输入所述嵌入层进行向量转换,得到第二工时编码向量;
将所述第二工时编码向量输入所述GRU网络进行特征提取,得到第二工时特征向量;
将所述第二工时特征向量输入所述全连接层进行分类整合,得到第一工作饱和度。
9.一种基于机器学习的数据处理设备,其特征在于,所述基于机器学习的数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于机器学习的数据处理设备执行如权利要求1-6中任一项所述的基于机器学习的数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述的基于机器学习的数据处理方法。
CN202110482299.9A 2021-04-30 2021-04-30 基于机器学习的数据处理方法、装置、设备及存储介质 Pending CN113112178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110482299.9A CN113112178A (zh) 2021-04-30 2021-04-30 基于机器学习的数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110482299.9A CN113112178A (zh) 2021-04-30 2021-04-30 基于机器学习的数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113112178A true CN113112178A (zh) 2021-07-13

Family

ID=76720700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110482299.9A Pending CN113112178A (zh) 2021-04-30 2021-04-30 基于机器学习的数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113112178A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240079A (zh) * 2021-11-26 2022-03-25 珠海大横琴科技发展有限公司 一种数据处理的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377040A (zh) * 2018-10-15 2019-02-22 广东电网有限责任公司 一种计算工作饱和度的方法、装置、设备及存储介质
US20200050982A1 (en) * 2018-08-10 2020-02-13 Adp, Llc Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
CN110956341A (zh) * 2019-12-31 2020-04-03 京东城市(北京)数字科技有限公司 停车场流量预测方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200050982A1 (en) * 2018-08-10 2020-02-13 Adp, Llc Method and System for Predictive Modeling for Dynamically Scheduling Resource Allocation
CN109377040A (zh) * 2018-10-15 2019-02-22 广东电网有限责任公司 一种计算工作饱和度的方法、装置、设备及存储介质
CN110956341A (zh) * 2019-12-31 2020-04-03 京东城市(北京)数字科技有限公司 停车场流量预测方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240079A (zh) * 2021-11-26 2022-03-25 珠海大横琴科技发展有限公司 一种数据处理的方法和装置

Similar Documents

Publication Publication Date Title
CN112509583B (zh) 一种基于调度操作票系统的辅助监督方法及系统
CN109492859B (zh) 基于神经网络模型的员工分类方法及装置、设备、介质
CN116342332B (zh) 基于互联网的辅助审判方法、装置、设备及存储介质
CN111241755A (zh) 电力负荷预测方法
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN111506635A (zh) 一种基于自回归和朴素贝叶斯算法的居民用电行为分析的系统及方法
CN112803398A (zh) 基于经验模态分解和深度神经网络的负荷预测方法及系统
CN115146842A (zh) 基于深度学习的多元时间序列趋势预测方法和系统
CN117115715A (zh) 一种基于流重构和帧预测结合的视频异常检测方法
CN113112178A (zh) 基于机器学习的数据处理方法、装置、设备及存储介质
CN111078457A (zh) 一种基于大数据的存储故障分析方法与装置
CN114357171A (zh) 一种应急事件处理方法、装置、存储介质及电子设备
CN115809795B (zh) 一种基于数字化的生产班组的承载能力评估方法和装置
CN117131022A (zh) 一种电力信息系统的异构数据迁移方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法
CN115758273A (zh) 一种时序数据异常检测方法、装置、设备及介质
CN114040056A (zh) 一种自动核查用户信息的方法、装置及存储介质
CN113076217A (zh) 基于国产平台的磁盘故障预测方法
CN112558512A (zh) 基于大数据与物联网技术的智慧控申系统
CN113033422A (zh) 基于边缘计算的人脸检测方法、系统、设备和存储介质
CN112120597A (zh) 清扫毛刷健康状态分析方法、装置及可读存储介质
CN116993297B (zh) 基于电子会议记录的任务数据生成方法及系统
CN113850565B (zh) 一种基于成熟度模型的全过程咨询项目管理监测系统及方法
CN112307227B (zh) 一种数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination