CN112819205B - 工时预测方法、装置及系统 - Google Patents
工时预测方法、装置及系统 Download PDFInfo
- Publication number
- CN112819205B CN112819205B CN202110061121.7A CN202110061121A CN112819205B CN 112819205 B CN112819205 B CN 112819205B CN 202110061121 A CN202110061121 A CN 202110061121A CN 112819205 B CN112819205 B CN 112819205B
- Authority
- CN
- China
- Prior art keywords
- word
- model
- man
- document
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000008569 process Effects 0.000 claims abstract description 57
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims description 95
- 238000012549 training Methods 0.000 claims description 60
- 238000009826 distribution Methods 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 38
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013064 process characterization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002346 layers by function Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06314—Calendaring for a resource
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种工时预测方法、装置及系统,涉及工时管理技术领域,该方法包括:接收用户输入的记录有工作过程的原始数据;结合预先设置的专业词库,对该原始数据进行预处理,获得目标数据;在该目标数据内,提取用于进行工时预测的语义特征;根据该语义特征和用户输入的工时影响因素,进行工时预测。本申请的方案降低了工时预测过程中对人工的依赖性,有利于企业工时管理信息化的实现。
Description
技术领域
本申请涉及工时管理技术领域,尤其是涉及一种工时预测方法、装置及系统。
背景技术
当前的工时定额方法主要以经验类比法、预定动作时间标准法等为主,无论是标准工时库的建立还是工时定额过程都十分依赖人工经验,在当前的生产环境之下难以确保准确性和时效性。近些年,随着计算机与人工智能技术的发展,以“大数据”为基础的人工神经网络方法逐渐成为工时预测的主要方法。然而,一者,目前运用神经网络进行工时预测也具有一定的瓶颈,例如目前提出的大部分工时预测方法都只是针对某一具体产品的生产过程、或者针对某一具体的生产模式,缺乏通用性;二者,神经网络输入特征的选择大多依赖于人的经验,特征的选择、提取和编码过程需要大量的人工工作,难以保证特征选择与提取的效果和工时预测的精度。
发明内容
本申请的目的在于提供一种工时预测方法、装置及系统,从而解决现有技术中工时预测依赖人的经验且精度不高的问题。
为了达到上述目的,本申请提供一种工时预测方法,包括:
接收用户输入的记录有工作过程的原始数据;
结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据;
在所述目标数据内,提取用于进行工时预测的语义特征;
根据所述语义特征和用户输入的工时影响因素,进行工时预测。
可选的,所述预处理包括以下至少一项:
同义词归一化;
基于所述专业词库的中文分词;
停用词的删除;
词频统计。
可选的,结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据,包括:
对所述原始数据进行同义词归一化处理,获得归一化数据;
基于所述专业词库,对所述归一化数据进行中文分词,获得分词结果;其中,所述专业词库中包括专业词语和所述专业词语的专业等级;
删除所述分词结果中的停用词;
对删除所述停用词之后的数据进行词频统计,获得所述目标数据。
可选的,在所述目标数据内,提取用于进行工时预测的语义特征,包括:
采用目标狄利克雷分布LDA模型,对所述目标数据进行处理,提取所述语义特征;其中,所述语义特征包括:文档-主题矩阵和主题-词语矩阵。
可选的,目标LDA模型的训练过程包括:
获取用于模型训练的文档-词语矩阵和用户输入的参数信息,所述文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;
根据所述参数信息,构建初始LDA模型;
利用所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型;
其中,所述参数信息包括主题数量、表征主题密度的第一超参数和表征词密度的第二超参数。
可选的,利用所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型,包括:
根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
根据当前获得的所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵,确定模型困惑度值;
根据所述模型困惑度值,调整所述主题数量,并返回至所述根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵的步骤;
在所述模型困惑度值满足预设条件的情况下,获得所述目标LDA模型。
可选的,根据所述语义特征和用户输入的工时影响因素,进行工时预测,包括:
获取用户输入的工时影响因素;
根据所述语义特征和用户输入的工时影响因素,构建特征模型;
将所述特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,所述工时预测模型为基于神经网络的工时预测模型。
可选的,所述工时影响因素包括以下至少一项:
装配对象;
装配动作;
精度要求;
设备和工装特征;
不确定因素特征。
本申请实施例还提供一种工时预测装置,包括:
接收模块,用于接收用户输入的记录有工作过程的原始数据;
第一获取模块,用于结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据;
第二获取模块,用于在所述目标数据内,提取用于进行工时预测的语义特征;
预测模块,用于根据所述语义特征和用户输入的工时影响因素,进行工时预测。
可选的,所述预处理包括以下至少一项:
同义词归一化;
基于所述专业词库的中文分词;
停用词的删除;
词频统计。
可选的,所述第一获取模块包括:
第一获取子模块,用于对所述原始数据进行同义词归一化处理,获得归一化数据;
第二获取子模块,用于基于所述专业词库,对所述归一化数据进行中文分词,获得分词结果;其中,所述专业词库中包括专业词语和所述专业词语的专业等级;
处理子模块,用于删除所述分词结果中的停用词;
第三获取子模块,用于对删除所述停用词之后的数据进行词频统计,获得所述目标数据。
可选的,所述第二获取模块包括:
第四获取子模块,用于采用目标狄利克雷分布LDA模型,对所述目标数据进行处理,提取所述语义特征;其中,所述语义特征包括:文档-主题矩阵和主题-词语矩阵。
可选的,所述装置还包括:
训练模块,用于对目标LDA模型进行训练;
所述训练模块包括:
第五获取子模块,用于获取用于模型训练的文档-词语矩阵和用户输入的参数信息,所述文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;
第一构建子模块,用于根据所述参数信息,构建初始LDA模型;
训练子模块,用于利用所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型;
其中,所述参数信息包括主题数量、表征主题密度的第一超参数和表征词密度的第二超参数。
可选的,所述训练子模块包括:
训练单元,用于根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
确定单元,用于根据当前获得的所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵,确定模型困惑度值;
调整单元,用于根据所述模型困惑度值,调整所述主题数量,并返回至所述根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵的步骤;
获取单元,用于在所述模型困惑度值满足预设条件的情况下,获得所述目标LDA模型。
可选的,所述预测模块包括:
第六获取子模块,用于获取用户输入的工时影响因素;
第二构建子模块,用于根据所述语义特征和用户输入的工时影响因素,构建特征模型;
预测子模块,用于将所述特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,所述工时预测模型为基于神经网络的工时预测模型。
可选的,所述工时影响因素包括以下至少一项:
装配对象;
装配动作;
精度要求;
设备和工装特征;
不确定因素特征。
本申请实施例还提供一种工时预测系统,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的工时预测方法的步骤。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上所述的工时预测方法的步骤。
本申请的上述技术方案至少具有如下有益效果:
本申请实施例的工时预测方法,首先,接收用户输入的记录有工作过程的原始数据;其次,结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据;再次,在所述目标数据内,提取用于进行工时预测的语义特征;最后,根据所述语义特征和用户输入的工时影响因素,进行工时预测。如此,一者,通过结合预先设置的专业词库对该原始数据进行预处理,解决了目前的分词方法中对专业词语识别能力不够的问题,提高了分词的准确性;二者,在进行工时预测时,考虑该语义特征,提升了预测的精度;三者,实现了工时预测的自动化,减少了对人工的依赖程度。
附图说明
图1为本申请实施例的工时预测方法的流程示意图之一;
图2A为现有的训练损失值与真实损失值的曲线图;
图2B为本申请实施例的训练损失值与真实损失值的曲线图;
图3为本申请实施例的工时预测系统的结构示意图;
图4为本申请实施例的装配工序表征功能的用户界面示意图;
图5为本申请实施例的工时预测结果的显示界面的示意图;
图6为本申请实施例的工时预测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的工时预测方法进行详细地说明。
如图1所示,为本申请实施例的工时预测方法的流程示意图之一,该方法包括:
步骤101:接收用户输入的记录有工作过程的原始数据;
本步骤中,记录有工作过程的原始数据可以为与装配工序相关的装配工艺文件中的文字数据,具体的,用户可以通过输入或选择装配工艺文件的保存路径,以使工时预测系统提取该装配工艺文件。
步骤102:结合预先设置的专业词库,对原始数据进行预处理,获得目标数据;
本步骤中,该专业词库可以为装配领域的专业词语所构成的词库。基于该专业词库对该原始数据进行预处理,实现了将原始数据优先与该专业词库中的词语进行匹配,提高了对专业词语的识别能力,从而可以提高对原始数据预处理的准确性。
步骤103:在目标数据内,提取用于进行工时预测的语义特征;
步骤104:根据语义特征和用户输入的工时影响因素,进行工时预测。
本步骤中,依据在目标数据内提取的语义特征和用户输入的工时影响因素进行工时预测,实现了基于装配工艺文件中的内容预测出相应的工时,提高了预测精度和效率,且降低了人工依赖性。
本申请实施例的工时预测方法,首先,工时预测系统接收用户输入的记录有工作过程的原始数据;其次,结合预先设置的专业词库,对该原始数据进行预处理,获得目标数据;这样,提高了对专业词语识别的准确度;再次,在目标数据内,提取用于进行工时预测的语义特征;最后,根据该语义特征和用户输入的工时影响因素,进行工时预测;如此,一者,实现了基于装配工艺文件中的内容进行工时预测,提高了预测精度和预测效率;二者,在工时预测过程中,用户仅需要选择原始数据和工时影响因素即可完成工时预测,实现了工时预测的自动化,大大降低到了工时预测对人工的依赖性,使得该工时预测方法具有较好的通用性。
作为一种可选的实现方式,该预处理包括以下至少一项:
同义词归一化;
基于专业词库的中文分词;
停用词的删除;
词频统计。
本可选实现方式中,基于专业词库的中文分词可以理解为,在对该原始数据进行分词的过程中,优先将该原始数据与专业词库中的词语进行匹配,以识别出原始数据中的专业词语。如此,解决了对专业词语识别能力不够的缺点,提高了对原始数据分词的准确性且降低了分词过程对人工的依赖程度。
作为一个可选的实现方式,步骤102,结合预先设置的专业词库,对原始数据进行预处理,获得目标数据,包括:
步骤一,对原始数据进行同义词归一化处理,获得归一化数据;
这里,需要说明的是,本步骤中的同义词归一化处理具体可以为运用机器学习对原始数据进行同义词归一化处理。
步骤二,基于专业词库,对归一化数据进行中文分词,获得分词结果;其中,专业词库中包括专业词语和专业词语的专业等级;
这里,需要说明的是,一者,本步骤具体是运用机器学习对归一化数据进行中文分词;二者,专业词库包括专业词语和专业等级,如此,实现了对专业词语的分级,其中,专业词语的等级表征专业词语的专业度,在分词过程中,可以根据匹配的词语的等级确定该词语的专业度;三者,在构建该专业词库的过程中,开发人员也可以根据专业度对词语进行等级标识。
本步骤在对该归一化数据进行分词的过程中,优先将该原始数据与专业词库中的词语进行匹配,以识别出归一化数据中的专业词语。如此,解决了对专业词语识别能力不够的缺点,提高了对原始数据分词的准确性且降低了分词过程对人工的依赖程度。
步骤三,删除分词结果中的停用词;
步骤四,对删除停用词之后的数据进行词频统计,获得目标数据。
这里,需要说明的是,该目标数据应为词频统计的结果,即:文档-词语矩阵。
换句话说,本可选实施方式的具体实现过程为:工时预测系统在接收到用户输入的记录有工作过程的原始数据之后,首先,对该原始数据进行同义词归一化处理;其次,对同义词归一化处理之后的数据进行基于专业词库的中文分词,即:在对同义词归一化处理之后的数据信进行中文分词的过程中,首先基于预先设置的专业词库对同义词归一化处理之后的数据进行专业词语识别,即:将同义词归一化处理之后的数据与专业词库中的词语进行匹配,以识别出专业词语,如此,解决了现有技术的分词方法对专业词语识别能力不够的缺点,进而提高了分词的准确性;然后,删除分词之后的数据中的停用词;最后,对删除停用词之后的数据进行词频统计,以将该原始数据转化为文档-词语矩阵。
作为一个可选的实现方式,步骤103,在目标数据内,提取用于进行工时预测的语义特征,包括:
采用目标狄利克雷分布(Latent Dirichlet Allocation,LDA)模型,对目标数据进行处理,提取语义特征;其中,语义特征包括:文档-主题矩阵和主题-词语矩阵。
如前所述,该目标数据为文档-词语矩阵;也就是说,本可选实现方式中,将该文档-词语矩阵输入至LDA模型,经过LDA模型的处理,得到用于进行工时预测的语义特征(文档-主题矩阵和主题-词语矩阵)。
作为一个可选的实现方式,目标LDA模型的训练过程包括:
首先,获取用于模型训练的文档-词语矩阵和用户输入的参数信息,文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;其次,根据该参数信息,构建初始LDA模型;再次,利用文档-词语矩阵,对初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型。
这里,需要说明的是,一者,该文档-词语矩阵即为按照前述的预处理过程对文档集进行预处理后的目标数据;二者,该参数信息包括用户设定的主题数量、表征主题密度的第一超参数,以及,表征词密度的第二超参数。
作为一个具体的可实现方式,利用文档-词语矩阵,采用吉布斯采样方法对初始LDA模型进行迭代训练,获得目标LDA模型,包括:
首先,根据当前获取的文档-词语矩阵,对初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
其次,根据当前获得的文档-主题概率分布矩阵和主题-词语概率分布矩阵,确定模型困惑度值;
再次,根据模型困惑度值,调整主题数量,并返回至根据当前获取的文档-词语矩阵,对初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵的步骤;
最后,在所述模型困惑度值满足预设条件的情况下,获得所述目标LDA模型。
下面,对目标LDA模型的训练过程进行详细说明:
A)获取用于对目标LDA模型进行训练的文档-词语矩阵;
B)获取用户输入的文档集的主题数量K、表征主题密度的第一超参数α,以及,表征词密度的第二超参数β;在本申请中,我们设置α=0.01,设置β=0.1,K值根据模型困惑度值进行设定;
D)对于文档集中的每一个文档:
首先从一个泊松分布中抽样出文档的长度l;
然后从文档-主题概率分布的表征主题密度的第一超参数(先验狄利克雷先验分布的超参数)α中抽样出每一个文档的“文档-主题概率分布”θm;对于该文档中的所有词语,先从“文档-主题概率分布”θm中抽样出该词语所属主题的索引Z(m,n);接着从对应的“主题-词语概率分布”中抽样出每一个单词W(m,n)。
E)使用吉布斯采样法迭代训练,获得最终的文档-主题矩阵(文档-主题概率分布矩阵)与主题-词语(主题-词语概率分布矩阵);其中,一个具体的主题-词语概率分布矩阵如下表1,部分装配工艺文本及其高概率主题如下表2,其较好地描述了工艺文本设计的隐含主题以及不同主题的比例:
表1
表2
F)根据模型的困惑度值调整,评判K值的选取,并确定最优的K值。具体的,本申请实施例中,最优的K值为20。其中,模型的困惑度计算公式如下:
Perplexity(K)=eentropy(K)
具体的,Perplexity(K)为模型困惑度,entropy(K)为主题的混乱程度,Zk为主题k,p(Zk)为主题k出现的概率,p(wl|Zk)为主题k中词语l出现的概率,wl为词语l,p(Zk|dm)为文档m中主题k出现的概率,p(dm)为文档m出现的概率。
作为一个可选的实现方式,步骤103,根据语义特征和用户输入的工时影响因素,进行工时预测,包括:
步骤一:获取用户输入的工时影响因素;
这里,需要说明的是,该工时影响因素包括下述至少一项:装配对象、装配动作、精度要求、设备和工装特征、不确定因素特征。
步骤二:根据语义特征和用户输入的工时影响因素,构建特征模型;
本步骤具体为,首先,获取LDA模型输出的语义特征(文档-主题概率分布矩阵和主题-词语概率分布矩阵),或者,基于用户输入的文件路径获得该语义特征;其次,将该主题特征和该工时影响因素构建为装配工序特征模型,具体的,装配工序特征模型如下:
其中,AsmFeature为语义特征,AsmObj为装配对象,AsmAct为装配动作,AsmPrcs为精度要求,AsmDev为设备及工装特征,AsmUncertain为不确定因素特征,AsmTopic为主题特征。各参数可以分别含有不同维度的子特征,该特征矩阵即作为神经网络模型的输入。
步骤三:将特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,工时预测模型为基于神经网络的工时预测模型。
可选的,本步骤,工时预测模型设置的隐藏层层数为3,节点数量为256×128×64,学习率为0.001,优化方法采用Adam算法。
如图2A所示,为现有技术中的训练损失值变化曲线,图2B为基于本申请的上述特征模型的训练损失值变化曲线;其中,横坐标为数据轮次,纵坐标为损失值;Training曲线为训练损失值变化曲线,Validation曲线为真实损失值变化曲线;从图2A和图2B中可以看出,采用本申请的方式对工时的预测的准确率更高。
下面,结合图3,对应用上述工时预测方法的工时预测系统的结构进行说明:
该工时预测系统的功能架构主要分为四层,分别为数据层、支撑层、功能层及用户层。其中,数据层可以包括装配工艺数据、装配资源数据和历史工时数据等;支撑层包括装配工艺主题模型、结构化装配工序特征模型和工时预测模型;功能层包括工艺信息管理、工时定额指示库管理、装配工序表征、装配工时定额、工时统计分析等,用户层包括用户界面(输入界面和/或显示界面)。系统开发环境如下表3,其具体的操作流程为:用户登录系统后,用户使用如图4所示的装配工序表征功能,导入之前从工艺文件中提取的主题特征文件(文档-主题概率分布矩阵和主题-词语概率分布矩阵),选择确定工时影响因素中的特征子类型,待输入过程完成后关联工序即可得到如图5所示的工时预测结果。
表3
操作系统 | Windows 7 |
系统架构 | B/S |
开发语言 | .Net 3.5,C#,SQL,JavaScript,Python |
开发工具 | Visual Studio 2008,Pycharm |
开发框架 | WCSF |
数据库 | Oracle 11g |
本申请实施例的工时预测方法,首先,工时预测系统接收用户输入的记录有工作过程的原始数据;其次,结合预先设置的专业词库,对该原始数据进行预处理,获得目标数据;这样,提高了对专业词语识别的准确度;再次,在目标数据内,提取用于进行工时预测的语义特征;最后,根据该语义特征和用户输入的工时影响因素,进行工时预测;如此,一者,实现了基于装配工艺文件中的内容进行工时预测,提高了预测精度和预测效率;二者,在工时预测过程中,用户仅需要选择原始数据和工时影响因素即可完成工时预测,实现了工时预测的自动化,大大降低到了工时预测对人工的依赖性,使得该工时预测方法具有较好的通用性。
如图6所示,本申请实施例还提供一种工时预测装置,包括:
接收模块601,用于接收用户输入的记录有工作过程的原始数据;
第一获取模块602,用于结合预先设置的专业词库,对原始数据进行预处理,获得目标数据;
第二获取模块603,用于在目标数据内,提取用于进行工时预测的语义特征;
预测模块604,用于根据语义特征和用户输入的工时影响因素,进行工时预测。
本申请实施例的工时预测装置,首先,接收模块601接收用户输入的记录有工作过程的原始数据;其次,第一获取模块602结合预先设置的专业词库,对该原始数据进行预处理,获得目标数据;这样,提高了对专业词语识别的准确度;再次,第二获取模块603在目标数据内,提取用于进行工时预测的语义特征;最后,预测模块604根据该语义特征和用户输入的工时影响因素,进行工时预测;如此,一者,实现了基于装配工艺文件中的内容进行工时预测,提高了预测精度和预测效率;二者,在工时预测过程中,用户仅需要选择原始数据和工时影响因素即可完成工时预测,实现了工时预测的自动化,大大降低到了工时预测对人工的依赖性,使得该工时预测方法具有较好的通用性。
可选地,预处理包括以下至少一项:
同义词归一化;
基于所述专业词库的中文分词;
停用词的删除;
词频统计。
可选地,第一获取模块602包括:
第一获取子模块,用于对原始数据进行同义词归一化处理,获得归一化数据;
第二获取子模块,用于基于专业词库,对归一化数据进行中文分词,获得分词结果;其中,专业词库中包括专业词语和专业词语的专业等级;
处理子模块,用于删除分词结果中的停用词;
第三获取子模块,用于对删除停用词之后的数据进行词频统计,获得目标数据。
可选地,第二获取模块603包括:
第四获取子模块,用于采用目标狄利克雷分布LDA模型,对目标数据进行处理,提取语义特征;其中,语义特征包括:文档-主题矩阵和主题-词语矩阵。
可选地,该装置还包括:
训练模块,用于对目标LDA模型进行训练;
该训练模块包括:
第五获取子模块,用于获取用于模型训练的文档-词语矩阵和用户输入的参数信息,文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;
第一构建子模块,用于根据参数信息,构建初始LDA模型;
训练子模块,用于利用文档-词语矩阵,对初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型;
其中,参数信息包括主题数量、表征主题密度的第一超参数和表征词密度的第二超参数。
可选地,训练子模块包括:
训练单元,用于根据当前获取的文档-词语矩阵,对初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
确定单元,用于根据当前获得的文档-主题概率分布矩阵和主题-词语概率分布矩阵,确定模型困惑度值;
调整单元,用于根据模型困惑度值,调整所述主题数量,并返回至根据当前获取的文档-词语矩阵,对初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵的步骤;
获取单元,用于在模型困惑度值满足预设条件的情况下,获得目标LDA模型。
可选地,预测模块包括:
第六获取子模块,用于获取用户输入的工时影响因素;
第二构建子模块,用于根据语义特征和用户输入的工时影响因素,构建特征模型;
预测子模块,用于将特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,工时预测模型为基于神经网络的工时预测模型。
可选地,该工时影响因素包括以下至少一项:
装配对象;
装配动作;
精度要求;
设备和工装特征;
不确定因素特征。
本申请实施例的工时预测装置,首先,接收模块601接收用户输入的记录有工作过程的原始数据;其次,第一获取模块602结合预先设置的专业词库,对该原始数据进行预处理,获得目标数据;这样,提高了对专业词语识别的准确度;再次,第二获取模块603在目标数据内,提取用于进行工时预测的语义特征;最后,预测模块604根据该语义特征和用户输入的工时影响因素,进行工时预测;如此,一者,实现了基于装配工艺文件中的内容进行工时预测,提高了预测精度和预测效率;二者,在工时预测过程中,用户仅需要选择原始数据和工时影响因素即可完成工时预测,实现了工时预测的自动化,大大降低到了工时预测对人工的依赖性,使得该工时预测方法具有较好的通用性。
本申请实施例还提供一种工时预测系统,包括:处理器,存储器及存储在存储器上并可在处理器上运行的程序,该程序被处理器执行时实现如上所述的工时预测方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,该可读存储介质上存储有程序,该程序被处理器执行时实现如上所述的工时预测方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,该可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种工时预测方法,其特征在于,包括:
接收用户输入的记录有工作过程的原始数据;
结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据;
在所述目标数据内,提取用于进行工时预测的语义特征;
根据所述语义特征和用户输入的工时影响因素,进行工时预测,包括:获取用户输入的工时影响因素;根据所述语义特征和用户输入的工时影响因素,构建特征模型;将所述特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,所述工时预测模型为基于神经网络的工时预测模型;
其中
在所述目标数据内,提取用于进行工时预测的语义特征,包括:采用目标狄利克雷分布LDA模型,对所述目标数据进行处理,提取所述语义特征,所述语义特征包括:文档-主题矩阵和主题-词语矩阵;
其中,利用用于模型训练的文档-词语矩阵,对初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型,这包括:
根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
根据当前获得的所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵,确定模型困惑度值;
根据所述模型困惑度值,调整所述主题数量,并返回至所述根据当前获取的所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵的步骤;
在所述模型困惑度值满足预设条件的情况下,获得所述目标LDA模型。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括以下至少一项:
同义词归一化;
基于所述专业词库的中文分词;
停用词的删除;
词频统计。
3.根据权利要求2所述的方法,其特征在于,结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据,包括:
对所述原始数据进行同义词归一化处理,获得归一化数据;
基于所述专业词库,对所述归一化数据进行中文分词,获得分词结果;其中,所述专业词库中包括专业词语和所述专业词语的专业等级;
删除所述分词结果中的停用词;
对删除所述停用词之后的数据进行词频统计,获得所述目标数据。
4.根据权利要求1所述的方法,其特征在于,目标LDA模型的训练过程包括:
获取用于模型训练的文档-词语矩阵和用户输入的参数信息,所述文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;
根据所述参数信息,构建初始LDA模型;
利用所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型;
其中,所述参数信息包括主题数量、表征主题密度的第一超参数和表征词密度的第二超参数。
5.根据权利要求1或4所述的方法,其特征在于,所述工时影响因素包括以下至少一项:
装配对象;
装配动作;
精度要求;
设备和工装特征;
不确定因素特征。
6.一种工时预测装置,其特征在于,包括:
接收模块,用于接收用户输入的记录有工作过程的原始数据;
第一获取模块,用于结合预先设置的专业词库,对所述原始数据进行预处理,获得目标数据;
第二获取模块,用于在所述目标数据内,提取用于进行工时预测的语义特征;
预测模块,用于根据所述语义特征和用户输入的工时影响因素,进行工时预测;
所述第二获取模块包括:
第四获取子模块,用于采用目标狄利克雷分布LDA模型,对所述目标数据进行处理,提取所述语义特征,所述语义特征包括:文档-主题矩阵和主题-词语矩阵;
所述第一获取模块中,训练子模块包括:
训练单元,用于根据当前获取的用于模型训练的文档-词语矩阵,对初始LDA模型进行吉布斯采样训练,获得文档-主题概率分布矩阵和主题-词语概率分布矩阵;
确定单元,用于根据当前获得的所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵,确定模型困惑度值;
调整单元,用于根据所述模型困惑度值,调整所述主题数量,并调用所述训练单元以实现该训练单元的功能;
获取单元,用于在所述模型困惑度值满足预设条件的情况下,获得目标LDA模型;
所述预测模块包括:
第六获取子模块,用于获取用户输入的工时影响因素;
第二构建子模块,用于根据所述语义特征和用户输入的工时影响因素,构建特征模型;
预测子模块,用于将所述特征模型输入至工时预测模型进行工时预测,获得工时预测结果;其中,所述工时预测模型为基于神经网络的工时预测模型。
7.根据权利要求6所述的装置,其特征在于,所述预处理包括以下至少一项:
同义词归一化;
基于所述专业词库的中文分词;
停用词的删除;
词频统计。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块包括:
第一获取子模块,用于对所述原始数据进行同义词归一化处理,获得归一化数据;
第二获取子模块,用于基于所述专业词库,对所述归一化数据进行中文分词,获得分词结果;其中,所述专业词库中包括专业词语和所述专业词语的专业等级;
处理子模块,用于删除所述分词结果中的停用词;
第三获取子模块,用于对删除所述停用词之后的数据进行词频统计,获得所述目标数据。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于对目标LDA模型进行训练;
所述训练模块包括:
第五获取子模块,用于获取用于模型训练的文档-词语矩阵和用户输入的参数信息,所述文档-词语矩阵为对用户输入的文档集中的数据进行预处理的结果;
第一构建子模块,用于根据所述参数信息,构建初始LDA模型;
训练子模块,用于利用所述文档-词语矩阵,对所述初始LDA模型进行吉布斯采样迭代训练,获得目标LDA模型;
其中,所述参数信息包括主题数量、表征主题密度的第一超参数和表征词密度的第二超参数。
10.根据权利要求6或9所述的装置,其特征在于,所述工时影响因素包括以下至少一项:
装配对象;
装配动作;
精度要求;
设备和工装特征;
不确定因素特征。
11.一种工时预测系统,其特征在于,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的工时预测方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的工时预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061121.7A CN112819205B (zh) | 2021-01-18 | 2021-01-18 | 工时预测方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061121.7A CN112819205B (zh) | 2021-01-18 | 2021-01-18 | 工时预测方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819205A CN112819205A (zh) | 2021-05-18 |
CN112819205B true CN112819205B (zh) | 2023-03-24 |
Family
ID=75869646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110061121.7A Active CN112819205B (zh) | 2021-01-18 | 2021-01-18 | 工时预测方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819205B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489032A (zh) * | 2020-04-09 | 2020-08-04 | 北京理工大学 | 一种预测航天产品装配工时的处理方法及装置 |
CN111523683A (zh) * | 2020-07-06 | 2020-08-11 | 北京天泽智云科技有限公司 | 烟草加工中工艺参数预测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677769B (zh) * | 2015-12-29 | 2018-01-05 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
CN109388799A (zh) * | 2018-09-14 | 2019-02-26 | 河海大学 | 一种基于词权重的有监督主题模型构造方法 |
CN111767397A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 一种电力系统二次设备故障短文本数据分类方法 |
CN112069317A (zh) * | 2020-09-07 | 2020-12-11 | 北京理工大学 | 一种装配工时的获取方法及处理器 |
-
2021
- 2021-01-18 CN CN202110061121.7A patent/CN112819205B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489032A (zh) * | 2020-04-09 | 2020-08-04 | 北京理工大学 | 一种预测航天产品装配工时的处理方法及装置 |
CN111523683A (zh) * | 2020-07-06 | 2020-08-11 | 北京天泽智云科技有限公司 | 烟草加工中工艺参数预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112819205A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN109710766B (zh) | 一种工单数据的投诉倾向分析预警方法及装置 | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN112016313A (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN110543590A (zh) | 一种微博突发事件的检测方法 | |
CN112836029A (zh) | 一种基于图的文档检索方法、系统及其相关组件 | |
CN113836898A (zh) | 一种电力系统自动派单方法 | |
CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
CN115456421A (zh) | 工单的分派方法及装置、处理器和电子设备 | |
CN112395404A (zh) | 一种应用于电力调度的语音关键信息提取方法 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN111813916B (zh) | 一种智能问答方法、装置、计算机设备和介质 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN112819205B (zh) | 工时预测方法、装置及系统 | |
CN115619117A (zh) | 基于值班系统的电网智能调度方法 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 | |
CN112667666A (zh) | 一种基于N-gram的SQL运行时间预测方法及系统 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |