CN115545630A - 一种提升大型设备周转率的机器学习模型建立方法 - Google Patents
一种提升大型设备周转率的机器学习模型建立方法 Download PDFInfo
- Publication number
- CN115545630A CN115545630A CN202210765685.3A CN202210765685A CN115545630A CN 115545630 A CN115545630 A CN 115545630A CN 202210765685 A CN202210765685 A CN 202210765685A CN 115545630 A CN115545630 A CN 115545630A
- Authority
- CN
- China
- Prior art keywords
- data
- matching
- equipment
- information
- project
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010801 machine learning Methods 0.000 title claims abstract description 29
- 230000007306 turnover Effects 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 24
- 238000010276 construction Methods 0.000 claims description 41
- 238000009412 basement excavation Methods 0.000 claims description 17
- 239000002689 soil Substances 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 239000011435 rock Substances 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000005641 tunneling Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种提升大型设备周转率的机器学习模型建立方法,属于机器学习模型建立技术领域,解决了市场上盾构机等大型设备和工程项目之间自动进行精准匹配的信息产品缺少的问题;包括:通过分类用训练数据训练智能提取分类模型,完成项目类信息数据和设备类信息数据的提取、分类和汇总,建立信息数据库,通过匹配用训练数据训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配,完成数据匹配模型的训练后,根据评估标准,检查数据匹配模型的实用性,实用性达标后,将信息数据库输入数据匹配模型进行实际应用;本发明实现了自动寻求盾构机等大型设备和工程项目之间的最高匹配度,从而提高了盾构机等大型设备的周转使用率。
Description
技术领域
本发明属于机器学习模型建立技术领域,具体涉及一种提升大型设备周转率的机器学习模型建立方法。
背景技术
隧道工程是工程项目的重要组成部分,隧道工程进行中,需使用到一种大型设备——盾构机;盾构机是隧道掘进过程中的专用工程机械,涉及地质、土木、机械、力学、液压、电气、控制和测量等多门学科技术,而且要按照不同的地质条件进行“量体裁衣”式的设计制造,可靠性要求极高;目前盾构机已广泛用于地铁、铁路、公路、市政和水电等隧道工程。
由于隧道工程种类繁多、数量较大,对盾构机的条件有着不同的现场情况需求,而盾构机作为大型设备,调度与移动需要涉及大量的人力物力,在目前的工程项目市场上,还没有专门针对诸如盾构机这种大型设备和工程项目之间进行精准匹配的信息产品出现。
发明内容
针对背景技术中的情况,本发明通过建立机器学习模型,来自动寻求盾构机等大型设备和工程项目之间的最高匹配度,从而提高了盾构机等大型设备的周转使用率。
本发明采用了以下技术方案来实现目的:
一种提升大型设备周转率的机器学习模型建立方法,包括建立信息数据库和建立数据匹配模型并应用,所述建立信息数据库包括:
提取分类用训练数据,所述分类用训练数据包括项目数据和设备数据;
整理项目数据和设备数据中的不同类信息,得到整理好的训练数据;
使用整理好的训练数据,训练智能提取分类模型对不同类信息进行分类整理;
采集公开数据,使用训练好的智能提取分类模型对公开数据中的不同类型信息进行分类整理,分别汇总项目类信息数据和设备类信息数据,完成信息数据库的建立;
所述建立数据匹配模型并应用包括:
提取项目类信息数据和设备类信息数据,确定评估标准,进行人工匹配,得到匹配用训练数据;
使用匹配用训练数据,训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配,所述数据匹配模型包括TextCNN模型,数据匹配模型训练过程中,通过支持向量机算法,分析并优化数据匹配模型的输出结果;
完成数据匹配模型的训练后,根据评估标准,检查数据匹配模型的实用性;
数据匹配模型的实用性达标后,将信息数据库中的信息数据输入数据匹配模型,完成信息匹配,得到匹配结果,进行实际应用。
具体的,所述智能提取分类模型,结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。
所述TextCNN模型的结构包括嵌入层、卷积层、池化层和全连接softmax层。
进一步的,所述智能提取分类模型,用于将公开数据中的项目类信息数据和设备类信息数据进行提取分类汇总,所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。
具体的,所述采集公开数据包括:通过搜索引擎对多方渠道中的工程项目招中标信息进行采集,筛选出公路工程、市政工程、铁路工程等行业相关信息,得到项目类信息;通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集,得到设备类信息。
进一步的,所述训练数据匹配模型,具体包括:
确定项目类信息数据和设备类信息数据之间进行分类匹配的评估标准,所述评估标准包括正向指标和负向指标;
对项目类信息数据和设备类信息数据进行人工匹配,得到匹配用训练数据;
数据匹配模型对项目类信息数据和设备类信息数据进行数据分类匹配,完成项目类信息数据和设备类信息数据的匹配,得到匹配结果数据组,多次重复数据分类匹配操作,得到多个匹配结果数据组;
选出多个匹配结果数据组中的最优匹配数据组C,通过支持向量机算法对最优匹配数据组C和其余匹配数据组D进行分析,以人工匹配后的匹配用训练数据做线性匹配,优化训练数据匹配模型区分评估标准中的正向指标和负向指标。
进一步的,对项目类信息数据和设备类信息数据进行等级分类,获得项目数据组和设备数据组,数据匹配模型依据评估标准中的正向指标和负向指标,对项目数据组和设备数据组,进行以等级为对象的数据分类匹配操作,得到匹配结果数据组。
具体的,依据项目类信息数据中项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,对项目类信息数据进行等级分类,获得项目数据组A,所述项目数据组A包括Q1至Qn的多个项目数据等级,n为等级序数;依据设备类信息数据中盾构机设备的开挖直径、存放地点和掘进方式,对设备类信息数据进行等级分类,获得设备数据组B,所述设备数据组B包括T1至Tn的多个设备数据等级。
具体的,所述正向指标包括:盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U,所述负向指标包括:项目工期延迟M和项目施工安全问题N。
进一步的,在进行等级匹配时,项目数据等级Qn与设备数据等级Tn之间的正向指标S、D和U数值越小,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高;项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。
进一步的,通过支持向量机算法对匹配结果数据组的分析过程,以人工匹配后的匹配用训练数据做线性匹配,区分出数据匹配模型进行分类匹配时使用的正向指标和负向指标;人工确认区分出的正向指标与评估标准中的正向指标配置值是否匹配,匹配则存储该正向指标数据,若人工确认不匹配,则进行新一轮支持向量机算法对匹配结果数据组中不匹配的正向指标数据的分析过程。
所述分析过程重复进行多次,用于提高数据匹配模型区分正向指标并输出正确模型匹配数据组的成功率。
综上所述,由于采用了本技术方案,本发明的有益效果如下:
由于目前的工程项目市场上没有将盾构机等大型设备和工程项目之间进行精准匹配的信息产品,因此本发明的机器学习模型解决了这一问题;通过机器学习模型中的结构和算法,自动实现了寻求盾构机等大型设备和工程项目之间的最高匹配度的过程,使得相关工程项目人员和设备管理人员能根据匹配的信息,调度或周转盾构机等大型设备,从而实现了调度周转过程中资源的节省,降低了工程项目的成本。
本发明所涉及的工程项目和大型设备的数据内容广泛,通过智能提取分类模型实现对公开数据信息的自动提取并分类,建立了项目信息和设备信息的信息数据库,解决了工程业主和设备拥有者及使用者之间信息不对等的问题,采用智能提取分类模型的方式进行数据处理,具有处理能力强,处理范围广,效率高的优点,同时节省人力。
数据匹配模型对信息数据库中项目信息和设备信息进行匹配并得出结果,从而实现了开建工程项目和闲置大型设备之间的精准匹配;在工程项目上以最低成本进行设备匹配,可最大程度避免因匹配度不合适而导致的工程项目使用高成本盾构机,以及盾构机长时间得不到使用而闲置浪费的情况出现。
附图说明
图1为本发明的机器学习模型建立方法的原理示意图;
图2为智能提取分类模型的结构原理示意图;
图3为数据匹配模型的结构原理示意图;
图4为训练数据匹配模型的具体原理图;
图5为进行等级分类匹配的示意图;
图6为数据对比分析并优化的原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处描述和示出的本发明实施例的组件可以按各种不同的配置来布置和设计。
如图1所示,提升大型设备周转率的机器学习模型建立方法,包括建立信息数据库和建立数据匹配模型并应用,所述建立信息数据库包括:
提取分类用训练数据,所述分类用训练数据包括项目数据和设备数据;
整理项目数据和设备数据中的不同类信息,得到整理好的训练数据;
使用整理好的训练数据,训练智能提取分类模型对不同类信息进行分类整理;
采集公开数据,使用训练好的智能提取分类模型对公开数据中的不同类型信息进行分类整理,分别汇总后得到项目类信息数据和设备类信息数据,完成信息数据库的建立;
所述建立数据匹配模型并应用包括:
提取项目类信息数据和设备类信息数据,确定评估标准,进行人工匹配,得到匹配用训练数据;
使用匹配用训练数据,训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配,所述数据匹配模型包括TextCNN模型,数据匹配模型训练过程中,通过支持向量机算法,分析并优化数据匹配模型的输出结果;
完成数据匹配模型的训练后,根据评估标准,检查数据匹配模型的实用性;
数据匹配模型的实用性达标后,将信息数据库中的信息数据输入数据匹配模型,完成信息匹配,得到匹配结果,进行实际应用。
本发明通过建立应用于工程项目和大型设备进行匹配的机器学习模型,并以训练完成的机器学习模型为基础,得出包括项目类信息数据和设备类信息数据的汇总信息数据库,从而在工程项目实际进行时,通过实际数据的应用,采用机器学习模型将工程项目和大型设备进行匹配,供管理人员调度,最大程度避免因匹配度不合适而导致的工程项目使用高成本盾构机,以及盾构机长时间得不到使用而闲置浪费的情况出现。
实际应用过程中,匹配完成后的数据呈现过程可采用多平台,多媒体方式,确保工程业主和设备拥有者及使用者之间信息不对等问题的解决,便于多方就大型设备在不同工程项目之间的调度安排。
以下具体介绍本实施例中建立并训练机器学习模型的方法。
在建立信息数据库的过程中,所述分类用训练数据由人工获取并整理形成小样本训练数据,以追求训练条件和人力物力使用的平衡。在分类用训练数据中,包括的项目数据可来源于项目可行性研究报告批复文件和项目招标文件,其中的关键词信息可包括“招标工程名称、建设单位(业主单位)、招标时间、标段名称、标段长度(隧道长度)、主要工程规模、标段主要内容、隧道施工招标业绩要求、施工工期、施工设备、开挖直径、工程进度管理和主要机械设备与试验检测设备最低要求”。
在分类用训练数据中,包括的设备数据中的关键词信息可包括“盾构机类别、工作类型、项目位置、权属单位、项目名称、标段、隧道名称、掘进长度、开始时间、预计贯通时间、新闻链接、生产厂家、出厂日期、是否闲置和备注”。
将上述项目信息和设备信息的分类整理好后,得到整理好的训练数据,使用整理好的训练数据,完成对智能提取分类模型的训练过程。如图2所示,所述智能提取分类模型,结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。
关于智能提取分类模型的结构采用BiLSTM+CRF的机理在于:为解决序列标注问题中包括的自然语言处理中的分词、词性标注、命名实体识别、关键词抽取、词义角色标注等内容,CRF是非常经典的序列标注模型;在深度学习发展起来之后,深度学习+CRF模型得到广泛应用,其中的代表就是BiLSTM+CRF;双向长短期记忆神经网络BiLSTM能更好的捕捉序列中上下文的信息,提高标注的准确性。
而自注意力机制Self-Attention解决的问题是:当智能提取分类模型的输入是多个大小不一样的向量,并且可能因为不同向量之间有一定的关系,在训练时却无法充分发挥这些关系,导致模型训练结果较差;因此在智能提取分类模型中引入该机制使后续的训练过程效果得到提升。
智能提取分类模型的训练完成后,即可采集公开数据,具体方式为:通过搜索引擎对多方渠道中的工程项目招中标信息进行采集,筛选出公路工程、市政工程、铁路工程等行业相关信息,得到项目类信息;通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集,得到设备类信息。
将公开数据中的采集的项目类信息和设备类信息输入训练好的智能提取分类模型,模型将对项目类信息数据和设备类信息数据进行提取分类汇总,所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。
根据完成分类汇总的项目类信息数据和设备类信息数据,建立信息数据库,解决工程业主和设备拥有者及使用者之间信息不对等的问题。
接下来对项目类信息数据和设备类信息数据进行匹配操作,所使用到的机器学习模型为数据匹配模型,如图3所示,包括TextCNN模型,所述TextCNN模型的结构包括嵌入层、卷积层、池化层和全连接softmax层。
如图4所示,训练数据匹配模型,具体包括:
确定项目类信息数据和设备类信息数据之间进行分类匹配的评估标准,所述评估标准包括正向指标和负向指标;
对项目类信息数据和设备类信息数据进行人工匹配,得到匹配用训练数据;
数据匹配模型对项目类信息数据和设备类信息数据进行数据分类匹配,完成项目类信息数据和设备类信息数据的匹配,得到匹配结果数据组,多次重复数据分类匹配操作,得到多个匹配结果数据组;
选出多个匹配结果数据组中的最优匹配数据组C,通过支持向量机算法对最优匹配数据组C和其余匹配数据组D进行分析,以人工匹配后的匹配用训练数据做线性匹配,优化训练数据匹配模型区分评估标准中的正向指标和负向指标。
在本实施例中,如图5所示,将项目类信息数据按照不同的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,进行等级分类,获得项目数据组A,所述项目数据组A包括Q1至Q10共10个不同的等级。
如图5所示,将设备类信息数据按照盾构机设备的开挖直径、存放地点和掘进方式,进行等级分类,获得设备数据组B,所述设备数据组B包括T1至T10共10个不同的等级。
在确定进行匹配的评估标准时,所述正向指标包括:盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U;所述负向指标包括:项目工期延迟M和项目施工安全问题N。
关于盾构机开挖直径与项目隧道直径S:盾构机按照开挖直径可以分为微型盾构机、小型盾构机、中型盾构机、大型盾构机和超大型盾构机五种类型;在实际的操作过程中,不同的工程项目、隧道有不同的直径,盾尾和管片之间本来就有间隙,加上管片自身也有厚度,所以选取盾构机时,盾构机开挖直径要稍大于隧道直径,才能在施工过程中游刃有余;例如,目前国内地铁普遍应用的是6米的隧道,盾构机直径选取在6.3米左右较为合适。
关于盾构机存放地点与项目施工地点D:盾构机的拆装、运输往往会消耗大量的人力和财力,只有缩短施工项目地点和盾构机存放地点之间的运输距离,才可以最大程度的节约成本,提升效率。
关于盾构机掘进方式与项目岩土状况U:不同气候和地域条件下,工程项目的地形、岩土条件是千差万别的,需要根据岩土状况选取最为合适的盾构机;盾构机按照掘进地层岩土的类型可分为:软土盾构机、复合盾构机、全断面硬岩掘进机TBM、多模式盾构机;其中软土盾构机适用于未固结成岩的碎石土、砂土、粉土和粘性土等地层,复合盾构机适用于土层和岩石层复合的地层,TBM适用于全断面硬岩地层。
项目工期延迟M和项目施工安全问题N:在实际操作过程中,项目常会出现赶工期或掘进隧道长度过长,以及项目自身安全隐患问题,这种情况下小型或者单台盾构机难以支撑如此庞大的掘进量,难以保证设备安全和可靠性,可以采用多台盾构机或者是复合型多功能盾构机同时掘进以提供施工效率和施工安全。
根据上述进行匹配的评估标准,由调度管理相关技术人员,以人工方式对项目数据组A和设备数据组B进行符合实际要求的等级分类匹配操作,即等级序号相同的一组项目数据和设备数据为匹配组,例如项目数据Q1和设备数据T1为一组匹配结果,从而得出匹配用训练数据,用于后续训练。
在等级匹配过程中,正向指标与负向指标均采用数值量化方式进行评定,即:项目数据等级Qn(n为某一等级的序数)与设备数据等级Tn之间的正向指标S、D和U数值越小,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高;项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。
将项目类信息数据和设备类信息数据输入一次数据匹配模型,数据匹配模型进行一次以等级为对象的分类匹配操作,输出一次匹配结果数据组。如图5所示,所述匹配结果数据组即为对项目类信息数据进行Q1至Q10的等级分类和对设备类信息数据进行T1至T10的等级分类,等级序号相同的一组项目和设备为匹配关系。
如图6所示,重复进行多次的输入与输出后,选出多个匹配结果数据组中的最优结果数据组C,通过支持向量机SVM算法对最优结果数据组C和其余结果数据组D进行分析,以人工匹配得到的匹配用训练数据做线性匹配,实现训练数据匹配模型区分分类匹配过程中正向指标和负向指标的区别,从而能更好的依据评估标准对数据进行匹配操作。
本实施例中所使用的支持向量机SVM算法,具有结构简单、推广性能好、优化求解时具有惟一最优解等优点,其最基本的理论是用来解决二分类问题,因此适用于本数据匹配模型针对数据分类匹配应用的建立过程,支持向量机算法SVM的目标就是构造线性最优分类超平面,使其将二类样本完全正确地分开,同时使分类间隔最大。
在数据匹配模型每次输出匹配结果数据组时,检查数据匹配模型输出该匹配结果数据组时进行区分的正向指标,以人工方式确认区分出的正向指标与评估标准中的正向指标配置值是否匹配,若匹配,则可存储该正向指标数据;在一次输出时,由于正向指标和负向指标具有多个,其中人工方式确认后与评估标准不匹配时,则将匹配结果数据组中不匹配的数据涉及的正向指标数据进行新一轮支持向量机SVM算法的分析过程。
因此,上述操作中的支持向量机SVM算法分析过程会重复进行多次,从而不断提高数据匹配模型区分正向指标并输出正确匹配结果数据组的成功率,直到正确匹配成功率达到该数据匹配模型可用于实际生产使用的要求值后,即代表数据匹配模型的训练完成。
完成智能提取分类模型和数据匹配模型的训练后,通过建立的信息数据库,使用数据匹配模型进行实际分类匹配操作并实际应用,使智能提取分类模型和数据匹配模型成为具有生产实用性的机器学习模型。本实施例中,正确分类匹配成功率的要求值为95%,使得机器学习模型具有实际的生产使用价值。
上述实施方式中,尽管使用了具体的术语,但是它们仅在通常和描述性的意义上使用和进行解释且不用于限制的目的;在一些情况下,如到本申请提交时为止的本领域普通技术人员应清晰明了,关于一个具体实施方式描述的特征、特性和/或要素可单独地或与关于其它实施方式描述的特征、特性和/或要素组合地使用,除非另外明确地说明;因此,本领域技术人员将理解,在不背离如所附权利要求中所阐明的本发明的精神和范围的情况下,可进行形式和细节上的多种变化。
Claims (10)
1.一种提升大型设备周转率的机器学习模型建立方法,其特征在于,包括建立信息数据库和建立数据匹配模型并应用,所述建立信息数据库包括:
提取分类用训练数据,所述分类用训练数据包括项目数据和设备数据;
整理项目数据和设备数据中的不同类信息,得到整理好的训练数据;
使用整理好的训练数据,训练智能提取分类模型对不同类信息进行分类整理;
采集公开数据,使用训练好的智能提取分类模型对公开数据中的不同类型信息进行分类整理,分别汇总后得到项目类信息数据和设备类信息数据,完成信息数据库的建立;
所述建立数据匹配模型并应用包括:
提取项目类信息数据和设备类信息数据,确定评估标准,进行人工匹配,得到匹配用训练数据;
使用匹配用训练数据,训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配,所述数据匹配模型包括TextCNN模型,数据匹配模型训练过程中,通过支持向量机算法,分析并优化数据匹配模型的输出结果;
完成数据匹配模型的训练后,根据评估标准,检查数据匹配模型的实用性;
数据匹配模型的实用性达标后,将信息数据库中的信息数据输入数据匹配模型,完成信息匹配,得到匹配结果,进行实际应用。
2.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:所述智能提取分类模型,结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。
3.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:所述智能提取分类模型,用于将公开数据中的项目类信息数据和设备类信息数据进行提取分类汇总,所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。
4.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于,所述采集公开数据包括:通过搜索引擎对多方渠道中的工程项目招中标信息进行采集,筛选出公路工程、市政工程、铁路工程等行业相关信息,得到项目类信息;通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集,得到设备类信息。
5.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于,所述训练数据匹配模型,具体包括:
确定项目类信息数据和设备类信息数据之间进行分类匹配的评估标准,所述评估标准包括正向指标和负向指标;
对项目类信息数据和设备类信息数据进行人工匹配,得到匹配用训练数据;
数据匹配模型对项目类信息数据和设备类信息数据进行数据分类匹配,完成项目类信息数据和设备类信息数据的匹配,得到匹配结果数据组,多次重复数据分类匹配操作,得到多个匹配结果数据组;
选出多个匹配结果数据组中的最优匹配数据组C,通过支持向量机算法对最优匹配数据组C和其余匹配数据组D进行分析,以人工匹配后的匹配用训练数据做线性匹配,优化训练数据匹配模型区分评估标准中的正向指标和负向指标。
6.根据权利要求5所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:对项目类信息数据和设备类信息数据进行等级分类,获得项目数据组和设备数据组,数据匹配模型依据评估标准中的正向指标和负向指标,对项目数据组和设备数据组,进行以等级为对象的数据分类匹配操作,得到匹配结果数据组。
7.根据权利要求6所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:依据项目类信息数据中项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题,对项目类信息数据进行等级分类,获得项目数据组A,所述项目数据组A包括Q1至Qn的多个项目数据等级,n为等级序数;依据设备类信息数据中盾构机设备的开挖直径、存放地点和掘进方式,对设备类信息数据进行等级分类,获得设备数据组B,所述设备数据组B包括T1至Tn的多个设备数据等级。
8.根据权利要求6所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:所述正向指标包括:盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U,所述负向指标包括:项目工期延迟M和项目施工安全问题N。
9.根据权利要求7或8所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:在进行等级匹配时,项目数据等级Qn与设备数据等级Tn之间的正向指标S、D和U数值越小,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高;项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大,视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。
10.根据权利要求5所述的一种提升大型设备周转率的机器学习模型建立方法,其特征在于:通过支持向量机算法对匹配结果数据组的分析过程,以人工匹配后的匹配用训练数据做线性匹配,区分出数据匹配模型进行分类匹配时使用的正向指标和负向指标;人工确认区分出的正向指标与评估标准中的正向指标配置值是否匹配,匹配则存储该正向指标数据,若人工确认不匹配,则进行新一轮支持向量机算法对匹配结果数据组中不匹配的正向指标数据的分析过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210765685.3A CN115545630A (zh) | 2022-07-01 | 2022-07-01 | 一种提升大型设备周转率的机器学习模型建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210765685.3A CN115545630A (zh) | 2022-07-01 | 2022-07-01 | 一种提升大型设备周转率的机器学习模型建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115545630A true CN115545630A (zh) | 2022-12-30 |
Family
ID=84724526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210765685.3A Pending CN115545630A (zh) | 2022-07-01 | 2022-07-01 | 一种提升大型设备周转率的机器学习模型建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545630A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933831A (zh) * | 2024-03-25 | 2024-04-26 | 山东山科数字经济研究院有限公司 | 基于机器学习可训练的项目绩效评估方法及系统 |
-
2022
- 2022-07-01 CN CN202210765685.3A patent/CN115545630A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933831A (zh) * | 2024-03-25 | 2024-04-26 | 山东山科数字经济研究院有限公司 | 基于机器学习可训练的项目绩效评估方法及系统 |
CN117933831B (zh) * | 2024-03-25 | 2024-06-11 | 山东山科数字经济研究院有限公司 | 基于机器学习可训练的项目绩效评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Automated recognition model of geomechanical information based on operational data of tunneling boring machines | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN109684440A (zh) | 基于层级标注的地址相似度度量方法 | |
CN109710701A (zh) | 一种用于公共安全领域大数据知识图谱的自动化构建方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN109325019B (zh) | 数据关联关系网络构建方法 | |
CN104572449A (zh) | 一种基于用例库的自动化测试方法 | |
CN107038505B (zh) | 基于机器学习的找矿模型预测方法 | |
CN101980211A (zh) | 一种机器学习模型及其建立方法 | |
CN101980210A (zh) | 一种标的词分类分级方法及系统 | |
CN104380143A (zh) | 用于处理地球物理数据的系统和方法 | |
CN106339455A (zh) | 基于文本标签特征挖掘的网页正文提取方法 | |
CN104536953A (zh) | 一种文本情绪极性的识别方法及装置 | |
CN107273295A (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN114154484B (zh) | 基于混合深度语义挖掘的施工专业术语库智能构建方法 | |
CN109857782A (zh) | 一种测井数据采集处理系统 | |
CN111949535A (zh) | 基于开源社区知识的软件缺陷预测装置及方法 | |
CN115794803B (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN115545630A (zh) | 一种提升大型设备周转率的机器学习模型建立方法 | |
CN105844398A (zh) | 一种基于plm数据库面向dpipp产品族的挖掘算法 | |
CN113688870B (zh) | 一种采用混合算法的基于用户用电行为的群租房识别方法 | |
CN113431635B (zh) | 半监督的盾构隧道掌子面地质类型预估方法及系统 | |
CN114358546A (zh) | 一种造价指标收集及分析方法、装置、设备及存储介质 | |
CN112967759B (zh) | 基于内存堆栈技术的dna物证鉴定str分型比对方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |