CN115545630A

CN115545630A - 一种提升大型设备周转率的机器学习模型建立方法

Info

Publication number: CN115545630A
Application number: CN202210765685.3A
Authority: CN
Inventors: 张森; 申法山; 杨亮亮; 党弘扬; 谭卓; 盛润; 梁明勇
Original assignee: Tunnel Tang Technology Co ltd
Current assignee: Tunnel Tang Technology Co ltd
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-12-30

Abstract

本发明公开了一种提升大型设备周转率的机器学习模型建立方法，属于机器学习模型建立技术领域，解决了市场上盾构机等大型设备和工程项目之间自动进行精准匹配的信息产品缺少的问题；包括：通过分类用训练数据训练智能提取分类模型，完成项目类信息数据和设备类信息数据的提取、分类和汇总，建立信息数据库，通过匹配用训练数据训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配，完成数据匹配模型的训练后，根据评估标准，检查数据匹配模型的实用性，实用性达标后，将信息数据库输入数据匹配模型进行实际应用；本发明实现了自动寻求盾构机等大型设备和工程项目之间的最高匹配度，从而提高了盾构机等大型设备的周转使用率。

Description

一种提升大型设备周转率的机器学习模型建立方法

技术领域

本发明属于机器学习模型建立技术领域，具体涉及一种提升大型设备周转率的机器学习模型建立方法。

背景技术

隧道工程是工程项目的重要组成部分，隧道工程进行中，需使用到一种大型设备——盾构机；盾构机是隧道掘进过程中的专用工程机械，涉及地质、土木、机械、力学、液压、电气、控制和测量等多门学科技术，而且要按照不同的地质条件进行“量体裁衣”式的设计制造，可靠性要求极高；目前盾构机已广泛用于地铁、铁路、公路、市政和水电等隧道工程。

由于隧道工程种类繁多、数量较大，对盾构机的条件有着不同的现场情况需求，而盾构机作为大型设备，调度与移动需要涉及大量的人力物力，在目前的工程项目市场上，还没有专门针对诸如盾构机这种大型设备和工程项目之间进行精准匹配的信息产品出现。

发明内容

针对背景技术中的情况，本发明通过建立机器学习模型，来自动寻求盾构机等大型设备和工程项目之间的最高匹配度，从而提高了盾构机等大型设备的周转使用率。

本发明采用了以下技术方案来实现目的：

一种提升大型设备周转率的机器学习模型建立方法，包括建立信息数据库和建立数据匹配模型并应用，所述建立信息数据库包括：

提取分类用训练数据，所述分类用训练数据包括项目数据和设备数据；

整理项目数据和设备数据中的不同类信息，得到整理好的训练数据；

使用整理好的训练数据，训练智能提取分类模型对不同类信息进行分类整理；

采集公开数据，使用训练好的智能提取分类模型对公开数据中的不同类型信息进行分类整理，分别汇总项目类信息数据和设备类信息数据，完成信息数据库的建立；

所述建立数据匹配模型并应用包括：

提取项目类信息数据和设备类信息数据，确定评估标准，进行人工匹配，得到匹配用训练数据；

使用匹配用训练数据，训练数据匹配模型完成对项目类信息数据和设备类信息数据的分类匹配，所述数据匹配模型包括TextCNN模型，数据匹配模型训练过程中，通过支持向量机算法，分析并优化数据匹配模型的输出结果；

完成数据匹配模型的训练后，根据评估标准，检查数据匹配模型的实用性；

数据匹配模型的实用性达标后，将信息数据库中的信息数据输入数据匹配模型，完成信息匹配，得到匹配结果，进行实际应用。

具体的，所述智能提取分类模型，结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。

所述TextCNN模型的结构包括嵌入层、卷积层、池化层和全连接softmax层。

进一步的，所述智能提取分类模型，用于将公开数据中的项目类信息数据和设备类信息数据进行提取分类汇总，所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。

具体的，所述采集公开数据包括：通过搜索引擎对多方渠道中的工程项目招中标信息进行采集，筛选出公路工程、市政工程、铁路工程等行业相关信息，得到项目类信息；通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集，得到设备类信息。

进一步的，所述训练数据匹配模型，具体包括：

确定项目类信息数据和设备类信息数据之间进行分类匹配的评估标准，所述评估标准包括正向指标和负向指标；

对项目类信息数据和设备类信息数据进行人工匹配，得到匹配用训练数据；

数据匹配模型对项目类信息数据和设备类信息数据进行数据分类匹配，完成项目类信息数据和设备类信息数据的匹配，得到匹配结果数据组，多次重复数据分类匹配操作，得到多个匹配结果数据组；

选出多个匹配结果数据组中的最优匹配数据组C，通过支持向量机算法对最优匹配数据组C和其余匹配数据组D进行分析，以人工匹配后的匹配用训练数据做线性匹配，优化训练数据匹配模型区分评估标准中的正向指标和负向指标。

进一步的，对项目类信息数据和设备类信息数据进行等级分类，获得项目数据组和设备数据组，数据匹配模型依据评估标准中的正向指标和负向指标，对项目数据组和设备数据组，进行以等级为对象的数据分类匹配操作，得到匹配结果数据组。

具体的，依据项目类信息数据中项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，对项目类信息数据进行等级分类，获得项目数据组A，所述项目数据组A包括Q1至Qn的多个项目数据等级，n为等级序数；依据设备类信息数据中盾构机设备的开挖直径、存放地点和掘进方式，对设备类信息数据进行等级分类，获得设备数据组B，所述设备数据组B包括T1至Tn的多个设备数据等级。

具体的，所述正向指标包括：盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U，所述负向指标包括：项目工期延迟M和项目施工安全问题N。

进一步的，在进行等级匹配时，项目数据等级Qn与设备数据等级Tn之间的正向指标S、D和U数值越小，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高；项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。

进一步的，通过支持向量机算法对匹配结果数据组的分析过程，以人工匹配后的匹配用训练数据做线性匹配，区分出数据匹配模型进行分类匹配时使用的正向指标和负向指标；人工确认区分出的正向指标与评估标准中的正向指标配置值是否匹配，匹配则存储该正向指标数据，若人工确认不匹配，则进行新一轮支持向量机算法对匹配结果数据组中不匹配的正向指标数据的分析过程。

所述分析过程重复进行多次，用于提高数据匹配模型区分正向指标并输出正确模型匹配数据组的成功率。

综上所述，由于采用了本技术方案，本发明的有益效果如下：

由于目前的工程项目市场上没有将盾构机等大型设备和工程项目之间进行精准匹配的信息产品，因此本发明的机器学习模型解决了这一问题；通过机器学习模型中的结构和算法，自动实现了寻求盾构机等大型设备和工程项目之间的最高匹配度的过程，使得相关工程项目人员和设备管理人员能根据匹配的信息，调度或周转盾构机等大型设备，从而实现了调度周转过程中资源的节省，降低了工程项目的成本。

本发明所涉及的工程项目和大型设备的数据内容广泛，通过智能提取分类模型实现对公开数据信息的自动提取并分类，建立了项目信息和设备信息的信息数据库，解决了工程业主和设备拥有者及使用者之间信息不对等的问题，采用智能提取分类模型的方式进行数据处理，具有处理能力强，处理范围广，效率高的优点，同时节省人力。

数据匹配模型对信息数据库中项目信息和设备信息进行匹配并得出结果，从而实现了开建工程项目和闲置大型设备之间的精准匹配；在工程项目上以最低成本进行设备匹配，可最大程度避免因匹配度不合适而导致的工程项目使用高成本盾构机，以及盾构机长时间得不到使用而闲置浪费的情况出现。

附图说明

图1为本发明的机器学习模型建立方法的原理示意图；

图2为智能提取分类模型的结构原理示意图；

图3为数据匹配模型的结构原理示意图；

图4为训练数据匹配模型的具体原理图；

图5为进行等级分类匹配的示意图；

图6为数据对比分析并优化的原理示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处描述和示出的本发明实施例的组件可以按各种不同的配置来布置和设计。

如图1所示，提升大型设备周转率的机器学习模型建立方法，包括建立信息数据库和建立数据匹配模型并应用，所述建立信息数据库包括：

采集公开数据，使用训练好的智能提取分类模型对公开数据中的不同类型信息进行分类整理，分别汇总后得到项目类信息数据和设备类信息数据，完成信息数据库的建立；

所述建立数据匹配模型并应用包括：

本发明通过建立应用于工程项目和大型设备进行匹配的机器学习模型，并以训练完成的机器学习模型为基础，得出包括项目类信息数据和设备类信息数据的汇总信息数据库，从而在工程项目实际进行时，通过实际数据的应用，采用机器学习模型将工程项目和大型设备进行匹配，供管理人员调度，最大程度避免因匹配度不合适而导致的工程项目使用高成本盾构机，以及盾构机长时间得不到使用而闲置浪费的情况出现。

实际应用过程中，匹配完成后的数据呈现过程可采用多平台，多媒体方式，确保工程业主和设备拥有者及使用者之间信息不对等问题的解决，便于多方就大型设备在不同工程项目之间的调度安排。

以下具体介绍本实施例中建立并训练机器学习模型的方法。

在建立信息数据库的过程中，所述分类用训练数据由人工获取并整理形成小样本训练数据，以追求训练条件和人力物力使用的平衡。在分类用训练数据中，包括的项目数据可来源于项目可行性研究报告批复文件和项目招标文件，其中的关键词信息可包括“招标工程名称、建设单位(业主单位)、招标时间、标段名称、标段长度(隧道长度)、主要工程规模、标段主要内容、隧道施工招标业绩要求、施工工期、施工设备、开挖直径、工程进度管理和主要机械设备与试验检测设备最低要求”。

在分类用训练数据中，包括的设备数据中的关键词信息可包括“盾构机类别、工作类型、项目位置、权属单位、项目名称、标段、隧道名称、掘进长度、开始时间、预计贯通时间、新闻链接、生产厂家、出厂日期、是否闲置和备注”。

将上述项目信息和设备信息的分类整理好后，得到整理好的训练数据，使用整理好的训练数据，完成对智能提取分类模型的训练过程。如图2所示，所述智能提取分类模型，结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。

关于智能提取分类模型的结构采用BiLSTM+CRF的机理在于：为解决序列标注问题中包括的自然语言处理中的分词、词性标注、命名实体识别、关键词抽取、词义角色标注等内容，CRF是非常经典的序列标注模型；在深度学习发展起来之后，深度学习+CRF模型得到广泛应用，其中的代表就是BiLSTM+CRF；双向长短期记忆神经网络BiLSTM能更好的捕捉序列中上下文的信息，提高标注的准确性。

而自注意力机制Self-Attention解决的问题是：当智能提取分类模型的输入是多个大小不一样的向量，并且可能因为不同向量之间有一定的关系，在训练时却无法充分发挥这些关系，导致模型训练结果较差；因此在智能提取分类模型中引入该机制使后续的训练过程效果得到提升。

智能提取分类模型的训练完成后，即可采集公开数据，具体方式为：通过搜索引擎对多方渠道中的工程项目招中标信息进行采集，筛选出公路工程、市政工程、铁路工程等行业相关信息，得到项目类信息；通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集，得到设备类信息。

将公开数据中的采集的项目类信息和设备类信息输入训练好的智能提取分类模型，模型将对项目类信息数据和设备类信息数据进行提取分类汇总，所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。

根据完成分类汇总的项目类信息数据和设备类信息数据，建立信息数据库，解决工程业主和设备拥有者及使用者之间信息不对等的问题。

接下来对项目类信息数据和设备类信息数据进行匹配操作，所使用到的机器学习模型为数据匹配模型，如图3所示，包括TextCNN模型，所述TextCNN模型的结构包括嵌入层、卷积层、池化层和全连接softmax层。

如图4所示，训练数据匹配模型，具体包括：

在本实施例中，如图5所示，将项目类信息数据按照不同的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，进行等级分类，获得项目数据组A，所述项目数据组A包括Q1至Q10共10个不同的等级。

如图5所示，将设备类信息数据按照盾构机设备的开挖直径、存放地点和掘进方式，进行等级分类，获得设备数据组B，所述设备数据组B包括T1至T10共10个不同的等级。

在确定进行匹配的评估标准时，所述正向指标包括：盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U；所述负向指标包括：项目工期延迟M和项目施工安全问题N。

关于盾构机开挖直径与项目隧道直径S：盾构机按照开挖直径可以分为微型盾构机、小型盾构机、中型盾构机、大型盾构机和超大型盾构机五种类型；在实际的操作过程中，不同的工程项目、隧道有不同的直径，盾尾和管片之间本来就有间隙，加上管片自身也有厚度，所以选取盾构机时，盾构机开挖直径要稍大于隧道直径，才能在施工过程中游刃有余；例如，目前国内地铁普遍应用的是6米的隧道，盾构机直径选取在6.3米左右较为合适。

关于盾构机存放地点与项目施工地点D：盾构机的拆装、运输往往会消耗大量的人力和财力，只有缩短施工项目地点和盾构机存放地点之间的运输距离，才可以最大程度的节约成本，提升效率。

关于盾构机掘进方式与项目岩土状况U：不同气候和地域条件下，工程项目的地形、岩土条件是千差万别的，需要根据岩土状况选取最为合适的盾构机；盾构机按照掘进地层岩土的类型可分为：软土盾构机、复合盾构机、全断面硬岩掘进机TBM、多模式盾构机；其中软土盾构机适用于未固结成岩的碎石土、砂土、粉土和粘性土等地层，复合盾构机适用于土层和岩石层复合的地层，TBM适用于全断面硬岩地层。

项目工期延迟M和项目施工安全问题N：在实际操作过程中，项目常会出现赶工期或掘进隧道长度过长，以及项目自身安全隐患问题，这种情况下小型或者单台盾构机难以支撑如此庞大的掘进量，难以保证设备安全和可靠性，可以采用多台盾构机或者是复合型多功能盾构机同时掘进以提供施工效率和施工安全。

根据上述进行匹配的评估标准，由调度管理相关技术人员，以人工方式对项目数据组A和设备数据组B进行符合实际要求的等级分类匹配操作，即等级序号相同的一组项目数据和设备数据为匹配组，例如项目数据Q1和设备数据T1为一组匹配结果，从而得出匹配用训练数据，用于后续训练。

在等级匹配过程中，正向指标与负向指标均采用数值量化方式进行评定，即：项目数据等级Qn(n为某一等级的序数)与设备数据等级Tn之间的正向指标S、D和U数值越小，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高；项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。

将项目类信息数据和设备类信息数据输入一次数据匹配模型，数据匹配模型进行一次以等级为对象的分类匹配操作，输出一次匹配结果数据组。如图5所示，所述匹配结果数据组即为对项目类信息数据进行Q1至Q10的等级分类和对设备类信息数据进行T1至T10的等级分类，等级序号相同的一组项目和设备为匹配关系。

如图6所示，重复进行多次的输入与输出后，选出多个匹配结果数据组中的最优结果数据组C，通过支持向量机SVM算法对最优结果数据组C和其余结果数据组D进行分析，以人工匹配得到的匹配用训练数据做线性匹配，实现训练数据匹配模型区分分类匹配过程中正向指标和负向指标的区别，从而能更好的依据评估标准对数据进行匹配操作。

本实施例中所使用的支持向量机SVM算法，具有结构简单、推广性能好、优化求解时具有惟一最优解等优点，其最基本的理论是用来解决二分类问题，因此适用于本数据匹配模型针对数据分类匹配应用的建立过程，支持向量机算法SVM的目标就是构造线性最优分类超平面，使其将二类样本完全正确地分开，同时使分类间隔最大。

在数据匹配模型每次输出匹配结果数据组时，检查数据匹配模型输出该匹配结果数据组时进行区分的正向指标，以人工方式确认区分出的正向指标与评估标准中的正向指标配置值是否匹配，若匹配，则可存储该正向指标数据；在一次输出时，由于正向指标和负向指标具有多个，其中人工方式确认后与评估标准不匹配时，则将匹配结果数据组中不匹配的数据涉及的正向指标数据进行新一轮支持向量机SVM算法的分析过程。

因此，上述操作中的支持向量机SVM算法分析过程会重复进行多次，从而不断提高数据匹配模型区分正向指标并输出正确匹配结果数据组的成功率，直到正确匹配成功率达到该数据匹配模型可用于实际生产使用的要求值后，即代表数据匹配模型的训练完成。

完成智能提取分类模型和数据匹配模型的训练后，通过建立的信息数据库，使用数据匹配模型进行实际分类匹配操作并实际应用，使智能提取分类模型和数据匹配模型成为具有生产实用性的机器学习模型。本实施例中，正确分类匹配成功率的要求值为95％，使得机器学习模型具有实际的生产使用价值。

上述实施方式中，尽管使用了具体的术语，但是它们仅在通常和描述性的意义上使用和进行解释且不用于限制的目的；在一些情况下，如到本申请提交时为止的本领域普通技术人员应清晰明了，关于一个具体实施方式描述的特征、特性和/或要素可单独地或与关于其它实施方式描述的特征、特性和/或要素组合地使用，除非另外明确地说明；因此，本领域技术人员将理解，在不背离如所附权利要求中所阐明的本发明的精神和范围的情况下，可进行形式和细节上的多种变化。

Claims

1.一种提升大型设备周转率的机器学习模型建立方法，其特征在于，包括建立信息数据库和建立数据匹配模型并应用，所述建立信息数据库包括：

所述建立数据匹配模型并应用包括：

2.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：所述智能提取分类模型，结构包括双向长短期记忆神经网络BiLSTM、条件随机场CRF和自注意力机制Self-Attention。

3.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：所述智能提取分类模型，用于将公开数据中的项目类信息数据和设备类信息数据进行提取分类汇总，所述项目类信息数据包括项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，所述设备类信息数据包括盾构机设备的开挖直径、存放地点和掘进方式。

4.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于，所述采集公开数据包括：通过搜索引擎对多方渠道中的工程项目招中标信息进行采集，筛选出公路工程、市政工程、铁路工程等行业相关信息，得到项目类信息；通过搜索引擎对大型设备厂商及公司所公开的大型设备信息进行采集，得到设备类信息。

5.根据权利要求1所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于，所述训练数据匹配模型，具体包括：

6.根据权利要求5所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：对项目类信息数据和设备类信息数据进行等级分类，获得项目数据组和设备数据组，数据匹配模型依据评估标准中的正向指标和负向指标，对项目数据组和设备数据组，进行以等级为对象的数据分类匹配操作，得到匹配结果数据组。

7.根据权利要求6所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：依据项目类信息数据中项目的隧道直径、施工地点、岩土状况、工期延迟和施工安全问题，对项目类信息数据进行等级分类，获得项目数据组A，所述项目数据组A包括Q1至Qn的多个项目数据等级，n为等级序数；依据设备类信息数据中盾构机设备的开挖直径、存放地点和掘进方式，对设备类信息数据进行等级分类，获得设备数据组B，所述设备数据组B包括T1至Tn的多个设备数据等级。

8.根据权利要求6所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：所述正向指标包括：盾构机开挖直径与项目隧道直径S、盾构机存放地点与项目施工地点D和盾构机掘进方式与项目岩土状况U，所述负向指标包括：项目工期延迟M和项目施工安全问题N。

9.根据权利要求7或8所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：在进行等级匹配时，项目数据等级Qn与设备数据等级Tn之间的正向指标S、D和U数值越小，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越高；项目数据等级Qn与设备数据等级Tn之间的负向指标M和N越大，视为项目数据等级Qn与设备数据等级Tn之间的匹配度越低。

10.根据权利要求5所述的一种提升大型设备周转率的机器学习模型建立方法，其特征在于：通过支持向量机算法对匹配结果数据组的分析过程，以人工匹配后的匹配用训练数据做线性匹配，区分出数据匹配模型进行分类匹配时使用的正向指标和负向指标；人工确认区分出的正向指标与评估标准中的正向指标配置值是否匹配，匹配则存储该正向指标数据，若人工确认不匹配，则进行新一轮支持向量机算法对匹配结果数据组中不匹配的正向指标数据的分析过程。