CN113283452B - 一种大型设备安拆步骤检测方法 - Google Patents
一种大型设备安拆步骤检测方法 Download PDFInfo
- Publication number
- CN113283452B CN113283452B CN202110646769.0A CN202110646769A CN113283452B CN 113283452 B CN113283452 B CN 113283452B CN 202110646769 A CN202110646769 A CN 202110646769A CN 113283452 B CN113283452 B CN 113283452B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- dismounting
- mounting
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W90/00—Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种跨模态大型设备安拆步骤检测方法。包括:跨模态数据集建立、SENet网络和文本模块应用、检测;检测是对包括安拆步骤图像的数据库进行检索,初步确定安拆步骤,然后利用基于深度学习的图像标注技术,对安拆工作图像进行文字化描述,将文字化描述在文本数据库中进行相似度计算,以确定该安拆步骤属于的步骤,最后结合图像和文本的结果进行判定,如果同时确定属于其中的某个步骤,则确认该安拆工作所属的步骤,否则,重新进行检测判定。本发明构建特定的大型特种设备安拆中的图像与文本数据集,采用SENet网络与图像文本描述技术,能很好的适应大型特种设备施工的场景,并能根据识别结果对安拆步骤进行检测,判断安拆步骤的正确性。
Description
技术领域
本发明涉及一种大型设备安拆方法,具体涉及一种跨模态大型设备安拆步骤检测方法。
背景技术
目前,随着我国经济的高速发展,基建项目越来越多,在工地上大型特种设备是一种常见的建筑施工设备,同时项目工地上大型特种设备结构复杂,工地安全性要求高。但目前在大型特种设备在安装拆卸过程中的安全问题易被忽略,目前施工现场对安拆过程中的监管通常采用人工的方式,而监管人员需要有丰富的安拆经验,一旦监管人员出现疏漏容易造成重大的安全事故。
公开号为CN109626224A的中国专利公开了“有限空间中桥式起重机安拆装施工方法”,根据桥式起重机的具体参数在考虑有限的空间的情况下,设计了一种桥式起重机安拆方法。但通过该专利可以看出,在设计设备安拆过程中并有对人为失误或可能出现的误操作进行检测或者预警,一旦出现人为失误会造成严重后果。
发明内容
本发明针对现有技术的以上缺陷或改进需求提供了一种跨模态大型设备安拆步骤检测方法,本发明目的在于检测在大型特种设备安拆过程步骤,以人工智能代替监管人员,实现对大型特种设备安拆步骤的智能管控。
本发明通过以下技术方案实现:
一种大型设备安拆步骤检测方法,其特征在于:针对检测的安拆步骤,利用安拆设备的包括安拆步骤图像的工作图像数据库的进行检索,初步确定安拆步骤属于整个步骤的哪一个步骤,然后利用基于深度学习的图像标注技术,对安拆工作图像进行文字化描述,将文字化描述在文本数据库中进行相似度计算,以确定该安拆步骤属于文本数据库步骤中的哪一个步骤,最后结合图像和文本的结果进行判定,如果同时确定属于其中的某个步骤,则确认该安拆工作所属的步骤,否则,重新进行检测判定。
进一步本发明大型设备安拆步骤检测方法,包括:跨模态数据集建立、SENet网络和文本模块应用、检测。
跨模态数据集建立是:收集大型特征设备安拆步骤过程中图像数据和文本数据,并依据安拆步骤对图像进行标注;确实每张图像对应的安拆步骤顺序,为后续训练深度学习模型进行数据集构建;
SENet网络是对大型特种设备安拆过程中的图像信息进行识别;文本模块是利用深度网络对安拆图像进行文本描述。
最后结合图像和文本所得的编标进行决策,如果都是正确的,那么就确定该安拆过程所属的步骤编号,否则进一步微调网络,再重复进行以上结果。
所述跨模态数据集包括两部分,一个部分是图像数据集,另一个部分是文本数据集;图像数据集和文本数据集是相关的,大型设备的安拆步骤同时用图像和文本描述,其中,图像按照安拆步骤的顺序进行编号,每一张图像下面都有其文本描述。
所述SENet网络是作为提取特征的卷积神经网络。
进一步所述SENet网络和文本模块应用是:
将训练集中的每一张图像都用SENet转换成特征向量,对于一张输入的安拆过程图像,同样利用SENet将其转换为特征向量,然后将其与训练集中的特征向量进行比较,选取结果最接近的即为当前安拆过程所属的编号;
同样是使用SENet提取图像的特征向量,将该特征向量输入到LSTM中得到该图像的文本描述,将文本数据库中的文本用Word2Vec转换为文本向量;将安拆操作的文本描述转换成Word2Vec向量,计算该向量与数据库中的每一个步骤文本向量的距离,选取结果最接近的即为当前安拆步骤所属的编号。
相比现有技术,构建特定的大型特种设备安拆中的图像与文本数据集,采用SENet网络与图像文本描述技术,能很好的适应大型特种设备施工的场景,并能根据识别结果对安拆步骤进行检测,判断安拆步骤的正确性。
本发明提供了一种跨模态大型设备安拆步骤检测方法。本发明基础方法在设备安拆过程中对人为失误或可能出现的误操作进行检测或者预警,能够有效避免出现人为失误造成的严重损失和后果。
附图说明
图1是本发明实施例提供的用于检测大型特种设备安拆过程中图像信息的SENet网络的核心模块;
图2是本发明实施例提供的对安拆图像进行文本描述的LSTM模块的核心门机制算法;
图3是本发明实施例提供的对安拆步骤过程中图像信息与文本信息的比对,对最后安拆步骤的检测的最终核对。
具体实施方式
下面结合具体实施方式对本发明进一步说明,具体实施方式是对本发明原理的进一步说明,不以任何方式限制本发明,与本发明相同或类似技术均没有超出本发明保护的范围。同时,以下所描述的实施方式中所涉及到的技术只要彼此之间未构成冲突还可以相互组合。
结合附图。
本发明提出了一种跨模态大型设备安拆步骤检测方法。大型设备的安拆过程是一个十分复杂的过程,不仅要求安拆中的各组件匹配的精确度,同时,安拆也需要按照一定的步骤进行。其中一些安拆工作是在之前已经完成的安拆工作基础上进行的,也就是说如果安拆的顺序不正确,整个大型设备的安拆工作就难以成功完成,而且需要调整至正确的顺序需要耗费大量的人力和物力。
本发明提出了一种跨模态大型设备安拆步骤检测方法,首先利用正在进行的安拆工作图像和安拆步骤图像数据库中图像进行检索,初步确定该工作属于整个步骤的哪一个步骤,然后利用基于深度学习的图像标注技术,对安拆图像进行文字化描述,将文字化描述在文本数据库中进行相似度计算,以确定该工作属于步骤中的哪一个步骤,最后结合图像和文本的结果进行判定,如果同时确定属于其中的某个步骤,则确认该安拆工作所属的步骤,否则,调整模型重新进行检测判定。本发明提出的方法能够有效地检测大型设备安拆的整个过程,不仅能够节约成本,同时也能确保整个大型设备安拆工作的正常进行。
本发明跨模态大型设备安拆步骤检测方法具体分为三个部分:
(1)模型的训练和测试需要标注的数据集。数据集分为两个部分,一个部分是图像数据集,另一个部分是文本数据集。图像数据集和文本数据集是相关的。大型设备的安拆步骤同时用图像和文本描述,其中图像按照安拆步骤的顺序进行编号,每一张图像下面都有其文本描述。
(2)为了使得提取的图像特征能够较好的描述安拆操作,本发明使用SENet的网络作为提取特征的卷积神经网络。将训练集中的每一张图像都用SENet转换成特征向量,对于一张输入的安拆图像,同样利用SENet将其转换为特征向量,然后将其与训练集中的特征向量进行比较,选取结果最接近的即为当前安拆过程所属的编号。
(3)同样是使用SENet提取图像的特征向量,然后将该特征向量输入到LSTM中得到该图像的文本描述。首先将文本数据库中的文本用Word2Vec转换为文本向量,然后将安拆操作的文本描述转换成Word2Vec向量,计算该向量与数据库中的每一个步骤文本向量的距离,选取结果最接近的即为当前安拆步骤所属的编号。最后结合图像和文本所得的编标进行决策,如果都是正确的,那么就确定该安拆过程所属的步骤编号,否则进一步微调网络,再重复进行以上结果。
本发明跨模态大型设备安拆步骤检测方法中,对于提取图像特征而言,目前已经有各种优秀的卷积神经网络,为了平衡网络的复杂度和网络的识别准确率,本发明采用SENet作为图像特征提取网络,SENet的核心如图1所示。
首先利用全局平均池化获取每一个通道的表示,然后经过两个全连接层,使用一个sigmoid函数将每一个值转换成0-1之间的概率值,用于表示每一个通道的重要程度,最后将权重和原始特征图相乘后再传给下一层,其用公式表示如公式(1)所示:
整个网络就是使用了激励挤压模块的残差网络,为了减少计算复杂度,将网络得到的2048维的特征向量用1×1卷积减少为512维。将图像数据库中的同一设备的安拆步骤对应的每一张图都输入到网络中得到特征向量,然后对于测试的安拆图像,同样输入到网络中得到该图像的特征向量,最后计算出该向量和数据库中每一个向量的距离,选择距离最小的图像对应的编号作为该操作的编号。这里,向量间的距离计算使用欧式距离,如公式(2)所示。
也就是将两两向量间的每一个位置上的元素计算其差值的平方,最后将其相加起来,再对其进行开平方根。
将上述得到的测试图像的图像特征向量保存下来,然后将其输入到LSTM中。LSTM是长短时记忆网络的简称,它是一种特殊的循环神经网络,能够解决长序列训练过程中的梯度消失和梯度爆炸问题。LSTM的核心是三个门机制,分别是输入门、遗忘门和输出门。对于遗忘门,公式如(3)所示。
ft=σ(Wf[ht-1,xt]+bf) (3)
其中bf表示上一个细胞的输出,xt表示当前细胞的输入,σ表示sigmoid函数。LSTM能够决定从细胞中丢弃和保留什么信息。图像特征向量经过LSTM之后,最终可以获得关于该图像的文本描述,总体架构如图2所示。
首先将文本数据库中的文本用Word2Vec转换为文本向量,然后将安拆测试图像的生成文本也用Word2Vec也转换成文本向量,同样的,也需要计算出该文本向量和数据库中每一个文本向量的距离,为了计算准确,这里使用余弦相似度,如公式(4)所示。
最后取与该测试向量最相似的编号作为该操作步骤的编号。当使用图像信息和文本信息得出的编号都一致时,就确定该安拆操作在整个安拆步骤中所处的位置,并与真实步骤进行比较,确定其是否是正确的,反馈给操作人员。决策过程如图3所示。
Claims (1)
1.一种大型设备安拆步骤检测方法,其特征在于:
针对检测的安拆步骤,利用安拆设备包括安拆步骤图像的工作图像数据库的进行检索,初步确定安拆步骤属于整个步骤的哪一个步骤,然后利用基于深度学习的图像标注技术,对安拆工作图像进行文字化描述,将文字化描述在文本数据库中进行相似度计算,以确定该安拆步骤属于文本数据库步骤中的哪一个步骤,最后结合图像和文本的结果进行判定,如果同时确定属于其中的某个步骤,则确认该安拆工作所属的步骤,否则,重新进行检测判定;
具体包括:跨模态数据集建立,SENet网络应用,文本模块应用,检测;
跨模态数据集建立是:收集大型特种设备安拆过程中图像数据和文本数据,并依据安拆步骤对图像进行标注,图像数据和文本数据是相关的,大型特种设备的安拆步骤同时用图像和文本描述,其中,图像按照安拆步骤的顺序进行编号,每一张图像下面都有其文本描述;确定每张图像对应的安拆步骤顺序,为后续训练深度学习模型进行数据集构建;
SENet网络应用是:作为提取特征的卷积神经网络对大型特种设备安拆过程中的图像信息进行识别,包括:将训练集中的每一张图像都用SENet转换成特征向量;对于一张输入的安拆过程图像,同样利用SENet将其转换为第一特征向量,使用欧氏距离计算出第一特征向量和图像数据库中每一个特征向量的距离,选择距离最小的图像对应的编号即为当前安拆过程所属的编号;
文本模块应用是:利用深度网络对安拆图像进行文本描述,包括:使用SENet提取安拆过程图像的第一特征向量,将第一特征向量输入到LSTM中得到安拆过程图像的文本描述;
将文本数据库中的文本用Word2Vec转换为文本向量;将安拆过程图像的文本描述用Word2Vec转换为第一文本向量;使用余弦相似度计算第一文本向量与文本数据库中的每一个步骤文本向量的相似度,选取与第一文本向量最相似的编号即为当前安拆步骤所属的编号;
检测是:结合图像和文本所得的编号进行决策,如果都是正确的,那么就确定该安拆过程所属的步骤编号,否则,调整或重新调用SENet网络和文本模块,再重复进行检测步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646769.0A CN113283452B (zh) | 2021-06-10 | 2021-06-10 | 一种大型设备安拆步骤检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110646769.0A CN113283452B (zh) | 2021-06-10 | 2021-06-10 | 一种大型设备安拆步骤检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283452A CN113283452A (zh) | 2021-08-20 |
CN113283452B true CN113283452B (zh) | 2023-07-25 |
Family
ID=77284133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110646769.0A Active CN113283452B (zh) | 2021-06-10 | 2021-06-10 | 一种大型设备安拆步骤检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283452B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN112905810A (zh) * | 2021-02-09 | 2021-06-04 | 吴兆江 | 一种跨模态图文检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN111914589A (zh) * | 2019-05-07 | 2020-11-10 | 大金工业株式会社 | 空调机组安装过程的监测方法、计算设备、装置、监测系统和计算机可读存储介质 |
CN111738042A (zh) * | 2019-10-25 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 识别方法、设备及存储介质 |
CN111782852B (zh) * | 2020-06-23 | 2024-04-09 | 西安电子科技大学 | 基于深度学习的高层次语义图像检索方法 |
-
2021
- 2021-06-10 CN CN202110646769.0A patent/CN113283452B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN112905810A (zh) * | 2021-02-09 | 2021-06-04 | 吴兆江 | 一种跨模态图文检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113283452A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111861978A (zh) | 基于Faster R-CNN的桥梁裂缝实例分割方法 | |
CN111505424A (zh) | 一种基于深度卷积神经网络的大型实验装置电力设备故障诊断方法 | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及系统 | |
CN114037653B (zh) | 基于二阶段知识蒸馏的工业机器视觉缺陷检测方法和系统 | |
CN110751076B (zh) | 车辆检测方法 | |
CN111724290B (zh) | 基于深度分层模糊算法的环保设备识别方法与系统 | |
CN108229553A (zh) | 一种otdr曲线数据分析方法 | |
CN111476307A (zh) | 一种基于深度领域适应的锂电池表面缺陷检测方法 | |
CN114022904A (zh) | 一种基于两阶段的噪声鲁棒行人重识别方法 | |
CN113780345A (zh) | 面向中小企业的基于张量注意力的小样本分类方法和系统 | |
CN107402859A (zh) | 软件功能验证系统及其验证方法 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN115184054A (zh) | 机械设备半监督故障检测分析方法、装置、终端及介质 | |
CN114510610A (zh) | 面向多模态知识图谱构建的识别视觉概念的方法 | |
CN115019294A (zh) | 一种指针式仪表读数识别方法及系统 | |
CN110598747A (zh) | 基于自适应k均值聚类算法的道路分类方法 | |
CN113283452B (zh) | 一种大型设备安拆步骤检测方法 | |
Kyem et al. | PaveCap: The First Multimodal Framework for Comprehensive Pavement Condition Assessment with Dense Captioning and PCI Estimation | |
CN115753102A (zh) | 一种基于多尺度残差子域适应的轴承故障诊断方法 | |
CN109543571A (zh) | 一种面向复杂产品异形加工特征的智能识别与检索方法 | |
CN113988120A (zh) | 一种基于双图网络的小样本轴承故障诊断方法 | |
CN117951632B (zh) | 基于多模态原型网络的pu对比学习异常检测方法及系统 | |
CN118514566B (zh) | 一种电瓶车违规充电的检测方法 | |
CN116560894B (zh) | 应用机器学习的无人机故障数据分析方法、服务器及介质 | |
CN113407439B (zh) | 一种用于软件自承认型技术债务的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |