CN110781333A - 一种基于机器学习的斜拉桥非结构化监测数据处理方法 - Google Patents
一种基于机器学习的斜拉桥非结构化监测数据处理方法 Download PDFInfo
- Publication number
- CN110781333A CN110781333A CN201910561286.3A CN201910561286A CN110781333A CN 110781333 A CN110781333 A CN 110781333A CN 201910561286 A CN201910561286 A CN 201910561286A CN 110781333 A CN110781333 A CN 110781333A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- cable
- processing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于机器学习的斜拉桥非结构化监测数据处理方法,能够用于对桥梁检测报告的评价,包括以下步骤:S1:从原始数据中提取图像数据及所需文本数据;S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评价模型。本发明的实质性效果包括:能够对桥梁检测报告等非结构化的数据进行分析和处理,简化非结构化数据的处理流程,同时对硬件的计算能力要求较低,准确率较高,能较好地实现评价模型的建立。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于机器学习的斜拉桥非结构化监测数据处理方法。
背景技术
为保证桥梁安全运营,必须要对其进行定期检测与评估。目前行业内对于大型桥梁通常采用两年一次或一年一次的人工检查,同时根据检查结果按照《公路桥梁技术状况评定标准》进行综合评估,最后以检测报告的形式进行呈现。
作为一种较权威的桥梁健康状况评定方法,桥梁检测报告往往会尽可能详尽的阐述所检测桥梁的病害信息,通常针对一座桥梁的检测报告会达到几百页之多,此外,检测报告大多是基于文字和图片描述的方式将检测结果进行呈现,这些大量的非结构化数据严重影响着读者的阅读效率。另一方面,桥梁健康状况综合评分大多是由专业人士根据复杂的打分机制完成的,在这个过程中,评分人员需要仔细的检查每一处病害信息,由此造成了大量的时间与资源浪费。在自然语言处理技术方面,常用的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法的词向量特征维度往往会很高,对于计算力的需求也会非常大,而且其处理对象也大多以文本格式为主,对于检测报告这种文本与图片结合的资料,其作用是十分有限的。
授权公告号CN103761337B的发明公开了一种非结构化数据处理方法及系统。该非结构化数据处理方法包括以下步骤:设置多个包括关键词的特征模板;分别使用各个特征模板扫描存储有多条非结构化数据的数据库,针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容,并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录;生成与该多条非结构化数据分别一一对应的多个模板向量,每个模板向量具有一一对应于该多个特征模板的多个维度。
现有技术的向量特征维度较高,对于计算力的需求较大,执行效果不佳。
发明内容
针对现有技术在处理过程中向量特征维度过高,对于计算力的需求过大,且对文本与图片结合的资料作用效果不佳的问题,本发明提供了一种基于机器学习的斜拉桥非结构化监测数据处理方法,通过对非结构化数据中的文本及图像的分析及处理,根据数据处理的结果形成评价模型,运算量小,准确率高,本发明不仅能够在桥梁检测报告的处理上提供较可靠的评价,同时能够适用于其他非结构化数据的处理。
以下是本发明的技术方案。
一种基于机器学习的斜拉桥非结构化监测数据处理方法,包括以下步骤:S1:从原始数据中提取图像数据及所需文本数据;S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评价模型。该方法根据处理对象的不同分为两个方面。一方面,对于文本格式的非结构化数据,首先利用现有词典库对其进行分词,去除各类冗余信息,从而获得一系列文本关键词,之后采用Word2Vec模型生成文本词向量。另一方面,对于图片格式的非结构化数据,采用CNN卷积神经网络算法进行处理,随后将最后一层卷积的结果进行拼接,就可以得到图片相关的特征向量,与文本词向量类似,图像特征向量也是用来表征特定信息的工具。两种向量拼接到一起,再通过随机森林算法进行训练,即可得到综合评分模型。
作为优选,所述步骤S1中文本数据的提取过程包括:采用正则化方法并对原始数据进行匹配,提取出所需的文本数据。采用正则化匹配方法是非常高效的方式,它可以根据用户的具体需求进行设置,同时利用计算机的处理能力,实现信息的快速整理。
作为优选,所述步骤S2中词向量的生成过程包括:利用one-hot编码将单词对转化为数字的形式;定义只有一个隐含层的神经网络结构;定义损失函数;选择合适的优化器;迭代训练;储存训练好的网络,得到词向量。相比传统的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法,Word2Vec模型可以将多维的特征映射到K维的向量空间,为复杂的文本数据找到更加深层的特征表示,实现多维词向量的整合与简化,极大地降低了对于计算力的需求。
作为优选,所述步骤S2中特征向量的生成过程包括:输入层数据去均值,归一化处理;卷积层特征提取,卷积共享,降低噪声;降采样层利用局部相关性减少计算量;全连接层利用softmax激励函数,获得激活值;计算损失函数;误差向后传播,调整各层权重;获得训练好的模型,得到特征向量。该过程是通过CNN卷积神经网络实现,作为一种多层神经网络,其非常适用于图像相关的机器学习问题,它可以将数据量巨大的图像识别问题不断实现降维,方便模型的训练。
作为优选,所述步骤S3中的随机森林算法为ID3.0型决策树算法,包括:准备好拼接完成的向量样本数据集;计算各个特征划分后的熵增大小;选择最大熵增的特征对样本数据集进行划分,得到划分后的数据;在剩下的特征里选择熵增最大的特征,迭代划分,直至样本集被完全分类;建立多个决策树共同决策;存储训练好的模型。随机森林算法是典型集成学习的代表,可以适用于多分类问题,且分类准确率要远高于单一分类器。
其中ID3.0型决策树算法的原理如下:
当前样本集合D中第k类样本所占的比例为:
Ck(k=1,2,...,|y|)
其中|y|为样本分类的个数,则全体样本集合D的信息熵定义为:
假设根据某个离散特征A的取值可将D划分为n个子集,子集Di中属于类Ck的样本记为Dik。
则特征A对数据集D的经验条件熵为:
作为优选,所述步骤S1中的原始数据为桥梁检测报告。上述的Word2Vec算法、CNN卷积神经网络算法及ID3.0型决策树算法的特点,均非常适合对桥梁检测报告进行分析处理,因此将桥梁检测报告作为原始数据,可以较好地发挥出本方法的效果。
本发明的实质性效果包括:能够对桥梁检测报告等非结构化的数据进行分析和处理,简化非结构化数据的处理流程,同时对硬件的计算能力要求较低,准确率较高,能较好地实现评价模型的建立。
附图说明
图1为本发明实施例的数据处理示意图。
具体实施方式
以下结合具体实施例对本技术方案作进一步阐述。
实施例:
本实施例为一种基于机器学习的斜拉桥非结构化监测数据处理方法,非结构化数据的来源为桥梁检测报告,总体上来说,该方法根据处理对象的不同分为两个方面,如图1所示,一方面,对于文本格式的非结构化监测数据,首先利用现有词典库对其进行分词,去除各类冗余信息,从而获得一系列文本数据,之后采用Word2Vec模型生成文本词向量。另一方面,对于图片格式的非结构化图像数据,采用CNN卷积神经网络算法进行处理,随后将最后一层卷积的结果进行拼接,就可以得到图片相关的特征向量,与文本词向量类似,图像特征向量也是用来表征特定信息的工具。两种向量拼接到一起,再通过随机森林算法进行训练,即可得到综合评分模型。
本实施例处理方法具体包括以下步骤:
S1:从原始数据中提取图像数据及所需文本数据;其中文本数据的提取过程包括:采用正则化方法并对原始数据进行匹配,提取出所需的文本数据。针对检测报告中非结构化数据信息的检索,采用正则化方法进行处理,即针对用户所关心字段内容,定义不同的正则化规则,通常情况下用户主要关心一部分或几部分的内容,比如裂缝、沉降等等,通过简单的计算机程序将数据与规则进行模式匹配,提取出所关注的信息。例如,针对“顶板裂缝5mm”这一文本描述,可以设置类似“顶板裂缝x1”的规则,用于文本信息的检索与匹配,而匹配后5mm这一数值就会被存储在变量x1中,实现关键信息的提取。采用正则化匹配方法是非常高效的方式,它可以根据用户的具体需求进行设置,同时利用计算机的处理能力,实现信息的快速整理。
S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;其中词向量的生成过程包括:利用one-hot编码将单词对转化为数字的形式;定义只有一个隐含层的神经网络结构;定义损失函数;选择合适的优化器;迭代训练;储存训练好的网络,得到词向量。相比传统的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法,Word2Vec模型可以将多维的特征映射到K维的向量空间,为复杂的文本数据找到更加深层的特征表示,实现多维词向量的整合与简化,极大地降低了对于计算力的需求。
另外S2中特征向量的生成过程包括:输入层数据去均值,归一化处理;卷积层特征提取,卷积共享,降低噪声;降采样层利用局部相关性减少计算量;全连接层利用softmax激励函数,获得激活值;计算损失函数;误差向后传播,调整各层权重;获得训练好的模型,得到特征向量。该过程是通过CNN卷积神经网络实现,作为一种多层神经网络,其非常适用于图像相关的机器学习问题,它可以将数据量巨大的图像识别问题不断实现降维,方便模型的训练。
S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评价模型。其中的随机森林算法为ID3.0型决策树算法,其原理如下:
当前样本集合D中第k类样本所占的比例为:
Ck(k=1,2,...,|y|)
其中|y|为样本分类的个数,则全体样本集合D的信息熵定义为:
假设根据某个离散特征A的取值可将D划分为n个子集,子集Di中属于类Ck的样本记为Dik。则特征A对数据集D的经验条件熵为:
结合上述原理,步骤S3具体包括:准备好拼接完成的向量样本数据集;计算各个特征划分后的熵增大小;选择最大熵增的特征对样本数据集进行划分,得到划分后的数据;在剩下的特征里选择熵增最大的特征,迭代划分,直至样本集被完全分类;建立多个决策树共同决策;存储训练好的模型。随机森林算法是典型集成学习的代表,可以适用于多分类问题,且分类准确率要远高于单一分类器。
应当说明的是,该具体实施例仅用于对技术方案的进一步阐述,不用于限定该技术方案的范围,任何基于此技术方案的修改、等同替换和改进等都应视为在本发明的保护范围内。
Claims (6)
1.一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,包括以下步骤:
S1:从原始数据中提取图像数据及所需文本数据;
S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;
S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评分模型。
2.根据权利要求1所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,所述步骤S1中文本数据的提取过程包括:采用正则化方法并对原始数据进行匹配,提取出所需的文本数据。
3.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,所述步骤S2中词向量的生成过程包括:利用one-hot编码将单词对转化为数字的形式;定义只有一个隐含层的神经网络结构;定义损失函数;选择合适的优化器;迭代训练;储存训练好的网络,得到词向量。
4.根据权利要求3所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,所述步骤S2中特征向量的生成过程包括:输入层数据去均值,归一化处理;卷积层特征提取,卷积共享,降低噪声;降采样层利用局部相关性减少计算量;全连接层利用softmax激励函数,获得激活值;计算损失函数;误差向后传播,调整各层权重;获得训练好的模型,得到特征向量。
5.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,所述步骤S3中的随机森林算法为ID3.0型决策树算法,包括:准备好拼接完成的向量样本数据集;计算各个特征划分后的熵增大小;选择最大熵增的特征对样本数据集进行划分,得到划分后的数据;在剩下的特征里选择熵增最大的特征,迭代划分,直至样本集被完全分类;建立多个决策树共同决策;存储训练好的模型。
6.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法,其特征在于,所述步骤S1中的原始数据为桥梁检测报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561286.3A CN110781333A (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910561286.3A CN110781333A (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781333A true CN110781333A (zh) | 2020-02-11 |
Family
ID=69383821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910561286.3A Pending CN110781333A (zh) | 2019-06-26 | 2019-06-26 | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781333A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414107A (zh) * | 2020-03-17 | 2020-07-14 | 中国银行股份有限公司 | 可缩放矢量图形处理方法及系统 |
CN111524570A (zh) * | 2020-05-06 | 2020-08-11 | 万达信息股份有限公司 | 一种基于机器学习的超声随访患者筛选方法 |
CN111897630A (zh) * | 2020-06-10 | 2020-11-06 | 广州杰赛科技股份有限公司 | 基于深度学习的设备告警知识库的构建方法和装置 |
CN114036258A (zh) * | 2021-10-19 | 2022-02-11 | 东南大学 | 一种基于自然语言处理的桥梁技术状况等级快速识别方法 |
CN116644157A (zh) * | 2023-07-27 | 2023-08-25 | 交通运输部公路科学研究所 | 基于桥梁养护非结构化数据构建Embedding数据的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
WO2019053205A1 (en) * | 2017-09-15 | 2019-03-21 | Qubeeo Ltd | CONTENT PROCESSING |
CN109934260A (zh) * | 2019-01-31 | 2019-06-25 | 中国科学院信息工程研究所 | 基于随机森林的图文数据融合情感分类方法和装置 |
-
2019
- 2019-06-26 CN CN201910561286.3A patent/CN110781333A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
WO2019053205A1 (en) * | 2017-09-15 | 2019-03-21 | Qubeeo Ltd | CONTENT PROCESSING |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
CN109934260A (zh) * | 2019-01-31 | 2019-06-25 | 中国科学院信息工程研究所 | 基于随机森林的图文数据融合情感分类方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414107A (zh) * | 2020-03-17 | 2020-07-14 | 中国银行股份有限公司 | 可缩放矢量图形处理方法及系统 |
CN111524570A (zh) * | 2020-05-06 | 2020-08-11 | 万达信息股份有限公司 | 一种基于机器学习的超声随访患者筛选方法 |
CN111524570B (zh) * | 2020-05-06 | 2024-01-16 | 万达信息股份有限公司 | 一种基于机器学习的超声随访患者筛选方法 |
CN111897630A (zh) * | 2020-06-10 | 2020-11-06 | 广州杰赛科技股份有限公司 | 基于深度学习的设备告警知识库的构建方法和装置 |
CN111897630B (zh) * | 2020-06-10 | 2023-07-18 | 广州杰赛科技股份有限公司 | 基于深度学习的设备告警知识库的构建方法和装置 |
CN114036258A (zh) * | 2021-10-19 | 2022-02-11 | 东南大学 | 一种基于自然语言处理的桥梁技术状况等级快速识别方法 |
CN114036258B (zh) * | 2021-10-19 | 2022-06-24 | 东南大学 | 一种基于自然语言处理的桥梁技术状况等级快速识别方法 |
CN116644157A (zh) * | 2023-07-27 | 2023-08-25 | 交通运输部公路科学研究所 | 基于桥梁养护非结构化数据构建Embedding数据的方法 |
CN116644157B (zh) * | 2023-07-27 | 2023-10-10 | 交通运输部公路科学研究所 | 基于桥梁养护非结构化数据构建Embedding数据的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN107391772B (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109657011B (zh) | 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统 | |
CN109902223B (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
CN110633725A (zh) | 训练分类模型的方法和装置以及分类方法和装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN107679031B (zh) | 基于堆叠降噪自编码机的广告博文识别方法 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN109582743B (zh) | 一种针对恐怖袭击事件的数据挖掘系统 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN114202038B (zh) | 一种基于dbm深度学习的众包缺陷分类方法 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN114896962A (zh) | 多视角句子匹配模型、应用方法和相关装置 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
CN114491033A (zh) | 一种基于词向量和主题模型的用户兴趣模型构建的方法 | |
CN114547294A (zh) | 一种基于传播过程综合信息的谣言检测方法及系统 | |
Khan et al. | Analysis of Cursive Text Recognition Systems: A Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |
|
RJ01 | Rejection of invention patent application after publication |