CN110781333A

CN110781333A - 一种基于机器学习的斜拉桥非结构化监测数据处理方法

Info

Publication number: CN110781333A
Application number: CN201910561286.3A
Authority: CN
Inventors: 陈宇轩; 何显银; 宋杰; 董梅; 胡辉
Original assignee: Hangzhou Ruhr Technology Co Ltd
Current assignee: Hangzhou Ruhr Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2020-02-11

Abstract

本发明公开了一种基于机器学习的斜拉桥非结构化监测数据处理方法，能够用于对桥梁检测报告的评价，包括以下步骤：S1：从原始数据中提取图像数据及所需文本数据；S2：对文本数据采用Word2Vec模型生成词向量，对图像数据采用神经网络算法生成图片的特征向量；S3：将词向量及特征向量拼接，通过随机森林算法训练，得到评价模型。本发明的实质性效果包括：能够对桥梁检测报告等非结构化的数据进行分析和处理，简化非结构化数据的处理流程，同时对硬件的计算能力要求较低，准确率较高，能较好地实现评价模型的建立。

Description

一种基于机器学习的斜拉桥非结构化监测数据处理方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于机器学习的斜拉桥非结构化监测数据处理方法。

背景技术

为保证桥梁安全运营，必须要对其进行定期检测与评估。目前行业内对于大型桥梁通常采用两年一次或一年一次的人工检查，同时根据检查结果按照《公路桥梁技术状况评定标准》进行综合评估，最后以检测报告的形式进行呈现。

作为一种较权威的桥梁健康状况评定方法，桥梁检测报告往往会尽可能详尽的阐述所检测桥梁的病害信息，通常针对一座桥梁的检测报告会达到几百页之多，此外，检测报告大多是基于文字和图片描述的方式将检测结果进行呈现，这些大量的非结构化数据严重影响着读者的阅读效率。另一方面，桥梁健康状况综合评分大多是由专业人士根据复杂的打分机制完成的，在这个过程中，评分人员需要仔细的检查每一处病害信息，由此造成了大量的时间与资源浪费。在自然语言处理技术方面，常用的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法的词向量特征维度往往会很高，对于计算力的需求也会非常大，而且其处理对象也大多以文本格式为主，对于检测报告这种文本与图片结合的资料，其作用是十分有限的。

授权公告号CN103761337B的发明公开了一种非结构化数据处理方法及系统。该非结构化数据处理方法包括以下步骤：设置多个包括关键词的特征模板；分别使用各个特征模板扫描存储有多条非结构化数据的数据库，针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容，并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录；生成与该多条非结构化数据分别一一对应的多个模板向量，每个模板向量具有一一对应于该多个特征模板的多个维度。

现有技术的向量特征维度较高，对于计算力的需求较大，执行效果不佳。

发明内容

针对现有技术在处理过程中向量特征维度过高，对于计算力的需求过大，且对文本与图片结合的资料作用效果不佳的问题，本发明提供了一种基于机器学习的斜拉桥非结构化监测数据处理方法，通过对非结构化数据中的文本及图像的分析及处理，根据数据处理的结果形成评价模型，运算量小，准确率高，本发明不仅能够在桥梁检测报告的处理上提供较可靠的评价，同时能够适用于其他非结构化数据的处理。

以下是本发明的技术方案。

一种基于机器学习的斜拉桥非结构化监测数据处理方法，包括以下步骤：S1：从原始数据中提取图像数据及所需文本数据；S2：对文本数据采用Word2Vec模型生成词向量，对图像数据采用神经网络算法生成图片的特征向量；S3：将词向量及特征向量拼接，通过随机森林算法训练，得到评价模型。该方法根据处理对象的不同分为两个方面。一方面，对于文本格式的非结构化数据，首先利用现有词典库对其进行分词，去除各类冗余信息，从而获得一系列文本关键词，之后采用Word2Vec模型生成文本词向量。另一方面，对于图片格式的非结构化数据，采用CNN卷积神经网络算法进行处理，随后将最后一层卷积的结果进行拼接，就可以得到图片相关的特征向量，与文本词向量类似，图像特征向量也是用来表征特定信息的工具。两种向量拼接到一起，再通过随机森林算法进行训练，即可得到综合评分模型。

作为优选，所述步骤S1中文本数据的提取过程包括：采用正则化方法并对原始数据进行匹配，提取出所需的文本数据。采用正则化匹配方法是非常高效的方式，它可以根据用户的具体需求进行设置，同时利用计算机的处理能力，实现信息的快速整理。

作为优选，所述步骤S2中词向量的生成过程包括：利用one-hot编码将单词对转化为数字的形式；定义只有一个隐含层的神经网络结构；定义损失函数；选择合适的优化器；迭代训练；储存训练好的网络，得到词向量。相比传统的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法，Word2Vec模型可以将多维的特征映射到K维的向量空间，为复杂的文本数据找到更加深层的特征表示，实现多维词向量的整合与简化，极大地降低了对于计算力的需求。

作为优选，所述步骤S2中特征向量的生成过程包括：输入层数据去均值，归一化处理；卷积层特征提取，卷积共享，降低噪声；降采样层利用局部相关性减少计算量；全连接层利用softmax激励函数，获得激活值；计算损失函数；误差向后传播，调整各层权重；获得训练好的模型，得到特征向量。该过程是通过CNN卷积神经网络实现，作为一种多层神经网络，其非常适用于图像相关的机器学习问题，它可以将数据量巨大的图像识别问题不断实现降维，方便模型的训练。

作为优选，所述步骤S3中的随机森林算法为ID3.0型决策树算法，包括：准备好拼接完成的向量样本数据集；计算各个特征划分后的熵增大小；选择最大熵增的特征对样本数据集进行划分，得到划分后的数据；在剩下的特征里选择熵增最大的特征，迭代划分，直至样本集被完全分类；建立多个决策树共同决策；存储训练好的模型。随机森林算法是典型集成学习的代表，可以适用于多分类问题，且分类准确率要远高于单一分类器。

其中ID3.0型决策树算法的原理如下：

当前样本集合D中第k类样本所占的比例为：

C_k(k＝1，2，...，|y|)

其中|y|为样本分类的个数，则全体样本集合D的信息熵定义为：

假设根据某个离散特征A的取值可将D划分为n个子集，子集Di中属于类Ck的样本记为Dik。

则特征A对数据集D的经验条件熵为：

作为优选，所述步骤S1中的原始数据为桥梁检测报告。上述的Word2Vec算法、CNN卷积神经网络算法及ID3.0型决策树算法的特点，均非常适合对桥梁检测报告进行分析处理，因此将桥梁检测报告作为原始数据，可以较好地发挥出本方法的效果。

本发明的实质性效果包括：能够对桥梁检测报告等非结构化的数据进行分析和处理，简化非结构化数据的处理流程，同时对硬件的计算能力要求较低，准确率较高，能较好地实现评价模型的建立。

附图说明

图1为本发明实施例的数据处理示意图。

具体实施方式

以下结合具体实施例对本技术方案作进一步阐述。

实施例：

本实施例为一种基于机器学习的斜拉桥非结构化监测数据处理方法，非结构化数据的来源为桥梁检测报告，总体上来说，该方法根据处理对象的不同分为两个方面，如图1所示，一方面，对于文本格式的非结构化监测数据，首先利用现有词典库对其进行分词，去除各类冗余信息，从而获得一系列文本数据，之后采用Word2Vec模型生成文本词向量。另一方面，对于图片格式的非结构化图像数据，采用CNN卷积神经网络算法进行处理，随后将最后一层卷积的结果进行拼接，就可以得到图片相关的特征向量，与文本词向量类似，图像特征向量也是用来表征特定信息的工具。两种向量拼接到一起，再通过随机森林算法进行训练，即可得到综合评分模型。

本实施例处理方法具体包括以下步骤：

S1：从原始数据中提取图像数据及所需文本数据；其中文本数据的提取过程包括：采用正则化方法并对原始数据进行匹配，提取出所需的文本数据。针对检测报告中非结构化数据信息的检索，采用正则化方法进行处理，即针对用户所关心字段内容，定义不同的正则化规则，通常情况下用户主要关心一部分或几部分的内容，比如裂缝、沉降等等，通过简单的计算机程序将数据与规则进行模式匹配，提取出所关注的信息。例如，针对“顶板裂缝5mm”这一文本描述，可以设置类似“顶板裂缝x1”的规则，用于文本信息的检索与匹配，而匹配后5mm这一数值就会被存储在变量x1中，实现关键信息的提取。采用正则化匹配方法是非常高效的方式，它可以根据用户的具体需求进行设置，同时利用计算机的处理能力，实现信息的快速整理。

S2：对文本数据采用Word2Vec模型生成词向量，对图像数据采用神经网络算法生成图片的特征向量；其中词向量的生成过程包括：利用one-hot编码将单词对转化为数字的形式；定义只有一个隐含层的神经网络结构；定义损失函数；选择合适的优化器；迭代训练；储存训练好的网络，得到词向量。相比传统的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法，Word2Vec模型可以将多维的特征映射到K维的向量空间，为复杂的文本数据找到更加深层的特征表示，实现多维词向量的整合与简化，极大地降低了对于计算力的需求。

另外S2中特征向量的生成过程包括：输入层数据去均值，归一化处理；卷积层特征提取，卷积共享，降低噪声；降采样层利用局部相关性减少计算量；全连接层利用softmax激励函数，获得激活值；计算损失函数；误差向后传播，调整各层权重；获得训练好的模型，得到特征向量。该过程是通过CNN卷积神经网络实现，作为一种多层神经网络，其非常适用于图像相关的机器学习问题，它可以将数据量巨大的图像识别问题不断实现降维，方便模型的训练。

S3：将词向量及特征向量拼接，通过随机森林算法训练，得到评价模型。其中的随机森林算法为ID3.0型决策树算法，其原理如下：

当前样本集合D中第k类样本所占的比例为：

C_k(k＝1，2，...，|y|)

假设根据某个离散特征A的取值可将D划分为n个子集，子集Di中属于类Ck的样本记为Dik。则特征A对数据集D的经验条件熵为：

结合上述原理，步骤S3具体包括：准备好拼接完成的向量样本数据集；计算各个特征划分后的熵增大小；选择最大熵增的特征对样本数据集进行划分，得到划分后的数据；在剩下的特征里选择熵增最大的特征，迭代划分，直至样本集被完全分类；建立多个决策树共同决策；存储训练好的模型。随机森林算法是典型集成学习的代表，可以适用于多分类问题，且分类准确率要远高于单一分类器。

应当说明的是，该具体实施例仅用于对技术方案的进一步阐述，不用于限定该技术方案的范围，任何基于此技术方案的修改、等同替换和改进等都应视为在本发明的保护范围内。

Claims

1.一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，包括以下步骤：

S1：从原始数据中提取图像数据及所需文本数据；

S2：对文本数据采用Word2Vec模型生成词向量，对图像数据采用神经网络算法生成图片的特征向量；

S3：将词向量及特征向量拼接，通过随机森林算法训练，得到评分模型。

2.根据权利要求1所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，所述步骤S1中文本数据的提取过程包括：采用正则化方法并对原始数据进行匹配，提取出所需的文本数据。

3.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，所述步骤S2中词向量的生成过程包括：利用one-hot编码将单词对转化为数字的形式；定义只有一个隐含层的神经网络结构；定义损失函数；选择合适的优化器；迭代训练；储存训练好的网络，得到词向量。

4.根据权利要求3所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，所述步骤S2中特征向量的生成过程包括：输入层数据去均值，归一化处理；卷积层特征提取，卷积共享，降低噪声；降采样层利用局部相关性减少计算量；全连接层利用softmax激励函数，获得激活值；计算损失函数；误差向后传播，调整各层权重；获得训练好的模型，得到特征向量。

5.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，所述步骤S3中的随机森林算法为ID3.0型决策树算法，包括：准备好拼接完成的向量样本数据集；计算各个特征划分后的熵增大小；选择最大熵增的特征对样本数据集进行划分，得到划分后的数据；在剩下的特征里选择熵增最大的特征，迭代划分，直至样本集被完全分类；建立多个决策树共同决策；存储训练好的模型。

6.根据权利要求1或2所述的一种基于机器学习的斜拉桥非结构化监测数据处理方法，其特征在于，所述步骤S1中的原始数据为桥梁检测报告。