CN113469136B

CN113469136B - 基于改进lstm-vgg16深层神经网络结构识别轮机员工作监控方法

Info

Publication number: CN113469136B
Application number: CN202110859894.XA
Authority: CN
Inventors: 韩志涛; 李佳伟; 王鑫鑫; 李治显; 朱嘉涵
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-05-14
Anticipated expiration: 2041-07-28
Also published as: CN113469136A

Abstract

本发明提出一种基于改进LSTM‑VGG16深层神经网络结构识别轮机员工作监控方法，包括：对轮机员进行图像摄影采集，获取轮机员值班的行为数据；把采集到的图像数据输入到改进的VGG16网络结构中提取特征，改进的VGG16网络结构中，去除最后一层，将倒数第二层的输出作为图像标题生成模型的图像特征，然后图像特征经过一层Dropout层处理，再经过一层Dense层，得到输入图像的特征矩阵；将每幅图像的描述单词串输入LSTM，得到单词串特征；将得到的输入图像的特征矩阵和LSTM输出的单词串特征输入到Add层相加；相加后的特征经第一Dense层和第二Dense层，得到图像描述。本发明能够当轮机员等工作人员在船楼、机舱、锅炉间等较远场所工作时，及时了解及反应轮机员工作状态。

Description

基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法

技术领域

本发明涉及轮机自动化及智能化，特别是涉及基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

背景技术

在经济全球化的今天，海上贸易和运输日益成为一国经济增长的生命线，海运格局的变迁佐证了各国经济地位的更迭。几个世纪以来，世界经济发展的规律表明，伴随着世界工厂地位确立的同时必然是海运大国的成长。考察中国海运事业的发展和变迁，可以清楚地发现中国崛起不仅深刻地改变了世界海运格局的版图，而且随着我国从海运大国向海运强国的过渡，中国经济在全球化中的地位和影响力必将更为显著。在此发展过程中，我国海运事业既有与世界海运发展规律相吻合的一面，也有一定的独立性，在走向海运强国过程中，面临着重大的发展机遇和挑战。

在航运过程中，由于航运是很漫长的，要求轮机员等相关工作人员长时间处于工作状态中，船舶都是大型的空间，不能实时了解每个工作人员的工作人员的位置及工作状态。

发明内容

有鉴于此，本发明提出一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，以便当轮机员等工作人员在船楼、机舱、锅炉间等较远场所工作时，及时了解及反应轮机员工作状态。

为此，本发明提出以下技术方案：

本发明提供了一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，包括：

步骤一、对轮机员进行图像摄影采集，获取轮机员值班的行为数据；

步骤二、把采集到的图像数据输入改进的VGG16网络结构得到图像特征，所述图像特征经一层Dropout层处理特征值，再经一层Dense层，获得输入图像的特征矩阵；所述改进的VGG16网络结构中，去除最后一层，将倒数第二层的输出作为图像特征；

步骤三、将每幅图像的描述单词串输入LSTM，得到单词串特征；

步骤四、将步骤二得到的输入图像的特征矩阵和步骤三中LSTM输出的单词串特征输入到Add层相加；

步骤五、相加后的特征经第一Dense层和第二Dense层，得到图像描述。

进一步地，对轮机员进行图像摄影采集，获取轮机员值班的行为数据，包括：

在陆上虚拟机舱三维模拟器中操控虚拟轮机员进行日常工作进行记录，使用EV录屏软件对轮机员进行图像摄影采集；

对采集的图像影像数据进行分类整理。

进一步地，将每幅图像的描述单词串输入LSTM，包括：

将每幅图像的描述单词串中各个单词转化为整数输入至LSTM。

进一步地，将每幅图像的描述单词串输入LSTM，包括：

将每幅图像的描述单词串定义为1×34的向量，所述向量经Embedding层得到大小为34×256的第一矩阵；

将所述第一矩阵输入Dropout层，得到大小为34×256的第二矩阵；

将所述第二矩阵输入LSTM层，得到大小为1×256的单词串特征。

进一步地，每幅图像的描述包括：根据每幅图像的内容，用多种不同的描述语句来描述图像，每句描述定义的字符串大小为1×34的向量。

进一步地，还包括：输出所述图像描述，并为现在轮机员日常活动形成活动日志。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序运行时，执行上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

又一方面，本发明还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序运行执行上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

本发明的优点和积极效果：

上述技术方案中，通过VGG16神经网络对图像进行检测识别，提取该图像的图像特征，根据图像特征结合LSTM网络对该图像进行解读说明图面。能够对轮机员的实时位置进行识别并记录该轮机员一天的工作路径记录。不管对轮机员自身安全，还是对船舶业的安全提供了有效的保障具有重大意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法的流程图；

图2为本发明实施例中改进VGG16网络结构示意图；

图3为本发明实施例中LSTM结构示意图；

图4为本发明实施例中整体网络结构图；

图5为本发明实施例中训练损失图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，其示出了一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法的流程图，首先启动设备，对摄像头进行初始化操作；然后依次执行以下步骤：

步骤一、图片数据采集：

视频数据采集地可以是在虚拟机舱三维模拟器采集，获取轮机员日常工作的行为数据。

在具体实施时，步骤一具体包括以下步骤：

1)在陆上虚拟机舱三维模拟器中操控虚拟轮机员进行日常工作进行记录，使用EV录屏软件对轮机员进行图像摄影采集。

2)对采集的图像影像数据进行分类整理。

步骤二、图像提取特征：

把采集到的图像数据输入到改进的VGG16网络结构中提取特征，获得输入图像的特征矩阵。

CNN深度卷积网络如VGG16，近几年在推动人工智能的发展上，做出了巨大的贡献，原因就在于CNN可以自动提取对分类/检测/识别任务有帮助的特征，不再需要传统人工设计特征，如SIFT/HOG等；CNN通常含有很深的网络层，每一层代表对图像的特征提取，被成为feature map，卷积网络对图像特征的提取，是随着网络的层数的加深，而从低层特征描述逐渐抽象为高层特征描述。

VGG16-D的传统网络结构最后一层是将倒数第二层4096维的输出转为1000维的输出作为1000类别的分类概率。本发明实施例中对VGG16-D进行了改进，如图2所示，改进后的VGG16-D网络结构中，去除最后一层，将倒数第二层的4096维的输出作为图像标题生成模型的图像特征。改进后的VGG16网络每张图片最后得到的是1×4096的向量，然后经过一层Dropout层处理特征值输出仍为1×4096，再经过一层Dense层把处理后的特征转变为1×256，把这里得到的特征矩阵作为输入1。

步骤三、描述图片：

根据每张图片的内容，用五种不同的描述语句来描述图像，每句描述定义的字符串大小为1×34的向量，然后把描述中的文字给编码生成相对应的pkl文件，pkl文件是python里面保存文件的一种格式，如果直接打开会显示一堆序列化的东西(二进制文件)。常用于保存神经网络训练的模型或者各种需要存储的数据。本发明实施例中把描述图片能用的字符串给编码生成pkl文件。

添加一层Embedding层，该层输出的为34×256矩阵，后面相继添加Dropout层(34×256)、LSTM层(1×256)。

Embedding层，它把稀疏矩阵，通过一些线性变换(在CNN中用全连接层进行转换，也称为查表操作)，变成了一个密集矩阵，这个密集矩阵用了N(例子中N＝3)个特征来表征所有的文字，在这个密集矩阵中，表象上代表着密集矩阵跟单个字的一一对应关系，实际上还蕴含了大量的字与字之间，词与词之间甚至句子与句子之间的内在关系，该关系采用嵌入层学习来的参数进行表征。从稀疏矩阵到密集矩阵的过程，叫做embedding，很多人也把它叫做查表，因为他们之间也是一个一一映射的关系。更重要的是，这种关系在反向传播的过程中，是一直在更新的，因此能在多次epoch后，使得这个关系变成相对成熟，即：正确的表达整个语义以及各个语句之间的关系。

步骤四、输入到新的深度神经网络(DNN)：

对步骤二得到的图像特征1×256和步骤三LSTM输出的1×256输入到Add层相加；相加后的特征经第一Dense层和第二Dense层，得到图像描述。

长短期记忆(Long Short Term Memory，LSTM)网络是一种特殊的RNN模型，其特殊的结构设计使得它可以避免长期依赖问题，记住很早时刻的信息是LSTM的默认行为，而不需要专门为此付出很大代价。普通的RNN模型中，其重复神经网络模块的链式模型，这个重复的模块只有一个非常简单的结构，一个单一的神经网络层(例如tanh层)，这样就会导致信息的处理能力比较低。而LSTM在此基础上将这个结构改进了，如图3所示，LSTM不再是单一的神经网络层，而是4个，并且以一种特殊的方式进行交互。

LSTM的输入是数值，单词需要转换为数值才能使用LSTM，最简单的方式是将单词转化为整数，每个单词都对应于一个整数。但是这样的方式无法有效的表达单词直接的相关性。单词嵌入是利用神经网络来学习单词的表达，使用一个向量而不是一个整数来表达一个单词，向量提供了更大的信息量，里面可以嵌入单词之间的关系，更好的表达一个单词。

如图4所示，其示出了本发明实施例中改进的LSTM-VGG16深层神经网络的整体结构示意图。改进后的网络兼备LSTM的时序处理数据功能，又有经典的VGG-16网络对图像进行精准的识别，结合了两个网络模型的特点，实用性更加广泛。

步骤五、训练模型：

利用上述数据进行训练得到模型，训练模型时采用如图5所示的训练损失图进行训练。

步骤六、输出图像描述，并记录。

上述实施例中，为现在轮机员日常活动形成活动日志，为航运管理提供便捷方便实用高效的方法技术。该方法中结合利用神经网络特征提取、LSTM的方法准确度高，检测速度快，易于在实际场景中推广应用。

为了便于理解，下面对上述步骤二进行具体说明。

彩色图像有RGB三个颜色通道，分别是红、绿、蓝三个通道，这三个通道的像素可以用二维数组来表示，其中像素值由0到255的数字来表示。本发明实施例中，输入的图像设定为224×224×3。

卷积层(Convolutional layer)，卷积神经网络中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。

全连接层(Dense layer)层每一个节点都与上下层的所有节点相连，输入与输出都被延展成一维向量。全连接的核心操作就是矩阵向量乘积。

Dense层的参数量庞大，计算量也大，但是Dense层可以最大限度的保存原始信息的完整。本发明实施例中一条支路目的就是保存原始信息的完整性。同时Dense容易发生过拟合的现象，为了解决这一问题本发明实施例中也添加了Dropout层来防止过拟合的发生。

Dropout层要解决的问题：在机器学习的一些模型中，如果模型的参数太多，而训练样本又太少的话，这样训练出来的模型很容易产生过拟合现象。

在训练时，每个神经元以概率p保留，即以1-p的概率停止工作，每次前向传播保留下来的神经元都不同。

其好处在于：

(1)、多模型的平均：不同的固定神经网络会有不同的过拟合，多个取平均则有可能让一些相反的拟合抵消掉，而Dropout每次都是不同的神经元失活，可以看做是多个模型的平均，类似于多数投票取胜的策略。

(2)、减少神经元间的依赖：由于两个神经元不一定同时有效，因此减少了特征之间的依赖，迫使网络学习有更为鲁棒的特征，因为神经网络不应该对特定的特征敏感，而应该从众多特征中学习更为共同的规律，这也起到了正则化的效果。

(3)、生物进化：Dropout类似于性别在生物进化中的角色，物种为了适应环境变化，在繁衍时取雄性和雌性的各一半基因进行组合，这样可以适应更复杂的新环境，避免了单一基因的过拟合，当环境发生变化时也不至于灭绝。

池化层(Pooling)的作用：

(1)、特征不变性(feature invariant)

汇合操作使模型更关注是否存在某些特征而不是特征具体的位置可看作是一种很强的先验，使特征学习包含某种程度自由度，能容忍一些特征微小的位移

(2)、特征降维

由于汇合操作的降采样作用，汇合结果中的一个元素对应于原输入数据的一个子区域(sub-region)，因此汇合相当于在空间范围内做了维度约减(spatially dimensionreduction)，从而使模型可以抽取更广范围的特征同时减小了下一层输入大小，进而减小计算量和参数个数。

(3)、在一定程度上能防止过拟合的发生

本发明实施例中采用的是最大池化(maxpool)。

同时本发明实施例中使用的激活函数默认的是Relu，公式如下：

ReLU函数其实是分段线性函数，把所有的负值都变为0，而正值不变，这种操作被成为单侧抑制。因为有了这单侧抑制，使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深度神经网络模型(如CNN)中，当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。只要能起到单侧抑制的作用，无论是镜面翻转还是180度翻转，最终神经元的输出也只是相当于加上了一个常数项系数，并不影响模型的训练结果。

使用Python keras工具包对VGG16-D网络进行改进，VGG16-D的传统网络结构最后一层是将倒数第二层4096维的输出转为1000维的输出作为1000类别的分类概率。本发明实施例中，可以去除最后一层，将倒数第二层的4096维的输出作为图像标题生成模型的图像特征。通过改进的VGG16网络对图像提取特征精确且速度快。改进后的VGG16网络每张图片最后得到的是1×4096的向量，然后经过一层Dropout层处理特征值输出仍为1×4096。

对应于上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，本发明实施例中还提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序运行时，执行上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

对应于上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，本发明实施例中还提供了一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器上述基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，其特征在于，包括：

其中，将每幅图像的描述单词串输入LSTM，包括：

将所述第二矩阵输入LSTM层，得到大小为1×256的单词串特征；

步骤五、相加后的特征经第一Dense层和第二Dense层，得到图像描述；

每幅图像的描述包括：根据每幅图像的内容，用多种不同的描述语句来描述图像，每句描述定义的字符串大小为1×34的向量。

2.根据权利要求1所述的一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，其特征在于，对轮机员进行图像摄影采集，获取轮机员值班的行为数据，包括：

对采集的图像影像数据进行分类整理。

3.根据权利要求1所述的一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，其特征在于，将每幅图像的描述单词串输入LSTM，包括：

将每幅图像的描述单词串中各个单词转化为整数输入至LSTM。

4.根据权利要求1所述的一种基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法，其特征在于，还包括：输出图像描述，并为现在轮机员日常活动形成活动日志。

5.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时，执行所述权利要求1至4中任一项权利要求所述的基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。

6.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序运行执行所述权利要求1至4中任一项权利要求所述的基于改进LSTM-VGG16深层神经网络结构识别轮机员工作监控方法。