CN117556208A

CN117556208A - 多模态数据的智能卷积通用网络预测方法、设备及介质

Info

Publication number: CN117556208A
Application number: CN202311562441.6A
Authority: CN
Inventors: 侯雅婧
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-13

Abstract

本申请提供了一种多模态数据的智能卷积通用网络预测方法，包括：获取多模态数据，将所述多模态数据转换为二维数组；确定多模态数据的训练样本和测试样本；通过Relu激活函数、二维卷积层、激活层以及最大池化层，构建轻量级的适应多模态数据的所述通用网络模型；改进所述通用网络模型的卷积公式；通过所述训练样本，训练所述通用网络模型，通过训练后的通用网络模型，实现所述多模态数据的识别。

Description

多模态数据的智能卷积通用网络预测方法、设备及介质

技术领域

本申请涉及边缘计算智能应用领域，尤其涉及一种多模态数据的智能卷积通用网络预测方法、设备及介质。

背景技术

所有边缘节点上的数据仍然需要在云中进行汇总，以实现深入分析，获得更有意义的分析结果。万物互联时代，如果大量数据全部传输到云端，云计算会造成很大的负载，因此需要边缘计算来分担云的压力，并负责其边缘范围内的任务。

边缘计算的边缘是指数据源和云计算中心路径之间的任意计算和网络资源。边缘计算是将地理距离或网络距离上接近用户的资源统一起来，为应用提供计算、存储和网络服务的一种新的计算模型，满足敏捷性的关键需求。

敏捷性的关键点是自适应和分布式，针对客户需求具有更灵活的响应能力。敏捷性注重轻型，也是我们现代意义上的便携式。边缘计算更注重实用性和普适性。

万物互联时代，网络边缘使用深度学习的应用程序以保证边缘设备获得的大量数据能够在边缘应用程序中得到实时的分析。较好的思路是将深度学习网络应用在边缘计算领域，以均衡实时性、准确率和存储量。

传统CNN的网络结构，包括：有卷积层、激活函数、池化层、全连接层以及输出层等。激活函数作用是引入非线性因素，保证网络框架的健壮性，为了避免被激活函数过滤掉更多的信息，传统的CNN的网络结构会在激活层的前面，卷积层的后面加上一个偏置向量，对数据进行一次简单的线性加法。池化层将大维度特征切成几个小区域特征，取其最大值或平均值，得到新的、维度较小的特征，用于压缩数据和参数的量，减小过拟合。传统CNN的卷积工作流程，以边缘探测为例，需要过滤器，探测垂直边以及水平边缘。

为了提高准确率降低损失，网络框架过于复杂，市场上现有框架的针对性较强无法适应中低端环境，例如边缘的多模态生态环境。常规的卷积神经网络有局部感知和参数共享，但是实时性较差，无法满足客户需求。

发明内容

本申请的目的在于解决现有网络计算方法无法适应中低端环境技术问题，提供一种多模态数据的智能卷积通用网络预测方法、设备及介质。

本申请的上述目的是通过以下技术方案得以实现的：

S1：获取多模态数据，将所述多模态数据转换为二维数组；确定多模态数据的训练样本和测试样本；

S2：通过Relu激活函数、二维卷积层、激活层以及最大池化层，构建轻量级的适应多模态数据的所述通用网络模型；

S3：改进所述通用网络模型的卷积公式；

所述通用网络模型改进后的卷积公式如下：

其中，表示向下取整；W表示卷积特征图的宽，卷积特征图的宽等于卷积特征图的高；P表示填充；S表示移动得距离；

S4：通过所述训练样本，训练所述通用网络模型；

设置不同的迭代训练周期；

S5：通过训练后的通用网络模型，实现所述多模态数据的识别。

可选的，步骤S1包括：

所述多模态数据包括：视频数据以及音频数据；

将所述视频数据转换为图片数据，再将所述图片数据转换为二维数组；将所述音频数据转换为文本数据，再将所述文本数据转换为二维数组。

可选的，步骤S2包括：

S21：通过Adam优化器优化通用网络模型的数据；

S22：使用交叉熵损失函数作为通用网络模型的损失函数。

可选的，所述通用网络模型的结构由两层组成，包括：cov1层以及cov2层；

Cov1层由二维卷积层、激活层、最大池化层组成，Cov1层中的二维卷积层连接Cov1层中的激活层，Cov1层中的激活层连接Cov1层中的最大池化层；

Cov2层由二维卷积层、激活层组成，Cov2层中的二维卷积层连接Cov2层中的激活层；

Cov1层的最大池化层连接Cov2层的二维卷积层；

所述二维卷积层的卷积核尺寸大小为3*3，填充P为1以及卷积步长S为2。

可选的，步骤S4还包括：

在每个迭代训练周期完成之后，通过所述测试样本测试所述通用网络模型，绘制损失数据图像；通过所述损失数据图像，调整所述通用网络模型的结构参数，确定最优结构参数。

可选的，所述最优结构参数如下：

所述Cov1中的Conv2d参数设置如下：输入通道大小in_channels＝1、输出通道大小out_channels＝18、卷积核尺寸kernel_size＝3、卷积步长stride＝2和填充padding＝1；MaxPool2d中的卷积核尺寸kernel_size＝3；

所述Cov2中的Conv2d参数设置如下：输入通道大小in_channels＝18、输出通道大小out_channels＝36、卷积核尺寸kernel_size＝3、卷积步长stride＝2和填充padding＝1。

可选的，步骤S5包括：

采用Pytorch深度学习框架实现所述通用网络模型；

将待识别的多模态数据转换为二维数组，输入改进后的所述通用网络模型，实现多模态数据的识别。

一种电子设备，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令，以使所述电子设备执行一种多模态数据的智能卷积通用网络预测方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有指令，当所述指令被执行时，执行一种多模态数据的智能卷积通用网络预测方法。

本申请提供的技术方案带来的有益效果是：

1.通过卷积层、激活层以及最大池化层组成通用网络模型的前馈神经网络；采用两层架构，使用最大池化层以及较少的卷积层和激活层改进通用网络模型的结构，使通用网络模型更加轻量化，网络结构简单，能适用多模态数据的各种分类和回归任务。革新通用网络模型的卷积公式，使计算方便容易理解。应用Relu激活函数能均衡收敛速度和精确度。调整模型中的最优结构参数，提高模型的准确性。

2.优化器使用Adam优化器，计算梯度的指数移动平均数，函数曲线平滑，更容易达成目标。

3.通过选用pytorch作为深度学习框架，有效的处理多模态数据以及先关融合问题。

附图说明

下面将结合附图及实施例对本申请作进一步说明，附图中：

图1是本申请实施例中多模态数据的智能卷积通用网络预测方法的步骤图；

图2是本申请实施例中多模态数据的智能卷积通用网络预测方法的表2-1的损失-精确率数据图像图；

图3是本申请实施例中多模态数据的智能卷积通用网络预测方法的表2-2的损失-精确率数据图像图；

图4是本申请实施例中多模态数据的智能卷积通用网络预测方法的表2-3的损失-精确率数据图像图；

图5是本申请实施例中多模态数据的智能卷积通用网络预测方法的表2-4的损失-精确率数据图像图；

图6是本申请实施例中多模态数据的智能卷积通用网络预测方法的表2-5的损失-精确率数据图像图；

图7是本申请实施例中多模态数据的智能卷积通用网络预测方法的电子设备结构示意图。

具体实施方式

为了对本申请的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本申请的具体实施方式。

本申请的实施例提供了一种多模态数据的智能卷积通用网络预测方法、设备及介质。

请参考图1，图1是本申请实施例中一种多模态数据的智能卷积通用网络预测方法的步骤图，具体包括如下步骤：

S3：改进所述通用网络模型的卷积公式；

所述通用网络模型改进后的卷积公式如下：

S4：通过所述训练样本，训练所述通用网络模型；

设置不同的迭代训练周期；

具体的，交叉熵损失函数可以捕捉不同模型之间的预测效果的差异，交叉熵对比了模型的预测结果和数据的真实标签，随着预测越来越准确，交叉熵的值越来越小，如果预测结果完全正确，交叉熵的值就为0。因此训练分类模型时，使用交叉熵作为损失函数，如下：

loss_fn＝nn.CrossEntropyLoss()。

由上述理论而得，熵增意味着活跃，意味着普适性和泛化能力，边缘计算主要考虑普适和泛化，因此应该考虑尽量在满足熵增的情况下保证结果正确。

具体的，通用网络模型改进后的卷积公式适用的约束条件为：输入数据为方阵，即W与H相等，W表示卷积特征图的宽，H表示卷积特征图的高、卷积核尺寸大小为3*3、填充P为1以及卷积步长S为2。

步骤S1包括：

所述多模态数据包括：视频数据以及音频数据；

步骤S2包括：

S21：通过Adam优化器优化通用网络模型的数据；

S22：使用交叉熵损失函数作为通用网络模型的损失函数。

具体的，采用最大池化层理由如下：池化层操作是一个亚采样过程，减少卷积层输出的特征量数目的作用，获取有效特征以提高效率，保证对话的高效性，减少延迟；采用最大池化层，以确保细粒度，保留模板内信息的最大值，提取纹理特征保留更多的局部细节。

具体的，使用Relu激活函数，优势如下：防止梯度消失问题；细粒度及稀疏性好；计算简单；符合仿生激活机制。通过Relu激活函数调节通用网络模型的收敛速度和精确度。

具体的，优化器使用Adam优化器，原理为计算梯度的指数移动平均数，函数曲线平滑，容易达成目标，Adam框架参数打印如下：

所述通用网络模型的结构由两层组成，包括：cov1层以及cov2层；

Cov1层的最大池化层连接Cov2层的二维卷积层；

步骤S4还包括：

可选的，所述最优结构参数如下：

步骤S5包括：

采用Pytorch深度学习框架实现所述通用网络模型；

具体的，现有的深度学习框架pytorch可以处理多模态数据以及融合问题；Pytorch可以使用GPU加速tensor计算(比如：numpy的使用)以及可以构建带有autograd的深度神经网络，可以有效实现带自动化梯度的框架模型，是实现过程中的一个重要环节，在实验过程中pytorch非常适用于边缘智能领域。使用pytorch是看重它的轻量级，方便边缘安装使用，在众多深度学习网络框架中筛选出pytorch框架为最合适的一个框架。

通用网络模型的结构，有如下优势：防止梯度消失问题、细粒度及稀疏性好、计算简单以及符合仿生激活机制。Relu激活函数应用于本框架能达成收敛速度和精确度的均衡。优化器使用Adam优化器，计算梯度的指数移动平均数，函数曲线平滑，容易达成目标。

具体的，边缘计算的数据保真和有效性还有实时性，传感器属于边缘机器，传感器在采集图像数据时需要多角度收集，以确保位置的准确，大尺度的数据需要降维处理，并且存在负载，因此将网络模型改进成轻量型可以方便服务。

在本申请中，采用多模态数据集为MNIST手写识别数据集，包含训练样本和测试样本，样本数据量为6000。MNIST手写数据集每张图像大小是28px*28px。基于MNIST手写识别数据集改进的通用网络模型的卷积公式，得到适用于图片类型的模态数据的通用网络模型的框架代码如下：

针对本申请改进的通用网络模型，提出熵值验证本申请的技术效果；

验证方式如下：

在本申请的表格中Epoch＝1表示将整个训练样本数据集完整地训练一次通用网络模型的过程。

表1

如表1所示，Epoch默认为1表示设置迭代训练周期为1次。Epoch＝1表示第一次迭代训练，loss表示多模态数据的损失后的熵值，表1所示的熵值在0.8以上，熵值较高。Accuracy表示多模态数据的识别的准确率，Accuracy最大为1，即准确率为100％。

Epoch默认值为5	Epoch＝1	Loss	accuracy
				01	1	1.1750	0.6345
02	1	1.0489	0.63
				03	1	0.7349	0.621
04	1	1.0698	0.627
				05	1	0.8699	0.6325
06	1	0.9979	0.6415
				07	1	0.9797	0.6465
08	1	0.8236	0.654
				09	1	1.2894	0.65
010	1	1.3474	0.6495

表2-1

Epoch默认值为5	Epoch＝2	Loss	accuracy
				01	2	0.8159	0.664
02	2	0.7000	0.668
				03	2	1.3423	0.6695
04	2	0.6110	0.67
				05	2	0.8245	0.6675
06	2	0.9376	0.663
				07	2	0.9142	0.668
08	2	0.9878	0.6695
				09	2	1.2368	0.6735
010	2	1.2396	0.6685

表2-2

表2-3

Epoch默认值为5	Epoch＝4	Loss	accuracy
				01	4	0.7280	0.657
02	4	0.9478	0.6605
				03	4	1.0869	0.6645
04	4	0.7412	0.672
				05	4	0.7615	0.6755
06	4	1.1362	0.679
				07	4	0.8063	0.68
08	4	0.8819	0.676
				09	4	0.9873	0.6775
010	4	0.8329	0.675

表2-4

表2-5

如表2-1、表2-2、表2-3、表2-4、表2-5所示，Epoch默认为5表示设置迭代训练周期为5次。Epoch＝1表示第一次迭代训练，Epoch＝2表示第二次迭代训练，Epoch＝3表示第三次迭代训练，Epoch＝4表示第四次迭代训练，Epoch＝5表示第五次迭代训练。

上述表格中的数据表明，在多模态数据的损失后的熵值较高的情况下，本申请改进的通用网络模型识别多模态数据的准确率依然维持在60％以上；远远高于常规的模型在熵值较大情况下，对多模态数据识别的准确率。

针对本申请的表格数据表明的技术效果，本申请提出了2个对比实验进行验证，如下：

对比实验一：

通过生成器和判别器组成的生成对抗模型，通过生成对抗模型生成逼真的图像、音频等数据。

生成对抗模型的判别网络代码，如下：

/>

生成对抗模型的生成网络代码，如下：

上述代码表明生成对抗模型使用线性层和激活层较多。生成对抗模型的实验数据如下：

/>

表3

如表3所示，Epoch默认为1表示设置迭代训练周期为1次。Epoch＝1表示第一次迭代训练，iter表示多模态数据的训练样本的数量，D是对抗器，添加噪音；G是生成器，输出预测值。

/>

表4

如表4所示，Epoch默认为1表示设置迭代训练周期为1次。

在进行迭代训练时，向模型添加iter，即多模态数据的训练样本的数量，每进行一次数据的添加，都需要通过对抗器给数据添加噪音，人为设置噪音大小。生成器的输出预测值越大，说明模型输出的准确性越高。从上述表格数据表明，验证过程中预测数据有轻微扰动，说明模型的效果较差。

对比实验二：

多层感知机模型：由多个全连接层组成的前馈神经网络，适用于各种分类和回归任务。基于keras搭建通用网络模型方法是对Sequential类使用model.add()添加层对象。多层感知机模型的实验数据表格如下：

Epoch＝10	Step	loss
			10	100	0.0076
10	200	0.0015
			10	300	0.0178
10	400	0.0037
			10	500	0.0006
10	600	0.0376

表5

如表5所示，多层感知机模型的熵值小，损失率极其低，精确率相当高，适用于特定任务，对单一类型的数据处理较为精准。不适用于处理多模态数据。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置和方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还公开一种电子设备。参照图7，图7是本申请实施例的公开的一种电子设备的结构示意图。该电子设备500可以包括：至少一个处理器501，至少一个网络接口504，用户接口503，存储器505，至少一个通信总线502。

其中，通信总线502用于实现这些组件之间的连接通信。

其中，用户接口503可以包括显示屏(Display)、摄像头(Camera)，可选用户接口503还可以包括标准的有线接口、无线接口。

其中，网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器501可以包括一个或者多个处理核心。处理器501利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器505内的指令、程序、代码集或指令集，以及调用存储在存储器505内的数据，执行服务器的各种功能和处理数据。可选的，处理器501可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器501中，单独通过一块芯片进行实现。

其中，存储器505可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。

可选的，该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器505可选的还包括但不限于至少一个位于远离前述处理器501的存储装置。参照图7，作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及一种多模态数据的智能卷积通用网络预测方法的应用程序。

在图7所示的电子设备500中，用户接口503主要用于为用户提供输入的接口，获取用户输入的数据；而处理器501可以用于调用存储器505中存储一种多模态数据的智能卷积通用网络预测方法的应用程序，当由一个或多个处理器501执行时，使得电子设备500执行如上述实施例中一个或多个的方法。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几种实施方式中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接包括但不限于通过一些服务接口，装置或单元的间接耦合或通信连接，包括但不限于电性或其他的形式。

作为分离部件说明的单元包括但不限于或者也可以不是物理上分开的，作为单元显示的部件包括但不限于或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也包括但不限于各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的商品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件商品的形式体现出来，该计算机软件商品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后，将容易想到本公开的其他实施方案。

本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。

Claims

1.一种多模态数据的智能卷积通用网络预测方法，其特征在于，方法包括以下步骤：

S3：改进所述通用网络模型的卷积公式；

所述通用网络模型改进后的卷积公式如下：

S4：通过所述训练样本，训练所述通用网络模型；

2.如权利要求1的一种多模态数据的智能卷积通用网络预测方法，其特征在于，步骤S1包括：

所述多模态数据包括：视频数据以及音频数据；

3.如权利要求1的一种多模态数据的智能卷积通用网络预测方法，其特征在于，步骤S2包括：

S21：通过Adam优化器优化通用网络模型的数据；

S22：使用交叉熵损失函数作为通用网络模型的损失函数。

4.如权利要求1的一种多模态数据的智能卷积通用网络预测方法，其特征在于，所述通用网络模型的结构由两层组成，包括：cov1层以及cov2层；

Cov1层的最大池化层连接Cov2层的二维卷积层；

5.如权利要求1的一种多模态数据的智能卷积通用网络预测方法，其特征在于，步骤S4还包括：

设置不同的迭代训练周期；

6.如权利要求5的一种多模态数据的智能卷积通用网络预测方法，其特征在于，所述最优结构参数如下：

7.如权利要求1的一种多模态数据的智能卷积通用网络预测方法，其特征在于，步骤S5包括：

采用Pytorch深度学习框架实现所述通用网络模型；

8.一种电子设备，其特征在于，包括处理器(501)、存储器(505)、用户接口(503)及网络接口(504)，所述存储器(505)用于存储指令，所述用户接口(503)和网络接口(504)用于给其他设备通信，所述处理器(501)用于执行所述存储器(505)中存储的指令，以使所述电子设备(500)执行如权利要求1-7任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被执行时，执行如权利要求1-7任意一项所述的方法步骤。