CN113792860A

CN113792860A - 基于常微分方程的gru网络模型及特征提取方法、装置

Info

Publication number: CN113792860A
Application number: CN202111080690.2A
Authority: CN
Inventors: 宗兆文; 黄军建; 蒋仁庆; 钟鑫; 杜文琼; 贾益君; 周小林; 杨昊洋
Original assignee: Second Affiliated Hospital Army Medical University
Current assignee: Second Affiliated Hospital Army Medical University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Also published as: ZA202210148B; JP2023043188A

Abstract

本发明公开了一种基于常微分方程的GRU网络模型及特征提取方法、装置，该GRU网络模型包括至少一个门控循环单元，所述至少一个门控循环单元中的每个门控循环单元均包括候选隐藏层，所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。该GRU网络模型在训练过程中不需要耗费大量的空间来存储中间结果，减小存储空间，提高内存效率。

Description

基于常微分方程的GRU网络模型及特征提取方法、装置

技术领域

本发明涉及深度学习技术领域，具体涉及一种基于常微分方程的GRU网络模型及特征提取方法、装置。

背景技术

近几年深度学习发展迅猛，更是由于前段时间的谷歌的AlphaGo而轰动一时，国内也开始迎来这一技术的研究热潮。深度学习目前还处于发展阶段，研究人员已将深度学习应用到相关图像处理及其计算机视觉领域中，深度学习算法在众多有监督学习问题上取得了卓越的成果，其在精度、效率和智能化等方面的性能远超传统机器学习算法，部分甚至超越了人类水平。当前，深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。自2006年以来，深度学习在学术界持续升温，美国、加拿大、欧洲相继成为此领域的科研重镇。2013年，欧洲委员会发起模仿人脑的超级计算机项目，计划历时10年投入16亿美元，由全球80个机构的超过200名研究人员共同参与，希望在理解人脑工作方式上取得重大进展，并推动更多能力强大的新型计算机的研发。

目前的多层神经网络，譬如，GRU网络模型，其是有多个重复的门控循环单元串联而成。门控循环单元(Gated Recurrent Units，GRU)是循环神经网络RNN中的一种门控机制，与其他门控机制相似，其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。GRU网络模型中的每个门控循环单元都有序的保留了一定的信息，并在训练过程中得到优化。

神经网络本质主要是在拟合一个复杂的复合函数，复合的次数就是神经网络的层数，要找到参数的梯度，很容易就想到链式法则，然而，在前向传播时需要保留所有层的激活值，并在反向传播时利用这些激活值，这对内存的占用非常大，对深度模型的训练过程来说是一个很大的瓶颈。

发明内容

本发明为了解决上述技术问题提供一种基于常微分方程的GRU网络模型及特征提取方法、装置，训练过程中不需要耗费大量的空间来存储中间结果，减小存储空间，提高内存效率。

本发明通过下述技术方案实现：

本发明第一方面提供一种基于常微分方程的GRU网络模型，包括至少一个门控循环单元，所述至少一个门控循环单元中的每个门控循环单元均包括候选隐藏层，所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。

本发明第一方面对候选隐藏层做了改进，即候选隐藏层采用常微分方程，将深度学习的GRU网络模型和常微分方程结合在一起，将隐藏状态的导数作为参数，参数则不是一系列离散值，而是一个连续的空间，因此并不需要依次传递到前向传播中的每一个函数进行评估，从而不用耗费大量空间来存储中间结果，大大减少存储空间，提高了内存效率。参数效率高，通过求解常微分方程，隐藏层动态被参数化为时间的连续函数时，附近“网络层”的参数自动连接在一起，从而减少了监督学习任务所需的参数数量。

在一种可能的设计中，所述候选隐藏层采用欧拉方法Euler或者龙格-库塔方法Runge-Kutta对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。

本发明第二方面提供一种特征提取方法，包括以下步骤：

获取至少一张图像，所述至少一张图像中的每张图像均包括至少一个待识别目标；

对所述至少一张图像中的每张图像进行卷积、池化后输入已训练完成的GRU网络模型中对所述至少一个待识别目标中的每个待识别目标进行特征提取，所述GRU网络模型为第一方面及其任一种可能中所述的一种基于常微分方程的GRU网络模型。

本发明第二方面公开了第一方面中GRU网络模型的应用，通过对具有待识别目标的图像卷积池化后，采用GRU网络模型实现待识别目标的特征提取，减小GRU网络模型在训练过程中对内存占用。

在一种可能的设计中，所述获取至少一张图像之后还包括：对所述至少一张图像中的每张图像进行预处理的步骤。

在一种可能的设计中，所述对所述至少一张图像中的每张图像进行预处理的步骤包括：

利用双边滤波算法对所述至少一张图像中的每张图像的空洞进行填空。

本方案采用双边滤波算法对每张图像的空洞进行填空，这样预处理得到的图像更清晰，特征提取更加准确，提高了识别率，进一步的提高特征提取的准确性。

在一种可能的设计中，所述图像为RGB-D图像。

现有的特征提取一般基于二维的RGB图像，本方案优选的采用RGB-D图像，其为深度图像，其对光照强度变化不受颜色和纹理变化的影响，可靠的应用于特征提取，并提供丰富的3D场景的结构信息。

在一种可能的设计中，采用卷积神经网络对所述至少一张图像中的每张图像进行卷积、池化。

本发明第三方面公开了一种特征提取装置，包括依次通信连接的存储器和控制器，所述存储器上存储有计算机程序，所述控制器用于读取所述计算机程序，执行第二方面及其任一种可能中所述的一种特征提取方法。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行第二方面及其任一种可能中所述的一种特征提取方法。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明GRU网络模型的候选隐藏层采用常微分方程，将隐藏状态的导数作为参数，参数由现有的离散值变为连续值，在训练时，不需要依次传递到前向传播中的每一个函数进行评估，从而不用耗费大量空间来存储中间结果，大大减少存储空间，提高了内存效率。

2、本发明的特征提取方法基于上述的常微分-GRU网络模型实现待识别目标的特征提取，减小GRU网络模型在训练过程中对内存占用。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1为门控循环单元的架构图。

图2为本发明特征提取方法的流程图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

本发明第一方面公开一种基于常微分方程的GRU网络模型，包括至少一个门控循环单元，门控循环单元有多个时，多个门控循环单元相串联。

门控循环单元包括重置门r_t、更新门z_t和候选隐藏层

重置门r_t、更新门z_t和候选隐藏层

的连接为现有技术，参照图1即可，在此不再赘述,重置门r_t、更新门z_t和候选隐藏层

都使用前一时刻的状态信息h_t-1和原始数据作为输入。在本方案中每个门控循环单元的候选隐藏层

基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。

门控循环单元采用与现有GRU相似的结构，隐藏状态利用观测值之间的隐藏状态函数导数来计算的，该GRU网络模型是连续的，通过求解常微分方程，可以得到所需的隐藏状态序列，在每次评估过程中，从初始状态h₀开始求解方程。

本GRU网络模型主要是利用常微分方程来计算门控循环单元的输出ht，具体的，常微分方程可采用欧拉方法Euler或者龙格-库塔方法Runge-Kutta。模型通过函数odeRNNCell来计算时间t时刻隐藏动态的变化或导数，如下面式子所示，odeRNNCell是一个常见的初始值问题，这依赖于初始观察值y₀和隐藏状态h₀在t₀时刻的值。

y_t＝ODESOLVER(odeRNNCell,tuple(y₀,h₀),t).

其中，ODESOLVER是常微分求解器，odeRUNCell是常微分递归神经元函数,

重置门r_t、更新门z_t、候选隐藏层h_t和输出门o_t的更新函数分别为：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

z_t＝σ(W_zx_t+U_zh_t-1+b_r)

o_t＝σ(W_oh_t+b₀)

其中，t是时间序列，W_r为重置门中当前输入的连接权重，U_r为重置门中前一层的连接权重，W_z为更新门中当前输入的连接权重，U_z为更新门中前一层的连接权重，W_o为输出的连接权重，b_r为重置门的偏差参数，b_o为输出的偏差参数。

其方法如下：

先将初始值和隐藏层的初始值带入到x、h中，

x←states[0]

h←states[1]；

通过上述更新函数求导更新GRU网络模型的参数，

根据GRU网络模型的架构求解对应的ht的梯度，

o_t←σ(W_oh_t+b_o)

可通过这个梯度值用来验证我们神经网络计算值的代码是否正确，层数比较多的神经网络模型在训练的时候会出现梯度消失和梯度爆炸问题，从而造成整个网络无法进行正常。采用梯度值进行验证，进一步的提高神经网络构建的准确性。

本发明第一方面提供的GRU网络模型，其基于常微分方程，将隐藏状态的导数作为参数，将现有离散型转变为一个连续的空间，在训练过程中不需要依次传递到前向传播中的每一个函数进行评估，从而不用耗费大量空间来存储中间结果了，大大减少存储空间，提高了内存效率。且在评估或训练过程中，通过显式地改变数值积分的精度，可以自由地调节模型的速度和精度，比如可以花更多的时间去训练一个高精度的模型，而在评估预测时降低精度以提高系统的响应速度。

本发明第二方面提供一种特征提取方法，该特征提取方法可以应用于电子设备，也可是单独的应用程序，示例性的，该电子设备可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。该特征提取方法可应用在多种领域，譬如，人脸识别、伤口类型识别、鸟类识别、植物类型识别等等，具体在此不再举例。具体的，如图2所示，该特征提取包括步骤S01～步骤S04。

步骤S01、获取至少一张图像，所述至少一张图像中的每张图像均包括至少一个待识别目标。

该图像可以是实时获取的图像，也可以是存储在云端的图像或者本地存储的图像，在此不做限制。图像的获取方式可以基于普通相机、摄影机或者RGB-D相机，优选的，采用RGB-D相机获取RGB-D图像，其即包括RGB图像和深度图像，RGB-D相机的Azure Kinect DK来捕获具有待识别目标的深度图像，Azure Kinect DK搭载100万像素高级深度摄像头、360°麦克风阵列，1200万像素全高清摄像头和方向传感器，适用于先进的计算机视觉和语音模型开发。此步骤中，若是实现伤口类型识别，则图像中要具有待识别的伤口；若是实现人脸识别，则图像中要具有待识别的人脸；其他应用则同理需要包含对应的待识别目标。

步骤S02、对所述至少一张图像中的每张图像进行预处理。

具体的，本方案的预处理方式为：利用双边滤波算法对所述至少一张图像中每张图像的空洞进行填空，从而去除噪点，以使深度图像更清晰。双边滤波由两个高斯核函数组成，它将深度图像的空间域信息和灰度域信息进行非线性组合，克服了高斯滤波的弊端，在深度修复过程中考虑到图像边缘信息，使图像边缘较高斯滤波清晰，也更加平滑。

双边滤波定义为：

ω＝ω_s×ω_r，

其中，ω_s表示空间域滤波核，(i，j)表示当前点的位置，(m，n)表示滤波核的中间位置，σ_s表示为空间域的标准差；

ω_r表示像素域滤波核，f(i，j)表示当前遍历点的灰度值，f(m，n)表示滤波核中间位置的灰度值，σ_r表示像素域的标准差；

β表示遍历卷积核后ω_s与ω_r乘积之和。

w表示滤波核。F(m，n)表示滤波核的中心点的灰度值。Ω表示图像的空间，i、j属于Ω，表明是图像中的点，i表示遍历点的横坐标，j表示遍历点的纵坐标。m表示滤波核的中心点的横坐标，n表示滤波核的中心点的纵坐标。

步骤S03、对所述至少一张图像中的每张图像进行卷积、池化。通过卷积可以将输出图像中更亮的像素表示伤情图像中存在的边缘，从而得伤情图像的边缘信息。通过池化，使网络的鲁棒性增强了，有一定抗扰动的作用。具体的，可采用卷积神经网络对所述至少一张图像中的每张图像进行卷积、池化。

步骤S04、将卷积、池化后的图像输入已训练完成的GRU网络模型中对所述至少一个待识别目标中的每个待识别目标进行特征提取，所述GRU网络模型为第一方面及其任一种可能中所述的一种基于常微分方程的GRU网络模型。

该步骤的GRU网络模型需要是事先训练完成的，根据待识别目标的不同，其训练集不同。

通过提取的特征，可进一步的实现待识别目标的分类和识别，以进一步的驱动后端的智能设备，譬如，在人脸识别时，智能设备可以的门禁设备、付款终端或其他；应用在伤口类型识别时，可识别出刀伤、擦伤等类型。

本发明第二方面的特征提取方法，其基于第一方面中的GRU网络模型，其将隐藏状态参数化为时间的连续函数，附近“网络层”的参数自动连接在一起，减少了监督学习任务所需的参数数量，节省网络的训练时间，保证了模型的稳定性；整个方法基于RGB-D图像，其综合利用彩色和深度信息，采用多数据模式的特征提取策略，进行RGB-D物体识别，

本发明第三方面公开了一种特征提取装置，包括依次通信连接的存储器和控制器，所述存储器上存储有计算机程序，所述控制器用于读取所述计算机程序，执行第二方面及其任一种可能中所述的一种特征提取方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和或先进后出存储器(First Input Last Output，FILO)等等；所述控制器可以不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源单元、显示屏和其它必要的部件。

本发明第三方面公开的一种特征提取装置，其运行原理与第二方面相同，在此不再赘述。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行第二方面及其任一种可能中所述的一种特征提取方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于常微分方程的GRU网络模型，其特征在于，包括至少一个GRU层，所述至少一个GRU层中的每个GRU层均包括候选隐藏层，所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。

2.根据权利要求1所述的一种基于常微分方程的GRU网络模型，其特征在于，所述候选隐藏层采用欧拉方法Euler或者龙格-库塔方法Runge-Kutta对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。

3.一种特征提取方法，其特征在于，包括以下步骤：

获取至少一张图像，所述至少一张图像中的每张图像均包括至少一个待识别目标；对所述至少一张图像中的每张图像进行卷积、池化后输入已训练完成的GRU网络模型中对所述至少一个待识别目标中的每个待识别目标进行特征提取，所述GRU网络模型为权利要求1或2任一所述的一种基于常微分方程的GRU网络模型。

4.根据权利要求3所述的一种特征提取方法，其特征在于，所述获取至少一张图像之后还包括：对所述至少一张图像中的每张图像进行预处理的步骤。

5.根据权利要求4所述的一种特征提取方法，其特征在于，所述对所述至少一张图像中的每张图像进行预处理的步骤包括：利用双边滤波算法对所述至少一张图像中每张图像的空洞进行填空。

6.根据权利要求3所述的一种特征提取方法，其特征在于，所述图像为RGB-D图像。

7.根据权利要求3所述的一种特征提取方法，其特征在于，采用卷积神经网络对所述至少一张图像中的每张图像进行卷积、池化。

8.一种特征提取装置，包括依次通信连接的存储器和控制器，所述存储器上存储有计算机程序，其特征在于：所述控制器用于读取所述计算机程序，执行权利要求3-7任一所述的一种特征提取方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于：当所述指令在计算机上运行时，执行权利要求3-7任一所述的一种特征提取方法。