CN105809200B

CN105809200B - 一种生物启发式自主抽取图像语义信息的方法及装置

Info

Publication number: CN105809200B
Application number: CN201610140993.1A
Authority: CN
Inventors: 尹沛劼; 钟汕林; 亓鲁; 吴伟; 乔红; 李寅琳; 席铉洋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2020-05-15
Anticipated expiration: 2036-03-11
Also published as: CN105809200A

Abstract

本发明公开了一种生物启发式自主抽取图像语义信息的方法及装置，该方法包括以下步骤：将带标签的图像数据集作为训练样本，用于训练卷积神经网络；对训练网络的权重参数进行聚类，并依据聚类结果对权重参数进行聚合；聚合后的权重参数作为卷积神经网络的新参数，可用新的网络提取图像的语义信息特征，并依据该特征对图像进行识别分类。本发明给出了语义的网络化表示方法，并利用网络结构实现了对语义信息的自主学习和提取，在不影响模型效果的情况下，显著降低了特征维度，同时增强了模型的解释能力。

Description

一种生物启发式自主抽取图像语义信息的方法及装置

技术领域

本发明属于模式识别和机器学习领域，涉及一种图像识别方法，尤其是一种生物启发式自主抽取图像语义信息的方法。

背景技术

近年来，人工神经网络在计算机视觉领域取得了巨大成功，尤其是2006年提出的深度学习神经网络，在图像处理、语音识别和自然语言理解等多个人工智能领域均取得了显著的成绩，引起了学术界和工业界的广泛关注。

尽管如此，与生物神经网络相比，人工神经网络在鲁棒性和泛化能力等方面还存在较大的缺陷。例如，现有的深度学习神经网络在进行图像分类任务时，需要大量的训练数据调整网络参数，计算量大，计算时间长，对硬件要求也比较高；当待分类对象由于受到噪声干扰，或分类对象之间具有相似结构而造成图像语义模糊时，神经网络的分类准确率会受到严重影响；此外，对现有的深度学习神经网络输出结果难以进行明确的解释，极大地限制了模型的学习与使用。

随着神经科学的不断发展，研究人员发现，人类的视觉神经网络具有很强的抽象能力和鲁棒性。人类的视觉神经网络除了对视网膜上的情境信息进行记忆、识别外，还可以进一步提取图像中包含的语义信息。图像的语义特征是其结构信息的核心特点，它能在复杂的条件下保持不变，从而保证了在不同的环境、视角和姿态下对物体结构的精确识别，提高了视觉神经网络的抗干扰能力和鲁棒性。

将人类的视觉神经机制引入现有的人工神经网络模型，使网络结构能实现对语义信息的自主学习和提取，能够在保证识别精度的同时，显著降低特征维度，同时增强模型的解释能力。

发明内容

本发明的目的在于提出一种生物启发式自主抽取图像语义信息的图像识别方法。该方法在现有的生物启发式神经网络计算模型基础上，引入人类视觉神经处理机制，构建一种可以自主抽取图像语义信息的图像识别模型，从而大幅降低图像的特征维度，增强了模型的解释能力与识别速度，在图像识别尤其是具有模糊语义的图像识别方面具有更强的鲁棒性。

根据本发明一方面，提出了一种生物启发式自主抽取图像语义信息的图像识别方法，包括以下步骤：

步骤S1：将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型；

步骤S2：利用所述训练样本训练深度置信卷积神经网络，得到新的网络权重参数W；

步骤S3：对所述网络权重参数W进行聚类，提取语义特征；

步骤S4：根据聚类结果，对每个类别中的权重进行聚合；

步骤S5：将聚合后的权重作为新的网络参数构建新的深度置信卷积神经网络，新的深度置信卷积神经网络用于提取待识别图像的语义特征，并根据语义特征对所述待识别图像进行分类。

根据本发明另一方面，提出了一种生物启发式自主抽取图像语义信息的装置，该装置包括：

输入模块，用于将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型；

网络训练模块，用于利用所述训练样本训练深度置信卷积神经网络，得到新的网络权重参数W；

聚类模块，用于对所述网络权重参数W进行聚类，提取语义特征；

权重聚类模块，用于根据聚类结果，对每个类别中的权重进行聚合；

识别模块，用于将聚合后的权重作为新的网络参数构建新的深度置信卷积神经网络，新的深度置信卷积神经网络用于提取待识别图像的语义特征，并根据语义特征对所述待识别图像进行分类。

本发明给出了语义的网络化表示方法，并利用网络结构实现了对语义信息的自主学习和提取，在不影响模型效果的情况下，显著降低了特征维度，同时增强了模型的解释能力。

附图说明

图1是本发明训练生物启发式自主抽取图像语义信息模型的程序流程图；

图2是本发明中深度置信卷积神经网络CDBN网络结构示意图；

图3是本发明中条件受限玻尔兹曼机CRBM的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的目的在于提出一种生物启发式自主抽取图像语义信息的图像识别方法。该方法在现有的生物启发式神经网络计算模型基础上，引入人类视觉神经处理机制，构建一种可以自主抽取图像语义信息的图像识别模型，从而大幅降低图像的特征维度，增强了模型的解释能力与识别速度，在图像识别尤其是具有模糊语义的图像识别方面具有更强的鲁棒性。以下详细说明本发明方法所涉及的关键步骤。

请参阅图1示出的本发明生物启发式自主抽取图像语义信息的图像识别方法，所述方法包括以下步骤：

步骤S1：将带标签的图像数据集作为训练样本，从图形输入层输入模型；其中，所述标签用于标识所述训练样本的图像类别；

步骤S2：利用训练样本训练深度置信卷积神经网络(CDBN)，得到网络权重参数W；

请参阅图2所示CDBN的结构，所述CDBN是由两个条件受限玻尔兹曼机连接而成，其中第一个条件受限玻尔兹曼机(CRBMa)的输出是第二个条件受限玻尔兹曼机(CRBMb)的输入。其中第一个条件受限玻尔兹曼机(CRBMa)包括三层，分别为可视层V，隐藏层H⁽¹⁾，池化层P^(1)’，第二个条件受限玻尔兹曼机(CRBMb)包括两层，分别为池化层P⁽¹⁾，隐藏层H⁽²⁾，构成的CDBN共包含五层网络，分别为可视层V，隐藏层H⁽¹⁾，池化层P⁽¹⁾，隐藏层H⁽²⁾，池化层P⁽²⁾。图2所示可视层V只绘制了单个通道的图像，即对应一幅灰度图像，在实际应用时，可视层可以为多通道图像，例如三通道彩色图像；可视层依据计算需要，划分为多个可视层单元v_i，j。隐藏层H⁽¹⁾包含K₁个特征图H^k，每个特征图对应一个语义特征，特征图H^k划分为多个隐层单元h^k _i，j；隐藏层H⁽¹⁾的每个特征图对应池化层P⁽¹⁾的一个特征图。隐藏层H⁽²⁾和池化层P⁽²⁾同理。

下面以CRBMa为例，说明CDBN网络的构建方法。

请参阅图3所示CRBMa的结构，所述CRBMa包含三层网络，分别是可视层V，隐藏层H，池化层P。v_i，j和h_i，j分别为可视层单元和隐层单元；n_v和n_h分别为V和H的宽度，其中n_h由公式n_h＝n_v-n_w+1计算得到，n_w表示可视层单元的宽度；H有多个特征图H^k(k＝1，2，...，K，K表示特征图的数量)，通过W^K与可视层V连接，其中W^K为连接隐层单元和可视层单元的局部共享权值；池化层P与隐藏层H间采用最大值下采样，有多个特征图P^k(k＝1，2，...，K)，特征图宽度n_p由公式n_p＝n_h/c计算得到，其中c为池化窗口的宽度，池化层单元p_α ^k由隐层H^k取c×c矩阵进行最大池化计算后得到；将隐藏层H^k分割成c×c大小的矩阵块，记矩阵块集合为B_α，则池化层特征图P^k由隐层特征图H^k的各矩阵块经最大池化计算后得到。

对于输入图像V和隐层特征图H^K，一对可能的状态量(v，h)由能量函数E(v，h)计算得到，能量函数的最小值点处对应网络的各个参数值即为网络的最优解。E(v，h)定义如下：

式中，

表示可视层单元在某一状态下的数值，

表示隐藏层单元在某一状态下的数值，

是W^k经过180°旋转得到的矩阵，b_k是隐层单元H^k的偏置项，a是可视层单元的偏置项，

满足以下条件：

CRBM利用差异对比算法(CD)进行训练，例如Hinton于2002年提出的对比散度学习。

第二层CRBM的构造方法与上述步骤相同。本发明通过连接两个CRBM，将CRBMa的输出作为CRBMb的输入，构造CDBN网络。

步骤S3：利用K-means方法对卷积神经网络权重参数进行聚类，提取语义特征；

初级语义层模仿人的语义记忆机制，人工神经网络中嵌入语义信息表示层。在本发明中，语义特征的数学定义为：

给定集合{W_i}(i＝1，2，...，N，N为表示网络权重参数的数量)，W_i是第i个网络节点间的连接权重，在{W_i}中找出K个聚集点，使得这K个点能近似地表示集合{W_i}的分布，并且属于同一点的权重类别尽可能相似，属于不同点的权重类别尽可能相异。将这K个点定义为S_j(j＝1，2，...，K)，则S_j为{W_i}层面的一个语义。

在本实施例中，提取语义特征的具体步骤如下：

步骤S31：初始化聚类中心m₁ ⁽¹⁾，...，m_K ⁽¹⁾；

步骤S32：将重构特征集合{W_i}分配到相近的聚类簇，每个样本W_i只属于一个聚类簇S_j，分配的依据为：

步骤S33：根据步骤S32的分配结果，更新聚类中心：

式中，|S_j ^(t)|表示聚类簇S_j ^(t)中的元素个数。

步骤S34：迭代步骤S32和步骤S33，直到满足条件：

式中，ε为设定阈值，t为当前迭代次数。

步骤S4：根据聚类结果，利用取平均的方法，对每个类别中的权重进行聚合，计算原理如下：

式中，

表示聚合后的网络权重参数，n表示簇S_j中的元素个数。

步骤S5：将聚合后的权重作为CDBN网络的新参数。更新后的网络参数个数不大于原网络的参数个数，相应地，CDBN网络的大小也将依据新的网络参数进行调整。例如，聚合前，某两层网络间连接权重集合为{W_k′}，k′是后层网络节点数；聚合后，权重集合更新为{W_k}，权重个数为k，则后层网络节点数相应地更新为k。

将新的网络用于提取原始图像的语义特征，并将提取得到的语义特征作为分类器的输入，从而实现对原始图像的分类。分类器可根据需要从已公知的分类器中进行选择。

为了详细说明本发明的具体实施方式，接下来以MNIST手写数字图像数据集为例，对本发明方法进行进一步的说明。所述图像数据集包含数字0～9共10类，随机取1000张图像作为训练样本，另随机取10000张图像作为测试集。在使用本发明方法对图像进行识别时，按照以下步骤进行：

步骤S1：将所述带标签的1000张训练样本从图形输入层输入模型；

步骤S2：按图2所示构建CDBN网络，利用训练样本训练CDBN网络权重参数W；

步骤S3：利用K-means方法对网络权重参数W进行聚类，共聚为k类，聚类中心为S_j(j＝1，...，k)；

步骤S4：根据聚类结果对权重进行聚合，得到新的网络权重参数

步骤S5：聚合后的网络权重参数

作为CDBN网络的参数，得到用于提取图形语义特征的CDBN网络。将所述10000张图像测试集从图形输入层输入CDBN网络，即可提取图形语义特征，并将该特征用于图形的识别分类。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生物启发式自主抽取图像语义信息的方法，其特征在于，该方法包括以下步骤：

步骤S3：对所述网络权重参数W进行聚类，提取语义特征；

步骤S4：根据聚类结果，对每个类别中的权重进行聚合；

步骤S5：将聚合后的权重作为新的网络参数构建新的深度置信卷积神经网络，新的深度置信卷积神经网络用于提取待识别图像的语义特征，并根据语义特征对所述待识别图像进行分类；

所述步骤S3中的聚类方法为K-means聚类方法；所述步骤S4中的权重聚合方法为平均法；

所述深度置信卷积神经网络由两个条件受限玻尔兹曼机连接而成，其中第一个条件受限玻尔兹曼机的输出是第二个条件受限玻尔兹曼机的输入；所述深度置信卷积神经网络共包含五层网络，分别为可视层V，隐藏层H⁽¹⁾，池化层P⁽¹⁾，隐藏层H⁽²⁾，池化层P⁽²⁾；

所述条件受限玻尔兹曼机利用差异对比法进行训练，其结构包含可视层V，隐藏层H，池化层P，n_w表示卷积核的宽度；v_i，j和h_i，j分别为可视层单元和隐层单元；H有多个特征图H^k，k＝1，2，...，K′，K′表示特征图的数量，通过W^k与可视层V连接，其中W^k为连接隐层单元和可视层单元的局部共享权值；池化层P与隐藏层H间采用最大值下采样，池化层P有多个特征图P^k，k＝1，2，...，K′，特征图宽度n_p由公式n_p＝n_h/c计算得到，其中c为池化窗口的宽度，池化层单元由特征图H^k取c×c矩阵进行最大池化计算后得到；将隐藏层H分割成c×c大小的矩阵块，记矩阵块集合为B_α，则池化层的特征图P^k由特征图H^k的各矩阵块经最大池化计算后得到，对于可视层V和特征图H^k，一对可能的状态量(v，h)由能量函数E(v，h)计算得到，E(v，h)定义如下：

式中，

表示可视层单元在某一状态下的数值，

表示隐层单元在某一状态下的数值，

是W^k经过180°旋转得到的矩阵，b_k是隐层单元h^k _i，j的偏置项，a是可视层单元的偏置项，n_v和n_h分别为可视层V和隐藏层H的宽度，h^k _i，j满足以下条件：

2.根据权利要求1所述的方法，其特征在于，所述步骤S3中的语义特征，其数学定义为：

给定集合{W_i}，W_i是根据第i个网络节点间的连接权重，在{W_i}中找出K个聚集点，使得这K个聚集点能够表示集合{W_i}的分布，并且属于同一点的权重类别相同，属于不同点的权重类别相异，将这K个聚集点点定义为聚类簇S_j，j＝1，2，...，K，则S_j为{W_i}层面的一个语义特征。

3.根据权利要求2所述的方法，其特征在于，所述K-means聚类方法的具体步骤为：

步骤S31：初始化聚类中心m₁ ⁽¹⁾，...，m_K ⁽¹⁾；

步骤S32：将集合{W_i}分配到相近的聚类集合，每个样本W_i只属于一个聚类簇S_i，分配的依据为：

步骤S33：根据步骤S32的分配结果，更新聚类中心：

式中，|S_j ^(t)|表示簇S_j ^(t)中的元素个数；

步骤S34：迭代步骤S32和步骤S33，直到满足条件：

式中，ε为设定阈值。

4.根据权利要求3所述的方法，其特征在于，所述平均法的计算原理为：

式中，

表示聚合后的网络权重参数，n表示聚类簇S_j中的元素个数。

5.一种生物启发式自主抽取图像语义信息的装置，其特征在于，该装置包括：

聚类模块，用于利用K-means聚类方法对所述网络权重参数W进行聚类，提取语义特征；

权重聚类模块，用于根据聚类结果，利用平均法对每个类别中的权重进行聚合；

识别模块，用于将聚合后的权重作为新的网络参数构建新的深度置信卷积神经网络，新的深度置信卷积神经网络用于提取待识别图像的语义特征，并根据语义特征对所述待识别图像进行分类；

所述条件受限玻尔兹曼机利用差异对比法进行训练，其结构包含可视层V，隐藏层H，池化层P，n_w表示卷积核的宽度；v_i，j和h_i，j分别为可视层单元和隐层单元；H有多个特征图H^k，k＝1，2，...，K′，K′表示特征图的数量，通过W^k与可视层V连接，其中W^k为连接隐层单元和可视层单元的局部共享权值；池化层P与隐藏层H间采用最大值下采样，池化层P有多个特征图P^k，k＝1，2，...，K，特征图宽度n_p由公式n_p＝n_h/c计算得到，其中c为池化窗口的宽度，池化层单元由特征图H^k取c×c矩阵进行最大池化计算后得到；将隐藏层H分割成c×c大小的矩阵块，记矩阵块集合为B_α，则池化层的特征图P^k由特征图H^k的各矩阵块经最大池化计算后得到，对于可视层V和特征图H^k，一对可能的状态量(v，h)由能量函数E(v，h)计算得到，E(v，h)定义如下：

其中，

表示可视层单元在某一状态下的数值，

表示隐层单元在某一状态下的数值，

6.根据权利要求5所述的装置，其特征在于，所述语义特征，其数学定义为：

给定集合{W_i}，W_i是根据第i个网络节点间的连接权重，在{W_i}中找出K个聚集点，使得这K个聚集点能够表示集合{W_i}的分布，并且属于同一点的权重类别相同，属于不同点的权重类别相异，将这K个聚集点定义为聚类簇S_j，j＝1，2，...，K，则S_j为{W_i}层面的一个语义特征。