CN105809201B

CN105809201B - 一种生物启发式自主提取图像语义概念的识别方法及装置

Info

Publication number: CN105809201B
Application number: CN201610141197.XA
Authority: CN
Inventors: 尹沛劼; 钟汕林; 亓鲁; 吴伟; 乔红; 李寅琳; 席铉洋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-03-11
Filing date: 2016-03-11
Publication date: 2019-07-05
Anticipated expiration: 2036-03-11
Also published as: CN105809201A

Abstract

本发明公开了一种生物启发式自主提取图像语义概念的识别方法及装置，该方法包括：将带标签的图像数据集作为训练样本，从图形输入层输入模型；利用深度置信卷积神经网络提取图像数据的特征；构造图像特征之间的结构关系，提取语义概念；利用样本图片提取的语义概念特征训练贝叶斯分类器；将测试图像输入训练好的识别模型进行识别分类。本发明在已有的生物启发式神经网络计算模型基础上，模仿人类视觉神经系统的处理机制，构建一种可以自主提取图像语义概念的图像识别模型，从而增强了模型的识别速度和解释能力，提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。

Description

一种生物启发式自主提取图像语义概念的识别方法及装置

技术领域

本发明属于模式识别和机器学习领域，涉及一种图像识别方法，尤其是一种生物启发式自主提取图像语义概念的识别方法。

背景技术

随着神经科学与信息科学的交叉逐渐走向深入，越来越多的生物机制被应用到信息学的模型中，极大的推动了生物启发式模型的发展。这些模型一方面在最新的神经学研究成果的启发下，在性能、效率等多个方面对信息学中的现有算法实现了突破，另一方面，通过信息学的建模，也使相应的神经机理从侧面得到了验证，从而帮助人类更深入地了解自身。

视觉领域是经科学与信息科学交叉研究的重点方向，事实上，正是对生物视网膜及视神经系统成像原理的研究成果为信息科学打开了视觉识别的大门[Harr，1969]。将人类的视觉神经机制引入现有的人工神经网络模型，使网络结构能实现对语义信息的自主学习和提取，并构建语义概念，能够在保证识别精度的同时，增强模型的解释能力和识别速度，提高图像识别的鲁棒性。

发明内容

本发明的目的在于提出一种生物启发式自主提取图像语义概念的识别方法。该方法在已有的生物启发式神经网络计算模型基础上，模仿人类视觉神经系统的处理机制，构建一种可以自主提取图像语义概念的图像识别模型，从而增强了模型的识别速度和解释能力，提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。

本发明所提出的一种生物启发式自主提取图像语义概念的识别方法包括以下步骤：

步骤1：将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型，所述图像识别模型包括深度置信卷积神经网络CDBN和贝叶斯分类器；

步骤2：利用CDBN提取训练样本的图像特征；

步骤3：构造图像特征之间的结构关系，并提取语义概念特征；

步骤4：利用从训练样本提取的语义概念特征训练贝叶斯分类器；

步骤5：将待识别图像输入至图像识别模型进行识别分类。

本发明还提供了一种生物启发式自主抽取语义信息与概念的图像识别装置，该装置包括：

输入模块，用于将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型，所述图像识别模型包括深度置信卷积神经网络CDBN 和贝叶斯分类器；

图像特征提取模块，用于利用CDBN提取训练样本的图像特征；

语义概念提取模块，用于构造图像特征之间的结构关系，并提取语义概念特征；

分类器训练模块，用于利用从训练样本提取的语义概念特征训练贝叶斯分类器；

图像识别模块，用于将待识别图像输入至图像识别模型进行识别分类。

本发明的生物启发原理主要体现在一下两个方面：

1.深度置信卷积神经网络模仿了生物视觉皮层细胞中的感受域概念。感受域是指神经元在某个位置经过适当的刺激能够引起该神经元反应的区域，表明神经对于外界刺激的最初反映首先发生在局部区域。

2.模仿视觉神经机制中的场向量编码原理，构造图像特征之间的结构关系。

本发明的有益效果：

1.本发明通过建立不同层次间语义的联结关系，形成了基于语义的概念，提高了神经网络的识别速度和抽象能力，增强了模型的效率。

2.本发明在传统生物启发式神经网络计算模型基础上引入了生物视觉神经机制，对语义模糊的图片具有较好的分辨能力，能够根据神经元的激活程度直接估计原始图像，给出了一种无监督学习的新方法，增强了识别模型的鲁棒性。

附图说明

图1是本发明中深度置信卷积神经网络结构图；

图2是本发明中条件受限玻尔兹曼机CRBM的结构示意图。

图3是本发明中语义概念示意图；

图4是本发明中语义概念矩阵构造原理示意图；

图5是本发明中视觉神经机制中场向量编码原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的目的在于提出一种生物启发式自主提取图像语义概念的识别方法。该方法在已有的生物启发式神经网络计算模型基础上，模仿人类视觉神经系统的处理机制，构建一种可以自主提取图像语义概念的图像识别模型，从而增强了模型的识别速度和解释能力，提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。以下详细说明本发明方法所涉及的关键步骤。

本发明所提出的生物启发式自主提取图像语义概念的识别方法包含两个阶段：训练阶段和识别阶段。训练阶段是利用带标签的图像数据集作为训练样本，对图像识别模型进行训练；识别阶段使用训练阶段得到的模型参数构造识别模型，并利用构造的识别模型对测试图像进行识别。具体实施步骤如下：

步骤1：将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型；所述图形输入层为CDBN的输入层，直接接收二维视觉模式，如二维图像；所述标签用于表示图像数据集中样本图像的类别；

步骤2：利用深度置信卷积神经网络(CDBN)提取图像数据的语义特征。主要包含以下步骤：

步骤21：构建CDBN网络；

请参阅图1所示CDBN的结构，所述CDBN是由两个条件受限玻尔兹曼机连接而成，其中第一个条件受限玻尔兹曼机(CRBMa)的输出是第二个条件受限玻尔兹曼机(CRBMb)的输入。其中第一个条件受限玻尔兹曼机(CRBMa)包括三层，分别为可视层V，隐藏层H⁽¹⁾，池化层P^(1)，，第二个条件受限玻尔兹曼机(CRBMb)包括两层，分别为池化层P⁽¹⁾，隐藏层H⁽²⁾，构成的CDBN共包含五层网络，分别为可视层V，隐藏层H⁽¹⁾，池化层P⁽¹⁾，隐藏层H⁽²⁾，池化层P⁽²⁾。图1所示可视层V只绘制了单个通道的图像，即对应一幅灰度图像，在实际应用时，可视层可以为多通道图像，例如三通道彩色图像；可视层依据计算需要，划分为多个可视层单元 v_i，j。隐藏层H⁽¹⁾包含K₁个特征图H^k，每个特征图对应一个语义特征，特征图H^k划分为多个隐层单元h^k _i，j；隐藏层H⁽¹⁾的每个特征图对应池化层P⁽¹⁾的一个特征图。隐藏层H⁽²⁾和池化层P⁽²⁾同理。

下面以CRBMa为例，说明CDBN网络的构建方法。

请参阅图2所示CRBMa的结构，所述CRBMa包含三层网络，分别是可视层V，隐藏层H，池化层P。v_i，j和h_i，j分别为可视层单元和隐层单元； n_v和n_h分别为V和H的宽度，其中n_h由公式n_h＝n_v-n_w+1计算得到，n_w表示可视层单元的宽度；H有多个特征图H^k(k＝1，2，...，K，K表示特征图的数量)，通过W^K与可视层V连接，其中W^K为连接隐层单元和可视层单元的局部共享权值；池化层P与隐藏层H间采用最大值下采样，有多个特征图P^k(k＝1，2，...，K)，特征图宽度n_p由公式n_p＝n_h/c计算得到，其中c为池化窗口的宽度，池化层单元p_α ^k由隐层H^k取c×c矩阵进行最大池化计算后得到；将隐藏层H^k分割成c×c大小的矩阵块，记矩阵块集合为B_α，则池化层特征图P^k由隐层特征图H^k的各矩阵块经最大池化计算后得到。

对于输入图像V和隐层特征图H^K，一对可能的状态量(v，h)由能量函数 E(v，h)计算得到，能量函数的最小值点处对应网络的各个参数值即为网络的最优解。E(v，h)定义如下：

式中，表示可视层单元在某一状态下的数值，表示隐藏层单元在某一状态下的数值，是W^k经过 180°旋转得到的矩阵，b_k是隐层单元H^k的偏置项，a是可视层单元的偏置项，满足以下条件：

CRBM利用差异对比算法(CD)进行训练，例如Hinton于2002年提出的对比散度学习。

第二层CRBM的构造方法与上述步骤相同。本发明通过连接两个 CRBM，将CRBMa的输出作为CRBMb的输入，构造CDBN网络。

步骤22：利用K-means方法对卷积神经网络权重参数进行聚类，提取语义特征；

初级语义层模仿人的语义记忆机制，人工神经网络中嵌入语义信息表示层。在本发明中，语义特征的数学定义为：

给定集合{W_i}(i＝1，2，...，N，N为表示网络权重参数的数量)，W_i是第i 个网络节点间的连接权重，在{W_i}中找出K个聚集点，使得这K个点能近似地表示集合{W_i}的分布，并且属于同一点的权重类别尽可能相似，属于不同点的权重类别尽可能相异。将这K个点定义为S_j(j＝1，2，...，K)，则S_j为{W_i}层面的一个语义。

在本实施例中，提取语义特征的具体步骤如下：

步骤221：初始化聚类中心m₁ ⁽¹⁾，...，m_K ⁽¹⁾；

步骤222：将重构特征集合{W_i}分配到相近的聚类簇，每个样本W_i只属于一个聚类簇S_j，分配的依据为：

步骤223：根据步骤222的分配结果，更新聚类中心：

式中，|S_j ^(t)|表示聚类簇S_j ^(t)中的元素个数。

步骤224：迭代步骤222和步骤223，直到满足条件：

式中，ε为设定阈值，t为当前迭代次数。

步骤23：根据聚类结果，利用取平均的方法，对每个类别中的权重进行聚合，计算原理如下：

式中，表示聚合后的网络权重参数，n表示簇S_i中的元素个数。

步骤24：将聚合后的权重作为CDBN网络的新参数。更新后的网络参数个数不大于原网络的参数个数，相应地，CDBN网络的大小也将依据新的网络参数进行调整。例如，聚合前，某两层网络间连接权重集合为{W_n}， n是后层网络节点数；聚合后，权重集合更新为{W_k}，权重个数为k，则后层网络节点数相应地更新为k。

将新的网络用于提取原始图像的语义特征。CDBN以无监督学习的方式提取图像数据的特征，实现数据降维。记图像的特征集为{P_i}(i＝1，...，k， k表示网络提取的特征图数)，P_i表示图像的第i个特征图，所述特征图为二值图像，其元素的取值为0或1。

步骤3：构造图像特征之间的结构关系，提取语义概念特征，具体步骤如下：

步骤31，对每个图像特征矩阵，计算特征图P_i中的各个连通域的面积，保留特征图P_i中连通域面积最大的部分，其余的连通域元素值置为0，作为特征图P_i的语义特征结构S_i；所述特征图为二值图像，其元素的取值为0或1；值为1且相互邻接的元素构成一个连通域。

步骤32，求出每个语义特征结构S_i的几何中心点C_i，其坐标为(Cx_i，Cy_i)，用以描述语义特征结构在特征图中所处的位置，中心点的坐标由所述语义特征结构S_i对应的特征图矩阵中的行数、列数构成；

步骤33，对语义特征结构S_i的几何中心两两之间无重复地构造结构向量关系V_i，j，计算原理如下：

V_i，j＝C_i-C_j＝(Cx_i-Cx_j，Cy_i-Cy_j)(i＝1，...，(k-1)，j＝(i+1)，...，k) (7)

请参阅图3所示，图3 的 (a)右侧表示语义特征a，图3 的 (b)右侧表示语义特征b，所述语义特征，即原始图像中具有方向的边缘或条状，如横、竖、弯、折等特征。所述结构向量关系，即构造语义特征a和语义特征b 在特征图中的位置关系，其中，图3 的 (a)和图3的 (b)中的左图分别为右图所示的语义特征结构S_a和S_b，图3 的 (c)的左图表示语义特征结构S_a和S_b的相对位置关系，右图表示则根据两个图的相对位置关系，构建的结构向量关系V_a，b；

步骤34，对结构向量关系V_i，j进行标准化计算，得到单位结构向量关系N_i，j，计算原理如下：

式中，N_i，j即表示图像的一个语义概念关系，|V_i，j|表示向量V_i，j的模长，语义概念实际上反映了不同语义特征结构之间的位置关系。

步骤35，仿照视觉神经机制中的场向量编码原理，对语义概念进行矩阵化表示，计算语义概念特征D_i，j。

请参阅图4所示，为了表示图4的 (a)所示的八个方向，定义一个大小为3×3的矩阵D_i，j；以语义特征i和语义特征j间的语义概念向量关系N_i，j为分布中心，利用矩阵D_i，j构造二维高斯分布，矩阵D_i，j的中心元素定义为 0，其余八个元素分别定义八个方向，元素的值满足以向量坐标为中心的二维高斯分布。图4的 (b)表示两个语义特征结构间的向量关系，图4的 (c) 表示根据图4的 (b)所示的向量关系构造的二维高斯分布矩阵；因为图4的 (b)所示向量方向与图4的 (a)矩阵中第3行第1列的方向相近，所以以图4的 (b) 所示向量为分布中心构造的二维高斯分布矩阵中，第3行第1列的元素最大，其余元素服从以该元素为中心的高斯分布。

图5为视觉神经机制中的场向量编码原理。图中的横坐标表示-180°至180°的方向，纵坐标表示视觉神经细胞的激活响应程度。视觉神经中不同神经细胞对方向刺激的响应程度不同，方向刺激与某一神经细胞的喜好方向越接近，则该神经细胞的响应程度越强。如图5所示的神经细胞的喜好方向为图中“向下”的方向，因此方向刺激与“向下”方向越接近，细胞的响应程度越强，反之越弱。

步骤4：利用样本图片提取的语义概念特征训练贝叶斯分类器，计算原理如下：

公式(9)为训练阶段中图像类别O_i条件概率的计算原理；公式(10) 用于在识别阶段计算待识别对象属于各个类别的概率。

式中，O_i表示第i个图像类别，i和j表示类别数量；{D_n}是语义概念特征D_i，j展开得到的特征行向量，n表示特征总数。对于一个图像类别，其与任意一个语义结构间的先验概率关系初始化为ε/n，ε表示大于0的任意小数。在训练阶段，先验分布根据经验分布不断更新。

步骤5：将测试图像输入训练好的识别模型进行识别分类；

测试图像从图形输入层输入模型后，经过步骤2由CDBN提取图像特征，步骤3提取语义概念，将测试图像的语义概念特征输入步骤4训练得到的贝叶斯分类器，计算待识别图像属于各个类别O_i的概率，取概率最大的类别作为待识别图像所属类别。

本发明在现有人工神经网络的基础上，模仿人类视觉神经系统的处理机制，构建一种可以自主提取图像语义概念的图像识别模型，从而增强了模型的识别速度和解释能力，提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生物启发式自主抽取语义信息与概念的图像识别方法，其特征在于，该方法包括以下步骤：

步骤2：利用CDBN提取训练样本的图像特征；

步骤5：将待识别图像输入至图像识别模型进行识别分类；

所述步骤3进一步包括：

步骤31：对每个图像特征，计算其对应的特征图P_i中的各个连通域的面积，保留连通域面积最大的部分作为特征图P_i的语义特征结构S_i，将其余的连通域元素值置为0；

步骤32：求出每个语义特征结构S_i的几何中心点C_i，用以描述语义特征结构在特征图P_i中所处的位置，所述几何中心点C_i的横坐标和纵坐标坐标由其对应的图像特征矩阵中的行数、列数构成；

步骤33：对所有图像特征对应的语义特征结构的几何中心两两之间无重复地构造结构向量关系V_i,j，用于表示语义特征在特征图中的位置关系；

步骤34：对结构向量关系V_i,j进行标准化计算，得到单位结构向量关系N_i,j

步骤35：仿照视觉神经机制中的场向量编码原理，对语义特征间的语义概念进行矩阵化表示，计算得到语义概念特征D_i,j。

2.根据权利要求1所述的方法，其特征在于，所述步骤2中的CDBN由两个条件受限玻尔兹曼机CRBM连接而成，包含了一个五层深度卷积神经网络；其中第一个CRBM包含三层网络，分别为可视层V，隐藏层H⁽¹⁾，池化层P⁽¹⁾；第二个CRBM包含两层网络，分别为隐藏层H⁽²⁾，池化层P⁽²⁾，所述第一个CRBM的输出作为所述第二个CRBM的输入；所述CDBN以无监督学习的方式提取训练样本的图像特征，实现数据降维。

3.根据权利要求1所述的方法，其特征在于，步骤35中如下构造得到语义概念特征：

以语义特征i和语义特征j间的语义概念向量关系N_i,j为分布中心，利用矩阵D_i,j构造二维高斯分布；其中，所述矩阵D_i,j为3×3的矩阵，其中心元素定义为0，其余元素分别定义为八个方向，元素的值满足以向量坐标为中心的二维高斯分布。

4.根据权利要求1所述的方法，其特征在于，所述步骤4中的贝叶斯分类器利用如下公式进行训练：

式中，i和j表示类别数量，P(O_i|D₁,D₂,...)为训练阶段中图像类别O_i条件概率；P(D₁,D₂,...|O_i)P(O_i)为计算D属于各个类别O_i的概率，O_i表示某一特定的图像类别，{D_n}表示语义概念特征D_i,j展开得到的特征行向量，n表示特征总数；

对于一个图像类别，其与任意一个语义特征结构间的先验概率关系初始化为ε/n，ε表示大于0的任意小数；在训练阶段，先验分布根据经验分布不断更新。

5.根据权利要求1所述的方法，其特征在于，所述步骤5的待识别图像从图形输入层输入图像识别模型后，经过CDBN提取图像特征，并从所提取的图像特征提取出语义概念特征后，将所提取的语义概念特征输入所述图像识别模型，计算待识别图像属于各个图像类别O_i的概率，取概率最大的类别作为待识别图像所属类别。

6.一种生物启发式自主抽取语义信息与概念的图像识别装置，其特征在于，该装置包括：

输入模块，用于将带标签的图像数据集作为训练样本，从图形输入层输入图像识别模型，所述图像识别模型包括深度置信卷积神经网络CDBN和贝叶斯分类器；

图像特征提取模块，用于利用CDBN提取训练样本的图像特征；

图像识别模块，用于将待识别图像输入至图像识别模型进行识别分类；

其中，所述语义概念提取模块包括：

语义特征结构计算子模块，用于对每个图像特征，计算其对应的特征图P_i中的各个连通域的面积，保留连通域面积最大的部分作为特征图P_i的语义特征结构S_i，将其余的连通域元素值置为0；

中心点计算子模块，用于求出每个语义特征结构S_i的几何中心点C_i，用以描述语义特征结构在特征图P_i中所处的位置，所述几何中心点C_i的横坐标和纵坐标坐标由其对应的图像特征矩阵中的行数、列数构成；

结构向量关系计算子模块，用于对所有图像特征对应的语义特征结构的几何中心两两之间无重复地构造结构向量关系V_i,j，用于表示语义特征在特征图中的位置关系；

单位结构向量关系计算子模块，用于对结构向量关系V_i,j进行标准化计算，得到单位结构向量关系N_i,j；

语义概念特征计算子模块，用于仿照视觉神经机制中的场向量编码原理，对语义特征间的语义概念进行矩阵化表示，计算得到语义概念特征D_i,j。

7.根据权利要求6所述的装置，其特征在于，所述CDBN由两个条件受限玻尔兹曼机CRBM连接而成，包含了一个五层深度卷积神经网络；其中第一个CRBM包含三层网络，分别为可视层V，隐藏层H⁽¹⁾，池化层P⁽¹⁾；第二个CRBM包含两层网络，分别为隐藏层H⁽²⁾，池化层P⁽²⁾，所述第一个CRBM的输出作为所述第二个CRBM的输入；所述CDBN以无监督学习的方式提取训练样本的图像特征，实现数据降维。

8.根据权利要求6所述的装置，其特征在于，语义概念特征计算子模块中如下构造得到语义概念特征：

以语义特征i和语义特征j间的语义概念向量关系N_i,j为分布中心，利用矩阵D_i,j构造二维高斯分布；其中，所述矩阵D_i,j为一3×3的矩阵，其中心元素定义为0，其余元素分别定义为八个方向，元素的值满足以向量坐标为中心的二维高斯分布。