CN105809201B - 一种生物启发式自主提取图像语义概念的识别方法及装置 - Google Patents
一种生物启发式自主提取图像语义概念的识别方法及装置 Download PDFInfo
- Publication number
- CN105809201B CN105809201B CN201610141197.XA CN201610141197A CN105809201B CN 105809201 B CN105809201 B CN 105809201B CN 201610141197 A CN201610141197 A CN 201610141197A CN 105809201 B CN105809201 B CN 105809201B
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- feature
- concept
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 31
- 239000000284 extract Substances 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 13
- 210000001328 optic nerve Anatomy 0.000 claims description 10
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 3
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 abstract description 5
- 210000000653 nervous system Anatomy 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 210000002569 neuron Anatomy 0.000 description 6
- 238000006116 polymerization reaction Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000004043 responsiveness Effects 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种生物启发式自主提取图像语义概念的识别方法及装置,该方法包括:将带标签的图像数据集作为训练样本,从图形输入层输入模型;利用深度置信卷积神经网络提取图像数据的特征;构造图像特征之间的结构关系,提取语义概念;利用样本图片提取的语义概念特征训练贝叶斯分类器;将测试图像输入训练好的识别模型进行识别分类。本发明在已有的生物启发式神经网络计算模型基础上,模仿人类视觉神经系统的处理机制,构建一种可以自主提取图像语义概念的图像识别模型,从而增强了模型的识别速度和解释能力,提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。
Description
技术领域
本发明属于模式识别和机器学习领域,涉及一种图像识别方法,尤其是一种生物启发式自主提取图像语义概念的识别方法。
背景技术
随着神经科学与信息科学的交叉逐渐走向深入,越来越多的生物机制被应用到信息学的模型中,极大的推动了生物启发式模型的发展。这些模型一方面在最新的神经学研究成果的启发下,在性能、效率等多个方面对信息学中的现有算法实现了突破,另一方面,通过信息学的建模,也使相应的神经机理从侧面得到了验证,从而帮助人类更深入地了解自身。
视觉领域是经科学与信息科学交叉研究的重点方向,事实上,正是对生物视网膜及视神经系统成像原理的研究成果为信息科学打开了视觉识别的大门[Harr,1969]。将人类的视觉神经机制引入现有的人工神经网络模型,使网络结构能实现对语义信息的自主学习和提取,并构建语义概念,能够在保证识别精度的同时,增强模型的解释能力和识别速度,提高图像识别的鲁棒性。
发明内容
本发明的目的在于提出一种生物启发式自主提取图像语义概念的识别方法。该方法在已有的生物启发式神经网络计算模型基础上,模仿人类视觉神经系统的处理机制,构建一种可以自主提取图像语义概念的图像识别模型,从而增强了模型的识别速度和解释能力,提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。
本发明所提出的一种生物启发式自主提取图像语义概念的识别方法包括以下步骤:
步骤1:将带标签的图像数据集作为训练样本,从图形输入层输入图像识别模型,所述图像识别模型包括深度置信卷积神经网络CDBN和贝叶斯分类器;
步骤2:利用CDBN提取训练样本的图像特征;
步骤3:构造图像特征之间的结构关系,并提取语义概念特征;
步骤4:利用从训练样本提取的语义概念特征训练贝叶斯分类器;
步骤5:将待识别图像输入至图像识别模型进行识别分类。
本发明还提供了一种生物启发式自主抽取语义信息与概念的图像识别装置,该装置包括:
输入模块,用于将带标签的图像数据集作为训练样本,从图形输入层输入图像识别模型,所述图像识别模型包括深度置信卷积神经网络CDBN 和贝叶斯分类器;
图像特征提取模块,用于利用CDBN提取训练样本的图像特征;
语义概念提取模块,用于构造图像特征之间的结构关系,并提取语义概念特征;
分类器训练模块,用于利用从训练样本提取的语义概念特征训练贝叶斯分类器;
图像识别模块,用于将待识别图像输入至图像识别模型进行识别分类。
本发明的生物启发原理主要体现在一下两个方面:
1.深度置信卷积神经网络模仿了生物视觉皮层细胞中的感受域概念。感受域是指神经元在某个位置经过适当的刺激能够引起该神经元反应的区域,表明神经对于外界刺激的最初反映首先发生在局部区域。
2.模仿视觉神经机制中的场向量编码原理,构造图像特征之间的结构关系。
本发明的有益效果:
1.本发明通过建立不同层次间语义的联结关系,形成了基于语义的概念,提高了神经网络的识别速度和抽象能力,增强了模型的效率。
2.本发明在传统生物启发式神经网络计算模型基础上引入了生物视觉神经机制,对语义模糊的图片具有较好的分辨能力,能够根据神经元的激活程度直接估计原始图像,给出了一种无监督学习的新方法,增强了识别模型的鲁棒性。
附图说明
图1是本发明中深度置信卷积神经网络结构图;
图2是本发明中条件受限玻尔兹曼机CRBM的结构示意图。
图3是本发明中语义概念示意图;
图4是本发明中语义概念矩阵构造原理示意图;
图5是本发明中视觉神经机制中场向量编码原理示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明的目的在于提出一种生物启发式自主提取图像语义概念的识别方法。该方法在已有的生物启发式神经网络计算模型基础上,模仿人类视觉神经系统的处理机制,构建一种可以自主提取图像语义概念的图像识别模型,从而增强了模型的识别速度和解释能力,提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。以下详细说明本发明方法所涉及的关键步骤。
本发明所提出的生物启发式自主提取图像语义概念的识别方法包含两个阶段:训练阶段和识别阶段。训练阶段是利用带标签的图像数据集作为训练样本,对图像识别模型进行训练;识别阶段使用训练阶段得到的模型参数构造识别模型,并利用构造的识别模型对测试图像进行识别。具体实施步骤如下:
步骤1:将带标签的图像数据集作为训练样本,从图形输入层输入图像识别模型;所述图形输入层为CDBN的输入层,直接接收二维视觉模式,如二维图像;所述标签用于表示图像数据集中样本图像的类别;
步骤2:利用深度置信卷积神经网络(CDBN)提取图像数据的语义特征。主要包含以下步骤:
步骤21:构建CDBN网络;
请参阅图1所示CDBN的结构,所述CDBN是由两个条件受限玻尔兹曼机连接而成,其中第一个条件受限玻尔兹曼机(CRBMa)的输出是第二个条件受限玻尔兹曼机(CRBMb)的输入。其中第一个条件受限玻尔兹曼机(CRBMa)包括三层,分别为可视层V,隐藏层H(1),池化层P(1),,第二个条件受限玻尔兹曼机(CRBMb)包括两层,分别为池化层P(1),隐藏层H(2),构成的CDBN共包含五层网络,分别为可视层V,隐藏层H(1),池化层P(1),隐藏层H(2),池化层P(2)。图1所示可视层V只绘制了单个通道的图像,即对应一幅灰度图像,在实际应用时,可视层可以为多通道图像,例如三通道彩色图像;可视层依据计算需要,划分为多个可视层单元 vi,j。隐藏层H(1)包含K1个特征图Hk,每个特征图对应一个语义特征,特征图Hk划分为多个隐层单元hk i,j;隐藏层H(1)的每个特征图对应池化层P(1)的一个特征图。隐藏层H(2)和池化层P(2)同理。
下面以CRBMa为例,说明CDBN网络的构建方法。
请参阅图2所示CRBMa的结构,所述CRBMa包含三层网络,分别是可视层V,隐藏层H,池化层P。vi,j和hi,j分别为可视层单元和隐层单元; nv和nh分别为V和H的宽度,其中nh由公式nh=nv-nw+1计算得到,nw表示可视层单元的宽度;H有多个特征图Hk(k=1,2,...,K,K表示特征图的数量),通过WK与可视层V连接,其中WK为连接隐层单元和可视层单元的局部共享权值;池化层P与隐藏层H间采用最大值下采样,有多个特征图Pk(k=1,2,...,K),特征图宽度np由公式np=nh/c计算得到,其中c为池化窗口的宽度,池化层单元pα k由隐层Hk取c×c矩阵进行最大池化计算后得到;将隐藏层Hk分割成c×c大小的矩阵块,记矩阵块集合为Bα,则池化层特征图Pk由隐层特征图Hk的各矩阵块经最大池化计算后得到。
对于输入图像V和隐层特征图HK,一对可能的状态量(v,h)由能量函数 E(v,h)计算得到,能量函数的最小值点处对应网络的各个参数值即为网络的最优解。E(v,h)定义如下:
式中,表示可视层单元在某一状态下的数值,表示隐藏层单元在某一状态下的数值,是Wk经过 180°旋转得到的矩阵,bk是隐层单元Hk的偏置项,a是可视层单元的偏置项,满足以下条件:
CRBM利用差异对比算法(CD)进行训练,例如Hinton于2002年提出的对比散度学习。
第二层CRBM的构造方法与上述步骤相同。本发明通过连接两个 CRBM,将CRBMa的输出作为CRBMb的输入,构造CDBN网络。
步骤22:利用K-means方法对卷积神经网络权重参数进行聚类,提取语义特征;
初级语义层模仿人的语义记忆机制,人工神经网络中嵌入语义信息表示层。在本发明中,语义特征的数学定义为:
给定集合{Wi}(i=1,2,...,N,N为表示网络权重参数的数量),Wi是第i 个网络节点间的连接权重,在{Wi}中找出K个聚集点,使得这K个点能近似地表示集合{Wi}的分布,并且属于同一点的权重类别尽可能相似,属于不同点的权重类别尽可能相异。将这K个点定义为Sj(j=1,2,...,K),则Sj为{Wi}层面的一个语义。
在本实施例中,提取语义特征的具体步骤如下:
步骤221:初始化聚类中心m1 (1),...,mK (1);
步骤222:将重构特征集合{Wi}分配到相近的聚类簇,每个样本Wi只属于一个聚类簇Sj,分配的依据为:
步骤223:根据步骤222的分配结果,更新聚类中心:
式中,|Sj (t)|表示聚类簇Sj (t)中的元素个数。
步骤224:迭代步骤222和步骤223,直到满足条件:
式中,ε为设定阈值,t为当前迭代次数。
步骤23:根据聚类结果,利用取平均的方法,对每个类别中的权重进行聚合,计算原理如下:
式中,表示聚合后的网络权重参数,n表示簇Si中的元素个数。
步骤24:将聚合后的权重作为CDBN网络的新参数。更新后的网络参数个数不大于原网络的参数个数,相应地,CDBN网络的大小也将依据新的网络参数进行调整。例如,聚合前,某两层网络间连接权重集合为{Wn}, n是后层网络节点数;聚合后,权重集合更新为{Wk},权重个数为k,则后层网络节点数相应地更新为k。
将新的网络用于提取原始图像的语义特征。CDBN以无监督学习的方式提取图像数据的特征,实现数据降维。记图像的特征集为{Pi}(i=1,...,k, k表示网络提取的特征图数),Pi表示图像的第i个特征图,所述特征图为二值图像,其元素的取值为0或1。
步骤3:构造图像特征之间的结构关系,提取语义概念特征,具体步骤如下:
步骤31,对每个图像特征矩阵,计算特征图Pi中的各个连通域的面积,保留特征图Pi中连通域面积最大的部分,其余的连通域元素值置为0,作为特征图Pi的语义特征结构Si;所述特征图为二值图像,其元素的取值为0或1;值为1且相互邻接的元素构成一个连通域。
步骤32,求出每个语义特征结构Si的几何中心点Ci,其坐标为(Cxi,Cyi),用以描述语义特征结构在特征图中所处的位置,中心点的坐标由所述语义特征结构Si对应的特征图矩阵中的行数、列数构成;
步骤33,对语义特征结构Si的几何中心两两之间无重复地构造结构向量关系Vi,j,计算原理如下:
Vi,j=Ci-Cj=(Cxi-Cxj,Cyi-Cyj)(i=1,...,(k-1),j=(i+1),...,k) (7)
请参阅图3所示,图3 的 (a)右侧表示语义特征a,图3 的 (b)右侧表示语义特征b,所述语义特征,即原始图像中具有方向的边缘或条状,如横、竖、弯、折等特征。所述结构向量关系,即构造语义特征a和语义特征b 在特征图中的位置关系,其中,图3 的 (a)和图3的 (b)中的左图分别为右图所示的语义特征结构Sa和Sb,图3 的 (c)的左图表示语义特征结构Sa和Sb的相对位置关系,右图表示则根据两个图的相对位置关系,构建的结构向量关系Va,b;
步骤34,对结构向量关系Vi,j进行标准化计算,得到单位结构向量关系Ni,j,计算原理如下:
式中,Ni,j即表示图像的一个语义概念关系,|Vi,j|表示向量Vi,j的模长,语义概念实际上反映了不同语义特征结构之间的位置关系。
步骤35,仿照视觉神经机制中的场向量编码原理,对语义概念进行矩阵化表示,计算语义概念特征Di,j。
请参阅图4所示,为了表示图4的 (a)所示的八个方向,定义一个大小为3×3的矩阵Di,j;以语义特征i和语义特征j间的语义概念向量关系Ni,j为分布中心,利用矩阵Di,j构造二维高斯分布,矩阵Di,j的中心元素定义为 0,其余八个元素分别定义八个方向,元素的值满足以向量坐标为中心的二维高斯分布。图4的 (b)表示两个语义特征结构间的向量关系,图4的 (c) 表示根据图4的 (b)所示的向量关系构造的二维高斯分布矩阵;因为图4的 (b)所示向量方向与图4的 (a)矩阵中第3行第1列的方向相近,所以以图4的 (b) 所示向量为分布中心构造的二维高斯分布矩阵中,第3行第1列的元素最大,其余元素服从以该元素为中心的高斯分布。
图5为视觉神经机制中的场向量编码原理。图中的横坐标表示-180°至180°的方向,纵坐标表示视觉神经细胞的激活响应程度。视觉神经中不同神经细胞对方向刺激的响应程度不同,方向刺激与某一神经细胞的喜好方向越接近,则该神经细胞的响应程度越强。如图5所示的神经细胞的喜好方向为图中“向下”的方向,因此方向刺激与“向下”方向越接近,细胞的响应程度越强,反之越弱。
步骤4:利用样本图片提取的语义概念特征训练贝叶斯分类器,计算原理如下:
公式(9)为训练阶段中图像类别Oi条件概率的计算原理;公式(10) 用于在识别阶段计算待识别对象属于各个类别的概率。
式中,Oi表示第i个图像类别,i和j表示类别数量;{Dn}是语义概念特征Di,j展开得到的特征行向量,n表示特征总数。对于一个图像类别,其与任意一个语义结构间的先验概率关系初始化为ε/n,ε表示大于0的任意小数。在训练阶段,先验分布根据经验分布不断更新。
步骤5:将测试图像输入训练好的识别模型进行识别分类;
测试图像从图形输入层输入模型后,经过步骤2由CDBN提取图像特征,步骤3提取语义概念,将测试图像的语义概念特征输入步骤4训练得到的贝叶斯分类器,计算待识别图像属于各个类别Oi的概率,取概率最大的类别作为待识别图像所属类别。
本发明在现有人工神经网络的基础上,模仿人类视觉神经系统的处理机制,构建一种可以自主提取图像语义概念的图像识别模型,从而增强了模型的识别速度和解释能力,提高了图像识别尤其是具有模糊语义的图像识别的鲁棒性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种生物启发式自主抽取语义信息与概念的图像识别方法,其特征在于,该方法包括以下步骤:
步骤1:将带标签的图像数据集作为训练样本,从图形输入层输入图像识别模型,所述图像识别模型包括深度置信卷积神经网络CDBN和贝叶斯分类器;
步骤2:利用CDBN提取训练样本的图像特征;
步骤3:构造图像特征之间的结构关系,并提取语义概念特征;
步骤4:利用从训练样本提取的语义概念特征训练贝叶斯分类器;
步骤5:将待识别图像输入至图像识别模型进行识别分类;
所述步骤3进一步包括:
步骤31:对每个图像特征,计算其对应的特征图Pi中的各个连通域的面积,保留连通域面积最大的部分作为特征图Pi的语义特征结构Si,将其余的连通域元素值置为0;
步骤32:求出每个语义特征结构Si的几何中心点Ci,用以描述语义特征结构在特征图Pi中所处的位置,所述几何中心点Ci的横坐标和纵坐标坐标由其对应的图像特征矩阵中的行数、列数构成;
步骤33:对所有图像特征对应的语义特征结构的几何中心两两之间无重复地构造结构向量关系Vi,j,用于表示语义特征在特征图中的位置关系;
步骤34:对结构向量关系Vi,j进行标准化计算,得到单位结构向量关系Ni,j
步骤35:仿照视觉神经机制中的场向量编码原理,对语义特征间的语义概念进行矩阵化表示,计算得到语义概念特征Di,j。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中的CDBN由两个条件受限玻尔兹曼机CRBM连接而成,包含了一个五层深度卷积神经网络;其中第一个CRBM包含三层网络,分别为可视层V,隐藏层H(1),池化层P(1);第二个CRBM包含两层网络,分别为隐藏层H(2),池化层P(2),所述第一个CRBM的输出作为所述第二个CRBM的输入;所述CDBN以无监督学习的方式提取训练样本的图像特征,实现数据降维。
3.根据权利要求1所述的方法,其特征在于,步骤35中如下构造得到语义概念特征:
以语义特征i和语义特征j间的语义概念向量关系Ni,j为分布中心,利用矩阵Di,j构造二维高斯分布;其中,所述矩阵Di,j为3×3的矩阵,其中心元素定义为0,其余元素分别定义为八个方向,元素的值满足以向量坐标为中心的二维高斯分布。
4.根据权利要求1所述的方法,其特征在于,所述步骤4中的贝叶斯分类器利用如下公式进行训练:
式中,i和j表示类别数量,P(Oi|D1,D2,...)为训练阶段中图像类别Oi条件概率;P(D1,D2,...|Oi)P(Oi)为计算D属于各个类别Oi的概率,Oi表示某一特定的图像类别,{Dn}表示语义概念特征Di,j展开得到的特征行向量,n表示特征总数;
对于一个图像类别,其与任意一个语义特征结构间的先验概率关系初始化为ε/n,ε表示大于0的任意小数;在训练阶段,先验分布根据经验分布不断更新。
5.根据权利要求1所述的方法,其特征在于,所述步骤5的待识别图像从图形输入层输入图像识别模型后,经过CDBN提取图像特征,并从所提取的图像特征提取出语义概念特征后,将所提取的语义概念特征输入所述图像识别模型,计算待识别图像属于各个图像类别Oi的概率,取概率最大的类别作为待识别图像所属类别。
6.一种生物启发式自主抽取语义信息与概念的图像识别装置,其特征在于,该装置包括:
输入模块,用于将带标签的图像数据集作为训练样本,从图形输入层输入图像识别模型,所述图像识别模型包括深度置信卷积神经网络CDBN和贝叶斯分类器;
图像特征提取模块,用于利用CDBN提取训练样本的图像特征;
语义概念提取模块,用于构造图像特征之间的结构关系,并提取语义概念特征;
分类器训练模块,用于利用从训练样本提取的语义概念特征训练贝叶斯分类器;
图像识别模块,用于将待识别图像输入至图像识别模型进行识别分类;
其中,所述语义概念提取模块包括:
语义特征结构计算子模块,用于对每个图像特征,计算其对应的特征图Pi中的各个连通域的面积,保留连通域面积最大的部分作为特征图Pi的语义特征结构Si,将其余的连通域元素值置为0;
中心点计算子模块,用于求出每个语义特征结构Si的几何中心点Ci,用以描述语义特征结构在特征图Pi中所处的位置,所述几何中心点Ci的横坐标和纵坐标坐标由其对应的图像特征矩阵中的行数、列数构成;
结构向量关系计算子模块,用于对所有图像特征对应的语义特征结构的几何中心两两之间无重复地构造结构向量关系Vi,j,用于表示语义特征在特征图中的位置关系;
单位结构向量关系计算子模块,用于对结构向量关系Vi,j进行标准化计算,得到单位结构向量关系Ni,j;
语义概念特征计算子模块,用于仿照视觉神经机制中的场向量编码原理,对语义特征间的语义概念进行矩阵化表示,计算得到语义概念特征Di,j。
7.根据权利要求6所述的装置,其特征在于,所述CDBN由两个条件受限玻尔兹曼机CRBM连接而成,包含了一个五层深度卷积神经网络;其中第一个CRBM包含三层网络,分别为可视层V,隐藏层H(1),池化层P(1);第二个CRBM包含两层网络,分别为隐藏层H(2),池化层P(2),所述第一个CRBM的输出作为所述第二个CRBM的输入;所述CDBN以无监督学习的方式提取训练样本的图像特征,实现数据降维。
8.根据权利要求6所述的装置,其特征在于,语义概念特征计算子模块中如下构造得到语义概念特征:
以语义特征i和语义特征j间的语义概念向量关系Ni,j为分布中心,利用矩阵Di,j构造二维高斯分布;其中,所述矩阵Di,j为一3×3的矩阵,其中心元素定义为0,其余元素分别定义为八个方向,元素的值满足以向量坐标为中心的二维高斯分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610141197.XA CN105809201B (zh) | 2016-03-11 | 2016-03-11 | 一种生物启发式自主提取图像语义概念的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610141197.XA CN105809201B (zh) | 2016-03-11 | 2016-03-11 | 一种生物启发式自主提取图像语义概念的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105809201A CN105809201A (zh) | 2016-07-27 |
CN105809201B true CN105809201B (zh) | 2019-07-05 |
Family
ID=56468356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610141197.XA Active CN105809201B (zh) | 2016-03-11 | 2016-03-11 | 一种生物启发式自主提取图像语义概念的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105809201B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076130A1 (zh) * | 2016-10-24 | 2018-05-03 | 中国科学院自动化研究所 | 物体识别模型的建立方法及物体识别方法 |
CN106599988B (zh) * | 2016-12-09 | 2019-10-08 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种智能可穿戴设备行为数据的多级语义特征提取方法 |
CN108229519B (zh) * | 2017-02-17 | 2020-09-04 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108875758B (zh) * | 2017-05-09 | 2022-01-11 | 富士通株式会社 | 信息处理方法和装置以及信息检测方法和装置 |
CN107016439A (zh) * | 2017-05-09 | 2017-08-04 | 重庆大学 | 基于cr2神经网络的图像‑文本双编码机理实现模型 |
CN108009472B (zh) * | 2017-10-25 | 2020-07-21 | 五邑大学 | 一种基于卷积神经网络和贝叶斯分类器的指背关节纹识别方法 |
CN108764299B (zh) * | 2018-05-04 | 2020-10-23 | 北京物灵智能科技有限公司 | 故事模型训练及生成方法、系统、机器人及存储设备 |
CN109145936B (zh) * | 2018-06-20 | 2019-07-09 | 北京达佳互联信息技术有限公司 | 一种模型优化方法及装置 |
CN109800855A (zh) * | 2018-12-14 | 2019-05-24 | 合肥阿巴赛信息科技有限公司 | 一种基于几何算子的卷积神经网络搭建方法 |
CN115102982B (zh) * | 2021-11-19 | 2023-06-23 | 北京邮电大学 | 一种面向智能任务的语义通信方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120269436A1 (en) * | 2011-04-20 | 2012-10-25 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
-
2016
- 2016-03-11 CN CN201610141197.XA patent/CN105809201B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120269436A1 (en) * | 2011-04-20 | 2012-10-25 | Xerox Corporation | Learning structured prediction models for interactive image labeling |
CN103345656A (zh) * | 2013-07-17 | 2013-10-09 | 中国科学院自动化研究所 | 一种基于多任务深度神经网络的数据识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
Mixed handwritten and printed digit recognition in Sudoku with Convolutional Deep Belief Network;Baptiste Wicht等;《2015 13th International Conference on Document Analysis and Recognition (ICDAR)》;20151123;第861-865页 * |
基于卷积深度置信网络的歌手识别;何灼彬;《中国优秀硕士学位论文全文数据库信息科技辑》;20160215(第02期);正文第48-49页 * |
基于深度自学习的人脸美丽预测研究;李立琛;《中国优秀硕士学位论文全文数据库信息科技辑》;20150315(第03期);正文第44-46页 * |
李立琛.基于深度自学习的人脸美丽预测研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2015,(第03期),正文第44-46页. * |
Also Published As
Publication number | Publication date |
---|---|
CN105809201A (zh) | 2016-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105809201B (zh) | 一种生物启发式自主提取图像语义概念的识别方法及装置 | |
Alaslani | Convolutional neural network based feature extraction for iris recognition | |
CN103761536B (zh) | 基于无监督最优美丽特征和深度评价模型的人脸美化方法 | |
CN105138993B (zh) | 建立人脸识别模型的方法及装置 | |
CN104933417B (zh) | 一种基于稀疏时空特征的行为识别方法 | |
CN107609460A (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN103996056B (zh) | 一种基于深度学习的纹身图像分类方法 | |
CN101447020B (zh) | 基于直觉模糊的色情图像识别方法 | |
CN109359538A (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
Bougourzi et al. | Deep learning based face beauty prediction via dynamic robust losses and ensemble regression | |
CN110309861A (zh) | 一种基于生成对抗网络的多模态人类活动识别方法 | |
CN108182441A (zh) | 平行多通道卷积神经网络、构建方法及图像特征提取方法 | |
CN109255340A (zh) | 一种融合多种改进vgg网络的人脸识别方法 | |
CN107657239A (zh) | 掌纹图像性别分类方法及装置、计算机装置及可读存储介质 | |
CN110188794B (zh) | 一种深度学习模型的训练方法、装置、设备及存储介质 | |
Jiang et al. | A cross-modal multi-granularity attention network for RGB-IR person re-identification | |
CN109299701A (zh) | 基于gan扩充多人种特征协同选择的人脸年龄估计方法 | |
CN105740833A (zh) | 一种基于深度序列的人体行为识别方法 | |
CN107423727A (zh) | 基于神经网络的人脸复杂表情识别方法 | |
CN106909938A (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
CN106980830A (zh) | 一种基于深度卷积网络自亲缘关系识别方法与装置 | |
CN106980831A (zh) | 基于自编码器的自亲缘关系识别方法 | |
CN108846343A (zh) | 基于三维视频的多任务协同分析方法 | |
Zhai et al. | Asian female facial beauty prediction using deep neural networks via transfer learning and multi-channel feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |