CN111325221A - 基于图像深度信息的图像特征提取方法 - Google Patents
基于图像深度信息的图像特征提取方法 Download PDFInfo
- Publication number
- CN111325221A CN111325221A CN202010117286.7A CN202010117286A CN111325221A CN 111325221 A CN111325221 A CN 111325221A CN 202010117286 A CN202010117286 A CN 202010117286A CN 111325221 A CN111325221 A CN 111325221A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- depth
- feature extraction
- extraction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于图像处理技术领域,具体地说,涉及一种基于图像深度信息的图像特征提取方法。
背景技术
由于图像采集设备、计算机技术和网络的快速发展,图像的检索分类已广泛应用于各种各样的应用中,例如:计算机图形学、医疗行业以及虚拟现实领域。图像的大规模数据库正在迅速增加,这导致人们对高效的图像检索分类算法的要求逐渐增加,至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中精髓的部分,它最能表征数字图像特点,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。
特征提取属于图象处理中的初级运算,也就是说它是对图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个初级运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。假如特征提取需要许多的计算时间,而可以使用的时间有限制,一个高层次算法可以用来控制特征提取阶层,这样仅图像的部分被用来寻找特征。由于许多计算机图像算法使用特征提取作为其初级计算步骤,因此有大量特征提取算法被发展,其提取的特征各种各样,它们的计算复杂性高,可重复性差。
此外,现有的特征的提取方法,往往针对图像的颜色特征、纹理特征、形状特征、空间关系特征,所包含的信息类型单一,对图像的表征性能差。
发明内容
本发明针对现有图像处理的特征提取运算中所提取的特征可重复性差,包含的信息类型单一的技术问题,提出了一种基于图像深度信息的图像特征提取方法,可以解决上述问题。
为实现上述发明目的,本发明采用下述技术方案予以实现:
一种基于图像深度信息的图像特征提取方法,包括以下步骤:
多流深度网络模型训练步骤,所述多流深度网络模型由样本图像的K个模态训练形成,K为不小于2的整数,所述模态至少包括图像的平面模态和三维结构模态;
提取待处理图像的所述K个模态的信息;
将待处理图像的K个模态的信息输入至所述多流深度网络进行融合处理,输出得到待处理图像的深度图像融合特征。
进一步的,多流深度网络模型训练步骤包括:
(11)、分别提取样本图像K个模态的信息Xi,i=1,2,…,K;
(12)、建立多流深度网络模型框架:
其中,fi(Xi)为Xi的独特特征,g(X)为Xi的可共享特征,αi为独特特征fi(Xi)的权重系数,β为可共享特征g(X)的权重系数,h(X)为样本图像的融合特征;
(13)、将h(X)与样本图像的先验特征比较,调整权重系数αi和β,使得h(X)与样本图像的先验特征误差小于设定值,αi和β需满足:
进一步的,可共享特征g(X)的获取方法为:
进一步的,σ1为tanh函数。
进一步的,独特特征fi(Xi)的获取方法为:
进一步的,步骤(13)中,还包括设定目标函数,并采用标准反向传播方法来学习多流深度网络模型的其他参数θ,其中,目标函数为:
λ1和λ2是两个超参数,为设定值,Jcls为识别的分类损失,通过分类交叉熵损失计算得到,Js表示用不同形式的可共享特征,通过Cauchy估计量测量可共享特征分量gi(Xi)之间的相关性并将其最小化获得,Jd为每种模态的独特特征,对和强制执行正交性约束获得。
进一步的,当预测y=l为真时等于1,否则为0,学习多流深度网络模型的其他参数θ过程中,输入到网络模型中数据包含多个不同类别的图像,y和l表示预测的类别和图像真实类别,L是图像类别的数量,sl表示输入图像为第l个类别的概率。
进一步的,Js=∑1≤i≤j≤KΦs(gi(Xi),gj(Xj));
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|;
Φd(fi(Xi),gj(Xj))=|fi(Xi)⊙gj(Xj)|;
其中,⊙是元素Hadamard乘积。
进一步的,采用2D CNN神经网络提取待处理图像或者样本图像的平面模态的信息,采用3DPointNet神经网络提取待处理图像或者样本图像的三维结构模态的信息。
与现有技术相比,本发明的优点和积极效果是:本发明利用多流深度网络,利用图片的多种信息,至少包括平面模态信息和三维结构模态信息两种不同类型的信息,使得对立体模型的描述更加全面,进而对深度图像的描述更加全面,在图片特征提取方面更加丰富和准确,可重复性好,所提取的特征对图像的表征能力好。
结合附图阅读本发明的具体实施方式后,本发明的其他特点和优点将变得更加清楚。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提出的基于图像深度信息的图像特征提取方法的一种实施例流程图;
图2是本发明提出的基于图像深度信息的图像特征提取方法的一种实施例原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
实施例一,本实施例提出了一种基于图像深度信息的图像特征提取方法,如图1、图2所示,包括以下步骤:
多流深度网络模型训练步骤,所述多流深度网络模型由样本图像的K个模态训练形成,K为不小于2的整数,所述模态至少包括图像的平面模态和三维结构模态;
提取待处理图像的所述K个模态的信息;
将待处理图像的K个模态的信息输入至所述多流深度网络进行融合处理,输出得到待处理图像的深度图像融合特征。
本实施例的图像特征提取方法,首先利用样本图像的多个模态训练多流深度网络模型,该多个模态至少包括平面模态信息和三维结构模态信息两种不同类型的信息,使得对立体模型的描述更加全面,进而对深度图像的描述更加全面,在图片特征提取方面更加丰富和准确,可重复性好,分别从平面和立体结构等多种信息表征深度图像,所提取的特征对图像的表征能力好。
作为一个优选的实施例,多流深度网络模型训练步骤包括:
S11、分别提取样本图像K个模态的信息Xi,i=1,2,…,K;
S12、建立多流深度网络模型框架,生成初始的权重系数:
其中,fi(Xi)为Xi的独特特征,g(X)为Xi的可共享特征,αi为独特特征fi(Xi)的权重系数,β为可共享特征g(X)的权重系数,h(X)为样本图像的深度图像融合特征;
根据提取的不同的特征,将这些特征转移到一些新的空间中,这些空间可以弥合模态的差距,以便对它们进行比较,由于不同形式的特征反映了来自不同方面的特定行为的特性,它们既不是完全独立的也不是完全相关的。因此寻求的空间应该包含不同形式的可共享的信息和独特特征。通过将融合函数定义为:X→h(X),它将输入样本图像K个模态的信息Xi进行融合计算,输出深度图像融合特征h(X)。为了充分探索不同形态的可共享特征和独特特征,引入了两种类型的中间特征
S13、将h(X)与样本图像的先验特征比较,调整权重系数αi和β,使得h(X)与样本图像的先验特征误差小于设定值,αi和β需满足:
每个特征对于结果的贡献不同,通过调节权重值,比对出最优权重值。
一方面,g(X)包含不同形态的可共享信息:
另一方面,fi(Xi)保留了在每种模态中专门存在的辨别特征,也即独特特征。
与gi(Xi)类似,通过另一个非线性变换得到,独特特征fi(Xi)的获取方法为:
通过σ12和σ2非线性的结构,能够增加网络的拟合能力。
本实施例的多流深度网络模型的基本思想保留每种模态的独特特征,同时探索其可共享的信息。
步骤S13中,还包括设定目标函数,并采用标准反向传播方法来学习多流深度网络模型的其他参数θ,其中,目标函数为:
λ1和λ2是两个超参数,为设定值,以平衡不同项的影响以做出良好的权衡。Jcls为识别的分类损失,通过分类交叉熵损失计算得到,Js表示用不同形式的可共享特征,通过Cauchy估计量测量可共享特征分量gi(Xi)之间的相关性并将其最小化获得,Jd为每种模态的独特特征,对和强制执行正交性约束获得。
其中1是指标函数,当预测y=l为真时等于1,否则为0,学习多流深度网络模型的其他参数θ过程中,输入到网络模型中数据包含多个不同类别的图像,y和l表示预测的类别和图像真实类别,L是图像类别的数量,sl表示输入图像是第l类别的概率。
Js旨在利用不同形式的可共享信息。这里,a是超参数,并且Js如下导出:
Js=∑1≤i≤j≤KΦs(gi(Xi),gj(Xj));
通常,计算L1或L2距离以估计可共享分量之间的相关性更为直接。而L1和L2距离对异常值都不稳健。为了进一步说明这一点,考虑估计量ρ(x)的影响函数ψ(x),其在数学上定义为对于绝对值估计量(即,L1距离)ρ(x)=|x|,其影响函数没有截止,而最小二乘估计量(即L2距离)ρ(x)=x2/2影响函数ψ2(x)=x,它随x线性增加。相比之下,Cauchy估计的影响函数是其中x>0的上限为1/a且更平滑,因此对异常值更具鲁棒性。在实践中,我们将超参数a设置为1.我们还进行实验以证明Cauchy估计器与后一部分中的L1和L2距离相比的优势。
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|;
Φd(fi(Xi),gj(Xj))=|fi(Xi)⊙gj(Xj)|;
其中,⊙是元素Hadamard乘积。
2D CNN神经网络可以很好的提取深度图像的高维抽象的图像平面信息,本方案中优选采用2D CNN神经网络提取待处理图像或者样本图像的平面模态的信息,采用3DPointNet神经网络提取待处理图像或者样本图像的三维结构模态的信息。3DPointNet网络结构直接使用原始点云数据作为输入,并用了一些方法使得网络能对输入点云的扰动具有鲁棒性。整个网络结构很简单却能有效的处理数据,并在数据集上有着不错的表现,很好的挖掘深度图像的结构信息。
当然,针对图像的2DCNN和3DPointNet可以使用不同的网络作为基础的网络结构,如还可以采用AlexNet,ResNet等网络模型。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。
Claims (10)
1.一种基于图像深度信息的图像特征提取方法,其特征在于,包括以下步骤:
多流深度网络模型训练步骤,所述多流深度网络模型由样本图像的K个模态训练形成,K为不小于2的整数,所述模态至少包括图像的平面模态和三维结构模态;
提取待处理图像的所述K个模态的信息;
将待处理图像的K个模态的信息输入至所述多流深度网络进行融合处理,输出得到待处理图像的深度图像融合特征。
4.根据权利要求3所述的基于图像深度信息的图像特征提取方法,其特征在于,σ1为tanh函数。
10.根据权利要求1-9任一项所述的基于图像深度信息的图像特征提取方法,其特征在于,采用2D CNN神经网络提取待处理图像或者样本图像的平面模态的信息,采用3DPointNet神经网络提取待处理图像或者样本图像的三维结构模态的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117286.7A CN111325221B (zh) | 2020-02-25 | 2020-02-25 | 基于图像深度信息的图像特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117286.7A CN111325221B (zh) | 2020-02-25 | 2020-02-25 | 基于图像深度信息的图像特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325221A true CN111325221A (zh) | 2020-06-23 |
CN111325221B CN111325221B (zh) | 2023-06-23 |
Family
ID=71163464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010117286.7A Active CN111325221B (zh) | 2020-02-25 | 2020-02-25 | 基于图像深度信息的图像特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325221B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184608A (zh) * | 2020-09-30 | 2021-01-05 | 上海电力大学 | 一种基于特征转移的红外与可见光图像融合方法 |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002009025A1 (en) * | 2000-07-24 | 2002-01-31 | Seeing Machines Pty Ltd | Facial image processing system |
AU2011250783A1 (en) * | 2006-09-11 | 2011-12-08 | Apple Inc. | Media player with imaged based browsing |
CN107368798A (zh) * | 2017-07-07 | 2017-11-21 | 四川大学 | 一种基于深度学习的人群情绪识别方法 |
CN108171711A (zh) * | 2018-01-17 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于完全卷积网络的婴幼儿脑部磁共振图像分割方法 |
CN108764250A (zh) * | 2018-05-02 | 2018-11-06 | 西北工业大学 | 一种运用卷积神经网络提取本质图像的方法 |
CN109447169A (zh) * | 2018-11-02 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法及其模型的训练方法、装置和电子系统 |
CN110188816A (zh) * | 2019-05-28 | 2019-08-30 | 东南大学 | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 |
CN110378423A (zh) * | 2019-07-22 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 特征提取方法、装置、计算机设备及存储介质 |
-
2020
- 2020-02-25 CN CN202010117286.7A patent/CN111325221B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002009025A1 (en) * | 2000-07-24 | 2002-01-31 | Seeing Machines Pty Ltd | Facial image processing system |
AU2011250783A1 (en) * | 2006-09-11 | 2011-12-08 | Apple Inc. | Media player with imaged based browsing |
CN107368798A (zh) * | 2017-07-07 | 2017-11-21 | 四川大学 | 一种基于深度学习的人群情绪识别方法 |
CN108171711A (zh) * | 2018-01-17 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于完全卷积网络的婴幼儿脑部磁共振图像分割方法 |
CN108764250A (zh) * | 2018-05-02 | 2018-11-06 | 西北工业大学 | 一种运用卷积神经网络提取本质图像的方法 |
CN109447169A (zh) * | 2018-11-02 | 2019-03-08 | 北京旷视科技有限公司 | 图像处理方法及其模型的训练方法、装置和电子系统 |
CN110188816A (zh) * | 2019-05-28 | 2019-08-30 | 东南大学 | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 |
CN110378423A (zh) * | 2019-07-22 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 特征提取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
RUI YAN: "Multi-modality of polysomnography signals’ fusion for automatic sleep scoring" * |
侯赛辉: "图像物体的精细化分类方法研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184608A (zh) * | 2020-09-30 | 2021-01-05 | 上海电力大学 | 一种基于特征转移的红外与可见光图像融合方法 |
CN112184608B (zh) * | 2020-09-30 | 2023-09-01 | 上海电力大学 | 一种基于特征转移的红外与可见光图像融合方法 |
CN112651445A (zh) * | 2020-12-29 | 2021-04-13 | 广州中医药大学(广州中医药研究院) | 基于深度网络多模态信息融合的生物信息识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111325221B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Graph transformer network with temporal kernel attention for skeleton-based action recognition | |
CN108460338B (zh) | 人体姿态估计方法和装置、电子设备、存储介质、程序 | |
Hong et al. | Image-based three-dimensional human pose recovery by multiview locality-sensitive sparse retrieval | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
Salehi et al. | Generative adversarial networks (GANs): An overview of theoretical model, evaluation metrics, and recent developments | |
WO2015062209A1 (zh) | 随机森林分类模型的可视化优化处理方法及装置 | |
CN106844620B (zh) | 一种基于视图的特征匹配三维模型检索方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN110503113B (zh) | 一种基于低秩矩阵恢复的图像显著性目标检测方法 | |
CN111325221B (zh) | 基于图像深度信息的图像特征提取方法 | |
Li et al. | Task relation networks | |
CN113743474A (zh) | 基于协同半监督卷积神经网络的数字图片分类方法与系统 | |
CN112784782A (zh) | 一种基于多视角双注意网络的三维物体识别方法 | |
Kohl et al. | Learning similarity metrics for numerical simulations | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
CN116206327A (zh) | 一种基于在线知识蒸馏的图像分类方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN116611896B (zh) | 基于属性驱动解耦表征学习的多模态推荐方法 | |
Ali et al. | Deep multi view spatio temporal spectral feature embedding on skeletal sign language videos for recognition | |
CN117312594A (zh) | 一种融合双尺度特征的草图化机械零件库检索方法 | |
CN110197226B (zh) | 一种无监督图像翻译方法及系统 | |
CN116610745A (zh) | 应用数字孪生技术的ai场景信息推送处理方法及系统 | |
CN113779287B (zh) | 基于多阶段分类器网络的跨域多视角目标检索方法及装置 | |
CN113627404B (zh) | 基于因果推断的高泛化人脸替换方法、装置和电子设备 | |
CN115410000A (zh) | 对象分类方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 266000 No.1 weiwenhai Road, Aoshan, Jimo, Qingdao, Shandong Province Applicant after: Qingdao Marine Science and Technology Center Address before: 266000 No.1 weiwenhai Road, Aoshan, Jimo, Qingdao, Shandong Province Applicant before: QINGDAO NATIONAL LABORATORY FOR MARINE SCIENCE AND TECHNOLOGY DEVELOPMENT CENTER |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |