CN113256592A - 图像特征提取模型的训练方法、系统及装置 - Google Patents
图像特征提取模型的训练方法、系统及装置 Download PDFInfo
- Publication number
- CN113256592A CN113256592A CN202110628366.3A CN202110628366A CN113256592A CN 113256592 A CN113256592 A CN 113256592A CN 202110628366 A CN202110628366 A CN 202110628366A CN 113256592 A CN113256592 A CN 113256592A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- loss
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 163
- 238000000605 extraction Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 239000000523 sample Substances 0.000 claims description 192
- 230000006870 function Effects 0.000 claims description 78
- 230000009466 transformation Effects 0.000 claims description 29
- 239000013074 reference sample Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 36
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 7
- 206010027727 Mitral valve incompetence Diseases 0.000 description 6
- 238000002592 echocardiography Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 208000016569 congenital mitral valve insufficiency Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 210000005240 left ventricle Anatomy 0.000 description 2
- 208000005907 mitral valve insufficiency Diseases 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013170 computed tomography imaging Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 210000005246 left atrium Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000004115 mitral valve Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004796 pathophysiological change Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 210000000779 thoracic wall Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30048—Heart; Cardiac
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像特征提取模型的训练方法、系统及装置,其中,一种图像特征提取模型的训练方法,包括:获取影像样本集,针对每一影像样本随机获取若干单帧图像;按照预定策略对每一所述单帧图像进行预处理,获得多个图像样本;将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对损失模型进行训练,获得所述训练样本的损失函数;利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
Description
技术领域
本申请一般涉及图像处理技术领域,具体涉及一种图像特征提取模型的训练方法、系统及装置。
背景技术
医学成像技术,如彩色多普勒超声心动图,已越来越成为疾病筛查和分析的强有力工具。超声是目前疾病筛查诊断的主要技术之一,由于其检查价格低廉、筛查简便而应用广泛。
但由于超声自然的以视频流形式呈现,医生往往需要逐帧进行标注和筛查,尤其是分割标注是非常的耗时且耗力的。这是一项费时费力的工作,且准确率受医生间差异的影响。并且由于医学图像标注所需的专家知识。因此获取医学数据的标注是非常费力的。
然而,目前现有的自监督学习装置不适用于特殊的彩色多普勒超声心动图特征提取。大部分的自监督学习装置主要基于2D自然图像,其他基于医学影像数据的自监督学习装置主要应用于电子计算机断层扫描、磁共振成像数据,而彩色超声视频由于其不同的采集过程、数据格式、影像内容,目前现有的自监督学习装置无法直接迁移到该数据模态中。因此,我们需要针对彩色多普勒超声心动图设计一种特殊的自监督学习装置,从而更好的提取彩色多普勒超声心动图中的特征。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种图像特征提取模型的训练方法、装置,可以针对彩色多普勒超声心动图设计的、用于特征提取的自监督学习装置。
一方面,本申请提供了一种图像特征提取模型的训练方法,包括:
获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像;
按照预定策略对每一所述单帧图像进行预处理,获得多个图像样本;
将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;
构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数;
将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
进一步地,所述按照预定策略对所述单帧图像进行预处理,获得多个图像样本,包括:
对每一所述单帧图像进行色彩变换处理获得多张变换图像;
将每一所述变换图像分割为多个图像块并进行随机重排,获得与一个所述变换图像对应的多个图像样本。
进一步地,所述特征提取孪生网络架构包括多个结构相同的子网络,所述子网络的个数与一个所述变换图像对应的所述图像样本的数量相同,每个所述子网络的输入分别对应一个所述图像样本,其中各所述子网络中的所述特征提取模型相同;
通过所述特征提取模型获得每一所述图像样本的特征图,包括:
将一个所述变换图像对应的多个图像样本分别输入至对应的子网络中;
通过所述子网络中的所述特征提取模型提取输入的所述图像样本的特征图。
进一步地,所述损失模型包括结构特征损失模型和色彩特征损失模型;
构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数,包括:
基于多个所述图像样本的特征图,构建第一训练样本;
将所述第一训练样本输入所述结构特征损失模型中,利用所述第一训练样本对所述结构特征损失模型进行训练,得到结构损失子函数;
以及,
基于多个所述图像样本的特征图,构建第二训练样本;
将所述第二训练样本输入所述色彩特征损失模型中,利用所述第二训练样本对所述色彩特征损失模型进行训练,得到色彩损失子函数;
基于所述结构损失子函数和所述色彩损失子函数,获得所述损失函数,其中,所述损失函数为所述结构特征损失子函数和所述色彩特征损失子函数的加权;
利用所述损失函数更新所述特征提取模型的参数,迭代执行构建所述第一训练样本和所述第二训练样本;
分别对所述结构特征损失模型和色彩特征损失模型进行训练,直至所述损失函数收敛或达到设定的训练次数,得到训练好的损失模型。
优选地,基于多个所述图像样本的特征图,构建第一训练样本,包括:
分别获取由同一所述单帧图像对应的多个图像样本提取的多个特征图,每个所述特征图与所述图像样本一一对应;
基于所述单帧图像对应的一个变换图像提取的全部特征图构建子输入样本;
基于所述子输入样本构建所述第一训练样本,其中,所述第一训练样本包括多个子输入样本,所述输入样本的数量与所述单帧图像对应的变换图像数量相同。
进一步地,所述结构特征损失模型包括图像重构模型和概率计算模型;
将所述第一训练样本输入所述结构特征损失模型中,对所述结构特征损失模型进行训练,并通过所述结构特征损失模型获得结构损失子函数,包括:
将所述第一训练样本中的每个所述子输入样本依次输入至所述图像重构模型中,获得全部排列方式的重构图像;
基于一定的选取规则,从全部重构图像中选择N个所述重构图像;
从N个所述重构图像中随机选择一个所述重构图像作为目标图像,将所述目标图像输入到概率计算模型中,获得概率估计函数,所述概率估计函数为目标图像对应N个重构图像的概率值;
基于所述概率估计函数,采用交叉熵算法,计算所述特征结构子函数,所述结构子特征函数为所述第一训练样本中各子输入样本获得的概率估计函数的加权。
优选地,所述第二训练样本为三元组样本,所述三元组样本包括参考样本、若干正样本和若干负样本,所述正样本与所述参考样本通过同一所述影像样本的不同单帧图像获得,所述负样本与所述参考样本通过不同所述影像样本的不同单帧图像获得;
基于多个所述图像样本的特征图,构建第二训练样本,包括:
基于所述影像样本集中一个影像样本的第一单帧图像,获取所述第一单帧图像对应的多个图像样本提取的多个特征图,构建所述参考样本,所述参考样本为多个特征图的集合;以及,
基于与所述参考样本相同的影像样本,获取若干第二单帧图像;
基于一个所述第二单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述正样本,所述正样本为多个特征图的集合;以及,
基于与所述参考样本不同的影像样本,获取若干第三单帧图像;
基于一个所述第三单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述负样本,所述负样本为多个特征图的集合;
基于所述参考样本、正样本和负样本构建所述第二训练样本,其中,所述第二训练样本为多个特征图的集合。
进一步地,将所述第二训练样本输入所述色彩特征损失模型中对所述色彩特征损失模型进行训练,并通过所述色彩特征损失模型获得色彩损失子函数,包括:
将所述第二训练样本中的全部特征图同时输入所述色彩特征损失模型中,基于对数似然损失函数,计算所述色彩特征损失子函数。
第二方面,本申请提供了一种图像特征提取模型的训练系统,所述系统包括:
获取模块,被配置用于获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像;
预处理模块,被配置用于按照预定策略对每一所述单帧图像进行预处理,获得与一个所述单帧图像对应的多个图像样本;
训练模块,被配置用于将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;
损失计算模块,被配置用于构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数;
设置单元,被配置用于将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
第三方面,本申请提供了一种图像特征提取模型的训练装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如以上任意一项所述的图像特征提取模型的训练方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的实施例提供的一种图像特征提取模型的训练方法的流程图;
图2为本申请的实施例提供的一种损失模型的训练方法的流程图;
图3为本申请的实施例提供的一种结构特征损失模型的训练方法的流程图;
图4为本申请的实施例提供的一种构建第二训练样本的流程图;
图5为本申请的实施例提供的一种图像特征提取模型的训练方法的原理示意图;
图6为本申请的实施例提供的单帧图像预处理方法的原理示意图;
图7为本申请的实施例提供的特征提取孪生网络架构的原理示意图;
图8为本申请的实施例提供的一种图像特征提取模型的训练系统的结构框图;
图9为本申请的实施例提供的一种图像特征提取模型的训练装置的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了更清楚的描述本申请,以下为对相关技术术语的解释:
自监督学习(Self-supervised learning):是无监督学习里面的一种网络学习方法,主要希望通过设计标签进行监督学习、从而能够学习到一种通用的特征表达用于下游任务。
代理任务(Proxy task):自监督学习框架中用于挖掘数据特征且不需要目标任务标签的任务。
下游任务(downstream task):在已有的预训练网络的情况下,在目标任务上进行网络权重微调的目标任务。
超声心动图(echocardiography):超声心动图是指应用超声测距原理脉冲超声波透过胸壁、软组织测量其下各心壁、心室及瓣膜等结构的周期性活动,在显示器上显示为各结构相应的活动和时间之间的关系曲线,用记录仪记录这些曲线,即为超声心动图。
二尖瓣反流(mitral regurgitation):二尖瓣反流是当血液通过二尖瓣进入左心室后,由于二尖瓣关闭不全,本应全流入左心室的血液部分返回入左心房。二尖瓣反流是二尖瓣关闭不全的主要病理生理改变。
本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。图像是人类社会活动中最常用的信息载体,它能够提供大量关于被描述对象的信息。本申请实施例以彩色多普勒超声心动图进行示例性阐述图像特征提取模型的训练方法。
请详见图1,本申请提供了一种图像特征提取模型的训练方法,包括:
S1、获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像。
本申请实施例中,影像样本集中的影像样本采用的是彩色多普勒超声心动图,本申请实施例并不限制医学影像的类型,还可以应用其他类型的医学影像;在以下训练过程,针对的影像样本集中的每一影像样本进行训练。
本申请实施例在不需要对样本进行数据标注的情况下提取其中的数据信息,在影像样本中随机或者若干单帧图像,在本申请实施例中,单帧图像可以为灰度图像,也可以为RGB图像,本申请实施例并不限制单帧图像的类型。
S2、按照预定策略对每一所述单帧图像进行预处理,获得多个图像样本。
所述步骤S2中,具体包括:
S21、对每一所述单帧图像进行色彩变换处理获得多张变换图像;
S22、将每一所述变换图像分割为多个图像块并进行随机重排,获得与一个所述变换图像对应的多个图像样本,其中所述一个图像样本对应一个重排后的所述图像块。
在对单帧图像进行预处理的方式包括两步,进行色彩变换和空域变换,在本申请实施例中色彩变换采用随机颜色扰动,即用随机数值对图像的亮度、饱和度于色彩值进行扰动;在本申请实施例中空域变换至少包括图像分割和随机重排,在本申请中并不限制对图像预处理的顺序。
对于单帧图像可以按照一种或多种变换规则进行处理,以获得至少一阵变换图像。
例如,对于单帧图像可以将1张图像进行不同程度的颜色扰动得到2张变换图像;也可以将1张图像进行颜色扰动获得1张,基于高斯噪声变换规则进行处理为1张,得到2张变换图像;还可以将1张图像既色彩扰动又基于高斯噪声进行处理,变换得到2张变换图像。
色彩变换除了本申请实施例示出的颜色扰动,还包括对比度变换、噪声扰动等方法;空域变换除了本申请实施例示出的,还包括图像旋转平移、随机修剪、平移变换、尺度变换等,对于图像预处理的其他方法,可以基于上述变换规则选择根据与该单帧图像相关的专业领域所建议的变换,本申请在此不再赘述。
需要说明的是,在本申请实施例中,一个单帧图像对应多个变换图像,每个变换图像又对应多个图像样本,本申请并不限制变换图像的数量,变换图像的数量越多,处理过程中的计算量越大,但有利于提高特征提取结果的精度。在具体应用是,可以根据应用场景进行具体调整。
S3、将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图。
其中,所述特征提取孪生网络架构包括多个结构相同的子网络,所述子网络的个数与一个所述变换图像对应的所述图像样本的数量相同,每个所述子网络的输入分别对应一个所述图像样本,其中各所述子网络中的所述特征提取模型相同。
在步骤S3中,具体包括:将一个所述变换图像对应的多个图像样本分别输入至对应的子网络中;通过所述子网络中的所述特征提取模型提取输入的所述图像样本的特征图。
需要说明的是,在本申请实施例中,特征提取孪生网络架构中的子网络是对应一个变换图像中的全部图像样本,在其他一些实施例中,子网络的数量还可以对应多个变换图像中的全部图像样本,例如子网络的数量对应一个单帧图像获得的全部图像样本,即Q(子网络) = Q(变换图像)* Q(图像样本),其中Q()为数量。
在本申请实施例中,特征提取模型可以是机器学习模型,包括但不限于传统的机器学习模型、神经网络模型等,例如,神经网络可以采用卷积神经网络CNN、深度神经网络DNN、循环神经网络RNN、自编码神经网络AENN、稀疏自编码机SAE等各种常见的神经网络架构,或采用基于常见神经网络架构实现的神经网络产品,例如AlexNet、VGGNet、GoogleInception Net、ResNet等,也可以根据神经网络的原理设计神经网络结构。
在以下本申请实施例中,采用ResNet的神经网络进行示例性描述,ResNet网络模型为一种用于特征提取的残差学习网络。
特征提取层可以为一个5层的卷积神经网络,比如图2中所示,conv_f1-conv_f5即为该5个二维卷积层。conv_f1可以为一个卷积核为5*5、步长为2的二维卷积层,通过这一层可以减小待处理图像的分辨率,也就是通过这一层对待处理图像进行下采样,这样可以减少占用内存及计算开销,并且能够增大特征提取时卷积核的感受野,进而更好地提取全局特征。
具体的,第一下采样倍数x可以预先设定,比如,x可以为2,也就是将待处理图像的分辨率减少二分之一。为了与下面内容中的采样倍数相区分,这里将特征提取层中的采样倍数称为第一采样倍数x。
conv_f2-conv_f5这四个二维卷积层均可以为卷积核为3*3、步长为1的二维卷积层,而且conv_f2和conv_f4中之后均可以跟随一个BN(Batch Normalization,批规范化)层和一个RELU激活层。5个二维卷积层的输出通道数相同,或者说,特征提取层中每层的输出通道数相同,记为F。F具体不做限定。
S4、构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数。
在本申请实施例中,通过计算输入特征提取模型中图像的自监督损失,并利用梯度下降的策略来优化孪生网络架构中特征提取模型的参数,经过多次训练后,会通过特征提取模型提取到较优的图像特征表示。
S5、将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
在步骤S5中,利用损失函数对特征提取模型的参数进行调整,利用优化后的特征提取模型的参数更新特征提取孪生网络架构,重复上述步骤S2到步骤S4,直至训练图像的损失函数收敛或者达到预定的训练次数,最后得到训练完成的特征提取模型。
示例性地,d为每次调整性能参数的变化量,则可以将-kd+a作为特征提取模型的损失函数的值,对特征提取模型的参数进行调整;其中,k为预设的正系数,a为阈值,保证损失函数的值为正值。可以理解的是,当性能参数降低时,d为负数,且降低程度越高,d越小,则特征提取模型的损失函数的值越大,特征提取模型调整程度更大;相反地,当性能参数提升时,d为正数,且提升程度越高,d越大,则特征提取模型的损失函数的值越小,则特征提取模型调整程度更小。
在本申请实施例中,所述损失模型包括结构特征损失模型和色彩特征损失模型。在步骤S4中,基于自监督方式对所述损失模型进行训练,包括:如图2所示;
S10、基于多个所述图像样本的特征图,构建第一训练样本;
S20、将所述第一训练样本输入所述结构特征损失模型中,利用所述第一训练样本对所述结构特征损失模型进行训练,得到结构损失子函数;
以及,
S30、基于多个所述图像样本的特征图,构建第二训练样本;
S40、将所述第二训练样本输入所述色彩特征损失模型中,利用所述第二训练样本对所述色彩特征损失模型进行训练,得到色彩损失子函数;
S50、基于所述结构损失子函数和所述色彩损失子函数,获得所述损失函数,其中,所述损失函数为所述结构特征损失子函数和所述色彩特征损失子函数的加权;
S60、利用所述损失函数更新所述特征提取模型的参数,迭代执行构建所述第一训练样本和所述第二训练样本;
S70、分别对所述结构特征损失模型和色彩特征损失模型进行训练,直至所述损失函数收敛或达到设定的训练次数,得到训练好的损失模型。
在本申请实施例中,将损失函数分解为两部分,一部分为对图像进行空域变换(剪裁和随机排列)产生的结构损失,一部分为对图像进行色彩变化(色彩扰动)产生的色彩损失。针对结构损失部分,本申请设计了一个代理任务来重新排列并进行复原图像。针对色彩损失部分,本申请设计了另一个代理接任务来计算色彩变换容忍,从而孪生网络更加关注与颜色相关的信息。以下进行具体阐述。
对于结构特征损失模型的训练,代理任务是通过对所有图像块进行重排,获取全部的排列方式,并从全部的排列方式中抽取一种排列方式,以结构复原为目标的网络用来识别选定的排列,这里可以看做为一个分类任务。由于全部的排列方式作为类别,计算量较为庞大,在本申请实施例中,从全部的排列方式中抽取了N个排列方式作为样本标签,因此,可以通过图像重构模型用来识别选定的排列是属于N个标签的可能性。
在本申请实施例中,分类任务可以是基于图像重构模型提取出的图像特征,通过概率计算模型计算该图像特征属于各对象类别的概率值。示例性地,概率计算模型可以通过各种分类网络实现,如逻辑回归logistic regression网络、归一化指数Softmax网络等。
针对该图像而言,常规的交叉熵损失是计算真实的对象分类概率分布与预测的对象分类概率分布之间的差异,即对象标签数据与对象分类数据之间的损失。
在步骤S10中,基于多个所述图像样本的特征图,构建第一训练样本,包括:
分别获取由同一所述单帧图像对应的多个图像样本提取的多个特征图,每个所述特征图与所述图像样本一一对应;
基于所述单帧图像对应的一个变换图像提取的全部特征图构建所述子输入样本;
基于所述子输入样本构建所述第一训练样本,其中,所述第一训练样本包括多个子输入样本,所述输入样本的数量与所述单帧图像对应的变换图像数量相同。
在本申请实施例中,所述结构特征损失模型包括图像重构模型和概率计算模型;在步骤S20中,如图3所示一种结构特征损失模型的训练方法,具体包括:
S201、将所述第一训练样本中的每个所述子输入样本依次输入至所述图像重构模型中,对所述子输入样本中的特征图进行重新排列,并获得全部排列方式的重构图像。
在步骤S201中,将一个变换图像对应的全部特征图像输入至图像重构模型中,通过图像重构模型,获得全部特征图像的全部排列方式,即对特征图进行重新排列,并获得每一排列对应的重构图像。
S202、基于一定的选取规则,从全部重构图像中选择N个所述重构图像。
在步骤S202中,示例性地,本申请实施中选取的规则,包括:
随机抽取一个重构图像为标准图像,计算所述标准图像与其他重构图像之间的数学距离;将所述数学距离的大小进行降序排列,选择排列中前N个数学距离对应的重构图像,N为预设正整数。
S203、从N个所述重构图像中随机选择一个所述重构图像作为目标图像,将所述目标图像输入到概率计算模型中,获得概率估计函数,所述概率估计函数为目标图像对应N个重构图像的概率值。
在步骤S203中,在具体实施时,包括:通过重构模型对重构图形进行特征提取,获得重构模型对应的重构特征向量。其中,将所述目标图像输入到概率计算模型中,获得概率估计函数,包括:将目标图像对应的重构特征向量输入到概率计算模型;所述概率计算模型为Softmax层,通过Softmax层输出预测的所属标签类别(N个类别)概率图。
S204、基于所述概率估计函数,采用交叉熵算法,计算所述特征结构子函数,所述结构子特征函数为所述第一训练样本中各子输入样本获得的概率估计函数的加权。
所述概率估计函数的表达式为:
需要说明的是,在本申请实施例中,降低标签数量的方式为通过分割后图像块的全部排列方式,通过选择一个图像与其他图像之间的数学距离来作为选择标准,通过计算图像之间的数学距离,表征图像之间的结构化特征,在其他一些实施例中,还可以通过其他的方式来选择有限个图像作为标签,基于相同的原理,不再赘述。
其中,所述数学距离包括欧氏距离、曼哈顿距离、切比雪夫距离、汉明距离中的至少一种。数学距离取值大小与图像之间的结构化特征呈负相关。也就说,数学距离的取值越大,则表示标准向量对应的重构图像和其他重构特征向量对应的重构图像之间的结构相似性越低。
在本申请实施例中,通过图像重构模型对输入的各图像块的特征图进行拼接获得重构图像,并提取重构图像获得对应的重构特征向量,通过全连通层输入至概率计算模型中,计算概率估计函数。
需要说明的是,本申请实施例中,对图像重构并计算概率估计的方法并不唯一,本文不作具体限定。
在本申请实施例中,对于色彩特征损失模型的训练,代理任务是通过对自监督损失在内的损失函数训练得到的,所述自监督损失包括训练样本中同一对象的不同变换图像的对象分类数据之间的损失,所述对象分类数据是基于图像特征进行分类处理所得到的。
自监督损失(self-supervision loss)包括训练样本中同一对象的不同变换图像的对象分类数据之间的损失。
可以理解的是,自监督损失可以在训练过程中约束同一对象的不同变换图像的对象分类数据之间的差距,而同一对象的不同变换图像的对象分类数据是基于同一对象的不同变换图像的图像特征,采用了同一分类网络进行分类处理得到的,因此自监督损失可以约束同一对象的不同变换图像的图像特征之间的差距。
在本申请实施中,所述第二训练样本为三元组样本,所述三元组样本包括参考样本、若干正样本和若干负样本,所述正样本与所述参考样本通过同一所述影像样本的不同单帧图像获得,所述负样本与所述参考样本通过不同所述影像样本的不同单帧图像获得。
在本申请实施例中,所述步骤S30中,如图4所示,基于多个所述图像样本的特征图,构建第二训练样本,包括:
S301、基于所述影像样本集中一个影像样本的第一单帧图像,获取所述第一单帧图像对应的多个图像样本提取的多个特征图,构建所述参考样本,所述参考样本为多个特征图的集合;以及,
S302、基于与所述参考样本相同的影像样本,获取若干第二单帧图像;
S303、基于一个所述第二单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述正样本,所述正样本为多个特征图的集合;以及,
S304、基于与所述参考样本不同的影像样本,获取若干第三单帧图像;
S305、基于一个所述第三单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述负样本,所述负样本为多个特征图的集合;
S306、基于所述参考样本、正样本和负样本构建所述第二训练样本,其中,所述第二训练样本为多个特征图的集合。
在本实施例中,第二训练样本来自至少六个图像,所述六个图像来自于两个不同视频对象,从一个视频中选取两张单帧图像,从另一视频中选取一张单帧图像,分别进行两次色彩扰动的预处理,从三张原始图像变化为六张变换图像;将所述变换图像输入至特征提取模型中进行特征提取,获得的特征图组成所述第二训练样本。
在本申请实施例中,所述步骤S40中,包括:将所述第二训练样本中的全部特征图同时输入所述色彩特征损失模型中,基于对数似然损失函数,计算所述色彩特征损失子函数。
在本申请实施例中,从若干个视频样本中分别采集单帧图像子集,对图像子集中的各个图像进行两次色彩-分割-排列变换,获得图像样本,将图像样本输入至特征提取模型中,获得对应各个图像的特征图,表示为,并获得的各个图像的特征图输入至Softmax分类器中,计算色彩自监督损失。
在本申请实施例中Softmax层的输入为全连接层的第二训练样本,输出为经过Softmax函数之后的归一化结果,对于归一化结果通过对数似然函数计算样本的自监督损失。
第二训练样本的损失可以表示为:
三元组损失可以拉近来自同一视频对象的不同变换图像特征之间的距离,拉远不同视频对象的不同变换图像特征之间的距离,优化了图像特征提取模型中图像特征提取的性能,使得图像特征提取模型对于不同视频对象的不同变换图像更加敏感,而对同一视频对象的不同变换图像不敏感,可以进一步提高跨变换比对的准确性。
下面结合实际的应用场景对本说明书实施例的方法进行示例介绍。
本申请实施例针对彩色多普勒超声心动图,提出了一种图像特征提取方法,如图5所示,能够在不需要进行数据标注的情况下提取其中的数据信息。
从输入影像样本X中随机选择一个单帧图像,通过两次的色彩扰动,获得变换图像z1和z2,如图6所示。
将两个图像样本输入至特征提取孪生网络架构,孪生网络中包括两个网络,将图像样本分别输入至对应的网络中,每个网络中的特征提取模型是一样的,特征提取模型设置有9个共享权重分支,如图7所示,分别对应着分割后的9个图像块,将图像块输入至特征提取模型中提取特征。
通过表达式(1)计算结构损失子函数:,其中k为第k个图像样本,k=1,2; i为第一训练样本中第i个子输入样本;为第k个图像样本的第i个子输入样本预测的概率估计函数;为第i个子输入样本的真实的重构特征向量;为第一训练样本中子输入样本的数量。
将获得的特征图输入至色彩特征损失模型中,通过表达式(2)和(3)计算色彩损失子函数:
其中,i,j为单帧图像子集{x}中的第i,j个图像,N为单帧图像子集{x}中图像数量,u,v为图像块的排列位置。
将损失函数反传,优化特征提取模型的参数。
随机选取所述影像样本集中的影响样本,迭代输入所述特征提取模型及损失模型中,直至所述损失函数模型收敛或者达到预定的训练次数,得到训练好的特征提取模型。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
进一步参考图8,其示出了根据本申请一个实施例的图像特征提取模型的训练系统800的示例性结构框图。
所述系统包括:
获取模块801,被配置用于获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像;
预处理模块802,被配置用于按照预定策略对每一所述单帧图像进行预处理,获得多个图像样本;
训练模块803,被配置用于将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;
损失计算模块804,被配置用于构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数;
设置单元805,被配置用于将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
应当理解,系统800中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于系统800及其中包含的单元,在此不再赘述。系统800可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。系统800中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
进一步参考图9,其示出了根据本申请一个实施例的图像特征提取模型的训练装置900的结构示意图。
本实施例的图像特征提取模型的训练方法的执行主体为图像特征提取模型的训练装置,图像特征提取模型的训练装置可以由软件和/或硬件的方式实现,该实施例中的图像特征提取模型的训练装置可以配置在电子设备中,也可以配置在用于对电子设备进行控制的服务器中,该服务器与电子设备进行通信进而对其进行控制。
其中,本实施例中的电子设备可以包括但不限于个人计算、平台电脑、智能手机、智能音箱等设备,该实施例对电子设备不作具体限定。
本实施例的图像特征提取模型的训练装置900,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如以上任一项所述的方法。
在本申请实施例中,处理器是具有执行逻辑运算的处理器件,例如中央处理器(CPU)、现场可编程逻辑阵列(FPGA)、数字信号处理器(DSP)、单片机(MCU)、专用逻辑电路(ASIC)、图像处理器(GPU)等具有数据处理能力和/或程序执行能力的器件。容易理解,处理器通常通讯连接存储器,在存储器上存储一个或多个计算机程序产品的任意组合,存储器可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、USB存储器、闪存等。在存储器上可以存储一个或多个计算机指令,处理器可以运行所述计算机指令,以实现相关的分析功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
在本申请实施例中,各模块都可以通过处理器执行相关计算机指令实现,例如图像处理模块可以通过处理器执行图像变换算法的指令实现、机器学习模块可以通过处理器执行机器学习算法的指令实现、神经网络可以通过处理器执行神经网络算法的指令实现。
在本申请实施例中,各模块可以运行在同一个处理器上,也可以运行在多个处理器上;各模块可以运行在同一架构的处理器上,例如均在X86体系的处理器上运行,也可以运行在不同架构的处理器上,例如图像处理模块运行在X86体系的CPU,机器学习模块运行在GPU。各模块可以封装在一个计算机产品中,例如各模块封装在一个计算机软件并运行在一台计算机(服务器),也可以各自或部分封装在不同的计算机产品,例如图像处理模块封装在一个计算机软件中并运行在一台计算机(服务器),机器学习模块分别封装在单独的计算机软件中并运行在另一台或多台计算机(服务器);各模块执行时的计算平台可以是本地计算,也可以是云计算,还可以是本地计算与云计算构成的混合计算。
计算机系统包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中,还存储有系统的操作指令所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905;包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本申请的实施例,上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的系统中限定的上述功能。
本申请实施例提供的电子设备上设置有计算机可读存储介质,其中,计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如以上任一项所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文中所使用的技术和科学术语与本发明的技术领域的技术人员通常理解的含义相同。本文中使用的术语只是为了描述具体的实施目的,不是旨在限制本发明。本文中出现的诸如“设置”等术语既可以表示一个部件直接附接至另一个部件,也可以表示一个部件通过中间件附接至另一个部件。本文中在一个实施方式中描述的特征可以单独地或与其它特征结合地应用于另一个实施方式,除非该特征在该另一个实施方式中不适用或是另有说明。
本发明已经通过上述实施方式进行了说明,但应当理解的是,上述实施方式只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施方式范围内。本领域技术人员可以理解的是,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。
Claims (10)
1.一种图像特征提取模型的训练方法,其特征在于,包括:
获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像;
按照预定策略对每一所述单帧图像进行预处理,获得多个图像样本;
将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;
构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数;
将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述按照预定策略对所述单帧图像进行预处理,获得多个图像样本,包括:
对每一所述单帧图像进行色彩变换处理获得多张变换图像;
将每一所述变换图像分割为多个图像块并进行随机重排,获得与一个所述变换图像对应的多个图像样本,其中所述一个图像样本对应一个重排后的所述图像块。
3.根据权利要求2所述的方法,其特征在于,所述特征提取孪生网络架构包括多个结构相同的子网络,所述子网络的个数与一个所述变换图像对应的所述图像样本的数量相同,每个所述子网络的输入分别对应一个所述图像样本,其中各所述子网络中的所述特征提取模型相同;
通过所述特征提取模型获得每一所述图像样本的特征图,包括:
将一个所述变换图像对应的多个图像样本分别输入至对应的子网络中;通过所述子网络中的所述特征提取模型提取输入的所述图像样本的特征图。
4.根据权利要求2所述的方法,其特征在于,所述损失模型包括结构特征损失模型和色彩特征损失模型;
构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数,包括:
基于多个所述图像样本的特征图,构建第一训练样本;
将所述第一训练样本输入所述结构特征损失模型中,利用所述第一训练样本对所述结构特征损失模型进行训练,得到结构损失子函数;
以及,
基于多个所述图像样本的特征图,构建第二训练样本;
将所述第二训练样本输入所述色彩特征损失模型中,利用所述第二训练样本对所述色彩特征损失模型进行训练,得到色彩损失子函数;
基于所述结构损失子函数和所述色彩损失子函数,获得所述损失函数,其中,所述损失函数为所述结构特征损失子函数和所述色彩特征损失子函数的加权;
利用所述损失函数更新所述特征提取模型的参数,迭代执行构建所述第一训练样本和所述第二训练样本;分别对所述结构特征损失模型和色彩特征损失模型进行训练,直至所述损失函数收敛或达到设定的训练次数,得到训练好的损失模型。
5.根据权利要求4所述的方法,其特征在于,基于多个所述图像样本的特征图,构建第一训练样本,包括:
分别获取由同一所述单帧图像对应的多个图像样本提取的多个特征图,每个所述特征图与所述图像样本一一对应;
基于所述单帧图像对应的一个变换图像提取的全部特征图构建子输入样本;
基于所述子输入样本构建所述第一训练样本,其中,所述第一训练样本包括多个子输入样本,所述输入样本的数量与所述单帧图像对应的变换图像数量相同。
6.根据权利要求5所述的方法,其特征在于,所述结构特征损失模型包括图像重构模型和概率计算模型;
将所述第一训练样本输入所述结构特征损失模型中,对所述结构特征损失模型进行训练,并通过所述结构特征损失模型获得结构损失子函数,包括:
将所述第一训练样本中的每个所述子输入样本依次输入至所述图像重构模型中,对所述子输入样本中的特征图进行重新排列,并获得全部排列方式的重构图像;
基于一定的选取规则,从全部重构图像中选择N个所述重构图像;
从N个所述重构图像中随机选择一个所述重构图像作为目标图像,将所述目标图像输入到概率计算模型中,获得概率估计函数,所述概率估计函数为目标图像对应N个重构图像的概率值;
基于所述概率估计函数,采用交叉熵算法,计算所述特征结构子函数,所述结构子特征函数为所述第一训练样本中各子输入样本获得的概率估计函数的加权。
7.根据权利要求4所述的方法,其特征在于,所述第二训练样本为三元组样本,所述三元组样本包括参考样本、若干正样本和若干负样本,所述正样本与所述参考样本通过同一所述影像样本的不同单帧图像获得,所述负样本与所述参考样本通过不同所述影像样本的不同单帧图像获得;
基于多个所述图像样本的特征图,构建第二训练样本,包括:
基于所述影像样本集中一个影像样本的第一单帧图像,获取所述第一单帧图像对应的多个图像样本提取的多个特征图,构建所述参考样本,所述参考样本为多个特征图的集合;以及,
基于与所述参考样本相同的影像样本,获取若干第二单帧图像;
基于一个所述第二单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述正样本,所述正样本为多个特征图的集合;以及,
基于与所述参考样本不同的影像样本,获取若干第三单帧图像;
基于一个所述第三单帧图像,获取对应的多个图像样本提取的多个特征图,构建所述负样本,所述负样本为多个特征图的集合;
基于所述参考样本、正样本和负样本构建所述第二训练样本,其中,所述第二训练样本为多个特征图的集合。
8.根据权利要求7所述的方法,其特征在于,将所述第二训练样本输入所述色彩特征损失模型中对所述色彩特征损失模型进行训练,并通过所述色彩特征损失模型获得色彩损失子函数,包括:
将所述第二训练样本中的全部特征图同时输入所述色彩特征损失模型中,基于对数似然损失函数,计算所述色彩特征损失子函数。
9.一种图像特征提取模型的训练系统,其特征在于,所述系统包括:
获取模块,被配置用于获取影像样本集,所述影像样本集包括至少一个影像样本,针对每一影像样本随机获取若干单帧图像;
预处理模块,被配置用于按照预定策略对每一所述单帧图像进行预处理,获得与一个所述单帧图像对应的多个图像样本;
训练模块,被配置用于将所述多个图像样本输入至特征提取孪生网络架构中,所述特征提取孪生网络架构由若干特征提取模型组建,通过所述特征提取模型获得每一所述图像样本的特征图;
损失计算模块,被配置用于构建损失模型,基于所述多个图像样本的特征图构建训练样本,通过自监督方式对所述损失模型进行训练,并通过所述损失模型获得所述训练样本的损失函数;
设置单元,被配置用于将所述损失函数反传至所述特征提取孪生网络架构中,利用所述损失函数更新所述特征提取模型的参数,以完成所述特征提取模型的训练。
10.一种图像特征提取模型的训练装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的图像特征提取模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628366.3A CN113256592B (zh) | 2021-06-07 | 2021-06-07 | 图像特征提取模型的训练方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628366.3A CN113256592B (zh) | 2021-06-07 | 2021-06-07 | 图像特征提取模型的训练方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256592A true CN113256592A (zh) | 2021-08-13 |
CN113256592B CN113256592B (zh) | 2021-10-08 |
Family
ID=77186592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628366.3A Active CN113256592B (zh) | 2021-06-07 | 2021-06-07 | 图像特征提取模型的训练方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256592B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657528A (zh) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | 图像特征点提取方法、装置、计算机终端及存储介质 |
CN113723070A (zh) * | 2021-08-20 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN114372974A (zh) * | 2022-01-12 | 2022-04-19 | 北京字节跳动网络技术有限公司 | 图像检测方法、装置、设备及存储介质 |
CN115131198A (zh) * | 2022-04-12 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408495A (zh) * | 2015-11-06 | 2017-02-15 | 河南师范大学 | 一种基于混沌理论的高psnr脆弱水印方法 |
CN106650913A (zh) * | 2016-12-31 | 2017-05-10 | 中国科学技术大学 | 一种基于深度卷积神经网络的车流密度估计方法 |
CN106874840A (zh) * | 2016-12-30 | 2017-06-20 | 东软集团股份有限公司 | 车辆信息识别方法及装置 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN108596224A (zh) * | 2018-04-12 | 2018-09-28 | 清华大学 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
CN108764471A (zh) * | 2018-05-17 | 2018-11-06 | 西安电子科技大学 | 基于特征冗余分析的神经网络跨层剪枝方法 |
CN109033095A (zh) * | 2018-08-01 | 2018-12-18 | 苏州科技大学 | 基于注意力机制的目标变换方法 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及系统 |
CN110717905A (zh) * | 2019-09-30 | 2020-01-21 | 上海联影智能医疗科技有限公司 | 脑部图像检测方法、计算机设备和存储介质 |
CN110880165A (zh) * | 2019-10-15 | 2020-03-13 | 杭州电子科技大学 | 一种基于轮廓和颜色特征融合编码的图像去雾方法 |
CN111027464A (zh) * | 2019-12-09 | 2020-04-17 | 大连理工大学 | 对卷积神经网络和序特征编码联合优化的虹膜识别方法 |
CN111046962A (zh) * | 2019-12-16 | 2020-04-21 | 中国人民解放军战略支援部队信息工程大学 | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111695447A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于孪生特征增强网络的道路可行驶区域检测方法 |
CN112017198A (zh) * | 2020-10-16 | 2020-12-01 | 湖南师范大学 | 基于自注意力机制多尺度特征的右心室分割方法及装置 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN112785575A (zh) * | 2021-01-25 | 2021-05-11 | 清华大学 | 一种图像处理的方法、装置和存储介质 |
CN112818809A (zh) * | 2021-01-25 | 2021-05-18 | 清华大学 | 一种检测图像信息的方法、装置和存储介质 |
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
-
2021
- 2021-06-07 CN CN202110628366.3A patent/CN113256592B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408495A (zh) * | 2015-11-06 | 2017-02-15 | 河南师范大学 | 一种基于混沌理论的高psnr脆弱水印方法 |
CN106874840A (zh) * | 2016-12-30 | 2017-06-20 | 东软集团股份有限公司 | 车辆信息识别方法及装置 |
CN106650913A (zh) * | 2016-12-31 | 2017-05-10 | 中国科学技术大学 | 一种基于深度卷积神经网络的车流密度估计方法 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN108596224A (zh) * | 2018-04-12 | 2018-09-28 | 清华大学 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
CN108764471A (zh) * | 2018-05-17 | 2018-11-06 | 西安电子科技大学 | 基于特征冗余分析的神经网络跨层剪枝方法 |
CN109033095A (zh) * | 2018-08-01 | 2018-12-18 | 苏州科技大学 | 基于注意力机制的目标变换方法 |
CN110084215A (zh) * | 2019-05-05 | 2019-08-02 | 上海海事大学 | 一种二值化三元组孪生网络模型的行人重识别方法及系统 |
CN110717905A (zh) * | 2019-09-30 | 2020-01-21 | 上海联影智能医疗科技有限公司 | 脑部图像检测方法、计算机设备和存储介质 |
CN110880165A (zh) * | 2019-10-15 | 2020-03-13 | 杭州电子科技大学 | 一种基于轮廓和颜色特征融合编码的图像去雾方法 |
CN111027464A (zh) * | 2019-12-09 | 2020-04-17 | 大连理工大学 | 对卷积神经网络和序特征编码联合优化的虹膜识别方法 |
CN111046962A (zh) * | 2019-12-16 | 2020-04-21 | 中国人民解放军战略支援部队信息工程大学 | 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统 |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111695447A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于孪生特征增强网络的道路可行驶区域检测方法 |
CN112017198A (zh) * | 2020-10-16 | 2020-12-01 | 湖南师范大学 | 基于自注意力机制多尺度特征的右心室分割方法及装置 |
CN112785575A (zh) * | 2021-01-25 | 2021-05-11 | 清华大学 | 一种图像处理的方法、装置和存储介质 |
CN112818809A (zh) * | 2021-01-25 | 2021-05-18 | 清华大学 | 一种检测图像信息的方法、装置和存储介质 |
CN112862669A (zh) * | 2021-02-02 | 2021-05-28 | 百果园技术(新加坡)有限公司 | 图像生成模型的训练方法、生成方法、装置及设备 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
VIPIN TYAGI等: ""A hybrid copy-move image forgery detection technique based on Fourier-Mellin and scale invariant feature transform"", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
沈雁等: ""基于改进深度孪生网络的分类器及其应用"", 《计算机工程与应用》 * |
罗晖等: ""压缩感知视频图像重构算法综述"", 《电脑知识与技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723070A (zh) * | 2021-08-20 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN113723070B (zh) * | 2021-08-20 | 2024-01-23 | 上海浦东发展银行股份有限公司 | 文本相似度模型训练方法、文本相似度检测方法及装置 |
CN113657528A (zh) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | 图像特征点提取方法、装置、计算机终端及存储介质 |
CN113657528B (zh) * | 2021-08-24 | 2024-02-13 | 湖南国科微电子股份有限公司 | 图像特征点提取方法、装置、计算机终端及存储介质 |
CN114372974A (zh) * | 2022-01-12 | 2022-04-19 | 北京字节跳动网络技术有限公司 | 图像检测方法、装置、设备及存储介质 |
CN114372974B (zh) * | 2022-01-12 | 2024-03-08 | 抖音视界有限公司 | 图像检测方法、装置、设备及存储介质 |
CN115131198A (zh) * | 2022-04-12 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
CN115131198B (zh) * | 2022-04-12 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113256592B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3511942B1 (en) | Cross-domain image analysis using deep image-to-image networks and adversarial networks | |
CN113256592B (zh) | 图像特征提取模型的训练方法、系统及装置 | |
Xue et al. | Segan: Adversarial network with multi-scale l 1 loss for medical image segmentation | |
US20200311871A1 (en) | Image reconstruction method and device | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
CN111667483B (zh) | 多模态图像的分割模型的训练方法、图像处理方法和装置 | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
KR102160390B1 (ko) | 인공지능 기반의 사용자 의료정보 분석 방법 및 시스템 | |
Feng et al. | Supervoxel based weakly-supervised multi-level 3D CNNs for lung nodule detection and segmentation | |
CN111091010A (zh) | 相似度确定、网络训练、查找方法及装置和存储介质 | |
Sirjani et al. | Automatic cardiac evaluations using a deep video object segmentation network | |
CN114926479A (zh) | 图像处理方法及装置 | |
CN113850796A (zh) | 基于ct数据的肺部疾病识别方法及装置、介质和电子设备 | |
CN113724185B (zh) | 用于图像分类的模型处理方法、装置及存储介质 | |
Mishra et al. | Global U-net with amalgamation of inception model and improved kernel variation for MRI brain image segmentation | |
Cheng et al. | Multi-attention mechanism medical image segmentation combined with word embedding technology | |
CN117616467A (zh) | 训练并使用深度学习算法来基于降维表示比较医学图像的方法 | |
US20240104718A1 (en) | Machine learning image analysis based on explicit equipment parameters | |
Wang et al. | FBUNet: Full convolutional network based on fusion block architecture for biomedical image segmentation | |
Pálsson et al. | Semi-supervised variational autoencoder for survival prediction | |
US20240177459A1 (en) | Variable confidence machine learning | |
Devisri et al. | Fetal growth analysis from ultrasound videos based on different biometrics using optimal segmentation and hybrid classifier | |
Makaroff et al. | Chan-Vese Attention U-Net: An attention mechanism for robust segmentation | |
Yüksel et al. | Deep learning for medicine and remote sensing: a brief review | |
KR102442591B1 (ko) | 라벨 생성 방법, 프로그램 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |