CN112233102A - 图像样本集中噪声的识别方法、装置、设备及存储介质 - Google Patents
图像样本集中噪声的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112233102A CN112233102A CN202011157403.9A CN202011157403A CN112233102A CN 112233102 A CN112233102 A CN 112233102A CN 202011157403 A CN202011157403 A CN 202011157403A CN 112233102 A CN112233102 A CN 112233102A
- Authority
- CN
- China
- Prior art keywords
- image sample
- model
- fitting state
- sample set
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 90
- 230000005477 standard model Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 31
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 14
- 239000000523 sample Substances 0.000 description 164
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 208000031940 Disease Attributes Diseases 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 4
- 238000002591 computed tomography Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003749 cleanliness Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10081—Computed x-ray tomography [CT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机器学习技术领域,具体是一种图像样本集中噪声的识别方法、装置、设备及存储介质,所述方法包括:获取图像样本集;基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种图像样本集中噪声的识别方法、装置、设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的研究和进步,AI技术在多个领域展开了研究和应用,例如金融、医疗以及游戏行业等。
在智能医疗领域内,可以利用机器学习技术对相关医学影像图片进行处理,实现对疾病属性的识别。具体地,可以通过若干人工标注的训练样本图片训练机器学习模型,利用训练好的机器学习模型在相关医学影像图片中确定疾病区域、识别疾病属性等。在训练机器学习模型时,需要收集疾病的多个医学影像图片作为训练样本数据,在训练样本数据中可能存在采样质量不合格(例如包含金属伪影)、患者移位导致目标区域缺失等噪声数据,导致训练好的机器学习模型鲁棒性较差。因此,需要将上述噪声数据快速筛除,提升训练样本“干净”程度,从而增强模型鲁棒性。
现有技术中,一般通过记录样本在训练过程中不同阶段的损失值,经过统计之后(例如统计样本的均值或者方差),在一定程度上能找出噪声样本。但是,一般的训练过程会从欠拟合过渡到过拟合,直接采用这样的训练过程会有两方面的问题,一方面是如果噪声样本被拟合了,损失值会下降得很快,另一面是难以确定噪声样本在什么时候被拟合。由于上述两方面问题,导致统计结果的可信度较差。因此,现有技术又提出了循环训练的概念,即通过调整学习率,使得学习率从原始值线性下降然后再回到初始值,反复进行这个过程,使得网络在欠拟合和过拟合之间反复交替切换,来识别噪声样本。但这种方案要求网络反复进行训练,使得样本筛选过程十分耗时,且对计算资源要求较高,导致无法很快对一些紧急需求进行响应,如面对扩散迅速的传染性疾病,花费大量时间进行训练数据筛选是不可接受的。
发明内容
针对现有技术的上述问题,本发明的目的在于提供一种图像样本集中噪声的识别方法、装置、设备及存储介质,能够提高识别图像样本集中的噪声样本的速率,大幅度降低样本筛选的耗时。
为了解决上述问题,本发明提供一种图像样本集中噪声的识别方法,包括:
获取图像样本集;
基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;
获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;
根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;
根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
本发明另一方面提供一种图像样本集中噪声的识别装置,包括:
图像样本集获取模块,用于获取图像样本集;
第一模型训练模块,用于基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;
损失值获取模块,用于获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;
损失统计值确定模块,用于根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;
噪声样本确定模块,用于根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
本发明另一方面提供一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述的图像样本集中噪声的识别方法。
本发明另一方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述的图像样本集中噪声的识别方法。
本发明另一方面提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的图像样本集中噪声的识别方法。
由于上述技术方案,本发明具有以下有益效果:
本发明的图像样本集中噪声的识别方法,通过基于待识别噪声的图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,并在模型训练过程中基于预设标准模型进行对照学习确定所述模型在训练过程中的多个拟合状态,根据所述图像样本集中的各个图像样本在每个拟合状态对应的损失值来确定噪声样本,仅需一次完整训练即可确定噪声图像样本,能够提高识别图像样本集中的噪声样本的速率,大幅度降低样本筛选的耗时,提升训练集的干净程度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明一个实施例提供的实施环境示意图;
图2是本发明一个实施例提供的图像样本集中噪声的识别方法的流程图;
图3是本发明一个实施例提供的图像样本集中噪声的识别的结构示意图;
图4是本发明一个实施例提供的两个结构为10层的模型之间的网络表达相似度的示意图;
图5是本发明一个实施例提供的结构为14层的模型与结构为32层的模型之间的网络表达相似度的示意图;
图6是本发明另一个实施例提供的图像样本集中噪声的识别方法的流程图;
图7是本发明一个实施例提供的图像样本集中噪声的识别装置的结构示意图;
图8是本发明另一个实施例提供的图像样本集中噪声的识别装置的结构示意图;
图9是本发明一个实施例提供的服务器的结构示意图。
具体实施方式
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供的方案涉及人工智能的机器学习领域。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对本发明实施例中所涉及的相关术语做以下解释:
卷积神经网络(Convolutional Neural Networks,CNN):深度学习的基础网络框架,利用卷积、池化等操作提取图像特征,实现图像分类、分割等任务。
特征图谱(Feature Map):图像和滤波器进行卷积后得到的特征图。Feature Map可以和滤波器进行卷积生成新的Feature Map。
中心内核对齐(Centered Kernel Alignment,CKA):一种用于衡量网络表达相似度的度量函数,由Hinton于2019年提出。
希尔伯特-施密特独立性(Hilbert-Schmidt Independence Criterion,HSIC):一种统计学量值,意在衡量两个集合是否相互独立。
参考说明书附图1,其示出了本发明实施例提供的一种实施环境示意图,该实施环境可以包括终端110和服务器120。所述终端110以及所述服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。具体地,所述服务器120可以对所述终端110提供的数据进行数据接入。
所述终端110可以包括智能手机、平板电脑、笔记本电脑、台式计算机、数字助理、智能音箱、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等,但并不局限于此。本发明实施例中的终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
所述服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在实际应用中,所述终端110可以通过图像采集设备采集多张图片,将采集的图片发送至所述服务器120,所述服务器120可以利用获取到的图片进行机器学习训练,得到图片分类模型、图片识别模型等模型。由于光线变化或者拍摄对象移动等原因可能导致图片质量不合格,因此所述服务器120还可以采用本发明实施例提供的方法将噪声图片快速筛除,提升训练集的“干净”程度,从而增强训练得到的模型的鲁棒性。
本发明实施例提供的图像样本集中噪声的识别方法可以应用于各种需要利用图像样本进行模型训练的场景之中,因此,可以被广泛地应用于公安、银行、海关、机场、智能视频监控、智能医疗等多个领域。示例性地,在智能医疗领域,可以通过相关医学影像图片训练疾病属性识别模型,在模型训练时,需要收集疾病的多个医学影像图片作为训练样本数据,利用训练样本数据进行模型训练。例如,可以从多家医院收集多例计算机体层摄影(Computed Tomography,CT)数据作为训练样本,数据类别包含新冠肺炎图像样本、社区性肺炎图像样本和正常图像样本。在训练样本中可能存在采样质量不合格(如包含金属伪影)、患者移位导致目标区域缺失等噪声图像,可以采用本发明实施例提供的方法将噪声图像快速筛除,并使用筛除噪声图像后的训练样本进行模型训练,得到可以识别新冠肺炎和社区性肺炎的机器学习模型。
需要说明的是,图1仅仅是一种示例。
参考说明书附图2,其示出了本发明一个实施例提供的图像样本集中噪声的识别方法的流程,该方法可以应用于图1中的服务器端,具体的如图2所示,所述方法可以包括以下步骤:
S210:获取图像样本集。
本发明实施例中,所述图像样本集包括目标领域内的多张图像,在不同的应用场景下,所述图像样本集来源不同。例如,在疾病属性识别场景下,所述图像样本集来源于各个医院的医学影像图片,如CT图片、通过电子显微镜直接扫描得到的原始病理图片、或者对病理图片进行切割后的切片区域等等,将多张医学影像图片组成图像样本集。又例如,在脸部表情识别场景下,所述图像样本集来源于各个终端用户的脸部图片,如在用户使用某个应用时拍摄的脸部照片,将多张脸部照片组成图像样本集。
S220:基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定。
本发明实施例中,所述模型可以为深度学习模型,所述深度学习模型可以包括卷积神经网络,例如残差神经网络(Residual Neural Network,ResNet)等。所述深度学习模型也可以根据实际需求进行设置,本发明实施例对此不做限定,例如,所述深度学习模型可以包括四个卷积层和一个全连接层。所述预设标准模型的架构与所述模型的模型架构相同,所述预设标准模型可以为预训练模型,所述预训练模型通过多个自然图像样本进行预训练得到。所述预训练模型可以为ImageNet预训练模型,即通过ImageNet数据集进行预训练得到的模型。
本发明实施例中,所述第一拟合状态可以为欠拟合状态,所述第二拟合状态可以为过拟合状态,所述中间拟合状态可以包括拟合状态,所述中间拟合状态可以为零个或至少一个,本发明实施例对此不做限定。所述训练过程从欠拟合逐渐过渡到拟合,再逐渐过渡到过拟合,在训练的前期,模型的收敛速度比较快,因为模型倾向于先学习简单样本(即容易训练的样本)。而在训练的后期,模型才倾向于学习难样本(即不好训练的样本),噪声图像样本也作为难样本的一部分在后期才被训练。
在一个可能的实施例中,所述基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态可以包括:
计算训练过程中的当前模型与所述预设标准模型的网络表达相似度;
根据所述当前模型与所述预设标准模型的网络表达相似度确定所述模型的拟合状态;
若所述模型的拟合状态属于第二拟合状态,则停止训练。
本发明实施例中,可以通过引入预设标准模型,通过训练过程中的当前模型与所述预设标准模型的网络表达相似度来确定所述模型所处的拟合状态。具体地,由于训练过程一般包括多个训练时期(epoch),每一个epoch指的是,根据图像样本集中的所有图像样本对所述模型进行一次训练,每经过一个训练时期,可以计算当前模型与所述预设标准模型的网络表达相似度,并根据所述网络表达相似度确定所述模型的拟合状态。示例性地,如果计算得到的网络表达相似度为20%,则表示所述模型的拟合状态为欠拟合状态;如果计算得到的网络表达相似度为50%,则表示所述模型的拟合状态为拟合状态;如果计算得到的网络表达相似度为80%,则表示所述模型的拟合状态为过拟合状态。
本发明实施例中,所述第二拟合状态可以为过拟合状态,若所述模型的拟合状态属于过拟合状态,则停止训练。
在一个可能的实施例中,还可以预设epoch的数量,根据图像样本集中的所有图像样本对所述深度学习模型进行预设epoch数量的训练,使得训练结束后,所述模型的拟合状态属于第二拟合状态。在训练过程中,每经过一个训练时期,可以计算当前模型与所述预设标准模型的网络表达相似度,并根据所述网络表达相似度确定所述模型的拟合状态。示例性的,可以将100个epoch作为一次完整的训练过程,需要说明的是,具体的epoch个数本发明实施例不做限定,示例性的,还可以将80个epoch作为一次完整的训练过程。
本发明实施例中,由于自然图像与特定领域内的图像(例如医学图像,如患者胸部CT切片)内容存在差异,两种图像训练得到的模型的网络高层语义信息往往存在差异。这导致预训练模型的网络高层信息难以用于监督利用特定领域内的图像训练的模型。因此,可以只利用较浅的k层网络特征作为监督网络,让所述图像样本集训练的模型根据所提供的监督网络进行对照学习,确定所述模型的拟合状态。其中,所述监督网络的层数k为一个超参数,可以通过调节k平衡计算量和训练阶段衡量精度之间的关系。
具体地,结合参考说明书附图3,本发明实施例将预训练模型的浅层特征作为所述模型所处拟合状态的“探针”,从而只需一次完整的网络训练,即可以根据所述模型与所述预训练模型的网络表达相似度确定训练过程中所述模型所处的多个拟合状态,记录图像样本在各个拟合状态对应的损失(loss)值,从而筛选图像样本集中的噪声图像样本。
本发明实施例中,可以通过衡量网络表达相似度的度量函数如中心内核对齐指数(Centered kernel alignment,CKA),表征所述当前模型与所述监督网络之间的网络表达相似度,CKA可以用于揭示基于不同随机初始化训练的卷积神经网络的不同卷积核之间的关系,比如,基于预设独立性准则(如希尔伯特-施密特独立性算子(Hilbert-SchmidtIndependence Criterion,HSIC))通过CKA对每个训练时期结束后的当前模型中的卷积核K和所述监督网络中的卷积核L进行网络表达相似度估计,其表达式如下:
即,可选的,在一个可能的实施例中,所述计算训练过程中的当前模型与所述预设标准模型的网络表达相似度可以包括:
获取所述预设标准模型的预设层数的浅层网络,作为监督网络;
提取所述当前模型对应的多个卷积核,得到多个第一卷积核;
提取所述监督网络对应的多个卷积核,得到多个第二卷积核;
分别计算每个第一卷积核与各个第二卷积核之间的相似度,得到多个相似度;
将所述多个相似度的平均值作为所述当前模型与所述预设标准模型的网络表达相似度。
具体地,在卷积神经网络中,权重参数是一个非常重要的概念,卷积层一般会用到多个不同的卷积核,每个卷积核都有对应的权重参数,该权重参数利用图像的局部相关性,提取和强化图像的特征,可以理解的是,第一卷积核与第二卷积核之间的相似度可以通过第一卷积核对应的权重参数与第二卷积核对应的权重参数之间的相似度来体现,即,可选的,在一些可能的实施例中,所述分别计算每个第一卷积核与各个第二卷积核之间的相似度,得到多个相似度,具体可以包括:
提取每个第一卷积核对应的权重信息,得到多个第一权重信息,以及提取每个第二卷积核对应的权重信息,得到多个第二权重信息;
分别计算每个第一权重信息与各第二权重信息之间的相似度,得到计算结果。
在一个示例中,结合参考说明书附图4和图5,图4为两个结构为10层的模型之间的网络表达相似度的示意图,图5为结构为14层的模型与结构为32层的模型之间的网络表达相似度的示意图。其中,图中的横纵坐标分别代表与其对应的模型结构的层数,图中用明暗度表征两个模型对应的卷积核之间的相似度,图中较亮部分代表两个卷积核的表达相似度较高。
在一个可能的实施例中,还可以使用推土机距离(Earth Mover's Distance,EMD)等距离度量来表达所述当前模型与所述预设标准模型的网络表达相似度。
S230:获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值。
本发明实施例中,模型训练过程中,所述模型的拟合状态从第一拟合状态逐渐过渡到第二拟合状态,所述第一拟合状态可以为欠拟合状态,所述第二拟合状态可以为过拟合状态。所述第一拟合状态和所述第二拟合状态之间可以不包括中间拟合状态,也可以包括一个或多个中间拟合状态。其中,所述第二拟合状态和所述中间拟合状态可以根据训练过程中的当前模型与所述预设标准模型的网络表达相似度确定。需要说明的是,所述中间拟合状态的个数可以根据实际需要进行设置,本发明实施例对此不做限定。
本发明实施例中,在模型训练过程中,在训练的前期(模型欠拟合时),模型能很好地拟合干净(clean)图像样本,所以噪声图像样本的loss会比clean图像样本的loss大,loss差距比较明显。在训练的后期(模型过拟合时),模型逐渐拟合噪声图像样本,噪声图像样本的loss值将逐步减小,两者之间loss的差距不再那么明显。因此,我们可以通过统计图像样本在每个拟合状态对应的loss值来确定噪声图像样本。具体地,在模型训练过程中,每经过一个训练时期,可以记录每个图像样本的loss值,所述loss值可以根据预先设定的损失函数计算得到。
本发明实施例中,当确定所述模型的各个拟合状态后,针对每个图像样本,可以从每个拟合状态对应的多个loss值中选取一个作为所述图像样本在当前拟合状态对应的损失值。示例性的,假设所述模型的拟合状态包括欠拟合状态(网络表达相似度0%-30%)、拟合状态(网络表达相似度30%-70%)和过拟合状态(网络表达相似度70%-100%)三个状态,则可以获取所述网络表达相似度为20%、50%和80%时,所述图像样本集中的各个图像样本的loss值,作为所述图像样本在欠拟合状态、拟合状态和过拟合状态对应的损失值。
S240:根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值。
本发明实施例中,由于噪声图像样本的loss值会随着训练过程从欠拟合到过拟合的变化逐步减小,而干净图像样本的loss值在整个训练过程中的变化较小,因此可以根据所述图像样本集中的各个图像样本的loss值的变化情况来确定噪声图像样本。
在一个可能的实施例中,所述根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值可以包括:
计算所述各个图像样本在每个拟合状态对应的损失值的均值与方差,作为所述各个图像样本的损失统计值。
S250:根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
本发明实施例中,在训练的前期(模型欠拟合时),模型能很好地拟合干净图像样本,所以噪声图像样本的loss会比clean图像样本的loss大,loss差距比较明显。在训练的后期(模型过拟合时),模型逐渐拟合噪声图像样本,噪声图像样本的loss值将逐步减小,两者之间loss的差距不再那么明显。因此,可以根据各个图像样本对应的均值与方差的大小来确定噪声图像样本。
在一个可能的实施例中,所述根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本可以包括:
根据所述均值与所述方差对所述图像样本集中的各个图像样本进行排序,得到目标排序结果;
将所述目标排序结果中排序靠前的预设数量个图像样本确定为噪声图像样本。
具体地,所述根据所述均值与所述方差对所述图像样本集中的各个图像样本进行排序,得到目标排序结果可以包括:
根据所述均值由大到小的顺序对所述图像样本集中的各个图像样本进行排序,得到第一排序结果;
根据所述方差由大到小的顺序对所述图像样本集中的各个图像样本进行排序,得到第二排序结果;
根据所述第一排序结果与所述第二排序结果确定所述目标排序结果。
具体地,可以根据各个图像样本在所述第一排序结果中的排列序号和所述第二排序结果中的排列序号计算各个图像样本对应的综合排序,然后根据所述综合排序由小到大对所述图像样本集中的各个图像样本进行排序,得到所述目标排序结果,并将所述目标排序结果中排序靠前的N个图像样本确定为噪声图像样本。
在一个示例中,假设某个图像样本在所述第一排序结果中的排列序号为LM,在所述第二排序结果中的排列序号为LS,则可以根据这两个排列序号计算所述图像样本综合排序L=αLM+βLS,其中,α,β可以根据实际需要进行设置,本发明实施例对此不做限定,示例性的,可以将α和β均设置为0.5。
综上所述,本发明的图像样本集中噪声的识别方法,通过基于待识别噪声的图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,并在模型训练过程中基于预设标准模型进行对照学习确定所述模型在训练过程中的多个拟合状态,根据所述图像样本集中的各个图像样本在每个拟合状态对应的损失值来确定噪声样本,仅需一次完整训练即可确定噪声图像样本,能够提高识别图像样本集中的噪声样本的速率,大幅度降低样本筛选的耗时,不仅能提升训练集的干净程度,还能实现对突发需求的快速响应。
在一个可能的实施例中,结合参考说明书附图6,所述方法还可以包括以下步骤:
S260:将所述噪声图像样本从所述图像样本集中移除,得到干净图像样本集;
S270:基于所述干净图像样本集对所述模型进行训练,得到训练后的目标模型。
本发明实施例中,获取到干净图像样本集后,可以将所述干净图像样本集作为训练样本对所述模型进行训练,在训练过程中调整所述模型的参数,直至所述模型收敛,即可以得到训练后的目标模型。
综上所述,本发明的图像样本集中噪声的识别方法,通过识别图像样本集中的噪声样本并移除,得到干净图像样本集,并利用所述干净图像样本集对机器学习模型进行训练得到目标模型,可以增强训练后的模型的鲁棒性。
参考说明书附图7,其示出了本发明一个实施例提供的图像样本集中噪声的识别装置700的结构。如图7所示,所述装置700可以包括:
图像样本集获取模块710,用于获取图像样本集;
第一模型训练模块720,用于基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;
损失值获取模块730,用于获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;
损失统计值计算模块740,用于根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;
噪声样本确定模块750,用于根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
在一个可能的实施例中,如图8所示,所述装置700还可以包括:
噪声样本移除模块760,用于将所述噪声图像样本从所述图像样本集中移除,得到干净图像样本集;
第二模型训练模块770,用于基于所述干净图像样本集对所述模型进行训练,得到训练后的目标模型。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见对应方法实施例,这里不再赘述。
本发明一个实施例还提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的图像样本集中噪声的识别方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在终端、服务器或者类似的运算装置中执行,即上述电子设备可以包括终端、服务器或者类似的运算装置。以运行在服务器上为例,如图9所示,其示出了本发明实施例提供的运行图像样本集中噪声的识别方法的服务器的结构示意图。该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Unit,CPU)910(例如,一个或一个以上处理器)和存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在服务器900上执行存储介质920中的一系列指令操作。服务器900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯,所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
本领域普通技术人员可以理解,图9所示的结构仅为示意,服务器900还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
本发明一个实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种图像样本集中噪声的识别方法相关的至少一条指令或者至少一段程序,该至少一条指令或者该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的图像样本集中噪声的识别方法。
可选地,在本发明实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明一个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现例中提供的图像样本集中噪声的识别方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像样本集中噪声的识别方法,其特征在于,包括:
获取图像样本集;
基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;
获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;
根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;
根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
2.根据权利要求1所述的方法,其特征在于,所述基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态包括:
计算训练过程中的当前模型与所述预设标准模型的网络表达相似度;
根据所述当前模型与所述预设标准模型的网络表达相似度确定所述模型的拟合状态;
若所述模型的拟合状态属于第二拟合状态,则停止训练。
3.根据权利要求1或2所述的方法,其特征在于,所述模型为深度学习模型;所述预设标准模型为预训练模型,所述预训练模型通过多个自然图像样本进行预训练得到。
4.根据权利要求2所述的方法,其特征在于,所述计算训练过程中的当前模型与所述预设标准模型的网络表达相似度包括:
获取所述预设标准模型的预设层数的浅层网络,作为监督网络;
提取所述当前模型对应的多个卷积核,得到多个第一卷积核;
提取所述监督网络对应的多个卷积核,得到多个第二卷积核;
分别计算每个第一卷积核与各个第二卷积核之间的相似度,得到多个相似度;
将所述多个相似度的平均值作为所述当前模型与所述预设标准模型的网络表达相似度。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值包括:
计算所述各个图像样本在每个拟合状态对应的损失值的均值与方差,作为所述各个图像样本的损失统计值;
所述根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本包括:
根据所述均值与所述方差对所述图像样本集中的各个图像样本进行排序,得到目标排序结果;
将所述目标排序结果中排序靠前的预设数量个图像样本确定为噪声图像样本。
6.根据权利要求5所述的方法,其特征在于,所述根据所述均值与所述方差对所述图像样本集中的各个图像样本进行排序,得到目标排序结果包括:
根据所述均值由大到小的顺序对所述图像样本集中的各个图像样本进行排序,得到第一排序结果;
根据所述方差由大到小的顺序对所述图像样本集中的各个图像样本进行排序,得到第二排序结果;
根据所述第一排序结果与所述第二排序结果确定所述目标排序结果。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
将所述噪声图像样本从所述图像样本集中移除,得到干净图像样本集;
基于所述干净图像样本集对所述模型进行训练,得到训练后的目标模型。
8.一种图像样本集中噪声的识别装置,其特征在于,包括:
图像样本集获取模块,用于获取图像样本集;
第一模型训练模块,用于基于所述图像样本集对处于第一拟合状态的模型进行训练直至所述模型进入第二拟合状态,所述模型的拟合状态表征所述模型与图像样本集的拟合程度;所述第一拟合状态和所述第二拟合状态之间包括零个或至少一个中间拟合状态;所述模型的拟合状态基于预设标准模型确定;
损失值获取模块,用于获取所述图像样本集中的各个图像样本在每个拟合状态对应的损失值;
损失统计值确定模块,用于根据所述各个图像样本在每个拟合状态对应的损失值,计算所述各个图像样本的损失统计值;
噪声样本确定模块,用于根据所述图像样本集中的各个图像样本对应的损失统计值,识别出所述图像样本集中的噪声图像样本。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任意一项所述的图像样本集中噪声的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的图像样本集中噪声的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157403.9A CN112233102A (zh) | 2020-10-26 | 2020-10-26 | 图像样本集中噪声的识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011157403.9A CN112233102A (zh) | 2020-10-26 | 2020-10-26 | 图像样本集中噪声的识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112233102A true CN112233102A (zh) | 2021-01-15 |
Family
ID=74110133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011157403.9A Pending CN112233102A (zh) | 2020-10-26 | 2020-10-26 | 图像样本集中噪声的识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233102A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
CN113537028A (zh) * | 2021-07-09 | 2021-10-22 | 中星电子股份有限公司 | 用于人脸识别系统的控制方法、装置、设备和介质 |
CN114764803A (zh) * | 2022-06-16 | 2022-07-19 | 深圳深知未来智能有限公司 | 一种基于真实噪场景的噪声评估方法、装置及可存储介质 |
-
2020
- 2020-10-26 CN CN202011157403.9A patent/CN112233102A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139628A (zh) * | 2021-06-22 | 2021-07-20 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
CN113139628B (zh) * | 2021-06-22 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 样本图像的识别方法、装置、设备及可读存储介质 |
CN113537028A (zh) * | 2021-07-09 | 2021-10-22 | 中星电子股份有限公司 | 用于人脸识别系统的控制方法、装置、设备和介质 |
CN113537028B (zh) * | 2021-07-09 | 2022-11-08 | 中星电子股份有限公司 | 用于人脸识别系统的控制方法、装置、设备和介质 |
CN114764803A (zh) * | 2022-06-16 | 2022-07-19 | 深圳深知未来智能有限公司 | 一种基于真实噪场景的噪声评估方法、装置及可存储介质 |
CN114764803B (zh) * | 2022-06-16 | 2022-09-20 | 深圳深知未来智能有限公司 | 一种基于真实噪场景的噪声评估方法、装置及可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duggal et al. | Prediction of thyroid disorders using advanced machine learning techniques | |
CN110852360B (zh) | 图像情感识别方法、装置、设备及存储介质 | |
CN112233102A (zh) | 图像样本集中噪声的识别方法、装置、设备及存储介质 | |
CN105469376B (zh) | 确定图片相似度的方法和装置 | |
CN110807757B (zh) | 基于人工智能的图像质量评估方法、装置及计算机设备 | |
CN111931002B (zh) | 一种匹配方法以及相关设备 | |
CN112581438B (zh) | 切片图像识别方法、装置和存储介质及电子设备 | |
CN110033023A (zh) | 一种基于绘本识别的图像数据处理方法及系统 | |
CN110197474B (zh) | 图像处理方法和装置及神经网络模型的训练方法 | |
CN111814832B (zh) | 一种目标检测方法、装置及存储介质 | |
US20210089825A1 (en) | Systems and methods for cleaning data | |
CN111783997B (zh) | 一种数据处理方法、装置及设备 | |
CN112418135A (zh) | 人体行为识别方法、装置、计算机设备及可读存储介质 | |
CN112132827A (zh) | 病理图像的处理方法、装置、电子设备及可读存储介质 | |
CN106650804A (zh) | 一种基于深度学习特征的人脸样本清洗方法及系统 | |
CN111401343B (zh) | 识别图像中人的属性的方法、识别模型的训练方法和装置 | |
CN110503082A (zh) | 一种基于深度学习的模型训练方法以及相关装置 | |
CN111340758A (zh) | 一种基于深度神经网络的高效虹膜图像质量评价新方法 | |
CN114693624A (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN117011907A (zh) | 一种跨年龄的人脸识别方法及相关装置 | |
KR20100116404A (ko) | 영상정보로부터 독립세포와 군집세포를 분류하는 방법 및 장치 | |
CN112200862B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113506274A (zh) | 基于视觉显著性差异图的用于人体认知状况的检测系统 | |
CN112991281A (zh) | 视觉检测方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |