CN112884046A - 基于不完全监督学习的图像分类方法、装置及相关设备 - Google Patents

基于不完全监督学习的图像分类方法、装置及相关设备 Download PDF

Info

Publication number
CN112884046A
CN112884046A CN202110209952.4A CN202110209952A CN112884046A CN 112884046 A CN112884046 A CN 112884046A CN 202110209952 A CN202110209952 A CN 202110209952A CN 112884046 A CN112884046 A CN 112884046A
Authority
CN
China
Prior art keywords
image
vector
original image
pair
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110209952.4A
Other languages
English (en)
Inventor
石强
刘雨桐
熊娇
王国勋
张兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Runlian Software System Shenzhen Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202110209952.4A priority Critical patent/CN112884046A/zh
Publication of CN112884046A publication Critical patent/CN112884046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于不完全监督学习的图像分类方法、装置及相关设备,其包括对若干未标注的原始图像进行数据增广处理,得到增广图像对;对增广图像对进行特征提取分别得到用于特征表示的原始图像的第一向量对;通过特征映射将原始图像的所述第一向量对分别映射成维度更低的所述原始图像的第二向量对;根据所述原始图像的第二向量对计算所述原始图像的增广图像对之间的相似度,并对特征提取网络进行预训练,得到特征提取模型;将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。本发明具有标注成本与时间成本低的优点。

Description

基于不完全监督学习的图像分类方法、装置及相关设备
技术领域
本发明涉及图像分类领域,尤其涉及一种基于不完全监督学习的图像分类方法、装置及相关设备。
背景技术
票据图像中的文字能表达丰富的财务信息,而传统人工录入财务信息效率非常低下,通常需要先对各种财务票据人工进行分类整理,再将各类财务票据手工录入财务软件。由于财务票据种类繁多,导致分类任务耗时耗力,工作效率较低。为了准确、高效、高自动化的做账,很多公司逐渐将Optical Character Recognition(OCR,光学字符识别)技术应用于财务票据识别领域。票据识别系统极大的降低了财务人员的工作压力,同时也提高了工作效率。其中一个很重要的环节就是票据分类,只有将票据分类正确才能使用对应的OCR技术对该类票据进行更加精确的识别与信息结构化提取。
传统的自动分类方法采用基于人工设计的特征(SIFT、HOG等)结合机器学习分类器(SVM)进行分类。该分类方法中人工设计的特征依赖票据的版面特征,如:框线、表头、文本区域等信息。该方式提取的特征表达能力有限,分类准确率低。近几年,随着深度学习、计算机硬件等技术的不断发展,计算机视觉的相关技术也逐渐应用到票据分类中,并取得不错的效果。但是这些技术是有监督学习的,在训练时需要海量的标注数据,而大量数据的标注成本是非常昂贵的,还会占用大量时间。除此之外,当需要对一种新的票据类型进行分类时,需要重新进行数据标注,再进行模型训练。因此,整个过程的标注成本与时间成本非常高。
发明内容
本发明的目的是提供一种基于不完全监督学习的图像分类方法、装置及相关设备,旨在解决现有技术中,标注成本与时间成本高的问题。
第一方面,本发明实施例提供了一种基于不完全监督学习的图像分类方法,其包括:
对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;
通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
第二方面,本发明实施例提供了一种基于不完全监督学习的图像分类装置,包括:
数据增广单元,用于若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
特征表示单元,用于对每一所述原始图像的增广图像对进行特征提取,分别得到用于特征表示的每一所述原始图像的第一向量对;
特征映射单元,用于将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
模型预训练单元,用于根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
模型调整单元,用于将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
图像分类单元,用于利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于不完全监督学习的图像分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于不完全监督学习的图像分类方法。
本发明实施例公开了一种基于不完全监督学习的图像分类方法、装置、计算机设备和可读存储介质,其包括对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
本发明实施例通过将未标注的原始图像送入到模型中进行训练,使模型具备提取图像特征的能力(即初步形成特征提取模型),然后再使用标注图像对特征提取模型进行微调训练,得到图像分类模型,最后即可使用微调后的图像分类模型对待分类的图像进行预测分类,具有标注成本与时间成本低的优点。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于不完全监督学习的图像分类方法的流程示意图;
图2为本发明实施例提供的基于不完全监督学习的图像分类方法中步骤S101的子流程示意图;
图3为本发明实施例提供的基于不完全监督学习的图像分类方法中步骤S103的子流程示意图;
图4为本发明实施例提供的基于不完全监督学习的图像分类方法中步骤S104的子流程示意图;
图5为本发明实施例提供的基于不完全监督学习的图像分类方法中步骤S105的子流程示意图;
图6为本发明实施例提供的基于不完全监督学习的图像分类装置的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
文中不对提到的少量、大量等不确定的数词数量做具体限定,在实际情况中,技术人员可以根据训练效率、难度、成本的来衡量并决定使用多少未标注数据和标注数据来进行训练。
请参阅图1,一种基于不完全监督学习的图像分类方法,所述方法包括S101~S106。
S101:对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
S102:对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;
S103:通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
S104:根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
S105:将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
S106:利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
在本实施例中,由于是采用将未标注的原始图像送入到模型中进行训练,使模型具备提取图像特征的能力(即初步形成特征提取模型),然后再使用标注图像对特征提取模型进行微调训练,得到图像分类模型,最后即可使用微调后的图像分类模型对待分类的图像进行预测分类。
相比起现有的有监督学习在训练时需要海量的标注数据,本实施例中只需少量的标注图像在微调训练时输入到特征提取模型中,标注成本和时间成本很低,在需要对一种新的图像进行分类时,可以很快的训练出图像分类模型并尽快进入工作状态,提高工作效率。
具体的,将大量未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充,方便后续训练中对来自同一增广图像对的增广图像进行相似度的比较。
随后对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对,通过特征提取,可以将图像数据变成用于特征表示的多维向量,方便后续对该多维向量进行特征映射。
由于上述的每一所述第一向量处于高维,容易出现维数灾难,通过特征映射,可以把各个上述的处于高维的第一向量从高维特征空间映射到低维特征空间,在低维空间下,源数据与目标数据拥有相同的分布,在不影响数据分布的情况下,方便了后续应用成熟的低维索引技术对低维数据进行处理,以提高性能,具体的,通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对。
在得到了低维的目标数据后,需要对来自同一原始图像的第二向量对进行相似度的计算,通过将该相似度应用于第一损失函数中并计算出第一损失函数的值,一般的,来自同一原始图像的两张增广图像的相似性越大越好,即来自同一原始图像的两张增广图像的第二向量代入第一损失函数后,第一损失函数的值越小越好,具体的,根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型,在得到特征提取模型后,本数据模型具备了特征提取的能力。
由于特征提取模型还不具备相应的分类功能,故,需要将少量的有标注的样本数据输入特征提取模型对相关参数进行微调,以得到具有图像分类功能的特征分类模型,具体的,将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型。
最后利用得到的上述的图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
在一实施例中,如图2所示,所述步骤S101中,包括:
S201:随机从若干数据增广方式中选取第一数量的数据增广方式作为第一增广方式;
S202:随机从若干数据增广方式中选取第二数量的数据增广方式作为第二增广方式;
S203:采用第一增广方式和第二增广方式分别对每一未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对。
在本实施例中,通过数据增广方式对每一原始图像进行增广处理,获得具有不同变形处理的增广图像。
进一步的,对每一张原始图像分别进行两次数据增广处理,得到两张通过不同变形处理得到的增广图像。
通过以上处理,既可以对数据集进行扩充,而且在之后特征提取模型的获得过程中,每一原始图像的增广图像对的第二向量需要应用到第一损失函数中进行计算,根据来自同一原始图像的两张增广图像的相似性越大越好,即来自同一原始图像的两张增广图像的第二向量代入第一损失函数后,第一损失函数的值越小越好,在第一损失函数的值达到预设值时,即可认为特征提取模型成立。
在一实施例中,应用于票据的图像分类处理,由于同一种票据的区别主要表现在尺寸、翻转、颜色、亮度、模糊、灰度6个主要方面,故,所述数据增广方式包括裁剪、翻转、颜色变换、亮度变换、高斯模糊和灰度处理。
优选的,每次数据增广都是随机选取上述6种数据增广方式中的3种,保证数据增广的随机性,而且不会由于来自同一原始图像的两张增广图像差异过大,影响后续的相似性的比较。
以下通过结合本实施例来对增广图像对的生成进行说明(以下只是一种实施例):
首先,随机从上述6种数据增广方式中选取3种数据增广方式,例如选取:裁剪、翻转和颜色变换,共同构成第一增广方式;并随机从上述6种数据增广方式中选取3种数据增广方式,例如选取:亮度变换、高斯模糊和灰度处理,共同构成第二增广方式;然后采用第一增广方式对一张未标注的原始图像进行数据增广处理,得到一张第一增广图像,采用第二增广方式对同一张未标注的原始图像进行数据增广处理,得到一张第二增广图像,将第一增广图像和第二增广图像共同构成该张未标注的原始图像的增广图像对。
在一实施例中,所述步骤S102中,包括:
采用MobileNetV3模型对每一所述原始图像的增广图像对进行特征提取,分别得到每一所述原始图像的1280维的第一向量对。
在本实施例中,1280维是MobileNetV3模型的固定输出通道,如果想要得到其他维数的第一向量,可以选择其他模型对每一所述原始图像的增广图像对进行特征提取,可根据实际情况实际应用。
以下通过结合本实施例来对第一向量对的生成进行说明(以下只是一种实施例):
首先,从增广图像对中提取出第一增广图像输入MobileNetV3模型中进行特征提取,得到第一增广图像的1280维的第一特征向量;然后从同一增广图像对中提取出第二增广图像输入MobileNetV3模型中进行特征提取,得到同一增广图像对中的第二增广图像的1280维的第二特征向量,将第一特征向量和第二特征向量共同构成该增广图像对的第一向量对,即得到了该增广图像对所属原始图像的1280维的第一向量对。
在一实施例中,如图3所示,所述步骤S103中,包括:
S301:针对每一原始图像的第一向量对,通过第一全连接层将第一维度的所述第一向量对分别映射成中间维度的中间向量对;
S302:通过第二全连接层将所述中间向量对分别映射成第二维度的第二向量对;
其中,所述第一维度高于所述中间维度,所述中间维度高于第二维度。
在本实施例中,上述的中间向量对是每一原始图像的第一向量对中的每一第一向量分别通过第一全连接层后映射成的中间向量组成的,来自同一第一向量对的中间向量组成中间向量对,同理,上述的中间向量对中的每一中间向量分别通过第二全连接层后映射成了第二向量,来自同一中间向量对的第二向量组成第二向量对。
通过两次映射,将位于高维的第一向量映射成维数较低的第二向量,在实际情况中,如果第一向量的维度太高,需要通过多次映射来降低到相对好计算的维度,那么可以根据实际情况调整全连接层的数量。
由上文可更加清晰的了解到,增广图像对是来自同一原始图像的两张经过增广处理的图像,第一向量对是增广图像对中的两张图像分别进行特征提取后得到的,第二向量对是第一向量对中的两组第一向量分别进行特征映射得到的。
在一实施例中,如图4所示,所述步骤S104中,包括:
S401:采用如下公式计算第i个向量和第j个向量的余弦相似度:
Figure BDA0002951090530000081
S402:采用如下公式计算第i个向量和第j个向量相似的概率:
Figure BDA0002951090530000082
S403:采用如下公式计算第一损失函数的值:
Figure BDA0002951090530000083
其中,zi表示第i个向量,zj表示第j个向量,第i个向量和第j个向量属于一个原始图像的第二向量对;si,j是第i个向量和第j个向量的余弦相似度;N表示原始图像的数量;l(i,j)表示第i个向量和第j个向量相似的概率;l(2k-1,2k)代表来自同一原始图像的增广图像对相似的概率;l(2k,2k-1)表示位置互换后来自同一原始图像的对增广图像相似的概率。
在本实施例中,采用通过计算增广图像对之间的对比损失来优化数据模型的参数,对比损失的原理是使得来自同一图片的增广图像间的相似性越大越好,而不是来自同一图片的增广图片间的相似性越低越好。
主要比较来自同一图片的增广图像间的相似性,其中si,j是计算来自同一图片的增广图像的第二向量间的余弦相似度;l(i,j)是计算来自同一图片的增广图像的第二向量间的相似的概率;L代表了来自同一图片的增广图像的第二向量间的相似性,即L的值越小,越接近零,来自同一图片的增广图像的第二向量间的相似性越大,越符合图像提取模型。
在一实施例中,如图5所示,所述步骤S105中,包括:
S501:根据所要区分的图像种类调整输出第二全连接层的通道数,并固定特征提取操作中的参数;
S502:将若干已标注的标注图像输入至所述特征提取模型,并采用交叉熵损失函数进行微调训练,得到图像分类模型。
在本实施例中,由于在最后分类的时候是通过维数中的0和1去表示各个不同的图像种类,比如要为三种图像进行分类,那么可以用三组三维的向量来表示,第一种图像的识别向量可以定义为【1,0,0】,第二种图像的识别向量可以定义为【0,1,0】,第三种图像的识别向量可以定义为【0,0,1】,故,要对多少种图像进行分类即需多少维的向量来存储信息,所以需要根据所要区分的图像种类调整输出第二全连接层的通道数。
由于特征提取操作中的参数不涉及到比较和优劣,不需对特征提取操作中的参数进行调整,故,固定特征提取操作中的参数,也即固定特征提取模块中MobileNetV3模型的参数。
在进行以上的调整后,将若干已标注的标注图像输入至所述特征提取模型,特征提取模型对输入的标注图像进行特征提取,并根据标注学习对应的图像类别,以得到特征分类模型。
需要说明的是,上述各个实施例所述的基于不完全监督学习的图像分类方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图6,图6为本申请实施例提供的基于不完全监督学习的图像分类装置600的示意性框图。对应于上述基于不完全监督学习的图像分类方法,本申请实施例还提供一种基于不完全监督学习的图像分类装置。如图6所示,该基于不完全监督学习的图像分类装置包括用于执行上述基于不完全监督学习的图像分类方法的单元,该装置可以被配置于服务器等计算机设备中。具体地,请参阅图6,该基于不完全监督学习的图像分类装置600包括数据增广单元601、特征表示单元602、特征映射单元603、模型预训练单元604、模型调整单元606、图像分类单元606。
其中,数据增广单元601,用于若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
特征表示单元602,用于对每一所述原始图像的增广图像对进行特征提取,分别得到用于特征表示的每一所述原始图像的第一向量对;
特征映射单元603,用于将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
模型预训练单元604,用于根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
模型调整单元606,用于将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
图像分类单元606,用于利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
在一实施例中,所述数据增广单元601包括:
第一增广单元,用于随机从若干数据增广方式中选取第一数量的数据增广方式作为第一增广方式;
第二增广单元,用于随机从若干数据增广方式中选取第二数量的数据增广方式作为第二增广方式;
增广处理单元,用于采用第一增广单元和第二增广单元选取的增广方式分别对每一未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对。
在一实施例中,所述特征表示单元602包括:
特征提取单元,用于采用MobileNetV3模型对每一所述原始图像的增广图像对进行特征提取,分别得到每一所述原始图像的1280维的第一向量对。
在一实施例中,所述特征映射单元603包括:
第一全连接层单元,用于针对每一原始图像的第一向量对,通过第一全连接层将第一维度的所述第一向量对分别映射成中间维度的中间向量对;
第二全连接层单元,用于通过第二全连接层将所述中间向量对分别映射成第二维度的第二向量对;
其中,所述第一维度高于所述中间维度,所述中间维度高于第二维度。
在一实施例中,所述模型预训练单元604包括:
余弦相似度计算单元,用于采用如下公式计算第i个向量和第j个向量的余弦相似度:
Figure BDA0002951090530000111
相似概率计算单元,用于采用如下公式计算第i个向量和第j个向量相似的概率:
Figure BDA0002951090530000112
第一损失函数计算单元,用于采用如下公式计算第一损失函数的值:
Figure BDA0002951090530000113
其中,zi表示第i个向量,zj表示第j个向量,第i个向量和第j个向量属于一个原始图像的第二向量对;si,j是第i个向量和第j个向量的余弦相似度;N表示原始图像的数量;l(i,j)表示第i个向量和第j个向量相似的概率;l(2k-1,2k)代表来自同一原始图像的增广图像对相似的概率;l(2k,2k-1)表示位置互换后来自同一原始图像的对增广图像相似的概率。
在一实施例中,所述模型调整单元605包括:
数据调整单元,用于根据所要区分的图像种类调整输出第二全连接层的通道数,并固定特征提取操作中的参数;
交叉熵损失函数计算单元,用于将若干已标注的标注图像输入至所述特征提取模型,并采用交叉熵损失函数进行微调训练,得到图像分类模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于不完全监督学习的图像分类装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述基于不完全监督学习的图像分类装置600中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将基于不完全监督学习的图像分类装置600按照需要划分为不同的单元,也可将基于不完全监督学习的图像分类装置600中各单元采取不同的连接顺序和方式,以完成上述基于不完全监督学习的图像分类装置600的全部或部分功能。
上述基于不完全监督学习的图像分类装置600可以实现为一种计算机程序的形式,该计算机程序可以在如图所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图7,该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。
该非易失性存储介质可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行上述基于不完全监督学习的图像分类方法。
该处理器702用于提供计算和控制能力,以支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行上述基于不完全监督学习的图像分类方法。
该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图7中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备700可以仅包括存储器及处理器702,在这样的实施例中,存储器及处理器702的结构及功能与图7所示实施例一致,在此不再赘述。
其中,所述处理器702用于运行存储在存储器中的计算机程序7032,以实现如下步骤:对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
应当理解,在本申请实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序7032来完成,该计算机程序7032可存储于一计算机可读存储介质。该计算机程序7032被该计算机系统中的至少一个处理器702执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于不完全监督学习的图像分类方法,其特征在于,包括:
对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对;
通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
2.根据权利要求1所述的基于不完全监督学习的图像分类方法,其特征在于,所述对若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充,包括:
随机从若干数据增广方式中选取第一数量的数据增广方式作为第一增广方式;
随机从若干数据增广方式中选取第二数量的数据增广方式作为第二增广方式;
采用第一增广方式和第二增广方式分别对每一未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对。
3.根据权利要求2所述的基于不完全监督学习的图像分类方法,其特征在于,所述数据增广方式包括裁剪、翻转、颜色变换、亮度变换、高斯模糊和灰度处理。
4.根据权利要求1所述的基于不完全监督学习的图像分类方法,其特征在于,所述对每一所述原始图像的增广图像对进行特征提取分别得到用于特征表示的每一所述原始图像的第一向量对,包括:
采用MobileNetV3模型对每一所述原始图像的增广图像对进行特征提取,分别得到每一所述原始图像的1280维的第一向量对。
5.根据权利要求1所述的基于不完全监督学习的图像分类方法,其特征在于,所述通过特征映射将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对,包括:
针对每一原始图像的第一向量对,通过第一全连接层将第一维度的所述第一向量对分别映射成中间维度的中间向量对;
通过第二全连接层将所述中间向量对分别映射第二维度的第二向量对;
其中,所述第一维度高于所述中间维度,所述中间维度高于第二维度。
6.根据权利要求1所述的基于不完全监督学习的图像分类方法,其特征在于,所述根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型,包括:
采用如下公式计算第i个向量和第j个向量的余弦相似度:
Figure FDA0002951090520000021
采用如下公式计算第i个向量和第j个向量相似的概率:
Figure FDA0002951090520000022
采用如下公式计算第一损失函数的值:
Figure FDA0002951090520000023
其中,zi表示第i个向量,zj表示第j个向量,第i个向量和第j个向量属于一个原始图像的第二向量对;si,j是第i个向量和第j个向量的余弦相似度;N表示原始图像的数量;l(i,j)表示第i个向量和第j个向量相似的概率;l(2k-1,2k)代表来自同一原始图像的增广图像对相似的概率;l(2k,2k-1)表示位置互换后来自同一原始图像的对增广图像相似的概率。
7.根据权利要求1所述的基于不完全监督学习的图像分类方法,其特征在于,所述将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型,包括:
根据所要区分的图像种类调整输出第二全连接层的通道数,并固定特征提取操作中的参数;
将若干已标注的标注图像输入至所述特征提取模型,并采用交叉熵损失函数进行微调训练,得到图像分类模型。
8.一种基于不完全监督学习的图像分类装置,其特征在于,包括:
数据增广单元,用于若干未标注的原始图像进行数据增广处理,得到每一原始图像的增广图像对,以对数据集进行扩充;
特征表示单元,用于对每一所述原始图像的增广图像对进行特征提取,分别得到用于特征表示的每一所述原始图像的第一向量对;
特征映射单元,用于将每一所述原始图像的所述第一向量对分别映射成维度更低的每一所述原始图像的第二向量对;
模型预训练单元,用于根据每一所述原始图像的第二向量对计算每一所述原始图像的增广图像对的相似度,并基于所述相似度以及第一损失函数对特征提取网络进行预训练,得到特征提取模型;
模型调整单元,用于将若干已标注的标注图像输入至所述特征提取模型进行微调训练,得到图像分类模型;
图像分类单元,用于利用所述图像分类模型对待分类的图像进行预测分类,得到图像分类结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于不完全监督学习的图像分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于不完全监督学习的图像分类方法。
CN202110209952.4A 2021-02-24 2021-02-24 基于不完全监督学习的图像分类方法、装置及相关设备 Pending CN112884046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110209952.4A CN112884046A (zh) 2021-02-24 2021-02-24 基于不完全监督学习的图像分类方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110209952.4A CN112884046A (zh) 2021-02-24 2021-02-24 基于不完全监督学习的图像分类方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN112884046A true CN112884046A (zh) 2021-06-01

Family

ID=76054396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110209952.4A Pending CN112884046A (zh) 2021-02-24 2021-02-24 基于不完全监督学习的图像分类方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN112884046A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658146A (zh) * 2021-08-20 2021-11-16 合肥合滨智能机器人有限公司 一种结节分级方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658146A (zh) * 2021-08-20 2021-11-16 合肥合滨智能机器人有限公司 一种结节分级方法、装置、电子设备及存储介质
CN113658146B (zh) * 2021-08-20 2022-08-23 合肥合滨智能机器人有限公司 一种结节分级方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
WO2019089578A1 (en) Font identification from imagery
CN109726195B (zh) 一种数据增强方法及装置
CA3153146A1 (en) Adversarial network for transforming handwritten text
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN110738203A (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN115731422A (zh) 多标签分类模型的训练方法、分类方法及装置
CN114444566A (zh) 一种图像伪造检测方法、装置以及计算机存储介质
CN113792659B (zh) 文档识别方法、装置及电子设备
CN115964432A (zh) 基于大数据可视化的用户操作异常分析方法及系统
EP4220555A1 (en) Training method and apparatus for image segmentation model, image segmentation method and apparatus, and device
CN113537119B (zh) 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN114842478A (zh) 文本区域的识别方法、装置、设备及存储介质
CN114092938A (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112884046A (zh) 基于不完全监督学习的图像分类方法、装置及相关设备
CN112966676A (zh) 一种基于零样本学习的文档关键信息抽取方法
CN112016592A (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN111401485A (zh) 实用的纹理分类方法
US20230154217A1 (en) Method for Recognizing Text, Apparatus and Terminal Device
CN114155540B (zh) 基于深度学习的文字识别方法、装置、设备及存储介质
Sowmya et al. Significance of processing chrominance information for scene classification: a review
CN111798376B (zh) 图像识别方法、装置、电子设备及存储介质
CN114612802A (zh) 基于mbcnn的舰船目标细粒度分类系统及方法
CN114187445A (zh) 识别图像中文本的方法、装置、电子设备及存储介质
CN113723359A (zh) 用户情绪识别方法、装置、计算机设备及可读存储介质
CN104361354A (zh) 一种基于稀疏编码k最近邻直方图的海量图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination