CN118015333A - 一种用于古钱币的细粒度图像分类方法及装置 - Google Patents
一种用于古钱币的细粒度图像分类方法及装置 Download PDFInfo
- Publication number
- CN118015333A CN118015333A CN202410012716.7A CN202410012716A CN118015333A CN 118015333 A CN118015333 A CN 118015333A CN 202410012716 A CN202410012716 A CN 202410012716A CN 118015333 A CN118015333 A CN 118015333A
- Authority
- CN
- China
- Prior art keywords
- coin
- image
- characteristic information
- information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 20
- 238000013135 deep learning Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000005299 abrasion Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Testing Of Coins (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种用于古钱币的细粒度图像分类方法及装置,涉及古钱币分类技术领域。首先对钱币图像进行预处理,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;在训练过程中减少信息缺失的钱币图像的权重,从而不至于完全丢失信息,同时又能减少磨损带来的干扰;融合钱币的正反面特征信息作为钱币最终特征,最后对钱币进行细粒度的分类,选用top‑k方法计算相似度,将其分类到多个小类别上。本发明提供的一种用于古钱币的细粒度图像分类方法及装置,充分利用了钱币的正反面信息,减轻了受损图片的影响,提高了模型在细粒度分类上的准确度。
Description
技术领域
本发明涉及古钱币分类技术领域,特别涉及一种用于古钱币的细粒度图像分类方法及装置。
背景技术
随着人工智能的不断发展和突破,图像分类任务已经取得了显著的进展。在传统的图像分类中,首先需要进行大量数据的采集,以确保系统能够学习到多样性和广泛性。对于古钱币图像分类而言,这意味着收集包含不同年代、地域和金属质地的古钱币图像,以构建丰富的训练数据集。随后,对这些数据进行预处理,包括图像尺寸调整、灰度化和归一化,以确保输入数据的一致性和标准化。
近年来深度学习技术,尤其是卷积神经网络(CNN),通过学习图像中的层次化特征,CNN能够自动学习到图像中的关键特征,无需依赖领域专家手动选择和提取特征,大大提高了图像分类的效率和准确性。在模型选择方面,传统方法包括支持向量机(SVM)、决策树和K最近邻(KNN)等。然而,随着深度学习技术的发展,深度学习模型,尤其是卷积神经网络,成为图像分类任务中的主流选择,因其在端到端学习方面的优势。这些模型通过大量训练数据自动调整参数,使其能够更好地适应各种图像分类任务。
但是大多数现有的钱币分类方法往往将钱币的正反面一起处理,忽略了正反面信息的差异性,这可能限制了对于古钱币图像的全面理解和分类准确性。在现实中,古钱币的大小可能因时代和地域而异,而且图像的背景可能存在各种干扰(如空白区域的面积)。现有的方法对于不一致的尺寸和背景难以处理,影响古钱币分类的准确性。此外现有的方法对于古钱币分类的粒度较粗,只做到金币、银币、纸币等层面,现实世界的应用场景较小。
发明内容
本发明要解决的技术问题,在于提供一种用于古钱币的细粒度图像分类方法及装置,充分利用了钱币的正反面信息,利用完整性标签来标注信息缺失的钱币图像,并通过训练不同的权重,提高模型在细粒度分类上的表现。
第一方面,本发明提供了一种用于古钱币的细粒度图像分类方法,包括:
数据预处理过程:对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
分类模型训练过程:构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
细粒度分类过程:将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
进一步地,所述数据预处理过程具体包括:
利用OCR检测钱币图像中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分;
计算钱币图像的平均高度、平均宽度以及平均灰度值,将所有钱币图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化;
对于只有正面或者只有反面的图像,利用与平均灰度值相同的灰度图片替代缺失的部分;
根据图像信息的完整性设置标签;
最后得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据。
进一步地,所述深度学习分类模型的损失函数为:
其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。
进一步地,正反面特征信息融合时,正面特征信息的权重大于反面特征信息的权重,且正面特征信息的权重与反面特征信息的权重之和为1。
进一步地,正面特征信息的权重为0.55,反面特征信息的权重为0.45,正反面特征信息融合的计算公式如下:
EmbT=0.55·Embfront+0.45·Embback
其中,Embfront为正面特征信息,Embback为反面特征信息。
第二方面,本发明提供了一种用于古钱币的细粒度图像分类装置,包括:数据预处理模块、分类模型训练模块以及细粒度分类模块;其中,
数据预处理模块,用于对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
分类模型训练模块,用于构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
细粒度分类模块,用于将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
进一步地,所述数据预处理模块具体用于:
利用OCR检测钱币图像中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分;
计算钱币图像的平均高度、平均宽度以及平均灰度值,将所有钱币图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化;
对于只有正面或者只有反面的图像,利用与平均灰度值相同的灰度图片替代缺失的部分;
根据图像信息的完整性设置标签;
最后得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据。
进一步地,所述深度学习分类模型的损失函数为:
其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。
进一步地,正反面特征信息融合时,正面特征信息的权重大于反面特征信息的权重,且正面特征信息的权重与反面特征信息的权重之和为1。
进一步地,正面特征信息的权重为0.55,反面特征信息的权重为0.45,正反面特征信息融合的计算公式如下:
EmbT=0.55·Embfront+0.45·Embback
其中,Embfront为正面特征信息,Embback为反面特征信息。
本发明实施例中提供的技术方案,至少具有如下技术效果:
充分利用了钱币的正反面信息,能够保留正反面信息间存在的差异性,通过训练不同的权重,能够提高模型在细粒度分类上的表现;利用额外标签来标注信息缺失的钱币,在保留信息的基础上减小了信息缺失带来的干扰,提高了模型的精确性;采用top-k相似度计算,更有可能保留相关的类别。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实施例深度学习分类模型的框架示意图;
图2为本发明实施例一中方法的流程图;
图3为本发明实施例二中装置的结构示意图。
具体实施方式
本发明实施例通过提供一种用于古钱币的细粒度图像分类方法及装置,充分利用了钱币的正反面信息,利用完整性标签来标注信息缺失的钱币图像,并通过训练不同的权重,提高模型在细粒度分类上的表现。
本发明实施例中的技术方案,总体思路如下:
为了解决现有技术存在的问题,针对古钱币提出一个新的分类方法。首先将钱币图片进行清洗,清除无用的文字部分,而后对清洗后的古钱币图片进行裁剪,分别保留其正反面信息。在训练过程中分别进行处理,保留特征的差异性。对于信息缺失(只有正面或只有反面图像)和表面磨损严重的古钱币,给予其额外的一个标签“m”,在训练过程中减少其权重,这样不至于完全丢失信息,同样又能减少磨损带来的干扰。此外,在模型的选择上使用CAFormer-B36,来减少图像背景中存在的各种干扰。最后,针对某一大类的钱币再进行细粒度的分类,选用top-k方法计算相似度,将其准确分类到多个小类别上。通过本发明实施例的技术方案可以很好地解决以上的问题,提高古钱币细粒度分类的准确度。
在介绍具体实施例之前,先介绍本发明实施例方法所对应的深度学习分类模型的框架,如图1所示,模型大概分三个模块:数据处理模块,特征融合模块以及相似度计算模块。数据处理模块主要用于清洗数据,需要去除图像中的无用文字,裁剪正反面以及检测信息是否缺失,模块最后分别输出处理后钱币正反面的图片。特征融合模块的输入为图片,输出为融合后的特征。而相似度计算模块的工作主要是计算特征库中各特征和目标钱币特征的相似度,从高到低输出相似度最高的钱币类别。
实施例一
本实施例提供一种用于古钱币的细粒度图像分类方法,如图2所示,可以包括如下步骤:
S1、数据预处理过程:对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
S2、分类模型训练过程:构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
S3、细粒度分类过程:将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
在一种可能的实现方式中,具体实现过程如下:
步骤1:数据预处理
主要包括以下步骤:
1)对于任意的钱币图片,利用OCR检测图片中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分。
2)图像尺寸调整及图像灰度化,对于所有的钱币图像,计算其平均高度和平均宽度,以及平均灰度值,将所有图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化。
3)缺失信息处理,对于一个正面磨损比较严重的钱币,选择以往固定权重的方法,模型会认为正面特征是更有效的,实际上这更多的都是噪音,稀释了真正有效的反面特征,在最终钱币的计算中,会导致引入许多干扰信息;如若简单的丢弃这些信息,则会导致词表信息不全。因此,对于这样信息缺失的图像,对每个图像额外设置一个标签m,将其标识为0,其余正常数据标识为1,在后续特征信息融合过程中,利用标签判别器(LabelDiscriminator)选择图像的权重。对于部分只有正面或者只有反面的图像中缺失的部分,利用与平均灰度值相同的空白图片作为替代。
最终,得到有标签标注的、无额外文字干扰,图像尺寸以及灰度值相同的预处理数据。
步骤2:分类模型训练与特征信息的融合
在模型训练过程中,对于步骤一中设置额外的标签,标签判别器(LabelDiscriminator)选会对其进行检测,减小其计算过程中的权重,这样既能保留词表中的信息,又能避免噪音过多带来的干扰。最终的训练目标为最小化如下损失:
使用交叉熵损失,其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。模型训练既包括了可学习权重a的学习过程,也包括了嵌入层中参数的调整过程。可学习权重a可减轻受损图片的影响。
将钱币的正反面作为两张图像输入到模型中,融合它们的结果作为钱币最终特征,一种比较简单的方法是把钱币的正面特征信息和反面特征信息相加。但是由于钱币正反面存在差异性,它们携带的信息量可能不同,这样可能会导致重要的视觉信息被削减。考虑钱币的正面特征信息Embfront,考虑钱币的反面特征信息Embback,用λ1表示钱币正面的权重,使用λ2来表示钱币反面的权重,它们满足关系λ1+λ2=1。在实施中在0~1之间按0.05的方式间隔取值,最终实验发现λ1=0.55以及λ2=0.45时取得了最好的效果。即最终的信息融合计算方法为:
EmbT=0.55·Embfront+0.45·Embback
步骤3:利用top-k相似度计算进行分类
这个步骤主要是对于未知类型的钱币进行分类。对于给定的未分类钱币M的图片,首先根据微调好的模型进行特征的计算,钱币M的特征与钱币特征库中的特征依次计算余弦相似度,按余弦相似度得分从高到底排序特征,取出前k个相似度得分最高的类别作为最终分类结果。
在本实施例中选择k=3,比如给定一张未知类别的钱币,top-3返回的结果是福建官局造光绪元寰金版/户部光绪元寰金版/四川省造金版,即说明该钱币最有可能是福建官局造光绪元寰金版,有很大的可能是户部光绪元寰金版或四川省造金版。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二
在本实施例中提供了一种用于古钱币的细粒度图像分类装置,如图3所示,包括:数据预处理模块、分类模型训练模块以及细粒度分类模块;其中,
数据预处理模块,用于对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
分类模型训练模块,用于构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
细粒度分类模块,用于将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
在一种可能的实现方式中,所述数据预处理模块具体用于:
利用OCR检测钱币图像中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分;
计算钱币图像的平均高度、平均宽度以及平均灰度值,将所有钱币图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化;
对于只有正面或者只有反面的图像,利用与平均灰度值相同的灰度图片替代缺失的部分;
根据图像信息的完整性设置标签;
最后得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据。
在一种可能的实现方式中,所述深度学习分类模型的损失函数为:
其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。
在一种可能的实现方式中,正反面特征信息融合时,正面特征信息的权重大于反面特征信息的权重,且正面特征信息的权重与反面特征信息的权重之和为1。
在一种可能的实现方式中,正面特征信息的权重为0.55,反面特征信息的权重为0.45,正反面特征信息融合的计算公式如下:
EmbT=0.55·Embfront+0.45·Embback
其中,Embfront为正面特征信息,Embback为反面特征信息。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
本申请实施例充分利用了钱币的正反面信息,能够保留正反面信息间存在的差异性,通过训练不同的权重,能够提高模型在细粒度分类上的表现;利用额外标签来标注信息缺失的钱币,在保留信息的基础上减小了信息缺失带来的干扰,提高了模型的精确性;采用top-k相似度计算,更有可能保留相关的类别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种用于古钱币的细粒度图像分类方法,其特征在于,包括:
数据预处理过程:对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
分类模型训练过程:构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
细粒度分类过程:将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
2.根据权利要求1所述的方法,其特征在于:所述数据预处理过程具体包括:
利用OCR检测钱币图像中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分;
计算钱币图像的平均高度、平均宽度以及平均灰度值,将所有钱币图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化;
对于只有正面或者只有反面的图像,利用与平均灰度值相同的灰度图片替代缺失的部分;
根据图像信息的完整性设置标签;
最后得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据。
3.根据权利要求1所述的方法,其特征在于:所述深度学习分类模型的损失函数为:
其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。
4.根据权利要求1所述的方法,其特征在于:正反面特征信息融合时,正面特征信息的权重大于反面特征信息的权重,且正面特征信息的权重与反面特征信息的权重之和为1。
5.根据权利要求4所述的方法,其特征在于:正面特征信息的权重为0.55,反面特征信息的权重为0.45,正反面特征信息融合的计算公式如下:
EmbT=0.55·Embfront+0.45·Embback
其中,Embfront为正面特征信息,Embback为反面特征信息。
6.一种用于古钱币的细粒度图像分类装置,其特征在于,包括:数据预处理模块、分类模型训练模块以及细粒度分类模块;其中,
数据预处理模块,用于对钱币图像进行预处理,对于只有正面或者只有反面的钱币图像,利用与平均灰度值相同的灰度图片替代缺失的部分,根据图像信息的完整性设置标签,得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据;
分类模型训练模块,用于构建深度学习分类模型,包括两个嵌入层、标签判别器以及特征融合单元,两个嵌入层用于分别对正面和反面钱币图像进行特征学习,标签判别器用于根据完整性标签选择权重,特征融合单元用于将钱币的正面特征信息和反面特征信息按指定权重进行融合;利用预处理数据训练模型至损失最小化,得到钱币特征库;
细粒度分类模块,用于将预处理后的待分类钱币的正反面作为两张图像输入到模型中,得到融合了正反面特征的结果作为钱币最终特征;将钱币最终特征与钱币特征库中的特征进行相似度匹配,将前k个相似度得分最高的类别作为最终分类结果。
7.根据权利要求6所述的装置,其特征在于:所述数据预处理模块具体用于:
利用OCR检测钱币图像中是否存在文字,若存在文字且文字在非钱币的区域上,则进行清洗操作,去除文字部分;
计算钱币图像的平均高度、平均宽度以及平均灰度值,将所有钱币图像的尺寸调整成平均值,灰度值调整成平均值,以确保输入数据的一致性和标准化;
对于只有正面或者只有反面的图像,利用与平均灰度值相同的灰度图片替代缺失的部分;
根据图像信息的完整性设置标签;
最后得到无额外文字干扰、图像尺寸、灰度值相同且带有完整性标签的预处理数据。
8.根据权利要求6所述的装置,其特征在于:所述深度学习分类模型的损失函数为:
其中,m为完整性标签,图像信息完整取值为0、图像信息不完整取值为1;k为钱币数据集中正常数据的类别数;n为钱币数据集中所有数据的类别数;a为可学习权重,用于减轻信息缺失的钱币带来的噪音;yc为钱币图像的符号函数,为钱币图像的预测函数。
9.根据权利要求6所述的装置,其特征在于:正反面特征信息融合时,正面特征信息的权重大于反面特征信息的权重,且正面特征信息的权重与反面特征信息的权重之和为1。
10.根据权利要求9所述的装置,其特征在于:正面特征信息的权重为0.55,反面特征信息的权重为0.45,正反面特征信息融合的计算公式如下:
EmbT=0.55·Embfront+0.45·Embback
其中,Embfront为正面特征信息,Embback为反面特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410012716.7A CN118015333A (zh) | 2024-01-04 | 2024-01-04 | 一种用于古钱币的细粒度图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410012716.7A CN118015333A (zh) | 2024-01-04 | 2024-01-04 | 一种用于古钱币的细粒度图像分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118015333A true CN118015333A (zh) | 2024-05-10 |
Family
ID=90946384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410012716.7A Pending CN118015333A (zh) | 2024-01-04 | 2024-01-04 | 一种用于古钱币的细粒度图像分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118015333A (zh) |
-
2024
- 2024-01-04 CN CN202410012716.7A patent/CN118015333A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
US7171042B2 (en) | System and method for classification of images and videos | |
CN104732413B (zh) | 一种智能个性化视频广告推送方法及系统 | |
CN103136504B (zh) | 人脸识别方法及装置 | |
Passos et al. | A review of deep learning‐based approaches for deepfake content detection | |
EP1388804A2 (en) | Method and system for face detection using pattern classifier | |
CN106803090A (zh) | 一种图像识别方法和装置 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN108710893B (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN111401374A (zh) | 基于多任务的模型训练方法、字符识别方法及装置 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN109993187A (zh) | 一种用于识别物体类别的建模方法、机器人及存储装置 | |
CN111986180A (zh) | 基于多相关帧注意力机制的人脸伪造视频检测方法 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
US11132572B2 (en) | Method and system for splicing and restoring shredded paper based on extreme learning machine | |
Babnik et al. | DifFIQA: Face image quality assessment using denoising diffusion probabilistic models | |
Kiruthika et al. | Image quality assessment based fake face detection | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
Sarker et al. | Transformer-based person re-identification: a comprehensive review | |
CN113762041A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Chawla et al. | Classification of computer generated images from photographic images using convolutional neural networks | |
CN103793714A (zh) | 多分类识别器、数据识别装置、多分类识别方法及数据识别方法 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
CN118015333A (zh) | 一种用于古钱币的细粒度图像分类方法及装置 | |
CN117523252A (zh) | 一种基于深度学习的页岩孔隙类型检测与分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |