CN116416488A - 图片样本筛选方法、装置、电子设备及介质 - Google Patents
图片样本筛选方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116416488A CN116416488A CN202310106934.2A CN202310106934A CN116416488A CN 116416488 A CN116416488 A CN 116416488A CN 202310106934 A CN202310106934 A CN 202310106934A CN 116416488 A CN116416488 A CN 116416488A
- Authority
- CN
- China
- Prior art keywords
- picture
- picture sample
- similarity
- sample
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 abstract description 4
- 230000008030 elimination Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000581835 Monodora junodii Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图片样本筛选方法、装置、电子设备及介质,该图片样本筛选方法包括根据图片样本筛选请求,获取图片样本集,对第一图片样本执行预训练,得到图片特征,图片样本集包括第一图片样本;根据图片特征的相似度生成相似度矩阵;通过相似度矩阵删除图片样本集中多样性贡献度不满足第一预设值的第一图片样本;重复多样性贡献度的筛选,直至图片样本集中的第一图片样本的数量至第二预设值。本发明的技术方案通过每次剔除多样性贡献最小的样本进行迭代消除,始终保持筛选过后的样本集的多样性最大化。
Description
技术领域
本发明涉及计算机图像处理技术领域,尤其涉及一种图片样本筛选方法、装置、电子设备及介质。
背景技术
在图像检索任务中,需要构建检索数据集,每一个类别收集若干张图片,然后采集尽可能多的类别用于模型训练,其中少部分图片是通过手动拍照采集的,大部分图片是在用户使用过程中点选分类反馈回来的。在手动拍照采集的时候,会动态调整样本的姿态和背景,从而保证采集样本的多样性,用户侧机器返回的图片是没有经过人为调整的,可能会存在较多的重复样本,因为用户在使用的时候可能摆放的姿势都比较标准,背景都比较清晰,所以样本重复的可能性比较大。
对于其中一类图片(如青苹果),有2W张采集图片,如果不做筛选,直接用于模型训练,可能99%的图片都是相同的姿态和背景,那么最终训练的模型可能泛化性就会存在缺陷(模型会倾向于拟合占比最多的样本),同时如果每一类都维护这么多图片,那么最后整个数据集的体积也会非常大,不利于后续对数据集进行维护存储。基于上述原因,需要对样本数据进行采样去重,最理想的结果就是去除重复样本或者相似样本,尽可能保持样本的多样性。
目前已有的技术普遍是通过哈希去重,首先要得到对应的图片的哈希值,实际使用的时候方法有很多,如取md5值,通过像素值分段或分区域哈希,使用预训练模型提取特征然后分段量化哈希。这种方法虽然能较为有效的去除重复样本,但是最后得到的样本集同样是筛选比较粗糙的,无法保证样本集的多样性。
发明内容
本发明实施例的主要目的在于提出一种图片样本筛选方法、装置、电子设备及介质,提高了图片筛选的多样性。
本发明的一方面提供了一种图片样本筛选方法,包括:
根据图片样本筛选请求,获取图片样本集,对所述第一图片样本执行预训练,得到图片特征,所述图片样本集包括所述第一图片样本;
根据所述图片特征的相似度生成相似度矩阵;
通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本;
重复多样性贡献度的筛选,直至图片样本集中的所述第一图片样本的数量至第二预设值。
根据所述的图片样本筛选方法,其中对所述第一图片样本执行预训练,得到图片特征,包括:
对第一图片样本进行采集;
对所述第一图片样本采用迭代方式进行采样训练,得到预训练模型,通过所述预训练模型对所述第一图片样本执行预训练处理。
根据所述的图片样本筛选方法,其中根据所述图片特征的相似度生成相似度矩阵,包括:
通过计算所述第一图片样本的所述图片特征,计算所述图片特征的两两之间的余弦相似度,得到所述相似度矩阵,所述相似度矩阵的位置坐标用于表征相连的所述第一图像样本的相似度。
根据所述的图片样本筛选方法,其中通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本,包括:
查找所述相似度矩阵中所述相似度最大的所述位置坐标;
对所述位置坐标的两个所述第一图片样本的所述相似度对于所述图片样本集的多样性贡献度进行计算,删除相似度较大的所述第一图片样本。
根据所述的图片样本筛选方法,其中删除相似度较小的所述第一图片样本,包括:
将相似度较大的所述第一图片样本生成删除标识;
根据所述删除标识对相似度较大的所述第一图片样本执行删除处理;
查找所述删除标识在所述相似度矩阵的行和列,对对应的行和列进行删除,并更新所述相似度矩阵。
根据所述的图片样本筛选方法,其中多样性贡献度的计算包括:
计算所述相似度矩阵中所述位置坐标的两个所述图像样本对于近邻的多个其他所述第一图片样本的相似度总和,得到所述多样性贡献度。
根据所述的图片样本筛选方法,其中第二预设值根据所述图片样本集的所述第一图片样本的数量进定义设置。
本发明实施例的另一方面提供了一种图片样本筛选装置,包括:
第一模块,用于根据图片样本筛选请求,获取图片样本集,对所述第一图片样本执行预训练,得到图片特征,所述图片样本集包括所述第一图片样本;
第二模块,用于根据所述图片特征的相似度生成相似度矩阵;
第三模块,用于通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本;
第四模块,用于重复多样性贡献度的筛选,直至图片样本集中的所述第一图片样本的数量至第二预设值。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现前文所描述的图片样本筛选方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文所描述的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施例的图片样本筛选方法流程示意图。
图2是本发明实施例的图片预训练流程示意图。
图3是本发明实施例的预训练模型生成流程示意图。
图4是本发明实施例的多样性贡献度筛选流程示意图。
图5是本发明实施例的相似度矩阵的删除图像样本的流程示意图。
图6是本发明实施例的多样性贡献度的计算示意图。
图7是本发明实施例的样本相似度对比示意图。
图8是本发明实施例的另一种图片样本筛选方法流程示意图。
图9是本发明实施例的图片样本筛选的装置示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
术语解释:
相似度矩阵:是一种基本的统计技术,用于组织一组数据点之间的彼此相似性。
预训练模型:已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。
参考图1,其中图1是本发明实施例的图片样本筛选方法流程示意图,其包括但不限于步骤S100~S400:
S100,根据图片样本筛选请求,获取图片样本集,对第一图片样本执行预训练,得到图片特征,图片样本集包括第一图片样本。
在一些实施例中,对第一图片样本执行预训练参考图2所示的图片预训练流程示意图,其包括但不限于步骤S110~S120:
S110,对第一图片样本进行采集;
S120,对第一图片样本采用迭代方式进行采样训练,得到预训练模型,通过预训练模型对第一图片样本执行预训练处理。
在一些实施例中,其中预训练模型是指在初步收集的大量检索训练数据上训练的检索模型,示例性地,参考图3预训练模型生成流程示意图,获取预训练模型,通过对已收集样本进行每个迭代轮次的采样训练,获取对应的预训练模型,之所以要进行采样训练,是因为不同种类的样本集数量严重不均衡,如果直接用于预训练模型,最终模型会倾向于拟合部分数据量较大的样本类别,导致预训练模型的判别能力不足,不利于获取不同样本之间的真实相似度。
S200,根据图片特征的相似度生成相似度矩阵。
在一些实施例中,相似度矩阵为每两个样本之间的相似度构成的矩阵;
在一些实施例中,通过计算第一图片样本的图片特征,计算图片特征的两两之间的余弦相似度,得到相似度矩阵,相似度矩阵的位置坐标用于表征相连的第一图像样本的相似度。
S300,通过相似度矩阵删除图片样本集中多样性贡献度不满足第一预设值的第一图片样本。
在一些实施例中,参考图4多样性贡献度筛选流程示意图,其包括但不限于步骤S310~S320:
S310,查找相似度矩阵中相似度最大的位置坐标;
S320,对位置坐标的两个第一图片样本的相似度对于图片样本集的多样性贡献度进行计算,删除相似度较大的第一图片样本。
在一些实施例中,参考图5所示的相似度矩阵的删除图像样本的流程示意图,其包括但不限于步骤S321~S323:
S321,将相似度较大的第一图片样本生成删除标识;
S322,根据删除标识对相似度较大的第一图片样本执行删除处理;
S323,查找删除标识在相似度矩阵的行和列,对对应的行和列进行删除,并更新相似度矩阵。
在一些实施例中,参考图6多样性贡献度的计算示意图,其包括计算相似度矩阵中位置坐标的两个图像样本对于近邻的多个其他第一图片样本的相似度总和,得到多样性贡献度,示例性地,如图6计算NxN相似度矩阵,通过对N个样本获取N个特征,然后对N个特征计算两两之间的余弦相似度,即得到NxN相似度矩阵,位置(i,j)的数值即代表第i个样本和第j个样本之间的相似度。选择多样性贡献最小的样本进行剔除,可以在迭代消除的过程中总是保持整体样本集的多样性最大化。选择相似度最大的坐标,相似度最大说明现存样本中有两个样本是最接近的,但是如果随机删除其中一个样本,最后可能会较多删除一些单点样本(即较少存在相似样本的样本),保留的却是其他的相似样本簇,整体的多样性会变差。
在一些实施例中,其中多样性相似度通过计算相似度矩阵中位置坐标的两个图像样本对于近邻的多个其他第一图片样本的相似度总和得到。
示例性地,参考图7所示的样本相似度对比示意图。图1中(1)所示的B1样本和A1样本的相似度最大,那么明显看出,删除A1样本对整体的样本多样性最大化会更有利。所以不能选择随机删除其中一个样本,需要计算每个样本的综合多样性贡献得分,这里统计两个样本对K近邻(即选择距离A1(B1)样本最近的K个样本,统计A1(B1)样本和其他K个样本的相似度,如图7中的(2)和(3))的相似度总和作为当前样本的多样性贡献得分(得分越大,说明存在更多的相似样本,需要进行删除),最终会将多样性贡献得分较大的样本删除,这样可以保证留下的那个样本更难存在相似样本,被删除的那个样本的多样性贡献最小,整体样本集多样性更大。
S400,重复多样性贡献度的筛选,直至图片样本集中的第一图片样本的数量至第二预设值。
在一些实施例中,其中的第二预设值可以自定义设置。
在一些实施了中,参考如图8所示的另外一种图片样本筛选方法流程示意图,其流程包括但不限于:
(1),通过预训练模型获取N个样本的特征;
(2),计算N个样本之间的两两相似度,得到NxN的相似度矩阵;
(3),寻找多样性贡献最小的样本,比如第i个样本,标记为待删除;
(4),删除第i个待删除样本,更新相似度矩阵(删除第i行和第i列);
(5),判断是否已删除足够样本(如保留500张样本),如果是则停止,否则执行步骤(3),迭代消除直到满足样本数量要求。
图9是本发明实施例的图片样本筛选的装置示意图,该装置包括了第一模块901、第二模块902、第三模块903及第四模块904。
其中,第一模块,用于根据图片样本筛选请求,获取图片样本集,对第一图片样本执行预训练,得到图片特征,图片样本集包括第一图片样本;第二模块,用于根据图片特征的相似度生成相似度矩阵;第三模块,用于通过相似度矩阵删除图片样本集中多样性贡献度不满足第一预设值的第一图片样本;第四模块,用于重复多样性贡献度的筛选,直至图片样本集中的第一图片样本的数量至第二预设值。
示例性地,在装置中的第一模块、第二模块、第三模块及第四模块的合作下,实施例装置可以实现前述的任意一种图片样本筛选方法,即根据图片样本筛选请求,获取图片样本集,对第一图片样本执行预训练,得到图片特征,图片样本集包括第一图片样本;根据图片特征的相似度生成相似度矩阵;通过相似度矩阵删除图片样本集中多样性贡献度不满足第一预设值的第一图片样本;重复多样性贡献度的筛选,直至图片样本集中的第一图片样本的数量至第二预设值。本发明的技术方案通过每次剔除多样性贡献最小的样本进行迭代消除,始终保持筛选过后的样本集的多样性最大化。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述的图片样本筛选方法。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种图片样本筛选方法,其特征在于,包括:
根据图片样本筛选请求,获取图片样本集,对所述第一图片样本执行预训练,得到图片特征,所述图片样本集包括所述第一图片样本;
根据所述图片特征的相似度生成相似度矩阵;
通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本;
重复多样性贡献度的筛选,直至图片样本集中的所述第一图片样本的数量至第二预设值。
2.根据权利要求1所述的图片样本筛选方法,其特征在于,所述对所述第一图片样本执行预训练,得到图片特征,包括:
对第一图片样本进行采集;
对所述第一图片样本采用迭代方式进行采样训练,得到预训练模型,通过所述预训练模型对所述第一图片样本执行预训练处理。
3.根据权利要求1所述的图片样本筛选方法,其特征在于,所述根据所述图片特征的相似度生成相似度矩阵,包括:
通过计算所述第一图片样本的所述图片特征,计算所述图片特征的两两之间的余弦相似度,得到所述相似度矩阵,所述相似度矩阵的位置坐标用于表征相连的所述第一图像样本的相似度。
4.根据权利要求3所述的图片样本筛选方法,其特征在于,所述通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本,包括:
查找所述相似度矩阵中所述相似度最大的所述位置坐标;
对所述位置坐标的两个所述第一图片样本的所述相似度对于所述图片样本集的多样性贡献度进行计算,删除相似度较大的所述第一图片样本。
5.根据权利要求4所述的图片样本筛选方法,其特征在于,所述删除相似度较小的所述第一图片样本,包括:
将相似度较大的所述第一图片样本生成删除标识;
根据所述删除标识对相似度较大的所述第一图片样本执行删除处理;
查找所述删除标识在所述相似度矩阵的行和列,对对应的行和列进行删除,并更新所述相似度矩阵。
6.根据权利要求4所述的图片样本筛选方法,其特征在于,所述多样性贡献度的计算包括:
计算所述相似度矩阵中所述位置坐标的两个所述图像样本对于近邻的多个其他所述第一图片样本的相似度总和,得到所述多样性贡献度。
7.根据权利要求1所述的图片样本筛选方法,其特征在于,所述第二预设值根据所述图片样本集的所述第一图片样本的数量进定义设置。
8.一种图片样本筛选装置,其特征在于,包括:
第一模块,用于根据图片样本筛选请求,获取图片样本集,对所述第一图片样本执行预训练,得到图片特征,所述图片样本集包括所述第一图片样本;
第二模块,用于根据所述图片特征的相似度生成相似度矩阵;
第三模块,用于通过所述相似度矩阵删除所述图片样本集中多样性贡献度不满足第一预设值的所述第一图片样本;
第四模块,用于重复多样性贡献度的筛选,直至图片样本集中的所述第一图片样本的数量至第二预设值。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-7中任一项所述的图片样本筛选方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-7中任一项所述的图片样本筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106934.2A CN116416488A (zh) | 2023-02-09 | 2023-02-09 | 图片样本筛选方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106934.2A CN116416488A (zh) | 2023-02-09 | 2023-02-09 | 图片样本筛选方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416488A true CN116416488A (zh) | 2023-07-11 |
Family
ID=87055562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310106934.2A Pending CN116416488A (zh) | 2023-02-09 | 2023-02-09 | 图片样本筛选方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416488A (zh) |
-
2023
- 2023-02-09 CN CN202310106934.2A patent/CN116416488A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11935644B2 (en) | Deep learning automated dermatopathology | |
US7672976B2 (en) | Method for the reduction of image content redundancy in large image databases | |
CN110245657B (zh) | 病理图像相似性检测方法及检测装置 | |
CN110472082B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN112687327B (zh) | 一种基于多任务和多模态的癌症生存分析系统 | |
JP2015087903A (ja) | 情報処理装置及び情報処理方法 | |
CN110245697B (zh) | 一种表面脏污检测方法、终端设备及存储介质 | |
CN107153670A (zh) | 基于多幅图像融合的视频检索方法及系统 | |
CN115908363B (zh) | 肿瘤细胞统计方法、装置、设备和存储介质 | |
CN115424053B (zh) | 小样本图像识别方法、装置、设备及存储介质 | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
Romo et al. | Learning regions of interest from low level maps in virtual microscopy | |
CN116402739A (zh) | 一种用于电子内窥镜检测流程的质量评估方法及装置 | |
US20230230709A1 (en) | Systems and methods for automatically managing image data | |
CN117727027A (zh) | 一种豆荚分类方法 | |
CN116416488A (zh) | 图片样本筛选方法、装置、电子设备及介质 | |
CN110852384A (zh) | 医学影像质量检测方法、装置和存储介质 | |
CN110717057A (zh) | 一种数字病理全切片图像检索方法 | |
JP2018125019A (ja) | 画像処理装置及び画像処理方法 | |
Fiederling et al. | SpineRacks and SpinalJ for efficient analysis of neurons in a 3D reference atlas of the mouse spinal cord | |
CN118377922B (zh) | 医疗影像的索引构建方法、系统、终端及存储介质 | |
CN117787864B (zh) | 一种动物组织采样管溯源入库管理方法 | |
Ranjith Kumar et al. | A powerful and lightweight 3d video retrieval using 3d images over hadoop mapreduce | |
Kim | YOLOv8 Enables Automated Dragonfly Species Classification Using Wing Images | |
CN113222911A (zh) | 宫颈细胞图像筛查方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |