CN116257800A - 一种训练样本的标注方法及系统 - Google Patents
一种训练样本的标注方法及系统 Download PDFInfo
- Publication number
- CN116257800A CN116257800A CN202310531751.5A CN202310531751A CN116257800A CN 116257800 A CN116257800 A CN 116257800A CN 202310531751 A CN202310531751 A CN 202310531751A CN 116257800 A CN116257800 A CN 116257800A
- Authority
- CN
- China
- Prior art keywords
- samples
- labeling
- feature vector
- reference value
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 95
- 238000012549 training Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 152
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 230000036541 health Effects 0.000 description 7
- 241001504424 Zosteropidae Species 0.000 description 3
- 235000002673 Dioscorea communis Nutrition 0.000 description 2
- 241000544230 Dioscorea communis Species 0.000 description 2
- 241001469893 Oxyzygonectes dovii Species 0.000 description 2
- 208000035753 Periorbital contusion Diseases 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种训练样本的标注方法及系统,该方法通过预设维度获取所有的原始样本的特征向量;对已标注样本的特征向量分类后,确定特征向量基准值;通过特征向量和预设的标注模型,获取后验概率;通过未标注样本的特征向量和特征向量基准值,获取先验概率;通过比对先验概率和后验概率,给未标注样本赋予类别标签;迭代S3至S5,当赋予类别标签的样本数量满足条件时,停止迭代,通过标注模型对所有未标注样本进行标注。该方法可以避免因为无法保证第一轮迭代训练的中间模型有足够的无偏性而导致的标注数据不准确的不良后果,有效提高标注数据的准确性与有效性。该系统具有相同的有益效果。
Description
技术领域
本发明涉及人工智能图像处理技术领域,特别是涉及一种训练样本的标注方法及系统。
背景技术
随着社会的发展和进步,在图像数据中进行检测、分类、识别的任务越来越多。通常借助算法模型来实现图像数据的自动化检测、分类和识别,但在对图像数据自动识别模型进行训练时,需要用到大量的标注数据。
目前,现有技术中,用已标注数据训练一个中间模型,然后使用该中间模型对无标签数据做标注,标注的结果与原始有标注数据一起迭代训练中间模型,最终实现对所有数据的标注。但该方法存在:当已标注数据在全部数据中占比偏低时,无法保证第一轮迭代训练的中间模型有足够的无偏性,而一旦该模型是有偏的,随着迭代次数和“有偏”标注数据的增加,中间模型会越来越不准确,最终得到无法使用的标注数据。
因此,提供一种可以有效提高标注数据准确性与有效性的训练样本的标注方法及系统是本领域技术人员亟待解决的问题。
发明内容
本发明的目的在于提供一种训练样本的标注方法及系统,该方法逻辑清晰,安全、有效、可靠且操作简便,可以避免因为无法保证第一轮迭代训练的中间模型有足够的无偏性而导致的标注数据不准确的不良后果,有效提高标注数据的准确性与有效性。
基于以上目的,本发明提供的技术方案如下:
一种训练样本的标注方法,包括如下步骤:
S1.根据预设维度和原始样本的特征区域,获取特征向量;其中,所述原始样本包括:已标注样本和未标注样本;
S2.重复步骤S1直至获取所有的原始样本的特征向量,对所有的所述已标注样本的特征向量进行分类后,确定特征向量基准值;
S3.根据所述特征向量和预设的标注模型,获取关于类别的后验概率;
S4.根据未标注样本的特征向量和所述特征向量基准值,获取关于类别的先验概率;
S5.根据所述后验概率和所述先验概率,按预设规则判断是否给所述未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
S6.迭代步骤S3至步骤S5,若所述赋予类别标签的样本数量满足第一预设条件,则停止迭代,根据所述标注模型标注所有的所述未标注样本。
优选地,所述步骤S6还包括:
若所述样本数量不满足所述第一预设条件,则根据所述当前迭代次数判断是否满足第二预设条件;
若所述当前迭代次数满足所述第二预设条件,则更新所述标注模型和所述特征向量基准值后,继续迭代;
若所述当前迭代次数不满足所述第二预设条件,则停止迭代,调整所述特征向量基准值,增加所述原始样本后返回步骤S1。
优选地,所述S1包括如下步骤:
对所述原始样本进行图像增强,得到增强后的原始样本;
对所述增强后的原始样本进行处理,提取特征区域的特征值;
根据所述预设维度使所述特征值形成所述特征向量。
优选地,所述S2包括如下步骤:
将所述已标注样本按步骤S1进行重复,直至获取所有的所述原始样本的特征向量;
按预设评分规则将所有的所述已标注样本的特征向量,分为多个类别;
分别对每个类别中的所述已标注样本的特征向量计算平均值,以获取每个类别中的已标注样本的特征向量均值作为所述特征向量基准值。
优选地,所述S3具体为:
以所述特征向量作为输入和所述后验概率作为输出,基于深度学习构建所述标注模型;
根据所述特征向量和所述标注模型,获取关于类别的后验概率。
优选地,所述步骤S4包括如下步骤:
将所述未标注样本的特征向量和所述特征向量基准值计算欧式距离;
根据所述欧式距离与预设距离阈值,获取关于类别的先验概率。
优选地,所述步骤S5包括如下步骤:
分别获取所述先验概率的最大值和所述后验概率中的最大值;
判断所述先验概率最大值对应的序号和所述后验概率最大值对应的序号是否相等;
若是,则将所述先验概率最大值对应的序号作为类别标签赋予所述未标注样本;
获取已赋予类别标签的样本数量。
优选地,所述步骤S6包括如下步骤:
获取未标注样本的样本数量;
获取所述赋予类别标签的样本数量和所述未标注样本的样本数量之间的比值;
判断所述比值是否小于预设占比阈值;
若是,则停止迭代,并根据所述标注模型标注所有的所述所述未标注样本。
优选地,所述若所述当前迭代次数满足所述第二预设条件,则更新所述标注模型和所述特征向量基准值后,继续迭代,包括如下步骤:
获取当前迭代次数;
判断当前迭代次数是否小于预设迭代阈值;
若是,则根据所述当前迭代次数,更新所述标注模型和所述特征向量基准值,得到更新后的标注模型和更新后的特征向量基准值;
根据所述更新后的标注模型和所述更新后的特征向量基准值,继续迭代。
一种训练样本的标注系统,包括:
特征向量模块,用于根据预设维度和原始样本的特征区域,获取特征向量;其中,所述原始样本包括:已标注样本和未标注样本;
特征向量基准值模块,用于根据所述特征向量模块获取所有的已标注样本的特征向量,对所有的所述已标注样本的特征向量进行分类后,确定特征向量基准值;
后验概率模块,用于根据所述特征向量和预设的标注模型,获取关于类别的后验概率;
先验概率模块,用于根据未标注样本的特征向量和所述特征向量基准值,获取关于类别的先验概率;
标签模块,用于根据所述后验概率和所述先验概率,按预设规则判断是否给所述未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
迭代模块,用于进行迭代,若所述赋予类别标签的样本数量满足第一预设条件,则停止迭代;
标注模块,用于根据所述标注模型标注所有的所述未标注样本。
本发明公开了一种训练样本的标注方法,是通过从原始样本中提取特征区域,并根据预设维度和原始样本的特征区域,提取出特征向量;重复提取特征向量,直至获取所有已标注样本的特征向量,对所有已标注样本的特征向量进行分类后,分别确定每一个类别中的特征向量基准值;通过特征向量和已预设的标注模型,获取关于类别的后验概率;通过未标注样本的特征向量和已获取的特征向量基准值,获取关于类别的先验概率;通过后验概率、先验概率和预设规则判断是否给未标注样本赋予类别标签,若通过比对后验概率和先验概率,其结果满足条件,则给未标注样本赋予类别标签,同时获取赋予类别标签的样本数量;迭代获取后验概率、获取先验概率和赋予类别标签的三个步骤,当赋予类别标签的样本数量满足一定的条件,则停止迭代,通过标注模型标注所有的未标注样本。
本方案所提供的训练样本的标注方法,通过将已标注样本的特征向量进行分类,使得分类后确定的特征向量基准值更加精准;而所确定的关于类别的后验概率与关于类别的先验概率,也因此更加精准和有效。进一步地,本案并未比对已标注数据和全部数据,而是比对更为精准的先验概率和后验概率;同时,采用了监督训练的策略,确保中间模型的可信度。相比于现有技术,可以避免因为无法保证第一轮迭代训练的中间模型有足够的无偏性而导致的标注数据不准确的不良后果,有效提高标注数据的准确性与有效性。
本发明还提供了一种训练样本的标注系统,由于与该方法解决相同的技术问题,属于相同的技术构思,理应具有相同的有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种训练样本的标注方法的流程图;
图2为本发明实施例提供的步骤S6的流程图;
图3为本发明实施例提供的步骤S1的流程图;
图4为本发明实施例提供的步骤S2的流程图;
图5为本发明实施例提供的步骤S5的流程图;
图6为本发明实施例提供的步骤S6的流程图;
图7为本发明实施例提供的步骤A2的流程图;
图8为本发明实施例提供的一种训练样本的标注系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例采用递进的方式撰写。
本发明实施例提供了一种训练样本的标注方法及系统。主要解决现有技术中,因为无法保证第一轮迭代训练的中间模型有足够的无偏性而导致的标注数据不准确的技术问题。
在实际运用过程中,根据不同的使用需求或所需的效果,各方法步骤有具体的使用细节,各步骤所采用的具体设备或检测部件可以根据实际需要进行选择。下面以辅助分析眼部健康状态为例,详细说明本案所提供的训练样本的标注方法。
如图1所示,一种训练样本的标注方法,包括如下步骤:
S1.根据预设维度和原始样本的特征区域,获取特征向量;其中,原始样本包括:已标注样本和未标注样本;
S2.重复步骤S1直至获取所有的原始样本的特征向量,对所有的已标注样本的特征向量进行分类后,确定特征向量基准值;
S3.根据特征向量和预设的标注模型,获取关于类别的后验概率;
S4.根据未标注样本的特征向量和特征向量基准值,获取关于类别的先验概率;
S5.根据后验概率和先验概率,按预设规则判断是否给未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
S6.迭代步骤S3至步骤S5,若赋予类别标签的样本数量满足第一预设条件,则停止迭代,根据标注模型标注所有的未标注样本。
步骤S1中,预设眼部健康状态维度及分类评分表,如下:
眼部健康状态维度及分类评分表
需要说明的是,从上述6个维度进行评分,最终眼部健康状态超过13分,则确定为异常状态,位于10-13分区间则为待定状态;低于10分则为健康状态;
对已标注和未标注的眼部健康状态原始样本图像数据,提取黑睛和白睛的特征区域。其中黑睛包含代谢环和瞳孔,白睛包含脉络等信息;
从上述6个维度中,对黑睛和白睛的特征区域提取3个类别中对应的特征值,将6个维度的特征值组成一个特征向量;
在本实施例中,“1.脉络走向维度”的定义为,对白睛特征区域提取脉络后,计算其端点到黑睛中心的最短距离,当该距离足够小时,就与上表中“评分3”的特征值相对应;
其中,原始样本包括:已标注样本和未标注样本;
步骤S2中,重复步骤S1,直至获取所有的原始样本的特征向量,即所有的已标注样本的特征向量和所有的未标注样本的特征向量,对所有的已标注样本的特征向量分为3类后,分别确定各类别的特征向量基准值;
步骤S3中,预设标注模型,结合标注模型和已获取的所有的原始样本的特征向量,获取关于类别的后验概率;
步骤S4中,通过已获取的未标注样本的特征向量和已获取的特征向量基准值,获取关于类别的先验概率;
步骤S5中,按预设规则比对先验概率和后验概率,从而判断是否给未标注样本赋予类别标签,若是,给未标注样本赋予类别标签,并获取已赋予类别标签的样本数量;
步骤S6中,迭代步骤S3至步骤S5,在迭代过程中,当已赋予类别标签的样本数量满足第一预设条件,则停止迭代;通过初始的标注模型对所有未标注样本进行标注。
如图2所示,优选地,步骤S6还包括:
A1.若样本数量不满足第一预设条件,则根据当前迭代次数判断是否满足第二预设条件;
A2.若当前迭代次数满足第二预设条件,则更新标注模型和特征向量基准值后,继续迭代;
A3.若当前迭代次数不满足第二预设条件,则停止迭代,调整特征向量基准值,增加原始样本后返回步骤S1。
步骤A1中,当样本数量不满足第一预设条件,则查阅当前迭代次数,并根据当前迭代次数是否满足第二预设条件;
即当样本数量不满足第一预设条件时,进行关于当前迭代次数的判断;
在本实施例中,可以设置迭代计数器获取当前迭代次数;
步骤A2中,若当前迭代次数满足第二预设条件,则对标注模型和特征向量基准值进行更新,并以更新后的标注模型和更新后的特征向量基准值继续迭代;
步骤A3中,若当前迭代次数不满足第二预设条件,则停止迭代,对特征向量基准值进行调整,并增加原始样本后,以增加后的原始样本重新进行步骤S1。
如图3所示,优选地,S1包括如下步骤:
B1.对原始样本进行图像增强,得到增强后的原始样本;
B2.对增强后的原始样本进行处理,提取特征区域的特征值;
B3.根据预设维度使特征值形成特征向量。
步骤B1至步骤B2中,当所采集的眼睛健康状态原始图像样本模糊不清,则可通过图像增强技术对图像样本进行增强,再对增强后的原始图像样本提取特征区域,可以采用图像处理的发方法,也可以采用基于深度学习的语义分割的方法;
如图4所示,优选地,S2包括如下步骤:
C1.将已标注样本按步骤S1进行重复,直至获取所有的原始样本的特征向量;
C2.按预设评分规则将所有的已标注样本的特征向量,分为多个类别;
C3.分别对每个类别中的已标注样本的特征向量计算平均值,以获取每个类别中的已标注样本的特征向量均值作为特征向量基准值。
步骤C1中,按照步骤S1进行重复多次,直至获取所有的原始样本的特征向量,即包括所有的已标注样本的特征向量和所有的未标注样本的特征向量;
步骤C2中,按照上表评分规则,对所有的已标注样本的特征向量,分为三类,分别对应评分1、评分2和评分3;
步骤C3中,分别对每个类别中的已标注样本的特征向量计算平均值,从而得到每个类别中的已标注样本的特征向量均值作为特征向量基准值;
优选地,S3具体为:
以特征向量作为输入和后验概率作为输出,基于深度学习构建标注模型;
根据特征向量和标注模型,获取关于类别的后验概率。
上述步骤中,该标注模型可以为基于机器学习的分类器,如SVM、决策树等,首先通过S2的方法从黑睛和白睛图像中提取特征向量,然后通过分类器输出上表中6种特征的3分类的后验概率;可选的,该标注模型还可以为基于深度学习的分类模型如resnet、inceptionn等,以黑睛和白睛的的原始图像样本为输入,输出上表中6种特征的3分类的后验概率/>。
标注模型的初始化是通过对已标注样本做训练获得的。
优选地,步骤S4包括如下步骤:
将未标注样本的特征向量和特征向量基准值计算欧式距离;
根据欧式距离与预设距离阈值,获取关于类别的先验概率。
如图5所示,优选地,步骤S5包括如下步骤:
D1.分别获取先验概率的最大值和后验概率中的最大值;
D2.判断先验概率最大值对应的序号和后验概率最大值对应的序号是否相等;
D3.若是,则将先验概率最大值对应的序号作为类别标签赋予未标注样本;
D4.获取已赋予类别标签的样本数量。
在本实施例中,比较先验概率和后验概率/>,决定是否将对应样本赋予标签。具体来说,对于属性“脉络走向”对应的特征值,其先验概率为/>,后验概率为/>。假设/>中概率最大的为/>,如果/>中概率最大的为/>,那么就认为该后验是可信的,将该未标注样本赋予对应类别标签;如果/>中概率最大的不是/>,则认为该后验是不可信的,不对该未标注样本赋予类别标签。
步骤D4中,统计并获取已赋予类别标签的样本数量。
如图6所示,优选地,步骤S6包括如下步骤:
E1.获取未标注样本的样本数量;
E2.获取赋予类别标签的样本数量和未标注样本的样本数量之间的比值;
E3.判断比值是否小于预设占比阈值;
E4.若是,则停止迭代,根据标注模型标注所有的未标注样本。
步骤E1中,每次迭代过程中,均从步骤S4中获取未标注样本的样本数量;
步骤E2至步骤E4中,根据步骤D4获取当次迭代过程中的已赋予类别标签的样本数量,再根据赋予类别标签的样本数量占未标注样本的样本数量的比例。如果/>小于预设占比阈值/>则认为中间模型已经满足要求,停止迭代,使用该标注模型对所有未标注样本做标注。
如图7所示,优选地,步骤A2,包括如下步骤:
F1.获取当前迭代次数;
F2.判断当前迭代次数是否小于预设迭代阈值;
F3.若是,则根据当前迭代次数,更新标注模型和特征向量基准值,得到更新后的标注模型和更新后的特征向量基准值;
F4.根据更新后的标注模型和更新后的特征向量基准值,继续迭代。
如图8所示,一种训练样本的标注系统,包括:
特征向量模块,用于根据预设维度和原始样本的特征区域,获取特征向量;其中,原始样本包括:已标注样本和未标注样本;
特征向量基准值模块,用于根据特征向量模块获取所有的已标注样本的特征向量,对所有的已标注样本的特征向量进行分类后,确定特征向量基准值;
后验概率模块,用于根据特征向量和预设的标注模型,获取关于类别的后验概率;
先验概率模块,用于根据未标注样本的特征向量和特征向量基准值,获取关于类别的先验概率;
标签模块,用于根据后验概率和先验概率,按预设规则判断是否给未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
迭代模块,用于进行迭代,若赋予类别标签的样本数量满足第一预设条件,则停止迭代;
标注模块,用于根据标注模型标注所有的未标注样本。
实际运用过程中,还公开了一种训练样本的标注系统,该系统是通过特征向量模块根据预设维度和原始样本的特征区域,获取特征向量,并将特征向量发送至特征向量基准值模块和后验概率模块,同时将未标注样本的特征向量发送至先验概率模块;特征向量基准值模块,根据特征向量模块获取所有的已标注样本的特征向量,对所有的已标注样本的特征向量进行分类后,确定特征向量基准值,并将特征向量基准值发送至先验概率模块;后验概率模块根据特征向量和预设的标注模型,获取关于类别的后验概率并将后验概率发送至标签模块;先验概率模块根据未标注样本的特征向量和特征向量基准值,获取关于类别的先验概率并将先验概率发送至标签模块;标签模块根据后验概率和先验概率,按预设规则判断是否给未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量,并将赋予赋予类别标签的样本数量发送至迭代模块;迭代模块,用于进行迭代,并在迭代过程中,根据赋予类别标签的样本数量判断是否停止迭代,在停止迭代后,发送停止迭代消息至标注模块;标注模块根据标注模型标注所有的未标注样本。
在本申请所提供的实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或模块的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
另外,在本发明各实施例中的各功能模块可以全部集成在一个处理器中,也可以是各模块分别单独作为一个器件,也可以两个或两个以上模块集成在一个器件中;本发明各实施例中的各功能模块既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令及相关的硬件来完成,前述的程序指令可以存储于计算机可读取存储介质中,该程序指令在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
应当理解,本申请中如若使用了“系统”、“装置”、“单元”和/或“模块”,仅是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
本申请中如若使用了流程图,则该流程图是用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
以上对本发明所提供的一种训练样本的标注方法及系统进行了详细介绍。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种训练样本的标注方法,其特征在于,包括如下步骤:
S1.根据预设维度和原始样本的特征区域,获取特征向量;其中,所述原始样本包括:已标注样本和未标注样本;
S2.重复步骤S1直至获取所有的原始样本的特征向量,对所有的所述已标注样本的特征向量进行分类后,确定特征向量基准值;
S3.根据所述特征向量和预设的标注模型,获取关于类别的后验概率;
S4.根据未标注样本的特征向量和所述特征向量基准值,获取关于类别的先验概率;
S5.根据所述后验概率和所述先验概率,按预设规则判断是否给所述未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
S6.迭代步骤S3至步骤S5,若所述赋予类别标签的样本数量满足第一预设条件,则停止迭代,根据所述标注模型标注所有的所述未标注样本。
2.如权利要求1所述的训练样本的标注方法,其特征在于,所述步骤S6还包括:
若所述样本数量不满足所述第一预设条件,则根据所述当前迭代次数判断是否满足第二预设条件;
若所述当前迭代次数满足所述第二预设条件,则更新所述标注模型和所述特征向量基准值后,继续迭代;
若所述当前迭代次数不满足所述第二预设条件,则停止迭代,调整所述特征向量基准值,增加所述原始样本后返回步骤S1。
3.如权利要求1所述的训练样本的标注方法,其特征在于,所述S1包括如下步骤:
对所述原始样本进行图像增强,得到增强后的原始样本;
对所述增强后的原始样本进行处理,提取特征区域的特征值;
根据所述预设维度使所述特征值形成所述特征向量。
4.如权利要求1所述的训练样本的标注方法,其特征在于,所述S2包括如下步骤:
将所述已标注样本按步骤S1进行重复,直至获取所有的所述原始样本的特征向量;
按预设评分规则将所有的所述已标注样本的特征向量,分为多个类别;
分别对每个类别中的所述已标注样本的特征向量计算平均值,以获取每个类别中的已标注样本的特征向量均值作为所述特征向量基准值。
5.如权利要求1所述的训练样本的标注方法,其特征在于,所述S3具体为:
以所述特征向量作为输入和所述后验概率作为输出,基于深度学习构建所述标注模型;
根据所述特征向量和所述标注模型,获取关于类别的后验概率。
6.如权利要求1所述的训练样本的标注方法,其特征在于,所述步骤S4包括如下步骤:
将所述未标注样本的特征向量和所述特征向量基准值计算欧式距离;
根据所述欧式距离与预设距离阈值,获取关于类别的先验概率。
7.如权利要求1所述的训练样本的标注方法,其特征在于,所述步骤S5包括如下步骤:
分别获取所述先验概率的最大值和所述后验概率中的最大值;
判断所述先验概率最大值对应的序号和所述后验概率最大值对应的序号是否相等;
若是,则将所述先验概率最大值对应的序号作为类别标签赋予所述未标注样本;
获取已赋予类别标签的样本数量。
8.如权利要求1所述的训练样本的标注方法,其特征在于,所述步骤S6具体为如下步骤:
获取未标注样本的样本数量;
获取所述赋予类别标签的样本数量和所述未标注样本的样本数量之间的比值;
判断所述比值是否小于预设占比阈值;
若是,则停止迭代,并根据所述标注模型标注所有的所述未标注样本。
9.如权利要求2所述的训练样本的标注方法,其特征在于,所述若所述当前迭代次数满足所述第二预设条件,则更新所述标注模型和所述特征向量基准值后,继续迭代,包括如下步骤:
获取当前迭代次数;
判断当前迭代次数是否小于预设迭代阈值;
若是,则根据所述当前迭代次数,更新所述标注模型和所述特征向量基准值,得到更新后的标注模型和更新后的特征向量基准值;
根据所述更新后的标注模型和所述更新后的特征向量基准值,继续迭代。
10.一种训练样本的标注系统,其特征在于,包括:
特征向量模块,用于根据预设维度和原始样本的特征区域,获取特征向量;其中,所述原始样本包括:已标注样本和未标注样本;
特征向量基准值模块,用于根据所述特征向量模块获取所有的已标注样本的特征向量,对所有的所述已标注样本的特征向量进行分类后,确定特征向量基准值;
后验概率模块,用于根据所述特征向量和预设的标注模型,获取关于类别的后验概率;
先验概率模块,用于根据未标注样本的特征向量和所述特征向量基准值,获取关于类别的先验概率;
标签模块,用于根据所述后验概率和所述先验概率,按预设规则判断是否给所述未标注样本赋予类别标签,若是,获取赋予类别标签的样本数量;
迭代模块,用于进行迭代,若所述赋予类别标签的样本数量满足第一预设条件,则停止迭代;
标注模块,用于根据所述标注模型标注所有的所述未标注样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310531751.5A CN116257800B (zh) | 2023-05-12 | 2023-05-12 | 一种训练样本的标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310531751.5A CN116257800B (zh) | 2023-05-12 | 2023-05-12 | 一种训练样本的标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116257800A true CN116257800A (zh) | 2023-06-13 |
CN116257800B CN116257800B (zh) | 2023-08-25 |
Family
ID=86688313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310531751.5A Active CN116257800B (zh) | 2023-05-12 | 2023-05-12 | 一种训练样本的标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257800B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
JP2009259109A (ja) * | 2008-04-18 | 2009-11-05 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
US20200250527A1 (en) * | 2019-02-04 | 2020-08-06 | Google Llc | Systems and Methods for Active Learning |
CN112669298A (zh) * | 2020-12-31 | 2021-04-16 | 武汉科技大学 | 一种基于模型自训练的地基云图像云检测方法 |
CN112906724A (zh) * | 2019-11-19 | 2021-06-04 | 华为技术有限公司 | 一种图像处理装置、方法、介质及系统 |
CN113537942A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种提高样本标记数量的方法及系统 |
WO2021212681A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 语义角色标注方法、装置、计算机设备及存储介质 |
CN113761918A (zh) * | 2020-06-04 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN114330239A (zh) * | 2021-12-30 | 2022-04-12 | 北京欧珀通信有限公司 | 文本处理方法及装置、存储介质及电子设备 |
CN114418096A (zh) * | 2022-01-26 | 2022-04-29 | Oppo广东移动通信有限公司 | 样本学习方法、数据标注设备、电子设备以及介质 |
WO2022111284A1 (zh) * | 2020-11-26 | 2022-06-02 | 中兴通讯股份有限公司 | 一种数据标注处理方法、装置、存储介质及电子装置 |
CN115050002A (zh) * | 2022-07-11 | 2022-09-13 | 零束科技有限公司 | 图像标注模型训练方法、装置、电子设备及存储介质 |
CN115422695A (zh) * | 2022-11-03 | 2022-12-02 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种交叉口转向控制标注方法、电子设备及存储介质 |
-
2023
- 2023-05-12 CN CN202310531751.5A patent/CN116257800B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338263A (ja) * | 2005-06-01 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
JP2009259109A (ja) * | 2008-04-18 | 2009-11-05 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 |
US20200250527A1 (en) * | 2019-02-04 | 2020-08-06 | Google Llc | Systems and Methods for Active Learning |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
CN112906724A (zh) * | 2019-11-19 | 2021-06-04 | 华为技术有限公司 | 一种图像处理装置、方法、介质及系统 |
WO2021212681A1 (zh) * | 2020-04-23 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 语义角色标注方法、装置、计算机设备及存储介质 |
CN113761918A (zh) * | 2020-06-04 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
WO2022111284A1 (zh) * | 2020-11-26 | 2022-06-02 | 中兴通讯股份有限公司 | 一种数据标注处理方法、装置、存储介质及电子装置 |
CN112669298A (zh) * | 2020-12-31 | 2021-04-16 | 武汉科技大学 | 一种基于模型自训练的地基云图像云检测方法 |
CN113537942A (zh) * | 2021-07-28 | 2021-10-22 | 深圳供电局有限公司 | 一种提高样本标记数量的方法及系统 |
CN114330239A (zh) * | 2021-12-30 | 2022-04-12 | 北京欧珀通信有限公司 | 文本处理方法及装置、存储介质及电子设备 |
CN114418096A (zh) * | 2022-01-26 | 2022-04-29 | Oppo广东移动通信有限公司 | 样本学习方法、数据标注设备、电子设备以及介质 |
CN115050002A (zh) * | 2022-07-11 | 2022-09-13 | 零束科技有限公司 | 图像标注模型训练方法、装置、电子设备及存储介质 |
CN115422695A (zh) * | 2022-11-03 | 2022-12-02 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种交叉口转向控制标注方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王海林: "融合深度主动学习的医学图像半自动标注系统", 《计算机系统应用》, pages 75 - 82 * |
Also Published As
Publication number | Publication date |
---|---|
CN116257800B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10108705B2 (en) | Method to improve the named entity classification | |
BR102014023780B1 (pt) | Método para classificação multiclasse em cenários abertos e usos do mesmo | |
CN111783505A (zh) | 伪造人脸的识别方法、装置和计算机可读存储介质 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN108898166A (zh) | 一种图像标注方法 | |
CN112052835A (zh) | 信息处理方法、信息处理装置、电子设备和存储介质 | |
CN109948735A (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN112364197B (zh) | 一种基于文本描述的行人图像检索方法 | |
US20200265304A1 (en) | System and method for identifying misclassifications by a neural network | |
CN111460991A (zh) | 异常检测方法、相关设备及可读存储介质 | |
US20170039451A1 (en) | Classification dictionary learning system, classification dictionary learning method and recording medium | |
CN112037222A (zh) | 一种神经网络模型的自动更新方法及系统 | |
CN116343008A (zh) | 基于多个特征的青光眼识别的训练方法及训练装置 | |
CN110647897B (zh) | 一种基于多部分注意力机制的零样本图像分类识别方法 | |
CN113076980B (zh) | 一种基于注意力增强以及输入扰动的分布外图像检测方法 | |
CN116257800B (zh) | 一种训练样本的标注方法及系统 | |
WO2021174814A1 (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
CN110414229B (zh) | 操作命令检测方法、装置、计算机设备及存储介质 | |
CN112200218A (zh) | 一种模型训练方法、装置及电子设备 | |
CN116188445A (zh) | 一种产品表面缺陷的检测定位方法、装置及终端设备 | |
CN116433704A (zh) | 一种基于中心点的细胞核分割方法及相关设备 | |
CN111488738B (zh) | 非法信息的识别方法、装置 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN114022698A (zh) | 一种基于二叉树结构的多标签行为识别方法及装置 | |
Mazumder et al. | Protected attribute guided representation learning for bias mitigation in limited data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 205, Building B1, Huigu Science and Technology Industrial Park, No. 336 Bachelor Road, Bachelor Street, Yuelu District, Changsha City, Hunan Province, 410000 Patentee after: Wisdom Eye Technology Co.,Ltd. Address before: Building 14, Phase I, Changsha Zhongdian Software Park, No. 39 Jianshan Road, Changsha High tech Development Zone, Changsha City, Hunan Province, 410205 Patentee before: Wisdom Eye Technology Co.,Ltd. |