CN108090499A - 基于最大信息三元组筛选网络的数据主动标注方法和系统 - Google Patents
基于最大信息三元组筛选网络的数据主动标注方法和系统 Download PDFInfo
- Publication number
- CN108090499A CN108090499A CN201711115401.1A CN201711115401A CN108090499A CN 108090499 A CN108090499 A CN 108090499A CN 201711115401 A CN201711115401 A CN 201711115401A CN 108090499 A CN108090499 A CN 108090499A
- Authority
- CN
- China
- Prior art keywords
- sample
- mrow
- mark
- data
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 33
- 238000013480 data collection Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 abstract description 4
- 230000000750 progressive effect Effects 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 154
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000012497 inhomogeneous sample Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及数据标注领域,具体涉及基于最大信息三元组筛选网络的数据主动标注方法和系统,目的在于缩减人工标注工作量,同时确保标注准确度。本发明根据样本的深度特征选取最具标注价值的未标注样本进行人工标注,并且构建最大信息三元组损失函数;逐步更新数据结构和网络参数,进而更新筛选网络模型。直到,未标注数据与已标注数据的类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时,停止更新筛选网络模型。剩余的数据可利用最后更新的筛选网络模型由计算机完成标注。通过这种方法,在缩减人工标注工作量的同时确保了标注的准确度。
Description
技术领域
本发明涉及数据标注领域,具体涉及基于最大信息三元组筛选网络的数据主动标注方法和系统。
背景技术
随着大数据时代的到来和硬件技术的发展,使得在大规模数据库上的研究不断革新,同时也看到了深度学习在计算机视觉中势不可挡的优势。
但是深度学习的主导地位,离不开海量标注数据的支持。随着数据量的不断扩大,人工标注海量数据不仅成本过高,而且非常耗时耗力。因此,对海量数据的标注一直是图像标注领域备受关注的问题。虽然深度学习技术在计算机视觉上已经取得了令人瞩目的成功,但是因为在图像标注上本身数据中已标注的数据量较少,使得深度学习技术没有更好的发展空间,从而无法得到很好的分类效果。
近些年,利用少量已标注样本去标注数据的主动学习方法成为海量数据标注的主要方法之一。一般基于主动学习的标注方法可以归纳为先利用聚类算法将数据集进行聚类,然后计算每个样本的信息熵,找出单一类内信息量大的样本进行标注。这种方法一般只考虑标注样本在类间的高度不确定性,并且逐个计算每个样本的信息熵然后再评比的过程过于繁琐。有些方法虽然采用了筛选代表性样本进行人工标注,但是在筛选代表性样本时,没有考虑类内的差异性。另外,对分类器的优化并没有充分发挥已筛选数据样本的作用。
发明内容
为了解决现有技术中的上述问题,本发明提出了基于最大信息三元组筛选网络的数据主动标注方法和系统,减少了人工标注的工作量,同时确保了标注的准确度。
本发明的一方面,提出一种基于最大信息三元组筛选网络的数据主动标注方法,包括以下步骤:
步骤S10,根据样本的深度特征,利用深度筛选网络模型结合主动学习筛选最具标注价值的未标注样本进行人工标注,生成人工标注后的数据;
步骤S20,根据所述人工标注后的数据,更新训练数据集,构建最大信息三元组损失函数,并基于更新后的训练数据集和所述最大信息三元组损失函数训练并更新所述深度筛选网络模型;
步骤S30,当更新后的训练数据集中,未标注数据与已标注数据的类内最大差异均小于预设的第二阈值,且类间最小差异均大于预设的第一阈值时执行步骤S40,否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20;
步骤S40,采用所述深度筛选网络模型,对剩余的未标注样本进行标注;
其中,
所述最具标注价值的未标注样本,包括:类间最具不确定性的未标注样本,以及类内最具差异性的未标注样本;
筛选所述最具标注价值的未标注样本的方法为:
将每个类别中已标注样本与其他不同类别的未标注样本分别比较,选择各不同类别中深度特征差异最小的未标注样本,作为所述类间最具不确定性的未标注样本;
将每个类别中已标注样本与该类别中的未标注样本比较,选择深度特征差异最大的未标注样本,作为所述类内最具差异性的未标注样本;
所述最大信息三元组损失函数为:
其中,γ为间隔因子,表示限定类间最具不确定性和类内最具差异性样本之间结构关系的一个阈值;为正则化项,λ为正则化参数;表示类别i中已标注样本的深度特征;表示已标注样本的深度特征;表示已标注样本的深度特征;w表示筛选网络模型的参数,i=1,2,…,C,j=1,2,…,C,且i≠j;D(fw(xa),fw(xb))表示样本深度特征之间的距离;C为类别的个数,Q为在每一类中随机抽取的已标注样本个数。
本发明提出的数据主动标注方法中,筛选的样本具有最大的信息量,因此是“最大信息”的。
优选地,所述深度特征差异,采用欧几里得距离度量函数进行衡量:
D(fw(xa),fw(yb))=||fw(xa)-fw(yb)||
其中,fw(xa)、fw(yb)分别表示样本xa、yb的深度特征;D(fw(xa),fw(yb))表示两个图像深度特征之间的距离。
优选地,所述类间最具不确定性的未标注样本,用最小距离方法进行筛选:
将最小距离值对应的样本作为类别i和类别j的类间最具不确定性的未标注样本;
所述类内最具差异性的未标注样本,用最大距离方法进行筛选:
将最大距离值对应的样本作为类别i的类内最具差异性的未标注样本;
其中,表示类别i中已标注样本的深度特征;表示类别j中未标注样本的深度特征;表示类别i中未标注样本的深度特征;i=1,2,…,C,j=1,2,…,C,且i≠j;C为类别的个数;Ai为类别i中已标注样本的个数;P为在每一类中随机抽取的未标注样本个数。
优选地,所述更新训练数据集,具体为:
将人工标注过的数据集V,合并入已标注的数据集L中;
从未标注的数据集U中,减去所述人工标注过的数据集V。
优选地,步骤S10之前,还包括预处理步骤S0和S1:
步骤S0,在ImageNet(是一个计算机视觉系统识别项目名称,是目前世界上图像识别最大的数据库,是美国斯坦福的计算机科学家模拟人类的识别系统建立的)数据集上预训练,得到所述深度筛选网络模型;
步骤S1,利用所述深度筛选网络模型,对未标注的数据集U粗分类为C个类别,并提取未标注数据集U和已标注数据集L中样本的深度特征。
优选地,步骤S20中“训练并更新所述深度筛选网络模型”,具体为:
用更新后的训练数据集,对所述深度筛选网络模型进行训练,直到同类别内已标注样本之间的差异小于不同类别内已标注样本之间的差异,得到更新后的网络模型参数w;
根据所述更新后的网络模型参数w,更新所述深度筛选网络模型:
其中,L为已标注的数据集;Mw(t-1)表示训练之前的所述深度筛选网络模型,F(L,Mw(t-1))表示在当前数据集L上对模型Mw(t-1)进行更新,Mw(t)表示更新之后的所述深度筛选网络模型。
本发明的另一方面,提出一种基于最大信息三元组筛选网络的数据主动标注系统,基于上面所述的基于最大信息三元组筛选网络的数据主动标注方法;包括:样本筛选单元、数据更新单元、模型更新单元、自动标注单元;
所述样本筛选单元,用于基于所述深度特征和粗分类结果,度量深度特征之间的距离,主动筛选类间最具不确定性和类内最具差异性的未标注样本用于人工标注;
所述数据更新单元,用于根据所述样本筛选单元筛选出的样本及其人工标注结果,更新训练数据集;
所述模型更新单元,用于基于所述最大信息三元组损失函数,在更新后的训练数据集上训练并更新所述深度筛选网络模型;
所述自动标注单元,用于利用所述模型更新单元最终输出的所述深度筛选网络模型对剩余的未标注样本进行计算机自动标注。
优选地,所述数据标注系统还包括:
数据分类和特征提取单元,用于粗分类待标注数据,并提取未标注数据和已标注数据的深度特征。
优选地,所述数据标注系统还包括:
损失函数构建单元,用于根据所述样本筛选单元的输出构建最大信息三元组损失函数。
本发明的有益效果:
本发明通过在ImageNet数据集上预训练的深度筛选网络模型对未标注数据进行粗分类,并提取训练数据集的深度特征;基于深度特征利用欧几里得距离度量函数主动获取类间最具不确定性和类内最具差异性的样本作为最具标注价值的样本,并且组建最大信息三元组损失函数逐步更新数据结构和网络参数,并在更新后的网络参数基础上微调深度筛选网络模型,从而保证在缩减人工标注工作量的同时确保了计算机标注的准确度。
附图说明
图1是本发明数据主动标注方法实施例的流程示意图;
图2是本发明数据主动标注系统实施例的构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明实施例的核心思想是基于深度特征利用欧几里得距离度量函数主动获取类间最具不确定性和类内最具差异性的样本作为最具标注价值的样本,并且构建最大信息三元组损失函数逐步更新数据结构和网络参数获得高精度的分类任务,从而保证在缩减人工标注工作量的同时确保了标注准确度。
本发明的基于最大信息三元组筛选网络的数据主动标注方法的实施例,如图1所示,包括以下步骤:
在步骤S10中,根据样本的深度特征,利用深度筛选网络模型结合主动学习筛选最具标注价值的未标注样本进行人工标注,生成人工标注后的数据。
其中,最具标注价值的未标注样本,包括:类间最具不确定性的未标注样本,以及类内最具差异性的未标注样本。
筛选最具标注价值的未标注样本的方法为:
将每个类别中已标注样本与其他不同类别的未标注样本分别比较,选择各不同类别中深度特征差异最小的未标注样本,作为所述类间最具不确定性的未标注样本;将每个类别中已标注样本与该类别中的未标注样本比较,选择深度特征差异最大的未标注样本,作为所述类内最具差异性的未标注样本。
下面举例说明最具标注价值的未标注样本的筛选方法:
假设目前类别个数为C,每个类别中均可能包含已标注样本和未标注样本,在每个类别中均随机抽取P个未标注样本。
(1)类间最具不确定性的未标注样本筛选方法为:
步骤A1,i=1,将集合V1置为空;
步骤A2,若i≤C,则j=1,转至步骤A3;否则结束;
步骤A3,若i=j,则j++;
步骤A4,若j≤C,则转至步骤A5;否则i++,转至步骤A2;
步骤A5,将类别i中的已标注样本,分别与类别j中已抽取的P个未标注样本逐一比较,选择一对深度特征差异最小的已标注样本和未标注样本,将其中的未标注样本作为类别i与类别j的类间最具不确定性的未标注样本,并存入集合V1中;
步骤A6,j++;转至步骤A3。
(2)类内最具差异性的未标注样本筛选方法为:
步骤B1,i=1,将集合V2置为空;
步骤B2,若i≤C,则转至步骤B3;否则结束;
步骤B3,将类别i中的已标注样本,分别与该类别i中已抽取的P个未标注样本逐一比较,选择一对深度特征差异最大的已标注样本和未标注样本,将其中的未标注样本作为类别i的类内最具差异性的未标注样本,并存入集合V2中;
步骤B4;i++,转至步骤B2。
将上面得到的集合V1和V2合并,记为集合V,即为筛选出的最具标注价值的未标注样本的集合。
这一步本质上是要摒弃计算过程复杂的、需要单独计算信息熵再评比筛选的方法,直接利用深度特征的类内、类间距离衡量找到未标注样本中最具标注价值的样本。因为对人工标注要求的精度较高,所以这里的人工标注需要由本领域的专家来完成。
在步骤S20中,根据所述人工标注后的数据,更新训练数据集,构建最大信息三元组损失函数,并基于更新后的训练数据集和所述最大信息三元组损失函数训练并更新深度筛选网络模型。
构建的最大信息三元组损失函数,如公式(1)所示:
其中,γ为间隔因子,表示限定类间最具不确定性和类内最具差异性样本之间结构关系的一个阈值;为正则化项,λ为正则化参数;表示类别i中已标注样本的深度特征;表示已标注样本的深度特征;表示已标注样本的深度特征;w表示筛选网络模型的参数,i=1,2,…,C,j=1,2,…,C,且i≠j;D(fw(xa),fw(xb))表示样本深度特征之间的距离;C为类别的个数,Q为在每一类中随机抽取的已标注样本个数。
在步骤S30中,当更新后的训练数据集中,未标注数据与已标注数据类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时执行步骤S40,否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20。
在步骤S40中,采用深度筛选网络模型,对剩余的未标注样本进行标注。
本实施例中,深度特征差异可以采用欧几里得距离度量函数进行衡量,如公式(2)所示:
D(fw(xa),fw(yb))=||fw(xa)-fw(yb)|| (2)
其中,fw(xa)、fw(yb)分别表示样本xa、yb的深度特征;D(fw(xa),fw(yb))表示两个图像深度特征之间的距离。
具体地,类间最具不确定性的未标注样本,用最小距离方法进行筛选,如公式(3)所示:
将最小距离值对应的样本作为类别i和类别j的类间最具不确定性的未标注样本。
类内最具差异性的未标注样本,用最大距离方法进行筛选,如公式(4)所示:
将最大距离值对应的样本作为类别i的类内最具差异性的未标注样本。
其中,表示类别i中已标注样本的深度特征;表示类别j中未标注样本的深度特征;表示类别i中未标注样本的深度特征;i=1,2,…,C,j=1,2,…,C,且i≠j;C为类别的个数;Ai为类别i中已标注样本的个数;P为在每一类中随机抽取的未标注样本个数。
本实施例中,训练数据集包括:已标注过的数据集L,以及未标注的数据集U。步骤S20具体包括:
在步骤S22中,将人工标注过的数据集V,合并入已标注的数据集L中。其中,V={xv},v∈[1,K],K表示数据集V中的样本个数;L={xl},l∈[1,A],A为已标注数据集L中包含的样本个数。随着数据集L的更新,A的值逐渐增大。
在步骤S24中,从未标注的数据集U中,减去所述人工标注过的数据集V。其中,U={yu},u∈[1,B],B为未标注数据集U中包含的样本个数。随着数据集U的更新,B的值逐渐变小。
在步骤S26中,构建如公式(1)所示的最大信息三元组损失函数。
在步骤S28中,基于更新后的训练数据集和步骤S26中构建的损失函数,对深度筛选网络模型进行训练,直到同类别内已标注样本之间的差异小于不同类别内已标注样本之间的差异,得到更新后的网络模型参数w。
学习参数w的目的就是让同类已标注样本之间的差异小于不同类已标注样本之间的差异,如公式(5)和(6)所示:
其中,分别为所述深度筛选网络模型对已标注样本的分类结果;表示同类已标注样本之间的差异;表示不同类已标注样本之间的差异;i=1,2,…,C,j=1,2,…,C,i、j为类别序号,C为类别个数。
在步骤S29中,根据更新后的网络模型参数w,微调深度筛选网络模型,如公式(7)所示:
其中,L为已标注的数据集;Mw(t-1)表示训练之前的所述深度筛选网络模型,F(L,Mw(t-1))表示在当前数据集L上对模型Mw(t-1)进行更新,Mw(t)表示更新之后的所述深度筛选网络模型。
通过对网络参数w的微调逐渐提高了深度筛选网络模型的识别精度,网络参数w的更新带动筛选网络模型的更替。
本实施例中,步骤S30具体为:
利用公式(7)得到的模型Mw(t)再一次对未标注数据集U执行步骤S10、步骤S20,直至结果满足如公式(8)和(9)所示的要求:
其中,i=1,2,…,C,j=1,2,…,C,i、j为类别序号,C为类别个数;P为每个类别中随机抽取的未标注样本个数;表示类别i中已标注样本的深度特征;表示类别i中未标注样本的深度特征;表示类别j中未标注样本的深度特征;α为预设的第一阈值,表示类内最大间隔;β为预设的第二阈值,表示类间最小间隔。
公式(8)和(9)的物理意义是:当在类别i中随机抽取的P个未标注样本中每一个样本与同一类别中各已标注样本之间的最大差距已经小于允许的类内最大间隔,而且,当在类别j中随机抽取的P个未标注样本中每一个样本与类别i中各已标注样本之间的最小差距大于允许的类间最小间隔时,说明未标注样本集中已经没有了具有标注价值的样本,剩余的未标注样本直接可以利用已经训练并更新的深度筛选网络模型进行计算机标注,从而免去人工标注的工作量,并保证了标注工作的质量。
进一步地,本实施例中在步骤S10之前,还包括预处理步骤S0和S1:
在步骤S0中,在ImageNet数据集上预训练,得到所述深度筛选网络模型。
在该步骤中,采用的筛选网络模型是在ImageNet预训练的深度筛选网络模型。采用预训练的网络模型对未标注数据进行下一步的粗分类操作,要比从头训练的网络模型具有更强的分类能力,从而弥补缺少标注数据而不能得到发挥的缺陷。并通过深度筛选网络模型,来捕捉更加鲁棒的深度特征,以对样本进行更好的表达。
在步骤S1中,利用所述深度筛选网络模型,对未标注的数据集U粗分类为C个类别,并提取未标注数据集U和已标注数据集L中样本的深度特征。
数据集Z中包括已正确标注的数据集L={xl},l∈[1,A]和未标注的数据集U={yu},u∈[1,B]。利用预训练的网络模型对未标注数据进行粗分类,可以在每个类别中随机选择P个样本,并提取深度特征。
其中,L={xl},U={yu},l∈[1,A],u∈[1,B],A、B分别为数据集L和U中包含的样本个数,在更新训练数据集以后,A、B的值均会变化。
构建这个损失函数的目的,是为了充分发挥已筛选数据样本对分类器的优化作用,避免中间复杂的计算过程。最大信息三元组损失函数的物理意义是:经过数据主动筛选之后,得到类内差距最大的样本集和类间差距最小的样本集。这样,通过在全局范围内充分优化两者构建的损失函数,使得同一类内样本深度特征的最大距离足够小,类之间样本深度特征的最小距离足够大。γ作为间隔因子在损失函数中的作用可以使得同一类别中差距最大样本之间的距离和不同类别中差距最小样本之间的距离差至少保持γ的间隔。即最后结果可以很好地对数据集分类,来自同一类样本要比来自不同类的样本距离更近。衡量两个样本类别之间的相似度关系,在深度特征空间的距离越小,说明未标注样本类别与标注样本的类别有越大的概率是相同的。作为正则化项可以防止筛选网络模型在数据不充足的情况下,发生过拟合的现象。
为了优化这一最大信息三元组损失函数,就需要与之匹配的最大信息三元组数据集,但是与以往三元组数据集不同的是,本发明实施例数据集的结构并不是固定的,而是在专家标注的过程中要不断更新数据集结构和最大信息三元组的组合。在一个可选的实施例中,假设V={xv},v∈[1,K]为专家新标注的数据集。L(θ;X)是在不断更新的数据集上进行不断优化,如公式(10)、(11)所示:
L:L∪V→L (10)
U:U\V→U (11)
其中,公式(10)表示将本次人工标注过的数据集V,合并入已标注的数据集L中;公式(11)表示从未标注的数据集U中,减去本次人工标注过的数据集V。
在该数据集L中,对于每个已标注样本会找到一个与该已标注样本同类别的、深度特征距离最大的已标注样本以及与该已标注样本不同类别的、深度特征距离最小的已标注样本这样,样本 和就组成一个最大信息三元组。数据集L随着标注过程会不断扩大这种最大信息三元组的数量,从而充分发挥已筛选数据样本对分类器的优化作用。
给定一个深度筛选网络模型M,通过对损失函数不断优化,也会逐渐学习深度筛选网络模型的参数w。
本发明的另一方面,提出一种基于最大信息三元组筛选网络的数据主动标注系统10,基于上面所述的基于最大信息三元组筛选网络的数据主动标注方法;如图2所示,包括:样本筛选单元11、数据更新单元12、模型更新单元13、自动标注单元14;
所述样本筛选单元11,用于基于所述深度特征和粗分类结果,度量深度特征之间的距离,主动筛选类间最具不确定性和类内最具差异性的未标注样本用于人工标注;
所述数据更新单元12,用于根据所述样本筛选单元11筛选出的样本及其人工标注结果,更新训练数据集;
所述模型更新单元13,用于基于所述最大信息三元组损失函数,在更新后的训练数据集上训练并更新所述深度筛选网络模型;
所述自动标注单元14,用于利用所述模型更新单元最终输出的所述深度筛选网络模型对剩余的未标注样本进行计算机自动标注。
进一步地,所述数据标注系统10还包括:
数据分类和特征提取单元15,用于粗分类待标注数据,并提取未标注数据和已标注数据的深度特征。
进一步地,所述数据标注系统10还包括:
损失函数构建单元16,用于根据所述样本筛选单元11的输出构建最大信息三元组损失函数。
上述系统实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、单元、子系统,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于最大信息三元组筛选网络的数据主动标注方法,其特征在于,包括以下步骤:
步骤S10,根据样本的深度特征,利用深度筛选网络模型结合主动学习筛选最具标注价值的未标注样本进行人工标注,生成人工标注后的数据;
步骤S20,根据所述人工标注后的数据,更新训练数据集,构建最大信息三元组损失函数,并基于更新后的训练数据集和所述最大信息三元组损失函数训练并更新所述深度筛选网络模型;
步骤S30,当更新后的训练数据集中,未标注数据与已标注数据的类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时执行步骤S40,否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20;
步骤S40,采用所述深度筛选网络模型,对剩余的未标注样本进行标注;
其中,
所述最具标注价值的未标注样本,包括:类间最具不确定性的未标注样本,以及类内最具差异性的未标注样本;
筛选所述最具标注价值的未标注样本的方法为:
将每个类别中已标注样本与其他不同类别的未标注样本分别比较,选择各不同类别中深度特征差异最小的未标注样本,作为所述类间最具不确定性的未标注样本;
将每个类别中已标注样本与该类别中的未标注样本比较,选择深度特征差异最大的未标注样本,作为所述类内最具差异性的未标注样本;
所述最大信息三元组损失函数为:
<mrow>
<mi>L</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>&theta;</mi>
<mo>;</mo>
<mi>L</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>C</mi>
</munderover>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>Q</mi>
</munderover>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mi>&gamma;</mi>
<mo>+</mo>
<munder>
<mi>max</mi>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1...</mn>
<mi>Q</mi>
</mrow>
</munder>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>s</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mo>-</mo>
<munder>
<mi>min</mi>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1...</mn>
<mi>Q</mi>
</mrow>
</munder>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>n</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mo>+</mo>
<mfrac>
<mi>&lambda;</mi>
<mn>2</mn>
</mfrac>
<mo>|</mo>
<mo>|</mo>
<mi>w</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
</mrow>
其中,γ为间隔因子,表示限定类间最具不确定性和类内最具差异性样本之间结构关系的一个阈值;为正则化项,λ为正则化参数;表示类别i中已标注样本的深度特征;表示已标注样本的深度特征;表示已标注样本的深度特征;w表示筛选网络模型的参数,i=1,2,…,C,j=1,2,…,C,且i≠j;D(fw(xa),fw(xb))表示样本深度特征之间的距离;C为类别的个数,Q为在每一类中随机抽取的已标注样本个数。
2.根据权利要求1所述的数据主动标注方法,其特征在于,所述深度特征差异,采用欧几里得距离度量函数进行衡量:
D(fw(xa),fw(yb))=||fw(xa)-fw(yb)||
其中,fw(xa)、fw(yb)分别表示样本xa、yb的深度特征;D(fw(xa),fw(yb))表示两个样本深度特征之间的距离。
3.根据权利要求2所述的数据主动标注方法,其特征在于,
所述类间最具不确定性的未标注样本,用最小距离方法进行筛选:
<mrow>
<munder>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<mrow>
<mi>n</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>P</mi>
</mrow>
</munder>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mi>n</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
将最小距离值对应的样本作为类别i和类别j的类间最具不确定性的未标注样本;
所述类内最具差异性的未标注样本,用最大距离方法进行筛选:
<mrow>
<munder>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<mi>P</mi>
</mrow>
</munder>
<mi>D</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>w</mi>
</msub>
<mo>(</mo>
<msubsup>
<mi>y</mi>
<mi>s</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
将最大距离值对应的样本作为类别i的类内最具差异性的未标注样本;
其中,表示类别i中已标注样本的深度特征;表示类别j中未标注样本的深度特征;表示类别i中未标注样本的深度特征;i=1,2,…,C,j=1,2,…,C,且i≠j;C为类别的个数;Ai为类别i中已标注样本的个数;P为在每一类中随机抽取的未标注样本个数。
4.根据权利要求1所述的数据主动标注方法,其特征在于,所述更新训练数据集,具体为:
将人工标注过的数据集V,合并入已标注的数据集L中;
从未标注的数据集U中,减去所述人工标注过的数据集V。
5.根据权利要求1所述的数据主动标注方法,其特征在于,步骤S10之前,还包括预处理步骤S0和S1:
步骤S0,在ImageNet数据集上预训练,得到所述深度筛选网络模型;
步骤S1,利用所述深度筛选网络模型,对未标注的数据集U粗分类为C个类别,并提取未标注数据集U和已标注数据集L中样本的深度特征。
6.根据权利要求5所述的数据主动标注方法,其特征在于,步骤S20中“训练并更新所述深度筛选网络模型”,具体为:
用更新后的训练数据集,对所述深度筛选网络模型进行训练,直到同类别内已标注样本之间的差异小于不同类别内已标注样本之间的差异,得到更新后的网络模型参数w;
根据所述更新后的网络模型参数w,更新所述深度筛选网络模型:
其中,L为已标注的数据集;Mw(t-1)表示训练之前的所述深度筛选网络模型,F(L,Mw(t-1))表示在当前数据集L上对模型Mw(t-1)进行更新,Mw(t)表示更新之后的所述深度筛选网络模型。
7.一种基于最大信息三元组筛选网络的数据主动标注系统,其特征在于,基于权利要求1-6中任一项所述的基于最大信息三元组筛选网络的数据主动标注方法;包括:样本筛选单元、数据更新单元、模型更新单元、自动标注单元;
所述样本筛选单元,用于基于所述深度特征和粗分类结果,度量深度特征之间的距离,主动筛选类间最具不确定性和类内最具差异性的未标注样本用于人工标注;
所述数据更新单元,用于根据所述样本筛选单元筛选出的样本及其人工标注结果,更新训练数据集;
所述模型更新单元,用于基于所述最大信息三元组损失函数,在更新后的训练数据集上训练并更新所述深度筛选网络模型;
所述自动标注单元,用于利用所述模型更新单元最终输出的所述深度筛选网络模型对剩余的未标注样本进行计算机自动标注。
8.根据权利要求7所述的数据主动标注系统,其特征在于,还包括:
数据分类和特征提取单元,用于粗分类待标注数据,并提取未标注数据和已标注数据的深度特征。
9.根据权利要求8所述的数据主动标注系统,其特征在于,还包括:
损失函数构建单元,用于根据所述样本筛选单元的输出构建最大信息三元组损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711115401.1A CN108090499B (zh) | 2017-11-13 | 2017-11-13 | 基于最大信息三元组筛选网络的数据主动标注方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711115401.1A CN108090499B (zh) | 2017-11-13 | 2017-11-13 | 基于最大信息三元组筛选网络的数据主动标注方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090499A true CN108090499A (zh) | 2018-05-29 |
CN108090499B CN108090499B (zh) | 2020-08-11 |
Family
ID=62172130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711115401.1A Active CN108090499B (zh) | 2017-11-13 | 2017-11-13 | 基于最大信息三元组筛选网络的数据主动标注方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090499B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993315A (zh) * | 2019-03-29 | 2019-07-09 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN110046707A (zh) * | 2019-04-15 | 2019-07-23 | 清华大学深圳研究生院 | 一种神经网络模型的评估优化方法和系统 |
CN110717880A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测方法、装置及电子设备 |
CN110766080A (zh) * | 2019-10-24 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种标注样本确定方法、装置、设备及存储介质 |
CN110889463A (zh) * | 2019-12-10 | 2020-03-17 | 北京奇艺世纪科技有限公司 | 一种样本标注方法、装置、服务器及机器可读存储介质 |
CN111143346A (zh) * | 2018-11-02 | 2020-05-12 | 北京字节跳动网络技术有限公司 | 标签组的差异性确定方法、装置、电子设备及可读介质 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111582404A (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置及可读存储介质 |
CN112308143A (zh) * | 2020-10-30 | 2021-02-02 | 江苏云从曦和人工智能有限公司 | 一种基于多样性的样本筛选方法、系统、设备及介质 |
CN112766347A (zh) * | 2021-01-12 | 2021-05-07 | 合肥黎曼信息科技有限公司 | 一种结合标注质量控制的主动学习方法 |
CN112818151A (zh) * | 2021-02-08 | 2021-05-18 | 苏州长嘴鱼软件有限公司 | 一种交互式素材图片分类方法及装置、存储介质 |
CN113470601A (zh) * | 2021-07-07 | 2021-10-01 | 南昌航空大学 | 一种自动作曲方法及系统 |
CN114821248A (zh) * | 2022-07-01 | 2022-07-29 | 深圳大学 | 面向点云理解的数据主动筛选标注方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021406A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种数据驱动的迭代式图像在线标注方法 |
CN106570477A (zh) * | 2016-10-28 | 2017-04-19 | 中国科学院自动化研究所 | 基于深度学习的车型识别模型构建方法及车型识别方法 |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107220600A (zh) * | 2017-05-17 | 2017-09-29 | 清华大学深圳研究生院 | 一种基于深度学习的图片生成方法及生成对抗网络 |
-
2017
- 2017-11-13 CN CN201711115401.1A patent/CN108090499B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021406A (zh) * | 2016-05-12 | 2016-10-12 | 南京大学 | 一种数据驱动的迭代式图像在线标注方法 |
CN106570477A (zh) * | 2016-10-28 | 2017-04-19 | 中国科学院自动化研究所 | 基于深度学习的车型识别模型构建方法及车型识别方法 |
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
CN107220600A (zh) * | 2017-05-17 | 2017-09-29 | 清华大学深圳研究生院 | 一种基于深度学习的图片生成方法及生成对抗网络 |
Non-Patent Citations (1)
Title |
---|
VIJAY KUMAR B G,ET AL.: "Learning Local Image Descriptors with Deep Siamese and Triplet Convolutional Networks by Minimizing Global Loss Functions", 《CVPR》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717880A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测方法、装置及电子设备 |
CN111143346A (zh) * | 2018-11-02 | 2020-05-12 | 北京字节跳动网络技术有限公司 | 标签组的差异性确定方法、装置、电子设备及可读介质 |
CN111143346B (zh) * | 2018-11-02 | 2023-08-25 | 北京字节跳动网络技术有限公司 | 标签组的差异性确定方法、装置、电子设备及可读介质 |
CN109993315A (zh) * | 2019-03-29 | 2019-07-09 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN110046707A (zh) * | 2019-04-15 | 2019-07-23 | 清华大学深圳研究生院 | 一种神经网络模型的评估优化方法和系统 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN110766080B (zh) * | 2019-10-24 | 2022-03-08 | 腾讯医疗健康(深圳)有限公司 | 一种标注样本确定方法、装置、设备及存储介质 |
CN110766080A (zh) * | 2019-10-24 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种标注样本确定方法、装置、设备及存储介质 |
CN110889463A (zh) * | 2019-12-10 | 2020-03-17 | 北京奇艺世纪科技有限公司 | 一种样本标注方法、装置、服务器及机器可读存储介质 |
CN111582404A (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置及可读存储介质 |
CN111582404B (zh) * | 2020-05-25 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置及可读存储介质 |
CN112308143A (zh) * | 2020-10-30 | 2021-02-02 | 江苏云从曦和人工智能有限公司 | 一种基于多样性的样本筛选方法、系统、设备及介质 |
CN112766347A (zh) * | 2021-01-12 | 2021-05-07 | 合肥黎曼信息科技有限公司 | 一种结合标注质量控制的主动学习方法 |
CN112818151A (zh) * | 2021-02-08 | 2021-05-18 | 苏州长嘴鱼软件有限公司 | 一种交互式素材图片分类方法及装置、存储介质 |
CN113470601A (zh) * | 2021-07-07 | 2021-10-01 | 南昌航空大学 | 一种自动作曲方法及系统 |
CN114821248A (zh) * | 2022-07-01 | 2022-07-29 | 深圳大学 | 面向点云理解的数据主动筛选标注方法和装置 |
CN114821248B (zh) * | 2022-07-01 | 2022-10-21 | 深圳大学 | 面向点云理解的数据主动筛选标注方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108090499B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090499A (zh) | 基于最大信息三元组筛选网络的数据主动标注方法和系统 | |
CN112507901B (zh) | 一种基于伪标签自纠正的无监督行人重识别方法 | |
CN104217225B (zh) | 一种视觉目标检测与标注方法 | |
CN103325125B (zh) | 基于改进多示例学习算法的运动目标跟踪方法 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN111191608B (zh) | 基于YOLOv3改进的交通标志检测与识别方法 | |
CN108960409A (zh) | 标注数据生成方法、设备及计算机可读存储介质 | |
CN109145766A (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
CN109697469A (zh) | 一种基于一致性约束的自学习小样本遥感图像分类方法 | |
CN111611847A (zh) | 基于尺度注意力空洞卷积网络的视频动作检测方法 | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN111832615A (zh) | 一种基于前景背景特征融合的样本扩充方法及系统 | |
CN105825233B (zh) | 一种基于在线学习随机蕨分类器的行人检测方法 | |
CN110503063A (zh) | 基于沙漏卷积自动编码神经网络的跌倒检测方法 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
WO2022062419A1 (zh) | 基于非督导金字塔相似性学习的目标重识别方法及系统 | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN104063713A (zh) | 一种基于随机蕨分类器的半自主在线学习方法 | |
CN109840904B (zh) | 一种高铁接触网大尺度差异零部件检测方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN105718959A (zh) | 一种基于自编码的物体识别方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |