CN106169095A - 主动学习大数据标注方法和系统 - Google Patents

主动学习大数据标注方法和系统 Download PDF

Info

Publication number
CN106169095A
CN106169095A CN201610490177.3A CN201610490177A CN106169095A CN 106169095 A CN106169095 A CN 106169095A CN 201610490177 A CN201610490177 A CN 201610490177A CN 106169095 A CN106169095 A CN 106169095A
Authority
CN
China
Prior art keywords
data
distance
data set
reconstructed coefficients
anchor point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610490177.3A
Other languages
English (en)
Other versions
CN106169095B (zh
Inventor
李明强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tuppy Network Technology Co Ltd
Original Assignee
Guangzhou Tuppy Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tuppy Network Technology Co Ltd filed Critical Guangzhou Tuppy Network Technology Co Ltd
Priority to CN201610490177.3A priority Critical patent/CN106169095B/zh
Publication of CN106169095A publication Critical patent/CN106169095A/zh
Application granted granted Critical
Publication of CN106169095B publication Critical patent/CN106169095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明涉及一种主动学习大数据标注方法和系统,该方法和系统根据待标注的数据集中待标注的锚点数据集对各个数据点进行线性重建,并计算各个数据点之间的距离,将该距离作为重建系数的权重构造正则项,且该距离与重建系数反比,构建得到数据标注模型,对数据标准模型进行相应的处理和修正,优化求解后确定用于主动学习的锚点数据。由于数据点之间的距离与重建系数成反比从而使得数据标注模型对于数据点之间的距离是敏感的,在求解优化过程中更易实现根据无穷范数的值的大小判断对应的数据点是否具有代表性,从而实现从待标注的数据集中准确地筛选出用于主动学习的锚点数据集,进而提高大数据锚点标注的精确度。

Description

主动学习大数据标注方法和系统
技术领域
本发明涉及大机器学习技术领域,特别是涉及主动学习大数据标注方法和系统。
背景技术
随着大数据时代的来临,特别是互联网技术的发展,机器学习应用面临着越来越大的数据量。传统的监督学习方法相比半监督学习方法具有更好的效果,但是监督学习方法的应用往往需要大量的标注数据来获得较好的效果,虽然大数据时代的来临使得机器学习任务可以轻易地获得大量的数据,但是要获得准确标注的数据依然需要大量的人力和物力。大机器学习技术领域中的主动学习技术可以实现从海量未标注样本中选择最有价值的数据来进行标注,从而可以大幅度减少获得标注数据的代价,同时可以使机器学习算法获得最好的效果。
主动学习技术的关键问题在于怎样找出对于机器学习应用最有效的锚点,获得这些锚点的标注将最大程度地提高学习模型的预测精度,其中基于锚点重建的方法是一种获得标注的锚点的有效方式,但这类方法虽然可以找出大规模数据集中最具有代表性的样本点,却无法准确地刻画数据集局部几何性质,导致大数据锚点标注的精确度较低。
发明内容
基于此,有必要针对现有技术中大数据锚点标注的精确度低的问题,提供一种主动学习大数据标注方法和系统。
为解决上述问题,本发明采取如下的技术方案:
一种主动学习大数据标注方法,所述方法包括以下步骤:
获取待标注的数据集;
根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型;
利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型;
在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型;
利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定用于主动学习的所述锚点数据集。
相应地,本发明还提出一种主动学习大数据标注系统,所述系统包括:
获取单元,用于获取待标注的数据集;
模型构建单元,用于根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型;
放松处理单元,用于利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型;
修正处理单元,用于在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型;
优化求解单元,用于利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定用于主动学习的所述锚点数据集。
上述主动学习大数据标注方法和系统根据待标注的数据集中待标注的锚点数据集对各个数据点进行线性重建,并计算各个数据点之间的距离,将该距离作为重建系数的权重构造正则项,且该距离与重建系数成反比,构建得到数据标注模型,对数据标准模型进行相应的处理和修正,优化求解后确定用于主动学习的锚点数据。由于上述方法和系统中数据点之间的距离与重建系数成反比即与重建点距离远的锚点的重建系数小,与重建点距离近的锚点的重建系数大,从而使得数据标注模型对于数据点之间的距离是敏感的,在求解优化过程中更易实现根据无穷范数的值的大小判断对应的数据点是否具有代表性,从而实现从待标注的数据集中准确地筛选出用于主动学习的锚点数据集,进而提高大数据锚点标注的精确度。
附图说明
图1为本发明其中一个实施例中主动学习大数据标注方法的流程示意图;
图2为本发明其中一个实施例中主动学习大数据标注系统的结构示意图。
具体实施方式
下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。
在其中一个实施例中,参见图1所示,一种主动学习大数据标注方法包括以下步骤:
S100获取待标注的数据集。首先,先阐述一下本发明所提出的主动学习大数据标注方法所解决的问题,现在有海量的数据,但是使用这些数据之前先要给数据进行标注(例如海量的数据是包含物体的图片,需要给每张图片标注,这个图片里面的物体是椅子、车,还是人等等),但是由于数据量非常大,比如对几百万张图片进行标注,所以如果人工进行标注无论时间还是成本都非常高。主动学习的目的是可不可以用一个算法从这些海量数据中找到一个具有代表性的子集,而用这些子集接下去做训练可以和用全部的数据做训练达到一样甚至更好的效果(因为原来海量的数据里可能有很多噪声),如只要从几百万张图片中找出十万张代表性的图片,对这样的子集进行标注就可以节省很多成本,因此根本上说,本发明所提出的主动学习大数据标注方法所处理的问题就是从一个集合中如何选出一个具有代表性的子集出来,而在选出具有代表性的子集之前,需获取这些海量数据。对于本实施例而言,需获取待标注的数据集,该数据集中包括了需要进行标记的海量数据中的所有数据点。
S200根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型。本步骤通过计算各个数据点之间的距离,根据计算的距离作为重建系数的权重构造正则项,并设定计算的数据点之间的距离与对应的重建系数成反比,从而构建对距离敏感的数据标注模型。
对于步骤S200,作为一种具体的实施方式,将锚点的选择转化为线性重建问题,计算数据点之间的距离并利用距离作为重建系数的权重构造正则项来加入模型,并控制距离与重建点越近的锚点的重建系数越大,而距离越远的锚点的重建系数越小,具体地,根据数据集中待标注的锚点数据集和重建系数对数据集中的各个数据点进行线性重建,并计算各个数据点之间的距离,将距离作为重建系数的权重构造正则项,且距离与重建系数成反比关系,得到数据标注模型的过程包括以下步骤:
利用基于线性重建的方法确定数据集中重建误差最小的m个样本作为待标注的锚点数据集,m个样本为zi∈X,i=1,…,m,数据集为X=[x1,…,xn],xi∈Rd,i=1,…,n;
根据锚点数据集和重建系数对数据集中的各个数据点进行线性重建,并利用测地距离函数计算各个数据点之间的距离,将距离作为重建系数的权重构造正则项,且距离与重建系数成反比关系,得到如下的数据标注模型:
min Z , A Σ i = 1 n ( | | x i - Za i | | 2 2 + μ Σ j = 1 m | a j i | d ( z j , x i ) ) , Z = [ z 1 , ... , z m ] ⋐ X , A = [ a 1 , ... , a n ] ∈ R m × n - - - ( 1 )
其中,μ为正则化参数,ai∈Rm×n为利用锚点数据集对数据点xi进行线性重建时的重建系数,aji为第i个重建系数ai(矢量)的第j维的数,d(zj,xi)为测地距离函数,Rm×n为m×n的矩阵空间集合,n个m维的ai构成系数矩阵A且A∈Rm×n
在该具体实施方式中,μ是一个控制数据标注模型中的两项在优化过程中所占的重要程度的超参数,在求解之前可以将其设定为一个固定值,X=[x1,…,xn]代表的是数据总集合,为一个已知量(例如已知的几百万张图片),其中的x(一个向量)就是其中的一个数据点(例如几百万张图片中的一张图像的数据),而表示的是从X集合中选取出来的具有代表性的子集合,是公式(1)要求的解,是主动学习大数据标注方法优化的目标,此外,公式(1)还有一类要求的解为A=[a1,…,an]∈Rm×n,所以对于公式(1)而言,其输入是X=[x1,…,xn](已知量,比如几百万张的图片集合),输出为(比如从X中选取出来的十万张图片子集),A=[a1,…,an]∈Rm×n也为输出,每一个x都有对应一个称为重建系数的a,这个向量a可以通过求解无穷范数来得到一个表示x的重要程度的量,根据这个量就可以求得每一个x的重要程度,从而筛选出一小部分最为重要的x,构成Z。
上述数据标注模型可以分成两个部分:
第一部分属于重建部分,意思对每一个x,以Z中的数据用线性相加的方式进行重建,例如x代表一张人脸图像,Z中有100张各种人脸的图像,对于每一个一百张图片数据,前面乘一个数,然后线性加和,生成一个和输入x最接近的而图像,而这个系数即为需要求解的a,这一项对应于“将锚点的选择转化为线性重建问题”;
第二部分是一个正则项(或者称为惩罚项)(浅显一点的理解是该正则项用于控制求出的a具有某种性质),这部分是对每个aji前面乘以一个weight(权重)d(zj,xi),这样在求解优化过程中使得zj和xi距离近的话(即d(zj,xi)的值小),其对应求得的aji值会高些,zj和xi距离远的话,由于aji前的d(zj,xi)的值大,所以在最小化求解的时候,自然被求出的aji值会比较小,这样a无穷范数的值的大小就可以表示其对应的x是否具有代表性,也就可以通过这样值的大小来筛选出子集,这一项对应于“计算数据点之间的距离并利用距离作为重建系数的权重构造正则项来加入模型,并控制距离与重建点越近的锚点的重建系数越大,而距离越远的锚点的重建系数越小”,同时也解释了本方法对距离敏感的原因。
S300利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型。在本步骤中,将数据标注模型进行放松,允许用所有数据点进行重建,从而可以适当简化模型,降低模型求解的复杂度。
对于步骤S300,作为一种具体的实施方式,利用数据集对数据标注模型进行放松处理,得到距离敏感重建模型的过程包括以下步骤:
利用数据集替代锚点数据集,对数据标注模型进行放松处理,得到如下的距离敏感重建模型:
min A | | X - X A | | F 2 + μ Σ i = 1 n Σ j = 1 n | a j i | d ( x j , x i ) , A = [ a 1 , ... , a n ] ∈ R n × n - - - ( 2 )
其中,F表示重建误差,在该具体实施方式中,公式(2)是通过用X代替公式(1)中的Z而得到的,同时公式(2)是以矩阵表示的,矩阵空间集合由m×n的矩阵空间集合Rm×n变为Rn ×n,公式(1)中的Z是一个需要求解的量,加上同时要求的解A,导致这个模型优化求解是一个NP难问题(不严谨的理解就是由于这个问题的解的组合太多导致在有限的时间内找不到解),而公式(2)用X替代了Z,由于X是一个已知量,是输入,所以公式(2)少了一大部分需要求解的量,所以称这步为“将模型进行放松,允许用所有数据点进行重建”,放松就体现在用已知的X替代了还需要求解的Z,使得解空间变小了,模型变简单了,自然模型的优化求解也就变简单了。这里公式(2)和公式(1)的其余部分都是一样的,只是形式看起来不一样,是因为公式(2)用矩阵的方式重写了公式(1),所以公式(2)的前半部分没有连加号。
S400在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型。本步骤通过在距离敏感重建模型中加入无穷范数正则项来保证解的稀疏性,得到线性重建模型。
对于步骤S400,作为一种具体的实施方式,在距离敏感重建模型中加入无穷范数正则项,得到线性重建模型的过程包括以下步骤:
构造无穷范数正则项,并将无穷范数正则项加入距离敏感重建模型,得到如下的线性重建模型:
min A | | X - X A | | F 2 + μ Σ i = 1 n Σ j = 1 n | a ~ i j | D i j + λ Σ i = 1 n | | a ~ i | | ∞ , A T = [ a ~ 1 , a ~ 2 , ... , a ~ n ] ∈ R n × n - - - ( 3 )
其中,D为距离矩阵且Dij=d(xi,xj),为系数矩阵A的第i行,为重建系数的无穷范数。
该具体实施方式中的公式(3)是在公式(2)的基础之上又添加了一个正则项该正则项的目的是为控制求出的a具有某种性质,而公式(3)这一项的目的是为控制求出的解a是稀疏的(稀疏的含义是指这个向量中,只有少部分的项有值,而大部分的维度都是0),从而使得求得的解a更能代表相对应x的重要程度。在利用无穷范数保证系数矩阵A的行稀疏性后,只要将线性重建模型的解按照无穷范数降序排列,取排列中前m个重建系数对应的数据点作为最后的锚点即可。
S500利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定所述锚点数据集。在本步骤中,提出一种两层的树结构群组,利用两阶段交替迭代过程求解所得模型,首先固定某一列重建系数之外的其它重建系数不变,更新该列重建系数,然后重复这一过程以更新所有重建系数,最后选择得到的解中重建系数无穷范数最大的部分点作为锚点。
对于步骤S500,作为一种具体的实施方式,利用坐标下降法和两阶交替迭代法对线性重建模型进行优化求解,并根据重建系数的无穷范数确定锚点数据集的过程包括以下步骤:
利用坐标下降法,依次对进行更新,其更新公式如下:
a ~ i n e w ← arg min a ~ i ( F ( a ~ i ) = f ( a ~ i ) + Φ ( a ~ i ) ) - - - ( 4 )
其中,F表示重建误差,其含义与前面的线性重建项是一致的,唯一不同的是这项是对Ri进行重建,意味着是对残差进行线性重建,残项表示两层的树结构群组稀疏优化问题,ωn+1=λ,ωj=μDij,j=1,…,n,gj={j},表示对于gj中的j下标取其余取0组成的向量;
利用近端点法更新并求解并根据两阶交替迭代法进行迭代直至收敛,得到最优解迭代方式如下:
a ~ i k + 1 ← a ~ i k - t ▿ f ( a ~ i k ) - Σ l = 1 , l ≠ j n + 1 ξ g l ξ g l ← Π tω j ( a ~ i | g j k + 1 ) ,
其中,分别为第k+1次和第k次迭代后的值,关于的导数在处的取值, 为向量的第l个坐标,表示到l1范数空间中半径为tωj的球面上的正交投影,
将最优解中的按照对应的无穷范数进行降序排列,并按照从大到小的顺序确定m个重建系数对应的数据点,得到用于主动学习的锚点数据集。
步骤S400已经清楚的描述了线性重建模型的意义,接下来步骤S500就是通过对线性重建模型进行优化求解,得到用于主动学习的锚点数据集,如公式(3)描述的,需要求解的变量为首先要明确这样的公式通常是没有封闭解的,也就是没有一个公式解,所以只能通过优化去求得近似解,同时由于变量非常多其中每一个都为一个向量,所以无法一起全部求解,故本实施方式采取的解法是“交替迭代,采用坐标下降法,依次对进行更新”,也就是每一次迭代只求其中的一个除此之外的都固定作为已知量,这样就简化了模型,使得近似求解可以进行,最终通过每次迭代对进行求解,不断逼近正确的值,具体的优化求解方法按照上文描述即可实现。
作为一种具体的实施方式,主动学习大数据标注方法还包括以下步骤:
利用核矩阵K对所述数据点进行非线性映射,并得到经过非线性映射后的距离
利用贪婪的顺序方法,根据如下公式确定用于主动学习的所述锚点数据集:
zt∈X且
其中,Zt-1={z1,…,zt-1}为假设已经确定的t-1个锚点,zi=xp(i),p表示下标对应关系,表示根据该公式确定第t个锚点,
初始化Z=φ,根据t=1,…,m依次对计算系数,保持不变,计算以及根据所述近端点法更新确定为使得取得最小值的对,且其中Tr(·)表示矩阵的迹,表示了核矩阵K的第pi行。
在该具体实施方式中,利用核方法将主动学习大数据标注方法进行拓展,以处理非线性结构数据集,具体拓展方法如下所示:
核矩阵K的元素Kij=K(xi,xj),则数据点xi,xj间经过非线性映射后的距离为利用贪婪的顺序方法,假设已经选取出t-1个代表锚点Zt-1={z1,…,zt-1},其中zi=xp(i),p表示了下标对应关系,则根据下面的公式选择第t个代表锚点
满足zt∈X且 (5)
其中,公式(5)中的第二项首先初始化Z=φ,然后对于t=1,…,m,依次对计算中系数,固定计算以及利用近端点法更新从而可以选择出为使得公式(5)取得最小值的对,对于核方法拓展后的模型,利用贪婪的顺序选择方法可以选择出锚点,其中有计算公式如下:其中Tr(·)表示矩阵的迹,表示了核矩阵K的第pi行;以及
公式(5)的区别在于求解距离的项从d(zj,xi)变为其中K为核矩阵(或者称为核函数),利用核矩阵K把数据从一个空间非线性映射到另一个空(如把x=[x1,x2]映射为x=[x1,x2,x1*x1,x2*x2,x1*x2],这样就把数据点从二维空间映射到了五维空间),然后在新的空间中计算距离。核方法的思想就是把映射和计算距离合成了一步操作,所以公式(5)的距离计算相对于d(zj,xi)是先把数据进行了非线性映射,到了一个新空间,然后在新空间中算出两者的距离,这也就是将该过程称为“利用核方法将主动学习大数据标注方法进行拓展,以处理非线性结构数据集”的原因。由于为处理非线性结构数据而增加了核矩阵,因此对于公式(5)的优化求解方法也有所变化,优化结构上的区别在于每次更新后,就立刻根据找出最好的x加入代表集Z(即锚点数据集Z)中,然后把该x从X集合中去掉,在剩余的X集合中继续更新去寻找对,这样是一种贪心的策略,虽然没有办法保证找到最好的解,但是由于优化求解的模型过于复杂,而通过这个策略可以找到一个有意义的解集合,从而实现对于非线性结构数据的处理。
本实施例所提出的主动学习大数据标注方法根据待标注的数据集中待标注的锚点数据集对各个数据点进行线性重建,并计算各个数据点之间的距离,将该距离作为重建系数的权重构造正则项,且该距离与重建系数成反比,构建得到数据标注模型,对数据标准模型进行相应的处理和修正,优化求解后确定用于主动学习的锚点数据。由于上述方法中数据点之间的距离与权重成反比即与重建点距离远的锚点的重建系数小,与重建点距离近的锚点的重建系数大,从而使得数据标注模型对于数据点之间的距离是敏感的,在求解优化过程中更易实现根据无穷范数的值的大小判断对应的数据点是否具有代表性,从而实现从待标注的数据集中准确地筛选出用于主动学习的锚点数据集,进而提高大数据锚点标注的精确度。
同时,在另一个实施例中,本发明还提出了一种主动学习大数据标注系统,参见图2所示,该系统包括:
获取单元100,用于获取待标注的数据集;
模型构建单元200,用于根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型;
放松处理单元300,用于利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型;
修正处理单元400,用于在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型;
优化求解单元500,用于利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定用于主动学习的所述锚点数据集。
具体地,在本实施例中,获取单元100获取待标注的数据集,该数据集中包括了需要进行标记的海量数据中的所有数据点,该数据集可以为线性结构数据集;模型构建单元200通过计算各个数据点之间的距离,根据计算的距离作为重建系数的权重构造正则项,并设定计算的数据点之间的距离与对应的权重成反比,从而构建对距离敏感的数据标注模型;放松处理单元300将模型构建单元200构建的数据标注模型进行放松,允许用所有数据点进行重建,从而可以适当简化模型,降低模型求解的复杂度;修正处理单元400通过在距离敏感重建模型中加入无穷范数正则项来保证解的稀疏性,得到线性重建模型;优化求解单元500提出一种两层的树结构群组,利用两阶段交替迭代过程求解所得模型,首先固定某一列重建系数之外的其它重建系数不变,更新该列重建系数,然后重复这一过程以更新所有重建系数,最后选择得到的解中重建系数无穷范数最大的部分点作为锚点。
本实施例所提出的主动学习大数据标注系统利用模型构建单元根据待标注的数据集中待标注的锚点数据集对各个数据点进行线性重建,并计算各个数据点之间的距离,将该距离作为重建系数的权重构造正则项,且该距离与重建系数成反比,构建得到数据标注模型,放松处理单元、修正处理单元分别对数据标准模型进行相应的处理和修正,优化求解单元对线性重建模型优化求解后确定用于主动学习的锚点数据。由于上述系统中模型构建单元在构建数据标注模型时,数据点之间的距离与权重成反比即与重建点距离远的锚点的重建系数小,与重建点距离近的锚点的重建系数大,从而使得数据标注模型对于数据点之间的距离是敏感的,在优化求解单元求解优化的过程中更易实现根据无穷范数的值的大小判断对应的数据点是否具有代表性,从而实现从待标注的数据集中准确地筛选出用于主动学习的锚点数据集,进而提高大数据锚点标注的精确度。
在另一个实施例中,主动学习大数据标注系统还包括非线性优化求解单元,该单元用于利用核矩阵K对所述数据点进行非线性映射,并得到经过非线性映射后的距离
利用贪婪的顺序方法,根据如下公式确定用于主动学习的所述锚点数据集:
zt∈X且
其中,Zt-1={z1,…,zt-1}为假设已经确定的t-1个锚点,zi=xp(i),p表示下标对应关系,表示根据该公式确定第t个锚点,
初始化Z=φ,根据t=1,…,m依次对计算系数,保持不变,计算以及根据所述近端点法更新确定为使得取得最小值的对,且其中Tr(·)表示矩阵的迹,表示了核矩阵K的第pi行。
在该具体实施方式中,非线性优化求解单元利用核方法将主动学习大数据标注系统进行拓展,以处理非线性结构数据集,具体拓展方法如下所示:
核矩阵K的元素Kij=K(xi,xj),则数据点xi,xj间经过非线性映射后的距离为利用贪婪的顺序方法,假设已经选取出t-1个代表锚点Zt-1={z1,…,zt-1},其中zi=xp(i),p表示了下标对应关系,则根据下面的公式选择第t个代表锚点
满足zt∈X且 (5)
其中,公式(5)中的第二项首先初始化Z=φ,然后对于t=1,…,m,依次对计算中系数,固定计算以及利用近端点法更新从而可以选择出为使得公式(5)取得最小值的对,对于核方法拓展后的模型,利用贪婪的顺序选择方法可以选择出锚点,其中有计算公式如下:其中Tr(·)表示矩阵的迹,表示了核矩阵K的第pi行;以及
公式(5)的区别在于求解距离的项从d(zj,xi)变为其中K为核矩阵(或者称为核函数),利用核矩阵K把数据从一个空间非线性映射到另一个空(如把x=[x1,x2]映射为x=[x1,x2,x1*x1,x2*x2,x1*x2],这样就把数据点从二维空间映射到了五维空间),然后在新的空间中计算距离。核方法的思想就是把映射和计算距离合成了一步操作,所以公式(5)的距离计算相对于d(zj,xi)是先把数据进行了非线性映射,到了一个新空间,然后在新空间中算出两者的距离,这也就是将该过程称为“利用核方法将主动学习大数据标注方法进行拓展,以处理非线性结构数据集”的原因。由于主动学习大数据标注系统为处理非线性结构数据而增加了非线性优化求解单元,因此非线性优化求解单元对于公式(5)的优化求解方法也有所变化,优化结构上的区别在于每次更新后,就立刻根据找出最好的x加入代表集Z(即锚点数据集Z)中,然后把该x从X集合中去掉,在剩余的X集合中继续更新去寻找对,这样是一种贪心的策略,虽然没有办法保证找到最好的解,但是由于优化求解的模型过于复杂,而通过这个策略可以找到一个有意义的解集合,从而实现对于非线性结构数据的处理。
本发明主动学习大数据标注系统中各个单元其具体功能的实现方法,可以参照上述的主动学习大数据标注方法实施例中描述的实现方法,此处不再赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种主动学习大数据标注方法,其特征在于,包括以下步骤:
获取待标注的数据集;
根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型;
利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型;
在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型;
利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定用于主动学习的所述锚点数据集。
2.根据权利要求1所述的主动学习大数据标注方法,其特征在于,根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型的过程包括以下步骤:
利用基于线性重建的方法确定所述数据集中重建误差最小的m个样本作为待标注的锚点数据集,所述m个样本为zi∈X,i=1,…,m,所述数据集为X=[x1,…,xn],xi∈Rd,i=1,…,n;
根据所述锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并利用测地距离函数计算各个所述数据点之间的距离,将所述距离作为重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到如下的数据标注模型:
A=[a1,…,an]∈Rm×n
其中,μ为正则化参数,ai∈Rm×n为利用所述锚点数据集对数据点xi进行线性重建时的所述重建系数,aji为第i个重建系数ai的第j维的数,d(zj,xi)为测地距离函数,Rm×n为m×n的矩阵空间集合,n个m维的ai构成系数矩阵A且A∈Rm×n
3.根据权利要求2所述的主动学习大数据标注方法,其特征在于,利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型的过程包括以下步骤:
利用所述数据集替代所述锚点数据集,对所述数据标注模型进行放松处理,得到如下的距离敏感重建模型:
A=[a1,…,an]∈Rn×n
4.根据权利要求3所述的主动学习大数据标注方法,其特征在于,在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型的过程包括以下步骤:
构造无穷范数正则项,并将所述无穷范数正则项加入所述距离敏感重建模型,得到如下的线性重建模型:
min A | | X - X A | | F 2 + μ Σ i = 1 n Σ j = 1 n | a ~ i j | D i j + λ Σ i = 1 n | | a ~ i | | ∞ , A T = [ a ~ 1 , a ~ 2 , ... , a ~ n ] ∈ R n × n
其中,D为距离矩阵且Dij=d(xi,xj),为所述系数矩阵A的第i行,为所述重建系数的无穷范数。
5.根据权利要求4所述的主动学习大数据标注方法,其特征在于,利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定所述锚点数据集的过程包括以下步骤:
利用坐标下降法,依次对进行更新,其更新公式如下:
a ~ i n e w ← arg min a ~ i ( F ( a ~ i ) = f ( a ~ i ) + Φ ( a ~ i ) )
其中,残项 表示两层的树结构群组稀疏优化问题,ωn+1=λ,ωj=μDij,j=1,…,n,gj={j},表示对于gj中的j下标取其余取0组成的向量;
利用近端点法更新并求解并根据两阶交替迭代法进行迭代直至收敛,得到最优解迭代方式如下:
a ~ i k + 1 ← a ~ i k - t ▿ f ( a ~ i k ) - Σ l = 1 , l ≠ j n + 1 ξ g l ξ g l ← Π tω j ( a ~ i | g j k + 1 ) ,
其中,分别为第k+1次和第k次迭代后的值,关于的导数在处的取值, 为向量的第l个坐标,表示到l1范数空间中半径为tωj的球面上的正交投影,
将所述最优解中的按照对应的所述无穷范数进行降序排列,并按照从大到小的顺序确定m个所述重建系数对应的所述数据点,得到用于主动学习的所述锚点数据集。
6.根据权利要求5所述的主动学习大数据标注方法,其特征在于,还包括以下步骤:
利用核矩阵K对所述数据点进行非线性映射,并得到经过非线性映射后的距离
利用贪婪的顺序方法,根据如下公式确定用于主动学习的所述锚点数据集:
zt∈X且
其中,Zt-1={z1,…,zt-1}为假设已经确定的t-1个锚点,zi=xp(i),p表示下标对应关系,表示根据该公式确定第t个锚点,
初始化Z=φ,根据t=1,···,m依次对计算系数,保持不变,计算以及根据所述近端点法更新确定为使得取得最小值的对,且其中Tr(·)表示矩阵的迹,表示了核矩阵K的第pi行。
7.一种主动学习大数据标注系统,其特征在于,包括:
获取单元,用于获取待标注的数据集;
模型构建单元,用于根据所述数据集中待标注的锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并计算各个所述数据点之间的距离,将所述距离作为所述重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到数据标注模型;
放松处理单元,用于利用所述数据集对所述数据标注模型进行放松处理,得到距离敏感重建模型;
修正处理单元,用于在所述距离敏感重建模型中加入无穷范数正则项,得到线性重建模型;
优化求解单元,用于利用坐标下降法和两阶交替迭代法对所述线性重建模型进行优化求解,并根据所述重建系数的无穷范数确定用于主动学习的所述锚点数据集。
8.根据权利要求7所述的主动学习大数据标注系统,其特征在于,所述模型构建单元用于
利用基于线性重建的方法确定所述数据集中重建误差最小的m个样本作为待标注的锚点数据集,所述m个样本为zi∈X,i=1,…,m,所述数据集为X=[x1,…,xn],xi∈Rd,i=1,…,n;
根据所述锚点数据集和重建系数对所述数据集中的各个数据点进行线性重建,并利用测地距离函数计算各个所述数据点之间的距离,将所述距离作为重建系数的权重构造正则项,且所述距离与所述重建系数成反比关系,得到如下的数据标注模型:
A=[a1,…,an]∈Rm×n
其中,μ为正则化参数,ai∈Rm×n为利用所述锚点数据集对数据点xi进行线性重建时的所述重建系数,aji为第i个重建系数ai的第j维的数,d(zj,xi)为测地距离函数,Rm×n为m×n的矩阵空间集合,n个m维的ai构成系数矩阵A且A∈Rm×n
9.根据权利要求8所述的主动学习大数据标注系统,其特征在于,所述放松处理单元用于
利用所述数据集替代所述锚点数据集,对所述数据标注模型进行放松处理,得到如下的距离敏感重建模型:
A=[a1,…,an]∈Rn×n
10.根据权利要求9所述的主动学习大数据标注系统,其特征在于,
所述修正单元用于构造无穷范数正则项,并将所述无穷范数正则项加入所述距离敏感重建模型,得到如下的线性重建模型:
min A | | X - X A | | F 2 + μ Σ i = 1 n Σ j = 1 n | a ~ i j | D i j + λ Σ i = 1 n | | a ~ i | | ∞ , A T = [ a ~ 1 , a ~ 2 , ... , a ~ n ] ∈ R n × n
其中,D为距离矩阵且Dij=d(xi,xj),为所述系数矩阵A的第i行,为所述重建系数的无穷范数;
所述优化求解单元用于利用坐标下降法,依次对进行更新,其更新公式如下:
a ~ i n e w ← arg min a ~ i ( F ( a ~ i ) = f ( a ~ i ) + Φ ( a ~ i ) )
其中,残项 表示两层的树结构群组稀疏优化问题,ωn+1=λ,ωj=μDij,j=1,…,n,gj={j},表示对于gj中的j下标取其余取0组成的向量;
利用近端点法更新并求解并根据两阶交替迭代法进行迭代直至收敛,得到最优解迭代方式如下:
a ~ i k + 1 ← a ~ i k - t ▿ f ( a ~ i k ) - Σ l = 1 , l ≠ j n + 1 ξ g l ξ g l ← Π tω j ( a ~ i | g j k + 1 ) ,
其中,分别为第k+1次和第k次迭代后的值,关于的导数在处的取值, 为向量的第l个坐标,表示到l1范数空间中半径为tωj的球面上的正交投影,
将所述最优解中的按照对应的所述无穷范数进行降序排列,并按照从大到小的顺序确定m个所述重建系数对应的所述数据点,得到用于主动学习的所述锚点数据集。
CN201610490177.3A 2016-06-24 2016-06-24 主动学习大数据标注方法和系统 Active CN106169095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610490177.3A CN106169095B (zh) 2016-06-24 2016-06-24 主动学习大数据标注方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610490177.3A CN106169095B (zh) 2016-06-24 2016-06-24 主动学习大数据标注方法和系统

Publications (2)

Publication Number Publication Date
CN106169095A true CN106169095A (zh) 2016-11-30
CN106169095B CN106169095B (zh) 2019-06-14

Family

ID=58065391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610490177.3A Active CN106169095B (zh) 2016-06-24 2016-06-24 主动学习大数据标注方法和系统

Country Status (1)

Country Link
CN (1) CN106169095B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN110399933A (zh) * 2019-07-31 2019-11-01 北京字节跳动网络技术有限公司 数据标注修正方法、装置、计算机可读介质及电子设备
CN110764052A (zh) * 2019-09-10 2020-02-07 清研讯科(北京)科技有限公司 基于超宽带的定位方法及装置、系统
CN113496256A (zh) * 2021-06-24 2021-10-12 中汽创智科技有限公司 一种图像标注模型训练方法、标注方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488744A (zh) * 2013-09-22 2014-01-01 华南理工大学 一种大数据图像分类方法
CN104504399A (zh) * 2015-01-05 2015-04-08 哈尔滨工业大学 一种结合线性相关信息熵的多光谱数据有监督分类方法
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488744A (zh) * 2013-09-22 2014-01-01 华南理工大学 一种大数据图像分类方法
CN104504399A (zh) * 2015-01-05 2015-04-08 哈尔滨工业大学 一种结合线性相关信息熵的多光谱数据有监督分类方法
CN104679863A (zh) * 2015-02-28 2015-06-03 武汉烽火众智数字技术有限责任公司 一种基于深度学习的以图搜图方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈波 等: "一种基于主动学习的相似记录匹配方法", 《计算机工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067025A (zh) * 2017-02-15 2017-08-18 重庆邮电大学 一种基于主动学习的数据自动标注方法
CN107067025B (zh) * 2017-02-15 2020-12-22 重庆邮电大学 一种基于主动学习的文本数据自动标注方法
CN108665158A (zh) * 2018-05-08 2018-10-16 阿里巴巴集团控股有限公司 一种训练风控模型的方法、装置及设备
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN110399933A (zh) * 2019-07-31 2019-11-01 北京字节跳动网络技术有限公司 数据标注修正方法、装置、计算机可读介质及电子设备
CN110399933B (zh) * 2019-07-31 2021-05-07 北京字节跳动网络技术有限公司 数据标注修正方法、装置、计算机可读介质及电子设备
CN110764052A (zh) * 2019-09-10 2020-02-07 清研讯科(北京)科技有限公司 基于超宽带的定位方法及装置、系统
CN113496256A (zh) * 2021-06-24 2021-10-12 中汽创智科技有限公司 一种图像标注模型训练方法、标注方法、装置、设备及介质
CN113496256B (zh) * 2021-06-24 2024-04-09 中汽创智科技有限公司 一种图像标注模型训练方法、标注方法、装置、设备及介质

Also Published As

Publication number Publication date
CN106169095B (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN106169095A (zh) 主动学习大数据标注方法和系统
CN107182216B (zh) 一种基于深度卷积神经网络的快速磁共振成像方法及装置
WO2017031718A1 (zh) 弹性物体变形运动的建模方法
CN105427360B (zh) 一种动态网格的误差可控cage序列表示算法
Xu et al. Learning viscoelasticity models from indirect data using deep neural networks
CN109005398B (zh) 一种基于卷积神经网络的立体图像视差匹配方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN105279307A (zh) 在模态动态分析中重新获得拉格朗日乘子的系统和方法
Park et al. Dimensional reduction in nonlinear filtering
CN109300128A (zh) 基于卷积神经网隐含结构的迁移学习图像处理方法
CN111738435B (zh) 一种基于移动设备的在线稀疏训练方法及系统
CN110223509A (zh) 一种基于贝叶斯增强张量的缺失交通数据修复方法
Rui et al. Reduced multibody system transfer matrix method using decoupled hinge equations
CN110570034B (zh) 一种基于多XGBoost模型融合的母线负荷预测方法
CN115983148A (zh) 一种cfd仿真云图预测方法、系统、电子设备及介质
CN116842621B (zh) 一种建筑物理机理数字孪生模型演化方法
Newcomer et al. NWTOPT–A hyperparameter optimization approach for selection of environmental model solver settings
Zheng et al. The variable fidelity optimization for simulation-based design: A review
CN113869503B (zh) 一种基于深度矩阵分解补全的数据处理方法及存储介质
CN114943182A (zh) 基于图神经网络的机器人线缆形状控制方法及设备
Ge et al. Blending isogeometric and Lagrangian elements in three-dimensional analysis
CN116305995B (zh) 结构体系的非线性分析方法及装置、设备及介质
Xu et al. Improving groundwater flow model prediction using complementary data-driven models
CN105512754A (zh) 一种基于共轭先验的单模分布估计优化方法
Srisangyingcharoen et al. Effective Lagrangian for non-Abelian two-dimensional topological field theory

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Active learning big data mark method and system

Effective date of registration: 20200630

Granted publication date: 20190614

Pledgee: China Co. truction Bank Corp Guangzhou economic and Technological Development Zone sub branch

Pledgor: GUANGZHOU TUPU NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2020440000172

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210906

Granted publication date: 20190614

Pledgee: China Co. truction Bank Corp Guangzhou economic and Technological Development Zone sub branch

Pledgor: GUANGZHOU TUPU NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2020440000172

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Active learning big data annotation method and system

Effective date of registration: 20210914

Granted publication date: 20190614

Pledgee: China Co. truction Bank Corp Guangzhou economic and Technological Development Zone sub branch

Pledgor: GUANGZHOU TUPU NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000288

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230519

Granted publication date: 20190614

Pledgee: China Co. truction Bank Corp Guangzhou economic and Technological Development Zone sub branch

Pledgor: GUANGZHOU TUPU NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2021440000288