CN104715021B - 一种基于哈希方法的多标记学习的学习方法 - Google Patents

一种基于哈希方法的多标记学习的学习方法 Download PDF

Info

Publication number
CN104715021B
CN104715021B CN201510089183.3A CN201510089183A CN104715021B CN 104715021 B CN104715021 B CN 104715021B CN 201510089183 A CN201510089183 A CN 201510089183A CN 104715021 B CN104715021 B CN 104715021B
Authority
CN
China
Prior art keywords
label
learning
sample
algorithm
neighbour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510089183.3A
Other languages
English (en)
Other versions
CN104715021A (zh
Inventor
吴建盛
孙永
胡海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510089183.3A priority Critical patent/CN104715021B/zh
Publication of CN104715021A publication Critical patent/CN104715021A/zh
Application granted granted Critical
Publication of CN104715021B publication Critical patent/CN104715021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于哈希方法的多标记学习的学习方法,该方法是利用哈希算法与基于贝叶斯统计学的多标记学习算法相结合,该方法有效地利用标记之间的相关性以提高多标记学习模型的预测性能,利用近邻的特性,将标记和标记的近邻引入到后验概率的计算中,充分考虑了标记之间的相关性,提高了算法的准确性;利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问题;利用位置敏感哈希(LSH)进行近邻查找解决大规模数据的学习问题,可以进行快速高效的近邻查找,提高了多标记学习算法的可扩展性。

Description

一种基于哈希方法的多标记学习的学习方法
技术领域
本发明涉及机器学习的技术领域,尤其涉及一种基于哈希方法的多标记学习的学习方法。
背景技术
在传统的监督学习框架中,样本一般具有明确的单一的语义标记,即:每个样本示例只属于一个类别,在这个监督学习框架下已经提出多种算法并取得良好的效果。然而,在很多现实世界的应用中,研究对象其语义标记通常是不唯一的,往往存在一个样本可被分配一组多重标记的情况。例如,在文本分类中,一篇新闻报道可能涵盖某个事件的多个方面,因此,应该被分配给多个主题(比如,政治和经济);在生物信息学中,一个基因或蛋白质往往具有多个功能;在图像注释中,一幅图像往往可以被多个主题词注释。这就使得对于只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含有的多种语义信息能够直观地反映,一种显而易见的方式就是为该对象明确地赋予具有合适类别标记的标记集合。基于以上分析,一种针对多义性对象的学习建模工具,多标记学习框架由此而产生。在多标记学习框架下,样本由一个示例和对应的多个标记构成,学习的目标是将多个适当的标记赋予未知的示例。
随着机器学习理论与应用研究的深入,多标记学习已成为机器学习领域的热点研究方向之一。由于多标记分类与现实应用紧密相关,针对多标记分类问题的研究具有重要的理论和应用价值。多标记学习是一个具有挑战性的研究课题,过去主要应用于文本分类领域,而现在引起了越来越多的研究人员的兴趣,并应用到很多新的领域,如音乐分类、蛋白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。
经过多年的发展,在传统的多标记学习问题上,研究者们已提出了许多经典算法,如基于决策树的方法、基于神经网络的方法、基于K近邻的方法、基于核的方法、基于支持向量机的方法、基于集成学习的方法等等。
然而,现在互联网中每天产生的数据数以千万,样本的数量变的很大,维数也变得很高,并且往往很稀疏,传统的多标记学习算法往往很难适用,随着数据的增加,计算时间随着样本的数量会产生指数级的增长,而且数据的存储代价也会变得非常高。
传统的多标记学习算法在大规模数据中的应用中面临着很多挑战,主要有:1)如何有效的利用标记之间的相关性以提高模型的预测性能是多标记学习最核心的问题之一。传统的基于贝叶斯统计学的算法采用了一阶策略来求解多标记学习问题对标记进行训练,并没有考虑其他标记对标记的影响,即在模型构建过程中忽略标记之间的相关性,通过考虑标记之间的相关性,可以提高分类的准确性。2)在大规模数据的多标记学习中,标记空间往往更加高维和稀疏。在多标记学习的的训练过程中,需要对样本的标记进行计算,由于标记的高维性,计算复杂度会大幅度增加,训练过程会变的很慢,而如何有效利用标记的稀疏性,对标记进行快速的计算,减小计算时间是多标记学习在大规模数据中应用时需要面对的重点问题。3)在大规模数据的多标记学习中,样本空间数量往往巨大。传统多标记学习算法中,训练的样本数量一般较小。然而,在大规模数据场景下,样本的数量大幅增加,计算复杂度会产生指数级的增长,另外,存储代价也会变得十分高昂,如何将多标记学习算法应用到大规模数据中是目前研究的热点之一。
在大规模数据场景下,基于统计学习的学习算法应用广泛,而基于贝叶斯定理的学习方法是其中的代表之一。它是一类利用概率统计知识进行分类的算法,其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类,是一种最小错误率意义上的优化。基于贝叶斯统计学的算法以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习方法等特性表示了客体的概率分布和因果联联系,能很好的运用到大规模数据中,而且方法简单、分类准确率高、速度快,成为当前数据挖掘众多方法中最为引人注目的焦点之一。
在分类的算法中,在特征空间相似的样本往往以更大的概率共享相同的标记,也就是说,相似的样本往往更可能具有相同的标记。为了判定未知样本的类别,本发明考虑到利用未知样本的相似样本来判定未知样本的类别。在未知样本的分类判决中,以全部训练样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者(也就是特征空间中的距离最短)的类别作为决策未知样本类别的唯一依据。不过这种方法对噪声数据过于敏感,为了解决这个问题,可以把未知样本周边的多个最近邻样本计算在内,扩大参与决策的样本量,以避免个别数据直接决定决策结。因此在分类算法中,若一个样本在特征空间中的k个最相似的样本中的大多数都属于某一个类别,则此样本也属于这个类别。此方法在分类决策上仅依据最邻近的一个或几个样本的类别来最终决定待分样本所属的类别。最近邻法是在己知类别的训练样本条件下,按最近距离原则进行分类,方法思想直观,效果较好,方法简单,其中某些技术在理论上能够实现先验知识完备的贝叶斯决策的分类效果,可以适应类域分布较复杂的情况之中。
在大规模数据的多标记学习中,标记空间往往更加高维和稀疏。基于MinHash的降维算法从原始的特征空间中抽取一部分进行比较,和拿全部特征进行比较,在数学上,能得到一样的效果,具体做法是将原始数据通过(0,1)矩阵进行表示,对矩阵中值为1的行通过多个hash函数进行映射,从而用低维的实数向量对原始特征进行表示。由于标记向量的高维性和稀疏性,标记向量本身是一个(0,1)矩阵而且其中值为1的数量很少,所以利用基于MinHash的方法可以在低复杂度的情况下将标记向量进行降维。
随着数据的维度提高,传统的相似性搜索算法虽然在低维数据空间中表现良好,但是当数据的维度提高时,算法的复杂度呈指数级上升,算法性能会急剧下降。为了解决这个问题,研究人员提出可以使用近似最近邻查询来解决相似性搜索问题,即不再返回完全精确的结果,而是允许査询得到的结果与真实值存在一定的偏差因为在大部分应用场景下,使用近似结果一样可以很好地解决问题。位置敏感哈希(Locality SensitiveHashing,LSH)是近似最近邻搜索算法中最流行的一种,它不仅具有坚实的理论基础,而且在高维数据空间表现优异,因此被广泛应用于许多场景,包括基于内容的图像检索、音频检索、视频拷贝检测以及DNA序列相似性比对等。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于解决了多标记学习方法在大规模数据场景下应用时遇到的问题,提出了一种基于哈希方法的多标记学习的学习方法,该方法利用hash算法与基于贝叶斯统计学的多标记学习算法相结合,利用标记之间的相关性以提高多标记学习模型的预测性能;利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问题;利用位置敏感哈希(即:LSH)进行近邻查找解决大规模数据的学习问题。
本发明解决其技术问题所采取的技术方案是:一种基于哈希方法的多标记学习的学习方法,该方法包括:多标记算法的标记相关性扩展、多标记算法的MinHash降维、基于LSH的近邻查找。其中标记相关性扩展,主要是将标记之间的相关性引入到算法中,通过标记之间的相互影响更好的进行分类;MinHash降维,利用MinHash算法对标记空间进行降维;LSH近邻查找可以在低时间复杂度的情况下获取近邻,将算法的计算复杂度充分降低,使其可扩展到大规模数据情况的多标记学习中。
方法流程:
步骤1:给定输入多标记训练数据集D={(xi,Yi)|1≤i≤m}以及测试样例xt,Yi为所对应样本xi的标记集向量。训练集样本集合X(N×m,N是样本个数,m是样本属性的维度);训练集标记集合Y(N×q,q是标签的数量);
步骤2:对于训练数据集的标记集合执行MinHash算法,将原始的标记集合矩阵由N×q维为压缩为p×q维矩阵
步骤3:对样本集合XN×m和新的标记集合分别执行LSH算法,计算出每个样本的近邻N(xi)和每个标记的近邻N(yj);
步骤4:对于测试样例xt,执行LSH计算出xt的近邻N(xt);
步骤5:计算每个标记yj,j=1,2,…,q的后验概率,根据发明中所提出的基于标记相关性扩展的后验概率公式进行计算;
步骤6:根据多标记学习算法构建多标记分类器。根据多标记分类器,得到预测的标记集合,即:分类结果。
上述本发明步骤5所述的基于标记相关性扩展的后验概率,在后验概率的计算中,为了减少复杂度,并没有将所有标记的相关性均考虑在内,而是选取k个最近邻的标记进行计算。
在上述本发明所述的标记相关性扩展中,针对标记空间的高维性和稀疏性,将MinHash降维算法和LSH近邻查找算法进行结合计算标记之间的相关性。
本发明所述的MinHash降维算法,对标记空间进行降维,其标记向量是利用样本来表示的,是一个N×1维的向量,具体为:如果xi具有标记yj,则yj(i)=1,否则yj(i)=0。
本发明所述的基于LSH的近邻查找,是将LSH算法和基于统计学的多标记学习算法相结合,将LSH引入到多标记学习算法中进行近邻以及相关性计算。
有益效果:
1、本发明对多标记学习算法进行了改进,解决了标记相关性的问题,并且有效地提高了分类的准确性。
2、本发明解决了多标记学习在大规模数据下的扩展问题,针对大规模数据场景下标记空间的高维性和稀疏性,利用MinHash算法对样本空间进行降维,从而使多标记学习算法适用。
3、本发明针对样本数量过大的问题,利用局部敏感哈希(即:LSH)方法进行近邻查找,在保证一定程度上的准确性的前提下,时间和空间复杂度得到降低,并很好的支持大规模数据下的近邻查找,将LSH运用到多标记学习算法中,增加了算法的可扩展性,解决了样本数量过大的问题。
附图说明
图1为本发明系统的架构图。
图2为本发明的方法流程图。
图3为本发明的LSH方法流程图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
如图2所示,本发明提供了一种基于哈希方法的多标记学习的学习方法,该方法具体实施步骤包括如下:
(1)标记相关性扩展
在基于贝叶斯统计学理论的多标记学习算法中,一个重要的步骤是计算后验概率。给定多标记训练集D={(xi,Yi)|1≤i≤m}以及测试样例x,Yi为所对应样本xi的标记集向量,对于第j个类别yj(1≤j≤q),基于贝叶斯定理的计算后验概率的公式如下:
其中,Hj代表x具有类别标记yj这一事件,P(Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj成立的后验概率。相应的,P(-Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj不成立的后验概率。N(x)代表x在训练集中的近邻样本构成的集合。通过贝叶斯定理转换为求先验概率和条件概率,P(Hj)与P(-Hj)分别代表事件Hj成立与不成立的先验概率,P(Cj|Hj)与P(Cj|-Hj)分别代表事件Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率。先验概率和条件概率可以通过对训练集合进行统计分析得到。
基于贝叶斯统计学算法采用了一阶策略来求解多标记学习问题对标记yj训练时,后验概率的公式中P(Hj|Cj)只考虑了N(x)中的样本具有类别标记yj的情况,并没有考虑其他标记对标记yj的影响,即在模型构建过程中忽略标记之间的相互影响。
基于该算法的基本思想,本发明将标记之间的相关性考虑在内。将后验概率公式扩展为:
f(x,yj)=P(Hj|C1,C2,…,Cq)/P(-Hj|C1,C2,…,Cq) (2)
式中将其他标记引入后验概率的计算公式,充分考虑了标记之间的相互影响。
在式(2)中对标记yj训练时,将所有标记yj都加入到了后验概率的计算中,这样虽然可以提高分类的性能,但是,在标记集合中,其他标记对标记yj的影响并不相同,有些标记甚至会产生负的影响,此外,将所有标记加入计算公式中,计算复杂度也会提高。因此,为了解决这种问题,本发明中对式(2)中的后验概率公式进行了进一步的改进,考虑到标记集合中其他标记对标记yj的影响并不相同,本发明对后验概率中加入的其他标记进行改进,只考虑将部分标记考虑到后验概率中。其中,标记向量利用样本来表示,假设样本数量为N,则标记向量yj则是一个N×1维的(0,1)向量,具体表示为:
本发明通过对标记向量求近邻,然后选取近邻加入到后验概率的计算中,在算法的训练阶段中,对训练数据集的样本和标记进行统计,对其k近邻进行统计与分析。对标记yj训练时,通过对标记yj求近邻获取标记yj的前k个近邻标记,在后验概率的计算中,根据预先得到标记的k近邻集合,选取合适的标记加入到后验概率的公式中,具体实现为:
假设标记yj的k近邻集合为N(yj)={i|yi是yj的近邻标记,1≤i≤q},即N(yj)中是标记yj的K个近邻标记的下标。对标记yj进行训练时,后验概率的计算公式变为:
通过对标记进行选择可以更好的考虑标记之间的相关性,并且可以减少后验概率的计算复杂度。
(2)MinHash算法降维
不止在多标记学习任务中,在很多应用领域,本发明面对和需要处理的数据往往是大规模的并且具有很高的维度,传统的数据分析和处理方法面对“维度灾难”问题时不能很好的适用,在本发明中,提出将MinHash算法引入到多标记学习算法中的思想,利用MinHash算法的快速高效和理论保证对高维的数据的空间进行降维。
基于MinHash的降维算法有很多且应用广泛,本发明中主要针对标记空间的高维和稀疏性进行考虑,对标记空间进行降维。本发明中利用MinHash算法进行降维。
MinHash可以用来快速估算两个集合的相似度,一般用于降维。MinHash的基本思想是随机从特征中抽样一些来进行比较,和拿全部特征进行比较,在数学上,能得到一样的效果。计算两个集合的Jaccard距离,通常用Merge算法,虽然Merge算法的复杂度O(m+n)不高(其中m、n分别代表两个集合的长度),但是当集合的长度非常大时,该算法还是会遇见一些问题,此时最简单明了的做法就是通过采样的方式来缩减集合的长度。MinHash算法对于这个问题,利用最小独立置换的概念,令h(x)为一个在集合X上的置换函数,使得X中任意一个元素x置换后的值h(x)=min{h(x1),h(x2),…,h(xn)}的概率相等。具体而言,MinHash算法是一种基于Jaccard相似度的近似计算,其大致思想是使用K个哈希函数分别对两个集合A和B求哈希值,这样每个集合都将得到K个最小哈希值。
在本发明中,首先通过式(3)得到所有标记向量,对每一个标记向量,运用K个合适的哈希函数进行MinHash处理,将原始的标记向量转换为MinHash值矩阵,得到MinHash最小签名矩阵,从而将原始的N×q维的标记矩阵降为K×q维的MinHash最小签名矩阵,而K的值远远小于N,这样就成功地实现了原始矩阵的降维。
(3)LSH近邻查找
相似性检索在各种领域特别是在视频、音频、图像、文本等含有丰富特征信息领域中的应用变得越来越重要。丰富的特征信息一般用高维向量表示,由此相似性检索一般通过k近邻或近似近邻查询来实现。在大规模数据时代,怎样快速地从大规模的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个热点和难点。如果是低维的小数据集,本发明通过线性查找(Linear Search)就可以容易解决,但如果是对一个大规模的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,本发明需要采用一些类似索引的技术来加快查找过程,通常这类技术称为最近邻查找(NearestNeighbor,NN),例如K-d tree;或近似最近邻查找(Approximate Nearest Neighbor,ANN),例如K-d tree with BBF,Randomized Kd-trees,Hierarchical K-means Tree。
其中局部敏感哈希(Locality-Sensitive Hashing,LSH),作为ANN中的一类方法,是最近非常流行的一种相似性搜索算法,LSH因其快速的查找效率,较强的高维适应性以及足够的理论保证而被广泛应用于各个领域。所以在本发明中将LSH算法应用到多标记学习算法中,用于快速的查找最近邻。
LSH的基本思想如下:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果本发明对原始数据进行一些hash映射后,本发明希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。这样对原始数据集合中所有的数据都进行hash映射后,本发明就得到了一个hash table,这些原始数据集被分散到了hash table的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的。因此,如果本发明能够找到这样一些hash函数,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么本发明在该数据集合中进行近邻查找就变得容易了,在查询时,本发明只需要将查询点按照相同的哈希函数哈希到桶中得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配计算查询点与每个候选近似最近邻点的距离,通过该距离判断是否符合查询条件。
LSH中的hash函数需要满足以下两个条件:
1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;
2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;
其中d(x,y)表示x和y之间的距离,d1<d2,h(x)和h(y)分别表示对x和y进行hash变换。
满足以上两个条件的hash函数称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hash函数对原始数据集合进行hashing生成一个或多个hash table的过程称为局部敏感哈希(Locality-sensitive Hashing)。
在本发明中,将LSH算法和基于统计学的多标记学习算法相结合,将LSH引入到多标记学习算法中进行近邻以及相关性计算。在基于统计学的多标记学习算法中,计算后验概率时需要对样本和标记求出k近邻和其相关性,发明中对样本使用LSH算法进行近邻查找,可以快速高效的进行近邻搜索,并可以成功扩展到大规模高维数据中;对标记进行近邻以及相关性计算时,针对标记空间的高维性和稀疏性,将MinHash降维算法和LSH近邻查找算法进行结合,首先通过MinHash降维算法得到标记向量的MinHash最小签名矩阵,然后对降维后的矩阵进行LSH近邻计算,可以快速计算出高维稀疏标记的近邻和相关性。
本发明所解决的问题包括如下:
(1)有效的利用标记之间的相关性以提高多标记学习模型的预测性能
传统的多标记学习算法中没有将标记之间的相关性考虑在,构建的二元分类器之间是相互独立的,并没有考虑标记之间的相互影响,这样会导致准确率的降低。本发明中将标记之间的相关性引入后验概率的计算中,充分考虑标记之间的相互影响,通过该标签的近邻来影响到后验概率,可以有效提高算法的准确性。另外,针对标记如何加入到后验概率中的问题,本发明提出了利用近邻进行标记选取的方法,充分考虑到不同标签的影响不同的问题,更进一步的考虑了标记之间的相关性问题。
(2)利用MinHash算法解决标记空间高维和稀疏的问题
传统的多标记学习任务中,样本的标记空间一般是低维的,传统的多标记学习算法可以很好的进行标记判决,然而,面对大规模数据时,标记空间变得高维和稀疏,传统的算法已不再适用,本发明针对标记空间的高维性和稀疏性,将MinHash算法引入到多标记学习中进行降维,利用MinHash算法对标记空间进行降维,将高维的标记空间映射转换为低维空间,并保留原有的信息,从而使多标记学习算法可以更好的使用。
(3)利用位置敏感哈希(LSH)进行近邻查找解决大规模数据的学习问题
传统的多标记学习算法是针对低维的,少量的样本空间。随着数据急剧扩张,样本的数量变的非常大,训练时的样本数量甚至达到几百万。随着数据的增加,计算时间随着样本的数量会产生指数级的增长,而且数据的存储代价也会变得非常高。由于样本的计算主要在数据的分析和处理过程,在基于统计学理论的多标记学习算法中,计算主要是在样本的相似性搜索和近邻查找过程中。如果是低维的小数据集,本发明通过线性查找就可以容易解决,但如果是对一个大规模的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,本发明引入了一种高效、可扩展的相似性近邻查找算法—局部敏感哈希(即:LSH)算法。利用LSH算法,可以快速高效的进行近邻查找,实现高维下的近似查询。
另外LSH方法能够在保证一定程度上的准确性的前提下,时间和空间复杂度得到降低,在理想状态下,空间复杂度随数据集呈线性增长,但不会远大于数据集的大小,检索的时间复杂度可以达到O(logN)甚至O(1),因此LSH方法在样本数量很大时,也可以很好的支持近邻查找。
如图1所示,本发明的实施包括两个过程:即:训练和测试
本发明的伪代码如下:
如图3所示,本发明的LSH原理是利用k个hash函数将数据投影到k个hash表中,每个表包含多个存放数据的桶,同一个桶中的数据点是相似的。

Claims (7)

1.一种基于哈希方法的多标记学习的学习方法,其特征在于,所述方法包括如下步骤:
步骤1:给定输入多标记训练数据集D={(xi,Yi)|1≤i≤m}以及测试样例xt,Yi为所对应样本xi的标记集向量;训练集样本集合X(N×m,N是样本个数,m是样本属性的维度);训练集标记集合Y(N×q,q是标签的数量);
步骤2:对于训练数据集的标记集合执行MinHash降维算法,将原始的标记集合矩阵由N×q维为压缩为p×q维矩阵
步骤3:对样本集合XN×m和新的标记集合分别执行LSH算法,计算出每个样本的近邻N(xi)和每个标记的近邻N(yj);
步骤4:对于测试样例xt,执行LSH计算出xt的近邻N(xt);
步骤5:计算每个标记yj,j=1,2,…,q的后验概率,所述后验概率是基于标记相关性扩展的后验概率公式进行计算;
步骤6:根据多标记学习算法构建多标记分类器;根据多标记分类器,得到预测的标记集合,即:分类结果;
所述方法的MinHash降维算法,对标记空间进行降维,其标记向量是利用样本来表示的,是一个N×1维的向量,具体为:如果xi具有标记yj,则yj(i)=1,否则yj(i)=0;
所述方法包括:多标记算法的标记相关性扩展、多标记算法的MinHash降维、基于LSH的近邻查找,其中标记相关性扩展,是将标记之间的相关性引入到算法中,通过标记之间的相互影响更好的进行分类,MinHash降维,利用MinHash算法对标记空间进行降维,LSH近邻查找可以在低时间复杂度的情况下获取近邻,将算法的计算复杂度充分降低,使其可扩展到大规模数据情况的多标记学习中;标记相关性扩展包括:
在基于贝叶斯统计学理论的多标记学习算法中,一个重要的步骤是计算后验概率,给定多标记训练集D={(xi,Yi)|1≤i≤m}以及测试样例x,Yi为所对应样本xi的标记集向量,对于第j个类别yj(1≤j≤q),基于贝叶斯定理的计算后验概率的公式如下:
其中,Hj代表x具有类别标记yj这一事件,P(Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj成立的后验概率,相应的,P(-Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj不成立的后验概率,N(x)代表x在训练集中的近邻样本构成的集合,通过贝叶斯定理转换为求先验概率和条件概率,P(Hj)与P(-Hj)分别代表事件Hj成立与不成立的先验概率,P(Cj|Hj)与P(Cj|-Hj)分别代表事件Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率,先验概率和条件概率可以通过对训练集合进行统计分析得到;
基于贝叶斯统计学算法采用了一阶策略来求解多标记学习问题对标记yj训练时,后验概率的公式中P(Hj|Cj)只考虑了N(x)中的样本具有类别标记yj的情况,并没有考虑其他标记对标记yj的影响,即在模型构建过程中忽略标记之间的相互影响;
所述方法将标记之间的相关性考虑在内,将后验概率公式扩展为:
f(x,yj)=P(Hj|C1,C2,…,Cq)/P(-Hj|C1,C2,…,Cq) (2)
式中将其他标记引入后验概率的计算公式,充分考虑了标记之间的相互影响;
在式(2)中对标记yj训练时,将所有标记yj都加入到了后验概率的计算中,在标记集合中,其他标记对标记yj的影响并不相同,有些标记甚至会产生负的影响,此外,将所有标记加入计算公式中,计算复杂度也会提高,因此,为了解决这种问题,对式(2)中的后验概率公式进行了进一步的改进,考虑到标记集合中其他标记对标记yj的影响并不相同,对后验概率中加入的其他标记进行改进,只考虑将部分标记考虑到后验概率中,其中,标记向量利用样本来表示,假设样本数量为N,则标记向量yj则是一个N×1维的(0,1)向量,具体表示为:
通过对标记向量求近邻,然后选取近邻加入到后验概率的计算中,在算法的训练阶段中,对训练数据集的样本和标记进行统计,对其k近邻进行统计与分析,对标记yj训练时,通过对标记yj求近邻获取标记yj的前k个近邻标记,在后验概率的计算中,根据预先得到标记的k近邻集合,选取合适的标记加入到后验概率的公式中,实现为:
假设标记yj的k近邻集合为N(yj)={i|yi是yj的近邻标记,1≤i≤q},即N(yj)中是标记yj的K个近邻标记的下标,对标记yj进行训练时,后验概率的计算公式变为:
通过对标记进行选择可以更好的考虑标记之间的相关性,并且可以减少后验概率的计算复杂度。
2.根据权利要求1所述的一种基于哈希方法的多标记学习的学习方法,其特征在于,所述方法包括:多标记算法的标记相关性扩展、多标记算法的MinHash降维、基于LSH的近邻查找。
3.根据权利要求2所述的一种基于哈希方法的多标记学习的学习方法,其特征在于,所述的标记相关性扩展,是将标记之间的相关性引入到算法中,通过标记之间的相互影响进行分类,标记之间的相关性是通过将标记向量MinHash降维之后再通过LSH近邻查找计算出来的;MinHash降维,是利用MinHash算法对标记空间进行降维;LSH近邻查找,在低时间复杂度的情况下获取近邻,将算法的计算复杂度充分降低。
4.根据权利要求1所述的一种基于哈希方法的多标记学习的学习方法,其特征在于:所述方法步骤5的基于标记相关性扩展的后验概率,在后验概率的计算中,是选取k个最近邻的标记进行计算。
5.根据权利要求3所述的一种基于哈希方法的多标记学习的学习方法,其特征在于,所述方法的标记相关性扩展中,针对标记空间的高维性和稀疏性,将MinHash降维算法和LSH近邻查找算法进行结合计算标记之间的相关性。
6.根据权利要求3所述的一种基于哈希方法的多标记学习的学习方法,其特征在于:所述方法是基于LSH的近邻查找,将LSH算法和基于统计学的多标记学习算法相结合,将LSH引入到多标记学习算法中进行近邻以及相关性计算。
7.根据权利要求1所述的一种基于哈希方法的多标记学习的学习方法,其特征在于,所述方法包括:利用k个hash函数将数据投影到k个hash表中,每个表包含多个存放数据的桶,同一个桶中的数据点是相似的。
CN201510089183.3A 2015-02-27 2015-02-27 一种基于哈希方法的多标记学习的学习方法 Active CN104715021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510089183.3A CN104715021B (zh) 2015-02-27 2015-02-27 一种基于哈希方法的多标记学习的学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510089183.3A CN104715021B (zh) 2015-02-27 2015-02-27 一种基于哈希方法的多标记学习的学习方法

Publications (2)

Publication Number Publication Date
CN104715021A CN104715021A (zh) 2015-06-17
CN104715021B true CN104715021B (zh) 2018-09-11

Family

ID=53414348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510089183.3A Active CN104715021B (zh) 2015-02-27 2015-02-27 一种基于哈希方法的多标记学习的学习方法

Country Status (1)

Country Link
CN (1) CN104715021B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062228B2 (en) 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
CN107122327B (zh) * 2016-02-25 2021-06-29 阿里巴巴集团控股有限公司 一种利用训练数据训练模型的方法和训练系统
CN106777986B (zh) * 2016-12-19 2019-05-21 南京邮电大学 药物筛选中基于深度哈希的配体分子指纹生成方法
CN106874655B (zh) * 2017-01-16 2018-12-14 西北工业大学 基于多标记学习和贝叶斯网络的中医症型分类预测方法
CN106873566B (zh) * 2017-03-14 2019-01-22 东北大学 一种基于深度学习的无人驾驶物流车
CN107506153B (zh) * 2017-09-26 2021-07-02 深信服科技股份有限公司 一种数据压缩方法、数据解压方法及相关系统
CN108830217B (zh) * 2018-06-15 2021-10-26 辽宁工程技术大学 一种基于模糊均值哈希学习的签名自动判别方法
CN109785901B (zh) * 2018-12-26 2021-07-30 东软集团股份有限公司 一种蛋白质功能预测方法及装置
CN110188223B (zh) * 2019-06-06 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备
CN111553127B (zh) * 2020-04-03 2023-11-24 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111581466B (zh) * 2020-05-15 2024-02-27 北京交通大学 特征信息存在噪声的偏多标记学习方法
CN111581468B (zh) * 2020-05-15 2024-03-01 北京交通大学 基于噪声容忍的偏多标记学习方法
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的信用卡交易风险预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185561B1 (en) * 2005-08-15 2012-05-22 Google Inc. Scalable user clustering based on set similarity
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185561B1 (en) * 2005-08-15 2012-05-22 Google Inc. Scalable user clustering based on set similarity
CN102646097A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 一种聚类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种改进的ML-kNN多标记文档分类方法;程圣军等;《哈尔滨工业大学学报》;20131130;第45卷(第11期);期刊第1.1-1.3节 *
分布式平台下MinHash算法研究与实现;王洪亚;《智能计算机与应用》;20141231;第4卷(第6期);期刊第1-2节 *
多标记数据分类相关技术研究;张顺;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130815(第8期);期刊第5.2节 *

Also Published As

Publication number Publication date
CN104715021A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104715021B (zh) 一种基于哈希方法的多标记学习的学习方法
Cheng et al. Scene recognition with objectness
Sudderth et al. Shared segmentation of natural scenes using dependent Pitman-Yor processes
Wang et al. Deep collaborative discrete hashing with semantic-invariant structure construction
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN106202256A (zh) 基于语义传播及混合多示例学习的Web图像检索方法
Yang et al. Tag tagging: Towards more descriptive keywords of image content
Ye et al. A new re-ranking method based on convolutional neural network and two image-to-class distances for remote sensing image retrieval
Li et al. Fuzzy based affinity learning for spectral clustering
Feng et al. Transductive multi-instance multi-label learning algorithm with application to automatic image annotation
Li et al. Fuzzy bag of words for social image description
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN104361135A (zh) 一种图像检索方法
CN104778234A (zh) 基于局部敏感哈希技术的多标记文件近邻查询方法
Guo Research on sports video retrieval algorithm based on semantic feature extraction
Dimitrovski et al. Detection of visual concepts and annotation of images using ensembles of trees for hierarchical multi-label classification
Xia et al. Clothing classification using transfer learning with squeeze and excitation block
Li et al. Piecewise supervised deep hashing for image retrieval
CN110298228A (zh) 一种多目标图像检索方法
Wang et al. Dominant sets clustering for image retrieval
Zhang et al. Semantics-preserving hashing based on multi-scale fusion for cross-modal retrieval
Li et al. Nonlinear embedding neural codes for visual instance retrieval
Tang et al. Ensemble learning with LDA topic models for visual concept detection
Pakdel et al. Efficient Cloud-Based Framework for Big Data Classification
Xu et al. Image annotation by learning label-specific distance metrics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant