CN109753579B

CN109753579B - 一种基于频繁项目集的图片标注推荐方法

Info

Publication number: CN109753579B
Application number: CN201811516054.8A
Authority: CN
Inventors: 刘凡; 吕坦悦
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-09-01
Anticipated expiration: 2038-12-12
Also published as: CN109753579A

Abstract

本发明公开了一种基于频繁项目集的图片标注推荐方法。首先通过构建频繁模式树，从频繁模式树中获取频繁项目集；然后计算重合度并构建稀疏自编码神经网络，通过其计算频繁项目集中图片和用户标注过的图片的相似度，进而对用户进行推荐；最后判断图片是否标记完成。本发明对进行处理和分组后的数据进行频繁项目集发掘，并增加了稀疏自编码神经网络进行特征提取，根据提取到的特征将需要进行标注的图片推送到有对应兴趣或专业知识背景的用户那里进行标注，从而解决了海量图片标注过程中效率、标注准确度差等问题，提升了图片标注的速度和准确度。

Description

一种基于频繁项目集的图片标注推荐方法

技术领域

本发明属于数据挖掘技术领域，特别涉及了一种基于频繁项目集的图片标注推荐方法。

背景技术

机器视觉系统在训练过程中，需要通过识别已经标注好的样本来逐步提高机器视觉系统识别图片的准确性，这样就需要提前准备海量已经标注好的训练样本图片。传统的制作训练样本的方法是集中一部分人，以人工方式对图片标签化，这种方式不仅效率低，而且因为每个人具备的专业知识不一样，导致标注的质量参差不齐。现有的图片标注系统如LabelImg、BBox-Label-Tool等仅支持单个用户对图片进行标注，但不能根据用户的专业知识背景对图片进行分发，因此需要一个智能系统能够让大量的图片得到快速、准确地标注。

数据挖掘是一种从大型数据库或数据仓库中发现并提取出隐藏在其中有用信息的一种新技术。它自动从数据中提取出人们感兴趣的潜在可用信息和知识，并将提取出来的信息和知识表示成概念、规则、规律或模式。自从Agrawal等人于1993年提出频繁模式挖掘问题以来，已经提出了许多行之有效的技术来进行频繁模式挖掘。根据挖掘的目标和应用领域的不同，这些挖掘方法可以分为两大类：产生候选集/候选模式的方法和不产生候选集/候选模式的方法。前一种方法以算法Apriori为代表，而后一种以算法FP-growth为代表。FP-growth算法不同于Apriori算法生成候选项集再检验是否频繁的“产生-测试”方法，而是使用一种称为频繁模式树(FP-tree)的紧凑数据结构组织数据，并直接从该结构中提取频繁项目集。FP-growth算法将事务数据库有效地压缩成小存储空间的数据结构，克服了Apriori算法中多次扫描事务数据库的缺陷，只需对事务数据库进行二次扫描，将发现长频繁模式的问题转化递归模式增长的策略，避免产生的大量候选集，大大降低了算法的时间复杂度。

发明内容

为了解决现有技术中海量图片标注过程中效率、标注准确度差等问题，本发明提供了一种基于频繁项目集的图片标注推荐方法，提升了图片标注的速度和准确度。

为了实现上述技术目的，本发明的技术方案为：

一种基于频繁项目集的图片标注推荐方法，包括如下步骤：

(1)当新用户首次登录时，因为该新用户没有历史标签，所以将随机向其推送无标签的图片；

(2)当用户拥有历史标签后，获取系统中所有标签构成项目集合L；获取每个用户的历史标签构成事务数据库D，事务数据库D中的每一个事务都与唯一的一个用户对应；

(3)采用频繁模式增长算法构建频繁模式树，并从频繁模式树中获取频繁项目集；

(4)每当用户有新的图片标注请求时，系统便会在频繁项目集中查找，选择用户感兴趣的图片；

(5)当用户标记过一张图片后，立即判断这张图片是否完成标注，即是否这张图片的标签数目满足一阈值v且按频数排序后前N项标签的频数同时满足一阈值w；若完成标注，则该图片标记为已完成，将标注完成的图片导出，且在查找图片阶段不再推送该图片。

进一步地，步骤(3)中构建频繁模式树的具体过程如下：

(301)扫描事务数据库D，过滤掉所有不满足最小支持度的标签，认为这些标签是不频繁的，不参与频繁模式树的建立；对于满足最小支持度的标签，按照全局支持度降序排序；一个标签的全局支持度被定义为扫描事务数据库D中包含该标签的记录所占的比例；

(302)为了快速访问频繁模式树中的相同标签，在扫描事务数据库D的同时建立一个连接具有相同标签的结点的指针列表，每个列表元素包括标签项、该标签的全局支持度和指向频繁模式树中该项链表的表头的指针；

(303)再次扫描过滤后的事务数据库D；创建频繁模式树根结点，将频繁模式树的结点定义为标签、频数、父结点和子结点集；然后将排序后的每个标签项插入频繁模式树中，并将用户的职业信息作为一个虚拟的标签加在末尾；如果某个标签项是第一次遇到，则创建新结点，并在指针列表中添加一个指向该结点的指针，否则按路径找到该标签对应的结点，修改结点信息；

(304)当所有标签加入频繁模式树后，建树过程结束。

进一步地，步骤(3)中获取频繁项目集的具体过程如下：

(311)从频繁模式树头指针列表中的单个频繁标签开始，对于每一个标签，获得其对应的条件模式基，即该标签的前缀路径中所有的标签的集合；由于在树的结点定义中有父结点及指向该结点的指针，因此遍历头指针列表，向上回溯到根结点，构造前缀路径；

(312)根据每一标签项的条件模式基和最小支持度的要求构造每一标签项的条件模式树，发掘频繁项目集，并将频繁项目集存入事务数据库D中。

进一步地，步骤(4)的具体过程如下：

(401)计算频繁项目集与用户历史标签集合的重合度val，找出重合度val大于设定阈值r的全部频繁项目集组成集合I，并对集合I进行扩充，使集合I中图片的数量达到设定值leastNum，把扩充后的集合定义为集合I-extend；

(402)当拥有了数量M的已标注图片后，用这些图片构建一个稀疏自编码神经网络，通过该神经网络学习集合I-extend中的图片作为特征向量x，学习用户标注过的图片作为特征向量y；

(403)判断是否存在已构建成功的稀疏自编码神经网络，若存在，则转入步骤(404)；若不存在，则将集合I-extend中的图片推荐给用户；

(404)计算特征向量x与特征向量y的相似度S_xy，若相似度大于设定阈值u，则将此频繁项目集推荐给用户，反之则不推荐。

进一步地，在步骤(401)中，优先随机选择没有标签的图片对集合I扩充；按下式计算重合度val：

val＝F(setA,setB)

上式中，setA为当前频繁项目集，setB为用户历史标签集合，F定义如下：

设集合A中与集合B中相同的元素数目为X，A中有而B中没有的元素数目为Y，B中有而A中没有的元素数目为Z，则F(A,B)＝X+Y–Z。

进一步地，所述稀疏自编码神经网络分为三层：输入层，隐藏层和输出层；对于集合I-extend，把集合I-extend中的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量x；对于用户标注过的图片，把用户一段时间内标注过的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量y；每当增加了数量M的已标注图片后对稀疏自编码神经网络进行更新。

进一步地，在步骤(404)中，按下式计算相似度S_xy；

上式中，x_j和y_j分别为特征向量x和特征向量y中的第j个特征，p为特征个数。

采用上述技术方案带来的有益效果：

本发明直接将频繁项目集存放到数据库中，避免多次计算。同时，每隔一段时间在机器空闲时重建频繁项目集，实现推荐的动态更新。当第一批图片标注完成后首次构建稀疏自编码神经网络，此后每当有一批图片标注完成时便更新稀疏自编码神经网络，实现推荐的动态更新。在过滤及重排后的项目中，将用户的职业信息作为一个虚拟的标签加在最后，以发掘出用户喜好的标签与用户职业的关联。

附图说明

图1是本发明的方法流程图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明设计了一种基于频繁项目集的图片标注推荐算法，如图1所示，包括如下步骤：

步骤1：当一个新用户首次登录时，因为其没有历史标签，所以将随机推送无标签的图片。

步骤2：获取系统中所有标签构成项目集合L＝{l1,l2,l3,…,ln}，n为所有标签的个数。获取每个用户的历史标签构成事务数据库D＝{d1,d2,…,dm}，m为事务的个数，其中每一个事务di都与一个唯一的用户对应。

步骤3：构建频繁模式树。其例子如下：

在该任务中，事务的ID为用户，事务中的项为标签记录。以小写字母代替具体的标签。设有以下用户和对应事务：USER01＝{r,z,h,j,p}、USRER02＝{z,y,x,w,v,u,t,s}、USER03＝{z}、USER04＝{r,x,n,o,s}、USER05＝{y,r,x,z,q,t,p}、USER06＝{y,z,x,e,q,s,t,m}。设最小支持度为3，将出现次数小于最小支持度的项删除，并根据元素项出现的次数，对元素项进行过滤重排。则过滤重排后的用户和对应事务为：USER01＝{z,r}、USRER02＝{z,x,y,s,t}、USER03＝{z}、USER04＝{x,s,r}、USER05＝{z,x,y,r,t}、USER06＝{z,x,y,s,t}。

扫描事务数据库，由于h，j，p的出现次数小于3，认为这些项是不频繁的，因此不参与频繁模式树的构建。频繁模式树的构造过程为：创建频繁模式树根结点，标记为NULL，将USER01过滤后的事务按顺序添加在根结点下方{[Z:1][R:1]}，同时创建指针列表；然后继续添加USER02过滤后的事务，并将重复的Z改为[Z:2]，相应的指针列表也要增加，依次将6个用户全部添加进去，建树过程结束。

步骤4：从频繁模式树中获取频繁项目集。频繁项目集是指经常出现在一块儿的标签的集合。其例子如下：

首先根据保存在头指针中的单个频繁元素项开始，对于每一个元素项，获得其对应的条件模式基。每一个频繁项的前缀路径为：z：{}、r：{{x,s}1,{z,x,y}1,{z}1}、x{{z}3,{}1}、y：{{z,x}3}、s：{{z,x,y}2,{x}1}、t：{{z,x,y}2,{x}1}。

每一项的条件模式基构造完毕后，构造每一项的条件模式树。如为t建立条件模式树，根据最小支持度3，删除s,r。s,r出现在条件模式基中，说明s,r本身是频繁的，但是不满足最小支持度，因此认为{t,s},{t,r}是不频繁的。{t,z,x,y}被认为是频繁的。按照以上步骤，递归所有频繁项建立条件频繁模式树，发掘频繁项目集。在处理完成之后，将频繁项目集存入数据库中供以后查找使用。

步骤5：每当用户有新的图片标注请求时，系统便会在频繁项目集中查找，选择用户可能感兴趣的图片。其过程如下：

(1)通过下式计算频繁项目集与用户历史标签集合的重合度，找出大于设定阈值r的全部频繁项目集组成集合I，并对集合I进行扩充得到集合I-extend，使集合I-extend中图片的数量达到值leastNum，优先随机选择没有标签的图片。

val＝F(setA,setB)

其中setA为当前频繁项目集，setB为用户历史标签集合，F定义为：

设集合A中与集合B中相同的元素数目为X，A中有而B中没有的元素数目为Y，B中有而A中没有的元素数目为Z，F(A,B)＝X+Y–Z。因X+Y为一个定值，则val的值越大，说明此频繁项目集与当前用户的兴趣或职业越相似；反之val的值越小，说明此频繁项目集与当前用户的兴趣或职业越迥异。

(2)稀疏自编码神经网络分为三层：输入层，隐藏层和输出层；对于集合I-extend，把集合I-extend中的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量x；对于用户标注过的图片，把用户一段时间内标注过的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量y；每当增加了数量M的已标注图片后对稀疏自编码神经网络进行更新。

(3)判断是否存在已构建成功的稀疏自编码神经网络，若存在，则转入第(4)步；若不存在，则将集合I-extend中的图片推荐给用户。

(4)为了使推荐的图片更能让用户产生兴趣，本发明增加了稀疏自编码神经网络来计算特征向量x与特征向量y的相似度，若大于设定阈值u，说明这个频繁项目集更贴合于用户的职业和兴趣，则将这个频繁项目集推荐给用户，反之则不推荐。其相似度计算如下：

其中，x_j和y_j分别为特征向量x和特征向量y中的第j个特征；p为特征个数。

步骤6：当用户标记过一张图片后，立即判断这张图片是否完成标注，即这张图片的标签数目满足一阈值且按频数排序后前N项标签的频数同时满足一阈值。若完成标注，则标记为已完成，并把标注完成的图片导出，且在查找图片阶段不在推送。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于频繁项目集的图片标注推荐方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于频繁项目集的图片推荐方法，其特征在于，步骤(3)中构建频繁模式树的具体过程如下：

(304)当所有标签加入频繁模式树后，建树过程结束。

3.根据权利要求2所述基于频繁项目集的图片推荐方法，其特征在于，步骤(3)中获取频繁项目集的具体过程如下：

4.根据权利要求1所述基于频繁项目集的图片推荐方法，其特征在于，步骤(4)的具体过程如下：

(402)当拥有了数量M的已标注图片后，用这些图片构建一个稀疏自编码神经网络，通过该神经网络学习集合I-extend的图片作为特征向量x，学习用户标注过的图片作为特征向量y；

5.根据权利要求4所述基于频繁项目集的图片推荐方法，其特征在于，在步骤(401)中，优先随机选择没有标签的图片对集合I扩充；按下式计算重合度val：

val＝F(setA,setB)

6.根据权利要求4所述基于频繁项目集的图片推荐方法，其特征在于，所述稀疏自编码神经网络分为三层：输入层，隐藏层和输出层；对于集合I-extend，把集合I-extend中的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量x；对于用户标注过的图片，把用户一段时间内标注过的图片作为稀疏自编码神经网络的输入，将隐藏层的输出作为特征向量y；每当增加了数量M的已标注图片后对稀疏自编码神经网络进行更新。

7.根据权利要求4所述基于频繁项目集的图片推荐方法，其特征在于，在步骤(404)中，按下式计算相似度S_xy；