CN107038215A

CN107038215A - 一种从m部图中得到极大完全子图的数据库搜索方法

Info

Publication number: CN107038215A
Application number: CN201710132397.3A
Authority: CN
Inventors: 殷永; 李越
Original assignee: Netposa Technologies Ltd
Current assignee: Netposa Technologies Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2017-08-11
Anticipated expiration: 2037-03-07
Also published as: CN107038215B

Abstract

本发明提供一种从m部图中得到极大完全子图的数据库搜索方法，所述搜索方法应用于从人脸识别数据库，所述方法通过建立无向图模型，构成一个k阶极大完全子图，并通过邻接链表来存储无向图G，以正序边和最大顶点为基本量，通过剪枝法对无向图G的顶点数和k阶完全子图的计算量T_k进行计算，从而得到该极大完全子图的空间复杂度和时间复杂度，完成对极大完全子图的搜索，并将搜索结果用于人脸识别数据中，通过寻找频繁项集，大幅减少对数据库的访问，提高识别效率。

Description

一种从m部图中得到极大完全子图的数据库搜索方法

技术领域

本发明属于人脸研判分析系统技术领域，具体涉及一种从m部图中得到极大完全子图的数据库搜索方法。

背景技术

极大完全子图有着十分广泛的应用。在管理决策方面，一些管理事物问题如人员管理、运输调度等均可抽象为求解极大完全子图问题。在数据挖掘方面，关联规则的挖掘是数据挖掘研究的重要内容之一，利用极大完全子图来寻找频繁项集，可以在很大程度上减少对数据库的访问，提高CPU的利用率。

最大完全子图问题是一个著名的组合优化问题，它也是最早被证明的NP-完全问题之一。由于理论研究及应用的需要，人们致力于寻找一些可行的算法。总体上分为两类：一类是求解最大完全子图的确定性算法，如上个世纪80年代提出的深度优先列举算法。另一类是求解最大完全子图的启发式算法，如顺序贪婪启发式算法。这些算法无论是确定性算法还是启发式方法，其寻找完全子图的过程大部分都是先寻找极大完全子图集，再从中找出顶点个数最多的作为最大完全子图。因此，研究有效的极大完全子图算法既具有理论意义也具有应用价值。

重庆大学计算机学院和东北大学机械工程与自动化学院的郭平、康艳荣、史晓晨于2006年在计算机科学学报上发表论文《基于最大Code码的极大完全子图搜索算法》。论文中提出了一种寻找图的极大完全子图的FMCSG算法，该算法基于逆导出子图概念，首选将图分解成若干个逆导出子图，然后找出每个逆导出子图的所有极大完全子图，从而得到原图的所有极大完全子图。该算法用邻接矩阵表示图，在寻找极大完全子图时根据得到的code码及时减掉非极大code码的子矩阵，从而减少对矩阵的遍历次数，提高了算法的效率。

云南师范大学信息学院的时燕和张玉琢与2016年在电脑知识与技术学报上发表论文《一种改进的极大完全子图挖掘算法》。论文主要是针对郭平等人提出的FMCSG算法进行了改进，并设计了相关的数据结构，提升了算法的运行效率。其核心操作是在由阶矩阵生成阶矩阵时，依据一定的规则，避免一些不必要的判断操作。

现有的极大完全子图搜索算法的研究对象都是普通图，这类算法的时间复杂度和空间复杂度都比较高。比如，当图的顶点个数为n时，基于最大Code码的极大完全子图搜索算法的时间复杂度为T(n)＝T(n-1)*T(n-1)+O(n²)，空间复杂度为O(n²)。改进的极大完全子图挖掘算法虽然做了一些优化，但是时间复杂度和空间复杂度的量级并没有改变。本发明针对一种比较特殊的图—m部图提出了搜索其所有的k(3≤k≤m)阶极大完全子图的算法。m部图不同于普通图之处在于它的所有顶点可以划分为多个集合，任意一条边的两个顶点都是来自于不同的集合。

轨迹查人功能是指用户在地图上通过标注多个点位操作或者多次框选区域操作勾画出一条运动轨迹，系统可找出运动轨迹和指定轨迹具有一定吻合度的人员及其对应的活动详情，同时计算出每个人员的运动轨迹与指定轨迹的吻合度。此功能主要用于刑侦、科研以及一些安全领域，用户只需要掌握一个大概的时间范围和目标人物的活动轨迹，即可通过软件的智能分析将目标人员从海量人脸照片数据中挖掘出来。

运动轨迹上的每一个节点对应现实场景中的一个区域，每个区域架设数量不等的人脸相机。在一定时间范围内，每个区域的人脸相机都会采集到很多数量的人脸照片。分别从多个不同的区域中按照时间先后顺序拿出多张人脸照片，若它们是同一个人的照片，我们就找到了活动轨迹与指定轨迹具有一定吻合度的人员。由于人脸比对之间总会存在一些误差，所以比较合理的做法就是：若多张人脸照片两两相似度较高，就认为它们是同一个人的照片。

根据传统数据分析经验，大多数领域内的类似功能只需将给定条件转换成相应的数据库查询语句去数据库进行查询操作，然后对结果集分组并计算每组数据数量即可。此方式也是目前软件市场上最常见的一种实现方式。但其并不适用于人脸识别.传统数据分析方式应用于人脸分析领域的话，会有以下的不足之处：

1.城市相机每分每秒都在产生大量的人脸照片，当数据量增长到一定程度时，基于关系型数据库做查询的传统数据分析方式将不能满足查询性能要求。

2.人脸照片通过特征提取后得到的数据只有一些二进制特征文件，在这些数据中并没有一个标识/标签足以判别两条或多条特征文件对应的是同一个人。这将导致查询结果集无法按人进行分组操作。

3.传统的数据分析方式在功能核心步骤(如：如何确定多张照片为同一个人)的研判规则制定上大多依赖头脑风暴，导致研判结果质量不稳定。

4.传统的数据分析方式大多由一些基本的统计分析操作(累加、平均、分组、条件过滤等)组合而成，而人脸数据只是一些图片以及从这些图片中识别出来的非结构化特征数据，传统的数据统计分析操作无法在非结构化数据上应用.

发明内容

为了解决上述问题，本发明提供一种从m部图中得到极大完全子图的数据库搜索方法，所述搜索方法应用于从人脸识别数据库，所述方法通过建立无向图模型，构成一个k阶极大完全子图，并通过邻接链表来存储无向图G，以正序边和最大顶点为基本量，通过剪枝法对无向图G的顶点数和k阶完全子图的计算量T_k进行计算，从而得到该极大完全子图的空间复杂度和时间复杂度，完成对极大完全子图的搜索，并将搜索结果用于人脸识别数据中，通过寻找频繁项集，大幅减少对数据库的访问，提高识别效率；

进一步地，所述方法包括：

S1：构建无向图模型G，其中，G＝(V,E)是m部无向图，V表示顶点的集合，E表示边的集合；

S2：对m部图进行遍历，获取k阶完全子图；

S3：找出S2中每个k阶完全子图的最大顶点；

S4：遍历与最大顶点有边相连的顶点集合S；

S5：判断S力的每个顶点U是否与k阶图内其他顶点均有边相连，如果有，进行S6，如果无，进行S7；

S6：k阶完全子图与U合并生成k+1阶完全子图，判断k是否与m相同，如果相同，终止，如果不同，则k＝k+1，以U作为最大顶点继续遍历操作，进行S4；

S7：无法扩展，该无向图最大为N阶完全子图；

S8：通过顶点集合V，边的集合E和数组Adj三个数据，对S6和S7中获得的N阶完全子图或k阶完全子图进行伪代码换算；

S9:对S8中换算的结果，进行算法的时间复杂度和空间复杂度计算；

S10：将S9中的搜索结果代入人脸识别数据库；

S11：通过寻找人脸数据库中的频繁项集，减少对数据库的访问，完成人脸识别过程；

进一步地，所述S1中构建无向图模型G时，为了简化问题，设置每个顶点集合的顶点数目都为num，图G中对应每个区域的顶点集合分别记为V_i,i＝1,2,...,m，则V＝{u:u∈V_i,i＝1,2,...,m}，E＝{(u,v):u∈V_i,v∈V_j,i≠j,i,j＝1,2,...,m}；

进一步地，所述S1中无向图G通过邻接链表进行存储，所述邻接链表为多条链表构成的数组，记为Adj，链表中存储正序边的链接关系，对于每一个节点u∈V，邻接链表Adj[u]包含所有与顶点u之间且构成正序边(u,v)的结点v；

进一步地，所述S8中伪代码换算具体为：

S81：k＝3，每条边(u,v)∈G.E，每个顶点x∈G.Adj[v]；

S82：令x∈G.Adj[u]，将{u,v,x}插入到表示k阶极大完全子图的集合；

S83：令k＝4:m，每一个v为A_k-1中的最大顶点，每一个x∈G.Adj[v]；

S84：令x∈G.Adj[A_k]，则v与A_k-1中的每一个顶点都相连；

S85：将A_k-1∪{x}插入到并从中删除A_k-1；

进一步地，所述时间复杂度和空间复杂度计算方法如下：S91：假设对于第k(1≤k＜m)个顶点集合中的顶点，在下标大于k每一个顶点集合中，与它有边相连的顶点的个数为常数c；

S92：假设所有的k-1阶完全图的个数是k阶完全图的k倍，且m阶完全图的个数为1，则k阶完全图的个数应该为

S93：由于最大顶点最多来自m-k+1个不同的顶点集合，则与所有最大顶点有边相连的顶点个数最多为：

S94：计算k阶完全子图的计算量：

S95：计算时间复杂度：

S96：计算空间复杂度：S＝|E|＝c*num*(m-1)＝O(num*m)；

进一步地，所述S95中，若图的顶点个数为n，则T＝O(n*m²),S＝O(n),m＜＜n；

进一步地，所述S11中所述方法适用于FERET人脸数据库、CMU-PIE人脸数据库、YALE人脸数据库、YALE人脸数据库、BMIT人脸数据库或BioID人脸数据库；

本发明通过剪枝法，使得由阶完全子图生成阶完全子图的过程中时避免了许多不必要的遍历操作，从而减少了算法的时间复杂度。并采用邻接链表来存储无向图，而不是一般算法所采用的邻接矩阵表示法，最大程度地节省了存储空间，通过将搜索结果用于人脸识别数据中，通过寻找频繁项集，大幅减少对数据库的访问，提高识别效率。

附图说明

图1为本发明所述方法的部分流程图；

图2为本发明所述算法m部无向图；

图3为本发明所述方法在人脸识别应用过程的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

本发明提供一种从m部图中得到极大完全子图的数据库搜索方法，所述方法通过建立无向图模型，构成一个k阶极大完全子图，并通过邻接链表来存储无向图G，以正序边和最大顶点为基本量，通过剪枝法对无向图G的顶点数和k阶完全子图的计算量T_k进行计算，从而得到该极大完全子图的空间复杂度和时间复杂度，完成对极大完全子图的搜索。

所述方法包括：

S2：对m部图进行遍历，获取k阶完全子图；

S3：找出S2中每个k阶完全子图的最大顶点；

S4：遍历与最大顶点有边相连的顶点集合S；

S7：无法扩展，该无向图最大为N阶完全子图；

S10：将S9中的搜索结果代入人脸识别数据库；

S11：通过寻找人脸数据库中的频繁项集，减少对数据库的访问，完成人脸识别过程。

所述S1中构建无向图模型G时，为了简化问题，设置每个顶点集合的顶点数目都为num，图G中对应每个区域的顶点集合分别记为V_i,i＝1,2,...,m，则V＝{u:u∈V_i,i＝1,2,...,m}，E＝{(u,v):u∈V_i,v∈V_j,i≠j,i,j＝1,2,...,m}。

所述S1中无向图G通过邻接链表进行存储，所述邻接链表为多条链表构成的数组，记为Adj，链表中存储正序边的链接关系，对于每一个节点u∈V，邻接链表Adj[u]包含所有与顶点u之间且构成正序边(u,v)的结点v。

所述S8中伪代码换算方法为：

S81：k＝3，每条边(u,v)∈G.E，每个顶点x∈G.Adj[v]；

S84：令x∈G.Adj[A_k]，则v与A_k-1中的每一个顶点都相连；

S85：将A_k-1∪{x}插入到并从中删除A_k-1。

所述时间复杂度和空间复杂度计算方法如下：

S91：假设对于第k(1≤k＜m)个顶点集合中的顶点，在下标大于k每一个顶点集合中，与它有边相连的顶点的个数为常数c；

S94：计算k阶完全子图的计算量：

S95：计算时间复杂度：

S96：计算空间复杂度：S＝|E|＝c*num*(m-1)＝O(num*m)。

S95中，若图的顶点个数为n，则T＝O(n*m²),S＝O(n),m＜＜n。

所述S11中所述方法适用于FERET人脸数据库、CMU-PIE人脸数据库、YALE人脸数据库、YALE人脸数据库、BMIT人脸数据库或BioID人脸数据库。

如图1-图3所示，G＝(V,E)是m部无向图，V表示顶点的集合，E表示边的集合。为了简化问题，不妨假设每个顶点集合的顶点数目都为num。图G中对应每个区域的顶点集合分别记为V_i,i＝1,2,...,m。那么V＝{u:u∈V_i,i＝1,2,...,m}，E＝{(u,v):u∈V_i,v∈V_j,i≠j,i,j＝1,2,...,m}。如图2所示。

其中，{v₂₁,v₃₂,v₄₂}构成一个3阶极大完全子图，{v₁₂,v₂₃,v₃₃,v₄₄}构成一个4阶极大完全子图，{v₁₅,v₂₅,v₃₁,v₄₄,v₅₄}构成一个5阶极大完全子图。本发明的实现流程图如图1所示。容易看出，k阶完全图可以由k-1阶完全子图扩展得到，只需要在剩余的顶点集合中找到与这k-1个顶点都有边相连的顶点即可。为了便于算法实现，可采用邻接链表来存储无向图G，它是由多条链表构成的数组，记为Adj。由于图G的特殊性，链表中只存储正序边的链接关系即可。也就是说，对于每一个节点u∈V，邻接链表Adj[u]包含所有与顶点u之间且构成正序边(u,v)的结点v。

我们将顶点集合V，边的集合E和数组Adj都看作图G的一个属性，下面给出极大完全子图搜索算法的伪代码：

不妨假设对于第k(1≤k＜m)个顶点集合中的顶点，在下标大于k每一个顶点集合中，与它有边相连的顶点的个数为常数c。图G的顶点数|V|＝num*m，边数|E|＝c*num*(m-1)。实际情况下，由多个k阶完全图拆分出来的k-1阶完全图常常会有重复的情况发生，不失一般性，可以假设所有的k-1阶完全图的个数是k阶完全图的k倍，且m阶完全图的个数为1，那么k阶完全图的个数应该为

可以看出，找寻图G的所有极大完全子图的过程实际上就是找寻其所有的完全子图的过程。找寻k阶完全图的时候，对于所有的k-1阶完全子图，最大顶点最多来自m-k+1个不同的顶点集合，则与所有最大顶点有边相连的顶点个数最多为找寻k阶完全子图的计算量时间复杂度邻接链表中存储所有的边，则空间复杂度S＝|E|＝c*num*(m-1)＝O(num*m)。可以看出，若图G的顶点个数为n，那么T＝O(n*m²),S＝O(n),m＜＜n。

在计算完极大完全子图的空间复杂度和时间复杂度后，将搜索结果用于人脸识别数据中，通过寻找频繁项集，大幅减少对数据库的访问，提高识别效率，本发明中所述极大完全子图的空间复杂度和时间复杂度的搜索结果可以应用于FERET人脸数据库、CMU-PIE人脸数据库、YALE人脸数据库、YALE人脸数据库B、MIT人脸数据库以及BioID人脸数据库中的数据检索。

如图3所示，本发明将极大完全子图的概念引入到人脸照片关系挖掘领域中，首先得到不同区域人脸照片之间的相似关系图(以m部无向图G来表示)，并通过一些优化算法大幅减少了人脸照片之间的比对计算量，使得人脸研判相关功能的计算性能得到了大幅提升。然后给出不同区域的人脸照片是同一个人的判定规则：这些人脸照片两两相似度大于给定相似度阈值，即对应的多个顶点构成图G的极大完全子图。最后通过寻找图G中的所有极大完全子图来找出运动轨迹和指定轨迹比较吻合的人员，为刑侦、科研、公共安全等领域提供了基于人脸照片数据的研判工具，同时也提升了城市相机的使用价值。同时本发明提出了正序边和最大顶点概念，运用了剪枝法，避免了不必要的遍历操作，本发明通过剪枝法，使得由k阶完全子图生成k+1阶完全子图的过程中时避免了许多不必要的遍历操作，从而减少了算法的时间复杂度。并采用邻接链表来存储无向图，而不是一般算法所采用的邻接矩阵表示法，最大程度地节省了存储空间，本发明中需要对每一个k阶图的最大顶点，遍历与它有边相连的其它顶点。采用邻接表来存储图结构，可以避免遍历那些不与最大顶点相连的顶点，减少了遍历次数，也节省了存储空间。为了达到同样的效果，也可以采用稀疏邻接矩阵来存储图结构，即只在图的邻接矩阵中存储那些正序边关系。

另，提供部分本申请中术语解释：

m部图：若一个图G＝(V,E)的所有顶点可以划分为m个不同的集合，分别记为V_i,i＝1,2,...,m。且对于任意一条边(u,v)∈E，都有u∈V_i,v∈V_j,i≠j。那么称图G为m部图。

完全图：若一个图G＝(V,E)的每一对不同顶点恰有一条边相连，则称图G为完全图。k个顶点构成的完全图称为k阶完全图。

极大完全子图：对于图G＝(V,E)，若G'＝(V',E')，任意的u,v∈V'，有(u,v)∈E，则称G'为G的完全子图。若G'和任意一个顶点都不能构成G的更高阶的完全子图，则称G'为G的极大完全子图。

正序边：对于m部图G＝(V,E)中的某一条边(u,v)，若u∈V_i,v∈V_j且i＞j，则称这条边为正序边。

最大顶点：一个图中所属顶点集合下标最大的顶点称为这个图的最大顶点。

邻接矩阵：邻接矩阵表示顶点之间相邻关系的矩阵。设G＝(V,E)是一个图，其中V＝{V₁,V₂,...V_n}，记图G的邻接矩阵为L。若(V_i,V_j)∈E,i≠j，那么L_ij＝1，否则L_ij＝0，且L_ii＝0，1≤i,j≤n。

邻接链表：邻接链表是一个链表数组。设G＝(V,E)是一个图，其中V＝{V₁,V₂,...V_n}。第i(1≤i≤n)个链表以V_i为头结点，后面的结点都是与V_i有边相连的结点。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种从m部图中得到极大完全子图的数据库搜索方法，所述搜索方法应用于从人脸识别数据库，其特征在于，所述方法通过建立无向图模型，构成一个k阶极大完全子图，并通过邻接链表来存储无向图G，以正序边和最大顶点为基本量，通过剪枝法对无向图G的顶点数和k阶完全子图的计算量T_k进行计算，从而得到该极大完全子图的空间复杂度和时间复杂度，完成对极大完全子图的搜索，并将搜索结果用于人脸识别数据中，通过寻找频繁项集，大幅减少对数据库的访问，提高识别效率。

2.根据权利要求1所述的搜索方法，其特征在于，所述方法包括：

S2：对m部图进行遍历，获取k阶完全子图；

S3：找出S2中每个k阶完全子图的最大顶点；

S4：遍历与最大顶点有边相连的顶点集合S；

S5：判断S里的每个顶点U是否与k阶图内其他顶点均有边相连，如果有，进行S6，如果无，进行S7；

S7：无法扩展，该无向图最大为N阶完全子图；

S10：将S9中的搜索结果代入人脸识别数据库；

3.根据权利要求2所述的搜索方法，其特征在于，所述S1中构建无向图模型G时，为了简化问题，设置每个顶点集合的顶点数目都为num，图G中对应每个区域的顶点集合分别记为V_i,i＝1,2,...,m，则V＝{u:u∈V_i,i＝1,2,...,m}，E＝{(u,v):u∈V_i,v∈V_j,i≠j,i,j＝1,2,...,m}。

4.根据权利要求2所述的搜索方法，其特征在于，所述S1中无向图G通过邻接链表进行存储，所述邻接链表为多条链表构成的数组，记为Adj，链表中存储正序边的链接关系，对于每一个节点中u∈V，邻接链表Adj[u]包含所有与顶点u之间且构成正序边(u,v)的结点v。

5.根据权利要求2所述的搜索方法，其特征在于，所述S8中伪代码换算方法为：

S81：k＝3，每条边(u,v)∈G.E，每个顶点x∈G.Adj[v]；

S84：令x∈G.Adj[A_k]，则v与A_k-1中的每一个顶点都相连；

S85：将A_k-1∪{x}插入到并从中删除A_k-1。

6.根据权利要求2所述的搜索方法，其特征在于，所述时间复杂度和空间复杂度计算方法如下：

S94：计算k阶完全子图的计算量：

S95：计算时间复杂度：

S96：计算空间复杂度：S＝|E|＝c*num*(m-1)＝O(num*m)。

7.根据权利要求6所述的搜索方法，其特征在于，所述S95中，若图的顶点个数为n，则T＝O(n*m²),S＝O(n),m＜＜n。

8.根据权利要求2所述的搜索方法，其特征在于，所述S11中所述方法适用于FERET人脸数据库、CMU-PIE人脸数据库、YALE人脸数据库、YALE人脸数据库、B MIT人脸数据库或BioID人脸数据库。