CN103336970B - 基于多子树的分布式图像训练及检索方法 - Google Patents

基于多子树的分布式图像训练及检索方法 Download PDF

Info

Publication number
CN103336970B
CN103336970B CN201310242854.6A CN201310242854A CN103336970B CN 103336970 B CN103336970 B CN 103336970B CN 201310242854 A CN201310242854 A CN 201310242854A CN 103336970 B CN103336970 B CN 103336970B
Authority
CN
China
Prior art keywords
node
training
image
cluster
subtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310242854.6A
Other languages
English (en)
Other versions
CN103336970A (zh
Inventor
段翰聪
闵革勇
李林
聂晓文
张建
邹浩
彭玉炳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310242854.6A priority Critical patent/CN103336970B/zh
Publication of CN103336970A publication Critical patent/CN103336970A/zh
Application granted granted Critical
Publication of CN103336970B publication Critical patent/CN103336970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

基于多子树的分布式图像训练方法,包括如下步骤:步骤1.计算节点选取初始聚类中心点并聚类,将聚类后新的聚类中心点分发至各计算节点;步骤2.每一计算节点以某个聚类中心点作为任务子树生长点,训练任务子树;基于多子树的分布式图像训练及检索方法,还包括步骤3.对待检索图像提取特征点;将特征点按照聚类中心点归属发送至对应的计算节点;步骤4.计算节点利用任务子树进行处理并将结果发送至管理节点,管理节点汇总各计算节点计算结果得到图像检索结果。本发明将一棵词汇树的训练任务切割成多棵子树的训练任务,让多个计算节点独立并行处理,可以容纳更大的图像训练集,扩展性强,同时减少了图像训练及检索过程的时间开销。

Description

基于多子树的分布式图像训练及检索方法
技术领域
本发明属于计算机软件领域,涉及图像处理技术,具体涉及一种基于多子树的分布式图像训练及检索方法。
背景技术
分布式计算是利用多个计算节点将需要巨大计算能力的任务,将其分割成多个小的任务分发给多个计算节点,让它们并行处理,然后将结果汇总的数据处理过程。所谓计算节点,可以是多台计算机,服务器,也可以是一台计算机中同时运行的多个软件程序。
图像检索是将待识别图像与一个包含多个对比图像的对比图像库,即训练集中的每一幅对比图像进行比较,找出训练集中与待识别图像中相似度最高的对比图像。
由于图像中存在背景干扰、不规则物体形变、尺度大小或视角的不同和光照变化等,图像匹配的精确度会受到这些因素的影响。相比于基于内容的匹配技术,基于特征的匹配技术,由于其对尺度缩放、视角旋转、光照变化等因素保持良好的不变性,所以匹配结果较好。现有的方案是集中式的基于词汇树的策略,例如中国专利CN201210422998.5就是一种基于词汇树的图像处理方式,使用底层特征和语义主题映射进行检索,并利用反馈方式对图像进一步验证,提高了识别精度。
包括上述公开文件的现有的词汇树图像处理技术为了在大规模图像训练集中获得较好的匹配精确度,需要生成一棵巨大的词汇树,对前述的计算节点的硬件内存开销是个很大的考验,同时生成一棵巨大的词汇树所需要的时间较长。
发明内容
为克服传统图像识别技术中对计算节点的硬件内存要求性能高,同时所需时间较长的技术缺陷,本发明公开了一种基于多子树的分布式图像训练及检索方法。
本发明所述基于多子树的分布式图像训练方法,包括如下步骤:
步骤1.计算节点选取k个初始聚类中心点,执行第一层聚类,得到k个新的聚类中心点,并将聚类中心点信息首先发送至管理节点,管理节点将聚类中心点信息分发至多个计算节点;
步骤2.每一计算节点以每个聚类中心点作为任务子树生长点,各计算节点独立训练其任务子树;
优选的,所述步骤1采用K-means算法对特征点进行聚类,图像的特征点计算采用SURF算法计算。
进一步的,所述步骤1中对单个聚类中所有特征点的同维向量求均值,各个同维均值组合得到该聚类的聚类中心点。
优选的,所述步骤1中管理节点将聚类中心点发送至当前状态下计算任务最少的计算节点。
优选的,所述步骤2中计算节点根据深度优先原则训练任务子树。
优选的,所述步骤2中还包括对每一任务子树定义数据入口的步骤。
具体的,所述步骤2中训练任务子树的方法为:计算节点将训练集中全部图像提取出特征点;对全部训练图像的特征点按照步骤1中所述第一层聚类得到的聚类中心点进行分类,然后对本次聚类任务的分类按照深度优先原则训练子树,直至任务子树达到预设高度。
基于多子树的分布式图像训练及检索方法,包括如前所述的步骤1和步骤2,还包括如下后续步骤:
步骤3.管理节点对待检图像进行特征点计算并按照步骤1中得到的聚类中心点进行聚类;并将分类后的待检图像的特征点按照聚类中心点归属发送至对应的计算节点;
步骤4. 计算节点对待检图像特征点利用任务子树进行处理并将结果发送至管理节点,管理节点汇总各个计算节点的判断结果,判断在训练集中与待识别图像的最接近的对比图像。
所述步骤4可以具体为:
步骤401. 计算节点根据步骤2中生成的任务子树进行查询,获得待检图像特征点的倒排索引。
步骤402.该计算节点将所有分配到的待检图像特征点的查询任务都完成后,将累加的倒排索引发送给管理节点。
步骤403管理节点将所有计算节点返回的倒排索引进行累加,权重最大的图像信息即为最接近对比图像
本发明提供了一套分布式多子树策略的图像训练及检索方法,将一棵词汇树的训练任务切割成多棵子树的训练任务,让多个计算节点独立并行处理,这样可以容纳更大的图像训练集,扩展性强,节点间交互少,同时减少了图像训练及检索过程的时间开销。
附图说明
图1示出本发明一种具体实施方式的流程示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
图1示出了本发明一种具体实施方式的示意图,在训练结束之前为任务子树的训练过程,训练结束之后为图像的检索过程。实现本发明的硬件包括多台互相联网的服务器,其中一台服务器作为管理节点,其余服务器作为计算节点。
本发明所述基于多子树的分布式图像训练方法,包括如下步骤:
步骤1.计算节点选取k个初始聚类中心点,执行第一层聚类,得到k个新的聚类中心点,并将聚类中心点信息首先发送至管理节点,管理节点将聚类中心点信息分发至多个计算节点;
步骤2.每一计算节点以每个聚类中心点作为任务子树生长点,各计算节点独立训练各子树;
步骤1中计算节点选取初始聚类中心点的过程是随机无规律的,得到的初始聚类中心点可能分布不均,因此需要进行第一层聚类以得到均匀分布的聚类中心点。
第一层聚类中,对聚类中心点的获取可以采用K-MEAN算法,K-means算法是一种经典的基于划分的聚类方法,它的基本思想是以空间中k个点为中心进行聚类,对最靠近这些中心的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。得到的聚类中心点作为聚类的依据。
聚类中心点的各个维度坐标是该聚类中全部特征点的对应维度坐标的算术平均值,根据这一原则,对训练集中全部对比图像的特征点进行聚类,训练集是作为对比参考的对比图像库,获得聚类点的计算节点将训练集中的全部对比图像找出特征点,并对特征点聚类,聚类的方式可以采用SURF 算法。SURF(speed-up robust features,即加速健壮特征)算法是应用于图像处理中的一种鲁棒性很强的算法,SURF算法 通过构建HESSIAN矩阵来寻找图像特征点,是一种尺度不变、旋转不变且性能较好算法。如前所述,得到的聚类应该满足聚类内的全部特征点的维度均值等于聚类中心点的对应维度坐标。例如对于采用N维定义的特征点聚类,对全部特征点的每一维度求取维度坐标平均值,则聚类中心点的N维坐标即为全部这些维度坐标平均值。
步骤1中的聚类中心点获取过程可以在管理节点完成,也可以由管理节点制定一个或多个计算节点完成,管理节点可以指定在指定负载最轻,任务最少的一个或多个计算节点完成。计算节点完成计算后,将聚类中心点发送到管理节点。
由于各个计算节点的计算任务独立并行完成,得到的聚类中心点很可能不尽相同,管理节点可以选择其中一个计算节点的结果作为后续步骤基础,例如选择第一个完成计算并将结果发送至管理节点的计算节点发送的计算结果。随后管理节点将聚类中心点逐个分发至各个计算节点,分发时选择计算节点的根据可以是分发时的计算节点负载情况,优先向负载最轻的计算节点分发聚类中心点。
分发到聚类中心点的计算节点以聚类中心点作为子树的生长点,以生长点为基础,管理节点在分发聚类中心点后,持续的将与聚类中心点对应的同一聚类内的全部特征点的匹配任务发送至对应的计算节点,训练任务子树。训练任务子树的步骤与现有的词汇树训练相同,例如可以采用单节点的k-means聚类方法计算得到各个子树。获得聚类中心点信息的各个计算节点将训练集中全部图像提取出特征点;对全部训练图像的特征点按照步骤1中所述第一层聚类得到的聚类中心点进行分类,然后对本次聚类任务的分类按照深度优先原则训练子树,直至任务子树达到预设高度。计算节点任务子树的预设高度是用户或软件操作人员根据计算节点的硬件性能,需要计算的数据量及对结果的精度要求等综合考虑而预先设定的。
管理节点连续分发聚类中心点给不同的计算节点,各个计算节点各自独立并行的生长任务子树,每当计算节点完成某个聚类中心点的任务子树生长,就会继续向管理节点申请新任务,即新的聚类中心点,继续生长新的任务子树。直至全部任务子树生长完成。计算节点生长任务子树的原则可以采用深度优先原则,即就是先走到树的底部,然后再回溯。
任务子树对应一个任务。分发任务时可以通过map<int,int>数据结构记录任务子树与计算节点之间的对应关系。
计算节点本地化的独立并行的以深度优先原则的完成子树的生成,同时生成倒排索引,完成某任务子树的任务后,再向管理节点申请任务。计算节点完成一个任务子树生长任务后,可以通过map<int,Vctree_node*>数据结构记录任务ID与该子树根节点的数据入口。通过记录入口定义同一计算节点不同的任务子树数据入口。通过对每一任务子树定义一个数据入口,当每一计算节点有多个任务子树时,管理节点根据不同的数据入口区分不同的任务子树,以分别发送不同的任务。
当作为图像训练的多个任务子树生长完成后,需要进行图像检索时,管理节点对待检图像进行特征点计算并按照步骤1中得到的聚类中心点进行聚类;并将分类后的待检图像的特征点按照聚类中心点归属发送至对应的计算节点;计算节点对待检图像特征点利用任务子树进行处理并将结果发送至管理节点,管理节点汇总各个计算节点的判断结果,判断在训练集中与待识别图像的最接近的对比图像。
图像检索的后续步骤还包括:
步骤3.管理节点对待检图像进行特征点计算并按照步骤1中得到的聚类中心点进行聚类;并将分类后的待检图像的特征点按照聚类中心点归属发送至对应的计算节点;
步骤4. 计算节点对待检图像特征点利用任务子树进行处理并将结果发送至管理节点,管理节点汇总各个计算节点的判断结果,判断在训练集中与待识别图像的最接近的对比图像。
上述步骤4的一种具体实现方式包含如下步骤:
步骤401. 计算节点根据生成的任务子树进行查询,获得待检图像特征点的倒排索引。
步骤402.该计算节点将所有分配到的待检图像特征点的查询任务都完成后,将累加的倒排索引发送给管理节点。
步骤403管理节点将所有计算节点返回的倒排索引进行累加,权重最大的图像信息即为最接近对比图像。
倒排索引反映了训练集中各个训练图像按照聚类分类后在各聚类中所占权重,倒排索引的数据格式为(KN,VM),其中KN表示训练集中的第N幅对比图像,V表示该训练图像在该第M个聚类中所占权重,按照相同KN坐标,将各个聚类中的VM相加,得到每一对比图像的权重值,所有训练图像的权重值中最大的权重值对应的那副图像即为在图像训练集中与待检索图像相似度最高的图像。
本发明解决了传统词汇树训练方法由于内存限制从而限制了树的深度广度的生长,难以容纳庞大的图像训练集的技术缺陷。同时缩短了训练和检索的时间开销。通过将一棵词汇树的任务划分为多棵任务子树,在不同的计算节点中独立并行的处理。解决了在保证图像检索精确度的情况下由于内存限制导致图像训练集不能容纳海量的图像,以及图像训练过程时间开销过大的问题。
各计算节点内部生成词汇子树时,各个计算节点本地化独立运行,优选的的以深度优先的原则生成,节点间交互少,简化了计算过程。
计算节点生成任务子树后,还可以包括对任务子树的数据入口定义步骤,当单个计算节点同时训练多个任务子树时,方便管理节点按照数据入口不同分发任务。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (8)

1.基于多子树的分布式图像训练方法,其特征在于,包括如下步骤:
步骤1.计算节点选取k个初始聚类中心点,执行第一层聚类,得到k个新的聚类中心点,并将聚类中心点信息首先发送至管理节点,管理节点将聚类中心点信息分发至多个计算节点;
步骤2.每一计算节点以每个聚类中心点作为任务子树生长点,各计算节点独立训练其任务子树;
所述步骤2中训练任务子树的方法为:计算节点将训练集中全部图像提取出特征点;对全部训练图像的特征点按照步骤1中所述第一层聚类得到的聚类中心点进行分类,然后对本次聚类任务的分类按照深度优先原则训练子树,直至任务子树达到预设高度。
2.如权利要求1所述的基于多子树的分布式图像训练方法,其特征在于,所述步骤1采用K-means算法对特征点进行聚类,图像的特征点提取采用SURF算法计算。
3.如权利要求2所述的基于多子树的分布式图像训练方法,其特征在于,所述步骤1中对单个聚类中所有特征点的同维向量求均值,各个同维均值组合得到该聚类的聚类中心点。
4.如权利要求1所述的基于多子树的分布式图像训练方法,其特征在于,所述步骤1中管理节点将聚类中心点发送至当前状态下计算任务最少的计算节点。
5.如权利要求1所述的基于多子树的分布式图像训练方法,其特征在于,所述步骤2中计算节点根据深度优先原则训练任务子树。
6.如权利要求1所述的基于多子树的分布式图像训练方法,其特征在于,所述步骤2中还包括对每一任务子树定义数据入口的步骤。
7.基于多子树的分布式图像训练及检索方法,包括如权利要求1-6任意一项所述的步骤1及步骤2,其特征在于,还包括如下后续步骤:
步骤3.管理节点对待检图像进行特征点计算并按照步骤1中得到的聚类中心点进行聚类;并将分类后的待检图像的特征点按照聚类中心点归属发送至对应的计算节点;
步骤4. 计算节点对待检图像特征点利用任务子树进行处理并将结果发送至管理节点,管理节点汇总各个计算节点的判断结果,判断在训练集中与待识别图像的最接近的对比图像。
8.如权利要求7所述的基于多子树的分布式图像训练及检索方法,其特征在于,所述步骤4具体为:
步骤401.计算节点根据步骤2中生成的任务子树进行查询,获得待检图像特征点的倒排索引;
步骤402.该计算节点将所有分配到的待检图像特征点的查询任务都完成后,将累加的倒排索引发送给管理节点;
步骤403管理节点将所有计算节点返回的倒排索引进行累加,权重最大的图像信息即为最接近对比图像。
CN201310242854.6A 2013-06-19 2013-06-19 基于多子树的分布式图像训练及检索方法 Active CN103336970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310242854.6A CN103336970B (zh) 2013-06-19 2013-06-19 基于多子树的分布式图像训练及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310242854.6A CN103336970B (zh) 2013-06-19 2013-06-19 基于多子树的分布式图像训练及检索方法

Publications (2)

Publication Number Publication Date
CN103336970A CN103336970A (zh) 2013-10-02
CN103336970B true CN103336970B (zh) 2016-12-28

Family

ID=49245127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310242854.6A Active CN103336970B (zh) 2013-06-19 2013-06-19 基于多子树的分布式图像训练及检索方法

Country Status (1)

Country Link
CN (1) CN103336970B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744934A (zh) * 2013-12-30 2014-04-23 南京大学 一种基于位置敏感哈希的分布式索引方法
CN103812638B (zh) * 2014-01-22 2017-02-22 北京工业大学 一种加密域surf图像特征提取方法
CN108376177B (zh) * 2018-03-15 2019-10-25 百度在线网络技术(北京)有限公司 用于处理信息的方法和分布式系统
CN110132302A (zh) * 2019-05-20 2019-08-16 中国科学院自动化研究所 融合imu信息的双目视觉里程计定位方法、系统
CN113378842A (zh) * 2021-05-18 2021-09-10 浙江大学 基于分割图像特征提取的推荐方法
CN113775929B (zh) * 2021-09-28 2023-07-04 上海天麦能源科技有限公司 一种城市燃气管网布局区域划分方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819752A (zh) * 2010-03-23 2010-09-01 友达光电股份有限公司 电泳显示装置与其驱动方法
CN102592133A (zh) * 2010-09-22 2012-07-18 西门子公司 使用概率推进树进行评估的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070263915A1 (en) * 2006-01-10 2007-11-15 Adi Mashiach System and method for segmenting structures in a series of images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819752A (zh) * 2010-03-23 2010-09-01 友达光电股份有限公司 电泳显示装置与其驱动方法
CN102592133A (zh) * 2010-09-22 2012-07-18 西门子公司 使用概率推进树进行评估的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于改进遗传算法的自适应区域生长法研究;吴涛 等;《微电子学与计算机》;20080430;第25卷(第4期);第90-92、97页 *
基于词汇树的图片搜索;陈赟 等;《计算机工程》;20100331;第36卷(第4期);第189-191、195页 *

Also Published As

Publication number Publication date
CN103336970A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
CN103336970B (zh) 基于多子树的分布式图像训练及检索方法
CN109993748B (zh) 一种基于点云处理网络的三维网格物体分割方法
Sattler et al. Hyperpoints and fine vocabularies for large-scale location recognition
CN109215129B (zh) 一种基于三维点云的局部特征描述方法
JP4556120B2 (ja) 情報処理装置および方法、並びにプログラム
CN104765768A (zh) 海量人脸库的快速准确检索方法
CN110070121A (zh) 一种基于树策略与平衡k均值聚类的快速近似k近邻方法
CN104731984B (zh) 汽车轮毂表面样点r树上溢结点增量式聚类优化方法
CN108846404A (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
CN107223242A (zh) 高效的局部特征描述符过滤
CN104899326A (zh) 一种基于二进制多索引哈希技术的图像检索方法
Qian et al. Gaussian mixture model for relevance feedback in image retrieval
CN104881668A (zh) 一种基于代表性局部模式的图像指纹提取方法及系统
KR101642598B1 (ko) 공간 분할 방법, 공간 분할 장치 및 기억 매체
CN106611418A (zh) 一种图像分割算法
Yang et al. Research on distributed Hilbert R tree spatial index based on BIRCH clustering
Al-Jubouri et al. A Content-Based Image Retrieval Method By Exploiting Cluster Shapes.
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
Huu et al. An efficient content based image retrieval method for retrieving images
CN108958917A (zh) 云计算的任务调度方法及系统
Cho et al. A novel virus infection clustering for flower images identification
Yuan et al. Automatic cables segmentation from a substation device based on 3D point cloud
CN108090182B (zh) 一种大规模高维数据的分布式索引方法及系统
US10776333B2 (en) Building of object index for combinatorial object search
Hao et al. Structure-based Street Tree Extraction from Mobile Laser Scanning Point Clouds

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Duan Hancong

Inventor after: Min Geyong

Inventor after: Li Lin

Inventor after: Nie Xiaowen

Inventor after: Zhang Jian

Inventor after: Zou Hao

Inventor after: Peng Yubing

Inventor before: Duan Hancong

Inventor before: Li Lin

Inventor before: Nie Xiaowen

Inventor before: Zhang Jian

Inventor before: Zou Hao

Inventor before: Peng Yubing

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: DUAN HANCONG LI LIN NIE XIAOWEN ZHANG JIAN ZOU HAO PENG YUBING TO: DUAN HANCONG MIN GEYONG LI LIN NIE XIAOWEN ZHANG JIAN ZOU HAO PENG YUBING

C14 Grant of patent or utility model
GR01 Patent grant