CN116662588A - 一种海量数据智能搜索方法及系统 - Google Patents

一种海量数据智能搜索方法及系统 Download PDF

Info

Publication number
CN116662588A
CN116662588A CN202310952859.1A CN202310952859A CN116662588A CN 116662588 A CN116662588 A CN 116662588A CN 202310952859 A CN202310952859 A CN 202310952859A CN 116662588 A CN116662588 A CN 116662588A
Authority
CN
China
Prior art keywords
pixel point
value
influence range
final
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310952859.1A
Other languages
English (en)
Other versions
CN116662588B (zh
Inventor
王伟
赵一新
殷方勇
李晓杰
李晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Big Data Center
Original Assignee
Shandong Big Data Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Big Data Center filed Critical Shandong Big Data Center
Priority to CN202310952859.1A priority Critical patent/CN116662588B/zh
Publication of CN116662588A publication Critical patent/CN116662588A/zh
Application granted granted Critical
Publication of CN116662588B publication Critical patent/CN116662588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及图像处理领域,提供一种海量数据智能搜索方法及系统,包括:根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;利用最终K值对待搜索图像进行聚类,得到聚类结果;基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。该方法能够基于待搜索图像中像素点的影响范围确定待搜索图像在聚类时的K值,进而提高待搜索图像的聚类结果的准确性,并进一步提高数据的搜索速度以及搜索精度。

Description

一种海量数据智能搜索方法及系统
技术领域
本申请涉及图像处理领域,特别是涉及一种海量数据智能搜索方法及系统。
背景技术
随着数字化时代的到来,越来越多的信息和数据转换成了电子格式。其中证照作为个人身份、资格等重要信息的承载物,其数量也在快速增长,各类企业、政府部门和组织面临着大量证照管理和检索任务,传统的人工搜索方式已无法满足日益增长的需求。在这种背景下,海量证照智能搜索系统显得尤为重要。
海量证照数据智能搜索是利用先进的计算机视觉技术,在海量证照数据中高效准确地查找相关证照图像,可以大大提高搜索效率,降低人力成本。然而,海量数据带来更高的计算复杂度和存储压力,因此亟待一种有效的证照数据处理方法提高搜索速度。
K-Means是一种无监督学习方法,通过将相似数据点聚集在一起,实现数据点的自动分类压缩,可以将原始数据转换为更少的代表性样本来降低计算复杂度,并提高搜索速度。由于证照数据中的分布位置具有较强的规律性以及较强的规范性,K-Means算法中K值的大小决定着K-Means的结果,进而决定着搜索速度以及搜索精度。但是现有算法中并不能准确的得到K值,这使得聚类结果存在误差,进而影响搜索速度以及搜索精度。
发明内容
本发明提供一种海量数据智能搜索方法及系统,其方法能够提高聚类结果的准确性,进而提高数据的搜索速度以及搜索精度。
第一方面,本申请提供一种海量数据智能搜索方法,包括:
根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;
基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;
利用最终K值对待搜索图像进行聚类,得到聚类结果;
基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
可选的,根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围,包括:
将同一像素点在不同K值下的第一影响范围叠加,以得到待搜索图像中每一像素点的最终影响范围;
将同一像素点在不同K值下的第一影响范围叠加之前,还包括:
计算不同K值下像素点在不同角度的第二影响范围;
将同一K值中同一像素点在不同角度的第二影响范围组合,得到同一像素点在对应K值下的第一影响范围。
可选的,基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值包括:
根据像素点的最终影响范围确定像素点的影响范围程度值;
根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度;
基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度;
将优选程度最大的K值作为所述最终K值。
可选的,计算不同K值下像素点在不同角度的第二影响范围,包括:
利用当前K值对所述待搜索图像进行聚类,得到多个聚类簇,聚类簇为所述聚类簇中每一像素点的连通域;
基于当前角度方向上的像素点序列的热力值的方差值、所有角度方向上的像素点序列的热力值的最大值以及当前角度方向上当前像素点到参考像素点之间的欧式距离计算得到当前K值下,当前像素点在当前角度的第二影响范围,从而得到不同K值下像素点在不同角度的第二影响范围;
其中,像素点序列为当前角度方向上当前像素点到参考像素点之间的像素点组成的序列,所述参考像素点为当前像素点所在连通域的连通域边缘像素点。
可选的,根据像素点的最终影响范围确定像素点的影响范围程度值,包括:
基于当前像素点的最终影响范围中像素点的数量、当前像素点在当前K值下的第一影响范围中像素点的数量以及K值的数量计算确定当前像素点的影响范围程度值。
可选的,根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度,包括:
基于不同的连通域的连续变化程度确定第一分布因子,所述第一分布因子表征当前像素点的在不同K值下的所在连通域的分布的连续程度;
基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,第二分布因子表征当前像素点的在不同K值下的与其他连通域的分布的区分程度:
基于当前像素点的影响范围程度、第一分布因子和第二分布因子计算像素点在第l个K值下的信息表征程度。
可选的,基于不同的连通域的连续变化程度确定第一分布因子,包括:
基于各个角度方向上连通域标记序列之间的组合数量、第w个组合的连通域标记序列之间的距离计算得到所述第一分布因子;其中,连通域的标记序列为标记每一像素点所属的连通域后得到的;两个不同角度方向上的连通域标记序列为一个组合;
其中,所述第一分布因子的计算方式为:
式中,表示各个角度方向上连通域标记序列之间的组合数量;/>和/>表示第个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列;表示第/>个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列之间的/>距离,/>表示以自然常数为底数的指数函数。
可选的,基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,包括:
基于当前像素点的最终影响范围内不同类别连通域的组合数量、不同类别连通域组合中其中一个连通域中像素点占最终影响范围内所有像素点个数的比例、当前像素点的最终影响范围中第q个不同类别连通域组合中其中一个连通域的像素点的灰度值均值、当前像素点的最终影响范围中像素点的灰度值均值计算第二分布因子;
其中,所述第二分布因子的计算方式为:
式中,表示第/>个像素点的最终影响范围内不同类别的连通域的组合数量;/>表示第/>个不同类别连通域组合的其中一个连通域的像素点占最终影响范围内所有像素点个数的比例;/>表示第/>个像素点的最终影响范围中第/>个不同类别连通域组合的其中一个连通域的像素点的灰度值均值;/>表示第/>个像素点的最终影响范围像素点的灰度值均值;/>表示以自然常数为底数的指数函数。
可选的,基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度,包括:
基于待搜索图像中像素点的数量、当前像素点的热力值、当前像素点在第l个K值下的信息表征程度计算得到第l个K值的优选程度。
第二方面,本申请提供一种海量数据智能搜索系统,包括:
范围计算模块,用于根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;
K值确定模块,用于基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;
聚类模块,用于利用最终K值对待搜索图像进行聚类,得到聚类结果;
搜索模块,用于基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
本申请的有益效果,区别于现有技术,本申请的一种海量数据智能搜索方法及系统,包括:根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;利用最终K值对待搜索图像进行聚类,得到聚类结果;基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。该方法能够基于待搜索图像中像素点的影响范围确定待搜索图像在聚类时的K值,进而提高待搜索图像的聚类结果的准确性,并进一步提高数据的搜索速度以及搜索精度。
附图说明
图1为本发明一种海量数据智能搜索方法的一实施例的流程示意图;
图2为图1的步骤S12的一实施例的流程示意图;
图3为本发明一种海量数据智能搜索系统的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本申请进行详细的说明。
请参见图1,图1为本发明一种海量数据智能搜索方法的一实施例的流程示意图,具体包括:
步骤S11:根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况。
本申请的一种海量数据智能搜索方法用于从数据库中找到与待搜索图像匹配的图像。为了便于计算,将采集的待搜索图像处理为统一大小的图像。
由于证照数据中的像素点的分布具有规律性,例如证照数据中会存在头区域、衣服区域,且其相同位置较为统一,可以通过分析不同K值下的同一个位置像素点的连通域变化来综合获取每个像素点的影响范围。对应的不同K值下的同一位置像素点的所属连通域的变化,以及连通域内像素点的分布特征,体现了该像素点的影响范围内的其他像素点由于不同K值下得到的与当前像素点的聚类关系不同,若该像素点的在不同K值下的所属连通域变化较大,则对应的该像素点的影响范围程度越大,以此计算影响范围程度值。为了获取证照分布规律性特征,本申请采用生成热力图的方式,分析采集的证照数据的每个像素点的热力值,根据该热力值的分布来获取规律性特征;同时分析不同K值下的聚类结果中同一个像素点所在连通域的变化程度,以及该像素点的邻域像素点的变化情况来表征该像素点的影响范围,以及对应的影响范围程度值。
具体的,本申请根据采集的证照数据即待搜索图像进行热力图的生成,具体采用Grad-CAM热力图的方法对待搜索图像进行处理,来生成热力图,该过程中的CNN网络的训练过程为:采用的数据集为采集的证照数据;采用专业人工标注的方式将证照数据中的人所在区域标注为1,其余区域标注为0;采用的损失函数为交叉熵函数。根据获取的所有证照数据的热力图,对每个证照数据中每个像素点的热力值进行平均处理,获取证照数据中每个像素点的平均热力值,作为证照数据的每个位置的热力值。
由于在不同K值下每个像素点所属的类别连通域会发生变化,例如连通域大小,所属连通域发生变化,因此可以理解为每个像素点在不同K值的表现特征不同,随着K值的增大,每个像素点的周围邻域中属于同一类的像素点的数量会发生变化,因此本申请从不同K值下的当前像素点的不同范围进行叠加,叠加后的范围即为对应的该像素点的影响范围,并且在叠加过程中需要考虑每个位置的热力值的影响。
在一具体实施例中,计算不同K值下像素点在不同角度的第二影响范围。具体的,利用当前K值对所述待搜索图像进行聚类,得到多个聚类簇,聚类簇为所述聚类簇中每一像素点的连通域;基于当前角度方向上的像素点序列的热力值的方差值、所有角度方向上的像素点序列的热力值的最大值以及当前角度方向上当前像素点到参考像素点之间的欧式距离计算得到当前K值下,当前像素点在当前角度的第二影响范围,从而得到不同K值下像素点在不同角度的第二影响范围;其中,像素点序列为当前角度方向上当前像素点到参考像素点之间的像素点组成的序列,所述参考像素点为当前像素点所在连通域的连通域边缘像素点。具体的,以当前像素点i为例进行说明,第个像素点的影响范围的计算过程为:对于第/>个/>值对应的待搜索图像的聚类结果,获取第/>个像素点所在连通域的像素点的范围,以同一个连通域中像素点的热力值的分布特征来进行第/>个角度的第二影响范围/>的计算,具体方式为:
式中,表示当前角度方向/>上第/>个像素点所在连通域中该像素点到连通域边缘像素点构成的像素点序列的热力值的方差值;/>表示角度方向上的第/>个像素点所在连通域中该像素点到连通域边缘像素点构成的像素点序列的热力值的最大值;/>表示当前角度方向/>上第/>个像素点所在连通域中该像素点到连通域边缘像素点之间的欧式距离。其中方向角度的范围为0-360°,每一次步长为15°。
为了获取合适的K值,设置不同的K值进行K-Means聚类,其中K值的初始值设置为4,步长设置为1,终止值设置为9,可根据实施者具体实施情况而定,本案给出的为经验参考值。其中K-Means为公知技术,在本案中不再赘述。
热力值的大小,表征对于待搜索图像的关注度情况。在每个角度方向上,计算当前像素点到各个方向上像素点热力值大小的分布特征,若方向上热力值分布变化较大,则对应该方向上存在不同的关注度,对应的该方向上的像素点在当前值下得到的同一个连通域的结果所表征的范围较大,则对应的在计算像素点的影响范围应设置的较大。可以理解的,本申请所述的影响范围为以待计算像素点为起点,向各个角度发散到达连通域边缘像素点,则对应的以当前/>值得到的待计算像素点到连通域边缘像素点的欧式距离为基准值,并结合热力值分布特征来进行调整。类似操作,可以得到不同/>值下不同角度第/>个像素点的第二影响范围。
将同一K值中同一像素点在不同角度的第二影响范围组合,得到同一像素点在对应K值下的第一影响范围,第一影响范围表示像素点的周围像素点受到K值大小的变化情况。进一步将同一像素点在不同K值下的第一影响范围叠加,以得到待搜索图像中每一像素点的最终影响范围。具体的,将叠加结果的并集作为像素点的最终影响范围。
步骤S12:基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值。
具体的,请结合图2,步骤S12包括:
步骤S21:根据像素点的最终影响范围确定像素点的影响范围程度值。
具体的,基于当前像素点的最终影响范围中像素点的数量、当前像素点在当前K值下的第一影响范围中像素点的数量以及K值的数量计算确定当前像素点的影响范围程度值。根据得到的像素点的影响范围进行影响范围程度值的计算,像素点在不同下的影响范围变化差异来表征影响范围程度值。在一实施例中,当前像素点的影响范围程度值的计算方式为:
式中,为第/>个像素点的影响范围程度值,/>表示不同/>值的数量;/>表示第/>个像素点的最终影响范围的像素点的个数;/>表示第/>个像素点在第/>个/>值下的第一影响范围的像素点的个数;/>表示线性归一化函数,在所有像素点中进行线性归一化处理。
步骤S22:根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度。
根据上述步骤得到每个像素点的影响范围以及对应的影响范围程度,本申请中构建不同K值下的像素点的信息表征程度来确定最优的K值大小。
K-Means聚类时,在不同K值得到的K-Means结果中会出现欠分割或过分割的现象,进而会造成后续在提取一些关键点时,会产生错误的关键点,例如衣服的反光区域,鼻子的反光区域,头发纹理等,这些错误的关键点并不是证照数据匹配所需关键点。因此为了得到准确的关键点,即对应的为了准确获取K-Means结果,需要确定最佳的K值来进行。在获取最佳的K值时,由于像素点的分布位置不同以及对应的信息表征程度不同,在确定最佳的K值的过程中,需要获取每个像素点的影响范围,并根据影响范围程度值来表征分布因子的特征权重,进而得到每个像素点的信息表征能力,最终得到不同的K值下所有像素点的信息表征能力的综合结果。
对于不同影响范围程度的像素点其分布特征不同,对于影响范围程度大的像素点,例如衣服区域的像素点,脸区域的像素点,其分布影响范围较大,但这些像素点其应该为相同分布但是由于K值设置不合理,会使得出现较多无效的分类;对于影响范围程度小的像素点,例如眼睛区域鼻子区域的像素点,其分布影响范围较小,但这些像素点其应该为不同分布但是由于K值设置不合理,会使得归并为一类。因此本申请通过计算像素点的信息表征程度值,其中像素点的信息表征程度与像素点的分布因子有关,本案构建第一分布因子和第二分布因子,其中根据像素点的影响范围程度来表征第一分布因子权重值以及第二分布因子权重值。第一分布因子表征当前像素点的在不同K值下的所在连通域的分布的连续程度;其中第二分布因子表征当前像素点的在不同K值下的与其他连通域的分布的区分程度。需要说明的是,当前像素点也可记为待计算像素点。
具体的,基于不同的连通域的连续变化程度确定第一分布因子。在一实施例中,基于各个角度方向上连通域标记序列之间的组合数量、第w个组合的连通域标记序列之间的距离计算得到所述第一分布因子;其中,连通域的标记序列为标记每一像素点所属的连通域后得到的;两个不同角度方向上的连通域标记序列为一个组合。
在计算第一分布因子时,需要在第个像素点的最终影响范围内进行计算。获取第/>个像素点的最终影响范围内内连通域的连续程度,连续程度与该最终影响范围的类别有关,若不同类别对应的连通域的变化的连续变化程度越大,则对应的第一分布因子越大。在本申请中对不同类别的连通域进行序列标号(即第一类别的连通域标记为1,第二类别的连通域标记为2等),并结合上述角度方向,可以得到从第/>个像素点沿着各个方向上的连通域类型序列,根据各个方向的序列之间的差异来获取该像素点在其影响范围内的连通域的连续程度。
其中,第i个像素点的第一分布因子的计算方式为:
式中,表示各个角度方向上连通域标记序列之间的组合数量;/>和/>表示第个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列;表示第/>个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列之间的/>距离,/>表示以自然常数为底数的指数函数。
需要说明的是,各个角度方向上连通域标记序列为第i个像素点在各个方向上经过的像素点所属连通域的标记序列,例如某个方向上像素点为4、5、3、7、6、7、9;其中,像素点4、7、9对应的连通域标记为1;像素点5、3、6对应的连通域标记为2,则对应的连通域标记序列为1、2、2、1、2、1、1。比如有3个方向,第1个角度和第2个角度的连通域标记序列为一个组合,第1个角度和第3个角度的连通域标记序列为一个组合,第2个角度和第3个角度的连通域标记序列为一个组合,一共三个组合,则为3。
基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子。在一具体实施例中,基于当前像素点的最终影响范围内不同类别连通域的组合数量、不同类别连通域组合中其中一个连通域中像素点占最终影响范围内所有像素点个数的比例、当前像素点的最终影响范围中第q个不同类别连通域组合中其中一个连通域的像素点的灰度值均值、当前像素点的最终影响范围中像素点的灰度值均值计算第二分布因子。
表示第/>个像素点的第二分布因子,在计算第二分布因子时,同样需要在第/>个像素点的最终影响范围内进行计算,其中获取第/>个像素点的最终影响范围内连通域的离散程度,离散程度与该影响范围内的类别具有灰度值相似性下的类别区别程度,其中对于第/>个像素点的影响范围内的连通域内像素点的灰度值差异性特征来获取。在一实施例中,第二分布因子/>的计算方式为:
式中,表示第/>个像素点的最终影响范围内不同类别的连通域的组合数量;/>表示第/>个不同类别连通域组合的其中一个连通域的像素点占最终影响范围内所有像素点个数的比例;/>表示第/>个像素点的最终影响范围中第/>个不同类别连通域组合的其中一个连通域的像素点的灰度值均值;/>表示第/>个像素点的最终影响范围像素点的灰度值均值;/>表示以自然常数为底数的指数函数。
基于当前像素点的影响范围程度、第一分布因子和第二分布因子计算像素点在第l个K值下的信息表征程度。在一实施例中,利用如下公式计算像素点在第l个K值下的信息表征程度
式中,表示第/>个像素点的影响范围程度值,/>表示第i个像素点的第一分布因子,/>表示第i个像素点的第二分布因子。
步骤S23:基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度。
在一实施例中,基于待搜索图像中像素点的数量、当前像素点的热力值、当前像素点在第l个K值下的信息表征程度计算得到第l个K值的优选程度。
个/>值的优选程度/>的计算方法为:
式中,表示待搜索图像中像素点的数量;/>表示第/>个像素点的热力值;/>表示第/>个像素点的第/>个/>值的信息表征程度。
步骤S24:将优选程度最大的K值作为所述最终K值。
根据上述步骤,得到每个K值的优选程度,选取最大优选程度值对应的K值作为待搜索图像的最终K值。
步骤S13:利用最终K值对待搜索图像进行聚类,得到聚类结果。
利用K-Means聚类算法基于最终K值对待搜索图像进行聚类,得到聚类结果。
步骤S14:基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
根据得到的聚类结果以及海量数据中的各个聚类结果进行特征向量的提取,其中特征向量的获取过程中可以根据PCA(数据降维方法)进行提取,通过计算当前证照数据的特征向量以及海量数据中的特征向量之间的余弦相似度,其中余弦相似度最大的值对应的海量数据的中的结果即为当前待搜索图像的搜索结果。
本申请相对于现有技术的好处在于:本案中采用K-Means的方法对证照数据进行处理,根据聚类的结果进行智能搜索。其中根据不同值下的聚类结果进行分析,在获取最佳的K值时,通过获取每个像素点的影响范围,并根据影响范围程度值来表征分布因子的特征权重,进而得到每个像素点的信息表征能力,最终得到不同的K值下所有像素点的信息表征能力的综合结果,进而得到每个/>值下的聚类结果的优选程度,进而得到最佳的/>值以及对应的最佳的聚类结果,根据该聚类结果得到对应的特征向量,根据得到的特征向量以及海里数据中的特征向量进行余弦相似度计算,得到最终的搜索结果。避免了传统的搜索过程中的计算复杂度较高的缺点,并提高的提取特征向量的结果并降低计算负担,使得得到的搜索结果在保证精度的同时,大大降低了搜索时间。
请参见图3,为本发明一种海量数据智能搜索系统的一实施例的结构示意图,具体包括:范围计算模块31、K值确定模块32、聚类模块33以及搜索模块34。
其中,范围计算模块31用于根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况。K值确定模块32用于基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;聚类模块33用于利用最终K值对待搜索图像进行聚类,得到聚类结果;搜索模块34用于基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
本实施例的一种海量数据智能搜索系统能够实现上述实施例所述的一种海量数据智能搜索方法,具体在此不再赘述。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种海量数据智能搜索方法,其特征在于,包括:
根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;
基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;
利用最终K值对待搜索图像进行聚类,得到聚类结果;
基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
2.根据权利要求1所述的一种海量数据智能搜索方法,其特征在于,根据每一像素点在不同K值下的第一影响范围确定待搜索图像中像素点的最终影响范围,包括:
将同一像素点在不同K值下的第一影响范围叠加,以得到待搜索图像中每一像素点的最终影响范围;
将同一像素点在不同K值下的第一影响范围叠加之前,还包括:
计算不同K值下像素点在不同角度的第二影响范围;
将同一K值中同一像素点在不同角度的第二影响范围组合,得到同一像素点在对应K值下的第一影响范围。
3.根据权利要求1所述的一种海量数据智能搜索方法,其特征在于,基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值包括:
根据像素点的最终影响范围确定像素点的影响范围程度值;
根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度;
基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度;
将优选程度最大的K值作为所述最终K值。
4.根据权利要求2所述的一种海量数据智能搜索方法,其特征在于,计算不同K值下像素点在不同角度的第二影响范围,包括:
利用当前K值对所述待搜索图像进行聚类,得到多个聚类簇,聚类簇为所述聚类簇中每一像素点的连通域;
基于当前角度方向上的像素点序列的热力值的方差值、所有角度方向上的像素点序列的热力值的最大值以及当前角度方向上当前像素点到参考像素点之间的欧式距离计算得到当前K值下,当前像素点在当前角度的第二影响范围,从而得到不同K值下像素点在不同角度的第二影响范围;
其中,像素点序列为当前角度方向上当前像素点到参考像素点之间的像素点组成的序列,所述参考像素点为当前像素点所在连通域的连通域边缘像素点。
5.根据权利要求3所述的一种海量数据智能搜索方法,其特征在于,根据像素点的最终影响范围确定像素点的影响范围程度值,包括:
基于当前像素点的最终影响范围中像素点的数量、当前像素点在当前K值下的第一影响范围中像素点的数量以及K值的数量计算确定当前像素点的影响范围程度值。
6.根据权利要求3所述的一种海量数据智能搜索方法,其特征在于,根据像素点的影响范围程度值计算像素点在第l个K值下的信息表征程度,包括:
基于不同的连通域的连续变化程度确定第一分布因子,所述第一分布因子表征当前像素点的在不同K值下的所在连通域的分布的连续程度;
基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,第二分布因子表征当前像素点的在不同K值下的与其他连通域的分布的区分程度:
基于当前像素点的影响范围程度、第一分布因子和第二分布因子计算像素点在第l个K值下的信息表征程度。
7.根据权利要求6所述的一种海量数据智能搜索方法,其特征在于,基于不同的连通域的连续变化程度确定第一分布因子,包括:
基于各个角度方向上连通域标记序列之间的组合数量、第w个组合的连通域标记序列之间的距离计算得到所述第一分布因子;其中,连通域的标记序列为标记每一像素点所属的连通域后得到的;两个不同角度方向上的连通域标记序列为一个组合;
其中,所述第一分布因子的计算方式为:
式中,表示各个角度方向上连通域标记序列之间的组合数量;/>和/>表示第/>个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列;表示第/>个组合的第一个角度方向上的连通域标记序列和第二个角度方向的连通域标记序列之间的/>距离,/>表示以自然常数为底数的指数函数。
8.根据权利要求6所述的一种海量数据智能搜索方法,其特征在于,基于当前像素点的最终影响范围内连通域的离散程度确定第二分布因子,包括:
基于当前像素点的最终影响范围内不同类别连通域的组合数量、不同类别连通域组合中其中一个连通域中像素点占最终影响范围内所有像素点个数的比例、当前像素点的最终影响范围中第q个不同类别连通域组合中其中一个连通域的像素点的灰度值均值、当前像素点的最终影响范围中像素点的灰度值均值计算第二分布因子;
其中,所述第二分布因子的计算方式为:
式中,表示第/>个像素点的最终影响范围内不同类别的连通域的组合数量;/>表示第个不同类别连通域组合的其中一个连通域的像素点占最终影响范围内所有像素点个数的比例;/>表示第/>个像素点的最终影响范围中第/>个不同类别连通域组合的其中一个连通域的像素点的灰度值均值;/>表示第/>个像素点的最终影响范围像素点的灰度值均值;表示以自然常数为底数的指数函数。
9.根据权利要求3所述的一种海量数据智能搜索方法,其特征在于,基于像素点在第l个K值下的信息表征程度确定第l个K值的优选程度,包括:
基于待搜索图像中像素点的数量、当前像素点的热力值、当前像素点在第l个K值下的信息表征程度计算得到第l个K值的优选程度。
10.一种海量数据智能搜索系统,其特征在于,包括:
范围计算模块,用于根据每一像素点在不同K值下的第一影响范围确定像素点的最终影响范围;所述第一影响范围表示像素点的周围像素点受到K值大小的变化情况;
K值确定模块,用于基于像素点的最终影响范围确定每一个K值的优选程度,并基于每一个K值的优选程度确定最终K值;
聚类模块,用于利用最终K值对待搜索图像进行聚类,得到聚类结果;
搜索模块,用于基于所述聚类结果从数据库中搜索所述待搜索图像的匹配图像。
CN202310952859.1A 2023-08-01 2023-08-01 一种海量数据智能搜索方法及系统 Active CN116662588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310952859.1A CN116662588B (zh) 2023-08-01 2023-08-01 一种海量数据智能搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310952859.1A CN116662588B (zh) 2023-08-01 2023-08-01 一种海量数据智能搜索方法及系统

Publications (2)

Publication Number Publication Date
CN116662588A true CN116662588A (zh) 2023-08-29
CN116662588B CN116662588B (zh) 2023-10-10

Family

ID=87724594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310952859.1A Active CN116662588B (zh) 2023-08-01 2023-08-01 一种海量数据智能搜索方法及系统

Country Status (1)

Country Link
CN (1) CN116662588B (zh)

Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246477A (ja) * 2003-02-12 2004-09-02 Fuji Xerox Co Ltd 画像探索装置
KR20050063021A (ko) * 2003-12-19 2005-06-28 (주) 네오솔 영상 검색 방법
JP4205760B1 (ja) * 2007-12-27 2009-01-07 株式会社ファースト 画像マッチング方法、プログラムおよび応用装置
JP2009048575A (ja) * 2007-08-22 2009-03-05 Sharp Corp クラスタリング装置、クラスタリング方法、プログラムおよび記録媒体
CN102129451A (zh) * 2011-02-17 2011-07-20 上海交通大学 图像检索系统中数据聚类方法
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
CN103207879A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
CN103294813A (zh) * 2013-06-07 2013-09-11 北京捷成世纪科技股份有限公司 一种敏感图片搜索方法和装置
JP2013246544A (ja) * 2012-05-24 2013-12-09 Hitachi Ltd 画像検索装置、画像検索方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法
CN104102726A (zh) * 2014-07-22 2014-10-15 南昌航空大学 基于层次聚类的改进k均值聚类算法
JP2014211730A (ja) * 2013-04-18 2014-11-13 株式会社日立製作所 画像検索システム、画像検索装置および画像検索方法
CN104331513A (zh) * 2014-11-24 2015-02-04 中国科学技术大学 一种高效的图像检索性能预测方法
US8983941B1 (en) * 2011-03-28 2015-03-17 Google Inc. Visual content retrieval
CN105844283A (zh) * 2015-01-16 2016-08-10 阿里巴巴集团控股有限公司 用于识别图像类目归属的方法、图像搜索方法及装置
CN109147005A (zh) * 2018-08-24 2019-01-04 电子科技大学 一种用于红外图像的自适应染色方法、系统、存储介质、终端
US20190205331A1 (en) * 2017-01-20 2019-07-04 Rakuten, Inc. Image search system, image search method, and program
CN110276764A (zh) * 2019-05-29 2019-09-24 南京工程学院 基于K值估计的K-Means水下图像背景分割改进算法
CN111143597A (zh) * 2019-12-13 2020-05-12 浙江大华技术股份有限公司 图像检索方法、终端及存储装置
CN111191651A (zh) * 2019-12-06 2020-05-22 中国平安财产保险股份有限公司 单证图片识别方法、装置、计算机设备及存储介质
CN111401137A (zh) * 2020-02-24 2020-07-10 中国建设银行股份有限公司 证件栏位识别的方法和装置
CN111539296A (zh) * 2020-04-17 2020-08-14 河海大学常州校区 一种基于遥感影像变化检测的违章建筑识别方法及系统
CN112633051A (zh) * 2020-09-11 2021-04-09 博云视觉(北京)科技有限公司 一种基于图像搜索的在线人脸聚类方法
US20210256052A1 (en) * 2020-02-19 2021-08-19 Alibaba Group Holding Limited Image search method, apparatus, and device
CN113688263A (zh) * 2021-10-26 2021-11-23 北京欧应信息技术有限公司 用于搜索图像的方法、计算设备和存储介质
CN114170418A (zh) * 2021-11-30 2022-03-11 吉林大学 一种以图搜图的汽车线束连接器多特征融合图像检索方法
CN114461827A (zh) * 2022-02-07 2022-05-10 浪潮云信息技术股份公司 一种以图搜图的方法及装置
CN116467476A (zh) * 2023-03-30 2023-07-21 南京航空航天大学 一种基于关键局部信息的图像检索方法

Patent Citations (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246477A (ja) * 2003-02-12 2004-09-02 Fuji Xerox Co Ltd 画像探索装置
KR20050063021A (ko) * 2003-12-19 2005-06-28 (주) 네오솔 영상 검색 방법
JP2009048575A (ja) * 2007-08-22 2009-03-05 Sharp Corp クラスタリング装置、クラスタリング方法、プログラムおよび記録媒体
JP4205760B1 (ja) * 2007-12-27 2009-01-07 株式会社ファースト 画像マッチング方法、プログラムおよび応用装置
CN102129451A (zh) * 2011-02-17 2011-07-20 上海交通大学 图像检索系统中数据聚类方法
US8983941B1 (en) * 2011-03-28 2015-03-17 Google Inc. Visual content retrieval
CN103207879A (zh) * 2012-01-17 2013-07-17 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
JP2013246544A (ja) * 2012-05-24 2013-12-09 Hitachi Ltd 画像検索装置、画像検索方法
CN103514183A (zh) * 2012-06-19 2014-01-15 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103020141A (zh) * 2012-11-21 2013-04-03 北京百度网讯科技有限公司 一种用于提供搜索结果的方法和设备
JP2014211730A (ja) * 2013-04-18 2014-11-13 株式会社日立製作所 画像検索システム、画像検索装置および画像検索方法
CN103294813A (zh) * 2013-06-07 2013-09-11 北京捷成世纪科技股份有限公司 一种敏感图片搜索方法和装置
CN103870845A (zh) * 2014-04-08 2014-06-18 重庆理工大学 点云聚类去噪过程中新的k值优化方法
CN104102726A (zh) * 2014-07-22 2014-10-15 南昌航空大学 基于层次聚类的改进k均值聚类算法
CN104331513A (zh) * 2014-11-24 2015-02-04 中国科学技术大学 一种高效的图像检索性能预测方法
CN105844283A (zh) * 2015-01-16 2016-08-10 阿里巴巴集团控股有限公司 用于识别图像类目归属的方法、图像搜索方法及装置
US20190205331A1 (en) * 2017-01-20 2019-07-04 Rakuten, Inc. Image search system, image search method, and program
CN109147005A (zh) * 2018-08-24 2019-01-04 电子科技大学 一种用于红外图像的自适应染色方法、系统、存储介质、终端
CN110276764A (zh) * 2019-05-29 2019-09-24 南京工程学院 基于K值估计的K-Means水下图像背景分割改进算法
CN111191651A (zh) * 2019-12-06 2020-05-22 中国平安财产保险股份有限公司 单证图片识别方法、装置、计算机设备及存储介质
CN111143597A (zh) * 2019-12-13 2020-05-12 浙江大华技术股份有限公司 图像检索方法、终端及存储装置
US20210256052A1 (en) * 2020-02-19 2021-08-19 Alibaba Group Holding Limited Image search method, apparatus, and device
CN111401137A (zh) * 2020-02-24 2020-07-10 中国建设银行股份有限公司 证件栏位识别的方法和装置
CN111539296A (zh) * 2020-04-17 2020-08-14 河海大学常州校区 一种基于遥感影像变化检测的违章建筑识别方法及系统
CN112633051A (zh) * 2020-09-11 2021-04-09 博云视觉(北京)科技有限公司 一种基于图像搜索的在线人脸聚类方法
CN113688263A (zh) * 2021-10-26 2021-11-23 北京欧应信息技术有限公司 用于搜索图像的方法、计算设备和存储介质
CN114170418A (zh) * 2021-11-30 2022-03-11 吉林大学 一种以图搜图的汽车线束连接器多特征融合图像检索方法
CN114461827A (zh) * 2022-02-07 2022-05-10 浪潮云信息技术股份公司 一种以图搜图的方法及装置
CN116467476A (zh) * 2023-03-30 2023-07-21 南京航空航天大学 一种基于关键局部信息的图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
但松健;: "基于多核聚类算法和用户兴趣模型的图像搜索方法", 山东农业工程学院学报, no. 09, pages 45 - 51 *
喻飞;魏波;徐星;: "PSO与K-means混合聚类的PCB图像分割算法", 漳州师范学院学报(自然科学版), no. 03, pages 61 - 65 *

Also Published As

Publication number Publication date
CN116662588B (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN109800648B (zh) 基于人脸关键点校正的人脸检测识别方法及装置
CN111177446B (zh) 一种用于足迹图像检索的方法
US6430307B1 (en) Feature extraction system and face image recognition system
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN111274883B (zh) 基于多尺度hog特征和深层特征的合成素描人脸识别方法
CN113920472A (zh) 一种基于注意力机制的无监督目标重识别方法及系统
CN107220325A (zh) 一种基于卷积神经网络的app相似图标检索方法和系统
CN112232184A (zh) 一种基于深度学习和空间转换网络的多角度人脸识别方法
CN116258938A (zh) 基于自主进化损失的图像检索与识别方法
CN114495139A (zh) 一种基于图像的作业查重系统及方法
CN113592030A (zh) 基于复值奇异谱分析的图像检索方法和系统
CN112084353A (zh) 一种快速陆标-卷积特征匹配的词袋模型方法
CN116662588B (zh) 一种海量数据智能搜索方法及系统
CN109886325B (zh) 一种非线性颜色空间分类的模板选择与加速匹配方法
CN110334226B (zh) 融合特征分布熵的深度图像检索方法
CN114758135A (zh) 一种基于注意力机制的无监督图像语义分割方法
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN110750672B (zh) 基于深度度量学习和结构分布学习损失的图像检索方法
CN109241886B (zh) 基于olbp与pca的人脸识别方法和系统
CN109977849B (zh) 一种基于迹变换的图像纹理特征融合提取方法
CN111062338A (zh) 一种证照人像一致性比对方法及其系统
CN117373100B (zh) 基于差分量化局部二值模式的人脸识别方法及系统
CN111242152A (zh) 基于目标提取的图像检索方法
CN113723240B (zh) 基于Boosting和样本差异的通用指纹定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant