CN111309946A - 一种已建立档案优化方法及装置 - Google Patents

一种已建立档案优化方法及装置 Download PDF

Info

Publication number
CN111309946A
CN111309946A CN202010085148.5A CN202010085148A CN111309946A CN 111309946 A CN111309946 A CN 111309946A CN 202010085148 A CN202010085148 A CN 202010085148A CN 111309946 A CN111309946 A CN 111309946A
Authority
CN
China
Prior art keywords
image
file
archive
archives
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010085148.5A
Other languages
English (en)
Other versions
CN111309946B (zh
Inventor
周道利
阮学武
王典
邓祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202010085148.5A priority Critical patent/CN111309946B/zh
Publication of CN111309946A publication Critical patent/CN111309946A/zh
Priority to PCT/CN2020/110156 priority patent/WO2021128883A1/en
Application granted granted Critical
Publication of CN111309946B publication Critical patent/CN111309946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种已建立档案优化方法及装置,其中,该方法包括:获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征;分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据;分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理,可以解决相关技术中已建立的档案中存在同一个人有多个档案的问题,通过对数据库中已建立的档案进行优化,避免了同一个人存在多个档案,提高了档案归档的准确性。

Description

一种已建立档案优化方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种已建立档案优化方法及装置。
背景技术
目前人员档案建立的方案,都只是选定档案的主档人像,识别的人像与主档人像特征比对,达到相关阈值则认为是同一个人,反之则新建档案;
有些档案建立的方案会涉及更新主档人像,例如通过照片一种或多种质量参数设置权重更新主档人像,主档人像表示该档案内代表性的人像,最新抓拍照片特征会与主档人像比对判断是否为应归属到该档案内。
现有技术存在ABC问题,即ABC三张图片都为同一个人,但A与B达到阈值,B与C达到阈值,A与C达不到阈值。若A作为主档人像,则C不能归入A所在档案内。
针对相关技术中已建立的档案中存在同一个人有多个档案的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种已建立档案优化方法及装置,以至少解决相关技术中已建立的档案中存在同一个人有多个档案的问题。
根据本发明的一个实施例,提供了一种已建立档案优化方法,包括:
获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
可选地,分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理包括:
通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;
合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;
分别为所述M个档案选取一个数据点居中的图像作为目标主档图像。
可选地,分别对所述M个档案选取一个数据点居中的图像作为目标主档图像包括:
对所述M个档案中的每个档案执行以下操作以确定所述M个档案的目标主档图像,其中,执行以下操作的所述每个档案被称为当前目标档案:
确定所述当前目标档案中所有图像的图像特征的加权平均值;
将所述当前目标档案的所有图像中图像特征的值与所述加权平均值的距离最小的图像确定为所述当前目标档案的目标主档图像。
可选地,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中包括:
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标主档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标主档图像对应档案的目标主档图像和目标子档图像合并到所述参考档案的目标子档图像中;
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标子档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标子档图像合并到所述参考档案的目标子档图像中。
可选地,在将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中之后,所述方法还包括:
分别将所述参考档案的合并后的目标子档图像对应的图像特征确定为第二参考图像特征;
从所述变更后的N-1个档案中查找与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征;
将与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案的目标子档图像中,将所述参考档案的合并后的目标子档图像标记为已查找状态,直到所述参考档案的合并后的目标子档图像均标记为已查找状态,且从所述变更后的N-1个档案中未查找到与所述参考档案的最后一个目标子档图像对应的第二参考图像特征的相似度大于或等于所述预定阈值的图像特征。
可选地,分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到所述变更后的N个档案数据包括:
分别将所述N个档案的初始主档图像对应的图像特征确定为初始类中心;
对所述N个档案数据通过以下方式之一进行聚类分析,得到所述变更后的N个档案数据:K均值聚类算法、K中心点聚类算法、系统聚类法。
根据本发明的另一个实施例,还提供了一种已建立档案优化装置,包括:
获取模块,用于获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
聚类分析模块,用于分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
处理模块,用于分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
可选地,所述处理模块包括:
处理单元,用于通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;
合并单元,用于合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;
选取单元,用于分别为所述M个档案选取一个数据点居中的图像作为目标。
可选地,所述选取单元,还用于
对所述M个档案中的每个档案执行以下操作以确定所述M个档案的目标主档图像,其中,执行以下操作的所述每个档案被称为当前目标档案:
确定所述当前目标档案中所有图像的图像特征的加权平均值;
将所述当前目标档案的所有图像中图像特征的值与所述加权平均值的距离最小的图像确定为所述当前目标档案的目标主档图像。
可选地,所述处理单元,还用于
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标主档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标主档图像对应档案的目标主档图像和目标子档图像合并到所述参考档案的目标子档图像中;
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标子档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标子档图像合并到所述参考档案的目标子档图像中。
可选地,所述装置还包括:
第一确定单元,用于分别将所述参考档案的合并后的目标子档图像对应的图像特征确定为第二参考图像特征;
查找单元,用于从所述变更后的N-1个档案中查找与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征;
合并单元,用于将与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案的目标子档图像中,将所述参考档案的合并后的目标子档图像标记为已查找状态,直到所述参考档案的合并后的目标子档图像均标记为已查找状态,且从所述变更后的N-1个档案中未查找到与所述参考档案的最后一个目标子档图像对应的第二参考图像特征的相似度大于或等于所述预定阈值的图像特征。
可选地,所述聚类分析模块包括:
第二确定单元,用于分别将所述N个档案的初始主档图像对应的图像特征确定为初始类中心;
聚类分析单元,用于对所述N个档案数据通过以下方式之一进行聚类分析,得到所述变更后的N个档案数据:K均值聚类算法、K中心点聚类算法、系统聚类法。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理,可以解决相关技术中已建立的档案中存在同一个人有多个档案的问题,通过对数据库中已建立的档案进行优化,避免了同一个人存在多个档案,提高了档案归档的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种已建立档案优化方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种已建立档案优化方法的流程图;
图3是根据本发明实施例的数据库中已建立档案优化的流程图;
图4是根据本发明实施例的已建立档案优化装置的框图;
图5是根据本发明优选实施例的已建立档案优化装置的框图一;
图6是根据本发明优选实施例的已建立档案优化装置的框图二;
图7是根据本发明优选实施例的已建立档案优化装置的框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种已建立档案优化方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述移动终端,本发明实施例提供了一种已建立档案优化方法,图2是根据本发明实施例的一种已建立档案优化方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
步骤S204,分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
上述步骤S204中,以每个档案的初始主档图像对应的图像特征为初始类中心,进行聚类分析,重新确定每个档案中的类中心,可以通过多种方式进行聚类。
进一步地,分别将所述N个档案的主档图像的图像特征确定为初始类中心;对所述N个档案数据通过以下方式之一进行聚类分析,得到变更后的N个档案数据:K均值聚类算法、K中心点聚类算法、系统聚类法。
步骤S206,分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
上述步骤S206中,将N个档案中的每个档案作为参考图像,将其他档案中的档案数据进行相似度的对比,若在相似度范围内,便可以确定为同一个人,则将两个档案合并为一个档案。
通过上述步骤S202至S206,可以解决相关技术中已建立的档案中存在同一个人有多个档案的问题,通过对数据库中已建立的档案进行优化,避免了同一个人存在多个档案,提高了档案归档的准确性。
本发明实施例中,上述步骤S206具体可以包括:
通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;分别为所述M个档案选取一个数据点居中的图像作为目标主档图像。即将变更后的N个档案中每个档案的目标主档图像对应的图像特征为参考图像特征,将其他档案的目标主档图像对应的图像特征进行相似度的对比,若在相似度范围内,则可确定相似度在范围内的两个档案为同一个人的档案,则将两个档案中的目标主档图像和目标子档图像合并到一个档案中。通过上述方式可能会出现两次将两个图像合并到同一个档案中,对于合并后的档案中的目标主档图像,可以将两个档案中的目标主档图像均作为合并后的档案的目标主档图像,也可以将其中一个作为合并后的档案的目标主档图像,另外一个作为目标子档图像。
进一步地,对所述M个档案中的每个档案执行以下操作以确定所述M个档案的目标主档图像,其中,执行以下操作的所述每个档案被称为当前目标档案:确定所述当前目标档案中所有图像的图像特征的加权平均值;将所述当前目标档案的所有图像中图像特征的值与所述加权平均值的距离最小的图像确定为所述当前目标档案的目标主档图像。例如当前目标档案包括图像A、图像B、图像C以及图像D,每个图像对应的图像特征以三维特征为例,图像A对应的图像特征为(x1,y1,z1)、图像B对应的图像特征为(x2,y2,z2)、图像C对应的图像特征为(x3,y3,z3)以及图像D对应的图像特征为(x4,y4,z4),则图像A、B、C、D的图像特征的加权平均值为
Figure BDA0002381773720000105
其中,
Figure BDA0002381773720000101
Figure BDA0002381773720000102
Figure BDA0002381773720000103
其中,w1,w2,w3,w4分别为图像A、B、C、D对应的权重,可以相同也可以不同。
分别确定图像A、B、C、D与加权平均值为
Figure BDA0002381773720000104
的距离为:
Figure BDA0002381773720000111
Figure BDA0002381773720000112
Figure BDA0002381773720000113
Figure BDA0002381773720000114
选取LA、LB、LC、LD中最小值对应的图像确定为目标主体图像。
进一步地,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中包括:
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标主档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标主档图像对应档案的目标主档图像和目标子档图像合并到所述参考档案的目标子档图像中;
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标子档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标子档图像合并到所述参考档案的目标子档图像中。
为了进一步提高档案优化的准确性,本发明实施例进一步以参考档案的目标子档图像对应的图像特征为参考图像特征进一步优化档案,具体地,分别将所述参考档案的合并后的目标子档图像对应的图像特征确定为第二参考图像特征;从所述变更后的N-1个档案中查找与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征;将与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案的目标子档图像中,将所述参考档案的合并后的目标子档图像标记为已查找状态,直到所述参考档案的合并后的目标子档图像均标记为已查找状态,且从所述变更后的N-1个档案中未查找到与所述参考档案的最后一个目标子档图像对应的第二参考图像特征的相似度大于或等于所述预定阈值的图像特征。
下面将相似度的判断量化为距离来判断已建立的每两个档案是否为同一个的档案为例,对本发明实施例进行详细说明。
图3是根据本发明实施例的数据库中已建立档案优化的流程图,如3所示,包括:
步骤S301,将已建立档案数据作为聚类数据,其中,档案的主档人像作为类中心进行聚类分析,具体的,获取现已建档数据,其中包含主档人像及其子档特征数据集合,以所有主档人像特征数据为初始类中心,进行聚类分析,聚类方法包括但不限于K-均值聚类、K-中心点聚类、系统聚类法,此处以K均值为例,K均值聚类:A、将每个点分配到最近的类中心点,形成对应类;B、类内数据每一维计算平均值,得到新的类中心;C、重复步骤A和B,直到类中心不再发生变化;
步骤S302,得到聚类后的数据,确定类中心全集合,若聚类分析后的类中心不是现有数据点,则以最近的现有特征数据点作为类中心,最终确定新的类中心全集合;
步骤S303,取类中心全集合中一个数据为初始点(若状态为已查找,则不再重复查找),以2倍阈值距离为半径(人像特征数据之间的相似度可以定量的用距离来表示,距离表现方式包括但不限于欧式距离、余弦距离。此处以欧式距离为例,距离越小越相似),查找与其在对应距离内的类中心数据点,加入类中心子集合,并标识该点已查找状态。2倍阈值指的是:同一个人的人像特征X、Y、Z,类中心X与子集数据点Y相似,在1倍阈值距离内,子集数据Y又与类中心Z相似,在1倍阈值距离内,那么类中心X用2倍阈值可找到Z。这个过程便可规避解决现有技术的存在ABC问题。
步骤S304,判断类中心子集合是否都已查找过,若类中心子集合中数据状态都为已查找,则触发步骤S306;反之,则触发步骤S305;
步骤S305,取类中心子集合中一个数据点作为初始点(若状态为已查找,则不再重复查找),以2倍阈值距离为半径,查找与其在对应距离内的类中心数据点,加入类中心子集合,并标识该点已查找状态;进而触发步骤S304;
步骤S306,归档形成该人对应的档案,其中,包含一个或多个类中心及其类内数据点子集;
步骤S307,判断类中心全集合是否都已经遍历查找完成,若类中心全集合中数据状态都为已查找,则触发步骤S308;反之,触发步骤S303;
步骤S308,完成档案合并优化。
下面以人像A,B,C,D,E,X,Y,Z,数据库中被分为3个档案为例对本发明实施例进行说明。
A,B,C,D,E,X,Y,Z条件如下:
A与C不相似,A,C为主档人像;
B与A相似,为A的子档;
D,E与A,C相似,与C更相似,为C的子档;
B与C相似,D与E相似;
X,Y,Z相互相似,但与A,B,C,D,E都不相似,其中,X为主档人像。
归档优化步骤如下:
1、以A,C,X为初始类中心,进行聚类分析,得到新的类中心全集B,D及B子档A,D子档C,E,Y子档X,Z;
2、选取类中心B开始查找,以1倍阈值距离为半径,得到数据点子集A,C,并标识B为已查找状态;
3、选取数据点子集点A为初始点,以1倍阈值距离为半径,得到达到阈值距离的类中心子集B,D,并标识A为已查找状态;(以上步骤2和步骤3可合并成以类中心数据B为初始点,2倍阈值距离直接去查找类中心数据)
4、选取类中心D开始查找,得到数据点子集A,C,E,并标识D为已查找状态;
5、选取数据点子集点C开始查找,得到达到阈值的类中心B,D;(以上步骤4和步骤5可合并成以类中心数据C为初始点,2倍阈值距离直接去查找类中心数据)
6、步骤2至步骤5中类中心B,D已经遍历查找过,类中心B,D被确定为同一个档案内,形成该人对应档案(包含2个类中心B,D,及其类内数据点子集C,D,E);
7、选取类中心Y开始查找,以1倍阈值距离为半径,得到数据点子集X,Z,并标识Y为已查找状态;
8、选取数据点子集点X,Z为初始点,以1倍阈值距离为半径,得到达到阈值距离的类中心子集都只有Y,未找到新增类中心,并标识X,Z为已查找状态;
9、步骤7至步骤8中类中心Y已经遍历查找过,类中心Y被确定为同一个档案内,形成该人对应档案(包含1个类中心Y,及其类内数据点子集X,Z);
10、至此,所有数据点都被遍历查找,档案合并优化完成。
实施例2
本发明实施例,还提供了一种已建立档案优化装置,图4是根据本发明实施例的已建立档案优化装置的框图,如图4所示,包括:
获取模块42,用于获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
聚类分析模块44,用于分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
处理模块46,用于分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
图5是根据本发明优选实施例的已建立档案优化装置的框图一,如图5所示,所述处理模块46包括:
处理单元52,用于通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;
合并单元54,用于合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;
选取单元56,用于分别为所述M个档案选取一个数据点居中的图像作为目标。
可选地,所述选取单元56,还用于
对所述M个档案中的每个档案执行以下操作以确定所述M个档案的目标主档图像,其中,执行以下操作的所述每个档案被称为当前目标档案:
确定所述当前目标档案中所有图像的图像特征的加权平均值;
将所述当前目标档案的所有图像中图像特征的值与所述加权平均值的距离最小的图像确定为所述当前目标档案的目标主档图像。
可选地,所述处理单元52,还用于
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标主档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标主档图像对应档案的目标主档图像和目标子档图像合并到所述参考档案的目标子档图像中;
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标子档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标子档图像合并到所述参考档案的目标子档图像中。
图6是根据本发明优选实施例的已建立档案优化装置的框图二,如图6所示,所述装置还包括:
第一确定单元62,用于分别将所述参考档案的合并后的目标子档图像对应的图像特征确定为第二参考图像特征;
查找单元64,用于从所述变更后的N-1个档案中查找与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征;
合并单元66,用于将与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案的目标子档图像中,将所述参考档案的合并后的目标子档图像标记为已查找状态,直到所述参考档案的合并后的目标子档图像均标记为已查找状态,且从所述变更后的N-1个档案中未查找到与所述参考档案的最后一个目标子档图像对应的第二参考图像特征的相似度大于或等于所述预定阈值的图像特征。
图7是根据本发明优选实施例的已建立档案优化装置的框图三,如图7所示,所述聚类分析模块44包括:
第二确定单元72,用于分别将所述N个档案的初始主档图像对应的图像特征确定为初始类中心;
聚类分析单元74,用于对所述N个档案数据通过以下方式之一进行聚类分析,得到所述变更后的N个档案数据:K均值聚类算法、K中心点聚类算法、系统聚类法。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
S2,分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
S3,分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
S2,分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
S3,分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种已建立档案优化方法,其特征在于,包括:
获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
2.根据权利要求1所述的方法,其特征在于,分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理包括:
通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;
合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;
分别为所述M个档案选取一个数据点居中的图像作为目标主档图像。
3.根据权利要求2所述的方法,其特征在于,分别对所述M个档案选取一个数据点居中的图像作为目标主档图像包括:
对所述M个档案中的每个档案执行以下操作以确定所述M个档案的目标主档图像,其中,执行以下操作的所述每个档案被称为当前目标档案:
确定所述当前目标档案中所有图像的图像特征的加权平均值;
将所述当前目标档案的所有图像中图像特征的值与所述加权平均值的距离最小的图像确定为所述当前目标档案的目标主档图像。
4.根据权利要求2所述的方法,其特征在于,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中包括:
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标主档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标主档图像对应档案的目标主档图像和目标子档图像合并到所述参考档案的目标子档图像中;
在与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应目标子档图像的情况下,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的目标子档图像合并到所述参考档案的目标子档图像中。
5.根据权利要求4所述的方法,其特征在于,在将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中之后,所述方法还包括:
分别将所述参考档案的合并后的目标子档图像对应的图像特征确定为第二参考图像特征;
从所述变更后的N-1个档案中查找与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征;
将与所述第二参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案的目标子档图像中,将所述参考档案的合并后的目标子档图像标记为已查找状态,直到所述参考档案的合并后的目标子档图像均标记为已查找状态,且从所述变更后的N-1个档案中未查找到与所述参考档案的最后一个目标子档图像对应的第二参考图像特征的相似度大于或等于所述预定阈值的图像特征。
6.根据权利要求1至5中任一项所述的方法,其特征在于,分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到所述变更后的N个档案数据包括:
分别将所述N个档案的初始主档图像对应的图像特征确定为初始类中心;
对所述N个档案数据通过以下方式之一进行聚类分析,得到所述变更后的N个档案数据:K均值聚类算法、K中心点聚类算法、系统聚类法。
7.一种已建立档案优化装置,其特征在于,包括:
获取模块,用于获取数据库中已建立的N个档案数据,其中,所述N个档案数据包括N个档案的初始主档图像对应的图像特征和初始子档图像对应的图像特征,所述初始主档图像为代表目标人物的图像,N为大于1的整数;
聚类分析模块,用于分别将所述N个档案的初始主档图像对应的图像特征作为初始类中心,对所述N个档案数据进行聚类分析,得到变更后的N个档案数据,其中,所述变更后的N个档案数据包括变更后的N个档案的目标主档图像对应的图像特征和目标子档图像对应的图像特征,其中,所述目标主档图像与所述初始主档图像相同或不同;
处理模块,用于分别将所述变更后的N个档案作为参考档案,根据所述参考档案对所述变更后的N个档案数据重新进行归档处理。
8.根据权利要求7所述的装置,其特征在于,所述处理模块包括:
处理单元,用于通过对所述变更后的N个档案中的每个档案执行以下操作对所述变更后的N个档案数据重新进行归档处理,其中,执行以下操作的所述每个档案被称为当前档案:将所述当前档案确定为参考档案,并将所述参考档案的目标主档图像对应的图像特征确定为第一参考图像特征,从所述参考档案之外的变更后的N-1个档案中查找与所述第一参考图像特征的相似度大于或等于预定阈值的图像特征,将与所述第一参考图像特征的相似度大于或等于所述预定阈值的图像特征对应的目标主档图像或目标子档图像合并到所述参考档案中;
合并单元,用于合并所述变更后的N个档案中具有相同图像特征的档案,得到M个档案,其中,N大于或等于M;
选取单元,用于分别为所述M个档案选取一个数据点居中的图像作为目标。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
CN202010085148.5A 2019-12-23 2020-02-10 一种已建立档案优化方法及装置 Active CN111309946B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010085148.5A CN111309946B (zh) 2020-02-10 2020-02-10 一种已建立档案优化方法及装置
PCT/CN2020/110156 WO2021128883A1 (en) 2019-12-23 2020-08-20 Systems and methods for managing portrait data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085148.5A CN111309946B (zh) 2020-02-10 2020-02-10 一种已建立档案优化方法及装置

Publications (2)

Publication Number Publication Date
CN111309946A true CN111309946A (zh) 2020-06-19
CN111309946B CN111309946B (zh) 2023-04-07

Family

ID=71146881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085148.5A Active CN111309946B (zh) 2019-12-23 2020-02-10 一种已建立档案优化方法及装置

Country Status (1)

Country Link
CN (1) CN111309946B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445925A (zh) * 2020-11-24 2021-03-05 浙江大华技术股份有限公司 聚类归档方法、装置、设备及计算机存储介质
WO2021128883A1 (en) * 2019-12-23 2021-07-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for managing portrait data
CN117854664A (zh) * 2024-03-07 2024-04-09 辽宁鑫浩医疗科技有限公司 电子孕妇健康档案管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109740004A (zh) * 2018-12-28 2019-05-10 上海依图网络科技有限公司 一种归档方法及装置
US20190146991A1 (en) * 2016-06-09 2019-05-16 Panasonic Intellectual Property Management Co., Ltd. Image search device, image search system, and image search method
CN109783685A (zh) * 2018-12-28 2019-05-21 上海依图网络科技有限公司 一种查询方法及装置
CN110163137A (zh) * 2019-05-13 2019-08-23 深圳市商汤科技有限公司 一种图像处理方法、装置和存储介质
CN110472091A (zh) * 2019-08-22 2019-11-19 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190146991A1 (en) * 2016-06-09 2019-05-16 Panasonic Intellectual Property Management Co., Ltd. Image search device, image search system, and image search method
CN109241378A (zh) * 2018-08-29 2019-01-18 北京旷视科技有限公司 档案建立方法、装置、设备及存储介质
CN109740004A (zh) * 2018-12-28 2019-05-10 上海依图网络科技有限公司 一种归档方法及装置
CN109783685A (zh) * 2018-12-28 2019-05-21 上海依图网络科技有限公司 一种查询方法及装置
CN110163137A (zh) * 2019-05-13 2019-08-23 深圳市商汤科技有限公司 一种图像处理方法、装置和存储介质
CN110472091A (zh) * 2019-08-22 2019-11-19 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021128883A1 (en) * 2019-12-23 2021-07-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for managing portrait data
CN112445925A (zh) * 2020-11-24 2021-03-05 浙江大华技术股份有限公司 聚类归档方法、装置、设备及计算机存储介质
CN112445925B (zh) * 2020-11-24 2022-08-26 浙江大华技术股份有限公司 聚类归档方法、装置、设备及计算机存储介质
CN117854664A (zh) * 2024-03-07 2024-04-09 辽宁鑫浩医疗科技有限公司 电子孕妇健康档案管理方法及系统
CN117854664B (zh) * 2024-03-07 2024-05-14 辽宁鑫浩医疗科技有限公司 电子孕妇健康档案管理方法及系统

Also Published As

Publication number Publication date
CN111309946B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11526799B2 (en) Identification and application of hyperparameters for machine learning
CN111309946B (zh) 一种已建立档案优化方法及装置
CN110019876B (zh) 数据查询方法、电子设备及存储介质
CN108536753B (zh) 重复信息的确定方法及相关装置
CN110378249B (zh) 文本图像倾斜角度识别方法、装置及设备
CN105760469A (zh) 云计算环境下基于倒排lsh的高维近似图象检索方法
CN110298687B (zh) 一种区域吸引力评估方法及设备
CN103353881A (zh) 一种应用程序搜索方法及装置
CN111651624A (zh) 一种图像检索方法及装置
CN111709303A (zh) 一种人脸图像的识别方法和装置
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN108537291A (zh) 一种样本分类方法和装置
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN113157962B (zh) 图像检索方法、电子装置和存储介质
CN112215287B (zh) 基于距离的多节聚类方法和装置、存储介质及电子装置
CN112118189B (zh) 一种流量采样方法、计算机设备及计算机可读存储介质
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法
CN113536020A (zh) 数据查询的方法、存储介质和计算机程序产品
CN112052251A (zh) 目标数据更新方法和相关装置、设备及存储介质
WO2017065795A1 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
US20230169096A1 (en) Sample Data Annotation System and Method, and Related Device
CN110427870B (zh) 眼部图片识别方法、目标识别模型训练方法及装置
CN111191065A (zh) 一种同源图像确定方法及装置
CN111127481A (zh) 基于tof图像联通区域的图像识别方法及装置
CN115146103A (zh) 图像检索方法、装置、计算机设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant