CN112560731A - 特征聚类方法、数据库更新方法、电子设备及存储介质 - Google Patents

特征聚类方法、数据库更新方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112560731A
CN112560731A CN202011530197.1A CN202011530197A CN112560731A CN 112560731 A CN112560731 A CN 112560731A CN 202011530197 A CN202011530197 A CN 202011530197A CN 112560731 A CN112560731 A CN 112560731A
Authority
CN
China
Prior art keywords
feature
features
clustered
target
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011530197.1A
Other languages
English (en)
Other versions
CN112560731B (zh
Inventor
蔡啸
肖潇
章勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN202011530197.1A priority Critical patent/CN112560731B/zh
Publication of CN112560731A publication Critical patent/CN112560731A/zh
Application granted granted Critical
Publication of CN112560731B publication Critical patent/CN112560731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本发明涉及数据处理技术领域,具体涉及特征聚类方法、数据库更新方法及装置,所述特征聚类方法包括获取各个待聚类特征;基于各个待聚类特征,确定第一权重图,第一权重图中的节点包括各个待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度;将第一权重图输入聚类网络中,确定各个待聚类特征的初次聚类结果,所述初次聚类结果包括各个待聚类特征对应的初始簇以及各个初始簇的代表特征;基于初次聚类结果,构建第二权重图,所述第二权重图中的节点包括各个初始簇的代表特征;将第二权重图输入聚类网络中,以确定各个待聚类特征的目标聚类结果。利用自底向上、层次聚类的框架,来达到准确率与召回率的平衡。

Description

特征聚类方法、数据库更新方法、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及特征聚类方法、数据库更新方法、电子设备及存储介质。
背景技术
人员识别及车辆识别是安防大数据应用中的重要一环,例如,针对嫌疑人的追踪,大部分监控视频的像素清晰度不够识别出人脸,这时候就需要对嫌疑人的外形特征进行追踪,再配上载具、同伴、随行物品等其他特征,就可以有效地对嫌疑人进行轨迹研判。然而,对于人脸识别或车辆识别是一个开集问题,现实场景中的人员或车辆通常没有在训练样本中出现过,所以无法使用分类算法,通过网络推理直接得到人员或车辆标签。作为对比,特征聚类对训练样本的要求稍低,只需要知道样本的特征描述、相似度度量标准就可以完成人员识别。
现有的聚类算法一般是利用深度学习算法,进行特征提取后再进行两两比对,并通过设置阈值来进行二值判断。然而,这种方法的问题在于,存在经验型超参数,难以稳定地取得准确率与召回率的平衡,在不同场景下的落地效果存在大量的调试成本。
发明内容
有鉴于此,本发明实施例提供了一种特征聚类方法、数据库更新方法、电子设备及存储介质,以解决现有聚类算法所导致的难以稳定地取得准确率与召回率平衡的问题。
根据第一方面,本发明实施例提供了一种特征聚类方法,包括:
获取各个待聚类特征;
基于所述各个待聚类特征,确定第一权重图,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度;
将所述第一权重图输入聚类网络中,确定各个所述待聚类特征的初次聚类结果,所述初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征;
基于所述初次聚类结果,构建第二权重图,所述第二权重图中的节点包括各个所述初始簇的代表特征;
将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果。
本发明实施例提供的特征聚类方法,在确定出各个待聚类特征的初次聚类结果之后,再结合初次聚类结果进行二次聚类,利用自底向上、层次聚类的框架,来达到准确率与召回率的平衡。即,一方面,单次聚类高准确率,以预防不同特征合并成超大簇;另一方面,用层次聚类(多次调用)来提高整个流程的召回率将初次聚类结果中的小簇转换成成第二次聚类输入中的节点,进行小簇与小簇的合并,提高召回率。
结合第一方面,在第一方面第一实施方式中,所述待聚类特征为新增特征,所述基于所述各个待聚类特征,确定第一权重图,包括:
对所述各个待聚类特征进行聚类处理,得到所述各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度;
基于所述各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度,构建所述第一权重图。
本发明实施例提供的特征聚类方法,仅利用待聚类特征进行第一权重图的构建,减少了聚类的数据处理量,提高了特征聚类的效率。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述基于所述初次聚类结果,构建第二权重图,包括:
获取各个历史簇的代表特征;
对所述各个初始簇的代表特征以及所述各个历史簇的代表特征进行聚类处理,得到各个所述代表特征对应的预设数量的最相似代表特征及其相似度;
基于各个所述代表特征对应的预设数量的最相似代表特征及其相似度,构建所述第二权重图。
本发明实施例提供的特征聚类方法,在二次聚类处理时,仅涉及历史簇的代表特征以及初始簇的代表特征,一方面利用原有数据进行聚类处理,可以保证聚类的准确性,另一方面仅涉及原有数据中的代表特征,可以减少数据处理量,提高处理效率。
结合第一方面,在第一方面第三实施方式中,所述待聚类特征包括新增特征以及各个历史簇的所有特征,所述基于所述各个待聚类特征,确定第一权重图,包括:
对所述各个待聚类特征进行聚类处理,得到各个特征对应的预设数量的最相似特征及其相似度;
基于所述各个特征对应的预设数量的最相似特征及其相似度,构建所述第一权重图。
本发明实施例提供的特征聚类方法,利用历史簇的特征以及各个新增特征进行聚类处理,可以保证聚类处理的特征数据的全面性,实现对特征数据的全面聚类。
结合第一方面第三实施方式,在第一方面第四实施方式中,所述基于所述初次聚类结果,构建第二权重图,包括:
对所述各个初始簇的代表特征进行聚类处理,得到各个所述代表特征对应的预设数量的最相似代表特征及其相似度;
基于各个所述代表特征对应的预设数量的最相似代表特征及其相似度,构建所述第二权重图。
本发明实施例提供的特征聚类方法,由于在第一次聚类处理时已经结合了历史簇中的所有特征,在第二次聚类处理时仅需要涉及到初始簇的代表特征,可以减少数据处理量。
结合第一方面第二实施方式,或第一方面第四实施方式,在第一方面第五实施方式中,所述将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果,包括:
将所述第二权重图输入所述聚类网络中,得到各个所述代表特征的置信度;
基于各个所述代表特征的置信度以及所述第二权重图,确定各个所述代表特征对应的目标簇以及所述目标簇的代表特征,以确定各个所述待聚类特征的目标聚类结果。
本发明实施例提供的特征聚类方法,由于第二权重图已经对各个代表特征进行初步的聚类处理,再利用各个置信度以及第二权重图,进行各个待聚类特征的目标聚类结果的确定,一方面可以提高聚类处理的效率,另一方面可以保证聚类的准确性。
结合第一方面第五实施方式,在第一方面第六实施方式中,所述基于各个所述代表特征的置信度以及所述第二权重图,确定各个所述代表特征对应的目标簇以及所述目标簇的代表特征,以确定各个所述待聚类特征的目标聚类结果,包括:
对于所述第二权重图中的预设节点,从所述预设节点的邻居节点中确定置信度大于所述预设节点对应的置信度的第一目标邻居节点;
从所述第一目标邻居节点中筛选出与所述预设节点的相似度大于预设值的第二目标邻居节点;
比较各个第二目标邻居节点与所述预设节点之间的距离,确定距离最小的第二目标邻居节点与所述预设节点属于相同的目标簇,以确定各个所述待聚类特征的目标聚类结果。
根据第二方面,本发明实施例还提供了一种数据库更新方法,所述方法包括:
获取各个待聚类特征的目标聚类结果,所述各个待聚类特征的目标聚类结果是根据本发明第一方面,或第一方面任一项实施方式中所述的特征聚类方法确定的;
根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新。
本发明实施例提供的数据库更新方法,在准确率与召回率平衡的基础上,实现了对目标数据库的更新。
结合第二方面,在第二方面第一实施方式中,所述根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新,包括:
当所述待聚类特征为新增特征时,基于所述各个新增特征的目标聚类结果,对所述目标数据库进行更新,所述目标聚类结果包括所述新增特征对应的目标簇;
和/或,
当所述待聚类特征包括新增特征以及各个历史簇的所有特征时,基于所述各个待聚类特征的目标聚类结果,重新建立所述目标数据库,所述目标聚类结果包括各个待聚类特征对应的目标簇以及各个所述目标簇的代表特征。
本发明实施例提供的数据库更新方法,提供了两种数据库更新的方法,其一为节能型,即所述的基于所述各个待聚类特征的目标聚类结果以及所述历史簇,对所述目标数据库进行更新,即对历史簇进行更新,或者新增目标簇;其二为完整型,即基于所述各个待聚类特征的目标聚类结果,重新建立目标数据库,即对目标数据库全部进行重建;这两种方式能够兼顾满足目标数据库的迭代需求和算力负担。
结合第二方面第一实施方式,在第二方面第二实施方式中,所述当所述待聚类特征为新增特征时,基于所述各个新增特征的目标聚类结果以及所述目标数据库中的历史簇,对所述目标数据库进行更新,包括:
判断所述历史簇中是否存在与所述目标簇相同的簇;
当所述历史簇中存在与所述目标簇相同的簇时,将所述目标簇对应的新增特征加入所述历史簇中;
当所述历史簇中不存在与所述目标簇相同的簇时,在所述目标数据库中新增所述目标簇,并确定所述目标簇的特征以及代表特征。
本发明实施例提供的数据库更新方法,针对未聚类数据进行目标数据库的更新,可以减少数据处理量,适合短间隔的粗更新策略。
结合第二方面第一实施方式,在第二方面第三实施方式中,所述当所述待聚类特征包括新增特征以及各个历史簇的所有特征时,基于所述各个待聚类特征的目标聚类结果,重新建立所述目标数据库,包括:
获取各个所述历史簇的目标聚类结果;
基于各个所述历史簇的目标聚类结果,重新建立所述目标数据库。
本发明实施例提供的数据库更新方法,针对所有数据,既包括未聚类数据又包括已聚类数据,进行目标数据库的更新,适合长间隔的细更新策略。
根据第三方面,本发明实施例还提供了一种特征聚类装置,包括:
第一获取模块,用于获取各个待聚类特征;
第一确定模块,用于基于所述各个待聚类特征,确定第一权重图,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度;
第一聚类模块,用于将所述第一权重图输入聚类网络中,确定各个所述待聚类特征的初次聚类结果,所述初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征;
第二确定模块,用于基于所述初次聚类结果,构建第二权重图,所述第二权重图中的节点包括各个所述初始簇的代表特征;
第二聚类模块,用于将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果。
本发明实施例提供的特征聚类装置,在确定出各个待聚类特征的初次聚类结果之后,再结合初次聚类结果进行二次聚类,利用自底向上、层次聚类的框架,来达到准确率与召回率的平衡。即,一方面,单次聚类高准确率,以预防不同特征合并成超大簇;另一方面,用层次聚类(多次调用)来提高整个流程的召回率将初次聚类结果中的小簇转换成成第二次聚类输入中的节点,进行小簇与小簇的合并,提高召回率。
根据第四方面,本发明实施例还提供了一种数据库更新装置,包括:
第二获取模块,用于获取各个待聚类特征的目标聚类结果,所述各个待聚类特征的目标聚类结果是根据本发明第一方面,或第一方面任一项实施方式中所述的特征聚类方法确定的;
更新模块,用于根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新。
本发明实施例提供的数据库更新装置,在准确率与召回率平衡的基础上,实现了对目标数据库的更新。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的特征聚类方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的数据库更新方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的特征聚类方法的流程图;
图2是根据本发明实施例的二次聚类的过程示意图;
图3是根据本发明实施例的特征聚类方法的流程图;
图4是根据本发明实施例的特征聚类方法的流程图;
图5是根据本发明实施例的特征聚类方法的流程图;
图6是根据本发明实施例的聚类分簇的过程示意图;
图7是根据本发明实施例的数据库更新方法的流程图;
图8是根据本发明实施例的数据库更新方法的流程图;
图9是根据本发明实施例的特征聚类装置的结构框图;
图10是根据本发明实施例的特征聚类装置的结构框图;
图11是本发明实施例提供的电子设备的硬件结构示意图;
图12是本发明实施例提供的数据库更新的过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所述的特征聚类方法,是用于对不同目标的同一特征聚类,以将各个特征归属于各自对应的目标簇下。例如,所述的目标可以是人员,也可以是车辆,也可以是其他目标等等。当所述的目标为人员时,所述的特征可以是人脸特征,也可以是形体特征等等;当所述的目标为车辆时,所述的特征可以是车窗,也可以是年检标签等等。在此对目标以及目标的特征并不做任何限制。其中,在下文中以目标为人员为例进行描述。
根据本发明实施例,提供了一种特征聚类方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种特征聚类方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例的特征聚类方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取各个待聚类特征。
如上文所述,各个待聚类特征是不同人员的同一特征。其中,待聚类特征可以是新增特征,也可以是包括新增特征以及数据库中历史簇的所有特征。具体采用哪种或哪些特征作为待聚类特征,具体可以根据实际情况进行相应的设置。其中,数据库是指用于存储历史特征聚类结果的数据库,数据库中历史簇的所有特征是指已经聚类的特征。
所述的新增特征可以是电子设备从外界获取到的,也可以是电子对获取到的待处理图像进行特征提取得到的,在此对电子设备获取各个新增特征的方式并不做任何限制。
例如,电子设备可以对监控视频的图像帧进行分析,分别提取不同人员的人员特征,将其作为新增特征。
具体地,可以从监控视频的连续若干帧里,提取出某一人员的连贯动作抓拍图,形成一个跟踪图像序列。再对跟踪图像序列中的各个图像进行评估,并基于评估结果从跟踪图像序列中选出具有代表性的一个或多个图像。其中,筛选的准则包括但不限于:最佳人体姿态、最多可见人体关键点、最多特征图激活区域、基于k-means++选取的中心图片等等。将选出的一个或多个图像送入一个基于尺寸较大的卷积神经网络的特征提取模块中,提取浮点类型的特征,得到人员特征,即为所述的新增特征。同样地,对其他图像,或同一图像中的其他目标进行类似的处理,即可得到各个新增特征。
进一步可选地,为了减少存储长度,可以选择是否将浮点特征量化为int8特征。
S12,基于各个待聚类特征,确定第一权重图。
其中,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度。
电子设备在上述S11中获取到各个新增特征时,可以仅利用新增特征确定第一权重图;此外,在电子设备中还存储有数据库,在该数据库中包括有历史特征聚类的结果,电子设备还可以在各个新增特征的基础上,结合数据库历史簇中的所有特征,确定第一权重图。
其中,不论是仅利用新增特征,还是在新增特征的基础上结合数据库历史簇中的所有特征确定第一权重图,均是基于特征形成第一权重图的。电子设备可以对特征进行聚类处理,得到所述的权重图。在此对聚类处理的具体方式并不做任何限制,具体可以根据实际情况进行相应的设置。
例如,电子设可以对所有特征做一次最近邻算法,得到每个特征最相似的K个特征,以及对应的余弦相似度。再以最近邻算法的结果构建第一权重图,该第一权重图的节点是各个特征,图的边连接了互为K个近邻的两个节点,边的权重为对应的两个节点的余弦相似度。其中,当节点i和节点j互为邻居时,边的权重为余弦相似度;当节点i和节点j不为邻居时,边的权重为0。
S13,将第一权重图输入聚类网络中,确定各个待聚类特征的初次聚类结果。
其中,初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征。
聚类网络的输入为权重图和特征,输出为权重图中的各个节点的置信度。其中,置信度的定义为:若某节点的k个近邻中,与该节点对应同一个人员的节点数量为k1,代表不同人员的节点数量为k-k1,则置信度可以标记为f=k1/k。置信度越高表示该节点周围的节点越有可能表示同一人员。
具体地,电子设备将第一权重图和各个待聚类特征输入聚类网络中,得到各个节点对应的置信度;再利用各个节点对应的置信度进行初次聚类结果的确定。其中,初次聚类结果表示各个待聚类特征对应的初始簇,以及各个初始簇的代表特征。
具体地,不同的初始簇用于表示不同的人员,即,人员与初始簇一一对应。将属于同一人员的待聚类特征对应到相应的初始簇中,且可以利用初始簇中各个特征的置信度确定初始簇的代表特征。所述的代表特征也可以利用其它方式确定,在此并不做任何限制。
其中,所述的聚类网络可以是图卷积神经网络中复用的层结构,多个层结构级联,最后再串接一个输出单元数为1的全连接结构,构成了完整的图卷积神经网络。具体复用的层结构的数量可以根据实际需求进行相应的设置,可以是一个,两个或三个等等。该网络的输入为节点的特征,输出为节点的置信度。
例如,所述层结构的第l层可以描述为:
Fl+1=σ(g(A,Fl)Wl)
其中,A为第一权重图的矩阵,Fl和Fl+1分别代表输入第l层和第l+1层的输入embeddings(嵌入),其中,embeddings包括线性变化后的特征向量、中间结果、中间特征等,F(0)是将特征提取后得到的浮点特征转换为int8特征所对应的反量化所得,σ()为激活函数,例如,ReLU层,W是待训练的权重矩阵,g()的表达式为:
Figure BDA0002851950520000063
其中,
Figure BDA0002851950520000061
Figure BDA0002851950520000064
矩阵是用于归一化的对角阵。
S14,基于初次聚类结果,构建第二权重图。
其中,所述第二权重图中的节点包括各个初始簇的代表特征。
由于需要判断新增特征是否能够归入已存在的历史簇中,进一步地,在一些实施方式中,还需要根据新增特征对历史簇中的特征之间的连接关系进行更新,如重新确定历史簇的代表特征或根据新增特征重新聚合所有特征形成新的数据库等,因此,需要结合新增特征和历史簇特征构建第二权重图。
在一个实施方式中,若初次聚类中使用的是新增特征和数据库历史簇中的所有特征作为待聚类特征确定第一权重图,则电子设备经过上述S13的聚类网络之后,输出的初次聚类结果为所有特征的聚类结果,初次聚类结果包括所有特征的初始簇及代表特征,电子设备可以利用初次聚类结果中各个初始簇的代表特征构建第二权重图。
在另一个实施方式中,若初次聚类中使用的是新增特征,则电子设备经过上述S13的聚类网络之后,输出的初次聚类结果仅为新增特征的聚类结果,该聚类结果仅包括新增特征的初始簇和代表特征,为了将新增特征与数据库历史簇特征进行聚类,需获取数据库历史簇的代表特征,然后利用初次聚类结果中各个初始簇的代表特征与历史簇的代表特征构建第二权重图,在此对其并不做任何限制,具体可以根据实际情况进行相应的设置。
对于第二权重图的构建方式,与上述S12中构建第一权重图的方式类似,不同的是构建所用的特征不同,构建第二权重图使用的是各个簇的代表特征。具体可以参见上述S12的详细描述,在此不再赘述。
S15,将第二权重图输入聚类网络中,以确定各个待聚类特征的目标聚类结果。
电子设备在得到第二权重图之后,将第二权重图和各个簇的代表特征输入聚类网络中,得到第二权重图中各个代表特征对应的置信度;再利用置信度确定各个待聚类特征的目标聚类结果。其中,关于聚类网络的具体网络结构以及处理方式,请参见上述S13中的详细描述,在此不再赘述。
本实施例中电子设备对相应的特征分别经过两次聚类网络的处理,以得到待聚类特征的目标聚类结果,也可以是经过三次聚类网络的处理,或其他次数的聚类网络的处理等等。
以两次聚类为例,如图2所示,基于输入特征构建第一权重图,将第一权重图输入聚类网络中,得到第一权重图中各个节点的置信度,基于置信度确定初次聚类结果;在基于初次聚类结果构建第二权重图,将第二权重图输入聚类网络中,得到第二权重图中各个节点的置信度,基于该置信度确定待聚类特征的目标聚类结果。
本实施例提供的特征聚类方法,在确定出各个待聚类特征的初次聚类结果之后,再基于初次聚类结果进行二次聚类,利用自底向上、层次聚类的框架,来达到准确率与召回率的平衡。即,一方面,单次聚类高准确率,以预防不同特征合并成超大簇;另一方面,用层次聚类(多次调用)来提高整个流程的召回率将初次聚类结果中的小簇转换成成第二次聚类输入中的节点,进行小簇与小簇的合并,提高召回率。
需要说明的是,本发明实施例中关于第一权重图以及第二权重图的构建可以分为两种处理方式进行,其一为节能型,其二为完整型。对应于节能型,在第一权重图的构建中只针对新增特征,第二权重图的构建中是针对新增特征的初次聚类结果中的代表特征与历史簇中的代表特征;对于完整型,在第一权重的构建中针对新增特征以及历史簇中的所有特征,第二权重图的构建是针对上述特征的初次聚类结果中的代表特征。
关于上述两种处理方式,具体将在下文中分别进行详细描述。
在一个实施例中,提供了一种特征聚类方法,以节能型处理方式为例,该方法可用于电子设备,如电脑、手机、平板电脑等,图3是根据本发明实施例的特征聚类方法的流程图,如图3所示,该流程包括如下步骤:
S21,获取各个待聚类特征。
在本实施例中,所述的待聚类特征为新增特征。
其余详细请参见图1所示是实施例的S11,在此不再赘述。
S22,基于各个待聚类特征,确定第一权重图。
其中,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度。
具体地,上述S22包括如下步骤:
S221,对各个待聚类特征进行聚类处理,得到各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度。
对于上述S21中获取到的各个待聚类特征,电子设备可以利用最近邻算法对其进行聚类处理,得到各个待聚类特征对应的K个最相似待聚类特征及其相似度。
例如,每个待聚类特征对应于唯一标识,电子设备通过最近邻算法确定各个待聚类特征对应的K个最相似待聚类特征的标识,并计算两者之间的相似度。
S222,基于各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度,构建第一权重图。
电子设备上述S221中确定各个待聚类特征对应的K个最相似待聚类特征及其相似度之后,就可以采用权重图的方式表示各个待聚类特征之间的关系。其中,第一权重图的节点为各个待聚类特征,节点之间通过边连接,每个节点连接有K个最相似待聚类特征。其中,互为邻居的两个节点的连接边表示这两个节点对应的待聚类特征的相似度。若两个节点互为邻居,连接边表示两个节点对应的待聚类特征的相似度;若两个节点不互为邻居,则这两个节点的相似度为零。
此处需要说明的是,各个连接所连接的最相似待聚类特征的数量可以是相同的,也可以是不同的,具体根据实际情况进行设置,在此并不做任何限制。
S23,将第一权重图输入聚类网络中,确定各个待聚类特征的初次聚类结果。
其中,初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征。
详细请参见图1所示实施例的S13,在此不再赘述。
S24,基于初次聚类结果,构建第二权重图。
其中,所述第二权重图中的节点包括各个初始簇的代表特征。
具体地,上述S24可以包括如下步骤:
S241,获取各个历史簇的代表特征。
电子设备中存储有历史聚类结果,在历史聚类结果中包括有各个历史簇,以及各个历史簇的代表特征。电子设备在进行第二权重图的构建时,可以结合各个历史簇的代表特征进行。
S242,对各个初始簇的代表特征以及各个历史簇的代表特征进行聚类处理,得到各个代表特征对应的预设数量的最相似代表特征及其相似度。
例如,电子设备在上述S23中确定出初次聚类结果中有M个初始簇,每个初始簇均对应有一个代表特征,即可以得到M个代表特征。同时,在电子设备中还存储有N个历史簇的代表特征。那么,电子设备就用初始簇对应的M个代表特征以及历史簇对应的N个代表特征,共M+N个代表特征进行聚类处理,得到各个代表特征对应的预设数量的最相似代表特征及其相似度。
S243,基于各个代表特征对应的预设数量的最相似代表特征及其相似度,构建第二权重图。
该步骤与上述S222类似,不同的是构建权重图所用的特征,具体请参见上述S222,在此不再赘述。
S25,将第二权重图输入聚类网络中,以确定各个待聚类特征的目标聚类结果。
详细请参见图1所示实施例的S15,在此不再赘述。
本实施例提供的特征聚类方法,仅利用新增特征作为待聚类特征进行第一权重图的构建,减少了聚类的数据处理量,提高了特征聚类的效率;在二次聚类处理时,仅涉及历史簇的代表特征以及初始簇的代表特征,一方面利用原有数据进行聚类处理,可以保证聚类的准确性,另一方面仅涉及原有数据中的代表特征,可以减少数据处理量,提高处理效率。
在另一个实施例中,提供了一种特征聚类方法,以完整型处理方式为例,该方法可用于电子设备,如电脑、手机、平板电脑等,图4是根据本发明实施例的特征聚类方法的流程图,如图4所示,该流程包括如下步骤:
S31,获取各个待聚类特征。
在本实施例中,所述的待聚类特征包括新增特征以及历史簇的所有特征。如上文所述,电子设备中可以存储有历史聚类结果,历史聚类结果包括各个历史簇及其对应的所有特征。
其余详细请参见图1所示实施例的S11,在此不再赘述。
S32,基于各个待聚类特征,确定第一权重图。
其中,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度。
具体地,上述S32包括如下步骤:
在完整型处理方式中,电子设备利用历史聚类结果中的历史簇的所有特征以及新增特征进行第一权重图的构建。
S321,对各个待聚类特征进行聚类处理,得到各个待聚类特征对应的预设数量的最相似特征及其相似度。
例如,电子设备获取到N个新增特征以及历史簇的M个特征,总共N+M个特征。电子设备对这N+M个待聚类特征进行聚类处理,得到各个待聚类特征对应的预设数量的最相似特征及其相似度。
该步骤与上述S221类似,请参见上述S221的详细描述,在此不再赘述。
S322,基于各个待聚类特征对应的预设数量的最相似特征及其相似度,构建第一权重图。
该步骤与上述S222类似,请参见上述S222的详细描述,在此不再赘述。
S33,将第一权重图输入聚类网络中,确定各个待聚类特征的初次聚类结果。
其中,初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征。
详细请参见图1所示实施例的S13,在此不再赘述。
S34,基于初次聚类结果,构建第二权重图。
其中,所述第二权重图中的节点包括各个初始簇的代表特征。
具体地,上述S34可以包括如下步骤:
S341,对各个初始簇的代表特征进行聚类处理,得到各个代表特征对应的预设数量的最相似代表特征及其相似度。
由于在初次聚类时,已对新增特征和历史簇的所有特征进行聚类获得对应于所有特征的初始簇及各个初始簇的代表特征,电子设备在第二次聚类处理时,针对初次聚类结果中各个初始簇的代表特征进行聚类。例如,初次聚类结果包括N个初始簇,那么在该步骤中,电子设备就对这N个初始簇的代表特征进行聚类处理,得到N个代表特征对应的预设数量的最相似代表特征及其相似度。
S342,基于各个代表特征对应的预设数量的最相似代表特征及其相似度,构建第二权重图。
电子设备在得到N个代表特征对应的预设数量的最相似代表特征及其相似度之后,就利用其进行第二权重图的构建。
该步骤与上述S243类似,不同的是构建权重图所用的特征,具体请参见上述S243,在此不再赘述。
S35,将第二权重图输入聚类网络中,以确定各个待聚类特征的目标聚类结果。
详细请参见图1所示实施例的S15,在此不再赘述。
本实施例提供的特征聚类方法,利用历史簇的所有特征以及各个新增特征进行聚类处理,可以保证聚类处理的特征数据的全面性,实现对特征数据的全面聚类,提高了聚类的准确性;由于在第一次聚类处理时已经结合了历史簇中的所有特征,在第二次聚类处理时仅需要涉及到初始簇的代表特征,可以减少数据处理量,提高聚类效率。
在另一个实施例中,提供了一种特征聚类方法,可用于电子设备,如电脑、手机、平板电脑等,图5是根据本发明实施例的特征聚类方法的流程图,如图5所示,该流程包括如下步骤:
S41,获取各个待聚类特征。
详细请参见图1所示实施例的S11,在此不再赘述。
S42,基于各个待聚类特征,确定第一权重图。
其中,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度。
详细请参见图2所示实施例的S22,或图3所示实施例的S32,在此不再赘述。
S43,将第一权重图输入聚类网络中,确定各个待聚类特征的初次聚类结果。
其中,初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征。
详细请参见图1所示实施例的S13,在此不再赘述。
S44,基于初次聚类结果,构建第二权重图。
其中,所述第二权重图中的节点包括各个初始簇的代表特征。
详细请参见图2所示实施例的S24,或图3所示实施例的S34,在此不再赘述。
S45,将第二权重图输入聚类网络中,以确定各个待聚类特征的目标聚类结果。
在实施例中以聚类网络对第二权重图的处理为例进行详细描述,其中,聚类网络对第一权重图的处理方式是类似的,具体可以参见该步骤的详细描述。
具体地,上述S45可以包括如下步骤:
S451,将第二权重图输入聚类网络中,得到各个代表特征的置信度。
电子设备将第二权重图输入聚类网络中,该聚类网络输出第二权重图中各个节点对应的特征的置信度。
例如,对于节能型处理方式,第二权重图中的各个节点分别代表初次聚类结果中各个初始簇的代表特征以及各个历史簇的代表特征;相应地,此处聚类网络输出的为各个初始簇的代表特征以及各个历史簇的代表特征的置信度。
对于完整型处理方式,第二权重图中的各个节点代表初次聚类结果中各个初始簇的代表特征;相应地,此处聚类网络输出的为各个初始簇的代表特征的置信度。
在下文描述方便,将各个初始簇的代表特征以及各个历史簇的代表特征统称为代表特征。
S452,基于各个代表特征的置信度以及第二权重图,确定各个代表特征对应的目标簇以及目标簇的代表特征,以确定各个待聚类特征的目标聚类结果。
电子设备在得到各个代表特征的置信度之后,需要对其进行分簇判定,确定各个代表特征对应的目标簇以及目标簇的代表特征。其中,若同时满足下述两个条件,则表示第二权重图中的节点j与节点i代表同一人员:(1)j是置信度高于i的最近邻居节点;(2)i,j之间的相似度高于某个预设的门限。
即电子设备就可以利用上述两个条件,结合各个代表特征的置信度以及第二权重图,确定各个代表特征对应的目标簇以及目标簇的代表特征。例如,经过上述的分簇判定的处理之后,将N个代表特征归属于目标簇1中,通过比较这N个代表特征的置信度,将置信度最大的代表特征确定为目标簇1的代表特征。
在本实施例的一种可选实施方式中,上述S452可以包括如下步骤:
(1)对于第二权重图中的预设节点,从预设节点的邻居节点中确定置信度大于预设节点对应的置信度的第一目标邻居节点。
例如,第二权重图中的预设节点为节点A,节点A连接有3个邻居节点,分别为节点1、节点2以及及节点3。电子设备分别将节点1、2以及3的置信度与节点A的置信度进行比较,依次判断节点A的各个邻居节点的置信度是否大于节点A的置信度。若比较得到,节点1以及节点2的置信度大于节点A的置信度,那么将节点1以及节点2定义为第一目标邻居节点。
(2)从第一目标邻居节点中筛选出与预设节点的相似度大于预设值的第二目标邻居节点。
继续沿用上述的示例,电子设备从第二权重图的边信息中提取节点1与节点A的相似度,称之为第一相似度;提取节点2与节点A的相似度,称之为第二相似度;再比较第一相似度是否大于预设值,以及第二相似度是否大于预设值。通过比较克制,第一相似度以及第二相似度均大于预设值,那么将节点1以及节点2定义为第二目标邻居节点。
(3)比较各个第二目标邻居节点与预设节点之间的距离,确定距离最小的第二目标邻居节点与预设节点属于相同的目标簇,以确定各个待聚类特征的目标聚类结果。
由于第二权重图中的各个节点表示对应的代表特征,通过计算两个代表特征之间的距离就可以确定各个节点与其邻居节点之间的距离;再进行距离的比较,就可以确定各个节点的最近邻居节点。
具体地,电子设备利用节点1对应的代表特征,以及节点A对应的代表特征,计算节点1与节点A之间的距离,称之为第一距离;再利用节点2对应的代表特征以及节点A对应的代表特征,计算节点2与节点A之间的距离,称之为第二距离。比较第一距离与第二距离,若第一距离小于第二距离,则确定节点1与节点A属于同一个目标簇。
对于第二权重图的每个节点均进行上述步骤的处理之后,就可以确定出各个待聚类特征的目标聚类结果。
如图6所示,电子设备在计算得到各个代表特征的置信度之后,再结合第二权重图,就可以确定各个待聚类特征的目标聚类结果。
本实施例提供的特征聚类方法,由于第二权重图已经对各个代表特征进行初步的聚类处理,再利用各个置信度以及第二权重图,进行各个待聚类特征的目标聚类结果的确定,一方面可以提高聚类处理的效率,另一方面可以保证聚类的准确性。
在一个实施例中,本申请还提供一种数据库更新方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种数据库更新方法,可用于电子设备,如电脑、手机、平板电脑等,图7是根据本发明实施例的数据库更新方法的流程图,如图7所示,该流程包括如下步骤:
S51,获取各个待聚类特征的目标聚类结果。
其中,所述各个待聚类特征的目标聚类结果是根据上述任一项实施例中所述的特征聚类方法确定的。
详细请参见上述图1、3-5任一实施例中所述的特征聚类方法,在此不再赘述。
S52,根据各个待聚类特征的目标聚类结果,对目标数据库进行更新。
在上文的实施例中,对于权重图的构建涉及到两种处理方式,一种是节能型处理方式,另一种是完整型处理方式。那么,电子设备在对目标数据库进行更新时,可以根据针对这两种不同的处理方式进行更新。
关于该步骤具体将在下文中进行详细描述。
本实施例提供的数据库更新方法,在准确率与召回率平衡的基础上,实现了对目标数据库的更新。
在本实施例中提供了一种数据库更新方法,可用于电子设备,如电脑、手机、平板电脑等,图8是根据本发明实施例的数据库更新方法的流程图,如图8所示,该流程包括如下步骤:
S61,获取各个待聚类特征的目标聚类结果,所述各个待聚类特征的目标聚类结果是根据上述任一项实施例中所述的特征聚类方法确定的。
详细请参见图2所示实施例的S22,或图3所示实施例的S32,在此不再赘述。
S62,根据各个待聚类特征的目标聚类结果,对目标数据库进行更新。
具体地,上述S62包括:
(1)对应于节能型,即,当待聚类特征为新增特征时,电子设备基于各个新增特征的目标聚类结果以及目标数据库中的历史簇,对目标数据库进行更新,所述目标聚类结果包括新增特征对应的目标簇。
和/或,
(2)对应于完整型,即,当待聚类特征包括新增特征以及各个历史簇的所有特征时,电子设备基于各个待聚类特征的目标聚类结果,重新建立目标数据库,所述目标聚类结果包括各个待聚类特征对应的目标簇以及各个目标簇的代表特征。
即,电子设备可以仅基于节能型处理方式,对目标数据库进行更新;也可以仅基于完整型处理方式,重新建立目标数据库;或者,如图12所示,结合节能型与完整型,对目标数据库进行更新。例如,每隔一小段时间,基于节能型对目标数据库进行更新;每隔较长一段时间,基于完整型对目标数据库进行更新。
其中,对应于节能型处理方式,当待聚类特征为新增特征时所述基于所述各个新增特征的目标聚类结果以及所述目标数据库中的历史簇,对所述目标数据库进行更新,包括:
S621,判断历史簇中是否存在与目标簇相同的簇。
在目标聚类结果中,若存在与目标数据库中的历史簇不相同的目标簇时,则添加新簇;若有与目标簇相同的历史簇时,则在历史簇的基础上加入目标簇的特征。
当所述历史簇中存在与所述目标簇相同的簇时,执行S622;否则,执行S623。
S622,将目标簇对应的待聚类特征加入历史簇中。
在历史簇中存在与目标簇相同的簇时,电子设备将目标簇对应的特征加入历史簇中,同时也可以将目标簇中各个特征对应的图像加入历史簇中,以实现特征与图像的对应。此时,并不对更新后的历史簇的代表特征进行更新。
S623,在目标数据库中新增目标簇,并确定目标簇的特征以及代表特征。
在历史簇中不存在与目标簇相同的簇时,电子设备在目标数据库中新增目标簇,并将该目标簇对应的特征以及代表特征对应加入目标数据库中;同时也可以加入目标簇中各个特征对应的图像。
针对未聚类数据进行目标数据库的更新,可以减少数据处理量,适合短间隔的粗更新策略。
对应于完整型处理方式,所述基于各个待聚类特征的目标聚类结果,重新建立目标数据库,包括如下步骤:
(1)获取各个待聚类特征的目标聚类结果。
其中,所述目标聚类结果包括所述目标簇的特征以及代表特征。
(2)基于各个待聚类特征的目标聚类结果,重新建立目标数据库。
电子设备利用目标聚类结果对目标数据库进行重建,即重建后的目标数据库中的簇及其对应的特征及其图像、代表特征均来自于目标聚类结果。
将新增特征和历史簇所有特征作为待聚类特征进行聚类,根据新增特征和历史簇所有特征的聚类结果确定新的簇及各簇对应的特征及代表特征,利用最新得到的簇和各簇对应的特征及代表特征重新存储至数据库覆盖原来的数据库或者新建新的数据库存储所有特征最新的聚类结果,适合长间隔的细更新策略。
本实施例提供的数据库更新方法,提供了两种数据库更新的方法,其一为节能型,即仅对新增特征进行初次聚类,得到新增特征对应的初始簇和代表特征,然后将新增代表特征与历史簇对应的代表特征进行二次聚类得到目标聚类结果,若目标聚类结果中存在与历史簇相同的目标簇,则将该目标簇对应的特征增加至对应的历史簇;若目标聚类结果中的目标簇与数据库中所有历史簇均不相同,则将该目标簇增加至数据库,实现对数据库的更新;其二为完整型,即对新增特征和历史簇中所有特征进行初次聚类,得到所有特征对应的初始簇、特征和代表特征,然后将代表特征进行二次聚类得到目标聚类结果,由于完整型聚类方式将所有特征均进行了聚类,相当于重新计算了所有特征之间的关联关系,因此,数据库中各个簇之间以及各个簇对应的特征之间的关联关系均发生了较大变化,需要对数据库整体进行更新,即将数据库更新为最新目标聚类结果对应的目标簇,添加各个目标簇对应的标识、特征和代表特征,在该场景下,更新数据库的方式可以为覆盖原有数据库也可以是新建新的数据库。可以采用两种方式兼容的策略对数据库进行更新,如每隔第一预设时间使用节能型方式更新数据库,每隔第二预设时间使用完整型方式更新数据库,第二预设时间大于第一预设时间,两种方式结合能够更好的兼顾满足目标数据库的迭代需求和算力负担。
在一个实施例中,还提供了一种特征聚类装置,或数据库更新该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种特征聚类装置,如图9所示,包括:
第一获取模块71,用于获取各个待聚类特征;
第一确定模块72,用于基于所述各个待聚类特征,确定第一权重图,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度;
第一聚类模块73,用于将所述第一权重图输入聚类网络中,确定各个所述待聚类特征的初次聚类结果,所述初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征;
第二确定模块74,用于基于所述初次聚类结果,构建第二权重图,所述第二权重图中的节点包括各个所述初始簇的代表特征;
第二聚类模块75,用于将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果。
本实施例提供的特征聚类装置,在确定出各个待聚类特征的初次聚类结果之后,再基于初次聚类结果进行二次聚类,利用自底向上、层次聚类的框架,来达到准确率与召回率的平衡。即,一方面,单次聚类高准确率,以预防不同特征合并成超大簇;另一方面,用层次聚类(多次调用)来提高整个流程的召回率将初次聚类结果中的小簇转换成成第二次聚类输入中的节点,进行小簇与小簇的合并,提高召回率。
本实施例提供一种数据库更新装置,如图10所示,包括:
第二获取模块81,用于获取各个待聚类特征的目标聚类结果,所述各个待聚类特征的目标聚类结果是根据上述任一项实施方式中所述的特征聚类方法确定的;
更新模块82,用于根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新。
本实施例提供的数据库更新装置,在准确率与召回率平衡的基础上,实现了对目标数据库的更新。
本实施例中的特征聚类装置或数据库更新装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图9所示的特征聚类装置,或图10所示的数据库更新装置。
请参阅图11,图11是本发明可选实施例提供的一种电子设备的结构示意图,如图11所示,该电子设备可以包括:至少一个处理器91,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口93,存储器94,至少一个通信总线92。其中,通信总线92用于实现这些组件之间的连接通信。其中,通信接口93可以包括显示屏(Display)、键盘(Keyboard),可选通信接口93还可以包括标准的有线接口、无线接口。存储器94可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器94可选的还可以是至少一个位于远离前述处理器91的存储装置。其中处理器91可以结合图9或10所描述的装置,存储器94中存储应用程序,且处理器91调用存储器94中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线92可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线92可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器94可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器94还可以包括上述种类的存储器的组合。
其中,处理器91可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器91还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器94还用于存储程序指令。处理器91可以调用程序指令,实现如本申请图1、3-5实施例中所示的特征聚类方法,或图7-8实施例中所示的数据库更新方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的特征聚类方法,或数据库更新方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (13)

1.一种特征聚类方法,其特征在于,包括:
获取各个待聚类特征;
基于所述各个待聚类特征,确定第一权重图,所述第一权重图中的节点包括各个所述待聚类特征,所述第一权重图中的边为两个节点对应的特征相似度;
将所述第一权重图输入聚类网络中,确定各个所述待聚类特征的初次聚类结果,所述初次聚类结果包括各个所述待聚类特征对应的初始簇以及各个所述初始簇的代表特征;
基于所述初次聚类结果,构建第二权重图,所述第二权重图中的节点包括各个所述初始簇的代表特征;
将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述待聚类特征为新增特征,所述基于所述各个待聚类特征,确定第一权重图,包括:
对所述各个待聚类特征进行聚类处理,得到所述各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度;
基于所述各个待聚类特征对应的预设数量的最相似待聚类特征及其相似度,构建所述第一权重图。
3.根据权利要求2所述的方法,其特征在于,所述基于所述初次聚类结果,构建第二权重图,包括:
获取各个历史簇的代表特征;
对所述各个初始簇的代表特征以及所述各个历史簇的代表特征进行聚类处理,得到各个所述代表特征对应的预设数量的最相似代表特征及其相似度;
基于各个所述代表特征对应的预设数量的最相似代表特征及其相似度,构建所述第二权重图。
4.根据权利要求1所述的方法,其特征在于,所述待聚类特征包括新增特征以及各个历史簇的所有特征,所述基于所述各个待聚类特征,确定第一权重图,包括:
对所述各个待聚类特征进行聚类处理,得到各个待聚类特征对应的预设数量的最相似特征及其相似度;
基于所述各个待聚类特征对应的预设数量的最相似特征及其相似度,构建所述第一权重图。
5.根据权利要求4所述的方法,其特征在于,所述基于所述初次聚类结果,构建第二权重图,包括:
对所述各个初始簇的代表特征进行聚类处理,得到各个所述代表特征对应的预设数量的最相似代表特征及其相似度;
基于各个所述代表特征对应的预设数量的最相似代表特征及其相似度,构建所述第二权重图。
6.根据权利要求3或5所述的方法,其特征在于,所述将所述第二权重图输入所述聚类网络中,以确定各个所述待聚类特征的目标聚类结果,包括:
将所述第二权重图输入所述聚类网络中,得到各个所述代表特征的置信度;
基于各个所述代表特征的置信度以及所述第二权重图,确定各个所述代表特征对应的目标簇以及所述目标簇的代表特征,以确定各个所述待聚类特征的目标聚类结果。
7.根据权利要求6所述的方法,其特征在于,所述基于各个所述代表特征的置信度以及所述第二权重图,确定各个所述代表特征对应的目标簇以及所述目标簇的代表特征,以确定各个所述待聚类特征的目标聚类结果,包括:
对于所述第二权重图中的预设节点,从所述预设节点的邻居节点中确定置信度大于所述预设节点对应的置信度的第一目标邻居节点;
从所述第一目标邻居节点中筛选出与所述预设节点的相似度大于预设值的第二目标邻居节点;
比较各个第二目标邻居节点与所述预设节点之间的距离,确定距离最小的第二目标邻居节点与所述预设节点属于相同的目标簇,以确定各个所述待聚类特征的目标聚类结果。
8.一种数据库更新方法,其特征在于,所述方法包括:
获取各个待聚类特征的目标聚类结果,所述各个待聚类特征的目标聚类结果是根据权利要求1-7中任一项所述的特征聚类方法确定的;
根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新。
9.根据权利要求8所述的方法,其特征在于,所述根据所述各个待聚类特征的目标聚类结果,对目标数据库进行更新,包括:
当所述待聚类特征为新增特征时,基于所述各个新增特征的目标聚类结果以及所述目标数据库中的历史簇,对所述目标数据库进行更新,所述目标聚类结果包括所述新增特征对应的目标簇;
和/或,
当所述待聚类特征包括新增特征以及各个历史簇的所有特征时,基于所述各个待聚类特征的目标聚类结果,重新建立所述目标数据库,所述目标聚类结果包括各个待聚类特征对应的目标簇以及各个所述目标簇的代表特征。
10.根据权利要求9所述的方法,其特征在于,所述当所述待聚类特征为新增特征时,基于所述各个新增特征的目标聚类结果以及所述目标数据库中的历史簇,对所述目标数据库进行更新,包括:
判断所述历史簇中是否存在与所述目标簇相同的簇;
当所述历史簇中存在与所述目标簇相同的簇时,将所述目标簇对应的新增特征加入所述历史簇中;
当所述历史簇中不存在与所述目标簇相同的簇时,在所述目标数据库中新增所述目标簇,并确定所述目标簇的特征以及代表特征。
11.根据权利要求9所述的方法,其特征在于,所述当所述待聚类特征包括新增特征以及各个历史簇的所有特征时,基于所述各个待聚类特征的目标聚类结果,重新建立所述目标数据库,包括:
获取各个所述待聚类特征的目标聚类结果;
基于各个所述待聚类特征的目标聚类结果,重新建立所述目标数据库。
12.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的特征聚类方法,或权利要求8-11中任一项所述的数据库更新方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的特征聚类方法,或权利要求8-11中任一项所述的数据更新方法。
CN202011530197.1A 2020-12-22 2020-12-22 特征聚类方法、数据库更新方法、电子设备及存储介质 Active CN112560731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011530197.1A CN112560731B (zh) 2020-12-22 2020-12-22 特征聚类方法、数据库更新方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011530197.1A CN112560731B (zh) 2020-12-22 2020-12-22 特征聚类方法、数据库更新方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112560731A true CN112560731A (zh) 2021-03-26
CN112560731B CN112560731B (zh) 2022-07-01

Family

ID=75031495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011530197.1A Active CN112560731B (zh) 2020-12-22 2020-12-22 特征聚类方法、数据库更新方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112560731B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269263A (zh) * 2021-06-03 2021-08-17 深圳索信达数据技术有限公司 客户分类方法、装置、计算机设备及计算机可读存储介质
CN113313053A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 图像处理方法、装置、设备、介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109685092A (zh) * 2018-08-21 2019-04-26 中国平安人寿保险股份有限公司 基于大数据的聚类方法、设备、存储介质及装置
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN111062407A (zh) * 2019-10-15 2020-04-24 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109685092A (zh) * 2018-08-21 2019-04-26 中国平安人寿保险股份有限公司 基于大数据的聚类方法、设备、存储介质及装置
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN111062407A (zh) * 2019-10-15 2020-04-24 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269263A (zh) * 2021-06-03 2021-08-17 深圳索信达数据技术有限公司 客户分类方法、装置、计算机设备及计算机可读存储介质
CN113269263B (zh) * 2021-06-03 2024-04-09 深圳索信达数据技术有限公司 客户分类方法、装置、计算机设备及计算机可读存储介质
CN113313053A (zh) * 2021-06-15 2021-08-27 北京百度网讯科技有限公司 图像处理方法、装置、设备、介质及程序产品
CN113313053B (zh) * 2021-06-15 2024-04-12 北京百度网讯科技有限公司 图像处理方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
CN112560731B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN112560731B (zh) 特征聚类方法、数据库更新方法、电子设备及存储介质
CN113095370B (zh) 图像识别方法、装置、电子设备及存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
CN110533632B (zh) 图像模糊篡改检测方法、装置、计算机设备和存储介质
CN113628201A (zh) 基于深度学习的病理切片分析方法、电子设备及可读存储介质
CN112150470B (zh) 图像分割方法、装置、介质及电子设备
CN112257801A (zh) 图像的增量聚类方法、装置、电子设备及存储介质
US20230298314A1 (en) Image clustering method and apparatus, computer device, and storage medium
Jiang et al. Automatic multilevel thresholding for image segmentation using stratified sampling and Tabu Search
CN114842553A (zh) 基于残差收缩结构和非局部注意力的行为检测方法
CN115223662A (zh) 数据处理方法、装置、设备及存储介质
CN111277646A (zh) 群智感知中基于关联关系和地理位置预测的任务分发算法
CN113569955A (zh) 一种模型训练方法、用户画像生成方法、装置及设备
CN114638823B (zh) 基于注意力机制序列模型的全切片图像分类方法及装置
WO2022223052A1 (zh) 加速器、计算机系统和方法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
CN111160077A (zh) 一种大规模人脸动态聚类方法
WO2022052647A1 (zh) 一种数据处理方法、神经网络的训练方法以及相关设备
CN111190952B (zh) 一种基于图像金字塔提取城市画像多尺度特征并持久化的方法
Wei et al. Salient object detection based on weighted hypergraph and random walk
Sharifi et al. Mobile user-activity prediction utilizing LSTM recurrent neural network
CN111611530B (zh) 案件与人员关系分析方法、装置及电子设备
Wang et al. A fast incremental spectral clustering algorithm for image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant