CN111310834A - 数据处理方法及装置、处理器、电子设备、存储介质 - Google Patents

数据处理方法及装置、处理器、电子设备、存储介质 Download PDF

Info

Publication number
CN111310834A
CN111310834A CN202010102162.1A CN202010102162A CN111310834A CN 111310834 A CN111310834 A CN 111310834A CN 202010102162 A CN202010102162 A CN 202010102162A CN 111310834 A CN111310834 A CN 111310834A
Authority
CN
China
Prior art keywords
cluster
similarity
processed
pairs
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010102162.1A
Other languages
English (en)
Other versions
CN111310834B (zh
Inventor
黄厚钧
何悦
李�诚
王贵杰
王子彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN202010102162.1A priority Critical patent/CN111310834B/zh
Publication of CN111310834A publication Critical patent/CN111310834A/zh
Application granted granted Critical
Publication of CN111310834B publication Critical patent/CN111310834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法及装置、处理器、电子设备、存储介质。该方法包括:获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;合并所述k个待确认簇对中第二相似度最大的n个簇对,所述第一相似度与所述第二相似度不同,其中,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。

Description

数据处理方法及装置、处理器、电子设备、存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置、处理器、电子设备、存储介质。
背景技术
聚类分析是数据挖掘和机器学习等领域的关键技术之一。聚类指通过将相似的待聚类对象划分至同一类簇,将不相似的待聚类对象划分至不同的类簇。但传统聚类方法的通用性较差。
发明内容
本申请提供一种数据处理方法及装置、处理器、电子设备、存储介质。
第一方面,提供了一种数据处理方法,所述方法包括:
获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;
从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;
合并所述k个待确认簇对中第二相似度最大的n个簇对,其中,所述第一相似度与所述第二相似度不同,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。
在该方面中,通过将第一相似度作为筛选依据,从至少两个待处理簇对中选取k个待确认簇对。以第二相似度为筛选依据,从k个待确认簇对中选取待合并簇对,并将待合并簇对合并以完成对至少两个待处理簇对的聚类处理。可使本实施提供的技术方案在对不同的聚类对象进行聚类处理,得到的聚类结果的准确度均高,从而达到提高通用性的效果。
结合本申请任一实施方式,在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,所述方法还包括:
确定所述至少两个待处理簇对的第一相似度,得到相似度集;
在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤。
在该种实施方式中,在相似度集中的最大值大于或等于相似度阈值的情况下,执行从至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤,可提高得到的聚类结果的准确度。
结合本申请任一实施方式,所述至少两个待处理簇对包括参考簇,所述参考簇包括第一数据和第二数据;
所述在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤之前,所述方法还包括:
确定所述第一数据与所述第二数据之间的参考相似度;
依据所述参考相似度,得到所述相似度阈值,所述相似度阈值与所述参考相似度呈正相关。
在该种实施方式中,依据参考簇中的数据之间的相似度确定相似度阈值,可实现为不同类型的数据设置不同的相似度阈值,进而提升聚类结果的准确度。
结合本申请任一实施方式,所述从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对,包括:
确定所述至少两个待处理簇对的第一相似度;
依据所述第一相似度对所述至少两个待处理簇对排序,得到簇对次序;
依据所述簇对次序,将所述第一相似度最大的k个簇对作为所述k个待确认簇对。
在该种实施方式中,依据至少两个簇对的第一相似度,得到簇对次序。依据簇对次序,得到k个待确认簇对。可减少得到待确认簇对所需的数据处理量,提高处理速度。
结合本申请任一实施方式,所述第二相似度的精度大于所述第一相似度的精度。
在该种实施方式中,可在减小数据处理量的同时,将精度大的相似度作为依据判断是否合并簇对,可提高聚类结果的准确度。
结合本申请任一实施方式,所述合并所述k个待确认簇对中第二相似度最大的簇对,包括:
获取图卷积网络;
使用所述图卷积网络对所述k个待确认簇对进行处理,得到所述k个待确认簇对的第二相似度。
结合本申请任一实施方式,所述方法应用于数据处理装置;在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,所述方法还包括:
获取参考时长和/或所述数据处理装置的参考存储容量,其中,所述参考时长为所述数据处理装置执行完所述数据处理方法的最长时长;
依据所述参考时长和/或所述参考存储容量,得到所述k。
在该种实施方式中,依据参考时长和/或参考存储容量确定k,可更好的满足用户需求。例如,用户期望缩短对至少两个待处理簇对进行聚类处理所耗费的时间,可将参考时长调小。数据处理装置依据参考时长,可在使对至少两个待处理簇对进行聚类处理所耗费的时间小于或等于参考时长的前提下,使k的取值最大。从而达到在满足用户需求(使构建邻接图的时长小于或等于参考时长)的前提下,提高至少两个待处理簇对的聚类结果的准确度。
第二方面,提供了一种数据处理装置,所述装置包括:
获取单元,用于获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;
选取单元,用于从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;
合并单元,用于合并所述k个待确认簇对中第二相似度最大的n个簇对,其中,所述第一相似度与所述第二相似度不同,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。
结合本申请任一实施方式,所述装置还包括:
第一确定单元,用于在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,确定所述至少两个待处理簇对的第一相似度,得到相似度集;
所述选取单元,用于在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤。
结合本申请任一实施方式,所述至少两个待处理簇对包括参考簇,所述参考簇包括第一数据和第二数据;
所述装置还包括:
第二确定单元,用于在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤之前,确定所述第一数据与所述第二数据之间的参考相似度;
第一处理单元,用于依据所述参考相似度,得到所述相似度阈值,所述相似度阈值与所述参考相似度呈正相关。
结合本申请任一实施方式,所述选取单元,用于:
确定所述至少两个待处理簇对的第一相似度;
依据所述第一相似度对所述至少两个待处理簇对排序,得到簇对次序;
依据所述簇对次序,将所述第一相似度最大的k个簇对作为所述k个待确认簇对。
结合本申请任一实施方式,所述第二相似度的精度大于所述第一相似度的精度。
结合本申请任一实施方式,所述合并单元,用于:
获取图卷积网络;
使用所述图卷积网络对所述k个待确认簇对进行处理,得到所述k个待确认簇对的第二相似度。
结合本申请任一实施方式,所述获取单元,还用于在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,获取参考时长和/或所述数据处理装置的参考存储容量,其中,所述参考时长为所述数据处理装置执行完所述数据处理方法的最长时长;
所述装置还包括:第二处理单元,用于依据所述参考时长和/或所述参考存储容量,得到所述k。
第三方面,提供了一种处理器,所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。
第四方面,提供了一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种数据处理方法的流程示意图;
图2为本申请实施例提供的另一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的一种数据处理装置的结构示意图;
图5为本申请实施例提供的一种数据处理装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例的执行主体为数据处理装置,数据处理装置可以是以下任意一种:手机、计算机、服务器、平板电脑。
聚类处理是数据挖掘和机器学习等领域的关键技术之一。聚类处理指通过将相似的待聚类对象划分至同一类簇,将不相似的待聚类对象划分至不同的类簇。
在执行聚类处理时,传统方法通常通过单一判断依据判断是否将簇对合并,而不同的聚类对象适用的判断依据可能不同,导致传统方法对单一聚类对象进行聚类处理得到的聚类结果的准确度高,但通用性较差。举例来说(例1),在聚类对象为人,对图像中的人进行聚类处理的过程中,使用最远相似度作为判断依据得到的聚类结果的准确度高,使用最近相似度作为判断依据得到的聚类结果的准确度低。在聚类对象为狗,对图像中的狗进行聚类时,使用最近相似度作为判断依据得到的聚类结果的准确度高,使用最远相似度作为判断依据得到的聚类结果的准确度低。在判断依据为最远相似度的情况下,对聚类对象为人的图像进行聚类处理得到的聚类结果的准确度高,但对聚类对象为狗的图像进行聚类处理得到的聚类结果的准确度低。反之,在判断依据为最近相似度的情况下,对聚类对象为狗的图像进行聚类处理得到的聚类结果的准确度高,但对聚类对象为人的图像进行聚类处理得到的聚类结果的准确度低。
基于此,本申请实施例提供了一种聚类处理的技术方案,以提高通用性。下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种数据处理方法的流程示意图。
101、获取至少两个待处理簇对。
本申请实施例中,每个待处理簇对包括两个簇。簇为数据集合,集合内的数据可以为:图像、语句、语音、向量等。簇内的数据的类别相同,下文将簇中的数据的类别称为簇的类别。每个待处理簇对中的两个簇的类别不同。
举例来说,待处理簇对1包括簇A和簇B。簇A包括图像a、图像b、图像c。图像a的类别、图像b的类别、图像c的类别均为苹果,即簇A的类别为苹果。簇B包括图像d、图像e、图像f。图像d的类别、图像e的类别、图像f的类别均为梨,即簇B的类别为梨。
需要理解的是,每个待处理簇对包括两个簇指:每个待处理簇对包括两个类别的数据。例如,待处理簇对1包括数据集合A、数据集合B、数据集合C。数据集合A包括图像a、图像b,数据集合B包括图像c、图像d,数据集合C包括图像e、图像f。图像a的类别和图像b的类别均为苹果,图像c的类别和图像d类别均为西瓜,图像e和图像f均为苹果。数据集合A、数据集合B、数据集合C中的数据类别为2。因此,数据集合A、数据集合B、数据集合C中包含两个簇,即类别为苹果的簇和类别为西瓜的簇。
获取至少两个待处理簇对的方式可以是接收用户通过输入组件输入的至少两个待处理簇对,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。获取至少两个待处理簇对的方式也可以是接收终端发送的至少两个待处理簇对,其中,终端包括手机、计算机、服务器、平板电脑等。
102、从上述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对。
本申请实施例中,待处理簇对中的两个簇之间的相似度即为待处理簇对的相似度。假设待处理簇对包括的两个簇为:第一簇和第二簇。
在一种确定第一簇和第二簇之间的相似度的实现方式中,假设第一簇的质心为数据A,第二簇的质心为数据B。确定数据A和数据B之间的相似度,作为第一簇和第二簇之间的相似度。下文将通过这种方式确定的第一簇和第二簇之间的相似度称为质心相似度。
在另一种确定第一簇和第二簇之间的相似度的实现方式中,分别确定第一簇中的每个数据与第二簇中的每个数据之间的距离,得到距离集。将距离集中的最小值对应的两个数据,作为目标数据对。确定目标数据对中的两个数据之间的相似度,作为第一簇和第二簇之间的相似度。例如,第一簇包括数据A和数据B,第二簇包括数据C和数据D。数据A与数据C之间的距离为d1,数据A与数据D之间的距离为d2,数据B与数据C之间的距离为d3,数据B与数据D之间的距离为d4。距离集包括d1、d2、d3、d4。假设d1<d2<d3<d4,则d1为距离集中的最小值。d1对应的两个数据为数据A和数据C。确定数据A与数据C之间的相似度,作为第一簇和第二簇之间的相似度。下文将通过这种方式确定的第一簇和第二簇之间的相似度称为最近相似度。
在又一种确定第一簇和第二簇之间的相似度的实现方式中,分别确定第一簇中的每个数据与第二簇中的每个数据之间的距离,得到距离集。将距离集中的最大值对应的两个数据,作为目标数据对。确定目标数据对中的两个数据之间的相似度,作为第一簇和第二簇之间的相似度。例如,第一簇包括数据A和数据B,第二簇包括数据C和数据D。数据A与数据C之间的距离为d1,数据A与数据D之间的距离为d2,数据B与数据C之间的距离为d3,数据B与数据D之间的距离为d4。距离集包括d1、d2、d3、d4。假设d1<d2<d3<d4,则d4为距离集中的最大值。d4对应的两个数据为数据B和数据D。确定数据B与数据D之间的相似度,作为第一簇和第二簇之间的相似度。下文将通过这种方式确定的第一簇和第二簇之间的相似度称为最远相似度。
在又一种确定第一簇和第二簇之间的相似度的实现方式中,使用图卷积网络(graph convolutional networks,GCN)第一簇和第二簇进行处理,可得到第一簇和第二簇之间的相似度。下文将通过这种方式确定的第一簇和第二簇之间的相似度称为GCN相似度。
两个数据(包括上述数据A与数据B、上述数据A与数据C、上述数据B和数据D)之间的相似度可以是以下任意一种:余弦相似度、瓦瑟斯坦距离(wasserstein metric)、欧式距离(euclidean)、JS散度(jensen–shannon divergence)。本申请对两个数据之间的相似度的具体形式不做限定。
本申请实施例中,第一相似度可以是以下中的一种:质心相似度、最远相似度、最近相似度、GCN相似度。
第一相似度越大,表征待处理簇对中的两个簇之间的相似度越大,进一步表征簇对中的两个簇的类别相同的概率大,进一步表征待处理簇对应该被合并的概率大。通过从至少两个待处理簇对中选取第一相似度最大的k个簇对,可得到应该被合并的概率最大的k个簇对,作为k个待确认簇对。例如,至少两个待处理簇对包括待处理簇对1、待处理簇对2、待处理簇对3。待处理簇对1的第一相似度为s1,待处理簇对2的第一相似度为s2,待处理簇对3的第一相似度为s3。假设s1>s2>s3,k=2,则第一相似度最大的2个簇对为待处理簇对1和待处理簇对2。因此,待处理簇对1和待处理簇对2为待确认簇对。
103、合并上述k个待确认簇对中第二相似度最大的n个簇对。
本申请实施例中,第二相似度可以是以下任意一种:质心相似度、最远相似度、最近相似度、GCN相似度。第一相似度与第二相似度不同。例如,第一相似度为质心相似度,第二相似度为最远相似度。又例如,第一相似度为最近相似度,第二相似度为质心相似度。再例如,第一相似度为最远相似度,第二相似度为GCN相似度。
本申请实施例以第二相似度为依据,从k个待确认数据对中确定待合并簇对。在一种可能实现的方式中,将k个待确认簇对中第二相似度最大的n个簇对,作为待合并簇对,并执行合并待合并簇对的处理。
本申请实施例中,以第一相似度为依据,从至少两个待处理簇对中选取k个待确定簇对。再以第二相似度为依据,从k个待确认数据对中确定的待合并簇对具有以下特性:1.第一相似度较高;2.第二相似度较高。
第一相似度较高指:在至少两个待处理簇对中的第一相似度最大的几个簇对,这里的“几个”具体是多少个,可根据实际应用调整。举例来说,将10个不同的待处理簇对中第一相似度最大的4个称为第一相似度较高的待处理簇对,而这10个不同的待处理簇对中第一相似度最大的4个待处理簇对分别为待处理簇对a、待处理簇对b、待处理簇对c、待处理簇对d,则待处理簇对a、待处理簇对b、待处理簇对c、待处理簇对d为第一相似度较高的簇对。
第二相似度较高指:在第一相似度较高的簇对中第二相似度最大的几个簇对,这里的“几个”具体是多少个,可根据实际应用调整。举例来说,将至少两个待处理簇对中第一相似度较高的簇对包括:待处理簇对1、待处理簇对2、待处理簇对3。待处理簇对1的第二相似度比待处理簇对2的第二相似度大,待处理簇对2的第二相似度比待处理簇对3的第二相似度大。将第二相似度最大的2个簇对作为第二相似度较高的簇对,则待处理簇对1和待处理簇对2为第二相似度较高的簇对。
由于待合并簇对具备以上两点特性,基于本申请实施例提供的技术方案判断是否将簇对合并,可使通过对不同类型的聚类对象进行聚类处理,得到的聚类结果的准确度均较高。例如,在例1中,在第一相似度为最远相似度,且第二相似度为最近相似度的情况下,基于本申请实施例提供的技术方案对至少两个待处理簇对进行处理,得到的待合并簇对的最远相似度较高,且最近相似度较高。这样,无论待处理簇对中的数据是包含人的图像,还是包含狗的图像,合并准确度均较高(即聚类结果的准确度较高)。此处的合并准确度较高指:相较于将第一相似度作为判断依据,对聚类对象为狗的图像进行聚类处理得到的聚类结果的准确度高,以及,相较于将第二相似度作为判断依据,对聚类对象为人的图像进行聚类处理得到的聚类结果的准确度高。
本实施通过将第一相似度作为筛选依据,从至少两个待处理簇对中选取k个待确认簇对。以第二相似度为筛选依据,从k个待确认簇对中选取待合并簇对,并将待合并簇对合并以完成对至少两个待处理簇对的聚类处理。可使本实施提供的技术方案在对不同的聚类对象进行聚类处理,得到的聚类结果的准确度均高,从而达到提高通用性的效果。
可选的,在执行步骤102之前,还可执行以下步骤:
11、确定上述至少两个待处理簇对的第一相似度,得到相似度集。
确定至少两个待处理簇对中每个待处理簇对的第一相似度,得到相似度集。例如,至少两个待处理簇对包括待处理簇对1和待处理簇对2。确定待处理簇对1的第一相似度为a,确定待处理簇对2的第一相似度为b,则相似度集包括a和b。
12、在上述相似度集中的最大值大于或等于相似度阈值的情况下,执行步骤102。
上述相似度阈值为大于或等于0且小于或等于1的数。可选的,相似度阈值为70%。在簇对的第一相似度大于或等于相似度阈值的情况下,表征簇对中的数据属于同一类别的概率高(下文将这类簇对称为正簇对)。例如,相似度阈值为75%。簇对包括簇A和簇B,簇A与簇B之间的第一相似度为80%,表征簇A中的数据与簇B中的数据属于同一类别的概率高(如,簇A中的数据的类别为苹果,簇B中的数据的类别也为苹果的概率高)。显然,合并正簇对得到的聚类结果的准确度高。反之,在簇对的第一相似度小于相似度阈值的情况下,表征簇对中的数据属于同一类别的概率低(下文将这类簇对称为负簇对)。显然,合并负簇对(下文将合并负簇对称为误合并)得到的聚类结果的准确度低。
若相似度集中的最大值小于相似度阈值,表征至少两个待处理簇对中的簇对均为负簇对,若将负簇对作为待合并簇对,得到的聚类结果的准确度低。因此,在相似度集中的最大值小于相似度阈值的情况下,不执行步骤102可减小出现误合并的概率。若相似度集中的最大值大于或等于相似度阈值,表征至少两个待处理簇对中存在正簇对。因此,在相似度集中的最大值大于或等于相似度阈值的情况下,执行步骤102可提高聚类结果的准确度。
可选的,可在相似度集中存在至少k个大于或等于相似度阈值的第一相似度的情况下,执行步骤102。这样,可使k个待确认簇对均为正簇对,从而可进一步提高聚类结果的准确度。
可选的,在执行步骤12之前,可执行以下步骤:
确定第一数据与第二数据之间的参考相似度;
依据上述参考相似度,得到上述相似度阈值,上述相似度阈值与上述参考相似度呈正相关。
在步骤12中,依据相似度阈值判断簇对是否为正簇对,进而决定是否执行步骤102。也就是说,相似度阈值的取值将决定至少两个待处理簇对的聚类结果。
显然,对于数据类型不同的簇(簇的数据类型即为簇对中数据的数据类型。例如,簇对中的数据为图像,则簇对的数据类型为图像),相似度阈值的取值应该不同,若以固定取值的相似度阈值判断任意数据类型的簇对是否为正簇对是不合理的,进而也将导致聚类结果的准确率低。
举例来说,假设簇对A的数据类型与簇对B的数据类型均为图像,数据C的数据类型和数据D的数据类型均为语音。若判断两张图像是否属于同一类别的相似度阈值比判断两个语音属于同一类别的相似度阈值大。例如,在两张图像之间的相似度大于或等于90%的情况下,确定两张图像属于同一类别。在两个语音之间的相似度大于或等于80%的情况下,确定两个语音属于同一类别。显然,使用语音的相似度阈值判断簇对A的类别和簇对B的类别是否相同是不合理的,使用图像的相似度阈值判断簇对C的类别和簇对D的类别是否相同也是不合理的。也就是说,使用相同的参考阈值判断簇对A的类别和簇对B的类别是否相同,以及判断簇对C的类别和簇对D的类别是否相同是不合理的。
考虑到相似度阈值相当于判断两个数据是否属于同一类别的依据,而同一个簇内的数据的类别相同,因此,可依据一个簇中的数据之间的相似度确定两个数据是否属于同一类别的相似度阈值。从至少两个待处理簇对任选一个簇作为参考簇,依据参考簇中的数据之间相似度确定相似度阈值。参考簇包括第一数据和第二数据,确定第一数据与第二数据之间的参考相似度,并依据参考相似度,可得到相似度阈值,其中,相似度阈值与参考相似度呈正相关。
假设参考相似度为s1,相似度阈值为s2。在一种可能实现的方式中,s1、s2满足下式:
s1=c×s2…公式(1)
其中,c为正数。
在另一种可能实现的方式中,s1、s2满足下式:
Figure BDA0002387224540000101
其中,c为正数。
在又一种可能实现的方式中,s1、s2满足下式:
s1=c×s2+d…公式(3)
其中,c和d均为正数。
可选的,计算参考簇中每两数据之间的相似度,得到参考相似度集。将参考相似度集的均值作为上述相似度阈值。
本实施例依据参考簇中的数据之间的相似度确定相似度阈值,可实现为不同类型的数据设置不同的相似度阈值,进而提升聚类结果的准确度。
请参阅图2,图2是本申请实施例提供的另一种数据处理方法的流程示意图。
201、确定上述至少两个待处理簇对的第一相似度。
确定至少两个待处理簇对中每个簇对的第一相似度,本步骤可参见步骤11,此处将不再赘述。
202、依据上述第一相似度对上述至少两个待处理簇对排序,得到簇对次序。
依据步骤201得到的每个簇对的第一相似度,按第一相似度对至少两个待处理簇对排序,得到簇对次序。
在一种可能实现的方式中,可按第一相似度从大到小的顺序对至少两个待处理簇对排序,得到簇对次序。例如(例2),至少两个簇对包含3个待确认簇对,分别为:待处理簇对1,待处理簇对2,待处理簇对3。待处理簇对1的第一相似度为75%,待处理簇对2的第一相似度为85%,待处理簇对3的第一相似度为60%。按第一相似度从大到小的顺序对至少两个待处理簇对对排序得到的簇对次序为:1.待处理簇对2;2.待处理簇对1;3.待处理簇对3。
在一种可能实现的方式中,可按第一相似度从小到大的顺序对至少两个待处理簇对排序,得到簇对次序。例如(例3),至少两个簇对包含3个待确认簇对,分别为:待处理簇对1,待处理簇对2,待处理簇对3。待处理簇对1的第一相似度为75%,待处理簇对2的第一相似度为85%,待处理簇对3的第一相似度为60%。按第一相似度从小到大的顺序对至少两个待处理簇对对排序得到的簇对次序为:1.待处理簇对3;2.待处理簇对1;3.待处理簇对2。
203、依据上述簇对次序,将上述第一相似度最大的k个簇对作为上述k个待确认簇对。
在簇对次序为第一相似度从大到小的顺序的情况下,选取簇对次序中的前k个簇对,即可得到至少两个待处理簇对中第一相似度最大的k个簇对,得到k个待确认簇对。例如,假设k=2,在例2中,可选取簇对次序中的第一个簇对(即待处理簇对2)和簇对次序中的第二个簇对(即待处理簇对1),作为待确认簇对。
在簇对次序为第一相似度从小到大的顺序的情况下,选取簇对次序中的后k个簇对,即可得到至少两个待处理簇对中第一相似度最大的k个簇对,得到k个待确认簇对。例如,假设k=2,在例3中,可选取簇对次序中的倒数第一个簇对(即待处理簇对2)和簇对次序中的倒数第二个簇对(即待处理簇对1),作为待确认簇对。
由于在对至少两个待处理簇对进行聚类处理的过程中,至少需要执行一次得到k个待确认簇对的处理。例如(例4),至少两个待处理簇对包括待处理簇对1、待处理簇对2、待处理簇对3,待处理簇对4、待处理簇对5、待处理簇对6,其中,待处理簇对1包括簇A和簇B,待处理簇对2包括簇A和簇C,待处理簇对3包括簇A和簇D,待处理簇对4包括簇A和簇E,待处理簇对5包括簇B和簇C,待处理簇对6包括簇B和簇D,待处理簇对7包括簇B和簇E,待处理簇对8包括簇C和簇D,待处理簇对9包括簇C和簇E,待处理簇对10包括簇D和簇E。假设k=2。在第一次迭代处理的过程中,从待处理簇对1、待处理簇对2、待处理簇对3、待处理簇对4、待处理簇对5、待处理簇对6、待处理簇对7、待处理簇对8、待处理簇对9、待处理簇对10中选取待处理簇对1和待处理簇对2,作为2个待确认簇对。假设n=1,且待处理簇对1的第二相似度大于待处理簇对2的第二相似度,则合并待处理簇对1,即合并簇A和簇B,得到簇F。这样,至少两个待处理簇对中的簇对将更新,更新后的至少两个待处理簇对包括:待处理簇对8、待处理簇对9、待处理簇对10、待处理簇对11、待处理簇对12,其中,待处理簇对11包括簇C和簇F,待处理簇对12包括簇D和簇F,待处理簇对12包括簇E和簇F。在第二次迭代处理的过程中,需要从待处理簇对8、待处理簇对9、待处理簇对10、待处理簇对11、待处理簇对12中选取2个待确认簇对,并合并2个待确认簇对中第二相似度最大的簇对。
本实施依据至少两个簇对的第一相似度,得到簇对次序。依据簇对次序,得到k个待确认簇对。可减少得到待确认簇对所需的数据处理量,提高处理速度。
举例来说,若基于本实施例提供的技术方案对例4中的至少两个待处理簇对进行处理,则在第一迭代处理的过程中,依据待处理簇对1的第一相似度、待处理簇对2的第一相似度、待处理簇对3的第一相似度、待处理簇对4的第一相似度、待处理簇对5的第一相似度、待处理簇对6的第一相似度、待处理簇对7的第一相似度、待处理簇对8的第一相似度、待处理簇对9的第一相似度、待处理簇对10的第一相似度,得到的簇对次序1为:1.待处理簇对10;2.待处理簇对9;3.待处理簇对8;4.待处理簇对7;5.待处理簇对6;6.待处理簇对5;7.待处理簇对4;8.待处理簇对3;9.待处理簇对2;10.待处理簇对1。由于在执行完第二次迭代处理的过程中,至少两个待处理簇对包括:待处理簇对8、待处理簇对9、待处理簇对10、待处理簇对11、待处理簇对12,在第二次迭代处理的过程中,簇对次序1更新为簇对次序2:1.待处理簇对12;2.待处理簇对11;3.待处理簇对10;4.待处理簇对9;待处理簇对8。依据簇对次序2可得到第二次迭代处理中的2个待确认簇对。由于簇对次序1中包括:待处理簇对8、待处理簇对9、待处理簇对10,在得到簇对次序2的过程中,只需确定待处理簇对11的第一相似度、待处理簇对12的第一相似度。比较待处理簇对11的第一相似度与待处理簇对8的第一相似度的大小,或,比较待处理簇对11的第一相似度与待处理簇对10的第一相似度的大小。比较待处理簇对12的第一相似度与待处理簇对8的第一相似度的大小,或,比较待处理簇对12的第一相似度与待处理簇对10的第一相似度的大小。但在例4中,需要确定待处理簇对11的第一相似度、待处理簇对12的第一相似度。通过比较待处理簇对8、待处理簇对9、待处理簇对10、待处理簇对11、待处理簇对12中每两个簇对的第一相似度的大小,才能得到第二次迭代处理中的2个待确认簇对。显然,基于本实施例提供的技术方案,在得到第二次迭代处理中的2个待确认簇对的过程中,所需的数据处理量更少,处理速度更快。
基于簇对中的数据构建邻接图,使邻接图包含数据的信息以及数据与数据之间的信息。使用GCN对邻接图进行处理,可得到簇对的相似度。由于邻接图中的每个节点与簇对中的一个数据对应,且节点与节点之间的邻接关系包括数据与数据之间的关系(此处的关系包括数据与数据之间的相似度)。使用GCN对邻接图进行处理,不仅可利用簇中单个数据的信息,还可利用数据与数据之间的信息,因此,得到的簇对的相似度的精度比仅利用单个数据的信息得到的相似度的精度大。例如,假设簇对包括簇1和簇2,基于簇1中一个数据的信息与簇2中一个数据的信息,可得到最远相似度或最近相似度。基于簇1的质心与簇2的质心,可得到质心相似度。最远相似度、最近相似度、质心相似度均只利用了簇1中一个数据的信息以及簇2中一个数据的信息(即簇中单个数据的信息)。使用GCN对簇对处理,不仅可以利用簇1中一个数据的信息与簇2中一个数据的信息,还能利用簇1中至少两个数据之间的信息以及簇2中至少两个数据之间的信息。显然,最远相似度、最近相似度、质心相似度、GCN相似度中精度最大的为GCN相似度。
本申请实施例中,相似度的精度可参见下例:假设簇对1的真实相似度为s1,GCN相似度为s2。GCN相似度的精度为
Figure BDA0002387224540000131
精度高所需付出的代价是数据处理量大,处理时间长。考虑到至少两个待处理簇对中的数据的数量非常大,若通过对至少两个待处理簇对进行处理得到精度大的相似度,带来的数据处理量非常大,且处理过程的耗时长。因此,基于本申请实施例提供了的技术方案,可在减小数据处理量的同时,将精度大的相似度作为依据判断是否合并簇对,进而提高聚类结果的准确度。
接下来将以GCN相似度(即精度大的相似度)和最远相似度(即精度小的相似度)为例,进行阐述,请参阅图3,图3是本申请实施例提供的另一种数据处理方法的流程示意图。
301、获取上述至少两个待处理簇对和图卷积网络。
获取至少两个待处理簇对的方式可参见步骤101,此处将不再赘述。
获取GCN的方式可以是接收用户通过输入组件输入的GCN,其中,输入组件包括:键盘、鼠标、触控屏、触控板和音频输入器等。获取GCN的方式也可以是接收终端发送的GCN,其中,终端包括手机、计算机、服务器、平板电脑等。
302、将上述两个簇之间的相似度作为上述待处理簇对的相似度,从上述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对。
本步骤可参见步骤102,此处将不再赘述。
303、使用上述图卷积网络对上述k个待确认簇对进行处理,得到上述k个待确认簇对的第二相似度。
构建k个待确认簇对中的数据的邻接图,使邻接图中每个节点分别与一个数据对应。每两个节点之间的邻接关系可用于表征与节点对应的数据之间的相似度信息。
使用GCN对该邻接图进行处理,得到k个待确认簇对的GNC相似度(即上述第二相似度)。例如,k=3,3个待确认簇对分别为待确认簇对1、待确认簇对2、待确认簇对3。构建待确认簇对1、待确认簇对2、待确认簇对3的邻接图,得到待处理邻接图。使用GCN对待处理邻接图进行处理,得到待确认簇对1的GCN相似度、待确认簇对2的GCN相似度、待确认簇对3的GCN相似度。
由于经过步骤302的处理,已从至少两个待处理簇对中选取k个簇对,作为k个待确认簇对。本步骤中,GCN所需处理的对象从至少两个待处理簇对减少至k个待处理簇对。在k小于至少两个待处理簇对中簇对的数量的情况下,经过步骤302的处理减少了GCN的所需处理的数据量,进而提高了处理速度。虽然第一相似度的精度比第二相似度的精度小,但是以第一相似度为依据,可从至少两个待处理簇对中选取出质量较高的簇对,得到k个待确认簇对。以第二相似度为依据,从k个待确认簇对中选取n个待合并簇对,可提高合并准确度。
本申请实施例中,簇对的质量高指将簇对合并得到的聚类结果的准确度高。例如,簇对A包括簇a和簇b。簇对B包括簇c和簇d。将簇a和簇b合并得到的聚类结果的准确度为97%。将簇c和簇d合并得到的聚类结果的准确度为95%。簇对A的质量比簇对B的质量高。
此外,传统方法通过单一判断依据判断是否合并待处理簇对。该处理过程如下:依据第一相似度对至少两个待处理簇对进行排序,得到参考簇对次序。依据参考簇对次序,得到t个参考簇对。依据t个参考簇对,得到x个待合并簇对。合并x个待合并簇对。在该处理过程中,数据处理装置在每次迭代处理中,只需考虑参考簇对次序中的前t个簇对或后t个簇对得到t个待合并簇对,但是在得到t个待合并簇对时,并未考虑到参考簇对次序中除t个簇对之外的簇对,导致传统方法中存在局部最优问题。例如(例5),至少两个待处理簇对包括:待处理簇对1、待处理簇对2、待处理簇对3、待处理簇对4。假设t=2,x=1。依据最远相似度得到的参考簇对次序为:1.待处理簇对4;2.待处理簇对3;3.待处理簇对2;1.待处理簇对1。在第一次迭代处理的过程中,选取待处理簇对4和待处理簇对3作为参考簇对。从参考簇对中选取待处理簇对3作为待合并簇对,并合并待处理簇对3。也就是说,待处理簇对3并非待处理簇对1、待处理簇对2、待处理簇对3中的最优解(即并非全局最优解),而是待处理簇对4和待处理簇对3中的局部最优解。
基于本申请实施例提供的技术方案可减小局部最优问题带来的影响,提升合并准确度。在例5中,若使用本申请实施例提供的技术方案对待处理簇对1、待处理簇对2、待处理簇对3、待处理簇对4进行处理,在第一次迭代处理的过程中,依据最远相似度得到的簇对次序为:1.待处理簇对4;2.待处理簇对3;3.待处理簇对2;1.待处理簇对1。假设k=3。从簇对次序中选取前3个簇对作为待确认簇对,得到的3个待确认簇对为:待处理簇对4、待处理簇对3、待处理簇对2。从3个待确认簇对中选取GCN相似度最大的簇对作为待合并簇对。假设待合并簇对为待处理簇对2,则待处理簇对2为待处理簇对4、待处理簇对3、待处理簇对2中的局部最优解。将包含待处理簇对4、待处理簇对3、待处理簇对2的数据集合称为第一数据集合,将包含待处理簇对4、待处理簇对3的数据集合称为第二数据集合对应。由于第一数据集合的范围比第二数据集合的范围大,依据本申请实施例提供的技术方案得到的待合并簇对的质量比例5中的待合并簇对的质量高。
304、合并上述k个待确认簇对中第二相似度最大的n个簇对。
本步骤可参见步骤103,此处将不再赘述。
在第二相似度的精度比第一相似度的精度大,且得到至少两个待处理簇对的第二相似度所需的处理量大的情况下,基于本申请实施例提供的技术方案,可利用第二相似度提高聚类结果的准确度的同时,减小数据处理量,提高处理速度。
本申请实施例中,k为正整数,在实施本申请实施例提供的技术方案的过程中,可根据用户需求确定k的大小。k的不同取值,具有不同的影响,具体包括以下几点:
1、k的取值可影响合并k个待确认簇对中第二相似度最大的n个簇对的速度,进而影响数据处理装置完成至少两个待处理簇对的聚类处理所耗费的时间。具体来说,k与数据处理装置完成至少两个待处理簇对的聚类处理所耗费的时间呈正相关。
2、k的取值可影响从k个待确认簇对中确定第二相似度最大的n个簇对所需的数据处理量。具体的,k的取值与数据处理量呈正相关。而执行本申请实施例提供的技术方案的数据处理装置是否能够支持该数据处理量的一个重要指标为:数据处理装置的存储容量。显然,存储容量与内存成本呈正相关,即存储容量与数据处理装置的成本呈正相关。进一步讲,数据处理量与数据处理装置的成本呈正相关。再进一步讲,k与数据处理装置的成本呈正相关。
3、k的取值可影响至少两个待处理簇对的合并准确度。k的取值越大,从k个待确认簇对中选取得到的n个待合并簇对的质量就越高,进而至少两个待处理簇对的合并准确度也就越高。也就是说,k与至少两个待处理簇对的聚类结果的准确度呈正相关。
显然,对于不同的需求,k的取值也不同。因此,综合考虑以上三点影响确定k的取值,可在满足不同用户的需求的同时,提高至少两个待处理簇对的聚类结果的准确度。例如,用户A期望在更短的时间内完成对至少两个待处理簇对的聚类处理。用户B期望使用硬件配置更低(如存储容量小)的设备完成对至少两个待处理簇对的聚类处理。
在一种可能实现的方式中,数据处理装置获取参考时长和/或参考存储容量。依据参考时长和/或参考存储容量,得到k。本申请实施例中,参考时长为数据处理装置执行完对至少两个待处理簇对的聚类处理的最长时长。例如,用户期望在10分钟内完成对至少两个待处理簇对的聚类处理,则参考时长为10分钟。参考存储容量可以是数据处理装置的存储容量。数据处理装置获取参考时长的方式可以是接收用户通过输入组件输入的参考时长。数据处理装置获取参考时长的方式也可以是接收终端发送的参考时长。数据处理装置获取参考存储容量的方式可以是接收用户通过输入组件输入的参考存储容量。数据处理装置获取参考存储容量的方式也可以是接收终端发送的参考存储容量。在数据处理装置获取参考时长的情况下,可依据参考时长得到k。在数据处理装置获取参考存储容量的情况下,可依据参考存储容量得到k。在数据处理装置获取参考时长和参考存储容量的情况下,可依据参考时长和参考存储容量得到k。
在一种依据参考时长得到k的实现方式中,假设参考时长为tr,则参考时长和k满足下式:
Figure BDA0002387224540000161
其中,n为至少两个待处理簇对中簇的数量,a和b均为正数。可选的,a=10000,b=2。在公式(4)中,tr的单位为秒。例如,a=10000,n=500,tr=1.8秒,b=5。依据公式(4)可确定k=41。需要理解的是,若依据公式(4)得到的结果非整数,可对该结果进行四舍五入得到k。例如,依据公式(4)得到的结果为80.3,对80.3四舍五入得到的结果为80,即为k的取值。
在另一种依据参考时长得到k的实现方式中,假设参考时长为tr,则参考时长和k满足下式:
Figure BDA0002387224540000162
其中,n为至少两个待处理簇对中簇的数量,a为正数。可选的,a=10000000。在公式(5)中,tr的单位为秒。例如,a=10000000,n=400,tr=1秒。依据公式(5)可确定k=62.5。需要理解的是,若依据公式(5)得到的结果非整数,可对该结果进行四舍五入得到k。例如,依据公式(5)得到的结果为100.6,对100.6四舍五入得到的结果为101,即为k的取值。
在一种依据参考存储容量得到k的实现方式中,假设参考存储容量为cr,则参考存储容量和k满足下式:
Figure BDA0002387224540000171
其中,n为至少两个待处理簇对中簇的数量,a为正数。可选的,a=1000。在公式(6)中,cr的单位为字节。例如,a=1000,n=50000,cr=10240字节。依据公式(6)得到的结果为19.3。对14.3四舍五入可确定k=14。
在另一种依据参考存储容量得到k的实现方式中,假设参考存储容量为cr,则参考存储容量和k满足下式:
Figure BDA0002387224540000172
其中,n为至少两个待处理簇对中簇的数量,a和b均为正数。可选的,a=1000,b=5。在公式(7)中,cr的单位为字节。例如,a=100,n=50,cr=10240字节,b=5。依据公式(7)得到的结果为148.1。对19.3四舍五入可确定k=148。
在一种依据参考时长和参考存储容量得到k的实现方式中,假设参考时长为tr,参考时长为cr,则参考时长、参考存储容量和k满足下式:
Figure BDA0002387224540000173
其中,n为至少两个待处理簇对中簇的数量,a和b均为正数。可选的,a=3,b=1000。在公式(8)中,tr的单位为秒,cr的单位为字节。例如,a=3,b=1000,n=500,tr=1.5秒,cr=25600字节。依据公式(8)得到的结果为162.6。对162.6四舍五入可确定k=163。
在另一种依据参考时长和参考存储容量得到k的实现方式中,假设参考时长为tr,参考时长为cr,则参考时长、参考存储容量和k满足下式:
Figure BDA0002387224540000174
其中,n为待处理数据的数量,a、b、c均为正数。可选的,a=3,b=1000,c=5。在公式(9)中,tr的单位为秒,cr的单位为字节。例如,a=3,b=1000,c=5,n=500,tr=1.5秒,cr=25600字节。依据公式(9)得到的结果为167.6。对167.6四舍五入可确定k=168。
依据参考时长和/或参考存储容量确定k,可综合考虑上述三方面,为k确定合适的取值。例如,用户期望缩短对至少两个待处理簇对进行聚类处理所耗费的时间,可将参考时长调小。数据处理装置依据参考时长,在使对至少两个待处理簇对进行聚类处理所耗费的时间小于或等于参考时长的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(使数据处理装置构建邻接图的时长小于或等于参考时长)的前提下,提高至少两个待处理簇对的聚类结果的准确度。又例如,用户期望使用存储容量小的数据处理装置,对至少两个待处理簇对进行聚类处理,可将参考存储容量调小。数据处理装置依据参考存储容量,在使数据处理装置能完成对至少两个待处理簇对的聚类处理的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(通过存储容量小的数据处理装置完成对至少两个待处理簇对的聚类处理)的前提下,提高至少两个待处理簇对的聚类结果的准确度。再例如,用户期望使用存储容量小的数据处理装置,对至少两个待处理簇对进行聚类处理,并缩短数据处理装置对至少两个待处理簇对进行聚类处理所耗费的时间,可在将参考存储容量调小的同时,将参考时长调小。数据处理装置依据参考存储容量和参考时长,在使数据处理装置能完成对至少两个待处理簇对的聚类处理,且使数据处理装置对至少两个待处理簇对进行聚类处理所耗费的时间小于或等于参考时长的前提下,使k的取值最大,从而确定k的取值。从而达到在满足用户需求(通过存储容量小的数据处理装置完成对至少两个待处理簇对的聚类处理,且使数据处理装置构建邻接图的时长小于或等于参考时长)的前提下,提高至少两个待处理簇对的聚类结果的准确度。
随着智能终端(包括手机、计算机、平板电脑)的普及,以及智能终端的拍照功能的提升,越来越多的用户使用智能终端拍摄各种各样的图像,但随着图像的数量的增加,如何高效管理智能终端里的图像就变得非常有意义。
将本申请实施例提供的技术方案应用于智能终端,智能终端可通过对图像进行聚类处理,完成对图像的管理。例如,小红喜欢用手机拍狗,以及保存包含狗的图像。但是由于狗的品种的数量多,且图像的数量多,小红需要花费很长的时间从手机中找到某一张包含狗的图像。将本申请实施例提供的技术方案应用于手机,可使手机完成对所有包含狗的图像的聚类处理,得到聚类结果。这样,小红就能从所有图像中快速找到某一张包含狗的图像。在本示例中,小红的手机中还存储有很多人脸图像。手机使用本申请实施例提供的技术方案也可完成对人脸图像的聚类处理,以便小红从所有图像中找到某一张人脸图像。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图4,图4为本申请实施例提供的一种数据处理装置的结构示意图,该装置1包括:获取单元11、选取单元12、合并单元13、第一确定单元14、第二确定单元15、第一处理单元16以及第二处理单元17,其中:
获取单元11,用于获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;
选取单元12,用于从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;
合并单元13,用于合并所述k个待确认簇对中第二相似度最大的n个簇对,其中,所述第一相似度与所述第二相似度不同,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。
结合本申请任一实施方式,所述装置还包括:
第一确定单元14,用于在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,确定所述至少两个待处理簇对的第一相似度,得到相似度集;
所述选取单元12,用于在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤。
结合本申请任一实施方式,所述至少两个待处理簇对包括参考簇,所述参考簇包括第一数据和第二数据;
所述装置1还包括:
第二确定单元15,用于在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤之前,确定所述第一数据与所述第二数据之间的参考相似度;
第一处理单元16,用于依据所述参考相似度,得到所述相似度阈值,所述相似度阈值与所述参考相似度呈正相关。
结合本申请任一实施方式,所述选取单元12,用于:
确定所述至少两个待处理簇对的第一相似度;
依据所述第一相似度对所述至少两个待处理簇对排序,得到簇对次序;
依据所述簇对次序,将所述第一相似度最大的k个簇对作为所述k个待确认簇对。
结合本申请任一实施方式,所述第二相似度的精度大于所述第一相似度的精度。
结合本申请任一实施方式,所述合并单元13,用于:
获取图卷积网络;
使用所述图卷积网络对所述k个待确认簇对进行处理,得到所述k个待确认簇对的第二相似度。
结合本申请任一实施方式,所述获取单元,还用于在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,获取参考时长和/或所述数据处理装置的参考存储容量,其中,所述参考时长为所述数据处理装置执行完所述数据处理方法的最长时长;
所述装置还包括:第二处理单元17,用于依据所述参考时长和/或所述参考存储容量,得到所述k。
本实施通过将第一相似度作为筛选依据,从至少两个待处理簇对中选取k个待确认簇对。以第二相似度为筛选依据,从k个待确认簇对中选取待合并簇对,并将待合并簇对合并以完成对至少两个待处理簇对的聚类处理。可使本实施提供的技术方案在对不同的聚类对象进行聚类处理,得到的聚类结果的准确度均高,从而达到提高通用性的效果。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图5为本申请实施例提供的一种数据处理装置的硬件结构示意图。该数据处理装置2包括处理器21,存储器22,输入装置23,输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器21可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器21是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
处理器21用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
存储器22用于存储网络设备的程序代码和数据。
存储器22包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置23用于输入数据和/或信号,以及输出装置24用于输出数据和/或信号。输出装置24和输入装置23可以是独立的器件,也可以是一个整体的器件。
可以理解的是,图5仅仅示出了数据处理装置的简化设计。在实际应用中,数据处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的数据处理装置都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一数据,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站数据、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站数据、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digitalversatile disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存储存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;
从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;
合并所述k个待确认簇对中第二相似度最大的n个簇对,其中,所述第一相似度与所述第二相似度不同,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。
2.根据权利要求1所述的方法,其特征在于,在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,所述方法还包括:
确定所述至少两个待处理簇对的第一相似度,得到相似度集;
在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤。
3.根据权利要求2所述的方法,其特征在于,所述至少两个待处理簇对包括参考簇,所述参考簇包括第一数据和第二数据;
所述在所述相似度集中的最大值大于或等于相似度阈值的情况下,执行所述从所述至少两个待处理簇对中对选取第一相似度最大的k个簇对,作为k个待确认簇对的步骤之前,所述方法还包括:
确定所述第一数据与所述第二数据之间的参考相似度;
依据所述参考相似度,得到所述相似度阈值,所述相似度阈值与所述参考相似度呈正相关。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对,包括:
确定所述至少两个待处理簇对的第一相似度;
依据所述第一相似度对所述至少两个待处理簇对排序,得到簇对次序;
依据所述簇对次序,将所述第一相似度最大的k个簇对作为所述k个待确认簇对。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述第二相似度的精度大于所述第一相似度的精度。
6.根据权利要求5所述的方法,其特征在于,所述合并所述k个待确认簇对中第二相似度最大的簇对,包括:
获取图卷积网络;
使用所述图卷积网络对所述k个待确认簇对进行处理,得到所述k个待确认簇对的第二相似度。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法应用于数据处理装置;
在从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对之前,所述方法还包括:
获取参考时长和/或所述数据处理装置的参考存储容量,其中,所述参考时长为所述数据处理装置执行完所述数据处理方法的最长时长;
依据所述参考时长和/或所述参考存储容量,得到所述k。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取至少两个待处理簇对,每个所述待处理簇对包括两个簇;
选取单元,用于从所述至少两个待处理簇对中选取第一相似度最大的k个簇对,作为k个待确认簇对;
合并单元,用于合并所述k个待确认簇对中第二相似度最大的n个簇对,其中,所述第一相似度与所述第二相似度不同,所述待处理簇对的相似度用于表示所述待处理簇对中的所述两个簇之间的相似度。
9.一种处理器,其特征在于,所述处理器用于执行如权利要求1至7中任意一项所述的方法。
10.一种电子设备,其特征在于,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至7中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至7中任意一项所述的方法。
CN202010102162.1A 2020-02-19 2020-02-19 数据处理方法及装置、处理器、电子设备、存储介质 Active CN111310834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010102162.1A CN111310834B (zh) 2020-02-19 2020-02-19 数据处理方法及装置、处理器、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010102162.1A CN111310834B (zh) 2020-02-19 2020-02-19 数据处理方法及装置、处理器、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111310834A true CN111310834A (zh) 2020-06-19
CN111310834B CN111310834B (zh) 2024-05-28

Family

ID=71147513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010102162.1A Active CN111310834B (zh) 2020-02-19 2020-02-19 数据处理方法及装置、处理器、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111310834B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329070A (zh) * 2020-11-30 2021-02-05 中国民航信息网络股份有限公司 一种数据处理方法及装置
CN112508134A (zh) * 2021-02-02 2021-03-16 贝壳找房(北京)科技有限公司 度量集合间相似度的方法、装置、介质和电子设备
CN112541384A (zh) * 2020-07-30 2021-03-23 深圳市商汤科技有限公司 对象查找方法及装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011024473A (ja) * 2009-07-24 2011-02-10 Nec Soft Ltd アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体
CN103927545A (zh) * 2014-03-14 2014-07-16 小米科技有限责任公司 聚类方法及相关装置
CN106228188A (zh) * 2016-07-22 2016-12-14 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
CN107038168A (zh) * 2016-02-03 2017-08-11 中兴通讯股份有限公司 一种用户通勤轨迹管理方法、装置及系统
JP2018010438A (ja) * 2016-07-13 2018-01-18 国立大学法人京都大学 クラスタ評価装置、クラスタ数算出装置、クラスタ装置、クラスタ評価方法、およびプログラム
CN108090047A (zh) * 2018-01-10 2018-05-29 华南师范大学 一种文本相似度的确定方法及设备
CN108171252A (zh) * 2017-11-16 2018-06-15 柳州健鱼科技有限公司 一种基于分层聚类的均衡图像聚类方法
CN108182181A (zh) * 2018-02-01 2018-06-19 中国人民解放军国防科技大学 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN109063737A (zh) * 2018-07-03 2018-12-21 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及移动终端
CN109145844A (zh) * 2018-08-29 2019-01-04 北京旷视科技有限公司 用于城市安防监控的档案管理方法、装置以及电子设备
CN110210731A (zh) * 2019-05-20 2019-09-06 深圳壹账通智能科技有限公司 提醒任务分配方法、装置、计算机设备和存储介质
CN110232373A (zh) * 2019-08-12 2019-09-13 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质
CN110414429A (zh) * 2019-07-29 2019-11-05 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011024473A (ja) * 2009-07-24 2011-02-10 Nec Soft Ltd アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体
CN103927545A (zh) * 2014-03-14 2014-07-16 小米科技有限责任公司 聚类方法及相关装置
CN107038168A (zh) * 2016-02-03 2017-08-11 中兴通讯股份有限公司 一种用户通勤轨迹管理方法、装置及系统
JP2018010438A (ja) * 2016-07-13 2018-01-18 国立大学法人京都大学 クラスタ評価装置、クラスタ数算出装置、クラスタ装置、クラスタ評価方法、およびプログラム
CN106228188A (zh) * 2016-07-22 2016-12-14 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
CN108171252A (zh) * 2017-11-16 2018-06-15 柳州健鱼科技有限公司 一种基于分层聚类的均衡图像聚类方法
CN108090047A (zh) * 2018-01-10 2018-05-29 华南师范大学 一种文本相似度的确定方法及设备
CN108182181A (zh) * 2018-02-01 2018-06-19 中国人民解放军国防科技大学 一种基于混合相似度的大众贡献合并请求重复性检测方法
CN109063737A (zh) * 2018-07-03 2018-12-21 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及移动终端
CN109145844A (zh) * 2018-08-29 2019-01-04 北京旷视科技有限公司 用于城市安防监控的档案管理方法、装置以及电子设备
CN110210731A (zh) * 2019-05-20 2019-09-06 深圳壹账通智能科技有限公司 提醒任务分配方法、装置、计算机设备和存储介质
CN110414429A (zh) * 2019-07-29 2019-11-05 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质
CN110232373A (zh) * 2019-08-12 2019-09-13 佳都新太科技股份有限公司 人脸聚类方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", vol. 1, 北京:北京理工大学出版社, pages: 134 - 137 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541384A (zh) * 2020-07-30 2021-03-23 深圳市商汤科技有限公司 对象查找方法及装置、电子设备及存储介质
CN112329070A (zh) * 2020-11-30 2021-02-05 中国民航信息网络股份有限公司 一种数据处理方法及装置
CN112329070B (zh) * 2020-11-30 2024-02-27 中国民航信息网络股份有限公司 一种数据处理方法及装置
CN112508134A (zh) * 2021-02-02 2021-03-16 贝壳找房(北京)科技有限公司 度量集合间相似度的方法、装置、介质和电子设备

Also Published As

Publication number Publication date
CN111310834B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN111310834B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN110704677A (zh) 一种节目推荐方法、装置、可读存储介质及终端设备
CN110909817B (zh) 分布式聚类方法及系统、处理器、电子设备及存储介质
CN114494709A (zh) 特征提取模型的生成方法、图像特征提取方法和装置
CN110334104B (zh) 一种榜单更新方法、装置、电子设备及存储介质
CN111581388A (zh) 一种用户意图识别方法、装置及电子设备
CN114662607B (zh) 基于人工智能的数据标注方法、装置、设备以及存储介质
CN115841144A (zh) 一种文本检索模型的训练方法及装置
CN111428767B (zh) 数据处理方法及装置、处理器、电子设备及存储介质
WO2021159668A1 (zh) 机器人对话方法、装置、计算机设备和存储介质
CN111340082B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN113157582A (zh) 测试脚本执行序列确定方法及装置
CN111340084B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN111340085A (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN111814051A (zh) 一种资源类型确定方法及装置
CN114547455B (zh) 热门对象确定方法、装置、存储介质及电子设备
CN114138972B (zh) 文本类别的识别方法及装置
CN111507428A (zh) 数据处理方法及装置、处理器、电子设备、存储介质
CN115408447A (zh) 一种适用于大数据挖掘的混合聚类方法及系统
CN118069652A (zh) 数据流转信息的确定方法、装置、设备及存储介质
CN117743411A (zh) 构建查询词类目匹配关系的方法、查询方法及相关产品
CN117668577A (zh) 一种社区网络确定方法、装置、设备和存储介质
CN117743669A (zh) 一种数据召回方法、装置、电子设备及存储介质
CN118193195A (zh) 数据搜索方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant