CN110826616A - 信息处理方法及装置、电子设备、存储介质 - Google Patents

信息处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN110826616A
CN110826616A CN201911055873.1A CN201911055873A CN110826616A CN 110826616 A CN110826616 A CN 110826616A CN 201911055873 A CN201911055873 A CN 201911055873A CN 110826616 A CN110826616 A CN 110826616A
Authority
CN
China
Prior art keywords
clustering
result
information
index
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911055873.1A
Other languages
English (en)
Other versions
CN110826616B (zh
Inventor
彭冬炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201911055873.1A priority Critical patent/CN110826616B/zh
Publication of CN110826616A publication Critical patent/CN110826616A/zh
Application granted granted Critical
Publication of CN110826616B publication Critical patent/CN110826616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Abstract

本公开实施例是关于一种信息处理方法及装置、电子设备、存储介质,涉及计算机技术领域,该方法包括:获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。本公开的技术方案能够准确评估目标聚类结果。

Description

信息处理方法及装置、电子设备、存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种信息处理方法、信息处理装置、电子设备以及计算机可读存储介质。
背景技术
在图像处理过程中,经常需要将多个图像划分为不同的类别,而聚类方式是划分图像类别的重要方式。
相关技术中,采用不同的聚类方法对图像进行聚类得到的聚类结果可能也存在差异,一般可以通过人工方式来判断是否聚类准确。通过人工方式进行判断时,效率较低且准确率较差,并具有局限性,不能对聚类结果进行全面地评价。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种信息处理方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的聚类结果评估效率低以及不准确的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种信息处理方法,包括:获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
根据本公开的一个方面,提供一种信息处理装置,包括:结果获取模块,用于获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;第一指标确定模块,用于根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;第二指标确定模块,用于根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;聚类评估模块,用于基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的信息处理方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的信息处理方法。
本公开实施例中提供的信息处理方法、信息处理装置、电子设备以及计算机可读存储介质中,一方面,能够通过预设图像的至少一个聚类属性的多个聚类结果中,用于表示聚类的程度信息的组合的待选组合信息以及用于表示每个聚类属性的聚类结果组合情况的组合聚类结果确定第一指标,且能够根据对预设图像进行标注分类的真实标注结果以及待选组合信息确定第二指标,进一步根据第一指标和第二指标等信息全面地对聚类结果进行评估,并通过评估指标直观地表示对目标聚类结果的质量评估结果,减少了相关技术中的局限性,提高了全面性,并且增加了聚类质量评估结果的可靠性。另一方面,由于可以通过组合聚类结果以及真实标注结果等信息能够准确得到第一指标和第二指标,因此能够提高聚类结果评估的效率,并且能够提高对聚类结果的质量进行评估的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开实施例用于实现信息处理方法的系统架构图。
图2示意性示出本公开实施例中一种信息处理方法的示意图。
图3示意性示出本公开实施例中确定程度信息的示意图。
图4示意性示出本公开实施例中信息处理装置的框图。
图5示意性示出本公开实施例中一种电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开实施例中,首先提供了一种信息处理方法,该信息处理方法可以应用于对任意图像进行聚类的场景中,例如对相册中的图像或视频进行聚类后评估聚类结果的质量的场景等等。
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括第一端101、网络102、第二端103。其中,第一端101可以是客户端,例如可以为便携式计算机、台式计算机、智能手机等具有显示屏幕的终端设备;第一端也可以是服务器,以用于存储聚类结果;网络102用以在第一端101和第二端103之间提供通信链路的介质,网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等,在本公开实施例中,第一端101和第二端103之间的网络102可以是有线通信链路,例如可以通过串口连接线提供通信链路,也可以是无线通信链路,通过无线网络提供通信链路。第二端103可以是客户端,例如便携式计算机、台式计算机、智能手机等具有显示屏幕的终端设备;第二端也可以是服务器,以便于对聚类结果进行分析。其中,当第一端和第二端均为客户端时,二者可以为同一个客户端。当第一端和第二端均为服务器时,二者可以为同一个服务器。
应该理解,图1中的第一端、网络和第二端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端、网络和服务器。
需要说明的是,本公开实施例所提供的信息处理方法可以完全由第二端103执行,也可以完全由第一端101执行,也可以部分由第一端执行,部分由第二端执行,此处对信息处理方法的执行主体不做特殊限定。相应地,信息处理装置可设置于第二端103中或设置于第一端101中。
在此基础上,本公开实施例中,可以从客户端获取目标聚类结果并在服务器进行聚类结果分析,或者是从服务器自身获取目标聚类结果并进行聚类结果分析,或者是从客户端自身获取目标聚类结果并进行聚类结果分析,或者是从服务器获取目标聚类结果并在客户端进行聚类结果分析等等。
图2示意性示出了根据本公开的一个实施例的信息处理方法的流程图,本公开实施例中以该信息处理方法由服务器执行为例进行说明。参照图2所示,该信息处理方法至少包括步骤S210至步骤S240。
在步骤S210中,获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果。
本公开实施例中,预设图像可以为输入用于聚类的聚类模型,或者是实际参与聚类的图像和/或视频,具体可以由用户来确定和选择。预设图像可以包括目标对象的预设部位的图像或者是视频,目标对象例如可以为人,预设部位例如可以为脸部。基于此,预设图像可以为包括多个人脸的图像或者是视频,预设图像的目标聚类结果即为对人脸图像的聚类结果。
聚类是一种无监督学习的算法,用于发现共同的群体,以按照相似性将预设图像划分为多个类或类别,需要说明的是,在聚类时,事先并不知道会分为多少个类。目标聚类结果可以为通过聚类算法对人脸图像进行分类而得到的分类结果,聚类算法可以为采用划分方法(例如K-MEANS算法、K-MEDOIDS算法、CLARANS算法)、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法中的任意一种或多种。目标聚类结果指的是已经得知分类情况的结果,目标聚类结果可以存储在客户端或者是服务器中。具体地,目标聚类结果可以是根据全量聚类或分段聚类得到的,此处不作限定。目标聚类结果可以包括一个或多个聚类属性的多个聚类结果,每个聚类属性均可以包括多个聚类结果,且每个聚类属性包括的聚类结果的数量可以相同或不同。其中聚类属性指的是将多个预设图像划分的类别(例如分为几大类),聚类属性可以为一个或者是多个。划分的类别具体可以用簇来表示,例如,将多个预设图像划分为5个簇,则认为聚类属性为簇1至簇5。聚类属性的多个聚类结果指的是每个聚类属性中包括的图像的数量,以及每个图像分别属于哪一个类别,且每一个聚类结果用于表示一个图像以及该图像的类别。例如,目标聚类结果包括2个簇,簇1中包括6个图像(6个聚类结果),簇2中包括4个图像(4个聚类结果)。簇2中的第1个图像属于人物1(聚类结果1为人物1),第2个图像属于人物2,第3个图像属于人物1,第4个图像属于人物1等。
在步骤S220中,根据所述多个聚类结果的待选组合信息以及组合聚类结果确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到。
本公开实施例中,组合聚类结果指的是每个聚类属性对应的多个聚类结果组合成的用于表示聚类情况的信息,组合聚类结果可以根据每个聚类属性对应的至少两个聚类结果组合而形成,例如,当有2个簇时,组合聚类结果可以为簇1对应的3个聚类结果的组合,以及簇2中的2个聚类结果的组合。具体而言,组合聚类结果可以用每种聚类属性对应的多个聚类结果形成的聚类图像信息来描述,聚类图像信息指的是每种聚类属性的多个聚类结果包含的所有图像的数量,且聚类图像信息与聚类结果的数量保持一致。例如,簇1包括6个聚类结果,则簇1的聚类图像信息为6个等等。需要说明的是,组合聚类结果指的是从所有的聚类结果中任意取出两个或两个以上的聚类结果的组合方式的数量,具体可以用数值来表示。
由于聚类算法可能存在误差,因此聚类结果可以包括正确聚类结果或者是错误聚类结果,聚类结果中还可以包括存在重复的聚类结果或者是不存在重复的聚类结果两种情况。待选组合信息可以为组合聚类结果中的部分或者是全部,具体可以根据多个聚类结果的程度信息而确定。程度信息用于描述每个聚类结果的准确性,具体可以为正确聚类结果或错误聚类结果。待选组合信息可以只包括正确聚类结果或错误聚类结果(即组合聚类结果中的部分),也可以包括正确聚类结果以及错误聚类结果(即组合聚类结果中的全部),根据要计算的指标的类型以及实际聚类结果的准确性来确定。待选组合信息具体可以通过聚类参考信息来描述,聚类参考信息即每个聚类属性的多个聚类结果中正确聚类或错误聚类的图像的数量,且聚类参考信息小于等于聚类结果的数量。例如簇1包括6个聚类结果,且6个均为正确聚类结果;簇2包括4个聚类结果,且4个均为正确聚类结果;簇3包括3个聚类结果,且3个均为错误聚类结果,则聚类参考信息分为三部分组成,第一部分为6个,第二部分为4个,第三部分为3个。
图3中示意性示出确定程度信息的示意图,参考图3中所示,主要包括步骤S310至步骤S340,其中:
在步骤S310中,将每个聚类属性的所述多个聚类结果中,数量最多的聚类结果确定为所述聚类属性的目标类别。
在步骤S320中,将所述聚类结果的类别与所述目标类别进行匹配,并判断是否匹配成功。若是,则转至步骤S330;若否,则转至步骤S340。
在步骤S330中,如果聚类结果的类别与目标类别匹配,则确定聚类结果为正确聚类结果。
在步骤S340中,若聚类结果的类别与目标类别不匹配,则确定聚类结果为错误聚类结果。
本公开实施例中,可以根据每个聚类属性的聚类结果的数量,确定每一个聚类结果是否正确。具体地,可以按照数量选择该聚类属性对应的目标类别,并将其作为参考;进一步可以将每个聚类结果与该目标类别进行对比,在二者一致时,确定聚类结果为正确的;在二者不一致时,确定聚类结果错误。举例而言,对于聚类属性为簇2的多个聚类结果而言,如果簇2中包括4个图像,第1个聚类结果属于人物1,第2个聚类结果属于人物2,第3个聚类结果属于人物1,第4个聚类结果属于人物1等,则可以认为聚类结果为人物1的数量最大,因此可以将人物1确定为簇2的目标类别。如此一来,经过匹配可以得知,第1个聚类结果、第3个聚类结果以及第4个聚类结果均为正确聚类结果,第2个聚类结果为错误聚类结果。在得到正确聚类结果和错误聚类结果之后,则可以确定用于表示正确聚类结果数量和/或错误聚类结果数量的聚类参考信息。通过确定程度信息,可以为后续的聚类结果评估提供更准确辅助作用。
本公开实施例中,第一指标指的是用于描述聚类准确程度的指标信息,即通过第一指标代表正确聚类的图像比例,具体可以用准确率来表示。在本公开实施例中,第一指标可以根据每个聚类属性的多个聚类结果的待选组合信息以及组合聚类结果形成的组合结果来确定。具体而言,可以根据由聚类结果的程度信息确定待选组合信息,并进一步根据待选组合信息以及组合聚类结果共同来确定第一指标。当程度信息为正确聚类结果时,可以直接根据获取的正确聚类结果的待选组合信息以及组合聚类结果来确定第一指标。具体可以包括:根据两两组合的程度信息对应的聚类结果以及两两组合的聚类结果确定第一指标。两两组合的程度信息对应的聚类结果(即两两组合的正确聚类结果)可以通过聚类参考信息来表示,两两组合的聚类结果可以通过聚类图像信息来表示。其中,聚类图像信息与聚类参考信息相同。因此,在程度信息为正确聚类结果时,第一指标可以为1。需要说明的是,可以通过对待选组合信息以及组合聚类结果进行预设处理,得到第一指标。预设处理可以为各种合适的逻辑运算,只要满足结果小于或者等于1即可,例如除法运算等等。在确定待选组合信息和组合聚类结果时,待选组合信息和组合聚类结果的组合方式相同,即均为每两个进行组合或者是每三个进行组合等等。
当程度信息为正确聚类结果和错误聚类结果时,可以根据获取的正确聚类结果以及错误聚类结果组成的待选组合信息,以及组合聚类结果来确定第一指标。具体可以包括:根据两两组合的正确聚类结果、两两组合的错误聚类结果以及两两组合的聚类结果确定第一指标。类似地,两两组合的正确聚类结果以及两两组合的错误聚类结果可以通过聚类参考信息来表示,两两组合的聚类结果可以通过聚类图像信息来表示。举例而言,对于大量预设图像而言,最终聚类结果为3簇,其中簇1和簇2均聚类正确,且聚成10个,簇3为误识别,聚成3个,则最终的聚类参考信息为10个、10个以及0个;聚类图像信息为10个、10个以及3个。
本公开实施例中,根据多个聚类结果的待选组合信息以及组合聚类结果确定第一指标的过程可以如公式(1)所示:
Figure BDA0002256538100000081
其中,K用于表示聚类属性,N'用于表示聚类图像信息,N”用于表示聚类参考信息,且
Figure BDA0002256538100000082
本公开实施例中,通过每个聚类属性的多个聚类结果组成的待选组合信息以及组合聚类结果,能更准确地确定用于描述聚类结果的第一指标。避免了相关技术中只通过聚类数量来确定准确率的过程,通过对不同程度信息对应的聚类结果进行两两组合以将多个聚类结果进行关联,使用边侧法来确定待选组合信息和组合聚类结果进而确定第一指标,减少了局限性,增加了衡量的维度和应用范围,进一步地提高了确定第一指标的准确性和全面性。
接下来,继续参考图2中所示,在步骤S230中,根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标。
本公开实施例中,真实标注结果指的是事先对某些预设图像进行标注分类得到的真实结果,具体可以为采用目标聚类结果对应的聚类算法之外的其他方式得到的结果(即真实标注结果与目标聚类结果的方式不同),例如可以为人工标注结果。真实标注结果也可以与目标聚类结果对应,例如包括标注属性以及每种标注属性的标注结果。标注属性指的是将预设图像划分的类别,可以包括一个或多个,且标注结果可由每种类别包含的图像的数量以及每个图像的类别确定。
一般而言,真实标注结果是事先确定好的,例如某一类的真实标注数量为10,则真实标注结果为10。但是,真实标注结果可以根据聚类结果的重复程度而进行调整。具体而言,重复程度用于表示聚类过程中是否存在聚类次数为至少两次的图像。基于此,重复程度可以包括多个聚类结果中存在重复的聚类结果,或者是多个聚类结果中不存在重复的聚类结果。在重复程度为不存在重复的聚类结果时,真实标注结果则保持真实标注的不变,即为人工标注结果。真实标注结果具体可以由标注属性以及标注图像信息来描述。标注属性指的是人工划分的类别,标注属性可以为一个或多个。标注图像信息指的是每个类别或者是每个标注属性对应的标注图像的数量(每个类别对应的标注结果的数量)。具体地,可以对所述标注属性对应的标注结果进行组合,以得到真实标注结果。对标注属性对应的标注结果进行组合可以理解为:对每个标注属性中每两个标注结果进行组合或者是每三个标注结果进行组合等等,并且对标注结果的组合方式与对聚类结果的组合方式相同,此处以每两个进行组合为例进行说明。例如,可以对每个标注属性中的多个标注结果进行两两组合,从而得到标注属性对应的真实标注结果。举例而言,总共有2类图像,每一类有10个图像,真实标注结果则可以根据对每一类的10个图像中任意两个图像进行组合得到。
在重复程度为存在重复的聚类结果时,则可以根据存在重复的聚类结果对标注属性对应的标注结果进行更新,以得到更新后的真实标注结果,具体可以对原本的真实标注结果的数量进行更新。由于真实标注结果由标注属性以及标注图像信息来描述,因此在标注结果均正确的情况下,此处更新的是标注图像信息。具体地,可以根据聚类结果的重复数量来对标注图像信息进行更新,即聚类结果的重复数量是多少,则将标注图像信息增加多少。例如,某一类的真实标注结果为10,该类被聚成两个簇,簇1包含6个,簇2包含5个,簇1和簇2有1个重复的聚类结果,则认为聚类结果的重复数量为1,真实标注结果中的标注图像信息在原本的基础上增加1以调整为真实标注结果为11。在存在重复的聚类结果时,根据聚类结果的重复数量来调整标注图像信息,能够更准确地确定第二指标。
步骤S230中的待选组合信息,可以只由正确聚类结果而确定。在得到真实标注结果以及待选组合信息之后,可以根据二者来共同确定第二指标。第二指标可以为用于表示聚类情况的指标,即通过第二指标确定完成聚类的图像比例(有多少样本被成功聚类出来的比例),具体可以用召回率来表示。确定第二指标的过程包括:根据两两组合的正确聚类结果以及两两组合的标注结果确定第二指标。两两组合的正确聚类结果指的是每个聚类属性包括的两两组合的正确的聚类结果,可以通过聚类参考信息来表示,两两组合的标注结果指的是每个标注属性包括的两两组合的正确的标注结果,可以通过标注图像信息来表示。举例而言,某一类的真实标注数量为10,该类被聚成两个簇,簇1包含6个,簇2包含4个,簇1和簇2中无重复数据,则聚类参考信息为6个以及4个,标注图像信息为10个。
基于此,根据所述待选组合信息以及真实标注结果,确定所述目标聚类结果的第二指标可以如公式(2)所示:
Figure BDA0002256538100000111
其中,k用于表示标注属性,N用于表示标注图像信息,K用于表示聚类属性,N'用于表示聚类图像信息,N”用于表示聚类参考信息。
本公开实施例中,通过每个聚类属性对应的多个聚类结果中的正确聚类结果的组合以及所有聚类结果组合得到的组合聚类结果,能够通过聚类结果进行组合得到第一指标,进一步根据组合聚类结果以及根据人工标注结果组合得到的真实标注结果得到第二指标,增加了衡量的数据维度,能够更全面更准确地确定第一指标和第二指标,提高了效率和准确率。
例如,真实标注结果为1类,且该类的真实标注数量为10,该类被聚成两个簇,簇1包含6个聚类结果,簇2包含4个聚类结果,簇1和簇2无重合数据,则根据公式(1)和公式(2)得到的第一指标和第二指标的结果如公式(3)所示:
例如,真实标注结果总共有2类数据,每一类有10个数据,最终聚类结果为3类,其中类1和类2均聚成10个,类3为误识别,聚出3个,则根据公式(1)和公式(2)得到的第一指标和第二指标的计算结果如公式(4)所示:
Figure BDA0002256538100000113
再例如,真实标注结果为1类,且该类的真实标注数量为10,该类被聚成两个簇,簇1包含6个,簇2包含5个,簇1和簇2有一个重合数据,则根据公式(1)和公式(2)得到的第一指标和第二指标的计算结果如公式(5)所示:
进一步地,在步骤S240中,基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
本公开实施例中,可以根据正确聚类的组合结果、完成聚类的组合结果以及完成标注的组合结果,计算用于描述正确聚类的第一指标和描述完成聚类的第二指标,进而来对通过聚类算法对预设图像进行聚类得到的目标聚类结果进行评估,以根据得到的评估结果对目标聚类结果的质量进行评价。其中评估结果与质量正相关。即,评估结果越大,质量越高。具体地,可以在第一指标满足第一阈值和/或第二指标满足第二阈值时,确定目标聚类结果的质量满足质量条件,第一阈值和第二阈值例如可以为较大的数值(例如0.5),且第一阈值和第二阈值可以相同或不同,具体可以根据实际需求而设定,此处不做限定。质量条件用于衡量目标聚类结果的质量,以用于判断是否需要调整聚类算法。
除此之外,还可以将第一指标和第二指标融合成一个目标指标,具体可以为第一指标提供第一权重,为第二指标提供第二权重,以根据第一权重、第二权重以及第一指标、第二指标共同确定目标指标,进而根据目标指标来确定目标聚类结果的质量。例如目标指标大于预设阈值时,可以认为目标聚类结果的质量满足质量条件。
进一步地,可以根据目标聚类结果是否满足质量条件,对聚类算法进行处理。具体地,当根据评估结果确定目标聚类结果的质量满足质量条件时,可以保持该聚类算法不变,以根据该聚类算法继续对目标图像(新的图像或视频)进行聚类处理。当目标聚类结果的质量不满足质量条件时,可以对该聚类算法进行调整(例如对聚类算法的权重参数进行调整)以得到调整后的聚类算法,并继续计算调整后的聚类算法的第一指标和第二指标,直至调整后的聚类算法的质量满足质量条件时为止。进一步地,根据调整后的聚类算法继续对目标图像进行聚类处理,以提高聚类质量。
本公开实施例中,通过评估结果对目标聚类结果的质量进行评估,进一步判断是否需要调整聚类算法,能够根据评估结果准确定量地描述聚类质量,进而提高聚类算法的精准度。
本公开实施例中提供了一种信息处理装置,参考图4中所示,该信息处理装置400可以包括:
结果获取模块401,用于获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;
第一指标确定模块402,用于根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;
第二指标确定模块403,用于根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;
聚类评估模块404,用于基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
在本公开的一种示例性实施例中,第一指标确定模块包括:待选组合信息确定模块,用于根据所述多个聚类结果的所述程度信息确定所述待选组合信息;第一指标计算模块,用于根据所述待选组合信息以及所述组合聚类结果共同确定所述第一指标。
在本公开的一种示例性实施例中,待选组合信息确定模块包括:组合控制模块,用于将所述程度信息对应的多个聚类结果进行组合,得到所述待选组合信息。
在本公开的一种示例性实施例中,第一指标计算模块被配置为:根据所述多个聚类结果对应的聚类图像信息以及聚类参考信息,共同获取所述第一指标。
在本公开的一种示例性实施例中,所述装置还包括:目标类别确定模块,用于将聚类属性的所述多个聚类结果中,数量最多的聚类结果确定为所述聚类属性的目标类别;程度信息确定模块,用于将所述聚类结果的类别与所述目标类别进行匹配,并根据匹配结果确定所述程度信息。
在本公开的一种示例性实施例中,第二指标确定模块包括:真实标注结果调整模块,用于根据所述多个聚类结果的重复程度确定所述真实标注结果;第二指标计算模块,用于根据所述待选组合信息以及所述真实标注结果确定所述第二指标。
在本公开的一种示例性实施例中,真实标注结果调整模块包括:第一确定模块,用于若所述重复程度为不存在重复的聚类结果,则对至少一个标注属性对应的标注结果进行组合,以得到所述真实标注结果。
在本公开的一种示例性实施例中,真实标注结果调整模块包括:第二确定模块,用于若所述重复程度为存在重复的聚类结果,则根据存在重复的聚类结果对至少一个标注属性对应的标注结果进行更新,以得到更新后的真实标注结果,并将所述更新后的真实标注结果作为所述真实标注结果。
在本公开的一种示例性实施例中,第二指标计算模块被配置为:根据所述至少一个聚类属性的聚类参考信息以及所述至少一个标注属性的标注图像信息确定第二指标。
需要说明的是,上述信息处理装置中各模块的具体细节已经在对应的信息处理方法中进行了详细描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本公开的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线550。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图2中所示的步骤。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本公开的实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (12)

1.一种信息处理方法,其特征在于,包括:
获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;
根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;
根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;
基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
2.根据权利要求1所述的信息处理方法,其特征在于,根据所述多个聚类结果的待选组合结果以及聚合聚类结果,确定所述目标聚类结果的第一指标包括:
根据所述多个聚类结果的所述程度信息确定所述待选组合信息;
根据所述待选组合信息以及所述组合聚类结果共同确定所述第一指标。
3.根据权利要求2所述的信息处理方法,其特征在于,根据所述多个聚类结果的所述程度信息确定所述待选组合信息包括:
将所述程度信息对应的多个聚类结果进行组合,得到所述待选组合信息。
4.根据权利要求2所述的信息处理方法,其特征在于,根据所述待选组合信息以及所述组合聚类结果共同确定所述第一指标包括:
根据所述多个聚类结果对应的聚类图像信息以及聚类参考信息,共同获取所述第一指标。
5.根据权利要求2或3所述的信息处理方法,其特征在于,所述方法还包括:
将聚类属性的所述多个聚类结果中,数量最多的聚类结果确定为所述聚类属性的目标类别;
将所述聚类结果的类别与所述目标类别进行匹配,并根据匹配结果确定所述程度信息。
6.根据权利要求1所述的信息处理方法,其特征在于,根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标包括:
根据所述多个聚类结果的重复程度确定所述真实标注结果;
根据所述待选组合信息以及所述真实标注结果确定所述第二指标。
7.根据权利要求6所述的信息处理方法,其特征在于,根据所述多个聚类结果的重复程度确定所述真实标注结果包括:
若所述重复程度为不存在重复的聚类结果,则对至少一个标注属性对应的标注结果进行组合,以得到所述真实标注结果。
8.根据权利要求6所述的信息处理方法,其特征在于,根据所述多个聚类结果的重复程度确定所述真实标注结果包括:
若所述重复程度为存在重复的聚类结果,则根据存在重复的聚类结果对至少一个标注属性对应的标注结果进行更新,以得到更新后的真实标注结果,并将所述更新后的真实标注结果作为所述真实标注结果。
9.根据权利要求7或8所述的信息处理方法,其特征在于,根据所述待选组合信息以及所述真实标注结果确定所述第二指标包括:
根据所述至少一个聚类属性的聚类参考信息以及所述至少一个标注属性的标注图像信息确定第二指标。
10.一种信息处理装置,其特征在于,包括:
结果获取模块,用于获取预设图像的目标聚类结果,所述目标聚类结果包括至少一个聚类属性的多个聚类结果;
第一指标确定模块,用于根据所述多个聚类结果的待选组合信息以及组合聚类结果,确定所述目标聚类结果的第一指标;其中,所述待选组合信息为表示聚类结果的程度信息的组合,所述组合聚类结果根据每个聚类属性的多个聚类结果组合得到;
第二指标确定模块,用于根据所述待选组合信息以及用于对所述预设图像进行标注分类的真实标注结果,确定所述目标聚类结果的第二指标;
聚类评估模块,用于基于所述第一指标以及所述第二指标对所述目标聚类结果进行评估,以确定评估结果。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任意一项所述的信息处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任意一项所述的信息处理方法。
CN201911055873.1A 2019-10-31 2019-10-31 信息处理方法及装置、电子设备、存储介质 Active CN110826616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911055873.1A CN110826616B (zh) 2019-10-31 2019-10-31 信息处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911055873.1A CN110826616B (zh) 2019-10-31 2019-10-31 信息处理方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN110826616A true CN110826616A (zh) 2020-02-21
CN110826616B CN110826616B (zh) 2023-06-30

Family

ID=69551965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911055873.1A Active CN110826616B (zh) 2019-10-31 2019-10-31 信息处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN110826616B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011742A (zh) * 2021-03-18 2021-06-22 恒睿(重庆)人工智能技术研究院有限公司 聚类效果测评方法、系统、介质及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907141B1 (en) * 2000-03-14 2005-06-14 Fuji Xerox Co., Ltd. Image data sorting device and image data sorting method
US20120002881A1 (en) * 2010-01-22 2012-01-05 Kazuhiko Maeda Image management device, image management method, program, recording medium, and integrated circuit
US20130006991A1 (en) * 2011-06-28 2013-01-03 Toru Nagano Information processing apparatus, method and program for determining weight of each feature in subjective hierarchical clustering
CN103914518A (zh) * 2014-03-14 2014-07-09 小米科技有限责任公司 聚类方法及相关装置
CN107729928A (zh) * 2017-09-30 2018-02-23 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN108280477A (zh) * 2018-01-22 2018-07-13 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN108564102A (zh) * 2018-01-04 2018-09-21 百度在线网络技术(北京)有限公司 图像聚类结果评价方法和装置
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
WO2019051797A1 (zh) * 2017-09-15 2019-03-21 广东欧珀移动通信有限公司 图像处理方法和装置、计算机设备、计算机可读存储介质
CN109815788A (zh) * 2018-12-11 2019-05-28 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备
CN110297935A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 图像检索方法、装置、介质及电子设备
CN110334753A (zh) * 2019-06-26 2019-10-15 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6907141B1 (en) * 2000-03-14 2005-06-14 Fuji Xerox Co., Ltd. Image data sorting device and image data sorting method
US20120002881A1 (en) * 2010-01-22 2012-01-05 Kazuhiko Maeda Image management device, image management method, program, recording medium, and integrated circuit
US20130006991A1 (en) * 2011-06-28 2013-01-03 Toru Nagano Information processing apparatus, method and program for determining weight of each feature in subjective hierarchical clustering
CN103914518A (zh) * 2014-03-14 2014-07-09 小米科技有限责任公司 聚类方法及相关装置
WO2019051797A1 (zh) * 2017-09-15 2019-03-21 广东欧珀移动通信有限公司 图像处理方法和装置、计算机设备、计算机可读存储介质
CN107729928A (zh) * 2017-09-30 2018-02-23 百度在线网络技术(北京)有限公司 信息获取方法和装置
CN108564102A (zh) * 2018-01-04 2018-09-21 百度在线网络技术(北京)有限公司 图像聚类结果评价方法和装置
CN108280477A (zh) * 2018-01-22 2018-07-13 百度在线网络技术(北京)有限公司 用于聚类图像的方法和装置
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN109815788A (zh) * 2018-12-11 2019-05-28 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备
CN110334753A (zh) * 2019-06-26 2019-10-15 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质
CN110297935A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 图像检索方法、装置、介质及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WEI ZHANG ET AL.: "Evaluation of Unsupervised Clustering Methods on Hyperspectral Image Data Sets" *
张震 等: "一种分层组合的半监督近邻传播聚类算法" *
王敏峰: "聚类组合算法研究与应用" *
申小敏 等: "基于卷积神经网络的大规模人脸聚类", 《广东工业大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011742A (zh) * 2021-03-18 2021-06-22 恒睿(重庆)人工智能技术研究院有限公司 聚类效果测评方法、系统、介质及装置

Also Published As

Publication number Publication date
CN110826616B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN110826494B (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN111090641B (zh) 数据处理方法及装置、电子设备、存储介质
CN110084289B (zh) 图像标注方法、装置、电子设备及存储介质
WO2023115761A1 (zh) 基于时序知识图谱的事件检测方法和装置
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN111104400A (zh) 数据归一方法及装置、电子设备、存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN110826616B (zh) 信息处理方法及装置、电子设备、存储介质
CN111737472A (zh) 文本分类模型的更新方法及系统、电子设备及存储介质
WO2023060954A1 (zh) 数据处理与数据质检方法、装置及可读存储介质
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
CN114970727A (zh) 多标签文本分类方法、系统及计算机设备
CN114068028A (zh) 医疗问诊数据处理方法及装置、可读存储介质及电子设备
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
CN110083807B (zh) 合同的修改影响自动预测方法、装置、介质及电子设备
CN110866557B (zh) 数据评价方法及装置、存储介质及电子设备
CN115879446B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备
CN112734035B (zh) 一种数据处理方法及装置、可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant