CN113920373A - 一种对象分类方法、装置、终端设备及存储介质 - Google Patents
一种对象分类方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113920373A CN113920373A CN202111270518.3A CN202111270518A CN113920373A CN 113920373 A CN113920373 A CN 113920373A CN 202111270518 A CN202111270518 A CN 202111270518A CN 113920373 A CN113920373 A CN 113920373A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- classified
- subset
- subsets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 90
- 238000004590 computer program Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于数据处理技术领域,提供了一种对象分类方法、装置、终端设备及存储介质,其中,对象分类方法包括:获取待分类数据;待分类数据通过待分类对象的特征向量描述;获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;样本数据由一个样本对象的特征向量和样本对象所属的类别组成,每个样本子集中均包括至少一个样本数据,样本子集的数量小于样本集中包括的样本数据的数量;分别计算待分类数据与每个样本子集之间的第一距离值;从所有样本子集中确定出K个样本子集,将K个样本子集对应的类别中出现频率最高的类别确定为待分类对象所属的类别,从而降低了对处理器资源的消耗量,且提高了对象的分类速度。
Description
技术领域
本申请属于数据处理技术领域,尤其涉及一种对象分类方法、装置、终端设备及存储介质。
背景技术
对对象进行特征识别并分类是实现个性化推荐的基础。现有技术中常用的一种对象分类方法为基于K最邻近(K-nearest neighbor,KNN)算法的对象分类方法。KNN算法的核心思想是,如果一个待分类对象在特征空间中的K个最邻近的样本中的大多数属于某一个类别,则该待分类对象也属于这个类别,并具有这个类别中的样本的特征。也就是说,在采用现有的KNN算法对对象进行分类时,处理器需要分别计算待分类对象与特征空间中的每个样本之间的距离值,而由于特征空间中的样本数量通常较为庞大,因此采用现有的KNN算法对对象进行分类时需要消耗较多的处理器资源,且分类速度较慢。
发明内容
有鉴于此,本申请实施例提供了一种对象分类方法、装置、终端设备及存储介质,以解决采用现有的KNN算法对对象进行分类时需要消耗较多的处理器资源,且分类速度较慢的技术问题。
第一方面,本申请实施例提供一种对象分类方法,包括:
获取待分类数据;所述待分类数据通过待分类对象的特征向量描述;
获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;所述样本数据由一个样本对象的特征向量和所述样本对象所属的类别组成,每个所述样本子集中均包括至少一个所述样本数据,所述样本子集的数量小于所述样本集中包括的样本数据的数量;
分别计算所述待分类数据与每个所述样本子集之间的第一距离值;
从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别;所述K个样本子集各自对应的所述第一距离值均小于除所述K个样本子集之外的任一样本子集对应的所述第一距离值,所述样本子集对应的类别由所述样本子集包括的各个样本数据中的样本对象所属的类别确定得到。
可选的,在所述分别计算所述待分类数据与每个所述样本子集之间的第一距离值之前,所述方法还包括:
将所述样本集中的每个样本数据均作为一个样本子集;
重复执行计算每两个样本子集之间的第二距离值,将所有所述第二距离值中的最小值对应的至少两个样本子集合并为一个新的样本子集的步骤,直至所述样本子集的数量等于或小于预设数目为止。
可选的,所述两个样本子集中至少有一个样本子集包括多个样本数据;对应地,所述计算每两个样本子集之间的第二距离值,包括:
计算所述两个样本子集的其中一个样本子集中的每个样本数据与另一个样本子集中的每个样本数据之间的欧式距离;
将所有所述欧式距离的平均值确定为所述两个样本子集之间的第二距离值。
可选的,所述样本子集中包括多个样本数据;对应地,所述分别计算所述待分类数据与每个所述样本子集之间的第一距离值,包括:
基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量;
基于所述待分类对象的特征向量、所述样本子集的特征向量及第二距离值计算公式,计算所述待分类数据与所述样本子集之间的第一距离值,所述第二距离值计算公式为:
其中,dist(X,Y)为所述待分类数据与所述样本子集之间的第一距离值,n为所述待分类对象的特征向量包括的特征维度的数目,xi为所述待分类对象的特征向量中第i个特征维度的元素的值,yi'为所述样本子集的特征向量中第i个特征维度的元素的值。
可选的,所述基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量,包括:
计算所述样本子集包括的所有所述样本数据中的样本对象的特征向量在每个特征维度的均值;
将由所有所述特征向量在各个特征维度的均值组成的向量确定为所述样本子集的特征向量。
可选的,在所述将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别之前,所述方法还包括:
将所述样本子集包括的所有样本数据中的样本对象所属的类别中出现频率最高的类别确定为所述样本子集对应的类别。
可选的,所述待分类对象为用户,所述待分类数据为用户特征数据;
或者,所述待分类对象为视频,所述待分类数据为视频数据。
第二方面,本申请实施例提供一种对象分类装置,包括:
第一获取单元,用于获取待分类数据;所述待分类数据通过待分类对象的特征向量描述;
第二获取单元,用于获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;所述样本数据由一个样本对象的特征向量和所述样本对象所属的类别组成,每个所述样本子集中均包括至少一个所述样本数据,所述样本子集的数量小于所述样本集中包括的样本数据的数量;
第一计算单元,用于分别计算所述待分类数据与每个所述样本子集之间的第一距离值;
分类单元,用于从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别;所述K个样本子集各自对应的所述第一距离值均小于除所述K个样本子集之外的任一样本子集对应的所述第一距离值,所述样本子集对应的类别由所述样本子集包括的各个样本数据中的样本对象所属的类别确定得到。
第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面或第一方面的任意可选方式所述的对象分类方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的对象分类方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面或第一方面的任意可选方式所述的对象分类方法。
实施本申请实施例提供的对象分类方法、终端设备、计算机可读存储介质及计算机程序产品具有以下有益效果:
本申请实施例提供的对象分类方法,由于预先对样本集进行了聚类操作,且对样本集进行聚类操作得到的样本子集的数量小于样本集原本包括的样本数据的数量,因此本申请分别计算待分类数据与每个样本子集之间的第一距离值,相对于现有对象分类方法分别计算待分类数据与每个样本数据之间的距离值而言,需要计算的第一距离值的数量大大降低,从而降低了对处理器资源的消耗量,且提高了对象的分类速度。此外,由于样本子集是对样本集进行聚类操作得到的,因此每个样本子集中的各个样本数据之间具有一定的相似性但又不完全相同,从而使得该对象分类方法可以适用于一些特征不明显的待分类对象,提高了对象分类方法的适用范围。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种对象分类方法的示意性流程图;
图2为本申请实施例提供的一种对象分类方法中S13的具体实现流程图;
图3为本申请另一实施例提供的一种对象分类方法的示意性流程图;
图4为本申请实施例提供的一种对象分类装置的结构示意图;
图5为本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
需要说明的是,本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联物的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,除非另有说明,“多个”是指两个或多于两个,“至少一个”、“一个或多个”是指一个、两个或两个以上。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”特征可以明示或者隐含地包括一个或者更多个该特征。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
对对象进行特征识别并分类是实现个性化推荐的基础。现有技术中常用的一种对象分类方法为基于K最邻近(K-nearest neighbor,KNN)算法的对象分类方法。KNN算法的核心思想是,如果一个待分类对象在特征空间中的K个最邻近的样本中的大多数属于某一个类别,则该待分类对象也属于这个类别,并具有这个类别中的样本的特征。
基于现有KNN算法的对象分类方法的具体过程如下:
(1)分别计算待分类对象与特征空间中的每个样本之间的距离值;
(2)按照距离值从小到大的顺序对所有样本进行排序;
(3)选取前K个样本;
(4)确定该K个样本所属的类别中出现频率最高的类别;
(5)将该出现频率最高的类别确定为待分类对象所属的类别。
可见,基于现有KNN算法的对象分类方法在进行分类时,处理器需要分别计算待分类对象与特征空间中的每个样本之间的距离值,而由于特征空间中的样本数量通常较为庞大,因此采用现有的KNN算法对对象进行分类时需要消耗较多的处理器资源,且分类速度较慢。
有鉴于此,本申请实施例提供一种对象分类方法、装置、终端设备及存储介质,通过预先对样本集进行了聚类操作,由于对样本集进行聚类操作得到的样本子集的数量小于样本集原本包括的样本数据的数量,因此本申请分别计算待分类数据与每个样本子集之间的第一距离值,相对于现有对象分类方法分别计算待分类数据与每个样本数据之间的距离值而言,需要计算的第一距离值的数量大大降低,从而降低了对处理器资源的消耗量,且提高了对象的分类速度。此外,由于样本子集是对样本集进行聚类操作得到的,因此每个样本子集中的各个样本数据之间具有一定的相似性但又不完全相同,从而使得该对象分类方法可以适用于一些特征不明显的待分类对象,提高了对象分类方法的适用范围。
本申请实施例首先提供一种对象分类方法,该对象分类方法的执行主体为对象分类装置。作为示例而非限定,对象分类装置可以是手机、平板电脑、笔记本电脑或台式电脑等电子设备。请参阅图1,图1为本申请实施例提供的一种对象分类方法的示意性流程图。如图1所示,该对象分类方法可以包括S11~S14,详述如下:
S11:获取待分类数据,所述待分类数据通过待分类对象的特征向量描述。
待分类对象可以是任一需要进行分类的实体对象或虚拟对象等。示例性的,实体对象可以包括:人、动物或实体产品(例如,服装)等;虚拟对象可以包括:视频、图片或虚拟产品(例如,应用程序(application,APP))等。
例如,当待分类对象为某个APP的用户(即人)时,对应的待分类数据可以是用户特征数据,用户特征数据可以通过用户的特征向量描述。
当待分类对象为视频时,对应的待分类数据可以是视频数据,视频数据可以通过视频的特征向量描述。
待分类对象的特征向量用于描述待分类对象的特征信息。以待分类对象为用户为例,待分类对象的特征信息可以包括但不限于:属性信息和/或行为信息等。其中,属性信息可以包括但不限于:性别、年龄、收入、身高及所在地区等;行为信息可以包括但不限于:历史活动和行为轨迹等。
待分类对象的特征向量可以是一维向量,也可以是多维向量(即特征向量的特征维度可以是一维,也可以是多维)。具体地,当待分类对象的特征信息仅用于表示待分类对象的一个维度的特征时,待分类对象的特征向量可以是一维向量;当待分类对象的特征信息用于表示待分类对象的多个维度的特征时,待分类对象的特征向量为可以是多维向量。示例性的,假如待分类对象的特征信息用于表示性别、年龄、收入、身高、所在地区、历史活动及行为轨迹这七个维度的特征,则该待分类对象的特征向量可以为[x1,x2,x3,x4,x5,x6,x7],即待分类数据可以通过[x1,x2,x3,x4,x5,x6,x7]描述。
本申请实施例中,待分类数据的数量可以为一个,也可以为多个,也就是说,对象分类装置可以获取一个或多个待分类数据,并分别对该一个或多个待分类数据进行分类。需要说明的是,每个待分类数据仅对应一个待分类对象,即,每个待分类数据通过一个待分类对象的特征向量描述。
S12:获取对包括多个样本数据的样本集进行聚类操作得到的样本子集。
本申请实施例中,样本集中包括多个样本数据,即样本集为多个样本数据的集合。其中,每个样本数据均由一个样本对象的特征向量和该样本对象所属的类别组成。样本对象的特征向量用于描述样本对象的特征信息。
需要说明的是,样本对象和待分类对象属于同一类对象,例如,样本对象和待分类对象可以均为用户。样本对象的特征向量用于描述样本对象的特征信息,样本对象的特征信息所表示的样本对象的特征的特征维度的数目与待分类对象的特征信息所表示的待分类对象的特征的特征维度的数目相同,具体可以参考S11中对待分类对象的特征信息的描述,此处不再对样本对象的特征信息进行赘述。
在本申请的一个实施例中,样本对象所属的类别可以是由人工对样本对象进行分类并打标签得到的。
示例性的,假如样本对象的特征向量为[x1,x2,x3,x4,x5,x6,x7],样本对象所属的类别为C,则每个样本数据均可以通过{[x1,x2,x3,x4,x5,x6,x7],C}表示。
本申请实施例中,对样本集进行聚类操作得到的每个样本子集中均可以包括至少一个样本数据,且每个样本子集包括的各个样本数据中的样本对象的特征向量之间具有相似性。本申请实施例中,样本子集的数量可以根据实际需求设置,此处不对其做特别限定。需要说明的是,对样本集进行聚类操作得到的样本子集的数量小于样本集包括的样本数据的数量。
S13:分别计算所述待分类数据与每个所述样本子集之间的第一距离值。
本申请实施例中,待分类数据与样本子集之间的第一距离值用于以描述待分类数据与样本子集之间的相似度。其中,待分类数据与样本子集之间的第一距离值越小,表示待分类数据与样本子集越相似;待分类数据与样本子集之间的第一距离值越大,表示待分类数据与样本子集越不相似。
在本申请的一个实施例中,当样本子集中仅包括一个样本数据时,S13具体可以包括以下步骤:
基于所述待分类对象的特征向量、所述样本子集包括的所述样本数据中的样本对象的特征向量及第一距离值计算公式,计算所述待分类数据与所述样本子集之间的第一距离值。第一距离值计算公式可以如下:
其中,dist(X,Y)为待分类数据与样本子集之间的第一距离值,n为待分类对象的特征向量的特征维度的数目,xi为待分类对象的特征向量中第i个特征维度的元素的值,yi为样本数据中的样本对象的特征向量中第i个特征维度的元素的值。
在本申请的另一个实施例中,当样本子集中包括多个样本数据时,S13具体可以通过如图2所示的S131~S132实现,详述如下:
S131:基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量。
在一种可能的实现方式中,S131具体可以包括以下步骤:
计算所述样本子集包括的所有所述样本数据中的样本对象的特征向量在每个特征维度的均值;
将由所有所述特征向量在各个特征维度的均值组成的向量确定为所述样本子集的特征向量。
示例性的,假如某个样本子集中包括样本数据A、样本数据B及样本数据D,样本数据A中的样本对象的特征向量为[x1a,x2a,x3a,x4a,x5a,x6a,x7a],样本数据B中的样本对象的特征向量为[x1b,x2b,x3b,x4b,x5b,x6b,x7b],样本数据D中的样本对象的特征向量为[x1d,x2d,x3d,x4d,x5d,x6d,x7d],则该样本子集的特征向量可以为:
S132:基于所述待分类对象的特征向量、所述样本子集的特征向量及第二距离值计算公式,计算所述待分类数据与所述样本子集之间的第一距离值。
所述第二距离值计算公式为:
其中,dist(X,Y)为所述待分类数据与所述样本子集之间的第一距离值,n为所述待分类对象的特征向量包括的特征维度的数目,xi为所述待分类对象的特征向量中第i个特征维度的元素的值,yi'为所述样本子集的特征向量中第i个特征维度的元素的值。
S14:从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别。
本申请实施例中,K的取值可以根据实际需求设置,此处不对其做特别限定。对象分类装置确定出的K个样本子集各自对应的第一距离值均小于除该K个样本子集之外的任一样本子集对应的第一距离值。
在本申请的一个实施例中,从所有样本子集中确出K个样本子集,具体可以包括以下步骤:按照第一距离值从小到大的顺序对所有样本子集进行排序,从排序后的样本子集中选取前K个样本子集。
本申请实施例中,对象分类装置确定出K个样本子集后,可以确定该K个样本子集对应的类别中出现频率最高的类别,并将该出现频率最高的类别确定为待分类数据所属的类别。
示例性的,假如对样本集进行聚类操作得到6个样本子集,待分类数据与该6个样本子集之间的第一距离值分别为1.2、1.3、1、1.6、2及1.9;K为3。则从这6个样本子集中选取与待分类数据之间的第一距离值分别为1、1.2及1.3的样本子集。若该3个样本子集中2个样本子集对应的类别为第一类别,1个样本子集对应的类别为第二类别,则将第一类别确定为待分类对象所属的类别。
其中,样本子集对应的类别可以根据样本子集包括的各个样本数据中的样本对象所属的类别确定得到。具体地,在本申请的一个实施例中,可以将样本子集包括的所有样本数据中的样本对象所属的类别中出现频率最高的类别确定为该样本子集对应的类别。示例性的,假如某个样本子集包括3个样本数据,其中2个样本数据中的样本对象所属的类别为第一类别,1个样本数据中的样本对象所属的类别为第二类别,则将第一类别确定为该样本子集对应的类别。
以上可以看出,本实施例提供的对象分类方法,由于预先对样本集进行了聚类操作,且对样本集进行聚类操作得到的样本子集的数量小于样本集原本包括的样本数据的数量,因此本申请分别计算待分类数据与每个样本子集之间的第一距离值,相对于现有对象分类方法分别计算待分类数据与每个样本数据之间的距离值而言,需要计算的第一距离值的数量大大降低,从而降低了对处理器资源的消耗量,且提高了对象的分类速度。此外,由于样本子集是对样本集进行聚类操作得到的,因此每个样本子集中的各个样本数据之间具有一定的相似性但又不完全相同,从而使得该对象分类方法可以适用于一些特征不明显的待分类对象,提高了对象分类方法的适用范围。
请参阅图3,图3为本申请另一实施例提供的一种对象分类方法的示意性流程图。如图3所示,本实施例与图1对应的实施例的区别在于,本实施例在S13之前,还可以包括S101~S103,详述如下:
S101:将所述样本集中的每个样本数据均作为一个样本子集。
S102:计算每两个样本子集之间的第二距离值,将所有所述第二距离值中的最小值对应的至少两个样本子集合并为一个新的样本子集。
S103:判断所述样本子集的数量是否等于或小于预设数目。
若否,则重复执行S102~S103;若是,则结束流程。
本实施例中,在对样本集进行聚类操作时,可以先将样本集中的每个样本数据均看作一个样本子集,再计算每两个样本子集之间的第二距离值(也即计算每个样本子集分别与其它各个样本子集之间的第二距离值);每次计算完每两个样本子集之间的第二距离值之后,将最小的第二距离值对应的至少两个样本子集合并为一个新的样本子集。重复执行上述计算第二距离值的步骤以及合并样本子集的步骤,直至样本子集的数量等于或小于预设数目为止。
示例性的,假如样本集中包括样本数据A、样本数据B、样本数据C及样本数据D,预设数目为2。那么,可以将样本数据A、样本数据B、样本数据C及样本数据D分别看作一个样本子集,即当前共有4个样本子集,分别为:[样本数据A]、[样本数据B]、[样本数据C]及[样本数据D]。分别计算[样本数据A]与[样本数据B]之间的第二距离值、[样本数据A]与[样本数据C]之间的第二距离值、[样本数据A]与[样本数据D]之间的第二距离值、[样本数据B]与[样本数据C]之间的第二距离值、[样本数据B]与[样本数据D]之间的第二距离值以及[样本数据C]与[样本数据D]之间的第二距离值。上述6个距离值中,[样本数据A]与[样本数据B]之间的第二距离值最小,则将[样本数据A]与[样本数据B]合并为一个新的样本子集,该样本子集可以表示为[样本数据A,样本数据B],那么当前共有3个样本子集,分别为:[样本数据A,样本数据B]、[样本数据C]及[样本数据D]。继续计算[样本数据A,样本数据B]与[样本数据C]之间的第二距离值、[样本数据A,样本数据B]与[样本数据D]之间的第二距离值,以及[样本数据C]与[样本数据D]之间的第二距离值。上述3个距离值中,如果[样本数据A,样本数据B]与[样本数据D]之间的第二距离值最小,则将[样本数据A,样本数据B]与[样本数据D]合并为一个新的样本子集,该样本子集可以表示为[样本数据A,样本数据B,样本数据D],当前共有2个样本子集,分别为:[样本数据A,样本数据B,样本数据D]和[样本数据C],此时流程结束。即对样本集进行聚类操作得到的2个样本子集:[样本数据A,样本数据B,样本数据D]和[样本数据C]。
在本申请的一个实施例中,在计算某两个样本子集之间的第二距离值时,若这两个样本子集中均仅包括一个样本数据,则可以计算其中一个样本子集中的样本数据与另一个样本子集中的样本数据之间的欧式距离,将该欧式距离确定为这两个样本子集之间的第二距离值。例如,以计算上述示例中[样本数据A]与[样本数据B]之间的第二距离值为例,由于[样本数据A]和[样本数据B]中均仅包括一个样本数据,因此,可以将样本数据A与样本数据B之间的欧式距离确定为[样本数据A]与[样本数据B]之间的第二距离值。
在本申请的另一个实施例中,在计算某两个样本子集之间的第二距离值时,若这两个样本子集中至少有一个样本子集中包括多个样本数据,则可以计算其中一个样本子集中的每个样本数据分别与另一个样本子集中的每个样本数据之间的欧式距离,将计算得到的所有欧式距离的平均值确定为这两个样本子集之间的第二距离值。例如,以计算上述示例中[样本数据A,样本数据B]与[样本数据D]之间的第二距离值为例,可以分别计算样本数据A与样本数据D之间的欧式距离以及样本数据B与样本数据D之间的欧式距离,将这两个欧式距离的平均值确定为[样本数据A,样本数据B]与[样本数据D]之间的第二距离值。
其中,一个样本数据与另一个样本数据之间的欧式距离具体指一个样本数据中的样本对象的特征向量与另一个样本数据中的样本对象的特征向量之间的欧式距离。由于欧式距离的计算方式属于现有技术,因此此处不对其进行赘述。
以上可以看出,本实施例提供的对象分类方法,对样本集进行聚类操作得到预设数目个样本子集,由于样本子集的数量远小于样本集原本包括的样本数据的数量,因此以样本子集为计算对象,计算待分类数据与每个样本子集之间的第一距离值,再基于第一距离值确定与待分类数据最邻近的K个样本子集,将该K个样本子集对应的类别中出现频率最高的类别确定为待分类对象所属的类别,能够提高分类速度,降低处理器的资源消耗量。
理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
基于上述实施例所提供的对象分类方法,本发明实施例进一步给出实现上述方法实施例的对象分类装置的实施例。请参阅图4,图4为本申请实施例提供的一种对象分类装置的结构示意图。为了便于说明,仅示出了与本实施例相关的部分。如图4所示,对象分类装置40可以包括:第一获取单元41、第二获取单元42、第一计算单元43及分类单元44。其中:
第一获取单元41用于获取待分类数据;所述待分类数据通过待分类对象的特征向量描述。
第二获取单元42用于获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;所述样本数据由一个样本对象的特征向量和所述样本对象所属的类别组成,每个所述样本子集中均包括至少一个所述样本数据,所述样本子集的数量小于所述样本集中包括的样本数据的数量。
第一计算单元43用于分别计算所述待分类数据与每个所述样本子集之间的第一距离值。
分类单元44用于从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别;所述K个样本子集各自对应的所述第一距离值均小于除所述K个样本子集之外的任一样本子集对应的所述第一距离值,所述样本子集对应的类别由所述样本子集包括的各个样本数据中的样本对象所属的类别确定得到。
可选的,对象分类装置40还可以包括聚类单元。
聚类单元用于:
将所述样本集中的每个样本数据均作为一个样本子集;
重复执行计算每两个样本子集之间的第二距离值,将所有所述第二距离值中的最小值对应的至少两个样本子集合并为一个新的样本子集的步骤,直至所述样本子集的数量等于或小于预设数目为止。
可选的,所述两个样本子集中至少有一个样本子集包括多个样本数据;对应地,聚类单元具体可以包括:第二计算单元和第一确定单元。其中:
第二计算单元用于计算所述两个样本子集的其中一个样本子集中的每个样本数据与另一个样本子集中的每个样本数据之间的欧式距离。
第一确定单元用于将所有所述欧式距离的平均值确定为所述两个样本子集之间的第二距离值。
可选的,所述样本子集中包括多个样本数据;对应地,第一计算单元具体可以包括:第二确定单元和距离值计算单元。其中:
第二确定单元用于基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量。
距离值计算单元用于基于所述待分类对象的特征向量、所述样本子集的特征向量及第二距离值计算公式,计算所述待分类数据与所述样本子集之间的第一距离值,所述第二距离值计算公式为:
其中,dist(X,Y)为所述待分类数据与所述样本子集之间的第一距离值,n为所述待分类对象的特征向量包括的特征维度的数目,xi为所述待分类对象的特征向量中第i个特征维度的元素的值,yi'为所述样本子集的特征向量中第i个特征维度的元素的值。
可选的,第二确定单元具体用于:
计算所述样本子集包括的所有所述样本数据中的样本对象的特征向量在每个特征维度的均值;
将由所有所述特征向量在各个特征维度的均值组成的向量确定为所述样本子集的特征向量。
可选的,对象分类装置还可以包括第三确定单元。
第三确定单元用于将所述样本子集包括的所有样本数据中的样本对象所属的类别中出现频率最高的类别确定为所述样本子集对应的类别。
可选的,所述待分类对象为用户,所述待分类数据为用户特征数据;
或者,所述待分类对象为视频,所述待分类数据为视频数据。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参照方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将对象分类装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参阅图5,图5为本申请实施例提供的一种终端设备的结构示意图。如图5所示,本实施例提供的终端设备5可以包括:处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52,例如对象分类方法对应的程序。处理器50执行计算机程序52时实现上述对象分类方法实施例中的步骤,例如图1所示的S11~S14。或者,处理器50执行计算机程序52时实现上述终端设备实施例中各模块/单元的功能,例如图4所示的单元41~44的功能。
示例性的,计算机程序52可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器51中,并由处理器50执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序52在终端设备5中的执行过程。例如,计算机程序52可以被分割成第一获取单元、第二获取单元、第一计算单元及分类单元,各单元的具体功能请参阅图4对应的实施例中的相关描述,此处不赘述。
本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
处理器50可以是中央处理单元(central processing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器51可以是终端设备5的内部存储单元,例如终端设备5的硬盘或内存。存储器51也可以是终端设备5的外部存储设备,例如终端设备5上配备的插接式硬盘、智能存储卡(smart media card,SMC)、安全数字(secure digital,SD)卡或闪存卡(flash card)等。进一步地,存储器51还可以既包括终端设备5的内部存储单元也包括外部存储设备。存储器51用于存储计算机程序以及终端设备所需的其他程序和数据。存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参照其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种对象分类方法,其特征在于,包括:
获取待分类数据;所述待分类数据通过待分类对象的特征向量描述;
获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;所述样本数据由一个样本对象的特征向量和所述样本对象所属的类别组成,每个所述样本子集中均包括至少一个所述样本数据,所述样本子集的数量小于所述样本集中包括的样本数据的数量;
分别计算所述待分类数据与每个所述样本子集之间的第一距离值;
从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别;所述K个样本子集各自对应的所述第一距离值均小于除所述K个样本子集之外的任一样本子集对应的所述第一距离值,所述样本子集对应的类别由所述样本子集包括的各个样本数据中的样本对象所属的类别确定得到。
2.根据权利要求1所述的方法,其特征在于,在所述分别计算所述待分类数据与每个所述样本子集之间的第一距离值之前,所述方法还包括:
将所述样本集中的每个样本数据均作为一个样本子集;
重复执行计算每两个样本子集之间的第二距离值,将所有所述第二距离值中的最小值对应的至少两个样本子集合并为一个新的样本子集的步骤,直至所述样本子集的数量等于或小于预设数目为止。
3.根据权利要求2所述的方法,其特征在于,所述两个样本子集中至少有一个样本子集包括多个样本数据;对应地,所述计算每两个样本子集之间的第二距离值,包括:
计算所述两个样本子集的其中一个样本子集中的每个样本数据与另一个样本子集中的每个样本数据之间的欧式距离;
将所有所述欧式距离的平均值确定为所述两个样本子集之间的第二距离值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述样本子集中包括多个样本数据;对应地,所述分别计算所述待分类数据与每个所述样本子集之间的第一距离值,包括:
基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量;
基于所述待分类对象的特征向量、所述样本子集的特征向量及第二距离值计算公式,计算所述待分类数据与所述样本子集之间的第一距离值,所述第二距离值计算公式为:
其中,dist(X,Y)为所述待分类数据与所述样本子集之间的第一距离值,n为所述待分类对象的特征向量包括的特征维度的数目,xi为所述待分类对象的特征向量中第i个特征维度的元素的值,yi'为所述样本子集的特征向量中第i个特征维度的元素的值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述样本子集包括的各个样本数据中的样本对象的特征向量确定所述样本子集的特征向量,包括:
计算所述样本子集包括的所有所述样本数据中的样本对象的特征向量在每个特征维度的均值;
将由所有所述特征向量在各个特征维度的均值组成的向量确定为所述样本子集的特征向量。
6.根据权利要求1至3任一项所述的方法,其特征在于,在所述将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别之前,所述方法还包括:
将所述样本子集包括的所有样本数据中的样本对象所属的类别中出现频率最高的类别确定为所述样本子集对应的类别。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述待分类对象为用户,所述待分类数据为用户特征数据;
或者,所述待分类对象为视频,所述待分类数据为视频数据。
8.一种对象分类装置,其特征在于,包括:
第一获取单元,用于获取待分类数据;所述待分类数据通过待分类对象的特征向量描述;
第二获取单元,用于获取对包括多个样本数据的样本集进行聚类操作得到的样本子集;所述样本数据由一个样本对象的特征向量和所述样本对象所属的类别组成,每个所述样本子集中均包括至少一个所述样本数据,所述样本子集的数量小于所述样本集中包括的样本数据的数量;
第一计算单元,用于分别计算所述待分类数据与每个所述样本子集之间的第一距离值;
分类单元,用于从所有所述样本子集中确定出K个样本子集,将所述K个样本子集对应的类别中出现频率最高的类别确定为所述待分类对象所属的类别;所述K个样本子集各自对应的所述第一距离值均小于除所述K个样本子集之外的任一样本子集对应的所述第一距离值,所述样本子集对应的类别由所述样本子集包括的各个样本数据中的样本对象所属的类别确定得到。
9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111270518.3A CN113920373A (zh) | 2021-10-29 | 2021-10-29 | 一种对象分类方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111270518.3A CN113920373A (zh) | 2021-10-29 | 2021-10-29 | 一种对象分类方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113920373A true CN113920373A (zh) | 2022-01-11 |
Family
ID=79243504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111270518.3A Pending CN113920373A (zh) | 2021-10-29 | 2021-10-29 | 一种对象分类方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113920373A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
US20180322508A1 (en) * | 2017-05-05 | 2018-11-08 | Servicenow, Inc. | Identifying clusters for service management operations |
CN109002843A (zh) * | 2018-06-28 | 2018-12-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109543739A (zh) * | 2018-11-15 | 2019-03-29 | 杭州安恒信息技术股份有限公司 | 一种日志分类方法、装置、设备及可读存储介质 |
CN109815801A (zh) * | 2018-12-18 | 2019-05-28 | 北京英索科技发展有限公司 | 基于深度学习的人脸识别方法及装置 |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
CN111445304A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111476297A (zh) * | 2020-04-07 | 2020-07-31 | 中国民航信息网络股份有限公司 | 一种类别确定方法及装置 |
CN111737469A (zh) * | 2020-06-23 | 2020-10-02 | 中山大学 | 数据挖掘方法、装置、终端设备和可读存储介质 |
US10929762B1 (en) * | 2019-10-14 | 2021-02-23 | Sas Institute Inc. | Distributable event prediction and machine learning recognition system |
CN113505863A (zh) * | 2021-09-08 | 2021-10-15 | 武大吉奥信息技术有限公司 | 基于级联均值向量综合评分的图片多级分类方法及系统 |
-
2021
- 2021-10-29 CN CN202111270518.3A patent/CN113920373A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180322508A1 (en) * | 2017-05-05 | 2018-11-08 | Servicenow, Inc. | Identifying clusters for service management operations |
CN107609121A (zh) * | 2017-09-14 | 2018-01-19 | 深圳市玛腾科技有限公司 | 基于LDA和word2vec算法的新闻文本分类方法 |
CN109002843A (zh) * | 2018-06-28 | 2018-12-14 | Oppo广东移动通信有限公司 | 图像处理方法和装置、电子设备、计算机可读存储介质 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109543739A (zh) * | 2018-11-15 | 2019-03-29 | 杭州安恒信息技术股份有限公司 | 一种日志分类方法、装置、设备及可读存储介质 |
CN109815801A (zh) * | 2018-12-18 | 2019-05-28 | 北京英索科技发展有限公司 | 基于深度学习的人脸识别方法及装置 |
US10929762B1 (en) * | 2019-10-14 | 2021-02-23 | Sas Institute Inc. | Distributable event prediction and machine learning recognition system |
CN111242199A (zh) * | 2020-01-07 | 2020-06-05 | 中国科学院苏州纳米技术与纳米仿生研究所 | 图像分类模型的训练方法及分类方法 |
CN111445304A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN111476297A (zh) * | 2020-04-07 | 2020-07-31 | 中国民航信息网络股份有限公司 | 一种类别确定方法及装置 |
CN111737469A (zh) * | 2020-06-23 | 2020-10-02 | 中山大学 | 数据挖掘方法、装置、终端设备和可读存储介质 |
CN113505863A (zh) * | 2021-09-08 | 2021-10-15 | 武大吉奥信息技术有限公司 | 基于级联均值向量综合评分的图片多级分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘应东等: "基于K-均值聚类的小样本集KNN分类算法", 计算机应用与软件, vol. 28, no. 05, 31 May 2011 (2011-05-31), pages 112 - 113 * |
苟和平等: "一种基于粗糙集的改进KNN文本分类算法", 科学技术与工程, vol. 12, no. 20, 31 July 2012 (2012-07-31), pages 4926 - 4929 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hennig | Clustering strategy and method selection | |
CN109634698B (zh) | 菜单显示方法、装置、计算机设备及存储介质 | |
CN107305637B (zh) | 基于K-Means算法的数据聚类方法和装置 | |
US9501554B2 (en) | Image processing system, image processing method, and image processing program | |
CN112990318B (zh) | 持续学习方法、装置、终端及存储介质 | |
Cai et al. | Feature selection for multi-label classification using neighborhood preservation | |
CN112257808B (zh) | 用于零样本分类的集成协同训练方法、装置及终端设备 | |
CN110750658B (zh) | 一种媒体资源的推荐方法、服务器及计算机可读存储介质 | |
CN111209827A (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN111340097A (zh) | 图像细粒度分类方法、装置、存储介质及设备 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN111583274A (zh) | 图像分割方法、装置、计算机可读存储介质及电子设备 | |
CN112597978A (zh) | 指纹匹配方法、装置、电子设备及存储介质 | |
CN114299363A (zh) | 图像处理模型的训练方法、图像分类方法及装置 | |
CN112651321A (zh) | 档案处理方法、装置及服务器 | |
CN113806637A (zh) | 用户分类方法及装置、项目推荐方法及装置 | |
CN112668482A (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
WO2017095439A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
Wang et al. | Improved learning of I2C distance and accelerating the neighborhood search for image classification | |
CN113920373A (zh) | 一种对象分类方法、装置、终端设备及存储介质 | |
CN112069342A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN111382760A (zh) | 图片类别的识别方法、装置及计算机可读存储介质 | |
CN111325225B (zh) | 图像分类方法、电子装置和存储介质 | |
CN114419370A (zh) | 目标图像处理方法、装置、存储介质与电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |