CN110991538A - 样本分类方法、装置、存储介质和计算机设备 - Google Patents

样本分类方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN110991538A
CN110991538A CN201911234506.8A CN201911234506A CN110991538A CN 110991538 A CN110991538 A CN 110991538A CN 201911234506 A CN201911234506 A CN 201911234506A CN 110991538 A CN110991538 A CN 110991538A
Authority
CN
China
Prior art keywords
sample
nearest neighbor
predicted
category
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911234506.8A
Other languages
English (en)
Other versions
CN110991538B (zh
Inventor
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911234506.8A priority Critical patent/CN110991538B/zh
Publication of CN110991538A publication Critical patent/CN110991538A/zh
Application granted granted Critical
Publication of CN110991538B publication Critical patent/CN110991538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种样本分类方法、装置、存储介质和计算机设备,所述方法包括:获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;确定待预测样本与各最近邻样本的样本相似度;根据样本相似度,确定各最近邻样本的样本权重;根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;根据与各类别标签对应的类别权重,确定待预测样本的类别。本申请提供的方案可以实现提高样本分类的准确度。

Description

样本分类方法、装置、存储介质和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种样本分类方法、装置、存储介质和计算机设备。
背景技术
随着计算机技术的发展,出现了样本分类技术,目前,样本分类被广泛的应用于各个领域。传统的样本分类多是基于k最近邻分类实现的,k最近邻是指用待预测样本的k个最接近的邻居来代表它。传统的样本分类方式为根据最近邻样本数量和待预测样本与各训练样本之间的距离,确定待预测样本的k最近邻样本,进而根据该k最近邻样本确定待预测样本的类别。
然而,由于易受距离度量的影响,传统的样本分类方法存在分类准确度低的问题,进而会影响到分类结果的进一步应用。
发明内容
基于此,有必要针对现有的样本分类方法存在分类准确度低的技术问题,提供一种样本分类方法、装置、存储介质和计算机设备。
一种样本分类方法,包括:
获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;
确定待预测样本与各最近邻样本的样本相似度;
根据样本相似度,确定各最近邻样本的样本权重;
根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;
根据与各类别标签对应的类别权重,确定待预测样本的类别。
一种样本分类装置,所述装置包括:
获取模块,用于获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;
相似度分析模块,用于确定待预测样本与各最近邻样本的样本相似度;
权重分析模块,用于根据样本相似度,确定各最近邻样本的样本权重;
处理模块,用于根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;
分类模块,用于根据与各类别标签对应的类别权重,确定待预测样本的类别。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;
确定待预测样本与各最近邻样本的样本相似度;
根据样本相似度,确定各最近邻样本的样本权重;
根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;
根据与各类别标签对应的类别权重,确定待预测样本的类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;
确定待预测样本与各最近邻样本的样本相似度;
根据样本相似度,确定各最近邻样本的样本权重;
根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重;
根据与各类别标签对应的类别权重,确定待预测样本的类别。
上述样本分类方法、装置、存储介质和计算机设备,在获取到待预测样本的最近邻样本集合后,确定待预测样本与各最近邻样本的样本相似度,进而可以根据样本相似度,确定各最近邻样本的样本权重,通过样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重,并根据与各类别标签对应的类别权重,确定待预测样本的类别。整个过程,通过引入样本权重,将绝对距离改为相对距离,并通过样本权重确定类别权重,根据与各类别标签对应的类别权重确定待预测样本的类别,弱化了距离度量的影响,从而可以提高样本分类的准确度。
附图说明
图1为一个实施例中样本分类方法的应用环境图;
图2为一个实施例中样本分类方法的流程示意图;
图3为另一个实施例中样本分类方法的流程示意图;
图4为一个实施例中样本分类装置的结构框图;
图5为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中样本分类方法的应用环境图。参照图1,该样本分类方法应用于样本分类系统。该样本分类系统包括终端110和服务器120。终端110和服务器120通过网络连接。服务器120从终端110获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本,确定待预测样本与各最近邻样本的样本相似度,根据样本相似度,确定各最近邻样本的样本权重,根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重,根据与各类别标签对应的类别权重,确定待预测样本的类别。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种样本分类方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该样本分类方法具体包括如下步骤S202至步骤S210。
步骤S202,获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本。
其中,待预测样本是指未分类的样本。比如,待预测样本具体可以是未分类的样本向量。比如,在风险管控的场景中,待预测样本具体可以是待分类用户。最近邻样本集合中包括携带类别标签的最近邻样本。最近邻样本是指待预测样本最接近的邻居样本。待预测样本可以由它的最近邻样本来代表。类别标签是指用于标记最近邻样本的类别的标签。比如,类别标签具体可以是用于标记最近邻样本的类别ID(Identity document,身份识别号)。又比如,在风险管控的场景中,最近邻样本具体可以是已分类用户,类别标签具体可以是用户类别。进一步的,在风险管控的场景中,用户类别可以为好用户和坏用户,好用户可以用类别标签0来表示,坏用户可以用类别标签1来表示。
在一个实施例中,获取待预测样本的最近邻样本集合包括:
获取待预测样本的最近邻样本数量和携带类别标签的训练样本集合;
确定待预测样本和训练样本集合中各训练样本之间的样本距离,根据样本距离对各训练样本进行排序;
根据排序结果和最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合。
其中,最近邻样本数量是指最近邻样本的数量。比如,当最近邻样本数量等于5时,则待预测样本可以由它的5个最近邻样本来代表。多个训练样本组成训练样本集合,训练样本集合中包括待预测样本的最近邻样本集合。比如,训练样本集合具体可以是用于表示训练样本的向量的集合。又比如,在风险管控场景中,训练样本集合具体可以是指所有已分类用户组成的集合,待预测样本具体可以是待分类用户,最近邻样本集合具体可以是指能够表示待分类用户的多个已分类用户组成的集合。具体的,服务器需要根据最近邻样本数量从训练样本集合中选取出待预测样本的最近邻样本集合。样本距离是指两个样本之间的距离。比如,样本距离具体可以是两个样本之间的向量距离。进一步的,向量距离具体可以是欧式距离。
具体的,根据样本距离对各训练样本进行排序具体可以是升序排序,也可以是降序排序,通过排序,可以确定各训练样本与待预测样本之间的距离关系。样本距离越小,表示训练样本与待预测样本之间的距离越接近;样本距离越大,表示训练样本与待预测样本之间的距离越远。在排序完成后,服务器会根据最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合。具体的,假设最近邻样本数量为k,当排序为升序排序时,服务器会选取排在最前面的k个训练样本作为最近邻样本集合;当排序为降序排序时,服务器会选取排在最后面的k个训练样本作为最近邻样本集合。通过这种方式,可以实现对待预测样本的最近邻样本集合的获取。
在一个实施例中,获取待预测样本的最近邻样本数量包括:
获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集;
根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型;
根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率;
根据错误率,从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量。
其中,备选最近邻样本数量集合是指包括多个备选最近邻样本数量的集合。具体的,服务器需要从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量。样本训练集是指用于进行训练的样本集合,样本验证集是指用于进行验证的样本集合,样本训练集和样本验证集中各样本都携带有类别标签。具体的,样本训练集和样本验证集中各样本具体可以从训练样本集合中选取,也可以从第三方服务器获取。样本分类模型是指用于对样本验证集中各样本进行分类的模型。具体的,样本分类模型可以通过备选最近邻样本数量以及携带类别标签的样本训练集进行学习训练得到,在训练时,以各样本的类别标签为期望输出,根据备选最近邻样本数量确定样本训练集中各样本的最近邻样本集合,以各样本的最近邻样本集合为输入。
其中,错误率是指样本分类模型分类错误的概率。具体的,服务器会根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,在验证时,根据备选最近邻样本数量确定样本验证集中各样本的最近邻样本集合,以各样本的最近邻样本集合为输入,以各样本的类别标签为期望输出,当样本分类模型的实际输出与期望输出相同时,可认为样本分类模型分类正确,当样本分类模型的实际输出与期望输出不相同时,可认为样本分类模型分类错误,根据样本分类模型的总分类次数以及分类错误次数,就可以得到样本分类模型的错误率。在统计完与各备选最近邻样本数量对应的样本分类模型的错误率之后,服务器会根据错误率对与各备选最近邻样本数量对应的样本分类模型进行排序,从中选取出错误率最小的样本分类模型,并将该样本分类模型对应的备选最近邻样本数量作为待预测样本的最近邻样本数量。通过这种方式,能够准确确定待预测样本的最近邻样本数量,实现了对待预测样本的最近邻样本数量的获取。
步骤S204,确定待预测样本与各最近邻样本的样本相似度。
其中,样本相似度用于表示待预测样本与各最近邻样本之间的样本相似程度。比如,样本相似程度具体可以是距离关系,则样本相似度用于表示待预测样本与各最近邻样本之间的距离关系。样本相似度越大,说明待预测样本与最近邻样本之间的距离越小,样本相似度越小,说明待预测样本与最近邻样本之间的距离越大。又比如,样本相似度具体可以是样本距离的倒数。再比如,样本相似度具体可以通过公式
Figure BDA0002304522510000061
计算得到,其中,d是指样本距离。
步骤S206,根据样本相似度,确定各最近邻样本的样本权重。
其中,各最近邻样本的样本权重是指各最近邻样本的样本相似度在最近邻样本集合的总样本相似度中占的比重,当最近邻样本的样本相似度在最近邻样本集合的总样本相似度中占的比重越大时,样本权重越大,当最近邻样本的样本相似度在最近邻样本集合的总样本相似度中占的比重越小时,样本权重越小。总样本相似度是指各最近邻样本的样本相似度的累加值,可通过累加各最近邻样本的样本相似度得到。样本权重用于表示各最近邻样本在确定待预测样本的类别时的权重。
在一个实施例中,根据样本相似度,确定各最近邻样本的样本权重包括:
根据样本相似度,得到最近邻样本集合的总样本相似度;
根据样本相似度和总样本相似度的比值,得到各最近邻样本的样本权重。
具体的,服务器在得到各最近邻样本的样本相似度后,会通过累加各最近邻样本的样本相似度,得到最近邻样本集合的总样本相似度,并通过计算样本相似度在总样本相似度中的占比,确定各最近邻样本的样本权重。通过这种方式,可以实现对各最近邻样本的样本权重的确定。
步骤S208,根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重。
其中,类别权重是指与各类别标签对应的类别在总类别中所占的比重。类别权重用于表示与各类别标签对应的类别,在确定待预测样本的类别时的权重。与各类别标签对应的类别是指各最近邻样本的类别。比如,在风险管控场景中,用户的类别标签可以为好和坏,则对应的用户类别可以为好用户和坏用户,这里的坏用户具体可以是指存在信用问题的用户。
在一个实施例中,根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重包括:
根据各最近邻样本对应的类别标签,确定各最近邻样本的类别;
叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重。
具体的,服务器会根据各最近邻样本对应的类别标签,确定各最近邻样本的类别,根据各最近邻样本的类别对各最近邻样本进行归类,叠加类别相同的各最近邻样本的样本权重,将叠加得到的样本权重之和作为该类别的类别权重,即与各类别标签对应的类别权重。通过这种方式,可以通过类别标签和样本权重,实现对于各类别标签对应的类别权重的获取。
步骤S210,根据与各类别标签对应的类别权重,确定待预测样本的类别。
具体的,服务器通过对与各类别标签对应的类别权重进行分析,可以确定待预测样本归属于各类别权重对应类别的概率,进而确定待预测样本的类别。当某一类别权重值越大时,说明待预测样本归属于该类别权重对应类别的概率越大;当某一类别权重值越小时,说明待预测样本归属于该类别权重对应类别的概率越小。
在一个实施例中,根据与各类别标签对应的类别权重,确定待预测样本的类别包括:
对与各类别标签对应的类别权重进行排序,确定最大类别权重;
将最大类别权重对应类别作为待预测样本的类别。
其中,最大类别权重是指在各类别权重中,权重值最大的类别权重。具体的,服务器通过对类别权重进行排序,就可以确定最大类别权重,进行排序的方式具体可以为升序排序,也可以为降序排序。当某一类别权重为最大类别权重时,说明待预测样本归属于该类别权重对应类别的概率最大,所以,服务器会将最大类别权重对应类别作为待预测样本的类别。通过对类别权重进行排序,可以从中确定最大类别权重,进而可以根据最大类别权重对应类别确定待预测样本的类别,实现了对待预测样本的类别确定。举例说明,对于二分类问题,可以根据公式
Figure BDA0002304522510000081
确定待预测样本的类别,其中X是指待预测样本,c1和c2是指类别权重对应类别,
Figure BDA0002304522510000082
Figure BDA0002304522510000083
是指类别权重。
在一个实施例中,在确定待预测样本的类别之后,样本分类方法还包括:
获取待预测样本的样本标识;
将待预测样本的样本标识和待预测样本的类别存储至预设区块链中。
其中,待预测样本的样本标识用于对待预测样本进行区分。比如,待预测样本的样本标识具体可以是待预测样本的ID。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
具体的,在得到待预测样本的类别之后,服务器会获取待预测样本的样本标识,将携带待预测样本的样本标识和待预测样本的类别的数据存储请求发送至预设区块链中的区块链节点,区块链节点在接收到数据存储请求之后,会根据数据存储请求对待预测样本的样本标识和待预测样本的类别进行存储,区块链中的其他节点会根据共识算法获取待预测样本的样本标识和待预测样本的类别,将待预测样本的样本标识和待预测样本的类别作为预设区块链中的数据进行存储,使得预设区块链中全部节点上存储的数据均一致。因为区块链上的存储数据是不易篡改的,通过这种方式,能够实现对待预测样本的样本标识和待预测样本的类别的准确存储,从而能够在需要再次确定该待预测样本的类别时,直接根据样本标识从预设区块链中获取对应类别信息,实现快速样本分类。进一步的,当服务器接收到携带待分类样本标识的样本分类请求时,会根据样本分类请求中的待分类样本标识,生成携带待分类样本标识的分类数据获取请求,发送分类数据获取请求至预设区块链,分类数据获取请求用于指示预设区块链根据待分类样本标识对存储的样本标识进行查询,当预设区块链中存在与待分类样本标识对应的样本标识时,预设区块链会获取与样本标识对应的类别信息,并反馈类别信息至服务器,服务器在接收到样本类别信息后,会反馈类别信息至样本分类请求的发送方。通过这种方式,能够实现快速样本分类。
上述样本分类方法,在获取到待预测样本的最近邻样本集合后,确定待预测样本与各最近邻样本的样本相似度,进而可以根据样本相似度,确定各最近邻样本的样本权重,通过样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重,并根据与各类别标签对应的类别权重,确定待预测样本的类别。整个过程,通过引入样本权重,将绝对距离改为相对距离,并通过样本权重确定类别权重,根据与各类别标签对应的类别权重确定待预测样本的类别,弱化了距离度量的影响,从而可以提高样本分类的准确度。
在一个实施例中,通过一个实施例来说明本申请中的样本分类方法。
服务器获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集,根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型,根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率,根据错误率,从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量,获取携带类别标签的训练样本集合,确定待预测样本x和训练样本集合中各训练样本xi之间的样本距离d(x,xi),i=1,…,N,其中N为训练样本总数,根据样本距离对各训练样本进行排序,根据排序结果和最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本xi,确定待预测样本与各最近邻样本的样本相似度s(x,xi),i=1,…,k,其中
Figure BDA0002304522510000101
根据样本相似度,得到最近邻样本集合的总样本相似度
Figure BDA0002304522510000102
根据样本相似度和总样本相似度的比值,得到各最近邻样本的样本权重w(x,xi),i=1,…,k,样本权重
Figure BDA0002304522510000103
根据各最近邻样本对应的类别标签,确定各最近邻样本的类别,叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重
Figure BDA0002304522510000104
其中cj表示最近邻样本的类别,
Figure BDA0002304522510000105
对与各类别标签对应的类别权重进行排序,确定最大类别权重,将最大类别权重对应类别作为待预测样本的类别。
在一个实施例中,通过又一个实施例来说明本申请中的样本分类方法。
服务器获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集,根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型,根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率,根据错误率,从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量,获取携带类别标签的训练样本集合,确定待预测样本x和训练样本集合中各训练样本xi之间的样本距离d(x,xi),i=1,…,N,其中N为训练样本总数,根据样本距离对各训练样本进行排序,根据排序结果和最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本xi,确定待预测样本与各最近邻样本的样本相似度s(x,xi),i=1,…,k,
Figure BDA0002304522510000111
根据样本相似度,得到最近邻样本集合的总样本相似度
Figure BDA0002304522510000112
根据样本相似度和总样本相似度的比值,得到各最近邻样本的样本权重w(x,xi),i=1,…,k,样本权重
Figure BDA0002304522510000113
根据各最近邻样本对应的类别标签,确定各最近邻样本的类别,叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重
Figure BDA0002304522510000114
其中cj表示最近邻样本的类别,
Figure BDA0002304522510000115
对与各类别标签对应的类别权重进行排序,确定最大类别权重,将最大类别权重对应类别作为待预测样本的类别。
在一个实施例中,以对用户进行分类的应用场景为例,来说明本申请中的样本分类方法。
服务器获取备选最近邻样本数量集合、携带类别标签的样本用户训练集和样本用户验证集,根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本用户训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型,根据携带类别标签的样本用户验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率,根据错误率,从备选最近邻样本数量集合中选取待分类用户的最近邻样本数量,获取携带类别标签的已分类用户集合,确定待分类用户和已分类用户集合中各已分类用户之间的样本距离,根据样本距离对各已分类用户进行排序,根据排序结果和最近邻样本数量,从已分类用户集合中选取待分类用户的最近邻已分类用户集合,最近邻已分类用户集合包括携带类别标签的最近邻已分类用户,确定待分类用户与各最近邻已分类用户的样本相似度,根据样本相似度,得到最近邻已分类用户集合的总样本相似度,根据样本相似度和总样本相似度的比值,得到各最近邻已分类用户的样本权重,根据各最近邻已分类用户的类别标签,确定各最近邻已分类用户的类别,叠加类别相同的各最近邻已分类用户的样本权重,得到与各类别标签对应的类别权重,对与各类别标签对应的类别权重进行排序,确定最大类别权重,将最大类别权重对应类别作为待分类用户的类别。
在一个实施例中,如图3所示,通过一个最具体实施例来说明本申请中的样本分类方法。该方法包括如下步骤S302至步骤S334。
步骤S302,获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集;
步骤S304,根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型;
步骤S306,根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率;
步骤S308,根据错误率,从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量;
步骤S310,获取携带类别标签的训练样本集合;
步骤S312,确定待预测样本和训练样本集合中各训练样本之间的样本距离;
步骤S314,根据样本距离对各训练样本进行排序;
步骤S316,根据排序结果和最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本;
步骤S318,确定待预测样本与各最近邻样本的样本相似度;
步骤S320,根据样本相似度,得到最近邻样本集合的总样本相似度;
步骤S322,根据样本相似度和总样本相似度的比值,得到各最近邻样本的样本权重;
步骤S324,根据各最近邻样本对应的类别标签,确定各最近邻样本的类别;
步骤S326,叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重;
步骤S328,对与各类别标签对应的类别权重进行排序,确定最大类别权重;
步骤S330,将最大类别权重对应类别作为待预测样本的类别;
步骤S332,获取待预测样本的样本标识;
步骤S334,将待预测样本的样本标识和待预测样本的类别存储至预设区块链中。
图3为一个实施例中样本分类方法的流程示意图。应该理解的是,虽然图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图4所示,在一个实施例中,提供了一种样本分类装置。该样本分类装置包括获取模块402、相似度分析模块404、权重分析模块406、处理模块408以及分类模块410。
获取模块402,用于获取待预测样本的最近邻样本集合,所述最近邻样本集合包括携带类别标签的最近邻样本;
相似度分析模块404,用于确定所述待预测样本与各所述最近邻样本的样本相似度;
权重分析模块406,用于根据所述样本相似度,确定各所述最近邻样本的样本权重;
处理模块408,用于根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重;
分类模块410,用于根据所述与各类别标签对应的类别权重,确定待预测样本的类别。
上述样本分类装置,在获取到待预测样本的最近邻样本集合后,确定待预测样本与各最近邻样本的样本相似度,进而可以根据样本相似度,确定各最近邻样本的样本权重,通过样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重,并根据与各类别标签对应的类别权重,确定待预测样本的类别。整个过程,通过引入样本权重,将绝对距离改为相对距离,并通过样本权重确定类别权重,根据与各类别标签对应的类别权重确定待预测样本的类别,弱化了距离度量的影响,从而可以提高样本分类的准确度。
在一个实施例中,获取模块包括:
获取单元,用于获取待预测样本的最近邻样本数量和携带类别标签的训练样本集合;
距离计算单元,用于确定待预测样本和训练样本集合中各训练样本之间的样本距离,根据样本距离对各训练样本进行排序;
筛选单元,用于根据排序结果和最近邻样本数量,从训练样本集合中选取待预测样本的最近邻样本集合。
在一个实施例中,获取单元还包括:
获取组件,用于获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集;
训练组件,用于根据备选最近邻样本数量集合中各备选最近邻样本数量和携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型;
验证组件,用于根据携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率;
选取组件,用于根据错误率,从备选最近邻样本数量集合中选取待预测样本的最近邻样本数量。
在一个实施例中,权重分析模块还包括:
权重处理单元,用于根据样本相似度,得到最近邻样本集合的总样本相似度;
权重计算单元,用于根据样本相似度和总样本相似度的比值,得到各最近邻样本的样本权重。
在一个实施例中,处理模块还包括:
类别处理单元,用于根据各最近邻样本对应的类别标签,确定各最近邻样本的类别;
叠加单元,用于叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重。
在一个实施例中,分类模块还包括:
分类排序单元,用于对与各类别标签对应的类别权重进行排序,确定最大类别权重;
分类单元,用于将最大类别权重对应类别作为待预测样本的类别。
在一个实施例中,样本分类装置还包括存储模块,存储模块用于获取待预测样本的样本标识,将待预测样本的样本标识和待预测样本的类别存储至预设区块链中。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图5所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现样本分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行样本分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的样本分类装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该样本分类装置的各个程序模块,比如,图4所示的获取模块、相似度分析模块、权重分析模块、处理模块和分类模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的样本分类方法中的步骤。
例如,图5所示的计算机设备可以通过如图4所示的样本分类装置中的获取模块执行获取待预测样本的最近邻样本集合,最近邻样本集合包括携带类别标签的最近邻样本。计算机设备可通过相似度分析模块执行确定待预测样本与各最近邻样本的样本相似度。计算机设备可通过权重分析模块执行根据样本相似度,确定各最近邻样本的样本权重。计算机设备可通过处理模块执行根据样本权重和各最近邻样本对应的类别标签,确定与各类别标签对应的类别权重。计算机设备可通过分类模块执行根据与各类别标签对应的类别权重,确定待预测样本的类别。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述样本分类方法的步骤。此处样本分类方法的步骤可以是上述各个实施例的样本分类方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述样本分类方法的步骤。此处样本分类方法的步骤可以是上述各个实施例的样本分类方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种样本分类方法,包括:
获取待预测样本的最近邻样本集合,所述最近邻样本集合包括携带类别标签的最近邻样本;
确定所述待预测样本与各所述最近邻样本的样本相似度;
根据所述样本相似度,确定各所述最近邻样本的样本权重;
根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重;
根据所述与各类别标签对应的类别权重,确定待预测样本的类别。
2.根据权利要求1所述的方法,其特征在于,所述获取待预测样本的最近邻样本集合包括:
获取待预测样本的最近邻样本数量和携带类别标签的训练样本集合;
确定所述待预测样本和所述训练样本集合中各训练样本之间的样本距离,根据所述样本距离对各所述训练样本进行排序;
根据排序结果和所述最近邻样本数量,从所述训练样本集合中选取所述待预测样本的最近邻样本集合。
3.根据权利要求2所述的方法,其特征在于,所述获取待预测样本的最近邻样本数量包括:
获取备选最近邻样本数量集合、携带类别标签的样本训练集和样本验证集;
根据所述备选最近邻样本数量集合中各备选最近邻样本数量和所述携带类别标签的样本训练集进行学习训练,得到与各备选最近邻样本数量对应的样本分类模型;
根据所述携带类别标签的样本验证集对与各备选最近邻样本数量对应的样本分类模型进行验证,统计与各备选最近邻样本数量对应的样本分类模型的错误率;
根据所述错误率,从所述备选最近邻样本数量集合中选取待预测样本的最近邻样本数量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本相似度,确定各所述最近邻样本的样本权重包括:
根据所述样本相似度,得到所述最近邻样本集合的总样本相似度;
根据所述样本相似度和所述总样本相似度的比值,得到各所述最近邻样本的样本权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重包括:
根据各所述最近邻样本对应的所述类别标签,确定各最近邻样本的类别;
叠加类别相同的各最近邻样本的样本权重,得到与各类别标签对应的类别权重。
6.根据权利要求1所述的方法,其特征在于,所述根据所述与各类别标签对应的类别权重,确定待预测样本的类别包括:
对所述与各类别标签对应的类别权重进行排序,确定最大类别权重;
将所述最大类别权重对应类别作为待预测样本的类别。
7.根据权利要求1所述的方法,其特征在于,在所述确定待预测样本的类别之后,还包括:
获取所述待预测样本的样本标识;
将所述待预测样本的样本标识和所述待预测样本的类别存储至预设区块链中。
8.一种样本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待预测样本的最近邻样本集合,所述最近邻样本集合包括携带类别标签的最近邻样本;
相似度分析模块,用于确定所述待预测样本与各所述最近邻样本的样本相似度;
权重分析模块,用于根据所述样本相似度,确定各所述最近邻样本的样本权重;
处理模块,用于根据所述样本权重和各所述最近邻样本对应的所述类别标签,确定与各类别标签对应的类别权重;
分类模块,用于根据所述与各类别标签对应的类别权重,确定待预测样本的类别。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201911234506.8A 2019-12-05 2019-12-05 样本分类方法、装置、存储介质和计算机设备 Active CN110991538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911234506.8A CN110991538B (zh) 2019-12-05 2019-12-05 样本分类方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911234506.8A CN110991538B (zh) 2019-12-05 2019-12-05 样本分类方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110991538A true CN110991538A (zh) 2020-04-10
CN110991538B CN110991538B (zh) 2021-12-03

Family

ID=70090433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911234506.8A Active CN110991538B (zh) 2019-12-05 2019-12-05 样本分类方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110991538B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116018A (zh) * 2020-09-25 2020-12-22 奇安信科技集团股份有限公司 样本分类方法、装置、计算机设备、介质和程序产品
CN112463844A (zh) * 2020-12-15 2021-03-09 北京百奥智汇科技有限公司 一种数据处理方法、装置、电子设备及存储介质
US20230029679A1 (en) * 2021-07-29 2023-02-02 Mcafee, Llc Methods and apparatus to augment classification coverage for low prevalence samples through neighborhood labels proximity vectors

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886130A (zh) * 2017-11-21 2018-04-06 华北电力大学(保定) 一种基于聚类和相似度加权的kNN快速分类方法
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN109389136A (zh) * 2017-08-08 2019-02-26 上海为森车载传感技术有限公司 分类器训练方法
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389136A (zh) * 2017-08-08 2019-02-26 上海为森车载传感技术有限公司 分类器训练方法
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN107886130A (zh) * 2017-11-21 2018-04-06 华北电力大学(保定) 一种基于聚类和相似度加权的kNN快速分类方法
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110232403A (zh) * 2019-05-15 2019-09-13 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116018A (zh) * 2020-09-25 2020-12-22 奇安信科技集团股份有限公司 样本分类方法、装置、计算机设备、介质和程序产品
CN112116018B (zh) * 2020-09-25 2024-05-14 奇安信科技集团股份有限公司 样本分类方法、装置、计算机设备、介质和程序产品
CN112463844A (zh) * 2020-12-15 2021-03-09 北京百奥智汇科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112463844B (zh) * 2020-12-15 2022-10-18 北京百奥智汇科技有限公司 一种数据处理方法、装置、电子设备及存储介质
US20230029679A1 (en) * 2021-07-29 2023-02-02 Mcafee, Llc Methods and apparatus to augment classification coverage for low prevalence samples through neighborhood labels proximity vectors

Also Published As

Publication number Publication date
CN110991538B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN110991538B (zh) 样本分类方法、装置、存储介质和计算机设备
CN108711110A (zh) 保险产品推荐方法、装置、计算机设备和存储介质
CN109145245A (zh) 预测点击率的方法、装置、计算机设备及存储介质
CN109522435A (zh) 一种图像检索方法及装置
CN108322363B (zh) 推送数据异常监控方法、装置、计算机设备和存储介质
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN111178949B (zh) 服务资源匹配参考数据确定方法、装置、设备和存储介质
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
CN107622326A (zh) 用户分类、可用资源预测方法、装置及设备
CN112131471B (zh) 基于无权无向图进行关系推荐的方法、装置、设备及介质
CN111835561A (zh) 基于用户行为数据的异常用户群体检测方法、装置、设备
CN112417315A (zh) 基于网站注册的用户画像生成方法、装置、设备和介质
CN110598090B (zh) 兴趣标签的生成方法、装置、计算机设备和存储介质
CN113268665A (zh) 基于随机森林的信息推荐方法、装置、设备及存储介质
CN115660817A (zh) 一种分类模型训练方法及装置
CN111177500A (zh) 数据对象分类方法、装置、计算机设备和存储介质
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN111078984B (zh) 网络模型发布方法、装置、计算机设备和存储介质
CN110889644B (zh) 信用数据处理方法、装置、存储介质和计算机设备
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
CN113343102A (zh) 基于特征筛选的数据推荐方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021151

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant