CN116881759A - 一种样本分类的方法以及相关装置 - Google Patents

一种样本分类的方法以及相关装置 Download PDF

Info

Publication number
CN116881759A
CN116881759A CN202210298515.9A CN202210298515A CN116881759A CN 116881759 A CN116881759 A CN 116881759A CN 202210298515 A CN202210298515 A CN 202210298515A CN 116881759 A CN116881759 A CN 116881759A
Authority
CN
China
Prior art keywords
sample
grid
processed
data set
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210298515.9A
Other languages
English (en)
Inventor
樊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210298515.9A priority Critical patent/CN116881759A/zh
Publication of CN116881759A publication Critical patent/CN116881759A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种样本分类的方法以及相关装置,本申请实施例可应用于云技术、人工智能等场景。本申请实施例能够适用于对虚拟游戏进行预约的意愿预测场景中,准确地识别出具有预约意愿的目标对象,提高识别准确率。该方法包括:通过预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集,并对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;确定每个网格对象的网格密度,并基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重;基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象,并基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。

Description

一种样本分类的方法以及相关装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种样本分类的方法以及相关装置。
背景技术
虚拟游戏预约意愿主要是指目标对象对虚拟游戏进行预约、对商品购买的意愿。例如,在虚拟游戏预约意愿的场景中,意愿通常可以包括但不限于实名制预约登记、付费购买、下载等,取值为有预约意愿或者无预约意愿。在当前业界中,对于虚拟游戏进行预约的意愿的识别方案通常可以分为两类。一类是基于人工经验确定数据识别规则,并基于该数据识别规则来对是否具有对虚拟游戏进行预约意愿的目标对象进行识别。另一类则是基于非深度学习的数据挖掘方法,通过构建多维特征和模型训练的方式来预测当前目标对象对于对虚拟游戏进行预约的意愿的概率。
然而,基于人工经验确定数据识别规则的方式,使用的数据识别规则不仅数量有限,而且无法捕捉数据识别规则之间交互的高维特征信息,以及无法确定每个数据识别规则的最优参数。另外,基于非深度学习的数据挖掘方法,在对虚拟游戏进行预约的意愿的预测场景中,预约行为特征较为复杂,难以显式表达,导致后续对虚拟游戏有预约意愿的目标对象的识别效果欠佳。
发明内容
本申请实施例提供了一种样本分类的方法以及相关装置,能够解决目前由于预约行为特征较为复杂或者人工识别等方式,导致对虚拟游戏有预约意愿的目标对象的识别准确度较低的问题,能够适用于对虚拟游戏进行预约的意愿预测场景中,准确地识别出具有预约意愿的目标对象,提高识别准确率。
第一方面,本申请实施例提供了一种样本分类的方法。该方法可以应用在虚拟游戏预约意愿的预测场景,也可以应用在商品购买意愿的预测场景等,本申请不做限定说明。该方法包括:基于预设采样算法对待处理的初始数据集进行样本采样处理,得到处理后的数据集;对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;确定每个网格对象的网格密度;基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重;基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象;基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。
第二方面,本申请实施例提供了一种样本处理装置。该样本处理装置可以包括处理单元。示例性地,该样本处理装置还可以包括获取单元。其中处理单元用于:基于预设采样算法对待处理的初始数据集进行样本采样处理,得到处理后的数据集;对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;确定每个网格对象的网格密度;基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重;基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象;基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。
在一种可能的实施方式中,处理单元用于:基于预设距离算法计算第一样本与每个第二样本之间的距离,其中,第一样本为初始数据集中的任意一个正类样本,每个第二样本为初始数据集中除了第一样本以外的其他正类样本;对第三样本进行特征处理后,得到第三样本对应的目标特征向量,其中,第三样本为距离满足预设条件时所对应的第二样本;计算初始数据集中每个样本的特征向量与目标特征向量之间的距离,并基于每个样本的特征向量与目标特征向量之间的距离从样本中选取出目标正类样本,样本包括第一样本和每个第二样本;将目标正类样本添加至初始数据集中,得到处理后的数据集。
在另一种可能的实施方式中,获取单元用于:获取第一样本对应的特征向量以及每个第二样本所对应的特征向量。处理单元用于:对第一样本对应的特征向量与每个第二样本所对应的特征向量进行向量处理,得到第一样本与每个第二样本之间的距离。
在另一种可能的实施方式中,处理单元用于:从每个网格对象的网格密度中确定最高的网格密度,并计算第一距离,其中,第一距离为每个网格对象的网格密度与最高的网格密度之间的距离;将每个网格对象的网格密度以及对应的第一距离进行乘积处理,得到每个网格对象中簇类中心对象的权重。
在另一种可能的实施方式中,处理单元用于:统计每个网格对象中的样本的个数;将每个网格对象中的样本的个数作为每个网格对象的网格密度。
在另一种可能的实施方式中,处理单元还用于:在基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重之前,对每个网格对象中的样本所对应的特征向量进行平均值处理后,得到每个网格对象的簇类中心对象。
在另一种可能的实施方式中,处理单元用于:从每个簇类中心对象的权重中确定目标权值,目标权值所对应的样本为每个簇类中心对象的权重对应的权值曲线中偏离度变化最大的临界点;将权重大于目标权值时的簇类中心对象确定为每个网格对象中的聚类中心对象。
在另一种可能的实施方式中,获取单元还用于:在基于预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集之前,获取待处理的初始数据集。
在另一种可能的实施方式中,获取单元用于:获取携带有类型标签的待处理样本;处理单元用于提取待处理样本的业务数据特征;获取单元用于获取目标对象的对象数据特征,目标对象为应用业务数据时的对象;处理单元用于基于预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征;对聚合后的数据特征进行归一化处理和离散化处理后,得到处理后的数据特征;基于预设神经网络模型对处理后的数据特征进行处理,得到待处理的初始数据集。
在另一种可能的实施方式中,处理单元还用于:在获取携带有类型标签的待处理样本后,基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
在另一种可能的实施方式中,处理单元用于:计算每个携带有类型标签的待处理样本的标准偏差;将每个标准偏差与预设误差区间进行比较;若标准偏差不包含在预设误差区间内时,将不包含在预设误差区间内的标准偏差所对应的携带有类型标签的待处理样本删除,以过滤类型异常的待处理样本。
本申请实施例第三方面提供了一种样本处理装置,包括:存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令,以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
本申请实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机或者处理器上运行时,使得计算机或者处理器执行上述以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,通过预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集,并对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象。然后,确定每个网格对象的网格密度,并基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重。最后,基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象,并基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。通过上述方式,能够解决目前由于预约行为特征较为复杂或者人工识别等方式,导致对虚拟游戏有预约意愿的目标对象的识别准确度较低的问题,能够适用于对虚拟游戏进行预约的意愿预测场景中,准确地识别出具有预约意愿的目标对象。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种数据处理的系统流程图;
图2示出了本申请实施例中提供的样本分类的方法的一种流程图;
图3示出了本申请实施例提供的一种特征聚合的示意图;
图4示出了本申请实施例中提供的样本采样的一种流程图;
图5示出了本申请实施例提供的网格化处理的场景示意图;
图6示出了本申请实施例中提供的确定聚类中心对象的一种流程图;
图7示出了本申请实施例提供的样本分类的方法的另一种流程示意图;
图8示出了本申请实施例提供的使用不同方案识别出具有预约意愿的目标对象的效果对比图;
图9示出了本申请实施例提供的样本处理装置一个实施例示意图;
图10示出了本申请实施例提供的样本处理装置的结构示意图。
具体实施方式
本申请实施例提供了一种样本分类的方法以及相关装置,能够解决目前由于预约行为特征较为复杂或者人工识别等方式,导致对虚拟游戏有预约意愿的目标对象的识别准确度较低的问题,能够适用于对虚拟游戏进行预约的意愿预测场景中,准确地识别出具有预约意愿的目标对象。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息、对象数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供的样本分类的方法是基于人工智能(artificialintelligence,AI)实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述所提及的自然语言处理、机器学习等方向。例如,可以涉及机器学习(machine learning,ML)中的深度学习(deeplearning),包括正类与未标记学习(positive-unlabeled learning,PU learning)等。
本申请提供的样本分类的方法可以应用于具有数据处理能力的样本处理装置,如终端设备、服务器等。其中,终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器等,本申请不做具体限定。另外,所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接,本申请不做具体限定。
该识别装置还可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。在本申请实施例提供的样本分类的方法中采用人工智能模型,主要涉及对神经网络的应用,通过神经网络实现对数据集中的数据进行识别并分类。例如:在某个虚拟游戏应用程序(application,APP)中,对该APP中的虚拟游戏是否具有预约意愿的目标对象进行识别和分类。
另外,本申请实施例提供的数据处理的方法还可以应用在云技术、安全等应用场景中,本申请不做具体限定。示例性地,本申请实施例提供的实施例还可以应用在云技术、云安全等应用场景中。所提及的云技术、云安全等应用场景中,需要本申请实施例提供的数据处理装置可以具备云计算能力。云计算(cloud computing)是指IT基础设施的交付和使用模式,或服务的交付和使用模式。通过网络以按需、易扩展的方式获得所需资源。这种服务可以是IT和软件、互联网相关,也可以是其他服务。云计算是网络计算(gridcomputing)、分布式计算(distributed computing)、并行计算(parallel computing)、虚拟化、负载均衡等传统计算机和网络技术发展的产物。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式发生革命性的变革。
在当前业界中,对于虚拟游戏进行预约的意愿的识别方案通常可以分为两类。一类是基于人工经验确定数据识别规则,并基于该数据识别规则来对是否具有对虚拟游戏进行预约意愿的目标对象进行识别。另一类则是基于非深度学习的数据挖掘方法,通过构建多维特征和模型训练的方式来预测当前目标对象对于对虚拟游戏进行预约的意愿的概率。然而,基于人工经验确定数据识别规则的方式,使用的数据识别规则不仅数量有限,而且无法捕捉数据识别规则之间交互的高维特征信息,以及无法确定每个数据识别规则的最优参数。另外,基于非深度学习的数据挖掘方法,在对虚拟游戏进行预约的意愿预测场景中,预约行为特征较为复杂,难以显式表达,导致后续对虚拟游戏有预约意愿的目标对象的识别效果欠佳。
因此,为了解决上述所提及的技术问题,本申请实施例提供了一种样本分类的方法。该方法可以适用于虚拟游戏预约意愿的预测场景,也可以应用在商品购买意愿的预测场景等,能够对目标对象的预约意愿、购买意愿进行准确地识别,降低误识别率。示例性地,图1示出了本申请实施例提供的一种数据处理的系统流程图。如图1所示,在该样本分类的方法中,可以包括样本准备阶段、特征构建阶段、样本采样阶段以及样本类型分类阶段。具体地,可以先准备待处理的初始数据集,该待处理的初始数据集可以包括少数类正类样本。然后,对该待处理的初始数据集中的少数类正类样本进行特征向量的构建。并通过预设采样算法对该少数类正类样本进行采样处理,以实现调整该待处理的初始数据集中正类样本的数量,进而得到处理后的数据集。然后,再对处理后的数据集的每个样本进行聚类处理,以此确定出每个样本的样本类型。
图2示出了本申请实施例提供的样本分类的方法的一种流程示意图。如图2所示,该样本分类的方法可以包括如下步骤:
201、基于预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集。
该示例中,所提及的待处理的初始数据集是一个样本类型不平衡的数据集。该待处理的初始数据集包括少数类正样本。示例性地,该待处理的初始数据集还可以包括多数类无标记样本。换句话说,样本类型不平衡的待处理的初始数据集可以理解成该待处理的初始数据集中的正类样本的数量与无标记样本的数量处于一个不均衡的状态。譬如说,该待处理的初始数据集包括1000个样本,其中正类样本的数量为5个,无标记样本的数量为995个,具体此处不做具体限定说明。
在另一些可选的实施例中,在执行步骤201之前,还可以先获取待处理的初始数据集。示例性地,获取待处理的初始数据集可以包括:获取携带有类型标签的待处理样本;提取待处理样本的业务数据特征;获取目标对象的对象数据特征,目标对象为应用业务数据时的对象;基于预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征;对聚合后的数据特征进行归一化处理和离散化处理后,得到处理后的数据特征;基于预设神经网络模型对处理后的数据特征进行处理,得到待处理的初始数据集。
在该示例中,可以通过人工标注、业务逻辑等方式获取携带有类型标签的待处理样本。然后,对该待处理样本进行业务数据特征的提取,进而获取得到该待处理样本的业务数据特征。可以理解的是,该待处理样本的业务数据特征有时候也称为业务垂直类型特征,具体不限定名称。另外,所提及的业务数据特征可以包括但不限于目标对象的购买数据特征、商品特征、广告特征等,本申请不做具体限定。另外,目标对象的购买数据特征包括但不限于目标对象的点击、购买等行为的次数,点击购买转化比率等等。商品特征包括商品所属类别,商品被点击和被购买的次数等。广告特征包括广告位置、广告所属商品类目等信息。
也可以在获取到携带有类型标签的待处理样本后,对这些带有类型标签的样本进行目标对象的对象数据特征的提取和采样,从而获取得到目标对象的对象数据特征。所描述的目标对象的对象数据特征包括但不限于目标对象信息、广告信息、目标对象的点击日志、目标对象的历史购买数据、目标对象在应用程序(application,APP)内的一些非隐私行为数据等数据特征。所描述的非隐私行为数据包括但不限于目标对象所持有的终端是否安装手机管家、是否使用手机管家骚扰拦截功能等,本申请不做限定。
然后,可以通过预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征。譬如说,图3示出了一种特征聚合的示意图。如图3所示,通过聚合算法可以聚合出不同时间跨度的对象数据特征和业务垂直类型特征。所描述的聚合算法可以包括但不限于求和、中位数、标准差等算法。示例性地,可以结合时间维度,通过预设聚合算法聚合出不同时间跨度的目标对象的对象数据特征和业务数据特征。
随后,还进一步对聚合后的数据特征进行特征工程处理。例如:对数据型特征进行归一化处理,以及对非数值型特征进行离散化。其中,离散化处理的方法可以包括但不限于独热编码(one-hot encoding)、频数编码(count encoding)、整合编码(consolidatdingencoding)、类别嵌入(Category Embedding)、缺失值嵌入(not a number embedding,NaNEmbedding)等,本申请不做限定。需说明,所提及的NaN Embedding是用于对特征的缺失值进行处理,通过将缺失值转为嵌入表达的方式,对模型的效果具有最大的正向收益。
这样,便可以将经过归一化处理和离散化处理后的特征合并后,得到处理后的数据特征。接着,将该处理后的数据特征输入到神经网络模型(譬如:(深度神经网络(deepneural networks,DNN)模型等),训练嵌入层的特征,便可以得到相应的待处理的初始数据集。该待处理的初始数据集中,每一个特征可以表征出一个待处理样本。
在另一些可选的实施例中,由于在真实的虚拟游戏预测等业务场景中,会存在虚假目标对象进行操控的情况。因此,在获取携带有类型标签的待处理样本后,该方法还包括:基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
示例性地,基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本,包括:计算每个携带有类型标签的待处理样本的标准偏差;将每个标准偏差与预设误差区间进行比较;若标准偏差不包含在预设误差区间内时,将不包含在预设误差区间内的标准偏差所对应的携带有类型标签的待处理样本删除,以过滤类型异常的待处理样本。
在该示例中,也可以基于业务经验等方式预先设置异常目标对象的样本类型的异常检测指标,例如包括但不限于目标对象在产品中的流量使用情况、流量产生的时间分布等,本申请不做具体限定。然后,再计算每个待处理样本的标准偏差,并将每个标准偏差与预设误差区间进行比较。若判断出标准偏差超出了预设误差区间,则直接剔除超出了预设误差区间的所对应的待处理样本,进而完成对类型异常的待处理样本的过滤。需说明,所提及的超出了预设误差区间的标准偏差,可以理解成该标准偏差不属于随机误差,而是属于粗大误差。因此,可以将属于粗大误差的待处理样本予以剔除。
示例性地,在获取得到待处理的初始数据集后,还可以将该待处理的初始数据集离线存储在Hadoop分布式文件系统(hadoop distributed file system,HDFS)中,便于后续流程的快速访问。另外,对于每一个样本,输入到后续的模型的数据是一个N×1的数值型向量,比如:(1,0,31,4,0,2,9,3,8,8,…,0,0,1,2,34)。
需说明,预设采样算法可以包括但不限于PU学习算法等,本申请不做具体限定说明。后续仅以预设采样算法为PU学习算法为例进行说明采样的过程。所描述的PU学习是半监督学习的一个研究方向,旨在只有正类样本或无标记样本的情况下,训练二分类器。示例性地,在获取到初始数据集后,便可以基于PU学习算法对该初始数据集进行采样处理,进而获取得到处理后的数据集。
具体地,下面将通过图4示出的流程图,说明如何通过PU学习算法对待处理的初始数据集进行样本采样处理,得到该处理后的数据集。如图4所示,该样本采样处理的过程通过如下步骤来实现,即:
S401、基于预设距离算法计算第一样本与每个第二样本之间的第一距离,其中,第一样本为初始数据集中的任意一个正类样本,每个第二样本为初始数据集中除了第一样本以外的其他正类样本。
在该示例中,由于初始数据集中包括少数类正样本和多数类无标记样本。因此,可以从该初始数据集的少数类正样本中,随机选取一个正类样本作为第一样本。然后,在该初始数据集的少数类正样本中,除了前述的第一样本,将其他的正类样本确定为第二样本。即第二样本为初始数据集中除去第一样本以外的其他的正类样本。
这样,通过预设距离算法出分别计算出第一样本与每个第二样本之间的距离。需说明,预设距离算法可以包括但不限于其中,Pj为第j个第二样本的特征向量,j为大于1的正整数,U表示为第一样本的特征向量,Dj为第j个第二样本与第一样本之间的距离。换句话说,可以先获取第一样本对应的特征向量U,以及获取每个第二样本各自所对应的特征向量Pj。然后,通过对第一样本对应的特征向量与每个第二样本对应的特征向量进行向量处理,进而得到第一样本与每个样本之间的距离,即Dj
应理解,上述所提及的第一样本、第二样本可以是虚拟游戏预约意愿场景时的目标对象,也可以是商品购买意愿场景时的目标对象等等,本申请不做限定说明。另外,第一样本对应的特征向量、第二样本对应的特征向量也可以是对虚拟游戏是否进行预约时的WiFi连接数据,也可以是对商品是否进行购买时的WiFi连接数据等等,本申请不做限定说明。
S402、对第三样本进行特征处理后,得到第三样本对应的目标特征向量,其中,第三样本为距离满足预设条件时所对应的第二样本。
该示例中,在确定出第一样本与每个第二样本之间的距离之后,还可以根据所计算得到的第一样本与每个第二样本之间的距离,从上述的多个第二样本中选取出距离满足预设条件时所对应的第二样本作为该第三样本。示例性地,在一些可能的示例中,还可以将第三样本添加至空的数据集中。应理解,所描述的距离满足的预设条件,可以理解成距离小于或等于预设距离等,本申请不做限定说明。
这样,可以先计算出每个第三样本的初始特征向量,并不断地重复迭代上述步骤S401,直到第三样本的特征向量不再发生变化,即可得到该第三样本所对应的目标特征向量。
示例性地,在另一些可选的示例中,对于第三样本所对应的目标特征向量的确定方式可以理解成:先计算出所有的第三样本的特征向量的向量之和,如:其中,P为第三样本,Cluster为所有的第三样本构成的数据集合。
然后,计算出所有的第三样本的样本个数,如:A。即A可以理解为该Cluster集合中所有的第三样本的样本个数。然后基于所有的第三样本的特征向量的向量之和与所有的第三样本的样本个数来确定出第三样本对应的目标特征向量,即其中,U·为第三样本对应的的目标特征向量。
S403、计算初始数据集中每个样本的特征向量与目标特征向量之间的距离,并基于每个样本的特征向量与目标特征向量之间的距离从样本中选取出目标正类样本,样本包括第一样本和每个第二样本。
该示例中,在计算得到第三样本的目标特征向量U·之后,便可以通过预设距离算法将初始数据集中每个样本的特征向量Pj与第三样本的目标特征向量U·进行向量处理,得到每个样本的特征向量与第三样本的目标特征向量之间的距离d,即这样,在得到每个样本的特征向量与目标特征向量之间的距离d之后,可以将这些距离d进行升序排序,从而在初始数据集中的样本中选取出距离满足条件的前t个样本作为目标正类样本。
S404、将目标正类样本添加至初始数据集中,得到处理后的数据集。
该示例中,在得到目标正类样本后,便可以将该目标正类样本添加至初始数据集中,进而获取得到处理后的数据集。
需说明,上述图4主要描述了如何通过PU学习算法对初始数据集中的少数类正样本进行样本采样的方案。在实际应用中,还可能通过其他的采样方法实现对少数类正样本的采样,本申请不做具体限定说明。
202、对处理后的数据集中的每个样本的特征向量进行网格化处理,得到至少两个网格对象。
该示例中,可以通过预设网格化算法等将处理后的数据集中的样本进行网格划分。示例性地,将处理后的数据集中的每个样本的特征向量按照维度相同的方式进行划分,将每个样本的特征向量的维度划分为相同的区间,形成至少两个网格。举例来说,图5示出了网格化处理的场景示意图。如图5所示,若该处理后的数据集是以二维形式的方式来展示出,示例性地可以划分成7×7个网格。然后,循环这至少两个网格,并计算每个网格中样本的个数。并且,将样本个数为零的网格删除后,将剩余的非空网格组成至少两个网格对象。例如,图5示出的非空网格为20个。示例性地,若N<n/6,则重新进行网格划分,其中N为非空网格的个数,n为数据对象的个数。
需说明,图5示出的网格数仅仅是一个示意性的描述,在实际应用中,具体可以根据处理后的数据集的数据结构进行划分,本申请不做具体限定说明。另外,上述所提及的网格中的样本也可以理解成数据对象或者数据点,在本申请实施例中不限定该样本的名称。
203、确定每个网格对象的网格密度。
该示例中,在得到至少两个网格对象后,可以将同一个网格对象中的所有样本看作为一个整体。然后,分别统计每个网格对象中的样本的个数,进而将每个网格对象中的样本的个数作为每个网格对象的网格密度。
譬如说,若第i个网格对象中的样本为Pi={Pi1,Pi2.,...,.Pij},可以通过预设统计算法,如:其中/>计算第i个网格对象中的样本的个数/>便可以得到第i个网格对象的网格密度ρi。需说明,Xj表示为第i个网格对象中的样本,Gi表示为第i个网格对象。
204、基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重。
该示例中,簇类中心对象可以理解成对应网格对象中的代表点。示例性地,在另一些可选的示例中,在基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重之前,还可以先确定出每个网格对象中的簇类中心对象。示例地,可以在获取到每个网格对象中所有的样本所对应的特征向量之后,对所有的样本所对应的特征向量之和进行平均值处理,即可得到每个网格对象的簇类中心对象Pi',即其中Gi为第i个网格对象,/>为Gi中所有的样本Xi的特征向量之和,ρi为Gi的网格密度。
在另一些可选的实施例中,基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重,包括:从每个网格对象的网格密度中确定最高的网格密度,并计算第一距离,其中,第一距离为每个网格对象的网格密度与最高的网格密度之间的距离;将每个网格对象的网格密度以及对应的第一距离进行乘积处理,得到每个网格对象中簇类中心对象的权重。
该示例中,在计算出每个网格对象的网格密度ρi以及簇类中心对象Pi'之后,可以将所有网格对象的网格密度按照升序或降序等方式进行排序,从中确定出最高的网格密度。
然后,通过基于预设算法计算出每个网格对象的网格密度与最高的网格密度之间的距离,即第一距离δi。需说明,所描述的预设算法可以理解为:
进一步地,根据每个网格对象的网格密度以及对应的第一距离确定出每个网格对象中簇类中心对象的权重,即得到第一权重。示例性地,可以将每个网格对象的网格密度ρi与对应的第一距离δi作乘积处理,进而计算出第i个网格对象中簇类中心对象的权重,即γi=ρi×δi
205、基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象。
该示例中,在确定出每个网格对象中簇类中心对象的权重后,可以基于每个每个簇类中心对象的权重来确定出每个网格对象中的聚类中心对象。
示例性地,在另一些可选的示例中,基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象,包括:从每个簇类中心对象的权重中确定目标权值,目标权值所对应的样本为每个簇类中心对象的权重对应的权值曲线中偏离度变化最大的临界点;将权重大于目标权值时的簇类簇类中心对象确定为聚类中心对象。
该示例中,在得到每个网格对象中簇类中心对象的权重后,可以将所有的簇类中心对象的权重按照降序的方式进行排序,并通过计算出所有簇类中心对象的权重构成的权值曲线所对应的斜率,以此斜率来表示出该权值曲线的下降趋势,进而确定出目标权值。即该目标权值可以理解成为该权值曲线中的拐点。或者说,该目标权值所对应的样本为该权值曲线中偏离度变化最大的临界点。
这样,通过将每个簇类中心对象的权重和目标权值进行比较,得到比较结果。然后,根据比较结果将所有权重大于目标权值时所对应的簇类中心对象作为对应的网格对象中的聚类中心对象。
示例性地,在另一些可选的示例中,在根据比较结果将所有权重大于目标权重时所对应的簇类中心对象查找到之后,也可以先将权重大于目标权值时所对应的簇类中心对象确定为目标簇类中心对象,然后从目标簇类中心对象中获取得到聚类中心对象。示例性地,从目标簇类中心对象中获取得到聚类中心对象包括:通过预设代表点算法对目标簇类中心对象进行处理,得到聚类中心对象。需说明,预设代表点算法可以理解成,通过计算出每个网格对象中所有的数据对象与簇类中心对象之间的距离,并按照从小到大的顺序进行排列,选取出第一个数据对象作为初始聚类中心对象,直到所有的簇类中心对象都选取出相应的初始距离中心对象为止。
206、基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。
该示例中,确定出每个网格对象中的聚类中心对象,可以理解成对每个网格对象中的样本进行K-Means聚类,得到K个聚类。这样,针对每个样本,都可以计算出每个样本与每个聚类中心对象之间的距离,以此距离作为判断该数据对象的样本类型。譬如说,在得到所有的距离后,可以对距离进行归一化处理,即可转换为取值为[0,1]的概率值。这样,通过概率来判断出该数据对象的样本类型。
示例性地,对于聚类中心对象的确定过程,也可以参照图6示出的流程图进行理解。如图6所示,首先,对处理后的数据集进行数据网格化处理。然后,将每个非空网格对象中样本的个数作为对应的网格对象的网格密度,以及计算每个网格密度与最高的网格密度之间的距离。接着,利用簇类中心对象的权重计算相应的下降趋势,并确定拐点y=i,将i之前的K个网格中心点作为网格对象的簇类中心对象。并且,从K个簇类中心对象中获取K个初始聚类中心对象,进而以K个初始聚类中心对象进行K-Means聚类,形成K个聚类。
图7示出了本申请实施例提供的样本分类的方法的另一个流程示意图。如图7所示,该样本分类的方法可以包括如下步骤:首先,获取携带有类型标签的待处理样本,并基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。然后,提取待处理样本的业务数据特征;获取目标对象的对象数据特征,目标对象为应用业务数据时的对象。然后,基于预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征,并对聚合后的数据特征进行归一化处理和离散化处理后,得到处理后的数据特征;基于预设神经网络模型对处理后的数据特征进行处理,得到待处理的初始数据集。
然后,获取第一样本对应的特征向量以及每个第二样本所对应的特征向量,并对第一样本对应的特征向量与每个第二样本所对应的特征向量进行向量处理,得到第一样本与每个第二样本之间的距离,其中,第一样本为初始数据集中的任意一个正类样本,每个第二样本为初始数据集中除了第一样本以外的其他正类样本;对第三样本进行特征处理后,得到第三样本对应的目标特征向量,其中,第三样本为距离满足预设条件时所对应的第二样本;计算初始数据集中每个样本的特征向量与目标特征向量之间的距离,并基于每个样本的特征向量与目标特征向量之间的距离从样本中选取出目标正类样本,样本包括第一样本和每个第二样本;将目标正类样本添加至初始数据集中,得到处理后的数据集。
接着,对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;统计每个网格对象中的样本的个数;将每个网格对象中的样本的个数作为每个网格对象的网格密度。以及,对每个网格对象中的样本所对应的特征向量进行平均值处理后,得到每个网格对象的簇类中心对象。然后,从每个网格对象的网格密度中确定最高的网格密度,并计算第一距离,其中,第一距离为每个网格对象的网格密度与最高的网格密度之间的距离;将每个网格对象的网格密度以及对应的第一距离进行乘积处理,得到每个网格对象中簇类中心对象的权重。然后,从每个簇类中心对象的权重中确定目标权值,目标权值所对应的样本为每个簇类中心对象的权重对应的权值曲线中偏离度变化最大的临界点;将权重大于目标权值时的簇类中心对象确定为每个网格对象中的聚类中心对象。
最后,基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。
需说明,上述图7中示出的内容可以参照前述图2、图4以及图6中的内容进行理解,此处不做赘述。
本申请实施例中,预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集,并对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象。然后,确定每个网格对象的网格密度,并基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重。最后,基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象,并基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。通过上述方式,能够解决目前由于预约行为特征较为复杂或者人工识别等方式,导致对虚拟游戏有预约意愿的目标对象的识别准确度较低的问题,能够适用于对虚拟游戏进行预约的意愿预测场景中,准确地识别出具有预约意愿的目标对象,较好地提升广告点击率预测的准确率。例如,图8示出了使用不同的方案识别出具有预约意愿的目标对象的效果对比图。从图8可以看出,相较于目前使用的人工制定识别规则的方式、以及非深度学习的识别方式,在使用本申请实施例提供的样本分类的方法后,在对虚拟游戏进行预约的意愿预测的场景中,能够显著地提升广告点击率和广告转化率。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能,包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面对本申请实施例中的样本处理装置进行详细描述,图9为本申请实施例中提供的样本处理装置一个实施例示意图。如图9所示,该样本处理装置可以包括获取单元901和处理单元902。
其中处理单元902用于:基于预设采样算法对待处理的初始数据集进行样本采样处理,得到处理后的数据集;对处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;确定每个网格对象的网格密度;基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重;基于每个簇类中心对象的权重确定每个网格对象中的聚类中心对象;基于处理后的数据集中的每个样本和每个聚类中心对象之间的距离,得到每个样本的样本类型。
在一种可能的实施方式中,处理单元902用于:基于预设距离算法计算第一样本与每个第二样本之间的距离,其中,第一样本为初始数据集中的任意一个正类样本,每个第二样本为初始数据集中除了第一样本以外的其他正类样本;对第三样本进行特征处理后,得到第三样本对应的目标特征向量,其中,第三样本为距离满足预设条件时所对应的第二样本;计算初始数据集中每个样本的特征向量与目标特征向量之间的距离,并基于每个样本的特征向量与目标特征向量之间的距离从样本中选取出目标正类样本,样本包括第一样本和每个第二样本;将目标正类样本添加至初始数据集中,得到处理后的数据集。
在另一种可能的实施方式中,获取单元901用于:获取第一样本对应的特征向量以及每个第二样本所对应的特征向量。处理单元902用于:对第一样本对应的特征向量与每个第二样本所对应的特征向量进行向量处理,得到第一样本与每个第二样本之间的距离。
在另一种可能的实施方式中,处理单元902用于:从每个网格对象的网格密度中确定最高的网格密度,并计算第一距离,其中,第一距离为每个网格对象的网格密度与最高的网格密度之间的距离;将每个网格对象的网格密度以及对应的第一距离进行乘积处理,得到每个网格对象中簇类中心对象的权重。
在另一种可能的实施方式中,处理单元902用于:统计每个网格对象中的样本的个数;将每个网格对象中的样本的个数作为每个网格对象的网格密度。
在另一种可能的实施方式中,处理单元902还用于:在基于每个网格对象的网格密度确定每个网格对象对应的簇类中心对象的权重之前,对每个网格对象中的样本所对应的特征向量进行平均值处理后,得到每个网格对象的簇类中心对象。
在另一种可能的实施方式中,处理单元902用于:从每个簇类中心对象的权重中确定目标权值,目标权值所对应的样本为每个簇类中心对象的权重对应的权值曲线中偏离度变化最大的临界点;将权重大于目标权值时的簇类中心对象确定为每个网格对象中的聚类中心对象。
在另一种可能的实施方式中,获取单元901还用于:在基于预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集之前,获取待处理的初始数据集。
在另一种可能的实施方式中,获取单元901用于:获取携带有类型标签的待处理样本;处理单元902用于提取待处理样本的业务数据特征;获取单元901用于获取目标对象的对象数据特征,目标对象为应用业务数据时的对象;处理单元902用于基于预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征;对聚合后的数据特征进行归一化处理和离散化处理后,得到处理后的数据特征;基于预设神经网络模型对处理后的数据特征进行处理,得到待处理的初始数据集。
在另一种可能的实施方式中,处理单元902还用于:在获取携带有类型标签的待处理样本后,基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
在另一种可能的实施方式中,处理单元902用于:计算每个携带有类型标签的待处理样本的标准偏差;将每个标准偏差与预设误差区间进行比较;若标准偏差不包含在预设误差区间内时,将不包含在预设误差区间内的标准偏差所对应的携带有类型标签的待处理样本删除,以过滤类型异常的待处理样本。
上面从模块化功能实体的角度对本申请实施例中的样本处理装置进行描述,下面从硬件处理的角度对本申请实施例中的样本处理装置进行描述。图10是本申请实施例提供的样本处理装置的结构示意图。该样本处理装置可因配置或性能不同而产生比较大的差异。该样本处理装置可以至少一个处理器1001,通信线路1007,存储器1003以及至少一个通信接口1004。
处理器1001可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,服务器IC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路1007可包括一通路,在上述组件之间传送信息。
通信接口1004,使用任何收发器一类的装置,用于与其他装置或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器1003可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储装置,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储装置,存储器可以是独立存在,通过通信线路1007与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器1003用于存储执行本申请方案的计算机执行指令,并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机执行指令,从而实现本申请上述实施例提供的样本分类的方法。
可选的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
在具体实现中,作为一种实施例,该计算机设备可以包括多个处理器,例如图10中的处理器1001和处理器1002。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,该计算机设备还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信,可以以多种方式来显示信息。输入设备1006和处理器1001通信,可以以多种方式接收用户的输入。例如,输入设备1006可以是鼠标、触摸屏装置或传感装置等。
上述的该计算机设备可以是一个通用装置或者是一个专用装置。在具体实现中,该计算机设备可以是显微镜等或有图10中类似结构的装置。本申请实施例不限定该计算机设备的类型。
需说明,图10中的处理器1001可以通过调用存储器1003中存储的计算机执行指令,使得样本处理装置执行如图2-图7对应的方法实施例中的方法。
具体的,图9中的处理单元902的功能/实现过程可以通过图10中的处理器1001调用存储器1003中存储的计算机执行指令来实现。图9中的获取单元901的功能/实现过程可以通过图10中的通信接口1004来实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD))等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种样本分类的方法,其特征在于,包括:
基于预设采样算法对待处理的初始数据集进行样本采样处理,得到处理后的数据集;
对所述处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;
确定每个所述网格对象的网格密度;
基于每个所述网格对象的网格密度确定每个所述网格对象对应的簇类中心对象的权重;
基于每个所述簇类中心对象的权重确定所述每个网格对象中的聚类中心对象;
基于所述处理后的数据集中的每个样本和每个所述聚类中心对象之间的距离,得到所述每个样本的样本类型。
2.根据权利要求1所述的方法,其特征在于,所述基于预设采样算法对待处理的初始数据集进行样本采样处理,得到处理后的数据集,包括:
基于预设距离算法计算第一样本与每个第二样本之间的距离,其中,所述第一样本为所述初始数据集中的任意一个正类样本,每个所述第二样本为所述初始数据集中除了所述第一样本以外的其他正类样本;
对第三样本进行特征处理后,得到所述第三样本对应的目标特征向量,其中,所述第三样本为所述距离满足预设条件时所对应的第二样本;
计算所述初始数据集中每个样本的特征向量与所述目标特征向量之间的距离,并基于所述每个样本的特征向量与所述目标特征向量之间的距离从所述样本中选取出目标正类样本,所述样本包括所述第一样本和每个所述第二样本;
将所述目标正类样本添加至所述初始数据集中,得到所述处理后的数据集。
3.根据权利要求2所述的方法,其特征在于,所述基于预设距离算法计算第一样本与每个第二样本之间的距离,包括:
获取所述第一样本对应的特征向量以及每个所述第二样本所对应的特征向量;
对所述第一样本对应的特征向量与每个所述第二样本所对应的特征向量进行向量处理,得到第一样本与每个第二样本之间的距离。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于每个所述网格对象的网格密度确定每个所述网格对象对应的簇类中心对象的权重,包括:
从所述每个网格对象的网格密度中确定最高的网格密度,并计算第一距离,其中,所述第一距离为每个所述网格对象的网格密度与所述最高的网格密度之间的距离;
将每个所述网格对象的网格密度以及对应的第一距离进行乘积处理,得到每个所述网格对象中所述簇类中心对象的权重。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述确定每个所述网格对象的网格密度,包括:
统计每个所述网格对象中的样本的个数;
将所述每个网格对象中的样本的个数作为每个所述网格对象的网格密度。
6.根据权利要求4或5所述的方法,其特征在于,在所述基于每个所述网格对象的网格密度确定每个所述网格对象对应的簇类中心对象的权重之前,所述方法还包括:
对每个所述网格对象中的样本所对应的特征向量进行平均值处理后,得到每个所述网格对象的簇类中心对象。
7.根据权利要求4至6中任一项所述的方法,其特征在于,所述基于每个所述簇类中心对象的权重确定所述每个网格对象中的聚类中心对象,包括:
从所述每个簇类中心对象的权重中确定目标权值,所述目标权值所对应的样本为所述每个簇类中心对象的权重对应的权值曲线中偏离度变化最大的临界点;
将权重大于所述目标权值时的簇类中心对象确定为每个所述网格对象中的聚类中心对象。
8.根据权利要求1至7中任一项所述的方法,其特征在于,在所述基于预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集之前,所述方法还包括:
获取所述待处理的初始数据集。
9.根据权利要求8所述的方法,其特征在于,所述获取待处理的初始数据集,包括:
获取携带有类型标签的待处理样本;
提取所述待处理样本的业务数据特征;
获取目标对象的对象数据特征,所述目标对象为应用所述业务数据时的对象;
基于预设聚合算法对所述业务数据特征和所述对象数据特征进行聚合处理后,得到聚合后的数据特征;
对所述聚合后的数据特征进行归一化处理和离散化处理后,得到处理后的数据特征;
基于预设神经网络模型对所述处理后的数据特征进行处理,得到所述待处理的初始数据集。
10.根据权利要求9所述的方法,其特征在于,在获取携带有类型标签的待处理样本后,所述方法还包括:
基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
11.根据权利要求10所述的方法,其特征在于,所述基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本,包括:
计算每个所述携带有类型标签的待处理样本的标准偏差;
将每个所述标准偏差与预设误差区间进行比较;
若所述标准偏差不包含在所述预设误差区间内时,将不包含在所述预设误差区间内的标准偏差所对应的携带有所述类型标签的待处理样本删除,以过滤类型异常的待处理样本。
12.一种样本处理装置,其特征在于,包括:
处理单元,用于基于预设采样算法对待处理的初始数据集进行样本分类处理,得到处理后的数据集;
所述处理单元,用于对所述处理后的数据集中每个样本的特征向量进行网格化处理,得到至少两个网格对象;
所述处理单元,用于确定每个所述网格对象的网格密度;
所述处理单元,用于基于每个所述网格对象的网格密度确定每个所述网格对象对应的簇类中心对象的权重;
所述处理单元,用于基于每个所述簇类中心对象的权重确定所述每个网格对象中的聚类中心对象;
所述处理单元,用于基于所述处理后的数据集中的每个样本和每个所述聚类中心对象之间的距离,得到所述每个样本的样本类型。
13.一种样本处理装置,其特征在于,所述样本处理装置包括:输入/输出(I/O)接口、处理器和存储器,
所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1至11中任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至11中任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,当所述指令在计算机设备或者处理器上运行时,使得所述计算机设备或者所述处理器执行如权利要求1至11中任一项所述的方法。
CN202210298515.9A 2022-03-24 2022-03-24 一种样本分类的方法以及相关装置 Pending CN116881759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210298515.9A CN116881759A (zh) 2022-03-24 2022-03-24 一种样本分类的方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210298515.9A CN116881759A (zh) 2022-03-24 2022-03-24 一种样本分类的方法以及相关装置

Publications (1)

Publication Number Publication Date
CN116881759A true CN116881759A (zh) 2023-10-13

Family

ID=88259175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210298515.9A Pending CN116881759A (zh) 2022-03-24 2022-03-24 一种样本分类的方法以及相关装置

Country Status (1)

Country Link
CN (1) CN116881759A (zh)

Similar Documents

Publication Publication Date Title
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
Bi et al. A big data clustering algorithm for mitigating the risk of customer churn
KR101939554B1 (ko) 일시적 거래 한도 결정
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
EP4322031A1 (en) Recommendation method, recommendation model training method, and related product
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
CN104077723B (zh) 一种社交网络推荐系统及方法
CN105225135B (zh) 潜力客户识别方法以及装置
CN111435463A (zh) 数据处理方法及相关设备、系统
Borges et al. On measuring popularity bias in collaborative filtering data
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN115238815A (zh) 异常交易数据获取方法、装置、设备、介质和程序产品
Cui et al. A k-means++ based user classification method for social e-commerce
CN113159213A (zh) 一种业务分配方法、装置及设备
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN116955788A (zh) 一种内容处理的方法、装置、设备、存储介质及程序产品
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
CN110427959A (zh) 投诉文本的分类方法、系统和存储介质
CN116881759A (zh) 一种样本分类的方法以及相关装置
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质
CN115185768A (zh) 系统的故障识别方法、系统、电子设备和存储介质
CN114511022A (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置
CN116723083B (zh) 一种云服务器在线故障诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination