CN116861226A - 一种数据处理的方法以及相关装置 - Google Patents
一种数据处理的方法以及相关装置 Download PDFInfo
- Publication number
- CN116861226A CN116861226A CN202210289936.5A CN202210289936A CN116861226A CN 116861226 A CN116861226 A CN 116861226A CN 202210289936 A CN202210289936 A CN 202210289936A CN 116861226 A CN116861226 A CN 116861226A
- Authority
- CN
- China
- Prior art keywords
- sample
- data set
- positive
- samples
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 10
- 238000012545 processing Methods 0.000 claims abstract description 138
- 238000012360 testing method Methods 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 74
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000006399 behavior Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
公开了一种数据处理的方法以及相关装置,可应用于人工智能、云技术等领域,解决因购买行为特征较为复杂或者人工识别等方式,导致对购买意愿的目标对象的识别准确度较低的问题,适用于跨境电商购买意愿的预测场景,准确识别出购买意愿的目标对象,提升广告点击率预测的准确率。该方法包括:获取待处理的初始数据集,待处理的初始数据集包括少数类正样本;基于预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本;将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集,处理后的数据集包括训练数据集和测试数据集;基于目标分类器模型对测试数据集中的每个测试样本进行类型预测处理,得到每个测试样本的样本类型。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种数据处理的方法以及相关装置。
背景技术
跨境电商购买意愿是指目标对象对跨境电商购买的意愿,通常取值为有购买意愿或者无购买意愿。在当前业界中,现有识别目标对象跨境电商购买意愿的方案通常可以分为两类。一类是基于人工经验确定数据识别规则,并基于该数据识别规则来对是否具有跨境电商购买意愿的目标对象进行识别。另一类则是基于非深度学习的数据挖掘方法,通过构建多维特征和模型训练的方式来预测当前目标对象对于跨境电商购买的意愿的概率。
然而,基于人工经验确定数据识别规则的方式,使用的数据识别规则不仅数量有限,而且无法捕捉数据识别规则之间交互的高维特征信息,以及无法确定每个数据识别规则的最优参数。另外,基于非深度学习的数据挖掘方法,在跨境电商购买意愿的预测场景中,购买行为特征较为复杂,难以显式表达,导致后续对跨境电商购买意愿的目标对象的识别效果欠佳。
发明内容
本申请实施例提供了一种数据处理的方法以及相关装置,解决目前由于购买行为特征较为复杂或者人工识别等方式,导致对购买意愿的目标对象的识别准确度较低的问题,能够适用于跨境电商购买意愿的预测场景中,准确地识别出购买意愿的目标对象,较好地提升广告点击率预测的准确率。
第一方面,本申请实施例提供了一种数据处理的方法。该方法可以应用对跨境电商购买意愿的预测场景中。在该方法中,获取待处理的初始数据集,待处理的初始数据集包括少数类正样本;基于预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本;将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集,处理后的数据集为样本类型平衡的数据集,处理后的数据集包括训练数据集和测试数据集;基于目标分类器模型对测试数据集中的每个测试样本进行类型预测处理,得到每个测试样本的样本类型,其中,目标分类器模型是以预测测试数据集中的每个测试样本的样本类型为训练目标,以训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个代价矩阵指示处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
第二方面,本申请实施例提供了一种数据处理装置。该数据处理装置可以包括获取单元和处理单元。其中,获取单元用于获取待处理的初始数据集,待处理的初始数据集包括少数类正样本。处理单元用于:基于预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本;将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集,处理后的数据集为样本类型平衡的数据集,处理后的数据集包括训练数据集和测试数据集;基于目标分类器模型对测试数据集中的每个测试样本进行类型预测处理,得到每个测试样本的样本类型,其中,目标分类器模型是以预测测试数据集中的每个测试样本的样本类型为训练目标,以训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个代价矩阵指示处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
在一些可能的实施方式中,处理单元用于:计算每个少数类正样本的N个正类近邻样本,N≥1、且N为整数;按照预设规则对少数类正样本的特征向量和N个正类近邻样本的特征向量进行特征处理,得到潜在正类样本;计算少数类正样本与每个正类近邻样本之间的距离、以及少数类正样本与潜在正类样本之间的距离;在少数类正样本与每个正类近邻样本之间的距离大于或等于少数类正样本与潜在正类样本之间的距离时,计算潜在正类样本的近邻样本的样本类型;在潜在正类样本的近邻样本的样本类型为正类样本时,将潜在正类样本确定为采样后的正样本。
在另一些可能的实施方式中,处理单元还用于:在潜在正类样本的近邻样本的样本类型为负类样本时,删除潜在正类样本。
在另一些可能的实施方式中,处理单元用于:将采样后的正样本添加至初始数据集中,得到处理后的数据集。
在另一些可能的实施方式中,处理单元用于:基于预设聚类算法对少数类正样本进行样本聚类处理,得到K个簇,1≤N≤K、且K为整数;计算每个簇中的每个少数类正样本的K个正类近邻样本;在K个正类近邻样本中选取N个正类近邻样本。
在另一些可能的实施方式中,处理单元用于:基于目标分类器模型对测试数据集中的每个测试样本进行预测处理,得到每个测试样本的类型预测概率;基于每个测试样本的类型预测概率得到对应的测试样本的样本类型。
在另一些可能的实施方式中,处理单元还用于:将每个代价矩阵分别对训练数据集进行加权处理后,得到每个加权后的训练数据集;基于预设决策树算法对每个加权后的训练数据集分别进行模型训练处理,得到各自对应的训练后的分类器模型;从各自训练后得到的分类器模型中选取目标分类器模型。
在另一些可能的实施方式中,处理单元用于:基于各个训练后的分类器模型对训练数据集中的样本进行处理,计算基于各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值;从各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值中确定最小值;将最小值所对应的训练后的分类器模型选取为目标分类器模型。
在另一些可能的实施方式中,获取单元还用于:获取携带有类型标签的待处理样本。处理单元还用于提取待处理样本的业务数据特征。获取单元还用于获取目标对象的对象数据特征,目标对象为应用业务数据时的对象。处理单元,用于根据预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征;对聚合后的数据特征进行归一化处理和离散化处理后,得到待处理的初始数据集。
在另一些可能的实施方式中,处理单元还用于:在获取携带有类型标签的待处理样本后,基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
在另一些可能的实施方式中,处理单元用于:计算每个携带有类型标签的待处理样本的标准偏差;将每个标准偏差与预设误差区间进行比较;若标准偏差不包含在预设误差区间内时,将不包含在预设误差区间内的标准偏差所对应的携带有类型标签的待处理样本删除,以过滤类型异常的待处理样本。
本申请实施例第三方面提供了一种数据处理装置,包括:存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令,以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
本申请实施例第五方面提供了一种包含指令的计算机程序产品,当其在计算机或者处理器上运行时,使得计算机或者处理器执行上述以执行上述第一方面、第一方面中任一可能的实施方式对应的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,在获取包括有少数类正样本的待处理的初始数据集后,通过预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本,并将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集。这样,再基于目标分类器模型对该处理后的数据集中的测试数据集中的每个测试样本进行类型预测处理后,得到每个测试样本的样本类型。通过上述方式,能够解决目前由于购买行为特征较为复杂或者人工识别等方式,导致对购买意愿的目标对象的识别准确度较低的问题,能够适用于跨境电商购买意愿的预测场景中,准确地识别出购买意愿的目标对象,较好地提升广告点击率预测的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种数据处理的系统流程图;
图2示出了本申请实施例提供的数据处理的方法的一种流程示意图;
图3示出了一种特征聚合的示意图;
图4示出本申请实施例提供的R-SMOTE算法采样的示意图;
图5示出了本申请实施例提供的样本采样的一种采样流程示意图;
图6示出了通过现有的SMOTE算法和本申请提供的R-SMOTE算法分别进行采样后的样本分布效果比对示意图;
图7A示出了DenseNet模型的一种结构示意图;
图7B示出了DenseNet模型中的Dense Block的结构示意图;
图8示出了本申请实施例提供的数据处理的方法的另一种流程示意图;
图9示出了使用不同的方案识别购买意愿的目标对象的效果对比图;
图10为本申请实施例中提供的数据处理装置一个实施例示意图;
图11示出了本申请实施例提供的数据处理装置的结构示意图。
具体实施方式
本申请实施例提供了一种数据处理的方法以及相关装置,解决目前由于购买行为特征较为复杂或者人工识别等方式,导致对购买意愿的目标对象的识别准确度较低的问题,能够适用于跨境电商购买意愿的预测场景中,准确地识别出购买意愿的目标对象,较好地提升广告点击率预测的准确率。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息、对象数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(machine learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着机器学习技术的发展,机器学习应用在越来越多的场景中,例如在某个跨境电商应用程序(application,APP)中,对该APP中的商品是否具有购买意愿的目标对象进行识别和分类。
另外,本申请实施例提供的数据处理的方法还可以应用在云技术、安全等应用场景中,本申请不做具体限定。示例性地,本申请实施例提供的实施例还可以应用在云技术、云安全等应用场景中。所提及的云技术、云安全等应用场景中,需要本申请实施例提供的数据处理装置可以具备云计算能力。云计算(cloud computing)是指IT基础设施的交付和使用模式,或服务的交付和使用模式。通过网络以按需、易扩展的方式获得所需资源。这种服务可以是IT和软件、互联网相关,也可以是其他服务。云计算是网络计算(gridcomputing)、分布式计算(distributed computing)、并行计算(parallel computing)、虚拟化、负载均衡等传统计算机和网络技术发展的产物。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式发生革命性的变革。
本申请提供的数据处理的方法还应用于具有数据处理能力的数据处理装置,如终端设备、服务器等。其中,终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器等,本申请不做具体限定。另外,所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接,本申请不做具体限定。
在当前业界中,现有识别目标对象跨境电商购买意愿的方案通常可以分为两类。一类是基于人工经验确定数据识别规则,并基于该数据识别规则来对是否具有跨境电商购买意愿的目标对象进行识别。另一类则是基于非深度学习的数据挖掘方法,通过构建多维特征和模型训练的方式来预测当前目标对象对于跨境电商购买的意愿的概率。然而,基于人工经验确定数据识别规则的方式,使用的数据识别规则不仅数量有限,而且无法捕捉数据识别规则之间交互的高维特征信息,以及无法确定每个数据识别规则的最优参数。另外,基于非深度学习的数据挖掘方法,在跨境电商购买意愿的预测场景中,购买行为特征较为复杂,难以显式表达,导致后续对跨境电商购买意愿的目标对象的识别效果欠佳。
因此,为了解决上述所提及的技术问题,本申请实施例提供了一种数据处理的方法。该方法可以适用于跨境电商购买意愿的预测场景中,能够对目标对象的购买意愿进行准确地识别,降低误识别率。示例性地,图1示出了本申请实施例提供的一种数据处理的系统流程图。如图1所示,在该方法中,可以包括样本准备阶段、特征构建阶段、样本采样阶段以及样本类型预测阶段。具体地,可以先准备类型不平衡的待处理的初始数据集,该类型不平衡的待处理的初始数据集包括少数类正样本和多数类负样本。然后,对这些类型不均衡的待处理的初始数据集中的每个待分类样本进行特征向量的构建。并通过预设采样算法对该待处理的初始数据集中的少数类正样本进行采样处理,以实现调整该待处理的初始数据集中的正类样本的数量,进而得到处理后的数据集。然后,再通过目标分类器模型对处理后的数据集中的每个测试样本进行样本类型的预测处理,从而确定出每个测试数据集中的每个测试样本的样本类型。
图2示出了本申请实施例提供的数据处理的方法的一种流程示意图。如图2所示,该数据处理的方法可以包括如下步骤:
201、获取待处理的初始数据集,待处理的初始数据集包括少数类正样本。
该示例中,所提及的待处理的初始数据集是一个样本类型不平衡的数据集。该待处理的初始数据集包括少数类正样本。示例性地,该待处理的初始数据集还可以包括多数类负样本。换句话说,样本类型不平衡的待处理的初始数据集可以理解成该待处理的初始数据集中的正类样本的数量与负类样本的数量处于一个不均衡的状态。譬如说,该待处理的初始数据集包括1000个样本,其中正类样本的数量为5个,负类样本的数量为995个,具体此处不做具体限定说明。
在一些可选的实施例中,针对步骤201中的获取待处理的初始数据集,可以包括:获取携带有类型标签的待处理样本;提取所述待处理样本的业务数据特征;获取目标对象的对象数据特征,所述目标对象为应用所述业务数据时的对象;基于预设聚合算法对所述业务数据特征和所述对象数据特征进行聚合处理后,得到聚合后的数据特征;对所述聚合后的数据特征进行归一化处理和离散化处理后,得到所述待处理的初始数据集。
在该示例中,可以通过人工标注、业务逻辑等方式获取携带有类型标签的待处理样本。然后,对该待处理样本进行业务数据特征的提取,进而获取得到该待处理样本的业务数据特征。可以理解的是,该待处理样本的业务数据特征有时候也称为业务垂直类型特征,具体不限定名称。另外,所提及的业务数据特征可以包括但不限于目标对象的购买数据特征、商品特征、广告特征等,本申请不做具体限定。另外,目标对象的购买数据特征包括但不限于目标对象的点击、购买等行为的次数,点击购买转化比率等等。商品特征包括商品所属类别,商品被点击和被购买的次数等。广告特征包括广告位置、广告所属商品类目等信息。
也可以在获取到携带有类型标签的待处理样本后,对这些带有类型标签的样本进行目标对象的对象数据特征的提取和采样,从而获取得到目标对象的对象数据特征。所描述的目标对象的对象数据特征包括但不限于目标对象信息、广告信息、目标对象的点击日志、目标对象的历史购买数据、目标对象在应用程序(application,APP)内的一些非隐私行为数据等数据特征。所描述的非隐私行为数据包括但不限于目标对象所持有的终端是否安装手机管家、是否使用手机管家骚扰拦截功能等,本申请不做限定。
然后,可以通过预设聚合算法对业务数据特征和所述对象数据特征进行聚合处理后,得到聚合后的数据特征。譬如说,图3示出了一种特征聚合的示意图。如图3所示,通过聚合算法可以聚合出不同时间跨度的对象数据特征和业务垂直类型特征。所描述的聚合算法可以包括但不限于求和、中位数、标准差等算法。示例性地,可以结合时间维度,通过预设聚合算法聚合出不同时间跨度的目标对象的对象数据特征和业务数据特征。
随后,还进一步对聚合后的数据特征进行特征工程处理。例如:对数据型特征进行归一化处理,以及对非数值型特征进行离散化。其中,离散化处理的方法可以包括但不限于独热编码(one-hot encoding)、频数编码(count encoding)、整合编码(consolidatdingencoding)等,本申请不做限定。
这样,便可以将经过归一化处理和离散化处理后的特征合并后,便可以得到该待处理的初始数据集,每一个合并后的特征可以表征出一个待处理样本。
在另一些可选的实施例中,由于在真实的跨境电商等业务场景中,会存在虚假目标对象进行操控的情况。因此,在获取携带有类型标签的待处理样本后,该方法还包括:基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
示例性地,所述基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本,包括:计算每个所述携带有类型标签的待处理样本的标准偏差;将每个所述标准偏差与预设误差区间进行比较;若所述标准偏差不包含在所述预设误差区间内时,将不包含在所述预设误差区间内的标准偏差所对应的携带有所述类型标签的待处理样本删除,以过滤类型异常的待处理样本。
在该示例中,也可以基于业务经验等方式预先设置异常目标对象的样本类型的异常检测指标,例如包括但不限于目标对象在产品中的流量使用情况、流量产生的时间分布等,本申请不做具体限定。然后,再计算每个待处理样本的标准偏差,并将每个标准偏差与预设误差区间进行比较。若判断出标准偏差超出了预设误差区间,则直接剔除超出了预设误差区间的所对应的待处理样本,进而完成对类型异常的待处理样本的过滤。需说明,所提及的超出了预设误差区间的标准偏差,可以理解成该标准偏差不属于随机误差,而是属于粗大误差。因此,可以将属于粗大误差的待处理样本予以剔除。
示例性地,在获取得到待处理的初始数据集后,还可以将该待处理的初始数据集离线存储在Hadoop分布式文件系统(hadoop distributed file system,HDFS)中,便于后续流程的快速访问。另外,对于每一个样本,输入到后续的模型的数据是一个N×1的数值型向量,比如:(1,0,31,4,0,2,9,3,8,8,…,0,0,1,2,34)。
202、基于预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本。
该示例中,由于待处理的初始数据集是一个样本类型不平衡的数据集,即该初始数据集包括了少数类正样本和多数类负样本。若直接对该待处理的初始数据集进行样本类型的预测,会造成较大的识别错误率。因此,在获取到待处理的初始数据集后,还可以基于预测采样算法对少数类正样本进行样本采样处理,得到采样后的正样本。这样,采样后的正样本与原先的少数类正样本的正样本数目之和,可以与多数类负样本的数目基本趋于平衡的状态。示例性地,所描述的预设采样算法可以包括但不限于半径合成少数超采样技术(radius synthetic minority over-sampling technique,R-SMOTE)算法等,本申请不做具体限定说明。应理解,后续实施例中仅以预设采样算法为R-SMOTE算法为例进行说明。
所描述的R-SMOTE算法是对SMOTE(synthetic minority over-samplingtechnique)算法进行改良后的采样算法,它的基本思路是能够在少数类正样本与相应的最近邻少数类样本构成的N维球体空间内进行样本采样,进而调整待处理的初始数据集中的样本类型的不平衡度,具体可以参照图4示出的R-SMOTE算法采样的示意图进行理解。
下述针对步骤202中的对于样本采样的处理过程进行描述,具体可以参照图5中所描述的内容进行理解。如图5所示,该样本采样的处理过程可以包括以下步骤:
S501、基于预设聚类算法对第二正类样本进行样本聚类处理,得到K个簇,K≥1、且K为整数。
该示例中,由于初始数据集是一个样本类型不平衡的数据集,而且该初始数据集中包括了少数类正样本和多数类负样本。因此,在得到初始数据集后,可以通过预设聚类算法对该少数类正样本进行样本聚类处理,从而得到K个簇。示例性地,可以将少数类正样本和待聚类簇的个数K作为输入数据,进而随机产生K个初始簇心。对于少数类正样本中的每个正样本,分别计算正样本距离K个初始簇心的距离,并根据所有计算得到的正样本距离K个初始簇心的距离,将对应的正样本划分到距离最近的簇心所属的簇中。然后,将每个正样本划分至相应的簇中之后,计算各个簇中样本的均值,并将该均值作为新的簇心。这样,不断地重复计算每个正样本到更新后的新的簇心之间的距离,以此不断地调整新的簇心,直至簇心不再发生变化,进而完成聚类处理,得到K个簇。
需说明,所描述的预设聚类算法可以包括但不限于K-Means聚类算法等,本申请不做具体限定。
S502、计算每个簇中的每个少数类正样本的K个正类近邻样本。在该示例中,针对初始数据集中的少数类正样本(如X),可以通过预设聚类算法等找出每个少数类正样本X的K个正类近邻样本(如Y)。需说明,在本申请实施例中,并不限于使用K-Means聚类算法确定每个簇中的每个少数类正样本的K个正类近邻样本,也可以使用其他的算法来确定出近邻样本,本申请不做具体限定说明。另外,具体的K-Means距离算法可以参照前述S501中的聚类过程进行理解,此处不做赘述。
S503、在K个正类近邻样本中选取N个正类近邻样本,1≤N≤K、且N为整数。
该示例中,在计算得到每个少数类正样本的K个正类近邻样本之后,可以分别从每个少数类正样本对应的K个正类近邻样本Y中随机选取N个正类近邻样本Y。
S504、按照预设规则对少数类正样本的特征向量和N个正类近邻样本的特征向量进行特征处理,得到潜在正类样本。
该示例中,通过预设规则对少数类正样本X和所选取的N个正类近邻样本Y进行特征处理,即可以生成虚拟样本,即潜在正类样本。举例来说,对于初始数据集中的样本,假设该初始数据集中的样本的属性个数为n。所描述的样本的属性也可以理解成样本的特征向量。对于任意一个少数类正样本X,其属性可以记为x1、x2、…、xn。从该少数类正样本X的K个正类近邻样本中随机随选出N个正类近邻样本,记为Y1、Y2、…、YN,每个正类近邻样本的属性为yi1、yi2、…、yin,i=1、2、…、N。同样地,每个正类近邻样本Yi对应产生的新的虚拟样本为X1’、X2’、…、XN’,属性为Xi1’、Xi2’、…、Xin’。假设虚拟样本X’产生的区间为(Z1,Z2),其中,Z1、Z2为:
Z1i=xj-|yij-xj|
Z2i=xj+|yij-xj|
其中,i=1、2、…、N,j=1、2、…、n。|yij-xj|表示正类近邻样本Yi与少数类正样本X之间的属性差的绝对值。
生成虚拟样本X’的各个属性为:
xij’=xj+random(0,1)×(Z2i-Z1i)
其中,random(0,1)表示生成0到1之间的随机数,xij’表示区间(Z1i,Z2i)中的属性的随机值。
即通过上述的公式xij’=xj+random(0,1)×(Z2i-Z1i),即可生成虚拟样本Xi’=(xi1’,xi2’,…,xin’)。换句话说,可以先计算出少数类正样本X的特征向量与正类近邻样本Y的特征向量之间的距离差,得到距离差特征向量|yij-xj|;然后再计算少数类正样本X与距离差特征向量之间的距离差区间(Z2i,Z1i)。最后,再通过每个少数类正样本X的特征向量、随机数与距离差区间之间的特征向量计算出每个潜在正类样本对应的特征向量。
S505、计算少数类正样本与每个正类近邻样本之间的距离、以及少数类正样本与潜在正类样本之间的距离。
该示例中,在得到潜在正类样本后,计算少数类正样本X与每个正类近邻样本Yi之间的距离,即第一距离R1。以及,计算少数类正样本X与潜在正类样本(即虚拟样本Xi’)之间的距离,即第二距离R2。示例性地,可以通过欧式距离算法等计算少数类正样本X与每个正类近邻样本Yi之间的距离、以及少数类正样本X与潜在正类样本(即虚拟样本Xi’)之间的距离,本申请不做具体限定说明。
S506、在少数类正样本与每个正类近邻样本之间的距离大于或等于少数类正样本与潜在正类样本之间的距离时,计算潜在正类样本的近邻样本的样本类型。
该示例中,在计算得到少数类正样本与每个正类近邻样本之间的距离(记为第一距离R1)、以及少数类正样本与潜在正类样本之间的距离(记为第二距离R2)之后,可以对第一距离R1和第二距离R2进行比较。这样,在第一距离R1大于或等于第二距离R2时,保留当前的潜在正类样本Xi’。反之,则重新按照上述步骤S502至步骤S505所描述的内容重新采样新的潜在正类样本Xi’。也就是说,所生成的潜在正类样本Xi’需要满足:||Xi’-X||≤||Yi-X||,其中,||Xi’-X||可以理解成上述的第二距离R2。||Yi-X||可以理解成上述的第一距离R1。
这样,在确定出初步需要保留的潜在正类样本后,还可以进一步通过预设的近邻样本规则等计算出潜在正类样本的近邻样本,然后判断潜在正类样本的近邻样本的样本类型,以此该近邻样本的样本类型来判断是否需要将该初步确定出的潜在正类样本保留。
S507、在潜在正类样本的近邻样本为正类样本时,将潜在正类样本作为处理后的正样本。
该示例中,在判断出该潜在正类样本的近邻样本的类型为正类样本的情况下,则保留该潜在正类样本,即将该潜在正类样本确定为上述的处理后的正样本。
在另一些可选的示例中,若判断出潜在正类样本的近邻样本为负类样本,则将该潜在的正类样本删除,并重新按照步骤上述步骤S502至步骤S505所描述的内容进行重新采样。
在图5示出的采样过程中,通过预设聚类算法等算法对少数类正样本进行聚类,即可得到K个簇。针对每个簇,均可以使用具有近邻样本规则约束的预设采样算法(如R-SMOTE算法)进行采样,直到采样完成,即可获得所有的新的处理后的正样本,能够极大程度上改进了初始数据集中的样本类型的不平衡程度。需说明,上述图5主要描述了采样后的正样本的具体采样过程。在实际应用中,还可能通过其他的方式实现样本采样,本申请实施例中不做具体限定。
S203、将所述采样后的正样本和所述初始数据集进行合并处理后,得到处理后的数据集,所述处理后的数据集为样本类型平衡的数据集,所述处理后的数据集包括训练数据集和测试数据集。
该示例中,在得到采样后的正样本后,便可以将该采样后的正样本与初始数据集进行合并处理,得到处理后的数据集。示例性地,在一些可选的示例中,可以将采样后的正样本添加至该初始数据集中,得到处理后的数据集。
需说明,所提及的处理后的数据集可以理解成对样本类型不平衡的待处理的初始数据集进行样本采样处理后得到的样本类型平衡的数据集。其中,样本类型平衡的数据集可以理解成相应数据集中的正类样本的数量与负类样本的数量处于一个相对均衡的状态。例如:处理后的数据集中包括1000个样本,其中正类样本的数量为505个,负类样本的数量为495个,此处不做具体限定说明。另外,处理后的数据集中包括训练数据集和测试数据集。其中,训练数据集中包括多数类正样本和多数类负样本。
需说明,通过上述的预设采样算法进行采样,可以在一定程度上改善样本分布的不均衡的问题。示例性地,图6示出了通过现有的SMOTE算法和本申请提供的R-SMOTE算法分别进行采样后的样本分布效果比对示意图。如图6所示,相比较于通过SMOTE算法进行采样处理后得到的数据集,通过R-SMOTE算法进行采样得到的处理后数据集中的样本分布的空白区域相对减少,可以表明样本的分布更均匀,在一定程度上改善了样本分布不均衡的问题。
204、基于目标分类器模型对测试数据集中的每个测试样本进行类型预测处理,得到每个测试样本的样本类型,其中,目标分类器模型是以预测测试数据集中的每个测试样本的样本类型为训练目标,以训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个代价矩阵指示处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
在该示例中,在获取到处理后的数据集之后,可以按照一定的比例将该处理后的数据集分成相应的训练数据集和测试数据集。并且引入代价矩阵集,该代价矩阵集包括至少一个代价矩阵,例如代价矩阵可以表示为:
其中,cij表示将类别i错误分类成类别j时的误分类代价,cji表示将类别j错误分类成类别i时的误分类代价。或者,上述的cij也可以理解成将该处理后的数据集中的多数类正样本错误分类带来的损失,cji也可以理解成将该处理后的数据集中的多数类负样本错误分类带来的损失。
而基于不同的代价矩阵和训练数据集可以训练得到不同的分类器模型,并且不同的训练后的分类器模型的分类误差可能也有差别。因此,需要从不同的训练后的分类器模型中选取出分类误差的分类器模型作为该目标分类器模型,进而通过该目标分类器模型实现对测试数据集中的每个测试样本的样本类型的预测。
下面将具体描述在该训练数据集上,结合每个代价矩阵进行模型训练处理,得到不同的训练后的分类器模型,并选取目标分类器模型的过程。即:该数据处理的方法还包括:将每个所述代价矩阵分别对所述训练数据集进行加权处理后,得到每个加权后的训练数据集;基于预设决策树算法对所述每个加权后的训练数据集分别进行模型训练处理,得到各自对应的训练后的分类器模型;从所述各自训练后得到的分类器模型中选取所述目标分类器模型。
可选地,在另一些可能的实施方式中,所述从所述各自训练后得到的分类器模型中选取所述目标分类器模型,包括:基于各个所述训练后的分类器模型对所述训练数据集中的样本进行处理,计算基于各个所述训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值;从所述各个所述训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值中确定最小值;将所述最小值所对应的训练后的分类器模型选取为所述目标分类器模型。
该示例中,对预设分类器模型进行训练的过程、以及如何选取目标分类器模型,具体可以参照下述步骤进行理解:
步骤1:初始化代价矩阵Cost、最优代价矩阵B_Cost、基础分类器模型M0。
步骤2:引入代价矩阵Cost,在处理后的数据集的训练数据集上运行决策树算法,训练一个代价敏感的基础分类器模型M0。
步骤3:根据训练后得到的基础分类器模型M0对训练数据集中的样本进行处理,计算出第一值f(c),并将f(c)赋值给B_f(c),依据穷举算法选择下一个代价矩阵Cost。
需说明,上述的f(c)=A/B,其中,A表示通过训练后的基础分类器模型M0成功检测到误分类的样本数(success detected high cost samples),B表示通过训练后的基础分类器模型M0进行处理后的全部误分类的样本数(all high cost samples)。
步骤4:若所有可能的代价矩阵Cost验证完毕,则转向后续的步骤6。反之,则将当前验证的代价矩阵Cost应用到该处理后的数据集中的训练数据集中,运行决策树算法训练另一个代价敏感的基础分类器M0,进一步计算出相应的f(c)。
步骤5:将步骤4得到的f(c)与上述的B_f(c)进行比较。若B_f(c)<f(c),则令B_f(c)=f(c)、B_Cost=Cost、M=M0。依据搜索算法选取下一个Cost,转向步骤4。如果若B_f(c)≥f(c),则依据搜索算法选取下一个Cost,转向步骤4。
步骤6:输出最优的代价矩阵(即B_Cost)、最优的比值(即B_f(c))以及目标分类器模型(即M)。
需说明,在得到所有的第一值f(c)后,可以将其中的最小的值所对应的训练后的分类器模型选取为目标分类器模型。
另外,在本申请实施例中用于训练的模型为密集卷积网络(dense convolutionalnetwork,DenseNet)模型。所描述的DenseNet模型是将前面所有层与后面层的密集连接(dense connection),并通过特征在channel上的连接来实现特征重用(feature reuse),使得DenseNet模型在参数和计算成本更少的情形下,实现相比其它网络结构具有更优的性能。举例来说,图7A示出了DenseNet模型的一种结构示意图。如图7A所示,该DenseNet模型包括3个Dense Block,并且每个Dense Block拥有相同数量的layer。在进入第一个DenseBlock之前,首先经过一个conv(output channel为16),保持feature-map的大小(size)不变。而且,Dense Block内部为密集连接,相邻的两个Dense Block之间为Transition Layer层。在最后一个Dense Block之后是连接一个Avg Pool+Softmax Classifier。需说明,在图7B示出的DenseNet模型中,这3个Dense Block中的Feature-Map的size分别为32×32、16×16、8×8,具体在实际应用中不做限定。针对该DenseNet模型中的Dense Block,具体可以参照图7B示出了的结构图进行理解。如图7B所示,在该Dense Block中共有4层。首先将特征x0输入H1层,以输出特征x1。随后,将特征x0和特征x1输入H2层,以输出特征x2。以此类推,直到前3层的输出均输入到第4层(即H4层)中,以输出得到输出特征x4。或者说,在DenseNet模型中,每个层都会接收其前面所有层的输出作为其输入。由此可知,在DenseNet模型中,每个层都会与前面所有层在channel维度上连接在一起,作为下一层的输入。相比于其它模型,使用DenseNet模型进行训练,可以优化自然集成了多样化深度的特性等。并且缓解了消失梯度问题,增强了特征的传播,鼓励了特征的重用,大大减少了参数的数量。此外,由于每层都有从原始输入直接到损失函数的梯度,实现了隐性的深度监督,有助于训练深层网络。密集连接起到了正则化的效果,减弱了在小规模训练集上的过拟合。
这样,在选取出目标分类器模型后,可以使用测试数据集对该目标分类器模型进行性能评估,以此完成对测试数据集中每个测试数据的分类。具体地,在一些可能的示例中,可以基于目标分类器模型对测试数据集进行预测,得到每个测试样本的类型预测概率,进而基于每个测试样本的类型预测概率确定对应的测试样本的样本类型。
需说明,性能评估的指标可以包括但不限于广告点击率等,本申请不做限定说明。
图8示出了本申请实施例提供的数据处理的方法的另一个流程示意图。如图8所示,该数据处理的方法可以包括如下步骤:首先,获取携带有类型标签的待处理样本,并基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。然后,提取待处理样本的业务数据特征;获取目标对象的对象数据特征,目标对象为应用业务数据时的对象。然后,基于预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征,并对聚合后的数据特征进行归一化处理和离散化处理后,得到待处理的初始数据集。
然后,基于预设聚类算法对少数类正样本进行样本聚类处理,得到K个簇,1≤N≤K、且K为整数。并且,计算每个簇中的每个少数类正样本的K个正类近邻样本,并在K个正类近邻样本中选取N个正类近邻样本;按照预设规则对少数类正样本的特征向量和N个正类近邻样本的特征向量进行特征处理,得到潜在正类样本;计算少数类正样本与每个正类近邻样本之间的距离、以及少数类正样本与潜在正类样本之间的距离。然后,在少数类正样本与每个正类近邻样本之间的距离大于或等于少数类正样本与潜在正类样本之间的距离时,计算潜在正类样本的近邻样本的样本类型。然后,在潜在正类样本的近邻样本的样本类型为正类样本时,将潜在正类样本作为处理后的正样本。反之,在潜在正类样本的近邻样本的样本类型为负类样本时,删除潜在正类样本。接着,将采样后的正样本添加至初始数据集中,得到处理后的数据集。
然后,将每个代价矩阵分别对训练数据集进行加权处理后,得到每个加权后的训练数据集;基于预设决策树算法对每个加权后的训练数据集分别进行模型训练处理,得到各自对应的训练后的分类器模型;基于各个训练后的分类器模型对训练数据集中的样本进行处理,计算基于各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值。然后,从各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值中确定最小值,并将最小值所对应的训练后的分类器模型选取为目标分类器模型。
最后,基于目标分类器模型对测试数据集中的每个测试样本进行预测处理,得到每个测试样本的类型预测概率,并基于每个测试样本的类型预测概率得到对应的测试样本的样本类型。
需说明,上述图8中示出的内容可以参照前述图2以及图5中的内容进行理解,此处不做赘述。
本申请实施例中,在获取包括有少数类正样本的待处理的初始数据集后,通过预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本,并将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集。这样,再基于目标分类器模型对该处理后的数据集中的测试数据集中的每个测试样本进行类型预测处理后,得到每个测试样本的样本类型。通过上述方式,能够解决目前由于购买行为特征较为复杂或者人工识别等方式,导致对购买意愿的目标对象的识别准确度较低的问题,能够适用于跨境电商购买意愿的预测场景中,准确地识别出购买意愿的目标对象,较好地提升广告点击率预测的准确率。例如,图9示出了使用不同的方案识别购买意愿的目标对象的效果对比图。从图9可以看出,相较于目前使用的人工制定识别规则的方式、以及非深度学习的识别方式,在使用本申请实施例提供的数据处理的方法后,在跨境电商购买意愿识别的场景中,能够显著地提升广告点击率和广告转化率。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能,包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本申请中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面对本申请实施例中的数据处理装置进行详细描述,图10为本申请实施例中提供的数据处理装置一个实施例示意图。如图10所示,该数据处理装置可以包括获取单元1001和处理单元1002。
其中,获取单元1001用于获取待处理的初始数据集,待处理的初始数据集包括少数类正样本。
处理单元1002用于:基于预设采样算法对少数类正样本进行样本采样处理后,得到采样后的正样本;将采样后的正样本和初始数据集进行合并处理后,得到处理后的数据集,处理后的数据集为样本类型平衡的数据集,处理后的数据集包括训练数据集和测试数据集;基于目标分类器模型对测试数据集中的每个测试样本进行类型预测处理,得到每个测试样本的样本类型,其中,目标分类器模型是以预测测试数据集中的每个测试样本的样本类型为训练目标,以训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个代价矩阵指示处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
在一些可能的实施方式中,处理单元1002用于:计算每个少数类正样本的N个正类近邻样本,N≥1、且N为整数;按照预设规则对少数类正样本的特征向量和N个正类近邻样本的特征向量进行特征处理,得到潜在正类样本;计算少数类正样本与每个正类近邻样本之间的距离、以及少数类正样本与潜在正类样本之间的距离;在少数类正样本与每个正类近邻样本之间的距离大于或等于少数类正样本与潜在正类样本之间的距离时,计算潜在正类样本的近邻样本的样本类型;在潜在正类样本的近邻样本的样本类型为正类样本时,将潜在正类样本确定为采样后的正样本。
在另一些可能的实施方式中,处理单元1002还用于:在潜在正类样本的近邻样本的样本类型为负类样本时,删除潜在正类样本。
在另一些可能的实施方式中,处理单元1002用于:将采样后的正样本添加至初始数据集中,得到处理后的数据集。
在另一些可能的实施方式中,处理单元1002用于:基于预设聚类算法对少数类正样本进行样本聚类处理,得到K个簇,1≤N≤K、且K为整数;计算每个簇中的每个少数类正样本的K个正类近邻样本;在K个正类近邻样本中选取N个正类近邻样本。
在另一些可能的实施方式中,处理单元1002用于:基于目标分类器模型对测试数据集中的每个测试样本进行预测处理,得到每个测试样本的类型预测概率;基于每个测试样本的类型预测概率得到对应的测试样本的样本类型。
在另一些可能的实施方式中,处理单元1002还用于:将每个代价矩阵分别对训练数据集进行加权处理后,得到每个加权后的训练数据集;基于预设决策树算法对每个加权后的训练数据集分别进行模型训练处理,得到各自对应的训练后的分类器模型;从各自训练后得到的分类器模型中选取目标分类器模型。
在另一些可能的实施方式中,处理单元1002用于:基于各个训练后的分类器模型对训练数据集中的样本进行处理,计算基于各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值;从各个训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值中确定最小值;将最小值所对应的训练后的分类器模型选取为目标分类器模型。
在另一些可能的实施方式中,获取单元1001还用于:获取携带有类型标签的待处理样本。处理单元1002还用于提取待处理样本的业务数据特征。获取单元1001还用于获取目标对象的对象数据特征,目标对象为应用业务数据时的对象。处理单元1002,用于根据预设聚合算法对业务数据特征和对象数据特征进行聚合处理后,得到聚合后的数据特征;对聚合后的数据特征进行归一化处理和离散化处理后,得到待处理的初始数据集。
在另一些可能的实施方式中,处理单元1002还用于:在获取携带有类型标签的待处理样本后,基于预设异常规则对携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
在另一些可能的实施方式中,处理单元1002用于:计算每个携带有类型标签的待处理样本的标准偏差;将每个标准偏差与预设误差区间进行比较;若标准偏差不包含在预设误差区间内时,将不包含在预设误差区间内的标准偏差所对应的携带有类型标签的待处理样本删除,以过滤类型异常的待处理样本。
上面从模块化功能实体的角度对本申请实施例中的数据处理装置进行描述,下面从硬件处理的角度对本申请实施例中的数据处理装置进行描述。图11是本申请实施例提供的数据处理装置的结构示意图。该数据处理装置可因配置或性能不同而产生比较大的差异。该数据处理装置可以至少一个处理器1101,通信线路1107,存储器1103以及至少一个通信接口1104。
处理器1101可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,服务器IC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路1107可包括一通路,在上述组件之间传送信息。
通信接口1104,使用任何收发器一类的装置,用于与其他装置或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器1103可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储装置,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储装置,存储器可以是独立存在,通过通信线路1107与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器1103用于存储执行本申请方案的计算机执行指令,并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的计算机执行指令,从而实现本申请上述实施例提供的数据处理的方法。
可选的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
在具体实现中,作为一种实施例,该计算机设备可以包括多个处理器,例如图11中的处理器1101和处理器1102。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,该计算机设备还可以包括输出设备1105和输入设备1106。输出设备1105和处理器1101通信,可以以多种方式来显示信息。输入设备1106和处理器1101通信,可以以多种方式接收目标对象的输入。例如,输入设备1106可以是鼠标、触摸屏装置或传感装置等。
上述的该计算机设备可以是一个通用装置或者是一个专用装置。在具体实现中,该计算机设备可以是服务器、终端等或有图11中类似结构的装置。本申请实施例不限定该计算机设备的类型。
需说明,图11中的处理器1101可以通过调用存储器1103中存储的计算机执行指令,使得数据处理装置执行如图2、图5或图8对应的方法实施例中的方法。
具体的,图10中的处理单元1002的功能/实现过程可以通过图11中的处理器1101调用存储器1103中存储的计算机执行指令来实现。图10中的获取单元1001的功能/实现过程可以通过图11中的通信接口1104来实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD))等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种数据处理的方法,其特征在于,包括:
获取待处理的初始数据集,所述待处理的初始数据集包括少数类正样本;
基于预设采样算法对所述少数类正样本进行样本采样处理后,得到采样后的正样本;
将所述采样后的正样本和所述初始数据集进行合并处理后,得到处理后的数据集,所述处理后的数据集为样本类型平衡的数据集,所述处理后的数据集包括训练数据集和测试数据集;
基于目标分类器模型对所述测试数据集中的每个测试样本进行类型预测处理,得到每个所述测试样本的样本类型,其中,所述目标分类器模型是以预测所述测试数据集中的每个测试样本的样本类型为训练目标,以所述训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个所述代价矩阵指示所述处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
2.根据权利要求1所述的方法,其特征在于,所述基于预设采样算法对所述少数类样本进行样本采样处理后,得到采样后的正样本,包括:
计算每个所述少数类正样本的N个正类近邻样本,N≥1、且N为整数;
按照预设规则对所述少数类正样本的特征向量和所述N个正类近邻样本的特征向量进行特征处理,得到潜在正类样本;
计算所述少数类正样本与每个所述正类近邻样本之间的距离、以及所述少数类正样本与所述潜在正类样本之间的距离;
在所述少数类正样本与每个所述正类近邻样本之间的距离大于或等于所述少数类正样本与所述潜在正类样本之间的距离时,计算所述潜在正类样本的近邻样本的样本类型;
在所述潜在正类样本的近邻样本的样本类型为正类样本时,将所述潜在正类样本作为所述处理后的正样本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述潜在正类样本的近邻样本的样本类型为负类样本时,删除所述潜在正类样本。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述采样后的正样本和所述初始数据集进行合并处理后,得到处理后的数据集,包括:
将所述采样后的正样本添加至所述初始数据集中,得到处理后的数据集。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算每个所述少数类正样本的N个正类近邻样本,包括:
基于预设聚类算法对所述少数类正样本进行样本聚类处理,得到K个簇,1≤N≤K、且K为整数;
计算每个所述簇中的每个所述少数类正样本的K个正类近邻样本;
在所述K个正类近邻样本中选取N个正类近邻样本。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述目标分类器模型对所述测试数据集中的每个测试样本进行类型预测处理,得到每个所述测试样本的样本类型,包括:
基于所述目标分类器模型对所述测试数据集中的每个所述测试样本进行预测处理,得到每个所述测试样本的类型预测概率;
基于每个所述测试样本的类型预测概率得到对应的所述测试样本的样本类型。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
将每个所述代价矩阵分别对所述训练数据集进行加权处理后,得到每个加权后的训练数据集;
基于预设决策树算法对所述每个加权后的训练数据集分别进行模型训练处理,得到各自对应的训练后的分类器模型;
从所述各自训练后得到的分类器模型中选取所述目标分类器模型。
8.根据权利要求7所述的方法,其特征在于,所述从所述各自训练后得到的分类器模型中选取所述目标分类器模型,包括:
基于各个所述训练后的分类器模型对所述训练数据集中的样本进行处理,计算基于各个所述训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值;
从所述各个所述训练后的分类器模型成功检测到误分类的样本数与总误分类的样本数之间的比值中确定最小值;
将所述最小值所对应的训练后的分类器模型选取为所述目标分类器模型。
9.根据权利要求1所述的方法,其特征在于,所述获取待处理的初始数据集,包括:
获取携带有类型标签的待处理样本;
提取所述待处理样本的业务数据特征;
获取目标对象的对象数据特征,所述目标对象为应用所述业务数据时的对象;
基于预设聚合算法对所述业务数据特征和所述对象数据特征进行聚合处理后,得到聚合后的数据特征;
对所述聚合后的数据特征进行归一化处理和离散化处理后,得到所述待处理的初始数据集。
10.根据权利要求9所述的方法,其特征在于,在获取携带有类型标签的待处理样本后,所述方法还包括:
基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本。
11.根据权利要求10所述的方法,其特征在于,所述基于预设异常规则对所述携带有类型标签的待处理样本进行异常处理,以过滤类型异常的待处理样本,包括:
计算每个所述携带有类型标签的待处理样本的标准偏差;
将每个所述标准偏差与预设误差区间进行比较;
若所述标准偏差不包含在所述预设误差区间内时,将不包含在所述预设误差区间内的标准偏差所对应的携带有所述类型标签的待处理样本删除,以过滤类型异常的待处理样本。
12.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理的初始数据集,所述待处理的初始数据集包括少数类正样本;
处理单元,用于根据采样算法对所述少数类正样本进行样本采样处理后,得到采样后的正样本;
所述处理单元,用于将所述采样后的正样本和所述初始数据集进行合并处理后,得到处理后的数据集,所述处理后的数据集为样本类型平衡的数据集,所述处理后的数据集包括训练数据集和测试数据集;
所述处理单元,用于基于目标分类器模型对所述测试数据集中的每个测试样本进行类型预测处理,得到每个所述测试样本的样本类型,其中,所述目标分类器模型是以预测所述测试数据集中的每个测试样本的样本类型为训练目标,以所述训练数据集和代价矩阵集中的每个代价矩阵作为训练样本进行训练后得到的分类器模型,每个所述代价矩阵指示所述处理后的数据集中多数类正样本和多数类负样本错误分类带来的损失。
13.一种数据处理装置,其特征在于,所述数据处理装置包括:输入/输出(I/O)接口、处理器和存储器,
所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1至11中任一所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至11中任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210289936.5A CN116861226A (zh) | 2022-03-23 | 2022-03-23 | 一种数据处理的方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210289936.5A CN116861226A (zh) | 2022-03-23 | 2022-03-23 | 一种数据处理的方法以及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861226A true CN116861226A (zh) | 2023-10-10 |
Family
ID=88220287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210289936.5A Pending CN116861226A (zh) | 2022-03-23 | 2022-03-23 | 一种数据处理的方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474165A (zh) * | 2023-11-03 | 2024-01-30 | 太原向明智控科技有限公司 | 一种基于支持向量机的矿压预测方法 |
-
2022
- 2022-03-23 CN CN202210289936.5A patent/CN116861226A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474165A (zh) * | 2023-11-03 | 2024-01-30 | 太原向明智控科技有限公司 | 一种基于支持向量机的矿压预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
CN108009643A (zh) | 一种机器学习算法自动选择方法和系统 | |
EP4322031A1 (en) | Recommendation method, recommendation model training method, and related product | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN107077489A (zh) | 用于多维数据的自动洞察 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN114692007A (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
JP7288062B2 (ja) | 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN116541792A (zh) | 一种基于图神经网络节点分类进行团伙识别的方法 | |
WO2023051085A1 (zh) | 对象识别方法、装置、设备、存储介质和程序产品 | |
CN116955788A (zh) | 一种内容处理的方法、装置、设备、存储介质及程序产品 | |
CN113689234B (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
Xue et al. | Tsc-gcn: A face clustering method based on gcn | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network | |
CN110837894A (zh) | 一种特征处理方法、装置及存储介质 | |
CN114418752B (zh) | 无类型标签用户数据的处理方法、装置、电子设备和介质 | |
CN116881759A (zh) | 一种样本分类的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |