CN117195014A - 数据处理方法、装置、设备、存储介质及产品 - Google Patents

数据处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN117195014A
CN117195014A CN202311106042.9A CN202311106042A CN117195014A CN 117195014 A CN117195014 A CN 117195014A CN 202311106042 A CN202311106042 A CN 202311106042A CN 117195014 A CN117195014 A CN 117195014A
Authority
CN
China
Prior art keywords
sample behavior
sample
behavior record
target
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311106042.9A
Other languages
English (en)
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311106042.9A priority Critical patent/CN117195014A/zh
Publication of CN117195014A publication Critical patent/CN117195014A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、存储介质,属于人工智能技术领域。该方法根据小类别对应的样本行为记录集中的样本行为记录进行聚类,使用聚类结果作为新的样本行为记录,增加小类别对应的样本行为记录的占比,减弱类别上的数据不平衡现象。聚类使用的信息来源于小类别对应的样本行为记录,减少了噪声的引入,保证了新增的样本行为记录的质量。聚类的过程中考虑到了时效因素,对于近期的样本行为记录可以生成较多的样本行为记录,以远期的样本行为记录为基础生成较少的样本行为记录。这样就使得最终得到的目标数据更关注近期行为,携带更充分的近期行为信息,这样可以使得其更为适应小类别行为的变化多、对抗性强、时间敏感等特点。

Description

数据处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种数据处理方法、装置、设备、存储介质及产品。
背景技术
相关技术中的很多应用可以基于与其相关的模型为用户提供各种各样的服务,模型提供服务的能力很大程度上与训练该模型时所使用的样本数据的质量有关,很多时候模型使用的数据都是行为数据。如果样本数据是覆盖不同行为类别的行为数据,则训练出的模型具备对不同类别的行为的识别能力。
但是,如果样本数据的来源是明显的不平衡数据,该不平衡数据中特殊类别占比很小,并且模型的分类目的也是要识别出该特殊类别,这种情况下,样本数据很可能也会具备强不平衡性,但是数据的不平衡会影响模型的分类能力的训练效果,降低该模型识别该特殊类别的能力。
目前相关技术并不能很好地解决数据的不平衡性对模型训练所带来的不良影响。举个例子,如果原始的行为数据具备明显的不平衡性,基于该原始的行为数据生成的样本数据的质量也较为一般,基于这种样本数据训练出的模型的分类能力上限也就相对较低,尤其是上述提及的识别特殊类别的能力也会受到不良影响。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备、存储介质及产品,能够显著提升样本数据的质量,具体来说,能够在减少噪声以及充分考虑到样本的时效因素的前提下削弱样本数据的类别不平衡现象,从而可以提升基于样本数据进行训练所得到的分类模型的模型质量。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述方法包括:
获取目标类别对应的样本行为记录集,所述样本行为记录集包括多个样本行为记录,每一所述样本行为记录包括对应的样本行为记录的生成时间,所述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
获取第一样本行为记录,所述第一样本行为记录为所述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据所述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,所述第一目标数量指示基于所述第一样本行为记录进行聚类所得到的类簇大小,所述第一目标数量与所述第一时间差值反相关;
根据所述第一目标数量,在所述目标类别对应的样本行为记录集中确定所述第一样本行为记录对应的第一类簇;
将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,所述第一衍生样本行为记录的数量与所述第一目标数量正相关;
基于所述目标类别对应的样本行为记录集和各个所述第一衍生样本行为记录,得到目标数据,所述目标数据为所述目标类别对应的样本数据。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述装置包括:
数据采样模块,用于获取目标类别对应的样本行为记录集,所述样本行为记录集包括多个样本行为记录,每一所述样本行为记录包括对应的样本行为记录的生成时间,所述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
数据处理模块,用于执行下述操作:
获取第一样本行为记录,所述第一样本行为记录为所述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据所述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,所述第一目标数量指示基于所述第一样本行为记录进行聚类所得到的类簇大小,所述第一目标数量与所述第一时间差值反相关;
根据所述第一目标数量,在所述目标类别对应的样本行为记录集中确定所述第一样本行为记录对应的第一类簇;
将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,所述第一衍生样本行为记录的数量与所述第一目标数量正相关;
基于所述目标类别对应的样本行为记录集和各个所述第一衍生样本行为记录,得到目标数据,所述目标数据为所述目标类别对应的样本数据。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述数据处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
本申请实施例提供一种数据处理方法,该数据处理方法可以根据小类别对应的样本行为记录集中的样本行为记录进行聚类,使用聚类结果作为新的样本行为记录,从而填充小类别对应的样本行为记录的数量,增加小类别对应的样本行为记录的占比,从而减弱类别上的数据不平衡现象,提升总体样本质量,所谓的总体样本指的就是各类别分别对应的样本数据的群体。小类别对应的样本数据原本的占比较小,通过本申请实施例提供的方法增大其对应的占比,从而使得总体样本质量提升,这样基于该总体样本进行的数据分析或者建模都可以取得更好的效果。尤其是基于该总体样本进行训练得到的分类模型可以具备更好的分类能力,尤其是针对小类别的识别能力可以显著提高。
另一方面,本申请提出的基于聚类增加样本行为记录的方式有下述两个显著优点:
第一,聚类使用的信息都来源于小类别对应的样本行为记录集中的样本行为记录,这样减少了噪声的引入,基于聚类结果得到的新的样本行为记录的质量并不会显著低于原始的小类别对应的样本行为记录的质量,保证了新增的样本行为记录的质量。
第二,聚类的过程中考虑到了时效因素,对于近期的样本行为记录可以生成较多的聚类结果,即以近期的样本行为记录为基础可以得到较多的新的样本行为记录。同样道理,以远期的样本行为记录为基础可以得到较少的新的样本行为记录。这样就使得最终得到的目标数据更为关注近期行为,从而携带更为充分的近期行为信息,这样可以使得其更为适应小类别行为的变化多、对抗性强、时间敏感等特点,基于这样的目标数据训练得到的分类模型对于近期的目标类型的行为有更好的识别能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方法相关的应用程序运行环境的示意图;
图2是本申请一个实施例提供的数据处理方法的流程图;
图3是本申请一个实施例提供的示例性聚类方法流程示意图;
图4是本申请一个实施例提供的一种融合方法流程示意图;
图5是本申请一个实施例提供的另外一种融合方法流程示意图;
图6是本申请一个实施例提供的欺诈场景下的数据处理方法流程示意图;
图7是本申请一个实施例提供的数据处理装置的框图;
图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
Transformer:是一种神经网络,它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。
b ias指标(也称为偏见指标)是在机器学习、深度学习和数据挖掘领域,用来衡量算法准确性的一类指标。Bias指标包括准确率、补充准确率,精确率,召回率等等。
支付软件:用于为用户提供支付服务的软件,比如,可以为用户提供好友转账、好友红包、面对面扫码转账等支付服务。
SMOTE算法,即Synthetic Minority Oversampling Technique,合成少数类过采样技术,这是一种过采样的方法。它是对随机采样方法的一种改进,在随机过采样中,虽然可以使样本集变得均衡,但会带来一些问题,比如,过采样对少数类样本进行了多次复制,扩大了数据规模,这可能会导致机器学习模型训练时增加了模型训练的复杂度,同时也很容易造成过拟合。通常在过采样时并不是简单地复制样本,而是采用一些方法生成新的样本。例如,使用SMOTE算法可以降低过拟合的风险。
SMOTE算法可以被理解为基于特征空间的一种过采样方法,基于少数类样本及其最近邻样本合成新特征,然后组成新样本。SMOTE通过人工合成样本缓解了由随机复制样本引起的过拟合,并在许多领域得到了广泛应用,但同时也存在一些问题。由SMOTE算法可知,新样本的合成取决于根样本与辅助样本的选择。
不平衡数据:指的是各个类拥有的样本数量之间存在较大差异的数据。
在具体阐述本申请实施例之前,对与本申请实施例有关的相关技术背景进行介绍,以便于本申请领域技术人员理解。
相关技术中的很多应用可以基于与其相关的模型为用户提供各种各样的服务,模型提供服务的能力很大程度上与训练该模型时所使用的样本数据的质量有关,很多时候模型使用的数据都是行为数据。通过为分类模型提供可以覆盖不同类别的样本数据可以训练该模型的分类能力,模型分类能力是模型提供相关服务的基础能力。比如,如果样本数据是覆盖不同行为类别的行为数据,则训练出的模型具备对不同类别的行为的识别能力。
但是,样本数据的质量有可能会受到很多客观因素的影响而难以提升。比如,如果样本数据的来源是明显的不平衡数据,该不平衡数据中特殊类别占比很小,并且模型的分类目的也是要识别出该特殊类别,这种情况下,样本数据很可能也会具备强不平衡性,但是样本数据的不平衡会影响模型的分类能力的训练效果,降低该模型识别该特殊类别的能力。
举个例子,样本数据包括正常行为对应的样本行为数据,以及特殊行为对应的样本行为数据,正常行为明显发生概率更高,在真实场景中数据量明显更大,这种情况下样本数据的来源就具备明显的不平衡性,相应的,正常行为对应的样本行为数据,以及特殊行为对应的样本行为数据各自的占比也差距显著,因此,样本数据也有很强的不平衡性,基于这种样本数据训练出来的模型识别该特殊行为的能力也会较弱。
本申请实施例中将这种用于识别特殊类别的模型称为小类别识别模型,相关技术中小类别识别模型的训练和应用都是十分广泛的。比如,其在欺诈识别、信贷风险、医疗诊断、入侵检测等领域都有着广泛应用。
为了提升小类别识别模型的分类能力,可以对真实的不平衡数据进行过抽样或者欠抽样处理,所谓过抽样,就是添加或者复制样本,所谓欠抽样,就是减少样本,二者的目的都是为了使得得到的用于训练小类别识别模型所需的样本数据中达到正样本和负样本的数量的基本平衡,或者说降低不平衡性,从而提升样本数据质量,提升最终训练得到的小类别识别模型的分类能力。举个例子,正样本可以指正常行为对应的样本行为数据,负样本可以指特殊行为对应的样本行为数据,正样本和负样本数量差异越小,不平衡所带来的对模型训练效果的伤害肯定是越少的。
但是,相关技术中传统的过抽样和欠抽样方法都是简单地改变真实数据中不同类别下的数据的分布,以消除或减少数据不平衡现象,然而,上述方法往往会引入噪声,或者丢失一些重要信息,影响了模型最终的小类别识别能力。这种弊端在小类别行为的识别场景中尤其突出。
很多场景下的小类别行为都具备变化多、对抗性强、时间敏感等特点,也就是说,随着时间的推移可能会有更多的行为被纳入该特殊类别之中,或者有些行为不再属于该特殊类别,换言之,小类别行为的行为特征本身就变化快、隐蔽性强,因此近期的小类别行为相较于时间稍远的小类别行为对于小类别行为识别模型的训练而言更有价值。
相关技术中仅仅考虑通过简单的过抽样和欠抽样改变样本数据相对于真实数据在不同类别下的数据分布占比,这样做不仅引入了噪声降低了样本数据的质量,而且因为没有考虑到行为数据的时效性,损失了重要信息,使得样本数据的信息不合理,也影响了样本数据的质量,最终制约了小类别模型识别能力,影响了对特殊类别的行为的识别准确度。
综上可知,相关技术中基于不平衡的真实数据得到目标数据的能力是欠缺的,目标数据的数据质量也是较低的,该目标数据可以是通过对真实数据进行采样和处理所得到的小类别对应的样本数据,该样本数据可以用于进行后续的数据分析,也可以用于训练小类别识别模型。有鉴于此,本申请实施例提供一种数据处理方法,该数据处理方法可以根据小类别对应的样本行为记录集中的样本行为记录进行聚类,使用聚类结果作为新的样本行为记录,从而填充小类别对应的样本行为记录的数量,增加小类别对应的样本行为记录的占比,从而减弱类别上的数据不平衡现象,提升总体样本质量,所谓的总体样本指的就是各类别分别对应的样本数据的群体。小类别对应的样本数据原本的占比较小,通过本申请实施例提供的方法增大其对应的占比,从而使得总体样本质量提升,这样基于该总体样本进行的数据分析或者建模都可以取得更好的效果。尤其是基于该总体样本进行训练得到的分类模型可以具备更好的分类能力,尤其是针对小类别的识别能力可以显著提高。
另一方面,本申请提出的基于聚类增加样本行为记录的方式有下述两个显著优点:
第一,聚类使用的信息都来源于小类别对应的样本行为记录集中的样本行为记录,这样减少了噪声的引入,基于聚类结果得到的新的样本行为记录的质量并不会显著低于原始的小类别对应的样本行为记录的质量,保证了新增的样本行为记录的质量。
第二,聚类的过程中考虑到了时效因素,对于近期的样本行为记录可以生成较多的聚类结果,即以近期的样本行为记录为基础可以得到较多的新的样本行为记录。同样道理,以远期的样本行为记录为基础可以得到较少的新的样本行为记录。这样就使得最终得到的目标数据更为关注近期行为,从而携带更为充分的近期行为信息,这样可以使得其更为适应小类别行为的变化多、对抗性强、时间敏感等特点,基于这样的目标数据训练得到的分类模型对于近期的小类型的行为有更好的识别能力。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式做进一步的详细描述。
请参考图1,其示出了本申请一个实施例提供的方法相关的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供数据处理服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供依赖数据处理的其他服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个实施例提供的数据处理方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
S201.获取目标类别对应的样本行为记录集,上述样本行为记录集包括多个样本行为记录,每一上述样本行为记录包括对应的样本行为记录的生成时间,上述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量。
本申请实施例中的样本行为记录集对应的可以是真实的行为记录。上述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量,的含义是,真实的行为记录中,属于预设类别的行为的数量远远大于属于目标类别的行为的数量。这充分说明,该目标类别相对于预设类别来说是小类别,小类别对应的行为的发生概率是较低的,因此,小类别对应的真实的行为记录的数量也是甚少的,小类别与预设类别分别对应的真实的行为记录的数量差距很大,因此存在明显的不平衡现象。本申请并不对预设类别进行限定,其可以是不同于小类别的正常类别。
举个例子,支付软件的应用过程中可能出现社交支付欺诈场景,社交支付欺诈行为就属于小类别对应的行为,该行为异常且出现概率较低,而非社交支付欺诈行为,也就是正常支付行为是大概率行为,这就是正常类别对应的行为。因此,在社交支付欺诈的识别场景中,可以将社交支付欺诈行为对应的类别作为目标类别,而正常支付行为对应的类别作为预设类别。
S202.获取第一样本行为记录,上述第一样本行为记录为上述目标类别对应的样本行为记录集中任意一个样本行为记录。
本申请实施例的目的在于基于目标类别对应的样本行为记录集扩充目标类别下的样本的数量,因此,可以以目标类别对应的样本行为记录集中的任意一个样本行为记录为基础,得到对应的衍生样本行为记录,从而扩充目标类别下的样本数量。也就是说,对于上述目标类别对应的样本行为记录集中任意一个样本行为记录都可以得到其对应的衍生样本行为记录。本申请实施例以第一样本行为记录为例详述其衍生样本行为记录的生成方式。
S203.根据上述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,上述第一目标数量指示基于上述第一样本行为记录进行聚类所得到的类簇大小,上述第一目标数量与上述第一时间差值反相关。
本申请实施例提出在生成衍生样本行为记录的时候应当关注时效因素,也就是说,对于近期的样本行为记录应该生成较多的衍生样本行为记录,对于远期的样本行为记录应该生成较少的衍生样本行为记录,从而使得最终得到的目标数据可以包含近期行为的更多信息。
本申请实施例中,第一样本行为记录对应的衍生样本行为记录的数量与第一目标数量正相关,因此,上述第一目标数量与上述第一时间差值反相关,即第一样本行为记录对应的衍生样本行为记录的数量,与上述第一样本行为记录的生成时间与当前时间之间的第一时间差值反相关。第一样本行为记录越是近期,第一时间差值越小,第一目标数量越大,第一样本行为记录对应的衍生样本行为记录的数量越多。当然,本申请实施例并不限定反相关的具体公式,只要满足反相关即可。
在一个实施例中,可以获取预设参量,上述预设参量用于调整类别整体所对应的总体样本中上述目标数据的占比;根据上述预设参量和上述第一时间差值的比值,确定上述第一目标数量。上述目标数据为上述目标类别对应的样本数据,其包括目标类别对应的样本行为记录集,以及本申请实施例生成的各衍生样本行为记录。
举个例子,第一时间差值可以通过Δi表示,Δi为计算第一样本行为记录xi生成日期datei与当前日期datenow的天数间隔,i表示的是第一样本行为记录在目标类别对应的样本行为记录集的序号。第一目标数量可以使用mi表示,mi=α*m/Δi,其中,α表示预设参量,同时,可以根据实际业务场景需要,通过超参数α动态调整生成的目标类别对应的样本总数的占比,由此一来,在为不平衡数据生成样本的过程中,改善了最终得到的总体样本的分布性能,也由此提升了对不平衡数据的分类性能。m是一个固定的常数,可以根据实际情况进行设定,比如,可以设置为6。
假设Δi为60天,超参数设置α设置为50,本申请实施例就确定第一样本行为记录xi附近的50*6/60=5个其他样本行为记录,来生成包括5个元素的类簇。假设Δi为30天,超参数设置α设置为50,本申请实施例就确定第一样本行为记录xi附近的50*6/30=10个其他样本行为记录,来生成包括10个元素的类簇。当然,这些所谓的其他样本行为记录都来自于目标类别对应的样本行为记录集。
S204.根据上述第一目标数量,在上述目标类别对应的样本行为记录集中确定上述第一样本行为记录对应的第一类簇。
本申请实施例并不限定根据上述第一目标数量,在上述样本行为记录集中确定上述第一样本行为记录对应的第一类簇的具体方法,只要满足下述两个条件即可:聚类的数据源是目标类别对应的样本行为记录集,第一类簇中的元素数量是第一目标数量。
请参考图3,其示出本申请实施例中的示例性聚类方法流程示意图,该方法包括:
S301.计算各第二样本行为记录分别与上述第一样本行为记录之间的信息距离,上述第二样本行为记录为上述目标类别对应的样本行为记录集中不同于上述第一样本行为记录的其他样本行为记录;
信息距离的计算方法也可以使用相似度计算进行替代,本申请实施例并不限定信息距离的计算方法,比如可以使用余弦距离、切比雪夫距离等。在一个实施例中,可以对第二样本行为记录和第一样本行为记录分别进行特征提取,将特征空间内的特征距离作为信息距离。在一个实施例中可以定义一种适合本申请的场景并且引入噪声更小的信息距离确定方法,具体来说,该信息距离di,j可以通过下述公式计算:其中K表示特征空间维度,/>和/>分别表示第一样本行为记录和第二样本行为记录分别对应的特征提取结果在k维度的分量,Sk表示第k维特征下的基于各第二样本行为记录与该第一样本行为记录得到的标准差。
S302.按照信息距离升序的顺序对各上述第二样本行为记录进行排序,得到排序结果;将上述排序结果中的前上述第一目标数量个样本行为记录所形成的簇,作为上述第一类簇。
也就是说,通过计算信息距离可以选取距离该第一样本行为记录最近的第一目标数量个的第二样本行为记录,构成第一类簇。第一类簇的生成目的是为了进行后续的信息融合,选择距离近的数据进行信息融合可以最小限度的降低噪声,提升最终得到的目标数据质量。
S205.将上述第一类簇内的样本行为记录与上述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,上述第一衍生样本行为记录的数量与上述第一目标数量正相关:
衍生样本行为记录的数量与第一目标数量正相关即可,本申请实施例并不对其做过多限定,并不影响本申请实施例的实施。
在一个实施例中,请参考图4,其示出一种融合方法流程示意图,该方法包括:
S401.针对上述第一类簇内的每个第二样本行为记录,计算上述第一样本行为记录与上述第一样本行为记录之间的信息差值;
本申请实施例并不限定信息差值的计算方法,比如,可以对第二样本行为记录和第一样本行为记录分别进行特征提取,将特征空间内的各个维度下的特征差值形成的集合作为该信息差值。即该信息差值包括各维度下的特征差值。当然,本申请实施例并不对特征提取的具体方法进行限定,其并不构成本申请实施例的实施限制。
S402.对上述信息差值进行随机扰动,得到信息增量值;
通过增加随机扰动可以引入更多的随机信息,增加最终生成的不同的衍生样本行为记录的数据多样性。本申请并不对随机扰动的方法进行限定,比如,可以使用随机函数来rand(0,1)来生成随机数,随机数与信息差值的乘积即可作为信息增量值。
S403.对上述信息增量值与上述第一样本行为记录进行融合,得到对应的上述第一衍生样本行为记录。
本申请实施例并不对融合方法进行限定,比如,可以加权相加、直接相加或者卷积等,当然,如果是加权相加对权值不做限定。在一个实施方式中,可以通过xmid=xi+rand(0,1)*(xj-xi)计算第一衍生样本行为记录xmid,xi和xj分别表示第一样本行为记录和第二样本行为记录。步骤S401-S403生成的第一衍生样本行为记录的总数即为上述第一目标数量。
在一个实施例中,请参考图5,其示出另外一种融合方法流程示意图,该方法包括:
S501.针对上述第一类簇内的预设数量个不同的第二样本行为记录,对上述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录;
具体来说,可以对上述预设数量个不同的第二样本行为记录中每一维度的特征信息执行加权相加操作,得到上述融合行为记录,上述第二样本行为记录对应的权值与上述第二样本行为记录与上述第一样本行为记录之间的信息距离反相关。本申请只限定反相关即可,并不限定反相关具体的实现方式。这一设定的目的在于距离第一样本行为记录越远的第二样本行为记录,对融合行为记录的影响就越小,这就使得融合行为记录更加关注与第一样本行为记录更相似的样本行为记录,从而使得融合过程引入更少的噪声。当然,对该预设数量的具体数值不做限定,合理即可。
S502.对上述融合行为记录和上述第一样本行为记录进行加权融合,得到上述第一衍生样本行为记录,上述融合行为记录的权重小于上述第一样本行为记录的权重。
本申请实施例并不对融合方法进行限定,比如,可以加权相加,当然,对权值不做限定,只要上述融合行为记录的权重小于上述第一样本行为记录的权重即可。
其实,本申请实施例中所提出的得到第一衍生样本行为记录的方法可以被理解为一种基于改进的SMOTE算法,在不平衡数据中,引入时间影响参数Δi,可以加大近期少数类样本的衍生样本生成的比例,重点关注近期少数类样本及与其相似样本,同时少量扩充远期少数类样本的衍生样本,在重点考虑覆盖近期少数类样本特征情况下,提升最终得到的少数类别下的样本总量,从而提升样本总体质量,加强基于这类样本总体训练得到的分类模型的鲁棒性。本申请实施例并不对分类模型进行限定,其可以基于机器学习、深度学习等方法训练,其结构可以基于各种神经网络,比如Transformer构建。
S206.基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,上述目标数据为上述目标类别对应的样本数据。
目标类别是小类别,其所对应的样本行为记录集数据量很少,再加上各个上述第一衍生样本行为记录,这就使得上述目标类别对应的样本数据显著增多,从而降低了数据不平衡现象。
在一个实施方式中,上述方法还包括:获取第三样本行为记录,上述第三样本行为记录为上述目标类别对应的样本行为记录集中,除去第一样本行为记录以外的任意一个样本行为记录;根据上述第三样本行为记录的生成时间与当前时间之间的第二时间差值,确定第二目标数量,上述第二目标数量指示基于上述第三样本行为记录进行聚类所得到的类簇大小,上述第二目标数量与上述第二时间差值反相关;根据上述第二目标数量,在上述目标类别对应的样本上述确定上述上述第三样本行为记录对应的第二类簇;将上述第二类簇内的样本行为记录与上述第三样本行为记录进行融合,得到多个第二衍生样本行为记录。基于第三样本行为记录生成各第二衍生样本行为记录的发明构思,与前述的,基于第一样本行为记录生成各第一衍生样本行为记录的发明构思相同,在此不做赘言。
上述基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,包括:基于上述样本行为记录集、各个上述第一衍生样本行为记录以及各个上述第二衍生样本行为记录,得到上述目标数据。上述目标类别对应的样本行为记录集的各个样本行为记录都可以生成一些对应的衍生样本行为记录,从而填充到目标数据中,丰富小类别对应的样本数据体量,减少不平衡现象。
完备的类别不仅包括小类别(目标类别)所对应的样本数据(目标数据),还包括非小类别所对应的样本数据。本申请实施例还可以对预设类别对应的样本行为记录集进行采样,得到上述预设类别对应的样本数据,上述预设类别为不同于上述目标类别的其他类别;该预设类别即为非小类别。根据上述目标数据与上述预设类别对应的样本数据,训练分类模型。其中,上述目标数据与上述预设类别分别对应的样本数据的数量差值小于第一预设阈值。本申请实施例并不对第一预设阈值的具体数据进行限定,可以根据实际情况进行设定。上述目标数据与上述预设类别分别对应的样本数据的数量差值小于第一预设阈值的含义是,上述目标数据与上述预设类别对应的样本数据的样本行为记录的数量差距不大,不平衡性较弱甚至消失,用这样的数据训练分类模型,可以提升分类模型的性能,比如提升bias表现。
在一个应用场景中,上述目标类别为异常行为类别,上述预设类别为正常行为类别,上述预设类别对应的样本行为记录集中的样本行为记录的数量,与上述目标类别对应的样本行为记录集中的样本行为记录的数量的差值大于第二预设阈值。本申请实施例并不对第二预设阈值的具体数据进行限定,可以根据实际情况进行设定。上述预设类别对应的样本行为记录集中的样本行为记录的数量,与上述目标类别对应的样本行为记录集中的样本行为记录的数量的差值大于第二预设阈值的含义是,上述目标数据与上述预设类别对应的初始数据量差异较大,存在显著的不平衡现象,通过本申请实施例提供的数据处理方法最终得到的上述目标数据与上述预设类别对应的样本数据的样本行为记录的数量差距不大,不平衡性较弱甚至消失,从而体现了本申请实施例在消除不平衡现象上的独特优势。
以社交支付欺诈场景为例,支付欺诈行为较少,其对应的类别是小类别,这就会产生数据不平衡问题,相关技术通过传统的过抽样或者欠抽样方法虽然部分克服了不平衡问题,但是明显影响到分类模型的最终的支付欺诈识别性能,这种场景可以使用本申请提供的数据处理方法。本申请提供的数据处理方法基于改进的SMOTE算法,在不平衡数据中查找到负样本(支付欺诈行为对应的样本),首先计算每个社交支付欺诈样本的作案日期与当前日期的时间间隔Δi,在考虑衍生样本生成时,引入时间衰减参数α*m/Δi,即第一目标数量,由此一来,在为克服不平衡现象创建衍生样本的过程中,产生的新样本会向近期作案特征样本偏移,从而可以让分类模型重点关注近期欺诈样本,改善了新数据集的分布性能,也由此提升了分类模型对社交欺诈场景下不平衡数据的分类性能。
请参考图6,其示出欺诈场景下的数据处理方法流程示意图,该方法以其中一个欺诈样本xi为例,详述过程如下:
在S601中,在欺诈样本构成的真实数据集合中,计算每个欺诈样本点与当前日期的天数间隔Δi
在S602中,计算剩余所有欺诈样本(x1,...xi-1,xi+1,...xn)与当前样本xi距离,选取距离该样本点最近的mi=α*m/Δi个欺诈样本。
这个步骤中可以基于来计算不同欺诈样本之间的距离,其中K表示样本特征空间维度,Sk表示第k维特征的标准差,这样可以避免传统SMOTE通过K近邻来抽取最近样本,容易受不同特征样本量纲可能不同影响造成的不足;
在S603中,通过xmid=xi+rand(0,1)*(xj-xi)生成对应的衍生样本,分别在样本点xi与上述选取的mi个负样本点中随机生成样本,累计生成mi个衍生样本;
在S604中,根据衍生样本和真实数据集合共同得到欺诈类别对应的样本数据。
社交欺诈场景作案手法多变,黑产对抗性强,在利用机器学习建模抽取样本时,存在欺诈样本太少,模型正负样本不均衡的问题,通过上述方式对负样本的数量进行扩充,得到丰富的欺诈类别对应的样本数据,并且该欺诈类别对应的样本数据优先扩充了近期样本的相似特征,同时加入部分历史欺诈样本特征,这样可以使得机器学习建模出来的分类模型更具有鲁棒性。目前,该技术方案已经应用于线上社交欺诈风险控制,增加了社交支付欺诈交易控制的精准率,在增加支付欺诈风险案例控制覆盖的同时,降低了对正常用户交易的误控制,保证了正常用户的交易体验。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图7,其示出了本申请一个实施例提供的数据处理装置的框图。该装置具有实现上述数据处理方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
数据采样模块701,用于获取目标类别对应的样本行为记录集,上述样本行为记录集包括多个样本行为记录,每一上述样本行为记录包括对应的样本行为记录的生成时间,上述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
数据处理模块702,用于执行下述操作:
获取第一样本行为记录,上述第一样本行为记录为上述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据上述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,上述第一目标数量指示基于上述第一样本行为记录进行聚上述簇大小,上述第一目标数量与上述第一时间差值反相关;
根据上述第一目标数量,在上述目标类别对应的样本行为记录集中确定上述上述第一样本行为记录对应的第一类簇;
将上述第一类簇内的样本行为记录与上述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,上述第一衍生样本行为记录的数量与上述第一目标数量正相关;
基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,上述目标数据为上述目标类别对应的样本数据。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
获取预设参量,上述预设参量用于调整类别整体所对应的总体样本中上述目标数据的占比;
根据上述预设参量和上述第一时间差值的比值,确定上述第一目标数量。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
计算各第二样本行为记录分别与上述第一样本行为记录之间的信息距离,上述第二样本行为记录为上述目标类别对应的样本行为记录集中不同于上述第一样本行为记录的其他样本行为记录;
按照信息距离升序的顺序对各上述第二样本行为记录进行排序,得到排序结果;
将上述排序结果中的前上述第一目标数量个样本行为记录所形成的簇,作为上述第一类簇。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
针对上述第一类簇内的每个第二样本行为记录,计算上述第一样本行为记录与上述第一样本行为记录之间的信息差值;对上述信息差值进行随机扰动,得到信息增量值;对上述信息增量值与上述第一样本行为记录进行融合,得到对应的上述第一衍生样本行为记录。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
针对上述第一类簇内的预设数量个不同的第二样本行为记录,对上述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录;对上述融合行为记录和上述第一样本行为记录进行加权融合,得到上述第一衍生样本行为记录,上述融合行为记录的权重小于上述第一样本行为记录的权重。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
对上述预设数量个不同的第二样本行为记录中每一维度的特征信息执行加权相加操作,得到上述融合行为记录,上述第二样本行为记录对应的权值与上述第二样本行为记录与上述第一样本行为记录之间的信息距离反相关。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
对预设类别对应的样本行为记录集进行采样,得到上述预设类别对应的样本数据,上述预设类别为不同于上述目标类别的其他类别;
根据上述目标数据与上述预设类别对应的样本数据,训练分类模型;
其中,上述目标数据与上述预设类别分别对应的样本数据的数量差值小于第一预设阈值。
在一个实施例中,上述数据处理模块702,用于执行下述操作:
获取第三样本行为记录,上述第三样本行为记录为上述目标类别对应的样本行为记录集中,除去第一样本行为记录以外的任意一个样本行为记录;
根据上述第三样本行为记录的生成时间与当前时间之间的第二时间差值,确定第二目标数量,上述第二目标数量指示基于上述第三样本行为记录进行聚类所得到的类簇大小,上述第二目标数量与上述第二时间差值反相关;
根据上述第二目标数量,在上述目标类别对应的样本行为记录集中确定上述第三样本行为记录对应的第二类簇;
将上述第二类簇内的样本行为记录与上述第三样本行为记录进行融合,得到多个第二衍生样本行为记录;
上述基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,包括:基于上述样本行为记录集、各个上述第一衍生样本行为记录以及各个上述第二衍生样本行为记录,得到上述目标数据。
在一个实施例中,上述目标类别为异常行为类别,上述预设类别为正常行为类别,上述预设类别对应的样本行为记录集中的样本行为记录的数量,与上述目标类别对应的样本行为记录集中的样本行为记录的数量的差值大于第二预设阈值。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述数据处理方法。具体来讲:
计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述数据处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述数据处理方法。
具体地,该数据处理方法包括:
获取目标类别对应的样本行为记录集,上述样本行为记录集包括多个样本行为记录,每一上述样本行为记录包括对应的样本行为记录的生成时间,上述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
获取第一样本行为记录,上述第一样本行为记录为上述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据上述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,上述第一目标数量指示基于上述第一样本行为记录进行聚类所得到的类簇大小,上述第一目标数量与上述第一时间差值反相关;
根据上述第一目标数量,在上述目标类别对应的样本行为记录集中确定上述第一样本行为记录对应的第一类簇;
将上述第一类簇内的样本行为记录与上述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,上述第一衍生样本行为记录的数量与上述第一目标数量正相关;
基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,上述目标数据为上述目标类别对应的样本数据。
在一个实施例中,上述根据上述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,包括:
获取预设参量,上述预设参量用于调整类别整体所对应的总体样本中上述目标数据的占比;
根据上述预设参量和上述第一时间差值的比值,确定上述第一目标数量。
在一个实施例中,上述根据上述第一目标数量,在上述目标类别对应的样本行为记录集中确定上述第一样本行为记录对应的第一类簇,包括:
计算各第二样本行为记录分别与上述第一样本行为记录之间的信息距离,上述第二样本行为记录为上述目标类别对应的样本行为记录集中不同于上述第一样本行为记录的其他样本行为记录;
按照信息距离升序的顺序对各上述第二样本行为记录进行排序,得到排序结果;
将上述排序结果中的前上述第一目标数量个样本行为记录所形成的簇,作为上述第一类簇。
在一个实施例中,上述将上述第一类簇内的样本行为记录与上述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,包括:
针对上述第一类簇内的每个第二样本行为记录,计算上述第一样本行为记录与上述第一样本行为记录之间的信息差值;对上述信息差值进行随机扰动,得到信息增量值;对上述信息增量值与上述第一样本行为记录进行融合,得到对应的上述第一衍生样本行为记录。
在一个实施例中,上述将上述第一类簇内的样本行为记录与上述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,包括:
针对上述第一类簇内的预设数量个不同的第二样本行为记录,对上述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录;对上述融合行为记录和上述第一样本行为记录进行加权融合,得到上述第一衍生样本行为记录,上述融合行为记录的权重小于上述第一样本行为记录的权重。
在一个实施例中,上述对上述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录,包括:
对上述预设数量个不同的第二样本行为记录中每一维度的特征信息执行加权相加操作,得到上述融合行为记录,上述第二样本行为记录对应的权值与上述第二样本行为记录与上述第一样本行为记录之间的信息距离反相关。
在一个实施例中,上述方法还包括:
对预设类别对应的样本行为记录集进行采样,得到上述预设类别对应的样本数据,上述预设类别为不同于上述目标类别的其他类别;
根据上述目标数据与上述预设类别对应的样本数据,训练分类模型;
其中,上述目标数据与上述预设类别分别对应的样本数据的数量差值小于第一预设阈值。
在一个实施例中,上述方法还包括:
获取第三样本行为记录,上述第三样本行为记录为上述目标类别对应的样本行为记录集中,除去第一样本行为记录以外的任意一个样本行为记录;
根据上述第三样本行为记录的生成时间与当前时间之间的第二时间差值,确定第二目标数量,上述第二目标数量指示基于上述第三样本行为记录进行聚类所得到的类簇大小,上述第二目标数量与上述第二时间差值反相关;
根据上述第二目标数量,在上述目标类别对应的样本行为记录集中确定上述第三样本行为记录对应的第二类簇;
将上述第二类簇内的样本行为记录与上述第三样本行为记录进行融合,得到多个第二衍生样本行为记录;
上述基于上述目标类别对应的样本行为记录集和各个上述第一衍生样本行为记录,得到目标数据,包括:基于上述样本行为记录集、各个上述第一衍生样本行为记录以及各个上述第二衍生样本行为记录,得到上述目标数据。
在一个实施例中,上述目标类别为异常行为类别,上述预设类别为正常行为类别,上述预设类别对应的样本行为记录集中的样本行为记录的数量,与上述目标类别对应的样本行为记录集中的样本行为记录的数量的差值大于第二预设阈值。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标类别对应的样本行为记录集,所述样本行为记录集包括多个样本行为记录,每一所述样本行为记录包括对应的样本行为记录的生成时间,所述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
获取第一样本行为记录,所述第一样本行为记录为所述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据所述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,所述第一目标数量指示基于所述第一样本行为记录进行聚类所得到的类簇大小,所述第一目标数量与所述第一时间差值反相关;
根据所述第一目标数量,在所述目标类别对应的样本行为记录集中确定所述第一样本行为记录对应的第一类簇;
将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,所述第一衍生样本行为记录的数量与所述第一目标数量正相关;
基于所述目标类别对应的样本行为记录集和各个所述第一衍生样本行为记录,得到目标数据,所述目标数据为所述目标类别对应的样本数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,包括:
获取预设参量,所述预设参量用于调整类别整体所对应的总体样本中所述目标数据的占比;
根据所述预设参量和所述第一时间差值的比值,确定所述第一目标数量。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一目标数量,在所述目标类别对应的样本行为记录集中确定所述第一样本行为记录对应的第一类簇,包括:
计算各第二样本行为记录分别与所述第一样本行为记录之间的信息距离,所述第二样本行为记录为所述目标类别对应的样本行为记录集中不同于所述第一样本行为记录的其他样本行为记录;
按照信息距离升序的顺序对各所述第二样本行为记录进行排序,得到排序结果;
将所述排序结果中的前所述第一目标数量个样本行为记录所形成的簇,作为所述第一类簇。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,包括:
针对所述第一类簇内的每个第二样本行为记录,计算所述第一样本行为记录与所述第一样本行为记录之间的信息差值;对所述信息差值进行随机扰动,得到信息增量值;对所述信息增量值与所述第一样本行为记录进行融合,得到对应的所述第一衍生样本行为记录。
5.根据权利要求3所述的方法,其特征在于,所述将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,包括:
针对所述第一类簇内的预设数量个不同的第二样本行为记录,对所述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录;对所述融合行为记录和所述第一样本行为记录进行加权融合,得到所述第一衍生样本行为记录,所述融合行为记录的权重小于所述第一样本行为记录的权重。
6.根据权利要求5所述的方法,其特征在于,所述对所述预设数量个不同的第二样本行为记录进行信息融合,得到融合行为记录,包括:
对所述预设数量个不同的第二样本行为记录中每一维度的特征信息执行加权相加操作,得到所述融合行为记录,所述第二样本行为记录对应的权值与所述第二样本行为记录与所述第一样本行为记录之间的信息距离反相关。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对预设类别对应的样本行为记录集进行采样,得到所述预设类别对应的样本数据,所述预设类别为不同于所述目标类别的其他类别;
根据所述目标数据与所述预设类别对应的样本数据,训练分类模型;
其中,所述目标数据与所述预设类别分别对应的样本数据的数量差值小于第一预设阈值。
8.根据权利要求1或7所述的方法,其特征在于,所述方法还包括:
获取第三样本行为记录,所述第三样本行为记录为所述目标类别对应的样本行为记录集中,除去第一样本行为记录以外的任意一个样本行为记录;
根据所述第三样本行为记录的生成时间与当前时间之间的第二时间差值,确定第二目标数量,所述第二目标数量指示基于所述第三样本行为记录进行聚类所得到的类簇大小,所述第二目标数量与所述第二时间差值反相关;
根据所述第二目标数量,在所述目标类别对应的样本行为记录集中确定所述第三样本行为记录对应的第二类簇;
将所述第二类簇内的样本行为记录与所述第三样本行为记录进行融合,得到多个第二衍生样本行为记录;
所述基于所述目标类别对应的样本行为记录集和各个所述第一衍生样本行为记录,得到目标数据,包括:基于所述样本行为记录集、各个所述第一衍生样本行为记录以及各个所述第二衍生样本行为记录,得到所述目标数据。
9.根据权利要求7所述的方法,其特征在于,所述目标类别为异常行为类别,所述预设类别为正常行为类别,所述预设类别对应的样本行为记录集中的样本行为记录的数量,与所述目标类别对应的样本行为记录集中的样本行为记录的数量的差值大于第二预设阈值。
10.一种数据处理装置,其特征在于,所述装置包括:
数据采样模块,用于获取目标类别对应的样本行为记录集,所述样本行为记录集包括多个样本行为记录,每一所述样本行为记录包括对应的样本行为记录的生成时间,所述目标类别对应的样本行为记录集中样本行为记录的数量,小于预设类别对应的样本行为记录集中样本行为记录的数量;
数据处理模块,用于执行下述操作:
获取第一样本行为记录,所述第一样本行为记录为所述目标类别对应的样本行为记录集中任意一个样本行为记录;
根据所述第一样本行为记录的生成时间与当前时间之间的第一时间差值,确定第一目标数量,所述第一目标数量指示基于所述第一样本行为记录进行聚类所得到的类簇大小,所述第一目标数量与所述第一时间差值反相关;
根据所述第一目标数量,在所述目标类别对应的样本行为记录集中确定所述第一样本行为记录对应的第一类簇;
将所述第一类簇内的样本行为记录与所述第一样本行为记录进行融合,得到多个第一衍生样本行为记录,所述第一衍生样本行为记录的数量与所述第一目标数量正相关;
基于所述目标类别对应的样本行为记录集和各个所述第一衍生样本行为记录,得到目标数据,所述目标数据为所述目标类别对应的样本数据。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的数据处理方法。
CN202311106042.9A 2023-08-30 2023-08-30 数据处理方法、装置、设备、存储介质及产品 Pending CN117195014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311106042.9A CN117195014A (zh) 2023-08-30 2023-08-30 数据处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311106042.9A CN117195014A (zh) 2023-08-30 2023-08-30 数据处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN117195014A true CN117195014A (zh) 2023-12-08

Family

ID=89004508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311106042.9A Pending CN117195014A (zh) 2023-08-30 2023-08-30 数据处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN117195014A (zh)

Similar Documents

Publication Publication Date Title
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN108961032A (zh) 借贷处理方法、装置以及服务器
CN113627482A (zh) 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN112818995B (zh) 图像分类方法、装置、电子设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN112508048A (zh) 图像描述的生成方法和装置
CN115203550A (zh) 一种增强邻居关系的社交推荐方法及系统
CN114692007A (zh) 表示信息的确定方法、装置、设备及存储介质
CN114581702A (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN114169439A (zh) 异常通信号码的识别方法、装置、电子设备和可读介质
CN116958267B (zh) 位姿处理方法、装置、电子设备及存储介质
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN110717817A (zh) 贷前审核方法及装置、电子设备和计算机可读存储介质
CN117195014A (zh) 数据处理方法、装置、设备、存储介质及产品
CN107977413A (zh) 用户数据的特征选择方法、装置、计算机设备和存储介质
CN114418624A (zh) 项目推荐方法、装置、电子设备及可读介质
CN114697127A (zh) 一种基于云计算的业务会话风险处理方法及服务器
CN112434677B (zh) 一种合同审核方法、装置、设备和存储介质
CN117037182A (zh) 图像真伪检测方法、装置、计算机设备及存储介质
CN107730546B (zh) 一种图像深度特征确定方法及系统
CN117312934A (zh) 分类方法、装置、设备、存储介质及产品
CN114676740A (zh) 用户识别方法、装置、设备及存储介质
CN115049503A (zh) 基于人工智能的产品资源分析和展示的方法及相关设备
CN117095441A (zh) 情绪信息处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication