CN115511428A - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents

一种数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115511428A
CN115511428A CN202110699025.5A CN202110699025A CN115511428A CN 115511428 A CN115511428 A CN 115511428A CN 202110699025 A CN202110699025 A CN 202110699025A CN 115511428 A CN115511428 A CN 115511428A
Authority
CN
China
Prior art keywords
abnormal
data
determining
processed
abnormal object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110699025.5A
Other languages
English (en)
Inventor
赵薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110699025.5A priority Critical patent/CN115511428A/zh
Publication of CN115511428A publication Critical patent/CN115511428A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/405Establishing or using transaction specific rules

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,其中方法包括:获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。通过本申请实施例可以有效提高对应用程序评估的效率和准确性。

Description

一种数据处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备及计算机可读存储介质。
背景技术
随着计算机技术以及电子技术的发展,智能终端广泛应用于人们的日常生活中,而为完善智能终端功能的不足与个性化,以为用户提供更丰富的使用体验,各种应用程序(Application,APP)应运而生。用户在使用应用程序之前,通常需要在应用程序上进行注册,得到用于指示该用户的标识,并且应用程序会记录该标识所对应的用户在使用应用程序的过程中所生成的一系列数据。
虽然应用程序给人们带来了个性化体验以及诸多遍历,但也有一些不法分子会通过应用程序进行网络传销或欺诈,网络传销或欺诈行为会给用户带来苦恼,所以需要对网络传销或欺诈行为进行打击。而在确定是否需要进行网络传销或欺诈打击之前,需要对应用程序进行评估,或者在进行网络传销或欺诈打击之后,需要基于打击后应用程序的评估结果确定打击效果。而目前通常是通过人工对应用程序进行评估,但人工进行评估的方式效率低,且准确性低。
发明内容
本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可以有效提高对应用程序评估的效率和准确性。
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;
基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;
从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;
基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
获取单元,用于获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;
处理单元,用于基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;
所述处理单元,还用于从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;
所述处理单元,还用于基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
在一实施例中,所述处理单元具体用于:
获取参考异常对象比例以及参考误差参数,并基于所述参考异常对象比例以及所述参考误差参数,确定抽样数量;基于所述异常对象集中各个对象对应的特征数据,确定所述异常对象集中的对象在目标特征维度上的比例分布信息;基于所述抽样数量以及所述比例分布信息,从所述异常对象集中确定抽样对象集。
在一实施例中,所述检验结果用于指示所述抽样对象集中的各个对象是否异常;所述处理单元具体用于:基于所述抽样对象集的检验结果,确定所述抽样对象集中检验结果为异常的对象所占的数量比例;基于所述抽样对象集中各个对象对应的特征数据,确定所述抽样对象集中检验结果为异常的对象在目标特征维度上所占的资源量比例;将所述数量比例以及所述资源量比例,确定为评估参数。
在一实施例中,所述处理单元具体用于:确定所述异常对象集中的对象的总数量,并基于所述数量比例和所述总数量确定所述异常对象集中的异常对象数量;基于所述待处理数据集中各个对象对应的特征数据,确定所述异常对象集中的对象在所述目标特征维度上的总资源量,并基于所述资源量比例和所述总资源量确定所述异常对象集中的异常对象在所述目标特征维度上的目标资源量;基于所述异常对象数量以及所述目标资源量确定所述目标应用程序的评估结果。
在一实施例中,所述处理单元具体用于:利用目标异常对象筛选模型对所述多组对象数据进行处理,以使所述目标异常对象筛选模型基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象;基于所述目标异常对象筛选模型确定的各个异常对象生成异常对象集。
在一实施例中,所述数据处理装置还包括训练单元,用于:获取包括正常样本子集和异常样本子集的训练样本集;所述正常样本子集中的每一组对象数据包括正常对象的正常标识以及所述正常对象对应的特征数据,所述异常样本子集中的每一组对象数据包括异常对象的异常标识以及所述异常对象对应的特征数据;利用所述训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型。
在一实施例中,异常对象筛选模型为决策树模型,所述训练后的异常对象筛选模型的叶子节点所经过的一条路径指示一种异常对象筛选规则;所述训练单元,具体用于:获取所述训练后的异常对象筛选模型所指示的各个异常对象筛选规则的筛选效果评估参数,并从所述各个异常对象筛选规则中确定筛选效果评估参数小于或等于筛选效果阈值的待调整异常对象筛选规则;基于所述待调整异常对象筛选规则对所述训练后的异常对象筛选模型进行调整,得到所述目标异常对象筛选模型。
一方面,本申请实施例提供了一种计算机设备,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行本申请实施例提供的数据处理方法。
相应地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行本申请实施例提供的数据处理方法。
相应地,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的数据处理方法。
本申请实施例中,先基于目标应用程序相关的待处理数据集中各个对象对应的特征数据,从待处理数据集中确定异常对象集;然后从异常对象集中确定抽样对象集,并基于抽样对象集的检验结果确定评估参数;最后基于该评估参数、该异常对象集以及待处理数据集中各个对象对应的特征数据,确定目标应用程序的评估结果;采用上述方式,一方面可以实现对应用程序评估的自动化及智能化,从而有效提高对应用程序评估的效率;另一方面,通过对筛选出的异常对象集进行了抽样检验,并结合根据抽样检验结果确定的评估参数来确定应用程序最终的评估结果,从而可以有效提高评估结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的数据处理方法所适用的一种网络架构;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种建立浓缩传销大盘的流程示意图;
图4是本申请实施例提供的一种评估方法的流程示意图;
图5示出了图4中建立浓缩传销大盘以及抽样审核的过程;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据处理方法,以有效提高对应用程序评估的效率和准确性。本申请实施例提供的数据处理方法基于AI(Artificial Intelligence,人工智能)技术。AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科,其涉及的领域较为广泛;而本申请实施例提供的数据处理方法主要涉及AI技术中的机器学习(Machine Learning,ML)技术。机器学习技术是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在可行的实施例中,本申请实施例提供的数据处理方法还基于云技术(Cloudtechnology)和/或区块链技术。具体可以涉及云技术中的云存储(Cloud storage)、云数据库(Cloud Database)、大数据(Big data)中的一种或者多种。例如,从云数据库中获取执行该数据处理方法所需要的数据(例如对象(如账号)数据)。又例如,可以将执行该数据处理方法所产生的数据(例如异常对象集、评估参数、评估结果)以区块的形式存储到区块链网络中,另外,执行该数据处理方法的设备可以是区块链网络中的节点设备。
本申请实施例提供的数据处理方法可以适用于图1所示的网络架构,该数据处理方法可以由图1所示的数据处理设备执行,该数据处理设备可以是目标应用程序的后台服务器,也可以是设置的专门用于对目标应用程序进行评估的计算机设备,该计算机设备可以不执行与目标应用程序运行相关的任务;图1所示的数据库可以是目标应用程序的后台数据库,可以设置于目标应用程序的后台服务器中,也可以独立于目标应用程序的后台服务器存在。
数据处理设备先从数据库中获取记录的与目标应用程序相关的历史数据,该历史数据包括多个对象以及各个对象所对应的参考数据。在一实施方式中,对象可以是指账号,账号可以用于唯一标识用户;对象所对应的参考数据可以是指账号所对应的用户数据。该用户数据包括用户身份信息(如年龄、学历等)、用户在预设时间段内使用应用程序的过程中所生成的交易数据(如转账信息、转账备注等)、各个账号所对应的投诉记录(如投诉类型等)中的一种或多种。其中,该历史数据所包括的多个账号可以是目标应用程序的全部或者部分的用户账号。
然后从获取到的用户数据中确定待处理数据集,该待处理数据集包括多组对象数据,每一组对象数据包括对象以及该对象对应的特征数据,该特征数据是基于该对象所对应的参考数据确定的。进一步的,基于待处理数据集中各个对象对应的特征数据,从待处理数据集中确定异常对象集;从该异常对象集中确定抽样对象集,并基于该抽样对象集的检验结果确定评估参数;最后基于该评估参数、该异常对象集以及待处理数据集中各个对象对应的特征数据,确定目标应用程序的评估结果。
在一实施方式中,对象可以是指账号,此时,该待处理数据集包括多组账号数据,每一组账号数据包括账号以及该账号对应的特征数据,该特征数据是基于该账号所对应的用户数据确定的,可以包括文本类特征、用户画像特征、交易特征、投诉记录等中的一种或多种;进一步的,基于待处理数据集中各个账号对应的特征数据,从待处理数据集中确定异常账号集;从该异常账号集中确定抽样账号集,并基于该抽样账号集的检验结果确定评估参数;最后基于该评估参数、该异常账号集以及待处理数据集中各个账号对应的特征数据,确定目标应用程序的评估结果。其中,评估可以是指进行风险评估,即对风险进行总体量化评估,风险评估结果可以用于指示目标应用程序存在的风险高低,风险可以是网络传销或欺诈等行为所导致的。
采用上述方式,一方面可以实现对应用程序评估的自动化及智能化,从而有效提高对应用程序评估的效率;另一方面,通过对筛选出的异常对象集进行了抽样检验,并结合根据抽样检验结果确定的评估参数来确定应用程序最终的评估结果,从而可以有效提高评估结果的准确性。
需要说明的是,当数据处理设备为服务器时,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。当数据处理设备为终端时,终端可以是笔记本电脑、台式计算机等等,但并不局限于此。
以上对本申请实施例提供的数据处理方法进行了简要介绍,下面对该数据处理方法的具体实现方式进行详细阐述。
请参阅图2,为本申请实施例提供的一种数据处理方法的流程示意图。本申请实施例中所描述的数据处理方法可以由图1所示的数据处理设备执行,包括但不限于如下步骤:
S201、获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据。
本申请实施例中,数据处理设备从图1所示的数据库中获取记录的与目标应用程序相关的历史数据,该历史数据包括多个对象以及各个对象所对应的参考数据。然后从获取到的历史数据中确定待处理数据集,该待处理数据集包括多组对象数据,每一组对象数据包括对象以及该对象对应的特征数据,该特征数据是基于该对象所对应的参考数据确定的。
在一实施方式中,对象可以是指账号,账号可以用于唯一标识用户;对象所对应的参考数据可以是指账号所对应的用户数据。该用户数据包括用户身份信息(如年龄、学历等)、用户在预设时间段内(如对目标应用程序评估之前的一周或一月)使用目标应用程序的过程中所生成的交易数据(如转账信息、收款信息等)、各个账号所对应的在预设时间段内的投诉记录(如投诉类型等)中的一种或多种。其中,该历史数据所包括的多个账号可以是目标应用程序的全部或者部分的用户账号。该待处理数据集包括多组账号数据,每一组账号数据包括账号以及该账号对应的特征数据,该特征数据是基于该账号所对应的用户数据确定的,可以包括文本类特征、用户画像特征、交易特征、投诉记录等中的一种或多种。
文本类特征是根据文本数据得到的,包括:从发送电子资源(如转账或者发红包)时的备注信息中提取的备注关键词,和/或从接收到的电子资源对应的备注信息中提取的备注关键词;用户画像特征包括用户的一些属性特征,包括:电子资源的发送用户的性别、年龄、学历等,和/或电子资源的接收用户的性别、年龄、学历等;交易特征是根据交易流水数据得到,包括:发送或接收的电子资源的数量(如发送或接收到的转账金额)等;投诉记录包括被投诉次数、投诉类型(如传销、欺诈)、投诉原因等。
其中,待处理数据集中的对象可以是获取的与目标应用程序相关的历史数据中的全部或者部分对象。在可行的实施方式中,为提高数据处理的效率,当针对目标应用程序是进行风险量化评估时,可以不对一些对于风险评估参考性很低的对象及其特征数据进行处理,例如:对于在预设时间段内收取的电子资源的数量少于或等于预设数量(如收款少于2000元)的对象(如账号),其存在异常(如传销、欺诈)行为的可能性很小,可以考虑不将这样的对象纳入风险评估所处理的对象中。此时,可以在获取与目标应用程序相关的历史数据时,就先将对于风险评估参考性很低的对象及其对应的用户数据过滤掉。也可以在从获取到的与目标应用程序相关的历史数据中确定待处理数据集时,将对于风险评估参考性很低的对象及其对应的用户数据过滤掉。
S202、基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集。
本申请实施例中,可以利用目标异常对象筛选模型对该多组对象数据进行处理,目标异常对象筛选模型基于待处理数据集中各个对象对应的特征数据,确定各个对象是否为异常对象(如可能存在异常(如传销、欺诈)行为的对象),基于目标异常对象筛选模型确定的各个异常对象生成异常对象集。
在一实施方式中,当对象为账号时,可以为基于待处理数据集中各个账号对应的特征数据,从待处理数据集中确定异常账号集。此时,目标异常对象筛选模型为目标异常账号筛选模型,可以利用目标异常账号筛选模型对该多组账号数据进行处理,目标异常账号筛选模型基于待处理数据集中各个账号对应的特征数据,确定各个账号是否为异常账号(即可能存在异常(如传销、欺诈)行为的账号),基于目标异常账号筛选模型确定的各个异常账号生成异常账号集。
在一实施例中,目标异常对象筛选模型是利用训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成的。
在可行的实施例中,获取包括正常样本子集和异常样本子集的训练样本集,正常样本子集包括多组对象数据,每一组对象数据包括正常对象的正常标识以及正常对象对应的特征数据;异常样本子集也包括多组对象数据,每一组对象数据包括异常对象的异常标识以及异常对象对应的特征数据。异常对象是已经确定出的存在异常的对象(如账号),可以是人工筛选出的,也可以是记录的线上异常打击策略所打击过的对象。正常对象是已经确定出的不存在异常的对象,可以是从记录的与目标应用程序相关的多种白名单中获取的。然后利用该训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成目标异常对象筛选模型。
在一实施方式中,利用该训练样本集对初始异常对象筛选模型进行训练的方式可以为:先计算训练样本集中各组对象数据的特征iv值重要性(用于评估样本数据的好坏),按照特征iv值重要性对各组对象数据进行排序,可以按照从高到底或者从低到高的顺序进行排序;按照排序结果选取排在前M位的对象数据对初始异常对象筛选模型进行初步训练,然后选取排在第M+1至N(N可以为2M,M和N为正整数)位的对象数据对初步训练后的异常对象筛选模型进行再次训练,以此类推,利用不同的对象数据对异常对象筛选模型进行多次训练后,得到训练后的异常对象筛选模型。采用上述训练方式,可以使得训练后的异常对象筛选模型具有高精度的筛选准确性。
在其他可行的实施方式中,可以只对异常样本子集中的对象数据进行排序,每次训练选取对象数据时,按照排列顺序从异常样本子集中选取M或者N-M组对象数据,然后按照比例从正常样本子集随机选取对象数据。例如,异常样本子集中有400组对象数据,正常样本子集中有100组对象数据,只对异常样本子集中的400组对象数据进行排序,每次训练按照排列顺序从异常样本子集中选取100组对象数据,则可以从正常样本子集中随机选取25组对象数据,或者将正常样本子集中的100组对象数据全作为训练数据。
或者,也可以将正常样本子集和异常样本子集中的对象数据分别进行排序,每次训练按照比例以及排列顺序分别从正常样本子集和异常样本子集中选取相应数量的对象数据。例如,异常样本子集中有400组对象数据,正常样本子集中有100组对象数据,分别对异常样本子集中的400组对象数据进行排序,以及对正常样本子集中的100组对象数据进行排序。每次训练按照排列顺序从异常样本子集中选取100组对象数据,并按照排列顺序从正常样本子集中选取25组对象数据。
在可行的实施方式中,异常对象筛选模型可以为决策树模型,在模型训练过程中,对于决策树模型的一些重要模型参数,如最小节点数以及树的深度等等,其设定范围可以采用网格搜索的方法,这样有利于训练出效果最好的决策树模型。
在一实施方式中,当异常对象筛选模型为决策树模型时,训练后的异常对象筛选模型的各个叶子节点所经过的一条路径可以指示一种异常对象筛选规则,例如,对象为账号时,异常对象筛选规则为异常账号筛选规则,异常账号筛选规则可以是:如果账号对应的用户年龄大于50岁,收款金额超过5万,且被投诉为传销或者诈骗的次数超过5次,则该账号为异常账号。此时,基于训练后的异常对象筛选模型生成目标异常对象筛选模型的方式可以为:获取训练后的异常对象筛选模型所指示的各个异常对象筛选规则的筛选效果评估参数,并从各个异常对象筛选规则中确定筛选效果评估参数小于或等于筛选效果阈值的待调整异常对象筛选规则;然后基于该待调整异常对象筛选规则对训练后的异常对象筛选模型进行调整,得到目标异常对象筛选模型。
在可行的实施方式中,筛选效果评估参数可以包括覆盖率(或者说召回率)和精准度,覆盖率=按照异常对象筛选规则预测出的异常样本量/数据集总体异常样本量,精准度=按照异常对象筛选规则预测出的异常样本量/异常对象筛选规则预测的所有样本量。用于测试各个异常对象筛选规则的覆盖率和精准度所使用的数据集可以是训练用的异常样本子集,也可以是专门设置的该训练用的异常样本子集之外的用于测试用的测试集,由于测试集与训练集不同,这样更能反映各个异常对象筛选规则在实际筛选过程中的筛选效果。此时,筛选效果评估参数小于或等于筛选效果阈值可以包括:覆盖率小于或等于覆盖率阈值(如0.05),精准度小于或等于精准度阈值(如0.95)。
在可行的实施方式中,基于该待调整异常对象筛选规则对训练后的异常对象筛选模型进行调整,得到目标异常对象筛选模型的方式可以为:针对每一个该待调整异常对象筛选规则,确定该待调整异常对象筛选规则所对应的路径,将训练后的异常对象筛选模型中该路径上与其他异常对象筛选规则不共用的叶子节点以及分支进行删除,调整完成后得到目标异常对象筛选模型。
在一可行的实施例中,可以从目标异常对象筛选模型中获取各个异常对象筛选规则,并直接利用该各个异常对象筛选规则,基于待处理数据集中各个对象对应的特征数据,确定各个对象是否为异常对象,并基于确定出的各个异常对象生成异常对象集。
需要说明的是,执行上述模型训练过程以及生成目标异常对象筛选模型的计算机设备可以是执行本申请实施例提供的数据处理方法的数据处理设备,也可以是其他服务器或者终端设备。
S203、从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数。
本申请实施例中,从异常对象集中确定抽样对象集的方式可以为:先获取参考异常对象比例以及参考误差参数,并基于参考异常对象比例以及参考误差参数,确定抽样数量。其中,该参考异常对象比例可以是预估的某一时间段内异常对象所占的比例。例如,对象为账号时,参考异常对象比例为参考异常账号比例,统计目标应用程序某一天的异常账号数量,将该数量乘以7得到目标应用程序一周的异常账号数量,将该一周的异常账号数量除以目标应用程序的账号总数量,得到参考异常账号比例。该参考误差参数可以包括基于设置的置信区间确定的z标准化分数以及设置的误差幅度,误差幅度与参考异常对象比例成正比;置信区间,即对样本的调查结果允许的正偏差和负偏差,常用的置信区间是95%、99%和90%,它们分别对应的z标准化分数是1.96、2.575和1.645。
在可行的实施方式中,可以采用如下所示的式(1)来确定抽样数量:
Figure BDA0003129017620000111
其中,n表示抽样数量,p表示考异常对象比例,Z表示置信区间对应的z标准化分数,E表示误差幅度。
进一步的,基于异常对象集中各个对象对应的特征数据,确定异常对象集中的对象在目标特征维度上的比例分布信息;然后基于该抽样数量以及该比例分布信息,从异常对象集中确定抽样对象集。该目标特征维度可以为在预设时间段内收到的电子资源的数量。例如,对象为账号,异常对象集为异常账号集,确定出的抽样数量为800,目标特征维度为账号对应的在一周内的收款金额,如果异常账号集中的账号在一周内的收款金额少于1万的比例为20%、在一周内的收款金额处于1万至5万的比例为60%、在一周内的收款金额大于5万的比例为20%,则针对异常账号集,从在一周内的收款金额少于1万的账号中选取160(即800×20%)个账号、从在一周内的收款金额处于1万至5万的账号中选取480个账号(即800×60%)、从在一周内的收款金额大于5万的账号中选取160(即800×20%)个账号作为抽样账号集中的抽样账号。
本申请实施例中,抽样对象集的检验结果用于指示抽样对象集中的各个对象是否异常,可以是由相应工作人员对抽样对象集中的各个对象是否真正异常进行人工检验,也可以是由数据处理设备基于抽样对象集中各个对象的更多特征数据(如除了根据预设时间段内的用户数据生成的特征数据之外,还包括根据预设时间段之前的某一相邻时间段的用户数据生成的特征数据),对抽样对象集中的各个对象是否真正异常进行检验。
基于抽样对象集的检验结果确定评估参数的方式可以为:基于抽样对象集的检验结果,确定抽样对象集中检验结果为异常的对象所占的数量比例;基于抽样对象集中各个对象对应的特征数据,确定抽样对象集中检验结果为异常的对象在目标特征维度上所占的资源量比例。该目标特征维度可以为在预设时间段内收到的电子资源的数量。例如,对象为账号,抽样对象集为抽样账号集,如果抽样账号集中的所有账号在一周内的收款金额为50万,抽样账号集中检验结果为异常的所有账号在一周内的收款金额为45万,则该资源量比例为45/50,即90%。最后将确定出的数量比例和资源量比例,确定为评估参数。
S204、基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
本申请实施例中,确定异常对象集中的对象的总数量,并基于该总数量和以及评估参数包括的数量比例确定异常对象集中的异常对象数量。在一实施方式中,将该总数量与该数量比例进行相乘,得到该异常对象数量。
基于待处理数据集中各个对象对应的特征数据,确定异常对象集中的对象在目标特征维度上的总资源量。该目标特征维度可以为在预设时间段内收到的电子资源的数量,此时参考的特征数据为各个对象对应的在预设时间段内收到的电子资源的数量。例如,对象为账号,异常对象集为异常账号集,异常账号集中的所有账号在一周内的收款金额为400万,则该总资源量为400万。然后基于该总资源量和评估参数包括的资源量比例,确定异常对象集中的异常对象在目标特征维度上的目标资源量。在一实施方式中,将该总资源量与该资源量比例进行相乘,得到该目标资源量。
最后可以将确定的异常对象数量以及目标资源量作为目标应用程序的评估结果。其中,评估可以是指进行风险评估,即对风险进行总体量化评估,风险评估结果可以用于指示目标应用程序存在的风险高低,风险可以是网络传销或欺诈等行为所导致的。
在可行的实施例中,评估参数所包括的数量比例为第一数量比例,所包括的资源量比例为第一资源量比例。还可以确定异常对象集中的对象在待处理数据集中所占的第二数量比例,并基于该第二数量比例以及评估参数包括的第一数量比例确定待处理数据集中的异常对象比例。在一实施方式中,将该第一数量与该第二数量进行相乘,得到该异常对象比例。
基于待处理数据集中各个对象对应的特征数据,确定待处理数据集中包含于异常对象集的对象在目标特征维度上所占的第二资源量比例。该目标特征维度可以为在预设时间段内收到的电子资源的数量。例如,对象为账号,异常对象集为异常账号集,待处理数据集中的所有账号在一周内的收款金额为1000万,异常账号集中的所有账号在一周内的收款金额为400万,则该第二资源量比例为400/1000,即40%。然后基于该第二资源量比例以及评估参数包括的第一资源量比例,确定待处理数据集中异常对象在目标特征维度上所占的目标资源量比例。在一实施方式中,将该第一资源量比例与该第二资源量比例进行相乘,得到该目标资源量比例。
最后可以基于确定的异常对象比例以及目标资源量比例确定目标应用程序的评估结果。其中,当待处理数据集中的对象为目标应用程序的所有对象时,可以直接将确定的异常对象比例以及目标资源量比例确定为目标应用程序的评估结果;当待处理数据集中的对象为目标应用程序的部分对象(如筛除了在预设时间段内的收取的电子资源的数量少于或等于预设数量的账号)时,可以基于待处理数据集中的对象占目标应用程序的所有对象的比例、目标应用程序的所有对象中包含于待处理数据集中的对象在目标特征维度上所占的比例、以及前文确定的异常对象比例和目标资源量比例所确定的比例参数作为目标应用程序的评估结果。
需要说明的是,可以将上述确定的异常对象数量、目标资源量、以及异常对象比例以及目标资源量比例均作为目标应用程序的评估结果;或者,将上述确定的异常对象数量、目标资源量,以及基于该异常对象比例以及该目标资源量比例确定的比例参数均作为目标应用程序的最终评估结果。其中,评估可以是指进行风险评估,即对风险进行总体量化评估,风险评估结果可以用于指示目标应用程序存在的风险高低,风险可以是网络传销或欺诈等行为所导致的。
在可行的实施例中,在确定出目标应用程序的评估结果之后,可以由人工或者数据处理设备自动基于确定的评估结果确定是否需要针对目标应用程序进行异常行为打击,并且在确定需要进行异常行为打击时,可以基于目标异常对象筛选模型所指示的异常对象筛选规则确定异常打击策略。或者,可以由人工或者数据处理设备自动基于确定的评估结果确定针对目标应用程序设置的异常打击策略的打击效果,以确定是否需要对该异常打击策略进行优化,等等。
采用本申请实施例提供的数据处理方法,一方面可以实现对应用程序评估的自动化及智能化,从而有效提高对应用程序评估的效率;另一方面,通过对筛选出的异常对象集进行了抽样检验,并结合根据抽样检验结果确定的评估参数来应用程序确定最终的评估结果,从而可以有效提高评估结果的准确性;再一方面,基于异常对象筛选模型进行异常对象筛选,可以提高异常对象筛选的效率以及准确性。
为更好的理解本申请实施例提供的数据处理方法以及异常对象筛选模型的训练方法,下面以目标应用程序为微信,对象为账号,账号异常为存在传销行为,对目标应用程序进行评估为对目标应用程序中的传销风险进行总体量化评估为例,对本申请实施例提供的方案进行介绍。
先对本申请实施例所涉及的一些术语进行介绍:大盘:基于某些条件筛选的微信账号集合,其中整体大盘即未加筛选条件的所有微信账号,传销大盘即为传销类型黑灰(即异常)账号集合;置信区间:对样本的调查结果允许的正偏差和负偏差,常用的置信区间是95%、99%和90%;它们分别对应的z标准化分数是1.96、2.575和1.645;打击:对该笔交易或者账号进行拦截,限制入账等处置措施。
传销大盘风险评估可以采用“杀大盘”的方式,即根据所有线上传销打击策略打击过的传销账号,组成一个集合,再统计这部分打击账号的量级和金额作为传销大盘的风险评估结果。但此方式存在以下缺点:第一,“杀大盘”都是来自线上传销打击策略打击过的账号,虽然达到了一定的精准度,但是此类大盘覆盖还是不够全面,太依赖于主观人为打击的情况;如果线上传销打击策略没有打击过的账号,就不会放入该大盘,但是没有打击过的账号,并不意味着就不存在传销风险,只是可能还未被发现;所以“杀大盘”的方式不能解决未发现传销风险账号的覆盖问题;同时,线上传销打击策略打击会注重精准度,所以对于一部分低风险的账号会暂时放过不予打击,但其实这部分账号也是需要持续监控的,而这也是杀大盘”的方式所无法覆盖到的。第二,“杀大盘”的方式只能衡量出已打击账号的量级,而并不能很好的评估出线上传销打击策略对大盘恶意风险下降所做出的贡献度,作为业务考核评估的标准并不合理。
理想的传销大盘风险评估是对整体大盘中所有账号逐一审核,其中审核为传销类的账号集合即为传销风险大盘。但微信支付体系账号量巨大(已到达数亿级别),且账号风险是动态变化的,对大盘逐一审核从人力和时间周期上都不可能实现。为了解决上述问题,本申请实施例提供了一种新的风险评估方式,首先通过建立决策树模型,挖掘出一套传销组合可疑规则;然后在整体大盘上去掉小额账号,根据挖掘规则召回账号,作为初步确定的浓缩小量级传销规则大盘;再基于浓缩大盘根据统计学抽样理论,确定合适的能近似大盘浓度(或者说比例)的抽样总样本量,采用比例分配法进行分层抽样,抽取的样本给到人工审核;最后基于人工审核结果浓度,测算还原出整体传销可疑大盘的账号和金额浓度等,从而能对微信体系海量账号大盘中存在的传销风险进行总体量化评估。
本申请实施例的风险评估方式主要包括如下步骤:
1、建立初步浓缩小量级传销规则大盘,建立流程如图3所示,包括:
提取黑白样本:黑样本(即异常账号、或者传销账号)就是现有的一些传销黑账号,例如大额审核传销账号,反洗钱上报,高精度模型筛选账号等来源;白样本(即正常账号)则可以是通过微商等一些白名单账号中进行提取。
特征挖掘取数:通过审核案例等,挖掘总结到一些可疑特征,例如文本类特征、用户画像特征、交易特征、投诉记录,等等。对第一步中黑白样本关联挖掘到的特征进行取数。文本类特征:如从转账或者红包中的备注提取的异常关键词等;用户画像特征包括用户的一些属性特征,例如:转账或者红包收取方的性别、年龄、学历等,转账或者红包发送方的性别、年龄、学历等;交易特征是根据交易流水数据得到,如:转账或者红包金额等;投诉记录包括被投诉次数、投诉类型(如传销、欺诈)、投诉原因等。
决策树建模:基于上述样本及特征数据,进行决策树建模。通过对特征数据预处理(如:文本类数据,会对一段文本进行关键词正则匹配,统计词频等特征;数值类数据取均值/最大值等汇总类特征,如近7天收款最大金额/平均金额等等)、计算特征iv值重要性(值越大表示样本越好),根据特征iv值重要性的排列顺序分别选取不同特征组合输入模型进行多次模型训练。决策树模型有2个重要模型参数,一个是最小节点数,它可以决定最后叶子节点覆盖的最小样本,也就是规则覆盖率的下限;另一个是树的深度,决定了模型的精准度,树越深,模型规则的精度也会越高。因此对这两个重要决策树模型参数设定范围可以采用网格搜索的方法,从而训练出效果最好的决策树模型。
训练规则筛选:将上一步训练出的模型中叶子节点经过路径总结为规则形式(即异常账号筛选规则),并且统计各个规则的覆盖率(规则预测黑样本量/数据集总体黑样本量)和精准度(规则预测黑样本量/规则预测所有样本量)。可以筛选覆盖率>0.05,精准度>0.95的规则作为备选规则。
大盘规则筛选:上述筛选的规则只是在离线样本的测试集上表现良好,可以将其代入到实际大盘中,召回各个训练规则对应账号,再根据相应的覆盖率、精度、召回量级等标准进一步筛选规则,将符合覆盖率要求和精准度要求的规则作为初步浓缩大盘使用的可疑规则。需要说明的是,这里的精准度和召回率看的实际大盘黑样本,都还是指的线上传销打击策略已经实际打击的黑样本。
先在实际大盘中去掉小额账号(如去掉周收款少于1万的账号)以缩小账号量级,再通过上述决策树建模方法得到的一套传销可疑规则组合,在去掉小额账号后的大盘中筛选出黑/灰账号(即传销账号),得到了初步浓缩的小量级传销规则大盘(以下简称为浓缩传销大盘)。需要说明的是,可以直接利用上述决策树建模方法得到的一套传销可疑规则进行黑/灰账号筛选,也可以基于上述决策树建模方法得到的一套传销可疑规则对训练后的决策树模型进行调整,即在模型中删除被舍弃的规则所对应的路径,并利用调整后的模型进行黑/灰账号(或者称之为异常或恶意账号)筛选。
2、抽样审核,处理流程如图4所示,包括:
统计学理论计算合理的总样本量:虽然第1步已经对整体大盘进行了浓缩,但是浓缩传销大盘的量级也很大(通常在几十万),这部分也无法做到一个个去人工审核,此时可以应用一些统计学抽样理论,根据允许误差,置信区间等参数,计算出一个合理的抽样样本总量,尽可能使抽取样本分布近似接近于浓缩传销大盘总体分布。可以采用前文所述的式(1)来计算合理的抽样样本量:
Figure BDA0003129017620000161
置信区间可以选择95%,则式(1)中的置信区间对应的z标准化分数Z是1.96。分子E代表误差幅度,即样本传销浓度与实际大盘传销浓度2个数值间的偏差范围。如果该误差很大,确定的抽样样本量n就不能很好的反应出总体浓度水平,但是如果误差很小,又会导致抽样样本量极大,增加人工审核成本。p代表具有某种属性的样本比例,即大盘中传销账号的占比整体浓度。因此可以推导得到,Z固定不变,p和误差幅度E相互关联,如果p越大,E也可以稍大一些。根据浓缩大盘账号量和每周传销恶意账号预计,得到一个总体大盘的预估浓度p(如0.087),此时,式(1)中的分子Z和p都已经确定了;可以根据p设定允许误差在浓度P的五分之一左右,设定E=0.020。因此当p为0.087时,根据式(1)可以得到一个合理的抽样样本量800,这个量级也符合现实人工审核要求。
到这一步,从整体大盘开始,通过去掉小额收款账号,建立浓缩传销规则大盘等,缩小了大盘量级,再在此大盘上计算出合理的抽样样本总量,具体筛选过程如图5所示。
按金额分层抽样-比例分配:由于大盘中不同金额分布账号量是不均衡的,并且对应的传销账号浓度也各有不同,如果采取简单随机抽样,可能无法考虑到每层单独的特征,因此可以根据金额进行分层抽样。可以选择按金额分层后的比例分配法,即按各层单元数占总体单元数的比例,也就是按各层的层权进行分配),如下表一所示例子,按金额1w-3w-10w-10w+分层,总体大盘账号占比分别为64%、29%、6%,此时在总体抽样样本量为800的情况下,对应抽样的分层样本量分别为515、235、50。
表一:
Figure BDA0003129017620000171
最终抽样样本送审:按上述方法抽取的样本,由人工进行逐一审核。
3、测算还原、优化打击:
测算还原:根据人工审核抽样样本的结果,可以得到抽样样本中的黑/灰账号以及金额的浓度占比(或者说比例)。再根据第1步得到的浓缩传销大盘的总账号量和总金额分别乘以对应的审核黑/灰浓度,便可以得到测算还原后的传销大盘黑/灰账号量以及收款金额。具体公式如下式2和式3:
测算大盘黑/灰账号量=浓缩传销大盘总账号量×审核黑/灰账号量浓度(式2)测算大盘黑/灰金额=浓缩传销大盘总金额×审核黑/灰账号对应金额浓度(式3)
通过上述公式,可以得到测算还原后的传销大盘的传销账号量及金额结果了。基于得到的结果数据,可以量化评估当前传销大盘的风险情况,以及当期大盘与之前周期大盘风险指标的同比/环比的增降幅度等对比指标了,从而可以反映针对微信设置的线上传销打击策略是否有效,进而还可以作为业务打击评估指标。另外,基于人工审核返回的抽样样本的审核结果,也可以基于这些案例进一步分析当前策略未覆盖到的情况,进而优化打击策略,以更好的打击大盘中的传销风险。
采用上述方式,能够对微信体系海量账号大盘中存在的传销风险进行总体量化评估,效率且准确性高。
需要说明的是,用于执行上述方法实施例中各步骤的执行主体可以是由硬件构成,也可以是由软件构成,还可以是由软硬件结合构成。
请参阅图6,为本申请实施例提供的一种数据处理装置的结构示意图。本申请实施例中所描述的数据处理装置,对应于前文所述的数据处理设备,所述装置包括:
获取单元601,用于获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;
处理单元602,用于基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;
所述处理单元602,还用于从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;
所述处理单元602,还用于基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
在一实施例中,所述处理单元602具体用于:
获取参考异常对象比例以及参考误差参数,并基于所述参考异常对象比例以及所述参考误差参数,确定抽样数量;基于所述异常对象集中各个对象对应的特征数据,确定所述异常对象集中的对象在目标特征维度上的比例分布信息;基于所述抽样数量以及所述比例分布信息,从所述异常对象集中确定抽样对象集。
在一实施例中,所述检验结果用于指示所述抽样对象集中的各个对象是否异常;所述处理单元602具体用于:基于所述抽样对象集的检验结果,确定所述抽样对象集中检验结果为异常的对象所占的数量比例;基于所述抽样对象集中各个对象对应的特征数据,确定所述抽样对象集中检验结果为异常的对象在目标特征维度上所占的资源量比例;将所述数量比例以及所述资源量比例,确定为评估参数。
在一实施例中,所述处理单元602具体用于:确定所述异常对象集中的对象的总数量,并基于所述数量比例和所述总数量确定所述异常对象集中的异常对象数量;基于所述待处理数据集中各个对象对应的特征数据,确定所述异常对象集中的对象在所述目标特征维度上的总资源量,并基于所述资源量比例和所述总资源量确定所述异常对象集中的异常对象在所述目标特征维度上的目标资源量;基于所述异常对象数量以及所述目标资源量确定所述目标应用程序的评估结果。
在一实施例中,所述处理单元602具体用于:利用目标异常对象筛选模型对所述多组对象数据进行处理,以使所述目标异常对象筛选模型基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象;基于所述目标异常对象筛选模型确定的各个异常对象生成异常对象集。
在一实施例中,所述数据处理装置还包括训练单元603,用于:获取包括正常样本子集和异常样本子集的训练样本集;所述正常样本子集中的每一组对象数据包括正常对象的正常标识以及所述正常对象对应的特征数据,所述异常样本子集中的每一组对象数据包括异常对象的异常标识以及所述异常对象对应的特征数据;利用所述训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型。
在一实施例中,异常对象筛选模型为决策树模型,所述训练后的异常对象筛选模型的叶子节点所经过的一条路径指示一种异常对象筛选规则;所述训练单元603,具体用于:获取所述训练后的异常对象筛选模型所指示的各个异常对象筛选规则的筛选效果评估参数,并从所述各个异常对象筛选规则中确定筛选效果评估参数小于或等于筛选效果阈值的待调整异常对象筛选规则;基于所述待调整异常对象筛选规则对所述训练后的异常对象筛选模型进行调整,得到所述目标异常对象筛选模型。
可以理解的是,本申请实施例提供的数据处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例中的相关描述,此处不再赘述。
在可行的实施例中,本申请实施例提供的数据处理装置可以采用软件方式实现,数据处理装置可以存储在存储器中,其可以是程序和插件等形式的软件,并包括一系列的单元,包括获取单元、处理单元和训练单元;其中,获取单元、处理单元和训练单元用于实现本申请实施例提供的数据处理方法。
在其它可行的实施例中,本申请实施例提供的数据处理装置也可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的数据处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
本申请实施例中,先基于目标应用程序相关的待处理数据集中各个对象对应的特征数据,从待处理数据集中确定异常对象集;然后从异常对象集中确定抽样对象集,并基于抽样对象集的检验结果确定评估参数;最后基于该评估参数、该异常对象集以及待处理数据集中各个对象对应的特征数据,确定目标应用程序的评估结果;采用上述方式,一方面可以实现对应用程序评估的自动化及智能化,从而有效提高对应用程序评估的效率;另一方面,通过对筛选出的异常对象集进行了抽样检验,并结合根据抽样检验结果确定的评估参数来确定应用程序最终的评估结果,从而可以有效提高评估结果的准确性。
请参阅图7,为本申请实施例提供的一种计算机设备的结构示意图。本申请实施例中所描述的计算机设备对应于前文所述的数据处理设备,包括:处理器701、通信接口702及存储器703。其中,处理器701、通信接口702及存储器703可通过总线或其他方式连接,本申请实施例以通过总线连接为例。
其中,处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:CPU可以用于解析用户向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如:CPU可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口702可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器701的控制用于收发数据。存储器703(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器703既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器703提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
在本申请实施例中,处理器701通过运行存储器703中的可执行程序代码,执行如下操作:
获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
其中,处理器701可以通过通信接口702从图1所示的数据库中获取记录的与目标应用程序相关的历史数据,该历史数据包括多个对象以及各个对象所对应的用户数据;并基于获取的历史数据确定待处理数据集。
在一实施例中,处理器701从所述异常对象集中确定抽样对象集时,具体用于:获取参考异常对象比例以及参考误差参数,并基于所述参考异常对象比例以及所述参考误差参数,确定抽样数量;基于所述异常对象集中各个对象对应的特征数据,确定所述异常对象集中的对象在目标特征维度上的比例分布信息;基于所述抽样数量以及所述比例分布信息,从所述异常对象集中确定抽样对象集。
在一实施例中,所述检验结果用于指示所述抽样对象集中的各个对象是否异常;处理器701基于所述抽样对象集的检验结果确定评估参数时,具体用于:基于所述抽样对象集的检验结果,确定所述抽样对象集中检验结果为异常的对象所占的数量比例;基于所述抽样对象集中各个对象对应的特征数据,确定所述抽样对象集中检验结果为异常的对象在目标特征维度上所占的资源量比例;将所述数量比例以及所述资源量比例,确定为评估参数。
在一实施例中,处理器701基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果时,具体用于:确定所述异常对象集中的对象的总数量,并基于所述数量比例和所述总数量确定所述异常对象集中的异常对象数量;基于所述待处理数据集中各个对象对应的特征数据,确定所述异常对象集中的对象在所述目标特征维度上的总资源量,并基于所述资源量比例和所述总资源量确定所述异常对象集中的异常对象在所述目标特征维度上的目标资源量;基于所述异常对象数量以及所述目标资源量确定所述目标应用程序的评估结果。
在一实施例中,处理器701基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集时,具体用于:利用目标异常对象筛选模型对所述多组对象数据进行处理,以使所述目标异常对象筛选模型基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象;基于所述目标异常对象筛选模型确定的各个异常对象生成异常对象集。
在一实施例中,处理器701还用于:获取包括正常样本子集和异常样本子集的训练样本集;所述正常样本子集中的每一组对象数据包括正常对象的正常标识以及所述正常对象对应的特征数据,所述异常样本子集中的每一组对象数据包括异常对象的异常标识以及所述异常对象对应的特征数据;利用所述训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型。
在一实施例中,异常对象筛选模型为决策树模型,所述训练后的异常对象筛选模型的叶子节点所经过的一条路径指示一种异常对象筛选规则;处理器701基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型时,具体用于:获取所述训练后的异常对象筛选模型所指示的各个异常对象筛选规则的筛选效果评估参数,并从所述各个异常对象筛选规则中确定筛选效果评估参数小于或等于筛选效果阈值的待调整异常对象筛选规则;基于所述待调整异常对象筛选规则对所述训练后的异常对象筛选模型进行调整,得到所述目标异常对象筛选模型。
具体实现中,本申请实施例中所描述的处理器701、通信接口702及存储器703可执行本申请实施例提供的数据处理方法中所描述的数据处理设备的实现方式,也可执行本申请实施例提供的数据处理装置中所描述的实现方式,在此不再赘述。
本申请实施例中,先基于目标应用程序相关的待处理数据集中各个对象对应的特征数据,从待处理数据集中确定异常对象集;然后从异常对象集中确定抽样对象集,并基于抽样对象集的检验结果确定评估参数;最后基于该评估参数、该异常对象集以及待处理数据集中各个对象对应的特征数据,确定目标应用程序的评估结果;采用上述方式,一方面可以实现对应用程序评估的自动化及智能化,从而有效提高对应用程序评估的效率;另一方面,通过对筛选出的异常对象集进行了抽样检验,并结合根据抽样检验结果确定的评估参数来确定应用程序最终的评估结果,从而可以有效提高评估结果的准确性。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如本申请实施例所述的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行如本申请实施例所述的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;
基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;
从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;
基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
2.如权利要求1所述的方法,其特征在于,所述从所述异常对象集中确定抽样对象集,包括:
获取参考异常对象比例以及参考误差参数,并基于所述参考异常对象比例以及所述参考误差参数,确定抽样数量;
基于所述异常对象集中各个对象对应的特征数据,确定所述异常对象集中的对象在目标特征维度上的比例分布信息;
基于所述抽样数量以及所述比例分布信息,从所述异常对象集中确定抽样对象集。
3.如权利要求1或2所述的方法,其特征在于,所述检验结果用于指示所述抽样对象集中的各个对象是否异常;
所述基于所述抽样对象集的检验结果确定评估参数,包括:
基于所述抽样对象集的检验结果,确定所述抽样对象集中检验结果为异常的对象所占的数量比例;
基于所述抽样对象集中各个对象对应的特征数据,确定所述抽样对象集中检验结果为异常的对象在目标特征维度上所占的资源量比例;
将所述数量比例以及所述资源量比例,确定为评估参数。
4.如权利要求3所述的方法,其特征在于,所述基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果,包括:
确定所述异常对象集中的对象的总数量,并基于所述数量比例和所述总数量确定所述异常对象集中的异常对象数量;
基于所述待处理数据集中各个对象对应的特征数据,确定所述异常对象集中的对象在所述目标特征维度上的总资源量,并基于所述资源量比例和所述总资源量确定所述异常对象集中的异常对象在所述目标特征维度上的目标资源量;
基于所述异常对象数量以及所述目标资源量确定所述目标应用程序的评估结果。
5.如权利要求1所述的方法,其特征在于,所述基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集,包括:
利用目标异常对象筛选模型对所述多组对象数据进行处理,以使所述目标异常对象筛选模型基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象;
基于所述目标异常对象筛选模型确定的各个异常对象生成异常对象集。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
获取包括正常样本子集和异常样本子集的训练样本集;所述正常样本子集中的每一组对象数据包括正常对象的正常标识以及所述正常对象对应的特征数据,所述异常样本子集中的每一组对象数据包括异常对象的异常标识以及所述异常对象对应的特征数据;
利用所述训练样本集对初始异常对象筛选模型进行训练,并基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型。
7.如权利要求6所述的方法,其特征在于,异常对象筛选模型为决策树模型,所述训练后的异常对象筛选模型的叶子节点所经过的一条路径指示一种异常对象筛选规则;所述基于训练后的异常对象筛选模型生成所述目标异常对象筛选模型,包括:
获取所述训练后的异常对象筛选模型所指示的各个异常对象筛选规则的筛选效果评估参数,并从所述各个异常对象筛选规则中确定筛选效果评估参数小于或等于筛选效果阈值的待调整异常对象筛选规则;
基于所述待调整异常对象筛选规则对所述训练后的异常对象筛选模型进行调整,得到所述目标异常对象筛选模型。
8.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理数据集,所述待处理数据集中包括目标应用程序相关的多组对象数据,每一组对象数据包括对象以及所述对象对应的特征数据;
处理单元,用于基于所述待处理数据集中各个对象对应的特征数据,从所述待处理数据集中确定异常对象集;
所述处理单元,还用于从所述异常对象集中确定抽样对象集,并基于所述抽样对象集的检验结果确定评估参数;
所述处理单元,还用于基于所述评估参数、所述异常对象集以及所述待处理数据集中各个对象对应的特征数据,确定所述目标应用程序的评估结果。
9.一种计算机设备,其特征在于,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行如权利要求1-7中任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的数据处理方法。
CN202110699025.5A 2021-06-23 2021-06-23 一种数据处理方法、装置、计算机设备及存储介质 Pending CN115511428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110699025.5A CN115511428A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110699025.5A CN115511428A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115511428A true CN115511428A (zh) 2022-12-23

Family

ID=84499736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110699025.5A Pending CN115511428A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115511428A (zh)

Similar Documents

Publication Publication Date Title
Mitchell et al. Bayesian model selection with BAMM: effects of the model prior on the inferred number of diversification shifts
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN110532301B (zh) 审计方法、系统和可读存储介质
CN106408325A (zh) 基于用户支付信息的用户消费行为预测分析方法及系统
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、系统、介质及设备
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN113762973A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN117934154A (zh) 交易风险预测方法、模型训练方法、装置、设备、介质和程序产品
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
WO2021129368A1 (zh) 一种客户类型的确定方法及装置
CN113240259A (zh) 规则策略组的生成方法、系统及电子设备
CN112950359A (zh) 一种用户识别方法和装置
CN112598326A (zh) 模型迭代方法、装置、电子设备及存储介质
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN115511428A (zh) 一种数据处理方法、装置、计算机设备及存储介质
KR102336462B1 (ko) 신용평가정보 제공 장치 및 방법
CN115293783A (zh) 风险用户识别方法、装置、计算机设备和存储介质
CN114912538A (zh) 信息推送模型训练方法和信息推送方法、装置及设备
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN110766544A (zh) 信用风险的检测方法及装置、存储介质、电子装置
CN116308444A (zh) 数据处理方法及装置、电子设备、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40080348

Country of ref document: HK