CN112837061A - 一种数据处理方法和相关装置 - Google Patents
一种数据处理方法和相关装置 Download PDFInfo
- Publication number
- CN112837061A CN112837061A CN202110217143.8A CN202110217143A CN112837061A CN 112837061 A CN112837061 A CN 112837061A CN 202110217143 A CN202110217143 A CN 202110217143A CN 112837061 A CN112837061 A CN 112837061A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- transaction
- classified
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
- G06Q20/3829—Payment protocols; Details thereof insuring higher security of transaction involving key management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4014—Identity check for transactions
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种数据处理方法,该方法包括:根据样本用户标识和样本用户行为数据生成分类树,分类树中从根节点到任一叶节点的分支用于标识样本用户行为数据;将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将目标叶节点对应的父节点确定为特征用户交易行为,该特征用户交易行为可以用于对待分类用户标识进行初筛。处理设备可以根据样本数据生成能够体现出每一个用户对应用户行为数据的分类树,通过该分类树确定出特征用户交易行为,具有该特征用户交易行为的用户为异常用户的概率较高。通过初步筛选,降低最终输入分类模型中的数据量,在确保了分类模型分类精度的同时提高了分类效率和响应速度。
Description
技术领域
本申请涉及用户数据分析技术领域,特别是涉及一种数据处理方法和相关装置。
背景技术
交易安全是当下人们关注的重点问题之一,对用户的交易行为进行分析是判断用户是否涉及一些异常行为的常用手段。
相关技术中,在对用户的交易行为进行分析时,通常需要将所有用户的交易行为信息都输入到分类模型中进行分类,这就会导致分类模型需要处理大量的用户数据,不利于提高模型的处理效率和响应速度。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法,处理设备可以根据样本数据生成能够体现出每一个用户对应用户行为数据的分类树,通过该分类树确定出特征用户交易行为,具有该特征用户交易行为的用户为异常用户的概率较高。从而,处理设备可以通过该特征用户交易行为对待分类用户标识进行初步筛选,降低最终输入分类模型中的数据量,在确保了分类模型分类精度的同时提高了分类效率和响应速度。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
获取待分类用户标识和对应的待分类用户行为数据;
若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括第一获取单元、生成单元、第一确定单元、第二获取单元和第二确定单元:
所述第一获取单元,用于获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
所述生成单元,用于根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
所述第一确定单元,用于将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
所述第二获取单元,用于获取待分类用户标识和对应的待分类用户行为数据;
所述第二确定单元,用于若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
第三方面,本申请实施例提供了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中所述的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中所述的数据处理方法。
由上述技术方案可以看出,在对待用户标识进行分类处理之前,可以先对待分类的用户表示进行较为简单的筛选,降低最终分类处理的数据量。为了能够进行有效的初筛,可以先获取样本用户标识和对应的样本用户行为数据,该样本用户标识标注有对应的用户类别,该用户类别包括正常用户和异常用户,该样本用户行为数据用于确定该样本用户标识对应用户的用户交易行为。随后,为了能够确定出一个能够进行筛选的特征标准,可以根据该样本用户标识和该样本用户行为数据生成分类树,该分类树的叶节点为该样本用户标识,该分类树的枝节点为该用户交易行为,该分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据。若某一叶节点中用户类别为异常用户的样本用户标识占比超过第一预设阈值,则说明该能够达到该叶节点的分支上的用户交易行为有较大概率为异常用户具有的交易行为。基于此,可以将该叶节点作为目标叶节点,并将在分支上距离该叶节点最近、关系最为密切节点,即该目标叶节点对应的父节点确定为特征用户交易行为,该特征用户交易行为即为异常用户有较大概率会做的交易行为。基于此,在进行初步筛选时,可以获取待分类用户标识和对应的待分类用户行为数据,若根据目标待分类用户行为数据能够确定出该特征用户交易行为,则该目标待分类用户行为数据对应的用户有较大概率为异常用户。因此,可以将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类,在后续分类过程中,只需对这部分用户标识进行分类即可,从而在保证了分类准确度的同时,在一定程度上降低了分类处理的数据量,提高了分类处理的效率和响应速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实际应用场景中数据处理方法的示意图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为本申请实施例提供的一种数据处理方法的示意图;
图4为本申请实施例提供的一种数据处理方法的示意图;
图5为本申请实施例提供的一种数据处理装置的结构框图;
图6为本申请实施例提供的一种计算机设备的结构图;
图7为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
根据用户在各种交易软件、交易场景中的用户交易行为,对用户类型进行分类判断是现在对交易进行保护分析的常见手段。相关技术中,为了从大量的用户中分辨出异常用户,需要将全部用户的用户数据输入到分类模型中进行分类,这就会给分类模型带来大量的数据处理压力,极大的降低了分类效率和分类速度。
为了解决上述技术问题,本申请提供了一种数据处理方法,处理设备可以根据样本数据生成能够体现出每一个用户对应用户行为数据的分类树,通过该分类树确定出特征用户交易行为,具有该特征用户交易行为的用户为异常用户的概率较高。从而,处理设备可以通过该特征用户交易行为对待分类用户标识进行初步筛选,降低最终输入分类模型中的数据量,在确保了分类模型分类精度的同时提高了分类效率和响应速度。
可以理解的是,该方法可以应用于处理设备上,该处理设备为具有数据处理功能的处理设备,例如可以是具有数据处理功能的终端设备或服务器。该方法由终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合运行。其中,终端设备可以为手机、台式计算机、个人数字助理(Personal DigitalAssistant,简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
此外,本申请还涉及人工智能技术(Artificial Intelligence,AI)。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,本申请技术方案主要涉及其中的机器学习技术和计算机视觉技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,在本申请实施例中,处理设备可以通过计算机视觉技术识别转账红包中的文本内容,还可以利用机器学习技术,通过分类树确定特征用户交易行为,并对待分类用户标识进行初步筛选。
同时,本申请还涉及区块链技术。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
例如,本申请所公开的数据处理方法中,样本用户行为数据、待分类用户行为数据等数据可以保存在区块链上。此外,该方法可能涉及多个处理服务器,多个服务器可以组成一区块链,服务器为区块链上的节点。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种数据处理方法进行介绍。
参见图1,图1为本申请实施例提供的一种实际应用场景中数据处理方法的示意图。在该实际应用场景中,处理设备为能够进行数据处理的服务器101。
首先,服务器101可以获取样本用户标识和对应的样本用户行为数据,该样本用户标识标注有对应的用户类别,例如可以标注有为异常用户还是正常用户,该样本用户行为数据可以用于确定样本用户标识对应用户的用户交易行为,该用户交易行为即用户在交易过程中可能做出的行为。为了能够基于这些样本数据确定出一个能够对数据进行初筛的特征标准,服务器101可以对用户在交易中做过的用户交易行为进行分析,从中确定出普遍出现在异常用户身上,而很少出现在正常用户中的用户交易行为来作为特征标准,即做过这些用户交易行为的用户有较大概率可能为异常用户。
基于此,服务器101可以根据样本用户标识和样本用户行为数据生成分类树,该分类树的叶节点为样本用户标识,枝节点为用户交易行为。如图1所示,图1中提供了一种分类树的示意图,服务器101可以基于每一个样本用户标识对应的样本用户行为数据生成分类树中的一个分支,该分类树中从根节点到任一叶节点的分支可以用于标识至少一个样本用户标识对应的样本用户行为数据。例如,若根据某一样本用户标识所对应的样本用户行为数据,能够确定出用户交易行为A、用户交易行为B和用户交易行为C这三个用户交易行为,则通过样本用户行为数据,可以得到一条由这三个用户交易行为作为枝节点,该样本用户标识作为叶节点的分支。
服务器101可以对每一个叶节点中样本用户标识的用户类别进行统计,若某一叶节点中用户类别为异常用户的样本用户标识占比超过第一预设阈值,则说明该叶节点中的异常用户较多。由于该叶节点中的样本用户标识是基于对应的枝节点进行分类得到的,因此,在一定程度上可以说明满足该叶节点所对应枝节点的样本用户标识为异常用户的概率较大,该枝节点中的用户行为数据即具有对用户标识的用户类型进行判断的能力。基于此,服务器101可以将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将该目标叶节点对应的父节点确定为特征用户交易行为,该特征用户交易行为即可以作为对用户标识进行初筛的特征标准。
如图1所示,在图1展示的分类树中,第一预设阈值可以设置为50%,其中经过统计可知,有三个叶节点中的异常用户占比超过了50%,即有三个叶节点可以被确定为目标叶节点,该目标叶节点的父节点即为上一层枝节点中与该目标叶节点具有连接关系的枝节点,如图所示,该目标叶节点能够确定出三个父节点作为特征用户交易行为。
在进行初筛时,服务器101可以获取待分类用户标识和对应的待分类用户行为数据,并判断每一个待分类用户标识的待分类用户行为数据能够确定出该特征用户交易行为。若根据目标待分类用户行为数据能够确定出该特征用户交易行为,则说明该目标待分类用户行为数据对应的目标待分类用户标识的用户类别有较大概率可能为异常用户。例如,当特征用户交易行为中包括用户交易行为A时,说明具有该用户交易行为A的用户有较大概率为异常用户,若服务器101能够根据某一待分类用户行为数据确定出该用户交易行为A,则可以说明该待分类用户行为数据对应的待分类用户标识的用户类型有较大概率为异常用户。
基于此,服务器101可以将该目标待分类用户标识存入待分类集合,该待分类集合中的待分类用户标识用于进行标识分类,从而在后续的具体分类过程中,分类模型只需要对该待分类集合中的用户标识进行分类识别即可。由此可见,在本实际应用场景中,通过确定出一个合理的特征用户交易行为对待分类用户进行初筛,能够在保障分类准确度的同时,一定程度上降低分类模型需要处理的数据量,提高了分类模型的分类效率,降低了模型处理压力。
接下来,将结合附图,对本申请实施例提供的一种数据处理方法进行介绍。
参见图2,图2为本申请实施例提供的一种数据处理方法的流程图,该方法包括:
S201:获取样本用户标识和对应的样本用户行为数据。
其中,为了能够得到可以用于对用户类别进行初步判断的特征标准,该样本用户标识标注有对应的用户类别,该用户类别包括正常用户和异常用户,异常用户即为通过对应的用户行为数据进行分类判断得到的在交易行为中较为异常的用户。其中,该用户类别可以是通过已有的针对用户的分类模型所确定出的。
该样本用户行为数据为通过对样本用户标识对应的用户的用户行为进行记录所得到的数据,可以用于确定样本用户标识对应用户的用户交易行为。其中,用户交易行为是指用户在交易过程中所作出的用户行为,例如可以为“向用户A转账100元”、“从银行A中取现10000元”等。
S202:根据样本用户标识和样本用户行为数据生成分类树。
可以理解的是,若某一用户交易行为在异常用户的用户交易行为中出现次数较多,而在正常用户的用户交易行为中出现次数较少,则说明该用户交易行为为异常用户有较大概率会作出的用户交易行为。从另一角度上来看,即做出该用户交易行为的用户比没有做出该用户交易行为的用户有更大的概率为异常用户。因此,若能够找出这种用户交易行为,则可以根据该用户交易行为对待分类的用户进行初步筛选,从中挑选出异常可能性较高的用户交付给分类模型进行具体判断。
在本申请实施例中,处理设备可以通过分类树来确定上述用户交易行为。其中,分类树为一种能够基于节点对数据进行多种分类的数据结构,通过分类树中多样化的节点,能够按照数据处理需求对数据进行较为细致的分类。基于此,处理设备可以利用分类树结构,通过用户交易行为来对样本用户标识进行分类,从而能够基于分类结果中的样本用户标识对应用户类别情况,来确定出能够大概率分类得到异常用户的用户交易行为。若基于某一用户交易行为所分类得到的样本用户标识为异常用户的概率较大,在一定程度上可以说明通过该用户交易行为可以对异常用户有较好的区分度,即该用户交易行为可以作为上述进行初步筛选的特征标准。
在该分类树中,从根节点到任一叶节点的分支可以用于标识至少一个样本用户标识对应的样本用户行为,即在获取到的样本用户标识中,对应于分类树中的任意一个分支,都至少存在一个样本用户标识对应的样本用户数据,满足根据该数据能够确定出该分支上包括的所有用户交易行为。例如,若某一从根节点到叶节点的分支中包括“用户交易行为A”、“用户交易行为B”和“用户交易行为C”这三个枝节点,根据某一样本用户标识对应的样本用户行为数据可以确定出这三个用户交易行为,则该样本用户标识可以放入该分支的叶节点中,从而完成对样本用户标识的分类。
S203:将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将目标叶节点对应的父节点确定为特征用户交易行为。
在通过分类树完成对样本用户标识的分类处理后,处理设备可以对每一个叶节点中的样本用户标识情况进行分析。其中,处理设备首先可以确定出一个第一预设阈值,该第一预设阈值用于对叶节点进行分析。处理设备可以对每一个叶节点中样本用户标识的用户类型进行统计,若某一叶节点中用户类别为异常用户的样本用户标识占比超过第一预设阈值,则说明该叶节点中异常用户的比例较高。
由于每一个叶节点都是通过对应分支上的枝节点分类得到的,且与叶节点之间距离越短的枝节点对叶节点的分类就越具有代表性,因此,若某一叶节点满足上述第一预设阈值,则处理设备可以从该叶节点对应的枝节点中确定出对该叶节点的分类结果有较大影响的枝节点,该枝节点所对应的用户交易行为有较大概率能够使样本用户标识落入该叶节点中。
基于此,处理设备可以将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将该目标叶节点对应的父节点确定为特征用户交易行为。其中,父节点是指目标叶节点所对应的上一级枝节点,即该父节点与该目标叶节点之间为直接连接关系,不包含其他枝节点,因此该父节点为与该目标叶节点之间距离最小的枝节点,有较强的代表作用。由于能够确定出该特征用户交易行为的用户行为数据有较大概率为异常用户的用户行为数据,因此,该特征用户交易行为在一定程度上能够作为从用户标识中筛选出异常概率较大的用户标识的特征标准。
其中,在确定特征用户交易行为时,除了可以将全部目标叶节点对应的父节点都确定为特征用户交易行为之外,处理设备还可以有多种方式进行确定。例如,在一种可能的实现方式中,为了精简特征用户交易行为的数量,提高后续筛选的效率,处理设备可以先统计目标叶节点对应的父节点中是否包括重复的用户交易行为,并将其中重复数量最多的N个用户交易行为确定为特征用户交易行为,该特征用户交易行为对比于其他父节点的用户交易行为有更强的代表性,从而能够在保障筛选准确度的同时进一步提高了筛选速度。
S204:获取待分类用户标识和对应的待分类用户行为数据。
在确定出特征用户交易行为后,处理设备可以利用该特征用户交易行为,在对待分类用户标识进行分类之前进行初步筛选,从中筛选出异常用户概率较高的待分类用户标识进行分类,从而能够在一定程度上降低分类处理的数据量。首先,处理设备可以获取待分类用户标识和对应的待分类用户行为数据,该待分类用户标识为还没有确定出对应用户类型的用户标识。
S205:若根据目标待分类用户行为数据确定出特征用户交易行为,将目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合。
处理设备可以基于每一个待分类用户标识对应的待分类用户行为数据,确定该待分类用户所做过的用户交易行为。其中,若根据目标待分类用户行为数据确定出该特征用户行为,则说明该目标待分类用户行为数据对应的用户有较大概率可能为异常用户。此时,处理设备可以将该目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,该待分类集合中的待分类用户标识用于进行标识分类。从而,在后续分类过程中,只需要对该待分类集合中的待分类用户标识进行分类即可,避免了由于对一些异常概率过低的用户标识进行分类而浪费时间。其中,目标待分类用户数据可以为待分类用户行为数据中的任意一个数据。
由上述技术方案可以看出,在对待用户标识进行分类处理之前,可以先对待分类的用户表示进行较为简单的筛选,降低最终分类处理的数据量。为了能够进行有效的初筛,可以先获取样本用户标识和对应的样本用户行为数据,该样本用户标识标注有对应的用户类别,该用户类别包括正常用户和异常用户,该样本用户行为数据用于确定该样本用户标识对应用户的用户交易行为。随后,为了能够确定出一个能够进行筛选的特征标准,可以根据该样本用户标识和该样本用户行为数据生成分类树,该分类树的叶节点为该样本用户标识,该分类树的枝节点为该用户交易行为,该分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据。若某一叶节点中用户类别为异常用户的样本用户标识占比超过第一预设阈值,则说明该能够达到该叶节点的分支上的用户交易行为有较大概率为异常用户具有的交易行为。基于此,可以将该叶节点作为目标叶节点,并将在分支上距离该叶节点最近、关系最为密切节点,即该目标叶节点对应的父节点确定为特征用户交易行为,该特征用户交易行为即为异常用户有较大概率会做的交易行为。基于此,在进行初步筛选时,可以获取待分类用户标识和对应的待分类用户行为数据,若根据目标待分类用户行为数据能够确定出该特征用户交易行为,则该目标待分类用户行为数据对应的用户有较大概率为异常用户。因此,可以将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类,在后续分类过程中,只需对这部分用户标识进行分类即可,从而在保证了分类准确度的同时,在一定程度上降低了分类处理的数据量,提高了分类处理的效率和响应速度。
可以理解的是,由于用户行为数据可以包括多种数据内容,因此在基于用户行为数据确定用户交易行为时,具体的确定方式也可以包括多种。为了使该分类树能够尽可能的对所有目标样本用户标识都进行分类,在一种可能的实现方式中,针对于目标样本用户标识,处理设备可以统计目标样本用户标识对应的目标样本用户行为数据中各个行为内容的行为次数和行为频率,该行为内容是指在用户行为数据中所记录的用户行为,例如可以为“向银行转账A元”等,行为次数是指在该样本用户行为数据中所记录的用户行为出现的次数,行为频率可以基于该行为次数和预设时段进行确定。
其中,目标样本用户标识可以为样本用户标识中的任意一个,通过上述统计过程,处理设备可以获知在样本用户行为数据中都出现过哪些用户行为、以及这些用户行为出现过的次数和频率,从而在基于该行为内容、行为次数和行为频率,确定用户交易行为后,能够使确定出的用户交易行为可以满足全部样本用户标识的分类需求。例如,在经过统计后,若确定出“向银行转账A元”这一行为内容在每一个样本用户行为数据中最多出现6次,最少出现2次,则可以基于2-6次该行为内容来确定用户交易行为,例如可以确定出的用户交易行为有“向银行转账A元等于大于2次”、“向银行转账A元大于3次”到“向银行转账A元大于5次”,从而能够使确定出的用户交易行为能够较为细致且全面的对样本用户标识进行分类。
上已述及,用户行为数据中可以记录有用户的行为内容,处理设备在对用户行为数据进行分类时,可以基于该行为内容对用户交易行为进行分析。可以理解的是,当该行为内容中所包括的信息丰富度越高时,在分类时分类模型的分析也就能够从更多维度来进行,从而能够进一步提高分类的准确度。基于此,在一种可能的实现方式中,为了提高行为内容的信息丰富度,处理设备可以在用户行为数据中添加更多层面的与用户交易相关的信息。例如,在本申请实施例中,该待分类用户行为数据中可以包括待分类用户标识对应的行为内容,该行为内容可以包括交易时间、交易金额特征、交易时间特征中的任意一种或多种的组合。
其中,交易时间特征用于标识行为内容发生的时间是否为特殊时间,例如是否为凌晨发生的交易等;该交易金额特征用于标识该行为内容涉及的交易金额是否为特殊数值,例如是否为整十整百的金额数值等;交易时间是指该行为内容发生的时间。通过这些多维度的信息,处理设备基于待分类用户行为数据对待分类用户标识进行更加准确的判断。
可以理解的是,由于交易是用户在日常生活中的经常发生的行为,因此每一个待分类用户标识都可以对应有大量的待分类用户行为数据。其中,由于交易发生的时间、交易涉及的金额等都可以对应多种多样的信息,而每一个单独的时间、金额等都可能会使用户行为数据中产生一条独特的行为内容,因此会使处理设备在对待分类用户行为数据进行分析时,会识别到种类繁多的行为内容。
基于此,为了进一步提高对待分类用户行为数据进行分析的效率,使对用户标识的识别、分类过程更加高效,处理设备可以尝试对行为内容的种类进行合理的缩减,从而降低用户行为数据中的数据量,进一步减轻处理设备的分类处理压力。其中,对行为内容的种类进行缩减可以从多个角度来进行,下面将分类进行详细叙述。
从交易时间层面来讲,可以理解的是,如果同一用户的两个不同的行为内容所对应的交易时间较为接近或同属一个时间段,则这两个行为内容可能具有较高的相似度,即可能为用户出于同一交易目的或在同一交易场景中所作出的行为内容。若确定多个行为内容之间相似度较高,处理设备可以对多个行为内容进行合并处理,从而只需要一个行为内容加上该行为内容对应的交易次数,即可表示出上述多个相似度较高的行为内容,该交易次数是指上述多个相似度较高的行为内容的个数。基于此,在一种可能的实现方式中,处理设备可以先根据第一待分类用户标识对应的分类场景确定分组时间区间,该分组时间区间用于基于交易时间对行为内容进行分组处理,该第一待分类用户标识可以为任意一个待分类用户标识,该分类场景能够体现出对用户标识进行分类的分类目的,例如可以包括赌博用户分类场景、诈骗用户分类场景等。
处理设备可以通过该分组时间区间和上述交易时间,对第一待分类用户标识对应的第一待分类用户行为数据中包括的行为内容进行分组处理。例如,在赌博用户分类场景,即分类判断用户是否为涉及赌博的用户时,该分类时间区间可以为6小时,处理设备可以对该行为内容每经过6小时划分一个小组,该小组中的行为内容对应的交易时间都处于同一个6小时时间段中;在诈骗场景中,该分类时间区间可以设定为1小时。
处理设备可以获取目标行为内容组中的多个行为内容,该目标行为内容组可以为分组处理后的任意一个行为内容组。为了实现对用户行为数据的精简,处理设备可以根据该多个行为内容,确定目标行为内容组对应的特征行为内容,该特征行为内容为能够用于体现上述多个行为内容。从而,处理设备可以将该第一待分类用户行为数据中的上述多个行为内容替换为该特征行为内容,使在该第一待分类用户行为数据中只需通过该特征行为内容即可展现出上述多个行为内容,精简了第一用户行为数据的数据量。
具体来说,为了能够确定出该特征行为内容,处理设备首先需要确定出该目标行为内容组中多个行为内容的共通点,只有当该多个行为内容之间相似度较高时,处理设备才能够成功通过一个特征行为内容对该多个行为内容进行表示。在一种可能的实现方式中,为了准确的对该目标行为内容组中的多个行为内容进行合并处理,处理设备可以先通过词向量模型确定多个行为内容之间的相似度,通过该词向量模型,处理设备可以将每一个行为内容转换为其对应的词向量,从而能够使处理设备从多个维度对行为内容进行充分理解。通过对应词向量之间的相似度,处理设备能够较为准确的确定出行为内容之间的相似度。
为了判断不同行为内容之间是否相似,处理设备可以预设一个第二预设阈值,该第二预设阈值可以为处理设备根据大数据分析得到的,也可以为人为经验设定的。若多个行为内容之间相似度均满足该第二预设阈值,则说明多个行为内容之间相似度较高,即可能在交易金额特征、交易时间特征以及交易时间等方面较为接近,因此可以视为同一个行为内容。此时,处理设备可以将多个行为内容合并为特征行为内容。其中,为了体现出多个行为内容所对应的发生次数,处理设备可以设定该特征行为内容对应的交易次数,该交易次数为该多个行为内容的个数,该特征行为内容为多个行为内容中出现次数对应的行为内容。最后,处理设备可以将该交易次数添加至该特征行为内容中,从而使该特征行为内容能够包括合理且充足的信息来表示该目标行为内容组中的多个行为内容。
例如,如图3所示,图3为一种对行为内容进行合并处理的示意图。其中,由字母组成的字母串表示一个用户标识对应的用户行为数据,每一个字母为一个行为内容。首先,处理设备可以以6小时为时间区间,将该用户行为数据划分为3个行为内容组,在经过相似度分析后,处理设备确定该3个行为内容组中的行为内容对应的词向量都满足相似度大于0.9。由于在3个行为内容组中出现次数最多的行为内容分别为a、f和h,因此,确定出的特征行为内容分为为“a,4次”、“f,5次”和“h,10次”,该特征行为内容能够较为清晰的表示出一个行为内容组中的多个行为内容。可以理解的是,在经过上述处理后,最终用户行为数据可以由成功合并的特征行为内容和未成功合并的行为内容组成,该特征行为内容和行为内容之间的区别在于特征行为内容具有对应的不为1的交易次数;行为内容也可以视为具有交易次数,比如该交易次数可以默认为1。
可以理解的是,在进行行为内容合并后,实际上用户行为数据中只剩下有特征行为内容。由于该特征行为内容除交易次数外,其他信息与原行为内容的信息内容和格式基本一致,因此在除合并外的其他针对行为内容的处理过程中,该特征行为内容可以同样视为行为内容进行相同处理。例如,在该用户行为数据成为样本用户行为数据后,可以根据该特征行为内容来确定用户交易行为,该用户交易行为中多包括有一项交易次数。
在上述数据精简处理的基础上,为了进一步减少用户行为数据中所包括的数据种类,处理设备还可以基于上述交易次数精简数据种类。可以理解的是,当两个特征行为内容所对应的交易次数较为接近时,其在交易次数这一层面上的特征就较为接近,在具体的分类识别处理过程中,从交易次数层面进行分析时,可能不会识别出较大差别,即在保证分类精确度的前提下,可以将其视为具有相同的交易次数特点。基于此,在一种可能的实现方式中,处理设备可以进一步根据第一待分类用户标识对应的分类场景,划分交易次数区间,该交易次数区间用于对特征行为内容对应的交易次数进行分组处理。
处理设备可以根据特征行为内容对应的交易次数,确定特征行为内容对应交易次数区间,然后将特征行为内容中的交易次数替换为该特征行为内容对应的交易次数区间。例如,在赌博场景中,该交易次数区间可以为“<3次”、“3-6次”、“7-10次”等,在诈骗场景中,该交易次数区间可以为“1次”、“2-5次”、“6-10次”等。从而,经过上述处理,可以从原先第一个交易次数就可以生成一个交易次数种类,转变为基于交易次数区间生成交易次数种类,可以从交易次数层面上精简对应的特征种类,使后续分类识别处理在保障了精确度的情况下进一步的提高了处理效率和速度。例如,原特征行为内容中的交易次数种类可能为“1次”、“2次”、“3次”、“5次”这四个种类,在赌博场景下,经过交易次数分组处理后可以变为“<3次”、“3-6次”这两个种类。
可以理解的是,除了交易次数可以包括多种多样的情况,同样以数字形式进行表示的交易金额也可能包括众多的金额种类。因此,除了对交易次数进行分组处理外,处理设备还可以对行为内容所对应的交易金额进行相似的处理,从而进一步精简行为内容的种类。在一种可能的实现方式中,针对待分类用户标识中的第二待分类用户标识,处理设备可以根据第二待分类用户标识对应的分类场景,划分交易金额区间,该交易金额区间用于对行为内容中的交易金额进行分组处理。例如,在赌博场景中,该交易金额区间可以为“>1w”、“1k-1w”、“100-1k”、“10-100”、“<10”等;在诈骗场景中,该交易金额区间可以为“>1w”、“1k-1w”、“200-1k”、“50-100”、“<50”等。
处理设备可以根据第二待分类用户行为数据中行为内容对应的交易金额,确定该行为内容对应的交易金额区间,该第二待分类用户行为数据为该第二待分类用户标识对应的用户行为数据。处理设备可以将该交易金额区间添加至该行为内容中,从而,在从交易金额层面上对用户标识进行分类处理时,处理设备可以在确保准确度的情况下,以较少的交易金额种类即可实现对用户标识的分类,进一步提高了分类效率。例如,原本在交易金额层面上进行分类时,行为内容对应的交易金额种类可以为每一个不同的数值都对应于一个种类,在进行交易金额分组后,可以以较少分组对多个不同的交易金额进行表示。
可以理解的是,虽然上述处理过程是针对于待分类用户行为数据进行的,但是在待分类用户行为数据经过分类后,也可以作为样本用户行为数据来确定特征用户交易行为,对后续过程中的其他待分类用户行为数据进行初筛。因此,该样本用户行为数据中也可以以特征行为内容的方式来表示行为内容,以交易金额区间、交易次数区间的形式来表示对应信息,此处不做赘述。
此外,可以理解的是,若某一行为内容在异常用户和正常用户对应的用户行为数据中出现的次数或频率较为一致,则说明该行为内容为用户在交易过程中普遍会做的行为内容,这部分行为内容也就缺乏对用户类型的区分度,对分类识别过程难以起到较大作用。因此,为了进一步降低处理设备需要处理的数据量,提高分类识别或进行初筛的效率,处理设备还可以对样本用户标识对应的样本用户行为数据中的行为内容进行统计,并将在异常用户类别和正常用户类别标识对应的样本用户行为数据中出现次数和频率较为一致的行为内容确定出来。在确定用户交易行为或获取待分类用户行为数据后,处理设备可以直接将用户行为数据中的这部分行为内容去除,从而进一步精简用户行为数据的数据量,提高处理设备的处理效率。
例如,如图4所示,图4为一种对某一行为内容进行频率统计的示意图。在该图表中,横坐标为样本用户标识的编号,纵坐标为该行为内容在对应样本用户行为数据中发生的频率。由表可知,在40个包括异常用户类型和正常用户类型的样本用户标识对应的样本用户行为数据中,该行为内容发生的频率都在0.0016左右,因此该行为内容并不能够对用户类型产生很好的区分度,可以进行去除。
除了上述去除方式外,处理设备还可以针对一些特定情况对行为内容进行去除。例如,处理设备可以判断行为内容中的交易金额是否为具有特殊数字结尾,如“999”结尾等,由于此类特殊数字结尾通常在购物中出现的概率较大,例如商家在进行推销时,经常采用999作为金额结尾来吸引用户。由此可见,具有此类数字结尾的交易金额大概率为正常行为内容中的交易金额,对判断是否为异常用户也起不到较高的作用,可以进行去除。此外,处理设备还可以对红包、转账等交易方式的行为内容中标注的文本信息进行识别,若包括一些祝福类文本或购物类文本,则说明该红包、转账大概率是为了进行商品购买或节日祝贺等行为,这部分行为内容为正常行为内容的概率较大,因此也可以进行去除。
综上所述,在对行为内容进行精简时,主要去除的部分实际上为大概率为正常行为的部分,保留难以对行为内容进行定性的部分,去除部分通常难以起到对异常用户识别的作用,从而在确保了分类有效度的同时降低了所需进行分类识别的数据量。
为了便于理解本申请实施例的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种数据处理方法进行介绍。
在该实际应用场景中,处理设备可以为用于进行用户分类的服务器。在赌博或诈骗等异常情况发生后,处理设备可以获取异常事件发生时间节点附近时间段的待分类用户行为数据,例如该时间段可以为[t-10,t+1],t为异常事件发生的时间节点,该时间段标识异常事件发生的前10小时到异常事件发生后的1小时。待分类用户行为数据中的行为内容可以为如下格式:
(交易方式,交易金额区间,交易金额特征,交易时间特征)
其中,交易方式可以包括如下代码中的任意一种:
BIND绑卡;UNBINd解绑;S_C2B用户付款给企业;S_HB付个人红包;S_QHB付群红包;R_HB收个人红包;R_QHB收群红包;S_TOBANK付到银行卡;S_PAYCREDIT付到信用卡;S_TRANSFER付款转账;S_F2F付款面对面;S_AA付款群收款;S_ZANSHANG付款赞赏码;S_BYCELL付款到手机号;S_XJF付款小经费;R_TRANSFER收款转账;R_F2F收款面对面;R_AA收款群收款;R_ZANSHANG收款赞赏码;R_BYCELL收款到手机号;R_XJF收款小经费;R_B2C_HB_NOT_ARRIVAL收款企业红包(未到账);R_B2C_HB收款企业红包(到账);UNREG注销;WITHDRAW提现;SELF转账给自己同身份证的账号。
当异常事件为赌博场景时,在对用户行为数据中不具有区分度的行为内容进行去除后,服务器可以以6小时为时间区间进行行为内容合并,将用户行为数据中的行为内容合并为特征行为内容,该特征行为内容的格式如下:
(交易方式,交易金额区间,交易金额特征,交易时间特征,交易次数)
以代码表示举例如下:
R_TRANSFER_200-1k_1_not-dawn_times=1#WITHDRAW_<50_times=1
其中,#为两个特征行为内容之间的连接符,R_TRANSFER_200-1k_1_not-dawn_times=1表示行为内容(非凌晨转账收款,金额交易区间为200-1000元,金额特征为整十整百或特殊数字结尾,交易次数为1次)。
在合并后,服务器可以对交易次数和交易金额进行分组处理。随后,服务器可以直接将处理后的待分类用户行为内容及其对应的待分类用户标识输入到分类模型中进行分类处理,得到用户类型已知的多个样本用户标识和对应的样本用户行为数据。随后,服务器可以根据该样本用户标识和样本用户行为数据确定分类树,从中确定出特征用户交易行为。如下表所示,该表格为一种对样本用户行为数据中行为内容的次数和频率进行统计的示意表:
R_AA<50,time=1 | S_XJF,50-100,time=1 | R_HB,100-200,time=2 | |
2735 | 23 | 11 | 45 |
2471 | 81 | 34 | 11 |
4812 | 37 | 28 | 78 |
其中,R_AA<50,time=1表示“收款群收款,金额小于50,交易次数1次”这一行为内容,由于该样本用户数据为经过行为内容合并的数据,因此该行为内容实际上为一种特殊行为内容,其中包括交易次数;S_XJF,50-100,time=1表示“付款小经费,金额50-100,交易次数1次”,R_HB,100-200,time=2表示“收个人红包,金额100-200,交易次数两次”。2735、2471和4812可以为三个样本用户标识,表格中分别包括这几个样本用户标识对应上述行为内容的行为次数。
当后续时间中再次出现赌博事件时,处理设备可以在获取待分类用户行为数据后,可以基于该特征用户交易行为对待分类用户标识进行初筛,得到部分涉及赌博概率较高的待分类用户标识,将这部分初筛后的待分类用户标识输入到分类模型中进行分类,从而降低了分类模型的数据处理量,提高了分类效率和相应速度。
基于上述实施例提供的一种数据处理方法,本申请实施例还提供了一种数据处理装置。参见图5,图5为本申请实施例提供的一种数据处理装置500的结构框图,该装置500包括第一获取单元501、生成单元502、第一确定单元503、第二获取单元504和第二确定单元505:
第一获取单元501,用于获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
生成单元502,用于根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
第一确定单元503,用于将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
第二获取单元504,用于获取待分类用户标识和对应的待分类用户行为数据;
第二确定单元505,用于若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
在一种可能的实现方式中,生成单元502具体用于:
统计目标样本用户标识对应的目标样本用户行为数据中各个行为内容的行为次数和行为频率;
基于所述行为内容、行为次数和行为频率,确定所述用户交易行为;
将所述用户交易行为作为枝节点生成所述分类树。
在一种可能的实现方式中,所述待分类用户行为数据中包括所述待分类用户标识对应的行为内容,所述行为内容包括交易时间、交易金额特征、交易时间特征中的任意一种或多种的组合,所述交易时间特征用于标识所述行为内容发生的时间是否为特殊时间,所述交易金额特征用于标识所述行为内容涉及的交易金额是否为特殊数值。
在一种可能的实现方式中,装置500还包括第三确定单元、第一分组单元、第三获取单元、第四确定单元和第一替换单元:
第三确定单元,用于根据所述第一待分类用户标识对应的分类场景确定分组时间区间;
第一分组单元,用于通过所述分组时间区间和所述交易时间,对所述第一待分类用户标识对应的第一待分类用户行为数据中包括的行为内容进行分组处理;
第三获取单元,用于获取目标行为内容组中的多个行为内容;
第四确定单元,用于根据所述多个行为内容确定所述目标行为内容组对应的特征行为内容;
第一替换单元,用于将所述第一待分类用户行为数据中的所述多个行为内容替换为所述特征行为内容。
在一种可能的实现方式中,第四确定单元具体用于:
通过词向量模型确定所述多个行为内容之间的相似度;
若所述多个行为内容之间相似度均满足第二预设阈值,将所述多个行为内容合并为所述特征行为内容,所述特征行为内容对应的交易次数为所述多个行为内容的个数,所述特征行为内容为所述多个行为内容中出现次数最多的行为内容;
将所述交易次数添加至所述特征行为内容中。
在一种可能的实现方式中,装置500还包括第一划分单元、第五确定单元和第二替换单元:
第一划分单元,用于根据所述第一待分类用户标识对应的分类场景,划分交易次数区间;
第五确定单元,用于根据所述特征行为内容对应的交易次数,确定所述特征行为内容对应的交易次数区间;
第二替换单元,用于将所述特征行为内容中的所述交易次数替换为所述特征行为内容对应的交易次数区间。
在一种可能的实现方式中,装置500还包括第二划分单元、第六确定单元和添加单元:
第二划分单元,用于根据第二待分类用户标识对应的分类场景,划分交易金额区间;
第六确定单元,用于根据第二待分类用户行为数据中行为内容对应的交易金额,确定所述行为内容对应的交易金额区间,所述第二待分类用户行为数据为所述第二待分类用户标识对应的用户行为数据;
添加单元,用于将所述交易金额区间添加至所述行为内容中。
本申请实施例还提供了一种计算机设备,下面结合附图对该设备进行介绍。请参见图6所示,本申请实施例提供了一种设备,该设备还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,简称RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,简称WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器680还具有以下功能:
获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
获取待分类用户标识和对应的待分类用户行为数据;
若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
本申请实施例还提供一种服务器,请参见图7所示,图7为本申请实施例提供的服务器700的结构图,服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图7所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的数据处理方法中的任意一种实施方式。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
获取待分类用户标识和对应的待分类用户行为数据;
若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述样本用户标识和所述样本用户行为数据生成分类树,包括:
统计目标样本用户标识对应的目标样本用户行为数据中各个行为内容的行为次数和行为频率;
基于所述行为内容、行为次数和行为频率,确定所述用户交易行为;
将所述用户交易行为作为枝节点生成所述分类树。
3.根据权利要求1所述的方法,其特征在于,所述待分类用户行为数据中包括所述待分类用户标识对应的行为内容,所述行为内容包括交易时间、交易金额特征、交易时间特征中的任意一种或多种的组合,所述交易时间特征用于标识所述行为内容发生的时间是否为特殊时间,所述交易金额特征用于标识所述行为内容涉及的交易金额是否为特殊数值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一待分类用户标识对应的分类场景确定分组时间区间;
通过所述分组时间区间和所述交易时间,对所述第一待分类用户标识对应的第一待分类用户行为数据中包括的行为内容进行分组处理;
获取目标行为内容组中的多个行为内容;
根据所述多个行为内容确定所述目标行为内容组对应的特征行为内容;
将所述第一待分类用户行为数据中的所述多个行为内容替换为所述特征行为内容。
5.根据权利要求4所述的方法,其特征在于,所述根据所述多个行为内容确定所述目标行为内容组对应的特征行为内容,包括:
通过词向量模型确定所述多个行为内容之间的相似度;
若所述多个行为内容之间相似度均满足第二预设阈值,将所述多个行为内容合并为所述特征行为内容,所述特征行为内容对应的交易次数为所述多个行为内容的个数,所述特征行为内容为所述多个行为内容中出现次数最多的行为内容;
将所述交易次数添加至所述特征行为内容中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述第一待分类用户标识对应的分类场景,划分交易次数区间;
根据所述特征行为内容对应的交易次数,确定所述特征行为内容对应的交易次数区间;
将所述特征行为内容中的所述交易次数替换为所述特征行为内容对应的交易次数区间。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据第二待分类用户标识对应的分类场景,划分交易金额区间;
根据第二待分类用户行为数据中行为内容对应的交易金额,确定所述行为内容对应的交易金额区间,所述第二待分类用户行为数据为所述第二待分类用户标识对应的用户行为数据;
将所述交易金额区间添加至所述行为内容中。
8.一种数据处理装置,其特征在于,所述装置包括第一获取单元、生成单元、第一确定单元、第二获取单元和第二确定单元:
所述第一获取单元,用于获取样本用户标识和对应的样本用户行为数据,所述样本用户标识标注有对应的用户类别,所述用户类别包括正常用户和异常用户,所述样本用户行为数据用于确定所述样本用户标识对应用户的用户交易行为;
所述生成单元,用于根据所述样本用户标识和所述样本用户行为数据生成分类树,所述分类树的叶节点为所述样本用户标识,所述分类树的枝节点为所述用户交易行为,所述分类树中从根节点到任一叶节点的分支用于标识至少一个样本用户标识对应的样本用户行为数据;
所述第一确定单元,用于将用户类别为异常用户的样本用户标识占比超过第一预设阈值的叶节点确定为目标叶节点,将所述目标叶节点对应的父节点确定为特征用户交易行为;
所述第二获取单元,用于获取待分类用户标识和对应的待分类用户行为数据;
所述第二确定单元,用于若根据目标待分类用户行为数据确定出所述特征用户交易行为,将所述目标待分类用户行为数据对应的目标待分类用户标识存入待分类集合,所述待分类集合中的待分类用户标识用于进行标识分类。
9.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7中任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110217143.8A CN112837061A (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110217143.8A CN112837061A (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112837061A true CN112837061A (zh) | 2021-05-25 |
Family
ID=75933714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110217143.8A Pending CN112837061A (zh) | 2021-02-26 | 2021-02-26 | 一种数据处理方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837061A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241711A (zh) * | 2018-08-22 | 2019-01-18 | 平安科技(深圳)有限公司 | 基于预测模型的用户行为识别方法及装置 |
CN109918279A (zh) * | 2019-01-24 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、基于日志数据识别用户异常操作的方法及存储介质 |
CN109949154A (zh) * | 2018-12-17 | 2019-06-28 | 深圳平安综合金融服务有限公司 | 客户信息分类方法、装置、计算机设备和存储介质 |
US20190356553A1 (en) * | 2018-05-18 | 2019-11-21 | Cisco Technology, Inc. | Anomaly detection with root cause learning in a network assurance service |
-
2021
- 2021-02-26 CN CN202110217143.8A patent/CN112837061A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190356553A1 (en) * | 2018-05-18 | 2019-11-21 | Cisco Technology, Inc. | Anomaly detection with root cause learning in a network assurance service |
CN109241711A (zh) * | 2018-08-22 | 2019-01-18 | 平安科技(深圳)有限公司 | 基于预测模型的用户行为识别方法及装置 |
CN109949154A (zh) * | 2018-12-17 | 2019-06-28 | 深圳平安综合金融服务有限公司 | 客户信息分类方法、装置、计算机设备和存储介质 |
CN109918279A (zh) * | 2019-01-24 | 2019-06-21 | 平安科技(深圳)有限公司 | 电子装置、基于日志数据识别用户异常操作的方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106803168B (zh) | 一种异常转账侦测方法和装置 | |
CN111275546B (zh) | 金融客户欺诈风险识别方法及装置 | |
CN110298547A (zh) | 风险评估方法、装置、计算机装置及存储介质 | |
CN109961296A (zh) | 商户类型识别方法及装置 | |
CN110516967A (zh) | 一种信息评估的方法以及相关装置 | |
CN111931047B (zh) | 基于人工智能的黑产账号检测方法及相关装置 | |
CN109325845A (zh) | 一种金融产品智能推荐方法及系统 | |
CN113903363B (zh) | 基于人工智能的违规行为检测方法、装置、设备及介质 | |
US20210224810A1 (en) | Transaction tracking and fraud detection using voice and/or video data | |
CN112950357B (zh) | 交易异常团伙识别方法及装置 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN110457601A (zh) | 社交账号的识别方法和装置、存储介质及电子装置 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
JP7288062B2 (ja) | 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
WO2021093367A1 (zh) | 模型训练和风险识别方法、装置及设备 | |
CN116562931A (zh) | 消费券交易数据处理方法、装置、设备及存储介质 | |
CN114066459A (zh) | 一种支付风险管理的方法以及相关装置 | |
CN112837061A (zh) | 一种数据处理方法和相关装置 | |
CN113780318B (zh) | 用于生成提示信息的方法、装置、服务器和介质 | |
KR20090063805A (ko) | 불법 금융 거래 정보를 관리하고 혐의 거래의 확인과보고서 작성 및 등록을 통합적으로 수행하는 방법 및시스템 | |
CN112256975A (zh) | 信息推送方法、装置、计算机设备及存储介质 | |
CN115082071A (zh) | 一种异常交易账户的识别方法、装置及存储介质 | |
CN113011968B (zh) | 账号状态的检测方法、装置和存储介质及电子设备 | |
CN115809905A (zh) | 一种对象可信度评估方法、装置及相关产品 | |
CN116308734A (zh) | 虚拟资源预测发放量的确定、价值评估模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40044611 Country of ref document: HK |