CN113011884B - 账户特征的提取方法、装置、设备及可读存储介质 - Google Patents

账户特征的提取方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113011884B
CN113011884B CN202110130051.6A CN202110130051A CN113011884B CN 113011884 B CN113011884 B CN 113011884B CN 202110130051 A CN202110130051 A CN 202110130051A CN 113011884 B CN113011884 B CN 113011884B
Authority
CN
China
Prior art keywords
account
data
behavior
processed
description data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110130051.6A
Other languages
English (en)
Other versions
CN113011884A (zh
Inventor
李雨龙
周美旭
陈守志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110130051.6A priority Critical patent/CN113011884B/zh
Publication of CN113011884A publication Critical patent/CN113011884A/zh
Application granted granted Critical
Publication of CN113011884B publication Critical patent/CN113011884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction

Abstract

本申请提供一种账户特征的提取方法、装置、设备及可读存储介质,涉及区块链技术领域,尤其涉及其中的应用安全和金融安全技术,以提升针对移动支付提取的账户特征的丰富度。该方法包括:获取待处理账户关联的目标数据集合,目标数据集合中包含待处理账户在预设时间段内触发的多个账户行为关联的行为描述数据,多个账户行为至少包括电子资源转移操作;按照各个行为描述数据关联的账户行为的触发时间顺序,对各个行为描述数据进行排序,获得待处理行为描述数据序列;基于各个行为描述数据在待处理行为描述数据序列中的上下文信息,对待处理行为描述数据序列进行特征提取,得到待处理账户对应的账户行为特征。该方法能够提取一种新的账户行为特征。

Description

账户特征的提取方法、装置、设备及可读存储介质
技术领域
本申请涉及区块链技术领域,尤其涉及一种账户特征的提取方法、装置、设备及可读存储介质。
背景技术
随着互联网技术的发展,移动支付已经成为人们生活中进行支付的一种方式,目前在对移动支付中存在网络欺诈的欺诈账户进行识别的过程中,常常先人工抽取待处理账户的基础账户特征,进而基于基础账户特征,识别待处理账户是否是存在网络欺诈的欺诈账户;但人工抽取的基础账户特征具有很大的局限性,通常情况下上述基础账户特征仅包含待处理账户最基本的信息,如使用待处理账户的基本信息、待处理账户的历史的网络支付的频率和消费偏好等数据,因而上述基础账户特征描述的待处理账户的移动支付的特征的丰富度很低,进而导致基于上述基础账户特征识别欺诈账户的准确度低。
发明内容
本申请实施例提一种账户特征的提取方法、装置、设备及可读存储介质,用于提升针对账户的移动支付提取的账户特征的丰富度。
本申请第一方面,提供一种账户特征的提取方法,包括:
获取待处理账户关联的目标数据集合,所述目标数据集合中包含所述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,所述至少两个账户行为至少包括电子资源转移操作;
按照所述目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对所述各个行为描述数据进行排序,获得待处理行为描述数据序列;
基于所述各个行为描述数据在所述待处理行为描述数据序列中的上下文信息,提取所述待处理行为描述数据序列的行为特征,并将所述行为特征确定为所述待处理账户对应的账户行为特征。
本申请第二方面,提供一种账户特征的提取装置,包括:
数据获取单元,用于获取待处理账户关联的目标数据集合,所述目标数据集合中包含所述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,所述至少两个账户行为至少包括电子资源转移操作;
特征提取单元,用于按照所述目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对所述各个行为描述数据进行排序,获得待处理行为描述数据序列;以及所述特征提取单元用于基于所述各个行为描述数据在所述待处理行为描述数据序列中的上下文信息,提取所述待处理行为描述数据序列的行为特征,并将所述行为特征确定为所述待处理账户对应的账户行为特征。
在一种可能的实现方式中,所述特征提取单元具体用于对所述各个历史数据集合分别执行以下操作:
针对所述各个历史数据集合中的一个历史数据集合,按照所述一个历史数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对所述一个历史数据集合中各个行为描述数据进行排序,获得对应的历史行为描述数据序列;
屏蔽所述历史行为描述数据序列中的部分行为描述数据;以及基于所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息,从候选数据集合中确定出与所述部分行为描述数据匹配的候选行为描述数据,所述候选行为描述数据是基于所述训练样本集合确定的;
将所述部分行为描述数据和确定出的候选行为描述数据的偏差信息,确定为所述一个历史数据集合对应的预测偏差。
在一种可能的实现方式中,所述特征提取单元具体用于:确定所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息;从所述候选数据集合中,获取部分候选行为描述数据;分别确定获取的各个候选行为描述数据和确定的上下文信息之间的匹配度;将匹配度满足匹配度条件的候选行为描述数据,确定为与所述部分行为描述数据匹配的候选行为描述数据。
在一种可能的实现方式中,所述数据学习子模型是已训练的第一账户识别模型中的子模型,所述第一账户识别模型中还包括第一预测子模型,所述特征提取单元还用于通过所述第一预测子模型对所述待处理账户特征进行如下处理:
将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征;
基于所述第一预测子模型已学习的第一关联度,预测所述待处理账户特征与第一识别结果之间的第二关联度,所述第一关联度是基于历史账户对应的历史账户特征和所述第一识别结果之间的关联程度确定的,所述第一识别结果用于表征账户针对目标账户行为进行网络欺诈;
若所述第二关联度大于关联度阈值,则确定所述待处理账户为针对目标账户行为进行网络欺诈的欺诈账户。
在一种可能的实现方式中,所述数据学习子模型为已训练的第二账户识别模型的子模型,所述第二账户识别模型中还包括第二预测子模型,所述特征提取单元还用于:
基于所述第二预测子模型将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征,以及基于所述第二预测子模型已学习的第三关联度,预测所述待处理账户特征与第二识别结果之间的第四关联度,所述第三关联度是基于历史账户对应的历史账户特征和所述第二识别结果之间的关联程度确定的;所述第二识别结果用于表征账户针对目标账户行为进行网络欺诈;
根据至少一个欺诈账户等级映射的关联度范围,确定所述第二关联度归属的关联度范围;其中,所述欺诈账户等级基于账户针对目标账户行为进行网络欺诈的可疑程度确定;
将确定的关联度范围映射的欺诈账户等级,确定为所述待处理账户对应的欺诈账户等级。
在一种可能的实现方式中,所述账户行为还包括针对第一账户的账户设置操作,所述待处理账户和所述第一账户为在目标应用中注册的不同账户,所述账户设置操作包括如下一种或任意组合:
添加与所述第一账户之间的通讯路径的操作;
删除与所述第一账户之间的通讯路径的操作;
将所述第一账户添加到通讯黑名单的操作;
屏蔽所述第一账户发送的消息的操作。
在一种可能的实现方式中,所述账户行为包括如下一种或任意组合:
向第二账户转移电子资源的第一资源转移操作;
接收所述第二账户转移的电子资源的第二资源转移操作;
其中所述待处理账户为在目标应用中注册的账户;所述第二账户为在目标应用中注册且与所述待处理账户不同的账户,或,所述第二账户为在除所述目标应用之外的应用中注册的账户。
本申请第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请第四方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面中提供的方法。
本申请第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面所述的方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
本申请实施例中,一方面,基于待处理账户在预设时间内触发的账户行为关联的行为描述数据,获取待处理行为描述数据序列,进而针对待处理行为描述数据序列提取出的账户行为特征,能反映待处理账户在上述预设时间段内的账户行为分布,且通常情况下一个账户的账户行为分布能在很大程度上反映该账户的行为特点和置信度,因此,本申请实施例中获得了一种新的账户行为特征,提升了获取的账户特征的丰富度;另一方面,上述待处理行为描述数据序列中是包含电子资源转移操作的,提取出的账户行为特征能在较高程度上描述账户的支付行为分布的特征,因此提升了针对账户的移动支付提取的账户特征的丰富度;由于欺诈账户的支付行为分布的特征往往存在明显的异常,因而将上述账户行为特征用于识别待处理账户是否是欺诈账户时,能够提升识别欺诈账户的准确度。
附图说明
图1为本申请实施例提供的一种应用场景的示意图;
图2为本申请实施例提供的一种获取账户行为关联的行为描述数据的过程示意图;
图3为本申请实施例提供的一种账户特征的提取方法的流程图;
图4为本申请实施例提供的一种数据学习子模型的结构示意图;
图5为本申请实施例提供的一种数据学习子模型的训练过程的流程图;
图6为本申请实施例提供的一种第一账户识别模型的结构示意图;
图7为本申请实施例提供的一种第二账户识别模型的结构示意图;
图8为本申请实施例提供的一种基于第一账户识别模型识别欺诈账户的流程图;
图9为本申请实施例提供的一种基于第二账户识别模型确定欺诈账户等级的流程图;
图10为本申请实施例提供的一种账户特征的提取装置的结构示意图;
图11为本申请实施例提供的一种计算机设备的结构图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的部分概念进行说明。
1)账户、待处理账户和历史账户
一般情况下账户为用户在互联网中的身份表示;本申请实施例中待处理账户可以但不局限于为当前需要提取账户行为特征的账户,历史账户可以但不局限于为历史数据中关联的账户。
2)账户行为和电子资源转移操作
一般情况下行可以指代操作;本申请实施例中一个账户的账户行为可以包括由该账户触发且由该账户执行的操作,该账户的账户行为也可以包括由其他账户触发且由该账户执行的操作,上述其他账户为除上述该账户之外的账户;其中,本申请实施例中涉及的账户行为至少包括电子资源转移操作。
本申请实施例中的电子资源转移操作可以包括转移电子资源的操作,电子资源操作又可以称为移动支付,移动支付表征账户通过移动网络进行支付操作的行为;其中,本申请实施例中涉及的电子资源可以资金和信息资源的至少一种;上述资金可至少包括法币、电子货币等;所谓法币是指一种以法律形式赋予其强制流通使用的货币,如人民币、美元等;所谓电子货币是指以电子形式存储在账户所持有的电子钱包(如可以但不局限于移动支付类应用中的钱包等)中的货币,电子货币可以但不局限于包括电子票据、数字货币(一种不受管制的、数字化的货币、游戏币等);上述信息资源可以但不局限于游戏资源(如游戏装备等)、多媒体资源(如视频、音频等)、电子券(如可以但不局限于包括电子团购券、电子折扣券等)。
3)行为描述数据
本申请实施例中的行为描述数据可以包括用以描述账户行为的具体内容的数据,如行为描述数据中可以但不局限于包括:账户行为的触发时间、账户行为的具体操作内容、账户行为的操作对象等中的至少一个信息。
4)网络欺诈和欺诈账户
网络欺诈行为又称网络诈骗,即欺诈账户(又可以称为欺诈者)通过社交网络、信息交流平台,使用虚假信息(如可以但不局限于虚假的商品信息、工作信息等),让受害账户(又可以称为受害者)自愿执行某一个或多个账户行为的操作;如受害者在接收到欺诈者发送的虚假信息时会信以为真,可能会自愿将自己的电子资源转移给欺诈者;目前欺诈者可能针对交易行为、交友行为、工作信息、返还利益、仿冒商品、盗取账户、商品折扣等进行网络欺诈行为;
本申请实施例中的网络欺诈主要涉及与电子资源的转移相关的网络欺诈行为,即本申请实施例中的网络欺诈可以但不局限于包括上述交易行为、交友行为、工作信息、返还利益、仿冒商品、盗取账户、商品折扣等中涉及电子资源的转移的操作。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(Machine Learning,ML)而设计;人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能;人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习或深度学习等几大方向;随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域;机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面对本申请的设计思想进行说明。
随着互联网技术的发展,移动支付已经成为人们生活中的一部分,极大地改善了用户的消费行为和支付方式,但用户享受移动支付的便捷的同时,也面临着更加严峻的网络欺诈的风险;目前在对移动支付中存在网络欺诈的欺诈账户进行识别的过程中,通常是先人工对账户进行基础账户特征的特征抽取,进而基于抽取出的基础账户特征,针对对应的待处理账户进行分析,识别待处理账户是否是存在网络欺诈的欺诈账户;但人工抽取的基础账户特征具有很大的局限性,通常情况下上述基础账户特征仅包含使用待处理账户的用户的基本信息(如可以但不局限于包括用户的性别、年龄、民族、手机型号、职业等信息)、待处理账户的历史的移动支付的频率和消费偏好等等数据,而上述提取出的基础账户特征,针对待处理账户的移动支付的特征的描述的丰富度很低,因此,基于上述方法提取出的基础账户特征识别欺诈账户的准确度低。
鉴于此,发明人设计了一种账户特征的提取方法,用于提升针对账户的移动支付提取的账户特征的丰富度;本申请实施例中考虑到人工抽取的基础账户特征的局限性大,且人工抽取出的基础账户特征对账户的行为描述的丰富度低,因此本申请实施例中考虑直接从至少包括电子移动资源转移操作的账户行为关联的行为描述数据中,抽取表征待处理账户的移动支付特征的特征数据,以提升抽取出的特征数据的丰富度;同时考虑到欺诈账户的支付行为分布的特征往往存在明显的异常,因而本申请实施例中设计基于待处理账户的多个账户行为的特征,获取能反映待处理账户的支付行为分布的待处理行为描述数据序列,进而对待处理行为描述序列中各个行为描述数据,在待处理行为描述数据序列中的上下文信息,对待处理行为描述数据序列进行特征提取,得到反映待处理账户的支付行为分布特征的账户行为特征。
其中,一般情况下,数据分布特征指按照一定顺序排列的行为数据的分布特征及数据变化特征;本申请实施例中行为描述数据序列反映了账户的账户行为的分布情况,且其中的账户行为中至少包括电子资源转移操作(支付行为),,且则本申请实施例中获得的各行为描述数据序列蕴含的数据分布特征(即上述账户行为特征),反映了账户的支付行为的特点,以下内容中将行为描述数据序列蕴含的数据分布特征称为支付行为分布特征。
进一步,本申请实施例中还可以将提取出的账户行为特征,用于识别待处理账户是否存在网络欺诈的过程中,以提升对存在网络欺诈的欺诈账户的识别准确度。
为了更清楚地理解本申请的设计思路,以下对本申请实施例中的应用场景进行示例介绍。
请参见图1,提供一种账户特征的提取的应用场景,该应用场景中可以包括终端设备110、和服务器120;终端设备110和服务器120之间可以通过网络进行通信,其中:
终端设备110上可以安装移动支付类应用的客户端,进而待处理账户可以通过客户端登入移动支付类应用,执行电子资源转移操作或其它的账户行为;待处理账户在登入移动支付类应用之后,还可以向其他账户发送消息或接收其他账户发送的消息,其他账户为上述待处理账户之外的账户。
作为一种实施例,请参见图2中的(a),待处理账户通过客户端110触发账户行为后,终端设备110可以采集账户行为关联的行为描述数据,并将采集的行为描述数据发送给服务器120,进而服务器120可以接收行为描述数据,并将记录接收的行为描述数据;
作为一种实施例,请参见图2中的(b),待处理账户通过客户端110触发账户行为后,终端设备110也可以向服务器120发送数据采集指令,进而服务器120响应上述数据采集指令,获取账户行为关联的行为描述数据并记录。
服务器120获取待处理账户关联的目标数据集合,按照上述目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对上述各个行为描述数据进行排序,获得待处理行为描述数据序列,以及基于上述各个行为描述数据在上述待处理行为描述数据序列中的上下文信息,提取上述待处理行为描述数据序列的行为特征,并将上述行为特征确定为上述待处理账户对应的账户行为特征;上述目标数据集合中包含上述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,上述至少两个账户行为至少包括电子资源转移操作。
本申请实施例中的终端设备110可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机或摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。
本申请实施例中的服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是云服务技术中提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的多个云服务器(如可以但不局限于包括图中示意出的服务器120-1、服务器120-2或服务器120-3);上述服务器120的功能可以由一个或多个云服务器实现,还可以由一个或多个云服务器集群实现等。
在一种可能的应用场景中,本申请实施例中可以采用云存储技术保存上述与账户行为关联的行为描述数据;其中云存储(Cloud Storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
在一种可能的应用场景中,为了便于降低通信时延,可以在各个地区部署服务器120,或为了负载均衡,可以由不同的服务器120分别去服务各个终端设备110对应的地区,通过区块链技术存储与账户行为关联的行为描述数据,以及实现本申请实施例设计的账户特征的提取方法。多个服务器120以通过区块链实现数据的共享,多个服务器120相当于多个服务器120组成的数据共享系统。例如终端设备110位于地点a,与服务器120之间进行通信连接,终端设备110位于地点b,与其他服务器120之间通信连接。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
对于数据共享系统中的每个服务器120,均具有与该服务器120对应的节点标识,数据共享系统中的每个服务器120均可以存储有数据共享系统中其他服务器120的节点标识,以便后续根据其他服务器120的节点标识,将生成的区块广播至数据共享系统中的其他服务器120。
每个服务器120中可维护一个如下表所示的节点标识列表,将服务器120名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为互联网协议(InternetProtocol,IP)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1
服务器名称 节点标识
节点1 119.115.151.174
节点2 118.116.189.145
节点N 119.124.789.258
下面主对本申请实施例中的账户特征的提取方法进行详细介绍。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
首先,对本申请实施例中涉及的账户行为,以及账户行为关联的行为描述数据进行详细说明:
作为一种实施例,本申请实施例中待处理账户的账户行为可以但不局限于包括如下第一资源转移操作和第二资源转移操作中的一种或任意组合:
第一资源转移操作:待处理账户向第二账户转移电子资源的操作。
作为一种实施例,上述待处理账户为在目标应用中注册的账户;上述第二账户可以为在目标应用中注册且与上述待处理账户不同的账户,第二账户也可以是在除上述目标应用之外的应用中注册的账户;即第一资源转移操作可以包括待处理账户将电子资源从目标应用中转移到目标应用中的第一账户中的操作,第一资源转移操作也可以包括待处理账户将电子资源从目标应用中转移至非目标应用中的操作,该非目标应用为除上述目标应用之外的应用中注册的账户,对上述非目标应用不做限定,如目标应用和非目标应用可以但不局限于为社交类应用、内容分享类应用、电商类应用或银行类应用等。
作为一种实施例,上述第一资源转移操作可以是针对待置换对象触发的,上述待置换对象可以但不局限于包括实际产品和虚拟产品等,实际产品可以但不局限于包括衣服、文具、鞋子、智能设备、医疗服务、保健服务、电子折扣券、房租、金融产品、租赁服务等,虚拟产品可以但不局限于包括游戏资源、平台服务、媒体内容等,本领域的技术人员可根据实际需求设置上述待置换对象。
作为一种实施例,上述第一资源转移操作还可以是针对上述待处理账户和上述第二账户的账户关系触发的;如第一资源转移操作可以包括待处理账户和第一账户之间存在友情关系或亲情关系或同事关系时,待处理账户向第一账户转移电子资源的操作,对上述账户关系不做限定,本领域的技术人员可根据实际需求设置。
第二资源转移操作:待处理账户接收第二账户转移电子资源的操作。
其中,上述待处理账户和第二账户的说明可参见上述第一资源转移操作,则第二资源转移操作可以包括待处理账户通过目标应用接收从目标应用中转移出的电子资源的操作,第二资源转移操作也可以包括待处理账户通过目标应用接收从非目标应用中转移出的电子资源等。
作为一种实施例,上述第二资源转移操作可以是针对待置换对象触发的,如待处理账户接收第一账户针对待置换对象转移的电子资源的操作有关待置换对象的描述可参见上述内容,此处不再重复叙述;
上述第二资源转移操作还可以是针对上述待处理账户和上述第二账户的账户关系触发的,如第一资源转移操作可以包括待处理账户和第一账户之间存在友情关系或亲情关系或同事关系时,待处理账户接收第一账户转移的电子资源的操作。
作为一种实施例,考虑到待处理账户在进行电子资源转移操作之前或者之后对其它的账户进行的一些操作,会在一定程度上影响对待处理账户的支付行为分布特征,因此本申请实施例中的账户行为还可以包括待处理账户针对第一账户的账户设置操作,其中,待处理账户和上述第一账户为在目标应用中注册的不同账户,上述目标应用可以为上述移动支付类形影,上述账户设置操作包括如下账户设置操作A1至A4中的一种或任意组合:
账户设置操作A1:添加与上述第一账户之间的通讯路径的操作(又可称为好友添加操作),如可以但不局限于包括添加好友的操作;
账户设置操作A2:删除与上述第一账户之间的通讯路径的操作(又可称为好友删除操作),如可以但不局限于包括删除好友的操作。
账户设置操作A3:将上述第一账户添加到通讯黑名单的操作(又可称为好友拉黑操作),如可以但不局限于将好友添加到黑名单的操作。
账户设置操作A4:屏蔽上述第一账户发送的消息的操作(又可称为消息屏蔽操作)。
将上述账户设置操作A1至A4中的至少一个操作关联的行为描述数据添加到目标数据集合中,则目标数据集合包含的数据特征更丰富,通过步骤S302获得的待处理行为描述数据序列中反映待处理账户的支付行为分布的信息更准确,步骤S303提取出的账户行为特征中蕴含的支付行为分布特征的丰富度更高,也更准确;如待处理账户执行以下异常操作B1至B3时,则该待处理账户存在网络欺诈的风险更高,异常操作B1)待处理账户在进行一个电子资源转移操作之前大量添加好友;异常操作B2)待处理账户接收第一账户转移的电子资源后针对第一账户执行了好友删除操作(即删除与第一账户之间的通讯路径);异常操作B3)待处理账户在接收第一账户转移的电子资源后针对第一账户执行了消息屏蔽操作或好友拉黑操作;
本申请实施例中,将上述账户设置操作A1至A4添加到目标数据集合中,则提取出的账户行为特征能反映上述异常操作B1至B3的特征的信息,从而提升了针对网络诈骗提取出的用户特征的丰富度。
作为一种实施例,为了提升行为描述数据的丰富度,本申请实施例中涉及的行为描述数据还可以包括如下至少一种信息或多种信息的任意组合:
行为描述数据关联的账户行为的触发时间,上述触发时间可以但不局限于包括年、日期、星期、时刻等信息中的至少一个;
行为描述数据关联的账户行为中转移的电子资源的资源值,如电子资源为电子货币时,电子资源的资源值可以但不局限于为电子货币的金额;
行为描述数据关联的账户行为中转移电子资源的业务场景,上述业务场景可以但不局限于包括红包、转账、面对面付款等;
行为描述数据关联的账户行为中转移电子资源的转移途径,上述转移途径可以但不局限于包括扫描二维码、钱包入口、群附加栏等。
基于图1的应用场景,下面对本申请实施例中涉及的一种账户特征的提取方法进行示例说明,请参照图3,表示本申请实施例设计的一种账户特征提取的方法的示意图,具体包括如下步骤:
步骤S301,获取待处理账户关联的目标数据集合,上述目标数据集合中包含上述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,上述至少两个账户行为至少包括电子资源转移操作。
作为一种实施例,本申请实施例中可以从待处理账户在预设时间段内触发的所有账户行为关联的行为描述数据中,获取部分行为描述数据或全部行为描述数据,生成上述目标数据集合,本领域的技术人员可根据实际需求设置;其中,本申请实施例中对上述预设时间段不做限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将上述预设时间段设置为1天、3天、5天或7天等。
步骤S302,按照上述目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对上述各个行为描述数据进行排序,获得待处理行为描述数据序列。
作为一种实施例,可以但不局限于基于各个行为描述数据中携带的触发时间,确定目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序。
作为一种实施例,为了提升对上述各个行为描述数据进行排序的处理效率,本申请实施例中还可以基于预设排序算法或利用神经网络模型对上述各个行为描述数据进行排序。
作为一种实施例,由于触发时间的值域较大,本申请实施例中为了进一步提升对行为描述数据的处理效率,可以在对上述各个行为描述数据进行排序之前,针对各个行为描述数据中包含的触发时间进行等距分桶,如可以但不局限于将一天的时间等距分桶为0:00-4:00、4:01-8:00、8:01-12:00、12:01-16:00、16:01-20:00、20:01-24:00的时间段等。
作为一种实施例,由于电子资源的资源值的值域也较大,本申请实施例中为了提升对行为描述数据的处理效率,可以在对上述各个行为描述数据进行排序之前,针对账户行为中的各个电子资源转移操作中携带的电子资源的资源值进行等量级分桶转换,如可以但不局限于将电子资源的资源值划分为0-100,101-200、201-500、501-1000、…、10000以上等资源值区间,其中上述资源值区间中资源值的单位可以但不局限于为国家法定货币的单位(如可以但不局限于包括人民币的单位“元”、“角”或“分”等”)。
步骤S303,基于上述各个行为描述数据在上述待处理行为描述数据序列中的上下文信息,提取上述待处理行为描述数据序列的行为特征,并将上述行为特征确定为上述待处理账户对应的账户行为特征。
作为一种实施例,本申请实施例中上述上下文信息可以但不局限于包括行为描述数据在待处理行为描述数据序列中的数据位置信息、行为描述数据的语义特征等信息。
作为一种实施例,为了提升提取上述账户行为特征的效率和准确度,本申请实施例中还可以利用模型提取上述账户行为特征,如本申请实施例中可以但不局限于通过向量空间模型(Vector Space Model,VSM)、概率统计模型对文本或已训练的神经网络模型等中的至少一种方式对待处理描述数据序列进行特征提取,获取待处理账户对应的账户行为特征;其中,提取账户行为特征的更详细的方法将在下文中做进一步说明。
本申请实施例中,对上述神经网络模型不做限定,本领域的技术人员可根据实际需求设置,上述神经网络模型可以但不局限于包括卷积神经网络(Convolutional NeuralNetwork,CNN)、循环神经网络(Recurrent Neural Network,RNN)、Bert模型、Fast-Bert模型、Tiny-Bert模型等;上述Bert(Bidirectional Encoder Representations fromTransformer)模型为双向Transformer的编码网络(Encoder);Bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(Representation),然后将文本的语义表示在特定自然语言处理(Natural Language Processing,NLP)任务中进行微调,最终应用于该特定NLP任务。
作为一种实施例,为了提升处理的效率和提取的账户行为特征的准确度,在上述步骤S302和步骤S303中,可以将目标数据集合输入已训练的数据学习子模型,并将上述数据学习子模型输出的待处理行为描述数据序列的行为特征,确定为待处理账户的账户行为特征,上述数据学习模型的具体内容将在下文中做进一步说明。
作为一种实施例,本申请实施例通过上述步骤S301至S303获取待处理账户的账户行为特征之后,还可以基于上述账户行为特征,识别待处理账户是否针对目标行为进行网络欺诈;具体地,为了提升识别网络欺诈的准确度,本申请实施例中可以在获取待处理账户关联的目标数据集合时,也获取待处理账户的账户画像数据,进而在步骤S303之后,将获取的账户画像数据和待处理账户的账户行为特征,确定为待处理账户对应的待处理账户特征,基于待处理账户特征,确定上述待处理账户是否针对目标账户行为进行欺诈。
作为一种实施例,上述账户画像数据又称为账户画像或用户画像(UserProfile),其指将账户关联的用户的信息进行标签化;账户画像数据中可以但不局限于包括如下至少一种信息:用户的性别、年龄、常住地、籍贯、身高、学历、婚恋状态、受教育程度、资产情况、收入情况、职业等人口属性信息和社会属性,账户的账户等级、账户资产、账户信誉等账户信息以及从账户的历史行为数据中挖掘出的信息;上述目标账户行为可以但不局限于为上述内容中涉及的账户行为中的至少一种,账户行为的介绍可参见上述内容,此处不再重复叙述。
作为一种实施例,为了提升识别待处理账户是否针对目标账户行为进行欺诈的效率和准确度,本申请实施例中还可以但不局限于通过向量空间模型、概率统计模型对文本或已训练的神经网络模型等中的至少一种方式,对账户画像数据和账户行为特征进行处理,输出针对待处理账户的识别结果;上述神经网络模型可以但不局限于包括卷积神经网络、循环神经网络等,本领域的技术人员可根据实际需求设置。
作为一种实施例,为了提升识别待处理账户是否针对目标账户行为进行欺诈的灵活度,本申请实施例中提供一种第一账户识别模型,该第一账户识别模型可用于确定待处理账户是否是存在欺诈行为的欺诈账户;本申请实施例中也提供一种第二账户识别模型,该第二账户识别模型可用于识别待处理账户存在网络欺诈的可疑程度;其中,关于上述第一账户识别模型和第二账户识别模型的内容,将在下文中做进一步描述。
以下内容对上述数据学习子模型做进一步介绍,请参见图4,本申请实施例提供一种数据学习子模型的结构示意图,该数据学习子模型中可以包括数据表示层401,特征提取层402和特征输出层403;其中:
上述数据表示层401可以但不局限于用于对账户关联的数据集合中的各个行为描述数据进行排序,得到对应的行为描述数据序列,如对待处理账户关联的目标数据集合中各个行为描述数据进行排序,得到待处理行为描述数据序列,以及对历史账户关联的历史数据集合中各个行为描述数据进行排序,得到历史行为描述数据序列;进而数据表示层401可以通过编码(Embedding)等处理方式,对各个行为描述数据在上述行为描述数据序列中的上下文信息进行处理,得到各个行为描述数据的数据表示,如可以但不局限于包括图中示意出的数据表示E1、数据表示E2和数据表示EN(N为正整数)等,其中上述过程又称为对行为描述数据的Token化处理,行为描述数据的上下文信息的说明可参见上述内容,此处不再重复叙述,上述数据表示中可以包括行为描述数据在对应的行为描述数据的数据位置信息、行为描述数据的语义信息等。
特征提取层402可以但不局限于用于通过多层的单元Trm的处理后,针对每个行为描述数据的数据表示,分别提取出一个数据特征,如图所示,可以数据表示E1至EN,分别提取出数据特征T1至TN
上述特征输出层403可以但不局限于将特征提取层402提取出的数据特征输出。
作为一种实施例,本申请实施例还提供一种上述数据学习子模型的训练方法,以下对上述数据学习子模型的训练过程进行详细说明:
本申请实施例中可以获取历史账户关联的历史数据集合为训练样本,基于上述训练样本中包含的各个行为描述数据的上下文信息,对上述数据学习子模型进行训练得到的;具体地,可以但不局限于基于包括多个训练样本的训练样本集合,对上述数据学习子模型进行至少一次训练过程得到的。
作为一种实施例,为了提升语言学习模型提取文本特征的准确度,本申请实施例中可以针对数据学习子模型的训练过程,设置第一训练结束条件,进而在对数据学习子模型进行训练的过程中,在确定满足第一训练结束条件时,输出正在训练的数据学习子模型;
本申请实施例中对上述第一训练结束条件不做过多限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将第一训练结束条件设置为如下的训练结束条件C1至C3中的一种或任意组合:训练结束条件C1)针对上述数据学习子模型的训练操作的次数达到第一次数阈值;训练结束条件C2)对上述数据学习子模型进行训练操作的时长达到第一时长阈值;训练结束条件C3)当前正在训练的数据学习子模型的模型预测误差小于第一预测误差阈值,其中,上述模型预测误差将在下文中做进一步说明。
作为一种实施例,在一次训练操作中,可以利用数据学习子模型,针对从上述历史评论数据集合获得的各个历史数据集合,分别进行数据预测操作,确定各个历史数据集合各自对应的预测偏差,并基于上述各个历史数据集合各自对应的预测偏差,对上述数据学习子模型进行参数调整,具体地,请参见图5,提供一次训练过程的流程的示意图,一次训练过程可以但不局限于包括如下步骤S501和S502:
步骤S501,针对从训练样本集合获得的各个历史数据集合,分别执行数据预测操作,确定上述各个历史数据集合各自对应的预测偏差。
作为一种实施例,一个历史数据集合对应的预测偏差,可以表征通过数据学习子模型,对上述一个历史数据集合中的部分行为描述数据进行预测的误差信息;在针对一个历史数据集合的数据预测操作中,可以但不局限于基于上述一个历史数据集合中部分行为描述数据在上述一个历史数据集合中的上下文信息,对上述部分行为描述数据进行预测,具体地,上述数据预测操作可以但不局限于包括如下步骤S5011至步骤S5014。
步骤S5011,针对上述各个历史数据集合中的一个历史数据集合,按照上述一个历史数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对上述一个历史数据集合中各个行为描述数据进行排序,获得对应的历史行为描述数据序列。
获得历史行为描述数据的具体方法可参见上述内容,此处不再重复叙述。
步骤S5012,屏蔽上述历史行为描述数据序列中的部分行为描述数据。
作为一种实施例,该步骤中可以但不局限于使用预设的数据掩膜Mask,随机遮挡上述历史行为描述数据中的一个行为描述数据或多个行为描述数据,对上述数据掩膜Mask的具体形式不做限定,本领域的技术人员可根据实际需求设置。
步骤S5013,基于上述部分行为描述数据在上述历史行为描述数据序列中的上下文信息,从候选数据集合中确定出与上述部分行为描述数据匹配的候选行为描述数据,上述候选行为描述数据是基于上述训练样本集合确定的。
作为一种实施例,上述候选行为描述数据集合可以但不局限于是在训练数据学习子模型之前,对训练样本集合中各个历史数据集合中进行数据处理,将各个历史数据集合中包含的行为描述数据,确定为候选行为描述数据得到的,即该候选数据集合中包括各个历史数据集合中包含的各个行为描述数据。
作为一种实施例,步骤S5013中可以确定上述部分行为描述数据在上述历史行为描述数据序列中的上下文信息;分别确定各个候选行为描述数据和确定的上下文信息之间的匹配度;将匹配度满足匹配度条件的候选行为描述数据,确定为与上述部分行为描述数据匹配的候选行为描述数据。
其中,对上述匹配度满足匹配度条件的情况不做限定,本领域的技术人员可根据实际需求设置,如可以将候选行为描述数据与确定的上下文信息之间的匹配度中数值最大的匹配度,确定为满足匹配度条件的匹配度,也可以将候选行为描述数据与确定的上下文信息之间的匹配度中,最接近匹配度阈值的匹配度,确定为满足匹配度条件的匹配度等。
作为一种实施例,为了提升匹配的候选行为描述数据的准确度,上述步骤S5013中可以但不局限于针对部分行为描述数据中各个行为描述数据执行如下操作,分别选取出部分行为描述数据中各个行为描述数据各自对应的候选行为描述词语,确定为部分行为描述数据中各个行为描述数据各自对应的预测数据:针对部分行为描述数据中的一个行为描述数据,确定上述一个行为描述数据的在上述一个历史数据集合中的上下文信息为目标上下文信息,进而确定候选数据集合中各个候选行为描述数据与目标上下文信息的匹配度,选取出匹配度满足上述匹配度条件的候选行为描述数据,将选取出的候选行为描述数据确定为上述一个行为描述数据对应的预测数据;其中,上述获取预测数据的方法仅为示例性说明,本领域的技术人员可灵活的采取其他方式对上述部分行为描述数据进行预测。
步骤S5014,将上述部分行为描述数据和确定出的候选行为描述数据的偏差信息,确定为上述一个历史数据集合对应的预测偏差。
作为一种实施例,上述预测偏差可以但不局限于表征上述部分行为描述数据和确定出的候选行为描述数据(即与上述部分行为描述数据匹配的候选行为描述数据)之间的偏离程度,该偏离程度可以与部分行为描述数据和确定出的行为描述数据的匹配程度呈负相关;本申请实施例中可以根据实际需求,设置确定上述预测偏差的具体方式,以下给出几种确定预测偏差的示例:
本申请实施例中可以基于部分行为描述数据和确定出的候选行为描述数据之间的字符串匹配程度或语义匹配程度,确定上述一个历史数据集合对应的预测偏差,如部分行为描述数据中包括多个行为描述数据时,可以将多个行为描述数据中各个行为描述数据和各自对应的预测数据(即针对各个行为描述数据确定出的候选行为描述数据)的字符串匹配程度,确定为上述多个行为描述数据中各个行为描述数据对应的误差信息,进而可以但不局限于将上述多个行为描述数据中各个行为描述数据对应的误差信息的均值,确定为上述一个历史评论数据对应的预测偏差;
本申请实施例中部分行为描述数据包括多个行为描述数据时,还可以将针对多个行为描述数据的预测正确概率,确定为上述一个历史数据集合对应的预测误差,上述预测概率可以但不局限于通过公式(1)确定:
公式(1)中,K2为上述一个历史数据集合中屏蔽的部分行为描述数据的数据总数量,K1为预测出的预测数据为屏蔽的行为描述数据的数量,P1为一个历史数据集合对应的预测偏差;如一个历史数据集合中屏蔽的部分行为描述数据为行为描述数据1、行为描述数据2和行为描述数据3,针对行为描述数据1的预测数据为行为描述数据1,针对行为描述数据2的预测数据为行为描述数据5,针对行为描述数据3的预测数据为行为描述数据4,则上述K2为3,K1为1,该历史数据集合对应的预测偏差为1/3。
步骤S502,基于各个历史数据集合各自对应的预测偏差,对上述数据学习子模型进行参数调整。
作为一种实施例,可以基于各个历史数据集合各自对应的预测偏差,确定数据学习子模型的模型预测误差,基于模型预测误差对数据学习子模型进行参数调整,如可以但不局限于朝着减小模型预测误差的方向,调整数据学习子模型的模型参数等。
为了提升方案实施的灵活度,本申请实施例中对确定上述模型预测误差的具体方式不做过多限定,本申请实施例中可以根据实际的业务需求灵活设置如可以但不局限于将个历史数据集合各自对应的预测偏差的均值,确定为上述模型预测误差;也可以基于下述公式(2)的原理,确定数据学习子模型的模型预测误差:
公式(2)中,K4为训练样本集合中历史数据集合的总数量,K3为文本预测正确的历史数据集合的数量,P2为上述模型预测误差;其中,预测正确的历史数据集合可以是预测偏差大于预测偏差阈值的历史数据集合,预测正确的历史数据集合也可以是确定出的预测数据是屏蔽的部分行为描述数据本身的历史数据集合等。
作为一种实施例,不同历史账户在预设时间段内触发的账户行为的数量不同,因此不同历史账户关联的历史数据集合中包含的行为描述数据的数量不同,为了提升数据学习子模型对行为描述数据的特征进行学习的准确度,本申请实施例中在上述步骤S5013中,还可以对历史行为描述数据序列的长度进行归一化处理,如可以但不局限于将历史行为描述数据序列的长度设置为预设长度;
其中,上述归一化处理中,针对长度大于预设长度的历史行为描述数据序列,可以随机地丢弃历史行为描述数据序列中的部分行为描述数据,也可以丢弃历史行为描述数据序列中排序在最后面或最前面的行为描述数据,使处理后的历史行为描述数据序列的长度为预设长度;针对长度小于预设长度的历史行为描述数据序列,可以随机地在历史行为描述序列中添加预设字符,也可以在行为描述数据序列中排序在最后面的行为描述数据之后添加预设字符,还可以在行为描述数据序列中排序在最前面的行为描述数据之前添加预设字符,使得处理后的历史行为描述数据序列的长度为预设长度。
作为一种实施例,若在步骤S5013中对历史行为描述数据序列的长度进行了归一化处理,则通过数据学习子模型实现上述步骤S303的过程中,也可以对待处理数据序列的长度进行归一化处理。
作为一种实施例,训练数据学习子模型的训练样本集合中包含的历史数据集合的数量一般较多,因而基于训练样本集合获得的候选数据集合中包含的行为描述数据的数量多,在获取与上述部分行为描述数据匹配的候选行为描述数据的过程中,需要处理的候选行为描述数据的数据量大,且需要确定的匹配度的数量大,会在一定程度上影响数据学习子模型的训练效率,故而,本申请实施例中为了提升训练效率,在上述步骤S5013中确定与上述部分行为描述数据匹配的候选行为描述数据的过程中,可以对候选数据集合进行负采样,根据负采样抽取出的候选行为描述数据进行匹配;具体地,可以从上述候选数据集合中,获取部分候选行为描述数据;分别确定获取的各个候选行为描述数据和确定的上下文信息之间的匹配度;进而将匹配度满足匹配度条件的候选行为描述数据,确定为与上述部分行为描述数据匹配的候选行为描述数据;其中,确定与上述部分行为描述数据匹配的候选行为描述数据的具体过程可参见上述内容,此处不再重复叙述;对从上述候选数据集合中,获取的候选行为描述数据的数量不做限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将获取的候选行为描述数据的数量设置为1000、3000或3500等。
作为一种实施例,为了进一步提升数据学习子模型的训练效率,在上述步数据学习子模型的训练过程中,还可以每次从训练样本集合中选取多个历史数据集合,作为一个Batch输入数据学习子模型,进而通过上述步骤S5011至S5014相类似的方式,、同时对一个Batch中的多个历史数据集合进行数据预测操作;也可以在一个Batch中,使用相同的从候选数据集合中抽取出的部分候选行为描述数据,在不同的Batch中,抽取不同的部分候选行为描述数据使用。
作为一种实施例,上述数据学习子模型为Bert模型时,可以将账户关联的数据集合(如上述目标数据集合或历史数据集合等)作为Bert模型的输入数据,可以在Bert模型中的Token输入之前添加数据处理模型,该数据处理模型可以对数据集合中的各个行为描述数据进行排序,具体排序方法可参见上述内容;上述数据学习模型的训练过程类似于Bert模型的预训练过程,但本申请实施例中可以删除Bert模型的预训练过程中针对文本内容的句子间的关联的损失预测(即Next sentence Loss的预测)过程,并可以将采用全量Softmax损失函数,取Bert最后一层输出的针对各个行为描述数据的向量的同维加和的平均值,作为提取出的账户行为特征;
对应地,由于上述丢弃了Bert模型中针对文本内容的句子间的关联的损失预测过程,本申请实施例在Bert模型的损失函数中删除原始Bert的Next Sentence相关的函数,通过Bert模型实现的上述数据学习子模型的最终的损失函数(Loss Function)可以但不局限于为如下公式(3)的形式:
公式(3)中,θ是Bert模型中编码(Encoder)部分的模型参数,θ1是Mask-LM任务(即针对部分行为描述数据的预测操作)中在Encoder上所接的束层中的模型参数;M为被随机屏蔽的部分行为描述数据的集合,|V|为行为描述数据序列的词典大小(即行为描述数据序列的大小),p为Bert得到的预测数据是被屏蔽的行为描述数据的概率(即预测正确的概率)。
本申请实施例中,上述数据学习子模型在训练过程中,通过基于历史数据集合中各个行为描述数据的上下文信息对行为描述数据进行预测的方式,学习了训练样本集合中各个历史数据集合中包含的行为描述数据的数据特征,从而提升了训练后的数据学习子模型基于行为描述数据序列,提取账户行为特征的准确度。
以下内容对上述第一账户识别模型做进一步介绍,请参见图6,本申请实施例提供一种第一账户识别模型的结构示意图,该第一账户识别模型中可以包括输入层601、已训练的数据学习子模型602、第一预测子模型603和输出层604;其中:
输入层601用于接收待处理账户的目标数据集合和账户画像数据,并将目标数据集合输入给数据学习子模型602,以及将账户画像数据输入给第一预测子模型603;输出层604用于输出第一预测子模型604的识别结果。
上述数据学习子模型602可以对目标数据集合中各个行为描述数据进行排序,得到待处理行为描述数据序列,并基于上述各个行为描述序列在待处理行为描述序列中的上下文信息进行特征提取,获得待处理账户对应的账户行为特征;为了进一步提升获取的账户行为特征的准确度,数据学习子模型602可以分别对上述各个行为描述数据的上下文信息进行特征提取,获得各个行为描述数据各自映射的行为特征向量,进而基于各个行为描述数据各自映射的行为特征向量,获得账户行为特征,其中,可以但不局限于将上述各个行为描述数据各自映射的行为特征向量的均值确定为上述待处理账户对应的账户行为特征;其中,一个上下文信息可以但局限于包括对该行为描述数据进行编码(Embedding)后的向量、该行为描述数据在待处理行为描述数据序列中的位置信息等信息中的一个。
上述第一预测子模型603可以基于上述账户画像数据和账户行为特征,确定为待处理账户是否是针对目标账户行为进行网络欺诈的欺诈账户;具体地,可以但不局限于第一预测子模型603,可以将上述数据学习子模型602提取的账户行为特征和输入层601输入的账户画像数据,确定为待处理账户特征,进而基于自身已学习的第一关联度,预测上述待处理账户特征与第一识别结果之间的第二关联度,若上述第二关联度大于第一关联度阈值,则确定待处理账户为是存在网络欺诈的欺诈账户;其中,上述第一关联度是第一预测子模型603基于历史账户对应的历史账户特征和上述第一识别结果之间的关联程度确定的,上述第一识别结果用于表征账户针对目标账户行为进行网络欺诈,上述第一预测子模型603可以但不局限于为二分类模型或其它分类模型等。
作为一种实施例,上述目标账户行为可以是本申请实施例涉及的任意一种账户行为,本申请实施例中还可以对存在针对不同的目标账户行为的欺诈账户进行识别的第一预测子模型603,并对基于不同的第一预测子模型603构建的第一账户识别模型进行训练,请参见图6,可以针对不同场景(即上述不同的目标账户行为)识别出欺诈账户和非欺诈账户,其中,非欺诈账户是除上述欺诈账户之外的账户。
作为一种实施例,本申请实施例中可以首先对数据学习子模型602进行训练,得到已训练的数据学习子模型602,进而在已训练的数据学习子模型602之后,创建用于识别欺诈账户的第一预测子模型603,得到初始的第一账户识别模型,并对初始的第一账户识别模型进行训练,得到训练后的第一账户识别模型,以下内容对第一账户识别模型的训练过程进行说明:
作为一种实施例,在对第一账户识别模型进行训练的过程中,可以对不同的历史账户数据集合进行账户类型的标注后作为训练样本,基于多个训练样本构成的训练样本集对第一账户识别模型进行训练,该训练过程中:
已训练的数据学习子模型602提取各历史数据集合对应的历史账户特征,并将提取的历史账户特征输入第一预测子模型603;第一预测子模型603根据上述历史账户特征,估计各历史数据集合对应的账户类型,以及将估计的账户类型作为预测账户类型,基于各个历史数据集合各自对应的标注的账户类型和预测账户类型的偏差信息,确定第一账户识别模型的预测误差,进而朝着使第一账户识别模型的预测误差降低的方向,对上述第一预测子模型进行参数调整,至满足第二训练结束条件时,将上述输入层601、已训练的数据学习子模型602、当前的第一预测子模型603和输出层604,输出为训练后的第一账户识别模型;
其中,上述标注的账户类型可以是上述欺诈账户或非欺诈账户,若一个历史数据集合关联的历史账户为欺诈账户,则可以将该历史数据集合标注为欺诈账户;若一个历史数据集合关联的历史账户为非欺诈账户,则可以将该历史数据集合标注为非欺诈账户,其中标注的欺诈账户即为上述内容中的第一识别结果。
作为一种实施例,本申请实施例中对上述第二训练结束条件不做过多限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将第二训练结束条件设置为如下的训练结束条件D1至D3中的一种或任意组合:训练结束条件D1)针对上述第一账户识别模型的训练操作(也可以称为针对第一预测子模型的训练操作)的次数达到第二次数阈值;训练结束条件D2)对上述第一账户识别模型进行训练操作的时长达到第二时长阈值;训练结束条件C3)当前正在训练的第一账户识别模型的预测误差小于第二预测误差阈值等。
以下内容对上述第二账户识别模型做进一步介绍,请参见图7,本申请实施例提供一种第二账户识别模型的结构示意图,该第二账户识别模型中可以包括输入层701、已训练的数据学习子模型702、第一预测子模型703、账户等级划分层704和输出层705;其中:
输入层701用于接收待处理账户的目标数据集合和账户画像数据,并将目标数据集合输入给数据学习子模型702,以及将账户画像数据输入给第一预测子模型703;输出层705用于输出账户等级划分层704确定出的欺诈账户等级,其中欺诈账户等级可以但不局限于基于账户针对目标账户行为进行网络欺诈的可疑程度确定。
上述数据学习子模型702的内容与上述数据学习子模块602一致,详细内容可参见上述描述,此处不再重复叙述。
上述第二预测子模型703可以基于待处理账户的账户画像数据和账户行为特征,确定待处理账户与第二识别结果之间的第四关联度;具体地,可以将账户画像数据和和数据学习子模块702输出的账户行为特征,确定为待处理账户对应的待处理账户特征,以及基于自身已学习的第三关联度,预测上述待处理账户特征与第二识别结果之间的第四关联度;其中,第二识别结果用于表征账户针对目标账户行为进行网络欺诈;第三关联度是第二预测子模块703基于历史账户对应的历史账户特征和上述第二识别结果之间的关联程度确定的,上述第二预测子模型703可以但不局限于基于二分类模型或多分类模型得到。
账户等级划分层704可以根据至少一个欺诈账户等级映射的关联度范围,确定第二预测子模块703输出的第二关联度归属的关联度范围,进而将确定的关联度范围映射的欺诈账户等级,确定为上述待处理账户对应的欺诈账户等级;其中上述至少一个欺诈账户等级中各个欺诈账户等级各自映射的关联度范围,可以是由技术人员根据经验设置的,也可以是通过机器学习的方式获得的。
作为一种实施例,本申请实施例中还可以对存在针对不同的目标账户行为的欺诈账户进行识别的第二预测子模型703,并对基于不同的第二预测子模型703构建的第二账户识别模型进行训练,请继续参见图7,可以针对不同场景(即上述不同的目标账户行为)识别出待处理账户的欺诈账户等级。
作为一种实施例,本申请实施例中对上述至少一个欺诈账户等级的数量和种类均不做过多限定,如可以但不局限于设置至少一个欺诈账户等级包括:低欺诈风险账户、中度欺诈风险账户、高度欺诈风险账户等;进一步地,若上述第三关联度的范围为0至1的数据,则可以但不局限于将低欺诈风险账户映射的关联度范围设置为0-0.43,将中度欺诈风险账户映射的关联度范围设置为0.44-0.76,将高度欺诈风险账户映射的关联度范围设置成0.77-1等,本领域的技术人员可根据实际需求设置。
作为一种实施例,本申请实施例中可以首先按照上述内容对数据学习子模型702进行训练,得到已训练的数据学习子模型702,进而在已训练的数据学习子模型702之后,创建第二预测子模型703和账户等级划分层704,得到初始的第二账户识别模型,并对初始的第二账户识别模型进行训练,得到训练后的第二账户识别模型,以下内容对第二账户识别模型的训练过程进行说明:
作为一种实施例,在对第二账户识别模型进行训练的过程中,可以对不同的历史账户数据集合进行欺诈账户等级的标注后作为训练样本,基于多个训练样本构成的训练样本集对第二账户识别模型进行训练,该训练过程中:
已训练的数据学习子模型702提取各历史数据集合对应的历史账户特征,并将提取的历史账户特征输入第二预测子模型703;第二预测子模型703根据上述历史账户特征,估计各历史账户特征和第二识别结果之间的关联度,为预测关联度,并将预测关联度输入账户等级划分层704;账户等级划分层704基于预测关联度,确定历史数据集合关联的历史账户映射的欺诈账户等级为预测欺诈账户等级;进而可以基于各个历史数据集合各自标注的欺诈账户等级和预测账户等级的偏差信息,确定第二账户识别模型的预测误差进而朝着使第二预测子模型的预测误差降低的方向,对上述第二预测子模型703进行参数调整,或者同时对第二预测子模型703和账户等级划分层704进行参数调整,至满足第三训练结束条件时,将上述输入层701、已训练的数据学习子模型702、当前的第二预测子模型703、账户等级划分层704和输出层705,输出为训练后的第二账户识别模型。
作为一种实施例,本申请实施例中对上述第三训练结束条件不做过多限定,本领域的技术人员可根据实际需求设置,如可以但不局限于将第三训练结束条件设置为如下的训练结束条件E1至E3中的一种或任意组合:训练结束条件E1)针对上述第二账户识别模型的训练操作(也可以称为针对第二预测子模型的训练操作)的次数达到第三次数阈值;训练结束条件E2)对上述第二账户识别模型进行训练操作的时长达到第三时长阈值;训练结束条件E3)当前正在训练的第二账户识别模型的预测误差小于第三预测误差阈值等。
作为一种实施例,以下内容中提供一种基于上述第一账户识别模型,对欺诈账户进行识别的完整流程的示例,该示例中以上述第一资源转移操作为目标账户行为进行说明,请参见图8,具体包括如下步骤:
步骤S801,从待处理账户触发的账户行为关联的行为描述数据中,获取在在预设时间段内触发的至少两个账户行为关联的行为描述数据,生成待处理账户关联的目标数据集合。
步骤S802,获取待处理账户的账户画像数据。
步骤S803,将上述目标数据集合和上述账户画像数据输入第一账户识别模型。
步骤S804,通过第一账户识别模型中的数据学习子模型,对目标数据集合中各个行为描述数据进行排序,得到待处理行为描述数据序列,并基于各个行为描述数据在待处理行为序列中的上下文信息,对待处理行为描述数据进行特征提取,获得账户行为特征。
步骤S805,通过第一账户识别模型中的第一预测子模型,基于上述账户画像数据和账户行为特征,确定待处理账户是否是针对第一资源转移操作进行欺诈的欺诈账户。
其中,步骤S801-S805的详细过程可参见上文内容,此处不再重复叙述。
为便于理解,此处给出一个示意性的例子,该示例中以电子资源转移操作为目标账户行为,以2021年1月14日这一天为上述预设时间段,以账户A为上述待处理账户,假若账户A在2021年1月14日共触发了账户行为1、账户行为2、账户行为3和账户行为4四个账户行为,则可以将账户行为1至4关联的行为描述数据组成的集合,确定为账户A关联的目标数据集合,此处账户行为1至账户行为4各自关联的行为描述信息以下述内容为例进行说明:
账户行为1关联的行为描述数据1为{触发时间:2021年1月14日8:00,操作信息:添加账户B为好友,操作途径:扫描二维码,…};
账户行为2关联的行为描述数据2为{触发时间:2021年1月14日10:01,操作信息:将账户B添加至通讯黑名单,…};
账户行为3关联的行为描述数据3为{触发时间:2021年1月14日10:02,操作信息:将资源值为Y1的电子资源转移到目标应用之外的应用,操作途径:通过目标应用进行转账,…};
账户行为4关联的行为描述数据4为{触发时间:2021年1月14日10:00,操作信息:接收账户B转移的资源值为Y1的电子资源,操作途径:通过目标应用进行转账,…};
即该示例中,通过步骤S801获取的账户A关联的目标数据集合可以为{行为描述数据1,行为描述数据2,行为描述数据3,行为描述数据4},因而基于上述信息,在步骤S804获得的待处理行为描述序列为{账户行为1,账户行为4,账户行为3,账户行为2},记提取出的账户A的账户行为特征为M,则M可以表征“添加一个好友后,接收该好友转移的电子资源后的极短时间内删除该好友,并迅速将接收的电子资源转移到目标应用之外的应用”的异常的支付行为分布特征;同时假设步骤S802获取的账户A的账户画像数据为{性别:男,年龄:25,籍贯:未知,学历:未知,资产情况:电子资源的资源值为Y2,职业:无业,账户信誉:低,…}”;则在这种情况下账户A对应的账户行为特征M是异常的支付行为分布特征,且基于账户A的账户画像数据也可得知账户A存在较高的网络欺诈的嫌疑,因此在上述步骤S805中,上述第一预测子模型,基于已学习的第一关联度,能估计出账户A的账户画像数据和账户行为特征M组成的待处理账户和第一识别结果的第二关联度大于对应的关联度阈值,进而识别出账户A为欺诈账户。
其中,上述识别账户A的过程仅为便于理解本申请实施例提供的方法的示例,其中涉及的具体内容在实际应用中可以因实际情况作出适应性的变动。
请参见表2,给出了第一欺诈识别方式和第二欺诈识别方式的识别效果的实验结果对比,其中,第一欺诈识别方式为基于待处理账户的账户画像数据进行识别的方式,第二欺诈识别方式为通过本申请实施例提供的方法,基于待处理账户的账户画像数据和待处理账户关联的目标数据集合进行识别的方式,从表2中可以看出,采用本申请提供的方法,能明显提升存在针对第一资源转移操作的网络欺诈的欺诈账户的识别准确度。
表2:第一欺诈识别方式和第二欺诈识别方式的识别效果的实验结果对比
作为一种实施例,以下内容中提供一种基于上述第二账户识别模型,识别账户的欺诈账户等级的完整流程的示例,该示例中以上述第一资源转移操作为目标账户行为进行说明,请参见图9,具体包括如下步骤:
步骤S901-S902,与上述步骤S801-S802一致,此处不再重复叙述。
步骤S903,将上述目标数据集合和上述账户画像数据输入第二账户识别模型;
步骤S904,通过第二账户识别模型中的数据学习子模型,对目标数据集合中各个行为描述数据进行排序,得到待处理行为描述数据序列,并基于各个行为描述数据在待处理行为序列中的上下文信息,对待处理行为描述数据进行特征提取,获得账户行为特征;
步骤S905,通过第二账户识别模型中的第二预测子模型,基于上述账户画像数据和账户行为特征,确定待处理账户特征与第二识别结果之间的第四关联度,其中,第二识别结果用于表征账户针对第一资源转移操作进行网络欺诈。
步骤S906,通过第二账户识别模型中的账户等级划分层,将第二关联度归属的关联度范围映射的欺诈账户等级,确定为待处理账户对应的欺诈账户等级。
其中,步骤S901-S906的详细过程可参见上文内容,此处不再重复叙述。
本申请实施例提供的方法,一方面,可以从至少包括电子资源转移操作的账户行为所关联的大量无标注的行为描述数据中,获得反映账户的支付行为分布的行为描述数据序列,进而能基于行为描述数据序列,提取反映账户的支付行为分布特点的账户行为特征,提供了一种从海量无标注的行为描述数据中,提取表征账户与支付行为有关的账户特征的方法,故而提升了针对账户的移动支付提取的账户特征的丰富度;另一方面,本申请实施例提供的方法中,可以基于提取的账户行为特征,提升对存在针对不同账户行为的网络欺诈的欺诈账户的准确度,也提供了一种基于账户行为特征,确定待处理账户针对不同账户行为存在网络欺诈的可疑程度(即以上述欺诈账户等级的形式体现),提升了对网络欺诈进行识别的灵活度。
请参照图10,基于同一发明构思,本申请实施例提供一种账户特征的提取装置1000,包括:
作为一种实施例,图10中的装置可以用于实现前文论述的任意一种账户特征的提取方法。
数据获取单元1001,用于获取待处理账户关联的目标数据集合,上述目标数据集合中包含上述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,上述至少两个账户行为至少包括电子资源转移操作;
特征提取单元1002,用于按照上述目标数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对上述各个行为描述数据进行排序,获得待处理行为描述数据序列;以及上述特征提取单元用于基于上述各个行为描述数据在上述待处理行为描述数据序列中的上下文信息,提取上述待处理行为描述数据序列的行为特征,并将上述行为特征确定为上述待处理账户对应的账户行为特征。
作为一种实施例,特征提取单元1002具体用于:将上述待处理数据序列输入已训练的数据学习子模型;基于上述数据学习子模型,对上述待处理数据序列中包含的各个行为描述数据的上下文信息进行特征提取,获得上述待处理数据序列的行为特征;
其中,上述数据学习子模型是将历史账户关联的历史数据集合作为训练样本集,基于上述训练样本集中各个历史数据集合包含的各个行为描述数据的上下文信息,对上述数据学习子模型进行训练得到的。
作为一种实施例,特征提取单元1002具体用于:将上述目标数据集合输入已训练的数据学习子模型,并获得上述待处理行为描述数据序列的行为特征;上述数据学习子模型是通过下列方式训练得到的:
获取历史账户关联的历史数据集合为训练样本;基于包含多个上述训练样本的训练样本集合,对上述数据学习子模型进行至少一次训练过程,确定满足训练结束条件时,输出上述数据学习子模型;其中,一次训练过程包括:通过上述数据学习子模型,对训练样本集合中的各个历史数据集合分别进行数据预测操作,确定上述各个历史数据集合各自对应的预测偏差,并基于上述各个历史数据集合各自对应的预测偏差,对上述数据学习子模型进行参数调整。
作为一种实施例,特征提取单元1002具体用于:对上述各个历史数据集合分别执行以下操作:
针对上述各个历史数据集合中的一个历史数据集合,按照上述一个历史数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对上述一个历史数据集合中各个行为描述数据进行排序,获得对应的历史行为描述数据序列;
屏蔽上述历史行为描述数据序列中的部分行为描述数据;以及
基于上述部分行为描述数据在上述历史行为描述数据序列中的上下文信息,从候选数据集合中确定出与上述部分行为描述数据匹配的候选行为描述数据,上述候选行为描述数据是基于上述训练样本集合确定的;
将上述部分行为描述数据和确定出的候选行为描述数据的偏差信息,确定为上述一个历史数据集合对应的预测偏差。
作为一种实施例,特征提取单元1002具体用于:确定上述部分行为描述数据在上述历史行为描述数据序列中的上下文信息;从上述候选数据集合中,获取部分候选行为描述数据;分别确定获取的各个候选行为描述数据和确定的上下文信息之间的匹配度;将匹配度满足匹配度条件的候选行为描述数据,确定为与上述部分行为描述数据匹配的候选行为描述数据。
作为一种实施例,上述数据学习子模型是已训练的第一账户识别模型中的子模型,上述第一账户识别模型中还包括第一预测子模型,特征提取单元1002还用于:通过上述第一预测子模型对上述待处理账户特征进行如下处理:
将上述账户画像数据和上述账户行为特征,确定为上述待处理账户对应的待处理账户特征;
基于上述第一预测子模型已学习的第一关联度,预测上述待处理账户特征与第一识别结果之间的第二关联度,上述第一关联度是基于历史账户对应的历史账户特征和上述第一识别结果之间的关联程度确定的,上述第一识别结果用于表征账户针对目标账户行为进行网络欺诈;
若上述第二关联度大于关联度阈值,则确定上述待处理账户为针对目标账户行为进行网络欺诈的欺诈账户。
作为一种实施例,上述数据学习子模型为已训练的第二账户识别模型的子模型,上述第二账户识别模型中还包括第二预测子模型,特征提取单元1002还用于:
基于上述第二预测子模型将上述账户画像数据和上述账户行为特征,确定为上述待处理账户对应的待处理账户特征,以及基于上述第二预测子模型已学习的第三关联度,预测上述待处理账户特征与第二识别结果之间的第四关联度,上述第三关联度是基于历史账户对应的历史账户特征和上述第二识别结果之间的关联程度确定的;上述第二识别结果用于表征账户针对目标账户行为进行网络欺诈;
根据至少一个欺诈账户等级映射的关联度范围,确定上述第二关联度归属的关联度范围;其中,上述欺诈账户等级基于账户针对目标账户行为进行网络欺诈的可疑程度确定;
将确定的关联度范围映射的欺诈账户等级,确定为上述待处理账户对应的欺诈账户等级。
作为一种实施例,上述账户行为还包括针对第一账户的账户设置操作,上述待处理账户和上述第一账户为在目标应用中注册的不同账户,上述账户设置操作包括如下一种或任意组合:
添加与上述第一账户之间的通讯路径的操作;删除与上述第一账户之间的通讯路径的操作;将上述第一账户添加到通讯黑名单的操作;屏蔽上述第一账户发送的消息的操作。
作为一种实施例,上述账户行为包括如下一种或任意组合:
向第二账户转移电子资源的第一资源转移操作;接收上述第二账户转移的电子资源的第二资源转移操作;其中上述待处理账户为在目标应用中注册的账户;上述第二账户为在目标应用中注册且与上述待处理账户不同的账户,或,上述第二账户为在除上述目标应用之外的应用中注册的账户。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备。该计算机设备可以用于基于推送内容的数据处理。在一种实施例中,该计算机设备可以是服务器,如图1所示的服务器120。在该实施例中,计算机设备的结构可以如图11所示,包括存储器1101,通讯模块1103以及一个或多个处理器1102。
存储器1101,用于存储处理器1102执行的计算机程序。存储器1101可主要包括存储程序区和存储数据区;存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1101可以是易失性存储器(Volatile Memory),例如随机存取存储器(Random-Access Memory,RAM);存储器1101也可以是非易失性存储器(Non-VolatileMemory),例如只读存储器,快闪存储器(Flash Memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者存储器1101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1101可以是上述存储器的组合。
处理器1102,可以包括一个或多个中央处理单元(Central Processing Unit,CPU)或者为数字处理单元等。处理器1102,用于调用存储器1101中存储的计算机程序时实现上述账户特征的提取方法。
通讯模块1103用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1101、通讯模块1103和处理器1102之间的具体连接介质。本申请实施例在图11中以存储器1101和处理器1102之间通过总线1104连接,总线1104在图11中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1104可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1101中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的账户特征的提取方法。处理器1102用于执行上述账户特征的提取方法,如图3所示。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例上述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
基于同一技术构思,本申请实施例还一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当上述计算机指令在计算机上运行时,使得计算机执行如前文论述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种账户特征的提取方法,其特征在于,包括:
获取待处理账户关联的目标数据集合,所述目标数据集合中包含所述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,所述至少两个账户行为至少包括电子资源转移操作;
将所述目标数据集合输入已训练的数据学习子模型,并获得所述待处理行为描述数据序列的行为特征;
将所述行为特征确定为所述待处理账户对应的账户行为特征;
所述数据学习子模型是通过下列方式训练得到的:
获取历史账户关联的历史数据集合为训练样本;
基于包含多个所述训练样本的训练样本集合,对所述数据学习子模型进行至少一次训练过程,确定满足训练结束条件时,输出所述数据学习子模型;
其中,一次训练过程包括:通过所述数据学习子模型,对所述各个历史数据集合分别执行以下操作:针对所述各个历史数据集合中的一个历史数据集合,按照所述一个历史数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对所述一个历史数据集合中各个行为描述数据进行排序,获得对应的历史行为描述数据序列;屏蔽所述历史行为描述数据序列中的部分行为描述数据;以及基于所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息,从候选数据集合包括的各个候选行为描述数据中确定出与所述部分行为描述数据匹配的候选行为描述数据,所述候选行为描述数据是基于所述训练样本集合确定的;将所述部分行为描述数据和确定出的候选行为描述数据的偏差信息,确定为所述一个历史数据集合对应的预测偏差;基于所述各个历史数据集合各自对应的预测偏差,对所述数据学习子模型进行参数调整。
2.如权利要求1所述的方法,其特征在于,所述基于所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息,从候选数据集合中确定出与所述部分行为描述数据匹配的候选行为描述数据,包括:
确定所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息;
从所述候选数据集合中,获取部分候选行为描述数据;
分别确定获取的各个候选行为描述数据和确定的上下文信息之间的匹配度;
将匹配度满足匹配度条件的候选行为描述数据,确定为与所述部分行为描述数据匹配的候选行为描述数据。
3.如权利要求1所述的方法,其特征在于,所述获取待处理账户关联的目标数据集合时,还包括:
获取所述待处理账户的账户画像数据;
所述将所述行为特征确定为所述待处理账户对应的账户行为特征之后,还包括:
将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征;
基于所述待处理账户特征,确定所述待处理账户是否针对目标账户行为进行网络欺诈。
4.如权利要求3所述的方法,其特征在于,所述数据学习子模型是已训练的第一账户识别模型中的子模型,所述第一账户识别模型中还包括第一预测子模型,所述将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征,以及基于所述待处理账户特征,确定所述待处理账户是否针对目标账户行为进行网络欺诈,包括:
通过所述第一预测子模型对所述待处理账户特征进行如下处理:
将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征;
基于所述第一预测子模型已学习的第一关联度,预测所述待处理账户特征与第一识别结果之间的第二关联度,所述第一关联度是基于历史账户对应的历史账户特征和所述第一识别结果之间的关联程度确定的,所述第一识别结果用于表征账户针对目标账户行为进行网络欺诈;
若所述第二关联度大于关联度阈值,则确定所述待处理账户为针对目标账户行为进行网络欺诈的欺诈账户。
5.如权利要求3所述的方法,其特征在于,所述数据学习子模型为已训练的第二账户识别模型的子模型,所述第二账户识别模型中还包括第二预测子模型,所述将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征,以及基于所述待处理账户特征,确定所述待处理账户是否针对目标账户行为进行欺诈,包括:
基于所述第二预测子模型,将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征,以及基于所述第二预测子模型已学习的第三关联度,预测所述待处理账户特征与第二识别结果之间的第四关联度,所述第三关联度是基于历史账户对应的历史账户特征和所述第二识别结果之间的关联程度确定的;所述第二识别结果用于表征账户针对目标账户行为进行网络欺诈;
根据至少一个欺诈账户等级映射的关联度范围,确定第二关联度归属的关联度范围;其中,所述欺诈账户等级基于账户针对目标账户行为进行网络欺诈的可疑程度确定;
将确定的关联度范围映射的欺诈账户等级,确定为所述待处理账户对应的欺诈账户等级。
6.如权利要求1-5任一项所述的方法,其特征在于,所述账户行为还包括针对第一账户的账户设置操作,所述待处理账户和所述第一账户为在目标应用中注册的不同账户,所述账户设置操作包括如下一种或任意组合:
添加与所述第一账户之间的通讯路径的操作;
删除与所述第一账户之间的通讯路径的操作;
将所述第一账户添加到通讯黑名单的操作;
屏蔽所述第一账户发送的消息的操作。
7.如权利要求1-5任一项所述的方法,其特征在于,所述账户行为包括如下一种或任意组合:
向第二账户转移电子资源的第一资源转移操作;
接收所述第二账户转移的电子资源的第二资源转移操作;
其中所述待处理账户为在目标应用中注册的账户;所述第二账户为在目标应用中注册且与所述待处理账户不同的账户,或,所述第二账户为在除所述目标应用之外的应用中注册的账户。
8.一种账户特征的提取装置,其特征在于,包括:
数据获取单元,用于获取待处理账户关联的目标数据集合,所述目标数据集合中包含所述待处理账户在预设时间段内触发的至少两个账户行为关联的行为描述数据,所述至少两个账户行为至少包括电子资源转移操作;
特征提取单元,用于将所述目标数据集合输入已训练的数据学习子模型,并获得所述待处理行为描述数据序列的行为特征;将所述行为特征确定为所述待处理账户对应的账户行为特征;
所述数据学习子模型是通过下列方式训练得到的:获取历史账户关联的历史数据集合为训练样本;基于包含多个所述训练样本的训练样本集合,对所述数据学习子模型进行至少一次训练过程,确定满足训练结束条件时,输出所述数据学习子模型;其中,一次训练过程包括:通过所述数据学习子模型,对所述各个历史数据集合分别执行以下操作:针对所述各个历史数据集合中的一个历史数据集合,按照所述一个历史数据集合中各个行为描述数据关联的账户行为的触发时间顺序,对所述一个历史数据集合中各个行为描述数据进行排序,获得对应的历史行为描述数据序列;屏蔽所述历史行为描述数据序列中的部分行为描述数据;以及基于所述部分行为描述数据在所述历史行为描述数据序列中的上下文信息,从候选数据集合包括的各个候选行为描述数据中确定出与所述部分行为描述数据匹配的候选行为描述数据,所述候选行为描述数据是基于所述训练样本集合确定的;将所述部分行为描述数据和确定出的候选行为描述数据的偏差信息,确定为所述一个历史数据集合对应的预测偏差;基于所述各个历史数据集合各自对应的预测偏差,对所述数据学习子模型进行参数调整。
9.如权利要求8所述的装置,其特征在于,所述数据获取单元还用于:
获取待处理账户关联的目标数据集合时,获取所述待处理账户的账户画像数据;
所述特征提取单元还用于,将所述行为特征确定为所述待处理账户对应的账户行为特征之后,将所述账户画像数据和所述账户行为特征,确定为所述待处理账户对应的待处理账户特征;基于所述待处理账户特征,确定所述待处理账户是否针对目标账户行为进行网络欺诈。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7中任一项所述方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的方法。
CN202110130051.6A 2021-01-29 2021-01-29 账户特征的提取方法、装置、设备及可读存储介质 Active CN113011884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110130051.6A CN113011884B (zh) 2021-01-29 2021-01-29 账户特征的提取方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110130051.6A CN113011884B (zh) 2021-01-29 2021-01-29 账户特征的提取方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113011884A CN113011884A (zh) 2021-06-22
CN113011884B true CN113011884B (zh) 2023-08-04

Family

ID=76385448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110130051.6A Active CN113011884B (zh) 2021-01-29 2021-01-29 账户特征的提取方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113011884B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537616A (zh) * 2021-07-28 2021-10-22 北京达佳互联信息技术有限公司 账户预测模型的训练方法、装置、电子设备及存储介质
CN113691440B (zh) * 2021-08-02 2023-04-25 维沃移动通信有限公司 消息处理方法和装置
CN116108145B (zh) * 2023-04-12 2023-07-21 山景智能(北京)科技有限公司 基于预训练的风控分析方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN108429718A (zh) * 2017-02-13 2018-08-21 腾讯科技(深圳)有限公司 账号识别方法及装置
CN108985770A (zh) * 2018-06-07 2018-12-11 阿里巴巴集团控股有限公司 模型训练方法、特征序列生成方法和服务器
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN110298663A (zh) * 2018-03-22 2019-10-01 中国银联股份有限公司 基于序列宽深学习的欺诈交易检测方法
CN110555182A (zh) * 2018-05-31 2019-12-10 中国电信股份有限公司 用户画像的确定方法、装置及计算机可读存储介质
CN110852881A (zh) * 2019-10-14 2020-02-28 支付宝(杭州)信息技术有限公司 风险账户识别方法、装置、电子设备及介质
CN110990164A (zh) * 2019-11-08 2020-04-10 支付宝(杭州)信息技术有限公司 账户检测方法和装置、账户检测模型的训练方法和装置
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN111686451A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种业务处理方法、装置、设备及计算机存储介质
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111865925A (zh) * 2020-06-24 2020-10-30 国家计算机网络与信息安全管理中心 基于网络流量的诈骗团伙识别方法、控制器和介质
CN112085497A (zh) * 2020-08-28 2020-12-15 银清科技有限公司 用户账户数据的处理方法及装置
CN112150153A (zh) * 2020-10-12 2020-12-29 中国农业银行股份有限公司 电信诈骗用户识别方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242540B2 (en) * 2009-09-02 2019-03-26 Fair Isaac Corporation Visualization for payment card transaction fraud analysis
US20190295087A1 (en) * 2018-03-23 2019-09-26 Microsoft Technology Licensing, Llc System and method for detecting fraud in online transactions by tracking online account usage characteristics indicative of user behavior over time
CN110737758B (zh) * 2018-07-03 2022-07-05 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
US11257481B2 (en) * 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784348A (zh) * 2016-04-26 2020-10-16 阿里巴巴集团控股有限公司 账户风险识别方法及装置
CN107316198A (zh) * 2016-04-26 2017-11-03 阿里巴巴集团控股有限公司 账户风险识别方法及装置
US10282546B1 (en) * 2016-06-21 2019-05-07 Symatec Corporation Systems and methods for detecting malware based on event dependencies
CN108429718A (zh) * 2017-02-13 2018-08-21 腾讯科技(深圳)有限公司 账号识别方法及装置
CN110298663A (zh) * 2018-03-22 2019-10-01 中国银联股份有限公司 基于序列宽深学习的欺诈交易检测方法
CN110555182A (zh) * 2018-05-31 2019-12-10 中国电信股份有限公司 用户画像的确定方法、装置及计算机可读存储介质
CN108985770A (zh) * 2018-06-07 2018-12-11 阿里巴巴集团控股有限公司 模型训练方法、特征序列生成方法和服务器
CN110852881A (zh) * 2019-10-14 2020-02-28 支付宝(杭州)信息技术有限公司 风险账户识别方法、装置、电子设备及介质
CN110990164A (zh) * 2019-11-08 2020-04-10 支付宝(杭州)信息技术有限公司 账户检测方法和装置、账户检测模型的训练方法和装置
CN111340506A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 交易行为的风险识别方法、装置、存储介质和计算机设备
CN111686451A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种业务处理方法、装置、设备及计算机存储介质
CN111709754A (zh) * 2020-06-12 2020-09-25 中国建设银行股份有限公司 一种用户行为特征提取方法、装置、设备及系统
CN111865925A (zh) * 2020-06-24 2020-10-30 国家计算机网络与信息安全管理中心 基于网络流量的诈骗团伙识别方法、控制器和介质
CN112085497A (zh) * 2020-08-28 2020-12-15 银清科技有限公司 用户账户数据的处理方法及装置
CN112150153A (zh) * 2020-10-12 2020-12-29 中国农业银行股份有限公司 电信诈骗用户识别方法和装置

Also Published As

Publication number Publication date
CN113011884A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
US11659050B2 (en) Discovering signature of electronic social networks
CN113011884B (zh) 账户特征的提取方法、装置、设备及可读存储介质
US11539716B2 (en) Online user behavior analysis service backed by deep learning models trained on shared digital information
CN111339427B (zh) 一种图书信息推荐方法、装置、系统及存储介质
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN112700252B (zh) 一种信息安全性检测方法、装置、电子设备和存储介质
CN111737546B (zh) 确定实体业务属性的方法及装置
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN107767152B (zh) 产品购买倾向分析方法及服务器
CN107368499B (zh) 一种客户标签建模及推荐方法及装置
CN111353554B (zh) 预测缺失的用户业务属性的方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN112016850A (zh) 业务评估方法以及装置
Li et al. A time attention based fraud transaction detection framework
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN114330837A (zh) 对象处理方法、装置、计算机设备和存储介质
Bansal et al. Cryptocurrency price prediction using Twitter and news articles analysis
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN113010772A (zh) 一种数据处理方法、相关设备及计算机可读存储介质
CN112597390A (zh) 基于数字金融的区块链大数据处理方法及大数据服务器
CN112132367A (zh) 一种用于企业经营管理风险识别的建模方法及装置
Tengland et al. Predicting NFT Marketplace Growth Using Frequency of Tweets Regarding Safety Concerns
CN115114904B (zh) 语言模型的优化方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045987

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant