用于检测账户使用异常的方法及装置
技术领域
本公开涉及互联网领域,具体地,涉及一种用于检测账户使用异常的方法及装置。
背景技术
随着互联网技术的不断发展,使用互联网账户进行工作和生活等活动的用户越来越多,例如用户可以通过类似“QQ”的网络账户与好友进行即时通讯,以及用户还可以通过类似“摩拜”、“滴滴”的出行网络账户预约共享车辆等,这些网络活动为用户带来了工作和生活上的便利。
但是,若互联网账户被他人盗用,尤其是手机钱包类的金融账户被非法盗用时,则会为用户带来较大的损失。并且,一旦出现用户账户盗用,不仅危害用户的资金安全,同时还会出现网络平台产品安全性低下的舆论风险,会严重影响网络平台的口碑。
因此,如何检测互联网账户是否存在异常使用或盗用风险,以增加用户的安全感和用户粘性,是目前业界亟待解决的难题。
发明内容
鉴于上述问题,本公开提供了一种用于检测账户使用异常的方法及装置,利用该方法及装置,通过使用账户的长期累积行为数据和短期突发行为数据来进行账户使用异常检测,可以提升账户异常使用检测的准确率,增强用户的安全感和用户粘性。
根据本公开的一个方面,提供了一种用于检测账户使用异常的方法,包括:获取待检测账户的至少一个第一行为特征数据,所述第一行为特征数据是与第一时段内针对所述待检测账户执行的第一历史行为数据对应的行为特征数据;获取所述待检测账户的至少一个第二行为特征数据,所述第二行为特征数据是与第二时段内针对所述待检测账户执行的第二历史行为数据对应的行为特征数据,其中,所述第二时段小于所述第一时段,并且所述第二时段的结束时间不早于所述第一时段的结束时间;以及将所述至少一个第一行为特征数据和所述至少一个第二行为特征数据提供给账户异常检测模型来确定针对所述账户的使用是否异常。
可选地,在一个示例中,所述第二时段的结束时间等于所述账户异常检测的触发时刻。
可选地,在一个示例中,所述至少一个第二历史行为数据被时序化为第二历史行为时序数据。
可选地,获取所述待检测账户的至少一个第一或第二行为特征数据包括:获取所述待检测账户的至少一个第一或第二历史行为数据;确定所述至少一个第一或第二历史行为数据的数据类型;以及使用与所述至少一个第一或第二历史行为数据的数据类型匹配的特征向量化方法来对所述至少一个第一或第二历史行为数据进行特征向量化处理,以得到所述至少一个第一或第二行为特征数据。
可选地,获取所述待检测账户的至少一个第一或第二行为特征数据还包括:基于行为发生频率来对所获取的至少一个第一或第二历史行为数据进行筛选处理,以及使用与所述至少一个第一或第二历史行为数据的数据类型匹配的向量特征化方法来对所述至少一个第一或第二历史行为数据进行特征向量化处理,以得到所述至少一个第一或第二行为特征数据包括:使用与所述至少一个第一或第二历史行为数据的数据类型匹配的特征向量化方法来对经过筛选处理后的至少一个第一或第二历史行为数据进行特征向量化处理,以得到所述至少一个第一或第二行为特征数据。
可选地,所述特征向量化方法包括下述方法中的一种:归一化处理、词向量处理和独热编码处理。
可选地,所述词向量处理包括Word2Vec处理。
可选地,所述账户异常检测模型包括宽深度模型,所述宽深度模型中的宽度模型为线性模型,以及深度模型为深度学习模型,其中,将所述至少一个第一行为特征数据和所述至少一个第二行为特征数据提供给账户异常检测模型来确定针对所述账户的使用是否异常包括:将所述至少一个第一行为特征数据提供给所述线性模型来得到第一异常检测结果;将所述至少一个第二行为特征数据提供给所述深度学习模型来得到第二异常检测结果;以及基于所述第一异常检测结果和所述第二异常检测结果来确定针对所述账户的使用是否异常。
可选地,所述线性模型和所述深度学习模型具有对应的权重因子,其中,基于所述第一异常检测结果和所述第二异常检测结果来确定针对所述账户的使用是否异常包括:基于所述第一异常检测结果和所述第二异常检测结果以及对应的权重因子,确定针对所述账户的使用是否异常。
根据本公开的另一方面,还提供一种用于检测账户使用异常的装置,包括:第一特征获取单元,被配置为获取待检测账户的至少一个第一行为特征数据,所述第一行为特征数据是与第一时段内针对所述待检测账户执行的第一历史行为数据对应的行为特征数据;第二特征获取单元,被配置为获取所述待检测账户的至少一个第二行为特征数据,所述第二行为特征数据是与第二时段内针对所述待检测账户执行的第二历史行为数据对应的行为特征数据,其中,所述第二时段小于所述第一时段,并且所述第二时段的结束时间不早于所述第一时段的结束时间;异常检测单元,被配置为将所述至少一个第一行为特征数据和所述至少一个第二行为特征数据提供给账户异常检测模型来确定针对所述账户的使用是否异常。
可选地,所述至少一个第二历史行为数据被时序化为第二历史行为时序数据。
可选地,所述第一特征获取单元或所述第二特征获取单元包括:行为数据获取模块,被配置为获取所述待检测账户的至少一个第一或第二历史行为数据;数据类型确定模块,被配置为确定所述至少一个第一或第二历史行为数据的数据类型;特征处理模块,被配置为使用与所述至少一个第一或第二历史行为数据的数据类型匹配的特征向量化方法来对所述至少一个第一或第二历史行为数据进行特征向量化处理,以得到所述至少一个第一或第二行为特征数据。
可选地,所述第一特征获取单元或所述第二特征获取单元包括:频率筛选模块,被配置为基于行为发生频率来对所获取的至少一个第一或第二历史行为数据进行筛选处理;其中,所述特征处理模块被配置为:使用与所述至少一个第一或第二历史行为数据的数据类型匹配的特征向量化方法来对经过筛选处理后的至少一个第一或第二历史行为数据进行特征向量化处理,以得到所述至少一个第一或第二行为特征数据。
可选地,所述特征向量化方法包括下述方法中的一种:归一化处理、词向量处理和独热编码处理。
可选地,所述账户异常检测模型包括宽深度模型,所述宽深度模型中的宽度模型为线性模型,以及深度模型为深度学习模型,其中,所述异常检测单元包括:第一异常确定模块,被配置为将所述至少一个第一行为特征数据提供给所述线性模型来得到第一异常检测结果;第二异常确定模块,被配置为将所述至少一个第二行为特征数据提供给所述深度学习模型来得到第二异常检测结果;以及异常检测模块,基于所述第一异常检测结果和所述第二异常检测结果来确定针对所述账户的使用是否异常。
可选地,所述线性模型和所述深度学习模型具有对应的权重因子,其中,所述异常检测模块被配置为:基于所述第一异常检测结果和所述第二异常检测结果以及对应的权重因子,确定针对所述账户的使用是否异常。
根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于检测账户使用异常的方法。
根据本公开的另一方面,还提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于检测账户使用异常的方法。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1示出了根据本公开的实施例的用于检测账户使用异常的系统的架构示意图;
图2示出了根据本公开的实施例的用于检测账户使用异常的方法的流程图;
图3示出了根据本公开的实施例的用于获取待检测账户的第一或第二行为特征数据的流程图;
图4示出了根据本公开的实施例的账户异常检测模型的一个示例的示意图;
图5示出了根据本公开实施例的用于检测账户使用异常的过程的一个示例示意图;
图6示出了根据本公开的实施例的用于检测账户使用异常的装置的方框图;
图7A示出了根据本公开的实施例的第一特征获取单元的一个示例方框图;
图7B示出了根据本公开的实施例的第二特征获取单元的一个示例方框图;
图8示出了根据本公开的实施例的用于检测账户使用异常的计算设备的硬件结构图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本文中,术语“账户使用异常”表示因账户使用不符合正常用户使用规范而存在被盗用风险的情况。术语“至少一个”表示一个或多个。术语“行为时序数据”表示由多个行为数据根据发生时间的先后顺序而组成的数据序列,并且该数据序列还可以具有各个行为数据所对应的持续时长。
现在结合附图来描述本公开的用于检测账户使用异常的方法及装置。
图1示出了根据本公开的实施例的用于检测账户使用异常的系统(下文中称为账户使用异常检测系统)100的架构示意图。
如图1所示,账户使用异常检测系统100包括服务端112、终端102、终端104和终端106,其中,终端102、终端104和终端106可以是诸如台式机、笔记本电脑和手机之类的终端设备。并且,终端设备与服务器112之间可以通过网络110进行通信互联。在一些应用场景下,终端设备上可以安装有由服务端112所运营的应用程序(例如即时通讯软件、手机钱包软件等)。进而,在用户登录应用程序的账户之后,就能够与服务端112进行交互操作,以由服务端112为账户提供相应的服务。另外,服务端112还可以获取各个终端设备的终端设备信息、缓存日志信息、实时交互操作行为信息等,以获取账户的历史行为数据,比如,长期行为数据和短期行为数据。服务端112中设置有用于检测账户使用异常的装置(在下文中称为账户使用异常检测装置)600。这里,服务端112可以是各种管理设备,例如在中心通信网络中的服务器,或者在对等通信网络中用于向其他节点提供服务的主节点等。可附加或可替换地,账户使用异常检测装置600还可以是被设置在终端设备(例如终端102、终端104和终端106)中,从而获取配置在终端设备本地的账户的历史行为数据,有利于保护用户隐私。这里,账户使用异常检测装置600能够基于账户的历史行为数据来进行账户使用异常检测,并且在检测到账户使用异常时执行合适的应对措施,例如,向用户提示账户使用异常等,从而保障账户的使用安全。
图2示出的是本公开的实施例的用于检测账户使用异常的方法的流程图,该方法由服务端处的账户使用异常检测装置执行。
如图2所示,在块210中,获取待检测账户的至少一个第一行为特征数据,其中,该第一行为特征数据是与第一时段内针对待检测账户执行的第一历史行为数据对应的行为特征数据。这里,第一时段可以表示一较长的时间段(例如预设定的30天),第一历史行为数据可以表示在该较长的时间段内针对待检测账户产生的行为数据(即,账户使用行为数据)。这里,行为数据可以包括诸如账户登录、改密、查看账户余额、交易和删除账单之类的账户行为数据。并且,第一历史行为数据可以通过解析与服务端交互的终端设备的应用缓存文件或终端操作日志而得到的。
在本公开的一个示例中,当服务端接收到账户消费请求时,服务端被触发以查找自接收到账户消费请求起向前第一时段针对待检测账户所执行的第一历史行为数据,从而获取账户在请求消费前的长期累积行为信息。在本公开另一示例中,服务端可以周期性(例如,周期为第一时段)地自主触发针对账户使用异常的检测操作,以定时更新长期累积行为信息。
接着,在块220中,获取待检测账户的至少一个第二行为特征数据,其中,该第二行为特征数据是与第二时段内针对待检测账户执行的第二历史行为数据对应的行为特征数据。这里,第二时段可以表示小于第一时段的较短的时间段(例如,半小时),相应地,第二历史行为数据可以表示在该较短的时间段内针对待检测账户产生的行为数据。在本公开的一个示例中,服务端与终端设备进行通信交互,以由服务端提供相应的服务,服务端可以在为终端设备提供服务的过程中收集账户行为数据,并将对应第二时间段长度的行为数据作为第二历史行为数据。在本公开的另一示例中,当接收到账户消费请求时,服务端被触发来检测账户使用是否异常,然后服务端调用针对待检测账户的日志信息,查找在接收到用户消费请求之刻起向前第二时段的历史行为数据,以获取待检测账户的短期突发行为数据。
在本公开中,第二时段的结束时间不早于第一时段的结束时间,也就是说,第二时段的结束时间可以是非常接近于(或等于)对账户异常进行检测的触发时刻,使得第二历史行为数据能够指示在异常检测触发时刻待检测账户的短期突发行为表现。示例性地,服务端可以周期性地更新待检测账户的第一历史行为数据。另外,当服务端接收到账户消费请求时,服务端被触发以获取第二历史行为数据。在此种情况下,第二时段的结束时间等于对账户异常进行检测的触发时刻,并且第二时段的结束时间晚于对账户异常进行检测的触发时刻。
应理解的是,由于第一行为特征数据和第二行为特征数据需要分别指示长期累积信息和短期突发行为信息,所以第一时段和第二时段之间可以具有在时间量级上的差别,例如第一时段是7天或30天,而第二时段是1个小时或30分钟。但是,针对第一时段和第二时段的时段长度的具体选择或时长对比比例,可以是根据不同的账户异常检测场景而进行调整的,在此应不加限制。示例性地,在一些账户异常检测场景下,第二时段的时长可以是被调整为1天,而第一时段的时长可以是被调整为半个月等。
接着,在块230中,将至少一个第一行为特征数据和至少一个第二行为特征数据提供给账户异常检测模型来确定针对账户的使用是否异常。这里,账户异常检测模型可以是机器学习模型。相应地,第一行为特征数据和第二行为特征数据是可以满足机器学习模型预测所需要求的特征数据。
这里,账户异常检测模型400可以是使用训练样本集来训练的,该训练样本集中的各个训练样本包括特征数据和标签数据。训练样本中的特征数据的特征属性包括第一行为特征数据的特征属性和第二行为特征数据的特征属性。换言之,训练样本所包含的特征与第一和第二行为特征数据的特征相同。例如,假设第一行为特征数据包括特征1和2,第二行为特征数据包括特征3和4,则训练样本的特征数据包括特征1到4。
此外,考虑到在自然情况下,黑用户的数量占比应是远小于白用户的数量占比,因此,在对账户异常检测模型进行训练时,也可以控制训练样本集中的黑用户样本与白用户样本的相对比例,使得黑用户样本的数量远小于白用户样本的数量。
此外,还可以通过选择账户异常检测模型所使用的损失函数,使得账户异常检测模型在训练时能够更加专注于小比例样本(例如对应黑用户样本的风险行为特征数据)。示例性地,账户异常检测模型可以采用焦点损失(focal loss)函数作为损失函数,以减少易分类样本的权重,从而提高模型对账户异常检测的准确率。
此外,在本公开的一个示例中,账户异常检测模型400可以是设置在账户使用异常检测装置600内。在本公开的另一示例中,账户异常检测模型400也可以设置在账户使用异常检测装置600的外部,并且能够被账户使用异常检测装置600调用来检测账户使用是否异常。
在本公开的上述实施例中,使用账户的第一行为特征数据和第二行为特征数据来进行账户使用异常检测。这里,第一行为特征数据对应的是账户的长期行为数据,以及第二行为特征数据对应的是账户的短期行为数据。容易理解的是,账户的长期行为数据能够反映账户的累积异常风险。例如,如果账户在过往较长时段内发生过改密行为的行为,则可以认为账户存在累积异常风险。账户的短期行为数据能够反映账户的突发异常风险。例如,如果账户在短期内突发频繁地向陌生账户转出多笔大额交易行为和删除账单时,则可以认为账户存在突发异常风险。由此,在本公开的实施例中,在进行账户使用异常检测时,综合考虑账户的长期累积行为表现和短期突发行为表现,从而能够有效捕获用户的高危行为和突变等异常行为,由此提升账户异常检测的准确率。
需说明的是,账户异常检测模型所应用的第一或第二行为特征数据的数量可以是一个或多个。在本公开实施例的一个示例中,账户异常检测模型可以结合多变量的长期行为特征和短期行为特征,从而保障所确定的使用异常风险的高精确度。示例性地,可以对多个第一行为特征数据进行交叉组合以生成衍生特征数据。另外,还可以通过对多个第二行为特征数据进行时序组合,以生成对应的行为特征时序数据。
图3示出了根据本公开的实施例的用于获取待检测账户的第一或第二行为特征数据的流程图。
如图3所示,在块211中,获取待检测账户的至少一个第一或第二历史行为数据。示例性地,可以通过调用账户的日志信息或者通过统计针对账户的实时交互操作数据来获取第一或第二历史行为数据。
需说明的是,被盗用的账户在长期内会进行针对盗用账户的预备操作,例如针对账户会产生“在过去的7天内改密”、“在过去的7天root终端设备”以及“在过去的7天内删除指纹”等各个维度的行为数据。优选地,服务端还可以是将上述各个维度的行为数据进行交叉以产生衍生维度的组合行为数据。
此外,被盗用的账户在短期内的突发行为往往还具有时序性规律,例如针对被盗用的账户的行为时序数据可以是“改密-查看余额-查看银行卡信息-交易-删除账单-查看余额”。鉴于此,可以将第二历史行为数据时序化为第二历史行为时序数据,由此能够考虑到异常账户在短期内的突发连续风险行为。
接着,在块212中,基于行为发生频率来对所获取的至少一个第一或第二历史行为数据进行筛选处理。
这里,由于用户对客户端的操作行为可能是多种多样的,如果对所有的操作行为数据都进行收集和分析,则可能会导致服务端的处理压力过大,并且容易引入噪音数据而影响最终的分析结果。
示例性地,可以执行TopN排名算法对历史行为数据中的各个用户行为的发生频率进行排序,然后根据排序从高向低筛选目标行为数据,以使得所筛选的目标行为数据所指示的发生频率总和能够涵盖超过预设的发生频率阈值(例如90%)。
接着,在块213中,确定至少一个第一或第二历史行为数据的数据类型。其中,数据类型可以包括枚举型变量类型、连续型变量类型、整型变量和标识变量类型等。
接着,在块214中,使用与至少一个第一或第二历史行为数据的数据类型匹配的特征向量化方法来对至少一个第一或第二历史行为数据进行特征向量化处理,以得到至少一个第一或第二行为特征数据。
可选地,在本公开的另一示例中,在对第一或第二历史行为数据进行特征向量化处理之前,也可以不进行数据筛选处理,即,不包括上述块212的操作。
需说明的是,由于账户异常检测模型所使用的是特征数据,所以需要对历史行为数据进行特征化向量处理,以满足账户异常检测模型的数据格式需求。另外,考虑到不同的数据类型(或变量类型)所需求的特征化向量处理方法可能是不一样的,因此需要按照数据类型匹配特征向量化方法来进行特征向量化处理。示例性地,在服务端预存储用于记录与多种数据类型分别相对应的特征向量化方法的特征处理表,然后通过查表的方式来确定与第一或第二历史行为数据相对应的特征向量化方法。
在本公开实施例的一个示例中,特征向量化方法包括下述方法中的一种:归一化处理、词向量处理(例如,向量嵌入(embedding))和独热(onehot)编码处理。示例性地,可以是针对枚举型变量类型采用独热编码,例如将性别特征“[男,女]”进行独热编码处理之后所对应的结果是“[男-10,女-01]”。相应地,在本实施例中可以针对诸如“过去1天是否改密”、“设备在最近7天内是否有指纹”、“设备在最近7天内是否有root”和“设备在最近7天内是否有指纹或人脸认证”之类的数据使用独热编码。另外,针对标识变量类型采用词向量处理,实现语义特征向量化。以及,针对连续型变量类型可以采用归一化处理,例如对“7天内的交易金额”进行归一化处理以用0到1之间的数值向量来表示。
此外,在使用词向量处理来对历史行为数据进行特征向量化处理时,优选采用word2vec模型来进行词向量处理。此外,要说明的是,在本公开中,word2vec模型的训练和账户异常检测模型的训练是独立进行的。
需说明的是,在第二历史行为数据被时序化为第二历史行为时序数据时,账户异常检测模型可以对第二历史行为时序数据所对应的特征数据存在特征长度标准要求,例如,可能会要求特征数量为100条。如果第二历史行为时序数据所对应的特征数据小于长度标准要求,则需要通过补零填充的方式对数据特征进行补充,以满足账户异常检测模型的特征长度标准要求。另外,账户异常检测模型也可存在针对第一历史行为特征数据的特征长度标准要求,类似地,针对第一历史特征,可能由于系统异常情况而导致部分变量无法获得,而在第一历史行为特征的长度不足时可以采用对应异常情况的约定值进行填充来满足相应的特征长度标准要求。
图4示出了根据本公开的实施例的账户异常检测模型的一个示例的示意图。
如图4所示,账户异常检测模型400可以是采用宽深度模型结构,包括线性模型410、深度学习模型420和异常决策模块430。
线性模型410可以接收至少一个第一行为特征数据来进行预测输出对应于账户长期历史行为表现的第一异常检测结果。深度学习模型420可以接收至少一个第二行为特征数据来进行预测输出对应于账户短期历史行为表现的第二异常检测结果。进而,异常决策模块430可以基于第一异常检测结果和第二异常检测结果来确定针对账户的使用是否异常。在一个示例中,线性模型410和深度学习模型420具有对应的权重因子,相应地,异常决策模块430可以是基于第一异常检测结果和第二异常检测结果以及对应的权重因子来确定账户是否存在使用异常。
这里,线性模型410可以采用二分类模型,比如决策树。另外,深度学习模型420可以是Lstm(Longshort term memory,长短期记忆网络)模型、CNN(Convolutional NeuralNetwork,卷积神经网络)模型、DNN(Deep Neural Networks,深度神经网络)等。
进一步地,在线性模型410中可以应用组合特征,例如组合特征是包括对变量特征进行交叉组合所得到的衍生变量,例如该组合特征可以是“7天内交易次数+1天内是否改密”所对应的特征向量的组合,另外组合特征也可以是具有对应的账户异常风险属性值,以满足个性化的账户异常场景。以及,在深度学习模型420中也可以是应用组合特征,并且组合特征可以对应于第二历史行为时序数据的时序特征数据。示例性地,第二历史行为时序数据可以是“登陆(5s)-蚂蚁森林(30s)-扫一扫”。此时,深度学习模型420优选使用Lstm模型,因为Lstm模型结构能更适于处理时序序列特征。
在本公开实施例中,账户异常检测模型400采用宽深度模型结构,综合线性模型的记忆力(memorization)和深度模型的泛化能力(generalization),通过将用户长期历史行为累积信息和短时间行为信息进行结合,以捕获用户的高危行为和突变等异常行为,有助于实现及时止损,增强用户的安全感以及用户粘性。
图5示出的是本公开实施例的用于检测账户使用异常的方法的流程示意图。
如图5所示,在块510中,收集历史行为数据。获取待检测账户的在长期的第一时段所对应的第一历史行为数据和在短期的第二时段所对应的第二历史行为数据。
在块520中,筛选用于账户异常使用风险分析的目标历史行为数据。从第一历史行为数据中选择对应于预设行为事件(例如改密、大额交易、删除账单等)的变量数据,其数据变量的类型包括连续型变量和枚举型变量等,以便于进行对应的特征向量化处理。另外,考虑到页面操作量级太大,还可以对第二历史行为数据采用TopN排名算法,筛选出频率靠前的多个第二历史行为,并结合各个第二历史行为的发生时间组成短期行为时序数据,以降低特征向量化处理的压力。可理解的是,对第一历史行为数据的处理过程可以部分地参照上述的针对第二历史行为数据的处理过程,例如还可以对第一历史行为数据采用TopN排名算法,以降低后续数据处理压力。
在块530中,对第一历史行为数据和短期行为时序数据分别进行特征向量化处理,以得到分别对应的第一特征行为数据和第二特征行为数据。进而,将第一特征行为数据输入线性模型410,并将第二特征行为数据输入深度学习模型420。
在块540中,线性模型410得出对应于第一特征行为数据的第一异常检测结果,以及对应于第二特征行为数据的第二异常检测结果。另外,在一个示例中,线性模型410和深度学习模型420具有对应的权重因子(例如,对应的初始权重a和b),进而异常决策模块430能够基于第一异常检测结果和第二异常检测结果以及对应的权重因子a、b,来确定针对账户的使用是否异常。这里,初始权重a和初始权重b可以是预先设置的,例如a=0.6、b=0.4。另外,还可以通过考虑账户异常检测场景的需求来分配a和b的值,例如,当账户异常检测场景更看重考虑长期行为表现时,可以取更高的a和更低的b,反之亦然。
需说明的是,考虑黑白样本类别不均衡的问题,线性模型410、深度学习模型420都还可以采用焦点损失(focal loss)函数作为损失函数,从而增大预测准确率。
进一步地,当检测到存在账户异常使用风险时,服务端会及时采取相应的风控措施。在本公开的实施例的一个示例中,服务端可以向账户客户端发起二次校验,例如电话或短信验证,以验证账户是否由本人操作。在本公开的实施例的另一示例中,服务端在确定存在账户异常使用风险时还可以在短时间内禁止账户的重要功能,例如直接将正在进行的交易进行失败操作,从而及时止损,以保障账户财产安全。
图6示出了根据本公开的实施例的用于检测账户使用异常的装置的方框图。
如图6所示,账户使用异常检测装置600包括第一特征获取单元610、第二特征获取单元620和异常检测单元630。
第一特征获取单元610被配置为获取待检测账户的至少一个第一行为特征数据,所述第一行为特征数据是与第一时段内针对所述待检测账户执行的第一历史行为数据对应的行为特征数据。第一特征获取单元610的操作可以参照上面参考图2描述的块210的操作。
第二特征获取单元620被配置为获取所述待检测账户的至少一个第二行为特征数据,所述第二行为特征数据是与第二时段内针对所述待检测账户执行的第二历史行为数据对应的行为特征数据,其中,所述第二时段小于所述第一时段,并且所述第二时段的结束时间不早于所述第一时段的结束时间。第二特征获取单元620的操作可以参照上面参考图2描述的块220的操作。
异常检测单元630被配置为将所述至少一个第一行为特征数据和所述至少一个第二行为特征数据提供给账户异常检测模型来确定针对所述账户的使用是否异常。第二特征获取单元630的操作可以参照上面参考图2描述的块230的操作。
进一步地,所述至少一个第二历史行为数据被时序化为第二历史行为时序数据。
图7A示出了根据本公开的实施例中的第一特征获取单元在一示例中的结构框图。
如图7A所示,第一特征获取单元610包括:行为数据获取模块611、数据类型确定模块613和特征处理模块615。这里,行为数据获取模块611被配置为获取所述待检测账户的至少一个第一历史行为数据。数据类型确定模块613被配置为确定所述至少一个第一历史行为数据的数据类型。特征处理模块615被配置为使用与所述至少一个第一历史行为数据的数据类型匹配的特征向量化方法来对所述至少一个第一历史行为数据进行特征向量化处理,以得到所述至少一个第一行为特征数据。
进一步地,第一特征获取单元610还包括发生频率筛选模块617。这里,发生频率筛选模块617被配置为基于行为发生频率来对所获取的至少一个第一历史行为数据进行筛选处理。特征处理模块615被配置为:使用与所述至少一个第一历史行为数据的数据类型匹配的特征向量化方法来对经过筛选处理后的至少一个第一历史行为数据进行特征向量化处理,以得到所述至少一个第一行为特征数据。
图7B示出了根据本公开的实施例中的第二特征获取单元在一示例中的结构框图。
如图7B所示,第二特征获取单元620包括:行为数据获取模块622、数据类型确定模块624和特征处理模块626。这里,行为数据获取模块622被配置为获取所述待检测账户的至少一个第二历史行为数据。数据类型确定模块624被配置为确定所述至少一个第二历史行为数据的数据类型。特征处理模块626被配置为使用与所述至少一个第二历史行为数据的数据类型匹配的特征向量化方法来对所述至少一个第二历史行为数据进行特征向量化处理,以得到所述至少一个第二行为特征数据。
进一步地,第二特征获取单元620还包括发生频率筛选模块628。这里,发生频率筛选模块628被配置为基于行为发生频率来对所获取的至少一个第二历史行为数据进行筛选处理。特征处理模块626被配置为使用与所述至少一个第二历史行为数据的数据类型匹配的特征向量化方法来对经过筛选处理后的至少一个第二历史行为数据进行特征向量化处理,以得到所述至少一个第二行为特征数据。
进一步地,所述特征向量化方法包括下述方法中的一种:归一化处理、词向量处理和独热编码处理。
关于第一特征获取单元610或第二特征获取单元620用于获取第一行为特征数据或第二行为特征数据的操作细节可以参照上面参考图3描述的操作。
如上参照图1到图7B,对根据本公开的用于检测账户使用异常的方法及装置的实施例进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本公开的装置的实施例。上面的用于检测账户使用异常的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图8示出了根据本公开的实施例的用于检测账户使用异常的计算设备800的硬件结构图。如图8所示,计算设备800可以包括至少一个处理器810、存储器(例如非易失性存储器)820、内存830和通信接口840,并且至少一个处理器810、存储器820、内存830和通信接口840经由总线860连接在一起。至少一个处理器810执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器810:获取待检测账户的至少一个第一行为特征数据,所述第一行为特征数据是与第一时段内针对所述待检测账户执行的第一历史行为数据对应的行为特征数据;获取所述待检测账户的至少一个第二行为特征数据,所述第二行为特征数据是与第二时段内针对所述待检测账户执行的第二历史行为数据对应的行为特征数据,其中,所述第二时段小于所述第一时段,并且所述第二时段的结束时间不早于所述第一时段的结束时间;以及将所述至少一个第一行为特征数据和所述至少一个第二行为特征数据提供给账户异常检测模型来确定针对所述账户的使用是否异常。
应该理解,在存储器820中存储的计算机可执行指令当执行时使得至少一个处理器810进行本公开的各个实施例中以上结合图1-7B描述的各种操作和功能。
在本公开中,计算设备800可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-7B描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。