CN109697614A

CN109697614A - 用于检测欺诈数据的方法及装置

Info

Publication number: CN109697614A
Application number: CN201710991999.4A
Authority: CN
Inventors: 王书浩; 刘灿城; 高翔; 曲洪涛
Original assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Current assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2019-04-30

Abstract

本申请公开一种用于检测欺诈数据的方法及装置。涉及计算机信息处理领域，该方法包括：获取用户的浏览历史数据；将所述浏览历史数据进行数值编码，生成编码数据；通过会话ID将所述编码数据进行整合，生成向量数据；以及将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。本申请公开的用于检测欺诈数据的方法及装置，能够提高风险管控能力，减少企业损失。

Description

用于检测欺诈数据的方法及装置

技术领域

本发明涉及计算机信息处理领域，具体而言，涉及一种用于检测欺诈数据的方法及装置。

背景技术

随着网络交易的增多，随之而来涌现了大量的问题，特别是网络欺诈活动。欺诈活动不仅造成了客户和电子商务网站的财务损失，而且对消费者对电子商务的态度也有负面影响。为了保护客户免受暴露在欺诈环境中，迫切需要建立有效的欺诈检测系统。人们提出了各种方法进行欺诈检测，包括基于规则的专家系统、决策树、支持向量机、逻辑回归等。

现有的交易欺诈检测技术，分为二种：第一种是基于规则的专家系统，通过人工制定风险规则，组合成一个基于大量规则的欺诈检测系统，对交易欺诈进行实时或准实时检测。存在的缺点如下：1，人工规则的制定需要大量的有相关经验的人员参与，人力成本高。2，人工规则仅能基于已经观察到的用户行为建立，推广性能差，对新的用户行为无法进行有效的预测。3，可扩展性差，由于用户行为会随时间不断演变，因此需要对规则进行周期性的更新，而人工规则一般比较复杂，其更新比较困难。4，可移植性差，不具有通用性，需要针对不同场景设定不同的规则。

第二种是基于统计学和机器学习技术的欺诈检测系统，通过机器对用户的交易数据进行建模，得到欺诈检测模型，由模型产生交易风险的预测。存在的缺点如下：1，由于传统机器学习的建模能力有限，需要人工进行复杂的特征工程，这一过程需要大量的有经验的人员参与。2，传统机器学习方法不能对时间序列的数据进行有效建模。使用这些方法需要将时间序列数据按照时间维度进行聚合，这一过程必然会损失大量的信息。3，在欺诈检测的场景中，欺诈交易的数目通常远少于正常交易，在这种不平衡样本的场景下，传统机器学习模型的建模效果较差。4，由于用户行为随时间的演变，需要对模型不断优化，使用增量数据对传统机器学习模型进行更新比较困难。5，模型的可移植性差，不具有通用性，无法简单应用于其他类似的场景。

现有的欺诈检测系统也有使用过深度神经网络，但使用的是FNN，即全连接神经网络，无法有效处理时序问题。

因此，需要一种新的用于检测欺诈数据的方法及装置。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种用于检测欺诈数据的方法及装置，能够提高风险管控能力，减少企业损失。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提出一种用于检测欺诈数据的方法，该方法包括：获取用户的浏览历史数据；将所述浏览历史数据进行数值编码，生成编码数据；通过会话ID将所述编码数据进行整合，生成向量数据；以及将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

在本公开的一种示例性实施例中，还包括：将所述向量数据输入检测模型中以获取用户行为表征数据。

在本公开的一种示例性实施例中，还包括：通过历史数据建立所述检测模型。

在本公开的一种示例性实施例中，所述通过历史数据建立所述检测模型，包括：获取所述历史数据；确定所述历史数据的风险标签；将所述历史数据进行数据编码，生成历史编码数据；以及通过循环神经网络模型训练历史编码数据以获得所述检测模型。

在本公开的一种示例性实施例中，所述通过历史数据建立所述检测模型，还包括：对所述历史数据进行重采样处理。

在本公开的一种示例性实施例中，还包括：通过增量数据对所述检测模型进行更新处理。

在本公开的一种示例性实施例中，所述增量数据，包括：所述用户的浏览历史数据。

在本公开的一种示例性实施例中，所述将所述浏览历史数据进行数值编码，生成编码数据，包括：将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据；将所述浏览历史数据中的客户端信息进行数值编码，生成客户端编码数据；通过所述定位符编码数据与所述客户端编码数据生成所述编码数据。

在本公开的一种示例性实施例中，所述将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据，包括：通过一位有效编码方法对统一资源定位符的类型进行编码；以及通过商品转向量技术对统一资源定位符中的商品详情进行编码。

在本公开的一种示例性实施例中，所述将所述向量数据输入检测模型中以确定欺诈风险等级，包括：在预定时间窗口，将所述向量数据输入检测模型中以确定欺诈风险等级。

在本公开的一种示例性实施例中，所述循环神经网络模型，包括：长短记忆单元。

根据本发明的一方面，提出一种用于检测欺诈数据的装置，该装置包括：数据模块，用于获取用户的浏览历史数据；编码模块，用于将所述浏览历史数据进行数值编码，生成编码数据；整合模块，用于通过会话ID将所述编码数据进行整合，生成向量数据；以及等级模块，用于将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

在本公开的一种示例性实施例中，还包括：模型建立模块，用于通过历史数据建立所述检测模型。

根据本发明的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本发明的一方面，提出一种计算机可读介质，其上存储有计算机程序，其特征在于，程序被处理器执行时实现如上文中的方法。

根据本发明的用于检测欺诈数据的方法及装置，能够提高风险管控能力，减少企业损失。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种用于检测欺诈数据的方法的系统架构。

图2是根据一示例性实施例示出的一种用于检测欺诈数据的方法的流程图。

图3是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。

图4是根据另一示例性实施例示出的一种用于检测欺诈数据的方法的流程图。

图5是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。

图6是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。

图7是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。

图8是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。

图9是根据一示例性实施例示出的一种用于检测欺诈数据的装置的框图。

图10是根据一示例性实施例示出的一种电子设备的框图。

图11是根据一示例性实施例示出的一种计算机可读介质示意图。

具体实施例

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的，因此不能用于限制本发明的保护范围。

图1是根据一示例性实施例示出的一种用于检测欺诈数据的方法系统架构。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如风险评定等级、风险分析结果等)反馈给终端设备。

需要说明的是，本申请实施例所提供的消息生成方法一般由服务器105执行，相应地，网页生成装置一般设置于客户端101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面结合附图对本公开示例实施方式进行详细说明。

如图2所示，在S202中，获取用户的浏览历史数据。用户的浏览历史数据可例如通过网络服务器日志中提取，包括请求的URL(统一资源定位符，Uniform ResourceLocator)、浏览器名称、客户端操作系统等。为了保护用户隐私，系统不会记录个人信息。当用户访问网站时，服务器会为其分配一个唯一的会话ID(identification，标识)，这便是区分用户浏览记录的有效分隔符。还可例如，文件系统提供内部数据库(可例如为会话数据库)，用于保留用户的浏览历史记录，可以从中提取会话数据，作为用户的浏览历史数据。

在S204中，将所述浏览历史数据进行数值编码，生成编码数据。可例如，将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据；将所述浏览历史数据中的客户端信息进行数值编码，生成客户端编码数据；通过所述定位符编码数据与所述客户端编码数据生成所述编码数据。还可例如，通过一位有效编码方法对统一资源定位符的类型进行编码；以及通过商品转向量技术对统一资源定位符中的商品详情进行编码，本发明不以此为限。

在S206中，通过会话ID将所述编码数据进行整合，生成向量数据。进行数值编码后，便可以通过会话的ID对数据进行整合。一个会话的数据为编码浏览行为的向量组成的矩阵。

在S208中，将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。可例如，在每一个时间窗口，将用户的浏览行为所编码的向量输入到检测模型中，检测模型进过计算，确定该数据的风险等级，还可例如，在付款页面输出风险等级。

根据本发明的用于检测欺诈数据的方法，经过循环神经网络模型建立的检测模型，通过检测模型对用户的浏览历史数据进行分析和判别，最终输出风险等级的方式，能够对提高风险管控能力，减少企业损失。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据一示例性实施例示出的一种用于检测欺诈数据的方法的示意图。图3示例性的描述了利用本发明实施例中的检测模型进行表征学习(Representation Learning)的方法。

在本公开的一种示例性实施例中，还包括：将所述向量数据输入检测模型中以获取用户行为表征数据。利用有标签的用户浏览行为数据，可以对循环神经网络进行有监督的训练。检测模型训练就绪后，检测模型就能够提取出用户浏览行为中有关欺诈风险的本质特征。如图3所示，在去除循环神经网络(本实施例中，可例如为检测模型)最后的概率回归层和全连接层后，可例如输出一个固定维度的特征向量，这个特征向量就是用户浏览行为的表征。将其他的浏览行为数据(有标签或者无标签)输入到下图所示的模型中，便可以得到该浏览行为的表征，这是一个无监督的过程。表征数据中不包含用户的浏览行为数据，仅编码用户浏览行为最本质的特征，能够保护用户隐私。图中，LSTM为循环神经网络的单元。

根据本发明的用于检测欺诈数据的方法，通过利用检测模型获取用户表征数据的方式，获得的表征数据不但可以用于对用户浏览行为进行进一步的分析，而且能够输出至其他的相关场景中，来提升其他系统的性能。

图4是根据另一示例性实施例示出的一种用于检测欺诈数据的方法的流程图。图4示例性的描述了通过历史数据建立所述检测模型的过程。

如图4所示，在S402中，获取所述历史数据。历史数据可例如包括历史记录中的用户浏览历史数据。

在S404中，确定所述历史数据的风险标签。可例如，在文件系统中设定外部数据库(风险数据库)，用于存储所有风险交易，由业务部门维护，可以通过它获取会话的风险标签。

在S406中，将所述历史数据进行数据编码，生成历史编码数据。所述将所述浏览历史数据进行数值编码，生成编码数据，包括：将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据；将所述浏览历史数据中的客户端信息进行数值编码，生成客户端编码数据；通过所述定位符编码数据与所述客户端编码数据生成所述编码数据。所述将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据，包括：通过一位有效编码方法对统一资源定位符的类型进行编码；以及通过商品转向量技术对统一资源定位符中的商品详情进行编码。

URL编码通过URL数据，系统可以复现用户的浏览历史。大部分的电商网站对于URL都有严格的命名规范，不同类型的URL可以很容易地被区分。通过区分不同类型的URL，便可以使用One-Hot(一位有效编码)方法对URL的类型进行编码。

在实际处理情况中，列表页和商品详情页可例如分别被这样的URL所表示：“category.store.com/*”、“good.store.com/*”。在实际情况中，对于这两种页面，使用者不仅想要知道页面的类型是列表或者商品详情，而且还想要知道用户具体的喜好。通过列表页面，可以知道用户喜欢哪一类的商品。同时，商品详情页都对应一个ID，通过它可以知道用户看过具体哪个商品。在系统设计中，使用One-Hot方法对列表页所对应的商品类型进行编码。

为了解决商品详情页的编码问题，可例如通过Item2Vec(商品转向量)技术。Item2Vec技术源自于Word2Vec(单词转向量)技术，可以将商品看作是单词。与Word2Vec的训练过程类似，使用所有用户的浏览记录组成一个商品的序列来进行Item2Vec的训练。Item2Vec能够从用户浏览行为的角度发掘出商品之间的统计关联。

大型的电商网站通常有上百万的商品，使用一个相对较短的向量来编码这么多的商品是不现实的。在一段时间内不同商品的浏览次数，服从陡峭的幂律分布，只有一小部分的商品被大量浏览。可以将经常被浏览的商品编码成向量的同时，忽略其他商品(用零向量来表示)。在系统中，向量的维度选择为预定数据(可例如为25)，只编码那些在一个固定的时间段内浏览次数大于某个阈值的商品。因此，URL被编码成了3个部分，如果页面是商品详情页，那么编码的第三部分是Item2Vec所给出的向量；如果页面是列表页，那么编码的第二部分表征商品的类型编码。在其他情形下，第二和第三部分均填充零向量。如图5所示。

客户端信息包括客户端浏览器、操作系统、语言、所采用的编码、IP(InternetProtocol，网络协议)地址等，这些字段可例如使用One-Hot进行编码。除了以上信息，系统也将页面加载时间、用户在一个页面上面的停留时间整合到了用户浏览数据中。综上，编码的字段如图6所示。

在S408中，通过循环神经网络模型训练历史编码数据以获得所述检测模型。

在本公开的一种示例性实施例中，所述通过历史数据建立所述检测模型，还包括：对所述历史数据进行重采样处理。在重采样之后，会话数据被送到数据预处理模块来进行数值编码，预处理的数据被传递到深度学习框架以进行循环神经网络模型的训练。这里采用的重采样方法为对正常的会话数据进行欠采样，同时风险会话数据保持原状。

根据本发明的用于检测欺诈数据的方法，循环神经网络支持使用增量数据进行优化。用户行为的演变产生新的数据，使用新的行为数据对历史的模型进行优化，能够使模型随时间更新，不断提升模型的性能。

在本公开的一种示例性实施例中，还包括：通过增量数据对所述检测模型进行更新处理。所述增量数据，包括：所述用户的浏览历史数据。在模型的训练过程中，系统从会话数据库中读取数据，并使用风险数据库确定会话风险标签。模型训练完毕后，优化完成的模型被传送到线上模块用于预测。在预测过程中，来自业务部门的请求在数据预处理后传送到线上模块，该模块会输出预测的结果。同时，系统将请求中包含的会话数据持久化到会话数据库中，以供进一步使用。模型更新模块会被定期唤醒，以进行模型的优化。它会使用当前的模型作为初始参数，并使用增量会话数据对其进行更新。一旦新模型就绪，会被传递到线上模块来进行模型热切换(即切换过程不会中断线上模块的预测过程)。

根据本发明的用于检测欺诈数据的方法，能够解决不平衡样本的学习问题：循环神经网络能够对不平衡样本进行有效的学习，输出预测的风险概率。同时，通过结合数据的重采样方法，能够进一步获得性能的提升。图7给出了循环神经网络的示例，为了使模型能够记忆历史浏览行为对后续结果的影响，循环神经网络的单元采用LSTM(Long Short TermMemory，长短记忆)单元。由于不同会话中包含的点击数不同，系统会截取一定长度的最近浏览记录，少于这一长度的训练数据将会被填充零向量。循环神经网络统一在付款操作的时间点输出风险等级，如图8所示。

根据本发明的用于检测欺诈数据的方法，通过循环神经网络对电商交易中的用户浏览行为数据进行建模，对时间序列数据进行有效的学习和预测，能够对提高风险管控能力，减少企业损失。所获得的技术方案可以方便地推广到包括手机通话详单风险评估、商品刷单检测等相似场景中。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

数据模块902用于获取用户的浏览历史数据。

编码模块904用于将所述浏览历史数据进行数值编码，生成编码数据。

整合模块906用于通过会话ID将所述编码数据进行整合，生成向量数据。

等级模块908用于将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

在本公开的一种示例性实施例中，还包括：模型建立模块(图中未示出)，用于通过历史数据建立所述检测模型。

根据本发明的用于检测欺诈数据的装置，通过经过循环神经网络模型建立的检测模型，对用户的浏览历史数据进行分析和判别，最终输出风险等级的方式，能够对提高风险管控能力，减少企业损失。

图10是根据一示例性实施例示出的一种电子设备的框图。

下面参照图10来描述根据本发明的这种实施方式的电子设备200。图10显示的电子设备200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2或图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处方流转处理方法。

参考图11所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取用户的浏览历史数据；将所述浏览历史数据进行数值编码，生成编码数据；通过会话ID将所述编码数据进行整合，生成向量数据；以及将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

通过以上的详细描述，本领域的技术人员易于理解，根据本发明实施例的用于检测欺诈数据的方法及装置具有以下优点中的一个或多个。

根据一些实施例，本发明的用于检测欺诈数据的方法，解决时间序列数据的学习问题：循环神经网络是深度学习的重要技术，能够对时间序列的数据进行有效地建模、学习和预测。相比于传统的机器学习算法，在大数据的场景下，深度学习算法往往能够展现出更优的性能。

根据一些实施例，本发明的用于检测欺诈数据的方法，避免复杂的特征工程：循环神经网络是一种端到端的学习方法，能够在模型内部自动进行特征加工，这一过程不需要人的参与。因此，仅需要对原始用户浏览数据和标签进行数值编码后输入循环神经网络，就可以得到有效的训练。

根据一些实施例，本发明的用于检测欺诈数据的方法，解决不平衡样本的学习问题：通过对循环神经网络结构进行一个微小的改进，能够对不平衡样本进行学习和预测。同时，通过结合数据的重采样方法，能够进一步获得性能的提升。

根据一些实施例，本发明的用于检测欺诈数据的方法，解决模型随时间更新的问题：循环神经网络支持使用增量数据进行优化。用户行为的演变产生新的数据，使用新的行为数据对历史的模型进行优化，能够使模型随时间更新，不断提升模型的性能。

根据一些实施例，本发明的用于检测欺诈数据的方法，解决了模型的通用性问题：由于不需要复杂的特征工程，因此通过输入不同场景的训练数据，循环神经网络便能够被应用于相似的场景中。

根据一些实施例，本发明的用于检测欺诈数据的方法，建立了一套完整的系统：将以上的解决方案组合在一起，形成了一套完整的欺诈检测系统。系统能够在没有人参与的场景下，自动记录新增数据、产生风险预测结果、并进行模型的更新。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本发明可实施的范畴。

Claims

1.一种用于检测欺诈数据的方法，其特征在于，包括：

获取用户的浏览历史数据；

将所述浏览历史数据进行数值编码，生成编码数据；

通过会话ID将所述编码数据进行整合，生成向量数据；以及

将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述向量数据输入检测模型中以获取用户行为表征数据。

3.如权利要求1所述的方法，其特征在于，还包括：

通过历史数据建立所述检测模型。

4.如权利要求3所述的方法，其特征在于，所述通过历史数据建立所述检测模型，包括：

获取所述历史数据；

确定所述历史数据的风险标签；

将所述历史数据进行数据编码，生成历史编码数据；以及

通过循环神经网络模型训练历史编码数据以获得所述检测模型。

5.如权利要求4所述的方法，其特征在于，所述通过历史数据建立所述检测模型，还包括：

对所述历史数据进行重采样处理。

6.如权利要求3所述的方法，其特征在于，还包括：

通过增量数据对所述检测模型进行更新处理。

7.如权利要求6所述的方法，其特征在于，所述增量数据，包括：

所述用户的浏览历史数据。

8.如权利要求1所述的方法，其特征在于，所述将所述浏览历史数据进行数值编码，生成编码数据，包括：

将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据；

将所述浏览历史数据中的客户端信息进行数值编码，生成客户端编码数据；

通过所述定位符编码数据与所述客户端编码数据生成所述编码数据。

9.如权利要求8所述的方法，其特征在于，所述将所述浏览历史数据中的统一资源定位符进行数值编码，生成定位符编码数据，包括：

通过一位有效编码方法对统一资源定位符的类型进行编码；以及

通过商品转向量技术对统一资源定位符中的商品详情进行编码。

10.如权利要求1所述的方法，其特征在于，所述将所述向量数据输入检测模型中以确定欺诈风险等级，包括：

在预定时间窗口，将所述向量数据输入检测模型中以确定欺诈风险等级。

11.如权利要求1所述的方法，其特征在于，所述循环神经网络模型，包括：

长短记忆单元。

12.一种用于检测欺诈数据的装置，其特征在于，包括：

数据模块，用于获取用户的浏览历史数据；

编码模块，用于将所述浏览历史数据进行数值编码，生成编码数据；

整合模块，用于通过会话ID将所述编码数据进行整合，生成向量数据；以及

等级模块，用于将所述向量数据输入检测模型中以确定欺诈风险等级，所述检测模型为循环神经网络模型。

13.如权利要求12所述的装置，其特征在于，还包括：

模型建立模块，用于通过历史数据建立所述检测模型。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。