CN113574549A

CN113574549A - 机器学习应用中的分类字段值的处理

Info

Publication number: CN113574549A
Application number: CN202080020630.9A
Authority: CN
Inventors: 尼蒂卡·巴斯卡尔; 奥米德·卡谢菲
Original assignee: Expedia Inc
Current assignee: Expedia Group Inc
Priority date: 2019-03-13
Filing date: 2020-03-10
Publication date: 2021-10-29
Also published as: CA3132974A1; JP7337949B2; AU2020236989A1; JP2022524830A; WO2020185741A1; EP3938966A1; AU2020236989B2; US20200293878A1; EP3938966A4

Abstract

公开了用于处理机器学习应用(尤其是神经网络)中的分类字段值的系统和方法。分类字段值通常在被传递到神经网络之前被转换成向量。然而，低维度向量限制了网络理解上下文、语义或特征上相似的值之间的相关性的能力。相反，高维度向量可能压制神经网络，导致网络寻找关于个体维度值的相关性，该相关性可能是虚假的。本公开涉及包括主网络以及一个或多个辅助网络的分层神经网络。在辅助网络中处理分类字段值，以在由主网络处理所述值之前减少所述值的维度。这使得能够识别上下文、语义和特征相关性，而不会使网络整体过载。

Description

机器学习应用中的分类字段值的处理

背景技术

一般而言，机器学习是寻求自动化分析模型构建的数据分析应用。机器学习已经应用于各种领域，旨在努力理解使用明确定义的模型可能难以或不可能检测的数据相关性。例如，机器学习已经被应用于机器学习系统118s以对在交易时已知的各种数据字段(例如，成本、账户标识符、交易位置、购买的物品)如何与交易欺诈的百分比概率相关进行建模。将与历史数据相关的这些字段的值和后续欺诈率通过机器学习算法，以生成统计模型。当尝试新的交易时，字段的值可以通过模型传递，从而产生指示新交易欺诈的百分比概率的数值。许多机器学习模型在本领域中是已知的，例如神经网络、决策树、回归算法和贝叶斯算法。

机器学习中出现的一个问题是分类变量的表示。分类变量是通常取可能值的有限集之一的那些变量，其中每个值表示特定个体或组。例如，分类变量可包括颜色(例如，“绿色”、“蓝色”等)或位置(例如，“西雅图”、“纽约”等)。通常，分类变量不暗示排序。相反，序数值用于表示排序。例如，分数(例如，“1”、“2”、“3”等)可以是序数值。机器学习算法通常被开发以引入数据的数值表示。然而，在许多情况下，机器学习算法被构成为假设数据的数值表示是序数的。这导致错误的结论。例如，如果颜色“绿色”、“蓝色”和“红色”在机器学习算法中被表示为值1、2和3，则该算法可以假设“绿色”和“红色”的平均值(被表示为1和3的总和的一半)等于2，或者“蓝色”。这个错误的结论导致模型输出中的错误。

表示分类变量的困难通常源于变量的维度。作为名义项，两个分类值可表示人类易于识别但机器难以表示的种类繁多的抽象维度中的相关性。例如，“船”和“舰”很容易被人看作是强相关的，但是这种相关性难以表示给机器。已经进行了各种尝试来将分类变量的抽象维度减少到具体的数字形式。例如，通常的做法是将每个分类值简化为一个表示与最终相关值的相关性的数字。例如，在欺诈检测上下文中，已与欺诈相关联的任何姓名可被分配高值，而不与欺诈相关联的姓名可被分配低值。这种方法是不利的，因为姓名的轻微变化都可能逃避检测，并且因为具有共同姓名的用户可能被不准确地指控为欺诈。相反，在将每个分类值转换成多维值(试图具体表示变量的抽象维度)的情况下，机器学习模型的复杂性会迅速增加。例如，机器学习算法通常可以将值的每个维度视为不同的“特征”—将与其它不同的值进行比较以用于指示给定输出的相关性的值。随着模型特征数量的增加，模型的复杂度也增加。然而，在许多情况下，多维分类变量的各个值不能被单独地比较。例如，如果姓名“John Doe”被转换成n个值的向量，则这n个值中的第一个值与发起交易的网络地址之间的相关性可能不具有预测值。因此，将n个值中的每一个与网络地址进行比较可能导致过多且低效的计算资源使用。(相反，将表示姓名“John Doe”的n个值的集合作为一个整体与网络地址范围进行比较，可能具有预测值—如果这个姓名与欺诈相关联，并且例如源于欺诈普遍的国家的地址)。因此，将分类变量表示为低维值(例如，单个值)在计算上是高效的，但导致模型忽略相似分类变量之间的交互。相反，将分类变量表示为高维值在计算上是低效的。

附图说明

现在将参考以下附图描述各种发明特征的实施例。在所有附图中，参考编号被重复使用以指示所参考的元件之间的对应关系。提供附图以说明本文描述的示例实施例，并且不旨在限制本公开的范围。

图1示出机器学习系统118的框图，该机器学习系统将神经网络机器学习算法应用于历史交易数据中的分类变量，以便于预测交易欺诈。

图2A示出根据一些实施例的用于初始化网络环境内的欺诈检测机器学习模型的数据的说明性生成和流动的框图。

图2B示出根据一些实施例的用于在网络环境内利用机器学习系统118的数据的说明性生成和流动的框图。

图3A至图3B示出根据一些实施例的机器学习系统118所使用的示例性神经网络架构的视觉表示。

图4示出根据一些实施例的经配置以执行欺诈检测方法的计算装置的一般架构。

图5示出根据一些实施例的示例性欺诈检测方法的流程图。

具体实施方式

一般而言，本公开的各方面涉及机器学习模型中的分类变量的高效处理以维护分类变量的相关信息，同时限制或消除分析机器学习模型内的该相关信息所需的过量计算资源。本公开的实施例可以说明性地用于检测多个相似类别变量值何时指示欺诈，从而允许其他相似类别变量值的欺诈尝试的检测。例如，本公开的实施例可以检测欺诈与姓名“JohnDoe”和“John Dohe”的使用之间的强相关性，并且因此预测姓名“Jon Doe”的使用也可能是欺诈性的。为了有效地处理分类变量，本公开的实施例利用“嵌入”来生成分类值的高维度数值表示。嵌入是机器学习中的已知技术，其试图减少值(例如，分类值)的维度，同时维持该值的重要相关信息。然后，这些高维度数值表示被处理为辅助神经网络的特征(例如，输入到辅助神经网络)。每个辅助神经网络的输出作为主要神经网络的特征，与其他特征(例如，非分类变量)一起产生输出结果，例如提供交易欺诈的百分比概率的模型。通过在单独的辅助网络中处理高维度数值表示，限制了这种表示的各个维度与其他特征(例如，非分类变量)的交互，从而减少或消除了整个网络的过度组合增长。每个辅助网络的输出被限制为基于将与其一起分析的其它数据来以适当的维度表示分类特征。例如，通常不是语义或上下文相关的两个变量(例如交易的名称和时间)可以在主网络中被处理为低维度值(例如，单个值，每个值表示主网络的特征)。可以在高维度上处理语义或上下文高度相关的变量(例如名称变量的两个值)。可以在中间维度上处理语义或上下文有些相关的变量(例如姓名和电子邮件地址，其可以在内容上重叠但在总体形式上不同)，例如通过将两个初始辅助网络的输出进行组合输入至中间辅助网络，然后将中间辅助网络的输出馈送至主要神经网络中。这种网络组合可以产生分层神经网络。通过使用网络的这种“层级”，可以相对于神经网络上的特征的交互的预期语义或上下文相关性来控制这些交互的级别，从而使得能够基于分类变量的高维度表示来进行机器学习，而不会招致现有模型的过多计算资源使用。

如上所述，为了处理分类变量，通常进行变量到数值的初始转换。根据本公开的实施例，嵌入可以用于生成变量的高维度表示。如本文所用，维度通常指用于表示分类值的数值的数量。例如，将颜色值“蓝色”表示为数值“1”可以被认为是单维值。将值“蓝色”表示为向量“[1，0]”可被视为二维值等。

嵌入的一个示例是“词级”嵌入(也称为“词级表示”)，其尝试将词转换成多维值，值之间的距离指示词之间的相关性。例如，词语“船”和“舰”可以被转换成在多维空间中的距离较低的值(因为两者都涉及水运工具)。类似地，词级嵌入可以将“装运”和“邮寄”转换成在多维空间中的距离较低的值(因为两者都与发送包裹有关)。然而，相同的词级嵌入可以将“船”和“邮件”转换成在多维空间中的距离高的值。因此，词级嵌入可以保持人类可读单词的高级相关信息，同时以数字形式表示单词。词级嵌入在本领域中是公知的，因此将不进行详细描述。然而，简言之，词级嵌入通常依赖于机器学习对单词语料库的先前应用。例如，对所发布的文本执行的机器学习分析可以指示在文本中“狗”和“猫”频繁地出现在单词“宠物”附近，并且因此是相关的。因此，根据嵌入的“狗”和“猫”的多维表示可以在多维空间内接近。词级嵌入算法的一个示例是由GOOGLE^TM开发的“word2vec”算法，其将单词作为输入，并产生多维值(“向量”)，该多维值尝试保存关于该单词的上下文信息。其它词级嵌入算法在本领域中是已知的，其中的任何一个都可以结合本公开来使用。在一些实施例中，词级嵌入可以用历史交易数据来补充以确定潜在欺诈交易的上下文中的特定词之间的上下文关系。例如，可以在神经网络中训练单词语料库以及指示单词对应关系和相关欺诈的数据(例如，来自指示交易数据字段中每个单词的使用情况的历史记录，以及交易是否是最终认定为诈骗)。神经网络的输出可以是多维表示，其表示在交易的上下文中单词的上下文关系，而并非在一般语料库中。在一些情况下，确定词级嵌入的网络的训练发生在独立地训练如本文所述的欺诈检测模型之前。在其他情况下，确定词级嵌入的网络训练与训练如本文所述的欺诈检测模型同时发生。例如，提供词级嵌入的神经网络训练可以表示为分层神经网络的辅助网络。

嵌入的另一个例子是“字符级”嵌入(也称为“字符级表示”)，其试图将词转换为表示词中的各个字符的多维值(与如在词级嵌入中的词的语义使用的表示相反)。例如，给定重叠字符和单词的一般结构，字符级嵌入可将单词“hello”和“yellow”转换成在多维空间中彼此接近的值。字符级嵌入可用于捕获分类值中在常见语音中不常见(或未使用)的小变化。例如，两个用户名“Johnpdoe”和“Jonhdoe”可能不在语料库中表示，并且因此，词级嵌入可能不足以表示用户名。然而，字符级嵌入将很可能将两个用户名都转换成相似的多维值。与词级嵌入一样，字符级嵌入在本领域中是公知的，因此将不进行详细描述。词级嵌入算法的一个示例是“seq2vec”算法，其将字符串作为输入，并产生多维值(“向量”)，该多维值尝试保留关于字符串内的对象的上下文信息。尽管seq2vec模型通常类似地应用于“word2vec”以描述单词之间的上下文信息，但是该模型也可被训练成将各个字符标识为对象，由此找到字符之间的上下文信息。以这种方式，字符级嵌入模型可以被看作类似于词级嵌入模型，因为这些模型将字符串的语料库(例如，给定语言中的一般单词语料库、在潜在欺诈交易的上下文中使用的单词语料库等)作为输入，并且输出试图在字符之间保留上下文信息的多维表示(例如，使得在语料库中彼此靠近出现的字符在多维空间中被分配彼此相近的矢量值)。其它词级嵌入算法在本领域中是已知的，其中的任何一个都可以结合本公开来使用。

在获得给定分类变量(例如，已经进行交易的人的姓名)的每个值的高维度表示之后，这些表示可以被传递到辅助神经网络中以便生成输出(例如，神经元)，这些输出进而被用作后续神经网络(例如，中间网络或主网络)的特征。可以为每个分类变量(例如，姓名、电子邮件地址、位置等)建立单独的辅助网络，并且可以相对于输入的数量约束每个分类变量的输出，所述输入通常等于变量值的高维度表示中的维度数量。例如，在名称被表示为100维向量的情况下，辅助网络可以将每个名称的100维取为100个输入值，并且产生3到5个神经元输出。这些输出有效地表示分类变量值的低维度表示，其可以被传递到后续神经网络中。主网络的输出被建立为期望的结果(例如，交易是否是欺诈的二元分类)。然后，辅助网络和主网络被同时训练，使得辅助网络的输出表示特定于期望输出的低维度表示(例如，作为欺诈或非欺诈的二元分类或具有欺诈/滥用类型的多元分类)，而不是通过嵌入(其依赖于已建立的而不是同时训练的模型)实现的一般化低维度表示。因此，由辅助神经网络产生的分类变量的低维度表示被期望维持与期望的最终结果相关的语义或上下文信息，而不需要将高维度表示馈送到主模型中(如上所述，这将另外引起与尝试在单个模型中对一个或多个高维度表示进行建模相关联的成本)。有利地，利用辅助网络与主网络的低维度输出允许用户使用与现有方法相比更少的计算资源来测试分类变量与非分类变量的交互和相关性。

如本领域技术人员根据本公开将理解的，本文公开的实施例改进了计算系统以高效方式进行与分类变量相关的机器学习的能力。具体地，本公开的实施例通过利用主机器学习模型和一个或多个辅助模型的组合来提高这样的系统的计算资源使用的效率，该辅助模型使得能够将分类变量处理为高维度表示，同时限制那些高维度表示与传递到主模型的其他特征的交互。此外，当前公开的实施例解决了计算系统内固有的技术问题；具体而言，进行机器学习所使用的计算资源的有限性，以及由试图对主模型内的分类变量的高维度表示进行机器学习所引起的低效率。这些技术问题通过本文描述的各种技术解决方案来解决，包括使用辅助模型来处理分类变量的高维度表示并且将输出作为特征提供给主模型。因此，本公开总体上表示对现有数据处理系统和计算系统的改进。

尽管本公开的实施例是参考例如神经网络之类的特定机器学习模型来描述的，但是根据本公开可以利用其他机器学习模型。

当结合附图参考以下描述时，本公开的前述方面和许多伴随的优点将变得更容易理解，同时变得更好理解。

图1是示出环境100的框图，其中机器学习系统118将神经网络机器学习算法应用于历史数据中的分类变量和非分类变量以便于对稍后的数据进行分类。具体地，机器学习系统118通过生成包括主网络和辅助网络两者的神经网络模型来处理历史数据，该辅助网络在将输出传递到主网络之前处理分类变量的高维度表示。在说明性实施例中，机器学习系统118处理历史交易数据以生成新的未履行交易的二元分类为欺诈或非欺诈。然而，在其他实施例中，可以处理其他类型的数据以生成其他分类，包括二元或非二元分类。例如，主网络的多个输出节点可以被配置成使得网络输出值以供在多元分类系统中使用。图1的环境100被描述为包括用户设备102、交易系统106和机器学习系统118，它们都可以通过网络114彼此通信。

交易系统106说明性地表示基于网络的交易促进器，其操作以服务来自客户端(经由用户设备102)的请求以发起交易。交易可以示例性地是实物、非实物、服务等的购买或获取。许多不同类型的基于网络的交易促进器在本领域内是已知的。因此，交易系统106的操作细节可以在实施例之间变化，并且在此不进行讨论。然而，为了讨论的目的，假设交易系统106维护将与交易相关的各个字段与交易的最终结果(例如，欺诈或非欺诈)相关联的历史数据。每个交易的字段可以变化，并且可以包括例如交易时间和交易量的字段、识别交易的一方或多方的字段(例如，姓名、生日、账户标识符或用户名、电子邮件地址、邮寄地址、互联网协议(IP)地址等)、交易涉及的物品(例如，物品的特性，例如购买航班的出发和到达机场、购买的物品的品牌等)、交易的支付信息(例如，使用的支付工具的类型或信用卡号)、或对交易的其他约束(例如，交易是否可退款)。可以通过在那些交易完成之后对其进行监控，例如通过监控稍后被冒名个体报告为欺诈的交易的“退款”，来确定每个交易的结果。历史交易数据说明性地存储在数据存储110中，该数据存储可以是硬盘驱动器(HDD)、固态驱动器(SSD)、网络附连存储(NAS)或任何其它持久或基本持久的数据存储设备。

用户设备102通常表示与交易系统交互以便请求交易的设备。例如，交易系统106可以提供用户界面，例如图形用户界面(GUI)，使用用户设备102的客户端可以通过该图形用户界面提交交易请求和与该请求相关联的数据字段。在一些情况下，与请求相关联的数据字段可以由交易系统106独立地确定(例如，通过独立地确定一天中的时间，通过参考简档信息来检索有关与请求相关联的客户的数据等)。用户设备102可以包括任何数量的不同计算设备。例如，各个用户设备102可以对应于膝上型或平板计算机、个人计算机、可穿戴计算机、个人数字助理(PDA)、混合PDA/移动电话或移动电话。

用户设备102和交易系统106可以通过网络114交互。网络114可以是任何有线网络、无线网络或其组合。此外，网络114可以是个人区域网、局域网、广域网、全球区域网(例如因特网)、电缆网络、卫星网络、蜂窝电话网络或其组合。虽然被示为单个网络114，但是在一些实施例中，图1的元件可以通过多个潜在的不同的网络进行通信。

如上所述，交易系统106通常希望在完成交易之前检测欺诈交易。因此，在图1中，交易系统106被示出为与机器学习系统118通信，其操作以通过生成欺诈检测模型来辅助欺诈检测。具体地，机器学习系统118被配置为利用辅助神经网络来处理分类变量的高维度表示，其输出被用作主神经网络的特征，主神经网络的输出进而将交易的分类表示为欺诈或非欺诈(该分类可以被建模为例如欺诈发生的百分比概率)。为了便于模型的生成，机器学习系统包括向量转换单元126、建模单元130和风险检测单元134。向量转换单元126可包括用于将分类字段值(例如，名称、电子邮件地址等)转换成那些字段值的高维度数值表示的计算机代码。每个高维度数值表示可以采取数值集合的形式，在此通常称为向量。在一个实施例中，如上所述，通过使用例如词级或字符级嵌入的嵌入技术，将分类字段值转换成数值表示。建模单元130可以表示用于生成和训练机器学习模型(例如分层神经网络)的代码，其中在高维度数值表示被传递到主网络之前，首先使其通过一个或多个辅助神经网络。然后，经训练的模型可以由风险检测单元134使用，风险检测单元134可以包括计算机代码，该计算机代码用于将所尝试的交易的新字段值传递到经训练的模型中，以对交易是欺诈的似然(likelihood)进行分类。

参考图2A至图2B，示出用于机器学习系统118的操作以生成、训练和利用分层神经网络的说明性交互，该分层神经网络包括一个或多个辅助网络，该辅助网络的输出作为主神经网络的特征。具体地，图2A示出了用于生成和训练这样的分层神经网络的说明性交互，而图2B示出了用于使用经训练的网络来预测所尝试的交易的欺诈似然的说明性交互。

交互在(1)处开始，其中交易系统106将历史交易数据发送到机器学习系统118。在一些实施例中，历史交易数据可以包括已经被处理或提交给交易系统106的过去交易的原始数据。例如，历史数据可以是在三个月期间的过程中在交易系统106上进行的所有交易的列表，以及与交易相关的字段，例如交易时间和交易量、识别交易的一方或多方的字段(例如，姓名、生日、账户标识符或用户名、电子邮件地址、邮寄地址、互联网协议(IP)地址等)、交易涉及的物品(例如，物品的特性，例如所购买航班的出发和到达机场、所购买物品的品牌等)、交易的支付信息(例如，所使用的支付工具的类型或信用卡号)、或对交易的其他约束(例如，交易是否可退款)。历史数据说明性地用交易的结果相对于期望的分类来“标记”或标注。例如，每个交易可以被标记为“欺诈的”或“非欺诈的”。在一些实施例中，历史数据可以以文本文件、表格或其它数据存储格式的形式存储和传送。

在(2)处，机器学习系统118获得期望神经网络的神经网络超参数。超参数可以例如由交易系统106或机器学习系统118的操作者来指定。通常，超参数可以包括历史数据内的应当被视为分类的那些字段，以及应用于字段值的嵌入。超参数还可以包括神经网络的总体期望结构，在辅助网络、主网络和中间网络(如果有的话)方面。例如，超参数可以针对每个分类字段指定与该分类字段相关联的辅助网络的隐藏层的数量和这些层中的单元的数量，以及该辅助网络的输出神经元的数量。超参数可以类似地指定主网络的隐藏层的数量、每个这样的层中的单元的数量、以及要提供给主网络的其他非分类特征。如果在辅助网络的输出和主网络的输入(“特征”)之间使用中间网络，则超参数可以指定这种中间网络的结构。还可以指定本领域已知的关于神经网络的各种附加超参数。

在(3)处，机器学习系统118(例如，向量转换单元126)将来自历史数据的分类字段值转换成由超参数指定的对应的高维度数值表示(向量)。说明性地，每个分类字段值可根据如上所述的词级嵌入或字符级嵌入中的至少一个来处理，以将字段值的字符串表示转换成向量。尽管说明性地描述了给定分类字段的单个嵌入，但在某些情况下，相同字段由不同的嵌入来表示，每一嵌入被传递到不同的辅助神经网络。例如，姓名字段可以由词级和字符级嵌入来表示，以便评估语义/上下文信息(例如，重复使用单词意味着类似的事物)和字符关系信息(例如，用于姓名的字符的轻微变化)。

此后，在(4)处，机器学习系统118(例如，经由建模单元130)根据超参数生成并训练神经网络。说明性地，对于超参数内指定的每个分类字段，建模单元130可以生成辅助网络，该辅助网络将字段值的向量表示的值作为输入，并且提供节点集合作为输出，作为后续网络的输入。由每个辅助网络输出的节点的数量可以在超参数内指定，并且通常可以小于由辅助网络采用的向量表示的维度。因此，节点集合的输出本身可以被视为分类字段值的低维度表示。建模单元130可以以超参数内指定的方式组合每个辅助网络的输出。例如，每个辅助网络的输出可以直接用作主网络的输入，或者可以用作一个或多个中间网络的输出，所述中间网络的输出又是主网络的输入。建模单元130还可以提供一个或多个非分类字段作为主网络的输入。

在生成网络结构之后，建模单元130可以利用历史交易数据的至少一部分来训练网络。定义的神经网络结构的一般训练在本领域中是已知的，因此在此将不进行详细描述。然而，简言之，建模单元130可以例如将历史数据划分成多个数据集合(例如，训练集、验证集和测试集)并且使用分层神经网络(整个网络，包括辅助网络、主网络和任何中间网络)处理数据集以确定在每个节点处应用于输入数据的权重。作为最终结果，可以生成最终模型，该最终模型将来自拟议交易的字段作为输入，并且将这些字段置于给定类别(例如，欺诈或非欺诈)中的概率作为输出。

图2B示出根据一些实施例的用于在联网环境内利用机器学习系统118的数据的说明性生成和流动的框图。当(5)用户通过用户设备102请求在交易系统106上启动交易时，数据流可以开始。例如，用户可能试图从商业零售商的在线网站购买物品。为了帮助确定是否允许交易，在(6)处，交易系统106将交易信息(例如，包括以上讨论的字段)提交给机器学习系统118。机器学习系统118(例如，经由风险检测单元134)然后可以将先前学习的模型应用于交易信息，以获得交易是欺诈的似然。在(8)处，机器学习系统118将最终风险分数发送给交易系统106，使得交易系统106可以确定是否允许交易。说明性地，交易系统可以建立阈值似然，使得高于阈值的任何尝试交易被拒绝或保留以用于进一步处理(例如，人工或自动验证)。

图3A至图3B是根据一些实施方式的可以由机器学习系统118至少部分地基于检查一段时间内的历史数据来生成和训练的示例性分层神经网络的视觉表示。具体地，图3A示出了具有连接到主网络的单个辅助网络的分层神经网络。图3B示出了具有多个辅助网络、中间网络和主网络的分层神经网络。

具体地，在图3A中，示出了示例性分层神经网络300，其包括通过辅助网络(被示为阴影节点)处理的单个分类字段(例如，“名称”字段)，辅助网络的输出作为输入(或特征)被传递到主网络中。辅助网络包括对应于分类字段值(例如，对于一个交易条目为“JohnDoe”)的输入节点302。辅助网络还包括表示通过嵌入而转换为多维向量的分类字段的值的向量层304。向量层304中的每个节点示例性地表示通过对分类字段值应用嵌入而创建的向量中的单个数值。因此，在图3A中，嵌入分类字段值可产生5维向量，其各个值被传递到向量层304中的各个节点。实际上，分类字段值可以被转换成超高维度的向量(例如，100维或更多维)，并且因此向量层304可以具有比图3A中所示出的更多的节点。虽然为了完整而示出了输入节点302，但是在一些情况下，辅助网络可以排除输入节点，因为分类字段值可能先前已经被转换成向量。因此，向量层304可以充当辅助网络的输入层。

另外，分层网络300包括主网络(示为无阴影的节点)。辅助网络的输出表示到主网络的输入或特征307。此外，主网络从非分类字段306(例如，其可以通过操作者定义的非分类字段值的转换形成)中获取一组附加特征。主网络特征307通过隐藏层308传递以到达输出节点310。在一些实施例中，输出310是指示给定的分类字段值302和其他非分类字段值306(例如，交易价格、交易时间或其他数值数据)的欺诈似然的最终分数。

如图3A所示，辅助神经网络的输出的数量可以被选择为相对于向量层304的大小是低的。在一个实施例中，辅助网络的输出被设置为三到五个神经元之间。相对于用于将分类字段并入网络300的其它技术，利用具有低维度输出的辅助网络可以降低网络300的整体复杂性。例如，在依赖于简单嵌入和级联的常规神经网络体系结构中，可以通过嵌入将分类值转换为50维向量，并且将该向量与网络的其他特征级联，从而导致向网络添加50个特征。随着特征数量的增长，网络的复杂性以及生成和训练网络所需的时间也增加。因此，尤其在考虑多个分类值的情况下，级联可能不切实际且效率低下。由于神经网络的配置是独立地考虑特征而不是作为一个组考虑特征而加剧了这种低效率。因此，作为50个特征的向量的添加将不必要地使网络寻找这50个特征各个与其它非分类特征之间的相关性—相关性可能是虚假的。

与依赖于分类特征与其它非分类特征的简单嵌入和级联的传统神经网络技术相比，网络300不将分类字段的向量表示与其它非分类特征级联，而是将经由辅助网络处理分类字段。通过避免传统的级联，网络300可将整个向量保持为语义单元，并且通过单独地处理向量中的每个数值而不会丢失语义关系。有利地是，网络300可避免学习每个数值之间的不必要和无意义的交互，并且无意施加不必要的复杂性和无效的关系和交互映射。

图3B示出了具有多个辅助网络312、中间网络314和主网络316的示例性分层神经网络311。网络311的许多元件类似于图3A的网络300，因此将不被重新描述。然而，与网络300相反，图3B的网络311包括三个辅助网络，网络312A至网络312C。每个网络说明性地对应于分类字段，在通过相应的辅助网络312进行维度缩减之前，通过嵌入将该分类字段转换为高维度向量。辅助网络312的输出被作为中间网络314的输入，这再次减少了输出的维度。使用中间网络314是有益的，例如，可以使得能够检测多个分类字段值之间的相关性，而不尝试检测与非分类字段值的相关性。例如，中间网络314可以用于检测用户姓名、电子邮件地址和邮寄地址之间的更高级别的相关性(例如，使得当这三个字段以某种方式相关时，欺诈的可能性更大或更小)。中间网络314的输出通常丢失与至该网络314的输入有关的信息，并且因此主网络不需要尝试检测用户的姓名和其它非分类字段(例如，交易金额)之间的更高级相关性。因此，分层网络311使得不同字段的交互能够被控制，从而将网络限制为仅检查那些预期相关而非虚假的相关性。

图4示出根据一些实施例的经配置以执行欺诈检测方法的计算装置的一般架构。图4中示出的机器学习系统118的一般架构包括可以用于实现本公开的各方面的计算机硬件和软件的布置。硬件可以在物理电子设备上实现，如以下更详细讨论的。机器学习系统118可以包括比图4所示的那些更多(或更少)的元件。然而，没有必要为了提供能够实现的公开而示出所有这些一般常规的元件。另外，图4中所示的一般体系结构可用于实现图1中所示的一个或多个其它组件。

如所示出的，机器学习系统118包括处理单元490、网络接口492、计算机可读介质驱动器494和输入/输出设备接口496，所有这些可以通过通信总线彼此通信。网络接口492可以提供到一个或多个网络或计算系统的连接。处理单元490因此可以经由网络114从其他计算系统或服务接收信息和指令。处理单元490还可与存储器480通信，并且还经由输入/输出设备接口496提供用于可选显示器(未示出)的输出信息。输入/输出设备接口496还可以接受来自可选输入设备(未示出)的输入。

存储器480可以包含处理单元490执行以便实现本公开的一个或多个方面的计算机程序指令(在一些实施例中被分组为单元)。存储器480对应于存储器设备的一个或多个层，包括(但不限于)RAM、3DXPOINT存储器、闪存、磁存储等。

存储器480可以存储操作系统484，其提供计算机程序指令以供处理单元490在机器学习系统118的一般管理和操作中使用。存储器480还可以包括用于实现本公开的方面的计算机程序指令和其他信息。例如，在一个实施例中，存储器480包括用户接口单元482，其生成用户接口(和/或其指令)以例如经由导航和/或浏览接口(例如安装在计算设备上的浏览器或应用)在计算设备上显示。

除了用户接口单元482和/或与其组合，存储器480可包含经配置以将分类字段转换为向量表示的向量转换单元126。向量转换单元126可包含查找表、映射等以促进这些转换。例如，在向量转换单元126实现word2vec算法的情况下，单元126可以包括使得能够将字典中的各个单词转换为对应向量的查找表，该查找表可以通过针对单词的语料库对word2vec算法进行单独训练来生成。单元126可以包括类似的查找表或映射，以便于字符级嵌入，例如通过实现seq2vec算法而生成的表或映射。

存储器480还可以包括被配置为生成和训练分层神经网络的建模单元130。存储器480还可以包括风险检测单元134，以将交易数据传递通过经训练的机器学习模型来检测欺诈。

图5是示出用于通过使用辅助网络来处理机器学习应用中的分类字段值的示例例程500的流程图。例程500可以例如由图1的机器学习系统118执行。更具体地，例程500示出了用于生成和训练分层神经网络的交互以对事件或项目进行分类。在图5的上下文中，将参考基于历史交易数据将交易分类为欺诈或非欺诈来描述例程500。然而，也可以经由例程500处理其他类型的数据。

例程500在框510处开始，其中机器学习系统118接收标记的数据。标记的数据可以包括例如来自交易系统106的过去交易的列表，根据交易是否欺诈来标记。在一些实施例中，历史数据可包括在一段时间内(例如，在过去的12个月内)通过交易系统106发生的所有交易的过去记录。

例程500然后继续到框515，其中系统118基于标记的数据来获得要训练的分层神经网络的超参数。超参数可以包括例如标记的数据的哪些字段是分类的指示，以及将被应用于分类字段值以产生高维度向量的适当嵌入。超参数还可以包括针对每个分类值创建的辅助网络的期望结构，例如每个辅助网络中要包括的隐藏层或输出节点的数量。此外，超参数可以指定分层神经网络的期望层级结构，例如是否应当在将一个或多个辅助网络传递到主网络之前经由中间网络合并该一个或多个辅助网络，以及中间网络的大小和结构。超参数还可以包括用于主网络的参数，例如隐藏层的数量和每层中的节点的数量。

在框520处，机器学习系统118将分类字段值(如在标记的数据中表示的)转换成向量，如超参数内所指示的。框520的实现可包括根据预定转换嵌入字段值。在一些实例中，这些转换可在训练分层网络期间发生，因此可不必要将框520实现为不同的框。

在框525处，机器学习系统118生成并训练分层神经网络，包括用于在超参数内识别的每个分类字段值的辅助网络、主网络和中间网络(如果在超参数内指定)。可以生成的模型的示例在图3A和图3B中示出，如上所述。在一个实施例中，基于超参数，通过初始地为每个分类值生成辅助网络，经由中间网络(如果在超参数内指定)合并那些辅助网络的输出，以及将辅助网络(或者备选地一个或多个中间网络)的输出与非分类特征值组合作为至主网络的输入，来程序化地生成网络。因此，虽然超参数可以指定分层网络的总体结构考虑，但是在一些实例中网络本身不需要由人类操作者明确建模。在生成网络之后，机器学习系统118根据传统神经网络训练经由标记的数据来训练网络。作为结果，生成了一种模型，该模型对于输入字段的给定记录产生分类值作为输出(例如，交易是欺诈的风险)。

一旦在框525中生成并训练了机器学习模型，则在框530，机器学习系统118接收新交易数据。在一些实施例中，新交易数据可以对应于由用户在交易系统106上发起的新交易，交易系统106将该新交易发送到机器学习系统118以供审阅。在框535处，系统118经由所生成和训练的分层模型来处理所接收的数据以生成分类值(例如，交易是欺诈的风险)。在框545处，系统118然后输出分类值(例如，输出到交易系统106)。因此，交易系统106可以利用分类值来确定例如是允许还是拒绝交易。然后例程500结束。

本公开的实施例可以鉴于以下条款来描述：

条款1、一种处理机器学习应用中的分类字段值的系统，包括：

数据存储器，包括标记的交易记录，每个记录对应于交易并且包括与所述交易相关的字段集合内的各个字段的值，并且被标记指示所述交易是否被确定为欺诈；

一个或多个处理器，其被配置有计算机可执行指令以至少：

获得用于分层神经网络的超参数，所述超参数至少识别所述字段集合内的分类字段以及要被用来将所述分类字段的值转换成多维向量的嵌入过程；

通过根据所述嵌入过程转换所述记录内的所述分类字段的字段值，生成所述分类字段的多维向量；

生成辅助神经网络，所述辅助神经网络将所述多维向量作为输入，并且针对每个向量输出所述向量的低维度表示；

生成至少包括所述辅助神经网络和主神经网络的分层神经网络，其中所述主神经网络将由所述辅助神经网络输出的所述低维度表示和所述字段集合内的非分类字段的一个或多个值的组合作为输入，并且其中，所述主神经网络输出二元分类，指示与输入记录相对应的单个交易是欺诈的似然；

根据所述标记的交易数据训练所述分层神经网络，以产生经训练的模型；

根据所述经训练的模型处理新交易记录以确定新交易是欺诈的似然；以及

输出所述新交易是欺诈的所述似然。

条款2、根据条款1所述的系统，其中，所述分类字段表示每个交易的各方的名称、用户名、电子邮件地址或邮寄地址中的至少一个。

条款3、根据条款1所述的系统，其中，所述非分类字段表示每个交易的序数值或数值。

条款4、根据条款3所述的系统，其中，所述序数值包括交易的交易量或交易时间中的至少一个。

条款5、根据条款1所述的系统，其中，所述嵌入过程表示词级嵌入或字符级嵌入中的至少一个。

条款6、一种计算机实现的方法，包括：

获得标记的交易记录，每个记录对应于交易并且包括与所述交易相关的字段集合内的各个字段的值，并且被标记指示所述交易是否被确定为欺诈；

生成所述多维向量；

生成至少包括辅助神经网络和主神经网络的分层神经网络，其中：

所述辅助神经网络将所述多维向量作为输入，并且针对每个向量输出所述向量的低维度表示；以及

所述主神经网络将由所述辅助神经网络输出的所述低维度表示和所述字段集合内的非分类字段的一个或多个值的组合作为输入，并且其中，所述主神经网络输出二元分类，指示与输入记录相对应的单个交易是欺诈的似然；

根据所述标记的交易记录训练所述分层神经网络，以产生经训练的模型；

输出所述新交易是欺诈的所述似然。

条款7、根据条款6所述的计算机实现的方法，其中，所述超参数识别所述字段集合内的一个或多个附加分类字段，并且其中，所述分层神经网络包括针对所述一个或多个附加分类字段中的每一个的附加辅助神经网络，每个附加辅助神经网络的输出表示对主神经网络的附加输入。

条款8、根据条款7所述的计算机实现的方法，其中，所述低维度表示由所述辅助神经网络的输出神经元的集合表示。

条款9、根据条款7所述的计算机实现的方法，其中，生成多维向量包括，对于所述分类字段的每个值，参考识别对应的多维向量的查找表。

条款10、根据条款7所述的计算机实现的方法，其中，所述查找表通过将机器学习算法预先应用于所述分类字段的值的语料库而生成。

条款11、根据条款7所述的计算机实现的方法，其中，所述分层神经网络还包括中间神经网络，所述中间神经网络将由所述辅助神经网络输出的所述低维度表示提供至所述主神经网络。

条款12、根据条款11所述的计算机实现的方法，其中，所述中间神经网络在将所述低维度表示提供至所述主神经网络之前进一步减少由所述辅助神经网络输出的所述低维度表示的维度。

条款13、根据条款7所述的计算机实现的方法，其中，所述嵌入过程表示词级嵌入或字符级嵌入中的至少一个。

条款14、一种非暂时性计算机可读介质，包括计算机可执行指令，所述计算机可执行指令在由计算系统执行时使所述计算系统：

获得标记的记录，每个记录包括字段集合内的各个字段的值，并且被标记所述记录的分类；

获得用于分层神经网络的超参数，所述超参数至少识别所述字段集合内的分类字段以及要被用于将所述分类字段的值转换成多维向量的嵌入；

所述辅助神经网络将所述字段集合内的分类字段的多维向量作为输入，所述多维向量是根据嵌入过程对所述分类字段的值进行转换而得到，并且其中，所述辅助神经网络针对每个多维向量输出该多维向量的低维度表示；以及

所述主神经网络将由所述辅助神经网络输出的所述低维度表示和所述字段集合内的非分类字段的一个或多个值的组合作为输入，并且其中，所述主神经网络输出针对输入记录的二元分类；

根据所述标记的记录训练所述分层神经网络，以产生经训练的模型；

根据所述经训练的模型处理新记录以确定所述新记录的分类；以及

输出所述新记录的分类。

条款15、根据条款14所述的非暂时性计算机可读介质，其中，所述分类字段表示定性值，并且非分类字段表示定量值。

条款16、根据条款14所述的非暂时性计算机可读介质，其中，所述分层神经网络被构造为防止在训练期间识别所述非分类字段的值与所述多维向量的各个值之间的相关性，并且允许在训练期间识别所述非分类字段的值与所述低维度表示的各个值之间的相关性。

条款17、根据条款14所述的非暂时性计算机可读介质，其中，超参数识别所述字段集合内的一个或多个附加分类字段，并且其中，所述分层神经网络包括针对所述一个或多个附加分类字段中的每一个的附加辅助神经网络，每个附加辅助神经网络的输出表示对主神经网络的附加输入。

条款18、根据条款14所述的非暂时性计算机可读介质，其中，所述分层神经网络还包括中间神经网络，所述中间神经网络将由所述辅助神经网络输出的所述低维度表示提供至所述主神经网络。

条款19、根据条款18所述的非暂时性计算机可读介质，其中，所述中间神经网络在将所述低维度表示提供至所述主神经网络之前，进一步减少由所述辅助神经网络输出的所述低维度表示的维度。

条款20、根据条款14所述的非暂时性计算机可读介质，其中，所述分类是二元分类。

取决于实施例，本文描述的任何过程或算法的某些动作、事件或功能可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的操作或事件都是实践算法所必需的)。此外，在某些实施例中，操作或事件可以并发地执行，而不是顺序地执行。例如，通过多线程处理、中断处理或一个或多个计算机处理器或处理器内核或在其他并行架构上。

结合本文所揭示的实施例而描述的各种说明性逻辑块、模块、例行程序和算法步骤可实施为电子硬件，或实施为电子硬件和可执行软件的组合。为了清楚地说明这种可互换性，上文已经大体上在其功能性方面描述了各种说明性组件、块、模块和步骤。将此功能性实施为硬件还是实施为在硬件上运行的软件取决于特定应用和强加于整个系统的设计约束。所描述的功能性可针对每一特定应用以不同方式实施，但此类实施决策不应被解释为导致脱离本公开的范围。

此外，结合本文所揭示的实施例描述的各种说明性逻辑块和模块可由机器实施或执行，例如相似性检测系统、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，或其经设计以执行本文所描述的功能的任何组合。相似性检测系统可以是或包括微处理器，但是在备选方案中，相似性检测系统可以是或包括被配置成估计和传送预测信息的控制器、微控制器或状态机、其组合等。相似性检测系统可以包括被配置成处理计算机可执行指令的电路。尽管这里主要关于数字技术进行描述，但是相似性检测系统也可以主要包括模拟组件。例如，本文描述的一些或所有预测算法可以在模拟电路或混合模拟和数字电路中实现。计算环境可以包括任何类型的计算机系统，包括但不限于基于微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、设备控制器或电器内的计算引擎，仅举几例。

结合本文所揭示的实施例而描述的方法、过程、例程或算法的元件可直接体现于硬件中、由相似性检测系统执行的软件模块中或两者的组合中。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM、或任何其他形式的非暂时性计算机可读存储介质中。示例性的存储介质可以耦合到相似性检测系统，使得相似性检测系统可以从存储介质读取信息，并且可以向存储介质写入信息。在替代方案中，存储介质可以集成到相似性检测系统。相似性检测系统和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，相似性检测系统和存储介质可以作为分立组件驻留在用户终端中。

这里使用的条件语言，例如其中，“能够”、“可能”、“可以”、“例如”等，除非另外特别说明，或者在所使用的上下文中另外理解，通常旨在表示某些实施例包括某些特征、元件和/或步骤，而其它实施例不包括这些特征、元件和/或步骤。因此，这种条件语言通常不是要暗示特征、元件和/或步骤以任何方式对于一个或多个实施例是必需的，或者一个或多个实施例必须包括用于在有或没有其它输入或提示的情况下决定这些特征、元件和/或步骤是否被包括在任何特定实施例中或者是否将在任何特定实施例中执行的逻辑。术语“包括”、“包含”、“具有”等是同义词，并且以开放式的方式包含性地使用，并且不排除附加的元件、特征、动作、操作等。此外，术语“或”以其包含的意义(而不是其排他的意义)使用，使得当例如用于连接一列元件时，术语“或”表示该列表中的一个、一些或所有元件。

除非另外具体说明，否则例如短语“X、Y或Z中的至少一个”的分离性语言在如一般用于呈现的上下文中另外理解，项、术语等可以是X、Y或Z或其任何组合(例如，X、Y和/或Z)。因此，这种分离性语言通常不旨在并且不应当暗示某些实施例需要X中的至少一个、Y中的至少一个或Z中的至少一个各自存在。

除非另有明确说明，否则例如“一”或“一个”的冠词通常应被解释为包括一个或多个所描述的项。因此，例如“被配置成的设备”的短语旨在包括一个或多个所述的设备。这样的一个或多个所述的设备还可以被共同地配置成执行所述的内容。例如，“被配置为执行表述A、B和C的处理器”可以包括被配置为与被配置为执行表述B和C的第二处理器协同工作来执行表述A的第一处理器。

虽然以上详细描述已展示、描述并指出应用于各种实施例的新颖特征，但可理解，可在不脱离本公开的精神的情况下，对所说明的装置或算法的形式和细节作出各种省略、替代和改变。如可认识到，本文中描述的某些实施例可在不提供本文中陈述的所有特征和益处的形式内体现，因为一些特征可与其它特征分开使用或实践。本文公开的某些实施例的范围由所附权利要求而不是由前面的描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims

1.一种计算机实现的方法，包括：

生成所述多维向量；

所述主神经网络将由所述辅助神经网络输出的所述低维度表示和所述字段集合内的非分类字段的一个或多个值的组合作为输入，并且其中，所述主神经网络输出二元分类，所述二元分类指示与输入记录相对应的单个交易是欺诈的似然；

输出所述新交易是欺诈的所述似然。

2.根据权利要求2所述的计算机实现的方法，其中，所述超参数识别所述字段集合内的一个或多个附加分类字段，并且其中，所述分层神经网络包括针对所述一个或多个附加分类字段中的每一个的附加辅助神经网络，每个附加辅助神经网络的输出表示对所述主神经网络的附加输入。

3.根据权利要求3所述的计算机实现的方法，其中，所述低维度表示由所述辅助神经网络的输出神经元的集合表示。

4.根据权利要求3所述的计算机实现的方法，其中，生成所述多维向量包括，对于所述分类字段的每个值，参考识别对应的多维向量的查找表。

5.根据权利要求3的计算机实现的方法，其中，所述查找表通过将机器学习算法预先应用于所述分类字段的值的语料库而生成。

6.根据权利要求3所述的计算机实现的方法，其中，所述分层神经网络还包括中间神经网络，所述中间神经网络将由所述辅助神经网络输出的所述低维度表示提供至所述主神经网络。

7.根据权利要求6所述的计算机实现的方法，其中，所述中间神经网络在将所述低维度表示提供至所述主神经网络之前进一步减少由所述辅助神经网络输出的所述低维度表示的维度。

8.根据权利要求7所述的计算机实现的方法，其中，所述嵌入过程表示词级嵌入或字符级嵌入中的至少一个。

9.一种计算系统，包括：

处理器；以及

数据存储器，其包括计算机可执行指令，所述计算机可执行指令在由所述计算系统执行时使所述计算系统：

获得标记的记录，每个记录包括字段集合内的各个字段的值，并且被标记用于所述记录的分类；

所述辅助神经网络将所述字段集合内的分类字段的多维向量作为输入，所述多维向量是根据嵌入过程对该分类字段的值进行转换而得到的，并且其中所述辅助神经网络针对每个多维向量输出所述多维向量的低维度表示；以及

输出所述新记录的所述分类。

10.根据权利要求9所述的系统，其中，所述分类字段表示定性值，且所述非分类字段表示定量值。

11.根据权利要求9所述的系统，其中，所述分层神经网络被构造为防止在训练期间识别所述非分类字段的值与所述多维向量的各个值之间的相关性，并且允许在训练期间识别所述非分类字段的值与所述低维度表示的各个值之间的相关性。

12.根据权利要求9所述的系统，其中，所述超参数识别所述字段集合内的一个或多个附加分类字段，并且其中，所述分层神经网络包括所述一个或多个附加分类字段中的每一个的附加辅助神经网络，每个附加辅助神经网络的输出表示对所述主神经网络的附加输入。

13.根据权利要求9所述的系统，其中，所述分层神经网络还包括中间神经网络，所述中间神经网络将由所述辅助神经网络输出的所述低维度表示提供至所述主神经网络。

14.根据权利要求13所述的系统，其中，所述中间神经网络在将所述低维度表示提供至所述主神经网络之前，进一步减少由所述辅助神经网络输出的所述低维度表示的维度。

15.根据权利要求9所述的系统，其中，所述分类是二元分类。