CN108985929A

CN108985929A - 训练方法、业务数据分类处理方法及装置、电子设备

Info

Publication number: CN108985929A
Application number: CN201810598320.XA
Authority: CN
Inventors: 潘健民; 张鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-12-11
Anticipated expiration: 2038-06-11
Also published as: CN108985929B

Abstract

本说明书实施例公开了一种分层注意力模型的训练方法、业务数据的分类处理方法及装置、电子设备。所述训练方法包括：建立分层注意力初始模型，包括待训练的与注意力有关的模型参数，对样本数据进行预处理，生成由三维张量表示的预处理数据；将该预处理数据输入分层注意力初始模型并进行处理，获得样本数据的分类处理训练结果；根据样本数据的类型和分类处理训练结果计算损失，在所述损失没有收敛的情况下，对与注意力有关的模型参数进行更新，并使用样本数据对更新后的分层注意力初始模型进行迭代训练。

Description

训练方法、业务数据分类处理方法及装置、电子设备

技术领域

本发明书实施例涉及机器学习领域，特别涉及一种分层注意力模型的训练方法、基于分层注意力模型的业务数据的分类处理方法及装置、电子设备。

背景技术

目前，可疑交易的识别成为预防和打击金融领域犯罪(如洗钱)的重点，在目前的反洗技术中，金融机构在通过建立规则或模型等方式识别可疑交易从而控制洗钱风险时，往往使用人工设计的业务特征，例如，统计用户在最近90天内的流入金额、或者用户在最近30天的流入金额占最近90天的流入金额的比例、或者用户的涉及某个关键词的交易的数量占总交易的数量的比例，并将统计的结果与预先设定的阈值进行比较，从而判断对应的用户是否进行了可疑交易，或者对用户的每一笔交易进行建模分析。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

但是，发明人发现：目前的可疑交易识别方案中将用户的所有行为作为一个整体去统计，但一个用户的交易往往混杂了可疑交易和正常交易，如果某个用户的正常交易较多，现有方案中的统计结果往往更多的反应正常交易的形态，即使该用户的交易中包含了可疑交易，也存在无法有效识别该用户的风险。而对用户的每一笔交易进行建模分析时，将用户的每一笔交易割裂开来，丢失了用户大量交易行为序列上的特征，例如某种可疑交易行为序列特征是用户A从用户B中获得一笔大金额资金，然后用户A再分拆成多笔小额金额，依次打款给用户C，这时候如果只看其中的某一笔交易，无法有效判断可疑行为。

针对上述问题的至少之一，本发明书实施例提供一种分层注意力模型的训练方法、基于分层注意力模型的业务数据的分类处理方法及装置、电子设备。期待能够获得可靠的基于注意力的分层注意力模型，能够更加精确地识别可疑的业务数据。

根据本发明书实施例的第一个方面，提供一种分层注意力模型的训练方法，包括；

建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数；

获取样本数据，所述样本数据的类型包括黑样本数据和白样本数据；

对所述样本数据进行预处理，生成由三维张量表示的预处理数据；

将所述预处理数据输入所述分层注意力初始模型并进行处理，生成所述样本数据的最终表达；

使用分层注意力初始模型中的多层感知器对所述样本数据的最终表达进行分类处理，获得所述样本数据的分类处理训练结果；

根据所述样本数据的类型和所述分类处理训练结果，计算损失，所述损失表示所述样本数据的类型和所述分类处理训练结果的差异；

判段所述损失是否收敛，在所述损失没有收敛的情况下，对所述分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力初始模型进行迭代训练。

根据本发明书实施例的第二个方面，提供一种业务数据的分类处理方法，包括：

对所述业务数据进行预处理，生成由三维张量表示的预处理数据；

将所述预处理数据输入经由权利要求1-7中任意一项所述的训练方法进行训练而得到的分层注意力模型以进行处理，获得所述业务数据的分类处理结果。

根据本发明书实施例的第三个方面，提供一种训练装置，包括：

模型建立单元，其建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数；

本数据获取单元，所述样本数据的类型包括黑样本数据和白样本数据；

预处理单元，其对所述样本数据进行预处理，生成由三维张量表示的预处理数据；

处理单元，其将所述预处理数据输入所述分层注意力初始模型并进行处理，生成所述样本数据的最终表达；

分类处理单元，其使用分层注意力初始模型中的多层感知器对所述样本数据的最终表达进行分类处理，获得所述样本数据的分类处理训练结果；

损失计算单元，其根据所述样本数据的类型和所述分类处理训练结果，计算损失，所述损失表示所述样本数据的类型和所述分类处理训练结果的差异；

判定单元，其判断所述损失是否收敛；

更新迭代单元，其在所述判断单元的判断结果为所述损失没有收敛的情况下，对所述初始分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力初始模型进行迭代训练。

根据本发明书实施例的第四个方面、提供一种业务数据的分类处理装置，包括：

预处理单元，其对所述业务数据进行预处理，生成由三维张量表示的预处理数据；

分类处理单元，其将所述预处理数据输入经由如上第一方面所述的训练方法进行训练而得到的分层注意力模型以进行分类处理，获得所述业务数据的分类处理结果。

根据本发明书实施例的第五个方面、提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序以实现如上第一方面所述的训练方法或第二方面所述的业务数据的分类处理方法。

根据本发明书实施例的第六个方面、提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如上第一方面所述的训练方法或第二方面所述的业务数据的分类处理方法。

本发明书实施例的有益效果在于：通过对分层注意力初始模型中包括的与注意力有关的模型参数进行训练，能够获得可靠的基于注意力的分层注意力模型，能够更加精确地识别可疑的业务数据。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

在本发明书实施例的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外，在附图中，类似的标号表示几个附图中对应的部件，并可用于指示多于一种实施方式中使用的对应部件。

图1是本发明书实施例1的分层注意力模型的训练方法的一示意图；

图2是本发明书实施例1的分层注意力模型的一示例图；

图3是本发明书实施例2的业务数据的分类处理方法的一示意图；

图4是本发明书实施例3的训练装置的一示意图；

图5是本发明书实施例4的分类处理装置的一示意图；

图6是本发明书实施例5的电子设备的构成示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

在本发明书实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本发明书实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“所述”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据......”，术语“基于”应理解为“至少部分基于......”，除非上下文另外明确指出。

在本发明书实施例中，电子设备可以包括但不限于如下设备：服务器、计算集群、计算机、工作站、无线通信设备、手持设备、膝上型计算机、智能手机，等等。但本发明不限于此，还可以根据实际情况适用于任何机器学习的场景。以下对本发明书实施例进行进一步说明。

实施例1

本发明书实施例提供一种分层注意力机制模型的训练方法。图1是本发明书实施例的分层注意力模型的训练方法的一示意图，如图1所示，所述方法包括：

步骤102，建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数；

步骤104，获取样本数据，所述样本数据的类型包括黑样本数据和白样本数据；

步骤106，对所述样本数据进行预处理，生成由三维张量表示的预处理数据；

步骤108，将所述预处理数据输入所述分层注意力初始模型并进行处理，生成所述样本数据的最终表达；

步骤110，使用分层注意力初始模型中的多层感知器对所述样本数据的最终表达进行分类处理，获得所述样本数据的分类处理训练结果；

步骤112，根据所述样本数据的类型和所述分类处理训练结果，计算损失，所述损失表示所述样本数据的类型和所述分类处理训练结果的差异；

步骤114，判段所述损失是否收敛；

步骤116，在所述损失没有收敛的情况下，对所述初始分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力机制初始模型进行迭代训练；

步骤118，在所述损失收敛的情况下，结束训练。在步骤118之后能够获得训练好的分层注意力模型，可以将该训练好的分层注意力模型进行保存以用于业务数据的分类处理。

值得注意的是，以上图1仅对本发明书实施例进行了示意性说明，但本发明书实施例不限于此。例如可以适当地调整各个步骤之间的执行顺序，如步骤102可以在步骤104或步骤106之后执行，此外还可以增加其他的一些步骤或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附图1的记载。

通过本实施例的方法，能够建立可靠的基于注意力的分层注意力模型，在对可以的业务数据进行识别时，能够提高识别的精确度。例如，在某一用户的交易中包含可疑交易时，即使该用户的正常交易较多，也能够有效识别该用户为进行了可疑交易的用户。

在本实施例中，样本数据可以包括至少一个用户的样本数据，对于一个用户来说，其样本数据可以为黑样本数据或者为白样本数据，并且，样本数据中的黑样本数据和所述白样本数据的比例在预定范围内。

例如，样本数据可以包括一个或多个用户的业务数据，对于一个用户来说，如果其业务数据包含可疑业务，则该用户的业务数据称为黑样本数据，如果一个用户的全部业务数据均为正常业务，则该用户的业务数据称为白样本数据。其中，用户可以为个人或个人账户、或者企业或企业账户。

在本实施例中，在步骤104中，可以通过多种方式收集黑样本数据，例如，可以通过外部舆情获取黑样本数据，也可以通过相关人员的经验设计业务特征找出一小批黑样本，也可以通过多种方式收集白样本数据，例如，可以将所有样本数据中的黑样本数据排除掉之后的数据作为白样本数据，或者可以从排除掉黑样本数据的数据集中进行随机抽取而得到，黑样本数据和白样本数据合在一起就组成了需要的样本数据，作为训练分层注意力初始模型的训练样本。其中，在将黑样本数据和白样本数据组合构成样本数据时，可以将样本数据中的黑样本数据和白样本数据的比例设定在预定的范围，例如可以根据现实情况，将黑样本数据和白样本数据的比例控制在1∶10到1∶100之间，但本发明书实施例不限于此，例如可以根据实际需要，将黑样本数据和白样本数据的比例设定为其他数值，在此情况下，可以根据设定的预定范围对样本数据进行控制，例如，在白样本数据较多时，可以对白样本数据进行下采样。

在本实施例中，样本数据可以为交易记录，例如，可以为账户之间的转账记录，账户可以为各种银行账户、电子账户、第三方支付账户等，但不限于此，样本数据还可以为其它的业务数据，例如不同客户之间的商品交易记录。以下以样本数据为交易记录为例进行说明。

在本实施例中，在步骤106中，预处理可以包括抽取交易记录的特征，其中，交易记录的特征体现了交易记录的各个方面的属性，例如，交易记录的特征可以包括交易金额、和/或交易对象的类别、和/或交易类型，其中，交易对象的类别可以为个人账户、企业账户等，交易类型可以为快进快出交易、拆分交易等，但本发明书实施例不限于此，交易记录的特征还可以表示交易记录的其它属性，例如交易时间段等。

在本实施例中，可以抽取交易记录的和可疑交易有关的特征，例如交易金额这样的数值型特征，以及交易对象是否为企业这样的交易对象类别特征，但不限于此，还可以根据实际情况抽取其它的特征作为与可疑交易有关的特征，以下以抽取交易记录的交易金额和交易对象的类别为例进行说明。

在本实施例中，对于所有用户的样本数据(交易记录)分别进行预处理，可以为每个用户生成一个由三维张量(K，T，N)表示的预处理数据，其中，N表示单笔交易记录的特征的编码长度，T表示一个交易序列片段所包含的交易记录的数目，K表示单个用户的总共的交易序列片段的数目。

以下以具体示例说明如何对一个用户的样本数据进行预处理以获得三维张量(K，T，N)。

在本实施例中，以抽取交易记录的交易金额和交易对象的类别为例进行说明，交易金额为数值型特征，可以进行分箱处理，例如把所有用户的所有交易的金额进行排序(例如，从小到大排)，可以按每10％进行分箱，一共分为10个区间，则用户的任何交易记录的金额，最终都可以归属到10个区间中的某个区间。比如交易金额100元在所有交易金额从小到大排的排序中属于20％到30％这个区间段，那么这个金额可以映射到第3个区间(前面两个区间依次为0％-10％和10％-20％)。有了对应的区间，然后可以对交易金额进行编码，例如可以使用one hot编码，也就是将交易金额映射到一个10维向量中，每一维向量对应到其中一个区间，而且对于特定某个交易金额来说，向量中只有一维的值是1，其他值都是0。例如上面说的100元映射到第3个区间后，它的one hot编码可以为(0，0，1，0，0，0，0，0，0，0)。

在本实施例中，交易对象的类别为类别型特征，类别的个数为有限个，可以采用枚举并进行one hot编码的方式，例如，可以先把所有类别枚举出来，按照某种方式排序，映射到0-1类型数量的一个数值，然后再和上面一样进行one hot编码。例如对于交易对象是否企业客户这个特征，一共有两种类别，“是”以及“不是”，并且可以使用向量(x，y)表示，其中，x表示是企业客户，y表示不是企业客户，然后进行one hot编码，例如，如果一笔交易记录的交易对象为企业客户，则可以映射为向量(1，0)，不是则映射为向量(0，1)。

按照以上方法，可以将一笔交易记录的所有特征分别映射为一个向量，并且可以将所有特征对应的所有向量拼接起来，作为这一笔交易的特征表达。例如对于抽取的特征为交易金额为100元，并且为企业客户这两个特征的一笔交易记录，该笔交易记录的特征表达可以为向量(0，0，1，0，0，0，0，0，0，0，1，0)，其中，前面10维表示的是交易金额的信息，后面两维表示的是是否为企业客户的信息，但实施例不限于此，例如该笔交易记录的特征表达还可以为向量(1，0，0，0，1，0，0，0，0，0，1，0)，其中，前面两维表示的是是否为企业客户的信息，后面10维表示的是交易金额的信息，使用参数N表示单笔交易记录的特征表达向量的长度。

上述对于用户的一笔交易记录的特征提取以及编码方式进行了说明，值得注意的是，上述说明仅为示例性说明，但不限于此，例如还可以提取交易记录的其它特征，也可以采用其他的编码方式。本领域的技术人员可以根据上述内容进行适当地变型，而不仅限于上述附示例性记载。

在本实施例中，生成单笔交易记录的特征表达后，可以对用户的交易行为序列进行处理，在现实情况中，用户的交易笔数众多，直接将交易行为序列导入模型，会导致模型效果不好或者失效，因此，可以先对用户的交易行为序列进行分层处理。

在一个实施方式中，分层方法可以是按天分层，例如如果使用的数据是用户最近K天(如7天)的交易，可以把用户这K天的交易行为序列根据交易时间按天分为K个片段，其中，每个片段表示的是用户在某一天的交易行为序列。在本实施例中，可以对一个交易记录片段的长度进行限定，例如可以将其限定为T笔(例如100笔)，在此情况下，如果用户在某一天的交易笔数超过T笔，那么T笔之后的交易可以丢弃，如果用户在某一天的交易笔数少于T笔，那么可以用全0向量作为虚拟交易填补到那天的交易行为序列后面直到T笔为止。

在另一实施方式中，可以将一个用户的所有交易行为按时间进行先后排序，然后按某个限定的长度T(例如100笔)逐个切割这个交易序列，切割出来的每个片段为一个交易行为片段。例如某个用户的交易记录有700笔，可以设定单个片段的长度是100笔，那么就可以切成7份，这个用户具有7个交易片段，每个片段有100笔交易。

以上介绍了如何对一个用户的全部交易记录进行特征抽取和预处理，根据上述方法，单笔交易的特征长度为N(例如对应上面例子中的12位)，单个交易序列片段的长度是T(例如对应上面例子中的100笔)，总共的片段的数量是K(例如对应上面例子里的7)，在此情况下，一个用户的全部交易行为序列的特征表达就可以用一个(K，T，N)这样一个三维张量(tensor)来表示。需要注意的是，上述例子中关于K、T和N的取值均为示例性取值，本发明书实施例不限于此，可以根据实际情况将K、T和N的设定为其它数值。

在本实施例中，根据上述方法，能够获得样本数据中的各个用户的交易记录对应的三维张量(K，T，N)，以下对于将该三维张量(K，T，N)导入如图2所示的分层注意力模型中进行处理进行具体说明。

图2是本发明书实施例1的分层注意力模型的一示例图；如图2所示，分层注意力模型可以包括两部分，分别为单个用户的交易序列最终表达V的生成，以及通过多层感知器MLP(Multi-layer Perceptron)对用户进行分类处理。

在本实施例中，在生成单个用户的交易序列的最终表达时，可以基于待训练的与注意力有关的模型参数，包括第1模型参数Wd和第2模型参数Ws，在本实施例中，上述步骤108可以包含如下步骤：

步骤1082，将各个交易序列片段(d_i1，d_i2，....d_iT)输入第1循环神经网络模型并利用第1模型参数Wd，生成分别对应各个所述交易序列片段的多个交易序列片段表达S_i，i∈[1，K]；以及

步骤1084，将所述多个交易序列片段表达S_i输入第2循环神经网络模型并利用所述第2模型参数Ws，生成单个用户的交易序列最终表达V。

在本实施例中，上述第1循环神经网络模型和第2循环神经网络模型可以为循环神经网络的基本模型，例如可以是门循环单元GRU(Gated Recurrent Unit)神经网络，也可以是长短期记忆网络LSTM(Long Short-Term Memory)。其中，循环神经网络RNN(Recurrentneural Network)是一种节点定向连接成环的人工神经网络，这种网络的内部状态可以展示动态时序行为，不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等，LSTM是循环神经网络的一种，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在本实施例中，交易序列不仅考虑前向序列信息，也考虑后向序列信息，所以可以采用双向LSTM模型，但不限于此，也可以使用单向的LSTM模型，此外，关于循环神经网络的基本模型，可以参考相关现有技术。以下说明书中，采用双向LSTM模型为例进行说明。

如图2所示，以用户单天的交易序列片段作为一个交易序列片段T进行说明，通过分层注意力模型的单天交易序列片段层分别对单天交易序列片段层进行处理，例如，对于第i天的交易序列片段，可以将用户该天的长度为T的交易序列片段表示为(d_i1，d_i2，....d_iT)，这里每个d_it，t∈[1，T]都是长度为N的向量。

在本实施例中，可以将交易序列片段输入到第1双向LSTM模型中，依次分别得到两个输出向量(一个前向，一个后向)：

然后，可以将两个输出向量合在一起，来表达某笔交易以及周围交易序列的综合信息：

其中，该第1双向LSTM模型为第1循环神经网络模型，该模型里的隐藏状态长度是U，因而，每个h_it是一个1*2U的向量，其中，U为预先设定的值，例如可以为64或128，但不限于此，还可以为其它数值。

接下来，可以通过与注意力有关的第1模型参数Wd获得单天交易序列片段注意力信息，如图2所示，通过单天交易序列片段层获得T个h_it后，可以引入注意力机制计算每个h_it的权重a_it，通过计算每个h_it的权重，能够模仿人对交易序列的分析，如，人总是侧重分析和观察某些可疑交易，而忽略其他正常交易，这可以通过每个h_it的不同权重体现。权重a_it计算公式可以如下：

其中，W_d1和w_d2作为与注意力有关的第1模型参数，W_d1是一个2U*2U的矩阵，w_d2是一个1*2U的向量，tanh为双曲正切函数，可以实现从定义域为R向值域为(-1，1)的映射，softmax函数用于计算每个h_it对应的权重数值，该权重数值为0到1之间的数值，具体可参考现有技术。

通过上述计算后，可以获得单天交易序列片段中的一个交易对应的权重数值。

在本实施例中，可以把单天片段所有的h_it合在一起，定义为H_i＝(h_i1，h_i2，...，h_iT)，形状为T*2U的矩阵。并通过如下公式计算对应H_i的权重向量：

其中，a_i为一个1*T的权重向量，里面每个元素都是上面提到的某个a_it，并且a_i中所有元素的求和结果为1。

在本实施例中，向量w_d2与注意力机制关注的可疑模式有关，在现实场景中，在交易行为序列中往往具有需要关注的多个可疑模式，在本实施例中，可以定义矩阵W_d2(形状为R*2U)作为需要关注的可疑模式矩阵，每行对应某个可疑模式(也就是上面小写的w_d2)，一共需要关注R个可疑模式。

由此，关于用户的单天交易序列片段的最终的注意力矩阵可以定义如下：

其中，A_i的形状为R*T，每行为某一种可疑模式的注意力向量权值，每行求和都是为1。

根据计算得到的A_i，可以得到单天交易序列片段的表示：

S’_i＝A_iH_i，其中，S’_i形状为R*2U。

在本实施例中，可以将矩阵S’_i按行拉成一个向量作为最终的单天交易序列片段S_i，形状为1*2RU，也可称为单天交易序列片段表征向量，或者片段表征向量。

如图2所示，通过上述方法，可以获得用户的单天交易序列片段的片段表征向量S_i，i∈[1，K]，接下来可以通过分层注意力模型的多天交易片段层分别对单天交易序列片段的片段表征向量S_i进行处理，多天交易片段层的思想完全仿照了单天交易序列片段层，与单天交易序列片段层的处理相同的部分省略。

如图2所示，对于用户的总共片段的个数为K个的情况，根据前面的计算，可以得到K个片段表征向量S_i，i∈[1，K]。

将这些片段表征向量导入第2双向LSTM模型，每个片段表征向量得到两个输出向量：

同样可以将这两个输出向量合并，作为某个片段的最终输出向量：

其中，该第2双向LSTM模型里的隐藏状态长度是D，由此，每个h_i是一个1*2D的向量。其中，D为预先设定的值，例如可以为64或128，但不限于此，还可以为其它数值。并且，在本实施例中，第1双向LSTM模型的隐藏状态长度U和第2双向LSTM模型的隐藏状态长度是D可以相同，也可以不同，本领域技术人员可以根据实际需要预先设定。

接下来，可以通过与注意力有关的第2模型参数Ws获得多天交易片段注意力的信息，如图2所示，通过多天交易片段层获得K天的输出向量h_i，i∈[1，K]之后，可以引入注意力机制计算每个h_i的权重a_i，每个h_i的权重a_i的计算公式如下：

其中，W_s1和w_s2为第2模型参数Ws，其中，W_s1是一个2D*2D的矩阵，w_s2是一个1*2D的向量，经过上面公式计算后，可以获得每个h_i的权重数值a_i。

在本实施例中，可以把多天片段对应的所有的h_i合在一起，定义为H＝(h₁，h₂，...，h_K)，H为形状为K*2D的矩阵。

可以通过如下公式计算对应用户的多天片段的权重向量：

A＝softmax(w_s2tanh(W_s1H^T))

其中，A是一个1*K的权重向量，里面每个元素对应上面计算出的某个a_i。

通过上述方法计算出的A，可以得到用户的多天交易序列片段的表示，即单个用户的交易序列的最终表达：

V＝AH，其中V为1*2D的向量。

在本实施中，在计算多天交易片段注意力的信息中，可以使用一个向量w_s2，而不是一个矩阵，由此可以实现计算量的简化，同时交易片段的时序往往没有那么多的可疑模式，采用一个向量来处理能够满足需求。但本实施例不限于此，也可以引入矩阵来计算多天交易片段的注意力信息，由此，可以实现更加精细化的注意力信息。

上述记载对于分层将单个用户的交易记录对应的三维张量(K，T，N)导入分层注意力模型以生成单个用户的交易序列的最终表达V进行了说明，在获得用户的交易序列的最终表达V之后，可以将其输入分层注意力模型的多层感知器MLP进行分类处理，其中，多层感知器可以由一个全连接层+sofmax层组成，具体可以参考现有技术。

通过多层感知器MLP的分类处理，可以获得单个用户的分类处理结果，例如，分类结果为该用户的交易记录中包含可疑交易，或者，该用户的交易记录均为正常交易。

以上对于分层注意力模型对于数据的处理进行了说明，其可以对应上述步骤104和步骤110。

在本实施例中，在步骤102中建立的分层注意力初始模型中包括待训练的与注意力有关的模型参数，该待训练的模型参数包括上述第1模型参数Wd(W_d1和w_d2)，以及第2模型参数Ws(W_s1和w_s2)，在建立模型时，上述参数为初始化值。

以下对于如何训练分层注意力初始模型中的与注意力有关的模型参数进行说明，其可以对应上述步骤112、步骤114和步骤116。

在本实施例中，在对分层注意力初始模型进行训练时，在步骤110中获得样本数据的分类处理训练结果之后，在步骤112中，可以通过如下损失函数LOSS对分类处理训练结果的准确度进行评估：

LOSS＝cross entropy loss+c*P，

其中，cross entropy loss为交叉熵损失函数，是多层感知器做分类常用的损失函数，其表示样本数据的类型和所述分类处理训练结果的差异，c为预先设定的超参数，其取值范围为0到1之间，可参考相关现有技术，P为正则化项，其中，||||_F表示一个矩阵的Frobenius范数，伪单位矩阵，A_i为R*T矩阵。

在实施例中，通过增加的正则化项P，对于识别多种可疑模式的情况，可以提高权重矩阵A_i的每行权重向量的多样性，能够识别多种可疑模式，而对于没有引入正则化的情况，很有可能最终学到的每一行权重向量都非常相似，起不到识别多种可疑模式的目的。但本实施例不限于此，例如，在仅对一个可疑模式进行识别时，上述正则化项不是必须的。

在本实施例中，在步骤114中，在计算得到损失函数之后，可以判断损失函数是否收敛，例如，损失函数是否趋向于0，在步骤116中，在损失函数没有收敛的情况下，可以通过小批量随机梯度下降mini batch SGD(Stochastic Gradient Descent)的方式迭代更新与注意力有关的模型参数Wd(W_d1和w_d2)，以及Ws(W_s1和w_s2)，例如，对模型参数进行更新，并再次将样本数据导入更新了模型参数后的分层注意力模型进行分类处理，并对分类处理的准确度进行评估。关于通过小批量随机梯度下降mini batch SGD算法，可参考现有技术。

由上述实施例可知，通过上述方法，对分层注意力初始模型进行训练，能够得到可靠的基于注意力的分层注意力模型，可以将训练好的分层注意力模型进行保存，在对业务数据进行识别时，可以使用保存的分层注意力模型进行分类识别，能够提高识别的精确度。

实施例2

本发明书实施例提供一种基于分层注意力模型的业务数据的分类处理方法，其使用实施例1中训练好的分层注意力模型对待识别样本进行分类处理，分层注意力模型如实施例1中的图2所示。本实施例2与实施例1相同的内容不再赘述。

图3是本发明书实施例的业务数据的分类处理方法的一示意图，如图3所示，分类处理方法包括：

步骤302，对所述业务数据进行预处理，生成由一个三维张量表示的预处理数据；

步骤304，将所述预处理数据输入经由实施例1所述的训练方法进行训练而得到的分层注意力模型以进行处理，获得所述业务数据的分类处理结果。

由上述实施例可知，通过使用可靠的基于注意力的分层注意力模型，在对可以的业务数据进行识别时，能够提高识别的精确度。例如，在某一用户的交易中包含可疑交易时，即使该用户的正常交易较多，也能够有效识别该用户为进行了可疑交易的用户。

在本实施例中，业务数据可以为交易记录，具体可以参见实施例1中的说明，关于业务数据的预处理，以及将预处理数据导入分层注意力模型，可以参见实施例1中的说明。

在本实施例中，分类处理结果为包含可疑交易或者不包含可疑交易。例如，在分类处理结果为包含可疑交易时，则判断客户进行了可疑交易，可以采取进一步处理措施，在分类处理结果为不包含可疑交易时，则判断客户进行的交易行为均为正常交易，无需进行进一步处理。并且，还可以将注意力矩阵进行可视化展出，可以供分析人员快速定位可疑交易。

实施例3

本发明书实施例提供一种训练装置。由于该训练装置解决问题的原理与实施例1的方法类型，因此其具体的实施可以参照实施例1的方法的实施，内容相同之处不再重复说明。

图4是本实施例的训练装置的示意图，如图4所示，该训练装置400包括：

模型建立单元401，其建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数

样本数据获取单元402，所述样本数据的类型包括黑样本数据和白样本数据；

预处理单元403，其对所述样本数据进行预处理，生成由一个三维张量表示的预处理数据；

处理单元404，其将所述预处理数据输入所述分层注意力初始模型并进行处理，生成所述样本数据的最终表达；

分类处理单元405，其使用分层注意力初始模型中的多层感知器对所述样本数据的最终表达进行分类处理，获得所述样本数据的分类处理训练结果；

损失计算单元406，其根据所述样本数据的类型和所述分类处理训练结果，计算损失，所述损失表示所述样本数据的类型和所述分类处理训练结果的差异；

判定单元407，其判断所述损失是否收敛；

更新迭代单元408，其在所述判断单元的判断结果为所述损失没有收敛的情况下，对所述初始分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力初始模型进行迭代训练。

值得注意的是，以上仅对与本发明书实施例相关的各部件或模块进行了说明，但本发明书实施例不限于此。训练装置400还可以包括其他部件或者模块，关于这些部件或者模块的具体内容，可以参考相关技术。

由上述实施例可知，通过上述训练装置，对分层注意力初始模型进行训练，能够得到可靠的基于注意力的分层注意力模型，可以将训练好的分层注意力模型进行保存，在对业务数据进行识别时，可以使用保存的分层注意力模型进行分类识别，能够提高识别的精确度。

实施例4

本发明书实施例提供一种基于分层注意力模型的业务数据的分类处理装置。由于该分类处理装置解决问题的原理与实施例1-2的方法类型，因此其具体的实施可以参照实施例1-2的方法的实施，内容相同之处不再重复说明。

图5是本实施例的分类处理装置的示意图，如图5所示，该分类处理装置500包括：

预处理单元501，预处理单元，其对所述业务数据进行预处理，生成由一个三维张量表示的预处理数据；

分类处理单元502，其将所述预处理数据输入经由实施例1所述的训练方法进行训练而得到的分层注意力模型以进行分类处理，获得所述业务数据的分类处理结果。

值得注意的是，以上仅对与本发明书实施例相关的各部件或模块进行了说明，但本发明书实施例不限于此。训练装置500还可以包括其他部件或者模块，关于这些部件或者模块的具体内容，可以参考相关技术。

实施例5

本发明书实施例还提供一种电子设备，本实施例5与实施例1-4相同的内容不再赘述。

图6是本发明书实施例的电子设备的构成示意图。如图6所示，电子设备600可以包括：处理器610(例如中央处理器CPU)和存储器620；存储器620耦合到处理器610。其中该存储器620可存储各种数据，如分层注意力初始模型；此外还存储信息处理的程序630，例如程序630可以包括与分层注意力模型的训练方法对应的程序6301和/或与业务数据的分类处理方法对应的程序6302，并且在处理器610的控制下执行该程序6301和/或6302。

例如，处理器610可以被配置为执行程序6301而实现如实施例1所述的分层注意力模型的训练方法。例如处理器610可以被配置为进行如下的控制：建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数；

对所述样本数据进行预处理，生成由一个三维张量表示的预处理数据；

判段所述损失是否收敛，在所述损失没有收敛的情况下，对所述初始分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力初始模型进行迭代训练。

或者，处理器610可以被配置为执行程序6302而实现如实施例2所述的业务数据的分类处理方法。例如处理器610可以被配置为进行如下的控制：对所述业务数据进行预处理，生成由一个三维张量表示的预处理数据；将所述预处理数据输入经由实施例1所述的训练方法进行训练而得到的分层注意力模型以进行处理，获得所述业务数据的分类处理结果。

此外，处理器610还可以被配置为先执行程序6301以得到可靠的分层注意力模型，然后执行程序6302以进行业务数据的分类处理。但不限于此，例如程序6301和程序6302可以独立执行，即可以通过不同的处理器分别执行程序6301和程序6302。

此外，如图6所示，电子设备600还可以包括：输入输出(I/O)部件640等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备600也并不是必须要包括图4中所示的所有部件；此外，电子设备600还可以包括图6中没有示出的部件或模块，可以参考现有技术。

本发明书实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得所述电子设备执行实施例1所述的分层注意力模型的训练方法或者执行实施例2所述的业务数据的分类处理方法。

本发明书实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得电子设备执行实施例1所述的分层注意力模型的训练方法或者执行实施例2所述的业务数据的分类处理方法。

本发明书实施例以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明书实施例涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明书实施例还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

结合本发明书实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，可以实现为用于执行本发明书实施例所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本发明书实施例进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明书实施例的精神和原理对本发明书实施例做出各种变型和修改，这些变型和修改也在本发明的范围内。

Claims

1.一种分层注意力模型的训练方法，所述方法包括；

根据所述样本数据的类型和所述分类处理训练结果计算损失，所述损失表示所述样本数据的类型和所述分类处理训练结果的差异；

2.根据权利要求1所述的方法，所述样本数据包括至少一个用户的样本数据，所述用户的样本数据为黑样本数据或者白样本数据，所述样本数据中的黑样本数据和所述白样本数据的比例在预定范围内。

3.根据权利要求1或2所述的方法，所述样本数据为用户的交易记录，所述预处理包括抽取所述交易记录的特征，所述三维张量为(K，T，N)，其中，所述N表示单笔交易记录的特征的编码长度，所述T表示一个交易序列片段所包含的交易记录的数目，所述K表示单个用户的总共的交易序列片段的数目。

4.根据权利要求3所述的方法，所述交易记录的特征包括交易金额、和/或交易对象的类别、和/或交易类型。

5.根据权利要求3所述的方法，所述待训练的与注意力有关的模型参数包括第1模型参数和第2模型参数，

所述将所述预处理数据输入所述分层注意力初始模型并进行处理，生成所述样本数据的最终表达，包括：

将各个交易序列片段输入第1循环神经网络模型并利用所述第1模型参数，生成分别对应各个所述交易序列片段的多个交易序列片段表达S_i，i∈[1，K]；以及

将所述多个交易序列片段表达输入第2循环神经网络模型并利用所述第2模型参数，生成所述单个用户的交易序列最终表达V。

6.根据权利要求5所述的方法，

所述多个交易序列片段表达S_i＝A_iH_i，i∈[1，K]，

其中，

H_i＝(h_i1，h_i2，...，h_iT)，

t∈[1，T]，d_it为一个交易序列片段中的一个交易记录，和分别表示所述第1循环神经网络模型对于d_it的前向和后向输出向量，W_d1和W_d2为所述第1模型参数，

所述单个用户的交易序列最终表达V＝AH，

其中，A＝softmax(w_s2tanh(W_s1H^T))，

H＝(h₁，h₂，...，h_K)，

W_s1和w_s2为所述第2模型参数，和分别表示第2循环神经网络模型对于S_i的前向和后向输出向量。

7.根据权利要求6所述的方法，所述损失函数LOSS＝cross entropy loss+c*P，其中，所述cross entropy loss为交叉熵损失函数，其表示所述样本数据的类型和所述分类处理训练结果的差异，c为预先设定的超参数，P为正则化项，其中，|| ||_F表示一个矩阵的Frobenius范数，I为单位矩阵。

8.一种业务数据的分类处理方法，所述方法包括：

9.根据权利要求8所述的分类处理方法，所述业务数据为交易记录，所述分类处理结果为包含可疑交易或者不包含可疑交易。

10.一种训练装置，所述装置包括：

模型建立单元，其建立分层注意力初始模型，所述分层注意力初始模型包括待训练的与注意力有关的模型参数

样本数据获取单元，所述样本数据的类型包括黑样本数据和白样本数据；

判定单元，其判断所述损失是否收敛；

更新迭代单元，其在所述判断单元的判断结果为所述损失没有收敛的情况下，对所述分层注意力初始模型的所述与注意力有关的模型参数进行更新，并使用所述样本数据对更新后的分层注意力初始模型进行迭代训练。

11.根据权利要求10所述的训练装置，所述处理单元包括：

片段表达生成单元，其将各个交易序列片段输入第1循环神经网络模型并利用第1模型参数，生成分别对应各个所述交易序列片段的多个交易序列片段表达S_i，i∈[1，K]；以及

最终表达生成单元，其将所述多个交易序列片段表达输入第2循环神经网络模型并利用第2模型参数，生成单个用户的交易序列最终表达V。

12.一种业务数据的分类处理装置，所述装置包括：

分类处理单元，其将所述预处理数据输入经由权利要求1-7中任意一项所述的训练方法进行训练而得到的分层注意力模型以进行分类处理，获得所述业务数据的分类处理结果。

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1至9中任一项所述的训练方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如权利要求1至9中任一项所述的训练方法。