CN113255891B

CN113255891B - 对事件特征进行处理的方法、神经网络模型和装置

Info

Publication number: CN113255891B
Application number: CN202110587002.5A
Authority: CN
Inventors: 李辉; 傅幸; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-05-17
Anticipated expiration: 2041-05-27
Also published as: CN113255891A

Abstract

本说明书实施例提供一种通过高阶特征交互对事件进行处理的方法和神经网络模型。在该方法中，首先获取目标事件的编码向量；然后对该编码向量进行非线性变换，得到第一特征向量，其中所有元素均为正数。接着，对于多种高阶特征组合中任意的第一组合，利用与第一组合对应的第一组合矩阵处理该第一特征向量的自然对数，得到中间向量，并基于中间向量的自然指数确定第一组合对应的特征交互向量；其中，多种高阶特征组合中每种组合，对应于第一特征向量中多个向量元素的相乘组合。于是，至少基于上述多种高阶特征组合各自对应的特征交互向量，确定目标事件的事件表征向量；进而进行与事件相关的业务预测。

Description

对事件特征进行处理的方法、神经网络模型和装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及对事件特征进行处理的方法、神经网络模型和装置。

背景技术

随着计算机技术的发展，机器学习已经应用到各种各样的技术领域，用于分析、预测各种业务数据。例如，在互联网环境中存在多种类型的事件，例如，登录事件，购买事件，点击事件，支付事件，等等。在许多场景下，需要对各种事件进行分析和处理，从而进行业务预测，例如可以根据事件评估用户操作行为的风险程度，以便进行风险防控；或者，可以根据历史事件评估用户的偏好，从而更好地为用户提供个性化的服务。

在基于事件进行业务预测的场景中，为了尽可能地提高模型预测的准确性，通常会在事件中引入丰富的不同维度的特征数据。不同维度的特征从不同角度刻画了业务场景的不同信息。绝大多数情况下，模型的拟合目标与各个基础特征之间并非简单的线性关系，因此，基于基础特征训练的模型仅能表达特征信息的线性组合，模型表达能力受限。因此，希望对特征进行有效的组合表征，来提升模型的表达能力。传统的特征组合工作是由工程人员根据业务经验手动设计的，成本高，业务扩展性差，而且受限于设计人员自身的业务理解。

由此，希望能有改进的方案，更为有效地对事件特征进行处理和表征，提升模型的表达能力，从而提高业务预测的准确性。

发明内容

本说明书一个或多个实施例描述了一种通过高阶特征交互对事件进行处理的方法和神经网络模型，可以更高效地执行特征高阶交互，提高模型表达能力，从而提升业务预测准确性。

根据第一方面，提供了一种通过高阶特征交互对事件进行处理的方法，包括：

获取目标事件的编码向量；

对所述编码向量进行非线性变换，得到第一特征向量，所述第一特征向量中所有元素均为正数；

针对多种高阶特征组合中任意的第一组合，利用与所述第一组合对应的第一组合矩阵处理所述第一特征向量的自然对数，得到中间向量，并基于所述中间向量的自然指数确定所述第一组合对应的特征交互向量；其中，所述多种高阶特征组合中每种组合，对应于所述第一特征向量中多个向量元素的相乘组合；

至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量；

至少基于所述事件表征向量，进行与事件相关的业务预测。

在一个实施例中，上述非线性变换包括，利用参数集进行线性变换后，施加relu非线性函数，并添加正数小量。

根据一个实施例，所述编码向量包括稀疏子向量和稠密子向量；在这样的情况下，对所述编码向量进行非线性变换，可以包括：利用第一参数子集对所述稀疏子向量进行所述非线性变换，得到第一子向量；利用第二参数子集对所述稠密子向量进行所述非线性变换，得到第二子向量；根据第一子向量和第二子向量，得到所述第一特征向量。

基于上述实施例，进一步的，在一个例子中，编码向量还包括二元编码子向量；在这样的情况下，对所述编码向量进行非线性变换，还包括：利用第三参数子集对所述二元编码子向量进行所述非线性变换，得到第三子向量；基于所述第一子向量、第二子向量和第三子向量的拼接，得到所述第一特征向量。

根据一种实施方式，所述方法还包括：利用变换矩阵对所述第一特征向量进行线性变换，得到一阶变换向量；相应的，确定所述目标事件的事件表征向量，包括：将所述一阶变换向量，和所述多种高阶特征组合各自对应的特征交互向量求和，基于求和结果，得到所述事件表征向量。

在一个实施例中，上述多种高阶特征组合，对应于所述第一特征向量中多个向量元素的所有可能组合方式。

在另一实施例中，上述多种高阶特征组合，对应于所述第一特征向量中至少3个向量元素的组合。

根据一种实施方式，所述方法还包括：获取目标序列，所述目标序列包括多个事件，所述多个事件包括所述目标事件；相应的，至少基于所述事件表征向量，进行与事件相关的业务预测，可以包括：基于所述多个事件各自的事件表征向量，确定所述目标序列的序列表征向量；基于所述序列表征向量，进行所述业务预测。

进一步的，在一个实施例中，上述确定所述目标序列的序列表征向量，具体包括：将所述多个事件各自的事件表征向量，按照所述多个事件的发生顺序，依次输入循环神经网络，得到所述序列表征向量。

在另一实施例中，上述确定所述目标序列的序列表征向量，具体包括：将所述多个事件各自的事件表征向量，一并输入序列表征网络，所述序列表征网络基于自注意力机制对各个事件表征向量进行融合，得到所述序列表征向量。

根据一种实施方式，上述目标事件为用户操作事件，所述业务预测为风险预测。

根据第二方面，提供了一种通过高阶特征交互对事件进行处理的神经网络模型，包括：

编码层，用于获取目标事件的编码向量；

变换层，用于为对所述编码向量进行非线性变换，得到第一特征向量，所述第一特征向量中所有元素均为正数；

高阶交互层，用于针对多种高阶特征组合中任意的第一组合，利用与所述第一组合对应的第一组合矩阵处理所述第一特征向量的自然对数，得到中间向量，并基于所述中间向量的自然指数确定所述第一组合对应的特征交互向量；其中，所述多种高阶特征组合中每种组合，对应于所述第一特征向量中多个向量元素的相乘组合；

事件表征层，用于至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量；

预测网络，用于至少基于所述事件表征向量，进行与事件相关的业务预测。

根据第三方面，提供了一种通过高阶特征交互对事件进行处理的装置，包括：

获取单元，配置为获取目标事件的编码向量；

变换单元，配置为用于为对所述编码向量进行非线性变换，得到第一特征向量，所述第一特征向量中所有元素均为正数；

高阶交互单元，配置为针对多种高阶特征组合中任意的第一组合，利用与所述第一组合对应的第一组合矩阵处理所述第一特征向量的自然对数，得到中间向量，并基于所述中间向量的自然指数确定所述第一组合对应的特征交互向量；其中，所述多种高阶特征组合中每种组合，对应于所述第一特征向量中多个向量元素的相乘组合；

事件表征单元，配置为至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量；

业务预测单元，配置为至少基于所述事件表征向量，进行与事件相关的业务预测。

根据第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

根据第五方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法、装置和神经网络模型，在基于事件表征的业务分析中，将事件的特征向量中高阶交互运算，转化为参数矩阵与特征向量的指数、对数计算，从而可以高效实现高阶特征交互的计算和参数的训练。基于这样的高阶特征执行业务预测，可以进一步提升业务预测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的对事件特征进行处理的方法流程图；

图3示出根据一个具体例子对事件进行编码的整体效果图；

图4示出根据一个实施例的神经网络模型的结构示意图；

图5示出根据一个实施例的事件处理装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中，基于一系列的事件E₁,E₂,…,E_t，进行业务预测。该一系列事件构成一个事件序列s＝<E₁,E₂,…,E_t>。

为了进行业务预测，首先获取各个事件E_i的属性信息，基于属性信息对其进行编码，得到该事件的编码向量X_i。然后，将各个事件的编码向量X_i输入事件表征网络，在其中对编码向量进行进一步的特征加工处理，得到事件表征向量F_i。需要理解，相对于通过直接编码得到的编码向量X_i，事件表征向量F_i通过进一步的变换、组合等处理，可以挖掘和表征事件中更为抽象更为深层的语义信息。

然后，各个事件的事件表征向量F_i可以输入到序列表征网络中。序列表征网络可以对各个事件表征向量F_i进行融合，得到反映序列特点的序列表征向量Y。最后，可以基于该序列表征向量Y，进行业务预测，例如，预测序列中最近一个事件的风险，预测用户的下一事件的类别，等等。

在以上实施场景中，事件表征网络对于挖掘事件的深层特点，提高模型的表达能力，起着至关重要的作用。在常规神经网络中，对编码向量的进一步处理一般是采用一阶线性变换的方式，也就是，通过对编码向量中的各个特征项进行线性组合，得到事件表征向量。然而，事件中一般包含多项属性信息，属性信息之间有时候并非完全独立，而是存在一定的依赖关系或关联关系，而简单的线性组合却不足以发现和处理这样的关联关系。因此，近来提出，在表征过程中引入各个特征项的高阶交互，来发掘特征项之间更为丰富的关联关系，得到更有表达能力的表征向量。

具体的，用x表示某一事件的编码向量，假定其维度为d，x_i表示向量x中第i位置的元素，那么可以通过以下公式(1)表示x中高阶特征交互的运算函数g(x)：

具体的，公式(1)中第一项表示一阶线性运算，w⁽¹⁾为一阶线性运算使用的一阶参数向量，维度为d，尖括号<.>表示內积，即，其中的向量按位相乘后逐位置求和。

从第二项开始的高阶运算中，参数向量

上角标(j)表示第j阶运算，下角标i表示，该参数向量对应于编码向量x中第i个元素x_i。参数向量

的维度可以预先设定，记为k维。

相应的，公式(1)第二项表示二阶运算，也就是将编码向量x中任意两个位置i₁和i₂的元素相乘后再加权求和，加权的系数为这两个元素分别对应的参数向量的内积。类似的，可以得到三阶运算，其是将编码向量中任意三个位置的元素相乘后再加权求和。直到最后一行所示的d阶运算，其中，是将编码向量x中d个元素相乘，其系数为d个d阶参数向量的内积。

以上公式(1)提供了任意高阶特征交互的通用计算方式。实践中，FM(Factorization Machine)因子分解机机制很好地解决了2阶特征交互的问题，将其求解过程优化为线性时间内。具体的，可以通过以下公式(2)，在线性时间内计算2阶特征交互：

尽管FM机制理论上也可以用于学习更高阶(大于等于3阶)的特征交互，但是对于高维向量的大规模数据来说，并不具有可操作性。因此，常规技术中，难以用有效方式，挖掘特征之间的高阶交互。

有鉴于此，发明人通过对高阶交互进行研究，提出一种优化的方案，可以将特征向量中高阶交互运算，转化为参数矩阵与特征向量的指数、对数计算，从而利用对数神经网络层，高效实现高阶特征交互的计算和参数的训练。

上述优化方案基于以下理论提出：

理论1：

对于任意的正数x和y，存在一个实数

使得xy＝x^z成立。

推广至向量，则有，对于任意的正数x和正向量y(元素均为正数)，存在一个向量

使得xy＝x^z成立。

基于理论1，进一步有理论2：

假定x_i，x_j为正数元素，w_i为k维的正向量。对于d阶交互，存在v_ij，满足：

其中，“○”为Hadamard运算，表示向量之间按位相乘，得到一个新的向量。

基于以上的理论2，可以将公式(1)所示的高阶交互进行改写：

其中，等号(A)利用了上述理论2，等号(B)交换求和顺序后，将对向量维度的求和提取出来，等号(C)中利用了指数-对数性质exp(lnx)＝x以及(exp(a))^b＝exp(a*b)，对前式进行改写。

在等号(D)所示的式子中，O表示向量x中各种特征项的可能组合所构成的集合，即：O＝{i₁＜i₂}∪{i₁＜i₂＜i₃}∪…∪{i₁＜…＜i_d}，|O|表示集合O的元素数量，即，特征项的高阶组合方式的数量。

定义k*d维矩阵u_o，使得

则可以将以上表示式进一步改写得到：

通过公式(4)，可以将特征向量中高阶交互运算，转化为参数矩阵uo与特征向量x的指数、对数计算。基于以上研究发现的性质，提出一种新的通过高阶特征交互对事件特征进行处理的方法。下面详细描述在该构思下特征处理方法的具体实施过程。

图2示出根据一个实施例的对事件特征进行处理的方法流程图。可以理解，可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。下面结合具体实施例，对如图2所示的涉及高阶特征交互的事件处理方法中的各个步骤进行描述。

首先，在步骤21，获取目标事件的编码向量。上述目标事件可以是互联网环境中的各种用户操作事件，例如，登录事件，购买事件，支付事件，点击事件，加购事件，交易事件，社交互动事件，等等。为了更好地进行业务预测，在一个实施例中，可以如图1所示的获取一个或多个事件序列，作为分析对象。在这样的情况下，上述目标事件可以是事件序列中的任意一个事件。换而言之，在获取事件序列的情况下，对于事件序列中的各个事件，都可以采用以下方式进行处理。

对于待分析的目标事件来说，可以首先获取该事件的若干属性信息或属性项，例如事件发生时间，位置，(支付事件)的支付金额，等等，然后对属性信息进行编码，可以得到编码向量。取决于事件的特点，以及属性信息的特点，可以采用各种编码方式得到上述编码向量，例如独热(one-hot)编码，嵌入向量编码，二元编码，等等。

可以理解，一个事件中往往包含多种不同类型的属性信息。在一个实施例中，针对不同类型的属性信息，采用不同的编码方式进行编码，将得到的编码子向量组合起来，得到事件的编码向量。

图3示出根据一个具体例子对事件进行编码的整体效果图。如图3所示，对于事件中的类别型属性特征，例如，用户的性别，职业，城市，设备型号，支付渠道，等等，可以获取该属性特征的取值分布统计信息；然后基于该取值分布统计信息进行预处理，接着进行编码(例如独热编码或嵌入向量编码)，编码结果属于稀疏(sparse)向量。本领域人员了解，稀疏向量是指，向量中的非零元素占比很小(例如低于业内公认的阈值)的向量。

对于事件中的布尔型属性特征，例如，用户是否为注册会员，是否为首次操作，等等，可以采用独热编码方式进行编码，得到的结果属于稀疏向量。

对于事件中的时间信息，可以划分为离散字段和连续数值字段。对于离散字段，可以采用独热编码方式进行编码，得到稀疏向量。对于连续数值字段，例如时间间隔，可以基于统计得到的最大最小取值范围，进行归一化，进而得到编码值，该编码值属于稠密(dense)向量。此处的稠密向量是与稀疏向量相对应的，非零元素占比较大的向量。

对于事件中的数值型属性特征，例如，交易金额，商品价格，等等，可以类似地基于统计得到的取值范围进行归一化，进而得到编码值，其属于稠密向量。

对于事件中的文本型属性特征，例如，商品名称，电影名称，等等，可以先对其进行预处理，例如分词、去除停用词、标点等，然后采用语言模型对其进行嵌入处理，得到的嵌入向量属于稠密向量。

Id属性特征也是一种类别型属性特征，例如，用户id，设备id，等等。不过，考虑到其备选取值的数量往往极为庞大，因此可选的，在一个例子中，将事件中的id属性特征进行特殊编码。具体的，可以先对id的可能取值建立索引，对于某个具体的id取值，对其索引进行二元编码，得到二元向量。

在图3的示例中，最终得到的事件的编码结果包括稀疏子向量、稠密子向量和二元子向量多种性质的子向量。需要理解，在不同例子中，事件并不必然包括图3所示的所有类型的属性信息，相应的，其编码向量可以包括图3所示的多种性质的子向量中的一部分。

对于以上获得的目标事件的编码向量，在步骤22中，对该编码向量进行非线性变换，得到第一特征向量，使得第一特征向量中所有元素均为正数。

简单清楚起见，将编码向量表示为x，将第一特征向量表示为

则：

其中σ为非线性变换函数，使得变换之后的第一特征向量，所有元素均为正数。

在一个具体例子中，上述非线性变换，可以采用relu函数，通过下式进行：

其中，w，w₀分别为参数矩阵和参数向量。根据公式(5)，先利用参数集(参数矩阵和参数向量)对编码向量进行线性变换后，施加relu非线性函数，并添加正数小量∈。并且，通过公式(5)中d_e*d维的参数矩阵w，d维的编码向量x被转换为d_e维的第一特征向量

可以理解，根据relu函数的定义relu(x)＝max(x，0)，其函数值最小为0，因此，relu函数结果后添加正数小量，可以确保最终的第一特征向量

为正向量，也就是所有元素均为正数，从而满足理论2的要求。

在一个实施例中，上述非线性变换可以通过一个浅层神经网络实现，该浅层神经网络中的神经元以relu函数作为激活函数，因此可以自然地进行上述运算。

如前所述，编码向量可以通过不同编码方式组合得到。在一个实施例中，编码向量可划分为稀疏子向量和稠密子向量x_s，x_d，维度分别为d_s和d_d。不同部分的子向量性质和特点不同，为此，可以利用不同参数集，分别对不同子向量部分进行非线性变换，再将结果组合拼接。

具体的，在一个实施例中，可以利用第一参数子集对稀疏子向量x_s进行上述非线性变换，得到第一子向量；利用第二参数子集对稠密子向量x_d进行上述非线性变换，得到第二子向量；然后，根据第一子向量和第二子向量组合的组合或拼接，得到第一特征向量。

该过程可以通过下式(6)表示：

在另一实施例中，如图3所示，编码向量还包括二元编码子向量x_b，维度为d_b。在这样的情况下，在公式(6)所示方式的基础上，可以利用第三参数子集对二元编码子向量进行上述非线性变换，得到第三子向量；然后基于第一子向量、第二子向量和第三子向量的组合或拼接，得到第一特征向量。

该过程可以通过下式(7)示出：

假定，通过参数矩阵w_s，w_d和w_b的线性转换，得到的第一子向量、第二子向量和第三子向量维度分别为d′_s，d′_d和d′_b，那么，通过拼接，最终得到的第一特征向量的维度为d_e＝d′_s+d′_d+d′_b

以上通过多种方式，对编码向量x进行非线性变换，转化为维度d_e、元素均为正数的第一特征向量

由于元素均为正数，满足理论2的要求，因此，公式(4)适用，可以根据公式(4)的方式，计算第一特征向量中高阶特征交互结果，并将其形成特征交互向量。

具体的，在步骤23，针对多种高阶特征组合中任意的一种组合方式，称为第一组合o，利用与该第一组合对应的第一组合矩阵u_o处理第一特征向量

的自然对数

得到中间向量

并基于该中间向量的自然指数

确定该第一组合o对应的特征交互向量。其中，上述多种高阶特征组合中每种组合，对应于第一特征向量中多个向量元素的相乘组合。

针对每种组合o执行上述操作，可以得到各种高阶特征组合各自对应的特征交互向量。

在一个实施例中，将上述多种高阶特征组合各自对应的特征交互向量求和，作为综合高阶向量

如下所示：

其中，N为上述多种高阶特征组合的数目，h_o定义为步骤23中求得组合o对应的特征交互向量的函数。需要理解，上述与任意组合o对应的组合矩阵u_o维度为k*d_e，而

和

维度为d_e，从而得到的特征交互向量和综合高阶向量为k维向量。

在一个实施例中，上述多种高阶特征组合为组合方式全集，也就是，包含了第一特征向量中多个向量元素的所有可能组合方式，对应于公式(4)中的组合全集O。在另一实施例中，上述多种高阶特征组合也可以是组合方式全集中的选定的部分组合方式。

接着，在步骤24，至少基于上述多种高阶特征组合各自对应的特征交互向量，确定目标事件的事件表征向量。

在一个实施例中，直接基于上述多种高阶特征组合各自对应的特征交互向量的求和，即综合高阶向量

确定事件表征向量。

典型的，在一个实施例中，事件表征向量的确定仍需基于第一特征向量的一阶变换向量。在这样的情况下，可以利用变换矩阵对第一特征向量进行线性变换，得到一阶变换向量；然后将一阶变换向量和多种高阶特征组合各自对应的特征交互向量求和，基于求和结果，得到事件表征向量。

在一个具体例子中，可以通过以下公式(9)，得到事件表征向量：

其中，f_e为确定事件表征向量的函数，θ为其中的参数。可以看到，根据公式(9)，利用变换矩阵w⁽¹⁾对第一特征向量

进行线性变换，得到一阶变换向量；对于2阶特征组合，仍然采用类似于公式(2)的计算方式；只是对于3阶及以上的高阶特征组合，采用步骤23的方式，确定其特征交互向量。换而言之，在公式(9)中，采用对数-指数方式计算的多种高阶特征组合为，3阶以上的高阶特征组合，对应于第一特征向量中至少3个向量元素的组合。然后，将从一阶到d阶的各阶特征交互向量求和，再以w_e，we₀为参数，施加非线性函数σ，得到事件表征向量。其中该非线性函数可以与公式(5)相同，也可以采用其他非线性函数，例如sigmoid。

如上，通过多种方式，确定出目标事件的事件表征向量。

从而，接下来，在步骤24，至少基于上述事件表征向量，进行与事件相关的业务预测。

在一个实施例中，业务预测可以基于单个事件或针对单个事件进行，此时，可以直接基于上述目标事件的事件表征向量，进行业务预测，例如，预测目标事件是否具有风险，预测目标事件的事件类别，等等。

在另一实施例中，业务预测基于事件序列进行，例如基于一个事件序列预测下一事件的事件类型，预测事件序列中最近一个事件的风险程度，等等。在这样的情况下，如图1所示，可以获取一个目标序列，其中包括多个事件，该多个事件包括前述的目标事件。于是，可以针对目标序列中的各个事件，分别执行以上步骤21-23的过程，确定出各个事件各自的事件表征向量。然后，如图1所示，通过一个序列表征网络，基于多个事件各自的事件表征向量，确定该目标序列的序列表征向量。从而，可以基于该序列表征向量，进行业务预测。

在一个实施例中，上述序列表征网络采用循环神经网络，例如RNN或LSTM。在这样的情况下，可以将序列中多个事件各自的事件表征向量，按照多个事件的发生顺序，依次输入该循环神经网络，得到所述序列表征向量。

在另一实施例中，上述序列表征网络为基于自注意力机制的融合网络，例如，Transformer，BERT，等等。在这样的情况下，可以将多个事件各自的事件表征向量，一并输入序列表征网络，该序列表征网络基于自注意力机制对各个事件表征向量进行融合，得到序列表征向量。

在其他实施例中，还可以采用其他的序列表征方式，在此不一一枚举。

根据一种实施方式，还可以基于多个事件序列的集合进行业务预测。在这样的情况下，可以如上所述得到各个序列的序列表征向量，然后对各个事件序列的序列表征向量进行进一步融合，基于最后的融合结果进行业务预测。尽管引入了更进一步的层次结构，不过可以理解，在以上各种情况中，事件表征向量都是业务预测的基础元素。由于在事件表征中以对数-指数形式高效地引入了高阶特征交互信息，使得事件表征向量易于计算，且具有更强的表达能力。

回顾以上过程，在基于事件表征的业务分析中，将事件的特征向量中高阶交互运算，转化为参数矩阵与特征向量的指数、对数计算，从而可以高效实现高阶特征交互的计算和参数的训练。基于这样的高阶特征执行业务预测，可以进一步提升业务预测的准确性。

根据另一方面的实施例，提供了一种通过高阶特征交互对事件进行处理的神经网络模型。图4示出根据一个实施例的神经网络模型的结构示意图，该神经网络模型可以部署在任何具有数据存储、计算、处理能力的设备、平台或设备集群中。如图4所示，该用于对事件进行处理的神经网络模型400包括：

编码层41，用于获取目标事件的编码向量；

变换层42，用于为对所述编码向量进行非线性变换，得到第一特征向量，所述第一特征向量中所有元素均为正数；

高阶交互层43，用于针对多种高阶特征组合中任意的第一组合，利用与所述第一组合对应的第一组合矩阵处理所述第一特征向量的自然对数，得到中间向量，并基于所述中间向量的自然指数确定所述第一组合对应的特征交互向量；其中，所述多种高阶特征组合中每种组合，对应于所述第一特征向量中多个向量元素的相乘组合；

事件表征层44，用于至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量；

预测网络45，用于至少基于所述事件表征向量，进行与事件相关的业务预测。

在一个实施例中，上述非线性变换包括，利用参数集进行线性变换后，施加relu非线性函数，并添加正数小量。相应的，在一个例子中，上述变换层42可以通过浅层神经网络实现，该浅层神经网络中的神经元以relu函数作为激活函数，因此可以自然地进行上述运算。

根据一种实施方式，上述编码向量包括稀疏子向量和稠密子向量；相应的，所述变换层42可以利用第一参数子集对所述稀疏子向量进行所述非线性变换，得到第一子向量；利用第二参数子集对所述稠密子向量进行所述非线性变换，得到第二子向量；根据第一子向量和第二子向量，得到所述第一特征向量。

进一步的，在一个实施例中，上述编码向量还包括二元编码子向量；在这样的情况下，变换层42还利用第三参数子集对所述二元编码子向量进行所述非线性变换，得到第三子向量；基于所述第一子向量、第二子向量和第三子向量的拼接，得到所述第一特征向量。

在一个实施例中，上述高阶交互层43通过对数神经网络实现。

在一个实施例中，神经网络模型400还包括线性变换层(未示出)，用于利用变换矩阵对所述第一特征向量进行线性变换，得到一阶变换向量。相应的，事件表征层44可以将该一阶变换向量，和所述多种高阶特征组合各自对应的特征交互向量求和，基于求和结果，得到所述事件表征向量。

根据一个实施例，上述多种高阶特征组合，对应于所述第一特征向量中多个向量元素的所有可能组合方式；在另一实施例中，该多种高阶特征组合，对应于所述第一特征向量中至少3个向量元素的组合。

根据一种实施方式，神经网络模型400还包括输入层(未示出)，用于获取目标序列，所述目标序列包括多个事件，所述多个事件包括所述目标事件；相应的，预测网络45可以包括(未示出)：序列表征网络，用于基于所述多个事件各自的事件表征向量，确定所述目标序列的序列表征向量；预测层，用于基于所述序列表征向量，进行所述业务预测。

进一步的，在一个示例中，上述序列表征网络实现为循环神经网络，用于基于依次输入的所述多个事件各自的事件表征向量，得到所述序列表征向量。

在另一示例中，上述序列表征网络用于，获取一并输入的所述多个事件各自的事件表征向量，基于自注意力机制对各个事件表征向量进行融合，得到所述序列表征向量。

根据又一方面的实施例，提供了一种通过高阶特征交互对事件进行处理的装置，该装置可以实现为任何具有数据存储、计算、处理能力的设备、平台或设备集群。图5示出根据一个实施例的事件处理装置的示意性框图。如图5所示，该装置500包括：

获取单元51，配置为获取目标事件的编码向量；

变换单元52，配置为用于为对所述编码向量进行非线性变换，得到第一特征向量，所述第一特征向量中所有元素均为正数；

高阶交互单元53，配置为针对多种高阶特征组合中任意的第一组合，利用与所述第一组合对应的第一组合矩阵处理所述第一特征向量的自然对数，得到中间向量，并基于所述中间向量的自然指数确定所述第一组合对应的特征交互向量；其中，所述多种高阶特征组合中每种组合，对应于所述第一特征向量中多个向量元素的相乘组合；

事件表征单元54，配置为至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量；

业务预测单元55，配置为至少基于所述事件表征向量，进行与事件相关的业务预测。

通过以上神经网络模型和装置，将事件的特征向量中高阶交互运算，转化为参数矩阵与特征向量的指数、对数计算，从而可以高效实现高阶特征交互的计算和参数的训练。基于这样的高阶特征执行业务预测，可以进一步提升业务预测的准确性。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种通过高阶特征交互对事件进行处理的方法，包括：

获取目标事件的编码向量；

至少基于所述多种高阶特征组合各自对应的特征交互向量的和，确定所述目标事件的事件表征向量；

至少基于所述事件表征向量，进行与事件相关的业务预测。

2.根据权利要求1所述的方法，其中，所述非线性变换包括，利用参数集进行线性变换后，施加relu非线性函数，并添加正数小量。

3.根据权利要求1或2所述的方法，其中，所述编码向量包括稀疏子向量和稠密子向量；

对所述编码向量进行非线性变换，得到第一特征向量，包括：

利用第一参数子集对所述稀疏子向量进行所述非线性变换，得到第一子向量；

利用第二参数子集对所述稠密子向量进行所述非线性变换，得到第二子向量；

根据第一子向量和第二子向量，得到所述第一特征向量。

4.根据权利要求3所述的方法，其中，所述编码向量还包括二元编码子向量；

对所述编码向量进行非线性变换，得到第一特征向量，还包括：

利用第三参数子集对所述二元编码子向量进行所述非线性变换，得到第三子向量；

根据第一子向量和第二子向量，得到所述第一特征向量，包括：

基于所述第一子向量、第二子向量和第三子向量的拼接，得到所述第一特征向量。

5.根据权利要求1所述的方法，还包括：

利用变换矩阵对所述第一特征向量进行线性变换，得到一阶变换向量；

所述至少基于所述多种高阶特征组合各自对应的特征交互向量，确定所述目标事件的事件表征向量，包括：

将所述一阶变换向量，和所述多种高阶特征组合各自对应的特征交互向量求和，基于求和结果，得到所述事件表征向量。

6.根据权利要求1所述的方法，其中，所述多种高阶特征组合，对应于所述第一特征向量中多个向量元素的所有可能组合方式。

7.根据权利要求1所述的方法，其中，所述多种高阶特征组合，对应于所述第一特征向量中至少3个向量元素的组合。

8.根据权利要求1所述的方法，还包括：

获取目标序列，所述目标序列包括多个事件，所述多个事件包括所述目标事件；

至少基于所述事件表征向量，进行与事件相关的业务预测，包括：

基于所述多个事件各自的事件表征向量，确定所述目标序列的序列表征向量；

基于所述序列表征向量，进行所述业务预测。

9.根据权利要求8所述的方法，其中，确定所述目标序列的序列表征向量，包括：

将所述多个事件各自的事件表征向量，按照所述多个事件的发生顺序，依次输入循环神经网络，得到所述序列表征向量。

10.根据权利要求8所述的方法，其中，确定所述目标序列的序列表征向量，包括：

将所述多个事件各自的事件表征向量，一并输入序列表征网络，所述序列表征网络基于自注意力机制对各个事件表征向量进行融合，得到所述序列表征向量。

11.根据权利要求1所述的方法，其中，所述目标事件为用户操作事件，所述业务预测为风险预测。

12.一种通过高阶特征交互对事件进行处理的神经网络模型，包括：

编码层，用于获取目标事件的编码向量；

事件表征层，用于至少基于所述多种高阶特征组合各自对应的特征交互向量的和，确定所述目标事件的事件表征向量；

13.根据权利要求12所述的神经网络模型，其中，所述非线性变换包括，利用参数集进行线性变换后，施加relu非线性函数，并添加正数小量。

14.根据权利要求12或13所述的神经网络模型，其中，所述编码向量包括稀疏子向量和稠密子向量；

所述变换层用于：

根据第一子向量和第二子向量，得到所述第一特征向量。

15.根据权利要求14所述的神经网络模型，其中，所述编码向量还包括二元编码子向量；

所述变换层还用于：

16.根据权利要求12所述的神经网络模型，还包括：

线性变换层，用于利用变换矩阵对所述第一特征向量进行线性变换，得到一阶变换向量；

所述事件表征层用于：将所述一阶变换向量，和所述多种高阶特征组合各自对应的特征交互向量求和，基于求和结果，得到所述事件表征向量。

17.根据权利要求12所述的神经网络模型，其中，所述多种高阶特征组合，对应于所述第一特征向量中多个向量元素的所有可能组合方式；或者，所述多种高阶特征组合，对应于所述第一特征向量中至少3个向量元素的组合。

18.根据权利要求12所述的神经网络模型，还包括：

输入层，用于获取目标序列，所述目标序列包括多个事件，所述多个事件包括所述目标事件；

所述预测网络包括：

序列表征网络，用于基于所述多个事件各自的事件表征向量，确定所述目标序列的序列表征向量；

预测层，用于基于所述序列表征向量，进行所述业务预测。

19.根据权利要求18所述的神经网络模型，其中，所述序列表征网络为循环神经网络，用于基于依次输入的所述多个事件各自的事件表征向量，得到所述序列表征向量。

20.根据权利要求18所述的神经网络模型，其中，所述序列表征网络用于，获取一并输入的所述多个事件各自的事件表征向量，基于自注意力机制对各个事件表征向量进行融合，得到所述序列表征向量。

21.一种通过高阶特征交互对事件进行处理的装置，包括：

获取单元，配置为获取目标事件的编码向量；

事件表征单元，配置为至少基于所述多种高阶特征组合各自对应的特征交互向量的和，确定所述目标事件的事件表征向量；

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。