CN115564577A

CN115564577A - 一种异常用户识别方法、装置、电子设备及存储介质

Info

Publication number: CN115564577A
Application number: CN202211533105.4A
Authority: CN
Inventors: 吴枭; 王渊; 汪劲松; 金秋; 吕文勇; 周智杰
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-01-03
Anticipated expiration: 2042-12-02
Also published as: CN115564577B

Abstract

本申请提供一种异常用户识别方法、装置、电子设备及存储介质，其中异常用户识别方法包括：将待识别样本输入自编码器基模型，获取待识别样本的基模型信息损失；判断待识别样本是否为可能异常样本，若待识别样本为可能异常样本，则将待识别样本输入自编码器次模型，获取待识别样本的次模型信息损失；获取待识别样本的组合信息损失；判断待识别样本是易被识别为异常样本的正常样本，还是异常样本。利用自编码器次模型来构建组合信息损失，通过组合信息损失来判断待识别样本是易被识别为异常样本的正常样本还是异常样本，使得上述异常用户识别方法能够实现对真实异常样本的有效识别，异常用户识别准确率高。

Description

一种异常用户识别方法、装置、电子设备及存储介质

技术领域

本申请涉及大数据处理技术领域，具体而言，涉及一种异常用户识别方法、装置、电子设备及存储介质。

背景技术

现有技术中，异常用户的识别方法包括：经验规则类方法和有监督学习方法。其中经验规则类方法主要指基于传统经验，总结并形成相应的规则来防范欺诈风险；有监督学习方法主要指利用机器学习、深度学习等方法训练得到相应的模型，根据模型结果对风险进行判定。

但采用上述方法进行异常用户识别时的检测精度较低，容易将易被识别为异常用户的正常用户识别为异常用户。

发明内容

本申请实施例的目的在于提供一种异常用户识别方法、装置、电子设备及存储介质，用以改善异常用户识别精度。

第一方面，本申请实施例提供一种异常用户识别方法，包括：将待识别样本输入自编码器基模型，获取所述待识别样本的基模型信息损失；基于所述基模型信息损失，判断待识别样本是否为可能异常样本，若所述待识别样本为可能异常样本，则将所述待识别样本输入自编码器次模型，获取所述待识别样本的次模型信息损失；基于所述基模型信息损失和所述次模型信息损失，获取所述待识别样本的组合信息损失；基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本。

在上述方案的实现过程中，利用自编码器次模型来构建组合信息损失，进而通过组合信息损失来判断待识别样本是易被识别为异常样本的正常样本，还是异常样本，使得上述异常用户识别方法能够实现对易被识别为异常样本的正常样本和真实异常样本的有效识别，提高了上述异常用户识别方法的识别准确率。

在第一方面的一种实现方式中，在所述将待识别样本输入自编码器基模型之前，还包括：获取训练样本；使用训练样本对所述自编码器基模型进行训练；将所述训练样本输入训练好的所述自编码器基模型，根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失；采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练，获取输入所述自编码器次模型的训练样本的组合信息损失，直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时，停止迭代，完成对所述自编码器次模型的训练。

在上述方案的实现过程中，采用信息损失较高的样本训练自编码器次模型，使得自编码器次模型能够在信息损失较高的样本中对易被识别为异常用户的正常用户和异常用户进行有效区分，进而使得使用组合信息损失对异常样本进行识别时，能够有效区分易被识别为异常用户的正常用户和异常用户，提高异常用户识别方法的识别准确率。

在第一方面的一种实现方式中，所述自编码器次模型的数量为一个或多个。

在上述方案的实现过程中，可以设置多个自编码器次模型来叠加获得组合信息损失，使得易被识别为异常样本的正常样本的信息损失更低，而异常样本的信息损失更高，进而使得通过组合信息损失能够更容易分辨出易被识别为异常样本的正常样本以及异常样本，提高异常用户识别准确率。

在第一方面的一种实现方式中，所述获取输入所述自编码器次模型的训练样本的组合信息损失，包括：若训练样本仅用于所述自编码器基模型的训练，则该训练样本的组合信息损失为该训练样本的基模型信息损失；若训练样本用于训练所述自编码器基模型和所述自编码器次模型，则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。

在上述方案的实现过程中，通过构建自编码器次模型获取样本的次模型信息损失，在次模型信息损失中，易被识别为异常样本的正常样本的次模型信息损失较小，而异常样本的次模型信息损失较大，将次模型信息损失加入集模型信息损失可以使得异常样本的信息损失升高，而易被识别为异常样本的正常样本的信息损失降低，从而使得易被识别为异常样本的正常样本与异常样本之间信息损失数值更容易被识别，提高了异常用户识别精度。

在第一方面的一种实现方式中，在所述完成对所述自编码器次模型的训练后，还包括：确定第一异常阈值和第二异常阈值；所述基于所述基模型信息损失，判断待识别样本是否为可能异常样本，包括：若所述基模型信息损失大于所述第一异常阈值，则将待识别样本判定为可能异常样本，否则，将所述待识别样本判定为正常样本；所述基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本，包括：若所述基模型信息损失小于所述第二异常阈值，则将待识别样本确定为易被识别为异常样本的正常样本，否则，将待识别样本确定为异常样本。

在上述方案的实现过程中，通过第一异常阈值判断待识别样本是否为可能异常样本，若待识别样本为可能异常样本后再通过第二异常阈值来判断待识别样本是否为易被识别为异常样本的正常样本，最终确定待识别样本是否为异常样本，通过第一异常阈值配合第二异常阈值的分段式的筛选，有效提高了异常用户识别的效率。

在第一方面的一种实现方式中，所述确定第一异常阈值和第二异常阈值，包括：获取所述训练样本的基模型信息损失、组合信息损失及所述训练样本中异常样本的概率分布；将所述异常样本的概率分布作为第一置信度，将所述第一置信度下的基模型信息损失确定为所述第一异常阈值，将所述第一置信度下的组合信息损失确定为所述第二异常阈值。

在上述方案的实现过程中，通过概率分布所确定的置信度来确定第一异常阈值和第二异常阈值的方式，能够对易被识别为异常样本的正常杨根本与异常样本进行有效区分，提高了异常用户识别准确率。

在第一方面的一种实现方式中，在所述将待识别样本输入自编码器基模型之前，还包括：获取原始样本；对所述原始样本进行预处理；所述对所述原始样本进行预处理，包括：数据编码、统计特征计算、特征稳定性校验以及特征增强中至少一项。

在上述方案的实现过程中，通过数据编码、统计特征计算、特征稳定性校验以及特征增强等方式有效减少了原始数据中的噪音，获取了相对有效的特征，一方面提高了异常用户识别精度，另一方面避免了后续识别方法对无效特征的无效处理，提高了异常用户的识别效率。

第二方面，本申请实施例提供一种异常用户识别装置，包括：

基模型信息损失获取模块，用于将待识别样本输入自编码器基模型，获取所述待识别样本的基模型信息损失；

可能异常样本判断模块，用于基于所述基模型信息损失，判断待识别样本是否为可能异常样本；

次模型信息损失获取模块，用于在所述待识别样本为可能异常样本时，将所述待识别样本输入自编码器次模型，获取所述待识别样本的次模型信息损失；

组合信息损失获取模块，用于基于所述基模型信息损失和所述次模型信息损失，获取所述待识别样本的组合信息损失；

异常样本识别模块，用于基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本。

第三方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的异常用户识别方法的流程示意图；

图2为本申请实施例提供的自编码器模型的结构示意图；

图3为本申请实施例提供的在自编码器模型训练过程中模型信息损失岁训练轮次的变化示意图；

图4为本申请实施例提供的模型结构参数dim_out的取值与模型平均信息损失的关系示意图；

图5为本申请实施例提供的训练样本训练过程中的基模型信息损失示意图；

图6为本申请实施例提供的训练样本训练过程中的次模型信息损失示意图；

图7为本申请实施例提供的训练样本训练过程中的组合信息损失示意图；

图8为本申请实施例提供的异常用户识别装置的结构示意图；

图9为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本申请实施例的描述中，技术术语“第一”“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

采用无监督学习方法虽然不需要样本标签信息而是从数据层面来进行异常检测，这种方式相较于有监督学习方法和经验规则类方法能够取得更好的识别效果，但是其识别精度依然不能达到实际应用要求，而导致其识别精度较低的原因主要在于样本存在多样性。

以金融贷款场景为例，在用户申请贷款过程中通常会对用户GPS进行检测，当发现用户申请过程中移动范围过大时，会将该用户识别为异常。但是根据人工识别后发现，用户申请过程中移动范围过大一方面可能是由黑产团体修改虚拟定位导致，但另一方面也有可能是由用户本身是在高铁或汽车等行驶过程中申请贷款导致。在上述两种情况中，第一种由黑产团体修改虚拟定位来申请贷款的用户即为金融贷款场景中的异常用户，而在高铁或汽车等行驶过程中申请贷款的用户则是易被识别为异常用户的正常用户。在上述示例中，特征“申请过程中移动范围过大”可能会存在上述两种情况，但是在实际应用过程中，一个特征所对应的情况可能不止两个，这就导致了样本存在多样性的问题。现有技术中的异常用户识别方法并未考虑样本存在多样性的问题，因此容易将易被识别为异常数据的正常数据识别为了异常数据，导致识别精度较低。

发明人经过大量研究发现，针对采用无监督方法的异常用户识别方法，提高其识别精度的关键在于：如何使得易被识别为异常用户的正常用户与异常用户的用户数据边界更加清晰。

针对上述发现，发明人提出了一种异常用户识别方法。请参见图1，本申请实施例提供一种异常用户识别方法，包括：

步骤S110：将待识别样本输入自编码器基模型，获取所述待识别样本的基模型信息损失；

步骤S120：基于所述基模型信息损失，判断待识别样本是否为可能异常样本，若所述待识别样本为可能异常样本，则将所述待识别样本输入自编码器次模型，获取所述待识别样本的次模型信息损失；

步骤S130：基于所述基模型信息损失和所述次模型信息损失，获取所述待识别样本的组合信息损失；

步骤S140：基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本。

在上述方案的实现过程中，在自编码器基模型识别到可能异常样本后再通过自编码器次模型确定该可能异常样本是否是真实异常用户，通过自编码器基模型和自编码器次模型的分级识别，有效提高了上述异常用户识别方法的识别准确率和识别效率；同时，利用自编码器次模型来构建组合信息损失，进而通过组合信息损失来判断待识别样本是易被识别为异常样本的正常样本，还是异常样本，使得上述异常用户识别方法能够实现对易被识别为异常样本的正常样本和真实异常样本的有效识别，进一步提高了上述异常用户识别方法的识别准确率。

下面分别对各个步骤进行详细介绍：

在上述步骤S110中，待识别样本可以为执行上述异常用户识别方法的电子设备直接采集的待识别样本，也可以为执行上述异常用户识别方法的电子设备接收到的其他电子设备采集后发送的待识别样本。

上述待识别样本的采集可以通过埋点方式进行，以金融贷款场景为例，通常会对用户终端环境，例如APP端、web端、移动小程序端等，进行关键数据埋点和采集。

上述待识别样本可以为多维度的数据信息，同时也可以在所监控流程的关键环节进行数据采集。例如在金融贷款场景中，待识别样本可以为包括设备信息、空间信息、事件信息等多维度的数据信息，并在用户注册、申请贷款、用户提现等关键环节进行数据采集。

以金融贷款场景为例，金融贷款场景中的数据埋点可以包括：

（1）设备信息：设备品牌，设备型号，设备性能，设备字体大小，设备系统等级等，基于设备信息进行特征基础加工如用户在注册/申请/提现前使用的设备品牌数目、设备型号数目；

（2）空间信息：GPS经纬度信息，GPS城市信息，GPS省份信息等；

（3）事件信息：用户各类事件发生的时间，基于事件信息进行特征基础加工如用户在注册/申请/提现前加载事件的数目、修改密码事件的数目、用户的频繁活跃时段、用户当前事件时段等。

作为上述异常用户识别方法的一种可选实施方式，异常用户识别方法在步骤S110之前，还包括：获取原始样本；对原始样本进行预处理，包括：数据编码、统计特征计算、特征稳定性校验以及特征增强中至少一项。

以金融贷款场景为例，所获取的原始样本即上述设备信息、空间信息和事件信息等。

数据编码预处理例如：在设备信息中，获取用户注册/申请/提现时使用的设备品牌编码、设备型号编码、设备性能编码等，编码方式可以根据实际业务所需采用独热编码、计数编码等形式。

统计特征计算例如：统计用户在注册/申请/提现前移动的不同省份/城市计数，GPS和IP城市不一致的省份/城市计数，GPS移动距离的最大值、最小值、均值和方差，GPS移动速度的最大值、最小值、均值和方差等。

特征稳定性校验例如：

记用户样本的集合为

，采集到的m维特征分别记为：

对特征

，有：

其中，T表示时间周期；

为两个时间周期的特征群体稳定性，通过对

的m个分箱进行分布差异性计算得到；

为T时间周期内的i分箱实际分布占比；

为T-1周期内的i分箱预期分布占比，在无监督学习中常用的分箱方法通常采用等频分箱或等宽分箱。

为对历史周期内的各个相邻时间周期的psi进行最大值校验，在实际应用过程中，可以以自然月/季度为单位并对近1年的数据进行稳定性校验，当相邻自然月/季度的特征群体稳定性均不超过0.1时，可以认为该特征是长周期保持群体稳定的，可以用于后续对异常用户的识别。

特征增强例如：采用改进式特征归一化方法进行特征增强处理。归一化的目的是使得预处理的数据被限定在一定的范围内（比如[0,1]），一方面消除了不同数据维度之间的量纲影响，通过归一化处理后，各个数据维度处在同一数量级，有助于提高模型精度；另一方面，目前大量通用模型采用梯度下降法进行训练求解，归一化可以加快模型收敛速度，尤其是神经网络结构的模型，若不进行归一化处理，还容易引起梯度消失从而无法求解模型。但发明人发现现有的归一化无法处理离群值问题，例如某一特征正常阈值范围为1-100，若受到数值10000的离群数据影响，归一化后都将导致正常数据的失真问题。基于以上问题，本申请实施例提出采用改进式特征归一化方法进行特征增强处理，改进式特征归一化方法包括：

步骤A1：计算特征变异系数，即标准差SD和均值MN的比值，一般当变异系数超过0.15时，认为该数据过于离散，可能存在离群值需要特殊处理；

其中，

为特征

的标准差；

为特征

的均值；

为特征

的特征变异系数；

步骤A2：对变异系数0.15及以下的特征进行标准归一化处理，此处可以采用最大最小标准化方法将特征转换至[0,1]范围，也可以采用z-score方法等方法进行归一化；

最大最小标准化方法的公式为：

其中，

为样本

对应的

原始特征值，

为经过归一化后形成的新特征值；

为特征

的最小值；

为特征

的最大值；

步骤A3：对变异系数0.15以上的特征，利用95分位数（p=0.05）进行特殊归一化处理，同时新增离群标记的独热编码用于特征扩展。在实际应用中，若特征存在双边离群的情况，也可以采用双边分位数的方式进行归一化处理。

从上式可以看出，采用上述改进式特征归一化方法并不会造成数据信息损失，但把大部分特征的数值归一化到了[0,1]范围，形成了不同的数据维度间的数量级统一。而对于离群值，特殊归一化后的数值会大于1，但对模型训练过程的整体收敛影响不大。同时因为新增了独热编码特征，也有助于模型本身关注到该数据点是否为离群值，从而实现特征增强的效果。对经过特征稳定性筛选和特征增强后的特征集记为：

，即共计n维有效特征。

接下来介绍步骤S120，步骤S110中的自编码器基模型和步骤S120中的自编码器次模型均是自编码器模型，自编码器模型的结构如图2所示，实际上是由两个神经网络模型Encoder和Decoder构成。Encoder的作用是用来对数据进行压缩，Decoder是用来对压缩的数据进行解压，通过压缩和解压的操作实现对原始数据的重构。在训练时，为了实现重构数据和原始数据的一致性，Encoder将选择最有信息量的特征进行压缩，并将压缩结果保存在Code层中用于Decoder后续解压。可以理解，自动编码器与主成分分析PCA类似，本质上是一种提取关键特征信息并进行降维的操作，即两者所关注的都是数据中的关键特征信息，因此可以进一步去除非关键数据的数据噪音影响。但相较于主成分分析PCA，自动编码器可以使用各类非线性激活函数来克服PCA线性变换的限制，因此在特征信息提取上能够取得更好的效果。对于Decoder解压后的数据，若误差损失和原始数据较大，则认为该数据经过特征变换后不能较好地复原为原始特征，因此可能为异常数据。

本申请实施例中自编码器基模型和自编码器次模型所采用的自动编码器模型共包括6层结构，即输入层、Encoder隐藏层、Encoder输出层、Decoder隐藏层、Decoder输出层，具体结构如下：

（1）输入层，将用户样本

的n维有效特征集合作为输入，输入层的特征维度为n；

（2）Encoder隐藏层，激活函数为Tanh，输入维度为n，输出维度为2*n；

（3）Encoder输出层，激活函数为ReLU，输入维度为2*n，输出维度为dim_out，待确定；

（4）Decoder隐藏层，激活函数为Tanh，输入维度为dim_out，输出维度为n/2；

（5）Decoder输出层，激活函数为ReLU，输入维度为n/2，输出维度为n，与输入层特征维度一致。

Encoder和Decoder采用非对称结构，Encoder隐藏层的输出维度为2*n，实际上是先对原始特征进行了高维特征拓展，在此基础上再进行降维至dim_out维，dim_out为待优化参数。Tanh和ReLU的函数的表达式分别为：

可以看出，经过Tanh变换后的特征将处在[-1,1]区间，而经过ReLU变换后的特征将处在[0，+∞]区间，因此经过Decoder输出层的ReLU函数激活后，经过特殊归一化处理后大于1的特征经过重构后理论上可以和原始信息保持一致。

作为上述异常用户识别方法的一种可选实施方式，在将待识别样本输入自编码器基模型之前，还包括：获取训练样本；使用训练样本对所述自编码器基模型进行训练；将所述训练样本输入训练好的所述自编码器基模型，根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失；采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练，获取输入所述自编码器次模型的训练样本的组合信息损失，直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时，停止迭代，完成对所述自编码器次模型的训练。该实施方式例如：

步骤B1：获取训练样本，并将训练样本集按85%和15%的比例分为训练集

和测试集

；

步骤B2：对自编码器基模型进行训练，包括：

步骤B2-1：初始化模型参数，包括权重参数w、偏置参数b以及dim_out参数；

权重参数w和偏置参数b是构成了神经元之间的基本连接方式，也是迭代优化的模型训练参数，初始参数可设置为1或0；dim_out为模型结构参数，当dim_out过大时，降维失去了本身意义，当dim_out较小时，说明当前特征信息可用较少的特征来进行重构，降维效果较好，但是可能会造成较大的重构信息损失，因此需要通过超参数搜索的方式来确定合理的目标降维数目dim_out。为了实现降维目的，要求dim_out不超过n/2。

步骤B2-2：每个样本以原始特征和重构特征的欧氏距离作为样本信息损失，并计算所有样本的均方误差来作为整体信息损失；

对于k个训练样本构成的训练集，整体信息损失可以表示为：

其中，

表示i样本的第j个特征原始值，

表示i样本的第j个特征重构值。

步骤B2-3：利用梯度下降法对并采用梯度下降方法迭代更新权重w和偏置参数b，训练N轮，N一般要求大于50；

对模型迭代训练过程中的训练集和测试集整体重构损失进行判定，并确定在当前dim_out情况下的最优模型训练参数，具体判定方式为：

（1）为了避免模型过拟合，提升模型的稳定性，要求测试集整体重构损失和训练集整体重构损失不超过±5%：

（2）计算训练集和测试集的平均损失

，选取平均损失最小的轮次epoch对应的网络训练参数作为最优训练参数。

如图3所示，可以看到模型在训练过程中的训练集、测试集损失持续减小，并逐渐在150轮以后达到稳定状态，此时若继续训练将造成过拟合，

会逐渐增大，因此以epoch=150对应的模型训练参数作为最优训练参数。

步骤B2-4：对不同dim_out参数，重复步骤B2-1~步骤B2-3步骤，通过超参数搜索的方式来确定最优模型结构参数dim_out。

如图4所示，当dim_out较小时，平均损失

会更大，说明此时降维后的维度数过少，不能较好地重构原始特征信息，而随着dim_out增加时，平均损失

逐渐降低，此时效果较好。选取平均损失

最小情况下的dim_out作为最优模型结构参数，图4中的最优模型结构参数为dim_out=29。

步骤B3：采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练，获取输入所述自编码器次模型的训练样本的组合信息损失，直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时，停止迭代，完成对所述自编码器次模型的训练；

步骤B3-1：利用步骤B2训练完成的自动编码器基模型计算全量训练样本的信息损失，即训练集

和测试集

样本的信息损失，记为

，并根据信息损失的分位数分布将样本拆分为多个训练子集。例如，以5分位为基础将训练样本拆分为20个训练子集，记为

，其中，

为信息损失最大的前5%样本构成的训练子集，依次类推。

步骤B3-2：将

作为自动编码器次级模型的训练样本进行训练，此时

，训练步骤与步骤B2保持一致，训练完毕后，对

中样本的信息损失记为

；

步骤B3-3：利用自动编码器基模型和自编码器次模型计算组合信息损失；

作为上述异常用户识别方法的一种可选实施方式，计算组合信息损失的方式为：若训练样本仅用于所述自编码器基模型的训练，则该训练样本的组合信息损失为该训练样本的基模型信息损失；若训练样本用于训练所述自编码器基模型和所述自编码器次模型，则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。该实施方式例如：

可以理解，上述公式所表述的思想即当样本只用于基模型训练时，样本的信息损失仅由基模型决定，为

；当样本同时参与了次级模型训练时，样本的信息损失由基模型和次级模型共同决定，其中权重系数

为参与到次级模型训练的样本比例，当

时，

为0.05。

需要指出，上述权重系数

为并不是一个必变的参数，其跟随加入自编码器次模型训练的数据比例进行改变。

步骤B3-4：将

中的

加入到次级模型中进行训练，并计算组合信息损失，此时

；若

持续下降，则继续将

中的剩余子集加入次级模型进行训练，若

不再下降，则训练终止。

需要指出，上述计算组合损失公式中的权重系数

在步骤B3-4中得到更新。

基于上述自编码器次模型训练步骤，解释本申请实施例为何构建组合信息损失：对于生产环境中客观且广泛存在的多类客群问题，例如存在80%的A类用户和18%的B类用户和2%的异常用户，由于在认知层面很难精确区分用户类别，因此在进行异常用户识别时通常是统一进行模型训练，由于B类客群占比较少，因此现有技术中的异常用户方法容易将B类用户识别为异常用户。可以理解，B类用户即为上述内容中的易被识别为异常用户的正常用户。采用自动编码器来做异常用户识别时，因其压缩-解压的特征变换操作，会更多地关注到最广泛的特征信息，即A类客户信息，因此对于信息损失较大的样本，即可能是异常样本，也可能是B类中的边缘样本，即易被识别为异常样本的正常样本。而通过自编码器次模型训练后，因其依次采用基模型中信息损失最大的样本进行训练，因此本质上是去判断小样本群中是否存在特殊类别，即B类用户。对于在基模型中未能正确重构的B类正常样本，因其在自编码器次模型中具有较低的信息损失，因此组合信息损失将降低。而在自编码器基模型中未能正确重构的异常样本，因其在自编码器次模型中依然具有较高的信息损失，因此组合信息损失将升高。因此通过组合信息损失能够更容易区分上述B类用户和异常用户。

上述A类用户、B类用户与异常用户的实际训练效果图如图5~图7所示，其中A类和B类均为正常样本，C类为异常样本。图5为基模型信息损失，并将全量样本的信息损失升序排列，编号index作为x轴，信息损失为y轴；图6为利用基模型损失较高的样本，即图5中的尾部样本，训练的到的次级模型信息损失；图7为组合信息损失。从图6中可以看出，通过自编码器次模型训练后，图5尾部的B类样本和C类样本的区分度提升，B类样本整体有更低的次模型信息损失，C类样本有更高的次模型信息损失。此时经过自编码器基模型和自编码器次模型的信息损失叠加后，B类的组合信息损失将降低得更多，而C类的组合信息损失仍然较高，因此筛选组合信息损失较高的样本作为待校验异常样本时，将命中更多的真实异常样本，即提高了异常用户识别的准确率。

作为上述异常用户识别方法的一种可选实施方式，自编码器次模型的数量为一个或多个。该实施方式例如：在满足精度需求和训练样本量的要求下，根据需要可以训练多个次级模型，即level2、level3甚至更多的模型，此时组合信息损失可以表示为：

其中，l为模型数目；j为模型级别，基模型的模型级别为1；

为标记函数，当i样本参与到level=j的次级模型训练时

为1，反之为0。需要指出，自编码器次模型的数量为一个的情况已经在上述步骤B3-3的描述中给出，因此不再赘述。

作为上述异常用户识别方法的一种可选实施方式，在完成对自编码器次模型的训练后，还包括：确定第一异常阈值和第二异常阈值；

步骤S120中基于基模型信息损失，判断待识别样本是否为可能异常样本，包括：若基模型信息损失大于第一异常阈值，则将待识别样本判定为可能异常样本，否则，将待识别样本判定为正常样本；

步骤S140中基于组合信息损失，判断待识别样本是易被识别为异常样本的正常样本，还是异常样本，包括：若基模型信息损失小于第二异常阈值，则将待识别样本确定为易被识别为异常样本的正常样本，否则，将待识别样本确定为异常样本。

作为上述异常用户识别方法的一种可选实施方式，确定第一异常阈值和第二异常阈值，包括：获取所述训练样本的基模型信息损失、组合信息损失及所述训练样本中异常样本的概率分布；将所述异常样本的概率分布作为第一置信度，将所述第一置信度下的基模型信息损失确定为所述第一异常阈值，将所述第一置信度下的组合信息损失确定为所述第二异常阈值。该实施方式例如：对参与模型训练的全量样本计算基模型信息损失及其概率分布，并根据概率分布计算第一置信度

情况下的信息损失作为第一异常阈值

；对参与模型训练的全量样本计算组合信息损失及其概率分布，并根据概率分布计算置信度

情况下的信息损失作为第二异常阈值

。

步骤S120利用自编码器基模型对待检测样本进行异常识别，计算基模型信息损失

；若待识别样本的基模型信息损失

，判定未发现明显异常，对当前用户的操作允许通过；若

，则将待识别样本输入自编码器次模型，获取待识别样本的次模型信息损失，然后进入步骤S130计算待识别样本的组合信息损失，在计算待识别样本的组合信息损失

后通过步骤S140进行进一步识别判定。在步骤S140中，若

，则对基模型检测结果进行修正，认为综合无异常，对用户当前操作允许通过；若

，则判定待识别样本存在异常。

需要指出，上述第一置信度

是按照上述训练样本中C类用户，即异常用户的占比来确定的，具体的设置可以根据实际情况实际选取。

下面详细介绍步骤S130：需要指出，上述步骤B3-4中的组合信息计算公式所示出的仅是针对训练样本的组合信息损失计算方法，而待识别样本的组合信息损失计算方法与上述训练样本的组合信息损失计算方法类似，由于待识别样本不存在参不参与自编码器次模型训练的问题，若待识别样本被识别为可能异常样本，那待识别样本则需要送入自编码器次模型，对待识别样本的组合信息损失进行计算时是采用待识别样本的基模型信息损失与待识别样本的次模型信息损失共同计算，计算方法为：

其中，a为待识别样本的基模型信息损失；b为待识别样本的次模型信息损失；

为权重系数。

需要指出，权重系数

为在上述步骤B3-3中所确定的权重系数

。

下面详细介绍步骤S140：作为上述异常用户识别方法的一种可选实施方式，在完成对自编码器次模型的训练后除第一异常阈值和第二异常阈值外，还可以通过第二置信度确定第三异常阈值和第四异常阈值来判断待识别样本的异常风险程度。该实施方式例如：对参与模型训练的全量样本计算基模型信息损失及其概率分布，并根据概率分布计算第一置信度

情况下的信息损失作为第一异常阈值

；计算第二置信度

情况下的信息损失作为第三异常阈值

。对参与模型训练的全量样本计算组合信息损失及其概率分布，并根据概率分布计算置信度

情况下的信息损失作为第二异常阈值

；计算第二置信度

情况下的信息损失作为第四异常阈值

。

；若

，则判定未发现明显异常，对用户当前操作允许通过；若

，则将所述待识别样本输入自编码器次模型，获取待识别样本的次模型信息损失，然后进入步骤S130计算待识别样本的组合信息损失

。步骤S140基于组合信息损失

进行异常样本识别，若

或

，则判定用户存在中风险异常，对用户当前操作需要进行风险校验或人工侦测；

且

时，认为用户存在高风险异常，对用户当前操作直接进行拒绝处理。

需要指出，在金融、电商等实际生产场景中，第一至第四异常阈值判断可以根据实际生产情况做相应调整，例如金融贷款场景中的一般性异常比例为0.1%，则可对应调整第一异常阈值和第二异常阈值的置信度

以及第三异常阈值和第四异常阈值的置信度

。同时对待检测样本的异常处置方案也可以根据组合模型的识别结果有更多灵活调控方式。

请参见图8，本申请实施例提供一种异常用户识别装置200，包括：

基模型信息损失获取模块210，用于将待识别样本输入自编码器基模型，获取所述待识别样本的基模型信息损失；

可能异常样本判断模块220，用于基于所述基模型信息损失，判断待识别样本是否为可能异常样本；

次模型信息损失获取模块230，用于在所述待识别样本为可能异常样本时，将所述待识别样本输入自编码器次模型，获取所述待识别样本的次模型信息损失；

组合信息损失获取模块240，用于基于所述基模型信息损失和所述次模型信息损失，获取所述待识别样本的组合信息损失；

异常样本识别模块250，用于基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本。

作为上述异常用户识别装置的一种可选实施方式，异常用户识别装置200还包括：

训练样本获取模块，用于获取训练样本；

自编码器基模型训练模块，用于使用训练样本对所述自编码器基模型进行训练；

训练样本的基模型信息损失获取模块，用于将所述训练样本输入训练好的所述自编码器基模型，根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失；

自编码器次模型训练模块，用于采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练，获取输入所述自编码器次模型的训练样本的组合信息损失，直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时，停止迭代，完成对所述自编码器次模型的训练。

作为上述异常用户识别装置的一种可选实施方式，自编码器次模型的数量为一个或多个。

作为上述异常用户识别装置的一种可选实施方式，自编码器次模型训练模块中获取输入所述自编码器次模型的训练样本的组合信息损失，包括：若训练样本仅用于所述自编码器基模型的训练，则该训练样本的组合信息损失为该训练样本的基模型信息损失；若训练样本用于训练所述自编码器基模型和所述自编码器次模型，则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。

第一异常阈值确定模块，用于确定第一异常阈值；

第二异常阈值确定模块，用于确定第二异常阈值。

可能异常样本判断模块220具体为：若所述基模型信息损失大于所述第一异常阈值，则将待识别样本判定为可能异常样本，否则，将所述待识别样本判定为正常样本。

异常样本识别模块250具体为：若所述基模型信息损失小于所述第二异常阈值，则将待识别样本确定为易被识别为异常样本的正常样本，否则，将待识别样本确定为异常样本。

作为上述异常用户识别装置的一种可选实施方式，第一异常阈值确定模块包括：获取所述训练样本的基模型信息损失及所述训练样本中异常样本的概率分布；将所述异常样本的概率分布作为第一置信度，将所述第一置信度下的基模型信息损失确定为所述第一异常阈值。

作为上述异常用户识别装置的一种可选实施方式，第二异常阈值确定模块包括：获取所述训练样本的基模型信息损失、组合信息损失及所述训练样本中异常样本的概率分布，将所述异常样本的概率分布作为第一置信度，将所述第一置信度下的组合信息损失确定为所述第二异常阈值。

原始样本获取单元，用于获取原始样本；

预处理单元，用于对原始样本进行预处理。

预处理单元包括数据编码子单元、统计特征计算子单元、特征稳定性校验子单元以及特征增强子单元中至少一项。

图9为本申请实施例提供的一种电子设备的示意图。参照图9，电子设备300包括：处理器310、存储器320以及通信接口330，这些组件通过通信总线340和/或其他形式的连接机构（未示出）互连并相互通讯。

其中，存储器320包括一个或多个（图中仅示出一个），其可以是，但不限于，随机存取存储器（Random Access Memory，简称RAM），只读存储器（Read Only Memory，简称ROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，简称EEPROM）等。处理器310以及其他可能的组件可对存储器320进行访问，读和/或写其中的数据。

处理器310包括一个或多个（图中仅示出一个），其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器310可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元（Micro Controller Unit，简称MCU）、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

通信接口330包括一个或多个（图中仅示出一个），可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。例如，通信接口330可以是以太网接口；可以是移动通信网络接口，例如3G、4G、5G网络的接口；还是可以是具有数据收发功能的其他类型的接口。

在存储器320中可以存储一个或多个计算机程序指令，处理器310可以读取并运行这些计算机程序指令，以实现本申请实施例提供的异常用户识别方法以及其他期望的功能。

可以理解，图9所示的结构仅为示意，电子设备300还可以包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。例如，电子设备300可以是单台服务器（或其他具有运算处理能力的设备）、多台服务器的组合、大量服务器的集群等，并且，既可以是物理设备也可以是虚拟设备。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的异常意图识别方法。例如，计算机可读存储介质可以实现为图9中电子设备300中的存储器320。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种异常用户识别方法，其特征在于，包括：

将待识别样本输入自编码器基模型，获取所述待识别样本的基模型信息损失；

基于所述基模型信息损失，判断待识别样本是否为可能异常样本，若所述待识别样本为可能异常样本，则将所述待识别样本输入自编码器次模型，获取所述待识别样本的次模型信息损失；

基于所述基模型信息损失和所述次模型信息损失，获取所述待识别样本的组合信息损失；

基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本。

2.根据权利要求1所述的异常用户识别方法，其特征在于，在所述将待识别样本输入自编码器基模型之前，还包括：

获取训练样本；

使用训练样本对所述自编码器基模型进行训练；

将所述训练样本输入训练好的所述自编码器基模型，根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失；

采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练，获取输入所述自编码器次模型的训练样本的组合信息损失，直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时，停止迭代，完成对所述自编码器次模型的训练。

3.根据权利要求2所述的异常用户识别方法，其特征在于，所述自编码器次模型的数量为一个或多个。

4.根据权利要求2所述的异常用户识别方法，其特征在于，所述获取输入所述自编码器次模型的训练样本的组合信息损失，包括：

若训练样本仅用于所述自编码器基模型的训练，则该训练样本的组合信息损失为该训练样本的基模型信息损失；

若训练样本用于训练所述自编码器基模型和所述自编码器次模型，则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。

5.根据权利要求2所述的异常用户识别方法，其特征在于，在所述完成对所述自编码器次模型的训练后，还包括：

确定第一异常阈值和第二异常阈值；

所述基于所述基模型信息损失，判断待识别样本是否为可能异常样本，包括：

若所述基模型信息损失大于所述第一异常阈值，则将待识别样本判定为可能异常样本，否则，将所述待识别样本判定为正常样本；

所述基于所述组合信息损失，判断所述待识别样本是易被识别为异常样本的正常样本，还是异常样本，包括：

若所述基模型信息损失小于所述第二异常阈值，则将待识别样本确定为易被识别为异常样本的正常样本，否则，将待识别样本确定为异常样本。

6.根据权利要求5所述的异常用户识别方法，其特征在于，所述确定第一异常阈值和第二异常阈值，包括：

获取所述训练样本的基模型信息损失、组合信息损失及所述训练样本中异常样本的概率分布；

将所述异常样本的概率分布作为第一置信度，将所述第一置信度下的基模型信息损失确定为所述第一异常阈值，将所述第一置信度下的组合信息损失确定为所述第二异常阈值。

7.根据权利要求1~6中任一项所述的异常用户识别方法，其特征在于，在所述将待识别样本输入自编码器基模型之前还包括：

获取原始样本；

对所述原始样本进行预处理；

所述对所述原始样本进行预处理，包括：

数据编码、统计特征计算、特征稳定性校验以及特征增强中至少一项。

8.一种异常用户识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1~7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行如权利要求1~7中任一项所述的方法。