CN111507470A

CN111507470A - 一种异常账户的识别方法及装置

Info

Publication number: CN111507470A
Application number: CN202010135664.4A
Authority: CN
Inventors: 施兴森; 凌圣洋; 钱蔚
Original assignee: Shanghai Kingstar Fintech Co Ltd
Current assignee: Shanghai Kingstar Fintech Co Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2020-08-07

Abstract

本申请适用于人工智能技术领域，提供了一种异常账户的识别方法及装置，该识别方法包括：获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；根据所述特征参数，从所有所述待测试账户选取预选账户；将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。本申请提供的识别方法在异常账户识别中可以同时兼顾识别精度和识别效率。

Description

一种异常账户的识别方法及装置

技术领域

本申请属于数据处理技术领域，尤其涉及一种异常账户的识别方法及装置。

背景技术

随着时代的发展，很多平台上都注册了庞大数量的账户，越来越多的用户通过这些账户在互联网上进行各种活动。但是存在不法分子利用一些账户进行非法活动，有必要采取有效的方法在庞大数量的账户中识别出这些不法分子用于进行非法活动的异常账户，以净化这些账户所在的平台的环境。

目前这些异常账户只能依靠人工来识别，这种方法费时费力，过于依赖人工的主观性，也不能满足在庞大数量的账户中确定异常账户的实际需求。

发明内容

本申请实施例提供了一种异常账户的识别方法及装置，基于有监督训练得到的模型以及无监督训练得到的模型共同识别异常账户，可以识别出未来可能出现的新类型的异常账户，保证识别精度的同时提高识别效率，解决现有技术识别异常账户的效率低下，成本高的问题。

第一方面，本申请实施例提供了一种异常账户的识别方法，包括：获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；根据所述特征参数，从所有所述待测试账户选取预选账户；将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的；将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的；基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

在第一方面的一种可能的实现方式中，在确定所述预选账户的异常分值之后,基于所述预选账户的所述异常分值的大小，对所述预选账户进行降序排序，得到异常账户优先表,依照所述异常优先表的排序对所述预选账户进行人工核实,基于所述人工核实的结果从所述异常账户优先表中识别出异常账户。

示例性的，上述异常分值指的是该预选账户为异常账户的概率性得分，可以直接依据该异常分值来识别该预选账户是否异常账户，也可以通过人工核实的手段进一步确定该预选账户是否异常账户。

应理解，即使通过人工核实的手段，基于该异常账户优先表的顺序确认各个预选账户是否为异常账户，虽然牺牲了一些识别效率来保证识别精度，但相对于现有技术，也可以减少识别异常账户的工作量，提高在人工核实期间对异常账户的识别命中率。

第二方面，本申请实施例提供了一种装置，包括：待测试账户获取模块，用于获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；预选账户选取模块，用于根据所述特征参数，从所有所述待测试账户选取预选账户；第一异常模块，用于将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的；第二异常模块，用于将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的；异常分值计算模块，用于基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；异常账户识别模块，用于基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的识别方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

相对于现有技术，基于无监督训练得到的第一模型，可以识别出明显异于其他大多数正常账户的异常账户，基于有监督训练得到的第二模型，可以在识别异常账户时，提高识别效率，根据该第一模型以及该第二模型共同识别异常账户，可以提高识别精度，解决现有技术识别异常账户的效率低下，成本高的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的识别方法的实现流程图；

图2是本申请一实施例提供的识别方法的应用场景示意图；

图3是本申请第二实施例提供的识别方法的实现流程图；

图4是本申请第三实施例提供的识别方法的实现流程图；

图5是本申请第四实施例提供的识别方法的实现流程图；

图6是本申请第四实施例提供的第一模型结构示意图；

图7是本申请第五实施例提供的识别方法的实现流程图；

图8是本申请另一实施例提供的第二模型结构示意图

图9是本申请实施例提供的装置的结构示意图；

图10是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于识别到”。类似地，短语“如果确定”或“如果识别到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦识别到[所描述条件或事件]”或“响应于识别到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行本申请提供的异常账户的识别方法的设备。图1示出了本申请第一实施例提供的识别方法的实现流程图，详述如下:

在S101中，获取待测试帐户的账户信息。

在本实施例中，所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数，示例性地，该待测试账户为虚拟银行账号，所述多个预设账户维度包括余额、转账次数、转账总金额以及转账平均金额等账户维度。该账户信息还包括一个唯一标识参数，示例性地，该唯一标识参数根据待测试账户的账户名、用户姓名和证件号等参数之间的一种或几种的结合组成。示例性地，除了该唯一标识参数，该账户信息还包括候选参数，该候选参数包括上述特征参数以及其他参数。

应理解，该特征参数可以是在该候选参数中预设指定的，也可以基于其他方法从该候选参数中选取的(参照下文中第三实施例中的详细描述)，示例性地，计算所述待测试账户的所有所述候选参数的方差，选取基于各个所述候选参数的该方差进行降序排序生成的候选参数列表中前R位的所述候选参数作为该特征参数，所述R为特征个数。

在本实施例中，示例性地，可以从数据库中直接获取待测试账户的账户信息，也可以接收其他终端设备收集到的待测试账户的账户信息。

在S102中，根据所述特征参数，从所有所述待测试账户选取预选账户。

在本实施例中，示例性地，为每个特征参数预设阈值，根据所述预设阈值从所有所述待测试账户中选取预选账户，选取的方式可以为：该预选账户存在一个特征参数大于对应的预设阈值，该预设阈值是根据标记为正常账户的账户信息得到的。示例性地，为所有所述待测试账户预设预选比例，基于所述预选比例以及所有待测试账户的数量确定所述预选个数；分别根据各个所述特征参数的值进行降序排列，得到多个关于各个所述特征参数对应的账户队列；分别选取各个所述账户队列前X个所述待测试账户作为所述预选账户；所述X的值为所述预选个数。

在S103中，将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标。

在本实施例中，所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的。

优选地，以各个特征参数作为属性维度，对所有所述待测试账户进行无监督聚类，将所有所述待测试账户的特征参数进行聚类分析，得到关于该特征参数聚类结果。基于该聚类结果，可以确定各个特征参数对应的多数簇质心和少数簇质心，该多数簇质心指的是以该特征参数作为属性维度进行无监督聚类分析(在一维空间进行无监督聚类分析)，将所有所述待测试账户分成两类后，较多数待测试账户聚集起来的簇的质量中心(即平均值对应的点)。基于该预选账户的各个特征参数与各个特征参数对应的多数簇质心之间的差值得到该预选账户的各个特征参数对应的异类得分，基于该预选账户的所有特征参数对应的异类得分确定该预选账户的所述第一异常指标。

示例性地，对该预选账户的各个特征参数与各个特征参数对应的多数簇质心的差值进行归一化处理，得到该预选账户的各个特征参数对应的异类得分，对该预选账户的所有特征参数对应的异类得分进行加权平均，得到该预选账户的所述第一异常指标。

应理解，本实施例中的第一异常指标代表的是该预选账户与其他大多数待测试账户在各个特征参数上的不同程度，即该预选账户在所有所述待测试账户中的离群度，将该第一异常指标作为识别该预选账户是否为异常账户的一种指标，是基于大多数待测试账户为非异常账户作为前提的，因此才选用了该多数簇质心作为上述异类得分的计算基准点。若该特征参数的值越大该预选账户越有可能为异常账户，则可以选用以该特征参数作为属性值进行无监督聚类分成两类后，待测试账户聚集起来的两个簇的质心(即平均值对应的点)中值较小的质心作为上述异类得分的计算基准点。

在本实施例的另一实现方式中，示例性地，以各个特征参数作为维度，建立多维空间，将所有所述待测试账户映射到所述多维空间里的对应点上，设置最优超球体，使得该最优超球体的体积与该最优超球体包含的所述对应点的数量的比值，在所有包含所述对应点的超球体中最小。以该最优超球体的球心为计算基准点，计算该预选账户映射到所述多维空间里的对应点与该球心的距离，该距离与该最优超球体的半径的比值作为所述第一异常指标。

在S104中，将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标。

在本实施例中，所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的。所述多个训练账户包括已识别为异常的异常账户以及已识别为非异常的正常账户，所述训练信息包括异常标签，该异常标签用于标记该训练账户是已识别为异常的异常账户还是已识别为非异常的正常账户，示例性地，该异常标签的值为1的训练账户为已识别为异常的异常账户，该异常标签的值为0的训练账户为已识别为非异常的正常账户。也就是说根据包含该异常标签的所述多个训练账户的训练信息，对预设的神经网络进行有监督深度学习算法的训练。示例性地，所述预设的神经网络时前馈全连接神经网络，包括L层隐藏层，所述L为预设的神经网络隐藏层层数，可选的，L的值为1。所述第二异常指标指的是所述预选账户与被异常标签标记为已识别为异常的异常账户的相似度，该第二异常指标的值是浮点数型的。在上述的训练过程中，通过设置损失回归来调整该第二模型的模型参数，来使得该第二模型输出的该第二异常指标的值接近于该预选账户的异常标签的值。

在S105中，基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值。

在本实施例中，为该第一异常指标配置第一权值，为该第二异常指标配置第二权值。根据该第一异常指标的值以及对应的该第一权值，和该第二异常指标的值以及对应的该第二权值，计算得出所述预选账户的异常分值。示例性地，对该第一异常指标的值与对应的该第一权值的乘积以及该第二异常指标的值与对应的该第二权值的乘积进行求和，得出该预选账户的该异常分值。示例性地，对该第一异常指标与该第二异常指标进行加权求和，得出该预选账户的该异常分值。

应理解，上述异常分值指的是该预选账户为异常账户的概率性得分，后续可以直接依据该异常分值来识别该预选账户是否异常账户，也可以通过人工核实的手段进一步确定该预选账户是否异常账户。

在S106中，基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

在本实施例中，根据所述异常分值识别出所述异常账户，示例性地，预设一个异常阈值，将该异常分值大于或等于该异常阈值的所有所述预选账户识别为异常账户。

示例性地，基于所述预选账户的所述异常分值的大小，对所有所述预选账户进行降序排序，得到异常账户优先表；根据所示预选账户的账户个数以及预设的异常比例，确定异常用户个数；从所述异常账户优先表内选取前N个预选账户作为所述异常账户；所述N的值为所述异常用户个数。

示例性地，基于所述预选账户的所述异常分值的大小，对所有所述预选账户进行降序排序，得到异常账户优先表；依照所述异常优先表的排序对所述预选账户进行人工核实,基于所述人工核实的结果从所述异常账户优先表中识别出异常账户。

在本实施例中，基于无监督训练得到的第一模型，可以识别出明显异于其他大多数正常账户的异常账户，基于有监督训练得到的第二模型，可以在识别异常账户时，提高识别效率，根据上述第一模型以及第二模型共同识别异常账户，可以提高识别精度，解决现有技术识别异常账户的效率低下，成本高的问题。

图2示出了本申请一实施例提供的识别方法的应用场景示意图，详述如下:

存在一种异常账户，对服务器发出大量数据请求，即尽可能地同时使用服务器赋予单个普通账户的所有功能，尝试对服务器发起DOS攻击，企图让服务器停止提供正常的服务。从该服务器获取待测试账户的账户信息，基于本申请提供的识别方法对该异常账户进行识别，生成识别结果，以便于后续服务器管理员对识别为异常账户的账户进行处理。而上述异常用户在发起DOS攻击时，上述发起攻击的请求存在相同的行为共性，上述行为共性与正常账户发起请求操作时的行为特征存在差异，因此可以通过第一模型识别出与多数用户行为特征之间的第一异常指标，还可以根据第二模型计算用于表征与已识别出的异常行为之间的相似度的第二异常指标，根据上述两个异常指标来识别出存在异常行为的异常账户。

示例性的，在证券市场存在一种异常账户，这些异常账户用于进行非法配资活动，这些异常账户在进行非法配资活动时，存在在有限的时间内进行大量的交易、一旦出现少量亏损就进行补仓等相同的异常行为共性，上述异常行为共性与正常账户的行为特征存在差异，因此可以通过第一模型识别出与多数用户行为特征之间的第一异常指标，还可以根据第二模型计算用于表征与已识别出的异常行为之间的相似度的第二异常指标，根据上述两个异常指标来识别出存在异常行为的异常账户。具体地，获取待测试账户的账户信息，包括“持仓证券市值峰值”、“交易股票只数”、“交易次数”、“交易总金额”、“持有股票只数”、“周转率”以及“转账频率”等多个预设账户维度的候选参数；示例性地，选取“持仓证券市值峰值”、“交易股票只数”、“交易次数”以及“交易总金额”作为特征参数，根据该特征参数从所有该待测试账户选取预选账户；通过第一模型识别出该预选账户的第一异常指标，根据第二模型计算该预选账户的第二异常指标，根据上述两个异常指标来确定该预选账户的异常分值；若该异常分值大于或等于预设的异常阈值，则识别该预选账户为异常账户；若该异常分值小于该异常阈值，则识别该预选账户为正常账户。

图3示出了本申请第二实施例提供的识别方法的实现流程图。参见图3，相对于图1所述实施例，本实施例提供的识别方法在S103之前还包括S301，具体详述如下:

进一步地，在将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标之前，还包括：

在S301中，获取多个训练账户的训练信息。

在本实施例中，所述训练信息包括异常标签以及候选参数；所述异常标签用于标记所述训练账户是否为异常账户，具体详细描述可参见S104，在这里不再赘述；所述训练信息还包括一个唯一标识参数，示例性地，该唯一标识参数根据训练账户的账户名、用户姓名和证件号等参数之间的一种或几种的结合组成；所述候选参数包括预设的该训练账户可能存在的属性参数，示例性地，该训练账户为虚拟银行账户，该候选参数包括余额、转账次数、转账总金额以及转账平均金额等属性参数。

在本实施例中，获取到包含上述异常标签的多个训练账户的训练信息，以便于后续对预设的神经网络进行有监督训练。

图4示出了本申请第三实施例提供的识别方法的实现流程图。参见图4，相对于图3所述实施例，本实施例提供的识别方法在S102之前还包括S401～S402，具体详述如下:

进一步地，在根据所述特征参数，从所有所述待测试账户选取预选账户之前，还包括：

在S401中，基于所述多个训练账户的训练信息确定该训练账户的各个所述候选参数的权重。

在本实施例中，基于所述多个训练账户的训练信息以及特征权重算法确定该训练账户的各个所述候选参数的权重。优选地，基于所述多个训练账户的训练信息以及Relief算法确定该训练账户的各个候选参数的权重，具体地，基于上述异常标签将多个训练账户分成两类，一类为该异常标签为1的已识别为异常的异常账户，另一类为该异常标签为0的已识别为非异常的正常账户；随机选取一个训练账户，然后选取和该训练账户同类的最近邻同类账户，选取和该训练账户不同类的最近邻异类账户，其中，最近邻同类账户为：与该训练账户同类且基于所有所述候选参数确定的与该训练账户的距离最小的账户，最近邻异类账户为：与该训练账户异类且基于所有所述候选参数确定的与该训练账户的距离最小的账户；若该训练账户和该最近邻同类账户在某个候选特征上的距离小于该训练账户和该最近邻异类账户，则增加该候选特征的权重；若该训练账户和该最近邻同类账户在某个候选特征上的距离大于该训练账户和该最近邻异类账户，则降低该候选特征的权重。

应理解，Relife算法为现有技术中的一种特征权重算法，具体实现过程可参照现有技术中的Relife算法，在这里不再赘述。应理解，现有技术中的特征权重算法均可用于本实施例，示例性地，基于上述异常标签将多个训练账户分成两类，一类为该异常标签为1的已识别为异常的异常账户，另一类为该异常标签为0的已识别为非异常的正常账户；计算各个所述候选参数对应的所有所述训练账户的训练均值、所有所述异常账户的异常均值以及所有所述正常账户的正常均值；计算各个所述候选参数对应的训练均值、异常均值以及正常均值所组成的数据组的方差，选取基于各个所述候选参数的该方差进行降序排序生成的候选参数列表中前R位的所述候选参数作为该特征参数，所述R为特征个数。

在S402中，选取基于所述权重降序排序得到的权重序列中前R个的所述候选参数作为所述特征参数，所述R为预设的特征个数。

在本实施例中，基于各个候选参数的该权重降序排序得到的权重序列，选取该权重列表的前R个对应的候选参数作为上述特征参数，则该特征参数的权重大于或等于任一除该特征参数以外的所有上述候选参数。

应理解，本实施例选取的训练账户的特征参数与S102中待测试账户的特征参数属于相同参数类型；S102中的特征参数除了本实施例确定以外，还可以是预设的。

在本实施例中，选取的特征参数指的是对各个所述训练账户的该异常标签具有一定影响度的属性参数，该特征参数可用于S102中选取预选账户，来对待测试账户进行一次预处理，减少数据处理量，提高识别效率。

图5示出了本申请第四实施例提供的识别方法的实现流程图。参见图5，相对于图4所述实施例，本实施例提供的识别方法在S103之前还包括S501～S502，具体详述如下:

在S501中，根据所有所述待测试账户的所述特征参数以及无监督聚类算法，分别对各个所述特征参数进行两分类，确定各个所述特征参数对应的多数簇质心。

在本实施例中，优选地，根据所有所述待测试账户的所述特征参数以及K-means聚类算法，分别对各个所述特征参数进行两分类，确定各个所述特征参数对应的多数簇质心。具体地，分别选取各个特征参数，以该特征参数作为属性值，随机选取两个待测试账户作为两个簇的质心，将所有所述待测试账户根据该特征参数与各个簇的质心的距离分到各个簇中，然后更新各个簇的质心(即该簇的所有待测试账户的该特征参数的平均)，比较各个簇的质心更新前后是否不同，若各个簇的质心更新前后不同，则返回执行上述将所有所述待测试账户根据该特征参数与各个簇的质心的距离分到各个簇中的步骤；若各个簇的质心更新前后相同，则比较各个簇包含的待测试账户的数量，确定该特征参数对应的多数簇质心，进而确定各个特征参数对应的多数簇质心。具体实现步骤可参照S105，在此不再赘述。

在S502中，基于各个所述特征参数的权重以及各个所述特征参数对应的多数簇质心，生成第一模型。

在本实施例中，将在S401确定的各个上述特征参数的权重，以及各个上述特征参数对应的多数簇质心，作为模型参数，生成该第一模型。参见图6，图6示出了本实施例中该第一模型结构示意图，该第一模型将所述预选账户的各个上述特征参数作为输入，所述第一异常指标作为输出。具体地，基于所述预选账户的各个所述特征参数与所述特征参数对应的所述多数簇质心之间的差，以及所述特征参数的权重，计算所述预选账户的各个所述特征参数对应的异类得分；基于所述预选账户的各个所述特征参数对应的异类得分，计算所述预选账户关于所有所述特征参数的第一异常指标。

参见图6，所述将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标，具体地，计算所述预选账户的各个所述特征参数与所述特征参数对应的所述多数簇质心之间的差，得到各个特征参数的偏离值；将各个特征参数的该偏离值乘以该特征参数对应的权重，计算得到各个特征参数对应的上述异类得分；将各个特征参数对应的异类得分进行求和，计算得到该预选账户的上述第一异常指标。

示例性地，在上述计算所述预选账户的各个所述特征参数与所述特征参数对应的所述多数簇质心之间的差，得到各个特征参数的偏离值时，对该过程进行归一化处理，得到归一化结果，将该归一化结果代替上述偏离值进行后续的步骤，使得该归一化结果相较于该偏离值更加正确地反应出各个特征参数与该特征参数对应的该多数簇质心之间的偏离程度，可选地，将各个特征参数对应的偏离值与该特征参数对应的多数簇质心的比值作为该归一化结果。

应理解，K-means聚类算法为现有技术中的一种无监督聚类算法，用于将样本数据分为K类。本实施例中令K的值为2，基于K-means聚类算法仅用于将上述待测试账户在各个上述特征参数上分为多数簇和少数簇，进而确定各个上述特征参数的多数簇质心，以便于生成该第一模型。本实施例中关于K-means聚类算法的具体实现可参照现有技术，在此就不再赘述。

在本实施例中，基于无监督聚类算法来确定该第一模型，以便于后续基于该第一模型确定上述预选账户的第一异常指标，即将该预选账户异于所有预选账户中的多数派的程度进行量化表现出来。因此，基于本实施例的识别方法，可以识别出未来可能出现的异于其他大多数正常账户的异常账户。

图7示出了本申请第五实施例提供的识别方法的实现流程图。参见图7，相对于图3所述实施例，本实施例提供的识别方法S104之前还包括S701～S702，具体详述如下:

进一步地，在将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标之前，还包括：

在S701中，将所述多个训练账户的训练信息进行数据预处理，得到训练矩阵。

在本实施例中，优选地，根据所述多个训练账户的所述候选参数，生成原始矩阵；基于降维算法对原始矩阵进行降维，生成降维矩阵；对所述降维矩阵进行数据标准化，生成所述训练矩阵。

优选地，该原始矩阵中的一行的值代表着一个上述训练账户的所有所述候选参数，该原始矩阵中的一列的值代表着所有训练账户的一个所述候选参数。具体地，将各个上述训练账户的各个上述候选参数进行浮点数值化，即将该候选参数转化成数据类型为浮点数型的数据，然后基于各个上述训练账户的各个上述候选参数对应的所有浮点数型数据，生成该原始矩阵，以便于后续生成第二模型。

应理解，在将该候选参数转化成数据类型为浮点数型的数据之后，对可能出现的空数据基于协同过滤(Collaborative Filtering,CF)算法来进行赋值，若在对可能出现的空数据基于协同过滤算法来进行赋值之后仍存在空数据，则将该空数据对应的该原始矩阵的一行数据进行删除，以便于避免因空数据导致的错误。

优选地，使用PCA降维算法对原始矩阵M进行降维，生成降维矩阵。具体地，对原始矩阵M的每一列进行零均值化得到零均值化矩阵，即将M的每一列的值减去该列的均值；确定M的协方差矩阵C；确定协方差矩阵C的特征值E₁以及特征向量E₂，所述E₁、E₂满足C*E₁＝E₂*E₁且E2！＝C；选取基于该特征值的大小进行降序排序的特征值列表的前k位特征值对应的该特征向量，将该k个特征向量作为列向量组成特征向量矩阵M_k；将M与M_k相乘得到所述降维矩阵，该降维矩阵相较于该原始矩阵，列数减少了。

应理解，该PCA降维算法为现有技术的一种降维算法，在本实施例可选的降维算法还有现有技术中的T-分布邻域嵌入算法。本实施例中降维方法的具体实现可参照现有技术，在此不再赘述。

优选地，对该降维矩阵进行数据归一化，生成上述训练矩阵。具体地，分别选取该降维矩阵的每一列数据进行最大-最小归一化(min-max normalization)，即确定该列的最大值以及该列的最小值，确定该列对应的归一化前区间，以[0,1]为归一化后区间，对该列的值进行最大值-最小值归一化，生成该训练矩阵。具体实现可参照现有技术中的最大-最小归一化，在此不再赘述。

应理解，可选地，在上述数据归一化过程中，可以以(0,1)为归一化后区间进行后续操作，以便于防止由于数据为0时造成的计算错误。

应理解，在上述将所述多个训练账户的训练信息进行数据预处理，得到所述多个训练账户对应的训练矩阵的过程中，可以直接将上述原始矩阵确定为训练矩阵。

在S702中，分别将所述训练矩阵的每一行数据作为输入、与所述每一行数据对应的异常标签作为输出，对预设的神经网络进行训练，生成第二模型。

在本实施例中，将所述训练矩阵的每一行数据导入所述预设的神经网络，输出预测异常指标；基于所述预测异常指标以及所有所述训练账户的所述异常标签，确定网络损失；基于所述网络损失训练所述预设的神经网络，生成第二模型。所述预设的神经网络时前馈全连接神经网络，包括L层隐藏层，所述L为预设的神经网络隐藏层层数。

具体地，将该训练矩阵的每一行数据导入该神经网络中，输出各行数据对应的上述训练账户的该预测异常指标；以该训练账户的该异常标签作为该训练账户的该预测异常指标的真值，确定该神经网络的网络损失，基于该网络损失以及损失回归训练方法，对该神经网络进行训练(即调整该神经网络的网络参数)。本实施例中神经网络的训练方法的具体实现可参照现有技术中的神经网络训练方法，在此不再赘述。

优选地，在上述生成第二模型之后，对该第二模型进行验证。具体地，在上述将所有所述训练矩阵导入所述预设的神经网络，输出预测异常指标之前，将所述训练矩阵进行数据重构，得到训练用矩阵以及验证矩阵(随机选取所述训练矩阵中的A行数据用于组成该训练用矩阵，所述训练矩阵中剩下的B行数据用于组成该验证矩阵，该训练用矩阵的行数A与该验证矩阵的行数B的和为该训练矩阵的行数，优选地，A与B的比值等于3)，将该训练用矩阵代替上述的所述训练矩阵进行后续操作，将该验证矩阵用于对该第二模型进行验证。基于该验证矩阵对该第二模型进行验证，具体地，将所有该验证矩阵的每一行数据导入该神经网络中，输出各行数据对应的验证异常指标，基于各个所述验证异常指标计算该行数据对应的训练账户的验证标签(若该验证异常指标大于或等于预设的临界值，则该训练账户对应的验证标签的值为1；若该验证异常指标小于预设的临界值，则该训练账户对应的验证标签的值为0；优选地，临界值为0.5)，基于该验证标签与该训练账户对应的该异常标签，计算该第二模型的验证值，所述验证值包括该第二模型的准确率(Precision)、召回率(Recall)以及F1值(F1-Score)中的一种或几种，所述准确率、召回率以及F1值是现有技术中神经网络的常用参数，用于标识一个神经网络的输出精度，计算该验证值的具体实现可参照现有技术，在此不再赘述。若该验证值大于或等于预设的验证合格值，则表示该第二模型通过了验证；若该验证值小于该验证合格值，则返回执行上述获取多个训练账户的训练信息。

可选地，上述基于所述训练矩阵对预设的神经网络进行训练时，以每次训练阶段后的神经网络作为临时模型，从而确定Y个所述临时模型，所述Y为训练次数。对所述Y个临时模型进行验证，具体实现参照本实施例的相关步骤，在此不再赘述，得到所述各个所述临时模型对应的临时验证值，选取该临时验证值最大的且该临时验证值大于或等于预设的临时验证合格值的所述临时模型作为上述第二模型。

可选地，在返回执行上述获取多个训练账户的训练信息之后，在将所述训练矩阵导入所述预设的神经网络之前，增加上述预设的神经网络隐藏层层数L。

应理解，在本实施例中，若执行过S701中优选的降维操作，则该第二模型在输入层之前还包括一层预处理层，该预处理层用于将上述原始矩阵的每一行数据转换成上述训练矩阵对应行数据，具体实现可参照本实施例上述的降维以及数据标准化步骤，该预处理层的参数是在本实施例上述的降维以及数据标准化步骤中得到的，则此时该第二模型的输入为该原始矩阵的每一行数据。

在本实施例中，对上述训练信息进行预处理，以便于后续对上述神经网络进行训练，减少训练时长；特别地，基于降维算法对原始矩阵进行降维，提高了该第二模型的输出效率；对该第二模型进行验证，以提高后续该第二模型输出的上述第二异常指标的准确度，进而提高异常账户的识别精度。

图8示出了本申请另一实施例提供的第二模型结构示意图，详述如下：

进一步地，在将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标之前，还包括：将该预选账户的所述账户信息中的各个所述候选参数进行浮点数值化，生成该候选参数的浮点值。将该预选账户的各个所述候选参数的浮点值作为输入(示例性地，该预选账户的j个候选参数的浮点值作为输入)，该预选账户的所述第二异常指标作为输出。该第二模型包含一层输入层、一层输出层以及L层隐藏层，该第二模型为前馈全连接神经网络。优选地，该第二模型在该输入层之前还包含一层预处理层，该预处理层用于将该预选账户的各个所述候选参数的浮点值进行降维以及数据标准化，具体地，对各个所述候选参数的浮点值进行降维以及数据标准化后，生成m个降维后的参数，该m个降维后的参数即可代表所有j个所述候选参数，且满足m>j。具体实现详述参见图7的第五实施例，在此不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的识别方法，图9示出了本申请实施例提供的装置的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图9，该识别装置包括：待测试账户获取模块，用于获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；预选账户选取模块，用于根据所述特征参数，从所有所述待测试账户选取预选账户；第一异常模块，用于将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的；第二异常模块，用于将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的；异常分值计算模块，用于基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；异常账户识别模块，用于基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

可选的，该识别装置还包括：训练信息获取模块，用于获取多个训练账户的训练信息，所述训练信息包括异常标签以及候选参数；所述异常标签用于标记所述训练账户是否为异常账户。

可选的，该识别装置还包括：特征权重确定模块，用于基于所述多个训练账户的训练信息确定所述训练账户的各个所述候选参数的权重；特征参数选取模块，用于选取基于所述权重降序排序得到的权重序列中前R个的所述候选参数作为所述特征参数，所述R为预设的特征个数。

可选的，该识别装置还包括：无监督聚类模块，用于根据所有所述待测试账户的所述特征参数以及无监督聚类算法，分别对各个所述特征参数进行两分类，确定各个所述特征参数对应的多数簇质心；第一模型生成模块，用于基于各个所述特征参数的权重以及各个所述特征参数对应的多数簇质心，生成第一模型。

可选的，该第一异常模块包括异类得分模块，用于基于所述预选账户的各个所述特征参数与所述特征参数对应的所述多数簇质心之间的差，以及所述特征参数的权重，计算所述预选账户的各个所述特征参数对应的异类得分；第一异常指标模块，用于基于所述预选账户的各个所述特征参数对应的异类得分，计算所述预选账户关于所有所述特征参数的第一异常指标。

可选的，该识别装置还包括：训练矩阵模块，用于将所述多个训练账户的训练信息进行数据预处理，得到训练矩阵；第二模型生成模块，用于分别将所述训练矩阵的每一行数据作为输入、与所述每一行数据对应的异常标签作为输出，对预设的神经网络进行训练，生成第二模型。

可选的，该训练矩阵生成模块包括：原始矩阵生成模块，用于根据所述多个训练账户的所述候选参数，生成原始矩阵；降维模块，用于基于降维算法对原始矩阵进行降维，生成降维矩阵；数据标准化模块，用于对所述降维矩阵进行数据标准化，生成所述训练矩阵。

可选的，该第二模型生成模块包括：预测异常指标模块，用于将所述训练矩阵的每一行数据导入所述预设的神经网络，输出预测异常指标；网络损失确定模块，用于基于所述预测异常指标以及所有所述训练账户的所述异常标签，确定网络损失；有监督训练模块，用于基于所述网络损失训练所述预设的神经网络，生成第二模型。

可选的，该异常账户识别模块包括：异常账户优先表生成模块，用于基于所述预选账户的所述异常分值的大小，对所有所述预选账户进行降序排序，生成异常账户优先表；异常账户个数确定模块，用于根据所示预选账户的账户个数以及预设的异常比例，确定异常账户个数；异常账户选取模块，用于从所述异常账户优先表内选取前N个预选账户作为所述异常账户；所述N的值为所述异常用户个数。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图10示出了本申请一实施例提供的终端设备的结构示意图。如图10所示，该实施例的终端设备10包括：至少一个处理器100(图10中仅示出一个)处理器、存储器101以及存储在所述存储器101中并可在所述至少一个处理器100上运行的计算机程序102，所述处理器100执行所述计算机程序102时实现上述任意各个基于通信凭证共享服务的共享服务指标的确定方法实施例中的步骤。

所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器100、存储器101。本领域技术人员可以理解，图10仅仅是终端设备10的举例，并不构成对终端设备10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器100可以是中央处理单元(Central Processing Unit，CPU)，该处理器100还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器101在一些实施例中可以是所述终端设备10的内部存储单元，例如终端设备10的硬盘或内存。所述存储器101在另一些实施例中也可以是所述终端设备10的外部存储设备，例如所述终端设备10上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器101还可以既包括所述终端设备10的内部存储单元也包括外部存储设备。所述存储器101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器101还可以用于暂时地存储已经输出或者将要输出的数据。本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种异常账户的识别方法，其特征在于，包括：

获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；

根据所述特征参数，从所有所述待测试账户选取预选账户；

将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的；

将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的；

基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；

基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

2.如权利要求1所述的识别方法，其特征在于，所述将各个所述预选账户的账户信息导入第一模型之前，还包括：

获取多个训练账户的训练信息，所述训练信息包括异常标签以及候选参数；所述异常标签用于标记所述训练账户是否为异常账户。

3.如权利要求2所述的识别方法，其特征在于，所述根据所述特征参数，从所有所述待测试账户选取预选账户之前，还包括：

基于所述多个训练账户的训练信息确定所述训练账户的各个所述候选参数的权重；

选取基于所述权重降序排序得到的权重序列中前R个的所述候选参数作为所述特征参数，所述R为预设的特征个数。

4.如权利要求3所述的识别方法，其特征在于，所述将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标之前，包括：

根据所有所述待测试账户的所述特征参数以及无监督聚类算法，分别对各个所述特征参数进行两分类，确定各个所述特征参数对应的多数簇质心；

基于各个所述特征参数的权重以及各个所述特征参数对应的多数簇质心，生成第一模型。

5.如权利要求4所述的识别方法，其特征在于，所述将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标，包括：

基于所述预选账户的各个所述特征参数与所述特征参数对应的所述多数簇质心之间的差，以及所述特征参数的权重，计算所述预选账户的各个所述特征参数对应的异类得分；

基于所述预选账户的各个所述特征参数对应的异类得分，计算所述预选账户关于所有所述特征参数的第一异常指标。

6.如权利要求2所述的识别方法，其特征在于，所述将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标之前，包括：

将所述多个训练账户的训练信息进行数据预处理，得到训练矩阵；

分别将所述训练矩阵的每一行数据作为输入、与所述每一行数据对应的异常标签作为输出，对预设的神经网络进行训练，生成第二模型。

7.如权利要求6所述的识别方法，其特征在于，所述将所述多个训练账户的训练信息进行数据预处理，得到所述训练矩阵，包括：

根据所述多个训练账户的所述候选参数，生成原始矩阵；

基于降维算法对原始矩阵进行降维，生成降维矩阵；

对所述降维矩阵进行数据标准化处理，生成所述训练矩阵。

8.如权利要求6或7所述的识别方法，其特征在于，所述分别将所述训练矩阵的每一行数据作为输入、与所述每一行数据对应的训练异常指标作为输出，对预设的神经网络进行训练，生成第二模型，包括：

将所述训练矩阵的每一行数据导入所述预设的神经网络，输出预测异常指标；

基于所述预测异常指标以及所有所述训练账户的所述异常标签，确定网络损失；

基于所述网络损失训练所述预设的神经网络，生成第二模型。

9.如权利要求1-6任一所述的识别方法，其特征在于，所述基于各个所述预选账户的所述异常分值，确定所述预选账户中的所述异常账户，包括：

基于所述预选账户的所述异常分值的大小，对所有所述预选账户进行降序排序，生成异常账户优先表；

根据所示预选账户的账户个数以及预设的异常比例，确定异常账户个数；

从所述异常账户优先表内选取前N个预选账户作为所述异常账户；所述N的值为所述异常账户个数。

10.一种异常账户的识别装置，其特征在于，包括：

待测试账户获取模块，用于获取待测试帐户的账户信息；所述账户信息包括所述待测试账户的在多个预设账户维度的特征参数；

预选账户选取模块，用于根据所述特征参数，从所有所述待测试账户选取预选账户；

第一异常模块，用于将各个所述预选账户的账户信息导入第一模型，输出所述预选账户关于所有所述特征参数的第一异常指标；所述第一模型是通过对所有所述待测试账户的所述特征参数进行无监督深度学习得到的；

第二异常模块，用于将各个所述预选账户的账户信息导入第二模型，输出所述预选账户的第二异常指标；所述第二模型是通过多个训练账户的训练信息对预设的神经网络训练得到的；

异常分值计算模块，用于基于所述第一异常指标以及第二异常指标，确定所述预选账户的异常分值；

异常账户识别模块，用于基于各个所述预选账户的所述异常分值，从所有所述预选账户识别出异常账户。

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。