CN112990446B

CN112990446B - 一种异常团体识别方法、装置和智能芯片

Info

Publication number: CN112990446B
Application number: CN202110542808.2A
Authority: CN
Inventors: 王嘉诚; 张少仲
Original assignee: Shenwei Super Computing Beijing Technology Co ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-09-24
Anticipated expiration: 2041-05-19
Also published as: CN112990446A

Abstract

本发明涉及一种异常团体识别方法、装置和智能芯片，该异常团体识别方法包括：从监控的数据情报中抽取待识别的特征信息；将待识别的特征信息输入到目标网络模型中，得到异常团体；从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息；基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系；目标网络模型的训练方法包括：获取初始网络模型；将初始网络模型中的卷积层进行精简，获得精简网络模型；采用预设的训练算法，将训练数据输入精简网络模型进行训练，得到目标网络模型。本发明的方案能够降低智能芯片在进行数据处理和计算过程中的功耗。

Description

一种异常团体识别方法、装置和智能芯片

技术领域

本发明涉及计算机技术领域，尤其涉及异常团体识别方法、装置和智能芯片。

背景技术

随着人工智能技术的不断发展，智能芯片的算力需求呈指数级别的增长，算力大意味着功耗也随之增大。而且，随着神经网络技术的发展，深度学习框架（Caffe）已经广泛的得到应用。

基于Caffe的神经网络模型经过训练，能够对图像、语音和文本等数据进行处理，从而得到需要的识别结果，例如对图像进行识别从而得到图像特征，对语音进行识别从而得到控制指令等。传统的神经网络模型中，需要进行处理的数据量越来越大，因此对于数据处理和计算过程中智能芯片的能效开销大，从而导致智能芯片的功耗也大。

因此，针对以上不足，需要提供一种异常团体识别方法、装置和智能芯片。

发明内容

本发明要解决的技术问题在于在进行数据处理和计算过程中智能芯片的功耗较大，针对现有技术中的缺陷，提供一种异常团体识别方法、装置和智能芯片。

为了解决上述技术问题，本发明提供了一种异常团体识别方法，包括：

从监控的数据情报中抽取待识别的特征信息；其中，所述数据情报包括多个异常团体成员的真实身份信息；

将待识别的特征信息输入到预先构建好的目标网络模型中，得到至少一个异常团体；其中，每一个异常团体均包括至少两个异常团体成员；所述目标网络模型使用的训练数据为从已知的数据情报中抽取到的特征信息及其标注；

从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息；

基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系；其中，所述目标虚拟身份用户是从多个虚拟身份用户中确定出的；

其中，所述目标网络模型是通过如下方式训练后得到的：

获取初始网络模型；其中，所述初始网络模型为神经网络模型；

将所述初始网络模型中的至少一个卷积层进行精简，获得精简网络模型；

采用预设的训练算法，将训练数据输入所述精简网络模型进行训练，得到目标网络模型；

其中，所述预设的训练算法为将运算数据中的部分数据设置为零，得到新的运算数据，并采用新的运算数据进行运算的操作。

在一种可能的实现方式中，所述基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系，包括：

按照预设的第一属性类别对提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息进行信息提取，并生成各虚拟身份用户和各异常团体成员分别对应的第一分类向量集；

针对每一个异常团体成员，均执行如下操作：

对生成的各虚拟身份用户和该异常团体成员分别对应的第一分类向量集进行相似度计算，得到各虚拟身份用户和该异常团体成员针对每一个第一属性类别的相似度值；

对得到的各虚拟身份用户和该异常团体成员针对每一个第一属性类别的相似度值进行加权计算；

判断加权计算得到的相似度值是否大于预设的第一相似度阈值，如果是，则将该虚拟身份用户作为目标虚拟身份用户，并建立该异常团体成员和所述目标虚拟身份用户的关联关系。

在一种可能的实现方式中，在所述建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系之后，进一步包括：

基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系。

在一种可能的实现方式中，所述将所述初始网络模型中的至少一个卷积层进行精简，获得精简网络模型，包括如下方式的至少一种：

减少至少一个卷积层中神经元的数量，并增加卷积层的数量；

将所述卷积层中的大尺寸的卷积核替换为级联的小尺寸卷积核。

在一种可能的实现方式中，采用预设的训练算法，将训练数据输入所述精简网络模型进行训练，得到目标网络模型，包括：

采用预设的第一训练算法，将所述训练数据输入所述精简网络模型进行训练，得到目标网络模型；

其中，所述预设的第一训练算法为在训练过程中的每次迭代运算时，按照每个网络层对应的超参数将神经元数据中的部分数据设置为零，得到新的神经元数据，并按照所述新的神经元数据进行运算的操作。

采用预设的第二训练算法，将所述训练数据输入所述精简网络模型进行训练，得到目标网络模型；

其中，所述预设的第二训练算法为在训练过程中的每次迭代运算时，将获取的运算矩阵和对应的权值数据相乘的结果作为当次运算的权值数据进行运算的操作；所述运算矩阵的获取方式包括：根据预设的运算条件对权值数据进行遍历，将权值数据中满足所述运算条件的数据更新为0，以及将权值数据中不满足所述运算条件的数据更新为1，得到所述运算矩阵；所述运算条件为根据预设的权值阈值和/或预设的权值百分比进行设定的条件。

本发明还提供了一种异常团体识别装置，包括：

抽取模块，用于从监控的数据情报中抽取待识别的特征信息；其中，所述数据情报包括多个异常团体成员的真实身份信息；

识别模块，用于将待识别的特征信息输入到预先构建好的目标网络模型中，得到至少一个异常团体；其中，每一个异常团体均包括至少两个异常团体成员；所述目标网络模型使用的训练数据为从已知的数据情报中抽取到的特征信息及其标注；

提取模块，用于从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息；

第一建立模块，用于基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系；其中，所述目标虚拟身份用户是从多个虚拟身份用户中确定出的；

其中，所述目标网络模型是通过如下方式训练后得到的：

本发明还提供了一种智能芯片，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行如上述所述的方法。

实施本发明的异常团体识别方法、装置和智能芯片，具有以下有益效果：

本发明所提供的技术方案，通过对初始网络模型的卷积层进行精简，可以减少初始网络模型的卷积层的参数，实现了初始网络模型的压缩，使得得到的精简网络模型占用内存更低，所需要和所消耗计算资源更少，对计算资源和内存的要求较低；然后再通过采用预设的训练算法对精简网络模型进行训练，能够大大降低运算数据的数据量和运算量；同时由于数据量的减少，还能够大大降低数据的搬运量以及减少数据的存储空间，因此大大提高了精简网络模型的训练数据处理的效率并且降低了智能芯片的功耗。

而且，通过对从监控的数据情报中抽取的待识别的特征信息进行识别，有利于快速识别出异常团体；然后再通过从不同网络平台的网络身份数据中提取的多个虚拟身份用户的虚拟身份信息和数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系，使得得到的异常团体的异常团体成员的身份信息更加全面，便于发现重要异常团体存在的属性特征、关联关系、网络状态等综合信息。综上，上述技术方案可以提高异常团体的识别分析的效率。

附图说明

图1是本发明一个实施例提供的模型训练方法的流程图；

图2是本发明一个实施例提供的异常团体识别方法的流程图；

图3是本发明一个实施例提供的智能芯片的示意图；

图4是本发明一个实施例提供的模型训练装置的示意图；

图5是本发明一个实施例提供的异常团体识别装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面对模型训练方法进行介绍。

图1示出根据一个实施例的模型训练方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

参见图1，该方法包括：

步骤101：获取初始网络模型。

在步骤101中，初始网络模型为神经网络模型。具体地，智能芯片获取初始网络模型，可选地，可以是智能芯片从数据库中下载预先建立好的神经网络模型，或者是接收其它设备发送的初始网络模型，还可以是将下载的神经网络模型进行初始化或者其他方式的训练之后，所得到的初始网络模型。其中，上述初始网络模型可以包括多个网络层，例如卷积层、归一化层、池化层和全连接层等。

步骤102：将初始网络模型中的至少一个卷积层进行精简，获得精简网络模型。

在步骤102中，精简的基本原则是减少初始网络模型中的至少一个卷积层的参数数量，如此可以达到模型压缩和加速的目的。其中，卷积层的参数包括权重矩阵和偏置向量，权重矩阵和偏置向量可以为一个或多个。

在一些实施方式中，步骤102具体包括如下方式的至少一种：

第一种方式为：减少至少一个卷积层中神经元的数量，并增加卷积层的数量。

由于通常情况下，初始网络模型中的每一个卷积层包括的神经元的数量很大，可以通过减少卷积层中神经元的数量，并增加卷积层的数量来减少网络结构的复杂性，即减小网络宽度，以深度代替宽度。在同等规模的计算复杂度情况下，网络深度相比于宽度更能提升网络的性能。

在一种可能的设计中，可以减少上述初始网络模型的每个卷积层中神经元的数量，并增加卷积层的数量。

第二种方式为：将卷积层中的大尺寸的卷积核替换为级联的小尺寸卷积核。

卷积核的尺寸，指卷积核的大小。卷积核的尺寸越大，计算的复杂度越大。假设一个1*1卷积核的计算复杂度为M（M为常数），一个7*7卷积核的计算复杂度是49M，三个3*3卷积核的计算复杂度是27M。

卷积核通常为矩阵，高级矩阵可以替换为多个低阶矩阵相乘。

例如，一个3*3卷积核可以替换为级联的两个1*3卷积核。

因此，大尺寸的卷积核替换为级联的小尺寸卷积核，使得简化网络在保持了感受野大小不变的情况下，网络参数减少，计算量减少。

步骤103：采用预设的训练算法，将训练数据输入精简网络模型进行训练，得到目标网络模型。

在步骤103中，预设的训练算法为将运算数据中的部分数据设置为零，得到新的运算数据，并采用新的运算数据进行运算的操作。

上述训练数据主要是文本数据。通常，随着神经网络的数据增长，网络的数据冗余度越来越高，在冗余的运算数据中，部分数据对运算结果的影响较小。上述预设的训练算法为将运算数据中的部分数据设置为零，例如将对运算结果的影响较小的数据归零，得到新的运算数据，然后采用新的运算数据进行运算，由此可以大大减少了运算的数据量和计算量。

在一些实施方式中，步骤103具体包括如下步骤：

采用预设的第一训练算法，将训练数据输入精简网络模型进行训练，得到目标网络模型；

其中，预设的第一训练算法为在训练过程中的每次迭代运算时，按照每个网络层对应的超参数将神经元数据中的部分数据设置为零，得到新的神经元数据，并按照新的神经元数据进行运算的操作。

在本实施例中，第一训练算法为在训练过程中的每次迭代运算时，按照预设的运算条件，将神经网络模型中的部分神经元数据更新为零并作为新的神经元数据进行运算的操作。可选地，该运算条件为按照预设的超参数进行设置的运算条件，例如可以是将绝对值大于或等于该超参数的神经元数据保持不变，将绝对值小于该超参数的神经元数据更新为0，从而实现神经元数据的处理。需要说明的是，每个卷积层都可以对应这样一个超参数，每个卷积层的超参数可以相同也可以不同。智能芯片根据每个卷积层对应的超参数对每个卷积层的神经元数据进行处理，从而便于调整输出结果的准确性和运算量等之间的平衡。

在另一些实施方式中，步骤103具体包括如下步骤：

采用预设的第二训练算法，将训练数据输入精简网络模型进行训练，得到目标网络模型；

其中，预设的第二训练算法为在训练过程中的每次迭代运算时，将获取的运算矩阵和对应的权值数据相乘的结果作为当次运算的权值数据进行运算的操作；运算矩阵的获取方式包括：根据预设的运算条件对权值数据进行遍历，将权值数据中满足运算条件的数据更新为0，以及将权值数据中不满足运算条件的数据更新为1，得到运算矩阵；运算条件为根据预设的权值阈值和/或预设的权值百分比进行设定的条件。

在本实施例中，智能芯片在训练过程中，在每一卷积层进行运算时，需要获取该卷积层对应的运算矩阵，该运算矩阵的获取过程具体可以包括：根据预设的运算条件对该卷积层的权值数据进行遍历，将权值数据中满足该运算条件的数据更新为0，以及将权值数据中不满足该运算条件的数据更新为1，得到由0和1组成的运算矩阵。可选地，智能芯片可以将上述绝对值大于或等于权值阈值的权值数据更新为1，将绝对值小于权值阈值的权值数据更新为零；可选地，智能芯片还可以根据预设的权值百分比设置的条件，例如，权值百分比为百分之二十的时候，智能芯片可以将一组包括一百个的权值数据从大到小进行排序，并将排在最后面的二十个权值更新为0，并将其他八十个权值更新为1，从而得到运算矩阵；智能芯片还可以采用权值阈值和权值百分比相结合的方式，例如计算采用权值阈值进行处理的方法所得到的比值，并和预设的权值百分比进行比较，如果采用权值阈值进行处理的方法对应的比值大于预设的权值百分比，则根据权值阈值作为运算条件，如果采用权值阈值进行处理的方法所得到的比值小于预设的权值百分比，则根据权值阈值作为运算条件，采用该方式可以进一步减少了数据量和运算量，因此进一步提高了数据处理的效率和进一步降低了智能芯片的功耗。

可见，在上述图1所示过程中，通过对初始网络模型的卷积层进行精简，可以减少初始网络模型的卷积层的参数，实现了初始网络模型的压缩，使得得到的精简网络模型占用内存更低，所需要和所消耗计算资源更少，对计算资源和内存的要求较低；然后再通过采用预设的训练算法对精简网络模型进行训练，能够大大降低运算数据的数据量和运算量；同时由于数据量的减少，还能够大大降低数据的搬运量以及减少数据的存储空间，因此大大提高了精简网络模型的训练数据处理的效率并且降低了智能芯片的功耗。

下面对异常团体识别方法进行介绍。

目前，国内对于异常团体（例如欺诈团伙或攻击组织）的识别分析尚存在较大缺口，通常采用各种信息采集和主动探测手段，获取网络空间大规模的多源数据资源，但尚未形成对异常团体进行自动属性挖掘、识别判定的系统能力，未能满足情报支撑网络空间作战的长效机制。

为提高对异常团体识别的效率，本发明实施例还提供了一种异常团体识别方法。图2示出根据一个实施例的异常团体识别方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。

参见图2，该方法包括：

步骤201：从监控的数据情报中抽取待识别的特征信息。

在本步骤中，数据情报包括多个异常团体成员的真实身份信息。真实身份信息包括但不限于：姓名、性别、国家地区、教育信息、工作信息、社保信息、家庭成员、住址、消费、邮件、电话、短信等信息。

数据情报可以通过对如下数据类型进行监控获得：公共情报、行业或联盟、黑客组织/社区跟踪、网络数据、恶意代码分析、第三方APT报告，安全防护产品自身流量侧、端点侧、蜜罐等产生的报警和预警信息等。

在一些实施方式中，可以先对监控的数据情报进行结构化处理，以初步筛选得到的结构化文本数据；然后利用TF-IDF算法从筛选得到的结构化文本数据中抽取待识别的特征信息。

步骤202：将待识别的特征信息输入到预先构建好的目标网络模型中，得到至少一个异常团体。

在步骤202中，每一个异常团体均包括至少两个异常团体成员；该目标网络模型是通过上述的模型训练方法训练后得到的，该目标网络模型使用的训练数据为从已知的数据情报中抽取到的特征信息及其标注。通过采用上述的模型训练方法训练得到的目标网络模型来识别待识别的特征信息，可以有效降低智能芯片的功耗。

在获得至少一个异常团体的识别结果后，为使得到的异常团体的异常团体成员的身份信息更加全面，便于发现重要异常团体存在的属性特征、关联关系、网络状态等综合信息，可以考虑对各异常团体中的每一个异常团体成员的身份进行关联分析。其中，身份关联分析可以包括真实身份和虚拟身份的关联分析以及虚拟身份和虚拟身份的关联分析。

步骤203：从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息。

现实社会的真实身份较稳定，网络空间的虚拟身份则带有灵活多变的特点。建立起现实社会与网络空间的身份关联，可以有效地辅助潜在异常团体成员关系挖掘、异常团体识别分析等工作。

在步骤103中，虚拟身份信息包括但不限于：社交账号、论坛账号、电子邮箱等信息。

需要说明的是，在此对步骤103的虚拟身份信息的提取方式不进行具体限定，只要能够实现从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息的提取方式均可，例如结构化文本处理方式。

步骤204：基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系。

在步骤204中，目标虚拟身份用户是从多个虚拟身份用户中确定出的。

需要说明的是，虚拟身份信息可以包括如下三种类型的信息，分别为：节点信息、文本信息和社交信息。

对于节点信息而言，在虚拟社交网络中，节点代表用户。节点信息包括但不限于：用户名、性别、职业、地址、生日、邮箱和学历。对于文本信息而言，在虚拟社交网络中，通过动态文本信息提取出用户的兴趣喜好和情绪状态等，同时记录文本中是否有经常@的对象。对于社交信息而言，在虚拟社交网络中，社交信息包括用户的关注和粉丝等好友信息，还包括用户的评论、@和转发等互动信息。

真实身份信息可以包括如下三种类型的信息，分别为：背景信息、兴趣信息和关系信息。

对于背景信息而言，背景信息包括但不限于：姓名、性别、出生日期、身份证号、家庭地址、电话号、教育和工作经历等；目标人员能力包括但不限于：文化水平、英语水平及计算机操作能力等级。对于兴趣信息而言，兴趣信息包括但不限于：音乐、体育、电影、军事、动漫、明星、美食和宠物。以此分析人物性格与偏好。对于关系信息而言，关系信息包括但不限于：情侣、配偶、父母、子女、兄弟、同学、老师、室友和同事。

在对真实身份和虚拟身份进行关联分析时，具体针对“节点信息-背景信息”、“文本信息-兴趣信息”和“社交信息-关系信息”三种分析角度，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系。

在具体实现时，步骤204具体包括如下步骤：

步骤一、按照预设的第一属性类别对提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息进行信息提取，并生成各虚拟身份用户和各异常团体成员分别对应的第一分类向量集。

步骤二、针对每一个异常团体成员，均执行如下操作：

判断加权计算得到的相似度值是否大于预设的第一相似度阈值，如果是，则将该虚拟身份用户作为目标虚拟身份用户，并建立该异常团体成员和目标虚拟身份用户的关联关系。

在本实施例中，通过建立社交媒体平台中虚拟身份与实体人物之间的对应关系，进而完善异常团体的异常团体成员信息，以利于发现异常团体的属性特征和关联关系等。

在步骤一中，第一属性类别即为“节点信息-背景信息”、“文本信息-兴趣信息”和“社交信息-关系信息”三种属性类别。例如，可以利用节点信息提取规则、文本信息提取规则和社交信息提取规则对虚拟身份信息进行提取，以分别提取出节点信息、文本信息和社交信息。同理，可以利用背景信息提取规则、兴趣信息提取规则和关系信息提取规则对真实身份信息进行提取，以分别提取出背景信息、兴趣信息和关系信息。在此对上述各信息提取规则不进行具体限定，只要能够实现各信息的提取即可。

提取出的信息为结构化信息，可以进一步形成第一分类向量集，从而方便根据形成的第一分类向量集确定各虚拟身份用户和该异常团体成员针对每一个第一属性类别的相似度值。

在步骤二中，通过对得到的各虚拟身份用户和该异常团体成员针对每一个第一属性类别的相似度值进行加权计算可以得到一个虚拟身份用户和该异常团体成员的最终的相似度值，再根据该最终的相似度值可以确定该虚拟身份用户和该异常团体成员能否进行关联。

虽然上述技术方案可以将异常团体中各异常团体成员和目标虚拟身份用户进行关联，但是仍然可能存在一些虚拟身份用户实际上为该异常团体成员的虚拟身份，但是未被上述技术方案进行识别或关联，从而导致异常团体中各异常团体成员的信息并不是很全面。

为了进一步丰富异常团体中各异常团体成员的信息，可以再基于提取到的虚拟身份信息，建立虚拟身份用户之间的关联，即至少两个虚拟身份用户实则对应于一个实体人物。

在一些实施方式中，基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系。

在具体实现该实施方式时，具体可以包括如下步骤：

按照预设的第二属性类别对提取得到的虚拟身份信息进行信息提取，并生成各虚拟身份用户对应的第二分类向量集；

针对任意两个虚拟身份用户，对该两个虚拟身份用户对应的第二分类向量集进行相似度计算，得到该两个虚拟身份用户针对每一个第二属性类别的相似度值；

对得到的该两个虚拟身份用户针对每一个第二属性类别的相似度值进行加权计算；

判断加权计算得到的相似度值是否大于预设的第二相似度阈值，如果是，则建立该两个虚拟身份用户的关联关系。

在该实施方式中，通过计算各虚拟身份用户对应的第二分类向量集的相似度值，然后根据加权计算后的相似度值可以确定两个虚拟身份用户的关联关系。

可以理解的是，一个实体人物（即异常团体成员）可以对应于不同网络平台的虚拟身份用户（例如用户A拥有微博账号a1、微信账号a2和知乎账号a3等多个虚拟身份用户），也可以对应于相同网络平台的虚拟身份用户（例如用户B拥有至少两个微信账号b1、b2的虚拟身份用户）。

可见，在上述图2所示过程中，通过对从监控的数据情报中抽取的待识别的特征信息进行识别，有利于快速识别出异常团体；然后再通过从不同网络平台的网络身份数据中提取的多个虚拟身份用户的虚拟身份信息和数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系，使得得到的异常团体的异常团体成员的身份信息更加全面，便于发现重要异常团体存在的属性特征、关联关系、网络状态等综合信息。综上，上述技术方案可以提高异常团体的识别分析的效率。

如图3和图4所示，本发明实施例提供了一种智能芯片和模型训练装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的智能芯片的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图4所示，本实施例提供的模型训练装置，包括：

获取模块401，用于获取初始网络模型；其中，初始网络模型为神经网络模型；

精简模块402，用于将初始网络模型中的至少一个卷积层进行精简，获得精简网络模型；

训练模块403，用于采用预设的训练算法，将训练数据输入精简网络模型进行训练，得到目标网络模型；

其中，预设的训练算法为将运算数据中的部分数据设置为零，得到新的运算数据，并采用新的运算数据进行运算的操作。

在本发明实施例中，获取模块401可用于执行上述方法实施例中的步骤101，精简模块402可用于执行上述方法实施例中的步骤102，训练模块403可用于执行上述方法实施例中的步骤103。

在本发明的一个实施例中，精简模块402，用于执行如下操作：

或，

将卷积层中的大尺寸的卷积核替换为级联的小尺寸卷积核。

在本发明的一个实施例中，训练模块403，用于执行如下操作：

可以理解的是，本发明实施例示意的结构并不构成对模型训练装置的具体限定。在本发明的另一些实施例中，模型训练装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

进一步地，如图5所示，本发明实施例提供了一种异常团体识别装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，本发明实施例提供的智能芯片可以包括处理器、内存、网络接口、以及非易失性存储器，还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图5所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图5所示，本实施例提供的异常团体识别装置，包括：

抽取模块501，用于从监控的数据情报中抽取待识别的特征信息；其中，数据情报包括多个异常团体成员的真实身份信息；

识别模块502，用于将待识别的特征信息输入到预先构建好的目标网络模型中，得到至少一个异常团体；其中，每一个异常团体均包括至少两个异常团体成员；目标网络模型使用的训练数据为从已知的数据情报中抽取到的特征信息及其标注；

提取模块503，用于从不同网络平台的网络身份数据中提取多个虚拟身份用户的虚拟身份信息；

第一建立模块504，用于基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系；其中，目标虚拟身份用户是从多个虚拟身份用户中确定出的；

其中，所述目标网络模型是通过如下方式训练后得到的：

在本发明实施例中，抽取模块501可用于执行上述方法实施例中的步骤201，识别模块502可用于执行上述方法实施例中的步骤202，提取模块503可用于执行上述方法实施例中的步骤203，第一建立模块504可用于执行上述方法实施例中的步骤204。

在本发明的一个实施例中，第一建立模块504，用于执行如下操作：

针对每一个异常团体成员，均执行如下操作：

在本发明的一个实施例中，进一步包括：第二建立模块；

第二建立模块，用于基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系。

在本发明的一个实施例中，第二建立模块，用于执行如下操作：

可以理解的是，本发明实施例示意的结构并不构成对异常团体装置的具体限定。在本发明的另一些实施例中，异常团体装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

本发明实施例还提供了一种智能芯片，包括：至少一个存储器和至少一个处理器；

至少一个存储器，用于存储机器可读程序；

至少一个处理器，用于调用机器可读程序，执行本发明任一实施例中的模型训练方法或执行本发明任一实施例中的异常团体识别方法。

本发明实施例还提供了一种计算机可读介质，存储用于使一计算机执行如本文的模型训练方法的指令。具体地，可以提供配有存储介质的方法或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该方法或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修复，或者对其中部分技术特征进行等同替换；而这些修复或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种异常团体识别方法，其特征在于，包括：

其中，所述目标网络模型是通过如下方式训练后得到的：

其中，所述预设的训练算法为将运算数据中的部分数据设置为零，得到新的运算数据，并采用新的运算数据进行运算的操作；

所述基于提取得到的虚拟身份信息和监控的数据情报包括的真实身份信息，建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系，包括：

针对每一个异常团体成员，均执行如下操作：

判断加权计算得到的相似度值是否大于预设的第一相似度阈值，如果是，则将该虚拟身份用户作为目标虚拟身份用户，并建立该异常团体成员和所述目标虚拟身份用户的关联关系；

其中，所述第一属性类别包括“节点信息-背景信息”、“文本信息-兴趣信息”和“社交信息-关系信息”，所述虚拟身份信息包括节点信息、文本信息和社交信息，所述真实身份信息包括背景信息、兴趣信息和关系信息；所述节点信息包括用户名、性别、职业、地址、生日、邮箱和学历，所述文本信息包括用户的兴趣喜好、情绪状态和@的对象，所述社交信息包括用户的关注和粉丝的好友信息、以及用户的评论、@和转发的互动信息，所述背景信息包括姓名、性别、出生日期、身份证号、家庭地址、电话号、教育和工作经历，所述兴趣信息包括音乐、体育、电影、军事、动漫、明星、美食和宠物，所述关系信息包括情侣、配偶、父母、子女、兄弟、同学、老师、室友和同事；

在所述建立识别出的异常团体中每一个异常团体成员和目标虚拟身份用户的关联关系之后，进一步包括：

基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系；

所述基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述初始网络模型中的至少一个卷积层进行精简，获得精简网络模型，包括如下方式的至少一种：

3.根据权利要求1或2所述的方法，其特征在于，采用预设的训练算法，将训练数据输入所述精简网络模型进行训练，得到目标网络模型，包括：

4.根据权利要求1或2所述的方法，其特征在于，采用预设的训练算法，将训练数据输入所述精简网络模型进行训练，得到目标网络模型，包括：

5.一种异常团体识别装置，其特征在于，包括：

其中，所述目标网络模型是通过如下方式训练后得到的：

所述第一建立模块，用于执行如下操作：

针对每一个异常团体成员，均执行如下操作：

判断加权计算得到的相似度值是否大于预设的第一相似度阈值，如果是，则将该虚拟身份用户作为目标虚拟身份用户，并建立该异常团体成员和目标虚拟身份用户的关联关系；

进一步包括：第二建立模块；

所述第二建立模块，用于基于提取得到的虚拟身份信息，建立识别出的异常团体中各虚拟身份用户的关联关系；

其中，所述第二建立模块，用于执行如下操作：

6.一种智能芯片，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1-4中任一项所述的方法。