CN115965058A

CN115965058A - 神经网络训练方法、实体信息分类方法、装置及存储介质

Info

Publication number: CN115965058A
Application number: CN202211697428.7A
Authority: CN
Inventors: 王愚; 侯兴翠; 王化楠
Original assignee: Lianlian Hangzhou Information Technology Co ltd
Current assignee: Lianlian Hangzhou Information Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-14
Anticipated expiration: 2042-12-28
Also published as: CN115965058B

Abstract

本公开涉及神经网络训练方法、实体信息分类方法、装置及存储介质。上述神经网络训练方法包括获取实体数据集；基于实体数据集构建目标网络图，目标网络图包括属性信息对应的属性节点和不同属性信息间关联的边，边对应的边信息满足预设关联强度条件；基于目标网络图和实体数据集对属性节点进行统计特征提取，得到属性节点的初始特征信息；生成目标网络图对应的网络图特征；以初始特征信息和网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型。本公开可以合理压缩大规模的图数据，精简初始神经网络的输入数据，训练出准确识别属性节点目标特征的神经网络模型。

Description

神经网络训练方法、实体信息分类方法、装置及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及神经网络训练方法、实体信息分类方法、装置、电子设备及存储介质

背景技术

随着互联网技术发展，各实体对象之间交互操作产生的操作信息日趋庞大且复杂，操作信息相关群组或数据之间存在错综复杂的关联关系，而利用关联关系进行有效分析，有利于网络安全防控和异常识别，是必不可缺的风控技术手段。

然而，现有技术中，针对操作信息间隐藏的关联关系并不能高效且准确的识别，导致实体对象之间操作风险无法规避。例如，由于外卡收单业务操作模式的特殊性导致其相应的欺诈风险较高，而通过统计特征的机器学习模型进行线上操作风险的识别，识别效率较低，无法规避虚假资料的干扰，对于伪造正常用户信息的群组欺诈识别能力较差，无法准确识别出隐藏风险。

发明内容

为了解决上述提出的至少一个技术问题，本公开提出了神经网络训练方法、实体信息分类方法、装置及存储介质。

根据本公开的一方面，提供了一种神经网络训练方法，其包括：

获取实体数据集，所述实体数据集由至少两个实体信息对应的属性信息构成；

基于所述实体数据集构建目标网络图，所述目标网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；

基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息；

生成所述目标网络图对应的网络图特征；

以所述初始特征信息和所述网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，所述节点特征提取模型用于生成所述属性节点的目标特征。

在一些可能的实施方式中，所述基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息，包括：

基于所述目标网络图进行属性节点的关联特征聚类分析，得到所述属性节点的第一特征信息；

基于所述实体数据集对所述目标网络图中的各属性节点进行特征统计处理，得到所述属性节点的第二特征信息；

将所述第一特征信息和所述第二特征信息进行特征融合，得到所述属性节点的初始特征信息。

在一些可能的实施方式中，所述基于所述实体数据集构建目标网络图，包括：

基于所述实体数据集构建初始网络图，所述初始网络图中的属性节点对应所述属性信息，所述初始网络图中的边表征所述属性信息间的初始关联关系；

构建所述初始网络图对应的第一权重邻接矩阵；

基于所述第一权重邻接矩阵确定所述初始网络图中各条边对应的节点等级信息，所述节点等级信息表征所述边对应的两属性节点间的关联程度；

基于所述节点等级信息更新所述初始网络图，得到关联网络图；

对所述关联网络图进行边关系筛选，得到所述目标网络图。

在一些可能的实施方式中，所述对所述关联网络图进行边关系筛选，得到所述目标网络图，包括：

构建所述关联网络图对应的第二权重邻接矩阵；

基于所述第二权重邻接矩阵确定所述属性节点的矩阵特征；

基于所述矩阵特征，确定所述关联网络图中的边对应的两属性节点之间的特征相似度；

基于所述特征相似度更新所述关联网络图，得到所述目标网络图。

在一些可能的实施方式中，所述基于所述特征相似度更新所述关联网络图，得到所述目标网络图，包括：

若所述特征相似度低于预设相似度，确定所述两属性节点之间的边不满足预设关联强度条件；

从所述关联网络图中删除不满足所述预设关联强度条件的边，并基于所述特征相似度更新所述关联网络图的边信息，得到所述目标网络图。

在一些可能的实施方式中，所述基于所述目标网络图进行属性节点的关联特征聚类分析，得到所述属性节点的第一特征信息，包括：

确定所述目标网络图的属性节点对应的单源最短路径和所述属性节点的节点度；

对所述目标网络图进行社团划分，确定所述目标网络图中的属性节点所属的社团，所述社团用于表征关联度相同的属性节点的集合；

确定所述社团的核心节点，所述核心节点为所述社团中节点度大于预设节点度的属性节点；

基于所述核心节点、所述社团和所述单源最短路径确定所述第一特征信息。

根据本公开的第二方面，提供一种实体信息分类方法，所述方法包括：

获取待测实体数据，待测实体数据包括至少两个待测实体信息对应的属性信息构成；

基于所述待测实体数据构建待测网络图，所述待测网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；

基于所述待测网络图和所述待测实体数据对所述属性节点进行统计特征提取，得到所述属性节点的待测特征信息；

生成所述待测网络图对应的待测图特征；

将所述待测特征信息和所述待测图特征输入节点特征提取模型，得到待测目标特征；

对所述待测目标特征进行分类识别，得到每一待测实体信息对应的风险指标数据。

根据本公开的第三方面，提供神经网络训练装置，所述装置包括：

实体数据集获取模块，用于获取实体数据集，所述实体数据集由至少两个实体信息对应的属性信息构成；

目标网络图构建模块，用于基于所述实体数据集构建目标网络图，所述目标网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；

初始特征信息确定模块，用于基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息；

网络图特征生成模块，用于生成所述目标网络图对应的网络图特征；

节点特征提取模型，用于以所述初始特征信息和所述网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，所述节点特征提取模型用于生成所述属性节点的目标特征。

根据本公开的第四方面，提供一种实体信息分类装置，所述装置包括：

待测数据获取模块，用于获取待测实体数据，待测实体数据包括至少两个待测实体信息对应的属性信息构成；

待测网络图构建模块，用于基于所述待测实体数据构建待测网络图，所述待测网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；

待测特征信息确定模块，用于基于所述待测网络图和所述待测实体数据对所述属性节点进行统计特征提取，得到所述属性节点的待测特征信息；

待测图特征生成模块，用于生成所述待测网络图对应的待测图特征；

待测目标特征确定模块，用于将所述待测特征信息和所述待测图特征输入节点特征提取模型，得到待测目标特征；

风险指标数据确定模块，用于对所述待测目标特征进行分类识别，得到每一待测实体信息对应的风险指标数据。

根据本公开的第五方面，提供了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任意一项所述的神经网络训练方法和实体信息分类方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面中任意一项所述的神经网络训练方法和实体信息分类方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

实施本公开，具有如下有益效果：

获取实体数据集，所述实体数据集由至少两个实体信息对应的属性信息构成；基于所述实体数据集构建目标网络图，所述目标网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；通过保留有效属性节点以及边，对实体数据集对应的初始网络图进行压缩，提升构图的效率及准确性。基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息；生成所述目标网络图对应的网络图特征；根据目标网络图和实体数据集，得到实体信息之间复杂的关联关系特征；以所述初始特征信息和所述网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，所述节点特征提取模型用于生成所述属性节点的目标特征；根据输入的初始特征信息和网络图特征对初始神经网络进行特征提取训练，有效识别实体信息间隐藏的聚集性特征或隐蔽性强的特征，从而高效并准确确定属性节点的目标特征。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1示出根据本公开实施例的应用环境的示意图；

图2示出根据本公开实施例的一种神经网络训练方法的流程示意图；

图3示出根据本公开实施例的初始特征信息确定方法的流程示意图；

图4示出根据本公开实施例的目标网络图确定方法的流程示意图；

图5示出根据本公开实施例的关联网络图更新方法的流程示意图；

图6示出根据本公开实施例的关联网络图中边筛选方法的流程示意图；

图7示出根据本公开实施例的第一特征信息确定方法的流程示意图；

图8示出根据本公开实施例的一种实体信息分类方法的流程示意图；

图9示出根据本公开实施例的一种神经网络训练装置的结构示意图；

图10示出根据本公开实施例的一种实体信息分类装置的结构示意图；

图11示出根据本公开实施例的一种电子设备的框图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以至少包括终端01和服务器02。在实际应用中，终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接，以实现服务器02和终端01间的交互，本申请在此不做限制。

本申请实施例中的服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。具体地，服务器02可以包括实体设备，可以具体包括有网络通信单元、处理器和存储器等等，也可以包括运行于实体设备中的软体，可以具体包括有应用程序等。本申请实施例中，服务器01可以用于为终端01提供网络服务和数据存储服务。

本申请实施例中，终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能电视、智能音箱、智能可穿戴设备、车载终端设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。具体地，终端01可以对实体数据集构造精简网络图，生成各个节点的初始特征信息和网络图特征，对初始神经网络进行特征提取的约束训练，得到节点特征提取模型，并根据节点特征提取模型得到节点的目标特征，基于节点的目标特征确定实体信息的风险指标数据。

图2示出根据本公开实施例的一种神经网络训练方法的流程示意图，如图1所示，上述方法包括：

S101、获取实体数据集，实体数据集由至少两个实体信息对应的属性信息构成；

实体信息是基于至少两个实体对象间的预设交互操作的操作信息生成的；属性信息是预设交互操作过程中涉及的信息；在获取实体数据集时，对属性信息中的关键信息进行分类标注。

在一些实施例中，从跨境收单历史数据中提取至少两个实体信息对应的属性信息，并对实体信息对应的属性信息的关键信息进行分类标注，标注信息包括是否为风险节点。属性信息包括事件识别码I D、卡信息、邮箱信息、姓名、设备信息、网际互连协议地址IP以及账单地址。关键信息包括事件识别码I D、卡信息、邮箱信息以及设备信息。

S102、基于实体数据集构建目标网络图，目标网络图包括属性信息对应的属性节点和不同属性信息间关联的边，边对应的边信息满足预设关联强度条件；

基于实体数据集先构建初始网络图，再基于初始网络图进行边对应的两节点之间的相关度计算，得到节点等级信息，基于节点等级信息更新初始网络图，得到关联网络图；再计算关联网络图中边对应的两节点之间的特征相似度，基于特征相似度对初始网络图的边进行筛选，得到目标网络图。目标网络图用于表征删除基于实体数据集构建的初始网络图中特征相似度小于预设相似度的两属性节点对应的边后的网络图。

在一些实施例中，将实体数据集中属性信息作为属性节点，构建基础网络图，对基础网络图进行多层级数据分析，确定属性节点之间共用强边关系和所属的弱边关系，基于属性节点之间共用强边关系和所属的弱边关系，确定属性节点之间边的权重信息，以构建初始网络图。示例性的，初始网络图可以为有权无向异构图。基于初始网络图游走计算边对应的两节点之间的相关度作为节点等级信息，基于节点等级信息更新初始网络图的权重信息，得到关联网络图，基于关联网络图计算边对应的两节点之间的特征相似度，基于特征相似度更新关联网络图得到目标网络图。

S103、基于目标网络图和实体数据集对属性节点进行统计特征提取，得到属性节点的初始特征信息；

对目标网络图进行关联特征聚类分析得到第一特征信息，基于实体数据集生成属性节点的第二特征信息，将第一特征信息和第二特征信息进行特征融合，得到初始特征信息。

在一些实施例中，初始网络特征信息包括属性节点的社团信息、是否为核心节点信息，以及一度关联的卡数量、一度关联的邮箱数量、一度关联的设备数量，二度关联的卡数量、二度关联的邮箱数量、二度关联的设备数量等。

S104、生成目标网络图对应的网络图特征；

网络图特征用于表征目标网络图中属性节点之间的相邻关系。

示例性的，网络图特征可以为邻接矩阵；构建目标网络图对应的邻接矩阵即网络图特征。

S105、以初始特征信息和网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，节点特征提取模型用于生成属性节点的目标特征。

将初始特征信息和网络图特征作为输入，在初始神经网络中进行无监督学习，重建节点特征和节点关系，得到重构图，通过初始特征信息、网络图特征、重建节点特征和节点关系构建重构误差，从而优化初始神经网络，直至重构误差最小，得到节点特征提取模型。

在一些实施例中，初始特征信息的表示形式可以为特征矩阵，网络图特征可以为目标网络图的邻接矩阵。初始神经网络可以为包括引入注意力机制的两层编码器和引入注意力机制的两层解码器，得到图形注意力自动编码器(GATE)。在每层编码器中，基于初始特征信息计算注意力系数，基于邻接矩阵和注意力系数得到新的邻接矩阵，基于初始特征信息和新的邻接矩阵得到新的特征信息，在解码器中，对新的特征信息进行相应的解码过程，得到重构图，将重构图与初始特征信息和邻接矩阵对应的初始网络图进行重构误差计算，同时优化编码和解码过程，直至重构误差最小化，得到节点特征提取模型。

在一些实施例中，首先编码器利用两层引入注意力机制的隐藏层，每一隐藏层具体计算为初始化满足均匀分布的权重矩阵w和共享注意力函数a；

计算属性节点和邻居属性节点之间的注意力系数，计算公式如下：

LeakyRelu(a^T(wh_i,wh_j))

其中，h_i为特征矩阵中第i个属性节点的特征表示向量，h_j为特征矩阵中第j个属性节点的特征表示向量。

根据计算出的注意力系数，将相邻节点特征加权求和得到新的节点表示，在解码器中，利用新的节点表示重建网络图的边和属性节点得到重构图，解码器操作的逆向操作都与编码器的正向操作对应，通过最小化目标网络图和重构图之间的重构误差同时优化编码和解码的过程，从而得到最终的属性节点的目标特征。自动编码器已成为无监督学习的成功框架。然而，传统的自动编码器不能在结构化数据中利用显式关系。为了利用图结构数据中的关系，现有技术中的几种图自动编码器，忽略了重构图结构或节点属性。本公开利用图形注意力自动编码器(GATE)，对图形结构化数据进行无监督表示学习的神经网络架构。图像注意力自动编码器的体系结构能够通过配备有自关注机制的堆叠编码器/解码器层来重构图结构输入，包括节点属性和图结构。在编码器中，通过将节点属性视为初始节点表示，每层通过关注其邻居节点的表示及特征来生成节点的新表示。在解码器中，反转编码过程以重建节点属性。此外，节点表示即节点特征信息被正则化以重建图结构。不需要预先知道图结构，因此可以应用于归纳学习。图形注意力自动编码器(GATE)在多个节点分类基准数据集上，转换和归纳任务的性能较优。

上述技术方案，通过保留有效属性节点以及边，对实体数据集对应的初始网络图进行压缩，提升构图的效率及准确性，并根据目标网络图和实体数据集，得到实体信息之间复杂的关联关系初始特征信息和网络图特征。以使得通过目标特征指示的属性信息间复杂的关联关系所蕴含的信息，高效准确地识别出隐藏的聚集性风险或者隐蔽性强的风险，保证平台高效审核及降低风险、减少损失。

请参阅图3，在一些实施例中，基于目标网络图和实体数据集对属性节点进行统计特征提取，得到属性节点的初始特征信息，包括：

S1031、基于目标网络图进行属性节点的关联特征聚类分析，得到属性节点的第一特征信息；

S1032、基于实体数据集对目标网络图中的各属性节点进行特征统计处理，得到属性节点的第二特征信息；

S1033、将第一特征信息和第二特征信息进行特征融合，得到属性节点的初始特征信息。

第一特征信息用于表征目标网络图中属性节点的聚集关系特征，第二特征信息用于表征目标网络图中属性节点的统计特征。将第一特征信息和第二特征信息进行特征融合，得到属性节点的初始特征信息。

在一些实施例中，对目标网络图的属性节点进行单源最短路径计算，并且基于模块度对目标网络图进行社团划分，再计算社团的核心节点。通过单源最短路径、社团以及核心节点计算节点的网络特征。示例性的，第一特征信息包括属性节点所在社团内节点的数量、属性节点是否为核心节点等。基于实体数据集中实体信息的属性信息的自身特征对属性节点统计特征，得到第二特征信息，第二特征信息包括卡的操作次数、卡的操作比例、邮箱的操作次数、邮箱的操作比例以及设备的操作次数和设备的操作比例等。

上述技术方案，生成属性节点之间有效的关联关系以及自身特性，全面分析生成属性节点的有效的初始特征信息，有利于高效获取属性节点的目标特征。

请参阅图4，在一些实施例中，基于实体数据集构建目标网络图，包括：

S1021、基于实体数据集构建初始网络图，初始网络图中的属性节点对应属性信息，初始网络图中的边表征属性信息间的初始关联关系；

S1022、构建初始网络图对应的第一权重邻接矩阵；

S1023、基于第一权重邻接矩阵确定初始网络图中各条边对应的节点等级信息，节点等级信息表征边对应的两属性节点间的关联程度；

S1024、基于节点等级信息更新初始网络图，得到关联网络图；

S1025、对关联网络图进行边关系筛选，得到目标网络图。

将实体数据集中每一实体信息的每一属性信息作为初始网络图的属性节点，若实体信息之间的某一属性信息相同，则共用一个属性节点。确定属性节点之间共用强边关系和所属的弱边关系，基于属性节点之间共用强边关系和所属的弱边关系，确定属性节点之间边的权重信息，从而确定初始网络图。基于初始网络图生成第一权重邻接矩阵，分别计算初始网络图中边对应的两属性节点相关度(Personal Rank，PR)作为节点等级信息。将得到节点等级信息对初始网络图的边对应的权重信息进行更新，得到关联网络图。

在一些实施例中，节点等级信息的计算方法如下：

PR＝(E-α×M^T)^-1(1-α)r

其中，E为单位矩阵，α为预设权重系数，取值范围为[0,1]，可选的，α＝0.85，r为n维向量，M为第一权重邻接矩阵。

上述技术方案，根据实体数据集中各实体信息之间属性信息的关系，构建实体数据集对应的初始网络图，合理构建大规模图数据；基于属性节点之间的关联程度对初始网络图进行更新，得到关联网络图，对关联网络图进行边关系筛选，得到精简的目标网络图，提高构图效率，以及识别节点之间有效的关联关系。

请参阅图5，在一些实施例中，对关联网络图进行边关系筛选，得到目标网络图，包括：

S10251、构建关联网络图对应的第二权重邻接矩阵；

S10252、基于第二权重邻接矩阵确定属性节点的矩阵特征；

S10253、基于矩阵特征，确定关联网络图中的边对应的两属性节点之间的特征相似度；

S10254、基于特征相似度更新关联网络图，得到目标网络图。

矩阵特征用于表征属性节点的特征信息。根据关联网络图对应的第二权重邻接矩阵计算属性节点的矩阵特征；利用预设方法计算关联网络图中边对应的两属性节点之间的特征相似度；基于特征相似度更新关联网络图的边及边的权重信息，得到目标网络图。

在一些实施例中，构建关联网络图对应的第二权重邻接矩阵。矩阵特征可以为属性节点的嵌入向量。利用计算高阶相似性(high-order proximity，HOPE)方法计算关联网络图中边对应的两属性节点的嵌入向量即矩阵特征。首先，构造接近度矩阵S,接近度矩阵用于表征两属性节点之间的接近度或者相似度，接近度矩阵S的计算公式如下：

S＝A²

其中，A为目标网络图的第二权重邻接矩阵。

然后，将A²奇异值分解后得到接近度矩阵S的奇异值向量构成的正交矩阵u，vt和奇异值的平方组成的对角矩阵s。然后计算合并

得到属性节点的嵌入向量[us，ut]即矩阵特征。

基于矩阵特征利用余弦相似度衡量两个属性节点的相似度，得到边对应的两属性节点的特征相似度。

基于特征相似度删除关联网络图中特征相似度小于预设相似度的边，并更新关联网络图中边的权重信息。

在一些实施例中，基于第二权重邻接矩阵计算属性节点低维度的嵌入向量，并计算两属性节点的嵌入向量的内积除以两个嵌入向量的模长乘积，得到节点间的相似度。

上述技术方案，通过对关联网络图进行相似度计算，并基于相似度更新关联网络图，得到目标网络图，合理处理大规模图数据。

请参阅图6，在一些实施例中，基于特征相似度更新关联网络图，得到目标网络图，包括：

S102541、若特征相似度低于预设相似度，确定两属性节点之间的边不满足预设关联强度条件；

S102542、从关联网络图中删除不满足预设关联强度条件的边，并基于特征相似度更新关联网络图的边信息，得到目标网络图。

若关联网络图中两属性节点之间的特征相似度小于预设相似度，确定两属性节点之间的边不满足预设关联强度条件，删除关联网络图中特征相似度小于预设相似度的两属性节点对应的边及不满足预设关联强度条件的边，并基于特征相似度作为关联网络图中边对应的权重信息，得到目标网络图。

上述技术方案，基于特征相似度删除不满足预设关联强度条件的边，将网络图缩减，对节点之间的关联关系进行有效表示，提高构图效率，提高计算属性节点的特征信息的准确性。

请参阅图7，在一些实施例中，基于目标网络图进行属性节点的关联特征聚类分析，得到属性节点的第一特征信息，包括：

S10311、确定目标网络图的属性节点对应的单源最短路径和属性节点的节点度；

S10312、对目标网络图进行社团划分，确定目标网络图中的属性节点所属的社团，社团用于表征关联度相同的属性节点的集合；

S10313、确定社团的核心节点，核心节点为社团中节点度大于预设节点度的属性节点；

S10314、基于核心节点、社团和单源最短路径确定第一特征信息。

计算目标网络图中各属性节点的单源最短路径，并对目标网络图进行社团划分，将社团内属性节点进行由大到小进行度排序后，按顺序抽取前第一预设百分比的属性节点作为待选节点，再从待选节点中，按顺序抽取前第二预设百分比的属性节点作为核心节点，核心节点为社团中节点度大于预设节点度的属性节点；核心节点的数量大于或等于预设数量，基于单源最短路径、社团以及核心节点确定第一特征信息。

在一些实施例中，计算目标网络图中各属性节点的单源最短路径，然后统计属性节点中单源最短路径中长度为1和2的节点数量，即及计算出属性节点的1度关联节点数量、2度关联节点数量。利用计算模块度方法对目标网络图进行社团划分，将目标网络图基于划分为关联度不同的社团。计算社团内的核心节点，将社团内的所有属性节点进行度排序，按顺序抽取前第一预设百分比的属性节点作为待选节点，示例性的，第一预设百分比可以为20％，按顺序再抽取待选节点中的第二预设百分比的属性节点作为核心节点，示例性的，第二预设百分比可以为5％。核心节点的数量大于或等于1。基于单源最短路径、社团及核心节点确定第一特征信息，示例性的，第一特征信息可以为属性节点所在社团内节点的数量、属性节点是否为核心节点等。

上述技术方案，计算属性节点的单源最短路径以及社团关系，全面统计属性节点的网络特征，挖掘属性节点之间的群组关联关系，统计属性节点的隐藏关联性。有利于提高实体信息的风险预测的准确率。

在一些实施例中，将获取的目标特征及其对应的标注信息作为输入，对初始神经网络分类器进行分类训练，得到预设神经网络图分类模型。示例性的初始网络分类器包括逻辑回归神经网络分类器。

请参阅图8，根据本公开的第二方面，提供一种实体信息分类方法，方法包括：

S201、获取待测实体数据，待测实体数据包括至少两个待测实体信息对应的属性信息构成；

S202、基于待测实体数据构建待测网络图，待测网络图包括属性信息对应的属性节点和不同属性信息间关联的边，边对应的边信息满足预设关联强度条件；

S203、基于待测网络图和待测实体数据对属性节点进行统计特征提取，得到属性节点的待测特征信息；

S204、生成待测网络图对应的待测图特征；

S205、将待测特征信息和待测图特征输入节点特征提取模型，得到待测目标特征；

S206、对待测目标特征进行分类识别，得到每一待测实体信息对应的风险指标数据。

在一些实施例中，获取待测实体数据，待测实体数据包括至少两个待测实体信息对应的属性信息构成。根据待测实体数据中待测实体信息之间属性信息的关系以及属性节点的共用强边关系和所属弱边关系，构建待测初始网络图，示例性的，待测初始网络图为可以为有权无向异构图。待测初始网络图的权重信息由属性节点的共用强边关系和所属弱边关系初步确定。

确定待测初始网络图对应的第一待测权重邻接矩阵，基于第一待测权重邻接矩阵分别计算从各个属性节点开始游走的关联度，作为节点等级信息，基于节点等级信息更新待测初始网络图，得到待测关联图。

确定待测关联图对应的第二待测权重邻接矩阵，基于第二待测权重邻接矩阵计算属性节点的嵌入向量，并基于边对应的两属性节点的嵌入向量计算两属性节点的特征相似度，基于特征相似度更新待测关联图，得到待测网络图。

将待测网络图的属性节点进行单源最短路径计算，并且基于模块度对待测网络图进行社团划分，确定待测网络图的核心节点。根据属性节点的单源最短路径、社团和核心节点确定属性节点的第一特征信息。根据待测实体数据对属性节点统计特征，得到第二特征信息。将第一特征信息和第二特征信息进行特征融合，得到待测特征信息。

生成待测网络图对应的待测图特征，示例性的，待测图特征为邻接矩阵。

将待测图特征和待测特征信息输入到训练好的节点特征提取模型，得到待测目标特征。

将待测目标特征输入到预设神经网络分类模型进行分类识别，得到每一待测实体信息的风险指标数据。

在一些实施例中，本公开应用于从外卡收单业务操作中识别每一操作的风险性。基于收单操作日志获取每笔操作即待测实体信息对应的属性信息，组成待测实体数据，其中，属性信息包括：事件识别码I D、卡信息、邮箱信息、姓名、设备信息、网际互连协议地址IP以及账单地址。挖掘出待测实体数据中每笔操作对应的属性信息之间的共用强边关系和所属弱边关系，基于属性信息之间的共用强边关系和所属弱边关系构建待测实体数据对应的有权无向异构图作为待测初始网络图。

生成待测初始网络图对应的邻接权重矩阵即第一待测权重邻接矩阵；分别计算待测初始网络图中从各个属性节点开始游走的个性化关联度pr值即节点等级信息，利用节点等级信息更新待测初始网络图的权重信息，得到待测关联图。

生成待测关联图对应的邻接权重矩阵即第二待测权重邻接矩阵，并利用高阶接近都保留嵌入算法HOPE计算待测关联图中属性节点的低维度嵌入向量即矩阵特征，并利用余弦相似度衡量边对应的两属性节点的相似程度即特征相似度；剔除待测关联图中特征相似度低于预设相似度的边，并将特征相似度作为待测关联图中对应边的权重信息，得到待测网络图。

计算待测网络图中各属性节点的单源最短路径；通过计算待测网络图的模块度对待测网络图进行社团划分，将关联度相同的属性节点的聚集成一个社团。对每一社团内的属性节点进行度排序，先确定排序后的属性节点中前20％为待选节点，从待选节点中确定前5％的属性节点为核心节点，因此，核心节点的数量大于或等于1。基于单源最短路径、社团和核心节点确定待测网络图中属性节点的初始网络特征即第一特征信息，示例性的，第一特征信息包括属性节点所在社团内节点的数量、属性节点是否为核心节点等。基于待测实体数据统计各属性节点的统计特征即第二特征信息，示例性的，第二特征信息包括卡的操作次数、卡的操作比例、邮箱的操作次数、邮箱的操作比例以及设备的操作次数和设备的操作比例等。将第一特征信息和第二特征信息进行特征融合，得到属性节点的特征矩阵即初始特征信息。构建待测网络图对应的邻接矩阵即待测图特征。将特征矩阵和邻接矩阵输入节点特征提取模型，得到属性节点的最终表示即目标特征。将目标特征输入预设神经网络分类模型进行分类识别，得到每一操作的风险性。

上述技术方案，通过应用关联图谱技术，合理高效构建及处理大规模图数据的同时提高实体信息的实体信息分类的准确度，从而大大降低风险及减少资金损失，进而解决现有实体信息分类体系遇到的瓶颈，实现全方位和高效的实体信息分类工作。

请参阅图9，根据本公开的第三方面，提供神经网络训练装置，装置包括：

实体数据集获取模块11，用于获取实体数据集，实体数据集由至少两个实体信息对应的属性信息构成；

目标网络图构建模块12，用于基于实体数据集构建目标网络图，目标网络图包括属性信息对应的属性节点和不同属性信息间关联的边，边对应的边信息满足预设关联强度条件；

初始特征信息确定模块13，用于基于目标网络图和实体数据集对属性节点进行统计特征提取，得到属性节点的初始特征信息；

网络图特征生成模块14，用于生成目标网络图对应的网络图特征；

节点特征提取模型15，用于以初始特征信息和网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，节点特征提取模型用于生成属性节点的目标特征。

在一些实施例中，初始特征信息确定模块13，包括：

第一特征信息确定单元131，用于基于目标网络图进行属性节点的关联特征聚类分析，得到属性节点的第一特征信息；

第二特征信息确定单元132，用于基于实体数据集对目标网络图中的各属性节点进行特征统计处理，得到属性节点的第二特征信息；

特征融合单元133，用于将第一特征信息和第二特征信息进行特征融合，得到属性节点的初始特征信息。

在一些实施例中，目标网络图构建模块12，包括：

初始网络图构建单元121，用于基于实体数据集构建初始网络图，初始网络图中的属性节点对应属性信息，初始网络图中的边表征属性信息间的初始关联关系；

第一权重邻接矩阵构建单元122，用于构建初始网络图对应的第一权重邻接矩阵；

节点等级信息确定单元123，用于基于第一权重邻接矩阵确定初始网络图中各条边对应的节点等级信息，节点等级信息表征边对应的两属性节点间的关联程度；

关联网络图确定单元124，用于基于节点等级信息更新初始网络图，得到关联网络图；

边关系筛选单元125，用于对关联网络图进行边关系筛选，得到目标网络图。

在一些实施例中，边关系筛选单元125，包括：

第二权重邻接矩阵构建单元1251，用于构建关联网络图对应的第二权重邻接矩阵；

矩阵特征确定单元1252，用于基于第二权重邻接矩阵确定属性节点的矩阵特征；

特征相似度确定单元1253，用于基于矩阵特征，确定关联网络图中的边对应的两属性节点之间的特征相似度；

关联网络图更新单元1254，用于基于特征相似度更新关联网络图，得到目标网络图。

在一些实施例中，关联网络图更新单元1254，包括：

判断单元12541，用于若特征相似度低于预设相似度，确定两属性节点之间的边不满足预设关联强度条件；

边信息更新单元12542，用于从关联网络图中删除不满足预设关联强度条件的边，并基于特征相似度更新关联网络图的边信息，得到目标网络图。

在一些实施例中，第一特征信息确定单元131，包括：

信息确定单元1311，用于确定目标网络图的属性节点对应的单源最短路径和属性节点的节点度；

社团划分单元1312，用于对目标网络图进行社团划分，确定目标网络图中的属性节点所属的社团，社团用于表征关联度相同的属性节点的集合；

核心节点确定单元1313，用于确定社团的核心节点，核心节点为社团中节点度大于预设节点度的属性节点；

特征信息确定单元1314，基于核心节点、社团和单源最短路径确定第一特征信息。

请参阅图10，根据本公开的第四方面，提供一种实体信息分类装置，装置包括：

待测数据获取模块21，用于获取待测实体数据，待测实体数据包括至少两个待测实体信息对应的属性信息构成；

待测网络图构建模块22，用于基于待测实体数据构建待测网络图，待测网络图包括属性信息对应的属性节点和不同属性信息间关联的边，边对应的边信息满足预设关联强度条件；

待测特征信息确定模块23，用于基于待测网络图和待测实体数据对属性节点进行统计特征提取，得到属性节点的待测特征信息；

待测图特征生成模块24，用于生成待测网络图对应的待测图特征；

待测目标特征确定模块25，用于将待测特征信息和待测图特征输入节点特征提取模型，得到待测目标特征；

风险指标数据确定模块26，用于对待测目标特征进行分类识别，得到每一待测实体信息对应的风险指标数据。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本申请实施例提供了一种神经网络训练和实体信息分类设备，该设备可以为终端或服务器，该神经网络训练和实体信息分类设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的神经网络训练方法和实体信息分类方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图11是本申请实施例提供的一种神经网络训练方法和实体信息分类方法的电子设备的硬件结构框图。如图11所示，该电子设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnits，CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930，一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中，存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器910可以设置为与存储介质920通信，在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口940，和/或，一个或一个以上操作系统921，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中，输入输出接口940包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口940可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备900还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

本申请的实施例还提供了一种计算机可读存储介质，存储介质可设置于电子设备之中以保存用于实现方法实施例中一种神经网络训练方法和实体信息分类方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的神经网络训练方法和实体信息分类方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

由上述本申请提供的神经网络训练方法、装置、设备、终端、服务器、存储介质或计算机程序和实体信息分类方法、装置、设备、终端、服务器、存储介质或计算机程序的实施例可见，本申请获取实体数据集，所述实体数据集由至少两个实体信息对应的属性信息构成；基于所述实体数据集构建目标网络图，所述目标网络图包括所述属性信息对应的属性节点和不同属性信息间关联的边，所述边对应的边信息满足预设关联强度条件；通过保留有效属性节点以及边，对实体数据集对应的初始网络图进行压缩，提升构图的效率及准确性。基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息；生成所述目标网络图对应的网络图特征；根据目标网络图和实体数据集，得到实体信息之间复杂的关联关系特征；以所述初始特征信息和所述网络图特征作为输入，对初始神经网络进行节点特征提取的约束训练，得到节点特征提取模型，所述节点特征提取模型用于生成所述属性节点的目标特征；根据输入的初始特征信息和网络图特征对初始神经网络进行特征提取训练，有效识别实体信息间隐藏的聚集性特征或隐蔽性强的特征，从而精准预测实体信息的风险。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

生成所述目标网络图对应的网络图特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标网络图和所述实体数据集对所述属性节点进行统计特征提取，得到所述属性节点的初始特征信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述实体数据集构建目标网络图，包括：

构建所述初始网络图对应的第一权重邻接矩阵；

对所述关联网络图进行边关系筛选，得到所述目标网络图。

4.根据权利要求3所述的方法，其特征在于，所述对所述关联网络图进行边关系筛选，得到所述目标网络图，包括：

构建所述关联网络图对应的第二权重邻接矩阵；

基于所述第二权重邻接矩阵确定所述属性节点的矩阵特征；

5.根据权利要求4所述的方法，其特征在于，所述基于所述特征相似度更新所述关联网络图，得到所述目标网络图，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标网络图进行属性节点的关联特征聚类分析，得到所述属性节点的第一特征信息，包括：

7.一种实体信息分类方法，其特征在于，所述方法包括：

生成所述待测网络图对应的待测图特征；

8.一种神经网络训练装置，其特征在于，所述装置包括：

9.一种实体信息分类装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项所述的神经网络训练方法和权利要求7所述的实体信息分类方法。