CN114970775B

CN114970775B - 基于聚类的军工集团人员信息标签化方法

Info

Publication number: CN114970775B
Application number: CN202210902451.9A
Authority: CN
Inventors: 严真旭; 田林涛; 张春宇; 陆平; 张峰; 张斌; 廖大中; 赵亿锌
Original assignee: National Defense Science And Technology Industry Bureau Military Project Review Center; China Academy of Information and Communications Technology CAICT
Current assignee: National Defense Science And Technology Industry Bureau Military Project Review Center; China Academy of Information and Communications Technology CAICT
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2023-04-18
Anticipated expiration: 2042-07-29
Also published as: CN114970775A

Abstract

本申请涉及信息处理及分析技术领域，其具体地公开了一种基于聚类的军工集团人员信息标签化方法，其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态‑行为关联特征矩阵，然后，考虑到在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性，因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态‑行为关联特征矩阵，最后，对所有成员的校正后静态‑行为关联特征矩阵进行聚类分析以得到多个聚类，并为多个聚类中各个聚类指定类标签，通过这样的方式，以提高军工集团人员信息标签化的准确度。

Description

基于聚类的军工集团人员信息标签化方法

技术领域

本申请涉及信息处理及分析技术领域，且更为具体地，涉及一种基于聚类的军工集团人员信息标签化方法。

背景技术

在军工集团人员遴选、职务调度中，往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面，但是这些信息不能全部涵盖员工日常工作的价值和奉献度。而通过对企业人力资源、门户、业务系统中的人员静态和行为数据信息标签化，可以精准且全面的对一个员工进行评估、考核，同时人员信息标签化还可以应用于精准营销、数据应用和用户分析等。在对员工信息标签化时，需要获取门户、业务系统中人员的行为信息，以及人力资源的基本静态信息，怎么有效的对静态和行为数据作标签是聚类算法解决的主要问题。

常用聚类对军工企业人员信息标签化时，虽然可以实现人员信息的聚类，但是都存在一定的不足。

因此，期待一种优化的基于聚类的军工集团人员信息标签化方案。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

深度学习以及神经网络的发展为优化的基于聚类的军工集团人员信息标签化提供了新的解决思路和方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于聚类的军工集团人员信息标签化，其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵，然后，考虑到在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性，因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵，最后，对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，并为多个聚类中各个聚类指定类标签，通过这样的方式，以提高军工集团人员信息标签化的准确度。

根据本申请的一个方面，提供了一种基于聚类的军工集团人员信息标签化方法，其包括：从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及为所述多个聚类中各个聚类指定类标签。

在上述基于聚类的军工集团人员信息标签化方法中，所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量，包括：使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列；使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量；以及将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。

在上述基于聚类的军工集团人员信息标签化方法中，所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量，包括：使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列；使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量；以及将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。

在上述基于聚类的军工集团人员信息标签化方法中，所述针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，包括：对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，其中，所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。

在上述基于聚类的军工集团人员信息标签化方法中，所述对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，包括：以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量：其中，所述公式为：

其中

是所述关联特征矩阵转换到概率空间的每个位置的特征值，

表示向量的按位置相减，

表示向量的对数运算，所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值，

是第一特征向量，

是第二特征向量。

在上述基于聚类的军工集团人员信息标签化方法中，所述基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵，包括：以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵；其中，所述公式为：

其中，

是所述校正后静态-行为关联特征矩阵，

是所述第一特征向量，

是所述第二特征向量。

在上述基于聚类的军工集团人员信息标签化方法中，所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，包括：使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。

根据本申请的另一方面，提供了一种基于聚类的军工集团人员信息标签化系统，其包括：数据获取单元，用于从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；静态信息编码单元，用于将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；行为数据编码单元，用于将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；第一关联单元，用于针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；特征分布校正单元，用于针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；第二关联单元，用于基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；聚类分析单元，用于对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及类标签生成单元，用于为所述多个聚类中各个聚类指定类标签。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于聚类的军工集团人员信息标签化方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于聚类的军工集团人员信息标签化方法。

与现有技术相比，本申请提供的一种基于聚类的军工集团人员信息标签化方法，其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵，然后，考虑到在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性，因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵，最后，对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，并为多个聚类中各个聚类指定类标签，通过这样的方式，以提高军工集团人员信息标签化的准确度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的流程图。

图2图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的系统架构的示意图。

图3图示了根据本申请实施例的基于聚类的军工集团人员信息标签化系统的框图示意图。

图4图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，在军工集团人员遴选、职务调度中，往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面，但是这些信息不能全部涵盖员工日常工作的价值和奉献度。

相应地，在本申请的技术方案中，本申请通过对企业人力资源、门户和业务系统中的人员静态信息和行为数据信息进行标签化以从从大数据角度来精准且全面地对军工集团的员工进行评估或考核。这本质上可通过聚类算法来解决，即，对待标签化员工的静态数据和行为数据进行聚类分析以基于所有员工的表征信息在高维特征空间的特征分布来将所有员工分成几个类别，其中，一个类别对应于一个人员标签。特别地，在本申请的技术方案中，在进行聚类分析时，考虑到各个员工的静态信息与各个员工的行为数据之间存在关联，如果能准确提取并充分利用各个员工的静态信息和行为数据之间的关联能提高聚类分析的准确度。

具体地，在本申请的技术方案中，首先从军工集团的人力资源系统、的业务系统和门户系统提取军工集团的所有成员的静态信息和行为数据。为了挖掘各个成员的静态信息和行为数据的深层特征，特别地，在本申请实施例中，采用基于转换器的上下文编码器分别对各个员工的静态信息和行为数据进行基于全文的上下文语义编码以得到对应于各个成员的静态信息的静态信息语义特征向量和对应于各个成员的行为数据的行为数据语义特征向量。

接着，针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。针对所述关联特征矩阵，由于其是计算静态信息语义特征向量和数据语义特征向量之间的向量乘积，其各个位置的特征值对应于向量的按位置乘积，因此在充分表达局部语义关联的同时，对于整体语义关联的表达不佳。这样，在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性。

优选地对关联特征矩阵进行基于语义推理信息显式泛化的修正，具体地，首先将关联特征矩阵进行按行和列的语义推理信息显式泛化，以得到第一特征向量和第二特征向量：

其中

是所述关联特征矩阵转换到概率空间的每个位置的特征值。

该语义推理信息显式泛化通过对特征语义的沿行和列的信息化推理，可以获得特征所对应的高维流形在高维语义空间内的空间复杂度下沿预定方向的信息可塑性，从而提高空间距离计算在语义表达层面上的准确性。并且，在进一步计算第一特征向量和第二特征向量的向量乘积来获得修正的关联特征矩阵的情况下，由于将特征值所对应的语义概念进行了自下而上地显式泛化得到预定方向上的组，就进行了基于整体语义的分组实例（grouped instance）表达，从而提升了关联特征矩阵对于整体语义关联的表达。

在获得各个成员的校正后静态-行为关联特征矩阵，可使用聚类算法对所有成员的校正后静态-行为关联特征矩阵进行聚类算法，例如，使用KNN聚类算法，以得到多个聚类。相应地，为所述多个聚类中各个聚类指定类标签以实现对军工集团的各个成员进行标签化的技术目的。

基于此，本申请提供了一种基于聚类的军工集团人员信息标签化方法，其包括：从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及，为所述多个聚类中各个聚类指定类标签。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的流程图。如图1所示，根据本申请实施例的所述基于聚类的军工集团人员信息标签化方法，包括：S110，从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；S120，将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；S130，将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；S140，针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；S150，针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；S160，基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；S170，对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及，S180，为所述多个聚类中各个聚类指定类标签。

图2图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的系统架构的示意图。如图2所示，在本申请实施例的所述基于聚类的军工集团人员信息标签化方法的系统架构中，首先，将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量。同时，将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量。然后，针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。接着，针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量。再然后，基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵。最后，对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，并为所述多个聚类中各个聚类指定类标签。

在步骤S110中，从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据。如上所述，在军工集团人员遴选、职务调度中，往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面，但是这些信息不能全部涵盖员工日常工作的价值和奉献度。

具体的，在本申请的技术方案中，本申请发明人通过对企业人力资源、门户和业务系统中的人员静态信息和行为数据信息进行标签化以从从大数据角度来精准且全面地对军工集团的员工进行评估或考核。这本质上可通过聚类算法来解决，即，对待标签化员工的静态数据和行为数据进行聚类分析以基于所有员工的表征信息在高维特征空间的特征分布来将所有员工分成几个类别，其中，一个类别对应于一个人员标签。特别地，在本申请的技术方案中，在进行聚类分析时，考虑到各个员工的静态信息与各个员工的行为数据之间存在关联，如果能准确提取并充分利用各个员工的静态信息和行为数据之间的关联能提高聚类分析的准确度。

在本申请一个具体的实施例中，从人力资源系统上获取的静态信息包括但不限于年龄、学历、过往的工作经验和掌握的职业技能等，从业务系统和门户系统获取的行为数据包括但不限于工作内容、工作业绩、打卡情况及考核分数等。

在步骤S120中，将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量。应可以理解，为了挖掘各个成员的静态信息的深层特征，也就是各个成员的各个静态信息相对各个成员的静态信息全局的关联特征，特别地，在本申请实施例中，采用基于转换器的上下文编码器分别对各个员工的静态信息进行基于全文的上下文语义编码以得到对应于各个成员的静态信息的静态信息语义特征向量。

在本申请一个具体的实施例中，所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量，包括：使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列；使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量；以及将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。

在本申请一个具体的示例中，所述Bert模型能够基于所述转换器的内在掩码结构对输入序列中各个输入量进行基于输入序列全局的上下文语义编码。也就是，所述基于转换器的Bert模型能够提取出输入序列中各个输入量的基于全局的特征表示。对应到本申请方案中，所述基于转化器的Bert模型能够对所述所有成员的静态信息中各个成员的静态信息进行基于全局的上下文语义编码以得到多个特征向量，其中，所述多个特征向量中一个特征向量对应于一个静态信息。应可以理解，所述多个特征向量中的各个特征向量用于表示各个静态信息基于各个成员的静态信息整体序列的全局上下文深层隐含特征。接着，将所述多个特征向量进行级联以得到对应于各个成员的静态信息的静态信息语义特征向量，也就是，在高维特征空间中，将各个静态信息对应的高维特征表示进行无损融合以得到所述各个成员的静态信息整体序列的高维特征表示。

在步骤S130中，将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量。应可以理解，为了挖掘各个成员的行为数据的深层特征，特在本申请实施例中，采用基于转换器的上下文编码器分别对各个员工的行为数据进行基于全文的上下文语义编码以得到对应于各个成员的行为数据的行为数据语义特征向量。

在本申请一个具体的实施例中，所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量，包括：使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列；使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量；以及将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。

在步骤S140中，针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。应可以理解，考虑到各个员工的静态信息与各个员工的行为数据之间存在关联，也就是，在对各个员工的行为数据的进行评价时，需要结合各个员工的静态信息，例如，针对同样的工作成果和考核分数，对多个员工进行评价时，应当考虑到各个员工的工作年限和学历，对工作年限和学历较低的员工的评价应当高于工作年限和学历较高的员工，因此，在本申请的技术方案中，通过将各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量进行相乘，从而让所述静态信息在高维空间的特征表示和所述行为数据的高维隐含关联特征表示相互约束和调整，以得到包含有静态信息全局特征信息和行为数据全局特征信息的各个成员的静态-行为关联特征矩阵。

在步骤S150中，针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量。应可以理解，针对所述关联特征矩阵，由于其是计算静态信息语义特征向量和数据语义特征向量之间的向量乘积，其各个位置的特征值对应于向量的按位置乘积，因此在充分表达局部语义关联的同时，对于整体语义关联的表达不佳。这样，在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性。

优选地对关联特征矩阵进行基于语义推理信息显式泛化的修正，具体地，首先将关联特征矩阵进行按行和列的语义推理信息显式泛化，以得到第一特征向量和第二特征向量。

在本申请一个具体的实施例中，所述针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，包括：对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，其中，所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。

在本申请一个具体的实施例中，所述对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，包括：以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；其中，所述公式为：

其中

是所述关联特征矩阵转换到概率空间的每个位置的特征值，

表示向量的按位置相减，

是第一特征向量，

是第二特征向量。

更为具体的，在本申请的一个实施例中，在对关联特征矩阵进行基于语义推理信息显式泛化的修正前，对关联特征矩阵进行概率化的映射以将所述关联特征矩阵映射到概率空间。例如，对关联特征矩阵进行基于最大值的归一化。

在步骤S160中，基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵。

在本申请一个具体的实施例中，所述基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵，包括：

以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵；其中，所述公式为：

其中，

是所述校正后静态-行为关联特征矩阵，

是所述第一特征向量，

是所述第二特征向量。

在步骤S170和步骤S180中，对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，并为所述多个聚类中各个聚类指定类标签。

在本申请一个具体的实施例中，所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，包括：使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。

更为具体的，使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类包括：计算各个成员的校正后静态-行为关联特征矩阵与训练样本中成员的校正后静态-行为关联特征矩阵之间的距离，然后，得到k个最相邻的对应于各个成员的校正后静态-行为关联特征矩阵，再将这k个最相邻的对应于各个成员的校正后静态-行为关联特征矩阵划归为一个聚类，从而将所有成员的校正后静态-行为关联特征矩阵划分为多个聚类。也就是将所有成员划分为多个聚类。

在本申请的一个具体的实施例中，所述类标签包括优秀员工、一般员工、待观察员工和消极员工。

综上，基于本申请实施例的所述基于聚类的军工集团人员信息标签化方法，其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵，然后，考虑到在通过计算空间距离而进行聚类时，可能由于空间距离对语义关系的表达准确性而影响聚类效果，最终影响类标签的分配准确性，因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵，最后，对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，并为多个聚类中各个聚类指定类标签，通过这样的方式，以提高军工集团人员信息标签化的准确度。

示例性系统

图3图示了根据本申请实施例的基于聚类的军工集团人员信息标签化系统的框图示意图。如图3所示，根据本申请实施例的所述基于聚类的军工集团人员信息标签化系统100，包括：数据获取单元110，用于从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；静态信息编码单元120，用于将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；行为数据编码单元130，用于将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；第一关联单元140，用于针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；特征分布校正单元150，用于针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；第二关联单元160，用于基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；聚类分析单元170，用于对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及，类标签生成单元180，用于为所述多个聚类中各个聚类指定类标签。

在本申请一个具体的实施例中，所述静态信息编码单元120，包括：第一嵌入向量单元，用于使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列；第一上下文语义编码单元，用于使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量；以及第一级联单元，用于将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。

在本申请一个具体的实施例中，所述行为数据编码单元130，包括：第二嵌入向量单元，用于使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列；第二上下文语义编码单元，用于使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量；以及第二级联单元，用于将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。

在本申请一个具体的实施例中，所述特征分布校正单元150，进一步用于：对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，其中，所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。

在本申请一个具体的实施例中，所述特征分布校正单元150，进一步用于：以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；其中，所述公式为：

其中

是所述关联特征矩阵转换到概率空间的每个位置的特征值，

表示向量的按位置相减，

是第一特征向量，

是第二特征向量。

在本申请一个具体的实施例中，所述第二关联单元160，进一步用于：以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵；其中，所述公式为：

其中，

是所述校正后静态-行为关联特征矩阵，

是所述第一特征向量，

是所述第二特征向量。

在本申请一个具体的实施例中，所述聚类分析单元170，进一步用于：使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。

这里，本领域技术人员可以理解，上述基于聚类的军工集团人员信息标签化系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图2的基于聚类的军工集团人员信息标签化方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的所述基于聚类的军工集团人员信息标签化系统100可以实现在各种终端设备中，例如具有基于聚类的军工集团人员信息标签化算法的服务器等。在一个示例中，根据基于聚类的军工集团人员信息标签化系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于聚类的军工集团人员信息标签化系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于聚类的军工集团人员信息标签化系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于聚类的军工集团人员信息标签化系统100与该终端设备也可以是分立的设备，并且基于聚类的军工集团人员信息标签化系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图4来描述根据本申请实施例的电子设备。

图4图示了根据本申请实施例的电子设备的框图。

如图4所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于聚类的军工集团人员信息标签化以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述军工集团的业务系统和门户系统获取的所有成员的静态信息以及从所述军工集团的业务系统和门户系统的获取所述所有成员的行为数据等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括各个成员的类标签等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于聚类的军工集团人员信息标签化方法的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于聚类的军工集团人员信息标签化方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于聚类的军工集团人员信息标签化方法，其特征在于，包括：

从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据；

将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量；

将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量；

针对所述所有成员中的各个成员，计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵；

针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量；

基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵；

对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类；以及

为所述多个聚类中各个聚类指定类标签；

其中，针对所述各个成员的静态-行为关联特征矩阵，对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量，包括：

以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量：

其中m_i,j是所述关联特征矩阵转换到概率空间的每个位置的特征值，θ表示向量的按位置相减，log(·)表示向量的对数运算，所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值，V₁是第一特征向量，V₂是第二特征向量；

其中，基于所述第一特征向量和所述第二特征向量，生成对应于各个成员的校正后静态-行为关联特征矩阵，包括：

以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵；

其中，M是所述校正后静态-行为关联特征矩阵，V₁是所述第一特征向量，V₂是所述第二特征向量。

2.根据权利要求1所述的基于聚类的军工集团人员信息标签化方法，其特征在于，所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量，包括：

使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列；

使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量；以及

将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。

3.根据权利要求2所述的基于聚类的军工集团人员信息标签化方法，其特征在于，所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量，包括：

使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列；

使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量；以及

将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。

4.根据权利要求3所述的基于聚类的军工集团人员信息标签化方法，其特征在于，所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类，包括：

使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。