CN114970775B - 基于聚类的军工集团人员信息标签化方法 - Google Patents

基于聚类的军工集团人员信息标签化方法 Download PDF

Info

Publication number
CN114970775B
CN114970775B CN202210902451.9A CN202210902451A CN114970775B CN 114970775 B CN114970775 B CN 114970775B CN 202210902451 A CN202210902451 A CN 202210902451A CN 114970775 B CN114970775 B CN 114970775B
Authority
CN
China
Prior art keywords
static
behavior
feature
feature vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210902451.9A
Other languages
English (en)
Other versions
CN114970775A (zh
Inventor
严真旭
田林涛
张春宇
陆平
张峰
张斌
廖大中
赵亿锌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Science And Technology Industry Bureau Military Project Review Center
China Academy of Information and Communications Technology CAICT
Original Assignee
National Defense Science And Technology Industry Bureau Military Project Review Center
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Science And Technology Industry Bureau Military Project Review Center, China Academy of Information and Communications Technology CAICT filed Critical National Defense Science And Technology Industry Bureau Military Project Review Center
Priority to CN202210902451.9A priority Critical patent/CN114970775B/zh
Publication of CN114970775A publication Critical patent/CN114970775A/zh
Application granted granted Critical
Publication of CN114970775B publication Critical patent/CN114970775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及信息处理及分析技术领域,其具体地公开了一种基于聚类的军工集团人员信息标签化方法,其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态‑行为关联特征矩阵,然后,考虑到在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性,因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态‑行为关联特征矩阵,最后,对所有成员的校正后静态‑行为关联特征矩阵进行聚类分析以得到多个聚类,并为多个聚类中各个聚类指定类标签,通过这样的方式,以提高军工集团人员信息标签化的准确度。

Description

基于聚类的军工集团人员信息标签化方法
技术领域
本申请涉及信息处理及分析技术领域,且更为具体地,涉及一种基于聚类的军工集团人员信息标签化方法。
背景技术
在军工集团人员遴选、职务调度中,往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面,但是这些信息不能全部涵盖员工日常工作的价值和奉献度。而通过对企业人力资源、门户、业务系统中的人员静态和行为数据信息标签化,可以精准且全面的对一个员工进行评估、考核,同时人员信息标签化还可以应用于精准营销、数据应用和用户分析等。在对员工信息标签化时,需要获取门户、业务系统中人员的行为信息,以及人力资源的基本静态信息,怎么有效的对静态和行为数据作标签是聚类算法解决的主要问题。
常用聚类对军工企业人员信息标签化时,虽然可以实现人员信息的聚类,但是都存在一定的不足。
因此,期待一种优化的基于聚类的军工集团人员信息标签化方案。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
深度学习以及神经网络的发展为优化的基于聚类的军工集团人员信息标签化提供了新的解决思路和方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于聚类的军工集团人员信息标签化,其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵,然后,考虑到在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性,因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵,最后,对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,并为多个聚类中各个聚类指定类标签,通过这样的方式,以提高军工集团人员信息标签化的准确度。
根据本申请的一个方面,提供了一种基于聚类的军工集团人员信息标签化方法,其包括:从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及为所述多个聚类中各个聚类指定类标签。
在上述基于聚类的军工集团人员信息标签化方法中,所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量,包括:使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列;使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量;以及将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。
在上述基于聚类的军工集团人员信息标签化方法中,所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量,包括:使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列;使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量;以及将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。
在上述基于聚类的军工集团人员信息标签化方法中,所述针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,包括:对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,其中,所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。
在上述基于聚类的军工集团人员信息标签化方法中,所述对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,包括:以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量:其中,所述公式为:
其中是所述关联特征矩阵转换到概率空间的每个位置的特征值,表示向量的按位置相减,表示向量的对数运算,所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值,是第一特征向量,是第二特征向量。
在上述基于聚类的军工集团人员信息标签化方法中,所述基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵,包括:以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵;其中,所述公式为:
其中,是所述校正后静态-行为关联特征矩阵,是所述第一特征向量,是所述第二特征向量。
在上述基于聚类的军工集团人员信息标签化方法中,所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,包括:使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。
根据本申请的另一方面,提供了一种基于聚类的军工集团人员信息标签化系统,其包括:数据获取单元,用于从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;静态信息编码单元,用于将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;行为数据编码单元,用于将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;第一关联单元,用于针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;特征分布校正单元,用于针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;第二关联单元,用于基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;聚类分析单元,用于对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及类标签生成单元,用于为所述多个聚类中各个聚类指定类标签。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于聚类的军工集团人员信息标签化方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于聚类的军工集团人员信息标签化方法。
与现有技术相比,本申请提供的一种基于聚类的军工集团人员信息标签化方法,其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵,然后,考虑到在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性,因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵,最后,对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,并为多个聚类中各个聚类指定类标签,通过这样的方式,以提高军工集团人员信息标签化的准确度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的流程图。
图2图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的系统架构的示意图。
图3图示了根据本申请实施例的基于聚类的军工集团人员信息标签化系统的框图示意图。
图4图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如上所述,在军工集团人员遴选、职务调度中,往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面,但是这些信息不能全部涵盖员工日常工作的价值和奉献度。
相应地,在本申请的技术方案中,本申请通过对企业人力资源、门户和业务系统中的人员静态信息和行为数据信息进行标签化以从从大数据角度来精准且全面地对军工集团的员工进行评估或考核。这本质上可通过聚类算法来解决,即,对待标签化员工的静态数据和行为数据进行聚类分析以基于所有员工的表征信息在高维特征空间的特征分布来将所有员工分成几个类别,其中,一个类别对应于一个人员标签。特别地,在本申请的技术方案中,在进行聚类分析时,考虑到各个员工的静态信息与各个员工的行为数据之间存在关联,如果能准确提取并充分利用各个员工的静态信息和行为数据之间的关联能提高聚类分析的准确度。
具体地,在本申请的技术方案中,首先从军工集团的人力资源系统、的业务系统和门户系统提取军工集团的所有成员的静态信息和行为数据。为了挖掘各个成员的静态信息和行为数据的深层特征,特别地,在本申请实施例中,采用基于转换器的上下文编码器分别对各个员工的静态信息和行为数据进行基于全文的上下文语义编码以得到对应于各个成员的静态信息的静态信息语义特征向量和对应于各个成员的行为数据的行为数据语义特征向量。
接着,针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。针对所述关联特征矩阵,由于其是计算静态信息语义特征向量和数据语义特征向量之间的向量乘积,其各个位置的特征值对应于向量的按位置乘积,因此在充分表达局部语义关联的同时,对于整体语义关联的表达不佳。这样,在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性。
优选地对关联特征矩阵进行基于语义推理信息显式泛化的修正,具体地,首先将关联特征矩阵进行按行和列的语义推理信息显式泛化,以得到第一特征向量和第二特征向量:
其中 是所述关联特征矩阵转换到概率空间的每个位置的特征值。
该语义推理信息显式泛化通过对特征语义的沿行和列的信息化推理,可以获得特征所对应的高维流形在高维语义空间内的空间复杂度下沿预定方向的信息可塑性,从而提高空间距离计算在语义表达层面上的准确性。并且,在进一步计算第一特征向量和第二特征向量的向量乘积来获得修正的关联特征矩阵的情况下,由于将特征值所对应的语义概念进行了自下而上地显式泛化得到预定方向上的组,就进行了基于整体语义的分组实例(grouped instance)表达,从而提升了关联特征矩阵对于整体语义关联的表达。
在获得各个成员的校正后静态-行为关联特征矩阵,可使用聚类算法对所有成员的校正后静态-行为关联特征矩阵进行聚类算法,例如,使用KNN聚类算法,以得到多个聚类。相应地,为所述多个聚类中各个聚类指定类标签以实现对军工集团的各个成员进行标签化的技术目的。
基于此,本申请提供了一种基于聚类的军工集团人员信息标签化方法,其包括:从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及,为所述多个聚类中各个聚类指定类标签。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的流程图。如图1所示,根据本申请实施例的所述基于聚类的军工集团人员信息标签化方法,包括:S110,从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;S120,将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;S130,将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;S140,针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;S150,针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;S160,基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;S170,对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及,S180,为所述多个聚类中各个聚类指定类标签。
图2图示了根据本申请实施例的基于聚类的军工集团人员信息标签化方法的系统架构的示意图。如图2所示,在本申请实施例的所述基于聚类的军工集团人员信息标签化方法的系统架构中,首先,将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量。同时,将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量。然后,针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。接着,针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量。再然后,基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵。最后,对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,并为所述多个聚类中各个聚类指定类标签。
在步骤S110中,从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据。如上所述,在军工集团人员遴选、职务调度中,往往是借鉴职工的基本信息、年度评价考核以及主客观评价等方面,但是这些信息不能全部涵盖员工日常工作的价值和奉献度。
具体的,在本申请的技术方案中,本申请发明人通过对企业人力资源、门户和业务系统中的人员静态信息和行为数据信息进行标签化以从从大数据角度来精准且全面地对军工集团的员工进行评估或考核。这本质上可通过聚类算法来解决,即,对待标签化员工的静态数据和行为数据进行聚类分析以基于所有员工的表征信息在高维特征空间的特征分布来将所有员工分成几个类别,其中,一个类别对应于一个人员标签。特别地,在本申请的技术方案中,在进行聚类分析时,考虑到各个员工的静态信息与各个员工的行为数据之间存在关联,如果能准确提取并充分利用各个员工的静态信息和行为数据之间的关联能提高聚类分析的准确度。
在本申请一个具体的实施例中,从人力资源系统上获取的静态信息包括但不限于年龄、学历、过往的工作经验和掌握的职业技能等,从业务系统和门户系统获取的行为数据包括但不限于工作内容、工作业绩、打卡情况及考核分数等。
在步骤S120中,将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量。应可以理解,为了挖掘各个成员的静态信息的深层特征,也就是各个成员的各个静态信息相对各个成员的静态信息全局的关联特征,特别地,在本申请实施例中,采用基于转换器的上下文编码器分别对各个员工的静态信息进行基于全文的上下文语义编码以得到对应于各个成员的静态信息的静态信息语义特征向量。
在本申请一个具体的实施例中,所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量,包括:使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列;使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量;以及将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。
在本申请一个具体的示例中,所述Bert模型能够基于所述转换器的内在掩码结构对输入序列中各个输入量进行基于输入序列全局的上下文语义编码。也就是,所述基于转换器的Bert模型能够提取出输入序列中各个输入量的基于全局的特征表示。对应到本申请方案中,所述基于转化器的Bert模型能够对所述所有成员的静态信息中各个成员的静态信息进行基于全局的上下文语义编码以得到多个特征向量,其中,所述多个特征向量中一个特征向量对应于一个静态信息。应可以理解,所述多个特征向量中的各个特征向量用于表示各个静态信息基于各个成员的静态信息整体序列的全局上下文深层隐含特征。接着,将所述多个特征向量进行级联以得到对应于各个成员的静态信息的静态信息语义特征向量,也就是,在高维特征空间中,将各个静态信息对应的高维特征表示进行无损融合以得到所述各个成员的静态信息整体序列的高维特征表示。
在步骤S130中,将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量。应可以理解,为了挖掘各个成员的行为数据的深层特征,特在本申请实施例中,采用基于转换器的上下文编码器分别对各个员工的行为数据进行基于全文的上下文语义编码以得到对应于各个成员的行为数据的行为数据语义特征向量。
在本申请一个具体的实施例中,所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量,包括:使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列;使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量;以及将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。
在步骤S140中,针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵。应可以理解,考虑到各个员工的静态信息与各个员工的行为数据之间存在关联,也就是,在对各个员工的行为数据的进行评价时,需要结合各个员工的静态信息,例如,针对同样的工作成果和考核分数,对多个员工进行评价时,应当考虑到各个员工的工作年限和学历,对工作年限和学历较低的员工的评价应当高于工作年限和学历较高的员工,因此,在本申请的技术方案中,通过将各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量进行相乘,从而让所述静态信息在高维空间的特征表示和所述行为数据的高维隐含关联特征表示相互约束和调整,以得到包含有静态信息全局特征信息和行为数据全局特征信息的各个成员的静态-行为关联特征矩阵。
在步骤S150中,针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量。应可以理解,针对所述关联特征矩阵,由于其是计算静态信息语义特征向量和数据语义特征向量之间的向量乘积,其各个位置的特征值对应于向量的按位置乘积,因此在充分表达局部语义关联的同时,对于整体语义关联的表达不佳。这样,在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性。
优选地对关联特征矩阵进行基于语义推理信息显式泛化的修正,具体地,首先将关联特征矩阵进行按行和列的语义推理信息显式泛化,以得到第一特征向量和第二特征向量。
在本申请一个具体的实施例中,所述针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,包括:对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,其中,所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。
在本申请一个具体的实施例中,所述对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,包括:以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;其中,所述公式为:
其中是所述关联特征矩阵转换到概率空间的每个位置的特征值,表示向量的按位置相减,表示向量的对数运算,所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值,是第一特征向量,是第二特征向量。
该语义推理信息显式泛化通过对特征语义的沿行和列的信息化推理,可以获得特征所对应的高维流形在高维语义空间内的空间复杂度下沿预定方向的信息可塑性,从而提高空间距离计算在语义表达层面上的准确性。并且,在进一步计算第一特征向量和第二特征向量的向量乘积来获得修正的关联特征矩阵的情况下,由于将特征值所对应的语义概念进行了自下而上地显式泛化得到预定方向上的组,就进行了基于整体语义的分组实例(grouped instance)表达,从而提升了关联特征矩阵对于整体语义关联的表达。
更为具体的,在本申请的一个实施例中,在对关联特征矩阵进行基于语义推理信息显式泛化的修正前,对关联特征矩阵进行概率化的映射以将所述关联特征矩阵映射到概率空间。例如,对关联特征矩阵进行基于最大值的归一化。
在步骤S160中,基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵。
在本申请一个具体的实施例中,所述基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵,包括:
以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵;其中,所述公式为:
其中,是所述校正后静态-行为关联特征矩阵,是所述第一特征向量,是所述第二特征向量。
在步骤S170和步骤S180中,对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,并为所述多个聚类中各个聚类指定类标签。
在本申请一个具体的实施例中,所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,包括:使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。
更为具体的,使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类包括:计算各个成员的校正后静态-行为关联特征矩阵与训练样本中成员的校正后静态-行为关联特征矩阵之间的距离,然后,得到k个最相邻的对应于各个成员的校正后静态-行为关联特征矩阵,再将这k个最相邻的对应于各个成员的校正后静态-行为关联特征矩阵划归为一个聚类,从而将所有成员的校正后静态-行为关联特征矩阵划分为多个聚类。也就是将所有成员划分为多个聚类。
在本申请的一个具体的实施例中,所述类标签包括优秀员工、一般员工、待观察员工和消极员工。
综上,基于本申请实施例的所述基于聚类的军工集团人员信息标签化方法,其使用深度神经网络模型对各个成员的静态信息与各个员工的行为数据进行特征提取和关联编码以得到各个成员的静态-行为关联特征矩阵,然后,考虑到在通过计算空间距离而进行聚类时,可能由于空间距离对语义关系的表达准确性而影响聚类效果,最终影响类标签的分配准确性,因此对关联特征矩阵进行基于语义推理信息显式泛化的修正以得到校正后静态-行为关联特征矩阵,最后,对所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,并为多个聚类中各个聚类指定类标签,通过这样的方式,以提高军工集团人员信息标签化的准确度。
示例性系统
图3图示了根据本申请实施例的基于聚类的军工集团人员信息标签化系统的框图示意图。如图3所示,根据本申请实施例的所述基于聚类的军工集团人员信息标签化系统100,包括:数据获取单元110,用于从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;静态信息编码单元120,用于将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;行为数据编码单元130,用于将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;第一关联单元140,用于针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;特征分布校正单元150,用于针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;第二关联单元160,用于基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;聚类分析单元170,用于对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及,类标签生成单元180,用于为所述多个聚类中各个聚类指定类标签。
在本申请一个具体的实施例中,所述静态信息编码单元120,包括:第一嵌入向量单元,用于使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列;第一上下文语义编码单元,用于使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量;以及第一级联单元,用于将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。
在本申请一个具体的实施例中,所述行为数据编码单元130,包括:第二嵌入向量单元,用于使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列;第二上下文语义编码单元,用于使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量;以及第二级联单元,用于将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。
在本申请一个具体的实施例中,所述特征分布校正单元150,进一步用于:对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,其中,所述按行和按列的语义推理信息显式泛化基于以所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值为幂的自然指数函数值的加和值与所述静态-行为关联特征矩阵中各行或各列中各个位置的特征值的加权值之间的差值来进行。
在本申请一个具体的实施例中,所述特征分布校正单元150,进一步用于:以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;其中,所述公式为:
其中是所述关联特征矩阵转换到概率空间的每个位置的特征值,表示向量的按位置相减,表示向量的对数运算,所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值,是第一特征向量,是第二特征向量。
在本申请一个具体的实施例中,所述第二关联单元160,进一步用于:以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵;其中,所述公式为:
其中,是所述校正后静态-行为关联特征矩阵,是所述第一特征向量,是所述第二特征向量。
在本申请一个具体的实施例中,所述聚类分析单元170,进一步用于:使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。
这里,本领域技术人员可以理解,上述基于聚类的军工集团人员信息标签化系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图2的基于聚类的军工集团人员信息标签化方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的所述基于聚类的军工集团人员信息标签化系统100可以实现在各种终端设备中,例如具有基于聚类的军工集团人员信息标签化算法的服务器等。在一个示例中,根据基于聚类的军工集团人员信息标签化系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于聚类的军工集团人员信息标签化系统100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于聚类的军工集团人员信息标签化系统100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于聚类的军工集团人员信息标签化系统100与该终端设备也可以是分立的设备,并且基于聚类的军工集团人员信息标签化系统100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图4来描述根据本申请实施例的电子设备。
图4图示了根据本申请实施例的电子设备的框图。
如图4所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于聚类的军工集团人员信息标签化以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如所述军工集团的业务系统和门户系统获取的所有成员的静态信息以及从所述军工集团的业务系统和门户系统的获取所述所有成员的行为数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括各个成员的类标签等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于聚类的军工集团人员信息标签化方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于聚类的军工集团人员信息标签化方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (4)

1.一种基于聚类的军工集团人员信息标签化方法,其特征在于,包括:
从军工集团的人力资源系统获取所有成员的静态信息以及从所述军工集团的业务系统和门户系统获取所述所有成员的行为数据;
将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量;
将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量;
针对所述所有成员中的各个成员,计算各个成员的静态信息语义特征向量的转置向量与各个成员的行为数据语义特征向量之间的向量乘积以得到各个成员的静态-行为关联特征矩阵;
针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量;
基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵;
对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类;以及
为所述多个聚类中各个聚类指定类标签;
其中,针对所述各个成员的静态-行为关联特征矩阵,对所述各个成员的静态-行为关联特征矩阵进行按行和按列的特征分布校正以得到对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量,包括:
以如下公式对所述各个成员的静态-行为关联特征矩阵进行按行和按列的语义推理信息显式泛化以得到所述对应于各个成员的静态-行为关联特征矩阵的第一特征向量和第二特征向量:
Figure FDA0004085274420000011
Figure FDA0004085274420000012
其中mi,j是所述关联特征矩阵转换到概率空间的每个位置的特征值,θ表示向量的按位置相减,log(·)表示向量的对数运算,所述向量的对数运算表示计算所述向量中各个位置的特征值的对数函数值,V1是第一特征向量,V2是第二特征向量;
其中,基于所述第一特征向量和所述第二特征向量,生成对应于各个成员的校正后静态-行为关联特征矩阵,包括:
以如下公式计算所述一特征向量的转置向量与所述第二特征向量之间的乘积以得到校正后静态-行为关联特征矩阵;
Figure FDA0004085274420000021
其中,M是所述校正后静态-行为关联特征矩阵,V1是所述第一特征向量,V2是所述第二特征向量。
2.根据权利要求1所述的基于聚类的军工集团人员信息标签化方法,其特征在于,所述将所述所有成员的静态信息中各个成员的静态信息分别通过包含嵌入层的上下文编码器以得到对应于各个成员的静态信息的静态信息语义特征向量,包括:
使用所述上下文编码器的嵌入层分别将所述所有成员的静态信息中各个成员的静态信息转化为嵌入向量以得到对应于各个成员的静态信息的嵌入向量的序列;
使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的静态信息的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的静态信息的多个特征向量;以及
将所述对应于各个成员的静态信息的多个特征向量进行级联以得到所述对应于各个成员的静态信息的静态信息语义特征向量。
3.根据权利要求2所述的基于聚类的军工集团人员信息标签化方法,其特征在于,所述将所述所有成员的行为数据中各个成员的行为数据分别通过所述包含嵌入层的上下文编码器以得到对应于各个成员的行为数据的行为数据语义特征向量,包括:
使用所述上下文编码器的嵌入层分别将所述所有成员的行为数据中各个成员的行为数据转化为嵌入向量以得到对应于各个成员的行为数据的嵌入向量的序列;
使用所述上下文编码器的基于转换器的Bert模型对所述对应于各个成员的行为数据的嵌入向量的序列进行基于全局的上下文语义编码以得到对应于各个成员的行为数据的多个特征向量;以及
将所述对应于各个成员的行为数据的多个特征向量进行级联以得到所述对应于各个成员的行为数据的行为数据语义特征向量。
4.根据权利要求3所述的基于聚类的军工集团人员信息标签化方法,其特征在于,所述对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到多个聚类,包括:
使用KNN聚类算法对所述所有成员的校正后静态-行为关联特征矩阵进行聚类分析以得到所述多个聚类。
CN202210902451.9A 2022-07-29 2022-07-29 基于聚类的军工集团人员信息标签化方法 Active CN114970775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210902451.9A CN114970775B (zh) 2022-07-29 2022-07-29 基于聚类的军工集团人员信息标签化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210902451.9A CN114970775B (zh) 2022-07-29 2022-07-29 基于聚类的军工集团人员信息标签化方法

Publications (2)

Publication Number Publication Date
CN114970775A CN114970775A (zh) 2022-08-30
CN114970775B true CN114970775B (zh) 2023-04-18

Family

ID=82968955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210902451.9A Active CN114970775B (zh) 2022-07-29 2022-07-29 基于聚类的军工集团人员信息标签化方法

Country Status (1)

Country Link
CN (1) CN114970775B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472490A (zh) * 2018-11-06 2019-03-15 北京京航计算通讯研究所 基于聚类的军工集团人员信息标签化系统
CN113535947A (zh) * 2021-05-21 2021-10-22 河南师范大学 一种带有缺失标记的不完备数据的多标记分类方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578292B (zh) * 2017-09-19 2020-10-16 上海财经大学 一种用户画像构建系统
CN109271593A (zh) * 2018-11-06 2019-01-25 北京京航计算通讯研究所 基于聚类的军工集团人员信息标签化方法
CN112955883B (zh) * 2018-12-29 2023-03-21 深圳市欢太科技有限公司 应用推荐方法、装置、服务器和计算机可读存储介质
US11281728B2 (en) * 2019-08-06 2022-03-22 International Business Machines Corporation Data generalization for predictive models
CN114218380B (zh) * 2021-12-03 2022-07-29 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472490A (zh) * 2018-11-06 2019-03-15 北京京航计算通讯研究所 基于聚类的军工集团人员信息标签化系统
CN113535947A (zh) * 2021-05-21 2021-10-22 河南师范大学 一种带有缺失标记的不完备数据的多标记分类方法及装置

Also Published As

Publication number Publication date
CN114970775A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
JP7302022B2 (ja) テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。
CN111723209A (zh) 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN110956018B (zh) 文本处理模型的训练方法、文本处理方法、装置及存储介质
EP3570208A1 (en) Two-dimensional document processing
US11288324B2 (en) Chart question answering
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
US10796104B1 (en) Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
CN109416705A (zh) 利用语料库中可用的信息用于数据解析和预测
CN115796173A (zh) 针对监管报送需求的数据处理方法和系统
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN116257406A (zh) 用于智慧城市的网关数据管理方法及其系统
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN116307624A (zh) 一种erp系统的资源调度方法及其系统
Rose et al. The linguistic analysis of scene semantics: LASS
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN113780365A (zh) 样本生成方法和装置
CN117746186A (zh) 低秩自适应模型的训练方法、文本生成图像方法、系统
CN114970775B (zh) 基于聚类的军工集团人员信息标签化方法
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN116993446A (zh) 电子商务用物流配送管理系统及其方法
US11481389B2 (en) Generating an executable code based on a document
EP4064038B1 (en) Automated generation and integration of an optimized regular expression
CN114297385A (zh) 模型训练方法、文本分类方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant