CN110633468B

CN110633468B - 一种关于对象特征提取的信息处理方法及装置

Info

Publication number: CN110633468B
Application number: CN201910833760.3A
Authority: CN
Inventors: 于文才; 高升; 杜明本; 钟琴隆; 马强; 杜志诚; 李群; 刘斌; 郑常青
Original assignee: Shandong Banner Information Co ltd
Current assignee: Shandong Banner Information Co ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2023-04-25
Anticipated expiration: 2039-09-04
Also published as: CN110633468A

Abstract

本申请公开了一种关于对象特征提取的信息处理方法及装置，用以解决现有的信息处理方法需消耗大量人力且效率低的问题。该方法确定员工的待处理信息中各词语的词向量，以及对所述待处理信息进行句法分析，根据预设规则，确定由所述各词语组成的词组；根据各词语的词向量，确定所述词组的词组向量；根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述员工对应的标签。通过本方法，能够对员工信息进行自动分析并从中提取有用的信息，智能化的为员工匹配相应的标签。

Description

一种关于对象特征提取的信息处理方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种关于对象特征提取的信息处理方法及装置。

背景技术

在信息化社会中，信息资源的获取来源的多样性、存储形式的多样性、承载内容的多样性等方面，对信息资源的整合与处理提出了较高的要求。

在人力资源方面，员工的工作数据包括个人信息、工作信息、他人评价等各方面的内容。并且，这些工作数据可通过纸质文档、电子文档、图片等多种形式进行存储。

目前，在对人力资源信息进行管理时，可采用电子化管理的方法，将员工的信息全部转化为电子数据，通过软件对这些数据进行整合与处理。但是，这种电子化信息处理的方式仅仅为管理员的数据检索等操作提供了一定的便利，而对于员工信息的分析、评价等方面，仍需借助人力的作用，人为的进行分析与评价。这样往往需要浪费很多人力物力，耗费大量的时间与精力，且效率较低。

发明内容

本申请实施例提供一种关于对象特征提取的信息处理方法及装置，用以解决现有的信息处理方法需要耗费大量人力且效率较低的问题。

本申请实施例提供的一种关于对象特征提取的信息处理方法，包括：

确定员工档案中的待处理信息中各词语的词向量，以及对所述待处理信息进行句法分析，根据预设规则，确定由所述各词语组成的词组；

根据各词语的词向量，确定所述词组的词组向量；

根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签。

本申请实施例提供的一种关于对象特征提取的信息处理装置，包括：

第一确定模块，确定员工档案中的待处理信息中各词语的词向量，以及对所述待处理信息进行句法分析，根据预设规则，确定由所述各词语组成的词组；

第二确定模块，根据各词语的词向量，确定所述词组的词组向量；

第三确定模块，根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签。

本申请实施例提供一种关于对象特征提取的信息处理方法及装置，通过对待处理信息进行分词处理并确定词向量，以及对待处理信息进行句法分析并确定词组，根据确定出的词向量，确定词组的词组向量。之后，根据词组向量与预先训练好的聚类模型，确定出待处理信息对应的标签。这种方法能够对员工信息进行自动处理与分析，从员工信息中提取有用的信息，与预存的预设标签进行匹配，确定出与员工相对应的标签，减少了对人力的依赖，实现了员工标签的自动化提取与确定，有利于提高人力资源管理的便利性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

在附图中：

图1为本申请实施例提供的聚类模型训练流程图；

图2为本申请实施例提供的聚类模型的聚类结果示意图；

图3为本申请实施例提供的关于对象特征提取的信息处理方法流程图；

图4为本申请实施例提供的关于对象特征提取的信息处理装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，该关于对象特征提取的信息处理方法可分为两个部分。

第一，根据所有员工的信息，训练聚类模型。根据聚类模型产生的聚类结果，确定各聚类结果对应的标签，作为预设标签进行存储。其中，标签指的是根据员工的信息内容，确定出的与员工的工作经历、工作状态等方面相关的评价结果。

第二，根据上述第一步训练好的聚类模型，对单个员工的信息进行信息处理。根据聚类模型产生的结果，从若干预设标签中确定出与单个员工相匹配的标签。

图1为本申请实施例提供的聚类模型训练流程图，具体包括以下步骤：

S101：确定待训练数据中各词语的词向量。

在本申请实施例中，服务器可对待训练数据进行分词处理，获得若干词语，并确定出这些词语的词向量。其中，待训练数据指的是可作为聚类模型的训练样本的数据，具体可以是所有员工的信息，包括员工的个人信息、任职经历、工作成果、工作评价等。词向量指的是由文本形式的词语映射出的，以多维向量的形式表现出来的，词语的一种抽象的表现形式。

具体的，针对所有待训练数据，服务器可采用分词器，对待训练数据中的所有信息进行分词处理，以获得若干词语。之后，服务器可采用Word2vec的CBOW模型，来确定各词语的词向量。

其中，CBOW模型是一种神经网络语言模型，该模型的输入为某个词语的上下文相关的词语对应的词向量，输出为该词的词向量。也就是说，CBOW模型可在上下文已知的情况下，预测某个词出现的概率。

Word2vec对传统的神经网络模型进行了优化，其采用霍夫曼树来代替隐藏层和输出层的神经元。在霍夫曼树中，权重越高的叶子节点越靠近根节点，而权重越低的叶子节点会远离根节点，因此，使用频率越高的词语对应的编码越短。

Word2vec的CBOW模型在训练时，首先，以待训练数据作为模型的输入，基于待训练数据建立霍夫曼树，并定义词向量的维度大小以及CBOW的上下文大小。之后，在初始化模型参数与所有词向量后，进行梯度上升迭代过程，直至梯度收敛。最后，可输出训练好的模型的参数，以及所有词向量。

通过Word2vec的CBOW模型生成词向量时，可将文本形式的词语映射为相互之间存在联系的多维向量，即词向量。语义相近的词语所生成的词向量在向量空间是相近的，甚至可以一定程度反映词语间的线性关系。也就是说，通过不同词向量之间的距离，可以反映不同词语之间的关联。

S102：对待训练数据进行句法分析，根据预设规则，提取词组。

在本申请实施例中，服务器可对待训练数据进行句法分析，确定待训练数据中的各语句的语法结构。并且，服务器可根据预设规则以及各语句的语法结构，从各语句中提取词组。

其中，预设规则可包括：第一，提取语句中由谓语和宾语组成的词组。第二，提取语句中由定语或状语，与相邻的谓语或宾语组成的词组。例如，语句为“他工作很努力”，其中谓语为“工作”，状语为“很努力”，则提取词组为“工作很努力”。

此外，由于员工的工作信息通常表现为各种形式，包括词语、短语、语句等。并且，在实际生活中，员工的工作信息包括的语句可能存在口语化的省略等情况，而无法确定出完整的语法结构。因此，预设规则可根据词语、语句的不同进行分别设置，例如，针对字数小于预设阈值的语句，可根据分词后获得的词语的词性进行提取，针对字数大于预设阈值的语句，可根据句法分析后的语法结构进行提取，等等。

需要说明的是，S101中对词向量的确定与S102中对词组的提取，两者没有必要的先后顺序。在本申请实施例中，可先执行S101，再执行S102，也可先执行S102，再执行S101，或者两者同时进行，本申请对此不做限定。

S103：根据各词语的词向量，确定词组的词组向量。

在对待训练数据提取词组后，可知，提取得到的词组均由S101中分词获得的词语组成。于是，服务器可根据S101中确定的各词语的词向量，将词组中包括的词语对应的词向量进行累加，以获得词组的词组向量。

S104：根据各词组向量，采用DBSCAN算法训练聚类模型。

在本申请实施例中，服务器在确定了各词组的词组向量后，可根据各词组向量，采用基于密度的噪声应用空间聚类(Density-Based Spatial Clustering of Applicationswith Noise，DBSCAN)算法训练聚类模型。其中，DBSCAN算法是一种基于密度的聚类算法，其能够把具有足够高密度的区域划分为簇，并可形成任意形状的簇。

具体的，在本申请实施例中，服务器可根据预先定义的词向量的维度，在计算获得各词组的词组向量后，将各词组向量作为聚类模型的数据输入。在训练聚类模型时，需预先定义两个参数：聚类半径eps与最小点密度min_samples。DBSCAN算法将所有样本数据分为三类：核心点、边界点与噪音点。其中，核心点为在eps内含有超过min_samples数目的点，边界点为在eps内点的数量小于min_samples，但是落在核心点的邻域内的点，噪音点为既不是核心点也不是边界点的点。其中，核心点的邻域指的是距核心的距离在eps之内的范围。

具体的训练过程如下：

(1)将所有样本数据标记为核心点、边界点或噪音点。

(2)删除噪音点。

(3)将距离在eps之内的核心点连通。

(4)每组连通的核心点形成一个簇。

(5)将每个边界点划分到距离在eps之内的相应的簇中。

通过上述训练过程，可根据输入的所有样本数据，产生多个簇。在训练聚类模型的过程中，若聚类模型产生的簇的大小、结构等不合理(如产生了较多的噪音点)，可通过调整参数eps与min_samples，调整聚类模型产生的簇，以使聚类模型能够实现更好的聚类效果。

在本申请实施例中，在训练聚类模型的过程中，具体可定义词向量的维度为256，定义聚类模型的参数为聚类半径eps＝0.1，最小点密度min_samples＝50。通过上述参数，对本申请实施例中的待训练数据进行模型训练时，能够得到聚类效果较好的聚类模型。图2为本申请实施例提供的聚类模型的聚类结果示意图，需要说明的是，图2仅为二维向量下的聚类图的一种示意性说明。在图2中，不同灰度的点的集合表示聚类模型产生的簇。如图2所示，聚类模型产生了三个簇，包括右上角的一个椭圆状的簇以及两个环状的簇。

采用DBSCAN算法训练聚类模型时，可对以任意形状分布的数据集进行聚类，不需要预先指定簇的个数，并且，聚类模型最终形成的簇的个数也不确定。

在本申请实施例中，服务器通过训练完成的聚类模型，可将各个词组向量划分到不同的簇中。每个簇中的词组向量均为在向量空间内距离相近的向量，也就是说，在同一个簇中的各个词组向量对应的词组的语义相近。于是，用户可根据聚类模型产生的聚类结果，针对各个簇中包括的词组向量对应的词组的内容，为各个簇定义不同的标签。例如，入职时长、工作评价、考核结果、工作效率，等等。服务器可对用户确定的各个簇对应的标签进行存储，作为预设标签。

进一步地，用户可根据每个簇包括的词组向量对应的词组的内容的不同，对标签进行分类。具体的，用户可将标签分为静态标签与动态标签。静态标签指的是固定不变的标签，例如性别、籍贯、出生年月、入职时间等。动态标签指的是，随着员工的工作状况而发生变化的标签，例如，员工在不同时间段内的工作评价、考核结果等。于是，服务器在存储动态标签时，可将动态标签与相应的时间戳进行对应存储。

更进一步地，由于待训练数据包括所有员工的工作信息，且聚类模型产生的各个簇对应的标签为对该簇所表示的词组内容的总结。因此，该标签通常表示的是概括性的内容，而不涉及具体内容。于是，每个簇对应的标签，还可具体划分为若干子标签。服务器可对具体的子标签也进行存储。例如，标签为“考核结果”，子标签可以是“优秀”、“良好”、“不及格”，标签为“工作态度”，子标签可以是“责任心强”、“工作积极”、“懈怠”，等等。

并且，除了通过聚类模型进行聚类的方式对员工信息进行处理外，服务器还可根据预设的判断规则，对员工信息进行处理，确定相应的标签。其中，判断规则可根据需要设置，具体可包括：第一，根据员工入职时间，确定标签“所处时期”。具体的，入职时长小于一年的，对应子标签“活跃期”，入职时长在1～3年的，对应子标签“平稳期”。第二，根据员工的年龄，确定标签“生理工作状态”。具体的，年龄小于30岁的，对应子标签“活跃”，年龄在30～50岁的，对应子标签“成熟”，年龄超过50岁的，对应子标签“临休”。

在本申请实施例中，通过对待训练数据分词并确定词向量，以及通过句法分析提取待训练数据的词组，可确定词组的词组向量。之后，以词组向量作为输入，采用DBSCAN算法训练聚类模型，得到词组向量的聚类结果。用户可根据需要，定义与聚类结果中的各簇相对应的标签，作为员工的工作信息中的有效信息，并存储在服务器中，以实现后续对单个员工的信息处理。

图3为本申请实施例提供的关于对象特征提取的信息处理方法流程图，具体包括以下步骤：

S301：确定待处理信息中各词语的词向量。

S302：对待处理信息进行句法分析，根据预设规则，提取词组。

S303：根据各词语的词向量，确定词组的词组向量。

在本申请实施例中，在对单个员工的工作信息进行处理时，可将该员工的所有工作信息作为待处理信息，包括员工的个人信息、任职经历、工作成果、工作评价等。

服务器可采用分词器，对待处理信息进行分词处理，获得若干词语。之后，服务器可采用Word2vec的CBOW模型，确定出各个词语的词向量。

服务器还可对待处理信息进行句法分析，确定待处理信息中各语句的语法结构。并且，服务器可根据预设规则以及各语句的语法结构，从各语句中提取词组。其中，服务器对待处理信息进行分词处理并确定词向量的过程的执行，以及服务器对待处理信息进行句法分析并提取词组的过程的执行，两者没有执行的先后顺序的限制。

服务器在确定了待处理信息的词向量与提取完词组后，可根据确定出的各词语的词向量，以及词组中包括的词语对应的词向量，对相应的词向量进行累加，以获得词组的词组向量。

需要说明的是，S301～S303的过程与上述S101～S103的过程基本相同，对于S301～S303中未进行详细描述的细节部分，可参照S101～S103中的相关内容，本申请在此不再赘述。

S304：根据各词组向量以及训练好的聚类模型，确定对应的标签。

在本申请实施例中，服务器确定出该员工的信息对应的各词组向量后，可将各词组向量作为输入数据，输入至训练好的聚类模型中。聚类模型经过对输入数据的聚类，可产生聚类结果，预测该员工的信息所属的簇。则服务器可根据聚类模型产生的聚类结果对应的各个簇，以及预存的各个簇对应的标签与子标签，确定该员工信息对应的标签以及子标签。之后，服务器可对确定出的员工对应的标签进行存储。

并且，由于员工的工作信息一直处于变化的状态，则服务器可根据预设的时间间隔，对员工的工作信息进行更新处理，以对员工在不同时期所对应的不同标签进行更新。

在本申请实施例中，通过无监督机器学习的方法预先训练完成聚类模型，并在服务器中存储根据聚类结果定义出的与员工信息相关的所有标签。之后，在对员工的信息进行处理时，可通过该聚类模型进行自动分析与聚类，自动从员工的信息中提取有用的信息，从预存的所有标签中，确定与单个员工相匹配的标签，实现对员工信息的智能分析。这种关于对象特征提取的信息处理方法，大大减少了对人力的依赖，能够对所有员工信息进行智能分析与处理，自动提取有用的信息，加强了信息管理的便利性。

需要说明的是，本申请提出的关于对象特征提取的信息处理方法，不仅适用于上述对员工信息的自动分析、处理以及对相应标签的提取，也适用于任何包括其他内容及对象的信息，例如，商品信息、服务信息，等等，本申请对此不做限定。

以上为本申请实施例提供的关于对象特征提取的信息处理方法，基于同样的发明思路，本申请实施例还提供了相应的关于对象特征提取的信息处理装置，如图4所示。

图4为本申请实施例提供的关于对象特征提取的信息处理装置结构示意图，具体包括：

第一确定模块401，确定员工档案中的待处理信息中各词语的词向量，以及对所述待处理信息进行句法分析，根据预设规则，确定由所述各词语组成的词组；

第二确定模块402，根据各词语的词向量，确定所述词组的词组向量；

第三确定模块403，根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种关于对象特征提取的信息处理方法，其特征在于，包括：

根据各词语的词向量，确定所述词组的词组向量；

根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签；

确定员工档案中的待处理信息中各词语的词向量，具体包括：

对员工档案中的待处理信息进行分词处理；

采用Word2Vec的CBOW模型，确定分词处理后的各词语的词向量；

所述预设规则至少包括：

确定语句中的谓语和宾语，组成词组；

确定语句中的定语或状语，与相邻的谓语或宾语组成词组；

根据各词语的词向量，确定所述词组的词组向量，具体包括：

确定词组中包括的词语；

对确定出的若干词语的词向量进行累加，得到所述词组的词组向量；

根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签，具体包括：

根据预先训练好的聚类模型，确定各词组向量所属的簇；

根据预存的各簇与预设标签的对应关系，确定所述待处理信息对应的标签；

所述聚类模型采用以下方法得到：

确定待训练数据中各词语的词向量，以及对所述待训练数据进行句法分析，根据预设规则，确定由所述各词语组成的词组；其中，所述预设规则至少包括确定语句中的谓语和宾语，组成词组，以及确定语句中的定语或状语，与相邻的谓语或宾语组成词组；

根据各词语的词向量，确定所述词组的词组向量；

采用DBSCAN算法，对所述词组向量进行聚类，得到聚类模型；

所述方法还包括：

根据聚类得到的簇对应的词组的内容，确定各簇对应的标签。

2.根据权利要求1所述的方法，其特征在于，所述聚类模型的聚类半径为0.1，最小点密度为50。

3.一种关于对象特征提取的信息处理装置，其特征在于，包括：

第三确定模块，根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签；

所述第一确定模块，确定员工档案中的待处理信息中各词语的词向量，具体包括：

对员工档案中的待处理信息进行分词处理；

采用Word2Vec的CBOW模型，确定分词处理后的各词语的词向量；

所述预设规则至少包括：

确定语句中的谓语和宾语，组成词组；

确定语句中的定语或状语，与相邻的谓语或宾语组成词组；

所述第二确定模块，根据各词语的词向量，确定所述词组的词组向量，具体包括：

确定词组中包括的词语；

所述第三确定模块，根据预先训练好的聚类模型以及各词组向量，从若干预设标签中，确定所述待处理信息对应的标签，具体包括：

根据预先训练好的聚类模型，确定各词组向量所属的簇；

所述聚类模型采用以下方法得到：

根据各词语的词向量，确定所述词组的词组向量；

采用DBSCAN算法，对所述词组向量进行聚类，得到聚类模型；

还包括：