CN113158669A

CN113158669A - 一种用工平台正负面评论识别的方法及系统

Info

Publication number: CN113158669A
Application number: CN202110466944.8A
Authority: CN
Inventors: 吴晓军; 王浩军; 陈宁; 石越; 金利欣
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-23
Anticipated expiration: 2041-04-28
Also published as: CN113158669B

Abstract

本发明提出了一种用工平台正负面评论识别的方法及系统，基于新增评论文本分析用工企业的正负面评论，同时采用改进的基于位置距离的词汇比对算法计算词语之间的关联性，从而计算获得用工公司特征矩阵，在计算完成并获得用工公司特征矩阵后累加在先数据库保存的既往特征矩阵数据，得到用工企业的当前正负面评论数据。本发明仅对新增评论文本进行数据处理，降低了数据处理的时间，减小了程序时间复杂的，同时采用算法通过关联性特征实现正负面数据的计算，提高了算法的效率。

Description

一种用工平台正负面评论识别的方法及系统

技术领域

本发明涉及自然语言处理的技术领域，特别涉及一种用工平台正负面评论识别的方法及系统。

背景技术

现代社会网络化进程极大加快，平台系统，或者网络已经成为人们表达个人意见和观点的重要渠道。但网络评论具有数据量大、突发性强、影响范围广等特点，信息挖掘难度更加打，如何通过信息技术提取挖掘用户有效信息，并为其他用户作为参考成为一大难题。

现有技术中，通常是通过分词，然后对分词词组进行n-gram处理，利用n-gram中语法对句子单元处理，或者通过上下文语境进行分析，但是这些仅仅通过简单的中文分词以及对于这些词构建神经网络或者语境都只能简单的分析短文本评论的字面语义，并不能应对博大精深的汉语文化，评论的整体语义也会失真。

发明内容

基于上述问题，本发明提供了一种用工平台正负面评论识别方法及系统，通过提取用工平台工人对用人单位评论信息，构建特征矩阵，通过基于位置距离的词汇出现概率算法自动学习分析数据判断工人正负面评论，将分析结果保存到特征矩阵中，用户根据用工公司名称和岗位名称，检索数据，会展现该公司的某个岗位正面评论率，负面评论率，正面评论数和负面评论数等数据。

为实现上述目的，本发明提出了一种用工平台正负面评论识别的方法，

步骤101，获取评论数据文本并保存为工人评论文本，标记所述工人评论文本中的新增评论文本建立第一文本集合；

步骤102，对用工公司特征矩阵建模，建立标准正面词库和标准负面词库；

步骤103，遍历所述第一文本集合，根据关键词类型分别进行数据处理，获得正面评论数、负面评论数、正面评论率、负面评论率；

步骤104，展示所述正面评论数、负面评论数、正面评论率、负面评论率。

进一步地，所述对用工公司特征矩阵建模具体包括：提取用工公司数据，建立用工公司表和公司岗位表，对用工公司表和公司岗位表，建立用工公司特征矩阵

其中G表示公司名称，R表示岗位名称，z表示正面评论数，f表示负面评论数，s表示正面评论率，p表示负面评论率。

进一步地，遍历所述第一文本集合，根据关键词类型分别进行数据处理具体包括：遍历文本集合，对每一个新增加的工人评论，对评论进行分词，将分词装载到第一数据集合，遍历第一数据集合，其中词性为名词的，判断第一数据集合是否在用工公司表中，若所述第一数据集合值在用工公司表中，提取特征矩阵

其中G取第一数据集合的值，R取评论的工人的岗位；

对于第一数据集合关键词类型为形容词的词汇，与正面词库、负面词库进行比对，若属于正面词库中词汇则特征矩阵

中正面计数器加一，若属于负面词库中词汇，则负面计数器加一；

若对于第一数据集合关键词类型为形容词的词汇，既不归属正面词库、又不归属负面词库，则对正面词库和负面词汇库负面词库中全部词汇遍历比对，通过改进的词汇比对算法，计算与每个标准词汇的值。

进一步地，所述改进的词汇比对算法为：采用基于位置距离的词汇出现概率算法，判断两个词语出现的概率，出现的概率越大则词语之间的关联性越强，若两个词语之间没有关系，其单独出现概率之乘积等于两个词语一起出现的概率，若两个词语之间有关联，其共同出现概率应大于单独出现概率之乘积，具体公式如下：

其中，p(FWⁱ(m1),Zdic(g))为词汇FWⁱ(m1)和正面词库Zdic中位置为g的词汇，在所有文本QK中共同出现的概率。

其中，p(FWⁱ(m1))为词汇FWⁱ(m1)在所有评论文本QK中出现的概率

其中，p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率。

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

比对负面词库Fdic算法如下：

其中，p(FWⁱ(m1),Fdic(g))p(FWⁱ(m1),Zdic(g))为词汇FWⁱ(m1)和负面词库Fdic中位置为g的词汇，在所有文本QK中共同出现的概率。

其中，p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率。

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离。

进一步地，通过基于位置距离的词汇出现概率算法为：

Epre(FWⁱ(m1))大于0.1时，设立临时计数器U，表示正面评论指数，U计数增加1。Epre(FWⁱ(m1))小于-0.1时，设立临时计数器V，表示负面评论指数，V计数增加1；

判断U、V最大值max(U、V)，若U最大，该评论语句为正面，将该词汇FWⁱ(m1)加入正面标准词汇库中，并且特征矩阵

中，正面计数器加一，若V最大，该评论语句为负面，将该词汇FWⁱ(m1)加入负面标准词汇库中，并且特征矩阵

中，负面计数器加一。

另外，本发明提出了一种用工平台正负面评论识别的系统，

预处理模块201，用于获取评论数据文本并保存为工人评论文本，标记所述工人评论文本中的新增评论文本建立第一文本集合；

建模模块202，用于对用工公司特征矩阵建模，建立标准正面词库和标准负面词库；

数据处理模块203，用于遍历所述第一文本集合，根据关键词类型分别进行数据处理，获得正面评论数、负面评论数、正面评论率、负面评论率；

展示模块204，用于展示所述正面评论数、负面评论数、正面评论率、负面评论率。

其中G取第一数据集合的值，R取评论的工人的岗位；

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

比对负面词库Fdic算法如下：

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离。

进一步地，通过基于位置距离的词汇出现概率算法为：

中，负面计数器加一。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如用工平台正负面评论识别的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的用工平台正负面评论识别的方法流程图；

图2为本发明的用工平台正负面评论识别的系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种用工平台正负面评论识别方法及系统，通过提取用工平台工人对用人单位评论信息，构建特征矩阵，通过基于位置距离的词汇比对算法自动学习分析数据判断工人正负面评论，将分析结果保存到特征矩阵中，用户根据用工公司名称和岗位名称，检索数据，会展现该公司的某个岗位正面评论率，负面评论率，正面评论数和负面评论数等数据。

首先，本发明提出了一种用工平台正负面评论识别的方法，流程图如附图1所示：

在本步骤中，获取用工系统工人评论数据文本，将评论数据文本保存为工人评论文本XP。获取工人评论文本XP中新增评论文本，建立文本集合M^X(Y)，即第一文本集合，其中X表示评论总数，Y表示评论编号。本发明仅对新增评论文本进行处理，降低数据处理量，值得注意的是，在初始化新增评论文本时已经涵盖了在前大部分数据，因此并不会使得结果出现较大误差。

提取用工公司数据，建立用工公司表和公司岗位表，对用工公司表和公司岗位表，建立用工公司特征矩阵

建立标准正面词库Zdic，初始化正面词汇200个，例如(喜欢，好，待遇好，薪酬高，厚道，福利好，环境好，吃得好，轻松，不累，宽松，友爱，互助，开心，愉快，快乐，积极，创新，进取，及时....)。建立标准负面词库Fdic，初始化正面词汇150个，例如(不好，差，过分，低，难做，失望，沮丧，悲伤，凌乱，讨厌，变态，可笑，鄙视，浪费，灯下黑，拖欠....)。

具体的，本步骤中，关键词类型包括名词、形容词、动词等，遍历文本集合M^X(Y)分别对特征矩阵进行数据更新；

遍历文本集合M^X(Y)，对每一个新增加的工人评论，利用jieba分词，对评论进行分词，将分词装载到数据集合FWⁱ(m)，其中i表示词性，m表示词语位置。遍历数据集合FWⁱ(m)，其中词性为名词的，判断FWⁱ(m)是否在用工公司表中，如果FWⁱ(m)值在用工公司表中，提取特征矩阵

其中G取FWⁱ(m)的值，R取评论的工人的岗位。

对于数据集合FWⁱ(m)中i为形容词的词汇，将其与正面词库Zdic、负面词库Fdic进行比对，若属于正面词库Zdic中词汇则特征矩阵

中Z计数增加1，若属于负面词库Fdic中词汇，则f计数增加1。

若对于数据集合FWⁱ(m)中i为形容词的词汇，既不归属正面词库Zdic、又不归属负面词库Fdic。例如数据集合FWⁱ(m)中m＝m1的词汇FWⁱ(m1)，既不归属正面词库Zdic、又不归属负面词库Fdic。则对正面词库Zdic和负面词汇库负面词库Fdic中全部词汇遍历比对，通过改进的PMI算法(本申请中成为WGS算法，改进的词汇比对算法)，计算与每个标准词汇的值。

比对正面词库Zdic算法，采用基于位置距离的词汇出现概率算法WGS，WGS算法逻辑是：判断两个词语出现的概率，出现的概率越大则词语之间的关联性越强，假设两个词语之间没有关系，其单独出现概率之乘积等于两个词语一起出现的概率，如果两个词语之间有关联，其共同出现概率应大于单独出现概率之乘积，并且比率越大，关联性越强。通过加乘两个词语之间距离，对PMI算法进行优化，更直观反映两个词语之间的关联性。具体公式如下：

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

判断两个词语FWⁱ(m1)与Zdic(g)出现的概率，用WGS(FWⁱ(m1)，Zdic(g))表示，FWⁱ(m1)为需要被判定的词汇，Zdic(g)为正面词库里编号为g的词汇，WGS越大则两个词汇出现的概率越大，词语之间的关联性越强，假设两个词语之间没有关系，其单独出现概率之乘积p(FWⁱ(m1),Zdic(g))等于两个词语一起出现的概率p(FWⁱ(m1))p(Zdic(g))，如果两个词语之间有关联，其共同出现概率p(FWⁱ(m1),Zdic(g))应大于单独出现概率之乘积p(FWⁱ(m1))p(Zdic(g))，并且比率越大，WGS越大，表示关联性越强。通过加乘两个词语之间距离h，对PMI算法进行优化，更直观反映两个词语之间的关联性，结合词语出现概率与词语位置关系信息，词语词汇判定更加准确。此外，本发明还加入了对历史平均距离的考虑，使得算法的容错性更强。

比对负面词库Fdic算法如下：

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

通过基于位置距离的词汇出现概率算法WGS如下：

对于算法的结果Epre(FWⁱ(m1))结果判定，若大于0.1时，设立临时计数器U，表示正面评论指数，U计数增加1。Epre(FWⁱ(m1))小于-0.1时，设立临时计数器V，表示负面评论指数，V计数增加1。

判断U、V最大值max(U、V)，若U最大，该评论语句为正面，将该词汇FWⁱ(m1)加入正面标准词汇库Zdic中，并且特征矩阵

中，Z计数增加1。若V最大，该评论语句为负面，将该词汇FWⁱ(m1)加入负面标准词汇库Fdic中，并且特征矩阵

中，f计数增加1。

根据特征矩阵

中，正面评论数z和负面评论数f，计算正面评论概率s，和负面评论概率p，将s和p保存到特征矩阵

中。在计算结束后，通过循环算法将既往的评论数据累加到特征矩阵。所述循环算法为for循环或者while循环。

用户根据用工公司名称和岗位名称，检索数据，会展现该公司的某个岗位正面评论率，负面评论率，正面评论数和负面评论数等数据，可以通过终端展示。

另外，本发明提出了一种用工平台正负面评论识别的系统，系统框图如附图2所示：

其中G取FWⁱ(m)的值，R取评论的工人的岗位。

中Z计数增加1，若属于负面词库Fdic中词汇，则f计数增加1。

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

比对负面词库Fdic算法如下：

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

通过基于位置距离的词汇出现概率算法WGS如下：

Epre(FWⁱ(m1))大于0.1时，设立临时计数器U，表示正面评论指数，U计数增加1。Epre(FWⁱ(m1))小于-0.1时，设立临时计数器V，表示负面评论指数，V计数增加1。

中，f计数增加1。

根据特征矩阵

另外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如用工平台正负面评论识别的方法。

本发明提出了一种用工平台正负面评论识别的方法及系统，基于新增评论文本分析用工企业的正负面评论，同时采用改进的词汇比对算法计算词语之间的关联性，从而计算获得用工公司特征矩阵，在计算完成并获得用工公司特征矩阵后累加在先数据库保存的既往特征矩阵数据，得到用工企业的当前正负面评论数据。本发明仅对新增评论文本进行数据处理，降低了数据处理的时间，减小了程序时间复杂的，同时采用算法通过关联性特征实现正负面数据的计算，提高了算法的效率。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种用工平台正负面评论识别的方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，所述对用工公司特征矩阵建模具体包括：提取用工公司数据，建立用工公司表和公司岗位表，对用工公司表和公司岗位表，建立用工公司特征矩阵

3.根据权利要求1所述的方法，其特征在于，遍历所述第一文本集合，根据关键词类型分别进行数据处理具体包括：遍历文本集合，对每一个新增加的工人评论，对评论进行分词，将分词装载到第一数据集合，遍历第一数据集合，其中词性为名词的，判断第一数据集合是否在用工公司表中，若所述第一数据集合值在用工公司表中，提取特征矩阵

其中G取第一数据集合的值，R取评论的工人的岗位；

若对于第一数据集合关键词类型为形容词的词汇，既不归属正面词库、又不归属负面词库，则对正面词库和负面词汇库负面词库中全部词汇遍历比对，通过改进的词汇比对算法，计算与每个标准词汇的值；

所述改进的词汇比对算法为：采用基于位置距离的词汇出现概率算法，判断两个词语出现的概率，出现的概率越大则词语之间的关联性越强，若两个词语之间没有关系，其单独出现概率之乘积等于两个词语一起出现的概率，若两个词语之间有关联，其共同出现概率应大于单独出现概率之乘积，具体公式如下：

其中，p(FWⁱ(m1),Zdic(g))为词汇FWⁱ(m1)和正面词库Zdic中位置为g的词汇，在所有文本QK中共同出现的概率；

其中，p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率；

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

比对负面词库Fdic算法如下：

其中，p(FWⁱ(m1),Fdic(g))p(FWⁱ(m1),Zdic(g))为词汇FWⁱ(m1)和负面词库Fdic中位置为g的词汇，在所有文本QK中共同出现的概率；

其中，p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率；

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离。

4.根据权利要求3所述的方法，其特征在于，通过基于位置距离的词汇出现概率算法为：

Epre(FWⁱ(m1))大于0.1时，设立临时计数器U，表示正面评论指数，U计数增加1；Epre(FWⁱ(m1))小于-0.1时，设立临时计数器V，表示负面评论指数，V计数增加1；

中，负面计数器加一。

5.一种用工平台正负面评论识别的系统，其特征在于，

6.根据权利要求5所述的系统，其特征在于，所述对用工公司特征矩阵建模具体包括：提取用工公司数据，建立用工公司表和公司岗位表，对用工公司表和公司岗位表，建立用工公司特征矩阵

7.根据权利要求5所述的系统，其特征在于，遍历所述第一文本集合，根据关键词类型分别进行数据处理具体包括：遍历文本集合，对每一个新增加的工人评论，对评论进行分词，将分词装载到第一数据集合，遍历第一数据集合，其中词性为名词的，判断第一数据集合是否在用工公司表中，若所述第一数据集合值在用工公司表中，提取特征矩阵

其中G取第一数据集合的值，R取评论的工人的岗位；

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离；

比对负面词库Fdic算法如下：

其中，h＝|m1-g|,表示该词汇与产品词汇位置的距离；

其中，r为该词汇与产品词汇位置的历史距离平均距离。

8.根据权利要求7所述的系统，其特征在于，通过基于位置距离的词汇出现概率算法为：

中，负面计数器加一。

9.一种计算机可读存储于介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-4任一项的方法。