CN113158669A - 一种用工平台正负面评论识别的方法及系统 - Google Patents

一种用工平台正负面评论识别的方法及系统 Download PDF

Info

Publication number
CN113158669A
CN113158669A CN202110466944.8A CN202110466944A CN113158669A CN 113158669 A CN113158669 A CN 113158669A CN 202110466944 A CN202110466944 A CN 202110466944A CN 113158669 A CN113158669 A CN 113158669A
Authority
CN
China
Prior art keywords
vocabulary
comment
negative
positive
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110466944.8A
Other languages
English (en)
Other versions
CN113158669B (zh
Inventor
吴晓军
王浩军
陈宁
石越
金利欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Jilian Human Resources Service Group Co ltd
Original Assignee
Hebei Jilian Human Resources Service Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Jilian Human Resources Service Group Co ltd filed Critical Hebei Jilian Human Resources Service Group Co ltd
Priority to CN202110466944.8A priority Critical patent/CN113158669B/zh
Publication of CN113158669A publication Critical patent/CN113158669A/zh
Application granted granted Critical
Publication of CN113158669B publication Critical patent/CN113158669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种用工平台正负面评论识别的方法及系统,基于新增评论文本分析用工企业的正负面评论,同时采用改进的基于位置距离的词汇比对算法计算词语之间的关联性,从而计算获得用工公司特征矩阵,在计算完成并获得用工公司特征矩阵后累加在先数据库保存的既往特征矩阵数据,得到用工企业的当前正负面评论数据。本发明仅对新增评论文本进行数据处理,降低了数据处理的时间,减小了程序时间复杂的,同时采用算法通过关联性特征实现正负面数据的计算,提高了算法的效率。

Description

一种用工平台正负面评论识别的方法及系统
技术领域
本发明涉及自然语言处理的技术领域,特别涉及一种用工平台正负面评论识别的方法及系统。
背景技术
现代社会网络化进程极大加快,平台系统,或者网络已经成为人们表达个人意见和观点的重要渠道。但网络评论具有数据量大、突发性强、影响范围广等特点,信息挖掘难度更加打,如何通过信息技术提取挖掘用户有效信息,并为其他用户作为参考成为一大难题。
现有技术中,通常是通过分词,然后对分词词组进行n-gram处理,利用n-gram中语法对句子单元处理,或者通过上下文语境进行分析,但是这些仅仅通过简单的中文分词以及对于这些词构建神经网络或者语境都只能简单的分析短文本评论的字面语义,并不能应对博大精深的汉语文化,评论的整体语义也会失真。
发明内容
基于上述问题,本发明提供了一种用工平台正负面评论识别方法及系统,通过提取用工平台工人对用人单位评论信息,构建特征矩阵,通过基于位置距离的词汇出现概率算法自动学习分析数据判断工人正负面评论,将分析结果保存到特征矩阵中,用户根据用工公司名称和岗位名称,检索数据,会展现该公司的某个岗位正面评论率,负面评论率,正面评论数和负面评论数等数据。
为实现上述目的,本发明提出了一种用工平台正负面评论识别的方法,
步骤101,获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
步骤102,对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
步骤103,遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
步骤104,展示所述正面评论数、负面评论数、正面评论率、负面评论率。
进一步地,所述对用工公司特征矩阵建模具体包括:提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure BDA0003044534210000021
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
进一步地,遍历所述第一文本集合,根据关键词类型分别进行数据处理具体包括:遍历文本集合,对每一个新增加的工人评论,对评论进行分词,将分词装载到第一数据集合,遍历第一数据集合,其中词性为名词的,判断第一数据集合是否在用工公司表中,若所述第一数据集合值在用工公司表中,提取特征矩阵
Figure BDA0003044534210000022
其中G取第一数据集合的值,R取评论的工人的岗位;
对于第一数据集合关键词类型为形容词的词汇,与正面词库、负面词库进行比对,若属于正面词库中词汇则特征矩阵
Figure BDA0003044534210000023
中正面计数器加一,若属于负面词库中词汇,则负面计数器加一;
若对于第一数据集合关键词类型为形容词的词汇,既不归属正面词库、又不归属负面词库,则对正面词库和负面词汇库负面词库中全部词汇遍历比对,通过改进的词汇比对算法,计算与每个标准词汇的值。
进一步地,所述改进的词汇比对算法为:采用基于位置距离的词汇出现概率算法,判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,若两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,若两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,具体公式如下:
Figure BDA0003044534210000031
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
比对负面词库Fdic算法如下:
Figure BDA0003044534210000032
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离。
进一步地,通过基于位置距离的词汇出现概率算法为:
Figure BDA0003044534210000033
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1。Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1;
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库中,并且特征矩阵
Figure BDA0003044534210000041
中,正面计数器加一,若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库中,并且特征矩阵
Figure BDA0003044534210000042
中,负面计数器加一。
另外,本发明提出了一种用工平台正负面评论识别的系统,
预处理模块201,用于获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
建模模块202,用于对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
数据处理模块203,用于遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
展示模块204,用于展示所述正面评论数、负面评论数、正面评论率、负面评论率。
进一步地,所述对用工公司特征矩阵建模具体包括:提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure BDA0003044534210000043
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
进一步地,遍历所述第一文本集合,根据关键词类型分别进行数据处理具体包括:遍历文本集合,对每一个新增加的工人评论,对评论进行分词,将分词装载到第一数据集合,遍历第一数据集合,其中词性为名词的,判断第一数据集合是否在用工公司表中,若所述第一数据集合值在用工公司表中,提取特征矩阵
Figure BDA0003044534210000051
其中G取第一数据集合的值,R取评论的工人的岗位;
对于第一数据集合关键词类型为形容词的词汇,与正面词库、负面词库进行比对,若属于正面词库中词汇则特征矩阵
Figure BDA0003044534210000052
中正面计数器加一,若属于负面词库中词汇,则负面计数器加一;
若对于第一数据集合关键词类型为形容词的词汇,既不归属正面词库、又不归属负面词库,则对正面词库和负面词汇库负面词库中全部词汇遍历比对,通过改进的词汇比对算法,计算与每个标准词汇的值。
进一步地,所述改进的词汇比对算法为:采用基于位置距离的词汇出现概率算法,判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,若两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,若两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,具体公式如下:
Figure BDA0003044534210000053
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
比对负面词库Fdic算法如下:
Figure BDA0003044534210000054
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离。
进一步地,通过基于位置距离的词汇出现概率算法为:
Figure BDA0003044534210000061
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1。Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1;
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库中,并且特征矩阵
Figure BDA0003044534210000062
中,正面计数器加一,若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库中,并且特征矩阵
Figure BDA0003044534210000063
中,负面计数器加一。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如用工平台正负面评论识别的方法。
本发明提出了一种用工平台正负面评论识别的方法及系统,基于新增评论文本分析用工企业的正负面评论,同时采用改进的基于位置距离的词汇比对算法计算词语之间的关联性,从而计算获得用工公司特征矩阵,在计算完成并获得用工公司特征矩阵后累加在先数据库保存的既往特征矩阵数据,得到用工企业的当前正负面评论数据。本发明仅对新增评论文本进行数据处理,降低了数据处理的时间,减小了程序时间复杂的,同时采用算法通过关联性特征实现正负面数据的计算,提高了算法的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用工平台正负面评论识别的方法流程图;
图2为本发明的用工平台正负面评论识别的系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种用工平台正负面评论识别方法及系统,通过提取用工平台工人对用人单位评论信息,构建特征矩阵,通过基于位置距离的词汇比对算法自动学习分析数据判断工人正负面评论,将分析结果保存到特征矩阵中,用户根据用工公司名称和岗位名称,检索数据,会展现该公司的某个岗位正面评论率,负面评论率,正面评论数和负面评论数等数据。
首先,本发明提出了一种用工平台正负面评论识别的方法,流程图如附图1所示:
步骤101,获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
在本步骤中,获取用工系统工人评论数据文本,将评论数据文本保存为工人评论文本XP。获取工人评论文本XP中新增评论文本,建立文本集合MX(Y),即第一文本集合,其中X表示评论总数,Y表示评论编号。本发明仅对新增评论文本进行处理,降低数据处理量,值得注意的是,在初始化新增评论文本时已经涵盖了在前大部分数据,因此并不会使得结果出现较大误差。
步骤102,对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure BDA0003044534210000081
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
建立标准正面词库Zdic,初始化正面词汇200个,例如(喜欢,好,待遇好,薪酬高,厚道,福利好,环境好,吃得好,轻松,不累,宽松,友爱,互助,开心,愉快,快乐,积极,创新,进取,及时....)。建立标准负面词库Fdic,初始化正面词汇150个,例如(不好,差,过分,低,难做,失望,沮丧,悲伤,凌乱,讨厌,变态,可笑,鄙视,浪费,灯下黑,拖欠....)。
步骤103,遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
具体的,本步骤中,关键词类型包括名词、形容词、动词等,遍历文本集合MX(Y)分别对特征矩阵进行数据更新;
遍历文本集合MX(Y),对每一个新增加的工人评论,利用jieba分词,对评论进行分词,将分词装载到数据集合FWi(m),其中i表示词性,m表示词语位置。遍历数据集合FWi(m),其中词性为名词的,判断FWi(m)是否在用工公司表中,如果FWi(m)值在用工公司表中,提取特征矩阵
Figure BDA0003044534210000082
其中G取FWi(m)的值,R取评论的工人的岗位。
对于数据集合FWi(m)中i为形容词的词汇,将其与正面词库Zdic、负面词库Fdic进行比对,若属于正面词库Zdic中词汇则特征矩阵
Figure BDA0003044534210000083
中Z计数增加1,若属于负面词库Fdic中词汇,则f计数增加1。
若对于数据集合FWi(m)中i为形容词的词汇,既不归属正面词库Zdic、又不归属负面词库Fdic。例如数据集合FWi(m)中m=m1的词汇FWi(m1),既不归属正面词库Zdic、又不归属负面词库Fdic。则对正面词库Zdic和负面词汇库负面词库Fdic中全部词汇遍历比对,通过改进的PMI算法(本申请中成为WGS算法,改进的词汇比对算法),计算与每个标准词汇的值。
比对正面词库Zdic算法,采用基于位置距离的词汇出现概率算法WGS,WGS算法逻辑是:判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,假设两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,如果两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,并且比率越大,关联性越强。通过加乘两个词语之间距离,对PMI算法进行优化,更直观反映两个词语之间的关联性。具体公式如下:
Figure BDA0003044534210000091
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
判断两个词语FWi(m1)与Zdic(g)出现的概率,用WGS(FWi(m1),Zdic(g))表示,FWi(m1)为需要被判定的词汇,Zdic(g)为正面词库里编号为g的词汇,WGS越大则两个词汇出现的概率越大,词语之间的关联性越强,假设两个词语之间没有关系,其单独出现概率之乘积p(FWi(m1),Zdic(g))等于两个词语一起出现的概率p(FWi(m1))p(Zdic(g)),如果两个词语之间有关联,其共同出现概率p(FWi(m1),Zdic(g))应大于单独出现概率之乘积p(FWi(m1))p(Zdic(g)),并且比率越大,WGS越大,表示关联性越强。通过加乘两个词语之间距离h,对PMI算法进行优化,更直观反映两个词语之间的关联性,结合词语出现概率与词语位置关系信息,词语词汇判定更加准确。此外,本发明还加入了对历史平均距离的考虑,使得算法的容错性更强。
比对负面词库Fdic算法如下:
Figure BDA0003044534210000101
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
通过基于位置距离的词汇出现概率算法WGS如下:
Figure BDA0003044534210000102
对于算法的结果Epre(FWi(m1))结果判定,若大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1。Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1。
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库Zdic中,并且特征矩阵
Figure BDA0003044534210000103
中,Z计数增加1。若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库Fdic中,并且特征矩阵
Figure BDA0003044534210000104
中,f计数增加1。
根据特征矩阵
Figure BDA0003044534210000111
中,正面评论数z和负面评论数f,计算正面评论概率s,和负面评论概率p,将s和p保存到特征矩阵
Figure BDA0003044534210000112
中。在计算结束后,通过循环算法将既往的评论数据累加到特征矩阵。所述循环算法为for循环或者while循环。
步骤104,展示所述正面评论数、负面评论数、正面评论率、负面评论率。
用户根据用工公司名称和岗位名称,检索数据,会展现该公司的某个岗位正面评论率,负面评论率,正面评论数和负面评论数等数据,可以通过终端展示。
另外,本发明提出了一种用工平台正负面评论识别的系统,系统框图如附图2所示:
预处理模块201,用于获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
在本步骤中,获取用工系统工人评论数据文本,将评论数据文本保存为工人评论文本XP。获取工人评论文本XP中新增评论文本,建立文本集合MX(Y),即第一文本集合,其中X表示评论总数,Y表示评论编号。本发明仅对新增评论文本进行处理,降低数据处理量,值得注意的是,在初始化新增评论文本时已经涵盖了在前大部分数据,因此并不会使得结果出现较大误差。
建模模块202,用于对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure BDA0003044534210000121
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
建立标准正面词库Zdic,初始化正面词汇200个,例如(喜欢,好,待遇好,薪酬高,厚道,福利好,环境好,吃得好,轻松,不累,宽松,友爱,互助,开心,愉快,快乐,积极,创新,进取,及时....)。建立标准负面词库Fdic,初始化正面词汇150个,例如(不好,差,过分,低,难做,失望,沮丧,悲伤,凌乱,讨厌,变态,可笑,鄙视,浪费,灯下黑,拖欠....)。
数据处理模块203,用于遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
具体的,本步骤中,关键词类型包括名词、形容词、动词等,遍历文本集合MX(Y)分别对特征矩阵进行数据更新;
遍历文本集合MX(Y),对每一个新增加的工人评论,利用jieba分词,对评论进行分词,将分词装载到数据集合FWi(m),其中i表示词性,m表示词语位置。遍历数据集合FWi(m),其中词性为名词的,判断FWi(m)是否在用工公司表中,如果FWi(m)值在用工公司表中,提取特征矩阵
Figure BDA0003044534210000122
其中G取FWi(m)的值,R取评论的工人的岗位。
对于数据集合FWi(m)中i为形容词的词汇,将其与正面词库Zdic、负面词库Fdic进行比对,若属于正面词库Zdic中词汇则特征矩阵
Figure BDA0003044534210000123
中Z计数增加1,若属于负面词库Fdic中词汇,则f计数增加1。
若对于数据集合FWi(m)中i为形容词的词汇,既不归属正面词库Zdic、又不归属负面词库Fdic。例如数据集合FWi(m)中m=m1的词汇FWi(m1),既不归属正面词库Zdic、又不归属负面词库Fdic。则对正面词库Zdic和负面词汇库负面词库Fdic中全部词汇遍历比对,通过改进的PMI算法(本申请中成为WGS算法,改进的词汇比对算法),计算与每个标准词汇的值。
比对正面词库Zdic算法,采用基于位置距离的词汇出现概率算法WGS,WGS算法逻辑是:判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,假设两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,如果两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,并且比率越大,关联性越强。通过加乘两个词语之间距离,对PMI算法进行优化,更直观反映两个词语之间的关联性。具体公式如下:
Figure BDA0003044534210000131
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
判断两个词语FWi(m1)与Zdic(g)出现的概率,用WGS(FWi(m1),Zdic(g))表示,FWi(m1)为需要被判定的词汇,Zdic(g)为正面词库里编号为g的词汇,WGS越大则两个词汇出现的概率越大,词语之间的关联性越强,假设两个词语之间没有关系,其单独出现概率之乘积p(FWi(m1),Zdic(g))等于两个词语一起出现的概率p(FWi(m1))p(Zdic(g)),如果两个词语之间有关联,其共同出现概率p(FWi(m1),Zdic(g))应大于单独出现概率之乘积p(FWi(m1))p(Zdic(g)),并且比率越大,WGS越大,表示关联性越强。通过加乘两个词语之间距离h,对PMI算法进行优化,更直观反映两个词语之间的关联性,结合词语出现概率与词语位置关系信息,词语词汇判定更加准确。此外,本发明还加入了对历史平均距离的考虑,使得算法的容错性更强。
比对负面词库Fdic算法如下:
Figure BDA0003044534210000132
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率。
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率。
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
通过基于位置距离的词汇出现概率算法WGS如下:
Figure BDA0003044534210000141
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1。Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1。
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库Zdic中,并且特征矩阵
Figure BDA0003044534210000142
中,Z计数增加1。若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库Fdic中,并且特征矩阵
Figure BDA0003044534210000143
中,f计数增加1。
根据特征矩阵
Figure BDA0003044534210000144
中,正面评论数z和负面评论数f,计算正面评论概率s,和负面评论概率p,将s和p保存到特征矩阵
Figure BDA0003044534210000145
中。在计算结束后,通过循环算法将既往的评论数据累加到特征矩阵。所述循环算法为for循环或者while循环。
展示模块204,用于展示所述正面评论数、负面评论数、正面评论率、负面评论率。
用户根据用工公司名称和岗位名称,检索数据,会展现该公司的某个岗位正面评论率,负面评论率,正面评论数和负面评论数等数据,可以通过终端展示。
另外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如用工平台正负面评论识别的方法。
本发明提出了一种用工平台正负面评论识别的方法及系统,基于新增评论文本分析用工企业的正负面评论,同时采用改进的词汇比对算法计算词语之间的关联性,从而计算获得用工公司特征矩阵,在计算完成并获得用工公司特征矩阵后累加在先数据库保存的既往特征矩阵数据,得到用工企业的当前正负面评论数据。本发明仅对新增评论文本进行数据处理,降低了数据处理的时间,减小了程序时间复杂的,同时采用算法通过关联性特征实现正负面数据的计算,提高了算法的效率。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种用工平台正负面评论识别的方法,其特征在于,
步骤101,获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
步骤102,对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
步骤103,遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
步骤104,展示所述正面评论数、负面评论数、正面评论率、负面评论率。
2.根据权利要求1所述的方法,其特征在于,所述对用工公司特征矩阵建模具体包括:提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure FDA0003044534200000011
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
3.根据权利要求1所述的方法,其特征在于,遍历所述第一文本集合,根据关键词类型分别进行数据处理具体包括:遍历文本集合,对每一个新增加的工人评论,对评论进行分词,将分词装载到第一数据集合,遍历第一数据集合,其中词性为名词的,判断第一数据集合是否在用工公司表中,若所述第一数据集合值在用工公司表中,提取特征矩阵
Figure FDA0003044534200000012
其中G取第一数据集合的值,R取评论的工人的岗位;
对于第一数据集合关键词类型为形容词的词汇,与正面词库、负面词库进行比对,若属于正面词库中词汇则特征矩阵
Figure FDA0003044534200000013
中正面计数器加一,若属于负面词库中词汇,则负面计数器加一;
若对于第一数据集合关键词类型为形容词的词汇,既不归属正面词库、又不归属负面词库,则对正面词库和负面词汇库负面词库中全部词汇遍历比对,通过改进的词汇比对算法,计算与每个标准词汇的值;
所述改进的词汇比对算法为:采用基于位置距离的词汇出现概率算法,判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,若两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,若两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,具体公式如下:
Figure FDA0003044534200000021
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
比对负面词库Fdic算法如下:
Figure FDA0003044534200000022
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离。
4.根据权利要求3所述的方法,其特征在于,通过基于位置距离的词汇出现概率算法为:
Figure FDA0003044534200000031
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1;Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1;
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库中,并且特征矩阵
Figure FDA0003044534200000032
中,正面计数器加一,若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库中,并且特征矩阵
Figure FDA0003044534200000033
中,负面计数器加一。
5.一种用工平台正负面评论识别的系统,其特征在于,
预处理模块201,用于获取评论数据文本并保存为工人评论文本,标记所述工人评论文本中的新增评论文本建立第一文本集合;
建模模块202,用于对用工公司特征矩阵建模,建立标准正面词库和标准负面词库;
数据处理模块203,用于遍历所述第一文本集合,根据关键词类型分别进行数据处理,获得正面评论数、负面评论数、正面评论率、负面评论率;
展示模块204,用于展示所述正面评论数、负面评论数、正面评论率、负面评论率。
6.根据权利要求5所述的系统,其特征在于,所述对用工公司特征矩阵建模具体包括:提取用工公司数据,建立用工公司表和公司岗位表,对用工公司表和公司岗位表,建立用工公司特征矩阵
Figure FDA0003044534200000041
其中G表示公司名称,R表示岗位名称,z表示正面评论数,f表示负面评论数,s表示正面评论率,p表示负面评论率。
7.根据权利要求5所述的系统,其特征在于,遍历所述第一文本集合,根据关键词类型分别进行数据处理具体包括:遍历文本集合,对每一个新增加的工人评论,对评论进行分词,将分词装载到第一数据集合,遍历第一数据集合,其中词性为名词的,判断第一数据集合是否在用工公司表中,若所述第一数据集合值在用工公司表中,提取特征矩阵
Figure FDA0003044534200000042
其中G取第一数据集合的值,R取评论的工人的岗位;
对于第一数据集合关键词类型为形容词的词汇,与正面词库、负面词库进行比对,若属于正面词库中词汇则特征矩阵
Figure FDA0003044534200000043
中正面计数器加一,若属于负面词库中词汇,则负面计数器加一;
若对于第一数据集合关键词类型为形容词的词汇,既不归属正面词库、又不归属负面词库,则对正面词库和负面词汇库负面词库中全部词汇遍历比对,通过改进的词汇比对算法,计算与每个标准词汇的值;
所述改进的词汇比对算法为:采用基于位置距离的词汇出现概率算法,判断两个词语出现的概率,出现的概率越大则词语之间的关联性越强,若两个词语之间没有关系,其单独出现概率之乘积等于两个词语一起出现的概率,若两个词语之间有关联,其共同出现概率应大于单独出现概率之乘积,具体公式如下:
Figure FDA0003044534200000044
其中,p(FWi(m1),Zdic(g))为词汇FWi(m1)和正面词库Zdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Zdic(g))为对比词汇Zdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离;
比对负面词库Fdic算法如下:
Figure FDA0003044534200000051
其中,p(FWi(m1),Fdic(g))p(FWi(m1),Zdic(g))为词汇FWi(m1)和负面词库Fdic中位置为g的词汇,在所有文本QK中共同出现的概率;
其中,p(FWi(m1))为词汇FWi(m1)在所有评论文本QK中出现的概率
其中,p(Fdic(g))为对比词汇Fdic(g)在所有评论文本QK中出现的概率;
其中,h=|m1-g|,表示该词汇与产品词汇位置的距离;
其中,r为该词汇与产品词汇位置的历史距离平均距离。
8.根据权利要求7所述的系统,其特征在于,通过基于位置距离的词汇出现概率算法为:
Figure FDA0003044534200000052
Epre(FWi(m1))大于0.1时,设立临时计数器U,表示正面评论指数,U计数增加1;Epre(FWi(m1))小于-0.1时,设立临时计数器V,表示负面评论指数,V计数增加1;
判断U、V最大值max(U、V),若U最大,该评论语句为正面,将该词汇FWi(m1)加入正面标准词汇库中,并且特征矩阵
Figure FDA0003044534200000053
中,正面计数器加一,若V最大,该评论语句为负面,将该词汇FWi(m1)加入负面标准词汇库中,并且特征矩阵
Figure FDA0003044534200000061
中,负面计数器加一。
9.一种计算机可读存储于介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-4任一项的方法。
CN202110466944.8A 2021-04-28 2021-04-28 一种用工平台正负面评论识别的方法及系统 Active CN113158669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110466944.8A CN113158669B (zh) 2021-04-28 2021-04-28 一种用工平台正负面评论识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110466944.8A CN113158669B (zh) 2021-04-28 2021-04-28 一种用工平台正负面评论识别的方法及系统

Publications (2)

Publication Number Publication Date
CN113158669A true CN113158669A (zh) 2021-07-23
CN113158669B CN113158669B (zh) 2023-03-28

Family

ID=76871879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110466944.8A Active CN113158669B (zh) 2021-04-28 2021-04-28 一种用工平台正负面评论识别的方法及系统

Country Status (1)

Country Link
CN (1) CN113158669B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628206A (zh) * 2023-06-08 2023-08-22 江苏万禾信息技术有限公司 基于数据分析的企业信用分析管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN107203520A (zh) * 2016-03-16 2017-09-26 中国科学院上海高等研究院 酒店情感词典的建立方法、评论的情感分析方法及系统
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
US20170200205A1 (en) * 2016-01-11 2017-07-13 Medallia, Inc. Method and system for analyzing user reviews
CN107203520A (zh) * 2016-03-16 2017-09-26 中国科学院上海高等研究院 酒店情感词典的建立方法、评论的情感分析方法及系统
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN107330613A (zh) * 2017-06-29 2017-11-07 平安万家医疗投资管理有限责任公司 一种舆情监控方法、设备及计算机可读存储介质
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO XU等: "Identifying the semantic orientation of terms using S-HAL for sentiment analysis", 《KNOWLEDGE-BASED SYSTEMS》, 12 April 2012 (2012-04-12) *
江疆: "基于微博情感分析的企业形象评价研究——以某电网公司为例", 《中国科技纵横》, no. 6, 31 March 2016 (2016-03-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628206A (zh) * 2023-06-08 2023-08-22 江苏万禾信息技术有限公司 基于数据分析的企业信用分析管理系统
CN116628206B (zh) * 2023-06-08 2024-01-05 乌鲁木齐汇智兴业信息科技有限公司 基于数据分析的企业信用分析管理系统

Also Published As

Publication number Publication date
CN113158669B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
Mikheev Automatic rule induction for unknown-word guessing
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN106951530B (zh) 一种事件类型抽取方法和装置
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN108509490B (zh) 一种网络热点话题发现方法及系统
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
US20110055228A1 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
CN115186654B (zh) 一种公文文本摘要生成方法
CN112836017B (zh) 一种基于分层主题驱动的自注意力机制的事件检测方法
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN111651559A (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN113158669B (zh) 一种用工平台正负面评论识别的方法及系统
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN114492392A (zh) 一种基于短语向量构造的年报风险挖掘系统和方法
WO2024037483A1 (zh) 文本处理方法、装置、设备及介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN109977235B (zh) 一种触发词的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant