CN112966070A - 基于方面情感分析的公司员工评论分析系统与方法 - Google Patents
基于方面情感分析的公司员工评论分析系统与方法 Download PDFInfo
- Publication number
- CN112966070A CN112966070A CN202110151221.9A CN202110151221A CN112966070A CN 112966070 A CN112966070 A CN 112966070A CN 202110151221 A CN202110151221 A CN 202110151221A CN 112966070 A CN112966070 A CN 112966070A
- Authority
- CN
- China
- Prior art keywords
- data
- company
- module
- comment
- employee
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 230000008451 emotion Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012552 review Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于方面情感分析的公司员工评论分析系统,数据采集模块连接数据库,数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,结果展示模块连接算法处理模块,用于结果的展示。本发明系统可以处理从职场社区网站上爬取的在线数据,具有实时性和可靠性,将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,从而根据总体评分,修正各个方面评分。
Description
技术领域
本发明属于方面观点挖掘领域,具体涉及一种基于方面情感分析的公司员工评论分析系统与方法。
背景技术
随着Web2.0技术的出现和发展,越来越多的人可以自由地对产品和服务等各种实体发表意见,这些评论对于其他用户做出明智的决定以及对商家/公司进行自我改善、稳健发展都有着很重要的作用。为了更好的促进公司本身的发展,为公司生成基于方面情感的嵌入,构成来源于公司员工不同方面的意见,并且为公司明确自身的不足和优势,对公司进行自定义排名给求职者提供了数据参考。
员工对公司的评价数量每天以指数级的速度增长,以至于求职者越来越难以浏览众多员工对公司的评论以找到所需的有效信息。并且,面对着现有的无数公司,求职者对它们进行自定义排名并从中选择一个符合自己需求的企业是一项艰巨繁琐的任务。因此如何采用计算机来自动并准确地分析这些评论,成为了当今社会的研究热点。在现有的技术中,基于语言模式和深度学习是情感分析的前沿方法,而方面情感分析(ABSA)的主要挑战来自于识别方面以及其对应的情感。其中,方面情感分析:一般称作Aspect Based SentimentAnalysis。旨在识别一条句子中一个指定方面(Aspect)的情感极性。常见的有:在电商网站的一条评论中有涉及到关于价格、服务、售后等方面的评价,所以需要区分各自方面的情感倾向。
尽管围绕电影,音乐,酒店等主题进行的方面情感分析已经完成了相当数量的工作,然而这项工作(即通过研究可靠的员工评论——包含文本数据与数值数据,为公司生成基于方面情感的嵌入,构成公司员工不同方面的意见)还是比较少见。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于方面情感分析的公司员工评论分析系统与方法,可以得到更加全面的公司员工评论分析结果,从而帮助公司自身更好的发展,以及求职者可对公司进行自定义排名选择公司。
本发明的技术方案如下:
一种基于方面情感分析的公司员工评论分析系统,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:
所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示。
数据采集模块,用于采集职场社区网站上不同公司员工的匿名评论数据,并且按公司分类分别存入数据库,所述评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”。
所述的“各个方面”包括:“工作与生活平衡”、“文化与价值观”、“高级管理层”、“职业机会”和“薪酬与福利”。
数据预处理模块,用于对采集到的公司员工评论数据进行预处理:首先将收集到的数据集分为两类数据,第一类数据为:文本数据,包括公司名称和员工对公司的文本评论,第二类数据为:数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作。
所述的特征提取模块通过特征提取算法对预处理后的公司员工评论数据进行特征提取,为每个方面获取更多的相关词,得到字词特征向量和方面级向量,最终将文本数据转化为数字形式表述。
算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。
结果展示模块,用于向用户(含求职者、公司自身)展示最终的计算分析结果以及系统运行状况。
进一步的,所述的数据采集模块的数据获取的方式包括网络爬虫、API接口、数据源三种方式。由于本发明所选用的职场社区网站未提供API接口,故所述的数据采集模块采用爬虫相关技术来获取数据。由于采用直接请求的方式参数过多,比较难以伪造,所以该模块采用模拟浏览器来获取数据,并且浏览器方式比较通用。具体步骤如下:
(1)申请账号;
(2)模拟登录,得到Cookie;
(3)把Cookie放到模拟浏览器的请求头;
(4)模拟鼠标点击页面,然后将获取的数据存进数据库。
所述的数据预处理模块的预处理操作具体如下:
(1)将文本数据中的单词全转换为小写;
(2)删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;
(3)用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化。
(4)将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。
所述的特征提取模块则是在文本数据完成数据预处理之后,根据公司员工对公司“各个方面的评价等级”,设定关键词对各个方面进行描述,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。
所述的算法处理模块中的算法模型可以为Attention机制、Bert、CNN、LRR(LatentRating Regression)、LSTM(Long Short-Term Memory)或RNN(Recurrent NeuralNetwork)。
考虑到数据集庞大,为了减少人工标注,以下采用的是LRR模型,给定评论中观察到的总体评分的概率公式为:
其中,rd是评论d的总体评分,Sd={Sd1,Sd2,…,Sdk}是每个方面的预测评分等级,其中k表示有k个方面。且对于每个方面Ai,Wi表示该方面的词频矩阵,βi表示该方面的词性极性。而αd是相应的推断方面权重,满足αd~N(μ,∑),且αd服从高斯分布,∑和μ分别代表高斯分布的平均值和方差参数,δ2是总体评级预测的方差。αdi≥0且根据公司员工评论内容计算出公司员工对公司“各个方面”的相对权重αdi,并根据员工对公司的总体评分rd,给出修正后的该公司每个方面评分Sdi。
通过结果展示模块显示用户选取公司的员工评论内容,并将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。
一种基于方面情感分析的公司员工评论分析方法,包括以下步骤:
步骤(1)、通过数据采集模块从职场社区网站采集不同公司员工评论数据并按公司分类分别存入数据库,采集的数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”;
步骤(2)、数据预处理模块读取数据库中的数据进行预处理,首先将读取的数据分为文本数据和数值数据,文本数据,包括公司名称和员工对公司的文本评论;数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作。
所述的预处理操作包括数据单词转换为小写、去停用词、添加用户词典以及英文分词;
步骤(3)、通过特征提取模块对预处理后的数据用特征提取算法进行特征提取,为每个方面获取更多的相关词,并且得到字词特征向量和方面级向量;
步骤(4)、利用算法处理模块中的模型将给定员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,并根据员工对公司的总体评分rd,给出修正后的该公司每个方面评分Sdi。
步骤(5)、通过结果展示模块将得到将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。
本发明有益效果如下:
本发明方面情感分析的公司员工评论分析系统,可以处理从职场社区网站上爬取的在线数据,具有实时性和可靠性,而且通过特征提取算法挖掘更多的方面种子词汇,通过模型将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,从而根据总体评分,修正各个方面评分。为了方便用户(含求职者、公司自身)的可读性,本发明还提供了友好的界面展现及交互平台,如此能够有效地提高用户之间有数据依据的交互。
附图说明
图1为本发明实施例的工作流程图;
图2为本发明实施例的模块结构图;
图3为本发明实施例中网络爬虫的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,是本发明公司员工评论分析系统较佳实施例的工作流程图。
步骤1,数据采集并且存储:
数据采集模块通过分布式无头浏览器网络的爬虫方式,从职场社区网站上采集不同公司员工的匿名评论数据,即公司员工评论数据;并按公司分类分别存入MongoDB数据库。所述的公司员工评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”。
如图3所示,分布式无头浏览器网络爬虫利用IP代理池和无头浏览器集群实现爬取职场社区网站上不同公司员工的评论数据。IP代理池通过爬取多个网站免费代理存入Redis数据库,定期检测免费代理的可用性,将需要爬取的公司链接URL存入Redis。无头浏览器集群从Redis拉取请求,模拟浏览器点击翻页等操作,监听员工评论API请求获取评论数据存入数据库中。无头浏览器爬虫相对于传统爬虫减少逆向JS,破解网站加密等操作,更适用于新手操作,分布式相对于单节点加快了数据爬取速度。
步骤2,数据预处理:
数据预处理模块,通过读取MongoDB数据库中的数据,获取公司员工评论数据。首先将收集到的数据分为文本数据和数值数据;接着评论数据进行预处理操作:
首先将文本数据中的单词全转换为小写;然后删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;再用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化。最后将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。
步骤3,特征提取:
通过特征提取模块对预处理后的数据进行特征提取。具体而言:根据公司员工对公司“各个方面的评价等级”,设定关键词来描述各个方面,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。
所述的特征提取算法采用自引导算法Boot-strapping。
步骤4,数据分析:
通过算法处理模块对上述特征提取后的数据利用LRR模型进行处理。具体而言:通过LRR模型,系统将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。
给定评论中观察到的总体评分的概率公式为:
其中,rd是评论d的总体评分,Sd={Sd1,Sd2,…,Sdk}是每个方面的预测评分等级,其中k表示有k个方面。且对于每个方面Ai,Wi表示该方面的词频矩阵,βi表示该方面的词性极性。而αd是相应的推断方面权重,满足αd~N(μ,∑),且αd服从高斯分布,∑和μ分别代表高斯分布的平均值和方差参数,δ2是总体评级预测的方差。αdi≥0且根据公司员工评论内容计算出公司员工对公司“各个方面”的相对权重αdi,并根据员工对公司的总体评分rd,给出修正后的该公司每个方面评分Sdi。
步骤5,Web数据展示:
通过结果展示模块将处理好的数据结果通过界面呈现。方便求职者和公司更为清楚的了解数据结果,通过ECharts实现图表的形式呈现在界面上。
如图2所示,本发明基于方面情感分析的公司员工评论分析系统一种基于方面情感分析的公司员工评论分析系统,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:
所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示。
数据采集模块,通过爬虫技术在职场社区网站上获取不同公司员工的在线评论数据。
数据预处理模块用于对收集到的数据集进行预处理。在预处理之前,首先将收集到的数据集分为两类数据,第一类数据为:文本数据,第二类数据为:数值数据;接着对文本数据执行文本分词,停用词过滤,句法分析等预处理操作。
特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量。该模块采用自引导算法(即Boot-strapping)作为特征提取算法,具体操作如下:基于公司员工对公司“各个方面的评价等级”,设定关键词来描述各个方面。接着将所述文本数据以条为单位,采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,如此对提出的种子词汇进行扩充。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。
算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。
算法处理模块中的算法模型可以为Attention机制、Bert、CNN、LRR(LatentRating Regression)、LSTM(Long Short-Term Memory)或RNN(Recurrent NeuralNetwork)。
结果展示模块用于用户(含求职者、公司自身)对结果的认识,通过不同的结果的展示,更全面的了解公司员工评论的分析结果内容。将处理好的数据结果通过图表的形式呈现在界面上,所述的图表包括公司员工对公司各方面情感分析折线图、词云图以及修正后的公司员工各方面评分统计图;从而方便用户(含求职者、公司自身)更清楚的了解数据结果。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于方面情感分析的公司员工评论分析系统,其特征在于,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:
所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示;
数据采集模块,用于采集职场社区网站上不同公司员工的匿名评论数据,并且按公司分类分别存入数据库,所述评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”;
数据预处理模块,用于对采集到的公司员工评论数据进行预处理:首先将收集到的数据集分为两类数据,第一类数据为:文本数据,包括公司名称和员工对公司的文本评论,第二类数据为:数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作;
所述的特征提取模块通过特征提取算法对预处理后的公司员工评论数据进行特征提取,为每个方面获取更多的相关词,得到字词特征向量和方面级向量,最终将文本数据转化为数字形式表述;
算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重;
结果展示模块,用于向用户展示最终的计算分析结果以及系统运行状况。
2.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的“各个方面”包括:“工作与生活平衡”、“文化与价值观”、“高级管理层”、“职业机会”和“薪酬与福利”。
3.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,进一步的,所述的数据采集模块的数据获取的方式包括网络爬虫、API接口、数据源三种方式。
4.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的数据预处理模块的预处理操作具体如下:
(1)将文本数据中的单词全转换为小写;
(2)删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;
(3)用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化;
(4)将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。
5.根据权利要求1或4所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的特征提取模块则是在文本数据完成数据预处理之后,根据公司员工对公司“各个方面的评价等级”,设定关键词对各个方面进行描述,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词;在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。
6.根据权利要求5所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,所述的算法处理模块中的算法模型采用的是LRR模型,给定评论中观察到的总体评分的概率公式为:
7.根据权利要求6所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,通过结果展示模块显示用户选取公司的员工评论内容,并将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。
8.根据权利要求1所述的一种基于方面情感分析的公司员工评论分析系统,其特征在于,一种基于方面情感分析的公司员工评论分析方法,包括以下步骤:
步骤(1)、通过数据采集模块从职场社区网站采集不同公司员工评论数据并按公司分类分别存入数据库,采集的数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”;
步骤(2)、数据预处理模块读取数据库中的数据进行预处理,首先将读取的数据分为文本数据和数值数据,文本数据,包括公司名称和员工对公司的文本评论;数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作;所述的预处理操作包括数据单词转换为小写、去停用词、添加用户词典以及英文分词;
步骤(3)、通过特征提取模块对预处理后的数据用特征提取算法进行特征提取,为每个方面获取更多的相关词,并且得到字词特征向量和方面级向量;
步骤(4)、利用算法处理模块中的模型将给定员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,并根据员工对公司的总体评分rd,给出修正后的该公司每个方面评分Sdi;
步骤(5)、通过结果展示模块将得到将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110151221.9A CN112966070A (zh) | 2021-02-03 | 2021-02-03 | 基于方面情感分析的公司员工评论分析系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110151221.9A CN112966070A (zh) | 2021-02-03 | 2021-02-03 | 基于方面情感分析的公司员工评论分析系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112966070A true CN112966070A (zh) | 2021-06-15 |
Family
ID=76274730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110151221.9A Pending CN112966070A (zh) | 2021-02-03 | 2021-02-03 | 基于方面情感分析的公司员工评论分析系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966070A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312634A (zh) * | 2023-11-29 | 2023-12-29 | 大文传媒集团(山东)有限公司 | 人工智能数据整合传播处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330577A (zh) * | 2017-05-23 | 2017-11-07 | 合肥智权信息科技有限公司 | 一种基于大数据的公司评价系统和方法 |
CN108876179A (zh) * | 2018-06-29 | 2018-11-23 | 郑州云海信息技术有限公司 | 一种基于大数据的企业可信赖度评价方法及系统 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
CN111488456A (zh) * | 2020-04-10 | 2020-08-04 | 北京洛必德科技有限公司 | 一种商家用户评价分析方法及系统 |
-
2021
- 2021-02-03 CN CN202110151221.9A patent/CN112966070A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330577A (zh) * | 2017-05-23 | 2017-11-07 | 合肥智权信息科技有限公司 | 一种基于大数据的公司评价系统和方法 |
CN108876179A (zh) * | 2018-06-29 | 2018-11-23 | 郑州云海信息技术有限公司 | 一种基于大数据的企业可信赖度评价方法及系统 |
CN110134765A (zh) * | 2019-05-05 | 2019-08-16 | 杭州师范大学 | 一种基于情感分析的餐厅用户评论分析系统及方法 |
CN111488456A (zh) * | 2020-04-10 | 2020-08-04 | 北京洛必德科技有限公司 | 一种商家用户评价分析方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312634A (zh) * | 2023-11-29 | 2023-12-29 | 大文传媒集团(山东)有限公司 | 人工智能数据整合传播处理系统 |
CN117312634B (zh) * | 2023-11-29 | 2024-02-20 | 大文传媒集团(山东)有限公司 | 人工智能数据整合传播处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
US10521464B2 (en) | Method and system for extracting, verifying and cataloging technical information from unstructured documents | |
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
CN106663125A (zh) | 提问句生成装置以及计算机程序 | |
Barbosa et al. | Evaluating hotels rating prediction based on sentiment analysis services | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111309891B (zh) | 一种阅读机器人进行自动问答的系统及其应用方法 | |
CN112100999B (zh) | 一种简历文本相似度匹配方法和系统 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN114548321A (zh) | 基于对比学习的自监督舆情评论观点对象分类方法 | |
CN112966070A (zh) | 基于方面情感分析的公司员工评论分析系统与方法 | |
CN111951079B (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN112711666A (zh) | 期货标签抽取方法及装置 | |
Mahboob et al. | Sentiment analysis of RSS feeds on sports news–a case study | |
CN116257618A (zh) | 一种基于细粒度情感分析的多源智能旅游推荐方法 | |
CN113886530A (zh) | 一种语义短语抽取方法及相关装置 | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
CN113468331A (zh) | 一种舆情信息情绪分类方法 | |
TWI712948B (zh) | 文本情緒分析的方法,裝置與電腦程式產品 | |
CN114328902A (zh) | 文本标注模型构建方法和装置 | |
Kuyoro et al. | Intelligent Essay Grading System using Hybrid Text Processing Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210615 |
|
RJ01 | Rejection of invention patent application after publication |