CN115238709A - 一种政策公告网络评论情感分析方法、系统及设备 - Google Patents
一种政策公告网络评论情感分析方法、系统及设备 Download PDFInfo
- Publication number
- CN115238709A CN115238709A CN202211051845.4A CN202211051845A CN115238709A CN 115238709 A CN115238709 A CN 115238709A CN 202211051845 A CN202211051845 A CN 202211051845A CN 115238709 A CN115238709 A CN 115238709A
- Authority
- CN
- China
- Prior art keywords
- network platform
- emotion
- policy
- user
- sentiment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种政策公告网络评论情感分析方法、系统及设备,首先针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据;然后对采集到的文本数据进行预处理,去除噪声数据;基于融合了语义依存算法、图搜寻算法、N‑Gram语言模型的分词方法对预处理后的评论文本进行分词,得到待分析评论文本;接着采用网络平台用户分类模型识别与政策公告有交集的网络平台用户;基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析。本发明能够为相关机构或部门提供政务实践的启示和建议方向,帮助政策公告制定或发布主体更好地倾听民意、与群众互动。
Description
技术领域
本发明属于文本数据挖掘和文本情感分析技术领域,涉及一种网络评论情感分析方法、系统及设备,具体涉及一种能够基于细粒度情感词典对政策公告类网民评论进行情感分析方法、系统及设备。
背景技术
随着互联网大数据和文本挖掘技术的发展,对网络大规模人群情感的实时监测成为可能。目前,研究者开发了多种直接适用于获取网络情感类型或维度信息的在线软件或工具。例如,在线软件“观点发现者”(Opinion-Finder)、“语言获得与词汇计数程序”(LIWC),但极少能满足网络政务舆情的现实分析需求。以往开发的中文情感词典例如大连理工大学情感词汇本体库、Hownet情感词典、NTUSD情感词典,都具有粒度较粗、语料难以适用于网络情境的缺点。特别是针对政策类公告评论进行分析,以往词典由于领域或行业差异而难以支持分析工作。为准确全面反映网民对政府政务的反响,需建立新的细粒度情感词典。
现有技术中对分词多用jieba分词等传统分词方法。jieba分词的应用广泛,但对于歧义情况较难解决(如“正解决”的分词可能是“正解/决”或“正/解决”)。以往的分词方案如jieba分词需要借助停用词典排除分词结果中无意义的停用词,并额外进行否定词配价以处理反向表达的情况,这不仅增加人为干预的工作,也容易损失语言信息。
以往对网络平台用户的分类用多采用监督学习的方法如逻辑回归、神经网络学习,这依赖于大量数据标注,特征提取和选择较为复杂和模糊,并且拟合效果不容易把控。例如一种用户分类方法及服务器(授权公告号:CN105701498A)。以往行业或领域情感分析专利的分析视角主要为〈对象,属性〉、〈属性,评价〉、〈属性,情感〉等。例如针对产品评论信息的细粒度情感分析系统及方法(授权公告号:CN103207855B),细粒度情感分析模型构建方法、设备及可读存储介质(授权公告号:CN108647205B),一种行业评论数据细粒度情感分析方法(授权公告号:CN104268197B),电影评论情感分析方法及装置(授权公告号:CN109684647B)。而本方案以〈网络平台用户类别,情感〉二元组及其他维度的关联为视角分析政策公告领域的网络舆情。
本发明不同于以往较粗粒度的情感分析方法,本发明针对网络情境下自然语言的特点构建新型的细颗粒度情感词典,制定包含点赞加权规则等一系列的情感分析规则,并通过基于零样本学习的网络平台用户分类识别模型进行分析多维度、情感细粒度的情感分析。此外,本方案提出融合了语义依存算法、图搜寻算法和N-Gram语言模型的新分词方法以解决目前分词方法存在的问题。相比已有技术,本方案分词方法不仅可自动排除无意义词,分词效率高;而且可分出否定搭配的情况,语义还原度也更高。
发明内容
为了解决上述技术问题,本发明提供了一种政策公告网民评论情感分析方法、系统及设备,用于对政策公告类网民评论的网络平台文本进行细粒度情感检测和舆情预警。
本发明的方法所采用的技术方案是:一种政策公告网络评论情感分析方法,包括以下步骤:
步骤1:针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据;
其中所述待分析政策公告根据政策公告网络评论量来确定,或根据分析师的分析需求进行人为主观确定。
步骤2:对采集到的文本数据进行预处理,包括去除噪声数据;
采用正则表达式匹配并去除无关联的噪声数据。无关的噪声数据主要包括营销广告、明星超话、无关网址等数据。
步骤3:基于融合了语义依存算法、图搜寻算法及N-Gram语言模型的分词方法对步骤2中预处理后的评论文本进行分词;
本发明分词方法的具体实现包括以下子步骤:
步骤3.1:使用SDP/DEP语义依存算法,将文本数据映射到一个图结构里面,针对句子或篇章生成语义依存图;
步骤3.2:使用深度优先SFS算法和广度优先BFS算法两种图搜寻算法在语义依存图上搜寻合适的语言单位LU,每个语言单元LU即为一个分词结果;
所述深度优先SFS算法,从一个起始节点移动到某个结束节点,然后从同一起始节点沿着不同的路径重复搜索,直到查询得到答案;
所述广度优先BFS算法,通过一次探索一层来进行搜索,从距离起始节点一层深的节点开始,然后是深度二的节点,然后是深度三的节点,依此类推,直到遍历整个图;
步骤3.3:N-Gram语言模型可被用以计算语言单元LU={W1,W2,…Wn};采用N-Gram语言模型按照联合概率最大化的原则选择语言单元LU={W1,W2,…Wn};P(W1:n)为联合概率,具体表示为:
Wk是语言单元组中的词单元,k是词单元的排列次序,n是k的上界,k=1,2…,n;
一个句子与他的语言单元组的关系满足马尔科夫关系,可按照联合概率最大化的原则选择语言单元LU={W1,W2,…Wn},其中每个词单元Wk不一定是相互连接在一起的。
步骤4:采用网络平台用户分类模型识别与政策公告有交集的网络平台用户;
步骤4.1基于所采集的大量网络平台用户主页信息,按照标签体系对网络平台用户类别进行标注并建立人工数据集;
基于所采集的若干网络平台用户主页信息,按照预设置的标签体系对网络平台用户类别进行标注并建立人工数据集;
所述网络平台用户主页信息包括用户名称、平台认定属性、用户自定义说明三种,其中平台认定属性可分为认证情况、会员等级、粉丝数、行业类别,用户自定义说明可分为用户说明、用户简介、用户标签;
所述网络平台用户身份类别、网络平台用户专业领域类别,均为预定义的一级分类类别,并基于此进一步预定义二级分类类别;
基于人工标注标签数据建立政策公告相关的网络平台用户知识库,以作为分类模型的人工数据集;需人工标注的一级标签类别包括网络平台用户身份类别、网络平台用户所属专业领域类别,以及一级标签附属的二级标签;
步骤4.2利用人工数据集和自然语言文本构建网络平台用户分类模型,最后用于识别待分析数据集中的网络平台用户类别;
所述网络平台用户分类模型识别模型由句子变换模型SBERT、词变换模型word2vec和零样本学习分类器组成;
针对用户名称、用户说明、用户简介、用户标签的文本特征,采用句子变换模型SBERT将其变为768维特征向量;
针对网络平台用户的一级分类类别和二级分类类别数据,采用词变换模型word2vec将其变为不同维度的特征向量;
预定义的标签类别名称一般是很短的词组,因此采用word2vec进行向量化;
将句子变换模型SBERT和词变换模型word2vec的输出作为语言量化表达,并通过零样本学习分类器识别网络平台用户类型W*;
W*=arg minw{|XTW-Y||2+λ||W-I||2};
其中,X是用户名称、用户说明、简介内容、用户标签文本SBERT特征向量在词向量空间的投影;Y为网络平台用户一级和二级分类名称的word2vec词向量;W是矩阵参数,λ是固定常数,I是单位矩阵;
针对待分析数据,应用训练好的网络平台用户分类模型即可识别出相应的网络平台用户类别。
步骤5:基于构建的细粒度情感词典及情感分析规则进行情感分析;
基于构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析,包括以下子步骤:
步骤5.1:基于半自动化词典构建方案构建细粒度情感词典;
首先,依据社会心理学设计细粒度情感分类体系;细粒度情感分类体系中的50种情感类别如下:敬佩、快乐、乐观、满意、期望、喜爱、相信、赞扬、祝愿、感激、感动、悲伤、贬责、挫折、低落、妒忌、烦恼、愤怒、孤独、焦虑、紧张、恐惧、轻蔑、失望、无奈、颓废、委屈、心慌、害羞、愧疚、厌恶、疑惑、抑郁、怨恨、自卑、嘲讽、麻木、质疑、尴尬、放松、惊奇、警觉、激动、骄傲、平静、思念、同情、无聊、着急、冷漠;
其次,对积累的政务领域评论语料采用本方案分词方法得到分词数据,通过“情感分类、基于外部词典或词库进行扩展、人工筛选”的方式构建细粒度情感种子词库;
最后,以外部媒体及评论语料库作为扩展词来源语料;在细粒度情感种子词库的基础上利用LU语言单元组对词库进行扩展,并补充网络表情和短语结构规则,并经人工校正最终构建出细粒度情感词典。
步骤5.2:用细粒度情感词典匹配待分析评论文本,并基于情感分析规则计算网民情感分值,情感分析规则包括情感分值计算规则、点赞加权分数计算规则;计算整体网络平台用户评论中关于各类别情感的情感分值;将某主题政策公告下不同类别网络平台用户的细粒度情感进行对比,或结合其他维度进行交叉分析;
所述单条评论的点赞加权分数L为:
其中,M是调整系数,M≤0时公式无应用价值,M>140则导致加权结果超出合理范围、趋近极端,故M的取值范围规定为(0,140];x是单条评论的被点赞数,x≥0;a是对数函数的底数且a>1,本实施例中取常用对数即令a=10。
步骤5.3:基于网络平台用户类别、细粒度情感、其他维度进行交叉分析并将分析结果可视化:交叉分析包括政策公告网民评论中〈网络平台用户类别,细粒度情感〉二元组内的交叉分析,〈网络平台用户类别,细粒度情感〉二元组与其他维度之间的交叉分析;所属其他维度包括时间、IP属地等;
本发明的系统所采用的技术方案是:一种基于细粒度情感词典的政策公告网络评论情感分析系统,包括以下模块:
模块1,用于针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据;
模块2,用于对采集到的文本数据进行预处理,去除无关的噪声数据;
模块3,用于对模块2中预处理后的评论文本进行分词;
模块4,用于采用网络平台用户分类模型识别与政策公告有交集的网络平台用户;
所述网络平台用户分类模型识别模型由句子变换模型SBERT、词变换模型word2vec和零样本学习分类器组成;
模块5,用于基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析。
本发明的设备所采用的技术方案是:一种政策公告网络评论情感分析设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现所述的政策公告网络评论情感分析方法。
本发明不同于以往正负面的情感分类及分析方法,本发明针对政策公告相关自然语言文本,结合网络评论情境下网民表达的特点构建细粒度情感词典;从实际分词效果角度出发构建融合了语义依存算法、图搜寻算法、N-Gram语言模型的分词方法;在以往通用的情感分值计算规则基础上融合点赞加权规则,以贴近网民群体表达特点、真实反映社会心态;通过网络平台用户分类识别模型识别网络平台用户类型,最终进行多维度的情感分析。
本发明在网民情感分析、网络舆情监测、政务治理等研究方向上展开的基础研究工作,能够为相关机构或部门提供政务实践的启示和建议方向,可帮助政策公告制定或发布主体更好地倾听民意、与群众互动。此外,本发明可为其他相关的文本挖掘与分析研究提供研究基础,以更及时、更全面有效地识别与分析政务传播领域中的网民情感。
附图说明
图1为本发明实施例的一种政策公告网络评论情感分析方法流程图;
图2为本发明实施例的句子级语义依存图;
图3为本发明实施例的篇章级语义依存图;
图4为本发明实施例的深度优先算法示意图;
图5为本发明实施例的广度优先算法示意图;
图6为本发明实施例的零样本学习模型结构图;
图7为本发明实施例的网络平台用户分类识别模型结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种政策公告网络评论情感分析方法,包括以下步骤:
步骤1:针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据。
所属文本数据包括评论文本、正文文本、用户信息、时间、IP属地等;用户信息包括用户名称、平台认定属性、用户自定义说明。
本实施例可按新近的、网民参与度较高的政策公告为分析对象,并依据政策公告信息的网络评论量来评判政策公告的网民参与度,可选择以“政策/公告”相关词为关键词来获取政策公告类信息在网络中的评论量,并借助时间变化趋势进行研判。
此外,本实施例可按分析师的分析需求来定向采集待分析文本数据:主要通过设定某主题下的组合关键词、确定特定网址链接、确定话题标签的方法来采集待分析文本数据。
步骤2:对采集到的文本数据进行预处理,去除无关的噪声数据。
本实施例中,采用正则表达式匹配并去除无关联数据;无关联数据主要包括营销广告、明星超话、无关网址等噪声数据。
正则表达式是由普通字符和正则表达式元字符组成的逻辑公式;一个正则表达式可以用来描述或者匹配一系列符合某个句法规则的字符串,并实现对字符串的过滤。
步骤3:对步骤2中预处理后的评论文本进行分词。
本实施例中,依据语义依存关系、图搜寻算法、N-Gram语言模型构建分词方法。首先通过大规模新闻语料、网络评论语料得到语义依存的语义空间统计特征,基于条件概率最大化方法寻找词的最佳组合方式,并获得词组。
常规的分词方法是基于字典的分词,先把句子按照字典切分成词,再寻找词的最佳组合方式,如条件概率方法。但是,同一个词在不同句子里面可以有不同的语义,或者在同一个句子里面有不同语义的词组合(如“没味道、便利店、儿科医生、气味淡”)。基于字典的常规分词方法则会带来干扰,难以胜任现实的分析需求。本方案基于语言单元LU服从空间统计大数定律的思想,即一种语言单元(LU)的表达必须是被很多说话者和文档共同采纳,这样才能够成为被认可的分词组。语言单元在不同文本中出现的空间统计特征就构成了本方案分词算法的数学原理。
本发明的分词方法分为三步。
第一步,使用SDP/DEP语义依存算法,可以将一段文本关系映射到一个图结构里面,基于文本生成Graph结构的语义依存关系图(句子级、篇章级的语义依存关系图示例请分别见图2、图3)。关系图由顶点和边组成,任意两个顶点之间的关系都可用边来表示,顶点集有穷且非空,边集可为空。
第二步,在使用SDP/DEP语义依存算法针对待分析文本生成语义依存图的基础上,使用深度优先(SFS)和广度优先(BFS)两种图搜寻算法在语义依存图上搜寻合适的分词结果,即语言单元LU。
请见图4,SFS算法基于后进先出的堆栈思想实现自上而下地遍历搜索,数字序号即为搜索顺序;SFS算法从一个起始节点移动到某个结束节点,然后从同一起始节点沿着不同的路径重复搜索,直到查询得到答案。在尝试发现离散信息时,SFS算法是合适选择,其也是进行一般图遍历时的合适选择。处理语义丰富的图则允许进行知情搜索,如果发现没有兼容的传出关系的节点,则可以提前终止搜索。因此,知情搜索的执行时间较短、效率高。
请见图5,BFS算法基于先进先出的队列思想实现逐层遍历搜索,数字序号即为搜索顺序;BFS算法通过一次探索一层来进行搜索,从距离起始节点深一层的节点开始搜索,然后是深度二的节点,然后是深度三的节点,依此类推,直到遍历整个图。
第三步,对于通过上述图搜寻算法组合出来的语言单元集合{LU},采用N-Gram语言模型并按照联合概率最大化的原则选择合适的语言单元LU={W1,W2,…Wn};
本实施例基于N-Gram语言模型计算联合概率P(W1:n),并按照最大化概率的原则选择语言单元LU={W1,W2,…Wn},P(W1:n)具体表示为:
Wk是语言单元组中的词单元,k是词单元的排列次序,n是k的上界,k=1,2…,n;一个句子与其语言单元组的关系满足马尔科夫关系,其中每个词Wk不一定是相互连接在一起的;产生第k个词单元的概率可由前面已产生的k-1个词来确定。
通过以上步骤,待分析文本被划分为具有高语义还原度的若干常用词组合。特别的是,通过以上步骤可得到“否定词+情感词”的词组合,对于无意义的停用词可自动排除,保证分词的准确性以及语义还原度。
步骤4:采用网络平台用户分类模型识别与政策公告有交集的网络平台用户。
具体包括以下子步骤:
步骤4.1基于所采集的大量网络平台用户主页信息,按照标签体系对网络平台用户类别进行标注并建立人工数据集。
本实施例基于所采集的若干网络平台用户主页信息,按照预设置的标签体系对网络平台用户类别进行标注并建立人工数据集;
利用人工数据集和自然语言文本构建网络平台用户分类模型,最后用于识别待分析数据集中的网络平台用户类别。
从社交网站网页中提取网络平台用户的主页信息,以用户的主页信息来确定用户特征,具体分类见表1。
表1
为了满足分析需求,制定出预定义的网络平台用户标签体系,基于已积累的网络平台用户数据进行人工标注;需人工标注的新标签类别包括:网络平台用户类型、网络平台用户所属专业领域的一级、二级分类标签;基于人工标注标签数据建立政策公告相关的网络平台用户知识库,以作为人工数据集;在逻辑关系上,各一级分类标签相互独立,从属于一级分类标签的二级分类标签在内部并列;分类体系及标注依据见表2。
表2
网络平台用户身份类别的标注可以依据所有网络平台用户的主页信息;但“网络平台用户所属专业领域类别”和某些主页信息不存在逻辑关联(如粉丝量、会员等级等)。
步骤4.2利用人工数据集和自然语言文本构建网络平台用户分类模型,最后用于识别待分析数据集中的网络平台用户类别。
本实施例的网络平台用户分类模型是以零样本学习原理为基础的分类模型,零样本学习模型结构可见图6;训练阶段,将网络平台用户分类标注的样例数据、语义辅助信息(用户名称、用户说明、简介内容、用户标签)编码为向量,基于此训练学习器;测试阶段,输入测试数据,将测试类语义辅助信息进行编码,并结合训练过程中得到的信息以输出预测类别;最终通过相似比较识别距离最近的预测类别。
具体地说,在训练阶段,利用训练类辅助信息构造文本到特征子空间的双向映射,确定其特征表示(特征1),再根据训练样例和辅助信息文本特征表示之间的对应关系,训练得到映射函数;在测试阶段,依据测试类辅助信息构造其到特征子空间(特征3)的双向映射,再利用训练阶段的映射函数将测试样例映射到特征子空间并得到特征表示(特征2),然后进行相似性判别并确定分类W。此外,语义辅助信息能在训练集和测试集之间起到关联作用,使数据集共享特征子空间。
本实施例中的网络平台用户分类模型由句子变换模型(SBERT–sentence BERT)、词变换模型(word2vec)和零样本学习(zero-shot learning)分类器组成;所述网络平台用户分类模型结构见图7。
针对用户名称、用户说明、简介内容、用户标签的文本特征,采用句子变换模型SBERT将其变为768维特征向量;
针对网络平台用户的一级分类类别和二级分类类别数据,采用词变换模型word2vec将其变为不同维度的特征向量;
将句子变换模型SBERT和词变换模型word2vec的输出作为语言量化表达,并通过零样本学习分类器识别网络平台用户类型W*;
W*=arg minw{|XTW-Y||2+λ||W-I||2};
其中,X是用户名称、用户说明、简介内容、用户标签文本的SBERT特征向量在词向量空间的投影;Y为网络平台用户的一级分类类别和二级分类类别的word2vec词向量;W是矩阵参数,λ是固定常数,I是单位矩阵;
针对待分析数据,应用训练好的网络平台用户分类模型即可识别出相应的网络平台用户类别。
步骤5:通过已构建的细粒度情感词典对待分析评论文本进行情感分析。
步骤5.1:构建适用于网络情境的细粒度情感词典。
社会心理学理论认为社会情感是社会心态具有动力倾向的核心要素,是一个群体和社会中多数成员共享的体验;本方案首先依据社会心理学中社会心态理论设计出社会心态视角下的细粒度情感分类体系,其所含50种情感具体如下:敬佩、快乐、乐观、满意、期望、喜爱、相信、赞扬、祝愿、感激、感动、悲伤、贬责、挫折、低落、妒忌、烦恼、愤怒、孤独、焦虑、紧张、恐惧、轻蔑、失望、无奈、颓废、委屈、心慌、害羞、愧疚、厌恶、疑惑、抑郁、怨恨、自卑、嘲讽、麻木、质疑、尴尬、放松、惊奇、警觉、激动、骄傲、平静、思念、同情、无聊、着急、冷漠。
其次,基于本方案所提出的分词方法对从网络平台抓取的200GB政务领域评论文本进行分词,梳理出初始种子词库。此外,以C-LIWC词典、Hownet词典、搜狗输入法词库、QQ输入法词库、百度输入法词库、新华网络语言词典作为初始种子词库的扩展来源,利用word2vec词向量工具计算中文词汇语义相似度,对每个种子词查询10个近义词;通过人工筛选、归类建立正式的种子词库。
最后,以外部媒体及评论语料库作为扩展词来源语料库,具体包括复旦大学新闻语料库、北理工搜索挖掘实验室的500万条微博语料;在正式种子词库的基础上利用LU语言单元组对词库进行扩展,并补充网络表情和短语结构规则,最终经过人工校正构建出半自动化扩展的细粒度情感词典。
步骤5.2:计算与政策公告有交集的网络平台用户评论的情感分值。
本实施例中,对于已构建的细粒度情感词典、情感分析规则对待分析评论文本进行情感分析,其中情感分析规则包括情感分值计算规则、点赞加权规则;用细粒度情感词典对待分析评论文本进行匹配,按照情感分析规则计算出情感分值;将某主题政策公告下不同类别网络平台用户的细粒度情感进行对比,或结合其他维度进行交叉分析。
本实施例根据统计数据的Box-Cox变换原理,使用以下点赞加权公式计算网络平台用户单条评论的点赞加权分数L:
其中,M是调整系数,M≤0时公式无应用价值,M>140则导致加权结果超出合理范围、趋近极端,故M的取值范围规定为(0,140];x是单条评论的被点赞数(x≥0);a是对数函数的底数且a>1,本实施例中取常用对数即令a=10。
步骤5.3基于网络平台用户类别、细粒度情感、其他维度进行交叉分析并将分析结果可视化。
交叉分析包括政策公告网民评论中〈网络平台用户类别,细粒度情感类别〉二元组内的交叉分析,〈网络平台用户类别,细粒度情感类别〉二元组与其他维度之间的交叉分析;所属其他维度包括时间、IP属地等。
本实施例中采用的网络平台用户分类识别模型是训练好的网络平台用户分类识别模型,训练中首先构建了数据训练集和测试集;
本实施例可以统计所涉及分析项目的绝对数、相对数;
本实施例可以结合网络平台用户分类识别结果、其他用户身份信息,分析不同类别网络平台用户、不同IP属地网络平台用户在网络评论中的细粒度情感表达的静态分布情况、时间变动趋势,并加以对比;
本实施例可对政策公告评论中的细粒度情感进行整体描述和对比分析,统计网民评论中的各细粒度情感分值并进行排序,也可结合时间数据描述变动趋势;
本实施例分析某类政策公告评论中的细粒度情感占比分布情况,某细粒度情感分值占比=该细粒度情感总体分值/所有情感的分值之和,也可结合时间数据描述细粒度情感分值占比的变动趋势;
需说明的是,交叉分析不局限于以上两两维度的交叉,可进行多维度的复杂分析。
本实施例可以利用计算机程序构建情感分析可视化系统,用于执行情感分析、描述统计与结果可视化展示工作。可视化图形包括饼图、柱状图、条形图、面积图、折线图、雷达图、桑基图、词云图及其他组合图等。可视化的数据维度包括网络平台用户类别、细粒度情感类别及其他维度(时间趋势、用户IP属地等)。
本发明在网民情感分析、网络舆情监测、政务治理等研究方向上的基础研究工作,能够为相关机构或部门提供政务实践的启示和建议方向,帮助政策公告制定或发布主体更好地倾听民意、与群众互动。此外,本发明为其他相关的文本挖掘与分析的进一步研究提供研究基础,以更及时、更全面有效地识别与分析政务传播领域中的网民情感。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (10)
1.一种政策公告网络评论情感分析方法,其特征在于,包括以下步骤:
步骤1:针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据;
步骤2:对采集到的文本数据进行预处理,去除无关的噪声数据;
步骤3:对步骤2中预处理后的评论文本进行分词,得到待分析评论文本;
步骤4:采用网络平台用户分类模型识别与政策公告有交集的网络平台用户;
所述网络平台用户分类模型识别模型由句子变换模型SBERT、词变换模型word2vec和零样本学习分类器组成;
步骤5:基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析;
基于半自动化构建方案构建出细粒度情感词典,以此匹配待分析评论文本,并采用情感分析规则计算网民情感分值。
2.根据权利要求1所述的政策公告网络评论情感分析方法,其特征在于:步骤1中所述待分析政策公告根据政策公告的网络评论量来确定,或根据分析师的分析需求进行人为主观确定。
3.根据权利要求1所述的政策公告网络评论情感分析方法,其特征在于:步骤2中所述去除无关联数据,是采用正则表达式匹配并去除无关联的噪声数据。
4.根据权利要求1所述的政策公告网络评论情感分析方法,其特征在于:步骤3中所述分词依据本方案分词方法进行分词,具体实现包括以下子步骤:
步骤3.1:使用SDP/DEP语义依存算法,将文本数据映射到一个图结构里,针对待分析文本数据生成语义依存图;
步骤3.2:使用深度优先SFS算法和广度优先BFS算法两种图搜寻算法在语义依存图上搜寻合适的语言单位LU,每个语言单元LU即为一个分词结果;
步骤3.3:采用N-Gram语言模型并按照联合概率最大化的原则选择语言单元LU={W1,W2,…Wn};P(W1:n)为联合概率,具体表示为:
其中,Wk是语言单元组中的词单元,k是词单元的排列次序,n是k的上界,k=1,2…,n;每个句子与其语言单元组的关系满足马尔科夫关系,可按照联合概率最大化的原则选择语言单元LU={W1,W2,…Wn};每个词单元Wk不一定是相互连接在一起的。
5.根据权利要求1所述的政策公告网络评论情感分析方法,其特征在于:步骤4中所述采用网络平台用户分类模型识别与政策公告有交集的网络平台用户,具体实现包括以下子步骤:
步骤4.1基于所采集的大量网络平台用户主页信息,按照标签体系对网络平台用户类别进行标注并建立人工数据集;
基于所采集的若干网络平台用户主页信息,按照预设置的标签体系对网络平台用户类别进行标注并建立人工数据集,基于人工数据集和自然语言文本构建网络平台用户分类模型,并用于识别待分析数据集中的网络平台用户类别;
所述网络平台用户主页信息包括用户名称、平台认定属性、用户自定义说明,平台认定属性包括认证情况、会员等级、粉丝数和行业类别,用户自定义说明包括用户说明、简介内容、用户标签;所述网络平台用户类别包括身份类别、专业领域类别,均为预定义的一级分类类别,并基于此进一步预定义二级分类类别;
步骤4.2基于人工数据集和自然语言文本构建网络平台用户分类模型,并用于识别待分析数据集中的网络平台用户类别;
所述网络平台用户分类模型由句子变换模型、词变换模型word2vec、零样本学习分类器组成;
针对用户名称、用户说明、简介内容、用户标签的文本特征,采用句子变换模型SBERT将其变为768维特征向量;
针对网络平台用户的一级分类类别和二级分类预定义数据,采用词变换模型word2vec将其变为不同维度的特征向量;
将句子变换模型SBERT和词变换模型word2vec的输出作为语言量化表达,并通过零样本学习分类器识别网络平台用户类型W*;
W*=arg minw{||XTW-Y||2+λ||W-I||2};
其中,X是用户名称、用户说明、简介内容、用户标签文本的SBERT特征向量在词向量空间的投影;Y为网络平台用户一级和二级预定义类别标签的word2vec词向量;W是矩阵参数,λ是固定常数,I是单位矩阵。
6.根据权利要求1所述的政策公告网络评论情感分析方法,其特征在于:步骤5中,基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析,包括以下子步骤:
步骤5.1:基于半自动化词典构建方案构建细粒度情感词典;
步骤5.2:以细粒度情感词典匹配待分析评论文本,并采用情感分析规则计算网民情感分值;所述情感分析规则包括情感分值计算规则、点赞加权分数计算规则;
步骤5.3:基于网络平台用户类别、细粒度情感、其他维度进行交叉分析并将分析结果可视化:交叉分析包括政策公告网民评论中〈网络平台用户类别,细粒度情感〉二元组内的交叉分析,〈网络平台用户类别,细粒度情感〉二元组与其他维度之间的交叉分析;所属其他维度包括时间、IP属地。
7.根据权利要求6所述的政策公告网络评论情感分析方法,其特征在于:步骤5.1中,首先依据社会心理学设计细粒度情感分类体系,其所含50种情感类别如下:敬佩、快乐、乐观、满意、期望、喜爱、相信、赞扬、祝愿、感激、感动、悲伤、贬责、挫折、低落、妒忌、烦恼、愤怒、孤独、焦虑、紧张、恐惧、轻蔑、失望、无奈、颓废、委屈、心慌、害羞、愧疚、厌恶、疑惑、抑郁、怨恨、自卑、嘲讽、麻木、质疑、尴尬、放松、惊奇、警觉、激动、骄傲、平静、思念、同情、无聊、着急、冷漠;
其次,基于积累的政务领域分词数据、外部词典或词库,通过情感分类、基于外部词典或词库进行扩展、人工筛选的方式构建细粒度情感种子词库;
最后以外部媒体及评论语料库作为扩展词来源语料库,在种子词库的基础上利用LU语言单元组对词库进行扩展,经过人工校正构建出半自动化的细粒度情感词典。
8.根据权利要求6所述的政策公告网络评论情感分析方法,其特征在于:步骤5.2中,首先以细粒度情感词典匹配待分析评论文本,依据情感分析规则计算出评论的点赞加权分数、情感分值;其次,按各类别网络平台用户汇总情感分值并进行对比,或结合其他维度进行交叉分析;涉及的公式如下:
其中,Si为某类别情感i的情感分值,T为情感i所命中的评论数量,Wordik为情感i在第k条评论上的命中数量,Lik为该条评论所对应的点赞加权分数;如同一词条在不同评论中出现,则分别进行统计;
其中,L是单条评论的点赞加权分数;M是调整系数,M≤0时公式无应用价值,M>140则导致加权结果超出合理范围、趋近极端,故M的取值范围规定为(0,140];x是单条评论的被点赞数,x≥0;a是对数函数的底数且a>1;
其中,Ei是不同类别情感的情感分值总和,Si是情感类别i的情感分值,N是情感类别总数。
9.一种政策公告网络评论情感分析系统,其特征在于,包括以下模块:
模块1,用于针对待分析政策公告,获取网络平台中与待分析政策公告相关联的文本数据;
模块2,用于对采集到的文本数据进行预处理;
模块3,用于对模块2中预处理后的评论文本进行分词;
模块4,用于采用网络平台用户分类模型识别与政策公告有交集的网络平台用户;
所述网络平台用户分类模型识别模型由句子变换模型SBERT、词变换模型word2vec和零样本学习分类器组成;
模块5,用于基于已构建的细粒度情感词典及情感分析规则对待分析评论文本进行情感分析。
10.一种政策公告网络评论情感分析设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的政策公告网络评论情感分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211051845.4A CN115238709A (zh) | 2022-08-31 | 2022-08-31 | 一种政策公告网络评论情感分析方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211051845.4A CN115238709A (zh) | 2022-08-31 | 2022-08-31 | 一种政策公告网络评论情感分析方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238709A true CN115238709A (zh) | 2022-10-25 |
Family
ID=83681870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211051845.4A Pending CN115238709A (zh) | 2022-08-31 | 2022-08-31 | 一种政策公告网络评论情感分析方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238709A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436446A (zh) * | 2023-12-21 | 2024-01-23 | 江西农业大学 | 基于弱监督的农业社会化销售服务用户评价数据分析方法 |
-
2022
- 2022-08-31 CN CN202211051845.4A patent/CN115238709A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117436446A (zh) * | 2023-12-21 | 2024-01-23 | 江西农业大学 | 基于弱监督的农业社会化销售服务用户评价数据分析方法 |
CN117436446B (zh) * | 2023-12-21 | 2024-03-22 | 江西农业大学 | 基于弱监督的农业社会化销售服务用户评价数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gautam et al. | Sentiment analysis of twitter data using machine learning approaches and semantic analysis | |
Ghag et al. | Comparative analysis of the techniques for sentiment analysis | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
Rahate et al. | Feature selection for sentiment analysis by using svm | |
Khedkar et al. | Customer review analytics for business intelligence | |
Popping | Online tools for content analysis | |
Tang et al. | Evaluation of Chinese sentiment analysis APIs based on online reviews | |
Shi et al. | A Word2vec model for sentiment analysis of weibo | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
CN115238709A (zh) | 一种政策公告网络评论情感分析方法、系统及设备 | |
Dai et al. | Research on image of enterprise after-sales service based on text sentiment analysis | |
Nguyen et al. | Analyzing Customer Experience in Hotel Services Using Topic Modeling. | |
CN112084312A (zh) | 一种基于知识图构建的智能客服系统 | |
Rahul et al. | Social media sentiment analysis for Malayalam | |
Mezentseva et al. | Optimization of analysis and minimization of information losses in text mining | |
Gurin | Methods for Automatic Sentiment Detection | |
Zadgaonkar et al. | An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction | |
Yusuf et al. | A Technical Review of the State-of-the-Art Methods in Aspect-Based Sentiment Analysis | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
Popping | Online tools for content analysis | |
Dziczkowski et al. | RRSS-rating reviews support system purpose built for movies recommendation | |
Sani et al. | Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach | |
Kumar et al. | Sarcasm detection using stacked bi-directional lstm model | |
Jardim et al. | A Multilingual Lexicon-based Approach for Sentiment Analysis in Social and Cultural Information System Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |