CN111522913A

CN111522913A - 一种适用于长文本和短文本的情感分类方法

Info

Publication number: CN111522913A
Application number: CN202010303617.6A
Authority: CN
Inventors: 徐利东; 远贵良
Original assignee: Shandong Beisai Information Technology Co ltd
Current assignee: Shandong Beisai Information Technology Co ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-11

Abstract

本发明公开了一种适用于长文本和短文本的情感分类方法，长文本和短文本的情感分类方法的步骤包括：收集、标注、构建情感词典、文本拆分、训练情感分析语料、情感分析模型训练、二次分析、加权计算、获取结果。本发明可取得如下技术效果：解决单个模型同时短文本和长文本同时分析的问题；解决了机器学习过拟合和欠拟合的问题；减少了分析模型调参时间和调参次数；满足特殊行业的情感分析需求。

Description

一种适用于长文本和短文本的情感分类方法

技术领域

本发明涉及计算机网络技术领域，确切地说是一种适用于长文本和短文本的情感分类方法。

背景技术

随着互联网技术的不断发展，人们的生活方式和工作方式发生了翻天覆地的变化。微博、微信等社交平台逐渐占领人们的生活，并呈现出爆发式的增长状态。随着时间的推移，使用网络的用户数量越来越多。

在大数据时代人们在门户、论坛、贴吧等区域留下了大量的信息，文本作为这类数据常见的载体，如果利用自然语言处理技术挖掘文本潜在的情感态度对于舆情分析、商品售后等各个方面有积极的推动作用。

目前主要的研究研究主要基于基于词典的情感分析方法，情感词典由人工编写，这类方法的缺陷在于情感词典带有作者的主管意愿，情感词典的客观性不足；另外情感词典不可能覆盖所有领域的所有的词汇，尤其是进入21世纪互联网词汇日新月异，很多涌入的新词汇不可能被编入词典中；基于机器学习情感分析的方法是未来发展的主流趋势，该方法以及日趋成熟，它的优势在于具有多种特征建模的能力，然而有效特征的筛选和训练语料的不足都会影响基于机器学习情感分析系统的性能。

发明内容

本发明要解决的技术问题是情感词典由人工编写，这类方法的缺陷在于情感词典带有作者的主管意愿，情感词典的客观性不足；另外情感词典不可能覆盖所有领域的所有的词汇，尤其是进入21世纪互联网词汇日新月异，很多涌入的新词汇不可能被编入词典中；基于机器学习情感分析的方法是未来发展的主流趋势，该方法以及日趋成熟，它的优势在于具有多种特征建模的能力，然而有效特征的筛选和训练语料的不足都会影响基于机器学习情感分析系统的性能。

为解决上述技术问题，本发明采用如下技术手段：

一种适用于长文本和短文本的情感分类方法，长文本和短文本的情感分类方法的步骤：

步骤1：收集、标注、构建情感词典：收集和标注的形式构建情感词典；

步骤2：文本拆分：按照文章-段落-句子-词义对文本进行拆分；

步骤3：训练情感分析语料：标识出文本的情感属性包含：正面、中性、负面；

步骤4：情感分析模型训练：基于机器学习利用标准的语料进行；

步骤5：二次分析：利用情感词典对于文本做二次分析，计算情感文本情感分值；

步骤6：加权计算：根据情感文本分值和模型训练结果加权计算；

步骤7：获取结果：得到情感概率值和情感分析结果。

本发明可取得如下技术效果：解决单个模型同时短文本和长文本同时分析的问题；解决了机器学习过拟合和欠拟合的问题；减少了分析模型调参时间和调参次数；满足特殊行业的情感分析需求。

作为优选，本发明更进一步的技术方案是：

所述的收集、标注、构建情感词典通过人工完成。

所述的收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性。

本发明要解决的技术问题是基于词典和机器学习提供一种适应能够高效分析长文本和短文本的情感分析方法；该方法通过基础的情感词库，对待分类的文本进行分词，结合词典分值、篇章结构、语义和句法等多种因素；同时训练部分语料数据进行机器学习模型训练。结合词典和模型的优势他有效解决了文本情感分析的弊端，解决了情感分析在长期发展过程中遇到的瓶颈问题。

附图说明

图1为本发明的结构框图。

具体实施方式

下面结合实施例，进一步说明本发明。

参见图1可知，本发明一种适用于长文本和短文本的情感分类方法，长文本和短文本的情感分类方法的步骤：

步骤1：收集、标注、构建情感词典：收集和标注的形式构建情感词典；收集、标注、构建情感词典通过人工完成，收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性，步骤2：文本拆分：按照文章-段落-句子-词义对文本进行拆分；步骤3：训练情感分析语料：标识出文本的情感属性包含：正面、中性、负面；步骤4：情感分析模型训练：基于机器学习利用标准的语料进行；步骤5：二次分析：利用情感词典对于文本做二次分析，计算情感文本情感分值；步骤6：加权计算：根据情感文本分值和模型训练结果加权计算；步骤7：获取结果：得到情感概率值和情感分析结果。

本发明的关键点为：机器学习引入情感词库分析机制；词库分析值和模型分析值权重系数的占比；全行业通用情感分析词库；模型训练和词库算法相结合的整体流程。

由于以上所述仅为本发明的具体实施方式，但本发明的保护不限于此，任何本技术领域的技术人员所能想到本技术方案技术特征的等同的变化或替代，都涵盖在本发明的保护范围之内。

Claims

1.一种适用于长文本和短文本的情感分类方法，其特征在于所述的长文本和短文本的情感分类方法的步骤：

步骤7：获取结果：得到情感概率值和情感分析结果。

2.根据权利要求1所述的一种适用于长文本和短文本的情感分类方法，其特征在于：所述的收集、标注、构建情感词典通过人工完成。

3.根据权利要求1所述的一种适用于长文本和短文本的情感分类方法，其特征在于：所述的收集、标注、构建情感词典中情感词典包含词汇、词性、情感强度、极性属性。