CN107885849A

CN107885849A - 一种基于文本分类的情绪指数分析系统

Info

Publication number: CN107885849A
Application number: CN201711113724.7A
Authority: CN
Inventors: 周楠; 张劲松
Original assignee: Chengdu Blue Scene Information Technology Co Ltd
Current assignee: Chengdu Blue Scene Information Technology Co Ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-04-06

Abstract

本发明公开了一种基于文本分类的情绪指数分析系统；其主要解决了自动识别文本情绪倾向的问题，从网络文本内容中,分析识别出文本所包含的情绪倾向，并将文本倾向分为积极，消极和中性三种情况。使用训练的集成模型可以自动化处理文本，能在短时间内处理海量文本，可以实时掌握网络用户整体情绪倾向的变化情况。本发明通过实施具有如下的有益效果：该方法克服了现有专利没有充分利用互联网海量文本信息的缺点；将文本内容向量化，使得针对文本内容可以方便的使用各种分类算法；使用聚合模型可以使分类的结果比单一模型更准确。

Description

一种基于文本分类的情绪指数分析系统

技术领域

本发明涉及一种分析系统，具体讲是一种基于文本分类的情绪指数分析系统。

背景技术

现有专利计算的情绪指数主要是通过互联网或股市数据间接计算，使用股市数据，得到的结果比较片面笼统，只能得到一个整体的数值结果，无法清晰表述各种不同平台的不同情绪的比例。而使用文本数据,所用方法也比较粗糙,对文本做简单分词然后统计表示各种情绪的词语数，这样会损失较多信息。

发明内容

因此，本发明在此提供一种基于文本分类的情绪指数分析系统；其主要解决了自动识别文本情绪倾向的问题，从网络文本内容中,分析识别出文本所包含的情绪倾向，并将文本倾向分为积极，消极和中性三种情况。使用训练的集成模型可以自动化处理文本，能在短时间内处理海量文本，可以实时掌握网络用户整体情绪倾向的变化情况。

本发明是这样实现的，构造一种基于文本分类的情绪指数分析系统，其特征在于：

构建分词模块：首先将文本分词，然后将文本内容转化为单词向量的形式。我们遍历分词的结果列表，如果该文本内包含某个词，那么对应位置的值为1，否则为0；

构建分类模块：首先人工标注部分样本，将其文本内包含的情绪分为积极(1)、消极(-1)、中性(0)三种；将标注好的标注集中，选取k％作为训练集，剩余的1-k％作为预测集；

使用训练集，训练出分类模型，预测集用来检验模型效果，并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型，然后使用了集成学习，对之前训练出的模型聚合，这里使用投票聚合的方式，对各个不同模型预测的结果进行投票，占多数的模型分类结果就是聚合模型的结果。然后使用聚合模型，对于已经向量化的待分类文本进行分类，得到每个文本的情绪分类结果；

构建情绪指数模块：得到每条文本的情绪倾向，然后可以计算积极倾向的文本数占所有文本的比例，将其定义为情绪指数；计算公式如下：

其中Post_ijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向，函数ε识别出发布文本中持积极情绪的那部分结果，Index_ik表示第i个社团在第k天的情绪指数。

本发明具有如下优点：本发明在此提供一种基于文本分类的情绪指数分析系统；其主要解决了自动识别文本情绪倾向的问题，从网络文本内容中,分析识别出文本所包含的情绪倾向，并将文本倾向分为积极，消极和中性三种情况。使用训练的集成模型可以自动化处理文本，能在短时间内处理海量文本，可以实时掌握网络用户整体情绪倾向的变化情况。本发明通过实施具有如下的有益效果：该方法克服了现有专利没有充分利用互联网海量文本信息的缺点；将文本内容向量化，使得针对文本内容可以方便的使用各种分类算法；使用聚合模型可以使分类的结果比单一模型更准确。

附图说明

图1是本发明文本分类算法流程图。

具体实施方式

下面将结合附图1对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于文本分类的情绪指数分析系统，按照如下方式予以实施；其流程如图1；

首先，构建分词模块：首先将文本分词，然后将文本内容转化为单词向量的形式。我们遍历分词的结果列表，如果该文本内包含某个词，那么对应位置的值为1，否则为0。

例如：原句：$新华医疗(SH600587)$前期低点有主力资金介入，经过一个多月的回调洗盘，现介入比较安全，短线有反弹上攻意愿！此所谓进可攻退可守！$上证指数(SH000001)$$中国平安(SH601318)$

分词后结果：$/新华/医疗/(/SH600587/)/$//前期/低点/有/主力/资金/介入/，/经过/一个多月/的/回调/洗盘/，/现/介入/比较/安全/，/短线/有/反弹/上攻/意愿/！/此/所谓/进可攻/退可守/！/$/上证指数/(/SH000001/)/$//$/中国/平安/(/SH601318/)/$

同时，构建分类模块：首先人工标注部分样本，将其文本内包含的情绪分为积极(1)、消极(-1)、中性(0)三种。将标注好的标注集中，选取k％作为训练集，剩余的1-k％作为预测集。使用训练集，训练出分类模型，预测集用来检验模型效果，并适当调整模型参数。我们分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型，然后使用了集成学习，对之前训练出的模型聚合，这里我们使用投票聚合的方式，对各个不同模型预测的结果进行投票，占多数的模型分类结果就是聚合模型的结果。然后使用聚合模型，对于已经向量化的待分类文本进行分类，得到每个文本的情绪分类结果。

同时，构建情绪指数：得到每条文本的情绪倾向，然后可以计算积极倾向的文本数占所有文本的比例，将其定义为情绪指数。计算公式如下：

其中Post_ijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向，函数ε识别出发布文本中中持积极情绪的那部分结果，Index_ik表示第i个社团在第k天的情绪指数。

本发明具有如下的有益效果：

该方法克服了现有专利没有充分利用互联网海量文本信息的缺点；将文本内容向量化，使得针对文本内容可以方便的使用各种分类算法；使用聚合模型可以使分类的结果比单一模型更准确。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于文本分类的情绪指数分析系统，其特征在于：

构建分词模块：首先将文本分词，然后将文本内容转化为单词向量的形式；遍历分词的结果列表，如果该文本内包含某个词，那么对应位置的值为1，否则为0；

使用训练集，训练出分类模型，预测集用来检验模型效果，并适当调整模型参数；分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型，然后使用了集成学习，对之前训练出的模型聚合，这里使用投票聚合的方式，对各个不同模型预测的结果进行投票，占多数的模型分类结果就是聚合模型的结果；然后使用聚合模型，对于已经向量化的待分类文本进行分类，得到每个文本的情绪分类结果；

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>Index</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>k</mi> </mrow> </munder> <mi>&epsiv;</mi> <mrow> <mo>(</mo> <msub> <mi>Post</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>Post</mi> <mrow> <mi>i</mi> <mi>k</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> <mtd> <mrow> <mi>&epsiv;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>t</mi> <mo>></mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>t</mi> <mo>&le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced>