CN109492226A

CN109492226A - 一种提高情感倾向占比低文本预断准确率的方法

Info

Publication number: CN109492226A
Application number: CN201811335523.6A
Authority: CN
Inventors: 刘洋; 陈福
Original assignee: Shanghai Wen Jun Information Technology Co Ltd
Current assignee: Shanghai Wujie Data Technology Co ltd
Priority date: 2018-11-10
Filing date: 2018-11-10
Publication date: 2019-03-19
Anticipated expiration: 2038-11-10
Also published as: CN109492226B

Abstract

本发明公开了一种提高情感倾向占比低文本预断准确率的方法，1)设计一个召回率都差不多的情感模型；假设一个方案对正、中、负情感倾向样本预判的准确度都达到60％以上，方满足用户对情感预判大概率正确的要求，基于上述正、中、负样本的占比，来看看没有引入本方案后面的设计发明时，所要求情感模型对各情感倾向样本召回率；本发明提供的一种提高情感倾向占比低文本预断准确率的方法，快速适应实际环境中正、中、负各类情感样本占比失衡的情形；使得训练模型不用特别追求正、中、负三类文本都有较高的召回率；不需要太多的训练样本，就可以确保正、中、负文本情感预断都有较高的准确率。

Description

一种提高情感倾向占比低文本预断准确率的方法

技术领域

本发明涉及文本情感判断机器学习技术领域，尤其涉及一种提高情感倾向占比低文本预断准确率的方法。

背景技术

对客户的情感分析与准确判断是商家孜孜追求的目标，随着互联网文本数据的海量增长，通过人工来分析数据，已不大可能，因此纷纷引入机器学习方法，来对这些或长、或短文本，通过机器来这些文本所表达的信息，进行情感分析，进而期望对用户的情感做出精确的判断与把握。

当下，产生了众多该类技术：有基于语义的，也有基于统计的；有的是监督式的，也有非监督式，还有半监督式；有基于传统SVM或随机森林算法，也有基于深度学习的；有专于短文本，也有专于长文本的。但从目前公开的情况来看，此类技术的表现并不是那么尽如人意。比如百度的公开短文本情感分析引擎，我们测下来，其准确度也仅在75％左右。特别是该准确度是对样本总体而言，如果某类情感倾向的样本在数据集中占比低的话，该准确率将更低。

而现实互联网世界里，这种占比极度的不衡：将文本的情感倾向定为：中性、正面与负面，据统计，三者的占比大抵为：67％，20％，13％。现有的机器学习算法都做不到文本情感判断的较高的召回率，加上中性文本的基数，将中性样本预判成其它的样本的数量甚至超过负面，或正面本身的样本数量，从而导致预判样本中的负面、或正面的占比不超过50％，因此上述的机器算法在互联网文本情感预判的实战中，效果很差。然而，负面与正面的信息识别，对用户而言，又常比中性文本要重要的多。同时，还存在着正面判成负面，或负面判成正面的情形，这不管是对用户的决策辅助，还是提供给用户的体验，都是极其糟糕的。

分析下来，当前制约占比低情感倾向文本预判准确度低的主要原因有：

1、现有的机器学习算法本身无法识别出文本分类的占比；

2、现有情感分析模型里没有应对文本分类占比不一的情形；

3、现有的机器学习算法，难以实现正、中、负几类文本情感预判的召回率都较高(比如90％)；

4、现实互联网环境中的文本情感倾向占比严重失衡。

总之，来之互联网的文本情感倾向为中性的占绝大多数，在当前情感分析算法的准确率与召回率指标下，还难以做到对负面、或正面情感倾向文本的预判，做到大体是正确的。

申请人认为通过机器学习算法，来代替人工对文本进行情感分析，可以极大地提高效率，也是应对互联网蓬勃发展的正确途径，但要能够真正支持实战，还需要面对互联网文本情感倾向占比不一致的现实情况，积极应对，找到提高负面与正面样本预判准确度的方法，确保向用户提供的预判信息大致是正确的。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种提高情感倾向占比低文本预断准确率的方法，其中，具体技术方案为：

1)设计一个召回率都差不多的情感模型；

假设一个方案对正、中、负情感倾向样本预判的准确度都达到60％以上，方满足用户对情感预判大概率正确的要求，基于上述正、中、负样本的占比，来看看没有引入本方案后面的设计发明时，所要求情感模型对各情感倾向样本召回率；

2)设计以下的方案，保证占比高的样本预判的准确度仍在合理的范围之内；

但在实施下面的设计时，还是先要有一个召回率大体相近的情感模型，以保障：

(1)各类样本以相同的比率召回或不被召回；

(2)确保我们的方案，在情感倾向样本占比发生变化时，仍然适用；

下面是该模型的训练过程：

(1)随机从相应工作环境中抽取样本集；

(2)组织人手对上面所抽取的样本集进行情感倾向标注；

(3)随机从样本集中各占1/3的比率，抽取正、中、负的训练集；

(4)选择合适的机器算法进行训练，确保各类情感倾向文本的召回率较高，且尽量差不多；

(5)训练得到模型，并从人工标注样本集中，抽取占比为1/3的样本组织测试集，进行测试并选定模型；

3)设计召回率有偏颇的情感模型；

该模型的训练过程：

(1)随机从相应工作环境中抽取样本集；

(2)组织人手对上面所抽取的样本集进行情感倾向标注，并根据标注结果统计正、中、负各类文本的占比；

(3)占比高那类文本按占比比例抽取样本，作为训练集的一部分；

(4)想要提高准确度那类文本，抽取与上面占比高那类文本同样数量的样本，同样作为训练集的一部分；

(5)而剩下那类文本，则根据其占比抽取相应数量的样本，作为训练集剩下的部分；

(6)选择合适的机器算法进行训练，确保占比高类与想要提高准确度类情感倾向文本的召回率较高；

(7)训练得到模型，并按上面训练样本集抽取的方式抽取测试样本集，进行测试并选定模型；

4)设计一个基础模型+压制模型的串联式组合模型

这里，将上面的基础模型与压制模型，以串联的方式组合起来使用，组成一个组合模型，通过该模型来完成对实际环境中的文本进行情感预判；

对负面的文本实施了压制模型的情感预判，以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多，正面文本次之，负面文本最低的情况，以提高负面文本情感预判准确度为目标，来描述该组合模型的使用：

(1)文本通过基础模型，将被预判为正、中、负文本；

(2)收集负面文本，调用压制模型，将文本预判为正、中、负文本；

(3)将压制模型预判为中、正的文本，分别归为中性文本与正面文本。

所述的提高情感倾向占比低文本预断准确率的方法，其中：

3)设计召回率有偏颇的情感模型；此模型会对没有考虑的那类文本，有任何帮助。同时，在后面的方案中，该模型主要作用：就是将占比高类文本中，误判到想要提高准确度类的样本，进行压制，或从该类预判结果中清理出去。因此，我们称之为压制模型。我们测试下来，该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80％(当然，剩下那类的召回率则很低了)。

所述的提高情感倾向占比低文本预断准确率的方法，其中：修正基础模型的召回率为70％，而压制模型对中性文本和负面文本的召回率为80％，对正面文本的召回率为10％；

目前，正面样本的准确度还不高。同样的原理，可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型，并利用该模型对正面文本预判的准确度，进行抬升。但为了对前面负面文本预判结果的影响，步骤有所不同：

1)收集调用负面压制模型后，汇总所得预判为正面的文本；

2)调用正面压制模型，对上面收集的正面文本集，进行正、中、负预判；

3)将所有非负的预判文本归入中性文本集，预判为正面的文本归入正面文集。

本发明相对于现有技术具有如下有益效果：快速适应实际环境中正、中、负各类情感样本占比失衡的情形；使得训练模型不用特别追求正、中、负三类文本都有较高的召回率；不需要太多的训练样本，就可以确保正、中、负文本情感预断都有较高的准确率。

附图说明

图1为对负面的文本实施了压制模型的情感预判，以进一步提高该类文本预判的准确度的示意图。

具体实施方式

面对互联上的海量信息，为了保证文本情感倾向预判准确性，不可能回到过去完全依靠人工的方式，而是仍然沿袭机器学习的思路，充分利用现有机器算法，对正、中、负样本情感倾向判断召回率有所偏颇的特点，本方案创新性地发明了串联式多模型的压制方法，积极应对上述的问题，确保了占比低情感倾向文本的预判的准确率与占比高的情感倾向文本一样，一样具有大概率的准确度。

1、设计一个召回率都差不多的情感模型(基础模型)

假设一个方案对正、中、负情感倾向样本预判的准确度都达到60％以上，方满足用户对情感预判大概率正确的要求，基于上述正、中、负样本的占比，来看看没有引入本方案后面的设计发明时，所要求情感模型对各情感倾向样本召回率。

先假设召回率为80％(目前尚没有哪一个模型到达了这个比率)；

不妨高样本集有10000条，则其中：中性有6700条、正面有2000条、负面有1300条；并假设未被召回的样本被平均误判到其它两类样本中，可以得到下表：

表1：

样本集(10000)	预判中	预判正	预判负	准确率
					中性(6700)	5360	670	670	94％
正面(2000)	200	1600	200	67％
					负面(1300)	130	130	1040	44％

从上表可以看到，当用户对准确度要求并不太高(60％)时，那怕情感模型的召回率高达80％以上，尽管对于占比高的样本准确度很高了(高达94％)，但对于占比低的情感倾向文本的预判准确度仍是太低，有的甚至不超过50％(只有44％不到)。而这些占比低的情感倾向文本，对客户而言，意义更大，因此这样的预判，不可能让用户满意。

也正是由于样本集中各情感倾向占比的不一致，导致想要训练出情感预判召回率一致情感模型较难，而要满足所预判的样本中，具有较高的准确度，就更难了。幸好，我们发明的以下的方案，使得不需要这么高的召回率，就可让占比低情感倾向文本更容易地获得更高的准确度，同时保证占比高的样本预判的准确度仍在合理的范围之内。

1)各类样本以相同的比率召回或不被召回；

2)确保我们的方案，在情感倾向样本占比发生变化时，仍然适用。

下面是该模型的训练过程：

1)随机从相应工作环境中抽取样本集；

2)组织人手对上面所抽取的样本集进行情感倾向标注；

3)随机从样本集中各占1/3的比率，抽取正、中、负的训练集；

4)选择合适的机器算法进行训练，确保各类情感倾向文本的召回率较高，且尽量差不多；

5)训练得到模型，并从人工标注样本集中，抽取占比为1/3的样本组织测试集，进行测试并选定模型。

由于本模型聚焦在召回率这个指标上，而不用考虑准确率，因此算法与模型都能更快地选择与确定。

2、设计召回率有偏颇的情感模型(压制模型)

由于上面设计的基础模型，所用的训练样本，其中各类样本的占比与生产环境并不吻合，即使所获得的召回率较高，如直接运用于生产环境，其召回主与准确度都将差强人意。

为了满足实际环境，还设计了一个压制模型，允许对各类情感倾向文本的情感预判的召回率有所偏颇：占比高的文本与想要提高准确度那类文本的极高，而另一类文本则可以较低。我们实践下来，此类模型是不难获得的。

下面是该模型的训练过程：

1)随机从相应工作环境中抽取样本集；

2)组织人手对上面所抽取的样本集进行情感倾向标注，并根据标注结果统计正、中、负各类文本的占比；

3)占比高那类文本按占比比例抽取样本，作为训练集的一部分；

4)想要提高准确度那类文本(通常是占比低的那类)，抽取与上面占比高那类文本同样数量的样本，同样作为训练集的一部分；

5)而剩下那类文本，则根据其占比抽取相应数量的样本，作为训练集剩下的部分；

6)选择合适的机器算法进行训练，确保占比高类与想要提高准确度类情感倾向文本的召回率较高；

7)训练得到模型，并按上面训练样本集抽取的方式抽取测试样本集，进行测试并选定模型。

此模型会对没有考虑的那类文本，有任何帮助。同时，在后面的方案中，该模型主要作用：就是将占比高类文本中，误判到想要提高准确度类的样本，进行压制，或从该类预判结果中清理出去。因此，我们称之为压制模型。我们测试下来，该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80％(当然，剩下那类的召回率则很低了)。

3、设计一个基础模型+压制模型的串联式组合模型

这里，我们将上面的基础模型与压制模型，以串联的方式组合起来使用，组成一个组合模型，通过该模型来完成对实际环境中的文本进行情感预判。

如图1所示，在图1中，是对负面的文本实施了压制模型的情感预判，以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多，正面文本次之，负面文本最低的情况，以提高负面文本情感预判准确度为目标，来描述该组合模型的使用：

1)文本通过基础模型，将被预判为正、中、负文本；

2)收集负面文本，调用压制模型，将文本预判为正、中、负文本；

3)将压制模型预判为中、正的文本，分别归为中性文本与正面文本。

沿用表1中的假设，修正基础模型的召回率为70％，而压制模型对中性文本和负面文本的召回率为80％，对正面文本的召回率为10％，可以得到下面两张表的数据：

表2：对原始文本集调用基础模型预判；

样本集(10000)	预判中	预判正	预判负	准确率
					中性(6700)	4690	1005	1005	90％
正面(2000)	300	1400	300	54％
					负面(1300)	195	195	910	41％

表3：对表2中预判所得负面文本调用压制模型；

样本集(2215)	预判中	预判正	预判负
				中性(1005)	804	100.5	100.5
正面(300)	135	30	135
				负面(910)	91	91	728

表4：对原始文本调用基础模型与压制模型后的汇总统计；

样本集(10000)	预判中	预判正	预判负	准确率
					中性(6700)	5494	1105.5	100.5	88％
正面(2000)	435	1430	135	51％
					负面(1300)	286	286	728	76％

从上面的表可以看到，负面文本预判的准确度得到明显的提高。

目前，正面样本的准确度还不高。同样的原理，可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型，并利用该模型对正面文本预判的准确度，进行抬升。但为了对前面负面文本预判结果的影响，步骤稍有所不同：

1)收集调用负面压制模型后，汇总所得预判为正面的文本；

沿用上面的假设，我们得到下面表数据：

表5：对表4中预判所得正面文本调用压制模型。

样本集(2821.5)	预判中	预判正	预判负
				中性(1105.5)	994.95	110.55	0
正面(1430)	286	1144	0
				负面(286)	143	143	0

表6：对原始文本调用基础模型、负面压制模型与正面压制后的汇总统计。

样本集(10000)	预判中	预判正	预判负	准确率
					中性(6700)	6488.95	110.55	100.5	85％
正面(2000)	721	1144	135	82％
					负面(1300)	429	143	728	76％

从上表来看，通过对所有占比较低的正、负面调用我们发明的组合模型后，都可达到较高的预判准确度。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种提高情感倾向占比低文本预断准确率的方法，其特征在于：

1)设计一个召回率都差不多的情感模型；

(1)各类样本以相同的比率召回或不被召回；

下面是该模型的训练过程：

(1)随机从相应工作环境中抽取样本集；

(2)组织人手对上面所抽取的样本集进行情感倾向标注；

3)设计召回率有偏颇的情感模型；

该模型的训练过程：

(1)随机从相应工作环境中抽取样本集；

4)设计一个基础模型+压制模型的串联式组合模型

1)文本通过基础模型，将被预判为正、中、负文本；

2.如权利要求1所述的提高情感倾向占比低文本预断准确率的方法，其特征在于：2)设计召回率有偏颇的情感模型；此模型会对没有考虑的那类文本，有任何帮助。同时，在后面的方案中，该模型主要作用：就是将占比高类文本中，误判到想要提高准确度类的样本，进行压制，或从该类预判结果中清理出去。因此，我们称之为压制模型。我们测试下来，该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80％(当然，剩下那类的召回率则很低了)。

3.如权利要求2所述的提高情感倾向占比低文本预断准确率的方法，其特征在于：修正基础模型的召回率为70％，而压制模型对中性文本和负面文本的召回率为80％，对正面文本的召回率为10％；

目前，正面样本的准确度还不高。同样的原理，可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型，并利用该模型对正面文本预判的准确度，进行抬升，但为了对前面负面文本预判结果的影响，步骤有所不同：

1)收集调用负面压制模型后，汇总所得预判为正面的文本；