CN111046182A

CN111046182A - 一种构建互联网短文本情绪标注语料库的方法

Info

Publication number: CN111046182A
Application number: CN201911265873.4A
Authority: CN
Inventors: 郑文锋; 杨波; 石天一; 刘珊; 曾庆川
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-21
Anticipated expiration: 2039-12-11
Also published as: CN111046182B

Abstract

本发明公开了一种构建互联网短文本情绪标注语料库的方法，首先通过机器翻译实现短文本的语言转换，再进行文本的预处理，将文本转换为词的集合并通过词语匹配以及权重值的计算初步确定文本的情感极性和情绪倾向，这样能够使情绪标注方法更好的适用于不同的场景，得到更好的分类效果；最后对自动标注无法确定情绪极性的语料进行人工核查，完成整个语料库的标注从而能够快速准确地构造适用于各种场景的短文本情绪标注语料库。

Description

一种构建互联网短文本情绪标注语料库的方法

技术领域

本发明属于自然语言处理技术领域，更为具体地讲，涉及一种构建互联网短文本情绪标注语料库的方法。

背景技术

对文本进行自动化情绪标注是自然语言处理、情绪计算等人工智能技术的重要应用领域。互联网的发展使得社交网络平台逐渐称为公众广泛应用的平台，如推特(twitter)、微博、SNS等，这类社交网络平台通常是有字数限制的，并且用户在发表时往往使用了许多口语化、非正式的表达方式，包括具有强调情感的表情符号和表情等内容。这导致传统的用于处理正式文本的情绪分类问题的方法以及现有的有标注语料在应用到互联网的数据分析时达不到理想的效果。如何根据互联网短文本的特点进行文本处理并进行分析成为了当下自然语言处理领域的一个研究要点，同时带来的一个问题就是用于研究互联网文本的语料库。

在传统的对文本进行情感分析和情绪分析的研究中，常用的方法有基于情感词典和基于规则的方法。基于规则的情绪分类方法在其规定领域都可以在较短时间内获得分类结果，但在数据量较大时，规则的维护比较复杂，且不易扩展。基于词典的方法主要利用情绪词典资源。提取语料库中情绪表达关键字，并根据此对语料进行情绪分类，两种方法都存在的问题即语料库资源不足，情绪词固定，难以捕捉新词、变形词。文本情绪分析领域主要面临的挑战包括数据的稀缺性，无论是情绪训练语料还是情绪词典资源，都处于比较匮乏的阶段；类别的不平衡，收集到的样本中情绪各类别的数量明显存在差异；领域依赖性，情绪词在不同领域的表达存在差异；语言不平衡，当前大多数工作都基于英文语料，语言迁移存在困难。

有标记的语料库是进行文本情绪分析和文本情感分析的关键，是必不可少的研究材料之一，但由于语言、领域、背景等差异导致有限的有标记语料在很多情况下无法满足研究要求。当前对于语料库的标注大多停留在人工标注，如一种针对中文微博的语料库构建方法，是完全通过人工标注实现的，其标注的语料仅能适应中文微博文本的情绪分析研究，难以迁移到其他语言环境或者其他平台背景下。

发明内容

本发明的目的在于克服现有技术的不足，提供一种构建互联网短文本情绪标注语料库的方法，能够在不同的语言环境下构建对应带有情感极性标注及情绪倾向标注的短文本语料库。

为实现上述发明目的，本发明一种构建互联网短文本情绪标注语料库的方法，其特征在于，包括以下步骤：

(1)、获取短文本组成文本集合

从互联网社交平台上下载发布的短文本，再将短文本以字符串的格式保存在文本集合；

(2)、文本集合预处理

(2.1)、机器翻译

设置翻译器的源语言类别，再通过翻译器将所有短文本转换成字符串；

(2.2)、移除标识用户名

通过正则匹配删除字符串中存在着对情绪指向无影响的标识用户名，得到匹配字符串；

(2.3)、去除标点符号，数字和特殊字符

将匹配字符串中的全部非英文字符内容并全部替换成空格，即将标点符号，数字和特殊字符替换成空格，返回清理后的字符串；

(2.4)、删除长度不超过3的字符串；

(3)、词语匹配及权重计算

(3.1)、建立初始语料库

初始语料库的每一行用于存放一条短文本，在每一行中又包括多个字段，具体包括：字段1为原始文本，字段2为步骤(2)最终得到的字符串，字段3 为最终的情感极性，默认为0，字段4为最终的情绪倾向，默认为0，字段5为该短文本的情感权重向量，记为v，维度为2，用于保存积极Positive,、消极Negative的权重值，默认值v＝(0,0)，字段6为该短文本的情绪权重向量，记为q，维度为8，用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值，默认值 q＝(0,0,0,0,0,0,0,0)；

(3.2)、词语匹配

将步骤(2)最终得到的字符串切分的若干个单词的集合，并按照顺序将单词标记为w₁,w₂,w₃,…,w_l，将第i个单词w_i在情绪词典中进行匹配，如果内容完全一致的，则将w_i在情绪词典中对应的Positive权重值记为p_i，Negative权重值记为n_i，Anticipation权重值记为p_i1,Joy权重值记为p_i2,Surprise权重值记为p_i3, Trust权重值记为p_i4,Anger权重值记为n_i1,Disgust权重值记为n_i2,Fear权重值记为n_i3,Sadness权重值记为n_i4；否则，将其对应的权重值p_i，n_i，p_i1，p_i2，p_i3， p_i4，n_i1，n_i2，n_i3，n_i4均记为0；最后再更新初始语料库的对应行；其中，i＝1,2，…，l；

(3.3)、权重计算

计算短文本的情感权重向量v和情绪权重向量q；

(3.4)、计算情感极性

(3.4.1)、计算正负情感极性的比例值：

其中，M_p代表积极情感极性的比例值，M_n代表消极情感极性的比例值，v₀和 v₁分别代表情感权重向量v的第一项

和第二项

(3.4.2)、设定强度阈值k₀；如果M_p≥k₀+δ，δ为常数，则将初始语料库中字段3的值设置为1，代表积极；如果M_n≥k₀+δ，则将初始语料库中字段3的值设置为2，代表消极；否则，保持初始语料库中字段3的默认值为0；

(3.5)、计算情绪倾向

(3.5.1)、计算计算情绪权重总和M；

(3.5.2)、计算每个情绪对应的权重比例；

(3.5.3)、将所有的权重比例组成权重值的集合m，再标记出集合m中的最大值m_max和最小值m_min；

(3.5.4)、设定极性阈值上限k₁和极性阈值下限k₂；计算极差r＝m_max-m_min，如果r≥k₁且情绪倾向权重值为m_max的情绪倾向只有一个时，则将初始语料库中字段4的值为情绪倾向值为m_max的情绪倾向对应的数值；

如果r≤k₂时，则保持初始语料库中字段4的默认值为0；

如果k₁＜r＜k₂或r≥k₁且情绪倾向权重值为m_max的情绪倾向不唯一时，则将初始语料库中字段4的值设置为9，表示需要进一步人工核查；

(3.6)、人工核查

在语料库中，筛选出字段4的值设置为9项，参考其情绪向量及原始文本信息，进行人工核查确定出最终的情绪倾向，并将最终确定的情绪倾向对应的数值更新至该项的字段4；

(4)、整理语料库

经过上述步骤后，完成初始语料库的更新，然后保留更新后的语料库中的字段1，字段3以及字段4，即原始文本，情感极性，情绪倾向3项内容，删除其余信息；最终得到带有情感极性标注和情绪倾向标注的短文本语料库。

本发明的发明目的是这样实现的：

本发明一种构建互联网短文本情绪标注语料库的方法，首先通过机器翻译实现短文本的语言转换，使其可以适应本发明所使用的情绪词典。随后针对短文本的文字特点进行文本的预处理，将文本转换为词的集合并通过词语匹配以及权重值的计算初步确定文本的情感极性和情绪倾向。在确定情绪倾向步骤中，阈值是非固定的，在具体应用中，可以根据实际语料库中文本的长度以及总体情绪强度的分布等因素确定阈值的大小，这种取值方法能够使情绪标注方法更好的适用于不同的场景，得到更好的分类效果。最后对自动标注无法确定情绪极性的语料进行人工核查，完成整个语料库的标注。通过本发明构造情绪标注语料库采用了自动化标注与人工标注相结合的方式，因而，具有自动标注的快捷性和人工标注的准确性，能够快速准确地构造适用于各种场景的短文本情绪标注语料库。

同时，本发明一种构建互联网短文本情绪标注语料库的方法还具有以下有益效果：

(1)、本发明能够根据互联网短文本的语言文字特点，对其进行情绪分析，通过自动化的方式标注文本的情感极性和情绪倾向，并对通过自动化标注无法确认极性的文本进行人工标注；

(2)、本发明解决当下自然语言处理领域中有情绪标注语料库匮乏、纯人工标注成本高、现有语料库应用场景有限的问题，能够为情绪分析研究提供更好的条件。

附图说明

图1是本发明一种构建互联网短文本情绪标注语料库的方法流程图；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种构建互联网短文本情绪标注语料库的方法流程图。

在本实施例中，如图1所示，本发明一种构建互联网短文本情绪标注语料库的方法，包括以下步骤：

S1、通过python的scrapy框架抓取互联网社交平台上的公开短文本，再将短文本以字符串的格式保存在文本集合。

S2、对文本集合进行预处理，具体步骤如下：

S2.1语言转换

通过python调用翻译器，设置源语言类别，目标语言为英语，再通过翻译器将所有短文本转换成字符串。由于社交平台的短文本通常具有结构简单，内容简单的文字特点，通过机器翻译即可完成翻译的工作。

对于常见的如推特(twitter)、微博、脸书(Facebook)等社交网络中的信息，存在着对情绪指向无影响的用户信息，删除这些无用信息有助于接下来的进一步分析，具体如下：

S2.2、移除标识用户名

通过正则匹配删除文本中不需要的内容，返回原始字符串清除匹配内容后剩下的字符。在本实施例中，在此实施例中，微博文本的用户信息以“@”开始，到空格(“”)结束，因此，匹配规则为“@[\w]*”，将匹配到的内容用空字符替换，得到进行用户名移除操作后的字符串集合。

S2.3、去除标点符号，数字和特殊字符

标点符号，数字和特殊字符都是对情绪指向无影响的，匹配字符串中的全部非英文字符内容并全部替换成空格，返回清理后的字符串。在此实施例中，匹配规则为匹配除"[^a-zA-Z]"以外的全部内容，用空格进行替换，得到去除标点符号，数字和特殊字符的字符串集合。

S2.4、去除短单词

对于长度小于三的英文单词，通常不对情绪指向有明显影响，为减少后续匹配的速度，提高效率，对长度不超过3的字符串都进行删除。在此实施例中，具体实施方式为将字符串通过split进行分割并对分割后的每一个单元进行判断，保留所有长度大于3的字符串，得到长度均大于3的字符串集合，通过空格进行拼接。

S3、词语匹配及权重计算

S3.1、初始语料库建立

初始语料库的每一行用于存放一条短文本，在每一行中又包括多个字段，具体包括：字段1为原始文本，字段2为步骤(2)最终得到的字符串，字段3 为最终的情感极性，默认为0，字段4为最终的情绪倾向，默认为0，字段5为该短文本的情感权重向量，记为v，维度为2，用于保存积极Positive,、消极 Negative的权重值，默认值v＝(0,0)，字段6为该短文本的情绪权重向量，记为q，维度为8，用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值，默认值 q＝(0,0,0,0,0,0,0,0)；

S3.2词语匹配

语料库中每一项数据的字段2均是由空格切分的若干个单词的集合，按照顺序将单词标记为w₁,w₂,w₃,…,w_l，对于i(i＝1,2,3,…,l)，将w_i在加拿大国家研究委员会(NRC)公开的情绪词典中进行完全匹配，内容完全一致的，将w_i在情绪词典中对应词语的Positive的权重值记为p_i，Negative的权重值记为n_i， Anticipation的权重值记为p_i1,Joy的权重值记为p_i2,Surprise的权重值记为p_i3, Trust的权重值记为p_i4,Anger的权重值记为n_i1,Disgust的权重值记为n_i2,Fear的权重值记为n_i3,Sadness的权重值记为n_i4；未能匹配到词语，将其对应的p_i，n_i， p_i1，p_i2，p_i3，p_i4，n_i1，n_i2，n_i3，n_i4均记为0。

在此实施例中，选取的情绪词典为加拿大国家研究委员会(NRC)公开的包含105种语言的情绪词的词典，其中英文情绪词为首列，即对于字符串中由空格切分的词语，仅在第一列的范围内进行匹配即可，对于匹配成功的词语，检查其在词典中的字符串长度是否与原字符串长度一致，最终仅使用长度一致的匹配项的相关权重值。

例如，原词语为improve，在词典中查找得到的匹配项有improve、improved、improvement三项，最终采取的匹配项为improve，其对应的情绪权重值分布如表1所示；

Positive	Negative	Anger	Anticipation	Disgust	Fear	Joy	Sadness	Surprise	Trust
										1	0	0	1	0	0	1	0	0	1

表1

S3.3、权重计算

对于每一项文本，计算其情感权重向量和情绪权重向量，计算方法如下。

S3.4、情感极性计算

计算正负情感极性的比例值：

其中，M_p代表积极情感极性的比例值，M_n代表消极情感极性的比例值，v₀和v₁分别代表情感权重向量v的第一项

和第二项

设定强度阈值k₀,(0＜k₀＜0.5)，如果M_p≥k₀+δ，δ为常数，则将初始语料库中字段3的值设置为1，代表积极；如果M_n≥k₀+δ，语料对应行的字段3标注为2，代表消极；M_p和M_n均小于k₀+δ的，不改变其第3列标注值，标注值为0 即无明显情感极性。

在此实施例中，根据中文微博的平均长度以及经过翻译和数据预处理后的有效词语数量确定阈值k₀为0.25，δ取值为0.5，根据此阈值判断语料的情感极性并更新其在语料库中对应项的值。

S3.5情绪倾向计算

计算情绪权重总和M及每个情绪对应的权重比例，其中M_n1为anger情绪的权重值在总体情绪权重中所占的百分比，类似的有M_n2,M_n3,M_n4,M_p1,M_p2,M_p3,M_p4分别对应Disgust,Fear,Sadness,Anticipation,Joy,Surprise,Trust情绪的权重值在总体情绪权重中所占的百分比。

m＝(M_p1,M_p2,M_p3,M_p4,M_n1,M_n2,M_n3,M_n4)

m为所有权重值的集合，m_max为集合m中的最大值，m_min为集合m中的最小值，计算m的极差r＝m_max-m_min，设定极性阈值上限k₁，(0＜k₁＜1)和极性阈值下限 k₂,(0＜k₂＜k₁)。

r≥k₁且情绪倾向权重值为m_max的情绪倾向只有一个时，更改语料的字段4为情绪倾向值为m_max的情绪倾向对应的数字标注值。情绪倾向对应数字标注的对应关系如表2所示。

表2

r≤k₂时，不对语料的字段4进行更改，值仍然为默认的0，代表Neutral(中性)。

k₁＜r＜k₂或r≥k₁且情绪倾向权重值为m_max的情绪倾向不唯一时，将语料的字段4更改为9，表示需要进一步核对。

在此实施例中，根据原始文本的长度以及翻译后文本有效词汇的数量，令k₁取值为0.20，k₂取值为0.07。即在所有情绪权重的百分比中，若极性最强的情绪与极性最弱的情绪之间的差值达到总体情绪强度的20％以上即可确定该条文本的情绪极性为两者中权重值较大的一个；若极性最强的情绪与极性最弱的情绪之间的差值未达到总体情绪强度的7％，则认为该条文本无明显情绪极性。上述两种情况都不符合的，认为无法通过自动标注方法确定其情感极性，因此将情绪标注字段标记为9，方便后续对此类文本采取人工标注的方式确定其最终的情绪倾向。

S3.6、人工核查

筛选出语料库中字段4标注为9的项，进行人工核查，参考其情绪向量及原始文本信息，确定其情绪倾向，并将最终确定的情绪倾向对应标注数字更新至该项的字段4。

S4、整理语料库

保留语料库中的字段1，字段3以及字段4，即原始文本，情感极性，情绪倾向3项内容，删除其余信息，最终得到带有情感极性标注和情绪倾向标注的短文本语料库。其中情感极性标注分为3类：0,1,2，分别对应中性，积极，消极三种情感极性。情绪倾向标注分为9类，通过数字0，1,2,3,4,5,6,7,8表示，其中有情绪的有8类：Anger(愤怒),Disgust(恶心),Fear(恐惧),Sadness(悲伤), Anticipation(期盼),Joy(喜悦),Surprise(惊喜),Trust(信任)；无情绪的为Neutral(中性)。标注数字与其含义的对应关系如表2所示。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种构建互联网短文本情绪标注语料库的方法，其特征在于，包括以下步骤：

(1)、获取短文本组成文本集合

(2)、文本集合预处理

(2.1)、机器翻译

(2.2)、移除标识用户名

(2.3)、去除标点符号，数字和特殊字符

(2.4)、删除长度不超过3的字符串；

(3)、词语匹配及权重计算

(3.1)、建立初始语料库

初始语料库的每一行用于存放一条短文本，在每一行中又包括多个字段，具体包括：字段1为原始文本，字段2为步骤(2)最终得到的字符串，字段3为最终的情感极性，默认为0，字段4为最终的情绪倾向，默认为0，字段5为该短文本的情感权重向量，记为v，维度为2，用于保存积极Positive,、消极Negative的权重值，默认值v＝(0,0)，字段6为该短文本的情绪权重向量，记为，维度为8，用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值，默认值q＝(0,0,0,0,0,0,0,0)；

(3.2)、词语匹配

将步骤(2)最终得到的字符串切分的若干个单词的集合，并按照顺序将单词标记为w₁,w₂,w₃,…,w_l，将第i个单词w_i在情绪词典中进行匹配，如果内容完全一致的，则将w_i在情绪词典中对应的Positive权重值记为p_i，Negative权重值记为n_i，Anticipation权重值记为p_i1,Joy权重值记为p_i2,Surprise权重值记为p_i3,Trust权重值记为p_i4,Anger权重值记为n_i1,Disgust权重值记为n_i2,Fear权重值记为n_i3,Sadness权重值记为n_i4；否则，将其对应的权重值p_i，n_i，p_i1，p_i2，p_i3，p_i4，n_i1，n_i2，n_i3，n_i4均记为0；最后再更新初始语料库的对应行；其中，i＝1,2,…,l；

(3.3)、权重计算

计算短文本的情感权重向量v和情绪权重向量q；

(3.4)、计算情感极性

(3.4.1)、计算正负情感极性的比例值：

其中，M_p代表积极情感极性的比例值，M_n代表消极情感极性的比例值；v₀和v₁分别代表情感权重向量v的第一项和第二项，且满足：

(3.4.2)、设定强度阈值k₀；如果M_p≥k₀+δ，δ为常数，则将初始语料库中字段3的值设置为1，代表积极；如果M_n≥k₀+δ，则将初始语料库中字段3的值设置为2，代表消极；否则，否则，保持初始语料库中字段3的默认值为0；

(3.5)、计算情绪倾向

(3.5.1)、计算计算情绪权重总和M；

(3.5.2)、计算每个情绪对应的权重比例；

如果r≤k₂时，则保持初始语料库中字段4的默认值为0；

(3.6)、人工核查

(4)、整理语料库

2.根据权利要求1所述的一种构建互联网短文本情绪标注语料库的方法，其特征在于，所述步骤(4)中，情感极性标注分为0、1、2共计3类，分别对应中性，积极，消极三种情感极性；情绪倾向标注分为0、1、2、3、4、5、6、7、8共计9类，其中包含8类情绪：Anger、Disgust、Fear、Sadness、Anticipation、Joy、Surprise、Trust；无情绪的为Neutral。