CN111046182A - 一种构建互联网短文本情绪标注语料库的方法 - Google Patents

一种构建互联网短文本情绪标注语料库的方法 Download PDF

Info

Publication number
CN111046182A
CN111046182A CN201911265873.4A CN201911265873A CN111046182A CN 111046182 A CN111046182 A CN 111046182A CN 201911265873 A CN201911265873 A CN 201911265873A CN 111046182 A CN111046182 A CN 111046182A
Authority
CN
China
Prior art keywords
emotion
value
field
corpus
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911265873.4A
Other languages
English (en)
Other versions
CN111046182B (zh
Inventor
郑文锋
杨波
石天一
刘珊
曾庆川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911265873.4A priority Critical patent/CN111046182B/zh
Publication of CN111046182A publication Critical patent/CN111046182A/zh
Application granted granted Critical
Publication of CN111046182B publication Critical patent/CN111046182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种构建互联网短文本情绪标注语料库的方法,首先通过机器翻译实现短文本的语言转换,再进行文本的预处理,将文本转换为词的集合并通过词语匹配以及权重值的计算初步确定文本的情感极性和情绪倾向,这样能够使情绪标注方法更好的适用于不同的场景,得到更好的分类效果;最后对自动标注无法确定情绪极性的语料进行人工核查,完成整个语料库的标注从而能够快速准确地构造适用于各种场景的短文本情绪标注语料库。

Description

一种构建互联网短文本情绪标注语料库的方法
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种构建互联网 短文本情绪标注语料库的方法。
背景技术
对文本进行自动化情绪标注是自然语言处理、情绪计算等人工智能技术的 重要应用领域。互联网的发展使得社交网络平台逐渐称为公众广泛应用的平台, 如推特(twitter)、微博、SNS等,这类社交网络平台通常是有字数限制的,并 且用户在发表时往往使用了许多口语化、非正式的表达方式,包括具有强调情 感的表情符号和表情等内容。这导致传统的用于处理正式文本的情绪分类问题 的方法以及现有的有标注语料在应用到互联网的数据分析时达不到理想的效 果。如何根据互联网短文本的特点进行文本处理并进行分析成为了当下自然语 言处理领域的一个研究要点,同时带来的一个问题就是用于研究互联网文本的 语料库。
在传统的对文本进行情感分析和情绪分析的研究中,常用的方法有基于情 感词典和基于规则的方法。基于规则的情绪分类方法在其规定领域都可以在较 短时间内获得分类结果,但在数据量较大时,规则的维护比较复杂,且不易扩 展。基于词典的方法主要利用情绪词典资源。提取语料库中情绪表达关键字, 并根据此对语料进行情绪分类,两种方法都存在的问题即语料库资源不足,情 绪词固定,难以捕捉新词、变形词。文本情绪分析领域主要面临的挑战包括数 据的稀缺性,无论是情绪训练语料还是情绪词典资源,都处于比较匮乏的阶段; 类别的不平衡,收集到的样本中情绪各类别的数量明显存在差异;领域依赖性, 情绪词在不同领域的表达存在差异;语言不平衡,当前大多数工作都基于英文 语料,语言迁移存在困难。
有标记的语料库是进行文本情绪分析和文本情感分析的关键,是必不可少 的研究材料之一,但由于语言、领域、背景等差异导致有限的有标记语料在很 多情况下无法满足研究要求。当前对于语料库的标注大多停留在人工标注,如 一种针对中文微博的语料库构建方法,是完全通过人工标注实现的,其标注的 语料仅能适应中文微博文本的情绪分析研究,难以迁移到其他语言环境或者其 他平台背景下。
发明内容
本发明的目的在于克服现有技术的不足,提供一种构建互联网短文本情绪 标注语料库的方法,能够在不同的语言环境下构建对应带有情感极性标注及情 绪倾向标注的短文本语料库。
为实现上述发明目的,本发明一种构建互联网短文本情绪标注语料库的方 法,其特征在于,包括以下步骤:
(1)、获取短文本组成文本集合
从互联网社交平台上下载发布的短文本,再将短文本以字符串的格式保存 在文本集合;
(2)、文本集合预处理
(2.1)、机器翻译
设置翻译器的源语言类别,再通过翻译器将所有短文本转换成字符串;
(2.2)、移除标识用户名
通过正则匹配删除字符串中存在着对情绪指向无影响的标识用户名,得到 匹配字符串;
(2.3)、去除标点符号,数字和特殊字符
将匹配字符串中的全部非英文字符内容并全部替换成空格,即将标点符号, 数字和特殊字符替换成空格,返回清理后的字符串;
(2.4)、删除长度不超过3的字符串;
(3)、词语匹配及权重计算
(3.1)、建立初始语料库
初始语料库的每一行用于存放一条短文本,在每一行中又包括多个字段, 具体包括:字段1为原始文本,字段2为步骤(2)最终得到的字符串,字段3 为最终的情感极性,默认为0,字段4为最终的情绪倾向,默认为0,字段5为 该短文本的情感权重向量,记为v,维度为2,用于保存积极Positive,、消极Negative的权重值,默认值v=(0,0),字段6为该短文本的情绪权重向量,记为q, 维度为8,用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、 快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值,默认值 q=(0,0,0,0,0,0,0,0);
(3.2)、词语匹配
将步骤(2)最终得到的字符串切分的若干个单词的集合,并按照顺序将单 词标记为w1,w2,w3,…,wl,将第i个单词wi在情绪词典中进行匹配,如果内容完全 一致的,则将wi在情绪词典中对应的Positive权重值记为pi,Negative权重值记 为ni,Anticipation权重值记为pi1,Joy权重值记为pi2,Surprise权重值记为pi3, Trust权重值记为pi4,Anger权重值记为ni1,Disgust权重值记为ni2,Fear权重值记 为ni3,Sadness权重值记为ni4;否则,将其对应的权重值pi,ni,pi1,pi2,pi3, pi4,ni1,ni2,ni3,ni4均记为0;最后再更新初始语料库的对应行;其中,i=1,2,…,l;
(3.3)、权重计算
计算短文本的情感权重向量v和情绪权重向量q;
Figure BDA0002312824150000031
Figure BDA0002312824150000032
(3.4)、计算情感极性
(3.4.1)、计算正负情感极性的比例值:
Figure BDA0002312824150000033
Figure BDA0002312824150000034
其中,Mp代表积极情感极性的比例值,Mn代表消极情感极性的比例值,v0和 v1分别代表情感权重向量v的第一项
Figure BDA0002312824150000035
和第二项
Figure BDA0002312824150000036
(3.4.2)、设定强度阈值k0;如果Mp≥k0+δ,δ为常数,则将初始语料库中 字段3的值设置为1,代表积极;如果Mn≥k0+δ,则将初始语料库中字段3的 值设置为2,代表消极;否则,保持初始语料库中字段3的默认值为0;
(3.5)、计算情绪倾向
(3.5.1)、计算计算情绪权重总和M;
Figure BDA0002312824150000041
(3.5.2)、计算每个情绪对应的权重比例;
Figure BDA0002312824150000042
Figure BDA0002312824150000043
(3.5.3)、将所有的权重比例组成权重值的集合m,再标记出集合m中的最 大值mmax和最小值mmin
(3.5.4)、设定极性阈值上限k1和极性阈值下限k2;计算极差r=mmax-mmin, 如果r≥k1且情绪倾向权重值为mmax的情绪倾向只有一个时,则将初始语料库中字 段4的值为情绪倾向值为mmax的情绪倾向对应的数值;
如果r≤k2时,则保持初始语料库中字段4的默认值为0;
如果k1<r<k2或r≥k1且情绪倾向权重值为mmax的情绪倾向不唯一时,则将 初始语料库中字段4的值设置为9,表示需要进一步人工核查;
(3.6)、人工核查
在语料库中,筛选出字段4的值设置为9项,参考其情绪向量及原始文本 信息,进行人工核查确定出最终的情绪倾向,并将最终确定的情绪倾向对应的 数值更新至该项的字段4;
(4)、整理语料库
经过上述步骤后,完成初始语料库的更新,然后保留更新后的语料库中的 字段1,字段3以及字段4,即原始文本,情感极性,情绪倾向3项内容,删除 其余信息;最终得到带有情感极性标注和情绪倾向标注的短文本语料库。
本发明的发明目的是这样实现的:
本发明一种构建互联网短文本情绪标注语料库的方法,首先通过机器翻译 实现短文本的语言转换,使其可以适应本发明所使用的情绪词典。随后针对短 文本的文字特点进行文本的预处理,将文本转换为词的集合并通过词语匹配以 及权重值的计算初步确定文本的情感极性和情绪倾向。在确定情绪倾向步骤中, 阈值是非固定的,在具体应用中,可以根据实际语料库中文本的长度以及总体 情绪强度的分布等因素确定阈值的大小,这种取值方法能够使情绪标注方法更 好的适用于不同的场景,得到更好的分类效果。最后对自动标注无法确定情绪 极性的语料进行人工核查,完成整个语料库的标注。通过本发明构造情绪标注 语料库采用了自动化标注与人工标注相结合的方式,因而,具有自动标注的快捷性和人工标注的准确性,能够快速准确地构造适用于各种场景的短文本情绪 标注语料库。
同时,本发明一种构建互联网短文本情绪标注语料库的方法还具有以下有 益效果:
(1)、本发明能够根据互联网短文本的语言文字特点,对其进行情绪分析, 通过自动化的方式标注文本的情感极性和情绪倾向,并对通过自动化标注无法 确认极性的文本进行人工标注;
(2)、本发明解决当下自然语言处理领域中有情绪标注语料库匮乏、纯人 工标注成本高、现有语料库应用场景有限的问题,能够为情绪分析研究提供更 好的条件。
附图说明
图1是本发明一种构建互联网短文本情绪标注语料库的方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更 好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设 计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种构建互联网短文本情绪标注语料库的方法流程图。
在本实施例中,如图1所示,本发明一种构建互联网短文本情绪标注语料 库的方法,包括以下步骤:
S1、通过python的scrapy框架抓取互联网社交平台上的公开短文本,再将 短文本以字符串的格式保存在文本集合。
S2、对文本集合进行预处理,具体步骤如下:
S2.1语言转换
通过python调用翻译器,设置源语言类别,目标语言为英语,再通过翻译 器将所有短文本转换成字符串。由于社交平台的短文本通常具有结构简单,内 容简单的文字特点,通过机器翻译即可完成翻译的工作。
对于常见的如推特(twitter)、微博、脸书(Facebook)等社交网络中的信息, 存在着对情绪指向无影响的用户信息,删除这些无用信息有助于接下来的进一 步分析,具体如下:
S2.2、移除标识用户名
通过正则匹配删除文本中不需要的内容,返回原始字符串清除匹配内容后 剩下的字符。在本实施例中,在此实施例中,微博文本的用户信息以“@”开始, 到空格(“”)结束,因此,匹配规则为“@[\w]*”,将匹配到的内容用空字符替 换,得到进行用户名移除操作后的字符串集合。
S2.3、去除标点符号,数字和特殊字符
标点符号,数字和特殊字符都是对情绪指向无影响的,匹配字符串中的全 部非英文字符内容并全部替换成空格,返回清理后的字符串。在此实施例中, 匹配规则为匹配除"[^a-zA-Z]"以外的全部内容,用空格进行替换,得到去除标点 符号,数字和特殊字符的字符串集合。
S2.4、去除短单词
对于长度小于三的英文单词,通常不对情绪指向有明显影响,为减少后续 匹配的速度,提高效率,对长度不超过3的字符串都进行删除。在此实施例中, 具体实施方式为将字符串通过split进行分割并对分割后的每一个单元进行判 断,保留所有长度大于3的字符串,得到长度均大于3的字符串集合,通过空 格进行拼接。
S3、词语匹配及权重计算
S3.1、初始语料库建立
初始语料库的每一行用于存放一条短文本,在每一行中又包括多个字段, 具体包括:字段1为原始文本,字段2为步骤(2)最终得到的字符串,字段3 为最终的情感极性,默认为0,字段4为最终的情绪倾向,默认为0,字段5为 该短文本的情感权重向量,记为v,维度为2,用于保存积极Positive,、消极 Negative的权重值,默认值v=(0,0),字段6为该短文本的情绪权重向量,记为q, 维度为8,用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、 快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值,默认值 q=(0,0,0,0,0,0,0,0);
S3.2词语匹配
语料库中每一项数据的字段2均是由空格切分的若干个单词的集合,按照 顺序将单词标记为w1,w2,w3,…,wl,对于i(i=1,2,3,…,l),将wi在加拿大国家研究委 员会(NRC)公开的情绪词典中进行完全匹配,内容完全一致的,将wi在情绪 词典中对应词语的Positive的权重值记为pi,Negative的权重值记为ni, Anticipation的权重值记为pi1,Joy的权重值记为pi2,Surprise的权重值记为pi3, Trust的权重值记为pi4,Anger的权重值记为ni1,Disgust的权重值记为ni2,Fear的 权重值记为ni3,Sadness的权重值记为ni4;未能匹配到词语,将其对应的pi,ni, pi1,pi2,pi3,pi4,ni1,ni2,ni3,ni4均记为0。
在此实施例中,选取的情绪词典为加拿大国家研究委员会(NRC)公开的 包含105种语言的情绪词的词典,其中英文情绪词为首列,即对于字符串中由 空格切分的词语,仅在第一列的范围内进行匹配即可,对于匹配成功的词语, 检查其在词典中的字符串长度是否与原字符串长度一致,最终仅使用长度一致 的匹配项的相关权重值。
例如,原词语为improve,在词典中查找得到的匹配项有improve、improved、improvement三项,最终采取的匹配项为improve,其对应的情绪权重值分布如 表1所示;
Positive Negative Anger Anticipation Disgust Fear Joy Sadness Surprise Trust
1 0 0 1 0 0 1 0 0 1
表1
S3.3、权重计算
对于每一项文本,计算其情感权重向量和情绪权重向量,计算方法如下。
Figure BDA0002312824150000081
Figure BDA0002312824150000082
S3.4、情感极性计算
计算正负情感极性的比例值:
Figure BDA0002312824150000083
Figure BDA0002312824150000084
其中,Mp代表积极情感极性的比例值,Mn代表消极情感极性的比例值,v0和v1分别代表情感权重向量v的第一项
Figure BDA0002312824150000085
和第二项
Figure BDA0002312824150000086
设定强度阈值k0,(0<k0<0.5),如果Mp≥k0+δ,δ为常数,则将初始语料库 中字段3的值设置为1,代表积极;如果Mn≥k0+δ,语料对应行的字段3标注 为2,代表消极;Mp和Mn均小于k0+δ的,不改变其第3列标注值,标注值为0 即无明显情感极性。
在此实施例中,根据中文微博的平均长度以及经过翻译和数据预处理后的 有效词语数量确定阈值k0为0.25,δ取值为0.5,根据此阈值判断语料的情感极 性并更新其在语料库中对应项的值。
S3.5情绪倾向计算
计算情绪权重总和M及每个情绪对应的权重比例,其中Mn1为anger情绪的 权重值在总体情绪权重中所占的百分比,类似的有Mn2,Mn3,Mn4,Mp1,Mp2,Mp3,Mp4分别对应Disgust,Fear,Sadness,Anticipation,Joy,Surprise,Trust情绪的权重值在 总体情绪权重中所占的百分比。
Figure BDA0002312824150000087
Figure BDA0002312824150000088
Figure BDA0002312824150000091
m=(Mp1,Mp2,Mp3,Mp4,Mn1,Mn2,Mn3,Mn4)
m为所有权重值的集合,mmax为集合m中的最大值,mmin为集合m中的最小 值,计算m的极差r=mmax-mmin,设定极性阈值上限k1,(0<k1<1)和极性阈值下限 k2,(0<k2<k1)。
r≥k1且情绪倾向权重值为mmax的情绪倾向只有一个时,更改语料的字段4为 情绪倾向值为mmax的情绪倾向对应的数字标注值。情绪倾向对应数字标注的对应 关系如表2所示。
Figure BDA0002312824150000092
表2
r≤k2时,不对语料的字段4进行更改,值仍然为默认的0,代表Neutral(中 性)。
k1<r<k2或r≥k1且情绪倾向权重值为mmax的情绪倾向不唯一时,将语料的字 段4更改为9,表示需要进一步核对。
在此实施例中,根据原始文本的长度以及翻译后文本有效词汇的数量,令k1取值为0.20,k2取值为0.07。即在所有情绪权重的百分比中,若极性最强的情 绪与极性最弱的情绪之间的差值达到总体情绪强度的20%以上即可确定该条文 本的情绪极性为两者中权重值较大的一个;若极性最强的情绪与极性最弱的情 绪之间的差值未达到总体情绪强度的7%,则认为该条文本无明显情绪极性。上 述两种情况都不符合的,认为无法通过自动标注方法确定其情感极性,因此将 情绪标注字段标记为9,方便后续对此类文本采取人工标注的方式确定其最终的 情绪倾向。
S3.6、人工核查
筛选出语料库中字段4标注为9的项,进行人工核查,参考其情绪向量及 原始文本信息,确定其情绪倾向,并将最终确定的情绪倾向对应标注数字更新 至该项的字段4。
S4、整理语料库
保留语料库中的字段1,字段3以及字段4,即原始文本,情感极性,情绪 倾向3项内容,删除其余信息,最终得到带有情感极性标注和情绪倾向标注的 短文本语料库。其中情感极性标注分为3类:0,1,2,分别对应中性,积极,消 极三种情感极性。情绪倾向标注分为9类,通过数字0,1,2,3,4,5,6,7,8表示,其 中有情绪的有8类:Anger(愤怒),Disgust(恶心),Fear(恐惧),Sadness(悲伤), Anticipation(期盼),Joy(喜悦),Surprise(惊喜),Trust(信任);无情绪的为Neutral(中 性)。标注数字与其含义的对应关系如表2所示。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域 的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对 本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定 的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发 明创造均在保护之列。

Claims (2)

1.一种构建互联网短文本情绪标注语料库的方法,其特征在于,包括以下步骤:
(1)、获取短文本组成文本集合
从互联网社交平台上下载发布的短文本,再将短文本以字符串的格式保存在文本集合;
(2)、文本集合预处理
(2.1)、机器翻译
设置翻译器的源语言类别,再通过翻译器将所有短文本转换成字符串;
(2.2)、移除标识用户名
通过正则匹配删除字符串中存在着对情绪指向无影响的标识用户名,得到匹配字符串;
(2.3)、去除标点符号,数字和特殊字符
将匹配字符串中的全部非英文字符内容并全部替换成空格,即将标点符号,数字和特殊字符替换成空格,返回清理后的字符串;
(2.4)、删除长度不超过3的字符串;
(3)、词语匹配及权重计算
(3.1)、建立初始语料库
初始语料库的每一行用于存放一条短文本,在每一行中又包括多个字段,具体包括:字段1为原始文本,字段2为步骤(2)最终得到的字符串,字段3为最终的情感极性,默认为0,字段4为最终的情绪倾向,默认为0,字段5为该短文本的情感权重向量,记为v,维度为2,用于保存积极Positive,、消极Negative的权重值,默认值v=(0,0),字段6为该短文本的情绪权重向量,记为,维度为8,用于保存愤怒Anger、期盼Anticipation、恶心Disgust、恐惧Fear、快乐Joy、悲伤Sadness、惊喜Surprise、信任Trust的权重值,默认值q=(0,0,0,0,0,0,0,0);
(3.2)、词语匹配
将步骤(2)最终得到的字符串切分的若干个单词的集合,并按照顺序将单词标记为w1,w2,w3,…,wl,将第i个单词wi在情绪词典中进行匹配,如果内容完全一致的,则将wi在情绪词典中对应的Positive权重值记为pi,Negative权重值记为ni,Anticipation权重值记为pi1,Joy权重值记为pi2,Surprise权重值记为pi3,Trust权重值记为pi4,Anger权重值记为ni1,Disgust权重值记为ni2,Fear权重值记为ni3,Sadness权重值记为ni4;否则,将其对应的权重值pi,ni,pi1,pi2,pi3,pi4,ni1,ni2,ni3,ni4均记为0;最后再更新初始语料库的对应行;其中,i=1,2,…,l;
(3.3)、权重计算
计算短文本的情感权重向量v和情绪权重向量q;
Figure FDA0002312824140000021
Figure FDA0002312824140000022
(3.4)、计算情感极性
(3.4.1)、计算正负情感极性的比例值:
Figure FDA0002312824140000023
Figure FDA0002312824140000024
其中,Mp代表积极情感极性的比例值,Mn代表消极情感极性的比例值;v0和v1分别代表情感权重向量v的第一项和第二项,且满足:
Figure FDA0002312824140000025
(3.4.2)、设定强度阈值k0;如果Mp≥k0+δ,δ为常数,则将初始语料库中字段3的值设置为1,代表积极;如果Mn≥k0+δ,则将初始语料库中字段3的值设置为2,代表消极;否则,否则,保持初始语料库中字段3的默认值为0;
(3.5)、计算情绪倾向
(3.5.1)、计算计算情绪权重总和M;
Figure FDA0002312824140000026
(3.5.2)、计算每个情绪对应的权重比例;
Figure FDA0002312824140000027
Figure FDA0002312824140000031
(3.5.3)、将所有的权重比例组成权重值的集合m,再标记出集合m中的最大值mmax和最小值mmin
(3.5.4)、设定极性阈值上限k1和极性阈值下限k2;计算极差r=mmax-mmin,如果r≥k1且情绪倾向权重值为mmax的情绪倾向只有一个时,则将初始语料库中字段4的值为情绪倾向值为mmax的情绪倾向对应的数值;
如果r≤k2时,则保持初始语料库中字段4的默认值为0;
如果k1<r<k2或r≥k1且情绪倾向权重值为mmax的情绪倾向不唯一时,则将初始语料库中字段4的值设置为9,表示需要进一步人工核查;
(3.6)、人工核查
在语料库中,筛选出字段4的值设置为9项,参考其情绪向量及原始文本信息,进行人工核查确定出最终的情绪倾向,并将最终确定的情绪倾向对应的数值更新至该项的字段4;
(4)、整理语料库
经过上述步骤后,完成初始语料库的更新,然后保留更新后的语料库中的字段1,字段3以及字段4,即原始文本,情感极性,情绪倾向3项内容,删除其余信息;最终得到带有情感极性标注和情绪倾向标注的短文本语料库。
2.根据权利要求1所述的一种构建互联网短文本情绪标注语料库的方法,其特征在于,所述步骤(4)中,情感极性标注分为0、1、2共计3类,分别对应中性,积极,消极三种情感极性;情绪倾向标注分为0、1、2、3、4、5、6、7、8共计9类,其中包含8类情绪:Anger、Disgust、Fear、Sadness、Anticipation、Joy、Surprise、Trust;无情绪的为Neutral。
CN201911265873.4A 2019-12-11 2019-12-11 一种构建互联网短文本情绪标注语料库的方法 Active CN111046182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911265873.4A CN111046182B (zh) 2019-12-11 2019-12-11 一种构建互联网短文本情绪标注语料库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911265873.4A CN111046182B (zh) 2019-12-11 2019-12-11 一种构建互联网短文本情绪标注语料库的方法

Publications (2)

Publication Number Publication Date
CN111046182A true CN111046182A (zh) 2020-04-21
CN111046182B CN111046182B (zh) 2021-12-10

Family

ID=70235707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911265873.4A Active CN111046182B (zh) 2019-12-11 2019-12-11 一种构建互联网短文本情绪标注语料库的方法

Country Status (1)

Country Link
CN (1) CN111046182B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
CN108228612A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 一种提取网络事件关键词以及情绪倾向的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
CN108228612A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 一种提取网络事件关键词以及情绪倾向的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUXIANG ZHANG等: "Text Emotion Distribution Learning via Multi-Task Convolutional Neural Network", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI-18)》 *
乌达巴拉等: "一种基于组合语义的文本情绪分析模型", 《自动化学报》 *

Also Published As

Publication number Publication date
CN111046182B (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN110046261B (zh) 一种建筑工程多模态双语平行语料库的构建方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109359291A (zh) 一种命名实体识别方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN109284400A (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN111078978A (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN111259153A (zh) 一种完全注意力机制的属性级情感分析方法
CN110347802A (zh) 一种文本分析方法及装置
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN106997339A (zh) 文本特征提取方法、文本分类方法及装置
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN107783958B (zh) 一种目标语句识别方法及装置
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant