CN115796158A - 情感词典构建方法、装置、电子设备和计算机可读介质 - Google Patents

情感词典构建方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN115796158A
CN115796158A CN202310073581.0A CN202310073581A CN115796158A CN 115796158 A CN115796158 A CN 115796158A CN 202310073581 A CN202310073581 A CN 202310073581A CN 115796158 A CN115796158 A CN 115796158A
Authority
CN
China
Prior art keywords
vocabulary
emotion
target
determining
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310073581.0A
Other languages
English (en)
Inventor
宋金宝
何雨
黄迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310073581.0A priority Critical patent/CN115796158A/zh
Publication of CN115796158A publication Critical patent/CN115796158A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开的实施例公开了情感词典构建方法、装置、电子设备和计算机可读介质。该方法的具体实施方式包括:在语料库中确定目标词汇,并确定初始情感词典;确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。该实施方式通过在语料库中确定目标词汇,并确定初始情感词典;确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典,使得情感词典中的数据更加准确,也为后续情感词典的利用提高了利用准确度。

Description

情感词典构建方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及情感词典构建方法、装置、电子设备和计算机可读介质。
背景技术
随着互联网的发展,社会媒体大量涌现。社会媒体以互联网为媒介,为用户提供分享意见、经验的交流平台,汇集了大量的用户所产生内容,直接反映人们的情绪、观点及兴趣爱好。文本情感分析这项计算机技术,是对一段文本所表达的情感倾向进行识别。理论上人在文本中的情感表达是十分复杂的,除了肯定(褒)与反对(贬)外,还可能表达喜悦、愤怒、悲哀、恐惧、惊讶等情绪。但目前计算语言学的相关研究一般将情感倾向划分为褒义和贬义,有时也包括中性或混合等等。这种程度的简化在一定程度上可满足人们的需要,具有广阔的应用前景。基于此,情感词典本身的构建十分重要。如果情感词典的规模小,则会遗漏很多情感词,无法识别文本的情感倾向,特别是对于一些短文本,更不易命中情感词;如果情感词典的质量不高,也会造成情感分析结果的错误。亟需一种更好的解决方案。
发明内容
有鉴于此,本公开实施例提供了一种情感词典构建方法、装置、电子设备和计算机可读介质,以解决现有技术中如何针对存量医学数据进行统计计算、分析、呈现的问题。
本公开实施例的第一方面,提供了一种情感词典构建方法,包括:在语料库中确定目标词汇,并确定初始情感词典;确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。
在一些实施例的一些可选的实现方式中,上述在语料库中确定目标词汇,包括:通过PMI阈值公式在上述语料库中确定目标词汇;上述PMI阈值公式包括:
Figure SMS_1
Figure SMS_2
其中,上述
Figure SMS_3
表示词汇
Figure SMS_4
的出现次数,上述
Figure SMS_5
表示词汇
Figure SMS_6
出现的信息量。
在一些实施例的一些可选的实现方式中,上述确定初始情感词典,包括:对预设情感词典进行分类处理,确定积极词典和消极词典;根据上述积极词典和上述消极词典,生成上述初始情感词典。
在一些实施例的一些可选的实现方式中,根据情感权重计算公式计算上述目标词汇的情感权重;其中,上述情感权重计算公式为:
Figure SMS_7
其中,上述P1表示上述目标词汇与积极词汇的共现次数,上述N1表示上述目标词汇与消极词汇的共现次数,上述
Figure SMS_8
表示词汇
Figure SMS_9
的出现次数。
在一些实施例的一些可选的实现方式中,在上述目标语句中存在情感词汇的情况下,确定上述情感词汇的否定词汇;其中,上述语料库包括上述目标语句;根据上述否定词汇的数量确定上述目标语句的情感倾向。
在一些实施例的一些可选的实现方式中,确定上述目标语句的关联语句;其中,上述语料库包括上述目标语句;确定上述关联语句的情感倾向,并根据上述关联语句的情感倾向,确定上述目标语句的情感倾向。
在一些实施例的一些可选的实现方式中,根据上述目标语句的情感倾向,确定上述目标语句中的词汇的情感倾向。
本公开实施例的第二方面,提供了一种情感词典构建装置,装置包括:词汇确定单元,被配置成在语料库中确定目标词汇,并确定初始情感词典;权重确定单元,被配置成确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;词典确定单元,被配置成根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。
在一些实施例的一些可选的实现方式中,上述词汇确定单元被进一步配置成:通过PMI阈值公式在上述语料库中确定目标词汇;上述PMI阈值公式包括:
Figure SMS_10
Figure SMS_11
其中,上述
Figure SMS_12
表示词汇
Figure SMS_13
的出现次数,上述
Figure SMS_14
表示词汇
Figure SMS_15
出现的信息量。
在一些实施例的一些可选的实现方式中,上述词汇确定单元被进一步配置成:对预设情感词典进行分类处理,确定积极词典和消极词典;根据上述积极词典和上述消极词典,生成上述初始情感词典。
在一些实施例的一些可选的实现方式中,上述权重确定单元被进一步配置成:确定上述目标词汇在对应的目标语句中的句内位置,根据上述句内位置确定上述目标词汇的情感权重,其中,上述语料库包括上述目标语句。
在一些实施例的一些可选的实现方式中,上述权重确定单元被进一步配置成:在上述目标语句中存在情感词汇的情况下,确定上述情感词汇的关联词汇;根据上述关联词汇的数量确定上述目标语句的情感倾向,根据上述目标语句的情感倾向确定上述目标词汇的情感权重。
在一些实施例的一些可选的实现方式中,上述权重确定单元被进一步配置成:在上述目标语句中不存在情感词汇的情况下,确定上述目标语句的关联语句;确定上述关联语句的情感倾向,并根据上述关联语句的情感倾向,确定上述目标词汇的情感权重。
在一些实施例的一些可选的实现方式中,上述权重确定单元被进一步配置成:根据情感权重计算公式计算上述目标词汇的情感权重;其中,上述情感权重计算公式为:
Figure SMS_16
其中,上述P表示上述目标词汇与积极词汇的共现次数,上述N表示上述目标词汇与消极词汇的共现次数,上述
Figure SMS_17
表示词汇
Figure SMS_18
的出现次数。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,在语料库中确定目标词汇,并确定初始情感词典;然后,确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;最后,根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。本公开提供的方法通过在语料库中确定目标词汇,并确定初始情感词典;确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典,使得情感词典中的数据更加准确,也为后续情感词典的利用提高了利用准确度。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的情感词典构建方法的一些实施例的流程示意图;
图2是根据本公开的情感词典构建方法的一些实施例的处理过程流程示意图;
图3是根据本公开的情感词典构建方法的一些实施例的另一处理过程流程示意图;
图4是根据本公开的情感词典构建装置的一些实施例的结构示意图;
图5是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种情感词典构建方法、装置、电子设备和计算机可读介质。
图1是根据本公开的情感词典构建方法的一些实施例的流程示意图。如图1所示,该情感词典构建方法,包括以下步骤:
步骤S101,在语料库中确定目标词汇,并确定初始情感词典。
在实际应用中,点互信息是一种用于信息论和统计学中的关联性度量,顾名思义,它的概念来自于互信息MI。互信息计算所有可能事件的平均值,度量两个事件集合之间的相关性,而点互信息公式取自互信息公式,度量的是两个单个事件的相关性。从概率论来讲,当x与y相关性越大,PMI值越大,表示这两个词汇的紧密性越大,更大可能组成一个词汇。互信息计算具体如下式所示:
Figure SMS_19
在一些实施例中,情感词典构建方法的执行主体可以采用点互信息(PointwiseMutual Information)来计算词汇之间的相关性。具体公式如下:
Figure SMS_20
其中,
Figure SMS_21
代表两个单词同时出现的频率(两个单词同时出现的次数/总词数),p(x)、p(y)分别代表单词x和单词y出现的频率(单词x或y出现的次数/总词数)。从概率论来讲,当x与y相关性越大,PMI值越大,表示这两个词汇的紧密性越大,更大可能组成一个词汇。
进一步的,因此上述公式可以改写为如下公式,
Figure SMS_22
表示括号里面词汇的出现次数,
Figure SMS_23
表示语料库总词数。
Figure SMS_24
具体来说,新词汇的产生一般是结合若干个旧词汇,例如“白富美”是“白”、“富”、“美”的组合,因此相较于一般方法针对句子的每个单词计算他们的点互信息,本实施例先对句子进行分词,再在分好的词汇基础上计算词汇之间的点互信息。好处是节省算力,计算速度变快,同时也增加了新词发现的精确度,避免了奇怪的新词出现。
作为示例,对于输入的语料库,如图2所示,首先对句子进行预处理:去除无意义字符、分词,去除停用词,得到分词后,处理过程中从左往右依次计算词汇之间的紧密程度,判断是否能够组成新词,若PMI大于阈值则视为组成新词,再计算这个新词与下一个词汇的PMI,若小于对应阈值,则将上一步的新词加入到词典中,继续计算新词右边的词汇与下一个词汇之间的PMI值直至句子结束。
在一些实施例的一些可选的实现方式中,通过以下PMI阈值公式在语料库中确定目标词汇:
Figure SMS_25
其中,上述
Figure SMS_26
表示词汇
Figure SMS_27
的出现次数,上述
Figure SMS_28
表示词汇
Figure SMS_29
出现的信息量。
目前大多数方案是对PMI公式做出改进从而期望得到更加精确的分词发现新的词汇。主要步骤都是首先计算PMI值,然后根据阈值筛选得到候选词段,这里的阈值筛选基本都是使用穷举法然后找到效果最好的阈值再进行筛选。这对于研究单个领域是可行的,但是想要适应每一个领域的语料库,显然穷举法会大大降低效率。由于到新词是由旧词组合而来,新词的出现频率一定小于旧词,例如给定一个字“树”,我们会想到“树枝”、“树叶”等,显然“树叶”的出现频率会低于“树”,与此同时新词的出现次数较旧词来说还应当在语料库占据一定的比例以此来排除偶然组合比如说“颗树”、“树里”这样会出现在句子中但不属于词语的排列组合。综上,本实施例提出一个根据语料库自适应的阈值公式。将其与穷举法进行比较可以发现其新词发现效果与穷举法出的最优结果一致,同时在进行情感计算时也达到了差不多的准确率。
进一步的,g表示新词中从左至右相邻词语的出现次数的倍数,引入该因子的目的是用于过滤掉常见介词与词语组合在一起的词汇,例如“还不错”、“都没有”等。因为一般这种介词在语料库中出现频率较高,引入g主要是为了在一定程度上克服低频词汇与高频词汇组合PMI值过高的缺陷,例如外卖评价语料库会出现“比预计”这样的词汇,显然这两个词汇组在一起并没有展现出新的含义,不应该是新词。但是“比”的出现次数为71次,“预计”出现次数为11次,“比预计”出现次数为8次,使用固定阈值的方法很容易将此类词汇判断成新词,若是提高阈值又会漏掉真正的新词。为了防止这种情况发生,本实施例引入g因子。基于上述,两个词汇之间的互信息一定小于等于这两个词汇的自信息,同时两个词汇能够组合成一个新的词汇,必定可以从原本的词汇联想到新词,即新词汇的信息量一定占据大部分的原有词汇信息量,例如在外卖评价语料库中“外”一词很容易联想到“外卖”。
在实际应用中,一个句子往往只有一个或两个词语对句子情感起决定性作用,大多数客观词语并不携带任何情感,例如“果汁”、“电脑”、“睡觉”,因此我们需要首先对词语进行一个大致筛选。形容词主要用来描写或修饰名词或代词,表示人或事物的性质、 状态、特征或属性,一般带有情感倾向,少量的名词或动词也包含情感。同时值得注意的是,对于不应包含情感的词汇若赋予其情感,会影响整体语料库的情感倾向,例如若在情感权重计算阶段给予词汇“苹果”积极倾向,则所有包含苹果的句子都大概率被判断为正向,由此反而降低了整体语料库评论的计算准确率。因此本研究在情感权重计算之前加入了词性过滤步骤,在过滤不带有情感的词汇的同时提高算法效率,并经过实验发现形容词和新词为词性过滤最佳组合。
在一些实施例中,上述执行主体可以对预设情感词典进行分类处理,确定积极词典和消极词典。然后,上述执行主体可以根据上述积极词典和上述消极词典,生成初始情感词典。具体来说,在得到语料库的情感新词后,可以还要判断其情感倾向。同时还有一个常见问题就是,同一个词汇在不同语料库即不同领域或话题中表达的情感倾向是不一致的,例如“热”在外卖评价中一般都是积极倾向,而在 电子产品中“热”则偏向消极。因此针对不同领域或话题的预料可,可以还需要得到以上未知情感倾向或不定情感倾向词汇在处理的语料库中的准确情感倾向。本实施例通过语义规则对词汇倾向进行判定,两条主要规则:正常情况下,发布者发布的文本情感不会突然发生转变,因此根据句子之间的语义关系,可以得出情感关系,例如当前一句为积极时,当不存在转折词时,后面一句的情感往往也会为积极。比如“XX的音色好,又自然,不会用力过猛”,该句前两个分局都表达积极倾向,最后一句没有转折词,因此总体也是积极,分局组合为“不会”+“用力过猛”,不会是否定词,则“用力过猛”应该为消极词汇,因此否定+消极得到积极。同理,两个积极词汇之间的词汇大概率也是积极倾向。所以,词汇的位置信息非常重要;与现有理论的不同在于,现有理论的对象是情感词,“否定词会使相邻的情感词具有相反的情感极性”,但是这样可能并不准确,而句子的情感倾向才是完整的倾向。在另一种情况下,根据互信息,大概率出现在积极词汇旁边的词汇也为积极词汇,大多数论文都是依据此而构建情感词典。根据另一种情况的描述,可以首先需要获取已知的积极词汇,如此才能根据共现定理判断与其相近的情感词汇倾向,而这些已知的情感词汇显然不能属于上述所说的两种情感词汇,而应该是不随语境或情形转变情感倾向的词汇,例如“可爱、美丽、丑陋、难看”等等,无论在任何语境,它们都具有固定的情感倾向,可以称之为stable word,将所有的积极和消极stable word分别放入词典中,可以就可以得到积极固定词典和消极固定词典。
具体地,上述执行主体可以首先对每个词典进行预处理,将所有词典分为积极词典
Figure SMS_30
和消极词典
Figure SMS_31
,计算公式如下:
Figure SMS_32
然后,对得到的词典进行人工筛选,得到常用的明确的固定情感词典。
步骤S102,确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向。
在一些实施例中,上述执行主体可以确定上述目标词汇在对应的目标语句中的句内位置,然后根据上述句内位置确定上述目标词汇的情感权重。这里,上述语料库包括上述目标语句。具体来说,这里为格努句内位置分析词汇情感倾向的模块,理念与互信息类似,对于一个需要判断情感倾向的词汇,分别与积极词汇的共现次数P1和与消极词汇的共现次数N1,通过P1、N1与其本身在语料库中的出现次数计算该词汇的情感权重Weight1:
Figure SMS_33
Figure SMS_34
表示语料库第i个词汇的情感权重。
步骤S103,根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。
在实际应用中,对于情感权重绝对值大于阈值的情感词汇,我们将其添加到对应情感倾向的固定情感词典中。循环遍历语料库,直至情感词典不再新增词汇。此时,句内相关的情感词汇基本上都被找到,但是还有一种情况就是有些句子只包含一个情感词汇,无法通过句内关系来推断该词汇情感倾向,此时我们需要用到句间关系来首先确定句子的整体情感,再借此判断句子中词汇的情感。
需要说明的是,还有一种情况就是有些句子只包含一个情感词汇,无法通过句内关系来推断该词汇情感倾向,此时可以需要用到句间关系来首先确定句子的整体情感,再借此判断句子中词汇的情感。
在一些实施例中,在上述目标语句中存在情感词汇的情况下,确定上述情感词汇的否定词汇;其中,上述语料库包括上述目标语句;根据上述否定词汇的数量确定上述目标语句的情感倾向。作为示例,如图3所示,首先确定句子中是否含有情感词汇,若无则情感倾向为0,若有再判断词汇前面否定词汇的数量,双数情感倾向不变,单数情感倾向发生反转。最终得到计算结果,大于0为积极,小于0为消极。
需要说明的是,该步骤所指的句子不是句号结尾的完整句子,而是所有标点符号分隔的分句,并且对于句子中间包含转折词的句子我们在预处理时会将其分割为两个分句。
在一些实施例中,确定上述目标语句的关联语句;其中,上述语料库包括上述目标语句;确定上述关联语句的情感倾向,并根据上述关联语句的情感倾向,确定上述目标语句的情感倾向。
在实际应用中,上一步我们得到语料库所有分句的情感值,然后推断情感值为0的句子的情感倾向,接着需要判断的是情感倾向为0的句子中的情感词汇倾向,关键是要获得句子前后的情感倾向,来推断当前句子的情感倾向,从而获得句子中的情感词汇倾向。例如若句子前后情感倾向都为积极且没有转折词,则该句情感倾向应当也为正向。
在一些实施例中,本实施例还包括根据所述目标语句的情感倾向,确定所述目标语句中的词汇的情感倾向。
具体的,从句子的整体情感倾向,我们可以判断其中情感词汇的情感倾向。我们统计未知情感词汇在积极句子中的出现次数P2、在消极句子中出现次数N2,以及其本身在语料库中的出现次数来计算情感权重Weight2:
Figure SMS_35
本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,在语料库中确定目标词汇,并确定初始情感词典;然后,确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;最后,根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。本公开提供的方法通过在语料库中确定目标词汇,并确定初始情感词典;确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典,使得情感词典中的数据更加准确,也为后续情感词典的利用提高了利用准确度。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。图4是根据本公开的情感词典构建装置的一些实施例的结构示意图。如图4所示,该情感词典构建装置包括:词汇确定单元401、权重确定单元402和词典确定单元403。其中,词汇确定单元401,被配置成在语料库中确定目标词汇,并确定初始情感词典;权重确定单元402,被配置成确定上述目标词汇的情感权重,根据上述目标词汇的情感权重确定上述目标词汇的情感倾向;词典确定单元403,被配置成根据上述情感倾向将上述目标词汇加入上述初始情感词典,生成目标情感词典。
在一些实施例的一些可选的实现方式中,上述词汇确定单元401被进一步配置成:通过PMI阈值公式在上述语料库中确定目标词汇;上述PMI阈值公式包括:
Figure SMS_36
Figure SMS_37
其中,上述
Figure SMS_38
表示词汇
Figure SMS_39
的出现次数,上述
Figure SMS_40
表示词汇
Figure SMS_41
出现的信息量。
在一些实施例的一些可选的实现方式中,上述词汇确定单元401被进一步配置成:对预设情感词典进行分类处理,确定积极词典和消极词典;根据上述积极词典和上述消极词典,生成上述初始情感词典。
在一些实施例的一些可选的实现方式中,上述权重确定单元402被进一步配置成:根据情感权重计算公式计算上述目标词汇的情感权重;其中,上述情感权重计算公式为:
Figure SMS_42
其中,上述P1表示上述目标词汇与积极词汇的共现次数,上述N1表示上述目标词汇与消极词汇的共现次数,上述
Figure SMS_43
表示词汇
Figure SMS_44
的出现次数。
在一些实施例的一些可选的实现方式中,上述词典确定单元403被进一步配置成:在上述目标语句中存在情感词汇的情况下,确定上述情感词汇的否定词汇;其中,上述语料库包括上述目标语句;根据上述否定词汇的数量确定上述目标语句的情感倾向。
在一些实施例的一些可选的实现方式中,上述词典确定单元403被进一步配置成:确定上述目标语句的关联语句;其中,上述语料库包括上述目标语句;确定上述关联语句的情感倾向,并根据上述关联语句的情感倾向,确定上述目标语句的情感倾向。
在一些实施例的一些可选的实现方式中,上述词典确定单元403被进一步配置成:根据上述目标语句的情感倾向,确定上述目标语句中的词汇的情感倾向。
可以理解的是,该装置中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置及其中包含的单元,在此不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的计算机设备4的示意图。如图4所示,该实施例的计算机设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序403可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在计算机设备4中的执行过程。
计算机设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是计算机设备4的示例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以是计算机设备4的内部存储单元,例如,计算机设备4的硬盘或内存。存储器402也可以是计算机设备4的外部存储设备,例如,计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器402还可以既包括计算机设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种情感词典构建方法,其特征在于,包括:
在语料库中确定目标词汇,并确定初始情感词典;
确定所述目标词汇的情感权重,根据所述目标词汇的情感权重确定所述目标词汇的情感倾向;
根据所述情感倾向将所述目标词汇加入所述初始情感词典,生成目标情感词典。
2.根据权利要求1所述的方法,其特征在于,所述在语料库中确定目标词汇,包括:
通过PMI阈值公式在所述语料库中确定目标词汇;
所述PMI阈值公式包括:
Figure QLYQS_1
其中,所述
Figure QLYQS_2
表示词汇
Figure QLYQS_3
的出现次数,所述
Figure QLYQS_4
表示词汇
Figure QLYQS_5
出现的信息量。
3.根据权利要求1所述的方法,其特征在于,所述确定初始情感词典,包括:
对预设情感词典进行分类处理,确定积极词典和消极词典;
根据所述积极词典和所述消极词典,生成所述初始情感词典。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标词汇的情感权重,包括:
根据情感权重计算公式计算所述目标词汇的情感权重;
其中,所述情感权重计算公式为:
Figure QLYQS_6
其中,所述P1表示所述目标词汇与积极词汇的共现次数,所述N1表示所述目标词汇与消极词汇的共现次数,所述
Figure QLYQS_7
表示词汇
Figure QLYQS_8
的出现次数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标语句中存在情感词汇的情况下,确定所述情感词汇的否定词汇,其中,所述语料库包括所述目标语句;
根据所述否定词汇的数量确定所述目标语句的情感倾向。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标语句的关联语句,其中,所述语料库包括所述目标语句;
确定所述关联语句的情感倾向,并根据所述关联语句的情感倾向,确定所述目标语句的情感倾向。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
根据所述目标语句的情感倾向,确定所述目标语句中的词汇的情感倾向。
8.一种情感词典构建装置,包括:
词汇确定单元,被配置成在语料库中确定目标词汇,并确定初始情感词典;
权重确定单元,被配置成确定所述目标词汇的情感权重,根据所述目标词汇的情感权重确定所述目标词汇的情感倾向;
词典确定单元,被配置成根据所述情感倾向将所述目标词汇加入所述初始情感词典,生成目标情感词典。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202310073581.0A 2023-02-07 2023-02-07 情感词典构建方法、装置、电子设备和计算机可读介质 Pending CN115796158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310073581.0A CN115796158A (zh) 2023-02-07 2023-02-07 情感词典构建方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310073581.0A CN115796158A (zh) 2023-02-07 2023-02-07 情感词典构建方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN115796158A true CN115796158A (zh) 2023-03-14

Family

ID=85430265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310073581.0A Pending CN115796158A (zh) 2023-02-07 2023-02-07 情感词典构建方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN115796158A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
KR20140129833A (ko) * 2013-04-30 2014-11-07 (주)다음소프트 컴퓨터 실행 가능한 감성 어휘 분류 방법 및 이를 수행하는 컴퓨터 실행 장치
CN104317965A (zh) * 2014-11-14 2015-01-28 南京理工大学 基于语料的情感词典构建方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN110263321A (zh) * 2019-05-06 2019-09-20 成都数联铭品科技有限公司 一种情感词典构建方法及系统
CN114118069A (zh) * 2021-09-02 2022-03-01 四川启睿克科技有限公司 一种基于sopmi算法的情感词典扩充方法及情感极性分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
KR20140129833A (ko) * 2013-04-30 2014-11-07 (주)다음소프트 컴퓨터 실행 가능한 감성 어휘 분류 방법 및 이를 수행하는 컴퓨터 실행 장치
CN104317965A (zh) * 2014-11-14 2015-01-28 南京理工大学 基于语料的情感词典构建方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN110263321A (zh) * 2019-05-06 2019-09-20 成都数联铭品科技有限公司 一种情感词典构建方法及系统
CN114118069A (zh) * 2021-09-02 2022-03-01 四川启睿克科技有限公司 一种基于sopmi算法的情感词典扩充方法及情感极性分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛耘;张黎;王世泓;魏欧;: "基于多层次语言特征的弱监督评论倾向性分析" *

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Smetanin et al. Deep transfer learning baselines for sentiment analysis in Russian
Mohammad et al. Sentiment, emotion, purpose, and style in electoral tweets
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
Fabbri et al. ConvoSumm: Conversation summarization benchmark and improved abstractive summarization with argument mining
US20140108006A1 (en) System and method for analyzing and mapping semiotic relationships to enhance content recommendations
CN108491377A (zh) 一种基于多维度信息融合的电商产品综合评分方法
JP2004164036A (ja) 文書の共通性評価方法
WO2017198031A1 (zh) 解析语义的方法和装置
Al-Ghadhban et al. Arabic sarcasm detection in Twitter
RU2618374C1 (ru) Выявление словосочетаний в текстах на естественном языке
Garg et al. The structure of word co-occurrence network for microblogs
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Van Hee et al. Monday mornings are my fave:)# not exploring the automatic recognition of irony in english tweets
US20120078950A1 (en) Techniques for Extracting Unstructured Data
Modi et al. Review on abstractive text summarization techniques (ATST) for single and multi documents
Bouarroudj et al. Named entity disambiguation in short texts over knowledge graphs
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
Scholz et al. Opinion mining in newspaper articles by entropy-based word connections
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
Sanchez-Gomez et al. Sentiment-oriented query-focused text summarization addressed with a multi-objective optimization approach
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
Vaishnavi et al. Paraphrase identification in short texts using grammar patterns
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN116484829A (zh) 用于信息处理的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination