CN109325124B - 一种情感分类方法、装置、服务器和存储介质 - Google Patents
一种情感分类方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN109325124B CN109325124B CN201811157006.4A CN201811157006A CN109325124B CN 109325124 B CN109325124 B CN 109325124B CN 201811157006 A CN201811157006 A CN 201811157006A CN 109325124 B CN109325124 B CN 109325124B
- Authority
- CN
- China
- Prior art keywords
- emotion
- value
- text information
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种情感分类方法、装置、服务器和存储介质,该方法包括:在预设的文本集合中获取待分类的文本信息;根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;按照所述第三情感值确定所述文本信息归属的情感。从个体语料的语义所表达的情感与在整体语料表达的情感倾向进行情感分类,增加了情感分类的维度,个体情感语义与整体情感倾向天然亲缘性高,互补效果好,从而提高了情感分类的准确性。
Description
技术领域
本发明实施例涉及自然语言处理的技术,尤其涉及一种情感分类方法、装置、服务器和存储介质。
背景技术
随着互联网的高速发展,互联网上产生了大量用户参与的文本,如电影评论、商品评价、弹幕,等等,对这些文本进行情感分类,可广泛用于不同的情景。
在一个场景示例中,机器人与用户进行对话,需要让机器人识别用户的情感,如高兴、悲伤等,使得机器人可以根据用户的情感给出更合适的回答。
传统的情感分类是基于情感关键词,是对人的记忆和判断思维的模拟。
首先,通过学习来记忆一些情感关键词,如积极情感词语有“喜欢”、“爱”,消极情感词语有“讨厌”、“恨”等,从而形成一个基本的语料库。
然后,对输入的句子进行分词处理,检测是否存在相应的情感关键词,将每个积极情感词语赋予一个正的权重,如1,将每个消极情感词语赋予一个负的权重,如-1,从而根据句子的总权重的正负值来判断句子的情感。
但是,基于情感关键词进行情感分类,维度单一,有些句子甚至没有情感关键词,导致情感分类的准确率较低。
发明内容
本发明实施例提供一种情感分类方法、装置、服务器和存储介质,以解决基于情感关键词进行情感分类,维度单一,准确率较低的问题。
第一方面,本发明实施例提供了一种情感分类方法,包括:
在预设的文本集合中获取待分类的文本信息;
根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
按照所述第三情感值确定所述文本信息归属的情感。
优选地,所述根据所述文本信息的个体情感语义对所述文本信息计算第一情感值,包括:
从所述文本信息中提取原始词;
识别可表达情感的原始词,作为情感词;
基于所述情感词对所述文本信息计算第一情感值,其中,所述情感词的数量与所述第一情感值正相关。
优选地,所述识别可表达情感的原始词,作为情感词,包括:
将所述原始词与情感词列表中的参考词进行匹配,所述参考词已标记所表达的情感,所述情感包括积极情感和消极情感;
当所述原始词与所述参考词匹配成功时,将所述原始词设置为情感词、并标记所述参考词所表达的情感。
优选地,所述基于所述情感词对所述文本信息计算第一情感值,包括:
计算所述原始词的第四情感值;
统计所述情感词的数量;
基于所述数量计算第五情感值;
结合所述第四情感值与所述第五情感值计算所述文本信息的第一情感值,其中,所述第四情感值与所述第一情感值正相关,所述第五情感值与所述第一情感值正相关。
优选地,通过如下公式计算第一情感值:
其中,所述文本集合中具有N个文本信息,Si为所述文本集合中第i个文本信息,m为第i个文本信息中所述原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值;
若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
优选地,所述根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值,包括:
查找整体情感倾向模型,其中,所述整体情感倾向模型采用已标记情感的训练文本训练生成,所述情感包括积极情感和消极情感;
将所述文本信息输入所述整体情感倾向模型中进行处理,以生成表达整体情感倾向的第二情感值。
优选地,还包括:
采用已标记情感的训练文本训练整体情感倾向模型;
从所述训练文本中提取训练词;
对所述训练词标记所表达的情感,所述情感包括积极情感和消极情感;
将已标记情感的所述训练词作为参考词、更新至情感词列表中。
优选地,所述结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值,包括:
对所述第一情感值配置第一权重,获得第一评分值;
对所述第二情感值配置第二权重,获得第二评分值;
计算所述第一评分值与所述第二评分值之和,作为所述文本信息的第三情感值。
优选地,所述按照所述第三情感值确定所述文本信息归属的情感,包括:
判断所述第三情感值是否大于预设的阈值;
若是,则将所述文本信息归属的情感标记为积极情感;
若否,则将所述文本信息归属的情感标记为消极情感。
第二方面,本发明实施例还提供了一种情感分类装置,包括:
文本信息获取模块,用于在预设的文本集合中获取待分类的文本信息;
第一情感值计算模块,用于根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
第二情感值计算模块,用于根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
第三情感值计算模块,用于结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
情感确定模块,用于按照所述第三情感值确定所述文本信息归属的情感。
优选地,所述第一情感值计算模块包括:
原始词提取子模块,用于从所述文本信息中提取原始词;
情感词识别子模块,用于识别可表达情感的原始词,作为情感词;
情感词计算子模块,用于基于所述情感词对所述文本信息计算第一情感值,其中,所述情感词的数量与所述第一情感值正相关。
优选地,所述情感词识别子模块包括:
情感词列表匹配单元,用于将所述原始词与情感词列表中的参考词进行匹配,所述参考词已标记所表达的情感,所述情感包括积极情感和消极情感;
情感词设置单元,用于当所述原始词与所述参考词匹配成功时,将所述原始词设置为情感词、并标记所述参考词所表达的情感。
优选地,所述情感词计算子模块包括:
第四情感值计算单元,用于计算所述原始词的第四情感值;
数量统计单元,用于统计所述情感词的数量;
第五情感值计算单元,用于基于所述数量计算第五情感值;
情感值结合计算单元,用于结合所述第四情感值与所述第五情感值计算所述文本信息的第一情感值,其中,所述第四情感值与所述第一情感值正相关,所述第五情感值与所述第一情感值正相关。
优选地,通过如下公式计算第一情感值:
其中,所述文本集合中具有N个文本信息,Si为所述文本集合中第i个文本信息,m为第i个文本信息中所述原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值;
若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
优选地,所述第二情感值计算模块包括:
模型查找子模块,用于查找整体情感倾向模型,其中,所述整体情感倾向模型采用已标记情感的训练文本训练生成,所述情感包括积极情感和消极情感;
模型处理子模块,用于将所述文本信息输入所述整体情感倾向模型中进行处理,以生成表达整体情感倾向的第二情感值。
优选地,还包括:
模型训练模块,用于采用已标记情感的训练文本训练整体情感倾向模型;
训练词提取模块,用于从所述训练文本中提取训练词;
情感标记模块,用于对所述训练词标记所表达的情感,所述情感包括积极情感和消极情感;
情感词列表更新模块,用于将已标记情感的所述训练词作为参考词、更新至情感词列表中。
优选地,所述第三情感值计算模块包括:
第一评分值计算子模块,用于对所述第一情感值配置第一权重,获得第一评分值;
第二评分值计算子模块,用于对所述第二情感值配置第二权重,获得第二评分值;
和值计算子模块,用于计算所述第一评分值与所述第二评分值之和,作为所述文本信息的第三情感值。
优选地,所述情感确定模块包括:
阈值判断子模块,用于判断所述第三情感值是否大于预设的阈值;若是,则调用积极情感标记子模块,若否,则调用消极情感标记子模块;
积极情感标记子模块,用于将所述文本信息归属的情感标记为积极情感;
消极情感标记子模块,用于将所述文本信息归属的情感标记为消极情感。
第三方面,本发明实施例还一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面实施例提供所述的情感分类方法。
第四方面,本发明实施例还一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例提供所述的情感分类方法。
在本发明实施例中,在预设的文本集合中获取待分类的文本信息,一方面,根据文本信息的个体情感语义对文本信息计算第一情感值,另一方面,根据文本信息的整体情感倾向对文本信息计算第二情感值,结合第一情感值与第二情感值对文本信息计算第三情感值,按照第三情感值确定文本信息归属的情感,从个体语料的语义所表达的情感与在整体语料表达的情感倾向进行情感分类,增加了情感分类的维度,个体情感语义与整体情感倾向天然亲缘性高,互补效果好,从而提高了情感分类的准确性。
附图说明
图1是本发明实施例一提供的一种情感分类方法的流程图;
图2是本发明实施例二提供的另一种情感分类方法的流程图;
图3是本发明实施例三提供的一种情感分类装置的结构示意图;
图4是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例一提供的一种情感分类方法的流程图,该方法可以由服务器来执行,具体包括如下步骤:
S110、在预设的文本集合中获取待分类的文本信息。
在本发明实施例中,可以预先采集多个未标注情感的文本信息,作为语料存储至一文本集合中。
需要说明的是,针对不同的场景,可以采用不同的方式采集未标注情感的文本信息,本发明实施例对此不加以限制。
例如,对于机器人,可以收集用户输入的聊天消息,作为未标注情感的文本信息。
又例如,对于游戏直播平台,可以收集用户输入的弹幕,作为未标注情感的文本信息。
又例如,通过网络爬虫等工具在网络上爬取原始的文本信息,该原始的文本信息通常都会带有一些无用的信息,如HTML(Hyper Text Mark-up Language,超文本标记语言)标签,此时,可以通过正则表达式等方式原始的文本信息进行预处理,提取所需的文本信息,作为未标注情感的文本信息。
在对文本信息标注情感时,可以从该文本集合中依次提取文本信息。
S120、根据所述文本信息的个体情感语义对所述文本信息计算第一情感值。
针对单一条文本信息,基于其个体本身语义所表达的情感(即个体情感语义)计算所表达的第一情感值。
S130、根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值。
针对单一条文本信息,基于其在整体的语料集中所表达的情感倾向(即整体情感语义,如相比其他语料,是更积极还是更消极)计算所表达的第二情感值。
S140、结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值。
第一情感值与第二情感值是站在不同角度看待文本信息的情感值,因此,综合考虑第一情感值与第二情感值,计算第三情感值,可以得到一个更客观的情感值。
S150、按照所述第三情感值确定所述文本信息归属的情感。
应用本发明实施例,可以设置不同情感值与情感之间的映射关系,通过该映射关系,则可以计算第三情感值所对应的情感,并将该情感标注至当前的文本信息。
图2为本发明实施例二提供的另一种情感分类方法的流程图,该方法可以由服务器来执行,本实施例以前述实施例为基础,进一步增加了对第一情感值、第二情感值、第三情感值的处理操作,该方法具体包括如下步骤:
S201,在预设的文本集合中获取待分类的文本信息。
S202,从所述文本信息中提取原始词。
在具体实现中,可以对文本信息进行预处理,从该文本信息中提取具有意义的原始词。
在一种实施方式中,可以通过结巴(jieba)等方式对文本信息进行分词处理,分词处理之后获得文本分词。
采用预设的停用词表对文本分词过滤停用词,过滤停用词剩余的文本分词,即可作为原始词。
其中,停用词表中记录有预先采集的停用词,如“啊”、“阿”、“吧”、“并且”,等等。
当然,另外,除了上述分词处理与过滤停用词外,本领域技术人员还可以根据实际需要采用其它预处理,从而提取原始词,本发明实施例对此也不加以限制。
S203,识别可表达情感的原始词,作为情感词。
对于文本信息中的原始词,如果识别其自身的语义可表达情感,则将其标注为情感词。
在一种实施方式中,可以预先通过人工标注、复用已有的情感语料库等方式,采集已标注情感的参考词,写入情感词列表中。
即情感词列表中包括多个参考次,参考词已标记所表达的情感,例如,该情感包括积极情感和消极情感。
将原始词与情感词列表中的参考词进行匹配。
当原始词与参考词匹配成功时,将原始词设置为情感词、并对该原始词标记该参考词所表达的情感。
S204,基于所述情感词对所述文本信息计算第一情感值。
其中,情感词的数量与第一情感值正相关。
在具体实现中,如果文本信息中语义可表达情感的情感词的数量越多,计算的第一情感值越高,使得后续情感的分类越准确。
在本发明的一个实施例中,S204进一步可以包括:
S2041,计算所述原始词的第四情感值。
对于原始词,除了包含情感词之外,还可能会存在非情感词(即不表达情感的词,如“今天”、“人”等),针对这些情感词与非情感词,可以基于自身的语义计算第四情感值。
在一个示例中,若情感包括积极情感和消极情感,则针对表达积极情感的原始词可以配置较高的第四情感值,如1,针对表达消极情感的原始词与非情感词可以配置较低的第四情感值,如0。
S2042,统计所述情感词的数量。
S2044,基于所述数量计算第五情感值。
对于原始词中表达情感的情感词,可以基于其在一个文本信息中的数量配置相应的第五情感值。
一般而言,第五情感值与数量正相关,即数量越多,第五情感值越高,反之,数量越少,第五情感值越低。
在一个示例中,第五情感值与数量相等,即数量为2,则第五情感值为2。
S2045,结合所述第四情感值与所述第五情感值计算所述文本信息的第一情感值。
其中,第四情感值与第一情感值正相关,第五情感值与第一情感值正相关。
在具体实现中,如果文本信息中语义可表达情感的情感词的数量越多,原始词的得分越高,计算的第一情感值越高,使得后续情感的分类越准确。
在一个示例中,可以通过如下公式计算第一情感值emotionScore:
其中,文本集合中具有N个文本信息,Si为文本集合中第i个文本信息,m为第i个文本信息中原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值。
在本示例中,若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
当然,上述计算第一情感值的公式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他计算第一情感值的公式,本发明实施例对此不加以限制。另外,除了上述判断处理方法外,本领域技术人员还可以根据实际需要采用其它判断处理方法,本发明实施例对此也不加以限制。
S205,查找整体情感倾向模型。
S206,将所述文本信息输入所述整体情感倾向模型中进行处理,以生成表达整体情感倾向的第二情感值。
其中,整体情感倾向模型采用已标记情感的训练文本训练生成,可以用于生成表达整体情感倾向的第二情感值。
具体而言,可以预先采集训练文本,对其标注情感。
需要说明的是,针对不同的场景,可以采用不同的方式采集未标注情感的文本信息,本发明实施例对此不加以限制。
例如,对于机器人,可以收集用户输入的聊天消息,作为训练文本。
又例如,对于游戏直播平台,可以收集用户输入的弹幕,作为训练文本。
又例如,通过网络爬虫等工具在网络上爬取原始的文本信息,通过正则表达式等方式原始的文本信息进行预处理,提取所需的文本信息,作为训练文本。
基于KNN(k-NearestNeighbor,K最近邻)、贝叶斯、决策树、随机森林等模型,采用已标记情感的训练文本训练整体情感倾向模型。
在一种实施方式中,对训练文本标注的情感可以包括积极情感和消极情感,则训练出的整体情感倾向模型可以识别某个文本信息倾向积极情感和消极情感的程度。
以KNN模型为例,则第二情感值CScore如下表示:
CScore(Si)=KNN(Si)
其中,CScore(Sk)∈(0,1),值越大情感越积极,值越小情感越消极。
此外,对于训练文本,在对标注情感的同时,可以对训练文本进行预处理,从训练文本中提取训练词。
在一种实施方式中,可以通过结巴(jieba)等方式对训练文本进行分词处理,分词处理之后获得训练分词。
采用预设的停用词表对训练分词过滤停用词,过滤停用词剩余的训练分词,即可作为训练词。
当然,另外,除了上述分词处理与过滤停用词外,本领域技术人员还可以根据实际需要采用其它预处理,从而提取训练词,本发明实施例对此也不加以限制。
在提取训练词之后,对训练词标记所表达的情感。
进一步地,若情感包括积极情感和消极情感,即可对训练词标记积极情感和消极情感。
在标注情感之后,将已标记情感的训练词作为参考词、更新至情感词列表中。
此时,训练文本所标注的情感与训练词所标注的情感相同,若训练文本标注积极情感,则提取的训练词也为积极情感,训练文本标注消极情感,则提取的训练词也为消极情感。
S207,对所述第一情感值配置第一权重,获得第一评分值。
S208,对所述第二情感值配置第二权重,获得第二评分值。
S209,计算所述第一评分值与所述第二评分值之和,作为所述文本信息的第三情感值。
在本发明实施例中,一方面,将第一情感值乘上预设的第一权重,乘积作为第一评分值,另一方面,将第二情感值乘上预设的第二权重,乘积作为第二评分值。
此时,第三情感值R如下表示:
R(Si)=h1*emotionScore(Si)+h2*CScore(Si)
其中,h1为第一权重,h2为第二权重。
一遍情况下,第一权重与第二权重之和为1。
若考虑到第二情感值的整体情感倾向重要性低于第一情感值的个体情感语义,则可以设置第一权重值小于第二权重值。
若考虑到第二情感值的整体情感倾向重要性高于第一情感值的个体情感语义,则可以设置第一权重值大于第二权重值。
当然,除了配置权重求和之外,还可以设置其他方式计算第三情感值,本发明实施例对此不加以限制。
S210,按照所述第三情感值确定所述文本信息归属的情感。
在一种实施方式中,若情感包括积极情感和消极情感,则可以预设设置一个阈值。
判断第三情感值是否大于预设的阈值,若是,则将文本信息归属的情感标记为积极情感,若否,则将文本信息归属的情感标记为消极情感。
为使本领域技术人员更好地理解本发明实施例,以下通过具体的示例来说明本发明实施例中的情感分类方法。
从直播中抓取弹幕,标注积极情感、消极情感,作为训练文本用于训练KNN模型(情感倾向模型)。
同时,从训练文本中提取训练词,作为参考词写入情感词列表中。
情感词列表的部分信息如下:
积极情感:漂亮、爱、操作牛逼、好看、好听、身材好、感谢关注、开心、礼物
消极情感:丑、恨、手残、意识不行、不好听、难过
从直播中抓取弹幕,作为文本信息,写入到文本集合中:
1、今天的小姐姐唱歌很好听
2、主播很漂亮,我爱你
3、这个主播唱歌不好听,人也丑,差评
对文本集合中的文本信息进行分词处理并过滤停用词后,获得如下原始词:
1、今天小姐姐唱歌很好听
2、主播很漂亮我爱你
3、这个主播唱歌不好听人丑差评
将原始词与情感词列表中的参考词进行匹配,识别出的情感词如下:
1、好听(积极情感)
2、漂亮(积极情感)爱(积极情感)
3、不好听(消极情感)丑(消极情感)
对积极情感赋值1的第四情感值,消极情感、非情感词赋值0的第四情感值。
此外,1个情感词赋值1的第五情感值。
1、emotionScore(S1)=log(1/3+1)*0.4*1=0.05
2、emotionScore(S2)=log(2/3+1)*0.4*2=0.177
3、emotionScore(S3)=log(max(0.1,0/3)+1)*0.4*2=0.033
通过CNN模型计算文本信息的第二情感值如下:
CScore(S1)=0.7
CScore(S2)=0.8
CScore(S3)=0.4
设第一权重h1=0.6,设第二权重h2=0.4。
根据R(Si)=h1*emotionScore(Si)+h2*CScore(Si)可以计算每一个文本信息的第三情感值:
R(S1)=0.6*emotionScore(S1)+0.4*CScore(S1)=0.6*0.05+0.4*0.7=0.31
R(S2)=0.6*emotionScore(S2)+0.4*CScore(S2)=0.6*0.177+0.4*0.8=0.42
R(S3)=0.6*emotionScore(S3)+0.4*CScore(S3)=0.6*0.033+0.4*0.4=0.18
设置阈值为0.25,则第一个文本信息标注积极情感、第二个文本信息标注积极情感、第三个文本信息标注消极情感。
图3为本发明实施例三提供的一种情感分类装置的结构示意图,具体可以包括如下模块:
文本信息获取模块301,用于在预设的文本集合中获取待分类的文本信息;
第一情感值计算模块302,用于根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
第二情感值计算模块303,用于根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
第三情感值计算模块304,用于结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
情感确定模块305,用于按照所述第三情感值确定所述文本信息归属的情感。
在本发明的一个实施例中,所述第一情感值计算模块302包括:
原始词提取子模块,用于从所述文本信息中提取原始词;
情感词识别子模块,用于识别可表达情感的原始词,作为情感词;
情感词计算子模块,用于基于所述情感词对所述文本信息计算第一情感值,其中,所述情感词的数量与所述第一情感值正相关。
在本发明的一个实施例中,所述情感词识别子模块包括:
情感词列表匹配单元,用于将所述原始词与情感词列表中的参考词进行匹配,所述参考词已标记所表达的情感,所述情感包括积极情感和消极情感;
情感词设置单元,用于当所述原始词与所述参考词匹配成功时,将所述原始词设置为情感词、并标记所述参考词所表达的情感。
在本发明的一个实施例中,所述情感词计算子模块包括:
第四情感值计算单元,用于计算所述原始词的第四情感值;
数量统计单元,用于统计所述情感词的数量;
第五情感值计算单元,用于基于所述数量计算第五情感值;
情感值结合计算单元,用于结合所述第四情感值与所述第五情感值计算所述文本信息的第一情感值,其中,所述第四情感值与所述第一情感值正相关,所述第五情感值与所述第一情感值正相关。
在本发明实施例的一个示例中,通过如下公式计算第一情感值:
其中,所述文本集合中具有N个文本信息,Si为所述文本集合中第i个文本信息,m为第i个文本信息中所述原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值;
若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
在本发明的一个实施例中,所述第二情感值计算模块303包括:
模型查找子模块,用于查找整体情感倾向模型,其中,所述整体情感倾向模型采用已标记情感的训练文本训练生成,所述情感包括积极情感和消极情感;
模型处理子模块,用于将所述文本信息输入所述整体情感倾向模型中进行处理,以生成表达整体情感倾向的第二情感值。
在本发明的一个实施例中,还包括:
模型训练模块,用于采用已标记情感的训练文本训练整体情感倾向模型;
训练词提取模块,用于从所述训练文本中提取训练词;
情感标记模块,用于对所述训练词标记所表达的情感,所述情感包括积极情感和消极情感;
情感词列表更新模块,用于将已标记情感的所述训练词作为参考词、更新至情感词列表中。
在本发明的一个实施例中,所述第三情感值计算模块304包括:
第一评分值计算子模块,用于对所述第一情感值配置第一权重,获得第一评分值;
第二评分值计算子模块,用于对所述第二情感值配置第二权重,获得第二评分值;
和值计算子模块,用于计算所述第一评分值与所述第二评分值之和,作为所述文本信息的第三情感值。
在本发明的一个实施例中,所述情感确定模块305包括:
阈值判断子模块,用于判断所述第三情感值是否大于预设的阈值;若是,则调用积极情感标记子模块,若否,则调用消极情感标记子模块;
积极情感标记子模块,用于将所述文本信息归属的情感标记为积极情感;
消极情感标记子模块,用于将所述文本信息归属的情感标记为消极情感。
本发明实施例所提供的情感分类装置可执行本发明任意实施例所提供的情感分类方法,具备执行方法相应的功能模块和有益效果。
图4为本发明实施例四提供的一种服务器的结构示意图,如图4所示,该服务器包括处理器40、存储器41、输入装置42和输出装置43;服务器中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;服务器中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的情感分类对应的程序指令/模块(例如,文本信息获取模块301、第一情感值计算模块302、第二情感值计算模块303、第三情感值计算模块304和情感确定模块305)。处理器40通过运行存储在存储器71中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的情感分类方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种情感分类方法,该方法包括:
在预设的文本集合中获取待分类的文本信息;
根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
按照所述第三情感值确定所述文本信息归属的情感。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的情感分类中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述情感分类装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (11)
1.一种情感分类方法,其特征在于,包括:
在预设的文本集合中获取待分类的文本信息;
根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
按照所述第三情感值确定所述文本信息归属的情感;
通过如下公式计算第一情感值:
其中,所述文本集合中具有N个文本信息,Si为所述文本集合中第i个文本信息,m为第i个文本信息中原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值;
若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
其中,所述第四情感值和所述第五情感值基于所述文本信息确定。
2.根据权利要求1所述的情感分类方法,其特征在于,所述根据所述文本信息的个体情感语义对所述文本信息计算第一情感值,包括:
从所述文本信息中提取原始词;
识别可表达情感的原始词,作为情感词;
基于所述情感词对所述文本信息计算第一情感值,其中,所述情感词的数量与所述第一情感值正相关。
3.根据权利要求2所述的情感分类方法,其特征在于,所述识别可表达情感的原始词,作为情感词,包括:
将所述原始词与情感词列表中的参考词进行匹配,所述参考词已标记所表达的情感,所述情感包括积极情感和消极情感;
当所述原始词与所述参考词匹配成功时,将所述原始词设置为情感词、并标记所述参考词所表达的情感。
4.根据权利要求2所述的情感分类方法,其特征在于,所述基于所述情感词对所述文本信息计算第一情感值,包括:
计算所述原始词的第四情感值;
统计所述情感词的数量;
基于所述数量计算第五情感值;
结合所述第四情感值与所述第五情感值计算所述文本信息的第一情感值,其中,所述第四情感值与所述第一情感值正相关,所述第五情感值与所述第一情感值正相关。
5.根据权利要求1-4任一项所述的情感分类方法,其特征在于,所述根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值,包括:
查找整体情感倾向模型,其中,所述整体情感倾向模型采用已标记情感的训练文本训练生成,所述情感包括积极情感和消极情感;
将所述文本信息输入所述整体情感倾向模型中进行处理,以生成表达整体情感倾向的第二情感值。
6.根据权利要求5所述的情感分类方法,其特征在于,还包括:
采用已标记情感的训练文本训练整体情感倾向模型;
从所述训练文本中提取训练词;
对所述训练词标记所表达的情感,所述情感包括积极情感和消极情感;
将已标记情感的所述训练词作为参考词、更新至情感词列表中。
7.根据权利要求1-4任一项所述的情感分类方法,其特征在于,所述结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值,包括:
对所述第一情感值配置第一权重,获得第一评分值;
对所述第二情感值配置第二权重,获得第二评分值;
计算所述第一评分值与所述第二评分值之和,作为所述文本信息的第三情感值。
8.根据权利要求1-4任一项所述的情感分类方法,其特征在于,所述按照所述第三情感值确定所述文本信息归属的情感,包括:
判断所述第三情感值是否大于预设的阈值;
若是,则将所述文本信息归属的情感标记为积极情感;
若否,则将所述文本信息归属的情感标记为消极情感。
9.一种情感分类装置,其特征在于,包括:
文本信息获取模块,用于在预设的文本集合中获取待分类的文本信息;
第一情感值计算模块,用于根据所述文本信息的个体情感语义对所述文本信息计算第一情感值;
第二情感值计算模块,用于根据所述文本信息的整体情感倾向对所述文本信息计算第二情感值;
第三情感值计算模块,用于结合所述第一情感值与所述第二情感值对所述文本信息计算第三情感值;
情感确定模块,用于按照所述第三情感值确定所述文本信息归属的情感;
所述第一情感值计算模块具体用于:
通过如下公式计算第一情感值:
其中,所述文本集合中具有N个文本信息,Si为所述文本集合中第i个文本信息,m为第i个文本信息中原始词的数量,wj为第i个文本信息中第j个所述原始词,s(wj)为wj的第四情感值,λ为调整系数,为第i个文本信息中的第五情感值;
若wj为表达积极情感的情感词,则s(wj)=1,若wj为表达消极情感的情感词或并非情感词,则s(wj)=0;
其中,所述第四情感值和所述第五情感值基于所述文本信息确定。
10.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的情感分类方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的情感分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811157006.4A CN109325124B (zh) | 2018-09-30 | 2018-09-30 | 一种情感分类方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811157006.4A CN109325124B (zh) | 2018-09-30 | 2018-09-30 | 一种情感分类方法、装置、服务器和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325124A CN109325124A (zh) | 2019-02-12 |
CN109325124B true CN109325124B (zh) | 2020-10-16 |
Family
ID=65266678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811157006.4A Active CN109325124B (zh) | 2018-09-30 | 2018-09-30 | 一种情感分类方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325124B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781428A (zh) * | 2019-09-10 | 2020-02-11 | 深圳壹账通智能科技有限公司 | 评论展示方法、装置、计算机设备及存储介质 |
CN111222837A (zh) * | 2019-10-12 | 2020-06-02 | 中国平安财产保险股份有限公司 | 智能化面试的方法、系统、设备及计算机存储介质 |
CN110990572A (zh) * | 2019-12-03 | 2020-04-10 | 深圳市豪斯莱科技有限公司 | 一种基于主题下的情感分析方法 |
CN111931481A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本情感识别方法、装置、存储介质及计算机设备 |
CN114462425B (zh) * | 2022-04-12 | 2022-08-02 | 北京中科闻歌科技股份有限公司 | 社交媒体文本处理方法、装置、设备及存储介质 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤自杀危险性评估方法、装置、电子设备及存储介质 |
CN117235244B (zh) * | 2023-11-16 | 2024-02-20 | 江西师范大学 | 一种基于弹幕情感词分类的在线课程学习情感体验评测系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN107247702A (zh) * | 2017-05-05 | 2017-10-13 | 桂林电子科技大学 | 一种文本情感分析处理方法和系统 |
CN107943789A (zh) * | 2017-11-17 | 2018-04-20 | 新华网股份有限公司 | 话题信息的情绪分析方法、装置及服务器 |
CN108153764A (zh) * | 2016-12-05 | 2018-06-12 | 腾讯科技(深圳)有限公司 | 一种舆情处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170374498A1 (en) * | 2016-04-29 | 2017-12-28 | Shani Markus | Generic software-based perception recorder, visualizer, and emotions data analyzer |
-
2018
- 2018-09-30 CN CN201811157006.4A patent/CN109325124B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893444A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 情感分类方法及装置 |
CN108153764A (zh) * | 2016-12-05 | 2018-06-12 | 腾讯科技(深圳)有限公司 | 一种舆情处理方法及装置 |
CN107247702A (zh) * | 2017-05-05 | 2017-10-13 | 桂林电子科技大学 | 一种文本情感分析处理方法和系统 |
CN107943789A (zh) * | 2017-11-17 | 2018-04-20 | 新华网股份有限公司 | 话题信息的情绪分析方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN109325124A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325124B (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
KR101005337B1 (ko) | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 | |
Basiri et al. | A framework for sentiment analysis in persian | |
CN112131863B (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
Sutejo et al. | Indonesia hate speech detection using deep learning | |
Ficamos et al. | A topic based approach for sentiment analysis on twitter data | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
CN105630890B (zh) | 基于智能问答系统会话历史的新词发现方法及系统 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
JP6994289B2 (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN106776557B (zh) | 情感机器人的情感状态记忆识别方法及装置 | |
Harwath et al. | Topic identification based extrinsic evaluation of summarization techniques applied to conversational speech | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 | |
Nio et al. | Neural network approaches to dialog response retrieval and generation | |
CN113392195A (zh) | 舆情监测方法及装置、电子设备及存储介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN115188376A (zh) | 一种个性化语音交互方法及系统 | |
CN106649255A (zh) | 一种对短文本自动分类和识别主题词的方法 | |
Phulare et al. | Cricket Twitter Data Sentiment Analysis and Prediction Exerted Machine Learning | |
JP2016103156A (ja) | テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラム | |
CN111027308A (zh) | 文本生成方法、系统、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |