CN112446217B - 情感分析方法、装置及电子设备 - Google Patents

情感分析方法、装置及电子设备 Download PDF

Info

Publication number
CN112446217B
CN112446217B CN202011368123.2A CN202011368123A CN112446217B CN 112446217 B CN112446217 B CN 112446217B CN 202011368123 A CN202011368123 A CN 202011368123A CN 112446217 B CN112446217 B CN 112446217B
Authority
CN
China
Prior art keywords
emotion
text
text information
type
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011368123.2A
Other languages
English (en)
Other versions
CN112446217A (zh
Inventor
刘舟
徐键滨
吴梓辉
王理平
徐雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Original Assignee
Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sanqi Mutual Entertainment Technology Co ltd filed Critical Guangzhou Sanqi Mutual Entertainment Technology Co ltd
Priority to CN202011368123.2A priority Critical patent/CN112446217B/zh
Publication of CN112446217A publication Critical patent/CN112446217A/zh
Application granted granted Critical
Publication of CN112446217B publication Critical patent/CN112446217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种情感分析方法、装置及电子设备,所述方法包括:获取用户输入的文本信息;对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型;当文本情感类型为表示中性情感的文本情感类型时,对文本信息进行关键词提取,获取文本信息的关键词;根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。

Description

情感分析方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,特别涉及一种情感分析方法、装置及电子设备。
背景技术
文本情感分析是对有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。通过对用户输入的文本进行文本情感分析,可以确定用户的当前情感倾向。现有的文本情感分析方法,通常采用将文本的句向量对应的情感信息作为情感判断的依据。但在采用句向量进行情感分析时,发现若文本过长,一些词汇在文本语义中的情绪表达会被稀释,导致最终情感分析结果不准确。
发明内容
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种情感分析方法、装置及电子设备,提高情感分析结果的准确率。
本申请实施例提供一种情感分析方法,包括:
获取用户输入的文本信息;
对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型;
当文本情感类型为表示中性情感的文本情感类型时,对所述文本信息进行关键词提取,获取文本信息的关键词;
根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
进一步的,所述对所述文本信息进行关键词提取,获取所述文本信息的关键词,包括:
根据语料库对所述文本信息进行分词处理,获取多个对象分词;
将所述多个对象分词与所述语料库的情感词条集进行相似度匹配,获取各所述对象分词的词条情感类型,所述情感词条集包括多个存在对应词条情感类型的情感词条;
根据各所述对象分词的词条情感类型的预设权重,确定所述关键词。
进一步的,所述根据语料库对所述文本信息进行分词处理,获取多个对象分词,包括:
根据语料库对所述文本信息进行新词识别,获取N个新词,其中,所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0;
根据所述N个新词更新所述语料库;
根据更新后的所述语料库,对所述文本信息进行分词处理,获取多个所述对象分词。
进一步的,与相邻文字组合相邻的单字的变化频率大于预设频率。
进一步的,所述根据所述N个新词更新所述语料库,包括:
根据所述新词,更新所述语料库的语料后,根据存在所述新词的各历史文本信息的文本情感类型的占比,确定所述新词的情感类型;
将所述新词的情感类型与各所述情感词条的词条情感类型进行匹配,并在所述新词的词条情感类型与任一所述情感词条的词条情感类型相同时,根据所述新词更新所述情感词条集。
进一步的,所述根据句向量,获取文本信息的文本情感类型之后,还包括:
当文本情感类型为表示非中性情感的文本情感类型时,将文本情感类型确定为文本信息的最终情感类型,非中性情感包括正面情感和负面情感。
进一步的,所述根据词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型,包括:
将关键词的词条情感类型作为文本信息的最终情感类型。
进一步的,在本申请实施例中,还提供了一种情感分析装置,包括:
文本信息获取模块,用于获取用户输入的文本信息;
文本类型获取模块,用于对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型;
词条类型确定模块,用于当文本情感类型为表示中性情感的文本情感类型时,对文本信息进行关键词提取,获取文本信息的关键词;
情感分析修正模块,用于根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
进一步的,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的情感分析方法。
进一步的,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述实施例所述的情感分析方法。
相比于现有技术,上述实施例通过依据句向量获取文本情感类型,并在文本情感类型为中性情感时获取关键词,使得依据句向量获取的中性的文本情感类型,能够在文本过长的情况下,通过关键词对应的词条情感类型进行修正,避免文本情感分析受到文本大小的影响,有效地提高了文本情感分析的准确度。
上述实施例通过对文本信息进行分词,并通过将获取的对象分词与语料库的情感词条集进行相似度匹配来得到对应的词条情感类型,再根据对应词条情感类型的预设权重来得到关键词,进一步对关键词进行了筛选,避免选取了无情感类型的词语作为关键词,令文本情感类型得不到修正。
上述实施例通过在分词过程中先对新词进行识别,并且对新词出现频率以及与新词相邻单字的变化频率进行了限定,使得在分词过程中对符合限定条件的新词进行考虑并获取,并依据新词对语料库进行更新,使得分词后获取关键词的范围更大,能够避免遗漏新词造成文本分词误差过大,从而对情感关键词的提取造成影响,进而影响情感分析的准确度。
上述实施例通过新词所在历史文本信息的文本情感类型来确定新词的词条情感类型,使得确定的已有词与新词对应的词条情感类型更加准确,从而使得采用关键词的词条情感类型对文本情感类型进行修正后得到的最终文本情感类型的准确度也更高。
附图说明
下面结合附图和实施例对本申请进一步地说明;
图1为一个实施例中情感分析方法的应用环境图。
图2为一个实施例中情感分析方法的流程示意图。
图3为另一个实施例中情感分析方法的流程示意图。
图4为又一个实施例中情感分析方法的流程示意图。
图5为还有一个实施例中情感分析方法的流程示意图。
图6为一个实施例中提供的情感分析装置的结构示意图。
图7为一个实施例中计算机设备的结构框图。
具体实施方式
本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本申请的各个技术特征和整体技术方案,但其不能理解为对本申请保护范围的限制。
现有的文本情感分析方法,通常采用将文本的句向量对应的情感信息作为情感判断的依据。但仅采用句向量进行情感分析时,发现若文本过长,一些词汇在文本语义中的情绪表达会被稀释,导致最终情感分析结果不准确。
为了解决上述问题,如图1所示,是一个实施例中情感分析方法的应用环境图。参照图1,该情感分析方法的应用环境包括终端110和用户100。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。当终端110检测到用户100输入的文本信息后,获取该文本信息的句向量并根据句向量获取该文本信息的文本情感类型。
下面,将通过几个具体的实施例对本申请实施例提供的情感分析方法进行详细介绍和说明。
如图2所示,在一个实施例中,提供了一种情感分析方法。本实施例主要以该方法应用于终端来举例说明。该终端具体可以是上述图1中的终端110。
参照图2,该情感分析方法具体包括如下步骤:
S11、获取用户输入的文本信息。
其中,所述文本信息为用户在预设时间段内输入到终端中的若干语句的集合或单个语句。
在本实施例中,对于文本信息的语种类型不做限制,比如,文本信息可以是中文或英文等;对于文本信息的长度不做限制,比如文本信息可以是句子信息或者文章信息;对于文本信息的类型不做限制,比如文本信息可以为影视评论、演讲稿、杂志文章或文学作品等。
在本实施例中,对于用户输入文本信息到终端中的方式不做限定。
S12、对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型。
在本实施例中,由于文本信息获取来源多种多样,例如,可以从游戏中获取或者聊天软件中获取,因此文本信息的文本长度不限,即可以包含多个句子,或者可以只包含一个单句。对于包含多个句子的文本信息,首先要对文本信息进行分句处理,得到由其包含的多个句子组成的句子序列。对于只包含单句或者包含多个句子的文本信息,均需要进行字符清理,包括过滤无用标点符号以及乱码字符。
在本实施例中,对于包含多个句子的文本信息中的待分析的句子,可以从整个文本信息中分句得到。在分句时,可以根据分隔符,例如“。”、“;”、“?”、“!”、“~”、“......”、“//”等,来将文本信息切分成多个单句文本。分隔符可以包括预设的多种不同形式的标点符号,例如中文标点符号、英文标点符号、全角模式下的标点符号、半角模式下的标点符号等,本申请实施例中对此不作限定。例如,将“今天天气真好,我们出去走走吧!”分句为“今天天气真好”和“我们出去走走吧”两个句子。
在一个实施例中,还可以对文本信息中的句子采用修辞结构理论进行从句切分。从句切分是指将句子切分为从句的序列。采用修辞结构理论(Rhetorical StructureTheory,简称RST)基于文本局部之间关系对句子进行从句切分。例如,将句子“这个面包的口感松软得像是棉花一样”进行从句切分为“这个面包的口感松软”以及“像是棉花一样”。
在一个实施例中,对于句子序列中的各个句子,可以先通过对各个句子进行分词,将各个句子分为若干个词,获取每条句子中各个词的词向量,对各个句子中包含的各个词所对应的词向量进行拼接,得到各个句子的句向量。
在一个实施例中,对于句子序列中的各个句子,还可以通过其他方式得到各个句子的句向量,比如可以通过预先训练的语言模型来获取各个句子的句向量,仅需要句向量能够较为准确地表达其对应的句子即可。其中,上述语言模型可以为基于EMLO、GPT或BERT的情感分析模型。
在一个实施例中,获取包含多个句子的文本信息中各个句子对应的句向量后,将所述各个句向量按照对应各个句子在文本信息中的顺序依次进行排列,得到文本信息对应的向量,即句向量序列。
在本实施例中,当文本信息中包含多个句子时,文本信息的情感类型通过将文本信息包含的各个句子的句向量输入到预先训练的语言模型中,获取各个句子对应的句向量的情感类型的概率,并根据各句向量的预设权重,对各个句向量的情感类型的概率进行加权计算,得到文本信息的情感类型的概率。最终根据文本信息的情感类型的概率来确定文本信息的情感类型。其中,各句向量的预设权重可以默认相同,也可以根据实际情况进行调整,在此不做限定。
在本申请实施例中,文本信息的情感类型包括中性情感和非中性情感,其中,非中性情感包括正面情感和负面情感。例如,包含快乐、开心、顺利等意思的情感时为正面情感,包含难过、失望、忧愁、恐惧等意思的情感时为负面情感,包含平静、安宁、敬佩等意思的情感时为中性情感。
在本实施例中,当文本信息中只包含单句时,文本信息的情感类型通过将文本信息包含的单句的句向量输入到预先训练的语言模型中,获取该单句对应的句向量的情感类型的概率,该单句对应的句向量的情感类型的概率,即为文本信息的情感类型的概率。最终根据文本信息的情感类型的概率来确定文本信息的情感类型。
在一个实施例中,对于将句子的句向量输入到预先训练的语言模型中,获取各个句子对应的句向量的情感类型的概率,可以通过将该句子对应的句向量输入到神经网络中得到。
具体通过将句向量作为输入层输入到LSTM神经网络中,利用LSTM的时序记忆功能对句子中的特征进行排序,得到隐藏层当前的隐状态H。标准的LSTM无法检测句子各个部分的重要程度,所以需要通过加入attention机制来捕捉句子的关键部分。LSTM是循环神经网络的一种,是一种具有链状结构的特殊的循环神经网络,和普通的循环神经网络相比,LSTM的重复循环模块具有不同的结构,主要有四层神经网络组成,网络层之间的交互是复杂的。LSTM网络的核心是由各个传输单元的状态决定。LSTM的另一个优势就是可以对单元状态中信息的传输进行控制,并通过门限结构管理信息,门限的作用就是对信息进行选择,使其有选择性地通过。阈值的组成主要有sigmoid神经网络层和逐点乘法组成。输出表示信息传递的选择程度,0表示不允许任何信息通过,1表示都可以通过。LSTM一共有三个门限,分别为:输入门、遗忘门和输出门。通过这三种门限结构对单元状态进行控制和保护。LSTM输出的隐层表示与aspect向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定文本信息中需要关注的部分,分别得到句向量的概率分布。其中,句子向量经过softmax函数判断情感类型的概率,得到句子的情感类型。
在一个实施例中,对于将句子的句向量输入到预先训练的语言模型中,获取各个句子对应的句向量的情感类型的概率,可以通过将该句子对应的句向量输入到text CNN模型中得到。获取句向量的情感类型的概率的具体方式可为先对句向量进行分词,再使用text CNN模型提取不同分词的ngram特征,进而将上述特征池化拼接成句向量,最后将输入的句向量通过连接softmax层预测该句向量属于各类情感的概率。
S13、当文本情感类型为表示中性情感的文本情感类型时,对文本信息进行关键词提取,获取文本信息的关键词。
在本实施例中,当文本信息中包含多个句子,并且各个句向量加权计算后得到的文本信息的情感类型的概率的中性情感概率为最大时,文本情感类型即为中性情感;当文本信息中只包含一个句子,并且该单句对应的句向量的情感类型的概率的中性情感概率为最大时,文本情感类型即为中性情感。
在一个实施例中,对于文本信息的情感关键词的提取,还可以通过采用TextRank算法将文本信息按照完整句子进行分割,对于每个句子进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词和形容词,保留的单词为候选关键词。构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成,然后采用共现关系(Co-Occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。根据TextRank的公式,迭代传播各节点的权重,直至收敛,对节点权重进行倒序排序,得到最重要的T个单词,作为情感关键词。
在一个实施例中,存在一个情感关键词库,该情感关键词库属于语料库内部的一个词库,情感关键词库中有若干个分组词条,还建立一个词条情感类型的分组表,该分组表是在情感关键词库的基础上建立的。例如,情感关键词库中的分组词条包括“开心”、“高兴”、“满足”等,这些分组词条在分组表中对应“正面情感”的词条情感类型分组,情感关键词库中的分组词条包括“难过”、“不满意”、“讨厌”等,这些分组词条在分组表中对应“负面情感”的词条情感类型分组情感关键词库。上述情感关键词库中的分组词条可以通过保存网络上已有的情感关键词或者通过人工总结的情感关键词,更新后得到最终的情感关键词的分组词条。而对于分组词条在分组表中对应的情感类型,可以通过人工进行设定,设定后终端将对获取的关键词在分组表中进行词条情感类型的匹配,匹配后关键词对应的分组表中的词条情感类型即为该关键词的词条情感类型。通过将文本信息与情感关键词库进行情感关键词匹配,将匹配到的情感关键词通过分组表进行词条情感类型的匹配,得到关键词对应的词条情感类型。
在本实施例中,当采用TextRank算法得到的最重要的T个单词中,节点权重最大的单词对应的权重仍比预设阈值小,或者采用情感关键词库无法匹配到情感关键词时,认为文本无情感关键词,此时文本信息的情感类型仍为中性情感。
S14、根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
在一个实施例中,由于当文本情感类型为中性情感的时候,才需要获取关键词及关键词对应的词条情感类型来对文本情感类型进行修正,并且只有当句向量序列中各个句向量或者单个句向量对应的句子的情感类型概率为中性情感概率最大时,文本信息对应的情感类型才为中性情感类型。因此有了情感关键词后,情感关键词的词条情感类型即为文本信息修正后的情感类型。当文本信息中无情感关键词时,文本信息的情感类型即为中性情感,此时文本情感类型不需要进行修正,保留为中性情感类型。
在本实施例中,由于待修正文本情感类型为中性情感,因此加入关键词后关键词的词条情感类型能够决定文本信息的文本情感类型。并且由于获取的关键词与文本信息结合度高,关键词的词条情感信息准确,因此,修正后的文本情感类型结果准确度高。
在一个实施例中,所述根据句向量,获取文本信息的文本情感类型之后,还包括:
当文本情感类型为表示非中性情感的文本情感类型时,将文本情感类型确定为文本信息的最终情感类型,非中性情感包括正面情感和负面情感。
在本实施例中,当文本情感类型不为中性情感时,表明文本信息有具体情感倾向时,即文本信息的文本情感类型为正面情感或者负面情感时,不需要对文本信息的文本情感类型进行修正。
在本实施例中,通过依据句向量获取文本情感类型,并在文本情感类型为中性情感时获取关键词,使得依据句向量获取的中性的文本情感类型,能够在文本过长的情况下,通过关键词对应的词条情感类型进行修正,避免文本情感分析受到文本大小的影响,有效地提高了文本情感分析的准确度。
如图3所示,在另一个实施例中,提供了一种情感分析方法。本实施例主要以该方法应用于终端来举例说明。该终端具体可以是上述图1中的终端110。
参照图3,该情感分析方法具体包括如下步骤:
S21、获取用户输入的文本信息。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S22、对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S23、当文本情感类型为表示中性情感的文本情感类型时,根据语料库对文本信息进行分词处理,获取多个对象分词。
在一个实施例中,对文本信息进行分词处理来获取多个对象分词,能够采用基于语料库的分词方法,具体通过构建一个语料库,将待分词处理的文本信息与所述语料库中的预设词条进行匹配。其中,所述语料库中包括若干预设词条。语料库构建方法在现有技术中广泛存在,在此不再赘述。
在本实施例中,对象分词为过滤掉停用词等无具体含义的词语后剩下的词语,如名词、动词、形容词等有具体含义的词语。
在一个实施例中,在使用语料库中的词条与文本信息进行比对,获得多个对象分词后,为了提升分词准确度,可以构建一个词图,该词图每个顶点代表语料库中的一个词,两个顶点之间的连线代表两个词组合的距离,例如“天气”和“好”之间连线的距离小于“天气”和“大”之间连线的距离,表示“天气好”词语组合的可能性大于“天气大”词语组合的可能性。
S24、将多个对象分词与语料库的情感词条集进行相似度匹配,获取各对象分词的词条情感类型,情感词条集包括多个存在对应词条情感类型的情感词条。
在一个实施例中,在获取到各对象分词后,将各对象分词与情感关键词库中的各分组词条进行相似度匹配,匹配后对象分词对应的相似度最高的分组词条对应的词条情感类型即为该对象分词的词条情感类型。其中,情感关键词库为语料库下属的一个子库,情感关键词库中只包含正面情感的情感词条集和负面情感的情感词条集;情感词条集为多个正面情感或者负面情感的词条的集合。
S25、根据各对象分词的词条情感类型的预设权重,确定关键词。
在一个实施例中,文本信息中可能既有“正面情感”的词条情感类型,也有“负面情感”的词条情感类型时,此时可以通过比较“正面情感”类型的对象分词个数以及“负面情感”的对象分词个数,选择对象分词较多的词条情感类型来作为该文本信息中确定的词条情感类型,并择一选择确定的预设权重最大的词条情感类型对应的对象分词来作为关键词。其中,当预设权重最大的词条情感类型对应的对象分词不止一个时,择一选择对象分词来作为关键词。需要说明的是,当各对象分词在情感关键词库中无法匹配到对应的词条时,认为文本无情感关键词,此时文本信息的情感类型仍为中性情感。
在本实施例中,通过匹配语料库中的预设词条来获取对象分词,并且通过匹配语料库中的情感关键词库来获取对象分词的词条情感类型,再依据最大的预设权重对应的词条情感类型来确定关键词,能够快速且准确地确定关键词以及关键词对应的词条情感类型。
S26、根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
在本实施例中,依据获得的对象分词的情感类型的预设权重来确定关键词,使得进一步对关键词进行了筛选,避免获取正面情感以及负面情感以外的词语作为关键词,令文本情感类型得不到修正,有效地解决了关键词不恰当而导致情感分析不准确的技术问题。
如图4所示,在又一个实施例中,提供了一种情感分析方法。本实施例主要以该方法应用于终端来举例说明。该终端具体可以是上述图1中的终端110。
参照图4,该情感分析方法具体包括如下步骤:
S31、获取用户输入的文本信息。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S32、对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S33、当文本情感类型为表示中性情感的文本情感类型时,根据语料库对文本信息进行新词识别,获取N个新词,其中,新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0。
在本实施例中,为了避免忽视语料库中没有预设词条的词语对于文本情感类型的影响,因此在获取对象分词前对文本信息进行新词识别,获取新词。其中,新词为语料库,即语料库中没有对应预设词条的词语。例如,语料库中仅具有“太阳”和“月亮”这两预设词条,那么词语“星星”即为新词。
在本实施例中,通过对文本信息进行新词识别来获取新词。与通过比对语料库中的预设词条来获取对象分词的方式不同,新词通过检测字组合的频率。字组合为相邻的至少包括两个单字的文字组合,如“北”、“师”、“大”,当这三个单字的文字组合出现超过预设频次的频次后,将“北师大”这文字组合作为新词。其中,预设频次为人为设定的针对文字组合出现的次数。
在一个实施例中,与相邻文字组合相邻的单字的变化频率大于预设频率,如“南京市长江大桥”中分词“市长”这文字组合前后单字“京”和“江”的变化频率需要大于大为设定的预设频率,否则可能将“南京市长江大桥”分词为“南京市”和“长江大桥”两个文字组合,即不存在“市长”这个分词。
在本实施例中,通过对新词进行识别,并且对新词出现频率进行限定,能够更快地获取并确认新词,并且考虑新词对应的词条情感类型来提高文本情感分析的准确度,有效地解决了由于遗漏相关新词对情感分析准确度产生影响的技术问题。
在本实施例中,通过对新词相邻单字的变化频率进行限定,能够更加准确地确定相应文字组合是否为新词,提高新词获取的准确度。
S34、根据N个新词更新语料库。
在本实施例中,将获得的新词,即新词对语料库中各预设词条的进行相似度匹配,例如新词“北师大”与“北大”或者“河北师大”等预设词条相匹配,匹配后选择相似度最高的预设词条对应的词条情感类型来做为新词的词条情感类型,例如“北师大”与“北大”相似度为85%,“北师大”与“河北师大”相似度为65%,而“北大”对应的词条情感类型为正面情感类型,因此新词“北师大”的情感类型为正面情感类型。将新词与其对应的情感类型输入到语料库中保存,更新语料库的预设词条及对应的情感类型。其中,当与新词相似度最高的预设词条对应的词条情感类型为正面情感或者负面情感时,将该新词加入到语料库中的情感关键词库中;当与新词相似度最高的预设词条对应的词条情感类型不为正面情感并且不为负面情感时,则将该新词加入到语料库中,但不需要加入到情感关键词库中。
S35、根据更新后的语料库,对文本信息进行分词处理,获取多个对象分词。
在一个实施例中,对文本信息进行分词处理来获取多个对象分词,能够采用基于语料库的分词方法,具体通过构建一个语料库,将待分词处理的文本信息与所述语料库中的各预设词条进行匹配。其中,所述语料库中包括若干预设词条。语料库构建方法在现有技术中广泛存在,在此不再赘述。
S36、将多个对象分词与语料库的情感词条集进行相似度匹配,获取各对象分词的词条情感类型,情感词条集包括多个存在对应词条情感类型的情感词条。
在一个实施例中,在获取到各对象分词后,将各对象分词与情感关键词库中的各分组词条进行相似度匹配,匹配后对象分词对应的相似度最高的分组词条对应的词条情感类型即为该对象分词的词条情感类型。其中,情感关键词库为语料库下属的一个子库,情感关键词库中只包含正面情感的情感词条集和负面情感的情感词条集;情感词条集为多个正面情感或者负面情感的词条的集合。
上述情感关键词库中的分组词条、各分组词条在分组表中对应的词条情感类型通过人工进行设定,设定后终端将自动对获取的对象分词与各分组词条进行相似度计算,计算后对象分词对应的相似度最高的分组词条对应的词条情感类型即为该对象分词的词条情感类型。
S37、根据各对象分词的词条情感类型的预设权重,确定关键词。
在本实施例中,文本信息中可能既有“正面情感”的词条情感类型,也有“负面情感”的词条情感类型时,此时可以通过比较“正面情感”类型的对象分词个数以及“负面情感”的对象分词个数,选择对象分词较多的词条情感类型来作为该文本信息中确定的词条情感类型,并择一选择确定的预设权重最大的词条情感类型对应的对象分词来作为关键词。
在本实施例中,通过各词条情感类型中预设权重最大的词条情感类型对应的对象分词来确定关键词。其中,当预设权重最大的词条情感类型对应的对象分词不止一个时,择一选择对象分词来作为关键词。
S38、根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
如图5所示,在还有一个实施例中,提供了一种情感分析方法。本实施例主要以该方法应用于终端来举例说明。该终端具体可以是上述图1中的终端110。
参照图5,该情感分析方法具体包括如下步骤:
S41、获取用户输入的文本信息。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S42、对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S43、当文本情感类型为表示中性情感的文本情感类型时,根据语料库对文本信息进行新词识别,获取N个新词,其中,新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
在一个实施例中,与相邻文字组合相邻的单字的变化频率大于预设频率。
S44、根据新词,更新语料库的语料后,根据存在新词的各历史文本信息的文本情感类型的占比,确定新词的情感类型。
在本实施例中,当对象分词为新词时,可以通过获取存在新词的各历史文本信息的文本情感类型,以根据各历史文本信息的文本情感类型的占比,确定新词的词条情感类型,并将新词存储到语料库中。例如,新词新词“巴掌”,统计其在10个文本信息中对应的文本情感类型为“正面情感”或是“负面情感”又或是“中性情感”的次数,其中,文本情感类型为“正面情感”的文本数量为5个,文本情感类型为“负面情感”的文本数量为3个,文本情感类型为“中性情感”的文本数量为2个,因此以占比二分之一的文本情感类型“正面情感”作为“巴掌”的词条情感类型。确定词条情感类型后将该新词存储到语料库中。
在本实施例中,通过新词所在各历史文本信息的文本情感类型占比来确定词条情感类型,能够更快地确认新词的词条情感类型,同时能够避免在采用相似度来确认新词的词条情感类型的方式时,出现没有相似度的情况,而且得到的对应词条情感类型的准确度也得到了提高。
S45、将新词的情感类型与各情感词条的词条情感类型进行匹配,并在新词的词条情感类型与任一情感词条的词条情感类型相同时,根据新词更新情感词条集。
在本实施例中,情感关键词库为语料库下属的一个子库,情感关键词库中只包含正面情感的情感词条集和负面情感的情感词条集;情感词条集为多个正面情感或者负面情感的词条的集合。因此,将获得的新词对应的词条情感类型与语料库中各预设词条的词条情感类型进行匹配,例如将新词“背锅”的词条情感类型与“背靠”或者“悲哀”等预设词条的词条情感类型相匹配,在新词的词条情感类型与任一情感词条的词条情感类型相同时,根据新词更新情感词条集,例如“背锅”的词条情感类型为负面情感,“背靠”的词条情感类型为正面情感,“悲哀”的词条情感类型为负面情感,此时将新词“背锅”与其对应的情感类型输入到情感关键词库中的情感类型为负面情感的情感词条集中进行保存,更新情感关键词库中的情感类型为负面情感的情感词条集。其中,当与新词对应的词条情感类型为正面情感或者负面情感时,将该新词加入到语料库中的情感关键词库中对应的情感词条集;当与新词相似度最高的预设词条对应的词条情感类型不为正面情感并且不为负面情感时,则将该新词加入到语料库中,但不需要加入到情感关键词库中。
S46、根据更新后的语料库,对文本信息进行分词处理,获取多个对象分词。
在一个实施例中,对文本信息进行分词处理来获取多个对象分词,能够采用基于语料库的分词方法,具体通过构建一个语料库,将待分词处理的文本信息与所述语料库中的各预设词条进行匹配。其中,所述语料库中包括若干预设词条。语料库构建方法在现有技术中广泛存在,在此不再赘述。
在本实施例中,分词处理所采用的语料库为加入了新词及新词对应词条情感类型后的语料库。
S47、将多个对象分词与语料库的情感词条集进行相似度匹配,获取各对象分词的词条情感类型,情感词条集包括多个存在对应词条情感类型的情感词条。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S48、根据各对象分词的词条情感类型的预设权重,确定关键词。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
S49、根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
此步骤与上述实施例相同,具体解析可以参照上述实施例,在此不再赘述。
在一个实施例中,如图6所示,提供了一种情感分析装置,包括:
文本信息获取模块101,用于获取用户输入的文本信息。
文本类型获取模块102,用于对文本信息进行向量转换,获取文本信息的句向量后,根据句向量,获取文本信息的文本情感类型。
词条类型确定模块103,用于当文本情感类型为表示中性情感的文本情感类型时,对所述文本信息进行关键词提取,获取所述文本信息的关键词。
情感分析修正模块104,用于根据关键词的词条情感类型,修正文本情感类型,以确定文本信息的最终情感类型。
在一个实施例中,词条类型确定模块103,还用于,根据语料库对文本信息进行分词处理,获取多个对象分词;将多个对象分词与语料库的情感词条集进行相似度匹配,获取各对象分词的词条情感类型,情感词条集包括多个存在对应词条情感类型的情感词条;根据各对象分词的词条情感类型的预设权重,确定关键词。
在一个实施例中,词条类型确定模块103,还用于,根据语料库对文本信息进行新词识别,获取N个新词,其中,新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N≥0,与所述相邻文字组合相邻的单字的变化频率大于预设频率;根据N个新词更新语料库;根据更新后的语料库,对文本信息进行分词处理,获取多个对象分词。
在一个实施例中,词条类型确定模块103,还用于,根据新词,更新语料库的语料后,根据存在新词的各历史文本信息的文本情感类型的占比,确定新词的情感类型;将新词的情感类型与各情感词条的词条情感类型进行匹配,并在新词的词条情感类型与任一情感词条的词条情感类型相同时,根据新词更新情感词条集。
在一个实施例中,情感分析修正模块104,还用于,将关键词的词条情感类型作为文本信息的最终情感类型。
在一个实施例中,提供了一种计算机设备,如图7所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现情感分析方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行情感分析方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的情感分析装置可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该情感分析装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的情感分析方法中的步骤。
在一个实施例中,提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时执行上述情感分析方法的步骤。此处情感分析方法的步骤可以是上述各个实施例的情感分析方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述情感分析方法的步骤。此处情感分析方法的步骤可以是上述各个实施例的情感分析方法中的步骤。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (8)

1.一种情感分析方法,其特征在于,包括:
获取用户输入的文本信息;
对所述文本信息进行向量转换,获取所述文本信息的句向量后,根据所述句向量,获取所述文本信息的文本情感类型;
当所述文本情感类型为表示中性情感的文本情感类型时,根据语料库对所述文本信息进行新词识别,获取N个新词,其中,所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N>0;根据所述N个新词更新所述语料库;根据更新后的所述语料库,对所述文本信息进行分词处理,获取多个对象分词;将所述多个对象分词与所述语料库的情感词条集进行相似度匹配,获取各所述对象分词的词条情感类型,所述情感词条集包括多个存在对应词条情感类型的情感词条;根据各所述对象分词的词条情感类型的预设权重,确定关键词;
根据所述关键词的词条情感类型,修正所述文本情感类型,以确定所述文本信息的最终情感类型。
2.根据权利要求1所述的一种情感分析方法,其特征在于,与所述相邻文字组合相邻的单字的变化频率大于预设频率。
3.根据权利要求1所述的一种情感分析方法,其特征在于,所述根据所述N个新词更新所述语料库,包括:
根据所述新词,更新所述语料库的语料后,根据存在所述新词的各历史文本信息的文本情感类型的占比,确定所述新词的情感类型;
将所述新词的情感类型与各所述情感词条的词条情感类型进行匹配,并在所述新词的词条情感类型与任一所述情感词条的词条情感类型相同时,根据所述新词更新所述情感词条集。
4.根据权利要求1所述的一种情感分析方法,其特征在于,所述根据所述句向量,获取所述文本信息的文本情感类型之后,还包括:
当所述文本情感类型为表示非中性情感的文本情感类型时,将所述文本情感类型确定为所述文本信息的最终情感类型,所述非中性情感包括正面情感和负面情感。
5.根据权利要求1所述的一种情感分析方法,其特征在于,所述根据所述词条情感类型,修正所述文本情感类型,以确定所述文本信息的最终情感类型,包括:
将所述关键词的词条情感类型作为所述文本信息的最终情感类型。
6.一种情感分析装置,其特征在于,包括:
文本信息获取模块,用于获取用户输入的文本信息;
文本类型获取模块,用于对所述文本信息进行向量转换,获取所述文本信息的句向量后,根据所述句向量,获取所述文本信息的文本情感类型;
词条类型确定模块,用于当所述文本情感类型为表示中性情感的文本情感类型时,根据语料库对所述文本信息进行新词识别,获取N个新词,其中,所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成,N>0;根据所述N个新词更新所述语料库;根据更新后的所述语料库,对所述文本信息进行分词处理,获取多个对象分词;将所述多个对象分词与所述语料库的情感词条集进行相似度匹配,获取各所述对象分词的词条情感类型,所述情感词条集包括多个存在对应词条情感类型的情感词条;根据各所述对象分词的词条情感类型的预设权重,确定关键词;
情感分析修正模块,用于根据所述关键词的词条情感类型,修正所述文本情感类型,以确定所述文本信息的最终情感类型。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的情感分析方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011368123.2A 2020-11-27 2020-11-27 情感分析方法、装置及电子设备 Active CN112446217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011368123.2A CN112446217B (zh) 2020-11-27 2020-11-27 情感分析方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011368123.2A CN112446217B (zh) 2020-11-27 2020-11-27 情感分析方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112446217A CN112446217A (zh) 2021-03-05
CN112446217B true CN112446217B (zh) 2024-05-28

Family

ID=74738132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011368123.2A Active CN112446217B (zh) 2020-11-27 2020-11-27 情感分析方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112446217B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11694018B2 (en) * 2021-01-29 2023-07-04 Salesforce, Inc. Machine-learning based generation of text style variations for digital content items
CN116705072A (zh) * 2021-08-31 2023-09-05 荣耀终端有限公司 一种输入信息的情感处理方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120109943A (ko) * 2011-03-28 2012-10-09 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN109918499A (zh) * 2019-01-14 2019-06-21 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN110297907A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110532386A (zh) * 2019-08-12 2019-12-03 新华三大数据技术有限公司 文本情感分类方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120109943A (ko) * 2011-03-28 2012-10-09 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN109918499A (zh) * 2019-01-14 2019-06-21 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN110297907A (zh) * 2019-06-28 2019-10-01 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN110532386A (zh) * 2019-08-12 2019-12-03 新华三大数据技术有限公司 文本情感分类方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于情感词典与LDA模型的股市文本情感分析";延丰等;《电子测量技术》;20171215;第40卷(第12期);第82-87页 *

Also Published As

Publication number Publication date
CN112446217A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112446217B (zh) 情感分析方法、装置及电子设备
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN110929022A (zh) 一种文本摘要生成方法及系统
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN111681731A (zh) 一种对检查报告进行自动颜色标注的方法
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant