CN110232123B - 文本的情感分析方法及其装置、计算设备与可读介质 - Google Patents

文本的情感分析方法及其装置、计算设备与可读介质 Download PDF

Info

Publication number
CN110232123B
CN110232123B CN201910451510.3A CN201910451510A CN110232123B CN 110232123 B CN110232123 B CN 110232123B CN 201910451510 A CN201910451510 A CN 201910451510A CN 110232123 B CN110232123 B CN 110232123B
Authority
CN
China
Prior art keywords
expression
emotion
word
words
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910451510.3A
Other languages
English (en)
Other versions
CN110232123A (zh
Inventor
赵汉光
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202111436442.7A priority Critical patent/CN114168732A/zh
Priority to CN201910451510.3A priority patent/CN110232123B/zh
Publication of CN110232123A publication Critical patent/CN110232123A/zh
Application granted granted Critical
Publication of CN110232123B publication Critical patent/CN110232123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本的情感分析方法及其装置、计算设备与可读介质。其方法包括:获取待分析文本的分词表达;获取所述待分析文本的否定词与情感词表达;将所述待分析文本的所述分词表达、以及所述否定与情感词表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类。本发明通过采用上述技术方案,能够同时基于待分析文本的分词表达和否定词与情感词表达,采用经训练的情感分析模型来预测该待分析文本的倾向情感分类。与现有技术相比,由于参考了待分析文本中的否定词与情感词,能够有效地提高情感分类的准确性。

Description

文本的情感分析方法及其装置、计算设备与可读介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种文本的情感分析方法及其装置、计算设备与可读介质。
背景技术
在自然语言处理领域中,文本的情感分析能够有助于对文本的理解。因此,文本的情感分析在自然语言处理中尤为重要。
现有的文本的情感分析方案,主要采用注意力机制继续情感分析。具体地,首先采集大量的文本语料,作为训练数据。然后基于注意力机制,采用训练数据训练情感分析模型。后续基于训练得到的情感分析模型来对文本的情感进行分析。
但是,现有的情感分析模型采用注意力机制,仅注意了文本中的情感词,而在文本中同时包括否定词的时候,可能与预测出反向的情感,导致现有的情感分析方案分析的准确性较差。
发明内容
本发明提供一种文本的情感分析方法及其装置、计算设备与可读介质,用于提高情感分析的准确性。
本发明提供一种文本的情感分析方法,其中,所述方法包括:
获取待分析文本的分词表达;
获取所述待分析文本的否定词与情感词表达;
将所述待分析文本的所述分词表达、以及所述否定与情感词表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类。
本发明还提供一种情感分析模型的训练方法,其中,所述方法包括:
获取训练文本集;
基于训练文本集提取训练样本集,所述训练样本集中每条训练样本包括分词表达、否定词与情感词表达以及已知的情感分类;
基于所述训练样本集,训练情感分析模型。
本发明还提供一种文本的情感分析装置,其中,所述装置包括:
分词信息获取模块,用于获取待分析文本的分词表达;
否定词与情感词信息获取模块,用于获取所述待分析文本的否定词与情感词表达;
预测模块,用于将所述待分析文本的所述分词表达、以及所述否定与情感词表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类。
本发明还提供一种情感分析模型的训练装置,其中,所述装置包括:
获取模块,用于获取训练文本集;
提取模块,用于基于训练文本集提取训练样本集,所述训练样本集中每条训练样本包括分词表达、否定词与情感词表达以及已知的情感分类;
训练模块,用于基于所述训练样本集,训练情感分析模型。
本发明还提供一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任何一项所述的方法。
本发明还提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的方法。
本发明的文本的情感分析方法及其装置、计算设备与可读介质,通过采用上述技术方案,能够同时基于待分析文本的分词表达和否定词与情感词表达,采用经训练的情感分析模型来预测该待分析文本的倾向情感分类。与现有技术相比,由于参考了待分析文本中的否定词与情感词,能够有效地提高情感分类的准确性。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1为本发明的文本的情感分析方法实施例一的流程图。
图2为本发明提供的一种情感分析模型的结构图。
图3为本发明的文本的情感分析方法实施例二的流程图。
图4为本发明提供的另一种情感分析模型的结构图。
图5为本发明的文本的情感分析方法实施例三的流程图。
图6为本发明的情感分析模型的训练方法实施例一的流程图。
图7为本发明的情感分析模型的训练方法实施例二的流程图。
图8为本发明的文本的情感分析装置实施例的结构图。
图9为本发明的情感分析模型的训练装置实施例的结构图。
图10示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1为本发明的文本的情感分析方法实施例一的流程图。如图1所示,本实施例的情感分析方法,具体可以包括如下步骤:
100、获取待分析文本的分词表达;
本实施例的文本的情感分析方法的执行主体为文本的情感分析装置,该文本的情感分析装置具体可以为一独立的电子实体,或者也可以为采用集成的应用,使用时运行计算机设备上即可。
例如,步骤100获取待分析文本的分词表达,具体可以包括:对待分析文本进行分词;根据预设的词典库和词典库对应的映射词典,对待分析文本中的各分词进行映射,得到待分析文本的分词表达。
本实施例的词典库可以为预先采集的、包括很多分词的库。该词典库的映射词典中可以记录有该词典库中每一个分词到其映射标识之间的映射关系。例如A→A’之类的映射。例如,一种最简便的映射词典中可以包括词典库中每一个分词到一个数字之间的一对一的映射。不同的分词不能对应相同的映射标识。例如词典库中的第一个分词映射为1,第二个分词映射为2,以此类推,第n个分词可以映射为n。具体在映射词典中,可以将数字作为分词的下标来表示这种映射关系。当然实际应用中,也可以采用字母或者数字与字母的组合作为映射标识,实现原理同理。
本实施例中,将待分析文本分词之后通过映射词典,将各个分词按在待分析文本中的先后顺序映射为对应的映射标识,得到该待分析文本的一个分词表达。该分词表达中每个分词采用对应的映射标识来表示,且本实施例生成的分词表达可以为一个一维向量。这样可以将待分析文本转换成可以处理的分词表达。
101、获取待分析文本的否定词与情感词表达;
本实施例的否定词与情感词表达用于表征待分析文本中的否定词与情感词。
例如,步骤101获取待分析文本的否定词与情感表达,具体可以包括如下步骤:
(a1)对待分析文本进行分词;
(b1)根据预设的否定词词库和预设的情感词词库,从待分析文本的所有分词中获取否定词与情感词;
例如,本实施例中可以预先采集包括无数个否定词的词库,然后将待分析文本中的各个分词与否定词的词库中的每个词进行比较,从而获取该待分析文本中的所有否定词。同理,也可以预先采集包括无数个情感词的词库,也将待分析文本中的各个分词与情感词的词库中的每个词进行比较,从而获取该待分析文本中的所有情感词。
(c1)根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对待分析文本中的否定词和情感词分别进行特征映射,得到待分析文本的否定与情感表达。
本实施例中,预设的否定词的特征映射策略和预设的情感词的特征映射策略,可以根据实际需求来设置。例如,可以将既不属于否定词也不属于情感词的特征映射为0,将否定词映射为1。对于情感极性分类(如二分类)情况,将情感词的词典中出现的正向的情感词映射为2,负向的情感词映射为3,这样得到的否定与情感表达中相当于只有4个词的词嵌入。同理否定与情感表达也可以采用一维向量来标识,具体地将待分析文本中的各个分词按照否定词和情感词的映射规则,按顺序映射为一个一维向量,作为待分析文本的否定与情感表达。
另外,需要说明的是,对于多情绪分类问题,可以分别训练多组二分类分类器,预测是否存在对应的情感,则在情感词词典中存在对应情感词时将其映射为2,相当于只有3个词的词嵌入。
102、将待分析文本的分词表达、以及否定与情感词表达,输入至经训练的情感分析模型中,获取情感分析模型预测并输出的待分析文本的倾向情感分类。
本实施例中,情感分析模型为预先训练好的,使用时,直接将待分析文本的分词表达、以及否定与情感词表达输入该情感分析模型,情感分析模型便可以预测并输出待分析文本的倾向情感分类。具体地,该倾向情感分类可以为一个1×n的向量,n为情感词词库中的情感词的数量。该向量中每个位置对应一种情感分类,向量中每个位置的数值为该待分析文本属于该位置对应的情感分类的概率。实际应用中,可以进一步取大于预设概率阈值的概率对应的情感分类为该待分析文本的最终情感分类。例如,该预设概率阈值可以根据实际需求来设置,例如可以为0.5、0.6或者其他大于0.5小于1的值,在此不再限定。或者实际应用中,可以预先配置好预设概率阈值,情感分析模型直接基于预设概率阈值,输出大于预设概率阈值的概率及对应的情感分类。
例如,本实施例的经训练的情感分析模型,可以包括:用于处理分词表达的基于循环神经网络(Recurrent Neural Networks;RNN)的分词处理层;用于处理否定词与情感词表达的基于卷积神经网络(Convolutional Neural Networks;CNN)的否定词情感词处理层;和拼接处理层。
例如,图2为本发明提供的一种情感分析模型的结构图,如图2所示,本实施例的情感分析模型中,分词处理层可以依次包括:词嵌入层、RNN层和第一注意力机制层;否定词情感词处理层可以依次包括:情感嵌入层、CNN层和第二注意力机制层;拼接处理层可以依次包括:拼接层、全连接层和归一化层;
此时,对应地,步骤102将待分析文本的分词表达以及否定与情感词表达,输入至经训练的情感分析模型中,获取情感分析模型预测并输出的待分析文本的情感倾向分类,具体可以包括:
(a2)将待分析文本的分词表达输入至词嵌入层,得到分词的嵌入表达;
本实施例中,嵌入层获取分词的嵌入表达的计算方法包括但不限于连续词袋(Continuous Bag-of-Words,CBoW)、跳字模型(Skip-Gram)、全局向量(Global Vectors,GloVe)、fastText(一个开源库)、双向语言模型(Bidirectional Language Model)、ELMo(Embeddings from Language Models)、GPT(Generative Pre-Training)、BERT(Bidirectional Encoder Representations from Transformers)等。
(b2)RNN层基于分词的嵌入表达,提取分词的包含上下文信息的特征表达;
本实施例的RNN层可以为一层、两层或者多层,具体根据需求来设置层数。
(c2)由第一注意力机制层基于RNN层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
(d2)将否定词与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
(e2)由CNN层基于否定词与情感词的嵌入表达,提取否定词与情感词的位置关系特征表达;
(f2)由第二注意力机制层基于CNN层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感特征表达;
(g2)由拼接层将文本特征表达和否定与情感特征表达拼接,得到拼接的全局特征表达;
(h2)由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
(i2)由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
例如,终极分类处理后可以得到一个1×n的一维向量,其中n为总的情感分类的数量。如果是二分类,该n为2,如果是多极分类,该n可以为所有的极数。一维向量中每个位置的值为该位置对应的情感分类的概率,其中概率最大的位置对应的情感分为待分析文本的倾向情感分类。可以控制终极分类结果输出概率最大的倾向情感分类及对应的概率。
本实施例的情感分析方法,通过采用上述技术方案,能够同时基于待分析文本的分词表达和否定词与情感词表达,采用经训练的情感分析模型来预测该待分析文本的倾向情感分类。与现有技术相比,由于参考了待分析文本中的否定词与情感词,能够有效地提高情感分类的准确性。
图3为本发明的文本的情感分析方法实施例二的流程图。如图3所示,本实施例的情感分析方法,具体可以包括如下步骤:
200、获取待分析文本的分词表达和分词的位置表达;
与上述图1所示实施例的步骤200不同的是,本实施例中,还需要获取待分析文本的分词的位置表达,具体地,可以根据各分词在待分析文本中的位置信息,映射出分词的位置表达。同理,本实施例的位置表达也可以采用向量的形式。本实施例的位置表达用于表征各个分词的位置信息。
201、获取待分析文本的否定词与情感词表达、以及否定词与情感词的位置表达;
与上述图1所示实施例的步骤201不同的是,本实施例中,还需要获取待分析文本的否定词与情感词的位置表达,具体地,可以根据各否定词和情感词在待分析文本中的位置信息,映射出否定与情感的位置表达。
202、将待分析文本的分词表达、分词的位置表达、否定词与情感词表达以及否定词与情感词的位置表达,输入至情感分析模型中,由情感分析模型输出预测的待分析文本的倾向情感分类。
与上述图1所示实施例的步骤202不同的是,本实施例中,增加输入分词的位置表达和都定词与情感词的位置表达,其余实现原理同上,在此不再赘述。
与上述图1所示实施例相同,本实施例的经训练的情感分析模型,也可以包括:用于处理分词表达和分词的位置表达的基于RNN的分词处理层;用于处理否定词与情感词表达和否定与情感词的位置表达的基于CNN的否定词情感词处理层;和拼接处理层。
例如图4为本发明提供的另一种情感分析模型的结构图,如图4所示,本实施例的情感分析模型中,与上述图1所示实施例不同,本实施例的分词处理层依次包括:词嵌入层、第一位置嵌入层、RNN层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、CNN层和第二注意力机制层。分词处理层和否定词情感词处理层分别比图2所示实施例多了第一位置嵌入层和第二位置嵌入层。拼接处理层与上述图2所示实施例相同,依次包括:拼接层、全连接层和归一化层;
此时,对应地,步骤202将待分析文本的分词表达、分词的位置表达、否定与情感词表达以及否定与情感词的位置表达,输入至情感分析模型中,获取情感分析模型预测并输出的待分析文本的倾向情感分类,具体可以包括如下步骤:
(a3)将待分析文本的分词表达输入至情感分析模型的词嵌入层,得到分词的嵌入表达;
(b3)将词嵌入层输出的分词的嵌入表达以及位置表达输入至第一位置嵌入层,使得第一位置嵌入层在分词的嵌入表达的基础上增加各分词的位置嵌入表达;
第一位置嵌入层在步骤(a3)的词嵌入的基础上加上了位置信息,如待分析文本的第一个词下标为0,第二个词下标为1,往后依次增加;嵌入层将下标映射为与词嵌入等长的可训练向量,两个嵌入对应位置依次相加,在词嵌入的基础上加入位置信息。
(c3)由RNN层基于分词的嵌入表达和分词的位置嵌入表达,提取分词的包含上下文信息的特征表达;
本实施例中,可以存在一层或多层双向的RNN层。具体地,RNN层能够提取包含上下文信息的对应位置的特征。
(d3)由第一注意力机制层基于RNN层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
例如,通过第一注意力机制层采用如下公式对每个位置赋予不同的权重加权求和得到最终的文本特征:
ei=exp(Wxi+b)
Figure BDA0002075289350000081
Figure BDA0002075289350000082
其中x是最后一层双向RNN的隐藏状态特征,向量xi是位置i对应的特征,矩阵W和标量b是可训练参数,共同对输入特征进行了线性变换,通过指数函数转变为正标量ei,代表了位置i的重要程度。标量ai是对重要程度归一化之后的结果,最终输出向量y是向量x对a的加权和。
(e3)将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
(f3)将情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至第二位置嵌入层,使得第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定词与情感词的位置嵌入表达;
(g3)由CNN层基于否定词与情感词的嵌入表达以及否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;
本实施例的CNN层也可以包括一层、两层或者多层。
(h3)由第二注意力机制层基于CNN层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达;
经过一层或多层CNN层处理后组合否定词和情感词,经过跟文本特征提取同样的第二注意力机制后得到最终的否定词与情感词特征表达。
(i3)由拼接层将文本特征表达和否定词与情感词特征表达拼接,得到拼接的全局特征表达;
(j3)由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
(k3)由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
拼接层将文本特征表达和否定词与情感词特征表达拼接进行拼接,假设最终文本特征表达是长度为a的向量,最终否定词与情感词特征表达是长度为b的向量,则拼接得到长度为a+b的向量。通过tanh激活的全连接层进行一次变换增强特征的拟合能力,此时向量长度还是a+b。再通过softmax进行归一化激活的全连接层将结果映射到两类,即变成了长度为2的向量。此时情感分析模型为二分类,最终输出也可以为2维向量,每个位置的值为对应位置的情感分类的概率,并可以设定概率大的情感分类为待分析文本的倾向情感分类。
本实施例的情感分析方法,与上述图1和图2所示实施例相比,增加了分词的位置表达、以及否定词与情感词的位置表达,能够进一步提高预测的倾向情感分类的准确性。
本实施例的情感分析方法,通过采用上述技术方案,能够同时基于待分析文本的分词表达、分词的位置表达、否定词与情感词表达以及否定词与情感词的位置表达,采用经训练的情感分析模型来预测该待分析文本的倾向情感分类。与现有技术相比,由于参考了待分析文本中的否定词与情感词,能够有效地提高情感分类的准确性。
图5为本发明的文本的情感分析方法实施例三的流程图。如图5所示,本实施例的情感分析方法,具体可以包括如下步骤:
300、获取第一注意力机制层基于RNN层得到的分词的特征表达,对每个分词赋予不同的权重,并对各位置的分词的权重进行归一化处理后,输出的各分词的归一化权重;
301、根据各分词的归一化权重,从待分析文本的多个分词中获取归一化权重最大的目标分词;
302、判断倾向情感分类对应的情感词词库中是否包括目标分词;若未包括,执行步骤303;否则,若包括,则结束;即包括时,表示该目标分析已经时情感词词库中的词语了,不用做任何处理。
303、将该目标分词被标记为疑似情感词;执行步骤304;
304判断目标分词的归一化权重是否大于预设的权重阈值、且目标分词被标记为疑似情感词的总次数是否大于预设的次数阈值;若是,执行步骤305;否则,暂不对目标分词做任何处理,结束;
也就是说,目标分词的归一化权重小于或者等于预设的权重阈值、且目标分词被标记为疑似情感词的总次数小于或者等于预设的次数阈值时,此时目标分词还不能被列为情感词,还不能被合并至倾向情感分类对应的情感词词库中。
305、将目标分词合并至倾向情感分类对应的情感词词库中。
本实施例中,在第一注意力机制层中,可以获得每个分词的对结果影响的权重ai,通过对不同类别情感较大权重的分词的统计,可以得到新的情感词,进而可以加入到对应的情感词词典中。例如,如果某个分词在某个情感类别的句子中的权重最大
Figure BDA0002075289350000101
为了防止注意力比较平均的情况,同时该ai超过预设的权重阈值ai≥σ,且防止出现偶然的特例,当其总出现的次数大于预设的次数阈值γ时,可以认为这个分词就代表了对应的情感,将其加入到对应的情感词词典中进行扩展。如对某个社交应用的极性分类进行处理时,可以得到的正向情感词有「赞赞赞」、「~」、「hao」、「泪目」等,负向情感词有「辣鸡」、「不谢」、「一坨」、「呵」等。
本实施例可以与上述图1或者图3所示实施例的基础上来执行,通过采用上述方案,实现对情感词词库的扩展,以弥补现有技术中情感词词库无法及时在线更新的问题,能够有效地丰富情感词的词库,从而能够更加准确地预测文本的倾向情感分类。
图6为本发明的情感分析模型的训练方法实施例一的流程图。如图6所示,本实施例的情感分析模型的训练方法,具体可以包括如下步骤:
400、获取训练文本集;
本实施例的情感分析模型的训练方法的执行主体为情感分析模型的训练装置。该情感分析模型的训练装置可以为一独立的实体或者也可以为软件集成的应用。
具体地,本实施例的训练文本集可以为从网络上采集、包括数条文本数据的集合。
401、基于训练文本集提取训练样本集,训练样本集中每条训练样本包括分词表达、否定词与情感词表达以及已知的情感分类;
本实施例中的已知情感分类即表示某个已知情感分类对应的概率为1,其他情感分类概率均为0。
例如,基于训练文本集提取训练样本集,具体可以包括:
(a4)获取训练文本集中的每条训练文本的分词表达;
例如,获取训练文本集中的每条训练文本的分词表达,具体可以包括:对各训练文本进行分词;根据预设的词典库和词典库对应的映射词典,对每条训练文本中的各分词进行映射,得到对应的训练文本的分词表达。
(b4)获取训练文本集中的每条训练文本的否定词与情感词表达;
(c4)获取训练文本集中的每条训练文本的已知的情感分类。
实际应用中,若每条训练文本可以只对应一种已知的情感分类,也可以对应多种已知的情感分类。对于每一种已知情感分类,可以将对应的已知情感分类的概率标记为1。
例如,步骤(b4)获取训练文本集中的每条训练文本的否定词与情感词表达,具体可以包括如下步骤:
(a5)对每条训练文本进行分词;
(b5)根据预设的否定词词库和已知的情感分类对应的预设的情感词词库,从每条训练文本的所有分词中获取否定词与情感词;
(c5)根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对每条训练文本中的否定词和情感词分别进行特征映射,得到对应的训练文本的否定与情感表达。
具体地,步骤(a4)和(b4)的具体实现过程,可以参考上述图1所示实施例中获取待分析文本的分词表达和获取待分析文本的否定词与情感词表达的方式,在此不再赘述。
402、基于训练样本集,训练情感分析模型。
例如,该步骤402基于训练样本集,训练情感分析模型,具体可以包括如下两种实现方式:
第一种实现方式中不参考位置表达,具体可以包括如下步骤:
(a5)将每条训练样本的分词表达、以及否定词与情感词表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类;
(b5)根据情感分析模型输出的倾向情感分类和对应的训练样本的已知情感分类标签,计算情感分析模型损失函数,根据损失函数的计算结果调整情感分析模型的参数。
例如,本实施例的情感分析模型,可以包括:用于处理分词表达的基于RNN的分词处理层;用于处理否定词与情感词表达的基于CNN的否定词情感词处理层;和拼接处理层。
其中分词处理层依次包括:词嵌入层、RNN层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、CNN层和第二注意力机制层;拼接处理层依次包括:拼接层、全连接层和归一化层。此时对应地,步骤(a5)将每条训练样本的分词表达、以及否定与情感词表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类,具体可以包括如下步骤:
(a6)针对于每条训练样本训练时,将训练样本的分词表达输入至词嵌入层,得到分词的嵌入表达;
(b6)由RNN层基于分词的嵌入表达,提取分词的包含上下文信息的特征表达;
(c6)由第一注意力机制层基于RNN层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
(d6)将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
(e6)由CNN层基于否定词与情感词的嵌入表达,提取否定词与情感词的位置关系特征表达;
(f6)由第二注意力机制层基于CNN层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感特征表达;
(g6)由拼接层将文本特征表达和否定与情感特征表达拼接,得到拼接的全局特征表达;
(h6)由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
(i6)由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类的概率。
具体亦可以参考上述图1所示实施例中的(a2)-(i2)的记载,在此不再赘述。
步骤402的第二实现种方式中参考位置表达,首先,在步骤401基于训练文本集提取训练样本集中,还可以包括:获取训练文本集中的每条训练文本的分词的位置表达;和获取训练文本集中的每条训练文本的否定词与情感词的位置表达。例如,获取训练文本集中的每条训练文本的分词的位置表达,可以根据每条训练文本中的各分词的位置信息,映射出对应的训练文本的分词的位置表达。例如,获取训练文本集中的每条训练文本的否定词与情感词的位置表达,可以包括根据每条训练文本中的各否定词和情感词的位置信息,映射出对应的训练文本的否定与情感的位置表达。
同理,此时经训练的情感分析模型也可以包括:用于处理分词表达和分词的位置表达的基于RNN的分词处理层;用于处理否定词与情感词表达和否定与情感词的位置表达的基于CNN的否定词情感词处理层;和拼接处理层。
其中分词处理层可以依次包括:词嵌入层、第一位置嵌入层、RNN层和第一注意力机制层;否定词情感词处理层以依次包括:情感嵌入层、第二位置嵌入层、CNN层和第二注意力机制层;拼接处理层以依次包括:拼接层、全连接层和归一化层。
分词处理层与否定词情感词处理层相对于上述第一种实现方式,增加了第一位置嵌入层和第二位置嵌入层。拼接处理层与上述第一种实现方式中的相同。
但是,在第二种实现方式中,步骤402基于训练样本集,训练情感分析模型,具体可以包括:将每条训练样本的分词表达、分词的位置表达、否定词与情感词表达以及否定词与情感词的位置表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类。
例如,将每条训练样本的分词表达、分词的位置表达、否定词与情感词表达以及否定词与情感词的位置表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类,具体可以包括如下步骤:
(a7)针对于每条训练样本训练时,将训练样本的分词表达输入至情感分析模型的词嵌入层,得到分词的嵌入表达;
(b7)将词嵌入层输出的分词的嵌入表达以及分词的位置表达输入至第一位置嵌入层,使得第一位置嵌入层在分词的嵌入表达的基础上增加各分词的位置嵌入表达;
(c7)由RNN层基于分词的嵌入表达和各分词的位置嵌入表达,提取分词的包含上下文信息的特征表达;
(d7)由第一注意力机制层基于RNN层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
(e7)将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
(f7)将情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至第二位置嵌入层,使得第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定表达与情感词的位置嵌入表达;
(g7)由CNN层基于否定词与情感词的嵌入表达以及否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;
(h7)由第二注意力机制层基于CNN层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感词特征表达;
(i7)由拼接层将文本特征表达和否定词与情感词特征表达拼接,得到拼接的全局特征表达;
(j7)由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
(k7)由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类的概率。
具体亦可以参考上述图2所示实施例中的(a3)-(k3)的记载,在此不再赘述。
本实施例的情感分析模型的训练方法,通过采用上述技术方案,能够同时基于待分析文本的分词表达、以及否定词与情感词表达,训练情感分析模型,使得训练的情感分析模型能够提高预测的倾向情感分类的准确性。
图7为本发明的情感分析模型的训练方法实施例二的流程图。如图7所示,本实施例的情感分析模型的训练方法,具体可以包括如下步骤:
500、获取携带有文本和表情的语句;
501、获取表情对应的情感分类;
502、采用情感分析模型预测文本对应的情感分类;
503、判断表情对应的情感分类和文本对应的情感分类是否一致;若一致,执行步骤504;否则若不一致,执行步骤505;
504、将携带有文本和表情的语句作为训练文本,增加至训练文本集;执行步骤506;
505、输出表情对应的情感分类和文本对应的情感分类,以供工作人员参考表情对应的情感分类和文本对应的情感分类,人工对携带有文本和表情的语句的情感分类进行标注;结束。
进一步地,还可以包括将人工标注后的文本和表情的语句作为训练文本,增加至训练文本集。
例如,本实施例中,步骤500获取训练文本集之前执行,用于扩充训练文本集,丰富训练文本集中的语料。
506、为增加的训练文本配置损失函数权重,以在采用增加的训练文本训练情感分析模型时,采用损失函数权重调整相应的损失函数,并基于调整后的损失函数进行参数调整。
相对于训练文本集中已经包含的训练文本,可以为为增加的训练文本配置损失函数权重,该权重可以为0-1之间的任何数。若认为增加的训练文本同其他的训练文本同样重要,此时可以将该权重设置为1;否则若认为增加的训练文本没有其他的训练文本同样重要,此时可以设置为大于0,小于1的一个权重,在按照上述实施例的方式计算出损失函数之后,要乘以该权重,然后再基于乘以权重后的损失函数进行参数调整,以降低该训练文本对模型训练的影响程度。
具体地,为了解决训练语料少的问题,可以通过获取包含表情的信息来增加训练的数据。如爬取社交应用中的文本,其可能包含表情,表情本身若就是比较明确的情感表达。对于情感极性分类问题,可以将表情归为正向、负向、无明显情感三类;对于多情绪分类问题,也可将不同的表情映射到不同的情绪中。去除这些表情后就得到了有情感类别信息的纯文本语料,可以添加到训练语料中增强模型的效果。但有些时候,微博的情感完全靠表情来表达,或是本身就在说反话,针对这种情况,可以用训练好的情感分析模型对这些文本先进行预测,如果预测结果没有偏向表情对应的情感,那么就把这些文本剔除,如表情正向,模型预测却有51%的概率是负向的文本。同时,对于这些新加入的文本,根据已有情感分析模型的预测降低对应的损失函数权重:
Figure BDA0002075289350000151
Figure BDA0002075289350000152
是情感分析模型预测为第j类的概率,求和号及之后就是原交叉熵损失函数。pi是情感分析模型对新加入的文本预测属于对应情感分类的概率,即当越肯定其属于某一类别时,损失函数的权值越大(0.5到1.0之间),对于原有类别确定的文本,在对应类别的概率为pi=1。
本实施例中,还可以选出预测类别与表情类别不同的数据,按分到对应类别的概率由小到大进行排序,即差别较大的样本排在前面,由人工审核标注少量前面部分样本获得它们正确的类别。加入训练文本集中,可以设定对应的文本在对应类别的概率为pi=1。
本实施例的情感分析模型的训练方法,通过采用上述技术方案,可以丰富训练文本集中的语料,以克服现有技术中训练语料少的问题。采用本实施例中丰富后的训练文本集,能够进一步提高训练的情感分析模型的预测准确性。
图8为本发明的文本的情感分析装置实施例的结构图。如图8所示,本实施例的文本的情感分析装置,包括:
分词信息获取模块10用于获取待分析文本的分词表达;
否定词与情感词信息获取模块11用于获取待分析文本的否定词与情感词表达;
预测模块12用于将分词信息获取模块10获取的待分析文本的分词表达、以及否定词与情感词信息获取模块11获取的否定与情感词表达,输入至经训练的情感分析模型中,获取情感分析模型预测并输出的待分析文本的倾向情感分类。
进一步可选地,分词信息获取模块10用于:
对待分析文本进行分词;
根据预设的词典库和词典库对应的映射词典,对待分析文本中的各分词进行映射,得到待分析文本的分词表达。
进一步可选地,否定词与情感词信息获取模块11用于:
对待分析文本进行分词;
根据预设的否定词词库和预设的情感词词库,从待分析文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对待分析文本中的否定词和情感词分别进行特征映射,得到待分析文本的否定与情感表达。
进一步可选地,本实施例的文本的情感分析装置中,经训练的情感分析模型包括:
用于处理分词表达的基于循环神经网络的分词处理层;
用于处理否定词与情感词表达的基于卷积神经网络的否定词情感词处理层;和
拼接处理层。
进一步可选地,本实施例的文本的情感分析装置中,分词处理层依次包括:词嵌入层、循环神经网络层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、卷积神经网络层和第二注意力机制层;拼接处理层依次包括:拼接层、全连接层和归一化层;
预测模块12用于:
将待分析文本的分词表达输入至词嵌入层,得到分词的嵌入表达;
由循环神经网络层基于分词的嵌入表达,提取分词的包含上下文信息的特征表达;
由第一注意力机制层基于循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
将否定词与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
由卷积神经网络层基于否定词与情感词的嵌入表达,提取否定词与情感词的位置关系特征表达;
由第二注意力机制层基于卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感特征表达;
由拼接层将文本特征表达和否定与情感特征表达拼接,得到拼接的全局特征表达;
由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
进一步可选地,本实施例的文本的情感分析装置中,分词信息获取模块10还用于获取待分析文本的分词的位置表达;
否定词与情感词信息获取模块11还用于获取待分析文本的否定词与情感词的位置表达;
预测模块12还用于将分词信息获取模块10获取的待分析文本的分词表达、分词的位置表达、否定词与情感词信息获取模块11获取的否定词与情感词表达以及否定词与情感词的位置表达,输入至情感分析模型中,由情感分析模型输出预测的待分析文本的倾向情感分类。
进一步可选地,本实施例的文本的情感分析装置中,分词信息获取模块10用于根据各分词在待分析文本中的位置信息,映射出分词的位置表达;
进一步可选地,本实施例的文本的情感分析装置中,否定词与情感词信息获取模块11用于根据各否定词和情感词在待分析文本中的位置信息,映射出否定与情感的位置表达。
进一步可选地,本实施例的文本的情感分析装置中,经训练的情感分析模型包括:
用于处理分词表达和分词的位置表达的基于循环神经网络的分词处理层;
用于处理否定词与情感词表达和否定与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和
拼接处理层。
进一步可选地,本实施例的文本的情感分析装置中,分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层;拼接处理层依次包括:拼接层、全连接层和归一化层;
训练模块12用于:
将待分析文本的分词表达输入至情感分析模型的词嵌入层,得到分词的嵌入表达;
将词嵌入层输出的分词的嵌入表达以及分词的位置表达输入至第一位置嵌入层,使得第一位置嵌入层在分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由循环神经网络层基于分词的嵌入表达和位置嵌入表达,提取分词的包含上下文信息的特征表达;
由第一注意力机制层基于循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
将情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至第二位置嵌入层,使得第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定词与情感词的位置嵌入表达;
由卷积神经网络层基于否定词与情感词的嵌入表达以及否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;
由第二注意力机制层基于卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达;
由拼接层将文本特征表达和否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
进一步可选地,如图8所示,本实施例的文本的情感分析装置中,还包括:
权重获取模块13获取第一注意力机制层基于循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,并对各位置的分词的权重进行归一化处理后,输出的各分词的归一化权重;
目标分词获取模块14用于根据权重获取模块13处理的各分词的归一化权重,从待分析文本的多个分词中获取归一化权重最大的目标分词;
判断模块15用于判断倾向情感分类对应的情感词词库中是否包括目标分词获取模块14获取的目标分词;若未包括,此时该目标分词被标记为疑似情感词;
判断模块15还用于判断目标分词获取模块14获取的目标分词的归一化权重是否大于预设的权重阈值、且目标分词被标记为疑似情感词的总次数是否大于预设的次数阈值;
合并模块16用于基于判断模块15的判断,若是,将目标分词合并至倾向情感分类对应的情感词词库中。
这样,否定词与情感词信息获取模块11可以用于根据预设的否定词词库和合并模块16更新后的情感词词库,从待分析文本的所有分词中获取否定词与情感词。
本实施例的文本的情感分析装置,通过采用上述模块实现文本的情感分析的实现原理及实现效果,与上述相关方法实施例相同,详细亦可以参考上述相关方法实施例的记载,在此不再赘述。
图9为本发明的情感分析模型的训练装置实施例的结构图。如图9所示,本实施例的情感分析模型的训练装置,包括:
获取模块20用于获取训练文本集;
提取模块21用于基于获取模块20获取的训练文本集提取训练样本集,训练样本集中每条训练样本包括分词表达、否定词与情感词表达以及已知的情感分类;
训练模块22用于基于提取模块21处理得到的训练样本集,训练情感分析模型。
进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21,用于:
获取训练进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21,用于:
文本集中的每条训练文本的分词表达;
获取训练文本集中的每条训练文本的否定词与情感词表达;
获取训练文本集中的每条训练文本的已知的情感分类。
进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21,用于:
对各训练文本进行分词;
根据预设的词典库和词典库对应的映射词典,对每条训练文本中的各分词进行映射,得到对应的训练文本的分词表达。
进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21,
对每条训练文本进行分词;
根据预设的否定词词库和已知的情感分类对应的预设的情感词词库,从每条训练文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对每条训练文本中的否定词和情感词分别进行特征映射,得到对应的训练文本的否定与情感表达。
进一步可选地,本实施例的情感分析模型的训练装置中,训练模块22用于:
将每条训练样本的分词表达、以及否定词与情感词表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类;
根据情感分析模型输出的倾向情感分类和对应的训练样本的已知情感分类标签,计算情感分析模型损失函数,根据损失函数的计算结果调整情感分析模型的参数。
进一步可选地,本实施例的情感分析模型的训练装置中,情感分析模型包括:
用于处理分词表达的基于循环神经网络的分词处理层;
用于处理否定词与情感词表达的基于卷积神经网络的否定词情感词处理层;和
拼接处理层。
进一步可选地,本实施例的情感分析模型的训练装置中,分词处理层依次包括:词嵌入层、循环神经网络层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、卷积神经网络层和第二注意力机制层;拼接处理层依次包括:拼接层、全连接层和归一化层;训练模块,用于:
针对于每条训练样本训练时,将训练样本的分词表达输入至词嵌入层,得到分词的嵌入表达;
由循环神经网络层基于分词的嵌入表达,提取分词的包含上下文信息的特征表达;
由第一注意力机制层基于循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
由卷积神经网络层基于否定词与情感词的嵌入表达,提取否定词与情感词的位置关系特征表达;
由第二注意力机制层基于卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感特征表达;
由拼接层将文本特征表达和否定与情感特征表达拼接,得到拼接的全局特征表达;
由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21还用于:
获取训练文本集中的每条训练文本的分词的位置表达;
获取训练文本集中的每条训练文本的否定词与情感词的位置表达。
进一步可选地,本实施例的情感分析模型的训练装置中,提取模块21还用于:
根据每条训练文本中的各分词的位置信息,映射出对应的训练文本的分词的位置表达;
获取训练文本集中的每条训练文本的否定词与情感词的位置表达,包括:
根据每条训练文本中的各否定词和情感词的位置信息,映射出对应的训练文本的否定与情感的位置表达。
进一步可选地,本实施例的情感分析模型的训练装置中,经训练的情感分析模型包括:
用于处理分词表达和分词的位置表达的基于循环神经网络的分词处理层;
用于处理否定词与情感词表达和否定与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和
拼接处理层。
进一步可选地,本实施例的情感分析模型的训练装置中,训练模块22用于:
将每条训练样本的分词表达、分词的位置表达、否定词与情感词表达以及否定词与情感词的位置表达,输入至情感分析模型中,获取情感分析模型预测并输出对应的训练样本的倾向情感分类。
进一步可选地,本实施例的情感分析模型的训练装置中,分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层;拼接处理层依次包括:拼接层、全连接层和归一化层;
训练模块,用于:
针对于每条训练样本训练时,将训练样本的分词表达输入至情感分析模型的词嵌入层,得到分词的嵌入表达;
将词嵌入层输出的分词的嵌入表达以及分词的位置表达输入至第一位置嵌入层,使得第一位置嵌入层在分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由循环神经网络层基于分词的嵌入表达和各分词的位置嵌入表达,提取分词的包含上下文信息的特征表达;
由第一注意力机制层基于循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
将否定与情感词表达输入至情感嵌入层,得到否定词与情感词的嵌入表达;
将情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至第二位置嵌入层,使得第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定表达与情感词的位置嵌入表达;
由卷积神经网络层基于否定词与情感词的嵌入表达以及否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;
由第二注意力机制层基于卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定与情感词特征表达;
由拼接层将文本特征表达和否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由全连接层通过映射实现对全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由归一化层将变换后的特征表达映射至终极分类中,并输出终极分类的结果,终极分类的结果中包括倾向情感分类及对应的概率。
进一步可选地,如图9搜所示,本实施例的情感分析模型的训练装置中,还包括预测模块23、判断模块24和增加模块25;
获取模块20还用于获取携带有文本和表情的语句;
获取模块20还用于获取表情对应的情感分类;
预测模块23用于采用情感分析模型预测文本对应的情感分类;
判断模块24用于判断获取模块20获取的表情对应的情感分类和预测模块23得到的文本对应的情感分类是否一致;
增加模块25用于基于判断模块24的判断,若一致,将携带有文本和表情的语句作为训练文本,增加至训练文本集。
进一步可选地,如图9搜所示,本实施例的情感分析模型的训练装置中,还包括:
输出模块26用于基于判断模块24的判断,若表情对应的情感分类和文本对应的情感分类不一致,输出表情对应的情感分类和文本对应的情感分类,以供工作人员参考表情对应的情感分类和文本对应的情感分类,人工对携带有文本和表情的语句的情感分类进行标注。
进一步可选地,如图9搜所示,本实施例的情感分析模型的训练装置中,还包括:
配置模块27用于为增加模块25增加的训练文本配置损失函数权重,以在采用增加的训练文本训练情感分析模型时,采用损失函数权重调整相应的损失函数,并基于调整后的损失函数进行参数调整。
本实施例的情感分析模型的训练装置,通过采用上述模块实现情感分析模型的训练的实现原理及实现效果,与上述相关方法实施例相同,详细亦可以参考上述相关方法实施例的记载,在此不再赘述。
图10示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。本实施例的计算设备不仅能够用于实现上述文本的情感分析方法,还能够用于实现上述情感分析模型的训练方法。
参见图10,计算设备1000包括存储器1010和处理器1020。
处理器1020可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1020可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器1020可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的文本的情感分析方法或者情感分析模型的训练方法。
上文中已经参考附图详细描述了根据本发明的文本的情感分析方法或者情感分析模型的训练方法。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (32)

1.一种文本的情感分析方法,其中,所述方法包括:
获取待分析文本的分词表达和所述待分析文本的分词的位置表达;
获取所述待分析文本的否定词与情感词表达和所述待分析文本的否定词与情感词的位置表达;
将所述待分析文本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类,所述经训练的情感分析模型包括:用于处理所述分词表达和所述分词的位置表达的基于循环神经网络的分词处理层;用于处理所述否定词与情感词表达和所述否定词与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和拼接处理层,
其中,所述否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层,
将所述待分析文本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类,包括:将所述否定词与情感词表达输入至所述情感嵌入层,得到否定词与情感词的嵌入表达;将所述情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至所述第二位置嵌入层,使得所述第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定词与情感词的位置嵌入表达;由所述卷积神经网络层基于所述否定词与情感词的嵌入表达以及所述否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;由所述第二注意力机制层基于所述卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达。
2.根据权利要求1所述的方法,其中,获取待分析文本的分词表达,包括:
对所述待分析文本进行分词;
根据预设的词典库和所述词典库对应的映射词典,对所述待分析文本中的各分词进行映射,得到所述待分析文本的分词表达。
3.根据权利要求1所述的方法,其中,获取所述待分析文本的否定词与情感表达,包括:
对所述待分析文本进行分词;
根据预设的否定词词库和预设的情感词词库,从所述待分析文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对所述待分析文本中的否定词和情感词分别进行特征映射,得到所述待分析文本的否定词与情感词表达。
4.根据权利要求1所述的方法,其中,
所述获取所述待分析文本的分词的位置表达,包括:根据各所述分词在所述待分析文本中的位置信息,映射出所述分词的位置表达;
所述获取所述待分析文本的否定词语情感词的位置表达,包括:根据各所述否定词和所述情感词在所述待分析文本中的位置信息,映射出所述否定词与情感词的位置表达。
5.根据权利要求1所述的方法,其中,
所述分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;所述拼接处理层依次包括:拼接层、全连接层和归一化层;
将所述待分析文本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类,还包括:
将所述待分析文本的所述分词表达输入至所述情感分析模型的所述词嵌入层,得到分词的嵌入表达;
将所述词嵌入层输出的分词的嵌入表达以及所述分词的位置表达输入至所述第一位置嵌入层,使得所述第一位置嵌入层在所述分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由所述循环神经网络层基于所述分词的嵌入表达和位置嵌入表达,提取分词的包含上下文信息的特征表达;
由所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
由所述拼接层将所述文本特征表达和所述否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由所述全连接层通过映射实现对所述全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由所述归一化层将所述变换后的特征表达映射至终极分类中,并输出所述终极分类的结果,所述终极分类的结果中包括所述倾向情感分类及对应的概率。
6.根据权利要求5所述的方法,其中,所述方法还包括:
获取所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,并对各位置的分词的权重进行归一化处理后,输出的各所述分词的归一化权重;
根据各所述分词的归一化权重,从所述待分析文本的多个分词中获取所述归一化权重最大的目标分词;
判断所述倾向情感分类对应的情感词词库中是否包括所述目标分词;
若未包括,将所述目标分词被标记为疑似情感词;
进一步判断所述目标分词的所述归一化权重是否大于预设的权重阈值、且所述目标分词被标记为疑似情感词的总次数是否大于预设的次数阈值;
若是,将所述目标分词合并至所述倾向情感分类对应的情感词词库中。
7.一种情感分析模型的训练方法,其中,所述方法包括:
获取训练文本集;
基于训练文本集提取训练样本集,所述训练样本集中每条训练样本包括分词表达、分词的位置表达、否定词与情感词表达、否定词与情感词的位置表达以及已知的情感分类,基于训练文本集提取训练样本集,包括:获取所述训练文本集中的每条训练文本的所述分词表达和所述分词的位置表达;获取所述训练文本集中的每条训练文本的所述否定词与情感词表达和所述否定词与情感词的位置表达;获取所述训练文本集中的每条训练文本的已知的情感分类;
基于所述训练样本集,训练情感分析模型,所述情感分析模型包括:用于处理所述分词表达和所述分词的位置表达的基于循环神经网络的分词处理层;用于处理所述否定词与情感词表达和所述否定词与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和拼接处理层,
基于所述训练样本集,训练情感分析模型,包括:将每条所述训练样本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类,
所述否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层,
将每条所述训练样本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类,包括:将所述否定词与情感词表达输入至所述情感嵌入层,得到否定词与情感词的嵌入表达;将所述情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至所述第二位置嵌入层,使得所述第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定表达与情感词的位置嵌入表达;由所述卷积神经网络层基于所述否定词与情感词的嵌入表达以及所述否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;由所述第二注意力机制层基于所述卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达。
8.根据权利要求7所述的方法,其中,获取所述训练文本集中的每条训练文本的所述分词表达,包括:
对各所述训练文本进行分词;
根据预设的词典库和所述词典库对应的映射词典,对每条所述训练文本中的各分词进行映射,得到对应的所述训练文本的分词表达。
9.根据权利要求7所述的方法,其中,获取所述训练文本集中的每条训练文本的所述否定词与情感词表达,包括:
对每条所述训练文本进行分词;
根据预设的否定词词库和所述已知的情感分类对应的预设的情感词词库,从每条所述训练文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对每条所述训练文本中的否定词和情感词分别进行特征映射,得到对应的所述训练文本的否定词与情感词表达。
10.根据权利要求7所述的方法,其中,基于所述训练样本集,训练情感分析模型,包括:
将每条所述训练样本的所述分词表达、分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类;
根据情感分析模型输出的所述倾向情感分类和对应的所述训练样本的已知情感分类标签,计算所述情感分析模型损失函数,根据所述损失函数的计算结果调整所述情感分析模型的参数。
11.根据权利要求7所述的方法,其中,获取所述训练文本集中的每条所述训练文本的分词的位置表达,包括:
根据每条所述训练文本中的各分词的位置信息,映射出对应的所述训练文本的所述分词的位置表达;
获取所述训练文本集中的每条所述训练文本的否定词与情感词的位置表达,包括:
根据每条所述训练文本中的各所述否定词和所述情感词的位置信息,映射出对应的所述训练文本的所述否定词与情感词的位置表达。
12.根据权利要求7所述的方法,其中,所述分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;所述拼接处理层依次包括:拼接层、全连接层和归一化层;
将每条所述训练样本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类,还包括:
针对于每条所述训练样本训练时,将所述训练样本的所述分词表达输入至所述情感分析模型的所述词嵌入层,得到分词的嵌入表达;
将所述词嵌入层输出的分词的嵌入表达以及所述分词的位置表达输入至所述第一位置嵌入层,使得所述第一位置嵌入层在所述分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由所述循环神经网络层基于所述分词的嵌入表达和各分词的位置嵌入表达,提取分词的包含上下文信息的特征表达;
由所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
由所述拼接层将所述文本特征表达和所述否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由所述全连接层通过映射实现对所述全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由所述归一化层将所述变换后的特征表达映射至终极分类中,并输出所述终极分类的结果,所述终极分类的结果中包括所述倾向情感分类及对应的概率。
13.根据权利要求7所述的方法,其中,获取训练文本集之前,包括:
获取携带有文本和表情的语句;
获取所述表情对应的情感分类;
采用所述情感分析模型预测所述文本对应的情感分类;
判断所述表情对应的情感分类和所述文本对应的情感分类是否一致;
若一致,将所述携带有文本和表情的语句作为训练文本,增加至所述训练文本集。
14.根据权利要求13所述的方法,其中,所述方法还包括:
若所述表情对应的情感分类和所述文本对应的情感分类不一致,输出所述表情对应的情感分类和所述文本对应的情感分类,以供工作人员参考所述表情对应的情感分类和所述文本对应的情感分类,人工对所述携带有文本和表情的语句的情感分类进行标注。
15.根据权利要求13所述的方法,其中,将所述携带有文本和表情的语句作为训练文本,增加至所述训练文本集之后,所述方法还包括:
为增加的所述训练文本配置损失函数权重,以在采用增加的所述训练文本训练所述情感分析模型时,采用所述损失函数权重调整相应的损失函数,并基于调整后的所述损失函数进行参数调整。
16.一种文本的情感分析装置,其中,所述装置包括:
分词信息获取模块,用于获取待分析文本的分词表达和所述待分析文本的分词的位置表达;
否定词与情感词信息获取模块,用于获取所述待分析文本的否定词与情感词表达和所述待分析文本的否定词与情感词的位置表达;
预测模块,用于将所述待分析文本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至经训练的情感分析模型中,获取所述情感分析模型预测并输出的所述待分析文本的倾向情感分类,所述经训练的情感分析模型包括:用于处理所述分词表达和所述分词的位置表达的基于循环神经网络的分词处理层;用于处理所述否定词与情感词表达和所述否定词与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和拼接处理层,
其中,所述否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层,
所述预测模块将所述否定词与情感词表达输入至所述情感嵌入层,得到否定词与情感词的嵌入表达;将所述情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至所述第二位置嵌入层,使得所述第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定词与情感词的位置嵌入表达;由所述卷积神经网络层基于所述否定词与情感词的嵌入表达以及所述否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;由所述第二注意力机制层基于所述卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达。
17.根据权利要求16所述的装置,其中,所述分词信息获取模块,用于:
对所述待分析文本进行分词;
根据预设的词典库和所述词典库对应的映射词典,对所述待分析文本中的各分词进行映射,得到所述待分析文本的分词表达。
18.根据权利要求17所述的装置,其中,所述否定词与情感词信息获取模块,用于:
对所述待分析文本进行分词;
根据预设的否定词词库和预设的情感词词库,从所述待分析文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对所述待分析文本中的否定词和情感词分别进行特征映射,得到所述待分析文本的否定词与情感词表达。
19.根据权利要求16所述的装置,其中,
所述分词信息获取模块,用于根据各所述分词在所述待分析文本中的位置信息,映射出所述分词的位置表达;
所述否定词与情感词信息获取模块,用于根据各所述否定词和所述情感词在所述待分析文本中的位置信息,映射出所述否定词与情感词的位置表达。
20.根据权利要求16所述的装置,其中,
所述分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;所述拼接处理层依次包括:拼接层、全连接层和归一化层;
训练模块,还用于:
将所述待分析文本的所述分词表达输入至所述情感分析模型的所述词嵌入层,得到分词的嵌入表达;
将所述词嵌入层输出的分词的嵌入表达以及所述分词的位置表达输入至所述第一位置嵌入层,使得所述第一位置嵌入层在所述分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由所述循环神经网络层基于所述分词的嵌入表达和位置嵌入表达,提取分词的包含上下文信息的特征表达;
由所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
由所述拼接层将所述文本特征表达和所述否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由所述全连接层通过映射实现对所述全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由所述归一化层将所述变换后的特征表达映射至终极分类中,并输出所述终极分类的结果,所述终极分类的结果中包括所述倾向情感分类及对应的概率。
21.根据权利要求20所述的装置,其中,所述装置还包括:
权重获取模块,获取所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,并对各位置的分词的权重进行归一化处理后,输出的各所述分词的归一化权重;
目标分词获取模块,用于根据各所述分词的归一化权重,从所述待分析文本的多个分词中获取所述归一化权重最大的目标分词;
判断模块,用于判断所述倾向情感分类对应的情感词词库中是否包括所述目标分词;
标记模块,用于若未包括,将所述目标分词被标记为疑似情感词;
所述判断模块,还用于判断所述目标分词的所述归一化权重是否大于预设的权重阈值、且所述目标分词被标记为疑似情感词的总次数是否大于预设的次数阈值;
合并模块,用于基于所述判断模块的判断,若是,将所述目标分词合并至所述倾向情感分类对应的情感词词库中。
22.一种情感分析模型的训练装置,其中,所述装置包括:
获取模块,用于获取训练文本集;
提取模块,用于基于训练文本集提取训练样本集,所述训练样本集中每条训练样本包括分词表达、分词的位置表达、否定词与情感词表达、否定词与情感词的位置表达以及已知的情感分类,所述提取模块用于:获取所述训练文本集中的每条训练文本的所述分词表达和所述分词的位置表达;获取所述训练文本集中的每条训练文本的所述否定词与情感词表达和所述否定词与情感词的位置表达;获取所述训练文本集中的每条训练文本的已知的情感分类;
训练模块,用于基于所述训练样本集,训练情感分析模型,所述情感分析模型包括:用于处理所述分词表达和所述分词的位置表达的基于循环神经网络的分词处理层;用于处理所述否定词与情感词表达和所述否定词与情感词的位置表达的基于卷积神经网络的否定词情感词处理层;和拼接处理层,所述训练模块将每条所述训练样本的所述分词表达、所述分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类,
所述否定词情感词处理层依次包括:情感嵌入层、第二位置嵌入层、卷积神经网络层和第二注意力机制层,
所述训练模块将所述否定词与情感词表达输入至所述情感嵌入层,得到否定词与情感词的嵌入表达;将所述情感嵌入层输出的否定词与情感词的嵌入表达以及否定词与情感词的位置表达输入至所述第二位置嵌入层,使得所述第二位置嵌入层在否定词与情感词的嵌入表达的基础上增加否定表达与情感词的位置嵌入表达;由所述卷积神经网络层基于所述否定词与情感词的嵌入表达以及所述否定词与情感词的位置嵌入表达,提取否定词与情感词的位置关系特征表达;由所述第二注意力机制层基于所述卷积神经网络层得到的位置关系特征表达,对每个否定词或情感词赋予不同的权重,加权求和得到的否定词与情感词特征表达。
23.根据权利要求22所述的装置,其中,所述提取模块,用于:
对各所述训练文本进行分词;
根据预设的词典库和所述词典库对应的映射词典,对每条所述训练文本中的各分词进行映射,得到对应的所述训练文本的分词表达。
24.根据权利要求22所述的装置,其中,所述提取模块,用于:
对每条所述训练文本进行分词;
根据预设的否定词词库和所述已知的情感分类对应的预设的情感词词库,从每条所述训练文本的所有分词中获取否定词与情感词;
根据预设的否定词的特征映射策略和预设的情感词的特征映射策略,对每条所述训练文本中的否定词和情感词分别进行特征映射,得到对应的所述训练文本的否定词与情感词表达。
25.根据权利要求22所述的装置,其中,所述训练模块,用于:
将每条所述训练样本的所述分词表达、分词的位置表达、所述否定词与情感词表达以及所述否定词与情感词的位置表达,输入至所述情感分析模型中,获取所述情感分析模型预测并输出对应的所述训练样本的倾向情感分类;
根据情感分析模型输出的所述倾向情感分类和对应的所述训练样本的已知情感分类标签,计算所述情感分析模型损失函数,根据所述损失函数的计算结果调整所述情感分析模型的参数。
26.根据权利要求22所述的装置,其中,所述提取模块,还用于:
根据每条所述训练文本中的各分词的位置信息,映射出对应的所述训练文本的所述分词的位置表达;
获取所述训练文本集中的每条所述训练文本的否定词与情感词的位置表达,包括:
根据每条所述训练文本中的各所述否定词和所述情感词的位置信息,映射出对应的所述训练文本的所述否定词与情感词的位置表达。
27.根据权利要求22所述的装置,其中,所述分词处理层依次包括:词嵌入层、第一位置嵌入层、循环神经网络层和第一注意力机制层;所述拼接处理层依次包括:拼接层、全连接层和归一化层;
所述训练模块,还用于:
针对于每条所述训练样本训练时,将所述训练样本的所述分词表达输入至所述情感分析模型的所述词嵌入层,得到分词的嵌入表达;
将所述词嵌入层输出的分词的嵌入表达以及所述分词的位置表达输入至所述第一位置嵌入层,使得所述第一位置嵌入层在所述分词的嵌入表达的基础上增加各分词的位置嵌入表达;
由所述循环神经网络层基于所述分词的嵌入表达和各分词的位置嵌入表达,提取分词的包含上下文信息的特征表达;
由所述第一注意力机制层基于所述循环神经网络层得到的分词的特征表达,对每个分词赋予不同的权重,加权求和得到文本特征表达;
由所述拼接层将所述文本特征表达和所述否定词与情感词特征表达拼接,得到拼接的全局特征表达;
由所述全连接层通过映射实现对所述全局拼接特征表达进行变化增强特征的拟合能力处理,得到变换后的特征表达;
由所述归一化层将所述变换后的特征表达映射至终极分类中,并输出所述终极分类的结果,所述终极分类的结果中包括所述倾向情感分类及对应的概率。
28.根据权利要求27所述的装置,其中,所述装置,还包括预测模块、判断模块和增加模块;
所述获取模块,还用于获取携带有文本和表情的语句;
所述获取模块,还用于获取所述表情对应的情感分类;
所述预测模块,用于采用所述情感分析模型预测所述文本对应的情感分类;
所述判断模块,用于判断所述表情对应的情感分类和所述文本对应的情感分类是否一致;
所述增加模块,用于基于所述判断模块的判断,若一致,将所述携带有文本和表情的语句作为训练文本,增加至所述训练文本集。
29.根据权利要求28所述的装置,其中,所述装置还包括:
输出模块,用于若所述表情对应的情感分类和所述文本对应的情感分类不一致,输出所述表情对应的情感分类和所述文本对应的情感分类,以供工作人员参考所述表情对应的情感分类和所述文本对应的情感分类,人工对所述携带有文本和表情的语句的情感分类进行标注。
30.根据权利要求28所述的装置,其中,所述装置还包括:
配置模块,用于为增加的所述训练文本配置损失函数权重,以在采用增加的所述训练文本训练所述情感分析模型时,采用所述损失函数权重调整相应的损失函数,并基于调整后的所述损失函数进行参数调整。
31.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-6中任何一项所述的方法,或者执行如权利要求7-15中任何一项所述的方法。
32.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至6中任一项所述的方法,或者执行如权利要求7-15中任何一项所述的方法。
CN201910451510.3A 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质 Active CN110232123B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111436442.7A CN114168732A (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质
CN201910451510.3A CN110232123B (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910451510.3A CN110232123B (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111436442.7A Division CN114168732A (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质

Publications (2)

Publication Number Publication Date
CN110232123A CN110232123A (zh) 2019-09-13
CN110232123B true CN110232123B (zh) 2021-12-03

Family

ID=67858625

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910451510.3A Active CN110232123B (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质
CN202111436442.7A Pending CN114168732A (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111436442.7A Pending CN114168732A (zh) 2019-05-28 2019-05-28 文本的情感分析方法及其装置、计算设备与可读介质

Country Status (1)

Country Link
CN (2) CN110232123B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929516A (zh) * 2019-11-22 2020-03-27 新华网股份有限公司 文本的情感分析方法、装置、电子设备及可读存储介质
CN111078879A (zh) * 2019-12-09 2020-04-28 北京邮电大学 基于深度学习的卫星互联网文本敏感信息检测方法及装置
CN111191438B (zh) * 2019-12-30 2023-03-21 北京百分点科技集团股份有限公司 一种情感分析方法、装置和电子设备
CN111444709B (zh) * 2020-03-09 2022-08-12 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质及设备
CN112115331B (zh) * 2020-09-21 2021-05-04 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN113408269B (zh) * 2021-07-20 2024-06-28 北京百度网讯科技有限公司 文本情感分析方法和装置
CN113609390A (zh) * 2021-08-06 2021-11-05 北京金堤征信服务有限公司 信息分析方法及装置、电子设备和计算机可读存储介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305539A (zh) * 2016-04-18 2017-10-31 南京理工大学 一种基于Word2Vec网络情感新词发现的文本倾向性分析方法
CN107656917B (zh) * 2016-07-26 2021-01-26 深圳联友科技有限公司 一种中文情感分析方法及系统
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
US11250311B2 (en) * 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
CN107092596B (zh) * 2017-04-24 2020-08-04 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108763204A (zh) * 2018-05-21 2018-11-06 浙江大学 一种多层次的文本情感特征提取方法和模型
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109299268A (zh) * 2018-10-24 2019-02-01 河南理工大学 一种基于双通道模型的文本情感分析方法

Also Published As

Publication number Publication date
CN110232123A (zh) 2019-09-13
CN114168732A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN110232123B (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN111563551B (zh) 一种多模态信息融合方法、装置及电子设备
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN112232058B (zh) 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN110110323B (zh) 一种文本情感分类方法和装置、计算机可读存储介质
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN107168955A (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN112966074A (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
KR102403330B1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
CN112861522B (zh) 基于双重注意力机制的方面级情感分析方法、系统及模型
CN111324739B (zh) 一种文本情感分析方法及系统
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
WO2023108985A1 (zh) 绿色资产的占比的识别方法及相关产品
CN113779227A (zh) 案情事实抽取方法及系统及装置及介质
CN116432731A (zh) 学生模型训练方法和文本分类系统
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN113095072A (zh) 文本处理方法及装置
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
US20230130662A1 (en) Method and apparatus for analyzing multimodal data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant