CN107368613B - 短文本情感分析方法及装置 - Google Patents

短文本情感分析方法及装置 Download PDF

Info

Publication number
CN107368613B
CN107368613B CN201710792394.2A CN201710792394A CN107368613B CN 107368613 B CN107368613 B CN 107368613B CN 201710792394 A CN201710792394 A CN 201710792394A CN 107368613 B CN107368613 B CN 107368613B
Authority
CN
China
Prior art keywords
vector
text
short text
emotion
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710792394.2A
Other languages
English (en)
Other versions
CN107368613A (zh
Inventor
李长亮
王海亮
程健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710792394.2A priority Critical patent/CN107368613B/zh
Publication of CN107368613A publication Critical patent/CN107368613A/zh
Application granted granted Critical
Publication of CN107368613B publication Critical patent/CN107368613B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本挖掘技术领域,具体提供了一种短文本情感分析方法及装置,旨在解决如何在考虑背景信息的情况下对短文本进行情感挖掘,以提高情感挖掘准确性的技术问题。为此目的,本发明中的方法包括:获取将短文本信息输入至LSTM网络所得的向量序列,及其背景信息;依据向量序列、背景信息和预设的Attention模型,获取单词的注意力权重;依据向量序列和注意力权重,构建短文本信息对应的新的文本向量;对新的文本向量进行情感评估。同时,本发明中的装置可以执行上述方法。本发明的技术方案,通过获取与背景信息相关的注意力权重,并基于该注意力权重构建新的文本向量,结合了短文本实际内容与背景信息,从而可以更加准确地分析短文本的情感极性。

Description

短文本情感分析方法及装置
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种短文本情感分析方法及装置。
背景技术
文本情感分析是一种挖掘文本所表达情感或观点的文本挖掘技术。具体地,针对网络短评等短文本的情感分析方法主要包括基于情感词典的文本挖掘方法、基于传统机器学习的文本挖掘方法和基于深度学习的文本挖掘方法。
其中,基于情感词典的文本挖掘方法主要包括下述步骤:寻找短文本中的情感词,通过情感词典确定该情感词的极性,然后对该情感词的周围词语进行关联分析,以此确定该短文本的情感。上述方法受制于情感词典的限制,仅适于语法单一的短文本,而不能处理语法复杂或特定领域的短文本。
基于传统机器学习的文本挖掘方法主要包括下述步骤:首先选择并提取特征,然后构建特征向量,最后构建分类器。上述方法虽然具备扩展性强的优点,但是对特征选择的依赖性较高,且忽略了语义的信息,因此也不适用于处理语法复杂的短文本。
基于深度学习的文本挖掘方法主要包括下述步骤:通过构建LSTM或CNN等深度学习模型,对短文本进行建模。上述方法虽然对特征选取的依赖性较低,且在一定程度上考虑了浅层语义信息,但是仍然忽略了大量的背景信息,降低了短文本情感挖掘的准确性。
发明内容
为了解决现有技术中的上述问题,即为了解决如何在考虑背景信息的情况下对短文本进行情感挖掘,以提高情感挖掘准确性的技术问题,本发明提供了一种短文本情感分析方法及装置。
在第一方面,本发明中的短文本情感分析方法包括:
获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及所述短文本信息的背景信息;
依据所述向量序列、背景信息和预设的Attention模型,获取所述短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重;
依据所述向量序列和注意力权重,构建所述短文本信息对应的新的文本向量;
将所述新的文本向量映射到情感评估空间,并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
进一步地,本发明提供的一个优选技术方案为:
“获取所述短文本信息中各单词与各背景信息对应的注意力值”的步骤具体包括按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值
Figure BDA0001399547680000021
具体为:
Figure BDA0001399547680000022
进一步地,本发明提供的一个优选技术方案为:
其中,所述hi为所述向量序列中第i个单词对应的向量;所述N为短文本信息所包含的单词总数;所述e(hi,bkgk)为得分函数,且
Figure BDA0001399547680000023
所述V、
Figure BDA0001399547680000024
Figure BDA0001399547680000025
均为预设的权值矩阵,所述b为偏置向量。
进一步地,本发明提供的一个优选技术方案为:
所述单词的注意力权重如下式所示:
其中,所述αi为第i个单词的注意力权重,所述M为背景信息的总数。
进一步地,本发明提供的一个优选技术方案为:
“依据所述预测结果和注意力权重,构建所述短文本信息对应的新的文本向量”的步骤具体包括按照下式所示的方法构建所述新的文本向量s,具体为:
Figure BDA0001399547680000031
其中,所述αi为第i个单词的注意力权重,所述hi为所述向量序列中第i个单词对应的向量,所述N为短文本信息所包含的单词总数。
进一步地,本发明提供的一个优选技术方案为:
所述映射到情感评估空间的文本向量如下式所示:
Figure BDA0001399547680000032
其中,所述
Figure BDA0001399547680000033
为文本向量s映射到第c类情感评估空间的文本向量,所述Wc为权值矩阵,所述bc为偏置向量。
进一步地,本发明提供的一个优选技术方案为:
所述预设的情感极性的预测概率如下式所示:
Figure BDA0001399547680000034
其中,所述pc为第c类情感极性的预测概率,所述A为情感极性的类型总数。
在第二方面,本发明中的短文本情感分析装置包括:
第一数据获取模块,配置为获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及所述短文本信息的背景信息;
第二数据获取模块,配置为依据所述第一数据获取模块所获取的向量序列、背景信息和预设的Attention模型,获取所述短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重;
文本向量构建模块,配置为依据所述第一数据获取模块所获取的向量序列和所述第二数据获取模块所获取的注意力权重,构建所述短文本信息对应的新的文本向量;
文本向量评估模块,配置为将所述文本向量构建模块所构建的新的文本向量映射到情感评估空间,并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
进一步地,本发明提供的一个优选技术方案为:
所述第二数据获取模块包括注意力值计算单元;所述注意力计算单元,配置为按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值
Figure BDA0001399547680000041
具体为:
Figure BDA0001399547680000042
其中,所述hi为所述向量序列中第i个单词对应的向量;所述N为短文本信息所包含的单词总数;所述e(hi,bkgk)为得分函数,且
Figure BDA0001399547680000043
所述V、
Figure BDA0001399547680000044
Figure BDA0001399547680000045
均为预设的权值矩阵,所述b为偏置向量。
进一步地,本发明提供的一个优选技术方案为:
所述第二数据获取模块还包括注意力权重计算单元;所述注意力权重计算单元配置为按照下式所示的方法计算单词的注意力权重,具体为:
Figure BDA0001399547680000046
其中,所述αi为第i个单词的注意力权重,所述M为背景信息的总数。
进一步地,本发明提供的一个优选技术方案为:
所述文本向量构建模块包括文本向量构建单元,该文本向量构建单元配置为按照下式所示的方法计算新的文本向量s,具体为:
Figure BDA0001399547680000051
其中,所述αi为第i个单词的注意力权重,所述hi为所述向量序列中第i个单词对应的向量,所述N为短文本信息所包含的单词总数。
进一步地,本发明提供的一个优选技术方案为:
所述文本向量评估模块包括映射单元,该映射单元配置为按照下式所述的方法将文本向量映射到情感评估空间,具体为:
Figure BDA0001399547680000052
其中,所述
Figure BDA0001399547680000053
为文本向量s映射到第c类情感评估空间的文本向量,所述Wc为权值矩阵,所述bc为偏置向量。
进一步地,本发明提供的一个优选技术方案为:
所述文本向量评估模块还包括预测单元,该预测单元配置为按照下式所示的方法获取预设的情感极性的预测概率,具体为:
Figure BDA0001399547680000054
其中,所述pc为第c类情感极性的预测概率,所述A为情感极性的类型总数。
在第三方面,本发明中的存储装置,其存储有多条程序,所述程序适于由处理器加载并执行以实现上述技术方案所述的短文本情感分析方法。
在第四方面,本发明中的处理装置包括处理器和存储设备。其中,处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述技术方案所述的短文本情感分析方法。
与最接近的现有技术相比,上述技术方案至少具有以下有益效果:
1、本发明中的短文本情感分析方法,可以依据向量序列、背景信息和预设的Attention模型,获取短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重。基于上述步骤,可以将短文本的实际内容与其背景信息相结合,并以注意力权重的形式体现该实际内容与背景信息的相关性。
2、本发明中的短文本情感分析方法,可以依据向量序列和注意力权重,构建短文本信息对应的新的文本向量,并将新的文本向量映射到情感评估空间,采用softmax函数对映射到情感评估空间的文本向量进行情感评估。基于上述步骤,可以更加准确地分析短文本的情感极性。
附图说明
图1是本发明实施例中短文本情感分析方法的主要步骤流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
短文本信息,如影评,具有口语化、语法多变和文本简短等特点,降低了现有文本挖掘方法的评估准确性。基于此,本发明提供了一种短文本情感分析方法,该方法可以将短文本的背景信息加入Attention模型,即针对不同的背景信息构建不同的语义环境,在不同的语义环境中对文本的关注点不同,从而能够更加深入的理解文本含义。
参阅附图1,图1示例性示出了本实施例中短文本情感分析方法的主要步骤。如图1所示,本实施例中可以按照下述步骤对短文本进行情感分析,具体为:
步骤S101:获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及短文本信息的背景信息。
具体地,本实施例中LSTM网络指的是长短期记忆网络(Long Short-Term Memory,LSTM)。背景信息指的是任何与文本相关且可用的信息,例如影评的背景信息可以包括导演、演员、编剧和电影类型等信息。
在本实施例的一个优选实施方案中,短文本信息包括N个单词且N≥2。图1所示的短文本情感分析方法中步骤S101可以包括下述步骤:
步骤1、将短文本信息中的每个单词映射到低维空间。
具体地,短文本信息S=(W1,W2...Wi...WN)中单词Wi映射到低维空间为词向量wi,且wi∈Rd。其中,d为词向量的维度。按照上述方法将短文本信息的所有单词均映射到低维空间,得到短文本信息的词向量序列(w1,w2...wi...wN)。
步骤2、将词向量序列中的各词向量依次输入至预设的LSTM网络,得到LSTM网络输出的向量序列(h1,h2...hi...hN)。
步骤S102:依据向量序列、背景信息和预设的Attention模型,获取短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重。
具体地,本实施例中Attention模型指的是机器学习领域中的Attention Model,即AM模型。注意力值可以表示短文本信息中单词与背景信息的关系,即该注意力值为单词与背景信息的关系量化值。
本实施例中可以按照下式(1)所示的方法计算短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值具体为:
Figure BDA0001399547680000072
公式(1)中各参数含义为:
hi为向量序列中第i个单词对应的向量,即将词向量wi输入至LSTM网络后输出的向量。N为短文本信息所包含的单词总数。e(hi,bkgk)为得分函数,且
Figure BDA0001399547680000073
其中,V、
Figure BDA0001399547680000074
Figure BDA0001399547680000075
均为预设的权值矩阵,b为偏置向量。
按照公式(1)所示的方法计算每个单词与不同背景信息对应的注意力值,然后依据得到的所有注意力值计算每个单词的注意力权重。具体地,可以按照下式(2)所示的方法计算注意力权重:
Figure BDA0001399547680000081
公式(2)中各参数含义为:
αi为第i个单词的注意力权重,M为背景信息的总数。
步骤S103:依据向量序列和注意力权重,构建短文本信息对应的新的文本向量。
具体地,本实施例中可以按照下式(3)所示的方法构建短文本信息对应的新的文本向量:
Figure BDA0001399547680000082
步骤S104:将新的文本向量映射到情感评估空间,并采用softmax函数对映射到情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
具体地,本实施例中预设的情感极性指的是预设类型的情感极性,例如情感极性可以包括负、微负、中性、微正和正共五种类型的情感极性,也可以仅包括正和负这两种类型的情感极性。
本实施例中将新的文本向量映射到情感评估空间后的文本向量如下式(4)所示:
Figure BDA0001399547680000083
公式(4)中各参数含义为:
Figure BDA0001399547680000084
为文本向量s映射到第c类情感评估空间的文本向量,Wc为权值矩阵,bc为偏置向量。
进一步地,本实施例中可以按照下式(5)所示的方法计算各预设的情感极性的预测概率,具体为:
Figure BDA0001399547680000091
公式(5)中各参数含义为:
pc为第c类情感极性的预测概率,A为情感极性的类型总数
进一步地,本实施例采用上述短文本情感分析方法,以及多种常规的文本挖掘方法对短文本样本进行分析,计算各方法分析结果的正确率,依据各方法的正确率评估本发明中短文本情感分析方法的准确性。
具体地,本实施例中短文本样本为中文影评情感语料库(Chinese sentimentcorpus of movie,CSCM)中的影片信息。
本实施例中情感极性为包含负、微负、中性、微正和正五种类型的情感极性时,上述各方法分析结果的正确率如下表1所示:
表1
文本挖掘方法 正确率
SVM 45.16%
Fast-text 47.51%
CNN 47.70%
LSTM 47.40%
LSTM+ATT 47.47%
短文本情感分析方法 51.60%
本实施例中情感极性为包含正和负两种类型的情感极性时,上述各方法分析结果的正确率如下表2所示:
表2
Figure BDA0001399547680000092
Figure BDA0001399547680000101
通过上述表1和表2可以得到,本发明中短文本情感分析方法的分析结果正确率高于其他所有方法的正确率,表明该短文本情感分析方法具有较高的准确性。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
基于与方法实施例相同的技术构思,本发明实施例还提供了一种短文本情感分析装置。下面对该短文本情感分析装置进行具体说明。
本实施例中短文本情感分析装置可以包括第一数据获取模块、第二数据获取模块、文本向量构建模块和文本向量评估模块。其中,第一数据获取模块可以配置为获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及短文本信息的背景信息。第二数据获取模块可以配置为依据第一数据获取模块所获取的向量序列、背景信息和预设的Attention模型,获取短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重。文本向量构建模块可以配置为依据第一数据获取模块所获取的向量序列和第二数据获取模块所获取的注意力权重,构建短文本信息对应的新的文本向量。文本向量评估模块可以配置为将文本向量构建模块所构建的新的文本向量映射到情感评估空间,并采用softmax函数对映射到情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
进一步地,本实施例中第二数据获取模块可以包括注意力值计算单元和注意力权重计算单元。其中,注意力计算单元可以配置为按照公式(1)所示的方法计算短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值
Figure BDA0001399547680000102
注意力权重计算单元可以配置为按照公式(2)所示的方法计算单词的注意力权重。
进一步地,本实施例中文本向量构建模块可以包括文本向量构建单元,该文本向量构建单元可以配置为按照公式(3)所示的方法计算新的文本向量s。
进一步地,本实施例中文本向量评估模块可以包括映射单元和预测单元。其中,映射单元可以配置为按照公式(4)所示的方法将文本向量映射到情感评估空间。预测单元可以配置为按照公式(5)所示的方法获取预设的情感极性的预测概率。
上述短文本情感分析装置实施例可以用于执行上述短文本情感分析方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的短文本情感分析的具体工作过程及有关说明,可以参考前述短文本情感分析方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,上述短文本情感分析装置还包括一些其他公知结构,例如处理器、控制器、存储器等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等,为了不必要地模糊本公开的实施例,这些公知的结构未示出。
本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
基于上述短文本情感分析方法实施例,本发明还提供了一种存储装置,该装置中存储有多条程序,且这些程序适于由处理器加载并执行上述短文本情感分析方法。
进一步地,基于上述短文本情感分析方法实施例,本发明还提供了一种处理装置,该处理装置可以包括处理器和存储设备。其中,处理器适于执行各条程序,存储设备适于存储多条程序,且这些程序适于由处理器加载并执行以实现上述短文本情感分析方法。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (14)

1.一种短文本情感分析方法,其特征在于,所述方法包括:
获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及所述短文本信息的背景信息;
依据所述向量序列、背景信息和预设的Attention模型,获取所述短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重;
依据所述向量序列和注意力权重,构建所述短文本信息对应的新的文本向量;
将所述新的文本向量映射到情感评估空间,并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
2.根据权利要求1所述的方法,其特征在于,“获取所述短文本信息中各单词与各背景信息对应的注意力值”的步骤具体包括按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值
Figure FDA0001399547670000011
具体为:
其中,所述hi为所述向量序列中第i个单词对应的向量;所述N为短文本信息所包含的单词总数;所述e(hi,bkgk)为得分函数,且所述V、
Figure FDA0001399547670000014
Figure FDA0001399547670000015
均为预设的权值矩阵,所述b为偏置向量。
3.根据权利要求2所述的方法,其特征在于,
所述单词的注意力权重如下式所示:
Figure FDA0001399547670000021
其中,所述αi为第i个单词的注意力权重,所述M为背景信息的总数。
4.根据权利要求1-3任一项所述的方法,其特征在于,“依据所述预测结果和注意力权重,构建所述短文本信息对应的新的文本向量”的步骤具体包括按照下式所示的方法构建所述新的文本向量s,具体为:
Figure FDA0001399547670000022
其中,所述αi为第i个单词的注意力权重,所述hi为所述向量序列中第i个单词对应的向量,所述N为短文本信息所包含的单词总数。
5.根据权利要求4所述的方法,其特征在于,
所述映射到情感评估空间的文本向量如下式所示:
Figure FDA0001399547670000023
其中,所述
Figure FDA0001399547670000024
为文本向量s映射到第c类情感评估空间的文本向量,所述Wc为权值矩阵,所述bc为偏置向量。
6.根据权利要求5所述的方法,其特征在于,
所述预设的情感极性的预测概率如下式所示:
Figure FDA0001399547670000025
其中,所述pc为第c类情感极性的预测概率,所述A为情感极性的类型总数。
7.一种短文本情感分析装置,其特征在于,所述装置包括:
第一数据获取模块,配置为获取将短文本信息输入至预设的LSTM网络所得的向量序列,以及所述短文本信息的背景信息;
第二数据获取模块,配置为依据所述第一数据获取模块所获取的向量序列、背景信息和预设的Attention模型,获取所述短文本信息中各单词与各背景信息对应的注意力值,进而得到每个单词的注意力权重;
文本向量构建模块,配置为依据所述第一数据获取模块所获取的向量序列和所述第二数据获取模块所获取的注意力权重,构建所述短文本信息对应的新的文本向量;
文本向量评估模块,配置为将所述文本向量构建模块所构建的新的文本向量映射到情感评估空间,并采用softmax函数对映射到所述情感评估空间的文本向量进行情感评估,得到各预设的情感极性的预测概率。
8.根据权利要求7所述的装置,其特征在于,
所述第二数据获取模块包括注意力值计算单元;所述注意力计算单元,配置为按照下式所示的方法计算所述短文本信息中第i个单词与第k个背景信息bkgk对应的注意力值
Figure FDA0001399547670000031
具体为:
其中,所述hi为所述向量序列中第i个单词对应的向量;所述N为短文本信息所包含的单词总数;所述e(hi,bkgk)为得分函数,且
Figure FDA0001399547670000033
所述V、
Figure FDA0001399547670000034
Figure FDA0001399547670000035
均为预设的权值矩阵,所述b为偏置向量。
9.根据权利要求8所述的装置,其特征在于,
所述第二数据获取模块还包括注意力权重计算单元;所述注意力权重计算单元配置为按照下式所示的方法计算单词的注意力权重,具体为:
其中,所述αi为第i个单词的注意力权重,所述M为背景信息的总数。
10.根据权利要求7-9任一项所述的装置,其特征在于,
所述文本向量构建模块包括文本向量构建单元,该文本向量构建单元配置为按照下式所示的方法计算新的文本向量s,具体为:
其中,所述αi为第i个单词的注意力权重,所述hi为所述向量序列中第i个单词对应的向量,所述N为短文本信息所包含的单词总数。
11.根据权利要求10所述的装置,其特征在于,
所述文本向量评估模块包括映射单元,该映射单元配置为按照下式所述的方法将文本向量映射到情感评估空间,具体为:
其中,所述
Figure FDA0001399547670000044
为文本向量s映射到第c类情感评估空间的文本向量,所述Wc为权值矩阵,所述bc为偏置向量。
12.根据权利要求11所述的装置,其特征在于,
所述文本向量评估模块还包括预测单元,该预测单元配置为按照下式所示的方法获取预设的情感极性的预测概率,具体为:
Figure FDA0001399547670000045
其中,所述pc为第c第类情感极性的预测概率,所述A为情感极性的类型总数。
13.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的短文本情感分析方法。
14.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-6任一项所述的短文本情感分析方法。
CN201710792394.2A 2017-09-05 2017-09-05 短文本情感分析方法及装置 Expired - Fee Related CN107368613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710792394.2A CN107368613B (zh) 2017-09-05 2017-09-05 短文本情感分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710792394.2A CN107368613B (zh) 2017-09-05 2017-09-05 短文本情感分析方法及装置

Publications (2)

Publication Number Publication Date
CN107368613A CN107368613A (zh) 2017-11-21
CN107368613B true CN107368613B (zh) 2020-02-28

Family

ID=60311626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710792394.2A Expired - Fee Related CN107368613B (zh) 2017-09-05 2017-09-05 短文本情感分析方法及装置

Country Status (1)

Country Link
CN (1) CN107368613B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415972A (zh) * 2018-02-08 2018-08-17 合肥工业大学 文本情感处理方法
CN110134780B (zh) * 2018-02-08 2023-11-24 株式会社理光 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN108415977B (zh) * 2018-02-09 2022-02-15 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108363790B (zh) * 2018-02-12 2021-10-22 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN109241377B (zh) * 2018-08-30 2021-04-23 山西大学 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109243493B (zh) * 2018-10-30 2022-09-16 南京工程学院 基于改进长短时记忆网络的婴儿哭声情感识别方法
CN109992781B (zh) * 2019-04-02 2020-12-15 腾讯科技(深圳)有限公司 文本特征的处理方法、装置和存储介质
US20210406049A1 (en) * 2020-06-30 2021-12-30 Microsoft Technology Licensing, Llc Facilitating message composition based on absent context

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140240A1 (en) * 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BB twtr at SemEval-2017 Task 4: Twitter Sentiment Analysis with CNNs and LSTMs;Mathieu Cliche 等;《Proceedings of the 11th International Workshop on Semantic Evaluations(SemEval-2017)》;20170804;第573-580页 *
Emphasizing Essential Words for Sentiment Classification Based onRecurrent Neural Networks;Fei Hu等;《计算机科学技术学报(英文版)》;20170603;第785-795页 *
基于深度学习的情感词向量及文本情感分析的研究;张志华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161015;第I138-579页 *
基于深度学习的文本情感分析;王雪娇;《中国优秀硕士学位论文全文数据库信息科技辑》;20161215;第I138-377页 *

Also Published As

Publication number Publication date
CN107368613A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN107368613B (zh) 短文本情感分析方法及装置
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110209824B (zh) 基于组合模型的文本情感分析方法、系统、装置
US10296837B2 (en) Comment-comment and comment-document analysis of documents
US9619481B2 (en) Method and apparatus for generating ordered user expert lists for a shared digital document
CN112889042A (zh) 机器学习中超参数的识别与应用
CN109492213B (zh) 句子相似度计算方法和装置
CN106919551B (zh) 一种情感词极性的分析方法、装置及设备
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN111125543B (zh) 书籍推荐排序模型的训练方法、计算设备及存储介质
US20150269142A1 (en) System and method for automatically generating a dataset for a system that recognizes questions posed in natural language and answers with predefined answers
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
US11238124B2 (en) Search optimization based on relevant-parameter selection
US8290925B1 (en) Locating product references in content pages
EP3912099A1 (en) Compound model scaling for neural networks
KR102410715B1 (ko) 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법
CN103534696A (zh) 针对口语语言理解中的域检测利用查询点击记录
CN107832288B (zh) 中文词语语义相似度的度量方法及装置
US11269896B2 (en) System and method for automatic difficulty level estimation
WO2014171925A1 (en) Event summarization
CN111199157B (zh) 一种文本数据处理方法及其装置
CN114117239A (zh) 一种房源推送方法、装置和设备
JP2021163477A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
WO2017107695A1 (zh) 对新闻进行排序的方法和装置
US9122705B1 (en) Scoring hash functions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200228