CN115964485A - 情感分析处理方法、装置、计算机设备及可读存储介质 - Google Patents

情感分析处理方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN115964485A
CN115964485A CN202211447485.XA CN202211447485A CN115964485A CN 115964485 A CN115964485 A CN 115964485A CN 202211447485 A CN202211447485 A CN 202211447485A CN 115964485 A CN115964485 A CN 115964485A
Authority
CN
China
Prior art keywords
vector
given
context
emotion
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211447485.XA
Other languages
English (en)
Inventor
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211447485.XA priority Critical patent/CN115964485A/zh
Publication of CN115964485A publication Critical patent/CN115964485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供的一种情感分析处理方法、装置、计算机设备及可读存储介质,包括:获取文本数据的上下文信息,识别上下文信息中的给定方面;对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量;根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量;根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量;根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息。本申请不仅提高了情感分析的准确度,还实现了对海量数据的批量分析的技术效果。

Description

情感分析处理方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及数据分析技术领域,尤其涉及一种情感分析处理方法、装置、计算机设备及可读存储介质。
背景技术
在人工智能时代,自然语言处理技术引起了学术界和工业界的广泛关注,而文本数据的情感分析是其重点研究的对象之一,具有很高的研究和应用价值。金融领域中的股票、基金以及期货等中文文本数据与日俱增,产生速度快、蕴含信息量大,如何能快速、准确的挖掘金融文本中的隐藏信息,是目前迫切需要解决的问题。
目前对舆情的情感分析大多还是采用人工阅读识别的方式进行,然而,发明人发现,这种方式不仅准确度低下,而且无法处理海量的金融评论的文本数据,导致企业无法对与其相关的舆情进行批量准确的情感分析的情况发生。
发明内容
本申请提供一种情感分析处理方法、装置、计算机设备及可读存储介质,用以解决当前舆情情感分析准确度低下,而且无法处理海量的金融评论的文本数据,导致企业无法对与其相关的舆情进行批量准确的情感分析的情况发生的问题。
第一方面,本申请提供一种情感分析处理方法,包括:
获取文本数据的上下文信息,识别所述上下文信息中的给定方面;其中,所述上下文信息是记载有用户情感的内容,所述给定方面是用于被分析情感的主体;
对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量;其中,所述给定向量表征所述文本数据中被分析情感的主体,所述上下文向量表征所述文本数据中记载有用户情感的内容;
根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量;其中,所述全局隐藏向量表征所述文本数据对给定方面的整体情感;
根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量;其中,所述局部隐藏向量表征所述文本数据对所述给定方面中各主体的局部情感;一个所述主体对应所述给定方面中的一个给定字词;
根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息。
上述方案中,所述对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量,包括:
对所述上下文信息进行编码处理得到上下文矩阵,根据所述上下文矩阵生成上下文向量;其中,所述上下文矩阵中至少具有一个上下文特征;所述上下文向量记载了所述上下文矩阵中任一上下文特征,以及所述任一上下文体征与所述上下文矩阵中其他上下文特征之间关联关系的隐藏特征;
对所述给定信息进行编码处理得到给定矩阵,根据所述给定矩阵生成给定向量;其中,所述给定矩阵中至少具有一个给定特征;所述给定向量记载了所述给定矩阵中任一给定特征,以及所述任一给定体征与所述给定矩阵中其他给定特征之间关联关系的隐藏特征。
上述方案中,所述根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量,包括:
对所述上下文向量进行池化处理得到上下文池化向量,及对所述给定向量进行池化处理得到给定池化向量;其中,所述上下文池化向量表征了所述文本数据通过所述上下文信息传达的关键内容和情感类型,所述给定池化向量表征了所述文本数据通过所述给定方面传达的关键内容;
根据所述给定向量和所述上下文池化向量生成第一隐藏向量;其中,所述第一隐藏向量是所述给定向量中与所述上下文池化向量之间匹配的特征向量,所述第一隐藏向量表征了所述给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词,及所述上下文信息传达的情感类型;
根据所述给定池化向量和所述上下文向量生成第二隐藏向量;其中,所述第二隐藏向量是所述上下文向量中与所述给定池化向量之间匹配的特征向量;所述第二隐藏向量表征了所述上下文信息中与所述给定方面传达的关键内容匹配的上下文字词及其情感类型;
根据所述第一隐藏向量和所述第二隐藏向量得到所述全局隐藏向量;其中,所述全局隐藏向量通过表征所述上下文信息传达的与所述给定方面匹配的情感类型,表征所述文本数据对给定方面的整体情感。
上述方案中,所述对所述上下文向量进行池化处理得到上下文池化向量,及对所述给定向量进行池化处理得到给定池化向量,包括:
对所述上下文向量进行均值池化处理得到上下文均值池化向量,对所述上下文向量进行最大池化处理得到上下文最大池化向量,拼接所述上下文均值池化向量和所述上下文最大池化向量得到所述上下文池化向量;
对所述给定向量进行均值池化处理得到给定均值池化向量,对所述给定向量进行最大池化处理得到给定最大池化向量,拼接所述给定均值池化向量和所述给定最大池化向量得到所述给定池化向量。
上述方案中,所述根据所述给定向量和所述上下文池化向量生成第一隐藏向量,包括:
识别所述给定向量中与所述上下文均值池化向量之间匹配的第一给定向量,及识别所述给定向量中与所述上下文最大池化向量之间匹配的第二给定向量,拼接所述第一给定向量和所述第二给定向量得到第一隐藏向量;
所述根据所述给定池化向量和所述上下文向量生成第二隐藏向量,包括:
识别所述上下文向量中与所述给定均值池化向量之间匹配的第一上下文向量,及识别所述上下文向量中与所述给定最大均值池化向量之间匹配的第二上下文向量,拼接所述第一上下文向量和所述第二上下文向量得到第二隐藏向量;
所述根据所述第一隐藏向量和所述第二隐藏向量得到所述全局隐藏向量,包括:
将第一隐藏向量中表征的所述给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词设为第一字词向量,及将第二隐藏向量中所述上下文信息传达的情感类型设为第一情感向量;
将第二隐藏向量中表征所述上下文信息中与所述给定方面传达的关键内容匹配的上下文字词设为第二字词向量,及将第二隐藏向量中所述第二字词对应的情感类型设为第二情感向量;
拼接所述第一字词向量和所述第二字词向量得到给定上下文向量,汇总所述第一情感向量和所述第二情感向量得到情感集合,其中,所述情感集合中具有至少一个表征情感类型的情感特征向量;
计算各所述情感特征向量与所述给定上下文向量之间的匹配概率,将所述匹配概率与所述情感特征向量拼接形成目标情感向量,汇总至少一个目标情感向量得到全局隐藏向量。
上述方案中,所述根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量,包括:
根据所述给定向量中至少一个给定特征构建至少一个注意目标,根据所述上下文向量构建来源数据和上下文数据;其中,所述来源数据是所述上下文向量中与所述注意目标对应的上下文特征,所述上下文数据是所述来源数据周围预置范围内的上下文特征;
将一个注意目标设为当前目标,识别与所述当前目标对应的来源数据,及获取与所述来源数据之间具有关联关系的至少一个上下文数据,并将所述至少一个上下文数据作为所述当前目标的至少一个关联特征;
根据预置的权重向量依次计算所述关联特征与所述当前目标之间的相关程度,并得到至少一个相关向量;其中,所述相关向量表征所述关联特征对应的上下文字词对当前目标对应的给定字词传达的情感类型的情感权重;所述情感权重表征所述情感类型对所述当前目标对应的给定字词的情感影响程度;
拼接所述给定向量中所有给定特征及其相关向量,得到反映所述给定方面中各所述给定字词的局部情感类型的局部隐藏向量。
上述方案中,所述根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息,包括:
根据所述全局隐藏向量计算用户生成的上下文信息,对所述给定方面的第一情感类型和第一情感概率;其中,所述第一情感类型表征所述文本数据通过所述上下文信息对所述给定方面传达的整体情感;所述第一情感概率表征所述文本数据传达的所述整体情感中各情感类型的概率;
根据所述局部隐藏向量计算所述用户生成的上下文信息,对所述给定方面中各给定字词的第二情感类型和第二情感概率;其中,所述第二情感类型表征所述文本数据通过所述上下文信息对所述给定方面中各主体分别传达的局部情感;所述第二情感概率表征所述文本数据传达的所述局部情感中各情感类型的概率;
根据所述第一情感类型及其第一情感概率,和所述第二情感类型及其第二情感概率,得到所述用户对所述给定方面的情感信息。
第二方面,本申请提供一种情感分析处理装置,包括:
识别模块,用于获取文本数据的上下文信息,识别所述上下文信息中的给定方面;其中,所述上下文信息是记载有用户情感的内容,所述给定方面是用于被分析情感的主体;
输入层模块,用于对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量;其中,所述给定向量表征所述文本数据中被分析情感的主体,所述上下文向量表征所述文本数据中记载有用户情感的内容;
全局注意力模块,用于根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量;其中,所述全局隐藏向量表征所述文本数据对给定方面的整体情感;
局部注意力模块,用于根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量;其中,所述局部隐藏向量表征所述文本数据对所述给定方面中各主体的局部情感;一个所述主体对应所述给定方面中的一个给定字词;
全局注意力模块,用于根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息。
第三方面,本申请提供一种计算机设备,包括:处理器以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求上述的情感分析处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的情感分析处理方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的情感分析处理方法。
本申请提供的一种情感分析处理方法、装置、计算机设备及可读存储介质,通过对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量,以便于后续对上下文信息和给定方面进行情感分析;
通过根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量,以得到给定方面在上下文信息中整体传达的情感类型;
通过根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量,以得到给定方面中各给定字词在上下文信息中具体传达的情感类型;
通过根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息,以从上下文信息对于给定方面整体表达的情感类型,和给定方面中各给定字词在上下文信息中具体表达的情感类型两个给定方面,识别生成上下文信息的用户对给定方面的情感态度,以提高用户情感分析的准确度。
因此,本申请不仅提高了情感分析的准确度,还实现了对海量数据的批量分析的技术效果,解决了当前企业无法对与其相关的舆情进行批量准确的情感分析的困难。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种情感分析处理方法的实施例1的流程图;
图2为本申请实施例提供的一种情感分析处理装置的实施例2的程序模块示意图;
图3为本申请实施例2提供的情感分析处理装置在实施例1提供的情感分析处理方法中应用的程序模块及信息交互的框图;
图4为本发明计算机设备中计算机设备的硬件结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
请参阅图1,本申请具体的应用场景为:
在人工智能时代,自然语言处理技术引起了学术界和工业界的广泛关注,而文本数据的情感分析是其重点研究的对象之一,具有很高的研究和应用价值。金融领域中的股票、基金以及期货等中文文本数据与日俱增,产生速度快、蕴含信息量大,如何能快速、准确的挖掘金融文本中的隐藏信息,是目前迫切需要解决的问题。面对海量的金融评论的文本数据,若仅仅依靠投资者进行阅读和分析的手段提炼有价值的信息是不现实的。一方面在时间上不可行,因为金融市场极度复杂多变,股值状态转移迅速,依靠人工分析的方法具有严重的滞后性,使得数据失去时间效力。另一方面由于投资者的基础和背景不同,每个人对市场的变化的看法都是片面的,个人不能对海量金融文本数据进行综合分析,比如股民在进行选股时,由于心理因素,可能仅仅通过几个评论、帖子就轻易定下结论,错失投资良机。因此,能够训练一个自动处理大量金融文本的舆情分析模型,在辅助投资者、金融投资机构进行投资参考以及政府掌握金融市场的舆论风向,分析投资者的情感态度,具有丰富的参考价值。
本申请提供的一种情感分析处理方法可应用在金融领域,通过编码器高效的获取长句中词的隐藏状态提取金融用户评论文本特征,并得到对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量;
通过全局注意力模块和局部注意力模块,根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量;及根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量,因此,实现利用不同注意力模块来捕获方面和上下文之间不同粒度的交互信息的效果;其中,全局注意力模块中采用双池化方法来交互方面和上下文的重要特征,从而减少学习特征的损失。
根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息。
通过结合表征全局注意力模块对整个方面和上下文的信息交互的全局隐藏向量,和表征局部注意力模块主要关注单词级别的信息交互的局部隐藏向量,从全局和局部两个角度识别用户对给定方面的情感态度的情感信息,提高了情感识别的准确度。
方面级情感分析学习:情感分析主要是通过提出的文本,去识别该目标所表达的具体情感,可以按分析的粒度级别分成文档级、句子级以及方面级。前两种粒度的情感分析都是假设一段文本只反映了一种情感,即文本表现的是正面情感、负面情感还是中性情感。但是,对文本档或句子整体进行情感极性判断,可能会丢失一些情感细节。同样,文档或句子整体的情感并不能反映人们对目标细粒度的情感表达。在不同的场景下,如果只关注整体情感,就可能会忽略细节部分的情感理解。因此,为了更全面的对情感进行分析,需要从文本评论中体现的不同情感方面入手,找到文本评论的不同情感方面的对象,对每个方面对象进行有针对性的情感分析,这就是方面级情感分析。
注意力机制:注意力机制源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度,只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。
金融舆情指公众对于特定金融事件或金融运行形势、趋势所发表的评论、观点和意见,能够通过一定的作用机理对实际的金融市场、金融机构甚至宏观金融运行产生现实的影响。对于金融系统运行过程中某一特定事件的发生,例如经济金融相关数据的发布、宏观和监管政策的调整、金融机构突发状况等,公众舆论具有较强的敏感性,相关事件的任何动态变化都可能引起广泛讨论,导致个人和企业的消费投资预期或决策发生变化,最终影响整个金融市场乃至宏观经济的运行。随着互联网和新媒体等舆论传播渠道的广泛使用,有关舆情的学术研究开始增加,但是理论研究和实证研究还处于探索阶段,特别是对金融舆情和相关预期引导进行的研究较少。
国内学者关于金融舆情的研究大体分为两方面。一是关于金融舆情管理与引导。金融舆情来源于社会大众对某一特定金融事件以及金融运行趋势作出的判断和理解,并通过某种传导机制对金融市场、金融机构乃至宏观金融运行造成一定影响,为了维护金融领域各部分的有序运行,要求金融监管机构采取适当措施充分监测、调查和管理金融舆情。二是关于金融舆情及其对金融市场的影响。舆情分为两种,即正面舆情和负面舆情对金融市场产生的不同影响;正面舆情可以提高相关金融市场和金融机构的社会声誉,也可以在一定程度上稳定金融运行;而负面舆情的发生几乎都会给金融市场和金融机构带来或多或少的损失,如果不及时抑制反而任由其传播则会导致不可挽回的后果,继而易引发金融风险。对于公众来说,舆情反应是最直观的展现方式之一。一直以来,公众对于经济金融政策的了解和表达的意愿越来越强烈,参与渠道越来越多样,也因此出现了或大或小的金融舆情。金融舆情一旦出现,在短时间内经过相互碰撞之后就会形成很强的社会舆论场,而如果此时舆情引导不到位,市场预期产生了偏差,即使政策再好,效果也会打折扣,甚至会造成负面效应。因此,充分了解公众对人民银行政策措施的舆情反应,继而采取有效方式进行预期引导,对于提升政策实施效果、稳定市场预期、保持经济平稳健康发展具有重要意义。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决现有技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例1:
请参阅图2,本申请提供一种情感分析处理方法,包括:
S101:获取文本数据的上下文信息,识别上下文信息中的给定方面;其中,上下文信息是记载有用户情感的内容,给定方面是用于被分析情感的主体。
本步骤中,上下文信息是用户表达对某一特定主体(即:给定方面)的情感态度的文本信息。于本实施例中,本申请可应用在网络舆情的情感分析,因此,本申请通过与社交媒体平台连接,获取上下文信息。示例性地,选择新浪微博(以下简称“微博”)作为基于用户关系的社交媒体平台,承载着大量舆情信息。特别是,近几年微博的金融政策新闻发布量逐年上升,所占移动客户端信息发布的份额越来越大。当舆情事件出现时,公众在微博上的参与度较高,且发布的微博数量增长快速、体量庞大,因此选择微博作为舆情信息分析的平台,结果具有充分的代表性。
S102:对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量;其中,给定向量表征文本数据中被分析情感的主体,上下文向量表征文本数据中记载有用户情感的内容。
在一个优选的实施例中,对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量,包括:
对上下文信息进行编码处理得到上下文矩阵,根据上下文矩阵生成上下文向量;其中,上下文矩阵中至少具有一个上下文特征;上下文向量记载了上下文矩阵中任一上下文特征,以及任一上下文体征与上下文矩阵中其他上下文特征之间关联关系的隐藏特征;
对给定信息进行编码处理得到给定矩阵,根据给定矩阵生成给定向量;其中,给定矩阵中至少具有一个给定特征;给定向量记载了给定矩阵中任一给定特征,以及任一给定体征与给定矩阵中其他给定特征之间关联关系的隐藏特征。
具体地,由于传统的注意力机制处理数据并行能力较差。为了使上下文能够和给定方面中的多个单词更好的交互信息,提高运行效率,本实施例通过编码器提取给定方面和上下文信息的特征得到给定矩阵和上下文矩阵,示例性地,输入一个上下文信息,并将上下文信息中的上下文字词映射为词向量。可以看到,输入是由m个词组成的给定方面a={Wi,Wi+1,...,Wi+m-1}以及n个词组成的上下文信息的子序列c={W1,W2,...,Wn}。嵌入层通过预训练词向量模型得到词向量,其中,上下文矩阵为
Figure BDA0003950938720000071
给定矩阵为
Figure BDA0003950938720000072
其中dw是词向量的维数。
及通过编码器处理嵌入层得到词句向量,捕获隐藏表示。具体地,先利用编码器提取上下文矩阵中的上下文特征,将上下文特征作为自注意力机制中Query值,Key值和Value值输入。通过自注意力机制得到上下文矩阵的任一上下文特征,以及任一上下文体征与上下文矩阵中其他上下文特征之间关联关系的隐藏特征,并得到上下文向量,该上下文向量表示为
Figure BDA0003950938720000073
计算如公式所示:
hc i=Encoder(V1,V2,...,Vn)
其中,Encoder是自注意力机制算法,hc i是第i个上下文特征及其与上下文矩阵中其他上下文特征之间的隐藏特征。
按照同样的方法得到给定向量
Figure BDA0003950938720000081
考虑到单一的注意力层不能高效的提取语句中复杂的关系,这里模型选择通过多层注意力进行叠加,更好的去学习给定方面和上下文的特征信息。
需要说明的是,自注意力机制是神经网络中的注意力机制(AttentionMechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。那么通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。例如:对于每一个输入向量a,经过自注意力机制之后都输出一个向量b,这个向量b是考虑了所有的输入向量对a产生的影响才得到的,这里有四个词向量a对应就会输出四个向量b。
S103:根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量;其中,全局隐藏向量表征文本数据对给定方面的整体情感。
在一个优选的实施例中,根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量,包括:
对上下文向量进行池化处理得到上下文池化向量,及对给定向量进行池化处理得到给定池化向量;其中,上下文池化向量表征了文本数据通过上下文信息传达的关键内容和情感类型,给定池化向量表征了文本数据通过给定方面传达的关键内容;
根据给定向量和上下文池化向量生成第一隐藏向量;其中,第一隐藏向量是给定向量中与上下文池化向量之间匹配的特征向量,第一隐藏向量表征了给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词,及上下文信息传达的情感类型;
根据给定池化向量和上下文向量生成第二隐藏向量;其中,第二隐藏向量是上下文向量中与给定池化向量之间匹配的特征向量;第二隐藏向量表征了上下文信息中与给定方面传达的关键内容匹配的上下文字词及其情感类型;
根据第一隐藏向量和第二隐藏向量得到全局隐藏向量;其中,全局隐藏向量通过表征上下文信息传达的与给定方面匹配的情感类型,表征文本数据对给定方面的整体情感。
本实例中,通过对上下文向量进行池化处理,得到描述上下文信息的关键信息和情感类型的上下文池化向量,通过对给定向量进行池化处理,得到描述给定方面的关键信息的给定池化向量,以便于后续在整体上对上下文信息和给定方面进行比对,得到上下文信息整体要传达的对给定方面的情感态度。
通过注意力机制根据给定向量和上下文池化向量生成第一隐藏向量,及根据给定池化向量和上下文向量生成第二隐藏向量;
本实例中的匹配是基于Soft attention和/或Hard attention,将两个相同和/或相似的对象(例如:向量、字词)设为相互匹配的对象;其中,Hard attention是直接从输入句子里面找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其它输入句子中的单词硬性地认为对齐概率为0,这就是Hard Attention Model的思想。Hard AM在图像里证明有用,但是在文本里面用处不大,因为这种单词一一对齐明显要求太高,如果对不齐对后续处理负面影响很大。Soft attention是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。
需要说明的是,注意力机制是一种定位到感兴趣的信息,抑制无用信息的算法,是一种软寻址(Soft Addressing):Source可以看作存储器内存储的内容,元素由地址Key和值Value组成,当前有个Key=Query的查询,目的是取出存储器中对应的Value值,即Attention数值。通过Query和存储器内元素Key的地址进行相似性比较来寻址,之所以说是软寻址,指的不像一般寻址只从存储内容里面找出一条内容,而是可能从每个Key地址都会取出内容,取出内容的重要性根据Query和Key的相似性来决定,之后对Value进行加权求和,这样就可以取出最终的Value值,也即Attention值。因此Query是一个和任务相关的变量,而Key需要能够体现Value对应位置上的语义信息,目前在自然语言处理中,我们通常将目标作为Query值,辅助信息作为Key值和Value值。
在一个优选的实施例中,对上下文向量进行池化处理得到上下文池化向量,及对给定向量进行池化处理得到给定池化向量,包括:
对上下文向量进行均值池化处理得到上下文均值池化向量,对上下文向量进行最大池化处理得到上下文最大池化向量,拼接上下文均值池化向量和上下文最大池化向量得到上下文池化向量;
对给定向量进行均值池化处理得到给定均值池化向量,对给定向量进行最大池化处理得到给定最大池化向量,拼接给定均值池化向量和给定最大池化向量得到给定池化向量。
为了避免上下文向量和给定向量在池化的过程中,丢失过多的重要信息导致得到的上下文池化向量和给定池化向量,无法完整描述上下文信息和给定向量的关键信息和/或情感类型,导致得到的第一隐藏向量和第二隐藏向量的准确度低下,本实例通过对上下文向量进行均值池化处理和最大池化处理,分别得到上下文均值池化向量和上下文最大池化向量,并拼接得到上下文池化向量,及对给定向量进行均值池化处理和最大池化处理,分别得到给定均值池化向量和给定最大池化向量,并拼接得到给定池化向量的方式,实现对上下文向量和给定向量从均值和最大值两个维度上进行池化处理,确保得到上下文池化向量和给定池化向量,能够分别涵盖上下文信息和给定信息的关键信息和/或情感类型,避免重要信息丢失的情况发生。其中,均值池化(mean-pooling)是对局部接受域中的所有值求均值;最大池化(max-pooling)即取局部接受域中值最大的点。
具体地,考虑到方面对上下文的全局影响。这里方法加入双池化方法用于交互给定方面的给定字词隐藏状态向量,通过分别得到方面向量的最大池化和平均池化值,并进行拼接传入下一层。然后计算得到上下文中单词的平均池化注意权重以及最大池化注意力权重。最后,将上下文和给定方面的给定字词的表示拼接形成交互嵌入。因此,避免了平均池化等单池化方法造成的一些有用信息的丢失,采用双池化方法来选择给定方面和上下文的重要特征,从而减少学习特征的损失。
进一步地,根据给定向量和上下文池化向量生成第一隐藏向量,包括:
识别给定向量中与上下文均值池化向量之间匹配的第一给定向量,及识别给定向量中与上下文最大池化向量之间匹配的第二给定向量,拼接第一给定向量和第二给定向量得到第一隐藏向量;
根据给定池化向量和上下文向量生成第二隐藏向量,包括:
识别上下文向量中与给定均值池化向量之间匹配的第一上下文向量,及识别上下文向量中与给定最大均值池化向量之间匹配的第二上下文向量,拼接第一上下文向量和第二上下文向量得到第二隐藏向量;
根据第一隐藏向量和第二隐藏向量得到全局隐藏向量,包括:
将第一隐藏向量中表征的给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词设为第一字词向量,及将第二隐藏向量中上下文信息传达的情感类型设为第一情感向量;
将第二隐藏向量中表征上下文信息中与给定方面传达的关键内容匹配的上下文字词设为第二字词向量,及将第二隐藏向量中第二字词对应的情感类型设为第二情感向量;
拼接第一字词向量和第二字词向量得到给定上下文向量,汇总第一情感向量和第二情感向量得到情感集合,其中,情感集合中具有至少一个表征情感类型的情感特征向量;
计算各情感特征向量与给定上下文向量之间的匹配概率,将匹配概率与情感特征向量拼接形成目标情感向量,汇总至少一个目标情感向量得到全局隐藏向量。
本实例中,通过得到第一上下文向量和第二上下文向量,得到给定方面中与上下文信息在均值池化处理前提下传达的关键内容和情感类型匹配的给定字词,及上下文信息传达的情感类型,以及给定方面中与上下文信息在最大池化处理前提下传达的关键内容和情感类型匹配的给定字词,及上下文信息传达的情感类型,实现将给定方面与分别进行均值池化和最大池化的上下文信息进行比对,确保给定方面与上下文信息之间比对的全面性,避免了上下文信息丢失重要信息造成比对准确度低下的情况发生。
通过得到第一给定向量和第二给定向量,得到上下文信息中在与给定方面均值池化处理前提下传达的关键内容匹配的上下文字词,及上下文字词传达的情感类型,以及上下文信息中与给定方面在最大池化处理前提下传达的关键内容匹配的上下文字词,及上下文字词传达的情感类型,实现将上下文信息与分别进行均值池化和最大池化的给定方面进行比对,确保给定方面与上下文信息之间比对的全面性,避免了给定方面丢失重要信息造成比对准确度低下的情况发生。
本实例中的匹配是基于Soft attention和/或Hard attention,将两个相同和/或相似的对象(例如:向量、字词)设为相互匹配的对象;其中,Hard attention是直接从输入句子里面找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其它输入句子中的单词硬性地认为对齐概率为0,这就是Hard Attention Model的思想。Hard AM在图像里证明有用,但是在文本里面用处不大,因为这种单词一一对齐明显要求太高,如果对不齐对后续处理负面影响很大。Soft attention是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。
本实例中的匹配概率表征了各情感特征向量对应的情感类型,与给定方面和上下文信息整体上的贴合程度。于本实施例中,匹配概率是通过预置的全局全连接层进行对各情感类型进行分类及权重计算所获得。
S104:根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量;其中,局部隐藏向量表征文本数据对给定方面中各主体的局部情感;一个主体对应给定方面中的一个给定字词。
这里考虑到之前的模型都仅仅是粗粒度的进行交互,当给定方面的给定字词中包含了多个单词作为输入时,信息交互的效果将会变的很差。比如给出一个给定方面的给定字词“piece of cake”中,我们肯定希望词“of”的贡献权重应该小于其他两个单词,这样才能在交互中不影响到情感词的识别。因此,考虑到给定字词和上下文字词之间的交互会因方面中的多个单词产生不同的影响力。本申请在提出从全局角度比对上下文信息和给定方面并获得全局隐藏向量的前提下,还提出从局部角度将给定方面中的给定字词,与上下文信息中的上下文字词进行比对,得到表征给定字词的情感类型的上下文字词及其权重的局部隐藏向量,实现在方面级甚至词汇级粒度上,获取用户对给定方面的情绪的信息。
在一个优选的实施例中,根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量,包括:
根据给定向量中至少一个给定特征构建至少一个注意目标,根据上下文向量构建来源数据和上下文数据;其中,来源数据是上下文向量中与注意目标对应的上下文特征,上下文数据是来源数据周围预置范围内的上下文特征;
将一个注意目标设为当前目标,识别与当前目标对应的来源数据,及获取与来源数据之间具有关联关系的至少一个上下文数据,并将至少一个上下文数据作为当前目标的至少一个关联特征;
根据预置的权重向量依次计算关联特征与当前目标之间的相关程度,并得到至少一个相关向量;其中,相关向量表征关联特征对应的上下文字词对当前目标对应的给定字词传达的情感类型的情感权重;情感权重表征情感类型对当前目标对应的给定字词的情感影响程度;
拼接给定向量中所有给定特征及其相关向量,得到反映给定方面中各给定字词的局部情感类型的局部隐藏向量。
本实例中,通过方面-上下文编码器实现方面与上下文之间词级的交互,计算彼此的注意力权值。具体地,通过方面-上下文编码器和预置在该编码器中的注意力权重向量根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量;其中,注意力权重向量是由训练获得。
另外,本实例还可通过将给定向量作为注意力机制中的query值(注意目标),将提取到的上下文特征看作Key值和Value值(上下文数据)输入,将query值和key值进行相似度计算,得到权值(相关向量);将权值进行归一化,得到直接可用的权重;将权重和value值进行加权求和得到局部隐藏向量。
S105:根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息。
本步骤根据全局隐藏向量和局部隐藏向量,从全局和局部两个角度综合获得用户对给定方面的情感类型,并根据两个角度的情感类型获得能够准确表征用户对给定方面的情感态度的情感信息,提高了舆情情感分析的准确度。
考虑到模型利用注意力机制去获得交互信息时,会忽略掉输入序列的顺序信息特征。所以在输入向量中引入了两种位置注意机制。第一种位置编码被添加到全局注意力机制的输入中,考虑句中单词的相对位置。在局部注意力模块中需要考虑上下文中给定方面的给定字词周围词句的权重影响,因此使用了第二个位置编码信息,使得给定方面的给定字词周围的上下文单词应该比远离该给定方面的给定字词的上下文影响更大。
在一个优选的实施例中,根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息,包括:
根据全局隐藏向量计算用户生成的上下文信息,对给定方面的第一情感类型和第一情感概率;其中,第一情感类型表征文本数据通过上下文信息对给定方面传达的整体情感;第一情感概率表征文本数据传达的整体情感中各情感类型的概率;
根据局部隐藏向量计算用户生成的上下文信息,对给定方面中各给定字词的第二情感类型和第二情感概率;其中,第二情感类型表征文本数据通过上下文信息对给定方面中各主体分别传达的局部情感;第二情感概率表征文本数据传达的局部情感中各情感类型的概率;
根据第一情感类型及其第一情感概率,和第二情感类型及其第二情感概率,得到用户对给定方面的情感信息。
本实例中,通过预置的全连接层对最后拼接注意力模块和局部注意力模块的输出得到向量,并依次送入一个全连接层,得到最终对舆情事件方面词的情感预测。全连接层用于根据全局隐藏向量计算用户生成的上下文信息,对给定方面的第一情感类型和第一情感概率;及用于根据局部隐藏向量计算用户生成的上下文信息,对给定方面中各给定字词的第二情感类型和第二情感概率;根据第一情感类型及其第一情感概率,和第二情感类型及其第二情感概率,得到用户对给定方面的情感信息。其中该全连接层使用的损失函数由L2正则化和交叉熵损失函数组成。
全连接层(fully connected layers,FC)全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来,并根据接收到的全局隐藏向量和局部隐藏向量,对用户的情感类型进行预测。
L2正则化是公式非常简单,直接在原来的损失函数基础上加上权重参数的平方和:其中,Ein是未包含正则化项的训练样本误差,λ是正则化参数,可调。
交叉熵损失函数CrossEntropy Loss,是分类问题中经常使用的一种损失函数。公式为:交叉熵Cross Entropy,是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。
实施例2:
请参阅图2,本申请提供一种情感分析处理装置1,包括:
识别模块11,用于获取文本数据的上下文信息,识别上下文信息中的给定方面;其中,上下文信息是记载有用户情感的内容,给定方面是用于被分析情感的主体;
输入层模块12,用于对上下文信息进行向量化处理得到上下文向量,及对给定方面进行向量化处理得到给定向量;其中,给定向量表征文本数据中被分析情感的主体,上下文向量表征文本数据中记载有用户情感的内容;
全局注意力模块13,用于根据上下文向量和给定向量,识别给定方面在上下文信息中传达的情感类型得到全局隐藏向量;其中,全局隐藏向量表征文本数据对给定方面的整体情感;
局部注意力模块14,用于根据上下文向量和给定向量,识别上下文信息内表达给定方面中给定字词的情感类型的上下文字词,并生成反映各给定字词的情感类型的局部隐藏向量;其中,局部隐藏向量表征文本数据对给定方面中各主体的局部情感;一个主体对应给定方面中的一个给定字词;
全局注意力模块15,用于根据全局隐藏向量和局部隐藏向量,识别生成上下文信息的用户对给定方面的情感信息。
请参阅图3,图3提供了实施例2中情感分析处理装置中的输入层模块、全局注意力模块、局部注意力模块、全连接模块,与实施例1中涉及的向量、注意力机制、编码器之间的交互模块图。
实施例3:
为实现上述目的,本申请还提供一种计算机设备2,包括:处理器22以及与处理器22通信连接的存储器21;存储器21存储计算机执行指令;
处理器执行存储器21存储的计算机执行指令,以实现上述的情感分析处理方法,其中,情感分析处理装置的组成部分可分散于不同的计算机设备中,计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图4所示。需要指出的是,图4仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的情感分析处理装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行情感分析处理装置,以实现上述实施例的情感分析处理方法。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
为实现上述目的,本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机执行指令,程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现情感分析处理方法的计算机执行指令,被处理器22执行时实现上述实施例的情感分析处理方法。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述的情感分析处理方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种情感分析处理方法,其特征在于,包括:
获取文本数据的上下文信息,识别所述上下文信息中的给定方面;其中,所述上下文信息是记载有用户情感的内容,所述给定方面是用于被分析情感的主体;
对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量;其中,所述给定向量表征所述文本数据中被分析情感的主体,所述上下文向量表征所述文本数据中记载有用户情感的内容;
根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量;其中,所述全局隐藏向量表征所述文本数据对给定方面的整体情感;
根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量;其中,所述局部隐藏向量表征所述文本数据对所述给定方面中各主体的局部情感;一个所述主体对应所述给定方面中的一个给定字词;
根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息。
2.根据权利要求1所述的情感分析处理方法,其特征在于,所述对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量,包括:
对所述上下文信息进行编码处理得到上下文矩阵,根据所述上下文矩阵生成上下文向量;其中,所述上下文矩阵中至少具有一个上下文特征;所述上下文向量记载了所述上下文矩阵中任一上下文特征,以及所述任一上下文体征与所述上下文矩阵中其他上下文特征之间关联关系的隐藏特征;
对所述给定信息进行编码处理得到给定矩阵,根据所述给定矩阵生成给定向量;其中,所述给定矩阵中至少具有一个给定特征;所述给定向量记载了所述给定矩阵中任一给定特征,以及所述任一给定体征与所述给定矩阵中其他给定特征之间关联关系的隐藏特征。
3.根据权利要求1所述的情感分析处理方法,其特征在于,所述根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量,包括:
对所述上下文向量进行池化处理得到上下文池化向量,及对所述给定向量进行池化处理得到给定池化向量;其中,所述上下文池化向量表征了所述文本数据通过所述上下文信息传达的关键内容和情感类型,所述给定池化向量表征了所述文本数据通过所述给定方面传达的关键内容;
根据所述给定向量和所述上下文池化向量生成第一隐藏向量;其中,所述第一隐藏向量是所述给定向量中与所述上下文池化向量之间匹配的特征向量,所述第一隐藏向量表征了所述给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词,及所述上下文信息传达的情感类型;
根据所述给定池化向量和所述上下文向量生成第二隐藏向量;其中,所述第二隐藏向量是所述上下文向量中与所述给定池化向量之间匹配的特征向量;所述第二隐藏向量表征了所述上下文信息中与所述给定方面传达的关键内容匹配的上下文字词及其情感类型;
根据所述第一隐藏向量和所述第二隐藏向量得到所述全局隐藏向量;其中,所述全局隐藏向量通过表征所述上下文信息传达的与所述给定方面匹配的情感类型,表征所述文本数据对给定方面的整体情感。
4.根据权利要求3所述的情感分析处理方法,其特征在于,所述对所述上下文向量进行池化处理得到上下文池化向量,及对所述给定向量进行池化处理得到给定池化向量,包括:
对所述上下文向量进行均值池化处理得到上下文均值池化向量,对所述上下文向量进行最大池化处理得到上下文最大池化向量,拼接所述上下文均值池化向量和所述上下文最大池化向量得到所述上下文池化向量;
对所述给定向量进行均值池化处理得到给定均值池化向量,对所述给定向量进行最大池化处理得到给定最大池化向量,拼接所述给定均值池化向量和所述给定最大池化向量得到所述给定池化向量。
5.根据权利要求4所述的情感分析处理方法,其特征在于,所述根据所述给定向量和所述上下文池化向量生成第一隐藏向量,包括:
识别所述给定向量中与所述上下文均值池化向量之间匹配的第一给定向量,及识别所述给定向量中与所述上下文最大池化向量之间匹配的第二给定向量,拼接所述第一给定向量和所述第二给定向量得到第一隐藏向量;
所述根据所述给定池化向量和所述上下文向量生成第二隐藏向量,包括:
识别所述上下文向量中与所述给定均值池化向量之间匹配的第一上下文向量,及识别所述上下文向量中与所述给定最大均值池化向量之间匹配的第二上下文向量,拼接所述第一上下文向量和所述第二上下文向量得到第二隐藏向量;
所述根据所述第一隐藏向量和所述第二隐藏向量得到所述全局隐藏向量,包括:
将第一隐藏向量中表征的所述给定方面中与上下文信息传达的关键内容和情感类型匹配的给定字词设为第一字词向量,及将第二隐藏向量中所述上下文信息传达的情感类型设为第一情感向量;
将第二隐藏向量中表征所述上下文信息中与所述给定方面传达的关键内容匹配的上下文字词设为第二字词向量,及将第二隐藏向量中所述第二字词对应的情感类型设为第二情感向量;
拼接所述第一字词向量和所述第二字词向量得到给定上下文向量,汇总所述第一情感向量和所述第二情感向量得到情感集合,其中,所述情感集合中具有至少一个表征情感类型的情感特征向量;
计算各所述情感特征向量与所述给定上下文向量之间的匹配概率,将所述匹配概率与所述情感特征向量拼接形成目标情感向量,汇总至少一个目标情感向量得到全局隐藏向量。
6.根据权利要求1所述的情感分析处理方法,其特征在于,所述根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量,包括:
根据所述给定向量中至少一个给定特征构建至少一个注意目标,根据所述上下文向量构建来源数据和上下文数据;其中,所述来源数据是所述上下文向量中与所述注意目标对应的上下文特征,所述上下文数据是所述来源数据周围预置范围内的上下文特征;
将一个注意目标设为当前目标,识别与所述当前目标对应的来源数据,及获取与所述来源数据之间具有关联关系的至少一个上下文数据,并将所述至少一个上下文数据作为所述当前目标的至少一个关联特征;
根据预置的权重向量依次计算所述关联特征与所述当前目标之间的相关程度,并得到至少一个相关向量;其中,所述相关向量表征所述关联特征对应的上下文字词对当前目标对应的给定字词传达的情感类型的情感权重;所述情感权重表征所述情感类型对所述当前目标对应的给定字词的情感影响程度;
拼接所述给定向量中所有给定特征及其相关向量,得到反映所述给定方面中各所述给定字词的局部情感类型的局部隐藏向量。
7.根据权利要求1-6中任一所述的情感分析处理方法,其特征在于,所述根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息,包括:
根据所述全局隐藏向量计算用户生成的上下文信息,对所述给定方面的第一情感类型和第一情感概率;其中,所述第一情感类型表征所述文本数据通过所述上下文信息对所述给定方面传达的整体情感;所述第一情感概率表征所述文本数据传达的所述整体情感中各情感类型的概率;
根据所述局部隐藏向量计算所述用户生成的上下文信息,对所述给定方面中各给定字词的第二情感类型和第二情感概率;其中,所述第二情感类型表征所述文本数据通过所述上下文信息对所述给定方面中各主体分别传达的局部情感;所述第二情感概率表征所述文本数据传达的所述局部情感中各情感类型的概率;
根据所述第一情感类型及其第一情感概率,和所述第二情感类型及其第二情感概率,得到所述用户对所述给定方面的情感信息。
8.一种情感分析处理装置,其特征在于,包括:
识别模块,用于获取文本数据的上下文信息,识别所述上下文信息中的给定方面;其中,所述上下文信息是记载有用户情感的内容,所述给定方面是用于被分析情感的主体;
输入层模块,用于对所述上下文信息进行向量化处理得到上下文向量,及对所述给定方面进行向量化处理得到给定向量;其中,所述给定向量表征所述文本数据中被分析情感的主体,所述上下文向量表征所述文本数据中记载有用户情感的内容;
全局注意力模块,用于根据所述上下文向量和所述给定向量,识别所述给定方面在所述上下文信息中传达的情感类型得到全局隐藏向量;其中,所述全局隐藏向量表征所述文本数据对给定方面的整体情感;
局部注意力模块,用于根据所述上下文向量和所述给定向量,识别所述上下文信息内表达所述给定方面中给定字词的情感类型的上下文字词,并生成反映各所述给定字词的情感类型的局部隐藏向量;其中,所述局部隐藏向量表征所述文本数据对所述给定方面中各主体的局部情感;一个所述主体对应所述给定方面中的一个给定字词;
全局注意力模块,用于根据所述全局隐藏向量和所述局部隐藏向量,识别生成所述上下文信息的用户对所述给定方面的情感信息。
9.一种计算机设备,其特征在于,包括:处理器以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7任一项所述的情感分析处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的情感分析处理方法。
CN202211447485.XA 2022-11-18 2022-11-18 情感分析处理方法、装置、计算机设备及可读存储介质 Pending CN115964485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211447485.XA CN115964485A (zh) 2022-11-18 2022-11-18 情感分析处理方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211447485.XA CN115964485A (zh) 2022-11-18 2022-11-18 情感分析处理方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115964485A true CN115964485A (zh) 2023-04-14

Family

ID=87360638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211447485.XA Pending CN115964485A (zh) 2022-11-18 2022-11-18 情感分析处理方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115964485A (zh)

Similar Documents

Publication Publication Date Title
Nousi et al. Machine learning for forecasting mid-price movements using limit order book data
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
US20230032728A1 (en) Method and apparatus for recognizing multimedia content
Peng et al. An improvement to linear regression classification for face recognition
Cerchiello et al. Deep learning bank distress from news and numerical financial data
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
Tao et al. Analysing forward-looking statements in initial public offering prospectuses: a text analytics approach
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
Andriyanov Combining Text and Image Analysis Methods for Solving Multimodal Classification Problems
KR102363958B1 (ko) 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램
CN115964485A (zh) 情感分析处理方法、装置、计算机设备及可读存储介质
Rasheed et al. Review of iris segmentation and recognition using deep learning to improve biometric application
KR102348689B1 (ko) 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
CN114625960A (zh) 线上考评方法、装置、电子设备及存储介质
CN114282542A (zh) 网络舆情监控方法及设备
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
Al-Mansouri et al. Using artificial neural networks and sentiment analysis to predict upward movements in stock price
CN115840817A (zh) 基于对比学习的信息聚类处理方法、装置和计算机设备
CN113515935A (zh) 一种标题生成方法、装置、终端及介质
Hu et al. Transformer-based adaptive contrastive learning for multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination