CN114386433A

CN114386433A - 基于情感分析的数据处理方法、装置、设备及存储介质

Info

Publication number: CN114386433A
Application number: CN202210030752.7A
Authority: CN
Inventors: 梅志文; 王浩; 钱佳鹏; 张真
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-04-22

Abstract

本发明实施例公开了一种基于情感分析的数据处理方法、装置、设备及存储介质，方法包括：获取目标日期的金融领域评论文本数据；将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。本发明实施例的技术方案能够实现对金融领域情感数据的自动化分析处理，提高金融领域情感数据分析处理的准确性和高效性，进而提高金融领域情感数据的指导性和应用性。

Description

基于情感分析的数据处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理分析技术领域，尤其涉及一种基于情感分析的数据处理方法、装置、设备及存储介质。

背景技术

目前，互联网领域产生的互联网以及企业数据处理平台生成的数据具有海量性、实时性和动态变化性的特点，所以数据的处理任务大小也具备动态变化特征，对大量数据进行处理分析，能够满足多维度场景需求，以数据驱动业务迭代。

在对数据进行处理分析时，引入用户情感数据因素，可以深入了解用户对服务、产品以及市场或社会动态的看法。了解用户的情感并加以利用，能够有效地提升服务或产品的用户体验，或者对市场或社会动态进行了解和预测，从而有效推动服务或产品的良性发展，对市场或社会起到积极的推动作用。

然而，现有引入用户情感数据因素的数据处理分析领域往往仅限于APP(Application，应用程序)类产品、服务或者社会舆情方面的情感数据，如用户在某类社交类的APP的评论数据等，用户情感表达直白且通俗易懂，这类情感数据的处理分析较为简单。金融领域的产品具有专业性强的特点，需要专业人士集中处理分析，如通过构建专业词典的方式对金融领域数据进行分析处理，效率低且准确性不高，且目前暂时没有可以对金融领域的情感数据进行自动处理和分析的产品或方法。

发明内容

本发明实施例提供一种基于情感分析的数据处理方法、装置、设备及存储介质，能够实现对金融领域情感数据的自动化分析处理，提高金融领域情感数据分析处理的准确性和高效性，进而提高金融领域情感数据的指导性和应用性。

第一方面，本发明实施例提供了一种基于情感分析的数据处理方法，包括：

获取目标日期的金融领域评论文本数据；

将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；

根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

第二方面，本发明实施例还提供了一种基于情感分析的数据处理装置，包括：

评论文本数据获取模块，用于获取目标日期的金融领域评论文本数据；

情感分析结果获取模块，将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；

趋向数据生成模块，用于根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的基于情感分析的数据处理方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的基于情感分析的数据处理方法。

本发明实施例通过将获取目标日期的金融领域评论文本数据输入至混合神经网络，以通过混合神经网络自动对目标日期的金融领域评论文本数据进行分析处理，得到目标日期的金融领域评论文本数据的情感分析结果，并根据目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据，解决现有人为对金融领域评论数据进行分析处理存在的数据分析效率低且准确率较差等问题，能够实现对金融领域情感数据的自动化分析处理，提高金融领域情感数据分析处理的准确性和高效性，进而提高金融领域情感数据的指导性和应用性。

附图说明

图1是本发明实施例一提供的一种基于情感分析的数据处理方法的流程图；

图2是本发明实施例二提供的一种基于情感分析的数据处理方法的流程图；

图3是本发明实施例二提供的一种卷积神经网络与K-Max池化层融合的网络结构示意图；

图4是GRU的结构示意图；

图5是本发明实施例二提供的一种混合神经网络的结构示意图；

图6是本发明实施例二提供的一种股票市场领域的评论情绪指数随日期变化的效果示意图；

图7是本发明实施例三提供的一种基于情感分析的数据处理装置的示意图；

图8为本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

实施例一

图1是本发明实施例一提供的一种基于情感分析的数据处理方法的流程图，本实施例可适用于利用混合神经网络模型自动处理分析金融领域评论数据的情况，该方法可以由金融领域评论装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中，该电子设备可以是终端设备，也可以是服务器设备，本发明实施例并不对电子设备的具体设备类型进行限定。相应的，如图1所示，该方法包括如下操作：

S110、获取目标日期的金融领域评论文本数据。

其中，目标日期可以是生成或获取金融领域的评论数据的任意日期，可以理解的是，目标日期必然为其中的一个历史日期，可选的，目标日期可以历史日期中的某一天或多天。金融领域评论文本数据可以是金融领域生成的评论数据，例如可以是投资理财领域的评论数据，也可以是股票市场的评论数据等，该数据类型可以是文本类型的数据，本发明实施例并不对金融领域评论文本数据所涉及的具体金融领域和数据内容进行限定。

在本发明实施例中，可以获取目标日期的金融领域评论文本数据来对该金融领域评论文本数据所匹配的金融领域的产品、服务或市场等进行分析。具体的，金融领域评论文本数据的获取方式可以是直接从数据库获取原始的文本数据源，也可以是在金融领域互联网数据中采集和处理后生成，例如，采集专家评论语音数据，并对采集的数据进行语音转文本处理，得到金融领域评论文本数据。只要能够获取到目标日期的金融领域评论文本数据即可，本发明实施例并不对金融领域评论文本数据的获取方式进行限定。

S120、将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果。

其中，混合神经网络可以是网络层由不同类型的神经网络模型所构建的一种混合模式的神经网络。混合神经网络可以集结多种不同类型神经网络的优点，充分发挥人工智能的数据分析处理优势对获取的源数据进行自动的分析和处理。情感分析结果可以是混合神经网络对输入的金融领域评论文本数据所包含的用户评论情感的分析结果。

相应的，在得到金融领域评论文本数据之后，无需构建专业词典对金融领域评论文本数据进行人工分析，可以将金融领域评论文本数据直接作为输入数据输入至预先训练完成的混合神经网络中，以充分利用混合神经网络强大的数据处理分析能力对金融领域评论文本数据进行自动处理和分析，具体是对金融领域评论文本数据所包含的用户评论情况进行分析和处理，得到目标日期的金融领域评论文本数据匹配的情感分析结果。

S130、根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

其中，目标关联日期可以是与目标日期所关联的日期，具体可以是目标日期的后续的一个或多个日期。示例性的，假设目标日期为2021.1.1，则目标关联日期可以是2021.1.2或2021.1.2-2021.1.4等，本发明实施例并不对目标关联日期的具体日期天数和日期时间进行限定。金融市场趋向数据可以是金融领域评论文本数据所对应金融产品、服务或市场的导向数据，可以用于预测金融市场的发展趋势。

在本发明实施例中，当通过混合神经网络对金融领域评论文本数据进行自动分析处理，得到情感分析结果后，可以进一步根据混合神经网络输出的目标日期的金融领域评论文本数据的情感分析结果自动生成目标关联日期的金融市场趋向数据。可以理解的是，目标关联日期的金融市场趋向数据可以反应金融领域评论文本数据所对应金融产品、服务或市场的发展导向，因此，可以根据生成得到的目标关联日期的金融市场趋向数据对金融领域评论文本数据所对应金融产品、服务或市场进行按需更新。

在一个具体的例子中，假设金融领域评论文本数据为某一投资理财APP的评论数据，则可以根据混合神经网络对该金融领域评论文本数据输出APP用户对该投资理财APP或APP所提供的产品服务的情感分析结果。示例性的，情感分析结果可以包括但不限于APP的操作体验、APP所提供产品的使用体验以及对该投资理财领域的情感倾向分析等。进一步的，根据混合神经网络输出的情感分析结果可以进一步生成该投资理财APP或APP所提供的产品服务在目标关联日期的金融市场趋向数据，该金融市场趋向数据可以是投资理财APP在用户操作方面的更新改进数据，也可以是对投资理财APP所提供的投资产品进行更新迭代的建议数据，或者还可以是对该投资领域市场的发展趋向进行分析预测的数据等。

在一个具体的例子中，金融领域评论文本数据还可以是股票市场中投资者的评论数据。在互联网时代，当股票市场发生波动时，投资者往往会结合自身的投资状况在网络上发布情绪化的评论。目前相关技术主要集中于投资者情绪与股票特征、证券市场指数、管理层业绩预告策略、开放式基金业绩与激励机制激励效率等相关性方面的研究，而对投资者评论的情感分析研究相对缺乏。然而，投资者评论的情感数据可以度量投资者情绪，进一步的股票的情感数据在一定程度上会反映出股票市场的情绪。因此，可以将股票市场中投资者的评论数据输入至混合神经网络中，通过混合神经网络对非结构性的投资者评论数据进行量化分析，输出股票市场中投资者的评论数据对应的情感分析结果，得到股评情感倾向性数据，进一步根据股评情感倾向性数据生成股票市场的趋向数据，如根据当日投资者的评论数据的情感分析结果预测第二天股票市场行情走向，并对第二天的股票市场行情走向进行可视化统计和展示，用于作为投资决策的参考数据，有利于辅助证券投资用户的良性决策。

例如，投资者评论数据大多为看多或看空的评论数据，证券投资用户通过投资者评论数据的情感分析结果可以获取股票市场的额外信息，往往会更倾向于看多数量多的股票。相应的，可以通过混合神经网络对投资者评论数据进行分析，得到看多看空的情感分析结果，并进一步根据看多和看空的情感分析结果对各个股票的发展趋势进行挖掘和预测，以为证券投资用户决策提供参考支撑。

由此可见，相对于人工分析方式，通过混合神经网络模型对金融领域评论文本数据进行自动地分析处理，不仅能够降低数据处理的时间成本和人力成本，提高金融领域评论文本数据的分析处理效率，而且结合多种人工智能优势的混合神经网络还能提高金融领域评论文本数据分析处理的准确率。同时，在混合神经网络输出金融领域评论文本数据匹配的情感分析结果的基础上生成金融市场趋向数据，该金融市场趋向数据作为作为对金融领域的产品、服务或市场的指导性数据，用以对金融领域的产品、服务或市场进行更新决策，从而推动金融领域的产品、服务或市场的良性发展。

实施例二

图2是本发明实施例二提供的一种基于情感分析的数据处理方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据，以及对混合神经网络模型进行训练的具体可选的实现方式。相应的，如图2所示，本实施例的方法可以包括：

S210、获取目标日期的金融领域评论文本数据。

S220、将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果。

在本发明实施例中，可选的，混合神经网络可以由Word2Vec语言模型、卷积神经网络(Convolutional Neural Networks，CNN)、K-Max池化(K-MaxPooling，K最大池化)层以及循环神经网络(Recurrent Neural Network，RNN)等多种不同的神经网络模型构建而成。可选的，循环神经网络例如可以是GRU(Gate Recurrent Unit，门控循环单元)网络。相应的，混合神经网络具体可以称为AT-KC&BG模型(Attention based K-Max CNN and BiGRUModel)。

其中，Word2Vec语言模型可以使用无监督的方式从大量的文本语料中学习到语义知识，并把词语映射到维度更低的实数向量中，进行分布式表示。经过Word2vec模型处理后语义相近的词在向量空间中几何距离也相近，从而体现出不同词汇间语义的相关性。卷积神经网络相对传统的神经网络拥有较少的参数量，且运算速度更快。CNN网络结构通常由输入层、卷积层、池化层以及全连接层组成。K-Max池化层是全局搜索前top-k个重要元素特征的技术，相对于传统的池化方式能够最大限度地保留语序特征。图3是本发明实施例二提供的一种卷积神经网络与K-Max池化层融合的网络结构示意图。如图3所示，卷积神经网的卷积层输出的数据可以直接输入至K-Max池化层进行池化操作。长短时记忆网络(Long ShortTerm Memory，LSTM)是RNN改造后的网络模型，由于深层的RNN在反向传播和梯度下降计算过程中，会出现梯度消失或梯度爆炸问题。LSTM通过引入一个单元状态，保存长期的状态，通过引入Gate(闸门)机制解决RNN在反向传播和梯度下降计算过程中出现的问题，能更好地获取文本语义的长距离依赖信息。LSTM网络模型包含输入门、遗忘门以及输出门三个门。GRU是LSTM网络的一种变体，如图4所示是GRU的结构示意图，GRU相比LSTM网络少了一个门结构，结构更简单。GRU也可以解决RNN网络中的长依赖问题，其数据处理效果比较理想。

目前，虽然也有相关技术人员采用神经网络对评论数据进行分析处理，但往往采用的神经网络模型较为单一，经常存在无法有效利用数据上文或下文的词语信息，或拼接双向融合特征的能力偏弱等缺点，无法兼备特征提取能力和捕获长距离依赖关系以及突出关键词的重要程度，导致数据处理分析能力较弱，准确率无法保证。本发明实施例通过融入多种不同模型构建混合神经网络，能够充分发挥混合神经网络每个网络层次的数据处理优势，有效解决采用单一类型的神经网络对评论数据进行处理的准确率较低的问题。

在本发明的一个可选实施例中，在所述获取目标日期的金融领域评论文本数据之前，还可以包括：获取金融领域评论文本样本数据；根据所述金融领域评论文本样本数据对所述混合神经网络进行训练。

其中，金融领域评论文本样本数据也即金融领域评论文本的样本数据集。

可以理解的是，在利用混合神经网络对金融领域评论文本数据自动进行数据处理分析之前，首先需要利用样本数据对混合神经网络进行训练，以使混合神经网络具备自动处理分析金融领域评论文本数据的能力。因此，可以获取金融领域评论文本样本数据对混合神经网络进行训练。可选的，可以根据应用需求获取金融领域评论文本的原始数据源，并对原始数据源进行筛选和预处理后，得到可以用于训练混合神经网络的金融领域评论文本样本数据。可选的，可以利用金融领域评论文本样本数据采用有监督的方式对混合神经网络进行训练。因此，金融领域评论文本样本数据可以是带有标注的样本数据。例如，假设金融领域评论文本样本数据为股评样本数据时，可以对看多类型的股评标注为1，对看空类型的股评标注为0。

在本发明的一个可选实施例中，所述根据所述金融领域评论文本样本数据对所述混合神经网络进行训练，可以包括：通过所述混合神经网络的Word2Vec语言模型将所述金融领域评论文本样本数据转换为词向量数据；将所述词向量数据输入至所述混合神经网络的BiGRU网络层，以提取所述词向量数据的双向语义语序信息；将所述双向语义语序信息输入至所述混合神经网络的KCNN(Knowledge-aware CNN，知识感知卷积神经网络)网络层，以提取所述双向语义语序信息的评论样本特征；通过所述混合神经网络的注意力机制更新所述评论样本特征的权重值，得到更新评论样本特征；将所述更新评论样本特征输入至softmax分类器，得到所述金融领域评论文本样本数据的情感分析结果；根据所述情感分析结果确定所述混合神经网络的训练效果，并返回执行获取金融领域评论文本样本数据的操作，直至确定所述混合神经网络训练完成。

其中，双向语义语序信息也即同时包括上下文语义语序的信息。评论样本特征也即对金融领域评论文本样本数据转换得到的词向量数据所提取的特征。更新评论样本特征也即通过注意力机制所计算得到的对情感分析结果影响程度较高的评论样本特征。

图5是本发明实施例二提供的一种混合神经网络的结构示意图。具体的，如图5所示，在对混合神经网络进行训练时，可以通过混合神经网络的Word2Vec语言模型将金融领域评论文本样本数据转换为词向量数据，除此之外，为了进一步提高准确率，还可以同时将金融领域评论文本样本数据转换为字向量数据，后续则同时将词向量数据和字向量数据作为输入输入至混合神经网络的BiGRU网络层。相应的，混合神经网络的BiGRU网络层可以对输入的向量数据提取其包括的双向语义语序信息，该双向语义语序信息也即具有上下文时序的语义信息。可选的，可以采用BiGRU网络层的前向GRU网络层提取前向语义语序特征，也即上文的语义语序特征，并采用BiGRU网络层的后向GRU网络层提取后向语义语序特征，也即下文的语义语序特征。最后将提取得到的前向语义语序特征与后向语义语序特征进行拼接，得到包括评论文本上下文语义的双向语义语序信息。进一步的，可以将获取的双向语义语序信息输入至混合神经网络的KCNN网络层，以提取双向语义语序信息的评论样本特征。在本发明实施例中，可选的，KCNN网络层可以由设定数量的不同卷积核和K-Max池化层构成。其中，设定数量可以根据实际需求设定，如3或5等，本发明实施例并不对设定数量的具体数值进行限定。可选的，每种卷积核的卷积结构可以不同，以提取不同力度的语句长度。进一步的，通过混合神经网络的注意力机制更新评论样本特征的权重值，对重要的评论样本特征进行筛选，得到更新评论样本特征，从而将更新评论样本特征输入至softmax分类器，得到金融领域评论文本样本数据的情感分析结果。如果Word2Vec语言模型仅提取了单一类型的向量，则无需对提取的特征进行其他处理。如果Word2Vec语言模型提取了不同类型的向量，如词向量和字向量，则可以对提取的特征进行拼接融合处理后再进行后续的处理。当混合神经网络输出金融领域评论文本样本数据的情感分析结果之后，可以根据输出情感分析结果和金融领域评论文本样本数据的标注数据通过预设的损失函数计算损失值，以确定混合神经网络的训练效果，如果混合神经网络的训练效果没有达到预期效果，可以返回执行获取金融领域评论文本样本数据的操作，对混合神经网络反复训练，直至确定混合神经网络的训练效果达到预期效果，混合神经网络训练完成。

S230、根据所述目标日期的金融领域评论文本数据的情感分析结果生成所述目标日期的评论情绪指数。

其中，评论情绪指数可以反应用户对所评论金融领域的积极或消极程度。

具体的，根据目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据时，可以首先根据目标日期的金融领域评论文本数据的情感分析结果生成目标日期的评论情绪指数。可选的，评论情绪指数可以以日或小时等为时间单位，统计每日或每时的评论情绪指标。

在本发明的一个可选实施例中，所述根据所述目标日期的金融领域评论文本数据的情感分析结果生成所述目标日期的评论情绪指数，可以包括：

基于如下公式生成所述目标日期的评论情绪指数：

其中，BI表示所述评论情绪指数，M_bult表示所述目标日期的第一评论数量，M_bear表示所述目标日期的第二评论数量。

可选的，第一评论可以是积极评论，如股评中的看多评论，第二评论可以是消极评论，如股评中的看空评论。或者，第一评论可以是消极评论，第二评论可以是积极评论。本发明实施例并不对第一评论和第二评论的评论类型进行限定。假设第一评论为积极评论，第二评论为消极评论，则评论情绪指数的大小和正负情况可以反应用户对所评价金融领域的积极和消极对待程度。可以理解的是，在评论情绪指数为正数的情况下，评论情绪指数的数值越大，表明用户对所评价金融领域的情绪越乐观；反之，在评论情绪指数为负数的情况下，评论情绪指数的数值越大，表明用户对所评价金融领域的情绪越悲观。

通过上述目标日期的评论情绪指数的确定方式可以对连续日期的评论情绪指数进行归纳统计，可以从用户评价角度精准预测分析用户所评价金融领域的发展走向或更新需求。

图6是本发明实施例二提供的一种股票市场领域的评论情绪指数随日期变化的效果示意图。在一个具体的例子中，如图6所示，当评论情绪指数大于0时，表明用户对该股票市场的发展持乐观态度。当评论情绪指数小于0时，表明用户对该股票市场的发展持悲观态度。通过与股票市场的实际股票涨跌数据对比可以发现，股票市场领域的评论情绪指数的分布于对应股票涨跌情况能够基本吻合。由此可见，股票市场领域的评论情绪指数随日期变化的趋势可以在一定程度上精准反应股票的发展情况。

S240、根据所述目标日期的评论情绪指数生成所述目标关联日期的金融市场趋向数据。

由于评论情绪指数可以在一定程度上精准反应用户所评价金融领域的发展走向或更新需求，因此，在得到评论情绪指数之后，可以根据目标日期的评论情绪指数生成所述目标关联日期的金融市场趋向数据。

在一个具体的例子中，可以根据当日或历史一段时期内用户对APP的操作体验评价数据生成评论情绪指数，该评论情绪指数可以反应用户对APP的更新需求，进一步根据该评论情绪数据可以生成某一预设APP更新日期的APP更新指导数据，用以说明需要对APP的哪些功能或数据等进行更新。或者，还可以根据当日或历史一段时期内用户对某股票的评论数据生成评论情绪指数，该评论情绪指数可以反应用户对该股票发展所持有的态度，进一步根据该评论情绪数据可以生成次日股票的发展趋势，用以用户投资参考。

S250、根据设定连续日期的评论情绪指数和预设金融市场移动平均线生成所述设定连续日期的金融市场情感趋向数据。

其中，设定连续日期可以是根据实际需求选定的连续的历史日期。预设金融市场移动平均线可以是金融领域评论文本数据所在金融领域的移动平均线。金融市场情感趋向数据可以是对连续日期的金融市场，尤其是金融证券市场的情感趋向性数据。

可选的，如果金融领域评论文本数据为金融证券领域评论文本数据，则在根据目标日期的评论情绪指数生成目标关联日期的金融市场趋向数据之后，还可以进一步根据设定连续日期的评论情绪指数结合预设金融市场移动平均线生成设定连续日期的金融市场情感趋向数据。

以股票市场领域为例具体说明，投资者在进行投资交易的时候，大多数情况下是根据一个连续时间段的情绪变化去影响股票的买卖动作，因此需要构建一种能反映一段时间情绪变化的指数出来。移动平均线(Moving Average，MA)，是用统计分析的方法，可以将一定时期内的证券价格(指数)加以平均，并把不同时间的平均值连接起来，形成一根MA，用以观察证券价格变动趋势的一种技术指标。在对股票评论文本情感分析得出的单日评论情绪指数的基础上引入移动平均线理论，取设定连续日期(如10日)线来表示一定时间的投资者情感变化趋势。将不同时间段的平均情感指数连起来串成一条线，形成设定连续日期的金融市场情感趋向数据。具体的，移动平均线的表达式可以为：MA＝(C1+C2+C3+...+Cn)/N。其中，C1、C2、C3……Cn分别表示第一天、第二天、第三天……第N天股市的收盘价，N表示天数，也即设定连续日期。可以将C1、C2、C3……Cn分别替换为BI1、BI2、BI3……BIn，也即第一天、第二天、第三天……第N天的评论情绪指数，得到连续N天的股票市场情感趋向数据。进一步的，将N天的上证指数收盘价与同样N天的评论情绪指数分别做z-score)(z分数)标准化处理在进行对比，可以发现两者的数据分布据有强烈的相关性，也即评论情绪指数与股市收盘价之间具有强相关性，可以用于预测股市发展趋势。

上述技术方案，通过混合神经网络的Word2Vec语言模型生成词向量数据，使用BiGRU神经网络提取双向语义和语序信息，避免了一词多义对模型的影响。在混合神经网络的KCNN神经网络中，使用多种不同的卷积核和K-Max池化函数提取特征，并引入注意力机制进行金融领域情感倾向性识别，突出关键特征的重要程度，显著提高了金融领域评论情感分析模型的预测准确率和高效性，进而提高金融领域情感数据的指导性和应用性。

需要说明的是，以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。

实施例三

图7是本发明实施例三提供的一种基于情感分析的数据处理装置的示意图，如图7所示，所述装置包括：评论文本数据获取模块310、情感分析结果获取模块320以及趋向数据生成模块330，其中：

评论文本数据获取模块310，用于获取目标日期的金融领域评论文本数据；

情感分析结果获取模块320，将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；

趋向数据生成模块330，用于根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

可选的，趋向数据生成模块330具体用于：根据所述目标日期的金融领域评论文本数据的情感分析结果生成所述目标日期的评论情绪指数；根据所述目标日期的评论情绪指数生成所述目标关联日期的金融市场趋向数据；其中，所述金融领域评论文本数据包括金融证券领域评论文本数据，所述装置还包括情感趋向数据生成模块，用于根据设定连续日期的评论情绪指数和预设金融市场移动平均线生成所述设定连续日期的金融市场情感趋向数据。

可选的，趋向数据生成模块330具体用于：基于如下公式生成所述目标日期的评论情绪指数：

可选的，所述装置还包括：样本数据获取模块，用于获取金融领域评论文本样本数据；网络训练模块，用于根据所述金融领域评论文本样本数据对所述混合神经网络进行训练。

可选的，网络训练模块具体用于：通过所述混合神经网络的Word2Vec语言模型将所述金融领域评论文本样本数据转换为词向量数据；将所述词向量数据输入至所述混合神经网络的BiGRU网络层，以提取所述词向量数据的双向语义语序信息；将所述双向语义语序信息输入至所述混合神经网络的KCNN网络层，以提取所述双向语义语序信息的评论样本特征；通过所述混合神经网络的注意力机制更新所述评论样本特征的权重值，得到更新评论样本特征；将所述更新评论样本特征输入至softmax分类器，得到所述金融领域评论文本样本数据的情感分析结果；根据所述情感分析结果确定所述混合神经网络的训练效果，并返回执行获取金融领域评论文本样本数据的操作，直至确定所述混合神经网络训练完成。

可选的，所述KCNN网络层由设定数量的不同卷积核和K-Max池化层构成。

可选的，网络训练模块具体用于：采用所述BiGRU网络层的前向GRU网络层提取前向语义语序特征；采用所述BiGRU网络层的后向GRU网络层提取后向语义语序特征；将所述前向语义语序特征与所述后向语义语序特征进行拼接，得到包括评论文本上下文语义的双向语义语序信息。

上述基于情感分析的数据处理装置可执行本发明任意实施例所提供的基于情感分析的数据处理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的基于情感分析的数据处理方法。

由于上述所介绍的基于情感分析的数据处理装置为可以执行本发明实施例中的基于情感分析的数据处理方法的装置，故而基于本发明实施例中所介绍的基于情感分析的数据处理方法，本领域所属技术人员能够了解本实施例的基于情感分析的数据处理装置的具体实施方式以及其各种变化形式，所以在此对于该基于情感分析的数据处理装置如何实现本发明实施例中的基于情感分析的数据处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中基于情感分析的数据处理方法所采用的装置，都属于本申请所欲保护的范围。

实施例四

图8为本发明实施例四提供的一种电子设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图8显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图8中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，实现本发明实施例所提供的基于情感分析的数据处理方法：获取目标日期的金融领域评论文本数据；将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

实施例五

本发明实施例五还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的基于情感分析的数据处理方法：获取目标日期的金融领域评论文本数据；将所述金融领域评论文本数据输入至混合神经网络，得到所述目标日期的金融领域评论文本数据的情感分析结果；根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read OnlyMemory，EPROM，或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于情感分析的数据处理方法，其特征在于，包括：

获取目标日期的金融领域评论文本数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标日期的金融领域评论文本数据的情感分析结果生成目标关联日期的金融市场趋向数据，包括：

根据所述目标日期的金融领域评论文本数据的情感分析结果生成所述目标日期的评论情绪指数；

根据所述目标日期的评论情绪指数生成所述目标关联日期的金融市场趋向数据；

其中，所述金融领域评论文本数据包括金融证券领域评论文本数据，所述方法还包括：

根据设定连续日期的评论情绪指数和预设金融市场移动平均线生成所述设定连续日期的金融市场情感趋向数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标日期的金融领域评论文本数据的情感分析结果生成所述目标日期的评论情绪指数，包括：

基于如下公式生成所述目标日期的评论情绪指数：

4.根据权利要求1所述的方法，其特征在于，在所述获取目标日期的金融领域评论文本数据之前，还包括：

获取金融领域评论文本样本数据；

根据所述金融领域评论文本样本数据对所述混合神经网络进行训练。

5.根据权利要求4所述的方法，其特征在于，所述根据所述金融领域评论文本样本数据对所述混合神经网络进行训练，包括：

通过所述混合神经网络的Word2Vec语言模型将所述金融领域评论文本样本数据转换为词向量数据；

将所述词向量数据输入至所述混合神经网络的BiGRU网络层，以提取所述词向量数据的双向语义语序信息；

将所述双向语义语序信息输入至所述混合神经网络的KCNN网络层，以提取所述双向语义语序信息的评论样本特征；

通过所述混合神经网络的注意力机制更新所述评论样本特征的权重值，得到更新评论样本特征；

将所述更新评论样本特征输入至softmax分类器，得到所述金融领域评论文本样本数据的情感分析结果；

根据所述情感分析结果确定所述混合神经网络的训练效果，并返回执行获取金融领域评论文本样本数据的操作，直至确定所述混合神经网络训练完成。

6.根据权利要求5所述的方法，其特征在于，所述KCNN网络层由设定数量的不同卷积核和K-Max池化层构成。

7.根据权利要求5所述的方法，其特征在于，所述将所述词向量数据输入至所述混合神经网络的BiGRU网络层，以提取所述词向量数据的双向语义语序信息，包括：

采用所述BiGRU网络层的前向GRU网络层提取前向语义语序特征；

采用所述BiGRU网络层的后向GRU网络层提取后向语义语序特征；

将所述前向语义语序特征与所述后向语义语序特征进行拼接，得到包括评论文本上下文语义的双向语义语序信息。

8.一种基于情感分析的数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器执行所述计算机程序时实现如权利要求1-7中任一所述的基于情感分析的数据处理方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的基于情感分析的数据处理方法。