CN110298403B

CN110298403B - 一种财经新闻中企业主体的情感分析方法和系统

Info

Publication number: CN110298403B
Application number: CN201910590710.7A
Authority: CN
Inventors: 高正杰; 郭刚; 郭敏; 陈涵昱; 喻娇; 贺晶莹
Original assignee: Beijing Financial Big Data Co ltd
Current assignee: Beijing Financial Big Data Co ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2023-12-12
Anticipated expiration: 2039-07-02
Also published as: CN110298403A

Abstract

本发明涉及一种财经新闻中企业主体的情感分析方法和系统，所述方法包括以下步骤：S1：采集新闻数据，根据所述采集的新闻数据进行模型训练，得到分类预测模型；S2：将待分类的新闻数据输入所述分类预测模型，对所述待分类的新闻数据中的企业主体的情感标签进行分类预测。本发明基于更先进的文本表示模型BERT和双存储结构的记忆网络模型设计而得，分类准确率更高，同时不需要领域专家制定规则模板提取额外的特征，减少了人工成本，便于维护。

Description

一种财经新闻中企业主体的情感分析方法和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种财经新闻中企业主体的情感分析方法和系统。

背景技术

伴随着互联网技术的高速发展，新闻的生成速度远超过人类手工可以处理的速度，因此利用计算机对海量数据进行挖掘处理成为必要。在金融领域中，财经新闻对于评测企业的信用风险有十分重要的作用，通过对财经新闻中企业主体的情感进行分类(通常为正面、负面和中性三类)，可以有效了解到企业的正面或负面报道，从而为进一步调整企业的信用风险评级提供了基础。

在财经新闻中，针对特定企业主体进行情感分析的方法有三大类：基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。

基于情感词典的方法通过语言学专家人工构建和维护由情感词汇组成的词典，称之为情感词典，对新闻中出现的情感词进行综合评估，从而确定文本的情感倾向(正面、负面和中性)。这类方法需要耗费大量的人力物力，需要领域专家进行长期维护，且在财经新闻中对于情感倾向的表达更多借助的是非情感词汇，即“同比增长”、“同比下降”等字样进行表达，这导致情感词典的方式在财经新闻这样一个特定领域中的分类效果不好。

基于机器学习的方法是通过领域专家制定一些规则模板提取出文本中依赖于企业主体的特征集合，然后将特征用于训练分类器，常用的分类器有支持向量机、朴素贝叶斯、最大熵等等。这类方法需要人工构建大量的特征工程，不同的特征选择方法会造成结果的差异较大，在不同的数据集上也可能有差异很大的表现，模型的迁移效果和泛化能力均面临较大困难。另外，传统方法多采用词袋模型，无法表示词语间的关系以及上下文信息。对于不同领域的任务，例如电影、旅游等领域，均需要领域专家重新制定规则和计算机从业人员重新调试模型。

基于深度学习的方法是目前使用得最广泛的方法，其利用多层神经网络自动学习和提取文本的高层语义特征。通过词嵌入(Word Embedding)的方式对原文和企业主体名称进行词向量表示，然后借助于神经网络模型，例如循环神经网络(RNN)，卷积神经网络(CNN)，记忆网络(Memory Network,MemNet)，注意力机制(Attention Mechanism)等，对企业主体及其所处上下文进行关系建模，提取其情感倾向特征，然后利用softmax进行分类。

基于深度学习的方法是目前工业界和学术界使用与研究的主流方法。对于细粒度情感分类问题，目前的研究主要还停留在句子级别，而针对财经新闻中企业主体的情感分类任务，属于是篇章级的细粒度情感分类问题，仍少有研究人员涉足。通常在处理时，会将整个文章的情感倾向作为企业主体的情感倾向，显然这是十分不合理的。当一篇文章中既报道了公司A，又报道了公司B，甚至报道了更多公司的时候，他们的情感倾向完全可以是不一样的，例如该文章对于A来说为负面新闻，对于B来说是正面新闻，对于C来说是中性新闻，若是仅仅都分类为负面，或都为正面，都是不合理的分类结果，所以进一步深层次挖掘新闻中企业主体对应的情感倾向是非常有必要的。

相比于句子级别任务中待分类目标主体通常只会出现一次，财经新闻中企业的名称会反复出现，其情感倾向的表达往往需要对全文有综合的考虑，对于深度学习模型而言需要具备更加长程的记忆依赖效果。以前常用的长短期记忆网络(LSTM)虽然在循环神经网络(RNN)的基础上通过门控机制有效改善了RNN梯度消失的问题，但是其记忆效果的提升也是十分有限的，涉及到情感分析这样的自然语言推理任务的时候，就显得颇为无力。

发明内容

针对现有技术的缺陷，本发明提出一种财经新闻中企业主体的情感分析方法和系统，在记忆网络的基础上，结合双存储模块的特点，有效将财经新闻本身与文章中的关键句进行拆分处理，可以有效提高模型的长程依赖能力和逻辑推理能力，对分类准确率的提高起到了关键性的作用。

为实现上述目的，本发明提供了一种财经新闻中企业主体的情感分析方法，所述方法包括以下步骤：

S1：采集新闻数据，根据所述采集的新闻数据进行模型训练，得到分类预测模型；

S2：将待分类的新闻数据输入所述分类预测模型，对所述待分类的新闻数据中的企业主体的情感标签进行分类预测。

根据本发明的另一方面，所述步骤S1包括：利用爬虫技术采集财经新闻数据；对需要关注的企业的名称进行汇总成表。

根据本发明的另一方面，所述步骤S1包括：利用企业名称表去匹配识别新闻N＝{S₁,S₂,…,S_n}中出现的企业主体T及其所在的句子S_t，并将这些句子构成集合ST＝{S_t1,S_t2,…,S_tm}，其中n表示新闻N由n个句子构成，m表示新闻N包含企业主体T的句子总共有m个。

根据本发明的另一方面，所述步骤S1包括：对新闻中企业主体进行情感倾向性标注，所述标注的标签L分为正面、负面、中性三类，并将标注所得的数据作为训练和测试模型的标准数据集。

根据本发明的另一方面，所述步骤S1包括：按照预定比例从所述数据集中获取训练样本和测试样本Sample＝(N,ST,T,L)；将文本输入到BERT模型中，取BERT模型最后一层的隐藏层输出作为文本的词向量表示。

根据本发明的另一方面，所述步骤S1包括：将新闻全文N利用深度学习网络进行编码后放入模型的主存储器，处理后获得的每个句子的向量表示存入其中的主存储模块；将企业主体所在句子S利用深度学习网络进行编码后放入辅助存储器，处理后获得的句子向量存入其中的辅助存储模块，其中，对主存储模块与辅助存储模块采用不同的编码方式。

根据本发明的另一方面，所述步骤S1包括：利用多跳机制，在所述主存储器和所述辅助存储器中多次同时检索企业主体T的情感特征，并用GRU网络将所述情感特征进行非线性组合，输入到softmax层中进行分类。

根据本发明的另一方面，所述步骤S1包括：利用交叉熵计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算；当所述损失函数的损失值loss在连续多个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

本发明还提供了一种财经新闻中企业主体的情感分析系统，所述系统包括数据抓取模块、模型训练模块、标签分类预测模块；

所述数据抓取模块，用于利用爬虫技术采集财经新闻数据；

所述模型训练模块，用于按照预定比例从所述数据集中获取训练样本和测试样本Sample＝(N,ST,T,L)；将文本输入到BERT模型中，取BERT模型最后一层的隐藏层输出作为文本的词向量表示；

将新闻全文N利用深度学习网络进行编码后放入模型的主存储器，处理后获得的每个句子的向量表示存入其中的主存储模块；将企业主体所在句子S利用深度学习网络进行编码后放入辅助存储器，处理后获得的句子向量存入其中的辅助存储模块；其中，对主存储模块与辅助存储模块采用不同的编码方式；

利用多跳机制，在所述主存储器和所述辅助存储器中多次同时检索企业主体T的情感特征，并用GRU网络将所述情感特征进行非线性组合，输入到softmax层中进行分类；

利用交叉熵计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算；当所述损失函数的损失值loss在连续多个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

所述标签分类预测模块，用于将待分类的新闻数据输入所述分类预测模型，对所述待分类的新闻数据中的企业主体的情感标签进行分类预测。

根据本发明的另一方面，在所述模型训练模块对模型进行训练之前，对所述数据抓取模块抓取的数据进行以下处理：

对需要关注的企业的名称进行汇总成表；

利用企业名称表去匹配识别新闻N＝{S₁,S₂,…,S_n}中出现的企业主体T及其所在的句子S_t，并将这些句子构成集合ST＝{S_t1,S_t2,…,S_tm}，其中n表示新闻N由n个句子构成，m表示新闻N包含企业主体T的句子总共有m个；

对新闻中企业主体进行情感倾向性标注，所述标注的标签L分为正面、负面、中性三类，并将标注所得的数据作为训练和测试模型的标准数据集。

本发明提供的财经新闻中企业主体的情感分析方法和系统，相对于传统的机器学习方法和简单的使用CNN以及Bi-LSTM网络编码处理的方法，本发明基于更先进的文本表示模型BERT和双存储结构的记忆网络模型设计而得，分类准确率更高，同时不需要领域专家制定规则模板提取额外的特征，减少了人工成本，便于维护。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是本发明的财经新闻中企业主体的情感分析方法流程示意图；

图2是本发明的Bi-LSTM模型对文本进行编码的示意图。

图3是本发明的GRU模型的一个单元示意图。

图4是本发明的深度学习的3层网络模型示意图。

图5是本发明的深度学习的4层网络模型示意图。

图6示出了本发明的分类预测模型训练方法以及企业主体情感标签分类方法的流程图。

图7是本发明的财经新闻中企业主体的情感分析系统结构示意图。

具体实施方式

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明提供了一种财经新闻中企业主体的情感分析方法，其特征在于，所述方法包括以下步骤：

优选地，所述步骤S1包括：利用爬虫技术采集财经新闻数据；对需要关注的企业的名称进行汇总成表。

具体地，使用网络爬虫在新闻数据来源中抓取尽可能多的财经类新闻材料，并将该财经类新闻材料以文本的形式存储在数据库中。新闻数据来源包括全国各大门户网站的公司新闻和财经新闻板块以及与财经、企业等相关的各个中小型网站。

在抓取到财经新闻数据后，对需要关注的企业的名称进行汇总成表，该表需要包含企业的全称及惯用简称，这部分数据可以是人工自行整理，也可以直接从数据服务商购买。

优选地，所述步骤S1包括：利用企业名称表去匹配识别新闻N＝{S₁,S₂,…,S_n}中出现的企业主体T及其所在的句子S_t，并将这些句子构成集合ST＝{S_t1,S_t2,…,S_tm}，其中n表示新闻N由n个句子构成，m表示新闻N包含企业主体T的句子总共有m个。

例如，某个财经新闻N中共有50个句子，利用某个企业的名称A去匹配新闻N，得到企业主体A所在的句子构成的集合ST＝{S₃,S₇,…,S₄₃}；利用另一个企业的名称B去匹配新闻N，得到企业主体B所在的句子构成的集合ST＝{S₅,S₁₁,…,S₄₈}等。

优选地，所述步骤S1包括：对新闻中企业主体进行情感倾向性标注，所述标注的标签L分为正面、负面、中性三类，并将标注所得的数据作为训练和测试模型的标准数据集。

本步骤中，为了样本的可靠性和标注的准确性，可以由财经领域的专家对新闻中企业主体进行情感倾向性标注，标签为L，包括正面、负面、中性三类。

优选地，所述步骤S1包括：按照预定比例从所述数据集中获取训练样本和测试样本Sample＝(N,ST,T,L)；将文本输入到BERT模型中，取BERT模型最后一层的隐藏层输出作为文本的词向量表示。

本步骤中，预定比例可以预先设定，例如80％、20％等。BERT模型有base和large两种尺寸，前者为12层编码层，后者为24层编码层，在实际使用过程中可根据自身计算资源的硬件情况选取合适大小的模型。BERT是一种新的语言表示模型，它基于双向Transformer网络设计而得。与相近的其他语言表示模型不同，BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。

优选地，所述步骤S1包括：将新闻全文N利用深度学习网络进行编码后放入模型的主存储器，处理后获得的每个句子的向量表示存入其中的主存储模块；将企业主体所在句子S利用深度学习网络进行编码后放入辅助存储器，处理后获得的句子向量存入其中的辅助存储模块，其中，对主存储模块与辅助存储模块采用不同的编码方式。

本步骤中，深度学习网络包括但不限于：卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi-LSTM)等。

在对新闻全文N进行编码时，示例性地可以选用双向长短期记忆网络(Bi-LSTM)，利用Bi-LSTM可以提取文本的前后文时序信息。具体操作方式为以句子为单位，将句子中的每一个词的词向量输入到Bi-LSTM网络中，将前向与后向最后隐态的输出拼接起来作为句子的句向量表示。按照此方法类似处理，获得每个句子的向量表示并存入主存储模块。

前向的LSTM与后向的LSTM结合成Bi-LSTM，作为Bi-LSTM模型如何进行编码的示例，对“我爱中国”这句话进行编码，模型如图2所示。双向LSTM编码句子前向的LSTM_L依次输入“我”，“爱”，“中国”得到三个向量{h_L0,h_L1,h_L2}。后向的LSTM_R依次输入“中国”，“爱”，“我”得到三个向量{h_R0,h_R1,h_R2}。最后将前向和后向的隐向量进行拼接得到{[h_L0,h_R2],[h_L1,h_R1],[h_L2,h_R0]}，即{h₀,h₁,h₂}。

在对企业主体所在句子S进行编码时，示例性地可以选用卷积神经网络(CNN)，利用CNN网络可以提取文本的n-gram特征，即词组特征，通过n控制窗口的大小，从而实现将前后共n个字组成一个词组。具体操作方式可参照CNN处理文本的基本方式进行处理，此处不做限定，但一般要与对新闻全文N的编码方式有所区别，从而保证主存储模块与辅助存储模块中相同的句子能提取到不同的特征信息。将句子向量存入辅助存储模块的方式，与将新闻全文N的句子向量存入主存储模块的方式类似。

优选地，所述步骤S1包括：利用多跳机制，在所述主存储器和所述辅助存储器中多次同时检索企业主体T的情感特征，并用GRU网络将所述情感特征进行非线性组合，输入到softmax层中进行分类。

GRU网络是LSTM网络的一种变体，参数量有所减少，所以其运行效率比LSTM更高，但记忆能力也随之减弱，但此处仅仅是利用GRU网络将每一个运算层级(hop)的结果进行串联，层数可以根据需求设置，优选为三层，所以对记忆能力要求并不高，GRU网络用在此处正合适。同时，以前的记忆网络在整合多个运算层的结果时，通常采用的都是线性变换和求和的方式进行特征融合，这样的方式会导致每个运算层级检索得到的冗余特征在过度积累，而本方案中采用GRU网络实现对每个运算层级的结果进行非线性组合，既保留了运算层级之间检索先后时间维度上的特征，又实现了对冗余特征的过滤处理，

图3是GRU模型的一个单元示意图，在该示意图中，h_t-1和h_t分别表示t-1时刻和t时刻的隐藏态输出，x_t表示t时刻的输入，r_t表示重置门，z_t表示更新门。更新门用于控制前一时刻的隐藏态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的隐藏态信息带入越多。重置门用于控制忽略前一时刻的隐藏态信息的程度，重置门的值越小说明忽略得越多。

图4示出了本发明的深度学习网络模型示意图。在图4中，虚线框表示多跳机制(Multi-hop)的运算层，示意图中分为3层，这个层数属于模型的超参数之一，其数值通常在3至9之间，具体如何选择需要根据实际训练情况酌情调整层数。此示意图中的Attention模块为标准记忆网络的组成部分之一，其作用是利用注意力机制实现对存储模块中与企业主体相关内容的检索，左侧对主存储模块的检索结果和右侧对辅助存储模块的检索结果是通过求和的方式进行融合的，然后输入到GRU单元中，利用GRU网络将前后每一个时刻的结果进行串联处理，GRU网络最后时刻的输出作为softmax的输入，得到最终的分类结果。

优选地，本发明的深度学习网络模型也可以采用4层的网络模型，如图5所示。在采用4层的网络模型时，其模型训练过程、标签分类预测过程与采用3层的网络模型的训练、分类过程类似，在此不再展开赘述。

优选地，所述步骤S1包括：利用交叉熵计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算；当所述损失函数的损失值loss在连续多个迭代运算过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

交叉熵是信息熵论中的概念，交叉熵损失函数是数据处理领域中常用的函数，在对文本分类时，可以结合具体的内容对该函数进行修改，变换等处理，本发明对此不作限定。

实施例二

图6示出了本发明的对分类预测模型进行训练以及对企业主体的情感标签进行分类的方法流程图。

其中，对分类预测模型进行训练的方法、以及对企业主体的情感标签进行分类的方法的具体实现方式，与前述实施例一中描述的模型训练方法和标签分类方法的实现方式相同，此处不再赘述。

实施例三

本发明提供了一种财经新闻中企业主体的情感分析系统，所述系统包括数据抓取模块、模型训练模块、标签分类预测模块；

所述数据抓取模块，用于利用爬虫技术采集财经新闻数据；

优选地，在所述模型训练模块对模型进行训练之前，对所述数据抓取模块抓取的数据进行以下处理：

对需要关注的企业的名称进行汇总成表；

在本实施例中，各个模块所执行的方法以及对所述数据抓取模块抓取的数据进行处理的方法的具体实现方式，与本发明实施例一中所描述的实现方式相同，在此不再赘述。

相对于传统的机器学习方法和简单的使用CNN以及Bi-LSTM网络编码处理的方法，本发明基于更先进的文本表示模型BERT和双存储结构的记忆网络模型设计而得，分类准确率更高，同时不需要领域专家制定规则模板提取额外的特征，减少了人工成本，便于维护。相比较以前基于双存储结构的记忆网络模型仅在句子级别的细粒度情感分类任务中的应用而言，本方案针对更为复杂的篇章级任务进行处理，有效克服长文本中干扰信息更多，记忆依赖更长，编码方式更难以及财经领域情感特征不明显等问题，从而使得依靠财经新闻进行企业风险评估的方式不再拘泥于传统的手工分类方式，以及依赖于大量专家制定的规则所进行的模式处理方式。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种财经新闻中企业主体的情感分析方法，其特征在于，所述方法包括以下步骤：S1：采集新闻数据，根据所述采集的新闻数据进行模型训练，得到分类预测模型；S2：将待分类的新闻数据输入所述分类预测模型，对所述待分类的新闻数据中的企业主体的情感标签进行分类预测；所述步骤S1包括：利用爬虫技术采集财经新闻数据；对需要关注的企业的名称进行汇总成表；所述步骤S1包括：利用企业名称表去匹配识别新闻N＝{S1,S2,…,Sn}中出现的企业主体T及其所在的句子St，并将这些句子构成集合ST＝{St1,St2,…,Stm}，其中n表示新闻N由n个句子构成，m表示新闻N包含企业主体T的句子总共有m个；所述步骤S1包括：对新闻中企业主体进行情感倾向性标注，所述标注的标签L分为正面、负面、中性三类，并将标注所得的数据作为训练和测试模型的标准数据集；所述步骤S1包括：按照预定比例从所述数据集中获取训练样本和测试样本Sample＝(N,ST,T,L)；将文本输入到BERT模型中，取BERT模型最后一层的隐藏层输出作为文本的词向量表示；所述步骤S1包括：将新闻全文N利用深度学习网络进行编码后放入模型的主存储器，处理后获得的每个句子的向量表示存入其中的主存储模块；将企业主体所在句子S利用深度学习网络进行编码后放入辅助存储器，处理后获得的句子向量存入其中的辅助存储模块，其中，对主存储模块与辅助存储模块采用不同的编码方式；所述步骤S1包括：利用多跳机制，在所述主存储器和所述辅助存储器中多次同时检索企业主体T的情感特征，并用GRU网络将所述情感特征进行非线性组合，输入到softmax层中进行分类。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：利用交叉熵计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算；当所述损失函数的损失值loss在连续多个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

3.一种财经新闻中企业主体的情感分析系统，其特征在于，所述系统包括数据抓取模块、模型训练模块、标签分类预测模块；所述数据抓取模块，用于利用爬虫技术采集财经新闻数据；所述模型训练模块，用于按照预定比例从所述数据集中获取训练样本和测试样本Sample＝(N,ST,T,L)；将文本输入到BERT模型中，取BERT模型最后一层的隐藏层输出作为文本的词向量表示；将新闻全文N利用深度学习网络进行编码后放入模型的主存储器，处理后获得的每个句子的向量表示存入其中的主存储模块；将企业主体所在句子S利用深度学习网络进行编码后放入辅助存储器，处理后获得的句子向量存入其中的辅助存储模块；其中，对主存储模块与辅助存储模块采用不同的编码方式；利用多跳机制，在所述主存储器和所述辅助存储器中多次同时检索企业主体T的情感特征，并用GRU网络将所述情感特征进行非线性组合，输入到softmax层中进行分类；利用交叉熵计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算；当所述损失函数的损失值loss在连续多个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型；所述标签分类预测模块，用于将待分类的新闻数据输入所述分类预测模型，对所述待分类的新闻数据中的企业主体的情感标签进行分类预测。

4.根据权利要求3所述的系统，其特征在于，在所述模型训练模块对模型进行训练之前，对所述数据抓取模块抓取的数据进行以下处理：对需要关注的企业的名称进行汇总成表；利用企业名称表去匹配识别新闻N＝{S1,S2,…,Sn}中出现的企业主体T及其所在的句子St，并将这些句子构成集合ST＝{St1,St2,…,Stm}，其中n表示新闻N由n个句子构成，m表示新闻N包含企业主体T的句子总共有m个；对新闻中企业主体进行情感倾向性标注，所述标注的标签L分为正面、负面、中性三类，并将标注所得的数据作为训练和测试模型的标准数据集。