CN115409018B

CN115409018B - 基于大数据的公司舆情监测系统及其方法

Info

Publication number: CN115409018B
Application number: CN202211141297.4A
Authority: CN
Inventors: 郭雷廷
Original assignee: Zhejiang Shuxiang Homer Culture Co ltd
Current assignee: Zhejiang Shuxiang Homer Culture Co ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-05-02
Anticipated expiration: 2042-09-20
Also published as: CN115409018A

Abstract

公开了一种基于大数据的公司舆情监测系统及其方法，其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息，并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体；然后，通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样，可以提高所述待监控公司相关的舆情判断结果的准确性，以及时地掌握公司的动向和预测热点事件的发生。

Description

基于大数据的公司舆情监测系统及其方法

技术领域

本申请涉及智能监测技术领域，且更为具体地，涉及一种基于大数据的公司舆情监测系统及其方法。

背景技术

舆情是“舆论情况”的简称，是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

对于当前高度发达的互联网形势，中国已成为世界第一大网民国家，网络重要性凸显，公司监测舆情也成为非常重要的关键点。但是，目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理，在大数据的时代发展下，由于网络数据量较为繁杂且人为语义理解的偏差，这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。

因此，期待一种优化的基于大数据的公司舆情监测方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于大数据的公司舆情监测系统及其方法，其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息，并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体；然后，通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样，可以提高所述待监控公司相关的舆情判断结果的准确性，以及时地掌握公司的动向和预测热点事件的发生。

根据本申请的一个方面，提供了一种基于大数据的公司舆情监测系统，其包括：

舆情监控模块，用于获取与待监控公司相关的文章和所述文章的评论数据；

事件抽取模块，用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；

事件上下文语义编码模块，用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；

词粒度特征表示模块，用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；

片语粒度特征表示模块，用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；

多粒度特征融合模块，用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；

评论数据编码模块，用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；

关联编码模块，用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；

关联特征提取模块，用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及

舆情监测结果生成模块，用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

在上述基于大数据的公司舆情监测系统中，所述事件上下文语义编码模块，包括：分词子单元，用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列；嵌入编码子单元，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，上下文编码子单元，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。

在上述基于大数据的公司舆情监测系统中，所述片语粒度特征表示模块，包括：第一片语尺度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；第二片语尺度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及，多尺度级联单元，用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。

在上述基于大数据的公司舆情监测系统中，所述多粒度特征融合模块，进一步用于：以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量；其中，所述公式为：

其中V_p表示所述词粒度特征向量，V₂表示所述片语粒度特征向量，v_i表示所述片语粒度特征向量的各个位置的特征值，

是所述片语粒度特征向量的各个位置的特征值集合的全局均值，且L是所述片语粒度特征向量的长度，α是加权超参数，

表示按位置加法，⊙表示按位置点乘，exp(·)表示数值的指数运算，所述数值的指数运算表示计算以所述数值为幂的自然指数函数值。

在上述基于大数据的公司舆情监测系统中，所述关联编码模块，进一步用于：以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵；其中，所述公式为：

其中V₁表示所述多尺度事件描述特征向量，

表示所述多尺度事件描述特征向量的转置向量，V_c表示所述多尺度评论特征向量，M表示所述事件-评论关联矩阵，

表示向量相乘。

在上述基于大数据的公司舆情监测系统中，所述关联特征提取模块，进一步用于：所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵，所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。

在上述基于大数据的公司舆情监测系统中，所述舆情监测结果生成模块，进一步用于：使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果，其中，所述公式为：O＝softmax{(W_n,B_n):…:(W₁,B₁)|F(M)}，其中F(M)表示所述事件-评论关联特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

根据本申请的另一方面，提供了一种基于大数据的公司舆情监测方法，其包括：

获取与待监控公司相关的文章和所述文章的评论数据；

对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；

将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；

将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；

将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；

融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；

通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；

对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；

将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及

将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

与现有技术相比，本申请提供的基于大数据的公司舆情监测系统及其方法，其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息，并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体；然后，通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样，可以提高所述待监控公司相关的舆情判断结果的准确性，以及时地掌握公司的动向和预测热点事件的发生。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的基于大数据的公司舆情监测系统的应用场景图。

图2图示了根据本申请实施例的基于大数据的公司舆情监测系统的框图。

图3图示了根据本申请实施例的基于大数据的公司舆情监测系统中所述事件上下文语义编码模块的框图。

图4图示了根据本申请实施例的基于大数据的公司舆情监测系统中所述片语粒度特征表示模块的框图。

图5图示了根据本申请实施例的基于大数据的公司舆情监测方法的流程图。

图6图示了根据本申请实施例的基于大数据的公司舆情监测方法的架构的示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，对于当前高度发达的互联网形势，中国已成为世界第一大网民国家，网络重要性凸显，公司监测舆情也成为非常重要的关键点。但是，目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理，在大数据的时代发展下，由于网络数据量较为繁杂且人为语义理解的偏差，这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。因此，期待一种优化的基于大数据的公司舆情监测方案。

应可以理解，由于舆情结合爬取的文章、新闻来说，其实本质是属于情感分类，无论文章还是评论都可以分为正面和负面两类(或者积极和消极)。因此，对于公司的舆情监测本质上是一个分类的问题。也就是，利用基于深度学习的人工智能技术来提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息，并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体，进而提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样，能够对于公司相关的舆情正负性进行准确地判断，进而能够及时掌握公司的动向和预测热点事件的发生。

具体地，在本申请的技术方案中，首先，获取与待监控公司相关的文章和所述文章的评论数据。然后，对所述与待监控公司相关的文章进行实体识别和事件抽取，以提取出所述文章中的重要事件和实体，以得到事件文本描述。应可以理解，所述事件抽取的目的是在大量文章中快速识别事件及其实体，实体是指世界中真实存在的目标，主要用于分析文本中“谁对谁做了什么以及何时何地”，并且能找到一个或者多个参与者，事件抽取也属于信息抽取领域中难度比较大的研究内容，依赖于实体抽取和关系抽取。

接着，使用包含嵌入层的上下文编码器对于所述事件文本描述进行高维语义特征挖掘，以提取出所述事件文本描述中的各个词的基于全局的高维语义特征，从而得到多个事件文本描述词特征向量。进一步地，将所述多个事件文本描述词特征向量进行级联以整个所述各个词的全局高维语义关联特征信息，从而得到词粒度特征向量。

然后，考虑到在所述事件文本描述中，除了所述各个词有着全局性的高维语义关联特征外，所述各个词之间组成的片语也有着不同的语义特征信息。因此，在本申请的技术方案中，为了能够更为准确充分地理解所述事件文本描述中的语义信息，进一步将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。也就是，使用多尺度邻域特征提取模块来对于所述一维特征向量进行编码，以提取出所述事件文本描述中在不同的词跨度下组成的片语的高维语义特征信息。

进一步地，融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。也就是，通过所述事件文本描述中的各个词的全局语义关联特征和所述事件文本描述中的各个词之间组成的片语的多尺度邻域语义关联特征的融合特征来进行充分地语义理解，进而提高后续分类的准确性。

同样地，对于所述文章的评论数据，也以同样的方式进行编码以对于所述文章的评论数据进行充分且准确地语义理解。也就是，通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量，以提取出所述文章的评论数据中的包含各个词与片语的全局语义关联特征信息。

接着，为了能够对于所述待监控公司相关的舆情是正向的还是负向的进行准确地判断，在得到所述多尺度评论特征向量和所述多尺度事件描述特征向量后，进一步将这两者进行关联编码来得到事件-评论关联矩阵。然后，将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络中进行特征挖掘，以提取出所述事件描述语义特征和所述评论语义特征的关联性隐含特征，从而得到事件-评论关联特征矩阵。这样，能够基于所述事件描述语义特征和所述评论语义特征的关联性隐含特征来综合得到人们对于所述待监控公司相关的舆情的情感倾向，进而提高判断的精准度。进一步地，再将所述事件-评论关联特征矩阵通过分类器以得到用于表示与待监控公司相关的舆情是正向还是负向的分类结果。

特别地，在本申请的技术方案中，将所述片语粒度特征向量和所述词粒度特征向量进行级联以得到多尺度事件描述特征向量时，由于所述片语粒度特征向量是将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块得到的，而所述词粒度特征向量是直接将所述多个事件文本描述词特征向量进行级联得到的，因此所述片语粒度特征向量相对于所述词粒度特征向量具有更深层的特征分布。

为了提高级联后的多尺度事件描述特征向量的特征分布的一致性，对所述词粒度特征向量进行注意力导向的分层深度联立优化，表示为：

其中V_p是所述词粒度特征向量，V₂是所述片语粒度特征向量，v_i是所述片语粒度特征向量的每个位置的特征值，

是所述片语粒度特征向量的特征值的全局均值，且L是所述片语粒度特征向量的长度，α是加权超参数。

这里，以作为深层特征的所述片语粒度特征向量V₂的子维度一致性作为注意力导向权重，对作为浅层特征的所述词粒度特征向量V_p施加子维度分布的一致性注意力机制，来在具有深度差的高维流形之间进行体匹配，从而使得所述词粒度特征向量V_p和所述片语粒度特征向量V₂在各个子维度上具有高一致性的联立分布，以提高所述多尺度事件描述特征向量的特征分布的一致性，进而提高分类的准确性。这样，能够对于公司相关的舆情正负性进行准确地判断，同样也能够对于大众的情绪进行准确地检测，进而及时地掌握公司的动向和预测热点事件的发生。

基于此，本申请提供了一种基于大数据的公司舆情监测系统，其包括：舆情监控模块，用于获取与待监控公司相关的文章和所述文章的评论数据；事件抽取模块，用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；事件上下文语义编码模块，用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；词粒度特征表示模块，用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；片语粒度特征表示模块，用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；多粒度特征融合模块，用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；评论数据编码模块，用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；关联编码模块，用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；关联特征提取模块，用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及,舆情监测结果生成模块，用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

图1图示了根据本申请实施例的基于大数据的公司舆情监测系统的应用场景图。如图1所示，在该应用场景中，首先获取与待监控公司相关的文章例如，如图1中所示意的C)和所述文章的评论数据(例如，如图1中所示意的M)；然后，将获取的与待监控公司相关的文章和所述文章的评论数据输入至部署有基于大数据的公司舆情监测系统的服务器中(例如，图1中所示意的S)，其中，所述服务器能够使用基于大数据的公司舆情监测算法对所述待监控公司相关的文章和所述文章的评论数据进行处理以生成用于表示与待监控公司相关的舆情是正向的还是负向的分类结果。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2图示了根据本申请实施例的基于大数据的公司舆情监测系统的框图。如图2所示，根据本申请实施例的基于大数据的公司舆情监测系统100，包括：舆情监控模块101，用于获取与待监控公司相关的文章和所述文章的评论数据；事件抽取模块102，用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；事件上下文语义编码模块103，用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；词粒度特征表示模块104，用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；片语粒度特征表示模块105，用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；多粒度特征融合模块106，用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；评论数据编码模块107，用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；关联编码模块108，用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；关联特征提取模块109，用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及，舆情监测结果生成模块110，用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

具体地，在本申请实施例中，所述舆情监控模块101，用于获取与待监控公司相关的文章和所述文章的评论数据。如前所述，对于当前高度发达的互联网形势，中国已成为世界第一大网民国家，网络重要性凸显，公司监测舆情也成为非常重要的关键点。但是，目前没有较为全面的基于算法、大数据、人工智能的公司舆情监测方案。现有的公司舆情监测方案大多都是依靠人工来进行处理，在大数据的时代发展下，由于网络数据量较为繁杂且人为语义理解的偏差，这种舆情监测方式显然不能够有效地对于公司舆情进行较好地监测。因此，期待一种优化的基于大数据的公司舆情监测方案。

更具体地，在本申请的技术方案中，首先，获取与待监控公司相关的文章和所述文章的评论数据。

具体地，在本申请实施例中，所述事件抽取模块102，用于对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述。也就是，在得到所述与待监控公司相关的文章后，接着，对所述与待监控公司相关的文章进行实体识别和事件抽取，以提取出所述文章中的重要事件和实体，以得到事件文本描述。

应可以理解，所述事件抽取的目的是在大量文章中快速识别事件及其实体，实体是指世界中真实存在的目标，主要用于分析文本中“谁对谁做了什么以及何时何地”，并且能找到一个或者多个参与者，事件抽取也属于信息抽取领域中难度比较大的研究内容，依赖于实体抽取和关系抽取。

具体地，在本申请实施例中，所述事件上下文语义编码模块103和所述词粒度特征表示模块104，用于将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量，以及，用于将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量。

也就是，使用包含嵌入层的上下文编码器对于所述事件文本描述进行高维语义特征挖掘，以提取出所述事件文本描述中的各个词的基于全局的高维语义特征，从而得到多个事件文本描述词特征向量。进一步地，将所述多个事件文本描述词特征向量进行级联以整个所述各个词的全局高维语义关联特征信息，从而得到词粒度特征向量。

更具体地，在本申请实施例中，图3图示了根据本申请实施例的基于大数据的公司舆情监测系统中所述事件上下文语义编码模块的框图，如图3所示，所述事件上下文语义编码模块103，包括：分词子单元210，用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列；嵌入编码子单元220，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，上下文编码子单元230，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。

具体地，在本申请实施例中，所述片语粒度特征表示模块105，用于将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。考虑到在所述事件文本描述中，除了所述各个词有着全局性的高维语义关联特征外，所述各个词之间组成的片语也有着不同的语义特征信息。因此，在本申请的技术方案中，为了能够更为准确充分地理解所述事件文本描述中的语义信息，进一步将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量。也就是，使用多尺度邻域特征提取模块来对于所述一维特征向量进行编码，以提取出所述事件文本描述中在不同的词跨度下组成的片语的高维语义特征信息。

更具体地，在本申请实施例中，图4图示了根据本申请实施例的基于大数据的公司舆情监测系统中所述片语粒度特征表示模块的框图，如图4所示，所述片语粒度特征表示模块105，包括：第一片语尺度编码单元310，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；第二片语尺度编码单元320，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及，多尺度级联单元330，用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。

值得一提的是，在本申请的其他示例中，所述多尺度邻域特征提取模块还可以包含更多数量的一维卷积层，其使用不同长度的一维卷积核对所述多个事件文本描述词特征向量进行特征提取，对此，并不为本申请所局限。

具体地，在本申请实施例中，所述多粒度特征融合模块106，用于融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。进一步地，融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量。也就是，通过所述事件文本描述中的各个词的全局语义关联特征和所述事件文本描述中的各个词之间组成的片语的多尺度邻域语义关联特征的融合特征来进行充分地语义理解，进而提高后续分类的准确性。

为了提高级联后的多尺度事件描述特征向量的特征分布的一致性，对所述词粒度特征向量进行注意力导向的分层深度联立优化，也就是，以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量；其中，所述公式为：

具体地，在本申请实施例中，所述评论数据编码模块107，用于通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量。同样地，对于所述文章的评论数据，也以同样的方式进行编码以对于所述文章的评论数据进行充分且准确地语义理解。也就是，通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量，以提取出所述文章的评论数据中的包含各个词与片语的全局语义关联特征信息。

具体地，在本申请实施例中，所述关联编码模块108，用于对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵。接着，为了能够对于所述待监控公司相关的舆情是正向的还是负向的进行准确地判断，在得到所述多尺度评论特征向量和所述多尺度事件描述特征向量后，进一步将这两者进行关联编码来得到事件-评论关联矩阵。

进一步地，在本申请实施例中，以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵；其中，所述公式为：

其中V₁表示所述多尺度事件描述特征向量，

表示向量相乘。

具体地，在本申请实施例中，所述关联特征提取模块109，用于将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵。将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络中进行特征挖掘，以提取出所述事件描述语义特征和所述评论语义特征的关联性隐含特征，从而得到事件-评论关联特征矩阵。

这样，能够基于所述事件描述语义特征和所述评论语义特征的关联性隐含特征来综合得到人们对于所述待监控公司相关的舆情的情感倾向，进而提高判断的精准度。进一步地，再将所述事件-评论关联特征矩阵通过分类器以得到用于表示与待监控公司相关的舆情是正向还是负向的分类结果。

更具体地，在本申请实施例中，所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵，所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。

具体地，在本申请实施例中，所述舆情监测结果生成模块110，用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。也就是，将所述事件-评论关联特征矩阵输入分类函数以获得分类函数值，其中，所述分类函数值为所述分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

进一步地，使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果，其中，所述公式为：

O＝softmax{(W_n,B_n):…:(W₁,B₁)|F(M)}，其中F(M)表示所述事件-评论关联特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

综上，基于本申请实施例的基于大数据的公司舆情监测系统100被阐明，其通过包含嵌入层的上下文编码器和多尺度邻域特征提取模块提取出与待监控公司相关的文章和所述文章的评论数据的全局语义关联隐含特征信息，并且在此过程中通过事件抽取的方式来从大量的文章和评论中快速识别出事件和实体；然后，通过作为特征提取器的卷积神经网络进行特征挖掘以提取出重要的文章观点和评论观点特征来综合进行所述待监控公司相关的舆情正负向分类判断。这样，可以提高所述待监控公司相关的舆情判断结果的准确性，以及时地掌握公司的动向和预测热点事件的发生。

如上所述，根据本申请实施例的基于大数据的公司舆情监测系统100可以实现在各种终端设备中，例如具有基于大数据的公司舆情监测算法的服务器等。在一个示例中，该基于大数据的公司舆情监测系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该基于大数据的公司舆情监测系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该基于大数据的公司舆情监测系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该基于大数据的公司舆情监测系统100与该终端设备也可以是分立的设备，并且该基于大数据的公司舆情监测系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性方法

图5图示了根据本申请实施例的基于大数据的公司舆情监测方法的流程图。如图5所示，根据本申请实施例的基于大数据的公司舆情监测方法，其包括：S101，获取与待监控公司相关的文章和所述文章的评论数据；S102，对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；S103，将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；S104，将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；S105，将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；S106，融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；S107，通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；S108，对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；S109，将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及,S110，将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

图6图示了根据本申请实施例的基于大数据的公司舆情监测方法的架构的示意图。如图6所示，在所述基于大数据的公司舆情监测方法的网络架构中，首先，获取与待监控公司相关的文章和所述文章的评论数据；然后，对所述与待监控公司相关的文章进行实体识别和事件抽取以得到事件文本描述；接着，将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量；然后，将所述多个事件文本描述词特征向量进行级联以得到词粒度特征向量；接着，将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量；然后，融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量；接着，通过所述包含嵌入层的上下文编码器和所述多尺度邻域特征提取模块从所述文章的评论数据得到多尺度评论特征向量；然后，对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵；接着，将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵；以及，最后，将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的。

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量，包括：对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列；使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量，包括：将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及，将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述融合所述词粒度特征向量和所述片语粒度特征向量以得到多尺度事件描述特征向量，进一步包括：以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量；其中，所述公式为：

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到事件-评论关联矩阵，进一步包括：以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵；其中，所述公式为：

其中V₁表示所述多尺度事件描述特征向量，

表示向量相乘。

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述将所述事件-评论关联矩阵通过作为特征提取器的卷积神经网络以得到事件-评论关联特征矩阵，进一步包括：所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵，所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。

在本申请的一个实施例中，在上述基于大数据的公司舆情监测方法中，所述将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的，进一步包括：使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果，其中，所述公式为：O＝softmax{(W_n,B_n):…:(W₁,B₁)|F(M)}，其中F(M)表示所述事件-评论关联特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

这里，本领域技术人员可以理解，上述基于大数据的公司舆情监测方法中的各个步骤的具体操作已经在上面参考图1到图4的基于大数据的公司舆情监测系统的描述中得到了详细介绍，并因此，将省略其重复描述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于大数据的公司舆情监测系统，其特征在于，包括：

舆情监测结果生成模块，用于将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的；

其中，所述片语粒度特征表示模块，包括：

第一片语尺度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；

第二片语尺度编码单元，用于将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及

多尺度级联单元，用于将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。

2.根据权利要求1所述的基于大数据的公司舆情监测系统，其特征在于，所述事件上下文语义编码模块，包括：

分词子单元，用于对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列；

嵌入编码子单元，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及

上下文编码子单元，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。

3.根据权利要求2所述的基于大数据的公司舆情监测系统，其特征在于，所述多粒度特征融合模块，进一步用于：以如下公式融合所述词粒度特征向量和所述片语粒度特征向量以得到所述多尺度事件描述特征向量；

其中，所述公式为：

表示按位置加法，⊙表示按位置点乘，exp(·)表示数值的指数运算，所述数值的指数运算表示计算以所述数值为幂的自然指数函数值，V_b表示所述多尺度事件描述特征向量。

4.根据权利要求3所述的基于大数据的公司舆情监测系统，其特征在于，所述关联编码模块，进一步用于：以如下公式对所述多尺度评论特征向量和所述多尺度事件描述特征向量进行关联编码以得到所述事件-评论关联矩阵；

其中，所述公式为：

其中V₁表示所述多尺度事件描述特征向量，

表示向量相乘。

5.根据权利要求4所述的基于大数据的公司舆情监测系统，其特征在于，所述关联特征提取模块，进一步用于：所述作为特征提取器的卷积神经网络的各层在层的正向传递中分别进行：

对输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行沿通道维度的池化处理以得到池化特征图；以及

对所述池化特征图进行非线性激活以得到激活特征图；

其中，所述作为特征提取器的卷积神经网络的最后一层的输出为所述事件-评论关联特征矩阵，所述作为特征提取器的卷积神经网络的第一层的输入为所述事件-评论关联矩阵。

6.根据权利要求5所述的基于大数据的公司舆情监测系统，其特征在于，所述舆情监测结果生成模块，进一步用于：使用所述分类器以如下公式对所述事件-评论关联特征矩阵进行处理以生成分类结果，其中，所述公式为：O＝softmax{(W_n,B_n):…:(W₁,B₁)|F(M)}，其中F(M)表示所述事件-评论关联特征矩阵投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵。

7.一种基于大数据的公司舆情监测方法，其特征在于，包括：

获取与待监控公司相关的文章和所述文章的评论数据；

将所述事件-评论关联特征矩阵通过分类器以得到分类结果，所述分类结果用于表示与待监控公司相关的舆情是正向的还是负向的；

其中，所述将所述多个事件文本描述词特征向量排列为一维特征向量后通过多尺度邻域特征提取模块以得到片语粒度特征向量，包括：

将所述一维特征向量输入所述多尺度邻域特征提取模块的第一卷积层以得到第一片语尺度事件特征向量，其中，所述第一卷积层具有第一长度的第一一维卷积核；

将所述一维特征向量输入所述多尺度邻域特征提取模块的第二卷积层以得到第二片语尺度事件特征向量，其中，所述第二卷积层具有第二长度的第二一维卷积核，所述第一长度不同于所述第二长度；以及

将所述第一片语尺度事件特征向量和所述第二片语尺度事件特征向量进行级联以得到所述片语粒度特征向量。

8.根据权利要求7所述的基于大数据的公司舆情监测方法，其特征在于，所述将所述事件文本描述通过包含嵌入层的上下文编码器以得到多个事件文本描述词特征向量，包括：

对所述事件文本描述进行分词处理以将所述事件文本描述转化为由多个词组成的词序列；

使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及

使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个事件文本描述词特征向量。