CN110009128A

CN110009128A - 行业舆情指数预测方法、装置、计算机设备及存储介质

Info

Publication number: CN110009128A
Application number: CN201910079475.7A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-07-12

Abstract

本发明公开了行业舆情指数预测方法、装置、计算机设备及存储介质。该方法包括：获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果；以及将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。该方法采用了预测模型实现了利用网络中海量数据而得到特定行业的行业指数，而且通过时间序列模型，进行准确预测实体经济指标的发展状态。

Description

行业舆情指数预测方法、装置、计算机设备及存储介质

技术领域

本发明涉及预测模型技术领域，尤其涉及一种行业舆情指数预测方法、装置、计算机设备及存储介质。

背景技术

目前，一般某一行业的行业指数，一般是基于行业的各企业经济指标参数来进行非定量的计算，而得到的一个辅助评估的指数。由于行业指数的评估需要考虑的因素比较多，加上难以定量，故无法有效利用网络中海量数据而得到特定行业的行业指数，也无法基于现有的数据对未来趋势进行预测以辅助分析。

发明内容

本发明实施例提供了一种行业舆情指数预测方法、装置、计算机设备及存储介质，旨在解决现有技术行业的行业指数，一般是基于行业的各企业经济指标参数来进行非定量的计算，而得到的一个辅助评估的指数，需要考虑的因素比较多，加上难以定量，故无法有效利用网络中海量数据而得到特定行业的行业指数的问题。

第一方面，本发明实施例提供了一种行业舆情指数预测方法，其包括：

通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容；

对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合；

将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果；

将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型；

获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果；以及

将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

第二方面，本发明实施例提供了一种行业舆情指数预测装置，其包括：

并行爬取单元，用于通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容；

预处理单元，用于对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合；

评分单元，用于将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果；

模型训练单元，用于将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型；

当前年度评分单元，用于获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果；以及

增长率预测单元，用于将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的行业舆情指数预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的行业舆情指数预测方法。

本发明实施例提供了一种行业舆情指数预测方法、装置、计算机设备及存储介质，该方法实现了利用网络中海量数据而得到特定行业的行业指数，而且通过时间序列模型，进行准确预测实体经济指标的发展状态。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行业舆情指数预测方法的应用场景示意图；

图2为本发明实施例提供的行业舆情指数预测方法的流程示意图；

图3为本发明实施例提供的行业舆情指数预测方法的子流程示意图；

图4为本发明实施例提供的行业舆情指数预测方法的另一子流程示意图；

图5为本发明实施例提供的行业舆情指数预测方法的另一子流程示意图；

图6为本发明实施例提供的行业舆情指数预测装置的示意性框图；

图7为本发明实施例提供的行业舆情指数预测装置的子单元示意性框图；

图8为本发明实施例提供的行业舆情指数预测装置的另一子单元示意性框图；

图9为本发明实施例提供的行业舆情指数预测装置的另一子单元示意性框图；

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的行业舆情指数预测方法的应用场景示意图，图2为本发明实施例提供的行业舆情指数预测方法的流程示意图，该行业舆情指数预测方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容。

在本实施例中，为了分析各个实体经济行业领域的舆情现状，可以通过部署在服务器中的分布式爬虫机制爬取海量的网页内容(这些网页内容都是部署在网页服务器中)。其中分布式爬虫机制即采用多个爬虫同时爬取多个网页的网页内容，例如在服务器端设置了10个爬虫工具，其中爬虫工具1定向爬取网址1-网址10的网页内容(其中可以设置网址1-网址10为农业领域的网站等)，爬虫工具2爬取网址11-网址20的网页内容(其中可以设置网址11-网址20为工业领域的网站等)，……，爬虫工具10爬取网址91-网址100的网页内容(其中可以设置网址91-网址100为建筑业领域的网站等)。

在爬虫工具并行获取对应实体经济行业领域在各时间段的源数据，可以是以月度为单位，也可以年度为单位。例如爬虫工具1定向爬取网址1-网址10中近5年的网页内容(例如当前年度为2018年，则爬虫工具1爬取2013-2017年度的网页内容)。

当通过分布式爬虫从网页上获取了海量的源数据后得到源数据集，此时需要对海量篇数的网页文本数据进行预处理，得到可以进行舆情分析的数据。

在一实施例中，如图3所示，步骤S110包括：

S111、获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；

S112、通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；

S113、将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

在本实施例中，例如所述分布式爬虫中爬虫工具的个数为10个，且每一爬虫工具均所对应设置有对应实体经济行业领域的网址清单，此时每一个爬虫工具根据网址清单对应爬取相应实体经济行业领域的网页内容，以组成与每一爬虫工具对应的子数据集。为了分别存储每一子数据集，可根据每一爬虫工具对应的实体经济行业领域名称对各存储区域命名。例如爬虫工具1定向爬取农业领域得到的子数据集，对应存储在爬虫工具1所对应的农业领域存储区域。将各子数据集分区存储后，即可分区进行数据处理。

S120、对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合。

在一实施例中，如图4所示，步骤S120包括：

S121、将所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

S122、将每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成与各子数据集对应的处理后数据集合。

在本实施例中，当通过TF-IDF模型(即term frequency–inverse documentfrequency，表示词频-逆文本频率指数模型)对所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文均进行关键词信息抽取，可以将每一文本数据简化表述为对应的关键词列表。

词频-逆文本频率指数模型是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse DocumentFrequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

由于每一文本数据都简化为了标题关键词列表和正文关键词列表的组合，故可以将每一行业对应的各文本数据通过行业消息列表来简化表示。

S130、将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果。

在一实施例中，如图5所示，步骤S130包括：

S131、获取每一处理后数据集合中对应的各处理后数据，及与各处理后数据对应的行业消息列表；

S132、根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果。

在本实施例中，所述朴素贝叶斯模型函数如下：

其中，x1，x2，…，xn表示处理后数据中的各关键词，也即行业消息列表中所包括的标题关键词和正文关键词。

例如，计算P(y_k|x₁,x₂,…,x_n)时，P(y_k|x₁,x₂,…,x_n)表示目标用户在包括关键词x1，x2，…，xn的前提下被划分为类别yk的概率，类别yk主要有两类，y1对应正面评分结果，y2对应负面评分结果；以P(y₁|x₁,x₂,…,x_n)和P(y₂|x₁,x₂,…,x_n)中的最大值作为与各行业消息列表对应的正负面评分结果。

在一实施例中，步骤S130之后还包括：

由每一实体经济行业领域中各行业消息列表对应的正负面评分结果，组成与每一实体经济行业领域对应的正负面评分结果序列。

例如，爬虫工具1爬取的农业领域的子数据集中所包括的行业消息列表1记为{XX市YY企业XX基地亩产增加}。在以行业消息列表1中所包括的这些关键词为前提条件下计算P(y1)＝0.8，P(y2)＝0.3，此时以P(y1)为行业消息列表1对应的正负面评分结果。由于子数据集中包括多个行业消息列表，而每一行业消息列表对应一个正负面评分结果，故由多个行业消息列表对应一个正负面评分结果组成与每一实体经济行业领域对应的正负面评分结果序列。

S140、将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型。

在本实施例中，步骤S110中预设的时间段一般设置为当前年度之前的历史年度，故步骤S110-S130是爬取历史数据进行预处理和正负面评分计算后，得到与每一实体经济行业领域对应的正负面评分结果序列。此时针对每一实体经济行业领域均对应训练一个深度神经网络模型，以预测该实体经济行业领域的行业GDP增长率。

例如，通过子数据集1(对应农业领域)中在2017年度的各行业消息列表对应的正负面评分结果所组成的正负面评分结果序列作为深度神经网络的输入，并将子数据集1的对应农业领域在2017年度的行业GDP增长率作为深度神经网络的输出，进行训练得到与农业领域对应的深度神经网络模型。为了提高模型的预测准确度，还可以取子数据集1中在2013-2016年度的正负面评分结果序列作为深度神经网络的输入，取子数据集1的对应农业领域在2013-2016年度的行业GDP增长率作为深度神经网络的输出对深度神经网络进行训练。以此类推，其他子数据集均能对应训练处对应实体经济行业领域的深度神经网络模型。

深度神经网络(Deep NeuralNetworks，简称DNN)内部的神经网络层可以分为三类，输入层，隐藏层和输出层,如下图示例，一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。

层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是从小的局部模型来说，还是和感知机一样，即一个线性关系z＝∑wixi+b加上一个激活函数σ(z)。

DNN的前向传播算法也就是利用若干个权重系数矩阵W,偏倚向量b来和输入值向量x进行一系列线性运算和激活运算，从输入层开始，一层层的向后计算，一直到运算到输出层，得到输出结果为值。

即输入:总层数L，所有隐藏层和输出层对应的矩阵W,偏倚向量b，输入值向量x；输出：输出层的输出a^L。具体如下：

1)初始化a¹＝x

2)for l＝2to L,计算：

a^l＝σ(z^l)＝σ(W^la^l-1+b^l)

最后的结果即为输出aL。

训练深度神经网络模型即已知输入值向量x和输出a^L，对应训练出所有隐藏层和输出层对应的矩阵W，偏倚向量b即可。

S150、获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果。

在一实施例中，步骤S150包括：

获取所选定的实体经济行业领域在当前年度的正负面评分结果序列作为深度神经网络的输入。

在本实施例中，由于针对多个实体经济行业领域利用历史数据训练，得了各实体经济行业领域对应的深度神经网络。此时当用户选定某一待预测的实体经济行业领域后，此时对应的爬取当前年度(如2018年)的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据(处理过程参考步骤S120)，并得到与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果(处理过程参考步骤S130)。

S160、将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

在本实施例中，为了预测所选定的实体经济行业领域在当前年度的行业GDP增长率时，需将所选定的实体经济行业领域在当前年度的正负面评分结果序列作为深度神经网络的输入，通过计算即可得到当前年度的文本数据对应的当前年度行业GDP增长率。

该方法实现了利用网络中海量数据而得到特定行业的行业指数，而且通过时间序列模型，进行准确预测实体经济指标的发展状态。

本发明实施例还提供一种行业舆情指数预测装置，该行业舆情指数预测装置用于执行前述行业舆情指数预测方法的任一实施例。具体地，请参阅图6，图6是本发明实施例提供的行业舆情指数预测装置的示意性框图。该行业舆情指数预测装置100可以配置于服务器中。

如图6所示，行业舆情指数预测装置100包括并行爬取单元110、预处理单元120、评分单元130、模型训练单元140、当前年度评分单元150、增长率预测单元160。

并行爬取单元110，用于通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容。

在一实施例中，如图7所示，并行爬取单元110包括：

个数统计单元111，用于获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；

分布式爬取单元112，用于通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；

分区存储单元113，用于将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

预处理单元120，用于对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合。

在一实施例中，如图8所示，预处理单元120包括：

关键词抽取单元121，用于将所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

关键词组合单元122，用于将每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成与各子数据集对应的处理后数据集合。

在本实施例中，当通过TF-IDF模型(即term frequency–inversedocumentfrequency，表示词频-逆文本频率指数模型)对所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文均进行关键词信息抽取，可以将每一文本数据简化表述为对应的关键词列表。由于每一文本数据都简化为了标题关键词列表和正文关键词列表的组合，故可以将每一行业对应的各文本数据通过行业消息列表来简化表示。

评分单元130，用于将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果。

在一实施例中，如图9所示，评分单元130包括：

行业消息列表获取单元131，用于获取每一处理后数据集合中对应的各处理后数据，及与各处理后数据对应的行业消息列表；

评分值计算单元132，用于根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果。

在本实施例中，例如计算P(y_k|x₁,x₂,…,x_n)时，P(y_k|x₁,x₂,…,x_n)表示目标用户在包括关键词x1，x2，…，xn的前提下被划分为类别yk的概率，类别yk主要有两类，y1对应正面评分结果，y2对应负面评分结果；以P(y₁|x₁,x₂,…,x_n)和P(y₂|x₁,x₂,…,x_n)中的最大值作为与各行业消息列表对应的正负面评分结果。

在一实施例中，行业舆情指数预测装置100还包括：

序列获取单元，用于由每一实体经济行业领域中各行业消息列表对应的正负面评分结果，组成与每一实体经济行业领域对应的正负面评分结果序列。

模型训练单元140，用于将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型。

在本实施例中，步骤预设的时间段一般设置为当前年度之前的历史年度，故爬取历史数据进行预处理和正负面评分计算后，得到与每一实体经济行业领域对应的正负面评分结果序列。此时针对每一实体经济行业领域均对应训练一个深度神经网络模型，以预测该实体经济行业领域的行业GDP增长率。

当前年度评分单元150，用于获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果。

在一实施例中，当前年度评分单元150还用于：

增长率预测单元160，用于将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

该装置实现了利用网络中海量数据而得到特定行业的行业指数，而且通过时间序列模型，进行准确预测实体经济指标的发展状态。

上述行业舆情指数预测装置可以实现为计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行行业舆情指数预测方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行行业舆情指数预测方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图10中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容；对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合；将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果；将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型；获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果；以及将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

在一实施例中，处理器502在执行所述通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集的步骤时，执行如下操作：获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

在一实施例中，处理器502在执行所述对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合的步骤时，执行如下操作：将所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；将每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成与各子数据集对应的处理后数据集合。

在一实施例中，处理器502在执行所述将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果的步骤时，执行如下操作：获取每一处理后数据集合中对应的各处理后数据，及与各处理后数据对应的行业消息列表；根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果。

在一实施例中，处理器502在执行所述根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果的步骤之后，还执行如下操作：由每一实体经济行业领域中各行业消息列表对应的正负面评分结果，组成与每一实体经济行业领域对应的正负面评分结果序列。

在一实施例中，处理器502在执行所述将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为深度神经网络的输入的步骤时，执行如下操作：获取所选定的实体经济行业领域在当前年度的正负面评分结果序列作为深度神经网络的输入。

本领域技术人员可以理解，图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图10所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集；其中，所述源数据集中包括与实体经济行业领域个数相同的子数据集，每一子数据集对应一个实体经济行业领域，每一爬虫工具对应爬取一个实体经济行业领域的网址清单中网页内容；对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合；将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果；将每一实体经济行业领域在所述时间段的正负面评分结果作为深度神经网络的输入，并将每一实体经济行业领域在所述时间段的行业GDP增长率作为深度神经网络的输出，进行训练得到与每一实体经济行业领域对应的深度神经网络模型；获取所选定的实体经济行业领域，爬取当前年度的文本数据集合，获取与当前年度的文本数据集合中各文本数据一一对应的当前处理后数据，及与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果；以及将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为对应深度神经网络模型的输入，计算得到当前年度的文本数据对应的当前年度行业GDP增长率。

在一实施例中，所述通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集，包括：获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

在一实施例中，所述对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合，包括：将所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；将每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成与各子数据集对应的处理后数据集合。

在一实施例中，所述将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果，包括：获取每一处理后数据集合中对应的各处理后数据，及与各处理后数据对应的行业消息列表；根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果。

在一实施例中，所述根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果之后，还包括：由每一实体经济行业领域中各行业消息列表对应的正负面评分结果，组成与每一实体经济行业领域对应的正负面评分结果序列。

在一实施例中，所述将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为深度神经网络的输入，包括：获取所选定的实体经济行业领域在当前年度的正负面评分结果序列作为深度神经网络的输入。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行业舆情指数预测方法，其特征在于，包括：

2.根据权利要求1所述的行业舆情指数预测方法，其特征在于，所述通过分布式爬虫中多个爬虫工具并行获取预设的实体经济行业领域在预设的时间段内的源数据，以得到源数据集，包括：

获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；

通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；

将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

3.根据权利要求1所述的行业舆情指数预测方法，其特征在于，所述对所述源数据集中每一子数据集的源数据均进行预处理，得到与各子数据集中包括的多篇文本数据一一对应的处理后数据，以组成与各子数据集对应的处理后数据集合，包括：

将所述源数据集中每一子数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

将每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成与各子数据集对应的处理后数据集合。

4.根据权利要求3所述的行业舆情指数预测方法，其特征在于，所述将每一处理后数据集合中对应的各处理后数据作为预先训练得到的朴素贝叶斯模型的输入，得到与各处理后数据集合中每一文本数据对应的正负面评分结果，包括：

获取每一处理后数据集合中对应的各处理后数据，及与各处理后数据对应的行业消息列表；

根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果。

5.根据权利要求4所述的行业舆情指数预测方法，其特征在于，所述根据所述朴素贝叶斯模型获取以各行业消息列表中关键词为前提条件对应计算的后验概率，以作为与各行业消息列表对应的正负面评分结果之后，还包括：

6.根据权利要求5所述的行业舆情指数预测方法，其特征在于，所述将与当前年度的文本数据集合中每一文本数据一一对应的当前年度正负面评分结果作为深度神经网络的输入，包括：

7.一种行业舆情指数预测装置，其特征在于，包括：

8.根据权利要求7所述的行业舆情指数预测装置，其特征在于，所述并行爬取单元，包括：

个数统计单元，用于获取所述分布式爬虫中爬虫工具的个数，并获取每一爬虫工具所对应的实体经济行业领域的网址清单；

分布式爬取单元，用于通过每一爬虫工具爬取对应的实体经济行业领域在所述时间段内的源数据，以组成对应的子数据集；

分区存储单元，用于将每一爬虫工具对应爬取的源数据存储至对应的存储区域，以组成每一爬虫工具对应爬取的子数据集，并由各爬虫工具对应爬取的子数据集组成源数据集。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的行业舆情指数预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的行业舆情指数预测方法。