CN110263233B

CN110263233B - 企业舆情库构建方法、装置、计算机设备及存储介质

Info

Publication number: CN110263233B
Application number: CN201910370888.0A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2023-04-07
Anticipated expiration: 2039-05-06
Also published as: CN110263233A

Abstract

本发明公开了企业舆情库构建方法、装置、计算机设备及存储介质。该方法包括：通过爬虫工具定向爬取第一网址列表中各子网页列表对应网站的网页内容；获取网页内容中包括第一关键词列表中任意一个关键词的网页信息，存储至与各行业领域对应的存储区域；通过爬虫工具并行获取第二网址列表中各网站在预设的时间段的源数据集，对源数据集中每一源数据进行预处理，得到对应的处理后数据；通过行业分类模型，对各处理后数据进行行业分类，得到行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域。该方法采用爬虫技术，实现了基于网络大数据来构建舆情库，即通过爬虫定向爬取信息后对数据由分类模型进行分类，搭建难度和成本均降低。

Description

企业舆情库构建方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据采集技术领域，尤其涉及一种企业舆情库构建方法、装置、计算机设备及存储介质。

背景技术

目前，特定领域的行业舆情信息，具有全网分散性，比较难以搜集到对应的舆情内容。例如，金融行业信息主要分散在财经网站、股票论坛以及微博社交媒体平台等；工业行业信息主要分散在工业论坛、工业新闻网站等平台。

也即经济舆情库是针对经济整体状况的信息搜集和反映整体经济的发展状况，而目前经济库的建立，大多是基于外部购买数据，较少基于网络大数据来构建，这就导致舆情库搭建难度较大，且成本较高。

发明内容

本发明实施例提供了一种企业舆情库构建方法、装置、计算机设备及存储介质，旨在解决现有技术中经济舆情库建立大多是基于外部购买数据，较少基于网络大数据来构建，这就导致舆情库搭建难度较大，且成本较高的问题。

第一方面，本发明实施例提供了一种企业舆情库构建方法，其包括：

通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；

获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；

通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；

通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及

按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。

第二方面，本发明实施例提供了一种企业舆情库构建装置，其包括：

定向爬取单元，用于通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；

分区存储单元，用于获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；

舆情爬取单元，用于通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；

舆情内容分类单元，用于通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及

模型训练单元，用于按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的企业舆情库构建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的企业舆情库构建方法。

本发明实施例提供了一种企业舆情库构建方法、装置、计算机设备及存储介质。该方法包括通过通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据；通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域；以及按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。该方法实现了基于网络大数据来构建舆情库，即通过爬虫工具定向爬取海量信息后对关键的信息根据分类模型进行分类，搭建难度和成本均降低。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的企业舆情库构建方法的应用场景示意图；

图2为本发明实施例提供的企业舆情库构建方法的流程示意图；

图3为本发明实施例提供的企业舆情库构建方法的子流程示意图；

图4为本发明实施例提供的企业舆情库构建方法的另一子流程示意图；

图5为本发明实施例提供的企业舆情库构建装置的示意性框图；

图6为本发明实施例提供的企业舆情库构建装置的子单元示意性框图；

图7为本发明实施例提供的企业舆情库构建装置的另一子单元示意性框图；

图8为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的企业舆情库构建方法的应用场景示意图，图2为本发明实施例提供的企业舆情库构建方法的流程示意图，该企业舆情库构建方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S150。

S110、通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域。

在本实施例中，为了基于网络大数据来构建实体经济预测依据的数据库，可以搭建一个经济相关的舆情库，舆情库中按行业领域划分多个存储区域，每一存储区域存储对应行业领域的舆情数据。具体实施时，每一行业领域对应的存储区域中至少存储以下数据：行业经济指标和行业新闻舆情。

例如，预设的第一网址列表分为多个子网页列表，每一子网页列表对应某一行业领域(如工业领域、农业领域、金融行业领域等)。例如某一子网页列表中对应的是工业领域所有公司的官方网站网址及工业领域指数分析类网站的网址。此时可通过爬虫爬取工业领域所有公司的官网中指定内容(如公司本年度的经营收入，利润)，还能通过爬虫爬取工业领域的行业指数，所爬取的这些信息是存储在舆情库对应行业存储区域的子文件夹中。通过上述定向爬取，能获取与分析行业经济指标相关的参数。

S120、获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域。

在本实施例中，先获取预设的第一网址列表中所包括的多个子网页列表，然后并行爬取与每一子网页列表中所包括网站的网页内容，之后判断网页内容中是否包括与预设的第一关键词列表(例如第一关键词列表设置为包括经营收入、利润、行业指数等关键词)中任意一个关键词相同的网页信息，若网页信息中包括与预设的第一关键词列表中任意一个关键词相同的网页信息，获取所述网页信息，将所述网页信息存储至对应存储区域。具体的，先是根据第一网址列表中各子网页列表分别一一对应创建一个临时存储区域(例如根据工业领域的子网页列表对应创建临时存储区域A，根据农业领域的子网页列表对应创建临时存储区域B等)，同时根据第一网址列表中各子网页列表分别一一对应创建一个存储区域(例如根据工业领域的子网页列表对应创建存储区域A1，根据农业领域的子网页列表对应创建存储区域B1等)，之后完成设置各子网页列表对应的临时存储区域一一映射一个存储区域(例如据工业领域的子网页列表对应创建临时存储区域A与存储区域A1相映射，例如据农业领域的子网页列表对应创建临时存储区域B与存储区域B1相映射)。爬虫工具根据第一网址列表中各子网页列表分别爬取的网页内容则存储至各子网页列表对应的临时存储区域。之后判断各临时存储区域中每一网页内容中是否包括所述第一关键词列表中任意一个关键词的网页信息，若网页内容中包括所述第一关键词列表中任意一个关键词的网页信息，将该网页内容对应提取的网页信息通过数据插入的方式由临时存储区域写入至该网页内容的行业领域所对应的存储区域。通过上述方式，实现了分区存储各行业领域的网页信息，即实现了各行业领域的行业经济指标的分领域存储。

S130、通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据。

在本实施例中，通过设置第二网址列表，是为了获取各行业领域相关的舆情现状，例如所设置的第二网址列表中某一子网页列表中对应的是工业领域的论坛、微博等网站的网址。通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，处理后即可得到各行业领域的新闻舆情。

在一实施例中，如图3所示，步骤S130包括：

S131、将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

S132、将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以得到与每一源数据对应的处理后数据。

在本实施例中，为了分析各个行业领域(如实体行业领域，金融行业领域等)的舆情现状，可以通过分布式爬虫机制爬取海量的网页内容。其中分布式爬虫机制即采用部署在服务器中多个爬虫同时从多个网页服务器爬取多个网页的网页内容，例如在服务器端设置了10个爬虫工具，其中爬虫工具1定向爬取网址1-网址10的网页内容，爬虫工具2爬取网址11-网址20的网页内容，……，爬虫工具10爬取网址91-网址100的网页内容。

在爬虫工具并行获取在预设的时间段的源数据集，可以是以月度为单位，也可以年度为单位。例如爬虫工具1定向爬取网址1-网址10中近5年的网页内容(例如当前年度为2018年，则爬虫工具1爬取2013-2017年度的网页内容)。

当通过分布式爬虫从网页上获取了海量的源数据后，需要对海量篇数的网页文本数据进行预处理，得到可以进行舆情分析的数据。具体的，可将每一篇网页文本数据进行标题关键词列表和正文关键词列表的提取。

当通过TF-IDF模型(即term frequency–inverse document frequency，表示词频-逆文本频率指数模型)对所述所述源数据集所包括的多篇文本数据中各文本数据的标题和正文均进行关键词信息抽取，可以将每一文本数据简化表述为对应的关键词列表。

之后，由于每一文本都简化为了标题关键词列表和正文关键词列表的组合，故可以将每一行业领域对应的各文本通过关键词列表来简化表示，即每一源数据对应的处理后数据均可用对应的关键词列表来表示。

S140、通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域。

在本实施例中，在爬取了大量的行业新闻舆情后，需要对每一篇行业新闻根据处理后数据进行行业分类。例如可以基于多层DNN(DNN即深度神经网络)的模型，对输入的处理后的数据进行模型训练，得到的多层DNN模型对处理后数据实现行业分类的目的。

S150、按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。

在一实施例中，如图4所示，步骤S150包括：

S151、按年为周期获取每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入对应的第一变化指数；

S152、按年为周期获取每一行业领域对应的存储区域中利润对应的第二变化指数；

S153、按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数。

在本实施例中，由于各存储区域此时存储了对应行业领域的网页内容和新闻舆情。此时可以针对每一存储区域的行业领域进行行业指数预测模型的训练。

此时可以先按年为周期，获取每一年度的网页内容中所提及的与企业的经营收入、利润相关的数据值以及对应的企业名称，例如获取每一存储区域对应的行业领域每一年度的经营收入排名前100位的企业及对应的经营收入，或是每一年度的利润排名前100位的企业及对应的利润。

在一实施例中，步骤S151包括：

获取上一年度的每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入的第一总和集合；

获取当前年度的每一行业领域对应的存储区域中位于所述排名阈值之前的企业营业收入的第二总和集合；

根据所述第二总和集合中各第二总和与所述第一总和集合中对应的第一总和之差除以对应的第一总和，得到与各行业领域对应的第一变化指数。

例如，若每一存储区域中存储了对应行业领域在2013-2017年中位于所述排名阈值(例如设置排名阈值为101)之前的企业营业收入，其中每一存储区域内的数据是在组内进行排序而无需参与其他存储区域数据总的排序。此时选定某一存储区域对应的行业领域为例，获取该行业领域在2013年度位于预设的排名阈值之前的企业营业收入的第一总和，并获取该行业领域在2014年度位于预设的排名阈值之前的企业营业收入的第二总和，以(第二总和-第一总和)/第一总和计算该业领域对应的第一变化指数。

依次类推可以计算该行业领域2015年度与2014年度之间对应的第一变化指数，该行业领域2016年度与2015年度之间对应的第一变化指数，该行业领域2017年度与2016年度之间对应的第一变化指数。同样的，也可以计算其他行业领域对应的第一变化指数。

步骤S152中计算第二变化指数的过程可以参考第一变化指数的计算过程，两者只是具体参数不同，计算原理完全相同。

在一实施例中，步骤S153之前还包括：

根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，按所述时间周期获取每一存储区域中对应存储的处理后数据对应的总热度值。

其中，根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，包括：

获取每一处理后数据的点赞数、评论数和转发数之和以得到每一处理后数据对应源数据的热度值；

获取每一处理后数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一处理后数据的时间衰退因子；

将各处理后数据的热度值乘以对应的时间衰退因子以得到与每一源数据一一对应的文本热度值。

在本实施例中，每一存储区域均包括多个文本数据，每一文本数据均至少包括标题、正文、作者、发表时间、点赞数、评论数和转发数等信息，故对每一存储区域包括多个文本数据中各文本数据的文本热度值进行计算时，可通过以下公式：

其中，Heat表示与每一文本数据一一对应的文本热度值，heat表示每一文本数据的热度值，

表示每一文本数据的时间衰退因子。由于对每一文本数据的时间衰退因子进行了考虑，故随着系统时间的推移，每一文本的热度贡献值就会逐渐衰减，这也能能准确的拟合现实情况。

当按年度为周期计算了每一存储区域中每一年度各文本数据的文本热度值的和值，即可按所述时间周期获取每一存储区域中对应存储的处理后数据对应的总热度值。通过上述方式，得到每一年度企业的舆情热度。

在一实施例中，步骤S153包括：

获取上一年度的每一行业领域对应的存储区域中的第一总热度值集合；

获取当前年度的每一行业领域对应的存储区域中的第二总热度值集合；

根据所述第二总热度值集合中各第二总热度值与所述第一总热度值集合中对应的第一总热度值之差除以对应的第一总热度值，得到与各行业领域对应的第三变化指数。

在计算第三变化指数的过程可以参考第一变化指数的计算过程，两者只是具体参数不同，计算原理完全相同。

当获取到预设的时间段内每一年度的的第一变化指数、第二变化指数、及第三变化指数，以及过往的每一年度的行业指数，例如以2013年度工业领域的第一变化指数、第二变化指数、及第三变化指数组成输入序列，以2013年度工业领域的行业指数为输出值，通过上述方式组装一个训练数据以对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。其中，与变化指数对应的行业指数也是通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容中可以识别得到。

当获取了用于预测行业指数的多层LSTM模型之后，步骤S150之后还包括：

S160、接收当前年度的变化指数，以作为所述当前年度的变化指数对应的行业领域的多层LSTM模型的输入，得到与当前年度的变化指数对应的行业指数。

例如，获取了工业领域基于2015年及2015年以前的历史数据，训练得到了工业领域的多层LSTM模型时，此时若模拟或者是基于现有的数据分析得到2016年度的变化指数(包括与企业营业收入对应的第一变化指数、与利润对应的第二变化指数、及与行业领域的总热度值对应的第三变化指数)，此时将2016年度的变化指数作为工业领域的多层LSTM模型的输入，即可预测出2016年度工业领域的行业指数。

该方法实现了基于网络大数据来构建舆情库，搭建难度和成本均降低。

本发明实施例还提供一种企业舆情库构建装置，该企业舆情库构建装置用于执行前述企业舆情库构建方法的任一实施例。具体地，请参阅图5，图5是本发明实施例提供的企业舆情库构建装置的示意性框图。该企业舆情库构建装置100可以配置于服务器中。

如图5所示，企业舆情库构建装置100包括定向爬取单元110、分区存储单元120、舆情爬取单元130、舆情内容分类单元140、模型训练单元150。

定向爬取单元110，用于通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域。

例如，预设的第一网址列表分为多个子网页列表，每一子网页列表对应某一行业领域(如工业领域、农业领域、金融行业领域等)。例如某一子网页列表中对应的是工业领域所有公司的官方网站网址及工业领域指数分析类网站的网址。此时可通过爬虫爬取工业领域所有公司的官网中指定内容(如公司本年度的经营收入，利润)，还能通过爬虫爬取工业领域的行业指数，所爬取的这些信息是存储在舆情库对应行业存储区域的子文件夹中。具体的，先是根据第一网址列表中各子网页列表分别一一对应创建一个临时存储区域(例如根据工业领域的子网页列表对应创建临时存储区域A，根据农业领域的子网页列表对应创建临时存储区域B等)，同时根据第一网址列表中各子网页列表分别一一对应创建一个存储区域(例如根据工业领域的子网页列表对应创建存储区域A1，根据农业领域的子网页列表对应创建存储区域B1等)，之后完成设置各子网页列表对应的临时存储区域一一映射一个存储区域(例如据工业领域的子网页列表对应创建临时存储区域A与存储区域A1相映射，例如据农业领域的子网页列表对应创建临时存储区域B与存储区域B1相映射)。爬虫工具根据第一网址列表中各子网页列表分别爬取的网页内容则存储至各子网页列表对应的临时存储区域。之后判断各临时存储区域中每一网页内容中是否包括所述第一关键词列表中任意一个关键词的网页信息，若网页内容中包括所述第一关键词列表中任意一个关键词的网页信息，将该网页内容对应提取的网页信息通过数据插入的方式由临时存储区域写入至该网页内容的行业领域所对应的存储区域。通过上述定向爬取，能获取与分析行业经济指标相关的参数。

分区存储单元120，用于获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域。

在本实施例中，先获取预设的第一网址列表中所包括的多个子网页列表，然后并行爬取与每一子网页列表中所包括网站的网页内容，之后判断网页内容中是否包括与预设的第一关键词列表(例如第一关键词列表设置为包括经营收入、利润、行业指数等关键词)中任意一个关键词相同的网页信息，若网页信息中包括与预设的第一关键词列表中任意一个关键词相同的网页信息，获取所述网页信息，将所述网页信息存储至对应存储区域。通过上述方式，实现了分区存储各行业领域的网页信息。

舆情爬取单元130，用于通过爬虫工具并行获取预设的第二网址列表中各网站在预设的时间段的源数据集，对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据。

在一实施例中，如图6所示，舆情爬取单元130包括：

关键词抽取单元131、将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

关键词组合单元132，用于将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以得到与每一源数据对应的处理后数据。

舆情内容分类单元140，用于通过预先训练的行业分类模型，对与每一源数据对应的处理后数据进行行业分类，得到与每一处理后数据的行业分类结果，将每一处理后数据根据行业分类结果存储至对应的存储区域。

模型训练单元150，用于按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。

在一实施例中，如图7所示，模型训练单元150包括：

第一变化指数获取单元151，用于按年为周期获取每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入对应的第一变化指数；

第二变化指数获取单元152，用于按年为周期获取每一行业领域对应的存储区域中利润对应的第二变化指数；

第三变化指数获取单元153，用于按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数。

在一实施例中，第一变化指数获取单元151包括：

第一总和集合获取单元，用于获取上一年度的每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入的第一总和集合；

第二总和集合获取单元，用于获取当前年度的每一行业领域对应的存储区域中位于所述排名阈值之前的企业营业收入的第二总和集合；

第一变化指数计算单元，用于根据所述第二总和集合中各第二总和与所述第一总和集合中对应的第一总和之差除以对应的第一总和，得到与各行业领域对应的第一变化指数。

第二变化指数获取单元152中计算第二变化指数的过程可以参考第一变化指数的计算过程，两者只是具体参数不同，计算原理完全相同。

在一实施例中，模型训练单元150还包括：

文本热度值计算单元，用于根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，按所述时间周期获取每一存储区域中对应存储的处理后数据对应的总热度值。

热度值计算单元，用于获取每一处理后数据的点赞数、评论数和转发数之和以得到每一处理后数据对应源数据的热度值；

衰退因子计算单元，用于获取每一处理后数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一处理后数据的时间衰退因子；

文本热度值获取单元，用于将各处理后数据的热度值乘以对应的时间衰退因子以得到与每一源数据一一对应的文本热度值。

在一实施例中，第三变化指数获取单元153包括：

第一总热度值集合获取单元，用于获取上一年度的每一行业领域对应的存储区域中的第一总热度值集合；

第二总热度值集合获取单元，用于获取当前年度的每一行业领域对应的存储区域中的第二总热度值集合；

第三变化指数计算单元，用于根据所述第二总热度值集合中各第二总热度值与所述第一总热度值集合中对应的第一总热度值之差除以对应的第一总热度值，得到与各行业领域对应的第三变化指数。

当获取到预设的时间段内每一年度的的第一变化指数、第二变化指数、及第三变化指数，以及过往的每一年度的行业指数，例如以2013年度工业领域的第一变化指数、第二变化指数、及第三变化指数组成输入序列，以2013年度工业领域的行业指数为输出值，通过上述方式组装一个训练数据以对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型。

该装置实现了基于网络大数据来构建舆情库，搭建难度和成本均降低。

上述企业舆情库构建装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行企业舆情库构建方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行企业舆情库构建方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如本发明实施例提供的企业舆情库构建方法。

本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现如本发明实施例提供的企业舆情库构建方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种企业舆情库构建方法，其特征在于，包括：

通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；其中，根据第一网址列表中各子网页列表创建临时存储区域；

获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；其中，所述存储区域由所述临时存储区域映射创建；

按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型；其中，所述变化指数包括与企业营业收入对应的第一变化指数、与利润对应的第二变化指数、及与行业领域的总热度值对应的第三变化指数；

其中，获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域，包括：

判断各所述临时存储区域中每一所述网页内容中是否包括所述第一关键词列表中任意一个关键词的所述网页信息；

若所述网页内容中包括所述第一关键词列表中任意一个关键词的所述网页信息，则将所述网页内容对应提取的所述网页信息通过数据插入的方式由所述临时存储区域写入至对应的所述存储区域。

2.根据权利要求1所述的企业舆情库构建方法，其特征在于，所述对所述源数据集中每一源数据进行预处理，得到与每一源数据对应的处理后数据，包括：

将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以得到与每一源数据对应的处理后数据。

3.根据权利要求1所述的企业舆情库构建方法，其特征在于，所述按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，包括：

按年为周期获取每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入对应的第一变化指数；

按年为周期获取每一行业领域对应的存储区域中利润对应的第二变化指数；

按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数。

4.根据权利要求3所述的企业舆情库构建方法，其特征在于，所述按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数之前，还包括：

5.根据权利要求4所述的企业舆情库构建方法，其特征在于，所述根据每一存储区域中对应存储的处理后数据，及预设的舆情热度模型，获取与各存储区域的处理后数据一一对应的文本热度值，包括：

6.根据权利要求3所述的企业舆情库构建方法，其特征在于，所述按年为周期获取每一行业领域对应的存储区域中位于预设的排名阈值之前的企业营业收入对应的第一变化指数，包括：

7.根据权利要求3所述的企业舆情库构建方法，其特征在于，所述按年为周期获取每一行业领域对应的存储区域相应的总热度值对应的第三变化指数，包括：

8.一种企业舆情库构建装置，其特征在于，包括：

定向爬取单元，用于通过爬虫工具定向爬取预设的第一网址列表中各子网页列表对应网站的网页内容；其中，每一子网页列表对应一个行业领域；其中，根据第一网址列表中各子网页列表创建临时存储区域；

分区存储单元，用于获取所述网页内容中包括预设的第一关键词列表中任意一个关键词的网页信息，并存储至与各行业领域对应的存储区域；其中，所述存储区域由所述临时存储区域映射创建；

模型训练单元，用于按预设的时间周期在每一行业领域对应的存储区域中获取与预设的第二关键词列表中每一关键词一一对应的变化指数，以第二关键词列表中每一关键词一一对应的变化指数为待训练多层LSTM模型的输入，将与变化指数对应的行业指数作为待训练多层LSTM模型的输出，对待训练多层LSTM模型进行训练，得到用于预测行业指数的多层LSTM模型；其中，所述变化指数包括与企业营业收入对应的第一变化指数、与利润对应的第二变化指数、及与行业领域的总热度值对应的第三变化指数；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的企业舆情库构建方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的企业舆情库构建方法。