CN109885747A

CN109885747A - 行业舆情监控方法、装置、计算机设备及存储介质

Info

Publication number: CN109885747A
Application number: CN201910078961.7A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-14

Abstract

本发明公开了行业舆情监控方法、装置、计算机设备及存储介质。该方法包括：通过分布式爬虫并行获取对应行业领域的源数据；对每一行业领域的源数据均进行预处理，得到各文本数据一一对应的处理后数据；获取与各处理后数据一一对应的全文文章向量；将每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；根据舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。该方法采用爬虫技术实现对各行业领域的信息爬取，而且对各行业领域的舆情信息能进行分类整合和排序，得到对应行业相关的舆情内容。

Description

行业舆情监控方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据采集技术领域，尤其涉及一种行业舆情监控方法、装置、计算机设备及存储介质。

背景技术

目前，特定领域的行业舆情信息，具有全网分散性，比较难以搜集到对应的舆情内容。例如，金融行业信息主要分散在财经网站、股票论坛以及微博社交媒体平台等；工业行业信息主要分散在工业论坛、工业新闻网站等平台。这些信息繁多且难以聚集，无法有效的对各行业领域的舆情进行精准的监控。

发明内容

本发明实施例提供了一种行业舆情监控方法、装置、计算机设备及存储介质，旨在解决现有技术中特定领域的行业舆情信息，具有全网分散性，比较难以搜集到对应的舆情内容，无法有效的对各行业领域的舆情进行精准的监控的问题。

第一方面，本发明实施例提供了一种行业舆情监控方法，其包括：

通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集；

对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合；

通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；

将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；

根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；以及

将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

第二方面，本发明实施例提供了一种行业舆情监控装置，其包括：

并行爬取单元，用于通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集；

预处理单元，用于对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合；

全文文章向量获取单元，用于通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；

聚类单元，用于将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；

热度值计算单元，用于根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；以及

排序显示单元，用于将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的行业舆情监控方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的行业舆情监控方法。

本发明实施例提供了一种行业舆情监控方法、装置、计算机设备及存储介质。该方法包括通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集；对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合；通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；以及将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。该方法实现了对各行业领域的信息爬取，而且对各行业领域的舆情信息能进行分类整合和排序，得到对应的行业相关的舆情内容。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行业舆情监控方法的应用场景示意图；

图2为本发明实施例提供的行业舆情监控方法的流程示意图；

图3为本发明实施例提供的行业舆情监控方法的子流程示意图；

图4为本发明实施例提供的行业舆情监控方法的另一子流程示意图；

图5为本发明实施例提供的行业舆情监控方法的另一子流程示意图；

图6为本发明实施例提供的行业舆情监控方法的另一子流程示意图；

图7为本发明实施例提供的行业舆情监控装置的示意性框图；

图8为本发明实施例提供的行业舆情监控装置的子单元示意性框图；

图9为本发明实施例提供的行业舆情监控装置的另一子单元示意性框图；

图10为本发明实施例提供的行业舆情监控装置的另一子单元示意性框图；

图11为本发明实施例提供的行业舆情监控装置的另一子单元示意性框图；

图12为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的行业舆情监控方法的应用场景示意图，图2为本发明实施例提供的行业舆情监控方法的流程示意图，该行业舆情监控方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集。

在本实施例中，为了分析各个行业领域的舆情现状，可以通过服务器中的分布式爬虫机制爬取海量的网页内容，各被爬取的网页对应有网页服务器。其中分布式爬虫机制即采用多个爬虫同时爬取多个网页的网页内容，例如在服务器设置了10个爬虫工具，其中爬虫工具1定向爬取网址1-网址10的网页内容(其中可以设置网址1-网址10为财经网站、股票论坛以及微博社交媒体平台的财经板块等)，爬虫工具2爬取网址11-网址20的网页内容(其中可以设置网址11-网址20为通信服务领域的网站等)，……，爬虫工具10爬取网址91-网址100的网页内容(其中可以设置网址91-网址100为电子制造领域的网站等)。

当通过分布式爬虫从网页上获取了海量的源数据后，即可对源数据进行后续的文本处理，以继续舆情分析和监控。

S120、对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合。

在一实施例中，如图3所示，步骤S120包括：

S121、将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

S122、将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

在本实施例中，当通过TF-IDF模型(即term frequency–inverse documentfrequency，表示词频-逆文本频率指数模型)对所述源数据集所包括的多篇文本数据中各文本数据的标题和正文均进行关键词信息抽取，可以将每一文本数据简化表述为对应的关键词列表。

词频-逆文本频率指数模型是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse DocumentFrequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

由于每一文本数据都简化为了标题关键词列表和正文关键词列表的组合，故可以将每一行业对应的各文本数据通过行业消息列表来简化表示。

S130、通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量。

在一实施例中，如图4所示，步骤S130包括：

S131、通过Word2Vec模型获取所述处理后数据集合中各处理后数据的标题关键词列表对应的标题平均向量；

S132、通过Word2Vec模型获取所述处理后数据集合中各处理后数据的正文关键词列表对应的正文平均向量；

S133、根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；其中，所述第一权重和所述第二权重均为预先设置的权重值，且第一权重和所述第二权重之和为1。

在本实施例中，通过Word2Vec模型(Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型)获取各处理后数据对应的标题关键词列表，以及相应的标题关键词列表所包括的各标题关键词对应的标题词向量，及与相应的标题关键词列表对应的标题平均向量；且通过Word2Vec模型获取各处理后数据对应的正文关键词列表，以及相应的正文关键词列表所包括的各正文关键词对应的正文词向量，及与相应的正文关键词列表对应的正文平均向量。

在获取了每一处理后数据中与标题关键词列表对应的标题平均向量，和与正文关键词列表对应的正文平均向量，此时即根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量。

由于将每一文本数据均对应转化为对应的全文文章向量，此时可通过文本的全文文章向量对每一行业的文本进行细分，得到每一行业中各子领域所对应的文本数据。例如初始通过爬虫工具2爬取了通信服务领域的网站，此时通信服务领域又能细化分为通信运营服务子领域，通信设备子领域等。

S140、将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群。

在一实施例中，如图5所示，步骤S140包括：

S141、在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；

S142、根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；

S143、将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

在本实施例中，通过DBSCAN聚类算法对每一行业领域对应的各全文文章向量进行聚类。

为了更清楚的理解DBSCAN聚类的详细过程，下面对DBSCAN聚类中所涉及的特征词进行介绍。

eps，表示扫描半径；

minPts，表示最小包含点数；

ξ邻域，表示以给定对象为中心，在给定对象的扫描半径范围内的区域；

核心对象，表示若在给定对象的ξ邻域中所包括的对象个数大于或等于最小包含点数，则称该给定对象为核心对象；

直接密度可达，表示对于样本集合D，如果样本点q在p的ξ邻域内，且p为核心对象，那么对象q从对象p直接密度可达；

密度可达，表示对于样本集合D，给定一串样本点p₁、p₂、……、p_n，若p₁＝q、且p_n＝p，假如对象p_i从p_i-1直接密度可达，那么对象q从对象p密度可达；

密度相连，表示存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相连。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。

DBSCAN需要二个参数：扫描半径(eps)和最小包含点数(minPts)。任选一个未被访问(unvisited)的点开始，找出与其距离在eps之内(包括eps)的所有附近点。

如果附近点的数量≥minPts，则当前点与其附近点形成一个簇，并且出发点被标记为已访问(visited)。然后递归，以相同的方法处理该簇内所有未被标记为已访问(visited)的点，从而对簇进行扩展。如果附近点的数量<minPts，则该点暂时被标记作为噪声点。如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

S150、根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

在一实施例中，如图6所示，步骤S150包括：

S151、获取每一行业领域所对应的多个聚类群中各文本数据的点赞数、评论数和转发数之和以得到每一文本数据的文本热度值；

S152、获取每一文本数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一文本数据的时间衰退因子；

S153、将每一行业领域所对应的多个聚类群中各文本数据的文本热度值乘以对应的时间衰退因子，得到每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

在本实施例中，行业领域所对应的多个聚类群中每一聚类群对应多个文本数据，每一文本数据均至少包括标题、正文、作者、发表时间、点赞数、评论数和转发数等信息，故对某一个聚类群中各文本数据的热度值进行计算时，可通过以下公式：

其中，Heat表示与每一文本数据一一对应的热度值，heat表示每一文本的文本热度值，表示每一文本的时间衰退因子。由于对每一文本数据的时间衰退因子进行了考虑，故随着系统时间的推移，每一文本的热度贡献值就会逐渐衰减，这也能能准确的拟合现实情况。

S160、将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

在本实施例中，当获取了各聚类群中各聚类中每一文本数据对应的热度值，此时每一聚类群中均按照各文本数据的热度值降序排序，得到了与每一聚类群对应的排序后的文本数据。通过上述方式，即可直观获知各行业领域的热点舆情。

该方法实现了对各行业领域的信息爬取，而且对各行业领域的舆情信息能进行分类整合和排序，得到对应的行业相关的舆情内容。

本发明实施例还提供一种行业舆情监控装置，该行业舆情监控装置用于执行前述行业舆情监控方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的行业舆情监控装置的示意性框图。该行业舆情监控装置100可以配置于服务器中。

如图7所示，行业舆情监控装置100包括并行爬取单元110、预处理单元120、全文文章向量获取单元130、聚类单元140、热度值计算单元150、排序显示单元160。

并行爬取单元110，用于通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集。

预处理单元120，用于对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合。

在一实施例中，如图8所示，预处理单元120包括：

关键词抽取单元121，用于将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

关键词组合单元122，用于将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

全文文章向量获取单元130，用于通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量。

在一实施例中，如图9所示，全文文章向量获取单元130包括：

标题平均向量获取单元131，用于通过Word2Vec模型获取所述处理后数据集合中各处理后数据的标题关键词列表对应的标题平均向量；

正文平均向量获取单元132，用于通过Word2Vec模型获取所述处理后数据集合中各处理后数据的正文关键词列表对应的正文平均向量；

综合计算单元133，用于根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；其中，所述第一权重和所述第二权重均为预先设置的权重值，且第一权重和所述第二权重之和为1。

聚类单元140，用于将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群。

在一实施例中，如图10所示，聚类单元140包括：

初始中心获取单元141，用于在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；

初始聚类群获取单元142，用于根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；

聚类群调整单元143，用于将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

热度值计算单元150，用于根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

在一实施例中，如图11所示，热度值计算单元150包括：

文本热度值计算单元151，用于获取每一行业领域所对应的多个聚类群中各文本数据的点赞数、评论数和转发数之和以得到每一文本数据的文本热度值；

时间衰退因子计算单元152，用于获取每一文本数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一文本数据的时间衰退因子；

热度值获取单元153，用于将每一行业领域所对应的多个聚类群中各文本数据的文本热度值乘以对应的时间衰退因子，得到每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

排序显示单元160，用于将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

该装置实现了对各行业领域的信息爬取，而且对各行业领域的舆情信息能进行分类整合和排序，得到对应的行业相关的舆情内容。

上述行业舆情监控装置可以实现为计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图12，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行行业舆情监控方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行行业舆情监控方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图12中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集；对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合；通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；以及将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

在一实施例中，处理器502在执行所述所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据的步骤时，执行如下操作：将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

在一实施例中，处理器502在执行所述通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量的步骤时，执行如下操作：通过Word2Vec模型获取所述处理后数据集合中各处理后数据的标题关键词列表对应的标题平均向量；通过Word2Vec模型获取所述处理后数据集合中各处理后数据的正文关键词列表对应的正文平均向量；根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；其中，所述第一权重和所述第二权重均为预先设置的权重值，且第一权重和所述第二权重之和为1。

在一实施例中，处理器502在执行所述将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群的步骤时，执行如下操作：在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

在一实施例中，处理器502在执行根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值的步骤时，执行如下操作：获取每一行业领域所对应的多个聚类群中各文本数据的点赞数、评论数和转发数之和以得到每一文本数据的文本热度值；获取每一文本数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一文本数据的时间衰退因子；将每一行业领域所对应的多个聚类群中各文本数据的文本热度值乘以对应的时间衰退因子，得到每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

本领域技术人员可以理解，图12中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图12所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现以下步骤：通过分布式爬虫中多个爬虫工具并行获取对应行业领域的源数据，以得到源数据集；对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，以组成处理后数据集合；通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群；根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值；以及将每一行业领域所对应的每一聚类群中按照各文本数据的热度值降序排序，并对应显示文本数据。

在一实施例中，所述对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，包括：将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

在一实施例中，所述通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量，包括：通过Word2Vec模型获取所述处理后数据集合中各处理后数据的标题关键词列表对应的标题平均向量；通过Word2Vec模型获取所述处理后数据集合中各处理后数据的正文关键词列表对应的正文平均向量；根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；其中，所述第一权重和所述第二权重均为预先设置的权重值，且第一权重和所述第二权重之和为1。

在一实施例中，所述将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群，包括：在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

在一实施例中，所述根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值，包括：获取每一行业领域所对应的多个聚类群中各文本数据的点赞数、评论数和转发数之和以得到每一文本数据的文本热度值；获取每一文本数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一文本数据的时间衰退因子；将每一行业领域所对应的多个聚类群中各文本数据的文本热度值乘以对应的时间衰退因子，得到每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行业舆情监控方法，其特征在于，包括：

2.根据权利要求1所述的行业舆情监控方法，其特征在于，所述对所述源数据集中每一行业领域的源数据均进行预处理，得到与所述源数据集中包括的多篇文本数据一一对应的处理后数据，包括：

将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

3.根据权利要求1所述的行业舆情监控方法，其特征在于，所述通过Word2Vec模型获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量，包括：

通过Word2Vec模型获取所述处理后数据集合中各处理后数据的标题关键词列表对应的标题平均向量；

通过Word2Vec模型获取所述处理后数据集合中各处理后数据的正文关键词列表对应的正文平均向量；

根据处理后数据的全文文章向量＝标题平均向量*第一权重+正文平均向量*第二权重，计算获取与所述处理后数据集合中各处理后数据一一对应的全文文章向量；其中，所述第一权重和所述第二权重均为预先设置的权重值，且第一权重和所述第二权重之和为1。

4.根据权利要求1所述的行业舆情监控方法，其特征在于，所述将所述源数据集中每一行业领域对应的各全文文章向量进行聚类，得到与每一行业领域所对应的多个聚类群，包括：

在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；

根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；

将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

5.根据权利要求1所述的行业舆情监控方法，其特征在于，所述根据预设的舆情热度值模型，获取每一行业领域所对应的多个聚类群中各文本数据对应的热度值，包括：

获取每一行业领域所对应的多个聚类群中各文本数据的点赞数、评论数和转发数之和以得到每一文本数据的文本热度值；

获取每一文本数据的发表时间与当前系统时间之差并乘以预设调节参数以作为自然指数e的指数，计算得到每一文本数据的时间衰退因子；

将每一行业领域所对应的多个聚类群中各文本数据的文本热度值乘以对应的时间衰退因子，得到每一行业领域所对应的多个聚类群中各文本数据对应的热度值。

6.一种行业舆情监控装置，其特征在于，包括：

7.根据权利要求6所述的行业舆情监控装置，其特征在于，所述预处理单元，包括：

关键词抽取单元，用于将所述源数据集所包括的多篇文本数据中各文本数据的标题和正文分别通过词频-逆文本频率指数模型进行关键词信息抽取，得到与各文本数据对应的标题关键词列表和正文关键词列表；

关键词组合单元，用于将所述源数据集中每一文本数据对应的标题关键词列表和正文关键词列表进行封装组合，得到与每一文本数据对应的行业消息列表，以组成处理后数据集合。

8.根据权利要求6所述的行业舆情监控装置，其特征在于，所述聚类单元，包括：

初始聚类中心获取单元，用于在所述源数据集中每一行业领域对应的各全文文章向量中，各行业领域均随机选定一个全文文章向量，以作为与各行业领域对应的初始聚类中心；

初始聚类单元，用于根据预设的最小包含点数，获取与各初始聚类中心之间的间距在预设的扫描半径之内的全文文章向量，以作为各行业领域对应的初始聚类群；

聚类调整单元，用于将各行业领域对应的初始聚类群中每一全文文章向量作为聚类中心，获取各行业领域对应的多个全文文章向量中与聚类中心直接密度可达、密度可达或密度相连的全文文章向量，以得到与每一行业领域所对应的多个聚类群。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的行业舆情监控方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的行业舆情监控方法。