CN116861058A

CN116861058A - 应用于政务领域的舆情监测系统及方法

Info

Publication number: CN116861058A
Application number: CN202311126389.XA
Authority: CN
Inventors: 张凯; 陈兆亮; 宁方刚; 迟钰沛; 刘燕
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-10-10
Anticipated expiration: 2043-09-04
Also published as: CN116861058B

Abstract

本发明公开了应用于政务领域的舆情监测系统及方法，属于政务系统技术领域，要解决的技术问题为如何高效全面的实现舆情监测。包括：数据抓取模块，用于通过调度器调度抓取进程，通过抓取进程解析网页的DOM元素，得到元素信息；数据清洗模块，用于对元素信息进行数据过滤，并设置情感标签，得到预处理后数据，预处理后数据为带有情感标签的过滤后数据；数据输出模块，用于将预处理后数据存储至数据仓库，对预处理后数据进行增量发布，并在数据仓库中配置实时索引服务，实时索引服务提供索引API，用户通过索引API访问实时索引服务，实时索引服务用于基于指定的搜索条件返回检索结果。

Description

应用于政务领域的舆情监测系统及方法

技术领域

本发明涉及政务系统技术领域，具体地说是应用于政务领域的舆情监测系统及方法。

背景技术

互联网的快速发展为政务单位和公众之间交流搭建起一座沟通的桥梁，这使得政务可以更好向工作传达政策法规，有利于政务工作的顺畅进行。虽然互联网在政府与公众沟通上发挥着巨大的作用，但负面舆情信息也是难以避免的。只有及时聆听公众的声音，并及时处理，才能防止负面舆情信息的无线扩大，避免给政府公信力和形象造成损害，所以一般通过网络舆情检测软件的采集功能对网络进行定时的搜索，利用网络舆情检测系统对监测采集到的公众舆论和媒介报道进行分类汇总，形成事件的舆情分析报告，为政务部门负面舆情信息处置提供重要的决策依据。

如何高效全面的实现舆情监测，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供应用于政务领域的舆情监测系统及方法，来解决如何高效全面的实现舆情监测的技术问题。

第一方面，本发明一种应用于政务领域的舆情监测系统，包括：

数据抓取模块，所述数据抓取模块用于通过调度器调度抓取进程，通过抓取进程解析网页的DOM元素，得到元素信息；

数据清洗模块，所述数据清洗模块用于对元素信息进行数据过滤，并设置情感标签，得到预处理后数据，预处理后数据为带有情感标签的过滤后数据；

数据输出模块，所述数据输出模块用于将预处理后数据存储至数据仓库，对预处理后数据进行增量发布，并在数据仓库中配置实时索引服务，所述实时索引服务提供索引API，用户通过索引API访问实时索引服务，所述实时索引服务用于基于指定的搜索条件返回检索结果，其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。

作为优选，对于所有待抓取的页面，所述数据抓取模块用于基于页面的链接地址形成链接列表；

调度器用于将一个IP地址下的抓取进程分配至链接列表，对于链接列表中每个页面，抓取进程通过预配置的正则表达式从页面中解析的DOM元素，得到元素信息并返回调度器；

如果抓取进程在预定时间内未返回或者返回失败，调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取，直至返回元素信息，如果预定次数后均未返回元素信息，通过人工干预的方式对抓取失败的页面进行数据抓取。

作为优选，对于更新的网页，配置新的正则表达式，抓取进程通过新的正则表达式从更新的页面中解析的DOM元素，得到元素信息并返回调度器。

作为优选，1-3任一项所述的应用于政务领域的舆情监测系统，其特征在于，所述数据清洗模块用于执行如下对元素信息进行数据过滤：

对与营销文案相关的元素信息进行过滤；

对过滤后的元素信息进行相关性过滤。

第二方面，本发明一种应用于政务领域的舆情监测方法，用于通过如第一方面任一项所述的一种应用于政务领域的舆情监测系统进行舆情监测，所述方法包括如下步骤：

数据抓取：通过调度器调度抓取进程，通过抓取进程解析网页的DOM元素，得到元素信息；

数据清洗：对元素信息进行数据过滤，并设置情感标签，得到预处理后数据，预处理后数据为带有情感标签的过滤后数据；

数据输出：将预处理后数据存储至数据仓库，对预处理后数据进行增量发布，并在数据仓库中配置实时索引服务，所述实时索引服务提供索引API，用户通过索引API访问实时索引服务，所述实时索引服务用于基于指定的搜索条件返回检索结果，其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。

作为优选，对于所有待抓取的页面，基于页面的链接地址形成链接列表；

通过调度器将一个IP地址下的抓取进程分配至链接列表，对于链接列表中每个页面，抓取进程通过预配置的正则表达式从页面中解析的DOM元素，得到元素信息并返回调度器；

作为优选，对元素信息进行数据过滤，包括如下步骤：

对与营销文案相关的元素信息进行过滤；

对过滤后的元素信息进行相关性过滤。

本发明的应用于政务领域的舆情监测系统及方法具有以下优点：

1、在数据抓取过程中，通过抓取进程解析网页的DOM元素，对于得的元素信息进行进行过滤后，得到带有情感标签的过滤后数据，并上述数据存储在数据仓库中，对数据进行增量发布，并在数据仓库中配置实时索引服务，从而实现了全面的舆情监测，并为用户提供了数据检索；

2、鉴于网页存在更新情况，在数据抓取过程，对于更新的网页，通过更新的正则表达式进行网页解析，提高了数据抓取的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1一种应用于政务领域的舆情监测系统中数据抓取原理框图；

图2为实施例2一种应用于政务领域的舆情监测方法的流程框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供应用于政务领域的舆情监测系统及方法，用于解决如何高效全面的实现舆情监测的技术问题。

实施例1：本发明一种应用于政务领域的舆情监测系统，包括数据抓取模块、数据清洗模块以及数据输出模块。

数据抓取模块用于通过调度器调度抓取进程，通过抓取进程解析网页的DOM元素，得到元素信息。

本实施例中，对于所有待抓取的页面，数据抓取模块用于基于页面的链接地址形成链接列表。对应的，调度器用于将一个IP地址下的抓取进程分配至链接列表，对于链接列表中每个页面，抓取进程通过预配置的正则表达式从页面中解析的DOM元素，得到元素信息并返回调度器；如果抓取进程在预定时间内未返回或者返回失败，调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取，直至返回元素信息，如果预定次数后均未返回元素信息，通过人工干预的方式对抓取失败的页面进行数据抓取。

作为具体实施，数据抓取过程中，浏览器会把HTML文档（网页）解析成一个树结构，并且在此基础上定义了访问和操作 HTML 文档的标准，根据W3C标准称之为DOM文档对象模型。

抓取进程应该通过解析DOM元素快速提取希望获得的元素信息，通过配置提取数据的正则表达式，抓取任意页面中的任意内容。解析DOM元素通过正则表达式匹配出想要的数据。

每一个抓取进程将被调度器分配待抓取的链接列表与对应配置，独立工作，互不干扰，并自有延迟与异常处理。当一个抓取进程长时无返回，或返回失败时，调度端将相应任务分配于其它IP段的新起抓取进程再度重试，只至最终成功、或多次尝试后仍失败。外部数据源的屏蔽策略与网页结构升级经常会导致抓取失败，此时，系统应及时检测问题，由人工介入干预。由于采用了标准配置项，介入工作只需确定抓取失败的页面仍能打开，重新定位到变更后的元素节点，测试配置后重新抓取。

抓取数据的时候，因为很多网站都有反爬机制，所以很容易被封IP，如果预定长内未从网页中抓取到内容，则分配其他IP段的抓取进程。

抓取的网页可能更新，需要设置新的正则表达式提取想要的数据。本实施例中，对于更新的网页，配置新的正则表达式，抓取进程通过新的正则表达式从更新的页面中解析的DOM元素，得到元素信息并返回调度器。

数据清洗模块用于对元素信息进行数据过滤，并设置情感标签，得到预处理后数据，预处理后数据为带有情感标签的过滤后数据。

本实施例中，数据清洗模块用于执行如下对元素信息进行数据过滤：对与营销文案相关的元素信息进行过滤；对过滤后的元素信息进行相关性过滤。

作为具体实施，数据清洗分为三个阶段：数据过滤，数据相关性，数据情感标签。数据过滤主要针对各类营销文案进行屏蔽，尤其是不少产品或活动，会在设计中鼓励用户自动在“微博”等媒体上留下分享痕迹。这些痕迹不是自然的用户反馈，且数量较大，会干扰舆情分析。转化为算法问题，有一个很大的字符串列表，找到这次字符串中出现频次高于某阈值的子字符串。这个算法时间复杂度明显非一阶，不具备可扩展性，本实施例优化方案是抽样聚类后提取出模板，然后用O(N)的方法对全文本进行过滤。

数据输出模块用于将预处理后数据存储至数据仓库，对预处理后数据进行增量发布，并在数据仓库中配置实时索引服务，所述实时索引服务提供索引API，用户通过索引API访问实时索引服务，所述实时索引服务用于基于指定的搜索条件返回检索结果，其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。

本实施例，数据输出模块用于在数据清洗后进入仓库，仓库基础上，建设了实时索引，将标记完成清洗的数据增量发布。下游用户可通过标准API形式访问，指定返回条目、时间窗口、产品线、数据源、情感、标签、关键字等信息，可获得相应反馈。由于对反馈的内容文本进行倒排索引，用户可以方便检索，获得用户在一定时间内在微博、贴吧、论坛等各渠道的相关反馈，非常方便。

实施例2：本发明一种应用于政务领域的舆情监测方法，通过实施例1公开的系统进行舆情监测。该方法包括数据抓取、数据清洗和数据输出三个步骤。

步骤S100、数据抓取：通过调度器调度抓取进程，通过抓取进程解析网页的DOM元素，得到元素信息。

本实施例中，对于所有待抓取的页面，基于页面的链接地址形成链接列表。对应的，调度器将一个IP地址下的抓取进程分配至链接列表，对于链接列表中每个页面，抓取进程通过预配置的正则表达式从页面中解析的DOM元素，得到元素信息并返回调度器；如果抓取进程在预定时间内未返回或者返回失败，调度器重新分配一个新的IP地址的抓取进程继续进行数据抓取，直至返回元素信息，如果预定次数后均未返回元素信息，通过人工干预的方式对抓取失败的页面进行数据抓取。

步骤S200、数据清洗：对元素信息进行数据过滤，并设置情感标签，得到预处理后数据，预处理后数据为带有情感标签的过滤后数据。

本实施例中，对元素信息进行数据过滤包括如下步骤：对与营销文案相关的元素信息进行过滤；对过滤后的元素信息进行相关性过滤。

步骤S300、数据输出：将预处理后数据存储至数据仓库，对预处理后数据进行增量发布，并在数据仓库中配置实时索引服务，所述实时索引服务提供索引API，用户通过索引API访问实时索引服务，所述实时索引服务用于基于指定的搜索条件返回检索结果，其中搜索条件包括返回条目、时间窗口、产品线、数据源、情感、标签和关键字。

本实施例，在数据清洗后进入仓库，仓库基础上，建设了实时索引，将标记完成清洗的数据增量发布。下游用户可通过标准API形式访问，指定返回条目、时间窗口、产品线、数据源、情感、标签、关键字等信息，可获得相应反馈。由于对反馈的内容文本进行倒排索引，用户可以方便检索，获得用户在一定时间内在微博、贴吧、论坛等各渠道的相关反馈，非常方便。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种应用于政务领域的舆情监测系统，其特征在于，包括：

2.根据权利要求1所述的应用于政务领域的舆情监测系统，其特征在于，对于所有待抓取的页面，所述数据抓取模块用于基于页面的链接地址形成链接列表；

3.根据权利要求2所述的应用于政务领域的舆情监测系统，其特征在于，对于更新的网页，配置新的正则表达式，抓取进程通过新的正则表达式从更新的页面中解析的DOM元素，得到元素信息并返回调度器。

4.根据权利要求2所述的应用于政务领域的舆情监测系统，其特征在于，1-3任一项所述的应用于政务领域的舆情监测系统，其特征在于，所述数据清洗模块用于执行如下对元素信息进行数据过滤：

对与营销文案相关的元素信息进行过滤；

对过滤后的元素信息进行相关性过滤。

5.一种应用于政务领域的舆情监测方法，其特征在于，用于通过如权利要求1-4任一项所述的一种应用于政务领域的舆情监测系统进行舆情监测，所述方法包括如下步骤：

6.根据权利要求5所述的应用于政务领域的舆情监测方法，其特征在于，对于所有待抓取的页面，基于页面的链接地址形成链接列表；

7.根据权利要求6所述的应用于政务领域的舆情监测方法，其特征在于，对于更新的网页，配置新的正则表达式，抓取进程通过新的正则表达式从更新的页面中解析的DOM元素，得到元素信息并返回调度器。

8.根据权利要求5-7任一项所述的应用于政务领域的舆情监测方法，其特征在于，对元素信息进行数据过滤，包括如下步骤：

对与营销文案相关的元素信息进行过滤；

对过滤后的元素信息进行相关性过滤。