CN111859074A

CN111859074A - 基于深度学习的网络舆情信息源影响力评估方法及系统

Info

Publication number: CN111859074A
Application number: CN202010743881.1A
Authority: CN
Inventors: 王之琼; 信俊昌; 唐俊日; 王司亓; 隋玲; 雷盛楠; 汪宇; 李嘉欣
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-10-30
Anticipated expiration: 2040-07-29
Also published as: CN111859074B

Abstract

本发明提供一种基于深度学习的网络舆情信息源影响力评估方法及系统，涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据，并将获取的数据处理成统一格式的结构化数据；然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数；对模型进行训练测试，得到测试集上的模型准确率；优化修改模型参数后对模型进行迭代训练，保存准确率最高的模型；最后将获取的多个目标信息源数据输入到准确率最高的模型中，得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源，大大提高舆情信息搜索的准确度。

Description

基于深度学习的网络舆情信息源影响力评估方法及系统

技术领域

本发明涉及信息源影响力评估及深度学习技术领域，尤其涉及一种基于深度学习的网络舆情信息源影响力评估方法及系统。

背景技术

信息源质量是舆情大数据的准确性及质量保证的前提条件，为了舆情数据能够为舆情分析以及舆情预测提供准确的数据支撑，于是如何从海量信息源中评估出优质信息源也成为了重中之重。

如何有效评估舆情信息源是一项极具挑战性的任务，国内外的网站影响力评价方法主要有两种：定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法：即基于网络计量学的角度，通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析。但是，很少有对网络舆情信息源影响力的评价工作，并且几乎未有将深度学习技术应用到舆情信息源影响力评估上的方法。

舆情信息的发出者是信息源，收受者是网民。信息源通过发布信息、转载信息或引用信息等方式向网民传播舆情信息。同时，网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度，这些方式也隐含了网民被信息源影响的程度。因此，在评价网络舆情信息源影响力时，首先，要考虑信息源的自身表现力，该表现力可通过发表文章的频率等信息因素体现。此外，由于网络舆情是通过互联网传播的，人们受各种事件的刺激而产生的对于该事件的所有认知、态度、情感和行为倾向的集合。而网民作为舆情信息源影响的接收者，在网络舆情传播中也占有非常重要的地位。因此，在评价影响力时，还要考虑网民对信息源的关注度。该关注度可通过信息源发布信息的频率，以及网民对信息的点击频率、回复频率等得以体现，最后，还要考虑信息源与舆情主题的契合度。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于深度学习的网络舆情信息源影响力评估方法及系统，实现对网络舆情信息源的影响力进行评估。

为解决上述技术问题，本发明所采取的技术方案是：一方面，本发明提供基于深度学习的网络舆情信息源影响力评估方法，包括以下步骤：

步骤1：利用Web应用程序测试工具获取多个目标信息源结构，使用爬虫库解析目标信息源，获取目标信息源中的半结构化和非结构化数据，然后利用工具库将获取的数据处理成统一格式的结构化数据，最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中；

所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息；所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性；

步骤2：利用已有的从网络上爬取并处理好的数据，建立网络信息源评估数据集；

所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数；

步骤3：建立深度学习Xgboost评估模型并设定模型参数；采用线性回归reg：linear作为Xgboost评估模型的损失函数，选用线性模型求解方法作为booster值确定模型的求解方式，选取均方误差作为模型的优化指标；同时，设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数；

步骤4：利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试，得到测试集上的模型准确率并保存模型，具体方法为：

步骤4.1、将网络信息源评估数据集划分为相等的K部分；

步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集，其余部分作为训练集；

步骤4.3、使用训练集训练Xgboost评估模型，并计算Xgboost评估模型在测试集上预测结果的准确率；

步骤4.4、重复步骤4.2和4.3K次，每次选取原始数据集中不同的部分作为测试集，得到Xgboost评估模型在K个测试集上的准确率；

步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率；

步骤5：对步骤3中的模型参数进行优化修改，获得新的Xgboost评估模型；

步骤6：重复执行步骤4至步骤5，对Xgboost评估模型进行迭代训练，直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值，停止迭代，并保存准确率最高的Xgboost模型；

步骤7：将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中，得到各目标信息源的评分以及排名。

另一方面，本发明还提供基于深度学习的网络舆情信息源影响力评估系统，包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块；

所述用户登录与注册模块提供登录功能、注册功能和重置密码功能，用于对用户提供进入系统的入口；

所述登录功能需要用户在登录界面输入账号和密码并提交给系统，系统后端根据输入的账号，向数据库的用户信息表中查询相应的密码，如果返回结果为空，则说明用户输入的账号不存在，如果返回的结果与用户输入的密码不匹配，则说明用户密码输入错误，只有当用户输入的密码和从数据库中查询的密码相匹配时，系统才会显示相应的跳转界面；

所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册，后台会通过JS脚本对这些信息进行合法性判断，如果信息全都合法则在数据库的用户信息表中新增一条用户数据；

所述重置密码功能是当用户忘记密码时，在找回密码页面输入账号和邮箱的验证信息，当邮箱验证信息正确时，系统会允许用户进行密码重置，并修改用户信息表中相应的密码信息；

所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据，结合信息源内的舆情相关信息内容，整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中；

所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。

采用上述技术方案所产生的有益效果在于：本发明提供的基于深度学习的网络舆情信息源影响力评估方法及系统，结合传统的舆情信息源影响力评估方法Pagerank，通过加入与舆情信息密切相关的因素以及各评分网站的可靠数据，提高了舆情信息源评分的准确率与可靠性。通过舆情信息源影响力评估系统，可以更高效、可靠地评估舆情信息源，大大提高舆情信息搜索的准确度，且便于操作。

附图说明

图1为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估方法的流程图；

图2为本发明实施例提供网络信息源数据获取与处理的流程图；

图3为本发明实施例提供的K折交叉验证对Xgboost评估模型进行训练测试的过程示意图；

图4为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的工作流程图；

图5为本发明实施例提供的用户登录与注册模块进行用户登录注册的流程图；

图6为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的架构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，基于深度学习的网络舆情信息源影响力评估方法，如图1所示，包括以下步骤：

本实施例中，利用Web应用程序测试工具selenium获取多个目标信息源结构，使用Beatifulsoup4爬虫库解析目标信息源，获取其中半结构化和非结构化数据，然后利用pandas工具库将数据处理成统一格式的结构化数据，最后将半结构化、非结构化数据以及结构化数据存入sqlite3数据库中，如图2所示。

所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR(PageRank)值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数、谷歌反链数、360收录数、360反链数、搜狗收录数、搜狗反链数；

本实施例中，建立的网络信息源评估数据集中部分信息源数据如表1所示：

表1网络信息源评估数据集中的部分信息源数据

步骤3：建立深度学习Xgboost评估模型并设定模型参数；Xgboost模型属于梯度提升迭代决策树中的重要算法，其中设置有三种参数：一般参数(General parameters)，提升参数(Booster parameters)和学习任务参数(Learning task parameters)；其中，Xgboost的重要参数有给定损失函数，默认为二分类逻辑回归(binary：logistic)，输出为概率；booster值给定模型的求解方式，默认为gbtree；评估指标(eval_metric)主要是用于验证集上，回归任务默认值为均方误差(root mean square error，即rmse)。

采用线性回归reg：linear作为Xgboost评估模型的损失函数，选用线性模型求解方法(gblinear)作为booster值确定模型的求解方式，选取均方误差(rmse，root meansquare error)作为模型的优化指标；同时，设定模型最大训练次数epoch，树的深度(max_depth)，当前模型的模型学习率(learning_rate)，权重的L2正则化项(Lambda)，子样本数(subsample)以及每棵树列数(colsample_bytree)。

本实施例中，设定模型最大训练次数epoch＝5000，树的深度(max_depth)默认为3，模型学习率(learning_rate)设置为0.1，权重的L2正则化项(Lambda)设置为10，子样本数(subsample)设置为0.8，每棵树列数(colsample_bytree)＝0.8。

步骤4：利用K折交叉验证(k-fold cross-validation)及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试，得到测试集上的模型准确率并保存模型，如图3所示，具体方法为：

步骤4.1、将网络信息源评估数据集划分为相等的K部分(即K折)；

基于深度学习的网络舆情信息源影响力评估系统，包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块，该系统进行网络舆情信息源影响力评估的过程如图4所示；

所述用户登录与注册模块提供登录功能、注册功能和重置密码功能，用于对用户提供进入系统的入口，具体注册登录过程如图5所示；

本实施例中，运用B/S架构，将网络舆情信息源影响力评估系统分成四层，分别为平台层、支撑层、服务层和应用层，其架构如图6所示；其中，应用层包括系统调用接口、Web访问接口和结果可视化接口，与用户端相连接；

服务层包括户注册、用户认证、用户登录、数据获取、数据分析、模型加载和信息源评估的用户可操作界面；其中，用户注册、用户登录、用户认证属于登录与注册模块提供的服务；数据获取、数据分析属于数据获取与处理模块提供的服务；模型加载、信息源评估属于信息源影响力评估模块提供的服务；

支撑层基于深度学习的回归分析方法为信息源评估提供服务；基于多模态数据处理方法为结构化和非结构化数据获取与处理提供服务；基于关系型数据库为用户注册、用户登录、用户认证提供服务；

平台层采用Sklearn框架，选用融合模型对深度学习模型Xgboost评估模型进行设计，选用损失函数reg：linear及交叉验证对模型进行优化；采用sqlite3关系型数据库作为本系统的数据库；采用Beatifulsoup4+selenium自动化测试工具作为数据爬取的平台；采用解析结构化数据的工具集(pandas)作为数据预处理的平台。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的网络舆情信息源影响力评估方法，其特征在于：包括以下步骤：

步骤3：建立深度学习Xgboost评估模型并设定模型参数；

步骤4：利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试，得到测试集上的模型准确率并保存模型；

2.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法，其特征在于：所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息；所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性。

3.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法，其特征在于：所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数。

4.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法，其特征在于：所述设定的模型参数具体为：采用线性回归reg：linear作为Xgboost评估模型的损失函数，选用线性模型求解方法作为booster值确定模型的求解方式，选取均方误差作为模型的优化指标；同时，设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数。

5.根据权利要求4所述的基于深度学习的网络舆情信息源影响力评估方法，其特征在于：具体方法为：

步骤4.1、将网络信息源评估数据集划分为相等的K部分；

步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率。

6.一种基于深度学习的网络舆情信息源影响力评估系统，采用网络舆情信息源影响力评估方法进行评估，其特征在于：包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块；

7.根据权利要求6所述的基于深度学习的网络舆情信息源影响力评估系统，其特征在于：所述用户登录与注册模块提供的登录功能需要用户在登录界面输入账号和密码并提交给系统，系统后端根据输入的账号，向数据库的用户信息表中查询相应的密码，如果返回结果为空，则说明用户输入的账号不存在，如果返回的结果与用户输入的密码不匹配，则说明用户密码输入错误，只有当用户输入的密码和从数据库中查询的密码相匹配时，系统才会显示相应的跳转界面；

所述重置密码功能是当用户忘记密码时，在找回密码页面输入账号和邮箱的验证信息，当邮箱验证信息正确时，系统会允许用户进行密码重置，并修改用户信息表中相应的密码信息。