CN111859074A - 基于深度学习的网络舆情信息源影响力评估方法及系统 - Google Patents
基于深度学习的网络舆情信息源影响力评估方法及系统 Download PDFInfo
- Publication number
- CN111859074A CN111859074A CN202010743881.1A CN202010743881A CN111859074A CN 111859074 A CN111859074 A CN 111859074A CN 202010743881 A CN202010743881 A CN 202010743881A CN 111859074 A CN111859074 A CN 111859074A
- Authority
- CN
- China
- Prior art keywords
- information source
- model
- evaluation
- data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 238000011156 evaluation Methods 0.000 claims abstract description 39
- 238000013210 evaluation model Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 229910052711 selenium Inorganic materials 0.000 description 2
- 239000011669 selenium Substances 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据,并将获取的数据处理成统一格式的结构化数据;然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数;对模型进行训练测试,得到测试集上的模型准确率;优化修改模型参数后对模型进行迭代训练,保存准确率最高的模型;最后将获取的多个目标信息源数据输入到准确率最高的模型中,得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度。
Description
技术领域
本发明涉及信息源影响力评估及深度学习技术领域,尤其涉及一种基于深度学习的网络舆情信息源影响力评估方法及系统。
背景技术
信息源质量是舆情大数据的准确性及质量保证的前提条件,为了舆情数据能够为舆情分析以及舆情预测提供准确的数据支撑,于是如何从海量信息源中评估出优质信息源也成为了重中之重。
如何有效评估舆情信息源是一项极具挑战性的任务,国内外的网站影响力评价方法主要有两种:定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法:即基于网络计量学的角度,通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析。但是,很少有对网络舆情信息源影响力的评价工作,并且几乎未有将深度学习技术应用到舆情信息源影响力评估上的方法。
舆情信息的发出者是信息源,收受者是网民。信息源通过发布信息、转载信息或引用信息等方式向网民传播舆情信息。同时,网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度,这些方式也隐含了网民被信息源影响的程度。因此,在评价网络舆情信息源影响力时,首先,要考虑信息源的自身表现力,该表现力可通过发表文章的频率等信息因素体现。此外,由于网络舆情是通过互联网传播的,人们受各种事件的刺激而产生的对于该事件的所有认知、态度、情感和行为倾向的集合。而网民作为舆情信息源影响的接收者,在网络舆情传播中也占有非常重要的地位。因此,在评价影响力时,还要考虑网民对信息源的关注度。该关注度可通过信息源发布信息的频率,以及网民对信息的点击频率、回复频率等得以体现,最后,还要考虑信息源与舆情主题的契合度。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,实现对网络舆情信息源的影响力进行评估。
为解决上述技术问题,本发明所采取的技术方案是:一方面,本发明提供基于深度学习的网络舆情信息源影响力评估方法,包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性;
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数;
步骤3:建立深度学习Xgboost评估模型并设定模型参数;采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法作为booster值确定模型的求解方式,选取均方误差作为模型的优化指标;同时,设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数;
步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型,具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分;
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
另一方面,本发明还提供基于深度学习的网络舆情信息源影响力评估系统,包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口;
所述登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
采用上述技术方案所产生的有益效果在于:本发明提供的基于深度学习的网络舆情信息源影响力评估方法及系统,结合传统的舆情信息源影响力评估方法Pagerank,通过加入与舆情信息密切相关的因素以及各评分网站的可靠数据,提高了舆情信息源评分的准确率与可靠性。通过舆情信息源影响力评估系统,可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度,且便于操作。
附图说明
图1为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估方法的流程图;
图2为本发明实施例提供网络信息源数据获取与处理的流程图;
图3为本发明实施例提供的K折交叉验证对Xgboost评估模型进行训练测试的过程示意图;
图4为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的工作流程图;
图5为本发明实施例提供的用户登录与注册模块进行用户登录注册的流程图;
图6为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的架构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于深度学习的网络舆情信息源影响力评估方法,如图1所示,包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性;
本实施例中,利用Web应用程序测试工具selenium获取多个目标信息源结构,使用Beatifulsoup4爬虫库解析目标信息源,获取其中半结构化和非结构化数据,然后利用pandas工具库将数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入sqlite3数据库中,如图2所示。
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR(PageRank)值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数、谷歌反链数、360收录数、360反链数、搜狗收录数、搜狗反链数;
本实施例中,建立的网络信息源评估数据集中部分信息源数据如表1所示:
表1网络信息源评估数据集中的部分信息源数据
步骤3:建立深度学习Xgboost评估模型并设定模型参数;Xgboost模型属于梯度提升迭代决策树中的重要算法,其中设置有三种参数:一般参数(General parameters),提升参数(Booster parameters)和学习任务参数(Learning task parameters);其中,Xgboost的重要参数有给定损失函数,默认为二分类逻辑回归(binary:logistic),输出为概率;booster值给定模型的求解方式,默认为gbtree;评估指标(eval_metric)主要是用于验证集上,回归任务默认值为均方误差(root mean square error,即rmse)。
采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法(gblinear)作为booster值确定模型的求解方式,选取均方误差(rmse,root meansquare error)作为模型的优化指标;同时,设定模型最大训练次数epoch,树的深度(max_depth),当前模型的模型学习率(learning_rate),权重的L2正则化项(Lambda),子样本数(subsample)以及每棵树列数(colsample_bytree)。
本实施例中,设定模型最大训练次数epoch=5000,树的深度(max_depth)默认为3,模型学习率(learning_rate)设置为0.1,权重的L2正则化项(Lambda)设置为10,子样本数(subsample)设置为0.8,每棵树列数(colsample_bytree)=0.8。
步骤4:利用K折交叉验证(k-fold cross-validation)及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型,如图3所示,具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分(即K折);
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
基于深度学习的网络舆情信息源影响力评估系统,包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块,该系统进行网络舆情信息源影响力评估的过程如图4所示;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口,具体注册登录过程如图5所示;
所述登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
本实施例中,运用B/S架构,将网络舆情信息源影响力评估系统分成四层,分别为平台层、支撑层、服务层和应用层,其架构如图6所示;其中,应用层包括系统调用接口、Web访问接口和结果可视化接口,与用户端相连接;
服务层包括户注册、用户认证、用户登录、数据获取、数据分析、模型加载和信息源评估的用户可操作界面;其中,用户注册、用户登录、用户认证属于登录与注册模块提供的服务;数据获取、数据分析属于数据获取与处理模块提供的服务;模型加载、信息源评估属于信息源影响力评估模块提供的服务;
支撑层基于深度学习的回归分析方法为信息源评估提供服务;基于多模态数据处理方法为结构化和非结构化数据获取与处理提供服务;基于关系型数据库为用户注册、用户登录、用户认证提供服务;
平台层采用Sklearn框架,选用融合模型对深度学习模型Xgboost评估模型进行设计,选用损失函数reg:linear及交叉验证对模型进行优化;采用sqlite3关系型数据库作为本系统的数据库;采用Beatifulsoup4+selenium自动化测试工具作为数据爬取的平台;采用解析结构化数据的工具集(pandas)作为数据预处理的平台。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (7)
1.一种基于深度学习的网络舆情信息源影响力评估方法,其特征在于:包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
步骤3:建立深度学习Xgboost评估模型并设定模型参数;
步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
2.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性。
3.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数。
4.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述设定的模型参数具体为:采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法作为booster值确定模型的求解方式,选取均方误差作为模型的优化指标;同时,设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数。
5.根据权利要求4所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分;
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率。
6.一种基于深度学习的网络舆情信息源影响力评估系统,采用网络舆情信息源影响力评估方法进行评估,其特征在于:包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
7.根据权利要求6所述的基于深度学习的网络舆情信息源影响力评估系统,其特征在于:所述用户登录与注册模块提供的登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743881.1A CN111859074B (zh) | 2020-07-29 | 2020-07-29 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743881.1A CN111859074B (zh) | 2020-07-29 | 2020-07-29 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859074A true CN111859074A (zh) | 2020-10-30 |
CN111859074B CN111859074B (zh) | 2023-12-29 |
Family
ID=72946700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010743881.1A Active CN111859074B (zh) | 2020-07-29 | 2020-07-29 | 基于深度学习的网络舆情信息源影响力评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859074B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597141A (zh) * | 2020-12-24 | 2021-04-02 | 国网山东省电力公司 | 一种基于舆情分析的网络流量检测方法 |
CN112785146A (zh) * | 2021-01-20 | 2021-05-11 | 中慧绿浪科技(天津)集团有限公司 | 一种网络舆情的评估方法及系统 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098738A1 (en) * | 2014-10-06 | 2016-04-07 | Chunghwa Telecom Co., Ltd. | Issue-manage-style internet public opinion information evaluation management system and method thereof |
US20160267377A1 (en) * | 2015-03-12 | 2016-09-15 | Staples, Inc. | Review Sentiment Analysis |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107153908A (zh) * | 2017-03-24 | 2017-09-12 | 国家计算机网络与信息安全管理中心 | 移动新闻App影响力评级方法 |
CN107169873A (zh) * | 2017-06-16 | 2017-09-15 | 北京信息科技大学 | 一种多特征融合的微博用户权威度评价方法 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN107644269A (zh) * | 2017-09-11 | 2018-01-30 | 国网江西省电力公司南昌供电分公司 | 一种支持风险评估的电力舆情预测方法及装置 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN108256740A (zh) * | 2017-12-22 | 2018-07-06 | 北京智慧星光信息技术有限公司 | 一种获取互联网信息传播指标的控制方法 |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN108874992A (zh) * | 2018-06-12 | 2018-11-23 | 深圳华讯网络科技有限公司 | 舆情分析方法、系统、计算机设备和存储介质 |
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN109471965A (zh) * | 2018-10-26 | 2019-03-15 | 四川才子软件信息网络有限公司 | 一种基于大数据的网络舆情数据采集、处理方法及监测平台 |
CN109508373A (zh) * | 2018-11-13 | 2019-03-22 | 深圳前海微众银行股份有限公司 | 企业舆情指数的计算方法、设备及计算机可读存储介质 |
CN109933656A (zh) * | 2019-03-15 | 2019-06-25 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN110298386A (zh) * | 2019-06-10 | 2019-10-01 | 成都积微物联集团股份有限公司 | 一种基于图像内容的标签自动化定义方法 |
CN110458425A (zh) * | 2019-07-25 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 风险主体的风险分析方法、装置、可读介质及电子设备 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及系统 |
CN111062202A (zh) * | 2019-11-04 | 2020-04-24 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
-
2020
- 2020-07-29 CN CN202010743881.1A patent/CN111859074B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160098738A1 (en) * | 2014-10-06 | 2016-04-07 | Chunghwa Telecom Co., Ltd. | Issue-manage-style internet public opinion information evaluation management system and method thereof |
US20160267377A1 (en) * | 2015-03-12 | 2016-09-15 | Staples, Inc. | Review Sentiment Analysis |
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107153908A (zh) * | 2017-03-24 | 2017-09-12 | 国家计算机网络与信息安全管理中心 | 移动新闻App影响力评级方法 |
CN107239529A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于深度学习的舆情热点类别划分方法 |
CN107169873A (zh) * | 2017-06-16 | 2017-09-15 | 北京信息科技大学 | 一种多特征融合的微博用户权威度评价方法 |
CN107491499A (zh) * | 2017-07-27 | 2017-12-19 | 杭州中奥科技有限公司 | 一种基于非结构化数据的舆情预警方法 |
CN107644269A (zh) * | 2017-09-11 | 2018-01-30 | 国网江西省电力公司南昌供电分公司 | 一种支持风险评估的电力舆情预测方法及装置 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN108256740A (zh) * | 2017-12-22 | 2018-07-06 | 北京智慧星光信息技术有限公司 | 一种获取互联网信息传播指标的控制方法 |
CN108563638A (zh) * | 2018-04-13 | 2018-09-21 | 武汉大学 | 一种基于主题识别和集成学习的微博情感分析方法 |
CN108874992A (zh) * | 2018-06-12 | 2018-11-23 | 深圳华讯网络科技有限公司 | 舆情分析方法、系统、计算机设备和存储介质 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及系统 |
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN109471965A (zh) * | 2018-10-26 | 2019-03-15 | 四川才子软件信息网络有限公司 | 一种基于大数据的网络舆情数据采集、处理方法及监测平台 |
CN109508373A (zh) * | 2018-11-13 | 2019-03-22 | 深圳前海微众银行股份有限公司 | 企业舆情指数的计算方法、设备及计算机可读存储介质 |
CN109933656A (zh) * | 2019-03-15 | 2019-06-25 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN110298386A (zh) * | 2019-06-10 | 2019-10-01 | 成都积微物联集团股份有限公司 | 一种基于图像内容的标签自动化定义方法 |
CN110458425A (zh) * | 2019-07-25 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 风险主体的风险分析方法、装置、可读介质及电子设备 |
CN111062202A (zh) * | 2019-11-04 | 2020-04-24 | 中证征信(深圳)有限公司 | 信源影响力的评估方法、装置、设备及可读介质 |
CN111178586A (zh) * | 2019-12-06 | 2020-05-19 | 浙江工业大学 | 网络爱国舆情事件跟踪、预测和疏导方法 |
Non-Patent Citations (4)
Title |
---|
MOHAMAD HAZIM ET AL.: "Detecting opinion spams through supervised boosting approach", 《PLOS ONE JOURNAL》, pages 1 - 23 * |
MOHAMAD HAZIM等: "Detecting opinion spams through supervised boosting approach", PLOS ONE JOURNAL, vol. 13, no. 6, pages 316 - 320 * |
郭岩 等: "网络舆情信息源影响力的评估研究", 《中文信息学报》, pages 64 - 71 * |
郭岩等: "网络舆情信息源影响力的评估研究", 中文信息学报, vol. 25, no. 3, pages 64 - 71 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597141A (zh) * | 2020-12-24 | 2021-04-02 | 国网山东省电力公司 | 一种基于舆情分析的网络流量检测方法 |
CN112597141B (zh) * | 2020-12-24 | 2022-07-15 | 国网山东省电力公司 | 一种基于舆情分析的网络流量检测方法 |
CN112785146A (zh) * | 2021-01-20 | 2021-05-11 | 中慧绿浪科技(天津)集团有限公司 | 一种网络舆情的评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111859074B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515424B2 (en) | Machine learned query generation on inverted indices | |
Song et al. | In validations we trust? The impact of imperfect human annotations as a gold standard on the quality of validation of automated content analysis | |
Battle et al. | Characterizing exploratory visual analysis: A literature review and evaluation of analytic provenance in tableau | |
US9268766B2 (en) | Phrase-based data classification system | |
US9195910B2 (en) | System and method for classification with effective use of manual data input and crowdsourcing | |
US8965883B2 (en) | Ranking user generated web content | |
CN102326144B (zh) | 使用感兴趣领域确定的信息提供建议 | |
US10387840B2 (en) | Model generator for historical hiring patterns | |
US20180181667A1 (en) | System and method to model recognition statistics of data objects in a business database | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN112416778B (zh) | 测试用例推荐方法、装置和电子设备 | |
CN103294816A (zh) | 一种为求职者推荐职位的方法和职位推荐系统 | |
CA2789899A1 (en) | User role based customizable semantic search | |
CN110188291B (zh) | 基于代理日志的文档处理 | |
CN111859160A (zh) | 一种基于图神经网络会话序列推荐方法及系统 | |
Herzog et al. | Methods and metrics for measuring the success of enterprise social software-what we can learn from practice and vice versa | |
Sleimi et al. | A query system for extracting requirements-related information from legal texts | |
US20240211496A1 (en) | Systems and Methods for Determining Entity Attribute Representations | |
US20200334697A1 (en) | Generating survey responses from unsolicited messages | |
CN111639247A (zh) | 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质 | |
CN111859074B (zh) | 基于深度学习的网络舆情信息源影响力评估方法及系统 | |
CN113254630A (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN107844595A (zh) | 一种求职网站职位智能推荐方法 | |
Saleem et al. | Personalized decision-strategy based web service selection using a learning-to-rank algorithm | |
CN114139065A (zh) | 基于大数据的人才筛选推荐方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |