CN111859074A - 基于深度学习的网络舆情信息源影响力评估方法及系统 - Google Patents

基于深度学习的网络舆情信息源影响力评估方法及系统 Download PDF

Info

Publication number
CN111859074A
CN111859074A CN202010743881.1A CN202010743881A CN111859074A CN 111859074 A CN111859074 A CN 111859074A CN 202010743881 A CN202010743881 A CN 202010743881A CN 111859074 A CN111859074 A CN 111859074A
Authority
CN
China
Prior art keywords
information source
model
evaluation
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010743881.1A
Other languages
English (en)
Other versions
CN111859074B (zh
Inventor
王之琼
信俊昌
唐俊日
王司亓
隋玲
雷盛楠
汪宇
李嘉欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010743881.1A priority Critical patent/CN111859074B/zh
Publication of CN111859074A publication Critical patent/CN111859074A/zh
Application granted granted Critical
Publication of CN111859074B publication Critical patent/CN111859074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,涉及信息源影响力评估及深度学习技术领域。该方法及系统首先获取多个目标信息源结构及其中的半结构化和非结构化数据,并将获取的数据处理成统一格式的结构化数据;然后建立网络信息源评估数据集及深度学习Xgboost评估模型并设定模型参数;对模型进行训练测试,得到测试集上的模型准确率;优化修改模型参数后对模型进行迭代训练,保存准确率最高的模型;最后将获取的多个目标信息源数据输入到准确率最高的模型中,得到各目标信息源的评分以及排名。该方法及系统可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度。

Description

基于深度学习的网络舆情信息源影响力评估方法及系统
技术领域
本发明涉及信息源影响力评估及深度学习技术领域,尤其涉及一种基于深度学习的网络舆情信息源影响力评估方法及系统。
背景技术
信息源质量是舆情大数据的准确性及质量保证的前提条件,为了舆情数据能够为舆情分析以及舆情预测提供准确的数据支撑,于是如何从海量信息源中评估出优质信息源也成为了重中之重。
如何有效评估舆情信息源是一项极具挑战性的任务,国内外的网站影响力评价方法主要有两种:定性方法和定量方法。当前大多数的影响力评价的研究都是使用定量的方法:即基于网络计量学的角度,通过入链接数、出链接数、网络影响因子、网站的访问量等一些可量化的指标来对网站影响力进行评价分析。但是,很少有对网络舆情信息源影响力的评价工作,并且几乎未有将深度学习技术应用到舆情信息源影响力评估上的方法。
舆情信息的发出者是信息源,收受者是网民。信息源通过发布信息、转载信息或引用信息等方式向网民传播舆情信息。同时,网民通过发表文章、点击、回复等方式表达对各种舆情信息的感兴趣程度,这些方式也隐含了网民被信息源影响的程度。因此,在评价网络舆情信息源影响力时,首先,要考虑信息源的自身表现力,该表现力可通过发表文章的频率等信息因素体现。此外,由于网络舆情是通过互联网传播的,人们受各种事件的刺激而产生的对于该事件的所有认知、态度、情感和行为倾向的集合。而网民作为舆情信息源影响的接收者,在网络舆情传播中也占有非常重要的地位。因此,在评价影响力时,还要考虑网民对信息源的关注度。该关注度可通过信息源发布信息的频率,以及网民对信息的点击频率、回复频率等得以体现,最后,还要考虑信息源与舆情主题的契合度。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于深度学习的网络舆情信息源影响力评估方法及系统,实现对网络舆情信息源的影响力进行评估。
为解决上述技术问题,本发明所采取的技术方案是:一方面,本发明提供基于深度学习的网络舆情信息源影响力评估方法,包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性;
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数;
步骤3:建立深度学习Xgboost评估模型并设定模型参数;采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法作为booster值确定模型的求解方式,选取均方误差作为模型的优化指标;同时,设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数;
步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型,具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分;
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
另一方面,本发明还提供基于深度学习的网络舆情信息源影响力评估系统,包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口;
所述登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
采用上述技术方案所产生的有益效果在于:本发明提供的基于深度学习的网络舆情信息源影响力评估方法及系统,结合传统的舆情信息源影响力评估方法Pagerank,通过加入与舆情信息密切相关的因素以及各评分网站的可靠数据,提高了舆情信息源评分的准确率与可靠性。通过舆情信息源影响力评估系统,可以更高效、可靠地评估舆情信息源,大大提高舆情信息搜索的准确度,且便于操作。
附图说明
图1为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估方法的流程图;
图2为本发明实施例提供网络信息源数据获取与处理的流程图;
图3为本发明实施例提供的K折交叉验证对Xgboost评估模型进行训练测试的过程示意图;
图4为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的工作流程图;
图5为本发明实施例提供的用户登录与注册模块进行用户登录注册的流程图;
图6为本发明实施例提供的基于深度学习的网络舆情信息源影响力评估系统的架构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于深度学习的网络舆情信息源影响力评估方法,如图1所示,包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性;
本实施例中,利用Web应用程序测试工具selenium获取多个目标信息源结构,使用Beatifulsoup4爬虫库解析目标信息源,获取其中半结构化和非结构化数据,然后利用pandas工具库将数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入sqlite3数据库中,如图2所示。
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR(PageRank)值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数、谷歌反链数、360收录数、360反链数、搜狗收录数、搜狗反链数;
本实施例中,建立的网络信息源评估数据集中部分信息源数据如表1所示:
表1网络信息源评估数据集中的部分信息源数据
Figure BDA0002607681420000041
Figure BDA0002607681420000051
步骤3:建立深度学习Xgboost评估模型并设定模型参数;Xgboost模型属于梯度提升迭代决策树中的重要算法,其中设置有三种参数:一般参数(General parameters),提升参数(Booster parameters)和学习任务参数(Learning task parameters);其中,Xgboost的重要参数有给定损失函数,默认为二分类逻辑回归(binary:logistic),输出为概率;booster值给定模型的求解方式,默认为gbtree;评估指标(eval_metric)主要是用于验证集上,回归任务默认值为均方误差(root mean square error,即rmse)。
采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法(gblinear)作为booster值确定模型的求解方式,选取均方误差(rmse,root meansquare error)作为模型的优化指标;同时,设定模型最大训练次数epoch,树的深度(max_depth),当前模型的模型学习率(learning_rate),权重的L2正则化项(Lambda),子样本数(subsample)以及每棵树列数(colsample_bytree)。
本实施例中,设定模型最大训练次数epoch=5000,树的深度(max_depth)默认为3,模型学习率(learning_rate)设置为0.1,权重的L2正则化项(Lambda)设置为10,子样本数(subsample)设置为0.8,每棵树列数(colsample_bytree)=0.8。
步骤4:利用K折交叉验证(k-fold cross-validation)及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型,如图3所示,具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分(即K折);
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
基于深度学习的网络舆情信息源影响力评估系统,包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块,该系统进行网络舆情信息源影响力评估的过程如图4所示;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口,具体注册登录过程如图5所示;
所述登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
本实施例中,运用B/S架构,将网络舆情信息源影响力评估系统分成四层,分别为平台层、支撑层、服务层和应用层,其架构如图6所示;其中,应用层包括系统调用接口、Web访问接口和结果可视化接口,与用户端相连接;
服务层包括户注册、用户认证、用户登录、数据获取、数据分析、模型加载和信息源评估的用户可操作界面;其中,用户注册、用户登录、用户认证属于登录与注册模块提供的服务;数据获取、数据分析属于数据获取与处理模块提供的服务;模型加载、信息源评估属于信息源影响力评估模块提供的服务;
支撑层基于深度学习的回归分析方法为信息源评估提供服务;基于多模态数据处理方法为结构化和非结构化数据获取与处理提供服务;基于关系型数据库为用户注册、用户登录、用户认证提供服务;
平台层采用Sklearn框架,选用融合模型对深度学习模型Xgboost评估模型进行设计,选用损失函数reg:linear及交叉验证对模型进行优化;采用sqlite3关系型数据库作为本系统的数据库;采用Beatifulsoup4+selenium自动化测试工具作为数据爬取的平台;采用解析结构化数据的工具集(pandas)作为数据预处理的平台。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种基于深度学习的网络舆情信息源影响力评估方法,其特征在于:包括以下步骤:
步骤1:利用Web应用程序测试工具获取多个目标信息源结构,使用爬虫库解析目标信息源,获取目标信息源中的半结构化和非结构化数据,然后利用工具库将获取的数据处理成统一格式的结构化数据,最后将半结构化、非结构化数据以及结构化数据存入到关系型数据库中;
步骤2:利用已有的从网络上爬取并处理好的数据,建立网络信息源评估数据集;
步骤3:建立深度学习Xgboost评估模型并设定模型参数;
步骤4:利用K折交叉验证及网络信息源评估数据集中的数据对Xgboost评估模型进行训练测试,得到测试集上的模型准确率并保存模型;
步骤5:对步骤3中的模型参数进行优化修改,获得新的Xgboost评估模型;
步骤6:重复执行步骤4至步骤5,对Xgboost评估模型进行迭代训练,直至迭代次数达到预设的模型训练的最大次数epoch的值或模型准确率达到阈值,停止迭代,并保存准确率最高的Xgboost模型;
步骤7:将步骤1得到的多个目标信息源数据输入到步骤6保存的准确率最高的Xgboost模型中,得到各目标信息源的评分以及排名。
2.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述获取的目标信息源中半结构化和非结构化数据包括网页内容中的文本、图片、HTML、各类报表、图像和音频/视频信息;所述结构化数据包括信息源月预估流量、收录数、反链数、关键词数、权重值、网民关注度、舆情主题相关度、信息源信息完整度和信息源时效性。
3.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述网络信息源评估数据集中包括信息源的网民关注度、舆情主题相关度、信息源信息完整度、信息源时效性、百度权重、360权重、Alexa排名、关键词数、PR值、百度预估流量、收录、单月收录、百度索引量、百度反链数、Alexa流量排名、谷歌收录数及谷歌反链数。
4.根据权利要求1所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:所述设定的模型参数具体为:采用线性回归reg:linear作为Xgboost评估模型的损失函数,选用线性模型求解方法作为booster值确定模型的求解方式,选取均方误差作为模型的优化指标;同时,设定模型最大训练次数epoch、树的深度、当前模型的模型学习率、权重的L2正则化项、子样本数以及每棵树列数。
5.根据权利要求4所述的基于深度学习的网络舆情信息源影响力评估方法,其特征在于:具体方法为:
步骤4.1、将网络信息源评估数据集划分为相等的K部分;
步骤4.2、从划分的网络信息源评估数据集中选取一部分作为测试集,其余部分作为训练集;
步骤4.3、使用训练集训练Xgboost评估模型,并计算Xgboost评估模型在测试集上预测结果的准确率;
步骤4.4、重复步骤4.2和4.3K次,每次选取原始数据集中不同的部分作为测试集,得到Xgboost评估模型在K个测试集上的准确率;
步骤4.5、将Xgboost评估模型在K个测试集上的平均准确率作为最终的模型准确率。
6.一种基于深度学习的网络舆情信息源影响力评估系统,采用网络舆情信息源影响力评估方法进行评估,其特征在于:包括用户登录与注册模块、数据获取与处理模块和信息源影响力评估模块;
所述用户登录与注册模块提供登录功能、注册功能和重置密码功能,用于对用户提供进入系统的入口;
所述数据获取与分析模块获取信息源网站的半结构化及非结构化数据,结合信息源内的舆情相关信息内容,整合成格式统一、符合于深度学习模型训练及测试的结构数据集并存入数据库中;
所述信息源影响力评估模块通过Xgboost评估模型对信息源网站影响力进行评估并输出舆情信息源影响力排名。
7.根据权利要求6所述的基于深度学习的网络舆情信息源影响力评估系统,其特征在于:所述用户登录与注册模块提供的登录功能需要用户在登录界面输入账号和密码并提交给系统,系统后端根据输入的账号,向数据库的用户信息表中查询相应的密码,如果返回结果为空,则说明用户输入的账号不存在,如果返回的结果与用户输入的密码不匹配,则说明用户密码输入错误,只有当用户输入的密码和从数据库中查询的密码相匹配时,系统才会显示相应的跳转界面;
所述注册功能为用户通过输入账号、密码、电话、邮箱地址进行注册,后台会通过JS脚本对这些信息进行合法性判断,如果信息全都合法则在数据库的用户信息表中新增一条用户数据;
所述重置密码功能是当用户忘记密码时,在找回密码页面输入账号和邮箱的验证信息,当邮箱验证信息正确时,系统会允许用户进行密码重置,并修改用户信息表中相应的密码信息。
CN202010743881.1A 2020-07-29 2020-07-29 基于深度学习的网络舆情信息源影响力评估方法及系统 Active CN111859074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010743881.1A CN111859074B (zh) 2020-07-29 2020-07-29 基于深度学习的网络舆情信息源影响力评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010743881.1A CN111859074B (zh) 2020-07-29 2020-07-29 基于深度学习的网络舆情信息源影响力评估方法及系统

Publications (2)

Publication Number Publication Date
CN111859074A true CN111859074A (zh) 2020-10-30
CN111859074B CN111859074B (zh) 2023-12-29

Family

ID=72946700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010743881.1A Active CN111859074B (zh) 2020-07-29 2020-07-29 基于深度学习的网络舆情信息源影响力评估方法及系统

Country Status (1)

Country Link
CN (1) CN111859074B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597141A (zh) * 2020-12-24 2021-04-02 国网山东省电力公司 一种基于舆情分析的网络流量检测方法
CN112785146A (zh) * 2021-01-20 2021-05-11 中慧绿浪科技(天津)集团有限公司 一种网络舆情的评估方法及系统

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098738A1 (en) * 2014-10-06 2016-04-07 Chunghwa Telecom Co., Ltd. Issue-manage-style internet public opinion information evaluation management system and method thereof
US20160267377A1 (en) * 2015-03-12 2016-09-15 Staples, Inc. Review Sentiment Analysis
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN107153908A (zh) * 2017-03-24 2017-09-12 国家计算机网络与信息安全管理中心 移动新闻App影响力评级方法
CN107169873A (zh) * 2017-06-16 2017-09-15 北京信息科技大学 一种多特征融合的微博用户权威度评价方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107491499A (zh) * 2017-07-27 2017-12-19 杭州中奥科技有限公司 一种基于非结构化数据的舆情预警方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN108256740A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种获取互联网信息传播指标的控制方法
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法
CN108874992A (zh) * 2018-06-12 2018-11-23 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN109359857A (zh) * 2018-10-12 2019-02-19 网智天元科技集团股份有限公司 一种媒体影响力评估方法、装置及电子设备
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109508373A (zh) * 2018-11-13 2019-03-22 深圳前海微众银行股份有限公司 企业舆情指数的计算方法、设备及计算机可读存储介质
CN109933656A (zh) * 2019-03-15 2019-06-25 深圳市赛为智能股份有限公司 舆情极性预测方法、装置、计算机设备及存储介质
CN110298386A (zh) * 2019-06-10 2019-10-01 成都积微物联集团股份有限公司 一种基于图像内容的标签自动化定义方法
CN110458425A (zh) * 2019-07-25 2019-11-15 腾讯科技(深圳)有限公司 风险主体的风险分析方法、装置、可读介质及电子设备
WO2020000847A1 (zh) * 2018-06-25 2020-01-02 中译语通科技股份有限公司 一种基于新闻大数据的恐慌指数监测分析方法及系统
CN111062202A (zh) * 2019-11-04 2020-04-24 中证征信(深圳)有限公司 信源影响力的评估方法、装置、设备及可读介质
CN111178586A (zh) * 2019-12-06 2020-05-19 浙江工业大学 网络爱国舆情事件跟踪、预测和疏导方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160098738A1 (en) * 2014-10-06 2016-04-07 Chunghwa Telecom Co., Ltd. Issue-manage-style internet public opinion information evaluation management system and method thereof
US20160267377A1 (en) * 2015-03-12 2016-09-15 Staples, Inc. Review Sentiment Analysis
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN107153908A (zh) * 2017-03-24 2017-09-12 国家计算机网络与信息安全管理中心 移动新闻App影响力评级方法
CN107239529A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107169873A (zh) * 2017-06-16 2017-09-15 北京信息科技大学 一种多特征融合的微博用户权威度评价方法
CN107491499A (zh) * 2017-07-27 2017-12-19 杭州中奥科技有限公司 一种基于非结构化数据的舆情预警方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN108256740A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种获取互联网信息传播指标的控制方法
CN108563638A (zh) * 2018-04-13 2018-09-21 武汉大学 一种基于主题识别和集成学习的微博情感分析方法
CN108874992A (zh) * 2018-06-12 2018-11-23 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
WO2020000847A1 (zh) * 2018-06-25 2020-01-02 中译语通科技股份有限公司 一种基于新闻大数据的恐慌指数监测分析方法及系统
CN109359857A (zh) * 2018-10-12 2019-02-19 网智天元科技集团股份有限公司 一种媒体影响力评估方法、装置及电子设备
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109508373A (zh) * 2018-11-13 2019-03-22 深圳前海微众银行股份有限公司 企业舆情指数的计算方法、设备及计算机可读存储介质
CN109933656A (zh) * 2019-03-15 2019-06-25 深圳市赛为智能股份有限公司 舆情极性预测方法、装置、计算机设备及存储介质
CN110298386A (zh) * 2019-06-10 2019-10-01 成都积微物联集团股份有限公司 一种基于图像内容的标签自动化定义方法
CN110458425A (zh) * 2019-07-25 2019-11-15 腾讯科技(深圳)有限公司 风险主体的风险分析方法、装置、可读介质及电子设备
CN111062202A (zh) * 2019-11-04 2020-04-24 中证征信(深圳)有限公司 信源影响力的评估方法、装置、设备及可读介质
CN111178586A (zh) * 2019-12-06 2020-05-19 浙江工业大学 网络爱国舆情事件跟踪、预测和疏导方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MOHAMAD HAZIM ET AL.: "Detecting opinion spams through supervised boosting approach", 《PLOS ONE JOURNAL》, pages 1 - 23 *
MOHAMAD HAZIM等: "Detecting opinion spams through supervised boosting approach", PLOS ONE JOURNAL, vol. 13, no. 6, pages 316 - 320 *
郭岩 等: "网络舆情信息源影响力的评估研究", 《中文信息学报》, pages 64 - 71 *
郭岩等: "网络舆情信息源影响力的评估研究", 中文信息学报, vol. 25, no. 3, pages 64 - 71 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597141A (zh) * 2020-12-24 2021-04-02 国网山东省电力公司 一种基于舆情分析的网络流量检测方法
CN112597141B (zh) * 2020-12-24 2022-07-15 国网山东省电力公司 一种基于舆情分析的网络流量检测方法
CN112785146A (zh) * 2021-01-20 2021-05-11 中慧绿浪科技(天津)集团有限公司 一种网络舆情的评估方法及系统

Also Published As

Publication number Publication date
CN111859074B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
Song et al. In validations we trust? The impact of imperfect human annotations as a gold standard on the quality of validation of automated content analysis
US9268766B2 (en) Phrase-based data classification system
US7421429B2 (en) Generate blog context ranking using track-back weight, context weight and, cumulative comment weight
US20140314311A1 (en) System and method for classification with effective use of manual data input
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
US10839406B2 (en) A/B testing for search engine optimization
US20140074560A1 (en) Advanced skill match and reputation management for workforces
US20160292163A1 (en) Proactive identification of content items for a member of a social network
Herzog et al. Methods and metrics for measuring the success of enterprise social software-what we can learn from practice and vice versa
US20120150836A1 (en) Training parsers to approximately optimize ndcg
Wang et al. Recommending posts concerning api issues in developer q&a sites
CN111859160A (zh) 一种基于图神经网络会话序列推荐方法及系统
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
US10067986B1 (en) Discovering entity information
Sleimi et al. A query system for extracting requirements-related information from legal texts
CN107844595B (zh) 一种求职网站职位智能推荐方法
US10387390B2 (en) Judgment quality in SBS evaluation
CN111859074B (zh) 基于深度学习的网络舆情信息源影响力评估方法及系统
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
CN108171485B (zh) 一种基于软件关联库的跨项目审查者推荐方法
Mourelatos et al. A study on the evolution of crowdsourcing websites
CN114139065A (zh) 基于大数据的人才筛选推荐方法、系统及可读存储介质
CN113918794A (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
US20100131542A1 (en) Suggested websites
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant