CN117390184A - 一种基于大数据技术的网络舆情预警方法及系统 - Google Patents
一种基于大数据技术的网络舆情预警方法及系统 Download PDFInfo
- Publication number
- CN117390184A CN117390184A CN202311290435.XA CN202311290435A CN117390184A CN 117390184 A CN117390184 A CN 117390184A CN 202311290435 A CN202311290435 A CN 202311290435A CN 117390184 A CN117390184 A CN 117390184A
- Authority
- CN
- China
- Prior art keywords
- public opinion
- network
- grade
- network public
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005516 engineering process Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007935 neutral effect Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000003213 activating effect Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 8
- 230000002087 whitening effect Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据技术的网络舆情预警方法及系统,其中,一种基于大数据技术的网络舆情预警方法包括:通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;通过专家系统对网络舆情信息中的网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记;对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;基于卷积神经网络构建舆情预警网络,利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警;通过建立网络舆情预警指标体系,同时通过自设计的舆情预警网络实时预测网络舆情等级。
Description
技术领域
本发明涉及舆情预警的技术领域,尤其涉及一种基于大数据技术的网络舆情预警方法及系统。
背景技术
现有的网络舆情信息监测工作中,由于没有及时更新数据库,没有配备专人进行网络信息的监控,导致部分敏感词汇没有被追踪到、一些敏感信息未能被及时监测,结果造成预警不及时。另一方面,在进行舆情分析时,舆情管理者缺乏舆情预警工作经验,对舆情信息作出误判,导致隐藏较大危机的信息被引爆。虽然少数学者会采用数学模型或机器学习等技术进行模型构建,但是模型结构较为复杂,实时性差。
发明内容
鉴于上述现有存在的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案,包括:通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记,所述网络舆情等级分为一级、二级、三级、四级;对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;基于卷积神经网络构建舆情预警网络,利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
作为本发明所述的基于大数据技术的网络舆情预警方法的一种优选方案,其中:所述评分包括:情感倾向度包括正面、中立、负面三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);传播范围包括省、县、乡三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;网络舆情信息综合分值X为:X=A+B+C;其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
作为本发明所述的基于大数据技术的网络舆情预警方法的一种优选方案,其中:特征提取包括:对标记后的网络舆情信息进行线性变换,获得第一向量集合;对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
作为本发明所述的基于大数据技术的网络舆情预警方法的一种优选方案,其中:舆情预警网络包括输入层、批量归一化层、第一卷积层、第二卷积层、第一池化层、自注意力机制模块、全连接层和输出层;第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
作为本发明所述的基于大数据技术的网络舆情预警方法的一种优选方案,其中:训练包括:利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
作为本发明所述的基于大数据技术的网络舆情预警系统的一种优选方案,其中:包括:采集单元,被配置为执行通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;标记单元,被配置为执行通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记,所述网络舆情等级分为一级、二级、三级、四级;特征提取单元,被配置为执行对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;网络构建单元,被配置为执行基于卷积神经网络构建舆情预警网络;网络训练单元,被配置为执行利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;舆情预警单元,被配置为执行将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
作为本发明所述的基于大数据技术的网络舆情预警系统的一种优选方案,其中:所述标记单元,具体被配置为执行:情感倾向度包括正面a1、中立a2、负面a3三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);传播范围包括省c1、县c2、乡c3三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;网络舆情信息综合分值X为:X=A+B+C;其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
作为本发明所述的基于大数据技术的网络舆情预警系统的一种优选方案,其中:所述特征提取单元,具体被配置为执行:对标记后的网络舆情信息进行线性变换,获得第一向量集合;对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
作为本发明所述的基于大数据技术的网络舆情预警系统的一种优选方案,其中:所述网络构建单元,具体被配置为执行:舆情预警网络包括输入层、批量归一化层、第一卷积层、第二卷积层、第一池化层、自注意力机制模块、全连接层和输出层;第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
作为本发明所述的基于大数据技术的网络舆情预警系统的一种优选方案,其中:所述网络训练单元,具体被配置为执行利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
本发明的有益效果:本发明通过建立相应的网络舆情预警指标体系,同时通过自设计的舆情预警网络实时预测网络舆情预警等级,可以及时为可能产生的危机采取有效措施引导舆情的走向,避免对网络社会和现实生活造成不利影响。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种基于大数据技术的网络舆情预警方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的第一个实施例,该实施例提供了一种基于大数据技术的网络舆情预警方法,包括:
S1:通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息。
通过Go语言编写程序,利用go-github库调用SearchAPI来实现网络舆情信息的搜索;搜索速率为8000次/小时;信息平台例如企业官网、门户网站、微博平台、微信平台、电商平台以及政府公开网站等。
S2:通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记。
根据国家突发公共事件总体应急预案规定,本发明将网络舆情预警等级分为一级,二级,三级,四级,网络舆情预警等级严重程度从大到小排序:一级>二级>三级>四级。
网民对网络舆情的情感倾向分为三种正面、中立和负面,因此情感倾向度包括正面、中立、负面三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;
关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);
根据行政区域划分传播范围,即传播范围包括省、县、乡三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;
网络舆情信息综合分值X为:X=A+B+C;
专家系统根据最后的网络舆情信息综合分值对网络舆情信息进行网络舆情等级标记,其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
S3:对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合。
(1)对标记后的网络舆情信息进行线性变换,获得第一向量集合;
(2)对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;
较佳的是,本实施例通过对第一向量集合进行白化和L2范数正则化处理,能够减少要估计的参数的数量,降低第一向量集合的维度,防止数据过拟合。
(3)通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
为了进一步压缩第二向量集合的信息量,减少网络训练时高维度带来的困扰,本实施例采用主成分分析(PrincipalComponentAnalysis,PCA)算法对第二向量集合进行特征分解,主成分分析算法是一种在尽可能保持原有信息量情况下有效的线性降维方法,主要是通过寻找某种线性投影,将高维的数据映射到低维的空间中表示,目的在所投影的维度上数据的方差最大,从而使得使用较少的数据维度可以最大化保留原数据点的特性。
S4:基于卷积神经网络构建舆情预警网络。
舆情预警网络包括输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层;其中,输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层依次连接。输入层的节点数为3,输出层的节点数为4。
具体的,第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;第一池化层采用平均池化。
为了解决由于输入的特征长度不一而影响输出精度的问题,本发明引入自注意力机制,设计自注意力机制模块,可以更多地关注到输入中的关键信息,提高网络精度;具体的,自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
本发明通过在第一池化层的输出进行批量归一化,将所有批数据强制在统一的数据分布下,然后再将其输入到下一层,使整个神经网络在各层的中间输出的数值更稳定,从而使舆情预警网络更容易收敛而且降低过拟合的风险。
较佳的是,通过在卷积神经网络的基础上增加批量归一化层和自注意力机制模块,在取得了最优精度表现的同时,比传统的卷积神经网络具有更少的参数数量和更低的计算量。
S5:利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练。
利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
其中需要说明的是,AdaGrad,全称AdaptiveGradient,是一种具有自适应学习率的梯度下降优化方法,它使参数的学习率自适应,对不频繁的参数执行较大的更新,对频繁的参数执行较小的更新,非常适合处理稀疏数据。
S6:将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
实施例2
本实施例提供了一种基于大数据技术的网络舆情预警系统,包括,
采集单元,被配置为执行通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;利用go-github库调用SearchAPI来实现网络舆情信息的搜索;搜索速率为8000次/小时;信息平台例如企业官网、门户网站、微博平台、微信平台、电商平台以及政府公开网站等。
标记单元,被配置为执行通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记,网络舆情等级分为一级、二级、三级、四级;
特征提取单元,被配置为执行对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;
网络构建单元,被配置为执行基于卷积神经网络构建舆情预警网络;
网络训练单元,被配置为执行利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;
舆情预警单元,被配置为执行将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
进一步地,标记单元,具体被配置为执行:
根据国家突发公共事件总体应急预案规定,本发明将网络舆情预警等级分为一级,二级,三级,四级,网络舆情预警等级严重程度从大到小排序:一级>二级>三级>四级。
网民对网络舆情的情感倾向分为三种正面、中立和负面,因此情感倾向度包括正面、中立、负面三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;
关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);
根据行政区域划分传播范围,即传播范围包括省、县、乡三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;
网络舆情信息综合分值X为:X=A+B+C;
专家系统根据最后的网络舆情信息综合分值对网络舆情信息进行网络舆情等级标记,其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
进一步地,特征提取单元,具体被配置为执行:
对标记后的网络舆情信息进行线性变换,获得第一向量集合;对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
较佳的是,本实施例通过对第一向量集合进行白化和L2范数正则化处理,能够减少要估计的参数的数量,降低第一向量集合的维度,防止数据过拟合。
为了进一步压缩第二向量集合的信息量,减少网络训练时高维度带来的困扰,本实施例采用主成分分析(PrincipalComponentAnalysis,PCA)算法对第二向量集合进行特征分解,主成分分析算法是一种在尽可能保持原有信息量情况下有效的线性降维方法,主要是通过寻找某种线性投影,将高维的数据映射到低维的空间中表示,目的在所投影的维度上数据的方差最大,从而使得使用较少的数据维度可以最大化保留原数据点的特性。
进一步地,网络构建单元,具体被配置为执行:
舆情预警网络包括输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层;
舆情预警网络包括输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层;其中,输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层依次连接。输入层的节点数为3,输出层的节点数为4。
具体的,第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;第一池化层采用平均池化。
为了解决由于输入的特征长度不一而影响输出精度的问题,本发明引入自注意力机制,设计自注意力机制模块,可以更多地关注到输入中的关键信息,提高网络精度;具体的,自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
进一步地,网络训练单元,具体被配置为执行利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于大数据技术的网络舆情预警方法,其特征在于,包括:
通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;
通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记,所述网络舆情等级分为一级、二级、三级、四级;
对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;
基于卷积神经网络构建舆情预警网络,利用所述网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;
将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
2.如权利要求1所述的基于大数据技术的网络舆情预警方法,其特征在于,所述评分包括:
情感倾向度包括正面、中立、负面三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;
关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);
传播范围包括省、县、乡三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;
网络舆情信息综合分值X为:X=A+B+C;
其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
3.如权利要求2所述的基于大数据技术的网络舆情预警方法,其特征在于,特征提取包括:
对标记后的网络舆情信息进行线性变换,获得第一向量集合;
对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;
通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
4.如权利要求3所述的基于大数据技术的网络舆情预警方法,其特征在于,舆情预警网络包括输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层;
第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;
自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
5.如权利要求4所述的基于大数据技术的网络舆情预警方法,其特征在于,训练包括:
利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
6.一种基于大数据技术的网络舆情预警系统,其特征在于,包括:
采集单元,被配置为执行通过go-github库调用SearchAPI,从信息平台抓取网络舆情信息;
标记单元,被配置为执行通过专家系统对网络舆情信息中的情感倾向度、关注度和传播范围三个网络舆情指标分别进行评分,根据评分结果对网络舆情信息进行网络舆情等级标记,所述网络舆情等级分为一级、二级、三级、四级;
特征提取单元,被配置为执行对标记后的网络舆情信息进行特征提取,获得网络舆情特征集合;
网络构建单元,被配置为执行基于卷积神经网络构建舆情预警网络;
网络训练单元,被配置为执行利用网络舆情特征集合对舆情预警网络进行训练,直至满足要求后停止训练;
舆情预警单元,被配置为执行将网络舆情信息输入至训练完成的舆情预警网络中进行网络舆情等级预警。
7.如权利要求6所述的基于大数据技术的网络舆情预警系统,其特征在于,所述标记单元,具体被配置为执行:
情感倾向度包括正面、中立、负面三个维度,若内容为正面,情感倾向度的分值A=a1,若为中立,A=a2,若为负面,A=a3;其中:a1=3,a2=2,a3=1;
关注度包括搜索量b1、转发量b2、点赞量b3和评论量b4四个维度,权重均设为0.01,关注度分值B为:B=0.01(b1+b2+b3+b4);
传播范围包括省、县、乡三个维度,当范围为省时,传播范围的分值C=c1,当范围为县时,分值C=c2,当范围为乡时,分值C=c3,其中:c1=3,c2=2,c3=1;
网络舆情信息综合分值X为:X=A+B+C;
其中,当X>10时,网络舆情等级为一级;当5<X≤10时,网络舆情等级为二级;当3<X≤5时,网络舆情等级为三级;当X≤3时,网络舆情等级为四级。
8.如权利要求7所述的基于大数据技术的网络舆情预警系统,其特征在于,所述特征提取单元,具体被配置为执行:
对标记后的网络舆情信息进行线性变换,获得第一向量集合;
对第一向量集合进行白化和L2范数正则化处理,获得第二向量集合;
通过PCA算法对第二向量集合进行特征分解,获得网络舆情特征集合。
9.如权利要求8所述的基于大数据技术的网络舆情预警系统,其特征在于,所述网络构建单元,具体被配置为执行:
舆情预警网络包括输入层、第一卷积层、第二卷积层、第一池化层、批量归一化层、自注意力机制模块、全连接层和输出层;
第一卷积层和第二卷积层的卷积核大小分别为3*3*3、1*1*3;
自注意力机制模块包括第一自注意力编码单元、第二自注意力编码单元和非饱和激活单元;第一自注意力编码单元将输入的特征进行多次映射变换为查询张量、键张量和值张量,利用查询张量和键张量分别交叉计算注意力得分并依此对值张量进行加权求和,输出自注意力变换特征;第二自注意力编码单元接收到自注意力变换特征后再次进行非线性变换,后通过非饱和激活单元将第二自注意力编码单元输出的特征映射到全连接层,以完成特征提取。
10.如权利要求9所述的基于大数据技术的网络舆情预警系统,其特征在于,所述网络训练单元,具体被配置为执行利用AdaGrad优化器对舆情预警网络进行迭代训练,设置初始学习速率,不断调整舆情预警网络的权值w和偏置b,直至目标损失函数值达到最小,目标损失函数L为:
式中,Ri为第i个网络舆情信息的分值分布,n为抓取的网络舆情信息总量,Yi为第i个网络舆情信息的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311290435.XA CN117390184B (zh) | 2023-10-08 | 2023-10-08 | 一种基于大数据技术的网络舆情预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311290435.XA CN117390184B (zh) | 2023-10-08 | 2023-10-08 | 一种基于大数据技术的网络舆情预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117390184A true CN117390184A (zh) | 2024-01-12 |
CN117390184B CN117390184B (zh) | 2024-07-23 |
Family
ID=89464070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311290435.XA Active CN117390184B (zh) | 2023-10-08 | 2023-10-08 | 一种基于大数据技术的网络舆情预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117390184B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296166A (zh) * | 2024-06-06 | 2024-07-05 | 一网互通(北京)科技有限公司 | 基于nlp的信息预警计算方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134849A (zh) * | 2019-05-20 | 2019-08-16 | 瑞森网安(福建)信息科技有限公司 | 一种网络舆情监控方法及系统 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN111753093A (zh) * | 2020-07-02 | 2020-10-09 | 东北电力大学 | 一种网络舆情危机等级评价方法和装置 |
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN114091443A (zh) * | 2021-10-28 | 2022-02-25 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统 |
-
2023
- 2023-10-08 CN CN202311290435.XA patent/CN117390184B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110134849A (zh) * | 2019-05-20 | 2019-08-16 | 瑞森网安(福建)信息科技有限公司 | 一种网络舆情监控方法及系统 |
WO2021217843A1 (zh) * | 2020-04-29 | 2021-11-04 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
CN111753093A (zh) * | 2020-07-02 | 2020-10-09 | 东北电力大学 | 一种网络舆情危机等级评价方法和装置 |
CN114091443A (zh) * | 2021-10-28 | 2022-02-25 | 广州大学 | 基于深度学习的网络信息传播指标体系构建及量化评估方法及系统 |
Non-Patent Citations (2)
Title |
---|
张春峰;: "网络舆情危机的预警方法概述", 科技信息, no. 23, 15 August 2011 (2011-08-15), pages 33 * |
邢云菲;王晰巍;王铎;韦雅楠;: "基于信息熵的新媒体环境下负面网络舆情监测指标体系研究", 现代情报, no. 09, 13 September 2018 (2018-09-13), pages 43 - 49 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296166A (zh) * | 2024-06-06 | 2024-07-05 | 一网互通(北京)科技有限公司 | 基于nlp的信息预警计算方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117390184B (zh) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Risk prediction in financial management of listed companies based on optimized BP neural network under digital economy | |
WO2021068528A1 (zh) | 基于卷积神经网络的注意力权重计算方法、装置及设备 | |
Lee et al. | Pattern discovery of fuzzy time series for financial prediction | |
CN113011570B (zh) | 一种采用神经网络压缩系统的人脸表情识别方法 | |
CN117390184B (zh) | 一种基于大数据技术的网络舆情预警方法及系统 | |
CN109190834A (zh) | 基于神经网络的股票价格趋势预测方法及系统 | |
CN116340796B (zh) | 时序数据分析方法、装置、设备及存储介质 | |
CN117591944B (zh) | 一种针对于大数据分析的学习预警方法及系统 | |
CN113065974A (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN107679743A (zh) | 一种基于大数据的环保智能执法应急溯源调度管理方法 | |
CN114118507A (zh) | 一种基于多维信息融合的风险评估预警方法和装置 | |
CN115455130A (zh) | 一种社交媒体数据与移动轨迹数据的融合方法 | |
CN117609577A (zh) | 基于人工智能的就业推荐处理方法及系统 | |
CN118014616A (zh) | 基于区块链的生产物料价格跟踪系统及方法 | |
CN109657907B (zh) | 地理国情监测数据的质量控制方法、装置和终端设备 | |
CN109635008B (zh) | 一种基于机器学习的设备故障检测方法 | |
CN112529637B (zh) | 基于情景感知的服务需求动态预测方法及系统 | |
CN116091106A (zh) | 一种多功能财务成本评估系统 | |
Koceska et al. | Financial-Economic Time Series Modeling and Prediction Techniques–Review | |
Khalyasmaa et al. | The analysis of efficiency of artificial intelligence methods application for an assessment of feasibility of scientific and technical decisions | |
Yin et al. | Application of VMD–SSA–BiLSTM algorithm to smart grid financial market time series forecasting and sustainable innovation management | |
Li | Study on Early Warning on the Financial Risk of Project Venture Capital through a Neural Network Model | |
Zhou et al. | Mathematical model of yield forecast based on long and short-term memory image neural network | |
Leite et al. | Interpretability Index Based on Balanced Volumes for Transparent Models and Agnostic Explainers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |