CN109376956A - 社交网络中公共危机信息的预测方法 - Google Patents
社交网络中公共危机信息的预测方法 Download PDFInfo
- Publication number
- CN109376956A CN109376956A CN201811445941.0A CN201811445941A CN109376956A CN 109376956 A CN109376956 A CN 109376956A CN 201811445941 A CN201811445941 A CN 201811445941A CN 109376956 A CN109376956 A CN 109376956A
- Authority
- CN
- China
- Prior art keywords
- crisis information
- feature
- crisis
- information
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 32
- 230000008451 emotion Effects 0.000 claims description 28
- 238000013139 quantization Methods 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000011002 quantification Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于BP神经网络的危机信息预测方法,主要解决现有技术中没有考虑到危机信息不同特征对危机信息判定与识别的重要性不同从而导致预测准确率不高的问题。其实现步骤是:1)采集危机信息数据;2)提取危机信息特征;3)量化危机信息特征;4)对危机信息进行标签化并构建特征标签库;5)利用特征标签库训练预测网络;6)用训练好的预测网络预测危机信息。本发明基于危机信息特征标签库进行预测网络的训练,引入了BP神经网络算法以及危机信息特征权值的概念,降低了计算的复杂性,能有效地对网络信息是否是危机信息做出判定,可用于对网络空间危机信息的识别。
Description
技术领域
本发明属于网络技术领域,更进一步涉及数据挖掘技术领域的一种公共危机信息预测方法,可用于对社交网络中的信息是否是危机信息做出识别与判定。
背景技术
社交网络中公共危机信息预测方法的研究源于网络谣言识别的研究,其特点是通过分析危机信息的特征,研究其特征与危机信息之间的相互关系,进行预测模型的构建,对网络空间中的谣言等危机信息进行有效识别,有助于更好的分析影响危机信息识别的重要特征,有助于及时对网络空间中的危机信息进行有效干预,解决网络空间中危机信息肆意传播的问题。目前,已有的网络空间中危机信息的预测问题大都来自于网络谣言的识别研究,通过分析谣言的一个或者几个特征识别谣言,忽略了真实社交网络中谣言传播影响因素的复杂性,社交网络中谣言等危机信息的传播受不同因素的影响,因此危机信息有不同的特征,同时,每个特征对危机信息的预测与识别的贡献率也不一样。此外,在预测方法方面,已有的研究很少利用神经网络的算法对危机信息的特征是否是危机信息之间的相互关系进行探究,没有通过对不同特征设置不同的权重的方法来标识特征的重要性和影响力。
首欢容,邓淑卿等人在其发表的论文“基于情感分析的网络谣言识别方法”中提出了一种基于情感分析技术自动识别谣言的方法。该方法通过界定高低质量信息源,通过假设高质量信息源更可信的情况下,采用基于情感词典的情感分析方法,量化高质量信息源与低质量信息源对特定对象的情感差异,判定低质量信息源是否属于谣言。该方法的不足之处是,信息源只涉及“食品养生”、“医学健康”两个领域进行谣言识别,基于情感分析的谣言识别方法只对特定类型的谣言识别有效。
Xu W,Chen H在其发表的论文“Scalable Rumor Source Detection underIndependent Cascade Model in Online Social Networks”(IEEE,InternationalConference on Moile Ad-Hoc and Sensor Networks,2016)中提出了一种基于监控的谣言源识别方法。该方法在没有文本信息的情况下,部署监控点,基于观察到的监控器接收信息的情况,提出一种多项式时间算法来计算谣言量,用于对节点作为谣言源的重要性进行排序。该方法的不足之处是,识别准确率依赖于监控节点的合理部署与有效监控。在利用多项式时间算法计算谣言量时,计算复杂度较高,使得识别过程开销增大,降低了谣言源识别的效率。
Yuan S,Tao Z,Zhu T在其发表的论文“Realtime Online Hot TopicsPrediction in Sina Weibo for News Earlier Report”(IEEE,InternationalConference on Advanced Information NETWORKING and Applications,2017)中提出了一种在线平台实时热门话题的预测方法。该方法根据关键意见领袖的状态内容和新浪微博的热门话题列表,量化每个主题的当前热点值,以热门话题列表为评估标准,通过结果比较,预测话题是否在列表中。该方法的不足之处是,依赖于关键意见领袖的状态内容,没有考虑到热门话题来源的其他途径,降低了预测准确率。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于BP神经网络的危机信息预测方法,以提高对网络空间中危机信息判定与识别的准确率。
本发明的技术方案是:通过对历史危机信息进行多维特征描述和标签处理,构建危机信息的特征标签库,依据BP神经网络,对危机信息特征标签库进行训练,得出其特征和标签之间的相互关系,有效地实现对社交网络中危机信息的预测与识别。其实现步骤包括如下:
(1)根据历史危机信息数据,归纳出判定一个信息是否是危机信息的重要特征参量S=(F1,...,Fi,...,Fn),其中,Fi代表一条危机信息的第i个特征,i从1到n,n为一条危机信息的特征个数;
(2)采集危机信息数据,提取危机信息的特征并进行数据处理:
(2a)利用网络爬虫技术采集危机信息数据,并进行特征提取,得到每条危机信息的特征参量S1=(F1,...,Fj,...,Fm),其中,Fj代表特征提取后一条危机信息的第j个特征,j从1到m,m为特征提取后一条危机信息的特征个数;
(2b)对特征提取后一条危机信息的每一个特征Fj进行量化处理,得到量化后的特征参量X=(X1,...,Xj,...,Xm),其中,Xj代表特征提取后一条危机信息的第j个特征量化值;
(3)根据危机信息的定义,对量化之前一条信息的文本内容是否是危机信息进行判断,并进行人工标注,标签值用y表示,即
(4)将量化后的一条信息A用量化后的特征参量X和标签y表示为:A=(X,y),并构建特征标签库;
(5)训练预测网络:
(5a)利用BP神经网络构建训练网络;
(5b)将(4)中构建的特征标签库作为训练数据集对预测网络进行训练,当网络误差达到预设精度或者预测准确率达到预期目标时,训练结束,得到训练好的预测网络;
(5c)保存已训练好的预测网络参数,得到量化后一条信息各特征的权重Wj;
(6)预测危机信息:
(6a)根据各特征的权重Wj,计算量化后一条信息A的标签值y对应的预测值
(6b)根据标签值y与预测值的绝对误差q,判断出量化后信息A是否是危机信息:
当时,判定A为危机信息,
当时,判定A不是危机信息。
本发明与现有技术相比存在以下优点:
第一,本发明由于构建了危机信息的特征标签库,提取了基于内容、基于用户、基于传播的特征,克服了现有研究中危机信息特征相对单一的问题,提高了预测准确率;同时,本发明在构建危机信息特征标签库时,对提取到的文本信息进行情感倾向性分析和可信度分析,充分挖掘了危机信息文本内容的特征,从而使得本发明具有提高危机信息预测准确率的优点。
第二,由于本发明通过基于BP神经网络的训练网络训练了危机信息的特征标签库,从而量化了危机信息的特征和其标签之间的相互关系,标识了危机信息各特征的权重,克服了现有技术中没有考虑到危机信息不同特征对危机信息判定与识别的重要性从而导致预测准确率不高的问题,使得本发明具有提高危机信息预测准确率的优点。
第三,本发明引入了神经网络的算法,针对危机信息的不同特征,通过基于神经网络的算法进行预测网络的训练,克服了现有技术当中对危机信息预测的研究没有考虑神经网络相关算法使得数据量级的限制影响预测准确率的问题,使得本发明具有不依赖数据量级,提高预测准确率的优点。
附图说明
图1为本发明的实现流程流程图。
具体实施方式
下面结合图对本发明做进一步的详细描述。
参照图1,对本发明的具体实施步骤如下:
步骤1.归纳危机信息特征。
根据历史危机信息数据,归纳出判定一个信息是否是危机信息的重要特征参量S=(F1,...,Fi,...,Fn),其中,Fi代表一条危机信息的第i个特征,i从1到n,n为一条危机信息的特征个数;
本实施例中,以国内外学者的研究成果为标准,归纳出危机信息的特征,包括基于内容的特征,基于用户的特征,基于传播的特征,其中,基于内容的特征包括危机信息文本内容;基于用户的特征包括用户注册时间、发帖时间、性别、地点、是否加v认证、粉丝数、关注数、发布消息数;基于传播的特征包括以用户消息的转发量、评论量、点赞数。
步骤2.采集危机信息数据,提取危机信息的特征并进行数据处理。
(2.1)采集危机信息数据:
现有的数据采集方法主要包括系统日志采集方法、网络爬虫方法和特定系统接口方法,本实施例采用但不限于网络爬虫方法进行危机信息数据采集,即以国内大型微博网络——新浪微博作为待研究的社交网络,利用网络爬虫程序根据关键字从新浪微博抓取与危机事件相关的微博消息作为危机信息的数据集,数据集中的数据达10万余条;
(2.2)提取危机信息特征:
对采集到的危机信息数据进行特征提取,得到每条危机信息的特征参量S1=(F1,...,Fj,...,Fm),其中,Fj代表特征提取后一条危机信息的第j个特征,j从1到m,m为特征提取后一条危机信息的特征个数,本实施例中,特征提取的实现如下:
(2.2a)对采集到的危机信息的文本内容进行数据处理,即利用汉语分词工具,提取每条危机信息文本内容中的词语,得到每条危机信息文本内容的分词集合;
(2.2b)将每条危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从每条危机信息文本内容的分词集合中剔除,用剩余词语组成危机信息文本最终的分词集合;
(2.2c)采用TF-IDF算法,计算最终的分词集合的特征值;
(2.3)量化危机信息特征:
对特征提取后一条危机信息的每一个特征Fj进行量化处理,得到量化后的特征参量X=(X1,...,Xj,...,Xm),其中,Xj代表特征提取后一条危机信息的第j个特征量化值,本实施例中,量化危机信息特征的实现如下:
(2.3a)采用汉语分词工具对特征提取后危机信息的文本内容进行分词处理,得到特征提取后危机信息文本内容的分词集合,本实施例中采用的汉词分词工具为中科院计算技术研究所研发的汉语词法分析系统ICTCLAS;
(2.3b)将特征提取后危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从特征提取后危机信息文本内容的分词集合中剔除,用剩余词语组成特征提取后危机信息文本内容最终的分词集合:W={w1,...,wr,...,ws},其中,wr表示第r个词语,r从1到s,s为W中词语的个数,本实施例中采用的停用词列表为中国软件开发者社区CSDN提供的停用词列表;
(2.3c)计算文本内容的每个词语与情感词典中正负情感词的语义相似度Sim(v(wr),v(ew)):
其中,v(wr)表示特征提取后危机信息文本内容第r个词的词向量,v(ew)表示情感词典中情感词的词向量;
(2.3d)从情感词典中取出与wr情感相似度最高的N个情感词,计算特征提取后危机信息文本内容中每个词语的情感强度SI(wr):
SI(wr)=Cpos-Cneg,
其中,Cpos表示与wr相似度最高的N个情感词中正面情感词的个数;Cneg表示与wr相似度最高的N个情感词中负面情感词的个数;
(2.3e)根据特征提取后危机信息文本内容中每个词语的情感强度SI(wr),计算特征提取后危机信息文本内容的情感倾向性特征g(W):
其中,s+表示正面情感,s-表示负面情感,s0表示中性,表示特征提取后危机信息文本内容的平均情感强度,t表示文本内容情感倾向的阈值,当判断特征提取后危机信息文本内容的情感倾向性为正面,当判断特征提取后危机信息文本内容的情感倾向性为负面,其他情况判断特征提取后危机信息文本内容的情感倾向性为中性;
(2.3f)对采集到的一条危机信息文本内容B和B中链接所指向的网页正文C进行分词,即用SB表示将B表示为危机信息文本内容的词语集合,用SC表示将C表示为B中链接所指向的网页正文C的词语集合;
(2.3g)计算上述SB和SC的公共词语个数:|SB∩SC|,并计算上述SB和SC的词语总数:|SB∪SC|,得到危机信息文本内容B与B中链接所指向的网页正文C之间的内容相关度R(B,C)为:
其中,内容相关度R(B,C)越大,表明B和C的内容相似度越高,B的可信度越高。
步骤3.对危机信息数据进行标签化处理。
根据危机信息的定义,对量化之前一条信息的文本内容是否是危机信息进行判断,并进行人工标注,标签值用y表示,即
在本实施例中,对数据进行人工标注时,每条危机信息数据由5人同时进行标注,标注结果采用多数表决策略。
步骤4.构建特征标签库。
对量化后的每一条危机信息A,用量化后的特征参量X和标签y表示,即A=(X,y),量化后数据集中所有危机信息的特征参量和对应的标签值构成量化后危机信息的特征标签库。
步骤5.训练预测网络。
(5.1)利用BP神经网络构建训练网络:
BP神经网络包括输入层、隐藏层和输出层3层,本实施例中以BP神经网络结构作为训练网络的基础网络,将危机信息量化后的特征参量X=(X1,...,Xi,...,Xm)作为训练网络的输入层,危机信息的标签值y作为训练网络的输出层;
(5.2)将(5.1)中构建的特征标签库作为训练数据集对预测网络进行训练,当网络误差达到预设精度或者预测准确率达到预期目标时,训练结束,得到训练好的预测网络,在本实施例中,对预测网络的训练实现如下:
(5.2a)初始化(5.1)中利用BP神经网络构建的训练网络,即为训练网络中的各权值赋一个(-1,1)内的随机数,并给定最大误差ε,最大学习次数M,设定误差函数其中,i从1到q,q表示BP神经网络中隐藏层的节点个数;
(5.2b)随机选取特征标签库的第k个样本Y(k)=(X(k),y(k)),其中,X(k)为X(k)=(X1(k),...,Xj(k),...,Xm(k)),Xj(k)代表第k个样本的第j个特征的量化值,y(k)代表第k个样本的标签值;
(5.2c)根据第k个样本的第j个特征的量化值Xj(k)和第k个样本第j个特征的权值Wj(k)分别计算特征标签库第k个样本的隐藏层输入hih(k)、隐藏层输出hoh(k)、输出层输入yio(k)和输出层输出yoo(k):
其中,Xz(k)为第k个样本输出层第z个节点的输入,Wz(k)为第k个样本输出层第z个节点的输入权值,z从1到p,p为隐藏层的节点个数,bh和b0为(-1,1)内的随机数;
(5.2d)根据特征标签库第k个样本的输出层输出yoo(k),对误差函数求偏导δo(k):
(5.2e)根据δo(k)以及隐藏层和输出层的连接权值Who(k)计算训练网络在训练一次后隐藏层与输出层新的连接权值Who(k)1:
其中,u为训练网络的学习率;
(5.2f)利用训练网络隐藏层的输出hoh(k)对误差函数求偏导δh(k):
(5.2g)利用δh(k)以及输入层和隐藏层的连接权值Wih(k),计算在训练网络训练一次后输入层与隐藏层新的连接权值Wih(k)1:
(5.2h)根据特征标签库第t个样本的标签值yt和预测值计算训练网络的全局误差E:
其中,t从1到L,L表示特征标签库的样本数量;
(5.2i)判断训练网络的全局误差E是否满足要求:若误差达到训练网络预设精度ε或者学习次数大于设定的最大次数M,则满足要求并保存网络参数,停止训练,否则,返回(5.2c);
(5.2j)保存已训练好的预测网络参数,得到量化后一条信息各特征的权重Wj,其中,Wi表示量化后一条危机信息第i个特征Xi对应的权重。
步骤6.预测危机信息。
(6.1)根据各特征的权重Wj,计算量化后一条信息A的标签值y对应的预测值
(6.2)根据标签值y与预测值的绝对误差q,判断出量化后信息A是否是危机信息:
当时,判定A为危机信息,
当时,判定A不是危机信息。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修改和改变仍在本发明的权利要求保护范围之内。
Claims (5)
1.一种基于BP神经网络的危机信息预测方法,其特征在于,包括如下:
(1)根据历史危机信息数据,归纳出判定一个信息是否是危机信息的重要特征参量S=(F1,...,Fi,...,Fn),其中,Fi代表一条危机信息的第i个特征,i从1到n,n为一条危机信息的特征个数;
(2)采集危机信息数据,提取危机信息的特征并进行数据处理:
(2a)利用网络爬虫技术采集危机信息数据,并进行特征提取,得到每条危机信息的特征参量S1=(F1,...,Fj,...,Fm),其中,Fj代表特征提取后一条危机信息的第j个特征,j从1到m,m为特征提取后一条危机信息的特征个数;
(2b)对特征提取后一条危机信息的每一个特征Fj进行量化处理,得到量化后的特征参量X=(X1,...,Xj,...,Xm),其中,Xj代表特征提取后一条危机信息的第j个特征量化值;
(3)根据危机信息的定义,对量化之前一条信息的文本内容是否是危机信息进行判断,并进行人工标注,标签值用y表示,即
(4)将量化后的一条信息A用量化后的特征参量X和标签y表示为:A=(X,y),并构建特征标签库;
(5)训练预测网络:
(5a)利用BP神经网络构建训练网络;
(5b)将(4)中构建的特征标签库作为训练数据集对预测网络进行训练,当网络误差达到预设精度或者预测准确率达到预期目标时,训练结束,得到训练好的预测网络;
(5c)保存已训练好的预测网络参数,得到量化后一条信息各特征的权重Wj;
(6)预测危机信息:
(6a)根据各特征的权重Wj,计算量化后一条信息A的标签值y对应的预测值
(6b)根据标签值y与预测值的绝对误差q,判断出量化后信息A是否是危机信息:
当时,判定A为危机信息,
当时,判定A不是危机信息。
2.根据权利要求1所述的方法,其特征在于,(2a)中对采集到的危机信息进行特征提取,其实现如下:
(2a1)对采集到的危机信息的文本内容进行数据处理,即利用汉语分词工具,提取每条危机信息文本内容中的词语,得到每条危机信息文本内容的分词集合;
(2a2)将每条危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从每条危机信息文本内容的分词集合中剔除,用剩余词语组成危机信息文本内容最终的分词集合;
(2a3)采用TF-IDF算法,计算最终的分词集合的特征值。
3.根据权利要求1所述的方法,其特征在于,(2b)中对特征提取后一条危机信息的每一个特征Fj进行量化处理,其实现如下:
(2b1)采用汉语分词工具对特征提取后危机信息的文本内容进行分词处理,得到特征提取后危机信息文本内容的分词集合;
(2b2)将特征提取后危机信息文本内容分词集合中的词语与停用词列表中的词语进行对比,将相同的词语从特征提取后危机信息文本内容的分词集合中剔除,用剩余词语组成特征提取后危机信息文本内容最终的分词集合W={w1,...,wr,...,ws},其中,wr表示第r个词语,r从1到s,s为W中词语的个数;
(2b3)使用词向量方法计算文本内容的每个词语与情感词典中正负情感词的语义相似度Sim(v(wr),v(ew)):
其中,v(wr)表示特征提取后危机信息文本内容第r个词的词向量,v(ew)表示情感词典中情感词的词向量;
(2b4)从情感词典中取出与wr情感相似度最高的N个情感词,计算特征提取后危机信息文本内容中每个词语的情感强度SI(wr):
SI(wr)=Cpos-Cneg
其中,Cpos表示与wr相似度最高的N个情感词中正面情感词的个数;Cneg表示与wr相似度最高的N个情感词中负面情感词的个数;
(2b5)根据特征提取后危机信息文本内容中每个词语的情感强度SI(wr),计算特征提取后危机信息文本内容的情感倾向性特征g(W):
其中,s+表示正面情感,s-表示负面情感,s0表示中性,表示特征提取后危机信息文本内容的平均情感强度,t表示文本内容情感倾向的阈值,当判断特征提取后危机信息文本内容的情感倾向性为正面,当判断特征提取后危机信息文本内容的情感倾向性为负面,其他情况判断特征提取后危机信息文本内容的情感倾向性为中性。
4.根据权利要求1所述的方法,其特征在于,(5a)中利用BP神经网络构建的训练网络,是以BP神经网络结构作为训练网络的基础网络,将危机信息量化后的特征参量X=(X1,...,Xi,...,Xm)作为训练网络的输入层,危机信息的标签值y作为训练网络的输出层。
5.根据权利要求1所述的方法,其特征在于,(5b)中将(4)中构建的特征标签库作为训练数据集对预测网络进行训练,其实现如下:
(5b1)初始化(5a)中利用BP神经网络构建的训练网络,即为训练网络中的各权值赋一个(-1,1)内的随机数,给定最大误差ε,最大学习次数M,设定误差函数其中,i从1到q,q表示BP神经网络中隐藏层的节点个数;
(5b2)随机选取特征标签库的第k个样本Y(k)=(X(k),y(k)),其中,X(k)为X(k)=(X1(k),...,Xj(k),...,Xm(k)),Xj(k)代表第k个样本的第j个特征的量化值,y(k)代表第k个样本的标签值;
(5b3)根据第k个样本的第j个特征的量化值Xj(k)和第k个样本第j个特征的权值Wj(k)分别计算特征标签库第k个样本的隐藏层输入hih(k)、隐藏层输出hoh(k)、输出层输入yio(k)和输出层输出yoo(k):
其中,Xz(k)为第k个样本输出层第z个节点的输入,Wz(k)为第k个样本输出层第z个节点的输入权值,z从1到p,p为隐藏层的节点个数,bh和b0为(-1,1)内的随机数;
(5b4)根据特征标签库第k个样本的输出层输出yoo(k)对误差函数求偏导δo(k):
(5b5)根据δo(k)以及隐藏层和输出层的连接权值Who(k)计算训练网络在训练一次后隐藏层与输出层新的连接权值Who(k)1:
其中,u为训练网络的学习率;
(5b6)利用训练网络隐藏层的输出hoh(k)对误差函数求偏导δh(k):
(5b7)利用δh(k)以及输入层和隐藏层的连接权值Wih(k),计算在训练网络训练一次后输入层与隐藏层新的连接权值Wih(k)1:
(5b8)根据特征标签库第t个样本的标签值yt和预测值计算训练网络的全局误差E:
其中,t从1到L,L表示特征标签库的样本数量;
(5b9)判断训练网络的全局误差E是否满足要求,即误差达到训练网络预设精度或者学习次数大于设定的最大次数M,则满足要求并保存网络参数,停止训练,否则,返回(5b3)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445941.0A CN109376956A (zh) | 2018-11-29 | 2018-11-29 | 社交网络中公共危机信息的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445941.0A CN109376956A (zh) | 2018-11-29 | 2018-11-29 | 社交网络中公共危机信息的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376956A true CN109376956A (zh) | 2019-02-22 |
Family
ID=65374811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811445941.0A Pending CN109376956A (zh) | 2018-11-29 | 2018-11-29 | 社交网络中公共危机信息的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376956A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636801A (zh) * | 2013-11-08 | 2015-05-20 | 国家电网公司 | 一种基于优化bp神经网络的预测输电线路可听噪声方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
-
2018
- 2018-11-29 CN CN201811445941.0A patent/CN109376956A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636801A (zh) * | 2013-11-08 | 2015-05-20 | 国家电网公司 | 一种基于优化bp神经网络的预测输电线路可听噪声方法 |
CN106097111A (zh) * | 2016-06-20 | 2016-11-09 | 重庆房慧科技有限公司 | 一种基于智慧社区网络大数据的舆情预测方法 |
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN108108849A (zh) * | 2017-12-31 | 2018-06-01 | 厦门大学 | 一种基于弱监督多模态深度学习的微博情感预测方法 |
CN108509629A (zh) * | 2018-04-09 | 2018-09-07 | 南京大学 | 一种基于情感词典和支持向量机的文本情感分析方法 |
Non-Patent Citations (2)
Title |
---|
许睿: "微博环境下的公共危机预警模型研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》 * |
马奔: "面向微博的谣言检测与传搔分析硏究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
Li et al. | Using text mining and sentiment analysis for online forums hotspot detection and forecast | |
CN109829089B (zh) | 基于关联图谱的社交网络用户异常检测方法和系统 | |
CN107766585B (zh) | 一种面向社交网络的特定事件抽取方法 | |
CN106354845A (zh) | 基于传播结构的微博谣言识别方法和系统 | |
US20150019206A1 (en) | Metadata extraction of non-transcribed video and audio streams | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN107577665B (zh) | 文本情感倾向的判别方法 | |
CN110472226A (zh) | 一种基于知识图谱的网络安全态势预测方法及装置 | |
CN106649270A (zh) | 舆情监测分析方法 | |
Budiyanto et al. | Depression and anxiety detection through the Closed-Loop method using DASS-21 | |
CN114186069B (zh) | 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN113449111B (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
Xiong et al. | Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs | |
Lai et al. | Rating prediction based on combination of review mining and user preference analysis | |
CN111626050A (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
CN109359299A (zh) | 一种基于商品数据的物联网设备能力本体自构建方法 | |
CN114628008A (zh) | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 | |
Zeng et al. | Detecting journalism in the age of social media: three experiments in classifying journalists on twitter | |
CN116776889A (zh) | 一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法 | |
Peng et al. | The effect of pets on happiness: A large-scale multi-factor analysis using social multimedia | |
CN110362680B (zh) | 一种基于图网络结构分析的软广检测和广告抽取方法 | |
CN109376956A (zh) | 社交网络中公共危机信息的预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190222 |
|
WD01 | Invention patent application deemed withdrawn after publication |