CN103258039B - 一种微博伪造信息的检测方法 - Google Patents

一种微博伪造信息的检测方法 Download PDF

Info

Publication number
CN103258039B
CN103258039B CN201310186271.6A CN201310186271A CN103258039B CN 103258039 B CN103258039 B CN 103258039B CN 201310186271 A CN201310186271 A CN 201310186271A CN 103258039 B CN103258039 B CN 103258039B
Authority
CN
China
Prior art keywords
microblogging
time
period
feature
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310186271.6A
Other languages
English (en)
Other versions
CN103258039A (zh
Inventor
任伟
张思发
唐善玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201310186271.6A priority Critical patent/CN103258039B/zh
Publication of CN103258039A publication Critical patent/CN103258039A/zh
Application granted granted Critical
Publication of CN103258039B publication Critical patent/CN103258039B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种微博伪造信息的检测方法,方法是在微博发布和管理部门设立微博检测系统,设有信息采集模块、特征分析模块、特征库、检测预警模块和响应处理模块,系统通过信息采集模块采集并保存被检测的微博帐号所发布的微博数据;由特征分析模块分析该帐号发布的微博静态、动态及传播特征,建立特征库并定期更新;由检测预警模块检测当前采集的该帐号的微博信息,若当前采集的微博静态、动态及传播特征与特征库的特征差异超出了预定的报警阈值时则自动报警,表明出现了微博帐号盗用和伪造信息的发布;报警后由响应处理模块采取相应的措施处理。本方法简单易行,由系统设备自动完成虚假信息的检测,无需人工值守,检测率高,准确率高,可靠性高。<!--1-->

Description

一种微博伪造信息的检测方法
技术领域
本发明涉及一种微博伪造信息的检测方法,具体地说是涉及一种检测重要微博帐号被盗用后发布虚假信息的检测系统和方法。该方法为在原有的微博发布和管理部门中,建立一个微博检测系统,检测系统通过相应的硬件和软件程序实现对伪造微博的检测和处理。属于社交网络安全领域。
背景技术
微博在目前视为一种新媒体,具有广泛的应用,如传统媒体的新渠道发布、政府政务公开、企业和个人营销、社交等。但是由于微博帐号可能被黑客破解,导致黑客登录后发布伪造、虚假信息,如果是权威媒体微博帐号被破解和伪造、虚假发布,可能导致金融市场恐慌和社会动荡等严重后果。最近美联社微博帐号被破解,发布了白宫爆炸和奥巴马总统受伤的伪造信息,导致琼斯指数大跌143点,标准普尔500指数下跌0.8%。在3分钟内,近1360亿美元在股市蒸发。
目前对于微博帐号被盗用和伪造信息发布的检测方面还未见提出好的方法和报道,检测伪造、虚假信息发布主要依靠人工值守的方法,效率较低。
发明内容
本发明的目的是解决目前存在的微博帐号被盗用后伪造信息发布的检测需要依靠人工值守的难题,而提供一种微博伪造信息的检测方法,即在微博帐号被盗用后由管理部门的系统设备自动完成伪造信息的检测,无需人工值守,且效率高,准确率高,可靠性高。
本发明实现上述目的所采取的技术方案是:提供一种微博伪造信息的检测方法,在微博发布和管理的部门中建立微博检测系统,检测按如下步骤执行:
步骤一、所述的微博检测系统设有信息采集模块、特征分析模块、特征库、检测预警模块和响应处理模块,微博检测系统与信息采集模块、特征分析模块、检测预警模块和响应处理模块串接,响应处理模块再与微博检测系统连接;
步骤二、微博检测系统通过信息采集模块重点采集并保存关键的、点击率高和热门微博发布的微博,将该类微博帐号作为被检测帐号;
步骤三、信息采集模块将采集的被检测帐号微博信息传给特征分析模块,特征分析模块通过几个周期或在T天内提取信息采集模块的微博信息数据建立特征库,将提取的微博信息数据作为长期特征存储在特征库中;所述特征库存储有静态特征、动态特征和传播特征;特征分析模块同时提取当前时段下Y时间内C条微博的当前特征信息,将当前时段下Y时间内变化的静态特征、动态特征和传播特征传递给检测预警模块;
步骤四、检测预警模块以特征库中存储的长期特征作为参照标准,将来自特征分析模块的当前特征分别与特征库中的长期静态特征、长期动态特征和长期传播特征比对,进行差异评分和统计;若发现当前采集的微博特征信息与特征库中保存的长期特征,差异超出了预定的报警阈值时则自动报警,就做出微博帐号被盗用和伪造信息发布的预警;
步骤五、检测预警模块将信息传给响应处理模块,响应处理模块在预警发生后进行响应处理,并迅速将信息反馈给微博检测系统,提示微博检测发布和管理部门的监管人员或微博检测系统进行删除确认,或直接删除该条疑是伪造的微博。
本发明所述的步骤二中的信息采集模块采集的信息数据包括:
⑴、每条微博发布的时间及其内容;
⑵、每条微博发布后每隔Y时间粉丝转发的数量增量A1[1,…,m];
⑶、每条微博发布后每隔Y时间粉丝评论的数量增量A2[1,…,m];
⑷、每条微博发布后每隔Y时间粉丝收藏的数量增量A3[1,…,m]。
本发明所述的步骤三中的特征分析模块用于分析信息采集模块采集的信息,对提取的特征信息数据分别存储到相应的特征库中,分析得到的特征含有:
⑴、长期静态特征,即过去几个周期或T天内所有微博的静态特征,包括:
常用字集合S1,少用字集合S1’,即出现次数最多、最少的Z个词汇;
常用词组集合S2,少用词组集合S2’,即出现次数最多、最少的Z个词组;
常用符号集合S3,少用微博符号集合S3’,即出现次数最多、最少的Z个符号;
常用句型集合S4,少用句型集合S4’,即出现次数最多、最少的Z个句型;
单条微博平均字数N1;单条微博平均句数N2,单句平均字数N3;
⑵、长期动态特征,即过去几个周期或T天内所有微博的动态特征,包括:
Xi时段内微博的转发速度F1[i],即Xi时段Y时间内单条微博转发的最大次数,时段以小时划分,即全天分为24个时段,分别用X1,X2,…,X24表示,即i=1,…,24,X1即为0:00AM-1:00AM时段,以此类推;
Xi时段内微博的评论速度F2[i],即Xi时段Y时间内单条微博评论的最大次数;
Xi时段内微博的收藏速度F3[i],即Xi时段Y时间内单条微博收藏的最大次数;
⑶、长期传播特征,即过去几个周期或T天内单个微博发布后的传播特征,包括:
最快转发速度P1,即转发次数达到K1的最短时间;
最快评论速度P2,即评论次数达到K2的最短时间;
最快收藏速度P3,即收藏次数达到K3的最短时间;
最快转发速度P1’,即K1时间后转发次数的最大值;
最快评论速度P2’,即K2时间后评论次数的最大值;
最快收藏速度P3’,即K3时间后收藏次数的最大值;
⑷、当前静态特征,即提取当前C条微博的静态特征,包括:
常用字集合SS1,少用字集合SS1’;
常用词组集合SS2,少用词组集合SS2’;
常用微博符号集合SS3,少用微博符号集合SS3’;
常用句型集合SS4,少用句型集合SS4’;
单条微博平均字数NN1;单条微博平均句数NN2;单句平均字数NN3;
⑸、当前动态特征,即当前时段下Y时间内C条微博的动态特征,包括:
转发的最大次数FF1;评论的最大次数FF2;收藏的最大次数FF3;
⑹、当前传播特征,即C条微博中每一条微博的传播特征,包括:
最快转发速度PP1,C条微博内单个微博发布后转发次数达到K1的最短时间;
最快评论速度PP2,C条微博内单个微博发布后评论次数达到K2的最短时间;
最快收藏速度PP3,C条微博内单个微博发布后收藏次数达到K3的最短时间;
最快转发速度PP1’,C条微博内单个微博发布K1时间后转发次数的最大值;
最快评论速度PP2’,C条微博内单个微博发布K2时间后评论次数的最大值;
最快收藏速度PP3’,C条微博内单个微博发布K3时间后收藏次数的最大值;
本发明所述的特征库的长期特征为每隔一定周期进行分析计算,对提取的静态、动态和传递特征,分别更新存储到相应的静态、动态和传递特征库中;所述的当前特征是指采集当前时段下Y时间内的C条微博,提取当前时段变化下的静态特征、动态特征和传播特征,对当前特征实时计算,并传递给检测预警模块。
本发明所述的步骤四中的检测预警模块的工作包括:
⑴、将当前静态特征与静态特征库中的长期静态特征比较:
若SS1在S1中比例小于Q1,G1=1;否则为0;
若SS1’在S1’中比例大于Q1’,G1’=1;否则为0;
若SS2在S2中比例小于Q2,G2=1;否则为0;
若SS2’在S2’中比例大于Q2’,G2’=1;否则为0;
若SS3在S3中比例小于Q3,G3=1;否则为0;
若SS3’在S3’中比例大于Q3’,G3’=1;否则为0;
若SS4在S4中比例小于Q4,G4=1;否则为0;
若SS4’在S4’中比例大于Q4’,G4’=1;否则为0;
若|(NN1-N1)/N1|>Q5,G5=1;否则为0;
若|(NN2-N2)/N2|>Q6,G6=1;否则为0;
若|(NN3-N3)/N3|>Q7,G7=1;否则为0;
G静态小计=G1+G1’+G2+G2’+G3+G3’+G4+G4’+G5+G6+G7
其中Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q1’,Q2’,Q3’,Q4’分别表示阈值,是系统参数;
G1,G2,G3,G4,G5,G6,G7,G1’,G2’,G3’,G4’分别表示阈值判定后的信号值,用0或者1表示;
⑵、将当前动态特征与动态特征库中的长期动态特征进行比较:
FF1,与动态特征库中该时段的F1[i]进行比较,若FF1≥F1[i],则G8=1;否则为0;
FF2,与动态特征库中该时段的F2[i]进行比较,若FF2≥F2[i],则G9=1;否则为0;
FF3,与动态特征库中该时段的F3[i]进行比较,若FF3≥F3[i],则G10=1;否则为0;
G动态小计=G8+G9+G10其中G8,G9,G10分别表示阈值判定后的信号值,用0或者1表示;
⑶、将当前传播特征与传播特征库中的长期传播特征进行比较:
若PP1<P1;G11=1;否则为0;PP2<P2;G12=1;否则为0;
若PP3<P3;G13=1;否则为0;若PP1’>PP1;G14=1;否则为0;
若PP2’>PP2;G15=1;否则为0;若PP3’>PP3;G16=1;否则为0;
G传播小计=G11+G12+G13+G14+G15+G16
G总计=G静态小计+G动态小计+G传播小计,若G总计>G阀值,则产生预警;其中G11,G12,G13,G14,G15,G16分别表示传播特征值,表征了一种传播特征的判定信号,用0或者1表示。
本发明所述的检测预警模块中的G总计为带有权重的计算,即每个计算分项评分值乘以这个分项的权重,然后再求和;权重由系统预先人为设定,权重值为0~1,权重和为1。
本发明的一种微博伪造信息的检测方法具有如下优点:
1.本方法可以在目前网站微博管理部门的基础上通过完善或重新建立微博检测系统,对关键的、热门微博发布,点击率高的微博进行采集,实时检测并提取其微博帐号的静态语言特征,动态转发的行为特征,当采集的静态语言特征和行为特征出现某种异常,触及预先设定的报警阈值时采取自动报警,报警即提示出现了微博帐号被盗用和伪造信息发布,检测系统采取相应的措施进行处理。本方法可自动对微博伪造信息进行检测,保障关键微博帐号在被盗后发布伪造信息的早期预警。
2.本方法实现的步骤简单易行,由相关的管理部门建立微博检测系统,该系统的设备就能自动完成虚假信息的检测,无需人工值守,且检测率高,准确率高,可靠性高。
附图说明
图1为本发明的一种微博伪造信息的检测方法建立的检测微博发布和管理的系统结构框图。
上述图中:1-微博检测系统,11-信息采集模块,12-特征分析模块,13-特征库,14-检测预警模块,15-响应处理模块。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
实施例1:本发明的一种微博伪造信息的检测方法,是先在原有微博发布和管理的部门中建立微博检测系统1,检测方法按如下步骤执行:
步骤一、所述的微博检测系统1设有信息采集模块11、特征分析模块12、特征库13、检测预警模块14和响应处理模块15,微博检测系统1与信息采集模块11、特征分析模块12、检测预警模块14和响应处理模块15串接,响应处理模块15再与微博检测系统1连接。
步骤二、微博检测系统1通过信息采集模块11重点采集并保存关键的、点击率高和热门微博发布的微博,将该类微博帐号作为被检测帐号。
步骤三、信息采集模块11将采集的信息传给特征分析模块12,特征分析模块12通过几个周期或在T天内,提取信息采集模块11采集的微博信息数据建立特征库13,将提取的微博特征信息作为长期特征信息存储在特征库13中;所述特征库13设有静态特征库、动态特征库和传播特征库,存储有长期静态特征、长期动态特征和长期传播特征;特征分析模块12同时提取当前时段下Y时间内C条微博的当前特征信息,将当前时段下Y时间内变化的动态特征、传播特征,传递给检测预警模块14。
步骤四、检测预警模块14以特征库13中存储的长期特征作为参照标准,检测预警模块将来自特征分析模块12的当前特征信息分别与特征库13中的长期静态特征、长期动态特征和长期传播特征比对,进行差异评分和统计;若发现当前采集的微博特征信息与特征库13中保存的长期特征,差异超出了预定的报警阈值时则自动报警,就做出微博帐号盗用和伪造信息的发布的预警。
步骤五、检测预警模块14将信息传给响应处理模块15,响应处理模块15在预警发生后进行响应处理,并迅速将信息反馈给微博检测系统1,提示监管部门的人员或微博检测系统1进行删除确认,或直接删除该条疑是伪造的微博。
实施例2:本发明的一种微博伪造信息的检测方法,如微博检测系统1中的检测到微博数据如下:
No.1,2013.4.2708:02“今日报纸要闻目录:1、美国不满日本歪曲历史言行,安倍竟称“侵略”尚无定义;2、四川今日哀悼芦山地震遇难者;3、小布什图书馆落成五位总统同台典礼;4、普京怒骂不接待民众访问的地方官员为“猪猡”……《参考消息》,全国各地报亭有售。”
(1)信息采集模块11采集上述的数据,包括:
①、每条微博发布的时间TIME及其内容CONT;
②、每条微博发布后每隔Y时间粉丝转发的数量增量A1[1,…,m];
③、每条微博发布后每隔Y时间粉丝评论的数量增量A2[1,…,m];
④、每条微博发布后每隔Y时间粉丝收藏的数量增量A3[1,…,m]。
不妨设时间间隔Y=1分钟,不妨设数据如下:
第1分钟,转发25,即A1[1]=25,评论12,即A2[1]=12,收藏0,即A3[1]=0;
第2分钟,转发10,即A1[2]=10,评论14,即A2[2]=14,收藏1,即A3[2]=1;
第3分钟,转发22,即A1[3]=22,评论5,即A2[2]=5,收藏0,即A3[3]=0;
No.2,2013.4.2622:00“从朱令到黄洋,“谢同学不杀之恩”的黑色幽默背后是不能深想的残酷现实。是什么造成这些大学生对他人生命的淡漠?教育?信仰?社会?这些答案说了那么多年,也只是一直在说而已。请从黄洋一事开始有所行动吧,例如社会提倡多元成功观,例如个人内心有所信、有所仰。”
第1分钟,转发35,即A1[1]=35,评论22,即A2[1]=22,收藏1,即A3[1]=1;
第2分钟,转发34,即A1[2]=34,评论24,即A2[2]=24,收藏1,即A3[2]=1;
第3分钟,转发31,即A1[3]=31,评论45,即A2[3]=45,收藏0,即A3[3]=0;
(2)、特征分析模块12提取特征信息建立特征库,包括:
1)、长期静态特征库,不妨设T=7天,Z=10,经过计算和统计后,得到过去7天内:
常用字集合S1={…},少用字集合S1’={…},出现次数最多的10个词汇;
常用词组集合S2={…},少用词组集合S2’={…},出现次数最多的10个词组;
常用符号集合S3’={…},少用符号集合S3’={…},出现次数最多的10个符号;
常用句型集合S4’={…},少用句型集合S4’={…},出现次数最多的10个句型;
单条微博平均字数N1=10,单条微博平均句数N2=4,单句平均字数N3=5。
2)、长期动态特征:
Xi时段内微博的转发速度F1[i],即Xi时段Y时间内单条微博转发的最大次数,时段以小时划分,将全天划分为24个时段,分别用X1,X2,…,X24表示,即i=1,…,24,该指标反映每个时段粉丝的在线情况以及在该时段下粉丝在线情况下微博的转发最大速度,Xi时段内微博的评论速度F2[i],即Xi时段Y时间内单条微博评论的最大次数;Xi时段内微博的收藏速度F3[i],即Xi时段Y时间内单条微博收藏的最大次数;
例如,Y=1分钟,通常关注早上7点时段,中午11点时段,下午1点时段和下午6点时段的最大速度,
X1时段,即为0:00AM-1:00AM时段,F1[1]=10,F2[1]=4,F3[1]=2
X2时段,即为1:00AM-2:00AM时段,F1[2]=30,F2[2]=2,F3[2]=3
X8时段,即为7:00AM-8:00AM时段,F1[8]=30,F2[8]=4,F3[8]=2
X12时段,即为11:00AM-12:00AM时段,F1[12]=40,F2[12]=24,F3[12]=3
X14时段,即为1:00PM-2:00PM时段,F1[14]=100,F2[14]=46,F3[14]=5
X19时段,即为6:00PM-7:00PM时段,F1[19]=90,F2[19]=35,F3[19]=4
3)、长期传播特征:取T=7天,根据信息采集模块11的数据进行分析,统计得到:
最快转发速度P1,单个微博发布后转发次数达到K1=100最短时间;得到P1=3分钟;
最快评论速度P2,单个微博发布后评论次数达到K2=50的最短时间;得到P2=2分钟;
最快收藏速度P3,单个微博发布后收藏次数达到K3=10的最短时间;得到P3=4分钟;
最快转发速度P1’,单个微博发布K1=10分钟后转发次数的最大值;得到P1’=221;
最快评论速度P2’,单个微博发布K2=15分钟后评论次数的最大值;得到P2’=190;
最快收藏速度P3’,单个微博发布K3=20分钟后收藏次数的最大值;得到P3’=35。
4)、当前静态特征,利用信息采集模块11获取当前C=2条待检测微博的信息,Y=1分钟,分析并提取该C=2条微博,令Z=5,经计算得到:
常用字集合SS1,C=2条微博内出现次数最多的5个词汇;SS1={…};
少用字集合SS1’,C=2条微博内出现次数最少的5个词汇;SS1’={…};
常用词组集合SS2,C=2条微博内出现次数最多的5个词组;SS2={…};
少用词组集合SS2’,C=2条微博内出现次数最少的5个词组;SS2’={…};
常用微博符号集合SS3’,C=2条微博内出现次数最多的5个符号;SS3={…};
少用微博符号集合SS3’,C=2条微博内出现次数最少的5个符号;SS3’={…};
常用句型集合SS4,C=2条微博内出现次数最多的5个句型;SS4={…};
少用句型集合SS4’,C=2条微博内出现次数最少的5个句型;SS4’={…};
单条微博平均字数NN1,C=2条微博内每条微博的平均字数;NN1=109;
单条微博平均句数NN2,C=2条微博内单条微博的平均句数;NN2=4;
单句平均字数NN3,C=2条微博内微博单句的平均字数;NN3=31;
5)、当前动态特征,该C=2条微博中每一条微博随当前时段下Y时间内变化的动态特征,假设当前检测的是X12时段,即为11:00AM-12:00AM时段,假设Y=1分钟:
当前时段下Y时间内C=2条微博转发的最大次数FF1;
当前时段下Y时间内C=2条微博评论的最大次数FF2;
当前时段下Y时间内C=2条微博收藏的最大次数FF3;
6)、当前传播特征,该C=2条微博中每一条微博传播特征:设
最快转发速度PP1,C=2条微博内单个微博发布后转发次数达到K1的最短时间;得到PP1=2.2分钟;
最快评论速度PP2,C=2条微博内单个微博发布后评论次数达到K2的最短时间;得到PP2=1.5分钟;
最快收藏速度PP3,C=2条微博内单个微博发布后收藏次数达到K3的最短时间;得到PP3=3分钟;
最快转发速度PP1’,C=2条微博内单个微博发布K1时间后转发次数的最大值;得到PP1’=298;
最快评论速度PP2’,C=2条微博内单个微博发布K2时间后评论次数的最大值;得到PP2’=220;
最快收藏速度PP3’,C=2条微博内单个微博发布K3时间后收藏次数的最大值;得到PP3’=22。
(3)、检测预警模块比较当前特征和长期特征,包括:
1)、将当前静态特征与特征库中的长期静态特征相比较:
SS1在S1中的比例小于Q1=0.1,G1=1
SS1’在S1’中的比例大于Q1’=0.9,G1’=1;
SS2在S2中的比例小于Q2=0.1,G2=1
SS2’在S2’中的比例不大于Q2’=0.9,G2’=0;
SS3在S3中的比例小于Q3=0.05,G3=1;
SS3’在S3’中的比例不大于Q3’=0.95,G3’=0;
SS4在S4中的比例小于Q4=0.03,G4=1;
SS4’在S4’中的比例不大于Q4’=0.97,G4’=0;
|(NN1-N1)/N1|>Q5=0.03,G5=1;
|(NN2-N2)/N2|≤Q6=0.03,G6=0;
|(NN3-N3)/N3|≤Q7=0.03,G7=0;
G静态小计=G1+G1’+G2+G2’+G3+G3’+G4+G4’+G5+G6+G7
=1+1+1+0+1+0+1+0+1+0+0=6;
2)、将当前动态特征与特征库中的长期动态特征进行比较:
假设当前是X12时段,即为11:00AM-12:00AM时段,特征库为:
F1[12]=40,F2[12]=24,F3[12]=3
FF1与特征库中该时段的F1[12]进行比较,因为FF1<F1[12],G8=0;
FF2与特征库中该时段的F2[12]进行比较,因为FF2≥F2[12],G9=1;
FF3与特征库中该时段的F3[12]进行比较,因为FF3≥F3[12],G10=1;
G动态小计=G8+G9+G10=0+1+1=2;
3)、将当前传播特征和传播特征库中的长期传播特征库进行比较:
PP1<P1;G11=1;PP2<P2;G12=1;PP3<P3;G13=1;
PP1’≤PP1;G14=0;PP2’≤PP2;G15=0;PP3’>PP3;G16=1;
G传播小计=G11+G12+G13+G14+G15+G16=1+1+1+0+0+1=4
G总计=G静态小计+G动态小计+G传播小计=6+2+4=12
假设报警阈值=7,因为G总计=12>7,故产生预警。
则响应处理模块15在监测预警模块14预警发生后进行响应处理,提示原微博发布和管理系统进行删除该条疑是伪造的微博。

Claims (3)

1.一种微博伪造信息的检测方法,在微博发布和管理的部门中建立微博检测系统,其特征在于:检测按如下步骤执行:
步骤一、所述的微博检测系统设有信息采集模块、特征分析模块、特征库、检测预警模块和响应处理模块,微博检测系统与信息采集模块、特征分析模块、检测预警模块和响应处理模块串接,响应处理模块再与微博检测系统连接;
步骤二、微博检测系统通过信息采集模块重点采集并保存关键的、点击率高和热门微博发布的微博,将该类微博帐号作为被检测帐号;所述的信息采集模块采集的信息数据包括:
⑴、每条微博发布的时间及其内容;
⑵、每条微博发布后每隔Y时间粉丝转发的数量增量A1[1,…,m];
⑶、每条微博发布后每隔Y时间粉丝评论的数量增量A2[1,…,m];
⑷、每条微博发布后每隔Y时间粉丝收藏的数量增量A3[1,…,m];
步骤三、信息采集模块将采集的被检测帐号微博信息传给特征分析模块,特征分析模块通过几个周期或在T天内提取信息采集模块的微博信息数据建立特征库,将提取的微博信息数据作为长期特征存储在特征库中;所述特征库存储有静态特征、动态特征和传播特征;特征分析模块同时提取当前时段下Y时间内C条微博的当前特征信息,将当前时段下Y时间内变化的静态特征、动态特征和传播特征传递给检测预警模块;
所述的特征库的长期特征为每隔一定周期进行分析计算,对提取的静态、动态和传递特征,分别更新存储到相应的静态、动态和传递特征库中;所述的当前特征是指采集当前时段下Y时间内的C条微博,提取当前时段变化下的静态特征、动态特征和传播特征,对当前特征实时计算,并传递给检测预警模块;
所述的特征分析模块用于分析信息采集模块采集的信息,对提取的特征信息数据分别存储到相应的特征库中,分析得到的特征含有:
⑴、长期静态特征,即过去几个周期或T天内所有微博的静态特征,包括:
常用字集合S1,少用字集合S1’,即出现次数最多、最少的Z个词汇;
常用词组集合S2,少用词组集合S2’,即出现次数最多、最少的Z个词组;
常用符号集合S3,少用微博符号集合S3’,即出现次数最多、最少的Z个符号;
常用句型集合S4,少用句型集合S4’,即出现次数最多、最少的Z个句型;
单条微博平均字数N1;单条微博平均句数N2,单句平均字数N3;
⑵、长期动态特征,即过去几个周期或T天内所有微博的动态特征,包括:
Xi时段内微博的转发速度F1[i],即Xi时段Y时间内单条微博转发的最大次数,时段以小时划分,即全天分为24个时段,分别用X1,X2,…,X24表示,即i=1,…,24,X1即为0:00AM-1:00AM时段,以此类推;
Xi时段内微博的评论速度F2[i],即Xi时段Y时间内单条微博评论的最大次数;
Xi时段内微博的收藏速度F3[i],即Xi时段Y时间内单条微博收藏的最大次数;
⑶、长期传播特征,即过去几个周期或T天内单个微博发布后的传播特征,包括:
最快转发速度P1,即转发次数达到K1的最短时间;
最快评论速度P2,即评论次数达到K2的最短时间;
最快收藏速度P3,即收藏次数达到K3的最短时间;
最快转发速度P1’,即K1时间后转发次数的最大值;
最快评论速度P2’,即K2时间后评论次数的最大值;
最快收藏速度P3’,即K3时间后收藏次数的最大值;
⑷、当前静态特征,即提取当前C条微博的静态特征,包括:
常用字集合SS1,少用字集合SS1’;
常用词组集合SS2,少用词组集合SS2’;
常用微博符号集合SS3,少用微博符号集合SS3’;
常用句型集合SS4,少用句型集合SS4’;
单条微博平均字数NN1;单条微博平均句数NN2;单句平均字数NN3;
⑸、当前动态特征,即当前时段下Y时间内C条微博的动态特征,包括:
转发的最大次数FF1;评论的最大次数FF2;收藏的最大次数FF3;
⑹、当前传播特征,即C条微博中每一条微博的传播特征,包括:
最快转发速度PP1,C条微博内单个微博发布后转发次数达到K1的最短时间;
最快评论速度PP2,C条微博内单个微博发布后评论次数达到K2的最短时间;
最快收藏速度PP3,C条微博内单个微博发布后收藏次数达到K3的最短时间;
最快转发速度PP1’,C条微博内单个微博发布K1时间后转发次数的最大值;
最快评论速度PP2’,C条微博内单个微博发布K2时间后评论次数的最大值;
最快收藏速度PP3’,C条微博内单个微博发布K3时间后收藏次数的最大值;
步骤四、检测预警模块以特征库中存储的长期特征作为参照标准,将来自特征分析模块的当前特征分别与特征库中的长期静态特征、长期动态特征和长期传播特征比对,进行差异评分和统计;若发现当前采集的微博特征信息与特征库中保存的长期特征,差异超出了预定的报警阈值时则自动报警,就做出微博帐号被盗用和伪造信息发布的预警;
步骤五、检测预警模块将信息传给响应处理模块,响应处理模块在预警发生后进行响应处理,并迅速将信息反馈给微博检测系统,提示微博检测发布和管理部门的监管人员或微博检测系统进行删除确认,或直接删除该条疑是伪造的微博。
2.根据权利要求1所述的一种微博伪造信息的检测方法,其特征在于:所述的步骤四中的检测预警模块的工作包括:
⑴、将当前静态特征与静态特征库中的长期静态特征比较:
若SS1在S1中比例小于Q1,G1=1;否则为0;
若SS1’在S1’中比例大于Q1’,G1’=1;否则为0;
若SS2在S2中比例小于Q2,G2=1;否则为0;
若SS2’在S2’中比例大于Q2’,G2’=1;否则为0;
若SS3在S3中比例小于Q3,G3=1;否则为0;
若SS3’在S3’中比例大于Q3’,G3’=1;否则为0;
若SS4在S4中比例小于Q4,G4=1;否则为0;
若SS4’在S4’中比例大于Q4’,G4’=1;否则为0;
若|(NN1-N1)/N1|>Q5,G5=1;否则为0;
若|(NN2-N2)/N2|>Q6,G6=1;否则为0;
若|(NN3-N3)/N3|>Q7,G7=1;否则为0;
G静态小计=G1+G1’+G2+G2’+G3+G3’+G4+G4’+G5+G6+G7
其中Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q1’,Q2’,Q3’,Q4’分别表示阈值,是系统参数;
G1,G2,G3,G4,G5,G6,G7,G1’,G2’,G3’,G4’分别表示阈值判定后的信号值,用0或者1表示;
⑵、将当前动态特征与动态特征库中的长期动态特征进行比较:
FF1,与动态特征库中该时段的F1[i]进行比较,若FF1≥F1[i],则G8=1;否则为0;
FF2,与动态特征库中该时段的F2[i]进行比较,若FF2≥F2[i],则G9=1;否则为0;
FF3,与动态特征库中该时段的F3[i]进行比较,若FF3≥F3[i],则G10=1;否则为0;
G动态小计=G8+G9+G10,其中G8,G9,G10分别表示阈值判定后的信号值,用0或者1表示;
⑶、将当前传播特征与传播特征库中的长期传播特征进行比较:
若PP1<P1;G11=1;否则为0;PP2<P2;G12=1;否则为0;
若PP3<P3;G13=1;否则为0;若PP1’>PP1;G14=1;否则为0;
若PP2’>PP2;G15=1;否则为0;若PP3’>PP3;G16=1;否则为0;
G传播小计=G11+G12+G13+G14+G15+G16
G总计=G静态小计+G动态小计+G传播小计,若G总计>G阀值,则产生预警;其中G11,G12,G13,G14,G15,G16分别表示传播特征值,表征了一种传播特征的判定信号,用0或者1表示。
3.根据权利要求2所述的一种微博伪造信息的检测方法,其特征在于:所述的检测预警模块中的G总计为带有权重的计算,即每个计算分项评分值乘以这个分项的权重,然后再求和;权重由系统预先人为设定,权重值为0~1,权重和为1。
CN201310186271.6A 2013-05-20 2013-05-20 一种微博伪造信息的检测方法 Expired - Fee Related CN103258039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310186271.6A CN103258039B (zh) 2013-05-20 2013-05-20 一种微博伪造信息的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310186271.6A CN103258039B (zh) 2013-05-20 2013-05-20 一种微博伪造信息的检测方法

Publications (2)

Publication Number Publication Date
CN103258039A CN103258039A (zh) 2013-08-21
CN103258039B true CN103258039B (zh) 2016-04-06

Family

ID=48961956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310186271.6A Expired - Fee Related CN103258039B (zh) 2013-05-20 2013-05-20 一种微博伪造信息的检测方法

Country Status (1)

Country Link
CN (1) CN103258039B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462118A (zh) * 2013-09-21 2015-03-25 郑建锋 控制信息传播风险的方法及系统
CN104917661B (zh) * 2014-03-11 2019-03-12 腾讯科技(北京)有限公司 消息检测方法及装置
CN105787101B (zh) * 2016-03-18 2019-06-07 联想(北京)有限公司 一种信息处理方法和电子设备
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统
CN110175438A (zh) * 2019-05-27 2019-08-27 北京奇艺世纪科技有限公司 分享账号检测方法及相关设备
CN111428151B (zh) * 2020-04-20 2022-05-17 浙江工业大学 一种基于网络增速的虚假消息识别方法及其装置
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020651A (zh) * 2012-11-27 2013-04-03 华中科技大学 一种微博图片敏感信息检测方法
CN103034725A (zh) * 2012-12-19 2013-04-10 中国科学院深圳先进技术研究院 数据获取、分析以及预警系统及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020651A (zh) * 2012-11-27 2013-04-03 华中科技大学 一种微博图片敏感信息检测方法
CN103034725A (zh) * 2012-12-19 2013-04-10 中国科学院深圳先进技术研究院 数据获取、分析以及预警系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Rumor has it: Identifying Misinfomation in Microblogs;Vahed Oazvinian;《EMNLP 2011》;20110731;全文 *
基于微博的突发事件检测和信息传播建模;刘丰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120515;第2012年卷(第05期);全文 *

Also Published As

Publication number Publication date
CN103258039A (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
CN103258039B (zh) 一种微博伪造信息的检测方法
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
Nakano et al. Analysis of cyber aggression and cyber-bullying in social networking
CN106548343B (zh) 一种非法交易检测方法及装置
CN102929918B (zh) 虚假网络舆情识别方法
CN111786950B (zh) 基于态势感知的网络安全监控方法、装置、设备及介质
CN107943905B (zh) 一种热点话题分析方法及系统
CN110516156B (zh) 一种网络行为监控装置、方法、设备和存储介质
CN107633084A (zh) 基于自媒体的舆情管控系统及其方法
CN106375339A (zh) 基于事件滑动窗口的攻击模式检测方法
CN105095238A (zh) 用于检测欺诈交易的决策树生成方法
WO2016097998A1 (en) System for and method for detection of insider threats
CN105426762A (zh) 一种android应用程序恶意性的静态检测方法
CN104598595B (zh) 欺诈网页检测方法及相应装置
CN107870957A (zh) 一种基于信息增益和bp神经网络的热门微博预测方法
CN107844914B (zh) 基于集团管理的风险管控系统和实现方法
CN109359234B (zh) 一种多维度网络安全事件分级装置
CN105095988A (zh) 社交网络信息爆发检测方法与系统
CN105354185B (zh) 用于问答系统挖掘关联问句的方法及装置
Marzuoli et al. Uncovering the landscape of fraud and spam in the telephony channel
Woo et al. An event-driven SIR model for topic diffusion in web forums
Luktarhan et al. Multi-stage attack detection algorithm based on hidden markov model
CN116074092B (zh) 一种基于异构图注意力网络的攻击场景重构系统
CN103258002B (zh) 一种社交网络的有效信息提取方法
Veres‐Ferrer et al. Elasticity as a measure for online determination of remission points in ongoing epidemics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406

Termination date: 20190520