CN103176983A - 一种基于互联网信息的事件预警方法 - Google Patents
一种基于互联网信息的事件预警方法 Download PDFInfo
- Publication number
- CN103176983A CN103176983A CN2011104309491A CN201110430949A CN103176983A CN 103176983 A CN103176983 A CN 103176983A CN 2011104309491 A CN2011104309491 A CN 2011104309491A CN 201110430949 A CN201110430949 A CN 201110430949A CN 103176983 A CN103176983 A CN 103176983A
- Authority
- CN
- China
- Prior art keywords
- information
- page
- event
- crawling
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 141
- 230000009193 crawling Effects 0.000 claims abstract description 85
- 235000013305 food Nutrition 0.000 claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 34
- 230000008859 change Effects 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 48
- 238000001514 detection method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000000692 anti-sense effect Effects 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 238000010606 normalization Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013278 delphi method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 231100000572 poisoning Toxicity 0.000 description 2
- 230000000607 poisoning effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 244000299906 Cucumis sativus var. sativus Species 0.000 description 1
- 229920000877 Melamine resin Polymers 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- STJMRWALKKWQGH-UHFFFAOYSA-N clenbuterol Chemical compound CC(C)(C)NCC(O)C1=CC(Cl)=C(N)C(Cl)=C1 STJMRWALKKWQGH-UHFFFAOYSA-N 0.000 description 1
- 229960001117 clenbuterol Drugs 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- JDSHMPZPIAZGSV-UHFFFAOYSA-N melamine Chemical compound NC1=NC(N)=NC(N)=N1 JDSHMPZPIAZGSV-UHFFFAOYSA-N 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000004014 plasticizer Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000007096 poisonous effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于互联网信息的事件预警方法,属于信息技术领域。其方法为:1)对每一设定网站进行网页信息爬取并保存,得到与事件相关的信息;2)对爬取得到的与事件相关的信息进行垃圾信息过滤;3)建立事件信息本体,基于所述事件信息本体中的实例名称和属性采用模式匹配方法对过滤后的信息进行分类;4)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;5)定期计算每一事件的各特征参数值,如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息识别、预警的及时性、准确性、全面性,提高了食品安全风险预警的效率。
Description
技术领域
本发明属于信息技术领域,尤其涉及一种采用特定步骤监控、爬取、分析互联网信息,并基于此提取食品安全事件相关信息和进行预警的方法,主要应用于食品安全等非常规突发事件应急处理所需的互联网信息监控、信息预警等工作中。
背景技术
近年来,食品安全事件诸如瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了关注,这就需要提前发现这些事件的信息,及时预警并快速处理。这里面,获取信息是应急处理的关键和源头。
随着Intemet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交流形成了一个虚拟的社会,它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
从现实的角度看,注意到多数食品安全事件发生前,在互联网上总是已经存在一些零星的线索,为此,可以采取采集、分析互联网上的相关信息后以预警的方式为这些食品安全事件的应急管理提供直接的信息来源。为及时、准确、全面获取、掌握所需要的特定互联网目标信息,就需要用到互联网信息监控、爬取、分析和预警等相关技术。
比如有研究工作利用互联网信息进行风险预警,但该研究中对收集的信息如何处理,采取何种措施,都需要人工的参与和决定。也有研究工作可以自动的基于互联网信息针对添加剂和补充剂等进行食品安全风险预警,但其过程中所采集的信息主要是新闻信息,没有考虑目前正在快速发展的Web2.0应用诸如博客信息,同时也没有考虑信息的质量问题,没有对采集的垃圾信息进行过滤-这会影响预警的准确性;信息采集过程中没有考虑信息采集的及时、主题性等问题-这会影响预警的时效性和准确性;及事件信息发现过程中直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息对应的主体不一致等问题。从实际的测试结果看,其信息分类、预警的准确性、全面性、及时性等方面尚存在需要进一步提高的地方。
发明内容
为解决上述的问题,本发明的目的在于提供一种采取特定步骤监控、爬取、过滤、分析互联网信息,并基于此提取食品安全事件信息和及时进行预警的方法,以有效的应对食品安全事件的应急管理需要。方法的步骤如下所述。
一、信息配置
在明确风险预警的目标和信息采集范围的基础上,通过预先的通用网页信息爬取(非主题爬取)和网页信息分析等工作,确定信息的存在区域、存在特点,并据此对数据源、风险预警目标等进行系统配置,为后面的信息监控、爬取、分析等步骤奠定基础。
二、信息爬取
在前面信息配置的基础上,通过预先的频繁页面信息爬取等工作,建立目标网站导航页面变化的时间序列预测模型以及页面主题相关等的判断模型,据此进行网页信息的及时和主题爬取,将相关信息进行保存,并在此基础上及时进行判断模型等的更新。
三、垃圾信息过滤
对爬取得到的网页信息进行垃圾信息过滤。其中对于欺骗性垃圾意见,首先采用启发式方法、正反向确认的方式建立准确的欺骗性垃圾意见集合,并在此基础上通过“从正例和无标注数据中学习”的机器学习方法建立欺骗性垃圾意见检测模型;基于此即可进行垃圾意见的检测识别(包括黑名单识别、反向识别、模型识别),并定期进行后期的样本、模型更新。对于其他类型的垃圾信息(包括通过内容作弊、链接作弊等方式生成的垃圾页面、以及用户生成内容中的无关意见和低质量意见等),通过标注正反例样本后采用机器学习方法建立检测模型进行识别(信息特征主要包括内容、内容分布、链接三个纬度)。
四、事件信息发现
对于经过垃圾信息过滤后的信息,在建立的食品安全事件信息本体基础上,通过信息分类、事件区分、趋势追踪和信息预警等技术,提取得到食品安全事件的相关信息并进行保存(含预警结果)。
五、信息服务
经过信息爬取、垃圾信息过滤、事件信息发现等步骤后,将识别发现的食品安全事件相关信息等保存到数据库中,并基于此通过信息展示、检索等方式提供给相关人员或直接提供给决策支持系统使用。
本发明在信息爬取过程中,综合使用了主题信息爬取、及时信息爬取技术,具体的建立了基于信息标题、内容、链接等的主题判断模型、基于时间序列的导航页面变化预测模型,以此为基础保证了网页信息爬取的及时性和主题相关性,提高了效率。
本发明在信息分析之前引入垃圾信息过滤的工作,提高后续处理的信息质量,这从根本上为保证风险预警的准确奠定了基础。
本发明在垃圾信息过滤工作中,针对的Web垃圾主要包括Web垃圾页面和用户生成内容中的垃圾意见两种。其中,Web垃圾页面可分为内容作弊页面、链接作弊页面;垃圾意见可分为不可信意见、低质量意见、无关意见。
本发明在垃圾信息过滤过程中,针对欺骗性垃圾意见,通过启发式方法和正反向确认的方法建立了准确的欺骗性垃圾意见集合,并形成了无标注的用户生成内容网页集合,然后采用“从正例和无标注数据中学习”技术基于意见作者、意见内容、内容分布、链接四个纬度的特征等建立了检测模型,并采用黑名单识别、反向识别、模型识别的方法检测欺骗性垃圾意见,从而保证了欺骗性垃圾意见的准确识别。
本发明在对内容作弊页面、链接作弊页面、低质量意见、无关意见等垃圾信息进行过滤的过程中,基于内容、内容分布、链接三个纬度的特征采用机器学习方法(诸如支持向量机等)建立检测模型,进行垃圾信息的识别判断。
本发明在事件信息发现过程中,采取了建立本体、对网页信息进行基于本体的信息分类、聚类区分、趋势追踪和预警等分析处理,综合提高了事件信息发现、预警的准确率和召回率。
与现有技术相比,本发明的优点:
本发明综合网页信息的及时爬取、主题爬取技术、垃圾信息过滤尤其是欺骗性垃圾意见过滤技术、基于本体的食品安全事件信息发现技术,对食品安全事件信息进行监控、爬取、过滤、分析、事件信息发现和预警,从而保证了食品安全事件信息识别、预警的及时性、准确率和召回率,提高了食品安全风险预警的效率。
附图说明
图1基于互联网信息的事件预警方法流程图;
图2信息爬取流程图;
图3垃圾信息过滤示意图;
图4欺骗性垃圾意见过滤流程图;
图5事件信息发现流程图。
具体实施方式
借鉴智能系统的思路,本发明的具体实施方式如图1所示。下面详述其步骤。
一、信息配置
在明确风险预警的目标和信息采集范围的基础上,通过预先的信息爬取和整理等步骤,确定信息的存在区域、存在特征,并据此对数据源、风险预警目标等进行系统配置(初始化),这是后面进行信息爬取、分析的基础。具体步骤如下所述。
(一)数据源配置
1.收集相关信息Url地址
按照预定的主题含义,首先选择确定部分(比如3-5个)主题关键词;在通用搜索引擎上输入这些主题关键词,得到查询结果列表;对查询结果进行整理和Url提取,得到部分相关信息的Url地址。
2.初始Url设置及网页信息爬取
选用互联网信息爬虫软件(比如Heritrix、Nutch等),并将步骤一(一)1整理得到的这些Url地址作为种子Url地址在软件中进行设置,同时选择网页信息爬取的层数、信息爬取的最大页面数等参数(事先确定)并在软件中进行设置,之后采用通用互联网信息爬取的方式(不进行主题相关判断、及时性预测)进行网页信息爬取。并将爬取得到的网页信息保存到数据库中。
3、网页信息整理
将所有爬取到的网页进行链接结构分析(通过构建链接图分析)。分析的内容主要是对爬取得到的网页进行信息源及导航页面整理、确认。即将网页信息按照其所属网站及链接关系不同进行归纳,找出这些网页所属的网站及网站的导航页面。
4、线程分配
将步骤一(一)3整理出来的每一个网站及其导航页面作为网页信息监控的对象,并分配给一特定的网页信息爬取线程进行信息爬取。这就形成了一个目标Url及对应爬取线程的网站监控列表。
(二)风险预警目标配置
在明确风险预警的目标基础上,对每一个需要预警的风险按照名称、类别、识别规则(事先构建)等配置导入到系统中,以备后续信息分析、事件发现之用。
二、信息爬取
结合主题爬取、及时爬取技术的互联网信息爬取过程如图2所示,具体的如下所述。
(一)页面频繁爬取
在一定的时间范围内(比如2个月),每个线程以较低的时间间隔(比如2分钟,据经验事先确定)对指定网站的导航页面及其子链接页面进行爬取、保存,并提取、记录导航页面的最后变更时间等信息,将导航网页的相关元数据(含每次采集得到的页面最后变更时间等)一并保存到数据库中。
(二)建立模型
1、网页信息整理、标注
对步骤二(一)爬取得到的网页进行整理、标注。整理、标注的内容主要是对爬取得到的网页进行主题相关判断和标注(类别主要分为三种:相关、不相关、后续页面),如果爬取的网页信息和预定的主题相关,则标注为相关页面;如果爬取的网页信息和预定主题不相关,则标注为不相关页面;如果页面内容是某一网页的后续页面,则标注为后续页面。这样对步骤一整理出来的每一个网站,均有一个对应的主题相关页面集合、主题不相关页面集合、后续页面集合。具体的,对每一个网站的网页,可分为导航页面、内容页面(又可分为主题相关页面、主题不相关页面)、后续页面(如下一页等)等类别。
2、建立时间序列预测模型
对步骤一整理出来的每一个网站(及其导航页面),以前面收集的导航页面的变更时间(即其子链接页面的发布时间)为基础,整理形成导航页面变更的时间序列。考虑到信息监控的主题相关需求,这里在时间序列中排除不相关页面的情况,从而最终形成一个网站导航页面的变更时间序列(即主题相关子页面发布时间序列)。
在此基础上,建立针对导航页面变更的时间序列预测模型。其过程为:首先将时间分为节假日、工作日两种类型,对每一种类型的时间,又分为两种子类型,分别是6:00-18:00,18:00-6:00两个时间段。这样,前面建立的时间序列就可以分为4种类型,相应的,时间序列预测模型也需要针对这四种类型的时间序列建立。方法中建立的时间序列预测模型主要原理是:依据历史时期内导航页面的变更时间序列,预测以后导航页面的变更情况。
即:导航页面的下一次变更时间Tnext(下一次变更时间)=Tcurrent(当前变更时间)+Tinterval(变更的时间段)。其中,Tinterval依据历史时期内导航页面的变更时间序列计算得到,则问题转变为确定Tinterval。
为了确定Tinterval,方法中采取的模式是用以前的变更时间段均值去预测下一次变更的时间段。这里面就出现一个问题:用以前的哪些变更时间段去预测下一次变更的时间段呢?为此,方法中定义了一个时间窗口的概念Twindow,设Twindow的长度为N,则有:所以,问题又转变为确定N。
为此,我们在以前收集的历史时间序列的基础上,计算每次导航页面变更的实际Tinterval,并采用不同长度的时间窗口内的实际Tinterval去预测下一次(历史时间序列内)变更的Tinterval,并基于此计算预测值和实际的变更值之间的相关系数(事先通过散点图观察其形状,选择合适的相关系数表达式),则寻找预测值和实际的变更值之间的相关性最强(比如简单相关系数的值最大)时的时间窗口长度即为我们要选择的时间窗口长度。由此,我们确定了基于四种时间序列类型的时间窗口长度Np(p=1、2、3、4),从而可以据此计算导航页面下一次变更的时间预测值。
在建立导航页面变更的时间序列预测模型基础上,即可产生形成针对网站导航页面的下一次爬取时间预测值,即导航页面下一次变更的时间预测值T1(更确切的是时间段,即导航页面下一次发生变化的时间和当前变化的时间的差值);同时,结合导航页面子页面的发布时间等情况设定导航页面下一次变更时间预测值的最大阈值MAX(比如2小时,事先确定)、最小阈值MIN(比如5分钟,事先确定)和折中值Mid(比如1小时,事先确定),对上述确定的参数进行保存。综合上述参数,可以确定下一次爬取网站导航页面的时间,从而可以相对准确、有效的指导信息爬取系统的下一次爬取时间,避免无益的行为。
3、建立主题判断模型
对每一个网站及其导航页面,以前面收集、整理、标注的主题相关页面集合、主题不相关页面集合、后续页面集合(如下一页等)为样本基础,以页面标题为特征(具体方法是对页面标题进行分词后,建立各词是否出现的0-1向量),采用一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiersusing positive and unlabeled examples.Proceedings of IEEE International Conference on DataMining,2003.)建立页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型。
并以所有网站的主题相关页面(通用主题相关页面集合)为基础,形成特征向量,过程为:
将信息页面内容分词、去除停用词后得到各词语的频率,并选择频率法降维后形成向量,设为P。
同时,计算信息页面的链接特征包括信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接主题相关页面集合内的信息数占总出链数比例、主题相关页面集合内链接信息的数量占总页面数比例等,并将各项参数加权(权数事先通过德尔斐法确定,但须保证权数之和为1)计算得到总的数值,设为k。
则形成表征信息页面的联合特征向量k*P。基于此采用上述的偏置SVM方法建立基于内容、链接的通用主题相关判断模型(在上述模型的建立过程中,须保证建立的模型准确率尽可能高,阈值事先设定),对上述确定的模型参数进行保存(建立模型过程中所基于的无标注样本集合为正例集合之外的样本所组成的集合,比如对建立主题相关判断模型而言,正例集合为主题相关页面集合,无标注样本集合是由其他的主题不相关页面、后续页面等组成的集合)。
(三)网页信息爬取
1、网页爬取时间确定
对每一个网站,预先设定的相应爬取线程根据前述步骤建立的时间序列预测模型预测下一次导航页面发生变化的时间(根据时间点的不同,根据前面步骤确定的不同类型时间段的时间窗口长度Np,计算下一次变更时间段的预测值,假设为T1;其中,时间窗口长度内的下一次变更时间段预测值T1=Mid),并根据如下的规则,确定启动针对导航页面的爬取时间T(设网站导航页面当前变更时间为Tcur):
如果Min<T1<Max,则T=Tcur+T1;
如果Max<T1,则T=Tcur+Max;
如果T1<Min,则T=Tcur+Min。
在确定针对导航页面爬取时间的基础上,在预定的时间启动针对导航页面的爬取工作。
2、网页主题判断
对导航页面进行爬取并进行预处理,提取其中的子页面Url及其锚文本;对这些子页面Url首先进行页面是否爬取判断(即根据本地数据库中是否存在此Url及其锚文本确定),对于之前已经爬取过的网页,直接放弃后续处理;对于未爬取过的子页面Url和其锚文本分别应用前面建立的主题相关判断模型、主题不相关判断模型、后续页面判断模型进行检测判断,并按照如下规则处理:
a如果子页面属于后续页面类别(即后续页面判断模型判断结果为正例)并且爬取的层数小于预先设定的爬取层数限制,则继续爬取此子页面,并将子页面中的Url及其锚文本提取出来,首先进行页面是否爬取判断(即根据本地数据库中是否存在此Url及其锚文本确定),对于未爬取过的页面Url和其锚文本分别应用前面建立的主题相关判断模型、主题不相关判断模型、后续页面判断模型等进行检测判断。以此循环(同步骤二(三)2),直至达到爬取层数限制,或不存在后续页面。
b如果子页面属于主题相关页面类别(即主题相关判断模型判断结果为正例、主题不相关判断模型的判断结果为反例),则爬取保存。
c如果子页面属于主题不相关页面类别(即主题相关判断模型判断结果为反例、主题不相关判断模型的判断结果为正例),则放弃。
d如果子页面既属于主题相关页面类别,也属于主题不相关页面类别(即主题相关判断模型、主题不相关判断模型的判断结果都为正例或都为反例)时,则直接爬取子页面后提取页面内容、链接特征,进行基于内容、链接的通用主题相关判断,如果属于主题相关类别,则保存此子页面,否则放弃。
3、网页二次过滤
由于网页爬取过程中,主要依靠锚文本作为特征进行主题是否相关判断,可能存在误差。因此在网页爬取保存后,采用基于内容、链接的通用主题相关判断模型对其进行离线的二次过滤判断,对属于主题相关类别的页面,则标注后进行后续处理(包括保存页面的发布时间,即导航页面的变更时间,形成或更新导航页面的当前变更时间序列);否则标注后放弃。同时,依据导航页面的当前变更时间序列,计算新的T1,为后续爬取提供预测时间值。
如果在一次导航页面爬取过程中,不存在新的主题相关子页面,则更新T1=T1+Min,为后续爬取提供预测时间值。
(四)样本、模型更新
在将爬取得到的主题相关页面进行后续预定处理的同时,为保证信息爬取时间预测、主题判断的准确性,以新爬取得到的网页信息为基础,定期(比如每隔1个月)执行样本更新、模型更新过程。
1、对每一网站,对于经过主题相关判断、过滤后的网页信息进行二次审核,对于确属主题相关的网页,进行标注,对各网站主题相关和通用主题相关页面集合进行更新,否则将这些信息据其类别不同归到主题不相关页面集合或后续页面集合中;同时对前述过程中放弃不用的网页(含定期执行的主题不相关页面爬取过程中得到的网页)、后续页面等进行二次审核,并在此基础上更新主题不相关页面、后续页面集合。
2、对每一网站,以上述经过审核、更新的主题相关页面集合为基础,提取其页面发布时间等元数据,并更新导航页面的历史变更时间序列。以此为基础,更新时间序列预测模型。
3、对每一网站,基于更新后的主题相关页面、主题不相关页面、后续页面和通用主题相关页面集合,对上述的主题相关判断模型、主题不相关判断模型、后续页面判断模型进行更新,同时对基于内容、链接的通用主题相关判断模型进行模型更新。
(五)网站监控列表动态更新
对于网页信息爬取过程中发现的不在目前监控列表中的网站,首先保存到数据库中。之后定期执行页面链接结构分析、整理归纳其导航页面、频繁页面采集、建立导航页面变更的时间序列预测模型及主题相关、不相关、后续页面判断模型等后加入监控列表中(同步骤一、二中的相关步骤)。同时,定期对监控列表中各网站相关的主题相关页面数进行统计分析,对于一定时间范围内采集的主题相关页面数量小于一定阈值(事先设定)的网站,则停用。
(六)网页信息后续处理
在对主题相关、不相关等网页集合、主题相关判断、主题不相关判断模型等进行补充、更新的同时,对经过上述步骤爬取得到的主题相关的网页信息,按照预定的信息监控等需求,进行网页信息的后续处理。
三、垃圾信息过滤
随着互联网的发展,互联网的网页数量和内容量越来越多。但同时,网页中的垃圾信息也越来越多,为保证后续信息处理的准确,就需要进行垃圾信息过滤。垃圾信息过滤环节中具体的可分为Web垃圾页面过滤和用户生成内容中的垃圾意见过滤两个方面(如图3所示)。其中,Web垃圾页面可分为内容作弊页面、链接作弊页面;垃圾意见按照其负面影响大小不同,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容。
对一网站中的Web垃圾页面、用户生成内容中的低质量意见、无关意见等,考虑到其垃圾特征相对比较明显,可以基于事先建立的经过标注的样本集合,提取样本的内容、内容分布、链接等纬度的特征后建立检测模型进行检测。关于内容纬度的特征,本方法中采用了对抽取出来的信息进行分词、去掉停用词并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量-权数为词语频率;关于内容分布特征,本方法中采用了信息的标题长度(字符数)、段落数、句子数、段落长度(均值)、句子长度(均值)、信息长度(字符数)、锚文本数、锚文本长度(字符数-均值)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);关于链接纬度的特征,本方法中采用了信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接垃圾页面集合(事先构建)内的信息数占总出链数比例、垃圾页面集合(事先构建)内链接此信息的数量占总页面数比例等。针对上述三个维度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分别形成特征向量并采取机器学习的方法(比如支持向量机等)建立垃圾信息检测模型(三个,基于更新的样本集合定期更新模型),之后即可对所采集的信息进行过滤(信息被判断为垃圾信息的规则是至少其中两个模型的检测结果为正例)。
同时,为解决欺骗性垃圾意见的识别问题,借鉴智能系统思路,形成的识别步骤如图4所示,具体如下所述。
(一)用户生成内容网页集合产生
对某一特定用户生成内容信息源(比如某一个论坛)中经互联网信息爬虫爬取得到的网页进行预处理等步骤后,形成用户生成内容网页集合。
(二)候选欺骗性垃圾意见收集
考虑到欺骗性垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、网页、产品、人物等的形象,具体的表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。由此出发,考虑到实际中欺骗性垃圾意见所具有的一些分布特征,采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的,此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见。
依据上述规则,对用户生成内容网页集合中符合以上条件的意见信息进行整理,形成候选欺骗性垃圾意见集合。
(三)欺骗性垃圾意见审核确认
总体上,此过程中遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性),结合审核、排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,即如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目的增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致。由此即可确认此信息是欺骗性垃圾意见信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性。
将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,归纳意见作者的反常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。
注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
(四)建立欺骗性垃圾意见检测模型
建立了准确欺骗性垃圾意见集合后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法、抽取样本特征后建立检测模型。注意到经过上述的过程得到了经过标注的欺骗性垃圾意见集合,但没有非欺骗性垃圾意见集合。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立分类模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiers using positive and unlabeled examples.Proceedings of IEEEInternational Conference on Data Mining,2003.)。
关于检测模型建立过程中样本特征的确定,本发明中主要从四个纬度考虑:意见作者、意见内容、意见内容分布、链接特征四个纬度。其中关于意见内容特征的确定方法是:对抽取出来的意见信息进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率);关于意见内容分布特征的选择方法是选择:意见段落数、段落长度(均值)、句子数、句子长度(均值)、词数、第一人称代词数、第二人称代词数、第三人称代词数等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见作者纬度的特征选择方法是选择:意见用户名(字符数)、意见发布时间(距离当天零点的时间间隔)、意见发布时间间隔(和上一条信息相比)、意见字数、意见数/小时(截至此条信息为止)、意见字数变化比率(和上一条信息相比)、意见数变化比率(截至此条信息为止,和上一小时相比)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见信息的链接特征纬度的选择方法是选择:意见信息的网站内入链数、意见信息的网站内出链数、意见信息的网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息数、准确欺骗性垃圾意见集合内信息链接意见信息的数量等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);针对上述四个维度的特征,基于上述步骤建立的准确欺骗性垃圾意见集合和无标注样本集合(即用户生成内容网页集合中的其他样本组成的集合),分别形成特征向量并建立检测模型(四个)。
(五)欺骗性垃圾意见检测识别
欺骗性垃圾意见检测模型建立完毕后,即可进行欺骗性垃圾意见的判断识别。整体上,欺骗性垃圾意见的判断识别按照三个步骤进行:黑名单识别、反向识别、模型检测识别。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照步骤三(四)建立的模型进行识别,识别过程为,对意见信息分别进行四个模型的判断,如果至少有三个模型判断为正例,则对此信息识别为欺骗性垃圾意见。
(六)欺骗性垃圾意见标识
对于经过步骤三(五)识别为欺骗性垃圾意见的用户生成内容,统一标注为欺骗性垃圾意见。
(七)候选欺骗性垃圾意见补充
对于经过步骤三(五)识别、并经过步骤三(六)标注为欺骗性垃圾意见的用户生成内容补充增加到候选的欺骗性垃圾意见集合中,形成新的候选欺骗性垃圾意见集合。
(八)欺骗性垃圾意见审核确认
按照和步骤三(三)相同的方式,定期对新的候选欺骗性垃圾意见集合信息进行审核确认,将通过上述方法确认的信息进行标注,并形成新的准确欺骗性垃圾意见集合(对于经常发布欺骗性垃圾意见的用户,将其加到黑名单以备后期识别使用;同时对新的准确欺骗性垃圾意见集合中意见作者的行为规律进行总结形成规则,以备后用);同时也形成新的无标注的用户生成内容网页集合。
(九)欺骗性垃圾意见检测模型更新
以新的准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合为基础(含更新的max参数),定期按照和步骤三(四)相同的方式,建立新的欺骗性垃圾意见检测模型,完成模型的更新。
(十)用户生成内容后续处理
在对准确欺骗性垃圾意见集合和无标注用户生成内容网页集合、检测模型进行补充、更新的同时,将经过欺骗性垃圾意见检测过程判断、标注的用户生成内容推送到后续的环节进行后续处理(处理过程中依据标注类别的不同采取不同的处理方式)。
经过以上过滤步骤后的,参与到后续信息处理过程中的信息(非垃圾信息)相对质量较高,这为后续信息处理的准确提供了基础。
四、事件信息发现
经过互联网信息爬取、垃圾信息过滤后,即可进行食品安全事件信息提取工作。
结合智能系统思路,设计食品安全事件信息提取的步骤如图5所示,具体叙述如下。
(一)建立本体
考虑到食品安全事件的特点以及后期事件信息提取、追踪等分析的需要,在食品安全事件信息本体的构建过程中,主要从对象、区域、时间、结果、关联者五个纬度考虑建立。比如对象即食品,可分为初产品、加工产品等类别,初产品又可以分为蔬菜、水果等类别,以此类推;再比如结果可分为污染、中毒等类别,污染又可以分为过期、超标等类别,以此类推;直至分类到不能再分为止,即为一个最底层的元素(即实例)。其他类别的构建过程类似。此外,针对本体中的每个实例,分别建立了对应的同义词、反义词、别名词等附加表,以备后续信息处理过程中使用。
(二)信息分类
对经过垃圾信息过滤后的正常信息进行信息分类的目标在于识别信息所属类别(比如属于何种对象、属于何区域、属于何关联者等,类别事先确定)及为食品安全事件的信息发现提供基础,信息分类过程中以前述建立的本体为基础进行。
过程中首先采取了模式匹配的方法进行。这里面需要考虑两个问题:信息范围、分类规则。关于分类规则,基于建立的食品安全事件信息本体,过程中主要考虑本体实例名称、属性等,具体的通过组合这些本体实例的名称、属性等采取模式匹配的方法进行分类;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果对信息的标题采用上述的模式匹配方法分类后,信息可以被归入当前所选的信息类别(比如苹果类别),则针对此信息类别的模式匹配分类处理完毕;否则对该信息的内容采用上述的模式匹配方法针对此信息类别进行二次模式匹配分类处理。
同时,为进一步提高信息分类的准确度,方法中还基于建立的本体、及标注过的样本集合,采用两种机器学习方法(支持向量机、KNN)(方法中采用的信息范围,是将信息标题和内容综合在一起,并进行分词、去停用词、降维后进行建模-其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体实例名称、属性匹配的词语权重乘以事先确定的倍数)分别针对每一信息类别建立分类判断模型(基于更新的样本集合定期更新模型)。
对每一信息类别,采用上述三种方法同时对过滤后的每一信息进行分类处理,并根据三种方法的分类结果中占多数者决定信息是否应该归入某一个类别。
(三)事件区分
对爬取得到的互联网信息进行过滤和分类后,考虑到同一类别信息中比如苹果类别信息中可能存在不同的事件,比如不同时间发生的不同事件。因此,为了进一步对信息中的不同事件进行区分,以分类后的信息为基础,基于上述本体知识,采取聚类(本方法中采用基于后缀树的方法进行)的方法对分类后的信息进行聚类处理。聚类过程中的信息范围主要考虑信息标题和内容,首先对其进行分词、去除停用词后,并提取和本体中对象、区域、结果、关联者四个纬度实例名称、属性相匹配的词语作为特征进行聚类计算;另外聚类过程中对时间的处理也是一个重要的问题,比如相差3天的两个信息可能是同一事件的可能性要大于相差1年的两个信息,因此,需要对归入同一事件的信息的发布时间进行限制(比如限制同一事件的信息分布时间区间为一个月内,事先通过统计分析的方式确定)。
此外,在区分事件的基础上,基于本体中结果纬度的实例名称、属性等,对信息中的事件结果进行信息匹配、抽取。
由此,完成了类别信息中具体事件的区分和提取相关的结果,基于此对事件、结果等进行标记和保存。
(四)趋势追踪
在对事件进行区分的基础上,建立事件的特征参数,具体的事件特征通过和事件相关的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数(通过加权的方法综合上述参数得到,权数通过德尔菲方法确定)等表示事件的特征,并定期(比如每隔1小时)对特征参数进行计算处理。并根据时间的变化,综合分析这些事件特征参数的变化情况。
另外,通过上述步骤提取出来的结果纬度的事件信息在方法中也作为一个重要的事件特征参数使用。如果结果信息有变化,补充后进行保存。
(五)事件预警
在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了一个月作为计算周期,也可据情况进行调整)进行比较,如果差值大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行预警。
其中阈值的确定方法为:在收集事件各特征参数的历史(比如一年内)变化数据基础上,并结合经过确认的历史食品安全事件的发生时间、区域、规模等资料(可以从食品安全相关管理部门获得),计算事件各特征参数值和其之前一定时期内(比如一个月)的均值之间的差值形成变量-作为自变量,将表示特定性质食品安全事件是否发生(1表示发生、0表示未发生)的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型。基于此模型,结合事件特征参数的历史变化趋势特点,选择可以使得因变量值为1的合适的自变量值作为阈值。
同时,对于上述步骤提取出来的结果纬度的事件信息,通过定期比较其和事先确定的预警标志(如中毒等)之间的异同基础上,提供不同种类事件的预警。
(六)后续处理
在对所得到的网页信息进行信息分类、事件区分、趋势追踪和预警分析的基础上,将分析得到的结果保存到数据库中,供后续处理使用。
(七)本体补充和修正
在事件信息发现的整个过程中,构建的食品安全事件信息本体对信息分类、事件区分等步骤的性能有着重要的影响。因此,考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,需要定期对信息分类、事件区分等过程的结果进行评估。并对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
五、信息服务
经过信息爬取、垃圾信息过滤、事件信息发现等步骤后,将识别发现的食品安全事件相关信息等保存到数据库中,之后即可通过高效准确的检索和符合逻辑的信息展示技术提供给相关人员,或以知识的方式提供给后续的智能决策支持系统等,从而为食品安全事件的应急管理提供信息基础。
由此,完整地实现了基于互联网信息爬取、分析的食品安全事件预警方法。方法中通过结合主题爬取、及时爬取的高效信息爬取技术、垃圾信息过滤尤其是欺骗性垃圾意见过滤技术、以及基于食品安全事件信息本体的事件信息发现技术等,保证了食品安全事件信息的及时、准确、全面获取、发现和预警。
值得说明的是,本发明不仅可用于食品安全事件的风险预警,只要基于特定领域加以改造,可顺利应用到其他领域的非常规突发事件的应急处理工作中。
Claims (16)
1.一种基于互联网信息的事件预警方法,其步骤为:
1)对每一设定网站进行网页信息爬取并保存,得到与事件相关的信息;
2)对爬取得到的与事件相关的信息进行垃圾信息过滤;
3)建立事件信息本体,基于所述事件信息本体中的实例名称和属性采用模式匹配方法对过滤后的信息进行分类;
4)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;
5)定期计算每一事件的各特征参数值;如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。
2.如权利要求1所述的方法,其特征在于对设定网站进行网页信息爬取得到与事件相关信息的方法为:
a)将设定初始地址作为种子地址进行网页信息爬取并保存,确定所爬取网页所属网站及网站的导航页面;
b)将确定出的每一网站导航页面作为一爬取对象分配一网页信息爬取线程,并建立一目标地址及对应爬取线程的监控列表;然后设定所述网页信息爬取线程的爬取时间间隔,在设定爬取时间范围内对每一所述爬取对象进行定期的多次爬取,并对其子页面爬取保存;
c)对步骤b)爬取的网页进行主题相关判断和标注,将爬取的每一网站的页面分别标注为:主题相关页面、主题不相关页面、后续页面;
d)基于标注的页面集合及形成的无标注样本集合,建立每一网站的页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型及基于内容和链接的通用主题相关判断模型;根据每次爬取时网站导航页面的主题相关子页面的发布时间建立一导航页面变更时间序列,创建每一网站的导航页面变更时间序列预测模型;
e)利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间,然后利用该变更时间预测值确定每一网站导航页面的下一爬取时间,爬取网站导航页面并提取其中未爬取过的子页面地址和锚文本;
f)利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型和通用主题判断模型对上一步提取的子页面地址和锚文本进行判断:如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃;
g)基于新爬取的主题相关页面,形成或更新每一网站导航页面的当前变更时间序列,采用步骤e)方法确定每一网站导航页面下一爬取时间进行网页爬取。
3.如权利要求2所述的方法,其特征在于将时间分为节假日、工作日两种类型,对每一种类型的时间分别划分两个时间段,从而将所述变更时间序列分为4种类型,对每一类型时间序列建立一导航页面变更时间序列预测模型。
4.如权利要求2或3所述的方法,其特征在于利用所述导航页面变更时间序列预测模型预测每一网站导航页面下一次变更时间的方法为:导航页面的下一次变更时间Tnext=当前变更时间Tcurrent+变更的时间段Tinterval;其中,N为设定的时间窗口Twindow的长度。
5.如权利要求4所述的方法,其特征在于确定N值的方法为:根据所述导航页面历史变更时间序列计算每次导航页面变更的实际Tinterval;然后采用不同的时间窗口内的实际Tinterval预测历史变更时间序列内下一次变更的Tinterval,并计算预测值和实际的变更值之间的相关系数,选取预测值和实际的变更值之间的相关性最强时的时间窗口长度值确定为N值。
6.如权利要求5所述的方法,其特征在于确定每一网站导航页面的下一爬取时间T的方法为:如果Min<T1<Max,则T=Tcur+T1;如果Max<T1,则T=Tcur+Max;如果T1<Min,则T=Tcur+Min;其中,Tcur为网站导航页面当前变更时间,T1为网站导航页面下一次变更时间段预测值,Max为网站导航页面下一次变更时间段预测值的最大阈值,Min为网站导航页面下一次变更时间段预测值的最小阈值。
7.如权利要求6所述的方法,其特征在于,如果某一次导航页面爬取过程中,不存在新的主题相关子页面,则更新T1=T1+Min。
8.如权利要求2所述的方法,其特征在于基于标注的主题相关页面集合和由其他页面组成的无标注样本集合建立所述通用主题相关判断模型的方法为:首先,将信息页面内容分词、去除停用词后得到各词语的频率,并选择频率法降维后形成向量,设为P;然后,计算信息页面的网站内出链数占总出链数比例、网站外出链数占总出链数比例、信息链接主题相关页面集合内的信息数占总出链数比例、主题相关页面集合内链接信息的数量占总页面数比例,并将各项参数加权计算得到总的数值,设为k;然后采用联合特征向量k*P表征信息页面,利用偏置SVM机器学习方法建立基于内容、链接的通用主题相关判断模型。
9.如权利要求8所述的方法,其特征在于所述步骤f)中,首先将锚文本作为特征,利用所建页面主题相关判断模型、页面主题不相关判断模型、后续页面判断模型对步骤e)提取的未爬取子页面地址和锚文本进行判断,如果子页面属于后续页面类别,则继续进行爬取;如果子页面属于主题相关页面,则爬取保存;如果子页面属于主题不相关页面类别,则放弃;否则直接爬取子页面后基于网页内容和链接建立特征向量,利用所建通用主题相关判断模型对爬取的页面进行判断,对于属于主题相关的类别,则标注保存,否则放弃。
10.如权利要求1所述的方法,其特征在于对一网站爬取得到的与事件相关的信息进行非欺骗性垃圾意见的垃圾信息过滤,其方法为:
a)选取部分与事件相关的信息,并对其进行标注,得到垃圾信息集合和非垃圾信息集合;
b)从信息内容、信息内容分布、信息链接特征三个纬度对所述垃圾信息集合和非垃圾信息集合样本进行特征提取,生成每一维度的特征向量;
c)采用机器学习方法基于所述垃圾信息集合和非垃圾信息集合建立基于每一维度特征的非欺骗性垃圾意见的垃圾信息检测模型;
d)利用所述非欺骗性垃圾意见的垃圾信息检测模型对所述与事件相关的信息进行非欺骗性垃圾意见的垃圾信息过滤。
11.如权利要求10所述的方法,其特征在于对一网站爬取得到的与事件相关的信息进行欺骗性垃圾意见过滤,其方法为:
a)选取部分与事件相关的信息并生成用户生成内容网页集合,对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;
b)对候选欺骗性垃圾意见集合中的每一个样本进行过滤,对确定的欺骗性垃圾意见进行标注,得到准确欺骗性垃圾意见集合;
c)从意见作者、意见内容、意见内容分布、链接特征四个纬度对所述准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合进行特征提取,生成每一维度的特征向量;
d)采用机器学习方法基于所述准确欺骗性垃圾意见集合和无标注用户生成内容集合建立每一维度的欺骗性垃圾意见检测模型;
e)利用所述欺骗性垃圾意见检测模型对所述与事件相关的信息进行欺骗性垃圾意见过滤。
12.如权利要求1所述的方法,其特征在于从事件信息的对象、区域、结果、关联者、时间五个纬度创建所述事件信息本体;对所述事件信息本体中的每一实例建立包括该实例名称的同义词、反义词、别名词的附加表。
13.如权利要求12所述的方法,其特征在于所述步骤3)的分类方法为:对于设定的每一信息类别,首先对信息的标题采用模式匹配方法进行分类,如果某信息可以被归入当前所选的信息类别,则针对此信息类别的模式匹配分类处理完毕;否则对该信息的内容采用模式匹配方法进行分类,判断其是否可归入当前所选信息类别;并且对设定的每一信息类别还包括:a)基于建立的事件信息本体及标注过的样本集合采用支持向量机机器学习方法,分别针对设定的每一信息类别建立一基于信息标题和内容的分类判断模型,对信息进行分类处理;b)基于建立的事件信息本体及标注过的样本集合采用KNN机器学习方法,分别针对设定的每一信息类别建立一基于信息标题和内容的分类判断模型,对信息进行分类处理;最后根据步骤3)、a)、b)三种方法的分类结果中占多数者决定信息是否应该归入某一个类别。
14.如权利要求1所述的方法,其特征在于对分类后的信息进行聚类处理的方法为:对信息标题和内容进行分词、去除停用词后提取和所述事件信息本体中对象、区域、结果、关联者四个纬度实例名称、属性相匹配的词语作为特征进行聚类计算;同时对聚类过程中属于同一事件的信息进行筛选,选取设定发布时间段内的信息作为同一事件的信息。
15.如权利要求1所述的方法,其特征在于对事件进行预警的阈值设定方法为:在收集事件各特征参数的历史变化数据基础上,结合经过确认的历史事件的发生时间、区域、规模,计算事件各特征参数值和其之前一定时期内的均值之间的差值形成变量并作为自变量,将表示设定事件是否发生的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型;然后基于此模型,选择使得因变量值为1的自变量值作为阈值;其中因变量值为1表示事件发生,0表示事件未发生。
16.如权利要求1所述的方法,其特征在于所述事件为食品安全事件;所述事件特征参数包括:信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合这些参数形成的综合指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430949.1A CN103176983B (zh) | 2011-12-20 | 2011-12-20 | 一种基于互联网信息的事件预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430949.1A CN103176983B (zh) | 2011-12-20 | 2011-12-20 | 一种基于互联网信息的事件预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103176983A true CN103176983A (zh) | 2013-06-26 |
CN103176983B CN103176983B (zh) | 2016-04-27 |
Family
ID=48636864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110430949.1A Active CN103176983B (zh) | 2011-12-20 | 2011-12-20 | 一种基于互联网信息的事件预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103176983B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103607319A (zh) * | 2013-11-14 | 2014-02-26 | 福建伊时代信息科技股份有限公司 | 网络风险处理方法及系统 |
CN104346341A (zh) * | 2013-07-24 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 一种实现数据与相关事件关联的方法及装置 |
CN105302844A (zh) * | 2014-08-01 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 互联网监测方法、装置及系统 |
CN105426509A (zh) * | 2015-11-30 | 2016-03-23 | 用友网络科技股份有限公司 | 一种应用于企业的异常质量事件快速响应系统 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
CN106021508A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于社交媒体的突发事件应急信息挖掘方法 |
CN106131242A (zh) * | 2016-08-17 | 2016-11-16 | 郑州埃文计算机科技有限公司 | 一种ip应用场景的分类方法 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
CN106372083A (zh) * | 2015-07-22 | 2017-02-01 | 中国科学院计算技术研究所 | 一种有争议性新闻线索自动发现的方法及系统 |
CN106484733A (zh) * | 2015-09-01 | 2017-03-08 | 中国科学院计算技术研究所 | 新闻线索个性化推送方法及系统 |
CN106547913A (zh) * | 2016-11-25 | 2017-03-29 | 网易(杭州)网络有限公司 | 页面信息的收集分类反馈方法、装置及系统 |
CN107145553A (zh) * | 2017-04-28 | 2017-09-08 | 暴风集团股份有限公司 | 一种用于体育赛事的网络数据获取方法和系统 |
CN107209835A (zh) * | 2014-08-29 | 2017-09-26 | 邻客音公司 | 用于在线幻灯片组呈现的垃圾信息检测 |
CN108628818A (zh) * | 2017-03-15 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN108628863A (zh) * | 2017-03-15 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN108959484A (zh) * | 2018-06-21 | 2018-12-07 | 中国人民解放军战略支援部队信息工程大学 | 面向事件检测的多策略媒体数据流过滤方法及其装置 |
CN109361713A (zh) * | 2018-12-17 | 2019-02-19 | 深信服科技股份有限公司 | 互联网风险监控方法、装置、设备及存储介质 |
CN109474515A (zh) * | 2018-11-13 | 2019-03-15 | 平安科技(深圳)有限公司 | 风险事件的邮件推送方法、装置、计算机设备及存储介质 |
CN109492216A (zh) * | 2018-09-19 | 2019-03-19 | 平安科技(深圳)有限公司 | 水帖自动鉴别及审批方法、装置及计算机可读存储介质 |
CN109558966A (zh) * | 2018-10-28 | 2019-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 智能判证预测事件发生的处理系统 |
CN109670101A (zh) * | 2018-12-28 | 2019-04-23 | 北京奇安信科技有限公司 | 爬虫调度方法、装置、电子设备及存储介质 |
CN110083701A (zh) * | 2019-03-20 | 2019-08-02 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN110121729A (zh) * | 2016-12-29 | 2019-08-13 | 谷歌有限责任公司 | 用于识别和表征数据流中包含的信号的系统和方法 |
CN110334720A (zh) * | 2018-03-30 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 业务数据的特征提取方法、装置、服务器和存储介质 |
CN113392582A (zh) * | 2021-06-03 | 2021-09-14 | 中国科学院国家空间科学中心 | 日冕物质抛射空间环境事件相似推荐方法及系统 |
CN114548048A (zh) * | 2022-02-23 | 2022-05-27 | 南京审计大学 | 一种基于文本主题指标的银行错报检测方法 |
CN115037739A (zh) * | 2022-06-13 | 2022-09-09 | 深圳乐播科技有限公司 | 文件传输方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168041A1 (en) * | 2005-12-21 | 2008-07-10 | International Business Machines Corporation | System and method for focused re-crawling of web sites |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102236674A (zh) * | 2010-04-29 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种索引页更新方法及装置 |
-
2011
- 2011-12-20 CN CN201110430949.1A patent/CN103176983B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168041A1 (en) * | 2005-12-21 | 2008-07-10 | International Business Machines Corporation | System and method for focused re-crawling of web sites |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN102236674A (zh) * | 2010-04-29 | 2011-11-09 | 腾讯科技(深圳)有限公司 | 一种索引页更新方法及装置 |
Non-Patent Citations (2)
Title |
---|
杨风雷 等: "用户生成内容中的垃圾意见研究综述", 《计算机应用研究》, vol. 28, no. 10, 31 October 2011 (2011-10-31) * |
贺晟: "搜索引擎中主题网络爬虫的研究与设计", 《中国优秀硕士论文全文数据库》, no. 11, 15 November 2010 (2010-11-15) * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346341A (zh) * | 2013-07-24 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 一种实现数据与相关事件关联的方法及装置 |
CN104346341B (zh) * | 2013-07-24 | 2019-03-15 | 腾讯科技(深圳)有限公司 | 一种实现数据与相关事件关联的方法及装置 |
CN103607319A (zh) * | 2013-11-14 | 2014-02-26 | 福建伊时代信息科技股份有限公司 | 网络风险处理方法及系统 |
CN105302844A (zh) * | 2014-08-01 | 2016-02-03 | 腾讯科技(深圳)有限公司 | 互联网监测方法、装置及系统 |
CN105302844B (zh) * | 2014-08-01 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 互联网监测方法、装置及系统 |
CN107209835A (zh) * | 2014-08-29 | 2017-09-26 | 邻客音公司 | 用于在线幻灯片组呈现的垃圾信息检测 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
CN106372083A (zh) * | 2015-07-22 | 2017-02-01 | 中国科学院计算技术研究所 | 一种有争议性新闻线索自动发现的方法及系统 |
CN106372083B (zh) * | 2015-07-22 | 2019-10-18 | 中国科学院计算技术研究所 | 一种有争议性新闻线索自动发现的方法及系统 |
CN106484733A (zh) * | 2015-09-01 | 2017-03-08 | 中国科学院计算技术研究所 | 新闻线索个性化推送方法及系统 |
CN106484733B (zh) * | 2015-09-01 | 2019-07-30 | 中国科学院计算技术研究所 | 新闻线索个性化推送方法及系统 |
CN105426509A (zh) * | 2015-11-30 | 2016-03-23 | 用友网络科技股份有限公司 | 一种应用于企业的异常质量事件快速响应系统 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN105893352A (zh) * | 2016-04-15 | 2016-08-24 | 苏州爱诺信信息科技有限公司 | 一种基于社交网络大数据的空气质量预警和监测分析系统 |
CN106021508A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于社交媒体的突发事件应急信息挖掘方法 |
CN106131242A (zh) * | 2016-08-17 | 2016-11-16 | 郑州埃文计算机科技有限公司 | 一种ip应用场景的分类方法 |
CN106547913A (zh) * | 2016-11-25 | 2017-03-29 | 网易(杭州)网络有限公司 | 页面信息的收集分类反馈方法、装置及系统 |
CN106547913B (zh) * | 2016-11-25 | 2020-04-21 | 网易(杭州)网络有限公司 | 页面信息的收集分类反馈方法、装置及系统 |
CN110121729A (zh) * | 2016-12-29 | 2019-08-13 | 谷歌有限责任公司 | 用于识别和表征数据流中包含的信号的系统和方法 |
CN108628863A (zh) * | 2017-03-15 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN108628863B (zh) * | 2017-03-15 | 2021-07-20 | 上海优扬新媒信息技术有限公司 | 信息获取方法和装置 |
CN108628818B (zh) * | 2017-03-15 | 2021-10-26 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN108628818A (zh) * | 2017-03-15 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 信息获取方法和装置 |
CN107145553A (zh) * | 2017-04-28 | 2017-09-08 | 暴风集团股份有限公司 | 一种用于体育赛事的网络数据获取方法和系统 |
CN110334720A (zh) * | 2018-03-30 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 业务数据的特征提取方法、装置、服务器和存储介质 |
CN108959484A (zh) * | 2018-06-21 | 2018-12-07 | 中国人民解放军战略支援部队信息工程大学 | 面向事件检测的多策略媒体数据流过滤方法及其装置 |
CN108959484B (zh) * | 2018-06-21 | 2020-07-28 | 中国人民解放军战略支援部队信息工程大学 | 面向事件检测的多策略媒体数据流过滤方法及其装置 |
CN109492216A (zh) * | 2018-09-19 | 2019-03-19 | 平安科技(深圳)有限公司 | 水帖自动鉴别及审批方法、装置及计算机可读存储介质 |
CN109558966A (zh) * | 2018-10-28 | 2019-04-02 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 智能判证预测事件发生的处理系统 |
CN109474515B (zh) * | 2018-11-13 | 2022-06-24 | 平安科技(深圳)有限公司 | 风险事件的邮件推送方法、装置、计算机设备及存储介质 |
CN109474515A (zh) * | 2018-11-13 | 2019-03-15 | 平安科技(深圳)有限公司 | 风险事件的邮件推送方法、装置、计算机设备及存储介质 |
CN109361713A (zh) * | 2018-12-17 | 2019-02-19 | 深信服科技股份有限公司 | 互联网风险监控方法、装置、设备及存储介质 |
CN109670101A (zh) * | 2018-12-28 | 2019-04-23 | 北京奇安信科技有限公司 | 爬虫调度方法、装置、电子设备及存储介质 |
CN110083701A (zh) * | 2019-03-20 | 2019-08-02 | 重庆邮电大学 | 一种基于平均影响力的网络空间群体性事件预警系统 |
CN113392582A (zh) * | 2021-06-03 | 2021-09-14 | 中国科学院国家空间科学中心 | 日冕物质抛射空间环境事件相似推荐方法及系统 |
CN113392582B (zh) * | 2021-06-03 | 2022-03-08 | 中国科学院国家空间科学中心 | 日冕物质抛射空间环境事件相似推荐方法及系统 |
CN114548048A (zh) * | 2022-02-23 | 2022-05-27 | 南京审计大学 | 一种基于文本主题指标的银行错报检测方法 |
CN115037739A (zh) * | 2022-06-13 | 2022-09-09 | 深圳乐播科技有限公司 | 文件传输方法、装置、电子设备及存储介质 |
CN115037739B (zh) * | 2022-06-13 | 2024-02-23 | 深圳乐播科技有限公司 | 文件传输方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103176983B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
CN103176985B (zh) | 一种及时高效的互联网信息爬取方法 | |
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN103176981B (zh) | 一种事件信息挖掘并预警的方法 | |
CN104820629A (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
El Alaoui et al. | Big data quality metrics for sentiment analysis approaches | |
CN103854063B (zh) | 一种基于互联网开放信息的事件发生风险预测并预警方法 | |
CN103425799A (zh) | 基于主题的个性化研究方向推荐系统和推荐方法 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
EP2859472A1 (en) | A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN108733791B (zh) | 网络事件检测方法 | |
CN103853744B (zh) | 一种面向用户生成内容的欺骗性垃圾意见检测方法 | |
CN103544188A (zh) | 移动互联网内容的用户偏好推送方法与装置 | |
CN105719191A (zh) | 多尺度空间下不确定行为语义的社交群体发现系统及方法 | |
CN103473262A (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN102156746A (zh) | 搜索引擎的性能评价方法 | |
CN105786810B (zh) | 类目映射关系的建立方法与装置 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |