CN103176981A - 一种事件信息挖掘并预警的方法 - Google Patents
一种事件信息挖掘并预警的方法 Download PDFInfo
- Publication number
- CN103176981A CN103176981A CN2011104308319A CN201110430831A CN103176981A CN 103176981 A CN103176981 A CN 103176981A CN 2011104308319 A CN2011104308319 A CN 2011104308319A CN 201110430831 A CN201110430831 A CN 201110430831A CN 103176981 A CN103176981 A CN 103176981A
- Authority
- CN
- China
- Prior art keywords
- information
- event
- suggestion
- duplicity
- rubbish
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种事件信息挖掘并预警的方法,属于信息技术领域。本方法为:1)建立事件信息本体,对爬取的互联网信息进行过滤,得到与事件相关的信息;2)基于所述事件信息本体中的实例名称和属性对过滤后的信息进行分类;3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;4)定期计算每一事件的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数等事件特征参数值;5)如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。本发明保证了食品安全事件信息发现、预警的准确性和全面性,提高了食品安全风险预警的效率。
Description
技术领域
本发明属于信息技术领域,尤其涉及一种采用特定策略、步骤对爬取得到的互联网信息进行处理从而进行食品安全事件信息发现、预警的方法,主要应用于食品安全事件信息监控、风险预警等非常规突发事件的应急处理工作中。
背景技术
近年来,食品安全事件诸如瘦肉精、染色馒头、塑化剂、毒黄瓜等频频发生,这既造成了极坏的社会影响,也带来了大量的经济损失。为了避免或最大限度的降低这些食品安全事件所带来的危害,基于事件的风险预警技术开始得到了极大关注。为进行基于事件的风险预警,这就需要提前发现这些事件的信息。
随着Internet的迅猛发展,互联网网民数量越来越庞大,互联网逐渐成为网民发布信息、获取信息和传递信息的主要载体,而且通过人、组织等之间的交互形成了一个和现实社会有一定的对应、关联关系的虚拟社会。它已经变成了世界上规模最大的公共数据源,而且其规模还正在不停的增长着。此状况下,利用互联网自身的特点,建立起完善的社会信息反馈网络,提前发现各种可能带来危机的“未然”因素,为食品安全事件的应急管理提供及时、准确、全面的信息就显得势在必行和有着非常重要的意义。
为利用互联网上的信息进行食品安全事件的风险预警,需要经过一定的过程得到事件相关的信息。这首先需要进行互联网信息爬取,之后即可进行食品安全事件相关的信息提取、发现工作。为此,有必要从食品安全事件应急管理的角度考察食品安全事件信息提取、发现的目的和关键点:在基于事件的食品安全风险预警工作中,需要识别可能演变成事件的蛛丝马迹信息;对信息的性质进行判断,确定是否是一个事件,基于此识别已经正在形成的事件信息;对已经发现、识别的事件信息,对其发展趋势进行追踪和监控,以监控事件的发展趋势,待其发展到一定程度需要进行及时的预警,以此为采取特定措施提供基础。
在这样一个过程里面,其中的关键步骤是进行事件信息的识别,理论上这可以通过各种有监督的机器学习或者无监督的机器学习方法实现,但结合实际的信息需求和准确度、可操作性等的考虑,往往采取一些变通的措施。比如有研究工作采取的方式是:事先建立一些信息分类(比如疾病),针对每个分类收集一些关键词,之后对收集到的网页信息以这些分类和关键词为基础,采取关键词匹配的方式进行信息分类,并在此基础上监控类别信息即事件的发展。也有研究工作采用了信息的相关性检测、命名实体识别、利用疾病和地址的信息提取、可视化的展示结果等步骤进行事件信息的识别和判断的做法。
从评估试验的结果看,上述做法中事件信息的判断、识别、预警等还存在性能上的不足(准确率、召回率等参数有待进一步提高)。对此,如果考虑到上述方法中仅考虑了新闻信息而未考虑目前的Web2.0应用比如博客信息、未考虑信息中存在的各种垃圾信息的影响、截止目前信息提取技术的准确度尚未足够高,及直接将经过关键词匹配后得到的类别信息作为同一种事件信息的做法中可能存在信息对应的主体不一致等问题,上述方法存在性能上的不足也就不足为奇了。
发明内容
为解决上述问题,本发明的目的在于提供一种采取特定措施和策略对爬取的网页信息进行特定处理从而有效的进行食品安全事件信息发现、事件预警的方法。
方法中形成的步骤如下所述。
一、建立本体
依据食品安全事件的特点和后期信息分析的需要,从对象、区域、结果、关联者、时间等纬度建立食品安全事件信息本体。从而为食品安全事件的信息过滤、信息分类、信息发现等提供了基础。
二、信息过滤
在上述建立的本体基础上,对爬取得到的网页信息进行过滤。过滤过程主要分为两个部分:食品安全信息过滤、垃圾信息过滤。其中前者主要是通过对信息的标题、内容等采取模式匹配的方法确定其是否属于食品安全信息;后者主要是对通过内容、链接作弊的垃圾信息、以及用户生成内容中的无关意见、低质量意见和欺骗性垃圾意见通过建立检测模型进行过滤。从而保证进入后续过程的信息的质量。
三、信息分类
在上述建立的本体基础上,对爬取、过滤后的信息,通过对信息的标题、内容等采取模式匹配、基于机器学习分类模型的判断识别方法进行信息的分类处理,从而将信息归入到不同的类别中。
四、事件区分
对归入到不同类别的信息,通过基于本体的聚类方法,对类别中的信息进一步按照事件的不同进行区分,从而区分出不同的事件。过程中对信息的时间范围进行限制也是一个需要考虑的问题。
五、趋势追踪
经过信息过滤、分类、事件区分后,在建立表示事件的特征参数诸如页面数、页面浏览数、综合指数等的基础上,通过定期计算事件特征参数值的方法对事件的发展趋势进行追踪。
六、事件预警
定期计算事件各特征参数值,并将事件当前的各特征参数值和其之前一定时期内的均值进行比较,如果差值大于一定的阈值,则进行事件预警。
七、结果展示
在对所得到的网页信息进行信息分类、事件区分、趋势追踪和预警分析的基础上,将结果展示给用户和对用户进行服务。
八、本体补充和修正
考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,定期对信息分类、事件区分等过程的结果进行评估,并基于此对本体中的不足诸如遗漏、错误等加以补充、修正,以提高后续的方法效率。
本发明为保证信息分类、事件发现的准确、高效,建立了符合食品安全事件信息特点的本体,建立本体过程中主要从对象、结果、区域、时间、关联者几个纬度进行。
本发明为提高事件信息发现的准确度,在对爬取得到的互联网信息进行后续处理前,首先对其进行了信息过滤处理,包括食品安全信息过滤、垃圾信息过滤。
本发明所采用的食品安全信息过滤主要作用是判断信息是否属于食品安全相关信息。其过程主要是对信息的标题、内容,基于食品安全事件信息本体中的对象、结果两个纬度,通过组合这两个纬度的本体实例的名称、属性等对信息采取模式匹配的方法进行过滤。
本发明所采用的垃圾信息过滤主要作用是对信息中可能存在的垃圾信息进行识别过滤,具体的包括对内容作弊页面、链接作弊页面、不可信意见、低质量意见、无关意见等垃圾信息进行了过滤,过滤中采用了基于机器学习方法建立的组合检测模型。从而保证了进入后续处理过程中的信息的质量。
本发明为对欺骗性垃圾意见进行识别过滤,首先采用启发式方法形成候选欺骗性垃圾意见样本集合,并根据“宁缺勿滥”的原则进行整理标注,形成一个准确的欺骗性垃圾意见集合;考虑到反例样本分布特征的多样性、标注时间以及工作量等问题,未对反例样本进行标注。基于此,选择了一种“从正例和无标注数据中学习”的机器学习方法,具体的依据上述的准确欺骗性垃圾意见集合和无标注的用户生成内容样本集合完成检测模型的建立;模型建立过程中主要考虑意见作者、意见内容、内容分布及链接四个纬度的特征。欺骗性垃圾意见识别过程中采取了黑名单识别、反向识别、模型识别等方法,从而更加准确的识别欺骗性垃圾意见。
本发明在对内容作弊页面、链接作弊页面、低质量意见、无关意见等垃圾信息进行过滤的过程中,基于内容、内容分布、链接三个纬度的特征采用机器学习方法(诸如支持向量机等)建立了检测模型,进行垃圾信息的识别判断。
本发明在对爬取、过滤后的互联网信息进行分类过程中,对信息的标题、内容,一方面通过组合食品安全事件信息本体实例的名称、属性等采取模式匹配的方法进行分类;同时基于事先建立的本体、及标注过的样本集合采用两种机器学习方法建立了两个分类模型。对某一信息的最终分类结果取决于三种方法分类结果的多数者。
本发明在对爬取的互联网信息进行过滤、分类过程中采取的模式匹配方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式。具体的方式选择及具体规则建立通过事先对信息的统计分析确定。
本发明为保证事件信息识别的准确率,对经过分类的食品安全信息,通过采用聚类的方法(主要考虑信息标题及内容中和本体中对象、区域、结果、关联者几个纬度的实例名称和属性匹配的词语,同时信息的时间也是一个重要的限制条件)对具体的事件进行了区分。聚类过程中,主要采用了后缀树的方法。
本发明为了追踪事件的发展趋势,主要建立了页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数(通过加权的方法综合上述参数)等特征参数,并基于此对事件的发展趋势进行追踪。
本发明定期计算事件各特征参数值和其之前一定时间范围内的均值之间的关系,当差值达到一定程度时(比如3倍的标准差)进行及时的事件预警。
本发明通过定期进行信息分类、事件区分的结果评估,以及基于此的本体修正和补充,保证了本体的持续改进和完善,以及方法中信息分类、事件信息发现等的准确度。
与现有技术相比,本发明的优点:
本发明通过建立食品安全事件信息本体,并在此基础上对爬取得到的互联网信息采取信息过滤、信息分类、事件区分、事件预警等技术进行处理,保证了食品安全事件信息发现、预警的准确性和全面性,保证了食品安全风险预警的效率。
附图说明
图1事件信息挖掘并预警的方法流程图;
图2食品安全事件信息本体示意图;
图3垃圾信息分类示意图;
图4欺骗性垃圾意见检测模型建立示意图;
图5欺骗性垃圾意见识别方法示意图;
图6食品安全事件区分示意图。
具体实施方式
本发明的具体实施方式如图1所示,具体步骤叙述如下。
1、建立本体
考虑到食品安全事件的特点以及后期事件信息提取、追踪等分析的需要,在食品安全事件信息本体的构建过程中,主要从对象、区域、时间、结果、关联者五个纬度考虑建立(如图2所示)。比如对象即食品,可分为初产品、加工产品等类别,初产品又可以分为蔬菜、水果等类别,以此类推;再比如结果可分为污染、中毒等类别,污染又可以分为过期、超标等类别,以此类推;直至分类到不能再分为止,即为一个最底层的元素(即实例)。其他类别的构建过程类似。此外,针对本体中的每个实例,分别建立了对应的同义词、反义词、别名词等附加表,以备后续信息处理过程中使用。
2、信息过滤
对特定的信息源,采用互联网信息爬取技术(比如通用爬取、有限范围爬取等技术)对信息源中的信息进行爬取。考虑到一个网站上可能存在和预定主题不相关的内容、以及可能存在各种垃圾信息的情况,为了提高事件信息发现、预警的准确度,在对信息进行后续处理之前,首先对信息进行过滤。整个过滤过程分为两个方面:即食品安全信息过滤、垃圾信息过滤。
食品安全信息过滤,即判断所采集的信息是否属于食品安全相关的信息。这里面需要考虑两个问题:信息范围、过滤规则。关于过滤规则,基于建立的食品安全事件信息本体,过程中主要考虑对象和结果两个纬度,具体的通过组合这两个纬度的本体实例的名称、属性等采取模式匹配的方法进行过滤;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果经过对标题信息过滤后,信息可以被归入食品安全信息类别,则对此信息的处理完毕;否则对信息的内容进行二次判断处理。
Web垃圾可分为Web垃圾页面和用户生成内容中的垃圾意见两种。其中,Web垃圾页面可分为内容作弊页面、链接作弊页面;垃圾意见按照其负面影响大小不同,可将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或者和话题无关的内容(如图3所示)。
对一网站的Web垃圾页面、用户生成内容中的低质量意见、无关意见等,考虑到其垃圾特征相对比较明显,可以基于事先建立的经过标注的样本集合,提取样本的内容、内容分布、链接等纬度的特征后建立检测模型进行检测。关于内容纬度的特征,本方法中采用了对抽取出来的信息进行分词、去掉停用词并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量-权数为词语频率;关于内容分布特征,本方法中采用了信息的标题长度(字符数)、段落数、句子数、段落长度(均值)、句子长度(均值)、信息长度(字符数)、锚文本数、锚文本长度(字符数-均值)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);关于链接纬度的特征,本方法中采用了信息的网站内出链数占总出链数比例、信息的网站外出链数占总出链数比例、信息链接垃圾页面集合(事先构建)内的信息数占总出链数比例、垃圾页面集合(事先构建)内链接此信息的数量占总页面数比例等。针对上述三个维度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分别形成特征向量并采取机器学习的方法(比如支持向量机等)建立垃圾信息检测模型(三个,基于更新的样本集合定期更新模型),之后即可对所采集的信息进行过滤(信息被判断为垃圾信息的规则是至少其中两个模型的检测结果为正例)。
同时,对一网站用户生成内容中的欺骗性垃圾意见,考虑到垃圾特征不是很明显,在建立垃圾意见样本集合过程中遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性),结合基于知识库的审核、排查等方式对可能是欺骗性垃圾意见的信息(此过程中主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的意见,并形成候选欺骗性垃圾意见集合)进行审核确认。具体的采取了两种方法进行确认,一种是正向确认,一种是反向确认。所谓正向确认,如果意见信息内容和欺骗性垃圾意见知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见,加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致,由此即可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性。将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,归纳意见作者的反常行为(比如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见进行标注。
建立了准确欺骗性垃圾意见集合后,从判断识别欺骗性垃圾意见的角度看,目前需要选择机器学习方法、抽取样本特征后建立检测模型。注意到经过上述的过程得到了经过标注的欺骗性垃圾意见集合,但没有非欺骗性垃圾意见集合。这就意味着不能简单地采用一般的有监督机器学习方法,因为它建立分类模型需要同时具备正例、反例集合。所以我们这里采用了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiers using positive and unlabeled examples.Proceedings ofIEEE International Conference on Data Mining,2003.)。
关于检测模型建立过程中样本特征的确定,本发明中主要从四个纬度考虑:意见作者、意见内容、意见内容分布、链接特征四个纬度。其中关于意见内容特征的确定方法是:对抽取出来的意见信息进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等)后形成内容特征向量(权数为词语频率);关于意见内容分布特征的选择方法是选择:意见段落数、段落长度(均值)、句子数、句子长度(均值)、词数、第一人称代词数、第二人称代词数、第三人称代词数等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见作者纬度的特征选择方法是选择:意见用户名(字符数)、意见发布时间(距离当天零点的时间间隔)、意见发布时间间隔(和上一条信息相比)、意见字数、意见数/小时(截至此条信息为止)、意见字数变化比率(和上一条信息相比)、意见数变化比率(截至此条信息为止,和上一小时相比)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见信息的链接特征纬度的选择方法是选择:意见信息的网站内入链数、意见信息的网站内出链数、意见信息的网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息数、准确欺骗性垃圾意见集合内信息链接意见信息的数量等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);针对上述四个维度的特征,基于上述步骤建立的准确欺骗性垃圾意见集合和无标注样本集合(即用户生成内容网页集合中的其他样本组成的集合),分别形成特征向量并建立检测模型(四个,基于更新的样本集合定期更新模型)(如图4所示)。
之后即可对新爬取得到的用户生成内容信息进行欺骗性垃圾意见的识别过滤。首先进行黑名单识别,对属于黑名单中用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据前述过程归纳的规则按照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余的意见按照上述过程建立的欺骗性垃圾意见检测模型进行识别,识别过程为,对意见信息分别进行四个模型的判断,如果至少有三个模型判断为正例,则对此信息识别为欺骗性垃圾意见(如图5所示)。
经过以上过滤步骤后的,参与到后续信息处理过程中的信息(即食品安全相关的非垃圾信息)相对质量较高,这为后续信息处理的准确提供了基础。
3、信息分类
信息分类的目标在于识别信息所属类别(比如属于何种对象、属于何区域、属于何关联者等,类别事先确定)及为食品安全事件信息的发现提供基础。综合考虑信息分类的准确性、计算量和可操作性等问题,此阶段食品安全信息分类的过程中首先采取了模式匹配的方法进行。同样,这里面需要考虑两个问题:信息范围、分类规则。关于分类规则,基于建立的食品安全事件信息本体,过程中主要考虑本体实例名称、属性等,具体的通过组合这些本体实例的名称、属性等采取模式匹配的方法进行分类;方法中所采取的模式匹配具体方法包括布尔匹配、频数匹配、实例名称间的距离匹配、实例名称同义反义匹配、实例名称别名匹配等方式;具体的方式选择及具体规则建立通过对信息统计分析后确定(事先确定并定期更新)。关于信息范围的选择,这里主要考虑信息的标题、信息内容两个纬度,考虑到信息标题和信息内容可能存在不匹配的情况,具体处理过程中首先对信息的标题进行处理,如果对信息的标题采用上述的模式匹配方法分类后,信息可以被归入当前所选的信息类别(比如苹果类别),则针对此信息类别的模式匹配分类处理完毕;否则对该信息的内容采用上述的模式匹配方法针对此信息类别进行二次模式匹配分类处理。
同时,为进一步提高信息分类的准确度,方法中还基于建立的本体、及标注过的样本集合,采用两种机器学习方法(支持向量机、KNN)(方法中采用的信息范围,是将信息标题和内容综合在一起,并进行分词、去停用词、降维后进行建模-其中词语权重为词语频率,考虑到标题词语的重要性,对标题词语的权重乘以事先确定的倍数;同样的,对和本体实例名称、属性匹配的词语权重乘以事先确定的倍数)分别针对每一信息类别建立分类判断模型(基于更新的样本集合定期更新模型)。
对每一信息类别,采用上述三种方法同时对过滤后的每一信息进行分类处理,并根据三种方法的分类结果中占多数者决定信息是否应该归入某一个类别。
4、事件区分(如图6所示)
对爬取得到的互联网信息进行过滤和分类后,考虑到同一类别信息中比如苹果类别信息中可能存在不同的事件,比如不同时间发生的不同事件。因此,为了进一步对信息中的不同事件进行区分,以分类后的信息为基础,基于上述本体知识,采取聚类(本方法中采用基于后缀树的方法进行)的方法对分类后的信息进行聚类处理。聚类过程中的信息范围主要考虑信息标题和内容,首先对其进行分词、去除停用词后,并提取和本体中对象、区域、结果、关联者四个纬度实例名称、属性相匹配的词语作为特征进行聚类计算;另外聚类过程中对时间的处理也是一个重要的问题,比如相差3天的两个信息可能是同一事件的可能性要大于相差1年的两个信息,因此,需要对归入同一事件的信息的发布时间进行限制(比如限制同一事件的信息分布时间区间为一个月内,事先通过统计分析的方式确定)。
此外,在区分事件的基础上,基于本体中结果纬度的实例名称、属性等,对信息中的事件结果进行信息匹配、抽取。
由此,完成了类别信息中具体事件的区分和提取相关的结果,基于此对事件、结果等进行标记和保存。
5、趋势追踪
在对事件进行区分的基础上,建立表示事件的特征参数,具体的事件特征通过和事件相关的信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合指数(通过加权的方法综合上述参数得到,权数通过德尔菲方法确定,但需保证权数之和为1)等表示事件的特征,并定期(比如每隔1小时)对特征参数进行计算处理。并根据时间的变化,综合分析这些事件特征参数的变化情况。
另外,步骤4提取出来的结果纬度的事件信息在方法中也作为一个重要的事件特征参数使用。如果结果信息有变化,补充后进行保存。
6、事件预警
在上述事件趋势追踪的基础上,定期(比如每12小时)计算表示事件的各特征参数(包括综合指数)数值,并将事件当前的各特征参数值和其之前一定时期内的均值(目前考虑到网络事件传播的特点,选择了一个月作为计算周期,也可据情况进行调整)进行比较,如果差值大于一定的阈值(比如3倍的标准差,阈值事先设定),则对此事件进行预警。
其中阈值的确定方法为:在收集事件各特征参数的历史(比如一年内)变化数据基础上,并结合经过确认的历史食品安全事件的发生时间、区域、规模等资料(可以从食品安全相关管理部门获得),计算事件各特征参数值和其之前一定时期内(比如一个月)的均值之间的差值形成变量-作为自变量,将表示特定性质食品安全事件是否发生(1表示发生、0表示未发生)的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型。基于此模型,结合事件特征参数的历史变化趋势特点,选择可以使得因变量值为1的合适的自变量值作为阈值。
同时,基于步骤4提取出来的结果纬度的事件信息,通过定期比较其和事先确定的预警标志(如中毒等)之间的异同基础上,提供不同种类事件的预警。
7、结果展示
在对所得到的网页信息进行信息分类、事件区分、趋势追踪和预警分析的基础上,将分析得到的结果通过表格、图等的方式展示给用户。并对预警信息提供短信息、邮件等即时送发的服务方式。
8、本体补充和修正
在事件信息发现的整个过程中,构建的食品安全事件信息本体对信息分类、事件区分等步骤的性能有着重要的影响。因此,考虑到互联网信息的分布变化特点,从持续提高方法效率的角度出发,需要定期对信息分类、事件区分等过程的结果进行评估。并对本体中的不足诸如遗漏、错误等加以补充、修正,以提高方法后续的效率。
由此,完整地实现了从爬取得到的互联网信息中提取食品安全事件信息,并根据事件发展过程及时进行预警和为用户服务的全过程。过程中,通过采取信息过滤、分类、聚类、趋势追踪等技术保证了事件信息发现、预警的准确。这将为食品安全事件的风险预警、快速应急处理等提供重要的信息基础。
值得说明的是,本发明不仅可用于食品安全事件的应急管理。稍加改造,即可应用到其他的、能从互联网上获取事件信息的非常规突发事件的风险预警等应急处理工作中。
Claims (13)
1.一种事件信息挖掘并预警的方法,其步骤为:
1)建立事件信息本体,并基于所述事件信息本体对爬取的互联网信息进行过滤,得到与事件相关的信息;
2)基于所述事件信息本体中的实例名称和属性采用模式匹配方法对过滤后的信息进行分类;
3)对分类后的信息按照设定特征进行聚类,得到每一类信息中所包含的事件;
4)定期计算每一事件的各特征参数值;如果某事件的各特征参数值和其之前一定时期内的均值之间的差值超过事先设定的阈值,则对该事件进行预警。
2.如权利要求1所述的方法,其特征在于所述事件特征参数包括:信息页面数、页面浏览数、页面转发数、信息来源区域数、信息来源网站数以及综合这些参数形成的综合指数。
3.如权利要求2所述的方法,其特征在于从事件信息的对象、区域、结果、关联者、时间五个纬度创建所述事件信息本体;对所述事件信息本体中的每一实例建立包括该实例名称的同义词、反义词、别名词的附加表。
4.如权利要求3所述的方法,其特征在于基于所述事件信息本体对爬取的互联网信息进行过滤,得到与事件相关的信息的方法为:利用所述事件信息本体中对象和结果两个纬度的本体实例名称、属性采取模式匹配的方法进行过滤;其中首先对爬取的互联网信息的标题采用模式匹配方法进行过滤,如果当前信息属于所需事件相关信息,则针对当前信息的过滤处理完毕;否则利用模式匹配的方法对该信息的内容进行过滤,判断其是否属于所需事件相关信息。
5.如权利要求4所述的方法,其特征在于对一网站爬取得到的与事件相关的信息进行非欺骗性垃圾意见的垃圾信息过滤,其方法为:
1)选取部分与事件相关的信息,并对其进行标注,得到垃圾信息集合和非垃圾信息集合;
2)从信息内容、信息内容分布、信息链接特征三个纬度对所述垃圾信息集合和非垃圾信息集合样本进行特征提取,生成每一维度的特征向量;
3)采用机器学习方法基于所述垃圾信息集合和非垃圾信息集合建立基于每一维度特征的非欺骗性垃圾意见的垃圾信息检测模型;
4)利用所述非欺骗性垃圾意见的垃圾信息检测模型对所述与事件相关的信息进行非欺骗性垃圾意见的垃圾信息过滤。
6.如权利要求5所述的方法,其特征在于对一网站爬取得到的与事件相关的信息进行欺骗性垃圾意见过滤,其方法为:
1)选取部分与事件相关的信息并生成用户生成内容网页集合,对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;
2)对候选欺骗性垃圾意见集合中的每一个样本进行过滤,对确定的欺骗性垃圾意见进行标注,得到准确欺骗性垃圾意见集合;
3)从意见作者、意见内容、意见内容分布、链接特征四个纬度对所述准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合进行特征提取,生成每一维度的特征向量;
4)采用机器学习方法基于所述准确欺骗性垃圾意见集合和无标注用户生成内容网页集合建立每一维度的欺骗性垃圾意见检测模型;
5)利用所述欺骗性垃圾意见检测模型对所述与事件相关的信息进行欺骗性垃圾意见过滤。
7.如权利要求6所述的方法,其特征在于所述步骤2)中还包括:a)基于建立的事件信息本体及标注过的样本集合采用支持向量机机器学习方法,分别针对设定的每一信息类别建立一基于信息标题和内容的分类判断模型,对信息进行分类处理;b)基于建立的事件信息本体及标注过的样本集合采用KNN机器学习方法,分别针对设定的每一信息类别建立一基于信息标题和内容的分类判断模型,对信息进行分类处理;最后根据步骤2)、a)、b)三种方法的分类结果中占多数者决定信息是否应该归入某一个类别。
8.如权利要求6所述的方法,其特征在于所述候选欺骗性垃圾意见集合的产生方法为:将用户生成内容中内容重复或者近似重复的意见、或一定时间范围内发布意见量最高的top-N1个作者所发布的意见、或一定时间范围内意见量最高的top-N2个对象相关的意见、或一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、或针对特定对象发布意见最早的top-N4个用户所发布的意见、或针对特定对象的意见修正次数最多的top-N5个用户所发布的意见,识别为候选欺骗性垃圾意见,得到候选欺骗性垃圾意见集合;所述准确欺骗性垃圾意见集合的产生方法为:对所述候选欺骗性垃圾意见集合中的每一样本进行正向确认和反向确认;然后对确认的样本进行标注,形成准确欺骗性垃圾意见集合。
9.如权利要求1所述的方法,其特征在于所述步骤2)的分类方法为:对于设定的每一信息类别,首先对信息的标题采用模式匹配方法进行分类,如果某信息可以被归入当前所选的信息类别,则针对此信息类别的模式匹配分类处理完毕;否则对该信息的内容采用模式匹配方法进行分类,判断其是否可归入当前所选信息类别。
10.如权利要求4所述的方法,其特征在于所述模式匹配方法为:布尔匹配、或频数匹配、或实例名称间的距离匹配、或实例名称同义反义匹配、或实例名称别名匹配。
11.如权利要求1所述的方法,其特征在于对分类后的信息进行聚类处理的方法为:对信息标题和内容进行分词、去除停用词后提取和所述事件信息本体中对象、区域、结果、关联者四个纬度实例名称、属性相匹配的词语作为特征进行聚类计算;同时对聚类过程中属于同一事件的信息进行筛选,选取设定发布时间段内的信息作为同一事件的信息。
12.如权利要求1所述的方法,其特征在于对事件进行预警的阈值设定方法为:在收集事件各特征参数的历史变化数据基础上,结合经过确认的历史事件的发生时间、区域、规模,计算事件各特征参数值和其之前一定时期内的均值之间的差值形成变量并作为自变量,将表示设定事件是否发生的变量作为因变量,采用logistic回归分析的方法建立上述自变量、因变量之间的回归预测模型;然后基于此模型,选择使得因变量值为1的自变量值作为阈值;其中因变量值为1表示事件发生,0表示事件未发生。
13.如权利要求1至12任一所述的方法,其特征在于所述事件为食品安全事件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430831.9A CN103176981B (zh) | 2011-12-20 | 2011-12-20 | 一种事件信息挖掘并预警的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110430831.9A CN103176981B (zh) | 2011-12-20 | 2011-12-20 | 一种事件信息挖掘并预警的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103176981A true CN103176981A (zh) | 2013-06-26 |
CN103176981B CN103176981B (zh) | 2016-04-27 |
Family
ID=48636862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110430831.9A Active CN103176981B (zh) | 2011-12-20 | 2011-12-20 | 一种事件信息挖掘并预警的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103176981B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559175A (zh) * | 2013-10-12 | 2014-02-05 | 华南理工大学 | 一种基于聚类的垃圾邮件过滤系统及方法 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN104581779A (zh) * | 2014-12-11 | 2015-04-29 | 华为技术有限公司 | 一种业务处理方法以及装置 |
WO2015085916A1 (zh) * | 2013-12-10 | 2015-06-18 | 中国银联股份有限公司 | 数据挖掘方法 |
CN105046049A (zh) * | 2015-06-17 | 2015-11-11 | 浙江工商大学 | 一种基于群体感知的突发事件信息收集和管理方法 |
CN105426509A (zh) * | 2015-11-30 | 2016-03-23 | 用友网络科技股份有限公司 | 一种应用于企业的异常质量事件快速响应系统 |
CN105589950A (zh) * | 2015-12-18 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 事件属性语句确定及基于事件属性语句预警方法和装置 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN106021508A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于社交媒体的突发事件应急信息挖掘方法 |
WO2017020713A1 (zh) * | 2015-08-03 | 2017-02-09 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN107209835A (zh) * | 2014-08-29 | 2017-09-26 | 邻客音公司 | 用于在线幻灯片组呈现的垃圾信息检测 |
CN107357888A (zh) * | 2017-07-10 | 2017-11-17 | 北京小度信息科技有限公司 | 原料信息的提供方法、装置和电子设备 |
CN109409700A (zh) * | 2018-10-10 | 2019-03-01 | 网宿科技股份有限公司 | 一种配置数据确认方法、业务监测方法及装置 |
CN110222913A (zh) * | 2019-06-21 | 2019-09-10 | 河北师范大学 | 一种预测风沙流沿程变化的方法 |
CN110750636A (zh) * | 2018-07-04 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 网络舆情信息处理方法及其装置 |
CN111767404A (zh) * | 2020-07-14 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种事件挖掘方法和装置 |
CN112101898A (zh) * | 2020-09-02 | 2020-12-18 | 阜阳华润电力有限公司 | 安全事件信息的控制方法、装置及计算机可读存储介质 |
CN113392582A (zh) * | 2021-06-03 | 2021-09-14 | 中国科学院国家空间科学中心 | 日冕物质抛射空间环境事件相似推荐方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070088794A1 (en) * | 2005-09-27 | 2007-04-19 | Cymer, Inc. | Web-based method for information services |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
-
2011
- 2011-12-20 CN CN201110430831.9A patent/CN103176981B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070088794A1 (en) * | 2005-09-27 | 2007-04-19 | Cymer, Inc. | Web-based method for information services |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
Non-Patent Citations (1)
Title |
---|
杨风雷 等: "用户生成内容中的垃圾意见研究综述", 《计算机应用研究》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559175A (zh) * | 2013-10-12 | 2014-02-05 | 华南理工大学 | 一种基于聚类的垃圾邮件过滤系统及方法 |
CN103559175B (zh) * | 2013-10-12 | 2016-08-10 | 华南理工大学 | 一种基于聚类的垃圾邮件过滤系统及方法 |
WO2015085916A1 (zh) * | 2013-12-10 | 2015-06-18 | 中国银联股份有限公司 | 数据挖掘方法 |
US10482093B2 (en) | 2013-12-10 | 2019-11-19 | China Unionpay Co., Ltd. | Data mining method |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN103699663B (zh) * | 2013-12-27 | 2017-02-08 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN107209835A (zh) * | 2014-08-29 | 2017-09-26 | 邻客音公司 | 用于在线幻灯片组呈现的垃圾信息检测 |
CN104581779A (zh) * | 2014-12-11 | 2015-04-29 | 华为技术有限公司 | 一种业务处理方法以及装置 |
CN104581779B (zh) * | 2014-12-11 | 2018-11-30 | 华为技术有限公司 | 一种业务处理方法以及装置 |
CN105046049B (zh) * | 2015-06-17 | 2017-11-17 | 浙江工商大学 | 一种基于群体感知的突发事件信息收集和管理方法 |
CN105046049A (zh) * | 2015-06-17 | 2015-11-11 | 浙江工商大学 | 一种基于群体感知的突发事件信息收集和管理方法 |
WO2017020713A1 (zh) * | 2015-08-03 | 2017-02-09 | 阿里巴巴集团控股有限公司 | 用于实现高危维权预警的方法及装置 |
CN105426509A (zh) * | 2015-11-30 | 2016-03-23 | 用友网络科技股份有限公司 | 一种应用于企业的异常质量事件快速响应系统 |
CN105589950A (zh) * | 2015-12-18 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 事件属性语句确定及基于事件属性语句预警方法和装置 |
CN105589950B (zh) * | 2015-12-18 | 2018-12-25 | 百度在线网络技术(北京)有限公司 | 事件属性语句确定及基于事件属性语句预警方法和装置 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN106021508A (zh) * | 2016-05-23 | 2016-10-12 | 武汉大学 | 基于社交媒体的突发事件应急信息挖掘方法 |
CN107357888A (zh) * | 2017-07-10 | 2017-11-17 | 北京小度信息科技有限公司 | 原料信息的提供方法、装置和电子设备 |
CN110750636A (zh) * | 2018-07-04 | 2020-02-04 | 百度在线网络技术(北京)有限公司 | 网络舆情信息处理方法及其装置 |
CN109409700A (zh) * | 2018-10-10 | 2019-03-01 | 网宿科技股份有限公司 | 一种配置数据确认方法、业务监测方法及装置 |
CN109409700B (zh) * | 2018-10-10 | 2022-03-08 | 网宿科技股份有限公司 | 一种配置数据确认方法、业务监测方法及装置 |
CN110222913A (zh) * | 2019-06-21 | 2019-09-10 | 河北师范大学 | 一种预测风沙流沿程变化的方法 |
CN111767404A (zh) * | 2020-07-14 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种事件挖掘方法和装置 |
CN111767404B (zh) * | 2020-07-14 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种事件挖掘方法和装置 |
CN112101898A (zh) * | 2020-09-02 | 2020-12-18 | 阜阳华润电力有限公司 | 安全事件信息的控制方法、装置及计算机可读存储介质 |
CN113392582A (zh) * | 2021-06-03 | 2021-09-14 | 中国科学院国家空间科学中心 | 日冕物质抛射空间环境事件相似推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103176981B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103176981B (zh) | 一种事件信息挖掘并预警的方法 | |
CN103176983B (zh) | 一种基于互联网信息的事件预警方法 | |
CN103854064B (zh) | 一种面向特定区域的事件发生风险预测并预警方法 | |
CN108881194B (zh) | 企业内部用户异常行为检测方法和装置 | |
CN110245874B (zh) | 一种基于机器学习和知识推理的决策融合方法 | |
CN103854063B (zh) | 一种基于互联网开放信息的事件发生风险预测并预警方法 | |
Zhang et al. | Detecting spammer groups from product reviews: a partially supervised learning model | |
CN103853700B (zh) | 一种基于区域和对象信息发现的事件预警方法 | |
CN103853744B (zh) | 一种面向用户生成内容的欺骗性垃圾意见检测方法 | |
EP3014414A2 (en) | Real-time and adaptive data mining | |
CN103176984B (zh) | 一种用户生成内容中欺骗性垃圾意见检测方法 | |
CN102946331A (zh) | 一种社交网络僵尸用户检测方法及装置 | |
CN104050361A (zh) | 一种监狱服刑人员危险性倾向的智能分析预警方法 | |
CN109145301A (zh) | 信息分类方法及装置、计算机可读存储介质 | |
CN109033351A (zh) | 案情数据的归并方法及装置 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
Gurav et al. | Survey on automated system for fake news detection using NLP & machine learning approach | |
Wickramarathna et al. | A framework to detect twitter platform manipulation and computational propaganda | |
Manoj et al. | A Strategy for Identification and Prevention of Crime using various Classifiers | |
Sharma et al. | Going beyond content richness: Verified information aware summarization of crisis-related microblogs | |
CN114528405A (zh) | 一种基于网络突发热点的舆情监测方法 | |
Christopher et al. | Review authenticity verification using supervised learning and reviewer personality traits | |
Saranya Shree et al. | Prediction of fake Instagram profiles using machine learning | |
Han et al. | User requirements dynamic elicitation of complex products from social network service | |
CN114266646A (zh) | 基于网联摘要计算的用户消费行为监测分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |