CN104679825B - 基于网络文本的地震宏观异常信息获取与筛选方法 - Google Patents
基于网络文本的地震宏观异常信息获取与筛选方法 Download PDFInfo
- Publication number
- CN104679825B CN104679825B CN201510004864.5A CN201510004864A CN104679825B CN 104679825 B CN104679825 B CN 104679825B CN 201510004864 A CN201510004864 A CN 201510004864A CN 104679825 B CN104679825 B CN 104679825B
- Authority
- CN
- China
- Prior art keywords
- earthquake
- word
- text
- information
- macroscopic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 46
- 230000008451 emotion Effects 0.000 claims description 32
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000002474 experimental method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000002547 anomalous effect Effects 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 241001465754 Metazoa Species 0.000 claims description 2
- 230000009429 distress Effects 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 7
- 244000097202 Rathbunia alamosensis Species 0.000 description 6
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000270322 Lepidosauria Species 0.000 description 3
- 241000272517 Anseriformes Species 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000256844 Apis mellifera Species 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 241000283074 Equus asinus Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000361919 Metaphire sieboldi Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000287127 Passeridae Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 244000082204 Phyllostachys viridis Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 241000287531 Psittacidae Species 0.000 description 1
- 241000270295 Serpentes Species 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000020681 well water Nutrition 0.000 description 1
- 239000002349 well water Substances 0.000 description 1
Abstract
本发明属于文本数据挖掘领域,提供一种基于网络文本的地震宏观异常信息获取与筛选方法,用于从互联网收集并筛选地震宏观异常文本信息。所述方法基于Heritrix框架,应用地震宏观异常主题描述词组,分别针对一般网页、贴吧和社交网络三种信息来源定制了从地震宏观异常主题相关性判别、链接排序到信息抽取的爬取策略,并进一步针对爬取到的主题相关网页,从主观句判别、文本主观性判别以及地震宏观异常匹配三个方面进行信息筛选。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段,极大提高了信息获取的效率。
Description
技术领域
本发明属于文本数据挖掘领域,涉及一种基于网络文本的地震宏观异常信息获取与筛选方法,用于抓取地震主题网络文本并筛选出其中的地震宏观异常相关信息。
背景技术
随着如今通信手段的日益丰富,公众也经常通过网络将自己观察到的地震宏观异常传递给地震部门。同样,地震部门也可以利用信息技术手段,将互联网上的地震宏观异常信息收集起来,丰富自己的地震测报工作。但是随着信息技术的发展和人们对于网络的依赖程度的提高,互联网承载的信息愈发庞大。如何从大量的网络信息中获取并筛选出有用的地震宏观异常信息,是一个需要解决的问题。这也是地震机构对于网络上地震宏观异常信息缺乏利用的原因。获取网络信息主要使用爬虫技术,对于网络中公众发布的地震宏观异常信息,其显著特点是属于地震宏观异常这一同类主题,因此可以采用主题爬虫技术。而所获取的地震宏观异常信息为中文信息,且应当具有非主观性,因此对于通过爬虫爬取到的信息需要经过筛选,去除公众主观情绪影响的信息部分,这涉及到了文本的情感信息分类与筛选。
基于文本启发式的策略是最早出现的主题爬虫爬取策略。这一类爬取策略基于文本分析,实现起来较为简单,同时算法的计算量小,保证了效率,但是比较依赖主题描述的关键词,对于难以使用文字进行精确表示的主题实用性不佳。其后出现的基于Web链接分析的策略起源于S.Brin和L.Page的PageRank算法,这种算法由于需要考虑连接结构,计算量很大,而且抓取过程中主题容易发生偏离,其PR值的概念并不能完全等同于主题的相关度,因此这种策略的适用性不高。另外的,基于分类器的策略主要基于几种常用的分类数学模型,如贝叶斯分类器、SVM分类器、神经网络分类器等。然而,基于主题的分类器应用并未有人提出普遍的方法,而且在实现上有一定困难。
发明内容
针对现有技术中存在的上述问题,本发明提出一种能够高效地获取并筛选网络上地震宏观异常信息的方法。本发明选择符合数据采集要求的信息源,进行基于主题的信息获取,对抽取的文本信息进行主观情感信息的过滤与地震宏观异常信息匹配,实现网络文本地震宏观异常信息的高效准确获取。
为了达到上述目的,本发明采取如下技术方案:
一种基于网络文本的地震宏观异常信息获取与筛选方法,包括以下步骤:
S1、建立地震宏观异常信息的主题关键词库。
网络上公众地震宏观异常信息具备三大特点:1)包含是否与地震相关性判断;2)包含可能发生异常现象的自然事物主体;3)尽可能的客观性。其中第三点表明信息中含有尽量少的主观内容,这说明需要根据这个特点对信息做减法,前两个特点是对信息做加法。据此建立地震宏观异常信息的主题关键词库,共包括52个主题关键词,如表1所示。
表1 52个主题关键词
S2、基于网页文本的地震宏观异常主题的信息获取。
S2.1、针对一般网页文本的地震宏观异常主题优先的信息获取。
(1)判断页面相关性。
根据已建立的主题关键词库,采取向量空间模型计算主题相关性:将关键词中的词语视为该向量空间的特征,建立关键词组特征向量:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
EKW={(ek1,w1),(ek2,w2),...,(ekm,wm)}
其中,MKW为异常的事物主体关键词组特征向量,mk为事物主体关键词,n为事物主体关键词的数量;EKW为地震相关的关键词组特征向量,ek为地震相关关键词,m为地震相关关键词的数量;w为对应关键词在文档中出现的次数。
利用页面标签及内容对页面进行分块,得到页面内容块的特征向量:
CB={(cb1,w1),(cb2,w2),...,(cbp,wp)}
其中,CB为页面内容块特征向量,cb为某一具体内容块、w表示对应内容块cb在页面中出现次数、p为内容块的数量。
通过以上步骤,可以将当前待处理的页面文本特征化,使用向量表示当前页面。
采用向量夹角余弦计算主题相关度:
其中,W代表权值,对于不同向量的权值,W的计算公式也不同。由于页面文本分为不同的文本块,因此对于异常的事物主体关键词组特征向量MKW,其第i个特征权值有:
其中,tfi,j为第i个关键词在第j个内容块中的词频,tli为第i个关键词的词长,cbLj为第j个内容块的文本长度,cbij为第j个内容块的重要度。计算方法为该部分页面代码占页面内总代码的百分比。对于地震相关的关键词组特征向量ExtreKeyWords,其第i个特征权值为:
对于页面内容块的特征向量CB,其第i个特征权值为:
其中,cbCLj为第i个内容块的代码长度,CL为当前页面的代码长度。
通过上述算法可以计算得出当前页面的相关度Topic。设阈值为Rt,当Topic>Rt时,认为当前页面符合地震宏观异常这个主题。Rt的值由试验确定。若文本不包含任何主题词,取Topic=0。
(2)判断URL链接相关性。
得到页面的相关度后,需要对页面内的URL进行预测及排序。URL相关度的计算一般考虑URL地址、锚文本、上下文相关度,在这里考虑锚文本和上下文相关度,使用页面相关度作为上下文相关度,计算公式为:
其中,Topicurl为上下文相关度,tnf、tmf分别为事物主体关键词和异常判别关键词的词频,tnli、tmli分别为事物主体关键词和异常判别关键词的词长,urlL为锚文本长度。通过计算Topicurl并与URL队列中非初始URL比较排序,然后插入URL队列相应的位置中。
至此,完成URL访问策略的制定与主题相关性的分析,进入常规的爬虫工作流程。
(3)信息抽取。
一般网页由于包含网站较多,因此主要考虑页面的共性特点。网络页面不同于一般文档的纯文本,一般是HTML、JSP、PHP等语言写成的结构化文本,包含大量结构标签和其他信息,这些结构信息并不能表现网络页面文本信息的相关内容,只能作为一种文本结构的提示性信息。而最终展示在页面上的主要是结构化文本中的纯文本部分,因此在充分利用标签等信息后应当剔除这部分内容。常见的页面标签如表2所示。
表2常见的页面标签
标签名 | 用途 | 标签名 | 用途 | 标签名 | 用途 | 标签名 | 用途 |
<a> | 链接 | <p> | 段落 | <font> | 字体 | <div> | 层 |
<table> | 表格 | <tbody> | 表格体 | <img> | 图像 | <script> | 脚本 |
<tr> | 表格行 | <br> | 换行 | <form> | 表单 | <frame> | 框架 |
<td> | 单元 | <title> | 标题 | <dd>\<dt> | 列表 | <li>\<ul> | 列表 |
不同的页面编码标准不尽相同,在解析页面信息前首先应当进行转码。其次在网页中,脚本信息通常占有大量空间,应当利用<script>去除这类脚本信息块,剩下的部分基本是结构性的标签和文本信息。在网页的CSS样式中,通常使用<div>进行页面的分块,因此可以首先利用<div>标签将页面分为多个块。在此基础上,逐个计算每个div块内的文本与标签的比值。比值较大的连续的div块可以进行合并,这一部分可以视作为页面的正文块。在正文块中替换<br>、<p>等段落标签为\n,则可以较为完整的抽取出页面内的正文信息。同时,<title>标签包含中文标题部分,标签中属性包含author的一般为正文作者,包含media_name的一般为正文转载来源,这些内容可以作为辅助信息,提高正文信息本身的可用性。
S2.2、针对社交网络文本的地震宏观异常主题优先的信息获取。
(1)判断页面相关性。
以微博为信息源。微博的主要采集目标为新浪微博。对于这一类信息由于微博服务商的限制,分析的数据主要为微博服务商提供的一部分数据,其中包含单条微博的被转发数,评论数,影响力,单条微博id以及用户id。因此选取被转发数,评论数,影响力作为影响因素之一。由于新浪微博的API有限制,并且需要登录,为了解决这个问题,同时为了补充现有数据的不足,可以利用新浪微博http://s.weibo.com/这个地址进行免登陆的信息获取。新浪微博的页面相关性分析的目标文本为不超过140个字符的短文本,同样采取向量空间模型,建立关键词组特征向量:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
EKW={(ek1,w1),(ek2,w2),...,(ekm,wm)}
其中,MKW为异常的事物主体关键词组特征向量,mk为事物主体关键词,n为事物主体关键词的数量;EKW为地震相关的关键词组特征向量,ek为地震相关关键词,m为地震相关关键词的数量;w为对应关键词在文档中出现的次数。
使用向量夹角余弦来计算主题相关度:
其中,W代表权值,对于不同向量的权值,其计算公式也不同。同时,由于页面文本分为不同的文本块,因此对于异常的事物主体关键词组特征向量MKW,其第i个特征权值为:
其中,tfi,j为关键词i在j内容块中的词频,tli为第i个关键词的词长,cbL为帖子内容文本长度。对于地震相关的关键词组特征向量EKW,其第i个特征权值为:
通过上述算法可以计算得出当前页面的相关度Topic。设阈值为Rt,当Topic>Rt时,认为当前页面符合地震宏观异常这个主题。Rt的值由试验确定。若文本不包含任何主题词,取Topic=0。
由于微博信息本身的短文本特性,因此可以在列表界面显示所有信息,不需要进行URL链接相关性的计算。
(2)信息抽取。
通过http://s.weibo.com/的进行地震关键词的搜索,得到的搜索结果会在每页显示20条记录,每条记录的文本信息包含在一段javascript代码内,由于该段代码前后所包含的文本信息部分前后结构相同,可以使用正则表达式截取。截取该部分代码的正则表达式为:
nick-name.+?color:red.+?class=\\”clear\\”>
S2.3、针对论坛网页文本的地震宏观异常主题优先的信息获取。
(1)判断页面相关性。
论坛主要采集目标为百度贴吧,百度贴吧是以主题分割不同的贴吧的,绝大部分同一主题的信息都会集中发布在这个主题的贴吧内,这正好符合我们进行地震宏观异常主题信息抽取的目的。在此我们选取的是地震吧。页面相关性分析的页面是帖子,选取的关键词组特征向量为可能发生异常的事物主体:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
其中MKW为异常的事物主体关键词组特征向量。使用向量夹角余弦来计算主题相关度:
其中,W代表权值,对于不同向量的权值,其计算公式也不同。同时,由于页面文本分为不同的文本块,因此对于异常的事物主体关键词组特征向量MKW,其第i个特征权值为:
其中,tfi,j为关键词i在j内容块中的词频,tli为第i个关键词的词长,cbL为帖子内容文本长度。
通过上述算法可以计算得出当前页面的相关度Topic。设阈值为Rt,当Topic>Rt时,认为当前页面符合地震宏观异常这个主题。Rt的值由试验确定。若文本不包含任何主题词,取Topic=0。
(2)判断URL链接相关性。
百度贴吧的URL链接首地址为http://tieba.baidu.com/,贴吧名称先进行16进制转码,之后每两个字符间添加“%”作为转义符,并且在首部添加“f?kw=”作为相对地址标记,例如百度贴吧内的地震吧,名称为地震,经过16进制转码后为B5D8D5F0,添加转义符“%”和相对地址标记“f?kw=”后为http://tieba.baidu.com/f?kw=%B5%D8%D5%F0,这就是百度地震吧的地址。贴吧的每一页默认包含50个帖子,因此在贴吧地址后添加“&pn=(50*N)”也可以得到贴吧内指定页的地址。综上所述,进行百度贴吧信息获取时,URL链接可以表示为:
http://tieba.baidu.com/f?kw=(%B5%D8%D5%F0)&pn=(50*N)
在每一个贴吧的帖子列表页中,基本为锚文本,且不同锚文本之间基本与上下文无关,因此在分析贴吧的URL链接相关性时,只考虑锚文本,相关度计算公式为:
其中,tnfi为事物主体关键词的词频,tnli为事物主体关键词长,urlL为锚文本长度。通过计算Topicurl并与URL队列中非初始URL比较排序,然后插入URL队列相应的位置中。至此,完成URL访问策略的制定与主题相关性的分析,进入常规的爬虫工作流程。
(3)信息抽取。
对于每一页内容进行解析时,每一个帖子的URL链接可以在<divclass="search_internal_wrap j_search_internal">和<divclass="thread_list_bottom clearfix">内解析到,为标签<a>的href属性值。在进入帖子后即可获取帖子的标题和每一层用户发布的信息以及信息发布的时间。
S3、地震宏观异常文本信息的筛选。
(1)情感词标记。
选取面对地震宏观异常现象时,人们可能表达出的愁苦、悲伤、慌乱、烦闷、急躁、惊讶、疑惑7大类共计123个词语作为基准,并根据文献资料中出现的动物异常情形,去除畏怯、惊骇、惊慌、惊惧、恐惧、惊恐共计6个词,剩余7大类117个词语作为标记文本主观情感信息的情感词,如表3所示。
表3标记文本主观情感信息的情感词
(2)观点词标记。
为了找出观点词,选取的训练集来自于新浪微博提供的18万条地震相关微博数据,从中人工抽取出1000条句子作为样本集A,样本集A抽取的标准包括三点:不包含任何情感词,表达了信息发表者的个人观点,微博中每条句子包含主观信息。由于微博数据每一条均不超过140个字符,大部分只有一个句子构成,并且是用户一次完整的信息表达,这种短文本比较适合观点特征词的统计。另抽取1000条句子作为样本集B,样本集B的抽取标准只有一条,不属于用户表达观点的句子。对于抽取出的训练集,利用中文分词,将所有句子的最小组成元素由字符变为词语。统计所有句子中所有词语的词频,并人工去除停止词。所谓停止词,是指出现频率很高的词语,主要应用于搜索引擎中,防止这些词语影响关键词的排名。由于这些词几乎在所有语言表达中出现的频率都很高,没有考察意义。这里选取的停止词为“的、了、在、是、步、人、都、个、上、也、很、到、说、要、去、你、会、着、没有、看、好、自己、这”共23个。除此之外,由于这部分数据属于地震主题,应当人工剔除地震相关词语,减少干扰,如“地震、震级、震动”。这两类词语构成屏蔽词表,在计算重要性时不考虑这类词。
计算样本集A中词语的词频TF值,计算样本集A中的词语在B中的逆文档频率IDF值,TF-IDF体现观点词的重要性以及与非主观信息的区分度。具体公式如下:
TF-IDFi=TFi,A×IDFi
其中,ni,A是词ti在样本集A中出现的次数,为样本集A中所有词出现的次数总和,K为样本A中出现的观点词总数;|DB|是样本集的总文档数,是样本集B中出现词ti的文档数,TF-IDFi为最终的权值;经过计算得出最终权值最大的前7个词作为观点词“觉得、猜测、猜、可能、感觉、估计、应该”。
(3)基于句子的主观信息过滤。
对于公众地震宏观异常信息的主观信息分类而言,可视为分类依赖于情感词和观点词,可依据贝叶斯定理得到如下式子:
根据最大后验概率规则,样本属于后验概率较大的那一类,则问题可以转化为比较P(subject│Emotion,Opinion)和P(object│Emotion,Opinion)的问题,如果前者与后者比值Filter大于1则说明样本属于主观信息,Filter的表达式为:
由于情感词和观点词之间是相互独立的,则有:
这里将词语在整个文档集中出现的情形视为伯努利分布,Ei和oj表示当样本文档中出现该词时,取1,反之取0。Pi,s表示第i个词在主观文档中出现的概率,Pj,ob表示第i个词在非主观文档中出现的概率。根据以上处理,只需根据待过滤文本中情感词和观点词的出现状况,即可计算出该文本的Filter值,若值大于1,则说明该文本信息属于主观信息。
(4)基于文本段的主观信息过滤。
本发明确定的主观句筛选方法是基于标记的情感词和观点词,未标记词相对而言是模糊不定的,抽取出的主观句也具有模糊性。直觉模糊集是用于表示具有模糊性的数据集合的概念。句子是由连续的词语构成的,因此之前抽取出的主观句可以视为词组成的直觉模糊集。
对于一段地震宏观异常文本,句子数量为m,主观句子数量为n。所有的主观句子用集合X={x1,x2,...,xn}表示,表达主观信息的集合A={(xi,EA(xi),OA(xi))|xi∈X}是集合X上的直觉模糊集,EA(xi)表示句子元素xi内情感词的词频,OA(xi)表示句子元素xi内观点词的词频。且有0≤IA(xi)+OA(xi)≤1,IA(xi)表示既不是情感词也不是观点词的词频。令πA(xi)=1-IA(xi)-OA(xi),抽取出的文本的主观信息量为:
设定E的阈值为0.5,当E值超过0.5时认为该文本为主观文本。
(5)地震宏观异常匹配。
地震宏观异常在语义上的具体表述归纳为事物主体和事物可发生的变化、动作两部分;其中事物主体Object为名词,事物出现的变化和动作Act由动词或者形容词组成,事物发生的异常现象Content表示为:
Content=Object+Act
所有经过主观信息过滤的文本信息,符合此式则可视为地震宏观异常;其中Object包括鸡、燕、牛、驴、狗、猫、鼠、蝉、马、羊、猪、鸽、蚯蚓、蛇、蛙、鹅、鸭、鹦鹉、鱼、鹿、兔、熊猫、麻雀、蝙蝠、乌鸦、蚂蚁、蜜蜂、井水、温泉、泉水、池塘、库水、暴雨、大风、地雾、地声、地光、地气、竹子、果树、地鼓、收音机、日光灯、电子闹钟、电视和人共46个事物主体。在进行过滤时,每个发生的异常现象均有区别,每一个事物对应一组异常现象。
与现有技术相比,本发明具有以下优点:
本发明通过选择符合数据采集要求的信息源,进行基于主题的信息获取,有效控制了计算量,同时保证了抓取内容的主题相关性;对抽取的文本信息进行主观情感信息的过滤与地震宏观异常信息匹配,实现了网络文本地震宏观异常信息的高效准确获取。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段,使得网络上地震宏观异常信息得到充分利用,极大提高了信息获取的效率。
附图说明
图1为本发明所述方法的主流程图;
图2为本发明主题相关性判别方法流程;
图3为本发明链接排序方法流程;
图4为本发明信息抽取流程;
图5为本发明主观句判别方法流程;
图6为本发明文本主观性判别方法流程;
图7为本发明地震宏观异常匹配方法流程。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供一种基于网络文本的地震宏观异常信息获取与筛选方法,用于抓取地震主题网络文本并筛选出其中的地震宏观异常相关信息。
如图1为基于网络文本的地震宏观异常信息获取与筛选方法的流程图。具体实现步骤如下:
步骤1,信息获取。
(1)相关性判别
相关性判别是主题信息获取的第一个阶段,是主题信息获取的第一个阶段,主要工作是判断当前网络文本的主题相关性。页面内容主题相关性计算方法流程图如图2所示。对于贴吧的帖子列表页面和微博的关键词搜索页面,不需计算该页面的主题相关性。余弦值的阈值设定为一般网页0.1,贴吧0.3,微博0.1。
(2)链接排序
链接排序是主题信息获取的第二步,主要工作是确定主题爬虫的优先性爬取策略。图3是页面内URL链接排序的实现流程,这是体现主题爬虫主题优先性抓取策略的地方。对于一般网页,计算余弦值时需要加入页面的余弦值作为上下文相关性,贴吧和微博页面不需要考虑这点。
(3)信息抽取
信息抽取是主体信息获取的第三步,主要工作是从主题相关的网络文本页面中定位并抽取出具体的地震宏观异常信息。图4是信息抽取算法流程,其中贴吧和微博结构固定,利用正则表达式可以很方便的提取。
经过上述步骤,本发明实现了从网络文本获取地震宏观异常相关信息,能够使用主题相关判别和优先策略实现网络信息爬取。该方法能够针对一般网页、论坛(百度贴吧)和社交网络(新浪微博)进行地震宏观异常主题信息提取。
步骤2,信息筛选。
(1)主观句判别。
图5是判断主观句的实现流程,根据贝叶斯公式计算似然指数,似然指数大于1时,认为此句属于主观句。
(2)文本主观性判别。
图6为判断文本主观性的实现过程,主观性判别的阈值为0.5。
(3)地震宏观异常匹配。
图7为地震宏观异常匹配方法流程。从主题相关并根据主观性进行过滤后的网络文本中进行事物主体词和行为词的匹配进而得出地震宏观异常信息。
本实施例基于Heritrix框架,应用地震宏观异常主题描述词组,分别针对一般网页、贴吧和社交网络三种信息来源定制了从地震宏观异常主题相关性判别、链接排序到信息抽取的爬取策略,并进一步针对爬取到的主题相关网页,从主观句判别、文本主观性判别以及地震宏观异常匹配三个方面进行信息筛选。本发明为地震宏观异常信息的网络收集提供了科学、高效、准确的技术手段,极大提高了信息获取的效率。
Claims (7)
1.一种基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,包括以下步骤:
选择符合数据采集要求的信息源,通过判断页面相关性及URL链接相关性,进行基于网页文本的地震宏观异常信息获取;
通过对获取的信息进行主观情感信息的过滤与地震宏观异常信息匹配,实现地震宏观异常文本信息的筛选;
其中,所述地震宏观异常文本信息的筛选方法包括以下步骤:
(1)情感词标记;
选取面对地震宏观异常现象时,人们可能表达出的愁苦、悲伤、慌乱、烦闷、急躁、惊讶、疑惑7大类词语作为基准,并根据文献资料中出现的表示动物异常情形的词汇,剩余的词语作为标记文本主观情感信息的情感词;
(2)观点词标记;
选取与地震相关的数据,从中人工抽取一部分句子作为样本集A,样本集A中的句子不包含任何情感词,表达了信息发表者的个人观点,每条句子包含主观信息;另抽取与样本集A相同数量的句子作为样本集B,样本集B中的句子是不表达观点的句子;对于抽取出的样本集,利用中文分词,将所有句子的最小组成元素由字符变为词语;统计所有句子中所有词语的词频,并人工去除停止词和与地震相关的词语;所谓停止词,是指在所有语言表达中出现频率都很高,会影响关键词排名的词;
计算样本集A中词语的词频TF值,计算样本集A中的词语在B中的逆文档频率IDF值,TF-IDF体现观点词的重要性以及与非主观信息的区分度;具体公式如下:
TF-IDFi=TFi,A×IDFi
其中,ni,A是词ti在样本集A中出现的次数,为样本集A中所有词出现的次数总和,K为样本A中出现的观点词总数;|DB|是样本集的总文档数,是样本集B中出现词ti的文档数,TF-IDFi为最终的权值;经过计算得出最终权值最大的前7个词作为观点词;
(3)基于句子的主观信息过滤;
公众地震宏观异常信息的主观信息分类依赖于情感词和观点词,依据贝叶斯定理得到样本主观性后验概率P(subject|Emotion,Opinion)和样本客观性先验概率P(object|Emotion,Opinion):
样本主观性后验概率与样本客观性先验概率的比值为:
情感词和观点词之间是相互独立的,则有:
词语在整个文档集中出现的情形服从伯努利分布,Ei表示当样本文档中出现所述情感词时,取1,反之取0;oj表示当样本文档中出现所述观点词时,取1,反之取0;Pi,s表示第i个词在主观文档中出现的概率,Pj,ob表示第j个词在非主观文档中出现的概率;m表示所述样本文档中所述观点词出现的数量,n表示所述样本文档中所述情感词出现的数量;
根据待过滤文本中情感词和观点词的出现状况,计算出该文本的Filter值,若Filter值大于1,则该文本信息属于主观信息;
(4)基于文本段的主观信息过滤;
主观句筛选方法是基于标记的情感词和观点词,未标记词相对而言是模糊不定的,抽取出的主观句也具有模糊性;用直觉模糊集表示具有模糊性的数据集合;句子是由连续的词语构成的,之前抽取出的主观句视为由词组成的直觉模糊集;
对于一段地震宏观异常文本,句子数量为m,主观句子数量为n;所有的主观句子用集合X={x1,x2,...,xn}表示,表达主观信息的集合A={(xi,EA(xi),OA(xi))|xi∈X}是集合X上的直觉模糊集,EA(xi)表示句子元素xi内情感词的词频,OA(xi)表示句子元素xi内观点词的词频;且有0≤IA(xi)+OA(xi)≤1,IA(xi)表示既不是情感词也不是观点词的词频;令πA(xi)=1-IA(xi)-OA(xi),抽取出的文本的主观信息量为:
当E值超过设定的阈值时认为该文本为主观文本;
(5)地震宏观异常匹配;
地震宏观异常在语义上的具体表述归纳为事物主体和事物可发生的变化、动作两部分;其中事物主体Object为名词,事物出现的变化和动作Act由动词或者形容词组成,事物发生的异常现象Content表示为:
Content=Object+Act
所有经过主观信息过滤的文本信息,符合此式则可视为地震宏观异常;在进行过滤时,每个发生的异常现象均有区别,每一个事物对应一组异常现象。
2.根据权利要求1所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,在进行所述信息获取之前,还包括根据网络上公众地震宏观异常信息的特点建立地震宏观异常信息的主题关键词库。
3.根据权利要求2所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,所述主题关键词库包括52个关键词。
4.根据权利要求1所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,所述基于网页文本的地震宏观异常信息获取包括:针对一般网页文本的地震宏观异常主题优先的信息获取,针对社交网络文本的地震宏观异常主题优先的信息获取,针对论坛网页文本的地震宏观异常主题优先的信息获取。
5.根据权利要求4所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,所述针对一般网页文本的地震宏观异常主题优先的信息获取方法包括以下步骤:
(1)判断页面相关性;
根据已建立的主题关键词库,采取向量空间模型计算主题相关性:将关键词中的词语视为该向量空间的特征,建立关键词组特征向量:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
EKW={(ek1,w1),(ek2,w2),...,(ekm,wm)}
其中,MKW为异常的事物主体关键词组特征向量,mk为事物主体关键词,n为事物主体关键词的数量;EKW为地震相关的关键词组特征向量,ek为地震相关关键词,m为地震相关关键词的数量;w为对应关键词在文档中出现的次数;
利用页面标签及内容对页面进行分块,得到页面内容块的特征向量:
CB={(cb1,w1),(cb2,w2),...,(cbp,wp)}
其中,CB为页面内容块特征向量,cb为某一具体内容块、w表示对应内容块cb在页面中出现次数、p为内容块的数量;
采用向量夹角余弦计算主题相关度:
其中,W代表权值;
异常的事物主体关键词组特征向量MKW的第i个特征权值为:
其中,tfi,j为第i个关键词在第j个内容块中的词频,tli为第i个关键词的词长,cbLj为第j个内容块的文本长度,cbij为第j个内容块的重要度,等于该部分页面代码占页面内总代码的百分比;
地震相关的关键词组特征向量EKW的第i个特征权值为:
页面内容块的特征向量CB的第i个特征权值为:
其中,cbCLj为第i个内容块的代码长度,CL为当前页面的代码长度;
如果当前页面相关度Topic>Rt,认为当前页面符合地震宏观异常这个主题;Rt为设定的阈值,Rt的值由试验确定;若文本不包含任何主题词,取Topic=0;
(2)判断URL链接相关性;
页面内的URL相关度考虑锚文本和上下文相关度,使用页面相关度作为上下文相关度,计算公式为:
其中,Topicurl为上下文相关度,tnfi、tmfi分别为事物主体关键词和异常判别关键词的词频,tnli、tmli分别为事物主体关键词和异常判别关键词的词长,urlL为锚文本长度;通过计算Topicurl并与URL队列中非初始URL比较排序,然后插入URL队列相应的位置中;
(3)信息抽取;
在解析页面信息前首先当进行转码;然后利用<script>去除脚本信息块,剩下结构性的标签和文本信息;在网页的CSS样式中,利用<div>标签将页面分为多个块,逐个计算每个div块内的文本与标签的比值,对比值较大的连续的div块进行合并,这一部分为页面的正文块;在正文块中通过替换<br>、<p>段落标签为\n,抽取出页面内的正文信息;<title>标签包含中文标题部分,标签中属性包含author的为正文作者,包含media_name的为正文转载来源,将这些内容作为辅助信息,用于提高正文信息本身的可用性。
6.根据权利要求4所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,所述针对社交网络文本的地震宏观异常主题优先的信息获取方法包括以下步骤:
(1)判断页面相关性
通过调用社交网站提供的编程接口获取内容文本,采取向量空间模型建立关键词组特征向量:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
EKW={(ek1,w1),(ek2,w2),...,(ekm,wm)}
其中,MKW为异常的事物主体关键词组特征向量,mk为事物主体关键词,n为事物主体关键词的数量;EKW为地震相关的关键词组特征向量,ek为地震相关关键词,m为地震相关关键词的数量;w为对应关键词在文档中出现的次数;
使用向量夹角余弦来计算主题相关度:
其中,W代表权值;
异常的事物主体关键词组特征向量MKW的第i个特征权值为:
其中,tfi,j为关键词i在j内容块中的词频,tli为第i个关键词的词长,cbL为文本长度;
地震相关的关键词组特征向量EKW的第i个特征权值为:
如果当前页面相关度Topic>Rt,认为当前页面符合地震宏观异常这个主题;Rt为设定的阈值,Rt的值由试验确定;若文本不包含任何主题词,取Topic=0;
(2)信息抽取;
进行地震关键词的搜索,搜索结果中每条记录的文本信息包含在一段javascript代码内,该段代码前后所包含的文本信息部分前后结构相同,使用正则表达式截取,截取该部分代码的正则表达式为:
nick-name.+?color:red.+?class=\\”clear\\”>。
7.根据权利要求4所述的基于网络文本的地震宏观异常信息获取与筛选方法,其特征在于,所述针对论坛网页文本的地震宏观异常主题优先的信息获取方法包括以下步骤:
(1)判断页面相关性;
选择符合进行地震宏观异常主题信息抽取的论坛贴吧,选取的关键词组特征向量为可能发生异常的事物主体,用向量表示为:
MKW={(mk1,w1),(mk2,w2),...,(mkn,wn)}
其中,MKW为异常的事物主体关键词组特征向量;
使用向量夹角余弦来计算主题相关度:
其中,W代表权值;
异常的事物主体关键词组特征向量MKW的第i个特征权值为:
其中,tfi,j为关键词i在j内容块中的词频,tli为第i个关键词的词长,cbL为帖子内容文本长度;
如果当前页面相关度Topic>Rt,认为当前页面符合地震宏观异常这个主题;Rt为设定的阈值,Rt的值由试验确定;若文本不包含任何主题词,取Topic=0;
(2)判断URL链接相关性;
贴吧的URL链接相关性只考虑锚文本,相关度计算公式为:
其中,tnfi为事物主体关键词的词频,tnli为事物主体关键词长,urlL为锚文本长度;
通过计算Topicurl并与URL队列中非初始URL比较排序,然后插入URL队列相应的位置中;
(3)信息抽取;
对每一页内容进行解析,每一个帖子的URL链接在<div class="search_internal_wrap j_search_internal">和<div class="thread_list_bottom clearfix">内解析,链接为标签<a>的href属性值;进入帖子后获取帖子的标题和每一层用户发布的信息以及信息发布的时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004864.5A CN104679825B (zh) | 2015-01-06 | 2015-01-06 | 基于网络文本的地震宏观异常信息获取与筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510004864.5A CN104679825B (zh) | 2015-01-06 | 2015-01-06 | 基于网络文本的地震宏观异常信息获取与筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679825A CN104679825A (zh) | 2015-06-03 |
CN104679825B true CN104679825B (zh) | 2018-10-09 |
Family
ID=53314867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510004864.5A Expired - Fee Related CN104679825B (zh) | 2015-01-06 | 2015-01-06 | 基于网络文本的地震宏观异常信息获取与筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679825B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897400B (zh) * | 2017-02-10 | 2020-04-07 | 中国农业大学 | 一种网络社交媒体中地震信息的可视化方法和系统 |
CN107015808A (zh) * | 2017-04-10 | 2017-08-04 | 刘�文 | 一种提高宏观异常预测地震准确率的方法 |
CN108038166A (zh) * | 2017-12-06 | 2018-05-15 | 武汉大学 | 一种基于词项主客观偏向性的中文微博情感分析方法 |
CN108182178B (zh) * | 2018-01-25 | 2021-06-18 | 刘广泽 | 基于事件文本数据挖掘的地下水水位分析方法与系统 |
CN108376178B (zh) * | 2018-03-22 | 2020-08-11 | 北京航空航天大学 | 一种异常访谈记录文本的确定方法及装置 |
CN110162607B (zh) * | 2019-02-20 | 2021-08-31 | 北京捷风数据技术有限公司 | 一种基于卷积神经网络的政府组织公文信息追溯方法及装置 |
CN111382332B (zh) * | 2019-04-02 | 2021-12-17 | 江苏省地震局 | 一种地震灾情信息处理方法及系统 |
CN110264263B (zh) * | 2019-06-18 | 2023-04-07 | 孟振洲 | 一种以小票作为媒介的广告传播系统 |
CN111355733B (zh) * | 2020-02-29 | 2021-01-29 | 中国地震局地震研究所 | 一种基于svm算法的震害信息入侵检测系统和检测方法 |
CN111709238B (zh) * | 2020-06-04 | 2023-04-07 | 中国地质大学(北京) | 一种基于地学专家知识的网页地学相关性计算方法 |
CN112101022B (zh) * | 2020-08-12 | 2024-02-20 | 新华智云科技有限公司 | 一种地震事件实体链接方法 |
CN114065769B (zh) * | 2022-01-14 | 2022-04-08 | 四川大学 | 情感原因对抽取模型的训练方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751511B2 (en) * | 2010-03-30 | 2014-06-10 | Yahoo! Inc. | Ranking of search results based on microblog data |
US20120016857A1 (en) * | 2010-07-16 | 2012-01-19 | Levi Gross | System and method for providing search engine optimization analysis |
-
2015
- 2015-01-06 CN CN201510004864.5A patent/CN104679825B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
Non-Patent Citations (1)
Title |
---|
面向地震宏观异常的主题爬虫研究;方帅等;《震灾防御技术》;20131231;第8卷(第4期);第475-479页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104679825A (zh) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN106599022B (zh) | 基于用户访问数据的用户画像形成方法 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
KR100996311B1 (ko) | 스팸 ucc를 감지하기 위한 방법 및 시스템 | |
CN108777674B (zh) | 一种基于多特征融合的钓鱼网站检测方法 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
Diesner et al. | Using network text analysis to detect the organizational structure of covert networks | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN101408883A (zh) | 一种网络舆情观点收集方法 | |
WO2017162919A1 (en) | Method, system and tool for content moderation | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN110569350B (zh) | 法条推荐方法、设备和存储介质 | |
Noll et al. | Authors vs. readers: A comparative study of document metadata and content in the www | |
CN107590558A (zh) | 一种基于多层集成学习的微博转发预测方法 | |
CN109446299B (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
JP5527845B2 (ja) | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
Schinas et al. | Mgraph: multimodal event summarization in social media using topic models and graph-based ranking | |
CN112492606A (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN110175288B (zh) | 一种面向青少年群体的文字和图像数据的过滤方法及系统 | |
CN111966946A (zh) | 一种页面权威值的识别方法、装置、设备和存储介质 | |
CN108717637B (zh) | 一种电商安全相关实体的自动挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181009 |