CN105701167A - 基于煤矿安全事件主题相关性判别方法 - Google Patents
基于煤矿安全事件主题相关性判别方法 Download PDFInfo
- Publication number
- CN105701167A CN105701167A CN201511032198.2A CN201511032198A CN105701167A CN 105701167 A CN105701167 A CN 105701167A CN 201511032198 A CN201511032198 A CN 201511032198A CN 105701167 A CN105701167 A CN 105701167A
- Authority
- CN
- China
- Prior art keywords
- queue
- page
- topic
- link
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于煤矿安全事件主题相关性判别方法属于Web页面主题相关性判别领域。通过对大量相关技术的分析的前提下,有选择性地改进了Web网页主题相关程性判别方法。本发明通过对该主题网页的页面结构进行深入分析以及主题相关性判别方法的研究,提出了一种基于标签和元数据的主题相关性判别和基于布尔模型的网页内容的主题相关性判别算法。为了提高用户体验,在主题搜索引擎的搜索结果界面中对搜索结果进行相关度排序。这就需要我们主题相关度进行计算,本课题的主题相关度计算方法借鉴了基于空间向量模型的网页内容主题相关性判别方法。在其基础上加以改进,使该方法不仅能计算两个网页相关程度,还能够计算出目标网页与主题的相关程度。
Description
技术领域
互联网上包含大量的网页信息资源,要识别哪些网页是与主题相关,哪些与主题不相关,这是一个关键问题。本课题所研究的就是针对煤矿安全事件这一主题的页面主题相关性判别算法。
本课题发明提出的页面主题相关性判别有两个方面的含义,一是目标网页是否与主题相关;一是计算目标网页与主题相关的程度。
在页面信息提取模块中,需要判断出当前网页跟主题相关与否。当页面信息提取模块在互联网上遍历时,需要通过页面主题相关性判别算法来对URL链接和己经加载过的网页内容进行分析,判断其是否为主题相关页面以及对还未加载页面的URL链接是否在多次遍历后会到达与主题相关的页面,这样处理可以使下载下来的页面尽可能与主题相关。
在对搜索结果列表进行排序时,需要计算出每个结果页面与主题相关的程度。计算每个结果页面与主题的相关度,可以实现检索模块对结果集页面主题相关度的排序,使主题相关度较高的结果排在前面,这样处理可以使用户尽快找到所需要的内容。
背景技术
近年来,煤矿上频繁发生事故。这不仅使国家财产造成损失,还使广大人民群众的生命安全受到威胁。人们逐渐地开始关注起煤矿安全问题。互联网作为当今时代的信息主要载体,上面会及时更新发布一些实时的煤矿安全信息。通过对煤矿安全信息的检索,不仅可以增强人们在日常生产过程中的安全意识,还可以在事故发生时为人们提供一些有价值的参考和解决方案。
然而,煤矿安全信息检索并不是一个简单的过程。它是由网页信息提取模块、索引模块以及信息检索模块三个部分组成。本课题的研究重点页面主题相关性判别算法就是网页信息提取模块的核心。
如何从庞大的互联网之中筛选出与主题相关的页面信息,一直都是众多专家学者的研究重点,同时也很有研究价值。
目前,主要的页面相关性判别方法有四种:1、基于元数据的判别;2、基于链接标签数据的判别;3、基于链接结构分析的判别;4、基于页面内容的判别。下文将通过对这几种方法进行深入研究,分析出这些方法的优缺点和改进的可行性,最终确定本文要采用的判别方法。
1)基于元数据的判别
元数据(Metadata)是一种Html文件中的标签数据。通过研究发现,在Html页面中添加元数据,不仅可以增加页面信息,还可以方便页面信息提取工作。在Html规范从2.0版本引入了<Meta>这一标签(Tag),其一般的表达形式为:<Metaname="..."content="...">。
2)基于链接标签数据的判别
网页编写者在网页正文中引用另外一个页面的URL链接,这就表明该网页对其所引用的页面的一种认同。而且在添加URL链接的上下文部分,一定会有对该链接的解释说明,基于链接标签数据的判别方法就是针对这种情况而产生的。基于链接标签数据的判别方法就是通过对链接的文本及其链接上下文信息链接标签数据进行提取,再将这些提取到的数据与主题关键词库中的主题词进行匹配,最终判定主题相关性。
在Html页面中,可以添加超链接的标签有四种,分别是:1、Anchor标签;2、Image标签;3、Map标签和Area标签;4、Frame和IFrame标签。Anchor标签的属性与Map和Area标签大致相同,它们中与超链接相关的属性有Title、Alt、Href和链接文本等。在Image标签中和超链接相关的属性有Src和Alt。在Frame和IFrame标签中与超链接相关的属性有Src和Name等属性。据统计表明,利用链接的文本信息、链接的上下文信息和带有超链接的标签中的Href和Title属性进行对Web页面进行主题相关性判别,最为常见。
3)基于链接结构分析的判别
基于链接结构分析的方法在设计之初是用来解决搜索结果列表中的网页的重要度排序问题的。它的目的是在找出与用户输入搜索关键词相关的网页的基础上,使它们能够按照与关键词的相关度、重要度排序,使相关度、重要度高的结果页面排在前面,方面用户进行浏览。但是如果将主题搜索引擎中的主题看做用户输入的搜索关键词,就可以将该方法作为用于页面主题相关性的判别的方法。其具体过程是:将主题作为用户搜索关键词进行检索时,当通过基于链接结构的主题相关度判别方法进行计算时,其相关度超过了一定的阈值,就认为当前页面与主题相关。
4)基于页面内容相关性判别
当前,基于页面内容的主题相关性判别方法通常是基于关键词的,其具体的方法有基于字符串匹配的全文扫描、布尔模型、向量空间模型等。下文将分别对这三种方式进行介绍。
(1)基于字符串匹配的全文扫描
基于字符串匹配的全文扫描的基本思想就是字符串匹配。这种方法是一种最直接、最简单的方式来判别页面是否与主题相关。该方法就是通过主题关键词与整个网页库中的网页文本内容进行全文字符串匹配。目前,基于字符串匹配的全文扫描已经有了很广泛的应用,基于这种思想衍生出了很多算法,比如朴素的字符串匹配算法、KMP算法以及Rabin-Karp算法。当然,在进行全文匹配扫描之前,我们需要先提取网页正文,然后再通过该方法进行全文扫描匹配。如果在文本文件中匹配成功的次数越多,就表明该网页的主题相关度就越高。
(2)布尔模型
布尔模型是一种将集合论和布尔代数应用于页面主题判别的一种创新。在该模型中,所有的项只有两种结果,一是在网页正文中出现,一是没有出现。它将文本d表示为d={t1,w1;t2,w2;…tn,wn},其中ti表示文本中的特征项,wi表示特征项ti的权重,该项具有二值性,即只能取0或1。当特征项ti出现在文本d中时,wi=1,反之,wi=0。在判别一个网页文本是否与主题相关时,先根据主题词库中的关键词建立该模型的表达式,wi默认为0,然后再对网页正文进行全文扫描,当正文中出现特征项时,将该关键词的权重设置为1。最后,通过计算该表达式的累加和与某一阈值做比较来确定该网页的主题相关性。
(3)向量空间模型
向量空间模型VSM(VectorSpaceModeir)是近些年在业界应用最为广泛的主题判别模型。由于该模型可以计算出主题相关度的值,所以它十分适用于多个页面的主题相关度排序工作。下面将介绍向量空间模型中的几个基本概念:
文档:在页面信息提取模块看来,文档就是网页的正文内容。在向量空间模型看来文档就是向量空间模型中的一个向量。
特征项:文档是由许多词构成,这些词可以用来表示这个文档。同样向量空间模型的特征项就是可以用来表示其向量空间中一个向量的词。目前,针对特征项选择的问题,已经有了很多方法,比如文档频率(DocumentFrequency,DF),信息增益(InformationGain,IG),互信息(MutualInformation,MI),词条的x的平方统计(CHI),期望交叉摘(ExpectedCrossEntropy)。
特征项的权重:先将向量空间模型中的文档d表示为d={t1,w1;t2,w2;…ti,wi;…tn,wn}的形式,其中ti指的是第i个特征项,wi是特征项ti的权重。结合以上的文档表达式,采用TF-IDF算法来计算特征项的权重。在TF-IDF算法中,用TFik来表示特征项tk在文档di中出现的次数,用DFk来表示文档集合{d1,d2,…di,…dm}中出现特征项tk的文档的数量,用IDFk来表示DFk的倒数。特征项tk在文档di中的权重wik,wik=TFik*IDFk,。
发明内容
1)、页面主题相关性判别算法
该算法是由基于布尔模型的页面内容判别、基于链接标签数据与基于元数据的判别方法结合起来的使用。
基于链接标签数据与基于元数据的判别方法都将通过基于主题关键词典的中文分词算法对相应的数据进行中文分词,若切分出了主题关键词则判定相关,反之则不相关。
基于布尔模型的页面内容相关性判别方法则采用结合页面正文与主题关键词词典建立如下表达式:d={t1,w1;t2,w2;…tn,wn},其中tk表示主题特征词,wk并不是dictionary中关键词的权重,而是主题特征词tk是否在正文中出现,出现为1,反之为0。再通过公式1计算出的主题相关度值。
由上文介绍的煤矿安全事件相关网页正文特点可知,发现只要是与主题相关的网页,其内容中包含的主题关键词(煤矿安全事件领域的专业词汇)都超过5种。也就是计算出的Sim不小于5,就认定该页面主题相关。
本文提供的页面信息提取模块中的页面主题相关性判别算法的基本思路是:利用基于链接标签数据的判别方法不需要加载该URL页面就可以进行主题相关性判别的特点,进行初级判别。若判别相关则将该URL置入主题相关URL队列,反之,则将其置入二级判别队列。加载二级判别队列中的URL相对应的页面,利用基于元数据判别方法简单、准确的特点,进行判别。若判别相关则将该URL置入主题相关URL队列,反之,则对其进行基于页面内容相关性判别。若基于页面内容相关性判别结果是相关,则将其置入主题相关URL队列,反之将其置入主题不相关队列。
下面将介绍该算法中用到的几个数据结构:1、url_queue:主要用来存放初始URL链接;2、crawled_queue:主要用来存放已经判别主题相关的URL链接与已经加载过的初始URL链接,避免重复判别;3、topic_queue:主要用来存放与搜索主题相关的URL链接;4、second_topic_queue:二级判别队列,主要用来存放经过基于链接标签数据判别之后,判别不相关的URL链接;5、i:整型变量,用来表示当前页面中的URL链接序号;6、depth:整型变量,用来表示当前页面的遍历深度;7、dictionary:主题关键词词典,记录煤矿安全事件领域的主题关键词。
该算法的具体描述如下:
第一步,把种子URL链接置入url_queue队列,并置空其它的队列,i赋值为1,depth赋值为1。
第二步,url_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue。depth自增1。
第三步,从该页面中提取第i条URL链接以及其所在的标签的数据。首先判断其是否存在于crawled_queue,若存在于crawled_queue则摒弃该URL链接,反之则对该URL链接的标签数据与dictionary中的关键词比较,进行基于链接标签数据的判别,将主题相关的URL链接置入topic_queue和crawled_queue。反之,则先判断depth是否小于6,如果小于6则将该URL链接置入second_topic_queue,反之摒弃。
第四步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接。
第五步,循环执行从第二步到第四步的操作,直到url_queue队列为空。
第六步,second_topic_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue。将i赋值为1,depth自增1。
第七步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接。对该页面中的链接标签进行判别。随后,提取当前页面的元数据,即<meta>标签中的<title>和<content>的数据,将其与dictionary中的关键词比较,进行基于元数据的判别。如果判别主题相关,则将将该页面的URL链接置入topic_queue。反之提取页面正文内容并通过基于dictionary的中文分词算法将正文中的主题特征项提取出来,接着结合dictionary中的主题特征词建立如下表达式:d={t1,w1;t2,w2;…tn,wn},最后,通过公式1计算出主题相关度值并与5作比较。若Sim不小于5,则认定该页面主题相关,将其URL链接置入topic_queue,反之摒弃。
第八步,循环执行第六步到第七步,直到second_topic_queue队列为空。
2)、页面主题相关度计算
使用基于空间向量模型的页面内容主题相关度判别方法有两个关键问题需要解决:1、每个特征项其对应权重的计算;2、使用基于空间向量模型的页面内容主题相关度判别方法可以计算出任意两个页面主题相似度,而本文需要的是计算出目标网页与主题的相似度。
TF-IDF算法有这样一个假设:在使用语言描述一个问题的过程中,出现频率较高的词汇带有的信息量反而小,反之出现频率较少的词汇则带有的信息量较多。
基于以上假设,再结合本文的主题特点,在网页正文中出现次数多的主题关键词权重较低,反之则权重较高。因此,参照TF-IDF算法,本文特征项权重计算的过程是:
第一步,将网页数据库中的文档集合用D={d1,d2,…di,…dm}来表示。
第二步,计算出特征项tk在文档di中出现的次数,即词频,记作TFik。
第三步,计算出文档集合D中出现特征项tk的文档数量,记作DFk。
第四步,使用前文提供的公式wik=TFik/DFk计算出,wik表示的是特征项tk在文档di中的权重。
由此,就可以很容易地计算出每一个网页中主题关键词的权重,但是由公式3-5只能计算出任意两个网页的相关度,而无法计算出目标网页与主题的相关度。为了解决这个问题,本文考虑计算出一组主题关键词特征项权重作为主题的特征向量。之后,每一个网页只需要与主题特征向量进行计算就可以计算出每个网页与主题的相关度。
主题特征向量的计算方法是,首先选取网页数据库中的文档集合D={d1,d2,…di,…dm},并将主题词库中的主题关键词作为特征项,构建成一个m维的向量空间,根据前文提到的TF-IDF算法计算出每个特征项在各个文档中的权重,最后取算术平均值,形成一组特征项权重,以此作为主题特征向量。
结合上文提到的每个特征项权重的计算方法和主题特征向量计算方法,使用公式计算出每一个网页与主题的相关度的值;其中wik表示的是特征项tk在文档di中的权重,wtk表示的是特征项tk在文档dt中的权重。
使用基于布尔模型的判别方法来判断网页内容的主题相关性十分简单,但是它与基于标签数据和基于元数据的主题判别方法相比,基于布尔模型的判别方法还是要扫描很多的网页正文数据。对于正规书写的Html页面而言,结合其页面上的链接标签数据和元数据就基本上可以表示整个网页的正文内容。若搜索引擎的主题描述恰当,先通过基于链接和元数据判别作为主题相关性判别的初级判别,即通过基于链接和元数据判别,判定相关之后,就无需再进行基于页面内容相关判别。只有对那些通过基于链接和元数据判别,判定不相关的页面再进行基于页面内容相关判别。
本发明提出的网页主题相关度的计算方法主要应用在搜索结果排序的过程中。该方法页面主题相关度计算方法是借鉴于基于空间向量模型的页面内容主题相关度判别的方法。
附图说明
图1页面主题相关性判别算法流程图
具体实施方式
1)主题相关性判别方法分析
通过对互联网上煤矿安全事件相关网页的分析可以发现以下几个特点:
第一,从页面的分布上来看,其分布集中,即每个煤矿安全事件相关网页的起始URL都集中在几个煤矿安全门户网站和新闻网站上。
第二,从页面的深度(从起始URL链接到目标页面经历的跳转次数)来看,煤矿安全事件相关网页的URL链接一般都并列挂在某一层的某个页面中,深度不超过6层。
第三,从页面正文内容上来看,每个煤矿安全事件相关网页,无论是煤矿安全事故新闻,还是煤矿安全事故案例,其内容中包含的主题关键词(煤矿安全事件领域的专业词汇)都超过5种,而且还有地理位置信息词汇以及时间词汇。
第四,从页面的HTML文件的内容上来看,其<meta>标签中的<title>标签和<content>标签中包含大量的主题关键词。以下是来自凤凰网的煤矿安全事件相关网页的HTML文件代码片段:
还有一点就是,目标页面的上一层页面中标签数据中同样包含主题关键词数据,代码片段如下:
结合上述内容与对现有的主题判别方法的研究分析可以得出如下结论:
第一,基于元数据的判别方法,虽然当前并没有足够、统一的元数据组织结构和命名标准,但是在煤矿安全事件相关页面的主题判别中,可以使用。但是考虑到其判别过于简单,故并不单独使用,而是将其作为辅助方法,用以提高整体主题相关性判别的准确率和效率。
第二,基于链接标签数据的判别方法,虽然该方法可以用来判别煤矿安全事件这一主题,但是在整个互联网上的网页,其标签数据毕竟有限,这就会导致网络爬虫遗漏大量主题相关的网页,故不适合单独使用。由于该方法不需要加载页面,再加上其简单、准确率高的特点,我们可以考虑将其作为初步判别方法,通过该方法判别的就可以视为该页面主题相关,反之就用基于页面内容相关性判别方法对其进行二次判别。
第三,基于链接结构的判别方法是从结果排序方面借鉴过来的方法,从效果上看是可行的,但是其执行效率较低,在本文的页面信息提取模块中并不适用。
第四,基于页面内容的判别方法需要页面的正文内容作为判别的前提条件,而无论是页面信息提取模块在进行主题相关性二次判别时,还是搜索结果排序时,都已经满足这个前提条件,而且其准确性很高,基于页面内容的相关度计算量并不是很大,故本文采用基于页面内容的判别作为页面相关性判别的核心方法。通过对各种基于页面内容相关性判别算法的比较分析,对于页面信息提取模块进行页面与主题是否相关的判别时,由于只需要判断出是否,所以选取布尔模型;而在搜索结果排序中,需要计算出相关度的相对值,故采用空间向量模型。
综上所述,在页面信息提取模块中用到的主题相关性判别算法,本课题将采用基于布尔模型的页面内容判别、基于链接标签数据与基于元数据的判别方法结合起来的使用。而在搜索结果排序的过程中,进行主题相关度计算时,采用基于空间向量模型的页面主题相关度判别。
2)算法详细设计
(1)网页主题相关性的判别算法
本文提供的页面信息提取模块中的页面主题相关性判别算法的基本思路是:利用基于链接标签数据的判别方法不需要加载该URL页面就可以进行主题相关性判别的特点,进行初级判别。若判别相关则将该URL置入主题相关URL队列,反之,则将其置入二级判别队列。加载二级判别队列中的URL相对应的页面,利用基于元数据判别方法简单、准确的特点,进行判别。若判别相关则将该URL置入主题相关URL队列,反之,则对其进行基于页面内容相关性判别。若*基于页面内容相关性判别结果是相关,则将其置入主题相关URL队列,反之将其置入主题不相关队列。下面将介绍该算法中用到的几个数据结构:1、url_queue:主要用来存放初始URL链接;2、crawled_queue:主要用来存放已经判别主题相关的URL链接与已经加载过的初始URL链接,避免重复判别;3、topic_queue:主要用来存放与搜索主题相关的URL链接;4、second_topic_queue:二级判别队列,主要用来存放经过基于链接标签数据判别之后,判别不相关的URL链接;5、i:整型变量,用来表示当前页面中的URL链接序号;6、depth:整型变量,用来表示当前页面的遍历深度;7、dictionary:主题关键词词典,记录煤矿安全事件领域的主题关键词。
该算法的具体描述如下:
第一步,把种子URL链接置入url_queue队列,并置空其它的队列,i赋值为1,depth赋值为1。
第二步,url_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue。depth自增1。
第三步,从该页面中提取第i条URL链接以及其所在的标签的数据。首先判断其是否存在于crawled_queue,若存在于crawled_queue则摒弃该URL链接,反之则对该URL链接的标签数据与dictionary中的关键词比较,进行基于链接标签数据的判别,将主题相关的URL链接置入topic_queue和crawled_queue。反之,则先判断depth是否小于6,如果小于6则将该URL链接置入second_topic_queue,反之摒弃。
第四步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接。
第五步,循环执行从第二步到第四步的操作,直到url_queue队列为空。
第六步,second_topic_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue。将i赋值为1,depth自增1。
第七步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接。随后,提取当前页面的元数据,即<meta>标签中的<title>和<content>的数据,将其与dictionary中的关键词比较,进行基于元数据的判别。如果判别主题相关,则将将该页面的URL链接置入topic_queue。反之提取页面正文内容并通过基于dictionary的中文分词算法将正文中的主题特征项提取出来,接着结合dictionary中的主题特征词建立如下表达式:d={t1,w1;t2,w2;…tn,wn},最后,通过公式计算出主题相关度值并与5作比较。若Sim不小于5,则认定该页面主题相关,将其URL链接置入topic_queue,反之摒弃。
第八步,循环执行第六步到第七步,直到second_topic_queue队列为空。
(2)网页主题相关度的计算方法
通过前文所述,结合本文的主题特点,在网页正文中出现次数多的主题关键词权重较低,反之则权重较高。因此,参照TF-IDF算法,本文特征项权重计算的过程是:
第一步,将网页数据库中的文档集合用D={d1,d2,…di,…dm}来表示。
第二步,计算出特征项tk在文档di中出现的次数,即词频,记作TFik。
第三步,计算出文档集合D中出现特征项tk的文档数量,记作DFk。
第四步,使用前文提供的公式wik=TFik/DFk计算出,wik表示的是特征项tk在文档di中的权重。
由此,就可以很容易地计算出每一个网页中主题关键词的权重,但是由公式5只能计算出任意两个网页的相关度,而无法计算出目标网页与主题的相关度。为了解决这个问题,本文考虑计算出一组主题关键词特征项权重作为主题的特征向量。之后,每一个网页只需要与主题特征向量进行计算就可以计算出每个网页与主题的相关度。
主题特征向量的计算方法是,首先选取网页数据库中的文档集合D={d1,d2,…di,…dm},并将主题词库中的主题关键词作为特征项,构建成一个m维的向量空间,根据前文提到的TF-IDF算法计算出每个特征项在各个文档中的权重,最后取算术平均值,形成一组特征项权重,以此作为主题特征向量。
结合上文提到的每个特征项权重的计算方法和主题特征向量计算方法,使用公式(wik表示的是特征项tk在文档di中的权重,wtk表示的是特征项tk在文档dt中的权重),计算出每一个网页与主题的相关度的值。
Claims (1)
1.基于煤矿安全事件主题相关性判别方法,其特征在于步骤如下:
1)页面主题相关性判别算法
该算法是由基于布尔模型的页面内容判别、基于链接标签数据与基于元数据的判别方法结合起来的使用;
基于布尔模型的页面内容相关性判别方法则采用结合页面正文与主题关键词词典建立如下表达式:d={t1,w1;t2,w2;…tn,wn},其中tk表示主题特征词,wk并不是dictionary中关键词的权重,而是主题特征词tk是否在正文中出现,出现为1,反之为0;再通过公式1计算出的主题相关度值;
由上文介绍的煤矿安全事件相关网页正文特点可知,发现只要是与主题相关的网页,其内容中包含的主题关键词都超过5种;也就是计算出的Sim不小于5,就认定该页面主题相关;
先介绍用到的几个数据结构:1、url_queue:主要用来存放初始URL链接;2、crawled_queue:主要用来存放已经判别主题相关的URL链接与已经加载过的初始URL链接,避免重复判别;3、topic_queue:主要用来存放与搜索主题相关的URL链接;4、second_topic_queue:二级判别队列,主要用来存放经过基于链接标签数据判别之后,判别不相关的URL链接;5、i:整型变量,用来表示当前页面中的URL链接序号;6、depth:整型变量,用来表示当前页面的遍历深度;7、dictionary:主题关键词词典,记录煤矿安全事件领域的主题关键词;
该算法的具体描述如下:
第一步,把种子URL链接置入url_queue队列,并置空其它的队列,i赋值为1,depth赋值为1;
第二步,url_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue;depth自增1;
第三步,从该页面中提取第i条URL链接以及其所在的标签的数据;首先判断其是否存在于crawled_queue,若存在于crawled_queue则摒弃该URL链接,反之则对该URL链接的标签数据与dictionary中的关键词比较,进行基于链接标签数据的判别,将主题相关的URL链接置入topic_queue和crawled_queue;反之,则先判断depth是否小于6,如果小于6则将该URL链接置入second_topic_queue,反之摒弃;
第四步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接;
第五步,循环执行从第二步到第四步的操作,直到url_queue队列为空;
第六步,second_topic_queue队列出队,取出链接,并加载该链接对应的页面,并把该URL链接置入已爬行队列crawled_queue;将i赋值为1,depth自增1;
第七步,i自增1,循环执行第三步,直到判别完该页面中的最后一条URL链接;对该页面中的链接标签进行判别;随后,提取当前页面的元数据,即<meta>标签中的<title>和<content>的数据,将其与dictionary中的关键词比较,进行基于元数据的判别;如果判别主题相关,则将将该页面的URL链接置入topic_queue;反之提取页面正文内容并通过基于dictionary的中文分词算法将正文中的主题特征项提取出来,接着结合dictionary中的主题特征词建立如下表达式:d={t1,w1;t2,w2;…tn,wn},最后,通过公式1计算出主题相关度值并与5作比较;若Sim不小于5,则认定该页面主题相关,将其URL链接置入topic_queue,反之摒弃;
第八步,循环执行第六步到第七步,直到second_topic_queue队列为空;
2)、页面主题相关度计算
第一步,将网页数据库中的文档集合用D={d1,d2,…di,…dm}来表示;
第二步,计算出特征项tk在文档di中出现的次数,即词频,记作TFik;
第三步,计算出文档集合D中出现特征项tk的文档数量,记作DFk;
第四步,使用前文提供的公式wik=TFik/DFk计算出,wik表示的是特征项tk在文档di中的权重;
主题特征向量的计算方法是,首先选取网页数据库中的文档集合D={d1,d2,…di,…dm},并将主题词库中的主题关键词作为特征项,构建成一个m维的向量空间,根据前文提到的TF-IDF算法计算出每个特征项在各个文档中的权重,最后取算术平均值,形成一组特征项权重,以此作为主题特征向量;
结合上文提到的每个特征项权重的计算方法和主题特征向量计算方法,使用公式计算出每一个网页与主题的相关度的值;其中wik表示的是特征项tk在文档di中的权重,wtk表示的是特征项tk在文档dt中的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032198.2A CN105701167B (zh) | 2015-12-31 | 2015-12-31 | 基于煤矿安全事件主题相关性判别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511032198.2A CN105701167B (zh) | 2015-12-31 | 2015-12-31 | 基于煤矿安全事件主题相关性判别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701167A true CN105701167A (zh) | 2016-06-22 |
CN105701167B CN105701167B (zh) | 2019-04-12 |
Family
ID=56226764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511032198.2A Expired - Fee Related CN105701167B (zh) | 2015-12-31 | 2015-12-31 | 基于煤矿安全事件主题相关性判别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701167B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169020A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键字的定向网页采集方法 |
CN108647322A (zh) * | 2018-05-11 | 2018-10-12 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN111459806A (zh) * | 2020-03-17 | 2020-07-28 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN111552776A (zh) * | 2020-04-24 | 2020-08-18 | 周敬洋 | 一种基于人工智能的Meta分析生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192293A1 (en) * | 2006-02-13 | 2007-08-16 | Bing Swen | Method for presenting search results |
CN102646129A (zh) * | 2012-03-09 | 2012-08-22 | 武汉大学 | 一种主题相关的分布式网络爬虫系统 |
CN102982184A (zh) * | 2012-12-26 | 2013-03-20 | 福建师范大学 | 用于抓取网络商城中网页的爬虫算法 |
CN103186676A (zh) * | 2013-04-08 | 2013-07-03 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
-
2015
- 2015-12-31 CN CN201511032198.2A patent/CN105701167B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192293A1 (en) * | 2006-02-13 | 2007-08-16 | Bing Swen | Method for presenting search results |
CN102646129A (zh) * | 2012-03-09 | 2012-08-22 | 武汉大学 | 一种主题相关的分布式网络爬虫系统 |
CN102982184A (zh) * | 2012-12-26 | 2013-03-20 | 福建师范大学 | 用于抓取网络商城中网页的爬虫算法 |
CN103186676A (zh) * | 2013-04-08 | 2013-07-03 | 湖南农业大学 | 一种主题知识自增长型聚焦网络爬虫搜索方法 |
Non-Patent Citations (1)
Title |
---|
郭晓黎: "面向煤矿安全事件本体模型研究与应用", 《中国煤炭》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169020A (zh) * | 2017-04-07 | 2017-09-15 | 南京邮电大学 | 一种基于关键字的定向网页采集方法 |
CN108647322A (zh) * | 2018-05-11 | 2018-10-12 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN108647322B (zh) * | 2018-05-11 | 2021-12-17 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN111459806A (zh) * | 2020-03-17 | 2020-07-28 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN111459806B (zh) * | 2020-03-17 | 2022-09-23 | 南京邮电大学 | 一种基于plsa主题模型和em算法确定网页元素主题的方法 |
CN111552776A (zh) * | 2020-04-24 | 2020-08-18 | 周敬洋 | 一种基于人工智能的Meta分析生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105701167B (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709052B (zh) | 一种基于关键词的主题网络爬虫设计方法 | |
Jalal et al. | Text documents clustering using data mining techniques. | |
US10002330B2 (en) | Context based co-operative learning system and method for representing thematic relationships | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN102200975B (zh) | 一种利用语义分析的垂直搜索引擎系统 | |
CN103473283B (zh) | 一种文本案例匹配方法 | |
CN105302793A (zh) | 一种利用计算机自动评价科技文献新颖性的方法 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
CN105701167A (zh) | 基于煤矿安全事件主题相关性判别方法 | |
Thung et al. | Dupfinder: integrated tool support for duplicate bug report detection | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN107766323A (zh) | 一种基于互信息和关联规则的文本特征提取方法 | |
CN104765779A (zh) | 一种基于YAGO2s的专利文档查询扩展方法 | |
Wang et al. | A semantic query expansion-based patent retrieval approach | |
CN104866573A (zh) | 一种文本分类的方法 | |
Oskouei et al. | An ensemble feature selection method to detect web spam | |
CN105677684A (zh) | 一种基于外部数据源对用户生成内容进行语义标注的方法 | |
Wan et al. | Detecting spam webpages through topic and semantics analysis | |
Liu et al. | Keywords extraction method for technological demands of small and medium-sized enterprises based on LDA | |
CN100535893C (zh) | 一种计算机标引和检索的方法 | |
Shen et al. | A hybrid model combining formulae with keywords for mathematical information retrieval | |
Yang et al. | Study on food safety semantic retrieval system based on domain ontology | |
Musto et al. | A tag recommender system exploiting user and community behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190412 Termination date: 20211231 |
|
CF01 | Termination of patent right due to non-payment of annual fee |