CN112597370A - 指定需求范围的网页信息自主搜集筛选系统 - Google Patents

指定需求范围的网页信息自主搜集筛选系统 Download PDF

Info

Publication number
CN112597370A
CN112597370A CN202011536333.8A CN202011536333A CN112597370A CN 112597370 A CN112597370 A CN 112597370A CN 202011536333 A CN202011536333 A CN 202011536333A CN 112597370 A CN112597370 A CN 112597370A
Authority
CN
China
Prior art keywords
webpage
information
word
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011536333.8A
Other languages
English (en)
Inventor
刘秀萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingmen Huiyijia Information Technology Co ltd
Original Assignee
Jingmen Huiyijia Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingmen Huiyijia Information Technology Co ltd filed Critical Jingmen Huiyijia Information Technology Co ltd
Priority to CN202011536333.8A priority Critical patent/CN112597370A/zh
Publication of CN112597370A publication Critical patent/CN112597370A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供的指定需求范围的网页信息自主搜集筛选系统,为互联网上指定需求范围的自主搜集筛选设计解决方案,一是针对网页数据自主搜集筛选的工作需求,策划了一个符合互联网指定需求范围监测业务特点的系统解决方案;二是对网络指定需求范围信息自主搜集筛选的各个关键技术进行了研发和实现,并对一些关键技术进行了改进和优化,使系统更加符合指定需求范围监测业务实际需求;三是对网页信息自主搜集筛选系统测试和性能指标评价,通过对测试结论的分析,验证了系统的实用可靠性,达到了预期的效果,证明本发明网页信息自主搜集筛选系统具有很高的实用价值,对实施指定需求范围网络监测工作具有较好的参考价值。

Description

指定需求范围的网页信息自主搜集筛选系统
技术范围
本发明涉及一种网页信息自主搜集筛选系统,特别涉及一种指定需求范围的网页信息自主搜集筛选系统,属于网页搜集筛选技术范围。
背景技术
在互联网高速发展的今天,万维网已成为一个巨大的、全球化的分布广泛的信息传输和服务中心,众多官方或者民间的机构、团体,甚至个人均在互联网上建立了各种类型的网页,内容上包罗万象,涉及到政治、经济、娱乐、生活、文化等方方面面,积累的信息容量更是以几何指数爆发式增长。从互联网中搜集信息,不但是人们获取知识的重要途径,也是门户网页的新闻、行业资讯搜集以及竞争信息获取等工作的主要方法和手段。面对海量的资源信息,仅仅依靠传统的人工搜集和处理方式,越来越难以满足网络信息处理的要求。为解决此类矛盾,一些科研机构和公司在信息检索领域进行了大量研究,开发出了多种搜索引擎,提高了网络信息检索的效率,获得了广泛的应用。但针对特定领域的信息检索要求,这些通用的搜索引擎存在较大的不足,最突出的表现有以下几个方面:一是这类搜索引擎基于全文或者关键字的检索机制,易出现噪声信息多、有效信息少的现象,使得用户的检索意图淹没在实际的检索结果中;二是这类网络搜索引擎的设计规则更注重查全率,适用于较宽泛的知识范围,在对某一特殊范围进行目标检索时,搜索引擎会尽可能多的返回检索结果,而不考虑是否会符合用户的专业知识背景等,检索的质量不高;三是网页信息检索的效率和速度偏低,不能保证检索结果的实时性和有效性。
Web网页充满了各类各样的经济、娱乐、生活等庞杂的信息,而且呈现出指数级的增长态势,即便某一类别网页也是如此,在网页信息搜集分析系统中的一个重要问题,就是无效数据的筛选。在这种难以忽视的海量数据里,对目标网页快速自主抓取信息,并分析判别所获取信息的技术难度很大。因此,为尽量减少后续需要人工分析处理的数据集空间,对所获取的Web网页数据进行无效数据的滤除和有效数据的筛选,强化网络信息分析处理的实效性非常重要和关键。
为解决通用型搜索工具进行专业化搜索时智能化程度不高的问题,基于指定需求范围和特定领域的信息检索技术越来越得到重视,并逐渐演化成各种基于用于指定需求的高度针对性、专业化、目标化的信息检索工具,相关技术在网络信息搜索领域的比重不断扩大。例如,在互联网信息量剧增的环境下,地质研究、气象分析等一些特定专业范围,为更好的服务研究工作,需要及时准确且高效的搜集到需要关注的资讯,以建立本行业的动态信息服务系统。
对指定网页信息的自主搜集和整理,以人工的方式对某一类网页或者论坛进行监测的传统方法,虽然搜集到的信息质量较高,也能够较好的解决监测实时性的问题,但由于互联网上同类型的网页数量庞大,变化频繁,需要花费大量的时间和人力去搜集、整理这类资讯网页。因此,需要开发实时高效的指定网页信息检索工具,以提供高度聚类的数据给专业用户进行分析和处理。
针对现有技术的存在明显的缺点,本发明拟解决以下问题:
第一,面对海量的网络资源信息,仅仅依靠传统的人工搜集和处理方式,越来越难以满足网络信息处理的要求,现有技术的多种搜索引擎,针对特定领域的信息检索要求,这些通用的搜索引擎存在较大的不足,最突出的表现有以下几个方面:一是这类搜索引擎基于全文或者关键字的检索机制,易出现噪声信息多、有效信息少的现象,使得用户的检索意图淹没在实际的检索结果中;二是这类网络搜索引擎的设计规则更注重查全率,适用于较宽泛的知识范围,在对某一特殊范围进行目标检索时,搜索引擎会尽可能多的返回检索结果,而不考虑是否会符合用户的专业知识背景等,检索的质量不高;三是网页信息检索的效率和速度偏低,不能保证检索结果的实时性和有效性;
第二,现有技术的网页信息搜集分析系统中的一个重要问题,就是无效数据的筛选,在难以忽视的海量数据里,对目标网页快速自主抓取信息,并分析判别所获取信息的技术难度很大。因此,为尽量减少后续需要人工分析处理的数据集空间,对所获取的Web网页数据进行无效数据的滤除和有效数据的筛选,强化网络信息分析处理的实效性非常重要和关键;
第三,现有技术通用型搜索工具进行专业化搜索时存在智能化程度不高的问题,缺少基于用于指定需求的高度针对性、专业化、目标化的信息检索工具,面对相关技术在网络信息搜索领域的比重不断扩大,现有技术的通用型搜索工具无法更好的服务研究工作,需要及时准确且高效的搜集到需要关注的资讯,以建立本行业的动态信息服务系统;
第四,现有技术对指定网页信息的自主搜集和整理,以人工的方式对某一类网页或者论坛进行监测,虽然搜集到的信息质量较高,也能够较好的解决监测实时性的问题,但由于互联网上同类型的网页数量庞大,变化频繁,需要花费大量的时间和人力去搜集、整理这类资讯网页。因此,需要开发实时高效的指定网页信息检索工具,以提供高度聚类的数据给专业用户进行分析和处理。
现实网络中反映指定需求范围的信息资源日益丰富,逐渐成为一些单位或者机构获取特定领域信息、发展动向和趋势的主要来源,使得针对这类领域网络资源的信息搜集获取分析的方式技术需求日益迫切。为此,本发明针对此类领域的指定需求设计一种自主搜集分析系统,辅助这些单位或者机构的从业人员开展自主化的信息搜集。
发明内容
针对现有技术的不足,本发明通过基于网页信息收集以及检索的理论与实践,为互联网上指定需求范围的自主搜集筛选设计解决方案,系统的设计与实现方面的工作主要包括:一是针对网页数据自主搜集筛选的工作需求,策划了一个符合互联网指定需求范围监测业务特点的系统解决方案;二是对网络指定需求范围信息自主搜集筛选的各个关键技术进行了研发和实现,并对一些关键技术进行了改进和优化,使系统更加符合相关部门指定需求范围监测业务实际需求;三是对万维网网页信息自主搜集筛选系统测试和性能指标评价,通过对测试结论的分析,验证了系统的实用可靠性,达到了预期的效果,证明本发明网页信息自主搜集筛选系统具有很高的实用价值,对实施指定需求范围网络监测工作具有较好的参考价值。
为达到以上技术效果,本发明所采用的技术方案如下:
指定需求范围的网页信息自主搜集筛选系统,系统设计主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本发明采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;
指定需求范围的网页信息自主搜集筛选系统由三个分系统构成,分别为:网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统,各分系统根据用户需求和系统设计,分别有不同的分工;网页信息自主搜集分系统主要完成主题网页的搜索、下载和清洗工作,搜索并保存指定需求范围相关的互联网信息,监测网页上指定范围事件发生、发展的最新动态,使系统使用人员能够及时、完整的掌控所关注的内容;网页数据自主分类分系统将网页信息自主搜集分系统处理后的与主题内容相关的网页数据,利用中文分词、信息提取、文本分类方法进行自主分类处理,并滤除无效网页;信息检索输出分系统主要是实现站内信息的关联分析、内容检索和数据输出显示;
指定需求范围的网页信息自主搜集筛选系统工作流程原理为:
流程一:网页信息自主搜集分系统搜集URL、下载网页并清洗网页;
流程二:网页数据自主分类分系统负责将系统搜集到有效网页进行中文分词、特征项提取、文本分类,并滤除无效信息;
流程三:信息检索输出分系统进行站内信息的关联挖掘、检索和结果输出;
网页数据自主分类分系统主要算法包括:一是文本前置处理:文本前置处理主要包括剔除停用词、文本分词、统计参数过程;二是分类过程,分类过程步骤为:
第1步:对需判断类别属性的新文本进行HTML文件解析、中文分词、特征项提取,将文本表示为特征向量;
第2步:计算第1步得到的特征向量与训练文档集每个类别向量的距离,得到相似度最大的候选类别列表;
第3步:基于训练得到的每个类别的临界值,将第2步的结果与之比较,保留大于某个临界值的属性类别作为分类结果。
指定需求范围的网页信息自主搜集筛选系统,进一步的,指定需求范围网页数据的智能获取是系统的起始环节,其主要工作为:从某主题网站的初始网页出发,下载并分析这个网页,获取与这个网页相链接的全部网页的URL,再把这个URL集全部加到一个有序的待搜集队列中,由搜集器顺序取出URL,获取这些URL所指向的页面,再从新的网页中解析出新的URL,如此不停的爬取,直到根据某种策略停止搜集;
设计搜集程序时,需要采用哈希表来记录哪些网页已经下载过,避免同一个网页被多次下载;判断一个网页的URL是否已经下载过,采用哈希表平均只需约一次的查找就可实现,如果遇到已下载的网页,搜集程序就跳过,如果没有下载过,除了要下载该网页,还需在下载完成后,把此网页的URL保存入哈希表中;
本系统搜集程序主要是自主爬取互联网络并下载与指定需求范围相关的网页,并将这些网页经过初步处理后把结果保存到本地,其中第1步就是解析网页的HTML代码,获取其中的所有URL,再利用搜索策略开始搜集程序;
基于网页蜘蛛技术的搜索策略,在设计搜集程序时最主要的是在有限时间内尽可能多的抓取最重要的网页,各网站最重要的网页是它的首页,搜集程序应当是爬取网页的首页及首页直接链接的所有网页,从系统功能需求出发,主要是搜集主题明确的指定需求范围相关的网页,所以采用广度优先的搜索策略,从某些重点URL出发,对其进行拓展爬取PageRank排名高的主题网页,后续进行文本内容提取,并且在文本提取的同时清洗无效网页,最后剔除相似网页。
指定需求范围的网页信息自主搜集筛选系统,进一步的,清洗网页数据和提取文本:清洗过程只需考虑文本内容,对图像、视频不用理会,网页清洗通过剔除掉网页中噪声干扰,仅保留网页的主题内容,网页清洗通过将网页分块,来区别一个网页中的主题内容和噪声信息,本发明采用基于DOM的网页分块方法。
指定需求范围的网页信息自主搜集筛选系统,进一步的,基于DOM的网页分块方法:HTML是web上使用最多的数据形式,通过采用一组标记来区分标题、段落各种文档特性,HTML网页的布局,用HTML语言定义一套标签树表示,构造工具为DOM树,它按照嵌套的关系将网页布局标签整理成树状结构,根据标签结果对网页内容分块,DOM树结构通过把半结构化HTML页面布局转化为结构化DOM树结构,理解和实现网页清洗、信息提取分析工作;
DOM通过把HTML/XML文本解析为树状的数据结构,进行访问和操作,把文档中的字、段落和标题看作树结点来描述和访问,这种结构化的DOM树比非结构化的Web页面更易于访问和操作;
DOM树型结构设计:HTML文件由标题、头部、段落、超链接组件构成的数据集合,文件管理以基于数据的形式,各种组件在文件的位置和显示顺序一致,文件树型逻辑结构是DOM通过对HTML的再解释,生成的HTML文件的树形内部结构,每个组件不仅代表数据本身,还包含属性和方法,DOM对文件树形逻辑结构进行解释时,将<HTML>看作树的根,将其他组件看作树的结点,其中,结点看作是包含其他结点的父结点,也视为包含于父结点的子结点,同级结点为兄弟结点,在DOM逻辑结构中,文档标签被解析成DOM树的内部结点,而文本、超链接组件被解析成叶结点,通过DOM定义的应用程序接口,建立、修改和删除HTML文档的结构、元素和内容。
指定需求范围的网页信息自主搜集筛选系统,进一步的,提取文本特征利用分词算法实现,算法设计为:
一是词典的内存格式,采用分层保存的形式,形成三层树型结构,每一个字母代表一个字,第一层保存所有单字,第二层保存所有的双字词,第三层保存以某一双字开头的所有词;
二是文本切分算法描述,假设对一个句子HIJKLMN……进行分词处理,处理流程为:
第一步,首先取前两个字,在词典中查找HI是否存在;
第二步,如果HI不存在,判H为单字词,分词结束,保存结果并返回第一步;
第三步,如果HI存在,判断HI是否为词,同时从词典中查找HI在下一层中字的最大长度,设为m;
第四步,如果m=0,则HI为词,本次分词结束,保存结果并返回第一步;
第五步,否则,设i=0;
第六步,i=i+1,若i=n+1,转第八步,否则,转第七步;
第七步,往后再取一个字,如J,判断在第三层中是否存在以JK…开始的字;
第八步,如果不存在,则分词结束,返回最近一次能够恰好匹配的CD…,并与AB组合成词;若为HI,则凭HI标记分析是双字词或者为两个单字词;
第九步,否则,转第六步;
三是歧义词的处理,描述如下:
步骤一,设已划分出一词HIJK;
步骤二,查找以K为开头的词;
步骤三,若K与后面的字构成词,则标记K;
步骤四,采用类似第3步的方法,继续对M进行处理,直到找到无歧义的词为止;
步骤五,假定M与其后的字不构成词,依据歧义处理方法,则断定KLM为词;
步骤六,重新判断HIJ是否成词,若是,则HIJ为一词,歧义处理结束;
步骤七,否则,判断HI是否成词,若是,则HI为一词,J单独为一词,歧义处理结束;
步骤八,否则,判断H、I、J分别单独为词,歧义处理结束;
四是网页文档专用词的统计方法,针对一篇网页文档专用词的统计方法为:设HIJKLMN为句子,假设通过切分算法和歧义处理判定HI为一个双字词,LMN为一个三字词,J和K为单字词,则把两个邻近的多字词HI和LMN之间的J和K,先假定为一个双字词JK统计其词频,如果在切分全文后,JK的出现次数达到某个临界值,就把它看作一个词,否则拆分为单字词;如果HI和EFG之间的单字词个数不止两个,为简化算法,将这些单字词合在一起进行统计。
指定需求范围的网页信息自主搜集筛选系统,进一步的,在万维网网页上抓取到符合条件的网页后,先把网页信息保存到数据库之中,方便下一步进行的数据处理;
网页信息的保存结构为:网页ID,网页的记录ID;网页URL,网页的URL地址;网站名称,网页来源网站的名称;网站URL,网页来源网站的URL地址;抓取时间,网页获取的时间;网页内容,数据库中存储的页面内容;
经网页采集、网页清洗和文本分类处理流程,采集到的指定需求范围网页的各类文档,在存储时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期;
经网页搜集、网页清洗和文本分类处理流程,搜集到的指定需求范围相关的各类文档,在保存时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期。
指定需求范围的网页信息自主搜集筛选系统,进一步的,本发明采用文本分类的方法滤除无效网页数据,所用的语料来源于日常有选择的收集,原理是比较网页与语料的相关性,提取文本特征向量,计算两个对象向量的夹角,当两个向量的夹角越小,说明两者相关性越大;文本相关性的计算转化成进行特征向量夹角的计算,当两者的夹角小于临界值时,认为该网页从属于无效或者其他类型的网页,即可滤除无效的网页数据;
本发明采用采用自下向上不断合并的筛选办法,其基本方法是:一是计算所有网页数据两两之间的特征向量相似性,把相似性大于某个临界值的事件合成一个小类;二是把每个指定需求范围类别采用小类的所有网页数据看作一个整体,计算小类的特征向量,并计算各小类之间的两两相似性,然后合并成大一点的小类;三是最终根据指定需求范围类别的通用定义,把所有事件合并成若干个小类。
指定需求范围的网页信息自主搜集筛选系统,进一步的,网页信息自主搜集分系统:从初始URL出发,由搜集器按照事先制定的策略,从互联网网页上搜集与指定需求范围相关的页面信息,再对搜集到的页面进行分块、清洗过程后,最终结果存入页面文件库;
网页搜集器包括控制模块和抓取模块两部分,主要由网页蜘蛛实现,其中,控制模块主要是依据策略对URL进行排序,解析网页内容,并将获得的URL存入抓取队列,抓取模块是在控制模块的引导下,从万维网上抓取页面,再返供控制模块处理,在抓取模块和控制模块的协同下,网页搜集器实现从互联网上自主搜集网页的功能;
在初始URL的选择上,系统根据自身需求定制初始URL,首先确定指定需求监测范围,依据反映信息的有效程度设定需要关注网页优先级,根据监测的实际业务需求,将需要关注的网页划分为重点和普遍两类,其中,重点网页的优先级高于普通网页;其次要把搜集到的重点网页和普通网页的入口作为系统的初始URL集;
网页前置处理的基本思路是:将网页划分成多个不同的块,分析每个块的重要程度,作为网页清洗流程的依据;
在网页清洗流程设计方面,本发明采用HTML Parser解析器将HTML页面布局标签变换成DOM的树形逻辑结构,而后通过深度优先遍历和网页清洗,得到保留原页面格式的结果。
指定需求范围的网页信息自主搜集筛选系统,进一步的,网页信息自主搜集分系统的核心算法描述为:
一是抓取算法,采用广度优先的抓取策略,在网页抓取时尽可能去爬取与指定需求范围事件关联性较强的门户网页,采用单线程抓取算法;
二是URL过滤算法,本发明在网页搜集技术上,增加URL过滤过程,通过URL过滤完善链接的准度和精度,基本思路为:一是在抓取URL时记录下与之对应的链接文本,同时过滤掉与主题无关的URL;二是通过设定的网页链接数据临界值,过滤掉URL数量大于临界值索引型网页;三是一般网页URL的长度小于等于300个字符,因此过滤掉大于300字符长的URL;四是根据本发明的应用场景,过滤掉后缀名不为htm、html、shtml的URL;
三是页面清洗算法,本发明页面清洗算法的基本流程为:HTML Parser解析器先将万维网页面转化成DOM树结构,而后由根结点开始,通过深度优先遍历结合采用页面清洗算法逐次清洗。
指定需求范围的网页信息自主搜集筛选系统,进一步的,网页数据自主分类分系统通过采用中文分词、信息提取、文本分类技术,对网页信息自主搜集分系统获取的与主题内容相关的网页数据,采用类中心向量算法进行自主分类处理,实现无效信息滤除、有效信息归类功能;
网页数据自主分类分系统主要包括训练文档维护模块、前置处理模块、特征提取模块、文本分类模块和反馈调整模块:
训练文档维护模块:用于创建、维护和撤销训练文档类别,检索、增加、修改、查阅、删除训练文档集的内容,训练文档集的保存按照类别的不同,存入树形结构的不同的目录中;
前置处理模块:用于实现中文分词处理和HTML文件解析,其中,中文分词处理主要通过采用词典对训练文本进行词条切分,HTML文件解析将HTML格式的网页转换成为文本格式;
特征提取模块:用于特征向量表中词条的选取以及其权值的设定,通过训练文档的词频统计分布规律分析,建立代表文本类的特征向量表;
文本分类模块:用于将待分类网页分配到对应的类别,其功能实现主要利用由不同算法设计的分类器;
反馈调整模块:是临界值调整过程,利用已完成属性分类的文本进行测试,不断调整临界值,以最终达到符合技术指标要求的结果。
与现有技术相比,本发明的贡献和创新点在于:
第一,本发明提供的指定需求范围的网页信息自主搜集筛选系统,针对海量的网络资源信息,仅仅依靠传统的人工搜集和处理方式,现有技术的搜索引擎越来越难以满足网络信息处理的要求的问题,针对特定领域的信息检索要求,本发明解决了通用搜索引擎的不足,解决的问题主要包括:一是搜索引擎基于全文或者关键字的检索机制,易出现噪声信息多、有效信息少的现象,使得用户的检索意图淹没在实际的检索结果中;二是网络搜索引擎的设计规则更注重查全率,在对某一特殊范围进行目标检索时,搜索引擎不考虑是否会符合用户的专业知识背景等,检索的质量不高;三是网页信息检索的效率和速度偏低,不能保证检索结果的实时性和有效性;
第二,本发明提供的指定需求范围的网页信息自主搜集筛选系统,能够及时准确获取指定需求范围相关重要数据,不但能够快速捕捉到重要数据,并且高效滤除无效噪声数据,为后端用户提供高效分析平台,便于他们在所获取的数据中快速发现指定需求范围的重要数据。方法灵活性强、系统作业效率高、搜集筛选精度高;
第三,本发明提供的指定需求范围的网页信息自主搜集筛选系统,对所监测指定领域范围的万维网网页信息的搜集筛选是及时、有效和全面的,最终输出的信息具有客观性、真实性、整体性,能够敏感、准确、快速的反映指定领域范围的最新变化等方面的动态情况、主流网页的反应及领域范围内的代表团体或者机构的内部观点,信息同时是连续的,有助于及时准确且高效的搜集到需要关注的资讯,建立相关行业的动态信息服务系统;
第四,针对现有技术对指定网页信息的自主搜集和整理,以人工的方式对某一类网页或者论坛进行监测,由于互联网上同类型的网页数量庞大,变化频繁,需要花费大量的时间和人力去搜集、整理这类资讯网页,本发明开发实时高效的指定网页信息检索工具,提供高度聚类的数据给专业用户进行分析和处理,有助于成为一些单位或者机构获取特定领域信息、发展动向和趋势,本发明针对此类领域的指定需求设计一种自主搜集分析系统,辅助这些单位或者机构的从业人员开展自主化的信息搜集。
附图说明
图1是本发明的网页采集算法流程示意图。
图2是指定需求范围的网页信息自主搜集筛选系统的逻辑结构图。
图3是指定需求范围的网页信息自主搜集筛选系统的组成示意图。
图4是指定需求范围的网页信息自主搜集筛选系统的工作流程图。
图5是本发明的抓取算法流程示意图。
图6是本发明的网页清洗算法流程示意图。
图7是本发明的网页数据智能分类分系统模块示意图。
图8是本发明的网页数据智能分类分系统工作流程图。
图9是本发明训练文本集的前置处理过程示意图。
图10是本发明文本分词的分类器构造流程示意图。
具体实施方式
下面结合附图,对本发明提供的指定需求范围的网页信息自主搜集筛选系统的技术方案进行进一步的描述,使本范围的技术人员可以更好的理解本发明并能够予以实施。
本发明指定需求范围的网页信息自主搜集筛选系统设计,主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本发明采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,以节省后续处理过程的时间和空间开销,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;指定需求范围的网页信息自主搜集筛选系统由网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统构成,其中网页信息自主搜集分系统主要完成主题网页的搜索、下载和清洗工作,网页数据自主分类分系统将网页信息自主搜集分系统处理后的与主题内容相关的网页数据,利用中文分词、信息提取、文本分类方法进行自主分类处理,并滤除无效网页,信息检索输出分系统主要完成站内检索、关联分析和结果输出显示。
一、指定需求范围的网页信息自主搜集筛选系统设计
基于指定需求范围的万维网网页信息自主搜集是基于特定领域的专有需求,其应用的显著特点是面向领域和需求,在功能实现上受范围驱动,所以不存在某个信息搜集模型通用于所有领域。本发明基于指定需求范围网页信息自主搜集筛选系统的功能目标和性能指标要求,结合工作流程、用户体验和个人习惯,并综合考虑系统运行和采用现实环境进行设计。
(一)指定需求范围网页数据智能获取
指定需求范围网页数据的自主获取是系统的起始环节,其主要工作为:从某主题网站的初始网页出发,下载并分析这个网页,获取与这个网页相链接的全部网页的URL,再把这个URL集全部加到一个有序的待搜集队列中,由搜集器顺序取出URL,获取这些URL所指向的页面,再从新的网页中解析出新的URL,如此不停的爬取,直到根据某种策略停止搜集。工作流程图如图1所示。
设计搜集程序时,注意如下问题:由于互联网上一个网页可指向多个URL,可能被多个网页中的URL所指向,这样在搜集程序遍历互联网时,某网页可能会被多次访问,因此,需要采用哈希表来记录哪些网页已经下载过,避免同一个网页被多次下载。判断一个网页的URL是否已经下载过,采用哈希表平均只需约一次的查找就可实现,如果遇到已下载的网页,搜集程序就跳过,如果没有下载过,除了要下载该网页,还需在下载完成后,把此网页的URL保存入哈希表中。
本系统搜集程序的主要是自主爬取互联网络并下载与指定需求范围相关的网页,并将这些网页经过初步处理后把结果保存到本地。其中第1步就是解析网页的HTML代码,获取其中的所有URL,再利用搜索策略开始搜集程序。
基于网页蜘蛛技术的搜索策略,在设计搜集程序时最主要的是在有限时间内尽可能多的抓取最重要的网页,各网站最重要的网页是它的首页,搜集程序应当是爬取网页的首页及首页直接链接的所有网页。从系统功能需求出发,主要是搜集主题明确的指定需求范围相关的网页,所以采用广度优先的搜索策略,从某些重点URL出发,对其进行拓展爬取PageRank排名高的主题网页,后续进行文本内容提取,并且在文本提取的同时清洗无效网页,最后剔除相似网页。
(二)清洗网页数据和提取文本
万维网上的网页信息分为两类,一类是网页的主题信息,也是网页的核心内容;另一类是与指定需求范围无关的信息,不是所需要的的信息,这些与主题没有相关性的信息为噪声信息,它们以链接文字的形式出现。噪声信息不仅对网页类别属性判别毫无作用,还给网页的筛选、聚类、提取、评级处理带来麻烦,需要对噪声网页进行清洗。
由于关注点在于那些与网页主题紧密相关的文本内容,所以清洗过程只需考虑文本内容,对图像、视频不用理会。网页清洗通过剔除掉网页中噪声干扰,仅保留网页的主题内容,极大减少后续网页分类的错误率,同时简化页面结构,也为续处理节省时间和空间开销。网页清洗通过将网页分块,来区别一个网页中的主题内容和噪声信息。本发明采用基于DOM的网页分块方法。
基于DOM的网页分块方法:HTML是web上使用最多的数据形式,通过采用一组标记来区分标题、段落各种文档特性。HTML网页的布局,用HTML语言定义一套标签树表示,构造工具为DOM树,它按照嵌套的关系将网页布局标签整理成树状结构,根据标签结果对网页内容分块。DOM树结构通过把半结构化HTML页面布局转化为结构化DOM树结构,更好的理解和实现网页清洗、信息提取分析工作。
1.DOM
DOM万维网联盟制定的独立于具体编程语言的应用程序接口和平台,允许程序或者宏文件动态地访问HTML/XML。DOM通过把HTML/XML文本解析为树状的数据结构,进行访问和操作,可以把文档中的字、段落和标题看作树结点来描述和访问,这种结构化的DOM树比非结构化的Web页面更易于访问和操作。
2.DOM树型结构设计
HTML文件由标题、头部、段落、超链接组件构成的数据集合,文件管理以基于数据的形式,各种组件在文件的位置和显示顺序一致。文件树型逻辑结构是DOM通过对HTML的再解释,生成的HTML文件的树形内部结构,每个组件不仅代表数据本身,还包含属性和方法,DOM对文件树形逻辑结构进行解释时,将<HTML>看作树的根,将其他组件看作树的结点。其中,结点看作是包含其他结点的父结点,也视为包含于父结点的子结点,同级结点为兄弟结点,在DOM逻辑结构中,文档标签被解析成DOM树的内部结点,而文本、超链接组件被解析成叶结点,通过DOM定义的应用程序接口,建立、修改和删除HTML文档的结构、元素和内容。
(三)提取文本特征
将网页提取的文本表现为计算机可处理的形式,这种转化过程为文本特征提取,本发明利用分词算法实现,算法设计如下:
1.词典的内存格式
采用分层保存的形式,形成三层树型结构,每一个字母代表一个字,第一层保存所有单字。第二层保存所有的双字词,由于存在“KFC为词,但KF不是词”的情况,所以第二层也保存了多字词的前两个字,并对二者做不同标记,第三层保存以某一双字开头的所有词。采用这种层次的保存结构,极大的缩小了查询词的范围,提高了分词的效率。
2.文本切分算法描述
假设对一个句子HIJKLMN……进行分词处理,处理流程为:
第一步,首先取前两个字(此处为HI),在词典中查找HI是否存在;
第二步,如果HI不存在,判H为单字词,分词结束,保存结果并返回第一步;
第三步,如果HI存在,判断HI是否为词,同时从词典中查找HI在下一层中字的最大长度,设为m;
第四步,如果m=0,则HI为词,本次分词结束,保存结果并返回第一步;
第五步,否则,设i=0;
第六步,i=i+1,若i=n+1,转第八步,否则,转第七步;
第七步,往后再取一个字,如J,判断在第三层中是否存在以JK…开始的字;
第八步,如果不存在,则分词结束,返回最近一次能够恰好匹配的CD…,并与AB组合成词;若为HI,则凭HI标记分析是双字词或者为两个单字词;
第九步,否则,转第六步。
3.歧义词的处理
一个词划分成功后,对该词进行歧义检查,如果出现歧义,则必须进行处理,描述如下(算法继续):
步骤一,设已划分出一词HIJK;
步骤二,查找以K为开头的词;
步骤三,若K与后面的字构成词(假设为KLM),则标记K;
步骤四,采用类似第3步的方法,继续对M进行处理,直到找到无歧义的词为止;
步骤五,假定M与其后的字不构成词,依据歧义处理方法,则断定KLM为词;
步骤六,重新判断HIJ是否成词,若是,则HIJ为一词,歧义处理结束;
步骤七,否则,判断HI是否成词,若是,则HI为一词,J单独为一词,歧义处理结束;
步骤八,否则,判断H、I、J分别单独为词(即让H尽可能最长匹配),歧义处理结束。
4.网页文档专用词的统计方法
本发明针对一篇网页文档专用词的统计方法为:设HIJKLMN为句子,假设通过切分算法和歧义处理判定HI为一个双字词,LMN为一个三字词,J和K为单字词,则把两个邻近的多字词HI和LMN之间的J和K,先假定为一个双字词JK统计其词频,如果在切分全文后,JK的出现次数达到某个临界值,就把它看作一个词,否则拆分为单字词;如果HI和EFG之间的单字词个数不止两个,为简化算法,将这些单字词合在一起进行统计。
(四)网页数据保存
在万维网网页上抓取到符合条件的网页后,先把网页信息保存到数据库之中,方便下一步进行的数据处理。
网页信息的保存结构为:网页ID,网页的记录ID;网页URL,网页的URL地址;网站名称,网页来源网站的名称;网站URL,网页来源网站的URL地址;抓取时间,网页获取的时间;网页内容,数据库中存储的页面内容。
经网页采集、网页清洗和文本分类处理流程,采集到的指定需求范围网页的各类文档,在存储时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期。
经网页搜集、网页清洗和文本分类处理流程,搜集到的指定需求范围相关的各类文档,在保存时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期。
(五)网页数据筛选
现实环境下的网页信息量非常大,特定用户关注的仅有指定领域范围类型一小部分数据,如果不加区分的自主获取所有网页,则可能将有价值的数据淹没在庞大的无关数据中,严重影响网页监测的实效性。
本发明采用文本分类的方法滤除无效网页数据,所用的语料来源于日常有选择的收集,原理是比较网页与语料的相关性,提取文本特征向量,计算两个对象向量的夹角,当两个向量的夹角越小,说明两者相关性越大。文本相关性的计算转化成进行特征向量夹角的计算,当两者的夹角小于临界值时,认为该网页从属于无效或者其他类型的网页,即可滤除无效的网页数据。考虑到网络抓取的网页数据复杂多样,与文本数据库中的文档相比,能够获取的辅助分类信息不多,因此直接得到指定需求范围类别的难度较大,而且每一个小类变化较快,不同时期关注的事件不同,用人工的方法去建立每一个分类的特征向量的工作量非常大且不易做到准确。
对此,本发明采用采用自下向上不断合并的筛选办法,其基本方法是:一是计算所有网页数据两两之间的特征向量相似性,把相似性大于某个临界值的事件合成一个小类;二是把每个指定需求范围类别采用小类的所有网页数据看作一个整体,计算小类的特征向量,并计算各小类之间的两两相似性,然后合并成大一点的小类;三是最终根据指定需求范围类别的通用定义,把所有事件合并成若干个小类。
(六)筛选数据输出
数据输出是数据筛选的后续工作,是将筛选并存入数据库中的数据加工处理后,以结构化的方式提供给用户,也可以根据用户的需求,提供报表图表统计功能,还可以对数据进行关联分析,挖掘各个规则间的模式和关系,最大程度的利用得到的数据。
二、指定需求范围的网页信息自主搜集筛选系统的实现
(一)系统总体设计
指定需求范围的网页信息自主搜集筛选系统以及时、高效的从万维网网页上自主搜集与指定需求范围相关的信息,并对搜集获取的主题网页信息进行无效数据清洗、有效信息提取、网页分类处理并存入数据库中,提供进一步信息检索采用。系统逻辑结构如图2所示:
(二)系统核心结构
指定需求范围的网页信息自主搜集筛选系统由三个分系统构成,分别为:网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统。各分系统根据用户需求和系统设计,分别实现不同的功能。网页信息自主搜集分系统主要是搜索并保存指定需求范围相关的互联网信息,监测网页上指定范围事件发生、发展的最新动态,确保系统使用人员能够及时、完整的掌控所关注的内容;网页数据自主分类分系统主要是利用中文分词、信息提取、文本分类技术,对网页信息自主搜集分系统获取的与主题内容相关的网页数据进行自主分类处理;信息检索输出分系统主要是实现站内信息的关联分析、内容检索和数据输出显示的功能。功能模块如图3所示。
(三)系统工作流程原理
流程一:网页信息自主搜集分系统搜集URL、下载网页并清洗网页;
流程二:网页数据自主分类分系统负责将系统搜集到有效网页进行中文分词、特征项提取、文本分类,并滤除无效信息;
流程三:信息检索输出分系统进行站内信息的关联挖掘、检索和结果输出。
系统的工作流程如图4所示。
(四)网页信息自主搜集分系统
从初始URL出发,由搜集器按照事先制定的策略,从互联网网页上搜集与指定需求范围相关的页面信息,再对搜集到的页面进行分块、清洗过程后,最终结果存入页面文件库。
网页搜集器包括控制模块和抓取模块两部分,主要由网页蜘蛛实现。其中,控制模块主要是依据策略对URL进行排序,解析网页内容,并将获得的URL存入抓取队列。抓取模块是在控制模块的引导下,从万维网上抓取页面,再返供控制模块处理。在抓取模块和控制模块的协同下,网页搜集器实现从互联网上自主搜集网页的功能。
在初始URL的选择上,系统根据自身需求定制初始URL,首先确定指定需求监测范围,依据反映信息的有效程度设定需要关注网页优先级,根据监测的实际业务需求,将需要关注的网页划分为重点和普遍两类,其中,重点网页的优先级高于普通网页。其次要把搜集到的重点网页和普通网页的入口作为系统的初始URL集,初始URL集的选择质量,对后续的网页信息搜集工作的效率产生较大影响,特别是对网页信息搜集的准确率的影响更为关键。
网页前置处理是网络信息搜集中的重要环节,如果前置处理工作效率高,会显著提高搜集的数据质量,为后续的处理工作节省大量的系统资源开销,信息搜集过程会更加便捷,形成的搜集模式和规则也就更加适用和高效,最终得到的结果也越合理。网页前置处理的基本思路是:将网页划分成多个不同的块,分析每个块的重要程度,作为网页清洗流程的依据。
在网页清洗流程设计方面,本发明采用HTML Parser解析器将HTML页面布局标签变换成DOM的树形逻辑结构,而后通过深度优先遍历和网页清洗,得到保留原页面格式的结果。
其核心算法描述为:
1.抓取算法
本发明采用广度优先的抓取策略,在网页抓取时尽可能去爬取与指定需求范围事件关联性较强的门户网页,采用单线程抓取算法,搜集程序设计相对容易。图5为抓取算法流程图:
2.URL过滤算法
本发明在网页搜集技术上,针对商业网页链接信息泛滥的问题,增加URL过滤过程,通过URL过滤完善链接的准度和精度,基本思路为:一是在抓取URL时记录下与之对应的链接文本,同时过滤掉与主题无关的URL;二是通过设定的网页链接数据临界值,过滤掉URL数量大于临界值索引型网页;三是一般网页URL的长度小于等于300个字符,因此过滤掉大于300字符长的URL;四是根据本发明的应用场景,过滤掉后缀名不为htm、html、shtml的URL。
3.页面清洗算法
本发明页面清洗算法的基本流程为:HTML Parser解析器先将万维网页面转化成DOM树结构,而后由根结点开始,通过深度优先遍历结合采用页面清洗算法逐次清洗。网页清洗算法流程图如图6所示。
(五)网页数据自主分类分系统
网页数据自主分类分系统通过采用中文分词、信息提取、文本分类技术,对网页信息自主搜集分系统获取的与主题内容相关的网页数据,采用类中心向量算法进行自主分类处理,实现无效信息滤除、有效信息归类功能。
1.功能模块
网页数据自主分类分系统主要包括训练文档维护模块、前置处理模块、特征提取模块、文本分类模块和反馈调整模块。示意图如图7所示。
训练文档维护模块:用于创建、维护和撤销训练文档类别,检索、增加、修改、查阅、删除训练文档集的内容,训练文档集的保存按照类别的不同,存入树形结构的不同的目录中。
前置处理模块:用于实现中文分词处理和HTML文件解析,其中,中文分词处理主要通过采用词典对训练文本进行词条切分,HTML文件解析将HTML格式的网页转换成为文本格式。
特征提取模块:用于特征向量表中词条的选取以及其权值的设定,通过训练文档的词频统计分布规律分析,建立代表文本类的特征向量表。
文本分类模块:用于将待分类网页分配到对应的类别,其功能实现主要利用由不同算法设计的分类器。
反馈调整模块:是临界值调整过程,利用已完成属性分类的文本进行测试,不断调整临界值,以最终达到符合技术指标要求的结果。
2.工作流程
网页数据自主分类分系统的工作流程主要包括训练过程和分类过程,如图8所示,在训练过程中,主要是对训练文档集进行中文分词处理、HTML文件解析和特征项提取,形成标识文档集类别的特征向量;在分类过程中,以训练过程中得到的各类别文档集特征向量为参考对象,计算待分类网页经过HTML解析以及中文分词形成的向量与各类别训练文档集特征向量的距离,选择距离大于某临界值的类别作为分类结果。
3.主要算法
(1)文本前置处理:训练文本集的前置处理过程如图9所示,文本前置处理主要包括剔除停用词、文本分词、统计参数过程,其中,文本分词的分类器构造流程如图10所示。
(2)分类过程:本发明分类过程步骤为:
第1步:对需判断类别属性的新文本进行HTML文件解析、中文分词、特征项提取,将文本表示为特征向量;
第2步:计算第1步得到的特征向量与训练文档集每个类别向量的距离,得到相似度最大的候选类别列表;
第3步:基于训练得到的每个类别的临界值,将第2步的结果与之比较,保留大于某个临界值的属性类别作为分类结果。
三、实验分析
(一)实验过程
评价标准采用召回率与精确率,实验过程是先对网页进行文本的特征提取,特征提取过程中首先对分词结果滤除停用词,对滤除停用词后的分词结果,以词频作为权重,经TF*IDF修正后,构造为一个矢量模型,以矢量模型表述网页特性,计算两个矢量模型的相关性得到两个网页的相关性,其中,矢量模型的交叉熵IDF是根据复旦大学的分类语料库所有文本计算得出的逆文本频率指数,对一篇网页文本,首先比照语料库有价值类别中每篇文档计算矢量向量夹角的余弦,并求取它们的平均值,矢量夹角的余弦值接近于1时,两篇文档相似,从而可归为一类,接近于0时,两篇文档不相关,当这个向量夹角余弦平均值大于一定的K值,则认为其属于与主题相关的有效类型,需要进入后续处理,对小于K值的网页,则比照语料库中无效类别中的每篇文档,同样进行相关性计算并求平均值,对于大于K值的网页即可认为是无效网页,予以丢弃。实验所用的语料库中包含无效类别文档共950篇,有价值类别文档共950篇。
(二)实验结果
本组实验根据特征向量矢量夹角的余弦值的不同分三组进行,夹角余弦平均数临界值,分别取0.25、0.50、0.75。从实验结果可以看出,当夹角余弦平均数的临界值越大时,文本分类的准确性就越好,越能够找到有效的文本,但是查全性会受到影响,会漏掉一些与主题相关的文本。
本发明通过基于网页信息收集以及检索的理论与实践,为互联网上指定需求范围的自主搜集筛选设计解决方案,系统的设计与实现方面的工作主要包括:一是针对网页数据自主搜集筛选的工作需求,策划了一个符合互联网指定需求范围监测业务特点的系统解决方案;二是对网络指定需求范围信息自主搜集筛选的各个关键技术进行了研发和实现,并对一些关键技术进行了改进和优化,使系统更加符合相关部门指定需求范围监测业务实际需求;三是对万维网网页信息自主搜集筛选系统测试和性能指标评价,通过对测试结论的分析,验证了系统的实用可靠性,达到了预期的效果,证明本发明网页信息自主搜集筛选系统具有很高的实用价值,对实施指定需求范围网络监测工作具有较好的参考价值。

Claims (10)

1.指定需求范围的网页信息自主搜集筛选系统,其特征在于,系统设计主要包括:一是指定需求范围网页数据智能获取,二是清洗网页数据和提取文本,三是提取文本特征,四是网页数据保存,五是网页数据筛选,六是筛选数据输出;本发明采用广度优先的网页抓取方式,依据某些重点url,对其进行拓展获取,并在后续工作中分析提取其文本内容,在提取文本内容的同时采用基于DOM分块方法对网页进行分块,在此基础上对噪声网页数据进行清洗,最后对所获取的网页通过HTML结构化解析和中文分词处理,表示成特征向量,应用文本分类算法分别计算其与训练语料库中向量类别的相似性,保留大于临界值的类别,滤除无效网页数据;
指定需求范围的网页信息自主搜集筛选系统由三个分系统构成,分别为:网页信息自主搜集分系统、网页数据自主分类分系统、信息检索输出分系统,各分系统根据用户需求和系统设计,分别有不同的分工;网页信息自主搜集分系统主要完成主题网页的搜索、下载和清洗工作,搜索并保存指定需求范围相关的互联网信息,监测网页上指定范围事件发生、发展的最新动态,使系统使用人员能够及时、完整的掌控所关注的内容;网页数据自主分类分系统将网页信息自主搜集分系统处理后的与主题内容相关的网页数据,利用中文分词、信息提取、文本分类方法进行自主分类处理,并滤除无效网页;信息检索输出分系统主要是实现站内信息的关联分析、内容检索和数据输出显示;
指定需求范围的网页信息自主搜集筛选系统工作流程原理为:
流程一:网页信息自主搜集分系统搜集URL、下载网页并清洗网页;
流程二:网页数据自主分类分系统负责将系统搜集到有效网页进行中文分词、特征项提取、文本分类,并滤除无效信息;
流程三:信息检索输出分系统进行站内信息的关联挖掘、检索和结果输出;
网页数据自主分类分系统主要算法包括:一是文本前置处理:文本前置处理主要包括剔除停用词、文本分词、统计参数过程;二是分类过程,分类过程步骤为:
第1步:对需判断类别属性的新文本进行HTML文件解析、中文分词、特征项提取,将文本表示为特征向量;
第2步:计算第1步得到的特征向量与训练文档集每个类别向量的距离,得到相似度最大的候选类别列表;
第3步:基于训练得到的每个类别的临界值,将第2步的结果与之比较,保留大于某个临界值的属性类别作为分类结果。
2.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,指定需求范围网页数据的智能获取是系统的起始环节,其主要工作为:从某主题网站的初始网页出发,下载并分析这个网页,获取与这个网页相链接的全部网页的URL,再把这个URL集全部加到一个有序的待搜集队列中,由搜集器顺序取出URL,获取这些URL所指向的页面,再从新的网页中解析出新的URL,如此不停的爬取,直到根据某种策略停止搜集;
设计搜集程序时,需要采用哈希表来记录哪些网页已经下载过,避免同一个网页被多次下载;判断一个网页的URL是否已经下载过,采用哈希表平均只需约一次的查找就可实现,如果遇到已下载的网页,搜集程序就跳过,如果没有下载过,除了要下载该网页,还需在下载完成后,把此网页的URL保存入哈希表中;
本系统搜集程序主要是自主爬取互联网络并下载与指定需求范围相关的网页,并将这些网页经过初步处理后把结果保存到本地,其中第1步就是解析网页的HTML代码,获取其中的所有URL,再利用搜索策略开始搜集程序;
基于网页蜘蛛技术的搜索策略,在设计搜集程序时最主要的是在有限时间内尽可能多的抓取最重要的网页,各网站最重要的网页是它的首页,搜集程序应当是爬取网页的首页及首页直接链接的所有网页,从系统功能需求出发,主要是搜集主题明确的指定需求范围相关的网页,所以采用广度优先的搜索策略,从某些重点URL出发,对其进行拓展爬取PageRank排名高的主题网页,后续进行文本内容提取,并且在文本提取的同时清洗无效网页,最后剔除相似网页。
3.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,清洗网页数据和提取文本:清洗过程只需考虑文本内容,对图像、视频不用理会,网页清洗通过剔除掉网页中噪声干扰,仅保留网页的主题内容,网页清洗通过将网页分块,来区别一个网页中的主题内容和噪声信息,本发明采用基于DOM的网页分块方法。
4.根据权利要求3所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,基于DOM的网页分块方法:HTML是web上使用最多的数据形式,通过采用一组标记来区分标题、段落各种文档特性,HTML网页的布局,用HTML语言定义一套标签树表示,构造工具为DOM树,它按照嵌套的关系将网页布局标签整理成树状结构,根据标签结果对网页内容分块,DOM树结构通过把半结构化HTML页面布局转化为结构化DOM树结构,理解和实现网页清洗、信息提取分析工作;
DOM通过把HTML/XML文本解析为树状的数据结构,进行访问和操作,把文档中的字、段落和标题看作树结点来描述和访问,这种结构化的DOM树比非结构化的Web页面更易于访问和操作;
DOM树型结构设计:HTML文件由标题、头部、段落、超链接组件构成的数据集合,文件管理以基于数据的形式,各种组件在文件的位置和显示顺序一致,文件树型逻辑结构是DOM通过对HTML的再解释,生成的HTML文件的树形内部结构,每个组件不仅代表数据本身,还包含属性和方法,DOM对文件树形逻辑结构进行解释时,将<HTML>看作树的根,将其他组件看作树的结点,其中,结点看作是包含其他结点的父结点,也视为包含于父结点的子结点,同级结点为兄弟结点,在DOM逻辑结构中,文档标签被解析成DOM树的内部结点,而文本、超链接组件被解析成叶结点,通过DOM定义的应用程序接口,建立、修改和删除HTML文档的结构、元素和内容。
5.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,提取文本特征利用分词算法实现,算法设计为:
一是词典的内存格式,采用分层保存的形式,形成三层树型结构,每一个字母代表一个字,第一层保存所有单字,第二层保存所有的双字词,第三层保存以某一双字开头的所有词;
二是文本切分算法描述,假设对一个句子HIJKLMN……进行分词处理,处理流程为:
第一步,首先取前两个字,在词典中查找HI是否存在;
第二步,如果HI不存在,判H为单字词,分词结束,保存结果并返回第一步;
第三步,如果HI存在,判断HI是否为词,同时从词典中查找HI在下一层中字的最大长度,设为m;
第四步,如果m=0,则HI为词,本次分词结束,保存结果并返回第一步;
第五步,否则,设i=0;
第六步,i=i+1,若i=n+1,转第八步,否则,转第七步;
第七步,往后再取一个字,如J,判断在第三层中是否存在以JK…开始的字;
第八步,如果不存在,则分词结束,返回最近一次能够恰好匹配的CD…,并与AB组合成词;若为HI,则凭HI标记分析是双字词或者为两个单字词;
第九步,否则,转第六步;
三是歧义词的处理,描述如下:
步骤一,设已划分出一词HIJK;
步骤二,查找以K为开头的词;
步骤三,若K与后面的字构成词,则标记K;
步骤四,采用类似第3步的方法,继续对M进行处理,直到找到无歧义的词为止;
步骤五,假定M与其后的字不构成词,依据歧义处理方法,则断定KLM为词;
步骤六,重新判断HIJ是否成词,若是,则HIJ为一词,歧义处理结束;
步骤七,否则,判断HI是否成词,若是,则HI为一词,J单独为一词,歧义处理结束;
步骤八,否则,判断H、I、J分别单独为词,歧义处理结束;
四是网页文档专用词的统计方法,针对一篇网页文档专用词的统计方法为:设HIJKLMN为句子,假设通过切分算法和歧义处理判定HI为一个双字词,LMN为一个三字词,J和K为单字词,则把两个邻近的多字词HI和LMN之间的J和K,先假定为一个双字词JK统计其词频,如果在切分全文后,JK的出现次数达到某个临界值,就把它看作一个词,否则拆分为单字词;如果HI和EFG之间的单字词个数不止两个,为简化算法,将这些单字词合在一起进行统计。
6.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,在万维网网页上抓取到符合条件的网页后,先把网页信息保存到数据库之中,方便下一步进行的数据处理;
网页信息的保存结构为:网页ID,网页的记录ID;网页URL,网页的URL地址;网站名称,网页来源网站的名称;网站URL,网页来源网站的URL地址;抓取时间,网页获取的时间;网页内容,数据库中存储的页面内容;
经网页采集、网页清洗和文本分类处理流程,采集到的指定需求范围网页的各类文档,在存储时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期;
经网页搜集、网页清洗和文本分类处理流程,搜集到的指定需求范围相关的各类文档,在保存时除了要包括原有文档信息外,还要有类别信息、分类属性、时间、地点、关键人物、事件分期。
7.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,本发明采用文本分类的方法滤除无效网页数据,所用的语料来源于日常有选择的收集,原理是比较网页与语料的相关性,提取文本特征向量,计算两个对象向量的夹角,当两个向量的夹角越小,说明两者相关性越大;文本相关性的计算转化成进行特征向量夹角的计算,当两者的夹角小于临界值时,认为该网页从属于无效或者其他类型的网页,即可滤除无效的网页数据;
本发明采用采用自下向上不断合并的筛选办法,其基本方法是:一是计算所有网页数据两两之间的特征向量相似性,把相似性大于某个临界值的事件合成一个小类;二是把每个指定需求范围类别采用小类的所有网页数据看作一个整体,计算小类的特征向量,并计算各小类之间的两两相似性,然后合并成大一点的小类;三是最终根据指定需求范围类别的通用定义,把所有事件合并成若干个小类。
8.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,网页信息自主搜集分系统:从初始URL出发,由搜集器按照事先制定的策略,从互联网网页上搜集与指定需求范围相关的页面信息,再对搜集到的页面进行分块、清洗过程后,最终结果存入页面文件库;
网页搜集器包括控制模块和抓取模块两部分,主要由网页蜘蛛实现,其中,控制模块主要是依据策略对URL进行排序,解析网页内容,并将获得的URL存入抓取队列,抓取模块是在控制模块的引导下,从万维网上抓取页面,再返供控制模块处理,在抓取模块和控制模块的协同下,网页搜集器实现从互联网上自主搜集网页的功能;
在初始URL的选择上,系统根据自身需求定制初始URL,首先确定指定需求监测范围,依据反映信息的有效程度设定需要关注网页优先级,根据监测的实际业务需求,将需要关注的网页划分为重点和普遍两类,其中,重点网页的优先级高于普通网页;其次要把搜集到的重点网页和普通网页的入口作为系统的初始URL集;
网页前置处理的基本思路是:将网页划分成多个不同的块,分析每个块的重要程度,作为网页清洗流程的依据;
在网页清洗流程设计方面,本发明采用HTML Parser解析器将HTML页面布局标签变换成DOM的树形逻辑结构,而后通过深度优先遍历和网页清洗,得到保留原页面格式的结果。
9.根据权利要求8所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,网页信息自主搜集分系统的核心算法描述为:
一是抓取算法,采用广度优先的抓取策略,在网页抓取时尽可能去爬取与指定需求范围事件关联性较强的门户网页,采用单线程抓取算法;
二是URL过滤算法,本发明在网页搜集技术上,增加URL过滤过程,通过URL过滤完善链接的准度和精度,基本思路为:一是在抓取URL时记录下与之对应的链接文本,同时过滤掉与主题无关的URL;二是通过设定的网页链接数据临界值,过滤掉URL数量大于临界值索引型网页;三是一般网页URL的长度小于等于300个字符,因此过滤掉大于300字符长的URL;四是根据本发明的应用场景,过滤掉后缀名不为htm、html、shtml的URL;
三是页面清洗算法,本发明页面清洗算法的基本流程为:HTML Parser解析器先将万维网页面转化成DOM树结构,而后由根结点开始,通过深度优先遍历结合采用页面清洗算法逐次清洗。
10.根据权利要求1所述的指定需求范围的网页信息自主搜集筛选系统,其特征在于,网页数据自主分类分系统通过采用中文分词、信息提取、文本分类技术,对网页信息自主搜集分系统获取的与主题内容相关的网页数据,采用类中心向量算法进行自主分类处理,实现无效信息滤除、有效信息归类功能;
网页数据自主分类分系统主要包括训练文档维护模块、前置处理模块、特征提取模块、文本分类模块和反馈调整模块:
训练文档维护模块:用于创建、维护和撤销训练文档类别,检索、增加、修改、查阅、删除训练文档集的内容,训练文档集的保存按照类别的不同,存入树形结构的不同的目录中;
前置处理模块:用于实现中文分词处理和HTML文件解析,其中,中文分词处理主要通过采用词典对训练文本进行词条切分,HTML文件解析将HTML格式的网页转换成为文本格式;
特征提取模块:用于特征向量表中词条的选取以及其权值的设定,通过训练文档的词频统计分布规律分析,建立代表文本类的特征向量表;
文本分类模块:用于将待分类网页分配到对应的类别,其功能实现主要利用由不同算法设计的分类器;
反馈调整模块:是临界值调整过程,利用已完成属性分类的文本进行测试,不断调整临界值,以最终达到符合技术指标要求的结果。
CN202011536333.8A 2020-12-22 2020-12-22 指定需求范围的网页信息自主搜集筛选系统 Withdrawn CN112597370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011536333.8A CN112597370A (zh) 2020-12-22 2020-12-22 指定需求范围的网页信息自主搜集筛选系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011536333.8A CN112597370A (zh) 2020-12-22 2020-12-22 指定需求范围的网页信息自主搜集筛选系统

Publications (1)

Publication Number Publication Date
CN112597370A true CN112597370A (zh) 2021-04-02

Family

ID=75200297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011536333.8A Withdrawn CN112597370A (zh) 2020-12-22 2020-12-22 指定需求范围的网页信息自主搜集筛选系统

Country Status (1)

Country Link
CN (1) CN112597370A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190753A (zh) * 2021-05-10 2021-07-30 北京百度网讯科技有限公司 数据采集方法和装置、电子设备、计算机可读介质
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析系统
CN103226609A (zh) * 2013-05-03 2013-07-31 福建师范大学 一种web聚焦搜索系统的搜索方法
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析系统
CN103838732A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种生活服务领域垂直搜索引擎
CN103226609A (zh) * 2013-05-03 2013-07-31 福建师范大学 一种web聚焦搜索系统的搜索方法
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190753A (zh) * 2021-05-10 2021-07-30 北京百度网讯科技有限公司 数据采集方法和装置、电子设备、计算机可读介质
CN113190753B (zh) * 2021-05-10 2024-04-23 北京百度网讯科技有限公司 数据采集方法和装置、电子设备、计算机可读介质
CN113704589A (zh) * 2021-09-03 2021-11-26 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统
CN113704589B (zh) * 2021-09-03 2023-10-13 海粟智链(青岛)科技有限公司 一种用于收集工业链数据的互联网系统

Similar Documents

Publication Publication Date Title
Diligenti et al. Focused Crawling Using Context Graphs.
Cai et al. Extracting content structure for web pages based on visual representation
JP4944405B2 (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
Farag et al. Focused crawler for events
US7516397B2 (en) Methods, apparatus and computer programs for characterizing web resources
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
JP2006048686A (ja) フレーズに基づく文書説明の生成方法
JP2006048683A (ja) 情報検索システムにおけるフレーズ識別方法
Kallipolitis et al. Semantic search in the World News domain using automatically extracted metadata files
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
Saini et al. Review on web content mining techniques
CN116775972A (zh) 基于信息技术的远端资源整理服务方法和系统
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
Boddu et al. Knowledge discovery and retrieval on World Wide Web using web structure mining
Liu et al. Clustering-based topical Web crawling using CFu-tree guided by link-context
CN114238735B (zh) 一种互联网数据智能采集方法
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
Peng et al. Clustering-based topical web crawling for topic-specific information retrieval guided by incremental classifier
Gong et al. An implementation of web image search engines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210402