CN105022827B - 一种面向领域主题的Web新闻动态聚合方法 - Google Patents
一种面向领域主题的Web新闻动态聚合方法 Download PDFInfo
- Publication number
- CN105022827B CN105022827B CN201510444109.9A CN201510444109A CN105022827B CN 105022827 B CN105022827 B CN 105022827B CN 201510444109 A CN201510444109 A CN 201510444109A CN 105022827 B CN105022827 B CN 105022827B
- Authority
- CN
- China
- Prior art keywords
- news
- web
- list
- record
- searching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 112
- 230000002776 aggregation Effects 0.000 title claims abstract description 34
- 238000004220 aggregation Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000000284 extract Substances 0.000 claims description 28
- 230000009193 crawling Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000006116 polymerization reaction Methods 0.000 description 18
- 230000011218 segmentation Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 241000270322 Lepidosauria Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 101100289061 Drosophila melanogaster lili gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和Web新闻网页识别得到新闻网页搜索记录列表;根据Web信息抽取方法,从新闻网页搜索记录列表获得结构化新闻列表;根据领域模型对结构化新闻列表进行排序,得到有序的结构化新闻列表并作为动态聚合结果返回给用户。本发明根据用户提供的领域和主题,实时获取多源相关的Web新闻集合,并根据Web新闻的受欢迎程度决定其排序的一种互动机制,其目的在于提供一种方便、高效的互联网信息的获取和共享方式。
Description
技术领域
本发明涉及网络信息处理领域,具体是一种面向领域主题的Web新闻动态聚合方法。
背景技术
由于互联网传播新闻信息上有着与生俱来的优势,Web新闻日益成为人们获取信息的主要方式。由于Web新闻信息量过于庞大,并具有变化快的特点,这使得获得领域主题相关的Web新闻变得困难,互联网用户和相关应用迫切需要一种面向领域主题的Web新闻动态聚合方法。领域是指意识形态或社会活动的范围。如:思想领域、学术领域、生活领域、科学领域。主题是指用户在表达思想、说明问题或反映社会生活时,通过关键词的集合所体现出来的基本思想和兴趣倾向。Web新闻是指互联网媒体所传播的新近发生事实的报道。动态聚合是指由用户或应用提供领域主题,实时动态获取多源相关的信息集合,并根据信息的受欢迎程度决定其排序的一种互动机制,其目的在于提供一种方便、高效的互联网信息的获取和共享方式。
目前,进行Web新闻聚合的主要方法和技术手段有搜索引擎技术和RSS(ReallySimpleSyndication)技术。
搜索引擎能够从互联网上自动收集信息,并提供查询服务,为用户提供了一种检索领域主题相关新闻的手段。然而存在以下不足:(1)Web信息覆盖率比较低。这主要是由于网页收集机制功能不够强大,尚无法实现对所有网页的信息收集。(2)信息查准率不够高。这主要与各搜索引擎所采取的索引机制、相关度评价模型以及相关度评价标准有关。(3)难以满足面向领域主题的检索需求。垂直搜索可针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。相对通用搜索引擎的信息量大、查询不准确、深度不够的服务模式,垂直搜索引擎一般都提供了比较精准或者细化的搜索服务。其特点就是“专、精、深”,且具有行业特色,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则更加专注、具体和深入。由于垂直搜索引擎本身的信息量小,它不可能取代通用搜索引擎。但是,它是对通用搜索的很好的补充。元搜索引擎是一种Web上的信息检索的软件系统,其通过将自身的查询请求转发给其它搜索引擎,再通过必要的中间处理过程,将各搜索引擎返回的结果集按一定的方案进行融合并显示给用户。从理论上讲。元搜索引擎可以解决独立搜索引擎本身几乎不可能解决的查全率低的问题,并且在个性化服务和灵活性等方面都优于独立搜索引擎。但元搜索引擎在检索原理和机制上也未解决有效满足具体用户的领域主题检索需求的问题。
另一类解决该难题的途径是以RSS技术为代表的“推”的技术。RSS是一种用于共享新闻和其他Web内容的数据交换规范。用户通过专用的RSS终端(称为新闻聚合器,Aggregation)对感兴趣的频道进行订阅,从而实现有用信息的聚合。RSS在一定程度上为用户的信息获取提供了便利,但仍存在一些不足。首先,这种基于RSS的新闻聚合,其实只是简单地将订阅的新闻放在一起,是一种简易的信息聚合技术。其次,因为订阅的新闻可以来自不同的网站,它具有一定的内容多样性,但这种多样性相对于海量Web新闻本身固有的多样性而言,有明显的局限性。另外,RSS聚合技术面向用户兴趣有一定的针对性,但这种针对性明显不足,用户需要某一特定内容的新闻时,需在聚合结果中手动查找,这仍是一项费时费力的工作。
因此,Web新闻聚合,不能是简单地将新闻放在一起。为了更好地满足各类应用系统和用户的需求,我们需要一种能聚合用户领域主题的Web新闻的方法和系统。
发明内容
本发明的目的是提供一种面向领域主题的Web新闻动态聚合方法,依托垂直搜索引擎、元搜索引擎、领域建模、信息抽取、内容排序技术,可以从海量Web新闻中为用户和应用系统提供面向领域主题的Web新闻动态聚合服务,解决了搜索引擎技术在处理Web新闻动态聚合问题时信息覆盖率低、信息查准率低、难以满足面向领域主题的检索需求的问题,以及RSS技术在处理Web新闻动态聚合问题时信息多样性不足、信息针对性不足的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种面向领域主题的Web新闻动态聚合方法,其特征在于:包括以下步骤:
(1)、用户或应用程序通过用户终端将主题信息发送给服务器;
(2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表;
(3)、服务器获取元搜索引擎的搜索结果页面;
(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;
(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表进行去重,得到去重后的搜索记录列表;
(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;
(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表;
(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表;
(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结果发送到用户终端。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(1)中,所述用户终端为手机或个人电脑,所述主题信息为关键词列表。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(2)中,垂直搜索引擎模块为:面向用户预定义的领域站点列表,对相关领域站点进行持续爬取,根据用户提供的主题,面向爬取的页面进行检索;所述搜索记录包括URL、标题、摘要信息。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(3)中,元搜索引擎为:根据元搜索引擎配置文件和用户提供的主题,生成多个通用搜索引擎的请求URL,并获取多个通用搜索引擎生成的搜索结果页面;其中元搜索引擎配置文件包括调用哪些搜索引擎及调用方法、检索时间限制、结果数量限制信息。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(4)中,搜索记录抽取方法为:通过配置搜索记录中URL、标题、摘要各要素定位所需的CSS选择器,来完成对不同搜索结果页面的抽取。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(5)中,搜索记录去重方法为:依次取出搜索记录列表中的每条搜索记录,与搜索记录列表中余下的记录依次进行比对;若当前比对的记录与取出记录的URL相同,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录标题的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录摘要的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(6)中,Web新闻网页识别方法为:收集Web网页训练数据集,将页面数据集中的每个页面标注上新闻或非新闻标签,根据网页特征提取方法和构建分类器方法,构建Web新闻网页识别器;对未知类别的网页,根据网页特征提取方法和Web新闻网页识别器,识别出是新闻网页或非新闻网页;其中网页特征提取方法能提取Web新闻网页的URL特征、结构特征和内容特征;其中构建分类器方法能针对有标签列的二维表数据构建二类分类器。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(7)中,结构化新闻包括URL、标题、发布时间、来源网站、摘要、正文信息;
结构化新闻抽取方法为:输入搜索记录,根据搜索记录中的URL获得Web页面,根据Web新闻内容抽取方法抽取Web页面的标题、发布时间、来源网站和正文,结合搜索记录中的URL和摘要信息,得到URL、标题、发布时间、来源网站、摘要、正文信息六个结构化新闻要素;其中Web新闻内容抽取方法是一种无需学习的在线内容抽取方法。
所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(8)中,指定领域的Web新闻语料为Web新闻数据集,数据集中的每篇Web新闻均为与指定领域相关的Web新闻;
领域建模方法为:提取指定领域的Web新闻语料的新闻内容,再对提取的内容进行分词处理和词频统计,剔除其中的停用词,选取前N个高频词组成N维词向量做为领域模型,其中参数N由领域建模方法预先设定;
基于领域模型的排序方法为:输入结构化新闻列表,对结构化新闻列表中的每条结构化新闻,根据领域模型中特征和结构化新闻中的正文建立新闻特征向量,计算新闻特征向量和领域特征向量的相似度,利用信息检索模型计算用户主题信息提供的关键词列表和网页的信息检索相似度;对结构化新闻列表中所有记录,以和领域模型的相似度为第一关键字,以结构化新闻记录中发布时间为第二关键字,以信息检索相似度为第三关键字,进行降序排序,得到有序的结构化新闻列表;其中信息检索模型是一种能表示Web网页、用户查询主题以及查询主题与Web网页相似度的框架。
与已有技术相比,本发明的有益效果体现在:
(1)聚合的Web新闻是指定领域内的新闻。通过Web新闻网页识别方法,使得聚合的内容是新闻;通过基于领域模型的排序方法,使得聚合的Web新闻具有较好的领域领域相关性。
(2)聚合的Web新闻符合用户指定的主题。服务器将用户指定的主题发送给垂直搜索引擎和元搜索引擎,垂直搜索引擎和元搜索引擎返回的搜索结果均符合用户指定的主题,聚合的Web新闻是垂直搜索引擎和元搜索引擎返回的搜索结果的Web新闻子集,因此,聚合的Web新闻符合用户指定的主题。
(3)信息来源有较高的多样性。通过垂直搜索引擎,采集指定领域的网页;通过元搜索引擎,采集多个通用搜索引擎的搜索的网页;垂直搜索引擎和多个通用搜索引擎采集互为补充,是的信息来源具有较高的多样性。
(4)聚合的信息有较好的纯净性,消除了广告等噪音信息。通过使用结构化新闻抽取方法,提取Web页面的标题、发布时间、来源网站和正文信息,从而过滤了网页中的广告、导航等噪音信息,使得聚合的信息有较好的纯净性。
(5)聚合的信息有较好的结构化特征,方便用户和相关应用系统做进一步处理。聚合方法反馈的每条结果包括URL、标题、发布时间、来源网站、摘要和正文六个要素,具有较好的结构化特征。
本发明适用于Web新闻检索,尤其适用于Web新闻聚合领域,可将Web新闻聚合聚焦到指定的领域;采用个人电脑、手机等设备作为用户终端,可以随时随地进行Web新闻聚合,检索指定领域的Web新闻,不受时间与地域限制;该系统对用户终端的硬件要求较低,降低用户进行Web新闻聚合的成本;该系统不要求用户具备垂直搜索引擎、元搜索引擎、Web新闻识别与抽取、网页排序等计算机专业的知识与技能,就能获得有较好用户体验、多样内容、相关性更强的Web新闻聚合服务。
附图说明
图1为本发明一种面向领域主题的Web新闻动态聚合方法的流程图。
具体实施方式
一种面向领域主题的Web新闻动态聚合方法,包括以下步骤:
(1)、用户或应用程序通过用户终端将主题信息发送给服务器;
(2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表;
(3)、服务器获取元搜索引擎的搜索结果页面;
(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;
(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表进行去重,得到去重后的搜索记录列表;
(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;
(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表;
(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表;
(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结果发送到用户终端。
步骤(1)中,用户终端为手机或个人电脑,主题信息为关键词列表。
步骤(2)中,垂直搜索引擎模块为:面向用户预定义的领域站点列表,对相关领域站点进行持续爬取,根据用户提供的主题,面向爬取的页面进行检索;所述搜索记录包括URL、标题、摘要信息。
步骤(3)中,元搜索引擎为:根据元搜索引擎配置文件和用户提供的主题,生成多个通用搜索引擎的请求URL,并获取多个通用搜索引擎生成的搜索结果页面;其中元搜索引擎配置文件包括调用哪些搜索引擎及调用方法、检索时间限制、结果数量限制信息。
步骤(4)中,搜索记录抽取方法为:通过配置搜索记录中URL、标题、摘要各要素定位所需的CSS选择器,来完成对不同搜索结果页面的抽取。
步骤(5)中,搜索记录去重方法为:依次取出搜索记录列表中的每条搜索记录,与搜索记录列表中余下的记录依次进行比对;若当前比对的记录与取出记录的URL相同,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录标题的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录摘要的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录。
步骤(6)中,Web新闻网页识别方法为:收集Web网页训练数据集,将页面数据集中的每个页面标注上新闻或非新闻标签,根据网页特征提取方法和构建分类器方法,构建Web新闻网页识别器;对未知类别的网页,根据网页特征提取方法和Web新闻网页识别器,识别出是新闻网页或非新闻网页;其中网页特征提取方法能提取Web新闻网页的URL特征、结构特征和内容特征;其中构建分类器方法能针对有标签列的二维表数据构建二类分类器。
步骤(7)中,结构化新闻包括URL、标题、发布时间、来源网站、摘要、正文信息;
结构化新闻抽取方法为:输入搜索记录,根据搜索记录中的URL获得Web页面,根据Web新闻内容抽取方法抽取Web页面的标题、发布时间、来源网站和正文,结合搜索记录中的URL和摘要信息,得到URL、标题、发布时间、来源网站、摘要、正文信息六个结构化新闻要素;其中Web新闻内容抽取方法是一种无需学习的在线内容抽取方法。
步骤(8)中,指定领域的Web新闻语料为Web新闻数据集,数据集中的每篇Web新闻均为与指定领域相关的Web新闻;
领域建模方法为:提取指定领域的Web新闻语料的新闻内容,再对提取的内容进行分词处理和词频统计,剔除其中的停用词,选取前N个高频词组成N维词向量做为领域模型,其中参数N由领域建模方法预先设定;
基于领域模型的排序方法为:输入结构化新闻列表,对结构化新闻列表中的每条结构化新闻,根据领域模型中特征和结构化新闻中的正文建立新闻特征向量,计算新闻特征向量和领域特征向量的相似度,利用信息检索模型计算用户主题信息提供的关键词列表和网页的信息检索相似度;对结构化新闻列表中所有记录,以和领域模型的相似度为第一关键字,以结构化新闻记录中发布时间为第二关键字,以信息检索相似度为第三关键字,进行降序排序,得到有序的结构化新闻列表;其中信息检索模型是一种能表示Web网页、用户查询主题以及查询主题与Web网页相似度的框架。
具体实施例:
本实施例指定领域为“学术领域”,为描述方便起见,取垂直搜索引擎、元搜索引擎中的每个通用搜索引擎的搜索结果的前3条。
(1)如图1的S101所示,一名用户以手机作为用户终端,通过手机以“大数据数据挖掘”为主题,通过浏览器HTTP协议提交到服务器端。
(2)如图1的S102所示,服务器接收用户终端提交的“大数据数据挖掘”主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表。
垂直搜索引擎采用定时器和增量式爬虫来采集数据。将75所教育部部属高校的新闻网站首页作为种子,放入增量式爬虫。利用定时器控制,按照一定的周期,对这些网站进行周期性的增量式爬取。爬取的网页一方面持久化到文件系统,另一方面提交到搜索服务器进行索引。对于搜索服务器需要选择一个中文分词器,并为中文分词器配置合适的词典。对于词典,配置停用词词典。并将相关领域的专有名词加入普通词典,以取得更好的搜索效果。向搜索服务器的WebService发送格式化的搜索请求,获得根据TF-IDF值的相关值进行排序的结构化的搜索结果。搜索结果如表1所示。
表1垂直搜索引擎的搜索记录列表
(3)如图1的S103所示,服务器根据用户终端提交的“大数据数据挖掘”主题信息,获取元搜索引擎的搜索结果页面。元搜索引擎使用字符串拼接来将主题信息中的关键词列表转换为每个通用搜索引擎的HTTP请求。选择必应、有道、搜狗作为元搜索引擎的通用搜索引擎,这些通用搜索引擎的搜索入口都是按照下面的模式生成的:基础URL+关键字参数名+关键字参数+页号参数名+页号参数。例如:根据用户终端提交的“大数据数据挖掘”主题信息,元搜索引擎可生成搜狗搜索引擎的搜索请求字符串“http://www.sogou.com/web?query=大数据+数据挖掘&page=1”。元搜索引擎将每个通用搜索引擎的基础URL、关键字参数名、页号参数名格式化地存储在元搜索引擎配置文件中,根据主题信息中的关键词列表生成多个通用搜索引擎的对应HTTP请求,利用多线程获取这些HTTP请求。每个通用搜索引擎的检索时间限制以及结果数量限制也存储在元搜索引擎的配置文件中。由于通用搜索引擎的响应时间不稳定,所以需要对整个请求设定两个时间上限,一个最小时间上限,一个最大时间上限。如果请求超过最小时间上限,且有HTTP响应,则返回现有的HTTP响应,如果超过最小时间上限,没有HTTP响应,则一直请求,直到超过最大时间上限或有响应为止。这些HTTP请求的响应为通用搜索引擎搜索结果页面的源码,即HTML源码集合。HTML源码集合作为面向通用搜索引擎的搜索结果。元搜索引擎的搜索结果页面如表2所示。
表2元搜索引擎的搜索结果页面
(4)如图1的S104所示,服务器获取搜索记录列表。根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表。
将搜索结果页面集合,通过网页抽取的方法,转化为结构化的搜索结果。搜索结果的每个页面,包含一个搜索结果列表,列表的每一项包含网页的标题、描述和链接。对每个搜索结果页面,先提取搜索结果列表。然后对搜索结果列表的每一项,提取网页的标题、摘要和链接。搜索结果列表的定位,和网页URL、标题、摘要的定位,都是通过CSS选择器来一次性完成的。将每个通用搜索引擎搜索结果抽取所用到的CSS选择器都放在抽取规则配置文件中。
例如:抽取“必应”搜索记录的配置文件如下:
配置文件分别给出了三个CSS选择器:搜索记录容器选择器item_selector,标题元素选择器title_selector和描述元素选择器desc_selector,解析器利用CSS解析器规则找到网页中所有满足item_selector的元素,每个元素分别是一条搜索记录的容器,其中包括了搜索记录的各个要素。在每个item_selector对应的元素中,分别利用title_selector和desc_selector获取标题和描述对应的元素。标题元素为超链接,抽取其href属性可以获得搜索记录中的URL信息,抽取其文本则是搜索记录的标题。抽取描述元素的文本则为搜索记录的摘要。所有搜索记录列表如表3所示。
表3所有搜索记录列表
(5)如图1的S105所示,服务器获取去重的搜索记录列表。依次取出搜索记录列表中的每条搜索记录,与搜索记录列表中余下的记录依次进行比对。若当前比对的记录与取出记录的URL相同,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录标题的杰卡德距离超过0.7,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录摘要的杰卡德距离超过设0.7,则从搜索记录列表中移除当前记录。杰卡德距离计算方法如下:输入两个待计算杰卡德距离的字符串,将每个字符串分词为单词集合,获得两个单词集合,两个集合交集的元素个数除以并集的元素个数即为杰卡德距离。去重后的搜索记录列表如表4所示。
表4去重后的搜索记录列表
(6)如图1的S106所示,服务器获取新闻网页搜索记录列表。根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表。
收集Web网页训练数据集,将页面数据集中的每个页面标注上“新闻”或“非新闻”标签。提取Web新闻网页的URL特征、结构特征和内容特征。URL特征包括(每种情形是否出现作为一个特征):倾向识别为新闻网页的特征:URL中包括时间信息、二级域名中是否包括news、URL一级目录中是否包括news、article、newshtml、newscenter;倾向识别为非新闻网页的特征:URL中包括index、bbs、blog、video,以“/”结尾的URL。结构特征包括(每种情形是否出现作为一个特征):网页中是否有<H1>节点、<H2>节点、<title>中是否包含“新闻”、<div>节点中是否包含时间特征。内容特征包括(每种情形是否出现作为一个特征):内容中是否出现以下关键词:“新闻中心”、“正文”、“报导”、“记者”或“作者”、“本报讯”、“责任编辑”或“责编”、“来源”或“本文来源”、“相关报导”或“相关专题”或“相关链接”或“相关新闻”、“热点新闻”或“热评榜”或“热点评论”、“新闻论坛”或“新闻搜索”或“新闻订阅”或“新闻排行”或“手机看新闻”、HTML页面中出现“新闻”次数。类别特征:页面的“新闻”或“非新闻”标签。
根据网页特征提取方法将收集的网页数据集变换为一个带类标签的特征向量数据集,使用贝叶斯分类方法,构建Web新闻网页识别器。对未知类别的网页,根据网页特征提取方法和Web新闻网页识别器,识别出是“新闻”网页或“非新闻”网页。
网页特征提取方法参照文献[胡学钢,朱珠,吴共庆.新闻网页自动识别的相关特征研究.广西师范大学学报:自然科学版,2008,26(3):141-146]
新闻网页搜索记录列表如表5所示。
表5新闻网页搜索记录列表
(7)如图1的S107所示,服务器获取结构化新闻列表。根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表。
给定Web新闻网页的URL地址,结构化新闻抽取方法的任务是抽取Web新闻的六个结构化元素Web新闻网页URL、Web新闻网页标题、Web新闻网页发布时间、Web新闻网页来源网站、Web新闻网页摘要、Web新闻网页正文。用一个key-value对象pathMap:<标签路径,<出现频次,字数>>,来存储标签路径的频次和文本字数信息。key表示标签路径,value表示整个网页中标签路径对应节点的出现频次和字数总和。将pathMap置为空。将网页源码转换为DOM树,先序遍历DOM树。遇到DOM树的叶子节点node,则计算节点的标签路径path。如果pathMap中没有key为path的元素,则将<path,<1,node.text.length>>插入pathMap,其中node.text.length表示节点中文本的字数。如果pathMap中有key为path的对象<path,<count,length>>(path为标签路径,count为path的出现频次,length为path路径上文本节点的文本字数),则将其更新为<path,<count+1,length+node.text.length>>。遍历完成后。需要重新遍历一次DOM树,计算标签路径比直方图。标签路径比直方图H为一个数组,数组的每个元素为[节点,内容标签路径比],表示为<nodes[i],CPR>,nodes[i]是先序遍历DOM树得到叶节点序列的第i个节点。对每个叶子节点nodes[i],通过其标签路径path,在pathMap中找到对应的value,即<标签路径,<出现频次,字数>>。计算内容标签路径比CPR=字数/出现频次。将<nodes[i],CPR>插入标签路径比直方图。在遍历DOM树计算内容标签路径比时,我们忽略那些内容为空的文本节点。
Web新闻标题抽取:标题抽取的输入是内容标签路径比直方图H,输出是Web新闻标题。标题抽取的输出是二元组:<标题文本,标题在直方图中的序号>,表示为<nodes[i].text,i>。顺序扫描标签路径比直方图对应的节点nodes[i],遇到<H1>标签,则认为<H1>内部对应的文本为Web新闻标题及其在H上的索引,算法结束。输出节点的文本以及序号<nodes[i].text,i>。如果没有遇到<H1>标签,找出其中的<Title>标签,将其对应的文本为Web新闻标题的候选。之所以是候选标题,原因在于,<Title>标签是被用来定义在HTML的Head标签内页面文档的标题,而不是新闻区域内的视觉标题。是如果存在Web新闻标题的候选,重新扫描内容标签路径比直方图H中的节点,计算每个节点nodes[i]对应文本和候选Web新闻标题直接的字符串编辑距离,将距离最小的节点的文本,作为Web新闻标题信息输出。同时将节点在直方图中的序号作为输出:<nodes[i].text,i>。如果前面几步都没有抽取到标题,则返回<null,-1>。
Web新闻正文抽取:输入内容标签路径比直方图H、阈值参数λ,输出是网页内容。根据直方图H的标准差σ(H)设置阈值τ为λσ(H),λ为参数,λ越大,抽取精度越高、召回率越低,λ越小,抽取精度越低、召回率越高,在实际应用中可设置λ为1;逐个判断直方图H的每个对象的CPR值,如果该对象的CPR值不小于阈值τ,则抽取该对象node域引用的解析树节点的内容。最后,输出抽取的内容。
Web新闻发布时间提取:输入为内容标签路径比直方图H、阈值参数λ,输出是Web新闻发布时间。该步骤需在新闻标题抽取后使用,如果抽取到了新闻的标题<nodes[i].text,i>,依次遍历Web新闻标题对象后的5个直方图对象,判断相应的文本中是否出现时间信息,如果有,抽取第一次出现的时间信息做为Web信息发布时间。如果标题抽取结果为<null,-1>,说明没有找到Web新闻标题,此时,依次遍历直方图对象,判断相应的文本中是否出现时间信息,如果有,抽取第一次出现的时间信息做为Web信息发布时间。
Web新闻网页超链接和来源网站的提取:Web新闻网页超链接即为Web新闻网页的URL地址,Web新闻网页来源网站为URL地址中的域名部分。
计算内容标签路径比特征和Web新闻正文抽取过程参考文献[GongqingWu(吴共庆),LiLi,XuegangHu,XindongWu,WebNewsExtractionviaPathRatios,In:Proceedingsofthe22ndACMInternationalConferenceonInformationandKnowledgeManagement(CIKM2013),October27th-November1st,2013,SanFranciscoAirportMarriottWaterfront,Burlingame,CA,USA,pp.2059-2068.]
结合搜索记录中的摘要,可以得到结构化新闻的六个元素:标题、发布时间、URL、来源网站、摘要、正文信息。结构化新闻列表如表6所示。
表6结构化新闻列表
(8)如图1的S108所示,服务器获取有序的结构化新闻列表。根据指定领域的Web新闻语料和领域建模方法,建立领域模型。根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表。
建立领域模型:领域模型的表示形式是关键词向量的形式。收集大量领域相关网页,提取网页内容文本,对其做中文分词。对分词结果进行词频统计,并且剔除掉其中的停用词。停用词指的是类似“的”,“啊”等等这种常见的无意义的词,使用了一个停止词列表,将分词结果中的停止词剔除。词频tf平滑公式如下:Smoothing(tf)=1+log(tf),Smoothing为平滑函数,使用对数是为了避免词频差距太大而造成贡献值的差距过大,另外数字1是为了提供一种平滑机制,避免出现了一次的词被过滤掉。领域模型容量较小,一般维度大概在300维左右,存储载体可以选择数据库,XML文件,文本文件等。在网页排序算法中需要频繁的利用领域模型进行计算,因此将主题词典在系统运行时装入内存,I/O读取效率会更高。
基于领域特征的排序模块:输入结构化新闻列表,对结构化新闻列表中的每条结构化新闻,根据领域模型中特征和结构化新闻中的正文建立新闻特征向量,计算新闻特征向量和领域特征向量的相似度,利用BM25模型计算用户主题信息提供的关键词列表和网页的BM25相似度。对结构化新闻列表中所有记录,以和领域模型的相似度为第一关键字,以结构化新闻记录中发布时间为第二关键字,以BM25相似度为第三关键字,进行降序排序,得到有序的结构化新闻列表。重排序的结构化新闻列表如表7所示。
表7重排序的结构化新闻列表
(9)如图1的S109所示,服务器将有序的结构化新闻列表做为面向领域主题的Web新闻动态聚合结果发送到用户终端。
Claims (9)
1.一种面向领域主题的Web新闻动态聚合方法,其特征在于:包括以下步骤:
(1)、用户或应用程序通过用户终端将主题信息发送给服务器;
(2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表;
(3)、服务器获取元搜索引擎的搜索结果页面;
(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;
(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表进行去重,得到去重后的搜索记录列表;
(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;
(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表;
(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表;
(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结果发送到用户终端。
2.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(1)中,所述用户终端为手机或个人电脑,所述主题信息为关键词列表。
3.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(2)中,垂直搜索引擎模块为:面向用户预定义的领域站点列表,对相关领域站点进行持续爬取,根据用户提供的主题,面向爬取的页面进行检索;所述搜索记录包括URL、标题、摘要信息。
4.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(3)中,元搜索引擎为:根据元搜索引擎配置文件和用户提供的主题,生成多个通用搜索引擎的请求URL,并获取多个通用搜索引擎生成的搜索结果页面;其中元搜索引擎配置文件包括调用哪些搜索引擎及调用方法、检索时间限制、结果数量限制信息。
5.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(4)中,搜索记录抽取方法为:通过配置搜索记录中URL、标题、摘要各要素定位所需的CSS选择器,来完成对不同搜索结果页面的抽取。
6.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(5)中,搜索记录去重方法为:依次取出搜索记录列表中的每条搜索记录,与搜索记录列表中余下的记录依次进行比对;若当前比对的记录与取出记录的URL相同,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录标题的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录;若当前比对的记录与取出记录摘要的杰卡德距离超过预设定阈值,则从搜索记录列表中移除当前记录。
7.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(6)中,Web新闻网页识别方法为:收集Web网页训练数据集,将页面数据集中的每个页面标注上新闻或非新闻标签,根据网页特征提取方法和构建分类器方法,构建Web新闻网页识别器;对未知类别的网页,根据网页特征提取方法和Web新闻网页识别器,识别出是新闻网页或非新闻网页;其中网页特征提取方法能提取Web新闻网页的URL特征、结构特征和内容特征;其中构建分类器方法能针对有标签列的二维表数据构建二类分类器。
8.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(7)中,结构化新闻包括URL、标题、发布时间、来源网站、摘要、正文信息;
结构化新闻抽取方法为:输入搜索记录,根据搜索记录中的URL获得Web页面,根据Web新闻内容抽取方法抽取Web页面的标题、发布时间、来源网站和正文,结合搜索记录中的URL和摘要信息,得到URL、标题、发布时间、来源网站、摘要、正文信息六个结构化新闻要素;其中Web新闻内容抽取方法是一种无需学习的在线内容抽取方法。
9.根据权利要求1所述的一种面向领域主题的Web新闻动态聚合方法,其特征在于:所述步骤(8)中,指定领域的Web新闻语料为Web新闻数据集,数据集中的每篇Web新闻均为与指定领域相关的Web新闻;
领域建模方法为:提取指定领域的Web新闻语料的新闻内容,再对提取的内容进行分词处理和词频统计,剔除其中的停用词,选取前N个高频词组成N维词向量做为领域模型,其中参数N由领域建模方法预先设定;
基于领域模型的排序方法为:输入结构化新闻列表,对结构化新闻列表中的每条结构化新闻,根据领域模型中特征和结构化新闻中的正文建立新闻特征向量,计算新闻特征向量和N维词向量的相似度,利用信息检索模型计算用户主题信息提供的关键词列表和网页的信息检索相似度;对结构化新闻列表中所有记录,以和领域模型的相似度为第一关键字,以结构化新闻记录中发布时间为第二关键字,以信息检索相似度为第三关键字,进行降序排序,得到有序的结构化新闻列表;其中信息检索模型是一种能表示Web网页、用户查询主题以及查询主题与Web网页相似度的框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510444109.9A CN105022827B (zh) | 2015-07-23 | 2015-07-23 | 一种面向领域主题的Web新闻动态聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510444109.9A CN105022827B (zh) | 2015-07-23 | 2015-07-23 | 一种面向领域主题的Web新闻动态聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105022827A CN105022827A (zh) | 2015-11-04 |
CN105022827B true CN105022827B (zh) | 2016-06-15 |
Family
ID=54412796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510444109.9A Expired - Fee Related CN105022827B (zh) | 2015-07-23 | 2015-07-23 | 一种面向领域主题的Web新闻动态聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105022827B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933707A (zh) * | 2018-10-31 | 2019-06-25 | 中国科学院信息工程研究所 | 一种基于搜索引擎的主题语料构建方法及系统 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3171281A1 (en) * | 2015-11-17 | 2017-05-24 | Dassault Systèmes | Thematic web corpus |
CN105893583A (zh) * | 2016-04-01 | 2016-08-24 | 北京鼎泰智源科技有限公司 | 基于人工智能的数据采集方法及系统 |
CN105930346A (zh) * | 2016-04-06 | 2016-09-07 | 清华大学 | 互联网案例信息提取方法及装置 |
CN106021418B (zh) * | 2016-05-13 | 2019-09-06 | 北京奇虎科技有限公司 | 新闻事件的聚类方法及装置 |
CN106487906B (zh) * | 2016-11-01 | 2019-05-17 | 北京大学(天津滨海)新一代信息技术研究院 | 一种情境感知的移动Web应用协议切换方法 |
CN108153749A (zh) * | 2016-12-02 | 2018-06-12 | 上海若友网络科技有限公司 | 消息推送方法、消息推送装置、消息推送系统、服务器和移动终端 |
CN106874441B (zh) * | 2017-02-07 | 2024-03-05 | 腾讯科技(上海)有限公司 | 智能问答方法和装置 |
CN107688596B (zh) * | 2017-06-09 | 2020-02-21 | 平安科技(深圳)有限公司 | 突发话题检测方法及突发话题检测设备 |
CN107577783A (zh) * | 2017-09-15 | 2018-01-12 | 电子科技大学 | 基于Web结构特征挖掘的网页类型自动识别方法 |
CN108388614B (zh) * | 2018-02-08 | 2020-08-18 | 金蝶软件(中国)有限公司 | 新闻数据爬取处理方法、装置、计算机设备和存储介质 |
CN108520066A (zh) * | 2018-04-12 | 2018-09-11 | 深圳市比量科技传媒有限公司 | 一种搜索结果消重方法及系统 |
CN109033358B (zh) * | 2018-07-26 | 2022-06-10 | 李辰洋 | 新闻聚合与智能实体关联的方法 |
CN109977305B (zh) * | 2019-03-14 | 2024-04-23 | 努比亚技术有限公司 | 信息处理方法、移动终端及计算机可读存储介质 |
CN112818212B (zh) * | 2020-04-23 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN111881277A (zh) * | 2020-07-27 | 2020-11-03 | 新华智云科技有限公司 | 多维度高度可定制的新闻聚合方法 |
CN112000868A (zh) * | 2020-08-31 | 2020-11-27 | 上海微趣网络科技有限公司 | 一种信息汇聚显示装置及方法 |
CN112528117B (zh) * | 2020-12-11 | 2023-03-14 | 杭州安恒信息技术股份有限公司 | 一种政务网站一级目录的识别方法及相关装置 |
CN113010776B (zh) * | 2021-03-03 | 2022-12-09 | 昆明理工大学 | 一种基于Monroe规则的元搜索排序Top-k聚合方法 |
CN114741626B (zh) * | 2022-04-28 | 2024-09-24 | 北京字跳网络技术有限公司 | 一种搜索结果展示方法、装置、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604324B (zh) * | 2009-07-15 | 2011-11-23 | 中国科学技术大学 | 一种基于元搜索的视频服务网站的搜索方法及系统 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
CN102393858A (zh) * | 2011-11-17 | 2012-03-28 | 陈洪 | 一种基于客户端实时聚合的元搜索引擎系统 |
GB2499395A (en) * | 2012-02-14 | 2013-08-21 | British Sky Broadcasting Ltd | Search method |
-
2015
- 2015-07-23 CN CN201510444109.9A patent/CN105022827B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933707A (zh) * | 2018-10-31 | 2019-06-25 | 中国科学院信息工程研究所 | 一种基于搜索引擎的主题语料构建方法及系统 |
CN109933707B (zh) * | 2018-10-31 | 2022-10-14 | 中国科学院信息工程研究所 | 一种基于搜索引擎的主题语料构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105022827A (zh) | 2015-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022827B (zh) | 一种面向领域主题的Web新闻动态聚合方法 | |
US9262532B2 (en) | Ranking entity facets using user-click feedback | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN101641697B (zh) | 对网页的相关搜索查询及其应用 | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
Rakesh et al. | Personalized recommendation of twitter lists using content and network information | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN103020159A (zh) | 一种面向事件的新闻展现方法和装置 | |
CN102236719A (zh) | 基于网页分类的网页搜索引擎及快速查找方法 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
Vijiyarani et al. | Research issues in web mining | |
CN103559258A (zh) | 基于云计算的网页排序方法 | |
Dastidar et al. | An intelligent survey of personalized information retrieval using web scraper | |
Devi et al. | An efficient approach for web indexing of big data through hyperlinks in web crawling | |
Nakatsuji et al. | Detecting innovative topics based on user-interest ontology | |
Lee et al. | Web document classification using topic modeling based document ranking | |
Oza et al. | Elimination of noisy information from web pages | |
Griazev et al. | Web mining taxonomy | |
Vrochidis et al. | Utilizing implicit user feedback to improve interactive video retrieval | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
Venugopal et al. | Web Recommendations Systems | |
Faqeeh et al. | Topical search engine for Internet of Things | |
Shekhar et al. | A WEBIR crawling framework for retrieving highly relevant web documents: evaluation based on rank aggregation and result merging algorithms | |
CN105912584B (zh) | 一种基于网页信息数据的数据索引系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160615 |