CN101599089A - 视频服务网站内容更新信息的自动搜索与抽取系统及方法 - Google Patents

视频服务网站内容更新信息的自动搜索与抽取系统及方法 Download PDF

Info

Publication number
CN101599089A
CN101599089A CNA2009101606268A CN200910160626A CN101599089A CN 101599089 A CN101599089 A CN 101599089A CN A2009101606268 A CNA2009101606268 A CN A2009101606268A CN 200910160626 A CN200910160626 A CN 200910160626A CN 101599089 A CN101599089 A CN 101599089A
Authority
CN
China
Prior art keywords
search
url
module
xpath
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009101606268A
Other languages
English (en)
Other versions
CN101599089B (zh
Inventor
朱明�
易荣锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI GUANGXING COMMUNICATION TECHNOLOGY Co Ltd
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN2009101606268A priority Critical patent/CN101599089B/zh
Publication of CN101599089A publication Critical patent/CN101599089A/zh
Application granted granted Critical
Publication of CN101599089B publication Critical patent/CN101599089B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种视频服务网站内容更新信息的自动搜索与抽取系统,包括系统调度模块、URL组装机构造模块、xpath生成器、URL生成模块、网页下载模块、信息抽取模块和信息存储数据库。其中,系统调度模块用于协调和调度各个系统模块;URL组装机构造模块用于构造当前进行信息抽取的网站搜索结果页URL的组装机;xpath生成器用于生成搜索结果页各视频摘要信息所在子树顶节点的xpath;URL生成模块用于使用URL组装机组装搜索结果页的URL;网页下载模块用于下载指定URL的网页;信息抽取模块用于抽取下载网页的视频摘要信息,并存储到信息存储数据库;信息存储数据库用于存储抽取下来的摘要信息。本发明有效地解决了网站内容更新信息的获取问题。

Description

视频服务网站内容更新信息的自动搜索与抽取系统及方法
技术领域
本发明涉及网站内容抽取领域,特别涉及一种网页信息获取与抽取系统及方法。
背景技术
作为面向发布的浏览的系统,Web网页中存在大量有价值的信息,但这些信息一般以半结构化的形式存在,机器很难自动对其进行分析和理解。Web网页中存在很多以多个数据元素所组成的具有一定结构的数据块,这些数据块通常是后台数据库自动生成的,它通常能够反映该网页中包含的最重要的信息,这些数据块所构成的区域通常称为动态数据区域。自动识别和抽取Web网页中的动态数据区域对于Web数据发现、抽取和集成等都有重要意义。
现有的目标网页获取的主要方法是利用通用网络爬虫在网站爬取网页并识别出目标网页。现有的网页信息抽取方法包括:自适应的网页元数据抽取方法,结合加权树匹配与抽取模式的聚合;模板生成网页的数据自动抽取方法,首先检测出网页模板,利用检测出的模板自动地从实例网页中抽取数据;面向领域基于样本的互联网结构化数据抽取方法及系统,用于实现快速自动抽取互联网结构化数据。
现有的方法的缺点是:利用通用网络爬虫所获取的网页大部分不是目标网页,效率较低;并且,目前的数据列表页元数据抽取算法对于大量结构各异的网站存在适应性不高的问题。因此,需要一种方法解决上述问题。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别是解决利用通用网络爬虫获取目标网页效率低的问题。
为了达到上述目的,本发明提出一种视频服务网站内容更新信息的自动搜索与抽取系统,包括系统调度模块、URL(统一资源定位器)组装机构造模块、xpath(XML文档元素路径)生成器、URL生成模块、网页下载模块、信息抽取模块和信息存储数据库。其中,所述系统调度模块用于协调和调度各个系统模块;所述URL组装机构造模块用于构造当前进行信息抽取的网站搜索结果页URL的URL组装机;所述xpath生成器用于生成所述搜索结果页各视频摘要信息所在子树顶节点的xpath;所述URL生成模块用于利用所述URL组装机组装所述搜索结果页的URL;所述网页下载模块用于下载所述指定URL的网页;所述信息抽取模块用于从下载的所述搜索结果页中抽取视频摘要信息,并存储到所述信息存储数据库;所述信息存储数据库,用于存储所述抽取下来的视频摘要信息。
作为本发明的一个实施例,所述URL组装机构造模块包括搜索触发模块、搜索结果页处理模块和URL对比分析模块,所述xpath生成器包括二类源文件数据区域xpath获取模块、数据区域子树类型判断模块、一类源文件数据区域xpath获取模块和视频摘要xpath生成模块,所述信息抽取模块包括摘要抽取模块、时间抽取模块和页面超期判断模块。
本发明另一方面还提出一种视频服务网站内容更新信息的自动搜索与抽取方法,包括以下步骤:读入单字表文件,作为待用的搜索字数组;生成URL组装机;生成摘要信息xpath;利用所述URL组装机组装某个搜索字对应的搜索结果的某一页的URL;下载所述URL的页面;利用所述摘要信息xpath抽取摘要信息,并抽取每个视频摘要信息中的上传时间信息;判断所述页面是否超期,即当前页面中所有视频摘要信息中的上传时间是否均在预设时间之前,如果是,则取下一个搜索字,并返回组装URL,否则搜索字不变,返回组装URL,直至搜索字用完。
本发明通过提出一种视频服务网站内容更新信息的自动搜索与抽取系统及方法,可有效地从众多视频服务网站中搜索并抽取出最近更新的视频节目摘要信息。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的视频服务网站内容更新信息的自动搜索与抽取系统的结构图;
图2为本发明实施例的视频服务网站内容更新信息的自动搜索与抽取方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明主要在于预先获取两个搜索结果页的URL并进行比较,生成一个搜索结果页URL的模板,即URL组装机,再用URL组装机组装URL,用这些组装的URL获取的网页就是搜索结果页,相比于基于通用网络爬虫的方法获取网站网页,用基于站内搜索的方法可直接搜索结果页,而搜索结果页上的数据区的信息是结构化的,可以方便进行信息抽取,避开大量无用网页。
如图1所示,为本发明实施例的网视频服务网站内容更新信息的自动搜索与抽取系统的结构图。该系统包括系统调度模块100、URL组装机构造模块200、xpath生成器300、URL生成模块400、网页下载模块500、信息抽取模块600和信息存储数据库700。其中,系统调度模块100用于协调和调度各个系统模块;URL组装机构造模块200和xpath生成器300是系统的核心部分,分别用于构造自动生成搜索结果页URL的URL组装机和摘要信息的在一类源文件中的xpath,由URL组装机可实现对网站内容的快速搜索,由摘要信息xpath可实现对搜索结果页摘要信息的快速抽取,URL组装机构造模块200包括搜索触发模块、搜索结果页处理模块和URL对比分析模块,xpath生成器300包括二类源文件数据区域xpath生成模块、数据区域子树类型判断模块、一类源文件数据区域xpath生成模块和视频摘要xpath生成模块;URL生成模块400用于利用URL组装机组装搜索结果页的URL;网页下载模块500用于下载指定URL的网页;信息抽取模块600用于从下载的搜索结果页中抽取视频摘要信息,并存储到信息存储数据库700中,包括摘要抽取模块、时间抽取模块和页面超期判断模块;信息存储数据库700用于存储抽取下来的视频摘要信息。
如图2所示,为本发明实施例的视频服务网站内容更新信息的自动搜索与抽取方法的流程图,包括以下步骤:
步骤S201,系统调度模块100读入单字表文件,作为待用的搜索字数组。
在本发明实施例中,单字表文件为中文文本计算网提供的开源单字表中的前1000个出现频率较高的单字,以及26个英文字母。
步骤S202,调用URL组装机构造模块200生成URL组装机。
对于URL组装机构造模块200如何生成URL组装机,本发明提出的可能的方案如下,当然本领域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变化均应包含在本发明的包含范围之内。
URL组装机构造模块200包括搜索触发模块、搜索结果页处理模块和URL对比分析模块。搜索触发模块的功能是自动模拟站内搜索流程在浏览器内对网站进行站内搜索,其核心是调用IE浏览器的COM(通信对象模型)接口获取网页的DOM(文档对象模型)并进行相关操作,例如可以通过封装了IE COM的开源程序Jiffie进行操作,具体步骤如下:
A)调用IE浏览器的COM接口打开网站并定位站内搜索的搜索表单。
在本发明实施例中,按照以下方式定位站内搜索的搜索表单:首先搜索网页中是否含有form元素;如果含有,则在form元素的子孙元素中,搜索满足条件type=text的Input元素,否则,在网页中直接搜索满足条件type=NEXT的Input元素;如果没有搜索到满足条件的Input元素,则尝试寻找网页中的所有frame元素,并在其所引入的所有网页中寻找搜索框,规则与上述搜索form元素的过程相同。
B)填入搜索字。
C)定位提交按钮并模拟点击,如果步骤A)中找到了form元素,则对其所有子孙元素逐个用IE COM接口中的click方法尝试模拟点击,否则,对type=NEXT的Input元素后面的连续6个元素,均尝试模拟点击。
搜索结果页处理模块的功能包括:
A)在搜索结果页中判断并寻找“按时间更新”的按钮,如果有,则模拟点击它,得到按时间排序的搜索结果页,如果没有,则认为搜索结果默认按时间排序。
在本发明实施例中,对于某一待确认的元素,其为“按时间排序”按钮的启发式规则为:其innerText(内嵌文本)的长度小于7,且其innerText含有“更新”、“时间”或“日期”,且其innerText含有“发布”、“上传”、“更新”、“排列”、“排序”或“按”。
B)在搜索结果页中定位并点击当前页的下一页的链接,并获取当前搜索结果页的URL。
URL对比分析模块的功能是将两个搜索结果页的URL对比分析,得到URL组装机。假设两个搜索结果页的URL分别为url1和url21,首先对比url1和url2,两者不同的字符串即为页码,记录其位置,然后在url1中查找搜索字的位置(搜索字可能经过某种形式的编码),以搜索字和页码所在位置为分界,得到不含搜索字和页码的三个字符串,并依据搜索字和页码所在位置的前后关系,得到一个布尔值。上述三个字符串和一个布尔值即构成了一个URL组装机。
下面以一个例子进行详细描述。应理解,这仅是示意性的例子,并不限制本发明的范围。
在网站www.youku.com中用“我”字进行搜索得到的两个分页链接url分别为url:http://so.youku.com/search_video/q_我_orderby_1_page_2.html和url2:http://so.youku.com/search_video/q_我_orderby_1_page_3.html
去掉url1和url2中不同的字符,即页码2和3,得到:
Str1:http://so.youku.com/search_video/q_我_orderby_1_page_,和
Str3:.html。
再去掉搜索字“我”,得到:
urlBaseStr1:http://so.youku.com/search_video/q_
urlBase Str2:_orderby_1_page_,和
urlBaseStr3:.html,以及搜索字与页面在一个完整的分页链接url中的出现顺序。
从而可以通过改变搜索字和页码得到不同搜索字和不同页码的搜索结果页,例如,用“的”字进行搜索的搜索结果的第5页的url为:urlBaseStr1接上“的”字再接上urlBaseStr2接上页码5再接上urlBaseStr3,即:
http://so.youku.com/search_video/q_的_orderby_1_page_5.html
步骤S203,调用xpath生成器200生成摘要信息xpath。
对于xpath生成器300如何生成搜索结果页各视频摘要信息所在子树顶节点的xpath,本发明提出的可能的方案如下,当然本领域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变化均应包含在本发明的包含范围之内。
Xpath生成器300包括二类源文件数据区域xpath获取模块、一类源文件数据区域xpath获取模块、数据区域子树类型判断模块和视频摘要xpath生成模块。其中,一类源文件是指直接从网站获取的网页文件,二类源文件是指一类源文件经浏览器打开并修改的网页文件,数据区域是指搜索结果页中视频信息列表区。
二类源文件数据区域xpath获取模块的功能是在IE打开搜索结果页中查询数据区域,找到数据区域所在子树顶节点的xpath,具体步骤如下:
A)改变页面中所有元素的样式。
在本发明实施例中,改变样式的规则如下:如果元素样式的overflow(溢出)属性的值为“visible”或者为空,则将其改变为“hidden”;如果元素样式的height属性的值为空,则将其改变为“auto”。
B)从页面定点开始,递归寻找其视觉区域的高为父节点视觉区域高的0.45倍并且其视觉区域的宽为父节点视觉区域宽的0.45倍的子节点。
C)计算步骤B)返回的节点的xpath。
一类源文件数据区域xpath获取模块用于修正二类源文件数据区域xpath获取模块得到的xpath,得到xpath’,使用xpath’在一类源文件中获得数据区域所在的子树。假设一类源文件数据区域xpath获取模块的返回值为drpath1,具体的修正方法如下:
方法一:
首先,计算与drpath1相近的所有路径simDrpaths,用simDrpaths中的路径字符串xpath2取二类源文件DOM的节点,如果能取到不为空的节点n,将n所在子树与一类源文件数据区域所在子树进行比较,如果相似,则xpath2为所求;
然后,取simDrpaths中的下一个路径字符串,重复上述过程;如此反复,直至simDrpaths中的所有路径字符串用完。
在本发明实施例中,相近路径simDrpaths是指每对对应下标之差小于3的路径。
如果方法一失败,则采用方法二进行修正。
方法二:
取一类源文件DOM中的所有节点,逐个将其所在的子树与二类源文件数据区域所在子树进行比较,相似度最大的节点即是一类源文件中数据区域所在子树的顶节点,其在一类源文件DOM中的绝对路径即为所求。
数据区域子树类型判断模块的功能是判断数据区域所在子树的类型。在本发明实施例中,判断的依据是数据区域中每个视频摘要信息所在子树与数据区域顶节点的位置关系以及每个视频摘要信息所在子树之间的位置关系。具体地,如果在数据区域中两个以上的视频摘要信息所在子树共有一个共同的顶节点,但此顶节点并不是数据区域所在子树的顶节点,则判定为类型二;如果任意两个视频摘要信息所在子树的共同顶节点都为数据区域子树的顶节点,则判定为类型一。
根据数据区域子树类型的判断结果,视频摘要xpath生成模块采用不同的方式获取搜索结果页中每个视频摘要信息所在子树的顶节点的xpath。具体地,设所有视频摘要信息所在子树在二类源文件中的xpath存放在链表vspaths中,则初始xpath的生成过程如下:
如果数据区域子树类型为类型一,则将数据区域子树的所有节点加入到vspaths中;
如果数据区域子树类型为类型二,则按如下步骤生成初始xpath:
A)根据数据区域查询模块返回的xpath取得数据区域所在子树drTree的顶节点p。
B)去除顶节点p的子节点中的所有一类噪声节点。
在本发明实施例中,一类噪声节点为其所在子树的节点总数小于6的节点。
C)选取drTree的居中的子节点所在的子树为样本子树,并去除drTree中子节点中的二类噪声子节点。
在本发明实施例中,二类噪声节点为其所在子树与样本子树的相似度过小的节点。
D)从drTree的子节点开始,去除其子节点的一类噪声节点。
E)如果该节点剩下的子节点有两个以上,则将该节点的所有子节点的xpath加入到vspaths中,否则返回步骤D)。
步骤S204,调用URL生成模块400,利用URL组装机组装某个搜索字对应的搜索结果的某一页的URL。
步骤S205,调用网页下载模块500,下载指定URL的网页。
步骤S206,调用信息抽取模块600,从下载网页中抽取视频摘要信息并存储到信息存储数据库中。
在本发明实施例中,具体的执行步骤如下:
A)利用开源程序DOM4J将页面源文件转换成DOM。
B)利用已经获得的摘要信息xpath抽取视频摘要信息。
C)抽取每个视频摘要信息中的上传时间信息。如果摘要信息中没有上传时间,则先抽取摘要信息中视频播放页的地址,并尝试在视频播放页中抽取上传时间;如果某个视频摘要信息的上传时间在预设时间之前,则将这个视频摘要信息存储到信息存储数据库。
D)判断是否当前页面的所有视频摘要信息中的上传时间均在预设时间之前,如果是,则返回“真”,否则,返回“假”。
步骤S207,判断页面是否超期,即页面中所有所述视频摘要信息中的上传时间是否均在预设时间之前,如果是,则取下一个搜索字,并返回步骤S204,否则,搜索字不变,并返回步骤S204,直至搜索字用完。
本发明通过提出一种视频服务网站内容更新信息的自动搜索与抽取系统及方法,可有效地从众多视频服务网站中搜索并抽取出最近更新的视频节目摘要信息。
应理解,本发明实施例的视频服务网站内容更新信息的自动搜索与抽取系统及方法,不仅适用于上传时间显式给出的视频服务网站,如优酷网和土豆网等视频点播网以及相当部分的电影网站,还可应用于其他非视频服务网站但网页结构及内容的基本特征类似的其他类型网站。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (16)

1、一种视频服务网站内容更新信息的自动搜索与抽取系统,包括系统调度模块、URL(统一资源定位器)组装机构造模块、xpath(XML文档元素路径)生成器、URL生成模块、网页下载模块、信息抽取模块和信息存储数据库,
所述系统调度模块,用于协调和调度各个系统模块;
所述URL组装机构造模块,用于构造当前进行信息抽取的网站搜索结果页URL的URL组装机;
所述xpath生成器,用于生成所述搜索结果页各视频摘要信息所在子树顶节点的xpath;
所述URL生成模块,用于利用所述URL组装机组装所述搜索结果页的URL;
所述网页下载模块,用于下载所述指定URL的网页;
所述信息抽取模块,用于从下载的所述搜索结果页中抽取视频摘要信息,并存储到所述信息存储数据库;
所述信息存储数据库,用于存储所述抽取下来的视频摘要信息。
2、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述系统调度模块的调度过程,包括以下步骤:
调用所述URL组装机构造模块生成URL组装机,调用xpath生成器生成摘要信息xpath,读入单字表文件,作为待用的搜索字数组,其中,所述单字表文件为中文文本计算网提供的开源单字表中的前1000个出现频率较高的单字,以及26个英文字母;
调用所述URL生成模块,利用所述URL组装机组装某个搜索字对应的搜索结果的某一页的URL;
调用所述网页下载模块下载所述URL的网页;
调用所述信息抽取模块,利用所述摘要信息xpath抽取摘要信息,并抽取每个视频摘要信息中的上传时间信息;
如果页面超期,即页面中所有所述视频摘要信息中的上传时间均在预设时间之前,则取下一个搜索字,并返回调用所述URL生成模块,否则,搜索字不变,并返回调用所述URL生成模块,直至搜索字用完。
3、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述URL组装机构造模块包括搜索触发模块、搜索结果页处理模块和URL对比分析模块,
所述搜索触发模块,用于自动模拟站内搜索流程,在浏览器内对网站进行站内搜索;
所述搜索结果页处理模块,用于在所述搜索结果页中判断并寻找“按时间更新”的按钮,如果有,则模拟点击得到按时间排序的搜索结果页,否则,认为搜索结果默认按时间排序;以及在所述搜索结果页中定位并点击当前页的下一页的链接,并获取所述搜索结果页的URL;
所述URL对比分析模块,用于将两个所述搜索结果页的URL对比分析,得到URL组装机。
4、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述URL组装机包括三个字符串和一个布尔值,其中,所述三个字符串由所述搜索结果页URL按搜索字和页码位置拆分而得,所述布尔值用于表征在所述搜索结果页URL中搜索字和页码位置的前后关系。
5、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,搜索触发模块自动模拟站内搜索流程,在浏览器内对网站进行站内搜索,包括以下步骤:
调用IE浏览器的COM(通信对象模型)接口打开网站并定位站内搜索的搜索表单;
填入搜索字;
定位提交按钮并模拟点击。
6、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述按时间排序的启发式规则为:
innerText(内嵌文本)的长度小于7;
innerText含有“最新”、“时间”或“日期”;
innerText含有“发布”、“上传”、“更新”、“排列”、“排序”或“按”。
7、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述URL对比分析模块将两个所述搜索结果页的URL对比分析得到URL组装机,包括以下步骤:
对比所述两个搜索结果页的URL,两者不同的字符串即为页码,记录其位置;
在一个所述搜索结果页的URL中查找搜索字的位置;
以所述搜索字和页码所在位置为分界,得到不含搜索字和页码的三个字符串,并依据所述搜索字和页码所在位置的前后关系,得到一个布尔值,所述三个字符串和一个布尔值构成所述URL组装机。
8、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述xpath生成器包括二类源文件数据区域xpath获取模块、数据区域子树类型判断模块、一类源文件数据区域xpath获取模块和视频摘要xpath生成模块,其中,所述一类源文件为直接从网站获取的网页文件,所述二类源文件为所述一类源文件经浏览器打开并修改的网页文件,所述数据区域为所述搜索结果页中视频信息列表区,
所述二类源文件数据区域xpath获取模块,用于在IE浏览器打开搜索结果页中查询数据区域,找到数据区域所在子树顶节点的xpath;
所述数据区域子树类型判断模块,用于判断数据区域所在子树的类型;
所述一类源元件数据区域xpath获取模块,用于修正所述二类源文件数据区域xpath获取模块得到的xpath,得到xpath’,在一类源文件获得数据区域所在的子树;
所述视频摘要xpath生成模块,用于获取所述搜索结果页中每个视频的摘要信息所在子树的顶节点的xpath。
9、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述二类源文件数据区域xpath获取模块在IE浏览器打开搜索结果页中查询数据区域,找到数据区域所在子树顶节点的xpath,包括以下步骤:
改变所述搜索结果页中所有元素的样式;
数据区域定位,即从所述搜索结果页的顶节点开始,递归寻找其视觉区域的高为父节点视觉区域高的0.45倍并且其视觉区域的宽为父节点视觉区域宽的0.5倍的子节点;
计算所述数据区域定位返回的节点的xpath。
10、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述改变所述搜索结果页中所有元素的样式的规则,包括:
如果元素样式的overflow(溢出)属性的值为“visible”或者为空,则将其改为“hidden”;
如果元素样式的height属性的值为空,则将其改为“auto”。
11、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述一类源文件数据区域xpath获取模块的修正方法,包括:
计算与所述一类源文件数据区域xpath获取模块的返回相近的所有路径,用所述相近路径中的路径字符串取所述二类源文件DOM(文档对象模型)的节点,如果能取到不为空的节点,将所述不为空的节点与所述一类源文件数据区域所在子树比较,如果相似,则所述路径字符串即为所求,继续取下一个路径字符串,重复上述过程,直至所述相近路径中的所有路径字符串用完,其中,所述相近路径的定义为每对路径对应下标之差小于3的路径;
如果上述方法失败,则取所述一类源文件DOM中的所有节点,逐个将其所在的子树与所述二类源文件数据区域所在子树进行比较,相似度最大的节点为所述一类源文件中数据区域所在子树的顶节点,其在所述一类源文件DOM中的绝对路径即为所求。
12、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述数据区域子树类型判断模块的判断依据为所述数据区域中每个视频摘要信息所在子树与所述数据区域顶节点的位置关系以及所述每个视频摘要信息所在子树之间的位置关系:
如果在所述数据区域中,两个以上的视频摘要信息所在子树共有一个个共同的顶节点,但所述共同的顶节点并不是所述数据区域所在子树的顶节点,则判定为类型二;
如果任意两个视频摘要信息所在子树的共同顶节点都为所述视频区域子树的顶节点,则判定为类型一。
13、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述视频摘要xpath生成模块生成初始xpath,包括:
如果所述数据区域子树类型判断模块判定所述数据区域子树的类型为类型一,则将所述数据区域子树的所有子节点加入到所有所述视频摘要信息所在子树在所述二类源文件中的xpath的存放链表中;
如果所述数据区域子树类型判断模块判定所述数据区域子树的类型为类型二,则按照以下步骤生成初始xpath:
根据数据区域查询模块返回的xpath取得所述数据区域所在子树的顶节点;
去除所述顶节点的子节点中的所有一类噪声节点;
选取所述顶节点的居中子节点所在的子树为样本子树,并去除所述数据区域所在子树中子节点中的二类噪声节点;
从所述数据区域所在子树的子节点开始,去除其子节点的一类噪声节点;
如果所述数据区域所在子树的子节点剩下的子节点有两个以上,则将所述数据区域所在子树的子节点的所有子节点的xpath加入到所有所述视频摘要信息所在子树在所述二类源文件中的xpath的存放链表中,否则返回上一步骤。
14、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述信息抽取模块包括摘要抽取模块、时间抽取模块和页面超时判断模块,
所述摘要抽取模块,用于利用所述摘要信息xpath抽取视频摘要信息;
所述时间抽取模块,用于抽取所述视频摘要信息中的上传时间信息;
所述页面超时判断模块,用于判断所述视频摘要信息中的上传时间是否在预设时间之前。
15、如权利要求1所述的视频服务网站内容更新信息的自动搜索与抽取系统,其特征在于,所述信息抽取模块从下载的所述搜索结果页中抽取视频摘要信息,并存储到所述信息存储数据库中,包括以下步骤:
将所述搜索结果页的源文件转换成DOM;
利用所述摘要信息xpath抽取所述视频摘要信息;
抽取每个所述视频摘要信息中的上传时间信息,如果所述摘要信息中没有所述上传时间,则先抽取所述摘要信息中视频播放页的地址,并尝试在所述视频播放页中抽取所述上传时间,如果某个所述视频摘要信息的上传时间在预设时间之内,则将所述视频摘要信息存到所述信息存储数据库中;
判断是否所述搜索结果页的所有所述视频摘要信息中的上传时间均在所述预设时间之前,如果是,则返回“真”,否则返回“假”。
16、一种视频服务网站内容更新信息的自动搜索与抽取方法,包括以下步骤:
读入单字表文件,作为待用的搜索字数组;
生成URL组装机;
生成摘要信息xpath;
利用所述URL组装机组装某个搜索字对应的搜索结果的某一页的URL;
下载所述URL的页面;
利用所述摘要信息xpath抽取摘要信息,并抽取每个视频摘要信息中的上传时间信息;
判断所述页面是否超期,即当前页面中所有视频摘要信息中的上传时间是否均在预设时间之前,如果是,则取下一个搜索字,并返回组装URL,否则搜索字不变,返回组装URL,直至搜索字用完。
CN2009101606268A 2009-07-17 2009-07-17 视频服务网站内容更新信息的自动搜索与抽取系统及方法 Expired - Fee Related CN101599089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101606268A CN101599089B (zh) 2009-07-17 2009-07-17 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101606268A CN101599089B (zh) 2009-07-17 2009-07-17 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Publications (2)

Publication Number Publication Date
CN101599089A true CN101599089A (zh) 2009-12-09
CN101599089B CN101599089B (zh) 2011-05-04

Family

ID=41420533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101606268A Expired - Fee Related CN101599089B (zh) 2009-07-17 2009-07-17 视频服务网站内容更新信息的自动搜索与抽取系统及方法

Country Status (1)

Country Link
CN (1) CN101599089B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及系统
CN101937469A (zh) * 2010-09-15 2011-01-05 深圳市任子行网络技术股份有限公司 视频网站的信息抓取方法
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102622454A (zh) * 2012-04-23 2012-08-01 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102902784A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类存储系统及方法
CN103036969A (zh) * 2012-12-10 2013-04-10 北京奇虎科技有限公司 用于提供文件下载地址的管理设备及方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
WO2015058331A1 (en) * 2013-10-21 2015-04-30 Hewlett-Packard Development Company, L.P. Extract data from xml stream
CN104933099A (zh) * 2015-05-28 2015-09-23 百度在线网络技术(北京)有限公司 一种为用户提供目标搜索结果的方法与装置
CN105912706A (zh) * 2016-04-27 2016-08-31 郑州悉知信息科技股份有限公司 提升搜索引擎排名的方法和装置
CN106940719A (zh) * 2017-03-14 2017-07-11 福建中金在线信息科技有限公司 一种页面跳转方法及装置
CN107391573A (zh) * 2017-06-19 2017-11-24 上海斐讯数据通信技术有限公司 一种基于信息重组的数据信息提取方法和系统
CN109783728A (zh) * 2018-12-29 2019-05-21 安徽听见科技有限公司 页面爬虫规则更新方法及系统
CN111966880A (zh) * 2020-08-17 2020-11-20 江苏百达智慧网络科技有限公司 可视化网站内容采集方法和系统
CN113836350A (zh) * 2021-09-23 2021-12-24 深圳绿米联创科技有限公司 录像视频检索方法、系统、装置、存储介质及电子设备
CN116701791A (zh) * 2023-07-20 2023-09-05 国信蓝桥教育科技股份有限公司 基于人工智能的课程推荐方法及系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及系统
CN101944111A (zh) * 2010-09-09 2011-01-12 中国科学技术大学 新闻视频的搜索方法和装置
CN101944111B (zh) * 2010-09-09 2012-05-23 中国科学技术大学 新闻视频的搜索方法和装置
CN101937469A (zh) * 2010-09-15 2011-01-05 深圳市任子行网络技术股份有限公司 视频网站的信息抓取方法
CN101937469B (zh) * 2010-09-15 2012-09-05 任子行网络技术股份有限公司 视频网站的信息抓取方法
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN102622454B (zh) * 2012-04-23 2014-05-28 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102622454A (zh) * 2012-04-23 2012-08-01 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102902784B (zh) * 2012-09-29 2016-03-02 北京奇虎科技有限公司 网页分类存储系统及方法
CN102902784A (zh) * 2012-09-29 2013-01-30 北京奇虎科技有限公司 网页分类存储系统及方法
CN103036969B (zh) * 2012-12-10 2017-03-15 北京奇虎科技有限公司 用于提供文件下载地址的管理设备及方法
CN103036969A (zh) * 2012-12-10 2013-04-10 北京奇虎科技有限公司 用于提供文件下载地址的管理设备及方法
CN104182429A (zh) * 2013-05-28 2014-12-03 腾讯科技(深圳)有限公司 网页处理方法和终端
WO2014190785A1 (en) * 2013-05-28 2014-12-04 Tencent Technology (Shenzhen) Company Limited Apparatuses and methods for webpage content processing
CN104182429B (zh) * 2013-05-28 2017-08-25 腾讯科技(深圳)有限公司 网页处理方法和终端
WO2015058331A1 (en) * 2013-10-21 2015-04-30 Hewlett-Packard Development Company, L.P. Extract data from xml stream
CN104933099B (zh) * 2015-05-28 2020-10-16 百度在线网络技术(北京)有限公司 一种为用户提供目标搜索结果的方法与装置
CN104933099A (zh) * 2015-05-28 2015-09-23 百度在线网络技术(北京)有限公司 一种为用户提供目标搜索结果的方法与装置
CN105912706A (zh) * 2016-04-27 2016-08-31 郑州悉知信息科技股份有限公司 提升搜索引擎排名的方法和装置
CN106940719A (zh) * 2017-03-14 2017-07-11 福建中金在线信息科技有限公司 一种页面跳转方法及装置
CN107391573A (zh) * 2017-06-19 2017-11-24 上海斐讯数据通信技术有限公司 一种基于信息重组的数据信息提取方法和系统
CN109783728A (zh) * 2018-12-29 2019-05-21 安徽听见科技有限公司 页面爬虫规则更新方法及系统
CN109783728B (zh) * 2018-12-29 2021-10-19 安徽听见科技有限公司 页面爬虫规则更新方法及系统
CN111966880A (zh) * 2020-08-17 2020-11-20 江苏百达智慧网络科技有限公司 可视化网站内容采集方法和系统
CN113836350A (zh) * 2021-09-23 2021-12-24 深圳绿米联创科技有限公司 录像视频检索方法、系统、装置、存储介质及电子设备
CN113836350B (zh) * 2021-09-23 2024-02-27 深圳绿米联创科技有限公司 录像视频检索方法、系统、装置、存储介质及电子设备
CN116701791A (zh) * 2023-07-20 2023-09-05 国信蓝桥教育科技股份有限公司 基于人工智能的课程推荐方法及系统
CN116701791B (zh) * 2023-07-20 2023-10-20 国信蓝桥教育科技股份有限公司 基于人工智能的课程推荐方法及系统

Also Published As

Publication number Publication date
CN101599089B (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
CN101599089B (zh) 视频服务网站内容更新信息的自动搜索与抽取系统及方法
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN100405371C (zh) 一种提取新词的方法和系统
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
US8554800B2 (en) System, methods and applications for structured document indexing
CN102831199B (zh) 建立兴趣模型的方法及装置
CN101246494B (zh) 一种互联网网页转换方法、系统及设备
US20090063538A1 (en) Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
CN103443786A (zh) 识别网络浏览器中的并行布局的独立任务的机器学习方法
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN101097578A (zh) 一种网络资源检索方法及系统
CN101802776A (zh) 应用语义向量和关键字分析关联数据集的方法和装置
CN106503211B (zh) 面向信息发布类网站的移动版自动生成的方法
CN102065114A (zh) 一种移动终端访问网页的方法及装置
CN104239298A (zh) 文本信息推荐方法、服务器、浏览器及系统
CN102207967B (zh) 一种自动提供浏览器新插件的方法和系统
CN104679783A (zh) 一种网络搜索方法和装置
CN102117331B (zh) 视频搜索方法及系统
CN103020123A (zh) 一种搜索不良视频网站的方法
Wu et al. Searching services" on the web": A public web services discovery approach
CN104199893B (zh) 一种快速将全媒体内容发布的系统和方法
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN103617225A (zh) 一种关联网页搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ANHUI GUANGXING COMMUNICATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: UNIVERSITY OF SCIENCE AND TECHNOLOGY OF CHINA

Effective date: 20130820

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 230026 HEFEI, ANHUI PROVINCE TO: 230001 HEFEI, ANHUI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130820

Address after: 230001, C4, 12, 800, Wangjiang Industrial Park, Wangjiang Road, Anhui, Hefei

Patentee after: Anhui Guangxing Communication Technology Co., Ltd.

Address before: 230026 Jinzhai Road, Anhui, China, No. 96, No.

Patentee before: University of Science and Technology of China

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110504

Termination date: 20200717

CF01 Termination of patent right due to non-payment of annual fee