CN101604324B - 一种基于元搜索的视频服务网站的搜索方法及系统 - Google Patents

一种基于元搜索的视频服务网站的搜索方法及系统 Download PDF

Info

Publication number
CN101604324B
CN101604324B CN2009100889819A CN200910088981A CN101604324B CN 101604324 B CN101604324 B CN 101604324B CN 2009100889819 A CN2009100889819 A CN 2009100889819A CN 200910088981 A CN200910088981 A CN 200910088981A CN 101604324 B CN101604324 B CN 101604324B
Authority
CN
China
Prior art keywords
candidate
search
network address
video service
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100889819A
Other languages
English (en)
Other versions
CN101604324A (zh
Inventor
尹文科
郑建英
朱明�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI GUANGXING COMMUNICATION TECHNOLOGY Co Ltd
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN2009100889819A priority Critical patent/CN101604324B/zh
Publication of CN101604324A publication Critical patent/CN101604324A/zh
Application granted granted Critical
Publication of CN101604324B publication Critical patent/CN101604324B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元搜索的视频服务网站的搜索方法及系统,所述方法包括:根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。本发明还提供了一种基于元搜索的视频服务网站的搜索系统,所述系统包括:搜索结果获取模块和搜索结果处理模块。采用本发明的技术方案能够实现在搜索视频服务网站的过程中,准确、高效地搜索到尽可能多的可提供视频服务的网站信息,以便为用户提供服务或者对这些网站进行监控。

Description

一种基于元搜索的视频服务网站的搜索方法及系统
技术领域
本发明涉及互联网信息检索技术领域,具体的说,涉及一种基于元搜索的视频服务网站搜索的方法及系统。
背景技术
目前,由于互联网技术的飞速发展,人们对互联网的依赖日益增强。为了满足人们日益增长的需求,网络信息的内容也在不断地丰富,尤其多媒体内容占据了很大的比例。如何从互联网海量信息中,准确有效地找出用户需要的信息,变得越来越重要。
互联网视频服务网站主要包括:直接提供视频内容点播服务的视频服务网站、提供P2P视频资源共享下载的服务网站和提供P2P实时视频直播的服务网站。其中,直接提供视频内容点播服务的视频服务网站的特点是按照多种分类标准,以目录浏览方式提供视频内容点播服务的;提供P2P视频资源共享下载的服务网站主要是提供视频资源下载的,如BT种子文件;提供P2P实时视频直播的服务网站,是提供基于P2P的实时电视直播服务的,如PPLive等。
由于上述三类视频服务网站数量非常多,并且还在不断增加和变化,因此通过现有技术难以完整的搜索到尽可能多的,可提供针对视频服务这种特定主题服务的网站。例如:现有技术中用户大多通过关键词的方式,在互联网搜索引擎中进行搜索,如:Google、Baidu等等,通常搜索获得的返回结果中大多只包含70多页的内容,每页包含10个网址,并且这些内容中包含了大量与视频服务网站无关的广告内容或者重复内容,所以通过现有技术来实现对视频服务网站的搜索,获得的结果极其有限,并且质量不高。
在实现本发明的过程中,发明人发现:由于现有技术中利用现有的搜索引擎,在针对特定主题的信息进行搜索时,无法尽可能多的获得可用度高的网站信息,所以如何尽可能多的搜索到这些视频服务网站,已成为互联网信息检索领域一个待解决的重要问题。
发明内容
本发明要解决的技术问题是,提供一种基于元搜索的视频服务网站的搜索方法及系统,能够准确有效地在互连网中尽可能多的搜索到可用度高的,可提供视频服务的网站,解决了现有技术存在的问题。
本发明的技术方案如下所述:
本发明提供了一种基于元搜索的视频服务网站的搜索方法,所述方法包括:
根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
进一步的,所述方法还包括:
通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
进一步的,根据生成的搜索关键词,通过搜索引擎获得搜索结果,具体过程包括:
根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
进一步的,对所述搜索结果进行视频服务相关性判断,具体过程包括:
针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
针对所述候选关键词,根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
进一步的,所述方法还包括:
针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
本发明提供了一种基于元搜索的视频服务网站的搜索系统,所述系统包括:
搜索结果获取模块,用于根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
搜索结果处理模块,用于对所述搜索结果获取模块获得的所述搜索结果,进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
优选的,所述系统还包括:
搜索关键词生成模块,用于通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
优选的,所述搜索结果获取模块具体包括:
搜索代理单元,用于根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
搜索结果抽取单元,用于抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
优选的,所述搜索结果处理模块具体包括:
网址评估单元,用于针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库;
关键词评估单元,用于根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存到关键词数据库中。
优选的,所述搜索结果处理模块具体还包括:
网址合并单元,用于针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
本发明的有益效果:
本发明所述的技术方案,综合使用了元搜索技术、网页信息抽取技术和网站主题识别技术,有效地解决了利用现有的网络搜索引擎针对特定主题的内容进行搜索时,无法尽可能多的,获得准确、高质量的搜索内容的问题。
附图说明
图1为本发明所述方法的流程图;
图2为本发明所述系统的结构示意图;
图3为本发明实施例一所述系统的应用场景图;
图4为本发明实施例一所述系统的结构示意图;
图5为本发明实施例一的搜索代理过程的流程图;
图6为本发明实施例一的搜索结果抽取过程的流程图;
图7为本发明实施例一的参考关键词评估过程的流程图;
图8为本发明实施例一的网站地址评估过程的流程图;
图9为本发明实施例一的网址合并过程流程图;
具体实施方式
为了进一步说明本发明实施例一种基于元搜索的视频服务网站的搜索方法及系统,下面进行详细说明。
由于互联网技术的飞速发展,互联网上信息量也在猛增,利用现有的互联网搜索引擎无法实现针对特定主题进行搜索服务,给用户带来了搜索难题。本发明实施例结合现有技术存在的问题,提出了一种基于元搜索的视频服务网站的搜索方法及系统,可以结合现有的搜索引擎实现针对特定主题的信息搜索,并可尽可能多的,获得高质量的搜索结果。
本发明的技术方案是基于元搜索的,所谓元搜索,是一种对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和使用合适的搜索引擎来实现检索操作。目前,元搜索引擎可以大致分为三类:多线索式元搜索引擎、All-in-one式元搜索引擎和桌面元搜索引擎。
其中,多线索式元搜索引擎是指利用独立的检索界面,实现对多个搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。如:Metacrawler、Savvysearch、Profusion等都是属于这种类型。All-in-one式搜索引擎是指元搜索引擎界面以任意顺序罗列多个搜索引擎,但元搜索引擎本身仅仅提供各搜索引擎的介绍和物理连接机制。桌面元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎。这类元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能。EchoSearch和WebCompass以及本发明所指的元搜索都属于此种类型。
如图1所示,本发明实施例一种基于元搜索的视频服务网站的搜索方法,所述方法可以包括:
步骤101:根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
步骤102:对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
可见,基于上述步骤,在使用了视频搜索数据库中的至少一个搜索关键词进行搜索时,均可获得在所述视频搜索数据库中保存的视频服务网站地址及名称。并且,视频搜索数据库在执行完每一次搜索后,当判断有新的搜索关键词出现时,会不断地更新所述关键词数据库和视频网站数据库,尽可能多的为用户提供与视频服务相关的网站信息。解决了现有技术中存在的问题。
具体的,搜索关键词作为必要的搜索条件,所述方法中生成所述搜索关键词的过程可以包括:
通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
更具体的,初始状态时,搜索关键词可以通过自定义的方式来设定,只要与视频服务相关的关键词均可执行搜索,并可通过搜索引擎获得搜索引擎返回页面。
通过自定义关键词的方式在搜索引擎中获得搜索引擎返回页面,该返回页面的下方会显示与视频服务相关的候选关键词,可以将这些候选关键词作为再次搜索的搜索关键词来获得搜索结果。
具体的,步骤101的具体过程可以包括:
根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
更具体的说,针对根据搜索关键词生成的搜索请求,搜索引擎将反馈搜索引擎返回页面,所述搜索引擎返回页面的内容,保存在中间临时数据库中,作为搜索结果抽取过程的输入数据。经过抽取过程抽取出的候选关键词以及返回结果页面前20页的网址也保存在中间临时数据库中,作为关键词评估的输入数据,评估完毕即删除。
经过搜索结果抽取过程抽取出的搜索引擎返回页面中包含的所有候选网址,保存在候选网址数据库中,作为网址评估的输入数据,评估完毕即删除。
具体的,步骤102的具体过程可以包括:
(1)针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
(2)针对所述候选关键词,根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
更具体的说,(1)针对所述候选网址的评估可以采用如下两种方法中的任意一种:
1)利用朴素Bayes(贝叶斯)分类器对抽取出的候选网址进行预分类;
2)利用网站分类知识库中的启发式规则,主要包括视频服务网站网址的特征,例如:URL的长度是否太长、深度是否太大,是否是表单提交所产生的动态页面,如果是,则该网页不是视频服务类型的;URL中是否包含″movie″、″video″、″shipin″等关键词,如果是,则该网页是视频服务类型的;以及视频服务网站网页内容上的特征,这主要利用″<title>″标签和″<meta>″里的文字是否包含某些关键词,例如:如果包含“软件”、“聊天”等词语,则认为它不是视频服务类网页。利用这些规则可以对朴素Bayes分类器的预分类结果做进一步的判断,以提高分类的准确率。并且根据分类结果适时更新网站分类知识库。
更具体的说,在进行网址评估时,将与视频服务相关的网址及名称添加到视频网站数据库中,其中抽取网站名称的方法可以通过如下所述实现:
从通过搜索关键词返回的搜索引擎返回页面中提取出网页″<title>″标签的内容和网页下方版权声明的文字,若版权声明的文字不存在,则提取该网页最后五行的文字作为版权声明的文字,利用最长公共子串算法提取出″<title>″标签与版权声明文字的最长公共子串,并将此字符串作为网站的名称,对所述网站的名称及对应的网页地址进行记录。
目前,现有的网页信息抽取技术主要有四类:人工构建的信息抽取系统、有监督的信息抽取系统、半监督的信息抽取系统和无监督的信息抽取系统。
有监督的网页信息抽取系统以一个标记来抽取样例的样本网页作为输入,并且输出抽取器。用户提供初始的标记样本,在这类系统中,用户代替程序员完成样本标记的工作,抽取系统再根据标记的样本完成网页信息的抽取。这类系统包括SRV、RAPIER、WHISK、WIEN、STALKER、SoftMealy、NoDoSE和DEByE等。
半监督的网页信息抽取系统主要包括IEPAD、OLERA和Thresher等。与有监督的抽取系统不同的是,OLERA和Thresher接受一个更为粗糙的训练样本并藉此生成抽取规则。这类系统主要用于面向记录级别的抽取任务。
无监督的信息抽取系统既不使用任何标记的样本集也不需要用户的人为干预来完成信息的抽取。RoadRunner和EXALG这类信息抽取系统主要用来解决页面级的信息抽取问题,而DeLa和DEPTA主要用来完成记录级别的信息抽取。
更具体的说,(2)针对所述候选关键词的评估可以采用如下两种方法中的任意一种:
1)判断当前搜索引擎返回结果页面下方的候选关键词与视频服务网站的搜索主题相关程度。若当前返回的搜索结果中所有不是视频服务网站类的网址的比例超过80%,就认为这次搜索引擎返回页面下方的候选关键词与搜索主题相差较远,也就不将该候选关键词保存到关键词数据库中;
2)利用网址评估后获得的视频网站数据库中的网站地址,判断当前候选关键词产生新的网站地址的能力。若当前搜索引擎返回页面中所有包含在视频网站数据库中的网站地址的比例超过80%,就认为这次搜索结果网页下方的候选关键词产生新的网站地址的能力较差,不将其保存到关键词数据库中。
具体的,所述方法还包括:
针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
更具体的说,所述网址合并可以采用如下方法,下面举例说明:
对于两个不同的网址U1和U2,首先判断它们的主机名称是否相同,如果不同则不能合并,否则,判断它们对应的网站名称是否相同,如果不同则不能合并。否则比较它们路径深度的大小,如果U1的路径深度小于U2,则认为U2是U1对应的网站的一部分,可以将U2规约为U1;反之亦然。
如图2所示,基于上述图1所述的方法实施例,提出一种基于元搜索的视频服务网站的搜索系统,所述系统可以包括:
搜索结果获取模块11,用于根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
搜索结果处理模块22,用于对所述搜索结果获取模块获得的所述搜索结果,进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
可见,如上所述的模块11和22,解决了现有技术中存在的搜索难题。
进一步的,所述系统还包括:
搜索关键词生成模块,用于通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
进一步的,所述搜索结果获取模块11具体可以包括:
搜索代理单元111,用于根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
搜索结果抽取单元112,用于抽取所述搜索引擎返回页面中的候选关键词以及候选网址。以获得所述搜索结果。
具体的,所述搜索结果抽取单元将从返回页面中抽取出的候选关键词和返回页面前20页的网址保存在中间临时数据苦中,作为关键词评估过程的输入数据;
将抽取出的返回页面中所有的候选网址保存在候选网址数据库中,作为网址评估过程的输入数据。
进一步的,所述搜索结果处理模块22具体可以包括:
网址评估单元221,用于针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库;
关键词评估单元222,用于根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存到关键词数据库中。
进一步的,所述搜索结果处理模块22具体还包括:
网址合并单元223,用于针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
鉴于本实施例是基于上述如图1所示的方法实施例获得的,其中,本发明实施例中涉及的具体技术方案与上述如图1所示的方法实施例相同,在此不再赘述。
实施例一:
下面结合具体的应用场景,对本发明实施例所述一种基于元搜索的视频服务网站的搜索方法及系统进行详细说明。
如图3所示,为本发明实施例的应用场景图。其中,所述系统包括搜索结果获取模块和搜索结果处理模块,其中,所述搜索结果获取模块包括搜索代理单元和搜索结果抽取单元,每个搜索引擎对应一个或多个搜索代理单元,搜索代理单元根据搜索关键词生成模块获得的搜索关键词,自动生成各搜索引擎的搜索请求。
所述搜索结果处理单元包括关键词评估单元、网址评估单元和网址合并单元。各部分之间共享同一个共享数据库,所述共享数据库包括关键词数据库、候选网址数据库、视频网站数据库、网站分类知识库和中间临时数据库。所述关键词数据库用于存储经过关键词评估后的,与视频服务有关的候选关键词;所述候选网址数据库保存的是从搜索引擎返回页面中抽取出的,未经过网址评估的所有候选网址,存储的这些候选网址将作为网址评估过程的输入数据,评估后的,与视频服务网站相关的结果会存入视频网站数据库中;所述视频网站数据路用于存储经过网址评估后获得的与视频服务相关的网址及网站名称;所述中间数据库用于保存搜索引擎返回页面的内容,经过搜索结果抽取过程抽取出的候选关键词以及从返回结果前二十页抽取出的网址,作为关键词评估过程的输入数据,抽取完即删除。
在图3中,每个模块均可部署在单独的机器上。这样的架构可以支持任意的″N+1″模式。N表示任意多台主机,1表示共享数据库。这样可以使任意多台主机运行同一个服务模块,各主机通过共享数据库进行数据的交换。通过这样的架构可以有效地提高系统的整体性能。本发明为了最大限度的搜索和发现视频服务网站,综合使用了Baidu、Google、Live、Yahoo这四大搜索引擎,每个搜索引擎可以对应一个不同的搜索代理单元,而搜索结果抽取单元、关键词评估单元、网址评估单元和网址合并单元可以是共享的。
所述关键词数据库可以以搜索关键词表的形式来存储搜索关键词,下面举例说明:如表1所示,为搜索关键词表的定义。该搜索关键词表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、BaiduEngine、GoogleEngine、LiveEngine和YahooEngine这6个字段。它们分别表示关键词的编号、实际的关键词、以及关键词是否被相应搜索代理使用的标志。
表1
  属性名   属性类型  属性说明
  ID   INTEGER(1)  关键词的编号
  Keyword   VARchar(20)  实际的关键词名称
  BaiduEngine   INTEGER(1)  取值为0或1。0表示BaiduAgent未使用,1表示已使用。
  GoogleEngine   INTEGER(1)  取值为0或1。0表示GoogleAgent未使用,1表示已使用。
  LiveEngine   INTEGER(1)  取值为0或1。0表示LiveAgent未使用,1表示已使用。
  YahooEngine   INTEGER(1)  取值为0或1。0表示YahooAgent未使用,1表示已使用。
所述候选网址数据库可以通过如表2所示的,为本发明实施例定义的候选网址数据库表的形式来存储。该候选网址数据库表包括属性名。属性类型和属性说明,其中,属性名主要包括SID、SURL、FoundKeys、FDate、LDate和SearchEngine这6个字段。它们分别表示网址的编号、实际的网址、首次发现该网址的搜索关键词、首次发现该网址的时间、最近一次发现该网址的时间和首次发现该网址的搜索引擎。
表2
  属性名   属性类型   属性说明
  SID   INTEGER(1)   网址的编号
  SURL   VARchar(150)   存储实际的网址
  FoundKeys   VARchar(30)   首次发现该网址的搜索关键词
  FDate   VARchar(20)   首次发现该网址的时间
  LDate   VARchar(20)   最近一次发现该网址的时间
  SearchEngine   VARchar(6)   首次发现该网址的搜索引擎
所述视频网站数据库可以通过如表3所示的,为本发明实施例定义的的视频网站数据库表的形式来存储经过评估后的网址及名称。该视频网站数据库表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、URL、HostName和CompanyName这4个字段。它们分别表示网址的编号、实际的网址、网址对应的主机名称和网站的名称。
表3
 属性名   属性类型   属性说明
 ID   INTEGER(1)   网址的编号
 URL   VARchar(150)   存储实际的网址
 HostName   VARchar(50)   网址对应的主机名称
 CompanyName   VARchar(20)   网站的名称
所述中间临时数据库可以通过如表4所示的,为本发明实施例定义的中间临时数据库中返回页面表的形式来存储返回页面的信息。该返回页面表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、Content和PageNo这4个字段。它们分别表示返回页面的编号、使用的搜素关键词、实际的返回页面内容和返回页面的顺序。
表4
  属性名   属性类型   属性说明
  ID   INTEGER(1)   返回页面的编号
  Keyword   VARchar(20)   使用的搜素关键词
  Content   VARchar(5000)   存储实际的返回页面
  PageNo   INTEGER(1)   返回页面的顺序
所述中间临时数据库可以通过如表5所示的,为本发明实施例定义的中间临时数据库中搜索关键词表的形式来存储候选关键词。该搜索关键词表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、Keywords和URL这4个字段。它们分别表示网址的编号、使用的搜素关键词、返回页面下方的相关搜索关键词和实际抽取出的网址。
表5
  属性名   属性类型   属性说明
  ID   INTEGER(1)   网址的编号
  Keyword   VARchar(20)   使用的搜素关键词
  Keywords   VARchar(200)   存储返回页面下方的相关搜索关键词
  URL   VARchar(150)   实际抽取出的网址
如图4所示,为本发明实施例所述系统的结构示意图。本发明所述系统包括搜索结果获取模块和搜索结果处理模块,其中,所述搜索结果获取模块包括搜索代理单元100,搜索结果抽取单元200;所述搜索结果处理模块包括关键词评估单元300,网址评估单元400和网址合并单元500。其中,搜索代理单元100,用于自动生成搜索引擎的搜索请求并获取搜索引擎返回页面;搜索结果抽取单元200,用于解析搜索引擎返回页面,定位并抽取出搜索引擎返回页面中的网址和该页面下方的候选关键词;关键词评估单元300,用于判断当前搜索引擎返回页面下方的候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,如果候选关键词的搜索主题相关程度低或者产生新的网站地址的能力弱,就不再将其保存到关键词数据库中;网址评估单元400,用于利用网站分类知识库中的分类知识和朴素Bayes分类规则,判断当前网页是否属于视频服务类。若是,则抽取出网站的名称,将该网站名称及网址加入到视频网站数据库中,并利用网页中特定的HTML标签的内容对关键词数据库进行搜索关键词扩展;若不是,则丢弃该网址,并修改候选网址数据库中相应网址的类型,以便关键词评估单元300进行关键词评估时作参考;网址合并单元500,用于将视频网站数据库中的非首页地址合并规约为视频服务网站首页的地址。
如图5所示,为本发明实施例中搜索代理单元的工作流程图。
搜索代理单元判断关键词数据库中是否还有未使用的搜索关键词;如果有,取出该搜索关键词,并设置该搜索关键词的状态为“已使用”,否则,结束;
搜索代理单元获取一个未使用的搜索关键词,生成搜索引擎的搜索请求,获取搜索引擎返回页面,并将所述返回页面内容存入中间临时数据库;
搜索代理单元根据搜索引擎返回页面的内容是否发生变化来判断是否读取到了最后一页。如果没有读取到最后一页,则继续读取下一页的内容;否则回到第一步,即判断数据库中是否还有未使用的搜索关键词。
针对上述图5所示的流程图,具体的说,搜索代理单元保存一个ID属性,这个属性与关键词数据库中的ID属性相对应。每次搜索代理单元用完一个搜索关键词ID值就加1,然后以新的ID值作为查询条件查询关键词数据库,获得一条记录。每个搜索代理单元根据相应的****Engine字段的值判断当前关键词是否已经被使用,0表示未使用,1表示已使用。例如:BaiduAgent就依据BaiduEngine字段的值。
如图6所示,为本发明实施例中搜索结果抽取单元的工作流程图。
首先,从中间临时数据库保存的搜索引擎返回页面中,判断是否还有待抽取的搜索引擎返回页面;如果没有,抽取流程结束;如果有,读取并记录该返回页面,并将所述页面从中间临时数据库中删除;抽取该返回页面下方的候选关键词及返回页面中的网址,当抽取出的网址是该返回页面前20页的网址时,将抽取出的候选关键词和前20页的网址存入中间临时数据库中,作为关键词评估的输入数据;将返回页面中抽取出的所有网站保存在候选网址数据库中,作为网址评估过程的输入数据,抽取流程结束。
如图7所示,为本发明实施例中关键词评估单元的工作流程图。
首先,判断中间临时数据库中是否还有待评估的搜索关键词,没有时,则程序退出评估流程。否则,从中间临时数据库中取出与该搜索关键词相关联的所有网址记录(返回页面前20页的网址),在取出记录的同时将它们从中间临时数据库中删除。调用网址评估单元对这些网址进行评估,如果所有非视频服务网站的比例超过80%,则返回第一步。否则,利用候选网址数据库判断这些网址是否是新发现的网址。如果所有不是新发现的网址的比例超过80%,则返回第一步。否则,将该待评估搜索关键词放入关键词数据库中。
如图8所示,为本发明实施例中网址评估单元的工作流程图。
首先,判断候选网址数据库中是否还有待评估的网址,没有,则程序退出。否则,利用朴素Bayes分类器对该网址对应的网页进行分类处理,得到初步识别结果。
如果不是视频服务类,则回到第一步。否则,利用网页分类知识库中的分类知识对初步识别结果进行进一步的识别。这些分类知识主要包括视频服务网站网址的特征,例如URL的长度是否太长、深度是否太大,是否是表单提交所产生的动态页面,如果是则该网页不是视频服务类型的;URL中是否包含″movie″、″video″、″shipin″等关键词,如果是则该网页是视频服务类型的;以及视频服务网站网页内容上的特征,这主要利用″<title>″标签和″<meta>″里的文字是否包含某些关键词,例如如果包含“软件”、“聊天”等词语则认为它不是视频服务类网页。利用这些规则可以对朴素Bayes分类器的预分类结果做进一步的判断,如果不是视频服务类网站地址,则回到第一步。否则,抽取出网站名称,利用网页中的″<meta name=″keywords″标签和″<meta name=description″标签的内容更新搜索关键词数据库,并将网站名称及相应的网址放入视频服务网站数据库。
具体的说,本发明实施例一所述的网站名称抽取可以使用如下方法实现:
提取出网页″<title>″标签的内容和网页下方版权声明的文字。如果版权声明的文字不存在,则提取网页最后五行的文字作为版权声明的文字。然后利用最长公共子串算法提取出″<title>″标签与版权声明文字的最长公共子串,并将此字符串作为网站的名称。
如图9所示,为本发明实施例中网址合并单元的工作流程图。
首先,如果视频网站数据库中已经没有待合并的网址了,则程序退出。否则取出一个待合并网址U,获得其网站名称及主机名称。然后在视频网站数据库中找出所有与U有着相同主机名及网站名称的网址集合。循环处理这个集合,从该集合中取出一条网址。如果该网址的路径深度小于U的路径深度,则将U从视频网站数据库中删除,循环结束;否则删除该网址对应的记录,循环继续。如果U的深度小,那么U最终会留在视频网站数据库中,否则是比U路径深度小的网址留在视频网站数据库中,因此本算法总可以保证得到预期的视频服务网站首页的地址,非首页地址会在合并过程中被删除。
采用本发明实施例所述的方法及系统,能够获得包含了大量搜索关键词和视频网站数据的数据集合,由于采用了本发明所述的技术方案,在每一次搜索视频服务网站的过程中,只要有新的搜索关键词或候选网站的出现,所述数据集合就会有新的数据填充进来,保证了尽可能多的获得视频服务网站地址、名称以及搜索关键词。
通过采用本发明所述的方法及系统,在用户针对特定主题的内容(例如视频服务网站)进行搜索时,尽可能多的获得准确的搜索结果,保证了用户的需求;另一方面,由于目前网络内容复杂多变,应用本发明所述的技术方案可以更好的对网络进行监控,避免不规范内容的发布。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于元搜索的视频服务网站的搜索方法,其特征在于,包括:
根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站;
所述方法还包括:
将通过自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;或者,
根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<metaname=description″标签的内容,生成搜索关键词;
其中,对所述搜索结果进行视频服务相关性判断具体过程包括:
针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
针对所述候选关键词,根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
2.根据权利要求1所述的方法,其特征在于,根据生成的搜索关键词,通过搜索引擎获得搜索结果,具体过程包括:
根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
3.根据权利要求1所述的方法,其特征在于,对所述搜索结果进行视频服务相关性判断具体过程还包括:
针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
4.一种基于元搜索的视频服务网站的搜索系统,其特征在于,包括:
搜索结果获取模块,用于根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
搜索结果处理模块,用于对所述搜索结果获取模块获得的所述搜索结果,进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站;
所述系统还包括:搜索关键词生成模块,用于将通过自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词;
所述搜索结果处理模块具体包括:
网址评估单元,用于针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
关键词评估单元,用于根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
5.根据权利要求4所述的系统,其特征在于,所述搜索结果获取模块具体包括:
搜索代理单元,用于根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
搜索结果抽取单元,用于抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
6.根据权利要求4所述的系统,其特征在于,所述搜索结果处理模块具体还包括:
网址合并单元,用于针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
CN2009100889819A 2009-07-15 2009-07-15 一种基于元搜索的视频服务网站的搜索方法及系统 Expired - Fee Related CN101604324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100889819A CN101604324B (zh) 2009-07-15 2009-07-15 一种基于元搜索的视频服务网站的搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100889819A CN101604324B (zh) 2009-07-15 2009-07-15 一种基于元搜索的视频服务网站的搜索方法及系统

Publications (2)

Publication Number Publication Date
CN101604324A CN101604324A (zh) 2009-12-16
CN101604324B true CN101604324B (zh) 2011-11-23

Family

ID=41470056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100889819A Expired - Fee Related CN101604324B (zh) 2009-07-15 2009-07-15 一种基于元搜索的视频服务网站的搜索方法及系统

Country Status (1)

Country Link
CN (1) CN101604324B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942268B (zh) * 2010-05-31 2018-11-13 百度在线网络技术(北京)有限公司 搜索与应用相结合的方法、设备以及应用接口
CN102063454A (zh) * 2010-05-31 2011-05-18 百度在线网络技术(北京)有限公司 一种搜索与应用相结合的方法和设备
CN103020123B (zh) * 2012-11-16 2016-08-24 中国科学技术大学 一种搜索不良视频网站的方法
CN103034704A (zh) * 2012-12-07 2013-04-10 Tcl集团股份有限公司 一种多媒体文件的搜索方法、装置和系统
CN103108252B (zh) * 2013-01-15 2016-06-22 安徽广行通信科技股份有限公司 一种互联网电视播出的方法及系统
CN103942254B (zh) * 2014-03-18 2017-11-14 电子科技大学 一种面向网盘分享服务的盗版视频资源发现方法
CN104123366A (zh) * 2014-07-23 2014-10-29 谢建平 一种搜索方法及搜索服务器
CN104199865B (zh) * 2014-08-15 2017-09-22 北京奇虎科技有限公司 提供内容提供方的定制结果的搜索方法、客户端和系统
CN104199862B (zh) * 2014-08-15 2017-10-20 北京奇虎科技有限公司 基于内容提供方定制的搜索方法、服务器和系统
CN104699806B (zh) * 2015-03-20 2018-05-08 无锡天脉聚源传媒科技有限公司 一种视频搜索方法及装置
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN105022827B (zh) * 2015-07-23 2016-06-15 合肥工业大学 一种面向领域主题的Web新闻动态聚合方法
CN106021248A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种元搜索引擎相关的视频文件下载系统及方法
EP3621021A1 (en) 2018-09-07 2020-03-11 Delta Electronics, Inc. Data search method and data search system thereof
EP3621022A1 (en) 2018-09-07 2020-03-11 Delta Electronics, Inc. Data analysis method and data analysis system thereof
EP3620936A1 (en) 2018-09-07 2020-03-11 Delta Electronics, Inc. System and method for recommending multimedia data
CN110334282A (zh) * 2019-07-16 2019-10-15 西安文理学院 一种基于人工智能的网站浏览器
CN111737400B (zh) * 2020-06-15 2023-06-20 上海理想信息产业(集团)有限公司 一种基于知识推理的大数据业务标签的扩展方法及系统
CN112749162B (zh) * 2020-12-31 2021-08-17 浙江省方大标准信息有限公司 一种基于es的检验检测机构快速检索排序方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434952A (zh) * 2000-04-18 2003-08-06 韩国电气通信公社 根据有含义中心词检索信息的方法和系统
CN1856791A (zh) * 2003-07-23 2006-11-01 爱尔兰都柏林国立大学-都柏林大学 信息检索
CN101114294A (zh) * 2007-08-22 2008-01-30 杭州经合易智控股有限公司 自助式智能垂直搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434952A (zh) * 2000-04-18 2003-08-06 韩国电气通信公社 根据有含义中心词检索信息的方法和系统
CN1856791A (zh) * 2003-07-23 2006-11-01 爱尔兰都柏林国立大学-都柏林大学 信息检索
CN101114294A (zh) * 2007-08-22 2008-01-30 杭州经合易智控股有限公司 自助式智能垂直搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱明等.基于主题的Web信息个性化服务.《计算机应用》.2002,第22卷(第12期), *

Also Published As

Publication number Publication date
CN101604324A (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN101604324B (zh) 一种基于元搜索的视频服务网站的搜索方法及系统
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN100458784C (zh) 在数字图书馆中所采用的检索系统和检索方法
CN102737133B (zh) 一种实时搜索的方法
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US8126865B1 (en) Systems and methods for syndicating and hosting customized news content
CN101647020A (zh) 搜索结构化地理数据
CN101676907A (zh) 一种互联网资源定向获取方法及系统
CN1938701A (zh) 元数据型预取
CN103020123B (zh) 一种搜索不良视频网站的方法
US20100169756A1 (en) Automated bookmarking
Saad et al. Archiving the web using page changes patterns: a case study
CN101278288A (zh) 管理集束数据数据库存储数据联系结构的系统和方法
CN102682082A (zh) 基于内容结构特征的网络Flash搜索系统及搜索方法
Cambazoglu et al. Quantifying performance and quality gains in distributed web search engines
US20190146954A1 (en) Hierarchical seedlists for application data
CN102236713A (zh) 一种数字电视交互服务页面的信息提取方法及其装置
CN103823805B (zh) 基于社区的相关帖推荐系统及推荐方法
CN110955855A (zh) 一种信息拦截的方法、装置及终端
Mishra et al. An effective algorithm for web mining based on topic sensitive link analysis
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
Wu et al. Seaform: Search-as-you-type in forms
AbuJarour et al. Dynamic tags for dynamic data web services
CN106649462A (zh) 一种针对海量数据全文检索场景的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ANHUI GUANGXING COMMUNICATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: UNIVERSITY OF SCIENCE AND TECHNOLOGY OF CHINA

Effective date: 20130821

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 230026 HEFEI, ANHUI PROVINCE TO: 230001 HEFEI, ANHUI PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130821

Address after: 230001, C4, 12, 800, Wangjiang Industrial Park, Wangjiang Road, Anhui, Hefei

Patentee after: Anhui Guangxing Communication Technology Co., Ltd.

Address before: 230026 Jinzhai Road, Anhui, China, No. 96, No.

Patentee before: University of Science and Technology of China

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111123

Termination date: 20200715

CF01 Termination of patent right due to non-payment of annual fee