发明内容
本发明要解决的技术问题是,提供一种基于元搜索的视频服务网站的搜索方法及系统,能够准确有效地在互连网中尽可能多的搜索到可用度高的,可提供视频服务的网站,解决了现有技术存在的问题。
本发明的技术方案如下所述:
本发明提供了一种基于元搜索的视频服务网站的搜索方法,所述方法包括:
根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
进一步的,所述方法还包括:
通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
进一步的,根据生成的搜索关键词,通过搜索引擎获得搜索结果,具体过程包括:
根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
进一步的,对所述搜索结果进行视频服务相关性判断,具体过程包括:
针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
针对所述候选关键词,根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
进一步的,所述方法还包括:
针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
本发明提供了一种基于元搜索的视频服务网站的搜索系统,所述系统包括:
搜索结果获取模块,用于根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
搜索结果处理模块,用于对所述搜索结果获取模块获得的所述搜索结果,进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
优选的,所述系统还包括:
搜索关键词生成模块,用于通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
优选的,所述搜索结果获取模块具体包括:
搜索代理单元,用于根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
搜索结果抽取单元,用于抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
优选的,所述搜索结果处理模块具体包括:
网址评估单元,用于针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库;
关键词评估单元,用于根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存到关键词数据库中。
优选的,所述搜索结果处理模块具体还包括:
网址合并单元,用于针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
本发明的有益效果:
本发明所述的技术方案,综合使用了元搜索技术、网页信息抽取技术和网站主题识别技术,有效地解决了利用现有的网络搜索引擎针对特定主题的内容进行搜索时,无法尽可能多的,获得准确、高质量的搜索内容的问题。
具体实施方式
为了进一步说明本发明实施例一种基于元搜索的视频服务网站的搜索方法及系统,下面进行详细说明。
由于互联网技术的飞速发展,互联网上信息量也在猛增,利用现有的互联网搜索引擎无法实现针对特定主题进行搜索服务,给用户带来了搜索难题。本发明实施例结合现有技术存在的问题,提出了一种基于元搜索的视频服务网站的搜索方法及系统,可以结合现有的搜索引擎实现针对特定主题的信息搜索,并可尽可能多的,获得高质量的搜索结果。
本发明的技术方案是基于元搜索的,所谓元搜索,是一种对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和使用合适的搜索引擎来实现检索操作。目前,元搜索引擎可以大致分为三类:多线索式元搜索引擎、All-in-one式元搜索引擎和桌面元搜索引擎。
其中,多线索式元搜索引擎是指利用独立的检索界面,实现对多个搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。如:Metacrawler、Savvysearch、Profusion等都是属于这种类型。All-in-one式搜索引擎是指元搜索引擎界面以任意顺序罗列多个搜索引擎,但元搜索引擎本身仅仅提供各搜索引擎的介绍和物理连接机制。桌面元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎。这类元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能。EchoSearch和WebCompass以及本发明所指的元搜索都属于此种类型。
如图1所示,本发明实施例一种基于元搜索的视频服务网站的搜索方法,所述方法可以包括:
步骤101:根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
步骤102:对所述搜索结果进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
可见,基于上述步骤,在使用了视频搜索数据库中的至少一个搜索关键词进行搜索时,均可获得在所述视频搜索数据库中保存的视频服务网站地址及名称。并且,视频搜索数据库在执行完每一次搜索后,当判断有新的搜索关键词出现时,会不断地更新所述关键词数据库和视频网站数据库,尽可能多的为用户提供与视频服务相关的网站信息。解决了现有技术中存在的问题。
具体的,搜索关键词作为必要的搜索条件,所述方法中生成所述搜索关键词的过程可以包括:
通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
更具体的,初始状态时,搜索关键词可以通过自定义的方式来设定,只要与视频服务相关的关键词均可执行搜索,并可通过搜索引擎获得搜索引擎返回页面。
通过自定义关键词的方式在搜索引擎中获得搜索引擎返回页面,该返回页面的下方会显示与视频服务相关的候选关键词,可以将这些候选关键词作为再次搜索的搜索关键词来获得搜索结果。
具体的,步骤101的具体过程可以包括:
根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
抽取所述搜索引擎返回页面中的候选关键词以及候选网址,以获得所述搜索结果。
更具体的说,针对根据搜索关键词生成的搜索请求,搜索引擎将反馈搜索引擎返回页面,所述搜索引擎返回页面的内容,保存在中间临时数据库中,作为搜索结果抽取过程的输入数据。经过抽取过程抽取出的候选关键词以及返回结果页面前20页的网址也保存在中间临时数据库中,作为关键词评估的输入数据,评估完毕即删除。
经过搜索结果抽取过程抽取出的搜索引擎返回页面中包含的所有候选网址,保存在候选网址数据库中,作为网址评估的输入数据,评估完毕即删除。
具体的,步骤102的具体过程可以包括:
(1)针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库中;
(2)针对所述候选关键词,根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存在关键词数据库中。
更具体的说,(1)针对所述候选网址的评估可以采用如下两种方法中的任意一种:
1)利用朴素Bayes(贝叶斯)分类器对抽取出的候选网址进行预分类;
2)利用网站分类知识库中的启发式规则,主要包括视频服务网站网址的特征,例如:URL的长度是否太长、深度是否太大,是否是表单提交所产生的动态页面,如果是,则该网页不是视频服务类型的;URL中是否包含″movie″、″video″、″shipin″等关键词,如果是,则该网页是视频服务类型的;以及视频服务网站网页内容上的特征,这主要利用″<title>″标签和″<meta>″里的文字是否包含某些关键词,例如:如果包含“软件”、“聊天”等词语,则认为它不是视频服务类网页。利用这些规则可以对朴素Bayes分类器的预分类结果做进一步的判断,以提高分类的准确率。并且根据分类结果适时更新网站分类知识库。
更具体的说,在进行网址评估时,将与视频服务相关的网址及名称添加到视频网站数据库中,其中抽取网站名称的方法可以通过如下所述实现:
从通过搜索关键词返回的搜索引擎返回页面中提取出网页″<title>″标签的内容和网页下方版权声明的文字,若版权声明的文字不存在,则提取该网页最后五行的文字作为版权声明的文字,利用最长公共子串算法提取出″<title>″标签与版权声明文字的最长公共子串,并将此字符串作为网站的名称,对所述网站的名称及对应的网页地址进行记录。
目前,现有的网页信息抽取技术主要有四类:人工构建的信息抽取系统、有监督的信息抽取系统、半监督的信息抽取系统和无监督的信息抽取系统。
有监督的网页信息抽取系统以一个标记来抽取样例的样本网页作为输入,并且输出抽取器。用户提供初始的标记样本,在这类系统中,用户代替程序员完成样本标记的工作,抽取系统再根据标记的样本完成网页信息的抽取。这类系统包括SRV、RAPIER、WHISK、WIEN、STALKER、SoftMealy、NoDoSE和DEByE等。
半监督的网页信息抽取系统主要包括IEPAD、OLERA和Thresher等。与有监督的抽取系统不同的是,OLERA和Thresher接受一个更为粗糙的训练样本并藉此生成抽取规则。这类系统主要用于面向记录级别的抽取任务。
无监督的信息抽取系统既不使用任何标记的样本集也不需要用户的人为干预来完成信息的抽取。RoadRunner和EXALG这类信息抽取系统主要用来解决页面级的信息抽取问题,而DeLa和DEPTA主要用来完成记录级别的信息抽取。
更具体的说,(2)针对所述候选关键词的评估可以采用如下两种方法中的任意一种:
1)判断当前搜索引擎返回结果页面下方的候选关键词与视频服务网站的搜索主题相关程度。若当前返回的搜索结果中所有不是视频服务网站类的网址的比例超过80%,就认为这次搜索引擎返回页面下方的候选关键词与搜索主题相差较远,也就不将该候选关键词保存到关键词数据库中;
2)利用网址评估后获得的视频网站数据库中的网站地址,判断当前候选关键词产生新的网站地址的能力。若当前搜索引擎返回页面中所有包含在视频网站数据库中的网站地址的比例超过80%,就认为这次搜索结果网页下方的候选关键词产生新的网站地址的能力较差,不将其保存到关键词数据库中。
具体的,所述方法还包括:
针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
更具体的说,所述网址合并可以采用如下方法,下面举例说明:
对于两个不同的网址U1和U2,首先判断它们的主机名称是否相同,如果不同则不能合并,否则,判断它们对应的网站名称是否相同,如果不同则不能合并。否则比较它们路径深度的大小,如果U1的路径深度小于U2,则认为U2是U1对应的网站的一部分,可以将U2规约为U1;反之亦然。
如图2所示,基于上述图1所述的方法实施例,提出一种基于元搜索的视频服务网站的搜索系统,所述系统可以包括:
搜索结果获取模块11,用于根据生成的搜索关键词,通过搜索引擎获得搜索结果;所述搜索结果包括从搜索引擎返回页面中获得的候选网址以及候选关键词;
搜索结果处理模块22,用于对所述搜索结果获取模块获得的所述搜索结果,进行视频服务相关性判断,将满足所述相关性的搜索结果添加到视频搜索数据库中,以获得可提供视频服务的网站。
可见,如上所述的模块11和22,解决了现有技术中存在的搜索难题。
进一步的,所述系统还包括:
搜索关键词生成模块,用于通过自定义的方式,生成与视频服务网站相关的搜索关键词;
或者,将通过所述自定义的方式生成的所述搜索关键词在搜索引擎中获得的候选关键词,作为搜索关键词;
或者,根据满足视频服务相关性的候选网址中″<meta name=″keywords″标签和″<meta name=description″标签的内容,生成搜索关键词。
进一步的,所述搜索结果获取模块11具体可以包括:
搜索代理单元111,用于根据所述搜索关键词生成搜索请求,并根据所述搜索请求在所述搜索引擎中获得搜索引擎返回页面;
搜索结果抽取单元112,用于抽取所述搜索引擎返回页面中的候选关键词以及候选网址。以获得所述搜索结果。
具体的,所述搜索结果抽取单元将从返回页面中抽取出的候选关键词和返回页面前20页的网址保存在中间临时数据苦中,作为关键词评估过程的输入数据;
将抽取出的返回页面中所有的候选网址保存在候选网址数据库中,作为网址评估过程的输入数据。
进一步的,所述搜索结果处理模块22具体可以包括:
网址评估单元221,用于针对所述候选网址,根据网站分类知识库和贝叶斯分类规则,判断所述候选网址是否与视频服务相关,当不满足时,丢弃该候选网址,否则,将该候选网址及名称添加到视频网站数据库;
关键词评估单元222,用于根据所述候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,来判断该候选关键词是否与视频服务相关;当不满足时,丢弃该候选关键词,否则,将该候选关键词保存到关键词数据库中。
进一步的,所述搜索结果处理模块22具体还包括:
网址合并单元223,用于针对所述候选网址,将满足视频服务相关性的候选网址及名称添加到所述视频网站数据库后,当所述视频网站数据库中包含非首页的网站地址时,将所述非首页网站地址合并为视频网站的首页地址。
鉴于本实施例是基于上述如图1所示的方法实施例获得的,其中,本发明实施例中涉及的具体技术方案与上述如图1所示的方法实施例相同,在此不再赘述。
实施例一:
下面结合具体的应用场景,对本发明实施例所述一种基于元搜索的视频服务网站的搜索方法及系统进行详细说明。
如图3所示,为本发明实施例的应用场景图。其中,所述系统包括搜索结果获取模块和搜索结果处理模块,其中,所述搜索结果获取模块包括搜索代理单元和搜索结果抽取单元,每个搜索引擎对应一个或多个搜索代理单元,搜索代理单元根据搜索关键词生成模块获得的搜索关键词,自动生成各搜索引擎的搜索请求。
所述搜索结果处理单元包括关键词评估单元、网址评估单元和网址合并单元。各部分之间共享同一个共享数据库,所述共享数据库包括关键词数据库、候选网址数据库、视频网站数据库、网站分类知识库和中间临时数据库。所述关键词数据库用于存储经过关键词评估后的,与视频服务有关的候选关键词;所述候选网址数据库保存的是从搜索引擎返回页面中抽取出的,未经过网址评估的所有候选网址,存储的这些候选网址将作为网址评估过程的输入数据,评估后的,与视频服务网站相关的结果会存入视频网站数据库中;所述视频网站数据路用于存储经过网址评估后获得的与视频服务相关的网址及网站名称;所述中间数据库用于保存搜索引擎返回页面的内容,经过搜索结果抽取过程抽取出的候选关键词以及从返回结果前二十页抽取出的网址,作为关键词评估过程的输入数据,抽取完即删除。
在图3中,每个模块均可部署在单独的机器上。这样的架构可以支持任意的″N+1″模式。N表示任意多台主机,1表示共享数据库。这样可以使任意多台主机运行同一个服务模块,各主机通过共享数据库进行数据的交换。通过这样的架构可以有效地提高系统的整体性能。本发明为了最大限度的搜索和发现视频服务网站,综合使用了Baidu、Google、Live、Yahoo这四大搜索引擎,每个搜索引擎可以对应一个不同的搜索代理单元,而搜索结果抽取单元、关键词评估单元、网址评估单元和网址合并单元可以是共享的。
所述关键词数据库可以以搜索关键词表的形式来存储搜索关键词,下面举例说明:如表1所示,为搜索关键词表的定义。该搜索关键词表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、BaiduEngine、GoogleEngine、LiveEngine和YahooEngine这6个字段。它们分别表示关键词的编号、实际的关键词、以及关键词是否被相应搜索代理使用的标志。
表1
属性名 |
属性类型 |
属性说明 |
ID |
INTEGER(1) |
关键词的编号 |
Keyword |
VARchar(20) |
实际的关键词名称 |
BaiduEngine |
INTEGER(1) |
取值为0或1。0表示BaiduAgent未使用,1表示已使用。 |
GoogleEngine |
INTEGER(1) |
取值为0或1。0表示GoogleAgent未使用,1表示已使用。 |
LiveEngine |
INTEGER(1) |
取值为0或1。0表示LiveAgent未使用,1表示已使用。 |
YahooEngine |
INTEGER(1) |
取值为0或1。0表示YahooAgent未使用,1表示已使用。 |
所述候选网址数据库可以通过如表2所示的,为本发明实施例定义的候选网址数据库表的形式来存储。该候选网址数据库表包括属性名。属性类型和属性说明,其中,属性名主要包括SID、SURL、FoundKeys、FDate、LDate和SearchEngine这6个字段。它们分别表示网址的编号、实际的网址、首次发现该网址的搜索关键词、首次发现该网址的时间、最近一次发现该网址的时间和首次发现该网址的搜索引擎。
表2
属性名 |
属性类型 |
属性说明 |
SID |
INTEGER(1) |
网址的编号 |
SURL |
VARchar(150) |
存储实际的网址 |
FoundKeys |
VARchar(30) |
首次发现该网址的搜索关键词 |
FDate |
VARchar(20) |
首次发现该网址的时间 |
LDate |
VARchar(20) |
最近一次发现该网址的时间 |
SearchEngine |
VARchar(6) |
首次发现该网址的搜索引擎 |
所述视频网站数据库可以通过如表3所示的,为本发明实施例定义的的视频网站数据库表的形式来存储经过评估后的网址及名称。该视频网站数据库表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、URL、HostName和CompanyName这4个字段。它们分别表示网址的编号、实际的网址、网址对应的主机名称和网站的名称。
表3
属性名 |
属性类型 |
属性说明 |
ID |
INTEGER(1) |
网址的编号 |
URL |
VARchar(150) |
存储实际的网址 |
HostName |
VARchar(50) |
网址对应的主机名称 |
CompanyName |
VARchar(20) |
网站的名称 |
所述中间临时数据库可以通过如表4所示的,为本发明实施例定义的中间临时数据库中返回页面表的形式来存储返回页面的信息。该返回页面表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、Content和PageNo这4个字段。它们分别表示返回页面的编号、使用的搜素关键词、实际的返回页面内容和返回页面的顺序。
表4
属性名 |
属性类型 |
属性说明 |
ID |
INTEGER(1) |
返回页面的编号 |
Keyword |
VARchar(20) |
使用的搜素关键词 |
Content |
VARchar(5000) |
存储实际的返回页面 |
PageNo |
INTEGER(1) |
返回页面的顺序 |
所述中间临时数据库可以通过如表5所示的,为本发明实施例定义的中间临时数据库中搜索关键词表的形式来存储候选关键词。该搜索关键词表包括属性名。属性类型和属性说明,其中,属性名主要包括ID、Keyword、Keywords和URL这4个字段。它们分别表示网址的编号、使用的搜素关键词、返回页面下方的相关搜索关键词和实际抽取出的网址。
表5
属性名 |
属性类型 |
属性说明 |
ID |
INTEGER(1) |
网址的编号 |
Keyword |
VARchar(20) |
使用的搜素关键词 |
Keywords |
VARchar(200) |
存储返回页面下方的相关搜索关键词 |
URL |
VARchar(150) |
实际抽取出的网址 |
如图4所示,为本发明实施例所述系统的结构示意图。本发明所述系统包括搜索结果获取模块和搜索结果处理模块,其中,所述搜索结果获取模块包括搜索代理单元100,搜索结果抽取单元200;所述搜索结果处理模块包括关键词评估单元300,网址评估单元400和网址合并单元500。其中,搜索代理单元100,用于自动生成搜索引擎的搜索请求并获取搜索引擎返回页面;搜索结果抽取单元200,用于解析搜索引擎返回页面,定位并抽取出搜索引擎返回页面中的网址和该页面下方的候选关键词;关键词评估单元300,用于判断当前搜索引擎返回页面下方的候选关键词与视频服务网站的搜索主题相关程度以及产生新的网站地址的能力,如果候选关键词的搜索主题相关程度低或者产生新的网站地址的能力弱,就不再将其保存到关键词数据库中;网址评估单元400,用于利用网站分类知识库中的分类知识和朴素Bayes分类规则,判断当前网页是否属于视频服务类。若是,则抽取出网站的名称,将该网站名称及网址加入到视频网站数据库中,并利用网页中特定的HTML标签的内容对关键词数据库进行搜索关键词扩展;若不是,则丢弃该网址,并修改候选网址数据库中相应网址的类型,以便关键词评估单元300进行关键词评估时作参考;网址合并单元500,用于将视频网站数据库中的非首页地址合并规约为视频服务网站首页的地址。
如图5所示,为本发明实施例中搜索代理单元的工作流程图。
搜索代理单元判断关键词数据库中是否还有未使用的搜索关键词;如果有,取出该搜索关键词,并设置该搜索关键词的状态为“已使用”,否则,结束;
搜索代理单元获取一个未使用的搜索关键词,生成搜索引擎的搜索请求,获取搜索引擎返回页面,并将所述返回页面内容存入中间临时数据库;
搜索代理单元根据搜索引擎返回页面的内容是否发生变化来判断是否读取到了最后一页。如果没有读取到最后一页,则继续读取下一页的内容;否则回到第一步,即判断数据库中是否还有未使用的搜索关键词。
针对上述图5所示的流程图,具体的说,搜索代理单元保存一个ID属性,这个属性与关键词数据库中的ID属性相对应。每次搜索代理单元用完一个搜索关键词ID值就加1,然后以新的ID值作为查询条件查询关键词数据库,获得一条记录。每个搜索代理单元根据相应的****Engine字段的值判断当前关键词是否已经被使用,0表示未使用,1表示已使用。例如:BaiduAgent就依据BaiduEngine字段的值。
如图6所示,为本发明实施例中搜索结果抽取单元的工作流程图。
首先,从中间临时数据库保存的搜索引擎返回页面中,判断是否还有待抽取的搜索引擎返回页面;如果没有,抽取流程结束;如果有,读取并记录该返回页面,并将所述页面从中间临时数据库中删除;抽取该返回页面下方的候选关键词及返回页面中的网址,当抽取出的网址是该返回页面前20页的网址时,将抽取出的候选关键词和前20页的网址存入中间临时数据库中,作为关键词评估的输入数据;将返回页面中抽取出的所有网站保存在候选网址数据库中,作为网址评估过程的输入数据,抽取流程结束。
如图7所示,为本发明实施例中关键词评估单元的工作流程图。
首先,判断中间临时数据库中是否还有待评估的搜索关键词,没有时,则程序退出评估流程。否则,从中间临时数据库中取出与该搜索关键词相关联的所有网址记录(返回页面前20页的网址),在取出记录的同时将它们从中间临时数据库中删除。调用网址评估单元对这些网址进行评估,如果所有非视频服务网站的比例超过80%,则返回第一步。否则,利用候选网址数据库判断这些网址是否是新发现的网址。如果所有不是新发现的网址的比例超过80%,则返回第一步。否则,将该待评估搜索关键词放入关键词数据库中。
如图8所示,为本发明实施例中网址评估单元的工作流程图。
首先,判断候选网址数据库中是否还有待评估的网址,没有,则程序退出。否则,利用朴素Bayes分类器对该网址对应的网页进行分类处理,得到初步识别结果。
如果不是视频服务类,则回到第一步。否则,利用网页分类知识库中的分类知识对初步识别结果进行进一步的识别。这些分类知识主要包括视频服务网站网址的特征,例如URL的长度是否太长、深度是否太大,是否是表单提交所产生的动态页面,如果是则该网页不是视频服务类型的;URL中是否包含″movie″、″video″、″shipin″等关键词,如果是则该网页是视频服务类型的;以及视频服务网站网页内容上的特征,这主要利用″<title>″标签和″<meta>″里的文字是否包含某些关键词,例如如果包含“软件”、“聊天”等词语则认为它不是视频服务类网页。利用这些规则可以对朴素Bayes分类器的预分类结果做进一步的判断,如果不是视频服务类网站地址,则回到第一步。否则,抽取出网站名称,利用网页中的″<meta name=″keywords″标签和″<meta name=description″标签的内容更新搜索关键词数据库,并将网站名称及相应的网址放入视频服务网站数据库。
具体的说,本发明实施例一所述的网站名称抽取可以使用如下方法实现:
提取出网页″<title>″标签的内容和网页下方版权声明的文字。如果版权声明的文字不存在,则提取网页最后五行的文字作为版权声明的文字。然后利用最长公共子串算法提取出″<title>″标签与版权声明文字的最长公共子串,并将此字符串作为网站的名称。
如图9所示,为本发明实施例中网址合并单元的工作流程图。
首先,如果视频网站数据库中已经没有待合并的网址了,则程序退出。否则取出一个待合并网址U,获得其网站名称及主机名称。然后在视频网站数据库中找出所有与U有着相同主机名及网站名称的网址集合。循环处理这个集合,从该集合中取出一条网址。如果该网址的路径深度小于U的路径深度,则将U从视频网站数据库中删除,循环结束;否则删除该网址对应的记录,循环继续。如果U的深度小,那么U最终会留在视频网站数据库中,否则是比U路径深度小的网址留在视频网站数据库中,因此本算法总可以保证得到预期的视频服务网站首页的地址,非首页地址会在合并过程中被删除。
采用本发明实施例所述的方法及系统,能够获得包含了大量搜索关键词和视频网站数据的数据集合,由于采用了本发明所述的技术方案,在每一次搜索视频服务网站的过程中,只要有新的搜索关键词或候选网站的出现,所述数据集合就会有新的数据填充进来,保证了尽可能多的获得视频服务网站地址、名称以及搜索关键词。
通过采用本发明所述的方法及系统,在用户针对特定主题的内容(例如视频服务网站)进行搜索时,尽可能多的获得准确的搜索结果,保证了用户的需求;另一方面,由于目前网络内容复杂多变,应用本发明所述的技术方案可以更好的对网络进行监控,避免不规范内容的发布。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。