CN100456286C - 一种通用的文件搜索系统及方法 - Google Patents

一种通用的文件搜索系统及方法 Download PDF

Info

Publication number
CN100456286C
CN100456286C CNB2005100328799A CN200510032879A CN100456286C CN 100456286 C CN100456286 C CN 100456286C CN B2005100328799 A CNB2005100328799 A CN B2005100328799A CN 200510032879 A CN200510032879 A CN 200510032879A CN 100456286 C CN100456286 C CN 100456286C
Authority
CN
China
Prior art keywords
resource
search
unit
file
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100328799A
Other languages
English (en)
Other versions
CN1808426A (zh
Inventor
马岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jin Hui Optoelectronics Technology Co., Ltd.
Original Assignee
马岩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 马岩 filed Critical 马岩
Priority to CNB2005100328799A priority Critical patent/CN100456286C/zh
Publication of CN1808426A publication Critical patent/CN1808426A/zh
Application granted granted Critical
Publication of CN100456286C publication Critical patent/CN100456286C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种通用的文件搜索系统,其包括有资源搜索单元、结果页面生成单元、资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元。本发明同时涉及一种通用的文件搜索方法,其不仅能搜索出互联网中的媒体资源,而且可以对资源的有效性进行验证并加以整理,过滤掉无效的资源,然后在所有符合搜索关键字的资源中,挑选出最有效的、无重复的资源返回给用户,并通过反馈单元不断优化搜索结果,去除无效的搜索结果。本发明具有搜索快速的优点,并提高了搜索的准确性和降低了重复率。

Description

一种通用的文件搜索系统及方法
技术领域
本发明涉及一种文件搜索系统及方法,特别涉及一种利用计算机互联网,可对搜索到的资源进行有效性验证和整理,具有高准确性和低重复率的文件搜索系统及方法。
背景技术
由于互联网能够廉价、迅速、高效的传递信息,网络资源又十分丰富,因此很多人开始利用互联网来查询信息、查找和获取所需的资源,如电脑游戏、歌曲MP3、电影、图片等,而且有越来越多的媒体发行通过网络来进行,以求扩大覆盖范围。网络作为最大的信息载体和交流平台,已成为许多人获取信息的重要途径。
人们使用互联网来寻找信息和获取资源的主要方法之一,是通过搜索引擎。目前,常用的搜索技术是以文字信息为基础的,它所依赖的资源整理技术是通过在网络上大量搜索具有相同特征文本的资源地址,并将结果整理到数据仓库中,提供给用户搜索使用。用户使用软件或者通过浏览器,输入搜索的关键字,搜索引擎去服务器查询,然后返回所有与关键字匹配的记录集合。这种常用搜索方法存在着很大的不足。由于互联网上的网站成千上万,总体资源量非常大,其中也包括了大量的无效资源,诸如包括无法下载的或下载后无法使用的资源,另外,还有大量的重复资源。资源的有效性并不高,搜索出的大量结果中,存在很多重复结果或无效结果,只有少数是有效且可以被使用的。用户面对成千上万的搜索结果,很难马上找到所需要的资源,从而导致浏览者迷失在信息的海洋中。同时,由于计算机技术的多样性,用户的一次搜索,可能会得到符合目标的多个类型的资源(如:内容相同的rar和zip文件,只是压缩格式不同,解压后结果相同),相同的资源也可能在名称上不一致。面对不同的文件,用户常常无从选择。
在现阶段,尚没有一个很好的方法解决了上述提到的问题。在大多数情况下,搜索者需要在搜索出的大量结果中依次进行尝试,直到找到一个有效的资源。目前的搜索引擎技术,不能判断出资源是否有效,也不能判断出哪个文件类型的资源更有效,给用户的使用上带来不便。
发明内容
本发明所要解决的技术问题在于:为了克服现有搜索引擎技术不能判断所搜索的文件资源是否有效及存在大量重复的不足,本发明提供一种具有高准确性和低重复率的文件搜索系统和方法,利用该系统和方法,可以对所搜索的资源进行有效性验证、整理,可过滤掉无效的资源并能为用户挑选出最有效的、无重复的资源。
本发明所采用的技术方案在于:本发明提供一种通用的文件搜索系统,其包括有资源搜索单元及结果页面生成单元,该资源搜索单元主要用于搜索预定的目标网站,并记录所搜索网站上的文件资源,进一步包括有资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元;该资源验证单元用来验证资源搜索单元所搜索的文件资源是否有效,舍弃无效的资源,计算有效的资源中文件片断的信息摘要值,将该有效资源存入资源数据库;该资源数据库用来存放经过资源验证单元验证的、有效的资源的信息;该资源整理单元用来给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将用于检索的资源存入搜索数据库;检索单元接受搜索用户提交的检索要求,并根据检索要求中的关键字在搜索数据库的资源名称中进行匹配,生成搜索结果的核心内容;结果页面生成单元用于根据预先设置的网页格式模板,将搜索结果核心内容生成最终结果页面;反馈单元集成在系统的客户端,其能检测所下载的资源的有效性,并生成一资源状态报告,并可将该资源状态报告发送给资源更新单元;资源更新单元用于接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,删除该资源数据库和搜索数据库中的无效资源。
在本技术方案的进一步改进中,所述资源搜索单元所搜索的信息包括资源URL、资源名称、文件类型、文件大小、资源描述。
在本技术方案的进一步改进中,检索单元生成的搜索结果的核心内容包括有资源名称、资源的简要描述及资源的URL。
在本技术方案的进一步改进中,所述资源搜索单元、结果页面生成单元、资源验证单元、资源整理单元、检索单元及资源更新单元,可以安装在不同的应用程序服务器中,这些应用程序服务器通过互联网或内部网络相连。
在本发明的另一技术方案中,本发明还提供了一种通用的文件搜索方法,其用于搜索计算机互联网络的资源,其包括以下步骤:(a)资源搜索单元搜索网络上的文件信息,并分析出文件的标题名称、真实存储链接、文件类型、描述说明信息,然后将所有信息存放到该资料搜索单元的数据库中;(b)资源验证单元对资源搜索单元记录下来的资源进行有效性验证,并对有效资源的内容作出标识,过滤掉无效的资源;(c)资源整理单元整理资源,给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将用于检索的资源存入搜索数据库;(d)检索单元响应用户的搜索请求,在所述搜索数据库中的搜索索引库中查找资源名称中包含搜索请求的关键字的资源信息,生成搜索结果的核心内容;(e)结果页面生成单元根据预设置的网页格式模板,将搜索结果核心内容生成结果页面,显示给用户。
在本技术方案的进一步改进中,在步骤(e)后进一步包括有如下步骤:(f)集成客户端的反馈单元检查正在下载资源的有效性,并生成资源状态报告,传给服务器的资源更新单元;(g)资源更新单元接收该资源状态报告,更新搜索数据库中和用于存储有效资源信息的资源数据库中的资料,将其中无效的资源删除。
在本技术方案的进一步改进中,所述步骤(b)还包括如下步骤:(b1)定义文件片断信息摘要值的计算规则和算法;(b2)从资源搜索单元的搜索结果中取出资源URL;(b3)对其URL为重定向URL的资源,则确定它实际的URL,并用该实际的URL更新资源URL;(b4)根据该资源URL请求资源文件,如资源文件无法请求到,则被视为无效资源;(b5)根据预定义的算法,计算资源的文件片断信息摘要值;(b6)将有效资源的信息存储到资源数据库。
在本技术方案的进一步改进中,还包括在任何能够解析html的浏览器或者软件中查看结果页面的步骤。
在本技术方案的进一步改进中,步骤(c)进一步包括如下步骤:(c1)通过网络连接或者本地硬盘通信,向资源数据库发出请求,取得所有待整理的资源信息;(c2)对文件片断信息摘要值相同的资源进行过滤;(c3)先取出有效性最佳的资源的文件类型,保留所有该类型资源,删除所有不同类型资源;(c4)取出有效性最佳的资源的文件大小,保留所有该大小的资源,删除所有不同大小的资源;(c5)找出同类的资源中最有效的一个资源,放入搜索数据库。
在本技术方案的进一步改进中,步骤(g)进一步包括如下步骤:(g1)资源更新单元对资源状态报告中下载报告失败的资源,更新其下载失败的次数;(g2)判断该资源下载失败的次数是否超过一预定的阀值,如果下载失败的次数超过该阀值,则从搜索数据库及资源数据库中删除该资源。
本发明的有益效果在于:本发明所提供的文件搜索系统及方法,其不仅能搜索出互联网中的媒体资源,而且可以对资源的有效性进行验证并加以整理,过滤掉无效的资源,然后在所有符合搜索关键字的资源中,挑选出最有效的、无重复的资源返回给用户。搜索引擎可以将资源限定在有效资源的范围内,而搜索者则可以简单的通过搜索引擎,以“关键字搜索”的方式,来获得可下载、易下载、可用的资源。通过对数据库中的信息进行特征值唯一性处理,从而使相同的信息具有唯一性,完全相同的信息只在搜索结果中出现一次,从而降低搜索结果重复率,并且结合客户端的搜索结果获取,反馈单元不断优化搜索结果,去除无效的搜索结果。其具有搜索快速的优点,提高了搜索的准确性和降低了重复率。
附图说明
图1是本发明一种通用的文件搜索系统的原理框图。
图2是本发明一种通用的文件搜索方法的资源搜索单元的工作流程图。
图3是本发明一种通用的文件搜索方法的资源验证单元的工作流程图。
图4是本发明一种通用的文件搜索方法的资源整理单元的工作流程图。
图5是本发明一种通用的文件搜索方法的检索单元的工作流程图。
图6是本发明一种通用的文件搜索方法的反馈单元的工作流程图。
图7是本发明一种通用的文件搜索方法的资源更新单元的工作流程图。
具体实施方式
如图1所示,是本发明通用的文件搜索系统原理框图。在本发明中,主要会涉及到如下子系统:资源搜索单元、资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、结果页面生成单元、反馈单元和资源更新单元。上述单元是按照功能设置的软件系统,可以分别运行在不同的服务器中,这些服务器通过互联网或内部网络相连。这些服务器可以是各种品牌和配置的服务器,例如可以采用Dell、HPQ、IBM、联想或方正等品牌的服务器。相应服务器上的操作系统也可以有多种选择,如Windows、Linux、Solaris等操作系统。下述对各单元具体功能进行说明:
资源搜索单元主要用于搜索目标网站,并根据预设定,记录所搜索的目标网站上各种所需的文件资源信息。
资源验证单元用来验证所搜索资源是否有效,将无效的资源舍弃,对有效的资源,计算其中文件片断的信息摘要值,然后将这些有效资源放入资源数据库。通过文件片断信息摘要值、文件大小和文件类型确定完全相同的同一个文件。
资源数据库用来存放经过资源验证单元验证的、有效的资源的信息。
资源整理单元用来过滤资源,根据设定的规则给出相同文件的标题名称、版本和说明,并结合信息摘要值、文件大小、文件类型组成完全相同文件的特征描述。在此基础上,进一步分析,对于相同的文件标题和版本,只在搜索结果中出现一个,根据规则建立搜索索引库,并将该用于检索的资源存入搜索数据库。
搜索数据库存放可用于检索的资源信息。
检索单元接受搜索用户提交的关键字,并根据关键字在搜索数据库的资源名称中进行匹配,给出相应的搜索结果的核心内容。
结果页面生成单元用于根据预先设置的网页格式模板,将检索单元中的搜索结果核心内容整合起来,生成最终结果页面,显示给用户。
反馈单元集成在系统的客户端,当搜索用户利用集成有反馈单元的客户端进行下载时,该反馈单元会检测资源的有效性,并生成一资源状态报告,并将该资源状态报告发送给资源更新单元,以报告所检测到的无效的资源。
资源更新单元:接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,来保证该两数据库中资源的有效性。
下面结合附图2至图7,来说明本发明一种通用的文件搜索方法的具体实现过程。
第一步,首先需要在网络上搜索信息,并对搜索到的信息进行分析,然后将所搜索到的信息及分析的结果存入数据库。这一过程的实现,是通过资源搜索单元来完成的,可参考图2所示,其是本发明中资源搜索单元工作流程图。
资源搜索单元是一个运行在应用程序服务器上的系统软件。负责资源搜索的人员(资源管理员)需要设定将要搜索的目标网站,设置搜索的条件、分析规则等,然后运行资源搜索单元。资源搜索单元将自动从目标网站上搜索所有符合搜索条件的页面,自动找出符合条件的资源的URL(Uniform ResourceLocator)、文件类型等信息,并根据分析规则分析出资源名称、简要描述等信息,最后将搜索到的信息和分析的结果记录到数据库。
所述的分析规则是指从页面中分析资源信息所使用的规则,它规定了如何从页面中取得信息。
第二步,对资源搜索单元记录下来的资源进行有效性验证,并对有效资源的内容作出标识。这一过程的实现,是通过资源验证单元来完成的,可参考图3所示。资源验证单元是一个运行在应用程序服务器上的系统软件。资源验证单元的工作流程如下:
定义文件片断信息摘要值的计算规则和算法;
从资源搜索单元的搜索结果中取出资源URL;
对其URL为重定向URL的资源,则确定它实际的URL,并用该实际的URL更新资源URL;
根据该资源URL请求资源文件,如资源文件无法请求到,则被视为无效资源;
根据预定义的算法,计算资源的文件片断信息摘要值;
将有效资源的信息存储到资源数据库中。
所述文件片断信息摘要值是指用于标志一个文件的一个标志数值或一个字符组合,内容相同的文件具有相同的标识,两个文件假如标识相同,则说明它们具有完全一致的文件字节序列,不同的文件具有不同的标识。
所述的文件片断信息摘要值算法是指用于确定一个文件片断信息摘要值的计算规则,该算法规定如何取得用于计算摘要值的文件内容,并且能够保证对相同的文件计算出的摘要值相同,不同的文件计算出的摘要值不同。例如,其中一种算法为:取文件头尾各100字节,合并通过MD5算法得到的结果作为文件片断信息摘要值。
无效的资源不进入资源数据库,也不会进入搜索数据库,其会被丢弃。
进入搜索数据库的资源URL均不会是重定向URL:
例如下面列出几个资源的部分信息:(省略号表示还有其它资源)
 资源名   URL   文件类型   标识
 游戏搜索工具2   http://www.postman.com/setup/PostMan.exe   exe   0FA87EB
 顶级游戏搜索工具2   ftp://www.fserver.cn/detail/postman.exe   exe   0FA87EB
 Pm游戏搜索工具2   http://www.public.net/software/pm.rar   rar   EEC7D43
 流行游戏搜索工具2   http://www.test.com/down/gametool.rar   rar   EEC7D43
 最新游戏搜索工具2   ftp://212.34.211.67/new/gametool.exe   exe   0FA87EB
..... .... ... ....
第三步,对资源数据库中的资源进行过滤,然后将相同的资源通过分析,统一资源名,再在所有相同的资源中进行选择,将最有效的资源加入搜索数据库。这个过程的实现,是通过资源整理单元来完成的,流程图可参考图4所示。资源整理单元是一个运行在应用程序服务器上的系统软件。资源整理单元的工作流程如下:
定义资源整理规则;
通过网络连接或者本地硬盘通信,向资源数据库发出请求,取得所有待整理的资源信息;
根据资源整理规则,在文件片断信息摘要值相同的资源中,进行过滤,即在文件内容相同的资源中进行过滤;
先取出有效性最佳的资源的文件类型,保留所有该类型资源,删除所有不同类型资源;
取出有效性最佳的资源的文件大小,保留所有该大小的资源,删除所有不同大小的资源;
在相同的资源中,根据定义的整理规则,对资源进行分析,整理出统一的资源名和其他分析结果;
在同类的资源中,找出最有效的一个资源,放入搜索数据库。
将每一组信息整理好,交给搜索选择系统来处理。
所述的相同的资源是指资源文件片断信息摘要值、文件类型、文件大小均相同的资源。经整理后,相同的资源拥有相同的资源名称。
所述的同类的资源是指资源名称相同的资源,它们具有相同的代表意义。
整理后的资源信息核心内容包括:统一资源名后的资源名、资源URL、简要说明、文件类型、文件片断信息摘要值、相同摘要值的资源个数。
经过整理,同类的资源中只有最有效的一个进入搜索数据库,作为搜索的结果,这大大降低了搜索结果的重复率,提高了有效性。
例如本例中,资源分析规则为:取共同包含的文字作为统一资源名,取资源名最长的资源的URL作为搜索结果。
整理结果:
  资源名   URL   文件类型   同组资源数   标识
 游戏搜索工具2   ftp;//www.fserver.cn/detail/postman.exe   exe   3   0FA87EB
 游戏搜索工具2   http://www.test.com/down/gametool.rar   rar  2   EEC7D43
 ...   ...   ...  ...   ...
则放入搜索数据库的资源为:
  游戏搜索工具2   ftp://www.fserver.cn/detail/postman.exe   exe   3   0FA87EB
第四步,检索单元响应搜索用户的搜索请求,接受搜索用户提交的搜索关键字,然后开始检索。该系统是一个基于数据库的检索单元,其实现的方式可以很多。我们可以使用JDBC或ODBC和JSP,PHP,ASP等语言相结合的方式实现检索,也可以开发相应的软件来支持这种检索。该步骤可见图5所示。
当检索单元接收到搜索用户提交的搜索关键字后,会对该搜索关键字进行语义解析,并在搜索数据库中存放的资源信息中找到匹配的所有信息,这些信息的相关内容就是搜索结果的核心内容。
搜索结果的核心内容包括:资源的名称、资源的简要说明、资源的URL。
得到搜索结果的核心内容后,检索单元将把这些内容送给排序系统进行处理。
在本例中,如果搜索用户输入的关键字是“游戏搜索工具2”,资源名称中包括“游戏搜索工具2”的所有资源信息就是这次搜索的核心内容。
第五步,结果页面生成单元是一个自动的网页生成程序,它可以运行在一台与其他系统相连的应用程序服务器上,也可以同其他系统共同运行在一台服务器上。它根据预先设置的网页格式模版,将搜索结果核心内容按照排序系统给出的顺序整合起来,生成最终结果页面。
生成的页面可以在任何浏览器,如:Internet Explorer、Netscape上浏览,也可以在任何具有浏览器功能的客户端软件中浏览。
第六步,通过反馈单元,实时监测报告资源的有效性,具体工作流程可参考图6所示。反馈单元是与客户端软件集成的,在搜索用户下载资源的同时,其对资源的有效性进行验证,并且把结果生成一资料状态报告,发送给资源更新单元。反馈单元通过自定义的通信格式,通过TCP/IP协议与资源更新单元进行通信。反馈单元工作流程如下:
搜索用户使用具有浏览器功能,并且集成了反馈单元的客户端进行搜索。
客户端显示搜索结果页面。
搜索用户通过该客户端软件,选择资源进行下载。
反馈单元检查资源是否可以被下载。
如果资源下载失败,记录该资源信息,生成资源状态报告。
反馈单元发送资源状态报告给资源更新单元。
第七步,资源更新单元接收反馈单元传送来的资源状态报告,根据该资源状态报告,判断搜索数据库及资源数据库中资源是否有效,并对其中的资源进行调整。被判断为无效的资源,则将从该两数据库中删除。具体工作流程可以参见图7所示。
资源更新单元是一套运行在应用程序服务器上的系统软件,它能够接受反馈单元发送来的TCP/IP数据包,并解读内容。
对资源是否有效的判断是通过一个预先定义的阀值来控制的。阀值定义了一个可以被接受的下载失败次数,超过这个次数的资源将被判断为无效资源。
该资源更新单元接收反馈单元所传送的资源状态报告。并根据预定义的格式,解读该资源状态报告中的内容。对下载报告失败的资源,更新其失败次数。对达到或超过阀值的资源,从搜索数据库及资源数据库中删除,并更新搜索结果系统。

Claims (10)

1.一种通用的文件搜索系统,其包括有资源搜索单元及结果页面生成单元,该资源搜索单元主要用于搜索预定的目标网站,并记录所搜索网站上的文件资源,其特征在于:进一步包括有资源验证单元、资源数据库、资源整理单元、搜索数据库、检索单元、反馈单元和资源更新单元;
该资源验证单元用来验证资源搜索单元所搜索的文件资源是否有效,舍弃无效的资源,计算有效的资源中文件片断的信息摘要值,将该有效资源存入资源数据库;
该资源数据库用来存放经过资源验证单元验证的、有效的资源的信息;
该资源整理单元用来给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将用于检索的资源存入搜索数据库;
检索单元接受搜索用户提交的检索要求,并根据检索要求中的关键字在搜索数据库的资源名称中进行匹配,生成搜索结果的核心内容;
结果页面生成单元用于根据预先设置的网页格式模板,将搜索结果核心内容生成最终结果页面;
反馈单元集成在系统的客户端,其能检测所下载的资源的有效性,并生成一资源状态报告,并可将该资源状态报告发送给资源更新单元;
资源更新单元用于接受反馈单元的资源状态报告,根据资源状态报告更新资源数据库和搜索数据库,删除该资源数据库和搜索数据库中的无效资源。
2.如权利要求1所述的一种通用的文件搜索系统,其特征在于:所述资源搜索单元所搜索的信息包括资源URL、资源名称、文件类型、文件大小、资源描述。
3.如权利要求2所述的一种通用的文件搜索系统,其特征在于:检索单元生成的搜索结果的核心内容包括有资源名称、资源的简要描述及资源的URL。
4.如权利要求1至3任一项所述的一种通用的文件搜索系统,其特征在于:所述资源搜索单元、结果页面生成单元、资源验证单元、资源整理单元、检索单元及资源更新单元,可以安装在不同的应用程序服务器中,这些应用程序服务器通过互联网或内部网络相连。
5.一种通用的文件搜索方法,其用于搜索计算机互联网络的资源,其特征在于包括以下步骤:
(a)资源搜索单元搜索网络上的文件信息,并分析出文件的标题名称、真实存储链接、文件类型、描述说明信息,然后将所有信息存放到该资料搜索单元的数据库中;
(b)资源验证单元对资源搜索单元记录下来的资源进行有效性验证,并对有效资源的内容作出标识,过滤掉无效的资源;
(c)资源整理单元整理资源,给出相同文件的唯一标题名称、版本和描述说明,并选择相同文件中最有效的一个,建立进一步的搜索索引库,并将用于检索的资源存入搜索数据库;
(d)检索单元响应用户的搜索请求,在所述搜索数据库中的搜索索引库中查找资源名称中包含搜索请求的关键字的资源信息,生成搜索结果的核心内容;
(e)结果页面生成单元根据预设置的网页格式模板,将搜索结果核心内容生成结果页面,显示给用户。
6.如权利要求5所述的一种通用的文件搜索方法,其特征在于在步骤(e)后进一步包括有如下步骤:
(f)集成客户端的反馈单元检查正在下载资源的有效性,并生成资源状态报告,传给服务器的资源更新单元;
(g)资源更新单元接收该资源状态报告,更新搜索数据库中和用于存储有效资源信息的资源数据库中的资料,将其中无效的资源删除。
7.如权利要求6所述的一种通用的文件搜索方法,其特征在于所述步骤(b)进一步包括如下步骤:
(b1)定义文件片断信息摘要值的计算规则和算法;
(b2)从资源搜索单元的搜索结果中取出资源URL;
(b3)对其URL为重定向URL的资源,则确定它实际的URL,并用该实际的URL更新资源URL;
(b4)根据该资源URL请求资源文件,如资源文件无法请求到,则被视为无效资源;
(b5)根据预定义的算法,计算资源的文件片断信息摘要值;
(b6)将有效资源的信息存储到资源数据库。
8.如权利要求7所述的一种通用的文件搜索方法,其特征在于:进一步包括在任何能够解析html的浏览器或者软件中查看结果页面的步骤。
9.如权利要求8所述的一种通用的文件搜索方法,其特征在于步骤(c)进一步包括如下步骤:
(c1)通过网络连接或者本地硬盘通信,向资源数据库发出请求,取得所有待整理的资源信息;
(c2)对文件片断信息摘要值相同的资源进行过滤;
(c3)先取出有效性最佳的资源的文件类型,保留所有该类型资源,删除所有不同类型资源;
(c4)取出有效性最佳的资源的文件大小,保留所有该大小的资源,删除所有不同大小的资源;
(c5)找出同类的资源中最有效的一个资源,放入搜索数据库。
10.如权利要求6至9任一项所述的一种通用的文件搜索方法,其特征在于步骤(g)包括如下步骤:
(g1)资源更新单元对资源状态报告中下载报告失败的资源,更新其下载失败的次数;
(g2)判断该资源下载失败的次数是否超过一预定的阀值,如果下载失败的次数超过该阀值,则从搜索数据库及资源数据库中删除该资源。
CNB2005100328799A 2005-01-17 2005-01-17 一种通用的文件搜索系统及方法 Expired - Fee Related CN100456286C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100328799A CN100456286C (zh) 2005-01-17 2005-01-17 一种通用的文件搜索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100328799A CN100456286C (zh) 2005-01-17 2005-01-17 一种通用的文件搜索系统及方法

Publications (2)

Publication Number Publication Date
CN1808426A CN1808426A (zh) 2006-07-26
CN100456286C true CN100456286C (zh) 2009-01-28

Family

ID=36840326

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100328799A Expired - Fee Related CN100456286C (zh) 2005-01-17 2005-01-17 一种通用的文件搜索系统及方法

Country Status (1)

Country Link
CN (1) CN100456286C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043409B2 (en) 2009-06-11 2015-05-26 Qualcomm Incorporated Methods and apparatus for a plug-in model for publishing structured meta-data based discovery

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101166190B (zh) * 2007-09-20 2010-10-13 腾讯科技(深圳)有限公司 影音文件的多源下载方法及装置
CN101207627B (zh) * 2007-12-13 2011-06-29 深圳市迅雷网络技术有限公司 一种过滤下载任务列表的客户端及方法
CN101620610B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 Web内容纠正方法和装置,Web内容纠正服务方法和设备
CN101764807B (zh) * 2009-12-16 2012-09-05 北京邮电大学 基于元搜索引擎的多源下载互联网资源的装置及方法
CN102214172B (zh) * 2010-04-06 2013-05-08 腾讯科技(深圳)有限公司 一种高速缓存的方法及设备
CN101977233A (zh) * 2010-11-01 2011-02-16 优视科技有限公司 一种移动终端以阅读模式浏览网页方法和系统
CN102419772A (zh) * 2011-12-12 2012-04-18 百度在线网络技术(北京)有限公司 一种对搜索结果进行优化的方法及系统
CN102662957B (zh) * 2012-03-02 2015-02-18 百度在线网络技术(北京)有限公司 用于优化浏览器的搜索结果页面的装置及方法
CN103353870B (zh) * 2013-05-31 2017-02-15 百度在线网络技术(北京)有限公司 一种应用聚类方法和装置
CN106326237A (zh) * 2015-06-18 2017-01-11 天脉聚源(北京)科技有限公司 一种微信信息检索方法和系统
CN106547794B (zh) * 2015-09-22 2020-04-14 阿里巴巴集团控股有限公司 信息搜索方法和装置
CN106656551A (zh) * 2016-10-08 2017-05-10 中国船舶重工集团公司第七�三研究所 一种网络服务系统
CN110147350A (zh) * 2019-05-22 2019-08-20 深圳市网心科技有限公司 文件查找方法、装置、电子设备及存储介质
CN110278247A (zh) * 2019-05-24 2019-09-24 深圳壹账通智能科技有限公司 大批量文件下载方法及装置、存储介质、电子设备
CN114416911A (zh) * 2021-05-21 2022-04-29 深圳市智尊宝数据开发有限公司 分析报告生成方法及相关装置和介质和程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129164A1 (en) * 2001-03-05 2002-09-12 Koninklijke Philips Electronics N.V. Advanced path checker
US20030046311A1 (en) * 2001-06-19 2003-03-06 Ryan Baidya Dynamic search engine and database
US20040088313A1 (en) * 2001-11-02 2004-05-06 Medical Research Consultants Knowledge management system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129164A1 (en) * 2001-03-05 2002-09-12 Koninklijke Philips Electronics N.V. Advanced path checker
US20030046311A1 (en) * 2001-06-19 2003-03-06 Ryan Baidya Dynamic search engine and database
US20040088313A1 (en) * 2001-11-02 2004-05-06 Medical Research Consultants Knowledge management system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9043409B2 (en) 2009-06-11 2015-05-26 Qualcomm Incorporated Methods and apparatus for a plug-in model for publishing structured meta-data based discovery

Also Published As

Publication number Publication date
CN1808426A (zh) 2006-07-26

Similar Documents

Publication Publication Date Title
CN100456286C (zh) 一种通用的文件搜索系统及方法
US10949253B2 (en) Data forwarder for distributed data acquisition, indexing and search system
KR100514149B1 (ko) 데이터 네트워크의 정보 검색 및 분석 방법
CN101409706B (zh) 一种边缘网络中的数据分发方法、数据分发系统及相关设备
CN106202117B (zh) 数据处理方法、装置和服务器
CN107291862A (zh) 业务数据存储方法、装置、存储介质及电子设备
CN103209087B (zh) 分布式日志统计处理方法和系统
US20070174233A1 (en) Method for predicting performance of distributed stream processing systems
CN102307210A (zh) 一种数据下载系统及其数据管理和下载方法
CN111740868B (zh) 告警数据的处理方法和装置及存储介质
CN103366117B (zh) 一种感染型病毒修复方法及系统
CN108710681A (zh) 文件获取方法、装置、设备及存储介质
CN101046806B (zh) 搜索引擎系统和方法
CN109196807A (zh) 网络节点以及操作网络节点以进行资源分发的方法
CN107426148A (zh) 一种基于运行环境特征识别的反爬虫方法及系统
CN108563697B (zh) 一种数据处理方法、装置和存储介质
CN112733045A (zh) 用户行为的分析方法、装置及电子设备
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN113159750A (zh) 基于区块链的设备确定方法
CN106331172A (zh) 一种应用于内容分发网络的资源检测方法及装置
CN101008946A (zh) 中文移动通信信息搜索方法及装置
CN114238703A (zh) 事件流程编排方法、装置及应用
CN105450513B (zh) 归档邮件附件的方法和云存储服务器
CN104424188A (zh) 对获取的网页数据进行更新的系统及方法
CN107294905A (zh) 一种识别用户的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090116

Address after: Guangdong city of Shenzhen province Nanshan District 1 China Sea World garden building 3E

Patentee after: Wu Keyi

Address before: Guangdong city of Shenzhen province Futian District Che Kung Temple Tairan 204 building 3 floor

Patentee before: Ma Yan

ASS Succession or assignment of patent right

Owner name: WU KEYI

Free format text: FORMER OWNER: MA YAN

Effective date: 20090116

ASS Succession or assignment of patent right

Owner name: SHENZHEN QIJIN COMMUNICATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: WU KEYI

Effective date: 20120105

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Bai Hongzheng

Inventor after: Qi Ming

Inventor before: Ma Yan

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: MA YAN TO: BAI HONGZHENG QI MING

TR01 Transfer of patent right

Effective date of registration: 20120105

Address after: 518000 Shenzhen Province, Nanshan District high tech District, North West New Road, building No. 2, building No. 203, No., No. 204, No. 2

Patentee after: Shenzhen Qijin Communication Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Nanshan District 1 China Sea World garden building 3E

Patentee before: Wu Keyi

TR01 Transfer of patent right

Effective date of registration: 20170323

Address after: 250000 Weihai Nanhai new area, Longhai Road, east of science and technology, South Road, blue business Valley

Patentee after: Shandong Jin Hui Optoelectronics Technology Co., Ltd.

Address before: 518000 Shenzhen Province, Nanshan District high tech District, North West New Road, building No. 2, building No. 203, No., No. 204, No. 2

Patentee before: Shenzhen Qijin Communication Technology Co., Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090128

Termination date: 20210117

CF01 Termination of patent right due to non-payment of annual fee