CN101996200B - 一种搜索文档的方法和装置 - Google Patents
一种搜索文档的方法和装置 Download PDFInfo
- Publication number
- CN101996200B CN101996200B CN200910109479.1A CN200910109479A CN101996200B CN 101996200 B CN101996200 B CN 101996200B CN 200910109479 A CN200910109479 A CN 200910109479A CN 101996200 B CN101996200 B CN 101996200B
- Authority
- CN
- China
- Prior art keywords
- document
- group
- classification
- search engine
- searching request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 206010028916 Neologism Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种搜索文档的方法,包括,元搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档,同时本发明实施例还提供了相应的客户端、服务器和系统,本发明实施例根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
Description
技术领域
本发明涉及互联网搜索技术领域,尤其涉及一种搜索文档的方法和装置。
背景技术
目前,作为搜索引擎和移动通信这两个当前信息产业的热门领域的结合——移动搜索,已经成为移动增值业务新的亮点与增长点。移动搜索框架是一个基于元搜索的平台,它整合许多专业/垂直搜索引擎的能力,为用户提供一个的全新的综合的搜索能力。移动搜索领域中一个很重要的技术亮点是精确搜索,也就是提供给每个用户个性化的搜索服务,用户所搜即所得,而精确搜索的具体实现方案就成为当前研究的重点。
发明内容
本发明实施例的目的在于提供一种搜索文档的方法,包括以下步骤:
元搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种搜索文档的方法,包括以下步骤:
成员搜索引擎接收元搜索服务器发送的所述群组标识和所述搜索请求中的检索信息,所述成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种搜索文档的方法,包括以下步骤:
搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
所述搜索服务器根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种搜索服务器,包括:
搜索请求处理单元,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
搜索单元,用于根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种元搜索服务器,包括:
第一搜索请求接收模块,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
成员搜索引擎选择模块,用于根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎;
搜索请求发送模块,用于将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种成员搜索引擎,包括:
第二搜索请求接收模块,用于接收元搜索服务器在根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择了成员搜索引擎后向被选择的成员搜索引擎发送的所述群组标识和所述搜索请求中的检索信息;
搜索模块,用于根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
本发明实施例的另一目的在于提供一种搜索客户端,包括:
第一搜索请求发送模块,用于发送至少包含用户要求的内容分级信息的搜索请求给搜索服务器,以便于所述搜索服务器根据所述搜索请求获取所述用户归属的群组的标识,并根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档;
第一搜索请求接收模块,用于接收所述搜索服务器获取的文档。
本发明实施例的另一目的在于提供一种搜索客户端,包括:
第二搜索请求发送模块,用于发送至少包含用户要求的内容分级信息的搜索请求给元搜索服务器,以便于所述元搜索服务器根据所述搜索请求获取所述用户归属的群组的标识,根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
第一搜索请求接收模块,用于接收所述获取的文档。
本发明实施例的再一目的在于提供一种搜索文档的系统,包括:
元搜索服务器,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎;
成员搜索引擎,用于根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
附图说明
图1为本发明实施例搜索文档系统的结构图;
图2为本发明实施例一种搜索文档方法的流程图;
图3为本发明实施例一种搜索文档方法的流程图;
图4为本发明实施例一种搜索文档方法的流程图;
图5为本发明实施例一种搜索服务器的结构图;
图6为本发明实施例一种搜索客户端的结构图;
图7为本发明实施例一种搜索客户端的结构图。
具体实施方式
如图1所示,图1为本发明实施例搜索文档系统的结构图,包括:
元搜索服务器11,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎13;
可选的,所述元索引包括:文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重,或含有关键词的与群组对应的分级标注的文档的个数。
成员搜索引擎13,用于根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
其中,元搜索服务器11包括:
第一搜索请求接收模块111,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
成员搜索引擎选择模块113,用于根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎;
搜索请求发送模块115,用于将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎13,以便于所述被选择的成员搜索引擎13根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,元搜索服务器11还包括:
群组识别模块117,用于根据从所述第一搜索请求接收模块获取的所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识,将所述群组标识返回给所述第一搜索请求接收模块。
可选的,所述搜索请求还包括用户要求的与群组对应的分级信息,所述分级信息指根据文档的某一属性确定的文档所属的等级,如,“适合用户群组观看”的分级信息;
成员搜索引擎选择模块113具体用于,根据所述群组标识、所述用户要求的与群组对应的分级信息和从预先从成员搜索引擎获取的与群组对应的该分级的元索引,计算所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的该分级文档内容的相似度,从而选择相似度最高的一个或多个成员搜索引擎;
例如,搜索请求中的检索信息可以用向量query(q1,q2,...,qn)来表示,q1,q2,...,qn表示检索信息中1~n个检索词各自的权重,则计算搜索请求query(q1,q2,...,qn)与成员搜索引擎的所述群组对应的某个分级文档内容的相似度,从而选择相似度最高的一个或多个成员搜索引擎;
搜索请求中的检索信息query(q1,q2,...,qn)与成员搜索引擎的所述群组对应的各个分级文档内容的相似度可以用与所述群组对应的各个分级相关的与Query最相似(最相关)文档的相似度来表示,计算公式如下:
query(q1,q2...,qn)与成员搜索引擎对应的数据库D的群组对应的某个分级文档内容相似度MSIM(query,D)=MAX(qi*gidfi*mnwi)(1<=i<=n)
其中:Gidf是群组对应的各个分级相关的术语的全局反向文档频率,Gidfi=log(n/(gdfi+1)),其中gdfi为所有成员搜索引擎对应数据库或者子数据库中包含术语ti的群组对应的某个分级相关的文档的数量的总和,n为所有成员搜索引擎所包含的群组对应的某个分级相关的所有文档数量的总和。mnw是群组对应的某个分级相关的术语的最大归一化权重。首先计算数据库中的群组对应的某个分级相关的文档相对于术语ti的归一化权重,归一化权重的取值可以为文档中术语ti出现的次数(词频)除以文档的长度,文档中术语ti的归一化权重=TFi/|d|,其中文档长度 (tf1~tfn为文档的所有术语的词频),TFi为术语ti的词频,再从数据库中群组对应的某个分级相关的文档相对术语ti的归一化权重中取最大值,得到数据库中群组对应的某个分级相关的术语ti的最大归一化权重。
搜索请求发送模块115具体用于,将所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎13,以便于所述被选择的成员搜索引擎根据所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,成员搜索引擎选择模块113具体用于,根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引计算根据所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的各个分级的文档内容的相似度与所述群组对应的各个分级文档内容的重要度评分值的综合相似度,选择所述综合相似度最高的一个或多个成员搜索引擎;
其中,成员搜索引擎的综合相似度=MAX[r1*(query(q1,q2,...,qn)与成员搜索引擎的所述群组对应的和第k个分级相关的文档内容的相似度评分值)+r2*该第k个分级文档内容的重要度评分值],其中,k=1,2,..m,分别对应该群组的各个分级的文档内容,k=1表示最适合该群组观看或最重要的级别,r1和r2分别为相似度评分值和重要度评分值的权重,r1+r2=1;
或者:
成员搜索引擎的综合相似度=MAX(query(q1,q2,...,qn)与成员搜索引擎的所述群组对应的和第k个分级相关的文档内容的相似度评分值*该第k个分级文档内容的重要度评分值)(k=1,2,..m,分别对应该群组的各个分级的文档内容,k=1表示最适合该群组观看或最重要的级别);
搜索请求中的检索信息query(q1,q2,...,qn)与成员搜索引擎的所述群组对应的和第k个分级相关的文档内容的相似度可以为:MSIM(query,D)=MAX(qi*gidfi*mnwi)(1<=i<=n),其中各参数的含义可参见上述另一实施例的描述。
第k个分级的重要度评分值可以为:1/k(k=1,2,..m,分别对应该群组的各个等级的内容k=1表示最适合该群组观看或最重要的级别)。
可选的,元搜索服务器11还包括:
元索引处理模块119,用于向所述成员搜索引擎发送包含初始查询词、某个群组标识和某个与群组对应的分级的标识的搜索请求;接收所述成员搜索引擎根据所述某个群组标识、所述某个与群组对应的分级的标识和文档的群组分级标注返回与该某个群组的该某个分级对应的包含该初始查询词的文档;检索所述返回的所有文档中的前面N个文档;根据检索的N个文档更新主要词典(具体操作时,可以对检索到的N个文档进行切词,用得到的词更新主要词典),其中,更新操作结束的标准可以为,构建词以及词的排序,词的排序依照主要词典在采样文档中的该词在文档中出现的文档频率df、该词在成员搜索引擎的数据库中出现的数据库频率ctf或者该词在所有成员搜索引擎的各数据库中出现的平均数据库频率average_ctf来进行,依据前后两个序列词分别根据df、ctf和average_ctf排序的三个队列之间的差异作为阈值,如果前序列词的三个队列与对应的后序列词的三个队列之间的差异几乎不存在,则更新停止,否则根据从本次循环检索到的N个文档所得到的新词做为关键词继续循环重复前面所述的文档检索和更新主要词典的操作。比如:上一个更新新词得到的主要词典按照主要词典在采样文档中的df,ctf或者average_ctf排序得到上一个更新新词的序列S1、S2、S3,在本次更新新词得到的主要词典又按照主要词典在采样文档中的df,ctf或者average_ctf排序得到本次更新新词的序列F1、F2、F3,依据S1和F1、S2和F2、S3和F3两个更新词的三个排序的差异作为阈值,如果差异几乎不存在,则更新停止;根据所述成员搜索引擎的与群组对应的分级的主要词典里的每一个术语(词典里的词语),向所述成员搜索引擎发起每一个术语的查询,并从成员搜索引擎返回的与群组对应的分级的前N个文档中提取与群组对应的分级的元索引,所述元索引为所述术语对于与群组对应的分级标注的前N个文档的最大归一化权重或含有所述术语的与群组对应的分级标注的前N个文档中的文档的个数。
其中,成员搜索引擎13包括:
第二搜索请求接收模块131,用于接收元搜索服务器11在根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择了成员搜索引擎后向被选择的成员搜索引擎发送的所述群组标识和所述搜索请求中的检索信息;
搜索模块133,用于根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,所述搜索请求中还包含用户要求的内容分级信息;
第二搜索请求接收模块131还用于,接收元搜索服务器在根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择了成员搜索引擎后向被选择的成员搜索引擎发送的所述用户要求的内容分级信息;
搜索模块133具体用于,根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,搜索模块133具体用于,根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
进一步的,搜索模块133具体用于,根据群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中检索出根据文档针对于与用户群组对应的分级文档内容的重要程度评分值和其他因素算出的综合评分值进行排序后的搜索结果,综合评分值=r1*文档针对与用户群组对应的分级的评分值+r2*其他因素评分值,r1和r2分别为文档针对与用户群组对应的分级的评分值和其他因素评分值的权重,r1+r2=1;
或者
综合评分值=文档针与用户群组对应的分级的评分值*其他因素评分值。
其中,文档针对与用户群组对应的分级的评分值可以为1/k,k=1,2,..m,分别表示文档对应该群组的各个分级,k=1表示最适合该群组观看或最重要的级别,其他因素评分值可以为query(q1,q2,...,qn)与文档内容的相似度。
可选的,成员搜索引擎13还包括:
分级标注模块135,用于为所述成员搜索引擎管理的文档进行与用户群组对应的分级标注;
一般的,由运营商统一定义用户群组的种类,如老年人、中年人、青少年、儿童等,又如学生、老师、工人、医生、军人、工程师等,针对不同群组,分级标注模块135将成员搜索引擎管理的文档进行与用户群组对应的分级标注,如针对儿童用户群组,对成员搜索引擎管理的文档标注为几个等级:最适合儿童观看的内容、比较适合儿童观看的内容、一般内容、不适合儿童观看的内容,没有标注的文档统一按“一般内容”的等级处理。文档的与用户群组对应的分级标注的方法可以分为人工标注和自动标注两种,人工标注的方法由人工识别哪些文档适合哪些用户群组观看的等级,并在文档的元数据进行人工标注;自动标注的方法首先对文档进行自动分类(如,分类的方法可用常用的朴素贝叶斯等分类方法),然后按照一定的规则定义群组适合观看的各等级文档类型,将属于某个类型的文档自动标注为适合群组观看的某个分级的文档,从而自动在文档的元数据对文档进行与用户群组对应的分级标注。
元索引上报模块137,用于向元搜索服务器发送与用户群组对应的各个分级的元索引。
可选的,所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数。
最大归一化权重的计算方法为,首先计算成员搜索引擎管理的与用户群组对应的某一分级标注的每个文档相对于关键词ti的归一化权重,归一化权重的取值可以为与用户群组对应的某一分级标注的某一文档中关键词ti出现的次数(词频)除以文档的长度,即,与用户群组对应的某一分级标注的某一文档中关键词ti的归一化权重=TFi/|d|,其中该某一文档的长度 (tf1~tfn为该某一文档中的所有关键词(t1~tn)的词频),TFi为该某一文档所有关键词中之一ti的词频,得出与用户群组对应的某一分级标注的某一文档中关键词ti的归一化权重,再从与该群组对应的该分级的所有文档相对关键词ti的归一化权重中取最大值,得到与该群组对应的该分级的各个文档中的关键词ti相对于该群组对应的该分级的最大归一化权重,以此类推,得到与群组对应的各个分级文档中各个关键词的与该群组对应的该分级的最大归一化权重。
例如,成员搜索引擎A管理青少年和儿童两个群组,其中,儿童群组所对应的文档被分别标注为“适合儿童观看的内容”和“不适合儿童观看的内容”两个等级,被标注为“适合儿童观看的内容”的文档有10个,这些文档有100个关键词t1~t100,关键词t1在某个文档中出现了10次,t2在某个文档中出现了20次,t100在某个文档中出现了30次,当然从t3~t99这些关键词也有自己的出现次数(词频),将所有词频带入文档的长度公式即可获得该文档的长度,分别计算出关键词t1在10篇文档中的归一化权重,选取这10个归一化权重中取值最大的一个作为该关键词的最大归一化权重,以此类推,计算出其他99个关键词的对于与儿童群组对应的“适合儿童观看的内容”标注的10篇文档的最大归一化权重。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图2为本发明实施例一种搜索文档方法的流程图,包括以下步骤:
S201、元搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
可选的,该步骤具体为:
所述搜索服务器接收用户的搜索请求,根据所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识,或,
所述搜索服务器接收用户的搜索请求,所述搜索请求包含所述用户归属的群组的标识。
S203、所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数。
可选的,所述搜索请求还包括与群组对应的分级信息;
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎的步骤具体为:
所述元搜索服务器根据所述群组标识、所述与群组对应的分级信息和从预先从成员搜索引擎获取的与群组对应的该分级的元索引,计算所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的该分级的文档内容的相似度,从而选择相似度最高的一个或多个成员搜索引擎;
所述将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
将所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎的步骤具体为:
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引计算根据所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的各个分级的文档内容的相似度与所述群组对应的各个分级文档重要度评分值的综合相似度,选择所述综合相似度最高的一个或多个成员搜索引擎。
可选的,所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤包括:
所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
可选的,所述预先从成员搜索引擎获取与群组对应的各个分级的元索引的步骤具体为:
所述元搜索服务器向所述成员搜索引擎发送包含初始查询词、某个群组标识和某个与群组对应的分级的标识的搜索请求;
所述元搜索服务器接收所述成员搜索引擎根据所述某个群组标识、所述某个与群组对应的分级的标识和文档的群组分级标注返回与该某个群组的该某个分级对应的包含该初始查询词的文档;
所述元搜索服务器检索所述返回的所有文档中的前面N个文档;
所述元搜索服务器根据检索的N个文档更新主要词典(具体操作时,可以对检索到的N个文档进行切词,用得到的词更新主要词典)其中,更新操作结束的标准可以为,构建词以及词的排序,词的排序依照主要词典在采样文档中的该词在文档中出现的文档频率df、该词在成员搜索引擎的数据库中出现的数据库频率ctf或者该词在所有成员搜索引擎的各数据库中出现的平均数据库频率average_ctf来进行,依据前后两个序列词分别根据df、ctf和average_ctf排序的三个队列之间的差异作为阈值,如果前序列词的三个队列与对应的后序列词的三个队列之间的差异几乎不存在,则更新停止,否则根据从本次循环检索到的N个文档所得到的新词做为关键词继续循环重复前面所述的文档检索和更新主要词典的操作。所述元搜索服务器根据所述成员搜索引擎的与群组对应的分级的主要词典里的每一个术语(词典里的词语),向所述成员搜索引擎发起每一个术语的查询,并从成员搜索引擎返回的与群组对应的分级的前N个文档中提取与群组对应的分级的元索引。
可选的,所述元索引为所述术语对于与群组对应的分级标注的前N个文档的最大归一化权重或含有所述术语的与群组对应的分级标注的前N个文档中的文档的个数。
该实施例的具体细节可参考如图1所示的实施例的相关描述,这里不再赘述。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图3为本发明实施例一种搜索文档方法的流程图,包括以下步骤:
S305、成员搜索引擎接收元搜索服务器发送的所述群组标识和所述搜索请求中的检索信息,所述成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
S307、所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
可选的,所述搜索请求中还包含用户要求的内容分级信息;
所述方法还包括:成员搜索引擎接收元搜索服务器发送的内容分级信息,所述成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述成员搜索引擎根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
可选的,本方法还包括:
S301、所述成员搜索引擎为其管理的文档进行与用户群组对应的分级标注;
S303、所述成员搜索引擎向元搜索服务器发送与用户群组对应的各个分级的元索引;所述元索引包括所述文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数。
该实施例的具体细节可参考如图1所示的实施例的相关描述,这里不再赘述。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图4为本发明实施例一种搜索文档方法的流程图,包括以下步骤:
S401、搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
S403、所述搜索服务器根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,步骤S401具体为,所述搜索服务器接收用户的搜索请求,根据所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识,或,
所述搜索服务器接收用户的搜索请求,所述搜索请求包含所述用户归属的群组的标识。
可选的,所述搜索服务器接收用户的搜索请求,所述搜索请求包含所述用户归属的群组的标识的步骤之后还包括:
所述搜索服务器根据所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性获取所述用户归属的群组的标识,将该群组标识与所述搜索请求包含的群组标识进行比较,判断所述搜索请求包含的群组标识是否合法。
可选的,所述搜索请求中还包含用户要求的内容分级信息;
所述搜索服务器根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述搜索服务器根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,所述搜索服务器根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述搜索服务器根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
具体的,所述搜索服务器根据群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中检索出根据文档针对于与用户群组对应的文档分级重要度评分值和其他因素算出的综合评分值进行排序后的搜索结果,综合评分值=r1*文档针对与用户群组对应的分级的评分值+r2*其他因素评分值,r1和r2分别为文档针对与用户群组对应的分级的评分值和其他因素评分值的权重,其中,r1+r2=1;或者,
综合评分值=文档针与用户群组对应的分级的评分值*其他因素评分值。
其中,上述与用户群组对应的分级的评分值可以为1/k,k=1,2,..m,分别表示文档对应该群组的各个分级,k=1表示最适合该群组观看或最重要的级别,其他因素评分值可以为query(q1,q2,...,qn)与文档内容的相似度。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图5为本发明实施例一种搜索服务器的结构图,包括:
搜索请求处理单元51,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
搜索单元53,用于根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,搜索请求处理单元51具体用于,接收用户的搜索请求,根据所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识,或,
接收用户的搜索请求,所述搜索请求包含所述用户归属的群组的标识。
可选的,所述搜索请求中还包含用户要求的内容分级信息;
搜索单元53具体用于,根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
可选的,搜索单元53具体用于,根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
该实施例的具体细节可参考如图4所示的实施例的相关描述,这里不再赘述。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图6为本发明实施例一种搜索客户端的结构图,包括:
第一搜索请求发送模块61,用于发送至少包含用户要求的内容分级信息的搜索请求给搜索服务器,以便于所述搜索服务器根据所述搜索请求获取所述用户归属的群组的标识,并根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档;
第一搜索请求接收模块63,用于接收所述搜索服务器获取的文档。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
图7为本发明实施例一种搜索客户端的结构图,包括:
第二搜索请求发送模块71,用于发送至少包含用户要求的内容分级信息的搜索请求给元搜索服务器,以便于所述元搜索服务器根据所述搜索请求获取所述用户归属的群组的标识,根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
第一搜索请求接收模块73,用于接收所述获取的文档。
本发明实施例中,根据群组标识和搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取文档,检索出最适合归属于该群组的用户观看的搜索结果,使搜索结果更能满足不同用户的需要,使得精确搜索得以实现。
本领域普通技术人员可以理解:本发明实施例所涉及的元搜索服务器、搜索服务器、成员搜索引擎、搜索客户端以及搜索文档的系统可以是至少一台具有相应功能的通用或专用计算机,相应的,实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成(例如经由一个或多个集成电路)。例如在不同的实施例中,这里描述的不同操作和/或类似处理可以由专用硬件执行,和/或可以不由一个或多个通用处理器来执行。在不同的实施例中,可以使用一个或多个芯片和/或芯片组。在不同的实施例中,可以使用一个或多个专用集成电路(ASIC)。前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (17)
1.一种搜索文档的方法,其特征在于,包括以下步骤:
元搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎,将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
所述元搜索服务器接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识的步骤具体为:
所述元搜索服务器接收用户的搜索请求,根据所述搜索请求中的用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识,或,
所述元搜索服务器接收用户的搜索请求,所述搜索请求包含所述用户归属的群组的标识;
所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数;
对于关键词的最大归一化权重计算方法为:计算成员搜索引擎管理的与用户群组对应的一个分级标注的每个文档相对于关键词的归一化权重;得到与该群组对应的该分级的各个文档中的关键词相对于该群组对应的该分级的最大归一化权重;
其中,在一个文档中所述归一化权重的取值为与用户群组对应的该分级标注的所述一个文档中关键词出现的词频除以所述一个文档的长度,其中,所述一个文档的长度为所述一个文档中所有关键词的词频平方求和后再开平方。
2.如权利要求1所述的搜索文档的方法,其特征在于,所述搜索请求还包括与群组对应的分级信息;
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎的步骤具体为:
所述元搜索服务器根据所述群组标识、所述与群组对应的分级信息和从预先从成员搜索引擎获取的与群组对应的该分级的元索引,计算所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的该分级的文档内容的相似度,从而选择相似度最高的一个或多个成员搜索引擎;
所述将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
将所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
3.如权利要求1所述的搜索文档的方法,其特征在于,所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎的步骤具体为:
所述元搜索服务器根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引计算根据所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的该分级的文档内容的相似度与所述群组对应的各个分级的文档内容重要度评分值的综合相似度,选择所述综合相似度最高的一个或多个成员搜索引擎。
4.如权利要求3所述的搜索文档的方法,其特征在于,所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤包括:
所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
5.如权利要求1所述的搜索文档的方法,其特征在于,所述预先从成员搜索引擎获取与群组对应的各个分级的元索引的步骤具体为:
所述元搜索服务器向所述成员搜索引擎发送包含初始查询词、某个群组标识和某个与群组对应的分级的标识的搜索请求;
所述元搜索服务器接收所述成员搜索引擎根据所述某个群组标识、所述某个与群组对应的分级的标识和文档的群组分级标注返回与该某个群组的该某个分级对应的包含该初始查询词的文档;
所述元搜索服务器检索所述返回的文档中的前面N个文档;
所述元搜索服务器根据检索的N个文档更新主要词典;
所述元搜索服务器根据所述成员搜索引擎的与群组对应的分级的主要词典里的每一个术语,向所述成员搜索引擎发起每一个术语的查询,并从成员搜索引擎返回的与群组对应的分级的前N个文档中提取与群组对应的分级的元索引。
6.一种搜索文档的方法,其特征在于,包括以下步骤:
成员搜索引擎接收元搜索服务器发送的群组标识和搜索请求中的检索信息,所述成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数;
对于关键词的最大归一化权重计算方法为:计算成员搜索引擎管理的与用户群组对应的一个分级标注的每个文档相对于关键词的归一化权重;得到与该群组对应的该分级的各个文档中的关键词相对于该群组对应的该分级的最大归一化权重;
其中,在一个文档中所述归一化权重的取值为与用户群组对应的该分级标注的所述一个文档中关键词出现的词频除以所述一个文档的长度,其中,所述一个文档的长度为所述一个文档中所有关键词的词频平方求和后再开平方。
7.如权利要求6所述的搜索文档的方法,其特征在于,所述搜索请求中还包含用户要求的内容分级信息;
所述方法还包括:成员搜索引擎接收元搜索服务器发送的内容分级信息,所述成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述成员搜索引擎根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
8.如权利要求6或7所述的搜索文档的方法,其特征在于,
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档的步骤具体为:
所述成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
9.如权利要求6或7所述的搜索文档的方法,其特征在于,还包括以下步骤:
所述成员搜索引擎为其管理的文档进行与用户群组对应的分级标注;
所述成员搜索引擎向元搜索服务器发送与用户群组对应的各个分级的元索引;所述元索引包括所述文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数。
10.一种搜索文档的装置,其特征在于,包括:
第一搜索请求接收模块,用于接收用户的搜索请求,根据所述搜索请求获取所述用户归属的群组的标识;
成员搜索引擎选择模块,用于根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择成员搜索引擎;
搜索请求发送模块,用于将所述群组标识和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
群组识别模块,用于根据用户信息从用户数据库获取用户的个性化数据和群组特性,根据所述用户的个性化数据和群组特性获取所述用户归属的群组的标识;
所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数;
对于关键词的最大归一化权重计算方法为:计算成员搜索引擎管理的与用户群组对应的一个分级标注的每个文档相对于关键词的归一化权重;得到与该群组对应的该分级的各个文档中的关键词相对于该群组对应的该分级的最大归一化权重;
其中,在一个文档中所述归一化权重的取值为与用户群组对应的该分级标注的所述一个文档中关键词出现的词频除以所述一个文档的长度,其中,所述一个文档的长度为所述一个文档中所有关键词的词频平方求和后再开平方。
11.如权利要求10所述的搜索文档的装置,其特征在于,所述搜索请求还包括与群组对应的分级信息;
所述成员搜索引擎选择模块具体用于,根据所述群组标识、所述与群组对应的分级信息和从预先从成员搜索引擎获取的与群组对应的各个分级的元索引,计算所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的各个分级的文档内容相似度,从而选择相似度最高的一个或多个成员搜索引擎;
所述搜索请求发送模块具体用于,将所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息发送给所述被选择的成员搜索引擎,以便于所述被选择的成员搜索引擎根据所述群组标识、所述与群组对应的分级信息和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档。
12.如权利要求10所述的搜索文档的装置,其特征在于,
所述成员搜索引擎选择模块具体用于,根据所述群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引计算根据所述搜索请求中的检索信息与成员搜索引擎的所述群组对应的该分级的文档内容的相似度与所述群组对应的各个分级文档内容的重要度评分值的综合相似度,选择所述综合相似度最高的一个或多个成员搜索引擎。
13.如权利要求10所述的搜索文档的装置,其特征在于,还包括:
元索引处理模块,用于向所述成员搜索引擎发送包含初始查询词、某个群组标识和某个与群组对应的分级的标识的搜索请求;接收所述成员搜索引擎根据所述某个群组标识、所述某个与群组对应的分级的标识和文档的群组分级标注返回与该某个群组的该某个分级对应的包含该初始查询词的文档;检索所述返回的文档中的前面N个文档;根据检索的N个文档更新主要词典;根据所述成员搜索引擎的与群组对应的分级的主要词典里的每一个术语,向所述成员搜索引擎发起每一个术语的查询,并从成员搜索引擎返回的与群组对应的分级的前N个文档中提取与群组对应的分级的元索引。
14.一种搜索文档的装置,其特征在于,包括:
第二搜索请求接收模块,用于接收元搜索服务器发送的群组标识和搜索请求中的检索信息,成员搜索引擎是元搜索服务器根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择的;
搜索模块,用于根据所述群组标识和所述搜索请求中的检索信息从与用户群组对应的分级标注的文档中获取文档;
所述元索引包括文档中的关键词对于与群组对应的分级标注的各文档的最大归一化权重或含有关键词的与群组对应的分级标注的文档的个数;
对于关键词的最大归一化权重计算方法为:计算成员搜索引擎管理的与用户群组对应的一个分级标注的每个文档相对于关键词的归一化权重;得到与该群组对应的该分级的各个文档中的关键词相对于该群组对应的该分级的最大归一化权重;
其中,在一个文档中所述归一化权重的取值为与用户群组对应的该分级标注的所述一个文档中关键词出现的词频除以所述一个文档的长度,其中,所述一个文档的长度为所述一个文档中所有关键词的词频平方求和后再开平方。
15.如权利要求14所述的搜索文档的装置,其特征在于,所述搜索请求中还包含用户要求的内容分级信息;
所述第二搜索请求接收模块还用于,接收元搜索服务器在根据用户发送的搜索请求中的群组标识和预先从成员搜索引擎获取的与群组对应的各个分级的元索引选择了成员搜索引擎后向被选择的成员搜索引擎发送的所述用户要求的内容分级信息;
所述搜索模块具体用于,根据所述群组标识、所述搜索请求中的检索信息和所述用户要求的内容分级信息从预先设定了与用户群组对应的分级标注的文档中获取文档。
16.如权利要求14或15所述的搜索文档的装置,其特征在于,
所述搜索模块具体用于,根据所述群组标识和所述搜索请求中的检索信息从预先设定了与用户群组对应的分级标注的文档中获取与所述群组相关的至少根据文档分级重要度排序的文档。
17.如权利要求14或15所述的搜索文档的装置,其特征在于,还包括:
分级标注模块,用于为所述成员搜索引擎管理的文档进行与用户群组对应的分级标注;
元索引上报模块,用于向元搜索服务器发送与用户群组对应的各个分级的元索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910109479.1A CN101996200B (zh) | 2009-08-19 | 2009-08-19 | 一种搜索文档的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910109479.1A CN101996200B (zh) | 2009-08-19 | 2009-08-19 | 一种搜索文档的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101996200A CN101996200A (zh) | 2011-03-30 |
CN101996200B true CN101996200B (zh) | 2014-03-12 |
Family
ID=43786367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910109479.1A Active CN101996200B (zh) | 2009-08-19 | 2009-08-19 | 一种搜索文档的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101996200B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034651B (zh) * | 2011-09-28 | 2016-08-17 | 联想(北京)有限公司 | 微博信息分发方法和分发服务器 |
CN102402589A (zh) * | 2011-10-26 | 2012-04-04 | 北京百度网讯科技有限公司 | 一种提供与搜索请求相关的参考搜索信息的方法与设备 |
CN102831136B (zh) * | 2012-01-16 | 2015-09-16 | 中新力合股份有限公司 | 一种信息存储和搜索方法 |
CN103577415B (zh) * | 2012-07-20 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 用于更新移动搜索应用所对应的搜索配置的方法与设备 |
CN102819575B (zh) * | 2012-07-20 | 2015-06-17 | 南京大学 | 一种用于Web服务推荐的个性化搜索方法 |
CN104009970A (zh) * | 2013-09-17 | 2014-08-27 | 宁波公众信息产业有限公司 | 一种网络信息采集方法 |
CN104516903A (zh) * | 2013-09-29 | 2015-04-15 | 北大方正集团有限公司 | 关键词扩展方法及系统、及分类语料标注方法及系统 |
US10169488B2 (en) | 2015-02-20 | 2019-01-01 | Google Llc | Methods, systems, and media for providing search suggestions based on content ratings of search results |
CN104933090A (zh) * | 2015-05-18 | 2015-09-23 | 深圳市金立通信设备有限公司 | 一种信息搜索方法及终端 |
CN105354285B (zh) * | 2015-10-30 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 嵌入搜索引擎中的知识搜索方法、装置以及搜索引擎 |
CN105447162B (zh) * | 2015-12-01 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 群组文件搜索方法和装置 |
CN107229738B (zh) * | 2017-06-18 | 2020-04-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
CN111190908B (zh) * | 2018-11-15 | 2023-09-22 | 华为技术有限公司 | 一种数据管理方法、装置及系统 |
CN110674382B (zh) * | 2019-10-10 | 2022-06-07 | 网易(杭州)网络有限公司 | 数据访问方法及装置、数据访问系统 |
CN111368178A (zh) * | 2020-03-05 | 2020-07-03 | 北京云族佳科技有限公司 | 一种信息处理的方法及装置、可读存储介质 |
CN114117253A (zh) * | 2021-11-19 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 群组搜索方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1158421A2 (en) * | 2000-05-16 | 2001-11-28 | LAS21 Co., Ltd. | Internet site search service system having a function of building individual meta search engines |
CN1858733A (zh) * | 2005-11-01 | 2006-11-08 | 华为技术有限公司 | 信息检索系统和检索方法 |
CN1983253A (zh) * | 2005-12-15 | 2007-06-20 | 北京中科信利技术有限公司 | 一种提供音乐搜索服务的方法、设备和系统 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
-
2009
- 2009-08-19 CN CN200910109479.1A patent/CN101996200B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1158421A2 (en) * | 2000-05-16 | 2001-11-28 | LAS21 Co., Ltd. | Internet site search service system having a function of building individual meta search engines |
CN1858733A (zh) * | 2005-11-01 | 2006-11-08 | 华为技术有限公司 | 信息检索系统和检索方法 |
CN1983253A (zh) * | 2005-12-15 | 2007-06-20 | 北京中科信利技术有限公司 | 一种提供音乐搜索服务的方法、设备和系统 |
CN101477554A (zh) * | 2009-01-16 | 2009-07-08 | 西安电子科技大学 | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101996200A (zh) | 2011-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101996200B (zh) | 一种搜索文档的方法和装置 | |
KR100462292B1 (ko) | 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템 | |
US8504550B2 (en) | Social network message categorization systems and methods | |
CN103593425B (zh) | 基于偏好的智能检索方法及系统 | |
US8380697B2 (en) | Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency | |
US20170212899A1 (en) | Method for searching related entities through entity co-occurrence | |
US20110145348A1 (en) | Systems and methods for identifying terms relevant to web pages using social network messages | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
US20130166548A1 (en) | System and Method for Providing Information Navigation and Filtration | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN102982153A (zh) | 一种信息检索方法及其装置 | |
CN103577416A (zh) | 扩展查询方法及系统 | |
CN104143005A (zh) | 一种相关搜索系统及方法 | |
US20110173192A1 (en) | Search method, system and device | |
KR20140075428A (ko) | 시맨틱 검색 키워드 추천 방법 및 시스템 | |
US20170147652A1 (en) | Search servers, end devices, and search methods for use in a distributed network | |
CN116975314B (zh) | 一种电子档案智能查询方法与系统 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN103942328A (zh) | 一种视频检索方法及视频装置 | |
CN111666383A (zh) | 信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN111708942A (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
CN104077327A (zh) | 核心词重要性识别方法和设备及搜索结果排序方法和设备 | |
CN117056477A (zh) | 一种案例数据的检索方法、装置、设备及可读存储介质 | |
Kuck et al. | Context-sensitive service discovery meets information retrieval | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240122 Address after: 100089 Room 204, building 3, Daliushu Fuhai center, Haidian District, Beijing Patentee after: Beijing wanlihong Technology Co.,Ltd. Country or region after: China Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |