CN103324640A - 一种确定搜索结果文档的方法、装置和设备 - Google Patents

一种确定搜索结果文档的方法、装置和设备 Download PDF

Info

Publication number
CN103324640A
CN103324640A CN2012100801301A CN201210080130A CN103324640A CN 103324640 A CN103324640 A CN 103324640A CN 2012100801301 A CN2012100801301 A CN 2012100801301A CN 201210080130 A CN201210080130 A CN 201210080130A CN 103324640 A CN103324640 A CN 103324640A
Authority
CN
China
Prior art keywords
document
classification
current inquiry
numerical value
described current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100801301A
Other languages
English (en)
Other versions
CN103324640B (zh
Inventor
李建强
刘春辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201210080130.1A priority Critical patent/CN103324640B/zh
Publication of CN103324640A publication Critical patent/CN103324640A/zh
Application granted granted Critical
Publication of CN103324640B publication Critical patent/CN103324640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及通信领域技术,尤其涉及确定搜索结果文档的方法、装置和设备,用于获取当前查询对应的搜索结果;根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于所属类别的概率,确定出每个文档与所述当前查询的相关度数值;根据每个文档的相关度数值,确定出用于显示的文档的显示先后顺序。使用本发明实施例提供的确定搜索结果文档的方法、装置和设备,可以选择出与当前查询更为贴切的搜索结果,提高搜索的准确性。

Description

一种确定搜索结果文档的方法、装置和设备
技术领域
本发明涉及通信领域技术,尤其涉及一种确定搜索结果文档的方法、装置和设备。
背景技术
目前,随着互联网络迅猛发展,网页数量以较高的年增长率增长。博客、微博等新型的自媒体网络应用更是让互联网的内容呈几何式增长。不但网页信息量不断增加,大量的不同类型的文件更是与日俱增。面对这样的信息过载,不得不依赖搜索引擎这种过滤方式,更高效地找到需要的内容和资源。现有技术中,搜索信息的系统包括以下单元:
文档存储单元,用于存储一系列用于查询的文档,包括每个文档的唯一ID、题目、作者、创建时间、每个句子的ID等参数;
类别存储单元,用于存储预置的一系列类别,以及每个类别的名称、其上级节点类别和下级节点类别;
查询存储单元,用于存储一系列查询信息,还存储每个查询信息的唯一ID、以及众多关键词;
文档/查询分类单元,用于根据文档存储单元和类别存储单元存储的信息,确定出每个文档属于某一个或多个类别的概率,并发送到文档类别存储单元进行保存;根据查询存储单元和类别存储单元存储的信息,确定出每个查询属于某一个或多个类别的概率,并发送到查询类别存储单元进行保存;
其中,文档类别存储单元,用于存储文档所属类别等相关信息,如文档A属于类别1的概率和属于类别2的概率;查询类别存储单元,用于存储查询所述类别等相关信息,如查询B属于类别1的概率和属于类别2的概率;
文档搜索单元,用于根据查询请求在文档存储单元中搜索相应的文档,并将搜索结果发送到基于相似性搜索结果存储单元;
基于相似性搜索结果存储单元,用于接收到搜索结果后,存储搜索结果中前N个文档;
基于类别的重排单元,用于根据文档类别存储单元和查询类别存储单元中存储的信息,对基于相似性搜索结果存储单元保存的前N个文档进行重新排序。具体的,文档所属类别个数越多,显示的位置越靠前,更易于用户查看和选择。
但是,当上述前N个文档均属于同一个类别时,上述方法便失去作用,无法获取最贴近查询要求的文档。这样,提供给用户的搜索结果不准确,造成搜索信息效率较低,
发明内容
本发明实施例提供了一种确定搜索结果文档的方法、装置和设备,可以提供与查询更为贴切的搜索结果,提高搜索的准确性。
本发明实施例提供了一种确定搜索结果文档的方法,包括:
获取当前查询对应的搜索结果;
根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;
根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于所属类别的概率,确定出每个文档与所述当前查询的相关度数值;
根据每个文档的相关度数值,确定出所述文档的排序顺序。
相应的,本发明实施例提供了一种确定搜索结果文档的装置,包括:
结果获取模块,用于获取当前查询对应的搜索结果;
相似性确定模块,用于根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;
相关度确定模块,用于根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于类别的概率,确定出每个文档与所述当前查询的相关度数值;
排序确定模块,用于根据每个文档的相关度数值,确定出所述文档的排序顺序。
本发明实施例提供了一种确定搜索结果文档的方法、装置和设备,用于获取当前查询对应的搜索结果;根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于所属类别的概率,确定出每个文档与所述当前查询的相关度数值;根据每个文档的相关度数值,确定出所述文档的排序顺序。使用本发明实施例提供的确定搜索结果文档的方法、装置和设备,通过当前查询与搜索到的文档的所属类别的概率,确定出与当前查询相关度数值较高的各个文档,然后将该各个文档按照先手顺序进行显示等后续处理,这样可以选择出与当前查询更为贴切的搜索结果,提高搜索的准确性。
附图说明
图1为本发明实施例中确定搜索结果文档的方法流程示意图;
图2为本发明另一实施例中确定搜索结果文档的方法流程示意图;
图3为本发明实施例中确定搜索结果文档的装置示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
为了解决现有技术存在的问题,本发明实施例提供了一种确定搜索结果文档的方法,如图1所示,该方法包括:
步骤101、获取当前查询对应的搜索结果;
步骤102、根据当前查询在预置类别树中所属的类别、搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与当前查询的相似性数值;
步骤103、根据每个文档与当前查询的相似性数值、以及当前查询属于类别的概率,确定出每个文档与当前查询的相关度数值;
步骤104、根据每个文档的相关度数值,确定出文档的排序顺序。
具体的,针对现有技术存在的缺陷,本发明实施例提供的方法,对现有的搜索文档过程,进行了技术改进,创造性的提出了搜索文档信息并确定用于显示文档的相关技术。
首先,预先建立用于查询的文档数据库、查询数据库、类别数据库等。其中,a、该文档数据库可以使用现有技术中存在的文档数据库,也可以自行建立,例如自行存储一些文档信息,或者预先配置文档采集来源,自动在该文档采集来源采集文档。该文档采集源可以是预先选定的网站,例如选定网站A、网站B为文档采集源,那么可以实时或定时获取该网站A和网站B中的信息。例如,可以采用网络爬虫从选定的网站中采集信息。也可以预先配置搜索引擎的搜索规则,通过搜索引擎在互联网中搜索相关文档,该搜索规则包括但不限于:搜索使用的关键词或多个关键词的组合、搜索的约束条件、使用的搜索引擎的类型、搜索频率等。例如,搜索规则为使用关键词B在搜索引擎A中搜索关于C方面的文档。该文档数据库中可以保存每个文档的唯一ID、题目、作者、创建时间、每个句子的ID等参数。b、查询数据库中存储一系列查询信息,还存储每个查询信息的唯一ID、以及众多关键词。该查询信息可以为用户预先配置,也可以为保存的、之前使用过的查询信息。c、类别数据库中存储预置的一系列类别,以及每个类别的名称、其上级节点类别和下级节点类别。例如“花卉”这个节点的上级节点为“植物”,其下级节点为“牡丹”、“月季”、“芍药”等,这样构成一个类别树。当然,此处仅为一个简单的例子,实际使用的类别树节点众多,而且,不同类别树之间也可以存在节点交叉。
其中,文档数据库中每个文档均可以对应到类别数据库中某一个或多个类别节点,并且获知同一文档属于某个类别的概率;每个查询也可以对应到类别数据库中某一个或多个类别节点,并且获知同一查询属于某个类别的概率。
然后,当接收到查询请求时,可以根据查询请求携带的关键词或其他查询信息在文档数据库中进行搜索。其中,该查询请求可以为用户自行输入的查询,也可以为从查询数据库中选择的查询。若是用户输入的查询,则可以将该查询存储到查询数据库中,并分配唯一ID。若是从查询数据库中选择的查询,可以直接获取该查询在查询数据库中对应的关键词。
若具有预定排序数目,则可以根据该预定排序数目,确定出搜索文档数目;根据当前查询携带的关键词,搜索对应的文档,并确定出满足搜索文档数目的若干文档作为搜索结果。由于搜索到的文档可能是海量的,而用户一般只会查询前100个或其他数值的文档。所以,可以设置一个预定排序数目,再根据预定排序数目确定出搜索文档数目,也可以提高后续处理效率。例如,假设预定排序数目s为100,则可以根据搜索权重值y(y大于等于1的正整数)确定出搜索文档数目100*y。在根据当前查询携带的关键词搜索到文档中,选定100*y文档作为搜索结果。也可以将所有搜索到的文档均作为搜索结果,或者预定一个具体数值如500作为搜索结果中文档的数目。
获取到当前查询对应的搜索结果后,根据当前查询在预置类别树中所属的类别、搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与当前查询的相似性数值。具体的,获取所述当前查询在预置类别树中所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,根据预置类别树中每个类别之间的对应关系,在所述当前查询所属的所有类别中确定一个类别,在所述文档所属的所有类别中确定一个类别,使得所述确定后的两个类别之间的类别路径最短;其中,所述预置类别树包括至少一个根类别节点以及与所述至少一个根类别节点对应的至少一个子类别节点;所述根类别节点和子类别节点用于表征类别,且每个根类别节点、每个子类别节点表征的类别不同;根据所述类别路径包括的类别数目,确定出每个文档与所述当前查询的初级相似性数值;将当前查询与文档的基于文本的相似性数值、以及初级相似性数值,进行合并处理,确定文档与所述当前查询的相似性数值。其中,当前查询与文档的基于文本的相似性数值可以通过现有技术获取。假设,类别树的根节点为A,该根节点的第一级子类别节点为B、C、D,第一级子类别节点B具有下级子类别节点B1、B2、B3,第一级子类别节点C具有下级节点C1、C2、C3,子类别节点B1具有下级子类别节点B11和B12;搜索结果中具有两个文档,文档1的类别为B2、B3,文档2的类别为B12、C。当前查询所属的类别为A时,文档1所属的类别与当前查询所属类别的最短路径是:B2或B3-B-A;文档2所属的类别与当前查询所属类别的最短路径是:C-A。因此,文档2的类别更为贴近当前查询的类别,其与当前查询的相似度大于文档1与当前查询的相似度。
具体的,还可以确定出当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与当前查询相同的类别;根据当前查询属于当前类别的概率、以及文档属于当前类别的概率,确定出文档在当前类别下与所述当前查询的初级相似性数值;将当前查询与文档的基于文本的相似性数值、以及初级相似性数值,进行合并处理,确定文档与当前查询的相似性数值。其中,当前查询与文档的基于文本的相似性数值可以通过现有技术获取。例如,当前查询属于类别A的概率为50%,属于类别B的概率为25%,属于类别C的概率为25%;搜索结果中具有3个文档,其中文档1属于类别A的概率为80%,属于类别D的概率为20%;文档2属于类别B的概率为10%,属于类别C的概率为90%;文档3仅属于类别D。这样,文档3与当前查询不属于同样的类别,则其与当前查询的相似性数值为0。文档1与当前查询在类别A下的相似度为50%*80%,同理可以获得当前查询在所属的每个类别下与文档之间的相似性数值。
然后,确定出所述当前查询所属的所有类别、以及搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与当前查询相同的类别;根据当前查询属于当前类别的概率、以及文档在当前类别下与当前查询的相似性数值,确定出文档在当前类别下与当前查询的相关度数值;将文档与当前查询之间的所有相同类别的相关度数值求和,作为文档与当前查询的相关度数值。具体的,假设q代表查询,d代表文档,c代表类别,S(q,d)表示文档与查询之间的相似性数值,P(c|q)表示查询属于类别c的概率,这样通过r(d)=∑c∈CS(q,d)*P(c|q)的值可以获得文档与当前查询的相关度数值,其中C表示所有类别的集合。P(c|d)表示文档属于类别c的概率,通过r(d)=∑c∈CS(q,d)*P(c|d)的值也可以获得文档与当前查询的相关度数值。
最后,按照相关度数值的大小,对每个文档从上到下进行排序;从上到下确定出满足预定排序文档数目的文档。具体的,假设预定排序数目为s,则可以在搜索结果中保留s*y个文档,其中y为大于等于1的正整数。然后,根据相关度数值的大小将每个文档从上到下进行排序后,获取前s个文档,用于之后的显示或者其他处理过程。
通过上述描述,可以看出,使用本发明实施例提供的确定搜索结果文档的方法,通过当前查询与搜索到的文档的所属类别的概率,确定出与当前查询相关度数值较高的各个文档,然后将该各个文档按照先手顺序进行显示等后续处理,这样可以选择出与当前查询更为贴切的搜索结果,提高搜索的准确性。
下面通过具体实施例对本发明实施例提供的确定搜索结果文档的方法,进行详细说明。假设已经预先建立了用于查询的文档数据库、查询数据库、类别数据库等,并明确当前查询X对应的类别,此时如图2所示,包括以下步骤:
步骤201、根据当前查询X,在文档数据库中搜索相关文档;
步骤202、根据预定排序数目确定出文档搜索数目,将搜索到的文档数目减少到文档搜索数目作为搜索结果进行保存;具体的,若预定排序数目为1000,搜索权重值为2,则文档搜索数目为1000*2=2000。根据查询在文档数据库中搜索到5000个相关文档后,选择出2000个文档作为用于后续处理的文档进行保存。
步骤203、分别获取属于同一类别的当前查询X和搜索结果中的文档;具体的,获取当前查询X对应的类别,以及搜索结果中每个文档对应的类别。然后,再确定出属于同一类别下的当前查询X和文档。
步骤204、根据当前查询X在预置类别树中属于当前类别的概率、以及文档在预置类别树中属于当前类别的概率,确定出每个文档与当前查询的相似性数值;具体的,获取当前查询的类别、以及搜索结果中每个文档所属的类别;根据预置的类别树,确定出当前查询与每个文档之间的类别节点数目;其中,类别树包括根类别节点以及至少一个子类别节点;根据类别节点数目,确定出每个文档与当前查询的相似性数值。
步骤205、根据每个文档与当前查询X的相似性数值,将相似度数值最高的文档作为原始查询文档;
步骤206、获取原始查询文档所属的类别作为当前类别;
步骤207、获取当前查询属于当前类别的概率、以及搜索结果中每个文档属于当前类别的概率,确定出每个文档与当前查询X的相关度数值;
步骤208、按照相关度数值的大小,对搜索结果中的文档进行排序。
通过上述描述,可以看出,使用本发明实施例提供的确定搜索结果文档的方法,通过当前查询与搜索到的文档的所属类别的概率,确定出与当前查询相关度数值较高的各个文档,然后将该各个文档按照先手顺序进行显示等后续处理,这样可以选择出与当前查询更为贴切的搜索结果,提高搜索的准确性。
基于同一发明构思,本发明实施例还提供了一种检测业务故障的装置,如图3所示,包括:
结果获取模块301,用于获取当前查询对应的搜索结果;
相似性确定模块302,用于根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;
相关度确定模块303,用于根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于类别的概率,确定出每个文档与所述当前查询的相关度数值;
排序确定模块304,用于根据每个文档的相关度数值,确定出所述文档的排序顺序。
较佳的,所述相似性确定模块302,具体用于获取所述当前查询在预置类别树中所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,根据预置类别树中每个类别之间的对应关系,在所述当前查询所属的所有类别中确定一个类别,在所述文档所属的所有类别中确定一个类别,使得所述确定后的两个类别之间的类别路径最短;其中,所述预置类别树包括至少一个根类别节点以及与所述至少一个根类别节点对应的至少一个子类别节点;所述根类别节点和子类别节点用于表征类别,且每个根类别节点、每个子类别节点表征的类别不同;根据所述类别路径包括的类别数目,确定出每个文档与所述当前查询的相似性数值;
或者,确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与所述当前查询相同的类别;根据所述当前查询属于当前类别的概率、以及所述文档属于当前类别的概率,确定出所述文档在当前类别下与所述当前查询的相似性数值。
较佳的,所述相关度确定模块303,具体用于确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与所述当前查询相同的类别;根据所述当前查询属于当前类别的概率、以及所述文档在当前类别下与所述当前查询的相似性数值,确定出所述文档在当前类别下与所述当前查询的相关度数值;将所述文档与所述当前查询之间的所有相同类别的相关度数值求和,作为文档与所述当前查询的相关度数值。
较佳的,所述排序确定模块304,具体用于按照相关度数值的大小,对所述每个文档从上到下进行排序;从上到下确定出满足预定排序文档数目的文档。
较佳的,该装置还包括:
搜索模块305,具体用于根据预定排序数目,确定出文档搜索数目;根据当前查询携带的关键词,搜索对应的文档,并确定出满足文档搜索数目的若干文档作为搜索结果。
基于同一发明构思,本发明实施例提供了一种设备,包括:上述确定搜索结果文档的装置。
通过上述描述,可以看出,使用本发明实施例提供的确定搜索结果文档的方法、装置和设备,通过当前查询与搜索到的文档的所属类别的概率,确定出与当前查询相关度数值较高的各个文档,然后将该各个文档按照先手顺序进行显示等后续处理,这样可以选择出与当前查询更为贴切的搜索结果,提高搜索的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种确定搜索结果文档的方法,其特征在于,包括:
获取当前查询对应的搜索结果;
根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;
根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于所属类别的概率,确定出每个文档与所述当前查询的相关度数值;
根据每个文档的相关度数值,确定出所述文档的排序顺序。
2.如权利要求1所述的方法,其特征在于,根据所述当前查询在预置类别树中所述的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值,包括:
获取所述当前查询在预置类别树中所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;
针对每个文档,根据预置类别树中每个类别之间的对应关系,在所述当前查询所属的所有类别中确定一个类别,在所述文档所属的所有类别中确定一个类别,使得所述确定后的两个类别之间的类别路径最短;其中,所述预置类别树包括至少一个根类别节点以及与所述至少一个根类别节点对应的至少一个子类别节点;所述根类别节点和子类别节点用于表征类别,且每个根类别节点、每个子类别节点表征的类别不同;
根据所述类别路径包括的类别数目,确定出每个文档与所述当前查询的初级相似性数值;
将所述当前查询与所述文档的基于文本的相似性数值、以及所述初级相似性数值,进行合并处理,确定所述文档与所述当前查询的相似性数值。
3.如权利要求1所述的方法,其特征在于,根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值,包括:
确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;
针对每个文档,在预置类别树中获取与所述当前查询相同的类别;
根据所述当前查询属于当前类别的概率、以及所述文档属于当前类别的概率,确定出所述文档在当前类别下与所述当前查询的初级相似性数值;
将所述当前查询与所述文档的基于文本的相似性数值、以及所述初级相似性数值,进行合并处理,确定所述文档与所述当前查询的相似性数值。
4.如权利要求1所述的方法,其特征在于,所述根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于类别的概率,确定出每个文档与所述当前查询的相关度数值,包括:
确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;
针对每个文档,在预置类别树中获取与所述当前查询相同的类别;
根据所述当前查询属于当前类别的概率、以及所述文档在当前类别下与所述当前查询的相似性数值,确定出所述文档在当前类别下与所述当前查询的相关度数值;
将所述文档与所述当前查询之间的所有相同类别的相关度数值求和,作为文档与所述当前查询的相关度数值。
5.如权利要求1所述的方法,其特征在于,根据每个文档的相关度数值,确定出所述文档的排序顺序,包括:
按照相关度数值的大小,对所述每个文档从上到下进行排序;
从上到下确定出满足预定排序文档数目的文档。
6.如权利要求5所述的方法,其特征在于,所述获取当前查询对应的搜索结果之前,还包括:
根据预定排序数目,确定出搜索文档数目;
根据当前查询携带的关键词,搜索对应的文档,并确定出满足搜索文档数目的若干文档作为搜索结果。
7.一种确定搜索结果文档的装置,其特征在于,包括:
结果获取模块,用于获取当前查询对应的搜索结果;
相似性确定模块,用于根据所述当前查询在预置类别树中所属的类别、所述搜索结果中每个文档在预置类别树中所属的类别,确定每个文档与所述当前查询的相似性数值;
相关度确定模块,用于根据每个文档与所述当前查询的相似性数值、以及所述当前查询属于类别的概率,确定出每个文档与所述当前查询的相关度数值;
排序确定模块,用于根据每个文档的相关度数值,确定出所述文档的排序顺序。
8.如权利要求7所述的装置,其特征在于,所述相似性确定模块,具体用于获取所述当前查询在预置类别树中所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,根据预置类别树中每个类别之间的对应关系,在所述当前查询所属的所有类别中确定一个类别,在所述文档所属的所有类别中确定一个类别,使得所述确定后的两个类别之间的类别路径最短;其中,所述预置类别树包括至少一个根类别节点以及与所述至少一个根类别节点对应的至少一个子类别节点;所述根类别节点和子类别节点用于表征类别,且每个根类别节点、每个子类别节点表征的类别不同;根据所述类别路径包括的类别数目,确定出每个文档与所述当前查询的初级相似性数值;将所述当前查询与所述文档的基于文本的相似性数值、以及所述初级相似性数值,进行合并处理,确定所述文档与所述当前查询的相似性数值;
或者,确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与所述当前查询相同的类别;根据所述当前查询属于当前类别的概率、以及所述文档属于当前类别的概率,确定出所述文档在当前类别下与所述当前查询的初级相似性数值;将所述当前查询与所述文档的基于文本的相似性数值、以及所述初级相似性数值,进行合并处理,确定所述文档与所述当前查询的相似性数值。
9.如权利要求7所述的装置,其特征在于,所述相关度确定模块,具体用于确定出所述当前查询所属的所有类别、以及所述搜索结果中每个文档在预置类别树中所属的所有类别;针对每个文档,在预置类别树中获取与所述当前查询相同的类别;根据所述当前查询属于当前类别的概率、以及所述文档在当前类别下与所述当前查询的相似性数值,确定出所述文档在当前类别下与所述当前查询的相关度数值;将所述文档与所述当前查询之间的所有相同类别的相关度数值求和,作为文档与所述当前查询的相关度数值。
10.如权利要求7所述的装置,其特征在于,所述排序确定模块,具体用于按照相关度数值的大小,对所述每个文档从上到下进行排序;从上到下确定出满足预定排序文档数目的文档。
11.如权利要求7所述的装置,其特征在于,还包括:
搜索模块,具体用于根据预定排序数目,确定出文档搜索数目;根据当前查询携带的关键词,搜索对应的文档,并确定出满足文档搜索数目的若干文档作为搜索结果。
12.一种设备,其特征在于,包括:如权利要求7-11中任一所述的确定搜索结果文档的装置。
CN201210080130.1A 2012-03-23 2012-03-23 一种确定搜索结果文档的方法、装置和设备 Active CN103324640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210080130.1A CN103324640B (zh) 2012-03-23 2012-03-23 一种确定搜索结果文档的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210080130.1A CN103324640B (zh) 2012-03-23 2012-03-23 一种确定搜索结果文档的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN103324640A true CN103324640A (zh) 2013-09-25
CN103324640B CN103324640B (zh) 2016-06-08

Family

ID=49193387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210080130.1A Active CN103324640B (zh) 2012-03-23 2012-03-23 一种确定搜索结果文档的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN103324640B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731828A (zh) * 2013-12-24 2015-06-24 华为技术有限公司 一种跨领域文档相似度计算方法及装置
CN111753048A (zh) * 2020-05-21 2020-10-09 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN111949898A (zh) * 2020-08-28 2020-11-17 平安国际智慧城市科技股份有限公司 搜索结果排序方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US20100114855A1 (en) * 2008-10-30 2010-05-06 Nec (China) Co., Ltd. Method and system for automatic objects classification
CN101751405A (zh) * 2008-12-12 2010-06-23 国际商业机器公司 用于搜索文档的方法和系统
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US20100114855A1 (en) * 2008-10-30 2010-05-06 Nec (China) Co., Ltd. Method and system for automatic objects classification
CN101751405A (zh) * 2008-12-12 2010-06-23 国际商业机器公司 用于搜索文档的方法和系统
CN101996191A (zh) * 2009-08-14 2011-03-30 北京大学 一种二维跨媒体元搜索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史天艺: "基于维基百科的搜索引擎检索结果聚类", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731828A (zh) * 2013-12-24 2015-06-24 华为技术有限公司 一种跨领域文档相似度计算方法及装置
WO2015096468A1 (zh) * 2013-12-24 2015-07-02 华为技术有限公司 一种跨领域文档相似度计算方法及装置
CN104731828B (zh) * 2013-12-24 2017-12-05 华为技术有限公司 一种跨领域文档相似度计算方法及装置
US10452696B2 (en) 2013-12-24 2019-10-22 Hauwei Technologies Co., Ltd. Method and apparatus for computing similarity between cross-field documents
CN111753048A (zh) * 2020-05-21 2020-10-09 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN111753048B (zh) * 2020-05-21 2024-02-02 高新兴科技集团股份有限公司 文档检索方法、装置、设备及存储介质
CN111949898A (zh) * 2020-08-28 2020-11-17 平安国际智慧城市科技股份有限公司 搜索结果排序方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103324640B (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
CN102164186B (zh) 一种实现云搜索服务的方法及系统
US9317613B2 (en) Large scale entity-specific resource classification
CN102999586B (zh) 一种网站推荐的方法和装置
CN105701216A (zh) 一种信息推送方法及装置
CN102479223A (zh) 数据查询方法及系统
CN103838756A (zh) 一种确定推送信息的方法及装置
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN104133868B (zh) 一种用于垂直爬虫数据分类整合的策略
WO2013106595A2 (en) Processing store visiting data
CN103729362A (zh) 导航内容的确定方法和装置
CN103605848A (zh) 路径分析方法和装置
CN108427686A (zh) 文本数据查询方法及装置
CN109885651B (zh) 一种问题推送方法和装置
CN105808773A (zh) 一种新闻推送方法及装置
CN104636468A (zh) 数据查询分析方法和系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN103136213A (zh) 一种提供相关词的方法及装置
CN103200269A (zh) 互联网信息统计方法及系统
CN103106234A (zh) 一种网页内容搜索方法和装置
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN108241709B (zh) 一种数据集成方法、装置和系统
CN103823881B (zh) 分布式数据库的性能优化的方法及装置
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
CN105389330A (zh) 一种跨社区开源资源匹配关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant