CN106202127A - 一种垂直搜索引擎对检索请求的处理方法及装置 - Google Patents
一种垂直搜索引擎对检索请求的处理方法及装置 Download PDFInfo
- Publication number
- CN106202127A CN106202127A CN201510232511.0A CN201510232511A CN106202127A CN 106202127 A CN106202127 A CN 106202127A CN 201510232511 A CN201510232511 A CN 201510232511A CN 106202127 A CN106202127 A CN 106202127A
- Authority
- CN
- China
- Prior art keywords
- ambiguity
- retrieval string
- retrieval
- string
- checking label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种垂直搜索引擎对检索请求的处理方法及装置,所述方法应用于垂直搜索引擎,所述方法包括:接收来自客户端的任一检索请求,所述检索请求包括检索串;判断所述检索串是否为模糊性检索串;当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。本发明能够提高垂直搜索引擎对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种垂直搜索引擎对检索请求的处理方法及装置。
背景技术
垂直搜索是针对某一个行业或领域的专业搜索。当用户利用客户端发送检索请求后,垂直搜索引擎需要理解检索请求中的用户需求,并根据检索请求中的检索串查询资源库,最终向用户返回查询结果,帮助用户找到目标信息。
与传统搜索引擎相比,垂直搜索引擎的搜索资源量相对较小。当用户发送的检索请求在表述上具有模糊性、口语化的特点时,垂直搜索引擎可能不能准确理解检索请求中的用户需求,从而出现检索无结果或结果相关性较差的情况。
发明内容
为了提高垂直搜索引擎对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率,本发明提供了一种垂直搜索引擎对检索请求的处理方法及装置。
本发明提供了一种垂直搜索引擎对检索请求的处理方法,所述方法应用于垂直搜索引擎,所述方法包括:
接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断所述检索串是否为模糊性检索串;
当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
优选地,所述判断所述检索串是否为模糊性检索串,包括:
计算所述检索串的熵;
判断所述检索串的熵是否大于预设的熵阈值;
当所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
优选地,所述判断所述检索串是否为模糊性检索串,包括:
判断所述检索串中是否包括预设的模糊性关键词;
当确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
优选地,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词,如果是,则提取所述检索词作为所述模糊性检索串的检索标签。
优选地,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
计算各个检索词的权重,并提取权重最大的检索词作为所述模糊性检索串的检索标签。
优选地,所述在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象之前,还包括:
根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
在第三方网站上抓取各个模糊性检索串对应的搜索对象,并对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
优选地,所述方法还包括:
根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
本发明还提供了一种垂直搜索引擎对检索请求的处理装置,所述装置包括:
接收模块,用于接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断模块,用于判断所述检索串是否为模糊性检索串;
提取模块,用于在确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
查询模块,用于在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
优选地,所述判断模块,包括:
第一计算子模块,用于计算所述检索串的熵;
第一判断子模块,用于判断所述检索串的熵是否大于预设的熵阈值;
第一确定子模块,用于在所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
优选地,所述判断模块,包括:
第二判断子模块,用于判断所述检索串中是否包括预设的模糊性关键词;
第二确定子模块,用于在确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
优选地,所述提取模块,包括:
第一划分子模块,用于将所述模糊性检索串划分为若干检索词;
第三判断子模块,用于判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词;
第一提取子模块,用于在所述第三判断子模块的结果为是时,提取所述检索词作为所述模糊性检索串的检索标签。
优选地,所述提取模块,包括:
第二划分子模块,用于将所述模糊性检索串划分为若干检索词;
第二计算子模块,用于计算各个检索词的权重;
第二提取子模块,用于提取权重最大的检索词作为所述模糊性检索串的检索标签。
优选地,所述装置还包括:
第一建立模块,用于根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
生成模块,用于利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
抓取模块,用于在第三方网站上抓取各个模糊性检索串对应的搜索对象;
去噪模块,用于对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
第二建立模块,用于根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
优选地,所述装置还包括:
确定模块,用于根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
本发明中,首先,接收来自客户端的任一检索请求,所述检索请求包括检索串;其次,判断所述检索串是否为模糊性检索串;当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;最后,在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。与现有技术相比,本实施例能够提高垂直搜索引擎对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种垂直搜索引擎对检索请求的处理方法流程图;
图2为本发明提供的一种设置检索标签与搜索对象的对应关系的方法流程图;
图3为本发明提供的一种垂直搜索引擎对检索请求的处理方法交互图;
图4为本发明提供的一种垂直搜索引擎对检索请求的处理装置结构示意图;
图5为本发明提供的一种判断模块402的结构示意图;
图6为本发明提供的另一种判断模块402的结构示意图;
图7为本发明提供的一种提取模块403的结构示意图;
图8为本发明提供的另一种提取模块403的结构示意图;
图9为本发明提供的服务器的部分结构的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参考图1,图1为本实施例提供的一种垂直搜索引擎对检索请求的处理方法流程图,具体可以包括:
S101:接收来自客户端的任一检索请求,所述检索请求包括检索串。
本实施例应用于垂直搜索引擎,当用户通过客户端发送检索请求时,接收所述检索请求,并提取所述检索请求中的检索串。具体的,所述检索串为用户输入的搜索关键字\词,如“微信里的游戏”、“可以买东西的软件”等。
S102:判断所述检索串是否为模糊性检索串。
本实施例中,在提取出所述检索请求中的检索串后,判断所述检索串是否为模糊性检索串。其中,所述模糊性检索串在表述上具有模糊性、口语化的特点,不能准确表达用户的检索需求。
本实施例提供了一种用于判断检索串是否为模糊性检索串的方法,具体的,在提取出所述检索请求中的检索串后,首先计算所述检索串的熵。其中,可以利用公式(1)计算检索串的熵,具体的,公式(1)如下:
其中,QEq用于表示检索串的熵值,p(d,q)表示检索词为q时,搜索对象d被搜索到的比率,其中,搜索对象被搜索到的比率等于搜索对象被搜索到的次数与总搜索次数的比值,如检索词为q时,产生的总搜索次数为n,其中,m次搜索到了搜索对象d,则p(d,q)=m/n。检索串的熵值为搜索对象被搜索到的比率的以2为底的对数值和搜索对象被搜索到的比率的乘积。p(d,q)=m/n的值的范围为(0,1),log2(p(d,q)的值为负值。
其次,在通过计算得到所述检索串的熵后,判断所述检索串的熵是否大于预设的熵阈值。其中,熵大于所述熵阈值的检索串在表述上具有模糊性、口语化的特点,可以被确定为模糊性检索串。相反的,熵小于所述熵阈值的检索串则可以被认为是能够准确表达用户的检索需求的检索串。
除了上述利用熵计算确定模糊性检索串的方法之外,本实施例还提供了一种用于判断检索串是否为模糊性检索串的方法。具体的,本实施例可以预先确定模糊性检索串中通常包括的模糊性关键词,如“关于XX的游戏”、“可以XXX的软件”、“有没有能XXX”等模糊性检索串中通常都包括模糊性关键词,如“关于”、“可以”、“有没有”等。当提取到检索请求中的检索串后,判断所述检索串中是否包括预设的任意一个模糊性关键词。只要所述检索串中包括任意一个预设的模糊性关键词,则可以直接确定所述检索串为模糊性检索串。
另外,本实施例也可以预先制定模糊性检索串生成模板,具体的,利用预先指定的模板分别为各个预设的模糊性关键词生成对应的模糊性检索串。当提取到检索请求中的检索串后,判断所述检索串是否为任意一个预先生成的模糊性检索串。
事实上,能够判断检索串是否为模糊性检索串的方法远不止本实施例提供的上述两种方法。本实施例对于能够实现判断检索串是否为模糊性检索串功能的方法不一一列举,但是其均在本发明保护范围之内。
S103:当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签。
本实施例中,当确定所述检索请求中的检索串是模糊性检索串时,在所述模糊性检索串中提取检索标签。例如,当模糊性检索串为“找吃饭的软件”时,提取的检索标签可以为“找吃饭”。
实际应用中存在各种各样的提取检索标签的方法,均在本发明的保护范围之内,在此发明人不一一列举,仅提供以下两个具体的实现方法作为举例。
第一种提取检索标签的方法中,首先,将模糊性检索串划分为若干检索词,如模糊性检索串为“找吃饭的软件”时,可以将其划分为检索词“找吃饭”、“软件”。其次,在预先设置的检索标签中查找是否存在与所述模糊性检索串划分出的任意一个检索词相同的检索标签。当存在时,则提取所述检索词作为所述模糊性检索串的检索标签。
实际应用中,可以预先建立一个检索标签库,所述检索标签库用于存储通过各种途径生成的检索标签。例如,可以根据用户检索日志,生成检索标签,并存储于检索标签库中。具体到应用搜索领域,本实施例还可以通过用户在群组中的发言记录,以及为各个应用贴的标签,生成检索标签。
第二种提取检索标签的方法中,首先,还是将模糊性检索串划分为若干检索词,其次,分别计算各个检索词的权重,并提取权重最大的检索词作为所述模糊性检索串的检索标签。具体的,计算各个检索词的权重的方法为现有技术,本实施例在此不再赘述。
值得注意的是,如果不能确定所述检索串为模糊性检索串,则可以根据所述检索串做传统搜索。
S104:在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
本实施例中,当提取到所述模糊性检索串中的检索标签时,可以在预设的检索标签与搜索对象的对应关系中,查询与提取出的检索标签对应的搜索对象,至此完成垂直搜索引擎对检索请求的处理。
值得注意的是,本实施例在执行S104之前,可以先执行本实施例提供的一种设置检索标签与搜索对象的对应关系的流程。参考图2,为本实施例提供的一种设置检索标签与搜索对象的对应关系的方法流程图,具体包括:
S201:根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签。
本实施例中,可以根据用户检索日志,生成常用的检索标签,并将检索标签存储在检索标签库中。
另外,在应用搜索领域,还可以通过用户在群组中的发言记录,以及为各个应用贴的标签,生成常用的检索标签,并存储于检索标签库中。
S202:利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串。
本实施例可以预先设置模糊性检索串生成模板,如“可以XXX的软件”、“关于XX的游戏”等。利用预设的各个模糊性检索串生成模板,分别为所述检索标签库中的各个检索标签生成对应的模糊性检索串。如,利用模板“可以XXX的软件”生成模糊性检索串“可以找吃饭的软件”。
S203:在第三方网站上抓取各个模糊性检索串对应的搜索对象,并对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系。
本实施例中,在生成模糊性检索串后,可以在第三方网站(如百度、谷歌等上抓取各个模糊性检索串对应的搜索对象。另外,由于第三方网站上的搜索对象也存在不准确或者不能满足用户需求的问题,所以,本实施例还提供了对抓取到的搜索对象的去噪处理,以便得到更准确的搜索对象。最终,建立各个模糊性检索串与经过去噪处理后的搜索对象的对应关系。
实际应用中,对抓取到的搜索对象的去噪处理是一个复杂的过程,本实施例可以结合多种去噪方法对抓取到的搜索对象进行处理。
具体的,可以在第三方网页抓取的过程中,结合网页的上下文,计算出了一批转义风险较大的搜索对象的名称集合,并构建搜索对象的名称黑名单,从而去掉关联性较小的搜索对象。另外,由于搜索结果的文本长度一般较小,所以,还可以通过控制搜索对象的文本长度的方法,去掉一部分关联性较小的搜索对象。另外,本实施例还可以利用LDA主题模型、或者基于主题信息等方式对第三方网页抓取的搜索对象进行去噪处理。
S204:根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
本实施例中,由于检索标签库中的各个检索标签是由模糊性检索串中提取出的,所以,可以根据已经建立的各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
本实施例中,为了使得垂直搜索引擎对检索请求的处理结果更加准确,本实施例还可以根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。例如,可以为建立的检索标签与搜索对象的各个对应关系设置分数,以表示二者的关联度。
本实施例中,首先,接收来自客户端的任一检索请求,所述检索请求包括检索串;其次,判断所述检索串是否为模糊性检索串;当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;最后,在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。与现有技术相比,本实施例能够提高垂直搜索引擎对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率。
实施例二
参考图3,为本实施例提供的一种垂直搜索引擎对检索请求的处理方法交互图。其中,所述垂直搜索引擎用于应用搜索领域,所述方法用于对应用搜索领域中的搜索请求进行处理。所述方法具体包括:
S301:客户端向服务器发送检索请求,所述检索请求包括用户输入的检索串。
其中,所述检索串可以为用户输入的搜索关键字\词,如“微信里的游戏”、“可以买东西的软件”等,用于表明用户想要搜索的应用。
S302:所述服务器判断所述检索串是否为模糊性检索串,如果是,则执行S303。
具体的,判断检索串是否为模糊性检索串的方法可以参照实施例一中的介绍进行理解,在此不再赘述。
S303:所述服务器提取所述模糊性检索串中的检索标签。
S304:所述服务器在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
S305:所述服务器将查询到的所述搜索对象返回至所述客户端,并显示给用户。
实际应用中,可以将召回的搜索对象进行排序后显示给用户。具体的,根据检索标签与搜索对象的关联度对召回的搜索对象进行排序。
另外,还可以将通过本实施例召回的搜索对象与通过传统搜索召回的搜索对象进行混合排序,最终显示给用户。
本实施例提供的应用搜索领域中对检索请求的处理方法,与现有技术比,能够提高应用搜索领域中对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率。
实施例三
参考图4,为本实施例提供的一种垂直搜索引擎对检索请求的处理装置结构示意图,所述装置包括:
接收模块401,用于接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断模块402,用于判断所述检索串是否为模糊性检索串;
提取模块403,用于在确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
查询模块404,用于在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
一种实施方式中,参考图5,为本实施例提供的一种判断模块402的结构示意图,所述判断模块402,包括:
第一计算子模块501,用于计算所述检索串的熵;
第一判断子模块502,用于判断所述检索串的熵是否大于预设的熵阈值;
第一确定子模块503,用于在所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
另一种实施方式中,参考图6,为本实施例提供的另一种判断模块402的结构示意图,所述判断模块402,包括:
第二判断子模块601,用于判断所述检索串中是否包括预设的模糊性关键词;
第二确定子模块602,用于在确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
一种实施方式中,参考图7,为本实施例提供的一种提取模块403的结构示意图,所述提取模块403,包括:
第一划分子模块701,用于将所述模糊性检索串划分为若干检索词;
第三判断子模块702,用于判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词;
第一提取子模块703,用于在所述第三判断子模块的结果为是时,提取所述检索词作为所述模糊性检索串的检索标签。
另一种实施方式中,参考图8,为本实施例提供的另一种提取模块403的结构示意图,所述提取模块403,包括:
第二划分子模块801,用于将所述模糊性检索串划分为若干检索词;
第二计算子模块802,用于计算各个检索词的权重;
第二提取子模块803,用于提取权重最大的检索词作为所述模糊性检索串的检索标签。
另外,为了更准确的完成对检索请求的处理过程,所述装置还可以包括:
第一建立模块,用于根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
生成模块,用于利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
抓取模块,用于在第三方网站上抓取各个模糊性检索串对应的搜索对象;
去噪模块,用于对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
第二建立模块,用于根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
另外,所述装置还可以包括:
确定模块,用于根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
本实施例提供的垂直搜索引擎对检索请求的处理装置中,接收来自客户端的任一检索请求,所述检索请求包括检索串;判断所述检索串是否为模糊性检索串;当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。与现有技术相比,本实施例能够提高垂直搜索引擎对具有模糊性、口语化特点的检索请求的处理结果的准确率和召回率。
相应的,本发明实施例还提供一种服务器,参见图9所示,可以包括:
处理器901、存储器902、输入装置903和输出装置904。服务器中的处理器901的数量可以一个或多个,图9中以一个处理器为例。在本发明的一些实施例中,处理器901、存储器902、输入装置903和输出装置904可通过总线或其它方式连接,其中,图9中以通过总线连接为例。
存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行服务器的各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置903可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。
具体在本实施例中,处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能:
接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断所述检索串是否为模糊性检索串;
当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
优选地,所述判断所述检索串是否为模糊性检索串,包括:
计算所述检索串的熵;
判断所述检索串的熵是否大于预设的熵阈值;
当所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
优选地,所述判断所述检索串是否为模糊性检索串,包括:
判断所述检索串中是否包括预设的模糊性关键词;
当确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
优选地,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词,如果是,则提取所述检索词作为所述模糊性检索串的检索标签。
优选地,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
计算各个检索词的权重,并提取权重最大的检索词作为所述模糊性检索串的检索标签。
优选地,所述在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象之前,还包括:
根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
在第三方网站上抓取各个模糊性检索串对应的搜索对象,并对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
优选地,所述方法还包括:
根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明实施例所提供的一种垂直搜索引擎对检索请求的处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种垂直搜索引擎对检索请求的处理方法,其特征在于,所述方法应用于垂直搜索引擎,所述方法包括:
接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断所述检索串是否为模糊性检索串;
当确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
2.根据权利要求1所述的方法,其特征在于,所述判断所述检索串是否为模糊性检索串,包括:
计算所述检索串的熵;
判断所述检索串的熵是否大于预设的熵阈值;
当所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
3.根据权利要求1所述的方法,其特征在于,所述判断所述检索串是否为模糊性检索串,包括:
判断所述检索串中是否包括预设的模糊性关键词;
当确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
4.根据权利要求1所述的方法,其特征在于,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词,如果是,则提取所述检索词作为所述模糊性检索串的检索标签。
5.根据权利要求1所述的方法,其特征在于,所述提取所述模糊性检索串中的检索标签,包括:
将所述模糊性检索串划分为若干检索词;
计算各个检索词的权重,并提取权重最大的检索词作为所述模糊性检索串的检索标签。
6.根据权利要求1所述的方法,其特征在于,所述在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象之前,还包括:
根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
在第三方网站上抓取各个模糊性检索串对应的搜索对象,并对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
8.一种垂直搜索引擎对检索请求的处理装置,其特征在于,所述装置包括:
接收模块,用于接收来自客户端的任一检索请求,所述检索请求包括检索串;
判断模块,用于判断所述检索串是否为模糊性检索串;
提取模块,用于在确定所述检索串为模糊性检索串时,提取所述模糊性检索串中的检索标签;
查询模块,用于在预设的检索标签与搜索对象的对应关系中,查询与所述检索标签对应的搜索对象。
9.根据权利要求8所述的装置,其特征在于,所述判断模块,包括:
第一计算子模块,用于计算所述检索串的熵;
第一判断子模块,用于判断所述检索串的熵是否大于预设的熵阈值;
第一确定子模块,用于在所述检索串的熵大于所述熵阈值时,确定所述检索串为模糊性检索串。
10.根据权利要求8所述的装置,其特征在于,所述判断模块,包括:
第二判断子模块,用于判断所述检索串中是否包括预设的模糊性关键词;
第二确定子模块,用于在确定所述检索串中包括任一预设的模糊性关键词时,确定所述检索串为模糊性检索串。
11.根据权利要求8所述的装置,其特征在于,所述提取模块,包括:
第一划分子模块,用于将所述模糊性检索串划分为若干检索词;
第三判断子模块,用于判断预设的检索标签中是否包括所述模糊性检索串划分出的任一检索词;
第一提取子模块,用于在所述第三判断子模块的结果为是时,提取所述检索词作为所述模糊性检索串的检索标签。
12.根据权利要求8所述的装置,其特征在于,所述提取模块,包括:
第二划分子模块,用于将所述模糊性检索串划分为若干检索词;
第二计算子模块,用于计算各个检索词的权重;
第二提取子模块,用于提取权重最大的检索词作为所述模糊性检索串的检索标签。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一建立模块,用于根据用户检索日志,建立检索标签库,所述检索标签库中包括检索标签;
生成模块,用于利用预设的模糊性检索串生成模板,为所述检索标签库中的各个检索标签生成对应的模糊性检索串;
抓取模块,用于在第三方网站上抓取各个模糊性检索串对应的搜索对象;
去噪模块,用于对所述搜索对象进行去噪处理,得到各个模糊性检索串与经过去噪处理后的搜索对象的对应关系;
第二建立模块,用于根据所述各个模糊性检索串与经过去噪处理后的搜索对象的对应关系,建立并存储所述检索标签库中的各个检索标签与搜索对象的对应关系。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据在第三方网站上抓取的各个模糊性检索串对应的搜索对象的分布情况,确定所述检索标签与搜索对象的对应关系中,各个搜索标签与其对应的搜索结果的关联度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510232511.0A CN106202127B (zh) | 2015-05-08 | 2015-05-08 | 一种垂直搜索引擎对检索请求的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510232511.0A CN106202127B (zh) | 2015-05-08 | 2015-05-08 | 一种垂直搜索引擎对检索请求的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202127A true CN106202127A (zh) | 2016-12-07 |
CN106202127B CN106202127B (zh) | 2020-02-11 |
Family
ID=57459744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510232511.0A Active CN106202127B (zh) | 2015-05-08 | 2015-05-08 | 一种垂直搜索引擎对检索请求的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202127B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257452A (zh) * | 2015-06-19 | 2016-12-28 | 联想(新加坡)私人有限公司 | 基于上下文特征修改搜索结果 |
WO2019205679A1 (zh) * | 2018-04-26 | 2019-10-31 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN113806519A (zh) * | 2021-09-24 | 2021-12-17 | 金蝶软件(中国)有限公司 | 一种搜索召回方法、装置及介质 |
CN113849538A (zh) * | 2021-09-08 | 2021-12-28 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于模糊搜索多选项的智能提取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101751430A (zh) * | 2008-12-12 | 2010-06-23 | 汉王科技股份有限公司 | 电子词典模糊检索方法 |
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN102314464A (zh) * | 2010-07-07 | 2012-01-11 | 北京亮点时间科技有限公司 | 歌词搜索方法及搜索引擎 |
CN104573099A (zh) * | 2015-01-29 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 题目的搜索方法及装置 |
-
2015
- 2015-05-08 CN CN201510232511.0A patent/CN106202127B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101751430A (zh) * | 2008-12-12 | 2010-06-23 | 汉王科技股份有限公司 | 电子词典模糊检索方法 |
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN102314464A (zh) * | 2010-07-07 | 2012-01-11 | 北京亮点时间科技有限公司 | 歌词搜索方法及搜索引擎 |
CN104573099A (zh) * | 2015-01-29 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 题目的搜索方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257452A (zh) * | 2015-06-19 | 2016-12-28 | 联想(新加坡)私人有限公司 | 基于上下文特征修改搜索结果 |
WO2019205679A1 (zh) * | 2018-04-26 | 2019-10-31 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN113849538A (zh) * | 2021-09-08 | 2021-12-28 | 南方电网调峰调频发电有限公司信息通信分公司 | 一种基于模糊搜索多选项的智能提取方法及系统 |
CN113806519A (zh) * | 2021-09-24 | 2021-12-17 | 金蝶软件(中国)有限公司 | 一种搜索召回方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106202127B (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104321802B (zh) | 图像分析装置、图像分析系统、图像分析方法 | |
CN100565509C (zh) | 使用点击距离对搜索结果分级的系统和方法 | |
CN110019896A (zh) | 一种图像检索方法、装置及电子设备 | |
CN104021205B (zh) | 一种建立微博索引的方法及装置 | |
US10185771B2 (en) | Method and system for scheduling web crawlers according to keyword search | |
CN106202127A (zh) | 一种垂直搜索引擎对检索请求的处理方法及装置 | |
JP6932360B2 (ja) | オブジェクト検索方法、装置およびサーバ | |
US9741018B2 (en) | Systems and methods for extracting similar group elements | |
CN102402589A (zh) | 一种提供与搜索请求相关的参考搜索信息的方法与设备 | |
CN109033261A (zh) | 图像处理方法、装置、处理设备及其存储介质 | |
CN103823907A (zh) | 一种整合在线视频资源地址的方法、装置及引擎 | |
CN103838862A (zh) | 一种视频搜索的方法、装置及终端 | |
CN107748772B (zh) | 一种商标识别方法及装置 | |
CN103577547A (zh) | 网页类型识别方法及装置 | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
CN106202440A (zh) | 数据处理方法、装置及设备 | |
CN110472019A (zh) | 舆情搜索方法及装置 | |
CN102902701A (zh) | 信息查询系统及方法 | |
CN106503013A (zh) | 搜索提示方法及装置 | |
CN110851709B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN104933178A (zh) | 官方网站确定方法及系统 | |
CN110209804A (zh) | 目标语料的确定方法和装置、存储介质及电子装置 | |
CN102129454A (zh) | 一种基于云存储的百科数据处理方法及系统 | |
US20180322199A1 (en) | Optimizing the allocation of jobs on job portal | |
CN104021170A (zh) | 一种信息获取方法及云端服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |