CN107609192A - 一种搜索引擎的补充搜索方法和装置 - Google Patents
一种搜索引擎的补充搜索方法和装置 Download PDFInfo
- Publication number
- CN107609192A CN107609192A CN201710946792.5A CN201710946792A CN107609192A CN 107609192 A CN107609192 A CN 107609192A CN 201710946792 A CN201710946792 A CN 201710946792A CN 107609192 A CN107609192 A CN 107609192A
- Authority
- CN
- China
- Prior art keywords
- word
- search
- words
- quality
- strings
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种搜索引擎的补充搜索方法和装置,涉及计算机技术领域。该方法的一个具体实施方式包括:对搜索词进行分词,得到多个字串;从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;以所述候选搜索词作为新的搜索词进行搜索。能够根据优质词库有针对性地补充与搜索词相关的搜索结果,尤其对商品搜索时,能够有针对性地补充相关商品的搜索结果,提高用户体验。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种搜索引擎的补充搜索方法、装置、电子设备和计算机可读介质。
背景技术
以搜索词为关键词在搜索引擎中进行搜索查询已经是互联网应用的惯常手段,但是根据搜索词的不同,有时得到的搜索结果却不尽如人意,用户输入的搜索词有时是不规范的(存在错别字等情况),或者搜索词本身与搜索引擎的数据库不匹配时,返回的结果数量过少,甚至无结果返回。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有技术往往只对搜索词进行简单地分词重组处理后,以重组后的搜索词进行搜索,这种解决办法会导致重组后的搜索词信息混乱,没有针对性,导致搜索结果混杂,有时重组后的搜索词仍不能得到更加匹配的搜索结果,甚至无结果返回,极大地降低了用户体验。
发明内容
有鉴于此,本发明实施例提供一种搜索引擎的补充搜索方法和装置,能够根据优质词库有针对性地补充与搜索词相关的搜索结果,尤其对商品搜索时,能够有针对性地补充相关商品的搜索结果,提高用户体验。
为实现上述目的,根据本发明实施例的一个方面,提供了一种搜索引擎的补充搜索方法,包括:对搜索词进行分词,得到多个字串;从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;以所述候选搜索词作为新的搜索词进行搜索。
可选地,在根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:所述预定义优质词在近期搜索词历史记录中出现过;所述预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值;所述预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值。
可选地,在根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,所述方法还包括:计算每个所述候选搜索词的综合分其中,所述综合分的计算公式为:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0,
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0,
γ表示所述候选搜索词中所包含的字串的数量,
δ表示所述候选搜索词的优质分;
选取其中所述综合分较高的候选搜索词作为新的搜索词进行搜索。
可选地,所述优质分的计算公式为:
其中,xi为所述优质词在所述搜索词历史记录中第i天的搜索量,y为预定义经验值,i=1,2,3…,n。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种搜索引擎的补充搜索装置,包括:分词模块,用于对搜索词进行分词,得到多个字串;重组模块,用于从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;过滤模块,用于根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;搜索模块,用于以所述候选搜索词作为新的搜索词进行搜索。
可选地,在所述过滤模块根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:所述预定义优质词在近期搜索词历史记录中出现过;所述预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值;所述预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值。
可选地,所述装置还包括:优化模块,用于在所述过滤模块根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,计算每个所述候选搜索词的综合分其中,所述综合分的计算公式为:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0;
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0;
γ表示所述候选搜索词中所包含的字串的数量;
δ表示述候选搜索词的优质分。
所述搜索模块还用于选取其中所述综合分较高的候选搜索词作为新的搜索词进行搜索。
可选地,所述优质分的计算公式为:
其中,xi为所述优质词在所述搜索词历史记录中第i天的搜索量,y为预定义经验值,i=1,2,3…,n。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种搜索引擎的补充搜索电子设备终端,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现一种搜索引擎的补充搜索方法中任一所述的方法。
为实现上述目的,根据本发明实施例的再一个方面,提供了一种搜索引擎的补充搜索的计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现一种搜索引擎的补充搜索方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用根据预定义优质词库对分词重组后的搜索词进行过滤的技术手段,所以克服了搜索结果混杂、没有针对性的技术问题,进而达到有针对性地补充与搜索词相关的搜索结果,提高用户体验的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种搜索引擎的补充搜索方法的主要步骤的示意图;
图2是根据本发明实施例的一种搜索引擎的补充搜索装置的主要部分的示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种搜索引擎的补充搜索方法的主要步骤的示意图,如图1所示:
步骤S101表示对搜索词进行分词,得到多个字串;此步骤的主要目的是对接收到的搜索词进行预处理,以便进行后续步骤,其中,在对所述搜索词进行分词,得到多个字串之后,可根据预定义语料库对所述字串进行标注,再对被标注的字串进行组合,以得到含有被标注的字串的字串集,以便于对字串进行识别。
以电商领域的搜索引擎为例,首先应建立相应的语料库(即预定义语料库),如产品词库、品牌词库等,在分词工具上(如stanford)加载预定义语料库建立电商分词系统,搜索引擎接收到搜索词后自动根据预定义语料库进行分词处理,得到多个字串。例如,搜索引擎接收到的搜索词为“京东牌大屏幕无线充电手机”,分词处理后得到的字串为:“京东牌”、“大屏幕”、“无线充电”、“手机”。其中,在搜索进行分词步骤之前,搜索引擎可以对接收到的搜索词进行规整处理,处理流程如:①大写字母转化为小写字母;②繁体汉字转化为简体汉字;③全角符号转化为半角符号;④过滤特殊字符(如[!@$%^*()=~`{}\\|:;\"',]这些字符)。搜索引擎对搜索词进行分词处理的同时,可以根据预定义语料库对得到的字串进行可选性地词性标注,标注后的结果可以表示为“京东牌|品牌词”和“手机|产品词”。
步骤S102表示从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集,以便于产生多个候选搜索词,增加搜索结果。可根据搜索引擎以及系统的特点,以多种形式对分词后得到的字串进行组合,组合可以是无序的也可以是有序的,组合中包含的字串个数可以是一个或者多个,以上述字串为例,字串的数量为4个,以每种组合至少包括两个字串的无序组合为例,则上述字串的组合形式为:
①京东牌大屏幕 ②京东牌无线充电
③京东牌手机 ④大屏幕无线充电
⑤大屏幕手机 ⑥无线充电手机
⑦京东牌大屏幕无线充电 ⑧京东牌大屏幕手机
⑨大屏幕无线充电手机
可以得到以上9个候选搜索词。
步骤S103表示根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词,即对于任意一个组合后的字串,若所述预定义优质词库中包含所述组合后的字串或包含与所述组合后的字串相似的字串,则将所述组合后的字串作为候选搜索词。此步骤主要作用是有针对性地对候选搜索词进行筛选以得到更优的搜索结果。
预定义优质词在系统中应按时间窗口滚动更新,在根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:
(1)预定义优质词在近期搜索词历史记录中出现过,如在最近7日的搜索历史记录中出现过。基于近期搜索词历史记录筛选预定义优质词,可以使筛选出的预定义优质词更符合当下的搜索环境;
(2)预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值,如在最近180天内的搜索词历史记录中该优质词的搜索总量至少应达到100;
(3)预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值,点击率为该搜索词的搜索结果的点击次数与该搜索词搜索量的比值,如在最近180天内的搜索词历史记录中该优质词的点击率大于或等于15%。使用较长时间段的搜索词历史记录中的搜索量和/或点击率对预定义优质词进行的筛选是基于大量数据的,可以增加筛选结果的可靠性。
上述条件(2)和(3)中的搜索词历史记录的时间跨度可以大于条件(1)中的搜索词时间跨度,例如当搜索环境的季节因素发生变化时,搜索词“雪地靴”在180天内的搜索词历史记录中出现过,但是在最近7日的搜索词历史记录中没有出现,则表明该搜索词不能成为当下季节的预定义优质词。
在根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,该方法还可包括:
计算每个候选搜索词的综合分,可根据综合分对候选搜索词进行排序,也可以选取综合分数较高的几项候选搜索词来进行补充搜索,此步骤主要作用是更进一步地有针对性地对候选搜索词进行筛选以得到更优的搜索结果。
其中,综合分的计算公式为:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0;
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0;
γ表示所述候选搜索词中所包含的字串的数量;
δ表示所述候选搜索词的优质分。
优质分的计算公式为:
其中,xi为所述优质词在搜索词历史记录中第i天(i越大,在搜索词历史记录中对应的日期越靠近当前日期)的搜索量,[2-(n-i+1)y]为时间衰减因子,y为预定义经验值,i=1,2,3…,n。当n等于180时,y可以取0.08作为经验值,时间衰减因子的作用是将距今时间较长的搜索词的搜索量对于当下的搜索词的影响成时间性衰减,更加突出当下的搜索词。如果计算得到不止三个综合分相同的搜索词时,可根据优先级——包含产品词>包含品牌词>包含字串的数量>优质分对搜索词进行再次筛选。
步骤S104表示以选取的候选搜索词作为新的搜索词进行搜索,用来对原搜索词的搜索结果进行补充。以上述搜索词“京东牌大屏幕无线充电手机”为例,对得到的9个候选搜索词进行过滤之后,筛选出三个候选搜索词分别是“京东牌手机”、“京东牌无线充电手机”和“京东牌大屏幕手机”,以此三个候选搜索词作为新的搜索词在搜索引擎中搜索结果,由于这三个搜索词均扩大了原搜索词的定义范围,所以会分别得到相关的搜索结果,这些搜索结果就可以作为原搜索词的补充搜索结果。
图2是根据本发明实施例的一种搜索引擎的补充搜索装置200的主要部分的示意图,如图2所示:
分词模块201,用于对搜索词进行分词,得到多个字串;此模块的主要目的是对接收到的搜索词进行预处理,以便进行后续流程,其中,在对所述搜索词进行分词,得到多个字串之后,可根据预定义语料库对所述字串进行标注,以便于对字串进行识别。
以电商领域的搜索引擎为例,首先应建立相应的语料库(即预定义语料库),如产品词库、品牌词库等,在分词工具上(如stanford)加载预定义语料库建立电商分词系统,搜索引擎接收到搜索词后自动根据预定义语料库进行分词处理,得到多个字串。例如,搜索引擎接收到的搜索词为“京东牌大屏幕无线充电手机”,分词处理后得到的字串为:“京东牌”、“大屏幕”、“无线充电”、“手机”。其中,在搜索进行分词步骤之前,搜索引擎可以对接收到的搜索词进行规整处理,处理流程如:①大写字母转化为小写字母;②繁体汉字转化为简体汉字;③全角符号转化为半角符号;④过滤特殊字符(如[!@$%^*()=~`{}\\|:;\"',]这些字符)。搜索引擎对搜索词进行分词处理的同时,可以根据预定义语料库对得到的字串进行可选性地词性标注,注后的结果可以表示为“京东牌|品牌词”和“手机|产品词”。
重组模块202,用于从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集,以便于产生多个候选搜索词,增加搜索结果。
可根据搜索引擎以及系统的特点,以多种形式对分词后得到的字串进行组合,组合可以是无序的也可以是有序的,组合中包含的字串个数可以是一个或者多个,以上述字串为例,字串的数量为4个,以每种组合至少包括两个字串的无序组合为例,其中每种组合至少包括两个字串,则上述字串的组合形式为:
①京东牌大屏幕 ②京东牌无线充电
③京东牌手机 ④大屏幕无线充电
⑤大屏幕手机 ⑥无线充电手机
⑦京东牌大屏幕无线充电 ⑧京东牌大屏幕手机
⑨大屏幕无线充电手机
可以得到以上9个候选搜索词。
过滤模块203,用于根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词,即对于任意一个组合后的字串,若所述预定义优质词库中包含所述组合后的字串或包含与所述组合后的字串相似的字串,则将所述组合后的字串作为候选搜索词。此模块主要作用是有针对性地对候选搜索词进行筛选以得到更优的搜索结果。
预定义优质词在系统中应按时间窗口滚动更新,在过滤模块203根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:
(1)预定义优质词在近期搜索词历史记录中出现过,如在最近7日的搜索历史记录中出现过。基于近期搜索词历史记录筛选预定义优质词,可以使筛选出的预定义优质词更符合当下的搜索环境;
(2)预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值,如在最近180天内的搜索词历史记录中该优质词的搜索总量至少应达到100;
(3)预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值,点击率为该搜索词的搜索结果的点击次数与该搜索词搜索量的比值,如在最近180天内的搜索词历史记录中该优质词的点击率大于15%。使用较长时间段的搜索词历史记录中的搜索量和/或点击率对预定义优质词进行的筛选是基于大量数据的,可以增加筛选结果的可靠性。
上述条件(2)和(3)中的搜索词历史记录的时间跨度可以大于条件(1)中的搜索词时间跨度,例如当搜索环境的季节因素发生变化时,搜索词“雪地靴”在180天内的搜索词历史记录中出现过,但是在最近7日的搜索词历史记录中没有出现,则表明该搜索词不能成为当下季节的预定义优质词。
在将符合预定义优质词库的组合后的字串作为候选搜索词之后,该装置还可包括:优化模块205,用于在过滤模块203根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,计算每个候选搜索词的综合分,搜索模块204还用于选取其中所述综合分较高的候选搜索词作为新的搜索词进行搜索。可根据综合分对候选搜索词进行排序;也可以选取综合分数较高的几项候选搜索词来进行补充搜索,此模块主要作用是更进一步地有针对性地对候选搜索词进行筛选以得到更优的搜索结果。
其中,所述综合分的计算公式为:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0;
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0;
γ表示所述候选搜索词中所包含的字串的数量;
δ表示述候选搜索词的优质分。
所述优质分的计算公式为:
其中,xi为所述优质词在所述搜索词历史记录中第i天(i越大,在搜索词历史记录中对应的日期越靠近当前日期)的搜索量,[2-(n-i+1)y]为时间衰减因子,y为预定义经验值,i=1,2,3…,n。当n等于180时,y可以取0.08作为经验值,时间衰减因子的作用是将距今时间较长的搜索词的搜索量对于当下的搜索词的影响成时间性衰减,更加突出当下的搜索词。如果计算得到不止三个综合分相同的搜索词时,可根据优先级——包含产品词>包含品牌词>包含字串的数量>优质分对搜索词进行再次筛选。
搜索模块204,用于以候选搜索词作为新的搜索词进行搜索,用来对原搜索词的搜索结果进行补充。以上述搜索词“京东牌大屏幕无线充电手机”为例,对得到的9个候选搜索词进行过滤之后,筛选出三个候选搜索词分别是“京东牌手机”、“京东牌无线充电手机”和“京东牌大屏幕手机”,以此三个候选搜索词作为新的搜索词在搜索引擎中搜索结果,由于这三个搜索词均扩大了原搜索词的定义范围,所以会分别得到相关的搜索结果,这些搜索结果就可以作为原搜索词的补充搜索结果。
图3示出了可以应用本发明实施例的一种搜索引擎的补充搜索方法或装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的一种搜索引擎的补充搜索方法一般由服务器305执行,相应地,一种搜索引擎的补充搜索装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图4所示为适于用来实现本发明实施例的终端设备的计算机系统400的结构示意图。图4所示的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质包括计算机可读信号介质或计算机可读存储介质,或者是上述两者的任意组合。计算机可读存储介质包括但不限于电、磁、光、电磁、红外线、半导体的系统、装置或器件,或者上述内容的任意组合。计算机可读存储介质具体包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述内容的任意组合。在本发明中,计算机可读存储介质包括任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用;计算机可读的信号介质包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述信号的任意组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF(射频)等,或者上述介质的任意组合。
附图中的步骤图或框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作,步骤图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以并行地执行,有时也可以按相反的顺序执行,其执行顺序依所涉及的功能而定。也要注意的是,框图或步骤图中的每个方框以及其组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括分词模块、重组模块、过滤模块和搜索模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,搜索模块还可以被描述为“用于以所述候选搜索词作为新的搜索词进行搜索的模块”。
另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:对搜索词进行分词,得到多个字串;从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;以所述候选搜索词作为新的搜索词进行搜索。
根据本发明实施例的技术方案,因为采用根据预定义优质词库对分词重组后的搜索词进行过滤的技术手段,所以克服了搜索结果混杂、没有针对性的技术问题,进而达到有针对性地补充与搜索词相关的搜索结果,提高用户体验的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种搜索引擎的补充搜索方法,其特征在于,包括:
对搜索词进行分词,得到多个字串;
从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;
根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;
以所述候选搜索词作为新的搜索词进行搜索。
2.根据权利要求1所述的方法,其特征在于,在根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:
所述预定义优质词在近期搜索词历史记录中出现过;
所述预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值;
所述预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值。
3.根据权利要求1所述的方法,其特征在于,
在根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,所述方法还包括:
计算每个所述候选搜索词的综合分其中,所述综合分的计算公式为:
m=2α+1.5β+γ+0.1lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0,
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0,
γ表示所述候选搜索词中所包含的字串的数量,
δ表示所述候选搜索词的优质分;
选取其中所述综合分较高的候选搜索词作为新的搜索词进行搜索。
4.根据权利要求3所述的方法,其特征在于,所述优质分的计算公式为:
<mrow>
<mi>&delta;</mi>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>&times;</mo>
<mo>&lsqb;</mo>
<mn>2</mn>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>-</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mi>y</mi>
</msup>
<mo>&rsqb;</mo>
<mo>;</mo>
</mrow>
其中,xi为所述优质词在所述搜索词历史记录中第i天的搜索量,y为预定义经验值,i=1,2,3...,n。
5.一种搜索引擎的补充搜索装置,其特征在于,包括:
分词模块,用于对搜索词进行分词,得到多个字串;
重组模块,用于从分词的结果中选择一个或多个独立字串,并且/或者选择一组或多组的两个以上字串然后分别进行组合以得到一个或多个组合字串,再将所述一个或多个独立字串和/或所述一个或多个组合字串组成字串集;
过滤模块,用于根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词;
搜索模块,用于以所述候选搜索词作为新的搜索词进行搜索。
6.根据权利要求5所述的装置,其特征在于,在所述过滤模块根据预定义优质词库对所述字串集进行过滤的步骤之前,按照如下选取条件确定所述预定义优质词库中的预定义优质词:
所述预定义优质词在近期搜索词历史记录中出现过;
所述预定义优质词在搜索词历史记录中的被搜索的总量大于或等于搜索量阈值;
所述预定义优质词在搜索词历史记录中的点击率大于或等于点击率阈值。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
优化模块,用于在所述过滤模块根据预定义优质词库对所述字串集进行过滤,将过滤后的所述字串集中的成员作为候选搜索词之后,计算每个所述候选搜索词的综合分
其中,所述综合分的计算公式为:
m=2α+1.5β+γ+0.1lgδ
α表示所述候选搜索词是否包含产品词字串,是则置1,否则置0,
β表示所述候选搜索词是否包含品牌词字串,是则置1,否则置0,
γ表示所述候选搜索词中所包含的字串的数量,
δ表示述候选搜索词的优质分;
所述搜索模块还用于选取其中所述综合分较高的候选搜索词作为新的搜索词进行搜索。
8.根据权利要求7所述的装置,其特征在于,所述优质分的计算公式为:
<mrow>
<mi>&delta;</mi>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</msubsup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>&times;</mo>
<mo>&lsqb;</mo>
<mn>2</mn>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>-</mo>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mi>y</mi>
</msup>
<mo>)</mo>
<mo>;</mo>
</mrow>
其中,xi为所述优质词在所述搜索词历史记录中第i天的搜索量,y为预定义经验值,i=1,2,3...,n。
9.一种搜索引擎的补充搜索电子设备终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946792.5A CN107609192A (zh) | 2017-10-12 | 2017-10-12 | 一种搜索引擎的补充搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710946792.5A CN107609192A (zh) | 2017-10-12 | 2017-10-12 | 一种搜索引擎的补充搜索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107609192A true CN107609192A (zh) | 2018-01-19 |
Family
ID=61068055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710946792.5A Pending CN107609192A (zh) | 2017-10-12 | 2017-10-12 | 一种搜索引擎的补充搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609192A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228907A (zh) * | 2018-02-08 | 2018-06-29 | 北京三快在线科技有限公司 | 一种推荐信息的方法、装置、电子设备及存储介质 |
CN108920531A (zh) * | 2018-06-08 | 2018-11-30 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
CN109255011A (zh) * | 2018-07-20 | 2019-01-22 | 深圳点猫科技有限公司 | 一种基于人工智能的搜索提示方法及电子设备 |
CN110196963A (zh) * | 2018-02-27 | 2019-09-03 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN110209831A (zh) * | 2018-02-13 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN110580271A (zh) * | 2018-06-08 | 2019-12-17 | 百度在线网络技术(北京)有限公司 | 数据查询方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874492A (zh) * | 2017-02-23 | 2017-06-20 | 北京京东尚科信息技术有限公司 | 搜索方法和装置 |
CN107220384A (zh) * | 2017-06-29 | 2017-09-29 | 北京拉勾科技有限公司 | 一种基于相关性的搜索词处理方法、装置及计算设备 |
-
2017
- 2017-10-12 CN CN201710946792.5A patent/CN107609192A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874492A (zh) * | 2017-02-23 | 2017-06-20 | 北京京东尚科信息技术有限公司 | 搜索方法和装置 |
CN107220384A (zh) * | 2017-06-29 | 2017-09-29 | 北京拉勾科技有限公司 | 一种基于相关性的搜索词处理方法、装置及计算设备 |
Non-Patent Citations (1)
Title |
---|
李卫疆等: "《基于自然语言处理的信息检索》", 31 July 2014, 云南大学出版社 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228907A (zh) * | 2018-02-08 | 2018-06-29 | 北京三快在线科技有限公司 | 一种推荐信息的方法、装置、电子设备及存储介质 |
CN110209831A (zh) * | 2018-02-13 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN110196963A (zh) * | 2018-02-27 | 2019-09-03 | 北京京东尚科信息技术有限公司 | 模型生成、语义识别的方法、系统、设备及存储介质 |
CN108920531A (zh) * | 2018-06-08 | 2018-11-30 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
CN110580271A (zh) * | 2018-06-08 | 2019-12-17 | 百度在线网络技术(北京)有限公司 | 数据查询方法和装置 |
CN108920531B (zh) * | 2018-06-08 | 2021-10-15 | Oppo(重庆)智能科技有限公司 | 搜索内容推荐方法、装置、终端设备及存储介质 |
CN110580271B (zh) * | 2018-06-08 | 2022-05-24 | 百度在线网络技术(北京)有限公司 | 数据查询方法和装置 |
CN109255011A (zh) * | 2018-07-20 | 2019-01-22 | 深圳点猫科技有限公司 | 一种基于人工智能的搜索提示方法及电子设备 |
CN109255011B (zh) * | 2018-07-20 | 2021-07-02 | 深圳点猫科技有限公司 | 一种基于人工智能的搜索提示方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
US20170351687A1 (en) | Method and system for enhanced query term suggestion | |
JP2018106658A (ja) | 情報プッシュ用の方法及び装置 | |
US10346496B2 (en) | Information category obtaining method and apparatus | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
CN108540508B (zh) | 用于推送信息的方法、装置和设备 | |
CN107247798B (zh) | 构建搜索词库的方法和装置 | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN114154013A (zh) | 视频推荐方法、装置、设备及存储介质 | |
CN111861596A (zh) | 一种文本分类方法和装置 | |
CN112765478A (zh) | 用于推荐内容的方法、装置、设备、介质和程序产品 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN108985805B (zh) | 一种选择性执行推送任务的方法和装置 | |
CN112860626B (zh) | 一种文档排序方法、装置及电子设备 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN112887426B (zh) | 信息流的推送方法、装置、电子设备以及存储介质 | |
CN110750708A (zh) | 关键词推荐方法、装置和电子设备 | |
CN113325959A (zh) | 一种输入语料的推荐方法和装置 | |
CN113722593A (zh) | 事件数据处理方法、装置、电子设备和介质 | |
CN111310016B (zh) | 标签挖掘方法、装置、服务器和存储介质 | |
CN113763005A (zh) | 图片广告推送方法、电子设备及计算机可读存储介质 | |
CN113360761A (zh) | 信息流推荐方法、装置、电子设备和计算机可读存储介质 | |
CN113743973A (zh) | 分析市场热点趋势的方法和装置 | |
CN112989190A (zh) | 一种商品挂载方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |
|
RJ01 | Rejection of invention patent application after publication |