CN112685540A - 搜索方法、装置、存储介质以及终端 - Google Patents
搜索方法、装置、存储介质以及终端 Download PDFInfo
- Publication number
- CN112685540A CN112685540A CN202110022602.7A CN202110022602A CN112685540A CN 112685540 A CN112685540 A CN 112685540A CN 202110022602 A CN202110022602 A CN 202110022602A CN 112685540 A CN112685540 A CN 112685540A
- Authority
- CN
- China
- Prior art keywords
- search
- occurrence
- statement
- target
- system information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012216 screening Methods 0.000 claims description 61
- 230000011218 segmentation Effects 0.000 claims description 48
- 238000001914 filtration Methods 0.000 claims description 31
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001915 proofreading effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 18
- 230000000875 corresponding effect Effects 0.000 description 135
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007474 system interaction Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种搜索方法、装置、存储介质以及终端,涉及数据处理技术领域。首先基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;然后基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;最后根据召回结果生成改写词典。由于历史搜索数据中包含了用户的搜索需求,因此根据历史搜索数据得到倒排索引以及根据倒排索引生成改写词典之后,改写词典中不仅包括了系统信息,还包括了用户对系统信息的搜索需求,扩大了改写词典的召回范围,提高了对终端中的系统信息的召回率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种搜索方法、装置、存储介质以及终端。
背景技术
随着科学技术的发展,数据呈现多样性、复杂性等特点,人们对于追求事物的认知也渐渐变得更加复杂多样。在日常生活中,搜索渐渐成为人们认知新事物的一种技能方式,因此搜索方法也成本本领域人员研究的重点之一。
在相关技术中,一般通过直接将终端系统设置和系统应用的名称作为预设检索词,当用户输入的检索词与预设检索词相对应的时,显示预设检索词对应的系统设置和系统应用。但是不同品牌、型号、系统版本的终端中相似功能对应的名称可能不同,如果直接通过上述方法对系统设置和系统应用进行召回,会使得对终端中系统设置和本地系统应用的召回率较低。
发明内容
本申请提供一种搜索方法、装置、存储介质以及终端,可以解决相关技术中对终端中系统设置和本地系统应用的召回率较低的技术问题。
第一方面,本申请实施例提供一种搜索方法,该方法包括:
基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建所述共现搜索语句与系统信息之间的倒排索引;
基于所述历史搜索数据获取全量搜索语句,将所述全量搜索语句在所述倒排索引中进行召回;
根据召回结果生成改写词典,其中所述改写词典用于当终端获取到用户输入的实时搜索语句后,根据所述改写词典输出所述实时搜索语句对应的系统信息。
第二方面,本申请实施例提供一种搜索装置,该装置包括:
索引构建模块,用于基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建所述共现搜索语句与系统信息之间的倒排索引;
召回模块,用于基于所述历史搜索数据获取全量搜索语句,将所述全量搜索语句在所述倒排索引中进行召回;
词典生成模块,用于根据召回结果生成改写词典,其中所述改写词典用于当终端获取到用户输入的实时搜索语句后,根据所述改写词典输出所述实时搜索语句对应的系统信息。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行实现上述的方法的步骤。
第四方面,本申请实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请提供一种搜索方法,首先基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;然后基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;最后根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。由于历史搜索数据中包含了用户的搜索需求,因此根据历史搜索数据得到倒排索引以及根据倒排索引生成改写词典之后,改写词典中不仅包括了系统信息,还包括了用户对系统信息的搜索需求,扩大了改写词典的召回范围,提高了对终端中的系统信息的召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种搜索方法的示例性系统架构图;
图2为本申请实施例提供的一种搜索方法的系统交互图;
图3为本申请另一实施例提供的一种搜索方法的流程示意图;
图4为本申请另一实施例提供的一种搜索方法的流程示意图;
图5为本申请另一实施例提供的一种倒排索引的举例示意图;
图6为本申请另一实施例提供的一种改写词典的举例示意图;
图7为本申请另一实施例提供的用户实时搜索的举例示意图;
图8为本申请另一实施例提供的一种搜索装置的结构示意图;
图9为本申请另一实施例提供的一种搜索装置的结构示意图;
图10为本申请另一实施例提供了一种终端的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请实施例提供的一种搜索方法的示例性系统架构图。
如图1所示,系统架构可以包括至少一个终端110、服务器120以及网络130,网络130用于在终端110和服务器120之间提供通信链路的介质。网络130可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端110可以是硬件,也可以是软件。当终端110为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端110为软件时,可以是安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
服务器120可以是提供各种服务的业务服务器。需要说明的是,服务器120可以是硬件,也可以是软件。当服务器120为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器120为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应理解,图1中的终端、网络和服务器的数目仅是示意性的。根据实现需要,可以是任意数量的终端、网络和服务器。请参阅图2,图2为本申请实施例提供的一种搜索方法的系统交互图,下面将结合图1和图2介绍一种搜索方法中系统交互过程。
S201、终端从服务器获取历史搜索数据。
S202、终端基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引。
可选地,基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引,包括:将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句;获取系统信息对应的目标共现搜索语句;获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选;构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引。
可选地,将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句,包括:获取历史搜索数据中各搜索语句,将请求时间间隔小于预设请求时间间隔的两次搜索语句分类为同一搜索需求;将处于同一搜索需求的各搜索语句两两组合,得到关于同一搜索需求的共现搜索语句。
可选地,获取系统信息对应的目标共现搜索语句,包括:将系统信息作为关键词,查询系统信息对应的目标共现搜索语句,其中系统信息至少包括本地系统应用名称以及系统设置主副标题。
可选地,获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选,包括:获取目标共现搜索语句对应的第一筛选特征,其中第一筛选特征包括共现比、共现率、共现次数、共现次数排序以及文本特征中的至少一种;基于第一筛选特征对目标共现搜索语句进行第一筛选。
可选地,构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引,包括:将第一筛选后的各目标共现搜索语句进行分词得到各第一分词;将各第一分词中相同的第一分词对应的系统信息进行归并,得到倒排索引。
S203、终端基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回。
可选地,基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回,包括:基于历史搜索数据获取全量搜索语句,以及获取全量搜索语句的第二筛选特征;将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,基于第二筛选特征对各第二分词进行第二筛选;将第二筛选后的各全量搜索语句对应的各第二分词在倒排索引中进行召回。
S204、终端根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。
可选地,根据召回结果生成改写词典,包括:若目标全量搜索语句中预设数量的第二分词均可以在倒排索引中被召回,则获取目标全量搜索语句中预设数量的第二分词对应的目标系统信息;根据目标全量搜索语句以及目标系统信息生成改写词典。
可选地,方法包括:获取历史搜索数据中成功输出系统信息的第一搜索语句;将第一搜索语句与改写词典进行校对,获取第一搜索语句中未在改写词典中出现的第二搜索语句,将第二搜索语句设置为黑名单语句。
在本申请实施例中,首先基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;然后基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;最后根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。由于历史搜索数据中包含了用户的搜索需求,因此根据历史搜索数据得到倒排索引以及根据倒排索引生成改写词典之后,改写词典中不仅包括了系统信息,还包括了用户对系统信息的搜索需求,扩大了改写词典的召回范围,提高了对终端中的系统信息的召回率。
请参阅图3,图3为本申请另一实施例提供的一种搜索方法的流程示意图。
如图3所示,该方法包括:
S301、基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引。
在本申请实施例中,执行主体可以是出售使用的终端,还可以是测试设备,也即可以在出售终端之前,利用测试设备生成改写词典,再将该改写词典导入至出售使用的终端,为方面描述,本申请将执行主体设置为测试设备。
历史搜索数据是指大量用户在某一搜索引擎或者某一终端上进行系统信息搜索时的搜索数据,搜索数据具体可以是搜索日志,该搜索数据可以包括用户写入搜索框的检索语句(本领域技术人员称之为query),还可以包括针对该检索语句对应的搜索结果(根据检索语句搜索出来的本地系统应用名称以及系统设置主副标题等结果),其中历史搜索数据的获取方式可以是从搜索引擎或者搜索终端对应的服务器中获取。
在用户进行系统信息的搜索时,其往往具有某一搜索需求,例如,当用户需要观察到终端的屏幕亮度较暗时,那么需要查找在系统信息中查找调节屏幕亮度的系统设置项,那么这里“调节屏幕亮度”可以认为是一个搜索需求,而用户针对同一搜索需求输入的搜索语句往往是类似或者相关的,因此在本申请实施例中利用这个特性,可以基于历史搜索数据获取用户关于同一搜索需求的搜索语句,并将该搜索语句两两配对得到关于同一搜索需求的共现搜索语句。因此共现搜索语句更能体现出用户真实的搜索需求,通过共现搜索语句得到的搜索方法可以更加准确召回出系统信息。
在本申请实施例中,其需要解决技术问题是,是需要根据用户的输入的实时搜索语句召回其对应的系统信息,因此在获取到共现搜索语句之后,还需要获取共现搜索语句对应的系统信息。一种可行的方式是,通过将系统信息与共现搜索语句进行校验,获取其对应的相似度,根据相似度确定共现搜索语句对应的系统信息;另一种可行的方式是,由于历史搜索数据中不仅包括用户输入的检索语句,还包括了针对该检索语句对应的搜索结果(根据检索语句搜索出来的本地系统应用名称以及系统设置主副标题等结果),因此可以根据共现搜索语句在历史搜索数据中对应的搜索结果,获取共现搜索语句对应的系统信息。
在获取到共现搜索语句以及其对应的系统信息之后,可以建立共现搜索语句以及其对应的系统信息之间的索引,其中为了提高搜索效率,本申请实施例中将该索引的类型设置为倒排索引。在倒排索引中,各共现搜索语句被切分为多个第一分词,将相同的第一分词对应的系统信息进行归并,使得每一个第一分词对应至少一个系统信息。
S302、基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回。
由于上述实施例中的倒排索引是根据共现搜索语句得到,虽然召回准确率得到了保证,但是如果直接基于倒排索引对用户输入的检索语句进行召回,那么将导致系统信息的召回范围较小,使得系统信息的召回率较低。因此在本申请实施例中,还需要针对倒排索引进行扩召回,以生成改写词典,从而在保证对系统信息的召回准确率的基础上,提高对系统信息的召回率。
首先可以同样基于历史搜索数据获取全量搜索语句,全量搜索语句是指历史搜索数据中任意用户可以是针对同一搜索需求的搜索语句,还可以是任意用户针对不同搜索需求的搜索语句,因此全量搜索语句的一个重要特性是,全量搜索语句的数量较大,因此基于全量搜索语句可以实现对倒排索引进行扩召回。
基于全量搜索语句实现对倒排索引进行扩召回的方法可以是,将全量搜索语句在倒排索引中进行召回。具体的,由于在倒排索引中,各共现搜索语句被切分为多个第一分词,将相同的第一分词对应的系统信息进行归并,使得每一个第一分词对应至少一个系统信息,那么也可以对各全量搜索语句进行分词,将各全量搜索语句切分为对应的第二分词,并将第二分词在倒排索引中进行召回,根据召回结果满足预设条件的全量搜索语句以及其对应的系统信息生成改写词典。
S303、根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。
在上述实施例生成的改写词典中,其包括了搜索语句以及系统信息之间的对应关系,那么可以将改写词典导入或者设置在出售或者使用的终端中,那么终端在使用过程中,若获取到用户输入的实时搜索语句后,可以将实时搜索语句输入至改写词典中,根据改写词典中搜索语句以及系统信息之间的对应关系,得到实时搜索语句对应的系统信息,终端可以对系统信息对应的终端设置或者选项进行显示,便于用户点击终端设置或者选项进行相关的操作。
在本申请实施例中,首先基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;然后基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;最后根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。由于历史搜索数据中包含了用户的搜索需求,因此根据历史搜索数据得到倒排索引以及根据倒排索引生成改写词典之后,改写词典中不仅包括了系统信息,还包括了用户对系统信息的搜索需求,扩大了改写词典的召回范围,提高了对终端中的系统信息的召回率。
请参阅图4,图4为本申请另一实施例提供的一种搜索方法的流程示意图。
如图4所示,该方法包括:
S401、将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句。
在本申请实施例中,在获取共现搜索语句之前,可以先对将历史搜索数据按照搜索需求进行分类,在实际操作中对历史搜索数据进行分类可以认为是对历史搜索数据进行session切分,然后根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句。
具体的,获取历史搜索数据中各搜索语句,然后获取用户输入各搜索语句并发出搜索请求时对应的请求时间,由于用户针对同一搜索请求进行系统信息的搜索时,一次搜索往往不能得到满意的搜索结果,时常会针对同一搜索请求在较短的时间内多次输入搜索语句,因此可以将请求时间间隔小于预设请求时间间隔的两次搜索语句分类为同一搜索需求,其中预设请求时间间隔可以根据实际情况进行设置,按照此方法可以将历史搜索数据中所有搜索语句按照搜索需求进行分类,其中处于同一搜索需求的搜索语句至少为两个。
进一步地,将处于同一搜索需求的各搜索语句两两组合,得到关于同一搜索需求的共现搜索语句,也即在本申请实施例中,一个共现搜索语句中包括两个搜索语句,例如,当同一搜索需求的各搜索语句分别为,搜索语句A、搜索语句B以及搜索语句C,那么该搜索需求对应三个共现搜索语句,分别为,第一共现搜索语句包括搜索语句A、搜索语句B;第二共现搜索语句包括搜索语句A、搜索语句C;第三共现搜索语句包括搜索语句B、搜索语句C。基于上述操作,可以获取到分类后的历史搜索数据中,不同搜索需求对应的共现搜索语句。
S402、获取系统信息对应的目标共现搜索语句。
在获取到不同搜索需求对应的共现搜索语句之后,还需要获取各系统信息在各共现搜索语句中对应的目标共现搜索语句。具体的,可以将各系统信息作为关键词,在历史搜索数据中各共现搜索语句对应的搜索结果中,查询系统信息对应的目标共现搜索语句,其中系统信息至少包括本地系统应用名称以及系统设置主副标题,例如,系统应用名称可以是“时钟”,系统设置主标题可以是“蜂窝网络”,系统设置副标题可以是“蜂窝数据漫游”“个人热点”。由于系统信息存在一些中英文融合或者英文缩写的系统信息,例如,设置WLAN,为了便于识别这些系统信息,还可以设置系统信息包括按空格切分后的设置标题,例如,可以将“设置WLAN”按空格切分后得到“设置W L A N”,这样如果用户输入“W”,也有一定几率召回到“设置WLAN”。
可选地,还可以对系统信息中意图指向不明的信息进行过滤,例如,意图指向不明的信息可以是“开始”、“始终”、“3、5”等,避免由于该类词召回的高频共现搜索语句为非本地系统应用名称以及系统设置主副标题,无法通过下面步骤中的特征过滤。
S403、获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选。
可选地,在构建目标共现搜索语句与系统信息之间对应的倒排索引之前,可以先对目标共现搜索语句进行清洗,也即对目标共现搜索语句进行筛选,以滤除部分误差较大或者对系统信息召回没有效果的目标共现搜索语句。
具体的,可以获取目标共现搜索语句对应的第一筛选特征,其中第一筛选特征包括共现比、共现率、共现次数、共现次数排序以及文本特征中的至少一种。其中,共现比的计算公式为:
cossession2total为共现比,cosessionnumi为某一目标共现搜索语句在全部搜索需求中出现的次数,∑i∈querypairscosessionnumi为所有目标共现搜索语句在全部搜索需求中出现的总次数。
共现率的计算公式为:
cosession2session为共现率,cosessionnumi为某一目标共现搜索语句在全部搜索需求中出现的次数,essionnumi为某一搜索语句在在全部搜索需求中出现的次数。
共现比和共现率代表了目标共现搜索语句在搜索需求中出现情况,如果目标共现搜索语句在搜索需求中出现过多,那么代表该目标共现搜索语句可能涉及较多的系统信息,那么该目标共现搜索语句对应的系统信息就不明确,那么可以将该目标共现搜索语句过滤掉;如果目标共现搜索语句在搜索需求中出现较少,那么代表该目标共现搜索语句可能是用户输入的误操作将系统信息召回,那么该目标共现搜索语句对应的系统信息就是错误的,那么也可以将该目标共现搜索语句过滤掉。
共现次数也即目标共现搜索语句在全部搜索需求中出现的次数,共现次数排序也即目标共现搜索语句在全部搜索需求中出现的次数对应的排序,文本特征可以例如共现搜索语句是否为数字、共现搜索语句是否为单字,及目标共现搜索语句的拼音数量限定,该数量不考虑声调。
在得到目标共现搜索语句对应的第一筛选特征之后,可以基于第一筛选特征对目标共现搜索语句进行第一筛选,具体可以是调整不同第一特征的阈值,实现对目标共现搜索语句进行第一筛选。
可选地,在对目标共现搜索语句进行第一筛选之后,还可以对筛选后的目标共现搜索语句进行人工标注,具体为标注出目标共现搜索语句具体对应的系统信息,以确保目标共现搜索语句与系统信息共现的准确性。
S404、构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引。
在对目标共现搜索语句进行第一筛选之后,就可以构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引了,具体地,可以将第一筛选后的各目标共现搜索语句进行分词得到各第一分词,分词主要目的是将目标共现搜索语句切长短语或关键字,这样才利于查询匹配,例如,第一目标共现搜索语句对应的系统信息为设置一,其中第一目标共现搜索语句包括第一搜索语句为:显示亮度,对第一搜索语句进行分词可以得到两个第一分词为:“显示”“亮度”;第一目标共现搜索语句还包括第二搜索语句为:显示颜色,对第二搜索语句进行分词可以得到三个第一分词为:“显示”“颜色”。再例如,第二目标共现搜索语句对应的系统信息为设置二,其中第二目标共现搜索语句包括第三搜索语句为:显示文字,对第三搜索语句进行分词可以得到两个第一分词为:“显示”“文字”;第二目标共现搜索语句还包括第四搜索语句为:显示锁定,对第四搜索语句进行分词也可以得到两个第一分词为:“显示”“锁定”。
在得到各第一分词之后,可以将各第一分词中相同的第一分词对应的系统信息进行归并,得到倒排索引。例如,在上述步骤中的各第一分词中,其中“显示”这个第一分词为各第一分词中相同的第一分词,那么可以获取“显示”这个第一分词在第一目标共现搜索语句对应的系统信息为设置一,在第二目标共现搜索语句对应的系统信息为设置二,那么“显示”这个第一分词对应的系统信息为设置一以及设置二。
请参阅图5,图5为本申请另一实施例提供的一种倒排索引的举例示意图。如图5所示,在倒排索引500中可以包括第一分词:“显示”、“亮度”、“颜色”、“文字”以及“锁定”,其中“显示”对应的系统信息为设置一以及设置二,“亮度”、“颜色”对应的系统信息为设置一,“文字”“锁定”对应的系统信息为设置二。
由于目标共现搜索语句的数量较多,因此上述对目标共现搜索语句进行第一筛选以及对筛选后的目标共现搜索语句进行人工标注的任务量较为繁琐,且无法自动化更新目标共现搜索语句,对于新增系统信息无法自动加入倒排索引。为了倒排索引可以自动化更新且有一定的泛化能力,可以考虑采用机器学习或深度学习的方法,将已标注共现搜索语句作为训练集,构建相关算法模型,从而可以自动判断共现搜索语句的准确性,实现目标共现搜索语句对清洗、标注自动化,自动化构建倒排索引。
S405、基于历史搜索数据获取全量搜索语句,以及获取全量搜索语句的第二筛选特征。
为了扩大倒排索引的召回范围,可以对倒排索引进行改写,以生成改写词典。首先可以基于历史搜索数据获取全量搜索语句,并对所有的全量搜索语句进行清洗,其中清洗规则可以是去除数字类的全量搜索语句、去除长度为1的中文类的全量搜索语句,以及去除长度小于等于3的英文类的全量搜索语句,还可以获取全量搜索语句的第二筛选特征,以便于根据第二筛选特征对全量搜索语句中的分词进行过滤。
S406、将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,基于第二筛选特征对各第二分词进行第二筛选。
与上述将各目标共现搜索语句进行分词得到各第一分词类似,还可以对将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,例如,当全量搜索语句为显示文字颜色,那么可以将该全量搜索语句进行分词得到三个第二分词分别为:“显示”“文字”“颜色”。还可以基于上述得到的第二筛选特征对各第二分词进行第二筛选,去除不符合第二筛选特征的第二分词,例如,第二筛选特征可以是去除包含品牌的第二分词,在本申请实施例中可以第二筛选特征不作具体限定。
S407、将第二筛选后的各全量搜索语句对应的各第二分词在倒排索引中进行召回。
在对各全量搜索语句对应的各第二分词进行第二筛选后,可以将筛选后的第二分词在倒排索引中进行召回,也即将筛选后的第二分词在倒排索引中的第一分词进行查询,查询是否存在目标全量搜索语句,该目标全量搜索语句中预设数量的第二分词均可以在倒排索引中查询到对应的第一分词。
S408、若目标全量搜索语句中预设数量的第二分词均可以在倒排索引中被召回,则获取目标全量搜索语句中预设数量的第二分词对应的目标系统信息。
若查询存在目标全量搜索语句,该目标全量搜索语句中预设数量的第二分词均可以在倒排索引中查询到对应的第一分词,那么可以认为目标全量搜索语句中预设数量的第二分词均可以在倒排索引中被召回,其中预设数量可以根据全量搜索语句中第二分词的数量进行设置,还可以设置预设数量为全量搜索语句中全部第二分词的数量,也即目标全量搜索语句中全部的第二分词均可以在倒排索引中被召回,此时可以获取目标全量搜索语句中预设数量的第二分词对应的目标系统信息,其中预设数量的第二分词对应的目标系统信息,也即第二分词在倒排索引中对应的第一分词的系统信息。
例如,目标全量搜索语句进行分词得到三个第二分词分别为:“显示”“文字”“颜色”,在倒排索引中可以包括第一分词:“显示”、“亮度”、“颜色”、“文字”以及“锁定”,其中“显示”对应的系统信息为设置一以及设置二,“亮度”、“颜色”对应的系统信息为设置一,“文字”“锁定”对应的系统信息为设置二。那么在倒排索引中可以查询到,目标全量搜索语句中的三个第二分词均可以在倒排索引中查询到对应的第一分词,其中“显示”对应的系统信息为设置一以及设置二,“文字”对应的系统信息为设置二,“颜色”对应的系统信息为设置一,那么可以得到目标全量搜索语句对应的目标系统信息为设置一、设置二。
S409、根据目标全量搜索语句以及目标系统信息生成改写词典。
在获取到目标全量搜索语句以及其对应的目标系统信息之后,可以将目标全量搜索语句与目标系统信息进行对应生成改写词典,因此改写词典中包括了多个目标全量搜索语句,以及各目标全量搜索语句对应的目标系统信息。
请参阅图6,图6为本申请另一实施例提供的一种改写词典的举例示意图。如图6所示,在改写词典600中,包括了第一目标全量搜索语句:“设置显示文字颜色”,其对应的第一目标系统信息为:设置一以及设置二;第二目标全量搜索语句:“调节屏幕亮度”,其对应的第二目标系统信息为:设置一以及设置三;第三目标全量搜索语句:“增大声音音量”,其对应的第三目标系统信息为:设置三以及设置四。
其中可以将改写词典导入或者设置在出售或者使用的终端中,那么终端在使用过程中,若获取到用户输入的实时搜索语句后,可以将实时搜索语句输入至改写词典中,在改写词典中查找实时搜索语句对应的目标全量搜索语句,再根据改写词典中各目标全量搜索语句与目标系统信息之间的对应关系,得到实时搜索语句对应的目标系统信息。
可选地,终端可以根据实时搜索语句对应的目标全量搜索语句的相关性分数进行排序,其中计算目标全量搜索语句与倒排索引之间相关性分数的依据是,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数越多,则计算目标全量搜索语句与倒排索引之间相关性分数也就越高,终端可以根据上述排序对目标系统信息对应的终端设置或者选项进行排序显示,其中相关性分数也就越高,则对应的终端设置或者选项显示越靠前,便于用户点击终端设置或者选项进行相关的操作。
可选地,上述实施例中,认为目标全量搜索语句可以倒排索引中被召回依据是,目标全量搜索语句中预设数量的第二分词均可以在倒排索引中查询到对应的第一分词,也即计算目标全量搜索语句与倒排索引之间相关性分数的依据是,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数越多,则计算目标全量搜索语句与倒排索引之间相关性分数也就越高,但是在本申请实施例中并不限定计算目标全量搜索语句与倒排索引之间相关性分数的依据,例如,计算目标全量搜索语句与倒排索引之间相关性分数的依据还可以是,计算目标全量搜索语句中第二分词与倒排索引中第一分词的相似度等。
进一步地,当前由共现搜索语句构建的倒排索引字段为联合字段,虽然根据用户输入的实时搜索语句可以召回内容,但是当实时搜索语句只与共现搜索语句字段存在相同分词,而与系统信息与实时搜索语句无相同分词时,会导致该实时搜索语句与最终计算的到的相关性分数较低,用户输入的实时搜索语句容易被过滤,而且相关性分数还会受共现搜索语句的数量影响。这样导致部分实时搜索语句无法召回或召回结果排序不准确,所以在生成改写词典之后,还可以对倒排索引结构和相关性分数计算方式进行更新,使每一个共现搜索语句单独作为一个倒排字段并且可以单独计算搜索语句与每一个共现搜索语句的相关性分数,从而消除共现搜索语句数量对相关性分数的影响,进一步扩召回,且保证了粗排准确性。
可选地,在改写词典中目标全量搜索语句中词可以进行切分或者组合,请参阅图7,图7为本申请另一实施例提供的用户实时搜索的举例示意图。如图7所示,第一目标全量搜索语句为:“设置显示文字颜色”,那么当用户在终端700的搜索框710输入实时搜索语句720为:“设置文字颜色显示”或者“显示文字颜色设置”均可以被第一目标全量搜索语句召回,并在终端700中显示对应的终端设置或者选项730,便于用户点击终端设置或者选项730进行相关的操作。
可选地,还可以对改写词典中目标全量搜索语句进行人工干预,通过人工生成黑名单和特定改写词表对改写词典进行清洗和补充,也即在生成改写词典的过程中能够支持人工干预,可以更好的补充未覆盖高频改写词。
可选地,还可以将改写词典以特定格式输出,并加入系统信息标签等相关控制字段。采用改写词典的方式上线,减少了各个模块的开发量,并且通过词典中的控制字段,可以根据产品需求选择部分词典上线。
S4010、获取历史搜索数据中成功输出系统信息的第一搜索语句。
在现有对系统信息的召回方式中,为扩召回加入了系统信息对应相关功能的描述信息,但是该方法由于引入了大段文本信息,容易产生一些不相关的搜索语句召回系统信息的结果。因此在本申请实施例中,可以根据改写词典生成黑名单,避免由于不相关信息引起的误召回。
具体的,可以先获取历史搜索数据中成功输出系统信息的第一搜索语句,与上述全量搜索语句不同,第一搜索语句是指在历史搜索数据中用户成功召回系统信息并输出系统信息时输入的搜索语句,因此第一搜索语句代表了用户真实、有效的搜索结果。
S4011、将第一搜索语句与改写词典进行校对,获取第一搜索语句中未在改写词典中出现的第二搜索语句,将第二搜索语句设置为黑名单语句。
在第一搜索语句中存在通过第一搜索语句真实召回系统信息的搜索语句,同样也存在通过第一搜索语句误召回系统信息的搜索语句,因此为了剔除掉第一搜索语句中误召回系统信息的搜索语句,可以将第一搜索语句与改写词典进行校对,获取第一搜索语句中未在改写词典中出现的第二搜索语句,也即第二搜索语句在改写词典中没有对应的目标全量搜索语句,此时可以将第二搜索语句设置为黑名单语句。还可以根据需求将黑名单中的第二搜索语句按搜索pv和搜索uv进行截断,其中搜索pv和搜索uv分别是指用户浏览量以及搜索用户量,用户浏览量是指,多个用户在输入某一搜索语句后,对该搜索语句的搜索结果进行浏览用户数量;搜索用户量是指,对该搜索语句进行搜索的用户数量,生成高频黑名单,将黑名单加载至终端,用于对用户输入的实时搜索语句进行改写及历史搜索语句中非系统信息对应的搜索语句的清洗。
在本申请实施例中,借助系统信息对应的共现搜索语句,可以得到系统信息的常用同义分词,能够有效扩充本地意图的召回结果。并且在将第二筛选后的各全量搜索语句对应的各第二分词在倒排索引中进行召回时,通过对部分第二分词进行筛选,可以对全量搜索语句进行精简,去除无关词,进一步补充召回结果。进一步地,通过黑名单语句可以对现有的召回结果的准确率进行优化,减少现有误召回结果,优化产品体验。
请参阅图8,图8为本申请另一实施例提供的一种搜索装置的结构示意图。
所图8所示,搜索装置800包括:
索引构建模块810,用于基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引。
召回模块820,用于基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回。
词典生成模块830,用于根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。
请参阅图9,图9为本申请另一实施例提供的一种搜索装置的结构示意图。
所图9所示,搜索装置900包括:
共现搜索语句获取模块910,用于将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句。
其中,将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句,包括:获取历史搜索数据中各搜索语句,将请求时间间隔小于预设请求时间间隔的两次搜索语句分类为同一搜索需求;将处于同一搜索需求的各搜索语句两两组合,得到关于同一搜索需求的共现搜索语句。
目标共现搜索语句获取模块920,用于获取系统信息对应的目标共现搜索语句。
其中,获取系统信息对应的目标共现搜索语句,包括:将系统信息作为关键词,查询系统信息对应的目标共现搜索语句,其中系统信息至少包括本地系统应用名称以及系统设置主副标题。
第一筛选模块930,用于获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选。
其中,获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选,包括:获取目标共现搜索语句对应的第一筛选特征,其中第一筛选特征包括共现比、共现率、共现次数、共现次数排序以及文本特征中的至少一种;基于第一筛选特征对目标共现搜索语句进行第一筛选。
倒排索引构建模块940,用于构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引。
其中,构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引,包括:将第一筛选后的各目标共现搜索语句进行分词得到各第一分词;将各第一分词中相同的第一分词对应的系统信息进行归并,得到倒排索引。
全量搜索语句获取模块950,用于基于历史搜索数据获取全量搜索语句,以及获取全量搜索语句的第二筛选特征。
第二筛选模块960,用于将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,基于第二筛选特征对各第二分词进行第二筛选。
召回模块970,用于将第二筛选后的各全量搜索语句对应的各第二分词在倒排索引中进行召回。
目标系统信息获取模块980,用于若目标全量搜索语句中预设数量的第二分词均可以在倒排索引中被召回,则获取目标全量搜索语句中预设数量的第二分词对应的目标系统信息。
改写词典生成模块990,用于根据目标全量搜索语句以及目标系统信息生成改写词典。
第一黑名单模块9100,用于获取历史搜索数据中成功输出系统信息的第一搜索语句。
第二黑名单模块9110,用于将第一搜索语句与改写词典进行校对,获取第一搜索语句中未在改写词典中出现的第二搜索语句,将第二搜索语句设置为黑名单语句。
可选地,终端可以根据实时搜索语句对应的目标全量搜索语句的相关性分数进行排序,其中计算目标全量搜索语句与倒排索引之间相关性分数的依据是,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数越多,则计算目标全量搜索语句与倒排索引之间相关性分数也就越高,终端可以根据上述排序对目标系统信息对应的终端设置或者选项进行排序显示,其中相关性分数也就越高,则对应的终端设置或者选项显示越靠前,便于用户点击终端设置或者选项进行相关的操作。
可选地,上述实施例中,认为目标全量搜索语句可以倒排索引中被召回依据是,目标全量搜索语句中预设数量的第二分词均可以在倒排索引中查询到对应的第一分词,也即计算目标全量搜索语句与倒排索引之间相关性分数的依据是,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数,目标全量搜索语句中第二分词在倒排索引中查询到对应的第一分词的个数越多,则计算目标全量搜索语句与倒排索引之间相关性分数也就越高,但是在本申请实施例中并不限定计算目标全量搜索语句与倒排索引之间相关性分数的依据,例如,计算目标全量搜索语句与倒排索引之间相关性分数的依据还可以是,计算目标全量搜索语句中第二分词与倒排索引中第一分词的相似度等。
进一步地,当前由共现搜索语句构建的倒排索引字段为联合字段,虽然根据用户输入的实时搜索语句可以召回内容,但是当实时搜索语句只与共现搜索语句字段存在相同分词,而与系统信息与实时搜索语句无相同分词时,会导致该实时搜索语句与最终计算的到的相关性分数较低,用户输入的实时搜索语句容易被过滤,而且相关性分数还会受共现搜索语句的数量影响。这样导致部分实时搜索语句无法召回或召回结果排序不准确,所以在生成改写词典之后,还可以对倒排索引结构和相关性分数计算方式进行更新,使每一个共现搜索语句单独作为一个倒排字段并且可以单独计算搜索语句与每一个共现搜索语句的相关性分数,从而消除共现搜索语句数量对相关性分数的影响,进一步扩召回,且保证了粗排准确性。
可选地,在改写词典中目标全量搜索语句中词可以进行切分或者组合,例如第一目标全量搜索语句:“设置显示文字颜色”,那么当实时搜索语句为:“设置文字颜色显示”“显示文字颜色设置”均可以被第一目标全量搜索语句召回。
可选地,还可以对改写词典中目标全量搜索语句进行人工干预,通过人工生成黑名单和特定改写词表对改写词典进行清洗和补充,也即在生成改写词典的过程中能够支持人工干预,可以更好的补充未覆盖高频改写词。
可选地,还可以将改写词典以特定格式输出,并加入系统信息标签等相关控制字段。采用改写词典的方式上线,减少了各个模块的开发量,并且通过词典中的控制字段,可以根据产品需求选择部分词典上线。
在本申请实施例中,一种搜索装置包括:索引构建模块,用于基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;召回模块,用于基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;词典生成模块,用于根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。由于历史搜索数据中包含了用户的搜索需求,因此根据历史搜索数据得到倒排索引以及根据倒排索引生成改写词典之后,改写词典中不仅包括了系统信息,还包括了用户对系统信息的搜索需求,扩大了改写词典的召回范围,提高了对终端中的系统信息的召回率。
本申请实施例还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
进一步地,请参见图10,图10为本申请另一实施例提供了一种终端的结构示意图。如图10所示,终端1000可以包括:至少一个中央处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,中央处理器1001可以包括一个或者多个处理核心。中央处理器1001利用各种接口和线路连接整个终端1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行终端1000的各种功能和处理数据。可选的,中央处理器1001可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。中央处理器1001可集成中央中央处理器(Central Processing Unit,CPU)、图像中央处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到中央处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述中央处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及搜索程序。
在图10所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而中央处理器1001可以用于调用存储器1005中存储的搜索程序,并具体执行以下操作:
基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引;基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回;根据召回结果生成改写词典,其中改写词典用于当终端获取到用户输入的实时搜索语句后,根据改写词典输出实时搜索语句对应的系统信息。
在一个实施例中,中央处理器1001在执行基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建共现搜索语句与系统信息之间的倒排索引时,具体执行以下步骤包括:
将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句;获取系统信息对应的目标共现搜索语句;
获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选;构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引。
在一个实施例中,中央处理器1001在执行将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句时,具体执行以下步骤包括:
获取历史搜索数据中各搜索语句,将请求时间间隔小于预设请求时间间隔的两次搜索语句分类为同一搜索需求;将处于同一搜索需求的各搜索语句两两组合,得到关于同一搜索需求的共现搜索语句。
在一个实施例中,中央处理器1001在执行获取系统信息对应的目标共现搜索语句时,具体执行以下步骤包括:将系统信息作为关键词,查询系统信息对应的目标共现搜索语句,其中系统信息至少包括本地系统应用名称以及系统设置主副标题。
在一个实施例中,中央处理器1001在执行获取目标共现搜索语句对应的第一筛选特征,并基于第一筛选特征对目标共现搜索语句进行第一筛选时,具体执行以下步骤包括:获取目标共现搜索语句对应的第一筛选特征,其中第一筛选特征包括共现比、共现率、共现次数、共现次数排序以及文本特征中的至少一种;基于第一筛选特征对目标共现搜索语句进行第一筛选。
在一个实施例中,中央处理器1001在执行构建第一筛选后的目标共现搜索语句与系统信息之间对应的倒排索引时,具体执行以下步骤包括:
将第一筛选后的各目标共现搜索语句进行分词得到各第一分词;将各第一分词中相同的第一分词对应的系统信息进行归并,得到倒排索引。
在一个实施例中,中央处理器1001在执行基于历史搜索数据获取全量搜索语句,将全量搜索语句在倒排索引中进行召回时,具体执行以下步骤包括:
基于历史搜索数据获取全量搜索语句,以及获取全量搜索语句的第二筛选特征;将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,基于第二筛选特征对各第二分词进行第二筛选;将第二筛选后的各全量搜索语句对应的各第二分词在倒排索引中进行召回。
在一个实施例中,中央处理器1001在执行根据召回结果生成改写词典时,具体执行以下步骤包括:
若目标全量搜索语句中预设数量的第二分词均可以在倒排索引中被召回,则获取目标全量搜索语句中预设数量的第二分词对应的目标系统信息;根据目标全量搜索语句以及目标系统信息生成改写词典。
在一个实施例中,中央处理器1001还用于执行:获取历史搜索数据中成功输出系统信息的第一搜索语句;将第一搜索语句与改写词典进行校对,获取第一搜索语句中未在改写词典中出现的第二搜索语句,将第二搜索语句设置为黑名单语句。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的一种搜索方法、装置、存储介质以及终端的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种搜索方法,其特征在于,所述方法包括:
基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建所述共现搜索语句与系统信息之间的倒排索引;
基于所述历史搜索数据获取全量搜索语句,将所述全量搜索语句在所述倒排索引中进行召回;
根据召回结果生成改写词典,其中所述改写词典用于当终端获取到用户输入的实时搜索语句后,根据所述改写词典输出所述实时搜索语句对应的系统信息。
2.根据权利要求1所述的方法,其特征在于,所述基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建所述共现搜索语句与系统信息之间的倒排索引,包括:
将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句;
获取系统信息对应的目标共现搜索语句;
获取所述目标共现搜索语句对应的第一筛选特征,并基于所述第一筛选特征对所述目标共现搜索语句进行第一筛选;
构建第一筛选后的所述目标共现搜索语句与所述系统信息之间对应的倒排索引。
3.根据权利要求2所述的方法,其特征在于,所述将历史搜索数据按照搜索需求进行分类,并根据分类后的历史搜索数据得到关于同一搜索需求的共现搜索语句,包括:
获取历史搜索数据中各搜索语句,将请求时间间隔小于预设请求时间间隔的两次搜索语句分类为同一搜索需求;
将处于同一搜索需求的各搜索语句两两组合,得到关于同一搜索需求的共现搜索语句。
4.根据权利要求2所述的方法,其特征在于,所述获取系统信息对应的目标共现搜索语句,包括:
将系统信息作为关键词,查询所述系统信息对应的目标共现搜索语句,其中所述系统信息至少包括本地系统应用名称以及系统设置主副标题。
5.根据权利要求2所述的方法,其特征在于,所述获取所述目标共现搜索语句对应的第一筛选特征,并基于所述第一筛选特征对所述目标共现搜索语句进行第一筛选,包括:
获取所述目标共现搜索语句对应的第一筛选特征,其中所述第一筛选特征包括共现比、共现率、共现次数、共现次数排序以及文本特征中的至少一种;
基于所述第一筛选特征对所述目标共现搜索语句进行第一筛选。
6.根据权利要求2所述的方法,其特征在于,所述构建第一筛选后的所述目标共现搜索语句与所述系统信息之间对应的倒排索引,包括:
将第一筛选后的各目标共现搜索语句进行分词得到各第一分词;
将各第一分词中相同的第一分词对应的系统信息进行归并,得到倒排索引。
7.根据权利要求1至6任一项所述的方法,其特征在于,基于所述历史搜索数据获取全量搜索语句,将所述全量搜索语句在所述倒排索引中进行召回,包括:
基于所述历史搜索数据获取全量搜索语句,以及获取所述全量搜索语句的第二筛选特征;
将各全量搜索语句进行分词得到各全量搜索语句对应的各第二分词,基于所述第二筛选特征对各第二分词进行第二筛选;
将第二筛选后的各全量搜索语句对应的各第二分词在所述倒排索引中进行召回。
8.根据权利要求7所述的方法,其特征在于,所述根据召回结果生成改写词典,包括:
若目标全量搜索语句中预设数量的第二分词均可以在所述倒排索引中被召回,则获取所述目标全量搜索语句中预设数量的第二分词对应的目标系统信息;
根据所述目标全量搜索语句以及所述目标系统信息生成改写词典。
9.根据权利要求1所述的方法,其特征在于,所述方法包括:
获取所述历史搜索数据中成功输出所述系统信息的第一搜索语句;
将所述第一搜索语句与所述改写词典进行校对,获取所述第一搜索语句中未在所述改写词典中出现的第二搜索语句,将所述第二搜索语句设置为黑名单语句。
10.一种搜索装置,其特征在于,所述装置包括:
索引构建模块,用于基于历史搜索数据获取关于同一搜索需求的共现搜索语句,并构建所述共现搜索语句与系统信息之间的倒排索引;
召回模块,用于基于所述历史搜索数据获取全量搜索语句,将所述全量搜索语句在所述倒排索引中进行召回;
词典生成模块,用于根据召回结果生成改写词典,其中所述改写词典用于当终端获取到用户输入的实时搜索语句后,根据所述改写词典输出所述实时搜索语句对应的系统信息。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的所述方法的步骤。
12.一种终端,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1~7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110022602.7A CN112685540A (zh) | 2021-01-07 | 2021-01-07 | 搜索方法、装置、存储介质以及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110022602.7A CN112685540A (zh) | 2021-01-07 | 2021-01-07 | 搜索方法、装置、存储介质以及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685540A true CN112685540A (zh) | 2021-04-20 |
Family
ID=75456476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110022602.7A Withdrawn CN112685540A (zh) | 2021-01-07 | 2021-01-07 | 搜索方法、装置、存储介质以及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685540A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252782A1 (zh) * | 2021-06-04 | 2022-12-08 | 跬云(上海)信息科技有限公司 | 云计算索引推荐方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293529A (ja) * | 1999-04-02 | 2000-10-20 | Mitsubishi Gas Chem Co Inc | 情報の機械的検索法およびその装置 |
CN104063454A (zh) * | 2014-06-24 | 2014-09-24 | 北京奇虎科技有限公司 | 一种挖掘用户需求的搜索推送方法和装置 |
US20150310005A1 (en) * | 2014-03-29 | 2015-10-29 | Thomson Reuters Global Resources | Method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN105159938A (zh) * | 2015-08-03 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 检索方法和装置 |
CN108304444A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 信息查询方法及装置 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
CN112115342A (zh) * | 2020-09-22 | 2020-12-22 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
-
2021
- 2021-01-07 CN CN202110022602.7A patent/CN112685540A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293529A (ja) * | 1999-04-02 | 2000-10-20 | Mitsubishi Gas Chem Co Inc | 情報の機械的検索法およびその装置 |
US20150310005A1 (en) * | 2014-03-29 | 2015-10-29 | Thomson Reuters Global Resources | Method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN104063454A (zh) * | 2014-06-24 | 2014-09-24 | 北京奇虎科技有限公司 | 一种挖掘用户需求的搜索推送方法和装置 |
CN105159938A (zh) * | 2015-08-03 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 检索方法和装置 |
CN110019645A (zh) * | 2017-09-28 | 2019-07-16 | 北京搜狗科技发展有限公司 | 索引库构建方法、搜索方法及装置 |
CN108304444A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 信息查询方法及装置 |
CN112115342A (zh) * | 2020-09-22 | 2020-12-22 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252782A1 (zh) * | 2021-06-04 | 2022-12-08 | 跬云(上海)信息科技有限公司 | 云计算索引推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240078386A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
US8712989B2 (en) | Wild card auto completion | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN113590796B (zh) | 排序模型的训练方法、装置和电子设备 | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN111881316A (zh) | 搜索方法、装置及服务器和计算机可读存储介质 | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN116501960B (zh) | 内容检索方法、装置、设备及介质 | |
WO2023078136A1 (zh) | 数据集的构建方法、装置、设备、存储介质及计算机程序产品 | |
KR102193228B1 (ko) | 딥러닝 기반 비재무정보 평가 장치 및 그 방법 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN113919424A (zh) | 文本处理模型的训练、文本处理方法、装置、设备和介质 | |
CN113704420A (zh) | 文本中的角色识别方法、装置、电子设备及存储介质 | |
CN112685540A (zh) | 搜索方法、装置、存储介质以及终端 | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
CN114661890A (zh) | 一种知识推荐方法、装置、系统及存储介质 | |
CN114297449A (zh) | 内容查找方法、装置、电子设备及计算机可读介质及产品 | |
CN113868481A (zh) | 组件获取方法、装置及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210420 |
|
WW01 | Invention patent application withdrawn after publication |