CN113918796A - 信息搜索方法、装置、服务器及存储介质 - Google Patents
信息搜索方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN113918796A CN113918796A CN202111067318.8A CN202111067318A CN113918796A CN 113918796 A CN113918796 A CN 113918796A CN 202111067318 A CN202111067318 A CN 202111067318A CN 113918796 A CN113918796 A CN 113918796A
- Authority
- CN
- China
- Prior art keywords
- search
- target
- target scene
- entity
- correlation parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息搜索方法、装置、服务器及存储介质,属于互联网技术领域。该方法包括:确定搜索语句对应的多个实体词片段,所述多个实体词片段中至少存在一个实体词片段包括多个实体词,所述实体词为所述搜索语句中的实体词;对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,每个所述目标场景标签链接有搜索结果;确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数;基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送所述目标搜索结果。上述方案提高了信息搜索的准确性。
Description
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种信息搜索方法、装置、服务器及存储介质。
背景技术
目前,用户通过终端线上对生活服务进行搜索,从而根据搜索到的信息进行业务处理,例如订票、订餐或者订车等。其中,用户通过终端输入搜索语句,终端将搜索语句发送至服务器,服务器对搜索语句进行处理,得到搜索结果,将搜索结果发送至终端,从而用户通过终端查看搜索结果,根据搜索结果进行后续业务处理。
相关技术中,在信息搜索过程中,服务器对用户输入的搜索语句进行实体识别,得到实体词,然后对实体词进行扩展,根据扩展后的实体词,确定待向终端发送的搜索结果。
在识别得到的实体词较多的情况下,根据上述方案确定出的搜索结果比较分散,也即和搜索语句之间的关联不够紧密,因此确定出的搜索结果的准确性不高,也即信息搜索的准确性不高。
发明内容
本申请实施例提供了一种信息搜索方法、装置、服务器及存储介质,可提高信息搜索的准确性。所述技术方案如下:
一方面,本申请实施例提供了一种信息搜索方法,所述方法包括:
确定搜索语句对应的多个实体词片段,所述多个实体词片段中至少存在一个实体词片段包括多个实体词,所述实体词为所述搜索语句中的实体词;
对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,每个所述目标场景标签链接有搜索结果;
确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数;
基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送所述目标搜索结果。
在一些实施例中,所述确定搜索语句对应的多个实体词片段,包括:
对所述搜索语句进行实体识别,得到多个实体词;
按照每个所述实体词在所述搜索语句中的位置,对所述多个实体词进行组合,得到所述多个实体词片段。
在一些实施例中,所述确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数,包括:
对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
基于所述目标场景标签的历史反馈参数,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述历史反馈参数用于表示历史搜索过程中对所述目标场景标签的反馈情况。
在一些实施例中,所述基于所述目标场景标签的历史反馈参数,对所述第二相关性参数进行调整,得到所述第一相关性参数,包括:
基于所述历史反馈参数与反馈阈值之间的第一差值,确定所述第二相关性参数的第一增值,所述第一差值与所述第一增值成正相关;
将所述第一增值和所述第二相关性参数之和作为所述第一相关性参数。
在一些实施例中,所述方法还包括:
基于任一终端上报的搜索通知消息,确定历史搜索结果所链接的场景标签的历史反馈参数,所述搜索通知消息用于表示所述终端对所述历史搜索结果的反馈情况。
在一些实施例中,所述确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数,包括:
对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
基于所述目标场景标签对应的优先级,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述优先级为目标检索方式的优先级,所述目标检索方式为检索所述目标场景标签所使用的检索方式。
在一些实施例中,所述基于所述目标场景标签对应的优先级,对所述第二相关性参数进行调整,得到所述第一相关性参数,包括:
基于所述优先级与优先级阈值之间的第二差值,确定所述第二相关性参数的第二增值,所述第二差值与所述第二增值成正相关;
将所述第二增值和所述第二相关性参数之和作为所述第一相关性参数。
在一些实施例中,所述方法还包括:
获取多个场景标签,所述场景标签用于表示待搜索的场景需求;
对于每个所述场景标签,从所述场景标签中提取核心词,基于所述核心词,确定所述场景标签的实体提及信息和参考搜索语句,所述实体提及信息包括与所述核心词相关的至少一个实体提及,所述参考搜索语句为与所述核心词相关的历史搜索语句;
基于所述场景标签、所述核心词、所述实体提及信息和所述参考搜索语句,构建场景标签知识库,所述场景标签知识库用于存储所述场景标签分别和所述核心词、所述实体提及信息和所述参考搜索语句之间的对应关系;
所述对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,包括:
对于每个所述实体词片段,从所述场景标签知识库中,确定所述实体词片段关联的目标场景标签,得到所述多个目标场景标签。
在一些实施例中,所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,包括:
基于所述第一相关性参数,对所述多个目标场景标签进行排序,得到排序后的多个目标场景标签;从所述多个搜索结果中,将排序在目标位数之前的多个目标场景标签所链接的搜索结果作为所述目标搜索结果;或者,
将所述多个搜索结果作为所述目标搜索结果。
在一些实施例中,所述向终端发送所述目标搜索结果,包括:
按照所述排序后的多个目标场景标签的顺序,依次向所述终端发送所述目标搜索结果。
在一些实施例中,所述多个目标场景标签包括多个层级,每个层级包含至少一个目标场景标签,且下一个层级中的目标场景标签属于上一个层级中的目标场景标签的子场景标签;
在所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果之前,所述方法还包括:
从存在层级关系的目标场景标签中,删除属于上一个层级的目标场景标签,得到更新后的多个目标场景标签。
在一些实施例中,所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,包括:
对于每个所述目标场景标签,确定所述目标场景标签与所述搜索语句之间的第三相关性参数;
基于每个所述目标场景标签对应的第一相关性参数和第三相关性参数,从所述多个搜索结果中,确定所述目标搜索结果。
另一方面,本申请实施例提供了一种信息搜索装置,所述装置包括:
片段确定模块,用于确定搜索语句对应的多个实体词片段,所述多个实体词片段中至少存在一个实体词片段包括多个实体词,所述实体词为所述搜索语句中的实体词;
标签确定模块,用于对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,每个所述目标场景标签链接有搜索结果;
第一参数确定模块,用于确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数;
结果确定模块,用于基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送所述目标搜索结果。
在一些实施例中,所述片段确定模块,用于对所述搜索语句进行实体识别,得到多个实体词;按照每个所述实体词在所述搜索语句中的位置,对所述多个实体词进行组合,得到所述多个实体词片段。
在一些实施例中,所述第一参数确定模块,包括:
特征提取单元,用于对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
参数调整单元,用于基于所述目标场景标签的历史反馈参数,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述历史反馈参数用于表示历史搜索过程中对所述目标场景标签的反馈情况。
在一些实施例中,所述参数调整单元,用于基于所述历史反馈参数与反馈阈值之间的第一差值,确定所述第二相关性参数的第一增值,所述第一差值与所述第一增值成正相关;将所述第一增值和所述第二相关性参数之和作为所述第一相关性参数。
在一些实施例中,所述装置还包括:
第二参数确定模块,用于基于任一终端上报的搜索通知消息,确定历史搜索结果所链接的场景标签的历史反馈参数,所述搜索通知消息用于表示所述终端对所述历史搜索结果的反馈情况。
在一些实施例中,所述第一参数确定模块,包括:
特征提取单元,用于对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
参数调整单元,还用于基于所述目标场景标签对应的优先级,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述优先级为目标检索方式的优先级,所述目标检索方式为检索所述目标场景标签所使用的检索方式。
在一些实施例中,所述参数调整单元,还用于基于所述优先级与优先级阈值之间的第二差值,确定所述第二相关性参数的第二增值,所述第二差值与所述第二增值成正相关;将所述第二增值和所述第二相关性参数之和作为所述第一相关性参数。
在一些实施例中,所述装置还包括:
知识库构建模块,用于获取多个场景标签,所述场景标签用于表示待搜索的场景需求;对于每个所述场景标签,从所述场景标签中提取核心词,基于所述核心词,确定所述场景标签的实体提及信息和参考搜索语句,所述实体提及信息包括与所述核心词相关的至少一个实体提及,所述参考搜索语句为与所述核心词相关的历史搜索语句;基于所述场景标签、所述核心词、所述实体提及信息和所述参考搜索语句,构建场景标签知识库,所述场景标签知识库用于存储所述场景标签分别和所述核心词、所述实体提及信息和所述参考搜索语句之间的对应关系;
所述标签确定模块,用于对于每个所述实体词片段,从所述场景标签知识库中,确定所述实体词片段关联的目标场景标签,得到所述多个目标场景标签。
在一些实施例中,所述结果确定模块,用于基于所述第一相关性参数,对所述多个目标场景标签进行排序,得到排序后的多个目标场景标签;从所述多个搜索结果中,将排序在目标位数之前的多个目标场景标签所链接的搜索结果作为所述目标搜索结果;或者,
所述结果确定模块,用于将所述多个搜索结果作为所述目标搜索结果。
在一些实施例中,所述结果确定模块,用于按照所述排序后的多个目标场景标签的顺序,依次向所述终端发送所述目标搜索结果。
在一些实施例中,所述多个目标场景标签包括多个层级,每个层级包含至少一个目标场景标签,且下一个层级中的目标场景标签属于上一个层级中的目标场景标签的子场景标签;所述装置还包括:
标签删除模块,用于从存在层级关系的目标场景标签中,删除属于上一个层级的目标场景标签,得到更新后的多个目标场景标签。
在一些实施例中,所述结果确定模块,用于对于每个所述目标场景标签,确定所述目标场景标签与所述搜索语句之间的第三相关性参数;基于每个所述目标场景标签对应的第一相关性参数和第三相关性参数,从所述多个搜索结果中,确定所述目标搜索结果。
另一方面,本申请实施例提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述服务器实现上述方面所述的信息搜索方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使服务器实现上述方面所述的信息搜索方法。
另一方面,本申请实施例提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使服务器实现上述方面所述的信息搜索方法。
本申请实施例提供的技术方案至少带来如下有益效果:
在本申请实施例中,由于确定出的目标场景标签是与实体词片段相关联的,那么目标场景标签与搜索语句之间的关联更加紧密,在此基础上,结合每个目标场景标签与实体词片段之间的相关性参数,来确定待向终端发送的目标搜索结果,使得确定出的目标搜索结果更符合用户的搜索需求,进而提高了信息搜索的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息搜索方法的实施环境的示意图;
图2是本申请实施例提供的一种信息搜索方法的流程图;
图3是本申请实施例提供的一种场景标签知识库的构建方法的流程图;
图4是本申请实施例提供的一种信息搜索方法的流程图;
图5是本申请实施例提供的一种信息搜索方法的流程图;
图6是本申请实施例提供的一种信息搜索方法的示意图;
图7是本申请实施例提供的一种信息搜索装置的结构示意图;
图8是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
图1是本申请实施例提供的一种信息搜索方法的实施环境的示意图,如图1所示,该实施环境包括:终端101和服务器102,终端101和服务器102通过有线或者无线网络连接。
终端101,用于获取用户输入的搜索语句,向服务器102发送该搜索语句。服务器102,用于接收终端101的搜索语句,基于该搜索语句进行信息搜索,将搜索得到的搜索结果发送至终端101。相应地,终端101还用于接收该搜索结果,展示该搜索结果。
在本申请实施例中,终端101上安装有由服务器102提供后台服务的目标应用,且终端101能够通过该目标应用实现例如信息搜索、信息展示等功能。可选地,目标应用为终端101操作系统中的应用,或者为第三方提供的应用。例如,该目标应用为生活服务应用。操作终端101的用户在该目标应用中输入搜索语句,从而触发终端101将该搜索语句发送至服务器102。
在本申请实施例中,终端101为手机、平板电脑、台式计算机、或者膝上型便携计算机等设备中的至少一种。服务器102可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种,本申请实施例对此不加以限定。
本申请实施例提供的信息搜索方法,能够应用在以下信息搜索场景中:
例如,在用户想要搜索周末溜娃可以去的地方时,在终端101中输入“周末溜娃”的搜索语句,终端101将该搜索语句发送至服务器102,服务器102对该搜索语句进行信息搜索,得到搜索结果,该搜索结果为“童乐园”、“海底世界”或者“游乐园”等结果,服务器102将该搜索结果发送至终端101,从而用户通过终端101查看该搜索结果。
再如,在用户想要搜索放风筝的公园时,在终端101中输入“放风筝的公园”的搜索语句,终端101将该搜索语句发送至服务器102,服务器102对该搜索语句进行信息搜索,得到搜索结果,例如,该搜索结果为“人民公园”,服务器102将该搜索结果发送至终端101,从而用户通过终端101查看该搜索结果。
需要说明的是,以上场景仅是示例性说明,并不对信息搜索场景造成限制,本申请除了应用在以上场景外,还能够应用在其他任一信息搜索场景中。
基于上述实施环境,本申请实施例提供了一种信息搜索方法,以图2所示的本申请实施例提供的一种信息搜索方法的流程图为例,该方法可由图1中的服务器102执行。如图2所示,该方法包括下述步骤:
在步骤201中,服务器确定搜索语句对应的多个实体词片段,该多个实体词片段中至少存在一个实体词片段包括多个实体词,该实体词为该搜索语句中的实体词。
其中,搜索语句为用户通过终端输入的搜索语句。在一些实施例中,在用户想要搜索某项生活服务时,通过终端中安装的目标应用输入搜索语句,从而终端将该搜索语句发送至服务器,服务器接收该搜索语句。例如,该搜索语句为“周末情侣泡温泉”、“放风筝的公园”或者“床睡起来比较硬的酒店”等语句。
在步骤202中,服务器对于每个该实体词片段,确定该实体词片段关联的目标场景标签,得到多个目标场景标签,每个该目标场景标签链接有搜索结果。
其中,目标场景标签是从场景标签知识库中对实体词片段进行检索得到的。每个场景标签链接有搜索结果,该搜索结果为生活服务信息,该生活服务信息用于表示目标应用对应的生活服务平台所提供的生活服务,也即是搜索结果为在生活服务平台注册过的商家或者已注册商家提供的商品。例如,搜索结果为景点、酒店、饭店、影院、美食或者电影票等。
在步骤203中,服务器确定每个该实体词片段和与该实体词片段关联的目标场景标签之间的第一相关性参数。
其中,第一相关性参数用于表示目标场景标签和实体词片段之间的相关程度。
在步骤204中,服务器基于每个该目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送该目标搜索结果。
其中,终端接收服务器发送的目标搜索结果,显示该目标搜索结果,以使用户能够查看该目标搜索结果。
在本申请实施例中,由于确定出的目标场景标签是与实体词片段相关联的,那么目标场景标签与搜索语句之间的关联更加紧密,在此基础上,结合每个目标场景标签与实体词片段之间的相关性参数,来确定待向终端发送的目标搜索结果,使得确定出的目标搜索结果更符合用户的搜索需求,进而提高了信息搜索的准确性。
在一些实施例中,服务器事先构建了场景标签知识库,该场景标签知识库用于检索实体词片段关联的目标场景标签。相应地,图3是本申请实施例提供的一种场景标签知识库的构建方法的流程图。参见图3,该实施例以服务器构建场景标签知识库为例进行说明,该方法包括下述步骤:
在步骤301中,服务器获取多个场景标签,该场景标签用于表示待搜索的场景需求。
其中,终端中安装有目标应用,该目标应用为生活服务应用,商家在该目标应用中注册,从而为用户提供生活服务。场景标签表示待搜索的场景需求,也即是目标应用中的商家所提供的生活服务。例如,场景标签为蹦极、泡温泉或者游泳等。
在一些实施例中,目标应用中的商家提供有多种生活服务,因此,服务器将该多种生活服务按照服务类型进行划分,得到多个垂直领域。例如,该多个垂直领域分别为酒店领域、旅游领域、餐饮领域和其他领域等。相应地,服务器对每个垂直领域中的场景标签进行独立优化,从而得到该垂直领域对应的多个场景标签。
在步骤302中,对于每个该场景标签,服务器从该场景标签中提取核心词,基于该核心词,确定该场景标签的实体提及信息和参考搜索语句,该实体提及信息包括与该核心词相关的至少一个实体提及,该参考搜索语句为与该核心词相关的历史搜索语句。
其中,服务器从场景标签中提取核心词的实现方式为:服务器对场景标签进行实体识别,得到核心词。例如,场景标签为泡温泉,核心词为温泉或者泡温泉;场景标签为亲子游,核心词为亲子、旅游和游玩。
其中,任一实体词的实体提及(Mention)为引用该实体词的文本信息,在本申请实施例中,场景标签的实体提及信息也即是引用该场景标签对应的核心词的文本信息。例如,核心词为温泉,实体提及信息为汤泉、水疗和私人温泉等信息。在一些实施例中,场景标签所表示的场景需求较为宽泛,服务器可以对场景标签进行扩展。相应地,服务器基于核心词,确定场景标签的实体提及信息的实现方式为:服务器对核心词进行扩展,得到该实体提及信息。
其中,参考搜索语句为历史搜索过程中,与该核心词相关的历史搜索语句(Query)。在一些实施例中,服务器获取用户通过终端输入的搜索语句并存储。在确定场景标签的核心词之后,服务器从已存储的搜索语句中,获取该核心词对应的搜索语句。
在步骤303中,服务器基于该场景标签、该核心词、该实体提及信息和该参考搜索语句,构建场景标签知识库,该场景标签知识库用于存储该场景标签分别和该核心词、该实体提及信息和该参考搜索语句之间的对应关系。
在一些实施例中,服务器以倒排索引的方式,构建场景标签知识库。相应地,服务器基于场景标签与核心词之间的对应关系,构建核心词索引;基于场景标签与实体提及信息之间的对应关系,构建提及索引;基于场景标签与参考搜索语句之间的对应关系,构建搜索语句索引,从而得到场景标签知识库。
可选地,在实体提及信息包括多个实体提及的情况下,服务器将场景标签与实体提及信息中的每个实体提及之间的对应关系均设置在提及索引中,从而提高提及索引的精度。可选地,服务器对参考搜索语句进行切分,将场景标签与切分后的参考搜索语句之间的对应关系设置在搜索语句索引中,从而提高搜索语句索引的精度。可选地,服务器对场景标签进行切分,根据场景标签和切分得到的单字之间的对应关系,构建单字索引,从而更大程度地扩展召回。
在本申请实施例中,通过离线对分垂直领域的场景标签提取核心词,并对核心词进行扩展,得到实体提及信息,并获取核心词对应的参考搜索语句,然后结合场景标签的核心词、实体提及信息和参考搜索语句,来构建场景标签知识库,从而实现对场景标签分别与核心词、实体提及信息和搜索语句的对应关系的存储,从而在扩展召回的同时还保证了相关性,为后续进行场景标签的确定提供了丰富的数据支持。
在一些实施例中,服务器将对搜索语句进行信息搜索得到搜索结果发送至终端,终端显示该搜索结果,用户通过终端查看该搜索结果。其中,被用户触发查看的搜索结果能够看作是用户感兴趣的搜索结果,也即兴趣点(Point Of Interest,POI),那么终端根据这些被用户触发查看的搜索结果生成搜索通知消息,将搜索通知消息上报给服务器,从而服务器能够该搜索通知信息,确定场景标签的历史反馈参数。
图4是本申请实施例提供的一种信息搜索方法的流程图。参见图4,该实施例以服务器确定场景标签的历史反馈参数为例进行说明,该方法包括下述步骤:
在步骤401中,服务器获取任一终端上报的搜索通知消息,该搜索通知消息用于表示该终端对历史搜索结果的反馈情况。
其中,历史搜索结果为在历史搜索过程中在终端中显示过的搜索结果。在一些实施例中,用户触发终端以查看任一搜索结果,终端记录对任一搜索结果的触发操作,得到搜索通知消息,将该搜索通知消息发送至服务器,服务器接收该搜索搜索通知消息。可选地,终端以日志的方式上报搜索通知消息。
需要说明的是,终端可以实时发送搜索通知消息,或则每隔一段时间发送搜索通知消息。本申请对此不加以限定。
在步骤402中,服务器基于该搜索通知消息,确定该历史搜索结果所链接的场景标签的历史反馈参数。
其中,历史反馈参数可以用场景标签对应的历史搜索结果的数量表示。搜索通知消息可能指示多个历史搜索结果,相应地,步骤402的实现方式包括:对于搜索通知消息所指示的任一历史搜索结果,服务器确定该历史搜索结果所链接的场景标签,服务器确定多个历史搜索结果中链接该场景标签的历史搜索结果的数量,将该数量与该场景标签当前的历史反馈参数之和作为更新后的历史反馈参数。
例如,场景标签为“爬山”,所链接的历史搜索结果分别为“泰山”、“香山”,“泰山”对应的数量为2,“香山”对应的数量为5,则场景标签“爬山”的历史反馈参数为7。例如,以用户的触发操作为点击操作为例,服务器对搜索通知消息中历史搜索结果进行点击反馈统计,从而确定出历史反馈参数P(Query~POI~Tag)。
在一些实施例中,由于历史反馈参数是根据对历史搜索结果的反馈情况确定的,那么对于搜索频率较高的场景标签,其历史反馈参数也较大。可选地,对于每个场景标签,服务器确定向终端发送过的多个历史搜索结果中,该场景标签所链接的历史搜索结果的总数量,将搜索通知消息中场景标签所链接的历史搜索结果的数量和该总数量之间的比值,作为历史反馈参数。
其中,在触发操作为点击操作的情况下,搜索通知消息中场景标签所链接的历史搜索结果的数量和该总数量之间的比值也即是该场景标签的点击率,则服务器将场景标签的点击率作为历史反馈参数,从而提高了历史反馈参数的准确性。
在本申请实施例中,服务器获取大量的搜索通知消息,来确定场景标签的历史反馈参数,以提高历史反馈参数的准确性。
在本申请实施例中,由于用户对搜索结果的反馈情况能够看作是用户对该搜索结果所链接的场景标签的反馈情况,因此通过统计终端的搜索通知消息,来确定场景标签的历史反馈参数,使得后续能够结合该历史反馈参数对场景标签的相关性参数进行调整,从而为提高相关性参数的准确性提供了技术支持。
图5是本申请实施例提供的一种信息搜索方法的流程图。参见图5,该实施例以服务器基于搜索语句进行信息搜索为例进行说明,该方法包括下述步骤:
在步骤501中,服务器对搜索语句进行实体识别,得到多个实体词。
其中,用户通过终端输入搜索语句,终端获取该搜索语句,将该搜索语句发送至服务器;相应地,服务器获取该搜索语句。实体识别操作可以为命名实体识别(Named EntityRecognition,NER)。
可选地,在实体识别得到的多个实体词中,可能存在用于表示地址信息的实体词,而该实体词与场景标签的确定之间的关联不大。相应地,在识别得到多个实体词之后,在该多个实体词存在用于表示地址信息的实体词的情况下,服务器从该多个实体词中删除用于表示地址信息的实体词,得到更新后的实体词,从而基于该更新后的实体词,进行后续处理。其中,用于表示地址信息的实体词可以为表示行政区(省/市/区/镇)的词。
可选地,搜索语句中还可能存在其他与场景标签的确定无关的词,也即存在无实际语义的词。例如,该词为“可以”、“比较”或者“的”等。相应地,服务器将搜索语句中与无实际语义的词删除,得到更新后的实体词,从而基于更新后的实体词进行后续处理。
在一些实施例中,服务器事先从每个垂直领域中的多个场景标签中,选择出部分场景标签,将这部分场景标签组成白名单。可选地,服务器将多个场景标签中搜索频率较高的场景标签组成白名单。相应地,服务器在对搜索语句进行实体识别之后,将实体识别得到的实体词与白名单中的场景标签进行匹配。在匹配得到与实体词关联的目标场景标签的情况下,服务器无需再对识别得到的实体词进行组合,也无需从场景标签知识库中进行检索,从而大大节省了操作时间,提高了操作效率。在未匹配到与实体词关联的目标场景标签的情况下,服务器执行步骤502的操作。
需要说明的是,在步骤501之后,服务器可以直接执行步骤502的操作,或者先根据白名单进行匹配,再确定是否执行步骤502的操作,本申请对此不加以限定。
在一些实施例中,在搜索语句携带商家信息的情况下,服务器对这类搜索语句不进行场景标签的链接,服务器直接将该商家信息所链接的商家链接作为搜索结果,将该搜索结果发送至终端。其中,商家信息为用于表示商家成分信息的实体词,例如商家名称,或者,商家信息为商家意图信息。其中,服务器对搜索语句进行意图识别,得到商家意图信息。在搜索语句不携带商家信息的情况下,也即在实体识别得到的多个实体词中不包括用于表示商家的实体词的情况下,服务器执行步骤502的操作。
在步骤502中,服务器按照每个该实体词在该搜索语句中的位置,对该多个实体词进行组合,得到该多个实体词片段。
其中,每个实体词在搜索语句中都具有一个相应的位置。可选地,服务器按照实体词在搜索语句中从前向后的位置顺序,依次对实体词进行编号,按照编号得到的序号,对多个实体词进行组合。例如,搜索语句为“放风筝的公园”,识别得到的多个实体词为“风筝”和“公园”,则“风筝”和“公园”的序号依次为1和2。
可选地,服务器对该多个实体词进行排列组合,得到多个候选组合,每种候选组合包括至少一个实体词片段。对于每个候选组合,在该候选组合中存在位置不相邻的两个实体词组成的实体词片段时,也即是序号不连续的两个实体词组成的实体词片段,服务器将该候选组合删除,得到更新后的候选组合,服务器将更新后的候选组合所包括的实体词片段作为该多个实体词片段,执行步骤503的操作。
例如,多个实体词分别为T1、T2和T3,则序列组合为(T1T2,T3)、(T1T2T3)、(T1,T2,T3)、(T1,T2T3),T1T2称为一个实体词片段。
需要说明的是,实体识别得到的实体词可能并非搜索语句中的原词,相应地,在这种情况下,服务器在确定实体词在搜索语句中的位置时,将该实体词所对应的搜索语句中的词的位置作为该实体词的位置。例如,搜索语句为“情侣私汤”,实体识别得到的实体词为“情侣”、“私人”和“温泉”,服务器将“私”所在的位置作为“私人”的位置。
在本申请实施例中,由于在搜索范围较为宽泛的信息搜索场景中,对搜索语句识别得到的实体词的数量较多,而相邻两个实体词之间可能存在联系,则通过按照实体词在搜索语句中的位置,来对该多个实体词进行序列组合,从而得到实体词片段,这样,根据该实体词片段确定的场景标签的准确性较高。
在步骤503中,服务器对于每个该实体词片段,确定该实体词片段关联的目标场景标签,得到多个目标场景标签,每个该目标场景标签链接有搜索结果。
其中,服务器事先构建了场景标签知识库,则服务器可以结合该场景标签知识库来确定目标场景标签,可选地,步骤503的实现方式包括:对于每个该实体词片段,服务器从该场景标签知识库中,确定该实体词片段关联的目标场景标签,得到该多个目标场景标签。
其中,服务器在场景标签知识库中进行检索,召回目标场景标签。由于场景标签知识库中可能包括多种索引,每种索引具有各自的优先级,则对于每个实体词片段,服务器根据索引的优先级,依次从每种索引中对该实体词片段进行检索。在本申请实施例中,以场景标签知识库包括的多种索引为核心词索引、提及索引、搜索语句索引和单字索引为例进行说明。
其中,多种索引的优先级可以根据需要进行设置,本申请实施例对此不加以限定。例如,服务器事先确定多种索引的的优先级依次为核心词索引、提及索引、搜索语句索引和单字索引,也即是核心词索引的优先级最高,单字索引的优先级最低。例如,核心词索引、提及索引、搜索语句索引和单字索引的优先级分别为4、3、2和1,其中,数值越大,优先级越高。相应地,对于每个实体词片段,服务器依次从核心词索引、提及索引、搜索语句索引和单字索引中,检索该实体词片段关联的目标场景标签。
需要说明的是,服务器可以从多种索引中选择任一种索引,基于该索引进行检索,从而节省检索时间,提高检索效率。例如,服务器从核心词索引或者提及索引中进行检索。
在一些实施例中,服务器先执行步骤504-505的操作,确定第一相关性参数,再执行步骤506的操作,确定第三相关型参数,或者,服务器还先执行步骤506的操作,再执行步骤504-505的操作,又或者,服务器同时执行步骤504-505和506的操作,本申请对此不加以限定。
在步骤504中,对于每个该实体词片段,对该实体词片段进行特征提取,得到第一特征,对该目标场景标签进行特征提取,得到第二特征,确定该第一特征与该第二特征之间的第二相关性参数。
其中,第一特征可以为实体词片段的向量表示(Tagvec),第二特征可以为目标场景标签(Tag)的向量表示。可选地,服务器确定第一特征与第二特征之间的第二相关性参数的实现方式为:服务器确定第一特征和第二特征之间的余弦相似度,基于该余弦相似度,确定第二相关性参数,余弦相似度与第二相关性参数成正相关。
其中,余弦相似度越大,表示该第一特征和第二特征越相似,也即目标场景标签与实体词片段越接近。可选地,服务器按照预设比例对余弦相似度进行转换,得到第二相关性参数,从而便于后续对该第二相关性参数进行调整。预设比例为事先设置好的比例,预设比例可以根据需要进行设置,本申请实施例对此不加以限定。例如,预设比例为1:10,余弦相似度为0.1,则第二相关性参数为0.1×10=1。再如,预设比例为1:100,余弦相似度为0.2,则第二相关性参数为0.2×100=20。
在步骤505中,服务器基于该目标场景标签对应的优先级和历史反馈参数,对该第二相关性参数进行调整,得到该第一相关性参数。
其中,该历史反馈参数用于表示历史搜索过程中对该目标场景标签的反馈情况,该优先级为目标检索方式的优先级,该目标检索方式为检索该目标场景标签所使用的检索方式。
例如,目标场景标签为基于核心词索引确定的,而核心词索引的优先级为1,则目标场景标签对应的优先级为1。
在一些实施例中,历史反馈参数越大,表示用户对目标场景标签的反馈较多,并且优先级越高,表示该目标场景标签与搜索语句之间的关联越强,从而表示该目标场景标签更加符合用户的场景需求,从而第二相关性参数的可参考性就越大。相应地,步骤505的实现方式包括:服务器基于历史反馈参数与反馈阈值之间的第一差值,确定该第二相关性参数的第一增值,该第一差值与该第一增值成正相关;服务器基于该优先级与优先级阈值之间的第二差值,确定该第二相关性参数的第二增值,该第二差值与该第二增值成正相关;服务器基于第一增值和第二增值,对该第二相关性参数进行调整,得到该第一相关性参数。
其中,反馈阈值可以根据需要进行设置,本申请实施例对此不加以限定。例如,反馈阈值设置为0。优先级阈值为根据需要进行设置,本申请实施例对此不加以限定。例如,优先级阈值设置为0。
可选地,服务器基于第一增值和第二增值,对该第二相关性参数进行调整,得到该第一相关性参数的实现方式为:服务器将第一增值、第二增值和第二相关性参数之和作为第一相关性参数。
在本申请实施例中,一方面,由于历史反馈参数表示历史对目标场景标签的反馈情况,从而根据历史反馈参数确定的第一差值越大,表示目标场景标签的历史反馈参数越大,从而第一增值越大,表示第二相关性参数的可参考性越大,则第一相关性参数更加准确。另一方面,由于目标场景标签对应的优先级表示目标场景标签与搜索语句之间的关联程度,从而根据优先级确定的第二差值越大,表示目标场景标签与目标场景标签与搜索语句之间的关联越强,从而第二增值越大,表示第二相关性参数的可参考性越大,则第一相关性参数更加准确。
在另一些实施例中,服务器根据目标场景标签的历史反馈参数和第二相关性参数,来确定第一相关性参数。相应地,步骤505的实现方式替换为:服务器基于该目标场景标签对应的历史反馈参数,对该第二相关性参数进行调整,得到该第一相关性参数。
可选地,服务器确定第一增值;将该第一增值和该第二相关性参数之和作为该第一相关性参数。其中,第一增值的确定方式与上述实施例中第一增值的确定方式同理,在此不再赘述。
在本申请实施例中,由于历史反馈参数能够表示用户历史对目标场景标签的反馈情况,因此通过结合目标场景标签的历史反馈参数来确定目标场景标签的第一相关性参数,使得确定出的第一相关性参数的准确性较高。
在另一些实施例中,服务器根据目标场景标签对应的优先级和第二相关性参数,来确定第一相关性参数。相应地,步骤505的实现方式替换为:服务器基于该目标场景标签对应的优先级,对该第二相关性参数进行调整,得到该第一相关性参数。
可选地,服务器确定第二增值;将该第二增值和该第二相关性参数之和作为该第一相关性参数。其中,第二增值的确定方式与上述实施例中第二增值的确定方式同理,在此不再赘述。
在本申请实施例中,由于目标场景标签对应的优先级表示目标场景标签与搜索语句之间的关联程度,因此通过结合目标场景标签对应的优先级来确定目标场景标签的第一相关性参数,使得确定出的第一相关性参数的准确性较高。
需要说明的是,服务器可以结合历史反馈参数对第二相关性参数进行调整,也可以结合优先级对第二相关性参数进行调整,或者,服务器还可以结合历史反馈参数和优先级对第二相关性参数进行调整,本申请实施例对此不加以限定。
在步骤506中,服务器对于每个该目标场景标签,确定该目标场景标签与该搜索语句之间的第三相关性参数。
在一些实施例中,步骤506的实现方式与步骤504-505的实现方式同理,在此不再赘述。
需要说明的是,该搜索语句可以为已删除用于表示地址信息的实体词之后的搜索语句。在本申请实施例中,在得到目标场景标签(Tag)与实体词片段(e)之间的第一相关性参数P(Tag~e),以及,目标场景标签与搜索语句(Query)之间的第三相关性参数P(Tag~Query)之后,服务器基于每个该目标场景标签的该第一相关性参数和该第三相关性参数,从该多个搜索结果中,选择目标搜索结果,也即执行步骤507的操作。
在步骤507中,服务器基于每个该目标场景标签对应的第一相关性参数和第三相关性参数,从该多个搜索结果中,确定该目标搜索结果。
其中,对于第一相关性参数和第三相关性参数的数值均比较高的目标场景标签,其与搜索语句之间的关联更加紧密,更符合用户的搜索需求,相应地,步骤507的实现方式包括:服务器从多个目标场景标签中,筛选出第一相关性参数和第二相关性参数均不小于相关性阈值的目标场景标签,将筛选出的目标场景标签对应的搜索结果,作为目标搜索结果。
其中,相关性阈值可以根据需要进行设置,本申请实施例对此不加以限定。在本申请实施例中,服务器过滤掉第一相关性参数和第三相关性参数小于相关性阈值的目标场景标签,从而确定出的目标场景标签与实体词片段和搜索语句的相关性均较高,进而该目标场景标签的准确性较高。
在一些实施例中,服务器可以结合第一相关性参数来确定目标搜索结果,以节省筛选时间,相应地,步骤506-507替换为:服务器基于每个该目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果。
其中,服务器可以从多个目标场景标签中,筛选出第一相关性参数不小于相关性阈值的目标场景标签,将筛选出的目标场景标签对应的搜索结果,作为目标搜索结果。或者,服务器可以基于第一相关性参数,对该多个目标场景标签进行排序,得到排序后的多个目标场景标签;从该多个搜索结果中,将排序在目标位数之前的多个目标场景标签所链接的搜索结果作为该目标搜索结果。
其中,目标位数可以根据需要进行设置,本申请实施例对此不加以限定。
在本申请实施例中,通过先对多个目标场景标签进行排序,再从中选择排序在目标位数之前的目标场景标签,使得确定出的目标搜索结果与用户的搜索需求较为匹配,且减少了搜索结果的数量,从而降低了数据传输的数据量。
在另一些实施例中,服务器将多个搜索结果作为该目标搜索结果。其中,由于每个搜索结果均是目标场景标签所链接的搜索结果,该搜索结果一定程度上与搜索语句所代表的用户的搜索需求是相关的,则可以将该多个搜索结果直接作为目标搜索结果,以节省筛选的时间,提高信息搜索的效率。
其中,多个目标场景标签可以包括多个层级,则每个层级包含至少一个目标场景标签,且下一个层级中的目标场景标签属于上一个层级中的目标场景标签的子场景标签。例如,以旅游领域为例,场景标签为泡温泉、情侣温泉和私人温泉,其中,情侣温泉和私人温泉均属于泡温泉的子场景标签。
可选地,对于每个垂直领域,服务器事先确定该垂直领域中的多个场景标签之间的层级关系,得到多个层级的场景标签,以及存储多个场景标签之间的层级关系。例如,服务器以知识图谱的方式存储多个场景标签之间的层级关系。在得到多个目标场景标签之后,服务器根据已存储的多个层级的场景标签,确定该多个目标场景标签是否包括存在层级关系的目标场景标签。
相应地,在确定出多个目标场景标签之后,也即在步骤504之前,本申请实施例提供的信息搜索方法还包括以下步骤:服务器从存在层级关系的目标场景标签中,删除属于上一个层级的目标场景标签,得到更新后的多个目标场景标签。
其中,在删除属于上一个层级的目标场景标签之后,服务器根据剩余的目标场景标签,执行步骤504-507的操作。
在本申请实施例中,通过结合目标场景标签中的层级关系,对主副场景和冗余场景进行合并选择,从而实现场景和场景间的联合消歧,进而提高了标签确定的准确性。
需要说明的是,由于目标应用为生活服务应用,因此,本申请实施例适用的信息搜索场景大多为与地址强相关的信息搜索场景,则服务器还可以结合地址信息对多个目标场景标签进行筛选。相应地,服务器根据终端的地址信息,从多个目标场景标签中选择与该地址信息对应的目标场景标签,从而根据选择出的目标场景标签,执行步骤504-507的操作。
其中,服务器确定终端的地址信息的实现方式为:在实体识别得到的实体词中包括用于表示地址信息的实体词的情况下,服务器将该地址信息作为终端的地址信息;在实体识别得到的实体词中不包括用于表示地址信息的实体词的情况下,服务器向终端发送地址获取请求,终端响应于该地址获取请求,将自身的地址信息发送至服务器,服务器接收该地址信息。或者,终端也可以在向服务器发送搜索语句时,一同发送自身的地址信息。
在步骤508中,服务器向终端发送该目标搜索结果。
其中,目标搜索结果具有对应的第一相关性参数或者第二相关性参数中的至少一项,而相关性参数越大表示目标搜索结果越符合用户的搜索需求,相应地,服务器按照排序后的多个目标场景标签的顺序,依次向该终端发送该目标搜索结果。其中,服务器可以按照第一相关性参数对多个目标场景标签进行排序,或者按照第二相关性参数对多个目标场景标签进行排序,本申请实施例对此不做限制。或者,服务器将确定出的目标搜索结果进行打包,得到搜索结果包,向终端发送该搜索结果包,从而减少服务器和终端之间的数据交互,提高发送效率。其中,搜索结果包中每个目标搜索结果均标注有序号。可选地,服务器事先按照排序结果对每个目标搜索结果进行序号标注,每个目标搜索结果对应的序号为该目标搜索结果对应的目标场景标签在排序结果中的位数。
其中,终端接收目标搜索结果,显示该目标搜索结果。可选地,终端接收搜索结果包,按照搜索结果包中的每个目标搜索结果对应的序号,在显示界面中按顺序显示目标搜索结果。
在本申请实施例中,在搜索范围较为宽泛的信息搜索场景下,也即在泛场景搜索下,上述方案能够分析出搜索语句中核心的搜索需求并将其链接到已有的场景标签知识体系中,从而指导召回更加准确和关联程度更高的搜索结果。经过本领域的技术人员的测试,本申请实施例提供的信息搜索方法在旅游领域的信息搜索过程中,召回率高达84%,准确率高达93%。
在本申请实施例中,一方面,针对垂直领域的场景搜索特点,对场景搜索进行分析,并拆分成多粒度的倒排索引,得到场景标签知识库,从而有效提高了目标场景标签的召回覆盖率。另一方面,将召回的多个目标场景标签作为泛场景集合,结合了用户对商家的搜索行为聚合得到的历史反馈参数,来确定每个目标场景标签在排序环节的相关性参数,同时还结合了多种判定方式对复合场景、主副场景等多种场景间的关系进行了消歧,有效提高了信息搜索的准确性。
例如,参见图6,搜索语句(Query)中包括地址信息(City),对搜索语句进行分词和实体识别,从识别得到的实体词中删除地址信息对应的实体词(X识别结果),从而对剩余的实体词进行白名单全匹配,在存在匹配的场景标签的情况下,将匹配到的场景标签作为目标场景标签(Tag),在不存在匹配的场景标签的情况下,对剩余的实体词进行组合,得到实体词片段,然后在场景标签知识库进行倒排检索,召回目标场景标签。对得到目标场景标签进行排序,例如,按照第一相关性参数或者第三相关性参数,从大到小进行排序。此外,还参考目标场景标签对应的地址信息和目标场景标签之间的对应关系,对排序后的目标场景标签进行最终的判断,得到筛选出目标场景标签对应的目标搜索结果。
在本申请实施例中,由于确定出的目标场景标签是与实体词片段相关联的,那么目标场景标签与搜索语句之间的关联更加紧密,在此基础上,结合每个目标场景标签与实体词片段之间的相关性参数,来确定待向终端发送的目标搜索结果,使得确定出的目标搜索结果更符合用户的搜索需求,进而提高了信息搜索的准确性。
图7所示为本申请实施例提供的一种信息搜索装置的结构示意图,如图7所示,该装置包括:
片段确定模块701,用于确定搜索语句对应的多个实体词片段,该多个实体词片段中至少存在一个实体词片段包括多个实体词,该实体词为该搜索语句中的实体词;
标签确定模块702,用于对于每个该实体词片段,确定该实体词片段关联的目标场景标签,得到多个目标场景标签,每个该目标场景标签链接有搜索结果;
第一参数确定模块703,用于确定每个该实体词片段和与该实体词片段关联的目标场景标签之间的第一相关性参数;
结果确定模块704,用于基于每个该目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送该目标搜索结果。
在一些实施例中,该片段确定模块701,用于对该搜索语句进行实体识别,得到多个实体词;按照每个该实体词在该搜索语句中的位置,对该多个实体词进行组合,得到该多个实体词片段。
在一些实施例中,该第一参数确定模块703,包括:
特征提取单元,用于对于每个该实体词片段,对该实体词片段进行特征提取,得到第一特征,对该目标场景标签进行特征提取,得到第二特征,确定该第一特征与该第二特征之间的第二相关性参数;
参数调整单元,用于基于该目标场景标签的历史反馈参数,对该第二相关性参数进行调整,得到该第一相关性参数,该历史反馈参数用于表示历史搜索过程中对该目标场景标签的反馈情况。
在一些实施例中,该参数调整单元,用于基于该历史反馈参数与反馈阈值之间的第一差值,确定该第二相关性参数的第一增值,该第一差值与该第一增值成正相关;将该第一增值和该第二相关性参数之和作为该第一相关性参数。
在一些实施例中,该装置还包括:
第二参数确定模块,用于基于任一终端上报的搜索通知消息,确定历史搜索结果所链接的场景标签的历史反馈参数,该搜索通知消息用于表示该终端对该历史搜索结果的反馈情况。
在一些实施例中,该第一参数确定模块703,包括:
特征提取单元,用于对于每个该实体词片段,对该实体词片段进行特征提取,得到第一特征,对该目标场景标签进行特征提取,得到第二特征,确定该第一特征与该第二特征之间的第二相关性参数;
参数调整单元,还用于基于该目标场景标签对应的优先级,对该第二相关性参数进行调整,得到该第一相关性参数,该优先级为目标检索方式的优先级,该目标检索方式为检索该目标场景标签所使用的检索方式。
在一些实施例中,该参数调整单元,还用于基于该优先级与优先级阈值之间的第二差值,确定该第二相关性参数的第二增值,该第二差值与该第二增值成正相关;将该第二增值和该第二相关性参数之和作为该第一相关性参数。
在一些实施例中,该装置还包括:
知识库构建模块,用于获取多个场景标签,该场景标签用于表示待搜索的场景需求;对于每个该场景标签,从该场景标签中提取核心词,基于该核心词,确定该场景标签的实体提及信息和参考搜索语句,该实体提及信息包括与该核心词相关的至少一个实体提及,该参考搜索语句为与该核心词相关的历史搜索语句;基于该场景标签、该核心词、该实体提及信息和该参考搜索语句,构建场景标签知识库,该场景标签知识库用于存储该场景标签分别和该核心词、该实体提及信息和该参考搜索语句之间的对应关系;
该标签确定模块702,用于对于每个该实体词片段,从该场景标签知识库中,确定该实体词片段关联的目标场景标签,得到该多个目标场景标签。
在一些实施例中,该结果确定模块704,用于基于该第一相关性参数,对该多个目标场景标签进行排序,得到排序后的多个目标场景标签;从该多个搜索结果中,将排序在目标位数之前的多个目标场景标签所链接的搜索结果作为该目标搜索结果;或者,
该结果确定模块704,用于将该多个搜索结果作为该目标搜索结果。
在一些实施例中,该结果确定模块704,用于按照该排序后的多个目标场景标签的顺序,依次向该终端发送该目标搜索结果。
在一些实施例中,该多个目标场景标签包括多个层级,每个层级包含至少一个目标场景标签,且下一个层级中的目标场景标签属于上一个层级中的目标场景标签的子场景标签;该装置还包括:
标签删除模块,用于从存在层级关系的目标场景标签中,删除属于上一个层级的目标场景标签,得到更新后的多个目标场景标签。
在一些实施例中,该结果确定模块704,用于对于每个该目标场景标签,确定该目标场景标签与该搜索语句之间的第三相关性参数;基于每个该目标场景标签对应的第一相关性参数和第三相关性参数,从该多个搜索结果中,确定该目标搜索结果。
在本申请实施例中,由于确定出的目标场景标签是与实体词片段相关联的,那么目标场景标签与搜索语句之间的关联更加紧密,在此基础上,结合每个目标场景标签与实体词片段之间的相关性参数,来确定待向终端发送的目标搜索结果,使得确定出的目标搜索结果更符合用户的搜索需求,进而提高了信息搜索的准确性。
应理解的是,上述图7提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本申请实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,包括一个或多个处理器(Central Processing Units,CPU)801和一个或多个的存储器802,其中,该一个或多个存储器802中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述实施例中的信息搜索方法。当然,该服务器800还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使服务器实现上述实施例中的信息搜索方法。
可选地,上述计算机可读存储介质是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使服务器实现上述实施例中的信息搜索方法。
以上该仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种信息搜索方法,其特征在于,所述方法包括:
确定搜索语句对应的多个实体词片段,所述多个实体词片段中至少存在一个实体词片段包括多个实体词,所述实体词为所述搜索语句中的实体词;
对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,每个所述目标场景标签链接有搜索结果;
确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数;
基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送所述目标搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述确定搜索语句对应的多个实体词片段,包括:
对所述搜索语句进行实体识别,得到多个实体词;
按照每个所述实体词在所述搜索语句中的位置,对所述多个实体词进行组合,得到所述多个实体词片段。
3.根据权利要求1所述的方法,其特征在于,所述确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数,包括:
对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
基于所述目标场景标签的历史反馈参数,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述历史反馈参数用于表示历史搜索过程中对所述目标场景标签的反馈情况。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标场景标签的历史反馈参数,对所述第二相关性参数进行调整,得到所述第一相关性参数,包括:
基于所述历史反馈参数与反馈阈值之间的第一差值,确定所述第二相关性参数的第一增值,所述第一差值与所述第一增值成正相关;
将所述第一增值和所述第二相关性参数之和作为所述第一相关性参数。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
基于任一终端上报的搜索通知消息,确定历史搜索结果所链接的场景标签的历史反馈参数,所述搜索通知消息用于表示所述终端对所述历史搜索结果的反馈情况。
6.根据权利要求1所述的方法,其特征在于,所述确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数,包括:
对于每个所述实体词片段,对所述实体词片段进行特征提取,得到第一特征,对所述目标场景标签进行特征提取,得到第二特征,确定所述第一特征与所述第二特征之间的第二相关性参数;
基于所述目标场景标签对应的优先级,对所述第二相关性参数进行调整,得到所述第一相关性参数,所述优先级为目标检索方式的优先级,所述目标检索方式为检索所述目标场景标签所使用的检索方式。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标场景标签对应的优先级,对所述第二相关性参数进行调整,得到所述第一相关性参数,包括:
基于所述优先级与优先级阈值之间的第二差值,确定所述第二相关性参数的第二增值,所述第二差值与所述第二增值成正相关;
将所述第二增值和所述第二相关性参数之和作为所述第一相关性参数。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个场景标签,所述场景标签用于表示待搜索的场景需求;
对于每个所述场景标签,从所述场景标签中提取核心词,基于所述核心词,确定所述场景标签的实体提及信息和参考搜索语句,所述实体提及信息包括与所述核心词相关的至少一个实体提及,所述参考搜索语句为与所述核心词相关的历史搜索语句;
基于所述场景标签、所述核心词、所述实体提及信息和所述参考搜索语句,构建场景标签知识库,所述场景标签知识库用于存储所述场景标签分别和所述核心词、所述实体提及信息和所述参考搜索语句之间的对应关系;
所述对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,包括:
对于每个所述实体词片段,从所述场景标签知识库中,确定所述实体词片段关联的目标场景标签,得到所述多个目标场景标签。
9.根据权利要求1所述的方法,其特征在于,所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,包括:
基于所述第一相关性参数,对所述多个目标场景标签进行排序,得到排序后的多个目标场景标签;从所述多个搜索结果中,将排序在目标位数之前的多个目标场景标签所链接的搜索结果作为所述目标搜索结果;或者,
将所述多个搜索结果作为所述目标搜索结果。
10.根据权利要求1所述的方法,其特征在于,所述向终端发送所述目标搜索结果,包括:
按照所述排序后的多个目标场景标签的顺序,依次向所述终端发送所述目标搜索结果。
11.根据权利要求1所述的方法,其特征在于,所述多个目标场景标签包括多个层级,每个层级包含至少一个目标场景标签,且下一个层级中的目标场景标签属于上一个层级中的目标场景标签的子场景标签;
在所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果之前,所述方法还包括:
从存在层级关系的目标场景标签中,删除属于上一个层级的目标场景标签,得到更新后的多个目标场景标签。
12.根据权利要求1所述的方法,其特征在于,所述基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,包括:
对于每个所述目标场景标签,确定所述目标场景标签与所述搜索语句之间的第三相关性参数;
基于每个所述目标场景标签对应的第一相关性参数和第三相关性参数,从所述多个搜索结果中,确定所述目标搜索结果。
13.一种信息搜索装置,其特征在于,所述装置包括:
片段确定模块,用于确定搜索语句对应的多个实体词片段,所述多个实体词片段中至少存在一个实体词片段包括多个实体词,所述实体词为所述搜索语句中的实体词;
标签确定模块,用于对于每个所述实体词片段,确定所述实体词片段关联的目标场景标签,得到多个目标场景标签,每个所述目标场景标签链接有搜索结果;
参数确定模块,用于确定每个所述实体词片段和与所述实体词片段关联的目标场景标签之间的第一相关性参数;
结果确定模块,用于基于每个所述目标场景标签对应的第一相关性参数,从多个搜索结果中,确定目标搜索结果,向终端发送所述目标搜索结果。
14.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述服务器实现如权利要求1至12任一所述的信息搜索方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使服务器实现如权利要求1至12任一所述的信息搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067318.8A CN113918796A (zh) | 2021-09-13 | 2021-09-13 | 信息搜索方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067318.8A CN113918796A (zh) | 2021-09-13 | 2021-09-13 | 信息搜索方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113918796A true CN113918796A (zh) | 2022-01-11 |
Family
ID=79234718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111067318.8A Pending CN113918796A (zh) | 2021-09-13 | 2021-09-13 | 信息搜索方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113918796A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115297128A (zh) * | 2022-06-27 | 2022-11-04 | 青岛海尔科技有限公司 | 边缘执行信息的处理方法和装置、存储介质及电子装置 |
-
2021
- 2021-09-13 CN CN202111067318.8A patent/CN113918796A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115297128A (zh) * | 2022-06-27 | 2022-11-04 | 青岛海尔科技有限公司 | 边缘执行信息的处理方法和装置、存储介质及电子装置 |
CN115297128B (zh) * | 2022-06-27 | 2024-04-19 | 青岛海尔科技有限公司 | 边缘执行信息的处理方法和装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10095711B2 (en) | Method and apparatus of recommending candidate terms based on geographical location | |
CN108804532B (zh) | 一种查询意图的挖掘和查询意图的识别方法、装置 | |
CN104102719B (zh) | 一种轨迹信息的推送方法及装置 | |
CN107168991B (zh) | 一种搜索结果展示方法和装置 | |
CN108701121B (zh) | 将用户输入分派到用户界面中的多个输入域 | |
CN113079417B (zh) | 生成弹幕的方法、装置、设备和存储介质 | |
CN110019645B (zh) | 索引库构建方法、搜索方法及装置 | |
CN111506771B (zh) | 一种视频检索方法、装置、设备及存储介质 | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
US20120271844A1 (en) | Providng relevant information for a term in a user message | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN109791545A (zh) | 用于包括图像的显示的资源的上下文信息 | |
CN113918796A (zh) | 信息搜索方法、装置、服务器及存储介质 | |
CN111241401B (zh) | 一种搜索请求处理方法及装置 | |
CN110287338B (zh) | 行业热点确定方法、装置、设备和介质 | |
CN104598585A (zh) | 信息搜索方法及装置 | |
CN114638308A (zh) | 一种获取对象关系的方法、装置、电子设备和存储介质 | |
CN114237588A (zh) | 一种代码仓库选择方法、装置、设备及存储介质 | |
CN114443920A (zh) | 地址信息解析方法、装置、电子设备和计算机可读介质 | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 | |
WO2024040914A1 (zh) | 知识搜索方法及相关设备 | |
CN117369653A (zh) | 输入文本推荐方法、装置、存储介质及计算机设备 | |
CN116069897A (zh) | 查询纠错方法、装置、计算机设备、存储介质及程序产品 | |
CN117390219A (zh) | 视频搜索方法、装置、计算机设备和存储介质 | |
CN115878874A (zh) | 多模态检索方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |