CN114036373B

CN114036373B - 搜索方法及装置、电子设备和存储介质

Info

Publication number: CN114036373B
Application number: CN202111308789.3A
Authority: CN
Inventors: 王海峰; �田�浩; 刘璟; 吴华; 吴甜; 孙宇; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2023-09-29
Anticipated expiration: 2041-11-05
Also published as: US20230147798A1; CN114036373A; JP2022186955A

Abstract

本公开提供了一种搜索方法及装置、电子设备和存储介质，涉及人工智能领域，尤其涉及智能搜索领域。实现方案为：将用户的搜索请求转换成第一请求语义向量；在搜索资源数据库中搜索与第一请求语义向量相匹配的至少一个第一数据语义向量，其中，搜索资源数据库被构造为语义向量空间，在语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，不同类型的数据至少包括文本、图片和视频；以及基于该至少一个第一数据语义向量，生成搜索结果。

Description

搜索方法及装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及智能搜索技术领域，具体涉及一种搜索方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

数据搜索是互联网中的基础服务之一，能够基于用户的搜索请求提供满足用户需求的搜索结果。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种搜索方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种搜索方法，包括：将用户的搜索请求转换成第一请求语义向量；在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；以及基于所述至少一个第一数据语义向量，生成搜索结果。

根据本公开的另一方面，提供了一种数据搜索装置，包括：用于将用户的搜索请求转换成第一请求语义向量的单元；用于在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量的单元，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；以及用于基于所述至少一个第一数据语义向量生成搜索结果的单元。

根据本公开的另一方面，提供了一种基于预训练语言模型的搜索系统，包括：召回模型，所述召回模型被配置为将用户的搜索请求转换成第一语义向量，并在搜索资源库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频，以及排序模型，所述排序模型被配置为依次确定所述搜索请求与所述至少一个第一数据语义向量对应的一个或多个第一数据之间的相似度，以对所述一个或多个第一数据进行排序；其中，所述召回模型和所述排序模型级联组成端到端的深度神经网络基础模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

根据本公开的一个或多个实施例，可以提升搜索性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开示例性实施例的搜索方法的流程图；

图2示出了根据本公开示例性实施例的搜索方法的流程图；

图3示出了根据本公开示例性实施例的搜索方法的流程图；

图4示出了根据本公开示例性实施例的搜索方法的流程图；

图5示出了根据本公开示例性实施例的搜索方法的流程图；

图6示出了根据本公开示例性实施例的搜索请求结构化分析的示意图；

图7示出了根据本公开示例性实施例的数据搜索装置的结构框图；

图8示出了根据本公开示例性实施例的数据搜索装置的结构框图；

图9示出了根据本公开示例性实施例的数据搜索装置的结构框图；

图10示出了根据本公开示例性实施例的数据搜索装置的结构框图；

图11示出了根据本公开示例性实施例的数据搜索装置的结构框图；

图12示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的结构框图；

图13示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的结构框图；

图14示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的结构框图；

图15示出了根据本公开示例性实施例的基于交叉编码器构造的模型结构示意图与基于双编码器构造的模型结构的示意图；

图16示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的工作过程示意图；

图17示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的训练方法的流程图；

图18示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

发明人创造性地提出了一种用于数据的搜索方法，通过将包括文本、图片、视频、表格等各种不同形式的网络资源以统一的向量表达集中在统一资源数据库中，以将不同类型的数据转换成对应的数据语义向量。从而通过将与用户的搜索请求所对应的语义向量和至少一个数据所对应的语义向量进行比较，能够从至少一个数据中召回针对用户的搜索请求的搜索结果。由此，通过将不同类型的数据映射至同一语义向量空间，能够直接将不同类型数据所对应的语义向量进行相似度匹配，得到与用户的搜索请求匹配的多模态数据，有利于提升搜索性能，具体提升检索内容的多样性，提升用户体验。

数据的属性包括以下各项中的至少一者：模态、语言、数据结构。数据的模态包括文本、图片和视频，语言包括各种类型语言，例如中文、英文，数据结构包括结构化数据(例如表格、图谱)和非结构化数据。因此，本申请实施例的方案能够实现多模态、多语言、多资源的统一搜索方法。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开示例性实施例的搜索方法的流程图。

如图1所示，所述方法可以包括：步骤S101、将用户的搜索请求转换成第一请求语义向量；步骤S102、在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；以及步骤S103、基于所述至少一个第一数据语义向量，生成搜索结果。由此，能够实现对不同类型数据的统一检索，提升搜索结果的多样性，提升用户体验。

示例性的，搜索资源数据库包括大量文本、图片、视频等不同类型的数据，不同类型的数据可以是通过各种方式获取的，例如可以是接入现有的具有标准化数据内容的数据库，其中的数据内容在搜索资源数据库的语义向量空间中被转换成对应的数据语义向量。

用户的搜索请求至少包括用户所输入的搜索信息，所述搜索信息可以但不限于文本信息或语音信息。通过提取所述搜索信息的语义特征，将其转换成第一请求语义向量，用于匹配搜索以得到满足用户需求的数据。

根据一些实施例，所述搜索资源数据库中，由所述不同类型的数据转换成的数据语义向量具有统一规格。由此，能够实现对不同类型数据的统一检索。

可以理解的，所述第一请求语义向量与所述搜索资源数据库中的数据语义向量具有相同的规格，例如，当所述搜索资源数据库中的数据语义向量为1000维向量，则所述搜索请求也应被转换为同样规格的1000维向量。示例性的，可以计算所述第一请求语义向量和所述搜索资源数据库中的各数据语义向量之间的相似度，基于相似度得到与所述第一请求语义向量相匹配的至少一个第一数据语义向量。基于至少一个第一数据语义向量，可以获取每个第一数据语义向量所对应的第一数据，进而能够基于所述至少一个第一数据，生成搜索结果并展示给用户。向量之间的相似度例如可以但不限于为余弦相似度。

根据一些实施例，除了文本、图片和视频，所述不同类型的数据至少还包括表格和知识图谱。可以理解的，所述不同类型的数据也可以进一步包括其他类型的数据，例如地图、动画等，更多类型的数据能够进一步丰富搜索资源数据库，从而能够进一步提升搜索结果的多样性，更好地满足用户需求，提升用户体验。

根据一些实施例，所述不同类型的数据中的至少一个文本或视频数据是通过对原始的完整数据进行细粒度划分获得的。由此，能够实现对数据内容更深入的理解，进而实现细粒度索引，得到更符合用户需求的搜索结果。

示例性的，所述通过对原始的完整数据进行细粒度划分获得至少一个文本或视频数据，可以是根据语义对原始的完整数据进行细粒度划分。在一些实施例中，对原始的完整数据进行细粒度划分可以包括对原始的完整数据进行语义切分，得到至少一个文本或视频数据。以网页文本数据为例，原始的完整网页文本数据可能包括多个段落，每个段落可能具有不同的语义特征，则相应的完整网页文本数据所对应的数据语义向量无法充分表现出每个段落的不同语义特征，在搜索过程中即无法将体现用户需求的第一请求语义向量与每个段落的语义进行匹配。通过对原始的完整网页文本数据进行划分，可以将其划分成具有不同语义特征的多个片段，每个片段对应所述至少一个文本中的其中一个。每个片段都被转换成相应的数据语义向量，在搜索过程中即可分别与体现用户需求的第一请求语义向量进行匹配，得到更符合用户需求的搜索结果。同样地，可以基于视频相应的视频文本数据进行细粒度划分，具体原理和过程与网页文本数据类似。

根据一些实施例，所述语义向量空间中的每一个数据语义向量包括与相应数据的内容质量相关的维度。所述与相应数据的内容质量相关的维度可以是相应数据的内容质量评分，但不限于此。由此，能够在搜索过程中考虑数据的内容质量，提升搜索结果的质量。

根据一些实施例，所述语义空间向量中的每一个数据语义向量包括与相应数据的发布时间相关的维度。所述与相应数据的发布时间相关的维度可以是相应数据的发布时间，但不限于此。由此，能够在搜索过程中考虑数据的时效性，提升搜索结果的质量。

根据一些实施例，所述语义空间向量中的每一个数据语义向量包括与相应数据的来源可信度相关的维度。所述与相应数据的来源可信度相关的维度可以是相应数据的来源网站类型及对应网站类型的可信度，但不限于此。由此，能够在搜索过程中考虑数据的权威性，提升搜索结果的质量。

根据一些实施例中，所述语义空间向量中的每一个数据语义向量包括与相应数据的以下各项维度中的至少两个：内容质量相关的维度、发布时间相关的维度和来源可信度相关的维度。在搜索过程中，通过增加数据的多个维度，能够进一步提升搜索结果的质量。

基于同样的原理，根据一些实施例，所述第一请求语义向量包括与所述用户的搜索相关的上下文信息，所述上下文信息包括时间、地点、终端设备和所述用户的前序搜索中的至少一个。由此，能够进一步提高搜索的准确性。

可以理解的，根据与所述用户的搜索相关的上下文信息，能够更准确地描述用户的直接搜索需求。例如，当用户输入的搜索信息为“明天的天气怎么样”，所述第一请求语义向量中可以相应包括用户所在的地点，如北京市，从而可以为用户提供“北京市的明日天气”相关搜索结果，更精准地满足用户需求，提升用户体验。

发明人经过研究发现，用户查询一个搜索请求之后，可能继续查询相关的另一个搜索请求，而该另一个相关的搜索请求能够体现用户在查询第一个搜索请求时的相关搜索意图。例如，用户查询“公众人物A的夫人是谁”，基于搜索结果“公众人物A的夫人是公众人物B”，用户可能继续查询“公众人物B是哪里人”。因此，如果在查询用户的搜索请求时，进一步挖掘用户的相关搜索意图，这对于提升搜索性能将是有利的。

基于此，根据一些实施例，如图2所示，所述搜索方法还包括：步骤S201、基于所述用户的搜索请求，获取所述用户的相关搜索意图；步骤S202、将所述相关搜索意图转换成第二请求语义向量；步骤S203、在所述搜索资源数据库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量；以及步骤S204、基于所述至少一个第二数据语义向量，生成推荐结果。由此，响应于用户的搜索请求，通过获取所述用户的相关搜索意图，并基于此进行推荐，使得针对用户输入的搜索请求的查询结果能够进一步满足用户的延伸需求，从而进一步提升用户体验。所述相关延伸意图可以有一个或多个。

根据一些实施例，所述获取所述用户的相关搜索意图包括：基于需求图谱，获取所述用户的相关搜索意图。所述需求图谱中包含了基于大数据得到的搜索需求分布信息、搜索需求关联信息等，由此，能够基于用户的直接搜索意图更准确地获取所述用户的相关搜索意图。

例如，可以是通过根据用户的搜索请求查找与其关联的高频搜索需求来获取所述用户的相关搜索意图。在一个示例中，当前用户输入的搜索请求为“去景点A的路线怎么走”，根据需求图谱中查找到与“景点A”关联的高频搜索需求为“景点A的订票方式”、“景点A的游览地图”等，则可以相应得出所述用户的相关搜索意图为“去景点A游览需要做的准备”，从而可以向用户推荐有关景点A门票预订、游客导览等方面的内容。因此，用户的相关搜索意图也可以理解为其潜在的搜索意图。

根据另一些实施例，所述获取所述用户的相关搜索意图包括：基于所述用户在同一会话进程中的搜索历史，获取所述用户的相关搜索意图。由此，能够基于用户的搜索历史更有针对性地获取所述用户的相关搜索意图。

例如，当所述用户输入的搜索请求为“去景点A的路线怎么走”，根据该用户的搜索历史，得到该用户在该会话进程中的搜索历史包括“去景点B的路线怎么走”、“去景点C的路线怎么走”等历史搜索信息，通过对所述历史搜索信息进行语义分析，可以得出所述用户的相关搜索意图为“查找某地的观光景点”，从而可以向用户推荐有关某地其他观光景点的内容。

以上通过两个具体实施例来描述如何获取用户的相关搜索意图，可以理解的，获取用户的相关搜索意图的方式并不局限于上述两种。例如，也可以基于该用户的关系图谱来获取该用户的相关搜索意图。

再例如，获取所述用户的相关搜索意图可以是通过对用户搜索请求进行结构化分析来实现的。结构化分析例如可以基于用户的意图图谱来实现。参见图6的示例，例如用户所输入的搜索信息为“发型”，相应地获取用户的搜索日志，对搜索日志进行挖掘建模，得到用户的意图图谱，并结合搜索请求分析的结果进行综合的计算机推理，从而获取用户的相关搜索意图，据此向用户推荐各个领域内符合其相关搜索意图的内容，例如美容时尚领域对应的“剪发好看的理发室”、物品商品领域的“自动剪发器”、教育培训领域的“美发培训”等内容。

在确定用户的搜索请求相应的相关搜索意图之后，执行步骤S202～步骤S204，以基于相关搜索意图相应的第二请求语义向量从搜索资源数据库中搜索相匹配的至少一个第二数据语义向量，并基于至少一个第二数据语义向量生成推荐结果。

根据一些实施例，所述至少一个第二数据语义向量中的每一个第二数据语义向量分别包括与相应的数据的语义相关性特征和感知相关性特征相关的维度。所述语义相关性特征用于描述相应数据的直接语义，所述感知相关性特征侧重与用户需求和兴趣相关的维度，由此，能够进一步提高推荐系统的准确性，更好地满足用户的潜在需求。

相应地，根据一些实施例，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。所述语义相关性特征用于描述所述搜索请求的直接语义，所述感知相关性特征侧重与用户需求和兴趣相关的维度，由此，能够进一步提高推荐系统的准确性，更好地满足用户的潜在需求。

例如，一个包含介绍公众人物A的内容的网页，其对应的数据语义向量中的语义相关性特征维度用于描述网页内容的直接语义。该网页对应的数据语义向量中的感知相关性特征维度则侧重于描述用户围绕公众人物A可能延伸的兴趣，例如用户可能会感兴趣公众人物A的夫人是谁、公众人物A有哪些作品等，感知相关性特征维度中即可包括相应的内容。由此，能够进一步提高推荐系统的准确性，更好地满足用户的潜在需求。

根据一些实施例中，用于用户的搜索请求召回的多个第一数据语义向量和用于用户的相关搜索意图召回的多个第二数据语义向量，两者可以完全相同，也可以部分相同，或者完全不同。也就是说，多个第一数据语义向量所对应的多个第一数据和多个第二数据语义向量所对应的多个第二数据，两者可以完全相同，也可以部分相同，或者完全不同。其中，与用户的搜索请求相匹配的一个或多个第一数据为从所述多个第一数据中来召回得到，与用户的相关搜索意图相匹配的一个或多个第二数据为从所述多个第二数据中来召回得到。

在一些实施例中，所述多个第二数据的数量小于所述多个第一数据的数量，以实现精准推荐，提升推荐效果，进而提升用户体验。

根据一些实施例，所述搜索资源数据库包括第一子库和仅用于所述相关搜索意图的第二子库，并且其中，所述第二子库中的数据量小于所述第一子库中的数据量。通过分设两个子库，能够使搜索和推荐各自的针对性更强，所述第一子库用于满足相关性搜索的大量召回需求，所述第二子库用于满足用户潜在需求的精准召回需求，从而能够更好地提升查询结果的质量，进一步提升用户体验。

示例性的，所述第一子库中的数据量可以为百亿或千亿量级，从而能够覆盖更多的内容资源，更全面地覆盖用户的内容需求。相应的，所述第二子库中的数据量可以为百万量级。

可以理解的，用于推荐的所述第二子库中的数据可以是按照预定的质量标准而选取的，从而能够为用户提供更高质量的推荐内容，更好地满足用户的延伸需求，提升用户体验。

示例性的，可以计算所述第二请求语义向量和所述搜索资源数据库中的各第二数据语义向量之间的相似度，并基于相似度得到与所述第二请求语义向量相匹配的至少一个第二数据语义向量。基于至少一个第二数据语义向量，可以获取每个第二数据语义向量所对应的第二数据，从而能够基于所述至少一个第二数据，生成推荐结果并展示给用户。

上述技术方案中，可以响应于用户的搜索请求，生成搜索结果，并且可以确定用户的相关搜索意图，生成推荐结果，从而能够精准满足用户的直接需求，同时还能扩展视野，满足用户的延伸需求。

根据一些实施例，如图3所示，步骤S103、基于所述至少一个第一数据语义向量，生成搜索结果包括：步骤S1031、获取所述至少一个第一数据语义向量对应的一个或多个第一数据；以及步骤S1032、基于第一排序逻辑对所述一个或多个第一数据进行排序，其中，所述第一排序逻辑基于相应数据的内容质量、发布时间和来源可信度中的至少一者。由此，能够更加关注搜索结果与搜索请求的相关性，生成更符合用户需求的搜索结果，提升用户体验。

根据一些实施例，如图4所示，步骤S204、基于所述至少一个第二数据语义向量，生成推荐结果包括：步骤S2041、获取所述至少一个第二数据语义向量对应的一个或多个第二数据；以及步骤S2042、基于与所述第一排序逻辑不同的第二排序逻辑对所述一个或多个第二数据进行排序，其中，所述第二排序逻辑基于相应数据的语义相关性特征和感知相关性特征。由此，能够更加关注用户的感知性和兴趣来获得推荐结果，生成更注重对潜在需求的感知的推荐结果，提升用户体验。

在上述两个实施例中，所述生成搜索结果和生成推荐结果基于不同的排序逻辑。所述第一排序逻辑更注重数据的语义相关性、内容质量、来源可信度等，能够得到与用户的直接搜索请求相关度更高的搜索结果。相应的，所述第二排序逻辑更侧重对用户潜在需求的感知，能够得到更符合用户的感知性和兴趣的推荐结果。可以理解的，通过利用两种不同的排序逻辑分别生成搜索结果和推荐结果，能够更好地满足用户的直接搜索需求和潜在搜索需求，提升用户体验。

根据一些实施例，如图3所示，步骤S103、基于所述至少一个第一数据语义向量，生成搜索结果还包括：步骤S1033、基于所述至少一个第一数据语义向量确定相应的一个或多个数据；以及，基于对相应的内容的理解，对所述一个或多个数据进行组织以生成所述搜索结果。由此，能够简化搜索结果，更精准地满足用户的需求。

例如，当用户输入的搜索请求为“景点A附近的美食”，所述一个或多个数据中包括“景点A附近的美食B的菜单”、“景点A附近的美食B的营业时间和地址”、“景点A附近的美食C的菜单”、“景点A附近的美食C的地址”等，基于对相应的内容的理解，可以将上述多个数据组织成“景点A附近的美食B的菜单、营业时间和地址”、“景点A附近的美食C的菜单和地址”并展示给用户，从而能够给用户提供更符合其需求的搜索结果，提升用户体验。

可以理解的，对一个或多个数据进行组织的方式并不局限于上述示例中的简单叠加方式，可以根据具体的应用场景来设计适配的组织方式，例如，当一个或多个数据为文本片段时，可以对一个或多个数据进行语义理解，并基于语义理解结果生成推荐结果。例如，一个文本片段用于描述某地的天气情况，包括温度、湿度、日照强度等等，可以基于对该文本片段的语义理解，生成“某地适合外出活动”的推荐结果。

根据一些实施例，如图5所示，所述搜索方法包括：步骤S501、对所述搜索请求进行结构化分析，以确定是否存在歧义；以及步骤S502、响应于确定存在歧义，向所述用户提供需要澄清的内容，步骤S503～步骤S505的功能和实现方式与图1中步骤S101～步骤S103相同，在此不再详述。由此，能够实现对用户搜索请求的澄清及对用户需求的引导。

通过对所述搜索请求进行结构化分析能够确定搜索请求是否清楚，不存在歧义。结构化分析例如可以基于知识图谱来实现。

继续参见图6的示例，对用户所输入的搜索信息“发型”进行结构化分析，结合基于大数据的知识图谱，进行综合的计算机推理，从而得到可以向所述用户提供的需要澄清的内容。可以得出，用户所输入的“发型”可能有多个角度的歧义，例如男士发型或女士发型、短发发型或长发发型、长脸发型或圆脸发型等，通过向用户提供需要澄清的内容，可以进一步明确引导用户的需求。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的另一方面，提供了一种数据搜索装置，参见图7，所述装置包括：用于将用户的搜索请求转换成第一请求语义向量的第一转换单元701；用于在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量的第一搜索单元702，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；以及用于基于所述至少一个第一数据语义向量生成搜索结果的第一生成单元703。由此，能够实现对不同类型、不同结构的数据的统一检索，提升搜索结果的多样性，提升用户体验。

可以理解的，所述第一请求语义向量与所述搜索资源数据库中的数据语义向量具有相同的规格，例如，当所述搜索资源数据库中的数据语义向量为1000维向量，则所述搜索请求应以相同的映射方式被转换为同样规格的1000维向量。示例性的，可以计算所述第一请求语义向量和所述搜索资源数据库中的各数据语义向量之间的相似度，基于相似度得到与所述第一请求语义向量相匹配的至少一个第一数据语义向量。基于至少一个第一数据语义向量，可以获取每个第一数据语义向量所对应的第一数据，进而能够基于所述至少一个第一数据，生成搜索结果并展示给用户。向量之间的相似度例如可以但不限于为余弦相似度。

基于此，根据一些实施例，如图8所示，所述数据搜索装置还包括：用于基于所述用户的搜索请求，获取所述用户的相关搜索意图的获取单元804；用于将所述相关搜索意图转换成第二请求语义向量的第二转换单元805；用于在所述搜索资源数据库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量的第二搜索单元806；以及用于基于所述至少一个第二数据语义向量，生成推荐结果的第二生成单元807。图8中的单元801～单元803与图7中的单元701～703的功能和实现方式相同，在此不再详述。由此，响应于用户的搜索请求，通过获取所述用户的相关搜索意图，并基于此进行推荐，使得针对用户输入的搜索请求的查询结果能够进一步满足用户的延伸需求，从而进一步提升用户体验。所述相关延伸意图可以有一个或多个。

根据一些实施例，所述用于基于所述用户的搜索请求获取所述用户的相关搜索意图的单元进一步被配置用于：基于需求图谱，获取所述用户的相关搜索意图。所述需求图谱中包含了基于大数据得到的搜索需求分布信息、搜索需求关联信息等，由此，能够更准确地获取所述用户的相关搜索意图。

例如，可以是通过根据用户的搜索请求查找与其关联的高频搜索需求来获取所述用户的相关搜索意图。在一个示例中，当前用户输入的搜索请求为“去景点A的路线怎么走”，根据需求图谱中查找到与“景点A”关联的高频搜索需求为“景点A的订票方式”、“景点A的游览地图”等，则可以相应得出所述用户的相关搜索意图为“去景点A游览需要做的准备”，从而可以向用户推荐有关景点A门票预订、游客导览等方面的内容。

根据另一些实施例，所述用于基于所述用户的搜索请求获取所述用户的相关搜索意图的单元进一步被配置用于：基于所述用户在同一会话进程中的搜索历史，获取所述用户的相关搜索意图。由此，能够基于用户的搜索历史更有针对性地获取所述用户的相关搜索意图。

相应地，根据一些实施例，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。所述语义相关性特征用于描述相应数据的直接语义，所述感知相关性特征侧重与用户需求和兴趣相关的维度，由此，能够进一步提高推荐系统的准确性，更好地满足用户的潜在需求。

示例性的，可以计算所述第二请求语义向量和所述搜索资源数据库中的各数据语义向量之间的相似度，并基于相似度得到与所述第二请求语义向量相匹配的至少一个第二数据语义向量。基于至少一个第二数据语义向量，可以获取每个第二数据语义向量所对应的第二数据，从而能够基于所述至少一个第二数据，生成推荐结果并展示给用户。

根据一些实施例，如图9所示，所述用于基于所述至少一个第一数据语义向量生成搜索结果的第一生成单元703还包括：用于获取所述至少一个第一数据语义向量对应的一个或多个第一数据的第一获取子单元7031；以及用于基于第一排序逻辑对所述一个或多个第一数据进行排序的第一排序单元7032，其中，所述第一排序逻辑基于相应数据的内容质量、发布时间和来源可信度中的至少一者。由此，能够更加关注搜索结果与搜索请求的相关性，生成更符合用户需求的搜索结果，提升用户体验。

根据一些实施例，如图10所示，所述用于基于所述至少一个第二数据语义向量生成推荐结果的第二生成单元807包括：用于获取所述至少一个第二数据语义向量对应的一个或多个第二数据的第二获取子单元8071；以及用于基于与所述第一排序逻辑不同的第二排序逻辑对所述一个或多个第二数据进行排序的第二排序子单元8072，其中，所述第二排序逻辑基于相应数据的语义相关性特征和感知相关性特征。由此，能够更加关注用户的感知性和兴趣来获得推荐结果，生成更注重对潜在需求的感知的推荐结果，提升用户体验。

根据一些实施例，如图9所示，所述用于基于所述至少一个第一数据语义向量生成搜索结果的第一生成单元703还包括：用于基于对相应的内容的理解，对所述一个或多个第一数据进行组织以生成所述搜索结果的组织子单元7033。由此，能够简化搜索结果，更精准地满足用户的需求。

例如，当用户输入的搜索请求为“景点A附近的美食”，所述多个数据中包括“景点A附近的美食B的菜单”、“景点A附近的美食B的营业时间和地址”、“景点A附近的美食C的菜单”、“景点A附近的美食C的地址”等，基于对相应的内容的理解，可以将上述多个数据组织成“景点A附近的美食B的菜单、营业时间和地址”、“景点A附近的美食C的菜单和地址”并展示给用户，从而能够给用户提供更符合其需求的搜索结果，提升用户体验。

根据一些实施例，如图11所示，数据搜索装置1100包括：用于对所述搜索请求进行结构化分析，以确定是否存在歧义的分析子单元1101；以及用于响应于确定存在歧义，向所述用户提供需要澄清的内容的提供子单元1102，单元1103～单元1105的功能和实现方式与图7中单元701～单元703相同，在此不再详述。由此，能够实现对用户搜索请求的澄清及对用户需求的引导。

参见图6的示例，对用户所输入的搜索信息“发型”进行结构化分析，结合基于大数据的知识图谱，进行综合的计算机推理，从而得到可以向所述用户提供的需要澄清的内容。可以得出，用户所输入的“发型”可能有多个角度的歧义，例如男士发型或女士发型、短发发型或长发发型、长脸发型或圆脸发型等，通过向用户提供需要澄清的内容，可以进一步明确引导用户的需求。

根据本公开的另一方面，如图12所示，还提供一种基于预训练语言模型的搜索系统1200，包括：召回模型1201，所述召回模型1201被配置为将用户的搜索请求转换成第一语义向量，并在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量；以及排序模型1202，所述排序模型1202被配置为依次确定所述搜索请求与与所述至少一个第一数据语义向量对应的一个或多个第一数据之间的相似度，以对所述一个或多个第一数据进行排序。所述召回模型和所述排序模型级联组成端到端的深度神经网络基础模型。由此，能够实现对不同类型、不同结构的数据的统一检索，提升搜索结果的多样性，提升用户体验。

示例性的，所述召回模型可以是基于双编码器构造，所述排序模型可以是基于交叉编码器构造的。参见图15，其中示出了基于交叉编码器构造的模型结构示意图与基于双编码器构造的模型结构示意图。将question语句(即用户输入的搜索请求)和passage语句(即搜索资源数据库中的数据)输入基于双编码器构造的召回模型，所述两个语句被传入两个独立的编码网络，该两个编码网络可以为相同的网络。该两个编码网络分别输出两个语句对应的语义向量E_q(q)和E_p(p)，从而可以基于语义向量进行相似度计算。基于相似度，得到与question语句相匹配的一个或多个passage语句。

将question语句和召回模型召回的一个或多个passage语句输入基于交叉编码器构造的推荐模型，输出question语句和一个或多个passage语句之间的相似分数。基于相似分数，对一个或多个passage语句进行排序。其中，输入推荐模型为question语句和召回的一个或多个passage语句各自相应的语义向量。

可以理解的，上述模型结构仅是对本公开所述召回模型和排序模型的结构的示例，所述召回模型和排序模型也可以是基于其他构造的模型。

根据一些实施例，如图13所示，所述搜索系统还包括：相关搜索意图获取模型1303，所述相关搜索意图获取模型1303被配置为基于输入的所述搜索请求，获取所述用户的相关搜索意图。

根据一些实施例，如图13所示的搜索系统，其中，召回模型1301被进一步配置为：将所述相关搜索意图转换成第二请求语义向量；以及在所述搜索资源数据库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量。

由此，响应于用户的搜索请求，通过获取所述用户的相关搜索意图，并基于此进行搜索和推荐，使得查询结果能够进一步满足用户的延伸需求，从而进一步提升用户体验。所述潜在的延伸意图可以有一个或多个。

根据一些实施例，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。所述语义相关性特征用于描述相应数据的直接语义，所述感知相关性特征侧重与用户需求和兴趣相关的维度，由此，能够进一步提高推荐系统的准确性，更好地满足用户的潜在需求。

根据一些实施例，如图14所示，所述基于预训练语言模型的搜索系统1400还包括：推荐模型1404，所述推荐模型1404被配置为依次确定所述相关搜索意图与与所述至少一个第二数据语义向量对应的一个或多个第二数据之间的相似度，以对所述一个或多个第二数据进行排序。

根据一些实施例，如图14所示，所述基于预训练语言模型的搜索系统1400还包括：搜索结果生成模型1405，所述搜索结果生成模型被配置为基于对相应的内容的理解，对所述一个或多个第一数据进行组织以生成搜索结果。由此，能够简化搜索结果，更精准地满足用户的需求。

根据一些实施例，如图14所示，所述基于预训练语言模型的搜索系统1400还包括：推荐结果生成模型1406，所述推荐结果生成模型被配置为基于对相应的内容的理解，对所述一个或多个第二数据进行组织以生成推荐结果。由此，能够简化推荐结果，更精准地满足用户的需求。

根据一些实施例，所述搜索系统还包括：歧义消除模型，所述歧义消除模型被配置为：对所述搜索请求进行结构化分析，以确定是否存在歧义；以及响应于确定存在歧义，向所述用户提供需要澄清的内容。由此，能够实现对用户搜索请求的澄清及对用户需求的引导。通过对所述搜索请求进行结构化分析能够确定搜索请求是否清楚，不存在歧义。结构化分析例如可以基于知识图谱来实现。

图16示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的工作过程示意图。其中，箭头示出了信号流的方向，实线箭头示出了在线搜索与推荐的工作过程，虚线箭头示出了构建统一资源数据库的工作过程。

在描述搜索系统的工作过程之前，先描述搜索系统所使用的数据库的构建。

参见图16所示，统一资源数据库中的数据可以是通过数据抓取、数据接入、数据生成等方式获得的，其中，数据抓取可以具体为利用计算机程序自动提取网页数据的方式，数据接入可以具体为接入现有数据库的方式，数据生成可以具体为基于用户的搜索需求指导第三方内容生产并接入的方式。各种方式获得的数据均被转换成统一的数据格式，再存入统一资源数据库中，用于后续处理流程。

统一资源数据库的数据所对应的统一的数据结构例如可以是由键-值元组构成的，键是数据的属性，值是数据的值。所述键-值元组可以包括公共类型和特殊类型。所述公共类型的键-值元组可以覆盖不同类型、不同来源的数据所共有的属性，如标题、摘要、统一资源定位符(URL)、时间等。所述特殊类型的键-值元组可以覆盖不同类型、不同来源的数据所独有的属性，例如视频类型数据可以包括分辨率属性等。

不同类型、不同来源的数据可以通过多源异构数据统一语义表示模型被转换为具有统一规格的数据语义向量，并存入搜索资源数据库。

根据每一个数据语义向量，可以从统一资源数据库中获取其对应的数据。例如，可以为每一个数据设置唯一标识，搜索资源数据库中可以存储每一个数据语义向量和相应的数据的唯一标识之间的对应关系，统一资源数据库可以存储每一个数据和相应的唯一标识之间的对应关系，从而实现统一资源数据库和搜索资源数据库的关联，能够基于与搜索请求匹配的至少一个数据语义向量来获取相应的一个或多个数据。

根据一些实施例，可以通过内容质量评分模型对统一资源数据库中的每个数据进行内容质量评分，增加数据的内容质量评分信息的维度，并存储在统一资源数据库中。相应地，还可以增加每个数据的发布时间、来源可信度等信息的维度，并存储在统一资源数据库中。

根据一些实施例，可以利用内容细粒度划分模型，根据语义对原始的完整数据进行细粒度划分，统一资源数据库中的数据为细粒度划分后的数据。例如，针对一个包含多个段落的网页文本数据，可以通过语义理解将其划分成具有不同语义特征的多个文本片段，将多个文本片段分别存储在统一资源数据库中。进一步地，可以通过多源异构数据统一语义表示模型将每个文本片段转换成相应的数据语义向量，并存储在搜索资源数据库中。

继续参见图16，搜索系统的工作过程如下：

步骤S11、响应于用户输入的搜索请求，可以通过歧义消除模型对所述搜索请求进行结构化分析，以确定是否存在歧义，从而可以向所述用户提供需要澄清的内容，实现对用户搜索请求的澄清及对用户需求的引导；

搜索请求可以具体包括用户输入的搜索信息以及与搜索信息相关的上下文信息，与搜索信息相关的上下文信息例如可以包括时间、地点、设备、所述用户的前序搜索等。

步骤S12、利用所述多源异构数据统一语义表示模型，将用户的搜索请求转换成第一请求语义向量，并利用召回模型在搜索资源数据库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量；

具体可以是通过计算所述第一请求语义向量与搜索资源数据库中的数据语义向量的相似度得到与所述请求语义向量相匹配的至少一个第一数据语义向量。

步骤S13、从统一资源数据库中获取所述至少一个第一数据语义向量相应的一个或多个第一数据；

步骤S14、将所述一个或多个第一数据和用户输入的搜索请求输入排序模型，以计算所述一个或多个第一数据和搜索请求之间的相似分数，并基于相似分数对一个或多个第一数据进行排序；

所述一个或多个第一数据和搜索请求可以包括以下各项维度中的至少一者：语义相关性、内容质量、权威性等。

步骤S15、利用搜索结果生成模型，基于一个或多个第一数据生成推荐结果；

搜索结果生成模型可以基于对相应内容的理解对所述第一数据进行组织，进而生成搜索结果。

步骤S16、利用相关搜索意图获取模型，基于所述搜索请求获取用户的相关搜索意图；

步骤S17、利用所述多源异构数据统一语义表示模型，将用户的相关搜索意图转换成第二请求语义向量，并利用召回模型在搜索资源数据库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量；

具体可以是通过计算所述第二请求语义向量与搜索资源数据库中的数据语义向量的相似度得到与所述请求语义向量相匹配的至少一个第二数据语义向量。

推荐所利用的召回模型可以与搜索所利用的召回模型为同一模型，也可以为利用不同召回逻辑所构建的不同模型。

步骤S18、从统一资源数据库中获取所述至少一个第二数据语义向量相应的一个或多个第二数据；

步骤S19、将一个或多个第二数据和用户输入的搜索请求相应的相关搜索意图输入推荐模型，以计算所述一个或多个第二数据和相关搜索意图之间的相似分数，并基于相似分数对一个或多个第二数据进行排序；

所述推荐模型的排序逻辑可以是基于相应数据的语义相关性、感知相关性等多个维度，所述感知相关性维度更注重对用户潜在需求和兴趣的感知，从而能够生成更贴近用户需求和兴趣的搜索结果。

步骤S20、利用推荐结果生成模型，基于一个或多个第二数据生成推荐结果。

根据本公开的另一方面，还提供一种基于预训练语言模型的搜索系统的训练方法，其中，所述搜索系统包括由召回模型和排序模型级联组成的端到端深度神经网络基础模型，并且其中，所述召回模型基于双编码器构造，所述排序模型基于交叉编码器构造。

图17示出了根据本公开示例性实施例的基于预训练语言模型的搜索系统的训练方法，如图17所示，所述方法包括：步骤S1701、接收样本数据集，所述样本数据集中的样本数据包括样本搜索请求和第一目标输出数据集；步骤S1702、初始化所述召回模型和所述排序模型中的多个参数；对于每一个样本数据，执行如下操作：步骤S1703、由所述召回模型中的第一编码器将该样本数据中的样本搜索请求转换为第一请求语义向量；步骤S1704、由所述召回模型中的第二编码器分别将不同类型的多个候选数据转换成相应的多个第一数据语义向量，其中，所述不同类型的多个候选数据至少包括文本、图片和视频，并且其中，所述多个第一数据语义向量具有统一规格；步骤S1705、分别计算所述第一请求语义向量和所述多个第一数据语义向量之间的第一相似度，从而选择出第一数量的第一数据语义向量，其中，所述第一数量的第一数据语义向量与所述第一请求语义向量的第一相似度均满足预设条件；步骤S1706、依次将所述样本搜索请求和与所述第一数量的第一数据语义向量中的每一个第一数据语义向量相对应的候选数据作为第一联合输入值输入到所述排序模型的交叉编码器中，以对分别与所述第一数量的第一数据语义向量相对应的候选数据进行排序；步骤S1707、基于经排序的候选数据和所述第一目标输出数据集，计算损失函数；以及步骤S1708、基于所述损失函数调整所述召回模型和所述排序模型中的多个参数。向量之间的相似度例如可以但不限于为余弦相似度。

根据一些实施例，除了文本、图片和视频，所述不同类型的多个候选数据至少还包括表格和知识图谱。可以理解的，所述不同类型的数据也可以进一步包括其他类型的数据，例如地图、动画等，更多类型的数据能够进一步丰富搜索资源数据库，从而能够进一步提升搜索结果的多样性，更好地满足用户需求，提升用户体验。

根据一些实施例，所述不同类型的多个候选数据中的至少一个文本或视频数据是通过对原始的完整数据进行细粒度划分获得的。由此，能够实现对数据内容更深入的理解，进而实现细粒度索引，得到更符合用户需求的搜索结果。

根据一些实施例，所述多个第一数据语义向量中的每一个数据语义向量包括与相应的候选数据的内容质量相关的维度。所述与相应数据的内容质量相关的维度可以是相应数据的内容质量评分，但不限于此。由此，能够使利用所述方法训练的搜索系统进一步考虑数据的内容质量，提升搜索结果的质量。

根据一些实施例，所述多个第一数据语义向量中的每一个数据语义向量包括与相应的候选数据的发布时间相关的维度。所述与相应数据的发布时间相关的维度可以是相应数据的发布时间，但不限于此。由此，能够使利用所述方法训练的搜索系统进一步考虑数据的时效性，提升搜索结果的质量。

根据一些实施例，所述多个第一数据语义向量中的每一个数据语义向量包括与相应的候选数据的来源可信度相关的维度。所述与相应数据的来源可信度相关的维度可以是相应数据的来源网站类型及对应网站类型的可信度，但不限于此。由此，能够使利用所述方法训练的搜索系统进一步考虑数据的权威性，提升搜索结果的质量。

基于同样的原理，根据一些实施例，所述第一请求语义向量包括与所述用户的搜索相关的上下文信息，所述上下文信息包括时间、地点和所述用户的前序搜索中的至少一个。由此，能够进一步提高利用所述方法训练的搜索系统的搜索准确性。

根据一些实施例，所述第一联合输入值包括相应的候选数据的内容质量、发布时间和来源可信度中的至少一者。由此，可以在排序过程中充分考虑候选数据的内容质量、发布时间、来源可信度等内容，从而得到更高质量的排序结果，进而令利用所述方法训练的搜索系统能够生成更符合用户需求的搜索结果，提升用户体验。

根据一些实施例，所述系统还包括推荐模型，并且其中，所述样本数据集中的样本数据还包括第二目标输出数据集，所述训练方法还包括：初始化所述推荐模型中的多个参数；对于每一个样本数据，执行如下操作：依次将所述样本搜索请求和与所述第一数量的第一数据语义向量中的每一个第一数据语义向量相对应的候选数据作为第二联合输入值输入到所述推荐模型的交叉编码器中，以对分别与所述第一数量的第一数据语义向量相对应的候选数据进行排序；基于经排序的候选数据和所述第二目标输出数据集，计算损失函数；以及基于所述损失函数调整所述目标模型和所述推荐模型中的多个参数。

根据一些实施例，所述第二联合输入值包括相应的候选数据的语义相关性特征和感知相关性特征。所述语义相关性特征用于描述候选数据的直接语义，所述感知相关性特征侧重与用户需求和兴趣相关的维度。由此，能够进一步提升利用所述方法训练的推荐模型的准确性，更好地满足用户的潜在需求。

例如，一个包含介绍公众人物A的内容的网页，其对应的数据语义向量中的语义相关性特征维度用于描述网页内容的直接语义。该网页对应的数据语义向量中的感知相关性特征维度则侧重于描述用户围绕公众人物A可能延伸的兴趣，例如用户可能会感兴趣公众人物A的夫人是谁、公众人物A有哪些作品等，感知相关性特征维度中即可包括相应的内容。由此，能够进一步提高利用所述方法训练的搜索系统的准确性，更好地满足用户的潜在需求。

根据本公开的另一方面，还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

根据本公开的另一方面，还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

参考图18，现将描述可以作为本公开的服务器或客户端的电子设备1800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图18所示，设备1800包括计算单元1801，其可以根据存储在只读存储器(ROM)1802中的计算机程序或者从存储单元1808加载到随机访问存储器(RAM)1803中的计算机程序，来执行各种适当的动作和处理。在RAM 1803中，还可存储设备1800操作所需的各种程序和数据。计算单元1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出(I/O)接口1805也连接至总线1804。

设备1800中的多个部件连接至I/O接口1805，包括：输入单元1806、输出单元1807、存储单元1808以及通信单元1809。输入单元1806可以是能向设备1800输入信息的任何类型的设备，输入单元1806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1808可以包括但不限于磁盘、光盘。通信单元1809允许设备1800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1801执行上文所描述的各个方法和处理，例如上述搜索方法或基于预训练语言模型的搜索系统的训练方法。例如，在一些实施例中，上述搜索方法或基于预训练语言模型的搜索系统的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1802和/或通信单元1809而被载入和/或安装到设备1800上。当计算机程序加载到RAM 1803并由计算单元1801执行时，可以执行上文描述的搜索方法或基于预训练语言模型的搜索系统的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述搜索方法或基于预训练语言模型的搜索系统的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种搜索方法，包括：

将用户的搜索请求转换成第一请求语义向量；

在搜索资源数据库所包括的第一子库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；

基于所述至少一个第一数据语义向量，生成搜索结果；

基于所述用户的搜索请求，获取所述用户的相关搜索意图，包括：

基于需求图谱，查找与所述搜索请求关联的多个高频搜索需求，所述需求图谱包括基于大数据得到的搜索需求分布信息和搜索需求关联信息；以及

基于所述多个高频搜索需求，得到所述相关搜索意图，其中，所述相关搜索意图包括与所述用户的搜索请求相关的另一搜索请求的搜索意图；

将所述相关搜索意图转换成第二请求语义向量；

在所述搜索资源数据库所包括的第二子库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量，其中，所述至少一个第二数据语义向量是由一个或多个第二数据转换而得到的，所述一个或多个第二数据包括文本、图片和视频中的至少一个，所述第二子库仅用于所述相关搜索意图，并且所述第二子库中的数据量小于所述第一子库中的数据量；以及

基于所述至少一个第二数据语义向量，生成推荐结果，包括：

获取所述至少一个第二数据语义向量对应的所述一个或多个第二数据；以及

基于所述一个或多个第二数据，生成所述推荐结果。

2.如权利要求1所述的方法，其中，所述第二子库中的数据是按照预定的质量标准而选取的。

3.如权利要求1所述的方法，其中，所述生成搜索结果包括：

获取所述至少一个第一数据语义向量对应的一个或多个第一数据；以及

基于第一排序逻辑对所述一个或多个第一数据进行排序，其中，所述第一排序逻辑基于相应数据的内容质量、发布时间和来源可信度中的至少一者。

4.如权利要求3所述的方法，其中，所述生成推荐结果包括：

基于与所述第一排序逻辑不同的第二排序逻辑对所述一个或多个第二数据进行排序，其中，所述第二排序逻辑基于相应数据的语义相关性特征和感知相关性特征。

5.如权利要求3所述的方法，其中，所述生成搜索结果还包括：

基于对相应的内容的理解，对所述一个或多个第一数据进行组织以生成所述搜索结果。

6.如权利要求1至5中任一项所述的方法，还包括：

对所述搜索请求进行结构化分析，以确定是否存在歧义；以及

响应于确定存在歧义，向所述用户提供需要澄清的内容。

7.如权利要求1至5中任一项所述的方法，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的内容质量相关的维度。

8.如权利要求1至5中任一项所述的方法，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的发布时间相关的维度。

9.如权利要求1至5中任一项所述的方法，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的来源可信度相关的维度。

10.如权利要求1至5中任一项所述的方法，其中，所述至少一个第二数据语义向量中的每一个第二数据语义向量分别包括与相应的数据的语义相关性特征和感知相关性特征相关的维度。

11.如权利要求1至5中任一项所述的方法，其中，所述第一请求语义向量包括与所述用户的搜索相关的上下文信息，所述上下文信息包括时间、地点、终端设备和所述用户的前序搜索中的至少一个。

12.如权利要求1至5中任一项所述的方法，其中，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。

13.如权利要求1至5中任一项所述的方法，其中，所述不同类型的数据至少还包括表格和知识图谱。

14.如权利要求1至5中任一项所述的方法，其中，所述不同类型的数据中的至少一个文本或视频数据是通过对原始的完整数据进行细粒度划分获得的。

15.如权利要求1至5中任一项所述的方法，其中，由所述不同类型的数据转换成的数据语义向量具有统一规格。

16.一种搜索装置，包括：

用于将用户的搜索请求转换成第一请求语义向量的单元；

用于在搜索资源数据库所包括的第一子库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量的单元，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；

用于基于所述至少一个第一数据语义向量生成搜索结果的单元；

用于基于所述用户的搜索请求，获取所述用户的相关搜索意图的单元，包括：

用于基于需求图谱，查找与所述搜索请求关联的多个高频搜索需求，所述需求图谱包括基于大数据得到的搜索需求分布信息和搜索需求关联信息的单元；以及

用于基于所述多个高频搜索需求，得到所述相关搜索意图的单元，其中，所述相关搜索意图包括与所述用户的搜索请求相关的另一搜索请求的搜索意图；

用于将所述相关搜索意图转换成第二请求语义向量的单元；

用于在所述搜索资源数据库所包括的第二子库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量的单元，其中，所述至少一个第二数据语义向量是由一个或多个第二数据转换而得到的，所述一个或多个第二数据包括文本、图片和视频中的至少一个，所述第二子库仅用于所述相关搜索意图，并且所述第二子库中的数据量小于所述第一子库中的数据量；以及

用于基于所述至少一个第二数据语义向量生成推荐结果的单元，包括：

用于获取所述至少一个第二数据语义向量对应的所述一个或多个第二数据的单元；以及

用于基于所述一个或多个第二数据，生成所述推荐结果的单元。

17.如权利要求16所述的装置，其中，所述第二子库中的数据是按照预定的质量标准而选取的。

18.如权利要求16所述的装置，其中，所述用于基于所述至少一个第一数据语义向量生成搜索结果的单元还包括：

用于获取所述至少一个第一数据语义向量对应的一个或多个第一数据的单元；以及

用于基于第一排序逻辑对所述一个或多个第一数据进行排序的单元，其中，所述第一排序逻辑基于相应数据的内容质量、发布时间和来源可信度中的至少一者。

19.如权利要求18所述的装置，其中，所述用于基于所述至少一个第二数据语义向量生成推荐结果的单元包括：

用于基于与所述第一排序逻辑不同的第二排序逻辑对所述一个或多个第二数据进行排序的单元，其中，所述第二排序逻辑基于相应数据的语义相关性特征和感知相关性特征。

20.如权利要求16至19中任一项所述的装置，其中，所述用于基于所述至少一个第一数据语义向量生成搜索结果的单元还包括：

用于基于对相应的内容的理解，对所述一个或多个第一数据进行组织以生成所述搜索结果的单元。

21.如权利要求16至19中任一项所述的装置，还包括：

用于对所述搜索请求进行结构化分析，以确定是否存在歧义的单元；以及

用于响应于确定存在歧义，向所述用户提供需要澄清的内容的单元。

22.如权利要求16至19中任一项所述的装置，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的内容质量相关的维度。

23.如权利要求16至19中任一项所述的装置，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的发布时间相关的维度。

24.如权利要求16至19中任一项所述的装置，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的来源可信度相关的维度。

25.如权利要求16至19中任一项所述的装置，其中，所述至少一个第二数据语义向量中的每一个第二数据语义向量分别包括与相应的数据的语义相关性特征和感知相关性特征相关的维度。

26.如权利要求16至19中任一项所述的装置，其中，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。

27.如权利要求16至19中任一项所述的装置，其中，所述第一请求语义向量包括与所述用户的搜索相关的上下文信息，所述上下文信息包括时间、地点、终端设备和所述用户的前序搜索中的至少一个。

28.如权利要求16至19中任一项所述的装置，其中，所述不同类型的数据至少还包括表格和知识图谱。

29.如权利要求16至19中任一项所述的装置，其中，所述不同类型的数据中的至少一个文本或视频数据是通过对原始的完整数据进行细粒度划分获得的。

30.如权利要求16至19中任一项所述的装置，其中，由所述不同类型的数据转换成的数据语义向量具有统一规格。

31.一种基于预训练语言模型的搜索系统，包括：

召回模型，所述召回模型被配置为将用户的搜索请求转换成第一请求语义向量，并在搜索资源数据库所包括的第一子库中搜索与所述第一请求语义向量相匹配的至少一个第一数据语义向量，其中，所述搜索资源数据库被构造为语义向量空间，在所述语义向量空间中，不同类型的数据被转换成对应的数据语义向量，并且其中，所述不同类型的数据至少包括文本、图片和视频；

排序模型，所述排序模型被配置为依次确定所述搜索请求和与所述至少一个第一数据语义向量对应的一个或多个第一数据之间的相似度，以对所述一个或多个第一数据进行排序；以及

相关搜索意图获取模型，所述相关搜索意图获取模型被配置为基于输入的所述搜索请求，获取所述用户的相关搜索意图，包括：

其中，所述召回模型和所述排序模型级联组成端到端的深度神经网络基础模型，其中，所述召回模型被进一步配置为：

将所述相关搜索意图转换成第二请求语义向量；以及

在所述搜索资源数据库所包括的第二子库中搜索与所述第二请求语义向量相匹配的至少一个第二数据语义向量，其中，所述至少一个第二数据语义向量是由一个或多个第二数据转换而得到的，所述一个或多个第二数据包括文本、图片和视频中的至少一个，所述第二子库仅用于所述相关搜索意图，并且所述第二子库中的数据量小于所述第一子库中的数据量。

32.如权利要求31所述的搜索系统，还包括：

推荐模型，所述推荐模型被配置为依次确定所述相关搜索意图和与所述至少一个第二数据语义向量对应的一个或多个第二数据之间的相似度，以对所述一个或多个第二数据进行排序。

33.如权利要求31所述的搜索系统，还包括：

搜索结果生成模型，所述搜索结果生成模型被配置为基于对相应的内容的理解，对所述一个或多个第一数据进行组织以生成搜索结果。

34.如权利要求32或33所述的搜索系统，还包括：

推荐结果生成模型，所述推荐结果生成模型被配置为基于对相应的内容的理解，对所述一个或多个第二数据进行组织以生成推荐结果。

35.如权利要求31至33中任一项所述的搜索系统，还包括：

歧义消除模型，所述歧义消除模型被配置为：

响应于确定存在歧义，向所述用户提供需要澄清的内容。

36.如权利要求31至33中任一项所述的搜索系统，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的内容质量相关的维度。

37.如权利要求31至33中任一项所述的搜索系统，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的发布时间相关的维度。

38.如权利要求31至33中任一项所述的搜索系统，其中，所述语义向量空间中的每一个数据语义向量包括与相应数据的来源可信度相关的维度。

39.如权利要求31至33中任一项所述的搜索系统，其中，所述至少一个第二数据语义向量中的每一个第二数据语义向量分别包括与相应的数据的语义相关性特征和感知相关性特征相关的维度。

40.如权利要求31至33中任一项所述的搜索系统，其中，所述第一请求语义向量包括与所述用户的搜索相关的上下文信息，所述上下文信息包括时间、地点、终端设备和所述用户的前序搜索中的至少一个。

41.如权利要求31至33中任一项所述的搜索系统，其中，所述第二请求语义向量分别包括与所述搜索请求的语义相关性特征和感知相关性特征相关的维度。

42.如权利要求31至33中任一项所述的搜索系统，其中，所述不同类型的数据至少还包括表格和知识图谱。

43.如权利要求31至33中任一项所述的搜索系统，其中，所述不同类型的数据中的至少一个文本或视频数据是通过对原始的完整数据进行细粒度划分获得的。

44.如权利要求31至33中任一项所述的搜索系统，其中，由所述不同类型的数据转换成的数据语义向量具有统一规格。

45.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至15中任一项所述的方法。

46.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1至15中任一项所述的方法。