CN115269785A

CN115269785A - 搜索方法、装置、计算机设备和存储介质

Info

Publication number: CN115269785A
Application number: CN202210996284.9A
Authority: CN
Inventors: 祝福松; 常宁航; 金华锋; 曹哲
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-11-01

Abstract

本申请涉及一种搜索方法、装置、计算机设备和存储介质。所述方法包括：响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到所述搜索信息的搜索结果；其中，所述候选数据集根据原始数据集中的相似数据对的数据关注度，对所述原始数据集进行去重处理后得到；输出所述搜索结果。采用本方法能够高效且低冗余的获取搜索结果。

Description

搜索方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种搜索方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的不断发展，搜索平台得到了大力推广，为用户的搜索提供了便利。

目标已有的搜索平台通常是基于用户提供的搜索信息，从平台的所有可搜索数据中进行搜索，以获取搜索结果。然而，这种搜索方式存在搜索效率低等问题，亟需改进。

发明内容

基于此，有必要针对上述技术问题，提供一种能够高效且低冗余的获取搜索结果的搜索方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种搜索方法。所述方法包括：

响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到所述搜索信息的搜索结果；其中，所述候选数据集根据原始数据集中的相似数据对的数据关注度，对所述原始数据集进行去重处理后得到；

输出所述搜索结果。

在其中一个实施例中，所述响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到所述搜索信息的搜索结果，包括：

响应于所述搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到所述搜索语句的搜索结果；其中，所述候选文本集根据原始文本集中的相似文本对的文本关注度，对所述原始文本集进行去重处理后得到。

在其中一个实施例中，所述根据原始文本集中的相似文本对的文本关注度，对所述原始文本集进行去重处理，包括：

根据所述原始文本集中不同原始文本之间的距离，从所述原始文本集中提取相似文本对；

根据所述相似文本对中每一相似文本的文本关注度，从所述相似文本对中确定待剔除文本；

从所述原始文本集中剔除所述待剔除文本，得到所述候选文本集。

在其中一个实施例中，所述根据所述相似文本对中每一相似文本的文本关注度，从所述相似文本对中确定待剔除文本，包括：

对所述相似文本对进行聚类，得到相似文本集；

根据所述相似文本集中每一相似文本的文本关注度，从所述相似文本集中确定所述待剔除文本。

在其中一个实施例中，针对每一相似文本，所述相似文本的文本关注度包括：所述相似文本的被浏览量和/或被点赞量。

在其中一个实施例中，所述响应于所述搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到所述搜索语句的搜索结果，包括：

对所述搜索语句进行扩展，得到所述搜索语句的相似语句；

根据所述相似语句，从所述候选文本集中进行搜索，得到所述相似语句的目标文本集；

根据所述相似语句的目标文本集，确定所述搜索语句的搜索结果。

在其中一个实施例中，所述对所述搜索语句进行扩展，得到所述搜索语句的相似语句，包括：

将所述搜索语句输入相似语句生成模型，得到所述相似语句，以及所述搜索语句与所述相似语句之间的第一相似度。

在其中一个实施例中，所述根据所述相似语句，从所述候选文本集中进行搜索，得到所述相似语句的目标文本集，包括：

根据所述相似语句，从预设的倒排索引中搜索与所述相似语句相似的目标关键词；其中，所述倒排索引包括各个候选关键词与所述候选文本集中候选文本之间的对应关系，所述候选关键词从所述候选文本集中提取；

根据所述目标关键词，从所述倒排索引中确定所述目标关键词对应的候选文本，并基于所述目标关键词对应的候选文本确定所述相似语句的目标文本集。

在其中一个实施例中，所述根据所述相似语句的目标文本集，确定所述搜索语句的搜索结果，包括：

根据所述搜索语句与所述相似语句之间的第一相似度，以及所述目标关键词与所述目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定所述相似语句与所述目标文本集中各个目标文本之间的第三相似度；

根据所述第三相似度，对所述目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为所述搜索语句的搜索结果。

在其中一个实施例中，所述根据所述第三相似度，对所述目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为所述搜索语句的搜索结果，包括：

根据所述第三相似度，确定所述搜索语句与所述目标文本集中各个目标文本之间的第四相似度；

根据所述第四相似度，对所述目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为所述搜索语句的搜索结果。

在其中一个实施例中，所述根据所述搜索语句与所述相似语句之间的第一相似度，以及所述目标关键词与所述目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定所述相似语句与所述目标文本集中各个目标文本之间的第三相似度，包括：

根据所述第一相似度和所述第二相似度的乘积，确定所述第三相似度。

在其中一个实施例中，若所述相似语句的数量为至少两个，则所述根据所述相似语句，从所述候选文本集中进行搜索，得到所述相似语句的目标文本集，包括：

确定各相似语句的搜索顺序；

按照所述搜索顺序，依次从所述候选文本集中搜索各相似语句的目标文本集；其中，在每次搜索过程中，跳过所述候选文本集中已搜索过的相似语句的目标文本。

在其中一个实施例中，所述候选文本集中的候选文本为业务工单文本。

第二方面，本申请还提供了一种搜索装置。所述装置包括：

搜索模块，用于响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到所述搜索信息的搜索结果；其中，所述候选数据集根据原始数据集中的相似数据对的数据关注度，对所述原始数据集进行去重处理后得到；

输出模块，用于输出所述搜索结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

输出所述搜索结果。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

输出所述搜索结果。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

输出所述搜索结果。

上述搜索方法、装置、计算机设备、存储介质和计算机程序产品，在获取到搜索需求方提供的搜索信息的情况下，通过从基于原始数据集中相似数据对的数据关注度对原始数据集进行去重处理后的候选数据集中搜索，可得到搜索信息对应的搜索结果，并进行展示。上述方案，通过基于原始数据集中相似数据对的数据关注度，对原始数据集进行去重，可降低候选数据集中数据的冗余量，进而从候选数据集中进行搜索，可降低搜索结果中数据的重复量，同时还可提高搜索效率。

附图说明

图1为一个实施例中搜索方法的应用环境图；

图2为一个实施例中搜索方法的流程示意图；

图3为一个实施例中对原始文本集进行去重处理的流程示意图；

图4为一个实施例中确定搜索结果的流程示意图；

图5为另一个实施例中搜索方法的流程示意图；

图6为一个实施例中搜索方法的原理示意图；

图7为一个实施例中搜索装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的搜索方法，可以适用于如图1所示的系统架构中。如图1所示，该系统架构包括终端102和服务器104。其中，本实施例的方法可以应用于图1所示的服务器中，也可以应用于算力比较强大的终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，例如服务器可获取搜索需求方在终端所展示的搜索界面中输入的搜索信息，通过从基于原始数据集中相似数据对的数据关注度对原始数据集进行去重处理后的候选数据集中搜索，可得到搜索信息对应的搜索结果，并通过终端向搜索需求方展示。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种搜索方法，以该方法应用于图1所示的服务器为例进行说明。本实施例可以适用于从大量数据中搜索用户所需数据的场景。该方法包括以下步骤：

S202，响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到搜索信息的搜索结果。

其中，所谓搜索需求方即为具有搜索需求的任一方；搜索信息即为搜索需求方在服务器所提供的搜索界面中输入的信息，具体可以为服务器可支持搜索的任一形式的信息。该搜索信息也可以是服务器从外部设备获取的搜索信息，例如，搜索需求方在终端上输入搜索信息，终端将该搜索信息发送给服务器。可选的，上述搜索信息可以是搜索需求方以语音方式输入的搜索语音，还可以是以文本方式输入的搜索语句，或者还可以是以图像方式输入的搜索图像等。

候选数据集是对原始数据集进行去重处理后的数据集。其中，原始数据集为服务器所提供的可用于搜索的所有数据的集合，比如音乐搜索场景下，原始数据集可以是所有可供搜索的音乐的集合，又如银行工单搜索场景下，原始数据集可以是所有可供搜索的业务工单文本的集合。

需要说明的是，通常情况下，原始数据集中包含大量的重复或者相似度较高的数据，本实施例对原始数据集进行去重处理，可得到低冗余的候选数据集。可选的，对原始数据集进行去重处理，以得到候选数据集，可以是根据原始数据集中的相似数据对的数据关注度，对原始数据集进行去重处理后得到候选数据集。其中，所谓相似数据对由两个相似或相关的原始数据组成；相似数据对中每一原始数据的数据关注度用于表征该原始数据被用户所关注的程度。具体的，可以先从原始数据集中提取两两相似的原始数据，即相似数据对；之后，对于每一相似数据对，可以将该相似数据对中数据关注度低的原始数据剔除，至此可得到候选数据集。

具体的，搜索需求方在具有搜索需求的情况下，服务器响应于搜索需求方输入的搜索信息，以搜索信息为索引，从候选数据集中进行搜索，以获取搜索信息对应的搜索结果。

S204，输出搜索结果。

具体的，在得到搜索信息对应的搜索结果之后，服务器可以将所获得的搜索结果输出。在一可实施方式中，若服务器具有可视化的展示端，则服务器可以以默认的展示方式(比如滑动展示方式或竖向展示方式)，展示搜索结果。在又一可实施方式中，如果服务器获取到的搜索信息是搜索需求方基于终端发送给服务器的，则服务器可以根据搜索需求方所持终端的显示屏的尺寸信息，确定搜索结果的展示方式，并以所确定的展示方式对搜索结果进行排版，通过搜索需求方所持终端展示排版后的搜索结果。

上述搜索方法中，通过基于原始数据集中相似数据对的数据关注度，对原始数据集进行去重，可降低候选数据集中数据的冗余量，进而从候选数据集中进行搜索，可降低搜索结果中数据的重复量，同时还可降低搜索复杂度，节约计算资源，提高搜索效率。此外，在控制展示数量的情况下，由于通过本方案所获取的搜索结果不存在冗余，因此可使得向搜索需求方所展示的搜索结果更为全面。

可以理解的是，通常情况下，服务器可为不同的搜索场景提供不同的数据集，也就是说，不同搜索场景下，候选数据集不同；同时，不同的搜索场景下，搜索需求方所输入的搜索信息的形式不同。

例如，图像搜索场景下，S202具体可以是：响应于搜索需求方输入的搜索图像，从候选图像集中进行搜索，得到搜索图像的搜索结果；其中，候选图像集根据原始图像集中的相似图像对的图像关注度，对原始图像集进行去重处理后得到。

又如，文本搜索场景，比如银行工单搜索场景下，S202具体可以是：响应于搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到搜索语句的搜索结果；其中，候选文本集根据原始文本集中的相似文本对的文本关注度，对原始文本集进行去重处理后得到。进一步的，在银行工单搜索场景下，候选文本集中的候选文本为银行的业务工单文本。

需要说明的是，本实施例中服务器可支持的搜索场景，并不局限于图像搜索场景、文本搜索场景，还可支持其他搜索场景，比如音乐搜索场景等，本实施例对此不做限定。

下述以文本搜索场景，例如银行工单搜索场景为例进行说明。

图3为一个实施例中对原始文本集进行去重处理的流程示意图。在上述实施例的基础上，本实施例涉及的是服务器如何根据原始文本集中的相似文本对的文本关注度，对原始文本集进行去重处理的一种可选的实施过程。如图3所示，该方法具体可以包括如下步骤：

S302，根据原始文本集中不同原始文本之间的距离，从原始文本集中提取相似文本对。

本实施例中，不同原始文本之间的距离，可用于表征不同原始文本之间的相似程度。可选的，对于任意两个原始文本，若这两个原始文本之间的距离越近，则说明这两个原始文本的相似程度越高；反之，若这两个原始文本之间的距离越远，则说明这两个原始文本的相似程度越低。

可选的，对于任意两个原始文本，可以通过计算这两个原始文本之间的欧式距离、余弦值或者海明距离等，来确定这两个原始文本之间的距离。例如，对于任意两个原始文本，可以采用SimHash算法，分别确定这两个原始文本的向量指纹，之后计算所确定的两个向量指纹之间的海明距离，作为这两个原始文本之间的距离。

具体的，可以根据原始文本集中不同原始文本之间的距离，以及预先设定的距离阈值，从原始文本集中提取相似文本对。例如，对于原始文本集中任意两个原始文本，如果这两个原始文本之间的海明距离，小于设定距离阈值(比如3)，则确定这两个原始文本相似，此时可以将这两个原始文本作为一个相似文本对，以及将这两个原始文本中的每一原始文本均作为一个相似文本。

S304，根据相似文本对中每一相似文本的文本关注度，从相似文本对中确定待剔除文本。

本实施例中，相似文本对中每一相似文本的文本关注度，可用于表征该相似文本被用户所关注的程度。在一可实施方式中，对于每一相似文本，可以用该相似文本被用户所浏览、点赞、转发和收藏等的情况，来表征该相似文本的文本关注度。也就是说，相似文本的文本关注度可以包括相似文本的被浏览量、被点赞量、被转发量和被收藏量中的至少一项。

进而，对于从原始文本集中所提取的每一相似文本对，可以将该相似文本对中被浏览量低的相似文本，作为待剔除文本；或者，可以将该相似文本对中被点赞量低的相似文本，作为待剔除文本；又或者，可以将该相似文本对中被转发量低的相似文本，作为待剔除文本等。

进一步的，在文本关注度包括被浏览量、被点赞量、被转发量和被收藏量中的至少两项的情况下，可以基于预先设定的统计公式，或者预先训练的分析模型，来确定待剔除文件。例如，可以将相似文本对中每一相似文本的被浏览量和被点赞量输入至预先训练的分析模型中，由该模型输出每一相似文本对应的数值，之后将相似文本对中数值低的相似文本，作为待剔除文本。

在又一可实施方式中，对于每一相似文本，还可以用该相似文本被用户所浏览、点赞、转发和收藏等的情况，以及该相似文本被创建的时间等，来综合评价该相似文本的文本关注度。例如，可以将该相似文本的被浏览量和被点赞量等，以及该相似文本的被创建时间和被修改次数等，一并输入至关注度确定模型，由该模型输出该相似文本的文本关注度。此时文本关注度可以由数值的形式来表示。

进而，对于从原始文本集中所提取的每一相似文本对，可以将该相似文本对中文本关注度低的相似文本，作为待剔除文本。

S306，从原始文本集中剔除待剔除文本，得到候选文本集。

具体的，在确定待剔除文本后，可以将待剔除文本从原始文本集中剔除，并将原始文本集中剩余的每一原始文本均作为一个候选文本，以及将所有候选文本的集合，作为候选文本集。

可以理解的是，本实施例中，通过结合不同原始文本之间的距离，以及文本关注度，来对原始文本集进行去重处理，在保证最终所得到的候选文本集具有低重复数据的情况下，保证了原始文本集中所遗留下来的文本，即候选文本集中的候选文本，是大多数用户更为关注的文本，进而使得从候选文本集中提取的搜索结果更准确，且更能符合用户的需求。

此外，还需要说明的是，在实际场景中可能存在将原始文本集中每一原始文本均作为待剔除文本的情况，例如原始文本集中包括A、B和C三个原始文本，假设原始文本A和B是一对相似文本对，且基于原始文本A和B的文本关注度，确定待剔除文本是原始文本A；原始文本B和C也是一对相似文本对，且基于原始文本B和C的文本关注度，确定待剔除文本是原始文本B；以及原始文本A和C也是一对相似文本对，且基于原始文本A和C的文本关注度，确定待剔除文本是原始文本C。

为避免此情况出现，本实施例进一步对上述S304进行优化，即对确定待剔除文本的过程进行优化。可选的，在上述实施例的基础上，上述S304还可以通过如下方式实现，即：对相似文本对进行聚类，得到相似文本集；根据相似文本集中每一相似文本的文本关注度，从相似文本集中确定待剔除文本。

具体的，将存在直接或间接相似关系的相似文本对中的相似文本进行聚类，并将每一类作为一个相似文本集；对于每一相似文本集，可以将该相似文本集中除文本关注度最高的相似文本之外的其他相似文本，一并作为待剔除文本。也就是说，一个相似文本集指保留一个相似文本。即对于上述情况，通过聚类，可以将原始文本A、B和C聚到一起，作为一个相似文本集；再基于相似文本集中每一相似文本的文本关注度，从相似文本集中选择待剔除文本，比如A和C。

可以理解的是，本实施例中通过引入对相似文本对进行聚类的操作，可以避免因出现去重后的候选文本集为空，导致的无搜索结果的情况出现。

图4为一个实施例中确定搜索结果的流程示意图。在上述实施例的基础上，本实施例涉及的是服务器如何响应于搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到搜索语句的搜索结果的一种可选的实施方式，具体可以包括如下步骤：

S402，对搜索语句进行扩展，得到搜索语句的相似语句。

本实施例中，搜索语句的相似语句即为与搜索语句相似的语句。可选的，相似语句的数量可以为一个或多个。

在一可实施方式中，可以对搜索语句进行切词处理，并根据切词处理结果，提取搜索语句中的词语；对所提取的每一词语进行同义扩展，得到每一词语的同义词；之后按照词语在搜索语句中的位置，对每一词语的同义词进行随机组合，即可得到搜索语句的相似语句。

在又一可实施方式中，可以将搜索语句输入相似语句生成模型，得到相似语句，以及搜索语句与相似语句之间的第一相似度。其中，相似语句生成模型可以是采用训练语料，对神经网络模型进行训练得到；训练语料包括样本语句，以及与样本语句相似的语句；进一步的，本实施例中的神经网络模型可以是SimBERTv2模型。SimBERTv2模型是SimBERT的升级版，可基于RoFormaer、UniLm、对比学习、BERT和蒸馏技术预训练得到。可以理解的是，本实施例引入相似语句生成模型来生成搜索语句的相似语句，可保证所生成的相似语句的准确性和全面性。

S404，根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集。

可选的，在确定相似语句之后，可以将相似语句作为索引词，从候选文本集中进行查找，根据查找到的候选文本确定相似语句的目标文本集。

进一步的，为提高搜索效率，可以预先根据候选文本集构建倒排索引，进而基于所构建的倒排索引进行搜索。在一可实施方式中，上述根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集具体可以是：根据相似语句，从预设的倒排索引中搜索与相似语句相似的目标关键词；其中，倒排索引包括各个候选关键词与候选文本集中候选文本之间的对应关系，候选关键词从候选文本集中提取；根据目标关键词，从倒排索引中确定目标关键词对应的候选文本，并基于目标关键词对应的候选文本确定相似语句的目标文本集。

具体的，在确定相似语句之后，可以将相似语句作为索引词，从倒排索引中进行搜索，将倒排索引中与相似语句相似的候选关键词，作为相似语句的目标关键词；之后，可以从倒排索引中提取相似语句的目标关键词对应的候选文本，并根据所提取的目标关键词对应的候选文本，确定相似语句的目标文本集。

S406，根据相似语句的目标文本集，确定搜索语句的搜索结果。

在一可实施方式中，在确定相似语句的目标文本集之后，对于相似语句的目标文本集中的每一目标文本，可以计算该目标文本与相似语句之间的相似度，例如可以通过计算该目标文本与相似语句之间的海明距离，来确定该目标文本与相似语句之间的相似度。之后根据相似语句与目标文本集中各个目标文本之间的相似度，对目标文本集中的各目标文本进行降序排序，并将排序后的目标文本作为搜索语句的搜索结果。

在又一可实施方式中，若倒排索引中还包括候选关键词与候选关键词所在的候选文本之间的第二相似度，则可以根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定相似语句与目标文本集中各个目标文本之间的第三相似度；根据第三相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

其中，对于任一候选关键词，该候选关键词，与该候选关键词所在的候选文本之间的第二相似度，可以采用TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文本频率指数)来表示。

具体的，对于目标文本集中的每一目标文本，可以按照设定的算法，对搜索语句与该目标文本集对应的相似语句之间的第一相似度，和，该目标文本与索引到该目标文本的目标关键词之间的第二相似度，进行处理，比如将两者相加，或者相乘，又或者相除等，并将处理结果，作为该目标文本与相似语句之间的第三相似度。之后，可以根据相似语句与目标文本集中各个目标文本之间的第三相似度，对目标文本集中的各目标文本进行降序排序，并将排序后的目标文本作为搜索语句的搜索结果。

可选的，根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定相似语句与目标文本集中各个目标文本之间的第三相似度可以是：根据第一相似度和第二相似度的乘积，确定第三相似度。

需要说明的是，本实施例中的搜索结果是基于第三相似度对各目标文本进行排序后得到的，因此可便于用户快速定位到所需的文本。

可以理解的是，本实施例所提供的确定搜索结果的方式，不局限于基于用户所输入的搜索语句进行搜索，还可基于搜索语句的相似语句来进行搜索，增加了搜索的灵活度；同时，由于引入相似语句进行搜索，还能使得所获取的搜索结果更加全面。

示例性，在上述实施例的基础上，还可以依据相似语句的数量，进一步对确定搜索结果的过程进行变化处理。具体的，若相似语句的数量为一个，则可以直接执行S402-S406来确定搜索结果。进一步的，若相似语句的数量为至少两个，则可以通过如下两种方式来确定搜索语句：

第一种方式，确定各相似语句的搜索顺序；按照搜索顺序，依次从候选文本集中搜索各相似语句的目标文本集；其中，在每次搜索过程中，跳过候选文本集中已搜索过的相似语句的目标文本；之后，根据各相似语句的目标文本集，确定搜索语句的搜索结果。

具体的，本实施例中可以对各相似语句进行随机排序，并将随机排序结果，作为搜索顺序。或者，本实施例中可以依据各相似语句与搜索语句之间的第一相似度，来确定各相似语句的搜索顺序。比如，可以按照第一相似度，对各相似语句进行降序排列，以确定各相似语句的搜索顺序。

进一步的，在确定各相似语句的搜索顺序之后，可以按照搜索顺序，依次从候选文本集中确定各相似语句的目标文本集。需要说明的是，对于每一相似语句，在基于该相似语句搜索过程中，会跳过候选文本集中已搜索过的其他相似语句的目标文本。例如，搜索语句具有两个相似语句，分别为相似语句1和相似语句2，假设搜索顺序为先相似语句1后相似语句2，因此对于相似语句1，可以直接从候选文本集中选择相似语句1的目标文本集，对于相似语句2而言，可以从候选文本集中除相似语句1的目标文本集之外的其他候选文本中，选择相似语句2的目标文本集。

在确定各相似语句的目标文本集之后，可以通过执行上述S406来确定搜索语句的搜索结果。

可以理解的是，本实施例中对于候选文本集中的每一候选文本，在搜索过程中，不会被重复搜索，提高了搜索效率。

第二种方式，对于每一相似语句，从预设的倒排索引中搜索与该相似语句相似的目标关键词，并将倒排索引中该目标关键词所对应候选文本，作为该相似语句的目标文本集；之后根据搜索语句与该相似语句之间的第一相似度，以及该相似语句对应的目标关键词，与该目标关键词在该相似语句的目标文本集中对应的目标文本之间的第二相似度，确定该相似语句与该相似语句的目标文本集中各个目标文本之间的第三相似度。

之后，根据第三相似度，确定搜索语句与目标文本集中各个目标文本之间的第四相似度；根据第四相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。其中，根据第三相似度，确定搜索语句与目标文本集中各个目标文本之间的第四相似度具体可以是：对各相似语句的目标文本集进行求交运算，得到重叠文本，以及重叠文本对应的至少两个相似语句；对于每一重叠文本，将该重叠文本与该重叠文本对应的各相似语句之间的第三相似度之和，作为该重叠文本与搜索语句之间的第四相似度。对于各相似语句的目标文本集中除重叠文本之外的任一其他目标文本，可以将该其他目标文本与对应的相似语句之间的第三相似度，作为该其他目标文本与搜索语句之间的第四相似度。

例如，搜索语句具有两个相似语句，分别为相似语句1和相似语句2；对于相似语句1，从候选文本集中进行搜索，得到相似语句1的目标文本集1，同理可得到相似语句2的目标文本集2；假设，目标文本集1中包括目标文本a和目标文本b，目标文本集2中包括目标文本a和目标文本c。

此时，可以将相似语句1与目标文本a之间的第三相似度，以及相似语句2与目标文本a之间的第三相似度，两者之和作为目标文本a与搜索语句之间的第四相似度；同时，还可以直接将相似语句1与目标文本b之间的第三相似度，作为目标文本b与搜索语句之间的第四相似度，以及将相似语句2与目标文本d之间的第三相似度，作为目标文本d与搜索语句之间的第四相似度。

在确定各目标文本与搜索语句之间的第四相似度之后，可以根据第四相似度，对各目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

可以理解的是，本实施例在确定搜索结果的过程中，通过相似语句与目标文本的第三相似度，引入搜索语句与目标文本的第四相似度，即进一步对目标文本进行深入分析，使得用户可快速从基于第四相似度对各目标文本进行排序后得到的搜索结果中定位所需的文本。

示例性的，本实施例在上述实施例的基础上，以服务器为承载Elasticsearch搜索引擎的服务器，搜索场景为银行工单搜索场景为例，提供了一种可选的实施过程，结合图5和图6，该过程具体包括如下步骤：

S501，根据原始业务工单文本集中的不同原始业务工单文本之间的距离，从原始业务工单文本集中提取相似业务工单文本对。

S502，根据相似业务工单文本对中每一相似业务文本的文本关注度，从相似业务工单文本对中确定待剔除业务工单文本，并从原始业务工单文本集中剔除待剔除业务工单文本，得到候选业务工单文本集。

本实施例中可以定期对工单系统数据库中的原始业务工单文本进行处理，且可以基于对原始业务工单文本的处理结果，动态对搜索引擎数据库中的候选业务工单文本进行更新。

需要指出的是，上述S501-S502的执行过程，对应图6中去重处理的逻辑。

S503，接收搜索需求方输入的搜索语句。

搜索需求方在具有搜索需求的情况下，搜索需求方在搜索平台上输入搜索语句。

可选的，该搜索平台可以通过界面的形式展示给搜索需求方，还可以通过语音的形式展示给搜索需求方。可选的，该搜索平台可以集成在终端上，也可以集成在服务器上。若集成在终端上，当终端收到搜索需求方在搜索平台上输入搜索语句之后，将该搜索语句发送给服务器。

S504，响应于搜索语句，基于相似语句生成模型，对搜索语句进行扩展，得到搜索的相似语句以及搜索语句与相似语句之间的第一相似度。

需要指出的是，上述S503-S504的执行过程，对应图6中生成相似语句的逻辑。

S505，根据相似语句，从预设的倒排索引中搜索与相似语句相似的目标关键词。

其中，倒排索引包括各个候选关键词与候选业务工单文本集中候选业务工单文本之间的对应关系，候选关键词从候选业务工单文本集中提取。

S506，根据目标关键词，从倒排索引中确定目标关键词对应的候选业务工单文本，并基于目标关键词对应的候选业务工单文本确定相似语句的目标业务工单文本集。

S507，根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标业务工单文本集中对应的目标业务工单文本之间的第二相似度，确定相似语句与目标业务工单文本集中各个目标业务工单文本之间的第三相似度。

可选的，可以根据第一相似度和第二相似度的乘积，确定第三相似度。

S508，根据第三相似度，对目标业务工单文本集中的各个目标业务工单文本进行排序，并将排序后的目标业务工单文本作为搜索语句的搜索结果。

可替换的，还可以是根据第三相似度，确定搜索语句与目标业务工单文本集中各个目标业务工单文本之间的第四相似度；根据第四相似度，对目标业务工单文本集中的各个目标业务工单文本进行排序，并将排序后的目标业务工单文本作为搜索语句的搜索结果。

S509，输出搜索结果。

例如可以将搜索结果发送至搜索需求方所持的终端上，并展示。进而搜索需求方可以在通过其所持终端来查看搜索结果。

需要指出的是，上述S505-S509的执行过程，对应图6中搜索的逻辑。

上述S501-S509的具体过程可以参见上述方法实施例的描述，其实现原理和技术效果类似，在此不再赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的搜索方法的搜索装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个搜索装置实施例中的具体限定可以参见上文中对于搜索方法的限定，在此不再赘述。

在一个实施例中，如图7所示，提供了一种搜索装置，该搜索装置700包括：搜索模块710和输出模块720，其中：

搜索模块710，用于响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到搜索信息的搜索结果；其中，候选数据集根据原始数据集中的相似数据对的数据关注度，对原始数据集进行去重处理后得到；

输出模块720，用于输出搜索结果。

上述搜索装置中，通过基于原始数据集中相似数据对的数据关注度，对原始数据集进行去重，可降低候选数据集中数据的冗余量，进而从候选数据集中进行搜索，可降低搜索结果中数据的重复量，同时还可提高搜索效率。此外，在控制展示数量的情况下，由于通过本方案所获取的搜索结果不存在冗余，因此可使得向搜索需求方所展示的搜索结果更为全面。

在一个实施例中，搜索模块710具体用于：

响应于搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到搜索语句的搜索结果；其中，候选文本集根据原始文本集中的相似文本对的文本关注度，对原始文本集进行去重处理后得到。

上述搜索装置700还包括：去重处理模块730，用于根据原始文本集中的相似文本对的文本关注度，对原始文本集进行去重处理。

在一个实施例中，去重处理模块730包括：

提取单元731，用于根据原始文本集中不同原始文本之间的距离，从原始文本集中提取相似文本对；

第一确定单元732，用于根据相似文本对中每一相似文本的文本关注度，从相似文本对中确定待剔除文本；

剔除单元733，用于从原始文本集中剔除待剔除文本，得到候选文本集。

在一实施例中，第一确定单元732具体用于：

对相似文本对进行聚类，得到相似文本集；

根据相似文本集中每一相似文本的文本关注度，从相似文本集中确定待剔除文本。

示例性的，在一实施例中，相似文本的文本关注度包括：相似文本的被浏览量和/或被点赞量。

在一实施例中，搜索模块710包括：

扩展单元711，用于对搜索语句进行扩展，得到搜索语句的相似语句；

搜索单元712，用于根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集；

第二确定单元713，用于根据相似语句的目标文本集，确定搜索语句的搜索结果。

在一实施例中，扩展单元711具体用于：

将搜索语句输入相似语句生成模型，得到相似语句，以及搜索语句与相似语句之间的第一相似度。

在一实施例中，搜索单元712具体用于：

根据相似语句，从预设的倒排索引中搜索与相似语句相似的目标关键词；其中，倒排索引包括各个候选关键词与候选文本集中候选文本之间的对应关系，候选关键词从候选文本集中提取；

根据目标关键词，从倒排索引中确定目标关键词对应的候选文本，并基于目标关键词对应的候选文本确定相似语句的目标文本集。

在一实施例中，第二确定单元713可以包括：

第一确定子单元，用于根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定相似语句与目标文本集中各个目标文本之间的第三相似度；

第二确定子单元，用于根据第三相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

在一实施例中，第二确定子单元具体用于：

根据第三相似度，确定搜索语句与目标文本集中各个目标文本之间的第四相似度；

根据第四相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

在一实施例中，第一确定子单元具体用于：

根据第一相似度和第二相似度的乘积，确定第三相似度。

在一实施例中，若相似语句的数量为至少两个，则搜索单元712还具体用于：

确定各相似语句的搜索顺序；

按照搜索顺序，依次从候选文本集中搜索各相似语句的目标文本集；其中，在每次搜索过程中，跳过候选文本集中已搜索过的相似语句的目标文本。

在一实施例中，候选文本集中的候选文本为业务工单文本。

上述搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储去重后的候选数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到搜索信息的搜索结果；其中，候选数据集根据原始数据集中的相似数据对的数据关注度，对原始数据集进行去重处理后得到；

输出搜索结果。

在一个实施例中，处理器在执行计算机程序中响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到搜索信息的搜索结果的逻辑时，具体可实现以下步骤：

在一个实施例中，处理器在执行计算机程序中根据原始文本集中的相似文本对的文本关注度，对原始文本集进行去重处理的逻辑时，具体实现以下步骤：

根据原始文本集中不同原始文本之间的距离，从原始文本集中提取相似文本对；根据相似文本对中每一相似文本的文本关注度，从相似文本对中确定待剔除文本；从原始文本集中剔除所述待剔除文本，得到候选文本集。

在一个实施例中，处理器在执行计算机程序中根据相似文本对中每一相似文本的文本关注度，从相似文本对中确定待剔除文本的逻辑时，具体可实现以下步骤：

对相似文本对进行聚类，得到相似文本集；根据相似文本集中每一相似文本的文本关注度，从相似文本集中确定待剔除文本。

在一个实施例中，处理器执行计算机程序时，所涉及的相似文本的文本关注度包括：相似文本的被浏览量和/或被点赞量。

在一个实施例中，处理器在执行计算机程序中响应于搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到搜索语句的搜索结果的逻辑时，具体实现以下步骤：

对搜索语句进行扩展，得到搜索语句的相似语句；根据相似语句，从候选文本集中进行搜索，得到所述相似语句的目标文本集；根据相似语句的目标文本集，确定搜索语句的搜索结果。

在一个实施例中，处理器在执行计算机程序中对搜索语句进行扩展，得到搜索语句的相似语句的逻辑时，具体实现以下步骤：

在一个实施例中，处理器在执行计算机程序中根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集的逻辑时，具体实现以下步骤：

根据相似语句，从预设的倒排索引中搜索与相似语句相似的目标关键词；其中，倒排索引包括各个候选关键词与候选文本集中候选文本之间的对应关系，候选关键词从候选文本集中提取；根据目标关键词，从倒排索引中确定目标关键词对应的候选文本，并基于目标关键词对应的候选文本确定相似语句的目标文本集。

在一个实施例中，处理器在执行计算机程序中根据相似语句的目标文本集，确定搜索语句的搜索结果的逻辑时，具体实现以下步骤：

根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定相似语句与目标文本集中各个目标文本之间的第三相似度；根据第三相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

在一个实施例中，处理器在执行计算机程序中根据第三相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果的逻辑时，具体还可实现以下步骤：

根据第三相似度，确定搜索语句与目标文本集中各个目标文本之间的第四相似度；根据第四相似度，对目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为搜索语句的搜索结果。

在一个实施例中，处理器在执行计算机程序中根据搜索语句与相似语句之间的第一相似度，以及目标关键词与目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定相似语句与所述目标文本集中各个目标文本之间的第三相似度的逻辑时，具体还可实现以下步骤：

根据第一相似度和第二相似度的乘积，确定第三相似度。

在一个实施例中，若相似语句的数量为至少两个，则处理器在执行计算机程序中根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集的逻辑时，具体还可实现以下步骤：

确定各相似语句的搜索顺序；按照搜索顺序，依次从候选文本集中搜索各相似语句的目标文本集；其中，在每次搜索过程中，跳过候选文本集中已搜索过的相似语句的目标文本。

在一个实施例中，处理器执行计算机程序时，所涉及的候选文本集中的候选文本为业务工单文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

输出搜索结果。

根据第一相似度和第二相似度的乘积，确定第三相似度。

在一个实施例中，若相似语句的数量为至少两个，则处理器在执行计算机程序中根据相似语句，从候选文本集中进行搜索，得到相似语句的目标文本集的逻辑时具体还可实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上以下步骤：

输出搜索结果。

根据第一相似度和第二相似度的乘积，确定第三相似度。

需要说明的是，本申请所涉及的搜索信息，为经用户授权或者经过各方充分授权的信息。进一步的，本申请中所涉及的数据库(即包括候选数据集比如候选业务工单文本集的数据库)，是经过银行授权、不涉及用户隐私等的数据库。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种搜索方法，其特征在于，所述方法包括：

输出所述搜索结果。

2.根据权利要求1所述的方法，其特征在于，所述响应于搜索需求方输入的搜索信息，从候选数据集中进行搜索，得到所述搜索信息的搜索结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据原始文本集中的相似文本对的文本关注度，对所述原始文本集进行去重处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述相似文本对中每一相似文本的文本关注度，从所述相似文本对中确定待剔除文本，包括：

对所述相似文本对进行聚类，得到相似文本集；

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述相似文本的文本关注度包括：所述相似文本的被浏览量和/或被点赞量。

6.根据权利要求2所述的方法，其特征在于，所述响应于所述搜索需求方输入的搜索语句，从候选文本集中进行搜索，得到所述搜索语句的搜索结果，包括：

对所述搜索语句进行扩展，得到所述搜索语句的相似语句；

7.根据权利要求6所述的方法，其特征在于，所述对所述搜索语句进行扩展，得到所述搜索语句的相似语句，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述根据所述相似语句，从所述候选文本集中进行搜索，得到所述相似语句的目标文本集，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述相似语句的目标文本集，确定所述搜索语句的搜索结果，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第三相似度，对所述目标文本集中的各个目标文本进行排序，并将排序后的目标文本作为所述搜索语句的搜索结果，包括：

11.根据权利要求9所述的方法，其特征在于，所述根据所述搜索语句与所述相似语句之间的第一相似度，以及所述目标关键词与所述目标关键词在目标文本集中对应的目标文本之间的第二相似度，确定所述相似语句与所述目标文本集中各个目标文本之间的第三相似度，包括：

12.根据权利要求6所述的方法，其特征在于，若所述相似语句的数量为至少两个，则所述根据所述相似语句，从所述候选文本集中进行搜索，得到所述相似语句的目标文本集，包括：

确定各相似语句的搜索顺序；

13.根据权利要求2所述的方法，其特征在于，所述候选文本集中的候选文本为业务工单文本。

14.一种搜索装置，其特征在于，所述装置包括：

输出模块，用于输出所述搜索结果。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。