CN111460088A

CN111460088A - 相似文本的检索方法、装置和系统

Info

Publication number: CN111460088A
Application number: CN201910060108.2A
Authority: CN
Inventors: 康杨杨; 周笑添; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2020-07-28

Abstract

本发明实施例提供了一种相似文本的检索方法、装置和系统。其中，相似文本的检索方法包括：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。通过本发明实施例，可以提升检索效率。

Description

相似文本的检索方法、装置和系统

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种相似文本的检索方法、装置和系统。

背景技术

随着科技的发展，相似文本检索的应用越来越广泛，如，应用在论文反抄袭、垃圾信息识别等领域。

以短信、群聊等的垃圾信息识别为例，通常是采用人工离线标注垃圾数据，使用标注的垃圾数据对机器学习中的识别模型进行训练，将识别模型上线用于垃圾信息识别，定期更新识别模型的方式进行垃圾信息识别。由于垃圾信息变异速度快，这种方式只能定期更新模型，且需要人工离线标注数据导致无法快速地响应业务需求。

另一种进行垃圾信息识别的方式，是采用字符匹配的方式识别垃圾信息，通过判别输入文本是否是已经出现过的垃圾样本来进行垃圾信息识别。但是，这种方式难以适应在线流量非常大(即高QPS)的情况，且由于候选的垃圾样本集非常大，使得处理速度非常慢，耗时长，无法有效的支持业务需求。

因此，如何提升检索速度，应对这种在线流量较大、高并发的情况，成为亟需解决的问题。

发明内容

有鉴于此，本发明实施例提供一种相似文本的检索方案，以解决上述问题。

根据本发明实施例的第一方面，提供了一种相似文本的检索方法，所述方法包括：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

根据本发明实施例的第二方面，提供了一种相似文本的检索装置，所述装置包括：文本向量获取模块，用于对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；向量集获取模块，用于根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；文本获取模块，用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

根据本发明实施例的第三方面，提供一种相似文本的检索系统，其包括第一分发单元、预处理单元、向量生成单元和向量引擎；所述第一分发单元，用于将接收到的查询文本，发送至所述预处理单元；所述预处理单元，用于对接收的所述查询文本进行预处理，并将与所述查询文本对应的预处理结果发送至所述第一分发单元；所述向量生成单元，用于根据从所述第一分发单元获取的与所述查询文本对应的预处理结果，生成与所述查询文本对应的文本向量，并将所述文本向量发送至所述第一分发单元；所述向量引擎，用于根据从所述第一分发单元获取的文本向量，进行检索，获得匹配的样本向量集，并从所述匹配的样本向量集中获得与所述文本向量相似度最高的N个相似的样本向量，将N个所述相似的样本向量对应的样本文本作为相似文本发送至所述第一分发单元；所述第一分发单元，还用于将所述向量引擎发送的相似文本发送至所述用户单元。

根据本发明实施例提供的相似文本的检索方案，通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的索引，检索时先检索出与所述查询文本对应的文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种检索方式提升了检索效率，满足了高并发场景的性能需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例一的一种相似文本的检索方法的步骤流程图；

图2为根据本发明实施例二的一种相似文本的检索方法的步骤流程图；

图3为根据本发明实施例四的一种相似文本的检索方法的步骤流程图；

图4为根据本发明实施例五的一种相似文本的检索方法的步骤流程图；

图5为根据本发明实施例六的一种相似文本的检索装置的结构框图；

图6为根据本发明实施例七的一种相似文本的检索装置的结构框图；

图7为根据本发明实施例八的一种电子设备的结构示意图；

图8为本发明一实施例九的一种相似文本检索系统的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种相似文本的检索方法的步骤流程图。

本实施例的相似文本的检索方法包括以下步骤：

步骤S102：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量。

具体地，所述查询文本可以是任何需要进行检索的文本，根据使用场景的不同，所述查询文本可以存在差别。例如，在论文反抄袭的使用场景中，所述查询文本可以是待检测的论文中的文本；在垃圾信息识别的使用场景中，所述查询文本可以是待识别的垃圾信息中的文本；在搜索工具的使用场景中，所述查询文本可以是用户输入的查询信息中的文本，等等。

针对不同的使用场景，由于其场景特点不同，所述相似文本的检索方法相应地也具有不同的性能要求。在本实施例具体应用中，以所述方法应用在具有样本量巨大(可以到千万级甚至亿级)、变异样本多、并发量高等特点的使用场景中为例进行说明。

其中，所述变异样本是指语义相同或相近，但文本中包含的字符不同或差异较大的文本。如“A**公司上市了”和“A**公司于2004年在纳斯达克敲钟了”互为变异文本。高并发量是指每秒需要正确处理并返回结果的请求量高，如，每秒需要处理上万的请求。当然，根据不同的使用场景，高并发量的请求数量可以不同。

当然，在其他实施例中，所述方法可以应用在任何需要进行相似文本检索的使用场景中。

由于向量查询的简便性和高效性，为了适应前述使用场景的特点，满足使用场景的性能需求，确保检索效率，适应高并发场景的性能需求，对接收的所述查询文本进行对应的处理，以获取所述查询文本对应的文本向量，以此保证在后续使用所述文本向量进行检索时能够使检索效率更高。

在本实施例中，文本向量为K维实数向量。当然，对于本领域技术人员而言，其可以采用任何匹配的处理方式获得所述文本向量，不同的处理方式获得的所述文本向量的维度和形式可能不同，本实施对此不作限定。

步骤S104：根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集。

所述向量引擎可以通过硬件实现，也可以通过编写代码实现只要能够从多个样本向量集中检索出与所述文本向量匹配的样本向量集即可。

向量引擎中索引为根据多个所述样本向量集建立的索引。所述索引的结构可以根据所述样本向量集的数量以及各所述样本向量集中包括的所述样本向量的数量进行选择。

所述样本向量集的数量可以根据检索效率和检索准确性或其他需要选择合适的数量。

每个所述样本向量集中均包括多个所述样本向量。所述样本向量与样本文本对应，其可以通过对相应的所述样本文本进行对应的处理获得。

通过将较大数量级的所述样本向量分为多个所述样本向量集，并对所述样本向量集建立对应的索引，以所述样本向量集为对象进行检索，即每次检索针对批量处理的多个所述样本向量。因此，本申请实施例能够以较少的检索次数快速地从多个所述样本向量集中检索出与所述文本向量匹配的样本向量集，从而提升检索效率，更好地满足高并发场景的性能需求。

步骤S106：从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

获取与所述文本向量相似的样本向量的方式可以是逐一比对等任何匹配的方式。

获取所述相似的样本向量后，根据所述相似的样本向量与样本文本间的对应关系，确定与所述相似的样本向量对应的样本文本，将所述对应的样本文本作为所述查询文本的相似文本。

所述查询文本包括下列至少之一：短信、即时通信消息等。即时通信消息可以是通过即时通信工具发送的消息。

当所述查询文本为短信或即时通信消息时，所述方法用于检索短信或即时通信消息的相似文本。

本实施例中，通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的索引，检索时先检索出与所述查询文本对应的文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种检索方式提升了检索效率，满足了高并发场景的性能需求。

本实施例的相似文本的检索方法可以由任意匹配的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等。

实施例二

参照图2，示出了根据本发明实施例二的一种相似文本的检索方法的步骤流程图。

本实施例的相似文本的检索方法包括前述的步骤S102～S106。

其中，在一具体实现中，所述步骤S102包括以下子步骤：

子步骤S1021：对接收的所述查询文本进行预处理，获取所述查询文本中与所述查询文本对应的词。

其中，所述预处理包括分词处理、去停用词处理等，但不限于此。需要说明的是，针对不同的需求，所述预处理中包括的具体处理可以不同，并不限于本实施例中举出的处理。

例如，所述查询文本为“今天的天气”，通过对接收的所述查询文本进行分词处理、去停用词处理，获取所述查询文本中包含的与所述查询文本对应的词为“今天”和“天气”。

通过对所述查询文本进行预处理，并获取所述查询文本中的所述词，使得后续根据所述词可以更加快速地生成对应的文本向量，进而提升检索效率。

又例如，所述查询文本为“今天的天气”，通过对所述查询文本进行分词处理，获取的所述查询文本的词为“今天”、“的”和“天气”。

子步骤S1022：根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

对于本领域技术人员而言，其可以根据需要采用任何匹配的方式，获取所述词的词向量，例如，采用word2vec模型等，本实施例对此不做限定。word2vec模型可以进行无监督训练，使其学习查询文本的语义向量表示。所述词向量可以是K维实数向量。K为正整数。

在一可行方式中，根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量具体为：根据所述词在所述查询文本中的位置，将各所述词的词向量拼接，形成与所述查询文本对应的所述文本向量。

在另一可行方式中，根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量具体为：对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

由于向量查询的简便性和高效性，因此在后续步骤中，使用所述文本向量进行查询的效率更高，可以更好地满足性能需求。此外，由于在生成文本向量时对各词对应的词向量进行了加权平均处理，使得获得的文本向量的维度与所述词向量的维度一致，使得加权平均处理获得的文本向量相较于词向量拼接获得的文本向量的维度更小，进而可以减少后续的计算量，提升减少效率。

例如，在本实施例中，词向量为K维实数向量，进行加权平均处理生成的所述文本向量为K维实数的稠密向量。

本实施例根据查询文本生成了文本向量，由于向量检索的检索效率更高，因此提升了相似文本的检索效率。

通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的索引，检索时先检索出与文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种检索方式提升了检索效率，满足了高并发场景的性能需求。

实施例三

再次参照图1所示，本实施例的相似文本的检索方法包括步骤S102～S106。

本实施例中，为了提升检索效率，且保证检索出的所述相似文本与所述查询文本的语义相同或相近，从而确保语义相似的相似文本的召回率，避免漏检，所述步骤S102中生成的所述文本向量用于表示所述查询文本的语义。

对于本领域技术人员而言，在步骤S102中其可以采用任何匹配的方式生成与所述查询文本对应的文本向量，只要保证其可以用于表示对应的所述查询文本的语义即可。

相应地，在步骤104中所述向量引擎中的索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，且所述样本向量用于表示其所对应的样本文本的语义。

这样一方面，由于所述文本向量用于表示所述查询文本的语义，所述样本向量用于表示所述样本文本的语义，因此在使用根据所述样本向量生成的索引进行检索时考虑了语义相关性，避免了现有技术中字符匹配的检索方式无法考虑语义相关性的问题，保证了语义相似的相似文本的召回率。

另一方面，由于索引是根据所述样本向量生成的，其中的各索引项的索引值均为向量，使得在检索时，可以直接使用文本向量和所述索引进行检索，无需对文本向量或者索引进行额外的处理，进而使得检索效率更高。

生成的所述索引的结构可以根据需要选择匹配的结构，本实施例对此不作限定。例如，所述索引为多级索引，所述索引的具体级数可以根据样本向量的数量和检索性能需求确定。由于所述索引为多级索引，在检索时针对该多级索引进行剪枝检索，可以减少总检索次数，提升检索效率。

进一步地，所述索引中的各级的索引项的索引值都是通过对一个或多个所述样本向量集中包含的样本向量进行聚类获得的类中心向量。由于样本向量用于表示对应的样本文本的语义，因此，通过对样本向量进行聚类获得的类中心向量也一定程度上表示了这些样本文本的语义，这样在根据所述索引进行检索时，确保检索出的匹配的所述样本向量集是与所述查询文本的语义相关性较好的样本向量集，进而确保后续检索出的相似文本与所述查询文本间的语义相关性好。可选地，在生成所述索引后，为了提升适应性，并进一步提升检索效率，索引可以采用分布式方式部署，即将所述索引分为多个部分，并分布到不同的硬件上，这样在检索时可以实现并行检索，从而提升检索效率。

在步骤S104的一具体实现中，当向量引擎中的索引为多级索引时，根据其从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集的过程为：确定所述索引中当前级的候选索引项，分别计算所述文本向量与所述当前级中各所述候选索引项的索引值之间的向量距离，选择距离最小索引项确定为所述当前级中与所述文本向量匹配的索引项；根据所述当前级中匹配的索引项确定所述索引中下一级的候选索引项，并将所述下一级确定为新的当前级，并重复前述过程，直至在所述索引的最末级中检索出与所述文本向量距离最小的索引项，确定其对应的样本向量集为所述匹配的样本向量集。

本实施例中，由于对所述查询文本进行了对应的处理，获得了用于表示其语义的文本向量，所述样本向量表示了所述样本文本的语义，使得根据所述文本向量检索出的所述相似文本是在语义上与所述查询文本相似度较高的文本，因此克服了现有技术中字符匹配方式检索出的相似文本的语义相关性不强，容易检索出语义不相关的相似文本，且无法保证语义相关的相似文本的召回率的问题。

此外，通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的多级索引，使得在检索时可以先根据索引检索出与文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种分级检索方式提升了检索效率，满足了高并发场景的性能需求。

实施例四

参照图3，示出了根据本发明实施例四的一种相似文本的检索方法的步骤流程图。

本实施例的相似文本的检索方法包括步骤S102～S106：

其中，步骤S106包括以下子步骤：

子步骤S1061：根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量。

通过计算文本向量与样本向量间的相似度可以保证确定的所述相似的样本向量对应的样本文本与查询文本的语义相似性，保证检索准确性和语义相似文本的召回率。

在一具体实现中，所述子步骤S1061包括：使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定相似度最高的N个所述相似的样本向量；所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

其中，第一相似度算法可以是余弦相似度、欧式距离等相似度算法等，计算量相较于第二相似度算法小的算法，这样可以减少使用第一相似度算法进行计算的计算量，提升计算效率，进而提升检索效率。

一种具体地根据第一相似度算法确定候选样本向量的过程为：根据该计算结果，从匹配的样本向量集包括的所有样本向量中，选取第一相似度最高的M个所述样本向量，确定为候选样本向量。M为正整数。这样通过第一相似度算法实现样本向量粗召回，可以降低后续使用第二相似算法计算时样本向量的数量，进而降低计算次数，进而提升检索效率。

第二相似度算法可以是任何匹配的计算量相较于第一相似度算法大的算法，例如，皮尔逊相关系数、余弦相似度、Tanimoto系数(又称Jaccard相似系数)等等。通常计算量较大的相似度算法的计算精度会较高，因此可以保证相似度计算准确性更好，进而根据其确定出的相似的样本向量与所述文本向量的相似性更高，由此保证了检索准确性。

一种具体的根据第二相似度确定相似的样本向量的过程为：根据所述第二相似度，从所述候选样本向量中选取相似度最高的N个样本向量作为相似的样本向量。N为正整数，且N小于或等于M。例如，选取第二相似度大于某一设定值的样本向量作为相似的样本向量。

可选地，为了进一步提升检索效率，根据所述第二相似度确定所述相似的样本向量的一种实现方式为：根据所述第二相似度，对各所述候选样本向量进行排序，根据排序结果确定所述相似的样本向量。由于对各所述候选样本向量根据第二相似度进行了排序，因此在确定相似的样本向量时，可以根据排序结果直接选取相似度最高的N个作为相似的样本向量，无需将所有候选样本向量的第二相似度进行两两比较，从而提升了检索效率。

此外，当需要获取的相似样本的数量变化时，也可以根据排序结果快速地获取对应数量的样本向量作为相似样本向量，提升了适应性。

在本步骤中，由于在获取相似的样本向量时，使用了计算量不同的相似度算法不仅可以快速地从匹配的样本向量集中检索出相似的样本向量，保证了检索效率，而且，充分保证了检索精度。

子步骤S1062：获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

在获取N个所述相似的样本向量之后，根据样本向量与样本文本的对应关系，确定对应的样本文本作为所述查询文本的相似文本。

本实施例中，通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的索引，检索时先检索出与文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种检索方式提升了检索效率，满足了高并发场景的性能需求。

此外，在确定相似的样本向量时采用了两种计算量不同的相似度算法，既保证了检索精度，又进一步提升了检索效率。

实施例五

参照图4，示出了根据本发明实施例五的一种相似文本的检索方法的步骤流程图。

本实施例的相似文本的检索方法除包括步骤S102～S106外，还包括：

步骤S108：对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

为了检索的时效性，可以定期对所述向量引擎中的所述索引以及所述索引对应的样本向量集进行更新，以加入新的样本向量及其对应的样本文本。

在一具体实现中，所述步骤S108包括以下子步骤：

子步骤S1081：获取待更新样本文本对应的待更新样本向量。

其中，本领域技术人员可以采用任何匹配的方式获取待更新样本向量。例如，采用用于将文本向量化的神经网络模型待更新样本文本。

优选地，在文本向量用于表示查询文本的语义时，获取的待更新样本向量用于表示待更新样本文本的语义，以确保使用更新后的索引及对应的样本向量集进行检索获得的相似文本与查询文本间的语义相关性。

子步骤S1082：根据所述待更新样本向量，更新所述多个样本向量集。

其中，更新所述多个样本向量集包括将所述待更新样本向量加入匹配的所述样本向量集中，和/或，根据所述待更新样本向量生成新的样本向量集。

例如，在一种可行方式中，根据所述待更新样本向量，更新多个样本向量集包括：对所述待更新样本向量进行聚类，将待更新样本向量分为P类，P为正整数；将每个类的类中心与各所述样本向量集的类中心进行比较确定是否有匹配的样本向量集；若存在，则将该类中的所有待更新样本向量加入到匹配的样本向量集中；若不存在，则根据该类生成新的样本向量集。这样可以更加快速地更新样本向量集。

又例如，在另一种可行方式中，根据所述待更新样本向量，更新所述多个样本向量集包括：直接将各个待更新样本向量与所述样本向量集的类中心进行比较，确定是否存在匹配的样本向量集；若存在，则将其加入到匹配的样本向量集中；若不存在，则根据其生成新的样本向量集。

子步骤S1083：针对更新后的各所述样本向量集，重新进行聚类，根据聚类结果更新所述索引。

其中，聚类可以采用任何匹配的聚类算法，如k-means算法等，本实施例对此不作限定。

在一种具体的实现中，针对更新后的各所述样本向量集，重新进行聚类，根据聚类结果更新所述索引包括：

若当前更新的索引项为最末级中的索引项，则根据其对应的所述样本向量集的类中心向量，更新所述当前更新的索引项；

若当前更新的索引项不为最末级中的索引项，则根据所述当前更新的索引项以及索引中指示的索引项间的对应关系，确定从属于其的样本向量集，对从属于其的所有样本向量集中所有样本向量进行聚类，使用该聚类获得的类中心向量更新所述当前更新的索引项。

在本实施例中，通过更新索引以及所述索引对应样本向量集可以保证样本文本的实效性，进而提升检索效果。

实施例六

参照图5，示出了根据本发明实施例六的一种相似文本的检索装置的结构框图。

本实施例的相似文本的检索装置包括：文本向量获取模块502，用于对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；向量集获取模块504，用于根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；文本获取模块506，用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

实施例七

参照图6，示出了根据本发明实施例七的一种相似文本的检索装置的结构框图。

本实施例的相似文本的检索装置包括：文本向量获取模块602，用于对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；向量集获取模块604，用于根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；文本获取模块606，用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

可选地，所述文本向量获取模块602包括：预处理模块6021，用于对接收的所述查询文本进行预处理，获取所述查询文本中与所述查询文本对应的词；生成模块6022，用于根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

可选地，所述生成模块6022具体用于：对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

可选地，所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表示其所对应的样本文本的语义。

可选地，所述文本获取模块606包括：相似向量获取模块6061，用于根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量，N为正整数；相似文本确定模块6062，用于获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

可选地，所述相似向量获取模块6061包括：第一检索模块6061a，用于使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；第二检索模块6061b，用于使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定相似度最高的N个所述相似的样本向量；所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

可选地，所述装置还包括：更新模块608，用于对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

可选地，当所述查询文本为短信或即时通信消息时，所述装置用于检索短信或即时通信消息的相似文本。

本实施例的相似文本的检索装置用于实现前述多个方法实施例中相应的相似文本的检索方法，并具有相应方法实施例的有益效果，在此不再赘述。

实施例八

参照图7，示出了根据本发明实施例八的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备如终端设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述相似文本的检索方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

在一种可选的实施方式中，程序710还用于使得处理器702在对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量时，对接收的所述查询文本进行预处理，获取所述查询文本中与所述查询文本对应的词；根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

在一种可选的实施方式中，程序710还用于使得处理器702在根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量时，对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

在一种可选的实施方式中，所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表示其所对应的样本文本的语义。

在一种可选的实施方式中，程序710还用于使得处理器702在从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本时，根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量；获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

在一种可选的实施方式中，程序710还用于使得处理器702在根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似的样本向量时，使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定所述相似度最高的N个相似的样本向量；所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

在一种可选的实施方式中，程序710还用于使得处理器702对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

在一种可选的实施方式中，当所述查询文本为短信或即时通信消息时，所述程序710还用于使得处理器702用于检索短信或即时通信消息的相似文本。程序710中各步骤的具体实现可以参见上述相似文本的检索方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，通过将样本向量分为多个样本向量集，并生成所述多个样本向量集对应的索引，检索时先检索出与所述查询文本对应的文本向量匹配的样本向量集，再从匹配的样本向量集中检索出相似的样本向量，最终根据所述相似的样本向量获得相似文本，通过这种检索方式提升了检索效率，满足了高并发场景的性能需求。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的相似文本的检索方法。此外，当通用计算机访问用于实现在此示出的相似文本的检索方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的相似文本的检索方法的专用计算机。

实施例九

参照图8，示出了根据本发明实施例九的一种相似文本的检索系统的结构示意图。

相似文本的检索系统包括第一分发单元、预处理单元、向量生成单元和向量引擎；所述第一分发单元，用于将接收到的查询文本，发送至所述预处理单元；所述预处理单元，用于对接收的所述查询文本进行预处理，并将与所述查询文本对应的预处理结果发送至所述第一分发单元；所述向量生成单元，用于根据从所述第一分发单元获取的与所述查询文本对应的预处理结果，生成与所述查询文本对应的文本向量，并将所述文本向量发送至所述第一分发单元；所述向量引擎，用于根据从所述第一分发单元获取的文本向量，进行检索，获得匹配的样本向量集，并从所述匹配的样本向量集中获得与所述文本向量相似度最高的N个相似的样本向量，将N个所述相似的样本向量对应的样本文本作为相似文本发送至所述第一分发单元；所述第一分发单元，还用于将所述向量引擎发送的相似文本发送至所述用户单元。

可选地，所述系统还包括前端单元和第二分发单元；所述前端单元，用于获取样本文本，并将所述样本文本发送至所述第二分发单元；所述第二分发单元，用于将从所述前端单元获取的样本文本，发送至所述预处理单元；所述预处理单元，还用于对接收的所述样本文本进行预处理，并将与所述样本文本对应的预处理结果发送至所述第二分发单元；所述向量生成单元，还用于根据从所述第二分发单元获取的与所述样本文本对应的预处理结果，生成与所述样本文本对应的样本向量，并将所述样本向量发送至所述第二分发单元；所述前端单元，还用于根据从所述第二分发单元获取的所述样本向量，生成记录文件，以使所述向量引擎根据所述记录文件更新索引和索引对应的样本向量集。

可选地，所述系统还包括存储单元和调度单元；所述前端单元还用于将所述记录文件推送到存储单元，并使所述调度单元通知所述向量引擎更新索引及对应的样本向量集；所述调度单元，用于向所述向量引擎发送索引更新通知；所述向量引擎，还用于根据所述调度单元的所述索引更新通知，从存储单元读取记录文件，并根据所述记录文件更新索引和索引对应的样本向量集。

本实施例中的相似文本检索系统采用前述的相似文本的检索方法进行检索，具有前述的方法的效果，故在此不再赘述。

下面以在垃圾信息识别的使用场景中，使用相似文本的检索系统获取相似文本，并根据相似文本进行垃圾信息识别的过程为例，进行说明：

在本使用场景中，所述相似文本的检索方法部署在一相似文本检索系统中，相似文本检索系统的结构如图8所示。

所述相似文本检索系统在进行相似文本检索时，包括以下步骤：

步骤A：用户单元接收到查询文本，并将查询文本发送到第一分发单元。

步骤B：第一分发单元将查询文本发送到预处理单元。例如，根据各预处理单元的负载，确定匹配的预处理单元，并将查询文本发送到确定的预处理单元。

步骤C：预处理单元对接收的查询文本进行对应的预处理，并将预处理结果发送至第一分发单元。例如，预处理结果为从查询文本中获取的其中的词，并将获取的词发送至第一分发单元。

步骤D：第一分发单元将预处理结果(如获取的词)发送至匹配的向量生成单元。

步骤E：向量生成单元根据预处理结果生成与查询文本对应的文本向量。例如，通过计算各词的词向量，并将所有词的词向量进行加权平均，获取查询文本对应的文本向量，再将文本向量发送至第一分发单元。

步骤F：第一分发单元获取文本向量后，将文本向量发送至匹配的向量引擎，向量引擎根据其中的索引，进行检索，确定匹配的样本向量集。

在确定匹配的样本向量集后，向量引擎使用第一相似度算法从样本向量集的样本向量中获取M个与文本向量相似度最高的样本向量，作为候选样本向量；再使用第二相似度算法从候选样本向量中获取N个与文本向量相似度最高的样本向量，作为相似的样本向量。其中，M和N均为正整数，且N小于或等于M。

在确定相似的样本向量后，向量引擎根据相似的样本向量与样本文本的对应关系，确定与查询文本对应的N个相似文本，将相似文本发送至第一分发单元。

步骤G：根据需要，第一分发单元可以将相似文本发送至用户单元，或者在进行垃圾信息识别时，第一分发单元将相似文本及查询文本发送至垃圾信息识别单元(图中未示出)，垃圾信息识别单元根据相似文本与查询文本间的相似度确定查询文本是否为垃圾信息，并向用户单元返回识别结果。例如，若所述查询文本与检索出的相似文本间的相似度大于或等于设定值，则确定所述查询文本为垃圾信息；反之，则所述查询文本不为垃圾信息。其中，设定值可以是0.9或0.8等。

所述相似文本检索系统在进行索引以及索引对应的样本向量集更新时，包括以下步骤：

步骤H：前端单元批量导入大量(大于10w)样本文本，并自动将样本文本发送至第二分发单元。

步骤I：第二分发单元将样本文本分别发送到对应的预处理单元。

步骤J：预处理单元对样本文本进行预处理，将与样本文本对应的预处理结果发送至第二分发单元。例如，将预处理得到的每个样本文本的词发送至第二分发单元。

步骤K：第二分发单元获得的与样本文本对应的预处理结果发送至向量生成单元。如，将获得的词发送到对应的向量生成单元，由向量生成单元根据获得的词生成样本文本对应的样本向量，并将样本向量发送到第二分发单元。

步骤L：第二分发单元将各样本向量发送至前端单元。

步骤M：前端单元根据样本向量生成记录文件。如其自动根据所有样本文本、样本向量和文本属性信息数据(文本属性信息数据包括文本大小等)生成记录文件，并将记录文件推送到存储单元。

之后，前端单元通知调度单元，使其通知向量引擎更新索引及对应的样本向量集。步骤N：调度单元得到前端单元通知后，向向量引起发送索引更新通知，以通知向量引擎进行更新。

步骤O：向量引擎得到调度单元通知后，从存储单元中读取最新的记录文件，并根据最新的记录文件更新索引和索引对应的样本向量集，并在更新索引后，向调度单元返回更新是否成功状态。

在本使用场景中，通过相似文本检索系统可以实现快速准确地检索出相似文本，进而使得后续能够准确识别查询文本是否为垃圾信息。此外，由于相似文本检索系统能够进行索引及对应样本向量集更新，因此可以保证检索出的相似文本的时效性，确保检索的相似文本的准确性，进而保证垃圾信息识别的准确性。

通过对查询文本进行向量化，来表示查询文本语义，其比字面匹配有更强的泛化性。通过向量引擎从多个样本向量集中检索出相似的样本向量，根据相似的样本向量确定相似文本，实现了毫秒级的响应，良好地应对了高并发场景的性能需求。

除前述的垃圾信息识别的使用场景外，

在搜索引擎的使用场景中，也可以使用相似文本的检索方法获取相似文本，以召回搜索结果。在搜索引擎的使用场景中获取相似文本的过程与前述的垃圾信息识别的使用场景类似，故不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种相似文本的检索方法，其特征在于，所述方法包括：

对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；

根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；

从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

2.根据权利要求1所述的方法，其特征在于：

对接收的所述查询文本进行预处理，获取所述查询文本中的词；

根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

3.根据权利要求2所述的方法，其特征在于：

对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

4.根据权利要求1所述的方法，其特征在于：所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表示其所对应的样本文本的语义。

5.根据权利要求1所述的方法，其特征在于：

根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量，N为正整数；

获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

6.根据权利要求5所述的方法，其特征在于：

使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；

使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定相似度最高的N个所述相似的样本向量；

所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

8.根据权利要求1所述的方法，其特征在于，当所述查询文本为短信或即时通信消息时，所述方法用于检索短信或即时通信消息的相似文本。

9.一种相似文本的检索装置，其特征在于，所述装置包括：

文本向量获取模块，用于对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；

向量集获取模块，用于根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；

文本获取模块，用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

10.根据权利要求9所述的装置，其特征在于，所述文本向量获取模块包括：

预处理模块，用于对接收的所述查询文本进行预处理，获取所述查询文本中与所述查询文本对应的词；

生成模块，用于根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

11.根据权利要求10所述的装置，其特征在于，所述生成模块具体用于：对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

12.根据权利要求9所述的装置，其特征在于，所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表示其所对应的样本文本的语义。

13.根据权利要求9所述的装置，其特征在于，所述文本获取模块包括：

相似向量获取模块，用于根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量，N为正整数；

相似文本获取模块，用于获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

14.根据权利要求13所述的装置，其特征在于，所述相似向量检索模块包括：

第一检索模块，用于使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；

第二检索模块，用于使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定相似度最高的N个所述相似的样本向量；所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

更新模块，用于对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

16.根据权利要求9所述的装置，其特征在于，当所述查询文本为短信或即时通信消息时，所述装置用于检索短信或即时通信消息的相似文本。

17.一种相似文本的检索系统，其特征在于，包括第一分发单元、预处理单元、向量生成单元和向量引擎；

所述第一分发单元，用于将接收到的查询文本，发送至所述预处理单元；

所述预处理单元，用于对接收的所述查询文本进行预处理，并将与所述查询文本对应的预处理结果发送至所述第一分发单元；

所述向量生成单元，用于根据从所述第一分发单元获取的与所述查询文本对应的预处理结果，生成与所述查询文本对应的文本向量，并将所述文本向量发送至所述第一分发单元；

所述向量引擎，用于根据从所述第一分发单元获取的文本向量，进行检索，获得匹配的样本向量集，并从所述匹配的样本向量集中获得与所述文本向量相似度最高的N个相似的样本向量，将N个所述相似的样本向量对应的样本文本作为相似文本发送至所述第一分发单元；

所述第一分发单元，还用于将所述向量引擎发送的相似文本发送至所述用户单元。

18.根据权利要求17所述的系统，其特征在于，所述系统还包括前端单元和第二分发单元；

所述前端单元，用于获取样本文本，并将所述样本文本发送至所述第二分发单元；

所述第二分发单元，用于将从所述前端单元获取的样本文本，发送至所述预处理单元；

所述预处理单元，还用于对接收的所述样本文本进行预处理，并将与所述样本文本对应的预处理结果发送至所述第二分发单元；

所述向量生成单元，还用于根据从所述第二分发单元获取的与所述样本文本对应的预处理结果，生成与所述样本文本对应的样本向量，并将所述样本向量发送至所述第二分发单元；

所述前端单元，还用于根据从所述第二分发单元获取的所述样本向量，生成记录文件，以使所述向量引擎根据所述记录文件更新索引和索引对应的样本向量集。

19.根据权利要求18所述的系统，其特征在于，所述系统还包括存储单元和调度单元；

所述前端单元还用于将所述记录文件推送到存储单元，并使所述调度单元通知所述向量引擎更新索引及对应的样本向量集；

所述调度单元，用于向所述向量引擎发送索引更新通知；

所述向量引擎，还用于根据所述调度单元的所述索引更新通知，从存储单元读取记录文件，并根据所述记录文件更新索引和索引对应的样本向量集。