CN113792125B

CN113792125B - 基于文本相关性和用户意图的智能检索排序方法和装置

Info

Publication number: CN113792125B
Application number: CN202110984015.6A
Authority: CN
Inventors: 秦海龙
Original assignee: Beijing Qury Technology Co ltd
Current assignee: Beijing Qury Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2024-04-02
Anticipated expiration: 2041-08-25
Also published as: CN113792125A

Abstract

本申请涉及一种基于文本相关性和用户意图的智能检索排序方法和装置，通过接收用户query，根据预设用户意图分类体系对所述query进行用户意图判定，确定用户意图；根据确定的所述用户意图，利用所述query的文本相关性和用户意图信息在数据库中进行内容召回，获取与所述用户意图相关的数据集；获取句子相似度，根据所述句子相似度对获取的所述数据集进行排序展示；本申请通过融合TF‑IDF和词语预训练模型特征的计算句子相似度，可以对两句话的相似度计算；通过文本相关性和用户意图两种特征召回相应内容，在搜索引擎中融入了query的意图和语义信息，使用户能够高效准确的触达想要的应用和服务。

Description

基于文本相关性和用户意图的智能检索排序方法和装置

技术领域

本申请涉及智能文本信息应用技术领域，尤其涉及一种基于文本相关性和用户意图的智能检索排序方法和装置。

背景技术

在移动端和IoT生态下，用户在多种电子设备和多种场景下使用搜索引擎，搜索的目的通常是希望直达某种应用或直接获取某种服务，如订外卖、听音乐等。

在传统的搜索引擎中，内容的排名主要是根据pagerank算法进行召回排序，根据用户query召回内容，pagerank值越高的内容排名越靠前。

而query和内容一般通过词语相关性进行匹配，传统搜索引擎基于关键词匹配和pagerank的排序方法不能满足用户的这种需求，在匹配过程中没有融入用户query的深层语义信息和意图信息，因此不能使用户能够高效准确的触达想要的应用和服务。

此外，在传统的词语相似度计算中，有些词在query中出现但是没有在内容中出现，有些词出现在内容中但是没有出现在query中，因而这种情况下就不再能够利用传统的TF-IDF方法进行两句话的相似度计算。

发明内容

有鉴于此，本公开提出了一种基于文本相关性和用户意图的智能检索排序方法和装置，已解决现有技术存在的传统搜索引擎在匹配过程中没有融入用户query的深层语义信息和意图信息而不能使用户能够高效准确的触达想要的应用和服务、以及不能够利用传统的TF-IDF方法进行两句话的相似度计算的技术问题。

根据本公开的一方面，提供了一种基于文本相关性和用户意图的智能检索排序方法，包括如下步骤：

S100、接收用户query，根据预设用户意图分类体系对所述query进行用户意图判定，确定用户意图；

S200、根据确定的所述用户意图，利用所述query的文本相关性和用户意图信息在数据库中进行内容召回，获取与所述用户意图相关的数据集；

S300、获取句子相似度，根据所述句子相似度对获取的所述数据集进行排序展示。

在一种可能的实现方式中，在步骤S100中，所述预设用户意图分类体系，根据所述预设用户意图分类体系对接收的query进行用户意图判定，确定用户意图，包括：

S1001、根据所述预设用户意图分类体系，通过文本分类确定所述query相关的若干垂直领域；

S1002、选取所有所述垂直领域中的所有意图分类器，通过每个所述意图分类器确定与所述query相关的若干意图。

在一种可能的实现方式中，在步骤S300中，所述获取句子相似度，包括：

S3001、基于TF-IDF算法与词语预训练模型构建句子向量；

S3002、根据构建的所述句子向量，获取句子向量相似度，并计算对应的句子相似度。

在一种可能的实现方式中，还包括：

S3003、根据所述句子向量相似度和预设特征，构建排序公式Score_query-内容：

Score_query-内容＝w1×N个句子向量相似度+w2×预设特征；其中，w1和w2为系数；预设特征包括：用户意图排序、内容结构化信息和query词在内容文本中的词间平均距离。

在一种可能的实现方式中，还包括：

S3004、根据Score_query-内容获取排序结果；基于排序结果对所述数据集进行排序展示。

根据本公开的另一方面，提供了一种基于文本相关性和用户意图的智能检索排序装置，包括用户意图确定模块、数据集获取模块和排序展示模块，其中，

所述用户意图确定模块：用于接收用户query，根据预设用户意图分类体系对所述query进行用户意图判定，确定用户意图；

所述数据集获取模块：用于根据确定的所述用户意图，利用所述query的文本相关性和用户意图信息在数据库中进行内容召回，获取与所述用户意图相关的数据集；

所述排序展示模块：用于获取句子相似度，根据所述句子相似度对获取的所述数据集进行排序展示；

所述用户意图确定模块、数据集获取模块和排序展示模块依次电性连接。

在一种可能的实现方式中，所述排序展示模块包括：

句子向量构建模块：用于基于TF-IDF算法与词语预训练模型构建句子向量；

句子相似度获取模块：用于根据构建的所述句子向量，获取句子向量相似度，并计算对应的句子相似度；

所述句子向量构建模块和句子相似度获取模块电性连接。

在一种可能的实现方式中，还包括：

排序公式构建模块：用于根据所述句子向量相似度和预设特征，构建排序公式Score_query-内容：

Score_query-内容＝w1×N个句子向量相似度+w2×预设特征；其中，w1和w2为系数；预设特征包括：用户意图排序、内容结构化信息和query词在内容文本中的词间平均距离；

所述句子相似度获取模块和所述排序公式构建模块电性连接。

在一种可能的实现方式中，还包括：

展示模块：用于接收来自所述排序公式构建模块的排序结果；并基于排序结果对所述数据集进行排序展示；

所述排序公式构建模块和所述展示模块电性连接。

根据本公开的另一方面，还提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现上述所述的基于文本相关性和用户意图的智能检索排序方法。

本申请通过接收用户query，根据预设用户意图分类体系对所述query进行用户意图判定，确定用户意图；根据确定的所述用户意图，利用所述query的文本相关性和用户意图信息在数据库中进行内容召回，获取与所述用户意图相关的数据集；获取句子相似度，根据所述句子相似度对获取的所述数据集进行排序展示；通过文本相关性和用户意图两种特征召回相应内容，在搜索引擎中融入了query的意图和语义信息，使用户能够高效准确地得到想要的应用和服务。

本申请通过融合TF-IDF和词语预训练模型特征的计算句子相似度，可以对两句话的相似度计算，有效把握分词在query和内容中的出现频率计算，更精准地检索到与用户意图相关度的结果。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1为本发明智能检索排序方法的实施流程示意图；

图2为本发明句子相似度的获取流程示意图；

图3为本发明智能检索排序装置的组成示意图；

图4为本发明电子设备的组成示意图；

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图1所示，根据本公开的一方面，提供了一种基于文本相关性和用户意图的智能检索排序方法，包括如下步骤：

首先依据互联网常用服务设计一套用户意图分类体系，该体系一共分为两层，第一层为互联网服务常见的垂直领域，如出行、金融等。第二层为垂直领域下的用户具体意图，如出行垂直领域下的订火车票、订机票意图等。

同时，对于常用互联网应用和互联网应用中的服务，以及服务中的内容，本发明也按照垂直领域和垂直领域下的用户意图进行分类。

当系统接收到一条query时，首先对query的用户意图进行判定，通过用户意图分类体系对所述query进行用户意图判定后，可以确定用户意图。

本发明通过文本相关性和用户意图两种特征召回相应内容，在匹配过程中融入用户query的深层语义信息和意图信息，使用户能够高效准确的触达想要的应用和服务。

在召回阶段，利用query分词的文本相关性和用户意图信息在数据库中对内容进行召回，可以得到相关用户意图下的服务/内容集合和搜索词语义相关的服务/内容集合，这个集合可以作为系统内容排序的初始集合。

即，获取与所述用户意图下的服务/内容集合和搜索词语义相关的数据集。

其中，句子相似度采用了融合TF-IDF和词语预训练模型进行获取。

为了有效把握分词在query和内容中的出现频率计算，更精准地检索到与用户意图相关度的结果，通过根据句子相似度和用户意图判定排序的对内容库中的服务/内容进行排序和展示，在排序阶段，利用query的语义信息特征和用户意图的判定顺序特征，根据所述句子相似度对获取的所述数据集进行排序展示，使得展示结果更为精准，其展示结果高度符合用户意图。

这样，通过文本相关性和用户意图两种特征召回相应内容，在搜索引擎中融入了query的意图和语义信息，使用户能够高效准确地得到想要的应用和服务。本申请通过融合TF-IDF和词语预训练模型特征的计算句子相似度，可以对两句话的相似度计算，有效把握分词在query和内容中的出现频率计算，更精准地检索到与用户意图相关度的结果，以解决现有技术存在的传统搜索引擎在匹配过程中没有融入用户query的深层语义信息和意图信息而不能使用户能够高效准确的得到想要的应用和服务、以及不能够利用传统的TF-IDF方法进行两句话的相似度计算的技术问题。

用户意图分类体系的设计为本领域常规设计体系，可以由用户进行选择，本处不做限定。

在本实施例提供的两个步骤中，仅仅是采用了上述两层设计，可以结合具体的搜索环境等特征进行设定。

在传统的词语相似度计算中，有些词在query中出现但是没有在内容中出现，有些词出现在内容中但是没有出现在query中，这种情况下不能利用传统的TF-IDF方法进行两句话的相似度计算。

因此，本发明基于TF-IDF算法与词语预训练模型，计算句子相似度；根据句子相似度和用户意图判定排序的对内容库中的服务/内容进行排序和展示。

具体实施上，首先采用TF-IDF算法与词语预训练模型相结合的方式构建句子向量，继而对两句话进行相似度计算。

其中，词语预训练模型事先在大规模语料中进行训练。词语预训练模型可以利用Word2vec、Glove、Bert等多种方式训练得出。

获取句子相似度的计算步骤如下：

如图2所示，在一种可能的实现方式中，在步骤S300中，所述获取句子相似度，包括：

S3001、基于TF-IDF算法与词语预训练模型构建句子向量；

具体如下构建要素，根据构建要素而建立句子向量：

向量维度：两句话词语的词袋大小

向量值：当词出现在语句中，为TF*IDF；当词没有出现在语句中，为Similarity*IDF，其中Similarity为该词与本句中所有词语的最大相似度(词向量余弦)；

句子向量相似度：余弦相似度；

词间平均距离：Query中分词在Item中的距离为Query词在Item中的间隔词数，多个词会取平均距离，分母为计算的词对总数。

上述要素设定完毕，采用TF-IDF算法与词语预训练模型相结合的方式，结合上述要素，并获取句子向量相似度；

根据句子向量相似度，计算对应的句子相似度。

例：

句A：我想买iphone；

句B：我想买mac；

词袋：我想买iphone mac；

而传统方法无法进行相似度计算，传统方法在进行计算时：每句话构建一个向量，每一维代表一个词，向量值为该词在句子中的TFIDF，句子中不存在的词TF为0。所以mac和iphone无法进行相似度计算。

例：

句A向量：[我:TFIDF,想:TFIDF,买:TFIDF,iphone:TFIDF,mac:0]；

句B向量：[我:TFIDF,想:TFIDF,买:TFIDF,iphone:0,mac:TFIDF]；

因此，根据本公开改进后计算方法，采用TF-IDF算法与词语预训练模型相结合的方式，获取句子向量相似度：对于句子中不存在的词，计算该词与本句中各词语义相似度，取最大值，即获得句子相似度。

例：

句A向量：

[我:TFIDF,想:TFIDF，买:TFIDF,iphone:TFIDF,Sim(iphone,mac)*IDF]；

句B向量：

[我:TFIDF,想:TFIDF,买:TFIDF,Sim(iphone,mac)*IDF,mac:TFIDF]；

在获取句子相似度后，可以初步根据句子相似度和用户意图判定排序的对内容库中的服务/内容进行排序和展示。

为了进一步地优化排序和展示结果，本申请结合了句子向量相似度和用户意图排序等在内的特征，对内容库中的服务/内容进行了升级优化，通过设定的排序公式Score_query-内容来优化排序结果，使得内容库中的服务/内容在检索后，其排序精度更高，更符合用户意图。具体的，

如附图2所示，在一种可能的实现方式中，还包括：

其中，本实施例，N取值根据待计算的语句设定。w1和w2为系数，根据用户实施而自行设定即可。

排序公式Score_query-内容，结合了句子向量相似度和用户意图排序等在内的特征，利用query的语义信息特征和用户意图的判定顺序特征对内容库中的服务/内容进行排序和展示，对于句子中不存在的词，或者有些在query中出现但是没有在内容中出现的词，有些出现在内容中但是没有出现在query中的词，皆可在句子向量相似度计算之后，根据排序公式Score_query-内容进行排序，使得用户能够高效准确地得到想要的应用和服务。

在一种可能的实现方式中，还包括：

在最后的展示阶段，召回的服务/内容会按照Score_query-内容进行分值排名，由高到低的排序结果顺序对所述数据集进行排序展示给用户。

本发明结合了TF-IDF算法与词语预训练模型，改变了不能够利用传统的TF-IDF方法进行两句话的相似度计算的技术问题。通过融合TF-IDF和词语预训练模型特征的计算句子相似度，可以对两句话的相似度计算，有效把握分词在query和内容中的出现频率计算，更精准地检索到与用户意图相关度的结果。

需要说明的是，尽管以iphone mac作为示例介绍了如上句子相似度的计算方法，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定，只要即可。

实施例2

在对应实施例1所提供的一种基于文本相关性和用户意图的智能检索排序方法的基础上，本实施例对应提出一种装置，来实现上述方法。具体的：

如附图3所示，根据本公开的另一方面，提供了一种基于文本相关性和用户意图的智能检索排序装置，包括用户意图确定模块、数据集获取模块和排序展示模块，其中，

所述用户意图确定模块确定完毕用户意图后，将获取的数据信号通过有线或者无线等方式发送至所述数据集获取模块，在经过所述数据集获取模块处理并进行内容召回，获取与所述用户意图相关的数据集，其后通过所述排序展示模块计算排序，根据所述句子相似度对获取的所述数据集进行排序展示。

排序展示模块的构建以及涉及的技术方案，均基于实施例1所述的方法所提供的技术作为基础，下面将不对排序展示模块所包含的方案具体描述，各个模块的执行，详见实施例1。

在一种可能的实现方式中，所述排序展示模块包括：

所述句子向量构建模块和句子相似度获取模块电性连接。

在一种可能的实现方式中，还包括：

所述排序公式构建模块和所述展示模块电性连接。

需要说明的是，尽管以作为示例介绍了如上，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定，只要即可。

实施例3

如图4所示，更进一步地，根据本公开的另一方面，还提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的电子设备中，还可以包括输入装置和输出装置。其中，处理器、存储器、输入装置和输出装置之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例1所述的基于文本相关性和用户意图的智能检索排序方法所对应的程序或模块。

处理器通过运行存储在存储器中的软件程序或模块，从而执行电子设备的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中，信号可以为产生与电子设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示电子设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于文本相关性和用户意图的智能检索排序方法，其特征在于，包括如下步骤：

S300、获取句子相似度，根据所述句子相似度对获取的所述数据集进行排序展示；

在步骤S300中，所述获取句子相似度，包括：

S3001、基于TF-IDF算法与词语预训练模型构建句子向量；

S3002、根据构建的所述句子向量，获取句子向量相似度，并计算对应的句子相似度；

具体如下构建要素，根据构建要素而建立句子向量：

向量维度：两句话词语的词袋大小；

向量值：当词出现在语句中，为TF*IDF；当词没有出现在语句中，为Similarity*IDF，其中Similarity为该词与本句中所有词语的最大相似度；

句子向量相似度：余弦相似度；

2.根据权利要求1所述的一种基于文本相关性和用户意图的智能检索排序方法，其特征在于，在步骤S100中，所述预设用户意图分类体系，根据所述预设用户意图分类体系对接收的query进行用户意图判定，确定用户意图，包括：

3.根据权利要求1所述的一种基于文本相关性和用户意图的智能检索排序方法，其特征在于，还包括：

4.一种基于文本相关性和用户意图的智能检索排序装置，其特征在于，包括用户意图确定模块、数据集获取模块和排序展示模块，其中，

所述用户意图确定模块、数据集获取模块和排序展示模块依次电性连接；

所述排序展示模块包括：

所述句子向量构建模块和句子相似度获取模块电性连接；

还包括：

所述句子相似度获取模块和所述排序公式构建模块电性连接；

具体如下构建要素，根据构建要素而建立句子向量：

向量维度：两句话词语的词袋大小

句子向量相似度：余弦相似度；

5.根据权利要求4所述的一种基于文本相关性和用户意图的智能检索排序装置，其特征在于，还包括：

所述排序公式构建模块和所述展示模块电性连接。

6.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至3中任意一项所述的基于文本相关性和用户意图的智能检索排序方法。