CN111444320A

CN111444320A - 文本检索方法、装置、计算机设备和存储介质

Info

Publication number: CN111444320A
Application number: CN202010545374.7A
Authority: CN
Inventors: 时爱民; 杨刚; 叶俊锋; 仲如星
Original assignee: Taiping Finance Technology Services Shanghai Co ltd
Current assignee: TAIPING FINANCE TECHNOLOGY SERVICES (SHANGHAI) Co.,Ltd.; Taiping General Insurance Co.,Ltd.
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-07-24
Anticipated expiration: 2040-06-16
Also published as: CN111444320B

Abstract

本申请涉及一种文本检索方法、装置、计算机设备和存储介质。所述方法通过响应于文本检索请求，将文本检索请求中的检索语句在待检索文本集中通过TF‑IDF算法进行匹配，得到匹配的设定个数的候选文本，并通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，并根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，进而根据目标个数的候选文本中每个候选文本相对于检索语句的历史关联度的大小对目标个数的候选文本进行排序，其通过两次筛选和排序从而实现基于语义理解的文本检索，不仅提高了文本检索的匹配度，且提高了检索效率。

Description

文本检索方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本检索技术领域，特别是涉及一种文本检索方法、装置、计算机设备和存储介质。

背景技术

随着文本检索技术的发展，越来越多的场合需要用到文本检索。传统技术中，文本检索通常是基于关键词的检索，其更强调字面内容的精确匹配，即待检索文本中必须包含与用户的检索语句完全一致的词汇，才能检索到匹配的目标文本。

然而，目前基于关键词的检索的文本检索方式存在匹配度低的问题，从而严重影响了检索效率。

发明内容

基于此，有必要针对上述精确匹配导致检索效率低的问题，提供一种文本检索方法、装置、计算机设备和存储介质。

根据本申请的第一方面，提供一种文本检索方法，所述方法包括：

响应于文本检索请求，其中，文本检索请求中包括检索语句；

将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；

根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；

通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，其中语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；

根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；

计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，根据所述历史关联度的大小对所述目标个数的候选文本进行排序，所述历史关联度根据对应候选文本的历史点击率和历史下载率得到；

将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。

在其中一个实施例中，将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，包括：根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值；根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序；将排序靠前的设定个数的待检索文本作为匹配的候选文本。

在其中一个实施例中，根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，包括：计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度；将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度；根据候选文本的相似度的大小对候选文本进行排序；将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

在其中一个实施例中，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本之前，所述方法还包括：获取历史检索数据，其中，历史检索数据中包括历史检索语句以及与历史检索语句对应的历史目标检索文本；若历史检索数据中不存在与检索语句匹配的历史检索语句，则将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本；若历史检索数据中存在与检索语句匹配的历史检索语句，则将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。

在其中一个实施例中，所述方法还包括：计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，包括：根据检索语句在目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应的候选文本；采用如下公式计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，所述公式为：

，其中，C为候选文本相对于检索语句的历史关联度，R为根据候选文本的历史点击率和历史下载率分别对应的权重得到的关联度系数，T为目标个数，D为匹配的文本数量。

在其中一个实施例中，语义表示学习模型的生成方法包括：获取训练数据集，其中，训练数据集包括若干个保险领域的非结构化文本数据；根据文本特征对每一个非结构化文本数据进行文本拆分，得到拆分后的多个文本段，其中，文本特征包括文本的字体属性、字号属性以及内容标识属性；对每个文本段进行向量编码，得到与文本段对应的特征向量；根据特征向量训练初始语义表示预训练模型，得到语义表示学习模型。

在其中一个实施例中，对每个文本段进行向量编码，得到与文本段对应的特征向量，包括：对每一个文本段分别进行字向量编码、文本向量编码以及位置向量编码，得到对应文本段的字向量、文本向量以及位置向量；将字向量、文本向量以及位置向量之和作为对应文本段的特征向量。

根据本申请的第二方面，提供一种文本检索装置，包括：

请求响应模块，用于响应于文本检索请求，其中文本检索请求中包括检索语句；

第一匹配模块，用于将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；

文本段处理模块，用于根据文本特征对所述候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；

特征向量获取模块，用于通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本的第二特征向量；

目标检索文本确定模块，用于根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；

第二匹配模块，用于根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；

排序模块，用于计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，根据历史关联度的大小对目标个数的候选文本进行排序，所述历史关联度根据对应候选文本的历史点击率和历史下载率得到；

目标检索文本确定模块，用于将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本。

根据本申请的第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面的任一项实施例中所述的文本检索方法。

根据本申请的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的任一项实施例中所述的文本检索方法。

上述文本检索方法、装置、计算机设备和存储介质，通过响应于文本检索请求，将文本检索请求中的检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段，并通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，进而根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，根据历史关联度的大小对目标个数的候选文本进行排序，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本，其通过两次筛选及排序从而实现基于语义理解的文本检索，不仅提高了文本检索的匹配度，且提高了检索效率。

附图说明

图1为一个实施例中文本检索方法的流程示意图；

图2为一个实施例中匹配候选文本的步骤的流程示意图；

图3为一个实施例中获取相似度较高的目标个数的候选文本的步骤的流程示意图；

图4为另一个实施例中确定目标检索文本的步骤的流程示意图；

图5为一个实施例中语义表示学习模型的生成步骤的流程示意图；

图6为一个实施例中模型训练的步骤的流程示意图；

图7为一个实施例中文本检索方法的具体实现流程示意图；

图8为一个实施例中文本检索装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本检索方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤110，响应于文本检索请求。

其中，文本检索请求中包括检索语句，检索语句则是用于进行检索的关键语句。具体地，当用户需要进行文本检索时，可以根据检索需求构造检索语句，从而通过检索语句发起文本检索请求，终端则响应于用户的文本检索请求，即通过后续步骤对用户的文本检索请求进行处理。

步骤120，将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本。

其中，待检索文本集是为文本检索提供的检索素材，待检索文本集中包括若干个待检索文本。候选文本则是根据检索语句从待检索文本集中初步筛选后得到的待检索文本。TF-IDF（term frequency-inverse document frequency）算法是一种用于信息检索与数据挖掘的加权技术，TF表示词频（Term Frequency），指的是某一个给定的词语在该文件中出现的频率，也即检索语句在某一待检索文本中出现的频率；IDF表示逆文本频率指数（Inverse Document Frequency），是一个词语普遍重要性的度量。具体地，通过TF-IDF算法对待检索文本集中的待检索文本按照与检索语句的匹配度进行排序，并选取匹配度高的设定个数的待检索文本作为候选文本，其中，设定个数是指选取待检索文本作为候选文本的个数，其具体可以根据实际需要进行设定。

步骤130，根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段。

其中，文本特征包括文本的字体属性、字号属性以及内容标识属性，例如，对于文本中的标题和正文之间，主要区别在于：字体、字号大小、是否加粗、是否具有标题或正文等标识属性的不同，因此，在对候选文本进行拆分时，可以考虑根据这些属性进行拆分，如可以以标题为拆分节点，而将候选文本拆分为多个不同标题的文本段。XGBoost是一个优化的分布式梯度增强库，在本实施例中，通过XGBoost算法标注拆分后的文本段的重要性标签，即将文本段标注为重要文本段或不重要文本段。具体地，候选文本可以是保险领域的非结构化文本数据，一般为保险条款或者实务手册等数据，其通常包括若干个文本段，由于对较大的文本数据直接进行后续处理会花费较多的时间，且当文本数据中存在干扰时也会影响到后续检索的准确度。因此，在本实施例中，按上述文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，并采用XGBoost算法为拆分后的每个文本段标注重要性标签，进而筛选每个候选文本对应的多个文本段中的重要文本段，即过滤掉每个候选文本中的不重要文本段，从而减少后续处理的数据量，提高处理速度以及检索的准确度。

具体地，首先由业务专家依据业务经验，对部分文本段进行标签的标注（标签主要分为：重要和不重要两种标签）。将这些标注好的文本段，作为文本段重要性筛选模型的训练数据，在本实施例中采用XGBoost作为标注模型，XGBoost算法的主要流程如下：

输入：训练集样本

，最大迭代次数为T，损失函数为L，正则化系数包括

和

。

输出：强学习器

，对迭代轮数

（其中，T为非零的自然数），则有：

1）计算第i个样本在当前轮损失L的作用下基于

的一阶导数

，和二阶导数

，其中，m为非零的自然数，计算所有样本的一阶导数之和

，及二阶导数之和

。

2）基于当前节点尝试分裂决策树。默分数score=0，若当前需要分裂节点的一阶导数之和为G，二阶导数之和为H。

对特征序号

，其中，k为非零的自然数，则有：

a）

，

，其中，

为当前需要分裂节点位于左子树的一阶导数之和，

为当前需要分裂节点位于左子树的二阶导数之和。

b）将样本按照特征序号

，从小到大排列，依次取出第i个样本，依次计算当前样本放入左右子树后，左右子树一阶导数之和和二阶导数之和：

，

；

，

，其中，

为当前需要分裂节点位于右子树的一阶导数之和，

为当前需要分裂节点位于右子树的二阶导数之和。

c）尝试更新最大的分数：

。

3）基于最大

对应的划分特征和特征值分裂子树。

4）如果最大

为0，则当前决策树建立完毕，计算所有叶子区域的

，得到弱学习器

，更新强学习器

，进入下一轮弱学习器迭代，如果最大

不是0，则转到第2）步继续尝试分裂决策树。

步骤140，通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量。

其中，语义表示学习模型则是采用训练数据集进行训练后得到的，从而使其能够学习到训练数据集中字的特征和文本的句子级别的语义表征，其具体可以是基于语义表示预训练模型（Bidirectional Encoder Representations from Transformers，简称BERT）的网络架构实现。检索语句的第一特征向量是指对检索语句进行向量编码后，得到的能够表征检索语句语义的特征向量；每个候选文本中重要文本段的第二特征向量是指对每个候选文本中重要文本段一一进行向量编码后，得到的能够表征对应文本段语义的特征向量。在本实施例中，为了便于区分检索语句的特征向量和候选文本中重要文本段的特征向量，通过第一特征向量和第二特征向量加以区别。在本实施例中，通过语义表示学习模型对检索语句和每个候选文本中重要文本段分别进行特征提取，从而得到检索语句的第一特征向量和每个候选文本中重要文本段分别对应的第二特征向量，进而采用后续步骤从候选文本中确定与检索语句对应的目标检索文本。

步骤150，根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本。

其中，目标个数小于设定个数。在本实施例中，可以通过向量的相似度算法计算检索语句的第一特征向量与每个候选文本中重要文本段的第二特征向量之间的相似度，从而得到候选文本中每个重要文本段与检索语句之间的相似度，并将相似度最高的重要文本段的相似度作为对应候选文本与检索语句之间的相似度，基于此确定每个候选文本与检索语句之间的相似度，并获取相似度较高的目标个数的候选文本，从而进一步缩小检索结果的范围。

步骤160，计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，根据历史关联度的大小对目标个数的候选文本进行排序。

其中，历史关联度可以根据对应候选文本相对于检索语句的历史点击率和历史下载率得到，当某一候选文本与检索语句的相关性较强时，且其对应的历史点击率和历史下载率越高，则其对应的历史关联度就越高。在本实施例中，历史关联度可以根据实际场景中设定的历史点击率和历史下载率的权重计算得到。具体地，计算目标个数的候选文本中每个候选文本的历史关联度，进而根据历史关联度的大小对目标个数的候选文本进行排序，从而根据历史关联度对检索结果进行排序优化。

步骤170，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本。

其中，目标检索文本是指根据用户的文本检索请求进行处理后，从候选文本中锁定并优化的与检索语句对应的最终检索结果。

上述文本检索方法中，通过响应于文本检索请求，将文本检索请求中的检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段，通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，并根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，进而根据目标个数的候选文本中每个候选文本相对于检索语句的历史关联度的大小对目标个数的候选文本进行排序，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本，其通过两次筛选从而实现基于语义理解的文本检索，并根据历史关联度对筛选后的结果进行排序而得到最终检索结果，不仅提高了文本检索的匹配度，且提高了检索效率及准确度。

在一个实施例中，如图2所示，在步骤120中，将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，具体可以通过以下步骤实现：

步骤121，根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值。

其中，TF-IDF值则是采用TF-IDF算法得到的待检索文本与检索语句之间的相关性度量值，也可称为相似度或匹配度，其通过词频TF与逆文本频率指数IDF的乘积得到。在本实施例中，根据检索语句并采用TF-IDF算法，通过计算得到待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值。

步骤122，根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序。

具体地，TF-IDF值的大小用于表征对应待检索文本与检索语句的匹配度，即待检索文本的TF-IDF值越大，则其与检索语句的匹配度越高，待检索文本的TF-IDF值越小，则其与检索语句的匹配度越低。因此，根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序，也就是根据每一个待检索文本与检索语句的匹配度进行的排序。

步骤123，将排序靠前的设定个数的待检索文本作为匹配的候选文本。

在本实施例中，根据预先设定个数截取排序结果中排序靠前的待检索文本，并将截取的待检索文本作为候选文本。

上述实施例中，通过采用TF-IDF算法得到每一个待检索文本与检索语句之间的TF-IDF值，也即相关性度量值，进而对待检索文本集中的待检索文本进行排序，根据排序结果得到与检索语句匹配的候选文本，由于在候选文本的选择过程中不仅考虑了词频，还考虑了逆文本频率指数，从而实现了对待检索文本集进行有效的初步筛选。

在一个实施例中，如图3所示，步骤150中，根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，具体可以通过以下步骤实现：

步骤151，计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度。

具体地，相似度的计算方法具体可以采用距离算法或余弦算法实现，其中，距离算法是指计算两个特征向量（即每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量）之间的距离，距离越近则表示相似度越大，距离越远则表示相似度越小。余弦算法则是计算两个特征向量之间形成的夹角的余弦值，该值越大，说明夹角越大，相似度就越小，该值越小，则说明夹角越小，相似度也就越大。在本实施例中，通过上述计算规则进行计算，从而得到每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度。

步骤152，将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度。

具体地，当某一候选文本中具有多个重要文本段时，则计算该候选文本中每一个重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度，并将相似度最高的重要文本段的相似度确定为对应候选文本的相似度，据此可以获取每一个候选文本的相似度。

步骤153，根据候选文本的相似度的大小对候选文本进行排序。

具体地，根据上述计算得到的每一个候选文本与检索语句之间的相似度的大小，对候选文本进行排序，具体可以根据相似度的大小按由大到小的顺序进行排序，从而得到排序结果。

步骤154，将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

具体地，可以根据预先设定的目标个数，从排序结果中截取相似度较高的目标个数的候选文本。在本实施例中，以排序结果是根据相似度的大小按由大到小的顺序进行排序后得到为例进行说明，则从排序结果中截取排序靠前的目标个数的候选文本，从而得到与检索语句的相似度较高的目标个数的候选文本。

上述实施例中，通过计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度，并得到对应候选文本的相似度，根据相似度的大小对候选文本进行排序，进而根据排序结果确定与检索语句对应的相似度较高的目标个数的候选文本，从而实现基于语义理解的文本检索，即相似度较高的候选文本可能在字面上并不完全与检索语句相匹配，但是两者在深层语义方面较相近。

在一个实施例中，如图4所示，在步骤154中，将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本之前，文本检索方法还包括如下步骤：

步骤401，获取历史检索数据。

其中，历史检索数据是指历史时期的检索日志或检索记录数据，具体包括历史检索语句以及与历史检索语句对应的历史目标检索文本。在本实施例中，通过历史检索数据对本申请上述步骤获得的目标检索文本进行校验，从而实现为用户返回更加精确的检索结果。

步骤402，判断历史检索数据中是否存在与检索语句匹配的历史检索语句。

具体地，根据当前的检索语句在历史检索数据中查找匹配的历史检索语句，若历史检索数据中存在与当前的检索语句匹配的历史检索语句，则执行步骤404，若历史检索数据中不存在与当前的检索语句匹配的历史检索语句，则执行步骤403。

步骤403，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本。

具体地，若历史检索数据中不存在与检索语句匹配的历史检索语句，则将上述获得的排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本。即当历史检索数据中不存在与检索语句相同的历史检索语句时，将上述排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本，使得用户根据目标检索文本选择需要的文本。

步骤404，将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。

具体地，若历史检索数据中存在与检索语句匹配的历史检索语句，即当历史检索数据中存在与检索语句相同的历史检索语句时，则将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。从而向用户返回精确的检索结果。

在一个实施例中，计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，具体通过如下流程实现：

首先将检索语句在目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应匹配的候选文本，即得到包含该检索语句的候选文本，及包含该检索语句的候选文本的文本数量，进而根据每个候选文本的历史点击率和历史下载率分别对应的权重得到对应候选文本的关联度系数，并采用如下公式计算每个候选文本相对于检索语句的历史关联度，具体公式为：

具体地，历史点击率和历史下载率分别对应的权重可以是预先设定的历史点击率和历史下载率各自重要程度的百分比，通常两者分别对应的权重之和为1。例如，对于本申请的文本检索来说，当检索到目标文本后，通常会下载检索到的目标文本，因此，可以适当增加对于历史下载率的权重，而减小历史点击率的权重。如可以设定历史下载率的权重Y1为60%-80%，设定历史点击率的权重Y2为20%-40%。则根据每个候选文本的历史点击率和历史下载率分别对应的权重得到对应候选文本的关联度系数为，举例来说，若目标个数的候选文本中某一候选文本的点击率为1000次，其对应的下载率为600次，则该候选文本的关联度系数R=1000*Y2+600*Y1。据此得到目标个数的候选文本中每一个候选文本的关联度系数，进而根据上述公式计算每个候选文本相对于检索语句的历史关联度，从而使得根据历史关联度对目标个数的候选文本进行排序后得到的结果与检索语句具有强相关性，且检索结果更加准确也更加符合预期。

如图5所示，语义表示学习模型的生成方法包括如下步骤：

步骤510，获取训练数据集。

其中，训练数据集包括若干个保险领域的非结构化文本数据，具体地，非结构化文本数据是以文本（如字符、数字、标点、各种可打印的符号等）作为数据形式的非结构化的数据。例如可以是保险领域中的实际业务数据，如保险实务手册、保险规则条款等类型的非结构化文本数据，具体地，保险实务手册是指业务人员，在某个保险场景下，如对车险理赔等的指导性手册。

在本实施例中，为了获得提取检索语句与待检索文本的特征向量（该特征向量能够准确表达检索语句与待检索文本中字的特征和文本的句子级别的语义表征）的语义表示学习模型，首先需要准备对初始语义表示预训练模型进行训练的训练数据集，从而使得模型可以学习到字的特征和文本的句子级别的语义表征。其中，初始语义表示预训练模型可以采用BERT的网络架构实现。

步骤520，根据文本特征对每一个非结构化文本数据进行文本拆分，得到拆分后的多个文本段。

其中，文本特征包括文本的字体属性、字号属性以及内容标识属性，例如，对于文本中的标题和正文之间，主要区别在于：字体、字号大小、是否加粗、是否具有标题或正文等标识属性的不同，因此，在对非结构化文本数据进行拆分时，可以考虑根据这些属性进行拆分，如可以以标题为拆分节点，而将非结构化文本数据拆分为多个不同标题的文本段。具体地，候选文本可以是保险领域的非结构化文本数据，一般为保险条款或者实务手册等数据，其通常包括若干个文本段。在本实施例中，根据上述文本特征对每一个非结构化文本数据进行拆分，得到拆分后的与每个非结构化文本数据对应的多个文本段。在本实施例中，通过对训练数据集中每一个非结构化文本数据进行文本拆分处理后再用于模型训练，从而提高模型检索的准确性。

步骤530，对每个文本段进行向量编码，得到与文本段对应的特征向量。

其中，向量编码包括字向量编码、文本向量编码以及位置向量编码。具体地，如图6所示，通过将训练数据集中的非结构化文本数据中的每个文本段输入初始语义表示预训练模型，从而对非结构化文本数据中对应文本段进行向量编码。在本实施例中，通过初始语义表示预训练模型分别对训练数据集中的每一个非结构化文本数据中的文本段进行字向量编码（Token Embedding）、文本向量编码（Segment Embedding）以及位置向量编码（Position Embedding），从而得到对应文本段的字向量、文本向量以及位置向量。其中，字向量是将各个字符转换成固定维度的向量；文本向量的取值则在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字、词、或单字和词的语义信息相融合；位置向量则用于表示出现在文本不同位置的字或词所携带的语义信息的差异性。最后，通过文本段的字向量、文本向量以及位置向量得到对应非结构化文本数据的文本段的特征向量，即可以将其字向量、文本向量以及位置向量之和作为对应文本段的特征向量。

步骤540，根据特征向量训练初始语义表示预训练模型，得到语义表示学习模型。

具体地，如图6所示，通过上述得到的非结构化文本数据中每个文本段的特征向量对初始语义表示预训练模型进行微调（Fine-turning），以完成对初始语义表示预训练模型的训练，从而得到应用于保险领域的语义表示学习模型（Bert-Insurance）。

上述实施例中，通过采用保险领域的非结构化文本数据作为训练数据集，对初始语义表示预训练模型进行训练，从而使得模型可以学习到字的特征和文本的句子级别的语义表征，进而得到应用于保险领域的语义表示学习模型，在通过该模型进行特征向量提取时，可以得到表征文本语义的特征向量，从而可以实现基于语义理解的文本检索，且能够提高检索效率。

在一个实施例中，如图7所示，以下通过一个具体地实施例进一步说明本申请中的文本检索方法，具体地，包括如下步骤：

1）接收包括检索语句的文本检索请求。

2）根据检索语句对待检索文本集中的待检索文本进行排序。

具体排序方法可以采用TF-IDF的相关性算法进行取值排序，可参考如图2所示的流程，本实施例中不再赘述。

3）根据排序结果得到设定个数的候选文本。

4）根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段。

5）将检索语句和候选文本中每个重要文本段输入语义表示学习模型，通过该模型进行深层语言处理，并基于语义阅读理解，得到目标个数的候选文本。

其具体实现可参考如图3所示的流程，本实施例中不再对其进行赘述。

6）通过历史关联度对上述检索到的目标个数的候选文本进行排序，从而返回最终的检索结果，具体可参见如图4所示的流程。

应该理解的是，虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种文本检索装置，包括：请求响应模块801、第一匹配模块802、文本段处理模块803、特征向量获取模块804、第二匹配模块805、排序模块806和目标检索文本确定模块807，其中：

请求响应模块801，用于响应于文本检索请求，其中文本检索请求中包括检索语句；

第一匹配模块802，用于将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；

文本段处理模块803，用于根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；

特征向量获取模块804，用于通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，其中，语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；

第二匹配模块805，用于根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；

排序模块806，用于计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，根据历史关联度的大小对目标个数的候选文本进行排序，其中，历史关联度根据对应候选文本的历史点击率和历史下载率得到；

目标检索文本确定模块807，用于将排序后的所述目标个数的候选文本确定为与检索语句对应的目标检索文本。

在一个实施例中，第一匹配模块802具体用于：根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值；根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序；将排序靠前的设定个数的待检索文本作为匹配的候选文本。

在一个实施例中，第二匹配模块805具体包括：计算单元，用于计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度；将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度；排序单元，用于根据候选文本的相似度的大小对候选文本进行排序；目标检索文本确定单元，用于将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

在一个实施例中，上述目标检索文本确定单元还用于：获取历史检索数据，其中，历史检索数据中包括历史检索语句以及与历史检索语句对应的历史目标检索文本；若历史检索数据中不存在与检索语句匹配的历史检索语句，则将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本；若历史检索数据中存在与检索语句匹配的历史检索语句，则将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。

在一个实施例中，上述排序模块806还用于：计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，包括：根据检索语句在目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应的候选文本；采用如下公式计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，所述公式为：

在一个实施例中，特征向量获取模块804还包括模型训练单元，用于获取训练数据集，其中，训练数据集包括若干个保险领域的非结构化文本数据；根据文本特征对每一个非结构化文本数据进行文本拆分，得到拆分后的多个文本段，其中，文本特征包括文本的字体属性、字号属性以及内容标识属性；对每个文本段向量编码，得到与文本段对应的特征向量；根据特征向量训练初始语义表示预训练模型，得到语义表示学习模型。

在一个实施例中，模型训练单元还用于：对每一个文本段分别进行字向量编码、文本向量编码以及位置向量编码，得到对应文本段的字向量、文本向量以及位置向量；将字向量、文本向量以及位置向量之和作为对应文本段的特征向量。

关于文本检索装置的具体限定可以参见上文中对于文本检索方法的限定，在此不再赘述。上述文本检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检索文本集的待检索文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本检索方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种文本检索方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9及图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值；根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序；将排序靠前的设定个数的待检索文本作为匹配的候选文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度；将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度；根据候选文本的相似度的大小对候选文本进行排序；将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

在一个实施例中，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本之前，处理器执行计算机程序时还实现以下步骤：获取历史检索数据，其中，历史检索数据中包括历史检索语句以及与历史检索语句对应的历史目标检索文本；若历史检索数据中不存在与检索语句匹配的历史检索语句，则将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本；若历史检索数据中存在与检索语句匹配的历史检索语句，则将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，包括：根据检索语句在目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应的候选文本；采用如下公式计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，所述公式为：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取训练数据集，其中，训练数据集包括若干个保险领域的非结构化文本数据；根据文本特征对每一个非结构化文本数据进行文本拆分，得到拆分后的多个文本段，其中，文本特征包括文本的字体属性、字号属性以及内容标识属性；对每个文本段进行向量编码，得到与文本段对应的特征向量；根据特征向量训练初始语义表示预训练模型，得到语义表示学习模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对每一个文本段分别进行字向量编码、文本向量编码以及位置向量编码，得到对应文本段的字向量、文本向量以及位置向量；将字向量、文本向量以及位置向量之和作为对应文本段的特征向量。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值；根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序；将排序靠前的设定个数的待检索文本作为匹配的候选文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度；将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度；根据候选文本的相似度的大小对候选文本进行排序；将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

在一个实施例中，将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本之前，计算机程序被处理器执行时还实现以下步骤：获取历史检索数据，其中，历史检索数据中包括历史检索语句以及与历史检索语句对应的历史目标检索文本；若历史检索数据中不存在与检索语句匹配的历史检索语句，则将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本；若历史检索数据中存在与检索语句匹配的历史检索语句，则将与历史检索语句对应的历史目标检索文本，确定为与检索语句对应的目标检索文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，包括：根据检索语句在目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应的候选文本；采用如下公式计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度，所述公式为：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取训练数据集，其中，训练数据集包括若干个保险领域的非结构化文本数据；根据文本特征对每一个非结构化文本数据进行文本拆分，得到拆分后的多个文本段，其中，文本特征包括文本的字体属性、字号属性以及内容标识属性；对每个文本段进行向量编码，得到与文本段对应的特征向量；根据特征向量训练初始语义表示预训练模型，得到语义表示学习模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对每一个文本段分别进行字向量编码、文本向量编码以及位置向量编码，得到对应文本段的字向量、文本向量以及位置向量；将字向量、文本向量以及位置向量之和作为对应文本段的特征向量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本检索方法，其特征在于，所述方法包括：

响应于文本检索请求，所述文本检索请求中包括检索语句；

将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；

根据文本特征对所述候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；

通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量，所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；

根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；

2.根据权利要求1所述的文本检索方法，其特征在于，所述将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，包括：

根据TF-IDF算法获取待检索文本集中每一个待检索文本与所述检索语句之间的TF-IDF值；

根据每一个待检索文本与所述检索语句之间的TF-IDF值的大小对所述待检索文本进行排序；

将排序靠前的设定个数的待检索文本作为匹配的候选文本。

3.根据权利要求1所述的文本检索方法，其特征在于，所述根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，包括：

计算每一个所述候选文本中重要文本段的第二特征向量与所述检索语句的第一特征向量之间的相似度；

将所述候选文本中相似度最高的所述重要文本段的相似度确定为对应候选文本的相似度；

根据所述候选文本的相似度的大小对所述候选文本进行排序；

将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

4.根据权利要求1所述的文本检索方法，其特征在于，所述将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本之前，所述方法还包括：

获取历史检索数据，所述历史检索数据中包括历史检索语句以及与所述历史检索语句对应的历史目标检索文本；

若所述历史检索数据中不存在与所述检索语句匹配的历史检索语句，则将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本；

若所述历史检索数据中存在与所述检索语句匹配的历史检索语句，则将与所述历史检索语句对应的历史目标检索文本，确定为与所述检索语句对应的目标检索文本。

5.根据权利要求1所述的文本检索方法，其特征在于，所述计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，包括：

根据所述检索语句在所述目标个数的候选文本中进行全词匹配，得到匹配的文本数量以及对应的候选文本；

采用如下公式计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，所述公式为：

，其中，C为候选文本相对于所述检索语句的历史关联度，R为根据所述候选文本的历史点击率和历史下载率分别对应的权重得到的关联度系数，T为目标个数，D为匹配的文本数量。

6.根据权利要求1至5任一项所述的文本检索方法，其特征在于，所述语义表示学习模型的生成方法包括：

获取训练数据集，所述训练数据集包括若干个保险领域的非结构化文本数据；

根据文本特征对每一个所述非结构化文本数据进行文本拆分，得到拆分后的多个文本段，所述文本特征包括文本的字体属性、字号属性以及内容标识属性；

对每个文本段进行向量编码，得到与所述文本段对应的特征向量；

根据所述特征向量训练初始语义表示预训练模型，得到所述语义表示学习模型。

7.根据权利要求6所述的文本检索方法，其特征在于，所述对每个所述文本段进行向量编码，得到与所述文本段对应的特征向量，包括：

对每一个所述文本段分别进行字向量编码、文本向量编码以及位置向量编码，得到对应文本段的字向量、文本向量以及位置向量；

将所述字向量、文本向量以及位置向量之和作为对应所述文本段的特征向量。

8.一种文本检索装置，其特征在于，包括：

请求响应模块，用于响应于文本检索请求，所述文本检索请求中包括检索语句；

第一匹配模块，用于将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；

特征向量获取模块，用于通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量，所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；

第二匹配模块，用于根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；

排序模块，用于计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，根据所述历史关联度的大小对所述目标个数的候选文本进行排序，所述历史关联度根据对应候选文本的历史点击率和历史下载率得到；

目标检索文本确定模块，用于将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。