CN115309872A

CN115309872A - 一种基于Kmeans召回的多模型熵加权检索方法及系统

Info

Publication number: CN115309872A
Application number: CN202211250778.9A
Authority: CN
Inventors: 李韦; 谭伟; 黎明; 王允; 朱苑萍
Original assignee: Shenzhen Longguangyunzhong Intelligent Technology Co ltd
Current assignee: Shenzhen Longguangyunzhong Intelligent Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2022-11-08
Anticipated expiration: 2042-10-13
Also published as: CN115309872B

Abstract

本发明公开了一种基于Kmeans召回的多模型熵加权检索方法及系统，方法包括以下步骤：S1.对文档数据集D进行清洗、聚类，利用聚类后的数据集D对BER模型进行微调得到训练好的模型；S2.将文档数据集D及其关键词输入至训练好的模型，输出候选文档向量；S3.将待检索语句分别进行不同指标类型的编码，得到待检索句的综合向量；S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇；S5.计算待检索句与最相似的簇中文档的相似度值，按照相似度值进行排序推荐检索结果。本发明基于多模型并行召回策略，充分考虑语义的相关性，提高了检索响应速度。

Description

一种基于Kmeans召回的多模型熵加权检索方法及系统

技术领域

本发明涉及检索技术领域，更具体地，涉及一种基于Kmeans召回的多模型熵加权检索方法及系统。

背景技术

从简单的数据库搜索到复杂的网络搜索引擎，信息检索涉及到为用户查询所需的相关信息，并对相关的文档按照一定规则进行排序。排序是信息检索的核心问题，目前主要有相关度排序模型、重要性排序模型和学习排序模型。其中，相关性排序模型根据查询量和文档之间的相似度对文档进行排序，如布尔模型、BM25，该方法考虑了词频相关性但并未考虑语义信息，通过若干子策略精排检索结果，该方法适用于精准检索领域(查询量一定出现在检索结果中)；重要性排序模型不考虑查询量，仅根据文档间的图结构来判断文档的权威程度，如PageRank、TextRank算法等，该方法可以分析文档间的关系，但是检索准确率不高；学习排序模型利用机器学习算法来解决排序问题，提取语料库中句子相应的特征(既包括查询量和文档间的各种相关度，也包括文档本身的特征及重要性等)，通过人工或从粗排列表中得到文档相关性标注，最终使用模型学习排序列表，如RankNet、LambdaRank算法等，该类算法模型可以挖掘不同语料之间的语义信息关系，实现语义层面的关联检索，但是训练样本需求量较大，数据标准经验程度较高，流程复杂，对于精准检索中条款定位准确性提升有限。

现有的技术方案中主要存在以下问题，1、硬匹配扩展性不强，考虑不到语义相关性，泛化能力差；2、通过传统的TFIDF以及one-hot，存在维度灾难，高维稀疏，计算复杂，如果检索词不在词库中，无法计算，泛化能力差；3、通过BERT预训练模型得到的词向量学到语义关系，在进行相似度计算时，没有考虑字符长度文问题，检索词都是比较短，但是文档会比较长，这种语义计算存在误差。

发明内容

本发明为克服上述现有技术中检索方法，没有考虑语义相关性，语义能力弱，检索响应速度慢的缺陷，提供一种基于Kmeans召回的多模型熵加权检索方法及系统。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法，包括以下步骤：

S1.对文档数据集D进行清洗、聚类，利用聚类后的数据集D对BERT模型进行微调得到训练好的模型；

S2.将文档数据集D及其关键词输入至训练好的模型，输出候选文档向量；

S3.将待检索语句分别进行不同指标类型的编码，得到待检索句的综合向量；

S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇；

S5.计算待检索句与最相似的簇中文档的相似度值，按照相似度值进行排序推荐检索结果。

进一步的，对文档数据集D进行清洗具体过程为：对文档数据集D进行文本分词、去停用词、得到清洗后数据集

。

进一步的，步骤S1中还包括：利用清洗后的文档数据集训练TFIDF算法模型，得到每个词的TFIDF权重向量

,并将训练后的TFIDF算法模型序列化到本地。

进一步的，步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型，具体为：

对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心

然后对样本进行类簇标签标记得到

,

,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型，类别数是N，获取微调后的向量，并保存模型至本地。

进一步的，将文档数据集D及其关键词输入至训练好的模型，输出候选文档向量具体为：利用TFIDF算法提取文档数据集D的关键词，将所述关键词及文档数据集D输入至训练好的BERT模型，输出候选文档向量，所述文档向量包括

，

，具体表达式为：

其中，

表示清洗后的文档，k表示

中每个样本提取的前k个关键词，

则是经过微调后的模型。

进一步的，在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重，确定不同指标的权重具体步骤为：

离线获取经过验证的与检索相关度高的候选答案M条，其中，M≥500，分别从三个维度进行检索词与候选文档的量化编码，所述三个维度包括：样本的TFIDF表示，样本原始BERT向量表示，样本提取关键词BERT向量表示；

分别计算检索词与候选文档在所述三个维度的余弦距离，得到3个维度指标共计M条数据记为

；

将得到的三个维度指标进行归一化处理：

其中，

表示第i个样本第j个指标，

表示归一化处理后的第i个样本第j个指标；

计算各个指标的信息熵

：

其中

；

由熵值法计算的各个指标的权重

为：

其中，

表示类簇数，j的取值为1、2及3。

进一步的，待检索句的综合向量综合向量表示为：

TFIDF表示待检索句的TFIDF向量，

表示待检索句的原始BERT向量，

表示待检索句的样本提取关键词BERT向量。

进一步的，利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇；具体为：

计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度，将相似度值最大的簇作为最相似的簇。

进一步的，计算待检索句与最相似的簇中文档的相似度值，表达式为：

,

,

其中，

表示指标权重，

、

、

分别表示三个维度的相似度。

本发明第二方面提供了一种基于Kmeans召回的多模型熵加权检索系统，该系统包括：存储器、处理器，所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序，所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤：

与现有技术相比，本发明技术方案的有益效果是：

本发明基于多模型并行召回策略，对于词和语义采用不同模型，通过引入BERT增强语义表示，并利用熵值法确定不同模型的权重比例；同时引入均值聚类算法减少无关数据，减少不必要的计算，提高检索响应速度。

附图说明

图1为本发明一种基于Kmeans召回的多模型熵加权检索方法流程图。

图2为本发明一种基于Kmeans召回的多模型熵加权检索系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法，包括以下步骤：

需要说明的是，本发明首先首先对文档数据集D进行清洗，清洗过程具体包括：对文档数据集D进行文本分词、去停用词、得到清洗后数据集

。

在对文档数据集D进行清洗之后再分别进行聚类和TFIDF权重训练，TFIDF权重训练，即利用清洗后的文档数据集训练TFIDF算法模型，得到每个词的TFIDF权重向量

,并将训练后的TFIDF算法模型序列化到本地。

在本发明中采用Kmeans算法进行聚类，具体为：对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心

然后对样本进行类簇标签标记得到

,

利用TFIDF算法提取文档数据集D的关键词，将所述关键词及文档数据集D输入至训练好的BERT模型，输出候选文档向量，所述文档向量包括

，

，具体表达式为：

其中，

表示清洗后的文档，k表示

中每个样本提取的前k个关键词，

则是经过微调后的模型。

需要说明的是，将待检索句子先进行清洗，得到对应的分词文件以及提取对应的关键词，进行不同指标类型的编码量化后得到对应的向量，

，TFIDF表示待检索句的TFIDF向量，

表示待检索句的原始BERT向量，

表示待检索句的样本提取关键词BERT向量，则待检索句的综合向量综合向量表示为：

。S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇；

确定最相似的簇具体过程为：

得到最相似的簇后过滤掉不相关的数据，然后与簇对应的候选文档集中的文档进行相似度计算，并加权对应的权重，计算待检索句与最相似的簇中文档的相似度值，表达式为：

,

,

其中，

表示指标权重，

、

、

分别表示三个维度的相似度。需要说明的是，将待检索句与最相似的簇对应候选文档集中的每个文档进行相似度计算，均得到一个对应的相似度得分

。将

进行从大到小排序，然后按照排序推荐检索结果。

需要说明的是，在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重，确定不同指标的权重具体步骤为：

；