CN115309872B - 一种基于Kmeans召回的多模型熵加权检索方法及系统 - Google Patents

一种基于Kmeans召回的多模型熵加权检索方法及系统 Download PDF

Info

Publication number
CN115309872B
CN115309872B CN202211250778.9A CN202211250778A CN115309872B CN 115309872 B CN115309872 B CN 115309872B CN 202211250778 A CN202211250778 A CN 202211250778A CN 115309872 B CN115309872 B CN 115309872B
Authority
CN
China
Prior art keywords
model
document
retrieved
vector
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211250778.9A
Other languages
English (en)
Other versions
CN115309872A (zh
Inventor
李韦
谭伟
黎明
王允
朱苑萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longguangyunzhong Intelligent Technology Co ltd
Original Assignee
Shenzhen Longguangyunzhong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longguangyunzhong Intelligent Technology Co ltd filed Critical Shenzhen Longguangyunzhong Intelligent Technology Co ltd
Priority to CN202211250778.9A priority Critical patent/CN115309872B/zh
Publication of CN115309872A publication Critical patent/CN115309872A/zh
Application granted granted Critical
Publication of CN115309872B publication Critical patent/CN115309872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Kmeans召回的多模型熵加权检索方法及系统,方法包括以下步骤:S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BER模型进行微调得到训练好的模型;S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。本发明基于多模型并行召回策略,充分考虑语义的相关性,提高了检索响应速度。

Description

一种基于Kmeans召回的多模型熵加权检索方法及系统
技术领域
本发明涉及检索技术领域,更具体地,涉及一种基于Kmeans召回的多模型熵加权检索方法及系统。
背景技术
从简单的数据库搜索到复杂的网络搜索引擎,信息检索涉及到为用户查询所需的相关信息,并对相关的文档按照一定规则进行排序。排序是信息检索的核心问题,目前主要有相关度排序模型、重要性排序模型和学习排序模型。其中,相关性排序模型根据查询量和文档之间的相似度对文档进行排序,如布尔模型、BM25,该方法考虑了词频相关性但并未考虑语义信息,通过若干子策略精排检索结果,该方法适用于精准检索领域(查询量一定出现在检索结果中);重要性排序模型不考虑查询量,仅根据文档间的图结构来判断文档的权威程度,如PageRank、TextRank算法等,该方法可以分析文档间的关系,但是检索准确率不高;学习排序模型利用机器学习算法来解决排序问题,提取语料库中句子相应的特征(既包括查询量和文档间的各种相关度,也包括文档本身的特征及重要性等),通过人工或从粗排列表中得到文档相关性标注 ,最终使 用模型学习排序列表 ,如RankNet、LambdaRank算法等,该类算法模型可以挖掘不同语料之间的语义信息关系,实现语义层面的关联检索,但是训练样本需求量较大,数据标准经验程度较高,流程复杂,对于精准检索中条款定位准确性提升有限。
现有的技术方案中主要存在以下问题,1、硬匹配扩展性不强,考虑不到语义相关性,泛化能力差;2、通过传统的TFIDF以及one-hot,存在维度灾难,高维稀疏,计算复杂,如果检索词不在词库中,无法计算,泛化能力差;3、通过BERT预训练模型得到的词向量学到语义关系,在进行相似度计算时,没有考虑字符长度文问题,检索词都是比较短,但是文档会比较长,这种语义计算存在误差。
发明内容
本发明为克服上述现有技术中检索方法,没有考虑语义相关性,语义能力弱,检索响应速度慢的缺陷,提供一种基于Kmeans召回的多模型熵加权检索方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
进一步的,对文档数据集D进行清洗具体过程为:对文档数据集D进行文本分词、去停用词、得到清洗后数据集
Figure DEST_PATH_IMAGE001
进一步的,步骤S1中还包括:利用清洗后的文档数据集训练TFIDF算法模型,得到每个词的TFIDF权重向量
Figure DEST_PATH_IMAGE002
,并将训练后的TFIDF算法模型序列化到本地。
进一步的,步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,具体为:
对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心
Figure DEST_PATH_IMAGE003
然后对样本进行类簇标签标记得到
Figure DEST_PATH_IMAGE004
,
Figure DEST_PATH_IMAGE005
,
Figure DEST_PATH_IMAGE006
,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地。
进一步的,将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量具体为: 利用TFIDF算法提取文档数据集D的关键词,将所述关键词及文档数据集D输入至训练好的BERT模型,输出候选文档向量,所述文档向量包括
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
,具体表达式为:
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
表示清洗后的文档,k表示
Figure DEST_PATH_IMAGE012
中每个样本提取的前k个关键词,
Figure DEST_PATH_IMAGE013
则是经过微调后的模型。
进一步的,在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
分别计算检索词与候选文档在所述三个维度的余弦距离,得到3个维度指标共计M条数据记为
Figure DEST_PATH_IMAGE014
将得到的三个维度指标进行归一化处理:
Figure DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
表示第i个样本第j个指标,
Figure DEST_PATH_IMAGE017
表示归一化处理后的第i个样本第j个指标;
计算各个指标的信息熵
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
其中
Figure DEST_PATH_IMAGE020
由熵值法计算的各个指标的权重
Figure DEST_PATH_IMAGE021
为:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
表示类簇数,j的取值为1、2及3。
进一步的,待检索句的综合向量综合向量表示为:
Figure DEST_PATH_IMAGE024
TFIDF表示待检索句的TFIDF向量,
Figure DEST_PATH_IMAGE025
表示待检索句的原始BERT向量,
Figure DEST_PATH_IMAGE026
表示待检索句的样本提取关键词BERT向量。
进一步的,利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;具体为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
进一步的,计算待检索句与最相似的簇中文档的相似度值,表达式为:
Figure DEST_PATH_IMAGE027
,
Figure DEST_PATH_IMAGE028
,
Figure DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
表示指标权重,
Figure DEST_PATH_IMAGE031
Figure 541999DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE032
分别表示三个维度的相似度。
本发明第二方面提供了一种基于Kmeans召回的多模型熵加权检索系统,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明基于多模型并行召回策略,对于词和语义采用不同模型,通过引入BERT增强语义表示,并利用熵值法确定不同模型的权重比例;同时引入均值聚类算法减少无关数据,减少不必要的计算,提高检索响应速度。
附图说明
图1为本发明一种基于Kmeans召回的多模型熵加权检索方法流程图。
图2为本发明一种基于Kmeans召回的多模型熵加权检索系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
需要说明的是,本发明首先首先对文档数据集D进行清洗,清洗过程具体包括:对文档数据集D进行文本分词、去停用词、得到清洗后数据集
Figure 852895DEST_PATH_IMAGE001
在对文档数据集D进行清洗之后再分别进行聚类和TFIDF权重训练,TFIDF权重训练,即利用清洗后的文档数据集训练TFIDF算法模型,得到每个词的TFIDF权重向量
Figure 513684DEST_PATH_IMAGE002
,并将训练后的TFIDF算法模型序列化到本地。
在本发明中采用Kmeans算法进行聚类,具体为:对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心
Figure 977989DEST_PATH_IMAGE003
然后对样本进行类簇标签标记得到
Figure 66030DEST_PATH_IMAGE004
,
Figure 598643DEST_PATH_IMAGE005
,
Figure 938488DEST_PATH_IMAGE006
,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地。
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
利用TFIDF算法提取文档数据集D的关键词,将所述关键词及文档数据集D输入至训练好的BERT模型,输出候选文档向量,所述文档向量包括
Figure 872946DEST_PATH_IMAGE007
Figure 131889DEST_PATH_IMAGE008
,具体表达式为:
Figure 151798DEST_PATH_IMAGE009
Figure 544602DEST_PATH_IMAGE010
其中,
Figure 333567DEST_PATH_IMAGE011
表示清洗后的文档,k表示
Figure 28990DEST_PATH_IMAGE012
中每个样本提取的前k个关键词,
Figure 411561DEST_PATH_IMAGE013
则是经过微调后的模型。
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
需要说明的是,将待检索句子先进行清洗,得到对应的分词文件以及提取对应的关键词,进行不同指标类型的编码量化后得到对应的向量,
Figure DEST_PATH_IMAGE033
,TFIDF表示待检索句的TFIDF向量,
Figure 483422DEST_PATH_IMAGE025
表示待检索句的原始BERT向量,
Figure 517106DEST_PATH_IMAGE026
表示待检索句的样本提取关键词BERT向量,则待检索句的综合向量综合向量表示为:
Figure 117852DEST_PATH_IMAGE024
。 S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
确定最相似的簇具体过程为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
得到最相似的簇后过滤掉不相关的数据,然后与簇对应的候选文档集中的文档进行相似度计算,并加权对应的权重,计算待检索句与最相似的簇中文档的相似度值,表达式为:
Figure 112353DEST_PATH_IMAGE027
,
Figure 456746DEST_PATH_IMAGE028
,
Figure 95669DEST_PATH_IMAGE029
其中,
Figure 398475DEST_PATH_IMAGE030
表示指标权重,
Figure 614692DEST_PATH_IMAGE031
Figure 887411DEST_PATH_IMAGE028
Figure 505474DEST_PATH_IMAGE032
分别表示三个维度的相似度。需要说明的是,将待检索句与最相似的簇对应候选文档集中的每个文档进行相似度计算,均得到一个对应的相似度得分
Figure DEST_PATH_IMAGE034
。将
Figure 979180DEST_PATH_IMAGE034
进行从大到小排序,然后按照排序推荐检索结果。
需要说明的是,在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
分别计算检索词与候选文档在所述三个维度的余弦距离,得到3个维度指标共计M条数据记为
Figure 823640DEST_PATH_IMAGE014
将得到的三个维度指标进行归一化处理:
Figure 509836DEST_PATH_IMAGE015
其中,
Figure 247985DEST_PATH_IMAGE016
表示第i个样本第j个指标,
Figure 751647DEST_PATH_IMAGE017
表示归一化处理后的第i个样本第j个指标;
计算各个指标的信息熵
Figure 942457DEST_PATH_IMAGE018
Figure 432344DEST_PATH_IMAGE019
其中
Figure 759421DEST_PATH_IMAGE020
由熵值法计算的各个指标的权重
Figure 450296DEST_PATH_IMAGE021
为:
Figure 128402DEST_PATH_IMAGE022
其中,
Figure 421980DEST_PATH_IMAGE023
表示类簇数,j的取值为1、2及3。
如图2所示,本发明第二方面提供了一种基于Kmeans召回的多模型熵加权检索系统,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
步骤S1中还包括:利用清洗后的文档数据集训练TFIDF算法模型,得到每个词的TFIDF权重向量wtfidf,并将训练后的TFIDF算法模型序列化到本地;
步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,具体为:
对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心CenterN,然后对样本进行类簇标签标记得到C1,C2,...,CN,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果;
在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
分别计算检索词与候选文档在所述三个维度的余弦距离,得到3个维度指标共计M条数据记为(ITFIDF,IBERT_f,IBERT_k)M
将得到的三个维度指标进行归一化处理:
Figure FDA0003995290660000011
其中,xij表示第i个样本第j个指标,x′ij表示归一化处理后的第i个样本第j个指标;
计算各个指标的信息熵Ej
Figure FDA0003995290660000021
其中
Figure FDA0003995290660000022
由熵值法计算的各个指标的权重Wj为:
Figure FDA0003995290660000023
其中,N表示类簇数,j的取值为1、2及3。
2.根据权利要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,对文档数据集D进行清洗具体过程为:对文档数据集D进行文本分词、去停用词、得到清洗后数据集Dfilter
3.根据权利要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量具体为:
利用TFIDF算法提取文档数据集D的关键词,将所述关键词及文档数据集D输入至训练好的BERT模型,输出候选文档向量,所述文档向量包括Ef,Ek,具体表达式为:
Ef=BWf
Ek=BWk
其中,f表示清洗后的文档,k表示Dfilter中每个样本提取的前k个关键词,BW则是经过微调后的模型。
4.根据权利要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,待检索句的综合向量综合向量表示为:
Figure FDA0003995290660000024
Figure FDA0003995290660000025
TFIDF表示待检索句的TFIDF向量,BERTf表示待检索句的原始BERT向量,BERTk表示待检索句的样本提取关键词BERT向量。
5.根据权利要求4所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;具体为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
6.根据权利要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,计算待检索句与最相似的簇中文档的相似度值,表达式为:
Figure FDA0003995290660000031
其中,wj表示指标权重,Simtfidf
Figure FDA0003995290660000032
分别表示三个维度的相似度。
7.一种基于Kmeans召回的多模型熵加权检索系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
步骤S1中还包括:利用清洗后的文档数据集训练TFIDF算法模型,得到每个词的TFIDF权重向量wtfidf,并将训练后的TFIDF算法模型序列化到本地;
步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,具体为:
对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心CenterN,然后对样本进行类簇标签标记得到C1,C2,...,CN,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果;
在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
分别计算检索词与候选文档在所述三个维度的余弦距离,得到3个维度指标共计M条数据记为(ITFIDF,IBERT_f,IBERT_k)M
将得到的三个维度指标进行归一化处理:
Figure FDA0003995290660000041
其中,xij表示第i个样本第j个指标,x′ij表示归一化处理后的第i个样本第j个指标;
计算各个指标的信息熵Ej
Figure FDA0003995290660000042
其中
Figure FDA0003995290660000043
由熵值法计算的各个指标的权重Wj为:
Figure FDA0003995290660000044
其中,N表示类簇数,j的取值为1、2及3。
CN202211250778.9A 2022-10-13 2022-10-13 一种基于Kmeans召回的多模型熵加权检索方法及系统 Active CN115309872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250778.9A CN115309872B (zh) 2022-10-13 2022-10-13 一种基于Kmeans召回的多模型熵加权检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250778.9A CN115309872B (zh) 2022-10-13 2022-10-13 一种基于Kmeans召回的多模型熵加权检索方法及系统

Publications (2)

Publication Number Publication Date
CN115309872A CN115309872A (zh) 2022-11-08
CN115309872B true CN115309872B (zh) 2023-03-10

Family

ID=83868416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250778.9A Active CN115309872B (zh) 2022-10-13 2022-10-13 一种基于Kmeans召回的多模型熵加权检索方法及系统

Country Status (1)

Country Link
CN (1) CN115309872B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226472A (zh) * 2022-11-17 2023-06-06 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和系统
CN116339799B (zh) * 2023-04-06 2023-11-28 山景智能(北京)科技有限公司 一种智能化数据接口管理的方法、系统、终端设备及存储介质
CN117272995B (zh) * 2023-11-21 2024-01-30 长威信息科技发展股份有限公司 一种重复工单推荐方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN113392209A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114756733A (zh) * 2022-04-19 2022-07-15 北京金山数字娱乐科技有限公司 一种相似文档搜索方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
CN111340516A (zh) * 2020-03-13 2020-06-26 安图实验仪器(郑州)有限公司 基于信息熵与变异系数融合算法的满意度评价系统及方法
US11556573B2 (en) * 2020-05-29 2023-01-17 Adobe Inc. Semantic cluster formation in deep learning intelligent assistants

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN113392209A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114756733A (zh) * 2022-04-19 2022-07-15 北京金山数字娱乐科技有限公司 一种相似文档搜索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115309872A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN115309872B (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
Hull Improving text retrieval for the routing problem using latent semantic indexing
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN112463944A (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN115146629A (zh) 一种基于对比学习的新闻文本与评论相关性分析方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
WO2021128529A1 (zh) 一种技术趋势预测方法和系统
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
Phadnis et al. Framework for document retrieval using latent semantic indexing
CN114579729B (zh) 一种融合多算法模型的faq问答匹配方法和系统
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN112507097B (zh) 一种提高问答系统泛化能力的方法
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
CN115392244A (zh) 一种学术关键词批量识别系统
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113688633A (zh) 一种提纲确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant