CN115309872A - 一种基于Kmeans召回的多模型熵加权检索方法及系统 - Google Patents
一种基于Kmeans召回的多模型熵加权检索方法及系统 Download PDFInfo
- Publication number
- CN115309872A CN115309872A CN202211250778.9A CN202211250778A CN115309872A CN 115309872 A CN115309872 A CN 115309872A CN 202211250778 A CN202211250778 A CN 202211250778A CN 115309872 A CN115309872 A CN 115309872A
- Authority
- CN
- China
- Prior art keywords
- model
- retrieved
- document
- vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Kmeans召回的多模型熵加权检索方法及系统,方法包括以下步骤:S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BER模型进行微调得到训练好的模型;S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。本发明基于多模型并行召回策略,充分考虑语义的相关性,提高了检索响应速度。
Description
技术领域
本发明涉及检索技术领域,更具体地,涉及一种基于Kmeans召回的多模型熵加权检索方法及系统。
背景技术
从简单的数据库搜索到复杂的网络搜索引擎,信息检索涉及到为用户查询所需的相关信息,并对相关的文档按照一定规则进行排序。排序是信息检索的核心问题,目前主要有相关度排序模型、重要性排序模型和学习排序模型。其中,相关性排序模型根据查询量和文档之间的相似度对文档进行排序,如布尔模型、BM25,该方法考虑了词频相关性但并未考虑语义信息,通过若干子策略精排检索结果,该方法适用于精准检索领域(查询量一定出现在检索结果中);重要性排序模型不考虑查询量,仅根据文档间的图结构来判断文档的权威程度,如PageRank、TextRank算法等,该方法可以分析文档间的关系,但是检索准确率不高;学习排序模型利用机器学习算法来解决排序问题,提取语料库中句子相应的特征(既包括查询量和文档间的各种相关度,也包括文档本身的特征及重要性等),通过人工或从粗排列表中得到文档相关性标注 ,最终使 用模型学习排序列表 ,如RankNet、LambdaRank算法等,该类算法模型可以挖掘不同语料之间的语义信息关系,实现语义层面的关联检索,但是训练样本需求量较大,数据标准经验程度较高,流程复杂,对于精准检索中条款定位准确性提升有限。
现有的技术方案中主要存在以下问题,1、硬匹配扩展性不强,考虑不到语义相关性,泛化能力差;2、通过传统的TFIDF以及one-hot,存在维度灾难,高维稀疏,计算复杂,如果检索词不在词库中,无法计算,泛化能力差;3、通过BERT预训练模型得到的词向量学到语义关系,在进行相似度计算时,没有考虑字符长度文问题,检索词都是比较短,但是文档会比较长,这种语义计算存在误差。
发明内容
本发明为克服上述现有技术中检索方法,没有考虑语义相关性,语义能力弱,检索响应速度慢的缺陷,提供一种基于Kmeans召回的多模型熵加权检索方法及系统。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
进一步的,步骤S1中利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,具体为:
对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心然后对样本进行类簇标签标记得到,,,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地。
进一步的,将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量具体为: 利用TFIDF算法提取文档数据集D的关键词,将所述关键词及文档数据集D输入至训练好的BERT模型,输出候选文档向量,所述文档向量包括,,具体表达式为:
进一步的,在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
将得到的三个维度指标进行归一化处理:
进一步的,利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;具体为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
本发明第二方面提供了一种基于Kmeans召回的多模型熵加权检索系统,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明基于多模型并行召回策略,对于词和语义采用不同模型,通过引入BERT增强语义表示,并利用熵值法确定不同模型的权重比例;同时引入均值聚类算法减少无关数据,减少不必要的计算,提高检索响应速度。
附图说明
图1为本发明一种基于Kmeans召回的多模型熵加权检索方法流程图。
图2为本发明一种基于Kmeans召回的多模型熵加权检索系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种基于Kmeans召回的多模型熵加权检索方法,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
在对文档数据集D进行清洗之后再分别进行聚类和TFIDF权重训练,TFIDF权重训练,即利用清洗后的文档数据集训练TFIDF算法模型,得到每个词的TFIDF权重向量,并将训练后的TFIDF算法模型序列化到本地。
在本发明中采用Kmeans算法进行聚类,具体为:对清洗后的数据使用Kmeans算法聚类分析得到类簇数N个以及类簇中心然后对样本进行类簇标签标记得到,,,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型,类别数是N,获取微调后的向量,并保存模型至本地。
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
需要说明的是,将待检索句子先进行清洗,得到对应的分词文件以及提取对应的关键词,进行不同指标类型的编码量化后得到对应的向量,,TFIDF表示待检索句的TFIDF向量,表示待检索句的原始BERT向量,表示待检索句的样本提取关键词BERT向量,则待检索句的综合向量综合向量表示为:。S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
确定最相似的簇具体过程为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
其中,表示指标权重,、、分别表示三个维度的相似度。需要说明的是,将待检索句与最相似的簇对应候选文档集中的每个文档进行相似度计算,均得到一个对应的相似度得分。将进行从大到小排序,然后按照排序推荐检索结果。
需要说明的是,在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
将得到的三个维度指标进行归一化处理:
如图2所示,本发明第二方面提供了一种基于Kmeans召回的多模型熵加权检索系统,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,包括以下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
6.根据权利要求1所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,在计算待检索句与最相似的簇中文档的相似度值之前还包括确定不同指标的权重,确定不同指标的权重具体步骤为:
离线获取经过验证的与检索相关度高的候选答案M条,其中,M≥500,分别从三个维度进行检索词与候选文档的量化编码,所述三个维度包括:样本的TFIDF表示,样本原始BERT向量表示,样本提取关键词BERT向量表示;
将得到的三个维度指标进行归一化处理:
8.根据权利要求7所述的一种基于Kmeans召回的多模型熵加权检索方法,其特征在于,利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;具体为:
计算待检索句的综合向量和已得到的候选文档向量的各聚类中心向量的相似度,将相似度值最大的簇作为最相似的簇。
10.一种基于Kmeans召回的多模型熵加权检索系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于Kmeans召回的多模型熵加权检索方法程序,所述一种基于Kmeans召回的多模型熵加权检索方法程序被所述处理器执行时实现如下步骤:
S1.对文档数据集D进行清洗、聚类,利用聚类后的数据集D对BERT模型进行微调得到训练好的模型;
S2.将文档数据集D及其关键词输入至训练好的模型,输出候选文档向量;
S3.将待检索语句分别进行不同指标类型的编码,得到待检索句的综合向量;
S4.利用待检索句的综合向量和已得到的候选文档向量的各聚类中心确定最相似的簇;
S5.计算待检索句与最相似的簇中文档的相似度值,按照相似度值进行排序推荐检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211250778.9A CN115309872B (zh) | 2022-10-13 | 2022-10-13 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211250778.9A CN115309872B (zh) | 2022-10-13 | 2022-10-13 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309872A true CN115309872A (zh) | 2022-11-08 |
CN115309872B CN115309872B (zh) | 2023-03-10 |
Family
ID=83868416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211250778.9A Active CN115309872B (zh) | 2022-10-13 | 2022-10-13 | 一种基于Kmeans召回的多模型熵加权检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309872B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226472A (zh) * | 2022-11-17 | 2023-06-06 | 上海药明康德新药开发有限公司 | 一种基于向量化的参考反应查询方法和系统 |
CN116339799A (zh) * | 2023-04-06 | 2023-06-27 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020042793A1 (en) * | 2000-08-23 | 2002-04-11 | Jun-Hyeog Choi | Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps |
CN103902694A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 基于聚类和查询行为的检索结果排序方法 |
CN111340516A (zh) * | 2020-03-13 | 2020-06-26 | 安图实验仪器(郑州)有限公司 | 基于信息熵与变异系数融合算法的满意度评价系统及方法 |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
US20210374168A1 (en) * | 2020-05-29 | 2021-12-02 | Adobe Inc. | Semantic cluster formation in deep learning intelligent assistants |
CN114298055A (zh) * | 2021-12-24 | 2022-04-08 | 浙江大学 | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 |
CN114756733A (zh) * | 2022-04-19 | 2022-07-15 | 北京金山数字娱乐科技有限公司 | 一种相似文档搜索方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-13 CN CN202211250778.9A patent/CN115309872B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020042793A1 (en) * | 2000-08-23 | 2002-04-11 | Jun-Hyeog Choi | Method of order-ranking document clusters using entropy data and bayesian self-organizing feature maps |
CN103902694A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 基于聚类和查询行为的检索结果排序方法 |
CN111340516A (zh) * | 2020-03-13 | 2020-06-26 | 安图实验仪器(郑州)有限公司 | 基于信息熵与变异系数融合算法的满意度评价系统及方法 |
US20210374168A1 (en) * | 2020-05-29 | 2021-12-02 | Adobe Inc. | Semantic cluster formation in deep learning intelligent assistants |
CN113392209A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本聚类方法、相关设备及存储介质 |
CN114298055A (zh) * | 2021-12-24 | 2022-04-08 | 浙江大学 | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 |
CN114756733A (zh) * | 2022-04-19 | 2022-07-15 | 北京金山数字娱乐科技有限公司 | 一种相似文档搜索方法、装置、电子设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226472A (zh) * | 2022-11-17 | 2023-06-06 | 上海药明康德新药开发有限公司 | 一种基于向量化的参考反应查询方法和系统 |
CN116226472B (zh) * | 2022-11-17 | 2024-06-21 | 上海药明康德新药开发有限公司 | 一种基于向量化的参考反应查询方法和系统 |
CN116339799A (zh) * | 2023-04-06 | 2023-06-27 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
CN116339799B (zh) * | 2023-04-06 | 2023-11-28 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
CN117272995A (zh) * | 2023-11-21 | 2023-12-22 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
CN117272995B (zh) * | 2023-11-21 | 2024-01-30 | 长威信息科技发展股份有限公司 | 一种重复工单推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115309872B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115309872B (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN116134432A (zh) | 用于提供对查询的答案的系统和方法 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN112926340B (zh) | 一种用于知识点定位的语义匹配模型 | |
Zhang et al. | A Chinese question-answering system with question classification and answer clustering | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112463944A (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN114579729B (zh) | 一种融合多算法模型的faq问答匹配方法和系统 | |
Gao et al. | Sentiment classification for stock news | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN117290482A (zh) | 一种知识库检索方法和装置 | |
CN117112811A (zh) | 一种基于相似度的专利检索方法、检索系统及存储介质 | |
CN114298020B (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN114416914B (zh) | 一种基于图片问答的处理方法 | |
CN116503127A (zh) | 模型训练方法、检索方法及相关装置 | |
CN111382265A (zh) | 搜索方法、装置、设备和介质 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |