CN116756346A

CN116756346A - 一种信息检索方法及装置

Info

Publication number: CN116756346A
Application number: CN202311034826.5A
Authority: CN
Inventors: 于钢; 王静雅; 孙宇宁; 卢丽丽
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-09-15

Abstract

本发明公开了一种信息检索方法及装置，包括获取历史检索数据和资料库资料的关键词主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据的关键词主题，计算第一相似度和第二相似度，所述第一相似度和所述第二相似度加权得出综合相似度，根据所述综合相似度对所述资料库资料进行分类获得分类数据，根据所述综合相似度构建检索匹配模型，将所述分类数据和所述历史检索数据输入所述检索匹配模型，将所述综合相似度降序排序，将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。该方法不仅可以提高信息检索的精度，同时具有较好的可解释性，可以直接应用于信息检索系统中。

Description

一种信息检索方法及装置

技术领域

本发明涉及信息检索领域，尤其涉及一种信息检索方法及装置。

背景技术

特征提取技术在信息检索领域的应用越来越广泛，可以帮助信息检索的管理者及时、高效地检索信息，实现信息的检索。目前，信息检索具有文本信息量庞大、数据种类多样、信息密度大等特点，信息提取和检索方法存在较多的不确定因素，导致信息检索方法存在较大的不确定性。虽然已经发明了一些信息检索方法和装置，但是仍不能有效解决信息检索方法的不确定问题。

发明内容

本发明的目的是要提供一种信息检索方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

A获取历史检索数据和资料库资料的关键词主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据的关键词，根据所述关键词提取主题；

B根据所述关键词计算第一相似度，根据所述主题计算第二相似度，所述第一相似度和所述第二相似度加权得出综合相似度，根据所述综合相似度对所述资料库资料进行分类获得分类数据；

C根据所述综合相似度构建检索匹配模型，将所述分类数据和所述历史检索数据输入所述检索匹配模型，将所述综合相似度降序排序，将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。

进一步的，步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。

进一步的，提取预处理后的所述历史检索数据的关键词的方法，包括：

将预处理后的所述历史检索数据中的句子作为节点，如果两个句子有相似性，则两个句子对应的节点之间存在无向有权边，计算句子之间相似性：

其中句子i为，句子j为/>，句子中的词为/>；根据权边构建词图，采用共现关系构造任意两个节点之间的边，迭代计算各节点的权重：

其中节点c句子i的权重为，阻尼系数为d，窗口的大小为k，节点集合为c，节点i和节点j的边缘连接的重要程度为/>；

直到收敛，对节点的权重进行倒序排序，从中得到最重要的词，作为候选关键词，在所述历史检索数据和所述资料库资料中将候选关键词标记，若它们之间形成相邻词组则作为关键词输出。

进一步的，根据所述关键词提取主题的方法，包括：

对所述关键词进行去重，构建名词词典，将所述资料库资料的词汇与名词词典进行匹配，构造稀疏矩阵，利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵，利用迭代公式进行多次迭代，迭代公式为：

其中i行k列主题矩阵为，k行j列词汇矩阵为/>，i行k列稀疏矩阵为/>，词汇矩阵的转置矩阵为/>，主题矩阵的转置矩阵为/>，主题矩阵R中的每一列为一个主题，词汇矩阵D中的每一行与之对应的主题词；

确定最佳主题数，当子矩阵收敛后形成稳定的子矩阵，主题矩阵为主题，词汇矩阵是与该主题对应的主题词。

进一步的，所述第一相似度的计算公式为：

其中历史检索数据的关键词为a，资料库资料的关键词为b，历史检索数据关键词a集合为A，资料库资料关键词b集合为B，在集合B中但不在集合A中的关键词集合为B\A，在集合A中但不在集合B中的关键词集合为A\B。

进一步的，所述第二相似度的计算公式为：

其中主题m为，主题e为/>，词i的权重为/>，词有n个。

进一步的，所述第一相似度和所述第二相似度加权得出综合相似度的方法，包括：

计算所述第一相似度和所述第二相似度的信息熵：

其中相似度为s，每一个相似度出现的概率为，第i个相似度为/>，相似度有k个，计算条件熵：

其中相似度的种类为e，计算总的信息增益：

熵越大表示相似性越不稳定，根据总的信息增益比值的相反数确定权重；

计算综合相似度：

其综合相似度为，第一相似度的权重为/>，第二相似度的权重为/>，关键词x的相似度为/>，主题y的相似度为/>。

进一步的，根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法，包括：

将所述资料库资料的关键词和主题输入，随机选取所述资料库资料的关键词和主图作为聚类中心，计算聚类中心与其它关键词主题的相似度，将相似度高的关键词和主题与聚类中心关联起来，与相同聚类中心关联的所有关键词主题聚成一类，计算形成的类的相似度平均值，将该组的聚类中心点移动到品均值对应的关键词主题上，重复上述步骤直到聚类中心不再变化，输出分类数据。

进一步的，所述检索匹配模型基于循环神经网络构成，将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集，将所述训练集和所述资料库资料输入检索匹配模型进行训练，将测试集和资料库资料输入训练好的所述检索匹配模型，直到相似度高于0.83停止训练。

第二方面，一种信息检索装置，包括：

提取模块：用于获取历史检索数据和资料库资料的关键词主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据的关键词，根据所述关键词提取主题；

分析模块：用于根据所述关键词计算第一相似度，根据所述主题计算第二相似度，所述第一相似度和所述第二相似度加权得出综合相似度，根据所述综合相似度对所述资料库资料进行分类获得分类数据；

检索模块：用于根据所述综合相似度构建检索匹配模型，将所述分类数据和所述历史检索数据输入所述检索匹配模型，将所述综合相似度降序排序，将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。

本发明的有益效果是：

本发明是一种信息检索方法，与现有技术相比，本发明具有以下技术效果：

本发明通过预处理、提取关键词、提取主题、聚类和匹配步骤，可以提高信息检索的准确性，从而提高信息检索的精度，将信息检索智能化，可以大大节省资源和人力成本，提高工作效率，可以实现对信息的自动提取，实时对待处理文本进行关键词和主题提取，对信息检索具有重要意义，可以适应不同标准的信息检索、不同用户的信息检索需求，具有一定的普适性。

附图说明

图1为本发明一种信息检索方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明基于信息检索方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

C根据所述综合相似度构建检索匹配模型，将所述分类数据和所述历史检索数据输入所述检索匹配模型，将所述综合相似度降序排序，将前两个所述综合相似度对应的资料库资料作为信息检索结果输出；

在实际评估中，检索数据为“个性化推荐”，资料库资料为“个性化推荐总结”、“个性化推荐的6种方法”、“个性化推荐系统概述”、“个性化系统实践应用”、“系统总结个性化推荐系统”为例。

在本实施例中，步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注；

在实际评估中，检索数据“个性化/推荐”，资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”。

在本实施例中，提取预处理后的所述历史检索数据的关键词的方法，包括：

直到收敛，对节点的权重进行倒序排序，从中得到最重要的词，作为候选关键词，在所述历史检索数据和所述资料库资料中将候选关键词标记，若它们之间形成相邻词组则作为关键词输出；

在实际评估中，检索数据“个性化/推荐”的关键词为个性化、推荐，资料库资料“个性化/推荐算法./总结”的关键词为个性化、推荐算法，“个性化/推荐/6种方法”的关键词为个性化、推荐方法，“个性化/推荐系统/概述”的关键词为个性化、推荐系统、概述，“个性化系统/实践/应用”的关键词为个性化系统、实践、应用，“系统/总结/个性化/推荐系统”的关键词为总结、个性化、推荐系统。

在本实施例中，根据所述关键词提取主题的方法，包括：

确定最佳主题数，当子矩阵收敛后形成稳定的子矩阵，主题矩阵为主题，词汇矩阵是与该主题对应的主题词；

在实际评估中，检索数据“个性化/推荐”的主题为个性化推荐，资料库资料“个性化/推荐算法./总结”的主题为、“个性化/推荐/6种方法”的主题为个性化推荐方法、“个性化/推荐系统/概述”的主题为个性化推荐系统、“个性化/系统/实践/应用”的主题为个性化系统实践、“系统/总结/个性化/推荐系统”的主题为个性化推荐系统总结。

在本实施例中，所述第一相似度的计算公式为：

其中历史检索数据的关键词为a，资料库资料的关键词为b，历史检索数据关键词a集合为A，资料库资料关键词b集合为B，在集合B中但不在集合A中的关键词集合为B\A，在集合A中但不在集合B中的关键词集合为A\B；

在实际评估中，检索数据“个性化/推荐”关键词与资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”关键词的第一相似度分别为0.872、0.357、0.731、0.425、0.399。

在本实施例中，所述第二相似度的计算公式为：

其中主题m为，主题e为/>，词i的权重为/>，词有n个；

在实际评估中，在实际评估中，检索数据“个性化/推荐”主题与资料库资料“个性化/推荐算法./总结”、“个性化/推荐/6种方法”、“个性化/推荐系统/概述”、“个性化/系统实践/应用”、“系统/总结/个性化/推荐系统”主题的第二相似度分别为0.854、0.381、0.759、0.431、0.371。

在本实施例中，所述第一相似度和所述第二相似度加权得出综合相似度的方法，包括：

计算所述第一相似度和所述第二相似度的信息熵：

X

其中相似度的种类为e，计算总的信息增益：

计算综合相似度：

其综合相似度为，第一相似度的权重为/>，第二相似度的权重为/>，关键词x的相似度为/>，主题y的相似度为/>；

在实际评估中，第一相似度的权重为0.43，第二相似度的权重为0.57；“个性化推荐总结”、“个性化推荐的6种方法”、“个性化推荐系统概述”、“个性化系统实践应用”、“系统总结个性化推荐系统”的综合相似度分别为0.8618、0.3707、0.747、0.4284、0.383。

在本实施例中，根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法，包括：

将所述资料库资料的关键词和主题输入，随机选取所述资料库资料的关键词和主图作为聚类中心，计算聚类中心与其它关键词主题的相似度，将相似度高的关键词和主题与聚类中心关联起来，与相同聚类中心关联的所有关键词主题聚成一类，计算形成的类的相似度平均值，将该组的聚类中心点移动到品均值对应的关键词主题上，重复上述步骤直到聚类中心不再变化，输出分类数据；

在实际评估中，资料库资料“个性化/推荐算法/总结”、“个性化/推荐/6种方法”归为方法类，“个性化/推荐系统/概述”、“系统/总结/个性化/推荐系统”归为系统类，“个性化/系统实践/应用”归为实践类。

在本实施例中，所述检索匹配模型基于循环神经网络构成，将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集，将所述训练集和所述资料库资料输入检索匹配模型进行训练，将测试集和资料库资料输入训练好的所述检索匹配模型，直到相似度高于0.83停止训练。

在实际评估中，最终筛选出的检索信息为“个性化推荐总结”和“个性化推荐系统概述”。

第二方面，一种信息检索装置，包括：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种信息检索方法，其特征在于，步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。

3.根据权利要求1所述的一种信息检索方法，其特征在于，提取预处理后的所述历史检索数据的关键词的方法，包括：

；

4.根据权利要求1所述的一种信息检索方法，其特征在于，根据所述关键词提取主题的方法，包括：

；

5.根据权利要求1所述的一种信息检索方法，其特征在于，所述第一相似度的计算公式为：

；

6.根据权利要求1所述的一种信息检索方法，其特征在于，所述第二相似度的计算公式为：

；

其中主题m为，主题e为/>，词i的权重为/>，词有n个。

7.根据权利要求1所述的一种信息检索方法，其特征在于，所述第一相似度和所述第二相似度加权得出综合相似度的方法，包括：

计算所述第一相似度和所述第二相似度的信息熵：

；

其中相似度的种类为e，计算总的信息增益：

；

计算综合相似度：

；

8.根据权利要求1所述的一种信息检索方法，其特征在于，根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法，包括：

将所述资料库资料的关键词和主题输入，随机选取所述资料库资料的关键词和主题作为聚类中心，计算聚类中心与其它关键词主题的综合相似度，将综合相似度高的关键词和主题与聚类中心关联起来，与相同聚类中心关联的所有关键词主题聚成一类，计算形成的类的综合相似度平均值，将该组的聚类中心点移动到品均值对应的关键词主题上，重复上述步骤直到聚类中心不再变化，输出分类数据。

9.根据权利要求1所述的一种信息检索方法，其特征在于，所述检索匹配模型基于循环神经网络构成，将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集，将所述训练集和资料库资料输入检索匹配模型进行训练，将测试集和资料库资料输入训练好的所述检索匹配模型，直到相似度高于0.83停止训练。

10.一种信息检索装置，其特征在于，包括：