CN116756347A

CN116756347A - 一种基于大数据的语义信息检索方法

Info

Publication number: CN116756347A
Application number: CN202311053567.0A
Authority: CN
Inventors: 王静雅; 于钢; 孙宇宁; 卢丽丽
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-09-15
Anticipated expiration: 2043-08-21
Also published as: CN116756347B

Abstract

本发明公开了一种基于大数据的语义信息检索方法，包括获取历史检索数据和资料库资料的主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据主题，对所述主题进行词义消歧，根据所述主题的计算相似度，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析，计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度，根据所述语义相似度构建语义匹配模型，将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果。该方法不仅可以提高语义信息检索的精度，同时具有较好的可解释性，可以直接应用于基于大数据的语义信息检索系统中。

Description

一种基于大数据的语义信息检索方法

技术领域

本发明涉及大数据领域，尤其涉及一种基于大数据的语义信息检索方法。

背景技术

大数据技术在语义信息检索领域的应用越来越广泛，可以帮助语义信息检索管理系统的管理者及时、高效地获取语义信息检索，实现语义信息检索管理的调整。目前，语义信息检索具有用户信息量庞大、数据种类多样、信息密度大等特点，语义信息检索方法存在较多的不确定因素，导致语义信息检索方法存在较大的不确定性。虽然已经发明了一些基于大数据的语义信息检索方法，但是仍不能有效解决语义信息检索方法的不确定问题。

发明内容

本发明的目的是要提供一种基于大数据的语义信息检索方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

A获取历史检索数据和资料库资料的主题，对所述历史检索数据进行预处理，提取预处理后的所述历史检索数据主题，对所述主题进行词义消歧；

B根据所述主题的计算相似度，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析；

C计算所述历史检索数据和语义关联分析后的所述资料库资料的语义相似度，根据所述语义相似度构建语义匹配模型，所述语义匹配模型包括第一语义匹配算法和第二语义匹配算法，所述历史检索数据和语义关联分析后的所述资料库资料输入第一语义匹配算法获取初始匹配，将所述初始匹配输入第二语义匹配算法获得检索信息；

D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果。

进一步的，在步骤A中所述预处理的方法，包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。

进一步的，提取预处理后的所述历史检索数据主题的方法，包括：

去除预处理后的所述历史检索数据中的副词、组词和形容词，保留名词构成名词词典：

其中名词词典为A，行表示一种所述历史检索数据对应的名词，词典的长度为m，词的个数为n；将词汇与词典进行匹配，构造高维的稀疏矩阵；将稀疏矩阵分解为基矩阵和系数矩阵的乘积：

其中稀疏矩阵为B，基矩阵为C，系数矩阵为D，列数为r；基矩阵是主题的集合，系数矩阵是匹配的主题词集合，多次迭代，对高维矩阵进行降维，当满足如下条件时停止迭代：

其中迭代次数为t，任意小实数为；形成稳定的基矩阵、系数矩阵，输出主题词作为提取结果。

进一步的，对所述主题进行词义消歧的方法，包括：

对词典中每个义类中的所有词，收集包含词的上下文的主题作为训练集；对主题进行统计，找出能够有效标示每个义类的主题词，并计算主题词的权重：

其中主题词i的权重为，主题词i出现在训练集中的概率为/>，主题词i出现在义类T中的概率为/>；

使用词向量模型获取词义相似度，根据主题词的权重对词义相似度的进行加权计算，将加权值最高的词义作为消歧结果。

进一步的，根据所述主题的计算相似度的方法，包括：

其中检索数据的第i个主题为，资料库资料的第j个主题为/>，主题/>与主题/>的相似度为/>。

进一步的，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法，包括：

将资料库资料的资料作为节点，历史检索数据和资料库资料属性的关联度视为边，构造特征图表示，隐藏属性激活映射单元捕捉隐藏属性响应矩阵，将隐藏属性响应向量根据余弦相似度法修正主题的相似度，将隐藏属性响应向量和修正的相似度输入语义关联模型，获取主题之间的语义关联程度，将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联，计算所述隐藏属性响应向量：

其中样本第q帧的特征图表示为，样本第q帧的隐藏属性激活图为/>，帧数为N。

进一步的，计算所述语义相似度的公式为：

其中关联分析后的第i个资料库资料的语言表征向量为，语言表征的系数为a，主题表征的系数为b，第i个历史检索数据的语言表征向量为/>，关联分析后的第i个资料库资料的主题表征向量为/>，第i个历史检索数据的主题表征向量为/>，资料库资料的个数为n。

进一步的，所述语义匹配模型基于深度神经网络构建，将所述历史检索数据按照4:1随机划分成训练集和测试集，将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练，不断迭代直到遍历完所有的语义关联分析后的资料库资料，输出语义相似度最小的数据库资料作为检索信息输出，将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。

进一步的，所述第一语义匹配算法获取初始匹配的方法，包括：

从词粒度对所述历史检索数据和所述资料库资料的句子进行编码，捕捉词语在历史检索数据和资料库资料中隐藏的语义信息；描述了全局-局部交叉融合层，进行句间词语交互，从全局和局部的交叉特征中，提取不同语义空间内词语的依赖关系；使用池化提取句子的全局信息和关键信息，预测历史检索数据和资料库资料主题的初始匹配分数：

其中检索数据的第a段句子为，资料库资料的第a段句子为/>，数据进行词向量表征的函数为/>，计算两个数据匹配分数值的匹配方法为/>；

并对初始匹配分数从大到小排序，将初始匹配分数对应的资料库资料输出匹配。

进一步的，将所述初始匹配输入第二语义匹配算法获得检索信息的方法，包括：

将初始匹配对应的历史检索数据主题输入第二语义匹配算法向量化，根据词频关系将向量化的初始匹配加权得到主题向量：

其中主题词的词向量为/>，主题数为t，主题词/>的权重为/>，权重为主题词的频次与该主题下所有主题词的总频次比；通过余弦相似度计算初始匹配的相似程度：

其中初始匹配的资料库资料主题向量化后为/>，若资料库资料对于任意主题的相似程度大于等于阈值，则此资料库资料与主题匹配，反之则不匹配，输出匹配的资料库资料为检索信息。

本发明的有益效果是：

本发明是一种基于大数据的语义信息检索方法，与现有技术相比，本发明具有以下技术效果：

本发明通过预处理、提取主题、词义消歧、计算相似度、关联分析和检索匹配步骤，可以提高语义信息检索的准确性，从而提高语义信息检索的精度，将语义信息检索量化，可以大大节省资源和人力成本，提高工作效率，可以实现基于大数据的语义信息检索，实时对基于大数据的语义信息检索进行语义信息检索改进，对基于大数据的语义信息检索具有重要意义，可以适应不同基于大数据的语义信息检索管理系统、不同用户的基于大数据的语义信息检索系统的语义信息检索需求，具有一定的普适性。

附图说明

图1为本发明一种基于大数据的语义信息检索方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明基于大数据的语义信息检索方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

D将关联分析后的所述历史检索数据和所述资料库资料输入语义匹配模型，输出为检索结果；

在实际评估中，检索信息为“隐性知识与显性知识”，资料库资料为《基于知识管理的隐性知识显性化研究》包括“存在着重显性知识轻隐性知识的研究倾向。这与隐性知识在知识管理中的关键作用是极不相称的。既然隐性知识对于组织核心竞争力起关键作用”、《知识管理与图书馆可持续发展》包括“增加他们相互学习、交流的机会，以提高他们的业务素质和专业技能，使其隐性知识才能得到更好地发挥和利用”、《利用信息技术整合企业培训资源的路径选择》包括“企业知识共享网络系统是为适应培训管理及其它管理的需求，有效弥补知识管理中存在的知识缺口而构建的网络平台”为例。

在本实施例中，在步骤A中所述预处理的方法，包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。

在实际评估中，预处理后的检索信息为“隐性知识/显性知识”，预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”、“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”，预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”、“他们/学习/交流/机会/他们/业务素质/专业技能/隐性知识/发挥/利用”，预处理后的《利用信息技术整合企业培训资源的路径选择》为“信息技术/企业/培训/资源/路径/选择”、“企业知识/共享网络系统/适应/培训管理/管理/需求//弥补/知识/知识缺口/构建/网络平台”。

在本实施例中，提取预处理后的所述历史检索数据主题的方法，包括：

其中迭代次数为t，任意小实数为；形成稳定的基矩阵、系数矩阵，输出主题词作为提取结果；

在实际评估中，预处理后的检索信息为“隐性知识/显性知识”的主题词为隐性知识、显性知识，预处理后的《基于知识管理的隐性知识显性化研究》为“知识/管理/隐性/显性化/研究”包括“显性知识/隐性知识/研究倾向/知识管理/关键作用/组织核心/竞争力/关键作用”的主题词为隐性知识、显性化、知识管理，预处理后的《知识管理与图书馆可持续发展》为“知识/管理/图书馆/可持续/发展”包括“他们/学习/交流/机会/他们/业务素质/专业技能/隐性知识/发挥/利用”的主题词为隐性知识、可持续、知识管理，预处理后的《利用信息技术整合企业培训资源的路径选择》为“信息技术/企业/培训/资源/路径/选择”包括“企业知识/共享网络系统/适应/培训管理/管理/需求//弥补/知识/知识缺口/构建/网络平台”的主题词为信息技术、路径选择、培训管理。

在本实施例中，对所述主题进行词义消歧的方法，包括：

使用词向量模型获取词义相似度，根据主题词的权重对词义相似度的进行加权计算，将加权值最高的词义作为消歧结果；

在实际评估中，主题词知识管理指如何有效地管理和利用组织内的隐性知识，以实现可持续发展，主题词可持续指可持续发展的概念，即在满足当前需求的同时，不损害未来世代满足其需求的能力，主题词路径选择指在信息技术领域中，选择合适的技术、方法或策略来实现特定目标的过程。

在本实施例中，根据所述主题的计算相似度的方法，包括：

其中检索数据的第i个主题为，资料库资料的第j个主题为/>，主题/>与主题/>的相似度为/>；

在实际评估中，主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识的相似度分别为1、1、0.496，主题词隐性知识、可持续、知识管理与主题词隐性知识、显性知识的相似度分别为1、0.41、0.62，主题信息技术、路径选择、培训管理与主题词隐性知识、显性知识的相似度分别为0.53、0.45、0.34。

在本实施例中，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法，包括：

其中样本第q帧的特征图表示为，样本第q帧的隐藏属性激活图为/>，帧数为N；

在实际评估中，主题词隐性知识、显性化、知识管理与主题词隐性知识、显性知识关联，主题词隐性知识、知识管理与主题词隐性知识、显性知识关联，主题信息技术、培训管理与主题词隐性知识、显性知识关联。

进一步的，计算所述语义相似度的公式为：

其中关联分析后的第i个资料库资料的语言表征向量为，语言表征的系数为a，主题表征的系数为b，第i个历史检索数据的语言表征向量为/>，关联分析后的第i个资料库资料的主题表征向量为/>，第i个历史检索数据的主题表征向量为/>，资料库资料的个数为n；

在实际评估中，检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的语义相似度分别为0.784、0.615、0.337，输出《基于知识管理的隐性知识显性化研究》为检索结果。

在本实施例中，所述第一语义匹配算法获取初始匹配的方法，包括：

并对初始匹配分数从大到小排序，将初始匹配分数对应的资料库资料输出匹配；

在实际评估中，检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的初始匹配分数分别为0.832、0.697、0.419。

其中初始匹配的资料库资料主题向量化后为/>，若资料库资料对于任意主题的相似程度大于等于阈值，则此资料库资料与主题匹配，反之则不匹配，输出匹配的资料库资料为检索信息；

在实际评估中，阈值设置为0.62，检索“隐性知识与显性知识”与《基于知识管理的隐性知识显性化研究》、《知识管理与图书馆可持续发展》、《利用信息技术整合企业培训资源的路径选择》的相似程度分别为0.796、0.612、0.34，匹配为《基于知识管理的隐性知识显性化研究》。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的语义信息检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，在步骤A中所述预处理的方法，包括对所述历史检索数据进行去重、去噪、分词、去停用词、词性筛选、去低频词和向量化。

3.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，提取预处理后的所述历史检索数据主题的方法，包括：

；

其中迭代次数为t，任意小实数为；输出主题词作为提取结果。

4.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，对所述主题进行词义消歧的方法，包括：

；

5.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，根据所述主题的计算相似度的方法，包括：

；

6.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，根据所述相似度对所述历史检索数据和所述资料库资料进行语义关联分析的方法，包括：

将资料库资料的主题作为节点，历史检索数据和资料库资料属性的关联度视为边，构造特征图表示，隐藏属性激活映射单元捕捉隐藏属性响应矩阵，将隐藏属性响应向量根据余弦相似度法修正主题的相似度，将隐藏属性响应向量和修正的相似度输入语义关联模型，获取主题之间的语义关联程度，将语义关联程度大于0.5的历史检索数据和资料库资料输出为语义关联，计算所述隐藏属性响应向量：

；

7.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，计算所述语义相似度的公式为：

；

8.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，所述语义匹配模型基于深度神经网络构建，将所述历史检索数据按照4:1随机划分成训练集和测试集，将训练集和语义关联分析后的资料库资料输入语义匹配模型进行训练，不断迭代直到遍历完所有的语义关联分析后的资料库资料，输出语义相似度最小的数据库资料作为检索信息输出，将测试集和语义关联分析后的资料库资料输入语义匹配模型进行测试。

9.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，所述第一语义匹配算法获取初始匹配的方法，包括：

从词粒度对所述历史检索数据和所述资料库资料的句子进行编码，捕捉词语在历史检索数据和资料库资料中隐藏的语义信息；描述了全局-局部交叉融合层，进行句间词语交互，从全局和局部的交叉特征中，提取不同语义空间内词语的依赖关系；使用池化层提取句子的全局信息和关键信息，预测历史检索数据和资料库资料主题的初始匹配分数：

；

其中检索数据的第a段句子的主题为，资料库资料的第a段句子的主题为/>，数据进行词向量表征的函数为/>，计算两个数据匹配分数值的匹配方法为/>；

并对初始匹配分数从大到小排序，将排序对应的资料库资料输出初始匹配。

10.根据权利要求1所述的一种基于大数据的语义信息检索方法，其特征在于，将所述初始匹配输入第二语义匹配算法获得检索信息的方法，包括：

；