CN116821349B

CN116821349B - 一种基于大数据的文献分析方法及管理系统

Info

Publication number: CN116821349B
Application number: CN202311091618.9A
Authority: CN
Inventors: 孙宇宁; 王静雅; 于钢; 卢丽丽
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-10-31
Anticipated expiration: 2043-08-29
Also published as: CN116821349A

Abstract

本发明公开了一种基于大数据的文献分析方法及管理系统，包括获取待测文献的文本数据，对所述文本数据进行预处理，获取第一数据和第二数据，所述第一数据表征预处理后的所述文本数据的文本关系，所述第二数据表征引用次数和被引用频次，所述文本关系表征所述文本数据的主题的关系信息，根据所述第一数据和所述第二数据计算综合评分，根据综合评分构建分类模型，将所述第一数据和所述第二数据输入所述分类模型获取分类，按照所述分类对所述待测文本进行分类管理。该方法不仅可以提高文献分析的精度，同时具有较好的可解释性，可以直接应用于文献管理系统中。

Description

一种基于大数据的文献分析方法及管理系统

技术领域

本发明涉及文献领域，尤其涉及一种基于大数据的文献分析方法及管理系统。

背景技术

大数据和技术在文献领域的应用越来越广泛，可以帮助文献系统的管理者及时、高效地分析文献，实现文献的分析和管理。目前，文献信息量庞大、种类多样、信息密度大等特点，文献分析方法存在较多的不确定因素，导致文献分析方法存在较大的不确定性。虽然已经发明了一些文献分析方法与系统，但是仍不能有效解决文献分析和管理方法的不确定问题。

发明内容

本发明的目的是要提供一种基于大数据的文献分析方法。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

A获取待测文献的文本数据，对所述文本数据进行预处理，所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次；

B基于预处理后的所述文本数据获取第一数据和第二数据，所述第一数据表征预处理后的所述文本数据的文本关系，所述第二数据表征引用次数和被引用频次，其中所述文本关系：

将所述文本数据的文本主题输入，对主题进行融合词组信息、加强词组语义特征和强化实体边界，将处理后的文本主题转化字符，将字符输入嵌入层，把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型，利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征；

将语义特征输入全连接层，将语义特征映射到样本标记空间，使用二元分类器将每个标志输出为一组标签，利用最近匹配原则获取每主题的特征向量，将特征向量和特征编码叠加获得特征融合加入多头注意力机制，捕捉特定主题以及相关信息，二分类器标记对应的主题，计算主题和分类的相关度：

其中主题j为，第i个分类/>，主题j的特征向量为/>，分类i的向量为/>，主题与分类的可信度为/>，将相关度大于0.8的分类输出主题的关系信息；

C根据所述第一数据和所述第二数据计算综合评分，根据综合评分构建分类模型，将所述第一数据和所述第二数据输入所述分类模型获取分类，按照所述分类对所述待测文本进行分类管理。

进一步的，步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。

进一步的，提取所述文本数据的文本主题的方法，包括：

将预处理后的所述文本数据按照5:3随机生成训练集和测试集，根据主题生成词的权重构建主题模型，将训练集输入主题模型，初始化主题的数量和主题在主题模型中的分布，根据当前参数估计主题在文献中的概率分布：

其中主题z生成词e的概率为，文献a在主题z中的概率/>，文献d的概率为/>，根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布；重复估计主题在文献中的概率分布和更新概率分布，直到参数变化的迭代次数达到上限，将测试集输入训练后的主题模型，提取主题并输出。

进一步的，所述第二数据表征引用次数和被引用频次的方法，包括：

抽取引用文献，识别文本中的标题和作者，解析格式文献，抽取标题、领域、关键词、引用位置、引用次数和被引用频次，计算文献的重要程度：

其中文献和施引文献/>在文献/>中被提及的次数为/>，文献/>在文献/>中被提及的第m次，第m次提及时的位置得分为/>，第m次提及时引用描述的长度为/>，在m次提及时当前文献站引用描述比例为/>，输出文献的重要程度。

进一步的，根据所述第一数据和所述第二数据计算综合评分的方法，包括：

对所述第一数据和所述第二数据进行无量纲处理，计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数；

其中第k个文献的数据i的相关系数为，文献的数列为/>，数据i的数列为，分辨系数为/>，最小差值minmin，最大差值maxmax，根据所述相关系数计算第一数据和第二数据权重：

其中数据i的权重为，文献的数量为N，根据权重计算综合评分：

其中综合评分为D，第一数据为A，第二数据为B，第一数据的权重为，第二数据的权重为/>。

进一步的，根据综合评分构建所述分类模型的方法，包括分类模型基于深度神经网络，将预处理后的文本数据随机分成训练集和测试集，将综合评分作为分类模型的目标，将训练集输入训练分类模型，将测试集输入训练后的分类模型，对测试集的文本数据进行分类预测，将预测的分类和图书馆文献分类作比较获取预测的准确率，将准确率0.95作为优化目标，优化分类模型，完成构建。

进一步的，所述优化分类模型的方法，包括：

随机初始化深度神经网络的参数，获取参数的梯度，在不同的时段设置学习率：

其中迭代次数为t，和k为超参数，学习率为/>，对梯度采用指数加权平均更新权重和偏置：

其中稳定常数为，时间t内的状态变量为/>，超参数为/>，权重/>的微分为/>，偏置b的微分为/>，不断迭代，直到准确率达到0.95则停止迭代。

第二方面，一种基于大数据的文献分析管理系统，包括：

获取模块：用于获取待测文献的文本数据，对所述文本数据进行预处理，所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次；

处理模块：用于基于预处理后的所述文本数据获取第一数据和第二数据，所述第一数据表征预处理后的所述文本数据的文本关系，所述第二数据表征引用次数和被引用频次，其中所述文本关系：

管理模块：用于根据所述第一数据和所述第二数据计算综合评分，根据综合评分构建分类模型，将所述第一数据和所述第二数据输入所述分类模型获取分类，按照所述分类对所述待测文本进行分类管理。

本发明的有益效果是：

本发明是一种基于大数据的文献分析方法，与现有技术相比，本发明具有以下技术效果：

本发明通过预处理、获取第一数据第二数据和文献分类步骤，可以提高文献分析和管理的准确性，从而提高文献分析和管理的精度，将文献分析和管理智能化，可以大大节省资源和人力成本，提高工作效率，可以实现对文献的自动分析和管理，实时对待处理文本进行主题提取和重要程度分析，对文献分析和管理具有重要意义，可以适应不同标准的文献分析和管理、不同系统的信息文献分析和管理，具有一定的普适性。

附图说明

图1为本发明一种基于大数据的文献分析方法的步骤流程图。

具体实施方式

下面通过具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明基于大数据的文献分析方法包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

在实际评估中，将文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》，分类海洋生境、无人驾驶、地震预测、中国气候变化，作为研究对象，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的引用次数和被引用频次分别为2和242、1和3985、0和54、643和4755；

在实际评估中，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.97、0.061、0.074、0.53，《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.031、0.95、0.012、0.024，《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.201、0.137、0.961、0.107，《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.317、0.0175、0.0213、0.937，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的第二数据分别为0.39、0.57、0.12、0.84；

C根据所述第一数据和所述第二数据计算综合评分，根据综合评分构建分类模型，将所述第一数据和所述第二数据输入所述分类模型获取分类，按照所述分类对所述待测文本进行分类管理；

在实际评估中，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的分类分别是海洋生境、无人驾驶、地震、气候。

在本实施例中，步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。

在本实施例中，提取所述文本数据的文本主题的方法，包括：

其中主题z生成词e的概率为，文献a在主题z中的概率/>，文献d的概率为/>，根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布；重复估计主题在文献中的概率分布和更新概率分布，直到参数变化的迭代次数达到上限，将测试集输入训练后的主题模型，提取主题并输出；

在实际评估中，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的主题分别是海洋生境/甲烷/氧化作用/响应特征、无人驾驶汽车/发展现状/相关建议、高阶磁异常导数/高阶统计量/地震/短期预测、中国/气候特征/形成机制。

在本实施例中，所述第二数据表征引用次数和被引用频次的方法，包括：

在本实施例中，根据所述第一数据和所述第二数据计算综合评分的方法，包括：

其中综合评分为D，第一数据为A，第二数据为B，第一数据的权重为，第二数据的权重为/>；

在实际评估中，第一数据的权重为0.69，第二数据的权重为0.31，文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.7902、0.21879、0.08826、0.6261，《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.19809、0.8322、0.04548、0.27696，《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.25959、0.27123、0.70029、0.33423，《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.33963、0.29745、0.051897、0.90693。

在本实施例中，根据综合评分构建所述分类模型的方法，包括分类模型基于深度神经网络，将预处理后的文本数据随机分成训练集和测试集，将综合评分作为分类模型的目标，将训练集输入训练分类模型，将测试集输入训练后的分类模型，对测试集的文本数据进行分类预测，将预测的分类和图书馆文献分类作比较获取预测的准确率，将准确率0.95作为优化目标，优化分类模型，完成构建。

在本实施例中，所述优化分类模型的方法，包括：

第二方面，一种基于大数据的文献分析管理系统，包括：

获取模块：获取待测文献的文本数据，对所述文本数据进行预处理，所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次；

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的文献分析方法，其特征在于，包括以下步骤：

B基于预处理后的所述文本数据获取第一数据和第二数据，所述第一数据表征预处理后的所述文本数据的文本关系，所述第二数据表征引用次数和被引用频次，其中获取所述文本数据的文本关系的方法包括：

2.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。

3.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，提取所述文本数据的文本主题的方法，包括：

其中主题z生成词e的概率为，文献a在主题z中的概率/>，文献d的概率为，根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布；重复估计主题在文献中的概率分布和更新概率分布，直到参数变化的迭代次数达到上限，将测试集输入训练后的主题模型，提取主题并输出。

4.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，所述第二数据表征引用次数和被引用频次的方法，包括：

5.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，根据所述第一数据和所述第二数据计算综合评分的方法，包括：

6.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，根据综合评分构建所述分类模型的方法，包括分类模型基于深度神经网络，将预处理后的文本数据随机分成训练集和测试集，将综合评分作为分类模型的目标，将训练集输入训练分类模型，将测试集输入训练后的分类模型，对测试集的文本数据进行分类预测，将预测的分类和图书馆文献分类作比较获取预测的准确率，将准确率0.95作为优化目标，优化分类模型，完成构建。

7.根据权利要求1所述的一种基于大数据的文献分析方法，其特征在于，所述优化分类模型的方法，包括：

8.一种基于大数据的文献分析管理系统，其特征在于，包括：