CN116821349A - 一种基于大数据的文献分析方法及管理系统 - Google Patents
一种基于大数据的文献分析方法及管理系统 Download PDFInfo
- Publication number
- CN116821349A CN116821349A CN202311091618.9A CN202311091618A CN116821349A CN 116821349 A CN116821349 A CN 116821349A CN 202311091618 A CN202311091618 A CN 202311091618A CN 116821349 A CN116821349 A CN 116821349A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- topic
- classification
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013173 literature analysis Methods 0.000 title claims description 12
- 238000013145 classification model Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 230000003014 reinforcing effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 19
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 16
- 230000002159 abnormal effect Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 230000003647 oxidation Effects 0.000 description 8
- 238000007254 oxidation reaction Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 7
- 229910052760 oxygen Inorganic materials 0.000 description 7
- 239000001301 oxygen Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 230000009849 deactivation Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的文献分析方法及管理系统,包括获取待测文献的文本数据,对所述文本数据进行预处理,获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,所述文本关系表征所述文本数据的主题的关系信息,根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。该方法不仅可以提高文献分析的精度,同时具有较好的可解释性,可以直接应用于文献管理系统中。
Description
技术领域
本发明涉及文献领域,尤其涉及一种基于大数据的文献分析方法及管理系统。
背景技术
大数据和技术在文献领域的应用越来越广泛,可以帮助文献系统的管理者及时、高效地分析文献,实现文献的分析和管理。目前,文献信息量庞大、种类多样、信息密度大等特点,文献分析方法存在较多的不确定因素,导致文献分析方法存在较大的不确定性。虽然已经发明了一些文献分析方法与系统,但是仍不能有效解决文献分析和管理方法的不确定问题。
发明内容
本发明的目的是要提供一种基于大数据的文献分析方法。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:
A获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
B基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
C根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。
进一步的,步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。
进一步的,提取所述文本数据的文本主题的方法,包括:
将预处理后的所述文本数据按照5:3随机生成训练集和测试集,根据主题生成词的权重构建主题模型,将训练集输入主题模型,初始化主题的数量和主题在主题模型中的分布,根据当前参数估计主题在文献中的概率分布:
其中主题z生成词e的概率为,文献a在主题z中的概率/>,文献d的概率为/>,根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布;重复估计主题在文献中的概率分布和更新概率分布,直到参数变化的迭代次数达到上限,将测试集输入训练后的主题模型,提取主题并输出。
进一步的,所述第二数据表征引用次数和被引用频次的方法,包括:
抽取引用文献,识别文本中的标题和作者,解析格式文献,抽取标题、领域、关键词、引用位置、引用次数和被引用频次,计算文献的重要程度:
其中文献和施引文献/>在文献/>中被提及的次数为/>,文献/>在文献/>中被提及的第m次,第m次提及时的位置得分为/>,第m次提及时引用描述的长度为/>,在m次提及时当前文献站引用描述比例为/>,输出文献的重要程度。
进一步的,根据所述第一数据和所述第二数据计算综合评分的方法,包括:
对所述第一数据和所述第二数据进行无量纲处理,计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数;
其中第k个文献的数据i的相关系数为,文献的数列为/>,数据i的数列为,分辨系数为/>,最小差值minmin,最大差值maxmax,根据所述相关系数计算第一数据和第二数据权重:
其中数据i的权重为,文献的数量为N,根据权重计算综合评分:
其中综合评分为D,第一数据为A,第二数据为B,第一数据的权重为,第二数据的权重为/>。
进一步的,根据综合评分构建所述分类模型的方法,包括分类模型基于深度神经网络,将预处理后的文本数据随机分成训练集和测试集,将综合评分作为分类模型的目标,将训练集输入训练分类模型,将测试集输入训练后的分类模型,对测试集的文本数据进行分类预测,将预测的分类和图书馆文献分类作比较获取预测的准确率,将准确率0.95作为优化目标,优化分类模型,完成构建。
进一步的,所述优化分类模型的方法,包括:
随机初始化深度神经网络的参数,获取参数的梯度,在不同的时段设置学习率:
其中迭代次数为t,和k为超参数,学习率为/>,对梯度采用指数加权平均更新权重和偏置:
其中稳定常数为,时间t内的状态变量为/>,超参数为/>,权重/>的微分为/>,偏置b的微分为/>,不断迭代,直到准确率达到0.95则停止迭代。
第二方面,一种基于大数据的文献分析管理系统,包括:
获取模块:用于获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
处理模块:用于基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
管理模块:用于根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。
本发明的有益效果是:
本发明是一种基于大数据的文献分析方法,与现有技术相比,本发明具有以下技术效果:
本发明通过预处理、获取第一数据第二数据和文献分类步骤,可以提高文献分析和管理的准确性,从而提高文献分析和管理的精度,将文献分析和管理智能化,可以大大节省资源和人力成本,提高工作效率,可以实现对文献的自动分析和管理,实时对待处理文本进行主题提取和重要程度分析,对文献分析和管理具有重要意义,可以适应不同标准的文献分析和管理、不同系统的信息文献分析和管理,具有一定的普适性。
附图说明
图1为本发明一种基于大数据的文献分析方法的步骤流程图。
具体实施方式
下面通过具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
本发明基于大数据的文献分析方法包括以下步骤:
如图1所示,在本实施例中,包括以下步骤:
A获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
在实际评估中,将文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》,分类海洋生境、无人驾驶、地震预测、中国气候变化,作为研究对象,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的引用次数和被引用频次分别为2和242、1和3985、0和54、643和4755;
B基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.97、0.061、0.074、0.53,《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.031、0.95、0.012、0.024,《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.201、0.137、0.961、0.107,《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的第一数据分别为0.317、0.0175、0.0213、0.937,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的第二数据分别为0.39、0.57、0.12、0.84;
C根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理;
在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的分类分别是海洋生境、无人驾驶、地震、气候。
在本实施例中,步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。
在本实施例中,提取所述文本数据的文本主题的方法,包括:
将预处理后的所述文本数据按照5:3随机生成训练集和测试集,根据主题生成词的权重构建主题模型,将训练集输入主题模型,初始化主题的数量和主题在主题模型中的分布,根据当前参数估计主题在文献中的概率分布:
其中主题z生成词e的概率为,文献a在主题z中的概率/>,文献d的概率为/>,根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布;重复估计主题在文献中的概率分布和更新概率分布,直到参数变化的迭代次数达到上限,将测试集输入训练后的主题模型,提取主题并输出;
在实际评估中,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》、《无人驾驶汽车的发展现状和相关建议》、《基于高阶磁异常导数与高阶统计量的地震短期预测方法》、《中国近80年来气候变化特征及其形成机制》的主题分别是海洋生境/甲烷/氧化作用/响应特征、无人驾驶汽车/发展现状/相关建议、高阶磁异常导数/高阶统计量/地震/短期预测、中国/气候特征/形成机制。
在本实施例中,所述第二数据表征引用次数和被引用频次的方法,包括:
抽取引用文献,识别文本中的标题和作者,解析格式文献,抽取标题、领域、关键词、引用位置、引用次数和被引用频次,计算文献的重要程度:
其中文献和施引文献/>在文献/>中被提及的次数为/>,文献/>在文献/>中被提及的第m次,第m次提及时的位置得分为/>,第m次提及时引用描述的长度为/>,在m次提及时当前文献站引用描述比例为/>,输出文献的重要程度。
在本实施例中,根据所述第一数据和所述第二数据计算综合评分的方法,包括:
对所述第一数据和所述第二数据进行无量纲处理,计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数;
其中第k个文献的数据i的相关系数为,文献的数列为/>,数据i的数列为,分辨系数为/>,最小差值minmin,最大差值maxmax,根据所述相关系数计算第一数据和第二数据权重:
其中数据i的权重为,文献的数量为N,根据权重计算综合评分:
其中综合评分为D,第一数据为A,第二数据为B,第一数据的权重为,第二数据的权重为/>;
在实际评估中,第一数据的权重为0.69,第二数据的权重为0.31,文献《海洋生境的甲烷好氧氧化作用对氧浓度的响应特征》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.7902、0.21879、0.08826、0.6261,《无人驾驶汽车的发展现状和相关建议》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.19809、0.8322、0.04548、0.27696,《基于高阶磁异常导数与高阶统计量的地震短期预测方法》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.25959、0.27123、0.70029、0.33423,《中国近80年来气候变化特征及其形成机制》与分类海洋生境、无人驾驶、地震预测、中国气候变化的综合评分分别为0.33963、0.29745、0.051897、0.90693。
在本实施例中,根据综合评分构建所述分类模型的方法,包括分类模型基于深度神经网络,将预处理后的文本数据随机分成训练集和测试集,将综合评分作为分类模型的目标,将训练集输入训练分类模型,将测试集输入训练后的分类模型,对测试集的文本数据进行分类预测,将预测的分类和图书馆文献分类作比较获取预测的准确率,将准确率0.95作为优化目标,优化分类模型,完成构建。
在本实施例中,所述优化分类模型的方法,包括:
随机初始化深度神经网络的参数,获取参数的梯度,在不同的时段设置学习率:
其中迭代次数为t,和k为超参数,学习率为/>,对梯度采用指数加权平均更新权重和偏置:
其中稳定常数为,时间t内的状态变量为/>,超参数为/>,权重/>的微分为/>,偏置b的微分为/>,不断迭代,直到准确率达到0.95则停止迭代。
第二方面,一种基于大数据的文献分析管理系统,包括:
获取模块:获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
处理模块:用于基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
管理模块:用于根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于大数据的文献分析方法,其特征在于,包括以下步骤:
A获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
B基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中获取所述文本数据的文本关系的方法包括:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
C根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。
2.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,步骤A中所述预处理包括分词、去停用词、词性标注、去重、去标点符号和向量化。
3.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,提取所述文本数据的文本主题的方法,包括:
将预处理后的所述文本数据按照5:3随机生成训练集和测试集,根据主题生成词的权重构建主题模型,将训练集输入主题模型,初始化主题的数量和主题在主题模型中的分布,根据当前参数估计主题在文献中的概率分布:
其中主题z生成词e的概率为,文献a在主题z中的概率/>,文献d的概率为,根据概率分布更新主题在文献中的概率分布和主题生成词的概率分布;重复估计主题在文献中的概率分布和更新概率分布,直到参数变化的迭代次数达到上限,将测试集输入训练后的主题模型,提取主题并输出。
4.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,所述第二数据表征引用次数和被引用频次的方法,包括:
抽取引用文献,识别文本中的标题和作者,解析格式文献,抽取标题、领域、关键词、引用位置、引用次数和被引用频次,计算文献的重要程度:
其中文献和施引文献/>在文献/>中被提及的次数为/>,文献/>在文献/>中被提及的第m次,第m次提及时的位置得分为/>,第m次提及时引用描述的长度为/>,在m次提及时当前文献站引用描述比例为/>,输出文献的重要程度。
5.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,根据所述第一数据和所述第二数据计算综合评分的方法,包括:
对所述第一数据和所述第二数据进行无量纲处理,计算所述无量纲处理后的所述第一数据和所述第二数据的相关系数;
其中第k个文献的数据i的相关系数为,文献的数列为/>,数据i的数列为,分辨系数为/>,最小差值minmin,最大差值maxmax,根据所述相关系数计算第一数据和第二数据权重:
其中数据i的权重为,文献的数量为N,根据权重计算综合评分:
其中综合评分为D,第一数据为A,第二数据为B,第一数据的权重为,第二数据的权重为/>。
6.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,根据综合评分构建所述分类模型的方法,包括分类模型基于深度神经网络,将预处理后的文本数据随机分成训练集和测试集,将综合评分作为分类模型的目标,将训练集输入训练分类模型,将测试集输入训练后的分类模型,对测试集的文本数据进行分类预测,将预测的分类和图书馆文献分类作比较获取预测的准确率,将准确率0.95作为优化目标,优化分类模型,完成构建。
7.根据权利要求1所述的一种基于大数据的文献分析方法,其特征在于,所述优化分类模型的方法,包括:
随机初始化深度神经网络的参数,获取参数的梯度,在不同的时段设置学习率:
其中迭代次数为t,和k为超参数,学习率为/>,对梯度采用指数加权平均更新权重和偏置:
其中稳定常数为,时间t内的状态变量为/>,超参数为/>,权重/>的微分为/>,偏置b的微分为/>,不断迭代,直到准确率达到0.95则停止迭代。
8.一种基于大数据的文献分析管理系统,其特征在于,包括:
获取模块:用于获取待测文献的文本数据,对所述文本数据进行预处理,所述文本数据包括文字内容、标题、分类、关键词、引用位置、引用次数和被引用频次;
处理模块:用于基于预处理后的所述文本数据获取第一数据和第二数据,所述第一数据表征预处理后的所述文本数据的文本关系,所述第二数据表征引用次数和被引用频次,其中所述文本关系:
将所述文本数据的文本主题输入,对主题进行融合词组信息、加强词组语义特征和强化实体边界,将处理后的文本主题转化字符,将字符输入嵌入层,把嵌入层输出的字符嵌入和词组嵌入信息输入预训练语言模型,利用自注意力机制在特定的相对位置编码下进行不同文段的信息交互获取充分的语义特征;
将语义特征输入全连接层,将语义特征映射到样本标记空间,使用二元分类器将每个标志输出为一组标签,利用最近匹配原则获取每主题的特征向量,将特征向量和特征编码叠加获得特征融合加入多头注意力机制,捕捉特定主题以及相关信息,二分类器标记对应的主题,计算主题和分类的相关度:
其中主题j为,第i个分类/>,主题j的特征向量为/>,分类i的向量为/>,主题与分类的可信度为/>,将相关度大于0.8的分类输出主题的关系信息;
管理模块:用于根据所述第一数据和所述第二数据计算综合评分,根据综合评分构建分类模型,将所述第一数据和所述第二数据输入所述分类模型获取分类,按照所述分类对所述待测文本进行分类管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091618.9A CN116821349B (zh) | 2023-08-29 | 2023-08-29 | 一种基于大数据的文献分析方法及管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091618.9A CN116821349B (zh) | 2023-08-29 | 2023-08-29 | 一种基于大数据的文献分析方法及管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116821349A true CN116821349A (zh) | 2023-09-29 |
CN116821349B CN116821349B (zh) | 2023-10-31 |
Family
ID=88115276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311091618.9A Active CN116821349B (zh) | 2023-08-29 | 2023-08-29 | 一种基于大数据的文献分析方法及管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821349B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200279189A1 (en) * | 2017-11-22 | 2020-09-03 | Kao Corporation | Document classifying device |
CN111651605A (zh) * | 2020-06-04 | 2020-09-11 | 电子科技大学 | 基于多标签分类的肺癌前沿趋势预测方法 |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐系统及文献推荐方法 |
CN115186069A (zh) * | 2022-07-26 | 2022-10-14 | 郑州航空工业管理学院 | 一种基于CNN-BiGRU的学术文本摘要自动分类方法 |
CN115795030A (zh) * | 2022-10-26 | 2023-03-14 | 招联消费金融有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
-
2023
- 2023-08-29 CN CN202311091618.9A patent/CN116821349B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200279189A1 (en) * | 2017-11-22 | 2020-09-03 | Kao Corporation | Document classifying device |
CN113761323A (zh) * | 2020-06-01 | 2021-12-07 | 深圳华大基因科技有限公司 | 文献推荐系统及文献推荐方法 |
CN111651605A (zh) * | 2020-06-04 | 2020-09-11 | 电子科技大学 | 基于多标签分类的肺癌前沿趋势预测方法 |
CN115186069A (zh) * | 2022-07-26 | 2022-10-14 | 郑州航空工业管理学院 | 一种基于CNN-BiGRU的学术文本摘要自动分类方法 |
CN115795030A (zh) * | 2022-10-26 | 2023-03-14 | 招联消费金融有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116821349B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
Eswaraiah et al. | A Hybrid Deep Learning GRU based Approach for Text Classification using Word Embedding | |
CN116821349B (zh) | 一种基于大数据的文献分析方法及管理系统 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN114996442B (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
CN112765940B (zh) | 一种基于主题特征和内容语义的网页去重方法 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN113326371A (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
CN112101001A (zh) | 一种非结构化文本相似性判断的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |