CN116561311A

CN116561311A - 基于大语言模型的引文文本自动分类方法

Info

Publication number: CN116561311A
Application number: CN202310440257.8A
Authority: CN
Inventors: 任檐雨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-08-08

Abstract

本发明公开了一种基于大语言模型的引文文本自动分类方法，包括：获取待分析的被引文献全文及其施引文献全文，并对其进行数据预处理；利用大语言模型提炼被引文献中的关键信息；将提炼的关键信息以及得到的引文文本信息输入到BERT模型提取相应的特征，将提取的特征以及数据预处理中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型进行训练；将待分类的引文文本经过上述步骤提取特征后，将特征进行集合并输入到训练完成的多层感知机分类模型中对引文文本的引用对象标签和引用功能标签进行预测，并根据引用对象标签和引用功能标签对引文文本进行分类。本发明大大提升了引文文本分类准确率。

Description

基于大语言模型的引文文本自动分类方法

技术领域

本发明属于引文分析的技术领域，具体涉及一种基于大语言模型的引文文本自动分类方法。

背景技术

基于文献被引频次的传统引文分析方法已广泛应用于学术评价、科学计量、科研绩效管理等领域，衍生出了期刊影响因子IF、科研人员H指数等颇具影响力的计量指标，但这些方法均将所有的引用同等看待，未能有效区分不同引文内容之间的具体差异。随着全文文献数据库的普及以及文本处理技术的发展，对引文文本进行细粒度的分析处理成为大势所趋，尝试从引用对象、引用功能等多方面对引文文本进行自动分类逐渐成为研究人员关注的焦点。然而，当前的引文内容自动识别方法准确率并不理想，与被引文献本身内容脱节的问题也尤为突出。因此，如何有效解决引文文本的分类问题、进而更细粒度地评价被引文献的影响力成为一个重要问题。

发明内容

本发明的目的在于针对现有技术的不足之处，提供一种基于大语言模型的引文文本自动分类方法，该方法从引用对象和引用功能两个层面更细粒度地揭示出引用行为的实质，提高引文文本分类的准确率。

为解决上述技术问题，本发明采用如下技术方案：

一种基于大语言模型的引文文本自动分类方法，包括如下步骤：

步骤1、获取待分析的被引文献全文及其施引文献全文，并对其进行数据预处理；

步骤2、利用大语言模型提炼被引文献中的关键信息；

步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征，将提取的特征及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练；

步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测，并根据引用对象标签和引用功能标签对引文文本进行分类。

进一步地，步骤1具体包括：

S1.1、从数据库中获取待分析的被引文献全文及其对应的施引文献全文，删除无法获取全文的文献；

S1.2、将施引文献全文PDF转化为TXT格式的文本，保留引用标记；

S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置，得到引文内容集合其中，x_i表示第i条样本(x_i，z_i)中的引文文本；z_i表示第i条样本(x_i，z_i)中的被引文献内容；d_i表示引文文本在施引文献中的引用位置特征向量；y_i表示引用对象标签，y′_i表示引用功能标签，标签均来自人工标注；i＝1，2，…，N，N表示样本总数。

进一步地，步骤2中提取的关键信息包括被引文献的背景、方法和结论。

进一步地，步骤2中将被引文献全文输入大语言模型LLM中，提取的背景、方法和结论分别为：

s_i＝LLM(x_i，prompt1)；

s′_i＝LLM′(x_i，prompt2)；

s″_i＝LLM″(x_i，prompt3)；

其中，LLM是提炼被引文献背景的大语言模型，prompt1是提炼被引文献背景的提示词，s_i是第i篇被引文献提炼后的背景文本；LLM′是提炼被引文献方法的大语言模型，prompt2是提炼被引文献方法的提示词，s′_i是第i篇被引文献提炼后的方法文本；LLM″是提炼被引文献结论的大语言模型；prompt3是提炼被引文献结论的提示词，s″_i是第i篇被引文献提炼后的结论文本。

进一步地，步骤3具体包括：

将步骤2中提取的被引文献关键信息输入到BERT模型获得被引文献关键信息的特征向量；

将步骤1中得到的引文文本信息输入到BERT模型得到引文文本的特征向量；

将被引文献关键信息的特征向量与引文文本的特征向量、步骤1中得到的引用位置特征向量拼接后得到训练集，采用该训练集对多层感知机分类模型MLP进行训练，获得多层感知机分类模型MLP的模型参数。

进一步地，步骤3中在训练过程中，建立损失函数，通过反向传播优化模型参数，直至损失函数收敛，其中，损失函数为交叉熵损失函数L：

式中，为多层感知机分类模型MLP输出的引用对象标签，/>为输出的引用功能标签；y_i为训练集中人工标注的引用对象标签，y′_i为训练集中人工标注的引用功能标签；i＝1，2，…，N，N表示样本总数；λ为使模型效果最优的参数，取值范围为[0.1，5]。

进一步地，步骤4中，根据预测的引用对象标签和引用功能标签，构建引文三元组，引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。

进一步地，引用对象包含关系三元组表示为(引用对象，Part-of，被引文献)。

进一步地，引用对象类别三元组表示为(引用对象，ISA，引用对象类别)。

进一步地，引文功能三元组表示为(施引文献，引文功能，被引文献)。

与现有技术相比，本发明的有益效果为：

1、本发明通过大语言模型实现了对长文本更好的处理，可以有效提炼被引文献全文的关键内容信息，转化为训练集成语言特征分类器的特征向量，实现了引文内容和被引文献本身内容的有效匹配，从而提高了对引文文本的分类准确率；

2、本发明通过识别引文文本在施引文献中的引用位置特征向量，包括Introduction(背景或引言)、Data&Methods(数据或方法)、Results(结果)、Conclusion(结论)等，利用不同位置的引文通常具有不同的引用功能这个特点，进一步提高了对引文文本的分类准确率；

3、本发明利用人工标注的引用对象和引用功能标签对BERT短文本分类模型进行微调，提高了BERT模型对特定文本分类任务的特征提取能力，获得了更加准确的语义特征向量表示；

4、本发明通过融合被引文献本身的内容特征、施引文献中的引用特征，并利用人工标注的标签微调预训练模型，实现了准确率更优的引文文本分类。

附图说明

图1为本发明实施例基于大语言模型的引文文本自动分类方法的流程图；

图2为本发明实施例基于大语言模型的引文文本自动分类方法的实施框图；

图3为本发明实施例中利用大语言模型提炼被引文献关键信息的实施框图；

图4为本发明实施例中利用集成语言特征进行多目标分类的实施框图；

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合具体实施例对本发明作进一步说明，但不作为本发明的限定。

如图1和图2所示，本发明实施例公开一种基于大语言模型的引文文本自动分类方法，该方法通过大语言模型和集成语言特征分类器获取了被引文献原文信息，且增加了引用位置特征向量，提升了引文文本分类准确率，以此实现辅助被引文献影响力评价、探究文献间知识传递过程、构建知识传播网络以及学术本体的技术效果。具体来说，其包括以下步骤：

步骤1、获取待分析的被引文献全文及其施引文献全文，并进行数据预处理：

S1.1、从文献数据库，如Web of Science数据库、Scopus数据库、PubMed数据库中获取待分析的被引文献全文，并通过数据库提供的“查看施引文献”功能获取其对应的施引文献全文，以PDF格式下载被引文献及其对应的施引文献，组成一个文献对，剔除部分由于访问权限或其他原因无法获取全文PDF的文献对；

S1.2、当被引文献出现在施引文献中时，通常会被以“[编号]”的格式标记，如被引文献《SARS-CoV-2variants of concern and vaccine escape,from Alpha to Omicronand beyond》一文在其施引文献《Antibody persistence and safety afterheterologous boosting with orally aerosolised Ad5-nCoV in individuals primedwith two-dose CoronaVac previously:12-month analyses of a randomizedcontrolled trial》一文中的Introduction部分被标记为“[3]”，其中，“[3]”即为引用标记，“[3]”所在的句子即为引文句。利用Python语言将S1.1中获得的施引文献全文PDF全部转化为TXT格式的文本，并保留文中所有的引用标记“[]”；

S1.3、利用Python语言中的正则表达式匹配引用标记“[]”，获取施引文献中的引文句和引用位置，其中引用位置分为“Introduction”“Data&Methods”“Results”和“Discussion&Conclusion”四类，具体分类体系见表1。如在S1.2提到的《Antibodypersistence and safety after heterologous boosting with orally aerosolisedAd5-nCoV in individuals primed with two-dose CoronaVac previously：12-monthanalyses of a randomized controlled trial》一文中匹配引用标记“[3]”，即可抽取出其所在的引文句及其所在的引用位置“Introduction”。

表1为引用位置分类体系

由此，可得到引文文本集合：

其中，x_i表示第i条文献对样本(x_i，z_i)中的引文文本，由于引文上下文在理解引文语义中发挥重要作用，这里将其定义为施引文献中的引文句及其前两句和后两句，共5句；z_i表示第i条文献对样本(x_i，z_i)中的被引文献内容；d_i表示引文文本在施引文献中的引用位置特征向量，特征维度为4维；y_i表示引用对象标签，y′_i表示引用功能标签，标签均来自人工标注；i＝1，2，…，N，N表示样本总数。其中，引用对象标签主要分为“背景”、“方法”和“结论”3类，具体分类体系见表2；引用功能标签主要分为“背景”、“基于”、“支持”、“批判”和“不同”5类，具体分类体系见表3；

表2为引用对象分类体系

表3为引用功能分类体系

步骤2、利用大语言模型提炼被引文献中的关键信息；

如图3所示，在本实施例中，将被引文献全文输入大语言模型LLM，设置三组提示词，分别提炼出被引文献的背景、方法和结论：

s_i＝LLM(x_i，prompt1)； (2)

s′_i＝LLM′(x_i，prompt2)； (3)

s″_i＝LLM″(x_i，prompt3)； (4)

其中，LLM是提炼被引文献背景的大语言模型，prompt1是提炼被引文献背景的提示词，s_i是第i篇被引文献提炼后的背景文本；LLM′是提炼被引文献方法的大语言模型，prompt2是提炼被引文献方法的提示词，s′_i是第i篇被引文献提炼后的方法文本；LLM″是提炼被引文献结论的大语言模型，prompt3是提炼被引文献结论的提示词，s″_i是第i篇被引文献提炼后的结论文本。

步骤3、将步骤2提炼的被引文献关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征，采用提取的特征及步骤1中得到的引用位置特征对用于分类任务的多层感知机分类模型MLP中进行训练；该步骤具体包括：

S3.1、BERT模型是一个能融合上下文深层双向语言特征的预训练模型，适用于文本分类、语义理解等任务。将提炼后的被引文献背景文本s_i、方法文本s′_i和结论文本s″_i分别输入不同的BERT模型，可分别得到其特征向量表示：

q_i＝BERT(s_i)； (5)

q′_i＝BERT′(s′_i)； (6)

q″_i＝BERT″(s″_i)； (7)

其中，BERT是用于提取被引文献背景特征的BERT模型，BERT′是用于提取被引文献方法特征的BERT模型，BERT″是提取被引文献结论特征的BERT模型；q_i是得到的被引文献背景文本特征向量，在本实施例中，特征维度是768维；q′_i是被引文献方法文本特征向量，特征维度是768维；q″_i是被引文献结论文本特征向量，特征维度是768维。

S3.2、将引文文本x_i输入BERT模型，得到引文文本特征向量：

P_i＝BERT″′(x_i) (8)

其中，BERT″′是提取引文文本特征的BERT模型，P_i是输出的引文文本特征向量，在本实施例中，特征维度是768维。

S3.3、将被引文献背景文本特征向量q_i、方法文本特征向量q′_i、结论文本特征向量q″_i、引文文本特征向量Pi以及步骤1中得到的引用位置向量d_i拼接后得到训练集；将训练集输入到多层感知机分类模型MLP中，由此输出预测值：

其中，MLP是用于引用目标标签分类的分类器，特征维度为[128，16]；MLP′是用于引用功能标签分类的分类器，特征维度为[128，16]；是输出的引用对象标签，/>是引用功能标签。

S3.4、采用训练集对多层感知机分类模型进行训练，在训练过程中设置损失函数，通过反向传播优化模型参数，直至损失函数收敛，其中，损失函数为交叉熵损失函数L，

式中，为多层感知机分类模型输出的引用对象标签，/>为输出的引用功能标签；y_i为训练集中人工标注的引用对象标签，y′_i为训练集中人工标注的引用功能标签；i＝1，2，…，N，N表示样本总数；λ为使多层感知机分类模型效果最优的参数，取值范围为[0.1，5]。

步骤4、将待分类的引文文本经过步骤1和步骤2的处理并经步骤3提取特征后将特征进行集合并输入到训练完成的多层感知机分类模型MLP中对引文文本的引用对象标签和引用功能标签进行预测，并根据引用对象标签和引用功能标签对引文文本进行分类；

在本实施例中，如图4所示，采用训练完成的多层感知机分类模型MLP中对待分类的引文文本的引用对象标签和引用功能标签进行预测，将根据预测出的施引文献引用对象标签和引文功能标签构建引文三元组。该引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。其中，引用对象包含关系三元组表示为(引用对象，Part-of，被引文献)，表达了引用对象和被引文献间的包含关系，将引用对象和其原先隶属的被引文献之间联结起来；引用对象类别三元组表示为(引用对象，ISA，引用对象类别)，表达了引用对象的类别属性，即被引文献被施引文献引用的内容是什么；引文功能三元组表示为(施引文献，引文功能，被引文献)，表达了被引文献在施引文献中发挥中的功能作用。3个三元组从多维度揭示出引用关系的实质，共同表达出引文的完整内涵，作为引文文本的3个属性，以实现分类目的，示例如表4。

表4为引文文本三元组示例

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于大语言模型的引文文本自动分类方法，其特征在于，包括如下步骤：

步骤2、利用大语言模型提炼被引文献中的关键信息；

步骤3、将步骤2提炼的关键信息以及步骤1中得到的引文文本信息输入到BERT模型提取相应的特征，将提取的特征以及步骤1中得到的引用位置特征进行集合并采用集合的特征对用于分类任务的多层感知机分类模型MLP进行训练；

2.根据权利要求1所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤1具体包括：

S1.3、利用正则表达式匹配引用标记的方法获取施引文献中的引文内容和引用位置，得到引文文本集合其中，x_i表示第i条样本(x_i,z_i)中的引文文本；z_i表示第i条样本(x_i,z_i)中的被引文献内容；d_i表示引文文本在施引文献中的引用位置特征向量；y_i表示引用对象标签，y′_i表示引用功能标签，标签均来自人工标注；i＝1,2,…,N，N表示样本总数。

3.根据权利要求1所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤2中提取的关键信息包括被引文献的背景、方法和结论。

4.根据权利要求3所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤2中将被引文献全文输入大语言模型LLM中，提取的背景、方法和结论分别为：

s_i＝LLM(x_i,rompt1)；

s′_i＝LM′(x_i,prompt2)；

s″_i＝LLM″(_i，prompt3)；

5.根据权利要求1所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤3具体包括：

将步骤2中提取的被引文献关键信息输入到BERT模型，获得被引文献关键信息的特征向量；

将被引文献关键信息的特征向量与引文文本的特征向量、步骤1中得到的引用位置拼接后得到训练集，采用该训练集对多层感知机分类模型MLP进行训练，获得多层感知机分类模型MLP的模型参数。

6.根据权利要5所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤3中在训练过程中，建立损失函数，通过反向传播优化模型参数，直至损失函数收敛，其中，损失函数为交叉熵损失函数L：

式中，为多层感知机分类模型MLP输出的引用对象标签，/>为输出的引用功能标签；y_i为训练集中人工标注的引用对象标签，y′_i为训练集中人工标注的引用功能标签；i＝1，2，…，，N表示样本总数；λ为使模型效果最优的参数。

7.根据权利要求1所述的基于大语言模型的引文文本自动分类方法，其特征在于，步骤4中，根据预测的引用对象标签和引用功能标签，构建引文三元组，引文三元组包含引用对象包含关系三元组、引用对象类别三元组和引文功能三元组。

8.根据权利要求7所述的基于大语言模型的引文文本自动分类方法，其特征在于，引用对象包含关系三元组表示为(引用对象，Part-of，被引文献)。

9.根据权利要求7所述的基于大语言模型的引文文本自动分类方法，其特征在于，引用对象类别三元组表示为(引用对象，ISA，引用对象类别)。

10.根据权利要求7所述的基于大语言模型的引文文本自动分类方法，其特征在于，引文功能三元组表示为(施引文献，引文功能，被引文献)。