CN118395975A

CN118395975A - 一种大模型辅助的稀土催化材料合成参数抽取方法

Info

Publication number: CN118395975A
Application number: CN202410662427.1A
Authority: CN
Inventors: 谭火彬; 时磊; 林广艳; 李睿明; 张宇洋; 吴伟泽
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2024-05-27
Filing date: 2024-05-27
Publication date: 2024-07-26

Abstract

本发明公开了一种大模型辅助的稀土催化材料合成参数抽取方法，属于自然语言处理技术领域，所述方法包括：将PDF格式的稀土催化材料合成文献批量转换为HTML和TXT格式，并按预定比例划分为标注文献集和抽取文献集；设置需要抽取的合成参数数据类别，按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注；对标注数据进行数据处理，得到合成段落标注集合，对标注数据进行一致性检查，得到标注数据集；训练稀土催化材料合成文献合成段落抽取模型；使用该模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取；使用大模型对抽取文献集的合成段落进行参数抽取。根据本发明技术方案，抽取结果准确，抽取速度快、成本低。

Description

一种大模型辅助的稀土催化材料合成参数抽取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种大模型辅助的稀土催化材料合成参数抽取方法。

背景技术

材料科学中，稀土催化新材料结构复杂，种类繁多，形成海量“新材料设计空间”，学术界目前积累了大量的合成实验结果文献，稀土催化材料合成文献以非结构化文本的形式承载了大量材料领域合成知识，是材料学者之间进行知识交流、研发制备稀土催化新材料的重要途径。随着稀土催化材料合成文献数量指数级增长，传统的人工阅读稀土催化材料合成文献方式面临合成参数获取效率低、覆盖不全等挑战。近期大语言模型蓬勃发展，通过大规模语料数据的训练和优化，已经具备了强大的自然语言理解和生成能力。如何利用大语言模型赋能稀土催化材料合成文献合成参数获取过程，实现对非结构化文本中知识的结构化抽取，从而减轻人工阅读稀土催化材料合成文献的负担，成为当前亟需解决的热点问题。目前进行合成文献中合成参数结构化处理的方法包括基于规则的文本抽取方法、基于机器学习的模式识别方法、基于自然语言处理的信息提取方法等，这些方法普遍存在规则复杂、数据需求量大、泛化能力差等缺点。

发明内容

为解决上述问题，本发明提供了一种大模型辅助的稀土催化材料合成参数抽取方法，该方法包括：步骤1，将PDF格式的稀土催化材料合成文献批量转换为HTML和TXT格式，并按预定比例划分为标注文献集和抽取文献集，其中所述标注文献集用于数据标注，所述抽取文献集用于大规模知识抽取；步骤2，设置需要抽取的合成参数数据类别，按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注；步骤3，对标注数据进行数据处理，得到合成段落标注集合，对标注数据进行一致性检查，得到标注数据集；步骤4，以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，训练稀土催化材料合成文献合成段落抽取模型；步骤5，使用稀土催化材料合成文献合成段落抽取模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取；步骤6，使用大模型对抽取文献集的合成段落进行参数抽取，其中，大模型接收提示词以进行抽取操作。

在上述方法中，所述预定比例为1:30。

在上述方法中，数据类别包括合成所使用的溶剂、前驱体的材料名称及其使用量、合成所需的反应时间、反应温度。

在上述方法中，在数据处理阶段，以稀土催化材料合成文献为单位，对稀土催化材料合成文献原文进行分段，根据该篇文献标注数据中的偏移位置计算标注数据所在段落，所述偏移位置指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的文本偏移量，然后取段落的并集得到稀土催化材料合成文献的合成段落标注集合，所述段落的并集指的是所有包含标注数据的段落集合；在一致性检查阶段，按照标注数据的文本偏移量选取有重叠的标注数据，所述文本偏移量指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的偏移位置及标注数据长度，所述重叠指的是多人标注的同一数据类别内容在合成文献中有重合，然后计算不同用户标注之间的Jaccard相似度，将Jaccard相似度超过阈值的数据纳入标注数据集。

在上述方法中，所述步骤4“训练稀土催化材料合成文献合成段落抽取模型”包括：以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，将稀土催化材料合成文献的合成段落抽取任务转化为文本内容是否为合成段落的二分类任务，基于Bert小规模自然语言模型进行训练，实现稀土催化材料合成文献合成段落的自动预定位。

本发明的有益效果：

根据本发明的技术方案，能够在保证抽取结果准确性的同时，结合小模型抽取速度快、抽取成本低的优势和大模型在自然语言理解方面的强大能力，在保证抽取结果准确性的同时，兼具抽取速度快、抽取成本低的优势，有助于材料科研工作者批量阅读稀土催化材料合成文献，快速高效掌握稀土催化材料合成知识。

附图说明

图1为本发明一种大模型辅助的稀土催化材料合成参数抽取方法的抽取方法流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开，且本公开不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1为本发明一种大模型辅助的稀土催化材料合成参数抽取方法流程图。下面参考图1描述本发明实施方式的方法。如图1所示，该方法包括：

步骤1，将PDF格式的稀土催化材料合成文献批量转换为HTML和TXT格式，并按预定比例划分为标注文献集和抽取文献集，该比例可进行配置，通常标注文献集占小部分，抽取文献集占剩余大部分，例如该比例可以取1:30。PDF格式的稀土催化材料合成文献对机器可读性差，为了提升大模型抽取效果，需要将PDF格式的稀土催化材料合成文献转换为TXT的纯文本输入格式。此外，在PDF和TXT格式之间引入HTML格式，一方面便于渲染带有样式的富文本标注视图，用户基于标注视图进行可视化标注；另一方面可通过HTML的DOM树形结构确定用户标注位置。

在实际操作过程中，首先对每篇稀土催化材料合成文献读取对应的PDF文件，将文件内容转换为由div和span标签包裹的HTML格式，调整HTML中节点的层级关系和可见性，并通过根节点的textContent属性获得纯文本内容，保存到TXT格式的文件中。其中，textContent是HTML标签的一个属性。完成格式转换后，按比例随机选取一定数量的稀土催化材料合成文献组成标注文献集，用于数据标注；其余文献组成抽取文献集，用于大模型知识抽取。标注文献集和抽取文献集的比例可进行配置，通常标注文献集占小部分，抽取文献集占剩余大部分，例如该比例可以取1:30。

步骤2，设置需要抽取的合成参数数据类别，按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注。数据类别包括合成所使用的溶剂、前驱体等材料名称及其使用量、合成所需的反应时间、反应温度等合成条件。数据类别将用于数据标注和合成参数抽取步骤，需要设置的内容包括合成参数类别介绍、合成参数类别标识、合成参数类别名称和合成参数关联关系，其中合成参数关联关系来自于材料化学领域进行稀土催化材料合成时，所使用材料的名称及其量的关联关系。按照设置的数据类别对标注文献集的稀土催化材料合成文献进行标注，根据用户选择的标注内容（用户选择的标注内容指的是用户使用标注工具在合成文献HTML页面中选中的文本内容）获得标注在HTML中的起止DOM节点，记录起止节点到根结点的父子层级关系并序列化存储，得到标注数据集合。每条标注数据包括所属稀土催化材料合成文献、标注数据内容、所属数据类别和数据文本在全文中的起止偏移位置。为保证数据标注质量，采用交叉标注的形式，同一篇稀土催化材料合成文献由多人同时进行标注。

步骤3，对标注数据进行数据处理，得到合成段落标注集合，对标注数据进行一致性检查，得到标注数据集。数据处理阶段的目的是对标注数据进行格式整理并形成合成段落标注集合。合成段落定义为一篇稀土催化材料合成文献中描述合成参数、方法与步骤的段落。在数据处理阶段，以稀土催化材料合成文献为单位，对稀土催化材料合成文献原文进行分段，根据该篇文献标注数据中的偏移位置（偏移位置指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的文本偏移量）计算标注数据所在段落，取段落的并集（所有包含标注数据的段落集合）得到稀土催化材料合成文献的合成段落标注集合。每个合成段落标注包括段落起始位置和段落结束位置，二者范围内的文本为一个合成段落。一致性检查阶段的目的是选取多人标注数据中一致的部分，确保标注数据的正确性。在一致性检查阶段，按照标注数据的文本偏移量（偏移量指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的偏移位置及标注数据长度）选取有重叠的标注数据（重叠指的是多人标注的同一数据类别内容在合成文献中有重合），计算不同用户标注之间的Jaccard相似度，将Jaccard相似度超过阈值的数据纳入标注数据集。

步骤4，以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，训练稀土催化材料合成文献合成段落抽取模型。以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，将稀土催化材料合成文献的合成段落抽取任务转化为文本内容是否为合成段落的二分类任务，基于Bert小规模自然语言模型进行训练，实现稀土催化材料合成文献合成段落的自动预定位。相比于使用大语言模型，根据本发明实施方式采用小模型，在满足精准度需求的同时，还具备抽取速度快、成本低等优势。

在样本数据集中，根据合成段落标记，将多人共同标注的合成段落标记文本作为正样本，没有被任何用户标注的段落文本作为负样本，仅有部分用户标注的段落文本不作为样本。可以使用HuggingFace开源社区提供的预训练标准模型（bert-base-uncased标准模型）在样本数据集上进一步训练和验证。考虑到样本数据量较小，且对于大部分稀土催化材料合成文献而言待抽取的知识集中分布在文献中某几个段落，存在正负样本不平衡的问题。为了充分利用样本数据，在以上预训练标准模型（bert-base-uncased标准模型）之外，还可以采用分层K折（K-Fold）交叉验证的方式分割样本数据集进行模型训练和验证。K折交叉验证是模型训练中的常用技巧，其中将样本数据集分成K个子集，称为折（fold）。然后，模型会进行K次训练和验证，在每次训练中，其中一个折被作为验证集，而剩下的K-1个折被用作训练集。K折交叉验证能够有效利用数据（每个样本都在不同的K次训练中分别作为训练集和验证集）、减少过拟合现象、对模型泛化能力评估更准确。

步骤5，使用稀土催化材料合成文献合成段落抽取模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取。以未经标注的抽取文献集的稀土催化材料合成文献原文作为输入，使用训练得到的稀土催化材料合成文献合成段落抽取模型对合成段落进行抽取。

步骤6，使用大模型对抽取文献集的合成段落进行参数抽取，其中，大模型接收提示词以进行抽取操作。提示词的构造过程如下：以抽取文献集的合成段落为基础，融合数据标注类别介绍（数据标注类别介绍指的是对步骤2中设置的标注数据类别进行稀土催化材料合成领域的专业介绍）和标注文献集的标注数据样例（标注数据样例来自步骤3中得到的标注数据集，从中选取部分作为样例）构造大模型提示词。在构造提示词时，可以采用小样本提示词（Few-shot Prompting）的形式选取少样本标注数据（样本标注数据指的是步骤3得到的标注数据集中的元素，选取少量元素作为样本）构造大模型提示词。大模型进行参数抽取的过程可以包括将构造的提示词以对话的形式按顺序输入到大模型中，并在与大模型的对话中规定数据返回格式，最终得到大模型返回的抽取结果。

化学提示词构造工程包含以下内容：

（1）设置提问者的化学研究员身份和大模型的材料化学专家身份，设置大模型的专业知识在于从材料领域文献中系统准确地提取合成参数，重点关注稀土催化材料合成部分；

（2）定义任务要求并给出合成化学知识背景，合成化学知识背景可由步骤2中设置的待抽取合成参数数据类别和合成参数类别介绍得到，详细说明稀土催化材料合成的一般步骤作为提示；

（3）在标注文献集选取的样例标注数据，包括稀土催化材料合成文献的合成段落和该篇文献的各类别标注数据两个部分；

（4）给出抽取格式要求，便于结构化整理和分析抽取结果；

（5）要求大模型在无法抽取时不进行随机生成，保证输出结果的准确性；

（6）限定分析范围，设置应抽取和忽略的合成信息标签，减少错判以及化学式抽取不全或抽取出多余角标的情况。

在选择样例标注数据时，使用Bert模型对待抽取的稀土催化材料合成文献合成段落生成文本嵌入，计算与标注文献集的稀土催化材料合成文献的文本嵌入（标注文献集的稀土催化材料合成文献的文本嵌入指的是将标注文献集的合成段落集文本数据转换为低维密集向量表示）的向量相似度（文本嵌入的向量相似度指的是在嵌入空间中，两个文本嵌入向量之间的相似程度。这种相似度通常通过计算两个向量之间的距离或者余弦相似度来衡量），选取相似度高（本实施例中，按照相似度从高到低对标注文献集的文本数据进行排序，按照设置的样例数量选取相似度最高的合成文献，这个数量一般为010）的标注文献合成段落及相关合成参数标注数据作为样例，保证样例与待抽取段落的相似性，可进一步提升大模型抽取效果。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施方式可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

尽管根据有限数量的实施方式描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施方式。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。

Claims

1.一种大模型辅助的稀土催化材料合成参数抽取方法，其特征在于，所述方法包括：

步骤1，将PDF格式的稀土催化材料合成文献批量转换为HTML和TXT格式，并按预定比例划分为标注文献集和抽取文献集，其中所述标注文献集用于数据标注，所述抽取文献集用于大规模知识抽取；

步骤2，设置需要抽取的合成参数数据类别，按照该数据类别对标注文献集的稀土催化材料合成文献进行数据标注；

步骤3，对标注数据进行数据处理，得到合成段落标注集合，对标注数据进行一致性检查，得到标注数据集；

步骤4，以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，训练稀土催化材料合成文献合成段落抽取模型；

步骤5，使用稀土催化材料合成文献合成段落抽取模型对抽取文献集的稀土催化材料合成文献进行合成段落抽取；

步骤6，使用大模型对抽取文献集的合成段落进行参数抽取，其中，大模型接收提示词以进行抽取操作。

2.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法，其特征在于，所述预定比例为1:30。

3.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法，其特征在于，数据类别包括合成所使用的溶剂、前驱体的材料名称及其使用量、合成所需的反应时间、反应温度。

4.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法，其特征在于，

在数据处理阶段，以稀土催化材料合成文献为单位，对稀土催化材料合成文献原文进行分段，根据该篇文献标注数据中的偏移位置计算标注数据所在段落，所述偏移位置指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的文本偏移量，然后取段落的并集得到稀土催化材料合成文献的合成段落标注集合，所述段落的并集指的是所有包含标注数据的段落集合；

在一致性检查阶段，按照标注数据的文本偏移量选取有重叠的标注数据，所述文本偏移量指的是以一篇合成文献纯文本的开头作为原点，标注数据的位置相对于原点的偏移位置及标注数据长度，所述重叠指的是多人标注的同一数据类别内容在合成文献中有重合，然后计算不同用户标注之间的Jaccard相似度，将Jaccard相似度超过阈值的数据纳入标注数据集。

5.根据权利要求1所述的大模型辅助的稀土催化材料合成参数抽取方法，其特征在于，

所述步骤4“训练稀土催化材料合成文献合成段落抽取模型”包括：以标注文献集的稀土催化材料合成文献原文和合成段落标注集合作为样本数据集，将稀土催化材料合成文献的合成段落抽取任务转化为文本内容是否为合成段落的二分类任务，基于Bert小规模自然语言模型进行训练，实现稀土催化材料合成文献合成段落的自动预定位。