CN117113937A

CN117113937A - 一种基于大规模语言模型的电力领域阅读理解方法和系统

Info

Publication number: CN117113937A
Application number: CN202311046961.1A
Authority: CN
Inventors: 叶茂; 赵洲; 张伟; 王海涛; 孙翔; 陆诚; 韩嘉佳; 杨涛; 张彩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-24

Abstract

本发明公开了一种基于大规模语言模型的电力领域阅读理解方法和系统，属于电力知识阅读理解领域。本发明构建了电力领域专属的数据集，来训练本系统中涉及的模型，以实现电力领域的知识注入；采用一种注入电力领域知识的抽取式阅读理解模型，以实现对问题和上下文的初步理解；采用一种融合电力领域知识的大规模语言模型，来解决抽取式阅读理解模型难以解决的问题；基于上述抽取式阅读理解模型和大规模语言模型，进一步融合问题和文档检索功能，实现一种电力领域阅读理解任务的系统。相比于一般的现有方法，本发明兼具传统抽取式阅读理解模型和大模型的优势，解决了抽取式模型难以解决长文本和自由问答的缺陷，以及大模型回答存在错乱和幻觉等问题。

Description

一种基于大规模语言模型的电力领域阅读理解方法和系统

技术领域

本发明涉及电力知识阅读理解领域，尤其是一种基于大规模语言模型的电力领域阅读理解方法和系统。

背景技术

大规模语言模型凭借其良好的自然语言理解能力、似真人一般的回复生成能力以及小样本或零样本学习能力，迅速成为了研究的一个重要主题。但大规模语言模型在如医学、法律和电力等垂直领域的实际应用欠佳，因为其不具备垂直领域的专业知识以及其输出存在着一定的“幻觉”错误。同时，现今市面上实际部署应用的大规模语言模型，如ChatGPT，其参数规模已达到千亿级别。这种超大规模的模型部署困难，计算成本巨大。

阅读理解任务的成果可以应用于实际，辅助人们阅读文献，提取关键信息等。传统的抽取式阅读理解模型大多基于注意力机制或预训练语言模型，如BERT，在只针对在给定上下文中有明确答案的问题会有较好的效果，对于涉及到知识概况总结和开放式问答，效果不佳。同时通用的阅读理解模型针对垂直领域的上下文理解效果一般。

在电力知识领域，有着很多专有词汇，且十分容易混淆，这对人工智能模型的理解能力提出了巨大的挑战。电力知识领域的文献长度参差不齐，有存在长文本，这对传统的抽取式阅读理解模型是一个挑战。在实际应用中，出于安全方面的考虑，对电力知识的可靠性要求非常高。

发明内容

本发明所要解决的技术问题是克服上述现有相关技术未能应用于电力知识的阅读理解领域，本发明提供一种基于大规模语言模型的电力领域阅读理解方法和系统，以突破现有大模型技术回答错误和传统抽取式阅读理解模型无法回答开放式问题的限制，构造一个可以在电力知识领域实际应用的阅读理解模型和系统。

为此，本发明采用的技术方案如下：

第一方面，本发明提出一种基于大规模语言模型的电力领域阅读理解方法，包括如下步骤：

1)获取电力领域相关文本数据，构建用于模型预训练的数据集D1和用于阅读理解任务的数据集D2；

2)根据步骤1)得到的数据集D1和D2，分别训练一个抽取式阅读理解模型M1和一个电力领域大规模语言模型M2；

3)将待进行阅读理解的电力领域长文本按自然段分段；

4)将待进行阅读理解的电力领域长文本的相关问题Q和根据步骤3)得到的长文本分段结果为输入，通过训练得到的抽取式阅读理解模型M1，得到全部文本段的答案预测结果；

5)判断步骤4)得到的全部文本段的答案预测结果中包含的预测答案个数r，若r＝1，则直接输出对应的预测答案作为最终的答案，若r>1，则执行步骤6)，若r＝0，则执行步骤7)；

6)选取答案预测结果中包含预测答案的文本段组成一个新文本，并将新文本和问题Q组成大规模语言模型M2的输入，通过大规模语言模型M2生成最终的答案；

7)基于问题Q匹配数据库中的文档，将匹配得到的文档和问题Q组成大规模语言模型M2的输入，通过大规模语言模型M2生成最终的答案。

进一步地，所述的用于模型预训练的数据集D1为电力领域的纯文本数据，用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练；用于阅读理解任务的数据集D2中的每一个样本包含问题Q、上下文T和答案A。

进一步地，所述的抽取式阅读理解模型M1的训练过程包括：

采用数据集D1，对基于transformer编码器架构的抽取式阅读理解模型进行掩码语言模型预训练，使得抽取式阅读理解模型融合电力领域的专业知识；

采用数据集D2继续对预训练后的抽取式阅读理解模型进行训练，得到训练好的抽取式阅读理解模型M1。

进一步地，所述的采用数据集D1，对基于transformer编码器架构的抽取式阅读理解模型进行掩码语言模型预训练，包括：

对数据集D1进行预处理：将原始文本按自然段切分为若干段，通过分词器将文本转化为字词序列，将字词序列随机掩码，得到掩码文本段落；

通过嵌入层获取掩码文本段落的嵌入表示，将掩码文本段落的嵌入表示输入transformer编码器，获得掩码文本段落的隐藏表示；

以掩码文本段落的隐藏表示为输入，通过掩码语言模型预测头预测掩码位置的字词，以原始文本段落中对应位置的字词为标签，计算交叉熵损失；

基于交叉熵损失，通过梯度回传更新抽取式阅读理解模型中的嵌入层、transformer编码器、掩码语言模型预测头的参数，完成抽取式阅读理解模型的预训练。

进一步地，所述的采用数据集D2继续对预训练后的抽取式阅读理解模型进行训练，得到训练好的抽取式阅读理解模型M1，包括：

对数据集D2进行预处理：将数据集D2中的每一个样本的上下文T和问题Q通过分词器转化为字词序列，通过语言模型的分句间隔符连接；

通过预训练后的嵌入层获取样本预处理后的字词序列的嵌入表示，将其输入预训练后的transformer编码器，获得样本的隐藏表示；

以样本的隐藏表示作为输入，通过抽取式阅读理解分类头预测答案的起始位置和结束位置，以样本的真实答案A中对应到上下文的起始位置和结束位置为标签，计算交叉熵损失；

基于交叉熵损失，通过梯度回传更新抽取式阅读理解模型中的嵌入层、transformer编码器、抽取式阅读理解分类头的参数，完成抽取式阅读理解模型的训练，得到训练好的抽取式阅读理解模型M1。

进一步地，所述的电力领域大规模语言模型M2的训练过程包括：

获取数据集D1对应的中文扩展词表，并将其和大规模语言模型原始词表融合得到新词表；

采用数据集D1，对基于transformer解码器架构的大规模语言模型进行预训练，使得大规模语言模型融合电力领域的专业知识；

采用数据集D2继续对预训练后的大规模语言模型进行训练，通过指令微调的形式训练得到大规模语言模型M2。

进一步地，所述的采用数据集D1，对基于transformer解码器架构的大规模语言模型进行预训练，包括：

对数据集D1进行预处理：基于数据集D1对应的中文扩展词表和大规模语言模型原始词表融合得到的新词表，通过分词器将数据集D1中的文本数据转化为字词序列，每4096个字词截取为一个字词序列样本；

通过嵌入层获取字词序列样本的嵌入表示，将嵌入表示输入transformer解码器，获得字词序列样本的隐藏表示；

以字词序列样本的隐藏表示为输入，通过因果语言模型预测头，基于当前位置之前的字词序列预测当前位置的字词，以原始字词序列中当前位置的字词为标签，计算交叉熵损失；

基于交叉熵损失，通过梯度回传更新大规模语言模型中的嵌入层、transformer解码器、因果语言模型预测头的参数，完成大规模语言模型的预训练。

进一步地，所述的采用数据集D2继续对预训练后的大规模语言模型进行训练，通过指令微调的形式训练得到大规模语言模型M2，包括：

对数据集D2进行预处理：将数据集D2中的每一个样本的问题Q和上下文T构建成带有指令形式的大规模语言模型的输入；

由预训练后的大规模语言模型流式生成问题Q对应的答案；

以样本的真实答案A为标签，计算生成答案和真实答案的交叉熵损失；

基于交叉熵损失，通过梯度回传更新大规模语言模型中的嵌入层、transformer解码器、因果语言模型预测头的参数，完成大规模语言模型的训练，得到训练好的大规模语言模型M2。

进一步地，所述的判断步骤4)得到的全部文本段的答案预测结果中包含的预测答案个数r，具体为：

遍历全部文本段的答案预测结果P中每一段落的预测结果p_i，若p_i中包含的起始和结束位置能成功映射到对应段落中，记为找到答案。

第二方面，本发明提出一种基于大规模语言模型的电力领域阅读理解系统，用于实现上述的基于大规模语言模型的电力领域阅读理解方法。

本发明具有的有益效果为：本发明突破了现有大模型技术回答错误和传统抽取式阅读理解模型无法回答开放式问题的限制，构造一个可以在电力知识领域实际应用的阅读理解模型和系统。

附图说明

图1是本发明一种基于大规模语言模型的电力领域阅读理解模型整体架构示意图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明为种基于大规模语言模型的电力领域阅读理解方法，包括如下步骤：

步骤一、获取电力领域相关文本数据，构建用于模型预训练的数据集D1和用于阅读理解任务的数据集D2。

本实施例中，用于预训练的数据集D1包含10万篇电力领域相关的文献，其为纯文本数据，用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练。

用于阅读理解任务的数据集D2，其中的每一个样本包含问题Q、上下文T、答案A。在本实施例中，该数据集的构建通过电力领域专业人员通过阅读电力领域相关文献标注出问答对5000条，然后通过ChatGPT根据人工问答对生成50万条。

步骤二、根据步骤一得到的数据集D1和D2，训练一个抽取式阅读理解模型M1。

首先，根据步骤一得到的预训练数据集D1，通过基于transformer编码器架构的抽取式阅读理解模型进行预训练，使得该模型能融合电力领域的专业知识。本实施例中选用Bert作为该抽取式阅读理解模型的基础模型。

其次，根据步骤一得到的用于阅读理解任务的数据集D2对上述得到的完成预训练的抽取式阅读理解模型再次进行训练，得到训练后的抽取式阅读理解模型M1。

在本发明的一项可选实施中，根据步骤一得到的预训练数据集D1，通过基于transformer编码器架构的抽取式阅读理解模型进行预训练，具体为：

根据步骤一得到的预训练数据集D1，将其进行预处理：按自然段切分为若干段，通过分词器tokenizer将文本转化为token序列，删除token数超过512的段，并将15％的token进行随机掩码，即用[MASK]代替token序列中的原始token，得到掩码文本段落；

接着将掩码文本段落，先经过embedding层获得嵌入表示，再通过transformer编码器，获得掩码文本段落的隐藏表示；

然后通过掩码语言模型预测头预测[MASK]位置的token为原始文本中对应位置的token作为标签y，将/>和y通过交叉熵损失函数计算损失；

最后根据交叉熵损失，通过梯度回传更新抽取式阅读理解模型中的嵌入层、transformer编码器、掩码语言模型预测头的参数，完成抽取式阅读理解模型的预训练。

在本发明的一项可选实施中，根据步骤一得到的用于阅读理解任务的数据集D2对上述得到的完成预训练的抽取式阅读理解模型再次进行训练，具体为：

首先，根据步骤一得到的阅读理解任务数据集D2，将每一个样本的问题Q和上下文T通过tokenizer转化为token序列，通过语言模型的分句间隔符[SEP]连接，经过预训练后的embedding层，获得样本的嵌入表示；

接着，通过预训练后的嵌入层获取样本预处理后的字词序列的嵌入表示，将其输入预训练后的transformer编码器，获得样本的隐藏表示；

然后，以样本的隐藏表示作为输入，通过抽取式阅读理解分类头分别预测答案的起始位置pos_st′和结束位置pos_ed′，以样本的真实答案A中对应到上下文的起始位置和结束位置分别为pos_st和pos_ed，通过交叉熵损失函数计算损失；

最后，根据得到的交叉熵损失，通过梯度回传更新抽取式阅读理解模型中的嵌入层、transformer编码器、抽取式阅读理解分类头的参数，完成抽取式阅读理解模型的训练，得到训练好的抽取式阅读理解模型M1。

步骤三、根据步骤一得到的数据集D1和D2，训练一个电力领域大规模语言模型M2。

首先，根据步骤一得到的预训练数据集D1，通过SentencePiece的方法获取对应的中文扩展词表，并将其和大规模语言模型原始词表融合得到新词表，即tokenizer。

接着，根据预训练数据集D1，通过基于transformer解码器架构的大规模语言模型进行预训练，使模型掌握电力领域的专业知识。本实施例中选用LLaMA-7B模型作为大规模语言模型的基础模型。

最后，根据阅读理解任务数据集D2和上述得到的预训练大规模语言模型，通过指令微调的形式训练大规模语言模型M2。

在本发明的一项可选实施中，根据预训练数据集D1，通过基于transformer解码器架构的大规模语言模型进行预训练，具体为：

首先，预训练数据集D1和得到的新词表tokenizer，将D1中的文本数据通过新的tokenizer转化为token序列，每4096个token截取为一个字词序列样本；

接着，根据得到的字词序列样本，通过embedding层得到字词序列样本嵌入向量，再经过transformer解码器得到字词序列样本的隐藏表示；

然后，以字词序列样本的隐藏表示为输入，通过因果语言模型预测头，基于当前位置以前的token序列，预测当前位置的token，记为与原始token序列中当前位置的token，记为y，通过交叉熵损失函数计算损失。

然后，根据得到的交叉熵损失，通过梯度回传更新大规模语言模型中的嵌入层、transformer解码器、因果语言模型预测头的参数，完成大规模语言模型的预训练。

重复上述步骤训练3个完整周期，预训练得到蕴含电力领域知识的大规模语言模型。

在本发明的一项可选实施中，根据阅读理解任务数据集D2和上述得到的预训练大规模语言模型，通过指令微调的形式训练大规模语言模型M2，具体为：

首先，根据阅读理解任务数据集D2，将每一条数据的问题Q和上下文T构建成带有指令形式的大规模语言模型的输入，即prompt形式，作为大规模语言模型的输入：

本实施例中，Prompt:“根据给定的内容，回答问题。\n###内容：{T}\n\n###问题：{Q}\n\n回答：”

接着，由预训练后的大规模语言模型流式生成问题Q对应的答案；以样本的真实答案A为标签，计算生成答案和真实答案的交叉熵损失；其中，利用基于transformer解码器架构的大规模语言模型流式生成问题对应的答案，属于本领域的公知技术，此处不再对其原理进行赘述。

最后，基于交叉熵损失，通过梯度回传更新大规模语言模型中的嵌入层、transformer解码器、因果语言模型预测头的参数，完成大规模语言模型的训练，得到训练好的大规模语言模型M2。

步骤四、将待进行阅读理解的电力领域长文本按自然段分为N个文本段，即T＝{t₁,t₂,…t_i…t_N}。若电力领域长文本以PDF的文件格式存在，需要对PDF文件进行解析获得文本数据，通过python中fitz库实现对PDF的解析，并将获取的文本数据，按文本自然段分成N段。

步骤五、根据步骤四得到的长文本分段结果T，以及待进行阅读理解的电力领域长文本的相关问题Q，通过基于tansformer编码器架构的抽取式阅读理解模型M1，得到每一个文本段的预测答案P＝{p₁,p₂,…p_i…p_N}。

步骤六、根据步骤五得到抽取式阅读理解预测结果P，其中r表示P中能预测出答案的个数，遍历其中针对每一段的预测结果p_i，若p_i中包含的起始和结束位置能成功映射到对应段落中，记为可以找到答案，r＝r+1，否则r不变，且r的初始值为0。若r＝1，直接输出对应的预测答案作为最终的答案，若r>1，进行步骤七的操作，若r＝0，进行步骤八的操作。

步骤七、根据步骤五得到预测结果P，选取其中能预测出答案的对应的文本段组成一个新文本，并将新文本和问题Q组成大规模语言模型的输入，通过大规模语言模型M2生成最终的答案；

步骤八、根据问题Q，去匹配数据库中文档，取最相关的一个文档和问题组成大规模语言模型的输入，通过大规模语言模型M2生成最终的答案。

本步骤中，数据库是根据步骤一获得的电力领域相关的文档构建成的，将问题Q和文档数据库Ds为输入，通过BM25算法匹配得到数据库中的最相关段落，将最相关段落所在的文档作为最相关文档输出。

所述的步骤七和步骤八中，大规模语言模型的输入均以上述prompt形式为输入格式。

本实施例中，将本发明提出的基于大规模语言模型的电力领域阅读理解方法并与中文通用领域大模型、传统抽取式阅读理解模型在构建的电力领域阅读理解数据集下进行测评。

从电力领域阅读理解数据集中选取500条人工构建并未用于训练的问答对作为评估数据，每条样例包含问题Q、上下文T以及参考答案A，即{Q,T,A}。

采用人工评估、ChatGPT评估以及指标评估的方法进行评估。其中，人工评估是在给定问题、上下文以及参考答案的情况下，通过人工对模型生成的答案进行打分，评分范围为[0,10]。ChatGPT评估是通过调用ChatGPT接口，让ChatGPT根据上下文和问题，评估模型生成答案是否符合，并给出评分。指标评估主要通过完全匹配率EM来评估。

表1各项评估结果

模型	人工评估	ChatGPT评估	指标评估
				基于Bert的通用阅读理解模型	35	39.60	37.2
Chinese-LLaMA-7B	78.3	73.91	38.3
				本发明	90.2	87.25	39.5

如表1所示，在评估数据集中，与传统的通用阅读理解模型和同参数等级最优的大规模语言模型相比，本发明获得了更好的人工评估和ChatGPT评估，并且以很大的优势优于其他两种有竞争力的模型。这说明本发明可以在电力知识领域较好的完成阅读理解任务。

在本实施例中还提供了一种基于大规模语言模型的电力领域阅读理解系统，该系统用于实现上述实施例，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

本实施例中，一种基于大规模语言模型的电力领域阅读理解系统，包括：

训练数据获取模块，其用于获取电力领域相关文本数据，构建用于模型预训练的数据集D1和用于阅读理解任务的数据集D2；

抽取式阅读理解模型M1，其由嵌入层、transformer编码器、抽取式阅读理解分类头构成，以待进行阅读理解的电力领域长文本的相关问题和长文本分段结果为输入，生成全部文本段的答案预测结果；所述的答案预测结果为各文本段对应答案的起始和结束位置；

抽取式阅读理解模型M1训练模块，其用于利用数据集D1和数据集D2对抽取式阅读理解模型M1进行两阶段训练，在第一阶段训练时，引入掩码语言模型预测头代替抽取式阅读理解分类头，基于数据集D1对抽取式阅读理解模型M1进行掩码语言模型训练；在第二阶段训练时，采用数据集D2继续对预训练后的抽取式阅读理解模型进行训练，得到训练好的抽取式阅读理解模型M1；

电力领域大规模语言模型M2，其由嵌入层、transformer解码器、因果语言模型预测头构成，以待进行阅读理解的电力领域长文本的相关问题及其上下文为输入，生成问题答案；

电力领域大规模语言模型M2训练模块，其用于利用数据集D1和数据集D2对电力领域大规模语言模型M2进行两阶段训练，在第一阶段训练时，基于数据集D1对电力领域大规模语言模型M2进行因果语言模型训练；在第二阶段训练时，采用数据集D2继续对预训练后的电力领域大规模语言模型进行训练，得到训练好的电力领域大规模语言模型M2；

阅读理解模块，其用于将待进行阅读理解的电力领域长文本按自然段分段，将分段结果和待进行阅读理解的电力领域长文本的相关问题为输入，通过抽取式阅读理解模型M1得到全部文本段的答案预测结果；判断答案预测结果中包含的预测答案个数r，若r＝1，则直接输出对应的预测答案作为最终的答案；若r>1，则选取答案预测结果中包含预测答案的文本段组成一个新文本，并将新文本和问题组成大规模语言模型M2的输入，通过大规模语言模型M2生成最终的答案；若r＝0，则基于问题匹配数据库中的文档，将匹配得到的文档和问题组成大规模语言模型M2的输入，通过大规模语言模型M2生成最终的答案。

上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于大规模语言模型的电力领域阅读理解方法，其特征在于，包括如下步骤：

3)将待进行阅读理解的电力领域长文本按自然段分段；

2.根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法，其特征在于，所述的用于模型预训练的数据集D1为电力领域的纯文本数据，用于对抽取式阅读理解模型和电力领域大规模语言模型分别进行掩码语言模型训练和因果语言模型训练；用于阅读理解任务的数据集D2中的每一个样本包含问题Q、上下文T和答案A。

3.根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法，其特征在于，所述的抽取式阅读理解模型M1的训练过程包括：

4.根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法和系统，其特征在于，所述的采用数据集D1，对基于transformer编码器架构的抽取式阅读理解模型进行掩码语言模型预训练，包括：

5.根据权利要求3所述的基于大规模语言模型的电力领域阅读理解方法，其特征在于，所述的采用数据集D2继续对预训练后的抽取式阅读理解模型进行训练，得到训练好的抽取式阅读理解模型M1，包括：

6.根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法，其特征在于，所述的电力领域大规模语言模型M2的训练过程包括：

7.根据权利要求6所述的基于大规模语言模型的电力领域阅读理解方法和系统，其特征在于，所述的采用数据集D1，对基于transformer解码器架构的大规模语言模型进行预训练，包括：

8.根据权利要求6所述的基于大规模语言模型的电力领域阅读理解方法和系统，其特征在于，所述的采用数据集D2继续对预训练后的大规模语言模型进行训练，通过指令微调的形式训练得到大规模语言模型M2，包括：

由预训练后的大规模语言模型流式生成问题Q对应的答案；

9.根据权利要求1所述的基于大规模语言模型的电力领域阅读理解方法和系统，其特征在于，所述的判断步骤4)得到的全部文本段的答案预测结果中包含的预测答案个数r，具体为：

10.一种基于大规模语言模型的电力领域阅读理解系统，其特征在于，包括：