CN117349275B

CN117349275B - 一种基于大语言模型的文本结构化方法和系统

Info

Publication number: CN117349275B
Application number: CN202311638956.XA
Authority: CN
Inventors: 陆志鹏; 韩光; 郑曦; 王晓亮; 国丽; 刘国栋; 范国浩; 王兵; 陈勃胜; 朱海涛; 刘勇; 王晓柯
Original assignee: Zhongdian Data Industry Co ltd; Cec Digital Innovation Beijing Technology Co ltd
Current assignee: Zhongdian Data Industry Co ltd; Cec Digital Innovation Beijing Technology Co ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-03-01
Anticipated expiration: 2043-12-04
Also published as: CN117349275A

Abstract

本发明涉及文本结构化技术领域，提供一种基于大语言模型的文本结构化方法和系统，所述方法包括：通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；通过Ext‑Attention对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果。本发明可在语义层面上自动处理文本结构化任务，增强文本结构化能力。

Description

一种基于大语言模型的文本结构化方法和系统

技术领域

本发明涉及文本结构化技术领域，尤其涉及一种基于大语言模型的文本结构化方法。

背景技术

文本结构化技术的发展经历了从传统方法到神经网络等现代技术的转变。传统方法主要依靠规则和模板匹配，但缺乏适应各种情况的灵活性。随着机器学习的兴起，如支持向量机和随机森林等方法开始应用于文本结构化，能够通过学习训练数据中的分类规则，但需要大量标注的数据。随着深度学习技术的发展，目前较为前沿的技术包括以RNN和LSTM等结构为基础的模型，以及BERT等预训练模型，为文本结构化提供了强大的支持，能够从大规模的未标注数据中学习到丰富的语义和结构信息。随着这些技术的发展，文本结构化已经实现了自动化和精确化的操作，在信息抽取、语义理解、机器翻译和问答系统等领域发挥着重要作用。

尽管文本结构化技术发展迅速，但仍存在一些缺点和不足。传统方法依赖于规则和模板匹配，容易受限于特定案例和语言规则。机器学习方法需要大量标注的数据作为训练集，而数据获取和标注是一项耗时且昂贵的任务。深度学习方法如RNN和LSTM能够处理长距离依赖关系，但仍受到梯度消失和爆炸问题的限制。最新的预训练模型则需要大量计算资源和存储空间，能处理的文本也存在限制。

因此，如何提供一种更加灵活、高效、低成本以及适用性强的文本结构化方法，成为亟待解决的技术问题。

发明内容

有鉴于此，为了克服现有技术的不足，本发明旨在提供一种基于大语言模型的文本结构化方法和系统。

根据本发明的第一方面，提供一种基于大语言模型的文本结构化方法，包括：

通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；

通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；

通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；

对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果。

优选的，本发明基于大语言模型的文本结构化方法中，通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，包括：

通过增强向量化引擎接收多元异构数据，对多元异构数据进行文本清洗处理，获得经过清洗的文本数据；

通过大语言模型对经过清洗的文本数据中不同指代词指代的实体进行消解，将不同的指代词替换为对应实体的标准名称；

对经过指代消解替换的文本数据进行分词处理，将文本数据分割为文本单元序列，根据分词处理结果构建词汇表；

将分割所得的文本单元序列映射为数字，将映射的数字作为词汇表的索引，并将经过数字映射的文本数据进行切块，获得经过预处理的文本数据。

优选的，本发明基于大语言模型的文本结构化方法中，通过增强向量化引擎采用预处理的文本数据训练Embedding模型，包括：通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数，获得训练后的Embedding模型。

优选的，本发明基于大语言模型的文本结构化方法中，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库，包括：采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练，提取稠密向量化，将提取的稠密向量化表示存储至知识库。

优选的，本发明基于大语言模型的文本结构化方法中，通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型，包括：

通过超长文本服务模块接收用户发送的文本输入，对发送文本输入的用户进行身份鉴权；

根据通过身份鉴权的用户发送的文本输入，定义上下文窗口，根据所述文本输入和上下文窗口从知识库存储的向量化表示中获取背景知识扩展上下文；

根据文本输入生成提示词，将文本输入和上下文结合对应的提示词生成文本结构化请求，将生成的文本结构化请求发送至大语言模型。

优选的，本发明基于大语言模型的文本结构化方法中，对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果，包括：

采集纯文本数据，通过将所述纯文本数据分批量输入，对大语言模型进行预训练；

计算每个批量的纯文本数据在与预训练过程中的损失，根据所述损失更新模型参数；

在完成所有纯文本数据分批量输入后，保存模型参数，获得预训练的大语言模型；

采集结构化标签数据，采用采集的结构化标签数据对预训练的大语言模型进行监督训练，获得训练后的大语言模型；

采用训练后的大语言模型根据文本结构化请求获得推理结果，将推理结果进行信息抽取和结构化转换，将结构化转换的推理结果通过服务接口输出。

优选的，本发明基于大语言模型的文本结构化方法中，对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果，还包括：通过注意力权重处理和归一化处理，减少无关信息和无关字符在文本结构化中的权重。

根据本发明的第二方面，提供一种基于大语言模型的文本结构化系统，该系统包括文本结构化服务端，用于通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果。

优选的，本发明大语言模型的文本结构化系统中，文本结构化服务端包括：

增强向量化引擎，用于接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；

知识库，用于存储增强向量化引擎处理获得的文本数据向量化表示；

超长文本服务模块，用于根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；

大语言模型，用于根据文本结构化请求输出推理结果。

根据本发明的第三方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面所述的方法。

本发明基于大语言模型的文本结构化方法和系统，基于Ext-Attention架构，根据所需文本结构生成大语言模型的多种提示词以解决受限的特定案例和语言规则，个性化生成所需文本结构体；采用多层Ext-Attention结构进行了无监督的预训练，以优化模型性能，增强模型文本结构化能力；在预训练模型的基础上采用少量的包含文本结构的监督数据进行微调，解决数据问题和梯度消失爆炸问题；通过增强向量化引擎以处理多元异构数据提取表征能力更强的Embedding，通过超长文本服务模块赋予大语言模型处理超长上下文的能力、更强的运算能力和效率，在语义层面上自动处理文本结构化任务，增强文本结构化的能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一种适用于本申请实施例的基于大语言模型的文本结构化方法的系统的示意图；

图2为根据本发明实施例的基于Ext-Attention架构大语言模型的文本结构化系统中文本结构化服务端的一种架构示例图；

图3为根据本发明实施例的一种基于大语言模型的文本结构化方法的步骤流程图；

图4为根据本发明实施例的一种基于大语言模型的文本结构化方法的执行示意图；

图5为本发明提供的设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

图1示出了一种适用于本申请实施例的基于大语言模型的文本结构化方法的示例性系统。如图1所示，该系统可以包括文本结构化服务端101、通信网络102和/或一个或多个文本结构化客户端103，图1中示例为多个文本结构化客户端103。

文本结构化服务端101可以时用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，文本结构化服务端101可以执行适当的功能。例如，在一些实施例中，文本结构化服务端101可以用于文本结构化。作为可选的示例，在一些实施例中，文本结构化服务端101可以被用于通过大语言模型实现文本结构化。例如，文本结构化服务端101可以用于通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果。

图2为本实施例Ext-Attention架构大语言模型的文本结构化系统中文本结构化服务端的一种架构示例图，如图2所示，本示例中，文本结构化服务端包括：

大语言模型，用于根据文本结构化请求输出推理结果。

作为另一示例，在一些实施例中，文本结构化服务端101可以根据文本结构化客户端103的请求，将基于Ext-Attention架构大语言模型的文本结构化方法发送到文本结构化客户端103供用户使用。

作为可选的示例，在一些实施例中，文本结构化客户端103用于提供可视化界面，该可视化界面用于接收用户文本结构化的选择输入操作，以及，用于响应于选择输入操作，从文本结构化服务端101获取与选择输入操作所选择的选项所对应的界面并展示界面，界面中至少展示有文本结构化的信息以及针对文本结构化的信息的操作选项。

在一些实施例中，通信网络102可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络102能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。文本结构化客户端103能够通过一个或多个通信链路(例如，通信链路104)连接到通信网络102，该通信网络102能够经由一个或多个通信链路(例如，通信链路105)被链接到文本结构化服务端101。通信链路可以是适合于在文本结构化客户端103和文本结构化服务端101之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

文本结构化客户端103可以包括通过适当形式呈现与文本结构化相关的界面，以供用户使用和操作的任何一个或多个客户端。在一些实施例中，文本结构化客户端103可以包括任何合适类型的设备。例如，在一些实施例中，文本结构化客户端103可以包括移动设备、平板计算机、膝上型计算机、台式计算机和/或任何其他合适类型的客户端设备。

尽管将文本结构化服务端101图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由文本结构化服务端101执行的功能。例如，在一些实施例中，可以使用多个设备来实现由文本结构化服务端101执行的功能。或者，可使用云服务实现文本结构化服务端101的功能。

基于上述系统，本申请实施例提供了一种基于大语言模型的文本结构化方法，以下通过以下实施例进行说明。

参照图3，示出了根据本申请实施例的一种基于大语言模型的文本结构化方法的步骤流程图。

本实施例的基于Ext-Attention架构大语言模型的文本结构化方法可在文本结构化服务端执行，该基于Ext-Attention架构大语言模型的文本结构化方法包括以下步骤：

步骤S201：通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据。

作为可选的示例，本实施例方法通过增强向量化引擎接收多元异构数据，对多元异构数据进行文本清洗处理，获得经过清洗的文本数据。本实施例方法中的增强向量化引擎可以接收多元异构数据作为输入，包括各种非结构化的文件等。本实施例方法通过文本清洗处理，去除多元异构数据中的特殊字符、标点符号、HTML标签、网址链接等，以获得纯文本内容。

现有的文本结构化过程中，缺少指代消解过程。文本中不同的指代词(如他/她/它们)会被映射为不同的词向量。但是这些指代词在语义上指代的是同一个实体，词向量的差异不能反映语义信息。直接输入这种词向量会降低语言模型的语义理解能力,因为指代词的语义信息被扰乱了。本实施例方法在获得经过清洗的文本数据后，通过大语言模型对经过清洗的文本数据中不同指代词指代的实体进行消解，将不同的指代词替换为对应实体的标准名称。

本实施例方法通过指代消解，可以减少语义的模糊性，使后续的大语言模型理解文本时不会被指代词的表面形式所迷惑。指代消解后，输入大语言模型的词向量语义更加准确和一致，提升了模型理解长文本的能力,为后续的语义解析提供了更清晰正确的基础。特别是在需要理解上下文的任务中，指代消解可以更好地表示实体间的逻辑关系，增强模型的语义推理能力。

举例来说，指代消解可以在进行文本清洗后进行，指代消解去除歧义之后，为后续数据切块创造了条件，指代消解是数据切块前提条件和必要准备。指代消解可以与知识库结合，提供消解需要的实体信息。加入指代消解是增强向量化引擎的一个重要模块，可以明显提升语言模型的语义理解和推理能力，对输出更加准确的文本结构化结果非常关键。

在完成指代消解后，本实施例方法对经过指代消解替换的文本数据进行分词处理，将文本数据分割为文本单元序列，文本单元序列包括单词序列或子词的序列，根据分词处理结果构建词汇表；将分割所得的文本单元序列映射为数字，将映射的数字作为词汇表的索引，并将经过数字映射的文本数据进行切块，获得经过预处理的文本数据，从而提高后续大语言模型的运算效率。

步骤S202：通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库。

作为可选的示例，本实施例方法通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数，获得训练后的Embedding模型，采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练，提取稠密向量化，将提取的稠密向量化表示存储至知识库。Embedding模型用于提取高表征能力的Embedding，为后续的大语言模型提供高质量的输入。

步骤S203：通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型。

作为可选的示例，本实施例方法通过超长文本服务模块接收用户发送的文本输入，对发送文本输入的用户进行身份鉴权；根据通过身份鉴权的用户发送的文本输入，定义上下文窗口，上下文窗口的大小可以约束前后句子的数量，比如前后5个句子，根据所述文本输入和上下文窗口从知识库存储的向量化表示中获取背景知识扩展上下文。通过上下文可以动态优化大语言模型对当前句子的语义理解能力和信息抽取能力。

在完成上下文窗口定义后，本实施例方法根据文本输入生成提示词，将文本输入和上下文结合对应的提示词生成文本结构化请求，将生成的文本结构化请求发送至大语言模型。

作为可选的示例，用户输入结合上下文信息后，将结合提示词输入给大模型，本实施例方法结合不同的文本结构化场景设计了两类提示词：

1.一次性结构化：将文本结构化类型作为答案结合输入文本提供给大模型，以生成任意特定文本结构。

2.交互式结构化：用户可一步步引导大模型输出所需答案或特定文本结构，最后引导大模型生成提示词以便后续使用。交互式结构化依托于本模型对超长上下文的语义理解能力和处理能力，最后生成的提示词也可用于一次性结构化。

步骤S204：对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果。

本实施例方法在大语言模型中设计了Ext-Attention架构，用于服务大语言模型的预训练和监督训练过程，以提升模型的文本结构化能力。将经过超长文本服务模块的用户输入送入大语言模型，结合知识库模块，返回结构化结果。

作为可选的示例，本实施例方法采集纯文本数据，通过将所述纯文本数据分批量输入，对大语言模型进行预训练；计算每个批量的纯文本数据在与预训练过程中的损失，根据所述损失更新模型参数；在完成所有纯文本数据分批量输入后，保存模型参数，获得预训练的大语言模型。

以下通过一个具体的示例对本实施例方法中对大语言模型预训练的过程进行消息的说明。

1、采集纯文本数据，本实施例方法采集的纯文本数据包括：

1) 互联网上公开的网络数据，挑选出去重后的高质量中文数据，涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据；

2) 中文Wikipedia的数据；

3) 中文悟道开源的200G数据；

4) Clue开放的中文预训练数据，进行清洗后的高质量中文长文本数据。

本实施例方法还可以从其他数据源或数据库采集相应的纯文本数据，本实施例对此不作限制。

2、数据预处理：对采集的数据进行清洗、标准化、分词处理，得到大语言模型可以直接学习的输入格式。

3、大语言模型预训练：预处理后的数据以小批量的方式输入给模型，计算每个批量下每个样本在预训练任务上的损失，根据损失反向传播更新模型参数，重复上述过程,遍历整个预训练数据集数次。

4、大语言模型：预训练达到预设的迭代次数后，模型训练完毕，保存模型参数。

在完成对大语言模型预训练后，本实施例方法还需要对经过预训练的大语言模型进行监督训练。作为可选的示例，本实施例方法采集结构化标签数据，采用采集的结构化标签数据对预训练的大语言模型进行监督训练，获得训练后的大语言模型。本实施例方法中，对大语言模型进行监督训练的步骤与预训练相似，不同点在于所数据准备阶段。举例来说，本实施例方法采集结构化标签数据可以采用以下方式：

1、向ChatGPT（OPENAI）发送问题请求，通过交互的方式来获取所需结构化数据；

2、人工准备结构化问答数据对，例如：

问：帮我将以下同学的成绩结构化为姓名、成绩两列，并按照成绩从高到低排列，“小明 98分，小红 99分，...”

答：

注意的是，本实施例方法中，用户可根据需求设计所需要的结构化问答数据对和结构化样本。

预训练步骤目的是让大语言模型学习通用的语言表示能力，从而为下游任务提供一个良好的初始化点。监督训练则在预训练的基础上，加入文本结构化领域带标签数据继续对模型训练，以在文本结构化领域达到更好的效果。

作为可选的示例，由于大模型训练需要消耗大量计算量和显存，本实施例方法中，采用PEFT(Parameter-Efficient Fine-Tuning)和Deepspeed zero技术，PEFT技术使得模型在低资源设备上可以进行高效微调，Deepspeed zero技术可以进一步进行显存优化和训练加速。

作为可选的示例，本实施例方法在对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果的过程中，通过注意力权重处理和归一化处理，减少无关信息和无关字符在文本结构化中的权重。

作为可选的示例，本发明Transformer-decoder架构的注意力模块进行了改进，设计了Ext-Attention架构，以下进行详细的说明。

现有技术中，生成式大语言模型在进行文本结构化处理时，传统的Attention架构虽然对有用信息进行了加权处理，但经过SoftMax_ext归一化后，对于的标点符号以及无关信息仍然较为敏感，这些无用信息在进行注意力机制时也会被提取。传统的注意力模块的SoftMax函数如公式 (1)所示，x_i为第i个节点的输出值，n为节点的个数。经过SoftMax后输入都会被映射到0到1之间，并且所有的输出值之和为1。这意味着即使标点符号或无用信息输入值非常小，它们在SoftMax函数处理后也会有一个非零的输出值。这也就会导致无用信息（噪声）会被放大。

（1）

本实施例方法对SoftMax函数进行改进，如公式（2）所示，x_i是第i个经过注意力机制后的节点，本实施例方法在输入节点的每个维度增加了，并设置/>为零向量，当输入值非常小的时候，它们的输出值可以更接近于零。这就允许注意力头在没有有价值的信息可以添加时，输出向量可以趋向于零，因此可以大大减少注意力头生成的不必要的噪声。

（2）

在模型训练阶段，每一批的输入数据向量化后输入给网络，本实施例方法将网络输出的节点x_i经过线性变换得到Q(Query)，K(Key)，V(Value)向量，Q为查询向量，K为关键词向量，V为值向量，在Attention计算过程中，Q向量与所有K转置向量进行点积，得到相似程度分数,即Attention权重，d为K向量的维度，除法操作用于缩放点积结果，减小数值范围和敏感性。Attention权重通过SoftMax_ext归一化，用于计算Q和K的关联程度。本实施例方法中，最终获得的注意力模块Ext-Attention的运算公式如公式（3）所示：

（3）

式中，Q为查询向量，K为关键词向量，V为值向量，d为K向量的维度。

将Attention权重经过SoftMax操作后与V向量相乘，便得到加权后的向量。以上过程可以大大提高生成式大模型在文本结构化领域的能力，减小无关信息和文本结构化中无关字符的权重，提高大模型文本结构化性能。

预期Ext-Attention机制可以降低大语言模型中的权重尖峰值，减少异常激活,，使模型量化更加可行，除此之外，Ext-Attention将减少结构化信息中的标点符号和无用信息的权重，增强模型信息抽取能力，并进一步提升模型的语义建模能力。综上，Ext-Attention机制通过一个微小但精准的修改，可以较好地解决当前技术方案中Attention使用SoftMax函数而导致的问题，提升大语言模型的整体效果。

在完成对大语言模型预训练和监督训练后，本实施例方法采用训练后的大语言模型根据文本结构化请求获得推理结果，将推理结果进行信息抽取和结构化转换，将结构化转换的推理结果通过服务接口输出。作为可选的示例，本实施例方法中的大语言模型可以采用Huggingface的推理服务，本领域技术人员在实施本实施例方法中还可以根据具体的场景选择合适的其他推理服务，本实施例对此不作限制。

图4为根据本发明实施例的一种基于Ext-Attention架构大语言模型的文本结构化方法的执行示意图。

如图4所示，用户可以向本实施例的基于Ext-Attention架构大语言模型的文本结构化系统发送文本结构化请求，本实施例系统可以实施本实施例的方法将文本结构化的结果返回至用户。

作为可选的示例，本实施例的系统还可以包括用户接口(webapi/webui) ，用于构建文本输入和结果展示的网页前后端界面，调用后端服务，实现前后端交互，支持输入超长文本，在前端使用分页、滚动等方式显示，将结果以网页、弹窗等友好方式展示。

本发明基于Ext-Attention架构，提出了基于大语言模型的文本结构化方法。根据所需文本结构生成大语言模型的多种提示词以解决受限的特定案例和语言规则，个性化生成所需文本结构体；采用多层Ext-Attention结构进行了无监督的预训练，以优化模型性能，增强模型文本结构化能力。在预训练模型的基础上采用少量的包含文本结构的监督数据进行微调，解决数据问题和梯度消失爆炸问题；通过增强向量化引擎以处理多元异构数据提取表征能力更强的Embedding，通过超长文本服务模块赋予大语言模型处理超长上下文的能力、更强的运算能力和效率，在语义层面上自动处理文本结构化任务，增强文本结构化的能力。

如图5所示，本发明还提供了一种设备，包括处理器310、通信接口320、用于存储处理器可执行计算机程序的存储器330及通信总线340。其中，处理器310、通信接口320及存储器330通过通信总线340完成相互间的通信。处理器310通过运行可执行计算机程序以实现上述的基于Ext-Attention架构大语言模型的文本结构化方法。

其中，存储器330中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大语言模型的文本结构化方法，其特征在于，所述方法包括：

对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果；

其中，所述对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果，包括：

采用训练后的大语言模型根据文本结构化请求获得推理结果，将推理结果进行信息抽取和结构化转换，将结构化转换的推理结果通过服务接口输出；

其中，所述大语言模型的注意力模块Ext-Attention的运算公式如下：

式中，Q为查询向量，K为关键词向量，V为值向量，d为K向量的维度；x_i是第i个经过注意力机制后的节点；N为自然数；x_n为第n个节点。

2.根据权利要求1所述的基于大语言模型的文本结构化方法，其特征在于，通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，包括：

3.根据权利要求1所述的基于大语言模型的文本结构化方法，其特征在于，通过增强向量化引擎采用预处理的文本数据训练Embedding模型，包括：通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数，获得训练后的Embedding模型。

4.根据权利要求1所述的基于大语言模型的文本结构化方法，其特征在于，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库，包括：采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练，提取稠密向量化，将提取的稠密向量化表示存储至知识库。

5.根据权利要求1所述的基于大语言模型的文本结构化方法，其特征在于，通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型，包括：

6.根据权利要求1所述的基于大语言模型的文本结构化方法，其特征在于，对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果，还包括：通过注意力权重处理和归一化处理，减少无关信息和无关字符在文本结构化中的权重。

7.一种基于大语言模型的文本结构化系统，其特征在于，所述系统包括文本结构化服务端，用于通过增强向量化引擎接收多元异构数据，对接收的多元异构数据预处理，获得经过预处理的文本数据；通过增强向量化引擎采用预处理的文本数据训练Embedding模型，采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库；通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文，将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型；对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果；其中，所述对大语言模型进行预训练和监督训练，采用训练后的大语言模型根据文本结构化请求输出推理结果，包括：采集纯文本数据，通过将所述纯文本数据分批量输入，对大语言模型进行预训练；计算每个批量的纯文本数据在与预训练过程中的损失，根据所述损失更新模型参数；在完成所有纯文本数据分批量输入后，保存模型参数，获得预训练的大语言模型；采集结构化标签数据，采用采集的结构化标签数据对预训练的大语言模型进行监督训练，获得训练后的大语言模型；采用训练后的大语言模型根据文本结构化请求获得推理结果，将推理结果进行信息抽取和结构化转换，将结构化转换的推理结果通过服务接口输出；其中，所述大语言模型的注意力模块Ext-Attention的运算公式如下：

8.根据权利要求7所述的大语言模型的文本结构化系统，其特征在于，所述文本结构化服务端包括：

大语言模型，用于根据文本结构化请求输出推理结果。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-6中任一项所述方法的步骤。