CN117349275B - 一种基于大语言模型的文本结构化方法和系统 - Google Patents

一种基于大语言模型的文本结构化方法和系统 Download PDF

Info

Publication number
CN117349275B
CN117349275B CN202311638956.XA CN202311638956A CN117349275B CN 117349275 B CN117349275 B CN 117349275B CN 202311638956 A CN202311638956 A CN 202311638956A CN 117349275 B CN117349275 B CN 117349275B
Authority
CN
China
Prior art keywords
text
language model
structuring
data
large language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311638956.XA
Other languages
English (en)
Other versions
CN117349275A (zh
Inventor
陆志鹏
韩光
郑曦
王晓亮
国丽
刘国栋
范国浩
王兵
陈勃胜
朱海涛
刘勇
王晓柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Data Industry Co ltd
Cec Digital Innovation Beijing Technology Co ltd
Original Assignee
Zhongdian Data Industry Co ltd
Cec Digital Innovation Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Data Industry Co ltd, Cec Digital Innovation Beijing Technology Co ltd filed Critical Zhongdian Data Industry Co ltd
Priority to CN202311638956.XA priority Critical patent/CN117349275B/zh
Publication of CN117349275A publication Critical patent/CN117349275A/zh
Application granted granted Critical
Publication of CN117349275B publication Critical patent/CN117349275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本结构化技术领域,提供一种基于大语言模型的文本结构化方法和系统,所述方法包括:通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;通过Ext‑Attention对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果。本发明可在语义层面上自动处理文本结构化任务,增强文本结构化能力。

Description

一种基于大语言模型的文本结构化方法和系统
技术领域
本发明涉及文本结构化技术领域,尤其涉及一种基于大语言模型的文本结构化方法。
背景技术
文本结构化技术的发展经历了从传统方法到神经网络等现代技术的转变。传统方法主要依靠规则和模板匹配,但缺乏适应各种情况的灵活性。随着机器学习的兴起,如支持向量机和随机森林等方法开始应用于文本结构化,能够通过学习训练数据中的分类规则,但需要大量标注的数据。随着深度学习技术的发展,目前较为前沿的技术包括以RNN和LSTM等结构为基础的模型,以及BERT等预训练模型,为文本结构化提供了强大的支持,能够从大规模的未标注数据中学习到丰富的语义和结构信息。随着这些技术的发展,文本结构化已经实现了自动化和精确化的操作,在信息抽取、语义理解、机器翻译和问答系统等领域发挥着重要作用。
尽管文本结构化技术发展迅速,但仍存在一些缺点和不足。传统方法依赖于规则和模板匹配,容易受限于特定案例和语言规则。机器学习方法需要大量标注的数据作为训练集,而数据获取和标注是一项耗时且昂贵的任务。深度学习方法如RNN和LSTM能够处理长距离依赖关系,但仍受到梯度消失和爆炸问题的限制。最新的预训练模型则需要大量计算资源和存储空间,能处理的文本也存在限制。
因此,如何提供一种更加灵活、高效、低成本以及适用性强的文本结构化方法,成为亟待解决的技术问题。
发明内容
有鉴于此,为了克服现有技术的不足,本发明旨在提供一种基于大语言模型的文本结构化方法和系统。
根据本发明的第一方面,提供一种基于大语言模型的文本结构化方法,包括:
通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;
通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;
通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;
对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果。
优选的,本发明基于大语言模型的文本结构化方法中,通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,包括:
通过增强向量化引擎接收多元异构数据,对多元异构数据进行文本清洗处理,获得经过清洗的文本数据;
通过大语言模型对经过清洗的文本数据中不同指代词指代的实体进行消解,将不同的指代词替换为对应实体的标准名称;
对经过指代消解替换的文本数据进行分词处理,将文本数据分割为文本单元序列,根据分词处理结果构建词汇表;
将分割所得的文本单元序列映射为数字,将映射的数字作为词汇表的索引,并将经过数字映射的文本数据进行切块,获得经过预处理的文本数据。
优选的,本发明基于大语言模型的文本结构化方法中,通过增强向量化引擎采用预处理的文本数据训练Embedding模型,包括:通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数,获得训练后的Embedding模型。
优选的,本发明基于大语言模型的文本结构化方法中,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库,包括:采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练,提取稠密向量化,将提取的稠密向量化表示存储至知识库。
优选的,本发明基于大语言模型的文本结构化方法中,通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型,包括:
通过超长文本服务模块接收用户发送的文本输入,对发送文本输入的用户进行身份鉴权;
根据通过身份鉴权的用户发送的文本输入,定义上下文窗口,根据所述文本输入和上下文窗口从知识库存储的向量化表示中获取背景知识扩展上下文;
根据文本输入生成提示词,将文本输入和上下文结合对应的提示词生成文本结构化请求,将生成的文本结构化请求发送至大语言模型。
优选的,本发明基于大语言模型的文本结构化方法中,对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果,包括:
采集纯文本数据,通过将所述纯文本数据分批量输入,对大语言模型进行预训练;
计算每个批量的纯文本数据在与预训练过程中的损失,根据所述损失更新模型参数;
在完成所有纯文本数据分批量输入后,保存模型参数,获得预训练的大语言模型;
采集结构化标签数据,采用采集的结构化标签数据对预训练的大语言模型进行监督训练,获得训练后的大语言模型;
采用训练后的大语言模型根据文本结构化请求获得推理结果,将推理结果进行信息抽取和结构化转换,将结构化转换的推理结果通过服务接口输出。
优选的,本发明基于大语言模型的文本结构化方法中,对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果,还包括:通过注意力权重处理和归一化处理,减少无关信息和无关字符在文本结构化中的权重。
根据本发明的第二方面,提供一种基于大语言模型的文本结构化系统,该系统包括文本结构化服务端,用于通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果。
优选的,本发明大语言模型的文本结构化系统中,文本结构化服务端包括:
增强向量化引擎,用于接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;
知识库,用于存储增强向量化引擎处理获得的文本数据向量化表示;
超长文本服务模块,用于根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;
大语言模型,用于根据文本结构化请求输出推理结果。
根据本发明的第三方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面所述的方法。
本发明基于大语言模型的文本结构化方法和系统,基于Ext-Attention架构,根据所需文本结构生成大语言模型的多种提示词以解决受限的特定案例和语言规则,个性化生成所需文本结构体;采用多层Ext-Attention结构进行了无监督的预训练,以优化模型性能,增强模型文本结构化能力;在预训练模型的基础上采用少量的包含文本结构的监督数据进行微调,解决数据问题和梯度消失爆炸问题;通过增强向量化引擎以处理多元异构数据提取表征能力更强的Embedding,通过超长文本服务模块赋予大语言模型处理超长上下文的能力、更强的运算能力和效率,在语义层面上自动处理文本结构化任务,增强文本结构化的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一种适用于本申请实施例的基于大语言模型的文本结构化方法的系统的示意图;
图2为根据本发明实施例的基于Ext-Attention架构大语言模型的文本结构化系统中文本结构化服务端的一种架构示例图;
图3为根据本发明实施例的一种基于大语言模型的文本结构化方法的步骤流程图;
图4为根据本发明实施例的一种基于大语言模型的文本结构化方法的执行示意图;
图5为本发明提供的设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
图1示出了一种适用于本申请实施例的基于大语言模型的文本结构化方法的示例性系统。如图1所示,该系统可以包括文本结构化服务端101、通信网络102和/或一个或多个文本结构化客户端103,图1中示例为多个文本结构化客户端103。
文本结构化服务端101可以时用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,文本结构化服务端101可以执行适当的功能。例如,在一些实施例中,文本结构化服务端101可以用于文本结构化。作为可选的示例,在一些实施例中,文本结构化服务端101可以被用于通过大语言模型实现文本结构化。例如,文本结构化服务端101可以用于通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果。
图2为本实施例Ext-Attention架构大语言模型的文本结构化系统中文本结构化服务端的一种架构示例图,如图2所示,本示例中,文本结构化服务端包括:
增强向量化引擎,用于接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;
知识库,用于存储增强向量化引擎处理获得的文本数据向量化表示;
超长文本服务模块,用于根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;
大语言模型,用于根据文本结构化请求输出推理结果。
作为另一示例,在一些实施例中,文本结构化服务端101可以根据文本结构化客户端103的请求,将基于Ext-Attention架构大语言模型的文本结构化方法发送到文本结构化客户端103供用户使用。
作为可选的示例,在一些实施例中,文本结构化客户端103用于提供可视化界面,该可视化界面用于接收用户文本结构化的选择输入操作,以及,用于响应于选择输入操作,从文本结构化服务端101获取与选择输入操作所选择的选项所对应的界面并展示界面,界面中至少展示有文本结构化的信息以及针对文本结构化的信息的操作选项。
在一些实施例中,通信网络102可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络102能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。文本结构化客户端103能够通过一个或多个通信链路(例如,通信链路104)连接到通信网络102,该通信网络102能够经由一个或多个通信链路(例如,通信链路105)被链接到文本结构化服务端101。通信链路可以是适合于在文本结构化客户端103和文本结构化服务端101之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
文本结构化客户端103可以包括通过适当形式呈现与文本结构化相关的界面,以供用户使用和操作的任何一个或多个客户端。在一些实施例中,文本结构化客户端103可以包括任何合适类型的设备。例如,在一些实施例中,文本结构化客户端103可以包括移动设备、平板计算机、膝上型计算机、台式计算机和/或任何其他合适类型的客户端设备。
尽管将文本结构化服务端101图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由文本结构化服务端101执行的功能。例如,在一些实施例中,可以使用多个设备来实现由文本结构化服务端101执行的功能。或者,可使用云服务实现文本结构化服务端101的功能。
基于上述系统,本申请实施例提供了一种基于大语言模型的文本结构化方法,以下通过以下实施例进行说明。
参照图3,示出了根据本申请实施例的一种基于大语言模型的文本结构化方法的步骤流程图。
本实施例的基于Ext-Attention架构大语言模型的文本结构化方法可在文本结构化服务端执行,该基于Ext-Attention架构大语言模型的文本结构化方法包括以下步骤:
步骤S201:通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据。
作为可选的示例,本实施例方法通过增强向量化引擎接收多元异构数据,对多元异构数据进行文本清洗处理,获得经过清洗的文本数据。本实施例方法中的增强向量化引擎可以接收多元异构数据作为输入,包括各种非结构化的文件等。本实施例方法通过文本清洗处理,去除多元异构数据中的特殊字符、标点符号、HTML标签、网址链接等,以获得纯文本内容。
现有的文本结构化过程中,缺少指代消解过程。文本中不同的指代词(如他/她/它们)会被映射为不同的词向量。但是这些指代词在语义上指代的是同一个实体,词向量的差异不能反映语义信息。直接输入这种词向量会降低语言模型的语义理解能力,因为指代词的语义信息被扰乱了。本实施例方法在获得经过清洗的文本数据后,通过大语言模型对经过清洗的文本数据中不同指代词指代的实体进行消解,将不同的指代词替换为对应实体的标准名称。
本实施例方法通过指代消解,可以减少语义的模糊性,使后续的大语言模型理解文本时不会被指代词的表面形式所迷惑。指代消解后,输入大语言模型的词向量语义更加准确和一致,提升了模型理解长文本的能力,为后续的语义解析提供了更清晰正确的基础。特别是在需要理解上下文的任务中,指代消解可以更好地表示实体间的逻辑关系,增强模型的语义推理能力。
举例来说,指代消解可以在进行文本清洗后进行,指代消解去除歧义之后,为后续数据切块创造了条件,指代消解是数据切块前提条件和必要准备。指代消解可以与知识库结合,提供消解需要的实体信息。加入指代消解是增强向量化引擎的一个重要模块,可以明显提升语言模型的语义理解和推理能力,对输出更加准确的文本结构化结果非常关键。
在完成指代消解后,本实施例方法对经过指代消解替换的文本数据进行分词处理,将文本数据分割为文本单元序列,文本单元序列包括单词序列或子词的序列,根据分词处理结果构建词汇表;将分割所得的文本单元序列映射为数字,将映射的数字作为词汇表的索引,并将经过数字映射的文本数据进行切块,获得经过预处理的文本数据,从而提高后续大语言模型的运算效率。
步骤S202:通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库。
作为可选的示例,本实施例方法通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数,获得训练后的Embedding模型,采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练,提取稠密向量化,将提取的稠密向量化表示存储至知识库。Embedding模型用于提取高表征能力的Embedding,为后续的大语言模型提供高质量的输入。
步骤S203:通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型。
作为可选的示例,本实施例方法通过超长文本服务模块接收用户发送的文本输入,对发送文本输入的用户进行身份鉴权;根据通过身份鉴权的用户发送的文本输入,定义上下文窗口,上下文窗口的大小可以约束前后句子的数量,比如前后5个句子,根据所述文本输入和上下文窗口从知识库存储的向量化表示中获取背景知识扩展上下文。通过上下文可以动态优化大语言模型对当前句子的语义理解能力和信息抽取能力。
在完成上下文窗口定义后,本实施例方法根据文本输入生成提示词,将文本输入和上下文结合对应的提示词生成文本结构化请求,将生成的文本结构化请求发送至大语言模型。
作为可选的示例,用户输入结合上下文信息后,将结合提示词输入给大模型,本实施例方法结合不同的文本结构化场景设计了两类提示词:
1.一次性结构化:将文本结构化类型作为答案结合输入文本提供给大模型,以生成任意特定文本结构。
2.交互式结构化:用户可一步步引导大模型输出所需答案或特定文本结构,最后引导大模型生成提示词以便后续使用。交互式结构化依托于本模型对超长上下文的语义理解能力和处理能力,最后生成的提示词也可用于一次性结构化。
步骤S204:对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果。
本实施例方法在大语言模型中设计了Ext-Attention架构,用于服务大语言模型的预训练和监督训练过程,以提升模型的文本结构化能力。将经过超长文本服务模块的用户输入送入大语言模型,结合知识库模块,返回结构化结果。
作为可选的示例,本实施例方法采集纯文本数据,通过将所述纯文本数据分批量输入,对大语言模型进行预训练;计算每个批量的纯文本数据在与预训练过程中的损失,根据所述损失更新模型参数;在完成所有纯文本数据分批量输入后,保存模型参数,获得预训练的大语言模型。
以下通过一个具体的示例对本实施例方法中对大语言模型预训练的过程进行消息的说明。
1、采集纯文本数据,本实施例方法采集的纯文本数据包括:
1) 互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据;
2) 中文Wikipedia的数据;
3) 中文悟道开源的200G数据;
4) Clue开放的中文预训练数据,进行清洗后的高质量中文长文本数据。
本实施例方法还可以从其他数据源或数据库采集相应的纯文本数据,本实施例对此不作限制。
2、数据预处理:对采集的数据进行清洗、标准化、分词处理,得到大语言模型可以直接学习的输入格式。
3、大语言模型预训练:预处理后的数据以小批量的方式输入给模型,计算每个批量下每个样本在预训练任务上的损失,根据损失反向传播更新模型参数,重复上述过程,遍历整个预训练数据集数次。
4、大语言模型:预训练达到预设的迭代次数后,模型训练完毕,保存模型参数。
在完成对大语言模型预训练后,本实施例方法还需要对经过预训练的大语言模型进行监督训练。作为可选的示例,本实施例方法采集结构化标签数据,采用采集的结构化标签数据对预训练的大语言模型进行监督训练,获得训练后的大语言模型。本实施例方法中,对大语言模型进行监督训练的步骤与预训练相似,不同点在于所数据准备阶段。举例来说,本实施例方法采集结构化标签数据可以采用以下方式:
1、向ChatGPT(OPENAI)发送问题请求,通过交互的方式来获取所需结构化数据;
2、人工准备结构化问答数据对,例如:
问:帮我将以下同学的成绩结构化为姓名、成绩两列,并按照成绩从高到低排列,“小明 98分,小红 99分,...”
答:
注意的是,本实施例方法中,用户可根据需求设计所需要的结构化问答数据对和结构化样本。
预训练步骤目的是让大语言模型学习通用的语言表示能力,从而为下游任务提供一个良好的初始化点。监督训练则在预训练的基础上,加入文本结构化领域带标签数据继续对模型训练,以在文本结构化领域达到更好的效果。
作为可选的示例,由于大模型训练需要消耗大量计算量和显存,本实施例方法中,采用PEFT(Parameter-Efficient Fine-Tuning)和Deepspeed zero技术,PEFT技术使得模型在低资源设备上可以进行高效微调,Deepspeed zero技术可以进一步进行显存优化和训练加速。
作为可选的示例,本实施例方法在对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果的过程中,通过注意力权重处理和归一化处理,减少无关信息和无关字符在文本结构化中的权重。
作为可选的示例,本发明Transformer-decoder架构的注意力模块进行了改进,设计了Ext-Attention架构,以下进行详细的说明。
现有技术中,生成式大语言模型在进行文本结构化处理时,传统的Attention架构虽然对有用信息进行了加权处理,但经过SoftMaxext归一化后,对于的标点符号以及无关信息仍然较为敏感,这些无用信息在进行注意力机制时也会被提取。传统的注意力模块的SoftMax函数如公式 (1)所示,xi为第i个节点的输出值,n为节点的个数。经过SoftMax后输入都会被映射到0到1之间,并且所有的输出值之和为1。这意味着即使标点符号或无用信息输入值非常小,它们在SoftMax函数处理后也会有一个非零的输出值。这也就会导致无用信息(噪声)会被放大。
(1)
本实施例方法对SoftMax函数进行改进,如公式(2)所示,xi是第i个经过注意力机制后的节点,本实施例方法在输入节点的每个维度增加了,并设置/>为零向量,当输入值非常小的时候,它们的输出值可以更接近于零。这就允许注意力头在没有有价值的信息可以添加时,输出向量可以趋向于零,因此可以大大减少注意力头生成的不必要的噪声。
(2)
在模型训练阶段,每一批的输入数据向量化后输入给网络,本实施例方法将网络输出的节点xi经过线性变换得到Q(Query),K(Key),V(Value)向量,Q为查询向量,K为关键词向量,V为值向量,在Attention计算过程中,Q向量与所有K转置向量进行点积,得到相似程度分数,即Attention权重,d为K向量的维度,除法操作用于缩放点积结果,减小数值范围和敏感性。Attention权重通过SoftMaxext归一化,用于计算Q和K的关联程度。本实施例方法中,最终获得的注意力模块Ext-Attention的运算公式如公式(3)所示:
(3)
式中,Q为查询向量,K为关键词向量,V为值向量,d为K向量的维度。
将Attention权重经过SoftMax操作后与V向量相乘,便得到加权后的向量。以上过程可以大大提高生成式大模型在文本结构化领域的能力,减小无关信息和文本结构化中无关字符的权重,提高大模型文本结构化性能。
预期Ext-Attention机制可以降低大语言模型中的权重尖峰值,减少异常激活,,使模型量化更加可行,除此之外,Ext-Attention将减少结构化信息中的标点符号和无用信息的权重,增强模型信息抽取能力,并进一步提升模型的语义建模能力。综上,Ext-Attention机制通过一个微小但精准的修改,可以较好地解决当前技术方案中Attention使用SoftMax函数而导致的问题,提升大语言模型的整体效果。
在完成对大语言模型预训练和监督训练后,本实施例方法采用训练后的大语言模型根据文本结构化请求获得推理结果,将推理结果进行信息抽取和结构化转换,将结构化转换的推理结果通过服务接口输出。作为可选的示例,本实施例方法中的大语言模型可以采用Huggingface的推理服务,本领域技术人员在实施本实施例方法中还可以根据具体的场景选择合适的其他推理服务,本实施例对此不作限制。
图4为根据本发明实施例的一种基于Ext-Attention架构大语言模型的文本结构化方法的执行示意图。
如图4所示,用户可以向本实施例的基于Ext-Attention架构大语言模型的文本结构化系统发送文本结构化请求,本实施例系统可以实施本实施例的方法将文本结构化的结果返回至用户。
作为可选的示例,本实施例的系统还可以包括用户接口(webapi/webui) ,用于构建文本输入和结果展示的网页前后端界面,调用后端服务,实现前后端交互,支持输入超长文本,在前端使用分页、滚动等方式显示,将结果以网页、弹窗等友好方式展示。
本发明基于Ext-Attention架构,提出了基于大语言模型的文本结构化方法。根据所需文本结构生成大语言模型的多种提示词以解决受限的特定案例和语言规则,个性化生成所需文本结构体;采用多层Ext-Attention结构进行了无监督的预训练,以优化模型性能,增强模型文本结构化能力。在预训练模型的基础上采用少量的包含文本结构的监督数据进行微调,解决数据问题和梯度消失爆炸问题;通过增强向量化引擎以处理多元异构数据提取表征能力更强的Embedding,通过超长文本服务模块赋予大语言模型处理超长上下文的能力、更强的运算能力和效率,在语义层面上自动处理文本结构化任务,增强文本结构化的能力。
如图5所示,本发明还提供了一种设备,包括处理器310、通信接口320、用于存储处理器可执行计算机程序的存储器330及通信总线340。其中,处理器310、通信接口320及存储器330通过通信总线340完成相互间的通信。处理器310通过运行可执行计算机程序以实现上述的基于Ext-Attention架构大语言模型的文本结构化方法。
其中,存储器330中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于大语言模型的文本结构化方法,其特征在于,所述方法包括:
通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;
通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;
通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;
对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果;
其中,所述对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果,包括:
采集纯文本数据,通过将所述纯文本数据分批量输入,对大语言模型进行预训练;
计算每个批量的纯文本数据在与预训练过程中的损失,根据所述损失更新模型参数;
在完成所有纯文本数据分批量输入后,保存模型参数,获得预训练的大语言模型;
采集结构化标签数据,采用采集的结构化标签数据对预训练的大语言模型进行监督训练,获得训练后的大语言模型;
采用训练后的大语言模型根据文本结构化请求获得推理结果,将推理结果进行信息抽取和结构化转换,将结构化转换的推理结果通过服务接口输出;
其中,所述大语言模型的注意力模块Ext-Attention的运算公式如下:
式中,Q为查询向量,K为关键词向量,V为值向量,d为K向量的维度;xi是第i个经过注意力机制后的节点;N为自然数;xn为第n个节点。
2.根据权利要求1所述的基于大语言模型的文本结构化方法,其特征在于,通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,包括:
通过增强向量化引擎接收多元异构数据,对多元异构数据进行文本清洗处理,获得经过清洗的文本数据;
通过大语言模型对经过清洗的文本数据中不同指代词指代的实体进行消解,将不同的指代词替换为对应实体的标准名称;
对经过指代消解替换的文本数据进行分词处理,将文本数据分割为文本单元序列,根据分词处理结果构建词汇表;
将分割所得的文本单元序列映射为数字,将映射的数字作为词汇表的索引,并将经过数字映射的文本数据进行切块,获得经过预处理的文本数据。
3.根据权利要求1所述的基于大语言模型的文本结构化方法,其特征在于,通过增强向量化引擎采用预处理的文本数据训练Embedding模型,包括:通过增强向量化引擎采用预处理的文本数据修正Embedding模型的中间层参数,获得训练后的Embedding模型。
4.根据权利要求1所述的基于大语言模型的文本结构化方法,其特征在于,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库,包括:采用训练后的Embedding模型对需要向量化的经过预处理的文本数据进行训练,提取稠密向量化,将提取的稠密向量化表示存储至知识库。
5.根据权利要求1所述的基于大语言模型的文本结构化方法,其特征在于,通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型,包括:
通过超长文本服务模块接收用户发送的文本输入,对发送文本输入的用户进行身份鉴权;
根据通过身份鉴权的用户发送的文本输入,定义上下文窗口,根据所述文本输入和上下文窗口从知识库存储的向量化表示中获取背景知识扩展上下文;
根据文本输入生成提示词,将文本输入和上下文结合对应的提示词生成文本结构化请求,将生成的文本结构化请求发送至大语言模型。
6.根据权利要求1所述的基于大语言模型的文本结构化方法,其特征在于,对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果,还包括:通过注意力权重处理和归一化处理,减少无关信息和无关字符在文本结构化中的权重。
7.一种基于大语言模型的文本结构化系统,其特征在于,所述系统包括文本结构化服务端,用于通过增强向量化引擎接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;通过增强向量化引擎采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;通过超长文本服务模块根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果;其中,所述对大语言模型进行预训练和监督训练,采用训练后的大语言模型根据文本结构化请求输出推理结果,包括:采集纯文本数据,通过将所述纯文本数据分批量输入,对大语言模型进行预训练;计算每个批量的纯文本数据在与预训练过程中的损失,根据所述损失更新模型参数;在完成所有纯文本数据分批量输入后,保存模型参数,获得预训练的大语言模型;采集结构化标签数据,采用采集的结构化标签数据对预训练的大语言模型进行监督训练,获得训练后的大语言模型;采用训练后的大语言模型根据文本结构化请求获得推理结果,将推理结果进行信息抽取和结构化转换,将结构化转换的推理结果通过服务接口输出;其中,所述大语言模型的注意力模块Ext-Attention的运算公式如下:
式中,Q为查询向量,K为关键词向量,V为值向量,d为K向量的维度;xi是第i个经过注意力机制后的节点;N为自然数;xn为第n个节点。
8.根据权利要求7所述的大语言模型的文本结构化系统,其特征在于,所述文本结构化服务端包括:
增强向量化引擎,用于接收多元异构数据,对接收的多元异构数据预处理,获得经过预处理的文本数据;采用预处理的文本数据训练Embedding模型,采用训练后的Embedding模型对经过预处理的文本数据向量化表示并存储至知识库;
知识库,用于存储增强向量化引擎处理获得的文本数据向量化表示;
超长文本服务模块,用于根据接收的文本输入从知识库中获取背景知识扩展上下文,将文本输入和上下文结合对应的提示词生成文本结构化请求发送至大语言模型;
大语言模型,用于根据文本结构化请求输出推理结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-6中任一项所述方法的步骤。
CN202311638956.XA 2023-12-04 2023-12-04 一种基于大语言模型的文本结构化方法和系统 Active CN117349275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311638956.XA CN117349275B (zh) 2023-12-04 2023-12-04 一种基于大语言模型的文本结构化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311638956.XA CN117349275B (zh) 2023-12-04 2023-12-04 一种基于大语言模型的文本结构化方法和系统

Publications (2)

Publication Number Publication Date
CN117349275A CN117349275A (zh) 2024-01-05
CN117349275B true CN117349275B (zh) 2024-03-01

Family

ID=89363484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311638956.XA Active CN117349275B (zh) 2023-12-04 2023-12-04 一种基于大语言模型的文本结构化方法和系统

Country Status (1)

Country Link
CN (1) CN117349275B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117838176A (zh) * 2024-01-10 2024-04-09 北京长木谷医疗科技股份有限公司 一种基于深度学习的骨密度测量方法及装置
CN117787422B (zh) * 2024-02-27 2024-04-26 四川金信石信息技术有限公司 一种倒闸操作任务提取方法及系统
CN117933270B (zh) * 2024-03-25 2024-05-24 深存科技(无锡)有限公司 大语言模型长文本输出方法、装置、设备及存储介质
CN118133816A (zh) * 2024-05-07 2024-06-04 浙江华东工程数字技术有限公司 一种基于大模型的bim推导规则自动结构化方法及系统
CN118520882A (zh) * 2024-07-22 2024-08-20 智慧眼科技股份有限公司 一种医学长文本问答方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532395A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于语义嵌入的词向量改进模型的建立方法
CN113569001A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质
CN116644145A (zh) * 2023-07-26 2023-08-25 北京仁科互动网络技术有限公司 会话数据处理方法、装置、设备和存储介质
CN116882369A (zh) * 2023-06-30 2023-10-13 平安科技(深圳)有限公司 基于增量学习的大语言模型、训练方法及文本生成方法
CN117076653A (zh) * 2023-10-17 2023-11-17 安徽农业大学 基于思维链及可视化提升上下文学习知识库问答方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN110263324B (zh) * 2019-05-16 2021-02-12 华为技术有限公司 文本处理方法、模型训练方法和装置
CN112148883B (zh) * 2019-06-29 2024-09-10 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN113158653B (zh) * 2021-04-25 2021-09-07 北京智源人工智能研究院 预训练语言模型的训练方法、应用方法、装置及设备
EP4198808A1 (en) * 2021-12-15 2023-06-21 Tata Consultancy Services Limited Extraction of tasks from documents using weakly supervision

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532395A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于语义嵌入的词向量改进模型的建立方法
CN113569001A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质
CN116882369A (zh) * 2023-06-30 2023-10-13 平安科技(深圳)有限公司 基于增量学习的大语言模型、训练方法及文本生成方法
CN116644145A (zh) * 2023-07-26 2023-08-25 北京仁科互动网络技术有限公司 会话数据处理方法、装置、设备和存储介质
CN117076653A (zh) * 2023-10-17 2023-11-17 安徽农业大学 基于思维链及可视化提升上下文学习知识库问答方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于BERT和双通道注意力的文本情感分类模型;谢润忠等;数据采集与处理;20200715(第04期);全文 *
文本词向量与预训练语言模型研究;徐菲菲等;上海电力大学学报(第04期);全文 *
面向中医电子病历的症状实体及属性抽取;刘勇等;现代信息科技(第03期);全文 *
预训练语言模型在中文电子病历命名实体识别上的应用;吴小雪等;电子质量;20200920(第09期);全文 *

Also Published As

Publication number Publication date
CN117349275A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN117349275B (zh) 一种基于大语言模型的文本结构化方法和系统
US11501182B2 (en) Method and apparatus for generating model
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111858944B (zh) 一种基于注意力机制的实体方面级情感分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
Karasoy et al. Spam SMS detection for Turkish language with deep text analysis and deep learning methods
CN111666500A (zh) 文本分类模型的训练方法及相关设备
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
Rehman et al. User-aware multilingual abusive content detection in social media
Shruthi et al. A prior case study of natural language processing on different domain
CN111680136B (zh) 一种口语语义匹配的方法及装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN112836019A (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN116720519A (zh) 一种苗医药命名实体识别方法
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116578697A (zh) 一种面向金融的语言情感分析和标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant