CN119830003A - 训练用于电力合同条款自动解析的小参数模型的方法及计算设备 - Google Patents

训练用于电力合同条款自动解析的小参数模型的方法及计算设备 Download PDF

Info

Publication number
CN119830003A
CN119830003A CN202411796359.4A CN202411796359A CN119830003A CN 119830003 A CN119830003 A CN 119830003A CN 202411796359 A CN202411796359 A CN 202411796359A CN 119830003 A CN119830003 A CN 119830003A
Authority
CN
China
Prior art keywords
contract
data
model
clause
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411796359.4A
Other languages
English (en)
Inventor
高丹丹
周诚玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Lingshu Intelligent Connection Technology Co ltd
Original Assignee
Jiayuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiayuan Technology Co Ltd filed Critical Jiayuan Technology Co Ltd
Priority to CN202411796359.4A priority Critical patent/CN119830003A/zh
Publication of CN119830003A publication Critical patent/CN119830003A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种训练用于电力合同条款自动解析的小参数模型的方法及计算设备,所述方法包括:获取合同数据并进行预处理,将合同数据转换为标准化的段落列表;通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据;利用所述训练数据对小参数模型进行微调训练,得到微调后的小参数模型,其中所述微调后的小参数模型在推理阶段根据输入的未经标注的合同段落文本输出条款分类标签和提取的条款关键字段。根据本发明的技术方案,能够提升条款提取精度与效率,大幅降低计算成本,增强领域适配性,快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。

Description

训练用于电力合同条款自动解析的小参数模型的方法及计算 设备
技术领域
本发明涉及电力和人工智能领域,具体涉及一种训练用于电力合同条款自动解析的小参数模型的方法及计算设备。
背景技术
电力行业合同是保障电力交易、项目建设及设备采购顺利进行的重要法律文件,其条款内容复杂多样,涵盖付款条件、履约保证、违约责任等多个方面。合同条款的清晰解析和潜在风险的提前识别,对降低企业法律风险、提高合同管理效率具有重要意义。然而,传统的合同条款解析方法存在诸多不足,亟需技术革新。
目前,电力合同条款解析主要依赖于人工审核与传统规则匹配方法。人工审核依赖于法律与业务专家的经验,虽然能够较为准确地识别关键条款和潜在风险,但存在成本高、效率低的问题,且面对海量合同时往往力不从心。而传统的规则匹配方法通过预先定义的模板和关键字进行条款识别,难以处理合同中复杂的语义变体和非标准化表述。例如,某些合同条款可能使用隐晦的语言或行业特定术语,传统方法容易出现漏提或误提的现象。
为此,需要一种技术方案,能够提升条款提取精度与效率,大幅降低计算成本,增强领域适配性,快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
发明内容
本发明旨在提供训练用于电力合同条款自动解析的小参数模型的方法及计算设备,能够提升条款提取精度与效率,大幅降低计算成本,增强领域适配性,快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
根据本发明的一方面,提供一种训练用于电力合同条款自动解析的小参数模型的方法,所述方法包括:
获取合同数据并进行预处理,将合同数据转换为标准化的段落列表;
通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据;
利用所述训练数据对小参数模型进行微调训练,得到微调后的小参数模型,其中所述微调后的小参数模型在推理阶段根据输入的未经标注的合同段落文本输出条款分类标签和提取的条款关键字段。
获取最终提取结果并输出所述最终提取结果。
根据一些实施例,获取合同数据并进行预处理,将合同数据转换为标准化的段落列表,包括:
将多格式的所述合同数据转换为可供后续处理的机构化数据;
将所述合同数据解析后统一存储为标准化的纯文本格式。
根据一些实施例,通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据,包括:
将所述合同数据经过所述数据输入模块切分为段落;
将切分后的所述合同数据逐段输入所述大语言模型进行解析;
所述合同数据多段并行处理,同时保留所述合同数据中条款间的上下文信息。
根据一些实施例,通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据,还包括:
所述大语言模型根据所述合同数据的特定逻辑关系,对识别后的所述关键条款进行交叉校验;
对识别后的所述关键条款提供置信度评分,标记存在不确定性的条款供人工复核。
根据一些实施例,所述标注数据包括:条款类型及其分类标签、提取的条款核心内容和对应的原始段落文本及上下文。
根据一些实施例,利用所述训练数据对小参数模型进行微调训练,包括:
在所述小参数模型的注意力层插入低秩矩阵,参数初始值为随机分布;
在微调训练过程中,仅更新所述低秩矩阵的权重,其余模型参数保持冻结;
调整所述低秩矩阵的权重以学习领域特定的条款分类与内容提取任务。
根据本发明的另一方面,提供一种利用小参数模型对电力合同条款进行自动解析的方法,所述小参数模型利用如上任一项所述的方法训练得到,所述方法包括:
获取合同数据并进行预处理;
将预处理后的所述合同数据输入小参数模型;
获取最终提取结果并输出所述最终提取结果,其中,将所述条款分类以高亮标记和/或分组形式呈现,将所述最终提取结果与原始合同数据并列显示,所述最终提取结果经人工校验和调整后,作为反馈信息存储。
根据本发明的另一方面,提供一种用于电力合同关键条款提取的系统,所述系统包括:
数据输入模块,所述数据输入模块用于合同数据的输入和合同数据的格式转换;
大语言模型条款提取模块,所述大语言模型条款提取模块利用大语言模型识别所述合同数据中的关键条款,并生成标注数据;
小模型微调模块,所述小模型微调模块使用所述标注数据,基于小参数模型进行微调优化和高效解析;
条款分类与内容提取模块,所述条款分类与内容提取模块用于执行精准条款分类和内容提取;
结果输出与用户反馈模块,所述结果输出与用户反馈模块用于最终提取结果的输出。
根据本发明的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的方法。
根据本发明的另一方面,提供一种计算设备,包括:
处理器;以及
存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如上任一项所述的方法。
根据本发明的实施例,通过获取合同数据并进行预处理,将合同数据转换为标准化的段落列表,使用大语言模型对标准化的段落列表解析,输出标注的结构化数据集作为训练数据,利用训练数据对小参数模型进行微调训练,得到微调后的小参数模型,微调后的小参数模型在推理阶段,根据输入的未经标注的合同段落文本输出条款分类标签和提取的条款关键字段,获取最终提取结果并输出最终提取结果。本发明通过大语言模型和小模型微调相结合,各模块相互协作,能够提升条款提取精度与效率,大幅降低计算成本,增强领域适配性,快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
根据一些实施例,本发明将大语言模型用于电力合同条款初步提取,生成高质量标注数据,随后利用小参数模型进行微调,基于大模型与小模型结合的高效解析方法,实现资源高效利用与精准条款提取的结合。
根据一些实施例,针对电力合同中的专业术语和复杂语义结构,通过领域语料微调模型,实现领域特化的条款解析能力,提升对行业特定条款的理解与提取能力,解决传统通用模型在行业适配性上的不足。
根据一些实施例,本发明通过动态学习与持续优化机制,通过用户反馈及新增合同数据实现模型的增量更新,使其能够快速适应条款格式变化及新增风险类型,确保解析效果的长期可靠性。利用大语言模型的语义理解能力与小模型的高效计算能力,显著提高对合同关键条款的解析精度。
根据一些实施例,通过对电力行业特化数据的训练,本发明能够精准识别并提取电力合同中的核心条款和关键信息,有效满足行业需求。支持动态学习与轻量化部署,能够快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
根据一些实施例,本发明实现合同条款的精准提取,利用大语言模型的强语义理解能力,通过设计初步提取合同中的关键条款,结合微调的小语言模型提升领域适应性,全面解析合同文本中隐含的关键信息。
根据一些实施例,本发明有效提高模型效率与部署便捷性,通过利用大模型生成标注数据并基于小模型微调,实现高效资源利用和轻量化部署,降低系统的计算成本和复杂度。
根据一些实施例,本发明增强了动态学习能力,提供模型增量更新机制,通过用户反馈和新增合同样本持续优化模型性能,确保系统能够动态适应行业需求的变化。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1示出根据示例实施例的训练用于电力合同条款自动解析的小参数模型的流程图。
图2示出根据示例实施例的电力合同关键条款提取系统的示意图。
图3示出根据示例实施例的总体技术架构设计的示意图。
图4示出根据示例性实施例的计算设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本发明概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本发明所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
在电力行业中,合同条款是企业交易和法律保障的重要依据,其内容复杂且具有较强的专业性。现有的合同条款解析方法在实际应用中存在许多技术难点和问题。电力合同条款的表述往往具有非标准化特点,同一条款可能使用不同措辞或隐晦的表达形式,导致传统基于模板匹配或关键字搜索的方法难以精准提取关键信息。此外,合同中常见的专业术语和长尾条款需要结合上下文理解其含义,现有解析技术在语义理解上存在不足。当前的自然语言处理技术虽然取得了长足进步,但通用预训练语言模型主要针对通用领域数据进行训练,缺乏对电力行业特定语料的学习能力,难以有效识别行业特定条款的类别和关键内容,尤其是面对复杂的电力合同结构,现有模型无法灵活适应行业需求。大语言模型大规模参数和高计算资源需求,限制了在实际场景中的广泛应用,特别是在企业处理海量合同时,高算力依赖显著增加了部署成本和维护难度。电力合同的条款内容随着市场变化和政策调整而不断演变,现有方法通常使用静态模型,难以快速适应新增的合同条款格式或新兴的风险类型,这种适应性不足可能导致条款解析结果的时效性和准确性下降。
近年来,随着自然语言处理(NLP)技术的快速发展,基于深度学习模型的文本分析方法逐渐应用于合同解析领域。特别是大型语言模型表现出强大的语义理解能力,可以较为精准地处理非结构化合同文本。然而,大多数现有方法仍存在很多问题。例如:缺乏行业特化优化,通用语言模型在电力行业合同中表现有限,难以处理行业特定术语和复杂条款语义;计算成本高,大参数模型在实际应用中需要高算力支持,难以满足企业对低成本高效处理的需求;动态适应性不足,现有方法难以根据新增合同或条款格式的变化动态调整解析模型。
现有技术尝试通过微调语言模型以适应特定领域任务,或者利用迁移学习方法提高解析效率,然而仍未能实现高效、精准的电力合同条款解析,尤其是在处理合同规模大、条款复杂度高的场景时。
为此,本发明提出一种练用于电力合同条款自动解析的小参数模型的方法及计算设备,能够提升条款提取精度与效率,大幅降低计算成本,增强领域适配性,快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
下面结合附图对本发明的示例实施例进行说明。
图1示出根据示例实施例的训练用于电力合同条款自动解析的小参数模型的流程图。
参见图1,在S101,获取合同数据并进行预处理,将合同数据转换为标准化的段落列表。
根据一些实施例,将多格式的所述合同数据转换为可供后续处理的机构化数据;将所述合同数据解析后统一存储为标准化的纯文本格式。
根据一些实施例,数据输入模块支持多格式数据解析。数据输入模块支持多种合同格式,包括PDF、Word和纯文本文件。对于PDF文件,采用专用解析工具,如PDFMiner、PyPDF等,提取文本内容。对于Word文件,则使用处理文档数据的库,如python-docx,实现快速文本提取。所有格式的合同文本在解析后统一存储为标准化的纯文本格式。
数据输入模块将合同文本通常按章节或条款段落进行组织。利用正则表达式识别合同中的常见分隔符,如“第一条”、“1.1”等,实现初步分段。基于语言模型进行段落语义检测,确保切分后的每段文本具有语义完整性。为提高后续模型解析的效率,模块对合同文本进行规范化处理,包括:去除无关字符,如页眉、页脚、空行等;统一格式,如时间、金额、百分比的表达形式;消除常见错误,如编码问题导致的字符乱码。除正文外,模块还提取合同的基本元信息,如合同名称、签署日期、参与方,这些信息将作为辅助上下文输入到后续的大语言模型中,提升条款提取的准确性。
经过数据输入模块处理后,合同文本被转换为标准化的段落列表,每段文本包含以下结构化信息:段落序号、段落文本内容、相关的上下文信息,如所属章节标题。数据输入模块确保了合同数据的高效处理和格式统一,为后续的条款解析与提取提供了规范化的数据输入。
在S103,通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据。
根据一些实施例,将所述合同数据切分为段落;将切分后的所述合同数据逐段输入所述大语言模型条款提取模块中的大语言模型进行解析;所述合同数据多段并行处理,同时保留所述合同数据中条款间的上下文信息。所述大语言模型根据所述合同数据的特定逻辑关系,对识别后的所述关键条款进行交叉校验;对识别后的所述关键条款提供置信度评分,标记存在不确定性的条款供人工复核。
根据一些实施例,智能体Prompt是大语言模型高效完成任务的核心,本发明使用的Prompt经过设计与优化,大语言模型条款提取模块根据电力合同的特点,设计了几种类型的Prompt。
任务定义型Prompt,用于明确模型的任务目标,例如:将以下文本中的条款划分为类别,如付款条款、履约条款、违约责任条款等,并提取每类条款的核心内容。任务定义型Prompt的格式为:
输入文本:[合同段落]
输出格式:
-条款类型:[类型]
-条款内容:[提取的核心内容]
上下文增强型Prompt,用于提供合同上下文信息,如合同名称、参与方等,作为补充输入,帮助模型更好地理解文本。Prompt设计经过多轮实验优化,确保模型在条款提取中的准确性和通用性。
合同文本经过数据输入模块切分为段落后,逐段输入大语言模型进行解析。为提高处理效率,大语言模型条款提取模块支持批量输入,通过分块并行处理多段文本,同时保留条款间的上下文信息。大语言模型基于Prompt指令对每段文本进行条款类型分类,如付款条款、履约条款、违约责任条款等,并提取其关键内容。模型通过对文本上下文的深度理解,能够准确识别隐含或复杂表述的条款。
对于提取结果,模型会根据电力合同的特定逻辑关系,如付款条款通常关联金额,进行交叉校验,减少误提或漏提。同时提供置信度评分,标记可能存在不确定性的条款供人工复核。
大语言模型条款提取模块的输出结果是一个高质量的结构化数据集,每条记录包括:条款类型及其分类标签、提取的条款核心内容、对应的合同段落文本和置信度评分。
根据一些实施例,条款类型及其分类标签、提取的条款核心内容和对应的原始段落文本及上下文。
大语言模型条款提取模块生成标注数据集,最终输出结构化的标注数据,包括:条款类型、分类标签、提取的条款核心内容和原始段落文本及上下文。这些输出结果既可直接用于合同管理应用,也可作为小语言模型微调的训练数据,确保后续模块的性能提升和轻量化部署。通过大语言模型条款提取模块,本发明能够实现对合同文本的精准解析,快速构建用于领域微调的高质量训练数据集。
在S105,利用所述训练数据对小参数模型进行微调训练,得到微调后的小参数模型,其中所述微调后的小参数模型在推理阶段根据输入的未经标注的合同段落文本输出条款分类标签和提取的条款关键字段。
根据一些实施例,在所述小参数模型的注意力层插入低秩矩阵,参数初始值为随机分布;在微调训练过程中,仅更新所述低秩矩阵的权重,其余模型参数保持冻结;调整所述低秩矩阵的权重以学习领域特定的条款分类与内容提取任务。
小模型微调模块的输入数据是由大语言模型条款提取模块生成的高质量结构化标注数据,用于小模型的领域微调。每条数据包括:输入文本,合同段落的原始文本;输出标签,对应的条款类型,如付款条款、履约条款等;提取内容,条款中的关键字段,如金额、日期、履约方式等;验证数据,从未见过的电力合同中随机抽取数据,作为验证集,用于评估模型的泛化性能。
小模型微调模块的模型选用开源小参数模型(QWen1.5-14B)作为基础模型。这些模型参数量适中,既能适配领域任务,又易于在企业环境中部署。加载预训练权重并冻结模型的大部分参数,仅开放远距离无线电技术(LoRA)适配器的参数进行更新,确保基础语言知识得以保留。
LoRA通过在模型的注意力层中插入低秩矩阵,降低了微调过程中需要更新的参数量,从而实现了高效的领域适配。在预训练语言模型的注意力层插入低秩矩阵,参数初始值为随机分布;仅更新这些低秩矩阵的权重,其余模型参数保持冻结;在微调过程中,调整LoRA的权重以学习领域特定的条款分类与内容提取任务。根据输入的合同段落,预测条款的分类标签;定位并提取合同段落中与分类相关的关键字段,如金额、履约周期等。
小模型微调模块中的小模型需要进行训练。首先设置超参数,选择较小的学习率,以稳定优化LoRA权重。根据硬件资源设置批量大小(Batch Size);视模型收敛情况调整轮次数(Epoch数),通常为3-5轮。
使用训练数据集对模型进行多轮训练,每轮训练中,输入合同段落文本及其标注信息。模型输出分类结果及关键字段提取,通过计算交叉熵损失函数评估分类准确性。动态调整LoRA的权重以优化模型性能,减少误分类和信息遗漏。
在每轮训练后,用验证集测试模型的分类准确性和关键字段提取的精确率与召回率。训练完成后,用未见数据测试模型性能,并输出条款分类与内容提取结果,分析错误原因以进一步优化模型。
在训练阶段,每条训练样本包括输入文本,即合同段落;输出标签,即条款分类类型;提取内容为对应的关键字段。输出预测的分类标签与提取内容,与标注数据对比计算损失值。
在推理阶段,输入为未经标注的合同段落文本。推理阶段输出的预测结果包括:条款分类标签,如付款条款、违约责任条款等;提取的条款关键字段,如金额、履约时间、违约金等。
根据一些实施例,条款分类与内容提取模块的输入为经过数据预处理和分段的合同文本,每段文本提供以下信息:段落文本,合同的段落级内容,未标注条款类型或结构信息;上下文信息,包括合同的标题、章节标题,作为辅助信息增强模型对文本语境的理解。
微调后的小参数大语言模型被用于完成条款分类和内容提取任务。模型通过上下文语义分析段落文本,生成条款分类结果。利用语言模型的生成能力,模型直接输出段落所属的条款类型,例如:
输出示例:
条款类型:付款条款
核心内容:本段描述了支付方式和时间。
模型在分类基础上,进一步提取文本中的关键字段。例如,对于“付款条款”,提取金额、支付时间等;对于“违约条款”,提取违约金额、责任条款等字段。生成输出格式例如:
条款类型:付款条款
提取字段:
-金额:500万元
-支付时间:合同签订后30天内
模块利用上下文增强模型的推理能力,例如,在涉及多个条款类型的段落中,模型通过合同章节标题和历史文本内容,动态调整推理结果,确保分类和提取的准确性。对于复杂段落或长文本,模型支持多轮交互式生成,即在一轮输出分类结果后,进一步细化提取关键字段。通过上下文追踪,校正模型可能的分类错误,例如,同一段落同时属于多种条款类型。利用规则或特定模板对模型输出结果进行逻辑校验。例如:检查提取金额字段是否符合合同整体金额范围;支付时间是否有逻辑错误。输出结果存储为结构化格式,如JSON或表格,供后续合同管理系统直接调用。
条款分类与内容提取模块的输入为段落级原始未标注的合同文本,上下文信息,如合同章节标题、前后关联段落等。输出为条款分类结果和内容提取结果,即每段文本对应的条款类型标签,如付款条款、履约条款等,针对分类后的段落,提取的关键字段信息,以结构化格式输出。例如:
{
"条款类型":"付款条款",
"提取字段":{
"金额":"500万元",
"支付时间":"合同签订后30天内"
}
}
根据一些实施例,将所述条款分类以高亮标记和/或分组形式呈现;将所述最终提取结果与原始合同数据并列显示,便于用户核对;所述最终提取结果经人工校验和调整后,作为反馈信息存储。
结果输出与用户反馈模块将结构化结果输出,将分类和提取结果格式化为标准化的结构化数据,便于后续的管理和分析。输出结果支持多种格式,包括:表格格式,如Excel或CSV,每一行代表一个条款段落,列包含条款类型、提取字段、原始文本等信息;JSON格式,适用于对接其他系统或应用场景,包含条款类型和提取字段的键值对,例如:
{
"段落序号":1,
"条款类型":"付款条款",
"提取字段":{
"金额":"500万元",
"支付时间":"合同签订后30天内"
},
"原始文本":"乙方应在合同签订后30天内支付甲方500万元。"
}
结果输出与用户反馈模块提供直观的用户界面,用于展示分类和提取结果。条款分类以高亮标记或分组形式呈现,提取字段与原始文本并列显示,便于用户核对,支持字段类型、值的交互式编辑。
结果输出与用户反馈模块提供用户反馈机制,用户可对提取结果进行人工校验和调整。例如:修正分类标签,若分类错误,用户可直接重新选择正确的条款类型;修改提取字段,用户可编辑或补充遗漏的字段信息。
编辑后的数据作为反馈信息存储,用于后续模型优化。系统记录原始模型输出与用户修正结果的对比、用户的具体修改操作及原因等内容。收集的反馈数据会与原始标注数据合并,用于模型的持续微调和优化,提升其对新增合同样本的适应能力。根据用户反馈,模块支持动态调整输出结果的置信度阈值或提取策略,进一步提高自动化处理的准确率。
结果输出与用户反馈模块的输入为条款分类与内容提取模块的结果,包括分类标签、提取字段和原始文本。用户反馈数据,包括用户校验或编辑后的结果。输出包括结果展示,即可视化界面中显示的条款分类和提取字段;结构化数据,标准化的输出格式;反馈数据,包括用户校验或编辑结果存储为增量数据。
本发明基于大模型与小模型结合的高效解析方法,将大语言模型用于电力合同条款初步提取,通过Prompt生成高质量标注数据,随后利用小参数模型进行微调,实现资源高效利用与精准条款提取的结合。针对电力合同中的专业术语和复杂语义结构,通过领域语料微调模型,提升对行业特定条款的理解与提取能力,解决传统通用模型在行业适配性上的不足。通过用户反馈及新增合同数据实现模型的增量更新,使其能够快速适应条款格式变化及新增风险类型,确保解析效果的长期可靠性。
图2示出根据示例实施例的电力合同关键条款提取系统的示意图。
参见图2,图2示出电力合同关键条款提取系统的组成模块。系统模块组成包括:数据输入模块、大语言模型条款提取模块、小模型微调模块、条款分类与内容提取模块和结果输出与用户反馈模块。
数据输入模块,所述数据输入模块用于合同数据的输入和合同数据的格式转换。数据输入模块是本发明的第一步,负责将多格式的电力合同文本转换为可供后续处理的规范化数据结构。该模块的设计目标是实现对合同内容的高效解析、段落切分和文本规范化处理,为后续的条款提取任务奠定基础。
大语言模型条款提取模块,所述大语言模型条款提取模块利用大语言模型识别所述合同数据中的关键条款,并生成标注数据。大语言模型条款提取模块是本发明中的关键组成部分,利用大参数规模的预训练语言模型(QWen2.5-72B)对电力合同文本进行深度解析和条款提取。该模块结合领域特化的Prompt设计,从合同文本中识别并提取关键条款,为后续的模型微调和条款分类奠定基础。
小模型微调模块,所述小模型微调模块使用所述标注数据,基于小参数模型进行微调优化和高效解析。小模型微调模块是本发明的核心技术之一,旨在通过对小参数的大语言模型进行领域特化的高效微调,实现电力合同条款的精准分类与内容提取。该模块引入LoRA(低秩适配器)技术,使得微调过程高效、资源占用小,同时能够保留模型的通用语言理解能力,最终实现轻量化部署,适配电力合同解析的实际需求。
条款分类与内容提取模块,所述条款分类与内容提取模块用于执行精准条款分类和内容提取。条款分类与内容提取模块基于微调后的小参数语言模型,实现对电力合同文本的语义解析和关键内容提取。该模块利用语言模型的强语义理解能力,通过对合同段落的整体分析,将其自动分类为对应的条款类型,并进一步从文本中提取条款的关键字段,生成结构化的输出结果。
结果输出与用户反馈模块,所述结果输出与用户反馈模块用于最终提取结果的输出。结果输出与用户反馈模块是本发明的最终处理与优化环节,负责将合同条款分类与关键内容提取模块的结果转换为易于理解和操作的格式,同时提供用户交互接口,用于校验、编辑和反馈提取结果,从而形成模型持续优化的闭环。
本发明提升了条款提取精度与效率,利用大语言模型的语义理解能力与小模型的高效计算能力,显著提高对合同关键条款的解析精度,同时大幅降低计算成本。增强领域适配性,通过对电力行业特化数据的训练,本发明能够精准识别并提取电力合同中的核心条款和关键信息,有效满足行业需求。本发明提高系统的灵活性与可扩展性,本发明支持动态学习与轻量化部署,能够快速适应电力行业的条款变化与新增合同类型,为智能合同管理提供创新解决方案。
图3示出根据示例实施例的总体技术架构设计的示意图。
参见图3,图3示出系统总体技术架构的设计。
数据输入模块支持多种合同数据格式的输入,包括PDF、Word和纯文本等。对于扫描版合同,模块集成OCR技术,将合同内容转换为结构化文本,同时预处理合同段落以便后续处理。
大语言模型条款提取模块利用大语言模型(QWen2.5-72B)强大的上下文理解能力,通过精心设计的Prompt快速识别合同中的关键条款,并生成初步标注数据。此模块负责处理复杂语义和专业术语,确保初步提取的高准确性和覆盖率。
小模型微调模块使用第一阶段生成的标注数据,基于小参数模型(如LLaMA-2或其他开源模型)进行微调优化,针对电力行业特定合同条款进行高效解析,适配实际业务需求。
条款分类与内容提取模块执行精准条款分类和内容提取,提取结果按照条款类型分类,并以结构化形式存储。
结果输出与用户反馈模块提供清晰的提取结果输出(如表格或JSON格式),同时支持用户对结果的编辑与反馈,形成数据闭环,用于持续优化模型性能。
该架构实现了从合同输入到条款精准提取的高效处理流程,兼具语义理解能力和计算资源的高效利用。
图4示出根据示例性实施例的计算设备的框图。
如图4所示,计算设备30包括处理器12和存储器14。计算设备30还可以包括总线22、网络接口16以及I/O接口18。处理器12、存储器14、网络接口16以及I/O接口18可以通过总线22相互通信。
处理器12可以包括一个或多个通用CPU(Central Processing Unit,处理器)、微处理器、或专用集成电路等,用于执行相关程序指令。根据一些实施例,计算设备30还可包括为处理器12进行加速的高性能显示适配器(GPU)20。
存储器14可以包括易失性存储器形式的机器系统可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)和/或高速缓存存储器。存储器14用于存储包含指令的一个或多个程序以及数据。处理器12可读取存储在存储器14中的指令以执行上述根据本发明实施例的方法。
计算设备30也可以通过网络接口16与一个或者多个网络通信。该网络接口16可以是无线网络接口。
总线22可以为包括地址总线、数据总线、控制总线等。总线22提供了各组件之间交换信息的通路。
需要说明的是,在具体实施过程中,计算设备30还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)、网络存储设备、云存储设备,或适合于存储指令和/或数据的任何类型的媒介或设备。
本发明实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本发明的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列、集成电路等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上具体地展示和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附条款的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种训练用于电力合同条款自动解析的小参数模型的方法,所述方法包括:
获取合同数据并进行预处理,将合同数据转换为标准化的段落列表;
通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据;
利用所述训练数据对小参数模型进行微调训练,得到微调后的小参数模型,其中所述微调后的小参数模型在推理阶段根据输入的未经标注的合同段落文本输出条款分类标签和提取的条款关键字段。
2.根据权利要求1所述的方法,其特征在于,获取合同数据并进行预处理,将合同数据转换为标准化的段落列表,包括:
将多格式的所述合同数据转换为可供后续处理的机构化数据;
将所述合同数据解析后统一存储为标准化的纯文本格式。
3.根据权利要求1所述的方法,其特征在于,通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据,包括:
将所述合同数据切分为段落;
将切分后的所述合同数据逐段输入所述大语言模型进行解析;
所述合同数据多段并行处理,同时保留所述合同数据中条款间的上下文信息。
4.根据权利要求1所述的方法,其特征在于,通过大语言模型对所述标准化的段落列表解析,输出标注的结构化数据集作为训练数据,还包括:
所述大语言模型根据所述合同数据的特定逻辑关系,对识别后的所述关键条款进行交叉校验;
对识别后的所述关键条款提供置信度评分,标记存在不确定性的条款供人工复核。
5.根据权利要求1所述的方法,其特征在于,所述标注数据包括:条款类型及其分类标签、提取的条款核心内容和对应的原始段落文本及上下文。
6.根据权利要求1所述的方法,其特征在于,利用所述训练数据对小参数模型进行微调训练,包括:
在所述小参数模型的注意力层插入低秩矩阵,参数初始值为随机分布;
在微调训练过程中,仅更新所述低秩矩阵的权重,其余模型参数保持冻结;
调整所述低秩矩阵的权重以学习领域特定的条款分类与内容提取任务。
7.一种利用小参数模型对电力合同条款进行自动解析的方法,所述小参数模型利用如权利要求1-6中任一项所述的方法训练得到,所述方法包括:
获取合同数据并进行预处理;
将预处理后的所述合同数据输入小参数模型;
获取最终提取结果并输出所述最终提取结果,其中,将所述条款分类以高亮标记和/或分组形式呈现,将所述最终提取结果与原始合同数据并列显示,所述最终提取结果经人工校验和调整后,作为反馈信息存储。
8.一种用于电力合同关键条款提取的系统,所述系统包括:
数据输入模块,所述数据输入模块用于合同数据的输入和合同数据的格式转换;
大语言模型条款提取模块,所述大语言模型条款提取模块利用大语言模型识别所述合同数据中的关键条款,并生成标注数据;
小模型微调模块,所述小模型微调模块使用所述标注数据,基于小参数模型进行微调优化和高效解析;
条款分类与内容提取模块,所述条款分类与内容提取模块用于执行精准条款分类和内容提取;
结果输出与用户反馈模块,所述结果输出与用户反馈模块用于最终提取结果的输出。
9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种计算设备,其特征在于,包括:
处理器;以及
存储器,存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
CN202411796359.4A 2024-12-09 2024-12-09 训练用于电力合同条款自动解析的小参数模型的方法及计算设备 Pending CN119830003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411796359.4A CN119830003A (zh) 2024-12-09 2024-12-09 训练用于电力合同条款自动解析的小参数模型的方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411796359.4A CN119830003A (zh) 2024-12-09 2024-12-09 训练用于电力合同条款自动解析的小参数模型的方法及计算设备

Publications (1)

Publication Number Publication Date
CN119830003A true CN119830003A (zh) 2025-04-15

Family

ID=95291114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411796359.4A Pending CN119830003A (zh) 2024-12-09 2024-12-09 训练用于电力合同条款自动解析的小参数模型的方法及计算设备

Country Status (1)

Country Link
CN (1) CN119830003A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120013696A (zh) * 2025-04-18 2025-05-16 浙江大学 一种基于大语言模型的会计分录自动编制方法及系统
CN120975983A (zh) * 2025-10-17 2025-11-18 钱塘征信有限公司 基于智能体的合同处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120013696A (zh) * 2025-04-18 2025-05-16 浙江大学 一种基于大语言模型的会计分录自动编制方法及系统
CN120975983A (zh) * 2025-10-17 2025-11-18 钱塘征信有限公司 基于智能体的合同处理方法及装置

Similar Documents

Publication Publication Date Title
US12019978B2 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
US12159112B2 (en) Hierarchical machine learning architecture including master engine supported by distributed light-weight real-time edge engines
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN119830003A (zh) 训练用于电力合同条款自动解析的小参数模型的方法及计算设备
US12147776B2 (en) Method for extracting information from an unstructured data source
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN115687621B (zh) 一种短文本标签标注方法及装置
CN118313348A (zh) 文档格式排版方法、装置、计算机设备、存储介质及产品
CN112133308B (zh) 一种用于语音识别文本多标签分类的方法和装置
CN113496118B (zh) 一种新闻主体识别方法、设备和计算机可读存储介质
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN119623416A (zh) 基于大模型的合同审查方法及装置、介质、设备
CN119311890A (zh) 意图分类方法、装置、电子设备及存储介质
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
EP3685284A1 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
CN119719234B (zh) 基于sql脚本解析的智能化数据分类分级方法及系统
CN116595192B (zh) 科技前沿信息获取方法、装置、电子设备和可读存储介质
CN120373306B (zh) 可行性研究报告智能解析与信息抽取方法、系统及设备
CN114595675B (zh) 一种文档间差异内容的追踪方法、装置及电子设备
CN121257477A (zh) 基于大模型的文本生成方法和装置、设备、存储介质
CN121168458A (zh) 基于rag处理封装的金融数据预处理方法及系统
CN121094084A (zh) 基于大模型的环境文档处理方法、装置、设备及存储介质
CN120780722A (zh) 基于大语言模型的gis软件交互实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20251103

Address after: 210012 Jiangsu Province Nanjing City Yuhuatai District Ningshuang Road No. 19 Yunmi City Building 7 1401-1408, 1501-1508, 1601-1604, 1701-1704

Applicant after: Nanjing Lingshu Intelligent Connection Technology Co.,Ltd.

Country or region after: China

Address before: 210012 14-17 floors, 7 Building, Yunmicheng, 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: Jiayuan Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right