CN116401359A - 文档抽取方法及装置、介质、设备 - Google Patents

文档抽取方法及装置、介质、设备 Download PDF

Info

Publication number
CN116401359A
CN116401359A CN202310677513.5A CN202310677513A CN116401359A CN 116401359 A CN116401359 A CN 116401359A CN 202310677513 A CN202310677513 A CN 202310677513A CN 116401359 A CN116401359 A CN 116401359A
Authority
CN
China
Prior art keywords
model
training
target
document
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310677513.5A
Other languages
English (en)
Inventor
兰鹏
陈永红
谢翀
罗伟杰
黄开梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202310677513.5A priority Critical patent/CN116401359A/zh
Publication of CN116401359A publication Critical patent/CN116401359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及神经网络领域,公开了一种文档抽取方法及装置、介质和设备。方法包括:服务商训练端将第一训练文档输入老师模型得到第一输出,将第一训练文档输入学生模型得到第二输出,根据第一输出以及第二输出调整学生模型的参数,并将老师模型以及学生模型发送至用户训练端;用户训练端将第二训练文档输入老师模型得到第三输出,将第二训练文档输入学生模型得到第四输出,根据第三输出以及第四输出调整学生模型得到目标模型,并将目标模型发送至用户服务端;用户服务端部署目标模型,并利用目标模型执行与目标任务类型对应的目标抽取任务。本申请的方法解决了现有方法无法同时兼顾人工标注的工作量、硬件需求以及金融数据隐私性的问题。

Description

文档抽取方法及装置、介质、设备
技术领域
本申请涉及神经网络领域,尤其是涉及到一种文档抽取方法及装置、介质和设备。
背景技术
在金融领域存在大量文本数据,这些数据往往需要提取出关键信息,进而完成归档、审核等工作。面对海量数据,人工提取往往是低效且高成本的,所以急需一种精准的自动化提取手段完成这项工作。
传统的文档抽取通常采用神经网络模型处理,然而常规的神经网络模型需要提前进行预训练,而预训练需要人工对训练数据进行标注,工作量较大;大型的神经网络模型无需人工标注训练数据,但结构复杂,对硬件要求较高,难以部署实施;若采用调用模型接口的方式使用服务方提供的大型神经网络模型,则会导致数据安全性降低,且不符合金融数据的隐私需求。
发明内容
有鉴于此,本申请提供了一种文档抽取方法及装置、介质和设备,解决了现有方法无法同时兼顾人工标注的工作量、硬件需求以及金融数据隐私性的问题。
根据本申请的一个方面,提供了一种文档抽取方法,包括:
服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将第一训练文档输入初始的学生模型得到第二输出,比较第一输出以及第二输出,得到第一比较结果,根据第一比较结果调整学生模型的参数,并将老师模型以及学生模型发送至用户训练端,其中,老师模型的参数数量大于学生模型的参数数量;
用户训练端将第二训练文档输入老师模型得到第三输出,将第二训练文档输入学生模型得到第四输出,比较第三输出以及第四输出,得到第二比较结果,根据第二比较结果调整学生模型得到目标模型,并将目标模型发送至用户服务端,其中,第二训练文档为与目标任务类型相匹配的文档;
用户服务端部署目标模型,并利用目标模型执行与目标任务类型对应的目标抽取任务。
可选地,利用目标模型执行与目标任务类型对应的目标抽取任务,包括:
响应于与目标任务类型对应的文档抽取请求,接收至少一个待抽取文档,并将待抽取文档输入目标模型,得到与待抽取文档对应的目标信息。
可选地,在根据第二比较结果调整学生模型得到目标模型后,方法还包括:
用户训练端将目标模型以及目标任务类型反馈至服务商训练端;
服务商训练端记录多个用户训练端的目标模型的参数以及目标任务类型;
服务商训练端响应于新的模型训练请求,根据新的模型训练请求对应的任务类型,在多个用户训练端的目标模型的参数中选择模板参数,根据模板参数建立与新的模型训练请求对应的初始的学生模型。
可选地,在利用目标模型执行与目标任务类型对应的目标抽取任务之后,方法还包括:
用户服务端将目标抽取任务对应的任务执行结果反馈至服务商训练端;
相应地,根据新的模型训练请求对应的任务类型,在多个用户训练端的目标模型的参数中选择模板参数,包括:
服务商训练端确定与任务类型匹配的目标模型为备选模型,并根据任务执行结果在备选模型中选择至少一个模板模型,将模板模型的参数作为模板参数。
可选地,第一训练文档为与目标任务类型相匹配的脱敏文档;和/或,
在将老师模型以及学生模型发送至用户训练端之前,方法还包括:
将与目标任务类型相匹配的脱敏文档输入学生模型,并根据学生模型的输出以及脱敏文档对应的标签调整学生模型的参数。
可选地,第二训练文档的数量小于第一训练文档的数量,其中,第二训练文档是无标注的文档。
可选地,在用户训练端将第二训练文档输入老师模型之前,方法还包括:
用户训练端对第二训练文档进行预处理操作,其中,预处理操作包括以下至少之一:重复数据清洗、空值数据清洗、数据格式转换。
根据本申请的另一方面,提供了一种文档抽取装置,所述装置包括:
第一蒸馏模块,用于控制服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将所述第一训练文档输入初始的学生模型得到第二输出,比较所述第一输出以及所述第二输出,得到第一比较结果,根据所述第一比较结果调整所述学生模型的参数,并将所述老师模型以及所述学生模型发送至用户训练端,其中,所述老师模型的参数数量大于所述学生模型的参数数量;
第二蒸馏模块,用于控制所述用户训练端将第二训练文档输入所述老师模型得到第三输出,将所述第二训练文档输入所述学生模型得到第四输出,比较所述第三输出以及所述第四输出,得到第二比较结果,根据所述第二比较结果调整所述学生模型得到目标模型,并将所述目标模型发送至用户服务端,其中,所述第二训练文档为与目标任务类型相匹配的文档;
模型部署模块,用于控制所述用户服务端部署所述目标模型,并利用所述目标模型执行与所述目标任务类型对应的目标抽取任务。
可选地,所述模型部署模块用于:
控制所述用户服务端响应于与所述目标任务类型对应的文档抽取请求,接收至少一个待抽取文档,并将所述待抽取文档输入所述目标模型,得到与所述待抽取文档对应的目标信息。
可选地,所述装置还包括反馈模块,用于:
控制所述用户训练端将所述目标模型以及所述目标任务类型反馈至所述服务商训练端;
相应地,所述装置还包括初始化模块,用于
所述服务商训练端记录多个所述用户训练端的目标模型的参数以及所述目标任务类型;
所述服务商训练端响应于新的模型训练请求,根据所述新的模型训练请求对应的任务类型,在多个所述用户训练端的目标模型的参数中选择模板参数,根据所述模板参数建立与所述新的模型训练请求对应的初始的学生模型。
可选地,所述反馈模块用于:
控制所述用户服务端将所述目标抽取任务对应的任务执行结果反馈至所述服务商训练端;
相应地,所述初始化模块用于:
控制所述服务商训练端确定与所述任务类型匹配的目标模型为备选模型,并根据所述任务执行结果在所述备选模型中选择至少一个模板模型,将所述模板模型的参数作为所述模板参数。
可选地,所述第一训练文档为与所述目标任务类型相匹配的脱敏文档;和/或,
所述装置还包括训练模块,用于:
将与所述目标任务类型相匹配的脱敏文档输入所述学生模型,并根据所述学生模型的输出以及所述脱敏文档对应的标签调整所述学生模型的参数。
可选地,所述第二训练文档的数量小于所述第一训练文档的数量,其中,所述第二训练文档是无标注的文档。
可选地,所述装置还包括预处理模块,用于:
所述用户训练端对所述第二训练文档进行预处理操作,其中,所述预处理操作包括以下至少之一:重复数据清洗、空值数据清洗、数据格式转换。
根据本申请又一个方面,提供了一种介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现上述文档抽取方法。
根据本申请再一个方面,提供了一种设备,包括存储介质和处理器,所述存储介质存储有计算机程序所述处理器执行所述计算机程序时实现上述文档抽取方法。
借由上述技术方案,本申请利用知识蒸馏将大规模的老师模型的能力传递给小规模的学生模型,知识蒸馏过程可基于大规模的模型的零样本学习(Zero-Shot Learning)能力,因此用户无需针对每个第二文档进行标注,降低了人工标注的工作量;进一步地,由于在用户服务端部署的是小规模的目标模型,而非大规模的神经网络模型,因此降低了针对用户的硬件需求;此外,由于与目标任务类型相匹配的文档均在用户训练端投入训练,因此敏感数据只用于用户端本地而无需上传至服务商端,提高了用户金融数据的隐私性以及安全性。综上,本申请兼顾了现有方法无法同时兼顾的人工标注的工作量、硬件需求以及金融数据隐私性的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文档抽取方法的流程示意图;
图2示出了本申请实施例提供的另一种文档抽取方法的技术方案示意图;
图3示出了本申请实施例提供的另一种文档抽取方法的流程示意图;
图4示出了本申请实施例提供的一种文档抽取装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种文档抽取方法,如图1所示,该方法包括:
步骤101,服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将第一训练文档输入初始的学生模型得到第二输出,比较第一输出以及第二输出,得到第一比较结果,根据第一比较结果调整学生模型的参数,并将老师模型以及学生模型发送至用户训练端,其中,老师模型的参数数量大于学生模型的参数数量;
步骤102,用户训练端将第二训练文档输入老师模型得到第三输出,将第二训练文档输入学生模型得到第四输出,比较第三输出以及第四输出,得到第二比较结果,根据第二比较结果调整学生模型得到目标模型,并将目标模型发送至用户服务端,其中,第二训练文档为与目标任务类型相匹配的文档;
步骤103,用户服务端部署目标模型,并利用目标模型执行与目标任务类型对应的目标抽取任务。
本申请实施例提供的文档抽取方法,结合大规模神经网络以及知识蒸馏技术,利用训练好的模型从金融领域的文本中提取需要的信息。本方法分为三个阶段:预训练通用蒸馏、任务强相关蒸馏、模型部署阶段,其中,每个阶段在不同的终端执行,在计算能力较强的服务商训练端完成通用能力传递,在与目标任务类型关联性较强的用户训练端完成具体任务相关的能力传递,在隐私性较强的用户服务端,利用具有通用能力以及任务相关能力的目标模型进行文档提取。
其中,预训练通用蒸馏以及任务强相关蒸馏分别利用知识蒸馏技术进行模型能力的传递。可以理解的是,知识蒸馏是一种将推理能力在两个模型之前传递的技术,原本具备推理能力的模型称为老师模型,被传递推理能力的模型称为学生模型,传递推理能力的过程称为蒸馏。一般老师模型的参数规模较大,学生模型的参数规模较小,合理设计的蒸馏流程可以让学生模型参数不断改变,进而在一定的数据上模仿老师模型,进而获得老师模型某方面的推理能力。
具体地,首先在服务商训练端进行第一次知识蒸馏操作,也即预训练通用蒸馏阶段。在该阶段中,服务商训练端提供大规模的神经网络模型作为老师模型,同时还提供一个小规模的模型作为学生模型,服务商训练端将第一训练文档输入老师模型以及学生模型,学生模型包括文档提取单元以及自我监督单元,文档提取单元从第一训练文档中提取数据并输出,自我监督单元比较学生模型的输出以及老师模型的输出,进而根据比较结果调整学生模型的参数,使得学生模型得到老师模型的部分通用能力。其中,可设置loss函数,loss函数值受学生模型的输出影响,同时也受两个模型的比较结果影响,基于loss函数值调整学生模型的参数,使得loss函数值最小。其中,第一训练文档可以是通用文档,老师模型是由服务商训练端在积累的大规模语料的基础上训练得到的,学生模型通过知识蒸馏学到了老师模型的部分能力,此时的学生模型是一个参数相对较少的,具有通用能力的模型。由于老师模型的参数量多于学生模型,因此该阶段实现了模型的压缩。
在预训练通用蒸馏阶段之后,服务商训练端将老师模型以及学生模型都发送至用户训练端,在用户训练端进行第二次知识蒸馏操作,也即任务强相关蒸馏。在该阶段中,利用第二文档进行第二次知识蒸馏,其中,第二文档是与目标任务类型相匹配的文档。具体地,用户训练端将第二训练文档输入老师模型以及学生模型中,并比较二者的输出,进而根据输出调整学生模型的参数得到目标模型,由于第二文档与目标任务类型强相关,因此目标模型得到与目标任务类型相匹配的能力。此外,在该阶段中,任务强相关蒸馏相关程序也会由服务提供商进行部署。考虑到任务强相关蒸馏过程对显卡硬件有所要求但是过程较快,缺乏设备的用户可以通过租用云服务器等方式短暂获取所需硬件。由于该阶段针对目标任务类型相关的第二文档进行训练,因此该阶段提高了模型在执行相应类型任务时的精度。
在任务强相关蒸馏阶段之后,用户训练端将目标模型发送至用户服务端。服务提供商将推理程序部署到用户服务端,然后用户服务端将目标模型载入,即获得本地化部署的智能文档服务,此时用户服务端即可提供与目标任务类型对应的文本抽取服务。
该实施例利用知识蒸馏将大规模的老师模型的能力传递给小规模的学生模型,知识蒸馏过程可基于大规模的模型的零样本学习(Zero-Shot Learning)能力,因此用户无需针对每个第二文档进行标注,降低了人工标注的工作量;进一步地,由于在用户服务端部署的是小规模的目标模型,而非大规模的神经网络模型,因此降低了针对用户的硬件需求;此外,由于与目标任务类型相匹配的文档均在用户训练端投入训练,因此敏感数据只用于用户端本地而无需上传至服务商端,提高了用户金融数据的隐私性以及安全性。综上,该实施例兼顾了现有方法无法同时兼顾的人工标注的工作量、硬件需求以及金融数据隐私性的问题。
图2示出了本申请一个实施例的文档抽取方法的技术方案示意图,如图所示,在服务商训练端(也即服务端)进行预训练通用蒸馏阶段,利用大规模通用语料(也即第一训练文档),将大模型(也即老师模型)的通用能力传递给初始化小模型(也即学生模型)。在用户训练端进行任务强相关蒸馏阶段,利用于目标任务类型相匹配的小规模的用户训练语料(也即第二训练文档),将大规模模型的与目标任务类型相匹配的任务相关能力传递给初始化小模型,得到定制化小模型(也即目标模型)。最后在用户服务端(也即用户部署端)进行模型部署阶段,部署推理程序并载入定制化小模型,以利用推理程序调用定制化小模型,通过定制化小模型执行相应的文本抽取任务。
进一步地,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种文档抽取方法,如图3所示,该方法包括如下步骤:
步骤201,服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将第一训练文档输入初始的学生模型得到第二输出,比较第一输出以及第二输出,得到第一比较结果,根据第一比较结果调整学生模型的参数,其中,老师模型的参数数量大于学生模型的参数数量。
在该实施例中,可选地,第一训练文档为与目标任务类型相匹配的脱敏文档。在利用大规模的语料库进行训练时,可同时将目标任务类型相关的脱敏数据添加至大规模语料库中,一同作为第一训练文档参与训练以调整学生模型的参数,在实现模型压缩的基础上进一步提高模型精度。
步骤202,服务商训练端将与目标任务类型相匹配的脱敏文档输入学生模型,并根据学生模型的输出以及脱敏文档对应的标签调整学生模型的参数。
在步骤202中,除可将业务相关的脱敏数据也作为第一训练文档一同参与训练外,还可在预训练通用蒸馏阶段以及任务强相关蒸馏阶段之间,再添加一个知识蒸馏步骤。也即,在预训练通用蒸馏阶段之后,首先在服务商训练端利用目标任务类型相关的脱敏数据进行一次目标任务类型相关的蒸馏操作,然后再将老师模型以及学生模型一同发送至用户训练端,并在用户训练端执行任务强相关蒸馏。通过这样的方式,在实现模型压缩的基础上进一步提高模型精度
步骤203,服务商训练端将老师模型以及学生模型发送至用户训练端。
步骤204,用户训练端对第二训练文档进行预处理操作,其中,预处理操作包括以下至少之一:重复数据清洗、空值数据清洗、数据格式转换。
在步骤203中,由于用户提供的第二训练文档格式有可能存在问题,因此在执行第二次知识蒸馏操作之前,首先对第二训练文档进行预处理。具体地,预处理可包括重复数据清洗、空值数据清洗、数据格式转换等。例如,若某一份文档中存在大量重复内容,则可剔除该文档中的重复部分;若目标任务是在文档中抽取贷款相关数据,而某一份文档中的贷款相关数据为空值,则可剔除该文档,或人工将空值部分补全;若文档中存在多种不同格式的日期,则可将其统一成为相同的格式。此外,在用户服务端执行目标抽取任务之前,也可先对要执行任务的文档进行预处理操作,然后再输入目标模型,在目标模型中进行抽取,得到需要的信息。
步骤205,用户训练端将第二训练文档输入老师模型得到第三输出,将第二训练文档输入学生模型得到第四输出,比较第三输出以及第四输出,得到第二比较结果,根据第二比较结果调整学生模型得到目标模型,其中,第二训练文档为与目标任务类型相匹配的文档。
可选地,第二训练文档的规模小于第一训练文档的规模,其中,第二训练文档是无标注的文档。具体地,第一训练文档用于服务商训练端,第二训练文档用于用户训练端,由于服务商训练端通常可提供配置更高的硬件设备,且第一阶段的知识蒸馏针对的是通用能力,其范围更广,因此可在服务商训练端输入更大规模的文档,进行第一阶段的通用能力的知识蒸馏;而用户提供的硬件设备通常配置稍低,且第二阶段的知识蒸馏仅针对某一具体的任务类型,因此在用户服务端输入更小规模的文档,进行目标任务相关的知识蒸馏。
步骤206,用户训练端将目标模型发送至用户服务端。
步骤207,用户训练端将目标模型以及目标任务类型反馈至服务商训练端。
步骤208,服务商训练端记录多个用户训练端的目标模型的参数以及目标任务类型。
在步骤207-208中,得到目标模型后,将目标模型对应的目标任务类型以及模型参数反馈至服务商训练端。服务商训练端接收并保存多个不同用户训练端反馈的数据,在后续有新的目标模型定制需求时,在预训练通用蒸馏阶段,服务商训练端可利用与该需求的任务类型相同的模型参数进行新的学生模型的初始化操作。通过这样的操作进行有针对性地学生模型初始化,因而可减少在蒸馏过程中的运算量并提高模型精度。
步骤209,用户服务端部署目标模型,并响应于与目标任务类型对应的文档抽取请求,接收至少一个待抽取文档,并将待抽取文档输入目标模型,得到与待抽取文档对应的目标信息。
在步骤209中,用户服务端在部署目标模型后,即可利用目标模型执行与目标任务类型对应的文档抽取任务。具体地,用户服务端接收用户客户端等其他终端发送的待抽取文档,并将待抽取文档输入目标模型,利用同时具有通用能力以及目标任务相关能力的目标模型从待抽取文档中抽取数据,也即抽取得到目标信息。
步骤210,用户服务端将目标抽取任务对应的任务执行结果反馈至服务商训练端。
步骤211,服务商训练端响应于新的模型训练请求,确定与任务类型匹配的目标模型为备选模型,并根据任务执行结果在备选模型中选择至少一个模板模型,将模板模型的参数作为模板参数。
步骤212,服务商训练端根据模板参数建立与新的模型训练请求对应的初始的学生模型。
在步骤210-212中,除用户训练端将目标模型以及目标任务类型反馈给服务商训练端之外,用户服务端在利用目标模型执行文档抽取任务后,还可将相应的任务执行结果也反馈给服务商训练端。服务商训练端可根据任务执行结果,判断目标模型的优劣。基于此,在在后续有新的目标模型定制需求时,服务商训练端响应于新的模型训练请求,在记录的多个目标模型中,确定一个任务类型相匹配并且任务执行结果也较好的目标模型作为模板模型,进而利用模板模型的参数初始化学生模型。通过这样的操作,初始化的学生模型更擅长处理该类型的任务,进一步减少在蒸馏过程中的运算量并提高模型精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
进一步地,作为上述文档抽取方法的具体实现,本申请实施例提供了一种文档抽取装置,如图4所示,该装置包括:第一蒸馏模块、第二蒸馏模块以及模型部署模块。
第一蒸馏模块,用于控制服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将第一训练文档输入初始的学生模型得到第二输出,比较第一输出以及第二输出,得到第一比较结果,根据第一比较结果调整学生模型的参数,并将老师模型以及学生模型发送至用户训练端,其中,老师模型的参数数量大于学生模型的参数数量;
第二蒸馏模块,用于控制用户训练端将第二训练文档输入老师模型得到第三输出,将第二训练文档输入学生模型得到第四输出,比较第三输出以及第四输出,得到第二比较结果,根据第二比较结果调整学生模型得到目标模型,并将目标模型发送至用户服务端,其中,第二训练文档为与目标任务类型相匹配的文档;
模型部署模块,用于控制用户服务端部署目标模型,并利用目标模型执行与目标任务类型对应的目标抽取任务。
在具体的应用场景中,可选地,模型部署模块用于:
控制用户服务端响应于与目标任务类型对应的文档抽取请求,接收至少一个待抽取文档,并将待抽取文档输入目标模型,得到与待抽取文档对应的目标信息。
在具体的应用场景中,可选地,装置还包括反馈模块,用于:
控制用户训练端将目标模型以及目标任务类型反馈至服务商训练端;
相应地,装置还包括初始化模块,用于
服务商训练端记录多个用户训练端的目标模型的参数以及目标任务类型;
服务商训练端响应于新的模型训练请求,根据新的模型训练请求对应的任务类型,在多个用户训练端的目标模型的参数中选择模板参数,根据模板参数建立与新的模型训练请求对应的初始的学生模型。
在具体的应用场景中,可选地,反馈模块用于:
控制用户服务端将目标抽取任务对应的任务执行结果反馈至服务商训练端;
相应地,初始化模块用于:
控制服务商训练端确定与任务类型匹配的目标模型为备选模型,并根据任务执行结果在备选模型中选择至少一个模板模型,将模板模型的参数作为模板参数。
在具体的应用场景中,可选地,第一训练文档为与目标任务类型相匹配的脱敏文档;和/或,
装置还包括训练模块,用于:
将与目标任务类型相匹配的脱敏文档输入学生模型,并根据学生模型的输出以及脱敏文档对应的标签调整学生模型的参数。
在具体的应用场景中,可选地,第二训练文档的数量小于第一训练文档的数量,其中,第二训练文档是无标注的文档。
在具体的应用场景中,可选地,装置还包括预处理模块,用于:
用户训练端对第二训练文档进行预处理操作,其中,预处理操作包括以下至少之一:重复数据清洗、空值数据清洗、数据格式转换。
需要说明的是,本申请实施例提供的一种文档抽取装置所涉及各功能模块的其他相应描述,可以参考上述方法中的对应描述,在此不再赘述。
基于上述方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述文档抽取方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图3所示的方法,以及图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种设备,具体可以为个人计算机、服务器、网络设备等,该电子设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的文档抽取方法。
可选地,该电子设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种电子设备结构并不构成对该电子设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存电子设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各控件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的单元或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的单元可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的单元可以合并为一个单元,也可以进一步拆分成多个子单元。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文档抽取方法,其特征在于,所述方法包括:
服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将所述第一训练文档输入初始的学生模型得到第二输出,比较所述第一输出以及所述第二输出,得到第一比较结果,根据所述第一比较结果调整所述学生模型的参数,并将所述老师模型以及所述学生模型发送至用户训练端,其中,所述老师模型的参数数量大于所述学生模型的参数数量;
所述用户训练端将第二训练文档输入所述老师模型得到第三输出,将所述第二训练文档输入所述学生模型得到第四输出,比较所述第三输出以及所述第四输出,得到第二比较结果,根据所述第二比较结果调整所述学生模型得到目标模型,并将所述目标模型发送至用户服务端,其中,所述第二训练文档为与目标任务类型相匹配的文档;
所述用户服务端部署所述目标模型,并利用所述目标模型执行与所述目标任务类型对应的目标抽取任务。
2.根据权利要求1所述的方法,其特征在于,所述利用所述目标模型执行与所述目标任务类型对应的目标抽取任务,包括:
响应于与所述目标任务类型对应的文档抽取请求,接收至少一个待抽取文档,并将所述待抽取文档输入所述目标模型,得到与所述待抽取文档对应的目标信息。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述第二比较结果调整所述学生模型得到目标模型后,所述方法还包括:
所述用户训练端将所述目标模型以及所述目标任务类型反馈至所述服务商训练端;
所述服务商训练端记录多个所述用户训练端的目标模型的参数以及所述目标任务类型;
所述服务商训练端响应于新的模型训练请求,根据所述新的模型训练请求对应的任务类型,在多个所述用户训练端的目标模型的参数中选择模板参数,根据所述模板参数建立与所述新的模型训练请求对应的初始的学生模型。
4.根据权利要求3所述的方法,其特征在于,在所述利用所述目标模型执行与所述目标任务类型对应的目标抽取任务之后,所述方法还包括:
所述用户服务端将所述目标抽取任务对应的任务执行结果反馈至所述服务商训练端;
相应地,所述根据所述新的模型训练请求对应的任务类型,在多个所述用户训练端的目标模型的参数中选择模板参数,包括:
所述服务商训练端确定与所述任务类型匹配的目标模型为备选模型,并根据所述任务执行结果在所述备选模型中选择至少一个模板模型,将所述模板模型的参数作为所述模板参数。
5.根据权利要求1所述的方法,其特征在于,所述第一训练文档为与所述目标任务类型相匹配的脱敏文档;和/或,
在所述将所述老师模型以及所述学生模型发送至用户训练端之前,所述方法还包括:
将与所述目标任务类型相匹配的脱敏文档输入所述学生模型,并根据所述学生模型的输出以及所述脱敏文档对应的标签调整所述学生模型的参数。
6.根据权利要求1所述的方法,其特征在于,所述第二训练文档的数量小于所述第一训练文档的数量,其中,所述第二训练文档是无标注的文档。
7.根据权利要求1所述的方法,其特征在于,在所述用户训练端将第二训练文档输入所述老师模型之前,所述方法还包括:
所述用户训练端对所述第二训练文档进行预处理操作,其中,所述预处理操作包括以下至少之一:重复数据清洗、空值数据清洗、数据格式转换。
8.一种文档抽取装置,其特征在于,所述装置包括:
第一蒸馏模块,用于控制服务商训练端将第一训练文档输入预设的老师模型得到第一输出,将所述第一训练文档输入初始的学生模型得到第二输出,比较所述第一输出以及所述第二输出,得到第一比较结果,根据所述第一比较结果调整所述学生模型的参数,并将所述老师模型以及所述学生模型发送至用户训练端,其中,所述老师模型的参数数量大于所述学生模型的参数数量;
第二蒸馏模块,用于控制所述用户训练端将第二训练文档输入所述老师模型得到第三输出,将所述第二训练文档输入所述学生模型得到第四输出,比较所述第三输出以及所述第四输出,得到第二比较结果,根据所述第二比较结果调整所述学生模型得到目标模型,并将所述目标模型发送至用户服务端,其中,所述第二训练文档为与目标任务类型相匹配的文档;
模型部署模块,用于控制所述用户服务端部署所述目标模型,以利用所述目标模型执行与所述目标任务类型对应的目标抽取任务。
9.一种介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法。
CN202310677513.5A 2023-06-09 2023-06-09 文档抽取方法及装置、介质、设备 Pending CN116401359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310677513.5A CN116401359A (zh) 2023-06-09 2023-06-09 文档抽取方法及装置、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310677513.5A CN116401359A (zh) 2023-06-09 2023-06-09 文档抽取方法及装置、介质、设备

Publications (1)

Publication Number Publication Date
CN116401359A true CN116401359A (zh) 2023-07-07

Family

ID=87012809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310677513.5A Pending CN116401359A (zh) 2023-06-09 2023-06-09 文档抽取方法及装置、介质、设备

Country Status (1)

Country Link
CN (1) CN116401359A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383714A (zh) * 2016-09-26 2017-02-08 北京小米移动软件有限公司 终端背景图片的设置方法、装置及终端
CN107682645A (zh) * 2017-09-11 2018-02-09 广东欧珀移动通信有限公司 图像处理方法和装置
CN109598689A (zh) * 2018-12-17 2019-04-09 网易(杭州)网络有限公司 实时图像处理方法及装置、电子设备、存储介质
CN110784662A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 一种视频背景的更换方法、系统、装置和存储介质
CN111491123A (zh) * 2020-04-17 2020-08-04 维沃移动通信有限公司 视频背景处理方法、装置及电子设备
CN112069339A (zh) * 2020-09-04 2020-12-11 北京字节跳动网络技术有限公司 背景图片处理及搜索结果展示方法、装置、设备和介质
CN112069341A (zh) * 2020-09-04 2020-12-11 北京字节跳动网络技术有限公司 背景图片生成及搜索结果展示方法、装置、设备和介质
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN113420123A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 语言模型的训练方法、nlp任务处理方法及装置
CN113486665A (zh) * 2021-07-05 2021-10-08 哈尔滨工业大学(深圳) 隐私保护文本命名实体识别方法、装置、设备及存储介质
CN113742025A (zh) * 2021-09-17 2021-12-03 北京字跳网络技术有限公司 页面生成方法、装置、设备和存储介质
CN115222021A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 无数据知识蒸馏网络训练方法、装置、设备及存储介质
CN115640809A (zh) * 2022-12-26 2023-01-24 湖南师范大学 一种基于正向引导知识蒸馏的文档级关系抽取方法
CN116227623A (zh) * 2023-01-29 2023-06-06 深圳前海环融联易信息科技服务有限公司 联邦学习方法、装置、计算机设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383714A (zh) * 2016-09-26 2017-02-08 北京小米移动软件有限公司 终端背景图片的设置方法、装置及终端
CN107682645A (zh) * 2017-09-11 2018-02-09 广东欧珀移动通信有限公司 图像处理方法和装置
CN109598689A (zh) * 2018-12-17 2019-04-09 网易(杭州)网络有限公司 实时图像处理方法及装置、电子设备、存储介质
CN110784662A (zh) * 2019-09-09 2020-02-11 天脉聚源(杭州)传媒科技有限公司 一种视频背景的更换方法、系统、装置和存储介质
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN111491123A (zh) * 2020-04-17 2020-08-04 维沃移动通信有限公司 视频背景处理方法、装置及电子设备
CN112069341A (zh) * 2020-09-04 2020-12-11 北京字节跳动网络技术有限公司 背景图片生成及搜索结果展示方法、装置、设备和介质
CN112069339A (zh) * 2020-09-04 2020-12-11 北京字节跳动网络技术有限公司 背景图片处理及搜索结果展示方法、装置、设备和介质
CN113420123A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 语言模型的训练方法、nlp任务处理方法及装置
CN113486665A (zh) * 2021-07-05 2021-10-08 哈尔滨工业大学(深圳) 隐私保护文本命名实体识别方法、装置、设备及存储介质
CN113742025A (zh) * 2021-09-17 2021-12-03 北京字跳网络技术有限公司 页面生成方法、装置、设备和存储介质
CN115222021A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 无数据知识蒸馏网络训练方法、装置、设备及存储介质
CN115640809A (zh) * 2022-12-26 2023-01-24 湖南师范大学 一种基于正向引导知识蒸馏的文档级关系抽取方法
CN116227623A (zh) * 2023-01-29 2023-06-06 深圳前海环融联易信息科技服务有限公司 联邦学习方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US20230297581A1 (en) Method and system for ranking search content
US20230081645A1 (en) Detecting forged facial images using frequency domain information and local correlation
US11163978B2 (en) Method and device for face image processing, storage medium, and electronic device
CN111652093B (zh) 文本图像处理方法及装置
JP2002222083A (ja) 事例蓄積装置および方法
US20210295173A1 (en) Method and apparatus for data-free network quantization and compression with adversarial knowledge distillation
CN110750523A (zh) 数据标注方法、系统、计算机设备和存储介质
CN108363999A (zh) 基于人脸识别的操作执行方法和装置
CN109684364A (zh) 基于用户画像的问题处理方法、装置、设备和存储介质
CN113486785A (zh) 基于深度学习的视频换脸方法、装置、设备及存储介质
CN115619448A (zh) 用户流失预测方法、装置、计算机设备及存储介质
CN110046571B (zh) 用于识别年龄的方法和装置
EP4138004A1 (en) Method and apparatus for assisting machine learning model to go online
CN116401359A (zh) 文档抽取方法及装置、介质、设备
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN116704581A (zh) 人脸识别方法、装置、设备及存储介质
CN108596068B (zh) 一种动作识别的方法和装置
CN115185625A (zh) 基于可配置卡片的自推荐式界面更新方法及其相关设备
CN115700845A (zh) 人脸识别模型训练方法、人脸识别方法、装置及相关设备
CN114936637A (zh) 神经网络训练方法及装置
CN114996484A (zh) 数据检索方法和装置、数据处理方法和装置、设备及介质
CN113076169A (zh) 基于卷积神经网络的用户界面测试结果分类方法及装置
CN112489687A (zh) 一种基于序列卷积的语音情感识别方法及装置
CN111797921A (zh) 一种图像数据对比方法及装置
JP7418766B1 (ja) プログラム、コンピュータおよび情報処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230707