CN117610529A - 基于预训练模型的自然语言处理方法以及相关设备 - Google Patents
基于预训练模型的自然语言处理方法以及相关设备 Download PDFInfo
- Publication number
- CN117610529A CN117610529A CN202311356250.4A CN202311356250A CN117610529A CN 117610529 A CN117610529 A CN 117610529A CN 202311356250 A CN202311356250 A CN 202311356250A CN 117610529 A CN117610529 A CN 117610529A
- Authority
- CN
- China
- Prior art keywords
- text
- processing
- training
- task
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003058 natural language processing Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims description 200
- 238000013507 mapping Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 244000309466 calf Species 0.000 description 8
- 208000003443 Unconsciousness Diseases 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000740 bleeding effect Effects 0.000 description 4
- 206010010071 Coma Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能领域以及数字医疗领域,提供了一种基于预训练模型的自然语言处理方法以及相关设备,该方法在微调阶段,基于多个文本处理任务对应的训练样本和提示模板生成输入文本和输出文本,并以预测输出文本为训练目标,基于输入文本对预训练模型进行微调,且在推理阶段,同样基于文本处理任务对应的提示模板对文本数据进行改写,生成文本生成任务的输入文本,利用微调后的预训练模型对输入文本进行推理计算得到输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果即可得到文本数据在第一文本处理任务下的第二处理结果,使得预训练模型在推理阶段能够以一个模型应对多种自然语言处理任务,降低线上部署设备资源的消耗。
Description
技术领域
本申请涉及人工智能技术领域以及数字医疗领域,尤其涉及一种基于预训练模型的自然语言处理方法以及相关设备。
背景技术
自然语言处理是人工智能领域的重要分支,旨在使计算机能够理解和处理人类语言,使其能够执行各种语言相关的任务。例如自然语言处理在医疗领域中涉及有医疗文本分类、医疗文本匹配等任务。
目前,业界通常使用预训练模型完成相关的自然语言处理任务,微调训练(Finetunning)也已经成为利用预训练模型的一种主流方法,然而,微调阶段和预训练阶段使用不同的训练方法更新预训练模型,两者任务形式并不匹配,且微调仅能针对一种下游任务,如文本分类任务和文本匹配任务需要采用不用的微调方法,每种任务都需要对百亿甚至千亿参数规模的预训练模型进行一次拷贝操作,提高了对线上设备的资源要求。
发明内容
本申请实施例的主要目的在于提出一种基于预训练模型的自然语言处理方法、装置、电子设备及计算机可读存储介质,能够以一个预训练模型应对多种自然语言处理任务,降低线上部署设备资源的消耗。
为实现上述目的,本申请实施例的第一方面提出了一种基于预训练模型的自然语言处理方法,所述方法包括:
获取第一文本处理任务的文本数据;
根据所述第一文本处理任务获取预定义的第一提示模板;
根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本;
将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果;
根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果;
其中,所述目标语言模型通过以下步骤微调得到:
获取多个第二文本处理任务的训练样本;
获取每个所述第二文本处理任务对应的第二提示模板;
根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本;
以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型,包括:
将所述第二输入文本输入至预训练好的语言模型,以通过所述第二输入文本在所述语言模型所包括的各层网络中进行前向计算,得到所述第二输入文本在所述文本生成任务下的预测输出向量;
根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,直至满足预设的训练结束条件,得到目标语言模型。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,包括:
对所述第二输出文本进行特征编码处理,得到所述第二输出文本的字符向量;
根据所述预测输出向量和所述字符向量确定训练损失值;
基于所述训练损失值对所述语言模型进行反向传播处理,以更新所述语言模型所包括的各层网络中的模型参数。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述根据所述预测输出向量和所述字符向量确定训练损失值,包括:
根据预定义的损失函数、所述预测输出向量和所述字符向量确定训练损失值;
所述损失函数表示如下:
其中,所述Loss为损失函数,所述n为所述预测输出向量和所述字符向量的元素个数,所述yi为所述字符向量中的第i个元素,所述所述预测输出向量中的第i个元素。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述方法还包括:
获取多个文本处理任务的提示模板;
建立所述文本处理任务和所述提示模板之间的映射关系;
将所述映射关系和所述提示模板存储至预设的提示模板数据库。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述根据所述第一文本处理任务获取预定义的第一提示模板,包括:
从所述提示模板数据库中获取所述映射关系;
根据所述第一文本处理任务和所述映射关系从所述提示模板数据库中获取所述第一文本处理任务对应的第一提示模板;
所述获取每个所述第二文本处理任务对应的第二提示模板,包括:
从所述提示模板数据库中获取所述映射关系;
根据所述第二文本处理任务和所述映射关系从所述提示模板数据库中获取每个所述第二文本处理任务对应的第二提示模板。
根据本申请一些实施例提供的基于预训练模型的自然语言处理方法,所述语言模型基于领域数据集并通过文本生成任务预训练得到,所述获取多个第二文本处理任务的训练样本,包括:
从所述领域数据集中获取多个第二文本处理任务的训练样本。
为实现上述目的,本申请实施例的第二方面提出了一种基于预训练模型的自然语言处理装置,所述装置包括:
文本数据获取模块,用于获取第一文本处理任务的文本数据;
第一提示模板获取模块,用于根据所述第一文本处理任务获取预定义的第一提示模板;
第一输入文本生成模块,用于根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本;
模型推理模块,用于将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果;
结果处理模块,用于根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果。
其中,所述目标语言模型通过模型微调装置微调得到,所述模型微调装置包括:
训练样本获取模块,用于获取多个第二文本处理任务的训练样本;
第二提示模板获取模块,用于获取每个所述第二文本处理任务对应的第二提示模板;
第二输入文本生成模块,用于根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本;
模型训练模块,用于以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个计算机程序,所述一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
本申请提出一种基于预训练模型的自然语言处理方法、装置、电子设备以及计算机可读存储介质,该方法获取第一文本处理任务的文本数据,根据第一文本处理任务获取预定义的第一提示模板,之后根据文本数据和第一提示模板生成文本生成任务的第一输入文本,之后将第一输入文本输入至微调后的目标语言模型,以通过目标语言模型得到第一输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果确定文本数据在第一文本处理任务下的第二处理结果。其中,目标语言模型通过以下步骤微调得到:获取多个第二文本处理任务的训练样本并获取每个第二文本处理任务对应的第二提示模板,根据训练样本和第二提示模板生成文本生成任务的第二输入文本和第二输出文本,并以预测第二输出文本为训练目标,基于第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。本申请实施例在微调阶段,基于多个文本处理任务对应的训练样本和提示模板生成输入文本和输出文本,以预测输出文本为训练目标,基于输入文本对预训练模型进行微调,且在推理阶段,同样基于文本处理任务对应的提示模板对文本数据进行改写,生成文本生成任务的输入文本,利用微调后的预训练模型对输入文本进行推理计算得到输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果即可确定文本数据在第一文本处理任务下的第二处理结果,利用提示模板将各类文本处理任务转换为文本生成任务,并以此对预训练模型进行微调训练,使得预训练模型在推理阶段能够以一个模型应对多种自然语言处理任务,降低线上部署设备资源的消耗,且在微调阶段中,通过领域中的不同自然语言处理任务对预训练模型进行微调训练,提高了预训练模型的微调效果,进一步提高预训练模型的处理能力。
附图说明
图1是本申请实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图;
图2是本申请另一实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图;
图3是图2中步骤S240的子步骤流程示意图;
图4是图3中步骤S320的子步骤流程示意图;
图5是本申请另一实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图;
图6是图1中步骤S120的子步骤流程示意图;
图7是图2中步骤S220的子步骤流程示意图;
图8是本申请实施例提供的一种基于预训练模型的自然语言处理装置的结构示意图;
图9是本申请实施例提供的一种模型微调装置的结构示意图;
图10是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语言识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
自然语言处理是人工智能领域的重要分支,旨在使计算机能够理解和处理人类语言,使其能够执行各种语言相关的任务。例如自然语言处理在医疗领域中涉及有医疗文本分类、医疗文本匹配等任务。
目前,业界通常使用预训练模型完成相关的自然语言处理任务,微调训练(Finetunning)也已经成为利用预训练模型的一种主流方法,然而,微调阶段和预训练阶段使用不同的训练方法更新预训练模型,两者任务形式并不匹配,且微调仅能针对一种下游任务,如文本分类任务和文本匹配任务需要采用不用的微调方法,每种任务都需要对百亿甚至千亿参数规模的预训练模型进行一次拷贝操作,提高了对线上设备的资源要求。
基于此,本申请实施例提供了一种基于预训练模型的自然语言处理方法、装置、电子设备及计算机可读存储介质,能够以一个预训练模型应对多种自然语言处理任务,降低线上部署设备资源的消耗。
首先描述本申请实施例中的基于预训练模型的自然语言处理方法:
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语言处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的基于预训练模型的自然语言处理方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现基于预训练模型的自然语言处理方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
请参见图1,图1示出了本申请实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图,如图1所示,该基于预训练模型的自然语言处理方法包括但不限于步骤S110至步骤S150。
步骤S110,获取第一文本处理任务的文本数据。
步骤S120,根据所述第一文本处理任务获取预定义的第一提示模板。
步骤S130,根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本。
步骤S140,将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果。
步骤S150,根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果。
其中,请参见图2,图2示出了本申请实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图,如图2所示,所述目标语言模型通过步骤S210至步骤S240微调得到:
步骤S210,获取多个第二文本处理任务的训练样本。
步骤S220,获取每个所述第二文本处理任务对应的第二提示模板。
步骤S230,根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本。
步骤S240,以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
本申请实施例所示的基于预训练模型的自然语言处理方法中的步骤S110至步骤S150,以及目标语言模型微调过程中的步骤S210至步骤S240,该方法获取第一文本处理任务的文本数据,根据第一文本处理任务获取预定义的第一提示模板,之后根据文本数据和第一提示模板生成文本生成任务的第一输入文本,之后将第一输入文本输入至微调后的目标语言模型,以通过目标语言模型得到第一输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果确定文本数据在第一文本处理任务下的第二处理结果。其中,目标语言模型通过以下步骤微调得到:获取多个第二文本处理任务的训练样本并获取每个第二文本处理任务对应的第二提示模板,根据训练样本和第二提示模板生成文本生成任务的第二输入文本和第二输出文本,并以预测第二输出文本为训练目标,基于第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
本申请实施例在微调阶段,基于多个文本处理任务对应的训练样本和提示模板生成输入文本和输出文本,以预测输出文本为训练目标,基于输入文本对预训练模型进行微调,且在推理阶段,同样基于文本处理任务对应的提示模板对文本数据进行改写,生成文本生成任务的输入文本,利用微调后的预训练模型对输入文本进行推理计算得到输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果即可确定文本数据在第一文本处理任务下的第二处理结果,利用提示模板将各类文本处理任务转换为文本生成任务,并以此对预训练模型进行微调训练,使得预训练模型在推理阶段能够以一个模型应对多种自然语言处理任务,降低线上部署设备资源的消耗,且在微调阶段中,通过领域中的不同自然语言处理任务对预训练模型进行微调训练,提高了预训练模型的微调效果,进一步提高预训练模型的处理能力。
以上是对步骤S110至步骤S150以及步骤S210至步骤S240的总体描述,下面分别对步骤S110至步骤S150进行详细描述,步骤S110至步骤S150是利用微调后的目标语言模型进行自然语言处理的过程。
在步骤S110中,获取第一文本处理任务的文本数据。
应能理解,第一文本处理任务可以是文本匹配任务、文本分类任务等自然语言处理任务,以文本匹配任务为例,原始的文本数据为“意识丧失”、“昏迷”,文本匹配任务将为其标注用于表示是否为同一意思表达的标签;以文本分类任务为例,原始的文本数据为“右腿小腿出血”,“右腿小腿划伤”,文本匹配任务将其归类为“意外事故”或“其他”等类别。
在步骤S120和步骤S130中,根据第一文本处理任务获取预定义的第一提示模板,根据文本数据和所述第一提示模板生成文本生成任务的第一输入文本。
应能理解,第一提示模板用于将第一文本处理任务的文本数据转化为文本生成任务的第一输入文本,以文本匹配任务为例,其原始的文本数据为“意识丧失”、“昏迷”,通过第一提示模板将文本匹配任务的文本数据转换为输入文本:{“意识丧失”与“昏迷”是相同意思表示吗?},根据不同的第一提示模板也可以将文本匹配任务的文本数据转换为输入文本:{“意识丧失”的另一种表述方式是?},又或是输入文本:{“昏迷”的另一种表述方式是?}。
可以理解的是,在根据第一文本处理任务获取预定义的第一提示模板之前,在一些实施例中,参见图5,图5示出了本申请另一实施例提供的一种基于预训练模型的自然语言处理方法的流程示意图,如图5所示,所述方法还包括步骤S510至步骤S530。
步骤S510,获取多个文本处理任务的提示模板。
步骤S520,建立所述文本处理任务和所述提示模板之间的映射关系。
步骤S530,将所述映射关系和所述提示模板存储至预设的提示模板数据库。
在步骤S510至步骤S530中,本申请实施例获取多个文本处理任务的提示模板,并建立各个文本处理任务和提示模板之间的映射关系,最后将建立的映射关系和提示模板存储至预设的提示模板数据库中,在后续的微调或推理过程中,能够直接利用提示模板数据库中存储的提示模板对各个文本处理任务的文本数据或训练样本进行改写,得到用于推理计算的第一输入文本或用于模型微调的第二输入文本和第二输出文本,提高自然语言处理方法的处理效率。
在一些实施例中,参见图6,图6示出了图1中步骤S120的子步骤流程示意图,如图6所示,所述根据所述第一文本处理任务获取预定义的第一提示模板,包括但不限于步骤S610和步骤S620。
步骤S610,从所述提示模板数据库中获取所述映射关系。
步骤S620,根据所述第一文本处理任务和所述映射关系从所述提示模板数据库中获取所述第一文本处理任务对应的第一提示模板。
应能理解,在本申请实施例建立了多个文本处理任务和提示模板之间的映射关系,并将映射关系和提示模板存储至预设的提示模板数据库的情况下,在推理阶段时,当需要获取第一文本处理任务对应的提示模板,则先从提示模板数据库中获取该映射关系,之后根据第一文本处理任务和映射关系从提示模板数据库中获取对应的第一提示模板,能够快速根据第一文本处理任务获取预定义的第一提示模板,提高自然语言处理方法的处理效率。
在步骤S140和步骤S150中,将第一输入文本输入至微调后的目标语言模型,以通过目标语言模型得到所述第一输入文本在文本生成任务下的第一处理结果,之后根据第一处理结果确定文本数据在第一文本处理任务下的第二处理结果。
可以理解的是,将文本数据通过第一提示模板转化为文本生成任务的第一输入文本,通过微调后的目标语言模型对第一输出文本进行推理计算后,得到第一输入文本在文本生成任务下的第一处理结果,例如,以文本匹配任务为例,其原始的文本数据为“意识丧失”、“昏迷”,通过文本匹配任务的第一提示模板将文本匹配任务的文本数据转换为第一输入文本:{“意识丧失”与“昏迷”是相同意思表示吗?},将第一输入文本输入至微调后的目标语言模型,从而通过目标语言模型得到第一输入文本在文本生成任务下的第一处理结果:“是”,从而根据第一处理结果确定文本数据{“意识丧失”、“昏迷”}的第二处理结果,即“意识丧失”和“昏迷”为相同意思表达,其对应相同的标签。
下面分别对步骤S210至步骤S240进行详细描述,步骤S210至步骤S240是对预训练好的语言模型进行微调过程。
在步骤S210中,获取多个第二文本处理任务的训练样本。
应能理解,第二文本处理任务可以是文本匹配任务、文本分类任务等自然语言处理任务,以文本匹配任务为例,训练样本为“意识丧失”、“昏迷”,其对应同一标签,表征两者为同一意思表达;以文本分类任务为例,训练样本为“右腿小腿出血”,“右腿小腿划伤”,其中,训练样本“右腿小腿出血”为“其他”类别,不确定是否属于“意外事故”,而训练样本“右腿小腿划伤”为“意外事故”类别。
在一些实施例中,所述语言模型基于领域数据集并通过文本生成任务预训练得到,所述获取多个第二文本处理任务的训练样本,包括:
从所述领域数据集中获取多个第二文本处理任务的训练样本。
可以理解的是,从用于对语言模型进行预训练的领域数据集中获取第二文本处理任务的训练样本,将各种不同自然语言任务的训练样本集合到一起,在预训练语言模型的基础上继续使用领域数据集进行语言模型的微调,并将多种自然语言任务的文本数据转化为文本生成任务的输入文本,从模型输入和输出的形式统一预训练及下游任务微调,提高预训练模型的微调效果,使得利用该预训练模型的自然语言处理方法能够更加准确地进行自然语言处理。
在步骤S220和步骤S230中,获取每个第二文本处理任务对应的第二提示模板,并根据训练样本和第二提示模板生成文本生成任务的第二输入文本和第二输出文本。
应能理解,第二提示模板用于将第二文本处理任务的训练样本转化为文本生成任务的第二输入文本和第二输出文本,以文本分类为例,其原始的训练样本包括“右腿小腿出血”、“右腿小腿划伤”,通过第二提示目标将文本分类任务的训练样本转换为输入文本:{“右腿小腿出血”是意外事故吗?},其对应的输出文本:{不确定},以及输入文本:{“右腿小腿划伤”是意外事故吗?},其对应的输出文本:{是}。
参见图7,图7示出了图2中步骤S220的子步骤流程示意图,如图7所示,所述获取每个所述第二文本处理任务对应的第二提示模板,包括但不限于步骤S710和步骤S720。
步骤S710,从所述提示模板数据库中获取所述映射关系。
步骤S720,根据所述第二文本处理任务和所述映射关系从所述提示模板数据库中获取每个所述第二文本处理任务对应的第二提示模板。
应能理解,在本申请实施例建立了多个文本处理任务和提示模板之间的映射关系,并将映射关系和提示模板存储至预设的提示模板数据库的情况下,在微调阶段时,当需要获取第二文本处理任务对应的提示模板,则先从提示模板数据库中获取该映射关系,之后根据第一文本处理任务和映射关系从提示模板数据库中获取对应的第一提示模板,能够快速根据第一文本处理任务获取预定义的第一提示模板,提高自然语言处理方法的处理效率。
在步骤S240中,以预测第二输出文本为训练目标,基于第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
可以理解的是,利用预训练好的语言模型对第二输入文本进行推理计算,从而根据推理计算结果和第二输出文本更新语言模型的模型参数,使得语言模型对第二输入文本的预测结果更加接近第二输出文本。
在一些实施例中,参见图3,图3示出了图2中步骤S240的子步骤流程示意图,如图3所示,所述以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型,包括但不限于步骤S310和步骤S320。
步骤S310,将所述第二输入文本输入至预训练好的语言模型,以通过所述第二输入文本在所述语言模型所包括的各层网络中进行前向计算,得到所述第二输入文本在所述文本生成任务下的预测输出向量。
步骤S320,根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,直至满足预设的训练结束条件,得到目标语言模型。
应能理解,在对预训练好的语言模型进行微调的过程中,将第二输入文本输入至预训练好的语言模型,以通过第二输入文本在语言模型所包括的各层网络中进行前向计算,得到第二输入文本在文本生成任务下的预测输出向量,接着根据预测输出向量和第二输入文本对语言模型的模型参数进行更新处理,直至满足预测的训练结束条件,得到目标语言模型。
在一些具体实施例中,本申请实施例获取测试样本集,并基于测试样本集包括的测试样本对微调后的语言模型进行模型性能验证,具体的,将测试样本输入至微调后的语言模型,得到语言模型对测试样本的推理结果,根据推理结果和测试样本的标签值得到语言模型的模型性能参数,如准确率、精确率、召回率,从而根据模型性能参数确定该微调后的语言模型是否满足训练结束条件,例如当微调后的语言模型的准确率大于95%时,确定该语言模型满足训练结束条件,若确定语言模型满足训练结束条件,则将本轮微调后的语言模型作为目标语言模型,若确定语言模型不满足训练结束条件,则继续对语言模型进行微调训练。
在一些实施例中,参见图4,图4示出了图3中步骤S320的子步骤流程示意图,如图4所示,所述根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,包括步骤S410和步骤S430。
步骤S410,对所述第二输出文本进行特征编码处理,得到所述第二输出文本的字符向量。
步骤S420,根据所述预测输出向量和所述字符向量确定训练损失值。
步骤S430,基于所述训练损失值对所述语言模型进行反向传播处理,以更新所述语言模型所包括的各层网络中的模型参数。
应能理解,在对语言模型的模型参数进行更新处理的过程中,一方面,先对第二输出文本进行特征编码处理,得到第二输出文本的字符向量Y={y1,y2,…,yn},另一方面,语言模型对第二输入文本进行推理计算得到预测输出向量根据预测输出向量/>和字符向量Y确定训练损失值,从而基于训练损失值对语言模型进行反向传播处理,更新语言模型所包括的各层网络中的模型参数。
在一些实施例中,所述根据所述预测输出向量和所述字符向量确定训练损失值,包括:
根据预定义的损失函数、所述预测输出向量和所述字符向量确定训练损失值;
所述损失函数表示如下:
其中,所述Loss为损失函数,所述n为所述预测输出向量和所述字符向量的元素个数,所述yi为所述字符向量中的第i个元素,所述所述预测输出向量中的第i个元素。
可以理解的是,通过上述损失函数度量语言模型的预测值和标签值之间的差异,并将该损失函数作为语言模型微调训练过程中的目标函数,以便通过优化最小化损失函数来使语言模型的预测结果更加准确。
本申请实施例提出的基于预训练模型的自然语言处理方法,可以应用于医疗辅助诊断中,涉及有医疗文本分类、医疗文本匹配等自然语言处理任务,在医疗领域中,文本数据为医疗文本,医疗文本可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、医学报告、医学文献等一系列具备保存备查价值的电子化记录,通过自然语言处理,如医疗文本分类,对病历、医学报告进行分类,将其分为不同的类别,如疾病诊断分类、药物处方分类等。其中,该自然语言处理方法在微调阶段,基于多个文本处理任务对应的训练样本和提示模板生成输入文本和输出文本,以预测输出文本为训练目标,基于输入文本对预训练模型进行微调,且在推理阶段,同样基于文本处理任务对应的提示模板对医疗文本进行改写,生成文本生成任务的输入文本,利用微调后的预训练模型对输入文本进行推理计算得到输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果即可确定医疗文本在第一文本处理任务下的第二处理结果,利用提示模板将各类文本处理任务转换为文本生成任务,并以此对预训练模型进行微调训练,使得预训练模型在推理阶段能够以一个模型应对多种自然语言处理任务,降低线上部署设备资源的消耗,且在微调阶段中,通过领域中的不同自然语言处理任务对预训练模型进行微调训练,提高了预训练模型的微调效果,进一步提高预训练模型的处理能力,帮助医疗专业人员对医疗文本进行更快速和准确的分析,为医疗辅助诊断提供有力的支持。
请参见图8,本申请实施例还提供了一种基于预训练模型的自然语言处理装置100,该基于预训练模型的自然语言处理装置100包括:
文本数据获取模块110,用于获取第一文本处理任务的文本数据;
第一提示模板获取模块120,用于根据所述第一文本处理任务获取预定义的第一提示模板;
第一输入文本生成模块130,用于根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本;
模型推理模块140,用于将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果;
结果处理模块150,用于根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果。
其中,请参见图8,本申请实施例还提供了一种模型微调装置200,所述目标语言模型通过模型微调装置200微调得到,所述模型微调装置200包括:
训练样本获取模块210,用于获取多个第二文本处理任务的训练样本;
第二提示模板获取模块220,用于获取每个所述第二文本处理任务对应的第二提示模板;
第二输入文本生成模块230,用于根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本;
模型训练模块240,用于以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
在一些实施例中,所述模型训练模块包括:
前向计算模块,用于将所述第二输入文本输入至预训练好的语言模型,以通过所述第二输入文本在所述语言模型所包括的各层网络中进行前向计算,得到所述第二输入文本在所述文本生成任务下的预测输出向量;
参数更新模块,用于根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,直至满足预设的训练结束条件,得到目标语言模型。
在一些实施例中,所述参数更新模块包括:
特征编码模块,用于对所述第二输出文本进行特征编码处理,得到所述第二输出文本的字符向量;
计算模块,用于根据所述预测输出向量和所述字符向量确定训练损失值;
反向传播模块,用于基于所述训练损失值对所述语言模型进行反向传播处理,以更新所述语言模型所包括的各层网络中的模型参数。
在一些实施例中,所述基于预训练模型的自然语言处理装置包括:
第三提示模板获取模块,用于获取多个文本处理任务的提示模板;
映射建立模块,用于建立所述文本处理任务和所述提示模板之间的映射关系;
数据存储模块,用于将所述映射关系和所述提示模板存储至预设的提示模板数据库。
在一些实施例中,所述第一提示模板获取模块包括:
第一映射关系获取模块,用于从所述提示模板数据库中获取所述映射关系;
第一提示模板获取子模块,用于根据所述第一文本处理任务和所述映射关系从所述提示模板数据库中获取所述第一文本处理任务对应的第一提示模板;
第二提示模板获取模块包括:
第二映射关系获取模块,用于从所述提示模板数据库中获取所述映射关系;
第二提示模板获取子模块,用于根据所述第二文本处理任务和所述映射关系从所述提示模板数据库中获取每个所述第二文本处理任务对应的第二提示模板。
本申请提出一种基于预训练模型的自然语言处理装置,该装置获取第一文本处理任务的文本数据,根据第一文本处理任务获取预定义的第一提示模板,之后根据文本数据和第一提示模板生成文本生成任务的第一输入文本,之后将第一输入文本输入至微调后的目标语言模型,以通过目标语言模型得到第一输入文本在文本生成任务下的第一处理结果,最后根据第一处理结果确定文本数据在第一文本处理任务下的第二处理结果。其中,目标语言模型通过以下步骤微调得到:获取多个第二文本处理任务的训练样本并获取每个第二文本处理任务对应的第二提示模板,根据训练样本和第二提示模板生成文本生成任务的第二输入文本和第二输出文本,并以预测第二输出文本为训练目标,基于第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
需要说明的是,上述装置的模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
请参见图10,图10示出本申请实施例提供的一种电子设备的硬件结构,电子设备包括:
处理器310,可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集合成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集合成电路等方式实现,用于执行相关计算机程序,以实现本申请实施例所提供的技术方案;
存储器320,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行本申请实施例的基于预训练模型的自然语言处理方法;
输入/输出接口330,用于实现信息输入及输出;
通信接口340,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;和总线350,在设备的每个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息;
其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,用于计算机可读存储,存储介质存储有一个或者多个计算机程序,一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述基于预训练模型的自然语言处理方法。
存储器作为一种计算机可读存储介质,可用于存储软件程序以及计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集合成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请每个实施例中的各功能单元可以集合成在一个处理单元中,也可以是每个单元单独物理存在,也可以两个或两个以上单元集合成在一个单元中。上述集合成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集合成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请每个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种基于预训练语言模型的自然语言处理方法,其特征在于,所述方法包括:
获取第一文本处理任务的文本数据;
根据所述第一文本处理任务获取预定义的第一提示模板;
根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本;
将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果;
根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果;
其中,所述目标语言模型通过以下步骤微调得到:
获取多个第二文本处理任务的训练样本;
获取每个所述第二文本处理任务对应的第二提示模板;
根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本;
以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
2.根据权利要求1所述的自然语言处理方法,其特征在于,所述以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型,包括:
将所述第二输入文本输入至预训练好的语言模型,以通过所述第二输入文本在所述语言模型所包括的各层网络中进行前向计算,得到所述第二输入文本在所述文本生成任务下的预测输出向量;
根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,直至满足预设的训练结束条件,得到目标语言模型。
3.根据权利要求2所述的自然语言处理方法,其特征在于,所述根据所述预测输出向量和所述第二输入文本对所述语言模型的模型参数进行更新处理,包括:
对所述第二输出文本进行特征编码处理,得到所述第二输出文本的字符向量;
根据所述预测输出向量和所述字符向量确定训练损失值;
基于所述训练损失值对所述语言模型进行反向传播处理,以更新所述语言模型所包括的各层网络中的模型参数。
4.根据权利要求3所述的自然语言处理方法,其特征在于,所述根据所述预测输出向量和所述字符向量确定训练损失值,包括:
根据预定义的损失函数、所述预测输出向量和所述字符向量确定训练损失值;
所述损失函数表示如下:
其中,所述Loss为损失函数,所述n为所述预测输出向量和所述字符向量的元素个数,所述yi为所述字符向量中的第i个元素,所述所述预测输出向量中的第i个元素。
5.根据权利要求1所述的自然语言处理方法,其特征在于,所述方法还包括:
获取多个文本处理任务的提示模板;
建立所述文本处理任务和所述提示模板之间的映射关系;
将所述映射关系和所述提示模板存储至预设的提示模板数据库。
6.根据权利要求5所述的自然语言处理方法,其特征在于,所述根据所述第一文本处理任务获取预定义的第一提示模板,包括:
从所述提示模板数据库中获取所述映射关系;
根据所述第一文本处理任务和所述映射关系从所述提示模板数据库中获取所述第一文本处理任务对应的第一提示模板;
所述获取每个所述第二文本处理任务对应的第二提示模板,包括:
从所述提示模板数据库中获取所述映射关系;
根据所述第二文本处理任务和所述映射关系从所述提示模板数据库中获取每个所述第二文本处理任务对应的第二提示模板。
7.根据权利要求1所述的自然语言处理方法,其特征在于,所述语言模型基于领域数据集并通过文本生成任务预训练得到;
所述获取多个第二文本处理任务的训练样本,包括:
从所述领域数据集中获取多个第二文本处理任务的训练样本。
8.一种基于预训练模型的自然语言处理装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取第一文本处理任务的文本数据;
第一提示模板获取模块,用于根据所述第一文本处理任务获取预定义的第一提示模板;
第一输入文本生成模块,用于根据所述文本数据和所述第一提示模板生成文本生成任务的第一输入文本;
模型推理模块,用于将所述第一输入文本输入至微调后的目标语言模型,以通过所述目标语言模型得到所述第一输入文本在所述文本生成任务下的第一处理结果;
结果处理模块,用于根据所述第一处理结果得到所述文本数据在所述第一文本处理任务下的第二处理结果;
其中,所述目标语言模型通过模型微调装置微调得到,所述模型微调装置包括:
训练样本获取模块,用于获取多个第二文本处理任务的训练样本;
第二提示模板获取模块,用于获取每个所述第二文本处理任务对应的第二提示模板;
第二输入文本生成模块,用于根据所述训练样本和所述第二提示模板生成文本生成任务的第二输入文本和第二输出文本;
模型训练模块,用于以预测所述第二输出文本为训练目标,基于所述第二输入文本对预训练好的语言模型进行微调处理,得到目标语言模型。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311356250.4A CN117610529A (zh) | 2023-10-19 | 2023-10-19 | 基于预训练模型的自然语言处理方法以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311356250.4A CN117610529A (zh) | 2023-10-19 | 2023-10-19 | 基于预训练模型的自然语言处理方法以及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117610529A true CN117610529A (zh) | 2024-02-27 |
Family
ID=89958531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311356250.4A Pending CN117610529A (zh) | 2023-10-19 | 2023-10-19 | 基于预训练模型的自然语言处理方法以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117610529A (zh) |
-
2023
- 2023-10-19 CN CN202311356250.4A patent/CN117610529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705206A (zh) | 一种文本信息的处理方法及相关装置 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN114519395B (zh) | 模型的训练方法和装置、文本摘要生成方法和装置、设备 | |
CN113569554B (zh) | 一种数据库中实体对匹配方法、装置、电子设备及存储介质 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN115640394A (zh) | 文本分类方法、文本分类装置、计算机设备及存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN116741396A (zh) | 文章归类方法和装置、电子设备和存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116597866A (zh) | 情绪识别的方法、装置、设备及存储介质 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN115828153A (zh) | 基于人工智能的任务预测方法、装置、设备和介质 | |
CN115132324A (zh) | 心理健康预测方法和装置、电子设备、存储介质 | |
CN117610529A (zh) | 基于预训练模型的自然语言处理方法以及相关设备 | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
CN114625658A (zh) | App稳定性测试方法、装置、设备和计算机可读存储介质 | |
CN116664958B (zh) | 基于二值神经网络模型的图像分类方法以及相关设备 | |
CN115036022A (zh) | 健康风险评估方法和评估系统、计算机设备、存储介质 | |
CN117633668A (zh) | 多分类识别方法、装置、设备以及介质 | |
CN117034939A (zh) | 融合字典知识的命名实体识别方法以及相关设备 | |
CN116700691A (zh) | 前端组件的代码生成方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |