CN117408327A - 一种适配任务的语言处理方法及装置、存储介质、计算机设备 - Google Patents
一种适配任务的语言处理方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN117408327A CN117408327A CN202311466830.9A CN202311466830A CN117408327A CN 117408327 A CN117408327 A CN 117408327A CN 202311466830 A CN202311466830 A CN 202311466830A CN 117408327 A CN117408327 A CN 117408327A
- Authority
- CN
- China
- Prior art keywords
- parameter
- language processing
- learnable
- task
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 230000006978 adaptation Effects 0.000 title claims description 11
- 238000012545 processing Methods 0.000 claims abstract description 182
- 239000011159 matrix material Substances 0.000 claims abstract description 133
- 230000009466 transformation Effects 0.000 claims abstract description 113
- 230000006870 function Effects 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims description 42
- 239000012633 leachable Substances 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000009966 trimming Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 12
- 238000012549 training Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种适配任务的语言处理方法及装置、存储介质、计算机设备,属于自然语言处理技术领域,主要在于解决现有技术对预训练语言模型进行参数调整后得到的语言模型在处理下游任务时效果不佳的问题,包括:获取预训练的语言处理主模型,并获取语言处理主模型中各个线性变换层的参数矩阵和偏差项;获取与下游任务相对应的目标任务学习数据集,并在目标任务学习数据集上通过监督学习确定与各个参数矩阵或偏差项相对应的参数微调函数;采用参数微调函数对语言处理主模型的各个线性变换层进行参数微调处理,得到与下游任务相对应的语言处理子模型;并基于语言处理子模型实现了对下游任务的语言处理。
Description
技术领域
本发明涉及自然语言处理技术领域,适应于数字医疗技术领域,特别是涉及一种适配任务的语言处理方法及装置、存储介质、计算机设备。
背景技术
预训练语言模型是经过大规模通用语料库经过自监督预训练得到的神经网络模型,在自监督预训练过程中,语料库中的通用领域知识已经被嵌入到了语言模型的参数中。随着数字医疗的不断发展,越来越多的任务需要语言模型进行处理,比如病例解析中的实体识别,语义依存分析等,还有健康管理中的食材分类,基于历史对话进行锻炼/食谱推荐等。为了将预训练语言模型中的知识更好地适配到下游任务中,通常需要对预训练语言模型的参数进行调整。
目前,采用参数高效微调的方法对预训练语言模型进行参数调整,比如adapter,LoRA,p-tuning等方法。但是,由于现有的参数微调方法只是对模型的特定部分做了修饰或微调,而没有深入到语言处理模型的细粒度结构中,从而导致采用现有的参数高效微调方法无法在各种下游任务上获得较好的语言处理或分析效果。
发明内容
有鉴于此,本发明提供一种适配任务的语言处理方法及装置、存储介质、计算机设备,主要目的在于解决现有技术对预训练语言模型进行参数调整时仅对特定部分进行微调,从而导致微调后的模型在处理下游任务时效果不佳的问题。
依据本发明一个方面,提供了一种适配任务的语言处理方法,包括:
获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
进一步的,所述获取与下游任务相对应的目标任务学习数据集之前,所述方法还包括:
将与各个下游任务相关的学习语料进行统一存储,形成与各个所述下游任务相对应的任务学习数据集;
在所述下游任务和所述任务学习数据集之间建立关联关系,以使得基于所述关联关系确定所述目标任务学习数据集。
进一步的,所述在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数之前,所述方法还包括:
采用参数矩阵微调项对各个所述线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵;和,
采用偏差微调项对各个所述线性变换层的所述偏差项进行微调处理,得到微调后偏差项。
进一步的,所述参数矩阵微调项由可学习矩阵参数和可学习矩阵系数所确定;所述偏差微调项由可学习偏差项和可学习偏差系数所确定。
进一步的,所述在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数包括:
在所述目标任务学习数据集上,基于各个所述线性变换层的所述微调后参数矩阵和所述微调后偏差项进行监督学习;
在所述监督学习过程中对所述可学习矩阵系数和所述可学习偏差系数进行更新操作;
在所述监督学习结束时得到与各个所述线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数;
基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数。
进一步的,所述基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数包括:
比较与当前线性变换层相对应的所述目标可学习矩阵系数和所述目标可学习偏差系数之间的大小;
若所述目标可学习矩阵系数大于所述目标可学习偏差系数,则采用可学习矩阵参数对所述当前线性变换层的参数矩阵进行微调处理,得到与所述当前线性变换层中所述参数矩阵相对应的所述参数微调函数;
若所述目标可学习矩阵系数小于所述目标可学习偏差系数,则采用可学习偏差项对所述当前线性变换层的偏差项进行微调处理,得到与所述当前线性变换层中所述偏差项相对应的所述参数微调函数。
进一步的,所述基于所述语言处理子模型对所述下游任务进行语言处理之后,所述方法还包括:
获取与所述下游任务相对应的语言处理结果,若所述语言处理结果不达标,则调整可学习矩阵参数或可学习偏差项,以使得对所述参数微调函数进行更新操作。
依据本发明另一个方面,提供了一种适配任务的语言处理装置,包括:
获取模块,用于获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
确定模块,用于获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
微调及处理模块,用于采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
进一步的,所述装置还包括关联模块,用于:
将与各个下游任务相关的学习语料进行统一存储,形成与各个所述下游任务相对应的任务学习数据集;
在所述下游任务和所述任务学习数据集之间建立关联关系,以使得基于所述关联关系确定所述目标任务学习数据集。
进一步的,所述确定模块包括微调处理单元,用于:
采用参数矩阵微调项对各个所述线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵;和,
采用偏差微调项对各个所述线性变换层的所述偏差项进行微调处理,得到微调后偏差项。
进一步的,所述微调处理单元中,所述参数矩阵微调项由可学习矩阵参数和可学习矩阵系数所确定;所述偏差微调项由可学习偏差项和可学习偏差系数所确定。
进一步的,所述确定模块还包括:
学习单元,用于在所述目标任务学习数据集上,基于各个所述线性变换层的所述微调后参数矩阵和所述微调后偏差项进行监督学习;
更新单元,用于在所述监督学习过程中对所述可学习矩阵系数和所述可学习偏差系数进行更新操作;
目标确定单元,用于在所述监督学习结束时得到与各个所述线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数;
比较及确定单元,用于基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数。
进一步的,所述比较及确定单元还用于:
比较与当前线性变换层相对应的所述目标可学习矩阵系数和所述目标可学习偏差系数之间的大小;
若所述目标可学习矩阵系数大于所述目标可学习偏差系数,则采用可学习矩阵参数对所述当前线性变换层的参数矩阵进行微调处理,得到与所述当前线性变换层中所述参数矩阵相对应的所述参数微调函数;
若所述目标可学习矩阵系数小于所述目标可学习偏差系数,则采用可学习偏差项对所述当前线性变换层的偏差项进行微调处理,得到与所述当前线性变换层中所述偏差项相对应的所述参数微调函数。
进一步的,所述装置还包括函数更新模块,用于:
获取与所述下游任务相对应的语言处理结果,若所述语言处理结果不达标,则调整可学习矩阵参数或可学习偏差项,以使得对所述参数微调函数进行更新操作。
依据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述适配任务的语言处理方法对应的操作。
依据本发明另一个方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上述适配任务的语言处理方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种适配任务的语言处理方法及装置、存储介质、计算机设备,与现有技术相比,本发明通过获取预训练的语言处理主模型,并获取语言处理主模型中各个线性变换层的参数矩阵和偏差项;获取与下游任务相对应的目标任务学习数据集,并在目标任务学习数据集上通过监督学习确定与各个参数矩阵或偏差项相对应的参数微调函数;采用参数微调函数对语言处理主模型的各个线性变换层进行参数微调处理,得到与下游任务相对应的语言处理子模型;并基于语言处理子模型实现了对下游任务的语言处理。本发明通过对预训练的语言处理主模型中各个线性变换层设定不同的参数微调函数,即采用不同的微调方式对各个线性变换层进行微调处理,使得对模型的微调处理深入到语言处理主模型的细粒度结构中,从而使得微调后的语言处理子模型在处理下游任务时能得到更好的处理效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种适配任务的语言处理方法的流程示意图;
图2示出了本发明实施例提供的另一种适配任务的语言处理方法的流程示意图;
图3示出了本发明实施例提供的又一种适配任务的语言处理方法的流程示意图;
图4示出了本发明实施例提供的一种适配任务的语言处理装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种适配任务的语言处理方法,如图1所示,该方法包括:
101、获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
本发明实施例中,当前执行端获取预训练的语言处理主模型,其中,语言处理主模型用于表征Transformer架构的大型语言处理模型,包括但不限于BERT、BART、XLNet、RoBERTa或GPT系列模型等,本发明实施例不做具体限定。
需要说明的是,语言处理主模型中包括多个线性变换层,当前执行端需要获取各个线性变换层的参数矩阵和偏差项,本发明实施例中将获取的各个线性变换层的参数矩阵用Wi来表示,将获取的各个线性变换层的偏差项用bi来表示,其中,i表示第i个线性变换层。
102、获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
本发明实施例中,当前执行端获取与下游任务相对应的目标任务学习数据集,其中,下游任务用于表征数字医疗领域内各个业务场景中需要语言处理模型进行语义分析、实体识别、文本格式化处理等任务,如,病例解析业务中的实体识别,语义依存分析等;还有健康管理业务中的食材分类,基于历史对话进行锻炼/食谱推荐等;保险理赔业务中,对患者的就诊记录进行分析,判断是否骗保等,本发明实施例不做具体限定。其中,任务学习数据集用于表征与下游任务密切相关的学习语料数据集,可用于对处理下游任务的语言处理模型的训练。当前执行端在获取到目标任务学习数据集后,在目标任务学习数据集上通过监督学习,确定与各个线性变换层中参数矩阵或偏差项相对应的参数微调函数。其中,参数微调函数用于表征对各个线性变换层中的参数矩阵进行微调的函数,或者对各个线性变换层中的偏差项进行微调的函数,参数微调函数的具体公式本发明实施例不做具体限定。
需要说明的是,由于所有的线性变换层中,有的线性变换层微调参数矩阵能得到较好的语言处理效果,有的线性变换层微调偏差项能得到较好的语言处理效果。因此,本发明实施例中当前执行端所确定的每个线性变换层的参数微调函数包括对参数矩阵进行微调和对偏差项进行微调两种情况中的一种,且每个线性变换层可以根据微调后的任务处理效果确定采用上述两种微调方式中的任意一种进行参数微调处理。此外,采用本发明实施例中确定参数微调函数的方法可以使得参与微调的参数数量处于较少的水平。
103、采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
本发明实施例中,当前执行端采用参数微调函数对语言处理主模型的各个线性变换层进行参数微调处理,即采用参数微调函数对各个线性变换层中的参数矩阵进行微调处理,或者采用参数微调函数对各个线性变换层中的偏差项进行微调处理,得到与下游任务相对应的语言处理子模型。其中,语言处理子模型可以直接用于处理数字医疗领域内各个业务场景中需要语言处理模型进行语义分析、实体识别、文本格式化处理等任务,本发明实施例不做具体限定。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了快速得获取到与下游任务相关的学习语料,提供了另一种适配任务的语言处理方法,如图2所示,步骤获取与下游任务相对应的目标任务学习数据集之前,所述方法还包括:
201、将与各个下游任务相关的学习语料进行统一存储,形成与各个所述下游任务相对应的任务学习数据集;
本发明实施例中,当前执行端将与各个下游任务相关的学习语料进行统一存储,形成与各个下游任务相关的任务学习数据集,如,将医学实体相关的语料进行统一存储,形成医学实体数据集,用于医学实体识别相关的下游任务;将健康管理中的历史对话进行统一存储,形成健康管理数据集,用于锻炼推荐或食谱推荐相关的下游任务等,本发明实施例不做具体限定。
202、在所述下游任务和所述任务学习数据集之间建立关联关系,以使得基于所述关联关系确定所述目标任务学习数据集。
本发明实施例中,当前执行端在下游任务和与之相关的任务学习数据集之间建立关联关系,如在医学实体识别相关的下游任务和医学实体数据集之间建立关联关系,在锻炼推荐或食谱推荐相关的下游任务和健康管理数据集之间建立关联关系等,本发明实施例不做具体限定。当前执行端可以基于建立的关联关系确定目标任务学习数据集,如当下游任务为医学实体识别,则通过查询关联关系,将医学实体数据集确定为目标任务学习数据集等,本发明实施例不做具体限定。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了从对参数矩阵进行微调和对偏差项进行微调两种情况中进行自动决策,以选定效果较佳的微调策略,提供了另一种适配任务的语言处理方法,步骤在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数之前,所述方法还包括:
采用参数矩阵微调项对各个所述线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵;和,
本发明实施例中,当前执行端采用参数矩阵微调项对各个线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵。其中,参数矩阵微调项由可学习矩阵参数和可学习矩阵系数所确定。本发明实施例中,利用微调后参数矩阵对下游任务处理过程中的语料的隐状态表征的公式如下:
Hi’=(Wi+aw×Wi *)×Hi+bi
其中,Hi’为第i个线性变换层输出的语料隐状态表征;Hi为第i个线性变换层输入的语料隐状态表征;Wi为第i个线性变换层的参数矩阵;Wi *为第i个线性变换层的可学习矩阵参数;aw为可学习矩阵系数;bi为第i个线性变换层的偏差项。
采用偏差微调项对各个所述线性变换层的所述偏差项进行微调处理,得到微调后偏差项。
本发明实施例中,当前执行端采用偏差微调项对各个线性变换层的偏差项进行微调处理,得到微调后偏差项。其中,偏差微调项由可学习偏差项和可学习偏差系数所确定。本发明实施例中,利用微调后参数矩阵以及微调后偏差项对下游任务处理过程中的语料的隐状态表征的公式如下:
Hi’=(Wi+aw×Wi *)×Hi+bi+ab×bi *
其中,ab为可学习偏差系数;bi *为第i个线性变换层的可学习偏差项。
需要说明的是,上述可学习矩阵系数aw和可学习偏差系数ab的取值范围属于0到1之间,本发明实施例中可以将两个系数的初始值设为0.5。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了从对参数矩阵进行微调和对偏差项进行微调两种情况中进行自动决策,以选定效果较佳的微调策略,提供了另一种适配任务的语言处理方法,如图3所示,步骤在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数包括:
301、在所述目标任务学习数据集上,基于各个所述线性变换层的所述微调后参数矩阵和所述微调后偏差项进行监督学习;
本发明实施例中,当前执行端在目标任务学习数据集上,基于各个线性变换层的微调后参数矩阵和微调后偏差项进行监督学习,即在监督学习过程中将微调后参数矩阵以及微调后偏差项对下游任务处理过程中的语料的隐状态表征的公式如下:
Hi’=(Wi+aw×Wi *)×Hi+bi+ab×bi *
302、在所述监督学习过程中对所述可学习矩阵系数和所述可学习偏差系数进行更新操作;
本发明实施例中,当前执行端在监督学习过程中对可学习矩阵系数aw和可学习偏差系数ab进行更新操作。需要说明的是,除了上述可学习矩阵系数aw和可学习偏差系数ab以外,模型的参数在监督学习的过程中也进行了更新。
303、在所述监督学习结束时得到与各个所述线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数;
本发明实施例中,当前执行端在监督学习结束时,将与更新后各个线性变换层相对应最新的可学习矩阵系数aw和可学习偏差系数ab确定为目标可学习矩阵系数和目标可学习偏差系数。
304、基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数。
本发明实施例中,当前执行端比较与当前线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数之间的大小;如果目标可学习矩阵系数大于目标可学习偏差系数,则采用可学习矩阵参数对当前线性变换层的参数矩阵进行微调处理,得到与当前线性变换层中参数矩阵相对应的参数微调函数,可以表示为Wi+Wi *,本发明实施例不做具体限定。如果目标可学习矩阵系数小于目标可学习偏差系数,则采用可学习偏差项对当前线性变换层的偏差项进行微调处理,得到与当前线性变换层中偏差项相对应的参数微调函数,可以表示为bi+bi *,本发明实施例不做具体限定。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了进一步提高微调后得到的语言处理子模型的任务处理效果,提供了另一种适配任务的语言处理方法,步骤基于所述语言处理子模型对所述下游任务进行语言处理之后,所述方法还包括:
获取与所述下游任务相对应的语言处理结果,若所述语言处理结果不达标,则调整可学习矩阵参数或可学习偏差项,以使得对所述参数微调函数进行更新操作。
本发明实施例中,当前执行端获取与下游任务相对应的语言处理结果,如,医学实体识别的结果,食谱推荐的结果,医疗文书格式化处理结果等,本发明实施例不做具体限定。当前执行端对语言处理结果是否达标进行判断,如果结果不达标,则对可学习矩阵参数或可学习偏差项进行进一步的调整工作,以使得对相应的参数微调函数进行更新,再利用更新后的参数微调函数进行语言处理子模型的更新,使得更新后的语言处理子模型能更好得处理相对应的下游任务。
本发明实施例提供了一种适配任务的语言处理方法,与现有技术相比,本发明通过获取预训练的语言处理主模型,并获取语言处理主模型中各个线性变换层的参数矩阵和偏差项;获取与下游任务相对应的目标任务学习数据集,并在目标任务学习数据集上通过监督学习确定与各个参数矩阵或偏差项相对应的参数微调函数;采用参数微调函数对语言处理主模型的各个线性变换层进行参数微调处理,得到与下游任务相对应的语言处理子模型;并基于语言处理子模型实现了对下游任务的语言处理。本发明通过对预训练的语言处理主模型中各个线性变换层设定不同的参数微调函数,即采用不同的微调方式对各个线性变换层进行微调处理,使得对模型的微调处理深入到语言处理主模型的细粒度结构中,从而使得微调后的语言处理子模型在处理下游任务时能得到更好的处理效果。
作为对上述图1所示方法的实现,本发明实施例提供了一种适配任务的语言处理装置,如图4所示,该装置包括:
获取模块41,用于获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
确定模块42,用于获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
微调及处理模块43,用于采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
进一步的,所述装置还包括关联模块,用于:
将与各个下游任务相关的学习语料进行统一存储,形成与各个所述下游任务相对应的任务学习数据集;
在所述下游任务和所述任务学习数据集之间建立关联关系,以使得基于所述关联关系确定所述目标任务学习数据集。
进一步的,所述确定模块42包括微调处理单元,用于:
采用参数矩阵微调项对各个所述线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵;和,
采用偏差微调项对各个所述线性变换层的所述偏差项进行微调处理,得到微调后偏差项。
进一步的,所述微调处理单元中,所述参数矩阵微调项由可学习矩阵参数和可学习矩阵系数所确定;所述偏差微调项由可学习偏差项和可学习偏差系数所确定。
进一步的,所述确定模块42还包括:
学习单元,用于在所述目标任务学习数据集上,基于各个所述线性变换层的所述微调后参数矩阵和所述微调后偏差项进行监督学习;
更新单元,用于在所述监督学习过程中对所述可学习矩阵系数和所述可学习偏差系数进行更新操作;
目标确定单元,用于在所述监督学习结束时得到与各个所述线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数;
比较及确定单元,用于基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数。
进一步的,所述比较及确定单元还用于:
比较与当前线性变换层相对应的所述目标可学习矩阵系数和所述目标可学习偏差系数之间的大小;
若所述目标可学习矩阵系数大于所述目标可学习偏差系数,则采用可学习矩阵参数对所述当前线性变换层的参数矩阵进行微调处理,得到与所述当前线性变换层中所述参数矩阵相对应的所述参数微调函数;
若所述目标可学习矩阵系数小于所述目标可学习偏差系数,则采用可学习偏差项对所述当前线性变换层的偏差项进行微调处理,得到与所述当前线性变换层中所述偏差项相对应的所述参数微调函数。
进一步的,所述装置还包括函数更新模块,用于:
获取与所述下游任务相对应的语言处理结果,若所述语言处理结果不达标,则调整可学习矩阵参数或可学习偏差项,以使得对所述参数微调函数进行更新操作。
本发明实施例提供了一种适配任务的语言处理装置,与现有技术相比,本发明通过获取预训练的语言处理主模型,并获取语言处理主模型中各个线性变换层的参数矩阵和偏差项;获取与下游任务相对应的目标任务学习数据集,并在目标任务学习数据集上通过监督学习确定与各个参数矩阵或偏差项相对应的参数微调函数;采用参数微调函数对语言处理主模型的各个线性变换层进行参数微调处理,得到与下游任务相对应的语言处理子模型;并基于语言处理子模型实现了对下游任务的语言处理。本发明通过对预训练的语言处理主模型中各个线性变换层设定不同的参数微调函数,即采用不同的微调方式对各个线性变换层进行微调处理,使得对模型的微调处理深入到语言处理主模型的细粒度结构中,从而使得微调后的语言处理子模型在处理下游任务时能得到更好的处理效果。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的适配任务的语言处理方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述适配任务的语言处理方法的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种适配任务的语言处理方法,其特征在于,包括:
获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
2.根据权利要求1所述的方法,其特征在于,所述获取与下游任务相对应的目标任务学习数据集之前,所述方法还包括:
将与各个下游任务相关的学习语料进行统一存储,形成与各个所述下游任务相对应的任务学习数据集;
在所述下游任务和所述任务学习数据集之间建立关联关系,以使得基于所述关联关系确定所述目标任务学习数据集。
3.根据权利要求1所述的方法,其特征在于,所述在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数之前,所述方法还包括:
采用参数矩阵微调项对各个所述线性变换层的所述参数矩阵进行微调处理,得到微调后参数矩阵;和,
采用偏差微调项对各个所述线性变换层的所述偏差项进行微调处理,得到微调后偏差项。
4.根据权利要求3所述的方法,其特征在于,
所述参数矩阵微调项由可学习矩阵参数和可学习矩阵系数所确定;
所述偏差微调项由可学习偏差项和可学习偏差系数所确定。
5.根据权利要求4所述的方法,其特征在于,所述在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵和所述偏差项相对应的参数微调函数包括:
在所述目标任务学习数据集上,基于各个所述线性变换层的所述微调后参数矩阵和所述微调后偏差项进行监督学习;
在所述监督学习过程中对所述可学习矩阵系数和所述可学习偏差系数进行更新操作;
在所述监督学习结束时得到与各个所述线性变换层相对应的目标可学习矩阵系数和目标可学习偏差系数;
基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标可学习矩阵系数和所述目标可学习偏差系数的比较结果,确定与各个所述线性变换层相对应的所述参数微调函数包括:
比较与当前线性变换层相对应的所述目标可学习矩阵系数和所述目标可学习偏差系数之间的大小;
若所述目标可学习矩阵系数大于所述目标可学习偏差系数,则采用可学习矩阵参数对所述当前线性变换层的参数矩阵进行微调处理,得到与所述当前线性变换层中所述参数矩阵相对应的所述参数微调函数;
若所述目标可学习矩阵系数小于所述目标可学习偏差系数,则采用可学习偏差项对所述当前线性变换层的偏差项进行微调处理,得到与所述当前线性变换层中所述偏差项相对应的所述参数微调函数。
7.根据权利要求1~6中任一项所述的方法,其特征在于,所述基于所述语言处理子模型对所述下游任务进行语言处理之后,所述方法还包括:
获取与所述下游任务相对应的语言处理结果,若所述语言处理结果不达标,则调整可学习矩阵参数或可学习偏差项,以使得对所述参数微调函数进行更新操作。
8.一种适配任务的语言处理装置,其特征在于,包括:
获取模块,用于获取预训练的语言处理主模型,所述语言处理主模型包括多个线性变换层;并获取各个所述线性变换层的参数矩阵和偏差项;
确定模块,用于获取与下游任务相对应的目标任务学习数据集,并在所述目标任务学习数据集上通过监督学习确定与各个所述参数矩阵或所述偏差项相对应的参数微调函数;
微调及处理模块,用于采用所述参数微调函数对所述语言处理主模型的各个所述线性变换层进行参数微调处理,得到与所述下游任务相对应的语言处理子模型;并基于所述语言处理子模型对所述下游任务进行语言处理。
9.一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令执行如权利要求1~7中任一项所述的适配任务的语言处理方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1~7中任一项所述的适配任务的语言处理方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466830.9A CN117408327A (zh) | 2023-11-06 | 2023-11-06 | 一种适配任务的语言处理方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311466830.9A CN117408327A (zh) | 2023-11-06 | 2023-11-06 | 一种适配任务的语言处理方法及装置、存储介质、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117408327A true CN117408327A (zh) | 2024-01-16 |
Family
ID=89486924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311466830.9A Pending CN117408327A (zh) | 2023-11-06 | 2023-11-06 | 一种适配任务的语言处理方法及装置、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408327A (zh) |
-
2023
- 2023-11-06 CN CN202311466830.9A patent/CN117408327A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11941527B2 (en) | Population based training of neural networks | |
CN112529153B (zh) | 基于卷积神经网络的bert模型的微调方法及装置 | |
CN107330715B (zh) | 选择图片广告素材的方法和装置 | |
CN113689006B (zh) | 一种模型联合训练的方法和系统 | |
JP5624562B2 (ja) | ウェブサイト訪問者の評価値を計算するための方法及びシステム | |
CN110428137B (zh) | 一种风险防控策略的更新方法及装置 | |
CN112686382B (zh) | 一种卷积模型轻量化方法及系统 | |
US20220318412A1 (en) | Privacy-aware pruning in machine learning | |
US20230368028A1 (en) | Automated machine learning pre-trained model selector | |
CN111343006A (zh) | 一种cdn峰值流量预测方法、装置及存储介质 | |
CN112231299B (zh) | 一种特征库动态调整的方法和装置 | |
CN115129831A (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN117408327A (zh) | 一种适配任务的语言处理方法及装置、存储介质、计算机设备 | |
WO2022134946A1 (zh) | 模型训练方法、装置、存储介质及设备 | |
CN116149848A (zh) | 负载预测方法、装置、电子设备及存储介质 | |
CN113870837A (zh) | 语音合成模型的训练方法、装置、设备及可读存储介质 | |
CN114067415A (zh) | 回归模型的训练方法、对象评估方法、装置、设备和介质 | |
CN115550259B (zh) | 基于白名单的流量分配方法及相关设备 | |
CN116629374B (zh) | 一种针对异构特征空间学件的查搜与复用方法 | |
US20220164664A1 (en) | Method for updating an artificial neural network | |
CN112861001B (zh) | 数字内容的推荐值生成方法、装置、电子设备及存储介质 | |
US20240086678A1 (en) | Method and information processing apparatus for performing transfer learning while suppressing occurrence of catastrophic forgetting | |
US20220237116A1 (en) | Method for Obtaining a Computational Result | |
CN117077757A (zh) | 刀具图像分类模型压缩方法、装置、计算机设备及存储介质 | |
CN118278535A (zh) | 预训练模型的微调方法、装置、设备、介质及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |