CN116610781A - 任务模型训练方法以及装置 - Google Patents
任务模型训练方法以及装置 Download PDFInfo
- Publication number
- CN116610781A CN116610781A CN202310457237.1A CN202310457237A CN116610781A CN 116610781 A CN116610781 A CN 116610781A CN 202310457237 A CN202310457237 A CN 202310457237A CN 116610781 A CN116610781 A CN 116610781A
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- target
- task
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 912
- 238000000034 method Methods 0.000 title claims abstract description 92
- 239000000523 sample Substances 0.000 claims description 563
- 238000000605 extraction Methods 0.000 claims description 80
- 239000013598 vector Substances 0.000 claims description 78
- 238000012545 processing Methods 0.000 claims description 32
- 239000013074 reference sample Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 19
- 230000000694 effects Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007620 mathematical function Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供任务模型训练方法以及装置,其中方法包括:获取第一训练数据,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。通过对初始任务模型进行训练,能够学习到较强跨语言理解能力,提高模型训练效率以及任务执行结果准确性。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种任务模型训练方法。
背景技术
随着人工智能技术的发展,预训练模型逐渐能够应用于各个领域。由于多语预训练模型强大的多语言表征能力,其在自然语言处理领域已经取得了长足的发展。特别的是,多语预训练模型有着强大的跨语言理解能力,能够通过对下游任务进行微调,解决各式各样的自然语言理解任务。
然而,目前提升多语预训练模型语言理解能力的方法大多是通过构造大量的多语言数据进行预训练。由于模型能够接收的数据量存在饱和点,引入过多预训练数据不但会浪费训练资源、无法进一步带来跨语言表征能力的提升,还很有可能造成负面影响。因此亟需一种方法进一步提高多语预训练模型对跨语言理解任务的执行效果。
发明内容
有鉴于此,本说明书实施例提供了一种任务模型训练方法。本说明书一个或者多个实施例同时涉及一种任务模型训练装置,一种计算设备,一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种任务模型训练方法,包括:
获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据预训练任务模型和预设下游任务,构建待训练任务模型;
根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
根据本说明书实施例的第二方面,提供了一种抽取式问答任务模型训练方法,包括:
获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据预训练任务模型和抽取式问答任务,构建待训练抽取式问答任务模型;
根据抽取式问答任务对应的第二训练数据,训练待训练抽取式问答任务模型,获得目标抽取式问答任务模型,其中,第二训练数据包括至少一个问题样本和各问题样本对应的答案标签。
根据本说明书实施例的第三方面,提供了一种任务模型的数据处理方法,包括:
接收用户通过前端发送的预设下游任务处理请求,其中,预设下游任务处理请求携带待处理数据;
将待处理数据输入目标任务模型中,获得预设下游任务处理请求对应的任务处理结果,其中,目标任务模型根据预设下游任务对应的第二训练数据,对待训练任务模型训练获得,待训练任务模型根据预训练任务模型和预设下游任务构建,预训练任务模型基于至少两个训练样本对训练初始任务模型获得,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
将任务处理结果发送至前端,以使前端显示任务处理结果。
根据本说明书实施例的第四方面,提供了一种任务模型训练方法,应用于云侧设备,包括:
获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据预训练任务模型和预设下游任务,构建待训练任务模型;
根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型的模型参数,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签;
向端侧设备发送目标任务模型的模型参数。
根据本说明书实施例的第五方面,提供了一种任务模型训练装置,包括:
获取模块,被配置为获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
第一训练模块,被配置为基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;
构建模块,被配置为根据预训练任务模型和预设下游任务,构建待训练任务模型;
第二训练模块,被配置为根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
根据本说明书实施例的第六方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述任务模型训练方法的步骤。
本说明书一个实施例实现了获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
如此,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
附图说明
图1是本说明书一个实施例提供的一种任务模型训练方法的流程图;
图2是本说明书一个实施例提供的一种任务模型的训练过程示意图;
图3是本说明书一个实施例提供的一种任务模型训练方法的处理过程流程图;
图4a是本说明书一个实施例提供的一种任务模型的样本对构建示意图;
图4b是本说明书一个实施例提供的一种任务模型的预训练流程图;
图5是本说明书一个实施例提供的一种抽取式问答任务模型训练方法的流程图;
图6是本说明书一个实施例提供的一种任务模型的数据处理方法的流程图;
图7是本说明书一个实施例提供的一种任务模型训练方法的流程图;
图8是本说明书一个实施例提供的一种任务模型训练装置的结构示意图;
图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
机器阅读理解(MachineReadingComprehension,MRC):是一类自然语言处理的模型范式。其输入包含查询(query)和相关上下文文本(context)两部分,输出是上下文文本中的一些答案的位置,使得该答案段能够满足输入的查询。
自然语言理解(NaturalLanguageUnderstanding,NLU):支持机器理解文本数据的思想,方法和任务的统称。自然语言理解特指基于同语言之间的理解。
预训练语言模型(Pre-trainedLanguageModel,PLM):通过语言模型的预训练方法,在大量低成本获得的数据预训练去学习其中的共性,获得通用知识。预训练语言模型在没有特殊说明的情况下,特指英语的模型。
多语预训练语言模型(MultilingualPre-trainedLanguageModel,mPLM):基于多种语言的预训练语言模型。该模型同时学习多种语言的通用知识。
跨语言理解(Cross-lingualLanguageUnderstanding,XLU):将一种语言中(如英语)的语言相关的知识直接迁移到其他语言(如中文)上的能力。
命名实体识别(NamedEntityRecognition,NER):是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
抽取式问答(ExtractiveQuestionAnswering,EQA):根据给定问题,在相关文本中抽取对应的答案。
基于属性的情感分析(AspectBasedSentimentAnalysis):是一种细粒度的情感分析任务。旨在检测文本中能表达情感的属性词,并判断其具体情感极性。该任务是一种文本段识别任务。
句子对分类(sentence-pair classification):给定两个句子,判断这两个句子之间的关系,包括:蕴含、矛盾和中立。
实体:实体(Entity)是客观存在并可相互区别的事物。
微调:指下游处理网络载入预训练模型参数后在给定数据上进行少量训练。
XLM-R(XLM-RoBERTa):大规模无监督跨语言表示模型,使用海量训练数据在100种语言上对模型进行训练,使得模型具有良好的跨语言性能,当训练数据量达到一个点,之后的单语言和跨语言基准的整体性能会下降。
mT5(A massively multilingual pre-trained text-to-text transformer):大型生成式预训练模型,采用编码器-解码器模式,将训练语料扩大到101种语言,提高模型跨语言理解能力。
由于多语预训练语言模型具有强大的多语言表征能力,因此其在自然语言处理领域已经取得了长足的发展。特别的是,多语预训练语言模型有着强大的跨语言理解能力,即通过在源语言下游任务上进行微调,多语预训练语言模型可以在之前没见过的目标语言上解决各式各样的自然语言理解任务,如命名实体识别,抽取式问答和句子对分类。
为了进一步提高多语预训练语言模型的跨语言理解能力,加强其潜在的可解释性,提高其对于语言情感的理解能力,现有提升多语预训练语言模型的方法大多通过构造大量的多语言数据来隐式的提升多语预训练模型的跨语言表证能力。然而在模型大小固定的情况下,模型会面临一个多语言训练数据较大时反而降低模型性能的情况,即模型能接受的数据量会达到一个饱和点。受模型规模的限制,在多语言预训练模型数据量饱和之后,引入额外的多语言数据做预训练不会带来进一步的跨语言表征的提升,不仅很难再有显著下游任务表现的提升,甚至会对模型产生负面影响。
示例性地,目前常利用跨语言监督信号来提升跨语言表征能力。现有方案在训练多语预训练模型的时候,引入如双语词典以及平行句对的跨语言监督信号来提升两个语言之间的对齐,例如给定“language”--“语言”这一监督信号,模型就能明确的学习到“language”对应的中文便是“语言”。监督信号能提供非常准确的跨语言对齐信息,但由于其需要人工标注对齐关系,因此这种监督信号在使用频率不高的小语种上非常稀缺和昂贵,致使其通用型不高。相似方法还有指示微调,通过将有标注的目标语言任务数据转变成同一的生成格式,并用这些数据继续微调语言模型,从而获得目标语言的自然理解能力。容易理解的是,人工标注训练样本的成本是非常大的,并且,对于使用频率不高的小语种,以及实体种类数目少、标签体系类目比较笼统、无法进行细粒度分类打标的语种,不仅容易造成样本资源的浪费,还可能存在由于标签不准确导致模型训练结果不准确、收敛速度慢等影响任务执行效果的问题。
目前,为了尽可能地避免模型接受数据量到达饱和点,往往通过构建超大语言模型,减少模型规模带来的训练数据量限制。通过引入海量多语种数据和超大规模模型做预训练,也能够学习到很强的多语言自然语言理解能力。现有方案表明,一定程度的增加预训练语料中语种的数量能有效的提高跨语言表征的能力。例如,XLM-R引入100种语言,mT5引入了101种语言。然而,模型具有规模限制这一问题是客观存在的,当引入的语种达到一定数量后,再引入新的语种对跨语言表征的能力提升是非常有限的,甚至会影响现有语种的对齐能力,从而在下游任务上性能下降,该方案目前已经遇到了瓶颈。
现有模型执行语言理解任务时,往往类似于在做“完型填空”,将词语从一个语种翻译为另一个语种的能力较强,例如“苹果”翻译为“apple”,但是针对序列级别任务的可解释性,尤其是对语句情感的理解能力较弱,在进行下游任务训练的过程中,模型收敛速度较慢,模型训练效率较低,执行序列级别任务的任务执行效果不够理想。
基于上述问题,本说明书一个或多个实施例提供了一种任务模型训练方法,获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
如此,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
在本说明书中,提供了一种任务模型训练方法,本说明书同时涉及一种任务模型训练装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种任务模型训练方法的流程图,具体包括以下步骤。
步骤102:获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对。
本说明书一个或多个实施例,可以应用于具有文本处理功能的客户端或者服务器。为了训练得到具有较好任务执行效果的任务模型,本说明书一个或多个实施例,可以获取用于训练初始任务模型的第一训练数据。
具体地,第一训练数据可以理解为一种用于对初始任务模型进行训练的训练数据。第一训练数据可以包括多个训练样本对,需要说明的是,为了使初始任务模型学习到更好的跨语言理解能力,第一训练数据可以是多语种的训练数据,也即是,多个训练样本对可以是包括多语种的训练样本对。
训练样本对可以理解为第一训练文本和与第一训练文本对应的第一训练样本共同组成的一对训练样本。通过多语种训练样本对,对初始任务模型进行训练,能够使得初始任务模型通过自学习的方式,拥有强大的跨语言理解能力。
第一训练文本可以理解为描述样本实体的训练文本,样本实体可以理解为初始任务模型要学习理解的目标语言。示例性地,样本实体可以为“苹果”,初始任务模型要学习对“苹果”这一目标语言的理解能力,则可以将对“苹果”进行描述的文本“是一种水果”作为“苹果”的第一训练文本。
第一训练样本可以理解为与样本实体具有某种关联关系的训练样本,可选地,关联关系可以为相关或者无关。根据第一训练文本和第一训练样本,能够使得初始任务模型学习到对样本实体的理解能力。
正样本和负样本,可以理解为第一训练样本对应的两种不同属性,与样本实体具有相关关联关系的第一训练样本可以理解为正样本;与样本实体具有无关关联关系的第一训练样本可以理解为负样本。需要说明的是,与样本实体具有相关关联关系的第一训练样本,可以统一配置值为1的样本标签,用于表征能够根据第一训练文本,从第一训练样本中获取与样本实体相关的答案;与样本实体具有无关关联关系的第一训练样本,可以统一配置值为0的样本标签,用于表征根据第一训练文本,无法从第一训练样本中获取与样本实体相关的答案。通过对正样本和负样本预先设置数值不同的样本标签,不但能够降低人工标注的成本,提高对样本配置标签的效率,还能够从正反两个方面,训练初始任务模型针对样本实体,具备可回答和不可回答的能力,提高模型对多语种理解的全面性和灵活性,进而提高模型对跨语言理解任务的执行效果。
多语种训练样本对,可以理解为包括至少两个不同语种的训练样本对,示例性地,第一训练数据包括训练样本对1、训练样本对2……训练样本对n,训练样本对1的语种为中文,训练样本对2的语种为英文……训练样本对n的语种为日语。如此,根据多语种训练样本对训练得到的模型,具备强大的跨语言理解能力,能够跨语言执行各种具体的下游跨语言理解任务,例如命名实体识别任务、抽取式问答任务、句子对分类任务、情感分析任务等,无需在执行任务之前对输入文本进行翻译,大大提高任务执行效率,为用户带来更好的使用体验。
具体地,初始任务模型为机器学习模型,机器学习模型可以理解为经过训练的程序,可以在新数据中发现模式并进行预测。这些模型表示为一个数学函数,它以输入数据的形式接收请求,对输入数据进行预测,然后提供输出作为响应。在本说明书一个或多个实施例中,初始任务模型可以理解为预训练阅读理解器,初始任务模型的模型结构可以包括编码模块、抽取模块和输出模块。其中,编码模块可以用于将输入文本中的各关键词映射在向量空间中,输出各关键词对应的关键词向量;抽取模块可以用于根据输入的各关键词向量,计算各关键词向量两两之间的相关性概率并将其输出至输出模块;输出模块可以用于对输入的各个相关性概率值进行计算,输出输入文本整体相关性参数,示例性地,计算得到输入文本的相关性越强,输出模块的输出值越接近1,计算得到输入文本的相关性越弱,输出模块的输出值越接近0。
目前,往往应用多语预训练语言模型执行各类下游跨语言理解任务,训练一个多语预训练语言模型,均是通过准备大量多语种训练数据,对多语预训练语言模型进行预训练,然后对预训练得到的模型在下游任务训练过程中进行微调,得到训练完成的多语预训练语言模型。
受模型规模的限制,过多的训练数据无法继续提升多语预训练模型的跨语言理解能力。因此,本说明书一个或多个实施例,通过构造大量高质量机器阅读理解风格的数据,并基于机器阅读理解范式,解决多语预训练模型性能提升困难的问题。
相应地,本说明书一个或多个实施例,获取第一训练数据,可以通过如下步骤实现:
获取预设文本数据库;
根据预设文本数据库确定至少两个样本实体,其中,样本实体包括多语种样本实体;
根据目标样本实体,获取目标样本实体对应的目标第一训练文本和目标第一训练样本,其中,目标样本实体是至少两个样本实体中的任一个;
根据目标第一训练文本和目标第一训练样本,构建目标样本实体对应的目标训练样本对,将目标训练样本对添加至第一训练数据。
实际应用中,基于机器阅读理解范式,构造机器阅读理解风格的数据,可以通过构造三元组来实现,示例性地,样本实体可以作为答案(Answer),描述样本实体的描述文本可以作为查询语句(Query),与样本实体具有关联关系的提及文本可以作为上下文文本(Context),构造机器阅读理解风格的三元组训练数据,例如(Query,Context,Answer),作为训练数据输入模型,对模型进行训练,从而能够使模型具有更强的机器阅读理解能力。
然而,构造三元组需要先确定样本实体,然后根据样本实体找到合适的查询文本和上下文文本,费时费力,人工成本高,并且,针对使用率较低的小语种,人工构造三元组的成本就更加昂贵。
基于此,本说明书一个或多个实施例,通过获取预设文本数据库,根据预设文本数据库,从预设文本数据库中确定至少两个多语种样本实体,并根据目标样本实体,获取目标样本实体对应的目标第一训练文本和目标第一训练样本,基于目标第一训练文本和目标第一训练样本,构建目标样本实体对应的目标训练样本对,将目标训练样本对添加至第一训练数据,来获取用于训练初始任务模型的第一训练数据。
具体地,预设文本数据库包括但不限于多语种电子词典、多语种电子百科等数据库。
样本实体包括多语种样本实体,通过多语种样本实体,可以训练初始任务模型具备跨语言理解能力。进一步地,样本实体还可以被超链接标记,通过超链接,可以直接获取对样本实体进行描述的定义文本,并且能够高效获取到多个提及样本实体的参考文本。通过多个参考文本,可以构造出与样本实体具有关联关系的多个上下文文本,作为该样本实体的正样本。
目标样本实体是至少两个样本实体中的任一个,通过预设文本数据库,确定多语中样本实体,根据目标样本实体获取目标第一训练文本、目标第一训练样本,从而根据目标第一训练文本和目标第一训练样本构建目标训练样本对,能够大大提高训练数据的获取效率,降低准备训练数据的人工成本,并且,基于预设数据库获得的训练数据,在准确性和学术性上更具有保障,能够提高训练数据的质量,从而保障模型输出结果更加准确有效。
目标第一训练文本是目标样本实体对应的训练文本;目标第一训练样本是目标样本实体对应的至少一个训练样本中的任一个,目标第一训练样本具有正样本属性或者负样本属性;目标训练样本对是根据目标第一训练文本和目标第一训练样本构造得到的目标样本实体对应的训练样本对。将构建得到的目标训练样本对添加至第一训练数据中,可以得到包括至少两个训练样本对的第一训练数据。
通过预设文本数据库,确定样本实体,能够有效提高多语种样本实体的获取效率,并且能够获取到大量的多语种样本实体,从而能够根据大量多语种样本实体获取各样本实体对应的第一训练文本和第一训练样本,从而能够构造出大量且高质量的符合机器阅读理解风格的训练数据,提高模型训练的效率和准确性。
需要说明的是,多语种且大数据量的训练数据确实能够对模型的跨语言理解能力进行有效提升,因此本说明书一个或多个实施例针对一个样本实体,可以构造多个训练样本对。基于这种方式能够以较低的成本构造数量众多的可回答以及不可回答的多语言机器阅读理解风格的训练数据。
相应地,本说明书一个或多个实施例,根据目标样本实体,获取目标样本实体对应的目标第一训练文本和目标第一训练样本,可以包括如下步骤S10202-S10210:
S10202、根据目标样本实体,确定目标样本实体对应的定义文本和至少一个参考文本。
具体地,目标样本实体是至少两个样本实体中任一个,目标样本实体的语种可以是现有语种中的任一种,目标样本实体是客观存在并可相互区别的事物,具体地,在预设文本数据库中,目标样本实体可以是具有特定意义的单词或者短语,包括但不限于地名、人名、机构名、专有名词等。预设文本数据库中,针对目标样本实体,存储有与目标样本实体相关的文本,可以包括对目标样本实体进行描述的描述文本,也可以理解为定义文本,还可以包括在文本内容中提及到目标样本实体的提及文本,也可以理解为参考文本。
通常情况下,目标样本实体对应的定义文本为一篇,对应的参考文本有很多篇,但是不排除目标样本实体对应存在多篇定义文本的可能,具体可以根据预设文本数据库实际的存储情况来确定目标样本实体对应的定义文本,本说明书在此不作任何限定。
本说明书一个或多个实施例,根据目标样本实体,在预设文本数据库中确定一个对应的定义文本,和至少一个对应的参考文本。示例性地,参考文本的数量可以为5个,可以先获取目标样本实体对应的全部提及文本,然后从多个提及到目标样本实体的提及文本中随机确定5个作为参考文本。参考文本的获取方法可以根据实际需求和具体情况而定,本说明书对此不作任何限定。
S10204、基于第一文本提取规则,从定义文本中提取目标第一训练文本。
具体地,第一文本提取规则是从目标样本实体对应的定义文本中提取该目标样本实体对应的查询文本的规则。查询文本(Query)可以理解为目标样本实体对应的问题。而目标样本实体可以理解为查询文本对应的答案。目标第一训练文本,可以理解为目标样本实体对应的查询文本。
实际应用中,针对定义文本,可以通过多种方法提取目标第一训练文本,本说明书一个或多个实施例,提供至少一种第一文本提取规则,以提取目标第一训练文本。具体地,第一文本提取规则可以包括:将定义文本中的前Q个词作为该目标样本实体的目标第一训练文本,其中,Q是预设的常数。
通过第一文本提取规则,可以获得目标样本实体对应的目标第一训练文本,提高训练数据获取效率以及训练数据的质量。
S10206、基于第二文本提取规则,从各参考文本中提取目标样本实体的第一训练正样本。
具体地,第二文本提取规则是从目标样本实体对应的各参考文本中提取该目标样本实体对应的各上下文文本的规则。需要说明的是,第一文本提取规则与第二文本提取规则是不同的规则。上下文文本可以理解为与目标样本实体具有相关关联关系的第一训练正样本,其对应的样本标签可以为1。根据目标第一训练样本,可以在第一训练正样本中查找到目标第一训练样本对应的答案,也就是目标样本实体。
实际应用中,针对参考文本,可以通过多种方法提取第一训练正样本,本说明书一个或多个实施例,提供至少一种第二文本提取规则,以提取第一训练正样本。具体地,第二文本提取规则可以包括:将目标样本实体前面k个和后面C-k个词作为该目标样本实体的第一训练正样本。其中C是预设的常数,而k是一个随机常数值,通过随机设置k的值,使得目标样本实体不会出现在上下文文本中的某个特定的位置,从而减少了模型学习到一些位置的捷径信息,导致模型训练结果不准确。
通过第二文本提取规则,可以获得目标样本实体对应的至少一个第一训练正样本,提高训练数据获取效率以及训练数据的质量。
需要说明的是,根据上述步骤S10202-S10206,可以构造出数以亿计的可回答的多语言机器阅读理解风格的数据,通过这些数据对初始任务模型进行训练,能够获得具有较强跨语言理解能力的预训练任务模型。
本说明书一个或多个实施例,为了进一步提高预训练任务模型的跨语言理解能力,还可以获取与第一训练正样本数量相同的第一训练负样本,并根据第一训练文本和第一训练负样本构造训练样本对,从而构造出与可回答的多语言机器阅读理解风格数据数量相同的不可回答的多语言机器阅读理解风格数据。
相应地,本说明书一个或多个实施例,通过如下步骤S10208-S10210获取目标样本实体的第一训练负样本。
S10208、确定参考样本实体,并获取参考样本实体对应的参考训练正样本。
具体地,参考样本实体是除目标样本实体外的任一样本实体。参考训练正样本是参考样本实体对应的正样本。容易理解的是,参考训练正样本与参考样本实体具有相关的关联关系,则与目标样本实体具有相关关联关系的可能性就比较小,往往可能与目标样本实体无关,因此,获取参考样本实体对应的参考训练正样本,作为目标样本实体的第一训练负样本,能够提高负样本的获取效率以及获取成本,快速构造出与正样本数量相同的负样本。
S10210、将参考样本实体对应的参考训练正样本作为目标样本实体的第一训练负样本。
实际应用中,在获取到第一训练正样本和第一训练负样本后,就可以根据目标第一训练文本和第一训练正样本,或者第一训练负样本通过构建目标样本实体对应的目标训练样本对,将目标训练样本对添加至第一训练数据,能够大大提高第一训练数据的获取效率,降低数据获取成本,并且提高第一训练数据的质量。
需要说明的是,各个训练样本实体对应的第一训练正样本和第一训练负样本的获取顺序可以根据实际情况确定,本申请对此不作任何限定。
在获取到第一训练数据之后,可以将第一训练数据输入初始任务模型,根据第一训练数据和第一训练数据中各个第一训练样本对应的样本标签,对初始任务模型进行训练。
步骤104:基于至少两个训练样本对训练初始任务模型,获得预训练任务模型。
实际应用中,可以通过至少两个训练样本对,对初始任务模型的跨语言阅读理解能力进行训练,得到预训练任务模型。
具体地,初始任务模型和预训练任务模型可以理解为机器学习模型,机器学习模型是经过训练的程序,可以在新数据中发现模式并进行预测。这些模型表示为一个数学函数,它以输入数据的形式接收请求,对输入数据进行预测,然后提供输出作为响应。预训练任务模型可以理解为基于至少两个训练样本对,经过多次模型迭代,获得的训练完成的初始任务模型。
本说明书一个或多个实施例中,基于至少两个训练样本对训练初始任务模型,获得预训练任务模型,可以包括如下步骤:
将目标训练样本对输入初始任务模型,得到初始任务模型输出的目标训练样本对对应的目标初始概率参数,其中,目标训练样本对为至少两个训练样本中的任一个;
根据目标训练样本对对应的目标第一标签和目标初始概率参数,计算第一模型损失值,其中,目标第一标签根据目标训练样本对中的第一训练样本确定;
根据第一模型损失值调整初始任务模型,并继续训练初始任务模型,直至达到模型训练停止条件,获得预训练任务模型。
具体地,目标训练样本对是至少两个训练样本中的任一个。目标初始概率参数可以用于表征目标训练样本对中目标第一训练文本和目标第一训练样本之间的相关关系,具体为一个数值。示例性地,目标初始概率参数越接近1,目标第一训练文本和目标第一训练样本之间越相关,目标初始概率参数越接近0,目标第一训练文本和目标第一训练样本之间越无关。上述概率值0和1仅作为本说明书一个或多个实施例中,为了便于对技术方案进行理解的举例说明,并不能够作为对本说明书的限定。
实际应用中,根据目标训练样本对对应的目标第一标签和目标初始概率参数,可以计算得到初始任务模型的第一模型损失值。
具体地,目标第一标签是目标训练样本对对应的标签,标签值基于目标训练样本对中目标第一训练样本的属性确定。示例性地,目标第一训练样本为正样本,目标第一标签可以为1,目标第一训练样本为负样本,目标第一标签可以为0。
根据初始任务模型基于目标训练样本对输出的目标初始概率参数,以及目标第一标签,可以计算交叉熵,得到初始任务模型的第一模型损失值,并根据第一模型损失值对初始任务模型的模型参数进行调整,继续进行迭代训练直至达到模型训练停止条件,获得预训练任务模型。
本说明书一个或多个实施例中,初始任务模型的模型训练停止条件可以是其输出的目标初始概率参数符合预设参数值,也可以是目标初始概率参数与目标第一标签计算得到的损失值小于预设阈值,还可以是迭代循环的次数达到预设数值。
通过对初始任务模型的训练,根据目标第一标签对初始任务模型中,抽取模块输出的目标初始概率参数进行校准,使得抽取器拥有准确输出任两个关键词向量间相关性的能力,进而能够提高模型的跨语言阅读理解能力。
可选地,初始任务模型可以包括编码模块和抽取模块;
相应地,将目标训练样本对输入初始任务模型,得到初始任务模型输出的目标训练样本对对应的目标初始概率参数,可以包括如下步骤S1042-S1046:
S1042、拼接目标训练样本对中的目标第一训练文本和目标第一训练样本,获得目标输入文本。
具体地,目标输入文本可以是对目标第一训练文本、目标第一训练样本以及模型训练特殊词进行拼接后得到的输入文本。示例性地,模型训练特殊词可以包括CLS和SEP,其中,CLS可以理解为输入文本的起始词,SEP可以用于分隔文本中的各个句子。
获得目标输入文本之后,即可将目标输入文本输入编码模块,根据编码模块获得目标输入文本对应的关键词向量集。
S1044、将目标输入文本输入编码模块,获得目标输入文本对应的关键词向量集。
实际应用中,由于目标输入文本可能是一整段文本,而编码模块通常是基于词单元,对文本中的各个词进行向量映射,因此,将目标输入文本输入编码模块,获得目标输入文本对应的关键词向量集,可以包括如下步骤:
对目标输入文本进行分词,获得目标输入文本对应的关键词集合;
将关键词集合输入编码模块;
获取编码模块输出的关键词集合对应的关键词向量集。
实际应用中,可以通过结巴等分词工具先对目标输入文本进行分词,得到目标输入文本对应的关键词集合,然后将关键词集合中的各个关键词输入编码模块,获取编码模块针对各个关键词输出的由关键词向量构成的关键词向量集。
具体地,编码模块可以将自然语言形式的各个关键词映射在向量空间中获得各个关键词对应的关键词向量。
S1046、将关键词向量集中的各关键词向量输入抽取模块,获得目标训练样本对的目标初始概率参数。
实际应用中,通过编码模块获得目标输入文本对应的关键词向量集,可以将关键词向量集中的各关键词输入抽取模块,经过抽取模块对各关键词向量进行特征提取,从而获得目标训练样本对的目标初始概率参数。
具体地,抽取模块可以根据输入的关键词向量集,获得关键词向量集中各关键词向量两两之间的关联关系,基于输入文本中任意两个关键词之间的关联关系,可以获得目标训练样本对中目标第一训练文本和目标第一训练样本之间的关联关系。
可选地,初始任务模型还包括输出模块;
相应地,将关键词向量集中的各关键词向量输入抽取模块,获得目标训练样本对的目标初始概率参数,可以包括如下步骤:
将各关键词向量输入抽取模块;
获取抽取模块根据第一关键词向量和第二关键词向量,计算得到第一关键词向量和第二关键词向量对应的第一概率值,其中,第一关键词向量和第二关键词向量是各关键词向量中的任两个;
将各第一概率值输入输出模块,获得输出模块输出的目标训练样本对的目标初始概率参数。
具体地,将各关键词向量输入抽取模块,抽取模块会根据第一关键词向量和第二关键词向量,计算得到第一关键词向量和第二关键词向量对应的第一概率值。其中,第一关键词向量和第二关键词向量是各关键词向量中的任两个,第一概率值用于表征第一关键词向量和第二关键词向量之间的相关性概率,示例性地,第一关键词向量和第二关键词向量之间越相关,第一概率值越趋近于1,第一关键词向量和第二关键词向量之间越无关,第一概率值越趋近于0。
实际应用中,将各第一概率值输入输出模块,输出模块可以基于各第一概率值计算得到目标训练样本对的目标初始概率参数。
具体地,目标初始概率参数可以用于表征目标训练样本对中目标第一训练文本和目标第一训练样本之间的相关性概率。示例性地,目标第一训练文本和目标第一训练样本之间越相关,第一概率值越趋近于1,目标第一训练文本和目标第一训练样本之间越无关,第一概率值越趋近于0。
通过抽取模块计算输入文本中任意两个关键词对应的关键词向量之间的相关性概率,能够得到输入文本中任意两个关键词之间的相关性关系,通过输出模块基于抽取模块输出的各第一概率值,输出目标训练样本对的目标初始概率参数,能够通过目标初始概率参数与目标第一标签的比对,实时监测每轮循环中初始任务模型的自学习情况,并且能够对初始任务模型进行模型调参,提高抽取模块的特征抽取能力,从而提高预训练任务模型的跨语言理解能力。
步骤106:根据预训练任务模型和预设下游任务,构建待训练任务模型。
为了避免由于模型自身规模对训练数据量的限制,导致模型很难再有显著的下游任务表现提升,本说明书一个或多个实施例,在训练获得预训练任务模型的基础上,可以通过改造模型结构,使得模型在预训练阶段训练得到的阅读理解能力直接继承到下游任务训练过程中,从而进一步提升任务模型对跨语言理解任务的任务执行效果。
具体地,预设下游任务可以理解对模型进行训练后,真正想要模型进行解决的任务。通常针对一个模型的训练可以分为预训练阶段和微调阶段,预训练阶段用于根据海量训练数据,学习其中的共性,获得通用知识,例如跨语言理解能力;而微调阶段用于根据具体想要解决的任务,构造训练样本数据,在预训练的基础上对模型进行模型参数上的微调,使得模型拥有解决该具体任务的任务执行能力。因此,预设下游任务就是真正想要通过训练得到的任务模型去解决的具体任务,预设下游任务可以理解为跨语言理解任务中的任一种。
具体地,本说明书一个或多个实时例中,预设下游任务可以包括词级别任务和序列级别任务中至少一种。
示例性地,词级别任务可以包括有固定任务标签的词级别抽取任务,如命名实体识别。命名实体识别任务中,每一个任务标签可以作为查询文本,去检索上下文文本中对应的实体,并将检索到的实体确定为答案进行输出。
词级别任务还可以包括基于自然语言问题的词级别抽取任务,如抽取式问答。抽取式问答可以理解为将问题当作查询文本去搜索上下文文本中的答案。
序列级别任务可以包括有固定任务标签的句子对分类任务,如句子对分类。句子对分类中,每一个任务标签可以作为查询文本,去判断与句子对对应的上下文文本是否相关。
预设下游任务可以包括跨语言理解任务包括的任一词级别任务或者序列级别任务,因此,通过根据预训练任务模型和预设下游任务,构建待训练任务模型,训练待训练任务模型得到的目标任务模型能够具有处理各种具体跨语言理解任务的能力,能够应用在各种实际任务场景中,具有更好的迁移性、通用性、适用性,并且能够有效降低模型的训练以及维护成本。
可选地,预训练任务模型包括编码模块、抽取模块和输出模块;
相应地,根据预训练任务模型和预设下游任务,构建待训练任务模型,包括:
获取预设下游任务对应的下游任务模块;
将输出模块替换为下游任务模块,获得待训练任务模型。
具体地,下游任务模块可以理解为根据抽取模块输出的相关性概率,在输入的上下文文本中获取答案并将其输出的模块。
通过将待训练任务模型原本包括的输出模块替换为预设下游任务对应的下游任务模块,可以使得抽取模块输出的与答案具有相关性的输出结果能够直接输入至下游任务模块中,使得下游任务模块能够继承多语机器阅读理解预训练中获得的自然语言理解能力,能够有效提高待训练任务模型的收敛效率,加快模型收敛速度,进而能够提高待训练任务模型的训练效率以及跨语言阅读理解任务执行结果的准确性。
需要说明的是,根据本说明一个或多个实施例提供的任务模型训练方法,通过至少两个多语种训练样本对,对初始任务模型进行训练得到预训练任务模型,并且通过将预训练任务模型的输出模块替换为下游任务模块,对预训练任务模型的模型结构进行改造得到待训练任务模型,使得通过预设下游任务对应的训练数据对待训练任务模型进行训练的过程中,待训练任务模型能够直接继承预训练任务模型学习到的跨语言理解能力,大大提高待训练任务模型的跨语言任务执行性能,尤其是在处理序列级别任务上具有很强的可解释性,相较于目前的多语预训练模型,能够获得更好的任务执行效果。
步骤108:根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
实际应用中,对预训练任务模型的模型结构进行改造,得到待训练任务模型,可以根据预设下游任务对应的第二训练数据对待训练任务模型进行训练,从而获得目标任务模型。
具体地,第二训练数据可以理解为预设下游任务对应的训练数据。第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签,进一步地,第二样本对应的样本标签可以理解为该预设下游任务想要得到的任务执行结果,也可以理解为目标任务模型应该输出的答案。根据不同的预设下游任务,第二训练样本以及第二训练样本对应的样本标签会有所不同,具体根据实际情况确定,本说明书对此不作任何限定。
待训练任务模型和目标任务模型也可以理解为机器学习模型。具体地,目标任务模型可以理解为达到模型训练停止条件,完成模型训练的待训练任务模型。
可选地,待训练任务模型包括编码模块、抽取模块和下游训练模块;
相应地,根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,可以包括如下步骤:
将目标第二训练样本和目标下游任务标签输入待训练任务模型,得到待训练任务模型输出的下游任务预测结果,其中,目标第二训练样本为至少一个第二训练样本中的任一个,目标下游任务标签是预设下游任务对应的任务标签;
根据目标第二训练样本对应的目标样本标签和下游任务预测结果,计算第二模型损失值;
根据第二模型损失值调整待训练任务模型,并继续训练待训练任务模型,直至达到模型训练停止条件,获得目标任务模型。
具体地,目标下游任务标签可以理解为预设下游任务对应的任务标签。示例性地,预设下游任务是命名实体识别,则目标下游任务标签可以为“命名实体”。下游任务预测结果是待训练任务模型输出的预测结果,也就是预设下游任务对应的任务执行结果。目标样本标签是待训练任务模型应该输出的任务执行结果。沿用上例,预设下游任务是命名实体识别,第二训练样本是“汤姆吃了一颗苹果”,则目标样本标签可以为“汤姆”和“苹果”。
第二模型损失值是基于下游任务预测结果和目标样本标签进行比对,得到的待训练任务模型的模型损失值,具体可以通过交叉熵运算等方法计算得到。
根据第二模型损失值对待训练任务模型进行调整,并继续训练待训练任务模型直至达到模型训练停止条件,能够获得完成模型训练,具有强大跨语言理解任务执行能力的目标任务模型。
本说明书一个实施例实现了获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
如此,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
示例性地,参见图2,图2示出了本说明书一个实施例提供的一种任务模型的训练过程示意图。
本说明书一个或多个实施例中,可以获取预设样本数据库,从预设样本数据库中确定两个样本实体,其中,样本实体1的语种可以是中文,样本实体2的语种可以是英文,根据样本实体1,获取样本实体1对应的定义文本1和参考文本1,根据样本实体2,获取样本实体2对应的定义文本2和参考文本2。根据第一文本提取规则,从定义文本1中提取样本实体1对应的训练文本1,从定义文本2中提取样本实体2对应的训练文本2;根据第二文本提取规则,从参考文本1中提取样本实体1对应的训练正样本1,从参考文本2中提取样本实体2对应的训练正样本2。根据训练文本1和训练正样本1,构建样本实体1对应的训练样本对1;根据训练文本2和训练正样本2,构建样本实体2对应的训练样本对2。
根据训练样本对1和2对多语预训练模型和初始任务模型进行预训练,多语预训练语言模型以及初始任务模型学习到的跨语言理解能力能够直接继承至下游跨语言理解任务的训练过程中,加快模型在预设下游训练任务中的收敛速度,提高目标任务模型的训练效率,增强目标任务模型的跨语言理解能力,使得目标任务模型在执行跨语言理解任务时能够获得更好的任务执行效果。
下述结合附图3,以本说明书提供的任务模型训练方法在命名实体识别的应用为例,对所述任务模型训练方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种任务模型训练方法的处理过程流程图,具体包括以下步骤。
步骤302:获取预设文本数据库,根据预设文本数据库确定至少两个样本实体。
步骤304:根据目标样本实体,确定目标样本实体对应的1个定义文本和5个参考文本,其中,目标样本实体是至少两个样本实体中任一个。
步骤306:基于第一文本提取规则,从定义文本中提取目标第一训练文本,基于第二文本提取规则,从5个参考文本中提取目标样本实体的5个第一训练正样本。
步骤308:确定参考样本实体,并获取参考样本实体对应的5个参考训练正样本,将这5个参考训练正样本确定为目标样本实体的5个第一训练负样本。
步骤310:根据第一训练文本和第一训练正样本、第一训练负样本,构建目标样本实体对应的10个训练样本对,将这10个样本对添加至第一训练数据中。
具体地,第一训练文本可以是查询文本,第一训练正样本可以是与目标样本实体相关的上下文文本。
参见图4a,图4a示出了本说明书一个实施例提供的一种任务模型的样本对构建示意图。
基于目标样本实体,确定目标样本实体对应的1个定义文本和5个参考文本,可以根据第一文本提取方法,从定义文本中提取目标样本实体对应的目标第一训练文本,根据第二文本提取方法,从5个参考文本中提取目标样本实体对应的5个目标第一训练正样本。将目标第一训练文本与5个目标第一训练正样本分别进行匹配,可以得到目标样本实体对应的5个训练样本对。
步骤312:拼接目标训练样本对中的目标第一训练文本和目标第一训练样本,得到输入文本,将输入文本输入初始任务模型中的编码模块,获得输入文本对应的关键词集合。
步骤314:将关键词集合输入初始任务模型中的抽取模块,得到抽取模块输出的任两个关键词之间的第一概率值,将各第一概率值输入初始任务模型中的输出模块,得到初始任务模型输出的初始概率参数。
步骤316:根据初始概率参数和第一训练数据中各样本对对应的第一标签,计算初始任务模型的第一模型损失值。
步骤318:根据第一模型损失值调整初始任务模型,并继续训练初始任务模型,直至达到模型训练停止条件,获得预训练任务模型。
参见图4b,参见图4b示出了本说明书一个实施例提供的一种任务模型的预训练流程图。
将查询文本对应的Q个关键词和上下文文本对应的C个关键词与特殊词CLS和SEP共同拼接获得输入文本,其中,Q和C分别是预设的常数。
对输入文本分词获得输入文本对应的关键词集合,将关键词集合输入至初始任务模型的编码模块,获得M个关键词向量,其中,M为Q、C以及特殊词的数量之和。将M个关键词向量输入至初始任务模型的抽取模块,通过抽取模块输出任两个关键词之间的第一概率值,从而能够根据各第一概率值计算得到查询文本和上下文文本之间的初始概率参数。具体地,初始概率参数用于表征查询文本和上下文文本之间的相关性关系。
步骤320:获取命名实体识别对应的下游任务模块,将预训练任务模型包括的输出模块替换为下游任务模块,获得待训练任务模型。
步骤322:根据命名实体识别对应的第二训练数据,训练待训练任务模型,获得目标任务模型。
本说明书一个实施例实现了获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
如此,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
参见图5,图5示出了本说明书一个实施例提供的一种抽取式问答任务模型训练方法的流程图。
步骤502:获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对。
步骤504:基于至少两个训练样本对训练初始任务模型,获得预训练任务模型。
步骤506:根据预训练任务模型和抽取式问答任务,构建待训练抽取式问答任务模型。
步骤508:根据抽取式问答任务对应的第二训练数据,训练待训练抽取式问答任务模型,获得目标抽取式问答任务模型,其中,第二训练数据包括至少一个问题样本和各问题样本对应的答案标签。
需要说明的是,步骤502-步骤508的实现方式,与上述步骤102-步骤108的实现方式相同,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
参见图6,图6示出了本说明书一个实施例提供的一种任务模型的数据处理方法的流程图。
步骤602:接收用户通过前端发送的预设下游任务处理请求,其中,预设下游任务处理请求携带待处理数据。
步骤604:将待处理数据输入目标任务模型中,获得预设下游任务处理请求对应的任务处理结果,其中,目标任务模型根据预设下游任务对应的第二训练数据,对待训练任务模型训练获得,待训练任务模型根据预训练任务模型和预设下游任务构建,预训练任务模型基于至少两个训练样本对训练初始任务模型获得,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对。
步骤606:将任务处理结果发送至前端,以使前端显示任务处理结果。
实际应用中,接收用户通过前端发送的预设下游任务处理请求,可以由客户端进行接收,也可以由服务器进行接收,即,目标任务模型即可以部署在客户端,也可以部署在服务器。前端可以理解为客户端上网站的前端部分,客户端可以称为端侧设备,服务端可以称为云侧设备。多个客户端之间通过服务端可以建立通信连接,在实际应用场景中,服务端可以用来在多个客户端之间提供任务模型的数据处理服务,多个客户端可以分别作为发送端或接收端,通过服务端实现通信。
用户通过客户端可与服务端进行交互以接收其它客户端发送的数据,或将数据发送至其它客户端等。在实际应用场景中,可以是用户通过客户端向服务端发布数据流,服务端根据该数据流生成任务处理结果,并将任务处理结果推送至其他建立通信的客户端中。
其中,客户端与服务端之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端。
客户端可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperTextMarkup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端可以基于服务端提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real Time Communication)SDK开发获得等。客户端可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的任务模型的训练方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的任务模型的训练方法。在其它实施例中,本说明书实施例所提供的任务模型的训练方法还可以是由客户端与服务端共同执行。
示例性地,假设下游任务处理请求是抽取式问答任务的任务处理请求,抽取式问答任务携带输入文本和问题文本,作为待处理数据输入至目标任务模型中,经过目标任务模型对待处理数据的处理,可以获得根据问题文本,从输入文本中抽取出的答案文本。
应用本说明书实施例的方案,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
参见图7,图7示出了本说明书一个实施例提供的一种任务模型训练方法的流程图,应用于云侧设备。
步骤702:获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对。
步骤704:基于至少两个训练样本对训练初始任务模型,获得预训练任务模型。
步骤706:根据预训练任务模型和预设下游任务,构建待训练任务模型。
步骤708:根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型的模型参数,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
步骤710:向端侧设备发送目标任务模型的模型参数。
需要说明的是,步骤702-步骤708的实现方式,与上述步骤102-步骤108的实现方式相同,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
与上述方法实施例相对应,本说明书还提供了任务模型训练装置实施例,图8示出了本说明书一个实施例提供的一种任务模型训练装置的结构示意图。如图8所示,该装置包括:
获取模块802,被配置为获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;
第一训练模块804,被配置为基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;
构建模块806,被配置为根据预训练任务模型和预设下游任务,构建待训练任务模型;
第二训练模块808,被配置为根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
可选地,获取模块802,进一步被配置为:
获取预设文本数据库;
根据预设文本数据库确定至少两个样本实体,其中,样本实体包括多语种样本实体;
根据目标样本实体,获取目标样本实体对应的目标第一训练文本和目标第一训练样本,其中,目标样本实体是至少两个样本实体中的任一个;
根据目标第一训练文本和目标第一训练样本,构建目标样本实体对应的目标训练样本对,将目标训练样本对添加至第一训练数据。
可选地,获取模块802,进一步被配置为:
根据目标样本实体,确定目标样本实体对应的定义文本和至少一个参考文本;
基于第一文本提取规则,从定义文本中提取目标第一训练文本;
基于第二文本提取规则,从各参考文本中提取目标样本实体的第一训练正样本;
确定参考样本实体,并获取参考样本实体对应的参考训练正样本;
将参考样本实体对应的参考训练正样本作为目标样本实体的第一训练负样本。
可选地,第一训练模块804,进一步被配置为:
将目标训练样本对输入初始任务模型,得到初始任务模型输出的目标训练样本对对应的目标初始概率参数,其中,目标训练样本对为至少两个训练样本中的任一个;
根据目标训练样本对对应的目标第一标签和目标初始概率参数,计算第一模型损失值,其中,目标第一标签根据目标训练样本对中的第一训练样本确定;
根据第一模型损失值调整初始任务模型,并继续训练初始任务模型,直至达到模型训练停止条件,获得预训练任务模型。
可选地,初始任务模型包括编码模块和抽取模块;
相应地,第一训练模块804,进一步被配置为:
拼接目标训练样本对中的目标第一训练文本和目标第一训练样本,获得目标输入文本;
将目标输入文本输入编码模块,获得目标输入文本对应的关键词向量集;
将关键词向量集中的各关键词向量输入抽取模块,获得目标训练样本对的目标初始概率参数。
可选地,第一训练模块804,进一步被配置为:
对目标输入文本进行分词,获得目标输入文本对应的关键词集合;
将关键词集合输入编码模块;
获取编码模块输出的关键词集合对应的关键词向量集。
可选地,第一训练模块804,进一步被配置为:
相应地,将关键词向量集中的各关键词向量输入抽取模块,获得目标训练样本对的目标初始概率参数,包括:
将各关键词向量输入抽取模块;
获取抽取模块根据第一关键词向量和第二关键词向量,计算得到第一关键词向量和第二关键词向量对应的第一概率值,其中,第一关键词向量和第二关键词向量是各关键词向量中的任两个;
将各第一概率值输入输出模块,获得输出模块输出的目标训练样本对的目标初始概率参数。
可选地,预训练任务模型包括编码模块、抽取模块和输出模块;
相应地,构建模块806,进一步被配置为:
获取预设下游任务对应的下游任务模块;
将输出模块替换为下游任务模块,获得待训练任务模型。
可选地,待训练任务模型包括编码模块、抽取模块和下游训练模块;
相应地,第二训练模块808,进一步被配置为:
将目标第二训练样本和目标下游任务标签输入待训练任务模型,得到待训练任务模型输出的下游任务预测结果,其中,目标第二训练样本为至少一个第二训练样本中的任一个,目标下游任务标签是预设下游任务对应的任务标签;
根据目标第二训练样本对应的目标样本标签和下游任务预测结果,计算第二模型损失值;
根据第二模型损失值调整待训练任务模型,并继续训练待训练任务模型,直至达到模型训练停止条件,获得目标任务模型。
可选地,预设下游任务包括词级别任务和序列级别任务中至少一种。
本说明书一个实施例实现了获取第一训练数据,其中,第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和第一训练文本对应的第一训练样本,第一训练样本包括正样本和负样本,训练样本对包括多语种训练样本对;基于至少两个训练样本对训练初始任务模型,获得预训练任务模型;根据预训练任务模型和预设下游任务,构建待训练任务模型;根据预设下游任务对应的第二训练数据,训练待训练任务模型,获得目标任务模型,其中,第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
如此,通过第一训练数据对初始任务模型进行训练,使得初始任务模型从正负样本中学习到较强的跨语言理解能力,在后续处理跨语言理解任务时能够获得更好的任务执行效果,通过预设下游任务将训练得到的预训练任务模型构建为待训练任务模型,并根据第二训练数据对待训练任务模型进行训练,使得预训练任务模型学习到的跨语言理解能力能够直接继承至下游任务训练过程中,提高待训练任务模型收敛效率,从而提高目标任务模型训练效率以及目标任务模型跨语言理解任务执行结果的准确性。
上述为本实施例的一种任务模型训练装置的示意性方案。需要说明的是,该任务模型训练装置的技术方案与上述的任务模型训练方法的技术方案属于同一构思,任务模型训练装置的技术方案未详细描述的细节内容,均可以参见上述任务模型训练方法的技术方案的描述。
图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的任务模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述任务模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述任务模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的任务模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述任务模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述任务模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的任务模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述任务模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种任务模型训练方法,包括:
获取第一训练数据,其中,所述第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和所述第一训练文本对应的第一训练样本,所述第一训练样本包括正样本和负样本,所述训练样本对包括多语种训练样本对;
基于所述至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据所述预训练任务模型和预设下游任务,构建待训练任务模型;
根据所述预设下游任务对应的第二训练数据,训练所述待训练任务模型,获得目标任务模型,其中,所述第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签。
2.根据权利要求1所述的方法,所述获取第一训练数据,包括:
获取预设文本数据库;
根据所述预设文本数据库确定至少两个样本实体,其中,所述样本实体包括多语种样本实体;
根据目标样本实体,获取所述目标样本实体对应的目标第一训练文本和目标第一训练样本,其中,所述目标样本实体是所述至少两个样本实体中的任一个;
根据所述目标第一训练文本和目标第一训练样本,构建所述目标样本实体对应的目标训练样本对,将所述目标训练样本对添加至第一训练数据。
3.根据权利要求2所述的方法,所述根据所述目标样本实体,获取所述目标样本实体对应的目标第一训练文本和目标第一训练样本,包括:
根据所述目标样本实体,确定所述目标样本实体对应的定义文本和至少一个参考文本;
基于第一文本提取规则,从所述定义文本中提取目标第一训练文本;
基于第二文本提取规则,从各参考文本中提取所述目标样本实体的第一训练正样本;
确定参考样本实体,并获取参考样本实体对应的参考训练正样本;
将参考样本实体对应的参考训练正样本作为所述目标样本实体的第一训练负样本。
4.根据权利要求1所述的方法,所述基于所述至少两个训练样本对训练初始任务模型,获得预训练任务模型,包括:
将目标训练样本对输入所述初始任务模型,得到所述初始任务模型输出的所述目标训练样本对对应的目标初始概率参数,其中,所述目标训练样本对为所述至少两个训练样本中的任一个;
根据所述目标训练样本对对应的目标第一标签和所述目标初始概率参数,计算第一模型损失值,其中,所述目标第一标签根据所述目标训练样本对中的第一训练样本确定;
根据所述第一模型损失值调整所述初始任务模型,并继续训练所述初始任务模型,直至达到模型训练停止条件,获得预训练任务模型。
5.根据权利要求4所述的方法,所述初始任务模型包括编码模块和抽取模块;
相应地,所述将目标训练样本对输入所述初始任务模型,得到所述初始任务模型输出的所述目标训练样本对对应的目标初始概率参数,包括:
拼接所述目标训练样本对中的目标第一训练文本和目标第一训练样本,获得目标输入文本;
将所述目标输入文本输入所述编码模块,获得所述目标输入文本对应的关键词向量集;
将所述关键词向量集中的各关键词向量输入所述抽取模块,获得所述目标训练样本对的目标初始概率参数。
6.根据权利要求5所述的方法,所述将所述目标输入文本输入所述编码模块,获得所述目标输入文本对应的关键词向量集,包括:
对所述目标输入文本进行分词,获得所述目标输入文本对应的关键词集合;
将所述关键词集合输入所述编码模块;
获取所述编码模块输出的所述关键词集合对应的关键词向量集。
7.根据权利要求5所述的方法,所述初始任务模型还包括输出模块;
相应地,所述将所述关键词向量集中的各关键词向量输入所述抽取模块,获得所述目标训练样本对的目标初始概率参数,包括:
将所述各关键词向量输入所述抽取模块;
获取所述抽取模块根据第一关键词向量和第二关键词向量,计算得到所述第一关键词向量和所述第二关键词向量对应的第一概率值,其中,所述第一关键词向量和所述第二关键词向量是所述各关键词向量中的任两个;
将各第一概率值输入所述输出模块,获得所述输出模块输出的所述目标训练样本对的目标初始概率参数。
8.根据权利要求1所述的方法,所述预训练任务模型包括编码模块、抽取模块和输出模块;
相应地,所述根据所述预训练任务模型和预设下游任务,构建待训练任务模型,包括:
获取预设下游任务对应的下游任务模块;
将所述输出模块替换为所述下游任务模块,获得待训练任务模型。
9.根据权利要求1所述的方法,所述待训练任务模型包括编码模块、抽取模块和下游训练模块;
相应地,所述根据所述预设下游任务对应的第二训练数据,训练所述待训练任务模型,获得目标任务模型,包括:
将目标第二训练样本和目标下游任务标签输入所述待训练任务模型,得到所述待训练任务模型输出的下游任务预测结果,其中,所述目标第二训练样本为所述至少一个第二训练样本中的任一个,所述目标下游任务标签是所述预设下游任务对应的任务标签;
根据所述目标第二训练样本对应的目标样本标签和所述下游任务预测结果,计算第二模型损失值;
根据所述第二模型损失值调整所述待训练任务模型,并继续训练所述待训练任务模型,直至达到模型训练停止条件,获得目标任务模型。
10.一种抽取式问答任务模型训练方法,包括:
获取第一训练数据,其中,所述第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和所述第一训练文本对应的第一训练样本,所述第一训练样本包括正样本和负样本,所述训练样本对包括多语种训练样本对;
基于所述至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据所述预训练任务模型和抽取式问答任务,构建待训练抽取式问答任务模型;
根据所述抽取式问答任务对应的第二训练数据,训练所述待训练抽取式问答任务模型,获得目标抽取式问答任务模型,其中,所述第二训练数据包括至少一个问题样本和各问题样本对应的答案标签。
11.一种任务模型的数据处理方法,包括:
接收用户通过前端发送的预设下游任务处理请求,其中,所述预设下游任务处理请求携带待处理数据;
将所述待处理数据输入目标任务模型中,获得所述预设下游任务处理请求对应的任务处理结果,其中,所述目标任务模型根据预设下游任务对应的第二训练数据,对待训练任务模型训练获得,所述待训练任务模型根据预训练任务模型和所述预设下游任务构建,所述预训练任务模型基于至少两个训练样本对训练初始任务模型获得,所述第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签,各训练样本对包括第一训练文本和所述第一训练文本对应的第一训练样本,所述第一训练样本包括正样本和负样本,所述训练样本对包括多语种训练样本对;
将所述任务处理结果发送至所述前端,以使所述前端显示所述任务处理结果。
12.一种任务模型训练方法,应用于云侧设备,包括:
获取第一训练数据,其中,所述第一训练数据包括至少两个训练样本对,各训练样本对包括第一训练文本和所述第一训练文本对应的第一训练样本,所述第一训练样本包括正样本和负样本,所述训练样本对包括多语种训练样本对;
基于所述至少两个训练样本对训练初始任务模型,获得预训练任务模型;
根据所述预训练任务模型和预设下游任务,构建待训练任务模型;
根据所述预设下游任务对应的第二训练数据,训练所述待训练任务模型,获得目标任务模型的模型参数,其中,所述第二训练数据包括至少一个第二训练样本和各第二训练样本对应的样本标签;
向端侧设备发送所述目标任务模型的模型参数。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457237.1A CN116610781A (zh) | 2023-04-25 | 2023-04-25 | 任务模型训练方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310457237.1A CN116610781A (zh) | 2023-04-25 | 2023-04-25 | 任务模型训练方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116610781A true CN116610781A (zh) | 2023-08-18 |
Family
ID=87679096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310457237.1A Pending CN116610781A (zh) | 2023-04-25 | 2023-04-25 | 任务模型训练方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116610781A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648079A (zh) * | 2024-01-29 | 2024-03-05 | 浙江阿里巴巴机器人有限公司 | 任务处理、代码补全、代码问答及任务处理模型训练方法 |
CN117648079B (zh) * | 2024-01-29 | 2024-05-14 | 浙江阿里巴巴机器人有限公司 | 任务处理、代码补全、代码问答及任务处理模型训练方法 |
-
2023
- 2023-04-25 CN CN202310457237.1A patent/CN116610781A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648079A (zh) * | 2024-01-29 | 2024-03-05 | 浙江阿里巴巴机器人有限公司 | 任务处理、代码补全、代码问答及任务处理模型训练方法 |
CN117648079B (zh) * | 2024-01-29 | 2024-05-14 | 浙江阿里巴巴机器人有限公司 | 任务处理、代码补全、代码问答及任务处理模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534B (zh) | 信息处理方法和装置 | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN111368548A (zh) | 语义识别方法及装置、电子设备和计算机可读存储介质 | |
CN111241237A (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN111931517A (zh) | 文本翻译方法、装置、电子设备以及存储介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN117332072B (zh) | 对话处理、语音摘要提取以及目标对话模型训练方法 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN115718904A (zh) | 文本处理方法及装置 | |
CN116610781A (zh) | 任务模型训练方法以及装置 | |
CN114880991A (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN115129976A (zh) | 一种资源召回方法、装置、设备及存储介质 | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN117573842B (zh) | 文档检索方法以及自动问答方法 | |
CN116595154B (zh) | 任务处理方法以及自动问答方法 | |
CN114942980B (zh) | 一种确定文本匹配方法及装置 | |
CN117648079B (zh) | 任务处理、代码补全、代码问答及任务处理模型训练方法 | |
CN116842965A (zh) | 文本处理方法、文本阅读理解方法 | |
CN116467500B (zh) | 数据关系识别、自动问答、查询语句生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |