CN117494705A - 一种模型训练方法及其装置 - Google Patents
一种模型训练方法及其装置 Download PDFInfo
- Publication number
- CN117494705A CN117494705A CN202210857821.1A CN202210857821A CN117494705A CN 117494705 A CN117494705 A CN 117494705A CN 202210857821 A CN202210857821 A CN 202210857821A CN 117494705 A CN117494705 A CN 117494705A
- Authority
- CN
- China
- Prior art keywords
- text
- predicted
- code
- natural language
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 286
- 238000000034 method Methods 0.000 title claims abstract description 147
- 230000006870 function Effects 0.000 claims description 215
- 230000015654 memory Effects 0.000 claims description 73
- 238000003860 storage Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 19
- 238000006467 substitution reaction Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 230000002829 reductive effect Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 70
- 230000008569 process Effects 0.000 description 62
- 239000013598 vector Substances 0.000 description 58
- 230000015572 biosynthetic process Effects 0.000 description 46
- 238000003058 natural language processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 20
- 239000012634 fragment Substances 0.000 description 19
- 230000007246 mechanism Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 16
- 238000007781 pre-processing Methods 0.000 description 14
- 230000018109 developmental process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000011161 development Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000013519 translation Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 9
- 230000001537 neural effect Effects 0.000 description 9
- 230000001364 causal effect Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 6
- 230000009471 action Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
一种模型训练方法,涉及人工智能领域,包括:获取第一文本以及第二文本,第一文本和第二文本为从原始代码文本中提取得到的;其中,第一文本为程序代码,第二文本为程序代码对应的属性描述;第一文本和第二文本包括已知文本以及预测文本;根据已知文本,通过自然语言模型,对预测文本对应文本位置的文本进行预测,得到文本预测结果;预测文本和文本预测结果用于更新自然语言模型。本申请在构建程序合成的训练样本时,从原始的程序代码中提取代码文本和对应的属性描述并作为一对样本,降低了训练难度,提高了模型的预测精度。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种模型训练方法及其装置。
背景技术
语言模型(language model)是指能够根据一部分给定的语义片段,预测句子中的未知词的模型。例如:给定的自然语言序列片段“华为__很不错。”,语言模型可以根据该片段生成未知的词语,如该例子中语言模型可基于给定片段生成“手机”一词,进而得到句子为“华为手机很不错。”。
语言模型的预训练是指通过海量的语言序列语料,训练对应的语言模型,使得语言模型具备预测某个位置某个语言单位出现概率的能力。
程序合成指的是由一定的软件程序来自动合成具有指定功能或者结构的指定程序语言序列,简而言之就是由程序来生成程序,总体上分为程序合成(代码生成)以及代码补全两种。程序合成,即从无到有,可以按一定的自然语言描述或预设的功能描述,生成对应的代码。代码补全,即在已有的代码序列上文基础上,继续生成下文代码序列。
随着深度学习技术的发展,利用深度学习进行序列生成已经被广泛应用在自然语言序列生成的场景上,特别是预训练语言生成模型技术的出现,使得语言生成能力有了质的提升。近年来,类似生成式预训练模型(generative pre-training,GPT)、T5、BART等生成模型也开始逐渐被引入代码生成或者补全中。该技术以Transformer为基础部件,搭件解码器或者,编码-解码器模型架构,再用大量的代码数据进行训练,得到可以根据上文输出相应代码下文的能力,从而进行代码补全或者生成。
现有的技术沿用自然语言处理的生成方式,根据原始的代码进行训练,当前这种方式能够根据已有上下文进行代码的续写,但是针对函数级代码的生成这个场景,代码生成的质量还有待提升。
发明内容
本申请提供了一种模型训练方法,可以降低训练难度,提高代码的生成质量。
第一方面,本申请提供了一种模型训练方法,包括:获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
在一种可能的实现中,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理(或者称之为该程序代码的解释)。
在一种可能的实现中,原始代码文本可以为已有的程序语言语料及自然语言语料。可选的,可以通过网络(或者其他方式)获取已有的程序语言语料及自然语言语料,该语料包括混合程序语言及自然语言的代码文件、程序语言的代码文件、自然语言的文件。其中,收集的自然语言可以是任意人类语言,程序语言可以是任意编程语言,本申请并不限定。
在一种可能的实现中,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述。第二文本可以为自然语言,且第二文本可以是任意的人类沟通时使用的语言,程序代码可以是任意编程语言,本申请并不限定。
在一种可能的实现中,在识别出第一文本和第二文本之后,可以建立第一文本以及第二文本之间的对应关系,以形成“自然语言描述-函数实现代码”(Description-Function)的句对形式样本。可选的,可以在每组自然语言-程序语言前使用表示字符组合来表示接下来的序列为文本语言序列或者具体的代码语言序列,并在样本之后添加样本结束符,进而可以表示出第一文本和第二文本为一对样本。
本申请实施例中,在构建程序合成的训练样本时,从原始的程序代码中提取代码文本和对应的属性描述并作为一对样本,相比现有技术中直接将原始的程序文件作为训练样本,帮助自然语言模型在训练时可以将代码文本和对应的属性描述之间建立关联,而无需在训练过程中从样本中学习到识别这种关联的能力,降低了训练难度,提高了模型的预测精度。
在一种可能的实现中,为了提高训练语料的质量,可以对函数级代码片段(例如代码程序)根据其代码语料的统计特性,去除代码语料中自然语言描述部分过短的语料、代码部分过长的语料或者两者长度相差过大的语料,以提升训练语料质量。
在一种可能的实现中,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理。
在一种可能的实现中,所述第一文本为通过程序代码识别方法从原始代码文本中识别得到的,所述第二文本为通过属性描述识别方法从原始代码文本中识别得到的。
在一种可能的实现中,可以识别原始代码文本中的函数代码段作为第一文本:例如,可以使用一定规则(例如可以使用代码抽象语法树(AST)等程序代码识别方法)识别原始代码文本中的函数代码段。
在一种可能的实现中,可以使用的一定的规则,例如通过注释规则,语言字符规则等属性描述识别方法进行识别抽取。
示例性的,可以进行代码抽象语法树(AST)分析,对代码进行分析得到对应代码的语法树,通过语法树分析截取对应的函数级代码片段对应的自然语言描述。
示例性的,可以使用自然语言处理自动识别的方法进行代码段抽取,例如序列标注的方法,训练函数标注器标注出所有函数级代码对应的自然语言描述。
在一种可能的实现中,所述程序代码为一个或多个函数的完整代码。
在一种可能的实现中,为了训练能够用于进行程序生成功能的模型(也就是本申请实施例中的自然语言模型),可以将训练样本中的部分文本单元作为已知文本,另一部分文本作为待预测的文本,并基于已知文本来预测待预测的文本所在的文本位置的文本。
由于第一文本和第二文本为不同类型的文本(第一文本为计算机编译语言,第二文本为自然语言),可以针对于第一文本和第二文本通过不同的训练目标进行文本预测过程。
例如,针对于第一文本,可以采用CLM、MLM、MCLM以及NoLM四种训练目标中的一种进行文本预测过程。
例如,针对于第二文本,可以采用CLM、MLM以及MCLM三种训练目标中的一种进行模型训练过程。
在优化自然语言描述部分时,可选CLM、MLM、MCLM、NoLM四种训练目标中的一种。在优化程序语言函数代码部分时,可选CLM、MLM、MCLM三种训练目标中的一种,注意此处可以不包括NoLM训练目标。自然语言描述部分和程序语言函数代码部分训练目标可自由组合。
在一种可能的实现中,在对所述第一文本中的文本进行预测时,可以通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;在对所述第二文本中的文本进行预测时,可以通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
在一种可能的实现中,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置(也就是MLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本(也就是CLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本(也就是MCLM)。
在一种可能的实现中,还可以在不对第二文本中的文本进行预测的情况下(也就是NoLM),通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置(也就是MLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本(也就是CLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本(也就是MCLM)。
关于CLM:
在模型训练的前馈过程中,自然语言模型可以沿着预设的上下文预测方向,依次进行文本的预测,也就是说,自然语言模型已经预测出的词的全部可以作为已知文本,且已知文本用于作为位置文本的上文来进行预测文本所在文本位置的文本预测,例如,可以沿着由上文到下文的顺序(也就是从文本开头到文本末尾的顺序)进行预测,每次可以预测一个文本单元,并在下次预测时基于已经预测出的文本单元继续进行预测。
关于MLM:
在模型训练的前馈过程中,可以对文本(例如第二文本或者第一文本)中的文本单元进行掩码(例如可以为随机掩码),掩码后的文本单元可以作为预测文本,未被掩码的文本单元可以作为已知文本,自然语言模型可以基于未被掩码的文本单元(或者已经预测出的掩码后的文本单元),依次进行掩码后的文本单元所在文本位置的文本预测。
关于MCLM:
在模型训练的前馈过程中,自然语言模型可以沿着预设的上下文预测方向,依次进行文本的预测,和CLM不同的是,在CLM中自然语言模型已经预测出的词的全部可以作为已知文本,且已知文本用于作为位置文本的上文来进行预测文本所在文本位置的文本预测,在MCLM中,可以对MCLM中自然语言模型已经预测出的词进行掩码,可以使用自然语言模型已经预测出的词中未被掩码的文本单元来进行预测文本所在文本位置的文本预测。
关于NoLM:
在模型训练的前馈过程中,可以不对第二文本进行预测,而直接将第二文本作为已知文本,并将第一文本作为训练样本,进行第一文本中文本单元的预测。
在一种可能的实现中,可以将可选的4种训练目标(CLM、MLM、MCLM、NoLM)分别应用在“描述-函数对”(Description-Function)的自然语言描述或函数代码上,组合形成12种训练目标。
在一种可能的实现中,为了提高训练语料的质量,可以对函数级代码片段(例如代码程序)根据其代码语料的统计特性,去除代码语料中自然语言描述部分过短的语料、代码部分过长的语料或者两者长度相差过大的语料,以提升训练语料质量。
在一种可能的实现中,由于训练样本通常难以获取到,也就是训练样本(第一文本和第二文本构成的文本对)的数量较少,可以对已获取训练样本进行数据增强,来得到更多的训练样本。
在一种可能的实现中,所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。例如可以基于反向翻译技术生成同义片段,或者可以是基于同义句生成技术生成同义片段。
例如,可以对代码文本中的变量名进行随机替换、(循环)代码段等价替换以及随机插入无效代码段等方式,大量获得高质量自动生成的训练数据,最终提升模型性能。
在一种可能的实现中,所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。例如可以基于反向翻译技术生成同义片段,或者可以是基于同义句生成技术生成同义片段。
例如,可以通过对自然语言描述中进行同义词替换,句式变换,或者使用自然语言处理技术中的复述生成模型或者方法,数据增广方法,数据加噪方法对自然语言描述进行增广,大量获得高质量自动生成的训练数据,最终提升模型性能。
在一种可能的实现中,在模型训练的不同阶段,可以对训练样本进行不同的处理,例如,在模型训练初期迭代阶段可以采用上述方式得到的第一文本以及第二文本,而在模型训练的微调阶段,可以从原始代码文本中提取出适配于所述程序代码的应用领域的文本(同样包括程序代码以及对应的代码属性描述)作为训练样本。
在一种可能的实现中,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。在一种可能的实现中,所述适配于所述程序代码的应用领域,包括:文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。或者,还可以采用除了长度之外的其他维度的信息来量化和程序代码的应用领域。
在一种可能的实现中,可以基于数据样本与函数级代码生成器的应用领域的数据样本的相似度来过滤样本。相似度计算方法,可以是自然语言描述之间的长度关系,可以是程序语言函数代码之间的长度关系,也可以是其他关系。
第二方面,本申请提供了一种模型训练装置,包括:
获取模块,用于获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;
预测模块,用于根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
在一种可能的实现中,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理。
在一种可能的实现中,所述装置还包括:
文本位置确定模块,用于在对所述第一文本中的文本进行预测时,通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;
在对所述第二文本中的文本进行预测时,通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
在一种可能的实现中,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
在一种可能的实现中,所述文本位置确定模块,还用于:在不对第二文本中的文本进行预测的情况下,通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
在一种可能的实现中,
所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的;或者,
所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。
在一种可能的实现中,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。
在一种可能的实现中,所述适配于所述程序代码的应用领域,包括:
文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。
第三方面,本申请实施例提供了一种模型训练装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法。
第五方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法。
第六方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持执行设备或训练设备实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据;或,信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存执行设备或训练设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
图1A为人工智能主体框架的一种结构示意图;
图1B和至图1C为本发明的应用系统框架示意;
图1D为终端的一种可选的硬件结构示意图;
图2为一种服务器的结构示意图;
图3至图5为本申请的一种系统架构示意;
图6为一种云服务的流程;
图7为一种云服务的流程;
图8为本申请的一种系统架构示意;
图9为本申请实施例提供的一种模型训练方法的流程示意;
图10A至图10D为文本的示意;
图11为本申请实施例提供的一种模型训练方法的架构示意;
图12和图13为模型的一个示意;
图14为本申请实施例提供的模型训练装置的一种结构示意图;
图15为本申请实施例提供的执行设备的一种结构示意图;
图16为本申请实施例提供的训练设备一种结构示意图;
图17为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本文中所用用语“基本(substantially)”、“大约(about)”及类似用语用作近似用语、而并非用作程度用语,且旨在考虑到所属领域中的普通技术人员将知的测量值或计算值的固有偏差。此外,在阐述本发明实施例时使用“可(may)”是指“可能的一个或多个实施例”。本文中所用用语“使用(use)”、“正使用(using)”、及“被使用(used)”可被视为分别与用语“利用(utilize)”、“正利用(utilizing)”、及“被利用(utilized)”同义。另外,用语“示例性(exemplary)”旨在指代实例或例示。
首先对人工智能系统总体工作流程进行描述,请参见图1A,图1A示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
本申请可以应用于人工智能领域的自然语言处理领域中,下面以自然语言处理为例将对多个落地到产品的多个应用场景进行介绍。
首先介绍本申请的应用场景,本申请可以但不限于应用在包含基于代码的属性描述进行的程序合成功能或者代码补全功能的应用程序(以下可以简称为程序合成类应用程序)或者云侧服务器提供的云服务等,接下来分别进行介绍:
一、程序合成类应用程序
本申请实施例的产品形态可以为程序合成类应用程序。程序合成类应用程序可以运行在终端设备或者云侧的服务器上。
在一种可能的实现中,程序合成类应用程序可以实现基于代码的属性描述(或者可以称之为提示)进行的程序合成或者代码补全的任务,其中,程序合成类应用程序可以响应于输入的代码的属性描述(或者可以称之为提示)而执行程序合成或者代码补全的任务,得到预测文本(也就是生成的代码程序),生成的代码程序可以符合代码的属性描述。
在一种可能的实现中,用户可以打开终端设备上安装的程序合成类应用程序,并输入代码的属性描述(或者可以称之为提示),程序合成类应用程序可以通过本申请实施例提供的方法训练得到的自然语言模型对代码的属性描述进行程序合成或者代码补全,并将预测文本(也就是生成的代码程序)呈现给用户(呈现方式可以但不限于是显示、保存、上传到云侧等)。
在一种可能的实现中,用户可以打开终端设备上安装的程序合成类应用程序,并输入代码的属性描述,程序合成类应用程序可以将代码的属性描述发送至云侧的服务器,云侧的服务器通过本申请实施例提供的方法训练得到的自然语言模型对代码的属性描述进行程序合成或者代码补全,并将预测文本(也就是生成的代码程序)回传至终端设备,终端设备可以将预测文本(也就是生成的代码程序)呈现给用户(呈现方式可以但不限于是显示、保存、上传到云侧等)。
接下来分别从功能架构以及实现功能的产品架构介绍本申请实施例中的程序合成类应用程序。
参照图1B,图1B为本申请实施例中程序合成类应用程序的功能架构示意:
在一种可能的实现中,如图1B所示,程序合成类应用程序102可接收输入的参数101(例如包含代码的属性描述)且产生预测文本(也就是生成的代码程序)103。程序合成类应用程序102可在(举例来说)至少一个计算机系统上执行,且包括计算机代码,所述计算机代码在由一或多个计算机执行时致使所述计算机执行用于执行通过本申请实施例提供的方法训练得到的自然语言模型。
参照图1C,图1C为本申请实施例中运行程序合成类应用程序的实体架构示意:
参见图1C,图1C示出了一种系统架构示意图。该系统可以包括终端100、以及服务器200。其中,服务器200可以包括一个或者多个服务器(图1C中以包括一个服务器作为示例进行说明),服务器200可以为一个或者多个终端提供程序合成功能服务。
其中,终端100上可以安装有程序合成类应用程序,或者打开与程序合成功能相关的网页,上述应用程序和网页可以提供一个界面,终端100可以接收用户在程序合成功能界面上输入的相关参数,并将上述参数发送至服务器200,服务器200可以基于接收到的参数,得到处理结果,并将处理结果返回至至终端100。
应理解,在一些可选的实现中,终端100也可以由自身完成基于接收到的参数,得到处理结果的动作,而不需要服务器配合实现,本申请实施例并不限定。
接下来描述图1C中终端100的产品形态;
本申请实施例中的终端100可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等,本申请实施例对此不作任何限制。
图1D示出了终端100的一种可选的硬件结构示意图。
参考图1D所示,终端100可以包括射频单元110、存储器120、输入单元130、显示单元140、摄像头150(可选的)、音频电路160(可选的)、扬声器161(可选的)、麦克风162(可选的)、处理器170、外部接口180、电源190等部件。本领域技术人员可以理解,图1D仅仅是终端或多功能设备的举例,并不构成对终端或多功能设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
输入单元130可用于接收输入的数字或字符信息,以及产生与该便携式多功能装置的用户设置以及功能控制有关的键信号输入。具体地,输入单元130可包括触摸屏131(可选的)和/或其他输入设备132。该触摸屏131可收集用户在其上或附近的触摸操作(比如用户使用手指、关节、触笔等任何适合的物体在触摸屏上或在触摸屏附近的操作),并根据预先设定的程序驱动相应的连接装置。触摸屏可以检测用户对触摸屏的触摸动作,将该触摸动作转换为触摸信号发送给该处理器170,并能接收该处理器170发来的命令并加以执行;该触摸信号至少包括触点坐标信息。该触摸屏131可以提供该终端100和用户之间的输入界面和输出界面。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触摸屏。除了触摸屏131,输入单元130还可以包括其他输入设备。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键132、开关按键133等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,输入设备132可以接收到输入的代码的属性描述等等。
该显示单元140可用于显示由用户输入的信息或提供给用户的信息、终端100的各种菜单、交互界面、文件显示和/或任意一种多媒体文件的播放。在本申请实施例中,显示单元140可用于显示程序合成类应用程序的界面、生成的预测文本(也就是生成的代码程序)等。
该存储器120可用于存储指令和数据,存储器120可主要包括存储指令区和存储数据区,存储数据区可存储各种数据,如多媒体文件、文本等;存储指令区可存储操作系统、应用、至少一个功能所需的指令等软件单元,或者他们的子集、扩展集。还可以包括非易失性随机存储器;向处理器170提供包括管理计算处理设备中的硬件、软件以及数据资源,支持控制软件和应用。还用于多媒体文件的存储,以及运行程序和应用的存储。
处理器170是终端100的控制中心,利用各种接口和线路连接整个终端100的各个部分,通过运行或执行存储在存储器120内的指令以及调用存储在存储器120内的数据,执行终端100的各种功能和处理数据,从而对终端设备进行整体控制。可选的,处理器170可包括一个或多个处理单元;优选的,处理器170可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器170中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,他们也可以在独立的芯片上分别实现。处理器170还可以用于产生相应的操作控制信号,发给计算处理设备相应的部件,读取以及处理软件中的数据,尤其是读取和处理存储器120中的数据和程序,以使其中的各个功能模块执行相应的功能,从而控制相应的部件按指令的要求进行动作。
其中,存储器120可以用于存储数据处理方法相关的软件代码,处理器170可以执行芯片的数据处理方法的步骤,也可以调度其他单元(例如上述输入单元130以及显示单元140)以实现相应的功能。
该射频单元110(可选的)可用于收发信息或通话过程中信号的接收和发送,例如,将基站的下行信息接收后,给处理器170处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,射频单元110还可以通过无线通信与网络设备和其他设备通信。该无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General PacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
其中,在本申请实施例中,该射频单元110可以将代码的属性描述发送至服务器200,并接收到服务器200发送的预测文本(也就是生成的代码程序)。
应理解,该射频单元110为可选的,其可以被替换为其他通信接口,例如可以是网口。
终端100还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器170逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
终端100还包括外部接口180,该外部接口可以是标准的Micro USB接口,也可以使多针连接器,可以用于连接终端100与其他装置进行通信,也可以用于连接充电器为终端100充电。
尽管未示出,终端100还可以包括闪光灯、无线保真(wireless fidelity,WiFi)模块、蓝牙模块、不同功能的传感器等,在此不再赘述。下文中描述的部分或全部方法均可以应用在如图1D所示的终端100中。
接下来描述图1C中服务器200的产品形态;
图2提供了一种服务器200的结构示意图,如图2所示,服务器200包括总线201、处理器202、通信接口203和存储器204。处理器202、存储器204和通信接口203之间通过总线201通信。
总线201可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器202可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器204可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器204还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard drivedrive,HDD)或固态硬盘(solid state drive,SSD)。
其中,存储器204可以用于存储数据处理方法相关的软件代码,处理器202可以执行芯片的数据处理方法的步骤,也可以调度其他单元以实现相应的功能。
应理解,上述终端100和服务器200可以为集中式或者是分布式的设备,上述终端100和服务器200中的处理器(例如处理器170以及处理器202)可以为硬件电路(如专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、通用处理器、数字信号处理器(digital signalprocessing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,处理器可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
应理解,本申请实施例中的和模型推理过程相关的步骤涉及AI相关的运算,在执行AI运算时,终端设备和服务器的指令执行架构不仅仅局限在上述介绍的处理器结合存储器的架构。下面结合图5对本申请实施例提供的系统架构进行详细的介绍。
图5为本申请实施例提供的系统架构示意图。如图5所示,系统架构500包括执行设备510、训练设备520、数据库530、客户设备540、数据存储系统550以及数据采集系统560。
执行设备510包括计算模块511、I/O接口512、预处理模块513和预处理模块514。计算模块511中可以包括目标模型/规则501,预处理模块513和预处理模块514是可选的。
其中,执行设备510可以为上述运行程序合成类应用程序的终端设备或者服务器。
数据采集设备560用于采集训练样本。训练样本可以为程序文件(包括程序代码以及程序代码的属性描述)等。在采集到训练样本之后,数据采集设备560将这些训练样本存入数据库530。
训练设备520可以基于数据库530中维护训练样本,对待训练的神经网络(例如本申请实施例中的自然语言模型等),以得到目标模型/规则501。
需要说明的是,在实际应用中,数据库530中维护的训练样本不一定都来自于数据采集设备560的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备520也不一定完全基于数据库530维护的训练样本进行目标模型/规则501的训练,也有可能从云端或其他地方获取训练样本进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备520训练得到的目标模型/规则501可以应用于不同的系统或设备中,如应用于图5所示的执行设备510,该执行设备510可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备,车载终端等,还可以是服务器等。
具体的,训练设备520可以将训练后的模型传递至执行设备510。
在图5中,执行设备510配置输入/输出(input/output,I/O)接口512,用于与外部设备进行数据交互,用户可以通过客户设备540向I/O接口512输入数据(例如本申请实施例中代码的属性描述等)。
预处理模块513和预处理模块514用于根据I/O接口512接收到的输入数据进行预处理。应理解,可以没有预处理模块513和预处理模块514或者只有的一个预处理模块。当不存在预处理模块513和预处理模块514时,可以直接采用计算模块511对输入数据进行处理。
在执行设备510对输入数据进行预处理,或者在执行设备510的计算模块511执行计算等相关的处理过程中,执行设备510可以调用数据存储系统550中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统550中。
最后,I/O接口512将处理结果(例如预测文本(也就是生成的代码程序)等)提供给客户设备540,从而提供给用户。
在图5所示情况下,用户可以手动给定输入数据,该“手动给定输入数据”可以通过I/O接口512提供的界面进行操作。另一种情况下,客户设备540可以自动地向I/O接口512发送输入数据,如果要求客户设备540自动发送输入数据需要获得用户的授权,则用户可以在客户设备540中设置相应权限。用户可以在客户设备540查看执行设备510输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备540也可以作为数据采集端,采集如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果作为新的样本数据,并存入数据库530。当然,也可以不经过客户设备540进行采集,而是由I/O接口512直接将如图所示输入I/O接口512的输入数据及输出I/O接口512的输出结果,作为新的样本数据存入数据库530。
值得注意的是,图5仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图5中,数据存储系统550相对执行设备510是外部存储器,在其它情况下,也可以将数据存储系统550置于执行设备510中。应理解,上述执行设备510可以部署于客户设备540中。
从模型的推理侧来说:
本申请实施例中,上述执行设备520的计算模块511可以获取到数据存储系统550中存储的代码来实现本申请实施例中的和模型推理过程相关的步骤。
本申请实施例中,执行设备520的计算模块511可以包括硬件电路(如专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、通用处理器、数字信号处理器(digital signalprocessing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,训练设备520可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
具体的,执行设备520的计算模块511可以为具有执行指令功能的硬件系统,本申请实施例提供的和模型推理过程相关的步骤可以为存储在存储器中的软件代码,执行设备520的计算模块511可以从存储器中获取到软件代码,并执行获取到的软件代码来实现本申请实施例提供的和模型推理过程相关的步骤。
应理解,执行设备520的计算模块511可以为不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合,本申请实施例提供的和模型推理过程相关的步骤的部分步骤还可以通过执行设备520的计算模块511中不具有执行指令功能的硬件系统来实现,这里并不限定。
从模型的训练侧来说:
本申请实施例中,上述训练设备520可以获取到存储器(图5中未示出,可以集成于训练设备520或者与训练设备520分离部署)中存储的代码来实现本申请实施例中和模型训练相关的步骤。
本申请实施例中,训练设备520可以包括硬件电路(如专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gatearray,FPGA)、通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器等等)、或这些硬件电路的组合,例如,训练设备520可以为具有执行指令功能的硬件系统,如CPU、DSP等,或者为不具有执行指令功能的硬件系统,如ASIC、FPGA等,或者为上述不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合。
应理解,训练设备520可以为不具有执行指令功能的硬件系统以及具有执行指令功能的硬件系统的组合,本申请实施例提供的中和模型训练相关的部分步骤还可以通过训练设备520中不具有执行指令功能的硬件系统来实现,这里并不限定。
二、服务器提供的程序合成功能类云服务:
在一种可能的实现中,服务器可以通过应用程序编程接口(applicationprogramming interface,API)为端侧提供程序合成功能的服务。
其中,终端设备可以通过云端提供的API,将相关参数(例如包含代码的属性描述)发送至服务器,服务器可以基于接收到的参数,得到处理结果(例如预测文本(也就是生成的代码程序)等),并将处理结果返回至至终端。
关于终端以及服务器的描述可以上述实施例的描述,这里不再赘述。
如图6示出了使用一项云平台提供的程序合成功能类云服务的流程。
1.开通并购买内容审核服务。
2.用户可以下载内容审核服务对应的软件开发工具包(software developmentkit,SDK),通常云平台提供多个开发版本的SDK,供用户根据开发环境的需求选择,例如JAVA版本的SDK、python版本的SDK、PHP版本的SDK、Android版本的SDK等。
3.用户根据需求下载对应版本的SDK到本地后,将SDK工程导入至本地开发环境,在本地开发环境中进行配置和调试,本地开发环境还可以进行其他功能的开发,使得形成一个集合了程序合成功能类能力的应用。
4.程序合成功能类应用在被使用的过程中,当需要进行程序合成功能时,可以触发程序合成功能的API调用。当应用触发程序合成功能功能时,发起API请求至云环境中的程序合成功能类服务的运行实例,其中,API请求中携带代码的属性描述,由云环境中的运行实例对代码的属性描述进行处理,获得处理结果(例如预测文本(也就是生成的代码程序)等)。
5.云环境将处理结果返回至应用,由此完成一次的程序合成功能服务调用。
三、服务器提供的模型训练类云服务:
在一种可能的实现中,服务器可以基于客户提供的训练数据(例如可以包括程序代码以及代码的属性描述),来提供一个适配于该代码程序的领域的程序合成功能的模型。
在一种可能的实现中,服务器可以通过应用程序编程接口(applicationprogramming interface,API)为端侧提供模型训练的服务。
其中,终端设备可以通过云端提供的API,将相关参数(例如代码的属性描述)发送至服务器,服务器可以基于接收到的参数,得到处理结果,并将处理结果(例如适配于该代码程序的领域的程序合成功能的模型等)返回至终端。
如图7示出了使用一项云平台提供的模型训练类云服务的流程。
关于终端以及服务器的描述可以上述实施例的描述,这里不再赘述。
四、联邦训练
联邦学习分为模型下发和模型上传两个步骤,中心节点将模型通过网络下发至终端设备;各终端设备利用本地数据计算模型的梯度;各分布式节点将梯度加密后上传至中心节点;中心节点汇总各终端分布式节点的梯度,并采用参数平均算法更新中心节点模型的参数。
参见图8,图8为本申请实施例提供的一种模型训练方法的架构示意,如图8所示,本申请实施例提供的架构包括:云侧中心节点,例如可以是云侧的服务器。A1、A2、…为类型为A的分布式节点,如用户持有的手机产品。B1、B2、…为类型为B的分布式节点,如用户持有的个人电脑。在经过分布式节点的管理员(如手机、电脑的用户)同意后,分布式节点的管理员自愿在隐私得到保护的情况下共享其日常使用设备的过程中产生的数据,加入到模型训练计划,设备成为架构中的分布式节点。本实施例中的系统也可以包含更多类型的分布式节点,如智能手表等等。为保护数据隐私,分布式节点不会将数据上传至中心节点,仅在本地保存数据。分布式节点通过通信网络与云服务器连接。云侧中心节点可以运行大模型,而各分布式节点受硬件能力限制只能运行小模型,且A和B可以拥有不同的数据处理能力。
为了更好地理解本申请实施例的方案,下面先结合图2至图4对本申请实施例可能的应用场景进行简单的介绍。
图3示出了一种自然语言处理系统,该自然语言处理系统包括用户设备以及数据处理设备。其中,用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为自然语言数据处理的发起端,作为语言问答或者查询等请求的发起方,通常用户通过用户设备发起请求。
上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习,深度学习,搜索,推理,决策等方式的语言数据处理,并将处理结果反馈至用户设备。数据处理设备中的存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以在数据处理设备上,也可以在其它网络服务器上。
在图3所示的自然语言处理系统中,用户设备可以接收用户的指令,例如用户设备可以接收用户输入的一段文本,然后向数据处理设备发起请求,使得数据处理设备针对用户设备得到的该一段文本执行自然语言处理应用(例如自然语言生成、文本分类、文本推理、命名实体识别、翻译等),从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如预测词结果、分类结果、推理结果、命名实体识别结果、翻译结果等)。
其中,在本申请实施例中,用户设备可以接收用户的指令,例如用户设备可以接收用户输入的一段文本(例如代码的属性描述),然后向数据处理设备发起请求,使得数据处理设备针对用户设备得到的该一段文本执行自然语言处理应用(例如程序合成等),从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如预测文本(也就是生成的代码程序)等)。
文本(例如第一文本或者第二文本)在图3中,数据处理设备可以通过本申请实施例提供的方法训练得到的自然语言模型来处理上述文本数据。
图4示出了另一种自然语言处理系统,在图4中,用户设备直接作为数据处理设备,该用户设备能够直接接收来自用户的输入并直接由用户设备本身的硬件进行处理,具体过程与图3相似,可参考上面的描述,在此不再赘述。
图4是本申请实施例提供的自然语言处理的相关设备300的示意图。
上述图3和图4中的用户设备具体可以是图4中的本地设备301或者本地设备302,图3中的数据处理设备具体可以是图4中的执行设备310,其中,数据存储系统350可以存储执行设备310的待处理数据,数据存储系统350可以集成在执行设备310上,也可以设置在云上或其它网络服务器上。
图3和图4中的处理器可以通过神经网络模型或者其它模型进行数据训练/机器学习/深度学习,并利用数据最终训练或者学习得到的模型(例如本申请实施例中的自然语言模型自然语言模型等等)针对文本数据(例如本申请实施例中描述的代码的属性描述文本(例如第一文本或者第二文本))执行自然语言处理应用(例如程序合成等),从而得到相应的处理结果(例如预测文本(也就是生成的代码程序)预测文本等等)。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs(即输入数据)和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)transformer层
参照图5,图5为一种transformer层的架构示意,如图5所示,神经网络包括嵌入层和至少一个transformer层,至少一个transformer层可以为N个transformer层(N大于0的整数),其中,每个transformer层包括依次相邻的注意力层、加和与归一化(add&norm)层、前馈(feed forward)层和加和与归一化层。在嵌入层,对当前输入进行嵌入处理,得到多个嵌入向量;在所述注意力层,从所述第一transformer层的上一层获取P个输入向量,以P个输入向量中的任意的第一输入向量为中心,基于预设的注意力窗口范围内的各个输入向量与该第一输入向量之间的关联度,得到该第一输入向量对应的中间向量,如此确定出P个输入向量对应的P个中间向量;在所述池化层,将所述P个中间向量合并为Q个输出向量,其中transformer层中最后一个transformer层得到的多个输出向量用作所述当前输入的特征表示。
(3)注意力机制(attention mechanism)
注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制,能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。注意力机制的本质思想可以改写为如下公式:
其中,Lx=||Source||代表Source的长度,公式含义即将Source中的构成元素想象成是由一系列的数据对构成,此时给定目标Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value的权重系数。从概念上理解,把Attention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上,权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。自注意力机制可以理解为内部Attention(intra attention),Attention机制发生在Target的元素Query和Source中的所有元素之间,自注意力机制指的是在Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制,其具体计算过程是一样的,只是计算对象发生了变化而已。
(4)自然语言处理(natural language processing,NLP)
自然语言(natural language)即人类语言,自然语言处理(NLP)就是对人类语言的处理。自然语言处理是以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP及其组件,我们可以管理非常大块的文本数据,或者执行大量的自动化任务,并且解决各式各样的问题,如自动摘要(automatic summarization),机器翻译(machine translation,MT),命名实体识别(named entity recognition,NER),关系提取(relation extraction,RE),信息抽取(information extraction,IE),情感分析,语音识别(speech recognition),问答系统(question answering)以及主题分割等等。
(5)预训练语言模型(pre-trained language model)
预训练语言模型是一个自然语言序列编码器,为自然语言序列中的每个词进行编码成为一个向量表示,从而进行预测任务。它的训练包含两个阶段。在预训练(pre-training)阶段,该模型在大规模无监督文本上进行语言模型任务的训练,从而学习到一个词表示。在微调(finetuning)阶段,该模型利用预训练阶段学到的参数做初始化,在文本分类(text classification),序列标注(sequence labeling)等下游任务(downstreamtask)上进行较少步骤的训练,就可以成功把预训练得到的语义信息成功迁移到下游任务上来。
(6)自回归语言模型(autoregressive language model)
自回归语言模型是指能够根据给定的上下文(如“手机很”)预测下一个可能跟随的词(如“不错”)的模型,该模型通常是给定左侧上文预测右侧下文中的词,但也可以是给定左侧和右侧的上下文预测中间的某个词。
(7)程序语言(programming language):用来定义计算机指令执行流程的形式化语言。
(8)程序合成(program synthesis):根据提示(例如代码的属性描述等)生成程序的过程。
(9)代码补全(code completion):根据给定代码片段生成完整代码段落的过程
(10)函数(function):程序语言中定义某些特定功能的完整代码段落
(11)抽象语法树(abstract syntax tree,AST):一种以树状的形式表现程序语言代码的抽象语法结构
(12)因果语言建模(causal language modeling,CLM):通过预测字符序列的下一个字符的方式进行模型训练
(13)掩码语言建模(masked language modeling,MLM):通过预测字符序列中掩码位置上的原始字符的方式进行模型训练
(14)掩码因果语言建模(masked causal language modeling,MCLM):通过根据前文预测字符序列中掩码位置上的原始字符的方式进行模型训练
(15)无语言建模(no language modeling,NoLM):不对此范围内的字符进行loss计算,此范围内的字符不参与模型训练。
(16)反向传播算法
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
(17)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(18)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
程序合成指的是由一定的软件程序来自动合成具有指定功能或者结构的指定程序语言序列,简而言之就是由程序来生成程序,总体上分为程序合成(代码生成)以及代码补全两种。程序合成,即从无到有,可以按一定的自然语言描述或预设的功能描述,生成对应的代码。代码补全,即在已有的代码序列上文基础上,继续生成下文代码序列。
语言模型指的是对语言序列,如自然语言或者程序语言的建模,现在大部分使用神经网络来进行语言模型建模,即通过神经网络模型,对语言序列的出现概率进行预测,以生成语言模型为例,即预测每个序列位置出现某个字,词等语言单位的概率,例如著名的GPT语言模型,就是通过搭建多个神经网络计算单元transformer组成解码器网络,解码器通过根据已有的上文,预测下一个位置的语言单位可能出现的词,通过迭代直至整个序列预测完成,即解码完成。
语言模型的预训练是指通过海量的语言序列语料,训练对应的语言模型,使得语言模型具备预测某个位置某个语言单位出现概率的能力。
随着深度学习技术的发展,利用深度学习进行序列生成已经被广泛应用在自然语言序列生成的场景上,特别是预训练语言生成模型技术的出现,使得语言生成能力有了质的提升。近年来,类似生成式预训练模型(generative pre-training,GPT)、T5、BART等生成模型也开始逐渐被引入代码生成或者补全中。该技术以Transformer为基础部件,搭件解码器或者,编码-解码器模型架构,再用大量的代码数据进行训练,得到可以根据上文输出相应代码下文的能力,从而进行代码补全或者生成。
现有的技术沿用自然语言处理的生成方式,根据原始的代码进行训练,当前这种方式能够根据已有上下文进行代码的续写,但是针对函数级代码的生成这个场景,代码生成的质量还有待提升。
为了解决上述问题,本申请实施例提供了一种模型训练方法。下面结合附图对本申请实施例的模型训练方法进行详细的介绍。
参照图9,图9为本申请实施例提供的一种模型训练方法的流程示意,如图9所示,本申请实施例提供的一种模型训练方法,可以包括步骤901至902,下面分别对这些步骤进行详细的描述。
901、获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;
在一种可能的实现中,为了获取到作为训练样本的第一文本以及第二文本,可以获取到原始的语料(例如本申请实施例中的原始代码文本),并从原始代码文本中提取出第一文本以及第二文本。
关于原始代码文本:
其中,原始代码文本可以为已有的程序语言语料及自然语言语料。可选的,可以通过网络(或者其他方式)获取已有的程序语言语料及自然语言语料,该语料包括混合程序语言及自然语言的代码文件、程序语言的代码文件、自然语言的文件。其中,收集的自然语言可以是任意人类语言,程序语言可以是任意编程语言,本申请并不限定。
在一种可能的实现中,可以对原始代码文本进行数据去重、文件去重或者函数代码去重等,进而将语料中的重复文件或者重复函数代码去重,减少语料总量,提升处理和训练效率。
关于第一文本和第二文本:
在一种可能的实现中,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述。第二文本可以为自然语言,且第二文本可以是任意的人类沟通时使用的语言,程序代码可以是任意编程语言,本申请并不限定。
在一种可能的实现中,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理(或者称之为该程序代码的解释)。例如,可以参照图10A,图10A示出的框中为属性描述,其余为程序代码,其中包含两个函数:“euclidean_distance”、“classifier”。参照图10B,图10B为函数“classifier”的一个代码文本以及对应的属性描述的示意,参照图10C,图10C为函数“classifier”的一个代码文本示意,图10D为函数“classifier”的一个属性描述示意。
在一种可能的实现中,可以识别原始代码文本中的函数代码段作为第一文本:例如,可以使用一定规则(例如可以使用代码抽象语法树(AST)等程序代码识别方法)识别原始代码文本中的函数代码段。
在一种可能的实现中,可以识别原始代码文本中的自然语言作为第二文本(和识别出的第一文本相关联):例如,可以使用一定规则(例如可以使用自然语言识别的方法)来识别原始代码文本中的代码的属性描述。
在一种可能的实现中,在识别出第一文本和第二文本之后,可以建立第一文本以及第二文本之间的对应关系,以形成“自然语言描述-函数实现代码”(Description-Function)的句对形式样本。可选的,可以在每组自然语言-程序语言前使用表示字符组合来表示接下来的序列为文本语言序列或者具体的代码语言序列,并在样本之后添加样本结束符,进而可以表示出第一文本和第二文本为一对样本。
本申请实施例中,在构建程序合成的训练样本时,从原始的程序代码中提取代码文本和对应的属性描述并作为一对样本,相比现有技术中直接将原始的程序文件作为训练样本,帮助自然语言模型在训练时可以将代码文本和对应的属性描述之间建立关联,而无需在训练过程中从样本中学习到识别这种关联的能力,降低了训练难度,提高了模型的预测精度。
在一种可能的实现中,可以从原始语料或过滤及清洗后的原始语料中提取第一文本(或者称之为程序语言函数级代码片段)及其相应的第二文本(或者称之为自然语言描述),构造“自然语言描述-程序语言函数代码对”。可选的,可以通过一些规则方法提取程序语言函数级代码片段及其相应的自然语言描述,可选的,可以通过抽象语法树(AST)提取程序语言函数级代码片段及其相应的自然语言描述,可选的,可以通过其他自动化方法提取程序语言函数级代码片段及其相应的自然语言描述。可选的,可以从混合程序语言及自然语言的代码文件中提取程序语言函数代码、自然语言描述,可选的,可以从程序语言的代码文件中提取程序语言函数代码,可选的,可以从自然语言的文件中提取自然语言描述。可选的,可以通过混合程序语言及自然语言的代码文件中程序语言代码片段与自然语言描述的对应关系构造“自然语言描述-程序语言函数代码对”,可选的,可以通过其他程序语言代码片段与自然语言描述的对应关系构造“自然语言描述-程序语言函数代码对”。
在一种可能的实现中,为了提高训练语料的质量,可以对函数级代码片段(例如代码程序)进行归一化、规范代码语法或者统一代码风格等处理。示例性的,可以使用一定规则(例如代码抽象语法树(AST))对代码进行解析,抽取纯代码部分,对空格、缩进等风格进行统一化,使得数据归一化。
在一种可能的实现中,为了提高训练语料的质量,可以对函数级代码片段(例如代码程序)根据其代码语料的统计特性,去除代码语料中自然语言描述部分过短的语料、代码部分过长的语料或者两者长度相差过大的语料,以提升训练语料质量。
在一种可能的实现中,由于训练样本通常难以获取到,也就是训练样本(第一文本和第二文本构成的文本对)的数量较少,可以对已获取训练样本进行数据增强,来得到更多的训练样本。
在一种可能的实现中,所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。例如可以基于反向翻译技术生成同义片段,或者可以是基于同义句生成技术生成同义片段。
例如,可以对代码文本中的变量名进行随机替换、(循环)代码段等价替换以及随机插入无效代码段等方式,大量获得高质量自动生成的训练数据,最终提升模型性能。
在一种可能的实现中,所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。例如可以基于反向翻译技术生成同义片段,或者可以是基于同义句生成技术生成同义片段。
例如,可以通过对自然语言描述中进行同义词替换,句式变换,或者使用自然语言处理技术中的复述生成模型或者方法,数据增广方法,数据加噪方法对自然语言描述进行增广,大量获得高质量自动生成的训练数据,最终提升模型性能。
在一种可能的实现中,在模型训练的不同阶段,可以对训练样本进行不同的处理,例如,在模型训练初期迭代阶段可以采用上述方式得到的第一文本以及第二文本,而在模型训练的微调阶段,可以从原始代码文本中提取出适配于所述程序代码的应用领域的文本(同样包括程序代码以及对应的代码属性描述)作为训练样本。
在一种可能的实现中,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。在一种可能的实现中,所述适配于所述程序代码的应用领域,包括:文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。或者,还可以采用除了长度之外的其他维度的信息来量化和程序代码的应用领域。
在一种可能的实现中,可以基于数据样本与函数级代码生成器的应用领域的数据样本的相似度来过滤样本。相似度计算方法,可以是自然语言描述之间的长度关系,可以是程序语言函数代码之间的长度关系,也可以是其他关系。
在一种可能的实现中,为了训练能够用于进行程序生成功能的模型(也就是本申请实施例中的自然语言模型),可以将训练样本中的部分文本单元作为已知文本,另一部分文本作为待预测的文本,并基于已知文本来预测待预测的文本所在的文本位置的文本。
由于第一文本和第二文本为不同类型的文本(第一文本为计算机编译语言,第二文本为自然语言),可以针对于第一文本和第二文本通过不同的训练目标进行文本预测过程。
例如,针对于第一文本,可以采用CLM、MLM、MCLM以及NoLM四种训练目标中的一种进行文本预测过程。
例如,针对于第二文本,可以采用CLM、MLM以及MCLM三种训练目标中的一种进行模型训练过程。
在优化自然语言描述部分时,可选CLM、MLM、MCLM、NoLM四种训练目标中的一种。在优化程序语言函数代码部分时,可选CLM、MLM、MCLM三种训练目标中的一种,注意此处可以不包括NoLM训练目标。自然语言描述部分和程序语言函数代码部分训练目标可自由组合。
在一种可能的实现中,在对所述第一文本中的文本进行预测时,可以通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;在对所述第二文本中的文本进行预测时,可以通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
在一种可能的实现中,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置(也就是MLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本(也就是CLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本(也就是MCLM)。
在一种可能的实现中,还可以在不对第二文本中的文本进行预测的情况下(也就是NoLM),通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置(也就是MLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本(也就是CLM);
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本(也就是MCLM)。
接下来分别介绍CLM、MLM、MCLM以及NoLM。
关于CLM:
在模型训练的前馈过程中,自然语言模型可以沿着预设的上下文预测方向,依次进行文本的预测,也就是说,自然语言模型已经预测出的词的全部可以作为已知文本,且已知文本用于作为位置文本的上文来进行预测文本所在文本位置的文本预测,例如,可以沿着由上文到下文的顺序(也就是从文本开头到文本末尾的顺序)进行预测,每次可以预测一个文本单元,并在下次预测时基于已经预测出的文本单元继续进行预测,例如,文本可以为“the cat sat on the mat”,在第一次预测时,可以通过初始标识位预测“the”所处的文本位置的文本,在下一次预测时,可以通过初始标识位置以及“the”来预测“cat”所处的文本位置的文本,在下一次预测时,可以通过初始标识位置、“the”以及“cat”来预测“sat”所处的文本位置的文本。
在处理第一文本或者第二文本时都可以采用CLM的训练目标进行训练。
例如,在使用第二文本进行模型训练时,可以采用CLM的训练目标进行自然语言模型的训练,在预测完第二文本后,可以非CLM的训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
例如,在使用第二文本进行模型训练时,可以采用非CLM的训练目标进行自然语言模型的训练,在预测完第二文本后,可以采用CLM的训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
关于MLM:
在模型训练的前馈过程中,可以对文本(例如第二文本或者第一文本)中的文本单元进行掩码(例如可以为随机掩码),掩码后的文本单元可以作为预测文本,未被掩码的文本单元可以作为已知文本,自然语言模型可以基于未被掩码的文本单元(或者已经预测出的掩码后的文本单元),依次进行掩码后的文本单元所在文本位置的文本预测,例如,文本可以为“the cat sat on the mat”,对文本进行掩码后,可以得到“the_sat_the mat”,其中,这里的符号“_”的含义是掩码,而不是指下划线在。第一次预测时,可以通过初始标识位以及未被掩码的文本单元,预测其中一个“_”所处的文本位置的文本。
在处理第一文本或者第二文本时都可以采用MCL的训练目标进行训练。
例如,在使用第二文本进行模型训练时,可以采用MCL的训练目标进行自然语言模型的训练,在预测完第二文本后,可以非MCL的训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
例如,在使用第二文本进行模型训练时,可以采用非MCL的训练目标进行自然语言模型的训练,在预测完第二文本后,可以采用MCL的训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
关于MCLM:
在模型训练的前馈过程中,自然语言模型可以沿着预设的上下文预测方向,依次进行文本的预测,和CLM不同的是,在CLM中自然语言模型已经预测出的词的全部可以作为已知文本,且已知文本用于作为位置文本的上文来进行预测文本所在文本位置的文本预测,在MCLM中,可以对MCLM中自然语言模型已经预测出的词进行掩码,可以使用自然语言模型已经预测出的词中未被掩码的文本单元来进行预测文本所在文本位置的文本预测,例如,可以沿着由上文到下文的顺序(也就是从文本开头到文本末尾的顺序)进行预测。
例如,可以沿着由上文到下文的顺序(也就是从文本开头到文本末尾的顺序)进行预测,每次可以预测一个文本单元,并在下次预测时基于已经预测出的文本单元继续进行预测,例如,文本可以为“the cat sat on the mat”,在第一次预测时,可以通过初始标识位预测“the”所处的文本位置的文本,并对初始标识位以及“the”进行掩码,若“the”被掩码,则在下一次预测时,可以通过初始标识位置来预测“cat”所处的文本位置的文本。
在处理第一文本或者第二文本时都可以采用MCLM的训练目标进行训练。
例如,在使用第二文本进行模型训练时,可以采用MCLM的训练目标进行自然语言模型的训练,在预测完第二文本后,可以非MCLM训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
例如,在使用第二文本进行模型训练时,可以采用非MCLM的训练目标进行自然语言模型的训练,在预测完第二文本后,可以采用MCLM的训练目标使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
关于NoLM:
在模型训练的前馈过程中,可以不对第二文本进行预测,而直接将第二文本作为已知文本,并将第一文本作为训练样本,进行第一文本中文本单元的预测,例如可以使用CLM、MLM、MCLM等训练目标将第一文本作为训练样本,进行第一文本中文本单元的预测。
例如,第二文本可以作为已知文本参与使用第一文本进行模型训练的过程,可以将CLM、MLM、MCLM等作为训练目标,并使用第一文本进行模型训练(此时第二文本可以作为已知文本参与使用第一文本进行模型训练的过程)。
在一种可能的实现中,可以将可选的4种训练目标(CLM、MLM、MCLM、NoLM)分别应用在“描述-函数对”(Description-Function)的自然语言描述或函数代码上,组合形成12种训练目标,例如:
(1)全因果语言建模(Description-CLM结合Function-CLM):自然语言描述部分应用CLM训练目标,函数代码部分应用CLM训练目标。同时训练自然语言描述理解能力及函数代码生成能力。
(2)描述掩码语言建模及代码因果语言建模(Description-MLM结合Function-CLM):自然语言描述部分应用MLM训练目标,函数代码部分应用CLM训练目标。同时训练自然语言描述理解能力及函数代码生成能力。
(3)描述掩码因果语言建模及代码语言建模(Description-MCLM+Function-CLM):自然语言描述部分应用MCLM训练目标,函数代码部分应用CLM训练目标。同时训练自然语言描述理解能力及函数代码生成能力。
(4)描述无语言建模及代码因果语言建模(Description-NoLM+Function-CLM):自然语言描述部分无训练目标,函数代码部分应用CLM训练目标。仅训练函数代码生成能力。
以此类推,还可包括:
(5)Description-CLM结合Function-MLM;
(6)Description-MLM结合Function-MLM;
(7)Description-MCLM结合Function-MLM;
(8)Description-NoLM结合Function-MLM;
(9)Description-CLM结合Function-MCLM;
(10)Description-MLM结合Function-MCLM;
(11)Description-MCLM结合Function-MCLM;
(12)Description-NoLM结合Function-MCLM;
902、根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
在一种可能的实现中,在对自然语言模型进行迭代训练的过程中,可以通过自然语言模型处理已知文本,对预测文本对应文本位置的文本进行预测,得到文本预测结果,并基于文本预测结果和对应真值之间的差异来确定损失,该损失可以用于更新所述自然语言模型。
在一种实现中,可以通过嵌入层对所述已知文本进行嵌入处理,以得到嵌入向量。
其中嵌入层可以称为输入嵌入(input embedding)层。当前输入可以为已知文本中的每个文本单元(或者可以称之为已知数据单元)。嵌入层在获取当前输入后,可以对该当前输入中各个已知数据单元进行嵌入处理,可得到各个已知数据单元对应的嵌入向量。
在一些实施例中,还可以获取每个已知数据单元的位置向量,所述位置向量用于指示已知数据单元的位置;其中,位置用于表示已知数据单元在文本(例如第一文本或者第二文本)中的位置,具体的,所述位置用于指示所述已知数据单元与其他已知数据单元以及所述已知数据单元与预测文本中各个文本单元之间的相对位置关系。
在一种实现中,所述嵌入层可以包括输入嵌入层和位置编码(positionalencoding)层。在输入嵌入层,可以对当前输入中的各个已知数据单元进行词嵌入处理,从而得到各个已知数据单元的嵌入向量。在位置编码层,可以获取各个已知数据单元在该当前输入中的位置,进而对各个已知数据单元的位置生成位置向量。
在一些示例中,各个已知数据单元在文本(例如第一文本或者第二文本)中的位置可以为各个已知数据单元在文本(例如第一文本或者第二文本)中的绝对位置。以当前输入为“几号应还花呗”为例,其中的“几”的位置可以表示为第一位,“号”的位置可以表示为第二位,……。在一些示例中,各个已知数据单元在文本(例如第一文本或者第二文本)中的位置可以为各个已知数据单元在文本(例如第一文本或者第二文本)中的相对位置。仍以当前输入为“几号应还花呗”为例,其中的“几”的位置可以表示为“号”之前,“号”的位置可以表示为“几”之后、“应”之前,……。当得到当前输入中各个已知数据单元的嵌入向量和位置向量时,可以将各个已知数据单元的位置向量和对应的嵌入向量进行融合,得到各个已知数据单元的嵌入向量,即得到该当前输入对应的多个嵌入向量。应理解,融合的方式可以是对嵌入向量和位置向量进行加法运算,或者是通过其他运算使得嵌入向量可以携带文本(例如第一文本或者第二文本)中的一个已知数据单元以及所述一个已知数据单元在所述文本(例如第一文本或者第二文本)中的位置的信息,这里并不限定具体的融合方式。多个嵌入向量可以表示为具有预设维度的嵌入矩阵。可以设定该多个嵌入向量的个数为M,预设维度为H维,则该多个嵌入向量可以表示为M×H的嵌入矩阵。
在一种实现中,还可以通过嵌入层对预测文本在所述文本(例如第一文本或者第二文本)中的位置进行嵌入处理,以得到用于表示所述文本(例如第一文本或者第二文本)中的预测文本在所述文本(例如第一文本或者第二文本)中的位置的嵌入向量,该嵌入向量可以作为后续自然语言模型的输入。其中,所述位置用于指示预测文本中各个文本单元与所述文本(例如第一文本或者第二文本)中各个已知数据单元之间的相对位置关系,关于位置的描述可以参照上述实施例中关于位置的描述,相似之处这里不再赘述。
在一种实现中,自然语言模型可以包括编码器以及解码器,示例性的,编码器以及解码器可以包括多个transformer层。
transformer层的核心特点在于其采用的独特的注意力机制。在处理自然语言,例如一个句子时,transformer模型利用该注意力机制,为句子中各个词的嵌入向量赋予不同的注意力系数,从而更全面地考虑句子中上下文对各个词的影响。具体的transformer层可以包括依次相邻的多头注意力层、加和与归一化(add&norm)层、前馈(feed forward)层、加和与归一化层。其中,注意力层与嵌入层相连,从嵌入层获取多个嵌入向量作为输入向量,基于多个嵌入向量中各个嵌入向量之间的关联度,对各个嵌入向量进行综合,得到多个输出向量,输出给后续的transformer层。transformer层获取前一层的输出作为输入向量,执行与前一级transformer层类似的操作。
编码器可以得到多个输出向量,解码器可以将多个所述第一输出向量以及所述嵌入向量作为输入,得到预测文本的向量表示,应理解,预测文本的向量表示可以再经过一个分类器(例如可采用支持向量机,softmax分类器,K-近邻算法等)来恢复出预测文本。
在一种可能的实现中,可以基于预测文本以及文本预测结构来构建损失,并基于损失更新自然语言模型。
在一种可能的实现中,可以基于预测文本以及文本预测结构来构建损失,并将损失或者基于损失得到的梯度传递至其他设备(例如云侧的服务器),由云侧的服务器执行基于损失或者梯度来更新自然语言模型的动作。
接下来结合软件模块,介绍本申请实施例中的一个应用例:
参照图11,本发明针对函数级代码的生成,整体上包括两个阶段的训练策略,以及代码与文本各自选择不同损失函数训练目标的设计,保证模型第一阶段打基础,第二阶段进阶提升能力的训练提升。在数据准备阶段,针对两阶段目标的不同也设计了针对性的函数级代码语料准备机制,保证能够很好地提升所训练得到生成模型在函数代码生成能力上的出色表现。
如图11所示,具体可以包含:
第一数据模块:提供最原始的数据,收集大量最原始的包含代码的数据,包括但不限于代码工程文件,独立代码片段,脚本文件等。
第二数据模块:基于第一数据模块,提供第一函数级代码生成训练模块训练所需的数据,该模块又可选地由以下装置构成:
1、第一数据过滤器:对第一数据模块中的数据进行初步过滤,可选地去除文件过长或者单行代码过长的数据,去除目标代码语言或者自然语言语种以外的数据等。
2、函数代码段提取器:针对第一数据过滤器所得到的语料数据,识别语料中所有的函数代码段:
可选地使用一定规则、例如通过不同语言的函数定义规则进行识别抽取。
可选地使用现有工具进行代码抽象语法树(AST)分析,对代码进行分析得到对应代码的语法树,通过语法树分析截取对应的函数级代码片段。
可选的使用自然语言处理自动识别的方法进行代码段抽取,例如序列标注的方法,训练函数标注器标注出所有函数级代码。
3、NL-PL样本构造器,识别函数代码片段对应的自然语言描述(如果有):
可选地使用的一定的规则、例如通过注释规则,语言字符规则等进行识别抽取。
可选地使用现有工具进行代码抽象语法树(AST)分析,对代码进行分析得到对应代码的语法树,通过语法树分析截取对应的函数级代码片段对应的自然语言描述。
可选的使用自然语言处理自动识别的方法进行代码段抽取,例如序列标注的方法,训练函数标注器标注出所有函数级代码对应的自然语言描述。
抽取完成的代码级函数和其描述组成“自然语言描述-函数实现代码”(NaturalLanguage–Program Language)的句对形式样本。可选的,可以在不同自然语言、程序语言前使用表示该语言的字符组合来表示接下来的序列为文本语言序列或者具体的代码语言序列,并在样本之后添加样本结束符。
4、数据归一器:可选地对函数级代码片段进行归一化,规范代码语法、统一代码风格,使用可选的一定规则、可选的代码抽象语法树(AST)对代码进行解析,抽取纯代码部分,对空格,缩进等风格进行统一化,使得数据归一以提高语料质量。
第三数据模块:基于第二数据模块,提供第二函数级代码生成训练模块训练所需的数据,可选的针对性过滤,可选的数据增强该模块又可选地由以下装置构成:
1、第二数据过滤器:可选地根据代码语料的统计特性,去除代码语料中自然语言描述部分过短的语料、代码部分过长的语料以及两者长度相差过大的语料。以提升训练语料质量。
2、函数代码增广器:可选地通过对代码中的变量名进行随机替换、(循环)代码段等价替换以及随机插入无效代码段等方式,大量获得高质量自动生成的训练数据,最终提升模型性能
3、自然语言增广器:可选地通过对自然语言描述中进行同义词替换,句式变换,或者使用自然语言处理技术中的复述生成模型或者方法,数据增广方法,数据加噪方法对自然语言描述进行增广,大量获得高质量自动生成的训练数据,最终提升模型性能
第一函数级代码生成训练模块:使用第二数据模块产生的数据,进行函数代码生成的训练,训练可以采用自然语言生成常见的模带解码器的模行,例如GPT。相应的,第一函数级代码生成训练模块还包括训练目标组合器,用来选择确定训练目标。将可选的4种训练目标(objectives,CLM、MLM、MCLM、NoLM)分别应用在“描述-函数对”(Description-Function)的自然语言描述或函数代码上,组合形成12种训练目标
第二函数级代码生成训练模块:使用第三数据模块产生的数据,在第一函数级代码生成训练模块所训练完成模型的基础上,进一步进行函数代码生成的训练,训练可以采用自然语言生成常见的模带解码器的模行,例如GPT。相应的,第一函数级代码生成训练模块还包括训练目标组合器,用来选择确定训练目标。将可选的4种训练目标(objectives,CLM、MLM、MCLM、NoLM)分别应用在“描述-函数对”(Description-Function)的自然语言描述或函数代码上,组合形成12种训练目标。
第一函数级代码生成器的结构可以是任意生成式神经网络模型,例如Transformer解码器和RNN,随机初始化其模型参数。
第一函数级代码生成器以第二数据模块输出的语料为训练数据。
第一函数级代码生成器以第一组合优化器进行模型参数更新。第一组合优化器分别对自然语言描述部分和程序语言函数代码部分进行优化。
优化自然语言描述部分时,第一组合优化器可选CLM、MLM、MCLM、NoLM四种训练目标。优化程序语言函数代码部分时,第一组合优化器可选CLM、MLM、MCLM三种训练目标,注意此处无NoLM训练目标。自然语言描述部分和程序语言函数代码部分训练目标可自由组合。
步骤1:获取函数级代码生成器的训练数据
第一数据模块获取已有的程序语言语料及自然语言语料。可以从Github网站上爬取源代码文件,其中包括自然语言描述及程序语言代码。
步骤2:制备第一函数级代码生成器的训练数据
第二数据模块构造第一函数级代码生成器训练所需的数据,可选的进行数据过滤及清洗,可选的进行数据增强。
第二数据模块从第一数据模块输出的语料或第二数据模块过滤及清洗后的语料中提取程序语言函数级代码片段及其相应的自然语言描述,构造“自然语言描述-程序语言函数代码对”。可选的通过一些规则方法提取程序语言函数级代码片段及其相应的自然语言描述,可选的通过抽象语法树(AST)提取程序语言函数级代码片段及其相应的自然语言描述,可选的通过其他自动化方法提取程序语言函数级代码片段及其相应的自然语言描述。可选的从混合程序语言及自然语言的代码文件中提取程序语言函数代码、自然语言描述,可选的从程序语言的代码文件中提取程序语言函数代码,可选的从自然语言的文件中提取自然语言描述。可选的通过混合程序语言及自然语言的代码文件中程序语言代码片段与自然语言描述的对应关系构造“自然语言描述-程序语言函数代码对”,可选的通过其他程序语言代码片段与自然语言描述的对应关系构造“自然语言描述-程序语言函数代码对”。
可以将上例中的“自然语言描述”与“程序语言函数代码”构造为一个“自然语言描述-程序语言函数代码对”。
步骤3:训练第一函数级代码生成器
第一函数级代码生成器的结构可以是任意生成式神经网络模型,可以是Transformer解码器,例如:
第一函数级代码生成器以第二数据模块输出的语料为训练数据。无需标注信息,仅需要第二数据模块输出的无标注语料。例如,将示例函数一“classifier”的“自然语言描述”部分置于图12的<descr>与<python>之间,将示例函数一“classifier”的“程序语言函数代码”部分置于图12的<python>之后,以此作为第一函数级代码生成器的训练输入。
第一函数级代码生成器以第一组合优化器进行模型参数更新。第一组合优化器分别对自然语言描述部分和程序语言函数代码部分进行优化。优化自然语言描述部分时,第一组合优化器可选CLM、MLM、MCLM、NoLM四种训练目标。优化程序语言函数代码部分时,第一组合优化器可选CLM、MLM、MCLM三种训练目标,注意此处无NoLM训练目标。自然语言描述部分和程序语言函数代码部分训练目标可自由组合。以“自然语言描述”部分选用NoLM,“程序语言函数代码”部分选用CLM为例:
如图13所示,可以对图13中“自然语言描述”部分不进行Loss计算,“程序语言函数代码”部分进行CLM Loss计算
步骤4:制备第二函数级代码生成器的训练数据
第三数据模块构造第二函数级代码生成器训练所需的数据。第三数据模块对第二数据模块输出的语料进行过滤和可选的数据增强。
第三数据模块对第二数据模块输出的语料进行过滤,使训练数据更接近第二函数级代码生成器的应用领域。过滤基于第二数据模块输出的数据样本与第二函数级代码生成器的应用领域的数据样本的相似度。可以对比两个数据集的“自然语言描述”部分的长度,例如统计第二函数级代码生成器的应用领域数据中“自然语言描述”之最大长度Lmax、最小长度Lmin,仅选取第二数据模块输出的数据中“自然语言描述”长度l符合Lmin≤l≤Lmax的样本,以此作为第三数据模块的输出。
步骤5:训练第二函数级代码生成器
第二函数级代码生成器的结构与第一函数级代码生成器的结构保持一致,并第一函数级代码生成器的模型参数初始化第二函数级代码生成器。
第二函数级代码生成器以第三数据模块输出的语料为训练数据。无需标注信息,仅需要第三数据模块输出的无标注语料。
第二函数级代码生成器以第二组合优化器进行模型参数更新。第二组合优化器分别对自然语言描述部分和程序语言函数代码部分进行优化。优化自然语言描述部分时,第二组合优化器可选CLM、MLM、MCLM、NoLM四种训练目标。优化程序语言函数代码部分时,第二组合优化器可选CLM、MLM、MCLM三种训练目标,注意此处无NoLM训练目标。自然语言描述部分和程序语言函数代码部分训练目标可自由组合。
步骤6:优化第二函数级代码生成器的推理参数
使用第二函数级代码生成器进行函数级代码生成时,可选的基于随机采样(sampling)生成或束搜索(beam search)生成,或其他策略生成。此代码生成过程中,存在可选的推理参数影响生成结果的随机性,例如温度(temperature)。可选的,在第三数据模块输出的语料中预留一部分数据不参与第二函数级代码生成器的训练,作为开发集(development set),基于此开发集,可调整前述推理参数,提高第二函数级代码生成器生成代码的正确性。
本实施例基于Github公开的数据,采用第一、第二、第三数据模块采集、处理出了第一、第二函数级代码生成器的训练数据,并采用第一、第二组合优化器进行训练。可以对输入的“自然语言描述”生成相应的“程序语言函数代码”(Python)。经比较测试,使用本发明获得的代码生成器,在公开的HumanEval测试任务上,可以取得17.07%的Pass@1评分,显著超过当前公开的最佳得分(13.17%)。
与现有技术相比,本实例所设计的基于预训练和自然语言描述的函数级代码生成器,可根据自然语言输入,生成对应功能的程序语言函数片段,函数级代码正确性更高。另外,本方案利用公开的Github数据训练模型,数据获取容易,可持续扩展。
参照图14,图14为本申请实施例提供的一种模型训练装置的结构示意,如图14所示,本申请实施例提供的一种模型训练装置1400,包括:
获取模块1401,用于获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;
其中,关于获取模块1401的具体描述可以参照上述实施例中步骤901的介绍,这里不再赘述。
预测模块1402,用于根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
其中,关于预测模块1402的具体描述可以参照上述实施例中步骤902的介绍,这里不再赘述。
在一种可能的实现中,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理。
在一种可能的实现中,所述装置还包括:
文本位置确定模块,用于在对所述第一文本中的文本进行预测时,通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;
在对所述第二文本中的文本进行预测时,通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
在一种可能的实现中,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
在一种可能的实现中,所述文本位置确定模块,还用于:在不对第二文本中的文本进行预测的情况下,通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
在一种可能的实现中,
所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的;或者,
所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
在一种可能的实现中,所述修改包括:删除、增加或者替换。
在一种可能的实现中,所述替换具体为相同语义的替换。
在一种可能的实现中,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。
在一种可能的实现中,所述适配于所述程序代码的应用领域,包括:
文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。
接下来介绍本申请实施例提供的一种执行设备,请参阅图15,图15为本申请实施例提供的执行设备的一种结构示意图,执行设备1500具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或服务器等,此处不做限定。具体的,执行设备1500包括:接收器1501、发射器1502、处理器1503和存储器1504(其中执行设备1500中的处理器1503的数量可以一个或多个,图15中以一个处理器为例),其中,处理器1503可以包括应用处理器15031和通信处理器15032。在本申请的一些实施例中,接收器1501、发射器1502、处理器1503和存储器1504可通过总线或其它方式连接。
存储器1504可以包括只读存储器和随机存取存储器,并向处理器1503提供指令和数据。存储器1504的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1504存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1503控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器1503中,或者由处理器1503实现。处理器1503可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1503可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1503可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1504,处理器1503读取存储器1504中的信息,结合其硬件完成上述方法中涉及模型推理过程的步骤。
接收器1501可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1502可用于通过第一接口输出数字或字符信息;发射器1502还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1502还可以包括显示屏等显示设备。
本申请实施例还提供了一种训练设备,请参阅图16,图16是本申请实施例提供的训练设备一种结构示意图,具体的,训练设备1600由一个或多个服务器实现,训练设备1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1616(例如,一个或一个以上处理器)和存储器1632,一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中,存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1616可以设置为与存储介质1630通信,在训练设备1600上执行存储介质1630中的一系列指令操作。
训练设备1600还可以包括一个或一个以上电源1626,一个或一个以上有线或无线网络接口1650,一个或一个以上输入输出接口1658;或,一个或一个以上操作系统1641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1616,用于执行上述实施例中和模型训练相关的动作。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的数据处理方法,或者,以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图17,图17为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 1700,NPU 1700作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1703,通过控制器1704控制运算电路1703提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1703内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1703是二维脉动阵列。运算电路1703还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1703是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1702中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1701中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1708中。
统一存储器1706用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1705,DMAC被搬运到权重存储器1702中。输入数据也通过DMAC被搬运到统一存储器1706中。
BIU为Bus Interface Unit即,总线接口单元1710,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1709的交互。
总线接口单元1710(Bus Interface Unit,简称BIU),用于取指存储器1709从外部存储器获取指令,还用于存储单元访问控制器1705从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1706或将权重数据搬运到权重存储器1702中或将输入数据数据搬运到输入存储器1701中。
向量计算单元1707包括多个运算处理单元,在需要的情况下,对运算电路1703的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1707能将经处理的输出的向量存储到统一存储器1706。例如,向量计算单元1707可以将线性函数;或,非线性函数应用到运算电路1703的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1707生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1703的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1704连接的取指存储器(instruction fetch buffer)1709,用于存储控制器1704使用的指令;
统一存储器1706,输入存储器1701,权重存储器1702以及取指存储器1709均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (25)
1.一种模型训练方法,其特征在于,包括:
获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;
根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
2.根据权利要求1所述的方法,其特征在于,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理。
3.根据权利要求1或2所述的方法,其特征在于,所述第一文本为通过程序代码识别方法从原始代码文本中识别得到的,所述第二文本为通过属性描述识别方法从原始代码文本中识别得到的。
4.根据权利要求1至3任一所述的方法,其特征在于,所述程序代码为一个或多个函数的完整代码。
5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
在对所述第一文本中的文本进行预测时,通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;
在对所述第二文本中的文本进行预测时,通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
6.根据权利要求5所述的方法,其特征在于,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
7.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:
在不对第二文本中的文本进行预测的情况下,通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
8.根据权利要求1至7任一所述的方法,其特征在于,
所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的;或者,
所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
9.根据权利要求8所述的方法,其特征在于,所述修改包括:删除、增加或者替换。
10.根据权利要求9所述的方法,其特征在于,所述替换具体为相同语义的替换。
11.根据权利要求1至10任一所述的方法,其特征在于,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。
12.根据权利要求1至11任一所述的方法,其特征在于,所述适配于所述程序代码的应用领域,包括:
文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。
13.一种模型训练装置,其特征在于,包括:
获取模块,用于获取第一文本以及第二文本,所述第一文本和所述第二文本为从原始代码文本中提取得到的;其中,所述第一文本为程序代码,所述第二文本为所述程序代码对应的属性描述;所述第一文本和所述第二文本包括已知文本以及预测文本;
预测模块,用于根据所述已知文本,通过自然语言模型,对所述预测文本对应文本位置的文本进行预测,得到文本预测结果;所述预测文本和所述文本预测结果用于更新所述自然语言模型。
14.根据权利要求13所述的装置,其特征在于,所述属性描述包括所述程序代码功能描述或者所述程序代码的实现原理。
15.根据权利要求13或14所述的装置,其特征在于,所述装置还包括:
文本位置确定模块,用于在对所述第一文本中的文本进行预测时,通过第一方式,从所述第一文本中确定所述预测文本对应的文本位置;
在对所述第二文本中的文本进行预测时,通过第二方式,从所述第二文本中确定所述预测文本对应的文本位置;所述第一方式和所述第二方式不同。
16.根据权利要求15所述的装置,其特征在于,所述第一方式和所述第二方式分别为如下预测方式的一种:
对所述第一文本或所述第二文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
17.根据权利要求13或14所述的装置,其特征在于,所述文本位置确定模块,还用于:在不对第二文本中的文本进行预测的情况下,通过如下预测方式的一种确定所述预测文本对应的文本位置:
对所述第一文本的部分或全部文本的文本位置中采样掩码位置,所述掩码位置作为所述预测文本对应的文本位置;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本;
将所述已知文本的下文的文本位置作为所述预测文本对应的文本位置;其中,所述已知文本为所述自然语言模型已预测的全部文本中未被掩码的文本。
18.根据权利要求13至17任一所述的装置,其特征在于,
所述第一文本为根据从原始代码文本中提取得到的第一原始文本得到的;其中,所述第一文本为对所述第一原始文本中的部分文本单元进行修改得到的;或者,
所述第二文本为根据从原始代码文本中提取得到的第二原始文本得到的;其中,所述第二文本为对所述第二原始文本中的部分文本单元进行修改得到的。
19.根据权利要求18所述的装置,其特征在于,所述修改包括:删除、增加或者替换。
20.根据权利要求19所述的装置,其特征在于,所述替换具体为相同语义的替换。
21.根据权利要求13至20任一所述的装置,其特征在于,所述第一文本或所述第二文本为从原始代码文本中提取的适配于所述程序代码的应用领域的文本。
22.根据权利要求13至21任一所述的装置,其特征在于,所述适配于所述程序代码的应用领域,包括:
文本长度或者单行文本长度小于阈值的文本;其中,所述阈值与所述程序代码的应用领域有关。
23.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或多个指令,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行权利要求1至12中任一项所述方法的操作。
24.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至12任一所述的方法。
25.一种系统,包括至少一个处理器,至少一个存储器;所述处理器、所述存储器通过通信总线连接并完成相互间的通信;
所述至少一个存储器用于存储代码;
所述至少一个处理器用于执行所述代码,以执行如权利要求1至12任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857821.1A CN117494705A (zh) | 2022-07-20 | 2022-07-20 | 一种模型训练方法及其装置 |
PCT/CN2023/108112 WO2024017287A1 (zh) | 2022-07-20 | 2023-07-19 | 一种模型训练方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857821.1A CN117494705A (zh) | 2022-07-20 | 2022-07-20 | 一种模型训练方法及其装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494705A true CN117494705A (zh) | 2024-02-02 |
Family
ID=89617079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210857821.1A Pending CN117494705A (zh) | 2022-07-20 | 2022-07-20 | 一种模型训练方法及其装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117494705A (zh) |
WO (1) | WO2024017287A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11262984B2 (en) * | 2019-08-01 | 2022-03-01 | Microsoft Technology Licensing, Llc. | Multi-lingual line-of-code completion system |
US11972232B2 (en) * | 2020-05-15 | 2024-04-30 | Microsoft Technology Licensing, Llc. | Neural method completion based on natural language and source code |
US20210357210A1 (en) * | 2020-05-15 | 2021-11-18 | Microsoft Technology Licensing, Llc. | Automatic generation of code documentation |
US11893363B2 (en) * | 2020-08-27 | 2024-02-06 | Microsoft Technology Licensing, Llc. | Unit test case generation with transformers |
CN114676234A (zh) * | 2022-02-22 | 2022-06-28 | 华为技术有限公司 | 一种模型训练方法及相关设备 |
-
2022
- 2022-07-20 CN CN202210857821.1A patent/CN117494705A/zh active Pending
-
2023
- 2023-07-19 WO PCT/CN2023/108112 patent/WO2024017287A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024017287A1 (zh) | 2024-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257858B (zh) | 一种模型压缩方法及装置 | |
CN111951805A (zh) | 一种文本数据处理方法及装置 | |
CN109902296B (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
CN112288075A (zh) | 一种数据处理方法及相关设备 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
WO2024083121A1 (zh) | 一种数据处理方法及其装置 | |
CN116737895A (zh) | 一种数据处理方法及相关设备 | |
CN115688937A (zh) | 一种模型训练方法及其装置 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN116861850A (zh) | 一种数据处理方法及其装置 | |
CN111160049B (zh) | 文本翻译方法、装置、机器翻译系统和存储介质 | |
CN116306672A (zh) | 一种数据处理方法及其装置 | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN117077653A (zh) | 一种可控生成的方法及其装置 | |
Mocerino et al. | CoopNet: Cooperative convolutional neural network for low-power MCUs | |
CN116052714A (zh) | 一种数据处理方法及其装置 | |
CN116883715A (zh) | 一种数据处理方法及其装置 | |
CN116665219A (zh) | 一种数据处理方法及其装置 | |
WO2023284716A1 (zh) | 一种神经网络搜索方法及相关设备 | |
CN115866291A (zh) | 一种数据处理方法及其装置 | |
CN117494705A (zh) | 一种模型训练方法及其装置 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |