CN116245197B - 一种提升语言模型的训练速率的方法、系统、介质及设备 - Google Patents
一种提升语言模型的训练速率的方法、系统、介质及设备 Download PDFInfo
- Publication number
- CN116245197B CN116245197B CN202310143360.6A CN202310143360A CN116245197B CN 116245197 B CN116245197 B CN 116245197B CN 202310143360 A CN202310143360 A CN 202310143360A CN 116245197 B CN116245197 B CN 116245197B
- Authority
- CN
- China
- Prior art keywords
- training
- matrix
- language model
- mask matrix
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 159
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 100
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语言训练领域,尤其涉及一种提升语言模型的训练速率的方法、系统、介质及设备。该方法包括:获取多条语言模型训练样本,将多条训练样本进行拼接,生成与拼接结果对应的向量;基于所述向量生成掩码矩阵,将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理,生成计算矩阵;基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵进行计算,完成所述语言模型的训练。本发明能够达到预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题的效果。
Description
技术领域
本发明属于语言训练领域,尤其涉及一种提升语言模型的训练速率的方法、系统、介质及设备。
背景技术
随着deeplearning在文本领域的日益兴盛,无数的文本处理,文本分类,实体抽取等任务均逐步从原先的规则切换至deeplearning方案。并且随着transformer架构的普及,工业界越来越多的业务开始全套依赖语言模型+下游任务finetune的训练方式来满足业务上的需求。
目前无数学术和工业界的实例已证明,面向特定领域的任务训练,最好优先先面向特定领域进行语言模型的预训练,而非直接使用Google或Huggingface提供的通用的预训练模型。由于语言模型训练本身无论是MLM还是NSP还是生成式训练均无需任何外部标注,因此只需要收集足够多的特定领域样本即可开始特定领域的语言模型预训练,并且训练完成后该语言模型可在特定领域的任何下游任务上使用。
目前的语言模型训练为固定batchsize训练,batchsize为32及每一行一条文本样本,一共32条。语言模型常见的maxlength设置为128或384,每条样本长度不够maxlength的需要使用padding位置对齐进行补齐。
目前比较常见的语言模型采用transformer架构,输入为input_ids,segment_ids和mask_ids。在segment_ids和mask_ids上对应padding位置也需要补齐。
通用语言模型训练一般采用wikipedia或新闻等数据进行训练,常见的每句话长度为几十。若上NSP预训练任务则每条样本长度翻倍。
但是在社交聊天的场景下,每条文本长度均较短,平均长度不足10.但是又偶尔会有很长的样本。
这种大范围的短文本预训练由于padding位置非常多,因此训练的效率极低,并且语言模型非常容易训练出短句依赖,而导致长句训练不充分,进而导致下游任务效果变差。
发明内容
本发明所要解决的技术问题是提供一种提升语言模型的训练速率的方法、系统、介质及设备。
本发明解决上述技术问题的技术方案如下:一种提升语言模型的训练速率的方法,包括:
步骤1,获取多条用于训练语言模型的训练样本,将多条训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
步骤2,基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
步骤3,基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练。
本发明的有益效果是:本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个训练样本,任意两个相邻的数字之间的差值与1的和表示:该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。
进一步,基于所述向量生成掩码矩阵,包括:
根据任一训练样本的样本长度i,生成该训练样本对应的子矩阵,该训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照训练样本在向量中的先后顺序,任意两个相邻的训练样本对应的子矩阵,沿前一个训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
进一步,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
本发明解决上述技术问题的另一种技术方案如下:一种提升语言模型的训练速率的系统,包括:
获取模块用于:获取多条用于训练语言模型的训练样本,将多条训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
计算模块用于:基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
训练模块用于:基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练。
本发明的有益效果是:本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
进一步,所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个训练样本,任意两个相邻的数字之间的差值与1的和表示:该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。
进一步,基于所述向量生成掩码矩阵,包括:
根据任一训练样本的样本长度i,生成该训练样本对应的子矩阵,该训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照训练样本在向量中的先后顺序,任意两个相邻的训练样本对应的子矩阵,沿前一个训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
进一步,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的方法。
本发明的有益效果是:本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括上述存储介质、执行上述存储介质内的指令的处理器。
本发明的有益效果是:本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
附图说明
图1为本发明一种提升语言模型的训练速率的方法实施例提供的流程示意图;
图2为本发明一种提升语言模型的训练速率的系统实施例提供的结构框架图;
图3为本发明一种提升语言模型的训练速率的方法实施例提供的拼接示意图;
图4为本发明一种提升语言模型的训练速率的方法实施例提供的掩码矩阵示意图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种提升语言模型的训练速率的方法,包括:
步骤1,获取多条用于训练语言模型的训练样本,将多条训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
步骤2,基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
步骤3,基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练。
在一些可能的实施方式中,本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
需要说明的是,训练速度以倍数的速度进行加速。通用wiki-pedia语句平均长度为108的前提下,若短文本平均长度为6,则同样的样本行规模,采用本文中的训练模式相比于传统的BERT/ROBERTA等训练方式要快18倍,且不受CUDA计算力的限制(因为老训练方式padding位置的计算被彻底浪费了,而本文训练方案可以彻底利用这些被浪费的计算资源)。
大前提:
Transformer结构本身的所有矩阵计算均无关乎序列长度。这是attention本身的设计特性导致的,因此也被部分人诟病说其并没有真实的捕捉建立上下文关联。因此在标准的基于transformer的语言模型中,会有一个positionembedding来输入文本训练信息到模型中。
因此如果将attention的计算进行mask,我们便可以通过将多个不同序列拼接成一个伪序列通过一次计算并用mask对不同序列之间进行相互遮掩,就能拿到多个不同序列的attention结果。遮掩本身并不太占用计算量。
实际操作:
1.如图3所示,将多条样本拼接在一起,并生成一个cu_seq_length的vector(向量)来记录每条样本的样本长度cu_seqLen=[0,2,5,9,13];
其中,样本即为文本样本,从任何来源获取的文本都可以用来训练领域语言模型。
文本按顺序放在一条文本中,第一条文本长度为3,即站位0-2,第二条文本长度为4,即站位3-6,第三条文本长度为3,即站位7-9,第四条文本长度为5,即站位10-14。
2.依据cu_seqLen生成mask矩阵,矩阵如图4所示。
3.不同的文本生成的不同的positionembedding也同样是拼接在一起的。
其中,不同语言模型会需要不同类型的positionembedding输入。不论采用什么样的positionembedding输入(例如用[1,2,3,4]来标识positionindex,然后在embeddinglookup成embedding),多条文本positionindex转换为embedding后直接拼接到一起即可。例如如果采用增量index,并且embedding就是原本数字,第一条样本长度为3,position index为[0,1,2];第二条样本长度为4,positionindex为[0,1,2,3],直接拼接在一起就是[0,1,2,0,1,2,3]。
4.在进行attention注意计算时,在softmax之前的attention计算结果中直接依据上述矩阵中1的位置将attention结果设置为-inf。
需注意,1-3步为input设置,4为模型inference逻辑。在transformer架构中,唯一需要引入序列维度的就在attention计算,其他计算均同序列维度无关。该attention为了防止上一条数据同别的数据进行attention计算(现在多条数据被放在了同一条样本中)对于本文本数据的attention保留计算结果,而非本文本的attention计算则设置为-inf.实际计算操作就是将上述cu_seqLenmask中0的部分设置为-inf,1的部分设置为0,然后同attention矩阵相加即可。
5.不论语言模型最终任务为MLM还是NSP,其loss对样本条数进行normalization的时候,需要使用该条拼接样本中真实的样本条数。
其中,MLM,NSP为语言模型的训练任务,分别为完形填空任务和下一句话预测任务。只要是单encoder的语言模型训练任务,其任务输出均与序列维度无关。
例如对于MLM,只需要对应取对应位置的output(例如,第二句话的第三个字计算MLM,则直接取transformeroutput的第五个位置输出(根据上文,第一句话为3个字,因此第二句话第二个字的position为5))同真实字符计算loss即可。
6.正常反传求导梯度下降即可。
综上,本发明核心在于,无需更改任何训练任务或者梯度计算方式,可以将多条文本合并成一条文本直接inference并计算loss,然后直接更新梯度。
多条文本合并为一条文本后,其padding的计算比例被大幅度降低,其每次inference的样本batch个数会有巨幅的提升(尽管从物理上来看batchsize变成了1,但是这一条样本是有很多条样本拼接而成,并且只要有上述mask存在,相互句子的信息就可以隔绝开来),因此大幅度加速短文本语言模型训练,其加速比关乎训练样本的长度分布。
如果训练一个128长度的bert,V100满载下batchsize为4,文本平均长度为8,那该使用该技术后,虽然batchsize为1,但是这一条样本中可以放128/8=16条样本,等价于batchsize为16,完成一次epoch的速度相比于batchsize为4提升了4倍。
优选地,在上述任意实施例中,所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个训练样本,任意两个相邻的数字之间的差值与1的和表示:该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。
需注意,阈值数字小于语言模型设置的单条最大长度(常见配置为128,384或512)。
优选地,在上述任意实施例中,基于所述向量生成掩码矩阵,包括:
根据任一训练样本的样本长度i,生成该训练样本对应的子矩阵,该训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照训练样本在向量中的先后顺序,任意两个相邻的训练样本对应的子矩阵,沿前一个训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
优选地,在上述任意实施例中,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
如图2所示,一种提升语言模型的训练速率的系统,包括:
获取模块100用于:获取多条用于训练语言模型的训练样本,将多条训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
计算模块200用于:基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
训练模块300用于:基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练。
在一些可能的实施方式中,本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
优选地,在上述任意实施例中,所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个训练样本,任意两个相邻的数字之间的差值与1的和表示:该数字两个相邻的数字中的前一个数字对应的训练样本的样本长度。
优选地,在上述任意实施例中,基于所述向量生成掩码矩阵,包括:
根据任一训练样本的样本长度i,生成该训练样本对应的子矩阵,该训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照训练样本在向量中的先后顺序,任意两个相邻的训练样本对应的子矩阵,沿前一个训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
优选地,在上述任意实施例中,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
本发明解决上述技术问题的另一种技术方案如下:一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一项所述的方法。
在一些可能的实施方式中,本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
本发明解决上述技术问题的另一种技术方案如下:一种电子设备,包括上述存储介质、执行上述存储介质内的指令的处理器。
在一些可能的实施方式中,本文提出一种将多条文本拼接在一起进行预训练但是相互之间又不会产生信息泄漏的办法,来极大的加速预训练速度,同时缓解极少数长句所导致的长尾数据训练不充分的问题。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,步骤的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个步骤可以结合或者可以集成到另一个步骤,或一些特征可以忽略,或不执行。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种提升语言模型的训练速率的方法,其特征在于,包括:
步骤1,获取多条用于训练语言模型的文本训练样本,将多条文本训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
步骤2,基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
步骤3,基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练;
所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个文本训练样本,任意两个相邻的数字之间的差值与1的和表示:两个相邻的数字中的前一个数字对应的文本训练样本的样本长度;
基于所述向量生成掩码矩阵,包括:
根据任一文本训练样本的样本长度i,生成该文本训练样本对应的子矩阵,该文本训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照文本训练样本在向量中的先后顺序,任意两个相邻的文本训练样本对应的子矩阵,沿前一个文本训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
2.根据权利要求1所述的一种提升语言模型的训练速率的方法,其特征在于,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
3.一种提升语言模型的训练速率的系统,其特征在于,包括:
获取模块用于:获取多条用于训练语言模型的文本训练样本,将多条文本训练样本进行拼接,得到拼接结果,并生成所述拼接结果对应的向量;
计算模块用于:基于所述向量生成掩码矩阵,将所述掩码矩阵与语言模型中的注意力进行计算时所采用的空矩阵进行叠加处理,生成计算矩阵;
训练模块用于:基于所述语言模型的训练需求,在进行注意力计算时调取所述计算矩阵,完成所述语言模型的训练;
所述向量中的每个元素均为数字,且每个数字均小于阈值,除所述向量中的末尾数字之外的每个数字分别对应一个文本训练样本,任意两个相邻的数字之间的差值与1的和表示:两个相邻的数字中的前一个数字对应的文本训练样本的样本长度;
基于所述向量生成掩码矩阵,包括:
根据任一文本训练样本的样本长度i,生成该文本训练样本对应的子矩阵,该文本训练样本对应的子矩阵为i×i,子矩阵每个元素的值为1;
按照文本训练样本在向量中的先后顺序,任意两个相邻的文本训练样本对应的子矩阵,沿前一个文本训练样本的子矩阵的对角线,进行拼接,得到第一掩码矩阵,将所述第一掩码矩阵中除去子矩阵所在位置的其他位置进行补零处理,得到掩码矩阵。
4.根据权利要求3所述的一种提升语言模型的训练速率的系统,其特征在于,所述将所述掩码矩阵与注意力计算采用的空矩阵进行叠加处理的过程为:
将所述掩码矩阵中数字0对应的位置设置为负无穷,将所述掩码矩阵中数字1对应的位置设置为0。
5.一种存储介质,其特征在于,所述介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1或2所述的方法。
6.一种电子设备,其特征在于,包括权利要求5所述的存储介质、执行所述存储介质内的指令的处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310143360.6A CN116245197B (zh) | 2023-02-21 | 2023-02-21 | 一种提升语言模型的训练速率的方法、系统、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310143360.6A CN116245197B (zh) | 2023-02-21 | 2023-02-21 | 一种提升语言模型的训练速率的方法、系统、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116245197A CN116245197A (zh) | 2023-06-09 |
CN116245197B true CN116245197B (zh) | 2023-11-07 |
Family
ID=86629214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310143360.6A Active CN116245197B (zh) | 2023-02-21 | 2023-02-21 | 一种提升语言模型的训练速率的方法、系统、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116245197B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118171108A (zh) * | 2024-04-25 | 2024-06-11 | 上海岩芯数智人工智能科技有限公司 | 一种加速大语言模型训练的数据预处理方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733675A (zh) * | 2017-04-14 | 2018-11-02 | 北大方正集团有限公司 | 基于大量样本数据的情感评价方法及装置 |
CN112163080A (zh) * | 2020-10-12 | 2021-01-01 | 辽宁工程技术大学 | 一种基于多轮情绪分析的生成式对话系统 |
CN112699216A (zh) * | 2020-12-28 | 2021-04-23 | 平安科技(深圳)有限公司 | 端到端的语言模型预训练方法、系统、设备及存储介质 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
EP3916614A1 (en) * | 2020-05-29 | 2021-12-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training language model, electronic device, readable storage medium and computer program product |
CN114048289A (zh) * | 2021-11-12 | 2022-02-15 | 杭州网易云音乐科技有限公司 | 语言模型训练方法、文案生成方法以及相关设备 |
CN114398866A (zh) * | 2022-01-14 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于预测模型的文本匹配方法、装置、设备及存储介质 |
CN114817494A (zh) * | 2022-04-02 | 2022-07-29 | 华南理工大学 | 基于预训练和注意力交互网络的知识型检索式对话方法 |
WO2023273170A1 (zh) * | 2021-06-30 | 2023-01-05 | 同济人工智能研究院(苏州)有限公司 | 一种迎宾机器人对话方法 |
CN115600602A (zh) * | 2022-12-13 | 2023-01-13 | 中南大学(Cn) | 一种长文本的关键要素抽取方法、系统及终端设备 |
CN115659966A (zh) * | 2022-10-29 | 2023-01-31 | 福州大学 | 基于动态异构图和多级注意力的谣言检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579699A (zh) * | 2022-02-18 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 预训练语言模型的训练方法以及装置 |
-
2023
- 2023-02-21 CN CN202310143360.6A patent/CN116245197B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733675A (zh) * | 2017-04-14 | 2018-11-02 | 北大方正集团有限公司 | 基于大量样本数据的情感评价方法及装置 |
EP3916614A1 (en) * | 2020-05-29 | 2021-12-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training language model, electronic device, readable storage medium and computer program product |
CN112163080A (zh) * | 2020-10-12 | 2021-01-01 | 辽宁工程技术大学 | 一种基于多轮情绪分析的生成式对话系统 |
CN112699216A (zh) * | 2020-12-28 | 2021-04-23 | 平安科技(深圳)有限公司 | 端到端的语言模型预训练方法、系统、设备及存储介质 |
WO2022141878A1 (zh) * | 2020-12-28 | 2022-07-07 | 平安科技(深圳)有限公司 | 端到端的语言模型预训练方法、系统、设备及存储介质 |
WO2023273170A1 (zh) * | 2021-06-30 | 2023-01-05 | 同济人工智能研究院(苏州)有限公司 | 一种迎宾机器人对话方法 |
CN113571097A (zh) * | 2021-09-28 | 2021-10-29 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN114048289A (zh) * | 2021-11-12 | 2022-02-15 | 杭州网易云音乐科技有限公司 | 语言模型训练方法、文案生成方法以及相关设备 |
CN114398866A (zh) * | 2022-01-14 | 2022-04-26 | 平安普惠企业管理有限公司 | 基于预测模型的文本匹配方法、装置、设备及存储介质 |
CN114817494A (zh) * | 2022-04-02 | 2022-07-29 | 华南理工大学 | 基于预训练和注意力交互网络的知识型检索式对话方法 |
CN115659966A (zh) * | 2022-10-29 | 2023-01-31 | 福州大学 | 基于动态异构图和多级注意力的谣言检测方法及系统 |
CN115600602A (zh) * | 2022-12-13 | 2023-01-13 | 中南大学(Cn) | 一种长文本的关键要素抽取方法、系统及终端设备 |
Non-Patent Citations (3)
Title |
---|
Improving the training and evaluation efficiency of recurrent neural network language models;Chen X, Liu X等;2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);第5401-5405页 * |
基于深度学习的语言模型研究进展;王乃钰, 叶育鑫, 刘露等;软件学报;第32卷(第4期);第1082-1115页 * |
融合角色、结构和语义的口语对话预训练语言模型;黄健, 李锋;计算机应用研究;第39卷(第8期);第2397-2402页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116245197A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547885A (zh) | 一种文本分类系统及方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111124487B (zh) | 代码克隆检测方法、装置以及电子设备 | |
CN116245197B (zh) | 一种提升语言模型的训练速率的方法、系统、介质及设备 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN112084794A (zh) | 一种藏汉翻译方法和装置 | |
CN113535953A (zh) | 一种基于元学习的少样本分类方法 | |
CN111782804B (zh) | 基于TextCNN同分布文本数据选择方法、系统及存储介质 | |
CN111090724B (zh) | 一种基于深度学习的可评判文本内容与实体相关性的实体抽取方法 | |
Li et al. | Selective kernel networks for weakly supervised relation extraction | |
CN113435192A (zh) | 一种基于改变神经网络通道基数的中文文本情感分析方法 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN104111917B (zh) | 数据处理装置、数据处理方法以及电子设备 | |
CN115204164B (zh) | 一种电力系统通信敏感信息识别方法、系统及存储介质 | |
CN114610751B (zh) | 地理计算语言的结构化参数解析方法、装置、设备及介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
Zhao et al. | HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts | |
Saklani et al. | Multimodal Classification via Visual and Lingual Feature Layer Fusion | |
CN118133918A (zh) | transformer神经网络的优化方法、装置、电子设备及可读存储介质 | |
CN116205242A (zh) | 翻译方法、装置、设备、介质及程序产品 | |
Phan et al. | A Novel Question-Context Interaction Method for Machine Reading Comprehension | |
Çataltaş et al. | Comparison of Textual Data Augmentation Methods on SST-2 Dataset Check for updates | |
Kong et al. | Discourse-Aware Causal Emotion Entailment | |
Yang | Image captioning using compositional sentiments | |
CN117520548A (zh) | 元数据处理方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |