CN110909551B - 语言预训练模型更新方法、装置、电子设备及存储介质 - Google Patents
语言预训练模型更新方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110909551B CN110909551B CN201911239752.2A CN201911239752A CN110909551B CN 110909551 B CN110909551 B CN 110909551B CN 201911239752 A CN201911239752 A CN 201911239752A CN 110909551 B CN110909551 B CN 110909551B
- Authority
- CN
- China
- Prior art keywords
- parameters
- new
- updated
- model
- old
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语言预训练模型更新方法、装置、电子设备及存储介质,涉及语义识别技术领域。所述方法包括:获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;提取所述模型参数中嵌入层的参数和输出层的参数;基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;基于所述旧词表和所述新词表确定所述新词参数的更新位置;在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。通过直接在模型层面插入语言预训练模型需要更新的新词的参数,避免对模型重新进行训练更新,提高了模型更新效率。
Description
技术领域
本申请涉及语义识别技术领域,具体而言,涉及一种语言预训练模型更新方法、装置、电子设备及存储介质。
背景技术
在深度学习技术中,由于模型训练步骤复杂、耗时长,因此在进行语义识别等训练比较复杂的模型训练时通常会采用预训练模型提高模型训练效率。预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类、语义的识别等问题),在训练结束时确定比较好的一组权重值,研究人员分享出来供其他人使用,以提高后续模型训练效率。
但是现有的预训练模型通常不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源,存在预训练模型自身训练效率较低、消耗资源较大的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语言预训练模型更新方法、装置、电子设备及存储介质,以改善现有技术中存在的预训练模型自身训练效率较低、消耗资源较大的问题。
本申请实施例提供了一种语言预训练模型更新方法,所述方法包括:获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;提取所述模型参数中嵌入层的参数和输出层的参数;基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;基于所述旧词表和所述新词表确定所述新词参数的更新位置;在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。
在上述实现方式中,通过新词表和旧词表的对比确定需要在预训练模型的嵌入层及输出层的指定位置插入新词表中新词的初始化向量,因为是直接插入初始化向量,不需要通过完整的预训练模型的训练来实现新词的初始化向量的获取,提高了预训练模型的训练效率,减少了其对资源的占用和时间的消耗。
可选地,所述提取所述模型参数中嵌入层的参数和输出层的参数,包括:基于模型参数加载函数将所述模型参数加载为有序字典,所述有序字典以有序键值对方式保存;在所述有序字典中提取出所述嵌入层的参数和所述输出层的参数。
在上述实现方式中,通过将预训练模型加载为有序字典方式将其转换为能够确定新词插入位置及每个词对应准确参数的键值对形式,以实现新词向量的定位及插入。
可选地,所述基于所述旧词表和所述新词表确定所述新词参数的更新位置,包括:基于所述旧词表和所述新词表的比对结果,确定所述新词表中的新词和所述新词在所述新词表中的更新位置;基于新词在所述新词表中的位置确定所述嵌入层的参数和所述输出层的参数需要插入所述新词参数的位置。
在上述实现方式中,由于参数顺序是基于词表确定,因此能够基于新词表和旧词表的对比确定新词表中的新词对应的新词参数需要插入的位置,从而能够直接在模型嵌入层和输出层中插入通常需要大量模型训练实现插入的新词向量,提高了模型更新效率。
可选地,所述新词参数为初始化向量,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:确定需要更新的新词在所述旧词表中的多个相似词;将所述多个相似词的参数的向量平均值作为所述新词参数的初始化向量。
可选地,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:基于正态随机方式获取随机向量,所述随机向量的维数与所述旧词表中旧词在所述嵌入层和所述输出层对应的旧词参数的维数相同;将所述随机向量作为所述新词参数的初始化向量。
可选地,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:在所述旧词表中随机选取多个已有词的参数;将所述多个已有词的参数的平均值或中位值作为所述新词参数的初始化向量。
在上述实现方式中,可以基于准确率或效率需求选择采用新词的相似词、已有词或通过随机方式生成新词参数,提高了预训练模型更新的灵活性,进一步提高模型更新效率。
可选地,在所述位置插入所述新词参数,获得更新语言预训练模型之后,所述方法还包括:采用包含所述新词表中新词的预设量的语料集对所述更新语言预训练模型进行训练,获得最终更新语言预训练模型。
在上述实现方式中,在完成新词参数的插入后再对预训练模型进行预设量的语料集训练,在避免采用大量语料对预训练模型进行训练的同时,保证了语言预训练模型的更新效率和准确度。
本申请实施例还提供了一种语言预训练模型更新装置,所述装置包括:获取模块,用于获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;提取模块,用于提取所述模型参数中嵌入层的参数和输出层的参数;参数确定模块,用于基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;定位模块,用于基于所述旧词表和所述新词表确定所述新词参数的更新位置;插入模块,用于在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。
在上述实现方式中,通过新词表和旧词表的对比确定需要在预训练模型的嵌入层及输出层的指定位置插入新词表中新词的初始化向量,因为是直接插入初始化向量,不需要通过完整的预训练模型的训练来实现新词的初始化向量的获取,提高了预训练模型的训练效率,减少了其对资源的占用和时间的消耗。
可选地,所述参数确定模块具体用于:基于模型参数加载函数将所述模型参数加载为有序字典,所述有序字典以有序键值对方式保存;在所述有序字典中提取出所述嵌入层的参数和所述输出层的参数。
在上述实现方式中,通过将预训练模型加载为有序字典方式将其转换为能够确定新词插入位置及每个词对应准确参数的键值对形式,以实现新词向量的定位及插入。
可选地,所述定位模块具体用于:基于所述旧词表和所述新词表的比对结果,确定所述新词表中的新词和所述新词在所述新词表中的更新位置;基于新词在所述新词表中的位置确定所述嵌入层的参数和所述输出层的参数需要插入所述新词参数的位置。
在上述实现方式中,由于参数顺序是基于词表确定,因此能够基于新词表和旧词表的对比确定新词表中的新词对应的新词参数需要插入的位置,从而能够直接在模型嵌入层和输出层中插入通常需要大量模型训练实现插入的新词向量,提高了模型更新效率。
可选地,所述参数确定模块具体用于:确定需要更新的新词在所述旧词表中的多个相似词;将所述多个相似词的参数的向量平均值作为所述新词参数的初始化向量。
可选地,所述参数确定模块具体用于:基于正态随机方式获取随机向量,所述随机向量的维数与所述旧词表中旧词在所述嵌入层和所述输出层对应的旧词参数的维数相同;将所述随机向量作为所述新词参数的初始化向量。
可选地,所述参数确定模块具体用于:在所述旧词表中随机选取多个已有词的参数;将所述多个已有词的参数的平均值或中位值作为所述新词参数的初始化向量。
在上述实现方式中,可以基于准确率或效率需求选择采用新词的相似词、已有词或通过随机方式生成新词参数,提高了预训练模型更新的灵活性,进一步提高模型更新效率。
可选地,所述语言预训练模型更新装置还包括:语料集训练模块,用于采用包含所述新词表中新词的预设量的语料集对所述更新语言预训练模型进行训练,获得最终更新语言预训练模型。
在上述实现方式中,在完成新词参数的插入后再对预训练模型进行预设量的语料集训练,在避免采用大量语料对预训练模型进行训练的同时,保证了语言预训练模型的更新效率和准确度。
本申请实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行上述任一实现方式中的步骤。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一实现方式中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种语言预训练模型更新方法的流程示意图;
图2为本申请实施例提供的一种模型参数提取步骤的流程示意图;
图3为本申请实施例提供的一种语言预训练模型更新装置的模块示意图。
图标:20-语言预训练模型更新装置;21-获取模块;22-提取模块;23-参数确定模块;24-定位模块;25-插入模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
经本申请人研究发现,现有的语言深度学习模型中由于预训练模型的训练需要采用的语料集较大,通常需要占用大量的计算资源并耗费大量时间,且每次加入新词的时候都需要对预训练模型进行完整步骤的重新训练,进一步降低了语言模型的训练效率。
首先对语言模型和预训练模型进行具体介绍,语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi|w1,w2,...,wi-1)的估算会非常困难。因此,研究者们提出使用一个简化的n元模型(n-gram model)。在n元模型中估算条件概率时,只需要对当前词的前n个词进行计算。在n元模型中,传统的方法一般采用频率计数的比例来估算n元条件概率。
针对预训练模型,该模型的参数不再是随机初始化,而是先有一个任务进行训练得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练,自重词向量也可以看成是第一层即嵌入层进行了预训练,在无需再修改其网络结构加快语言模型的获取效率。
为了解决上述问题,本申请实施例提供了一种语言预训练模型更新方法,请参考图1,图1为本申请实施例提供的一种语言预训练模型更新方法的流程示意图,该语言预训练模型更新方法的具体步骤可以如下:
步骤S11:获取待更新语言预训练模型的模型参数、待更新语言预训练模型的旧词表和需要更新的新词表。
可选地,本实施例中的待更新语言预训练模型可以是语言模型嵌入(Embeddingsfrom Language Models,ELMO)模型、通用语言模型微调(Universal Language ModelFine-tuning for Text Classification,ULMFiT)模型等。
旧词表为待更新语言预训练模型中还未更新的旧词参数对应的词表,包括按顺序排列的旧词,例如:“玩具、车辆、飞机”,并未包含旧词在待更新语言预训练模型中对应的旧词参数。另一方面,新词表为需要更新加入待更新语言预训练模型中的新词参数对应的词表,同样包括按顺序排列的旧词。
可选地,新词表和旧词表可以是直接从数据库或网络中获取,也可以是从一段文本中统计提取获得。针对新词表和旧词表,可以采用集合set()来作为存储工具。
步骤S12:提取模型参数中嵌入层的参数和输出层的参数。
嵌入层(Embedding)的主要目的是对(稀疏)特征进行降维,它降维的方式可以类比为一个全连接层(没有激活函数),通过嵌入层的权重矩阵计算来降低维度。
针对词向量的嵌入层,词嵌入是使用密集向量表示来表示单词和文档的一类方法。这是对传统的袋型(bag-of-word)模型编码方案的改进,其中使用大的稀疏向量来表示每个单词或向量中的每个单词进行数字分配以表示整个词汇表。这些表示是稀疏的,因为词汇是广泛的,这样一个给定的单词或文档将由一个主要由零值组成的向量几何表示。相反,在词嵌入中,词由密集向量表示,其中矢量表示单词投射到连续向量空间中。一个单词在向量空间中的位置是从文本中学习的,并且基于使用该文本时的单词。在学习向量空间中的单词的位置称为嵌入位置,本实施例中的新词向量的更新位置就是其嵌入位置。
输出层基本上是网络的输出值,并根据问题的设置而形成。在无监督学习中,如编码或解码,输出可以与输入相同。对于分类问题,输出层有n个神经元用于n类分类并利用Softmax函数输出每类的概率。总地来说,输出层映射到你的目标空间,而其中的感知器将根据你的问题设置进行相应改变。本实施例中输出层输出的结果则是对词的参数进行向量及权重调整后的词参数。
应当理解的是,本实施例中的新词参数以及旧词对应的旧词参数等参数,其本质都是词向量。
具体地,请参考图2,图2为本申请实施例提供的一种模型参数提取步骤的流程示意图,步骤S12的具体步骤可以包括:
步骤S121:基于模型参数加载函数将模型参数加载为有序字典,有序字典以有序键值对方式保存。
模型参数加载函数是不同深度学习框架下自带的能够进行模型参数加载的函数,其能够将模型参数加载为有序字典,实现其有序化,如load_model函数。可选地,上述深度学习的框架可以是Tensorflow、Pytorch或Mxnet等常见的、适用于语言处理的深度学习框架,例如,在Pytorch框架中有序字典采用dict数据结构表示。
其中,上述模型参数一般为一个函数,例如y=f(x)eg:y=w*x+b,w\b,则将模型参数进行有序字典化,可以是将其以键值对形式实现提取和保存,即{w:1,b:2}。
因此,提取参数的具体方式可以是根据模型第一层和最后一层的参数名字(键)提取模型参数(值)。
进一步地,嵌入层和输出层的参数中不同词对应的嵌入层的参数矩阵不一样,例如3个词的词表用512长度的向量表示,那么参数矩阵长度就是3*512,词表增加到5个词,那么参数矩阵变为5*512。
步骤S122:在有序字典中提取出嵌入层的参数和输出层的参数。
应当理解的是,对参数的提取就是识别键值对及其排列顺序。
步骤S13:基于旧词表和新词表确定嵌入层的参数和输出层的参数需要进行更新的新词参数。
由于嵌入层和输出层提取出来的参数对是按照模型结构,不同结构单元的参数按照数据输入模型的先后顺序组成的有序键值对,因此其有序键值对的排列顺序与词表相同。则基于新词表和旧词表的差别,能够确定新词表中新添加的新词参数对应的新词。
应当理解的是,新词向量和旧词向量的维度应当保持一致。
可选地,本实施例中的新词参数可以是根据旧词表获得,也可以是通过随机生成方式获得。
作为一种可选地实施方式,步骤S13可以包括:
步骤S131:确定需要更新的新词在旧词表中的多个相似词。
上述相似词指的是语义相近的词或参数相似的词,例如“车辆”和“汽车”。
步骤S132:将多个相似词的参数的向量平均值作为新词参数的初始化向量。
作为另一种可选地实施方式,步骤S13可以包括:
步骤S133:基于正态随机方式获取随机向量,随机向量的维数与旧词表中旧词在嵌入层和输出层对应的旧词参数的维数相同。
可选地,除了正态随机方式,还可以采用蒙特卡洛方法等其他随机数生成方式进行随机向量的生成。
步骤S134:将随机向量作为新词参数的初始化向量。
作为另一种可选地实施方式,步骤S13可以包括:
步骤S135:在旧词表中随机选取多个已有词的参数。
步骤S136:将多个已有词的参数的平均值或中位值作为新词参数的初始化向量。
在上述步骤S13的各种实现方式中,可以基于准确率或效率需求选择采用新词的相似词、已有词或通过随机方式生成新词参数,提高了预训练模型更新的灵活性,进一步提高模型更新效率。
步骤S14:基于旧词表和新词表确定新词参数的更新位置。
基于新词表和旧词表,上述步骤S14的具体步骤可以包括:
步骤S141:基于旧词表和新词表的比对结果,确定新词表中的新词和新词在新词表中的更新位置。
例如旧词“海鸥”和相邻的旧词“飞行”,在新词表中,“海鸥”和相邻的旧词“飞行”之间多了一个新词“迅速”,则确定新词表中“迅速”的更新位置在“海鸥”和相邻的旧词“飞行”之间。
步骤S142:基于新词在新词表中的位置确定嵌入层的参数和输出层的参数需要插入新词参数的位置。
在待更新语言预训练模型嵌入层或输出层中,“海鸥”的参数1和“飞行”的参数2相邻,则“海鸥”的参数1和“飞行”的参数2之间就是新词参数“迅速”的参数需要添加的位置。
步骤S15:在更新位置插入新词参数,基于插入新词参数后的模型参数和待更新语言预训练模型获得更新语言预训练模型。
待更新语言预训练模型插入需要插入的新词参数后就可以初步认为获得了更新语言预训练模型。
可选地,为了进一步提高更新语言预训练模型的精确度和完善性,语言预训练模型更新方法还可以包括如下步骤:
步骤S16:采用包含新词表中新词的预设量的语料集对更新语言预训练模型进行训练,获得最终更新语言预训练模型。
应当理解的是,更新预训练模型的训练与普通的深度学习模型训练方式相似。
为了配合本申请实施例提供的上述语言预训练模型更新方法,本申请实施例还提供了一种语言预训练模型更新装置20。
请参考图3,图3为本申请实施例提供的一种语言预训练模型更新装置的模块示意图。
语言预训练模型更新装置20包括:
获取模块21,用于获取待更新语言预训练模型的模型参数、待更新语言预训练模型的旧词表和需要更新的新词表;
提取模块22,用于提取模型参数中嵌入层的参数和输出层的参数;
参数确定模块23,用于基于旧词表和新词表确定嵌入层的参数和输出层的参数需要进行更新的新词参数;
定位模块24,用于基于旧词表和新词表确定新词参数的更新位置;
插入模块25,用于在更新位置插入新词参数,基于插入新词参数后的模型参数和待更新语言预训练模型获得更新语言预训练模型。
可选地,参数确定模块23具体用于:基于模型参数加载函数将模型参数加载为有序字典,有序字典以有序键值对方式保存;在有序字典中提取出嵌入层的参数和输出层的参数。
可选地,定位模块24具体用于:基于旧词表和新词表的比对结果,确定新词表中的新词和新词在新词表中的更新位置;基于新词在新词表中的位置确定嵌入层的参数和输出层的参数需要插入新词参数的位置。
可选地,参数确定模块23具体用于:确定需要更新的新词在旧词表中的多个相似词;将多个相似词的参数的向量平均值作为新词参数的初始化向量。
可选地,参数确定模块23具体用于:基于正态随机方式获取随机向量,随机向量的维数与旧词表中旧词在嵌入层和输出层对应的旧词参数的维数相同;将随机向量作为新词参数的初始化向量。
可选地,参数确定模块23具体用于:在旧词表中随机选取多个已有词的参数;将多个已有词的参数的平均值或中位值作为新词参数的初始化向量。
可选地,语言预训练模型更新装置20还包括:语料集训练模块,用于采用包含新词表中新词的预设量的语料集对更新语言预训练模型进行训练,获得最终更新语言预训练模型。
本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行本实施例提供的语言预训练模型更新方法中任一项所述方法中的步骤。
应当理解是,该电子设备可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等具有逻辑计算功能的电子设备。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行语言预训练模型更新方法中的步骤。
综上所述,本申请实施例提供了一种语言预训练模型更新方法、装置、电子设备及存储介质,所述方法包括:获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;提取所述模型参数中嵌入层的参数和输出层的参数;基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;基于所述旧词表和所述新词表确定所述新词参数的更新位置;在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。
在上述实现方式中,通过新词表和旧词表的对比确定需要在预训练模型的嵌入层及输出层的指定位置插入新词表中新词的初始化向量,因为是直接插入初始化向量,不需要通过完整的预训练模型的训练来实现新词的初始化向量的获取,提高了预训练模型的训练效率,减少了其对资源的占用和时间的消耗。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RanDom Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (8)
1.一种语言预训练模型更新方法,其特征在于,所述方法包括:
获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;其中,所述旧词表为所述待更新语言预训练模型中还未更新的旧词参数对应的词表,所述新词表为需要更新加入所述待更新语言预训练模型中的新词参数对应的词表;
基于模型参数加载函数将所述模型参数加载为有序字典,所述有序字典以有序键值对方式保存;
在所述有序字典中提取出嵌入层的参数和输出层的参数;
基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数;
基于所述旧词表和所述新词表的比对结果,确定所述新词表中的新词和所述新词在所述新词表中的更新位置;
基于新词在所述新词表中的位置确定所述嵌入层的参数和所述输出层的参数需要插入所述新词参数的位置;
在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。
2.根据权利要求1所述的方法,其特征在于,所述新词参数为初始化向量,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:
确定需要更新的新词在所述旧词表中的多个相似词;
将所述多个相似词的参数的向量平均值作为所述新词参数的初始化向量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:
基于正态随机方式获取随机向量,所述随机向量的维数与所述旧词表中旧词在所述嵌入层和所述输出层对应的旧词参数的维数相同;
将所述随机向量作为所述新词参数的初始化向量。
4.根据权利要求1所述的方法,其特征在于,所述基于所述旧词表和所述新词表确定所述嵌入层的参数和所述输出层的参数需要进行更新的新词参数,包括:
在所述旧词表中随机选取多个已有词的参数;
将所述多个已有词的参数的平均值或中位值作为所述新词参数的初始化向量。
5.根据权利要求1所述的方法,其特征在于,在所述位置插入所述新词参数,获得更新语言预训练模型之后,所述方法还包括:
采用包含所述新词表中新词的预设量的语料集对所述更新语言预训练模型进行训练,获得最终更新语言预训练模型。
6.一种语言预训练模型更新装置,其特征在于,所述装置包括:
获取模块,用于获取待更新语言预训练模型的模型参数、所述待更新语言预训练模型的旧词表和需要更新的新词表;
提取模块,用于基于模型参数加载函数将所述模型参数加载为有序字典,所述有序字典以有序键值对方式保存;在所述有序字典中提取出所述嵌入层的参数和所述输出层的参数;
参数确定模块,用于基于所述旧词表和所述新词表确定嵌入层的参数和输出层的参数需要进行更新的新词参数;
定位模块,用于基于所述旧词表和所述新词表的比对结果,确定所述新词表中的新词和所述新词在所述新词表中的更新位置;基于新词在所述新词表中的位置确定所述嵌入层的参数和所述输出层的参数需要插入所述新词参数的位置;
插入模块,用于在所述更新位置插入所述新词参数,基于插入所述新词参数后的模型参数和所述待更新语言预训练模型获得更新语言预训练模型。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行权利要求1-5任一项所述方法中的步骤。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-5任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239752.2A CN110909551B (zh) | 2019-12-05 | 2019-12-05 | 语言预训练模型更新方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239752.2A CN110909551B (zh) | 2019-12-05 | 2019-12-05 | 语言预训练模型更新方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909551A CN110909551A (zh) | 2020-03-24 |
CN110909551B true CN110909551B (zh) | 2023-10-27 |
Family
ID=69823150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911239752.2A Active CN110909551B (zh) | 2019-12-05 | 2019-12-05 | 语言预训练模型更新方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909551B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113364315B (zh) * | 2021-05-08 | 2022-04-12 | 南昌大学 | 一种基于海鸥优化算法的三相逆变器控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491444A (zh) * | 2017-08-18 | 2017-12-19 | 南京大学 | 基于双语词嵌入技术的并行化词对齐方法 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108509422A (zh) * | 2018-04-04 | 2018-09-07 | 广州荔支网络技术有限公司 | 一种词向量的增量学习方法、装置和电子设备 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842592B2 (en) * | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9779085B2 (en) * | 2015-05-29 | 2017-10-03 | Oracle International Corporation | Multilingual embeddings for natural language processing |
-
2019
- 2019-12-05 CN CN201911239752.2A patent/CN110909551B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491444A (zh) * | 2017-08-18 | 2017-12-19 | 南京大学 | 基于双语词嵌入技术的并行化词对齐方法 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108509422A (zh) * | 2018-04-04 | 2018-09-07 | 广州荔支网络技术有限公司 | 一种词向量的增量学习方法、装置和电子设备 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于门控卷积机制与层次注意力机制的多语义词向量计算方法;柳杨;吉立新;黄瑞阳;朱宇航;李星;;中文信息学报(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110909551A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851604B (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
US11636341B2 (en) | Processing sequential interaction data | |
Hughes et al. | Reliable and scalable variational inference for the hierarchical dirichlet process | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
US20210035556A1 (en) | Fine-tuning language models for supervised learning tasks via dataset preprocessing | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
WO2018023356A1 (en) | Machine translation method and apparatus | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
CN111400494A (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、系统和装置 | |
CN114372465A (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN110909551B (zh) | 语言预训练模型更新方法、装置、电子设备及存储介质 | |
CN112906368B (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN112381147A (zh) | 动态图片相似度模型建立、相似度计算方法和装置 | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
CN116542320A (zh) | 一种基于持续学习的小样本事件检测方法和系统 | |
CN110968702A (zh) | 一种事理关系提取方法及装置 | |
CN115080748B (zh) | 一种基于带噪标签学习的弱监督文本分类方法和装置 | |
JP2018041300A (ja) | 機械学習用モデル生成装置及びプログラム。 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230919 Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant after: BEIJING KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd. Address before: Room 311506, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing, 100000 Applicant before: Beijing know smart Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |