CN112329392B - 双向编码的目标编码器构建方法及装置 - Google Patents

双向编码的目标编码器构建方法及装置 Download PDF

Info

Publication number
CN112329392B
CN112329392B CN202011222787.8A CN202011222787A CN112329392B CN 112329392 B CN112329392 B CN 112329392B CN 202011222787 A CN202011222787 A CN 202011222787A CN 112329392 B CN112329392 B CN 112329392B
Authority
CN
China
Prior art keywords
sequence
feature
text
coding
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011222787.8A
Other languages
English (en)
Other versions
CN112329392A (zh
Inventor
徐成国
杨康
周星杰
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011222787.8A priority Critical patent/CN112329392B/zh
Publication of CN112329392A publication Critical patent/CN112329392A/zh
Application granted granted Critical
Publication of CN112329392B publication Critical patent/CN112329392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种双向编码的目标编码器构建方法及装置。该方法包括:获取训练文本;将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。本申请在构建目标编码器时采用正向编码输入和反向编码输入来进行特征提取的训练,从而通过真正空间意义上的正反双向编码,提升编码器的特征表示能力,进而解决了句子末尾的翻译准确率持续降低的技术问题。

Description

双向编码的目标编码器构建方法及装置
技术领域
本申请涉及预训练模型技术领域,尤其涉及一种双向编码的目标编码器构建方法及装置。
背景技术
语言模型广泛应用于各种自然语言处理任务中,其本质相当于一种编码器,能够有效地从原始文本中提取出重要的特征信息。近些年对语言模型的研究均是基于从被频繁使用的Word2Vec接入神经网络开始,到后面利用双向LSTM网络和Text-CNN网络,近些年性能最优秀的特征提取器就是Transformer神经网络,因此,基于Transformer的预训练-微调架构的迁移学习也开始成为了潮流,而其核心就是通过Transformer实现的预训练语言模型,这样的迁移学习方式使得在接入下游任务时,更加方便,仅仅需要根据不同任务设计不同的解码器,并进行参数的微调,即可拟合模型,利于后期模型更新迭代,且众多实验验证得知,基于这样的架构下的自然语言处理任务都得到了性能的提升。
目前,相关技术中,迁移学习预训练语言模型技术方案均是通过构建一个含有巨大参数量的模型结构,在巨大数据量的训练集上,通过强大的硬件设备进行长时间的模型训练来获取一个编码性能优异的语言模型。主流预训练语言模型的方案一般分为两种,分别是基于自回归方式和自编码方式,自回归预训练语言模型的典型为GPT模型,自编码预训练语言模型的典型为BERT模型。自回归语言模型的优势在于对生成式自然语言处理任务表现优异,其模型训练特点即在于利用单向上下文拟合过程;自编码语言模型训练特点在于同步双向编码,同时利用上下文信息训练模型,其优势在于特征提取能力更强。而当Transformer结构作为预训练语言模型,其本质是一种实现基于自编码特征提取的语言模型,实现的迁移学习经典架构就是BERT模型。这样的基于自编码特征提取的迁移学习架构虽然同时获取上下文特征,但是其本质是单向的文本输入,从上下文同时提取特征来体现“双向”的过程,因此当Transformer进行机器翻译时,随着文本长度的增加,当从左往右进行翻译时,句子末尾的翻译准确率持续降低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种双向编码的目标编码器构建方法及装置,以解决句子末尾的翻译准确率持续降低的技术问题。
根据本申请实施例的一个方面,本申请提供了一种双向编码的目标编码器构建方法,包括:获取训练文本;将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。
可选地,将训练文本按照预设字典的编码关系编码为第一序列之前,该方法还包括按照如下方式构建字典:获取语料集合;将语料集合中的文本切分为单字符元素,相同的字符保留一个单字符元素;添加与各个单字符元素匹配的索引,得到由索引和单字符元素组成的键值对;将键值对作为集合的元素构建集合,得到字典。
可选地,将训练文本按照字典中保存的编码关系编码为第一序列包括:将训练文本切分为多个单字符元素,每个单字符元素具有绝对位置编码,绝对位置编码为按照单字符元素在训练文本中的位置顺序生成的;利用字典确定与各个单字符元素匹配的索引;将索引和相应单字符元素的绝对位置编码相加,得到融合单字符元素的文字信息和位置信息的目标编码;将与各个单字符元素匹配的目标编码按照每个单字符元素的绝对位置编码进行排列,得到第一序列。
可选地,按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列包括:遍历第一序列,确定遍历次数与绝对位置编码相等的目标编码;将目标编码替换为遮盖编码,遮盖编码用于遮盖单字符元素的文字信息和位置信息;每遍历一次后,将遮盖后的第一序列作为第二序列。
可选地,将第二序列和第三序列输入自编码语言模型,并将模型输出作为目标编码器包括:将自编码语言模型的特征层划分为第一特征层和第二特征层,第一特征层用于对正向编码的输入序列进行特征提取,第二特征层用于对反向编码的输入序列进行特征提取;将第二序列输入第一特征层,得到第一特征层输出的第一特征,并将第三序列输入第二特征层,得到第二特征层输出的第二特征;利用第一特征和第二特征确定文本特征矩阵,并将文本特征矩阵作为目标编码器。
可选地,利用第一特征和第二特征确定文本特征矩阵包括:将第一特征和第二特征进行拼接;将拼接后的特征输入前馈神经网络层进行降维,得到目标编码器。
可选地,得到目标编码器之后,该方法还包括:采用前馈神经网络层对文本特征矩阵进行降维,并利用归一化函数对降维后的文本特征矩阵进行概率预测,得到遮盖字符属于各个字符的概率值;将概率值进行反向传播,以对目标编码器的参数进行优化;在归一化函数得到的遮盖字符属于训练文本中的目标字符的概率达到最大值时,得到最终的目标编码器。
根据本申请实施例的另一方面,本申请提供了一种双向编码的目标编码器构建装置,包括:获取模块,用于获取训练文本;第一编码模块,用于将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;遮盖模块,用于按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;第二编码模块,用于将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;目标编码器生成模块,用于将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。
根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
本申请技术方案为获取训练文本;将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。本申请在构建目标编码器时采用正向编码输入和反向编码输入来进行特征提取的训练,从而通过真正空间意义上的正反双向编码,提升编码器的特征表示能力,进而解决了句子末尾的翻译准确率持续降低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例提供的一种可选的双向编码的目标编码器构建方法硬件环境示意图;
图2为根据本申请实施例提供的一种可选的双向编码的目标编码器构建方法流程图;
图3为根据本申请实施例提供的一种可选的双向编码的目标编码器构建装置框图;
图4为本申请实施例提供的一种可选的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
相关技术中,迁移学习预训练语言模型技术方案均是通过构建一个含有巨大参数量的模型结构,在巨大数据量的训练集上,通过强大的硬件设备进行长时间的模型训练来获取一个编码性能优异的语言模型。主流预训练语言模型的方案一般分为两种,分别是基于自回归方式和自编码方式,自回归预训练语言模型的典型为GPT模型,自编码预训练语言模型的典型为BERT模型。自回归语言模型的优势在于对生成式自然语言处理任务表现优异,其模型训练特点即在于利用单向上下文拟合过程;自编码语言模型训练特点在于同步双向编码,同时利用上下文信息训练模型,其优势在于特征提取能力更强。而当Transformer结构作为预训练语言模型,其本质是一种实现基于自编码特征提取的语言模型,实现的迁移学习经典架构就是BERT模型。这样的基于自编码特征提取的迁移学习架构虽然同时获取上下文特征,但是其本质是单向的文本输入,从上下文同时提取特征来体现“双向”的过程,相较于传统双向神经网络,如双向LSTM等,以Transformer实现的预训练语言模型并没有从物理空间角度实现真正的双向编码,因此当Transformer进行机器翻译时,随着文本长度的增加,当从左往右进行翻译时,句子末尾的翻译准确率持续降低,这是单向编解码带来的明显缺陷。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种双向编码的目标编码器构建方法的实施例。
可选地,在本申请实施例中,上述双向编码的目标编码器构建方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种双向编码的目标编码器构建方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
步骤S202,获取训练文本。
本申请实施例中的一种双向编码的目标编码器构建方法可以应用于自编码预训练语言模型。上述训练文本为完整的句子,如“我是中国人”等。
步骤S204,将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致。
本申请实施例中,上述字典为将文字进行逐一编码的字典空间,每个文字对应唯一的一个索引,可以根据文字查找索引,也可以根据索引查找文字。
本申请实施例将训练文本逐一查找字典中对应的索引,然后可以将索引进行排序,其排序顺序按照原文字的排列顺序进行。
本申请实施例中,还可以为根据每个文字在句子中的位置设置对应的绝对位置编码,然后可以将每个文字对应的绝对位置编码和每个文字对应的索引相加,作为第一序列的元素,如此便将文字的文本信息和位置信息都融合到第一序列中。
步骤S206,按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列。
为了平衡自编码语言模型对训练文本顺序表达的特征提取能力,本申请实施例对由训练文本得到的第一序列进行顺序遮盖,如原始数据(第一序列的文字表示)为{我,是,中,国,人},采用顺序遮盖后,当前的输入数据变为五条数据:{mask,是,中,国,人}、{我,mask,中,国,人}...{我,是,中,国,mask}。需要说明的是,本申请实施例可以对句子中的每一个字进行遮盖,因此可以得到的序列个数与句子长度(一个字为一个长度)一致。本申请实施例中,通过顺序遮盖得到的序列即为第二序列。
步骤S208,将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列。
本申请实施例中,上述第一序列、第二序列中的元素的排列顺序与原始文本的顺序一致,可以作为正向编码,而为了实现真正空间意义上的正反双向编码来提升模型的特征表示能力,可以将第二序列中的元素按照与当前排列顺序相反的顺序进行重新排列,得到的逆序序列即为反向编码的第三序列。
步骤S210,将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。
本申请实施例中,将正向编码的第二序列和反向编码的第三序列输入到自编码语言模型中,以对自编码语言模型进行训练,当完成该模型训练后,模型的最后一层网络输出即为目标编码器,可以应用于下游任务(当做下游任务的编码器输出),这样下游任务就不再需要编码器的训练过程。
采用本申请的目标编码器,能够将输入文本进行正向输入编码的特征提取和反向输入编码的特征提取,从而在进行文本翻译任务时,能够提升句子末尾的翻译准确率。
采用本申请技术方案,在构建目标编码器时采用正向编码输入和反向编码输入来进行特征提取的训练,从而通过真正空间意义上的正反双向编码,提升编码器的特征表示能力,进而解决了句子末尾的翻译准确率持续降低的技术问题。
可选地,将训练文本按照预设字典的编码关系编码为第一序列之前,该方法还包括按照如下方式构建字典:
步骤1,获取语料集合;
步骤2,将语料集合中的文本切分为单字符元素,相同的字符保留一个单字符元素;
步骤3,添加与各个单字符元素匹配的索引,得到由索引和单字符元素组成的键值对;
步骤4,将键值对作为集合的元素构建集合,得到字典。
本申请实施例中,上述语料集合包含大量文本数据,可以按照字符级对所有文本进行切分。切分的目的是为了将所有文本转换为组成句子的最小单位,即字符,去掉了词对。并且,所有文本中相同的字符只保留一个。完成字符切分后,需要为每个字符创建索引,以使每个字符可以通过索引表示。每个字符与其对应的索引具有唯一对应关系。以索引为键,以字符为值,可以构成键值对,如{1:我;2:你;3:他...},所有的键值对可以组成上述字典。
本申请实施例中,还可以采用词嵌入技术为每个字符设置唯一对应的高维向量。词嵌入技术为通过映射函数将每个字符映射成一个高维向量,该高维向量可以作为字符的索引。
可选地,步骤S204将训练文本按照字典中保存的编码关系编码为第一序列可以包括一下步骤:
步骤1,将训练文本切分为多个单字符元素,每个单字符元素具有绝对位置编码,绝对位置编码为按照单字符元素在训练文本中的位置顺序生成的;
步骤2,利用字典确定与各个单字符元素匹配的索引;
步骤3,将索引和相应单字符元素的绝对位置编码相加,得到融合单字符元素的文字信息和位置信息的目标编码;
步骤4,将与各个单字符元素匹配的目标编码按照每个单字符元素的绝对位置编码进行排列,得到第一序列。
本申请实施例中,为了可以在字典中查询索引,可以将训练文本按照字符级进行切分,如“我是中国人”切分为{我,是,中,国,人}。上述绝对位置编码可以直接根据每个字在句子中的位置顺序按序标号,如{我,是,中,国,人}对应的每个绝对位置编码可以是{1,2,3,4,5}。或者,还可以采用余弦距离嵌入的方式计算每个字符的绝对位置编码。
本申请实施例中,可以将训练文本查询字典得到的索引和绝对位置编码相加,相加的和作为第一序列的元素,并且每个元素还按照相应字符的绝对位置编码进行排序,例如,若{我,是,中,国,人}查询字典得到{我:12,是:7,中:54,国:109,人:26},{我,是,中,国,人}对应的绝对位置编码为{1,2,3,4,5},则最终得到的第一序列为{13,9,57,113,31}。
可选地,步骤S206按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列可以包括以下步骤:
步骤1,遍历第一序列,确定遍历次数与绝对位置编码相等的目标编码;
步骤2,将目标编码替换为遮盖编码,遮盖编码用于遮盖单字符元素的文字信息和位置信息;
步骤3,每遍历一次后,将遮盖后的第一序列作为第二序列。
本申请实施例中,为了平衡自编码语言模型对训练文本顺序表达的特征提取能力,可以对第一序列进行顺序遮盖,以上述第一序列{13,9,57,113,31}为例进行遍历,第一次遍历时,将第一序列中绝对位置编码等于1的元素进行遮盖,即{Mask,9,57,113,31},第二次遍历时将第一序列中绝对位置编码为2的元素进行遮盖,即{13,Mask,57,113,31},以此类推,最终得到五条遮盖后的序列。其中,Mask即为上述遮盖编码,遮盖编码可以遮盖掉单字符元素的文字信息和位置信息,作为优选,遮盖编码可以用0来表示,即上述第二序列为{0,9,57,113,31}、{13,0,57,113,31}、{13,9,0,113,31}、{13,9,57,0,31}、{13,9,57,113,0}。
本申请实施例中,步骤S208将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列,以上述第二序列为例,则重新排列的第三序列可以是:{31,113,57,9,0},{31,113,57,0,13},{31,113,0,9,13},{31,0,57,9,13}及{0,113,57,9,13}。
可选地,步骤S210将第二序列和第三序列输入自编码语言模型,并将模型输出作为目标编码器可以包括以下步骤:
步骤1,将自编码语言模型的特征层划分为第一特征层和第二特征层,第一特征层用于对正向编码的输入序列进行特征提取,第二特征层用于对反向编码的输入序列进行特征提取;
步骤2,将第二序列输入第一特征层,得到第一特征层输出的第一特征,并将第三序列输入第二特征层,得到第二特征层输出的第二特征;
步骤3,利用第一特征和第二特征确定文本特征矩阵,并将文本特征矩阵作为目标编码器。
本申请实施例中,若自编码语言模型的特征层有N层,则可以将前N/2层作为上述第一特征层,后N/2层作为上述第二特征层。模型采用双向Transformer Encoder。将第二序列输入第一特征层,即将正向编码的第二序列{w1,w2,w3,w4}作为前N/2层的Transformer块的输入,将第三序列输入第二特征层,即将反向编码的第三序列{w4,w3,w2,w1}作为后N/2层的Transformer块的输入。经过前N/2层的Transformer块编码后的输出为{o1,o2,o3,o4},经过后N/2层的Transformer块编码后的输出为{z4,z3,z2,z1}。
本申请实施例中,上述前N/2层的Transformer块的输出{o1,o2,o3,o4}即为上述第一特征,是对正向编码输入的数据进行特征提取后得到的,上述后N/2层的Transformer块的输出{z4,z3,z2,z1}即为上述第二特征,是对反向编码输入的数据进行特征提取后得到的,可以利用第一特征{ol,o2,o3,o4}和第二特征{z4,z3,z2,z1}确定文本特征矩阵,该文本特征矩阵是一个高维空间的数学表示。
可选地,利用第一特征和第二特征确定文本特征矩阵包括:将第一特征和第二特征进行拼接;将拼接后的特征输入前馈神经网络层进行降维,得到目标编码器。
本申请实施例中,可以将第一特征和第二特征进行拼接,此时拼接后的向量矩阵的维度相比第一特征、第二特征扩大了一倍,因此需要前馈神经网络(feed-forwardnetwork,FFN)来进行降维,即可得到文本特征矩阵,该文本特征矩阵即可作为目标编码器,可以应用于下游任务(当做下游任务的编码器输出),这样下游任务就不再需要编码器的训练过程。
完整的编码公式如下:
on=Transformerf(w0,w1...wi...wn)
zn=Transformerb(wn...wi...w1,w0)
hn=FFN(Concat(on,zn))
式中,w0,w1...wi...wn为正向编码的输入序列(第二序列),wn...wi...w1,w0为反向编码的输入序列(第三序列),Transformerf()为正向编码进行特征提取的Transformer块,Transformerb()为反向编码进行特征提取的Transformer块,hn为上述文本特征矩阵。
可选地,得到目标编码器之后,该方法还包括:采用前馈神经网络层对文本特征矩阵进行降维,并利用归一化函数对降维后的文本特征矩阵进行概率预测,得到遮盖字符属于各个字符的概率值;将概率值进行反向传播,以对目标编码器的参数进行优化;在归一化函数得到的遮盖字符属于训练文本中的目标字符的概率达到最大值时,得到最终的目标编码器。
本申请实施例中,可以对目标编码器继续进行优化,以提升预测准确率。可以采用前馈神经网络对文本特征矩阵进行降维,采用softmax归一化目标函数来计算遮盖字属于具体某个字符的概率。将该概率进行反向传播,以最大化遮盖字属于训练文本中目标字符的概率为目标进行优化,在归一化函数得到的遮盖字符属于训练文本中的目标字符的概率达到最大值时,得到最终的目标编码器。
本申请技术方案为获取训练文本;将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。本申请在构建目标编码器时采用正向编码输入和反向编码输入来进行特征提取的训练,从而通过真正空间意义上的正反双向编码,提升编码器的特征表示能力,进而解决了句子末尾的翻译准确率持续降低的技术问题。
根据本申请实施例的又一方面,如图3所示,提供了一种双向编码的目标编码器构建装置,包括:获取模块301,用于获取训练文本;第一编码模块303,用于将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;遮盖模块305,用于按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;第二编码模块307,用于将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;目标编码器生成模块309,用于将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。
需要说明的是,该实施例中的获取模块301可以用于执行本申请实施例中的步骤S202,该实施例中的第一编码模块303可以用于执行本申请实施例中的步骤S204,该实施例中的遮盖模块305可以用于执行本申请实施例中的步骤S206,该实施例中的第二编码模块307可以用于执行本申请实施例中的步骤S208,该实施例中的目标编码器生成模块309可以用于执行本申请实施例中的步骤S210。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,该双向编码的目标编码器构建装置,还包括字典构建模块,用于:获取语料集合;将语料集合中的文本切分为单字符元素,相同的字符保留一个单字符元素;添加与各个单字符元素匹配的索引,得到由索引和单字符元素组成的键值对;将键值对作为集合的元素构建集合,得到字典。
可选地,该第一编码模块,具体用于:将训练文本切分为多个单字符元素,每个单字符元素具有绝对位置编码,绝对位置编码为按照单字符元素在训练文本中的位置顺序生成的;利用字典确定与各个单字符元素匹配的索引;将索引和相应单字符元素的绝对位置编码相加,得到融合单字符元素的文字信息和位置信息的目标编码;将与各个单字符元素匹配的目标编码按照每个单字符元素的绝对位置编码进行排列,得到第一序列。
可选地,该遮盖模块,具体用于:遍历第一序列,确定遍历次数与绝对位置编码相等的目标编码;将目标编码替换为遮盖编码,遮盖编码用于遮盖单字符元素的文字信息和位置信息;每遍历一次后,将遮盖后的第一序列作为第二序列。
可选地,该目标编码器生成模块,具体用于:将自编码语言模型的特征层划分为第一特征层和第二特征层,第一特征层用于对正向编码的输入序列进行特征提取,第二特征层用于对反向编码的输入序列进行特征提取;将第二序列输入第一特征层,得到第一特征层输出的第一特征,并将第三序列输入第二特征层,得到第二特征层输出的第二特征;利用第一特征和第二特征确定文本特征矩阵,并将文本特征矩阵作为目标编码器。
可选地,该目标编码器生成模块,还用于:将第一特征和第二特征进行拼接;将拼接后的特征输入前馈神经网络层进行降维,得到目标编码器。
可选地,该双向编码的目标编码器构建装置,还包括编码器优化模块,用于:采用前馈神经网络层对文本特征矩阵进行降维,并利用归一化函数对降维后的文本特征矩阵进行概率预测,得到遮盖字符属于各个字符的概率值;将概率值进行反向传播,以对目标编码器的参数进行优化;在归一化函数得到的遮盖字符属于训练文本中的目标字符的概率达到最大值时,得到最终的目标编码器。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
获取训练文本;
将训练文本按照字典中保存的编码关系编码为第一序列,第一序列的编码顺序与训练文本的文字顺序一致;
按照训练文本的文字顺序依次对第一序列中的每个元素进行遮盖,得到多个第二序列;
将每个第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;
将第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种双向编码的目标编码器构建方法,其特征在于,包括:
获取训练文本;
将所述训练文本按照字典中保存的编码关系编码为第一序列,其中,所述第一序列的编码顺序与所述训练文本的文字顺序一致;
按照所述训练文本的文字顺序依次对所述第一序列中的每个元素进行遮盖,得到多个第二序列;
将每个所述第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;
将所述第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器;
所述将所述第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器包括:将所述自编码语言模型的特征层划分为第一特征层和第二特征层,其中,所述第一特征层用于对正向编码的输入序列进行特征提取,所述第二特征层用于对反向编码的输入序列进行特征提取;将所述第二序列输入所述第一特征层,得到所述第一特征层输出的第一特征,并将所述第三序列输入所述第二特征层,得到所述第二特征层输出的第二特征;利用所述第一特征和所述第二特征确定文本特征矩阵,并将所述文本特征矩阵作为所述目标编码器;
所述利用所述第一特征和所述第二特征确定文本特征矩阵包括:将所述第一特征和所述第二特征进行拼接;将拼接后的特征输入前馈神经网络层进行降维,得到所述目标编码器;
得到所述目标编码器之后,所述方法还包括:采用所述前馈神经网络层对所述文本特征矩阵进行降维,并利用归一化函数对降维后的所述文本特征矩阵进行概率预测,得到遮盖字符属于各个字符的概率值;将所述概率值进行反向传播,以对所述目标编码器的参数进行优化;在所述归一化函数得到的所述遮盖字符属于所述训练文本中的目标字符的概率达到最大值时,得到最终的所述目标编码器。
2.根据权利要求1所述的方法,其特征在于,将所述训练文本按照预设字典的编码关系编码为第一序列之前,所述方法还包括按照如下方式构建所述字典:
获取语料集合;
将所述语料集合中的文本切分为单字符元素,其中,相同的字符保留一个所述单字符元素;
添加与各个所述单字符元素匹配的索引,得到由所述索引和所述单字符元素组成的键值对;
将所述键值对作为集合的元素构建集合,得到所述字典。
3.根据权利要求2所述的方法,其特征在于,将所述训练文本按照字典中保存的编码关系编码为第一序列包括:
将所述训练文本切分为多个所述单字符元素,其中,每个所述单字符元素具有绝对位置编码,所述绝对位置编码为按照所述单字符元素在所述训练文本中的位置顺序生成的;
利用所述字典确定与各个所述单字符元素匹配的所述索引;
将所述索引和相应所述单字符元素的所述绝对位置编码相加,得到融合所述单字符元素的文字信息和位置信息的目标编码;
将与各个所述单字符元素匹配的所述目标编码按照每个所述单字符元素的所述绝对位置编码进行排列,得到所述第一序列。
4.根据权利要求3所述的方法,其特征在于,按照所述训练文本的文字顺序依次对所述第一序列中的每个元素进行遮盖,得到多个第二序列包括:
遍历所述第一序列,确定遍历次数与所述绝对位置编码相等的所述目标编码;
将所述目标编码替换为遮盖编码,其中,所述遮盖编码用于遮盖所述单字符元素的文字信息和位置信息;
每遍历一次后,将遮盖后的所述第一序列作为所述第二序列。
5.一种双向编码的目标编码器构建装置,其特征在于,包括:
获取模块,用于获取训练文本;
第一编码模块,用于将所述训练文本按照字典中保存的编码关系编码为第一序列,其中,所述第一序列的编码顺序与所述训练文本的文字顺序一致;
遮盖模块,用于按照所述训练文本的文字顺序依次对所述第一序列中的每个元素进行遮盖,得到多个第二序列;
第二编码模块,用于将每个所述第二序列中的元素按照与当前排列顺序相反的顺序重新排列,得到多个第三序列;
目标编码器生成模块,用于将所述第二序列和所述第三序列输入自编码语言模型,并将模型输出作为目标编码器;
所述目标编码器生成模块,具体用于将所述自编码语言模型的特征层划分为第一特征层和第二特征层,其中,所述第一特征层用于对正向编码的输入序列进行特征提取,所述第二特征层用于对反向编码的输入序列进行特征提取;将所述第二序列输入所述第一特征层,得到所述第一特征层输出的第一特征,并将所述第三序列输入所述第二特征层,得到所述第二特征层输出的第二特征;利用所述第一特征和所述第二特征确定文本特征矩阵,并将所述文本特征矩阵作为所述目标编码器;
所述目标编码器生成模块,还用于:将所述第一特征和所述第二特征进行拼接;将拼接后的特征输入前馈神经网络层进行降维,得到所述目标编码器;
所述目标编码器生成模块,还用于:采用所述前馈神经网络层对所述文本特征矩阵进行降维,并利用归一化函数对降维后的所述文本特征矩阵进行概率预测,得到遮盖字符属于各个字符的概率值;将所述概率值进行反向传播,以对所述目标编码器的参数进行优化;在所述归一化函数得到的所述遮盖字符属于所述训练文本中的目标字符的概率达到最大值时,得到最终的所述目标编码器。
6.一种电子设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法的步骤。
7.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至4任一所述方法。
CN202011222787.8A 2020-11-05 2020-11-05 双向编码的目标编码器构建方法及装置 Active CN112329392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222787.8A CN112329392B (zh) 2020-11-05 2020-11-05 双向编码的目标编码器构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222787.8A CN112329392B (zh) 2020-11-05 2020-11-05 双向编码的目标编码器构建方法及装置

Publications (2)

Publication Number Publication Date
CN112329392A CN112329392A (zh) 2021-02-05
CN112329392B true CN112329392B (zh) 2023-12-22

Family

ID=74315787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222787.8A Active CN112329392B (zh) 2020-11-05 2020-11-05 双向编码的目标编码器构建方法及装置

Country Status (1)

Country Link
CN (1) CN112329392B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221581A (zh) * 2021-05-13 2021-08-06 北京小米移动软件有限公司 文本翻译的方法、装置及存储介质
CN113553857B (zh) * 2021-06-30 2023-06-23 北京百度网讯科技有限公司 文本处理方法和文本处理装置
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111460812A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 语句情感分类方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2734928A4 (en) * 2011-07-22 2015-06-24 Empirix Inc NETWORK MONITORING SYSTEMS AND METHODS AND TESTING THROUGH DIMENSION VALUES BASED PERFORMANCE INDICATORS

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111460812A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 语句情感分类方法及相关设备

Also Published As

Publication number Publication date
CN112329392A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112329392B (zh) 双向编码的目标编码器构建方法及装置
CN106776548B (zh) 一种文本的相似度计算的方法和装置
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111914067A (zh) 中文文本匹配方法及系统
US20210018332A1 (en) Poi name matching method, apparatus, device and storage medium
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
TW202004658A (zh) 深度神經網絡自我調整增量模型壓縮的方法
CN112487168A (zh) 知识图谱的语义问答方法、装置、计算机设备及存储介质
CN112884230B (zh) 基于多元时间序列的电力负荷预测方法、装置及相关组件
CN110825857A (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN113886571A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN111611346A (zh) 一种基于动态语义编码和双注意力的文本匹配方法及装置
CN112347756A (zh) 一种基于序列化证据抽取的推理阅读理解方法及系统
CN115309915B (zh) 知识图谱构建方法、装置、设备和存储介质
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN114781380A (zh) 一种融合多粒度信息的中文命名实体识别方法、设备和介质
CN114445808A (zh) 基于Swin Transformer的手写文字识别方法及系统
US20240152702A1 (en) Specific target-oriented social media tweet sentiment analysis method
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN111309896B (zh) 基于二级注意力的深度学习文本摘要生成方法
CN114254657B (zh) 一种翻译方法及其相关设备
CN116384401A (zh) 一种基于提示学习的命名实体识别方法
CN111783435A (zh) 共享词汇的选择方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant