CN111832292A

CN111832292A - 文本识别处理方法、装置、电子设备和存储介质

Info

Publication number: CN111832292A
Application number: CN202010494419.2A
Authority: CN
Inventors: 王硕寰; 丁思宇; 孙宇; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-10-27
Anticipated expiration: 2040-06-03
Also published as: JP7122365B2; US11663404B2; KR102497945B1; EP3920075A1; KR20210040851A; CN111832292B; US20210383064A1; JP2021190087A

Abstract

本申请公开了一种文本识别处理方法以及装置，涉及自然语言处理领域、深度学习领域。具体实现方案为：获取N个片段序列，其中，至少一个片段序列存在掩码；将N个片段序列输入至初始语言模型，获取与N个片段序列对应的第一文本向量信息；将每个片段序列再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息；若检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词；根据目标位置预设的原始词和预测词，训练初始语言模型的模型参数以生成长文本语言模型，根据该模型按照预设的目标任务对输入文本进行识别处理。

Description

文本识别处理方法、装置、电子设备和存储介质

技术领域

本申请的实施例总体上涉及计算机技术领域，并且更具体地，涉及自然语言处理领域、深度学习技术领域。

背景技术

近年来，以通用语义表示模型BERT为代表的预训练模型提出了“预训练+微调”的范式，其可以大幅提升各类NLP(Natural Language Processing，自然语言处理)任务的效果。BERT模型采用深层Transformer模型结构，使用海量无监督文本学习上下文相关表示，并使用通用统一的方式解决各类自然语言处理任务(例如文本匹配、文本生成、情感分类、文本摘要、问答、检索等)。

但是，目前主流的语义表示模型只能建模长度在较短长度(如512)以内的片段，对于像整篇文章这样长度超过512的文本难以建模，无法识别处理超长文本信息。

发明内容

提供了一种文本识别处理方法、装置、电子设备以及存储介质。

根据第一方面，提供了一种文本识别处理方法，包括：

获取N个片段序列，其中，至少一个片段序列存在掩码；

将所述N个片段序列依次输入至预设的初始语言模型，获取与所述N个片段序列对应的第一文本向量信息；

将每个所述片段序列依次再次输入至所述初始语言模型，获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息；

如果检测到所述当前输入的第N个片段序列中存在掩码，则根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测，获取与所述掩码对应目标位置的预测词；

根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型，根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。

根据第二方面，提供了一种文本识别处理装置，包括：

第一获取模块，用于获取N个片段序列，其中，至少一个片段序列存在掩码；

第二获取模块，用于将所述N个片段序列依次输入至预设的初始语言模型，获取与所述N个片段序列对应的第一文本向量信息；

第三获取模块，用于将每个所述片段序列依次再次输入至所述初始语言模型，获取与当前输入的第N个片段序列对应的前N个所述片段序列对应的第二文本向量信息；

预测模块，用于在检测到所述当前输入的第N个片段序列中存在掩码时，根据所述第二文本向量信息和所述第一文本向量信息对所述掩码进行预测，获取与所述掩码对应目标位置的预测词；

训练模块，用于根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型；

识别处理模块，用于根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的文本识别处理方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第一方面所述的文本识别处理方法。

根据本申请的技术方案，可获取N个片段序列，其中，至少一个片段序列存在掩码，并将N个片段序列输入至预设的初始语言模型，获取与N个片段序列对应的第一文本向量信息；将每个片段序列再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息，若检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词，之后，根据目标位置预设的原始词和预测词，训练初始语言模型的模型参数以生成长文本语言模型，根据该模型按照预设的目标任务对输入文本进行识别处理。由此可见，本申请通过将语料文本循环输入到模型中(即输入两遍到模型中)，将语料文本的第一遍输入到模型之中时，只用来生成该语料文本中片段序列的文本向量，此时并不对掩码进行预测学习，只有在第二遍输入该语料文本时，由于此时已经获得第一遍输入的片段序列的文本向量信息，此时可通过模型利用该第一遍输入而获得的片段序列所对应的文本向量信息，以及第二遍当前输入的片段序列对掩码进行预测，通过对掩码预测的正确与否回传梯度，从而实现对模型的训练，使得训练得到的模型可以处理超过512长度的文本。

另外，由于本申请采用的是分段建模的方式，对于512以内的文本，也能够较快的实现建模，提升建模速度。由于语料文本循环输入了两遍，使得每个片段序列都能够得到上下文信息，从而可以提高训练模型的性能，使得训练好的模型性能效果更好，从而可以有效提升自然语言处理任务的效果。

此外，本申请在利用片段序列对初始语言模型进行训练时，可以通过深度学习的方式进行训练，相比于其他机器学习方法，深度学习在大数据集上的表现更好。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的文本识别处理方法的流程图；

图2是根据本申请另一个实施例的文本识别处理方法的流程图；

图3是根据本申请实施例的长文本建模流程的示例图；

图4是根据本申请又一个实施例的文本识别处理方法的流程图；

图5是根据本申请实施例的分类任务输入的示例图；

图6根据本申请另一个实施例的文本识别处理方法的流程图；

图7是根据本申请实施例的文本摘要生成任务输入的示例图；

图8是根据本申请一个实施例的文本识别处理装置的结构框图；

图9是用来实现本申请实施例的用以实现文本识别处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请一个实施例的文本识别处理方法的流程图。需要说明的是，本申请实施例的文本识别处理方法可应用于本申请实施例的文本识别处理装置，该文本识别处理装置可被配置于电子设备上。

如图1所示，该文本识别处理方法可以包括：

步骤101，获取N个片段序列，其中，至少一个片段序列存在掩码。

在本申请的一些实施例中，可获取长文本语料，并将长文本语料的多个位置上的原始词分别替换成掩码，获取长文本遮掩语料，并按照预设的目标长度划分所述长文本遮掩语料获取N个片段序列。

其中，上述每个长文本语料的文本长度可超过一定阈值，例如，每个长文本语料可以是整篇文章，或每个长文本语料的长度远超过512。

可选地，在得到长文本语料之后，可对长文本语料进行实体识别，并将长文本语料中的实体所对应的原始词进行遮掩，利用掩码替换掉被遮掩的原始词，从而获得长文本遮掩语料，之后，可按照预设的目标长度对长文本遮掩语料进行片段划分，以得到N个片段序列。其中，该目标长度可为512。

举例而言，以“四大名著包括《西游记》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的古典小说中如四座屹立不倒的高山。”为例，可对该长文本语料进行实体识别，将该长文本语料中的“西游记”、“古典”实体词，利用掩码进行遮掩，以得到长文本遮掩语料“四大名著包括《[M][M][M]》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的[M][M]小说中如四座屹立不倒的高山。”，之后，可按照512长度对该长文本遮掩语料进行片段划分，以得到3个片段序列，即“四大名著包括《[M][M][M]》、《水浒传》、”、“《三国演义》、《红楼梦》，其在浩瀚如”、“烟的[M][M]小说中如四座屹立不倒的高山。”。

步骤102，将N个片段序列依次输入至预设的初始语言模型，获取与N个片段序列对应的第一文本向量信息。

在本步骤中，将N个片段序列依次输入至预设的初始语言模型之后，初始语言模型可对N个片段序列进行特征提取，以得到与N个片段序列对应的第一文本向量信息。

其中，在本申请的一些实施例中，上述初始语言模型可为Transformer-XL模型。由于Transformer-XL模型可采用Memor7机制以实现在片段之间传递信息。也就是说，在将N个片段序列依次输入到Transformer-XL模型之中，在此过程中，Transformer-XL模型对每个片段序列进行特征提取，以获得每个片段序列对应的文本向量信息，进而基于每个片段序列对应的文本向量信息，可以得到与N个片段序列对应的第一文本向量信息。

步骤103，将每个片段序列依次再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息。

也就是说，在将N个片段序列依次输入至预设的初始语言模型，以得到与N个片段序列对应的第一文本向量信息之后，可将每个片段序列依次再次输入至初始语言模型之中，以获得与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息。

举例而言，以“四大名著包括《西游记》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的古典小说中如四座屹立不倒的高山。”为例，假设对其划分以得到片段序列为“四大名著包括《[M][M][M]》、《水浒传》、”、“《三国演义》、《红楼梦》，其在浩瀚如”、“烟的[M][M]小说中如四座屹立不倒的高山。”，在将这三个片段序列第一次一次输入到初始Transformer-XL模型之中，在此过程中，只用来生成Memor7，即获得每个片段序列对应的文本向量信息，进而基于每个片段序列对应的文本向量信息，可以得到与该三个片段序列对应的第一文本向量信息。之后，可将这三个片段再次一次输入至初始Transformer-XL模型之中，此时，Transformer-XL模型可对当前输入的第N个片段序列进行特征提取，以得到与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息。

步骤104，如果检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词。

可选地，在将每个片段序列再次依次输入到初始语言模型时，初始语言模型此时需判断当前输入的第N个片段序列是否存在掩码，若存在，则需要对预测，以得到与掩码对应目标位置的预测词。也就是说，在将所述N个片段序列第二次输入到初始语言模型，初始语言模型对该第二遍输入的所述N个片段序列中的掩码进行预测，并根据预测结果对该初始语言模型进行训练学习。

也就是说，本申请是将长文本遮掩语料循环两次输入到初始语言模型中，首先将长文本遮掩语料的第一遍输入到初始语言模型之中，但此过程中，可通过初始语言模型用来生成长文本遮掩语料之中N个片段序列所对应的第一文本向量信息，此时初始语言模型之中并不进行预测以及不回传梯度。只有在长文本遮掩语料的第二遍输入到初始语言模型之中时，可通过初始语言模型对长文本遮掩语料之中N个片段序列中的掩码进行预测，并通过对掩码预测的正确与否回传损失LOSS，从而实现对初始语言模型的训练学习。

由此可见，在将N个片段序列第二遍输入到初始语言模型时，由于此时第一个输入的片段序列存在有前面片段的文本向量信息，所述前面片段即为第一遍输入的N个片段序列，此时在第二遍输入N个片段序列时，初始语言模型开始对该第二遍输入的N个片段序列进行训练学习，可以有效提高模型性能，从而可以有效提升自然语言处理任务的效果。

举例而言，以“四大名著包括《西游记》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的古典小说中如四座屹立不倒的高山。”为例，假设对其划分以得到片段序列为“四大名著包括《[M][M][M]》、《水浒传》、”、“《三国演义》、《红楼梦》，其在浩瀚如”、“烟的[M][M]小说中如四座屹立不倒的高山。”，在将上述三个片段序列第二遍输入到初始语言模型之中，由于排列在第一的“四大名著包括《[M][M][M]》、《水浒传》、”片段序列此时存在有前面三个片段序列的文本向量信息，所示前面三个片段序列即为上述三个片段序列第一遍输入到初始语言模型之中而得到的第一文本向量信息。这样，在对排列在第一的片段序列“四大名著包括《[M][M][M]》、《水浒传》、”进行掩码预测时，由于此时该片段序列存在有靠前片段的文本向量信息，所以可以很好的对其进行预测，从而通过该训练方式可以提高模型性能。

步骤105，根据目标位置预设的原始词和预测词，训练初始语言模型，获取模型参数生成长文本语言模型，根据长文本语言模型按照预设的目标任务对输入文本进行识别处理。

可选地，在获得与掩码对应目标位置的预测词之后，可根据目标位置预设的原始词和预测词，生成对应的损失值，并基于损失值对初始语言模型进行模型参数的调整，并根据调整后的模型对掩码进行再次预测学习，直至模型训练效果达到预设要求，训练好的模型即为长文本语言模型，即可以实现对超长文本进行语义表示。需要说明的是，在本申请实施例中，在对初始语言模型进行训练时，可通过深度学习的方式进行训练，相比对其他机器学习方法，深度学习在大数据集上的表现更好。

在本申请的一些实施例中，如图2所示，所述根据目标位置预设的原始词和预测词，训练初始语言模型，获取模型参数生成长文本语言模型的具体实现过程可如下：

步骤201，按照预设算法对目标位置预设的原始词和预测词生成第一损失值。

在本申请的一些实施例中，上述预设算法可为损失函数，通过损失函数用来评价模型的预测词和原始词不一样的程度。

步骤202，根据第一损失值和预设的目标函数训练初始语言模型，获取模型参数以生成长文本语言模型。

其中，上述目标函数可为目标损失值。可选地，在按照预设算法对目标位置预设的原始词和预测词生成第一损失值之后，可判断第一损失值和目标函数是否存在一定条件，比如第一损失值是否小于或等于目标损失值，若是，则表示模型已训练完成，将训练好的模型作为长文本语言模型；若第一损失值大于目标损失值，则表示模型需要继续训练，此时，可调整该模型的参数，并利用调整的模型对掩码进行预测，并通过对掩码预测的正确与否回传损失值，直至损失值小于或等于目标损失值，表示此时模型已训练完成，将训练好的模型作为长文本语言模型。

为了方便本领域技术人员理解，下面结合图3进行描述。

举例而言，以“四大名著包括《西游记》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的古典小说中如四座屹立不倒的高山。”为例，假设对其划分以得到片段序列为“四大名著包括《[M][M][M]》、《水浒传》、”、“《三国演义》、《红楼梦》，其在浩瀚如”、“烟的[M][M]小说中如四座屹立不倒的高山。”。如图3所示，可将“四大名著包括《[M][M][M]》、《水浒传》、”、“《三国演义》、《红楼梦》，其在浩瀚如”、“烟的[M][M]小说中如四座屹立不倒的高山。”这三个片段序列依次输入到初始语言模型之中，在Step1建模第一部分，这时虽然见到了掩码[M]字符，但因为还未见到全部的文本(即“四大名著包括《西游记》、《水浒传》、《三国演义》、《红楼梦》，其在浩瀚如烟的古典小说中如四座屹立不倒的高山。”该文本此时尚未全部输入初始语言模型之中)，所以不进行学习。在Step2中，将Step1部分提取到的内容通过Transformer-XL的Memory机制进行传递。Step3依次类推。对于Step4时，模型第二次见到了被掩盖成了[M][M][M]的西游记(即片段序列“四大名著包括《[M][M][M]》、《水浒传》、”被第二次输入到模型中)，这时模型进行预测，并进行梯度回传。之后的Step5因为没有掩码[M]字符，所以不进行学习。Step6对被掩码成的[M][M]的古典进行学习。直到这一段文本全部进入模型建模两次。学习下一段文本。通过这样的方式实现了长文本的预训练，从而得到长文本语言模型。

在得到长文本语言模型之后，可按照预设的目标任务获取对应的已标注样本语料，进而基于与目标任务对应的已标注样本语料对长文本语言模型进行微调，以得到适用于识别处于该目标任务的模型。其中，在本申请的一些实施例中，目标任务可以包括但不限于分类任务、序列类任务和生成任务。其中，分类任务可包括文档分类、语义匹配、问答分类等任务；序列类任务可包括命名实体识别和阅读理解等任务；生成任务可包括摘要生成、标题生成、对话生成等任务。

在本申请的一些实施例中，如图4所示，所述根据长文本语言模型按照预设的目标任务对输入文本进行识别处理的具体实现过程可包括：

步骤401，如果检测目标任务为分类任务，则对多个样本语料进行对应的类别标记。

也就是说，如果检测目标任务为分类任务，则表示要对长文本语言模型进行微调，以得到用以分类任务的分类模型。为了能够得到该用以分类任务的分类模型，此时可获取多个样本语料，并对这些样本语料进行类别标记。

需要说明的是，在本申请的实施例中，上述样本语料可包括第一语料和第二语料，其中，第一语料与第二语料具有相同文本内容，在对样本语料进行类别标记时，需在第二语料的后面进行类别标记。举例而言，以样本语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】为例，可以看出，该样本语料包含了相同的【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】语料，在对该样本语料进行类别标注时，可将在第二遍语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】的后面使用特殊的CLS位预测类别，即在【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】这个样本语料的句尾添加[CLS]符号，以将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类。例如，如图5所示，可将语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】循环输入两遍到长文本语言模型之中，其中，在语料输入第二遍完成时，在第二遍输入的语料句尾添加[CLS]符号。

步骤402，将多个样本语料和对应的类别标记输入到长文本语言模型进行训练，对模型参数进行调整，获取与分类任务对应的长文本语言模型。

可选地，将多个样本语料输入到长文本语言模型进行预测，得到与样本语料对应的预测类别，并根据预测类别和所述类别标记生成对应的损失值，并根据损失值对长文本语言模型的模型参数进行调整，并根据调整后的长文本语言模型再次对样本语料进行类别预测，以实现对该长文本语言模型针对分类任务的模型训练，从而可获得可适用于该分类任务的长文本语言模型。

步骤403，根据与分类任务对应的长文本语言模型对输入文本进行识别，获取与输入文本对应的目标类型。

在本申请的一些实施例中，如图6所示，所述根据长文本语言模型按照预设的目标任务对输入文本进行识别处理的具体实现过程可包括：

步骤601，如果检测目标任务为文本摘要生成任务，则对多个样本语料进行对应的摘要标记。

也就是说，如果检测目标任务为文本摘要生成任务，则表示要对长文本语言模型进行微调，以得到用以文本摘要生成任务的摘要生成模型。为了能够得到该用以文本摘要生成任务的摘要生成模型，此时可获取多个样本语料，并对这些样本语料进行摘要文本的标记。可以理解，该文本摘要生成任务的目标是基于一段文本A生成文本B。

需要说明的是，在本申请的实施例中，上述样本语料可包括第一语料和第二语料，其中，第一语料与第二语料具有相同文本内容，在对样本语料进行摘要文本的标记时，需在第二语料的后面进行摘要文本的标记。举例而言，以样本语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】为例，可以看出，该样本语料包含了相同的【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】语料，在对该样本语料进行摘要文本的标记时，可将在第二遍语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】的后面使用摘要文本(如徽州地理简介)进行标记，即在【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】这个样本语料的句尾添加“徽州地理简介”这一摘要文本，以用以摘要文本的生成。例如，如图7所示，可将语料【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】循环输入两遍到长文本语言模型之中，其中，在语料输入第二遍完成时，在第二遍输入的语料句尾添加“徽州地理简介”这一摘要文本。

步骤602，将多个样本语料和对应的摘要标记输入到长文本语言模型进行训练，对模型参数进行调整，获取与文本摘要生成任务对应的长文本语言模型。

可选地，将多个样本语料输入到长文本语言模型进行预测，得到与样本语料对应的预测值，并根据预测值和真实的摘要标记生成对应的损失值，并根据损失值对长文本语言模型的模型参数进行调整，并根据调整后的长文本语言模型再次对样本语料进行预测，以实现对该长文本语言模型针对文本摘要生成任务的模型训练，从而可获得可适用于该文本摘要生成任务的长文本语言模型。

步骤603，根据与分类任务对应的长文本语言模型对输入文本进行识别，获取与输入文本对应的文本摘要。

也就是说，在利用长文本语言模型训练适用于目标任务的模型时，所使用的训练语料需循环两次输入到长文本语言模型中，其中，在语料第二遍输入到长文本语言模型时，对第二遍输入的语料进行标注，进而基于两遍输入的语料以及标注对长文本语言模型进行微调，从而得到适用于目标任务的模型。例如，对于分类任务，可在语料文本输入第二遍完成时，使用特殊的CLS位预测类别；对于序列类任务：可在对第二遍输入的所有文本上做N维的Softmax操作，执行每个Token的序列化标注；对于生成任务：其目标是一段文本A生成文本B，与传统语言模型或者Seq2Seq(一种循环神经网络)方法不同的是，本申请在输入第二遍文本之后，再进行预测。例如，如图7所示，图中【徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。徽州向号“八分半山一分水，半分农田和庄园”。境内群峰参天，山丘屏列，岭谷交错，有深山、山谷，也有盆地、平原。】文本内容正常输入，【徽州地理简介】这一部分的文本内容通过Seq2Seq技术逐字生成进行训练和预测。

需要说明的是，本申请使用Transformer-XL作为模型的基本骨架，同时本申请在对初始语言模型进行预训练得到长文本语言模型的过程中，以及在对长文本语言模型进行微调的过程中，都使用的是Transformer-XL作为基本结构，而不会退化成Transformer，而现有技术中XLNet在微调过程中，其模型退化成了Transformer，此时模型无法处理长文本信息。而本申请在微调阶段仍然使用的是Transformer-XL，这样在微调之后依然可以解决长文本的问题。

根据本申请实施例的文本识别处理方法，可获取N个片段序列，其中，至少一个片段序列存在掩码，并将N个片段序列输入至预设的初始语言模型，获取与N个片段序列对应的第一文本向量信息；将每个片段序列再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息，若检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词，之后，根据目标位置预设的原始词和预测词，训练初始语言模型的模型参数以生成长文本语言模型，根据该模型按照预设的目标任务对输入文本进行识别处理。由此可见，本申请通过将语料文本循环输入到模型中(即输入两遍到模型中)，将语料文本的第一遍输入到模型之中时，只用来生成该语料文本中片段序列的文本向量，此时并不对掩码进行预测学习，只有在第二遍输入该语料文本时，由于此时已经获得第一遍输入的片段序列的文本向量信息，此时可通过模型利用该第一遍输入而获得的片段序列所对应的文本向量信息，以及第二遍当前输入的片段序列对掩码进行预测，通过对掩码预测的正确与否回传梯度，从而实现对模型的训练，从而使得训练得到的模型可以处理超过512长度的文本。

为了实现上述实施例，本申请提出了一种文本识别处理装置。

图8是根据本申请一个实施例的文本识别处理装置的结构框图。如图8所示，该文本识别处理装置800可以包括：第一获取模块801、第二获取模块802、第三获取模块803、预测模块804、训练模块805和识别处理模块806。

具体地，第一获取模块801用于获取N个片段序列，其中，至少一个片段序列存在掩码。在本申请的一些实施例中，第一获取模块801具体用于：获取长文本语料，并将长文本语料的多个位置上的原始词分别替换成掩码，获取长文本遮掩语料；按照预设的目标长度划分长文本遮掩语料获取N个片段序列。

第二获取模块802用于将N个片段序列依次输入至预设的初始语言模型，获取与N个片段序列对应的第一文本向量信息。

第三获取模块803用于将每个片段序列依次再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息。

预测模块804用于在检测到当前输入的第N个片段序列中存在掩码时，根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词。

训练模块805用于根据目标位置预设的原始词和预测词，训练初始语言模型，获取模型参数生成长文本语言模型。在本申请的一些实施例中，训练模块805具体用于：按照预设算法对目标位置预设的原始词和预测词生成第一损失值；根据第一损失值和预设的目标函数训练初始语言模型，获取模型参数以生成长文本语言模型。

识别处理模块806用于根据长文本语言模型按照预设的目标任务对输入文本进行识别处理。在本申请的一些实施例中，识别处理模块806具体用于：如果检测目标任务为分类任务，则对多个样本语料进行对应的类别标记；将多个样本语料和对应的类别标记输入到长文本语言模型进行训练，对模型参数进行调整，获取与分类任务对应的长文本语言模型；根据与分类任务对应的长文本语言模型对输入文本进行识别，获取与输入文本对应的目标类型。

在本申请的一些实施例中，识别处理模块806具体用于：如果检测目标任务为文本摘要生成任务，则对多个样本语料进行对应的摘要标记；将多个样本语料和对应的摘要标记输入到长文本语言模型进行训练，对模型参数进行调整，获取与文本摘要生成任务对应的长文本语言模型；根据与分类任务对应的长文本语言模型对输入文本进行识别，获取与输入文本对应的文本摘要。

根据本申请实施例的文本识别处理装置，可获取N个片段序列，其中，至少一个片段序列存在掩码，并将N个片段序列输入至预设的初始语言模型，获取与N个片段序列对应的第一文本向量信息；将每个片段序列再次输入至初始语言模型，获取与当前输入的第N个片段序列对应的前N个片段序列对应的第二文本向量信息，若检测到当前输入的第N个片段序列中存在掩码，则根据第二文本向量信息和第一文本向量信息对掩码进行预测，获取与掩码对应目标位置的预测词，之后，根据目标位置预设的原始词和预测词，训练初始语言模型的模型参数以生成长文本语言模型，根据该模型按照预设的目标任务对输入文本进行识别处理。由此可见，本申请通过将语料文本循环输入到模型中(即输入两遍到模型中)，将语料文本的第一遍输入到模型之中时，只用来生成该语料文本中片段序列的文本向量，此时并不对掩码进行预测学习，只有在第二遍输入该语料文本时，由于此时已经获得第一遍输入的片段序列的文本向量信息，此时可通过模型利用该第一遍输入而获得的片段序列所对应的文本向量信息，以及第二遍当前输入的片段序列对掩码进行预测，通过对掩码预测的正确与否回传梯度，从而实现对模型的训练，从而使得训练得到的模型可以处理超过512长度的文本。另外，由于本申请采用的是分段建模的方式，对于512以内的文本，也能够较快的实现建模，提升建模速度。由于语料文本循环输入了两遍，使得每个片段序列都能够得到上下文信息，从而可以提高训练模型的性能，使得训练好的模型性能效果更好，从而可以有效提升自然语言处理任务的效果。此外，本申请在利用片段序列对初始语言模型进行训练时，可以通过深度学习的方式进行训练，相比于其他机器学习方法，深度学习在大数据集上的表现更好。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的用以实现文本识别处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文本识别处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文本识别处理方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文本识别处理方法对应的程序指令/模块(例如，附图8所示的第一获取模块801、第二获取模块802、第三获取模块803、预测模块804、训练模块805和识别处理模块806)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文本识别处理方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用以实现文本识别处理方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至用以实现文本识别处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现文本识别处理方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与用以实现文本识别处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，可通过将语料文本循环输入到模型中(即输入两遍到模型中)，将语料文本的第一遍输入到模型之中时，只用来生成该语料文本中片段序列的文本向量，此时并不对掩码进行预测学习，只有在第二遍输入该语料文本时，由于此时已经获得第一遍输入的片段序列的文本向量信息，此时可通过模型利用该第一遍输入而获得的片段序列所对应的文本向量信息，以及第二遍当前输入的片段序列对掩码进行预测，通过对掩码预测的正确与否回传梯度，从而实现对模型的训练，从而使得训练得到的模型可以处理超过512长度的文本，由于本申请采用的是分段建模的方式，对于512以内的文本，也能够较快的实现建模，提升建模速度。由于语料文本循环输入了两遍，使得每个片段序列都能够得到上下文信息，从而可以提高训练模型的性能，使得训练好的模型性能效果更好。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本识别处理方法，其特征在于，包括：

获取N个片段序列，其中，至少一个片段序列存在掩码；

2.根据权利要求1所述的文本识别处理方法，所述获取N个片段序列，其中，至少一个片段序列存在掩码，包括：

获取长文本语料，并将所述长文本语料的多个位置上的原始词分别替换成掩码，获取长文本遮掩语料；

按照预设的目标长度划分所述长文本遮掩语料获取N个片段序列。

3.根据权利要求1所述的文本识别处理方法，所述根据所述目标位置预设的原始词和所述预测词，训练所述初始语言模型，获取模型参数生成长文本语言模型，包括：

按照预设算法对所述目标位置预设的原始词和所述预测词生成第一损失值；

根据所述第一损失值和预设的目标函数训练所述初始语言模型，获取模型参数以生成长文本语言模型。

4.根据权利要求1所述的文本识别处理方法，所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理，包括：

如果检测所述目标任务为分类任务，则对多个样本语料进行对应的类别标记；

将所述多个样本语料和对应的类别标记输入到所述长文本语言模型进行训练，对所述模型参数进行调整，获取与所述分类任务对应的长文本语言模型；

根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别，获取与所述输入文本对应的目标类型。

5.根据权利要求1所述的文本识别处理方法，所述根据所述长文本语言模型按照预设的目标任务对输入文本进行识别处理，包括：

如果检测所述目标任务为文本摘要生成任务，则对多个样本语料进行对应的摘要标记；

将所述多个样本语料和对应的摘要标记输入到所述长文本语言模型进行训练，对所述模型参数进行调整，获取与所述文本摘要生成任务对应的长文本语言模型；

根据与所述分类任务对应的长文本语言模型对所述输入文本进行识别，获取与所述输入文本对应的文本摘要。

6.一种文本识别处理装置，其特征在于，包括：

7.根据权利要求6所述的文本识别处理装置，其特征在于，所述第一获取模块具体用于：

8.根据权利要求6所述的文本识别处理装置，其特征在于，所述训练模块具体用于：

9.根据权利要求6所述的文本识别处理装置，其特征在于，所述识别处理模块具体用于：

10.根据权利要求6所述的文本识别处理装置，其特征在于，所述识别处理模块具体用于：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的文本识别处理方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述的文本识别处理方法。